3月20日,知乎正式發(fā)布了全新AI功能“發(fā)現(xiàn)·AI搜索”。這也是繼去年發(fā)布“知海圖AI”大模型后,知乎在人工智能方面的又一重要進(jìn)展。
據(jù)知乎創(chuàng)始人、董事長(zhǎng)兼CEO周源介紹,知乎的AI搜索集搜索、實(shí)時(shí)問(wèn)答和追問(wèn)功能于一體,而且與其他大模型提供的內(nèi)容不同,知乎AI搜索的內(nèi)容均來(lái)自社區(qū)專業(yè)創(chuàng)作者的可信賴內(nèi)容。

上圖為記者測(cè)試知乎AI搜索
記者測(cè)試發(fā)現(xiàn),在知乎AI搜索中提問(wèn)“如何使用大模型”,除了其他語(yǔ)言大模型都有的文字回答外,知乎AI搜索還在結(jié)果上面列入了內(nèi)容來(lái)源,比如記者測(cè)試的問(wèn)題答案,就有6位答主參與了貢獻(xiàn),并且可以通過(guò)點(diǎn)擊直接跳轉(zhuǎn)至這些回答頁(yè)面。
知乎COO、高級(jí)副總裁、社區(qū)業(yè)務(wù)負(fù)責(zé)人張寧在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,知乎的AI產(chǎn)品一定是建立在社區(qū)生態(tài)上面的?!拔覀円恢痹谒伎嫉氖牵珹I搜索搜出的結(jié)果,如何再反哺給創(chuàng)作者,讓創(chuàng)作者感覺(jué)到內(nèi)容是被更多人看到的”。
所以在內(nèi)容呈現(xiàn)上,知乎有別于其他模型,會(huì)在回答內(nèi)容中標(biāo)注內(nèi)容來(lái)源,這樣既提升了內(nèi)容的可溯源性,加大了對(duì)創(chuàng)作者的曝光,同時(shí)也大大增強(qiáng)了用戶對(duì)內(nèi)容的信任度。
記者了解到,知乎的AI搜索功能是以AI創(chuàng)業(yè)公司面壁智能的大模型產(chǎn)品為基礎(chǔ)。面壁智能成立于2022年8月,創(chuàng)始成員全部來(lái)自清華大學(xué)NLP實(shí)驗(yàn)室。2023年3月,知乎作為領(lǐng)投方參與了面壁智能的天使輪融資,同年4月,知乎聯(lián)合面壁智能發(fā)布了“知海圖AI”中文大模型。
周源此前曾向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,在AI時(shí)代,生產(chǎn)力的三要素分別是應(yīng)用場(chǎng)景、專有數(shù)據(jù)和基礎(chǔ)模型。其中,知乎在應(yīng)用場(chǎng)景和專有數(shù)據(jù)方面,占據(jù)獨(dú)特優(yōu)勢(shì)。而在基礎(chǔ)模型方面,投資面壁智能并與其進(jìn)行模型共建,是知乎構(gòu)建基礎(chǔ)模型層能力時(shí),選擇的一條捷徑。
而這次“AI搜索”功能上線,算是知乎在大模型技術(shù)應(yīng)用上的一個(gè)階段性成果。張寧告訴21世紀(jì)經(jīng)濟(jì)報(bào)道,知乎針對(duì)AIGC的布局,在ToC產(chǎn)品上會(huì)聚焦于“AI搜索”。
“因?yàn)锳I搜索跟知乎用戶的心智是高度對(duì)齊的,用戶希望在知乎解決問(wèn)題,希望獲得專業(yè)可信賴的優(yōu)質(zhì)解答,而正是AI搜索所提供的能力”。張寧說(shuō)。
所以接下來(lái),知乎也會(huì)在AI搜索方面投入更多精力,包括在特定的專業(yè)領(lǐng)域上進(jìn)行更多的數(shù)據(jù)標(biāo)注,以提高生成內(nèi)容的可信度。
目前,市面上做AI搜索的公司已經(jīng)不少,對(duì)知乎而言,其擁有的一大優(yōu)勢(shì)就是高質(zhì)量的中文語(yǔ)料。公開數(shù)據(jù)顯示,截至2022年底,知乎累計(jì)擁有6310萬(wàn)名內(nèi)容創(chuàng)作者,他們貢獻(xiàn)了約5.06億條問(wèn)答內(nèi)容,覆蓋超過(guò)1000個(gè)垂直領(lǐng)域。
在大模型訓(xùn)練過(guò)程中,訓(xùn)練預(yù)料質(zhì)量將直接影響大模型輸出內(nèi)容質(zhì)量。各個(gè)廠商為了提升模型質(zhì)量,往往會(huì)投入大量資源對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。但張寧向記者表示,知乎在數(shù)據(jù)標(biāo)注上的投入,遠(yuǎn)低于其他廠商。
張寧進(jìn)一步表示,知乎AI搜索的第一個(gè)版本在春節(jié)前一周就已經(jīng)上線,后面經(jīng)過(guò)一個(gè)多月的灰度測(cè)試,“我們收到的整體反饋是,回答質(zhì)量要高于預(yù)期”。
在張寧看來(lái),這個(gè)結(jié)果也印證了知乎中文語(yǔ)料的優(yōu)質(zhì)?!罢f(shuō)實(shí)話,這么短的時(shí)間內(nèi)我們不太可能做特別大規(guī)模的數(shù)據(jù)標(biāo)注,但取得這樣的結(jié)果,說(shuō)明我們的數(shù)據(jù)底子好。過(guò)去大家一直說(shuō)知乎的內(nèi)容質(zhì)量高,這次也通過(guò)AI訓(xùn)練的方式進(jìn)行了驗(yàn)證”。
不過(guò),按照大模型的發(fā)展速度,知乎儲(chǔ)備的中文語(yǔ)料數(shù)據(jù)未來(lái)或也將捉襟見肘。今年年初,周源在接受記者采訪時(shí)也曾提到中文語(yǔ)料短缺的問(wèn)題。他說(shuō),中文優(yōu)質(zhì)數(shù)據(jù)的稀缺,導(dǎo)致國(guó)內(nèi)許多從事大模型開發(fā)的研究機(jī)構(gòu)和企業(yè)在進(jìn)行模型訓(xùn)練時(shí),不得不依賴于外文標(biāo)注數(shù)據(jù)集、開源數(shù)據(jù)集,或是爬取網(wǎng)絡(luò)數(shù)據(jù)。
在他看來(lái),解決中文語(yǔ)料資源短缺的問(wèn)題,實(shí)際上應(yīng)該是先構(gòu)建“水庫(kù)”,然后再去合理使用的過(guò)程。但是現(xiàn)在,行業(yè)對(duì)構(gòu)建“水庫(kù)”的工作重視不夠,反而都比較看重怎么去“打水”,所以未來(lái)幾年,中文語(yǔ)料資源短缺都將是一個(gè)特別嚴(yán)重的問(wèn)題。(記者 白楊)
來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道
責(zé)任編輯:王海山

請(qǐng)輸入驗(yàn)證碼