久久99激情综合网_色五月激情中文字幕_国产女主播在线播放_大粗鳮巴久久久久久久久 _六月丁香深爱六月综合激情_五月丁香啪啪_攵女乱h靡乱之爱小说_国产色情18一20岁片a片下载_国产精品一区二区熟女不卡_成人综合亚洲欧美一区h

我的位置:首頁(yè)>文章詳情

知乎上線“AI搜索”功能 中文語(yǔ)料資源短缺有待破解

3月20日,知乎正式發(fā)布了全新AI功能“發(fā)現(xiàn)·AI搜索”。這也是繼去年發(fā)布“知海圖AI”大模型后,知乎在人工智能方面的又一重要進(jìn)展。

據(jù)知乎創(chuàng)始人、董事長(zhǎng)兼CEO周源介紹,知乎的AI搜索集搜索、實(shí)時(shí)問(wèn)答和追問(wèn)功能于一體,而且與其他大模型提供的內(nèi)容不同,知乎AI搜索的內(nèi)容均來(lái)自社區(qū)專業(yè)創(chuàng)作者的可信賴內(nèi)容。

上圖為記者測(cè)試知乎AI搜索

記者測(cè)試發(fā)現(xiàn),在知乎AI搜索中提問(wèn)“如何使用大模型”,除了其他語(yǔ)言大模型都有的文字回答外,知乎AI搜索還在結(jié)果上面列入了內(nèi)容來(lái)源,比如記者測(cè)試的問(wèn)題答案,就有6位答主參與了貢獻(xiàn),并且可以通過(guò)點(diǎn)擊直接跳轉(zhuǎn)至這些回答頁(yè)面。

知乎COO、高級(jí)副總裁、社區(qū)業(yè)務(wù)負(fù)責(zé)人張寧在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,知乎的AI產(chǎn)品一定是建立在社區(qū)生態(tài)上面的?!拔覀円恢痹谒伎嫉氖牵珹I搜索搜出的結(jié)果,如何再反哺給創(chuàng)作者,讓創(chuàng)作者感覺(jué)到內(nèi)容是被更多人看到的”。

所以在內(nèi)容呈現(xiàn)上,知乎有別于其他模型,會(huì)在回答內(nèi)容中標(biāo)注內(nèi)容來(lái)源,這樣既提升了內(nèi)容的可溯源性,加大了對(duì)創(chuàng)作者的曝光,同時(shí)也大大增強(qiáng)了用戶對(duì)內(nèi)容的信任度。

記者了解到,知乎的AI搜索功能是以AI創(chuàng)業(yè)公司面壁智能的大模型產(chǎn)品為基礎(chǔ)。面壁智能成立于2022年8月,創(chuàng)始成員全部來(lái)自清華大學(xué)NLP實(shí)驗(yàn)室。2023年3月,知乎作為領(lǐng)投方參與了面壁智能的天使輪融資,同年4月,知乎聯(lián)合面壁智能發(fā)布了“知海圖AI”中文大模型。

周源此前曾向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,在AI時(shí)代,生產(chǎn)力的三要素分別是應(yīng)用場(chǎng)景、專有數(shù)據(jù)和基礎(chǔ)模型。其中,知乎在應(yīng)用場(chǎng)景和專有數(shù)據(jù)方面,占據(jù)獨(dú)特優(yōu)勢(shì)。而在基礎(chǔ)模型方面,投資面壁智能并與其進(jìn)行模型共建,是知乎構(gòu)建基礎(chǔ)模型層能力時(shí),選擇的一條捷徑。

而這次“AI搜索”功能上線,算是知乎在大模型技術(shù)應(yīng)用上的一個(gè)階段性成果。張寧告訴21世紀(jì)經(jīng)濟(jì)報(bào)道,知乎針對(duì)AIGC的布局,在ToC產(chǎn)品上會(huì)聚焦于“AI搜索”。

“因?yàn)锳I搜索跟知乎用戶的心智是高度對(duì)齊的,用戶希望在知乎解決問(wèn)題,希望獲得專業(yè)可信賴的優(yōu)質(zhì)解答,而正是AI搜索所提供的能力”。張寧說(shuō)。

所以接下來(lái),知乎也會(huì)在AI搜索方面投入更多精力,包括在特定的專業(yè)領(lǐng)域上進(jìn)行更多的數(shù)據(jù)標(biāo)注,以提高生成內(nèi)容的可信度。

目前,市面上做AI搜索的公司已經(jīng)不少,對(duì)知乎而言,其擁有的一大優(yōu)勢(shì)就是高質(zhì)量的中文語(yǔ)料。公開數(shù)據(jù)顯示,截至2022年底,知乎累計(jì)擁有6310萬(wàn)名內(nèi)容創(chuàng)作者,他們貢獻(xiàn)了約5.06億條問(wèn)答內(nèi)容,覆蓋超過(guò)1000個(gè)垂直領(lǐng)域。

在大模型訓(xùn)練過(guò)程中,訓(xùn)練預(yù)料質(zhì)量將直接影響大模型輸出內(nèi)容質(zhì)量。各個(gè)廠商為了提升模型質(zhì)量,往往會(huì)投入大量資源對(duì)數(shù)據(jù)進(jìn)行標(biāo)注。但張寧向記者表示,知乎在數(shù)據(jù)標(biāo)注上的投入,遠(yuǎn)低于其他廠商。

張寧進(jìn)一步表示,知乎AI搜索的第一個(gè)版本在春節(jié)前一周就已經(jīng)上線,后面經(jīng)過(guò)一個(gè)多月的灰度測(cè)試,“我們收到的整體反饋是,回答質(zhì)量要高于預(yù)期”。

在張寧看來(lái),這個(gè)結(jié)果也印證了知乎中文語(yǔ)料的優(yōu)質(zhì)?!罢f(shuō)實(shí)話,這么短的時(shí)間內(nèi)我們不太可能做特別大規(guī)模的數(shù)據(jù)標(biāo)注,但取得這樣的結(jié)果,說(shuō)明我們的數(shù)據(jù)底子好。過(guò)去大家一直說(shuō)知乎的內(nèi)容質(zhì)量高,這次也通過(guò)AI訓(xùn)練的方式進(jìn)行了驗(yàn)證”。

不過(guò),按照大模型的發(fā)展速度,知乎儲(chǔ)備的中文語(yǔ)料數(shù)據(jù)未來(lái)或也將捉襟見肘。今年年初,周源在接受記者采訪時(shí)也曾提到中文語(yǔ)料短缺的問(wèn)題。他說(shuō),中文優(yōu)質(zhì)數(shù)據(jù)的稀缺,導(dǎo)致國(guó)內(nèi)許多從事大模型開發(fā)的研究機(jī)構(gòu)和企業(yè)在進(jìn)行模型訓(xùn)練時(shí),不得不依賴于外文標(biāo)注數(shù)據(jù)集、開源數(shù)據(jù)集,或是爬取網(wǎng)絡(luò)數(shù)據(jù)。

在他看來(lái),解決中文語(yǔ)料資源短缺的問(wèn)題,實(shí)際上應(yīng)該是先構(gòu)建“水庫(kù)”,然后再去合理使用的過(guò)程。但是現(xiàn)在,行業(yè)對(duì)構(gòu)建“水庫(kù)”的工作重視不夠,反而都比較看重怎么去“打水”,所以未來(lái)幾年,中文語(yǔ)料資源短缺都將是一個(gè)特別嚴(yán)重的問(wèn)題。(記者 白楊)

來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道

責(zé)任編輯:王海山

評(píng)論一下
評(píng)論 0人參與,0條評(píng)論
還沒(méi)有評(píng)論,快來(lái)?yè)屔嘲l(fā)吧!
最熱評(píng)論
最新評(píng)論
已有0人參與,點(diǎn)擊查看更多精彩評(píng)論

請(qǐng)輸入驗(yàn)證碼

<i id="q3nkr"></i>
<noscript id="q3nkr"><input id="q3nkr"><div id="q3nkr"></div></input></noscript>

<bdo id="q3nkr"><span id="q3nkr"><meter id="q3nkr"></meter></span></bdo>