99视频精品,69式视频www免费视频,亚洲?成人?综合?另类?小说,最近最新中文字幕完整版免费高清 ,亚洲精品一区二区三区中文字幕

2023 AI 大語言模型 TOP10

2023-05-19 11:24:55 來源:ZAKER科技
(注:本次評測時(shí)間截至 2023.5.10,評價(jià)指標(biāo)主要包括語義理解、邏輯推理、情感分析、百科知識、文本質(zhì)量五個(gè)維度)

今年春節(jié)檔,一部《流浪地球 2》點(diǎn)燃了沉寂許久的中國科幻電影市場,也讓 MOSS 這一電影里冷酷無情的強(qiáng)人工智能形象變得深入人心。

無獨(dú)有偶,幾乎是相同時(shí)期,ChatGPT 憑借極其出色的文本生成和對話交互能力在世界范圍內(nèi)迅速走紅,短短兩個(gè)月月活用戶已經(jīng)破億,刷新了消費(fèi)級應(yīng)用程序用戶增長的速度紀(jì)錄。


(資料圖片)

從某種角度看,ChatGPT 之所以能夠引發(fā)現(xiàn)象級的社會(huì)現(xiàn)象,除了海量數(shù)據(jù)訓(xùn)練引發(fā)的質(zhì)變因素外,更重要的是在一個(gè)恰當(dāng)?shù)臅r(shí)機(jī),滿足了人們長期以來對人工智能的想象,過往科幻作品中的猜想開始逐漸變?yōu)楝F(xiàn)實(shí)。

時(shí)代變革的大幕已掀開一角,一場由 OpenAI 引領(lǐng)的全球 AI 大語言模型軍備競賽就此打響。

雨后春筍

3 月 14 日,GPT-4 正式發(fā)布,大語言模型開始具備圖片和文字同時(shí)處理的多模態(tài)能力,繼續(xù)占據(jù)先入為主的優(yōu)勢。

全球大廠中,率先回應(yīng)的是百度。3 月 16 日,百度大語言模型 " 文心一言 " 正式推出,對外啟動(dòng)邀測。據(jù)公開報(bào)道,文心一言具備五項(xiàng)核心能力:文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解和多模態(tài)生成。

緊接著,其他科技企業(yè)也陸續(xù)跟進(jìn)。4 月 11 日,2023 阿里云峰會(huì)現(xiàn)場演示了通義千問的多項(xiàng)功能,并定向邀請企業(yè)用戶進(jìn)行體驗(yàn)測試;5 月 10 日,谷歌時(shí)隔一年推出了新一代語言大模型 PaLM2,被視為對此前發(fā)布會(huì)翻車的有力回應(yīng)。

此外,還有復(fù)旦大學(xué)在 2 月 21 日發(fā)布的 "MOSS"、清華大學(xué) 3 月 28 日發(fā)布的 "ChatGLM-6B"、360 于 4 月 10 日發(fā)布的 "360 智腦 "、商湯科技 4 月 10 日發(fā)布的 " 商量 "、5 月 6 日發(fā)布的 " 訊飛星火認(rèn)知大模型 " 等等。

截至 5 月,據(jù)不完全統(tǒng)計(jì),國內(nèi)已有超過 40 家公司、機(jī)構(gòu)發(fā)布了大模型產(chǎn)品或公布了大模型計(jì)劃。項(xiàng)目數(shù)量井噴式的爆發(fā),可預(yù)見的是,下半年的國內(nèi) AI 大模型市場競爭將會(huì)變得空前激烈。

不止于 " 大 "

提到大模型,很多人的關(guān)注點(diǎn)都會(huì)放在 " 大 " 字上,畢竟足夠量級的參數(shù)是語言模型實(shí)現(xiàn)智能涌現(xiàn)、形成質(zhì)變的基礎(chǔ)。比如,不少大語言模型的參數(shù)量級達(dá)千億級,這也就意味著較為豐富的語言知識與較廣泛的語境理解能力。

不過,目前類 GPT 模型普遍采用的是 Transformer 架構(gòu),所以必然包含市面上存在的大量文本數(shù)據(jù)例如小說、教科書、論壇、開源代碼等內(nèi)容的無監(jiān)督預(yù)訓(xùn)練過程,在此基礎(chǔ)上,僅需根據(jù)具體任務(wù)輸入少量的標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)。在這樣的模式下,訓(xùn)練數(shù)據(jù)集質(zhì)量的重要性開始愈發(fā)凸顯。

本次評測的結(jié)果就可以印證這一點(diǎn)。評測主要考察各大語言模型在中文語境下的理解與生成能力,基于目前用戶對大語言模型在生活、辦公的普遍需求,選取語義理解、邏輯推理、情感分析、百科知識、文本質(zhì)量五個(gè)通用底層維度,以評估各大語言模型協(xié)助用戶日常處理事務(wù)、解決核心問題的能力,取 0(無效應(yīng)答)、1(有效應(yīng)答)兩個(gè)分?jǐn)?shù),其中文本質(zhì)量維度按照行文邏輯、信息密度,取 0(一般)、0.5(良好)、1(優(yōu)秀)三個(gè)分?jǐn)?shù)。

評測問題也有別于針對 BERT 類判別式 AI 模型的選擇問法,采用更加適合 AI 生成式模型的相對開放式問法,以下為部分問題及回答評分示例:

在 "I"ve got a thing for you,用文言文表達(dá)這句話 " 這一問題中,ChatGPT 給出的回答是:" 朕對汝有所鐘情。" 理解正確,但生成文本質(zhì)量欠佳,取 0.5 分。文心一言的輸出內(nèi)容:" 吾心向汝,實(shí)生情之。" 文義相符,質(zhì)量較高,取 1 分。星火認(rèn)知大模型回答為:" 吾有物以贈(zèng)君。" 存在理解有誤的情況,取 0 分。

從結(jié)果看 ChatGPT 在語義理解、邏輯推理、百科知識、文本質(zhì)量四項(xiàng)中分別以 18、19、19、18.5 排名第一,綜合表現(xiàn)位居榜首,特別是在科技、學(xué)術(shù)、新聞等領(lǐng)域的文本生成部分領(lǐng)域表現(xiàn)突出,不過在相對復(fù)雜的情景下的情感識別,以及散文、詩歌、文言文等較為考察深度理解能力方面表現(xiàn)相對乏善可陳;

文心一言,作為首個(gè)全球大廠推出的知識增強(qiáng)大語言模型,本次排名位居國產(chǎn)大語言模型之首,效果僅次于 ChatGPT,且在語義理解、情感分析兩項(xiàng)位列第一,分?jǐn)?shù)分別為 18、19,這或許與百度使用的自有數(shù)據(jù)集有關(guān),在質(zhì)量較高的文庫文本、百科數(shù)據(jù)等中文語料的訓(xùn)練下,在語義理解和情感分析方面具有很高的精度,可以識別出復(fù)雜的情感表達(dá)和語言隱喻;

除此以外,谷歌 PaLM 在邏輯推理部分(分?jǐn)?shù) 19)、通義千問在語義理解(分?jǐn)?shù) 17)、清華 ChatGLM 在文本質(zhì)量(分?jǐn)?shù) 15.5)等成績均可圈可點(diǎn)。

結(jié)語

未來大模型的迭代也將更有針對性,對開發(fā)者的評估能力提出更高的要求。如何在有限的時(shí)間和資源條件下做出客觀的評價(jià)并給出有用的反饋,讓數(shù)據(jù)團(tuán)隊(duì)更有針對性地準(zhǔn)備數(shù)據(jù),讓研發(fā)不偏離方向,保障模型的健康迭代,將是所有行業(yè)從業(yè)者的共同挑戰(zhàn)。

《互聯(lián)網(wǎng)周刊》也將持續(xù)跟蹤與關(guān)注各大語言模型的更新與迭代情況,定期進(jìn)行相關(guān)評測與分析。未來,相信隨著算法、硬件、數(shù)據(jù)和應(yīng)用場景的不斷發(fā)展,大型語言模型將會(huì)在各種自然語言處理任務(wù)中發(fā)揮更加重要的作用,為社會(huì)創(chuàng)造更多的價(jià)值。

(文 / 米欄)

e-Mail:lab@enet16.com

TEL:010-65283855

【排行 "i 系列標(biāo)準(zhǔn) " 統(tǒng)一詳細(xì)說明】

關(guān)鍵詞:

相關(guān)新聞