首頁 > 圖片 > 影響記憶 >

2023 AI 大語言模型 TOP10

2023-05-19 11:24:55 來源:ZAKER科技

（注：本次評測時間截至 2023.5.10，評價指標主要包括語義理解、邏輯推理、情感分析、百科知識、文本質量五個維度）

今年春節(jié)檔，一部《流浪地球 2》點燃了沉寂許久的中國科幻電影市場，也讓 MOSS 這一電影里冷酷無情的強人工智能形象變得深入人心。

無獨有偶，幾乎是相同時期，ChatGPT 憑借極其出色的文本生成和對話交互能力在世界范圍內迅速走紅，短短兩個月月活用戶已經(jīng)破億，刷新了消費級應用程序用戶增長的速度紀錄。

(資料圖片)

從某種角度看，ChatGPT 之所以能夠引發(fā)現(xiàn)象級的社會現(xiàn)象，除了海量數(shù)據(jù)訓練引發(fā)的質變因素外，更重要的是在一個恰當?shù)臅r機，滿足了人們長期以來對人工智能的想象，過往科幻作品中的猜想開始逐漸變?yōu)楝F(xiàn)實。

時代變革的大幕已掀開一角，一場由 OpenAI 引領的全球 AI 大語言模型軍備競賽就此打響。

雨后春筍

3 月 14 日，GPT-4 正式發(fā)布，大語言模型開始具備圖片和文字同時處理的多模態(tài)能力，繼續(xù)占據(jù)先入為主的優(yōu)勢。

全球大廠中，率先回應的是百度。3 月 16 日，百度大語言模型 " 文心一言 " 正式推出，對外啟動邀測。據(jù)公開報道，文心一言具備五項核心能力：文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解和多模態(tài)生成。

緊接著，其他科技企業(yè)也陸續(xù)跟進。4 月 11 日，2023 阿里云峰會現(xiàn)場演示了通義千問的多項功能，并定向邀請企業(yè)用戶進行體驗測試；5 月 10 日，谷歌時隔一年推出了新一代語言大模型 PaLM2，被視為對此前發(fā)布會翻車的有力回應。

此外，還有復旦大學在 2 月 21 日發(fā)布的 "MOSS"、清華大學 3 月 28 日發(fā)布的 "ChatGLM-6B"、360 于 4 月 10 日發(fā)布的 "360 智腦 "、商湯科技 4 月 10 日發(fā)布的 " 商量 "、5 月 6 日發(fā)布的 " 訊飛星火認知大模型 " 等等。

截至 5 月，據(jù)不完全統(tǒng)計，國內已有超過 40 家公司、機構發(fā)布了大模型產(chǎn)品或公布了大模型計劃。項目數(shù)量井噴式的爆發(fā)，可預見的是，下半年的國內 AI 大模型市場競爭將會變得空前激烈。

不止于 " 大 "

提到大模型，很多人的關注點都會放在 " 大 " 字上，畢竟足夠量級的參數(shù)是語言模型實現(xiàn)智能涌現(xiàn)、形成質變的基礎。比如，不少大語言模型的參數(shù)量級達千億級，這也就意味著較為豐富的語言知識與較廣泛的語境理解能力。

不過，目前類 GPT 模型普遍采用的是 Transformer 架構，所以必然包含市面上存在的大量文本數(shù)據(jù)例如小說、教科書、論壇、開源代碼等內容的無監(jiān)督預訓練過程，在此基礎上，僅需根據(jù)具體任務輸入少量的標簽數(shù)據(jù)進行監(jiān)督學習。在這樣的模式下，訓練數(shù)據(jù)集質量的重要性開始愈發(fā)凸顯。

本次評測的結果就可以印證這一點。評測主要考察各大語言模型在中文語境下的理解與生成能力，基于目前用戶對大語言模型在生活、辦公的普遍需求，選取語義理解、邏輯推理、情感分析、百科知識、文本質量五個通用底層維度，以評估各大語言模型協(xié)助用戶日常處理事務、解決核心問題的能力，取 0（無效應答）、1（有效應答）兩個分數(shù)，其中文本質量維度按照行文邏輯、信息密度，取 0（一般）、0.5（良好）、1（優(yōu)秀）三個分數(shù)。

評測問題也有別于針對 BERT 類判別式 AI 模型的選擇問法，采用更加適合 AI 生成式模型的相對開放式問法，以下為部分問題及回答評分示例：

在 "I"ve got a thing for you，用文言文表達這句話 " 這一問題中，ChatGPT 給出的回答是：" 朕對汝有所鐘情。" 理解正確，但生成文本質量欠佳，取 0.5 分。文心一言的輸出內容：" 吾心向汝，實生情之。" 文義相符，質量較高，取 1 分。星火認知大模型回答為：" 吾有物以贈君。" 存在理解有誤的情況，取 0 分。

從結果看 ChatGPT 在語義理解、邏輯推理、百科知識、文本質量四項中分別以 18、19、19、18.5 排名第一，綜合表現(xiàn)位居榜首，特別是在科技、學術、新聞等領域的文本生成部分領域表現(xiàn)突出，不過在相對復雜的情景下的情感識別，以及散文、詩歌、文言文等較為考察深度理解能力方面表現(xiàn)相對乏善可陳；

文心一言，作為首個全球大廠推出的知識增強大語言模型，本次排名位居國產(chǎn)大語言模型之首，效果僅次于 ChatGPT，且在語義理解、情感分析兩項位列第一，分數(shù)分別為 18、19，這或許與百度使用的自有數(shù)據(jù)集有關，在質量較高的文庫文本、百科數(shù)據(jù)等中文語料的訓練下，在語義理解和情感分析方面具有很高的精度，可以識別出復雜的情感表達和語言隱喻；

除此以外，谷歌 PaLM 在邏輯推理部分（分數(shù) 19）、通義千問在語義理解（分數(shù) 17）、清華 ChatGLM 在文本質量（分數(shù) 15.5）等成績均可圈可點。

結語

未來大模型的迭代也將更有針對性，對開發(fā)者的評估能力提出更高的要求。如何在有限的時間和資源條件下做出客觀的評價并給出有用的反饋，讓數(shù)據(jù)團隊更有針對性地準備數(shù)據(jù)，讓研發(fā)不偏離方向，保障模型的健康迭代，將是所有行業(yè)從業(yè)者的共同挑戰(zhàn)。

《互聯(lián)網(wǎng)周刊》也將持續(xù)跟蹤與關注各大語言模型的更新與迭代情況，定期進行相關評測與分析。未來，相信隨著算法、硬件、數(shù)據(jù)和應用場景的不斷發(fā)展，大型語言模型將會在各種自然語言處理任務中發(fā)揮更加重要的作用，為社會創(chuàng)造更多的價值。

（文 / 米欄）

e-Mail：lab@enet16.com

TEL：010-65283855

【排行 "i 系列標準 " 統(tǒng)一詳細說明】

關鍵詞：

99视频精品,69式视频www免费视频,亚洲?成人?综合?另类?小说,最近最新中文字幕完整版免费高清 ,亚洲精品一区二区三区中文字幕

2023 AI 大語言模型 TOP10

相關新聞

最新資訊

月度熱點