尋找癌癥、抑郁癥最優(yōu)治療策略，ChatGPT表現(xiàn)如何？_當(dāng)前熱點(diǎn)

2023-06-01 11:05:06 來源:文匯網(wǎng)

都說醫(yī)療、金融等專業(yè)領(lǐng)域的語料數(shù)據(jù)稀缺，制約大模型AI發(fā)展，能不能讓兩個(gè)ChatGPT對(duì)聊，聊出點(diǎn)數(shù)據(jù)？近日，天橋腦科學(xué)研究院（TCCI）主辦AI For Brain Science系列會(huì)議第二期“面向AI模型的數(shù)據(jù)生成方法及其對(duì)醫(yī)療領(lǐng)域的啟示”。在上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授吳夢(mèng)玥主持下，青年科學(xué)家分享了關(guān)于破解大規(guī)模語言模型數(shù)據(jù)瓶頸的看法和實(shí)踐。

【資料圖】

“知識(shí)蒸餾”與快速構(gòu)建專屬GPT

國際上一項(xiàng)研究評(píng)估指出，ChatGPT回答癌癥相關(guān)問題的水平已經(jīng)與美國國家癌癥研究所的官方回答持平。然而，ChatGPT只能通過受限的API進(jìn)行訪問。涉及到個(gè)人醫(yī)療，人們也普遍不希望將個(gè)人隱私信息分享給第三方公司。

針對(duì)這樣的難題，加州大學(xué)圣迭戈分校博士生許燦文和中山大學(xué)團(tuán)隊(duì)的合作者提出了一種能自動(dòng)生成高質(zhì)量多輪聊天語料庫的流程，利用ChatGPT與其自身進(jìn)行對(duì)話，生成對(duì)話數(shù)據(jù)，再基于產(chǎn)生的對(duì)話數(shù)據(jù)調(diào)優(yōu)、增強(qiáng)開源的大型語言模型LLaMA。他們從而獲得了高質(zhì)量的專屬模型“白澤”，并在數(shù)天前推出2.0版本。這個(gè)名字的靈感來源是中國古代傳說中的一種神獸，“能言語，達(dá)知萬物之情”。

許燦文說，白澤在這個(gè)過程中并沒有學(xué)會(huì)新的知識(shí)，只是提取了大模型中的特定數(shù)據(jù)，并且保留了ChatGPT分點(diǎn)作答、拒絕回答等強(qiáng)大的語言能力。這在專業(yè)上被比喻為一種“蒸餾”。他們進(jìn)一步提出了反饋?zhàn)哉麴s的概念，即利用ChatGPT當(dāng)教官，對(duì)白澤回答的結(jié)果進(jìn)行評(píng)分排序，從而進(jìn)一步提高白澤模型的性能。

許燦文認(rèn)為，白澤通過自動(dòng)化的“知識(shí)蒸餾”，在特定領(lǐng)域達(dá)到ChatGPT的能力，成本卻遠(yuǎn)低于ChatGPT，兼具經(jīng)濟(jì)意義和實(shí)用意義。在醫(yī)療領(lǐng)域，本地化或私有化建構(gòu)的模型將有利于消除隱私顧慮，輔助患者診療。未來也許每個(gè)人都將有自己的專屬AI助手。

數(shù)據(jù)生成新策：大模型優(yōu)化醫(yī)療文本挖掘

ChatGPT具有創(chuàng)造性的寫作能力，在醫(yī)療、金融、法律等標(biāo)注數(shù)據(jù)很少的領(lǐng)域以及知識(shí)密集型領(lǐng)域表現(xiàn)出色。然而，具體到醫(yī)療文本挖掘，他們發(fā)現(xiàn)將ChatGPT直接應(yīng)用大型模型處理醫(yī)療文本的下游任務(wù)，表現(xiàn)并不總是優(yōu)秀。

萊斯大學(xué)博士生唐瑞祥和合作者提出了一種新策略：利用大型模型生成大量醫(yī)療數(shù)據(jù)，再通過小型模型對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果顯示，相較直接利用大型模型執(zhí)行下游任務(wù)，這一新策略能取得更出色的效果，同時(shí)因?yàn)槟Ｐ蛿?shù)據(jù)在本地，也大幅降低了潛在的隱私風(fēng)險(xiǎn)。

他們進(jìn)一步指出，隨著開源大模型數(shù)量的增加和大模型能力提升，其產(chǎn)生的文本數(shù)據(jù)與人類產(chǎn)生的文本數(shù)據(jù)的差別將越來越小，能否有效檢測出數(shù)據(jù)是不是GPT生成的，將影響到廣大用戶對(duì)大模型AI的信任度。

大模型時(shí)代的數(shù)據(jù)生成有什么不一樣？

那么，在沒有GPT的時(shí)代，科學(xué)家們?nèi)绾谓鉀Q數(shù)據(jù)稀缺難題？大模型又帶來了哪些新趨勢？

上海交通大學(xué)博士生曹瑞升談到，深度學(xué)習(xí)本質(zhì)上是一種找出從輸入x到輸出y的映射過程，所以需要大量的(x, y)數(shù)據(jù)對(duì)來訓(xùn)練。在醫(yī)療這樣不容易獲得大量真實(shí)數(shù)據(jù)的領(lǐng)域，就需要人為生成更多的(x, y)數(shù)據(jù)對(duì)。

展望未來，曹瑞升總結(jié)了數(shù)據(jù)生成在大模型時(shí)代的幾大新趨勢。首先是構(gòu)建更通用的模型，以確保其能應(yīng)用于多樣化任務(wù)。其次是從特定任務(wù)出發(fā)，進(jìn)一步精細(xì)化地處理。例如，在醫(yī)療領(lǐng)域，甚至可以針對(duì)特定類型的抑郁癥進(jìn)行專業(yè)化的任務(wù)處理，提供更精準(zhǔn)個(gè)性化的解決方案。最后，數(shù)據(jù)生成和模型訓(xùn)練的過程將從分離走向融合，而為了保證數(shù)據(jù)質(zhì)量的硬性過濾也將逐漸被軟性控制所取代。

作者：唐聞佳

編輯：唐聞佳

責(zé)任編輯：姜澎

*文匯獨(dú)家稿件，轉(zhuǎn)載請(qǐng)注明出處。

關(guān)鍵詞：

月度熱點(diǎn)

關(guān)于我們 | 聯(lián)系方式 | 版權(quán)聲明 | 招聘信息
備案號(hào)：粵ICP備2022077823號(hào)-3 聯(lián)系郵箱：317 493 128 @qq.com

99视频精品,69式视频www免费视频,亚洲?成人?综合?另类?小说,最近最新中文字幕完整版免费高清 ,亚洲精品一区二区三区中文字幕

尋找癌癥、抑郁癥最優(yōu)治療策略，ChatGPT表現(xiàn)如何？_當(dāng)前熱點(diǎn)

相關(guān)新聞

最新資訊

月度熱點(diǎn)

99视频精品,69式视频www免费视频,亚洲?成人?综合?另类?小说,最近最新中文字幕完整版免费高清 ,亚洲精品一区二区三区中文字幕

尋找癌癥、抑郁癥最優(yōu)治療策略，ChatGPT表現(xiàn)如何？_當(dāng)前熱點(diǎn)

相關(guān)新聞

最新資訊

月度熱點(diǎn)

尋找癌癥、抑郁癥最優(yōu)治療策略，ChatGPT表現(xiàn)如何？_當(dāng)前熱點(diǎn)