文|李睿、真梓
前有英偉達(dá)創(chuàng)始人黃仁勛帶火“具身智能”概念,后有斯坦福教授李飛飛發(fā)布“具身智能”新成果,將大模型接入機(jī)器人。不少行業(yè)人士認(rèn)為,ChatGPT之后,通用機(jī)器人將開啟通用AI的下一站。甚至還有觀點(diǎn)表示,機(jī)器人,是人工智能的最終解決方案。
“機(jī)器人領(lǐng)域的前輩在定義機(jī)器人時(shí),就將智能和通識(shí)這兩點(diǎn)與機(jī)器人緊密綁定。通用機(jī)器人是所有機(jī)器人從業(yè)者都希望去做的一件事情?!薄盖гE科技」創(chuàng)始人兼CEO高海川告訴36氪。
(資料圖)
「千訣科技」是一家專注于機(jī)器人決策大模型研發(fā)的高科技公司,希望使不同類型的機(jī)器人都具備持續(xù)學(xué)習(xí)、適應(yīng)多變環(huán)境的通用智能。
創(chuàng)始人高海川在清華大學(xué)自動(dòng)化系讀博期間便萌生了讓機(jī)器人具有“通識(shí)”的想法,為此他創(chuàng)建了VIPlab機(jī)器人組,主要研究通用智能在機(jī)器人領(lǐng)域的落地。在5年研究中,高海川和團(tuán)隊(duì)的學(xué)術(shù)成果包括:提出新型分布式強(qiáng)化學(xué)習(xí)框架、仿真現(xiàn)實(shí)遷移強(qiáng)化學(xué)習(xí)方法、機(jī)器人技能分層持續(xù)學(xué)習(xí)框架、開發(fā)語言引導(dǎo)的技能分層強(qiáng)化學(xué)習(xí)技術(shù)、面向部分可觀測場景的因果推理強(qiáng)化學(xué)習(xí)技術(shù)。其團(tuán)隊(duì)所研發(fā)的“通識(shí)”機(jī)器人決策模型,正是產(chǎn)學(xué)研結(jié)合的產(chǎn)物。
高海川認(rèn)為,以往“通識(shí)”機(jī)器人最大的門檻在于決策系統(tǒng)缺乏通識(shí)。也就是說,機(jī)器人的硬件形態(tài)和算法、模型很難從一個(gè)任務(wù)遷移到另一個(gè)任務(wù),這也是現(xiàn)在機(jī)器人市場的痛點(diǎn)所在。而近年AI大模型通過豐富語料訓(xùn)練獲得了認(rèn)知和推理的通用能力,如果能將這種認(rèn)知通用性落到對(duì)機(jī)器人的運(yùn)動(dòng)控制上,會(huì)突破長期以來機(jī)器人的通用性問題。
關(guān)于如何將大語言模型的通用性遷移至機(jī)器人,高海川介紹:“機(jī)器人所面對(duì)的新環(huán)境和新任務(wù),對(duì)大語言模型而言,都是已經(jīng)見過的老環(huán)境、老任務(wù),所以一個(gè)好想法是用語言模型打造機(jī)器人的決策系統(tǒng),將其通用認(rèn)知能力賦予機(jī)器人。直觀上來說,就是讓機(jī)器人與語言模型對(duì)話咨詢,當(dāng)機(jī)器人不知道怎么做時(shí),詢問語言模型以獲取指導(dǎo),例如在導(dǎo)航任務(wù)中,機(jī)器人可以在未建立環(huán)境地圖的情況下,咨詢語言模型應(yīng)該往哪個(gè)方向?qū)Ш??!?/p>
高海川表示,“通識(shí)”機(jī)器人決策模型的技術(shù)核心是“動(dòng)態(tài)規(guī)劃與大模型相結(jié)合,將機(jī)器人感知、運(yùn)動(dòng)和操作映射到統(tǒng)一的語言空間,讓機(jī)器人通過自我問答和樹搜索等方式形成決策閉環(huán)”。
針對(duì)決策閉環(huán)這一設(shè)計(jì),高海川給出了進(jìn)一步闡述。他表示,通識(shí)機(jī)器人融合語言模型的認(rèn)知鏈條與機(jī)器人的技能和感知鏈條,將團(tuán)隊(duì)自研的機(jī)器人多模態(tài)感知模型所偵測到的機(jī)器人周圍的視覺信息、機(jī)器人的硬件及技能信息、機(jī)器人的工作環(huán)境以及歷史記憶都翻譯成語句,輸入到團(tuán)隊(duì)自研的機(jī)器人垂類語言模型。之后,再將語言模型的輸出翻譯成機(jī)器人可執(zhí)行的指令。機(jī)器人執(zhí)行指令后,再反饋環(huán)境信息給語言模型,讓另一個(gè)負(fù)責(zé)評(píng)估的語言模型基于機(jī)器人決策效果對(duì)決策語言進(jìn)行打分進(jìn)而實(shí)現(xiàn)決策模型的進(jìn)化?!斑@樣通過語言空間作為橋梁,連接語言模型的認(rèn)知鏈條和機(jī)器人的技能鏈條,進(jìn)而實(shí)現(xiàn)決策系統(tǒng)的閉環(huán)?!彼f。
高海川提供的視頻展示了“通識(shí)”機(jī)器人的具體工作流程:
“通識(shí)”機(jī)器人工作流程
在商業(yè)規(guī)劃上,高海川提出“通識(shí)”機(jī)器人的產(chǎn)品落地將分為三條線。
第一條線是開發(fā)“通識(shí)”機(jī)器人腦塢,在一張顯卡中內(nèi)置面向機(jī)器人行業(yè)的通用決策模型。該接口產(chǎn)品可以連接不同品牌和類型的機(jī)器人,為其提供語言理解和決策能力,相當(dāng)于為機(jī)器人提供一個(gè)可即插即用的通用機(jī)器人大腦。團(tuán)隊(duì)第一代腦塢產(chǎn)品圍繞靈汐科技的新款“天機(jī)”類腦芯片打造,包括ANN-Transformer和Spiking-Transformer兩種異構(gòu)神經(jīng)網(wǎng)絡(luò),供多種具身智能領(lǐng)域開發(fā)者使用。
“通識(shí)機(jī)器人腦塢是公司最核心的產(chǎn)品形態(tài)”,高海川介紹,“因?yàn)闄C(jī)器人行業(yè)的硬件千奇百怪,如果只針對(duì)某一款機(jī)器人硬件去做開發(fā),它可能只能在某一些場景中做應(yīng)用,而我們希望能夠做一個(gè)面向機(jī)器人全行業(yè)的核心關(guān)鍵部件。”
第二條線是建立“通識(shí)”機(jī)器人共享平臺(tái),提供機(jī)器人“共享決策”云平臺(tái)、云服務(wù)。不同行業(yè)的用戶可以在線輸入機(jī)器人形態(tài)和參數(shù),共享通用決策系統(tǒng)。據(jù)介紹,這個(gè)平臺(tái)可以快速積累多樣性數(shù)據(jù),促進(jìn)決策模型的迭代更新。在這一方面,近期,千訣團(tuán)隊(duì)與兩家科教型機(jī)器人公司建立合作,將團(tuán)隊(duì)所研發(fā)的機(jī)器人垂類決策模型以license的形式與每臺(tái)售出的機(jī)器人綁定。高海川表示:“該模型在決策魯棒性方面優(yōu)于GPT-4,并額外學(xué)習(xí)過很多本土化的產(chǎn)品,相關(guān)論文處于預(yù)發(fā)表階段。算力方面也有同為清華系的清醒異構(gòu)為我們模型訓(xùn)練提供支持?!?/p>
第三條線是開發(fā)簡易版的低成本通用雙臂機(jī)器人,并結(jié)合通用決策大腦做一套軟硬件系統(tǒng)。機(jī)器人手臂操作精度相對(duì)較低,僅執(zhí)行日常生活中諸如抓、擰、拿、推、舉等簡單操作。高海川認(rèn)為,“通識(shí)”機(jī)器人主打通用而非操作精度,更像是一只聰明的機(jī)械寵物,對(duì)于所交待的任何事情都會(huì)努力去做,但不一定要把每件事都做好,成本也可比掃地機(jī)器人更低。
另外他還表示,以通識(shí)決策模型為大腦,以機(jī)器人雙臂操作技能為小腦,進(jìn)而實(shí)現(xiàn)“通識(shí)”機(jī)器人系統(tǒng)的搭建,可以覆蓋基本民用需求以及典型終端需求,潛在應(yīng)用場景包括咖啡/餐廳、老人社區(qū)、辦公室、公園、康養(yǎng)旅游等。
團(tuán)隊(duì)方面,高海川介紹,「千訣科技」核心團(tuán)隊(duì)由清華大學(xué)自動(dòng)化系的3名博士和2名碩士組成。團(tuán)隊(duì)研究覆蓋強(qiáng)化學(xué)習(xí)、機(jī)器人學(xué)習(xí)控制、多任務(wù)泛化等多個(gè)方向,在相關(guān)領(lǐng)域的頂級(jí)會(huì)議和期刊上發(fā)表過多篇論文,并在國際競賽中獲獎(jiǎng)。近期,團(tuán)隊(duì)也在持續(xù)吸引多名機(jī)器人業(yè)界人才加入。
關(guān)鍵詞: