你的童年(nian)里是否也(ye)有一(yi)段關于機器人的記憶——來(lai)自于阿諾德·施瓦辛格(ge)飾演的T-800終結(jie)者。
1984年,這部由好萊塢鬼才導演詹姆斯·卡梅(mei)隆執導的科幻電影《終結(jie)者》上映即獲得無(wu)數影迷(mi)(mi)追捧,原因無(wu)他,除(chu)了(le)一眾影星(xing)的傾情演繹之外,導演天馬行(xing)空的想象著實讓(rang)當時的人為之著迷(mi)(mi)。
如今(jin)距離電影上映已過去將(jiang)近(jin)40年(nian)時間,而電影中有獨立行動能力的機器人(ren)也被科學家們(men)真真實(shi)(shi)實(shi)(shi)地(di)搬進了現實(shi)(shi)當(dang)中。
就在近期,由知名美籍華裔人工智能學者李飛飛帶隊的項目組,發布了一項最新的“具身智能”成果——VoxPoser。
該項目主要研究目標是——在給定開放式指令集和對象(xiang)集的(de)情況(kuang)下(xia),為各(ge)種操作任務合成機器(qi)人軌跡,即密集的(de)六個自由(you)度末端執行器(qi)航點序列。

該項目通過從大語言模型和視覺-語言模型中提取機會和約束,構建3D值地圖,可以讓機器人在零樣本學習的情況下,理解指令,分解任務,規劃路徑,并最終實現操作任務。
值(zhi)得一提的是,在該方法下(xia)進行機器人(ren)操控(kong)時,是不(bu)需要做數據投(tou)喂和預訓練的。

目(mu)前,關(guan)于(yu)該項成(cheng)果的項目(mu)主(zhu)頁和相關(guan)論文(wen)都已經上線(xian),對(dui)應的代碼也即將推出。
關于VoxPoser
關于VoxPoser這項(xiang)成果,可以說又是人工智能(neng)領域和(he)機器(qi)人領域融合(he)的一個新的里程(cheng)碑。
它正在(zai)讓(rang)抽象的(de)AI通過機器人(ren)變得具(ju)象化,未來,或許你期望的(de)就不再是(shi)童年的(de)那個“T-800終結者”玩具(ju),而可能(neng)(neng)是(shi)真正的(de)具(ju)備具(ju)身智能(neng)(neng)的(de)機器人(ren)。
具體來說,VoxPoser的原(yuan)理解釋起(qi)來還是(shi)相對簡單(dan)的。

就是使用者給定執行具體(ti)需求的(de)自(zi)然語言(yan)指(zhi)令,以及環境(jing)信息(通過相機采(cai)集(ji)的(de)RGB-D的(de)圖像(xiang))。
然后,LLM(Large Language Model,大語言模型)將根據以上信息生(sheng)成與VLM(Visual Language Model,視(shi)覺-語言模型)交互的代(dai)碼。
基于這一系列操作,系統會(hui)自(zi)(zi)動生(sheng)成相應的(de)供機器人(ren)進(jin)行空間感知的(de)“3D Value Map”(3D值(zhi)圖)。它會(hui)“告訴”機器人(ren)自(zi)(zi)己在哪(na)里、目標在哪(na)里。
之后(hou)進(jin)入(ru)下一個階段,將生(sheng)成的3D值圖(tu)用作機器人運動規劃的目標函數,便(bian)能夠合成最(zui)終要進(jin)行的操作軌跡了。
這一成果的最大亮點在于——整個機器人訓練過程是不需要進行任何額外的數據投喂和預訓練的。換(huan)而言之,目前機(ji)器人訓練所(suo)需要進行的預(yu)定(ding)義訓練、大(da)規模數據缺失等問題,在(zai)這里(li)統(tong)統(tong)不存在(zai)。
正是因為(wei)具備(bei)上述能力,機(ji)器人只要符合相關流(liu)程,也基本能夠完成任(ren)何給定(ding)任(ren)務(wu)。

基于此,項目團隊按照該方(fang)法進(jin)行了(le)大(da)量的(de)實(shi)驗(yan),通過下達日(ri)常操作(zuo)任務(wu),比如,“把(ba)(ba)(ba)毛巾掛在架(jia)子(zi)上”、“把(ba)(ba)(ba)最上面(mian)的(de)抽屜關上”、“把(ba)(ba)(ba)面(mian)包片(pian)從(cong)面(mian)包機中取出來,放到木板上”等(deng),對VoxPoser進(jin)行驗(yan)證(zheng)。
在實驗(yan)過程中,項目團隊還故意了(le)打斷(duan)任(ren)務執行,展示(shi)了(le)該成果在動態擾動下的魯棒(bang)性(xing)。
由(you)于語言模型輸(shu)出(chu)在(zai)整個任務中保持不變(bian),因此VoPoser可以緩存其輸(shu)出(chu),并使用(yong)閉環(huan)視覺反(fan)饋(kui)重新評估生成的代碼,從而可以使用(yong)MPC快(kuai)速重新規劃。

比(bi)如當(dang)對機器(qi)人發出“把垃圾紙分類到藍色托盤里”,可以(yi)看到無論怎樣對機器(qi)人進行(xing)干擾(rao),包括阻止機器(qi)人行(xing)動、調整物品擺放,它都可以(yi)順(shun)利(li)執行(xing)任務。

論文指出,無論是(shi)在真實領域,還是(shi)模(mo)擬領域,VoPoser的實驗結果要(yao)顯著優于基于基線任(ren)務。

在真實領域,VoPoser表現的會更(geng)加(jia)靈活(huo)、更(geng)加(jia)穩(wen)健,尤其在外(wai)部(bu)干擾的情況下。
另(ling)外,模擬領域中,VoPoser在兩(liang)個類別(總(zong)共13個任務(wu))上(shang)的(de)表(biao)現也更好(hao)。

VoPoser在零樣本下的學(xue)習能力和出錯情況也更優。
另外,論文闡述(shu)了VoPoser所(suo)涌現的四個新能力(li):
估算物理屬性:給定(ding)兩個(ge)(ge)未知質量的方塊,機(ji)器人被要(yao)求使用(yong)現(xian)有工(gong)具進行物理實驗,確定(ding)哪個(ge)(ge)方塊更重。
常識性行為推理:在擺桌子(zi)的(de)任(ren)務(wu)中,用戶(hu)可以指定行為偏好(hao),比(bi)如“我是左撇(pie)子(zi)”,這要求(qiu)機器人在任(ren)務(wu)環境(jing)中理解其含義。
細粒度語言校正:對于需要高精度的任務,比如(ru)“用蓋子(zi)蓋住茶壺”,用戶可以(yi)給機器人提供精確的指(zhi)令,比如(ru)“你離(li)目標(biao)有1厘米的偏差”。
多步驟視覺操作:在任務“精確地將抽(chou)屜(ti)打(da)開(kai)一半(ban)”的情況(kuang)下,由于物體模型不可用(yong),信息不足,機器人可以(yi)根據視覺(jue)反饋提出(chu)多步驟的操縱(zong)策略。首(shou)先完全打(da)開(kai)抽(chou)屜(ti)并記錄把手(shou)的位移,然(ran)后(hou)將其關閉到中間位置以(yi)滿足要求。

機器人開啟AI的下一個浪潮
VoPoser的(de)誕生并非偶然。去年(nian)年(nian)中,李飛(fei)飛(fei)曾(ceng)在(zai)一篇(pian)文章中指出,計算機視(shi)覺(jue)未來發展(zhan)的(de)幾個重(zhong)要(yao)方(fang)向,其中最(zui)重(zhong)要(yao)的(de)一個就是(shi)具身(shen)智能。
所謂具身智能,就是Embodied Intelligence,簡(jian)稱EI,圖(tu)靈(ling)于1950年在論文(wen)《Computing Machinery and Intelligence》中第一次(ci)提出這一概念(nian)。具(ju)(ju)身(shen)智能(neng)可以讓機器像人(ren)一樣(yang)能(neng)和環境(jing)交(jiao)互(hu)感知,自主規(gui)劃、決策、行動,并(bing)具(ju)(ju)備(bei)執(zhi)行能(neng)力,也被認為是AI的終極形態。
李(li)飛飛直言,具身智能(neng)將會成為AI領(ling)域的(de)下一(yi)個“北極星問題”之一(yi)。而在不久前的(de)ITF World 2023半導體大會上,英偉達首席執行官黃仁勛也表達了類似的(de)觀點,稱(cheng)“AI的(de)下一(yi)個浪潮將是具身智能(neng)”。
無(wu)獨有(you)偶,對于具(ju)身智能引發的AI與機器人(ren)融合所形(xing)成(cheng)的巨(ju)大想象空間,李飛(fei)飛(fei)也并不是唯一的“追光者”。
因(yin)ChatGPT有(you)“老樹(shu)逢春(chun)”感覺的(de)(de)微軟(ruan)也(ye)沒閑著,他們(men)此前也(ye)發布了一篇論文,探索大模型與機器人的(de)(de)結合。
論(lun)文提到,將把ChatGPT的功能(neng)(neng)擴展(zhan)到機(ji)(ji)器(qi)(qi)人領(ling)域,從(cong)而可以讓使用(yong)者用(yong)自然語(yu)言(yan)去控制如機(ji)(ji)械臂(bei)、無人機(ji)(ji)、家庭輔助機(ji)(ji)器(qi)(qi)人等(deng)“智能(neng)(neng)體(ti)”。
除了(le)微軟之外,在(zai)(zai)今(jin)年年初,谷(gu)歌盡管在(zai)(zai)ChatGPT上栽了(le)跟頭,但在(zai)(zai)具身智(zhi)能領域卻并未遲疑(yi)。比起論文來,谷(gu)歌反(fan)倒直接“甩”出了(le)一個參數達(da)5620億的具身多模態語言模型——PaLM-E,其(qi)最亮眼(yan)的能力(li)就是可以讓機器人(ren)(ren)具備“聽懂(dong)人(ren)(ren)話”的能力(li)。
據了解,PaLM-E-562B集(ji)成了參數量(liang)(liang)540B的(de)PaLM和(he)參數量(liang)(liang)22B的(de)視(shi)覺 Transformer(ViT),是目前已知的(de)最(zui)大的(de)視(shi)覺-語言模型。
而在國(guo)內,剛剛過去的“2023世界人工智能(neng)(neng)(neng)大會(hui)上”(WAIC),智能(neng)(neng)(neng)機器人簡(jian)直成了除AIGC之外的另一大亮(liang)點。會(hui)上,數百家國(guo)內外企業集結,各家智能(neng)(neng)(neng)機器人同臺競技(ji)。
比如(ru)智(zhi)能機(ji)(ji)器(qi)人企業達(da)闥,全(quan)方位(wei)展示了(le)具身智(zhi)能服(fu)務(wu)機(ji)(ji)器(qi)人解決方案。據了(le)解,達(da)闥此次亮相(xiang)的(de)多臺(tai)機(ji)(ji)器(qi)人,全(quan)部接入和(he)(he)升級了(le)達(da)闥最(zui)新發(fa)布的(de)RobotGPT、海(hai)睿AGI和(he)(he)海(hai)睿OS 5.1。

其(qi)中,達闥(ta)人(ren)形(xing)機器人(ren)小(xiao)姜(jiang)下(xia)一(yi)代Cloud Ginger 2.0全身采用了新(xin)一(yi)代智能(neng)柔性關節SCA2.0和多種(zhong)傳(chuan)感器,同時具備(bei)視覺(jue)和激光定位導航能(neng)力,可以包攬迎賓接待、商(shang)務(wu)導覽、沖(chong)泡咖(ka)啡、物品(pin)遞(di)送、節目表(biao)演、教育(yu)科研(yan)、陪護照看等多種(zhong)任務(wu)。
另據市場消息,達(da)闥機器(qi)人(ren)已獲超10億(yi)人(ren)民幣C輪融(rong)資(zi)。此前,達(da)闥機器(qi)人(ren)完成5輪融(rong)資(zi),赴(fu)美上市失敗(bai)后有消息稱其今年將(jiang)赴(fu)港上市。

云深處科技則在本屆(jie)大會(hui)上亮(liang)相了四足(zu)機器人絕(jue)(jue)影Lite3和(he)(he)工(gong)(gong)業(ye)級絕(jue)(jue)影X20多傳感融合版。尤其值得一(yi)提(ti)的是,絕(jue)(jue)影X20面(mian)向工(gong)(gong)業(ye)垂類賽道,具備AI智能識別和(he)(he)自主任務規劃功能,可以為電力、建筑(zhu)等專業(ye)行(xing)業(ye)提(ti)供解決方案。
而除了機器(qi)人(ren)本賽道的玩家“樂此不疲”的追(zhui)逐具身智(zhi)能的風口之外,還有越來越多(duo)的“跨界選(xuan)手”加入其(qi)中。
互(hu)聯網(wang)(wang)科(ke)技企業(ye)代表:網(wang)(wang)易、字節跳動、京東、美團(tuan)等巨頭均(jun)沒閑(xian)著,紛紛投資成立了專業(ye)機(ji)器(qi)人業(ye)務公司。
據公(gong)開(kai)消息顯示,6月28日,杭州網(wang)易(yi)(yi)(yi)軒之轅智能(neng)科技有(you)限公(gong)司、網(wang)易(yi)(yi)(yi)牽波智能(neng)科技(杭州)有(you)限公(gong)司同時成立(li),經營范圍包括了(le)智能(neng)機器人的研發和人工智能(neng)應用軟件(jian)的開(kai)發。而需要指出的是,事實上早在2017年,網(wang)易(yi)(yi)(yi)就成立(li)了(le)網(wang)易(yi)(yi)(yi)伏(fu)羲(xi)(xi),并(bing)且網(wang)易(yi)(yi)(yi)伏(fu)羲(xi)(xi)具身智能(neng)工程機器人也在本(ben)屆WAIC上驚艷(yan)亮(liang)相。
緊(jin)隨網易的是字節(jie)跳動,7月4日,該公司傳出也將(jiang)要造機器人(ren)(ren)。并且消(xiao)息透露,其機器人(ren)(ren)團隊目(mu)前(qian)已經集合50人(ren)(ren),年底將(jiang)擴充至百人(ren)(ren)以上。成(cheng)立后(hou),字節(jie)機器人(ren)(ren)團隊將(jiang)隸屬于字節(jie)AI Lab,由現任總監(jian)李航領導。
京(jing)東雖然暫(zan)時沒有關(guan)于新的機器(qi)人(ren)(ren)公司(si)成立(li)的消息爆出,但據6月初的消息顯示,京(jing)東集(ji)團(tuan)旗下全平(ping)臺云計算(suan)綜合服務提供商京(jing)東云計算(suan)有限公司(si)也(ye)進(jin)行了工商變更(geng), 經營(ying)范圍新增(zeng)了智能(neng)機器(qi)人(ren)(ren)研發、電池(chi)零(ling)配件生產等。
傳統行業玩(wan)家中,碧(bi)桂園(yuan)、中國石(shi)化等(deng)躬(gong)親入局。其(qi)中,碧(bi)桂園(yuan)較早就入局機(ji)器(qi)(qi)人(ren)(ren)賽道,而中國石(shi)化銷售股份有限(xian)(xian)公司(si)聯合(he)航天云(yun)機(ji)(北京)科技有限(xian)(xian)公司(si)則在(zai)今年初成立(li)的(de)易(yi)嘉(jia)油智(zhi)能(neng)機(ji)器(qi)(qi)人(ren)(ren)有限(xian)(xian)公司(si),主要做服務消費機(ji)器(qi)(qi)人(ren)(ren)制造(zao)、服務消費機(ji)器(qi)(qi)人(ren)(ren)銷售、智(zhi)能(neng)機(ji)器(qi)(qi)人(ren)(ren)的(de)研發等(deng)。
寫在最后
作為從科幻電影中走進(jin)現(xian)實的一個典型(xing)應用,人(ren)們對(dui)于機器人(ren)的向往(wang)絕不是說說而已(yi)。
值得一提的是(shi)(shi),受(shou)到WAIC影響,機(ji)器(qi)人賽道的持續火爆引(yin)起了資本領(ling)域的極大興趣,期間機(ji)器(qi)人相關板塊(kuai)備受(shou)關注,企業股票(piao)也是(shi)(shi)順(shun)勢上漲。
另據中(zhong)國電子學會在《中(zhong)國機器人產業(ye)發展報告(2022年(nian))》中(zhong)的預測,到2024年(nian),全球機器人市(shi)場規(gui)模將有(you)望突破(po)650億美元。
真金(jin)白(bai)銀的投入(ru),往往說明了問題——隨著AI大模型和機器人(ren)的深度融合,更(geng)(geng)智能(neng)、更(geng)(geng)聰明的機器人(ren)勢必將(jiang)成為新一輪的創新風(feng)口。
參考資(zi)料:
1.//voxposer.github.io/
2.//voxposer.github.io/voxposer.pdf
3.//www.youtube.com/watch?v=Yvn4eR05A3M
4.//mp.weixin.qq.com/s/eaZtaYMJYe0oCLq1h0fPiw
5.//mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ
6.//mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA
7.//www.thepaper.cn/newsDetail_forward_18791323
8.//www.zhihu.com/question/540675571