你的童年(nian)里是否(fou)也有一段關于(yu)機器(qi)人的記憶——來自于(yu)阿諾德(de)·施瓦辛格(ge)飾演(yan)的T-800終結(jie)者。
1984年,這部由好萊(lai)塢鬼才導(dao)演(yan)詹(zhan)姆斯·卡梅隆執導(dao)的(de)科幻電影《終結(jie)者(zhe)》上映即獲得無(wu)數影迷追捧,原(yuan)因(yin)無(wu)他,除了一眾影星的(de)傾情演(yan)繹之(zhi)外,導(dao)演(yan)天馬行空的(de)想象著實讓當時(shi)的(de)人為之(zhi)著迷。
如今(jin)距離電影上(shang)映已過去將近40年時間,而電影中有(you)獨(du)立行動能力(li)的(de)機器(qi)人也被科學家(jia)們(men)真(zhen)真(zhen)實(shi)實(shi)地搬進了(le)現(xian)實(shi)當中。
就在近期,由知名美籍華裔人工智能學者李飛飛帶隊的項目組,發布了一項最新的“具身智能”成果——VoxPoser。
該(gai)項(xiang)目主要研究(jiu)目標是——在給定開放式指令集(ji)和(he)對(dui)象集(ji)的情況(kuang)下(xia),為各種操作任(ren)務合成機(ji)器(qi)人軌跡,即(ji)密集(ji)的六個自由度(du)末(mo)端執行器(qi)航點序列。
該項目通過從大語言模型和視覺-語言模型中提取機會和約束,構建3D值地圖,可以讓機器人在零樣本學習的情況下,理解指令,分解任務,規劃路徑,并最終實現操作任務。
值得一提的是,在該(gai)方法下進行機器(qi)人(ren)操控(kong)時(shi),是不(bu)需要做數據投(tou)喂(wei)和(he)預訓練的。
目(mu)(mu)前,關(guan)于該(gai)項(xiang)(xiang)成果的項(xiang)(xiang)目(mu)(mu)主頁和相關(guan)論文都已經(jing)上線,對應的代(dai)碼也(ye)即將推出。
關于VoxPoser
關于VoxPoser這項成果(guo),可(ke)以說又(you)是人(ren)工智能領域和機器人(ren)領域融合的一個新的里程碑(bei)。
它(ta)正在讓(rang)抽象的(de)AI通(tong)過(guo)機(ji)器(qi)人變得具象化,未來,或(huo)許你期望的(de)就不再是(shi)童年的(de)那個“T-800終(zhong)結者”玩具,而可能是(shi)真正的(de)具備具身智(zhi)能的(de)機(ji)器(qi)人。
具體來說,VoxPoser的(de)原理解釋起來還是相對簡單的(de)。
就是(shi)使用(yong)者給定執(zhi)行具體需求(qiu)的(de)自然(ran)語言指(zhi)令(ling),以及環境信息(通過相機采(cai)集的(de)RGB-D的(de)圖像)。
然后,LLM(Large Language Model,大(da)語言(yan)模(mo)型(xing))將根據以上信息生成與VLM(Visual Language Model,視覺-語言(yan)模(mo)型(xing))交互的(de)代碼(ma)。
基于(yu)這(zhe)一系列操作,系統會自(zi)動生(sheng)成相應(ying)的供機(ji)(ji)器人進行空間感(gan)知的“3D Value Map”(3D值(zhi)圖)。它會“告訴”機(ji)(ji)器人自(zi)己在(zai)哪里、目標(biao)在(zai)哪里。
之后進入(ru)下一(yi)個階段(duan),將生成(cheng)的(de)(de)3D值(zhi)圖用作(zuo)(zuo)機器(qi)人(ren)運動規劃的(de)(de)目標函(han)數,便(bian)能夠合成(cheng)最終(zhong)要進行的(de)(de)操作(zuo)(zuo)軌跡了。
這一成果的最大亮點在于——整個機器人訓練過程是不需要進行任何額外的數據投喂和預訓練的。換而言之,目前機器人訓(xun)(xun)練所需要進行的預定義訓(xun)(xun)練、大規模數據缺失等問題,在這里(li)統統不存在。
正是因為(wei)具(ju)備上(shang)述能(neng)力,機器人只(zhi)要符合相關流程,也基(ji)本能(neng)夠完成任何(he)給定任務。
基于此,項目團(tuan)隊按照該方(fang)法進(jin)行了大量的實驗(yan),通過(guo)下達日(ri)常操(cao)作任務,比(bi)如,“把毛巾掛在架子上(shang)”、“把最上(shang)面的抽屜關上(shang)”、“把面包(bao)片從面包(bao)機中取出(chu)來,放到木板上(shang)”等,對VoxPoser進(jin)行驗(yan)證。
在實驗(yan)過程中,項目團隊還故意(yi)了(le)打斷任務(wu)執行,展示了(le)該(gai)成果在動態擾動下的(de)魯棒性。
由(you)于語言模(mo)型輸(shu)出在整個任務中保持不變,因此VoPoser可以(yi)緩存其輸(shu)出,并使(shi)(shi)用閉環視覺反(fan)饋(kui)重新評估生成的代碼,從而可以(yi)使(shi)(shi)用MPC快速重新規劃。
比如當對(dui)機(ji)器(qi)人(ren)發出“把垃圾紙分類到藍色托(tuo)盤里”,可以看到無論怎樣對(dui)機(ji)器(qi)人(ren)進行干擾,包括阻止機(ji)器(qi)人(ren)行動(dong)、調整物(wu)品擺放,它(ta)都可以順利執行任務。
論(lun)文指出,無(wu)論(lun)是在真實(shi)領域(yu)(yu),還是模擬領域(yu)(yu),VoPoser的(de)實(shi)驗結果要顯著優(you)于基于基線(xian)任務(wu)。
在真實領域(yu),VoPoser表現的(de)會(hui)更加靈活、更加穩健,尤其(qi)在外部干擾的(de)情況下。
另外,模擬領域中,VoPoser在兩(liang)個(ge)類別(總共13個(ge)任務)上(shang)的表現也更好。
VoPoser在零樣本下的學(xue)習能力和出錯情況也更優。
另外,論文闡(chan)述了VoPoser所涌現的四個(ge)新(xin)能力:
估算物理屬性:給定(ding)兩個未知質量的(de)方(fang)塊,機器人被要求(qiu)使用現有工具(ju)進行物理實驗,確定(ding)哪(na)個方(fang)塊更重。
常識性行為推理:在(zai)擺桌(zhuo)子的任務(wu)中(zhong),用戶(hu)可以指定行為偏好,比如“我是左(zuo)撇子”,這要求(qiu)機器(qi)人在(zai)任務(wu)環境(jing)中(zhong)理解其含義。
細粒度語言校正:對于需要高精度(du)的任務,比如(ru)“用蓋子蓋住茶壺”,用戶可以給機器人提供精確的指(zhi)令,比如(ru)“你離目(mu)標有1厘米的偏差”。
多步驟視覺操作:在任務“精確(que)地(di)將(jiang)抽屜打(da)開一半”的(de)情況下(xia),由于物體(ti)模型不可用,信息(xi)不足,機器人可以(yi)根據視(shi)覺反饋提(ti)出多(duo)步驟的(de)操(cao)縱(zong)策略。首先完全(quan)打(da)開抽屜并記錄把手(shou)的(de)位(wei)移,然后將(jiang)其關閉到中間位(wei)置以(yi)滿足要求。
機器人開啟AI的下一個浪潮
VoPoser的(de)(de)誕(dan)生并非(fei)偶(ou)然。去年年中(zhong)(zhong),李(li)飛飛曾在一篇(pian)文章(zhang)中(zhong)(zhong)指(zhi)出,計算機視(shi)覺(jue)未來(lai)發展的(de)(de)幾個重要方(fang)向,其中(zhong)(zhong)最(zui)重要的(de)(de)一個就是具身智能。
所謂具身智能,就(jiu)是Embodied Intelligence,簡稱(cheng)EI,圖靈于1950年在論文(wen)《Computing Machinery and Intelligence》中第一次(ci)提出這一概念。具(ju)身智能(neng)可以讓機(ji)器像人一樣能(neng)和環境交互感知(zhi),自主規劃、決策、行(xing)動,并具(ju)備執行(xing)能(neng)力,也(ye)被(bei)認(ren)為是AI的終極(ji)形態。
李(li)飛飛直言,具身智(zhi)能將會成為AI領域的(de)(de)(de)下一個(ge)“北極星問題”之一。而在不久前(qian)的(de)(de)(de)ITF World 2023半導體大會上,英偉達(da)首席執行官黃仁勛(xun)也(ye)表達(da)了類似(si)的(de)(de)(de)觀(guan)點,稱“AI的(de)(de)(de)下一個(ge)浪潮將是具身智(zhi)能”。
無獨有偶,對(dui)于具身智(zhi)能引發的(de)AI與機(ji)器人融(rong)合所形成的(de)巨大(da)想象空間,李飛飛也并不(bu)是唯一的(de)“追光(guang)者”。
因ChatGPT有“老樹逢春”感(gan)覺的(de)微軟也沒(mei)閑著,他們此前也發(fa)布了一篇論文,探索大模型(xing)與機器人的(de)結合。
論(lun)文提(ti)到(dao),將把ChatGPT的功能擴展到(dao)機(ji)器人領域,從(cong)而可以讓使用者用自然語言去控(kong)制如機(ji)械臂、無人機(ji)、家(jia)庭輔助(zhu)機(ji)器人等“智(zhi)能體(ti)”。
除了(le)(le)微軟之外,在(zai)今年年初,谷歌盡管在(zai)ChatGPT上栽了(le)(le)跟頭(tou),但(dan)在(zai)具身智能領域卻并未遲(chi)疑(yi)。比起論文來,谷歌反倒(dao)直接“甩”出了(le)(le)一(yi)個參(can)數(shu)達(da)5620億的具身多模(mo)態語言(yan)模(mo)型(xing)——PaLM-E,其最亮眼的能力就是可以讓機器人(ren)具備“聽(ting)懂人(ren)話”的能力。
據(ju)了解,PaLM-E-562B集(ji)成了參數量(liang)540B的PaLM和參數量(liang)22B的視(shi)覺 Transformer(ViT),是目前(qian)已知的最(zui)大的視(shi)覺-語言模型。
而(er)在國(guo)內(nei),剛剛過去的(de)“2023世界人(ren)工智(zhi)(zhi)能(neng)大(da)會上(shang)”(WAIC),智(zhi)(zhi)能(neng)機器人(ren)簡直成了除AIGC之外(wai)(wai)的(de)另(ling)一大(da)亮(liang)點。會上(shang),數百家(jia)國(guo)內(nei)外(wai)(wai)企業集(ji)結,各家(jia)智(zhi)(zhi)能(neng)機器人(ren)同臺競技。
比如智能機器(qi)人企業達闥,全方(fang)位(wei)展示(shi)了(le)具(ju)身智能服務(wu)機器(qi)人解決方(fang)案。據了(le)解,達闥此次亮相的多臺機器(qi)人,全部接入(ru)和升級了(le)達闥最新發布的RobotGPT、海睿(rui)AGI和海睿(rui)OS 5.1。
其(qi)中(zhong),達(da)闥人形機(ji)器(qi)人小姜下一代Cloud Ginger 2.0全身采用(yong)了新(xin)一代智能柔性關(guan)節SCA2.0和多(duo)種傳感(gan)器(qi),同時(shi)具備視覺和激光定位導(dao)航能力,可以包攬迎賓接待、商務導(dao)覽、沖泡咖啡、物品遞送(song)、節目表演、教育科研、陪護(hu)照看等多(duo)種任務。
另(ling)據(ju)市(shi)場消息(xi),達闥機(ji)(ji)器(qi)人已獲(huo)超(chao)10億(yi)人民幣C輪(lun)融(rong)資。此前,達闥機(ji)(ji)器(qi)人完成5輪(lun)融(rong)資,赴美上市(shi)失(shi)敗后(hou)有消息(xi)稱其今年將赴港上市(shi)。
云深處(chu)科(ke)技(ji)則在本(ben)屆大會上亮相了(le)四足機器人絕影Lite3和工業級絕影X20多傳感(gan)融合(he)版。尤其值得(de)一提的是(shi),絕影X20面(mian)向工業垂類賽道,具備AI智能識別(bie)和自主任務規劃(hua)功能,可(ke)以為電力、建(jian)筑等專業行業提供解決(jue)方案。
而除了機器(qi)人(ren)本賽道的(de)玩(wan)家“樂(le)此不疲”的(de)追(zhui)逐(zhu)具身智能(neng)的(de)風口之外,還有越來越多的(de)“跨界選手”加入其(qi)中(zhong)。
互聯網科技企業代表:網易、字節跳動、京(jing)東(dong)、美團等巨頭均(jun)沒閑著,紛紛投資成立(li)了專業機器人業務公司。
據公開消息顯示,6月28日(ri),杭州網(wang)易軒之轅智(zhi)能(neng)科技有(you)限公司、網(wang)易牽波智(zhi)能(neng)科技(杭州)有(you)限公司同時成(cheng)立,經營范圍包括了智(zhi)能(neng)機(ji)器人(ren)(ren)的(de)研發(fa)(fa)和(he)人(ren)(ren)工智(zhi)能(neng)應用軟件的(de)開發(fa)(fa)。而(er)需(xu)要指(zhi)出的(de)是,事實上(shang)早在2017年,網(wang)易就(jiu)成(cheng)立了網(wang)易伏(fu)羲,并(bing)且網(wang)易伏(fu)羲具身智(zhi)能(neng)工程機(ji)器人(ren)(ren)也在本屆WAIC上(shang)驚艷亮相。
緊隨網易(yi)的是字節(jie)跳動,7月4日,該公司傳出(chu)也(ye)將(jiang)要造(zao)機器(qi)人(ren)。并且消息透露,其機器(qi)人(ren)團(tuan)隊目前已(yi)經集合50人(ren),年底將(jiang)擴充至百人(ren)以(yi)上。成立后,字節(jie)機器(qi)人(ren)團(tuan)隊將(jiang)隸屬于字節(jie)AI Lab,由現任總(zong)監李航領(ling)導。
京東(dong)雖然暫時沒有關(guan)于新的機(ji)器(qi)人公(gong)司成立的消息爆出,但據6月初的消息顯示(shi),京東(dong)集團(tuan)旗下(xia)全平臺云計(ji)算綜合服務提(ti)供商京東(dong)云計(ji)算有限公(gong)司也進行了工商變更, 經營范圍新增(zeng)了智能機(ji)器(qi)人研發、電池零配(pei)件生產等。
傳統行業(ye)玩家中(zhong),碧(bi)桂(gui)園(yuan)、中(zhong)國(guo)石化等躬親入局。其中(zhong),碧(bi)桂(gui)園(yuan)較早就入局機器人(ren)(ren)(ren)賽道,而中(zhong)國(guo)石化銷(xiao)售(shou)股份有限(xian)公(gong)司(si)聯合航天云機(北京(jing))科(ke)技有限(xian)公(gong)司(si)則在今(jin)年(nian)初(chu)成立的(de)易嘉油智能機器人(ren)(ren)(ren)有限(xian)公(gong)司(si),主要做服(fu)務消(xiao)費機器人(ren)(ren)(ren)制造、服(fu)務消(xiao)費機器人(ren)(ren)(ren)銷(xiao)售(shou)、智能機器人(ren)(ren)(ren)的(de)研發等。
寫在最后
作為從(cong)科幻電(dian)影中走(zou)進現(xian)實的一個典(dian)型應用,人們對于機器人的向往(wang)絕不(bu)是(shi)說(shuo)說(shuo)而已。
值(zhi)得一(yi)提(ti)的是(shi),受(shou)到WAIC影(ying)響(xiang),機器人賽道的持續火(huo)爆引起了(le)資(zi)本領(ling)域的極大(da)興趣,期(qi)間機器人相關(guan)板塊備受(shou)關(guan)注(zhu),企業股票也是(shi)順勢上(shang)漲(zhang)。
另(ling)據中國(guo)電子學會在《中國(guo)機器人產業發展(zhan)報告(2022年)》中的預測,到2024年,全球(qiu)機器人市場(chang)規模(mo)將有望突破650億美元。
真金白銀(yin)的投入,往往說明(ming)了問(wen)題——隨著AI大模型和機(ji)器人(ren)的深度融合,更(geng)智能、更(geng)聰明(ming)的機(ji)器人(ren)勢必將成為新(xin)一輪的創新(xin)風口。
參考資(zi)料:
1.//voxposer.github.io/
2.//voxposer.github.io/voxposer.pdf
3.//www.youtube.com/watch?v=Yvn4eR05A3M
4.//mp.weixin.qq.com/s/eaZtaYMJYe0oCLq1h0fPiw
5.//mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ
6.//mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA
7.//www.thepaper.cn/newsDetail_forward_18791323
8.//www.zhihu.com/question/540675571