從去年下半年到現在,具身智能的熱度一直不減。眾多企業紛紛入局具身智能賽道,同時,今年具身智能概念也首次被寫入政府工作報告,這標志著這一技術已成為科技競爭的“關鍵領域”,也是未來大國之間人工智能博弈的焦點。在頂層(ceng)政(zheng)策的助(zhu)推和企業們的積極(ji)布局(ju)下,中(zhong)國(guo)具身(shen)智(zhi)能產業正在呈現蓬勃發展(zhan)之(zhi)勢(shi)。
根(gen)據頭豹研(yan)究院的(de)數據,2023 年(nian),中國具身(shen)智能市(shi)場規(gui)模(mo)(mo)達 1572.7 億元。隨(sui)著大模(mo)(mo)型端的(de)技術突(tu)破,具身(shen)智能市(shi)場規(gui)模(mo)(mo)預計將以 16.5% 的(de)復(fu)合年(nian)增長率(lv)增長至 2027 年(nian)的(de) 2259 億元。
長期以來,應用落地的痛點一直困擾著機器人產業鏈,而現在,在終端側AI技術與硬件加速融合發展的驅動下,具身智能概念讓整個產業正在超出預期地快速發展。智能機器人作為最通用的具身智能終端形態,在模型技術、多模態交互感知技術等一系列前沿科技的加持下,正在推動AI向能夠理解、推理并與物理世界互動的智能發展。英偉達黃仁勛曾多次表示,AI技術終局在物理AI,AI時代下一個浪潮是“具身智能”時代。
在這樣(yang)的(de)大(da)(da)背景下,不久前由中(zhong)國人工智(zhi)能(neng)學會(CAAI)主(zhu)辦(ban)第二屆中(zhong)國具(ju)身智(zhi)能(neng)大(da)(da)會(CEAI 2025)在北京舉辦(ban)。本(ben)屆大(da)(da)會發布(bu)了“具(ju)身智(zhi)能(neng)十五大(da)(da)重點方向”,為國內蓬勃(bo)發展(zhan)中(zhong)的(de)具(ju)身智(zhi)能(neng)賽道(dao)指明了后續發展(zhan)的(de)重要細分方向。
“具身智能十五大重點方向”是國內首次系統性地梳理具身智能技術的發展路線圖,這十五個重點方向分別為:多模態具身感知、具身自主學習、具身大模型、具身世界模型構建、具身操作、具身導航與路徑規劃、具身人機協同、群體具身智能、具身知識推理、具身智能仿真平臺、具身智能仿真到真實環境的遷移與泛化、具身智能安全、具身對話與交互、具身強化學習與自適應控制以及具身意識與情感。
這里將其分為五大類,其中,感知與交互是智能化基礎,決策與控制是行動的核心,協作與系統推動規模化應用,基礎技術支撐加速研發進程,安全與倫理保障可持(chi)續性。需要說明的是具身(shen)機器(qi)人是多學科多技術交叉的領域,很多技術方(fang)向(xiang)存在重(zhong)疊,這里的分(fen)類只按照技術側重(zhong)稍做區(qu)分(fen)。
在(zai)今(jin)天這(zhe)篇文章中,我們一起按(an)上述分類(lei)梳理(li)這(zhe)十五大重(zhong)點方向(xiang),看看如何(he)在(zai)具身(shen)智能(neng)時代抓住這(zhe)些前沿底層(ceng)技術發(fa)展脈絡(luo)。
感知與交互是智能化基礎,這一方向包括:多模態具身感知、具身對話與交互和具身知識推理。
作為集前沿科學技術于一身的產品,具身機器人的感知層、決策層、執行層等等每一類技術框架里都有著大量可智能化的空間。多模態具身感知是傳統機器人向具身機器人升級的重要一環,是具身智能機器人的基礎能力。具(ju)身智(zhi)能機(ji)器人需要一整套完整的(de)多(duo)模態具(ju)身感(gan)知系統,通過多(duo)維度(du)的(de)感(gan)知數據收集(ji),帶動(dong)運動(dong)控制的(de)范式變化。
除了IMU、編碼器等內(nei)部本體感(gan)知,多(duo)(duo)模態感(gan)知強調機器人(ren)(ren)能盡可能實現擬人(ren)(ren)的五感(gan)。目前(qian)除了嗅(xiu)覺(jue)(jue)感(gan)知方向進展(zhan)稍慢(man),視(shi)、觸、聽(ting)、語言感(gan)知等方向均有了明顯的智能化提升(sheng)。AI+3D視(shi)覺(jue)(jue)已經發展(zhan)了很多(duo)(duo)年,是(shi)將AI與(yu)傳感(gan)結(jie)合得較為成熟的賽道。以往更多(duo)(duo)的是(shi)在(zai)實時收集真實數據后不斷在(zai)云端(duan)優(you)化視(shi)覺(jue)(jue)算法。端(duan)側AI的興(xing)起,開始直(zhi)接在(zai)端(duan)側進行數據處(chu)理,降低了可能因傳輸(shu)數據造成的延遲與(yu)可靠(kao)性問題。
觸覺(jue)(jue)方(fang)向(xiang)(xiang)上,國(guo)內有帕西(xi)尼(ni)感(gan)知(zhi)、他(ta)山科技(ji)、漢(han)威科技(ji)等(deng)廠(chang)商在向(xiang)(xiang)多(duo)模(mo)態觸覺(jue)(jue)感(gan)知(zhi)發力。如帕西(xi)尼(ni)主(zhu)研發的ITPU多(duo)維觸覺(jue)(jue)傳(chuan)感(gan)技(ji)術,不局限于(yu)傳(chuan)統觸覺(jue)(jue)傳(chuan)感(gan)器的單一感(gan)知(zhi),實現了(le)多(duo)維陣(zhen)列力感(gan)知(zhi)及(ji)材質(zhi)、溫度、紋理等(deng)多(duo)模(mo)態物(wu)理屬性感(gan)知(zhi)。
模(mo)型(xing)(xing)技術(shu)的(de)(de)(de)提升在(zai)自(zi)然語(yu)(yu)(yu)言處理(li)NLP領(ling)域上(shang)的(de)(de)(de)優勢(shi)也被機器人充(chong)分應用起來。借助(zhu)端側或云端的(de)(de)(de)模(mo)型(xing)(xing)進行自(zi)然語(yu)(yu)(yu)言識別來做語(yu)(yu)(yu)音(yin)交互、語(yu)(yu)(yu)音(yin)喚醒、聊(liao)天問答等功能已(yi)經(jing)開(kai)始向機器人應用滲(shen)透。移(yi)遠的(de)(de)(de)機器人端側大模(mo)型(xing)(xing)解決方(fang)案就是很好的(de)(de)(de)例子,服(fu)務(wu)機器人可實現(xian)(xian)1s以(yi)內(nei)的(de)(de)(de)語(yu)(yu)(yu)義識別,解碼(ma)速(su)率(lv)超過15 tokens/s。從KWS語(yu)(yu)(yu)音(yin)喚醒到(dao)VAD人聲檢測,再到(dao)ASR語(yu)(yu)(yu)音(yin)識別,最后通過TTS語(yu)(yu)(yu)音(yin)播報,移(yi)遠大模(mo)型(xing)(xing)解決方(fang)案在(zai)全語(yu)(yu)(yu)音(yin)鏈(lian)路(lu)上(shang)實現(xian)(xian)了無縫銜接與高效(xiao)運行。
在多模態感知與交互功(gong)能(neng)的支持下服(fu)務機器(qi)(qi)人得(de)以準(zhun)確理解用戶意圖,并以清晰自然的語音進行反饋(kui),在交互體(ti)驗(yan)和智(zhi)能(neng)服(fu)務上遠(yuan)勝于傳統的服(fu)務機器(qi)(qi)人。移遠(yuan)通信在近期受訪時也(ye)表(biao)示后續會基(ji)于控制(zhi)器(qi)(qi),為機器(qi)(qi)人集(ji)成(cheng)更多外圍感知器(qi)(qi)件,用多維(wei)的感知來不(bu)斷賦予(yu)機器(qi)(qi)人更類人的感知與交互能(neng)力。
交(jiao)互(hu)的(de)(de)(de)前提是充(chong)分(fen)的(de)(de)(de)感知,借助實時、精準、多模態的(de)(de)(de)感知技(ji)術,機器人才(cai)能拓展更多自(zi)如的(de)(de)(de)AI交(jiao)互(hu)功(gong)能。
具身對話與交互與(yu)自然語言處理NLP密切相(xiang)關,結(jie)合語義理解與(yu)物理反(fan)饋,在大模型的(de)(de)(de)支持下進行沉浸(jin)式交(jiao)(jiao)互(hu)。隨著該(gai)方向(xiang)的(de)(de)(de)持續(xu)推動,具身對話與(yu)交(jiao)(jiao)互(hu)應該(gai)更鼓勵通過持續(xu)的(de)(de)(de)交(jiao)(jiao)互(hu),自然形成雙向(xiang)、多模態的(de)(de)(de)交(jiao)(jiao)流方式,即人(ren)類和(he)機器人(ren)可以共同塑造(zao)交(jiao)(jiao)流氛圍,并不(bu)斷改進具身機器人(ren)非結(jie)構化(hua)的(de)(de)(de)交(jiao)(jiao)流能力。
非結構化(hua)(hua)交(jiao)流能力(li)是(shi)具身對(dui)(dui)話(hua)交(jiao)互的(de)(de)(de)愿(yuan)景,現階段完成(cheng)更(geng)(geng)自然更(geng)(geng)擬(ni)人的(de)(de)(de)交(jiao)互是(shi)亟(ji)需(xu)的(de)(de)(de)。目前不少廠商針對(dui)(dui)智能陪伴機器(qi)人的(de)(de)(de)核心需(xu)求(qiu)在這方面的(de)(de)(de)能力(li)升(sheng)級(ji),如廣和通最近發布的(de)(de)(de)星(xing)云(yun)系列,就通過(guo)外接(jie)攝(she)像頭、麥(mai)克風(feng)等傳感(gan)(gan)器(qi),星(xing)云(yun)解(jie)決方案(an)通過(guo)多模態(tai)感(gan)(gan)知可實時解(jie)析用戶動作、表情與語音意(yi)圖,并通過(guo)端側7B模型支(zhi)持個性化(hua)(hua)對(dui)(dui)話(hua)生成(cheng)與情感(gan)(gan)識別,實現更(geng)(geng)自然的(de)(de)(de)“擬(ni)人化(hua)(hua)”情感(gan)(gan)交(jiao)互。
在多模態感知到多模態交互的過程中,涉及到具身知識推理,即讓(rang)機器人能夠結(jie)合先驗知(zhi)(zhi)識(shi)(shi)與(yu)(yu)實時感知(zhi)(zhi)數據,利(li)用知(zhi)(zhi)識(shi)(shi)庫中的(de)結(jie)構化知(zhi)(zhi)識(shi)(shi)(如物(wu)理(li)規律、操作流程、語(yu)義關系(xi)等),提升對復(fu)雜任(ren)務的(de)邏輯推理(li)能力。其核心在于將抽象知(zhi)(zhi)識(shi)(shi)(如常識(shi)(shi)、領(ling)域(yu)規則)與(yu)(yu)具身(shen)多模(mo)態感知(zhi)(zhi)(如視覺(jue)、觸覺(jue))深(shen)度融(rong)合,以(yi)支持動(dong)態環境下的(de)任(ren)務規劃(hua)與(yu)(yu)交(jiao)互執行(xing)。
決策與控制方向上包括:具身自主學習、具身強化學習與自適應控制、具身導航與路徑規劃、具身操作;協作與系統方向上包括:具身人機協同、群體具身智能。
具身導航路徑規劃以及具身操作是機(ji)器(qi)(qi)人(ren)執行(xing)側(ce)的(de)(de)(de)(de)(de)下(xia)(xia)一個發(fa)(fa)展階段。自(zi)主導(dao)航與(yu)路(lu)徑(jing)規劃(hua)(hua)經(jing)過這些年的(de)(de)(de)(de)(de)發(fa)(fa)展已(yi)經(jing)成熟了(le)(le)很多。特別是SLAM技(ji)術的(de)(de)(de)(de)(de)成熟完(wan)善讓機(ji)器(qi)(qi)人(ren)在沒有(you)環境先驗信息的(de)(de)(de)(de)(de)情(qing)況下(xia)(xia)實現(xian)了(le)(le)未知(zhi)地圖內的(de)(de)(de)(de)(de)自(zi)主導(dao)航與(yu)規劃(hua)(hua),讓很多商(shang)用機(ji)器(qi)(qi)人(ren)得以落地應用,如巡(xun)檢機(ji)器(qi)(qi)人(ren)、送餐機(ji)器(qi)(qi)人(ren)。值得注(zhu)意的(de)(de)(de)(de)(de)是,具(ju)身導(dao)航時代,3D SLAM也在快速(su)崛起。
具身智能設備的迅速普及將快速推動以SLAM為代表的各類導航傳感器的融合,在多傳感器信息融合的基礎上,通過智能模型優化路徑規劃,讓機器人導航向更自主更靈活的具身導航方向發展。為了實現性能更好的導航效果,我們也看到上游的芯片廠商會(hui)自研導航規劃算法將(jiang)算法在芯片層面硬(ying)件化,如一微半導體、芯明智能;傳(chuan)感器(qi)廠商也(ye)有不少將(jiang)導航算法與傳(chuan)感器(qi)件打(da)包(bao)成(cheng)模(mo)塊(kuai)提供給下游(you)本(ben)體廠商,如鐳神智能、AMS OSRAM、速騰(teng)聚創(chuang)。
機(ji)器(qi)人(ren)末端執(zhi)行器(qi)的(de)具身(shen)(shen)操(cao)作其(qi)實(shi)無(wu)需(xu)贅述(shu),重(zhong)點在(zai)于具身(shen)(shen)智能體如何(he)(he)基于多(duo)(duo)維(wei)度多(duo)(duo)模態感知信息生(sheng)成行動策略(lve)并實(shi)現精(jing)(jing)準執(zhi)行。各類精(jing)(jing)密的(de)末端操(cao)作在(zai)今年亮相(xiang)的(de)機(ji)器(qi)人(ren)中已經有了很多(duo)(duo)展示,后(hou)續如何(he)(he)拓展具身(shen)(shen)機(ji)器(qi)人(ren)多(duo)(duo)樣化工作能力,持續增強基礎動作模型能力,從而實(shi)現更廣(guang)泛的(de)場景應用(yong)是落地關鍵點。
機器人具身自主學習、具身強化學習與自適應控制是底層技術的(de)長(chang)期積累(lei),具身(shen)(shen)自(zi)主(zhu)(zhu)學習通(tong)過(guo)試錯與(yu)環境(jing)反(fan)饋(kui)優化(hua)策(ce)略,根據反(fan)饋(kui)信(xin)息來調(diao)整自(zi)己的(de)行為。具身(shen)(shen)自(zi)主(zhu)(zhu)學習方法(fa)在(zai)(zai)機(ji)(ji)器(qi)(qi)人(ren)(ren)(ren)多個模塊(kuai)都有廣泛的(de)應(ying)用(yong),例(li)如(ru)(ru)在(zai)(zai)機(ji)(ji)器(qi)(qi)人(ren)(ren)(ren)導航中,機(ji)(ji)器(qi)(qi)人(ren)(ren)(ren)可(ke)以通(tong)過(guo)感(gan)知周圍的(de)環境(jing)和(he)(he)障礙(ai)物(wu),學習到如(ru)(ru)何避開(kai)障礙(ai)物(wu)并(bing)找(zhao)到最佳路(lu)徑;在(zai)(zai)物(wu)體識(shi)別和(he)(he)抓(zhua)取任務(wu)中,機(ji)(ji)器(qi)(qi)人(ren)(ren)(ren)可(ke)以通(tong)過(guo)多模態模型感(gan)知物(wu)體的(de)形狀、質地(di)等特征,并(bing)不斷學習到如(ru)(ru)何正(zheng)確地(di)抓(zhua)取物(wu)體。在(zai)(zai)不斷的(de)嘗試和(he)(he)錯誤中,機(ji)(ji)器(qi)(qi)人(ren)(ren)(ren)自(zi)主(zhu)(zhu)學習到如(ru)(ru)何有效地(di)與(yu)環境(jing)進行交互(hu),并(bing)實現特定的(de)任務(wu)。強化(hua)學習與(yu)自(zi)適(shi)(shi)應(ying)控制更強調(diao)突(tu)破傳(chuan)統(tong)程序化(hua)指令(ling)限制,適(shi)(shi)應(ying)動態環境(jing)變化(hua),如(ru)(ru)柔性機(ji)(ji)器(qi)(qi)末端(duan)的(de)實時調(diao)整。在(zai)(zai)具身(shen)(shen)設備落地(di)階段(duan),適(shi)(shi)應(ying)動態環境(jing)變化(hua)的(de)自(zi)適(shi)(shi)應(ying)控制將發(fa)揮關鍵(jian)作用(yong),確保機(ji)(ji)器(qi)(qi)人(ren)(ren)(ren)在(zai)(zai)復雜場景中靈活應(ying)對(dui)各種(zhong)變化(hua)。
具(ju)身(shen)(shen)人機(ji)(ji)(ji)協同(tong)、群(qun)(qun)體具(ju)身(shen)(shen)智(zhi)能將單個具(ju)身(shen)(shen)智(zhi)能體擴(kuo)展到多智(zhi)能體協同(tong)以(yi)及(ji)人機(ji)(ji)(ji)協同(tong)作業,通過群(qun)(qun)體智(zhi)能算法實(shi)現高效協作,聚焦多機(ji)(ji)(ji)協同(tong)的復雜系統設計,強調(diao)交互性與規模化應(ying)用。智(zhi)源研究院在(zai)大(da)會上(shang)發布首(shou)個跨本體具(ju)身(shen)(shen)大(da)小腦(nao)協作框架RoboOS與開源具(ju)身(shen)(shen)大(da)腦(nao)RoboBrain就強調(diao)可實(shi)現跨場景多任(ren)務輕量化快速(su)部署與跨本體協作,推(tui)動(dong)單機(ji)(ji)(ji)智(zhi)能邁向群(qun)(qun)體智(zhi)能。
具身智能技(ji)術的持(chi)續演進,不僅提(ti)升了機器人(ren)的個體(ti)能力(li),更(geng)在多智能體(ti)協(xie)同(tong)中展現(xian)出(chu)強(qiang)大潛力(li)。隨著(zhu)算法優化與(yu)硬件升級,群體(ti)具身智能的完善將推動智能制造與(yu)人(ren)機協(xie)作邁向新(xin)高度(du)。
基礎技術的快速迭代加速著具身技術的應用,在十五個方向中包括了:具身大模型、具身世界模型構建、具身智能仿真平臺、仿真到真實環境的遷移與泛化。
模(mo)(mo)型(xing)(xing)(xing)技(ji)(ji)術(shu)自然是具(ju)(ju)(ju)身智能實現的基石,在其(qi)他技(ji)(ji)術(shu)方向(xiang)上(shang),也(ye)或(huo)(huo)多或(huo)(huo)少能看見模(mo)(mo)型(xing)(xing)(xing)技(ji)(ji)術(shu)的影子(zi)。面(mian)向(xiang)具(ju)(ju)(ju)身智能應用領域的多模(mo)(mo)態具(ju)(ju)(ju)身大模(mo)(mo)型(xing)(xing)(xing),能夠幫助機(ji)(ji)器人真正理(li)解(jie)(jie)這個(ge)世界,對人類(lei)發出的指令進行拆解(jie)(jie)、邏輯推(tui)理(li)和(he)規劃決策,再分(fen)配給不同(tong)的小腦模(mo)(mo)型(xing)(xing)(xing)來執行。具(ju)(ju)(ju)身大模(mo)(mo)型(xing)(xing)(xing)是全球諸多機(ji)(ji)器人公司和(he)研究機(ji)(ji)構追捧的前沿課題。
此前(qian)Figure發(fa)布(bu)的(de)(de)(de)(de)(de)Helix,內置擁有70億參數(shu)的(de)(de)(de)(de)(de)開源端側(ce)互聯(lian)網預訓練(lian)視覺語言模(mo)(mo)(mo)型(xing)用于(yu)處理語音和視覺信息,和8000萬參數(shu)的(de)(de)(de)(de)(de)AI模(mo)(mo)(mo)型(xing)用于(yu)將指令轉化為精確(que)的(de)(de)(de)(de)(de)機器人(ren)(ren)動作;智(zhi)(zhi)元機器人(ren)(ren)發(fa)布(bu)的(de)(de)(de)(de)(de)通(tong)用具(ju)(ju)(ju)身基(ji)座大(da)模(mo)(mo)(mo)型(xing)智(zhi)(zhi)元啟元大(da)模(mo)(mo)(mo)型(xing)則憑借強大(da)的(de)(de)(de)(de)(de)泛(fan)化能(neng)力,能(neng)夠在極少的(de)(de)(de)(de)(de)數(shu)據甚至零樣(yang)本下(xia)泛(fan)化到(dao)新(xin)(xin)場景(jing)、新(xin)(xin)任務,降(jiang)低具(ju)(ju)(ju)身大(da)模(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)使用門(men)檻;不久前(qian)優艾(ai)智(zhi)(zhi)合聯(lian)合西(xi)安交大(da)具(ju)(ju)(ju)身智(zhi)(zhi)能(neng)機器人(ren)(ren)研(yan)究(jiu)院團隊(dui)構建(jian)的(de)(de)(de)(de)(de)“一(yi)(yi)腦(nao)多(duo)態”的(de)(de)(de)(de)(de)具(ju)(ju)(ju)身智(zhi)(zhi)能(neng)大(da)模(mo)(mo)(mo)型(xing),同樣(yang)采用多(duo)模(mo)(mo)(mo)態通(tong)用基(ji)座大(da)模(mo)(mo)(mo)型(xing),還(huan)加上了“一(yi)(yi)腦(nao)多(duo)態”端側(ce)具(ju)(ju)(ju)身模(mo)(mo)(mo)型(xing)的(de)(de)(de)(de)(de)混(hun)合架構;魔(mo)法原子近期(qi)也公開了首個具(ju)(ju)(ju)身智(zhi)(zhi)能(neng)大(da)模(mo)(mo)(mo)型(xing)“原子萬象(xiang)”。
對于帶有執行功能的具身機器人終端側設備來說,構建多模態具身大模型是通往高階智能的必經之路。與此同時,多模態具身大模型和硬件算力的適配,則是能否真正應用起具身大模型能力的重點,也是推進具身設備落地的關鍵。
數據融合后高復雜性需要恰當的計算資源讓整個具身大模型系統運轉起來。多模態具身模型與硬件算力的結合正在積極涌現,眾多具身端側大模型紛紛與英偉達、紫光展銳、高通、瑞芯微、英特爾等算力硬件廠商展開深度合作,釋放具身大模型潛力。具身模型與硬件算力結合落地,讓具身智能設備進入商用的步伐加速。
在物聯網智庫近期的采訪中,也了解到不少算力模組廠商如移遠通信、廣和通、比鄰智聯等,正在積極布局機器人模型“大小腦”,通過算力、模型、連接多方面的工程化能力加速下游機器人本體廠商應用起AI能力。
具身世界模型根據(ju)英偉達(da)官網(wang)的(de)(de)定義,即理(li)解(jie)現(xian)實世(shi)界動(dong)態的(de)(de)生成式AI模(mo)型,能(neng)夠(gou)理(li)解(jie)現(xian)實世(shi)界環境的(de)(de)物(wu)理(li)特性,從而對運動(dong)、應力以及感官數(shu)據(ju)中(zhong)的(de)(de)空間關(guan)系等(deng)動(dong)態進行表示和(he)預測。在終局(ju)的(de)(de)物(wu)理(li)AI世(shi)界,具身世(shi)界模(mo)型是(shi)連(lian)接虛(xu)擬與(yu)現(xian)實的(de)(de)橋梁,是(shi)能(neng)夠(gou)表征世(shi)界運作邏輯的(de)(de)空間智能(neng)。
以NVIDIA面向物(wu)理AI發(fa)(fa)布的(de)“世界基礎(chu)模型”Cosmos為例,它能通(tong)過生成(cheng)合成(cheng)數(shu)據(ju),使用包括(kuo)文本(ben)、圖像(xiang)、視(shi)頻和(he)運動在內的(de)輸(shu)入(ru)數(shu)據(ju)來生成(cheng)和(he)仿(fang)真虛(xu)擬世界,以準確模擬場(chang)景中(zhong)物(wu)體的(de)空間關系及其物(wu)理交互。目前(qian)具(ju)(ju)身世界模型正處(chu)于初步發(fa)(fa)展階(jie)段,但(dan)不可否認的(de)是構建具(ju)(ju)身世界模型在具(ju)(ju)身環(huan)境(jing)(jing)的(de)訓練決策(ce)中(zhong)起著至(zhi)關重要的(de)作用,它讓現實(shi)世界中(zhong)原本(ben)成(cheng)本(ben)高昂依賴真實(shi)數(shu)據(ju)的(de)模擬在虛(xu)擬環(huan)境(jing)(jing)和(he)數(shu)據(ju)下成(cheng)為可能。
涉及到大量虛擬數據構建與仿真,具身智能仿真平臺、仿真到真實環境的遷移與泛化自然(ran)是(shi)具身智(zhi)能重(zhong)要(yao)的(de)(de)研究(jiu)方(fang)向。筆者在此(ci)前的(de)(de)文章《機器人與(yu)模(mo)型深度(du)融(rong)合開啟智(zhi)能升(sheng)級下半場,智(zhi)能終(zhong)端的(de)(de)未來終(zhong)局是(shi)物理AI》中也提到(dao)(dao)過,“和傳統模(mo)型不(bu)一(yi)(yi)樣,機器人世界模(mo)型所需的(de)(de)訓練數(shu)(shu)據(ju)需要(yao)精確(que)標定來進行學習(xi)和泛(fan)化,而且(qie)很難從現實(shi)世界完(wan)成(cheng)龐大的(de)(de)采集(ji)量且(qie)采集(ji)后多模(mo)態(tai)數(shu)(shu)據(ju)很難標定,度(du)量不(bu)一(yi)(yi)這些(xie)數(shu)(shu)據(ju)就(jiu)無法被模(mo)型利用。從Sim到(dao)(dao)Real也就(jiu)成(cheng)了更(geng)有效率的(de)(de)一(yi)(yi)條路(lu)”。
在這些重點(dian)技術(shu)方(fang)向(xiang)上,世(shi)界基礎模型(xing)提(ti)供物理(li)世(shi)界知識和高仿真數(shu)據,奠定泛化(hua)基礎,端側的(de)具身大(da)模型(xing)經細化(hua)、壓縮及多模態融合優化(hua),適配具身設(she)備算力需求充分釋放應(ying)用潛力,共同推動著(zhu)具身智能邁入物理(li)AI終局(ju)。
在最后一個分類中,是和安全與倫理相關的具身智能安全、具身意識與情感。目前(qian)這(zhe)一塊的建設還(huan)比較(jiao)稀缺,且具(ju)(ju)(ju)身機器人(ren)還(huan)沒(mei)有進化到具(ju)(ju)(ju)備意識(shi)與情(qing)感的階段,但未雨(yu)綢繆提前(qian)布局總是好的,確(que)保具(ju)(ju)(ju)身技(ji)術應用符(fu)合倫理規范并規避(bi)潛(qian)在風險,是未來(lai)具(ju)(ju)(ju)身智能(neng)設備可(ke)持續發展(zhan)的必要(yao)條件。
具身智能(neng)十五(wu)大重點方(fang)向,囊括(kuo)從底層感知(zhi)到(dao)(dao)(dao)高層決(jue)策、從單機到(dao)(dao)(dao)系統、從技術(shu)突破(po)到(dao)(dao)(dao)社會(hui)落(luo)地的(de)完整(zheng)鏈條(tiao)。這些(xie)方(fang)向的(de)明確為后續具身智能(neng)產(chan)業鏈布局(ju)提供了參考(kao),在模型(xing)技術(shu)、算力硬(ying)(ying)件(jian)(jian)、運控技術(shu)、感知(zhi)技術(shu)等(deng)基礎軟硬(ying)(ying)件(jian)(jian)協(xie)同發展的(de)推動(dong)下,國(guo)內具身智能(neng)將逐步實現從概念到(dao)(dao)(dao)實際落(luo)地應用的(de)跨越(yue)。