在(zai)與OpenAI分道揚鑣(biao)之后(hou),Figure沒有(you)停下機器(qi)人(ren)(ren)與AI結合(he)的(de)(de)腳步,發(fa)布(bu)了具身(shen)模(mo)(mo)型(xing)Helix。Helix是一款對整(zheng)個人(ren)(ren)形機器(qi)人(ren)(ren)上半(ban)身(shen)進行(xing)高頻率(lv)、連續控制的(de)(de)視覺(jue)(jue)-語(yu)言(yan)-動(dong)(dong)作(VLA)多模(mo)(mo)態模(mo)(mo)型(xing)。VLA模(mo)(mo)型(xing)不(bu)僅(jin)(jin)僅(jin)(jin)是機器(qi)人(ren)(ren)智能(neng)(neng)化關鍵技(ji)術,應該說智能(neng)(neng)硬件發(fa)展(zhan)到(dao)高階智能(neng)(neng),多模(mo)(mo)態能(neng)(neng)力都(dou)是其(qi)核(he)心功能(neng)(neng)。在(zai)上篇文(wen)章中也提到(dao)過,在(zai)觸(chu)覺(jue)(jue)相關的(de)(de)感知與處理能(neng)(neng)力成熟后(hou),VLA發(fa)展(zhan)成全模(mo)(mo)態的(de)(de)視覺(jue)(jue)-觸(chu)覺(jue)(jue)-語(yu)言(yan)-動(dong)(dong)作VTLA模(mo)(mo)型(xing)也是必要的(de)(de)。
和機器人有著很多共同技術棧的智能汽車行業,有著多模態能力的VLA模型亦在加速崛起。不少智駕從業人士將VLA模型視為當下繼特斯拉端到端方案之后的端到端2.0版本,被譽為“端到端與多模態模型融合得更徹底的產物”。VLA模型從多種傳感器數據中提取豐富的內外部信息,再借助語言端側模型理解指令最后轉化為駕駛操作指令,推動智能駕駛向(xiang)L3L4等級發展。中國乘用車(che)(che)產業聯(lian)盟秘書(shu)長近(jin)期(qi)也表示在量產車(che)(che)市場,未來VLA模型有望(wang)成(cheng)為高階智駕的(de)標配。
在VLA模型的帶動下,具備多模態交互推理能力的多模態模型成為焦點。北大團隊在公布基于DeepSeek-R1更新的多模態版DeepSeek-R——Align-DS-V時也表示“這種全模態的信息流對于大模型范式轉向通用人工智能非常重要”。
隨著DeepSeek正式(shi)開啟(qi)“開源周”,每天開源一個項目再度引發AI模型(xing)的(de)開源潮。與(yu)此(ci)前推理模型(xing)的(de)開源不同,這(zhe)幾天AI模型(xing)在多模態領(ling)域“卷”了(le)起來(lai)。持(chi)續火(huo)爆的(de)DeepSeek本身就有著多模態框架,越來(lai)越多基(ji)于(yu)DeepSeek的(de)改良(liang)版多模態模型(xing)涌現。
與此同時,和智能硬件結合的多模態模型同樣開始催生傳感器端側智能變革。沒有先進的傳感信息收集,全模態的交互處理能力就無用武之地。多模態模型加持的終端設備,正在推動傳感器向AI傳感器變革。
然而多模態模型的應用并非沒有挑戰,數據融合的復雜性要求極高的計算資源,而且融合后的終端側模型參數變得更大,既要求高效實時又要推理能力,這對芯片硬件有相當高的要求。同時海量感(gan)知信息收集需要配套的先進多模(mo)態(tai)感(gan)知底(di)座,沒有傳感(gan)基(ji)礎(chu)硬件的支持,一切(qie)都只是空中樓閣。
機器人賽道上從Figure的Helix來看,里面有兩個關鍵的模塊,第一個模塊是一個擁有70億參數的開源端側互聯網預訓練視覺語言模型,用于處理語音(yin)和視覺信息,即VLA中(zhong)的VL。第二個模塊則是一個擁(yong)有(you)8000萬參(can)數的AI模型,負責將語言(yan)模型發出的指(zhi)令轉化為精確的機(ji)器人動作(zuo),即VLA中(zhong)的A。這一架構(gou)讓Helix能實時處理復雜(za)場景,并提供(gong)高(gao)度精準的動作(zuo)反饋。
在VL部分的感(gan)知(zhi)環節上這(zhe)里主要集(ji)中在視覺和語(yu)言(yan)信息的融合(he)上,將攝像頭、用(yong)戶(hu)語(yu)言(yan)等各種感(gan)知(zhi)數據(ju)(ju)收(shou)集(ji),進而轉(zhuan)化(hua)為(wei)統一的token embedding用(yong)于后(hou)續處理。根據(ju)(ju)Figure介紹,Helix完全(quan)能(neng)夠在嵌入(ru)式(shi)低功(gong)耗(hao)GPU上運(yun)行(xing)。Helix VLA模型與英偉(wei)達(da)GPU的結合(he)給火熱的機器人賽(sai)道(dao)再次升(sheng)溫。
智駕領域走視覺路線的Nullmax攜手黑芝麻智能(neng)也發布了(le)基于(yu)華(hua)山(shan)系(xi)列A2000的多(duo)模(mo)態模(mo)型智駕方(fang)案,在不依賴激光雷達系(xi)統中,通過攝像頭、語音(yin)等(deng)多(duo)模(mo)態信息,幫助汽車獲得感官能(neng)力并(bing)實(shi)現多(duo)種高(gao)階智能(neng)功能(neng)。
在智駕領域走純視覺感知路線尚沒有定數,走多傳感器融合的方案也不少,毫米波雷達、激光雷達自然也是多模態模型中重要的感知信息。華為智駕(jia)3.0的激光(guang)雷(lei)達+毫米波雷(lei)達+視覺融合的多模態模型方案搭配華為的硬件算(suan)力(li),亦是自動駕(jia)駛產業融合派的技術代(dai)表(biao)。
在(zai)(zai)AI模(mo)(mo)型(xing)(xing)上,打(da)造高(gao)質(zhi)量LLM和多模(mo)(mo)態模(mo)(mo)型(xing)(xing)正在(zai)(zai)為(wei)AI的商用(yong)應用(yong)和終端(duan)側推理落地做好(hao)準備。對于帶有執行功能的機器人等終端(duan)側硬件來說,從多模(mo)(mo)態模(mo)(mo)型(xing)(xing)過渡到VLA模(mo)(mo)型(xing)(xing)則是高(gao)階智能的未來。
在智能終端硬件側,多模態模型和硬件算力的適配,則是能否真正應用起多模態能力的重點,也是推進終端落地的關鍵。數據融合后高復雜性需要恰當的計算資源讓整個智能系統運轉起來。在多模態模型的技術周期,DeepSeek帶動的AI模型訓練成本下降和開源合作上的結合能讓更多的開發者進行高質量多模態模型開發;與硬件算力的適配將進一步推動多模態能力在終端側的部署和推廣,提升終端側智能體驗。
多模(mo)(mo)(mo)態(tai)模(mo)(mo)(mo)型(xing)與硬件(jian)算力(li)的結合(he)正在積極涌(yong)現,面壁(bi)智能(neng)研發基于(yu)MiniCPM系列端(duan)側(ce)多模(mo)(mo)(mo)態(tai)模(mo)(mo)(mo)型(xing)已(yi)經與安謀科技、愛芯元智、紫光展(zhan)銳、高通、瑞芯微(wei)、英特爾等算力(li)硬件(jian)廠商展(zhan)開深(shen)度(du)合(he)作(zuo);深(shen)思考人(ren)工智能(neng)不久前發布(bu)的鴻(hong)蒙系統“TinyDongni”及“DeepSeek”超小(xiao)端(duan)側(ce)多模(mo)(mo)(mo)態(tai)大模(mo)(mo)(mo)型(xing),已(yi)與國產頭部(bu)模(mo)(mo)(mo)組廠商廣和通、深(shen)開鴻(hong)達成合(he)作(zuo)推出適(shi)配國產算力(li)的硬件(jian)解決方(fang)案。
模(mo)型層和算力層的打(da)通,多模(mo)態模(mo)型與硬件算力適配結合落地,是終端智能設(she)備進入千行百業(ye)的關(guan)鍵動作,點(dian)燃了智能硬件落地前景。
在(zai)(zai)多(duo)模(mo)(mo)態模(mo)(mo)型如(ru)火如(ru)荼地(di)發展下,用于(yu)智(zhi)能硬件多(duo)模(mo)(mo)態模(mo)(mo)型中的(de)一(yi)切數(shu)據源頭都建立在(zai)(zai)傳(chuan)感(gan)(gan)器(qi)(qi)帶來的(de)輸入上,用于(yu)感(gan)(gan)知各類信息的(de)傳(chuan)感(gan)(gan)器(qi)(qi)也迎來智(zhi)能變革推動力。在(zai)(zai)智(zhi)能硬件上不(bu)可或(huo)缺的(de)AI傳(chuan)感(gan)(gan)迎來多(duo)模(mo)(mo)態模(mo)(mo)型技(ji)術(shu)周(zhou)期里的(de)新(xin)發展機(ji)遇(yu)。
在終端側,已經可以(yi)看(kan)到以(yi)汽(qi)車和機器(qi)人為代表的(de)(de)多模(mo)態(tai)感知融(rong)合+多模(mo)態(tai)模(mo)型決(jue)策(ce)能(neng)力(li)的(de)(de)體(ti)現,Figure的(de)(de)Helix更是展(zhan)現了(le)多模(mo)態(tai)感知融(rong)合+多模(mo)態(tai)模(mo)型決(jue)策(ce)+精確(que)動作指令(ling)執行的(de)(de)潛力(li)。目前(qian)消費領域AI眼鏡依靠其多模(mo)態(tai)感知的(de)(de)硬件特性與(yu)多模(mo)態(tai)模(mo)型結合得(de)很快,后續消費電子(zi)領域,也會(hui)出現更多的(de)(de)案(an)例。
傳感(gan)方面視(shi)覺(jue)傳感(gan)是(shi)(shi)眾多智(zhi)能(neng)設備(bei)的(de)剛需(xu),自(zi)然是(shi)(shi)本技術周期(qi)內最直接的(de)受(shou)益者。在很(hen)多消(xiao)費級(ji)智(zhi)能(neng)硬件中核心(xin)CMOS 圖像(xiang)(xiang)傳感(gan)器(qi)是(shi)(shi)視(shi)覺(jue)感(gan)知的(de)基礎(chu)器(qi)件。索尼的(de)AI圖像(xiang)(xiang)傳感(gan)IMX系列是(shi)(shi)其中具有代表性(xing)的(de)傳感(gan)器(qi)件,可單獨進行圖像(xiang)(xiang)處理、高(gao)速邊端(duan)AI處理,能(neng)將端(duan)側(ce)模型寫(xie)入嵌(qian)入式內存中;國內高(gao)性(xing)能(neng)CMOS圖像(xiang)(xiang)傳感(gan)器(qi)芯片廠商思(si)特威在視(shi)覺(jue)應用場景上正在推進AI SoC+Sensor系統級(ji)集成的(de)端(duan)側(ce)視(shi)覺(jue)組合;韋爾(er)股份同樣表示看好AI視(shi)覺(jue)市場具備(bei)的(de)高(gao)速增長潛力,在AI+圖像(xiang)(xiang)傳感(gan)器(qi)上已深度(du)布(bu)局。
在直接感應技術上雷達的應用提供了高精度的定位,特別是4D雷達在智能家居、智(zhi)能(neng)駕駛領域(yu)起(qi)到(dao)了關鍵作(zuo)用,還有不斷下探成(cheng)本的(de)(de)激光雷達傳感(gan)(gan)(gan)(gan)。在傳感(gan)(gan)(gan)(gan)器智(zhi)能(neng)變革中,雷達芯(xin)片(pian)(pian)與AI的(de)(de)結合也(ye)成(cheng)為關鍵創新點。在該領域(yu)領先的(de)(de)TI、英飛(fei)凌均(jun)開(kai)始在傳感(gan)(gan)(gan)(gan)芯(xin)片(pian)(pian)搭載(zai)AI處理單元(yuan)來(lai)運(yun)行傳感(gan)(gan)(gan)(gan)器端(duan)側的(de)(de)模型向AI傳感(gan)(gan)(gan)(gan)進化(hua)。TI在最新的(de)(de)單芯(xin)片(pian)(pian)60GHz毫(hao)米波雷達上內置了片(pian)(pian)上加(jia)速器和DSP來(lai)支持邊(bian)端(duan)側模型的(de)(de)運(yun)行。
傳感器與AI模型結合的端側傳感方案在終端設備上出現的越來越多,傳感器件也從單一數據采集器向智能決策節點轉變,這對實現更低功耗的感知決策分析,減少數據的傳輸延遲有著積極的推動作用。同時AI傳感器件通過端側模型預分析數據,能為多模態模型提供結構化信息便于進行數據融合處理解析出完備的多模態參數,大幅提升硬件設備的智能化程度,這也是VLA模型所需要的。
傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)件正(zheng)在(zai)發生的智(zhi)能變(bian)革,可(ke)以將其理解成智(zhi)能化驅(qu)動的感(gan)(gan)(gan)知(zhi)底層邏輯(ji)的重塑。傳(chuan)(chuan)(chuan)統的感(gan)(gan)(gan)知(zhi)范式傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)只(zhi)需(xu)要完(wan)(wan)成數據收集(ji),將數據交給云端來做處理與決策,傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)只(zhi)需(xu)要關(guan)心精度是否足夠。而這(zhe)種變(bian)革里新(xin)的范式是,傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)收集(ji)到數據后在(zai)端側進行處理與預分析,硬件層面上(shang)算力與本地感(gan)(gan)(gan)知(zhi)數據處理完(wan)(wan)成閉環,既提(ti)高了也提(ti)升(sheng)了設備(bei)安全,就像是給傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)裝上(shang)了“大腦(nao)”。
更進一步的是多模態感知加多模態模型,賦予了端側設備自主理解場景的能力,多模態的信息都能被捕捉并被設備理解,推動感知系統從“采集-傳輸-處理”的線性鏈條向“感知-認知-行動”的閉環進化。
當(dang)前傳(chuan)感(gan)(gan)(gan)(gan)器廠商大多通過(guo)傳(chuan)感(gan)(gan)(gan)(gan)硬件來(lai)做商業(ye)盈利,在傳(chuan)感(gan)(gan)(gan)(gan)器智能變革的進程(cheng)里,未來(lai)產生(sheng)AI傳(chuan)感(gan)(gan)(gan)(gan)器組合預測模型打包而(er)成“傳(chuan)感(gan)(gan)(gan)(gan)器即服(fu)務(wu)”的商業(ye)模式也不為奇。AI時代,硬件是身體,模型是靈魂,產業(ye)價值鏈條(tiao)也在不斷演進。
在多(duo)(duo)(duo)模(mo)態模(mo)型基(ji)礎上更進一(yi)步的(de)(de)VLA模(mo)型給智能(neng)硬件帶來了落地(di)支持,也推動(dong)了軟硬件廠商在多(duo)(duo)(duo)模(mo)態能(neng)力(li)上進一(yi)步挖(wa)掘。多(duo)(duo)(duo)模(mo)態模(mo)型的(de)(de)不斷演(yan)進為端側(ce)智能(neng)提(ti)供了更強大的(de)(de)信息處理框架,而端側(ce)傳感(gan)更成熟的(de)(de)感(gan)知能(neng)力(li)反哺了多(duo)(duo)(duo)模(mo)態模(mo)型落地(di)場景的(de)(de)擴(kuo)展,兩者的(de)(de)協同打造的(de)(de)AI傳感(gan)底座(zuo)推動(dong)終端設備(bei)向更高(gao)智能(neng)化(hua)攀登(deng)。