国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

多模態模型賦能智能終端,AI傳感成關鍵硬件
作者 | 物(wu)聯(lian)網(wang)智(zhi)庫(ku)2025-03-06

在(zai)與OpenAI分道揚鑣(biao)之后(hou),Figure沒有停(ting)下機器人(ren)與AI結合的腳步,發布了具身模(mo)型(xing)Helix。Helix是一款對整個人(ren)形機器人(ren)上半身進行高(gao)頻率(lv)、連續(xu)控制的視(shi)覺-語(yu)言-動(dong)(dong)作(VLA)多(duo)模(mo)態(tai)(tai)模(mo)型(xing)。VLA模(mo)型(xing)不僅僅是機器人(ren)智(zhi)(zhi)能(neng)化關(guan)鍵技術,應該說智(zhi)(zhi)能(neng)硬件發展到(dao)高(gao)階(jie)智(zhi)(zhi)能(neng),多(duo)模(mo)態(tai)(tai)能(neng)力都(dou)是其核心功(gong)能(neng)。在(zai)上篇(pian)文章中(zhong)也(ye)提到(dao)過,在(zai)觸覺相關(guan)的感知與處理能(neng)力成(cheng)熟后(hou),VLA發展成(cheng)全模(mo)態(tai)(tai)的視(shi)覺-觸覺-語(yu)言-動(dong)(dong)作VTLA模(mo)型(xing)也(ye)是必要的。

和機器人有著很多共同技術棧的智能汽車行業,有著多模態能力的VLA模型亦在加速崛起。不少智駕從業人士將VLA模型視為當下繼特斯拉端到端方案之后的端到端2.0版本,被譽為“端到端與多模態模型融合得更徹底的產物”。VLA模型從多種傳感器數據中提取豐富的內外部信息,再借助語言端側模型理解指令最后轉化為駕駛操作指令,推動智能駕駛向L3L4等級發展。中國乘用(yong)車(che)產業聯盟(meng)秘書長(chang)近期也表(biao)示(shi)在量產車(che)市場,未(wei)來VLA模型有望(wang)成為高(gao)階(jie)智駕(jia)的(de)標配。

在VLA模型的帶動下,具備多模態交互推理能力的多模態模型成為焦點。北大團隊在公布基于DeepSeek-R1更新的多模態版DeepSeek-R——Align-DS-V時也表示“這種全模態的信息流對于大模型范式轉向通用人工智能非常重要”。

隨著(zhu)DeepSeek正式(shi)開(kai)(kai)啟(qi)“開(kai)(kai)源(yuan)周”,每天(tian)開(kai)(kai)源(yuan)一個項目再度引發(fa)AI模(mo)(mo)型(xing)的(de)(de)開(kai)(kai)源(yuan)潮。與此前推(tui)理(li)模(mo)(mo)型(xing)的(de)(de)開(kai)(kai)源(yuan)不同(tong),這(zhe)幾(ji)天(tian)AI模(mo)(mo)型(xing)在多(duo)模(mo)(mo)態(tai)(tai)領域“卷(juan)”了起來。持續火爆的(de)(de)DeepSeek本身就有著(zhu)多(duo)模(mo)(mo)態(tai)(tai)框架,越來越多(duo)基于DeepSeek的(de)(de)改良版多(duo)模(mo)(mo)態(tai)(tai)模(mo)(mo)型(xing)涌現(xian)。

與此同時,和智能硬件結合的多模態模型同樣開始催生傳感器端側智能變革。沒有先進的傳感信息收集,全模態的交互處理能力就無用武之地。多模態模型加持的終端設備,正在推動傳感器向AI傳感器變革。

然而多模態模型的應用并非沒有挑戰,數據融合的復雜性要求極高的計算資源,而且融合后的終端側模型參數變得更大,既要求高效實時又要推理能力,這對芯片硬件(jian)有相當高的要求。同時海量感(gan)知(zhi)信息收集(ji)需要配(pei)套(tao)的先進多模態感(gan)知(zhi)底座,沒有傳感(gan)基礎(chu)硬件(jian)的支持,一切都只是空(kong)中樓閣。

多模態模型與硬件算力結合落地,點燃智能硬件落地前景

機器人賽道上從Figure的Helix來看,里面有兩個關鍵的模塊,第一個模塊是一個擁有70億參數的開源端側互聯網預訓練視覺語言模型,用于(yu)處理語音和視(shi)覺信(xin)息(xi),即(ji)VLA中的VL。第(di)二個模塊(kuai)則(ze)是一個擁有8000萬(wan)參數(shu)的AI模型(xing),負責將(jiang)語言(yan)模型(xing)發出的指令(ling)轉化為(wei)精確的機器(qi)人動作,即(ji)VLA中的A。這一架構讓Helix能實時處理復雜場景,并提供(gong)高度精準的動作反饋。

在VL部分的感(gan)知環節上(shang)這里主(zhu)要(yao)集中在視覺和語(yu)言信(xin)息的融合(he)上(shang),將攝像頭(tou)、用戶語(yu)言等各種感(gan)知數據(ju)收集,進而(er)轉化為統一的token embedding用于后續處理。根據(ju)Figure介紹,Helix完全能夠在嵌入式低功耗GPU上(shang)運行。Helix VLA模型與英(ying)偉達GPU的結合(he)給火(huo)熱的機器人賽(sai)道再次(ci)升溫(wen)。

智(zhi)駕領域走視覺路線的Nullmax攜手(shou)黑芝麻智(zhi)能也發布(bu)了(le)基于華(hua)山系列(lie)A2000的多(duo)模態(tai)模型智(zhi)駕方(fang)案,在不依(yi)賴(lai)激光雷達系統中(zhong),通過攝(she)像(xiang)頭、語音等多(duo)模態(tai)信息,幫(bang)助(zhu)汽車獲(huo)得感官能力并實現多(duo)種高階智(zhi)能功能。

在智駕領域走純視覺感知路線尚沒有定數,走多傳感器融合的方案也不少,毫米波雷達、激光雷達自然也是多模態模型中重要的感知信息。華為(wei)智駕(jia)3.0的激光雷(lei)達(da)+毫米波雷(lei)達(da)+視覺融合的多模態模型方案搭配華為(wei)的硬件(jian)算力(li),亦是自動(dong)駕(jia)駛產業融合派的技術(shu)代表。

在(zai)AI模(mo)(mo)型(xing)上,打造高質量LLM和(he)多模(mo)(mo)態模(mo)(mo)型(xing)正在(zai)為AI的(de)商用應用和(he)終(zhong)端(duan)側推理落(luo)地做好準備(bei)。對于帶有執行功能的(de)機器(qi)人等終(zhong)端(duan)側硬件來(lai)說,從多模(mo)(mo)態模(mo)(mo)型(xing)過渡(du)到(dao)VLA模(mo)(mo)型(xing)則是高階智能的(de)未(wei)來(lai)。

在智能終端硬件側,多模態模型和硬件算力的適配,則是能否真正應用起多模態能力的重點,也是推進終端落地的關鍵。數據融合后高復雜性需要恰當的計算資源讓整個智能系統運轉起來。在多模態模型的技術周期,DeepSeek帶動的AI模型訓練成本下降和開源合作上的結合能讓更多的開發者進行高質量多模態模型開發;與硬件算力的適配將進一步推動多模態能力在終端側的部署和推廣,提升終端側智能體驗。

多(duo)模(mo)態模(mo)型與硬件算(suan)力(li)的(de)(de)結(jie)合(he)正在積(ji)極涌現(xian),面壁智(zhi)能研(yan)發(fa)基(ji)于MiniCPM系列端側多(duo)模(mo)態模(mo)型已經與安謀科技、愛芯元智(zhi)、紫光(guang)展銳、高通(tong)、瑞芯微、英特爾等算(suan)力(li)硬件廠商展開深(shen)度合(he)作(zuo);深(shen)思考人工智(zhi)能不(bu)久前(qian)發(fa)布的(de)(de)鴻蒙(meng)系統“TinyDongni”及(ji)“DeepSeek”超小端側多(duo)模(mo)態大模(mo)型,已與國(guo)產頭部模(mo)組廠商廣和通(tong)、深(shen)開鴻達成合(he)作(zuo)推出適配國(guo)產算(suan)力(li)的(de)(de)硬件解決方案(an)。

模型(xing)層(ceng)和算(suan)力層(ceng)的打通,多模態模型(xing)與硬件算(suan)力適配結合(he)落地,是終(zhong)端智(zhi)能(neng)設備進入千行百業(ye)的關鍵(jian)動作,點燃(ran)了(le)智(zhi)能(neng)硬件落地前景。

多模態模型催生傳感器端側智能變革,AI傳感打造感知底座

在(zai)多(duo)模(mo)態模(mo)型(xing)(xing)如火如荼地發(fa)(fa)展下,用于(yu)智(zhi)能硬件多(duo)模(mo)態模(mo)型(xing)(xing)中的(de)(de)一切數據源(yuan)頭都建立(li)在(zai)傳(chuan)感器(qi)帶來(lai)的(de)(de)輸入上,用于(yu)感知(zhi)各類(lei)信息的(de)(de)傳(chuan)感器(qi)也迎來(lai)智(zhi)能變(bian)革推動力。在(zai)智(zhi)能硬件上不可或缺的(de)(de)AI傳(chuan)感迎來(lai)多(duo)模(mo)態模(mo)型(xing)(xing)技術周期里的(de)(de)新發(fa)(fa)展機遇。

在終端側,已經(jing)可(ke)以(yi)看到以(yi)汽車和機(ji)器人為(wei)代(dai)表的(de)(de)(de)多(duo)模態(tai)感知融(rong)合(he)+多(duo)模態(tai)模型(xing)決策(ce)能力(li)的(de)(de)(de)體(ti)現(xian),Figure的(de)(de)(de)Helix更是展(zhan)現(xian)了多(duo)模態(tai)感知融(rong)合(he)+多(duo)模態(tai)模型(xing)決策(ce)+精確動作指令(ling)執行(xing)的(de)(de)(de)潛力(li)。目前(qian)消(xiao)費(fei)領域AI眼鏡依靠其多(duo)模態(tai)感知的(de)(de)(de)硬件特性與多(duo)模態(tai)模型(xing)結合(he)得(de)很快,后續(xu)消(xiao)費(fei)電子(zi)領域,也會出現(xian)更多(duo)的(de)(de)(de)案例(li)。

傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)方面視(shi)覺傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)是眾多智能(neng)設備的(de)(de)剛(gang)需,自然是本技術周(zhou)期內最直接的(de)(de)受益者。在(zai)(zai)很多消費(fei)級智能(neng)硬件中核心CMOS 圖像傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)是視(shi)覺感(gan)(gan)(gan)知的(de)(de)基礎器(qi)件。索尼的(de)(de)AI圖像傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)IMX系列是其中具有代表(biao)性的(de)(de)傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)件,可單獨進行(xing)圖像處理(li)、高(gao)速邊端AI處理(li),能(neng)將端側(ce)模型寫入(ru)嵌(qian)入(ru)式(shi)內存中;國內高(gao)性能(neng)CMOS圖像傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)芯片廠(chang)商(shang)思特(te)威(wei)在(zai)(zai)視(shi)覺應用場景上正在(zai)(zai)推進AI SoC+Sensor系統級集成(cheng)的(de)(de)端側(ce)視(shi)覺組合(he);韋爾股份同樣(yang)表(biao)示看好(hao)AI視(shi)覺市場具備的(de)(de)高(gao)速增長潛力(li),在(zai)(zai)AI+圖像傳(chuan)(chuan)(chuan)感(gan)(gan)(gan)器(qi)上已深度布局。

在直接感應技術上雷達的應用提供了高精度的定位,特別是4D雷達在智能家居、智能(neng)駕駛領(ling)域起到了關鍵(jian)作用(yong),還有不斷下探成本的(de)(de)(de)激(ji)光雷達傳(chuan)(chuan)感。在(zai)傳(chuan)(chuan)感器(qi)智能(neng)變(bian)革中,雷達芯片(pian)與AI的(de)(de)(de)結合也成為關鍵(jian)創(chuang)新點。在(zai)該領(ling)域領(ling)先的(de)(de)(de)TI、英飛凌(ling)均開始在(zai)傳(chuan)(chuan)感芯片(pian)搭載AI處理單(dan)元(yuan)來運(yun)行(xing)傳(chuan)(chuan)感器(qi)端(duan)(duan)側的(de)(de)(de)模型(xing)向AI傳(chuan)(chuan)感進化(hua)。TI在(zai)最新的(de)(de)(de)單(dan)芯片(pian)60GHz毫米波雷達上內置了片(pian)上加速(su)器(qi)和DSP來支持(chi)邊端(duan)(duan)側模型(xing)的(de)(de)(de)運(yun)行(xing)。

傳感器與AI模型結合的端側傳感方案在終端設備上出現的越來越多,傳感器件也從單一數據采集器向智能決策節點轉變,這對實現更低功耗的感知決策分析,減少數據的傳輸延遲有著積極的推動作用。同時AI傳感器件通過端側模型預分析數據,能為多模態模型提供結構化信息便于進行數據融合處理解析出完備的多模態參數,大幅提升硬件設備的智能化程度,這也是VLA模型所需要的。

傳(chuan)感(gan)器(qi)件(jian)正在(zai)發生的智能變(bian)革,可以將(jiang)其理解成智能化驅動(dong)的感(gan)知(zhi)(zhi)底層邏輯(ji)的重塑。傳(chuan)統的感(gan)知(zhi)(zhi)范(fan)式傳(chuan)感(gan)器(qi)只(zhi)需要完成數據(ju)收(shou)集(ji),將(jiang)數據(ju)交(jiao)給云(yun)端(duan)來做(zuo)處理與(yu)決策,傳(chuan)感(gan)器(qi)只(zhi)需要關(guan)心精度是(shi)否足夠。而這種(zhong)變(bian)革里新(xin)的范(fan)式是(shi),傳(chuan)感(gan)器(qi)收(shou)集(ji)到數據(ju)后在(zai)端(duan)側進行處理與(yu)預分析,硬件(jian)層面上算(suan)力與(yu)本地感(gan)知(zhi)(zhi)數據(ju)處理完成閉環,既提(ti)(ti)高了(le)也(ye)提(ti)(ti)升了(le)設備安(an)全,就像是(shi)給傳(chuan)感(gan)器(qi)裝上了(le)“大腦(nao)”。

更進一步的是多模態感知加多模態模型,賦予了端側設備自主理解場景的能力,多模態的信息都能被捕捉并被設備理解,推動感知系統從“采集-傳輸-處理”的線性鏈條向“感知-認知-行動”的閉環進化。

當前傳感(gan)(gan)(gan)器廠商(shang)大(da)多通(tong)過(guo)傳感(gan)(gan)(gan)硬件(jian)來(lai)做商(shang)業(ye)盈利(li),在傳感(gan)(gan)(gan)器智(zhi)能變革的(de)進程(cheng)里,未來(lai)產生AI傳感(gan)(gan)(gan)器組合預測模型打包而(er)成“傳感(gan)(gan)(gan)器即服務”的(de)商(shang)業(ye)模式(shi)也(ye)不(bu)為奇。AI時代(dai),硬件(jian)是身體(ti),模型是靈魂(hun),產業(ye)價值鏈(lian)條也(ye)在不(bu)斷演進。

寫在最后

在(zai)多模(mo)(mo)態模(mo)(mo)型(xing)基礎(chu)上更(geng)進(jin)一步(bu)的(de)VLA模(mo)(mo)型(xing)給智(zhi)(zhi)能(neng)硬件帶來了落(luo)地支持,也(ye)推動(dong)了軟硬件廠商在(zai)多模(mo)(mo)態能(neng)力上進(jin)一步(bu)挖掘。多模(mo)(mo)態模(mo)(mo)型(xing)的(de)不斷演進(jin)為端(duan)(duan)側智(zhi)(zhi)能(neng)提供(gong)了更(geng)強大的(de)信(xin)息處理(li)框架(jia),而端(duan)(duan)側傳感(gan)更(geng)成熟的(de)感(gan)知能(neng)力反哺了多模(mo)(mo)態模(mo)(mo)型(xing)落(luo)地場(chang)景的(de)擴展,兩(liang)者的(de)協同打造的(de)AI傳感(gan)底座推動(dong)終端(duan)(duan)設(she)備向更(geng)高智(zhi)(zhi)能(neng)化攀(pan)登。


熱門文章
2025年3月7日,2025具身智能機器人發展大會在天津國家會展中心隆重舉行。本次大會以“智創未來——具身智能機器人產業發展與創新”為主題,匯聚全球1400余位行業精英,線上直播觀看人次超30萬,反響
2025-03-06
X