作者:彭昭(智次方創始人、云和資本聯合(he)創始合(he)伙人)
這是(shi)我的第358篇專欄文(wen)章(zhang)。
2025年伊始,科(ke)技大咖們的判斷(duan)出奇一(yi)致,黃(huang)仁勛、奧特曼、扎克伯格…都認(ren)為(wei)2025是AI智能代理(li)之年。
生成式AI→現在時
代(dai)理型AI→馬上(shang)到來
實體型AI→不(bu)遠(yuan)將來(lai)
這是英(ying)偉達CEO黃仁勛在消費電(dian)子展CES 2025上的最新判(pan)斷。
他在主題(ti)演講中(zhong)梳理(li)了AI技術(shu)的進化路徑,從感知型AI,到生成式AI,再到現階段(duan)發展火熱的代(dai)理(li)型AI,最終實現具備傳感與執行功能的物理(li)型AI。
而伴隨著AI代理的涌現,有一類基于設備的人工智能可能會優先發生,就是AIoT代理。這些代理并不像物理型AI那樣基于自動駕駛的汽車或者人形機器人等“大件”,而是基于小型的端側設備,實現AI代理的功能。
我們都知道,AIoT是人工智能AI和物聯網IoT的(de)融合,它通(tong)過實現智能數(shu)據分析、決策和自主行(xing)動(dong),正(zheng)在徹底改變行(xing)業。
AIoT代理,即AI代理與物聯網IoT設備的融合,處于這一轉型的最前沿。這些AIoT智能代理旨在增強物聯網系統的功能、連接性和自主性,從而為各個領域帶來前所未有的機遇和應用。
在AIoT 2.0時代(dai),發展的(de)核心將是(shi)(shi)AIoT代(dai)理(li),即能夠感知環境、推理(li)并采取(qu)行動(dong)實現特定目標(biao)的(de)智能軟硬件實體(ti)。這些代(dai)理(li)不僅僅是(shi)(shi)被動(dong)傳感器;它們(men)是(shi)(shi)主動(dong)的(de),能夠從數(shu)據(ju)和經驗中(zhong)學習,不斷提高性能。
其實AIoT代理并不是異想天開,在2024年第一季度,李飛飛團隊已經聯合微軟發表了一系列論文,探討了與物理世界相結合的AI代理的趨勢、分類、如何構建通用基礎模型,以及存在的挑戰。
這些論文包括(kuo):《Agent AI- Surveying the Horizons of Multimodal Interaction》《Position Paper- Agent AI Towards a Holistic Intelligence》《An Interactive Agent Foundation Model》。
本文(wen)綜合(he)上述論文(wen)的成果,并做以(yi)延(yan)展,介紹(shao)什么(me)是AIoT代理(li)、AIoT代理(li)的形態以(yi)及可能的應用場景。
AIoT代(dai)(dai)(dai)理是AI代(dai)(dai)(dai)理和IoT的(de)融合,是指將AI功能與IoT設(she)(she)備集(ji)成(cheng)的(de)自主軟件實(shi)體。這些代(dai)(dai)(dai)理可實(shi)現智能決(jue)策、數據分析(xi)以及設(she)(she)備、人類和物(wu)理環境之間的(de)實(shi)時(shi)交互。
AIoT代理代表(biao)了(le)AI代理(具有自主(zhu)決策能(neng)力的AI系統)與物聯網(設(she)備收集和傳輸數(shu)據)的融合。與依(yi)賴基(ji)于云的分析的傳統物聯網系統不(bu)同,AIoT代理具有情境感(gan)知(zhi)、主(zhu)動(dong)性(xing),并且能(neng)夠隨著時間的推移進行學習。
在論文(wen)《Agent AI- Surveying the Horizons of Multimodal Interaction》中,研究團隊從“空間(jian)智能”的視角,討(tao)論了Agent在物理和虛(xu)擬環境中的交互(hu)性。
論文(wen)中的(de)圖片,展示(shi)了多模(mo)態跨現(xian)實(shi)感知AI代理的(de)架(jia)構,概(gai)括(kuo)了AI代理與(yu)環境交互、學習和決策的(de)關鍵組成部分。具體來說,該(gai)架(jia)構包(bao)括(kuo)以下幾個(ge)核心模(mo)塊:
環境與感知(zhi):通過感知(zhi)模塊,智能體接收來自物理世(shi)界或虛擬世(shi)界的信息輸入(ru),獲取(qu)對環境的觀測。
智能體學(xue)習(xi):該模塊負責智能體的學(xue)習(xi)過程,包括從環境(jing)交(jiao)互中(zhong)學(xue)習(xi)(如強化學(xue)習(xi))、從專家示范(fan)中(zhong)學(xue)習(xi)(如模仿學(xue)習(xi))等。
記(ji)(ji)憶(yi):記(ji)(ji)憶(yi)模塊為Agent提供長期記(ji)(ji)憶(yi)和(he)短期記(ji)(ji)憶(yi)能力。長期記(ji)(ji)憶(yi)儲(chu)存(cun)Agent對世界的知識和(he)理解,而(er)短期記(ji)(ji)憶(yi)則跟蹤Agent在(zai)執行任務過程(cheng)中的狀態(tai)變化歷(li)史,以支持及時地(di)調(diao)整策略。
行動(dong):根據感(gan)知、學習(xi)、記憶等模塊的信(xin)息(xi),Agent通過行動(dong)模塊采(cai)取相應動(dong)作,并影響外(wai)部環境。
認(ren)(ren)知:認(ren)(ren)知模塊是統籌協調感知、學(xue)習(xi)、記憶、行動等(deng)功能的核心,體(ti)現了Agent的整體(ti)認(ren)(ren)知能力,使其在復雜多(duo)變(bian)的環境(jing)中(zhong)做出(chu)恰當反應(ying)。
總的來(lai)說,該架構(gou)突出了感知(zhi)(zhi)、學習、記憶、行動、認知(zhi)(zhi)等(deng)要素在塑造Agent整體(ti)智能方面(mian)的重(zhong)要作用,以及(ji)Agent與物(wu)理和虛(xu)擬(ni)環境持續交互、積累經驗和知(zhi)(zhi)識(shi)的動態過程。
而AIoT代理則融合了語言理解、視覺感知、運動控制、任務規劃等多種能力,代表了通用人工智能AGI發展的一個重要方向。近年來,大型語言模型LLM、視覺語言預訓練模型VLM等大模型的突破,為賦予AIoT代理更強大的感知認知和環境交互能力帶來了新的機遇。
一方面,大語言模型可以讓AIoT代(dai)理(li)獲(huo)得接近人類的語言理(li)解和語言生成能力,使其可以更自然地與使用者對話交流,快速理(li)解指(zhi)令(ling)并做出相應行動(dong)。
另一方面,視(shi)覺(jue)語言模型使AIoT代理具備匹配甚至(zhi)超越人眼(yan)的圖(tu)像識別能力,可以(yi)精準感知(zhi)和(he)定(ding)位環境中的物體,并對視(shi)覺(jue)輸入信(xin)息進行(xing)語義理解。
借鑒論文中的(de)架(jia)構,AIoT智(zhi)能的(de)基本架(jia)構可以(yi)簡化(hua)為上圖,簡化(hua)后的(de)架(jia)構包(bao)含以(yi)下組(zu)成部分:
感知:Agent通過感(gan)知模塊(kuai)接收外界環(huan)境的信(xin)息輸入(ru),獲取對世界的觀測。這是Agent實現感(gan)知環(huan)境、采集(ji)數據的基礎。
推理:推(tui)理模塊是Agent的(de)核心部件,它在感知信息的(de)基礎上,利(li)用(yong)知識庫中的(de)世(shi)界知識,對當前環境狀態進行(xing)分(fen)析、判(pan)斷,并(bing)規(gui)劃后(hou)續(xu)行(xing)動(dong)。推(tui)理過(guo)程(cheng)體現了Agent的(de)智(zhi)能性和自主性。
行動:根據推理的結果,Agent通過(guo)行(xing)動模(mo)塊(kuai)采取相應的動作,并(bing)影(ying)響(xiang)外部環(huan)境,這是Agent實現目標的關(guan)鍵(jian)。
交互:Agent通過與(yu)環境(jing)的(de)持(chi)續交互來感知(zhi)外(wai)界變化、積累(lei)知(zhi)識、并評估行(xing)動效果。交互是Agent實現感知(zhi)-決策(ce)-行(xing)動閉(bi)環的(de)紐帶。
世界知識庫:這是(shi)Agent的知識(shi)庫,存儲了其對世界的理解和記(ji)憶。Agent在推(tui)理決策時會調用這些(xie)知識(shi)。隨(sui)著與環境交互(hu)的不斷深入,其知識(shi)庫也在持續擴充和更新。
學習:學習模塊使得(de)Agent能夠在與環(huan)境的交(jiao)互中,不斷積累新知識、優化已有(you)策略。通(tong)過學習,Agent的世界知識庫得(de)以(yi)擴充,行為策略得(de)以(yi)改進,智能水(shui)平得(de)以(yi)提升。
總的來說,該架構展示了一個智能Agent“感知→推理→行動”的工(gong)作流程(cheng),以及知識、學(xue)習、交互(hu)等要素在該流程(cheng)中扮演的重要角色。
AIoT代理將人工智能的認知能力與物聯網設備的連接和數據收集能力相結合。這些代理不僅可以收集和分析來自不同來源的數據,還可以自主決策并執行操作以優化流程和結果。人工智能和物聯網的集成產生了協同效應,從而打造出更智能、響應更快、適應性更強的系統。
AIoT代理(li)以大(da)型AI模型為(wei)核心(xin),通過感知、推理(li)、決策(ce)、執(zhi)行等環節(jie)與物(wu)(wu)理(li)世界互動,有望成為(wei)人工智(zhi)能(neng)(neng)落地應用(yong)的(de)重(zhong)要抓手,為(wei)萬物(wu)(wu)智(zhi)聯AIoT 2.0時代的(de)到來開啟嶄(zhan)新的(de)可能(neng)(neng)性。
這(zhe)些系(xi)統(tong)不僅能(neng)對(dui)數據做出反應,還能(neng)主動(dong)預(yu)測和采取行(xing)動(dong),這(zhe)對(dui)于需要精確(que)性和靈(ling)活性的行(xing)業來(lai)說非常有價值(zhi)。
更(geng)進(jin)一步,在論(lun)文《Position Paper- Agent AI Towards a Holistic Intelligence》中,研究團隊提出了通(tong)用型(xing)AI代(dai)理的整體(ti)框架和關鍵組成部(bu)分。
在這一框架下,AIoT代理可以與其他類型的AI代理一起,被置于一個包含物理世界、VR / AR / MR、元宇宙等多重現實的環境中,旨在實現整體智能和具有涌現能力的通用人工智能。
具體來看,該框架涵蓋了以(yi)下幾個層次:
跨模態層:強(qiang)調Agent需要具(ju)備多模態理解和交(jiao)互(hu)能力,包括同情心/意(yi)識、人機交(jiao)互(hu)、具(ju)身操縱(zong)、基礎設施和智能系統等方面。
任務層:細化了智能體需要執(zhi)行的具體任(ren)務(wu),涉及感知、認知、醫療(liao)保健(jian)、導(dao)航、行為(wei)識別和預測、語言理解(jie)、知識和推(tui)理等方面。
個體模型層:描(miao)述(shu)了構成Agent的各類基礎模(mo)型,包括(kuo)生成模(mo)型、分類模(mo)型、視覺/分割模(mo)型、音(yin)頻模(mo)型、情感模(mo)型和神(shen)經模(mo)型等。
基礎模型層:概括了支撐上述(shu)各層模(mo)型訓(xun)練(lian)所需的通(tong)用基礎模(mo)型,涵蓋視覺(jue)-語(yu)(yu)言標注數據、圖像數據、視頻數據、語(yu)(yu)音情感數據、神經數據、醫療數據、跟蹤(zong)數據、行為數據、語(yu)(yu)言知識數據和(he)邏輯數據等。
總之(zhi),該框架從現實(shi)環境復雜性、跨模態理解(jie)、任務多(duo)樣性、模型異構性等多(duo)個維度,系統地刻畫了實(shi)現通用人工智(zhi)能所(suo)需(xu)的關鍵要(yao)素。而AIoT代(dai)理或許將成為(wei)其中的重要(yao)組成部(bu)分。
在大(da)型(xing)預訓練(lian)模型(xing)、小模型(xing)等加(jia)持下,AIoT代理將(jiang)逐步(bu)擺脫(tuo)被動接受指令(ling)的(de)桎梏,走(zou)向更(geng)加(jia)智能化、自(zi)主化的(de)發展階段。它們(men)將(jiang)具備主動探索環境(jing)、持續學(xue)習進化的(de)能力,通過(guo)從各類數(shu)據源汲(ji)取新知,不斷完善和更(geng)新自(zi)身的(de)知識與技能。
基于知(zhi)識推理(li)和目標(biao)規劃,AIoT代理(li)可針對環(huan)境的動態變化自主(zhu)地調整策略和行為,完成各類復雜的任務。
基于論(lun)文《Agent AI- Surveying the Horizons of Multimodal Interaction》中(zhong)的AI代(dai)理分類,AIoT代(dai)理可以包含如下類別:
1、具身AIoT代理
具身人工智能的(de)目標是創(chuang)造出諸如機(ji)器(qi)人等智能體,使其學會創(chuang)造性地解(jie)決需要(yao)與(yu)環境交(jiao)互的(de)具有挑(tiao)戰(zhan)性的(de)任(ren)務。
盡(jin)管(guan)這是一個重(zhong)大(da)(da)的(de)(de)挑戰(zhan),但(dan)深度學習的(de)(de)重(zhong)要進展(zhan)以及(ji)大(da)(da)型數據集(如(ru)ImageNet)可用性的(de)(de)不斷提高,已經在許多此前(qian)被(bei)認(ren)為棘手的(de)(de)AI任務上實現(xian)了超人的(de)(de)表現(xian)。這些進展(zhan)極(ji)大(da)(da)地推動了具身AI的(de)(de)發(fa)展(zhan),使(shi)得越來越多的(de)(de)用戶(hu)能夠朝(chao)著(zhu)與機(ji)器進行(xing)交互的(de)(de)智(zhi)能Agent迅速發(fa)展(zhan)。
具身AIoT代理又可進一步劃分為行動AIoT代理和交互AIoT代理。
行動(dong)AIoT代理(li)是指需要在(zai)模擬的(de)物(wu)理(li)環(huan)(huan)境或真(zhen)實世界中(zhong)執行物(wu)理(li)動(dong)作(zuo)的(de)Agent。具體而言,它們(men)需要積極地與環(huan)(huan)境進行交互(hu)活動(dong)。
交(jiao)互(hu)AIoT代理是指可以與世界交(jiao)互(hu)的Agent,是一(yi)個比(bi)行(xing)動智能體更廣(guang)泛的類別。它們的交(jiao)互(hu)形式不一(yi)定需要物(wu)理動作,但可能涉及向(xiang)用戶傳遞信息或修改環(huan)境。
例如(ru),一(yi)個(ge)具身交(jiao)互AIoT代理可以通過對(dui)話回答用戶(hu)關(guan)于某個(ge)主題的問題,或幫助(zhu)用戶(hu)像(xiang)聊天機(ji)器(qi)人一(yi)樣(yang)解析現有(you)信息(xi)。
2、仿真與環境AIoT代理
仿(fang)真(zhen)(zhen)和(he)環(huan)(huan)境(jing)(jing)AIoT代(dai)(dai)理是(shi)在(zai)(zai)(zai)模(mo)(mo)擬環(huan)(huan)境(jing)(jing)中相互(hu)交(jiao)互(hu)和(he)通信的獨(du)立實(shi)體。它(ta)(ta)們用(yong)(yong)于對復雜系統進行建模(mo)(mo)和(he)仿(fang)真(zhen)(zhen)。AIoT代(dai)(dai)理學習(xi)如(ru)何在(zai)(zai)(zai)環(huan)(huan)境(jing)(jing)中行動(dong)的一(yi)種有效方(fang)(fang)法是(shi)通過與環(huan)(huan)境(jing)(jing)的交(jiao)互(hu)進行反復試(shi)錯。一(yi)種代(dai)(dai)表性方(fang)(fang)法是(shi)強化學習(xi),它(ta)(ta)需要大(da)量的失敗(bai)(bai)經驗來(lai)訓(xun)練(lian)(lian)Agent。盡管(guan)存在(zai)(zai)(zai)使用(yong)(yong)物理Agent的方(fang)(fang)法,但使用(yong)(yong)物理Agent耗時且(qie)成本高昂。此(ci)外,在(zai)(zai)(zai)實(shi)際環(huan)(huan)境(jing)(jing)中失敗(bai)(bai)可(ke)(ke)能(neng)是(shi)危險(xian)的情況下(例如(ru)自動(dong)駕駛、水下航行器),在(zai)(zai)(zai)物理環(huan)(huan)境(jing)(jing)中訓(xun)練(lian)(lian)往(wang)往(wang)是(shi)不(bu)可(ke)(ke)行的。因此(ci),使用(yong)(yong)模(mo)(mo)擬器來(lai)學習(xi)策略(lve)是(shi)一(yi)種常見(jian)的方(fang)(fang)法。
總之,無論是具身AIoT代(dai)理還是仿真與(yu)環境AIoT代(dai)理,AIoT是人工智能(neng)與(yu)現實世界(jie)交(jiao)互(hu)的重要舞臺,而(er)AIoT代(dai)理則有望成為架起想象與(yu)現實之間橋梁(liang)的關鍵技術載體(ti)。
AIoT代理可能的應用場景包括:
智慧城市
AIoT 代理(li)可能(neng)可以幫助(zhu)改(gai)善(shan)城市基礎設施(shi)、改(gai)善(shan)資源管理(li)并提(ti)高(gao)居民(min)的(de)生(sheng)活(huo)質(zhi)量(liang)。具體(ti)應用(yong)包括智(zhi)能(neng)交通管理(li)、節能(neng)建筑、廢物(wu)管理(li)和(he)公共(gong)安(an)全系統(tong)。AIoT 代理(li)可實現實時監控和(he)控制、預測(ce)性(xing)維(wei)護和(he)數據驅動的(de)城市規劃。
衛生保健
在醫療保健領域,AIoT代理可能將改變患者(zhe)護理、診斷(duan)和(he)運營效(xiao)率。它們有(you)助于患者(zhe)遠程監控、個性化治(zhi)療計劃和(he)疾(ji)病預防預測分析。支持(chi)AIoT的醫療設備(bei)可以收集和(he)分析患者(zhe)數據、提(ti)醒醫療保健提(ti)供者(zhe)注意潛(qian)在問(wen)題,甚至可以自主管(guan)理治(zhi)療。
工業自動化
AIoT代理可以通過優(you)化制(zhi)(zhi)造流程、減少停機時(shi)間和(he)提高產(chan)品質量來改變工業自動(dong)化。它們能夠(gou)實(shi)(shi)現預測性維護、設(she)備實(shi)(shi)時(shi)監控(kong)和(he)生產(chan)線自適應(ying)控(kong)制(zhi)(zhi)。AIoT代理還可以促進供應(ying)鏈優(you)化并(bing)確保智能工廠的(de)無縫(feng)運行(xing)。
智能家居
在智能家居領域,AIoT代理(li)可提高舒適度、安(an)全(quan)性和能源效(xiao)率。它們(men)集(ji)成了各種智(zhi)能設備,例如恒溫器、照明系(xi)統(tong)和安(an)全(quan)攝像(xiang)頭,以創建一(yi)個(ge)有(you)凝聚(ju)力的智(zhi)能家居環境。AIoT代理(li)可以了解用戶偏好(hao)、自動執(zhi)行例程并響應(ying)不斷變化的條件,以改善整(zheng)體生活體驗。
不過,讓AIoT代理從受限場景走向開放世界依然任重道遠。如何增強它們面對全新環境時的適應力,是一個關鍵挑戰。涌現式機制和持續學習能力或許是突破這一瓶頸的“鑰匙”。
例如,AIoT代理可(ke)以通過對話交互(hu)從人類(lei)使用(yong)者那里獲取環境信(xin)息以及行為(wei)反饋(kui),或是利用(yong)其他IoT傳感器的(de)數(shu)據(ju)來校準其決策模型。
再如,賦予AIoT代理虛擬仿真環境中的自主訓練能力,讓它們在數字孿生世界中反復練習(xi),也可以有效(xiao)提(ti)升真(zhen)實場(chang)景(jing)下的執行(xing)效(xiao)果。
除了通用智能,面向行業應用的專用AIoT代理也大有可為。以工業機器人為例,AIoT代理可望在視覺引導、扭矩控制、智能裝配等環節實現革命性突破。在自動駕駛領域,AIoT代理可利用多傳感器融合感知技術,實時規劃車輛軌跡,大幅提升行車的安全性和舒適度。而在智慧醫療方面(mian),AIoT代理(li)或將成(cheng)為醫生的得力助手,提供智能診斷、手術規(gui)劃等服務,讓每一位患者(zhe)獲得更精準周到的診療。
因此,AIoT代理有可能成為AI代理經濟中的一股重要力量。
如上圖所示,包括通用領(ling)域的(de)AI代理(li)、垂直行(xing)(xing)業的(de)AI代理(li),以(yi)及(ji)面向消(xiao)費(fei)者(zhe)(zhe)的(de)AI代理(li)。在后兩個領(ling)域,垂直行(xing)(xing)業和消(xiao)費(fei)者(zhe)(zhe)應用,AIoT代理(li)都可(ke)以(yi)一(yi)展身手。
毋庸置疑,AIoT代(dai)理的(de)研(yan)發和落地應用仍有不少障礙需(xu)要(yao)跨越。其中,如何(he)保(bao)障人機協(xie)作(zuo)(zuo)的(de)安全性(xing),避免(mian)智(zhi)能代(dai)理做出違背人類意(yi)圖(tu)、危及生命財產的(de)決(jue)策,是(shi)當前業界(jie)高度(du)關注的(de)倫理問題。因此(ci),加強跨學科(ke)合(he)作(zuo)(zuo),建(jian)立健全法(fa)律法(fa)規體系(xi),是(shi)保(bao)障AIoT代(dai)理健康(kang)發展的(de)必(bi)要(yao)工作(zuo)(zuo)。
參考(kao)資料:
Agent AI- Surveying the Horizons of Multimodal Interaction,作者(zhe):Zane Durante、Qiuyuan Huang、Li Fei-Fei等(deng),來源:arXiv.orgPosition Paper- Agent AI Towards a Holistic Intelligence,作者:Qiuyuan Huang、Naoki Wake、Li Fei-Fei等,來源:arXiv.orgAn Interactive Agent Foundation Model,作者:Zane Durante、Bidipta Sarkar、Li Fei-Fei等,來源(yuan):arXiv.org