国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

RobotSense: 智體科技開創視覺-語言-動作協同的Robotaxi決策新范式
作者 | 物聯網(wang)智庫2025-02-10

正如DeepSeek憑借出乎意料的高性能、低成本和開放源代碼策略,迅速引爆全球市場、震撼美股科技板塊,并引來業內大佬連連贊嘆,其技術突破正預示著全球AI競爭格局的深刻變革。這場風暴不僅證明了中國在人工智能領域(yu)擁有(you)顛覆性潛力(li),更顯(xian)示出在(zai)(zai)資(zi)源受(shou)限的情況下,創新依(yi)然能夠打破固有(you)思維(wei),重(zhong)塑行業規(gui)則。與此同時,廣州智體科技(ji)(ji)作(zuo)為聯想(xiang)懂(dong)的通信AI生(sheng)態(tai)核心合作(zuo)伙伴,也(ye)在(zai)(zai)積極(ji)布局前沿科技(ji)(ji),利用RobotSense決策框架(jia)在(zai)(zai)復雜動態(tai)的城(cheng)市交通環(huan)境中掀起一場(chang)技(ji)(ji)術革(ge)命(ming)。

廣州智體科技非常榮幸應中華網邀稿,通過這篇技術文章向讀者展示RobotSense決策框架,揭示其如何在復雜動態的城市交通中創造價值。為了讓更多讀者了解文章內容,我們將其核心內容搬到公眾號中與您分享。本篇文章聚焦于RobotSense決策框架的核心理念,探討這一框架如何通過“視覺-語言-動作”協同機制,推動自動駕駛決策技術的革新,突破傳統智能駕駛的瓶頸。

1. 引言

自動駕(jia)(jia)駛(shi)(shi)技術(shu)正經歷(li)著(zhu)快速(su)的(de)(de)(de)(de)(de)發(fa)展,尤(you)其是隨著(zhu)感知能力和決策算法(fa)(fa)(fa)的(de)(de)(de)(de)(de)進步,越來(lai)越多(duo)的(de)(de)(de)(de)(de)自動駕(jia)(jia)駛(shi)(shi)系(xi)(xi)統正在(zai)走(zou)出(chu)(chu)封閉(bi)的(de)(de)(de)(de)(de)測(ce)試環(huan)境,面臨(lin)日益復(fu)雜(za)的(de)(de)(de)(de)(de)現實(shi)世界駕(jia)(jia)駛(shi)(shi)場景(jing)。端(duan)(duan)到(dao)(dao)(dao)端(duan)(duan)自動駕(jia)(jia)駛(shi)(shi)方(fang)法(fa)(fa)(fa)的(de)(de)(de)(de)(de)提(ti)出(chu)(chu)試圖將(jiang)所有(you)模(mo)塊融合(he)到(dao)(dao)(dao)一(yi)個單一(yi)的(de)(de)(de)(de)(de)系(xi)(xi)統中(zhong)(zhong)(zhong)(zhong),直接從(cong)傳感器數據映射到(dao)(dao)(dao)控制指令,從(cong)而(er)減少信息(xi)損失(shi),提(ti)高(gao)系(xi)(xi)統效(xiao)率。然(ran)而(er),在(zai)復(fu)雜(za)的(de)(de)(de)(de)(de)Robotaxi落地場景(jing)中(zhong)(zhong)(zhong)(zhong),端(duan)(duan)到(dao)(dao)(dao)端(duan)(duan)方(fang)法(fa)(fa)(fa)缺乏城(cheng)市(shi)行(xing)(xing)駛(shi)(shi)的(de)(de)(de)(de)(de)基本邏輯(ji)知識,并且(qie)在(zai)訓練中(zhong)(zhong)(zhong)(zhong)容(rong)易形成錯(cuo)誤的(de)(de)(de)(de)(de)捷徑[1]。VLM (視覺(jue)-語言模(mo)型(xing))的(de)(de)(de)(de)(de)出(chu)(chu)現為端(duan)(duan)到(dao)(dao)(dao)端(duan)(duan)自動駕(jia)(jia)駛(shi)(shi)提(ti)供了新(xin)的(de)(de)(de)(de)(de)技術(shu)路徑。VLM能夠將(jiang)視覺(jue)信息(xi)與自然(ran)語言信息(xi)進行(xing)(xing)融合(he),從(cong)而(er)實(shi)現對復(fu)雜(za)場景(jing)的(de)(de)(de)(de)(de)深度理解,例(li)如識別圖像中(zhong)(zhong)(zhong)(zhong)的(de)(de)(de)(de)(de)物(wu)體、理解交(jiao)通(tong)規則、分(fen)析駕(jia)(jia)駛(shi)(shi)行(xing)(xing)為等。而(er)分(fen)層(ceng)規劃(hua)(hua)方(fang)法(fa)(fa)(fa)更(geng)能將(jiang)Robotaxi復(fu)雜(za)的(de)(de)(de)(de)(de)規劃(hua)(hua)任務(wu)分(fen)解成多(duo)個層(ceng)次,例(li)如全局路徑規劃(hua)(hua)和局部路徑規劃(hua)(hua),從(cong)而(er)更(geng)加有(you)效(xiao)地提(ti)高(gao)規劃(hua)(hua)效(xiao)率和應對動態(tai)環(huan)境的(de)(de)(de)(de)(de)能力。

廣州智體科技(ji)(ji)提(ti)(ti)出一(yi)種(zhong)融合 VLM 的(de)(de)(de)(de)語(yu)義(yi)驅動(dong)(dong)的(de)(de)(de)(de)Robotaxi自(zi)(zi)(zi)(zi)動(dong)(dong)駕(jia)駛(shi)決(jue)策框(kuang)架(jia)(jia)RobotSense。這(zhe)種(zhong)新型(xing)(xing) Robotaxi 自(zi)(zi)(zi)(zi)動(dong)(dong)駕(jia)駛(shi)框(kuang)架(jia)(jia)結合了VLM和(he)E2E(端到端模(mo)(mo)型(xing)(xing)),旨(zhi)在實現(xian)更(geng)(geng)(geng)安(an)全、更(geng)(geng)(geng)智能的(de)(de)(de)(de)自(zi)(zi)(zi)(zi)動(dong)(dong)駕(jia)駛(shi)。該系統采(cai)用分(fen)層規劃(hua)(hua)架(jia)(jia)構,VLM 負責生(sheng)成自(zi)(zi)(zi)(zi)然語(yu)言形(xing)式(shi)的(de)(de)(de)(de)高(gao)級(ji)(ji)規劃(hua)(hua)決(jue)策,然后根據 VLM 的(de)(de)(de)(de)輸(shu)出和(he)低(di)層感知信(xin)息(xi)生(sheng)成多(duo)級(ji)(ji)語(yu)義(yi)動(dong)(dong)作(zuo)(zuo)序列(lie),并(bing)將這(zhe)些動(dong)(dong)作(zuo)(zuo)序列(lie)整(zheng)合成端到端模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)輸(shu)入,最終(zhong)由端到端模(mo)(mo)型(xing)(xing)預(yu)測精確的(de)(de)(de)(de)軌跡,將抽象的(de)(de)(de)(de)動(dong)(dong)作(zuo)(zuo)指(zhi)令細化為更(geng)(geng)(geng)具體、更(geng)(geng)(geng)易(yi)于執行的(de)(de)(de)(de)底層動(dong)(dong)作(zuo)(zuo)序列(lie),并(bing)根據當(dang)前的(de)(de)(de)(de)駕(jia)駛(shi)環(huan)境和(he)動(dong)(dong)態目標的(de)(de)(de)(de)行為預(yu)測,生(sheng)成更(geng)(geng)(geng)具針對(dui)性的(de)(de)(de)(de)動(dong)(dong)作(zuo)(zuo)序列(lie),這(zhe)一(yi)創新的(de)(de)(de)(de)方法增強了低(di)層規劃(hua)(hua)對(dui)高(gao)級(ji)(ji)語(yu)義(yi)信(xin)息(xi)的(de)(de)(de)(de)理解和(he)利用能力。此(ci)外(wai),該框(kuang)架(jia)(jia)還采(cai)用了多(duo)圖像編碼方法、多(duo)視(shi)圖提(ti)(ti)示和(he)面(mian)向Robotaxi規劃(hua)(hua)的(de)(de)(de)(de)QA等(deng)技(ji)(ji)術,以提(ti)(ti)高(gao) VLM 在Robotaxi的(de)(de)(de)(de)場(chang)景(jing)(jing)理解能力和(he)規劃(hua)(hua)性能。RobotSense自(zi)(zi)(zi)(zi)動(dong)(dong)駕(jia)駛(shi)決(jue)策框(kuang)架(jia)(jia)是現(xian)階段(duan)能夠(gou)真正將VLA (Vision-Language-Action 模(mo)(mo)型(xing)(xing))概念落(luo)地于Robotaxi場(chang)景(jing)(jing)的(de)(de)(de)(de)自(zi)(zi)(zi)(zi)動(dong)(dong)駕(jia)駛(shi)框(kuang)架(jia)(jia),其(qi)結合了視(shi)覺(Vision)、語(yu)言(Language)和(he)動(dong)(dong)作(zuo)(zuo)(Action)三個模(mo)(mo)態的(de)(de)(de)(de)數據,通過(guo)深度學習技(ji)(ji)術實現(xian)對(dui)復雜場(chang)景(jing)(jing)的(de)(de)(de)(de)理解和(he)決(jue)策。

2. 框架設計

2.1 框架總體架構

該(gai) Robotaxi 自動駕駛(shi)系統框架包含兩大模(mo)塊:RobotSensor模(mo)塊通(tong)過(guo)(guo)VLM處(chu)理規(gui)劃決策的(de)生成,RobotActor模(mo)塊通(tong)過(guo)(guo)E2E模(mo)型(xing)預測精確的(de)軌跡,最終實現更安全(quan)、更智能(neng)的(de)自動駕駛(shi)。

該系統接(jie)收多視角圖像序列、Robotaxi 乘客(ke)的(de)(de)指令(ling)(ling)和導航命令(ling)(ling)作為輸(shu)入,最終(zhong)輸(shu)出連續的(de)(de)控(kong)制指令(ling)(ling),系統流程如下:

  • 多視角圖像序列:由(you)多個攝像頭獲取的(de)圖像信息(xi),提供不同(tong)視角下(xia)的(de)環(huan)境信息(xi),例如車輛周圍的(de)道路狀(zhuang)況(kuang)、交通參與者等;

  • Robotaxi乘(cheng)客(ke)的(de)(de)指令(ling)(ling)與導(dao)(dao)航(hang)(hang)命令(ling)(ling):Robotaxi 乘(cheng)客(ke)的(de)(de)指令(ling)(ling)包括乘(cheng)客(ke)想要到達的(de)(de)目的(de)(de)地、路線偏好等,導(dao)(dao)航(hang)(hang)命令(ling)(ling)則根據乘(cheng)客(ke)指令(ling)(ling)和地圖信息(xi)生成具體的(de)(de)導(dao)(dao)航(hang)(hang)路徑;

  • VLM 感知模(mo)塊:該模(mo)塊負責處理多(duo)視角圖像序列、Robotaxi乘客指令(ling)和導航(hang)命令(ling),提(ti)取(qu)語義信息,并(bing)提(ti)供(gong)決策所需的環(huan)境(jing)理解,例如道(dao)路(lu)拓(tuo)撲、交通規則、行(xing)人和車輛的屬性與行(xing)為意圖、天氣和光照等環(huan)境(jing)因素;

  • HSARM 模塊(kuai)整合高層(ceng)規劃的輸出和低層(ceng)感知信息(xi),例(li)如(ru)(ru)車輛(liang)自(zi)身狀態、周圍環境信息(xi)、動態目(mu)標信息(xi)等,并(bing)進行(xing)多級推理,生成更(geng)(geng)細粒度、更(geng)(geng)具(ju)針對性(xing)的動作序列。例(li)如(ru)(ru),將(jiang)      “左轉(zhuan)(zhuan)” 分解(jie)為 “減速(su)”、“打轉(zhuan)(zhuan)向燈”、“查(cha)看側方(fang)車輛(liang)”、“轉(zhuan)(zhuan)向” 等;

  • 端到端模(mo)型(xing): 模(mo)型(xing)接收 HSARM 模(mo)塊(kuai)輸出的(de)(de)多級語義動作序列和其他感知信息(xi),預(yu)測(ce)車輛的(de)(de)精(jing)確軌跡。

2.2 RobotSensor模塊

RobotSensor模塊(kuai)主要(yao)由(you)三個部分組成:輸入(ru)(ru)(ru)部分獲取輸入(ru)(ru)(ru)信(xin)息,視覺編(bian)碼(ma)器用(yong)于從圖像(xiang)中提取特征信(xin)息,然(ran)后(hou)由(you)Robotaxi視覺適配(pei)器實現圖像(xiang)特征適配(pei)。文本(ben)編(bian)碼(ma)器將Robotaxi乘客指令與導航命令編(bian)碼(ma)為文本(ben)tokens[2]。圖像(xiang)和文本(ben)tokens最(zui)終被輸入(ru)(ru)(ru)到 LLM 中,LLM 用(yong)來預(yu)測(ce)高級決策。最(zui)后(hou),HSARM 部分輸出的(de)多級語(yu)義動(dong)作序列會被整合到端到端自動(dong)駕駛模型的(de)輸入(ru)(ru)(ru)中。

2.2.1 輸入部分

  • 多(duo)(duo)視角圖像序列(lie):由多(duo)(duo)個攝像頭(tou)獲取的(de)(de)圖像信息(xi),提供不同視角下的(de)(de)環境(jing)信息(xi),例如車(che)輛周圍的(de)(de)道路狀況、交通參與者等(deng)。

  • Robotaxi乘客(ke)指令(ling)(ling)(ling)與導(dao)航(hang)(hang)命令(ling)(ling)(ling):Robotaxi 乘客(ke)的(de)指令(ling)(ling)(ling)包(bao)括(kuo)乘客(ke)想要到(dao)達的(de)目(mu)的(de)地、路線偏好等,導(dao)航(hang)(hang)命令(ling)(ling)(ling)則根據乘客(ke)指令(ling)(ling)(ling)和地圖信息生成具體的(de)導(dao)航(hang)(hang)路徑。

2.2.2 VLM 感知部分

VLM 感知部分(fen)負責將(jiang)輸入的圖像和文本信息(xi)轉化為可供決(jue)策(ce)模塊(kuai)使用的語義信息(xi)。該部分(fen)由三個子(zi)模塊(kuai)組成:

  1. 高(gao)效(xiao)的視覺編碼(ma)器:用于從圖(tu)像(xiang)中(zhong)提(ti)取特征信(xin)息。可(ke)以使用      ViT、Swin Transformer 等 Transformer 模型提(ti)取圖(tu)像(xiang)特征,以提(ti)高(gao)圖(tu)像(xiang)處(chu)理的效(xiao)率和(he)準(zhun)確性。

  2. Robotaxi視覺適(shi)配器:該視覺適(shi)配器將圖像(xiang)特(te)征映射到(dao) LLM 的特(te)征空間,使其更適(shi)合(he)被 LLM 理(li)解和使用。具體方法是通過圖像(xiang)查詢對(dui)圖像(xiang)特(te)征進(jin)行(xing)編碼,并結合(he)多頭(tou)自注(zhu)意力機制,捕捉不同視角圖像(xiang)特(te)征之間的關聯性,輸出精簡后(hou)的圖像(xiang)標記。

  3. LLM(大型(xing)語(yu)(yu)言(yan)模(mo)型(xing)):通過 LLM 對(dui)輸入(ru)的(de)(de)(de)視(shi)覺(jue)信息進(jin)行(xing)理解(jie),將(jiang)其轉化(hua)為(wei)具(ju)體(ti)的(de)(de)(de)語(yu)(yu)義信息,如道路拓(tuo)撲(pu)、交通規則、目標(biao)物體(ti)的(de)(de)(de)屬性(xing)和行(xing)為(wei)意圖(tu)(tu)。該模(mo)塊可以(yi)采(cai)用(yong)預訓(xun)練的(de)(de)(de)語(yu)(yu)言(yan)模(mo)型(xing)進(jin)行(xing)微(wei)調,以(yi)適應(ying)自動駕駛場(chang)景。在具(ju)體(ti)實施中(zhong),為(wei)了(le)幫助 LLM 區分不同(tong)視(shi)角(jiao)(jiao)的(de)(de)(de)圖(tu)(tu)像特征并建立空(kong)間理解(jie),智體(ti)科技為(wei)每個視(shi)角(jiao)(jiao)設計相(xiang)應(ying)的(de)(de)(de)提示(shi)模(mo)板(ban),例如 "FRONT VIEW: \n {圖(tu)(tu)像標(biao)記} \n","LEFT VIEW: \n {圖(tu)(tu)像標(biao)記} \n" 等。將(jiang)包(bao)含多視(shi)角(jiao)(jiao)圖(tu)(tu)像標(biao)記和相(xiang)應(ying)提示(shi)的(de)(de)(de)文本(ben)輸入(ru)到(dao) LLM 中(zhong),可以(yi)增強 LLM 對(dui)駕駛場(chang)景的(de)(de)(de)空(kong)間理解(jie)能力。

2.2.3 HSARM部分

在獲取了(le)語義(yi)信(xin)息后,系(xi)統通過分(fen)層動態(tai)規劃(hua)模塊生成控制指令。分(fen)層動態(tai)規劃(hua)模塊的(de)設計需(xu)要考慮各(ge)種(zhong)動態(tai)約(yue)束(shu)[3],例如車輛動力學約(yue)束(shu)、交通規則約(yue)束(shu)、舒(shu)適性約(yue)束(shu)等,以確保自(zi)動駕駛的(de)安全性和舒(shu)適性。該(gai)部分(fen)包含(han)三(san)個子模塊:

  1. 高層規劃:

  • 該子模塊接收感知(zhi)部分(fen)提(ti)供的語(yu)義信息以及乘客指令,生成全局路(lu)徑意圖和語(yu)義元(yuan)動作序列。

  • 高(gao)層規劃的目標是(shi)提供(gong)一(yi)個抽象的駕駛計(ji)劃,同(tong)時考慮(lv)全局的動態約束(shu),例(li)如路徑的可行性(xing)、交通規則(ze)的遵守情況等(deng)。

  1. 低層規劃:

  • 該子(zi)模(mo)塊(kuai)接收高(gao)層規劃的(de)輸(shu)(shu)出和感(gan)知(zhi)部分提供的(de)語義信息,結合動態(tai)約束,最終輸(shu)(shu)出連續(xu)的(de)控制指令(例如轉向角度、加速度)。

  • 低層規劃需(xu)要(yao)考慮局部的(de)動態約束,例如車輛的(de)動力學限制、避障、車道保(bao)持等(deng),以生(sheng)成安全(quan)、舒適(shi)且可執行(xing)的(de)軌跡[4]。

為了實現(xian)分層動態(tai)規(gui)劃,可以(yi)采用模仿(fang)學習(xi)、強(qiang)化學習(xi)或兩(liang)者結(jie)合(he)的方法進行訓練。在訓練過程中,智(zhi)體科技(ji)將動態(tai)約束顯式地(di)整合(he)到各個模塊(kuai)中,例如:

  • 高層(ceng)規劃(hua): 在路徑(jing)搜索或策略學習過程中,將動(dong)態約束作為限制條(tiao)件或懲罰(fa)項,引導(dao)高層(ceng)規劃(hua)生成滿足(zu)約束的路徑(jing)意(yi)圖和語義元動(dong)作序列。

  • 低層規劃: 在軌(gui)跡生成(cheng)或策略(lve)優(you)化(hua)過(guo)程中(zhong),將動(dong)態約束作為優(you)化(hua)目標的一部分,例如使用模型預測控制 (MPC) 或動(dong)態規劃 (DP) 等(deng)方(fang)法生成(cheng)滿足約束的軌(gui)跡。

  1. 為了進一步增強低層規劃(hua)(hua)模塊對高層語義信(xin)息(xi)的(de)(de)理解和利用能力,并提升其在復雜動態場景下的(de)(de)適(shi)應性,智體科技(ji)引入(ru)了一個名為“多(duo)級語義動作(zuo)推(tui)理模塊”(Hierarchical      Semantic Action Reasoning Module,HSARM)。HSARM 接收高層規劃(hua)(hua)的(de)(de)輸出和低層規劃(hua)(hua)所需的(de)(de)上下文信(xin)息(xi),并進行多(duo)級推(tui)理,生成更細粒度(du)、更具針對性的(de)(de)動作(zuo)序列(lie)。

HSARM 的核心是一個多級推理機(ji)制(zhi),該(gai)機(ji)制(zhi)包(bao)含以下兩(liang)個關鍵步驟:

  1. 語(yu)義(yi)動(dong)(dong)作(zuo)嵌(qian)(qian)入:      HSARM 首先將高層規(gui)劃輸出的抽象動(dong)(dong)作(zuo)指(zhi)(zhi)令(例如(ru),“左轉”、“靠邊停(ting)車(che)”或“加速駛入當(dang)前車(che)道”)轉換為低維稠密向(xiang)量(liang),智體科技稱之(zhi)為“語(yu)義(yi)動(dong)(dong)作(zuo)嵌(qian)(qian)入”(Semantic      Action Embedding,SAE)。HSARM 內部維護一個(ge)可學(xue)習的嵌(qian)(qian)入矩陣,為每(mei)個(ge)預定義(yi)的動(dong)(dong)作(zuo)指(zhi)(zhi)令分配(pei)一個(ge)獨一無二的向(xiang)量(liang)表(biao)示(shi)。

  2. 動(dong)態(tai)上下文感知推理: HSARM 利(li)用(yong)注意(yi)力機制(zhi)將      SAE 與低層規劃感知到的(de)車輛自身(shen)狀態(tai)、周圍環境信(xin)息以及動(dong)態(tai)目(mu)標信(xin)息進行融合[5,6,7]。HSARM 根據(ju)融合后的(de)信(xin)息,對 SAE 進行多級推理,生成更細粒(li)度(du)、更具針對性的(de)動(dong)作序列(lie),例如將“左轉(zhuan)”分解為“減速(su)”、“打轉(zhuan)向燈”、“查(cha)看(kan)側方(fang)車輛”、“轉(zhuan)向”等(deng)一系列(lie)更具體的(de)動(dong)作。

2.3 RobotActor模塊

RobotActor模(mo)(mo)塊以UniAD端到端自動(dong)(dong)(dong)駕駛(shi)模(mo)(mo)型(xing)[8]為(wei)基礎進行(xing)擴展,HSARM部分(fen)輸(shu)出(chu)的(de)(de)(de)(de)多級(ji)語義動(dong)(dong)(dong)作(zuo)(zuo)(zuo)序(xu)列(lie)會(hui)被整合到UniAD模(mo)(mo)型(xing)的(de)(de)(de)(de)輸(shu)入中。智體科技(ji)將語義動(dong)(dong)(dong)作(zuo)(zuo)(zuo)序(xu)列(lie)中的(de)(de)(de)(de)每(mei)個(ge)動(dong)(dong)(dong)作(zuo)(zuo)(zuo)都轉換為(wei)對應(ying)的(de)(de)(de)(de) SAE,并將這些 SAE 與多視角圖像序(xu)列(lie)、導航命令等信息(xi)一(yi)同輸(shu)入到UniAD模(mo)(mo)型(xing)中。通過這種方式,UniAD模(mo)(mo)型(xing)能(neng)夠更(geng)好(hao)地(di)(di)理(li)解 HSARM部分(fen)推理(li)出(chu)的(de)(de)(de)(de)細(xi)粒度動(dong)(dong)(dong)作(zuo)(zuo)(zuo)指令,并在(zai)生成軌跡時也會(hui)將動(dong)(dong)(dong)態(tai)約束作(zuo)(zuo)(zuo)為(wei)優化目標的(de)(de)(de)(de)一(yi)部分(fen),以確保最終(zhong)生成的(de)(de)(de)(de)軌跡滿足安全(quan)性(xing)、舒適性(xing)和(he)交通規則等方面的(de)(de)(de)(de)要求。實際上,在(zai)RobotActor模(mo)(mo)塊的(de)(de)(de)(de)設計中,基于HSARM部分(fen)最終(zhong)輸(shu)出(chu)的(de)(de)(de)(de)方式,UniAD模(mo)(mo)型(xing)完全(quan)可以靈活地(di)(di)替(ti)代為(wei)其他端到端自動(dong)(dong)(dong)駕駛(shi)模(mo)(mo)型(xing)。

  1. Robotaxi落地場景理解

智(zhi)體科(ke)技設計(ji)一系列面向Robotaxi規劃的 QA,從場景描述,動(dong)態(tai)目標行為預測以及(ji)規劃解釋這三個維度來輔助 RobotSensor模塊對Robotaxi落地場景的理解,具體來說(shuo):

3.1 場景描述: 根據感(gan)知部分提供(gong)的語義信息,生(sheng)成對駕駛場景的文本描述,包(bao)括交通狀況、環(huan)境、道路類(lei)型、天氣(qi)狀況等。這可(ke)以幫(bang)助系統(tong)更全面(mian)地(di)理(li)解(jie)當(dang)前的駕駛環(huan)境。

3.2 動態目標行為預測: 結合動態目標(biao)的(de)歷(li)史軌跡和當(dang)前(qian)狀(zhuang)態,預測其未來的(de)行為,例如左轉、右(you)轉、直行、加速、減速等。這可以幫(bang)助系(xi)統更好地預判(pan)潛在的(de)風險,并做(zuo)出更安(an)全的(de)決策[9]。

3.3 規劃解釋: 將高層(ceng)規劃(hua)模塊生(sheng)成的(de)(de)元動作序列和低層(ceng)規劃(hua)模塊生(sheng)成的(de)(de)軌跡,轉換成自然語言描述,解釋(shi)系統(tong)做出當前(qian)決策(ce)的(de)(de)原因(yin)。這(zhe)可(ke)以提高系統(tong)的(de)(de)可(ke)解釋(shi)性,增強Robotaxi的(de)(de)乘客對系統(tong)的(de)(de)信(xin)任感。

4. 訓練策略

為了有效訓練(lian)RobotSensor模(mo)塊中(zhong)的VLM感知(zhi)部(bu)分,智(zhi)體(ti)科技采用(yong)了多階(jie)段的訓練(lian)策略,包括:

  1. 預訓練:使用大規模的圖(tu)像-文(wen)本(ben)數(shu)據集(ji)對(dui) VLM 進(jin)行預(yu)訓(xun)練,例如 Conceptual Captions、LAION-5B 等(deng)數(shu)據集(ji)。預(yu)訓(xun)練階段的目標是使 VLM 學習到通用的視覺(jue)和(he)語言表(biao)示能(neng)力。

  2. 駕駛場景微調:使(shi)用(yong)智體科技自主規劃采集的(de)用(yong)于訓練Robotaxi自動(dong)駕(jia)(jia)駛(shi)的(de)高(gao)質量傳感器數據集ZTCVD(ZT City Vision Dataset) 對預(yu)訓練的(de) VLM      進(jin)行微(wei)調。微(wei)調階段的(de)目標(biao)是使(shi) VLM 適應Robotaxi自動(dong)駕(jia)(jia)駛(shi)場景,學習到駕(jia)(jia)駛(shi)相關的(de)語義信息。

  • 自動(dong)駕駛(shi)數(shu)據集(ji)(ji)ZTCVD包含(han)多(duo)個區域的(de)(de)復雜城(cheng)(cheng)市道路(lu)上(shang)的(de)(de)真(zhen)實測(ce)試場景(jing)。該數(shu)據集(ji)(ji)涵蓋了(le)從密集(ji)(ji)的(de)(de)城(cheng)(cheng)市中(zhong)心到郊區景(jing)觀的(de)(de)各種環境。這個系列由不同(tong)的(de)(de)駕駛(shi)條(tiao)件組成,包括城(cheng)(cheng)市環境中(zhong)經歷的(de)(de)天氣(qi)、照明、建筑(zhu)和交(jiao)通條(tiao)件的(de)(de)季節變化。該數(shu)據集(ji)(ji)包含(han)上(shang)千種駕駛(shi)片段,每一片段包含(han)多(duo)達幾十秒(miao)的(de)(de)連續駕駛(shi)畫面,數(shu)據集(ji)(ji)中(zhong)的(de)(de)車輛、行(xing)人、自行(xing)車、標(biao)識牌等(deng)圖像(xiang)都經過(guo)精心標(biao)記(ji),包含(han)多(duo)個3D標(biao)簽(qian)和2D標(biao)簽(qian)等(deng)。

  1. 強化學習:使(shi)用強(qiang)化學(xue)(xue)習(xi)(xi)算法(fa)對      VLM 和分層動(dong)態規(gui)劃(hua)模(mo)塊進(jin)行(xing)進(jin)一步(bu)訓(xun)練,例如 Proximal Policy Optimization (PPO)、Soft      Actor-Critic (SAC) 等(deng)算法(fa)。強(qiang)化學(xue)(xue)習(xi)(xi)階段(duan)的(de)(de)目標是使(shi) VLM 和分層規(gui)劃(hua)模(mo)塊學(xue)(xue)習(xi)(xi)到最優的(de)(de)駕駛(shi)策(ce)略,從而在(zai)復雜動(dong)態環境中實現安全高效的(de)(de)自(zi)動(dong)駕駛(shi)[10]。

5. 實驗與結果

5.1 實驗設置

為了(le)驗(yan)證RobotSense框架的(de)有效性,智體(ti)科技在多個復雜場景中(zhong)進行了(le)實驗(yan),包括城市(shi)道路(lu)、高速(su)公路(lu)和(he)交叉路(lu)口等,涵(han)蓋了(le)擁堵、稀疏(shu)、雨(yu)天和(he)夜(ye)間等不同(tong)交通狀況。實驗(yan)使(shi)用了(le)nuScenes和(he)Waymo Open Dataset等多模(mo)態數據集。

  • 實(shi)驗條件:每組實(shi)驗均采(cai)用相同的環(huan)境(jing)設置,保證公平(ping)對比(bi)。

  • 對(dui)(dui)比方法:選擇(ze)傳統(tong)分層規劃算法、標準端到端方法以及RobotSense框(kuang)架進行對(dui)(dui)比分析。

5.2 評估指標

以下基(ji)于(yu)Robotaxi場景的(de)評估指標用于(yu)全(quan)面衡量(liang)系(xi)統性(xing)能:

  • 路徑規劃誤(wu)差:通過(guo)均方(fang)根誤(wu)差(RMSE)評估預測軌跡與真實(shi)軌跡的偏差。

  • 碰(peng)撞率:統計車輛與動態(tai)目(mu)標發生碰(peng)撞的比(bi)例。

  • 乘坐舒適度:評估加速度和轉向角變化(hua)的標準差,以衡量平穩性。

  • 遵守交(jiao)通(tong)規則:通(tong)過(guo)交(jiao)通(tong)規則違(wei)反次(ci)數,評估車(che)輛對交(jiao)通(tong)規則的遵從程度。

  • 任務完(wan)成率:衡(heng)量(liang)車(che)輛是否成功到達目的(de)地并避開障礙物。

5.3 實驗結果與分析

實驗結果表明(ming),RobotSense框架在多個關鍵指標上(shang)相較傳(chuan)統(tong)方法有(you)顯著提(ti)升:

  • 路徑規劃誤(wu)差:誤(wu)差降低了40%,表明系統能夠更準確地生成軌跡(ji)。

  • 碰撞率(lv):降低了45%,顯示出對復雜動(dong)態環境更好的(de)適應能力。

  • 乘坐(zuo)舒適度:平穩性提(ti)高(gao),加速度和轉向角變(bian)化(hua)減少(shao)了(le)約30%。

  • 遵守交通規則:違反次數較傳統方(fang)法減少了20%。

  • 任務完成率(lv):任務成功率(lv)達到98%,顯著優于傳(chuan)統方法的89%。

深入分析:

  1. 復雜場景中(zhong)(zhong)的(de)(de)表現:RobotSense在交叉(cha)路(lu)(lu)口等高動(dong)態(tai)場景中(zhong)(zhong)的(de)(de)路(lu)(lu)徑選擇更加(jia)靈活(huo),得益(yi)于VLM模塊對環境(jing)的(de)(de)深度理(li)(li)解和HSARM的(de)(de)多級推理(li)(li)。

  2. 碰撞率降(jiang)低的原因:多模態(tai)融合(he)和分(fen)層(ceng)動態(tai)規劃有效提升了系統對周圍目標(biao)行為的預測精度。

  3. 不足與挑戰:在極端(duan)天氣或罕見場(chang)景下,框架的泛化(hua)能力仍需進一(yi)步(bu)優化(hua)。

6. 結論與展望

RobotSense自動駕駛決策框架以語義驅動的多模態融合方法為核心,結合分層動態規劃架構,開創了Robotaxi技術發展的全新路徑。通過將視覺-語言模型深度嵌入感知與決策流程,該框架不僅在路徑規劃精度、安全性和乘坐舒適度等方面實現了顯著突破,更在復雜動態城市交通場景中展現出卓越的適應性和魯棒性,為Robotaxi落地提供了強有力的技術支撐。實驗結果進一步證明了該框架在多模態感知、語義推理和軌跡優化等關鍵環節上的技術優勢,特別是其在交叉路口等高動態環境中的表現,充分驗證了多級語義推理模塊的創新價值。展望未來,RobotSense框架將在數據規模擴展、模型結構優化及未見場景的泛化能力提升等方面繼續迭代,進一步強化其在極端條件下的可靠性和實時響應能力。與此同時,通過引入輕量化設計與高效部署策略,該框架將更加契合實際應用場景對低延遲、高性能的要求。此外,隨著智能交通技術的進一步融合發展,RobotSense將作為關鍵支柱,與行業合作伙伴共同推動智慧交通生態的全面升級,助力構建高效、安全、可持續的智能出行新模式。作為聯想懂的通信AI生態核心合作伙伴,廣州智體科技將充分利用聯想懂的通信在AI和物聯網領域的技(ji)(ji)術優勢,秉承技(ji)(ji)術創新驅動(dong)發展的理(li)念,繼續致力于探索和(he)完善該框架,為Robotaxi行業(ye)樹立全新的技(ji)(ji)術標(biao)桿(gan)。

References

  • Hu, Peiyun, et al. "Safe local motion planning with self-supervised freespace forecasting." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

  • Jiang, Bo, et al. "Vad: Vectorized scene representation for efficient autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

  • Chitta, Kashyap, Aditya Prakash, and Andreas Geiger. "Neat: Neural attention fields for end-to-end autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

  • Jiang, Bo, et al. "Senna: Bridging large vision-language models and end-to-end autonomous driving." arXiv preprint arXiv:2410.22313 (2024).

  • Hafner, Danijar, et al. "Dream to control: Learning behaviors by latent imagination." arXiv preprint arXiv:1912.01603 (2019).

  • Hu, Anthony, et al. "Model-based imitation learning for urban driving." Advances in Neural Information Processing Systems 35 (2022): 20703-20716.

  • Khurana, Tarasha, et al. "Differentiable raycasting for self-supervised occupancy forecasting." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

  • Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

  • Wang, Yuqi, et al. "Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

  • Bojarski, Mariusz, et al. "Explaining how a deep neural network trained with end-to-end learning steers a car." arXiv preprint arXiv:1704.07911 (2017).


熱門文章
物聯網安全標簽計劃通過給符合相關網絡安全標準的物聯網產品賦予特有的標簽,粘貼在產品或包裝上,讓消費者能夠直觀地了解產品安全的信息,從而做出購買決策。物聯網安全標簽計劃源于海外多個國家,筆者在此前多篇推
2025-02-10
X