国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

RobotSense: 智體科技開創視覺-語言-動作協同的Robotaxi決策新范式
作者 | 物聯網智(zhi)庫2025-02-10

正如DeepSeek憑借出乎意料的高性能、低成本和開放源代碼策略,迅速引爆全球市場、震撼美股科技板塊,并引來業內大佬連連贊嘆,其技術突破正預示著全球AI競爭格局的深刻變革。這場風暴不僅證明了中國在人工智能領(ling)域擁有顛覆性(xing)潛力,更顯示出在(zai)(zai)資源受(shou)限的(de)情況下(xia),創新依(yi)然(ran)能夠打破固(gu)有思維,重塑行業規(gui)則。與此同時,廣州智體科(ke)技(ji)作(zuo)為聯想懂的(de)通(tong)信AI生態核心合作(zuo)伙伴,也在(zai)(zai)積(ji)極(ji)布局前(qian)沿(yan)科(ke)技(ji),利用(yong)RobotSense決策(ce)框架在(zai)(zai)復雜(za)動態的(de)城市交(jiao)通(tong)環境(jing)中掀起一(yi)場技(ji)術革命。

廣州智體科技非常榮幸應中華網邀稿,通過這篇技術文章向讀者展示RobotSense決策框架,揭示其如何在復雜動態的城市交通中創造價值。為了讓更多讀者了解文章內容,我們將其核心內容搬到公眾號中與您分享。本篇文章聚焦于RobotSense決策框架的核心理念,探討這一框架如何通過“視覺-語言-動作”協同機制,推動自動駕駛決策技術的革新,突破傳統智能駕駛的瓶頸。

1. 引言

自動駕(jia)駛(shi)技術正(zheng)經歷著快速(su)的(de)(de)(de)發展(zhan),尤其是隨(sui)著感(gan)知能力和決策算法(fa)(fa)的(de)(de)(de)進(jin)步,越來越多的(de)(de)(de)自動駕(jia)駛(shi)系(xi)統(tong)正(zheng)在走(zou)出封閉的(de)(de)(de)測試(shi)環境,面(mian)臨日(ri)益復雜的(de)(de)(de)現實(shi)世界駕(jia)駛(shi)場(chang)景。端(duan)(duan)到(dao)(dao)端(duan)(duan)自動駕(jia)駛(shi)方法(fa)(fa)的(de)(de)(de)提(ti)出試(shi)圖將(jiang)所(suo)有模塊融合到(dao)(dao)一(yi)個單一(yi)的(de)(de)(de)系(xi)統(tong)中(zhong),直接從(cong)傳感(gan)器數據(ju)映射到(dao)(dao)控制指令,從(cong)而(er)(er)(er)減少信(xin)息(xi)損失,提(ti)高(gao)系(xi)統(tong)效率。然而(er)(er)(er),在復雜的(de)(de)(de)Robotaxi落地場(chang)景中(zhong),端(duan)(duan)到(dao)(dao)端(duan)(duan)方法(fa)(fa)缺(que)乏城市行(xing)駛(shi)的(de)(de)(de)基本邏輯知識,并(bing)且在訓練(lian)中(zhong)容易形成(cheng)錯誤的(de)(de)(de)捷徑(jing)(jing)[1]。VLM (視覺-語言模型)的(de)(de)(de)出現為端(duan)(duan)到(dao)(dao)端(duan)(duan)自動駕(jia)駛(shi)提(ti)供(gong)了新的(de)(de)(de)技術路徑(jing)(jing)。VLM能夠將(jiang)視覺信(xin)息(xi)與自然語言信(xin)息(xi)進(jin)行(xing)融合,從(cong)而(er)(er)(er)實(shi)現對(dui)復雜場(chang)景的(de)(de)(de)深度理(li)(li)解(jie)(jie),例如識別圖像中(zhong)的(de)(de)(de)物(wu)體、理(li)(li)解(jie)(jie)交通規則(ze)、分析駕(jia)駛(shi)行(xing)為等。而(er)(er)(er)分層規劃(hua)方法(fa)(fa)更能將(jiang)Robotaxi復雜的(de)(de)(de)規劃(hua)任務分解(jie)(jie)成(cheng)多個層次,例如全局路徑(jing)(jing)規劃(hua)和局部路徑(jing)(jing)規劃(hua),從(cong)而(er)(er)(er)更加有效地提(ti)高(gao)規劃(hua)效率和應(ying)對(dui)動態(tai)環境的(de)(de)(de)能力。

廣州智體科技提出一種(zhong)融合(he) VLM 的(de)(de)(de)(de)語義(yi)驅動(dong)(dong)的(de)(de)(de)(de)Robotaxi自(zi)(zi)(zi)動(dong)(dong)駕駛(shi)決(jue)策(ce)框(kuang)(kuang)架(jia)RobotSense。這種(zhong)新(xin)(xin)型(xing) Robotaxi 自(zi)(zi)(zi)動(dong)(dong)駕駛(shi)框(kuang)(kuang)架(jia)結合(he)了(le)VLM和(he)E2E(端到端模(mo)(mo)型(xing)),旨在(zai)實現(xian)更(geng)安全、更(geng)智能(neng)的(de)(de)(de)(de)自(zi)(zi)(zi)動(dong)(dong)駕駛(shi)。該(gai)系統采用分層規(gui)(gui)劃(hua)架(jia)構,VLM 負(fu)責(ze)生成自(zi)(zi)(zi)然(ran)語言形式的(de)(de)(de)(de)高(gao)級(ji)規(gui)(gui)劃(hua)決(jue)策(ce),然(ran)后根據(ju) VLM 的(de)(de)(de)(de)輸出和(he)低層感知信(xin)息(xi)(xi)生成多(duo)(duo)級(ji)語義(yi)動(dong)(dong)作序列,并(bing)將這些動(dong)(dong)作序列整合(he)成端到端模(mo)(mo)型(xing)的(de)(de)(de)(de)輸入,最終由(you)端到端模(mo)(mo)型(xing)預(yu)測(ce)精(jing)確的(de)(de)(de)(de)軌跡,將抽象的(de)(de)(de)(de)動(dong)(dong)作指(zhi)令細化為更(geng)具(ju)體、更(geng)易于執(zhi)行(xing)的(de)(de)(de)(de)底層動(dong)(dong)作序列,并(bing)根據(ju)當前的(de)(de)(de)(de)駕駛(shi)環境(jing)和(he)動(dong)(dong)態目(mu)標的(de)(de)(de)(de)行(xing)為預(yu)測(ce),生成更(geng)具(ju)針對(dui)(dui)性(xing)的(de)(de)(de)(de)動(dong)(dong)作序列,這一創(chuang)新(xin)(xin)的(de)(de)(de)(de)方(fang)法增強了(le)低層規(gui)(gui)劃(hua)對(dui)(dui)高(gao)級(ji)語義(yi)信(xin)息(xi)(xi)的(de)(de)(de)(de)理解(jie)(jie)和(he)利用能(neng)力。此外,該(gai)框(kuang)(kuang)架(jia)還采用了(le)多(duo)(duo)圖(tu)(tu)像(xiang)編碼方(fang)法、多(duo)(duo)視(shi)圖(tu)(tu)提示(shi)和(he)面(mian)向(xiang)Robotaxi規(gui)(gui)劃(hua)的(de)(de)(de)(de)QA等技術,以提高(gao) VLM 在(zai)Robotaxi的(de)(de)(de)(de)場景(jing)理解(jie)(jie)能(neng)力和(he)規(gui)(gui)劃(hua)性(xing)能(neng)。RobotSense自(zi)(zi)(zi)動(dong)(dong)駕駛(shi)決(jue)策(ce)框(kuang)(kuang)架(jia)是現(xian)階段能(neng)夠(gou)真正將VLA (Vision-Language-Action 模(mo)(mo)型(xing))概念(nian)落地于Robotaxi場景(jing)的(de)(de)(de)(de)自(zi)(zi)(zi)動(dong)(dong)駕駛(shi)框(kuang)(kuang)架(jia),其結合(he)了(le)視(shi)覺(Vision)、語言(Language)和(he)動(dong)(dong)作(Action)三個模(mo)(mo)態的(de)(de)(de)(de)數(shu)據(ju),通(tong)過深(shen)度學習(xi)技術實現(xian)對(dui)(dui)復雜(za)場景(jing)的(de)(de)(de)(de)理解(jie)(jie)和(he)決(jue)策(ce)。

2. 框架設計

2.1 框架總體架構

該 Robotaxi 自(zi)動(dong)駕(jia)駛(shi)系統框架包(bao)含兩大(da)模(mo)(mo)塊(kuai):RobotSensor模(mo)(mo)塊(kuai)通(tong)(tong)過VLM處理規劃決策的(de)(de)生成,RobotActor模(mo)(mo)塊(kuai)通(tong)(tong)過E2E模(mo)(mo)型預測精(jing)確(que)的(de)(de)軌跡(ji),最終(zhong)實現更安(an)全、更智(zhi)能的(de)(de)自(zi)動(dong)駕(jia)駛(shi)。

該系統接收多視角圖像序列(lie)、Robotaxi 乘客的指令和導(dao)航命令作為輸(shu)入,最終輸(shu)出連(lian)續的控制(zhi)指令,系統流程如(ru)下:

  • 多視(shi)角圖像序列:由多個攝像頭獲取的圖像信(xin)息,提供不同視(shi)角下的環境信(xin)息,例如車輛周圍(wei)的道路狀況、交通參(can)與者(zhe)等(deng);

  • Robotaxi乘客(ke)的(de)(de)(de)指(zhi)令(ling)與導(dao)(dao)航命(ming)令(ling):Robotaxi 乘客(ke)的(de)(de)(de)指(zhi)令(ling)包(bao)括乘客(ke)想要到達(da)的(de)(de)(de)目的(de)(de)(de)地(di)、路(lu)線偏(pian)好等(deng),導(dao)(dao)航命(ming)令(ling)則根(gen)據乘客(ke)指(zhi)令(ling)和地(di)圖信息(xi)生成(cheng)具體的(de)(de)(de)導(dao)(dao)航路(lu)徑;

  • VLM 感知模(mo)塊:該模(mo)塊負責處理(li)多視(shi)角圖像(xiang)序列、Robotaxi乘客指令和(he)導航命令,提(ti)取語義(yi)信息,并提(ti)供(gong)決(jue)策所(suo)需的環境(jing)(jing)理(li)解,例如道路拓(tuo)撲、交通規則、行(xing)人和(he)車輛(liang)的屬性與行(xing)為意圖、天氣(qi)和(he)光照等環境(jing)(jing)因素;

  • HSARM 模塊整合(he)高層規(gui)劃(hua)的輸出和(he)低層感知信(xin)息(xi),例(li)如車輛自身狀態、周圍(wei)環境(jing)信(xin)息(xi)、動態目標信(xin)息(xi)等(deng)(deng),并進(jin)行多(duo)級推理,生成更細粒度、更具針對性的動作(zuo)序列(lie)。例(li)如,將      “左轉(zhuan)” 分解為(wei) “減速”、“打轉(zhuan)向燈”、“查(cha)看側方車輛”、“轉(zhuan)向” 等(deng)(deng);

  • 端到端模(mo)(mo)型(xing): 模(mo)(mo)型(xing)接收(shou) HSARM 模(mo)(mo)塊輸出的多級語義動(dong)作序列和其他感知信息(xi),預(yu)測車輛的精確軌跡。

2.2 RobotSensor模塊

RobotSensor模(mo)塊主要由(you)三個部(bu)分(fen)(fen)組成(cheng):輸入(ru)(ru)(ru)部(bu)分(fen)(fen)獲(huo)取(qu)(qu)輸入(ru)(ru)(ru)信(xin)息(xi),視(shi)覺編(bian)碼器(qi)用于從圖像(xiang)(xiang)中提取(qu)(qu)特征信(xin)息(xi),然后由(you)Robotaxi視(shi)覺適配器(qi)實現圖像(xiang)(xiang)特征適配。文(wen)(wen)本編(bian)碼器(qi)將Robotaxi乘客指令(ling)與導航命(ming)令(ling)編(bian)碼為文(wen)(wen)本tokens[2]。圖像(xiang)(xiang)和文(wen)(wen)本tokens最終(zhong)被輸入(ru)(ru)(ru)到 LLM 中,LLM 用來預測高(gao)級決策。最后,HSARM 部(bu)分(fen)(fen)輸出的多(duo)級語義動作序列(lie)會被整合到端到端自動駕駛模(mo)型的輸入(ru)(ru)(ru)中。

2.2.1 輸入部分

  • 多視角圖像序列:由多個攝像頭(tou)獲取的(de)圖像信息,提(ti)供不同視角下的(de)環(huan)境信息,例如車(che)輛周圍的(de)道(dao)路狀況、交(jiao)通參與者(zhe)等。

  • Robotaxi乘(cheng)客(ke)(ke)指(zhi)(zhi)(zhi)令(ling)與導(dao)航命(ming)(ming)令(ling):Robotaxi 乘(cheng)客(ke)(ke)的(de)(de)指(zhi)(zhi)(zhi)令(ling)包括(kuo)乘(cheng)客(ke)(ke)想要到(dao)達的(de)(de)目的(de)(de)地(di)、路線偏好(hao)等,導(dao)航命(ming)(ming)令(ling)則根據乘(cheng)客(ke)(ke)指(zhi)(zhi)(zhi)令(ling)和地(di)圖信(xin)息生成具體的(de)(de)導(dao)航路徑。

2.2.2 VLM 感知部分

VLM 感知部(bu)分(fen)負責將(jiang)輸入的圖(tu)像和(he)文本(ben)信息(xi)(xi)轉化為(wei)可供決策模塊使(shi)用的語義信息(xi)(xi)。該部(bu)分(fen)由三(san)個子模塊組成:

  1. 高效的視覺編(bian)碼器:用(yong)于從(cong)圖(tu)像(xiang)中提(ti)取(qu)特(te)(te)征信息。可以使(shi)用(yong)      ViT、Swin Transformer 等 Transformer 模型提(ti)取(qu)圖(tu)像(xiang)特(te)(te)征,以提(ti)高圖(tu)像(xiang)處理的效率和準確性。

  2. Robotaxi視覺適配器:該視覺適配器將圖(tu)(tu)(tu)像(xiang)特征映射到 LLM 的(de)特征空間(jian),使(shi)(shi)其(qi)更適合被 LLM 理解和使(shi)(shi)用。具(ju)體方法是通(tong)過圖(tu)(tu)(tu)像(xiang)查詢對圖(tu)(tu)(tu)像(xiang)特征進(jin)行編(bian)碼,并結合多(duo)頭自注意力機制,捕(bu)捉不(bu)同視角圖(tu)(tu)(tu)像(xiang)特征之間(jian)的(de)關聯性,輸出精(jing)簡(jian)后(hou)的(de)圖(tu)(tu)(tu)像(xiang)標記。

  3. LLM(大型(xing)語言模(mo)(mo)型(xing)):通過 LLM 對輸(shu)入的視覺信息(xi)進(jin)(jin)行理解,將其轉化為具體(ti)的語義信息(xi),如(ru)道(dao)路拓(tuo)撲、交(jiao)通規則、目標(biao)(biao)物體(ti)的屬性和行為意圖(tu)(tu)(tu)。該模(mo)(mo)塊可以采用預訓練的語言模(mo)(mo)型(xing)進(jin)(jin)行微(wei)調,以適應自(zi)動駕駛場景。在具體(ti)實施中(zhong),為了幫(bang)助 LLM 區分不同視角(jiao)的圖(tu)(tu)(tu)像特征并(bing)建立(li)空間理解,智體(ti)科技(ji)為每個視角(jiao)設計相應的提(ti)示模(mo)(mo)板,例(li)如(ru) "FRONT VIEW: \n {圖(tu)(tu)(tu)像標(biao)(biao)記} \n","LEFT VIEW: \n {圖(tu)(tu)(tu)像標(biao)(biao)記} \n" 等。將包含多(duo)視角(jiao)圖(tu)(tu)(tu)像標(biao)(biao)記和相應提(ti)示的文(wen)本輸(shu)入到 LLM 中(zhong),可以增強 LLM 對駕駛場景的空間理解能力。

2.2.3 HSARM部分

在獲取了(le)語(yu)義信息后,系(xi)統通過分層動(dong)態(tai)規(gui)劃(hua)模(mo)塊(kuai)生成(cheng)控(kong)制指令。分層動(dong)態(tai)規(gui)劃(hua)模(mo)塊(kuai)的設計需要考慮各(ge)種動(dong)態(tai)約(yue)(yue)束[3],例如車(che)輛(liang)動(dong)力學約(yue)(yue)束、交通規(gui)則約(yue)(yue)束、舒適性(xing)約(yue)(yue)束等(deng),以確保自動(dong)駕駛的安(an)全性(xing)和舒適性(xing)。該部(bu)分包含三個子模(mo)塊(kuai):

  1. 高層規劃:

  • 該子模塊接(jie)收感知(zhi)部分提供的語義(yi)(yi)信(xin)息以(yi)及(ji)乘(cheng)客指令(ling),生成全局路(lu)徑意圖(tu)和語義(yi)(yi)元動作序(xu)列。

  • 高(gao)層規(gui)劃的(de)目標是提供(gong)一個抽象的(de)駕(jia)駛計(ji)劃,同時考慮全局(ju)的(de)動態約束,例(li)如路(lu)徑的(de)可行(xing)性、交通規(gui)則的(de)遵守情況等。

  1. 低層規劃:

  • 該子模塊接收高層規劃(hua)的(de)輸出和(he)感知(zhi)部分提(ti)供的(de)語義(yi)信息,結合(he)動(dong)態約(yue)束,最終輸出連續的(de)控制(zhi)指令(ling)(例如轉向角度、加速度)。

  • 低層規(gui)劃需要考慮局部(bu)的動(dong)態約(yue)束,例如車(che)輛的動(dong)力(li)學限制(zhi)、避障、車(che)道保(bao)持等,以生成安全、舒適且(qie)可(ke)執(zhi)行的軌跡[4]。

為了實(shi)現分層動態規劃,可以采用模(mo)仿學(xue)習(xi)、強化學(xue)習(xi)或兩者(zhe)結合(he)的方法進行訓練(lian)。在(zai)訓練(lian)過程中,智體科(ke)技將動態約束顯(xian)式地(di)整(zheng)合(he)到各個模(mo)塊中,例如:

  • 高層規劃(hua): 在(zai)路徑(jing)搜索或(huo)策略(lve)學習(xi)過程中,將動態(tai)約束作為限(xian)制(zhi)條件或(huo)懲(cheng)罰(fa)項(xiang),引導高層規劃(hua)生成滿(man)足約束的路徑(jing)意圖和語義(yi)元動作序列。

  • 低(di)層(ceng)規(gui)劃: 在軌跡生(sheng)成或策略優化過(guo)程中,將動(dong)態(tai)約(yue)束(shu)作為(wei)優化目標的一部分,例如使用模型預測控(kong)制(zhi) (MPC) 或動(dong)態(tai)規(gui)劃 (DP) 等方法生(sheng)成滿(man)足(zu)約(yue)束(shu)的軌跡。

  1. 為了進一步增強低(di)層規(gui)劃模塊(kuai)對高(gao)層語(yu)義信息的理解和(he)利用(yong)能(neng)力(li),并(bing)提(ti)升其在復(fu)雜動(dong)態場景下的適應性(xing),智體科技引入了一個名為“多(duo)(duo)級語(yu)義動(dong)作推理模塊(kuai)”(Hierarchical      Semantic Action Reasoning Module,HSARM)。HSARM 接收高(gao)層規(gui)劃的輸(shu)出和(he)低(di)層規(gui)劃所(suo)需的上下文信息,并(bing)進行多(duo)(duo)級推理,生(sheng)成更細粒度(du)、更具針(zhen)對性(xing)的動(dong)作序列。

HSARM 的核(he)心是一個(ge)多級推理機制,該機制包(bao)含以下兩個(ge)關鍵步(bu)驟:

  1. 語(yu)義(yi)動(dong)作(zuo)(zuo)嵌入(ru):      HSARM 首(shou)先將(jiang)高層(ceng)規劃輸(shu)出的抽象動(dong)作(zuo)(zuo)指(zhi)令(例如,“左轉(zhuan)”、“靠邊停車”或“加速(su)駛(shi)入(ru)當(dang)前(qian)車道”)轉(zhuan)換(huan)為低維稠(chou)密向量,智體科技(ji)稱(cheng)之(zhi)為“語(yu)義(yi)動(dong)作(zuo)(zuo)嵌入(ru)”(Semantic      Action Embedding,SAE)。HSARM 內部維護一個(ge)可(ke)學習(xi)的嵌入(ru)矩陣(zhen),為每個(ge)預定(ding)義(yi)的動(dong)作(zuo)(zuo)指(zhi)令分配一個(ge)獨一無二的向量表示(shi)。

  2. 動(dong)(dong)態(tai)上(shang)下文感知推理(li)(li): HSARM 利用(yong)注意力機制(zhi)將      SAE 與低層規劃感知到的(de)車(che)輛自身狀(zhuang)態(tai)、周圍環境信(xin)(xin)息以(yi)及動(dong)(dong)態(tai)目標(biao)信(xin)(xin)息進行(xing)融合[5,6,7]。HSARM 根據(ju)融合后的(de)信(xin)(xin)息,對 SAE 進行(xing)多級推理(li)(li),生成更細粒度(du)、更具針(zhen)對性的(de)動(dong)(dong)作(zuo)序(xu)列(lie),例如將“左轉”分解為“減速”、“打轉向燈”、“查(cha)看側方車(che)輛”、“轉向”等一系列(lie)更具體的(de)動(dong)(dong)作(zuo)。

2.3 RobotActor模塊

RobotActor模(mo)塊(kuai)以(yi)UniAD端(duan)(duan)到(dao)端(duan)(duan)自(zi)動(dong)(dong)駕(jia)駛模(mo)型(xing)[8]為基(ji)礎進行擴展(zhan),HSARM部(bu)(bu)分輸出(chu)的(de)多級語(yu)義動(dong)(dong)作(zuo)序(xu)列(lie)(lie)會被整合到(dao)UniAD模(mo)型(xing)的(de)輸入中(zhong)(zhong)。智(zhi)體科(ke)技將語(yu)義動(dong)(dong)作(zuo)序(xu)列(lie)(lie)中(zhong)(zhong)的(de)每個動(dong)(dong)作(zuo)都轉換為對應的(de) SAE,并(bing)將這些 SAE 與多視角(jiao)圖像序(xu)列(lie)(lie)、導(dao)航命(ming)令(ling)等信息一同輸入到(dao)UniAD模(mo)型(xing)中(zhong)(zhong)。通(tong)過這種方(fang)式,UniAD模(mo)型(xing)能夠更好地理解 HSARM部(bu)(bu)分推(tui)理出(chu)的(de)細(xi)粒(li)度動(dong)(dong)作(zuo)指令(ling),并(bing)在生成(cheng)軌(gui)跡(ji)時(shi)也(ye)會將動(dong)(dong)態(tai)約(yue)束作(zuo)為優化目標的(de)一部(bu)(bu)分,以(yi)確保最(zui)終(zhong)生成(cheng)的(de)軌(gui)跡(ji)滿足安全性、舒適性和交(jiao)通(tong)規則等方(fang)面的(de)要求。實際上,在RobotActor模(mo)塊(kuai)的(de)設計中(zhong)(zhong),基(ji)于HSARM部(bu)(bu)分最(zui)終(zhong)輸出(chu)的(de)方(fang)式,UniAD模(mo)型(xing)完全可(ke)以(yi)靈(ling)活地替代為其他端(duan)(duan)到(dao)端(duan)(duan)自(zi)動(dong)(dong)駕(jia)駛模(mo)型(xing)。

  1. Robotaxi落地場景理解

智體(ti)科技設(she)計一系(xi)列面向Robotaxi規劃的 QA,從場(chang)景描述,動態目標行為預測(ce)以(yi)及規劃解釋這(zhe)三個維度來輔助 RobotSensor模塊對(dui)Robotaxi落地場(chang)景的理解,具(ju)體(ti)來說:

3.1 場景描述: 根(gen)據感知部分提供的(de)(de)語義信(xin)息,生成對駕駛場景的(de)(de)文(wen)本描(miao)述,包括交通狀況、環(huan)境、道(dao)路類型、天氣狀況等。這可以幫助系統更(geng)全(quan)面(mian)地理解當前的(de)(de)駕駛環(huan)境。

3.2 動態目標行為預測: 結合動態目(mu)標的(de)歷史軌跡和當前狀態,預(yu)測其(qi)未來的(de)行(xing)為,例(li)如左轉(zhuan)、右(you)轉(zhuan)、直行(xing)、加(jia)速(su)(su)、減速(su)(su)等。這可以幫助系(xi)統更好地預(yu)判潛(qian)在的(de)風險,并做(zuo)出更安全(quan)的(de)決策[9]。

3.3 規劃解釋: 將(jiang)高層(ceng)規(gui)劃(hua)模塊(kuai)生(sheng)成的(de)(de)元動作(zuo)序列(lie)和低(di)層(ceng)規(gui)劃(hua)模塊(kuai)生(sheng)成的(de)(de)軌跡,轉換成自(zi)然語言描述(shu),解(jie)釋(shi)系(xi)統(tong)(tong)做出當前決(jue)策的(de)(de)原(yuan)因。這可以提高系(xi)統(tong)(tong)的(de)(de)可解(jie)釋(shi)性,增強(qiang)Robotaxi的(de)(de)乘(cheng)客對(dui)系(xi)統(tong)(tong)的(de)(de)信任感。

4. 訓練策略

為了有(you)效訓(xun)練(lian)RobotSensor模塊中的VLM感(gan)知部分,智(zhi)體科技采用(yong)了多階段的訓(xun)練(lian)策(ce)略,包括(kuo):

  1. 預訓練:使用大(da)規模的(de)圖像(xiang)-文本數(shu)據集對 VLM 進行預訓(xun)練,例如 Conceptual Captions、LAION-5B 等數(shu)據集。預訓(xun)練階段的(de)目(mu)標是使 VLM 學(xue)習到通用的(de)視(shi)覺和(he)語言表示能力。

  2. 駕駛場景微調:使用智體科技自主規劃(hua)采(cai)集的用于訓(xun)練Robotaxi自動駕(jia)(jia)駛的高質量(liang)傳感器(qi)數(shu)據(ju)集ZTCVD(ZT City Vision Dataset) 對預(yu)訓(xun)練的 VLM      進行微(wei)調。微(wei)調階(jie)段(duan)的目(mu)標是使 VLM 適應Robotaxi自動駕(jia)(jia)駛場景,學習到(dao)駕(jia)(jia)駛相關的語義信息。

  • 自動(dong)駕駛數據(ju)集(ji)(ji)ZTCVD包(bao)含多(duo)個(ge)區(qu)域的(de)(de)(de)復(fu)雜城(cheng)(cheng)市(shi)道路上(shang)的(de)(de)(de)真(zhen)實(shi)測試場景(jing)。該數據(ju)集(ji)(ji)涵(han)蓋了從密集(ji)(ji)的(de)(de)(de)城(cheng)(cheng)市(shi)中(zhong)(zhong)心(xin)到郊區(qu)景(jing)觀(guan)的(de)(de)(de)各種環境。這個(ge)系列由不同(tong)的(de)(de)(de)駕駛條件組成,包(bao)括城(cheng)(cheng)市(shi)環境中(zhong)(zhong)經歷的(de)(de)(de)天(tian)氣(qi)、照(zhao)明、建(jian)筑和(he)交通條件的(de)(de)(de)季節變(bian)化(hua)。該數據(ju)集(ji)(ji)包(bao)含上(shang)千種駕駛片(pian)段,每一片(pian)段包(bao)含多(duo)達幾十秒的(de)(de)(de)連續駕駛畫面,數據(ju)集(ji)(ji)中(zhong)(zhong)的(de)(de)(de)車(che)輛、行(xing)人、自行(xing)車(che)、標(biao)識牌(pai)等圖像都(dou)經過(guo)精心(xin)標(biao)記,包(bao)含多(duo)個(ge)3D標(biao)簽和(he)2D標(biao)簽等。

  1. 強化學習:使用強(qiang)化(hua)學習(xi)(xi)算(suan)法對      VLM 和分(fen)層動態(tai)規劃(hua)(hua)模(mo)塊進(jin)行進(jin)一步訓練(lian),例如 Proximal Policy Optimization (PPO)、Soft      Actor-Critic (SAC) 等(deng)算(suan)法。強(qiang)化(hua)學習(xi)(xi)階(jie)段的(de)目(mu)標是使 VLM 和分(fen)層規劃(hua)(hua)模(mo)塊學習(xi)(xi)到最優的(de)駕(jia)駛策略,從而在復(fu)雜動態(tai)環境中實現安全高效的(de)自動駕(jia)駛[10]。

5. 實驗與結果

5.1 實驗設置

為(wei)了驗證RobotSense框架的有效(xiao)性,智體科技(ji)在多(duo)個復雜場景(jing)中進(jin)行(xing)了實驗,包括城市道路、高速公路和交叉路口等(deng)(deng),涵蓋(gai)了擁(yong)堵、稀(xi)疏、雨天(tian)和夜(ye)間等(deng)(deng)不同交通(tong)狀況(kuang)。實驗使用了nuScenes和Waymo Open Dataset等(deng)(deng)多(duo)模(mo)態數據集(ji)。

  • 實驗條件(jian):每組實驗均采用相同的(de)環境設置,保證公平對比。

  • 對比方法(fa)(fa):選擇傳(chuan)統(tong)分(fen)層規劃(hua)算(suan)法(fa)(fa)、標準端(duan)到端(duan)方法(fa)(fa)以(yi)及RobotSense框架進行對比分(fen)析。

5.2 評估指標

以下基于Robotaxi場景(jing)的評估指標(biao)用于全面衡量系(xi)統性能:

  • 路徑規劃誤差(cha):通過均方根誤差(cha)(RMSE)評估(gu)預測軌(gui)跡與真(zhen)實(shi)軌(gui)跡的偏(pian)差(cha)。

  • 碰撞(zhuang)率:統計車輛與動(dong)態目標發生碰撞(zhuang)的(de)比(bi)例(li)。

  • 乘(cheng)坐(zuo)舒(shu)適度:評估加速度和轉向角變化的(de)標準差,以(yi)衡(heng)量平穩性。

  • 遵守交通(tong)規(gui)(gui)則:通(tong)過交通(tong)規(gui)(gui)則違反次數,評(ping)估車輛對(dui)交通(tong)規(gui)(gui)則的(de)遵從程度(du)。

  • 任(ren)務完成率:衡量車輛是否成功(gong)到達目的地并避開(kai)障礙物。

5.3 實驗結果與分析

實驗結果表明(ming),RobotSense框架在多個(ge)關鍵指標上相較傳統方法有顯(xian)著提升(sheng):

  • 路徑規(gui)劃誤差(cha):誤差(cha)降低了40%,表明系統能夠更準確地生(sheng)成軌跡。

  • 碰撞率(lv):降低了45%,顯示出對復雜動態環境更好的適應能力。

  • 乘坐舒適(shi)度(du):平穩性提高(gao),加速度(du)和轉向角變(bian)化減(jian)少(shao)了約30%。

  • 遵守交通規則:違反次數較傳統(tong)方法減(jian)少了20%。

  • 任務完成(cheng)率(lv):任務成(cheng)功率(lv)達到(dao)98%,顯著優于傳(chuan)統方法的89%。

深入分析:

  1. 復雜(za)場景中的表現:RobotSense在交叉(cha)路口(kou)等高(gao)動態場景中的路徑選(xuan)擇更加靈活,得益于(yu)VLM模塊對(dui)環(huan)境的深度理解和HSARM的多級(ji)推理。

  2. 碰撞率(lv)降低的(de)原因:多模態(tai)(tai)融合(he)和分層動態(tai)(tai)規劃有效提升了(le)系統對周圍目標行為的(de)預測精度。

  3. 不足與挑戰:在(zai)極端天氣或(huo)罕(han)見場景下,框(kuang)架的泛化(hua)能力(li)仍(reng)需進(jin)一步優化(hua)。

6. 結論與展望

RobotSense自動駕駛決策框架以語義驅動的多模態融合方法為核心,結合分層動態規劃架構,開創了Robotaxi技術發展的全新路徑。通過將視覺-語言模型深度嵌入感知與決策流程,該框架不僅在路徑規劃精度、安全性和乘坐舒適度等方面實現了顯著突破,更在復雜動態城市交通場景中展現出卓越的適應性和魯棒性,為Robotaxi落地提供了強有力的技術支撐。實驗結果進一步證明了該框架在多模態感知、語義推理和軌跡優化等關鍵環節上的技術優勢,特別是其在交叉路口等高動態環境中的表現,充分驗證了多級語義推理模塊的創新價值。展望未來,RobotSense框架將在數據規模擴展、模型結構優化及未見場景的泛化能力提升等方面繼續迭代,進一步強化其在極端條件下的可靠性和實時響應能力。與此同時,通過引入輕量化設計與高效部署策略,該框架將更加契合實際應用場景對低延遲、高性能的要求。此外,隨著智能交通技術的進一步融合發展,RobotSense將作為關鍵支柱,與行業合作伙伴共同推動智慧交通生態的全面升級,助力構建高效、安全、可持續的智能出行新模式。作為聯想懂的通信AI生態核心合作伙伴,廣州智體科技將充分利用聯想懂的通信在AI和物聯網領域的技術優勢,秉承技術創新(xin)驅動發展的理念,繼續(xu)致力于探索和完(wan)善該框(kuang)架(jia),為(wei)Robotaxi行業樹(shu)立全新(xin)的技術標(biao)桿(gan)。

References

  • Hu, Peiyun, et al. "Safe local motion planning with self-supervised freespace forecasting." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

  • Jiang, Bo, et al. "Vad: Vectorized scene representation for efficient autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

  • Chitta, Kashyap, Aditya Prakash, and Andreas Geiger. "Neat: Neural attention fields for end-to-end autonomous driving." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

  • Jiang, Bo, et al. "Senna: Bridging large vision-language models and end-to-end autonomous driving." arXiv preprint arXiv:2410.22313 (2024).

  • Hafner, Danijar, et al. "Dream to control: Learning behaviors by latent imagination." arXiv preprint arXiv:1912.01603 (2019).

  • Hu, Anthony, et al. "Model-based imitation learning for urban driving." Advances in Neural Information Processing Systems 35 (2022): 20703-20716.

  • Khurana, Tarasha, et al. "Differentiable raycasting for self-supervised occupancy forecasting." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

  • Hu, Yihan, et al. "Planning-oriented autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

  • Wang, Yuqi, et al. "Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

  • Bojarski, Mariusz, et al. "Explaining how a deep neural network trained with end-to-end learning steers a car." arXiv preprint arXiv:1704.07911 (2017).


熱門文章
物聯網安全標簽計劃通過給符合相關網絡安全標準的物聯網產品賦予特有的標簽,粘貼在產品或包裝上,讓消費者能夠直觀地了解產品安全的信息,從而做出購買決策。物聯網安全標簽計劃源于海外多個國家,筆者在此前多篇推
2025-02-10
X