麻(ma)省(sheng)理工學院(MIT)的(de)(de)研究人員公布了(le)首個開源模(mo)擬引(yin)擎,它能為可(ke)部署的(de)(de)自動(dong)駕駛汽(qi)車(che)的(de)(de)培(pei)訓和測試(shi)構建現實(shi)環境。由(you)于(yu)被證明(ming)是安(an)全嘗試(shi)危險駕駛場景的(de)(de)富(fu)有成效的(de)(de)試(shi)驗臺,超現實(shi)的(de)(de)虛(xu)擬世(shi)界已被譽為自動(dong)駕駛汽(qi)車(che)(AV)的(de)(de)最佳(jia)駕駛學校。
特(te)斯(si)拉、Waymo和其他自(zi)動駕(jia)駛公(gong)司都在很大程度上(shang)依(yi)靠數據來啟用(yong)昂(ang)貴的(de)專有逼真的(de)模擬器(qi),這是因為測(ce)試和收集細微的(de)數據通(tong)常(chang)不是最(zui)容易或最(zui)理想的(de)再(zai)現。

考慮到這一點,來自MIT計算機科學和人工智能實驗(yan)室(CSAIL)的(de)(de)科學家創建了“VISTA 2.0”--這是(shi)一(yi)個數據驅(qu)動的(de)(de)模擬(ni)引擎,車輛可以(yi)在(zai)現(xian)實世界中學習駕(jia)駛(shi)并(bing)從幾乎崩潰的(de)(de)情(qing)況下恢復。更(geng)重要的(de)(de)是(shi),所有(you)的(de)(de)代碼(ma)(ma)正在(zai)向公眾開(kai)放(fang)源代碼(ma)(ma)。
“今天,只有(you)公司擁有(you)像(xiang)VISTA 2.0這(zhe)種(zhong)類型的(de)模(mo)擬環境和(he)能力(li)的(de)軟(ruan)件(jian),而且這(zhe)種(zhong)軟(ruan)件(jian)是(shi)專有(you)的(de)。隨著(zhu)這(zhe)個版本的(de)發布,研究界將有(you)機會獲(huo)得(de)一個強大的(de)新(xin)工具從而以加速自動駕駛的(de)自適應穩健控制的(de)研究和(he)開發,”關于(yu)這(zhe)項研究的(de)論文的(de)資(zi)深(shen)作者、MIT教授(shou)和(he)CSAIL主任(ren)Daniela Rus說道。
VISTA 2.0建(jian)立(li)在該團隊以(yi)往開發的(de)(de)模型(xing)VISTA的(de)(de)基(ji)礎上,跟現有(you)AV模擬器有(you)根本(ben)的(de)(de)不同,因為它是(shi)數據驅動的(de)(de)。這意(yi)味著它是(shi)根據真實世界的(de)(de)數據建(jian)立(li)和(he)(he)逼(bi)真地渲染的(de)(de)--從而(er)能直(zhi)接轉移(yi)到現實中。雖然最初的(de)(de)迭代只支(zhi)持單(dan)車(che)跟車(che)和(he)(he)一個攝像頭傳感器,但要實現高保真數據驅動的(de)(de)模擬需要重新思考如何(he)合成不同的(de)(de)傳感器和(he)(he)行為互動的(de)(de)基(ji)礎。
進入VISTA 2.0:一個(ge)數(shu)據(ju)(ju)驅動(dong)的(de)系統,可以(yi)(yi)大規模地模擬(ni)復雜的(de)傳感器類型和(he)大規模的(de)互動(dong)場(chang)景和(he)交(jiao)叉口。通過使用比(bi)以(yi)(yi)前的(de)模型少得多的(de)數(shu)據(ju)(ju),該團隊能訓(xun)練自主車(che)輛,而(er)這些(xie)(xie)車(che)輛可能比(bi)那些(xie)(xie)在(zai)大量真實世界數(shu)據(ju)(ju)上訓(xun)練的(de)車(che)輛要強大得多。
CSAIL博士生Alexander Amini說道:“這是數(shu)據驅動的自主車(che)輛(liang)模擬(ni)能力的巨大飛躍,也是處理更大駕(jia)駛復雜性的規(gui)模和能力的增加。VISTA 2.0展示了(le)模擬(ni)傳感(gan)器(qi)數(shu)據的能力,遠遠超過了(le)二維(wei)(wei)RGB相機,還包括(kuo)具有數(shu)百萬點的極高維(wei)(wei)度三維(wei)(wei)激光雷達、不(bu)規(gui)則時間的基于事(shi)件(jian)的相機,甚(shen)至還包括(kuo)跟其他車(che)輛(liang)的互動和動態場景。”
科學家團隊能擴展諸如超車、跟車和談判等互動駕駛(shi)任務的復雜性,包括在高度(du)逼(bi)真(zhen)的環境中(zhong)的多代(dai)理場景。
因為(wei)大部分數(shu)據只(zhi)是(shi)日常駕駛,所以這為(wei)自動(dong)駕駛汽(qi)(qi)車訓練(lian)人工智能(neng)模型涉及(ji)難(nan)以保(bao)障的(de)不(bu)同種類的(de)邊緣案例和奇怪、危險的(de)場景。從邏輯上(shang)講(jiang),我們不(bu)能(neng)只(zhi)是(shi)為(wei)了教一個神經網絡(luo)如何不(bu)撞上(shang)其他汽(qi)(qi)車而撞上(shang)其他汽(qi)(qi)車。
最近,有一(yi)個(ge)轉(zhuan)變(bian)(bian)是,從更經典的(de)、由(you)人類設計(ji)的(de)模(mo)擬(ni)(ni)環境(jing)轉(zhuan)向由(you)真實世界的(de)數據(ju)建立的(de)模(mo)擬(ni)(ni)環境(jing)。后(hou)者(zhe)具有巨大的(de)逼真度(du),但前(qian)者(zhe)可以很容易地對虛擬(ni)(ni)攝(she)(she)像機(ji)和激光(guang)(guang)雷達進行建模(mo)。隨(sui)著這種(zhong)模(mo)式的(de)轉(zhuan)變(bian)(bian),出現(xian)了一(yi)個(ge)關鍵(jian)問題:自動駕駛汽車所需要的(de)所有傳感器的(de)豐富性和復(fu)雜性如激光(guang)(guang)雷達和基(ji)于事件的(de)攝(she)(she)像機(ji)都(dou)是比較(jiao)稀疏的(de)并能否準確地被合成?
在(zai)(zai)一個(ge)數據驅動的(de)(de)(de)(de)(de)(de)世界(jie)里(li),激光(guang)雷達傳感器數據更(geng)難解(jie)釋--你(ni)實際上是在(zai)(zai)試圖生成具有數百萬(wan)個(ge)點的(de)(de)(de)(de)(de)(de)全新的(de)(de)(de)(de)(de)(de)三(san)維點云(yun),而這一切只是從(cong)世界(jie)的(de)(de)(de)(de)(de)(de)稀疏視圖中(zhong)提取。為了合成三(san)維激光(guang)雷達點云(yun),研(yan)究人(ren)員使用了汽車(che)收集的(de)(de)(de)(de)(de)(de)數據并將(jiang)其投射到來自激光(guang)雷達數據的(de)(de)(de)(de)(de)(de)三(san)維空間,然后(hou)讓一個(ge)新的(de)(de)(de)(de)(de)(de)虛擬車(che)輛(liang)從(cong)原來的(de)(de)(de)(de)(de)(de)車(che)輛(liang)所(suo)(suo)在(zai)(zai)的(de)(de)(de)(de)(de)(de)地方開(kai)過去。最后(hou),他們在(zai)(zai)神經網絡的(de)(de)(de)(de)(de)(de)幫助下,將(jiang)所(suo)(suo)有的(de)(de)(de)(de)(de)(de)感官信息投射回這個(ge)新的(de)(de)(de)(de)(de)(de)虛擬車(che)輛(liang)的(de)(de)(de)(de)(de)(de)視野(ye)中(zhong)。
再加上(shang)基于事(shi)件(jian)的(de)攝像機的(de)模(mo)(mo)擬(ni)(ni),其運行速度(du)超過每秒數千次事(shi)件(jian),該(gai)模(mo)(mo)擬(ni)(ni)器不僅能模(mo)(mo)擬(ni)(ni)這種多(duo)模(mo)(mo)態(tai)信息而且還能夠實時進行模(mo)(mo)擬(ni)(ni)。這使得離(li)線(xian)(xian)訓練神經網絡成為可(ke)能,但(dan)也可(ke)以在(zai)增(zeng)強現(xian)實設置(zhi)中(zhong)對汽(qi)車進行在(zai)線(xian)(xian)測試以進行安(an)全評估。Amini說(shuo)道:“在(zai)數據驅動的(de)模(mo)(mo)擬(ni)(ni)領域,這種規模(mo)(mo)的(de)復(fu)雜性(xing)和逼真度(du)的(de)多(duo)傳感器模(mo)(mo)擬(ni)(ni)是(shi)否(fou)可(ke)能,則是(shi)一(yi)個非常開放的(de)問(wen)題。”
就這樣(yang),駕校變成了一(yi)個聚(ju)會(hui)。在模(mo)擬(ni)中(zhong)(zhong),你可以(yi)(yi)(yi)四處走動(dong),有不同類型的(de)控制(zhi)器,模(mo)擬(ni)不同類型的(de)事件,創(chuang)建(jian)互動(dong)場景(jing)(jing)(jing)并(bing)直接丟進甚至(zhi)不在原始數(shu)據中(zhong)(zhong)的(de)全新車(che)(che)輛。他(ta)們測試了車(che)(che)道跟蹤(zong)、車(che)(che)道轉彎、汽車(che)(che)跟蹤(zong)及更多棘手(shou)的(de)場景(jing)(jing)(jing)如靜態(tai)(tai)和動(dong)態(tai)(tai)超(chao)車(che)(che)。有了多機構(gou),真實的(de)和模(mo)擬(ni)的(de)代理人都可以(yi)(yi)(yi)互動(dong),新的(de)代理人可以(yi)(yi)(yi)被丟進場景(jing)(jing)(jing)并(bing)以(yi)(yi)(yi)任何方式控制(zhi)。
但現(xian)在人類(lei)(lei)依賴的一個護欄還不(bu)能(neng)被模擬,那就是人類(lei)(lei)的情感。這是友好的揮(hui)手、點頭或確認的眨眼(yan)開關,這是團(tuan)隊希(xi)望在未來工作(zuo)中實現(xian)的細微差別類(lei)(lei)型。
“這(zhe)(zhe)項研究(jiu)的(de)核心算(suan)法是(shi)我們(men)如(ru)何(he)能夠采取一(yi)個數(shu)據集并建立一(yi)個完全(quan)合成的(de)學(xue)習和自(zi)主(zhu)的(de)世界(jie)。這(zhe)(zhe)是(shi)一(yi)個平(ping)臺,我相信有(you)一(yi)天可(ke)(ke)以在(zai)整個機器(qi)人技(ji)術的(de)許多(duo)不(bu)同軸線上擴(kuo)展。不(bu)僅(jin)(jin)僅(jin)(jin)是(shi)自(zi)動駕(jia)駛,還有(you)許多(duo)依賴視覺和復(fu)雜行為(wei)的(de)領域(yu)。我們(men)很(hen)高興發布VISTA 2.0,以此來(lai)幫助社(she)區收集他(ta)們(men)自(zi)己的(de)數(shu)據集并將(jiang)其(qi)轉換為(wei)虛擬(ni)世界(jie),他(ta)們(men)可(ke)(ke)以直接(jie)模擬(ni)自(zi)己的(de)虛擬(ni)自(zi)主(zhu)車輛(liang),在(zai)這(zhe)(zhe)些虛擬(ni)地形(xing)上行駛,在(zai)這(zhe)(zhe)些世界(jie)中訓練自(zi)主(zhu)車輛(liang),然后(hou)可(ke)(ke)以直接(jie)轉移(yi)到全(quan)尺寸(cun)的(de)真正的(de)自(zi)動駕(jia)駛汽車,”Amini說(shuo)道。

