6月14日,騰訊Robotics X機器(qi)人實(shi)驗室公布了智能體研究的(de)最新進展,通過將前沿的(de)預訓練AI模型(xing)和強(qiang)化學(xue)習技術應(ying)用到機器(qi)人控制(zhi)領(ling)域,讓機器(qi)狗 Max 的(de)靈(ling)活性和自主(zhu)決(jue)策能力得到大幅提升。
讓(rang)機器(qi)狗像人和(he)動(dong)物(wu)一樣靈活且穩定的(de)運動(dong),是(shi)機器(qi)人研究領域長期追求(qiu)的(de)目(mu)標(biao),深度學(xue)習技術的(de)不斷進步,使得讓(rang)機器(qi)通(tong)過(guo)“學(xue)習”來掌(zhang)握相關能力(li),學(xue)會(hui)應(ying)對復雜多變的(de)環境變得可行。
引入預訓練和強化學習:讓機器狗更加靈動
騰訊Robotics X機器人實驗室通過(guo)引入預訓練(lian)模(mo)型和(he)強化學習(xi)技(ji)(ji)術,可以(yi)(yi)讓(rang)機器狗分階段進行學習(xi),有效的將不(bu)同階段的技(ji)(ji)能、知(zhi)(zhi)識積累并存儲下來,讓(rang)機器人在解決新(xin)的復(fu)雜(za)(za)任(ren)務時,不(bu)必重(zhong)新(xin)學習(xi),而是可以(yi)(yi)復(fu)用(yong)已(yi)經學會(hui)的姿態、環(huan)境感知(zhi)(zhi)、策略規劃多個層面的知(zhi)(zhi)識,進行“舉一反三”,靈(ling)活應對復(fu)雜(za)(za)環(huan)境。


這一系列的學習(xi)分為三個階段(duan):
第一(yi)(yi)階段(duan)通過游戲技術中常使用動(dong)作(zuo)(zuo)捕捉系(xi)統,研究員(yuan)收(shou)集(ji)真狗的(de)運(yun)動(dong)姿態(tai)數據,包括走、跑、跳(tiao)、站立等動(dong)作(zuo)(zuo),并(bing)利用這些(xie)(xie)(xie)數據,在(zai)仿真器中構建了一(yi)(yi)個模仿學習任務,再(zai)將這些(xie)(xie)(xie)數據中的(de)信(xin)息抽(chou)象并(bing)壓(ya)縮(suo)到(dao)深度神經網(wang)絡模型(xing)中。這些(xie)(xie)(xie)模型(xing)能(neng)夠非常準(zhun)確地涵蓋收(shou)集(ji)的(de)動(dong)物運(yun)動(dong)姿態(tai)信(xin)息,且具有一(yi)(yi)定的(de)可解釋性。
騰訊(xun)(xun)Robotics X機器人(ren)實(shi)驗室(shi)和騰訊(xun)(xun)游戲(xi)合作(zuo),用(yong)游戲(xi)技(ji)術提(ti)升(sheng)了(le)仿(fang)(fang)真引擎的準確和高效,同時(shi)游戲(xi)制作(zuo)和研發過程中積累(lei)了(le)多元的動捕素材。這些(xie)技(ji)術以及數據(ju)對基于物理仿(fang)(fang)真的智(zhi)能體訓練以及真實(shi)世界(jie)機器人(ren)策略部署起到了(le)一(yi)定(ding)的輔助作(zuo)用(yong)。



在模(mo)(mo)(mo)仿學習(xi)的過程中(zhong),神經網絡模(mo)(mo)(mo)型僅接收機(ji)器(qi)狗(gou)本體感知信(xin)息(xi)作為輸入(ru),例(li)(li)如機(ji)器(qi)狗(gou)身上電機(ji)狀態等。再下一步,模(mo)(mo)(mo)型引入(ru)周(zhou)邊環境的感知數據,例(li)(li)如可(ke)以通過其他傳感器(qi)“看到“腳下的障(zhang)礙物。
第二階段,通(tong)過額外(wai)(wai)的網絡參數來將第一(yi)階段掌握的機器(qi)狗靈動姿態與外(wai)(wai)界感知聯系在(zai)(zai)一(yi)起(qi),使得機器(qi)狗能夠通(tong)過已經學會的靈動姿態來應對外(wai)(wai)界環境。當機器(qi)狗適應了多種復雜的環境后,這(zhe)些將靈動姿態與外(wai)(wai)界感知聯系在(zai)(zai)一(yi)起(qi)的知識也(ye)會被(bei)固化下來,存(cun)在(zai)(zai)神經網絡結構(gou)中(zhong)。


第三階段(duan)(duan),利用上述兩(liang)個預訓(xun)練階段(duan)(duan)獲取(qu)(qu)的(de)(de)(de)神經網(wang)絡,機器狗才有前提和機會來聚(ju)焦解決最(zui)上層的(de)(de)(de)策(ce)略(lve)學(xue)習問(wen)題,最(zui)終具備端到端解決復雜的(de)(de)(de)任務的(de)(de)(de)能力。第三階段(duan)(duan)附加(jia)的(de)(de)(de)網(wang)絡會獲取(qu)(qu)與復雜任務有關的(de)(de)(de)信息(xi),例如(ru)在游戲中,獲取(qu)(qu)對手(shou)的(de)(de)(de)信息(xi)、旗(qi)子的(de)(de)(de)信息(xi)。此(ci)外(wai),通(tong)過綜合分析所(suo)有信息(xi),負責策(ce)略(lve)學(xue)習的(de)(de)(de)神經網(wang)絡會學(xue)習出(chu)針對任務的(de)(de)(de)高(gao)階策(ce)略(lve),例如(ru)往哪個方向跑動(dong),預判對手(shou)的(de)(de)(de)行為(wei)來決定是(shi)否繼續追(zhui)逐等(deng)等(deng)。
上述(shu)每一階段學習(xi)到的知識都可以(yi)擴充(chong)和調整,不(bu)需要(yao)重新(xin)學習(xi),因此可以(yi)不(bu)斷積累(lei),持(chi)續學習(xi)。
機器狗障礙追逐比賽 :擁有自主決策和控制能力
為(wei)了測試Max所掌握(wo)的(de)(de)這些新技能,研(yan)究員受到障礙(ai)追(zhui)(zhui)(zhui)逐(zhu)(zhu)比(bi)賽(sai)“World Chase Tag“的(de)(de)啟(qi)發,設計了一(yi)個雙(shuang)狗障礙(ai)追(zhui)(zhui)(zhui)逐(zhu)(zhu)的(de)(de)游(you)戲。World Chase Tag是一(yi)個競技性障礙(ai)追(zhui)(zhui)(zhui)逐(zhu)(zhu)賽(sai)組(zu)織(zhi),2014年(nian)創(chuang)立(li)于英國,由(you)民間兒童追(zhui)(zhui)(zhui)逐(zhu)(zhu)游(you)戲標準化而來。一(yi)般來說,障礙(ai)追(zhui)(zhui)(zhui)逐(zhu)(zhu)比(bi)賽(sai)每(mei)輪次由(you)兩(liang)名(ming)互為(wei)對(dui)(dui)手的(de)(de)運(yun)動員參加,一(yi)名(ming)是追(zhui)(zhui)(zhui)擊者(稱為(wei)攻方(fang)),一(yi)名(ming)是躲避者(稱為(wei)守方(fang)),當一(yi)名(ming)運(yun)動員在(zai)整個追(zhui)(zhui)(zhui)逐(zhu)(zhu)回合中(即(ji)20秒)成功(gong)躲避對(dui)(dui)手(即(ji)未(wei)發生觸碰)時,團隊將獲得一(yi)分。 在(zai)預定的(de)(de)追(zhui)(zhui)(zhui)逐(zhu)(zhu)回合數中得分最多(duo)的(de)(de)戰隊贏得比(bi)賽(sai)。
在機器狗障(zhang)礙(ai)(ai)追逐(zhu)比賽中,游(you)戲場地大小為4.5米(mi) x 4.5米(mi),其中散落(luo)著(zhu)一(yi)(yi)些障(zhang)礙(ai)(ai)物。游(you)戲起始(shi),兩個(ge)MAX機器狗會(hui)被放置(zhi)在場地中的(de)隨機位(wei)置(zhi),且隨機一(yi)(yi)個(ge)機器狗被賦予追擊者的(de)角色,另(ling)一(yi)(yi)個(ge)為躲(duo)避者,同(tong)時,場地中會(hui)在隨機位(wei)置(zhi)擺放一(yi)(yi)個(ge)旗子。
追擊者(zhe)的(de)(de)(de)任務是(shi)(shi)抓住(zhu)躲避(bi)(bi)者(zhe),躲避(bi)(bi)者(zhe)的(de)(de)(de)目的(de)(de)(de)則是(shi)(shi)在(zai)(zai)保證不被抓到的(de)(de)(de)前(qian)(qian)提下去接(jie)近(jin)旗子。如果躲避(bi)(bi)者(zhe)在(zai)(zai)被抓到之前(qian)(qian)成功觸碰(peng)到旗子,則兩(liang)個(ge)(ge)機(ji)(ji)器狗的(de)(de)(de)角(jiao)色會(hui)瞬間發生(sheng)互(hu)換,同時(shi)旗子會(hui)重新出現在(zai)(zai)另一個(ge)(ge)隨機(ji)(ji)的(de)(de)(de)位置。游戲(xi)最終的(de)(de)(de)結束條(tiao)件為當前(qian)(qian)的(de)(de)(de)追擊者(zhe)抓住(zhu)了躲避(bi)(bi)者(zhe),且當前(qian)(qian)為追擊者(zhe)角(jiao)色的(de)(de)(de)機(ji)(ji)器狗獲(huo)勝(sheng)。所(suo)有游戲(xi)過(guo)程中(zhong),兩(liang)個(ge)(ge)機(ji)(ji)器狗的(de)(de)(de)平均前(qian)(qian)向速度(du)被約束在(zai)(zai)0.5m/s。

從這個(ge)游戲看來,在基(ji)于預訓練好的(de)模型下,機器(qi)狗通過深度強(qiang)化學習,已經具(ju)備一定(ding)的(de)推理和決(jue)策能力:
比(bi)如,當追擊者(zhe)意識到自(zi)己在躲避者(zhe)碰(peng)到旗子(zi)之前已經無(wu)法追上它的時候,追擊者(zhe)就會放棄追擊,而是在遠(yuan)離躲避者(zhe)的位置(zhi)(zhi)徘徊,目的是為了等待(dai)下(xia)一個重置(zhi)(zhi)的旗子(zi)出現。

另外,當(dang)追擊者即將抓到躲(duo)避(bi)者的(de)(de)最后(hou)時刻,它喜歡跳起來向(xiang)著(zhu)躲(duo)避(bi)者做出一個"撲"的(de)(de)動作,非常類(lei)似動物捕捉獵物時候(hou)的(de)(de)行(xing)為(wei),或(huo)者躲(duo)避(bi)者在快要接觸旗子的(de)(de)時候(hou)也(ye)會表現出同(tong)樣的(de)(de)行(xing)為(wei)。這些都是機器(qi)狗(gou)為(wei)了確保自己的(de)(de)勝利采取的(de)(de)主動加速措施。
據介紹,游戲(xi)中機(ji)器(qi)(qi)狗(gou)(gou)的(de)所有控制策略都(dou)是神(shen)經網絡策略,在仿真(zhen)中進行(xing)學習并通過zero-shot transfer(零(ling)調整(zheng)遷移),讓神(shen)經網絡模(mo)擬人類的(de)推理方式,來識別從未見過的(de)新事物(wu)(wu),并把這些(xie)知識部(bu)署到(dao)真(zhen)實機(ji)器(qi)(qi)狗(gou)(gou)上(shang)。例(li)如下圖(tu)所示,機(ji)器(qi)(qi)狗(gou)(gou)在預訓(xun)練(lian)模(mo)型中學會的(de)躲避(bi)障礙(ai)物(wu)(wu)的(de)知識,被用(yong)在游戲(xi)中,即使帶有障礙(ai)物(wu)(wu)的(de)場(chang)景(jing)并未在Chase Tag Game的(de)虛擬世(shi)界進行(xing)訓(xun)練(lian)(虛擬世(shi)界中僅訓(xun)練(lian)了平地下的(de)游戲(xi)場(chang)景(jing)),機(ji)器(qi)(qi)狗(gou)(gou)也(ye)能(neng)順利(li)完(wan)成任務。

騰訊(xun)Robotics X機(ji)(ji)器(qi)(qi)人(ren)(ren)實驗室(shi)長期致(zhi)力于機(ji)(ji)器(qi)(qi)人(ren)(ren)前沿技(ji)術(shu)的(de)(de)研(yan)究(jiu),以此前在機(ji)(ji)器(qi)(qi)人(ren)(ren)本體、運動(dong)、控(kong)(kong)制領域等領先技(ji)術(shu)和積累為基(ji)礎(chu),研(yan)究(jiu)員們(men)也在嘗試將前沿的(de)(de)預(yu)訓練模型(xing)和深度強(qiang)化(hua)學(xue)習技(ji)術(shu)引入到機(ji)(ji)器(qi)(qi)人(ren)(ren)領域,提(ti)升機(ji)(ji)器(qi)(qi)人(ren)(ren)的(de)(de)控(kong)(kong)制能力,讓其更具靈活性,這也為機(ji)(ji)器(qi)(qi)人(ren)(ren)走入現實生活,服務人(ren)(ren)類打下了堅實的(de)(de)基(ji)礎(chu)。