6月14日(ri),騰(teng)訊Robotics X機(ji)器人實驗室公(gong)布了智能(neng)(neng)體研究的(de)最新進(jin)展,通過將前沿的(de)預訓練AI模型和強化學習技(ji)術應用到機(ji)器人控制(zhi)領域,讓機(ji)器狗 Max 的(de)靈(ling)活性和自(zi)主決策能(neng)(neng)力(li)得到大幅提(ti)升。
讓機器(qi)狗像(xiang)人和動(dong)物(wu)一樣靈活(huo)且穩定(ding)的(de)(de)運動(dong),是機器(qi)人研(yan)究領域(yu)長期追求的(de)(de)目標,深度學習(xi)技術(shu)的(de)(de)不斷進步,使得(de)讓機器(qi)通過“學習(xi)”來(lai)掌握相關能力,學會應(ying)對復雜多變的(de)(de)環境變得(de)可行。
引入預訓練和強化學習:讓機器狗更加靈動
騰(teng)訊Robotics X機器(qi)人(ren)實驗室通(tong)過(guo)引入預訓練模型和強化(hua)學(xue)習(xi)技術,可(ke)以(yi)讓機器(qi)狗分階段進(jin)行(xing)學(xue)習(xi),有效的(de)將不同階段的(de)技能(neng)、知(zhi)(zhi)識(shi)積累并(bing)存儲下來,讓機器(qi)人(ren)在解決新的(de)復(fu)雜任務(wu)時(shi),不必重新學(xue)習(xi),而(er)是可(ke)以(yi)復(fu)用已經學(xue)會的(de)姿(zi)態、環境感知(zhi)(zhi)、策略規劃(hua)多個層面(mian)的(de)知(zhi)(zhi)識(shi),進(jin)行(xing)“舉一反三”,靈(ling)活應對(dui)復(fu)雜環境。
這一(yi)系列的學習分(fen)為(wei)三個(ge)階段:
第一(yi)(yi)(yi)階段通過游戲技術中常(chang)使用動作(zuo)捕捉系統,研究員收(shou)集真狗(gou)的運動姿態數(shu)據,包括走、跑、跳、站立等動作(zuo),并(bing)利用這(zhe)些數(shu)據,在仿(fang)真器中構建了一(yi)(yi)(yi)個模仿(fang)學習任(ren)務,再將(jiang)這(zhe)些數(shu)據中的信息抽象并(bing)壓縮(suo)到(dao)深度神(shen)經網絡模型中。這(zhe)些模型能夠非(fei)常(chang)準確地涵蓋收(shou)集的動物運動姿態信息,且具有一(yi)(yi)(yi)定(ding)的可解釋性。
騰(teng)訊Robotics X機(ji)(ji)器人實驗室(shi)和(he)(he)騰(teng)訊游(you)戲合作(zuo),用(yong)(yong)游(you)戲技(ji)術(shu)(shu)提升了仿(fang)真引擎的(de)(de)(de)準確(que)和(he)(he)高效,同時游(you)戲制作(zuo)和(he)(he)研發過程(cheng)中積累了多元的(de)(de)(de)動捕素材。這(zhe)些技(ji)術(shu)(shu)以及數據對(dui)基于物理仿(fang)真的(de)(de)(de)智(zhi)能體(ti)訓練(lian)以及真實世界機(ji)(ji)器人策略(lve)部署(shu)起(qi)到了一定的(de)(de)(de)輔助作(zuo)用(yong)(yong)。
在(zai)模仿學習的過(guo)程中,神經網絡(luo)模型僅接收(shou)機(ji)器狗本(ben)體感(gan)知信息(xi)作(zuo)為(wei)輸入,例(li)如機(ji)器狗身上電機(ji)狀態等。再下一步,模型引(yin)入周(zhou)邊(bian)環境的感(gan)知數據(ju),例(li)如可以通過(guo)其他傳(chuan)感(gan)器“看到“腳下的障礙物。
第(di)二階段,通(tong)過(guo)額外的(de)(de)(de)網(wang)(wang)絡參(can)數來將第(di)一階段掌握的(de)(de)(de)機器(qi)狗靈動姿(zi)態與(yu)外界感(gan)知聯系(xi)在(zai)(zai)一起(qi),使得(de)機器(qi)狗能夠通(tong)過(guo)已(yi)經學會的(de)(de)(de)靈動姿(zi)態來應對(dui)外界環境。當機器(qi)狗適應了(le)多(duo)種復(fu)雜(za)的(de)(de)(de)環境后(hou),這(zhe)些將靈動姿(zi)態與(yu)外界感(gan)知聯系(xi)在(zai)(zai)一起(qi)的(de)(de)(de)知識也會被固化(hua)下(xia)來,存(cun)在(zai)(zai)神經網(wang)(wang)絡結(jie)構中。
第(di)三(san)階(jie)段(duan),利(li)用上述兩個預訓練階(jie)段(duan)獲取(qu)的(de)神經網絡(luo)(luo),機器(qi)狗才有前提和機會來(lai)聚焦解(jie)(jie)決(jue)最上層(ceng)的(de)策略學(xue)(xue)習(xi)(xi)問題,最終具備端(duan)到端(duan)解(jie)(jie)決(jue)復雜的(de)任(ren)(ren)務的(de)能力。第(di)三(san)階(jie)段(duan)附加的(de)網絡(luo)(luo)會獲取(qu)與復雜任(ren)(ren)務有關的(de)信(xin)息,例(li)如在游戲中,獲取(qu)對(dui)手的(de)信(xin)息、旗子的(de)信(xin)息。此外,通過綜合分析所有信(xin)息,負責策略學(xue)(xue)習(xi)(xi)的(de)神經網絡(luo)(luo)會學(xue)(xue)習(xi)(xi)出針(zhen)對(dui)任(ren)(ren)務的(de)高階(jie)策略,例(li)如往哪個方向跑動,預判(pan)對(dui)手的(de)行為(wei)來(lai)決(jue)定是否繼續(xu)追逐等等。
上述每一階段學習(xi)到的知識都可以(yi)擴充和調整,不需(xu)要重新學習(xi),因此可以(yi)不斷積累,持續學習(xi)。
機器狗障礙追逐比賽 :擁有自主決策和控制能力
為(wei)了測試(shi)Max所掌握的(de)(de)這些新技(ji)(ji)能,研究員(yuan)受到障(zhang)(zhang)(zhang)礙(ai)追(zhui)逐比(bi)(bi)賽(sai)“World Chase Tag“的(de)(de)啟發,設計了一個雙狗障(zhang)(zhang)(zhang)礙(ai)追(zhui)逐的(de)(de)游戲。World Chase Tag是(shi)一個競(jing)技(ji)(ji)性障(zhang)(zhang)(zhang)礙(ai)追(zhui)逐賽(sai)組織,2014年創立于英國(guo),由民間兒童追(zhui)逐游戲標準(zhun)化而來(lai)。一般來(lai)說,障(zhang)(zhang)(zhang)礙(ai)追(zhui)逐比(bi)(bi)賽(sai)每輪(lun)次由兩名互為(wei)對(dui)手的(de)(de)運動員(yuan)參加,一名是(shi)追(zhui)擊者(稱為(wei)攻(gong)方),一名是(shi)躲避(bi)者(稱為(wei)守方),當一名運動員(yuan)在(zai)整個追(zhui)逐回合(he)中(即(ji)20秒)成(cheng)功躲避(bi)對(dui)手(即(ji)未(wei)發生觸碰)時(shi),團隊(dui)將獲得(de)(de)一分(fen)。 在(zai)預定的(de)(de)追(zhui)逐回合(he)數中得(de)(de)分(fen)最(zui)多(duo)的(de)(de)戰(zhan)隊(dui)贏得(de)(de)比(bi)(bi)賽(sai)。
在(zai)(zai)機(ji)器(qi)狗(gou)障礙(ai)追逐(zhu)比賽中(zhong),游(you)戲(xi)場(chang)地(di)大小為4.5米 x 4.5米,其中(zhong)散(san)落著一(yi)些(xie)障礙(ai)物。游(you)戲(xi)起始,兩個(ge)(ge)(ge)MAX機(ji)器(qi)狗(gou)會(hui)(hui)被放置在(zai)(zai)場(chang)地(di)中(zhong)的隨(sui)機(ji)位置,且隨(sui)機(ji)一(yi)個(ge)(ge)(ge)機(ji)器(qi)狗(gou)被賦予追擊者(zhe)(zhe)的角色,另一(yi)個(ge)(ge)(ge)為躲避者(zhe)(zhe),同(tong)時,場(chang)地(di)中(zhong)會(hui)(hui)在(zai)(zai)隨(sui)機(ji)位置擺放一(yi)個(ge)(ge)(ge)旗子。
追擊者的任務(wu)是(shi)(shi)抓(zhua)住(zhu)躲(duo)避(bi)者,躲(duo)避(bi)者的目的則是(shi)(shi)在(zai)(zai)保證(zheng)不(bu)被(bei)抓(zhua)到的前(qian)提下去接近旗(qi)子。如果躲(duo)避(bi)者在(zai)(zai)被(bei)抓(zhua)到之前(qian)成(cheng)功觸碰到旗(qi)子,則兩(liang)(liang)個機器狗的角色會(hui)瞬間發(fa)生(sheng)互換,同時(shi)旗(qi)子會(hui)重新(xin)出現(xian)在(zai)(zai)另一個隨機的位(wei)置。游戲(xi)最終(zhong)的結束(shu)(shu)條件為當(dang)前(qian)的追擊者抓(zhua)住(zhu)了(le)躲(duo)避(bi)者,且當(dang)前(qian)為追擊者角色的機器狗獲勝。所有游戲(xi)過(guo)程中(zhong),兩(liang)(liang)個機器狗的平均前(qian)向速(su)度被(bei)約(yue)束(shu)(shu)在(zai)(zai)0.5m/s。
從這個游戲看(kan)來,在(zai)基于預訓(xun)練好的(de)模(mo)型下,機(ji)器(qi)狗通過深度強(qiang)化學習,已(yi)經具備一定的(de)推(tui)理和決策能(neng)力:
比如,當(dang)追(zhui)擊者意識(shi)到(dao)自己在(zai)躲避者碰到(dao)旗子之前(qian)已經(jing)無(wu)法(fa)追(zhui)上它的(de)(de)時候,追(zhui)擊者就會放棄追(zhui)擊,而是(shi)在(zai)遠(yuan)離躲避者的(de)(de)位置徘徊,目的(de)(de)是(shi)為了等待下一個(ge)重置的(de)(de)旗子出現(xian)。
另(ling)外(wai),當追擊者即將抓到(dao)躲避者的(de)(de)最后時(shi)刻,它喜歡跳起(qi)來向著躲避者做(zuo)出一個"撲"的(de)(de)動(dong)作,非常類似動(dong)物(wu)捕捉獵(lie)物(wu)時(shi)候的(de)(de)行為,或者躲避者在快要接觸(chu)旗子的(de)(de)時(shi)候也(ye)會表(biao)現出同樣(yang)的(de)(de)行為。這些都是機器狗為了確保自己的(de)(de)勝(sheng)利采取(qu)的(de)(de)主動(dong)加速措施。
據(ju)介紹,游(you)戲中(zhong)(zhong)機器狗的(de)(de)所(suo)有(you)(you)控制策(ce)略都是神經網絡(luo)策(ce)略,在仿真中(zhong)(zhong)進(jin)(jin)行(xing)學習并(bing)通過zero-shot transfer(零調整遷(qian)移),讓神經網絡(luo)模(mo)擬人類(lei)的(de)(de)推理方式,來識別(bie)從(cong)未見(jian)過的(de)(de)新(xin)事物,并(bing)把這些知(zhi)(zhi)識部署到(dao)真實機器狗上。例如下(xia)圖所(suo)示,機器狗在預訓(xun)練(lian)模(mo)型中(zhong)(zhong)學會的(de)(de)躲(duo)避(bi)障礙物的(de)(de)知(zhi)(zhi)識,被用在游(you)戲中(zhong)(zhong),即(ji)使帶有(you)(you)障礙物的(de)(de)場景并(bing)未在Chase Tag Game的(de)(de)虛擬世界進(jin)(jin)行(xing)訓(xun)練(lian)(虛擬世界中(zhong)(zhong)僅訓(xun)練(lian)了(le)平地下(xia)的(de)(de)游(you)戲場景),機器狗也能順利完成任務。
騰訊Robotics X機(ji)器(qi)(qi)人(ren)(ren)實(shi)(shi)(shi)驗室(shi)長(chang)期致(zhi)力(li)于機(ji)器(qi)(qi)人(ren)(ren)前沿(yan)技術(shu)的研究,以此前在(zai)機(ji)器(qi)(qi)人(ren)(ren)本體、運(yun)動、控制(zhi)領(ling)域等領(ling)先(xian)技術(shu)和積累為(wei)基(ji)礎,研究員們也在(zai)嘗試(shi)將前沿(yan)的預訓練模型(xing)和深度強化學(xue)習(xi)技術(shu)引入(ru)到機(ji)器(qi)(qi)人(ren)(ren)領(ling)域,提升機(ji)器(qi)(qi)人(ren)(ren)的控制(zhi)能力(li),讓其更(geng)具靈活性,這也為(wei)機(ji)器(qi)(qi)人(ren)(ren)走入(ru)現(xian)實(shi)(shi)(shi)生活,服(fu)務人(ren)(ren)類打下了堅實(shi)(shi)(shi)的基(ji)礎。