谷歌旗下 DeepMind 表示,該公司已經開發出一種名為 RoboCat 的人工智能模(mo)(mo)型(xing),可以控制不同(tong)的(de)機(ji)器(qi)人(ren)手臂(bei)執行一系(xi)列任務(wu)。僅(jin)僅(jin)這一點并不特別新穎,但 DeepMind 聲稱,該模(mo)(mo)型(xing)是第一個能夠解(jie)決和適(shi)應(ying)多種任務(wu)的(de)模(mo)(mo)型(xing),并且使用不同(tong)的(de)、真實世界的(de)機(ji)器(qi)人(ren)來完成。
RoboCat 的(de)靈(ling)感(gan)來(lai)自(zi)于(yu) DeepMind 的(de)另一個 AI 模型(xing) Gato,后者(zhe)可以分析和(he)處理文本、圖像和(he)事件。RoboCat 的(de)訓練數據(ju)(ju)包括(kuo)模擬和(he)真實機器人的(de)圖像和(he)動作數據(ju)(ju),這(zhe)些數據(ju)(ju)來(lai)自(zi)于(yu)虛擬環境中的(de)其他機器人控(kong)制(zhi)模型(xing)、人類控(kong)制(zhi)的(de)機器人以及 RoboCat 自(zi)身的(de)前期版本。
DeepMind 的(de)(de)研究(jiu)科學家李(li)亞歷克斯(Alex Lee)是(shi) RoboCat 團(tuan)隊的(de)(de)合作者之一,他在接受 TechCrunch 郵件采訪(fang)時說:“我們證明了一個(ge)單一的(de)(de)大型(xing)模型(xing)可以在多個(ge)真實的(de)(de)機器人實體上解決多樣化的(de)(de)任(ren)務,并且可以快(kuai)速(su)地適應新(xin)的(de)(de)任(ren)務和實體。”
為了訓(xun)(xun)練(lian)(lian) RoboCat,DeepMind 的研(yan)究(jiu)人(ren)(ren)員首(shou)先使用人(ren)(ren)類控制的機(ji)械(xie)臂,在模擬(ni)或真(zhen)實環境中(zhong)收(shou)集了每(mei)個(ge)(ge)任務或機(ji)器人(ren)(ren)的 100 到 1000 次(ci)演(yan)示。例如,讓機(ji)械(xie)臂拾取齒輪(lun)或堆疊積木等。然(ran)后(hou),他(ta)們對 RoboCat 進行微調,在每(mei)個(ge)(ge)任務上創建一個(ge)(ge)專門的“衍生(sheng)”模型(xing),讓它平均練(lian)(lian)習(xi) 10000 次(ci)。通過利用衍生(sheng)模型(xing)生(sheng)成的數(shu)據和(he)演(yan)示數(shu)據,研(yan)究(jiu)人(ren)(ren)員不斷擴大 RoboCat 的訓(xun)(xun)練(lian)(lian)數(shu)據集,并(bing)訓(xun)(xun)練(lian)(lian)出新版(ban)本(ben)的 RoboCat。
最終版本的 RoboCat 在模擬和真實世界中,在總共 253 個任務上進行了訓練,并(bing)在這些(xie)任務的(de) 141 個(ge)變體(ti)上進(jin)行了(le)測試。DeepMind 聲稱,在觀察(cha)了(le)幾(ji)個(ge)小時內(nei)收集的(de) 1000 次人(ren)類控制的(de)演示后,RoboCat 學會了(le)操作不同(tong)類型的(de)機(ji)械(xie)臂。雖然(ran) RoboCat 已經在四種有兩爪(zhua)臂的(de)機(ji)器人(ren)上進(jin)行了(le)訓練,但該模型能夠適應一種更(geng)復雜的(de)有三指夾具(ju)和兩倍可控輸入的(de)機(ji)械(xie)臂。
盡管如此,RoboCat 在 DeepMind 的測試中,在不同任務上的成功率也有很大差異,從最低的 13% 到(dao)最高的 99% 不等。這是在訓練數據中有 1000 次演示的情況(kuang)下;如果演示次數減(jian)半(ban),成功率也會相應(ying)降低。不過,在某些情況(kuang)下,DeepMind 聲稱 RoboCat 只需(xu)要(yao)觀察 100 次演示就(jiu)能(neng)學習新任務(wu)。
李亞歷克斯認為(wei),RoboCat 可能會降(jiang)低解決(jue)新(xin)任務(wu)的(de)難度。“只要給出一定(ding)數量(liang)的(de)新(xin)任務(wu)演示,RoboCat 就可以微調到(dao)新(xin)任務(wu),并且可以自(zi)我生成(cheng)更多數據來進(jin)一步提高。”他補充說。
未來,研究團隊的目標是(shi)減少(shao)教(jiao)授 RoboCat 完(wan)成新任務所需的演示次數,使其少(shao)于 10 次。