不久前(qian),國內機器(qi)人(ren)公(gong)司宇樹科(ke)技在其官方公(gong)眾號推(tui)送了(le)一篇名(ming)為《Unitree G1 人(ren)形(xing)智能體 AI化身 ¥9.9萬元(yuan)起》的(de)文章,宣布(bu)其推(tui)出了(le)一款9.9萬的(de)人(ren)形(xing)智能機器(qi)人(ren)。十萬不到的(de)價格(ge),瞬間讓人(ren)有一種(zhong)科(ke)幻(huan)馬(ma)上就要照進現實的(de)既視感(gan)。
盡(jin)管2024年的進度條走了還不(bu)到一半,但有關人形機(ji)器人的炸(zha)場消息(xi)卻是接連不(bu)斷。
先是(shi)英(ying)偉(wei)達(da)CEO黃仁勛在其3月(yue)份召(zhao)開(kai)的GPU技術(shu)大會上與(yu)9款(kuan)人形(xing)(xing)機(ji)器(qi)人同臺(tai),接著宣(xuan)布英(ying)偉(wei)達(da)將開(kai)啟(qi)人形(xing)(xing)機(ji)器(qi)人通用基(ji)礎模型(xing)GR00T項(xiang)目,用新GPU為人形(xing)(xing)機(ji)器(qi)人智能化提供算力支撐。引發了(le)一陣(zhen)關于具身智能的熱議。
一個(ge)月后,老牌機器人(ren)(ren)公司波士頓動力宣(xuan)布旗下傳統的液壓式(shi)人(ren)(ren)形機器人(ren)(ren)退役,并推出(chu)其全新(xin)研發的全電動Atlas機器人(ren)(ren)。又掀起了(le)一波關于人(ren)(ren)形機器人(ren)(ren)發展過往的追憶熱潮。
5月初(chu),特斯(si)拉(la)發(fa)布(bu)了一段展現其人形機(ji)器人Optimus(擎天柱(zhu))的視(shi)頻。視(shi)頻中(zhong),有(you)(you)的機(ji)器人在(zai)拾取電池(chi)芯并將它們準確插入到對應的托(tuo)盤中(zhong),還有(you)(you)機(ji)器人在(zai)進行其他物品的擺放和衣物折疊(die)等操作(zuo)。
緊接(jie)著就是上文提(ti)到的(de),宇(yu)樹科技祭出了9.9萬的(de)價格(ge)大招。
看到如(ru)此一(yi)系列密(mi)集的大事件(jian),很難讓人不產生(sheng)一(yi)種(zhong)人形機(ji)器人的春天已經來(lai)臨(lin)的幻覺,也(ye)難怪有人會高呼“2024年是人形機(ji)器人元(yuan)年”。
到今(jin)天,人形機器人經歷(li)了怎樣的發展歷(li)程(cheng)?為什(shen)么大家突然又對其展現出如此大的熱情?在這(zhe)些(xie)歡呼的背后(hou),人形機器人的發展還面(mian)臨(lin)哪些(xie)問(wen)題(ti)?本文將就這(zhe)些(xie)議題(ti)展開討(tao)論(lun)。
根據控制論的觀點,非生命體具備智能的一個關鍵表現,就是其能夠和生命體一樣對周遭復雜環境進行主動感知,并作出合理反應。這需要至少三個要素(su)的支撐(cheng):感覺要素(su)、運(yun)動要素(su)和思考要素(su)。
如(ru)果從這個視角出發(fa),第一(yi)臺稱得上(shang)人(ren)形智(zhi)能(neng)機器(qi)人(ren)的(de)(de)產品,是早稻田大學在1972年推(tui)出的(de)(de)WABOT-1。這款機器(qi)人(ren)在不(bu)用(yong)(yong)人(ren)類時刻操縱的(de)(de)情況下,可(ke)(ke)以實(shi)現(xian)自主(zhu)(zhu)行走、抓取物體、用(yong)(yong)日語交流等(deng)行為。通過各類傳(chuan)感(gan)器(qi),這款機器(qi)人(ren)擁(yong)有一(yi)定程(cheng)度的(de)(de)視覺(jue)、聽覺(jue)和觸(chu)覺(jue),可(ke)(ke)以感(gan)知周圍的(de)(de)狀況,并主(zhu)(zhu)動調整自己的(de)(de)動作。
事實上,在波士頓動力和特斯拉站在聚光燈前的日(ri)子里,人形機(ji)器人領(ling)域主要由日(ri)本的機(ji)構(gou)和企(qi)業引領(ling)。
1984年,WABOT-1的升級版WABOT-2被(bei)推出。它被(bei)設定為(wei)一款音樂(le)(le)(le)機(ji)器人,可以識(shi)別樂(le)(le)(le)譜(pu),并根據樂(le)(le)(le)譜(pu)彈奏風琴(qin)等(deng)樂(le)(le)(le)器。
與此同(tong)時,工業巨頭本田也進入了(le)(le)這一(yi)賽(sai)道,并在(zai)2000年推出(chu)了(le)(le)以著名科幻作家命名的阿西(xi)莫(ASIMO)機器人(ren)。這是一(yi)款(kuan)具備奔跑(pao)、跳躍(yue)等多項運動能力,還可以通過視覺(jue)、聽覺(jue)感應器規劃路線(xian),給人(ren)端(duan)茶(cha)倒(dao)水(shui)、表演舞蹈,并能夠用語(yu)音和手語(yu)跟人(ren)交流(liu)的機器人(ren)。
此后(hou),追光燈便打到(dao)了(le)北美的舞臺。
先是波士(shi)頓動力(li)在(zai)2013年推出原型機(ji),并于2016年正式(shi)發布(bu),可(ke)以(yi)實現跑酷(ku)、后空翻、側滾(gun)翻、前滾(gun)翻、180度(du)(du)空中轉體(ti)、空中劈叉、360度(du)(du)空中轉體(ti)等(deng)高難度(du)(du)動作,還能(neng)在(zai)復雜(za)的野外(wai)環(huan)境中自主完(wan)成(cheng)各種任務的Atlas機(ji)器(qi)人(ren),長期引領著(zhu)人(ren)形機(ji)器(qi)人(ren)的話(hua)題(ti)榜。
接著,在2021年的特斯拉AI Day上,馬斯克通過幻燈片發布了一款概念人形機器人Tesla Bot,將人形機器人的發展帶入了一條新賽道——從過去更加關注軀體的發展,轉向如何讓其擁有更強的通用智能。
人(ren)形機(ji)器人(ren)的發展(zhan)并非(fei)一(yi)帆風順(shun)。
由于其研發成本和造價太高,同時又找不到合適的應用場景,使得該領域始終無法實現商業閉環。本田在2018年就停止了(le)機(ji)器人研發業(ye)務,而波士頓動(dong)力更是(shi)幾經易手,從谷歌到軟銀再到現(xian)代,命(ming)途坎坷。商(shang)業(ye)模(mo)式的不(bu)明朗(lang),讓(rang)人們一度對這個賽道(dao)的熱(re)情降至了(le)冰點。
之所以人們在2024年又開啟了對人形機器人的熱情,主要原因來自成本的推力和技術的拉力。
首先是大語言模型技術的突破性發展,讓人們看到了人形(xing)機(ji)器人向(xiang)(xiang)通用(yong)性方向(xiang)(xiang)發(fa)展(zhan)的(de)可能性。過(guo)去的(de)機(ji)器人需要通過(guo)編程告訴它們執(zhi)行什么任(ren)(ren)務(wu)和(he)怎樣執(zhi)行任(ren)(ren)務(wu),沒法實現(xian)編碼之(zhi)外的(de)感(gan)知與行為,這也大幅限(xian)制(zhi)了其應用(yong)場景。而大語言(yan)模型技術的(de)發(fa)展(zhan),一(yi)方面讓人機(ji)交互(hu)變得更(geng)加(jia)簡單,另(ling)一(yi)方面也有望實現(xian)反應層面的(de)涌(yong)現(xian)與泛化,通過(guo)自主學習(xi)完成那(nei)些“意(yi)料之(zhi)外”的(de)工作(zuo)。
其次,就是新能源汽車等行業的發展,讓一些人形機器人的關鍵零部件的價格持續下跌,進而讓人(ren)(ren)形機器人(ren)(ren)整體的(de)成(cheng)本下降成(cheng)為了可能(neng)。
過去,一臺人(ren)(ren)形機器(qi)(qi)人(ren)(ren)的(de)價(jia)格動輒在100萬人(ren)(ren)民(min)幣以上。但近(jin)期(qi),市場上陸續出(chu)現(xian)了(le)一批單價(jia)價(jia)格帶在15到20萬之間的(de)人(ren)(ren)形機器(qi)(qi)人(ren)(ren),斯(si)坦(tan)福(fu)機器(qi)(qi)人(ren)(ren)、特斯(si)拉(la)、國內(nei)的(de)智元(yuan)機器(qi)(qi)人(ren)(ren)等都先后(hou)表態會將成本控制在20萬以內(nei),價(jia)格下(xia)探成為必(bi)然趨勢。
盡(jin)管(guan)如此,人形(xing)機器人要在智能化和市場化方面(mian)實現(xian)突破,依舊有一段(duan)遠路要走(zou)。
上世紀80年代,人工智能學者漢斯·莫拉維克、羅德尼·布魯克斯、馬文·閔斯基等人發現,與傳統假設不同,人類所獨有的高階智慧能力只需要非常少的計算能力,例如推理,但是無意識的技能和直覺卻需要極大的運算能力,并據此提出了著名的莫拉維克悖論。
以(yi)曾經在(zai)圍棋領(ling)域(yu)大(da)殺四方(fang)的AlphaGo為(wei)例。
盡管其(qi)圍棋(qi)能力領先到令人恐怖的程度(du),但(dan)是(shi)(shi)嚴格意(yi)義上講它不是(shi)(shi)一(yi)個(ge)完整的棋(qi)手(shou)(shou),只是(shi)(shi)一(yi)個(ge)棋(qi)手(shou)(shou)的大腦部(bu)分,負責(ze)識(shi)別(bie)局勢、做(zuo)出決策(ce),而充當(dang)這個(ge)棋(qi)手(shou)(shou)軀體的其(qi)實是(shi)(shi)一(yi)個(ge)人類棋(qi)手(shou)(shou)。AlphaGo根據對(dui)手(shou)(shou)的招數給(gei)出應對(dui)后,需(xu)要一(yi)個(ge)專門的人類棋(qi)手(shou)(shou)去(qu)移動(dong)棋(qi)子。
我們常常會忽略(lve)這一點,是(shi)(shi)(shi)因為在(zai)我們的(de)(de)認知(zhi)習慣中,移(yi)動(dong)(dong)棋(qi)子是(shi)(shi)(shi)一個再簡單不過的(de)(de)操作(zuo),在(zai)整個對弈(yi)過程(cheng)中,與高(gao)深莫測的(de)(de)下棋(qi)策略(lve)相比(bi),這個動(dong)(dong)作(zuo)簡單到可(ke)以忽略(lve)的(de)(de)程(cheng)度。但正是(shi)(shi)(shi)這種(zhong)對人類(lei)而言無比(bi)簡單的(de)(de)動(dong)(dong)作(zuo),恰(qia)(qia)恰(qia)(qia)是(shi)(shi)(shi)智能機器面臨的(de)(de)最大挑戰。
一個完整的對弈過程,其實是多重能力共同驅動的結果,既需要感知、判斷、分析和決策這些大腦功能,也需要移動和操作這樣的軀體功能。由于我們本能地對人類引以為傲的智力的重視,使得我們在相當長的一段時間里都只關注機器的智能,而沒有將其視為一個完整的、獨立的物種去看待。
隨著應用(yong)場景的拓(tuo)寬(kuan)和(he)(he)豐富,我們才逐(zhu)漸(jian)意識到(dao),在腦力(li)上能(neng)夠(gou)戰勝頂尖圍棋手(shou)的智能(neng)機(ji)器,在運(yun)動協調性上可(ke)能(neng)還不如(ru)一個小(xiao)孩子。并不是(shi)說(shuo)機(ji)器在單純(chun)的運(yun)動和(he)(he)操作方面不如(ru)人類,機(ji)器可(ke)以(yi)搬(ban)運(yun)很重(zhong)的東西,也能(neng)以(yi)讓人類望(wang)塵(chen)莫(mo)及的速度移動,但是(shi)它們無法像人類那樣自如(ru)地(di)協調好智能(neng)模塊和(he)(he)體能(neng)模塊。
著名認知心理學家史迪芬·平克在其《語言本能》一書中對此評價道:“經過35年人工智能的研究,發現到最重要的課題是‘困難的問題是易解的,簡單的問題是難解的’。四歲小孩具有的(de)本能——辨(bian)識人臉、舉起鉛筆(bi)、在房間內走動、回答問(wen)題(ti)——事(shi)實上(shang)是工程領(ling)域內目前(qian)為(wei)止最難解的(de)問(wen)題(ti)。當新(xin)一代(dai)(dai)的(de)智(zhi)慧裝(zhuang)置(zhi)出(chu)現,股票分析(xi)師、石化(hua)工程師和(he)假釋委員會(hui)都要(yao)小心(xin)他們(men)的(de)位(wei)置(zhi)被(bei)取(qu)代(dai)(dai),但(dan)是園丁、接待(dai)員和(he)廚(chu)師至少十年(nian)內都不(bu)用擔心(xin)被(bei)人工智(zhi)能所(suo)取(qu)代(dai)(dai)。”
盡管大(da)語言模型的(de)突破(po)為人(ren)形智能機(ji)(ji)器(qi)人(ren)的(de)發展帶來了(le)新曙光,但是(shi)人(ren)形機(ji)(ji)器(qi)人(ren)要實現“大(da)腦(nao)”和“機(ji)(ji)體”之間的(de)順(shun)暢銜(xian)接和絲滑運作(zuo),依舊是(shi)一(yi)段漫(man)長而艱(jian)辛(xin)的(de)道路,需要不同領域的(de)參與方共同努(nu)力(li)推進。
除(chu)了技(ji)術方面(mian)的(de)障礙(ai),價(jia)格也是(shi)一個問題。
在技術傳播理論中,有一個概念叫價格價值(Price Value),指消費(fei)(fei)者在(zai)權衡技(ji)術(shu)產品或服務的(de)感知收益與其(qi)感知成本后,所形(xing)成的(de)總體評價。簡(jian)單(dan)來說,就是消費(fei)(fei)者認為購買或使用某項技(ji)術(shu)所花費(fei)(fei)的(de)金錢是否值(zhi)得。
所以,一個產品是否便宜,不是單方面價格因素決定的,而與消費者的感受有很強的關系。
如(ru)果單純從(cong)廠家的角度來看(kan),一臺機器人,我從(cong)過去的100萬(wan)、50萬(wan)降到了9.9萬(wan),這種(zhong)骨折式降價的努力不可謂不大(da)。但是(shi)回到顧(gu)客這邊,我花9.9萬(wan)買(mai)(mai)個(ge)東西,總得為個(ge)什么。顧(gu)客看(kan)重(zhong)的,還是(shi)我買(mai)(mai)它過來能干什么,如(ru)果只是(shi)看(kan)它翻跟頭、走路、拿放東西,那多少(shao)有點不值(zhi)當。
當然,肯定會有一些燒包樂意花錢(qian)買(mai)個(ge)新鮮、炫個(ge)闊綽。但是僅靠這(zhe)些人(ren)撐不起一個(ge)大市場,無法形成(cheng)真正的商(shang)業閉環。
所以,人(ren)形(xing)智能機器人(ren)要解決的(de)第二個問題,就是如何讓它們真正能夠在(zai)人(ren)類社會發(fa)揮(hui)價值。相關企業(ye)需(xu)要把自己克服的(de)技術障礙轉換成真正的(de)客戶收益。
如果從這個角度看,我們需要的或許不是人一樣的機器,而是能夠代替人的機器。
波士頓動力的首席技術(shu)官(guan)阿(a)龍·桑德斯(Aaron Saunders)在一次采訪中表(biao)示:人形(xing)并不一定是機(ji)器人完成任務最好的形(xing)態。
從上世紀80年代開始,機器人領域就形成了一種共識——機器人應該最先應用在“4D”領域,即臟(Dirty)、危險(Dangerous)、乏味(Dull)和困難(Difficult)四類場景。這些(xie)場(chang)景下的任務(wu)(wu)通(tong)常是人(ren)類不(bu)(bu)愿意或不(bu)(bu)適(shi)合執行的,而(er)機器(qi)(qi)人(ren)因其不(bu)(bu)知(zhi)疲倦和(he)不(bu)(bu)怕危險的特性,能(neng)夠很(hen)好地完成。通(tong)過讓機器(qi)(qi)人(ren)承擔4D場(chang)景下的任務(wu)(wu),不(bu)(bu)僅可以提高(gao)效率(lv)和(he)安全性,還能(neng)釋(shi)放人(ren)類從事更具創造性和(he)價(jia)值的工作。
相(xiang)比于(yu)還(huan)停(ting)留(liu)在把機器人當小孩子(zi),讓(rang)它們給“長輩(bei)”表演一些華而(er)不(bu)實的節目(mu)階段的人形機器人,一些擺脫了外形桎(zhi)梏,奔著問(wen)題和任務去的公司(si),已經(jing)開始讓(rang)自己的機器人產品在對應的場(chang)景中發揮價值(zhi)。
就在(zai)(zai)宇樹科(ke)技發布(bu)9.9萬機器人的(de)(de)第(di)(di)二天,全球第(di)(di)一商業和金融媒(mei)體CNBC公(gong)(gong)布(bu)了第(di)(di)12屆(jie)“2024 CNBC Disruptor 50”榜單。在(zai)(zai)這一被譽為全球科(ke)技獨角獸的(de)(de)搖籃的(de)(de)榜單上(shang),OpenAI毫無懸(xuan)念位列(lie)第(di)(di)一,榜單上(shang)排名第(di)(di)42位的(de)(de),是一家名為Gecko Robotics的(de)(de)機器人公(gong)(gong)司。
這(zhe)是一家成(cheng)立于2013年的(de)公司,兩個創(chuang)始人當年還是格羅(luo)夫城市學院(yuan)學習電(dian)氣工程的(de)學生。創(chuang)業之前他們參(can)與了一項校內鍋爐安全(quan)檢查的(de)工程項目(mu),最后以在該項目(mu)中發明的(de)方案為基(ji)礎(chu),創(chuang)立了這(zhe)家公司。
Gecko Robotics的(de)(de)(de)主(zhu)要產品是名(ming)為(wei)TOKA的(de)(de)(de)智(zhi)能機(ji)(ji)器人,該機(ji)(ji)器人有多款型號,配備(bei)不同數量超聲(sheng)波(bo)傳感(gan)器的(de)(de)(de)它們,可(ke)(ke)以(yi)爬上工廠的(de)(de)(de)任意管(guan)道和其(qi)他(ta)重要的(de)(de)(de)工業結(jie)構(gou)墻壁(bi),對油管(guan)、鍋爐或者其(qi)他(ta)設備(bei)進行超聲(sheng)波(bo)檢(jian)測,然后通過其(qi)自主(zhu)研(yan)發的(de)(de)(de)快速超聲(sheng)波(bo)網(wang)格化(hua)技術生成(cheng)厚度網(wang)格圖,并以(yi)2D 和 3D 形式直觀地展示(shi)在軟(ruan)件中,用于識別(bie)腐蝕(shi)和其(qi)他(ta)損壞機(ji)(ji)制導致(zhi)壁(bi)層變薄(bo)的(de)(de)(de)區域,可(ke)(ke)以(yi)讓(rang)客戶對目標設施的(de)(de)(de)情況了如指掌(zhang),提前預(yu)判存在的(de)(de)(de)問題并計劃解決措施。
在這種(zhong)(zhong)機器(qi)(qi)(qi)人出現之前,設備檢測通常(chang)是專(zhuan)業人員(yuan)(yuan)手持超聲波探測器(qi)(qi)(qi)進(jin)行的(de)(de)。這種(zhong)(zhong)方式(shi)首先(xian)是很危險(xian),因為存在一些高空作(zuo)業場(chang)景和有(you)(you)毒有(you)(you)害場(chang)景;其次是用這種(zhong)(zhong)方式(shi)探測到的(de)(de)范圍(wei)和數據(ju)量(liang)都極為有(you)(you)限,通常(chang)只(zhi)能覆蓋(gai)占整體大約 3-5% 的(de)(de)設施(shi)。而(er)這種(zhong)(zhong)全新(xin)的(de)(de)機器(qi)(qi)(qi)人可(ke)以在最危險(xian)和苛刻的(de)(de)環(huan)境中運行,能夠提供近99%的(de)(de)覆蓋(gai),收集的(de)(de)數據(ju)量(liang)比傳統(tong)手持方法(fa)高 1000 倍,檢測的(de)(de)速(su)度(du)平均(jun)快 10 倍。機器(qi)(qi)(qi)人完成數據(ju)采集后,將收集到的(de)(de)數據(ju)提供給專(zhuan)業人員(yuan)(yuan),最大限度(du)地發(fa)揮專(zhuan)家貢獻(xian)的(de)(de)同(tong)時還能讓他們免(mian)受(shou)傷害。
Gecko Robotics首席執行官兼聯(lian)合(he)創始人Jake Loosararian曾(ceng)自豪地表示:“每天,在(zai)(zai)世界各(ge)地的(de)(de)數百個客戶站點,我們的(de)(de)機器(qi)人正在(zai)(zai)保持發電廠(chang)在(zai)(zai)線、軍事資產準備(bei)就緒和工(gong)廠(chang)大門打開。”
在筆者看來,這才是機器(qi)人真正應該奔赴(fu)的方向。
人形機器人正在迎來一個快速發展的新階段,我們應該為其已經取得的突破性進展感到高興,卻又不能高興得太早。盡管理論的道路已經鋪就,但是在實踐層面我們依舊處于起點階段。人形機器人要突破的,除了技術堵點和成本阻(zu)礙外,還要面(mian)臨客(ke)戶價格(ge)價值感受的問題(ti)。
企業讓(rang)機(ji)器人(ren)越來(lai)越像人(ren),越來(lai)越智能(neng)(neng),只是(shi)這(zhe)個故(gu)事的(de)(de)一(yi)(yi)面,這(zhe)個故(gu)事的(de)(de)推(tui)進(jin)還(huan)需要解決另一(yi)(yi)個問題,就是(shi)我們絕不是(shi)要造(zao)出一(yi)(yi)臺臺跟我們擁(yong)有類似能(neng)(neng)力的(de)(de)機(ji)器,而是(shi)要創造(zao)出一(yi)(yi)款(kuan)款(kuan)能(neng)(neng)夠在具(ju)體應用場景下比(bi)人(ren)類能(neng)(neng)產生更大價值,同時(shi)成本更低的(de)(de)產品。