国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

MIT研究人員發明可以用聲音模擬世界的人工智能系統
作者 | cnBeta2022-11-01

計算機視覺是一個在過去幾十年中被研究得相當多的領域,主要是因為它在建造自動駕駛汽車和其他可以像人類一樣"看"世界的工具方面有著直接和明顯的應用。然而,直到最近才看到這種水平的研究的一個領域是使用聲音而不是視覺來模擬環境。現在,麻省理工學院(MIT)的研究人員已經撰寫了一篇研究論文,涉及在這一領域訓練的機器學習(ML)模型的構建。

麻省理工學院新聞網站上的一篇博文介紹說,MIT-IBM沃森人工智能實驗室合(he)作建立了(le)一個ML模型,利用空間(jian)聲學來(lai)觀察和模擬環(huan)境。簡(jian)單地說,這個模型通(tong)過弄清聽眾(zhong)如何聽到從(cong)某一點發(fa)出的(de)聲音并(bing)傳(chuan)播到不同的(de)位(wei)置,實現了(le)環(huan)境的(de)映射。

這種(zhong)技(ji)術(shu)有許(xu)多好(hao)處,因為它(ta)可(ke)以(yi)只用(yong)聲音來(lai)確定環(huan)境(jing)物體(ti)的基(ji)本三維幾何形(xing)狀。然后,它(ta)可(ke)以(yi)呈現準確的視覺(jue)(jue)效果來(lai)重建(jian)環(huan)境(jing)。潛(qian)在的應用(yong)包(bao)括虛(xu)擬和(he)增強現實(shi),以(yi)及(ji)增強人工智能代理,使其能夠利用(yong)聲音和(he)視覺(jue)(jue)來(lai)更(geng)好(hao)地可(ke)視化其環(huan)境(jing)。例如,與(yu)計算機(ji)視覺(jue)(jue)相比,水下探索機(ji)器(qi)人可(ke)以(yi)利用(yong)聲學(xue)來(lai)更(geng)好(hao)地確定某些物體(ti)的位置。

圖形顯示的是房間的3D模型,下面是帶有聲音的熱視圖類型的概念

圖形(xing)顯(xian)示的(de)是房(fang)間的(de)3D模型,下面是帶(dai)有聲音的(de)熱視圖類型的(de)概念

研究(jiu)人(ren)員(yuan)強調,建立這種基(ji)(ji)于聲(sheng)音(yin)的ML模型要比(bi)基(ji)(ji)于計算(suan)機視(shi)覺的模型復雜得多。這是因(yin)為計算(suan)機視(shi)覺模型利用(yong)了一種叫做光度(du)一致性的屬性,這意味(wei)著一個(ge)物體從不(bu)同角(jiao)度(du)看(kan)時看(kan)起來大致相同。這不(bu)適用(yong)于聲(sheng)音(yin),因(yin)為根(gen)據聆聽(ting)方(fang)的位置(zhi)和其(qi)他障礙物,從一個(ge)源頭聽(ting)到的東(dong)西可能(neng)非(fei)常不(bu)一樣(yang)。

為了(le)(le)解決這個問題,研究人員(yuan)使用了(le)(le)另外兩個特(te)征(zheng),即互易性和局部幾(ji)何學。前者基本(ben)上意(yi)味著,即使交(jiao)換了(le)(le)說話(hua)者和聽眾的位(wei)置(zhi),聲音(yin)也會完全相同。同時,局部幾(ji)何映射涉及在神經聲場(NAF)中結(jie)合互易性來捕捉(zhuo)物體和其他建(jian)筑組件(jian)。

為了讓ML模型在(zai)測試(shi)環境(jing)中(zhong)工作,需要向(xiang)它輸入一些視覺(jue)信息和(he)光譜(pu)圖,其中(zhong)包含(han)基于發端者和(he)聽(ting)眾(zhong)的指(zhi)定(ding)位置的音頻聽(ting)起來會(hui)是(shi)什(shen)么樣子。根據這些輸入,該(gai)模型可(ke)以準(zhun)確地確定(ding)當聽(ting)眾(zhong)在(zai)環境(jing)中(zhong)移動時,聲音將如何變(bian)化。

該研究論文的主要(yao)作(zuo)者Andrew Luo指(zhi)出:“如果(guo)你想象自己站(zhan)在一(yi)個門口附近,對(dui)你聽到的聲音(yin)影(ying)響(xiang)最(zui)強烈的是(shi)那(nei)個門口的存在,而不一(yi)定是(shi)房間(jian)另(ling)一(yi)邊(bian)離你很遠的幾(ji)何特征(zheng),我(wo)們發現這(zhe)些信(xin)息(xi)比簡單的全連接網絡能更(geng)好地概(gai)括(kuo)。”

展望未來,研(yan)究人員希望進一步加強該模型,使其能(neng)夠將更大、更復(fu)雜的(de)環境可視(shi)化,如(ru)一棟建筑(zhu)甚至整個(ge)城市(shi)。


熱門文章
11月1日,記者獲悉美國斯坦福大學(StanfordUniversity)于10月10日發布了2022年度“全球前2%頂尖科學家榜單”(World'sTop2%Scientists2022)。
2022-11-01
X