計算機視覺是一個在過去幾十年中被研究得相當多的領域,主要是因為它在建造自動駕駛汽車和其他可以像人類一樣"看"世界的工具方面有著直接和明顯的應用。然而,直到最近才看到這種水平的研究的一個領域是使用聲音而不是視覺來模擬環境。現在,麻省理工學院(MIT)的研究人員已經撰寫了一篇研究論文,涉及在這一領域訓練的機器學習(ML)模型的構建。
麻省理工學院新聞網站上的一篇博文介紹說,MIT-IBM沃森人工智能實驗室合作建立(li)了一個(ge)ML模(mo)型(xing),利用空間聲學來觀察和模(mo)擬環(huan)境(jing)。簡單(dan)地說,這個(ge)模(mo)型(xing)通過弄清聽眾(zhong)如何聽到(dao)從某一點(dian)發出的(de)聲音并傳(chuan)播到(dao)不同的(de)位置,實現了環(huan)境(jing)的(de)映射。
這種技術有許多好(hao)處,因為它(ta)可以(yi)(yi)只用(yong)聲音來(lai)確(que)定環(huan)(huan)境(jing)物體的(de)基本三維幾何(he)形狀。然后,它(ta)可以(yi)(yi)呈現準確(que)的(de)視(shi)覺(jue)(jue)效果(guo)來(lai)重建環(huan)(huan)境(jing)。潛在(zai)的(de)應用(yong)包括(kuo)虛擬和增強現實,以(yi)(yi)及(ji)增強人(ren)工智能代理,使其能夠利用(yong)聲音和視(shi)覺(jue)(jue)來(lai)更(geng)好(hao)地可視(shi)化(hua)其環(huan)(huan)境(jing)。例如,與計算機視(shi)覺(jue)(jue)相比,水下探(tan)索機器(qi)人(ren)可以(yi)(yi)利用(yong)聲學來(lai)更(geng)好(hao)地確(que)定某些(xie)物體的(de)位置。

圖形顯示的(de)是(shi)房間的(de)3D模型(xing),下面是(shi)帶(dai)有聲音的(de)熱視圖類型(xing)的(de)概念
研究人(ren)員(yuan)強(qiang)調,建(jian)立這種(zhong)基于(yu)(yu)聲音(yin)(yin)的(de)(de)ML模型(xing)要比基于(yu)(yu)計算機視覺(jue)的(de)(de)模型(xing)復雜(za)得(de)多。這是因為(wei)計算機視覺(jue)模型(xing)利用了(le)一種(zhong)叫(jiao)做光度一致(zhi)性(xing)的(de)(de)屬性(xing),這意味(wei)著(zhu)一個物(wu)體從不同(tong)角度看時(shi)看起來(lai)大致(zhi)相同(tong)。這不適(shi)用于(yu)(yu)聲音(yin)(yin),因為(wei)根(gen)據(ju)聆聽方(fang)的(de)(de)位(wei)置(zhi)和其他障礙物(wu),從一個源(yuan)頭(tou)聽到的(de)(de)東西可能非常不一樣。
為了解(jie)決這個問(wen)題,研(yan)究人員使(shi)用了另外(wai)兩個特征,即(ji)互(hu)易性和(he)局部(bu)幾(ji)(ji)何學。前者(zhe)基(ji)本上意(yi)味著,即(ji)使(shi)交換了說(shuo)話者(zhe)和(he)聽眾的位置,聲(sheng)音也會完全相同(tong)。同(tong)時(shi),局部(bu)幾(ji)(ji)何映射涉及在神(shen)經聲(sheng)場(NAF)中(zhong)結合(he)互(hu)易性來捕捉(zhuo)物體和(he)其他(ta)建(jian)筑組(zu)件。
為了(le)讓ML模型在測試環境中工作,需(xu)要向它(ta)輸入一些視(shi)覺信息(xi)和光(guang)譜圖,其中包含基于發端者和聽眾的指定(ding)位(wei)置的音頻聽起來會是什么樣子(zi)。根據這些輸入,該(gai)模型可以準確地確定(ding)當聽眾在環境中移(yi)動時,聲(sheng)音將如(ru)何變(bian)化。
該研究論(lun)文的(de)(de)主要作者Andrew Luo指出:“如果你想象(xiang)自己站在(zai)(zai)一個門口附近(jin),對你聽到的(de)(de)聲音影響最強烈(lie)的(de)(de)是那個門口的(de)(de)存在(zai)(zai),而不一定是房間另一邊離(li)你很遠的(de)(de)幾何特(te)征,我(wo)們發現這些信息比簡單的(de)(de)全連接網絡能更(geng)好地(di)概括。”
展望(wang)未(wei)來,研究人(ren)員希望(wang)進一步加(jia)強該模型,使(shi)其能夠將更大(da)、更復(fu)雜的環境可視化,如一棟建(jian)筑甚(shen)至(zhi)整(zheng)個城市。