国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

Meta 開源多語言大模型,可識別多種語言、錯誤率僅為 OpenAI 的一半
作者 | InfoQ2023-06-02

近(jin)日,Meta 在(zai) GitHub 上開(kai)源了一(yi)款(kuan)全新(xin)(xin)的(de) AI 語言模型(xing)—— Massively Multilingual Speech ( MMS,大(da)規模多語種(zhong)語音) ,它與 ChatGPT 有著很大(da)的(de)不同,這款(kuan)新(xin)(xin)的(de)語言模型(xing)可以(yi)識(shi)別(bie) 4000 多種(zhong)口(kou)語并(bing)生成 1100 多種(zhong)語音(文本到語音)。發(fa)布短短幾天,該項目(mu)已經(jing)在(zai) GitHub 庫收獲了 25.4k Star,Fork 數量(liang)高達 5.7k。

論文地(di)址:

//research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

博(bo)客(ke)地址:

//ai.facebook.com/blog/multilingual-model-speech-recognition/

代(dai)碼/模型(xing):

//github.com/facebookresearch/fairseq/tree/main/examples/mms

Meta 開源能識別 4000 多種語言的語音大模型

與大多數已(yi)公開發布的 AI 項目一(yi)樣(yang),Meta這次也(ye)毫無意外地將(jiang) MMS 項目開源出來,希望保護(hu)語言多樣(yang)性并(bing)鼓(gu)勵研究人員在此基(ji)礎之(zhi)上構(gou)建其(qi)他成(cheng)果。Meta 公司寫道,“我(wo)們(men)公開分享(xiang)這套模型和相關代(dai)碼,以便研究領(ling)域的其(qi)他參與者能在我(wo)們(men)的工作基(ji)礎上進行構(gou)建。通(tong)過(guo)這項工作,我(wo)們(men)希望為保護(hu)令(ling)人驚嘆全(quan)球語言多樣(yang)性做出一(yi)點貢獻。”

語(yu)音(yin)識別(bie)和文(wen)本(ben)轉語(yu)音(yin)模型(xing)往(wang)往(wang)需(xu)要使用(yong)數千小(xiao)時(shi)的(de)音(yin)頻素材進行訓練,同時(shi)附帶(dai)轉錄標簽。(標簽對機(ji)器學(xue)習至關重要,使得算法能夠正確分(fen)類并(bing)“理解”數據。)但(dan)對于那些在工業化國家并(bing)未廣(guang)泛使用(yong)的(de)語(yu)言——其中許多語(yu)言在未來幾十年內甚至有消失的(de)風險——Meta 提醒稱“根本(ben)就不(bu)存在這樣的(de)數據”。

Meta AI 團隊(dui)稱,MMS項(xiang)目最大的一(yi)(yi)個難點在于很多語言數(shu)據(ju)是缺失的。Meta AI 團隊(dui)通過結合 wav2vec 2.0(該公司的“自(zi)監(jian)督(du)語音(yin)表(biao)示學(xue)習”模型)和一(yi)(yi)個新數(shu)據(ju)集來克服(fu)其中(zhong)(zhong)一(yi)(yi)些挑戰。其中(zhong)(zhong)一(yi)(yi)些語言,例如 Tatuyo 語言,只有幾百人使用,而且對于其中(zhong)(zhong)的大多數(shu)語言,之前不存(cun)在語音(yin)技術。

Meta表示:“收集(ji)數(shu)千種(zhong)語言(yan)(yan)的(de)(de)(de)(de)(de)音(yin)頻數(shu)據(ju)是我(wo)(wo)們(men)的(de)(de)(de)(de)(de)第一(yi)個挑戰,因為(wei)(wei)現有最(zui)大的(de)(de)(de)(de)(de)語音(yin)數(shu)據(ju)集(ji)最(zui)多(duo)(duo)涵蓋 100 種(zhong)語言(yan)(yan)。為(wei)(wei)了(le)克服它,我(wo)(wo)們(men)求助(zhu)于(yu)(yu)圣經等宗教文本,這些(xie)文本已被翻(fan)譯(yi)成多(duo)(duo)種(zhong)不(bu)同(tong)的(de)(de)(de)(de)(de)語言(yan)(yan),并且其翻(fan)譯(yi)已被廣泛研究用(yong)于(yu)(yu)基(ji)于(yu)(yu)文本的(de)(de)(de)(de)(de)語言(yan)(yan)翻(fan)譯(yi)研究。這些(xie)翻(fan)譯(yi)有公開的(de)(de)(de)(de)(de)錄(lu)音(yin),記錄(lu)了(le)人們(men)用(yong)不(bu)同(tong)語言(yan)(yan)閱讀這些(xie)文本的(de)(de)(de)(de)(de)情況。作(zuo)為(wei)(wei)該項目的(de)(de)(de)(de)(de)一(yi)部分,我(wo)(wo)們(men)創建(jian)了(le)  1100 多(duo)(duo)種(zhong)語言(yan)(yan)的(de)(de)(de)(de)(de)新約(yue)讀物數(shu)據(ju)集(ji),每種(zhong)語言(yan)(yan)平均提供 32 小時(shi)的(de)(de)(de)(de)(de)數(shu)據(ju)”。

潛在(zai)的性別偏見分析。在(zai) FLEURS 基(ji)準(zhun)測試中,基(ji)于(yu)大規模多語言語音數據(ju)訓(xun)練的自動語音識別模型(xing)對于(yu)男性和女性說話者(zhe)具有(you)相似(si)的錯誤率。

乍看之下這種方(fang)法大(da)有問(wen)題,因為此類訓練(lian)思路似乎(hu)嚴(yan)重(zhong)偏向宗(zong)教的(de)世界觀。但 Meta 表示情況并(bing)非(fei)如此,“雖然錄(lu)音內容涉(she)及(ji)宗(zong)教,但我們的(de)分(fen)析表明,產出(chu)的(de)模型并(bing)不會生成更多(duo)宗(zong)教語言。猜測這是(shi)(shi)因為我們使(shi)用了連接主義時間分(fen)類(CTC)方(fang)法,與語音識別(bie)類大(da)語言模型(LLM)或(huo)序列(lie)(lie)到序列(lie)(lie)模型相比,前者受到的(de)限制要(yao)大(da)得多(duo)。”此外(wai),盡管大(da)多(duo)數宗(zong)教錄(lu)音都是(shi)(shi)由男性(xing)朗讀,但也不會引入男性(xing)偏見(jian)——模型在(zai)女性(xing)和男性(xing)單色(se)中(zhong)同樣表現出(chu)色(se)。

相比同類模型,MMS 單詞錯誤率更低

在訓練(lian)出能夠(gou)使用這些數據(ju)(ju)的(de)對齊模(mo)型(xing)(xing)(xing)之后,Meta 又引入 wav2vec 2.0,可通(tong)過未標(biao)注的(de)數據(ju)(ju)進(jin)行訓練(lian)。非常規(gui)數據(ju)(ju)源和自(zi)監(jian)督(du)語(yu)(yu)音模(mo)型(xing)(xing)(xing)相結合,最終帶來了(le)令(ling)人印象深(shen)刻 的(de)結果。“我們的(de)結果表明(ming),與現(xian)有模(mo)型(xing)(xing)(xing)相比,大規(gui)模(mo)多語(yu)(yu)言語(yu)(yu)音模(mo)型(xing)(xing)(xing)表現(xian)良好,覆蓋的(de)語(yu)(yu)言數量是現(xian)有模(mo)型(xing)(xing)(xing)的(de) 10 倍。”具體來看,Meta 將 MMS 與 OpenAI 的(de) Whisper 進(jin)行比較,實(shi)際結果超(chao)出預期。“我們發(fa)現(xian)在 MMS 數據(ju)(ju)上訓練(lian)的(de)模(mo)型(xing)(xing)(xing)將單(dan)詞錯誤降低了(le)一(yi)半,而 MMS 涵蓋的(de)語(yu)(yu)種(zhong)數量則增長至(zhi) 11 倍。”

Meta 公(gong)司警告稱,這套新模(mo)型(xing)并不(bu)完(wan)美。“例如,語音轉文本模(mo)型(xing)在特(te)定的(de)單(dan)詞或(huo)短(duan)語上可能(neng)存在一定的(de)錯誤(wu)轉錄風險。根據輸出(chu)結果(guo),這可能(neng)會導(dao)致攻(gong)擊性和(he)/或(huo)不(bu)準確(que)的(de)表述(shu)。我(wo)們仍然相(xiang)信(xin),整個 AI 社(she)區的(de)協作對于負責任(ren)開發(fa) AI 技術至關重要。”

考慮到(dao) Meta 已(yi)經發布了這套開源研究的 MMS 模型,希望(wang)它能(neng)(neng)扭轉因(yin)科技(ji)巨頭的支(zhi)持(chi)習慣(guan)而逐漸將(jiang)全球使用語(yu)(yu)言縮減至(zhi)(zhi) 100 種以(yi)下的趨勢(shi)。以(yi)此為契(qi)機(ji),輔助技(ji)術(shu)、文本轉語(yu)(yu)音(TTS)甚至(zhi)(zhi) VR/AR 技(ji)術(shu),也許將(jiang)給(gei)每個人都塑造出(chu)能(neng)(neng)用母語(yu)(yu)表達和(he)學習的世(shi)(shi)界。Meta 表示,“我(wo)們設想一個依(yi)靠技(ji)術(shu)帶來相反效果的世(shi)(shi)界,鼓勵人們保持(chi)自(zi)(zi)己母語(yu)(yu)的活力,通過自(zi)(zi)己最熟悉的語(yu)(yu)言獲取信息、使用技(ji)術(shu)。”

Meta 的(de)結果表明,大規模(mo)(mo)多(duo)語(yu)(yu)(yu)(yu)言(yan)語(yu)(yu)(yu)(yu)音模(mo)(mo)型(xing)優于現有(you)模(mo)(mo)型(xing),覆蓋的(de)語(yu)(yu)(yu)(yu)言(yan)數量是現有(you)模(mo)(mo)型(xing)的(de) 10 倍。Meta 通常專(zhuan)注于多(duo)語(yu)(yu)(yu)(yu)言(yan):對(dui)于文(wen)本(ben),NLLB 項目將多(duo)語(yu)(yu)(yu)(yu)言(yan)翻譯擴(kuo)(kuo)展到 200 種語(yu)(yu)(yu)(yu)言(yan),而 Massively Multilingual Speech 項目將語(yu)(yu)(yu)(yu)音技術擴(kuo)(kuo)展到更多(duo)語(yu)(yu)(yu)(yu)言(yan)。

Meta 表示該款大模(mo)型相比于 OpenAI 的同類(lei)產品單詞錯誤率少了(le)一半(ban)。

在與(yu) OpenAI 的(de)(de) Whisper 的(de)(de)同類比較中,我(wo)們(men)發現在 Massively Multilingual Speech 數據上(shang)訓練的(de)(de)模型(xing)實現了(le)一(yi)半的(de)(de)單(dan)詞錯誤率(lv),但 Massively Multilingual Speech 涵蓋的(de)(de)語(yu)言是其 11 倍。這表明(ming)與(yu)當前最好的(de)(de)語(yu)音模型(xing)相比,我(wo)們(men)的(de)(de)模型(xing)可以表現得非常好。

Meta AI 在大語言模型路上越走越遠

在硅谷這場愈演愈烈的 AI 大戰中,一直 All in 元宇宙的 Meta 正在加速追趕OpenAI、谷(gu)歌、微軟等大模型先(xian)行者們。

今年 2 月 24 日,在火遍全球的 ChatGPT 發布 3 個月后,Meta 在官網公布了一款新的人工智能大型(xing)(xing)語言模型(xing)(xing)LLaMA,從(cong)參數規(gui)模來看,Meta 提(ti)供有 70 億、130 億、330 億和 650 億四種參數規(gui)模的 LLaMA 模型(xing)(xing),并用 20 種語言進行訓練(lian)。

Meta 首席執行(xing)官馬克·扎(zha)克伯格表示,LLaMA 模型旨在幫助研究人(ren)員推進(jin)工作,在生成文本、對話、總結(jie)書(shu)面材料、證(zheng)明數學定理或預測蛋白質結(jie)構等更復雜的任務方面有很大的前景(jing)。

Meta 首席 AI 科學家(jia)楊立昆(Yann LeCun)表示,在一(yi)些(xie)基準測(ce)試中(zhong),LLaMA 130 億參數(shu)規模(mo)(mo)(mo)的(de)(de)模(mo)(mo)(mo)型(xing)性能(neng)優于 OpenAI 推(tui)出(chu)的(de)(de) GPT3,且能(neng)跑在單個 GPU 上;650 億參數(shu)的(de)(de) LLaMA 模(mo)(mo)(mo)型(xing)能(neng)夠和 DeepMind 700 億參數(shu)的(de)(de) Chinchilla 模(mo)(mo)(mo)型(xing)、谷(gu)歌 5400 億參數(shu)的(de)(de) PaLM 模(mo)(mo)(mo)型(xing)競爭。

4 月 19 日,Meta 宣布開(kai)源DINOv2視覺大(da)(da)模型。據悉,DINOv2 是(shi)一(yi)最先進的(de)計算機視覺自監(jian)督模型,可以在(zai)深度估計、語義分割(ge)和圖像(xiang)(xiang)相似性比(bi)較等任(ren)務中實現 SOTA 級別(bie)的(de)性能。該模型可以借助(zhu)衛(wei)星圖像(xiang)(xiang)生(sheng)成不同大(da)(da)洲(zhou)的(de)森林高度,在(zai)醫學(xue)成像(xiang)(xiang)和作(zuo)物產量(liang)估算等領域(yu)具(ju)有潛在(zai)應用(yong)。

5 月(yue) 10 日,Meta 宣布開源可跨越(yue)六種(zhong)(zhong)感官的(de)(de)大模(mo)(mo)型ImageBind,新的(de)(de) ImageBind 模(mo)(mo)型結合了文本(ben)、音頻、視覺(jue)、運動、熱和深度數(shu)據(ju)。該模(mo)(mo)型目前(qian)只是一個研究(jiu)項目,展示了未來的(de)(de)人工(gong)智能模(mo)(mo)型如何(he)能夠生成多感官內容。通過(guo)利用多種(zhong)(zhong)類型的(de)(de)圖(tu)像(xiang)配對(dui)數(shu)據(ju)來學習(xi)單個共享表(biao)示空(kong)間(jian)。該研究(jiu)不需要(yao)所有模(mo)(mo)態(tai)相(xiang)互同時出(chu)現(xian)的(de)(de)數(shu)據(ju)集,相(xiang)反利用到了圖(tu)像(xiang)的(de)(de)綁定屬(shu)性,只要(yao)將每個模(mo)(mo)態(tai)的(de)(de)嵌(qian)入與圖(tu)像(xiang)嵌(qian)入對(dui)齊,就會實(shi)現(xian)所有模(mo)(mo)態(tai)的(de)(de)迅(xun)速對(dui)齊。

Meta 力(li)求通過這樣密集的發布向外界證明自(zi)己還(huan)一直跑在 AI 賽道中。

然而,在(zai)(zai)燒光了幾十億美元(yuan)義無反顧押(ya)注(zhu)元(yuan)宇宙(zhou)后,Meta 在(zai)(zai) AI 方面的(de)能力還(huan)是受到了外界的(de)質疑。

在 Meta 公司今年 4 月的季(ji)度財(cai)報電話會議上,公司 CEO 扎克伯格明顯相(xiang)當被動。砸下數十億美(mei)元、被寄予延續(xu)帝國輝煌厚望的元宇宙愿景還沒來得及(ji)初(chu)試(shi)啼聲(sheng),就(jiu)被圍(wei)繞人工(gong)智能(AI)掀起的洶涌狂潮搶了(le)風(feng)頭,剎那淪為明日黃花。

批評者們(men)注(zhu)意到就連 Meta 自己的底氣也有所減弱,扎克伯(bo)(bo)格去年(nian) 11 月(yue)(yue)和今(jin)年(nian) 3 月(yue)(yue)兩份聲明間的口(kou)吻大(da)為(wei)改變。之前扎克伯(bo)(bo)格強調這(zhe)個項目屬于“高優先級的增長領(ling)域”,而今(jin)年(nian) 3 月(yue)(yue)則(ze)轉而表示“推進 AI”才是公司的“最(zui)大(da)單(dan)一(yi)投資方向(xiang)”。

但(dan)扎克伯格本人還是做出了澄清,表示“有人認為(wei)我(wo)們正以(yi)某(mou)種方(fang)式(shi)放棄對元宇宙愿景(jing)的關注,我(wo)想(xiang)提前強調,這樣的判(pan)斷并不準確。”

“多年以(yi)來(lai),我(wo)(wo)們一直(zhi)專注于 AI 和元(yuan)宇(yu)宙技術,未來(lai)也將繼續雙管齊下……構(gou)建元(yuan)宇(yu)宙是個(ge)長期項目,但我(wo)(wo)們的基本(ben)思路將保持不(bu)變、努力方向(xiang)也不(bu)會動搖。”

參考鏈接:

//www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html

//ai.facebook.com/blog/multilingual-model-speech-recognition/

本文轉載來源:

//www.infoq.cn/article/hKdP04SgxzysSXSzwYVw

熱門文章
這篇文章發布的時候,距離蘋果今年的 WWDC 大會只有不到一周時間了。作為蘋果高管口中有史以來規模最大的一次 WWDC,基本可以確定傳聞中的蘋果 MR 將會是本屆 WWDC 的「One more th
2023-06-02
X