国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

Meta 開源多語言大模型,可識別多種語言、錯誤率僅為 OpenAI 的一半
作者 | InfoQ2023-06-02

近日(ri),Meta 在(zai) GitHub 上開源了一款全新的 AI 語(yu)言模(mo)型—— Massively Multilingual Speech ( MMS,大規模(mo)多語(yu)種(zhong)語(yu)音(yin)(yin)) ,它(ta)與 ChatGPT 有著(zhu)很大的不(bu)同,這(zhe)款新的語(yu)言模(mo)型可以識別 4000 多種(zhong)口語(yu)并生成 1100 多種(zhong)語(yu)音(yin)(yin)(文本(ben)到語(yu)音(yin)(yin))。發布短短幾天(tian),該項目已經(jing)在(zai) GitHub 庫收獲了 25.4k Star,Fork 數量高達 5.7k。

論(lun)文(wen)地址:

//research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

博客地址(zhi):

//ai.facebook.com/blog/multilingual-model-speech-recognition/

代(dai)碼/模型:

//github.com/facebookresearch/fairseq/tree/main/examples/mms

Meta 開源能識別 4000 多種語言的語音大模型

與大(da)多數(shu)已公(gong)開(kai)發(fa)布的(de) AI 項(xiang)目一(yi)樣(yang)(yang),Meta這次也毫無(wu)意外(wai)地(di)將 MMS 項(xiang)目開(kai)源出(chu)來,希望(wang)保護語言(yan)多樣(yang)(yang)性(xing)并鼓勵研究(jiu)人員在(zai)(zai)此基礎之上構建其他成果。Meta 公(gong)司寫道,“我們公(gong)開(kai)分享這套模型和(he)相關代碼,以便研究(jiu)領域的(de)其他參與者能在(zai)(zai)我們的(de)工作(zuo)基礎上進(jin)行構建。通過這項(xiang)工作(zuo),我們希望(wang)為保護令(ling)人驚嘆全球(qiu)語言(yan)多樣(yang)(yang)性(xing)做出(chu)一(yi)點貢(gong)獻。”

語(yu)(yu)音(yin)識(shi)別和(he)文(wen)本(ben)轉(zhuan)語(yu)(yu)音(yin)模型往(wang)往(wang)需要(yao)使用(yong)數(shu)千(qian)小(xiao)時的音(yin)頻素(su)材進(jin)行(xing)訓(xun)練,同時附(fu)帶轉(zhuan)錄標簽(qian)。(標簽(qian)對(dui)(dui)機器學習至關重要(yao),使得算法能夠正確(que)分類并“理解”數(shu)據(ju)。)但對(dui)(dui)于那些在(zai)(zai)工(gong)業化(hua)國家并未(wei)廣泛使用(yong)的語(yu)(yu)言——其中許多語(yu)(yu)言在(zai)(zai)未(wei)來(lai)幾(ji)十年內甚至有消失的風險——Meta 提醒稱“根本(ben)就不存在(zai)(zai)這樣(yang)的數(shu)據(ju)”。

Meta AI 團(tuan)隊稱,MMS項目(mu)最大的一(yi)(yi)個難點在于(yu)很多(duo)語(yu)(yu)言(yan)數(shu)(shu)據是缺失的。Meta AI 團(tuan)隊通過結(jie)合(he) wav2vec 2.0(該(gai)公(gong)司的“自監督語(yu)(yu)音表示(shi)學習”模型)和一(yi)(yi)個新數(shu)(shu)據集來克服(fu)其(qi)中(zhong)一(yi)(yi)些挑戰。其(qi)中(zhong)一(yi)(yi)些語(yu)(yu)言(yan),例如 Tatuyo 語(yu)(yu)言(yan),只(zhi)有幾百人(ren)使用,而且(qie)對于(yu)其(qi)中(zhong)的大多(duo)數(shu)(shu)語(yu)(yu)言(yan),之前不存在語(yu)(yu)音技(ji)術。

Meta表示:“收集(ji)數千種語(yu)(yu)言(yan)的音(yin)頻數據(ju)是我們的第一(yi)個挑戰,因為(wei)現有最大(da)的語(yu)(yu)音(yin)數據(ju)集(ji)最多涵蓋 100 種語(yu)(yu)言(yan)。為(wei)了克服(fu)它,我們求(qiu)助于圣(sheng)經(jing)等宗教文本(ben)(ben),這(zhe)些文本(ben)(ben)已(yi)被翻譯(yi)成多種不(bu)同的語(yu)(yu)言(yan),并且其翻譯(yi)已(yi)被廣(guang)泛研究用(yong)于基于文本(ben)(ben)的語(yu)(yu)言(yan)翻譯(yi)研究。這(zhe)些翻譯(yi)有公開的錄音(yin),記錄了人們用(yong)不(bu)同語(yu)(yu)言(yan)閱(yue)讀(du)這(zhe)些文本(ben)(ben)的情況。作為(wei)該(gai)項目的一(yi)部分,我們創建(jian)了 1100 多種語(yu)(yu)言(yan)的新約讀(du)物數據(ju)集(ji),每種語(yu)(yu)言(yan)平均提(ti)供 32 小(xiao)時的數據(ju)”。

潛在(zai)(zai)的性別偏見(jian)分析(xi)。在(zai)(zai) FLEURS 基準測試中,基于大(da)規模多語(yu)言語(yu)音數據訓練的自動語(yu)音識別模型對于男性和女性說(shuo)話者具有(you)相似的錯誤率。

乍(zha)看之下這種方(fang)法大(da)(da)有(you)問題,因為(wei)此(ci)類訓練思路(lu)似乎嚴重偏向宗(zong)教(jiao)的(de)(de)世界觀。但(dan) Meta  表示(shi)情況并非如此(ci),“雖然錄音(yin)內容(rong)涉及宗(zong)教(jiao),但(dan)我(wo)們(men)(men)的(de)(de)分析表明,產出的(de)(de)模(mo)型并不會生(sheng)成更多宗(zong)教(jiao)語(yu)(yu)言(yan)。猜測(ce)這是因為(wei)我(wo)們(men)(men)使(shi)用了連(lian)接主義時間分類(CTC)方(fang)法,與語(yu)(yu)音(yin)識(shi)別類大(da)(da)語(yu)(yu)言(yan)模(mo)型(LLM)或序(xu)列(lie)到序(xu)列(lie)模(mo)型相比,前者受到的(de)(de)限制(zhi)要大(da)(da)得多。”此(ci)外,盡管大(da)(da)多數宗(zong)教(jiao)錄音(yin)都是由男(nan)性(xing)(xing)朗讀,但(dan)也不會引入男(nan)性(xing)(xing)偏見——模(mo)型在女性(xing)(xing)和男(nan)性(xing)(xing)單(dan)色中同樣表現出色。

相比同類模型,MMS 單詞錯誤率更低

在訓(xun)練出能夠(gou)使(shi)用這(zhe)些數(shu)(shu)據的(de)(de)(de)對齊模型(xing)之后,Meta 又(you)引入 wav2vec 2.0,可通過(guo)未標注(zhu)的(de)(de)(de)數(shu)(shu)據進行訓(xun)練。非常(chang)規(gui)數(shu)(shu)據源和自監督語音模型(xing)相(xiang)結(jie)合,最終帶(dai)來了令人(ren)印象深(shen)刻 的(de)(de)(de)結(jie)果(guo)。“我們的(de)(de)(de)結(jie)果(guo)表明(ming),與(yu)(yu)現(xian)(xian)有模型(xing)相(xiang)比,大規(gui)模多語言(yan)語音模型(xing)表現(xian)(xian)良好,覆蓋(gai)(gai)的(de)(de)(de)語言(yan)數(shu)(shu)量是現(xian)(xian)有模型(xing)的(de)(de)(de) 10 倍。”具(ju)體來看(kan),Meta 將(jiang) MMS 與(yu)(yu) OpenAI 的(de)(de)(de) Whisper 進行比較,實際結(jie)果(guo)超出預(yu)期。“我們發現(xian)(xian)在 MMS 數(shu)(shu)據上訓(xun)練的(de)(de)(de)模型(xing)將(jiang)單(dan)詞錯誤降低了一(yi)半,而 MMS 涵蓋(gai)(gai)的(de)(de)(de)語種數(shu)(shu)量則增長至(zhi) 11 倍。”

Meta 公司警(jing)告稱,這(zhe)套新模(mo)型并不(bu)完美(mei)。“例(li)如,語(yu)(yu)音轉文(wen)本(ben)模(mo)型在特定的(de)單詞或短語(yu)(yu)上可能存在一(yi)定的(de)錯(cuo)誤(wu)轉錄風險。根據輸出結果,這(zhe)可能會導致(zhi)攻擊性(xing)和/或不(bu)準確的(de)表述。我(wo)們(men)仍然相信,整個(ge) AI 社(she)區(qu)的(de)協作對于(yu)負責任開發(fa) AI 技術至關重要(yao)。”

考(kao)慮到 Meta 已(yi)經發布了這(zhe)套開源研究的 MMS 模型,希望它能扭(niu)轉因科技巨頭的支(zhi)持(chi)習(xi)慣而逐漸將全球使(shi)用(yong)(yong)語(yu)(yu)言縮減至 100 種以(yi)(yi)下的趨(qu)勢。以(yi)(yi)此為契機,輔助技術、文本(ben)轉語(yu)(yu)音(TTS)甚至 VR/AR 技術,也許將給(gei)每個人都塑(su)造出能用(yong)(yong)母(mu)語(yu)(yu)表達和學習(xi)的世界(jie)(jie)。Meta 表示(shi),“我們設想一個依靠技術帶(dai)來相反效果的世界(jie)(jie),鼓勵人們保持(chi)自(zi)己母(mu)語(yu)(yu)的活力,通過(guo)自(zi)己最熟悉的語(yu)(yu)言獲取信息、使(shi)用(yong)(yong)技術。”

Meta 的結果表明,大規模(mo)多(duo)語(yu)(yu)言語(yu)(yu)音模(mo)型優于現(xian)有(you)(you)模(mo)型,覆(fu)蓋的語(yu)(yu)言數(shu)量是現(xian)有(you)(you)模(mo)型的 10 倍(bei)。Meta 通(tong)常專注于多(duo)語(yu)(yu)言:對(dui)于文本,NLLB 項(xiang)目(mu)將(jiang)多(duo)語(yu)(yu)言翻譯擴展到(dao) 200 種語(yu)(yu)言,而 Massively Multilingual Speech 項(xiang)目(mu)將(jiang)語(yu)(yu)音技術擴展到(dao)更多(duo)語(yu)(yu)言。

Meta 表示(shi)該款大模型相比于 OpenAI 的同類(lei)產品單詞錯誤率少了一半。

在與 OpenAI 的(de)(de) Whisper 的(de)(de)同類比較中,我們發現在 Massively Multilingual Speech 數(shu)據上訓(xun)練的(de)(de)模型實現了一半的(de)(de)單詞錯誤率,但 Massively Multilingual Speech 涵(han)蓋(gai)的(de)(de)語言是其(qi) 11 倍(bei)。這表明(ming)與當前最好的(de)(de)語音(yin)模型相(xiang)比,我們的(de)(de)模型可以表現得非常好。

Meta AI 在大語言模型路上越走越遠

在硅谷這場愈演愈烈的 AI 大戰中,一直 All in 元宇宙的 Meta 正在(zai)加速追趕OpenAI、谷(gu)歌、微軟等大模型先行者們(men)。

今年 2 月 24 日,在火遍全球的 ChatGPT 發布 3 個月后,Meta 在官網公布了一款新的人工智能大型(xing)語言(yan)模型(xing)LLaMA,從參數規模來看(kan),Meta 提(ti)供(gong)有 70 億、130 億、330 億和 650 億四種參數規模的(de) LLaMA 模型(xing),并用 20 種語言(yan)進行訓練。

Meta 首(shou)席執行(xing)官馬克·扎克伯格表示,LLaMA 模(mo)型旨在幫助研究人員推進工作(zuo),在生成文本、對話、總(zong)結(jie)書面(mian)材料、證(zheng)明數學定(ding)理或預測(ce)蛋白質結(jie)構等更復雜的任務(wu)方面(mian)有(you)很大(da)的前(qian)景。

Meta 首席 AI 科學(xue)家楊立(li)昆(kun)(Yann LeCun)表(biao)示,在一些基準測試中,LLaMA 130 億參(can)數(shu)(shu)規模(mo)(mo)的(de)(de)(de)模(mo)(mo)型(xing)性(xing)能(neng)優于 OpenAI 推出的(de)(de)(de) GPT3,且(qie)能(neng)跑(pao)在單個 GPU 上;650 億參(can)數(shu)(shu)的(de)(de)(de) LLaMA 模(mo)(mo)型(xing)能(neng)夠和 DeepMind 700 億參(can)數(shu)(shu)的(de)(de)(de) Chinchilla 模(mo)(mo)型(xing)、谷歌 5400 億參(can)數(shu)(shu)的(de)(de)(de) PaLM 模(mo)(mo)型(xing)競爭。

4 月 19 日,Meta 宣布開源DINOv2視(shi)覺(jue)大模型(xing)。據悉(xi),DINOv2 是一最先進的(de)計算機視(shi)覺(jue)自監(jian)督模型(xing),可(ke)以在(zai)深度估(gu)計、語義分割和圖像相似性比較等任務中(zhong)實現 SOTA 級別的(de)性能。該模型(xing)可(ke)以借助衛星圖像生成不(bu)同大洲(zhou)的(de)森林高(gao)度,在(zai)醫學(xue)成像和作物(wu)產量估(gu)算等領域具有潛(qian)在(zai)應用。

5 月 10 日,Meta 宣布開源可(ke)跨越六種(zhong)(zhong)感官(guan)的(de)(de)大模(mo)型ImageBind,新的(de)(de) ImageBind 模(mo)型結(jie)合了文本、音頻(pin)、視覺、運動(dong)、熱和深度數據(ju)(ju)(ju)。該模(mo)型目前只(zhi)是一個(ge)研究項(xiang)目,展(zhan)示(shi)了未來(lai)的(de)(de)人工智能模(mo)型如何(he)能夠生成多感官(guan)內容。通過利(li)用多種(zhong)(zhong)類型的(de)(de)圖像(xiang)配(pei)對數據(ju)(ju)(ju)來(lai)學習(xi)單個(ge)共享(xiang)表示(shi)空間。該研究不需要(yao)所(suo)有(you)(you)模(mo)態(tai)相(xiang)互同時出現的(de)(de)數據(ju)(ju)(ju)集,相(xiang)反(fan)利(li)用到(dao)了圖像(xiang)的(de)(de)綁定屬性,只(zhi)要(yao)將每個(ge)模(mo)態(tai)的(de)(de)嵌(qian)入與(yu)圖像(xiang)嵌(qian)入對齊,就(jiu)會實現所(suo)有(you)(you)模(mo)態(tai)的(de)(de)迅速對齊。

Meta 力求通(tong)過這(zhe)樣(yang)密(mi)集的發(fa)布向外界證(zheng)明自己還一直(zhi)跑在 AI 賽道中。

然而,在燒(shao)光了幾十億(yi)美元義無反(fan)顧押注元宇宙后(hou),Meta 在 AI 方面的能力還是受到(dao)了外(wai)界的質疑。

在 Meta 公司今年 4 月的季(ji)度(du)財報電話會議上,公司 CEO 扎克伯(bo)格明(ming)顯(xian)相當被動。砸下數十億美(mei)元、被寄予延續帝國輝煌(huang)厚望的元宇宙愿景還沒來(lai)得及初試啼聲,就被圍繞人工智(zhi)能(AI)掀起的洶涌狂潮搶(qiang)了風頭,剎(cha)那淪為明(ming)日黃花。

批(pi)評者們(men)注意到就連(lian) Meta 自己的(de)(de)底氣也(ye)有所(suo)減弱,扎克伯格(ge)去年(nian) 11 月(yue)和今年(nian) 3 月(yue)兩份聲(sheng)明(ming)間的(de)(de)口吻(wen)大為改變。之前(qian)扎克伯格(ge)強調(diao)這個項目屬于“高(gao)優先級的(de)(de)增長領(ling)域”,而今年(nian) 3 月(yue)則轉而表(biao)示“推進 AI”才(cai)是(shi)公(gong)司的(de)(de)“最大單一投(tou)資方向(xiang)”。

但扎克伯格(ge)本人還是做出了澄清,表示“有人認為我們正以某種方式放棄對元宇宙(zhou)愿景的關(guan)注,我想提前強(qiang)調,這樣的判斷并(bing)不準確(que)。”

“多年以(yi)來(lai),我們(men)一直專注于 AI 和元宇宙技術,未(wei)來(lai)也(ye)(ye)將(jiang)繼續(xu)雙管齊下……構建元宇宙是個(ge)長(chang)期(qi)項目,但我們(men)的基本思路將(jiang)保持(chi)不(bu)變、努(nu)力(li)方(fang)向也(ye)(ye)不(bu)會動搖。”

參考鏈接:

//www.engadget.com/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html

//ai.facebook.com/blog/multilingual-model-speech-recognition/

本文轉載(zai)來(lai)源:

//www.infoq.cn/article/hKdP04SgxzysSXSzwYVw

熱門文章
這篇文章發布的時候,距離蘋果今年的 WWDC 大會只有不到一周時間了。作為蘋果高管口中有史以來規模最大的一次 WWDC,基本可以確定傳聞中的蘋果 MR 將會是本屆 WWDC 的「One more th
2023-06-02
X