“AI 孙燕姿”爆火后，Meta 发布通用语音生成 AI：支持多种语音功能

“AI 孫燕姿”爆火后，Meta 發布通用語音生成 AI：支持多種語音功能

作者 | InfoQ2023-06-21

Meta 發布語音生成 AI 模型 Voicebox

近日(ri)，Meta AI 宣布在(zai)生(sheng)成(cheng)式 AI 語音(yin)模型領域取得(de)(de)了(le)突破：開發出了(le)首個可泛化至(zhi)多種語音(yin)生(sheng)成(cheng)任務的模型 Voicebox，無需專門訓練即可達成(cheng)頂尖性能(neng)表現(xian)。Meta AI 研(yan)究(jiu)(jiu)人員分享了(le)多段音(yin)頻樣本(ben)和一篇研(yan)究(jiu)(jiu)論文，其中詳細介紹了(le)他們(men)采用的方法和取得(de)(de)的成(cheng)果。

與圖像及文本類生成系統一樣，Voicebox 能夠創建多種樣式的輸出，包括從零開始創建輸出、修改給定樣本等。但與以往不同的是，Voicebox 并非簡單創建圖片或一段文字，而是直接生成高質量的音頻片段。該模型能夠為括英語、法語、西班牙語、德語、波蘭語和葡萄(tao)牙語在內的六種語言合成語音，同時執行噪聲去除、內容編輯、風格轉換(huan)和多樣化樣本生成等任務。

在 Voicebox 出現之前，生成式 AI 語音模型需要配合精心準備的訓練數據，就各項任務接受特定訓練。Voicebox 使用一種新的方法，可直接從原始音頻和隨附的轉錄結果中學習。與(yu)只(zhi)能根據給(gei)定音頻片段續寫結尾的自回(hui)歸模型不同，Voicebox 能夠(gou)修(xiu)改給(gei)定樣本中的任(ren)意部分(fen)。

據(ju)了解，Voicebox 能夠出色執行各種任務(wu)，具體包括：

結合上下文(wen)的(de)文(wen)本(ben)到語(yu)(yu)(yu)音(yin)合成(cheng)：使(shi)用長度僅為兩秒(miao)的(de)輸入音(yin)頻樣本(ben)，Voicebox 即可匹配樣本(ben)的(de)音(yin)頻風格并據此進行(xing)文(wen)本(ben)到語(yu)(yu)(yu)音(yin)生成(cheng)。后續項目有望為無法說話的(de)人(ren)士提供語(yu)(yu)(yu)音(yin)支持，或者為游戲 NPC 及虛擬(ni)助(zhu)手快速生成(cheng)對話語(yu)(yu)(yu)音(yin)。
跨語(yu)言風(feng)格(ge)轉(zhuan)換：給(gei)定一(yi)段(duan)語(yu)音樣本，外加一(yi)段(duan)英語(yu)、法語(yu)、德語(yu)、西班牙語(yu)、波蘭語(yu)或葡萄牙語(yu)的(de)文本，Voicebox 即可生成(cheng)對(dui)應的(de)朗讀音頻。這種(zhong)能力訟人興奮(fen)，未來可以幫助使(shi)用不同母語(yu)的(de)人們通過自(zi)然(ran)且真實(shi)的(de)方式開展(zhan)交流。
語(yu)音降噪(zao)與(yu)編(bian)輯(ji)(ji)：Voicebox 的(de)上(shang)下文學習為(wei)其賦予了(le)強大(da)的(de)語(yu)音生成能(neng)力，可無縫編(bian)輯(ji)(ji)音頻中(zhong)的(de)片(pian)段(duan)。它能(neng)重(zhong)新合成被暫時(shi)噪(zao)聲干擾的(de)語(yu)音部(bu)分，或者(zhe)替(ti)換(huan)掉說錯的(de)詞，而無需重(zhong)新錄制整段(duan)語(yu)音。用戶可以找(zhao)到語(yu)音中(zhong)被噪(zao)聲(如狗叫聲)干擾的(de)原始片(pian)段(duan)，剪切(qie)出來并指(zhi)示模型重(zhong)新生成。有朝一(yi)日，這種能(neng)力還可用于(yu)清洗和編(bian)輯(ji)(ji)音頻，且使用過程與(yu)目前流行的(de)圖(tu)像編(bian)輯(ji)(ji)工具一(yi)樣輕松便捷(jie)。
多樣(yang)化(hua)語(yu)音(yin)采樣(yang)：利用多樣(yang)化(hua)的(de)(de)真(zhen)實(shi)數據(ju)完成(cheng)(cheng)學習后，Voicebox 將可生(sheng)成(cheng)(cheng)與(yu)人們的(de)(de)現實(shi)對話高度吻合(he)的(de)(de)以上六種語(yu)言對話音(yin)頻。未來，此功能可用于生(sheng)成(cheng)(cheng)合(he)成(cheng)(cheng)數據(ju)，協(xie)助(zhu)(zhu)提升語(yu)音(yin)助(zhu)(zhu)手(shou)模(mo)(mo)型(xing)(xing)的(de)(de)訓練效果(guo)。研究結果(guo)表明，基于 Voicebox 生(sheng)成(cheng)(cheng)的(de)(de)合(he)成(cheng)(cheng)語(yu)音(yin)訓練出(chu)的(de)(de)語(yu)音(yin)識別模(mo)(mo)型(xing)(xing)，在性(xing)能上幾乎與(yu)使用真(zhen)實(shi)語(yu)音(yin)的(de)(de)模(mo)(mo)型(xing)(xing)相當(dang)，錯(cuo)誤率降低了(le) 1%;與(yu)以往同類文本到語(yu)音(yin)模(mo)(mo)型(xing)(xing)相比，合(he)成(cheng)(cheng)語(yu)音(yin)數據(ju)訓練結果(guo)的(de)(de)錯(cuo)誤率更是大幅降低 45%至 70%。

Voicebox 的誕生(sheng)，標志著生(sheng)成(cheng)式(shi) AI 研(yan)究又向前(qian)邁出(chu)了重要(yao)一步。在文本(ben)、圖像和視頻生(sheng)成(cheng)等方面，具備任務泛(fan)化(hua)能(neng)力的可擴(kuo)展生(sheng)成(cheng)式(shi) AI 模型已經激發(fa)了人們對于跨任務潛在應用的濃厚(hou)興趣。Meta AI 希望音頻領域未來也能(neng)掀(xian)起同樣的潮流，同時繼續保(bao)持深(shen)耕和探索，關注(zhu)其他研(yan)究人員如何(he)在 Voicebox 的基(ji)礎之(zhi)上尋求新的突破。

Voicebox 背后的 Flow Matching 技術

現有(you)語音合成(cheng)工具的主(zhu)要局限之一，在于只能就專門(men)的任(ren)務配合準備好(hao)的數據(ju)接(jie)受訓練。這些單(dan)調而(er)干凈的輸入數據(ju)相對(dui)有(you)限且(qie)難(nan)以(yi)收集，因此也(ye)導(dao)致輸出結果變得同(tong)樣(yang)單(dan)調。

Meta AI 的研究人員基于“流匹配”(Flow Matching)技術構建了 Voicebox，這項技術是 Meta 在非自回歸生成模型領域的最新進展，能夠掌握文本到語音之間高度不確定的映射。非確定(ding)性(xing)映射非常重要，它使得 Voicebox 能(neng)夠從不(bu)同的(de)(de)語音(yin)數據(ju)中(zhong)學習，且無需對各種變化要素做詳(xiang)盡標注(zhu)。也就是說，Voicebox 能(neng)夠在多樣性(xing)更強、規模(mo)更大的(de)(de)數據(ju)之上進行訓練。

與當前最(zui)先進的(de)英語(yu)模型(xing)(xing) VALL-E 相比，Voicebox 在可(ke)懂(dong)度(du)(du)(即單詞錯誤率，前者為 5.9%，Voicebox 為 1.9%)和音(yin)頻(pin)相似度(du)(du)(0.580 對 0.681)方面均更(geng)加強(qiang)大，且速度(du)(du)要(yao)快 20 倍。在跨語(yu)言(yan)風格遷(qian)移方面，Voicebox 也優于(yu)領(ling)先模型(xing)(xing) YourTTS，能夠將平(ping)均單詞錯誤率從(cong) 10.9%降低至 5.2%，并(bing)將音(yin)頻(pin)相似度(du)(du)從(cong) 0.335 提高至 0.481。

Voicebox取得新的先進結果，在單詞(ci)錯誤率方面(mian)優于(yu)Vall-E和YourTTS。

Voicebox還分別在英語和(he)多語言基準測試中(zhong)的(de)音頻(pin)風格相似性方面，達成(cheng)了新的(de)頂尖成(cheng)績。

研究人員使用超過 5 萬小時的語(yu)(yu)音(yin)錄(lu)音(yin)，和(he)來(lai)自英語(yu)(yu)、法語(yu)(yu)、西班牙語(yu)(yu)、德語(yu)(yu)、波蘭語(yu)(yu)和(he)葡萄牙語(yu)(yu)的公共有(you)聲讀物轉(zhuan)錄(lu)對 Voicebox 進行訓練。經(jing)過訓練后，Voicebox 能夠在給定前(qian)后語(yu)(yu)音(yin)和(he)片(pian)段轉(zhuan)錄(lu)數據時預(yu)測(ce)出(chu)語(yu)(yu)音(yin)片(pian)段。它還能學會根據上下文補全語(yu)(yu)音(yin)，從而被應用于其(qi)他語(yu)(yu)音(yin)生成任務，包括在無需重建整個(ge)輸入的前(qian)提(ti)下生成音(yin)頻的中間部分。

“AI 孫燕姿”爆火后，再看語音生成濫用風險

Voicebox 擁有眾多令人興奮的用例，但 Meta 也承認其存在潛在的濫用風險，所以 Meta AI 的研究人員決定暫不公開 Voicebox 模型或代碼。Meta 在社交平臺上公開表示：“與其他強大的人工智能創新技(ji)術(shu)一(yi)樣，我(wo)們認為這項技(ji)術(shu)也可能會被濫用，造成意(yi)外傷害。”

事實(shi)上，語音生成引(yin)發(fa)的(de)濫用風險并不(bu)少(shao)見。以(yi)華語樂(le)壇最近爆火的(de)“AI 孫燕姿(zi)”為例，AI 讓(rang)孫燕姿(zi)翻紅的(de)同時(shi)，也讓(rang)背后的(de)風險顯露出來。一方面，AI 合成聲音可(ke)能(neng)涉(she)及侵(qin)權問題，另一方面，也可(ke)能(neng)帶來一系(xi)列倫理和法律的(de)風險。

我國《民(min)法典》第(di)(di) 1023 條(tiao)第(di)(di)二款規(gui)定(ding)，對自然人(ren)(ren)聲音的(de)保(bao)(bao)護，參(can)照適用肖像(xiang)權(quan)(quan)保(bao)(bao)護的(de)有關規(gui)定(ding)。第(di)(di) 1019 條(tiao)第(di)(di)一(yi)款規(gui)定(ding)，任何組織或者個(ge)人(ren)(ren)不(bu)得(de)以丑化(hua)、污損，或者利用信(xin)息技術手段偽造等方式侵害他人(ren)(ren)的(de)肖像(xiang)權(quan)(quan)。未(wei)經肖像(xiang)權(quan)(quan)人(ren)(ren)同意，不(bu)得(de)制(zhi)作(zuo)、使用、公(gong)(gong)開肖像(xiang)權(quan)(quan)人(ren)(ren)的(de)肖像(xiang)。由此可(ke)見，比照對肖像(xiang)的(de)人(ren)(ren)格權(quan)(quan)保(bao)(bao)護，未(wei)經權(quan)(quan)利人(ren)(ren)的(de)同意，也(ye)不(bu)得(de)制(zhi)作(zuo)、使用、公(gong)(gong)開利用權(quan)(quan)利人(ren)(ren)的(de)聲音。

此外，語(yu)音(yin)(yin)(yin)生(sheng)成也會成為電(dian)信(xin)詐(zha)(zha)騙(pian)(pian)的(de)利器。前段時(shi)間(jian)，美國和(he)加(jia)拿大(da)各地(di)使用 AI 合(he)成語(yu)音(yin)(yin)(yin)進(jin)行電(dian)信(xin)詐(zha)(zha)騙(pian)(pian)的(de)案(an)例(li)多(duo)發，不(bu)少老年上當受騙(pian)(pian)。加(jia)拿大(da)警方稱(cheng)，最(zui)近加(jia)拿大(da)各地(di)都有不(bu)少類似案(an)件發生(sheng)，涉案(an)金額已達數(shu)百(bai)萬加(jia)元。有受害(hai)者表示，犯罪分子(zi)使用的(de)聲音(yin)(yin)(yin)和(he)她(ta)兒子(zi)的(de)聲音(yin)(yin)(yin)簡(jian)直一模(mo)一樣。在美國，類似的(de)詐(zha)(zha)騙(pian)(pian)案(an)件近期也呈上升(sheng)趨勢。

作為首個(ge)能(neng)夠(gou)成(cheng)功執行任務的(de)(de)多功能(neng)、高(gao)效(xiao)泛化模(mo)型(xing)，Meta AI 堅信 Voicebox 即將開創生成(cheng)式 AI 語音模(mo)型(xing)的(de)(de)新(xin)時代，但與(yu)其他(ta)強大的(de)(de) AI 創新(xin)成(cheng)果一樣(yang)，這項技術同樣(yang)可(ke)能(neng)因誤用引發意(yi)外危害。對(dui)于語音生成(cheng)帶來的(de)(de)濫用風(feng)險(xian)，Meta 也(ye)想好了對(dui)策(ce)——構(gou)建一款高(gao)效(xiao)分類器，用以區(qu)分由 Voicebox 生成(cheng)的(de)(de)音頻和真實(shi)語音，借此緩(huan)解(jie)未來可(ke)能(neng)出(chu)現的(de)(de)種種風(feng)險(xian)。

在論文(//research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)中，Meta AI 研究人員還具體講解了如何構建一款高效分類器，用以區分真實語音和 Voicebox 生成的音頻。

參考鏈接：

//ai.facebook.com/blog/voicebox-generative-ai-model-speech/

//www.xinhuanet.com/ent/20230620/85f213fc8b914b7a9ea17addc3cec01e/c.html

本文轉載來源：

//www.infoq.cn/news/YF1LRfH3Ttt7eZ0mBPjQ

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜