国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

“AI 孫燕姿”爆火后,Meta 發布通用語音生成 AI:支持多種語音功能
作者 | InfoQ2023-06-21

Meta 發布語音生成 AI 模型 Voicebox

近(jin)日,Meta AI 宣(xuan)布在生(sheng)成(cheng)(cheng)式(shi) AI 語音(yin)模型領域取(qu)得(de)了(le)突破(po):開(kai)發出了(le)首個可泛化至(zhi)多(duo)種語音(yin)生(sheng)成(cheng)(cheng)任(ren)務的模型 Voicebox,無需專(zhuan)門訓練即可達成(cheng)(cheng)頂尖(jian)性能表現(xian)。Meta AI 研究人員分享(xiang)了(le)多(duo)段(duan)音(yin)頻樣本(ben)和一篇研究論文,其中(zhong)詳細介紹了(le)他們采用的方法和取(qu)得(de)的成(cheng)(cheng)果。

與圖像及文本類生成系統一樣,Voicebox 能夠創建多種樣式的輸出,包括從零開始創建輸出、修改給定樣本等。但與以往不同的是,Voicebox 并非簡單創建圖片或一段文字,而是直接生成高質量的音頻片段。該(gai)模型能夠(gou)為括英語、法語、西班(ban)牙(ya)語、德語、波(bo)蘭語和葡萄牙(ya)語在內(nei)的六種(zhong)語言合(he)成語音,同時執行噪聲去除、內(nei)容(rong)編輯(ji)、風(feng)格轉換和多(duo)樣化樣本生(sheng)成等任(ren)務(wu)。

在 Voicebox 出現之前,生成式 AI 語音模型需要配合精心準備的訓練數據,就各項任務接受特定訓練。Voicebox 使用一種新的方法,可直接從原始音頻和隨附的轉錄結果中學習。與只能根據給(gei)定(ding)音頻(pin)片段續(xu)寫(xie)結尾的自回歸模型不同,Voicebox 能夠修改給(gei)定(ding)樣(yang)本中的任意部分。

據了解,Voicebox 能夠出(chu)色執行各種任務,具體包(bao)括:

  • 結合上(shang)下文(wen)的(de)(de)文(wen)本(ben)到(dao)語音合成(cheng)(cheng):使用長(chang)度僅為(wei)兩秒的(de)(de)輸入音頻樣本(ben),Voicebox 即可匹配樣本(ben)的(de)(de)音頻風格并據此進行文(wen)本(ben)到(dao)語音生(sheng)成(cheng)(cheng)。后續項目有望(wang)為(wei)無法說(shuo)話的(de)(de)人士(shi)提(ti)供語音支持,或者(zhe)為(wei)游戲 NPC 及虛擬(ni)助手(shou)快速生(sheng)成(cheng)(cheng)對話語音。

  • 跨語(yu)(yu)言風格轉(zhuan)換:給定一段語(yu)(yu)音(yin)(yin)樣本,外(wai)加一段英語(yu)(yu)、法語(yu)(yu)、德語(yu)(yu)、西班(ban)牙語(yu)(yu)、波蘭語(yu)(yu)或葡萄牙語(yu)(yu)的(de)文本,Voicebox 即可生成(cheng)對應的(de)朗(lang)讀音(yin)(yin)頻。這(zhe)種能力訟(song)人(ren)(ren)興奮,未來可以幫助使用不同母語(yu)(yu)的(de)人(ren)(ren)們通過自然(ran)且(qie)真實的(de)方式開展(zhan)交流(liu)。

  • 語音(yin)降噪(zao)與編輯:Voicebox 的上下文(wen)學習為其賦予了強(qiang)大的語音(yin)生(sheng)成(cheng)(cheng)能力,可無縫(feng)編輯音(yin)頻(pin)(pin)中(zhong)的片段(duan)。它能重(zhong)新合成(cheng)(cheng)被暫時噪(zao)聲(sheng)干(gan)擾的語音(yin)部分,或者替換掉(diao)說錯(cuo)的詞,而無需重(zhong)新錄制(zhi)整段(duan)語音(yin)。用(yong)(yong)戶可以(yi)找到(dao)語音(yin)中(zhong)被噪(zao)聲(sheng)(如(ru)狗(gou)叫聲(sheng))干(gan)擾的原始片段(duan),剪切出來(lai)并指示模(mo)型重(zhong)新生(sheng)成(cheng)(cheng)。有朝(chao)一日,這種能力還可用(yong)(yong)于(yu)清洗和(he)編輯音(yin)頻(pin)(pin),且使用(yong)(yong)過程(cheng)與目前流行的圖(tu)像(xiang)編輯工(gong)具(ju)一樣輕松(song)便(bian)捷(jie)。

  • 多(duo)樣化語(yu)(yu)音(yin)(yin)采(cai)樣:利用(yong)多(duo)樣化的(de)真實(shi)數(shu)(shu)據完成(cheng)學(xue)習后,Voicebox  將可(ke)生(sheng)成(cheng)與人們的(de)現實(shi)對話高度吻合的(de)以上(shang)六種語(yu)(yu)言對話音(yin)(yin)頻。未來,此功(gong)能可(ke)用(yong)于(yu)生(sheng)成(cheng)合成(cheng)數(shu)(shu)據,協助提升語(yu)(yu)音(yin)(yin)助手模型的(de)訓練(lian)效果(guo)(guo)。研究結果(guo)(guo)表(biao)明,基(ji)于(yu) Voicebox 生(sheng)成(cheng)的(de)合成(cheng)語(yu)(yu)音(yin)(yin)訓練(lian)出(chu)的(de)語(yu)(yu)音(yin)(yin)識別(bie)模型,在性能上(shang)幾乎與使用(yong)真實(shi)語(yu)(yu)音(yin)(yin)的(de)模型相當,錯誤(wu)(wu)率降(jiang)低了 1%;與以往同類(lei)文本到(dao)語(yu)(yu)音(yin)(yin)模型相比,合成(cheng)語(yu)(yu)音(yin)(yin)數(shu)(shu)據訓練(lian)結果(guo)(guo)的(de)錯誤(wu)(wu)率更是(shi)大幅降(jiang)低 45%至 70%。

Voicebox 的(de)(de)誕生(sheng),標志著生(sheng)成式 AI 研(yan)究又(you)向前邁出了(le)重要一步。在文本、圖像和(he)視頻生(sheng)成等方面,具備任務(wu)泛化能力的(de)(de)可擴展生(sheng)成式 AI 模型已經激發了(le)人們對(dui)于跨任務(wu)潛在應用(yong)的(de)(de)濃厚興趣。Meta AI 希望音(yin)頻領域未來也(ye)能掀起(qi)同樣的(de)(de)潮流,同時(shi)繼續保持深耕和(he)探索(suo),關注其他研(yan)究人員如何在 Voicebox 的(de)(de)基礎之上尋(xun)求(qiu)新的(de)(de)突破。

Voicebox 背后的 Flow Matching 技術

現有語音合成工具的(de)(de)主要(yao)局限之一,在于只能就專門的(de)(de)任務配合準備好的(de)(de)數(shu)據(ju)接受訓練。這(zhe)些(xie)單調而干凈的(de)(de)輸(shu)入數(shu)據(ju)相對有限且難以(yi)收(shou)集,因此(ci)也導致輸(shu)出(chu)結果(guo)變(bian)得同樣單調。

Meta AI 的研究人員基于“流匹配”(Flow Matching)技術構建了 Voicebox,這項技術是 Meta 在非自回歸生成模型領域的最新進展,能夠掌握文本到語音之間高度不確定的映射。非確定(ding)性(xing)映射非常重要(yao),它使得 Voicebox 能(neng)夠(gou)從(cong)不同的語音數(shu)據中學(xue)習,且無需對各種(zhong)變化要(yao)素做(zuo)詳盡標注。也就(jiu)是說,Voicebox 能(neng)夠(gou)在(zai)多樣性(xing)更強、規模(mo)更大的數(shu)據之上進(jin)行(xing)訓練。

與(yu)當前(qian)最先進的英語模型 VALL-E 相(xiang)比,Voicebox 在可懂度(即單詞錯誤率,前(qian)者為(wei) 5.9%,Voicebox 為(wei) 1.9%)和音頻(pin)相(xiang)似(si)度(0.580 對 0.681)方面均更加強(qiang)大,且速度要快(kuai) 20 倍(bei)。在跨語言風格遷移方面,Voicebox 也(ye)優(you)于(yu)領先模型 YourTTS,能夠將平均單詞錯誤率從 10.9%降低至(zhi) 5.2%,并將音頻(pin)相(xiang)似(si)度從 0.335 提高至(zhi) 0.481。

Voicebox取得(de)新的先(xian)進結果,在(zai)單(dan)詞錯誤率方(fang)面優于Vall-E和YourTTS。

Voicebox還分(fen)別在英語(yu)(yu)和多語(yu)(yu)言基準測試中的音(yin)頻風格相似(si)性方面,達成(cheng)了(le)新的頂尖(jian)成(cheng)績。

研究人員使用(yong)超過(guo) 5 萬小(xiao)時(shi)的語(yu)(yu)(yu)音(yin)(yin)錄(lu)(lu)音(yin)(yin),和(he)來自英語(yu)(yu)(yu)、法語(yu)(yu)(yu)、西班牙語(yu)(yu)(yu)、德語(yu)(yu)(yu)、波蘭語(yu)(yu)(yu)和(he)葡萄牙語(yu)(yu)(yu)的公共有(you)聲(sheng)讀(du)物轉(zhuan)錄(lu)(lu)對 Voicebox 進(jin)行訓練。經過(guo)訓練后(hou),Voicebox 能(neng)夠在(zai)給定前后(hou)語(yu)(yu)(yu)音(yin)(yin)和(he)片段轉(zhuan)錄(lu)(lu)數據時(shi)預測出語(yu)(yu)(yu)音(yin)(yin)片段。它還能(neng)學會根據上下文補全語(yu)(yu)(yu)音(yin)(yin),從而被應用(yong)于其他語(yu)(yu)(yu)音(yin)(yin)生(sheng)成(cheng)任務,包括(kuo)在(zai)無需重建(jian)整個(ge)輸(shu)入的前提下生(sheng)成(cheng)音(yin)(yin)頻的中間(jian)部(bu)分。

“AI 孫燕姿”爆火后,再看語音生成濫用風險

Voicebox 擁有眾多令人興奮的用例,但 Meta 也承認其存在潛在的濫用風險,所以 Meta AI 的研究人員決定暫不公開 Voicebox 模型或代碼。Meta 在社交平臺上公開表示:“與其他強大的人工智能創新技術(shu)一樣,我們認(ren)為這(zhe)項技術(shu)也可能(neng)會被(bei)濫用,造成意外傷害(hai)。”

事實上,語音(yin)生成引發的濫用(yong)風(feng)險并不少(shao)見。以(yi)華語樂壇最近爆火(huo)的“AI 孫燕(yan)姿(zi)(zi)”為例(li),AI 讓孫燕(yan)姿(zi)(zi)翻紅的同(tong)時,也(ye)讓背后(hou)的風(feng)險顯露出(chu)來。一方面,AI 合成聲音(yin)可(ke)能涉及侵權問題,另一方面,也(ye)可(ke)能帶來一系列倫(lun)理和法律的風(feng)險。

我國(guo)《民法典》第 1023 條(tiao)第二(er)款(kuan)規定,對自然人(ren)(ren)(ren)聲音(yin)的保(bao)護,參照適用(yong)(yong)肖(xiao)像權(quan)(quan)保(bao)護的有(you)關規定。第 1019 條(tiao)第一款(kuan)規定,任何組織(zhi)或者個人(ren)(ren)(ren)不(bu)得(de)(de)以丑(chou)化、污損,或者利(li)用(yong)(yong)信(xin)息技術手段偽造等方式侵害他(ta)人(ren)(ren)(ren)的肖(xiao)像權(quan)(quan)。未(wei)(wei)經肖(xiao)像權(quan)(quan)人(ren)(ren)(ren)同(tong)意,不(bu)得(de)(de)制作(zuo)、使用(yong)(yong)、公(gong)開肖(xiao)像權(quan)(quan)人(ren)(ren)(ren)的肖(xiao)像。由(you)此可見,比照對肖(xiao)像的人(ren)(ren)(ren)格權(quan)(quan)保(bao)護,未(wei)(wei)經權(quan)(quan)利(li)人(ren)(ren)(ren)的同(tong)意,也(ye)不(bu)得(de)(de)制作(zuo)、使用(yong)(yong)、公(gong)開利(li)用(yong)(yong)權(quan)(quan)利(li)人(ren)(ren)(ren)的聲音(yin)。

此外,語(yu)音生成也(ye)會(hui)成為電信詐(zha)騙的利(li)器。前(qian)段時間,美(mei)國和加(jia)拿大(da)各地使(shi)用 AI 合成語(yu)音進(jin)行電信詐(zha)騙的案(an)例(li)多(duo)發(fa),不(bu)(bu)少老年上當受騙。加(jia)拿大(da)警方稱,最(zui)近加(jia)拿大(da)各地都有(you)不(bu)(bu)少類似(si)案(an)件發(fa)生,涉案(an)金額已達數百萬加(jia)元。有(you)受害者(zhe)表示,犯罪分(fen)子使(shi)用的聲音和她兒(er)子的聲音簡直一模一樣(yang)。在美(mei)國,類似(si)的詐(zha)騙案(an)件近期(qi)也(ye)呈上升趨勢(shi)。

作(zuo)為首個能夠成(cheng)(cheng)(cheng)功(gong)執行任務的多功(gong)能、高效(xiao)(xiao)泛化模型(xing),Meta AI 堅信 Voicebox 即將開創(chuang)生成(cheng)(cheng)(cheng)式 AI 語音(yin)模型(xing)的新(xin)時代,但與其(qi)他強大的 AI 創(chuang)新(xin)成(cheng)(cheng)(cheng)果(guo)一樣,這項技術同樣可能因(yin)誤用引發意外危害。對于語音(yin)生成(cheng)(cheng)(cheng)帶來的濫(lan)用風險,Meta 也想好(hao)了(le)對策——構建一款高效(xiao)(xiao)分類器,用以區(qu)分由 Voicebox 生成(cheng)(cheng)(cheng)的音(yin)頻和真(zhen)實語音(yin),借此(ci)緩解未(wei)來可能出現的種種風險。

在論文(//research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)中,Meta AI 研究人員還具體講解了如何構建一款高效分類器,用以區分真實語音和 Voicebox 生成的音頻

參考(kao)鏈接:

//ai.facebook.com/blog/voicebox-generative-ai-model-speech/

//www.xinhuanet.com/ent/20230620/85f213fc8b914b7a9ea17addc3cec01e/c.html

本文轉載(zai)來(lai)源:

//www.infoq.cn/news/YF1LRfH3Ttt7eZ0mBPjQ

熱門文章
近日,華為向30家日企收取專利使費的消息引發熱議。
2023-06-21
X