大模型下探音视频AI市场，战争才刚刚开始

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

大模型下探音視頻AI市場，戰爭才剛剛開始 | ToB產業觀察

作者 | 鈦媒體APP2023-06-07

圖片來源：視覺中國

大模型面向產業落地的難點是什么?

1.當下，基于生成式的人工智能技(ji)術(AIGC)，仍(reng)然需要海量數據進行訓練(lian)才(cai)能(neng)得到一個回復質量較高的模(mo)型算法，初期(qi)訓練(lian)成(cheng)本非常之高。這對于傾(qing)向自研基礎大模(mo)型的企業是必須(xu)要過的門檻(jian)。

2.對(dui)于(yu)給(gei)出算(suan)法更(geng)(geng)加精(jing)準(zhun)、訓練成本(ben)更(geng)(geng)低、對(dui)于(yu)用戶調取(qu)更(geng)(geng)方便的(de)模(mo)型(xing)，這一方面(mian)的(de)提升空(kong)間較為明晰。在媒(mei)體、游戲(xi)、營銷等行業已(yi)經看(kan)到比較多典型(xing)的(de)內容生成場(chang)景，但AIGC技(ji)術并(bing)不(bu)能適(shi)用于(yu)所有場(chang)景，且在商業層面(mian)的(de)實際回報率尚(shang)未明朗。

3.從市場需求(qiu)的共性來(lai)看，企業對(dui)AI技術(shu)更(geng)關(guan)心，關(guan)心怎么跟業務融合，但同(tong)時也會有些(xie)擔憂或緊張，新技術(shu)會不(bu)會對(dui)業務帶來(lai)沖擊。與此同(tong)時，各國對(dui)人工智能和數據獲取監管的法律條文，以及對(dui)“類(lei)ChatGPT”的支持力度，也在反映(ying)這種(zhong)觀(guan)望(wang)態度。

過(guo)去半年，整個科(ke)技圈有關AIGC創新(xin)的新(xin)聞鋪天蓋地，但(dan)一頓操作猛(meng)如虎之后，還有更多仍在“來的路上(shang)”。

6月1日，阿里云宣(xuan)布通義大模(mo)型進展，聚焦(jiao)音視頻AI的(de)“通義聽悟”正式(shi)亮相，成為國內首個開放公測的(de)大模(mo)型應用產品。

通義(yi)聽(ting)悟其前身是早在2021年研發投入市場的“聽(ting)悟”產品(pin)，此(ci)次(ci)除(chu)了(le)集成(cheng)阿(a)里通義(yi)千問大模(mo)型(xing)的理解(jie)與(yu)摘要(yao)能(neng)力(li)外，還融合了(le)阿(a)里最先進的語音語義(yi)、多(duo)模(mo)態算法等技(ji)術。公測期(qi)間，聽(ting)悟用戶可通過每日登陸等多(duo)種任務領取免費轉寫時(shi)(shi)長，阿(a)里云官方(fang)多(duo)個平臺也會放大量(liang)20小時(shi)(shi)的轉寫口令碼。除(chu)此(ci)之外，聽(ting)悟企業版還在與(yu)釘釘“釘閃記”、夸克APP、阿(a)里云盤等進行(xing)能(neng)力(li)進行(xing)集成(cheng)。

此(ci)舉(ju)對于國內的AI語音技術(shu)服務(wu)商以及(ji)“類ChatGPT”應(ying)用(yong)企業，并不(bu)是個好消(xiao)息。

從聽悟到通義聽悟

結合當(dang)前(qian)的官方定義來看，通義聽悟(wu)具備“聽”與“悟(wu)”能力，即“聽力好”，能高準確度生成會議記錄、區分不同(tong)發(fa)言人(ren)，“悟(wu)性高”，可形成摘(zhai)要、總(zong)結全文及每(mei)個發(fa)言人(ren)觀點(dian)、整理關注重點(dian)和待辦事項。

這其實也明確了外界對AI音視頻技術產品的一個重要(yao)期待：要(yao)讓AI理(li)(li)(li)解(jie)(jie)人(ren)類(lei)，并且以人(ren)類(lei)可(ke)理(li)(li)(li)解(jie)(jie)的方式表達(da)出來。AI理(li)(li)(li)解(jie)(jie)人(ren)類(lei)，意(yi)味著(zhu)不只要(yao)聽到表面語(yu)義(yi)，甚至還要(yao)理(li)(li)(li)解(jie)(jie)人(ren)的情(qing)緒和意(yi)圖;AI表達(da)，則意(yi)味著(zhu)在文本生成、內容(rong)摘要(yao)、風格及情(qing)緒表達(da)上要(yao)有所突破。同時(shi)結合多模態技術，不只是文字(zi)、音頻，還有圖像(xiang)、視頻等方式傳遞給AI理(li)(li)(li)解(jie)(jie)。

這個過程，在(zai)沒有(you)(you)大模(mo)型技術(shu)應用(yong)前，就已經存在(zai)諸多(duo)細(xi)節性挑(tiao)戰。但在(zai)阿里(li)云CTO周靖人看(kan)來，有(you)(you)了通(tong)義(yi)大模(mo)型的(de)加持(chi)，阿里(li)將多(duo)年積累的(de)語(yu)音技術(shu)，以(yi)及多(duo)模(mo)態的(de)能力有(you)(you)機結合起來，最(zui)終形成今(jin)天(tian)的(de)通(tong)義(yi)聽悟(wu)。

“‘知其然不知所以然’是(shi)產品沒有大模型(xing)的(de)局限性(xing)，過(guo)去的(de)聽悟(wu)只能做到將語音文字(zi)轉錄出(chu)來，但背后的(de)整理(li)(li)、理(li)(li)解、信息收取，是(shi)依靠人來完成的(de)。之前也曾(ceng)用過(guo)小模型(xing)，但結果并不好。”周靖人在會后的(de)交流活動中指(zhi)出(chu)。

以語(yu)音識別(bie)TTS為例，聽悟內置了語(yu)音識別(bie)模(mo)型Paraformer，它首次在(zai)工業級應用(yong)層面解(jie)決了端(duan)到(dao)端(duan)識別(bie)效果與效率兼顧的難題。配合GPU推理，不同版本的Paraformer可將(jiang)(jiang)推理效率提升(sheng)5～10倍(bei)，同時，Paraformer使用(yong)了6倍(bei)下采樣的低幀率建模(mo)方案，可將(jiang)(jiang)計算(suan)量降低近6倍(bei)，支(zhi)持大(da)模(mo)型的高(gao)效推理。

說話人識(shi)別模型(xing)CAM++，相較(jiao)于如(ru)ECAPA-TDNN和(he)(he)ResNet模型(xing)，在準確識(shi)別和(he)(he)高(gao)效(xiao)(xiao)計算的同(tong)時，還實現(xian)了整體優(you)解(jie)。在行業主流的中英(ying)文測試集VoxCeleb和(he)(he)CN-Celeb上均刷(shua)新了最優(you)準確率(lv)，并且在計算效(xiao)(xiao)率(lv)和(he)(he)推(tui)理速度(du)上有著明顯(xian)優(you)勢。

而(er)此次聽悟上線測(ce)試的(de)(de)通義(yi)千問大(da)模(mo)型的(de)(de)信息摘要能(neng)力，為保證抽取出(chu)(chu)的(de)(de)摘要信息的(de)(de)事實準(zhun)確(que)，大(da)幅度減少(shao)幻覺，團隊還(huan)融合了在推(tui)理(li)、對(dui)齊(qi)和對(dui)話問答等(deng)方面的(de)(de)研究成果。如在推(tui)理(li)能(neng)力方面，2022年團隊提出(chu)(chu)了基(ji)于大(da)語言(yan)模(mo)型的(de)(de)知識探測(ce)與推(tui)理(li)利用的(de)(de)框架 Proton。

對手會是訊飛嗎?

業內(nei)普遍(bian)(bian)一個聲音是，“很多(duo)產品因(yin)為大(da)(da)模型的到來會重新再做一遍(bian)(bian)”，接入大(da)(da)模型能力，或將改變的是產品的業務邏輯、交(jiao)互模式，甚至是收費模式。

從(cong)通(tong)義聽悟當前(qian)的產(chan)品(pin)界面上看，針對的仍然(ran)是比較(jiao)高(gao)頻(pin)的場(chang)景，往往跟對話(hua)或(huo)交流相(xiang)關，如(ru)上述提及的總結、翻譯、內容(rong)(rong)摘取，其本質上是對內容(rong)(rong)語義的理解(jie)輸(shu)出。據官(guan)方(fang)描(miao)述，其定位為一款工作學習AI助手，瞄準具(ju)有高(gao)知識附(fu)加(jia)值(zhi)的音視(shi)頻(pin)內容(rong)(rong)場(chang)景，如(ru)開會、上課、訪談(tan)、培訓(xun)、面試、直播(bo)、看視(shi)頻(pin)、聽播(bo)客等，能通(tong)過大模(mo)型等最新AI技術(shu)快速提煉和沉淀(dian)知識。

通義(yi)聽(ting)悟的(de)(de)技(ji)術負責人鄢(yan)志杰一(yi)直(zhi)都在從事智(zhi)能語音(yin)(yin)交互相關工作，他解(jie)(jie)(jie)釋道(dao)，“目前展(zhan)示的(de)(de)視(shi)頻(pin)(pin)轉(zhuan)文(wen)(wen)字，仍然是(shi)將視(shi)頻(pin)(pin)里的(de)(de)音(yin)(yin)頻(pin)(pin)進行文(wen)(wen)字轉(zhuan)換，尚未展(zhan)示出視(shi)頻(pin)(pin)直(zhi)接轉(zhuan)文(wen)(wen)字的(de)(de)理(li)(li)解(jie)(jie)(jie)過程。未來會(hui)進行多模(mo)態(tai)的(de)(de)理(li)(li)解(jie)(jie)(jie)，不僅(jin)要有音(yin)(yin)頻(pin)(pin)轉(zhuan)文(wen)(wen)字，還要輔助以視(shi)頻(pin)(pin)和視(shi)覺的(de)(de)模(mo)態(tai)對內容進行更好的(de)(de)理(li)(li)解(jie)(jie)(jie)。”

下(xia)一(yi)步(bu)，通(tong)義聽悟(wu)會被各(ge)種(zhong)各(ge)樣的(de)業(ye)(ye)務(wu)(wu)系統集(ji)成，集(ji)成到(dao)智能(neng)化服(fu)務(wu)(wu)中，開(kai)發(fa)者可根據實際場景(jing)，最終打造基于業(ye)(ye)務(wu)(wu)場景(jing)的(de)MaaS服(fu)務(wu)(wu)，“通(tong)義聽悟(wu)一(yi)定會推出企業(ye)(ye)版，為(wei)企業(ye)(ye)場景(jing)所定制，每個(ge)企業(ye)(ye)也(ye)都會有(you)不同的(de)需求(qiu)，也(ye)有(you)數據安全、數據隱私等(deng)方面的(de)要求(qiu)。”周靖人(ren)補充道(dao)。

那么，通義聽悟的對手會是訊飛嗎?

事實上，音視頻是人機交互的重要入口，市面上成熟的AI音視頻產品并不在少數，除了訊飛、搜狗、網易有道等具備軟硬件能力的服務商外，飛書妙記、騰訊會議等互聯網公司孵化的企業辦公生產力工具，也同樣具備相似的能力。可能的區別在于，背后的AI技術邏輯，是否會因大模型的到來而徹底改變。

科大訊飛于(yu)上月(yue)發布星(xing)火(huo)大模(mo)型，其中軟件產品訊飛聽見(jian)會寫已(yi)經(jing)搭載大模(mo)型開放使用(yong)，在收費模(mo)式(shi)上已(yi)經(jing)給市場參考標準(zhun)——根據(ju)單(dan)次AI能(neng)力的使用(yong)(單(dan)次字(zi)數不超過8000字(zi))按月(yue)/季/年會員收費。

互(hu)聯網公司(si)在(zai)(zai)這方面的(de)(de)積累也從未缺(que)席(xi)，在(zai)(zai)不斷豐(feng)富AI技術(shu)體(ti)系(xi)的(de)(de)同時，也在(zai)(zai)迅速推進大(da)模型+的(de)(de)創(chuang)新。例(li)如從早期的(de)(de)iDST實(shi)驗(yan)室到達摩院，阿里2019年開始投入大(da)模型，2021年訓練實(shi)現(xian)10萬億參數的(de)(de)多模態大(da)模型M6，2022年發布通義大(da)模型，到如今的(de)(de)通義千(qian)問、通義聽(ting)悟已經在(zai)(zai)逐步產業(ye)化融合。

《中國(guo)人工(gong)智能大模(mo)型(xing)(xing)地圖研究報告(gao)》指出(chu)，據不完全統計，中國(guo)10億級(ji)參(can)數規模(mo)以上大模(mo)型(xing)(xing)已發布了(le)(le)79個(ge)，特(te)別是在(zai)自然語言理解、機器視(shi)覺、多模(mo)態等方面，出(chu)現了(le)(le)多個(ge)在(zai)行業有影響力(li)的(de)(de)大模(mo)型(xing)(xing)。上述提及(ji)的(de)(de)網易有道則(ze)(ze)基于教育場(chang)景推出(chu)了(le)(le)“子曰”大模(mo)型(xing)(xing)，出(chu)門問(wen)(wen)問(wen)(wen)的(de)(de)“序(xu)列猴子”則(ze)(ze)面向多模(mo)態生成能力(li)的(de)(de)大語言模(mo)型(xing)(xing)……

可(ke)見，能容(rong)納后來者的(de)(de)(de)賽(sai)道，依然存在尚未挖掘(jue)的(de)(de)(de)價值空間，更(geng)何況大模(mo)型(xing)將帶(dai)來新的(de)(de)(de)變量。