
圖片來源:視覺中國
大模型面向產業落地的難點是什么?
1.當下,基于生成式的人工智能技(ji)術(AIGC),仍(reng)然需要海量數據進行訓練(lian)才(cai)能(neng)得到一個回復質量較高的模(mo)型算法,初期(qi)訓練(lian)成(cheng)本非常之高。這對于傾(qing)向自研基礎大模(mo)型的企業是必須(xu)要過的門檻(jian)。
2.對(dui)于(yu)給(gei)出算(suan)法更(geng)(geng)加精(jing)準(zhun)、訓練成本(ben)更(geng)(geng)低、對(dui)于(yu)用戶調取(qu)更(geng)(geng)方便的(de)模(mo)型(xing),這一方面(mian)的(de)提升空(kong)間較為明晰。在媒(mei)體、游戲(xi)、營銷等行業已(yi)經看(kan)到比較多典型(xing)的(de)內容生成場(chang)景,但AIGC技(ji)術并(bing)不(bu)能適(shi)用于(yu)所有場(chang)景,且在商業層面(mian)的(de)實際回報率尚(shang)未明朗。
3.從市場需求(qiu)的共性來(lai)看,企業對(dui)AI技術(shu)更(geng)關(guan)心,關(guan)心怎么跟業務融合,但同(tong)時也會有些(xie)擔憂或緊張,新技術(shu)會不(bu)會對(dui)業務帶來(lai)沖擊。與此同(tong)時,各國對(dui)人工智能和數據獲取監管的法律條文,以及對(dui)“類(lei)ChatGPT”的支持力度,也在反映(ying)這種(zhong)觀(guan)望(wang)態度。
過(guo)去半年,整個科(ke)技圈有關AIGC創新(xin)的新(xin)聞鋪天蓋地,但(dan)一頓操作猛(meng)如虎之后,還有更多仍在“來的路上(shang)”。
6月1日,阿里云宣(xuan)布通義大模(mo)型進展,聚焦(jiao)音視頻AI的(de)“通義聽悟”正式(shi)亮相,成為國內首個開放公測的(de)大模(mo)型應用產品。
通義(yi)聽(ting)悟其前身是早在2021年研發投入市場的“聽(ting)悟”產品(pin),此(ci)次(ci)除(chu)了(le)集成(cheng)阿(a)里通義(yi)千問大模(mo)型(xing)的理解(jie)與(yu)摘要(yao)能(neng)力(li)外,還融合了(le)阿(a)里最先進的語音語義(yi)、多(duo)模(mo)態算法等技(ji)術。公測期(qi)間,聽(ting)悟用戶可通過每日登陸等多(duo)種任務領取免費轉寫時(shi)(shi)長,阿(a)里云官方(fang)多(duo)個平臺也會放大量(liang)20小時(shi)(shi)的轉寫口令碼。除(chu)此(ci)之外,聽(ting)悟企業版還在與(yu)釘釘“釘閃記”、夸克APP、阿(a)里云盤等進行(xing)能(neng)力(li)進行(xing)集成(cheng)。
此(ci)舉(ju)對于國內的AI語音技術(shu)服務(wu)商以及(ji)“類ChatGPT”應(ying)用(yong)企業,并不(bu)是個好消(xiao)息。
從聽悟到通義聽悟
結合當(dang)前(qian)的官方定義來看,通義聽悟(wu)具備“聽”與“悟(wu)”能力,即“聽力好”,能高準確度生成會議記錄、區分不同(tong)發(fa)言人(ren),“悟(wu)性高”,可形成摘(zhai)要、總(zong)結全文及每(mei)個發(fa)言人(ren)觀點(dian)、整理關注重點(dian)和待辦事項。
這其實也明確了外界對AI音視頻技術產品的一個重要(yao)期待:要(yao)讓AI理(li)(li)(li)解(jie)(jie)人(ren)類(lei),并且以人(ren)類(lei)可(ke)理(li)(li)(li)解(jie)(jie)的方式表達(da)出來。AI理(li)(li)(li)解(jie)(jie)人(ren)類(lei),意(yi)味著(zhu)不只要(yao)聽到表面語(yu)義(yi),甚至還要(yao)理(li)(li)(li)解(jie)(jie)人(ren)的情(qing)緒和意(yi)圖;AI表達(da),則意(yi)味著(zhu)在文本生成、內容(rong)摘要(yao)、風格及情(qing)緒表達(da)上要(yao)有所突破。同時(shi)結合多模態技術,不只是文字(zi)、音頻,還有圖像(xiang)、視頻等方式傳遞給AI理(li)(li)(li)解(jie)(jie)。

這個過程,在(zai)沒有(you)(you)大模(mo)型技術(shu)應用(yong)前,就已經存在(zai)諸多(duo)細(xi)節性挑(tiao)戰。但在(zai)阿里(li)云CTO周靖人看(kan)來,有(you)(you)了通(tong)義(yi)大模(mo)型的(de)加持(chi),阿里(li)將多(duo)年積累的(de)語(yu)音技術(shu),以(yi)及多(duo)模(mo)態的(de)能力有(you)(you)機結合起來,最(zui)終形成今(jin)天(tian)的(de)通(tong)義(yi)聽悟(wu)。
“‘知其然不知所以然’是(shi)產品沒有大模型(xing)的(de)局限性(xing),過(guo)去的(de)聽悟(wu)只能做到將語音文字(zi)轉錄出(chu)來,但背后的(de)整理(li)(li)、理(li)(li)解、信息收取,是(shi)依靠人來完成的(de)。之前也曾(ceng)用過(guo)小模型(xing),但結果并不好。”周靖人在會后的(de)交流活動中指(zhi)出(chu)。
以語(yu)音識別(bie)TTS為例,聽悟內置了語(yu)音識別(bie)模(mo)型Paraformer,它首次在(zai)工業級應用(yong)層面解(jie)決了端(duan)到(dao)端(duan)識別(bie)效果與效率兼顧的難題。配合GPU推理,不同版本的Paraformer可將(jiang)(jiang)推理效率提升(sheng)5~10倍(bei),同時,Paraformer使用(yong)了6倍(bei)下采樣的低幀率建模(mo)方案,可將(jiang)(jiang)計算(suan)量降低近6倍(bei),支(zhi)持大(da)模(mo)型的高(gao)效推理。
說話人識(shi)別模型(xing)CAM++,相較(jiao)于如(ru)ECAPA-TDNN和(he)(he)ResNet模型(xing),在準確識(shi)別和(he)(he)高(gao)效(xiao)(xiao)計算的同(tong)時,還實現(xian)了整體優(you)解(jie)。在行業主流的中英(ying)文測試集VoxCeleb和(he)(he)CN-Celeb上均刷(shua)新了最優(you)準確率(lv),并且在計算效(xiao)(xiao)率(lv)和(he)(he)推(tui)理速度(du)上有著明顯(xian)優(you)勢。
而(er)此次聽悟上線測(ce)試的(de)(de)通義(yi)千問大(da)模(mo)型的(de)(de)信息摘要能(neng)力,為保證抽取出(chu)(chu)的(de)(de)摘要信息的(de)(de)事實準(zhun)確(que),大(da)幅度減少(shao)幻覺,團隊還(huan)融合了在推(tui)理(li)、對(dui)齊(qi)和對(dui)話問答等(deng)方面的(de)(de)研究成果。如在推(tui)理(li)能(neng)力方面,2022年團隊提出(chu)(chu)了基(ji)于大(da)語言(yan)模(mo)型的(de)(de)知識探測(ce)與推(tui)理(li)利用的(de)(de)框架 Proton。
對手會是訊飛嗎?
業內(nei)普遍(bian)(bian)一個聲音是,“很多(duo)產品因(yin)為大(da)(da)模型的到來會重新再做一遍(bian)(bian)”,接入大(da)(da)模型能力,或將改變的是產品的業務邏輯、交(jiao)互模式,甚至是收費模式。
從(cong)通(tong)義聽悟當前(qian)的產(chan)品(pin)界面上看,針對的仍然(ran)是比較(jiao)高(gao)頻(pin)的場(chang)景,往往跟對話(hua)或(huo)交流相(xiang)關,如(ru)上述提及的總結、翻譯、內容(rong)(rong)摘取,其本質上是對內容(rong)(rong)語義的理解(jie)輸(shu)出。據官(guan)方(fang)描(miao)述,其定位為一款工作學習AI助手,瞄準具(ju)有高(gao)知識附(fu)加(jia)值(zhi)的音視(shi)頻(pin)內容(rong)(rong)場(chang)景,如(ru)開會、上課、訪談(tan)、培訓(xun)、面試、直播(bo)、看視(shi)頻(pin)、聽播(bo)客等,能通(tong)過大模(mo)型等最新AI技術(shu)快速提煉和沉淀(dian)知識。
通義(yi)聽(ting)悟的(de)(de)技(ji)術負責人鄢(yan)志杰一(yi)直(zhi)都在從事智(zhi)能語音(yin)(yin)交互相關工作,他解(jie)(jie)(jie)釋道(dao),“目前展(zhan)示的(de)(de)視(shi)頻(pin)(pin)轉(zhuan)文(wen)(wen)字,仍然是(shi)將視(shi)頻(pin)(pin)里的(de)(de)音(yin)(yin)頻(pin)(pin)進行文(wen)(wen)字轉(zhuan)換,尚未展(zhan)示出視(shi)頻(pin)(pin)直(zhi)接轉(zhuan)文(wen)(wen)字的(de)(de)理(li)(li)解(jie)(jie)(jie)過程。未來會(hui)進行多模(mo)態(tai)的(de)(de)理(li)(li)解(jie)(jie)(jie),不僅(jin)要有音(yin)(yin)頻(pin)(pin)轉(zhuan)文(wen)(wen)字,還要輔助以視(shi)頻(pin)(pin)和視(shi)覺的(de)(de)模(mo)態(tai)對內容進行更好的(de)(de)理(li)(li)解(jie)(jie)(jie)。”
下(xia)一(yi)步(bu),通(tong)義聽悟(wu)會被各(ge)種(zhong)各(ge)樣的(de)業(ye)(ye)務(wu)(wu)系統集(ji)成,集(ji)成到(dao)智能(neng)化服(fu)務(wu)(wu)中,開(kai)發(fa)者可根據實際場景(jing),最終打造基于業(ye)(ye)務(wu)(wu)場景(jing)的(de)MaaS服(fu)務(wu)(wu),“通(tong)義聽悟(wu)一(yi)定會推出企業(ye)(ye)版,為(wei)企業(ye)(ye)場景(jing)所定制,每個(ge)企業(ye)(ye)也(ye)都會有(you)不同的(de)需求(qiu),也(ye)有(you)數據安全、數據隱私等(deng)方面的(de)要求(qiu)。”周靖人(ren)補充道(dao)。
那么,通義聽悟的對手會是訊飛嗎?
事實上,音視頻是人機交互的重要入口,市面上成熟的AI音視頻產品并不在少數,除了訊飛、搜狗、網易有道等具備軟硬件能力的服務商外,飛書妙記、騰訊會議等互聯網公司孵化的企業辦公生產力工具,也同樣具備相似的能力。可能的區別在于,背后的AI技術邏輯,是否會因大模型的到來而徹底改變。
科大訊飛于(yu)上月(yue)發布星(xing)火(huo)大模(mo)型,其中軟件產品訊飛聽見(jian)會寫已(yi)經(jing)搭載大模(mo)型開放使用(yong),在收費模(mo)式(shi)上已(yi)經(jing)給市場參考標準(zhun)——根據(ju)單(dan)次AI能(neng)力的使用(yong)(單(dan)次字(zi)數不超過8000字(zi))按月(yue)/季/年會員收費。
互(hu)聯網公司(si)在(zai)(zai)這方面的(de)(de)積累也從未缺(que)席(xi),在(zai)(zai)不斷豐(feng)富AI技術(shu)體(ti)系(xi)的(de)(de)同時,也在(zai)(zai)迅速推進大(da)模型+的(de)(de)創(chuang)新。例(li)如從早期的(de)(de)iDST實(shi)驗(yan)室到達摩院,阿里2019年開始投入大(da)模型,2021年訓練實(shi)現(xian)10萬億參數的(de)(de)多模態大(da)模型M6,2022年發布通義大(da)模型,到如今的(de)(de)通義千(qian)問、通義聽(ting)悟已經在(zai)(zai)逐步產業(ye)化融合。
《中國(guo)人工(gong)智能大模(mo)型(xing)(xing)地圖研究報告(gao)》指出(chu),據不完全統計,中國(guo)10億級(ji)參(can)數規模(mo)以上大模(mo)型(xing)(xing)已發布了(le)(le)79個(ge),特(te)別是在(zai)自然語言理解、機器視(shi)覺、多模(mo)態等方面,出(chu)現了(le)(le)多個(ge)在(zai)行業有影響力(li)的(de)(de)大模(mo)型(xing)(xing)。上述提及(ji)的(de)(de)網易有道則(ze)(ze)基于教育場(chang)景推出(chu)了(le)(le)“子曰”大模(mo)型(xing)(xing),出(chu)門問(wen)(wen)問(wen)(wen)的(de)(de)“序(xu)列猴子”則(ze)(ze)面向多模(mo)態生成能力(li)的(de)(de)大語言模(mo)型(xing)(xing)……
可(ke)見,能容(rong)納后來者的(de)(de)(de)賽(sai)道,依然存在尚未挖掘(jue)的(de)(de)(de)價值空間,更(geng)何況大模(mo)型(xing)將帶(dai)來新的(de)(de)(de)變量。