国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

大模型下探音視頻AI市場,戰爭才剛剛開始 | ToB產業觀察
作者 | 鈦媒體APP2023-06-07

圖片來源:視覺中國

大模型面向產業落地的難點是什么?

1.當下,基于生成式的人工智能技(ji)術(AIGC),仍(reng)然(ran)需要(yao)海量(liang)數據(ju)進行訓練才(cai)能(neng)得到一個回復(fu)質(zhi)量(liang)較高(gao)的(de)(de)模型算(suan)法(fa),初(chu)期(qi)訓練成(cheng)本非常之高(gao)。這對于(yu)傾向自(zi)研基礎大模型的(de)(de)企業是(shi)必須(xu)要(yao)過的(de)(de)門(men)檻。

2.對于(yu)(yu)給出算法(fa)更(geng)加精準、訓(xun)練成本更(geng)低、對于(yu)(yu)用(yong)戶調(diao)取更(geng)方便(bian)的模型(xing),這一方面(mian)的提(ti)升空間較為明晰。在(zai)媒體、游(you)戲、營銷等行業已經看到比較多典型(xing)的內容生(sheng)成場景,但(dan)AIGC技術并(bing)不能適用(yong)于(yu)(yu)所(suo)有(you)場景,且在(zai)商(shang)業層面(mian)的實際回報(bao)率(lv)尚(shang)未明朗。

3.從市場需求(qiu)的共性來看,企業(ye)(ye)對(dui)(dui)AI技術更關(guan)心,關(guan)心怎(zen)么跟業(ye)(ye)務融合,但同時(shi)也會(hui)有些(xie)擔憂或(huo)緊(jin)張(zhang),新技術會(hui)不(bu)會(hui)對(dui)(dui)業(ye)(ye)務帶(dai)來沖擊。與此(ci)同時(shi),各國對(dui)(dui)人工智能和(he)數據(ju)獲取監(jian)管的法(fa)律(lv)條(tiao)文,以及對(dui)(dui)“類ChatGPT”的支持力度,也在(zai)反映(ying)這種觀望(wang)態度。

過去半年,整個科技(ji)圈(quan)有(you)關AIGC創(chuang)新(xin)(xin)的新(xin)(xin)聞(wen)鋪(pu)天蓋(gai)地,但一(yi)頓操作猛如虎之后(hou),還有(you)更多仍在“來的路上”。

6月1日,阿里云(yun)宣布(bu)通(tong)義大(da)(da)模型進展,聚焦音視頻AI的“通(tong)義聽悟(wu)”正式亮相,成(cheng)為國內(nei)首個開放公測的大(da)(da)模型應用產(chan)品。

通義聽悟(wu)(wu)(wu)其前(qian)身是(shi)早在(zai)2021年研發投入市場的(de)(de)“聽悟(wu)(wu)(wu)”產品,此次除了集(ji)(ji)成阿(a)(a)里(li)(li)通義千問大(da)模型的(de)(de)理解與摘要能力外,還融合了阿(a)(a)里(li)(li)最(zui)先(xian)進的(de)(de)語音語義、多模態算法(fa)等(deng)(deng)技術。公測(ce)期(qi)間(jian),聽悟(wu)(wu)(wu)用戶可通過(guo)每日登陸等(deng)(deng)多種任務領(ling)取免費轉寫時長,阿(a)(a)里(li)(li)云官方(fang)多個平臺也會放(fang)大(da)量20小時的(de)(de)轉寫口令碼。除此之外,聽悟(wu)(wu)(wu)企業版還在(zai)與釘釘“釘閃記”、夸克APP、阿(a)(a)里(li)(li)云盤等(deng)(deng)進行能力進行集(ji)(ji)成。

此舉對于國內的AI語(yu)音技術(shu)服務商以及“類(lei)ChatGPT”應用企業,并不是個好消息。

從聽悟到通義聽悟

結(jie)合當前的(de)官方(fang)定義來看,通義聽悟(wu)具備“聽”與“悟(wu)”能力,即(ji)“聽力好”,能高準確度(du)生成會議記錄(lu)、區分(fen)不同發(fa)言人,“悟(wu)性(xing)高”,可形成摘要、總結(jie)全文及每個(ge)發(fa)言人觀點(dian)、整理關(guan)注重點(dian)和待辦(ban)事項(xiang)。

這其實也明確了外界對(dui)AI音視頻技術(shu)產品的(de)一個重(zhong)要(yao)期待:要(yao)讓AI理(li)解(jie)人類,并且以人類可理(li)解(jie)的(de)方式(shi)表(biao)達(da)出來。AI理(li)解(jie)人類,意(yi)味著(zhu)不只要(yao)聽到表(biao)面語義,甚至(zhi)還要(yao)理(li)解(jie)人的(de)情緒和意(yi)圖;AI表(biao)達(da),則意(yi)味著(zhu)在文(wen)本生成、內容摘要(yao)、風格及情緒表(biao)達(da)上要(yao)有所突破。同(tong)時(shi)結合多模態(tai)技術(shu),不只是(shi)文(wen)字、音頻,還有圖像、視頻等方式(shi)傳遞給AI理(li)解(jie)。


這個(ge)過程(cheng),在沒(mei)有(you)大(da)(da)模(mo)型技術(shu)應用前,就(jiu)已經存在諸多(duo)細(xi)節性(xing)挑戰。但在阿里云(yun)CTO周靖人看來,有(you)了通義大(da)(da)模(mo)型的加(jia)持,阿里將多(duo)年積累的語音(yin)技術(shu),以及(ji)多(duo)模(mo)態(tai)的能(neng)力有(you)機結合(he)起來,最終(zhong)形成今(jin)天的通義聽悟。

“‘知其然不知所以然’是(shi)產品沒有大模型的(de)局(ju)限性,過去的(de)聽悟只能做(zuo)到(dao)將語音文字轉錄出來,但(dan)背后的(de)整(zheng)理、理解(jie)、信息收取,是(shi)依靠人來完成的(de)。之前也(ye)曾用過小(xiao)模型,但(dan)結(jie)果(guo)并不好(hao)。”周(zhou)靖人在會后的(de)交流活動中指出。

以語(yu)音識別(bie)TTS為(wei)例,聽悟內置了(le)(le)語(yu)音識別(bie)模(mo)型(xing)Paraformer,它首次在工業級應(ying)用層面解決了(le)(le)端到端識別(bie)效(xiao)果與效(xiao)率(lv)兼顧的難題。配合GPU推(tui)理(li),不(bu)同版本(ben)的Paraformer可將推(tui)理(li)效(xiao)率(lv)提(ti)升5~10倍(bei),同時,Paraformer使用了(le)(le)6倍(bei)下(xia)采樣(yang)的低(di)幀率(lv)建模(mo)方(fang)案,可將計算(suan)量降低(di)近(jin)6倍(bei),支持(chi)大模(mo)型(xing)的高效(xiao)推(tui)理(li)。

說話人(ren)識別模型CAM++,相較(jiao)于如(ru)ECAPA-TDNN和(he)ResNet模型,在準確識別和(he)高效計算(suan)的同時(shi),還(huan)實(shi)現了(le)整體優解。在行業(ye)主流的中(zhong)英文測試集(ji)VoxCeleb和(he)CN-Celeb上(shang)均刷(shua)新了(le)最(zui)優準確率,并且在計算(suan)效率和(he)推理速度(du)上(shang)有著明顯優勢(shi)。

而(er)此次聽悟上線(xian)測(ce)試的通義(yi)千問大模(mo)型(xing)的信息(xi)摘(zhai)要(yao)能力,為保證(zheng)抽取出的摘(zhai)要(yao)信息(xi)的事實準確(que),大幅度減少幻覺(jue),團隊還融(rong)合了(le)在推(tui)(tui)理(li)(li)、對齊(qi)和對話問答等方面的研究成果。如在推(tui)(tui)理(li)(li)能力方面,2022年團隊提(ti)出了(le)基于大語言模(mo)型(xing)的知識探測(ce)與(yu)推(tui)(tui)理(li)(li)利用的框架(jia) Proton。

對手會是訊飛嗎?

業(ye)內普遍(bian)一個聲(sheng)音是(shi)(shi),“很多產品(pin)因為(wei)大(da)(da)模(mo)型(xing)的(de)到來會重新再做一遍(bian)”,接入大(da)(da)模(mo)型(xing)能力(li),或(huo)將改變的(de)是(shi)(shi)產品(pin)的(de)業(ye)務邏輯、交(jiao)互模(mo)式(shi),甚至是(shi)(shi)收費模(mo)式(shi)。

從通(tong)義(yi)聽(ting)悟當前的(de)產品界面(mian)上看,針對的(de)仍然是比較高頻的(de)場(chang)景(jing),往往跟對話或(huo)交流相關(guan),如上述提及(ji)的(de)總結(jie)、翻譯、內容摘取,其(qi)本質上是對內容語義(yi)的(de)理解輸出(chu)。據(ju)官方描(miao)述,其(qi)定位為一(yi)款工作學習AI助手,瞄準具(ju)有高知(zhi)識附加(jia)值的(de)音視頻內容場(chang)景(jing),如開會、上課、訪談、培(pei)訓、面(mian)試、直播、看視頻、聽(ting)播客等(deng),能通(tong)過大(da)模型等(deng)最(zui)新(xin)AI技術(shu)快速提煉和沉(chen)淀(dian)知(zhi)識。

通義聽悟的技術負責人鄢志杰一直(zhi)都在從事智能語音交互相關(guan)工作,他(ta)解(jie)(jie)(jie)釋(shi)道,“目前展示的視頻(pin)(pin)轉(zhuan)文(wen)字(zi)(zi)(zi),仍然(ran)是將視頻(pin)(pin)里的音頻(pin)(pin)進(jin)行文(wen)字(zi)(zi)(zi)轉(zhuan)換(huan),尚(shang)未(wei)(wei)展示出視頻(pin)(pin)直(zhi)接轉(zhuan)文(wen)字(zi)(zi)(zi)的理解(jie)(jie)(jie)過(guo)程。未(wei)(wei)來(lai)會(hui)進(jin)行多模(mo)態的理解(jie)(jie)(jie),不(bu)僅要(yao)有音頻(pin)(pin)轉(zhuan)文(wen)字(zi)(zi)(zi),還(huan)要(yao)輔(fu)助以視頻(pin)(pin)和視覺的模(mo)態對內容(rong)進(jin)行更(geng)好(hao)的理解(jie)(jie)(jie)。”

下一(yi)步,通義(yi)聽悟會被各(ge)種(zhong)各(ge)樣的(de)業務系統集成,集成到智能(neng)化服(fu)務中,開發者可根據實際場景(jing)(jing),最終打造(zao)基于業務場景(jing)(jing)的(de)MaaS服(fu)務,“通義(yi)聽悟一(yi)定(ding)會推出企(qi)業版,為(wei)企(qi)業場景(jing)(jing)所定(ding)制,每個企(qi)業也(ye)都會有不同(tong)的(de)需(xu)求,也(ye)有數據安全、數據隱私等方(fang)面的(de)要求。”周靖人(ren)補充(chong)道。

那么,通義聽悟的對手會是訊飛嗎?

事實上,音視頻是人機交互的重要入口,市面上成熟的AI音視頻產品并不在少數,除了訊飛、搜狗、網易有道等具備軟硬件能力的服務商外,飛書妙記、騰訊會議等互聯網公司孵化的企業辦公生產力工具,也同樣具備相似的能力。可能的區別在于,背后的AI技術邏輯,是否會因大模型的到來而徹底改變。

科大(da)(da)訊飛于上(shang)月發布星火(huo)大(da)(da)模(mo)型,其中(zhong)軟(ruan)件(jian)產品訊飛聽見會(hui)(hui)寫已(yi)經搭載大(da)(da)模(mo)型開放使用,在收費模(mo)式上(shang)已(yi)經給市場(chang)參考標準——根據(ju)單(dan)次AI能力的使用(單(dan)次字數不超過(guo)8000字)按月/季/年(nian)會(hui)(hui)員收費。

互聯(lian)網公司在(zai)(zai)這方面的(de)(de)(de)積累(lei)也從未缺席,在(zai)(zai)不斷豐富AI技術體系的(de)(de)(de)同時,也在(zai)(zai)迅速推進大(da)模(mo)型(xing)+的(de)(de)(de)創(chuang)新(xin)。例如(ru)從早(zao)期的(de)(de)(de)iDST實驗室到達摩院,阿里2019年開始投(tou)入大(da)模(mo)型(xing),2021年訓練實現10萬(wan)億參數的(de)(de)(de)多模(mo)態大(da)模(mo)型(xing)M6,2022年發布通義(yi)大(da)模(mo)型(xing),到如(ru)今的(de)(de)(de)通義(yi)千問、通義(yi)聽悟已經在(zai)(zai)逐步產業(ye)化融合。

《中國人工(gong)智能(neng)大(da)模(mo)型地(di)圖(tu)研究報(bao)告》指(zhi)出(chu)(chu),據不完全統計,中國10億(yi)級(ji)參數規模(mo)以上(shang)(shang)大(da)模(mo)型已發布了79個,特別是(shi)在自然語(yu)(yu)言理解、機(ji)器視覺、多(duo)(duo)模(mo)態(tai)等方面(mian),出(chu)(chu)現了多(duo)(duo)個在行(xing)業有(you)影響力(li)的(de)大(da)模(mo)型。上(shang)(shang)述提及的(de)網(wang)易有(you)道(dao)則基于教育場景(jing)推出(chu)(chu)了“子曰”大(da)模(mo)型,出(chu)(chu)門(men)問問的(de)“序(xu)列猴子”則面(mian)向多(duo)(duo)模(mo)態(tai)生(sheng)成(cheng)能(neng)力(li)的(de)大(da)語(yu)(yu)言模(mo)型……

可見,能容(rong)納后來者的賽(sai)道,依然(ran)存在(zai)尚未挖(wa)掘的價值空間,更何況(kuang)大模型(xing)將(jiang)帶來新(xin)的變(bian)量。

熱門文章
AIGC浪潮下,“模”力正在席卷科技語境。百度、阿里等巨頭們接連出牌的同時,體量略遜一籌的知乎、小紅書、云從科技等玩家,亦試圖擠進賽道——大模型的牌桌,正變得愈發擁擠。
2023-06-07
X