10月24日(ri),由聲(sheng)網和RTE開(kai)發(fa)(fa)者社區聯合主辦(ban)(ban)的RTE2023第九(jiu)屆(jie)實時互(hu)聯網大會在(zai)北(bei)京舉辦(ban)(ban),聲(sheng)網與眾多RTE領(ling)域技術專(zhuan)(zhuan)家、產品精英、創(chuang)業者、開(kai)發(fa)(fa)者一起,共同開(kai)啟了以“智能·高清”為主題的全新探(tan)討(tao)。本屆(jie)RTE大會將持續2天(tian),開(kai)展1場主論壇及(ji)20+專(zhuan)(zhuan)場活動(dong),包括RTE領(ling)域技術開(kai)發(fa)(fa)、趨(qu)勢(shi)洞見、行業觀察、創(chuang)業投資等(deng)多維度內容分享,覆蓋了AIGC、出海(hai)、數字化轉型等(deng)時下(xia)最(zui)熱門的話(hua)題。
在24日主(zhu)論壇上,聲(sheng)網創(chuang)始人兼(jian)CEO趙(zhao)斌、聲(sheng)網合伙人兼(jian)客戶成(cheng)功副總(zong)裁孫雨潤帶(dai)(dai)來(lai)(lai)了(le)《智能·高(gao)清 開(kai)啟實(shi)時(shi)互(hu)動(dong)(dong)體驗新時(shi)代(dai)(dai)》的(de)主(zhu)旨演講。Founders Space創(chuang)始人兼(jian)CEO 史(shi)蒂夫(fu)?霍(huo)夫(fu)曼 (Steve Hoffman)從國際投資人視(shi)角,洞(dong)察了(le)AI賦能RTE未來(lai)(lai)的(de)諸多可能性(xing)。聲(sheng)網首(shou)席科學家、CTO鐘(zhong)聲(sheng)聚焦AI時(shi)代(dai)(dai)實(shi)時(shi)互(hu)動(dong)(dong)的(de)趨勢(shi),帶(dai)(dai)來(lai)(lai)了(le)最(zui)前沿的(de)技(ji)(ji)術觀點和(he)解讀(du)。聯(lian)合國人口基金(jin)(UNFPA)駐(zhu)華(hua)代(dai)(dai)表(biao)處副代(dai)(dai)表(biao)兼(jian)負責人歐雯姍(shan)(Ira Ovesen)則(ze)從“科技(ji)(ji)無國界”的(de)角度,介紹了(le)實(shi)時(shi)互(hu)動(dong)(dong)技(ji)(ji)術為世(shi)界帶(dai)(dai)來(lai)(lai)的(de)改變。
此(ci)外,聲網首席運營(ying)官劉(liu)斌、喜馬拉雅首席科(ke)學家盧恒、Soul APP技術副(fu)總(zong)(zong)裁(cai)張高政、小紅書音視頻架構負責人陳靖、商(shang)湯科(ke)技商(shang)務總(zong)(zong)監(jian) 數字(zi)文(wen)娛(yu)事業部副(fu)總(zong)(zong)裁(cai)李星冶,還以(yi)”AI如何(he)賦能實(shi)時互動體(ti)驗改善及場景升(sheng)級“為主(zhu)題進行了圓桌討論。
智能·高清(qing) 開啟(qi)實(shi)時互動體驗新時代(dai)
回(hui)顧(gu)2023年,AIGC大模(mo)型驅動(dong)(dong)著各(ge)行(xing)業(ye)迎來(lai)新(xin)業(ye)務機會,AR、VR、XR等技術能(neng)力的(de)迭代為實(shi)時互動(dong)(dong)在(zai)各(ge)個領域的(de)應(ying)用提供了更多可(ke)能(neng)。在(zai)直播社(she)交領域,彈幕玩法成(cheng)為直播新(xin)風口,這些變化都影響著RTE行(xing)業(ye)的(de)進化。
智能和(he)高清正在推動(dong)實時互動(dong)體(ti)驗進入全新(xin)時代,在大會開場演講(jiang)中,趙斌宣布:“聲網在RTE行業(ye)首次實現廣播(bo)級4K超高清實時互動(dong)體(ti)驗。”他(ta)指出, “4K不(bu)僅僅只(zhi)有分辨率一個緯度(du),光亮強度(du)的動(dong)態范(fan)圍、色彩(cai)的真(zhen)實度(du)、飽(bao)和(he)度(du),以及色彩(cai)漸變的細(xi)膩(ni)程度(du),都(dou)是(shi)真(zhen)正超高清體(ti)驗里不(bu)可或(huo)缺的一環。”廣播(bo)級超高清可以帶來更加逼真(zhen)的視覺效果,高對比度(du)和(he)豐富的色彩(cai)表現可以使影像更加生動(dong),細(xi)節更加清晰,并(bing)以此(ci)提升觀影體(ti)驗。
趙斌認為(wei),虛擬人(ren)+AIGC所創造(zao)的(de)情感和情緒(xu)價(jia)值或將在未來解決社交供需(xu)不(bu)平衡的(de)現(xian)狀(zhuang),并引領(ling)交互(hu)對象發生變化。另一層(ceng)面,隨著AIGC能力的(de)進一步加強(qiang),越(yue)(yue)來越(yue)(yue)多(duo)的(de)應用型開發將被AIGC替代,API+AI的(de)形式將大幅提高應用開發效率(lv)。
大(da)模(mo)型在(zai)快(kuai)速發展,但交(jiao)(jiao)互(hu)界(jie)面仍局限于文字聊天互(hu)動(dong)方式。趙斌提(ti)到,通過過去一(yi)年的(de)投入和打(da)磨,聲網推出(chu)行業(ye)首創AIGC-RTC能力模(mo)塊,可支持(chi)與任何大(da)模(mo)型平臺結合,實現更低延時、更自然、更沉浸的(de)實時語音對話,為企業(ye)協作、社(she)交(jiao)(jiao) 、直播、游戲(xi)等多種場景提(ti)供新玩(wan)法、新機會。
在AI等核(he)心技(ji)術驅動(dong)下,實時互動(dong)QoE體驗的變化對于(yu)用(yong)戶留(liu)存和使用(yong)行(xing)為的影響日益增強。孫雨潤介紹(shao),“根(gen)據(ju)(ju)聲(sheng)網某東南亞(ya)頭部(bu)泛娛樂(le)客戶數據(ju)(ju)顯(xian)示,當視頻從標(biao)清(qing)升(sheng)(sheng)級高清(qing),停留(liu)超過30秒觀眾數提升(sheng)(sheng)19%,觀眾人均觀看(kan)時長提升(sheng)(sheng)30%,同(tong)時觀眾打賞率(lv)大幅提升(sheng)(sheng)。某國(guo)內知名社交(jiao)出(chu)海(hai)App,從CDN 升(sheng)(sheng)級聲(sheng)網極速直播,送禮率(lv)增長 12.3%。”
AI如何賦能RTE未(wei)來
AIGC被認為是當前的技術革命,它與RTE的深度結合,又將帶來什么改變呢?Founders Space創始人兼CEO 史蒂夫?霍夫曼在分享中指出:“人工智能將對許(xu)多領域產(chan)生(sheng)影(ying)響,在(zai)AI賦能的(de)RTE未(wei)來,我(wo)(wo)們(men)將看到(dao)每(mei)個人(ren)都(dou)會擁(yong)有(you)更(geng)(geng)加(jia)個性化的(de)體驗,更(geng)(geng)加(jia)動態(tai)的(de)程序(xu)將隨著圖形(xing)、音頻、視頻的(de)實時變化而變化,AI將為(wei)我(wo)(wo)們(men)帶(dai)(dai)來前所未(wei)有(you)的(de)連接(jie)方式。在(zai)更(geng)(geng)深(shen)層次上,AI還將為(wei)人(ren)類增加(jia)更(geng)(geng)多的(de)生(sheng)產(chan)力水平,帶(dai)(dai)來動態(tai)的(de)虛擬世界等等,讓我(wo)(wo)們(men)感受到(dao)更(geng)(geng)多的(de)沉(chen)浸體驗。”
史(shi)蒂(di)夫(fu)?霍(huo)夫(fu)曼表示(shi):“在AI和RTE技術的(de)(de)(de)加持(chi)下(xia),新的(de)(de)(de)穿戴設(she)(she)備(bei)可能會進(jin)入市場(chang),比如新的(de)(de)(de)皮膚電子設(she)(she)備(bei)、感官(guan)增強(qiang)設(she)(she)備(bei)等,它可以讓我(wo)們(men)(men)聽(ting)到人類聽(ting)力范(fan)圍之(zhi)外的(de)(de)(de)頻率。此外,腦(nao)(nao)機接口也(ye)將讀(du)取我(wo)們(men)(men)的(de)(de)(de)腦(nao)(nao)電波,從而幫助我(wo)們(men)(men)實現冥想或對其(qi)他設(she)(she)備(bei)的(de)(de)(de)控制。”在工(gong)業RTE場(chang)景(jing)應(ying)用下(xia),人們(men)(men)可以聚(ju)在一(yi)起,實時通(tong)過虛擬或真實工(gong)廠觀看流水線運(yun)作、產品生(sheng)產等。在AI陪伴(ban)場(chang)景(jing)中(zhong),人工(gong)智能伴(ban)侶這一(yi)概念(nian)將成為人們(men)(men)社交生(sheng)活、娛(yu)樂、事業的(de)(de)(de)一(yi)部分(fen)。
綜上,未來可能會(hui)有各(ge)種(zhong)類型的(de)伴侶應用以及新(xin)的(de)實時(shi)接(jie)口方(fang)式出現(xian),甚至會(hui)出現(xian)一套為(wei)RTE開(kai)發的(de)全新(xin)硬件,這些都(dou)將極大(da)改變RTE領域(yu)的(de)發展前景。
AI時代 實時互動何去何從
AI時代(dai)已經來(lai)(lai)臨,實時互動該何(he)去何(he)從?聲(sheng)(sheng)網首席科學家、CTO鐘聲(sheng)(sheng)為(wei)我們帶來(lai)(lai)了技(ji)術(shu)視角的(de)(de)深度分享。鐘聲(sheng)(sheng)指出,回溯過去五年,最典型的(de)(de)事件就(jiu)是大模(mo)(mo)型的(de)(de)突破(po),從2017年的(de)(de)Transformer,到如今的(de)(de)ChatGPT-4,人工智(zhi)能的(de)(de)發展,讓信息傳播和消費智(zhi)能化的(de)(de)趨勢越(yue)來(lai)(lai)越(yue)明(ming)顯,萬事歸于(yu)中(zhong)心化AGI接管(guan)的(de)(de)趨勢和威(wei)脅也(ye)越(yue)來(lai)(lai)越(yue)明(ming)顯。大模(mo)(mo)型在帶來(lai)(lai)發展機遇的(de)(de)同(tong)時,也(ye)帶來(lai)(lai)了計算需求(qiu)快(kuai)速增長、算力受能源供給力限制(zhi)、大模(mo)(mo)型數據資源不夠、存儲需求(qiu)增長過快(kuai)等問題。未來(lai)(lai),我們除了要(yao)(yao)做負責任(ren)的(de)(de)AI之外,在端上和邊緣上的(de)(de)分布式實時智(zhi)能將成(cheng)為(wei)價值公(gong)平分配的(de)(de)重要(yao)(yao)技(ji)術(shu)手(shou)段,也(ye)是減緩中(zhong)心化AGI對(dui)人類威(wei)脅的(de)(de)有(you)效途(tu)徑,這也(ye)注定會成(cheng)為(wei)一個(ge)新的(de)(de)技(ji)術(shu)發展趨勢。
鐘聲認為,AGI將(jiang)走進實(shi)時(shi)互動(dong)(dong),實(shi)現人人可分(fen)身,幫(bang)助在應用場(chang)景(jing)中(zhong)復制名(ming)師(shi)、網紅,甚至普通人也將(jiang)通過(guo)AI分(fen)身豐富(fu)體(ti)驗、緩解時(shi)間稀(xi)缺(que)的瓶頸。此外,他(ta)預測,具備端邊實(shi)時(shi)智能(neng)的高清實(shi)時(shi)互動(dong)(dong)能(neng)力(li)將(jiang)成新趨勢和競爭(zheng)焦(jiao)點(dian)。
鐘(zhong)聲(sheng)(sheng)介紹到,實(shi)(shi)時高清需要許多端(duan)上實(shi)(shi)時AI,在Low Level Vision and Audio這一需求層面,聲(sheng)(sheng)網(wang)的SDK 4.1.x, 4.2.x版本(ben)已經(jing)可以支持1080P/4K視(shi)頻的例如超分、虛(xu)擬背(bei)景(jing)(jing)、感(gan)知編碼、降噪、去回聲(sheng)(sheng)等底層計(ji)算(suan)(suan)機視(shi)覺處(chu)理和(he)高音質的計(ji)算(suan)(suan)機聽覺處(chu)理能力(li)(li)。在High Level Vision and Audio層面,聲(sheng)(sheng)網(wang)已經(jing)部分實(shi)(shi)現對(dui)物體、聲(sheng)(sheng)音、場(chang)景(jing)(jing)的理解(jie)和(he)重(zhong)構能力(li)(li),包括面捕(bu)、動(dong)捕(bu)、情感(gan)計(ji)算(suan)(suan),物體識別和(he)場(chang)景(jing)(jing)重(zhong)建(jian)等,可以大力(li)(li)改(gai)善(shan)多種應用場(chang)景(jing)(jing)下的用戶體驗。
科技賦能:共筑數字包容(rong)未來
在一(yi)個(ge)科技無國(guo)界(jie)的(de)世界(jie)里,人(ren)工智能、實(shi)時(shi)互動技術(shu)(shu)、生物技術(shu)(shu)、材(cai)料(liao)科學(xue)等技術(shu)(shu)創新力量構建了(le)一(yi)個(ge)“數字包容”的(de)世界(jie)。過(guo)去一(yi)年,聯合國(guo)人(ren)口基(ji)金與聲(sheng)網(wang)通過(guo)實(shi)時(shi)互動技術(shu)(shu),為中國(guo)偏遠(yuan)地區的(de)一(yi)萬多名青(qing)少年提供(gong)了(le)適齡的(de)健(jian)康(kang)教育。聯合國(guo)人(ren)口基(ji)金(UNFPA)駐華代表處(chu)副代表兼負責人(ren)歐雯姍表示,“人(ren)工智能和實(shi)時(shi)互動技術(shu)(shu)為那(nei)些(xie)仍(reng)在使用型號較老(lao)的(de)多媒體設備的(de)學(xue)校提供(gong)了(le)量身定制(zhi)的(de)解決方案。它不僅(jin)優化了(le)直播(bo)流的(de)分辨率,還增(zeng)強(qiang)了(le)在教學(xue)和學(xue)習過(guo)程中的(de)音視頻質(zhi)量。學(xue)生和直播(bo)教師可以實(shi)現像傳統(tong)課堂那(nei)樣身臨(lin)其(qi)境的(de)教學(xue)質(zhi)量和速度。”
同時(shi),歐雯(wen)姍宣布,聯合(he)國人口基金駐華代表(biao)處(chu)與(yu)聲網(wang)及其他合(he)作伙(huo)伴(ban)聯合(he)發起了(le)“智享(xiang)銀齡”科技助老青年(nian)創新(xin)挑(tiao)戰賽。她(ta)表(biao)示(shi),“我們希望激發青年(nian)人,特別(bie)是大學生和年(nian)輕(qing)畢業生,為代際數字包容貢獻(xian)想(xiang)法并做出積(ji)極行(xing)動。”
圓桌:AI如(ru)何賦能實時互動體驗改善及場(chang)景升級?
AI技術(shu)的(de)發(fa)展為各行各業帶來了(le)用(yong)戶體驗改(gai)善和場景玩法創新。針對這一話題,喜(xi)馬拉雅首席科(ke)(ke)學家盧(lu)恒、Soul APP技術(shu)副總裁張高政、小(xiao)紅書音視頻架(jia)構負責人(ren)陳靖(jing)、商湯(tang)科(ke)(ke)技商務總監(jian) 數字文娛事(shi)業部副總裁李星冶、聲網首席運營官(guan)劉斌進行了(le)圓(yuan)桌討(tao)論。
談到AI技(ji)術(shu)(shu)對業務發(fa)展(zhan)的(de)影響時,盧(lu)恒表示,作為全國最大(da)的(de)有聲內(nei)容平(ping)臺,喜馬拉雅從文本處理到音(yin)頻內(nei)容生成(cheng)的(de)過程中都(dou)(dou)使用了大(da)量的(de)AI技(ji)術(shu)(shu),目前,AIGC生成(cheng)的(de)音(yin)頻內(nei)容日均播放量已超過250萬小時。張高政則(ze)表示,大(da)模型的(de)理解能力對于UGC平(ping)臺及用戶來說都(dou)(dou)非常有利(li),它不僅可以快速提升內(nei)容生產(chan)效率,還能降低(di)內(nei)容生產(chan)門(men)檻。
AI大(da)模型(xing)的(de)(de)(de)發展是(shi)(shi)機遇(yu)與挑戰(zhan)并存的(de)(de)(de)。陳(chen)靖(jing)指(zhi)出(chu),對于很(hen)多公司而言,說清(qing)楚一(yi)些(xie)(xie)(xie)AI大(da)模型(xing)項(xiang)目的(de)(de)(de)必要性(xing)是(shi)(shi)一(yi)個巨大(da)挑戰(zhan),很(hen)多項(xiang)目并不(bu)像利用AI去(qu)做體(ti)驗增強那(nei)樣,能夠跟(gen)用戶(hu)留存及轉化的(de)(de)(de)一(yi)些(xie)(xie)(xie)指(zhi)標建立關(guan)聯。李星冶則表(biao)示,他(ta)所看到(dao)的(de)(de)(de)挑戰(zhan)有兩點(dian)。其一(yi),在為許多C端流量產品提(ti)供服務時,算力(li)、帶寬、智力(li)相關(guan)的(de)(de)(de)彈性(xing)儲備是(shi)(shi)一(yi)個很(hen)現實(shi)的(de)(de)(de)挑戰(zhan),其二,大(da)模型(xing)開發廠商如何平衡投入以及預期收(shou)入之間的(de)(de)(de)關(guan)系,也是(shi)(shi)一(yi)個挑戰(zhan)。各位嘉賓還分享(xiang)了AI大(da)模型(xing)在實(shi)時互動領域的(de)(de)(de)一(yi)些(xie)(xie)(xie)玩法創新(xin),其中陳(chen)靖(jing)提(ti)到(dao),提(ti)高主播觀看率(lv)的(de)(de)(de)美顏美體(ti)功(gong)能可能是(shi)(shi)過去(qu)AI為實(shi)時互動領域貢獻最大(da)價值的(de)(de)(de)場景,希望今(jin)后(hou)會看到(dao)更(geng)多新(xin)的(de)(de)(de)嘗試(shi)。
如劉斌所總結(jie)的,無(wu)論未來是挑戰還是機遇,我(wo)(wo)們都(dou)應該在各自(zi)行業(ye)里(li)去(qu)努力嘗(chang)試。我(wo)(wo)們也期待,在大模(mo)型(xing)新的范式發展下(xia),看(kan)到越來越多的場景落地及業(ye)務(wu)價值。