4月15日,莫斯科國立大學舉辦的MSU硬件視頻編碼比賽成績揭曉。經過數月的嚴格測試,騰訊自研的編解碼芯片“滄海”包攬了所參加的(de)兩個(ge)賽道(dao)8項評分的(de)全(quan)部(bu)第(di)一。據了解(jie),滄海芯片(pian)已在業(ye)務場(chang)景中投用數(shu)萬片(pian),服務騰(teng)訊自研(yan)業(ye)務及公(gong)有云(yun)客戶。
MSU是(shi)視頻壓(ya)縮(suo)領域最具(ju)影響力的頂(ding)級賽事,迄(qi)今已(yi)連續舉辦了十(shi)七屆,吸引了包括亞(ya)馬遜、英偉達(da)、Intel、AMD、字節、快(kuai)手、阿里和(he)騰訊在內(nei)的國(guo)內(nei)外知名(ming)企業(ye)參(can)與。
具體來(lai)看,SSIM (結構(gou)相似性)、PSNR(峰值(zhi)(zhi)信(xin)噪比(bi))和VMAF(視(shi)頻多方(fang)法評估融合(he)) 等多項(xiang)評價指(zhi)標,滄海芯(xin)片大幅領先(xian)行(xing)業GPU等標品(pin)硬件。值(zhi)(zhi)得一提(ti)的是,在120fps的高幀(zhen)率檔位上(shang),在同(tong)等畫質下(xia)滄海較行(xing)業領先(xian)ASIC水平(ping)能再節省10%碼率。
作為全真互聯(lian)時代的(de)交互模式和關鍵技術,音視頻(pin)背后的(de)編解(jie)碼(ma)能力(li)至(zhi)關重要。基于自研芯片(pian)與軟件(jian)的(de)聯(lian)合調優,騰訊云的(de)音視頻(pin)編解(jie)碼(ma)能力(li)已達(da)業界領先水平。



瞄準編解碼領域核心難題
多媒體業務進入音視頻直播時代,4K/8K的(de)超(chao)高清內容對云計算基礎設施提出(chu)了難(nan)題。如何在降低(di)(di)成本的(de)同時,最大化還原畫質、實(shi)現低(di)(di)延遲,是全(quan)真互聯時代面臨(lin)的(de)難(nan)題。業界已有的(de)通用處(chu)理器,并非針(zhen)對數據(ju)中心轉碼場景定制開(kai)發,部署中很難(nan)兼顧(gu)真實(shi)場景的(de)全(quan)方位挑戰。
2019年初(chu),騰(teng)訊蓬萊實驗(yan)室(shi)、香農(nong)實驗(yan)室(shi)聯合啟(qi)動編解(jie)碼芯片”滄海“研(yan)發。對硬(ying)件編解(jie)碼的算法(fa)、架(jia)構(gou)和工(gong)程進(jin)行深度(du)攻關,向高畫質、低(di)延遲、低(di)成本的“不可能三角”發起挑戰。
基于自身在底層軟硬件架構和音(yin)視頻領域的多年積累,研(yan)發團隊(dui)對每個模塊的計算(suan)(suan)任(ren)務(wu)(wu)都作了并行拆解。通過(guo)分配不同的計算(suan)(suan)單(dan)元,從而疊(die)加大量(liang)處理(li)任(ren)務(wu)(wu);為滄(cang)海芯片(pian)內置視頻編(bian)碼加速專用功能(neng)模塊,讓流水控(kong)制邏(luo)輯更純粹,減少(shao)重復計算(suan)(suan)和分支判斷,帶來更低的功耗和成本。
滄海芯(xin)片(pian)的編(bian)碼器設計中完整(zheng)實現了(le)高精度運動搜索、全率(lv)失(shi)真優(you)化、高效自適應量化等所有主流編(bian)碼工(gong)具,并融合騰訊(xun)云軟件編(bian)碼器碼率(lv)控制(zhi)等方面的領先技術,壓(ya)縮率(lv)高于市面標品35%以上。
在硬件(jian)架構(gou)上,通過(guo)將(jiang)視頻預分(fen)析(xi)計算單元進一步卸載(zai)到硬件(jian)中,滄海芯片大幅減(jian)少了高(gao)(gao)密度(du)轉碼場景下任(ren)務對(dui)CPU性能的(de)依賴,將(jiang)轉碼性能提升到更強。通過(guo)靈活的(de)多核擴展架構(gou)、高(gao)(gao)性能編碼流水(shui)線、層(ceng)級化Memory布局,滄海芯片能滿足高(gao)(gao)吞(tun)吐、低時延和實時性要求。
根據MSU實測數據,從(cong)各項指標(biao)看,在(zai)同碼(ma)率下(xia),相較于業界GPU等(deng)標(biao)品硬件,滄海能大幅改善畫面(mian)質(zhi)量;在(zai)120fps的高幀率檔位上(shang),同等(deng)質(zhi)量下(xia),滄海比行業領先水平進一步節(jie)省10%以上(shang)的碼(ma)率;另(ling)外,滄海芯片的單幀1080p的編(bian)碼(ma)耗(hao)時僅4毫秒,吞吐性能幾乎不(bu)受(shou)到編(bian)碼(ma)參數、視頻(pin)類型的影(ying)響。
已在業務場景規模應用
去年3月,滄海(hai)芯片順利“點亮”,目前(qian)已經量產并(bing)投用數萬片,在云(yun)(yun)游戲、直點播等場景中,面向騰(teng)訊自研(yan)業務(wu)和公有云(yun)(yun)客戶提供服務(wu)。
在(zai)直(zhi)(zhi)播平(ping)臺(tai)中(zhong),觀看人數小(xiao)于(yu)200人的(de)中(zhong)長尾直(zhi)(zhi)播是主體,滄海(hai)芯(xin)片能幫(bang)助(zhu)節(jie)省大量計算成(cheng)本(ben);在(zai)4K/8K超高(gao)清、高(gao)幀(zhen)率場(chang)景中(zhong),相對軟件(jian)編碼(ma),滄海(hai)芯(xin)片能實現低(di)延(yan)時(shi)的(de)高(gao)質(zhi)量轉(zhuan)碼(ma)。
騰訊豐富(fu)的多媒體應用(yong)場(chang)景,提(ti)供了充分的分析和(he)驗證條件,讓滄海芯片迭代(dai)出更有針對性的場(chang)景解決方(fang)案。
例如,針對云游戲場景,滄海芯片的(de)瑤池板卡(ka),可以(yi)靈(ling)活配(pei)比不同(tong)廠(chang)商 GPU。針對視頻轉碼場景,滄海芯片提供單(dan)機1024 路的(de)高密轉碼能力(li),將轉碼成本降至最(zui)低。
軟硬(ying)件的(de)(de)聯(lian)合調優,也為(wei)騰(teng)訊(xun)云(yun)(yun)媒體處(chu)理(MPS)帶來了領(ling)先的(de)(de)產品(pin)優勢。現在,騰(teng)訊(xun)云(yun)(yun)能(neng)提(ti)供音(yin)畫質增(zeng)強、云(yun)(yun)原生錄制、實時(shi)特效渲染(ran)、智能(neng)編輯、內(nei)容分析理解等服(fu)務(wu),為(wei)用戶提(ti)供更(geng)低(di)成本、更(geng)低(di)延時(shi)、更(geng)極(ji)致壓(ya)縮(suo)的(de)(de)處(chu)理效果(guo)。
在去年專業流媒體(ti)技術(shu)社區(qu)SLC發布(bu)的報告中,騰訊(xun)云(yun)MPS超越亞馬遜AWS、微軟Azure等(deng)國(guo)際云(yun)廠商(shang),摘得三大場景下(xia)性能全部最優。
芯(xin)片(pian)(pian)是(shi)硬(ying)件(jian)中最核心的(de)部分。面向(xiang)業務需(xu)求(qiu)強(qiang)烈(lie)的(de)場景(jing),騰(teng)訊有(you)著長期的(de)芯(xin)片(pian)(pian)研發(fa)規劃和投入,結合(he)算(suan)力場景(jing),推動自研芯(xin)片(pian)(pian)規模落地。目前,騰(teng)訊已經實(shi)現芯(xin)片(pian)(pian)端到端設計、驗證全覆蓋(gai)。
除滄海芯片外(wai),騰(teng)訊自(zi)研(yan)的(de)AI推(tui)理芯片”紫霄“,采(cai)用自(zi)研(yan)存算(suan)架構和(he)自(zi)研(yan)加速(su)(su)模塊,可(ke)以提供高達3倍的(de)計(ji)算(suan)加速(su)(su)性能和(he)超過45%的(de)整體成本節省(sheng),目(mu)前也已(yi)在內部業務(wu)中(zhong)投用;高性能網絡芯片“玄靈”,助力(li)云計(ji)算(suan)場(chang)景實現虛擬化(hua)零損(sun)耗。
基(ji)于底(di)層軟硬件技術的持續突破,騰訊正(zheng)持續探索最優(you)性(xing)能(neng)和(he)最佳性(xing)價比,助力更(geng)多的企業和(he)開發者云上創新。