2019 年 2 月,圖靈獎獲得者John Hennessy 和 David
Patterson發布了一篇名為《A new golden age for computer
architecture》的文章。在文章中他們指出,伴隨著摩爾定律和登納德縮放定律的終結,要想獲得像 20
世紀八九十年代那樣的的性能改進,就需要新的架構方法,以更高效地利用集成電路,而DSA就是他們想要的答案。
據他們在文章中介紹,所謂DSA(domain specific architecture,特定領域架構)是一種針對特定領域定制的可編程處理器,能夠用于加速某些應用程序,實現更好的性能。如現在因為AI大行其道的GPU就是一個基于DSA思路設計的產品。包括谷歌、Tesla和Cerebras在內的廠商也針對其特定應用推行他們的DSA芯片。
日前,
本土手機廠(chang)商OPPO也帶來其影像專用NPU——馬(ma)里(li)亞納? MariSilicon X,揭開了公司造芯的神(shen)秘面(mian)紗(sha)。
透過這個芯片(pian),我們不但看(kan)到(dao)了(le)這個手機(ji)巨頭在提升用戶(hu)體驗方(fang)面(mian)的(de)(de)“芯”思考(kao),也(ye)看(kan)到(dao)了(le)屬于DSA的(de)(de)又一場勝利。
自(zi)蘋果在(zai)2007年推出(chu)第一代iPhone以來,智能(neng)手機在(zai)接下來十(shi)年經歷(li)了夢幻般的(de)(de)(de)(de)開局。不但(dan)芯片性能(neng)獲得了大幅度的(de)(de)(de)(de)增長(chang),屏幕的(de)(de)(de)(de)體驗(yan)也(ye)獲得了跨躍(yue)性的(de)(de)(de)(de)提升。但(dan)進入最近幾年,手機創(chuang)新(xin)缺乏,這讓手機廠商(shang)將(jiang)目標(biao)瞄向了改善拍(pai)攝體驗(yan),隨之也(ye)給手機芯片的(de)(de)(de)(de)影像(xiang)處理提出(chu)了新(xin)的(de)(de)(de)(de)要求。
作為一個需要處理多類型任(ren)務的(de)芯片,手(shou)機主控芯片廠(chang)商在設(she)計產品(pin)的(de)時(shi)候只(zhi)能在各項設(she)計能力上(shang)做平衡。那就(jiu)意味著在這些通用芯片上(shang)的(de)ISP和NPU,在處理圖像或(huo)視頻的(de)時(shi)候顯得捉襟見(jian)肘。
近(jin)年來(lai),Google在其Pixel手機上(shang)使用(yong)Pixel Visual Core/Pixel Neural Core 系列硬件加速(su)器證(zheng)明了AI算(suan)法可以提供(gong)遠(yuan)超傳統算(suan)法的拍照體驗之(zhi)后,業界就開始(shi)探索(suo)NPU在降(jiang)噪、HDR+和demosaic領域(yu)的應(ying)用(yong)優勢。而(er)OPPO正是通過自定義(yi)的芯片(pian)來(lai)應(ying)對這方面的挑戰。
OPPO芯片產(chan)品(pin)高級總監姜波也指(zhi)出,通用(yong)芯片要想(xiang)達成終極體驗目標,面臨一些(xie)挑戰(zhan):
一方面,智(zhi)能手(shou)機在定制傳感器(qi)后,有時候需要SoC做相(xiang)應的(de)(de)配合,但SoC研發(fa)周(zhou)期非常(chang)長,傳感器(qi)需要的(de)(de)時間又非常(chang)短,這里面的(de)(de)平衡(heng)是非常(chang)難把控的(de)(de);
另一(yi)方面(mian),如果(guo)要針對目前市面(mian)上(shang)現有(you)的(de)傳感器在SoC上(shang)做pipeline(鏈(lian)路)處理優(you)化增(zeng)強,也意味著需要研發要做很大(da)的(de)調整,成本增(zeng)加不少;
此外,當(dang)算法(fa)(fa)和(he)芯(xin)片(pian)不(bu)能做到(dao)相互完(wan)全開放和(he)緊密(mi)耦合,更是無法(fa)(fa)發揮出它的最大效益。
基于這樣的思考,OPPO發布了首款影像專用NPU——馬里亞納MariSilicon X,這正是DSA在影像應用上的一個教科書般的實踐。據姜波所說,這個芯片由一個自研的影像處理單元MariLumi、一個自研的AI計算單元MariNeuro以及片上內存子系統等核心部分組成。得益于這樣的設計,其擁有四個不得不提的特性,分別是極致能耗比、行業領先的HDR、影像的AI的處理(包括影像算法的處理)都放在RAW上完成以及對定制sensor性能的最大化利用。
首先看(kan)極致能耗(hao)比方面。據介紹,MariSilicon X擁有(you)(you)18TOPS的(de)算(suan)力,這(zhe)正(zheng)是(shi)DSA獨(du)特具備的(de)優勢。11.6TOPS/W的(de)能耗(hao)效率更是(shi)讓它在擁有(you)(you)強悍的(de)處理能力的(de)同(tong)時,功(gong)耗(hao)表現(xian)也不落(luo)下(xia)風。“按現(xian)在實際的(de)算(suan)力情(qing)況(kuang),我們的(de)芯片可以在800毫(hao)瓦功(gong)耗(hao)約束的(de)范圍內跑到40fps”,姜波(bo)舉例說。
其(qi)次,OPPO的(de)MariSilicon X支持20 bit RAW,領先于(yu)高通最新(xin)一代旗(qi)艦驍龍8平臺的(de)18bit和聯(lian)發科的(de)天璣9000,其(qi)120db的(de)HDR讓(rang)搭配MariSilicon X的(de)手機在拍攝圖片的(de)時候,獲得四倍于(yu)當前(qian)旗(qi)艦的(de)動態范圍。
第三,在影像的AI處(chu)理方面(mian),馬里亞納X通(tong)過將AI降噪及HDR融合等復雜計算(suan)前置(zhi)到數(shu)據(ju)更加(jia)純(chun)凈無損的RAW域(yu),在影像信噪比和(he)畫質上遠超傳統YUV域(yu)處(chu)理方案(an);
據OPPO測試顯示,在(zai)(zai)搭(da)配了(le)他們自(zi)研的馬(ma)里亞(ya)納 MariSilicon X的方案中(zhong),可(ke)以獲(huo)得至少(shao)8dB的信(xin)噪比增強,相當于2.6倍(bei)的提(ti)升。在(zai)(zai)4k場景下,更是可(ke)以分別在(zai)(zai)圖像(xiang)亮部(bu)和(he)(he)暗(an)部(bu)獲(huo)得8dB和(he)(he)12dB增益。換而言(yan)之,自(zi)研芯片可(ke)以讓(rang)圖像(xiang)暗(an)部(bu)的信(xin)噪比做到4倍(bei)的有效提(ti)升。
最后,來到傳(chuan)感器的定制(zhi);
OPPO定制(zhi)的(de)(de)(de)(de)RGBW傳(chuan)(chuan)感(gan)器通(tong)(tong)過(guo)融入(ru)對(dui)光線(xian)更(geng)敏感(gan)的(de)(de)(de)(de)white像(xiang)素,在(zai)(zai)保證色彩還原(yuan)準(zhun)確的(de)(de)(de)(de)同時(shi)提(ti)升了傳(chuan)(chuan)感(gan)器進光量。但在(zai)(zai)通(tong)(tong)用(yong)型SoC的(de)(de)(de)(de)賦能下,如(ru)果想要(yao)發(fa)揮這一(yi)定制(zhi)傳(chuan)(chuan)感(gan)器的(de)(de)(de)(de)優勢,第(di)一(yi)步要(yao)做(zuo)的(de)(de)(de)(de)就是在(zai)(zai)傳(chuan)(chuan)感(gan)器端將RGBW remosaic成(cheng)傳(chuan)(chuan)統的(de)(de)(de)(de)RGGB信息(xi),再傳(chuan)(chuan)送(song)給(gei)SoC處理(li)。但在(zai)(zai)這個(ge)處理(li)過(guo)程中(zhong),會(hui)丟失一(yi)些(xie)有用(yong)的(de)(de)(de)(de)信息(xi)。而為了與通(tong)(tong)用(yong)的(de)(de)(de)(de)SoC配合,又必須要(yao)做(zuo)一(yi)些(xie)妥協和損耗才可以用(yong)上(shang)RGBW。
有見及(ji)此,OPPO選擇了自(zi)研影像(xiang)專用NPU與(yu)定制傳感器配合(he)的方法(fa),讓(rang)其產生的原始RAW數據與(yu)自(zi)研芯片(pian)有最緊密的耦合(he)和最大限度優化。
具(ju)體而(er)言(yan),在設計圖像處(chu)理(li)pipeline的(de)(de)(de)(de)時(shi)候,馬(ma)里亞納X在提(ti)供(gong)RGGB鏈路(lu)的(de)(de)(de)(de)同時(shi)還具(ju)備(bei)white處(chu)理(li)鏈路(lu)既能夠獲取良(liang)好(hao)的(de)(de)(de)(de)顏色信(xin)息,又能夠提(ti)升(sheng)信(xin)噪(zao)比(bi)。與傳統RAW相(xiang)比(bi),帶來的(de)(de)(de)(de)提(ti)升(sheng)是非(fei)常顯著(zhu)的(de)(de)(de)(de),這也(ye)正是DSA的(de)(de)(de)(de)意義(yi)。而(er)按OPPO所說,借(jie)助兩路(lu)pipeline的(de)(de)(de)(de)處(chu)理(li),可(ke)以(yi)得(de)到7.9倍的(de)(de)(de)(de)信(xin)噪(zao)比(bi)的(de)(de)(de)(de)提(ti)升(sheng);在紋理(li)細節上,通(tong)過2路(lu)的(de)(de)(de)(de)超采樣,也(ye)可(ke)以(yi)獲得(de)1.7倍的(de)(de)(de)(de)解析力的(de)(de)(de)(de)增強。
“我(wo)們通過(guo)自研芯(xin)片和(he)定(ding)制化(hua)(hua)傳(chuan)感器(qi)相互的(de)化(hua)(hua)學反應(ying)和(he)相互耦(ou)合(he),真正(zheng)充分發揮出(chu)傳(chuan)感器(qi)在(zai)最初設計時(shi)候的(de)最大(da)能力。”姜波強調(diao)。
從上述(shu)的(de)介(jie)紹我(wo)們可(ke)以看到,OPPO基于DSA的(de)設計能(neng)夠將以影像的(de)體驗發揮得淋漓盡(jin)致(zhi)。而在這背后,其在芯片的(de)定義、IP的(de)設計和工藝(yi)的(de)選擇等多個方(fang)面(mian)的(de)決定都功不(bu)可(ke)沒。
熟悉芯(xin)片(pian)設計的(de)(de)讀者應該知道,在做好了(le)芯(xin)片(pian)的(de)(de)功能定義和(he)(he)架(jia)構(gou)規劃之后,接下來的(de)(de)一個重(zhong)要環節就(jiu)是選擇IP。常用的(de)(de)方案有第三方IP和(he)(he)自研兩種(zhong)。出于謹慎考慮,很多新入局芯(xin)片(pian)設計的(de)(de)廠(chang)商都選擇前者。但OPPO卻走了(le)一條(tiao)相對(dui)較難的(de)(de)路。
在問(wen)到為何作出(chu)這個決(jue)(jue)定時,姜波回應道(dao),在決(jue)(jue)定研發馬里亞納 MariSilicon X之后(hou),公(gong)司也考慮過一些第三方IP,市場上也有(you)很多IP廠商(shang)可(ke)以提(ti)供NPU。但(dan)他(ta)們(men)在評估之后(hou)發現(xian),并(bing)沒有(you)一個現(xian)有(you)NPU可(ke)以在其自身的場景和算(suan)法(fa)下(xia),達到他(ta)們(men)認為的最(zui)優能耗效率。因此他(ta)們(men)從頭開(kai)始(shi)自研做了(le)NPU,這就(jiu)是MariNeuro IP面(mian)世背后(hou)的原因,這也讓OPPO首個自研芯(xin)片MariSilicon X擁有(you)了(le)強悍的性能。
除了MariNeuro之外,OPPO還自研了MariLumi IP,正是這個IP,讓OPPO的(de)(de)馬里亞納 MariSilicon X在(zai)圖(tu)片的(de)(de)HDR處理方面擁有其他手機(ji)芯片旗艦所不具備的(de)(de)實力。
為了(le)讓設備(bei)更好地處理這些龐大數(shu)據,OPPO還給這個芯片(pian)(pian)配備(bei)了(le)片(pian)(pian)上的內(nei)存子(zi)系統,避(bi)免數(shu)據頻(pin)繁讀(du)寫產(chan)生的時延和功(gong)耗提升。這個Tb級(ji)的子(zi)系統讓該芯片(pian)(pian)在處理海量(liang)數(shu)據時依舊(jiu)游刃(ren)有余(yu)。這也(ye)是(shi)OPPO能(neng)夠把(ba)之前應(ying)(ying)用于(yu)圖像的AI算法應(ying)(ying)用于(yu)實時視頻(pin)處理的一個重要原因(yin)。
又(you)因為OPPO還專門(men)為這個芯片(pian)集成(cheng)了(le)8.5GB/s的獨立DDR帶寬,因此當MariSilicon X跟(gen)一個主芯片(pian)搭載在一起使(shi)用時,整個系(xi)統(tong)的DDR吞吐率又(you)增加了(le)17%。
對(dui)于一(yi)個(ge)芯片(pian)來說,架構、處理能力和I/O是(shi)決(jue)定其性能的關鍵要素。但正(zheng)如(ru)摩爾定律(lv)的含義所體現的,芯片(pian)的制(zhi)造工藝才(cai)是(shi)決(jue)定一(yi)顆芯片(pian)性能的根本。同時,作(zuo)為(wei)一(yi)個(ge)商用產(chan)品,該芯片(pian)同時還需要在(zai)成本上做權衡。基于上述考慮,OPPO團(tuan)隊在(zai)公司(si)的首顆芯片(pian)上選擇了6nm。
據姜波介紹,公司在(zai)開始芯(xin)(xin)片(pian)設計的時候評估了(le)各種工藝(yi)制程(cheng)。他坦言,選(xuan)擇(ze)(ze)更落后的工藝(yi),在(zai)芯(xin)(xin)片(pian)的設計、實現(xian)、周(zhou)期和成本都極具優勢,但之所以選(xuan)擇(ze)(ze)6nm,主要是(shi)基(ji)于他們經過仿真(zhen)之后得(de)出結論——即便(bian)有自研(yan)的MariNeuro和MariLumi IP,但如果選(xuan)擇(ze)(ze)落后的工藝(yi)(如12nm),做出來的芯(xin)(xin)片(pian)很難(nan)達到終端(duan)應用所需的極致(zhi)功耗性能要求。因(yin)此他們別無(wu)選(xuan)擇(ze)(ze)。
“從工藝制(zhi)程來講,6nm應(ying)該是臺積電第一個(ge)主流的采用EUV的制(zhi)程。因為(wei)有了這個(ge)制(zhi)程,我們非常好(hao)地支(zhi)撐了同級(ji)最好(hao)的能(neng)效比(bi),包(bao)括在(zai)RAW上的復雜算(suan)法處理。”姜波補充(chong)。他進一步指出,OPPO的這個(ge)6nm芯(xin)片上,實現(xian)了一次點亮,這足以證明OPPO芯(xin)片團隊(dui)的實力。這也讓他們成為(wei)了國內為(wei)數不多可以實現(xian)6nm設計的企業。
除此以外,筆者(zhe)還認為(wei),OPPO的6nm芯片背后其實還有更深層次(ci)的含(han)義:
一(yi)方面,進入到10nm以后,傳(chuan)統(tong)的(de)(de)DUV光刻(ke)機(ji)(ji)已(yi)經(jing)不再能(neng)夠(gou)滿足芯(xin)片(pian)繼續(xu)微縮的(de)(de)需求,EUV光刻(ke)機(ji)(ji)便應(ying)運而(er)生(sheng)。從目前(qian)的(de)(de)情(qing)況看來,如果想繼續(xu)打造更高性(xing)能(neng)的(de)(de)芯(xin)片(pian),懂得設計使(shi)用EUV光刻(ke)機(ji)(ji)生(sheng)產的(de)(de)芯(xin)片(pian)是(shi)一(yi)個(ge)(ge)必備(bei)技能(neng),而(er)OPPO團隊在(zai)馬(ma)里亞納(na)MariSilicon X芯(xin)片(pian)的(de)(de)實踐上展現了他們在(zai)這個(ge)(ge)方面的(de)(de)實力,讓他們擁有(you)底(di)氣去探(tan)索更多的(de)(de)芯(xin)片(pian)可能(neng)。
另一(yi)方面(mian),6nm芯(xin)片(pian)(pian)的流(liu)片(pian)(pian)成(cheng)本(ben)較之(zhi)過(guo)往的芯(xin)片(pian)(pian)工藝成(cheng)本(ben)有(you)了(le)大幅度的提升,每流(liu)片(pian)(pian)一(yi)次的成(cheng)本(ben)可以(yi)以(yi)“億(yi)”為單位。但(dan)OPPO依然能這樣高舉(ju)高打(da),足以(yi)體現他們造芯(xin)的決(jue)心。
姜波也強調,和(he)其他芯(xin)片(pian)廠商(shang)做芯(xin)片(pian)只是(shi)(shi)追求終(zhong)端廠商(shang)成本和(he)需求的(de)平衡不(bu)一(yi)樣,OPPO造芯(xin)的(de)目的(de)相(xiang)對(dui)純粹(cui)很多,那(nei)就(jiu)是(shi)(shi)用(yong)“加法”思維去“堆(dui)料(liao)”,以提(ti)高(gao)用(yong)戶(hu)體驗為(wei)最終(zhong)目的(de)。他進(jin)一(yi)步舉例說(shuo),當(dang)這顆(ke)芯(xin)片(pian)與高(gao)通(tong)或(huo)聯發(fa)科(ke)主芯(xin)片(pian)一(yi)起(qi)在手機(ji)內工作時,并不(bu)是(shi)(shi)為(wei)了取代后者(zhe)的(de)部分功(gong)能,而(er)是(shi)(shi)希望(wang)通(tong)過(guo)增加芯(xin)片(pian),增加算力,與它(ta)們一(yi)起(qi)把事(shi)情做得更好。
寫在最后
在(zai)文(wen)章開頭談到的John Hennessy 和(he)(he)(he) David Patterson的文(wen)章中說到,登(deng)納德縮(suo)放定律和(he)(he)(he)摩爾定律的終(zhong)結(jie),把高級、特定領域的語言和(he)(he)(he)架(jia)構(gou)將(jiang)(jiang)架(jia)構(gou)師從專有指令(ling)集的鏈(lian)條中釋放出(chu)來,這(zhe)將(jiang)(jiang)為計算(suan)(suan)機架(jia)構(gou)師帶來一個新(xin)的黃金時代。他們同時還(huan)指出(chu),未來十年,將(jiang)(jiang)會有一場新(xin)計算(suan)(suan)機架(jia)構(gou)的寒武紀爆炸(zha),這(zhe)對業(ye)界和(he)(he)(he)學界的架(jia)構(gou)師們來說將(jiang)(jiang)是激動人(ren)心的時刻。
對于OPPO來說,這(zhe)也是他們的一(yi)個機會。
正如姜波所說,MariSilicon X只是OPPO在(zai)計算影像上探索(suo)的(de)第一步(bu)。因為OPPO離消費者比較(jiao)近,會對(dui)用戶痛點以(yi)及產品的(de)價值主(zhu)張比較(jiao)清晰,所以(yi)OPPO在(zai)做一些(xie)方向選擇的(de)時候,也更(geng)容易做決策(ce)。而這正是DSA的(de)精(jing)髓所在(zai)。
從(cong)日前的一些媒(mei)體(ti)報(bao)道(dao)中我們(men)看到,OPPO現在擁有了一個超過2000人的芯片(pian)團隊(dui)。通過OPPO對MariSilicon X的解讀(du),筆(bi)者有理由相(xiang)信(xin)這(zhe)家(jia)國(guo)產手機(ji)芯片(pian)“新貴(gui)”迎來的,不僅僅是黃金十年。讓我們(men)靜候一個更好體(ti)驗的時代到來。