自研芯片會是改變云(yun)計算游戲規(gui)則的(de)關鍵么?亞馬遜云(yun)科(ke)技認為的(de)確如此(ci)。
在(zai)2021年亞(ya)馬遜云(yun)科技re:Invent全球大會上,亞(ya)馬遜云(yun)科技公布了其最新(xin)芯片研究成果(guo),包括自研CPU處理器(qi)Amazon Graviton3,這是亞(ya)馬遜云(yun)科技自研設計的(de)第三顆CPU處理器(qi)。
同(tong)時,繼去年宣布研制機器學習訓(xun)(xun)練芯片Amazon Trainium后(hou),亞馬遜云(yun)科技于今年宣布提(ti)供基(ji)于Trainium的實例(li)(li)。與P4d實例(li)(li)相比,由Amazon Trainium芯片支持(chi)的Trn1實例(li)(li)訓(xun)(xun)練深度學習模型的成本(ben)降低多達40%。
在固態硬盤層面,基于Amazon Nitro SSD固態硬盤的Im4gn/Is4gen/ I4i實例也正式(shi)發布。通過自研(yan)的 Amazon Nitro SSD,Im4gn/Is4gen/I4i實例提供高達(da) 30 TB 的 NVMe 存儲,與上一(yi)代(dai)I3實例相比,I/O 延遲(chi)降(jiang)低(di)(di)了 60%,延遲(chi)可變性降(jiang)低(di)(di)了 75%。
云(yun)計(ji)算發展(zhan)十(shi)余年來(lai),正在(zai)變得越來(lai)越硬(ying),直(zhi)至底層芯(xin)片(pian)。同開創云(yun)時代一樣(yang),自研芯(xin)片(pian)的風潮很大程度上也(ye)是由亞(ya)馬(ma)遜(xun)云(yun)科技開始,國內(nei)外云(yun)廠商不斷跟進,例如(ru)阿里云(yun)自研CPU倚(yi)天710、AI推理芯(xin)片(pian)含光(guang)800等,騰訊云(yun)的AI推理芯(xin)片(pian)“紫霄”等。
自研芯片并(bing)不是云(yun)廠商(shang)(shang)開(kai)展(zhan)業務的(de)(de)必需(xu),但卻決(jue)定了(le)云(yun)廠商(shang)(shang)的(de)(de)天花(hua)板,象(xiang)征著云(yun)巨(ju)頭的(de)(de)身份(fen)。

亞(ya)馬(ma)遜云科技大中華區產品部總經理顧凡
對(dui)于自(zi)研芯片的(de)驅動(dong)力(li),亞馬遜(xun)云(yun)科技大中華區產(chan)品部總經理顧凡是(shi)這(zhe)樣(yang)解釋的(de),“客戶對(dui)云(yun)上(shang)性價比(bi)的(de)追(zhui)求(qiu)永遠不會有止(zhi)境,同時(shi),未來(lai)云(yun)上(shang)的(de)新型(xing)工作(zuo)負載對(dui)于計(ji)算創(chuang)新的(de)要(yao)求(qiu)也是(shi)無(wu)止(zhi)境的(de)。而發生在底層的(de)創(chuang)新,往往最具(ju)備(bei)顛覆性。半導體(ti)和(he)芯片層面的(de)創(chuang)新會是(shi)改變云(yun)計(ji)算游戲規(gui)則(ze)一個非常重要(yao)的(de)能力(li)。”
自研芯片比之云(yun)服務更具挑戰,即使(shi)是亞馬遜云(yun)科技,也(ye)在自研芯片的過程(cheng)中也(ye)面臨(lin)諸(zhu)多權衡的選擇(ze)。
提高頻率or增加內核數量?
Graviton3相較于Graviton2多出200億個晶體管,如何利用這(zhe)200億個晶體管,來(lai)實現最佳(jia)的性能和效率,是亞馬遜在這(zhe)一(yi)代芯片中要深入思考(kao)的問題。
亞馬(ma)遜云科(ke)技大中華區產品部計算與存(cun)儲總監周舸說道,“原(yuan)則很簡(jian)單,我們得從(cong)工(gong)作負載去(qu)看,從(cong)客戶真正(zheng)怎么(me)使用這些設備去(qu)看,找到我們的起點。”
通常(chang)提升CPU性(xing)能的兩個方向,提高頻率或者(zhe)增加內核數量,提高頻率確實可以(yi)快速提升性(xing)能,而且大多數時候這種(zhong)性(xing)能提升對所(suo)有(you)的工作負(fu)載(zai)都有(you)效。
但提(ti)高(gao)頻(pin)率(lv)有局限性,以現在半導體(ti)的功率(lv)和能(neng)(neng)力(li),提(ti)高(gao)頻(pin)率(lv)意味著產生更多的熱(re)量,散熱(re)會(hui)是一個大問題,尤(you)其是在超大規(gui)模數據中心里,高(gao)頻(pin)帶來(lai)高(gao)能(neng)(neng)耗,高(gao)能(neng)(neng)耗帶來(lai)高(gao)熱(re)量,高(gao)熱(re)量要(yao)求更高(gao)的散熱(re)效率(lv),反而(er)提(ti)升(sheng)了(le)耗電量,企業(ye)用云成本不降反升(sheng)。
因此亞馬遜(xun)云科(ke)技選擇讓(rang)內(nei)(nei)(nei)核(he)的(de)(de)“寬度(du)”增(zeng)加,即使用指令(ling)并行(xing)(xing)的(de)(de)方式,讓(rang)內(nei)(nei)(nei)核(he)在同一個時(shi)鐘周期里執行(xing)(xing)更(geng)多(duo)的(de)(de)指令(ling)、完成更(geng)多(duo)的(de)(de)任務(wu),這樣不用增(zeng)加內(nei)(nei)(nei)核(he)數(shu)量也能提高業務(wu)運行(xing)(xing)效率。
根(gen)據亞馬遜(xun)云科(ke)技給出(chu)的(de)數據,由(you)Amazon Graviton3處理器支持(chi)的(de)C7g實(shi)例與(yu)由(you) Graviton2 處理器支持(chi)的(de)當前一代(dai) C6g 實(shi)例相比(bi),可將計(ji)算(suan)密(mi)集型工(gong)(gong)作負(fu)載性能(neng)提高多達(da)(da)25%。Amazon Graviton3處理器與(yu)Graviton2相比(bi),為科(ke)學(xue)(xue)計(ji)算(suan)、機(ji)(ji)器學(xue)(xue)習和(he)媒體編碼(ma)工(gong)(gong)作負(fu)載提供高達(da)(da)2倍(bei)的(de)浮(fu)點運算(suan)性能(neng),為加密(mi)工(gong)(gong)作負(fu)載速度提升高達(da)(da)2倍(bei),為機(ji)(ji)器學(xue)(xue)習工(gong)(gong)作負(fu)載提供高達(da)(da)3倍(bei)的(de)性能(neng)。
增加核數or降低內存時延
如(ru)前(qian)所述(shu),增加核(he)數也是提高芯片性(xing)能快且有效的辦法,Graviton從第(di)一代到第(di)二代,亞馬遜云科技就選擇增加核(he)數,實現了不錯(cuo)的效果。
新的(de)(de)選擇題出現,亞馬(ma)遜(xun)云科技是(shi)將剩下(xia)的(de)(de)晶體管繼續增加更多的(de)(de)核,還是(shi)去增加CPU內存的(de)(de)帶寬和降低(di)它的(de)(de)延(yan)遲?
“到了第三代的(de)(de)時(shi)候(hou),我(wo)們研(yan)究(jiu)在Graviton2上運行(xing)的(de)(de)工作負(fu)載,發現有大(da)量工作負(fu)載是(shi)(shi)大(da)數據類型,大(da)量是(shi)(shi)微服務架(jia)構的(de)(de),甚至一些HPC的(de)(de)服務等(deng),這些服務對內存的(de)(de)帶寬和延時(shi)的(de)(de)敏感度非常高,我(wo)們的(de)(de)判斷是(shi)(shi)——在內存下工夫(fu),會比增(zeng)加(jia)核數的(de)(de)效果更(geng)好(hao)。”周舸(ge)表示。
C7g實例(li)是云中第一(yi)個采用(yong)最新(xin)DDR5內(nei)存(cun)(cun)的實例(li),與基(ji)于(yu)Amazon Graviton2的實例(li)相比,它提高了50%的內(nei)存(cun)(cun)帶寬,從而提高了科學計算等內(nei)存(cun)(cun)密(mi)集型(xing)應(ying)用(yong)的性(xing)能。
與(yu)基于Amazon Graviton2的(de)實(shi)(shi)例(li)(li)相比,C7g實(shi)(shi)例(li)(li)的(de)網絡帶(dai)寬也高出20%。C7g 實(shi)(shi)例(li)(li)支持 Elastic Fabric Adapter (EFA),允許應用程序直接與(yu)網絡接口(kou)卡通信,提供更低且更一致的(de)延遲,提高需要大規模并行處理(li)(如高性能計算和視頻編碼)的(de)應用程序的(de)性能。
客戶的(de)反饋也說(shuo)明了這一點(dian),Twitter部分(fen)業務性能(neng)提(ti)升(sheng)20%到80%;F1流體仿真(zhen)在Graviton2的(de)基礎上提(ti)升(sheng)40%。
與(yu)此同(tong)時(shi),通(tong)過增加內存帶寬和降低內存時(shi)延的(de)(de)(de)方(fang)法(fa),Graviton3的(de)(de)(de)功耗降低了60%,保(bao)持了更好(hao)的(de)(de)(de)能效比,企業客戶無需(xu)付出很高的(de)(de)(de)成本代價,也(ye)能獲得性(xing)能的(de)(de)(de)提升。
“亞馬遜云科技是云廠商里面最早做自研芯片的,今天我們擁有Nitro、Graviton、人工智能機器學習自研芯(xin)片(pian)三條產品線,自研芯(xin)片(pian)需(xu)要經驗積累,并不是(shi)花錢就能買來(lai)的(de),亞馬遜云科技從對云上(shang)所有客戶工(gong)作負載(zai)的(de)深刻理解(jie),逆(ni)向工(gong)作設計芯(xin)片(pian),是(shi)我們在重構(gou)云計算底(di)座自研芯(xin)片(pian)里面的(de)最大優勢。”顧(gu)凡表示。

