自研芯片會是改(gai)變云計算(suan)游戲(xi)規則的(de)關鍵(jian)么?亞馬遜云科技認為的(de)確如此。
在2021年亞(ya)馬遜云科技re:Invent全球大會上,亞(ya)馬遜云科技公布了其最(zui)新芯片研究成(cheng)果,包括自研CPU處理器Amazon Graviton3,這是亞(ya)馬遜云科技自研設計的(de)第(di)三顆CPU處理器。
同時,繼(ji)去年宣布研制機器學習訓練(lian)芯片Amazon Trainium后,亞馬遜(xun)云科技于今年宣布提供基于Trainium的(de)實例(li)。與P4d實例(li)相比,由(you)Amazon Trainium芯片支持的(de)Trn1實例(li)訓練(lian)深(shen)度(du)學習模型的(de)成(cheng)本降低多達40%。
在固態硬(ying)盤層面,基(ji)于Amazon Nitro SSD固態硬(ying)盤的Im4gn/Is4gen/ I4i實(shi)例(li)也正式發布。通過自研的 Amazon Nitro SSD,Im4gn/Is4gen/I4i實(shi)例(li)提供高達 30 TB 的 NVMe 存儲,與上一(yi)代(dai)I3實(shi)例(li)相比,I/O 延遲降(jiang)低(di)了 60%,延遲可變性降(jiang)低(di)了 75%。
云(yun)計算發展十余年來(lai),正在變得越(yue)來(lai)越(yue)硬,直(zhi)至(zhi)底層芯片(pian)。同開(kai)創(chuang)云(yun)時代(dai)一樣(yang),自研(yan)芯片(pian)的風潮很大程度上也是由亞馬遜(xun)云(yun)科技開(kai)始,國內外云(yun)廠商不斷跟進,例(li)如阿里云(yun)自研(yan)CPU倚天710、AI推理(li)(li)芯片(pian)含光800等,騰訊云(yun)的AI推理(li)(li)芯片(pian)“紫霄”等。
自研(yan)芯片并不(bu)是云廠商開展業務的(de)必(bi)需,但卻(que)決定了(le)云廠商的(de)天花板(ban),象征著云巨(ju)頭的(de)身份。
亞馬遜云(yun)科技大中(zhong)華(hua)區產品部總經理顧(gu)凡
對于自研芯片(pian)的(de)驅動力(li),亞馬遜云科技大中華區產品部總(zong)經理顧凡是(shi)(shi)這樣(yang)解釋的(de),“客戶對云上(shang)(shang)性價比的(de)追求(qiu)(qiu)永遠不會有止境,同時,未來云上(shang)(shang)的(de)新(xin)(xin)型工(gong)作負載對于計算創(chuang)新(xin)(xin)的(de)要求(qiu)(qiu)也(ye)是(shi)(shi)無止境的(de)。而發生在底層(ceng)的(de)創(chuang)新(xin)(xin),往往最具備(bei)顛覆(fu)性。半(ban)導體(ti)和芯片(pian)層(ceng)面的(de)創(chuang)新(xin)(xin)會是(shi)(shi)改變云計算游戲規則(ze)一個(ge)非常重要的(de)能力(li)。”
自研芯片比之云(yun)服(fu)務更(geng)具挑(tiao)戰,即使是亞馬(ma)遜云(yun)科技,也在自研芯片的(de)過(guo)程中(zhong)也面(mian)臨諸(zhu)多權衡(heng)的(de)選(xuan)擇。
提高頻率or增加內核數量?
Graviton3相(xiang)較(jiao)于(yu)Graviton2多出200億個晶(jing)體管,如(ru)何利用這(zhe)200億個晶(jing)體管,來實現(xian)最佳的性能和(he)效率,是亞馬(ma)遜在這(zhe)一代芯片(pian)中要深入思考的問題。
亞馬遜云科(ke)技大中華區產品部計算與存儲總監周(zhou)舸(ge)說道(dao),“原(yuan)則很簡(jian)單,我們(men)得從工作(zuo)負載去(qu)看,從客(ke)戶(hu)真正怎么使用這(zhe)些設備去(qu)看,找(zhao)到我們(men)的起點。”
通(tong)常提(ti)(ti)升CPU性能的(de)兩(liang)個方(fang)向,提(ti)(ti)高(gao)頻(pin)(pin)率(lv)或(huo)者(zhe)增(zeng)加內(nei)核數量,提(ti)(ti)高(gao)頻(pin)(pin)率(lv)確實可以(yi)快(kuai)速提(ti)(ti)升性能,而且大多(duo)數時候這種性能提(ti)(ti)升對(dui)所有的(de)工作負載都有效。
但(dan)提高(gao)(gao)(gao)頻(pin)率(lv)(lv)有局(ju)限性,以現在半(ban)導體的功率(lv)(lv)和能力,提高(gao)(gao)(gao)頻(pin)率(lv)(lv)意味(wei)著產生更(geng)多的熱(re)量(liang),散(san)熱(re)會是一個大(da)問題,尤(you)其是在超大(da)規模數據中心里(li),高(gao)(gao)(gao)頻(pin)帶來高(gao)(gao)(gao)能耗,高(gao)(gao)(gao)能耗帶來高(gao)(gao)(gao)熱(re)量(liang),高(gao)(gao)(gao)熱(re)量(liang)要(yao)求更(geng)高(gao)(gao)(gao)的散(san)熱(re)效率(lv)(lv),反(fan)而(er)提升了耗電量(liang),企業用云成(cheng)本不降反(fan)升。
因此(ci)亞馬遜云(yun)科技(ji)選擇讓內核的“寬度”增加,即(ji)使用指令(ling)并行(xing)的方(fang)式,讓內核在同一個(ge)時鐘(zhong)周期里執行(xing)更多(duo)的指令(ling)、完成更多(duo)的任務(wu),這樣不用增加內核數量也能提(ti)高業務(wu)運行(xing)效率(lv)。
根據亞馬遜云科(ke)技給出的數據,由Amazon Graviton3處(chu)理器(qi)支持的C7g實例(li)與由 Graviton2 處(chu)理器(qi)支持的當前(qian)一代 C6g 實例(li)相(xiang)比,可(ke)將計算(suan)(suan)(suan)密集型工(gong)作負(fu)載(zai)(zai)性能提(ti)高多達25%。Amazon Graviton3處(chu)理器(qi)與Graviton2相(xiang)比,為(wei)科(ke)學(xue)計算(suan)(suan)(suan)、機(ji)器(qi)學(xue)習(xi)和(he)媒體編碼工(gong)作負(fu)載(zai)(zai)提(ti)供(gong)高達2倍(bei)的浮點運算(suan)(suan)(suan)性能,為(wei)加密工(gong)作負(fu)載(zai)(zai)速度提(ti)升高達2倍(bei),為(wei)機(ji)器(qi)學(xue)習(xi)工(gong)作負(fu)載(zai)(zai)提(ti)供(gong)高達3倍(bei)的性能。
增加核數or降低內存時延
如前所(suo)述,增加核數(shu)也是提高芯片性能快且(qie)有(you)效的辦(ban)法,Graviton從第一代(dai)到(dao)第二代(dai),亞馬遜云科技(ji)就(jiu)選擇增加核數(shu),實現了不錯的效果。
新的(de)(de)選擇題出現,亞(ya)馬遜云科技是(shi)將剩(sheng)下的(de)(de)晶體(ti)管繼(ji)續增加(jia)更多的(de)(de)核,還是(shi)去增加(jia)CPU內(nei)存(cun)的(de)(de)帶寬(kuan)和降低它的(de)(de)延遲?
“到了(le)第(di)三代(dai)的時候,我們研究(jiu)在Graviton2上運行的工作負載(zai),發現有大(da)(da)(da)量工作負載(zai)是(shi)大(da)(da)(da)數據類型(xing),大(da)(da)(da)量是(shi)微(wei)服務架構的,甚至一些HPC的服務等,這些服務對內存的帶寬(kuan)和(he)延時的敏(min)感(gan)度非(fei)常高,我們的判斷是(shi)——在內存下工夫,會比增(zeng)加核(he)數的效果更好。”周舸表示。
C7g實例(li)是云中(zhong)第(di)一個采用(yong)(yong)最新(xin)DDR5內(nei)存的(de)(de)實例(li),與基于(yu)Amazon Graviton2的(de)(de)實例(li)相比,它提高了50%的(de)(de)內(nei)存帶寬,從而提高了科學(xue)計算等內(nei)存密集(ji)型應用(yong)(yong)的(de)(de)性能。
與基(ji)于(yu)Amazon Graviton2的(de)實例(li)相比,C7g實例(li)的(de)網絡帶寬也(ye)高(gao)出20%。C7g 實例(li)支持 Elastic Fabric Adapter (EFA),允許應用程序直(zhi)接與網絡接口卡通信,提供更(geng)低且更(geng)一致(zhi)的(de)延(yan)遲,提高(gao)需要(yao)大規模并行處理(如高(gao)性能計算(suan)和視頻編碼(ma))的(de)應用程序的(de)性能。
客戶的反(fan)饋也說明了這一點,Twitter部分業務(wu)性能提升20%到80%;F1流體仿真(zhen)在Graviton2的基礎上提升40%。
與(yu)此同(tong)時,通過(guo)增加內存帶(dai)寬(kuan)和降(jiang)低內存時延的(de)方(fang)法(fa),Graviton3的(de)功耗降(jiang)低了(le)60%,保持(chi)了(le)更好的(de)能(neng)效比,企業客戶無需付出(chu)很高的(de)成本代價,也能(neng)獲(huo)得性能(neng)的(de)提升。
“亞馬遜云科技是云廠商里面最早做自研芯片的,今天我們擁有Nitro、Graviton、人工智能機器學習自研(yan)芯(xin)(xin)片三條產(chan)品線(xian),自研(yan)芯(xin)(xin)片需要經驗積累,并(bing)不是花錢就能買(mai)來的,亞馬(ma)遜(xun)云科技從對云上所有(you)客戶工(gong)作負載的深刻理解,逆向工(gong)作設計芯(xin)(xin)片,是我們在重構云計算底座自研(yan)芯(xin)(xin)片里(li)面的最大優(you)勢。”顧凡表示。