阿(a)里云(yun)(yun)今年最重要策略是(shi)“B2B”,也就是(shi)“Back to Basic”,回到云(yun)(yun)計(ji)算(suan)的本質,堅持在(zai)技術(shu)的長征路(lu)上,不斷取(qu)得新的突破。同(tong)時(shi),阿(a)里云(yun)(yun)正(zheng)式(shi)發布自主研發的云(yun)(yun)基礎設施處(chu)理器CIPU,將在(zai)未(wei)來取(qu)代(dai)CPU成為新一代(dai)云(yun)(yun)計(ji)算(suan)的管(guan)控和加速中心。
6月13日,阿(a)里云(yun)(yun)(yun)硬件研發又有了(le)最新進展(zhan)。在2022阿(a)里云(yun)(yun)(yun)峰會上,阿(a)里云(yun)(yun)(yun)正式(shi)發布了(le)其自主研發的(de)(de)云(yun)(yun)(yun)基礎設施處理(li)器(qi)CIPU(Cloud infrastructure Procrssing Units),作為(wei)一(yi)款(kuan)為(wei)新型云(yun)(yun)(yun)數據中(zhong)心設計(ji)的(de)(de)專用處理(li)器(qi),它將在未來(lai)取代(dai)CPU成為(wei)新一(yi)代(dai)云(yun)(yun)(yun)計(ji)算的(de)(de)管控和加速中(zhong)心。
會上,阿(a)里云(yun)智(zhi)能總裁張建鋒表示,阿(a)里云(yun)今年最重(zhong)要(yao)策略(lve)是“B2B”,也就是“Back to Basic”,回到云(yun)計(ji)算的(de)本質(zhi),堅持(chi)在技術的(de)長征路上,不(bu)斷取得新的(de)突破(po)。同時,他認(ren)為云(yun)計(ji)算進入了一個關鍵的(de)突破(po)期,“如果我們定義(yi)好下一代(dai)技術,中(zhong)國云(yun)計(ji)算就有超(chao)車(che)機會。”
5月26日,阿里發布2022財年業績報表,云(yun)(yun)業務同(tong)比增長(chang)23%,全(quan)年收入在抵銷跨分部(bu)交易前后(hou)分別(bie)達到1001.8億(yi)元和745.67億(yi)元,并(bing)創(chuang)下了11.46億(yi)元的盈利數(shu)據。這是阿里云(yun)(yun)成(cheng)立13年以來實現的首次年度盈利,也是阿里云(yun)(yun)新的歷史性時刻。
遙想當年,從無人看好的業務,到如今一躍成為中國云計算版圖上最耀眼的那顆星,阿里云經歷了13年的隱忍和克制,摸著石頭過河,以飛天云操作系統為核心,自研了芯片、服務(wu)器、計(ji)算(suan)、存(cun)儲、網絡、安全等(deng)軟硬一體(ti)的(de)新型(xing)計(ji)算(suan)體(ti)系架(jia)構。如今(jin),經過多(duo)年(nian)的(de)沉(chen)淀和積累,阿(a)里云(yun)終于有了勇氣,去爭奪云(yun)計(ji)算(suan)下(xia)一個階段(duan)的(de)定義權。
張(zhang)建鋒認為(wei),在(zai)過去(qu)的十多年間,云計(ji)(ji)算(suan)已經經歷了兩(liang)個(ge)發展階段,從分(fen)布式到資源(yuan)池化(hua),產生了非常多的創新。其中,第一階段是分(fen)布式和(he)虛擬(ni)化(hua)技(ji)術(shu)替代了大型機(ji),滿(man)足(zu)了當(dang)時企(qi)業所(suo)需的算(suan)力(li)規模;第二階段出現(xian)了資源(yuan)池化(hua)技(ji)術(shu),把計(ji)(ji)算(suan)和(he)存(cun)儲資源(yuan)分(fen)離,再規模化(hua)編排(pai)和(he)調度,提供了超大規模的計(ji)(ji)算(suan)和(he)存(cun)儲資源(yuan)池。
這兩個階段的演進推動云計算發展,但它們都是通過軟件定義的方法,基于傳統的以CPU為中心的體系架構去做優化,已經觸及瓶頸。隨著云計(ji)算規(gui)模的不斷膨脹,大數(shu)據應(ying)用(yong)場(chang)景(jing)的逐漸增多,云計(ji)算整(zheng)體也面臨(lin)了多重挑戰:
首先,計算和網絡傳輸時延大。隨著體系結構越來越分布,一個大型的應用會分散在多個子系統去部署,這些系統之間就需要高速地去互聯;其次,隨著大數據應用的不斷增長,IDC內部的東西向流量越來越大,數據密集型計算也就越來越多;再者,以阿里云為例,其在全球四大洲的27個(ge)國(guo)家(jia)和地區(qu)、84個(ge)可用區(qu)、2800個(ge)網絡節點(dian),運(yun)營著(zhu)上百萬臺(tai)服務(wu),服務(wu)著(zhu)400多萬客戶,系統規模(mo)越來越大、越來越復雜,也(ye)造(zao)成了超(chao)大規模(mo)基礎設施的復雜管理問題(ti)。
因此張建鋒表示,新一代的云計算要從數據中心的內部做體系化創新,打破以往的以CPU為中心的體系架構,進入以CIPU為中心的體系架構。而CIPU不僅能在以軟件靈活定義整個基礎設施,還能通過硬件加速實現性能大幅提升。
實際上,也(ye)并(bing)非只有阿里云在此賽道上追(zhui)逐,比如英偉(wei)達在2020年10月發(fa)布的(de)DPU(Data Processing Units),側重(zhong)于(yu)解決數據遷移帶寬的(de)問題,能夠(gou)從CPU上卸載關鍵的(de)網絡、存儲和安全(quan)任務,降低CPU的(de)開(kai)銷,一經面世便引發(fa)了業界(jie)的(de)廣泛熱議。
隨后(hou)英特爾(er)也推出了IPU(Infrastructure Processing Units)的(de)概念,強調虛(xu)擬化(hua)云化(hua)能(neng)(neng)力,通過(guo)網絡虛(xu)擬化(hua)、存(cun)儲虛(xu)擬化(hua)、網絡存(cun)儲管理以及安全(quan)等功能(neng)(neng),加(jia)速(su)網絡基礎(chu)設(she)施(shi),釋放CPU來(lai)提高應用程序性能(neng)(neng)。可見無論(lun)英偉達還是英特爾(er),都是想要通過(guo)軟件(jian)定義和硬件(jian)加(jia)速(su)的(de)方式,替代CPU成為數據(ju)中心(xin)的(de)核心(xin)硬件(jian)。
CIPU和CPU表面雖然只是(shi)一(yi)個“I”的(de)差(cha)別(bie),實(shi)際上卻是(shi)兩個時代的(de)差(cha)距。CIPU作為(wei)一(yi)顆云(yun)端專用處(chu)理器,主(zhu)要(yao)用于(yu)連接(jie)服務器內硬件和云(yun)上虛擬(ni)化資(zi)源(yuan)。底層基礎設施通過插入CIPU,能夠(gou)托管在飛天云(yun)操作系(xi)統中,進而(er)形成云(yun)上的(de)統一(yi)虛擬(ni)資(zi)源(yuan)池,為(wei)客戶提供云(yun)上算(suan)力。
根據阿里云表述,CIPU向下接入物理的計算、存儲、網絡資源,快速云化并進行硬件加速;向上接入飛天云操作系統,管控阿里云全球上百萬臺服務器,讓算力虛擬化損耗降到0,并通過規模化應用RDMA網絡技術,讓訪問云端比訪問本地硬盤更快。從性(xing)能上看,實現(xian)了計算、存儲和網絡三類(lei)資源的極(ji)大提(ti)升:
CIPU與(yu)計算結合:快速接(jie)入(ru)不(bu)同類型資源(yuan)的服務器,帶(dai)來(lai)算力的“0”損耗,以及硬(ying)件(jian)級安全的加(jia)固隔(ge)離(li);
CIPU與存(cun)儲結合(he):對存(cun)算分(fen)離架構的塊存(cun)儲接入進行硬件(jian)加速,云(yun)盤存(cun)儲IOPS最高可(ke)達300萬,長尾時延降低50%;
CIPU與網(wang)絡結合:可(ke)對高帶(dai)寬物理網(wang)絡進行硬件(jian)加(jia)速,構建大規模彈性RDMA高性能網(wang)絡,時延最低可(ke)達(da)5us。
更值得一提的(de)(de)是,CIPU作為一顆專門為飛天系統設計(ji)的(de)(de)處(chu)理器,對(dui)于阿里(li)云從最(zui)底層(ceng)(ceng)的(de)(de)數據(ju)中(zhong)心核心部件到最(zui)上層(ceng)(ceng)云原生軟(ruan)(ruan)件,建立完整(zheng)的(de)(de)自(zi)研技術體(ti)系有(you)著(zhu)重大裨益。同(tong)時,借由(you)“飛天+CIPU”的(de)(de)新一代(dai)完整(zheng)的(de)(de)軟(ruan)(ruan)硬(ying)(ying)件云計(ji)算架構體(ti)系,也使(shi)其(qi)相比英特爾、英偉達等(deng)純硬(ying)(ying)件廠商更容易展現其(qi)優勢。
根據阿里云官方數據,在通用計算、大數據、人工智能等核(he)心(xin)場景的計算測試中,該體(ti)系(xi)展現了(le)優(you)越的性能。具體(ti)為:
在通(tong)用分(fen)布式(shi)計(ji)算領(ling)域,Redis性(xing)能提(ti)升(sheng)了68%、MySQL提(ti)升(sheng)了60%,Nginx提(ti)升(sheng)了30%;
高吞(tun)吐類的(de)互(hu)聯網業(ye)務(wu)上云之后,比自建物理機的(de)集群吞(tun)吐量提(ti)升了30%,業(ye)務(wu)高峰期(qi)延遲(chi)下降了90%;
在(zai)大數(shu)據(ju)和AI等計算(suan)與數(shu)據(ju)雙密集場景下,相比傳(chuan)統的TCP網絡(luo)(luo),彈性RDMA高性能網絡(luo)(luo)的吞吐能力提升30%以上;
云原生方面,容(rong)器啟(qi)動(dong)速度快了350%,在Serverless 場景下(xia)6秒可拉起3000個彈性容(rong)器實例。
張(zhang)建(jian)鋒(feng)稱(cheng),阿里云核心技(ji)術(shu)一直走在(zai)世界的(de)(de)前列,這(zhe)個新興體系是技(ji)術(shu)長(chang)征(zheng)路上的(de)(de)新里程碑(bei),這(zhe)個新型(xing)的(de)(de)技(ji)術(shu)體系正在(zai)定(ding)義下一代云計算架(jia)構。但我們知道,經(jing)歷了(le)13年的(de)(de)淬(cui)煉,這(zhe)不是一朝一夕(xi)的(de)(de)苦勞,而是不斷試(shi)煉和嘗試(shi)。
就(jiu)像(xiang)此次發(fa)布的CIPU,并非阿里云一時的產物。早在(zai)2014年,阿里云就(jiu)開始對各種智(zhi)能網卡(ka)進行了嘗試,最終它在(zai)2017年發(fa)布的神龍卡(ka)上顯(xian)示出了雛形。
從功能上來看,神龍卡類似于(yu)AWS發布(bu)的一款名為Nitro的平臺,主要用(yong)于(yu)消除計算虛擬化消耗。經(jing)過好幾(ji)輪迭代(dai)之后(hou)神龍卡逐漸加入了(le)(le)編排調(diao)度、硬件加速等(deng)更多(duo)能力,最(zui)終為CIPU的誕生定下了(le)(le)基調(diao)。如(ru)今,CIPU已經(jing)在阿里(li)云內部(bu)有(you)了(le)(le)較(jiao)大規模的應用(yong)和抗壓(ya)測試,為雙十(shi)一、阿里(li)集團業務等(deng)內部(bu)客戶和最(zui)新實例(li)提供(gong)了(le)(le)支持。
除(chu)此(ci)之外,在(zai)芯片層(ceng)面(mian),阿(a)里云是(shi)全球支(zhi)持(chi)CPU種類最多的云廠(chang)商(shang),基于“一云多芯”戰略(lve)對X86、ARM、RISC-V等多種架構進行適配,形成標準形態的算力輸出。
去年(nian),阿里云(yun)還(huan)針對云(yun)計算大規(gui)模(mo)、高(gao)并發特(te)性(xing),推出自研CPU芯片倚天710。目前,該處(chu)理器已(yi)在阿里云(yun)數(shu)據(ju)中心內部規(gui)模(mo)化部署,并順利支(zhi)撐2021年(nian)雙11等多(duo)個核心業務(wu)。今年(nian)4月,基于倚天710的(de)公共(gong)云(yun) ECS實例也已(yi)上線邀(yao)測。
在網(wang)絡(luo)層(ceng)面(mian)(mian),阿里云建設(she)了全球最大(da)規模的(de)RDMA分布式高(gao)性能網(wang)絡(luo),CIPU對高(gao)帶寬物理網(wang)絡(luo)進(jin)行(xing)硬件加(jia)速(su)(su),實現RDMA技(ji)術(shu)的(de)普惠化;在存儲層(ceng)面(mian)(mian),CIPU對存算分離(li)架構的(de)塊(kuai)存儲進(jin)行(xing)加(jia)速(su)(su),讓(rang)云端存儲比本(ben)地存儲更快,并擁(yong)有極(ji)大(da)規模的(de)資源池;在計算層(ceng)面(mian)(mian),通(tong)過(guo)CIPU把(ba)虛擬化開銷降(jiang)到0,并提供(gong)硬件安全隔(ge)離(li)功(gong)能。
未來(lai)或許真(zhen)的(de)(de)會(hui)如(ru)張建鋒所言,“云計(ji)算越來(lai)越接近進入下一個(ge)時(shi)代(dai)——全新的(de)(de)架構定(ding)義(yi)(yi),全新的(de)(de)軟件界(jie)面,硬件加速。我們錯過了PC時(shi)代(dai),但云這個(ge)時(shi)代(dai)大家(jia)起步是(shi)一樣的(de)(de)。現在(zai)是(shi)重新定(ding)義(yi)(yi)云的(de)(de)窗口期,如(ru)果我們定(ding)義(yi)(yi)好了,中(zhong)國就可以在(zai)下一個(ge)技術時(shi)代(dai)有自己的(de)(de)一席之(zhi)地。”
參考資料:
1.《阿里(li)云張建鋒(feng):Back to Basic,定義下一代的(de)云》,阿里(li)云
2.《阿里云首(shou)發(fa)CIPU處(chu)理器,這(zhe)次要搶CPU的(de)C位,為OS反(fan)向自(zi)研》,量子位
3.《剛剛,阿里云(yun)亮出殺手锏CIPU,云(yun)操(cao)作(zuo)系統的(de)最強搭(da)檔》,智(zhi)東西