阿里云今年最重要策略是(shi)“B2B”,也就(jiu)是(shi)“Back to Basic”,回(hui)到云計算的本質,堅持在(zai)技術(shu)的長征路上,不斷取得新的突破(po)。同(tong)時,阿里云正式發布自主研(yan)發的云基(ji)礎設施(shi)處理(li)器(qi)CIPU,將在(zai)未來取代(dai)CPU成為新一代(dai)云計算的管控(kong)和(he)加(jia)速中心。

6月(yue)13日(ri),阿里(li)云(yun)(yun)硬(ying)件研發又有了(le)最新進展。在(zai)2022阿里(li)云(yun)(yun)峰會上,阿里(li)云(yun)(yun)正式發布了(le)其自主研發的云(yun)(yun)基礎設(she)施(shi)處理(li)器CIPU(Cloud infrastructure Procrssing Units),作為一款為新型云(yun)(yun)數據中心設(she)計的專用(yong)處理(li)器,它將(jiang)在(zai)未來取(qu)代CPU成為新一代云(yun)(yun)計算的管控和加速中心。

會上(shang),阿(a)里(li)云智能總裁張建鋒表示(shi),阿(a)里(li)云今年最重(zhong)要策略是(shi)“B2B”,也(ye)就是(shi)“Back to Basic”,回到云計算(suan)的(de)本質,堅持在技術(shu)的(de)長征路上(shang),不斷取得新的(de)突(tu)破。同時,他(ta)認為云計算(suan)進(jin)入(ru)了一(yi)(yi)個關(guan)鍵的(de)突(tu)破期,“如(ru)果我們定義好下一(yi)(yi)代技術(shu),中國云計算(suan)就有超車機會。”
5月(yue)26日,阿(a)里發布(bu)2022財年(nian)業(ye)績報表,云(yun)業(ye)務同比(bi)增長23%,全年(nian)收入在抵銷(xiao)跨分部交易前后分別(bie)達到1001.8億元(yuan)(yuan)和745.67億元(yuan)(yuan),并創(chuang)下了11.46億元(yuan)(yuan)的(de)盈利數據。這是(shi)阿(a)里云(yun)成立13年(nian)以(yi)來實現的(de)首(shou)次年(nian)度盈利,也是(shi)阿(a)里云(yun)新的(de)歷史性時刻。
遙想當年,從無人看好的業務,到如今一躍成為中國云計算版圖上最耀眼的那顆星,阿里云經歷了13年的隱忍和克制,摸著石頭過河,以飛天云操作系統為核心,自研了芯片、服務器、計算、存(cun)儲、網絡、安全等軟硬一體的(de)新型計算體系(xi)架構(gou)。如(ru)今(jin),經過多年的(de)沉淀和(he)積累,阿里(li)云終于有了勇氣,去(qu)爭奪(duo)云計算下一個階段的(de)定(ding)義權。
張建(jian)鋒(feng)認為(wei),在過去的(de)十多(duo)年(nian)間,云計(ji)算已經經歷了(le)兩個發展階段(duan),從分布(bu)式(shi)到資(zi)源(yuan)池(chi)化(hua),產(chan)生了(le)非常多(duo)的(de)創新。其中(zhong),第(di)一階段(duan)是分布(bu)式(shi)和(he)虛擬化(hua)技術(shu)(shu)替代(dai)了(le)大型機,滿足了(le)當時企業(ye)所需的(de)算力(li)規模;第(di)二階段(duan)出現了(le)資(zi)源(yuan)池(chi)化(hua)技術(shu)(shu),把計(ji)算和(he)存儲資(zi)源(yuan)分離(li),再規模化(hua)編排和(he)調度(du),提供了(le)超大規模的(de)計(ji)算和(he)存儲資(zi)源(yuan)池(chi)。

這兩個階段的演進推動云計算發展,但它們都是通過軟件定義的方法,基于傳統的以CPU為中心的體系架構去做優化,已經觸及瓶頸。隨著云計算規模的不斷膨脹,大(da)數據應用(yong)場景的逐(zhu)漸增多,云計算整體也面臨了(le)多重挑戰:
首先,計算和網絡傳輸時延大。隨著體系結構越來越分布,一個大型的應用會分散在多個子系統去部署,這些系統之間就需要高速地去互聯;其次,隨著大數據應用的不斷增長,IDC內部的東西向流量越來越大,數據密集型計算也就越來越多;再者,以阿里(li)云(yun)為例,其(qi)在全(quan)球四(si)大(da)(da)洲的27個(ge)(ge)國家(jia)和地區(qu)、84個(ge)(ge)可用區(qu)、2800個(ge)(ge)網絡節點,運營著上百萬臺服務,服務著400多萬客戶,系統規模(mo)越來越大(da)(da)、越來越復雜,也造成了超大(da)(da)規模(mo)基礎設施(shi)的復雜管理問題。
因此張建鋒表示,新一代的云計算要從數據中心的內部做體系化創新,打破以往的以CPU為中心的體系架構,進入以CIPU為中心的體系架構。而CIPU不僅能在以軟件靈活定義整個基礎設施,還能通過硬件加速實現性能大幅提升。
實(shi)際上(shang),也(ye)并非只有阿里云在(zai)此賽道上(shang)追(zhui)逐,比如英偉(wei)達在(zai)2020年10月發布的DPU(Data Processing Units),側重(zhong)于(yu)解決數(shu)據遷移帶寬的問題,能夠(gou)從CPU上(shang)卸載關鍵的網絡、存儲和安(an)全任務,降(jiang)低CPU的開銷,一經面世便引發了業(ye)界的廣泛熱議。
隨(sui)后(hou)英特爾也推出了IPU(Infrastructure Processing Units)的概(gai)念,強調虛(xu)(xu)擬(ni)化云化能力,通過(guo)網絡(luo)(luo)虛(xu)(xu)擬(ni)化、存(cun)儲虛(xu)(xu)擬(ni)化、網絡(luo)(luo)存(cun)儲管理以及安(an)全等(deng)功能,加速(su)網絡(luo)(luo)基礎(chu)設(she)施,釋放(fang)CPU來提高應用程序性能。可見(jian)無論英偉達還是英特爾,都是想要通過(guo)軟(ruan)件定義(yi)和硬件加速(su)的方式,替(ti)代CPU成為數據中心(xin)的核心(xin)硬件。
CIPU和(he)CPU表面雖然(ran)只是一個“I”的差別,實際(ji)上(shang)卻是兩個時(shi)代的差距(ju)。CIPU作(zuo)為一顆(ke)云(yun)(yun)端專用處理(li)器,主要用于連接服(fu)務器內硬件和(he)云(yun)(yun)上(shang)虛擬化資(zi)源。底層(ceng)基(ji)礎設施通(tong)過插(cha)入CIPU,能夠托(tuo)管在飛天云(yun)(yun)操作(zuo)系統中(zhong),進而形成云(yun)(yun)上(shang)的統一虛擬資(zi)源池,為客戶提(ti)供(gong)云(yun)(yun)上(shang)算力。

根據阿里云表述,CIPU向下接入物理的計算、存儲、網絡資源,快速云化并進行硬件加速;向上接入飛天云操作系統,管控阿里云全球上百萬臺服務器,讓算力虛擬化損耗降到0,并通過規模化應用RDMA網絡技術,讓訪問云端比訪問本地硬盤更快。從性(xing)能(neng)上(shang)看,實(shi)現了計算、存儲和網絡三類資源的極大提升:
CIPU與(yu)計算(suan)(suan)結(jie)合:快速接(jie)入不同類型(xing)資源的服務器,帶來算(suan)(suan)力的“0”損(sun)耗,以及硬(ying)件(jian)級(ji)安全的加固隔離;
CIPU與存儲結(jie)合:對存算分離架(jia)構(gou)的塊存儲接入進行硬件加(jia)速(su),云盤存儲IOPS最高可達(da)300萬(wan),長(chang)尾時(shi)延降低(di)50%;
CIPU與網(wang)絡結合:可(ke)對(dui)高(gao)(gao)帶寬物理網(wang)絡進行硬(ying)件加速(su),構(gou)建(jian)大(da)規模彈性RDMA高(gao)(gao)性能網(wang)絡,時延(yan)最低可(ke)達5us。
更(geng)值得一提的是,CIPU作(zuo)為(wei)一顆專門(men)為(wei)飛(fei)(fei)天系統設計的處(chu)理器,對于阿里云從(cong)最底(di)層的數據中心核心部件(jian)到最上層云原生軟件(jian),建立完整的自研技(ji)術體(ti)系有著重大裨益。同時,借由“飛(fei)(fei)天+CIPU”的新一代完整的軟硬件(jian)云計算架(jia)構體(ti)系,也(ye)使其相比(bi)英(ying)特爾、英(ying)偉達(da)等(deng)純(chun)硬件(jian)廠(chang)商(shang)更(geng)容易展現其優(you)勢。
根據阿里云官方數據,在通用計算、大數據、人工智能等(deng)核心場景(jing)的計算測試(shi)中,該體(ti)系(xi)展現了優越的性能。具體(ti)為:
在(zai)通用分布式計算領域,Redis性(xing)能提(ti)升了(le)68%、MySQL提(ti)升了(le)60%,Nginx提(ti)升了(le)30%;
高吞(tun)吐(tu)類的(de)互(hu)聯網業(ye)務上云之后,比自建物(wu)理機的(de)集群(qun)吞(tun)吐(tu)量(liang)提(ti)升了(le)30%,業(ye)務高峰期延遲下降了(le)90%;
在大(da)數據和AI等計算與數據雙密集場景下,相比(bi)傳統的(de)TCP網絡,彈性RDMA高性能網絡的(de)吞吐能力(li)提升30%以上;
云原生方面(mian),容(rong)器啟動速度快了350%,在Serverless 場景下6秒可拉起3000個彈(dan)性容(rong)器實(shi)例。
張(zhang)建鋒稱,阿里云核心技術(shu)一(yi)直走在(zai)(zai)世界的(de)前列,這個新(xin)(xin)興(xing)體(ti)系是(shi)技術(shu)長征(zheng)路上的(de)新(xin)(xin)里程(cheng)碑,這個新(xin)(xin)型的(de)技術(shu)體(ti)系正在(zai)(zai)定(ding)義下一(yi)代(dai)云計(ji)算架構。但(dan)我們知(zhi)道,經(jing)歷(li)了13年的(de)淬(cui)煉(lian),這不是(shi)一(yi)朝一(yi)夕的(de)苦勞(lao),而是(shi)不斷試煉(lian)和嘗試。
就像此次發布的(de)(de)CIPU,并(bing)非阿里云一時的(de)(de)產物。早在2014年,阿里云就開始對各(ge)種智能網卡進行了嘗試,最終(zhong)它(ta)在2017年發布的(de)(de)神龍卡上顯(xian)示出了雛形。
從功(gong)能(neng)上來看,神龍(long)卡類似于AWS發布(bu)的(de)一(yi)款(kuan)名(ming)為Nitro的(de)平臺,主要用于消(xiao)除計算虛擬化(hua)消(xiao)耗。經過好幾輪迭代之后(hou)神龍(long)卡逐漸(jian)加入了編排調度、硬(ying)件加速(su)等更多能(neng)力,最終為CIPU的(de)誕生(sheng)定下了基調。如(ru)今,CIPU已經在(zai)阿里云內(nei)部(bu)有了較大規模的(de)應用和抗壓(ya)測試,為雙十一(yi)、阿里集團業(ye)務等內(nei)部(bu)客(ke)戶和最新實例(li)提供了支(zhi)持。
除此之外,在芯(xin)片層(ceng)面,阿里云(yun)是(shi)全球支持CPU種類最(zui)多(duo)(duo)的云(yun)廠(chang)商,基于“一云(yun)多(duo)(duo)芯(xin)”戰略對X86、ARM、RISC-V等多(duo)(duo)種架構(gou)進行適配,形成標(biao)準形態的算力輸出。

去年(nian),阿(a)里云(yun)還針(zhen)對云(yun)計算(suan)大規模、高并(bing)發特性,推出自研CPU芯片倚(yi)天(tian)710。目前(qian),該處理器已在阿(a)里云(yun)數據中心內部(bu)規模化部(bu)署(shu),并(bing)順利支(zhi)撐2021年(nian)雙11等多個(ge)核心業務。今年(nian)4月(yue),基于倚(yi)天(tian)710的公(gong)共云(yun) ECS實例也已上線邀(yao)測。
在網(wang)(wang)絡層面(mian),阿里云建設了全球最(zui)大規(gui)模的(de)RDMA分(fen)布式高(gao)性能(neng)網(wang)(wang)絡,CIPU對高(gao)帶寬(kuan)物理網(wang)(wang)絡進行硬件加(jia)速,實現RDMA技(ji)術的(de)普(pu)惠化;在存(cun)儲層面(mian),CIPU對存(cun)算分(fen)離架構的(de)塊(kuai)存(cun)儲進行加(jia)速,讓云端存(cun)儲比本地存(cun)儲更快(kuai),并(bing)擁(yong)有極大規(gui)模的(de)資源池;在計(ji)算層面(mian),通過CIPU把虛擬化開銷降到(dao)0,并(bing)提供硬件安全隔離功能(neng)。
未來(lai)或許真的(de)會如張建鋒所言,“云計算越(yue)來(lai)越(yue)接近進入下(xia)一(yi)(yi)個(ge)時代——全新的(de)架(jia)構(gou)定義,全新的(de)軟件界(jie)面(mian),硬件加速。我(wo)們錯過(guo)了PC時代,但云這個(ge)時代大家起步是(shi)(shi)一(yi)(yi)樣的(de)。現在是(shi)(shi)重新定義云的(de)窗(chuang)口期,如果我(wo)們定義好(hao)了,中國就可以在下(xia)一(yi)(yi)個(ge)技術時代有自(zi)己的(de)一(yi)(yi)席之地。”
參考資料:
1.《阿里(li)云張建鋒(feng):Back to Basic,定義(yi)下一代的云》,阿里(li)云
2.《阿里(li)云(yun)首(shou)發(fa)CIPU處理器,這次要搶CPU的(de)C位,為OS反向(xiang)自研》,量子位
3.《剛(gang)剛(gang),阿里云(yun)(yun)亮出(chu)殺手(shou)锏(jian)CIPU,云(yun)(yun)操作系統的最強搭(da)檔》,智(zhi)東(dong)西