国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

AGI時代算力基礎架構面臨的挑戰與機遇
作者 | 新華三2023-06-02

目前,人工智能按照進化階(jie)段分(fen)為了(le)弱人(ren)工(gong)(gong)智(zhi)能(ANI)、通(tong)用人(ren)工(gong)(gong)智(zhi)能(AGI)和超人(ren)工(gong)(gong)智(zhi)能(ASI)三個(ge)階(jie)段。自(zi)1956年(nian)麥卡錫、明斯基(ji)等(deng)科(ke)學家首次提(ti)出“人(ren)工(gong)(gong)智(zhi)能(Artificial Intelligence,簡稱AI)”這一概(gai)念(nian),標志著人(ren)工(gong)(gong)智(zhi)能學科(ke)的(de)(de)(de)(de)誕生(sheng);到2017年(nian),谷歌Transformer模型的(de)(de)(de)(de)發布顛覆了(le)傳統的(de)(de)(de)(de)自(zi)然語(yu)言處理模型,奠定(ding)了(le)生(sheng)成式AI的(de)(de)(de)(de)基(ji)礎(chu);再到2022年(nian),OpenAI正(zheng)(zheng)式發布 ChatGPT并(bing)在(zai)短短2個(ge)月內實現(xian)了(le)用戶數(shu)破億,大(da)量類(lei)ChatGPT的(de)(de)(de)(de)通(tong)用人(ren)工(gong)(gong)智(zhi)能隨之涌現(xian),正(zheng)(zheng)式揭(jie)開了(le)AGI時代的(de)(de)(de)(de)序幕。正(zheng)(zheng)如微(wei)軟CEO薩提(ti)亞 · 納德拉所說,“AI的(de)(de)(de)(de)黃金時代正(zheng)(zheng)在(zai)到來,并(bing)將(jiang)重(zhong)(zhong)新定(ding)義我們對工(gong)(gong)作的(de)(de)(de)(de)全部(bu)認識(shi)”。在(zai)各個(ge)行業中(zhong),必(bi)將(jiang)涌現(xian)出無數(shu)基(ji)于類(lei)似GPT-4這樣的(de)(de)(de)(de)通(tong)用AGI平臺的(de)(de)(de)(de)創新應用,重(zhong)(zhong)構行業的(de)(de)(de)(de)產品、服務和流程,進而(er)影響我們每一個(ge)人(ren)的(de)(de)(de)(de)工(gong)(gong)作、生(sheng)活和學習。

新華三集(ji)團副總裁、互聯網事(shi)業部總經理 李喬

人(ren)工智能的(de)(de)(de)(de)三要(yao)素包括數(shu)(shu)據(ju)(ju)(ju)、算(suan)法及算(suan)力(li)。作為(wei)(wei)AI原(yuan)料的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)是十(shi)分有限的(de)(de)(de)(de),可利用的(de)(de)(de)(de)公域數(shu)(shu)據(ju)(ju)(ju)在2026年之前(qian)就會被大模型全(quan)部訓練完成(cheng)(cheng)。場景(jing)化AI訓練、微調的(de)(de)(de)(de)數(shu)(shu)據(ju)(ju)(ju)來源將尤其依賴于(yu)有價值的(de)(de)(de)(de)私(si)域數(shu)(shu)據(ju)(ju)(ju),但(dan)私(si)域數(shu)(shu)據(ju)(ju)(ju)往往是不開放的(de)(de)(de)(de),隱(yin)私(si)計算(suan)和聯邦學習則將成(cheng)(cheng)為(wei)(wei)打破數(shu)(shu)據(ju)(ju)(ju)孤島極為(wei)(wei)可行的(de)(de)(de)(de)方(fang)案(an),同時合成(cheng)(cheng)數(shu)(shu)據(ju)(ju)(ju)技術的(de)(de)(de)(de)應用也將成(cheng)(cheng)為(wei)(wei)必然。此外,算(suan)法復(fu)雜度呈指數(shu)(shu)級增(zeng)長,模型層(ceng)數(shu)(shu)、參數(shu)(shu)規模快速膨脹的(de)(de)(de)(de)同時也在不斷突破。當下,三要(yao)素中的(de)(de)(de)(de)算(suan)力(li)成(cheng)(cheng)為(wei)(wei)了很多應用落地(di)的(de)(de)(de)(de)最大瓶(ping)頸(jing)。那么,AI算(suan)力(li)基礎架構具(ju)體面臨哪些(xie)挑戰與機(ji)遇?

一、挑戰

在AGI時代,數據大(da)(da)模型的(de)參(can)數規模呈現出快速增長的(de)態勢。GPT從2018年的(de)1.17億(yi)(yi)發展到2020年的(de)1750億(yi)(yi),文心(xin)一(yi)言3.0參(can)數規模達到了(le)2600億(yi)(yi),Google的(de)Palm 2參(can)數量(liang)也超過3400億(yi)(yi)。隨著參(can)數模型的(de)日益龐(pang)大(da)(da)、摩爾(er)定律陷入瓶(ping)頸(jing)。對計算(suan)效(xiao)率(lv)精(jing)盡的(de)追逐,使(shi)得馮?諾(nuo)依曼結構(gou)的(de)先天性不足被成倍放(fang)大(da)(da)。計算(suan)墻(qiang)、內存(cun)墻(qiang)、通信墻(qiang)、能(neng)耗墻(qiang)成為了(le)AGI算(suan)力基礎架構(gou)的(de)四大(da)(da)挑戰(zhan)。

首先談談AI計算的主角GPU。大模型并行計算量巨大,以GPU/TPU代替CPU進行大量簡單重復計算,雖然計算效率有了明顯的提升,但單卡算力和大模型所需總算力之間仍然存在巨大差距。以GPT-3為例,每進行一次訓練迭代需要消耗4.5ExaFlops算力,而主流GPU單卡算力只能達到TFlops級別。百萬級別的算力差距便產生了算力墻。分布式訓練在一定程度上解決了算力墻問題,但綜合考慮TCO及不同的AI場景,使用專業的芯片和異(yi)構(gou)計算架構(gou)將成為突破算力(li)墻的另一個必要方向。

參數(shu)(shu)量(liang)(liang)是衡量(liang)(liang)模型大小的(de)(de)(de)最關鍵指標,參數(shu)(shu)越(yue)多對內(nei)存的(de)(de)(de)需(xu)(xu)求(qiu)越(yue)大。以1750億參數(shu)(shu)的(de)(de)(de)GPT-3為例(li),參數(shu)(shu)量(liang)(liang)(FP16精(jing)度)需(xu)(xu)要(yao)350GB內(nei)存(175B*2Bytes),梯度(FP16精(jing)度)需(xu)(xu)要(yao)350GB內(nei)存(175B*2Bytes),優化器狀態(FP32精(jing)度)需(xu)(xu)要(yao)2100GB內(nei)存(175B*12Bytes),總計(ji)需(xu)(xu)要(yao)2800GB內(nei)存(350GB+350GB+2100GB)。而主(zhu)(zhu)流(liu)的(de)(de)(de)GPU卡僅(jin)能夠提供80GB顯存,單個(ge)GPU無(wu)法(fa)裝下如此龐大的(de)(de)(de)參數(shu)(shu)量(liang)(liang)。此外,現有(you)的(de)(de)(de)計(ji)算架構以CPU為中(zhong)心,CPU主(zhu)(zhu)內(nei)存與GPU本地內(nei)存無(wu)法(fa)統一(yi)尋址,內(nei)存資源相互隔離,GPU無(wu)法(fa)高(gao)效的(de)(de)(de)使用CPU主(zhu)(zhu)內(nei)存資源,最終導致產生內(nei)存墻。

我們在利用大型(xing)分(fen)布式訓(xun)(xun)練(lian)(lian)解決算力墻和(he)內(nei)存墻問題的(de)(de)同時,又(you)產生(sheng)了通(tong)(tong)(tong)信(xin)墻。不同的(de)(de)并行訓(xun)(xun)練(lian)(lian)方(fang)式下(xia),服務(wu)(wu)器(qi)內(nei)及(ji)服務(wu)(wu)器(qi)間會分(fen)別(bie)引入(ru)AllReduce、AlltoAll、梯度(du)數據聚合與分(fen)發(fa)等通(tong)(tong)(tong)信(xin)需(xu)(xu)求,通(tong)(tong)(tong)信(xin)性能(neng)強弱(ruo)將影響(xiang)整體計(ji)(ji)算速度(du)的(de)(de)快慢(man)。以(yi)千億級參數規(gui)模的(de)(de)大模型(xing)訓(xun)(xun)練(lian)(lian)為例,單次計(ji)(ji)算迭代內(nei)梯度(du)同步需(xu)(xu)要(yao)(yao)的(de)(de)通(tong)(tong)(tong)信(xin)量(liang)(liang)就(jiu)達到了百GB量(liang)(liang)級。此外,AI大模型(xing)訓(xun)(xun)練(lian)(lian)是一種帶寬敏感的(de)(de)計(ji)(ji)算業(ye)務(wu)(wu),測(ce)試(shi)數據表(biao)明,采用200G網(wang)(wang)絡相對于100G網(wang)(wang)絡,會帶來10倍以(yi)上的(de)(de)性能(neng)提升。基于以(yi)上兩方(fang)面,一張能(neng)夠為機(ji)間通(tong)(tong)(tong)信(xin)提供高吞吐、低(di)時延服務(wu)(wu)的(de)(de)高性能(neng)網(wang)(wang)絡十分(fen)重要(yao)(yao)。服務(wu)(wu)器(qi)的(de)(de)內(nei)部(bu)網(wang)(wang)絡連接(jie)以(yi)及(ji)集群網(wang)(wang)絡中的(de)(de)通(tong)(tong)(tong)信(xin)拓(tuo)撲還需(xu)(xu)要(yao)(yao)進行專門設計(ji)(ji),實(shi)現算網(wang)(wang)的(de)(de)高效協同。

大模型的(de)(de)(de)訓(xun)練(lian)和推理是兩頭(tou)能(neng)量(liang)怪獸,勢必帶來(lai)極大的(de)(de)(de)功(gong)耗。當(dang)前(qian)業(ye)界(jie)主流(liu)的(de)(de)(de)8卡GPU服務器最(zui)大系統功(gong)耗高達6500W,用于GPU服務器之間互聯的(de)(de)(de)128口400G以(yi)太網交換機(ji)的(de)(de)(de)功(gong)耗也(ye)接近3500W。以(yi)ChatGPT為例,要滿(man)足(zu)每天(tian)(tian)2.5億的(de)(de)(de)咨(zi)詢量(liang),需(xu)使用3萬張GPU卡,那么,僅僅在推理環(huan)節(jie)每天(tian)(tian)消耗的(de)(de)(de)電費就超(chao)過50萬元(按(an)照每度電0.8元計算),因此能(neng)耗墻是每個運營者都要面對的(de)(de)(de)現實問(wen)題。

算力墻、內存墻、通信墻和能(neng)耗墻這四大挑戰之(zhi)間存在(zai)一定的(de)(de)關聯性(xing)(xing),我們不能(neng)靠簡(jian)單的(de)(de)堆(dui)砌來解(jie)決問(wen)題,產品架構的(de)(de)系(xi)統(tong)性(xing)(xing)設(she)計顯得的(de)(de)更為重要。新華(hua)三在(zai)計算、網絡、存儲方面都有長期的(de)(de)積累和沉淀,能(neng)夠系(xi)統(tong)性(xing)(xing)地研(yan)究和考慮以上的(de)(de)問(wen)題,并提出(chu)相應解(jie)決方案。

二、算力墻應對之道

面對AGI時(shi)代算(suan)力的(de)爆(bao)發式增長(chang)需(xu)求,單一處理器無(wu)法同(tong)時(shi)兼顧性能和靈活度。在(zai)此(ci)情況下,用(yong)最適合的(de)專用(yong)硬件去(qu)承擔最適合的(de)計(ji)(ji)算(suan)任務(wu),并采用(yong)異構(gou)計(ji)(ji)算(suan)架(jia)構(gou)去(qu)整合這些多元算(suan)力,是突破算(suan)力墻的(de)有效手(shou)段。

在當前的(de)(de)AI訓練場景,NVIDIA高端GPU是(shi)市場上的(de)(de)“硬通貨”,其2023年(nian)發布的(de)(de)Hopper架構是(shi)NVIDIA GPU的(de)(de)集大成者(zhe),一經推出(chu)便(bian)受(shou)到市場的(de)(de)青睞。

除了采用(yong)GPU外,為人(ren)工智(zhi)能業務開(kai)發專用(yong)的AI芯片逐(zhu)漸成為業界的新趨勢。

在(zai)AI芯片領(ling)域,最具代(dai)表性的(de)是(shi)Google TPU(Tensor Processing Unit)。發(fa)布于2016年的(de)第(di)一代(dai)TPU成為了 AlphaGo 背(bei)后的(de)算力擔當(dang),當(dang)前已經發(fa)展到了第(di)四(si)代(dai)的(de)TPU v4。與 GPU 相比,TPU采用低精度計算,大幅降低了功耗,加快了運算速度。

Meta也(ye)發布了MTIA(Meta Training and Inference Accelerator)自(zi)研(yan)AI芯(xin)片(pian),該芯(xin)片(pian)采用RISC-V開源架構,可應(ying)用在(zai)自(zi)然語言處理、計算機(ji)視覺、推薦系統等(deng)領(ling)域(yu)。

除了(le)AI芯片日益多元化之外,AI芯片間的(de)高速互聯技術也是突(tu)破(po)算力墻的(de)關鍵。

NVDIA首(shou)創了NVLink + NVSwitch技(ji)術(shu),為(wei)多GPU系統(tong)提供(gong)更(geng)加(jia)快速的互聯解決(jue)方(fang)案。借助NVLINK技(ji)術(shu),能最(zui)(zui)大(da)化提升系統(tong)吞吐量(liang),很好的解決(jue)了GPU互聯瓶頸。最(zui)(zui)新(xin)的NVIDIA Hopper架構采用NVLINK4.0技(ji)術(shu),總帶寬(kuan)最(zui)(zui)高可達(da)900GB/s。

2023 年 5 月(yue) 29 日,NVIDIA推出的DGX GH200 AI超級計算機,采用NVLink互連技術(shu)以(yi)及 NVLink Switch System 將256個GH200 超級芯片(pian)相(xiang)連,把所有(you)GPU作為一個整體協(xie)同運行(xing)。

Google推出的(de)OCS(Optical Circuit Switch)光電路交換機(ji)技術實現TPU之(zhi)間的(de)互(hu)聯(lian),解決TPU的(de)擴(kuo)展性問題。Google還自研了一款光路開(kai)關芯片Palomar,通過該芯片可實現光互(hu)聯(lian)拓撲的(de)靈活配置。也就是說,TPU芯片之(zhi)間的(de)互(hu)聯(lian)拓撲并非一成(cheng)不變,可以(yi)根據機(ji)器學習的(de)具體模型(xing)來(lai)改變拓撲,提升(sheng)計算(suan)性能(neng)及可靠性。借助OCS技術,可以(yi)將4096個TPU v4組成(cheng)一臺超級(ji)計算(suan)機(ji)。

為了(le)滿(man)足了(le)AI加速芯片(pian)的互聯需(xu)求,OCP組(zu)織2019年(nian)成立(li)了(le)OAI開源項目組(zu),通過(guo)OAM子項目定義業界通用(yong)形態(tai)的GPU/AI模塊、對(dui)外提供標(biao)準通信接口(kou),建(jian)立(li)OAI相關的技術架構。芯片(pian)廠家只(zhi)要將(jiang)其GPU/AI加速芯片(pian)做成OAM模塊的形態(tai),通過(guo)UBB來承(cheng)載多個OAM模塊,就可以在任何支持(chi)OAM/UBB模塊的服(fu)務器上(shang)兼容(rong)使(shi)用(yong)。

新華三作為OAI 2.0規范的(de)主要(yao)起(qi)草(cao)單位,在(zai)國產化OAM方面多有相應的(de)落地實踐。那么如(ru)何在(zai)AI算力(li)(li)日(ri)益多元化的(de)情況下,如(ru)何有效整(zheng)合這些多元算力(li)(li)?采用異構計算技術是最佳選(xuan)擇。在(zai)異構計算領域,新華三開展了廣泛的(de)實踐,H3C Uniserver R5500 G6踐行異構計算設計理念,可搭(da)載(zai)Intel或AMD CPU,機箱(xiang)天然兼(jian)容NVIDIA Hopper架(jia)構GPU以及(ji)OAI架(jia)構,同(tong)時(shi)提(ti)供對多家廠(chang)商DPU的(de)支持能力(li)(li),為不同(tong)的(de)應用場景提(ti)供了澎(peng)湃算力(li)(li)。

未來,還可采用類(lei)似XPU Direct RDMA的異構芯片通(tong)(tong)信技術,實現異構計算平(ping)臺互聯。XPU通(tong)(tong)信時不(bu)再需要(yao)CPU中轉,大幅減少數(shu)據拷貝的次數(shu),提(ti)升了通(tong)(tong)信性能,有(you)效整合(he)了多(duo)元算力(li)。

三、內存墻應對之道

隨著服(fu)務器(qi)向(xiang)異(yi)構計算(suan)架構轉型,傳統的(de)PCIe互(hu)(hu)聯模式(shi)已經無法滿足(zu)高速(su)緩存(cun)一致(zhi)性(xing)和(he)內(nei)存(cun)一致(zhi)性(xing)的(de)需求。GPU加速(su)卡(ka)無法使(shi)用(yong)Host主機自帶的(de)內(nei)存(cun)資(zi)源(yuan),無法很好的(de)解決AI大模型訓練場景(jing)遇到(dao)的(de)內(nei)存(cun)墻(qiang)問題。為(wei)此,迫切(qie)需要在服(fu)務器(qi)內(nei)使(shi)用(yong)新興的(de)互(hu)(hu)聯架構,突破內(nei)存(cun)墻(qiang)的(de)限(xian)制。

NVIDIA Grace Hopper架(jia)構中,完(wan)美的(de)解決了大模型訓練的(de)內(nei)存墻問題(ti)。在該架(jia)構中,Grace CPU和Hopper GPU使用帶寬(kuan)高達900 GB/s NVLink C2C鏈路互聯,GPU可以通過NVLink C2C透明(ming)地(di)訪問CPU上的(de)512GB內(nei)存資源。

NVIDIA通過(guo)Grace Hopper向業界展現(xian)了突破內(nei)存(cun)(cun)墻問題(ti)(ti)的(de)解決(jue)方(fang)案。此外,AMD推出的(de) Instinct MI300,英特爾推出Falcon Shores也采用了類似的(de)解決(jue)方(fang)案來突破內(nei)墻問題(ti)(ti)。但這些都屬于(yu)私(si)有(you)技術。有(you)沒有(you)一(yi)種開源方(fang)案既(ji)能解決(jue)大容(rong)量內(nei)存(cun)(cun)問題(ti)(ti)和內(nei)存(cun)(cun)一(yi)致性問題(ti)(ti),又能避免對現(xian)有(you)協(xie)議體系完(wan)全顛覆? Intel聯(lian)(lian)合其(qi)他8家科技巨頭于(yu)2019年(nian)成(cheng)立的(de)CXL(Compute Express Link)聯(lian)(lian)盟就致力于(yu)解決(jue)該問題(ti)(ti)。

CXL是一(yi)種開(kai)源的(de)互(hu)聯技(ji)術標(biao)(biao)準(zhun)(zhun),能夠(gou)讓(rang)CPU與GPU、FPGA或其他加速(su)器之間實現高速(su)互(hu)聯,并(bing)且(qie)維持CPU內存(cun)空間和(he)加速(su)器設備內存(cun)之間的(de)一(yi)致性(xing),以滿足資(zi)源共享、內存(cun)池化(hua)和(he)高效運算調(diao)度的(de)需求。CXL組織(zhi)已經發(fa)布(bu)CXL3.0版本(ben),數據傳輸速(su)率提(ti)升至(zhi) 64 GT/s,并(bing)引(yin)入了Fabric功能和(he)管理(li)、改進的(de)內存(cun)共享及池化(hua)技(ji)術、增強的(de)一(yi)致性(xing)以及對等通(tong)信等重要(yao)功能。 放眼未來(lai),CXL4.0基于(yu)PCI-Express 7.0標(biao)(biao)準(zhun)(zhun),擁有更(geng)高的(de)容(rong)量(512GB/S)和(he)更(geng)低(di)的(de)延(yan)遲,將在(zai)性(xing)能上(shang)實現另一(yi)個層級的(de)躍升。

當(dang)前(qian),各大上游廠商都在(zai)開發(fa)或已推出支持CXL協議的部件,實現GPU顯存與主機(ji)內(nei)存的統(tong)一(yi)尋址,解決內(nei)存墻問(wen)題已經(jing)近在(zai)眼前(qian)。暢(chang)想(xiang)未來,隨(sui)著CXL Switch等關鍵部件的進(jin)一(yi)步發(fa)展,我們可以實現CPU、GPU、內(nei)存等資源的進(jin)一(yi)步池化,各資源池通(tong)過CXL Switch互訪互通(tong),在(zai)集群層面實現全局內(nei)存一(yi)致性。

新華(hua)三在2019年4月(yue)正式加(jia)入了CXL組織,并于2022年升(sheng)級為Contributor會員。新華(hua)三在CXL技術研究(jiu)上進行了持(chi)續(xu)的投(tou)入,目前正在開展基于CXL技術的內存(cun)池化、異(yi)構互聯方面的研究(jiu)。

四、通信墻應對之道

在(zai)集群(qun)網(wang)絡方面,為大模(mo)型訓(xun)練優化過(guo)的無損網(wang)絡解決方案可提供高吞(tun)吐和低延時的網(wang)絡服務(wu),確保(bao)在(zai)大規模(mo)訓(xun)練時集群(qun)的性能(neng)。

4.1端網融合的RoCE無損網絡

RoCE網絡是基于(yu)以(yi)(yi)太網 RDMA技術實現的(de),它(ta)比(bi)IB更加(jia)開放。RoCE可以(yi)(yi)基于(yu)現有的(de)以(yi)(yi)太網基礎設(she)施進行部署,網絡管理更加(jia)簡(jian)化(hua)。但RoCE也面臨著一(yi)些挑戰,比(bi)如ECMP負載(zai)不(bu)均、哈希沖突、PFC死(si)鎖等。基于(yu)IP協議的(de)開放性,出現了多種針對RoCE的(de)優化(hua)方案,其核心思想即(ji)將服務器(qi)、網卡、交換機作(zuo)為一(yi)個整體,結合創新(xin)的(de)擁塞(sai)控制算法,實現端網協同(tong)。

Google數(shu)據(ju)(ju)中(zhong)心使用的TIMELY算法(fa),由網卡(ka)進(jin)行端到端的RTT時(shi)延測量,根據(ju)(ju)RTT時(shi)延數(shu)據(ju)(ju)調整(zheng)發送速(su)率,實(shi)現高性能的RoCE網絡。TIMELY算法(fa)使用谷歌自研網卡(ka)實(shi)現,主(zhu)要應用在Google內部。

阿里團(tuan)隊提出(chu)的(de)HPCC擁塞控制(zhi)算法,它使用可編程(cheng)交換機(ji),通過INT遙測(ce)攜帶網(wang)(wang)絡擁塞數據,然(ran)后由(you)智能(neng)網(wang)(wang)卡動態調(diao)整(zheng)發送速率,獲得高帶寬和低時延的(de)高性能(neng)網(wang)(wang)絡。

EQDS(edge-queued datagram service)是目(mu)前(qian)被廣泛討論的(de)另(ling)一種擁塞(sai)控(kong)制解(jie)決(jue)方(fang)案。它將(jiang)網(wang)絡(luo)中的(de)絕大(da)部分排隊操作從交(jiao)(jiao)換機轉移到(dao)發(fa)送端網(wang)卡上,使得交(jiao)(jiao)換機可(ke)(ke)以(yi)采用(yong)很小的(de)緩存設計。EQDS由接收(shou)端網(wang)卡驅動,通過Credit機制,來指導數據(ju)包(bao)(bao)發(fa)送。另(ling)外EQDS使用(yong)Packet Spray實現(xian)逐包(bao)(bao)的(de)負載均衡,以(yi)解(jie)決(jue)負載不均和哈(ha)希沖(chong)突的(de)問題(ti)。如(ru)果(guo)交(jiao)(jiao)換機支(zhi)持DCN(Drop Congestion Notification)技術,可(ke)(ke)以(yi)由交(jiao)(jiao)換機實現(xian)數據(ju)包(bao)(bao)修剪(Packet Trimming),僅將(jiang)擁塞(sai)報(bao)文(wen)(wen)的(de)報(bao)文(wen)(wen)頭(tou)發(fa)送給接收(shou)端,接收(shou)端接收(shou)到(dao)報(bao)文(wen)(wen)頭(tou)后(hou),可(ke)(ke)以(yi)要求發(fa)送端快速重傳數據(ju)包(bao)(bao)。實驗表明,EQDS在測試中表現(xian)出(chu)色,能夠(gou)顯著提高數據(ju)中心(xin)網(wang)絡(luo)的(de)性能。

新華三正(zheng)在研究基于自研服務(wu)器、智(zhi)能網(wang)卡和(he)高(gao)性能交換機,實現端網(wang)融合的RoCE無損網(wang)絡(luo)解決(jue)方案,為AI業務(wu)提供高(gao)性能無損通(tong)信(xin)網(wang)絡(luo)。

4.2在網計算

除了通(tong)過增加網(wang)(wang)(wang)(wang)絡帶寬、提升鏈路利用率(lv)、優化擁(yong)塞控制算(suan)法外,在網(wang)(wang)(wang)(wang)計算(suan)(In-Network Computer)是另一(yi)種(zhong)優化通(tong)訊開銷的重(zhong)要手段。在網(wang)(wang)(wang)(wang)計算(suan)(In Network Computing)可(ke)以將AI分(fen)布式(shi)訓練(lian)的集合通(tong)信操(cao)作卸載到網(wang)(wang)(wang)(wang)絡設備上,讓(rang)網(wang)(wang)(wang)(wang)絡設備參與(yu)計算(suan),減少(shao)計算(suan)節點之(zhi)間(jian)的消息交互,大幅縮(suo)減AI分(fen)布式(shi)訓練(lian)的時間(jian)。

以集(ji)合通信中(zhong)(zhong)使用頻率最高的AllReduce規(gui)約運(yun)算為例(li),從各節點(dian)收集(ji)梯度,將(jiang)訓練過(guo)(guo)程(cheng)(cheng)中(zhong)(zhong)的匯總規(gui)約卸載到集(ji)成了(le)計算引擎單元(yuan)的網絡(luo)交換機中(zhong)(zhong)進行,然后(hou)再更(geng)新至每(mei)一個節點(dian)。通過(guo)(guo)在網計算技術,加(jia)速了(le)整個Allreduce的過(guo)(guo)程(cheng)(cheng),可以有效的減少網絡(luo)擁塞和降(jiang)低通信延遲。

新華三積極投入在(zai)(zai)網(wang)計(ji)算技(ji)術的研(yan)發,借助可編程交(jiao)換(huan)芯片或在(zai)(zai)傳統交(jiao)換(huan)機中(zhong)引(yin)入FPGA芯片實現在(zai)(zai)網(wang)計(ji)算,提升AI訓練的整體性能。

4.3高速以太網及光互聯

算力需求的(de)爆發式增長推動了(le)(le)數(shu)(shu)據(ju)中(zhong)心(xin)網絡(luo)向(xiang)800G、1.6T及更高(gao)速(su)(su)率(lv)(lv)快(kuai)速(su)(su)演進。光(guang)模塊作為(wei)網絡(luo)互聯的(de)關鍵部件(jian),隨著速(su)(su)率(lv)(lv)的(de)提(ti)升其功耗也一路(lu)攀升,在(zai)整(zheng)機系統的(de)占(zhan)比已經遠超ASIC加(jia)風扇功耗之和。另(ling)外,高(gao)速(su)(su)光(guang)模塊在(zai)數(shu)(shu)據(ju)中(zhong)心(xin)網絡(luo)建設(she)中(zhong)的(de)成本占(zhan)比也在(zai)大幅提(ti)升。為(wei)了(le)(le)應對由(you)此帶來的(de)功耗、成本和時(shi)延(yan)挑戰,業界出(chu)現了(le)(le)兩種最具(ju)潛(qian)力的(de)解(jie)決方案(an)。

LPO線性(xing)直驅技(ji)術去掉了光模(mo)塊(kuai)中功(gong)耗(hao)最高(gao)的(de)(de)DSP芯(xin)片,由交換(huan)機ASIC芯(xin)片來對高(gao)速信號(hao)進行補償和(he)均衡,在實(shi)現(xian)成本下降的(de)(de)同(tong)時(shi),大幅降低(di)了光模(mo)塊(kuai)的(de)(de)功(gong)耗(hao)和(he)延遲,非常適合(he)應用在短(duan)距大帶(dai)寬、低(di)功(gong)耗(hao)低(di)延時(shi)的(de)(de)AI/ML場景。

傳統可插拔光(guang)模塊(kuai)到交換機ASIC芯(xin)片電信(xin)號連接(jie)距(ju)離較長,途(tu)經點較多,累積(ji)損耗大。通(tong)過CPO/NPO等封裝技術的(de)引入,顯著(zhu)縮短了交換芯(xin)片和(he)光(guang)引擎間的(de)距(ju)離,同時(shi)能夠提供更高(gao)(gao)密度的(de)高(gao)(gao)速端口,更適合(he)在1.6T速率后實現(xian)高(gao)(gao)算力場景下的(de)低(di)能耗、高(gao)(gao)能效。

在(zai)高速互聯技術領域,22年新(xin)華三發布了采用NPO技術的400G硅光融合交換機S9825-32D32DO, MPO光引擎接口支持2KM傳輸距離,端口功耗降低(di)40%以上。

2023年,新華三(san)進一步推(tui)出了采用共封裝技術的(de)CPO交換機(ji),對(dui)外提供64個800G接口(kou)或(huo)128個400G接口(kou),并計劃今年內推(tui)出支持LPO線性驅(qu)動光模塊的(de)128口(kou)400G,64口(kou)800G端口(kou)的(de)交換機(ji)產品。未來(lai),新華三(san)將通(tong)過持續(xu)的(de)技術創(chuang)新為(wei)AI業務提供高性能、低延遲、低能耗的(de)通(tong)信(xin)網絡,破解通(tong)信(xin)墻的(de)難題。

五、能耗墻應對之道

降低(di)AI模型整體能耗(hao)的(de)主要方(fang)式依(yi)然是提(ti)高數據中心的(de)散熱效率,液(ye)冷散熱方(fang)案因其低(di)能耗(hao)、高散熱、低(di)噪聲、低(di) TCO 等優勢(shi),有著巨(ju)大的(de)發展潛力。

其中,浸沒式液(ye)(ye)冷(leng)(leng)(leng)散(san)(san)熱是典型(xing)(xing)的直接接觸型(xing)(xing)液(ye)(ye)冷(leng)(leng)(leng),發熱元件與冷(leng)(leng)(leng)卻液(ye)(ye)直接接觸,散(san)(san)熱效率(lv)更(geng)高(gao),噪音更(geng)低。目前,浸沒式液(ye)(ye)冷(leng)(leng)(leng)方案已(yi)由初期的單相式液(ye)(ye)冷(leng)(leng)(leng)進化為相變式液(ye)(ye)冷(leng)(leng)(leng),充分利(li)用冷(leng)(leng)(leng)卻液(ye)(ye)的蒸發潛熱,滿足散(san)(san)熱極端(duan)要求,保證IT設備(bei)滿功率(lv)運行。

目(mu)前,新華(hua)三在浸(jin)(jin)沒(mei)式(shi)液(ye)冷(leng)(leng)(leng)方(fang)(fang)案(an)(an)方(fang)(fang)面(mian)完成了(le)全面(mian)布局,緊跟互聯網業務發展步伐,秉承產學(xue)研一體理念,從(cong)冷(leng)(leng)(leng)板(ban)式(shi)液(ye)冷(leng)(leng)(leng)到浸(jin)(jin)沒(mei)式(shi)液(ye)冷(leng)(leng)(leng),從(cong)單相(xiang)式(shi)液(ye)冷(leng)(leng)(leng)到相(xiang)變式(shi)液(ye)冷(leng)(leng)(leng),從(cong)3M冷(leng)(leng)(leng)卻液(ye)到國產冷(leng)(leng)(leng)卻液(ye),積極研究跟進(jin)推(tui)出新華(hua)三液(ye)冷(leng)(leng)(leng)系統一體化解決(jue)方(fang)(fang)案(an)(an),包含液(ye)冷(leng)(leng)(leng)交換機(ji)、液(ye)冷(leng)(leng)(leng)服務器、熱交換單元(yuan)、外冷(leng)(leng)(leng)設備等,并且在液(ye)冷(leng)(leng)(leng)方(fang)(fang)案(an)(an)方(fang)(fang)面(mian)持續進(jin)行方(fang)(fang)案(an)(an)迭(die)代和前沿技術(shu)探索。

六、展望

本文主要從基礎架構角度去(qu)討論如何應(ying)對AGI時代的(de)(de)(de)挑(tiao)戰。隨著數據(ju)、算力及(ji)算法(fa)取得不斷的(de)(de)(de)突(tu)破,人(ren)(ren)工智(zhi)能(neng)將(jiang)會重(zhong)塑整個經濟、社會、產業(ye)和人(ren)(ren)們生(sheng)活(huo)的(de)(de)(de)方(fang)(fang)(fang)方(fang)(fang)(fang)面面。這就要求互(hu)聯網(wang)(wang)公(gong)(gong)司整合各(ge)類資(zi)源打造垂直的(de)(de)(de)生(sheng)態(tai),借助生(sheng)態(tai)伙伴的(de)(de)(de)力量實(shi)現科(ke)技成(cheng)果轉化(hua),更好的(de)(de)(de)賦能(neng)百(bai)行(xing)百(bai)業(ye)。新(xin)(xin)華三(san)作為數字化(hua)解決方(fang)(fang)(fang)案領導者(zhe),具備百(bai)行(xing)百(bai)業(ye)的(de)(de)(de)解決方(fang)(fang)(fang)案能(neng)力,通過(guo)把互(hu)聯網(wang)(wang)公(gong)(gong)司的(de)(de)(de)大模型能(neng)力融入到新(xin)(xin)華三(san)解決方(fang)(fang)(fang)案中,可(ke)以開展面向(xiang)政府、企業(ye)、金融、醫(yi)療、教育等場景的(de)(de)(de)N項業(ye)務合作,共同應(ying)對快速(su)場景化(hua)落地的(de)(de)(de)挑(tiao)戰。

熱門文章
OPPO日前發布了一款基于高通驍龍XR2 PLUS芯片和驍龍Spaces開發平臺的混合現實頭顯。名為OPPO MR Glass Developer Edition的設備專主要面向開發者,幫助他們探索混
2023-06-02
X