国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

AGI時代算力基礎架構面臨的挑戰與機遇
作者 | 新華三2023-06-02

目前,人工智能按照進(jin)化階段(duan)分為了弱人(ren)工智(zhi)(zhi)能(neng)(ANI)、通用(yong)人(ren)工智(zhi)(zhi)能(neng)(AGI)和超人(ren)工智(zhi)(zhi)能(neng)(ASI)三(san)個(ge)階段(duan)。自(zi)1956年麥卡(ka)錫、明斯基等科學(xue)家首次(ci)提出“人(ren)工智(zhi)(zhi)能(neng)(Artificial Intelligence,簡稱(cheng)AI)”這(zhe)一(yi)概念,標志著人(ren)工智(zhi)(zhi)能(neng)學(xue)科的(de)(de)誕生;到(dao)(dao)2017年,谷歌Transformer模型的(de)(de)發(fa)布顛覆了傳統的(de)(de)自(zi)然語言處理模型,奠定(ding)了生成式(shi)AI的(de)(de)基礎(chu);再(zai)到(dao)(dao)2022年,OpenAI正式(shi)發(fa)布 ChatGPT并在(zai)(zai)短(duan)短(duan)2個(ge)月內實現(xian)(xian)了用(yong)戶數破(po)億,大(da)量(liang)類ChatGPT的(de)(de)通用(yong)人(ren)工智(zhi)(zhi)能(neng)隨之涌(yong)現(xian)(xian),正式(shi)揭開了AGI時代(dai)的(de)(de)序(xu)幕。正如微軟CEO薩提亞 · 納德拉所說,“AI的(de)(de)黃金時代(dai)正在(zai)(zai)到(dao)(dao)來(lai),并將(jiang)重(zhong)新定(ding)義我(wo)們(men)對工作的(de)(de)全(quan)部認識”。在(zai)(zai)各個(ge)行業中,必將(jiang)涌(yong)現(xian)(xian)出無數基于類似GPT-4這(zhe)樣的(de)(de)通用(yong)AGI平臺(tai)的(de)(de)創新應用(yong),重(zhong)構(gou)行業的(de)(de)產品、服(fu)務和流程(cheng),進(jin)而影響我(wo)們(men)每一(yi)個(ge)人(ren)的(de)(de)工作、生活和學(xue)習。

新華(hua)三集團(tuan)副總(zong)裁、互聯(lian)網事業(ye)部總(zong)經(jing)理 李(li)喬

人工智能的(de)(de)三要(yao)素包(bao)括數(shu)據(ju)(ju)、算法及算力。作為AI原料的(de)(de)數(shu)據(ju)(ju)是十分有限的(de)(de),可利用的(de)(de)公域數(shu)據(ju)(ju)在2026年之前就會(hui)被(bei)大模型全部訓練完成(cheng)(cheng)(cheng)。場景化(hua)AI訓練、微調的(de)(de)數(shu)據(ju)(ju)來源將(jiang)尤其依賴(lai)于有價(jia)值的(de)(de)私(si)域數(shu)據(ju)(ju),但私(si)域數(shu)據(ju)(ju)往往是不開放的(de)(de),隱(yin)私(si)計算和聯邦學習則將(jiang)成(cheng)(cheng)(cheng)為打破(po)數(shu)據(ju)(ju)孤島極為可行的(de)(de)方案(an),同(tong)時(shi)合(he)成(cheng)(cheng)(cheng)數(shu)據(ju)(ju)技(ji)術的(de)(de)應(ying)用也將(jiang)成(cheng)(cheng)(cheng)為必然。此外,算法復雜(za)度呈指(zhi)數(shu)級(ji)增長,模型層數(shu)、參數(shu)規模快速膨(peng)脹(zhang)的(de)(de)同(tong)時(shi)也在不斷突(tu)破(po)。當(dang)下,三要(yao)素中的(de)(de)算力成(cheng)(cheng)(cheng)為了很多應(ying)用落地(di)的(de)(de)最大瓶(ping)頸。那(nei)么,AI算力基礎架構具體面臨哪些(xie)挑戰與機(ji)遇(yu)?

一、挑戰

在AGI時代(dai),數(shu)(shu)據大(da)(da)模型的(de)(de)參數(shu)(shu)規模呈現出快速增(zeng)長的(de)(de)態勢。GPT從2018年的(de)(de)1.17億發展到2020年的(de)(de)1750億,文心一(yi)言3.0參數(shu)(shu)規模達到了2600億,Google的(de)(de)Palm 2參數(shu)(shu)量也超過3400億。隨著參數(shu)(shu)模型的(de)(de)日(ri)益龐大(da)(da)、摩(mo)爾定律陷(xian)入瓶頸。對計算效率精盡(jin)的(de)(de)追逐,使得(de)馮?諾依曼(man)結構的(de)(de)先天性不足被成倍(bei)放大(da)(da)。計算墻(qiang)、內(nei)存(cun)墻(qiang)、通信墻(qiang)、能耗墻(qiang)成為了AGI算力基礎架構的(de)(de)四大(da)(da)挑戰。

首先談談AI計算的主角GPU。大模型并行計算量巨大,以GPU/TPU代替CPU進行大量簡單重復計算,雖然計算效率有了明顯的提升,但單卡算力和大模型所需總算力之間仍然存在巨大差距。以GPT-3為例,每進行一次訓練迭代需要消耗4.5ExaFlops算力,而主流GPU單卡算力只能達到TFlops級別。百萬級別的算力差距便產生了算力墻。分布式訓練在一定程度上解決了算力墻問題,但綜合考慮TCO及不同的AI場景,使用專業的芯片和異構計算(suan)架(jia)構將成為突破算(suan)力墻的另一(yi)個(ge)必要方(fang)向。

參(can)數量是(shi)衡(heng)量模型大(da)小的(de)最關鍵指標,參(can)數越多對內(nei)存(cun)(cun)的(de)需(xu)求(qiu)越大(da)。以1750億參(can)數的(de)GPT-3為(wei)例,參(can)數量(FP16精(jing)度)需(xu)要(yao)350GB內(nei)存(cun)(cun)(175B*2Bytes),梯(ti)度(FP16精(jing)度)需(xu)要(yao)350GB內(nei)存(cun)(cun)(175B*2Bytes),優化(hua)器狀態(tai)(FP32精(jing)度)需(xu)要(yao)2100GB內(nei)存(cun)(cun)(175B*12Bytes),總計需(xu)要(yao)2800GB內(nei)存(cun)(cun)(350GB+350GB+2100GB)。而(er)主(zhu)流(liu)的(de)GPU卡僅(jin)能夠提供80GB顯存(cun)(cun),單個GPU無法裝(zhuang)下如(ru)此龐大(da)的(de)參(can)數量。此外(wai),現有的(de)計算架構以CPU為(wei)中心(xin),CPU主(zhu)內(nei)存(cun)(cun)與GPU本(ben)地內(nei)存(cun)(cun)無法統一(yi)尋址,內(nei)存(cun)(cun)資源相互隔離,GPU無法高效的(de)使用CPU主(zhu)內(nei)存(cun)(cun)資源,最終(zhong)導致產(chan)生內(nei)存(cun)(cun)墻(qiang)。

我(wo)們在利用大(da)型(xing)(xing)分(fen)布式訓(xun)練(lian)解決算力墻和內存墻問題的(de)(de)(de)同時,又產(chan)生了通(tong)(tong)信(xin)墻。不(bu)同的(de)(de)(de)并行訓(xun)練(lian)方式下,服(fu)務(wu)器內及服(fu)務(wu)器間會分(fen)別引入AllReduce、AlltoAll、梯度(du)數據聚合與分(fen)發等(deng)通(tong)(tong)信(xin)需求,通(tong)(tong)信(xin)性(xing)能(neng)強弱將影響整體計(ji)算速度(du)的(de)(de)(de)快(kuai)慢。以千億級參數規模(mo)的(de)(de)(de)大(da)模(mo)型(xing)(xing)訓(xun)練(lian)為例,單次計(ji)算迭代(dai)內梯度(du)同步需要(yao)的(de)(de)(de)通(tong)(tong)信(xin)量就(jiu)達(da)到了百GB量級。此外(wai),AI大(da)模(mo)型(xing)(xing)訓(xun)練(lian)是一種帶寬敏感的(de)(de)(de)計(ji)算業務(wu),測試(shi)數據表(biao)明,采用200G網絡(luo)(luo)相對于100G網絡(luo)(luo),會帶來10倍以上的(de)(de)(de)性(xing)能(neng)提(ti)升。基于以上兩方面,一張能(neng)夠為機間通(tong)(tong)信(xin)提(ti)供(gong)高(gao)(gao)吞(tun)吐、低時延服(fu)務(wu)的(de)(de)(de)高(gao)(gao)性(xing)能(neng)網絡(luo)(luo)十分(fen)重要(yao)。服(fu)務(wu)器的(de)(de)(de)內部網絡(luo)(luo)連接以及集群網絡(luo)(luo)中的(de)(de)(de)通(tong)(tong)信(xin)拓(tuo)撲還需要(yao)進行專門設計(ji),實現(xian)算網的(de)(de)(de)高(gao)(gao)效協同。

大(da)模型的(de)(de)訓練和推(tui)理是(shi)兩頭能量怪獸,勢必帶來極(ji)大(da)的(de)(de)功(gong)耗(hao)(hao)(hao)。當(dang)前業界(jie)主流的(de)(de)8卡GPU服務(wu)器最大(da)系統(tong)功(gong)耗(hao)(hao)(hao)高(gao)達6500W,用于GPU服務(wu)器之間互聯的(de)(de)128口400G以太網交換(huan)機的(de)(de)功(gong)耗(hao)(hao)(hao)也接(jie)近(jin)3500W。以ChatGPT為例,要滿(man)足(zu)每天(tian)2.5億的(de)(de)咨詢量,需使(shi)用3萬張GPU卡,那(nei)么,僅僅在推(tui)理環節每天(tian)消耗(hao)(hao)(hao)的(de)(de)電費就超過(guo)50萬元(按(an)照(zhao)每度(du)電0.8元計算),因此能耗(hao)(hao)(hao)墻是(shi)每個運營者都要面對的(de)(de)現實問題。

算力墻、內存(cun)墻、通信墻和能耗墻這四(si)大挑戰之(zhi)間存(cun)在(zai)一定的(de)關聯性(xing),我們不能靠簡單的(de)堆砌(qi)來解決問(wen)題,產品(pin)架構的(de)系統性(xing)設(she)計顯得的(de)更為(wei)重(zhong)要(yao)。新華三在(zai)計算、網絡、存(cun)儲方面都有長期的(de)積(ji)累和沉淀,能夠系統性(xing)地研究和考慮以(yi)上的(de)問(wen)題,并提出相(xiang)應解決方案。

二、算力墻應對之道

面(mian)對AGI時代算力(li)的爆發式增長需求,單(dan)一處理器無法同時兼顧性能和靈活度。在此情況(kuang)下,用最(zui)適(shi)合(he)的專用硬件去承擔最(zui)適(shi)合(he)的計算任務,并采用異構計算架(jia)構去整合(he)這些多元(yuan)算力(li),是突破算力(li)墻的有效手(shou)段。

在當前的(de)AI訓練(lian)場(chang)景(jing),NVIDIA高(gao)端GPU是(shi)市場(chang)上(shang)的(de)“硬通貨”,其2023年發布的(de)Hopper架構是(shi)NVIDIA GPU的(de)集大(da)成者(zhe),一經推(tui)出便受(shou)到市場(chang)的(de)青睞。

除了(le)采用(yong)GPU外,為(wei)人工智能業(ye)務開(kai)發專用(yong)的AI芯片逐漸成為(wei)業(ye)界的新(xin)趨勢。

在AI芯片領域,最具(ju)代表(biao)性的是Google TPU(Tensor Processing Unit)。發布于2016年的第一代TPU成為了 AlphaGo 背后的算力擔當,當前已經發展到了第四(si)代的TPU v4。與 GPU 相比,TPU采(cai)用低精度計(ji)算,大幅降低了功耗,加快(kuai)了運算速度。

Meta也(ye)發布了MTIA(Meta Training and Inference Accelerator)自(zi)研AI芯片,該(gai)芯片采用(yong)RISC-V開源架構,可應用(yong)在自(zi)然語言處理(li)、計(ji)算機視覺、推(tui)薦系統(tong)等領(ling)域。

除了AI芯片日益多(duo)元(yuan)化之外,AI芯片間的高速互聯(lian)技術也是突(tu)破算力(li)墻的關鍵(jian)。

NVDIA首創(chuang)了NVLink + NVSwitch技術(shu),為多GPU系統提(ti)供更加快(kuai)速的(de)互聯(lian)解決(jue)方案。借助(zhu)NVLINK技術(shu),能最(zui)(zui)大(da)化(hua)提(ti)升(sheng)系統吞吐量,很(hen)好的(de)解決(jue)了GPU互聯(lian)瓶頸。最(zui)(zui)新的(de)NVIDIA Hopper架構采用NVLINK4.0技術(shu),總(zong)帶寬最(zui)(zui)高可達900GB/s。

2023 年 5 月 29 日,NVIDIA推出的DGX GH200 AI超級(ji)計算機,采用NVLink互連技術以及(ji) NVLink Switch  System 將(jiang)256個(ge)GH200 超級(ji)芯(xin)片相連,把所有GPU作為一個(ge)整(zheng)體協同運行。

Google推出的(de)OCS(Optical Circuit Switch)光(guang)電路(lu)交換機技術(shu)實現TPU之(zhi)間(jian)的(de)互聯,解決TPU的(de)擴展性(xing)問題(ti)。Google還自研了一(yi)款光(guang)路(lu)開關芯片Palomar,通過(guo)該芯片可實現光(guang)互聯拓撲(pu)(pu)的(de)靈活配置。也就是說,TPU芯片之(zhi)間(jian)的(de)互聯拓撲(pu)(pu)并非一(yi)成不(bu)變,可以根據機器學習的(de)具體模型(xing)來(lai)改變拓撲(pu)(pu),提升計算性(xing)能及可靠性(xing)。借助OCS技術(shu),可以將4096個TPU v4組成一(yi)臺超級計算機。

為了滿足了AI加速(su)(su)芯片的互(hu)聯需(xu)求(qiu),OCP組(zu)織2019年(nian)成立了OAI開源項目組(zu),通過OAM子項目定義業界通用形(xing)態的GPU/AI模塊(kuai)(kuai)(kuai)(kuai)、對外提供(gong)標準(zhun)通信接(jie)口,建(jian)立OAI相關的技術架構。芯片廠(chang)家只(zhi)要(yao)將其GPU/AI加速(su)(su)芯片做成OAM模塊(kuai)(kuai)(kuai)(kuai)的形(xing)態,通過UBB來承載多個OAM模塊(kuai)(kuai)(kuai)(kuai),就可以在任何支(zhi)持(chi)OAM/UBB模塊(kuai)(kuai)(kuai)(kuai)的服務(wu)器(qi)上兼容使用。

新華三(san)作為OAI 2.0規范(fan)的主(zhu)要起草單(dan)位,在國產化OAM方面(mian)多有(you)(you)相應的落地(di)實踐。那么如何在AI算力日益多元化的情況(kuang)下,如何有(you)(you)效(xiao)整(zheng)合這(zhe)些(xie)多元算力?采用(yong)異(yi)構(gou)(gou)計(ji)(ji)算技術是最佳選擇。在異(yi)構(gou)(gou)計(ji)(ji)算領域(yu),新華三(san)開(kai)展了廣(guang)泛的實踐,H3C Uniserver R5500 G6踐行異(yi)構(gou)(gou)計(ji)(ji)算設(she)計(ji)(ji)理念(nian),可搭載Intel或AMD CPU,機(ji)箱天(tian)然兼容NVIDIA Hopper架構(gou)(gou)GPU以及(ji)OAI架構(gou)(gou),同時(shi)提供對多家廠商DPU的支持能力,為不同的應用(yong)場景提供了澎湃算力。

未來,還可采用類(lei)似(si)XPU Direct RDMA的異構芯(xin)片通信技術,實現(xian)異構計算(suan)平臺互聯。XPU通信時(shi)不(bu)再需要CPU中轉,大(da)幅減少(shao)數據拷貝的次(ci)數,提升(sheng)了(le)通信性能,有效整合了(le)多元算(suan)力。

三、內存墻應對之道

隨著服務器向異構(gou)計算架(jia)構(gou)轉(zhuan)型,傳統的(de)(de)(de)PCIe互聯模式已經無法(fa)滿足高速(su)緩存(cun)一(yi)致性和(he)內(nei)存(cun)一(yi)致性的(de)(de)(de)需(xu)(xu)求。GPU加(jia)速(su)卡無法(fa)使用Host主機(ji)自帶的(de)(de)(de)內(nei)存(cun)資(zi)源,無法(fa)很好的(de)(de)(de)解決AI大模型訓(xun)練場(chang)景遇到的(de)(de)(de)內(nei)存(cun)墻問題。為(wei)此,迫切需(xu)(xu)要在(zai)服務器內(nei)使用新興(xing)的(de)(de)(de)互聯架(jia)構(gou),突破內(nei)存(cun)墻的(de)(de)(de)限制。

NVIDIA Grace Hopper架構(gou)中(zhong),完美的(de)解(jie)決(jue)了大模型(xing)訓練的(de)內(nei)存墻問(wen)題。在該架構(gou)中(zhong),Grace CPU和Hopper GPU使用帶(dai)寬(kuan)高(gao)達(da)900 GB/s NVLink C2C鏈路互(hu)聯,GPU可以通過NVLink C2C透明地(di)訪(fang)問(wen)CPU上的(de)512GB內(nei)存資源。

NVIDIA通(tong)過Grace Hopper向(xiang)業界展現(xian)了突破(po)內存(cun)墻問題(ti)的(de)(de)(de)解(jie)決(jue)方案(an)。此(ci)外(wai),AMD推(tui)出的(de)(de)(de) Instinct MI300,英特(te)爾推(tui)出Falcon Shores也采用(yong)了類似的(de)(de)(de)解(jie)決(jue)方案(an)來突破(po)內墻問題(ti)。但這(zhe)些都屬(shu)于(yu)私有(you)(you)技術。有(you)(you)沒有(you)(you)一種(zhong)開源方案(an)既(ji)能解(jie)決(jue)大容量內存(cun)問題(ti)和內存(cun)一致性問題(ti),又能避免對現(xian)有(you)(you)協(xie)議體系完全顛覆(fu)? Intel聯合其他8家科(ke)技巨(ju)頭(tou)于(yu)2019年成立的(de)(de)(de)CXL(Compute Express Link)聯盟就致力于(yu)解(jie)決(jue)該問題(ti)。

CXL是一(yi)種開源(yuan)的(de)互(hu)聯技術標準,能(neng)(neng)夠讓(rang)CPU與GPU、FPGA或其(qi)他加(jia)速(su)器之間(jian)實現高(gao)(gao)速(su)互(hu)聯,并且(qie)維(wei)持(chi)CPU內存(cun)(cun)空間(jian)和(he)加(jia)速(su)器設(she)備內存(cun)(cun)之間(jian)的(de)一(yi)致性,以滿足資源(yuan)共(gong)(gong)享、內存(cun)(cun)池(chi)化和(he)高(gao)(gao)效運(yun)算(suan)調度的(de)需求。CXL組織(zhi)已經發布CXL3.0版本,數據傳輸(shu)速(su)率提升至 64 GT/s,并引入了Fabric功(gong)能(neng)(neng)和(he)管理、改進的(de)內存(cun)(cun)共(gong)(gong)享及池(chi)化技術、增強的(de)一(yi)致性以及對等通(tong)信(xin)等重(zhong)要(yao)功(gong)能(neng)(neng)。 放眼未(wei)來,CXL4.0基于PCI-Express 7.0標準,擁有更高(gao)(gao)的(de)容量(512GB/S)和(he)更低的(de)延遲,將在性能(neng)(neng)上實現另(ling)一(yi)個層級的(de)躍(yue)升。

當前,各(ge)大上游廠商都在(zai)(zai)開發(fa)或已推(tui)出(chu)支(zhi)持(chi)CXL協議(yi)的(de)部(bu)件,實現GPU顯存與主(zhu)機內存的(de)統一尋址,解決內存墻(qiang)問題(ti)已經(jing)近在(zai)(zai)眼前。暢想未(wei)來,隨著CXL Switch等關(guan)鍵部(bu)件的(de)進一步(bu)發(fa)展,我們(men)可以(yi)實現CPU、GPU、內存等資源的(de)進一步(bu)池化,各(ge)資源池通過CXL Switch互(hu)訪互(hu)通,在(zai)(zai)集(ji)群層面(mian)實現全局內存一致(zhi)性(xing)。

新華三(san)在2019年4月正(zheng)式加入(ru)了CXL組織,并于2022年升級為(wei)Contributor會(hui)員(yuan)。新華三(san)在CXL技(ji)術研究上(shang)進行了持續的(de)投入(ru),目前正(zheng)在開展(zhan)基于CXL技(ji)術的(de)內存池化、異構互聯方面的(de)研究。

四、通信墻應對之道

在集(ji)群網(wang)絡(luo)方面,為大模(mo)型訓(xun)練優化過的無損網(wang)絡(luo)解決方案(an)可提供高吞吐和低延(yan)時的網(wang)絡(luo)服務,確保(bao)在大規模(mo)訓(xun)練時集(ji)群的性能。

4.1端網融合的RoCE無損網絡

RoCE網(wang)絡是基于(yu)(yu)以太(tai)網(wang) RDMA技術實現(xian)的,它比(bi)IB更加開放。RoCE可以基于(yu)(yu)現(xian)有(you)的以太(tai)網(wang)基礎(chu)設施進(jin)行部署(shu),網(wang)絡管理更加簡化(hua)。但RoCE也面臨著(zhu)一(yi)些挑戰,比(bi)如ECMP負(fu)載不均、哈希沖突、PFC死鎖等。基于(yu)(yu)IP協議的開放性(xing),出現(xian)了多(duo)種針對RoCE的優(you)化(hua)方案,其(qi)核心(xin)思想即(ji)將(jiang)服(fu)務(wu)器(qi)、網(wang)卡、交換(huan)機作為一(yi)個整體,結合創新的擁塞控制算法(fa),實現(xian)端網(wang)協同。

Google數據中心使(shi)用的TIMELY算法,由網(wang)卡(ka)進行端到端的RTT時(shi)延(yan)測量,根據RTT時(shi)延(yan)數據調整發送(song)速率,實(shi)現高(gao)性能(neng)的RoCE網(wang)絡。TIMELY算法使(shi)用谷(gu)歌自研網(wang)卡(ka)實(shi)現,主(zhu)要應用在Google內部。

阿里(li)團隊提(ti)出(chu)的HPCC擁(yong)塞控制算法,它使用可編程交(jiao)換機,通過INT遙(yao)測攜帶網(wang)絡(luo)擁(yong)塞數據(ju),然后由(you)智能網(wang)卡(ka)動(dong)態調整發送速率,獲(huo)得高(gao)帶寬和(he)低時延的高(gao)性能網(wang)絡(luo)。

EQDS(edge-queued datagram service)是目前(qian)被廣泛討(tao)論(lun)的(de)(de)另(ling)一種擁塞控制解(jie)決方案。它(ta)將網(wang)絡中的(de)(de)絕大部分排隊操作從(cong)交換(huan)(huan)機轉移到發(fa)(fa)送(song)端網(wang)卡(ka)上,使得交換(huan)(huan)機可(ke)以(yi)采用很小的(de)(de)緩存設(she)計。EQDS由(you)接(jie)收端網(wang)卡(ka)驅動,通過Credit機制,來指導數(shu)(shu)據(ju)包(bao)發(fa)(fa)送(song)。另(ling)外EQDS使用Packet Spray實現逐包(bao)的(de)(de)負載均(jun)衡(heng),以(yi)解(jie)決負載不(bu)均(jun)和(he)哈希沖突的(de)(de)問(wen)題。如果交換(huan)(huan)機支持DCN(Drop Congestion Notification)技術,可(ke)以(yi)由(you)交換(huan)(huan)機實現數(shu)(shu)據(ju)包(bao)修(xiu)剪(Packet Trimming),僅將擁塞報文的(de)(de)報文頭發(fa)(fa)送(song)給接(jie)收端,接(jie)收端接(jie)收到報文頭后,可(ke)以(yi)要求發(fa)(fa)送(song)端快速重(zhong)傳數(shu)(shu)據(ju)包(bao)。實驗表(biao)明,EQDS在測試中表(biao)現出(chu)色,能夠(gou)顯著提高數(shu)(shu)據(ju)中心(xin)網(wang)絡的(de)(de)性能。

新華三(san)正在研究基(ji)于(yu)自研服務(wu)器(qi)、智能(neng)網(wang)卡(ka)和高(gao)(gao)性能(neng)交換機,實現(xian)端網(wang)融合的(de)RoCE無損網(wang)絡解決方案,為AI業務(wu)提(ti)供高(gao)(gao)性能(neng)無損通信網(wang)絡。

4.2在網計算

除了(le)通(tong)過增加(jia)網絡帶寬、提升(sheng)鏈路利用率、優化擁塞控(kong)制算(suan)法外,在網計(ji)算(suan)(In-Network Computer)是另(ling)一(yi)種優化通(tong)訊開銷的重要手(shou)段。在網計(ji)算(suan)(In Network Computing)可(ke)以將AI分布(bu)式訓(xun)練(lian)的集合通(tong)信操作卸載到網絡設備(bei)上,讓(rang)網絡設備(bei)參與計(ji)算(suan),減少計(ji)算(suan)節(jie)點之(zhi)間的消息交互(hu),大幅縮減AI分布(bu)式訓(xun)練(lian)的時間。

以集(ji)合通信(xin)中(zhong)使(shi)用頻率(lv)最高的(de)AllReduce規約運算為例,從各(ge)節點收(shou)集(ji)梯(ti)度,將訓(xun)練過程(cheng)中(zhong)的(de)匯總規約卸載到集(ji)成了計算引擎(qing)單元的(de)網絡交換機中(zhong)進行,然后再更新(xin)至每一(yi)個節點。通過在網計算技術,加速了整(zheng)個Allreduce的(de)過程(cheng),可以有效的(de)減少(shao)網絡擁塞和降低(di)通信(xin)延(yan)遲(chi)。

新華三積(ji)極投入(ru)在(zai)網計(ji)算技術的(de)研發,借助可編程交換芯片或在(zai)傳統交換機(ji)中(zhong)引入(ru)FPGA芯片實現(xian)在(zai)網計(ji)算,提升AI訓練(lian)的(de)整體性能(neng)。

4.3高速以太網及光互聯

算力(li)需(xu)求的(de)爆發(fa)式增(zeng)長(chang)推動(dong)了數(shu)據中(zhong)心網(wang)(wang)絡向800G、1.6T及更高(gao)速率快速演進。光模(mo)塊作為網(wang)(wang)絡互聯的(de)關(guan)鍵部件,隨著速率的(de)提(ti)升其功(gong)耗也一(yi)路攀升,在(zai)(zai)整機(ji)系統的(de)占比(bi)(bi)已經遠(yuan)超ASIC加(jia)風扇功(gong)耗之(zhi)和(he)。另外,高(gao)速光模(mo)塊在(zai)(zai)數(shu)據中(zhong)心網(wang)(wang)絡建設中(zhong)的(de)成本占比(bi)(bi)也在(zai)(zai)大幅(fu)提(ti)升。為了應對由此(ci)帶來的(de)功(gong)耗、成本和(he)時延挑戰,業界出現了兩(liang)種最(zui)具潛力(li)的(de)解決(jue)方案。

LPO線性直驅技術去(qu)掉了光模(mo)塊中功耗(hao)最(zui)高的(de)DSP芯片,由交(jiao)換(huan)機ASIC芯片來對高速信號進行(xing)補償和均衡,在實現成本(ben)下降的(de)同(tong)時,大(da)幅(fu)降低了光模(mo)塊的(de)功耗(hao)和延遲,非常適合(he)應用在短距大(da)帶寬、低功耗(hao)低延時的(de)AI/ML場景(jing)。

傳統可插拔光模(mo)塊到交換機ASIC芯(xin)片電信號連接(jie)距(ju)(ju)離(li)較(jiao)長,途經點較(jiao)多,累積損耗大(da)。通過CPO/NPO等(deng)封裝技術(shu)的(de)引(yin)入,顯(xian)著縮短了交換芯(xin)片和(he)光引(yin)擎間的(de)距(ju)(ju)離(li),同時(shi)能夠提供更高(gao)密度的(de)高(gao)速端口,更適合在1.6T速率(lv)后實(shi)現高(gao)算力(li)場(chang)景下(xia)的(de)低能耗、高(gao)能效。

在(zai)高速互聯技(ji)術(shu)領域,22年新(xin)華三發(fa)布(bu)了采用NPO技(ji)術(shu)的400G硅(gui)光融合交換(huan)機S9825-32D32DO, MPO光引擎接(jie)口支持2KM傳輸(shu)距(ju)離(li),端口功耗降(jiang)低40%以(yi)上。

2023年,新(xin)華(hua)三(san)進一步推出了采用共封(feng)裝(zhuang)技術的(de)CPO交換機,對外提供64個(ge)800G接口(kou)或(huo)128個(ge)400G接口(kou),并計(ji)劃(hua)今年內推出支持LPO線性(xing)驅動光模(mo)塊的(de)128口(kou)400G,64口(kou)800G端口(kou)的(de)交換機產品。未來,新(xin)華(hua)三(san)將通過持續的(de)技術創新(xin)為AI業務(wu)提供高性(xing)能(neng)、低(di)(di)延遲、低(di)(di)能(neng)耗的(de)通信網絡,破解通信墻(qiang)的(de)難題。

五、能耗墻應對之道

降低(di)AI模型整體能(neng)(neng)耗的主要方(fang)(fang)式依然是提高(gao)數據中心的散熱效率(lv),液冷(leng)散熱方(fang)(fang)案因(yin)其(qi)低(di)能(neng)(neng)耗、高(gao)散熱、低(di)噪聲、低(di) TCO 等優勢,有著(zhu)巨大的發(fa)展潛力。

其中,浸(jin)沒式(shi)液(ye)(ye)冷(leng)散(san)熱(re)是典型的(de)直接接觸型液(ye)(ye)冷(leng),發熱(re)元件與(yu)冷(leng)卻液(ye)(ye)直接接觸,散(san)熱(re)效率(lv)更高,噪音更低。目前,浸(jin)沒式(shi)液(ye)(ye)冷(leng)方案已由初期(qi)的(de)單相(xiang)式(shi)液(ye)(ye)冷(leng)進化為相(xiang)變式(shi)液(ye)(ye)冷(leng),充(chong)分利用冷(leng)卻液(ye)(ye)的(de)蒸發潛熱(re),滿(man)足散(san)熱(re)極端(duan)要(yao)求,保證IT設備滿(man)功率(lv)運行。

目前(qian),新華(hua)三在浸(jin)沒式(shi)液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)方案(an)方面(mian)完成了全面(mian)布局,緊跟互聯網業(ye)務(wu)發展步伐,秉承產學研一體理念(nian),從冷(leng)(leng)(leng)(leng)(leng)板式(shi)液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)到(dao)浸(jin)沒式(shi)液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng),從單(dan)相式(shi)液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)到(dao)相變式(shi)液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng),從3M冷(leng)(leng)(leng)(leng)(leng)卻(que)液(ye)(ye)到(dao)國產冷(leng)(leng)(leng)(leng)(leng)卻(que)液(ye)(ye),積極研究跟進(jin)推(tui)出(chu)新華(hua)三液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)系統(tong)一體化解決方案(an),包含液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)交換機、液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)服(fu)務(wu)器、熱(re)交換單(dan)元、外冷(leng)(leng)(leng)(leng)(leng)設備等,并且在液(ye)(ye)冷(leng)(leng)(leng)(leng)(leng)方案(an)方面(mian)持續進(jin)行方案(an)迭(die)代和(he)前(qian)沿技術探(tan)索。

六、展望

本文主要從基礎(chu)架構(gou)角度(du)去討論(lun)如(ru)何應(ying)(ying)對AGI時代的(de)(de)挑戰。隨(sui)著(zhu)數據(ju)、算(suan)力(li)及(ji)算(suan)法取得不斷的(de)(de)突破,人(ren)工智(zhi)能將會重塑整(zheng)(zheng)個經濟(ji)、社會、產業和人(ren)們生(sheng)活的(de)(de)方(fang)方(fang)面面。這就要求互聯網公(gong)司整(zheng)(zheng)合(he)各類資源打造(zao)垂直的(de)(de)生(sheng)態,借助生(sheng)態伙伴(ban)的(de)(de)力(li)量實現(xian)科技(ji)成果轉化(hua)(hua),更(geng)好(hao)的(de)(de)賦能百行百業。新華三作(zuo)(zuo)為數字化(hua)(hua)解(jie)(jie)決方(fang)案領導者,具(ju)備百行百業的(de)(de)解(jie)(jie)決方(fang)案能力(li),通(tong)過把(ba)互聯網公(gong)司的(de)(de)大模型能力(li)融入到新華三解(jie)(jie)決方(fang)案中,可(ke)以開展面向政府、企業、金(jin)融、醫療、教育等場景的(de)(de)N項業務合(he)作(zuo)(zuo),共同(tong)應(ying)(ying)對快速場景化(hua)(hua)落地的(de)(de)挑戰。

熱門文章
OPPO日前發布了一款基于高通驍龍XR2 PLUS芯片和驍龍Spaces開發平臺的混合現實頭顯。名為OPPO MR Glass Developer Edition的設備專主要面向開發者,幫助他們探索混
2023-06-02
X