我們從一開始就說過,開放計算項目( Open Compute Project)的發起者 Meta Platforms 不可能想從 Nvidia 購買完整的超級計算機系統,以推進其人工智能研究(jiu)并將更(geng)新的(de)(de)大型語(yu)言模(mo)型和推薦引擎投入生產。以 Facebook 為核心平臺的(de)(de) Meta Platforms 喜歡設(she)計(ji)和構建自(zi)己的(de)(de)東(dong)西,但(dan)由于(yu)缺乏兼容 OAM 的(de)(de) GPU 和矩(ju)陣加(jia)速器而措手不及,他們(men)別無選擇,只能購買使(shi)用InfiniBand模(mo)式互連的(de)(de) N-1 代 DGX SuperPOD系統(tong)。
現在,當 Meta Platforms 展望社交網絡(luo)內人(ren)工智(zhi)能的(de)(de)未來以(yi)及支撐計算引擎的(de)(de)互連(lian)時,他們(men)意識到,必須以(yi)令人(ren)難以(yi)置信的(de)(de)規模(mo)(mo)結合(he)在一(yi)起,才能與超大規模(mo)(mo)和云構建器競(jing)爭(zheng)對手(shou)競(jing)爭(zheng),于是,他們(men)又將(jiang)目光投向(xiang)了以(yi)太網互連(lian)(Ethernet interconnects)。這(zhe)就是為什么Meta Platforms 成為超以(yi)太網聯(lian)盟(meng)( Ultra Ethernet Consortium)的(de)(de)創始公司(si)之一(yi)。
這個聯盟是(shi)由以(yi)太(tai)網 ASIC 供(gong)應商和交換機制造商組成的(de)(de)(de)組織,他們并(bing)不是(shi)真的(de)(de)(de)想相互合作,而是(shi)在受到(dao)互聯網巨頭及其新(xin)(xin)的(de)(de)(de)人工智能新(xin)(xin)貴競爭迫使(shi)的(de)(de)(de)情況下,他們想去找到(dao)一種(zhong)方法,讓以(yi)太(tai)網可以(yi)與InfiniBand一樣好,也能像(xiang)后者(zhe)一樣適用于 AI 和 HPC 網絡(luo),但(dan)使(shi)其擴展(zhan)到(dao)其運行所需的(de)(de)(de)規模。
對于今天(tian)的Meta Platforms來(lai)說,這意味著是大(da)約 32,000 個(ge)計算引擎,然后是數十萬(wan)臺(tai)設(she)備(bei),然后在(zai)不久(jiu)的將來(lai)的某些(xie)時候將超過(guo) 100 萬(wan)臺(tai)設(she)備(bei)。
從當(dang)前看(kan)來,擁有(you)(you)這個(ge)想法的企業包括了交換機 ASIC 領域的 Broadcom、Cisco Systems 和(he) Hewlett Packard Enterprise(我們認為很快還有(you)(you) Marvell),云巨頭(tou)中(zhong)的 Microsoft 和(he) Meta Platforms,以及(ji)交換機制造商中(zhong)的 Cisco、HPE 和(he) Arista Networks。
他(ta)們正在團結在一(yi)起(qi),面對一(yi)個共(gong)同的(de)敵人——InfiniBand。他(ta)們的(de)宗(zong)旨則是(shi)——敵人的(de)敵人就是(shi)朋友。
歸根到底,這(zhe)是一條(tiao)很(hen)簡單(dan)的數學題。
InfiniBand很好,但也(ye)貴
在(zai) 21世紀的前十(shi)年(nian),當超大規(gui)模企業和云構建(jian)(jian)商真正開始構建(jian)(jian)大規(gui)模基礎設施時(shi),任何(he)分(fen)布(bu)式系統的網(wang)絡(luo)部分(fen)(包括交換機(ji)、網(wang)絡(luo)接口和電纜)只占整個系統成本的不到 10%。
而(er)當第一代 100 Gb/秒(miao)設備問世時,由于(yu)(yu)設計不正確(que),成(cheng)(cheng)本非常高,很快(kuai)網(wang)絡(luo)成(cheng)(cheng)本就(jiu)占到(dao)集(ji)群成(cheng)(cheng)本的 15% 或(huo)更多。隨著價格實惠的 100 Gb/秒(miao)以太網(wang)的出現(xian)(xian),以及現(xian)(xian)在速度達到(dao) 200 Gb/秒(miao)和 400 Gb/秒(miao)的速度,成(cheng)(cheng)本現(xian)(xian)在再(zai)次降至 10% 以下(xia),但僅限(xian)于(yu)(yu)運行應用程序的前(qian)端網(wang)絡(luo)。
對于超大(da)規模企業和(he)云(yun)構建者(zhe)之間的(de)人(ren)(ren)工智(zhi)能(neng)訓練和(he)推理基礎設(she)施,Nvidia 會簡單明(ming)了地告訴您,網絡占(zhan)集群(qun)成(cheng)本的(de) 20%。Nvidia 聯合創始人(ren)(ren)兼(jian)首席執行官(guan)黃仁(ren)勛解釋說(shuo):“InfiniBand 在相同帶寬下的(de)大(da)規模性能(neng)比以太(tai)網高出 20%,因此“InfiniBand 實際上是免費(fei)的(de)。”
但(dan)事實上,它(指(zhi)代InfiniBand)不是免費的(de)(de)。你仍然需要拿出(chu)現金,而且(qie)它占集(ji)群(qun)成本的(de)(de) 20%。大家都知道GPU 計算引(yin)擎的(de)(de)成本非常高,但(dan)與(yu)基(ji)(ji)于 CPU 的(de)(de) Web 基(ji)(ji)礎設施(shi)集(ji)群(qun)的(de)(de)總(zong)體成本相比(bi),這還是令(ling)人(ren)印象深刻的(de)(de)。人(ren)工智能系統的(de)(de) InfiniBand 網(wang)絡的(de)(de)成本,從節(jie)點(dian)到節(jie)點(dian),肯定(ding)比(bi)在其他基(ji)(ji)礎設施(shi)集(ji)群(qun)上運行數據庫、存(cun)儲和應用程序的(de)(de)以太網(wang)昂貴得多。當然,我們(men)也承認,后者的(de)(de)帶寬會(hui)相對(dui)較對(dui)。
雖然兩大陣型都在彰顯自己并攻擊(ji)對(dui)方,但(dan)在650group看來,雖然以(yi)太網與 InfiniBand有(you)很多爭論(lun),甚(shen)至有(you)說法指出(chu)一(yi)種技術是如何以(yi)犧牲另一(yi)種技術為代價或(huo)消亡而取得成功(gong)的(de),存在,但(dan)這(zhe)些爭論(lun)都是錯(cuo)誤的(de)。
“以太網和(he) InfiniBand 各(ge)(ge)有優勢(shi),并且在(zai)同一市場中蓬勃發(fa)展。他(ta)們各(ge)(ge)有優劣勢(shi)。”650group強(qiang)調。
事實上,作為一種網絡互(hu)聯技術(shu),InfiniBand以其高可靠性、低(di)時延(yan)、高帶寬等特點在超(chao)級(ji)計(ji)算(suan)機集群中得(de)到廣(guang)泛應用。此外,隨著人工(gong)智能的(de)進(jin)步,尤(you)其是英(ying)偉達在GPU上的(de)壟斷,InfiniBand成為了GPU服務器的(de)首選(xuan)網絡互(hu)連(lian)技術(shu)。

650group也指(zhi)出(chu),InfiniBand 有(you)幾(ji)個優點。首先,該技(ji)(ji)術已經存在 20 年,并且主要專(zhuan)注(zhu)于 HPC 網絡(luo)(luo);其次,它是一(yi)(yi)(yi)項(xiang)從一(yi)(yi)(yi)開始(shi)就為 HPC 和 AI 網絡(luo)(luo)構建的(de)(de)技(ji)(ji)術‘第三,人(ren)(ren)工(gong)智(zhi)能(neng)(neng)可以使用(yong)低延遲(chi)和協議內(nei)置的(de)(de)項(xiang)目,例如網絡(luo)(luo)內(nei)數據處理(li),這(zhe)有(you)助(zhu)于進一(yi)(yi)(yi)步加速人(ren)(ren)工(gong)智(zhi)能(neng)(neng)。一(yi)(yi)(yi)個很好的(de)(de)例子(zi)是 InfiniBand 的(de)(de) SHARP 網內(nei)計算技(ji)(ji)術將 AI 數據縮減(jian)操作(AI 訓練的(de)(de)關鍵要素)吞(tun)吐量提高了兩(liang)倍,這(zhe)使得 InfiniBand 成為 AI 平(ping)臺性能(neng)(neng)最高的(de)(de)網絡(luo)(luo),并成為人(ren)(ren)工(gong)智(zhi)能(neng)(neng)平(ping)臺的(de)(de)領先解決方案。
以太(tai)網也是人工智能平臺中領(ling)先的外部(bu)和管理網絡。
自1980年(nian)9月30日推出以來,以太網(wang)(wang)(wang)標準已成(cheng)為局域(yu)網(wang)(wang)(wang)中使用最廣泛的(de)通信協議。與(yu) InfiniBand 不同,以太網(wang)(wang)(wang)的(de)設計考慮(lv)了以下主要目(mu)標:信息如何在(zai)多個(ge)系統之間輕松流(liu)動?這是一個(ge)典型的(de)具有分布式和(he)兼容性設計的(de)網(wang)(wang)(wang)絡(luo)。傳統以太網(wang)(wang)(wang)主要采用TCP/IP來構建網(wang)(wang)(wang)絡(luo),目(mu)前(qian)已逐漸發展為RoCE。
一(yi)般來說,以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)主要用于將(jiang)多臺(tai)計(ji)算機或其他設(she)備(例如打(da)印機、掃描儀(yi)等)連接到局域網(wang)(wang)(wang)。它不(bu)僅可(ke)以(yi)(yi)(yi)(yi)通過(guo)光纖電纜(lan)將(jiang)以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)連接到有線(xian)網(wang)(wang)(wang)絡,還可(ke)以(yi)(yi)(yi)(yi)通過(guo)無線(xian)組網(wang)(wang)(wang)技術(shu)實現無線(xian)網(wang)(wang)(wang)絡中的以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)。快(kuai)速以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)、千兆以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)、10 吉比特(te)以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)和交(jiao)換以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)都是(shi)以(yi)(yi)(yi)(yi)太(tai)網(wang)(wang)(wang)的主要類型。

博(bo)通資深VP Ram Velaga 幾個月(yue)前在社交平臺(tai)中更是指出(chu),以(yi)太(tai)網(wang)速度(du)一(yi)直比Infiniband快至(zhi)少(shao)2倍。今(jin)天,以(yi)太(tai)網(wang)的速度(du)為(wei)每(mei)秒800千兆位,而(er)Infiniband的速度(du)為(wei)400Gbps。他表示,在 Infiniband 上以(yi) 400Gbps 的速度(du)完(wan)成(cheng) 1MB 消息傳(chuan)輸需(xu)要 20 微秒,而(er)在以(yi)太(tai)網(wang)上以(yi) 800Gbps 的速度(du)完(wan)成(cheng) 10 微秒。
Meta的Alexis Black Bjorlin在 OCP 2022 上更(geng)是(shi)介紹了(le)在網絡中(zhong)用于推薦工作負載的時間百分比。按照她(ta)的觀點(dian),用以太(tai)網取代Infiniband將(jiang)使網絡時間減(jian)少一半。這在整個AI基礎(chu)設施上節省了(le)10%-25%+的成本,且更(geng)可(ke)持續(xu)!

但(dan)即使如(ru)此,如(ru)前文所說,英偉達憑借在GPU的強(qiang)勢關(guan)系,他們(men)已(yi)經在Infiniband的選擇上(shang)擁有了更多地話語權。于是,Ultra Ethernet Consortium(超以太聯盟,UCE)橫空出世(shi)。
超以太聯(lian)盟,卷土重來
之(zhi)所以說是卷土(tu)重來(lai),是因為(wei)這個聯盟從某種意義(yi)上來(lai)說是為(wei)了完成(cheng)以太網的(de)未竟任務。
據白(bai)皮書介(jie)紹,超(chao)以太(tai)網聯盟(meng)的(de)目標是創建一(yi)個“完整的(de)基(ji)于以太(tai)網的(de)通信堆棧架構(gou)”,該(gai)架構(gou)將像以太(tai)網一(yi)樣普(pu)遍且經濟高效,同時提供超(chao)級計算(suan)互連的(de)性能。該(gai)聯盟(meng)的(de)創始成(cheng)員包括文章開頭(tou)談到的(de)那些積極(ji)參與(yu) HPC 和(he)網絡的(de)公司,包括英特爾、AMD、HPE、Arista、Broadcom、思科、Meta 和(he)微(wei)軟(ruan),該(gai)項目本身由 Linux 基(ji)金會托管。
UEC 主席 J Metz 博士在接受采訪(fang)的(de)時候告訴The Register,該項目的(de)目標不是改變以太網(wang),而是對其進行調整(zheng),以更(geng)好地適應(ying) AI 和 HPC 工作(zuo)負載更(geng)苛刻(ke)的(de)特征。
“以太(tai)(tai)網(wang)是(shi)我(wo)們構建(jian)的(de)(de)基(ji)礎技術(shu),因為它是(shi)業界持久(jiu)、靈(ling)活和適(shi)應(ying)性強(qiang)的(de)(de)基(ji)本(ben)網(wang)絡技術(shu)的(de)(de)最佳(jia)范例,”他說。“UEC 的(de)(de)目標是(shi)專注于如何在以太(tai)(tai)網(wang)上最好地承載 AI 和 HPC 工(gong)作負載流量。當然,之前已經有過一(yi)些嘗試,但沒有一(yi)個是(shi)針對高要求的(de)(de) AI 和 HPC 進行全(quan)新設計的(de)(de)工(gong)作負載,但沒有一(yi)個是(shi)開放的(de)(de)、易(yi)于使用的(de)(de)并贏得了(le)廣泛(fan)的(de)(de)采(cai)用。”他進一(yi)步(bu)指出。
針對網(wang)絡堆(dui)棧(zhan)的多個層(ceng),該項(xiang)目工作(zuo)組的任(ren)務是開發物理層(ceng)和(he)(he)鏈路層(ceng)的“增強(qiang)性能、延(yan)遲和(he)(he)管(guan)理的規范”,以及開發傳(chuan)輸(shu)層(ceng)和(he)(he)軟件層(ceng)的規范。
根(gen)據白皮書,網(wang)絡對(dui)于 AI 模(mo)(mo)型(xing)的(de)訓(xun)練(lian)變得越(yue)來(lai)越(yue)重(zhong)要(yao),而(er) AI 模(mo)(mo)型(xing)的(de)規(gui)模(mo)(mo)正在(zai)不斷膨(peng)脹。有些擁有數萬億個參數,需(xu)要(yao)在(zai)大型(xing)計算集群上進行訓(xun)練(lian),并且(qie)網(wang)絡需(xu)要(yao)盡可(ke)能高效才能保持這些集群繁忙(mang)。
雖然 AI 工(gong)作負(fu)載往往非常(chang)需(xu)要(yao)帶寬,但 HPC 還(huan)包括對延遲更加敏感的(de)工(gong)作負(fu)載,并且需(xu)要(yao)滿(man)足(zu)這兩(liang)個要(yao)求。為了滿(man)足(zu)這些需(xu)求,UEC 確定了以(yi)下理想特性:靈活的(de)delivery順序(flexible delivery order);現(xian)代擁塞控制(zhi)機制(zhi)(modern congestion control mechanisms);多路徑和數據包擴(kuo)散(multi-pathing and packet spraying);加上更大的(de)可擴(kuo)展性和端到端遙測(greater scalability and end-to-end telemetry)。
根據(ju)(ju)白皮書,舊技術使用的(de)嚴格數據(ju)(ju)包排(pai)序會阻(zu)止無序數據(ju)(ju)直(zhi)接從(cong)(cong)網絡(luo)傳遞(di)到應用程序,從(cong)(cong)而限制了(le)效率。支持放寬數據(ju)(ju)包排(pai)序要(yao)求的(de)現代(dai) API 對于減少“尾部延遲”(tail latencies)至關重要(yao)。
多路(lu)徑和數據包(bao)(bao)擴散(san)涉及沿著源(yuan)和目(mu)標之間的所(suo)有可(ke)用網(wang)絡路(lu)徑同時(shi)發送數據包(bao)(bao),以(yi)實現最佳性能。
如果多個發送(song)方都針(zhen)對(dui)同(tong)一節點,則 AI 和 HPC 中的網絡擁塞主(zhu)要是交換機(ji)和接收節點之間(jian)的鏈路問(wen)題。然(ran)而,UEC 聲(sheng)稱,當前(qian)管(guan)理擁塞的算(suan)法并不能(neng)滿足針(zhen)對(dui)人(ren)工(gong)智能(neng)優化的網絡的所有需(xu)求。
首先,UEC 的(de)目標(biao)似乎是(shi)用(yong)可提(ti)供所需(xu)特性的(de)新傳輸(shu)層協議取代(dai)融合以(yi)太網上的(de) RDMA (RoCE) 協議。這種超以(yi)太網傳輸(shu)將(jiang)支持(chi)多路徑、packet-spraying傳輸(shu)、高效的(de)速率(lv)控制算法,并向人(ren)工(gong)智能和高性能計(ji)算工(gong)作負載(zai)公開一(yi)個簡單(dan)的(de) API——或者至(zhi)少這是(shi)其(qi)意圖。
HPE 對 UEC 的(de)(de)參(can)與(yu)引(yin)人(ren)注目,因為它已經擁有基于以(yi)太(tai)(tai)(tai)網的(de)(de) HPC 互(hu)連。正(zheng)如The Next Platform的(de)(de)作(zuo)者(zhe)在文章中(zhong)詳細描(miao)述的(de)(de)那樣,Cray Slingshot 技術(shu)是以(yi)太(tai)(tai)(tai)網的(de)(de)“超集(ji)” ,同時保持與(yu)標準以(yi)太(tai)(tai)(tai)網框架(jia)的(de)(de)兼容性(xing),并且(qie)在 HPE 最(zui)近參(can)與(yu)的(de)(de)許(xu)多(duo)超級計算機(ji)項目中(zhong)得到(dao)了應用,例如Frontier 百億億次系統(tong)。
HPE 高(gao)性能互連總經理 Mike Vildibill 表示,該公司支持 UEC 的(de)(de)動機是希(xi)望(wang)確(que)保 Slingshot 在開放(fang)的(de)(de)生(sheng)態系統中運(yun)行。“我們希(xi)望(wang)符合 UEC 的(de)(de) NIC 能夠體驗(yan)到 Slingshot 結構(gou)的(de)(de)一(yi)些(xie)性能和可擴展性優勢,”他說(shuo)。Vildibil 證實(shi),HPE 未(wei)來將繼續開發 Slingshot,但他認為總會有(you)一(yi)些(xie)第(di)三方(fang) NIC 或 SmartNIC 可能具有(you)其(qi) Slingshot NIC 上未(wei)實(shi)現的(de)(de)功能。
“因此(ci),UEC 提供了(le)一(yi)種機(ji)制來建(jian)立(li)強大的第三方 NIC 生態系(xi)統,以確保(bao)我們能夠支(zhi)持廣泛(fan)的客戶需求,同(tong)時提供 Slingshot 的一(yi)些(xie)獨特功能,”他(ta)說。
目(mu)前,UEC 正處于開發的(de)早期階段(duan),關鍵技術概(gai)念(nian)仍在確定和研究中。Metz 博士表示,第一批批準草案可(ke)能會在 2023 年(nian)(nian)底或(huo) 2024 年(nian)(nian)初(chu)準備就緒,第一批基于標準的(de)產品(pin)也預(yu)計將于明年(nian)(nian)推出。
芯片廠商(shang)積極(ji)參與(yu),Meta放了個大招
雖然UEC正在(zai)推(tui)進,但很(hen)多廠商正在(zai)通過其(qi)產品來(lai)打破英(ying)偉(wei)達的壟斷。
以最積(ji)極(ji)的芯片廠商博(bo)通為例,今年夏天,Nvidia 承諾(nuo)推(tui)出(chu) Spectrum-X 平臺,為生成型(xing) AI 工作(zuo)負載提供“無損(sun)以太網”。但博(bo)通的Ram Velaga 強調,這(zhe)并(bing)(bing)不是新鮮事,英偉達的產品(pin),也并(bing)(bing)沒(mei)有什么特別之處是博(bo)通不具備(bei)的。
他解釋(shi)說,Nvidia 使用(yong) Spectrum-X 實際上(shang)所做(zuo)的(de)(de)是構建一個垂直集成的(de)(de)以太(tai)網(wang)平臺(tai),該平臺(tai)擅(shan)長以最小化尾延遲并減少 AI 作(zuo)業完成時間的(de)(de)方式(shi)管理(li)(li)擁塞。但Velaga 認為,這與 Broadcom 對(dui)其(qi)Tomahawk5和Jericho3-AI交(jiao)換機 ASIC所做(zuo)的(de)(de)沒有什(shen)么不(bu)同。他還認為 Nvidia 承認以太(tai)網(wang)對(dui)于處(chu)理(li)(li)人工智能中的(de)(de) GPU 流更有意(yi)義。
我(wo)們(men)需要稍微解析一下,Nvidia 的 Spectrum-X 不是產(chan)品。它(ta)是硬件和(he)軟件的集合,其中大(da)部分(fen)我(wo)們(men)在過去已經介紹過。核心組件包(bao)括Nvidia的51.2Tbit/s Spectrum-4以太網交換機和(he)BlueField-3數據處(chu)理單元(DPU)。
其(qi)(qi)基本思(si)想是,只(zhi)要(yao)您(nin)同(tong)時(shi)使用 Nvidia 的(de)交換機及其(qi)(qi) DPU,它們(men)就會協(xie)同(tong)工作以(yi)緩解流(liu)量(liang)擁(yong)塞,并且(如果(guo) Nvidia 可信的(de)話(hua))完全消(xiao)除(chu)數據(ju)包丟失。
雖(sui)然英(ying)偉達聲稱(cheng)這是(shi)其全新的(de)(de)(de)功能(neng)單元,但 Velaga 認(ren)為“無(wu)損(sun)以(yi)(yi)太網(wang)”的(de)(de)(de)想法(fa)只是(shi)營(ying)銷。“與其說它(ta)是(shi)無(wu)損(sun)的(de)(de)(de),不如說你可以(yi)(yi)有效(xiao)地管理(li)擁(yong)塞,從而擁(yong)有一(yi)個非常高(gao)效(xiao)的(de)(de)(de)以(yi)(yi)太網(wang)結構,”他說。換句話(hua)說,與以(yi)(yi)太網(wang)網(wang)絡不同,數據包丟失是(shi)必然的(de)(de)(de),它(ta)是(shi)規則的(de)(de)(de)例外。無(wu)論如何(he),這就是(shi)想法(fa)。
Velaga 聲稱,這(zhe)種(zhong)擁塞管理(li)已經內置于 Broadcom 最新一代的交換機 ASIC 中(zhong) - 只(zhi)是它們可以與任何供應商或(huo)云服(fu)務提供商的 smartNIC 或(huo) DPU 配合(he)使用(yong)。Velaga 還表示,Nvidia 試圖實現的垂直整合(he)與以太網(wang)是沖突(tu)的。
“以(yi)太網(wang)今天(tian)成功的全(quan)部(bu)原(yuan)因是它是一(yi)個非常(chang)開(kai)放(fang)的生(sheng)態(tai)系統,”他說(shuo)。
作為以太網的(de)另一個(ge)支持者, Meta Platforms近日也在其(qi)主辦的(de) Networking Scale 2023 活(huo)動上展示了(le)融合以太網上采用 RDMA 的(de)以太網(一種借鑒了(le) InfiniBand 的(de)許多想法的(de)低(di)延遲以太網)。
據nextplatform報道,該公司談到了如何(he)使用以太網進行中等(deng)規(gui)模的(de)人工智能訓練和推(tui)理(li)集群(qun),以及其(qi)近期(qi)計劃如何(he)擴展到具有(you) 32,000 個(ge) GPU 共享數(shu)據的(de)系(xi)統,并使規(gui)模比它(ta)一(yi)直(zhi)用于創建和訓練 LLaMA 1 和 LLaMA 2 模型的(de)最(zui)初 2,000 個(ge) GPU 集群(qun)提高了16 倍。需要強(qiang)調(diao)一(yi)下(xia),Meta Platforms 從 Nvidia 購買(mai)的(de)研究超級計算機系(xi)統最(zui)多擁有(you) 16,000 個(ge) GPU,其(qi)中大部分是 Nvidia 的(de)“Ampere”A100 GPU,其(qi)中相對較小的(de)份額是更新(xin)且容量(liang)更大的(de)“Hopper”H100 模塊。
“人(ren)工(gong)智能(neng)模型每兩到(dao)三年就會增長 1,000 倍,”該公(gong)司網絡基礎設(she)施團隊軟(ruan)件(jian)工(gong)程總監 Rajiv Krishnamurthy 解釋道。“我們在(zai) Meta 內部觀察到(dao)了這一點,我認(ren)為根據我們在(zai)行(xing)業中(zhong)觀察到(dao)的(de)情況,這似乎是一種長期趨勢。這個數(shu)(shu)字很(hen)難理解。因此,從物理角度來(lai)看,這會轉化為數(shu)(shu)萬個 GPU 集群(qun)大小(xiao),這意味著它們正(zheng)在(zai)生成萬億次計算(suan)。這是由(you) EB 級數(shu)(shu)據存儲(chu)支持的(de)。”
“而從(cong)網絡角(jiao)(jiao)度(du)(du)來看,您正在(zai)考慮操(cao)縱每秒大約太比特(te)的(de)數據。工作負載本身就很(hen)挑剔。由此人們了解(jie)到,典(dian)型的(de) AI HPC 工作負載具有非常低(di)的(de)延(yan)遲要(yao)求(qiu),而且從(cong)數據包的(de)角(jiao)(jiao)度(du)(du)來看,他們無法(fa)容忍丟失。”Rajiv Krishnamurthy 說。
為此,Meta Platforms 希望用于 AI 訓練的(de)(de)(de)生產集群的(de)(de)(de)規模比(bi)其 2022 年(nian) 1 月購買(mai)的(de)(de)(de) Nvidia RSC 機器的(de)(de)(de)規模擴(kuo)大 2 倍,并在去年(nian)全年(nian)不斷擴(kuo)大規模,達(da)到(dao) 16,000 個 GPU 的(de)(de)(de)完整配(pei)置(zhi)。然(ran)后,不久之(zhi)后,就會討論(lun) 48,000 個 GPU,然(ran)后是(shi) 64,000 個 GPU,依此類推。
在Meta看來,構建一個(ge)可(ke)以(yi)(yi)進行 LLM 訓(xun)練(目(mu)前在Meta Platforms 上使用 LLaMA 2)和(he)推(tui)(tui)理以(yi)(yi)及 Reco 訓(xun)練和(he)推(tui)(tui)理(在本例中為(wei)自主(zhu)開(kai)發的深度學習(xi)推(tui)(tui)薦模型或 DLRM)的系統(tong)非常困難,而(er)且考慮(lv)到這(zhe)(zhe)四種(zhong)工(gong)作負載的不同要(yao)求(qiu),這(zhe)(zhe)甚至可(ke)以(yi)(yi)說(shuo)是不可(ke)能的,正如 Meta Platforms 人工(gong)智能系統(tong)部(bu)門(men)的研(yan)究科學家 Jongsoo Park 在這(zhe)(zhe)個(ge)蜘蛛圖中所(suo)示(shi):

Park 表(biao)示,Meta Platforms 擁有 32,000 個 H100,在(zai)(zai) FP8 四分之(zhi)一精度浮點數(shu)(shu)學生產(chan)中產(chan)生約 30% 的(de)峰值性(xing)能(neng),Meta Platforms 將能(neng)夠在(zai)(zai)一天(tian)內訓練(lian)具有 650 億個參數(shu)(shu)的(de) LLaMA2 模型(xing)。為了實現這(zhe)一目標,很多事情都必須(xu)改變(bian),其(qi)中包括將訓練(lian)令牌(token)批次增(zeng)加到(dao) 2,000 以(yi)上,并在(zai)(zai)數(shu)(shu)千個 GPU 上進行(xing)擴展。全局(ju)訓練(lian)批量大小還必須(xu)在(zai)(zai) 32,000 個 GPU 上保持(chi)不變(bian),并使(shi)用他(ta)所(suo)謂的(de) 3D 并行(xing)性(xing)(數(shu)(shu)據并行(xing)、張量并行(xing)和管道并行(xing)技術(shu)的(de)組合(he))將工作分散到(dao) GPU 上。Park 表(biao)示,由于參數(shu)(shu)和數(shu)(shu)據量變(bian)得如此之(zhi)大,數(shu)(shu)據并行(xing)性(xing)正在(zai)(zai)耗(hao)盡,因此沒有辦(ban)法解決這(zhe)個問題(ti)。

為此,Meta一直在改(gai)個其(qi)系統(tong),以滿足(zu)客戶需求(qiu)。
在幾年前(qian)(qian),DLRM 訓練和推(tui)理可(ke)以(yi)在單個節(jie)點(dian)上完(wan)成。然后,通(tong)過第一(yi)代(dai)以(yi)太(tai)(tai)網(wang) RoCE 集(ji)群(qun)(qun),Meta 可(ke)以(yi)將多(duo)個節(jie)點(dian)集(ji)群(qun)(qun)在一(yi)起,但(dan)集(ji)群(qun)(qun)規(gui)模相當有(you)限(xian)。為了獲(huo)得所需(xu)的規(gui)模,它(ta)必須轉向 InfiniBand 和以(yi)太(tai)(tai)網(wang) RoCE v2,前(qian)(qian)者存在財務(wu)問題(ti),后者存在一(yi)些(xie)技術問題(ti),但(dan)該(gai)公司到目前(qian)(qian)為止已經解決了。
Meta Platforms 擔任網(wang)絡(luo)工程(cheng)師Lapukhov 表示(shi),從基本(ben)構建(jian)模(mo)(mo)(mo)塊開始,基于 Nvidia 加速(su)器的(de)八路 GPU 服務器可以(yi)(yi)在節(jie)點內具(ju)有(you)數(shu)十個加速(su)器的(de)設(she)備之間(jian)提供(gong) 450 GB/秒的(de)帶寬。模(mo)(mo)(mo)型并行(xing)流量在節(jie)點內互連上(shang)運(yun)行(xing),在本(ben)例(li)中為 NVLink,但(dan)也(ye)可以(yi)(yi)是 PCI-Express 交換基礎設(she)施。從這里開始,模(mo)(mo)(mo)型必須使用(yong)某種形(xing)式(shi)的(de) RDMA(InfiniBand 或以(yi)(yi)太網(wang) RoCE)跨(kua)數(shu)千(qian)個節(jie)點(具(ju)有(you)數(shu)萬個聚合 GPU 計算(suan)引擎)進行(xing)數(shu)據并行(xing)擴展,并且您可以(yi)(yi)以(yi)(yi) 50 GB/秒的(de)速(su)度交付具(ju)有(you)合理數(shu)量的(de)網(wang)絡(luo)接口卡的(de)節(jie)點之間(jian)的(de)帶寬。
對于(yu)以(yi)太網(wang) AI 網(wang)絡,Meta Platforms 使用(yong)(yong)與數據(ju)中心規模前端網(wang)絡應用(yong)(yong)程(cheng)序相(xiang)同的 Clos 拓(tuo)撲,而不是在(zai) AI 訓練和 HPC 集群中使用(yong)(yong) InfiniBand 的用(yong)(yong)戶(hu)普(pu)遍青(qing)睞(lai)的fat tree 拓(tuo)撲。
為了(le)達到 32,256 個 GPU,該公司在(zai)一個機(ji)(ji)架中放置了(le)兩臺(tai)服務器,每(mei)臺(tai)服務器配有(you) 8 個 Nvidia H100 GPU。就機(ji)(ji)架而言,這并不(bu)是(shi)特別密集,但它的密度并不(bu)比 Nvidia 本(ben)身對其 DGX H100 集群所做(zuo)的密集。這意味著有(you) 2,000 個機(ji)(ji)架需(xu)要(yao)連(lian)接,如(ru)下所示(shi):

如(ru)果仔(zi)細觀(guan)察,它實際上是(shi) 8 個集群(qun)(qun),每個集群(qun)(qun)有 4,096 個 GPU,每個集群(qun)(qun)在(zai)兩層網絡中交(jiao)叉(cha)鏈接。
每(mei)個(ge)(ge)(ge)機(ji)架(jia)都有(you)一對服務器(qi),總(zong)共(gong)有(you) 16 個(ge)(ge)(ge) GPU 和一個(ge)(ge)(ge)架(jia)頂交(jiao)換(huan)機(ji)。目前(qian)尚不清楚(chu)服務器(qi)或(huo)交(jiao)換(huan)機(ji)中有(you)多(duo)少個(ge)(ge)(ge)端口(kou),但每(mei)個(ge)(ge)(ge) GPU 最(zui)好有(you)一個(ge)(ge)(ge)上行端口(kou),這意(yi)味著每(mei)臺服務器(qi)有(you) 8 個(ge)(ge)(ge)端口(kou)。(這就是(shi) Nvidia 對其 DGX 設(she)計所做的(de)(de)事情(qing)。)整個(ge)(ge)(ge) enchilada 中總(zong)共(gong)有(you) 2,016 個(ge)(ge)(ge) TOR。隨著網絡的(de)(de)發(fa)展,交(jiao)換(huan)機(ji)的(de)(de)數量相當多(duo)。
這(zhe)些架頂交換(huan)機(ji)(ji)使用 18 個(ge)集(ji)(ji)(ji)群交換(huan)機(ji)(ji)(您可以(yi)稱之為主(zhu)干(gan))交叉連(lian)接成一個(ge)集(ji)(ji)(ji)群,整(zheng)個(ge)集(ji)(ji)(ji)群中有(you)(you) 144 個(ge)交換(huan)機(ji)(ji)。然后還有(you)(you)另外 18 個(ge)具有(you)(you) 7:1 超額訂(ding)閱錐(zhui)度的聚(ju)合交換(huan)機(ji)(ji),將 8 個(ge)子(zi)集(ji)(ji)(ji)群相(xiang)互鏈(lian)接。即 2,178 個(ge)交換(huan)機(ji)(ji)互連(lian) 4,032 個(ge)節點。由于這(zhe)些數據密集(ji)(ji)(ji)型 GPU 的帶寬需求(qiu),該比率為 1.85:1。
Lapukhov 的(de)這張表(biao)很酷(ku),它表(biao)明就 AI 模型而言,子集群粒度實際上約(yue)為 256 到 512 個 GPU:

這顯(xian)示了支撐(cheng)人(ren)工(gong)智能的集體操(cao)作如何映射到網絡(luo)上:

要點就是(shi)這樣,這并(bing)不奇(qi)怪(guai)。當您制作更(geng)大的結(jie)構以跨越更(geng)多(duo) GPU 時(shi),您會向網絡添加更(geng)多(duo)層,這意味著(zhu)更(geng)多(duo)延遲,這會降低 GPU 的利用(yong)率,至少在 GPU 等(deng)待集體操(cao)作完成的某些時(shi)間在集群周圍(wei)傳(chuan)播。但完全(quan)共享數(shu)據并(bing)行全(quan)收集操(cao)作往(wang)往(wang)會發送小消息(通常為(wei) 1 MB 或更(geng)小),如果您能夠很好(hao)地(di)處理(li)小消息,則可以通過(guo)通信(xin)和計算的細粒度(du)重疊來實現張(zhang)量并(bing)行。
聽起來好像有人(ren)需要大型(xing) NUMA 節(jie)點(dian)來進行推理和訓練(lian)。。。。這正(zheng)是 NVLink 的作用(yong)和 NVSwitch 的擴展(zhan)。
那么(me)這(zhe)在 Meta Platforms 數(shu)據中心中是(shi)什么(me)樣子(zi)的呢?那么(me),前端數(shu)據中心結構如下所示:

我們將(jiang)數(shu)(shu)據(ju)中(zhong)(zhong)心(xin)劃分為(wei)四個(ge)房(fang)間(jian),每(mei)個(ge)房(fang)間(jian)都有一些聚合網(wang)絡,然后核(he)心(xin)網(wang)絡將(jiang)數(shu)(shu)據(ju)中(zhong)(zhong)心(xin)中(zhong)(zhong)心(xin)自己(ji)區域(yu)內的(de)房(fang)間(jian)連接在一起。為(wei)了將(jiang)人(ren)工智能添加到服務器機房(fang),集群訓練交換機(CTSW)和(he)機架訓練交換機(RTSW)與其(qi)他應(ying)用(yong)(yong)服務器添加到同一機房(fang),并且可(ke)以(yi)與應(ying)用(yong)(yong)服務器交錯(cuo)。在四個(ge)數(shu)(shu)據(ju)大廳中(zhong)(zhong),Meta可(ke)以(yi)容納數(shu)(shu)以(yi)萬計的(de)緊密耦(ou)合的(de) GPU:

這是網絡平面的(de) 3D 表示(shi)(如(ru)果這樣(yang)更容易(yi)可視化):

早在過去(qu),Meta Platforms 使用 100 Gb/秒以太網(wang)和 RoCE v1 并取(qu)得(de)了一些成功:

隨著轉向(xiang)以(yi)太網 RoCE v2(延(yan)遲和(he)數據包保護功能得到極大改(gai)善),Meta Platforms 將(jiang) 8 個 200 Gb/秒的端口(kou)連接到每臺(tai)服務器,并使(shi)用(yong) 400 Gb 將(jiang)這(zhe)些端口(kou)與機(ji)架和(he)集群(qun)交(jiao)(jiao)換機(ji)交(jiao)(jiao)叉耦合/秒端口(kou)。

在(zai)第二(er)代 AI 架(jia)構中,他們已將每個 GPU 的主(zhu)機下行(xing)鏈路速度提升至 400 Gb/秒,并且仍在(zai)運行(xing)更高(gao)級(ji)別(bie)的網絡訂(ding)閱不足,無(wu)法保(bao)持比特順(shun)利傳輸。
Nextplatform的作者認為(wei),在未來(lai)的很多年里,情(qing)況都會如(ru)此(ci)。但(dan)如(ru)果超(chao)以太(tai)網聯盟采(cai)用Neta的方式(shi),以太(tai)網將更像 InfiniBand,并將擁有多個供應商(shang)(shang),從而為(wei)所(suo)有超(chao)大(da)規(gui)模提(ti)供商(shang)(shang)和云構建商(shang)(shang)提(ti)供更多選擇和更大(da)的競爭壓力(li),以降(jiang)低網絡價格。
不(bu)過,不(bu)要指望(wang)它的(de)(de)成本會(hui)低于(yu)集群(qun)成本的(de)(de) 10%——只(zhi)要 GPU 的(de)(de)成本仍然很高。但(dan)有意思的(de)(de)是,隨著 GPU 成本的(de)(de)下降(jiang),來自網絡的(de)(de)集群(qun)成本份(fen)額將會(hui)上升,從而給 InfiniBand 帶(dai)來更大的(de)(de)壓(ya)力(li)。
參(can)考鏈接(jie)
//community.fs.com/blog/infiniband-vs-ethernet-which-is-right-for-your-data-center-network.html
//www.nextplatform.com/2023/09/26/meta-platforms-is-determined-to-make-ethernet-work-for-ai/
//www.theregister.com/2023/07/20/ultra_ethernet_consortium_ai_hpc/