云提供商正在組建 GPU 大(da)軍,以提供更多(duo)的(de) AI 火力。在今天舉行的(de)年(nian)度 Google I/O 開(kai)發者大(da)會(hui)上,Google 宣布了(le)一款(kuan)擁有 26,000 個(ge) GPU 的(de) AI 超級計算機——A3 ,這個(ge)超級計算機是谷歌與微軟(ruan)爭奪 AI 霸(ba)權的(de)斗(dou)爭中投入更多(duo)資源進(jin)行積極反攻的(de)又(you)一證據。
這臺超級計(ji)算(suan)機擁有(you)大約 26,000 個(ge) Nvidia H100 Hopper GPU。作為參(can)考,世(shi)界上最快的公(gong)共超級計(ji)算(suan)機Frontier擁有(you) 37,000 個(ge) AMD Instinct 250X GPU。
對于(yu)我(wo)(wo)們最(zui)大(da)的(de)客戶,我(wo)(wo)們可以在單個(ge)集群(qun)中(zhong)構建多(duo)達 26,000 個(ge) GPU 的(de) A3 超級(ji)計(ji)算機,并正在努(nu)力在我(wo)(wo)們最(zui)大(da)的(de)地(di)區構建多(duo)個(ge)集群(qun),”谷歌發(fa)言人在一(yi)封(feng)電子(zi)郵件中(zhong)說,并補充說“并非我(wo)(wo)們所有(you)的(de)位置(zhi)都將(jiang)是縮放到這么大(da)的(de)尺寸。”
該系統是在加利福尼亞州山景城舉行的 Google I/O 大會上宣布的。開發者大會已經成為谷歌許多人工智能軟件(jian)和(he)硬件(jian)能力的展示。在微軟將 OpenAI 的技術應(ying)用(yong)于 Bing 搜索和(he)辦(ban)公生產力應(ying)用(yong)程序之(zhi)后,谷歌(ge)加速了(le)其(qi) AI 開發。
該超級(ji)計算(suan)機(ji)面向希望訓練大型語言模型的(de)(de)(de)客戶。谷歌為希望使用超級(ji)計算(suan)機(ji)的(de)(de)(de)公司(si)宣布了(le)隨(sui)附的(de)(de)(de) A3 虛擬機(ji)實例。許多云提供商現在(zai)都(dou)在(zai)部署(shu) H100 GPU,Nvidia 在(zai) 3 月份推出了(le)自(zi)己的(de)(de)(de) DGX 云服(fu)務(wu),與(yu)租(zu)用上一代(dai) A100 GPU 相比價格昂(ang)貴(gui)。
谷(gu)歌表示,A3 超級(ji)計算(suan)機是(shi)對(dui)現有 A2 虛擬機與 Nvidia A100 GPU 提供的計算(suan)資源的重大升級(ji)。谷(gu)歌正在將所有分布在不同地理位置的 A3 計算(suan)實例匯集到(dao)一臺超級(ji)計算(suan)機中。
“A3 超(chao)級計算機的(de)(de)規模可提供(gong)高(gao)達 26 exaflops 的(de)(de) AI 性能(neng),這大(da)大(da)減少了訓練大(da)型(xing) ML 模型(xing)的(de)(de)時(shi)間和(he)成(cheng)本(ben),”谷歌的(de)(de)董事 Roy Kim 和(he)產品經理 Chris Kleban 在一篇(pian)博客文章中說。
公司使(shi)用(yong) exaflops 性(xing)能指標來(lai)估計(ji) AI 計(ji)算(suan)機的原始性(xing)能,但批評者仍(reng)(reng)然(ran)對其持(chi)保留意見。在谷歌(ge)的案(an)例中,被大家詬病的是(shi)其結果(guo)在以 ML 為目標的 bfloat16(“brain floating point”)性(xing)能中計(ji)算(suan)出(chu)來(lai)的,這讓你達到“exaflops”的速度(du)比大多數經典 HPC 應用(yong)程序(xu)仍(reng)(reng)然(ran)使(shi)用(yong)的雙精度(du) (FP64) 浮點(dian)數學(xue)要快得多要求。
GPU 的(de)數量已經成為云提(ti)(ti)供商推(tui)廣其 AI 計(ji)算(suan)服(fu)務的(de)重要名(ming)片。微(wei)軟(ruan)在 Azure 中的(de) AI 超級(ji)計(ji)算(suan)機與 OpenAI 合作構建,擁有 285,000 個 CPU 內核和 10,000 個 GPU。微(wei)軟(ruan)還宣布了配備更多 GPU 的(de)下一代 AI 超級(ji)計(ji)算(suan)機。Oracle 的(de)云服(fu)務提(ti)(ti)供對 512 個 GPU 集群的(de)訪問,并且正在研究新技術以提(ti)(ti)高(gao) GPU 通信的(de)速(su)度。
谷歌一直在大肆宣傳其TPU v4 人工智能芯片,這些芯片被用(yong)于(yu)運行帶(dai)有(you) LLM 的(de)內部人工(gong)智能應用(yong)程序,例如(ru)谷(gu)歌的(de) Bard 產品。谷(gu)歌的(de) AI 子(zi)公司 DeepMind 表示,快速 TPU 正在指導通用(yong)和科學應用(yong)的(de) AI 開發。
相比之(zhi)下(xia),谷歌的 A3 超級計算(suan)機用途廣泛(fan),可(ke)以針(zhen)對(dui)廣泛(fan)的 AI 應用程序和 LLM 進行調整。Kim 和 Kleban 在博(bo)文中表示:“鑒于(yu)這些(xie)工作負載的高要求,一(yi)刀切的方(fang)法是不(bu)夠的——你(ni)需要專為 AI 構建的基礎設(she)施。”
就像谷歌喜(xi)歡它(ta)的(de)(de) TPU 一樣,Nvidia 的(de)(de) GPU 已(yi)經成為云提供商的(de)(de)必需(xu)品,因(yin)為客戶正在 CUDA 中編寫 AI 應用程序(xu),這是 Nvidia 專有的(de)(de)并行編程模型。該軟件工具包基于 H100 的(de)(de)專用 AI 和圖形內核(he)提供的(de)(de)加速(su)生成最(zui)快的(de)(de)結果。

客戶可以通過 A3 虛(xu)擬機運行 AI 應用程序,并通過 Vertex AI、Google Kubernetes Engine 和(he) Google Compute Engine 服務(wu)使用 Google 的(de) AI 開(kai)發和(he)管理服務(wu)。公(gong)司可以使用 A3 超級計算機上的(de) GPU 作為(wei)一次(ci)性租用,結(jie)合大型(xing)語言模(mo)型(xing)來訓練(lian)大型(xing)模(mo)型(xing)。然后,將新(xin)數(shu)據輸入模(mo)型(xing),更新(xin)模(mo)型(xing)——無需(xu)從頭開(kai)始重(zhong)新(xin)訓練(lian)。
谷歌的(de) A3 超級計算機(ji)(ji)是各種技術的(de)大(da)雜燴,以提高 GPU 到(dao) GPU 的(de)通(tong)信(xin)和(he)網絡性(xing)能。A3 虛擬機(ji)(ji)基于(yu)英特爾第(di)四代 Xeon 芯片(pian)(代號 Sapphire Rapids),與 H100 GPU 一起提供。目前尚不清楚(chu) VM 中的(de)虛擬 CPU 是否(fou)會支持 Sapphire Rapids 芯片(pian)中內置的(de)推理(li)加速器(qi)。VM 隨附 DDR5 內存。
Nvidia H100 上(shang)(shang)的訓練模(mo)型比(bi)在云端廣泛使用的上(shang)(shang)一(yi)代 A100 GPU 更快(kuai)、更便宜。人工(gong)智能服務公(gong)司 MosaicML 進行的一(yi)項(xiang)研究發現(xian),H100 在其 70 億參數的 MosaicGPT 大型語(yu)言模(mo)型上(shang)(shang)“比(bi) NVIDIA A100 的成本效益(yi)高 30%,速度快(kuai) 3 倍”。
H100 也可(ke)以進行推(tui)理(li)(li)(li),但考慮(lv)到(dao) H100 提供的處理(li)(li)(li)能(neng)力,這可(ke)能(neng)被認為是矯枉過正。谷歌云提供 Nvidia 的 L4 GPU 用于推(tui)理(li)(li)(li),英特爾(er)在其 Sapphire Rapids CPU 中(zhong)擁有推(tui)理(li)(li)(li)加速器。
“A3 VM 也非(fei)常適合推理工作負載,與我們的(de) A2 VM 的(de) A100 GPU 相比(bi),推理性能(neng)提升(sheng)高達 30 倍(bei),”Google 的(de) Kim 和 Kleban 說。
A3 虛(xu)擬(ni)機(ji)是第一個通過名為 Mount Evans 的(de)基礎(chu)設施處理單元(yuan)連接(jie) GPU 實(shi)例的(de)虛(xu)擬(ni)機(ji),該單元(yuan)由谷歌和英特爾聯(lian)合開發(fa)。IPU 允(yun)許(xu) A3 虛(xu)擬(ni)機(ji)卸載(zai)網絡、存儲管理和安全功(gong)能,這些功(gong)能傳統上(shang)是在虛(xu)擬(ni) CPU 上(shang)完成的(de)。IPU 允(yun)許(xu)以 200Gbps 的(de)速度傳輸數據。
“A3 是第(di)一個(ge)使用我(wo)們定制設計的(de) 200Gbps IPU 的(de) GPU 實例,GPU 到 GPU 的(de)數據傳輸繞過 CPU 主機并流經與其(qi)他 VM 網絡和數據流量不(bu)同的(de)接(jie)口(kou)。與我(wo)們的(de) A2 虛擬(ni)機相比,這使網絡帶(dai)寬增(zeng)加(jia)了 10 倍(bei),具有低尾延遲和高帶(dai)寬穩定性(xing),”谷歌高管在一篇博客文(wen)章(zhang)中說(shuo)。
IPU 的(de)(de)吞吐量(liang)可(ke)能(neng)(neng)很快就(jiu)會受到微(wei)軟的(de)(de)挑戰,微(wei)軟即將推出(chu)的(de)(de)配(pei)備 Nvidia H100 GPU 的(de)(de) AI 超級(ji)計算(suan)(suan)機將擁有該芯片制造商的(de)(de) Quantum-2 400Gbps 網(wang)絡功能(neng)(neng)。微(wei)軟尚(shang)未透(tou)露其下(xia)一代 AI 超級(ji)計算(suan)(suan)機中 H100 GPU 的(de)(de)數量(liang)。
A3 超級(ji)計算(suan)機(ji)建立在源(yuan)自公司 Jupiter 數據中心網絡(luo)結(jie)構的主干上,該主干通過光學(xue)鏈路連接地理上不(bu)同的 GPU 集群。
“對(dui)于(yu)幾乎每一種工(gong)作(zuo)負載結(jie)(jie)構,我們都實現(xian)了與更昂貴的現(xian)成(cheng)非阻塞網絡結(jie)(jie)構無法區分的工(gong)作(zuo)負載帶寬(kuan),”谷歌表示。
谷歌(ge)還分(fen)享說,A3 超級計(ji)算機將有八個 H100 GPU,它們使用 Nvidia 專有的交換和(he)芯片互連技術互連。GPU 將通過 NVSwitch 和(he) NVLink 互連連接,其通信(xin)速(su)度約為(wei) 3.6TBps。Azure 在其 AI 超級計(ji)算機上提供了(le)相同的速(su)度,并且兩家公司都(dou)部署(shu)了(le) Nvidia 的電路板設(she)計(ji)。
“每臺服(fu)務(wu)器(qi)(qi)都使用服(fu)務(wu)器(qi)(qi)內(nei)部的(de) NVLink 和(he) NVSwitch 將 8 個 GPU 互(hu)連在一起。為了讓 GPU 服(fu)務(wu)器(qi)(qi)相互(hu)通信,我(wo)們在 Jupiter DC 網絡結(jie)構(gou)上使用了多個 IPU,”一位谷歌發言人說。
該設(she)置有點類(lei)似于(yu) Nvidia 的 DGX Superpod,它具有 127 個(ge)(ge)節點的設(she)置,每個(ge)(ge) DGX 節點配備(bei)八個(ge)(ge) H100 GPU。
谷歌博客:配備 NVIDIA H100 GPU 的 A3 超級計算機
實施最先進的(de)人工智能(neng) (AI) 和機器學(xue)習 (ML) 模型(xing)需(xu)(xu)要大量(liang)計算,既要訓練(lian)(lian)基(ji)礎模型(xing),又要在這些模型(xing)經(jing)過(guo)訓練(lian)(lian)后為它(ta)們(men)提供(gong)服務。考(kao)慮(lv)到(dao)這些工作負載的(de)需(xu)(xu)求(qiu),一種放之四海而皆準的(de)方法是不(bu)夠的(de)——您需(xu)(xu)要專為 AI 構建的(de)基(ji)礎設施。
我們(men)與(yu)我們(men)的(de)合(he)作伙伴一起(qi),為(wei)(wei) ML 用例提(ti)供(gong)(gong)廣(guang)泛的(de)計算選(xuan)項(xiang),例如大型語言模(mo)型 (LLM)、生成 AI 和擴散模(mo)型。最近,我們(men)發(fa)布(bu)了 G2 VMs,成為(wei)(wei)第(di)一個提(ti)供(gong)(gong)新的(de) NVIDIA L4 Tensor Core GPU 用于(yu)服(fu)務(wu)生成式 AI 工作負載的(de)云。今天,我們(men)通過推出(chu)下一代(dai) A3 GPU 超級計算機(ji)的(de)私人預覽版(ban)來擴展該(gai)產品組合(he)。Google Cloud 現在提(ti)供(gong)(gong)一整套 GPU 選(xuan)項(xiang),用于(yu)訓練和推理(li) ML 模(mo)型。
Google Compute Engine A3 超級計(ji)算機專為訓練和(he)服務要求最嚴苛的(de) AI 模型而(er)打造,這些模型為當今(jin)的(de)生成(cheng)式(shi) AI 和(he)大型語言模型創新(xin)提(ti)供動力。我們(men)的(de) A3 VM 結合了 NVIDIA H100 Tensor Core GPU 和(he) Google 領(ling)先的(de)網絡技術,可(ke)為各(ge)種規(gui)模的(de)客戶提(ti)供服務:
1. A3 是第一個使用(yong)我們(men)定(ding)(ding)制設計的(de) 200 Gbps IPU的(de) GPU 實(shi)例(li),GPU 到 GPU 的(de)數(shu)據傳輸繞過 CPU 主(zhu)機并流過與其他(ta) VM 網(wang)絡和數(shu)據流量(liang)不同的(de)接口。與我們(men)的(de) A2 VM 相比,這可實(shi)現高(gao)達(da) 10 倍的(de)網(wang)絡帶寬,同時具有(you)低尾(wei)延(yan)遲和高(gao)帶寬穩定(ding)(ding)性。
2. 我們行業獨一無二的智能 Jupiter 數據中心(xin)網絡(luo)(luo)結構可(ke)擴展到(dao)數萬個高度互連的 GPU,并允許(xu)全帶寬可(ke)重新(xin)配置的光學鏈路(lu),可(ke)以按需調整拓撲(pu)。對于(yu)幾乎每(mei)種(zhong)工(gong)作負載結構,我們實現的工(gong)作負載帶寬與(yu)更(geng)昂貴的現成(cheng)非阻塞網絡(luo)(luo)結構沒有(you)區別,從而降(jiang)低了 TCO。
3. A3 超級計(ji)算機的規模提供高達(da) 26 exaFlops 的 AI 性能(neng),這大(da)大(da)減少了訓(xun)練大(da)型 ML 模型的時間和成本(ben)。
隨著公司從訓練過渡到提供 ML 模型,A3 VM 也非常適合推(tui)理工作(zuo)負載,與(yu)我們(men)由(you) NVIDIA A100 Tensor Core GPU* 提供支持的 A2 VM 相比,推(tui)理性能提升高達 30 倍。
A3 GPU VM 專(zhuan)門為當今的 ML 工作負載(zai)提供最高性能的訓練,配備現代 CPU、改(gai)進的主機(ji)內存、下一代 NVIDIA GPU 和主要(yao)網絡升級。以下是 A3 的主要(yao)特點(dian):
1. 8 個(ge) H100 GPU,利用 NVIDIA 的(de)(de) Hopper 架構,提供 3 倍的(de)(de)計算吞吐量
2. 通過 NVIDIA NVSwitch 和 NVLink 4.0,A3 的 8 個 GPU 之間的對分(fen)帶寬為 3.6 TB/s
3. 下(xia)一代第 4 代英特爾至(zhi)強可(ke)擴展處理器
4. 2TB 主機內存,通過 4800 MHz DDR5 DIMM
5. 由我們支持硬件的 IPU、專門(men)的服務器間 GPU 通(tong)信堆棧和 NCCL 優化提供(gong)支持的網(wang)絡帶寬增加 10 倍
A3 GPU VM 是客戶開發(fa)最先(xian)進的(de) ML 模(mo)型(xing)(xing)的(de)一(yi)個進步。通過顯(xian)著加快 ML 模(mo)型(xing)(xing)的(de)訓練和(he)推(tui)理,A3 VM 使企(qi)業能夠快速訓練更復雜(za)的(de) ML 模(mo)型(xing)(xing),為我(wo)們的(de)客戶創(chuang)造機會來構建大(da)型(xing)(xing)語言(yan)模(mo)型(xing)(xing) (LLM)、生成 AI 和(he)擴散模(mo)型(xing)(xing),以幫助優化(hua)運營并在競爭中保持領先(xian)地位。
此次發(fa)布基于我們(men)與 NVIDIA 的合作伙伴關系,旨在為我們(men)的客戶提(ti)供用于訓練和推理(li) ML 模(mo)型(xing)的全方位 GPU 選項。
NVIDIA 超大規模和高性能計算副總裁 Ian Buck 表示:“由(you)下一代(dai) NVIDIA H100 GPU 提(ti)供支(zhi)持的 Google Cloud 的 A3 VM 將加速生成 AI 應(ying)用程序的訓(xun)練(lian)和服(fu)務。” “在(zai)谷歌云(yun)最近推出 G2 實例之后,我們很自豪能夠繼續(xu)與谷歌云(yun)合作,通過專門構(gou)建的人工智能基礎(chu)設施(shi)幫助全(quan)球企業轉型。”
對于(yu)希望在無需維護(hu)的(de)情況下開發復雜(za) ML 模型(xing)的(de)客(ke)戶,您(nin)可以(yi)在 Vertex AI 上(shang)部署 A3 VM,Vertex AI 是一個端到端平(ping)臺,用于(yu)在專為低延遲服務和高性能而構建的(de)完全托管(guan)基礎(chu)(chu)設施(shi)上(shang)構建 ML 模型(xing)訓練。今天(tian),在Google I/O 2023上(shang),我們很高興通過向更(geng)多客(ke)戶開放(fang) Vertex AI 中的(de)生成 AI 支持(chi)以(yi)及引(yin)入新功(gong)能和基礎(chu)(chu)模型(xing)來構建這(zhe)些(xie)產品。
對于(yu)希望構建自(zi)己的(de)(de)自(zi)定義(yi)軟件堆棧(zhan)的(de)(de)客戶,客戶還(huan)可以在 Google Kubernetes Engine (GKE) 和(he) Compute Engine 上部署 A3 VM,以便(bian)您(nin)可以訓練和(he)提供(gong)最新的(de)(de)基(ji)礎(chu)模型,同時享受自(zi)動(dong)縮放、工作(zuo)負載編排和(he)自(zi)動(dong)升級。
“Google Cloud 的(de)(de) A3 VM 實(shi)例為(wei)我(wo)們(men)(men)提供了計(ji)算(suan)能(neng)力和規模,可滿足我(wo)們(men)(men)最(zui)苛刻的(de)(de)訓(xun)練和推理(li)工作負(fu)載。我(wo)們(men)(men)期待利用他們(men)(men)在 AI 領域的(de)(de)專業知識(shi)和在大(da)規模基礎設施方面的(de)(de)領導地位,為(wei)我(wo)們(men)(men)的(de)(de) ML 工作負(fu)載提供強大(da)的(de)(de)平(ping)臺(tai)。” -Noam Shazeer,Character.AI 首席執行官
在(zai)谷歌(ge)云,人工(gong)智能是我(wo)們(men)的 DNA。我(wo)們(men)應(ying)用了數(shu)十年(nian)為 AI 運(yun)行(xing)全球規模計算的經驗。我(wo)們(men)設(she)計了該基礎(chu)架(jia)構以(yi)擴展(zhan)和(he)優(you)化以(yi)運(yun)行(xing)各種 AI 工(gong)作負載——現在(zai),我(wo)們(men)將其(qi)提供給您。