英偉達(Nvidia)一年(nian)一度的GTC大會如(ru)期而至,兩年(nian)一更(geng)新的GPU架構(gou)Hopper也正式(shi)亮相。
今年,NVIDIA創始人兼CEO黃仁勛在英偉達新總部大樓發布了一系列新品,從新架構GPU H100,到Grace CPU 超級芯片,再到汽車、邊緣(yuan)計算的硬(ying)件新品,以及(ji)全面(mian)的軟件更新。
英偉達的全新發布再次向外界宣告,英偉達不止是一家芯片公司,而是全棧計算公司。他們正在加強其在AI、汽車等領域的領導力,同時也在努力占領下一波AI浪潮以及元宇宙的先機。
當(dang)然,作為一家(jia)發明GPU的(de)公司,英偉達的(de)全新(xin)GPU架構依舊是GTC 2022最(zui)值(zhi)得關注(zhu)的(de)新(xin)品。
Nvidia Hopper新架構以美(mei)國(guo)計算機領域的(de)先驅(qu)科學家(jia) Grace Hopper 的(de)名(ming)(ming)字命名(ming)(ming),將取(qu)代(dai)兩年(nian)前推(tui)出的(de) NVIDIA Ampere 架構。相比上一(yi)代(dai)產品,基于Hopper架構的(de)H100 GPU實(shi)現了數(shu)量級的(de)性能飛躍。

黃仁勛表示,20個 H100 GPU 便可承托相當于全球互聯網的流量,使其能夠幫助客戶推出先進的推薦系統以及實時運行數據推理的大型語言模型。
基于H100 GPU構建(jian)的各種系統,以(yi)及(ji)與Grace CPU 超級芯片組合(he)的各種系統,配(pei)合(he)英偉達(da)多年(nian)構建(jian)強大的軟件生態,將(jiang)成為了(le)英偉達(da)掀起新一代(dai)計算浪潮(chao)的能量。
H100 GPU將在今年(nian)第三(san)季(ji)度出貨(huo),明(ming)年(nian)上半年(nian)開始供貨(huo)Grace CPU超級芯片。
最新Hopper架構H100 GPU的6大突破
黃仁勛2020年(nian)從自家廚房端出的當時全球最大7nm芯片Ampere架(jia)構GPU A100,兩年(nian)后有(you)了繼(ji)任者——Hopper架(jia)構H100。英(ying)偉達H100 GPU采(cai)用(yong)專為英(ying)偉達加速計算需求設(she)計優化的TSMC 4N 工(gong)藝,集(ji)成800億個晶體管(guan),顯著提(ti)升了AI、HPC、顯存帶寬、互(hu)連和通信的速度,并能夠實現(xian)近 5TB/s 的外部互(hu)聯帶寬。

H100同時也集多個首個于一身,包括首款支持 PCIe 5.0 的 GPU,首款采用 HBM3 的 GPU,可實現 3TB/s 的顯存帶寬,全球首款具有機密計算功能的GPU。
H100的第二項突破就是其加速器的 Transformer 引擎能在不影響精度的情況下,將Transformer網絡的速度提升至上一代的六倍。Transformer 讓自監督學習成為可能,如今已成為自然語言處理的(de)(de)標準模型(xing)(xing)方(fang)案(an),也是深度學習模型(xing)(xing)領域(yu)最重要的(de)(de)模型(xing)(xing)之一。
雷峰網(wang)了解到(dao),H100 將支(zhi)持聊天機器人使(shi)用功能(neng)超強大的monolithic Transformer 語言模型 Megatron 530B,吞吐量比上(shang)一代(dai)產品高出 30 倍(bei),同時滿足實(shi)時對話(hua)式 AI 所需的次秒(miao)級延(yan)遲(chi)。
H100的第三項突破是進一步升級的第二代多實例GPU。上一(yi)代產品中(zhong),英偉達(da)的多實例GPU技術可(ke)將(jiang)每(mei)(mei)個A100 GPU分割為七(qi)個獨立實例來執行(xing)推理任務(wu)。新一(yi)代的Hopper H100與上一(yi)代產品相比,在云環境中(zhong)通過為每(mei)(mei)個 GPU 實例提供安全的多租戶配置,將(jiang) MIG 的部分能(neng)力擴展了 7 倍。

MIG 技術支持將單個(ge) GPU 分為七個(ge)更小且完全獨立的(de)實例,以(yi)處理不同類(lei)型的(de)任務。
H100的第四項突破就是其是全球首款具有機密計算功能的加速器,隱私計算此前只能在CPU上實現,H100是第一個實現隱私計算的GPU,可保(bao)(bao)護 AI 模型(xing)和正在處理的(de)(de)客(ke)戶數據。機密計算的(de)(de)優勢在于其不(bu)僅能確保(bao)(bao)數據的(de)(de)機密性,同時還不(bu)影(ying)響性能,可以(yi)(yi)應(ying)用(yong)于醫療健康(kang)和金融服務等(deng)隱私(si)敏感型(xing)行業的(de)(de)聯(lian)邦(bang)學習,也可以(yi)(yi)應(ying)用(yong)于共享(xiang)云基(ji)礎設(she)施。
H100的第五項突破是在互聯性能的提升,支持第4代 NVIDIA NVLink。如今的AI模(mo)型越(yue)來(lai)越(yue)大,帶寬(kuan)成(cheng)為(wei)了限制超大規模(mo)AI模(mo)型迭代(dai)的阻礙。英偉達將NVLink 結(jie)合全新的外(wai)接(jie) NVLink Switch,可(ke)將 NVLink 擴(kuo)展為(wei)服務器(qi)間(jian)的互聯網絡,最(zui)多可(ke)以連接(jie)多達 256 個 H100 GPU,相較于(yu)上一代(dai)采用(yong) NVIDIA HDR Quantum InfiniBand網絡,帶寬(kuan)高出9倍。
這項(xiang)突破可以帶(dai)來的(de)直接提升是,利用 H100 GPU,研究人(ren)員和(he)開發者能夠(gou)訓(xun)練(lian)龐大的(de)模型(xing),比如(ru)包含3950億個參數的(de)混合專(zhuan)家模型(xing),訓(xun)練(lian)速度加速高達9倍,訓(xun)練(lian)時間從幾(ji)周縮短到幾(ji)天(tian)。

H100的第六個突破是對新的 DPX 指令可加速動態規劃,適用于包括路徑優化和基因組學在內的一系列算法,英偉達的測試數據顯示,與 CPU 和上一代 GPU 相比,其速度提升分別可達 40 倍和 7 倍。
另外(wai),Floyd-Warshall 算法與(yu) Smith-Waterman 算法也在(zai)H100 DPX指令的加速之列(lie)(lie),前(qian)者(zhe)可以(yi)在(zai)動態(tai)倉庫環境中為自主(zhu)機(ji)器人車隊尋找最(zui)優線路,后者(zhe)可用于DNA和蛋白質分類與(yu)折疊的序列(lie)(lie)比對。
硬件突破之外,英(ying)偉(wei)達也發布了一系(xi)列相應的(de)(de)軟件更新,包括用于語音(yin)、推薦系(xi)統和超大規模推理等(deng)工作負載的(de)(de) NVIDIA AI 軟件套件,還有60多個針對CUDA-X的(de)(de)一系(xi)列庫(ku)、工具和技(ji)術的(de)(de)更新,能夠加速量子計算(suan)和 6G 研究、網(wang)絡安全、基因組(zu)學(xue)和藥物研發等(deng)領域(yu)的(de)(de)研究進展。
顯而易見,H100 GPU的六項突破,帶來的是更高的計算性能,但這些性能的提升和優化,全都指向AI計算,這也是英偉達進一步擴大在AI計算領域領導力的體現。
NVIDIA Eos,比全球最快超級計算機AI性能快 4 倍
有了(le)性能升級(ji)的(de)(de)GPU,英(ying)偉達的(de)(de)第四代(dai)DGX系統(tong)(tong)DGX H100也隨之亮相(xiang),包括DGX POD和DGX SupePOD兩種架構,能夠滿足大(da)型語言模型、推薦系統(tong)(tong)、醫療健康研究和氣候科學的(de)(de)大(da)規(gui)模計算需求。


每個 DGX H100 系統(tong)(tong)配備八塊 NVIDIA H100 GPU,并由(you) NVIDIA NVLink連接,能(neng)(neng)夠在新的(de) FP8 精度下達(da)到 32 Petaflop 的(de) AI 性(xing)(xing)能(neng)(neng),比(bi)上一代系統(tong)(tong)性(xing)(xing)能(neng)(neng)高(gao)6倍。每個DGX H100 系統(tong)(tong)還包含(han)兩個NVIDIA BlueField-3 DPU,用于卸載、加(jia)速和(he)隔離高(gao)級(ji)網絡、存儲及安全(quan)服務。
新(xin)(xin)的(de)(de)(de) DGX SuperPOD 架構(gou)采(cai)用全新(xin)(xin)的(de)(de)(de) NVIDIA NVLink Switch 系(xi)統(tong),通(tong)過這一(yi)系(xi)統(tong)最多可連(lian)接32個(ge)節點,總計256塊(kuai)H100 GPU。第四代NVLink與NVSwitch相(xiang)結(jie)合,能(neng)夠在每個(ge)DGX H100系(xi)統(tong)中的(de)(de)(de)各個(ge)GPU之間實現(xian) 900 GB/s 的(de)(de)(de)連(lian)接速度,是(shi)上(shang)一(yi)代系(xi)統(tong)的(de)(de)(de) 1.5 倍(bei)。
新一(yi)(yi)代(dai)DGX SuperPOD性能(neng)同樣(yang)顯(xian)著提升,能(neng)夠提供1 Exaflops的(de)FP8 AI性能(neng),比上一(yi)(yi)代(dai)產(chan)品性能(neng)高6倍,能(neng)夠運行具(ju)有(you)(you)數(shu)萬億參數(shu)的(de)龐大LLM工作(zuo)負載,有(you)(you)助于推動氣候(hou)科學、數(shu)字生物(wu)學和 AI 未來(lai)的(de)發展。
基于DGX H100,英偉達將在今年晚些時候開始運行全球運行速度最快的 AI 超級計算機 —— NVIDIA Eos,“Eos"超級計算機共配備 576 臺 DGX H100 系統,共計 4608 塊 DGX H100 GPU,預計將提供 18.4 Exaflops 的 AI 計算性能,比日本的Fugaku(富岳)超級計算機快 4 倍,后者是目前運行速度最快的系統。
在傳統的科學計(ji)算(suan)方面,Eos 超級計(ji)算(suan)機預計(ji)將(jiang)提供 275 Petaflop 的性能(neng)。

黃仁勛說:“對(dui)于 NVIDIA 及OEM 和(he)云計(ji)算合作伙(huo)伴,Eos 將成為先進 AI 基礎設施的藍圖。”
576個DGX H100系(xi)統能夠構(gou)建一臺全球運(yun)行速(su)度最(zui)快的AI系(xi)統,少量的DGX SuperPOD 單(dan)元組合,也(ye)可以為(wei)汽車、醫療健康、制(zhi)造、通(tong)信、零售等行業(ye)提供(gong)開發大型(xing)模型(xing)所需的 AI 性能。
黃仁勛提(ti)到,為支持正在進行AI開發的(de)(de)DGX客戶,NVIDIA DGX-Ready軟件合作伙伴(包(bao)括(kuo)Domino Data Lab、Run:ai和Weights & Biases等)提(ti)供的(de)(de)MLOps解決方案將加入"NVIDIA AI 加速(su)"計劃。
為了簡化AI部署,英偉(wei)達還推出了DGX-Ready 托管服(fu)務計劃,能夠為希望與服(fu)務提(ti)供商開(kai)展合作來監督其(qi)基(ji)礎設施的客戶(hu)提(ti)供支(zhi)持(chi)。通過新的 DGX-Ready 生命周(zhou)期管理計劃,客戶(hu)還可以借助新的 NVIDIA DGX 平臺(tai)升(sheng)級其(qi)現有(you) DGX 系(xi)統。
Grace CPU 超級芯片,最強大的CPU
去年的GTC 21,英(ying)偉達首款數(shu)據(ju)中心CPU Grace亮相,英(ying)偉達的芯片路線(xian)也升級為GPU+DPU+CPU。
今年的GTC 22,英偉達(da)由推(tui)出了(le)首(shou)款面向 AI 基(ji)礎設施和高性(xing)能計算的基(ji)于Arm Neoverse的數據中心專屬(shu)CPU Grace CPU 超(chao)級芯片。

Grace CPU 超(chao)級(ji)芯片是(shi)專為AI、HPC、云計算和超(chao)大規模應用(yong)而設計,能夠在單個(ge)插座(socket)中容納(na) 144 個(ge) Arm 核心,在 SPECrate 2017_int_base 基準測試中的模擬性能達到業界領先的 740 分。根據 NVIDIA 實驗室(shi)使用(yong)同類編譯器估算,這一結果(guo)較當前DGX A100搭載的雙CPU(AMD EPYC 7742)相比高 1.5 倍以上。
黃仁勛稱贊:“Garce的一切都令人驚嘆,我們預計Grace超級芯片屆時將是最強大的CPU,是尚未發布的第5代頂級CPU的2到3倍。”
據介紹,依托帶有糾錯碼的LPDDR5x 內存組成的創(chuang)新的內存子系統(tong),Grace CPU 超級芯片可實現速度(du)和功(gong)耗的最(zui)佳平衡。LPDDR5x 內存子系統(tong)提供兩倍于傳統(tong)DDR5設計的帶寬,可達到1 TB/s ,同時(shi)功(gong)耗也大幅降低 ,CPU加內存整體功(gong)耗僅500瓦。
值得注意的(de)(de)是,Grace CPU超級芯(xin)片(pian)由兩個CPU芯(xin)片(pian)組(zu)成,通(tong)過NVLink-C2C互(hu)連(lian)(lian)在一起。NVLink-C2C 是一種新型的(de)(de)高(gao)速(su)、低延遲、芯(xin)片(pian)到芯(xin)片(pian)的(de)(de)互(hu)連(lian)(lian)技術,將支(zhi)持定制裸片(pian)與NVIDIA GPU、CPU、DPU、NIC 和 SOC 之間實現一致的(de)(de)互(hu)連(lian)(lian)。
借助先進的(de)封裝技術,NVIDIA NVLink-C2C 互(hu)連鏈路(lu)的(de)能效最多可比NVIDIA芯片上的(de)PCIe Gen 5高出25倍,面積效率高出90倍,可實現每秒900GB乃至更高的(de)一致互(hu)聯(lian)帶寬(kuan)。
得益于Grace CPU 超級(ji)(ji)芯片(pian)可以運行所(suo)有的英(ying)偉達計算(suan)軟(ruan)件棧,包括NVIDIA RTX、NVIDIA HPC、NVIDIA AI 和 Omniverse。Grace CPU超級(ji)(ji)芯片(pian)結合(he)NVIDIA ConnectX-7 網(wang)卡,能夠靈活(huo)地(di)配置(zhi)到服(fu)務(wu)器中,可以作為獨立的純CPU系統(tong),或作為GPU加速(su)服(fu)務(wu)器,搭載(zai)一塊(kuai)、兩塊(kuai)、四塊(kuai)或八(ba)塊(kuai)基于Hopper的GPU,客戶通(tong)過維護一套軟(ruan)件棧就(jiu)能針對自身特定的工作負載(zai)做好性能優化。

今日發(fa)布(bu)的NVIDIA Grace超級(ji)芯(xin)片(pian)系列以及去年(nian)發(fa)布(bu)的Grace Hopper超級(ji)芯(xin)片(pian)均采(cai)用了NVIDIA NVLink-C2C 技術來(lai)連(lian)接處理器芯(xin)片(pian)。
英偉達表示,除NVLink-C2C外,NVIDIA還將支持本月早些時候發布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互連傳輸通道)標準。與NVIDIA芯片的定制芯片集成既可以使用 UCIe 標準,也可以使用 NVLink-C2C。

