国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量
作者 | 雷峰網2022-03-23

英(ying)偉(wei)達(da)(Nvidia)一年(nian)一度(du)的(de)GTC大(da)會如期而至,兩年(nian)一更新的(de)GPU架構Hopper也正(zheng)式亮相。

今年,NVIDIA創始人兼CEO黃仁勛在英偉達新總部大樓發布了一系列新品,從新架構GPU H100,到Grace CPU 超級芯片,再到汽車(che)、邊緣計算的(de)硬件新(xin)品,以及全面的(de)軟件更新(xin)。

英偉達的全新發布再次向外界宣告,英偉達不止是一家芯片公司,而是全棧計算公司。他們正在加強其在AI、汽車等領域的領導力,同時也在努力占領下一波AI浪潮以及元宇宙的先機。

當然,作(zuo)為(wei)一家發明GPU的(de)公(gong)司,英(ying)偉(wei)達的(de)全新GPU架構依舊是GTC 2022最值(zhi)得關(guan)注的(de)新品。

Nvidia Hopper新架(jia)構(gou)以美(mei)國計算機(ji)領域的(de)先驅科學家 Grace Hopper 的(de)名字(zi)命名,將取代兩(liang)年前推出的(de) NVIDIA Ampere 架(jia)構(gou)。相比上(shang)一代產品,基于Hopper架(jia)構(gou)的(de)H100 GPU實現了數(shu)量級的(de)性(xing)能飛躍。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

黃仁勛表示,20個 H100 GPU 便可承托相當于全球互聯網的流量,使其能夠幫助客戶推出先進的推薦系統以及實時運行數據推理的大型語言模型。

基(ji)于H100 GPU構建的(de)各(ge)種系統(tong),以及與(yu)Grace CPU 超級芯片組合的(de)各(ge)種系統(tong),配合英(ying)偉達多年構建強(qiang)大的(de)軟件生(sheng)態,將(jiang)成為了英(ying)偉達掀起(qi)新一代(dai)計算(suan)浪潮的(de)能量。

H100 GPU將(jiang)在今(jin)年第(di)三季度出貨,明年上半年開始(shi)供貨Grace CPU超級芯片。

最新Hopper架構H100 GPU的6大突破

黃仁勛2020年(nian)從(cong)自家廚房端出的(de)當時全球最大(da)7nm芯片Ampere架構GPU  A100,兩年(nian)后有了(le)繼任者(zhe)——Hopper架構H100。英偉(wei)(wei)達H100 GPU采用專為英偉(wei)(wei)達加速計(ji)算(suan)需求設計(ji)優化的(de)TSMC 4N 工(gong)藝,集成800億個晶體管,顯著提升了(le)AI、HPC、顯存(cun)帶寬(kuan)、互連和(he)通信的(de)速度,并能夠(gou)實現近 5TB/s 的(de)外(wai)部互聯帶寬(kuan)。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

H100同時也集多個首個于一身,包括首款支持 PCIe 5.0 的 GPU,首款采用 HBM3 的 GPU,可實現 3TB/s 的顯存帶寬,全球首款具有機密計算功能的GPU。

H100的第二項突破就是其加速器的 Transformer 引擎能在不影響精度的情況下,將Transformer網絡的速度提升至上一代的六倍。Transformer 讓自監督學(xue)習成為可能,如今已成為自然語言處理的(de)標準模(mo)型方案,也是深度(du)學(xue)習模(mo)型領域最(zui)重(zhong)要的(de)模(mo)型之(zhi)一(yi)。

雷(lei)峰網了(le)解到,H100 將支持聊天機器人使用功能(neng)超強(qiang)大的(de)monolithic Transformer 語言模(mo)型 Megatron 530B,吞吐量比上一代(dai)產(chan)品高出 30 倍,同(tong)時(shi)滿足實時(shi)對話式(shi) AI 所需的(de)次秒級延遲(chi)。

H100的第三項突破是進一步升級的第二代多實例GPU。上(shang)一代(dai)產品(pin)中,英偉(wei)達(da)的多實例(li)GPU技術可將每(mei)個A100 GPU分割為(wei)七個獨(du)立實例(li)來執(zhi)行推(tui)理(li)任務。新一代(dai)的Hopper H100與上(shang)一代(dai)產品(pin)相比,在(zai)云環(huan)境中通過為(wei)每(mei)個 GPU 實例(li)提供安全的多租戶配置,將 MIG 的部分能力擴展(zhan)了 7 倍(bei)。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

MIG 技術支持將(jiang)單個 GPU 分(fen)為七(qi)個更(geng)小且完全獨(du)立的(de)實例,以處理不同類型的(de)任務(wu)。

H100的第四項突破就是其是全球首款具有機密計算功能的加速器,隱私計算此前只能在CPU上實現,H100是第一個實現隱私計算的GPU,可保護(hu) AI 模型和正(zheng)在(zai)處理(li)的客戶數據。機密(mi)計(ji)算的優勢在(zai)于其不(bu)僅(jin)能確保數據的機密(mi)性,同時(shi)還(huan)不(bu)影響性能,可以(yi)(yi)應用于醫(yi)療健(jian)康和金融服務等隱(yin)私敏感型行(xing)業的聯邦學習,也可以(yi)(yi)應用于共享云(yun)基礎設施。

H100的第五項突破是在互聯性能的提升,支持第4代 NVIDIA NVLink。如今的(de)AI模(mo)型越來越大(da),帶寬(kuan)成為了(le)限制超大(da)規(gui)模(mo)AI模(mo)型迭代的(de)阻(zu)礙。英偉達將(jiang)NVLink 結合全新的(de)外接(jie) NVLink Switch,可將(jiang) NVLink 擴(kuo)展為服務器間的(de)互聯網(wang)絡,最多可以連接(jie)多達 256 個 H100 GPU,相較于上一代采用 NVIDIA HDR Quantum InfiniBand網(wang)絡,帶寬(kuan)高出9倍。

這項突破可以帶來的(de)(de)直接提升是,利用 H100 GPU,研究人員和開發(fa)者能夠(gou)訓練(lian)龐大的(de)(de)模型,比如包含3950億(yi)個參數(shu)的(de)(de)混合專家(jia)模型,訓練(lian)速度加速高達9倍(bei),訓練(lian)時間從(cong)幾周縮短到幾天(tian)。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

H100的第六個突破是對新的 DPX 指令可加速動態規劃,適用于包括路徑優化和基因組學在內的一系列算法,英偉達的測試數據顯示,與 CPU 和上一代 GPU 相比,其速度提升分別可達 40 倍和 7 倍。

另(ling)外,Floyd-Warshall 算(suan)法(fa)與 Smith-Waterman 算(suan)法(fa)也在H100 DPX指令(ling)的加速(su)之列(lie)(lie),前者(zhe)(zhe)可以在動態倉(cang)庫環境中為自主(zhu)機器人車隊尋找最優線路(lu),后者(zhe)(zhe)可用于DNA和蛋白(bai)質分類與折(zhe)疊(die)的序列(lie)(lie)比(bi)對。

硬件(jian)(jian)突破之外,英偉達(da)也發布(bu)了一(yi)系(xi)列相應(ying)的軟(ruan)件(jian)(jian)更(geng)新(xin),包括用于語(yu)音(yin)、推薦系(xi)統和超(chao)大規(gui)模推理(li)等(deng)(deng)工作負載(zai)的 NVIDIA AI 軟(ruan)件(jian)(jian)套(tao)件(jian)(jian),還有60多個針對CUDA-X的一(yi)系(xi)列庫、工具和技術的更(geng)新(xin),能夠加速(su)量子(zi)計算和 6G 研究、網絡安全(quan)、基因組學和藥物研發等(deng)(deng)領域(yu)的研究進展。

顯而易見,H100 GPU的六項突破,帶來的是更高的計算性能,但這些性能的提升和優化,全都指向AI計算,這也是英偉達進一步擴大在AI計算領域領導力的體現。

NVIDIA Eos,比全球最快超級計算機AI性能快 4 倍

有了性(xing)能升級的GPU,英偉(wei)達的第四代DGX系(xi)(xi)統DGX H100也(ye)隨之亮相,包括DGX POD和(he)DGX SupePOD兩(liang)種(zhong)架構,能夠滿足大(da)(da)型語言模型、推薦(jian)系(xi)(xi)統、醫療健康研(yan)究和(he)氣候(hou)科學的大(da)(da)規模計算需求(qiu)。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

每個 DGX H100 系統(tong)(tong)配(pei)備八(ba)塊 NVIDIA H100 GPU,并由 NVIDIA NVLink連接,能(neng)夠在新的 FP8 精(jing)度下達到 32 Petaflop 的 AI 性能(neng),比(bi)上(shang)一代系統(tong)(tong)性能(neng)高6倍。每個DGX H100 系統(tong)(tong)還包含兩個NVIDIA BlueField-3 DPU,用于卸(xie)載、加速和隔離(li)高級網(wang)絡、存儲(chu)及安全服務。

新的(de)(de)(de)(de) DGX SuperPOD 架構采用全新的(de)(de)(de)(de) NVIDIA NVLink Switch 系統(tong)(tong),通過(guo)這一(yi)(yi)系統(tong)(tong)最多可連接32個節點,總計(ji)256塊H100 GPU。第四代NVLink與NVSwitch相結合,能(neng)夠在每個DGX H100系統(tong)(tong)中的(de)(de)(de)(de)各個GPU之間實現 900 GB/s 的(de)(de)(de)(de)連接速度,是上一(yi)(yi)代系統(tong)(tong)的(de)(de)(de)(de) 1.5 倍。

新一代DGX SuperPOD性能(neng)(neng)同(tong)樣顯著提(ti)升,能(neng)(neng)夠提(ti)供1 Exaflops的(de)FP8 AI性能(neng)(neng),比上(shang)一代產(chan)品性能(neng)(neng)高6倍,能(neng)(neng)夠運行具有數(shu)(shu)(shu)萬億參(can)數(shu)(shu)(shu)的(de)龐大(da)LLM工作負載,有助(zhu)于推動氣候科學、數(shu)(shu)(shu)字(zi)生物學和 AI 未來的(de)發(fa)展。

基于DGX H100,英偉達將在今年晚些時候開始運行全球運行速度最快的 AI 超級計算機 —— NVIDIA Eos,“Eos"超級計算機共配備 576 臺 DGX H100 系統,共計 4608 塊 DGX H100 GPU,預計將提供 18.4 Exaflops 的 AI 計算性能,比日本的Fugaku(富岳)超級計算機快 4 倍,后者是目前運行速度最快的系統。

在傳統的科學計(ji)算(suan)方(fang)面,Eos 超級計(ji)算(suan)機預計(ji)將提供 275 Petaflop 的性能。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

黃仁勛說:“對(dui)于 NVIDIA 及OEM 和云計(ji)算合作伙伴,Eos 將成為先進(jin) AI 基礎(chu)設施(shi)的藍圖。”

576個DGX H100系(xi)統(tong)能(neng)夠構(gou)建一(yi)臺全球(qiu)運(yun)行(xing)速度最快的(de)AI系(xi)統(tong),少量的(de)DGX SuperPOD 單(dan)元組(zu)合,也(ye)可以為(wei)汽車(che)、醫(yi)療健(jian)康、制造、通信、零售等行(xing)業(ye)提供開發(fa)大型模型所需(xu)的(de) AI 性能(neng)。

黃(huang)仁勛提(ti)到(dao),為支持正在進(jin)行(xing)AI開發(fa)的DGX客戶,NVIDIA DGX-Ready軟件合作伙伴(包括Domino Data Lab、Run:ai和Weights &; Biases等(deng))提(ti)供的MLOps解(jie)決方案將加入"NVIDIA AI 加速"計(ji)劃。

為(wei)了(le)簡化(hua)AI部(bu)署,英偉達(da)還推(tui)出了(le)DGX-Ready 托管(guan)服務計劃,能夠(gou)為(wei)希望與服務提供(gong)商(shang)開(kai)展合(he)作來監督(du)其基礎設(she)施的(de)客戶提供(gong)支持。通(tong)過新的(de) DGX-Ready 生命周期管(guan)理計劃,客戶還可(ke)以(yi)借助(zhu)新的(de) NVIDIA DGX 平(ping)臺升級(ji)其現有 DGX 系統。

Grace CPU 超級芯片,最強大的CPU

去年的GTC 21,英偉達首款(kuan)數據中心(xin)CPU Grace亮相,英偉達的芯片(pian)路線也(ye)升級(ji)為GPU+DPU+CPU。

今年的GTC 22,英偉達由推出(chu)了首(shou)款面向 AI 基(ji)礎(chu)設(she)施和高(gao)性能計(ji)算的基(ji)于Arm Neoverse的數(shu)據中心專(zhuan)屬CPU Grace CPU 超(chao)級(ji)芯(xin)片。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

Grace CPU 超級芯片是專(zhuan)為AI、HPC、云(yun)計(ji)算(suan)和(he)超大規模應用(yong)(yong)而設計(ji),能(neng)夠在(zai)單個(ge)插座(zuo)(socket)中(zhong)容(rong)納 144 個(ge) Arm 核(he)心,在(zai) SPECrate 2017_int_base 基準測試中(zhong)的模擬性能(neng)達到(dao)業界(jie)領先的 740 分。根據(ju) NVIDIA 實驗(yan)室使(shi)用(yong)(yong)同類編譯器估算(suan),這一(yi)結果(guo)較當前(qian)DGX A100搭載(zai)的雙CPU(AMD EPYC 7742)相比高(gao) 1.5 倍以上。

黃仁勛稱贊:“Garce的一切都令人驚嘆,我們預計Grace超級芯片屆時將是最強大的CPU,是尚未發布的第5代頂級CPU的2到3倍。”

據介紹,依托帶(dai)有糾(jiu)錯碼的(de)LPDDR5x 內(nei)存組成(cheng)的(de)創新(xin)的(de)內(nei)存子系(xi)統(tong),Grace CPU 超級芯片(pian)可(ke)實現(xian)速(su)度和功耗(hao)(hao)的(de)最佳(jia)平衡(heng)。LPDDR5x 內(nei)存子系(xi)統(tong)提供(gong)兩倍(bei)于傳(chuan)統(tong)DDR5設計的(de)帶(dai)寬,可(ke)達到1 TB/s ,同時功耗(hao)(hao)也大(da)幅(fu)降(jiang)低 ,CPU加內(nei)存整體功耗(hao)(hao)僅(jin)500瓦。

值(zhi)得(de)注意的(de)(de)是,Grace CPU超級(ji)芯片(pian)(pian)(pian)由兩個CPU芯片(pian)(pian)(pian)組成,通過NVLink-C2C互(hu)連(lian)在一起。NVLink-C2C 是一種新型的(de)(de)高速、低延遲、芯片(pian)(pian)(pian)到芯片(pian)(pian)(pian)的(de)(de)互(hu)連(lian)技術(shu),將(jiang)支持定(ding)制裸(luo)片(pian)(pian)(pian)與(yu)NVIDIA GPU、CPU、DPU、NIC 和(he) SOC 之間實現一致(zhi)的(de)(de)互(hu)連(lian)。

借助先進的(de)(de)封裝(zhuang)技術,NVIDIA NVLink-C2C 互(hu)連鏈路的(de)(de)能效(xiao)最多可(ke)比(bi)NVIDIA芯片上的(de)(de)PCIe Gen 5高出(chu)25倍,面(mian)積效(xiao)率(lv)高出(chu)90倍,可(ke)實(shi)現(xian)每秒900GB乃至更高的(de)(de)一致互(hu)聯帶寬。

得益于(yu)Grace CPU 超級(ji)芯片(pian)可(ke)以(yi)運(yun)行所有(you)的英(ying)偉達計算(suan)軟(ruan)件(jian)棧(zhan)(zhan),包括(kuo)NVIDIA RTX、NVIDIA HPC、NVIDIA AI 和 Omniverse。Grace CPU超級(ji)芯片(pian)結(jie)合NVIDIA ConnectX-7 網卡(ka),能(neng)夠(gou)靈活地(di)配(pei)置到服務(wu)器中(zhong),可(ke)以(yi)作為獨立(li)的純CPU系統,或作為GPU加速(su)服務(wu)器,搭載一塊(kuai)(kuai)、兩塊(kuai)(kuai)、四塊(kuai)(kuai)或八塊(kuai)(kuai)基于(yu)Hopper的GPU,客(ke)戶通過維(wei)護一套軟(ruan)件(jian)棧(zhan)(zhan)就能(neng)針對自(zi)身特定的工作負載做好性能(neng)優(you)化。

巨大飛躍!給英偉達1.6萬億個晶體管,它就能承托全球互聯網流量

今(jin)日發(fa)布的(de)NVIDIA Grace超級芯(xin)(xin)片(pian)系列以及(ji)去(qu)年發(fa)布的(de)Grace Hopper超級芯(xin)(xin)片(pian)均(jun)采用了NVIDIA NVLink-C2C 技術來連接(jie)處理器芯(xin)(xin)片(pian)。

英偉達表示,除NVLink-C2C外,NVIDIA還將支持本月早些時候發布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互連傳輸通道)標準。與NVIDIA芯片的定制芯片集成既可以使用 UCIe 標準,也可以使用 NVLink-C2C。


熱門文章
如果要選出近三年工業互聯網的關鍵詞,「分拆解綁」算一個。分拆工業互聯網業務并推動其獨立上市,成為大型工業企業的新潮流。近年,卡奧斯,美云智數均有獨立上市計劃,目前徐工漢云處于上市輔導期。有企業此前分拆
2022-03-23
X