英特尔推出7nm中国版Gaudi2！训练大模型性价比超A100

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

英特爾推出7nm中國版Gaudi2！訓練大模型性價比超A100

作者 | 芯東(dong)西2023-07-18

英特爾面向中國市場發布可便捷擴展運行大語言模型的云端AI訓練芯片Gaudi2新品，并公布面向中國市場的英特爾AI戰略(lve)。

在中國(guo)市(shi)場推出的(de)(de)Gaudi2 AI加速器，將通過其合(he)作伙伴(ban)浪(lang)潮(chao)提供給中國(guo)客戶(hu)。浪(lang)潮(chao)信息高(gao)級副總裁、AI和HPC總經理劉軍現場發(fa)布搭載Gaudi2的(de)(de)新一代AI服務(wu)器NF5698G7。

會后，英特爾執行副總裁、數據中心與人工智能事業部總(zong)經(jing)理Sandra L. Rivera，英(ying)特(te)爾(er)旗下(xia)Habana Labs的首席運營官Eitan Medina，英(ying)特(te)爾(er)數據中心與人工智能集團副總(zong)裁兼中國(guo)區總(zong)經(jing)理陳葆立接受了芯東西等媒(mei)體的采訪。

陳葆立說，英特爾過去6個月在(zai)軟件優化上做了很(hen)多(duo)工作，此次不僅是向中(zhong)國(guo)市場帶來芯片，而且帶來了可以大(da)規模部署、訓練和推理大(da)模型的整體方案(an)。英特爾對方案(an)的成熟度非常有信心。

據介紹，此次英特爾發布(bu)的(de)Gaudi2新(xin)品(pin)是中(zhong)國(guo)(guo)(guo)特供產品(pin)，在(zai)出口和支持中(zhong)國(guo)(guo)(guo)客(ke)戶(hu)方面(mian)沒有(you)任何問題。相比國(guo)(guo)(guo)際版Gaudi2產品(pin)，面(mian)向(xiang)中(zhong)國(guo)(guo)(guo)市場推出的(de)加速卡在(zai)性能(neng)上差別不大，集成以太網端口數量從24個端口減到21個。Gaudi2及下一代Gaudi3都會在(zai)合(he)法合(he)規(gui)的(de)情況(kuang)下繼續支持中(zhong)國(guo)(guo)(guo)客(ke)戶(hu)。

據Eitan Medina介紹(shao)，英特(te)爾Gaudi2運行(xing)ResNet-50的每(mei)瓦(wa)性(xing)能(neng)約是英偉(wei)達A100的2倍，運行(xing)1760億參數(shu)BLOOMZ模型的每(mei)瓦(wa)性(xing)能(neng)約達A100的1.6倍。

Sandra L. Rivera談道，英特爾致力于(yu)為中國(guo)客戶(hu)不斷創(chuang)造更高價(jia)值，通過異構產品組合，交付具有(you)性價(jia)比的AI解(jie)決(jue)方案(an)。英特爾中國(guo)成立于(yu)1985年，中國(guo)員工數(shu)量超過1.1萬人，截至2022年總投資(zi)額超過130億(yi)美(mei)元，中國(guo)市場營收約占英特爾全(quan)球(qiu)營收的27%。

據她分(fen)享，部署AI需(xu)要(yao)異構(gou)芯片，集成高級矩陣擴展(AMX)的(de)第四(si)代英特爾至(zhi)強可(ke)擴展處(chu)理器，能(neng)實(shi)現比A100更快的(de)訓練和推理性能(neng)。

英特爾現場(chang)演(yan)示了在第四代至強可擴展處理器上(shang)通過(guo)AMX加速指令(ling)運(yun)行文生圖(tu)模型Stable Diffusion，用5.34秒(miao)就生成一張圖(tu)片。

一、專供中國的Gaudi2新品：規格符合出口規定，支持大規模橫向擴展

Gaudi2處理器(qi)是一(yi)款(kuan)高性能、完(wan)全可(ke)(ke)編程(cheng)的AI處理器(qi)，整合了(le)多項技(ji)術創新，具有高內存(cun)帶寬(kuan)/容量和基于(yu)標準以太網(wang)技(ji)術的縱向擴(kuo)展能力，并支持(chi)使用(yong)外接(jie)網(wang)卡通過PCle接(jie)口實現橫向擴(kuo)展，可(ke)(ke)滿足多節(jie)點集群需要。

該訓練處理器基(ji)于與第一代Gaudi相同的高效架構(gou)，采用7nm制程工藝，在性能(neng)、可擴展(zhan)性和(he)能(neng)效方(fang)(fang)面(mian)均實現了飛躍，其性價比相較于AWS云(yun)中基(ji)于英偉達(da)的解決方(fang)(fang)案高出40%。

它利用Habana完全可編(bian)程(cheng)的(de)(de)TPC和(he)的(de)(de)TPC和(he)GEMM引擎(qing)，支持(chi)FP8、BF16、FP16、TF32和(he)FP32等數(shu)據類型。TPC核心旨在支持(chi)深度學習訓練和(he)推理(li)工作負載。TPC是一(yi)款VLIW SIMD矢量處理(li)器，其指令(ling)集和(he)硬件經過定(ding)制，可高效處理(li)上述工作負載。

第二代Gaudi2 AI深度學習夾層卡(ka)HL-225B專為數(shu)據中(zhong)心實現大(da)規模(mo)橫向擴展而設計(ji)。HL-225B處(chu)理器符合美(mei)國(guo)工業與安全(quan)局(BIS)的(de)有關(guan)規定(ding)。該(gai)夾層卡(ka)符合OCP OAM1.1(開放計(ji)算(suan)平臺(tai)之(zhi)開放加速(su)器模(mo)塊(kuai))規范。因(yin)此客戶可從符合規范的(de)多種產品(pin)中(zhong)做(zuo)出選擇，靈活地進行系(xi)統設計(ji)。

HL-225B夾層(ceng)卡內(nei)置(zhi)Gaudi HL-2080處(chu)理器(qi)技(ji)術(shu)。HL-2080處(chu)理器(qi)擁有24個完全可編程的第(di)四代張量處(chu)理器(qi)核(he)心(TPC)。這(zhe)些核(he)心原生設(she)計能(neng)為廣泛(fan)的深度(du)學習工作負載加速，同時還(huan)賦予(yu)用戶按需進行優化和創新的靈活性。

該處理器還集成了96GB HBM2e內存和48MB SRAM，支持600瓦夾層(ceng)卡(ka)級(ji)熱(re)設計(ji)功耗(TDP)。Gaudi Al訓練處理器在(zai)芯片上(shang)集成了RDMA(RoCEv2)，可(ke)與成熟且廣泛使用(yong)的(de)以太(tai)網進行(xing)連(lian)接。HL-2080芯片互連(lian)技術基于42對56Gbps Tx/RxPAM4 SerDes(配置為21個100 GbE端口)發(fa)揮作用(yong)。

中(zhong)國專供版Gaudi2處(chu)理(li)(li)器具備出(chu)色的(de)2.1Tbps網(wang)絡容量可(ke)擴展性，原生集(ji)成21個100Gbps RoCE v2 RDMA端口，可(ke)通(tong)過直(zhi)接路由實現Gaudi處(chu)理(li)(li)器間通(tong)信。該處(chu)理(li)(li)器還(huan)集(ji)成了(le)用于圖像和視頻解碼及(ji)預處(chu)理(li)(li)的(de)專用媒體處(chu)理(li)(li)器。

二、訓練GPT-3實現近線性95%擴展性，FP8版Gaudi2性價比將超H100

業內普遍(bian)認為(wei)生成(cheng)式AI和大(da)語(yu)言(yan)模型(xing)僅適宜(yi)在GPU上(shang)運(yun)行。英(ying)特爾顯然正努力用Habana Labs的(de)AI芯(xin)片打(da)破這種(zhong)“刻板印象”。

截至2023年6月，英(ying)特爾Gaudi2和英(ying)偉達H100是僅有的兩(liang)個提交了AI性能(neng)基準測試MLPerf GPT-3模型訓練成績的半導體解決方案。根據最新(xin)MLPerf結果，384個Gaudi2加速(su)器(qi)訓練GPT-3的時長為(wei)311分鐘。

在GPT-3模型(xing)上(shang)，從(cong)256個(ge)到384個(ge)加速器(qi)實現近線性95%的(de)擴(kuo)展(zhan)效(xiao)果(guo)。這(zhe)種出(chu)色擴(kuo)展(zhan)性部分歸(gui)功于其芯(xin)片上(shang)集(ji)成的(de)100GB以(yi)太網端口以(yi)及96GB HBM2e內存(cun)。

Gaudi2在(zai)四種主(zhu)流計(ji)算(suan)機視(shi)覺以及自(zi)然語(yu)言處(chu)理模型的基(ji)準測試中亦優于英偉達A100。在(zai)計(ji)算(suan)機視(shi)覺模型ResNet-50(8個加(jia)速(su)(su)器(qi))和Unet3D(8個加(jia)速(su)(su)器(qi))以及自(zi)然語(yu)言處(chu)理模型BERT(8個和64個加(jia)速(su)(su)器(qi))上取得(de)了優異(yi)的訓練(lian)結果。與去年11月提交的數據相比，BERT和ResNet模型的性能(neng)分別提高了10%和4%，證明(ming)Gaudi2軟件成(cheng)熟(shu)度的提升。

Gaudi2支持(chi)“開箱即(ji)用”功能。其客(ke)戶(hu)在本地或在云端使用Gaudi2時，可以(yi)獲得(de)與(yu)本次測試(shi)相當的性能結(jie)果(guo)。本次MLPerf 3.0的Gaudi2結(jie)果(guo)以(yi)BF16數據類(lei)型(xing)已(yi)提交。英特爾預計在2023年第三季度(du)發(fa)布對(dui)FP8的軟(ruan)件(jian)支持(chi)與(yu)新功能時，屆時Gaudi2的性價比預計將超(chao)越H100。

Gaudi2加速器(qi)已(yi)經被知名(ming)AI和機器(qi)學(xue)習開源軟(ruan)件工(gong)具提供商Hugging Face采用。

根據Hugging Face發布的(de)對Gaudi2性能的(de)測試結果，從預訓練BERT模(mo)型(xing)到Stable Diffusion、1760億(yi)參(can)數大型(xing)開源聊天模(mo)型(xing)BLOOMZ的(de)推(tui)理，Gaudi2均(jun)領先(xian)于英偉(wei)(wei)達A100 GPU。與英偉(wei)(wei)達A100相(xiang)比(bi)，2.44倍調優3B參(can)數T5語(yu)言(yan)模(mo)型(xing);與英偉(wei)(wei)達A100相(xiang)比(bi)，Stable Diffusion推(tui)理時延顯著(zhu)降低。

結語：為中國市場提供有競爭力的AI訓練加速選擇

訓練生成式AI和大(da)語言模型(xing)需要服務器集群來滿(man)足大(da)規模且更加復雜(za)的計算要求。英特爾正通過多元化硬件(jian)和軟(ruan)件(jian)產品(pin)技術組合，來將各種AI負(fu)載的推理和訓練性能(neng)提升至(zhi)新的水平。

隨著(zhu)Gaudi2產(chan)品進入中國市場，憑借在AI訓(xun)練方(fang)面經權(quan)威基準(zhun)測(ce)試(shi)驗(yan)證(zheng)的高性價比，英(ying)特爾將為(wei)尋求擺脫效率與規模限制的中國客戶(hu)提(ti)供(gong)又一有競爭力的AI加速方(fang)案(an)選擇(ze)。

英特爾

7nm中國版Gaudi2