英特爾面向中國市場發布可便捷擴展運行大語言模型的云端AI訓練芯片Gaudi2新品,并(bing)公布面(mian)向中國(guo)市場的英(ying)特爾AI戰略。
在中國市場(chang)推(tui)出的(de)Gaudi2 AI加速器,將通過其合作(zuo)伙伴浪潮提供給(gei)中國客戶。浪潮信息高(gao)級副總(zong)裁、AI和(he)HPC總(zong)經理(li)劉軍現場(chang)發布搭(da)載Gaudi2的(de)新一代AI服務器NF5698G7。
會后,英特爾執行副總裁、數據中心與人工智能事業部總(zong)(zong)經(jing)理Sandra L. Rivera,英特爾旗(qi)下(xia)Habana Labs的首(shou)席運營官Eitan Medina,英特爾數據(ju)中(zhong)心與人工智(zhi)能集團副總(zong)(zong)裁兼(jian)中(zhong)國(guo)區(qu)總(zong)(zong)經(jing)理陳(chen)葆立接受(shou)了芯東西等媒體的采訪(fang)。
陳葆(bao)立說,英(ying)特(te)爾(er)過去(qu)6個(ge)月在軟件優化上做了很多工作,此(ci)次不僅是(shi)向中國市(shi)場帶來芯片,而且帶來了可以大規模(mo)部署、訓(xun)練(lian)和推理(li)大模(mo)型的整(zheng)體(ti)方案。英(ying)特(te)爾(er)對方案的成熟度(du)非常有(you)信(xin)心。
據介(jie)紹(shao),此次英(ying)特(te)爾發布的(de)Gaudi2新品是(shi)中(zhong)國(guo)特(te)供(gong)產品,在出口和支持(chi)中(zhong)國(guo)客戶方面(mian)沒(mei)有任何問題(ti)。相比國(guo)際版Gaudi2產品,面(mian)向中(zhong)國(guo)市場推(tui)出的(de)加速卡在性(xing)能上差(cha)別不大(da),集成以太網(wang)端(duan)口數量(liang)從24個端(duan)口減(jian)到21個。Gaudi2及(ji)下一代Gaudi3都會在合(he)法合(he)規的(de)情況下繼(ji)續支持(chi)中(zhong)國(guo)客戶。
據Eitan Medina介紹(shao),英特爾Gaudi2運行ResNet-50的(de)每瓦(wa)性能約(yue)是(shi)英偉達A100的(de)2倍,運行1760億(yi)參數BLOOMZ模型的(de)每瓦(wa)性能約(yue)達A100的(de)1.6倍。
Sandra L. Rivera談道,英特(te)爾致力于(yu)為中(zhong)(zhong)國客戶不(bu)斷(duan)創造更高價值(zhi),通過(guo)異(yi)構產(chan)品組合,交付具(ju)有性價比的AI解決方案。英特(te)爾中(zhong)(zhong)國成立于(yu)1985年(nian),中(zhong)(zhong)國員工數(shu)量超(chao)過(guo)1.1萬人,截至(zhi)2022年(nian)總投資額(e)超(chao)過(guo)130億美(mei)元(yuan),中(zhong)(zhong)國市場營收(shou)約占英特(te)爾全球營收(shou)的27%。
據她分享,部署AI需要異構芯片,集成高(gao)級矩陣(zhen)擴展(AMX)的第四代英(ying)特爾至強(qiang)可擴展處理(li)器,能(neng)實現比(bi)A100更快的訓練和推理(li)性(xing)能(neng)。
英特爾現場(chang)演示(shi)了(le)在第(di)四代至強可擴展處(chu)理(li)器上通(tong)過AMX加(jia)速指(zhi)令運行文(wen)生圖模(mo)型(xing)Stable Diffusion,用5.34秒(miao)就生成一張圖片。
一、專供中國的Gaudi2新品:規格符合出口規定,支持大規模橫向擴展
Gaudi2處(chu)理器是(shi)一款(kuan)高性(xing)能(neng)、完(wan)全可編程的AI處(chu)理器,整(zheng)合(he)了多(duo)項(xiang)技(ji)術(shu)創(chuang)新,具有高內(nei)存帶(dai)寬/容量(liang)和(he)基于標準(zhun)以(yi)太網技(ji)術(shu)的縱向擴展(zhan)能(neng)力,并支(zhi)持使用外接網卡(ka)通(tong)過PCle接口實現橫向擴展(zhan),可滿足多(duo)節點(dian)集群需要。
該訓練處理器基于(yu)與第(di)一代Gaudi相(xiang)同的高效架(jia)構,采用7nm制程工藝,在性能、可擴(kuo)展性和能效方面(mian)均(jun)實現了飛(fei)躍,其性價比相(xiang)較于(yu)AWS云中(zhong)基于(yu)英偉(wei)達的解決方案高出40%。
它利用Habana完全可編程的TPC和(he)的TPC和(he)GEMM引(yin)擎(qing),支(zhi)持FP8、BF16、FP16、TF32和(he)FP32等數(shu)據(ju)類(lei)型。TPC核(he)心旨在(zai)支(zhi)持深(shen)度學(xue)習(xi)訓(xun)練和(he)推理工(gong)(gong)作(zuo)(zuo)負(fu)載(zai)。TPC是一款VLIW SIMD矢量處理器,其指令集(ji)和(he)硬(ying)件經過(guo)定(ding)制,可高效處理上述工(gong)(gong)作(zuo)(zuo)負(fu)載(zai)。
第二代Gaudi2 AI深(shen)度(du)學習(xi)夾(jia)(jia)層卡HL-225B專為數據中心實現(xian)大(da)規(gui)模橫向(xiang)擴(kuo)展而(er)設(she)計(ji)(ji)。HL-225B處理(li)器符(fu)合(he)美國工(gong)業與安全局(BIS)的(de)(de)有關規(gui)定(ding)。該(gai)夾(jia)(jia)層卡符(fu)合(he)OCP OAM1.1(開放計(ji)(ji)算(suan)平臺之開放加(jia)速(su)器模塊)規(gui)范。因此客戶可從符(fu)合(he)規(gui)范的(de)(de)多種產品中做出(chu)選擇,靈活地進行系統設(she)計(ji)(ji)。
HL-225B夾層卡內(nei)置Gaudi HL-2080處(chu)(chu)理器技術。HL-2080處(chu)(chu)理器擁有24個(ge)完全可編程的第四(si)代張量處(chu)(chu)理器核心(TPC)。這些核心原生設計(ji)能為廣泛(fan)的深度學(xue)習工作負載加速,同(tong)時還賦予用戶(hu)按需進行優化和創新的靈活性。
該(gai)處理器(qi)還(huan)集(ji)成(cheng)了96GB HBM2e內存和48MB SRAM,支持600瓦夾層卡級熱設計功(gong)耗(TDP)。Gaudi Al訓練(lian)處理器(qi)在芯片(pian)上集(ji)成(cheng)了RDMA(RoCEv2),可與成(cheng)熟且(qie)廣泛(fan)使用的以太網進行連接。HL-2080芯片(pian)互(hu)連技術(shu)基于42對(dui)56Gbps Tx/RxPAM4 SerDes(配置為21個100 GbE端口)發揮(hui)作用。
中國專供版(ban)Gaudi2處(chu)(chu)理(li)(li)器具備出色的2.1Tbps網絡容(rong)量可擴(kuo)展性,原(yuan)生集(ji)成21個(ge)100Gbps RoCE v2 RDMA端口,可通(tong)(tong)過直接路(lu)由實現Gaudi處(chu)(chu)理(li)(li)器間(jian)通(tong)(tong)信。該處(chu)(chu)理(li)(li)器還(huan)集(ji)成了用于圖像和視頻(pin)解碼及預處(chu)(chu)理(li)(li)的專用媒體處(chu)(chu)理(li)(li)器。
二、訓練GPT-3實現近線性95%擴展性,FP8版Gaudi2性價比將超H100
業內普遍認為生成式AI和大語(yu)言模型僅適宜在GPU上運行。英特爾顯(xian)然(ran)正努力用Habana Labs的AI芯片(pian)打破這種“刻(ke)板(ban)印象”。
截(jie)至(zhi)2023年6月,英特爾Gaudi2和英偉達H100是僅有的(de)兩個(ge)提交了(le)AI性能基準測試MLPerf GPT-3模型訓(xun)練成績的(de)半導體解(jie)決方案。根據最新MLPerf結果,384個(ge)Gaudi2加速(su)器訓(xun)練GPT-3的(de)時長為311分鐘。
在GPT-3模型上,從256個(ge)到384個(ge)加速器實現近線性95%的擴展效果(guo)。這種出色擴展性部分歸功于其芯(xin)片上集成(cheng)的100GB以(yi)(yi)太(tai)網(wang)端口(kou)以(yi)(yi)及96GB HBM2e內存。
Gaudi2在四種主流計算機視覺以及自然語(yu)言(yan)處理(li)模型的基準測試中亦優于英偉達A100。在計算機視覺模型ResNet-50(8個加速器)和(he)Unet3D(8個加速器)以及自然語(yu)言(yan)處理(li)模型BERT(8個和(he)64個加速器)上(shang)取得(de)了優異的訓練結(jie)果。與去年11月(yue)提交的數(shu)據相比(bi),BERT和(he)ResNet模型的性(xing)能分別提高(gao)了10%和(he)4%,證明Gaudi2軟件成熟度的提升。
Gaudi2支持“開箱(xiang)即(ji)用”功(gong)能。其客戶在(zai)(zai)本地或在(zai)(zai)云端使用Gaudi2時(shi),可以獲得與本次(ci)測試(shi)相當的(de)性(xing)能結果(guo)。本次(ci)MLPerf 3.0的(de)Gaudi2結果(guo)以BF16數(shu)據(ju)類型已提交。英特(te)爾預計在(zai)(zai)2023年第三季(ji)度(du)發布對FP8的(de)軟件支持與新(xin)功(gong)能時(shi),屆時(shi)Gaudi2的(de)性(xing)價比預計將超越H100。
Gaudi2加速器已經(jing)被(bei)知(zhi)名(ming)AI和機(ji)器學(xue)習開源軟件工(gong)具提供商(shang)Hugging Face采用。
根據Hugging Face發布的(de)對Gaudi2性能的(de)測試結(jie)果,從預訓練(lian)BERT模型到(dao)Stable Diffusion、1760億參數(shu)大型開源(yuan)聊(liao)天模型BLOOMZ的(de)推理,Gaudi2均領先于英偉(wei)達(da)(da)A100 GPU。與英偉(wei)達(da)(da)A100相(xiang)比(bi)(bi),2.44倍調優3B參數(shu)T5語言模型;與英偉(wei)達(da)(da)A100相(xiang)比(bi)(bi),Stable Diffusion推理時延顯著降低。
結語:為中國市場提供有競爭力的AI訓練加速選擇
訓(xun)練生成(cheng)式AI和(he)大語言(yan)模(mo)型(xing)需(xu)要服務(wu)器集(ji)群來(lai)滿(man)足(zu)大規(gui)模(mo)且更(geng)加復(fu)雜的計算要求。英特爾正通(tong)過(guo)多元(yuan)化硬件和(he)軟件產品技(ji)術組合,來(lai)將(jiang)各(ge)種AI負(fu)載的推理和(he)訓(xun)練性能提(ti)升至新的水平。
隨著Gaudi2產品進(jin)入中(zhong)國(guo)市場,憑借在AI訓(xun)練方(fang)面經(jing)權(quan)威基準測試(shi)驗證(zheng)的(de)高性價比(bi),英(ying)特爾將為尋求擺脫效率與規模(mo)限制的(de)中(zhong)國(guo)客戶提供又一有競(jing)爭力的(de)AI加速方(fang)案選(xuan)擇(ze)。