国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

Amazon EC2 Inf2實例正式可用 助力更低成本、更高性能的生成式AI推理
作者 | 物聯網(wang)智庫2023-04-21

深度學習(DL)的創新,特別是大語言模型(LLM)的快速發展,已經席卷了整個行業。深度學習模型的參數已從數百萬增加到數十億,為我們呈現了越來越多激動人心的新能力。它們正在催生新的應用,如生成式AI或醫療保健和生命科學的高級研究。亞馬遜云科技一直在芯片、服務(wu)器、數據中心互連和軟件服務(wu)等多個方面創新,加(jia)速深(shen)度學習工作負載的(de)大規模應用(yong)。

亞(ya)馬遜云科(ke)技在2022 re:Invent 全球(qiu)大會(hui)上,以其(qi)最新的(de)自研機器學(xue)習推(tui)理芯片Amazon Inferentia2為(wei)基礎,發布(bu)了Amazon EC2 Inf2系列實例的(de)預(yu)覽版(ban)。Amazon EC2 Inf2類(lei)型(xing)實例專門針對全球(qiu)大規模運行高性(xing)能深度學(xue)習推(tui)理應(ying)用程序,為(wei)部(bu)署在EC2上的(de)生成式AI應(ying)用提供最佳性(xing)價比,其(qi)中(zhong)包含 GPT-J或(huo)開放式預(yu)訓練Transformer(OPT)語言模型(xing)。

現在,亞(ya)馬遜云科技宣布Amazon EC2 Inf2實例正(zheng)式可用!

Inf2實例(li)是Amazon EC2上(shang)首個(ge)(ge)(ge)推理優(you)化的(de)實例(li),支(zhi)持可(ke)(ke)擴展的(de)分布式(shi)推理,可(ke)(ke)實現多個(ge)(ge)(ge)inferentia2芯片之間的(de)超高速連接(jie)。用戶(hu)可(ke)(ke)以在Inf2實例(li)中(zhong)跨多個(ge)(ge)(ge)芯片高效部署具有數(shu)千億個(ge)(ge)(ge)參(can)數(shu)的(de)模(mo)型。與Amazon EC2 Inf1實例(li)相比,Inf2實例(li)的(de)吞吐量提(ti)高4倍,延(yan)遲降低10倍。

新Inf2實例的亮點

Inf2實(shi)(shi)(shi)例目前有四種可用實(shi)(shi)(shi)例類型,最高擴(kuo)展至12個Amazon Inferentia2芯(xin)片(pian)(pian)和192個vCPU配置。在(zai)(zai)BF16或FP16數據類型下,它們能夠提供2.3 petaFLOPS的綜(zong)合計(ji)算能力,并具有芯(xin)片(pian)(pian)間超高速NeuronLink互連(lian)的功能。NeuronLink可在(zai)(zai)多個Inferentia2芯(xin)片(pian)(pian)上擴(kuo)展大模型,避免通(tong)信瓶頸,實(shi)(shi)(shi)現更高性能的推理。

每個Inferentia2芯片(pian)內有32 GB的(de)高(gao)帶寬內存(HBM),最高(gao)配置的(de) Inf2 實例可(ke)提供高(gao)達384 GB的(de)共享加速(su)器內存,總內存帶寬為(wei)9.8 TB/s。對于需要大(da)內存支持的(de)的(de)大(da)型語言模(mo)型而言,這種帶寬對于支持模(mo)型推理尤為(wei)重(zhong)要。

基于專門(men)為深度學習工作負載而構(gou)建的 Amazon Inferentia2芯片的 Amazon EC2 Inf2,相比(bi)同(tong)類實例(li),單(dan)位功率(lv)性(xing)能(neng)高出了50%。

Amazon Inferentia2的創新之處

與亞馬(ma)遜自研機器學(xue)習(xi)訓(xun)練(lian)芯片 Amazon Trainium類似,每個Amazon Inferentia2芯片都(dou)配有(you)兩(liang)個經(jing)過優化的(de)NeuronCore-v2引(yin)擎、高帶寬內存(cun)(HBM)堆棧和專用的(de)集體計算(suan)引(yin)擎,以便在執行(xing)多加速器推(tui)理時實現計算(suan)與通信(xin)的(de)并行(xing)。

每(mei)個NeuronCore-v2都有專為(wei)深度學習算(suan)(suan)法構建的標量、向量和張(zhang)量三(san)種引擎(qing),其(qi)中張(zhang)量引擎(qing)針對(dui)矩陣運(yun)算(suan)(suan)進行(xing)了(le)優(you)化(hua);標量引擎(qing)針對(dui)ReLU(修正線(xian)性單元(yuan))函數等(deng)元(yuan)素性操作進行(xing)了(le)優(you)化(hua);向量引擎(qing)針對(dui)批處理規范化(hua)或池化(hua)等(deng)非元(yuan)素向量運(yun)算(suan)(suan)進行(xing)了(le)優(you)化(hua)。

以下是Amazon Inferentia2芯(xin)片(pian)和服務器硬件其他(ta)創新(xin)總結:

數(shu)據(ju)(ju)(ju)(ju)類(lei)(lei)型(xing)(xing)(xing)(xing)——Amazon Inferentia2 支(zhi)持多種(zhong)數(shu)據(ju)(ju)(ju)(ju)類(lei)(lei)型(xing)(xing)(xing)(xing),包括 FP32、TF32、BF16、FP16 和 UINT8,用戶(hu)可以為(wei)工作負載選(xuan)擇最合適的數(shu)據(ju)(ju)(ju)(ju)類(lei)(lei)型(xing)(xing)(xing)(xing)。它還支(zhi)持新的可配置 FP8(cFP8) 數(shu)據(ju)(ju)(ju)(ju)類(lei)(lei)型(xing)(xing)(xing)(xing),該數(shu)據(ju)(ju)(ju)(ju)類(lei)(lei)型(xing)(xing)(xing)(xing)特別(bie)適用于大模型(xing)(xing)(xing)(xing),因為(wei)它減少了模型(xing)(xing)(xing)(xing)的內存占用和 I/O 要求。

動態執行(xing)和動態輸入形(xing)(xing)狀——Amazon Inferentia2 具有(you)支持動態執行(xing)的嵌(qian)入式通用數(shu)字信(xin)號處理(li)器 (DSP),因此無需(xu)在主機上展開或執行(xing)控制流運(yun)算符。Amazon Inferentia2 還(huan)支持動態輸入形(xing)(xing)狀,這些形(xing)(xing)狀對于(yu)具有(you)未知輸入張量大小的模型(例如處理(li)文本的模型)至關重(zhong)要。

自(zi)(zi)定(ding)義運(yun)算(suan)符(fu)(fu)(fu)——Amazon Inferentia2支持用(yong)C++語言編寫的(de)自(zi)(zi)定(ding)義運(yun)算(suan)符(fu)(fu)(fu)。Neuron自(zi)(zi)定(ding)義C++運(yun)算(suan)符(fu)(fu)(fu)使用(yong)戶能(neng)夠編寫在(zai)NeuronCore上(shang)天然運(yun)行的(de)C++自(zi)(zi)定(ding)義運(yun)算(suan)符(fu)(fu)(fu)。用(yong)戶可以使用(yong)標準的(de) PyTorch自(zi)(zi)定(ding)義運(yun)算(suan)符(fu)(fu)(fu)編程接口將 CPU 自(zi)(zi)定(ding)義運(yun)算(suan)符(fu)(fu)(fu)遷移到(dao) Neuron 并實(shi)現新(xin)的(de)實(shi)驗運(yun)算(suan)符(fu)(fu)(fu),所(suo)有這些都(dou)無需對 NeuronCore 硬(ying)件有任何深入了解。

NeuronLink v2——Inf2實例(li)是Amazon EC2類型中首個將 NeuronLink V2 用于(yu)推(tui)理優化的實例(li),NeuronLink v2 為Inferentia2芯(xin)片間的提(ti)供(gong)超(chao)高速連(lian)接,加強分布式(shi)推(tui)理性(xing)能。NeuronLink v2使(shi)用all-reduce等聚合通(tong)信(xin)(CC)運算(suan)符,將高性(xing)能推(tui)理管(guan)道擴展(zhan)到所有的推(tui)理芯(xin)片上。

熱門文章
中國,東莞,2023年4月20日]華為宣布實現自主可控的MetaERP研發,并完成對舊ERP系統的替換。為了表彰在此項目中做出重大貢獻的相關團隊和個人,華為在東莞溪流背坡村園區舉辦了“英雄強渡大渡河”
2023-04-21
X