深度學習(DL)的創新,特別是大語言模型(LLM)的快速發展,已經席卷了整個行業。深度學習模型的參數已從數百萬增加到數十億,為我們呈現了越來越多激動人心的新能力。它們正在催生新的應用,如生成式AI或醫療保健和生命科學的高級研究。亞馬遜云科技一直在芯片、服務器、數據中心互連和軟件服務等多個方面創(chuang)新(xin),加速深度學(xue)習工作(zuo)負載的大(da)規模應用。
亞馬遜云科(ke)技在2022 re:Invent 全球(qiu)(qiu)大會上,以其(qi)最新的(de)自研(yan)機器學習推(tui)理芯片Amazon Inferentia2為基礎,發布了(le)Amazon EC2 Inf2系列(lie)實例的(de)預覽版(ban)。Amazon EC2 Inf2類型實例專門針對全球(qiu)(qiu)大規模運行(xing)高性(xing)能(neng)深度學習推(tui)理應用程序(xu),為部署在EC2上的(de)生成式AI應用提(ti)供最佳性(xing)價比,其(qi)中包含 GPT-J或開(kai)放式預訓練Transformer(OPT)語言(yan)模型。
現在,亞馬遜(xun)云科(ke)技宣布Amazon EC2 Inf2實例正式(shi)可用(yong)!
Inf2實(shi)例(li)是Amazon EC2上首(shou)個(ge)推(tui)(tui)理(li)優化的(de)(de)(de)實(shi)例(li),支持(chi)可(ke)擴展(zhan)的(de)(de)(de)分布式推(tui)(tui)理(li),可(ke)實(shi)現多個(ge)inferentia2芯片之間(jian)的(de)(de)(de)超高速連接。用戶可(ke)以在(zai)Inf2實(shi)例(li)中(zhong)跨多個(ge)芯片高效部署(shu)具有(you)數千億個(ge)參數的(de)(de)(de)模型(xing)。與Amazon EC2 Inf1實(shi)例(li)相(xiang)比,Inf2實(shi)例(li)的(de)(de)(de)吞吐量(liang)提高4倍,延(yan)遲降(jiang)低10倍。
新Inf2實例的亮點
Inf2實例目前(qian)有四種(zhong)可用實例類(lei)型,最高擴(kuo)展(zhan)至(zhi)12個(ge)Amazon Inferentia2芯片(pian)(pian)和192個(ge)vCPU配置。在(zai)BF16或FP16數(shu)據類(lei)型下,它們(men)能夠提供2.3 petaFLOPS的(de)綜(zong)合計算(suan)能力,并具有芯片(pian)(pian)間超高速NeuronLink互連(lian)的(de)功能。NeuronLink可在(zai)多(duo)個(ge)Inferentia2芯片(pian)(pian)上擴(kuo)展(zhan)大模(mo)型,避免通(tong)信瓶(ping)頸,實現更高性能的(de)推理。
每個Inferentia2芯片內(nei)(nei)有32 GB的高(gao)帶(dai)寬(kuan)內(nei)(nei)存(cun)(HBM),最高(gao)配(pei)置的 Inf2 實例可提供(gong)高(gao)達384 GB的共享加速器內(nei)(nei)存(cun),總內(nei)(nei)存(cun)帶(dai)寬(kuan)為9.8 TB/s。對于(yu)需要大內(nei)(nei)存(cun)支持的的大型語言模型而言,這種帶(dai)寬(kuan)對于(yu)支持模型推理尤為重要。
基(ji)于專門為深度學習工作(zuo)負(fu)載而(er)構建(jian)的(de) Amazon Inferentia2芯片(pian)的(de) Amazon EC2 Inf2,相(xiang)比同類實(shi)例,單(dan)位功(gong)率(lv)性(xing)能高出了50%。
Amazon Inferentia2的創新之處
與(yu)亞馬遜自研機(ji)器學習訓練芯片 Amazon Trainium類似,每(mei)個Amazon Inferentia2芯片都配(pei)有兩個經過優化(hua)的NeuronCore-v2引擎(qing)、高帶寬(kuan)內存(HBM)堆棧和專用的集(ji)體計(ji)算引擎(qing),以便在執行(xing)(xing)多加速(su)器推理時(shi)實現計(ji)算與(yu)通信的并行(xing)(xing)。
每個NeuronCore-v2都有專(zhuan)為深(shen)度學習算法構(gou)建的標(biao)量(liang)(liang)、向(xiang)量(liang)(liang)和張量(liang)(liang)三種引(yin)擎,其(qi)中張量(liang)(liang)引(yin)擎針對矩(ju)陣運算進行了(le)(le)優化;標(biao)量(liang)(liang)引(yin)擎針對ReLU(修正線(xian)性(xing)單元)函(han)數等(deng)元素性(xing)操(cao)作進行了(le)(le)優化;向(xiang)量(liang)(liang)引(yin)擎針對批處理規范(fan)化或池化等(deng)非元素向(xiang)量(liang)(liang)運算進行了(le)(le)優化。
以下是Amazon Inferentia2芯片和服務器(qi)硬(ying)件其他創(chuang)新(xin)總結(jie):
數(shu)據(ju)類型(xing)——Amazon Inferentia2 支(zhi)持多種數(shu)據(ju)類型(xing),包括 FP32、TF32、BF16、FP16 和(he) UINT8,用戶可以為(wei)工作(zuo)負(fu)載(zai)選擇最(zui)合適(shi)的(de)數(shu)據(ju)類型(xing)。它還(huan)支(zhi)持新(xin)的(de)可配置 FP8(cFP8) 數(shu)據(ju)類型(xing),該數(shu)據(ju)類型(xing)特別適(shi)用于大模(mo)型(xing),因為(wei)它減少了模(mo)型(xing)的(de)內存占用和(he) I/O 要(yao)求。
動態執(zhi)行和動態輸入(ru)(ru)形(xing)狀——Amazon Inferentia2 具有支持動態執(zhi)行的嵌入(ru)(ru)式通用數(shu)字(zi)信號(hao)處理器 (DSP),因此(ci)無需在主(zhu)機上展開或執(zhi)行控制流運算符。Amazon Inferentia2 還支持動態輸入(ru)(ru)形(xing)狀,這些形(xing)狀對于具有未知輸入(ru)(ru)張量大小的模(mo)型(例如處理文(wen)本的模(mo)型)至關重要。
自(zi)定(ding)義(yi)運算符(fu)(fu)(fu)——Amazon Inferentia2支持用C++語言(yan)編寫的(de)自(zi)定(ding)義(yi)運算符(fu)(fu)(fu)。Neuron自(zi)定(ding)義(yi)C++運算符(fu)(fu)(fu)使用戶能夠編寫在NeuronCore上天然運行(xing)的(de)C++自(zi)定(ding)義(yi)運算符(fu)(fu)(fu)。用戶可以(yi)使用標準的(de) PyTorch自(zi)定(ding)義(yi)運算符(fu)(fu)(fu)編程(cheng)接口(kou)將 CPU 自(zi)定(ding)義(yi)運算符(fu)(fu)(fu)遷移到 Neuron 并實現新的(de)實驗運算符(fu)(fu)(fu),所有(you)這些都(dou)無需(xu)對 NeuronCore 硬件(jian)有(you)任何深入(ru)了解。
NeuronLink v2——Inf2實(shi)(shi)例(li)是Amazon EC2類型中首個將 NeuronLink V2 用于(yu)推(tui)理(li)優化的實(shi)(shi)例(li),NeuronLink v2 為(wei)Inferentia2芯片(pian)間的提(ti)供超高速連接,加強分布(bu)式推(tui)理(li)性能(neng)(neng)。NeuronLink v2使用all-reduce等聚合(he)通信(xin)(CC)運算(suan)符(fu),將高性能(neng)(neng)推(tui)理(li)管道(dao)擴(kuo)展到所(suo)有的推(tui)理(li)芯片(pian)上。