北京——2023年3月22日 亞馬遜旗下的亞馬遜云科技和英偉達宣布了一項多方合作,致力于構建全球最具可擴展性且按需付費的人工智能(AI)基礎設施,以(yi)便訓練日益復雜的大語言(yan)模(mo)型(xing)(LLM)和開發生成式AI應用程序。
借助(zhu)(zhu)由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5實例(li),以及亞馬(ma)遜云科技最先進的網(wang)絡和可擴展(zhan)性,此(ci)次合(he)作(zuo)將提供高(gao)達(da)20 exaFLOPS的計算性能來幫助(zhu)(zhu)構建和訓練更大規模的深度學習(xi)模型。P5實例(li)將是(shi)第一個利用亞馬(ma)遜云科技第二代Amazon Elastic Fabric Adapter(EFA)網(wang)絡技術的GPU實例(li),可提供3200 Gbps的低延遲和高(gao)帶寬(kuan)網(wang)絡吞吐量。因此(ci)客(ke)戶能夠在Amazon EC2 UltraCluster中擴展(zhan)多達(da)2萬個H100 GPU,滿足按需(xu)訪問(wen)超級計算機的AI性能需(xu)求。
“亞(ya)(ya)馬遜(xun)(xun)(xun)云科(ke)技和(he)(he)英偉達合作(zuo)已(yi)超過12年,為人工(gong)智能、機器(qi)學(xue)習、圖形、游戲和(he)(he)高性能計算(suan)(HPC)等各種應用提供了(le)大規(gui)模(mo)、低成本的(de)(de)(de)GPU解決方案。”亞(ya)(ya)馬遜(xun)(xun)(xun)云科(ke)技首席執行官Adam Selipsky表(biao)示,“亞(ya)(ya)馬遜(xun)(xun)(xun)云科(ke)技在交付基(ji)于GPU的(de)(de)(de)實例(li)(li)方面擁有無比(bi)豐(feng)富(fu)的(de)(de)(de)經(jing)驗,每(mei)一代(dai)實例(li)(li)都(dou)大大增強了(le)可擴展性,如今眾多客戶(hu)(hu)將(jiang)機器(qi)學(xue)習訓練工(gong)作(zuo)負載擴展到1萬多個GPU。借(jie)助第二代(dai)Amazon EFA,客戶(hu)(hu)能夠將(jiang)其P5實例(li)(li)擴展到超過2萬個英偉達H100 GPU,為包(bao)括(kuo)初創公司、大企業在內的(de)(de)(de)所有規(gui)模(mo)客戶(hu)(hu)提供所需的(de)(de)(de)超級計算(suan)能力(li)。”
“加(jia)速計(ji)算(suan)和人工智能已經到來,而(er)且適逢(feng)其時(shi)。加(jia)速計(ji)算(suan)提(ti)升性能的同(tong)時(shi),降低了成本和功(gong)耗,讓企業事半功(gong)倍。生(sheng)成式AI已促(cu)使企業重新思考產品和商業模式,力(li)求(qiu)成為顛(dian)(dian)覆者,而(er)不是(shi)被顛(dian)(dian)覆。”英偉達(da)(da)創始(shi)人兼(jian)首(shou)席執行(xing)官黃仁勛表示,“亞馬遜云科技是(shi)英偉達(da)(da)的長(chang)(chang)期合(he)作伙(huo)伴,也是(shi)首(shou)家提(ti)供(gong)(gong)英偉達(da)(da)GPU的云服務提(ti)供(gong)(gong)商。我們很(hen)高興能夠結合(he)各自的專長(chang)(chang)、規模和業務范圍,幫(bang)助客戶利用(yong)加(jia)速計(ji)算(suan)和生(sheng)成式AI抓住未來的大好機(ji)遇(yu)。”
新的超級計算集群
新(xin)的(de)P5實(shi)(shi)例(li)構建于亞馬(ma)遜(xun)云(yun)科技和(he)英(ying)(ying)偉達(da)十(shi)多(duo)年來在AI和(he)HPC基(ji)(ji)礎設施交(jiao)付方面(mian)的(de)合作(zuo)(zuo)基(ji)(ji)礎之上,也立足于雙方在P2、P3、P3dn和(he)P4d(e)前四代實(shi)(shi)例(li)方面(mian)的(de)合作(zuo)(zuo)。P5實(shi)(shi)例(li)是基(ji)(ji)于英(ying)(ying)偉達(da)GPU的(de)第五(wu)代亞馬(ma)遜(xun)云(yun)科技產品,與最初部署的(de)英(ying)(ying)偉達(da)GPU(始于CG1實(shi)(shi)例(li))已相隔近13年。
P5實例非常適合對日益(yi)復雜(za)的(de)LLM和(he)計(ji)(ji)算機視覺模(mo)型進行訓(xun)練和(he)運行推理(li),并應用于要求嚴苛(ke)的(de)計(ji)(ji)算密集型生(sheng)成式AI應用程序,包括問題回答、代碼生(sheng)成、視頻圖(tu)像(xiang)生(sheng)成和(he)語音(yin)識別(bie)等領(ling)域。
對(dui)于(yu)致力(li)于(yu)以可擴展和安(an)全的(de)(de)(de)方式(shi)將(jiang)AI賦能(neng)的(de)(de)(de)創(chuang)(chuang)新推(tui)向(xiang)市場的(de)(de)(de)企業(ye)和初創(chuang)(chuang)公司而言,P5實(shi)例(li)是不(bu)二(er)之選。P5實(shi)例(li)采用8個英偉達H100 GPU,能(neng)夠在(zai)一個Amazon EC2實(shi)例(li)中實(shi)現16 petaFLOPs的(de)(de)(de)混合精度性能(neng)、640 GB的(de)(de)(de)高帶(dai)寬內存和3200 Gbps的(de)(de)(de)網絡連接(jie)(比(bi)(bi)上(shang)一代實(shi)例(li)高出8倍)。P5實(shi)例(li)性能(neng)的(de)(de)(de)提升使機(ji)器(qi)學習模型(xing)訓(xun)(xun)練(lian)時間加快了(le)6倍(將(jiang)訓(xun)(xun)練(lian)時間從數(shu)天縮短到數(shu)小(xiao)時),額外的(de)(de)(de)GPU內存可幫助客戶訓(xun)(xun)練(lian)更龐(pang)大(da)更復雜的(de)(de)(de)模型(xing)。預計P5實(shi)例(li)的(de)(de)(de)機(ji)器(qi)學習模型(xing)訓(xun)(xun)練(lian)成本(ben)將(jiang)比(bi)(bi)上(shang)一代降低40%。相比(bi)(bi)靈活性較差的(de)(de)(de)云產品或昂(ang)貴(gui)的(de)(de)(de)本(ben)地系統,它為(wei)客戶提供了(le)更高的(de)(de)(de)效率。
Amazon EC2 P5實(shi)例部署(shu)在(zai)Amazon EC2 UltraCluster的(de)(de)(de)(de)(de)超(chao)大規模(mo)集群(qun)中,該(gai)集群(qun)由(you)云端最(zui)高性(xing)能(neng)(neng)(neng)的(de)(de)(de)(de)(de)計算、網(wang)絡(luo)和(he)存儲(chu)系(xi)統組(zu)成。每(mei)個(ge)(ge)EC2 UltraCluster都(dou)是世(shi)界上(shang)功(gong)能(neng)(neng)(neng)最(zui)強大的(de)(de)(de)(de)(de)超(chao)級計算機(ji)之一,助力客(ke)戶(hu)運(yun)行最(zui)復(fu)雜(za)的(de)(de)(de)(de)(de)多(duo)節(jie)點(dian)(dian)機(ji)器學(xue)習(xi)訓練(lian)和(he)分(fen)布式HPC工作(zuo)負載。它(ta)們采用(yong)PB級無(wu)阻塞(sai)網(wang)絡(luo),基(ji)于Amazon EFA,這種面(mian)向Amazon EC2實(shi)例的(de)(de)(de)(de)(de)網(wang)絡(luo)接口(kou)使(shi)(shi)客(ke)戶(hu)能(neng)(neng)(neng)夠在(zai)亞馬(ma)遜云科技上(shang)運(yun)行需(xu)要在(zai)大規模(mo)高級節(jie)點(dian)(dian)間通信(xin)的(de)(de)(de)(de)(de)應(ying)用(yong)程序。EFA的(de)(de)(de)(de)(de)定(ding)制操作(zuo)系(xi)統繞(rao)過硬件接口(kou),并與英偉達(da)GPUDirect RDMA整合,可降低延遲、提高帶(dai)寬利(li)用(yong)率,從(cong)而提升實(shi)例間通信(xin)性(xing)能(neng)(neng)(neng),這對于在(zai)數百個(ge)(ge)P5節(jie)點(dian)(dian)上(shang)擴展深(shen)度學(xue)習(xi)模(mo)型的(de)(de)(de)(de)(de)訓練(lian)至關重(zhong)要。借助P5實(shi)例和(he)EFA,機(ji)器學(xue)習(xi)應(ying)用(yong)程序可以(yi)使(shi)(shi)用(yong)NVIDIA Collective Communications Library(NCCL)擴展到多(duo)達(da)2萬個(ge)(ge)H100 GPU。因此(ci),客(ke)戶(hu)可以(yi)通過亞馬(ma)遜云科技的(de)(de)(de)(de)(de)按需(xu)彈性(xing)和(he)靈活擴展能(neng)(neng)(neng)力,獲得本(ben)地HPC集群(qun)的(de)(de)(de)(de)(de)應(ying)用(yong)性(xing)能(neng)(neng)(neng)。除(chu)了(le)這些出色(se)的(de)(de)(de)(de)(de)計算能(neng)(neng)(neng)力外,客(ke)戶(hu)可以(yi)使(shi)(shi)用(yong)業界最(zui)廣泛最(zui)深(shen)入的(de)(de)(de)(de)(de)服(fu)務(wu)組(zu)合,比如面(mian)向對象存儲(chu)的(de)(de)(de)(de)(de)Amazon S3、面(mian)向高性(xing)能(neng)(neng)(neng)文件系(xi)統的(de)(de)(de)(de)(de)Amazon FSx,以(yi)及(ji)用(yong)于構建、訓練(lian)和(he)部署(shu)深(shen)度學(xue)習(xi)應(ying)用(yong)的(de)(de)(de)(de)(de)Amazon SageMaker。P5實(shi)例將(jiang)在(zai)今(jin)后(hou)幾周提供有(you)限預覽版。
借助新(xin)的(de)Amazon EC2 P5實例,Anthropic、Cohere、Hugging Face、Pinterest和(he)(he)Stability AI等客戶將能夠大規模(mo)構建和(he)(he)訓練最(zui)龐大的(de)機器(qi)學習(xi)模(mo)型。基于其(qi)它幾代Amazon EC2實例的(de)合(he)作將幫助初創公司、大企業和(he)(he)研究人員(yuan)無(wu)縫擴展來滿(man)足各(ge)自的(de)機器(qi)學習(xi)需求。
Anthropic構(gou)建了(le)可(ke)(ke)(ke)靠、可(ke)(ke)(ke)解(jie)(jie)釋和可(ke)(ke)(ke)操(cao)控的(de)(de)(de)(de)AI系統,將創(chuang)造(zao)巨大(da)(da)商業(ye)價(jia)值(zhi)并(bing)造(zao)福公眾。 “Anthropic正在努力構(gou)建可(ke)(ke)(ke)靠、可(ke)(ke)(ke)解(jie)(jie)釋和可(ke)(ke)(ke)操(cao)控的(de)(de)(de)(de)AI系統。雖然當前(qian)已(yi)有的(de)(de)(de)(de)大(da)(da)型通用(yong)AI系統大(da)(da)有助益(yi),但它們卻是(shi)不可(ke)(ke)(ke)預測、不可(ke)(ke)(ke)靠和不透明的(de)(de)(de)(de)。我(wo)們的(de)(de)(de)(de)目的(de)(de)(de)(de)是(shi)解(jie)(jie)決這(zhe)些問題,為人(ren)們部(bu)署更(geng)實(shi)用(yong)的(de)(de)(de)(de)系統。”Anthropic的(de)(de)(de)(de)聯合創(chuang)始(shi)人(ren)Tom Brown表(biao)示,“我(wo)們是(shi)全球(qiu)為數不多的(de)(de)(de)(de)在深度學習研究(jiu)領域建立基礎(chu)模(mo)(mo)(mo)型的(de)(de)(de)(de)組(zu)織之(zhi)一(yi)。這(zhe)種模(mo)(mo)(mo)型高度復(fu)雜(za),為了(le)開發和訓練先進的(de)(de)(de)(de)模(mo)(mo)(mo)型,我(wo)們需要在龐大(da)(da)的(de)(de)(de)(de)GPU集(ji)群中有效地分布這(zhe)些模(mo)(mo)(mo)型。我(wo)們正在廣泛應用(yong)Amazon EC2 P4實(shi)例(li),我(wo)們更(geng)為即將發布的(de)(de)(de)(de)P5實(shi)例(li)感到興奮。預計(ji)P5實(shi)例(li)會提供比P4d實(shi)例(li)更(geng)顯著的(de)(de)(de)(de)性(xing)價(jia)比優(you)勢,它們可(ke)(ke)(ke)以滿(man)足構(gou)建下一(yi)代大(da)(da)語言模(mo)(mo)(mo)型和相關產(chan)品的(de)(de)(de)(de)大(da)(da)規模(mo)(mo)(mo)需求(qiu)。”
Cohere是自然語(yu)言AI領(ling)域的(de)(de)(de)先驅(qu),它(ta)幫助開發(fa)者和企(qi)(qi)業(ye)使用世(shi)界領(ling)先的(de)(de)(de)自然語(yu)言處理(NLP)技術構建(jian)出色(se)的(de)(de)(de)產(chan)品,同時確(que)保數據(ju)的(de)(de)(de)隱私(si)和安全。 “Cohere不遺余(yu)力(li)地(di)(di)幫助企(qi)(qi)業(ye)利用自然語(yu)言AI的(de)(de)(de)強大功能,以自然直觀的(de)(de)(de)方(fang)式探索、生成和搜索信(xin)息,并做出反應(ying),并將產(chan)品部署在(zai)多(duo)云的(de)(de)(de)數據(ju)環境中(zhong),為客戶提(ti)供(gong)最佳體驗。”Cohere首席執行官Aidan Gomez表示,“基于英偉達H100的(de)(de)(de)Amazon EC2 P5實例(li)將釋放企(qi)(qi)業(ye)潛能,利用計算能力(li)以及Cohere最先進的(de)(de)(de)LLM和生成式AI能力(li),更快地(di)(di)開發(fa)產(chan)品、拓(tuo)展業(ye)務和擴(kuo)大規模。”
Hugging Face的(de)使命(ming)是普及優秀的(de)機器(qi)學(xue)習。 “作(zuo)為發展最迅(xun)猛的(de)機器(qi)學(xue)習開(kai)源社區,我們如(ru)今在面向NLP、計算機視覺(jue)、生物學(xue)和強化(hua)學(xue)習等領域的(de)平臺(tai)上(shang)提供逾15萬個預訓練模(mo)型(xing)和2.5萬個數據集。”Hugging Face首席技術官兼聯合創始人Julien Chaumond表示(shi),“鑒(jian)于大語言模(mo)型(xing)和生成式AI取(qu)得了顯著進步,我們正與亞馬遜云科(ke)技合作(zuo),以構建(jian)和貢獻未來的(de)開(kai)源模(mo)型(xing)。我們希望(wang)在結合了EFA的(de)UltraCluster集群中通過大規模(mo)Amazon SageMaker使用(yong)Amazon EC2 P5實(shi)例,加快為所有客戶交(jiao)付新的(de)基礎AI模(mo)型(xing)。”
如(ru)今,全球超過4.5億人(ren)通過Pinterest尋(xun)找視覺靈(ling)感,以購買符合自己(ji)品味的(de)個(ge)性化產品、尋(xun)求(qiu)線下創意(yi),并發現最(zui)有才華的(de)創作(zuo)者。 “我(wo)們(men)在用(yong)(yong)(yong)例中廣泛使(shi)用(yong)(yong)(yong)深度學習技術,比如(ru)對上(shang)傳到(dao)我(wo)們(men)平臺上(shang)的(de)數十億張(zhang)照片進(jin)行(xing)標記和(he)(he)分類,以及(ji)讓用(yong)(yong)(yong)戶(hu)獲(huo)得從靈(ling)感到(dao)付諸行(xing)動的(de)視覺搜索能力(li)。”Pinterest首席架構師(shi)David Chaiken表示,“我(wo)們(men)使(shi)用(yong)(yong)(yong)P3和(he)(he)最(zui)新(xin)的(de)P4d等Amazon GPU實例構建和(he)(he)部署(shu)了(le)這些應用(yong)(yong)(yong)場景。我(wo)們(men)希望使(shi)用(yong)(yong)(yong)由H100 GPU、EFA和(he)(he)Ultracluster加持的(de)Amazon EC2 P5實例,加快(kuai)產品開發,為我(wo)們(men)的(de)客(ke)戶(hu)提供(gong)共(gong)情式AI(Empathetic AI)體驗。”
作為多模(mo)(mo)(mo)態、開(kai)(kai)源AI模(mo)(mo)(mo)型(xing)開(kai)(kai)發(fa)和部(bu)署(shu)領域的(de)領導者(zhe),Stability AI與(yu)公共和私營部(bu)門的(de)合作伙(huo)伴(ban)合作,將這種下(xia)一(yi)代(dai)基礎架構(gou)提(ti)供(gong)給全(quan)球受(shou)眾(zhong)。 “Stability AI的(de)目標是最大限度(du)地提(ti)高現(xian)代(dai)AI的(de)普(pu)及性,以激(ji)發(fa)全(quan)球創造(zao)力和創新(xin)性。”Stability AI首(shou)席執行官Emad Mostaque表(biao)示,“我們(men)(men)于(yu)2021年(nian)開(kai)(kai)始與(yu)亞馬(ma)遜(xun)云科(ke)技合作,使用Amazon EC2 P4d實例構(gou)建(jian)了一(yi)個潛在的(de)文(wen)本到圖像擴(kuo)散(san)模(mo)(mo)(mo)型(xing)Stable Diffusion,我們(men)(men)將該模(mo)(mo)(mo)型(xing)部(bu)署(shu)在大規(gui)模(mo)(mo)(mo)環(huan)境下(xia),將模(mo)(mo)(mo)型(xing)訓練(lian)時間從數(shu)月縮(suo)短(duan)到數(shu)周。當致力于(yu)開(kai)(kai)發(fa)下(xia)一(yi)代(dai)開(kai)(kai)源生成(cheng)式AI模(mo)(mo)(mo)型(xing)并擴(kuo)展到新(xin)模(mo)(mo)(mo)型(xing)時,我們(men)(men)很(hen)高興能使用第二代(dai)EC2 UltraCluster中的(de)Amazon EC2 P5實例。我們(men)(men)預計P5實例會進一(yi)步將我們(men)(men)的(de)模(mo)(mo)(mo)型(xing)訓練(lian)時間縮(suo)短(duan)4倍(bei),從而使我們(men)(men)能夠(gou)以更低的(de)成(cheng)本更快(kuai)地提(ti)供(gong)突破(po)性的(de)AI。”
為可擴展、高效的AI采用新的服務器設計
在(zai)H100發布之前,英偉達和在(zai)熱(re)力、電(dian)氣(qi)和機(ji)械領域擁有專(zhuan)業知識的亞(ya)馬(ma)遜云(yun)科技工程團隊合作設計了(le)服務器,以(yi)利用(yong)GPU提(ti)供大規(gui)模(mo)AI,重點關注亞(ya)馬(ma)遜云(yun)科技基礎設施的能源效率。在(zai)某些AI工作負載下,GPU的能效通常是CPU的20倍,對于(yu)LLM而(er)言,H100的能效比CPU高300倍。
雙(shuang)方的(de)合作包括開發(fa)系(xi)統散熱設計、集成式安全和系(xi)統管理(li)、與Amazon Nitro硬(ying)件加速(su)虛擬機(ji)管理(li)程序一起實現(xian)安全性,以及針對亞(ya)馬遜云科技定制EFA網絡結(jie)構(gou)的(de)英偉達GPUDirect?優(you)化技術。
在(zai)亞馬(ma)遜云科技(ji)和(he)(he)英(ying)偉達專注于服務(wu)器優化工作的基礎上,兩(liang)家公司現已(yi)開(kai)始合(he)作開(kai)發未來的服務(wu)器設(she)(she)計,以借(jie)助(zhu)新一代系統(tong)設(she)(she)計、冷(leng)卻技(ji)術和(he)(he)網(wang)絡可(ke)擴(kuo)展性提高擴(kuo)展效率。