北京——2023年3月22日 亞馬遜旗下的亞馬遜云科技和英偉達宣布了一項多方合作,致力于構建全球最具可擴展性且按需付費的人工智能(AI)基礎設(she)施(shi),以(yi)便訓練日(ri)益復雜的大語(yu)言模型(xing)(LLM)和開發生成式AI應用程序。
借(jie)助由NVIDIA H100 Tensor Core GPU支持的(de)(de)下一(yi)代Amazon Elastic Compute Cloud(Amazon EC2)P5實例,以及(ji)亞(ya)馬(ma)(ma)遜云科技(ji)(ji)最先進的(de)(de)網(wang)(wang)(wang)絡(luo)和可擴(kuo)展(zhan)(zhan)性(xing)(xing),此次合作將提(ti)供(gong)高達(da)20 exaFLOPS的(de)(de)計算(suan)性(xing)(xing)能(neng)來幫助構(gou)建和訓練更大規模的(de)(de)深度學習模型。P5實例將是第(di)一(yi)個(ge)利用亞(ya)馬(ma)(ma)遜云科技(ji)(ji)第(di)二代Amazon Elastic Fabric Adapter(EFA)網(wang)(wang)(wang)絡(luo)技(ji)(ji)術的(de)(de)GPU實例,可提(ti)供(gong)3200 Gbps的(de)(de)低(di)延(yan)遲和高帶寬網(wang)(wang)(wang)絡(luo)吞(tun)吐量。因此客戶能(neng)夠在Amazon EC2 UltraCluster中擴(kuo)展(zhan)(zhan)多(duo)達(da)2萬個(ge)H100 GPU,滿足按(an)需訪(fang)問超級計算(suan)機的(de)(de)AI性(xing)(xing)能(neng)需求(qiu)。
“亞馬(ma)遜云科技和英偉(wei)達合(he)作已(yi)超(chao)過12年,為人工(gong)智能(neng)(neng)(neng)、機(ji)器(qi)學習、圖形(xing)、游戲和高性(xing)能(neng)(neng)(neng)計算(HPC)等各種應用提(ti)供(gong)了大規模(mo)、低成(cheng)本的GPU解決方案(an)。”亞馬(ma)遜云科技首席執行(xing)官Adam Selipsky表示,“亞馬(ma)遜云科技在(zai)交付(fu)基于GPU的實(shi)例方面擁有無比豐富的經驗,每一代實(shi)例都(dou)大大增強(qiang)了可擴(kuo)展(zhan)性(xing),如今眾多(duo)客(ke)(ke)戶(hu)將機(ji)器(qi)學習訓練工(gong)作負(fu)載擴(kuo)展(zhan)到1萬多(duo)個GPU。借助第(di)二代Amazon EFA,客(ke)(ke)戶(hu)能(neng)(neng)(neng)夠將其(qi)P5實(shi)例擴(kuo)展(zhan)到超(chao)過2萬個英偉(wei)達H100 GPU,為包括(kuo)初創(chuang)公司、大企(qi)業在(zai)內(nei)的所(suo)有規模(mo)客(ke)(ke)戶(hu)提(ti)供(gong)所(suo)需的超(chao)級計算能(neng)(neng)(neng)力。”
“加(jia)速(su)計算和(he)(he)(he)(he)人(ren)工智能(neng)(neng)已經到(dao)來,而且適逢其時(shi)。加(jia)速(su)計算提(ti)升性(xing)能(neng)(neng)的(de)同時(shi),降低了(le)成本和(he)(he)(he)(he)功耗,讓企業(ye)事半功倍。生成式(shi)(shi)AI已促使企業(ye)重新思考產品和(he)(he)(he)(he)商(shang)業(ye)模式(shi)(shi),力求成為顛(dian)覆(fu)者(zhe),而不是(shi)被(bei)顛(dian)覆(fu)。”英偉達(da)創始人(ren)兼(jian)首席執行(xing)官黃(huang)仁勛表示,“亞馬遜云科技是(shi)英偉達(da)的(de)長期合作(zuo)伙伴,也是(shi)首家(jia)提(ti)供英偉達(da)GPU的(de)云服務提(ti)供商(shang)。我們很高興能(neng)(neng)夠(gou)結合各自的(de)專長、規模和(he)(he)(he)(he)業(ye)務范圍,幫助客戶利(li)用加(jia)速(su)計算和(he)(he)(he)(he)生成式(shi)(shi)AI抓住未來的(de)大好機(ji)遇。”
新的超級計算集群
新的(de)P5實(shi)例構(gou)建于(yu)亞馬(ma)遜云科技和(he)(he)英偉達(da)十多年來在(zai)AI和(he)(he)HPC基(ji)礎設施(shi)交付方(fang)面的(de)合(he)作基(ji)礎之上,也立足于(yu)雙(shuang)方(fang)在(zai)P2、P3、P3dn和(he)(he)P4d(e)前(qian)四代實(shi)例方(fang)面的(de)合(he)作。P5實(shi)例是基(ji)于(yu)英偉達(da)GPU的(de)第五代亞馬(ma)遜云科技產品,與最(zui)初部署的(de)英偉達(da)GPU(始于(yu)CG1實(shi)例)已相隔近13年。
P5實(shi)例非常適(shi)合對日益復(fu)雜的LLM和計算機視覺(jue)模型進行訓練和運(yun)行推理,并應用(yong)(yong)于要求嚴苛的計算密集型生成(cheng)(cheng)式AI應用(yong)(yong)程序,包(bao)括問(wen)題回答、代碼生成(cheng)(cheng)、視頻圖像生成(cheng)(cheng)和語(yu)音識別等領域。
對于(yu)致力于(yu)以可擴(kuo)展(zhan)和(he)安全的方(fang)式(shi)將(jiang)AI賦(fu)能(neng)的創新推向市場的企業和(he)初(chu)創公司(si)而(er)言,P5實(shi)(shi)例(li)是(shi)不二之選(xuan)。P5實(shi)(shi)例(li)采用8個(ge)(ge)英偉(wei)達H100 GPU,能(neng)夠在(zai)一(yi)個(ge)(ge)Amazon EC2實(shi)(shi)例(li)中實(shi)(shi)現16 petaFLOPs的混(hun)合精度性能(neng)、640 GB的高(gao)帶寬(kuan)內存(cun)和(he)3200 Gbps的網絡(luo)連接(比(bi)上(shang)一(yi)代(dai)實(shi)(shi)例(li)高(gao)出8倍(bei)(bei))。P5實(shi)(shi)例(li)性能(neng)的提升使機(ji)器(qi)學習(xi)(xi)模(mo)型(xing)訓(xun)(xun)練(lian)時間(jian)加快了(le)6倍(bei)(bei)(將(jiang)訓(xun)(xun)練(lian)時間(jian)從數天縮(suo)短到數小時),額外的GPU內存(cun)可幫助客戶訓(xun)(xun)練(lian)更(geng)龐大更(geng)復雜的模(mo)型(xing)。預計P5實(shi)(shi)例(li)的機(ji)器(qi)學習(xi)(xi)模(mo)型(xing)訓(xun)(xun)練(lian)成(cheng)本將(jiang)比(bi)上(shang)一(yi)代(dai)降低40%。相比(bi)靈活(huo)性較差的云(yun)產品或昂貴的本地系統,它為客戶提供了(le)更(geng)高(gao)的效率。
Amazon EC2 P5實例部署(shu)在(zai)(zai)(zai)Amazon EC2 UltraCluster的(de)(de)超大(da)規(gui)模集群(qun)中,該集群(qun)由(you)云(yun)端最(zui)高(gao)性能(neng)的(de)(de)計算、網(wang)絡和(he)存(cun)儲系統(tong)組成。每(mei)個(ge)EC2 UltraCluster都是世(shi)界(jie)上功能(neng)最(zui)強大(da)的(de)(de)超級(ji)計算機(ji)之一,助(zhu)力客(ke)戶(hu)運(yun)行(xing)(xing)最(zui)復(fu)雜(za)的(de)(de)多節(jie)點機(ji)器學(xue)習訓(xun)練和(he)分布式HPC工作負載。它們采(cai)用(yong)(yong)PB級(ji)無阻塞網(wang)絡,基于(yu)Amazon EFA,這(zhe)種面向Amazon EC2實例的(de)(de)網(wang)絡接(jie)口(kou)使(shi)(shi)客(ke)戶(hu)能(neng)夠(gou)在(zai)(zai)(zai)亞馬遜云(yun)科技(ji)上運(yun)行(xing)(xing)需(xu)要在(zai)(zai)(zai)大(da)規(gui)模高(gao)級(ji)節(jie)點間通(tong)信的(de)(de)應(ying)用(yong)(yong)程(cheng)序。EFA的(de)(de)定(ding)制操作系統(tong)繞過硬件接(jie)口(kou),并與(yu)英偉(wei)達(da)GPUDirect RDMA整合(he),可(ke)降低延(yan)遲、提(ti)(ti)高(gao)帶寬利用(yong)(yong)率,從(cong)而提(ti)(ti)升實例間通(tong)信性能(neng),這(zhe)對于(yu)在(zai)(zai)(zai)數(shu)百(bai)個(ge)P5節(jie)點上擴(kuo)展(zhan)深(shen)度(du)(du)學(xue)習模型的(de)(de)訓(xun)練至關(guan)重要。借助(zhu)P5實例和(he)EFA,機(ji)器學(xue)習應(ying)用(yong)(yong)程(cheng)序可(ke)以(yi)使(shi)(shi)用(yong)(yong)NVIDIA Collective Communications Library(NCCL)擴(kuo)展(zhan)到多達(da)2萬個(ge)H100 GPU。因此,客(ke)戶(hu)可(ke)以(yi)通(tong)過亞馬遜云(yun)科技(ji)的(de)(de)按需(xu)彈性和(he)靈活擴(kuo)展(zhan)能(neng)力,獲得本地HPC集群(qun)的(de)(de)應(ying)用(yong)(yong)性能(neng)。除了(le)這(zhe)些出(chu)色的(de)(de)計算能(neng)力外,客(ke)戶(hu)可(ke)以(yi)使(shi)(shi)用(yong)(yong)業界(jie)最(zui)廣泛(fan)最(zui)深(shen)入的(de)(de)服務(wu)組合(he),比如(ru)面向對象存(cun)儲的(de)(de)Amazon S3、面向高(gao)性能(neng)文件系統(tong)的(de)(de)Amazon FSx,以(yi)及用(yong)(yong)于(yu)構(gou)建、訓(xun)練和(he)部署(shu)深(shen)度(du)(du)學(xue)習應(ying)用(yong)(yong)的(de)(de)Amazon SageMaker。P5實例將(jiang)在(zai)(zai)(zai)今后幾周(zhou)提(ti)(ti)供(gong)有限預覽版。
借助(zhu)(zhu)新的Amazon EC2 P5實(shi)例,Anthropic、Cohere、Hugging Face、Pinterest和(he)Stability AI等客戶將能夠大規模構建(jian)和(he)訓練最龐大的機器學(xue)習(xi)模型。基于其它幾代(dai)Amazon EC2實(shi)例的合作將幫助(zhu)(zhu)初創公司、大企業和(he)研(yan)究人(ren)員無縫擴展(zhan)來滿足各自的機器學(xue)習(xi)需求。
Anthropic構建了(le)可(ke)(ke)(ke)靠、可(ke)(ke)(ke)解(jie)(jie)釋和(he)(he)可(ke)(ke)(ke)操控的(de)(de)(de)(de)(de)(de)AI系(xi)統(tong),將創(chuang)造巨大商業價值(zhi)并造福公(gong)眾。 “Anthropic正在努(nu)力構建可(ke)(ke)(ke)靠、可(ke)(ke)(ke)解(jie)(jie)釋和(he)(he)可(ke)(ke)(ke)操控的(de)(de)(de)(de)(de)(de)AI系(xi)統(tong)。雖然當前(qian)已有(you)的(de)(de)(de)(de)(de)(de)大型(xing)(xing)通(tong)用AI系(xi)統(tong)大有(you)助(zhu)益,但它(ta)們(men)卻是不可(ke)(ke)(ke)預測、不可(ke)(ke)(ke)靠和(he)(he)不透明的(de)(de)(de)(de)(de)(de)。我(wo)們(men)的(de)(de)(de)(de)(de)(de)目的(de)(de)(de)(de)(de)(de)是解(jie)(jie)決(jue)這(zhe)(zhe)些(xie)問題,為(wei)人們(men)部署更(geng)實(shi)(shi)用的(de)(de)(de)(de)(de)(de)系(xi)統(tong)。”Anthropic的(de)(de)(de)(de)(de)(de)聯合創(chuang)始人Tom Brown表示,“我(wo)們(men)是全球為(wei)數(shu)不多(duo)的(de)(de)(de)(de)(de)(de)在深度(du)學習(xi)研究領域建立(li)基礎模(mo)型(xing)(xing)的(de)(de)(de)(de)(de)(de)組(zu)織之一(yi)。這(zhe)(zhe)種模(mo)型(xing)(xing)高(gao)度(du)復(fu)雜(za),為(wei)了(le)開發和(he)(he)訓練先進(jin)的(de)(de)(de)(de)(de)(de)模(mo)型(xing)(xing),我(wo)們(men)需要在龐(pang)大的(de)(de)(de)(de)(de)(de)GPU集(ji)群中有(you)效地分布這(zhe)(zhe)些(xie)模(mo)型(xing)(xing)。我(wo)們(men)正在廣泛應用Amazon EC2 P4實(shi)(shi)例(li),我(wo)們(men)更(geng)為(wei)即將發布的(de)(de)(de)(de)(de)(de)P5實(shi)(shi)例(li)感到興奮。預計(ji)P5實(shi)(shi)例(li)會(hui)提供比(bi)P4d實(shi)(shi)例(li)更(geng)顯著的(de)(de)(de)(de)(de)(de)性價比(bi)優勢,它(ta)們(men)可(ke)(ke)(ke)以(yi)滿足(zu)構建下(xia)一(yi)代大語(yu)言模(mo)型(xing)(xing)和(he)(he)相關產品的(de)(de)(de)(de)(de)(de)大規模(mo)需求。”
Cohere是(shi)自(zi)然(ran)語(yu)言(yan)(yan)AI領域(yu)的(de)(de)(de)先(xian)(xian)驅,它幫助開發者和(he)企(qi)業(ye)使用(yong)世界領先(xian)(xian)的(de)(de)(de)自(zi)然(ran)語(yu)言(yan)(yan)處理(NLP)技術構建(jian)出色的(de)(de)(de)產(chan)(chan)品(pin),同時(shi)確保數(shu)據的(de)(de)(de)隱私和(he)安(an)全。 “Cohere不遺余力地(di)(di)幫助企(qi)業(ye)利用(yong)自(zi)然(ran)語(yu)言(yan)(yan)AI的(de)(de)(de)強大功能,以(yi)自(zi)然(ran)直觀(guan)的(de)(de)(de)方式探索、生(sheng)成和(he)搜索信息,并做出反應,并將產(chan)(chan)品(pin)部署(shu)在多云的(de)(de)(de)數(shu)據環境中,為客戶(hu)提供最佳(jia)體(ti)驗。”Cohere首席執行(xing)官Aidan Gomez表示,“基于英偉達H100的(de)(de)(de)Amazon EC2 P5實例將釋放企(qi)業(ye)潛(qian)能,利用(yong)計算能力以(yi)及Cohere最先(xian)(xian)進的(de)(de)(de)LLM和(he)生(sheng)成式AI能力,更(geng)快地(di)(di)開發產(chan)(chan)品(pin)、拓展業(ye)務和(he)擴大規模。”
Hugging Face的(de)使(shi)命是普及優秀(xiu)的(de)機(ji)器學習。 “作(zuo)為發展最迅猛的(de)機(ji)器學習開源社區,我們如今(jin)在面向NLP、計算機(ji)視覺、生(sheng)物學和(he)強化(hua)學習等領域的(de)平臺上提供逾15萬個預訓練模(mo)型(xing)和(he)2.5萬個數據集(ji)。”Hugging Face首(shou)席技術(shu)官(guan)兼聯合(he)(he)創始人Julien Chaumond表示,“鑒(jian)于大語言模(mo)型(xing)和(he)生(sheng)成式AI取得了顯(xian)著進步,我們正(zheng)與(yu)亞馬遜云(yun)科技合(he)(he)作(zuo),以(yi)構建和(he)貢獻未來的(de)開源模(mo)型(xing)。我們希望在結合(he)(he)了EFA的(de)UltraCluster集(ji)群中(zhong)通過大規模(mo)Amazon SageMaker使(shi)用Amazon EC2 P5實例,加快為所有客戶交付新的(de)基礎AI模(mo)型(xing)。”
如今,全(quan)球超過4.5億人通過Pinterest尋(xun)找視覺靈(ling)感,以購買符合自己品味(wei)的(de)(de)個性化產(chan)品、尋(xun)求線下(xia)創(chuang)意,并發現最(zui)有才(cai)華(hua)的(de)(de)創(chuang)作者。 “我(wo)們在用(yong)例(li)中(zhong)廣泛使用(yong)深度學習技術,比如對上傳到我(wo)們平臺上的(de)(de)數(shu)十億張照片進行標記和(he)(he)分類,以及讓用(yong)戶獲(huo)得從靈(ling)感到付諸行動(dong)的(de)(de)視覺搜索能力。”Pinterest首席(xi)架構師(shi)David Chaiken表示(shi),“我(wo)們使用(yong)P3和(he)(he)最(zui)新的(de)(de)P4d等(deng)Amazon GPU實例(li)構建和(he)(he)部署(shu)了這(zhe)些應用(yong)場(chang)景。我(wo)們希望使用(yong)由H100 GPU、EFA和(he)(he)Ultracluster加持的(de)(de)Amazon EC2 P5實例(li),加快產(chan)品開(kai)發,為(wei)我(wo)們的(de)(de)客戶提(ti)供共情式AI(Empathetic AI)體(ti)驗。”
作為(wei)多(duo)模(mo)(mo)態(tai)、開源AI模(mo)(mo)型(xing)開發和部署領域(yu)的(de)(de)領導(dao)者,Stability AI與公共和私(si)營部門的(de)(de)合(he)(he)作伙(huo)伴(ban)合(he)(he)作,將這種下一代基礎架構(gou)提供(gong)(gong)給全球受眾。 “Stability AI的(de)(de)目標是最大限度地提高現(xian)代AI的(de)(de)普及性(xing)(xing),以激發全球創造(zao)力(li)和創新性(xing)(xing)。”Stability AI首席(xi)執行官Emad Mostaque表示,“我(wo)(wo)們(men)于2021年(nian)開始與亞馬(ma)遜云科技合(he)(he)作,使(shi)(shi)(shi)用Amazon EC2 P4d實例(li)構(gou)建了一個(ge)潛(qian)在的(de)(de)文(wen)本到(dao)圖像擴散(san)模(mo)(mo)型(xing)Stable Diffusion,我(wo)(wo)們(men)將該模(mo)(mo)型(xing)部署在大規(gui)模(mo)(mo)環境下,將模(mo)(mo)型(xing)訓練(lian)時(shi)(shi)間(jian)從數月縮短到(dao)數周。當致力(li)于開發下一代開源生成式AI模(mo)(mo)型(xing)并擴展到(dao)新模(mo)(mo)型(xing)時(shi)(shi),我(wo)(wo)們(men)很(hen)高興能使(shi)(shi)(shi)用第二代EC2 UltraCluster中的(de)(de)Amazon EC2 P5實例(li)。我(wo)(wo)們(men)預計P5實例(li)會進一步將我(wo)(wo)們(men)的(de)(de)模(mo)(mo)型(xing)訓練(lian)時(shi)(shi)間(jian)縮短4倍,從而使(shi)(shi)(shi)我(wo)(wo)們(men)能夠以更低的(de)(de)成本更快(kuai)地提供(gong)(gong)突破性(xing)(xing)的(de)(de)AI。”
為可擴展、高效的AI采用新的服務器設計
在(zai)H100發布之前,英偉達和在(zai)熱力、電氣和機械領域擁有專業知識的亞(ya)馬遜云科(ke)技(ji)工程團隊合作(zuo)設計了(le)服務器,以利用GPU提供大(da)規模AI,重點(dian)關注(zhu)亞(ya)馬遜云科(ke)技(ji)基礎設施(shi)的能(neng)(neng)源效(xiao)率。在(zai)某(mou)些AI工作(zuo)負載下(xia),GPU的能(neng)(neng)效(xiao)通常(chang)是CPU的20倍,對于LLM而言(yan),H100的能(neng)(neng)效(xiao)比CPU高300倍。
雙方的(de)合作包括開發(fa)系統散(san)熱設計(ji)、集成式安全(quan)和系統管(guan)理、與Amazon Nitro硬件加速虛擬機管(guan)理程(cheng)序一(yi)起實現安全(quan)性(xing),以及針對亞(ya)馬(ma)遜云科(ke)技定制EFA網絡結構的(de)英偉(wei)達(da)GPUDirect?優(you)化技術。
在亞馬遜云科技(ji)和(he)(he)英偉(wei)達專(zhuan)注于(yu)服務器優化工作的基礎(chu)上,兩家公司現(xian)已(yi)開始合(he)作開發(fa)未(wei)來(lai)的服務器設計,以借助新一代(dai)系統設計、冷卻技(ji)術和(he)(he)網絡可(ke)擴展性提(ti)高擴展效率。