国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

面向大模型訓練,騰訊云發布新一代高性能計算集群
作者 | 物聯網智(zhi)庫2023-04-14

國內性能最強的大模型計(ji)算集群,來了!

4月14日,騰訊云正式發(fa)布面向大(da)模型訓練的(de)新一(yi)代(dai)HCC(High-Performance Computing Cluster)高(gao)性(xing)能計算集(ji)群。該(gai)集(ji)群采用最新一(yi)代(dai)騰訊云星(xing)星(xing)海自研服務器,搭(da)載了NVIDIA H800 Tensor Core GPU,并提供(gong)業界(jie)目前最高(gao)的(de)3.2T超高(gao)互(hu)聯帶(dai)寬(kuan)。

實測結果顯示,騰訊云新一(yi)代集(ji)群的算力性(xing)能較前代提升高達3倍(bei)。

去年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基于新一代集群,訓練時間將進一步縮短至4天。

圖片1

大模(mo)型進入萬(wan)億參數時代(dai),對(dui)(dui)算力(li)(li)的需(xu)(xu)求陡(dou)增。在(zai)單體服(fu)務器計算能(neng)(neng)(neng)力(li)(li)有(you)限的情(qing)況下,需(xu)(xu)要將上千(qian)臺服(fu)務器相連,打造大規模(mo)、分布(bu)式(shi)的高性能(neng)(neng)(neng)計算集群(qun)。騰訊云新一代(dai)集群(qun)通過(guo)對(dui)(dui)單機算力(li)(li)、網絡架構和存儲性能(neng)(neng)(neng)進行(xing)協同優(you)化,能(neng)(neng)(neng)夠為大模(mo)型訓練提供高性能(neng)(neng)(neng)、高帶寬、低延遲的智算能(neng)(neng)(neng)力(li)(li)支撐。

計算層面,服務器的單機性能是集群算力的基礎。在非稀疏規格情況下,新一代集群單GPU卡支持輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。針對大模型訓練場景,騰訊云星星海服務器采用6U超高密度設計,相較行業可支持的上架密度提高30%;利用并行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至最強。

圖片2

網絡(luo)層面,計算節(jie)點間存在海量的(de)數據交(jiao)互需求(qiu),隨著(zhu)集(ji)群規模擴大(da),通信(xin)(xin)性(xing)能會(hui)直(zhi)接(jie)影(ying)響訓(xun)練效率(lv)。騰(teng)訊(xun)自研的(de)星脈網絡(luo),為新(xin)一代集(ji)群帶來了(le)業界(jie)最(zui)高(gao)的(de)3.2T的(de)超高(gao)通信(xin)(xin)帶寬(kuan)。節(jie)點內(nei)外統一的(de)AllReduce通信(xin)(xin)帶寬(kuan),實(shi)現網絡(luo)和算力(li)的(de)最(zui)大(da)協同。實(shi)測(ce)結果(guo)顯(xian)示,搭(da)載同樣(yang)的(de)GPU,最(zui)新(xin)的(de)3.2T星脈網絡(luo)相較(jiao)1.6T網絡(luo),能讓(rang)集(ji)群整體算力(li)提(ti)升20%。

 

圖片3

圖片4

基于多軌道(dao)聚合的無阻塞網(wang)絡架構(gou)、主動擁(yong)塞控(kong)制和(he)定制加速通(tong)信庫,騰訊云能(neng)(neng)提供業(ye)界領先的集(ji)群(qun)構(gou)建能(neng)(neng)力(li),支持單集(ji)群(qun)高(gao)達十萬卡級別的組網(wang)規模(mo)。在(zai)超(chao)大集(ji)群(qun)場(chang)景下,仍然(ran)能(neng)(neng)保持優秀的通(tong)信開(kai)銷比和(he)吞吐性能(neng)(neng),滿足大模(mo)型訓(xun)練以及推理(li)業(ye)務的橫向擴展。

同時(shi),騰訊自(zi)研高性能集(ji)合通信庫TCCL,基于星脈(mo)網(wang)絡(luo)硬件平臺深度優化(hua),在全(quan)局路(lu)徑規劃、拓撲感(gan)知(zhi)親(qin)和性調度、網(wang)絡(luo)故障實(shi)時(shi)告警/自(zi)愈(yu)等方(fang)(fang)面融入(ru)了(le)定制設計的(de)解決方(fang)(fang)案。相(xiang)對業(ye)界開源集(ji)合通信庫,為大模型訓練(lian)優化(hua)40%負載性能,消(xiao)除多個網(wang)絡(luo)原因導致訓練(lian)中斷問題。

存儲(chu)層(ceng)面,訓(xun)練場(chang)景下,幾(ji)千臺計(ji)算節點會同(tong)時讀取(qu)一批數(shu)據集(ji),需(xu)要盡可能縮(suo)短(duan)數(shu)據集(ji)的加載時長。新(xin)一代集(ji)群,引入了騰訊云最新(xin)自研(yan)存儲(chu)架(jia)構,支持(chi)不同(tong)場(chang)景下對存儲(chu)的需(xu)求。

COS+GooseFS對象存儲方案,提供多層緩存加速,大幅提升端到端的數據讀取性能;將公開數據集、訓練數據、模型結果統一存儲到對象存儲COS中,實現數據統一存儲和高效流轉。同時,GooseFS按需將熱數據緩存到GPU內存和本地盤中,利用數據本地性提供高性能訪問。

圖片5

CFS Turbo高性能并行文件存儲方案,采取多級緩存加速,基于全分布式架構,提供100GB/s帶寬、1000萬IOPS的極致性能。并通過持久化客戶端緩存技術,將裸金屬服務器本地NVMe SSD和Turbo文件系統構成統一命名空間,實現微秒級延時,解決大模型場景大數據量、高帶寬、低延時的訴求。同時,通過智能分層技術,自動對冷熱數據分層,節省80%的存儲成本,提供極致的性價比。

圖片6

底(di)層(ceng)架(jia)(jia)構之(zhi)上,針對大(da)模型(xing)訓(xun)(xun)(xun)練場景,新一代(dai)集群集成了(le)騰訊云自研(yan)的TACO Train訓(xun)(xun)(xun)練加速引擎,對網絡協(xie)議、通信策略、AI框架(jia)(jia)、模型(xing)編譯進行大(da)量系統級優(you)化(hua),大(da)幅節約(yue)訓(xun)(xun)(xun)練調(diao)優(you)和算力成本。

騰(teng)訊(xun)混(hun)元大模(mo)(mo)(mo)型(xing)背后(hou)的訓(xun)練(lian)框(kuang)架AngelPTM,也已通過騰(teng)訊(xun)云(yun)對(dui)外提供服(fu)務,幫助企業加速大模(mo)(mo)(mo)型(xing)落地。目前,騰(teng)訊(xun)混(hun)元AI大模(mo)(mo)(mo)型(xing)已經(jing)覆蓋了自(zi)然語言處理、計算機視(shi)覺、多(duo)模(mo)(mo)(mo)態(tai)等(deng)基(ji)礎模(mo)(mo)(mo)型(xing)和眾多(duo)行業、領域模(mo)(mo)(mo)型(xing)。

在騰訊云上,企業基于TI 平臺的大模型能力和工具箱,可結合產業場景數據進行精調訓練,提升生產效率,快速創建和部署 AI 應用。

圖片7

此前,騰訊多款自研芯片已經量產。其中,用(yong)于AI推理的紫(zi)霄(xiao)芯片、用(yong)于視頻轉碼(ma)的滄(cang)海芯片已在騰(teng)訊(xun)內(nei)部(bu)交付(fu)使(shi)用(yong),性能(neng)(neng)指標和綜合性價比(bi)顯著優于業界。其中,紫(zi)霄(xiao)采用(yong)自研存算架構(gou),增加片上內(nei)存容量并使(shi)用(yong)更先進的內(nei)存技術(shu),消除(chu)訪存能(neng)(neng)力不足(zu)制(zhi)約芯片性能(neng)(neng)的問(wen)題(ti),同時(shi)內(nei)置集(ji)成(cheng)騰(teng)訊(xun)自研加速模塊,減少與CPU握手等(deng)待時(shi)間。目(mu)前,紫(zi)霄(xiao)已經在騰(teng)訊(xun)頭部(bu)業務規模部(bu)署,提(ti)供高(gao)達(da)3倍的計算加速性能(neng)(neng),和超過45%的整體成(cheng)本節(jie)省。

目前,騰訊云(yun)(yun)的分(fen)布式云(yun)(yun)原(yuan)生調度(du)總規模超(chao)過1.5億核,并提(ti)供16 EFLOPS(每秒1600億億次浮點運算(suan)(suan))的智算(suan)(suan)算(suan)(suan)力。未來,新一代集(ji)群不(bu)僅能服(fu)務于大(da)模型訓練,還(huan)將在自動駕駛、科學計算(suan)(suan)、自然語(yu)言(yan)處理等場(chang)景中充分(fen)應用。

以新(xin)一代集群(qun)為標志,基于自(zi)研芯片、星星海自(zi)研服務(wu)器和分(fen)布(bu)式云(yun)(yun)操作系(xi)統遨馳,騰訊云(yun)(yun)正通過軟硬一體的方式,打造面向AIGC的高性能智算網絡,持續加速全社會云(yun)(yun)上(shang)創(chuang)新(xin)。

熱門文章
4月13日,山東省自然資源廳組織專家在壽光市就“壽光市智慧城市時空大數據平臺建設省級試點項目”進行驗收。在驗收現場,專家組聽取了試點工作匯報和技術匯報,觀看了系統演示,審閱了相關文檔資料,經質詢和討論
2023-04-14
X