国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

面向大模型訓練,騰訊云發布新一代高性能計算集群
作者 | 物聯網智庫2023-04-14

國內性能最(zui)強(qiang)的大模型計算集群(qun),來了(le)!

4月14日,騰訊云(yun)(yun)正式(shi)發布面向大模型訓練的(de)新一代HCC(High-Performance Computing Cluster)高性(xing)能計算(suan)集(ji)群。該集(ji)群采用最新一代騰訊云(yun)(yun)星(xing)星(xing)海自研服務器,搭(da)載了NVIDIA H800 Tensor Core GPU,并提(ti)供業界(jie)目前(qian)最高的(de)3.2T超(chao)高互聯帶寬。

實測結果顯(xian)示,騰(teng)訊云(yun)新一代集群的(de)算力性能較前代提升高達3倍。

去年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基于新一代集群,訓練時間將進一步縮短至4天。

圖片1

大模(mo)型進(jin)入萬億參數時代(dai),對算(suan)力(li)的(de)需求陡增。在單體(ti)服務器計(ji)算(suan)能(neng)力(li)有限的(de)情況下,需要將上(shang)千臺服務器相連,打(da)造大規模(mo)、分布(bu)式的(de)高性(xing)能(neng)計(ji)算(suan)集群(qun)。騰(teng)訊云新一(yi)代(dai)集群(qun)通過對單機算(suan)力(li)、網絡架構和存儲性(xing)能(neng)進(jin)行協同優(you)化,能(neng)夠為大模(mo)型訓練提供(gong)高性(xing)能(neng)、高帶寬、低(di)延遲(chi)的(de)智算(suan)能(neng)力(li)支撐(cheng)。

計算層面,服務器的單機性能是集群算力的基礎。在非稀疏規格情況下,新一代集群單GPU卡支持輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。針對大模型訓練場景,騰訊云星星海服務器采用6U超高密度設計,相較行業可支持的上架密度提高30%;利用并行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至最強。

圖片2

網絡層面,計算(suan)節點間存(cun)在海(hai)量的(de)(de)(de)(de)數據交互需求,隨著集(ji)群(qun)規模擴大(da),通(tong)信(xin)性能(neng)會(hui)直接影響訓練效率。騰訊(xun)自研的(de)(de)(de)(de)星(xing)脈網絡,為新(xin)一代集(ji)群(qun)帶(dai)來了業界最高(gao)的(de)(de)(de)(de)3.2T的(de)(de)(de)(de)超(chao)高(gao)通(tong)信(xin)帶(dai)寬(kuan)(kuan)。節點內外統一的(de)(de)(de)(de)AllReduce通(tong)信(xin)帶(dai)寬(kuan)(kuan),實(shi)(shi)現網絡和算(suan)力(li)的(de)(de)(de)(de)最大(da)協同(tong)。實(shi)(shi)測(ce)結(jie)果顯示,搭(da)載同(tong)樣的(de)(de)(de)(de)GPU,最新(xin)的(de)(de)(de)(de)3.2T星(xing)脈網絡相較(jiao)1.6T網絡,能(neng)讓集(ji)群(qun)整體算(suan)力(li)提升20%。

 

圖片3

圖片4

基于多軌道聚合的(de)(de)無阻塞網絡架構(gou)、主動(dong)擁塞控制和定(ding)制加速通信(xin)庫(ku),騰訊云能(neng)(neng)提(ti)供(gong)業界領先的(de)(de)集群(qun)構(gou)建能(neng)(neng)力(li),支(zhi)持單集群(qun)高(gao)達十(shi)萬卡級(ji)別的(de)(de)組網規模。在(zai)超大集群(qun)場景(jing)下,仍然能(neng)(neng)保持優秀的(de)(de)通信(xin)開銷比和吞吐(tu)性能(neng)(neng),滿足(zu)大模型(xing)訓練以及推理業務的(de)(de)橫向擴展。

同(tong)時,騰訊自研高(gao)性(xing)能(neng)集合通(tong)信庫(ku)TCCL,基(ji)于(yu)星脈網絡硬件平臺深度優(you)化,在全局(ju)路(lu)徑規劃(hua)、拓撲感知(zhi)親(qin)和性(xing)調度、網絡故(gu)障實(shi)時告警/自愈等方(fang)面(mian)融入了定(ding)制(zhi)設計的(de)解(jie)決方(fang)案。相對業界開源集合通(tong)信庫(ku),為大模(mo)型訓(xun)練(lian)優(you)化40%負載性(xing)能(neng),消除多個網絡原因導致訓(xun)練(lian)中斷問題(ti)。

存儲(chu)(chu)層面,訓(xun)練場景下,幾千臺計算(suan)節點會同時(shi)讀取一批數據集,需要盡(jin)可能縮短(duan)數據集的(de)加載時(shi)長。新一代(dai)集群,引入(ru)了(le)騰訊云最新自研存儲(chu)(chu)架構,支(zhi)持不(bu)同場景下對存儲(chu)(chu)的(de)需求。

COS+GooseFS對象存儲方案,提供多層緩存加速,大幅提升端到端的數據讀取性能;將公開數據集、訓練數據、模型結果統一存儲到對象存儲COS中,實現數據統一存儲和高效流轉。同時,GooseFS按需將熱數據緩存到GPU內存和本地盤中,利用數據本地性提供高性能訪問。

圖片5

CFS Turbo高性能并行文件存儲方案,采取多級緩存加速,基于全分布式架構,提供100GB/s帶寬、1000萬IOPS的極致性能。并通過持久化客戶端緩存技術,將裸金屬服務器本地NVMe SSD和Turbo文件系統構成統一命名空間,實現微秒級延時,解決大模型場景大數據量、高帶寬、低延時的訴求。同時,通過智能分層技術,自動對冷熱數據分層,節省80%的存儲成本,提供極致的性價比。

圖片6

底層架構之上,針對大模(mo)型(xing)訓練場景,新(xin)一代集群集成了騰訊云(yun)自(zi)研(yan)的TACO Train訓練加速(su)引擎,對網絡(luo)協(xie)議(yi)、通(tong)信策略、AI框(kuang)架、模(mo)型(xing)編譯進行(xing)大量系統級優(you)化(hua),大幅節(jie)約訓練調優(you)和算力(li)成本(ben)。

騰(teng)訊混元大(da)(da)模(mo)型(xing)背后的(de)訓(xun)練框(kuang)架AngelPTM,也已通過騰(teng)訊云(yun)對外提供服(fu)務,幫助企(qi)業加速大(da)(da)模(mo)型(xing)落地(di)。目(mu)前(qian),騰(teng)訊混元AI大(da)(da)模(mo)型(xing)已經覆蓋了(le)自然(ran)語言處理、計算機(ji)視(shi)覺、多(duo)模(mo)態等基礎模(mo)型(xing)和(he)眾多(duo)行業、領域模(mo)型(xing)。

在騰訊云上,企業基于TI 平臺的大模型能力和工具箱,可結合產業場景數據進行精調訓練,提升生產效率,快速創建和部署 AI 應用。

圖片7

此前,騰訊多款自研芯片已經量(liang)產(chan)。其中(zhong),用(yong)于(yu)AI推理的(de)紫(zi)霄芯片(pian)、用(yong)于(yu)視頻轉碼的(de)滄海芯片(pian)已在騰(teng)訊(xun)內(nei)部交付使(shi)用(yong),性(xing)能(neng)指標和綜合性(xing)價比顯(xian)著優于(yu)業界。其中(zhong),紫(zi)霄采用(yong)自研存算架構,增(zeng)加(jia)(jia)片(pian)上內(nei)存容(rong)量(liang)并使(shi)用(yong)更先進的(de)內(nei)存技術,消除訪(fang)存能(neng)力不足(zu)制(zhi)約芯片(pian)性(xing)能(neng)的(de)問(wen)題,同時(shi)內(nei)置集成(cheng)騰(teng)訊(xun)自研加(jia)(jia)速模塊,減(jian)少與CPU握手等待(dai)時(shi)間。目前,紫(zi)霄已經在騰(teng)訊(xun)頭部業務規(gui)模部署,提供高達(da)3倍的(de)計算加(jia)(jia)速性(xing)能(neng),和超過45%的(de)整體成(cheng)本節省。

目前,騰(teng)訊云(yun)的(de)分布式云(yun)原生調度總規模超(chao)過1.5億核,并提供(gong)16 EFLOPS(每秒(miao)1600億億次浮點(dian)運算)的(de)智(zhi)算算力。未來,新一代集群不僅能服務(wu)于大模型訓練,還將在自動駕駛、科學計算、自然語言處(chu)理等場(chang)景中充(chong)分應(ying)用。

以(yi)新一(yi)代集群(qun)為標志,基(ji)于(yu)自研(yan)芯片、星(xing)星(xing)海自研(yan)服(fu)務器和分布式(shi)云(yun)(yun)操作系統遨馳,騰訊云(yun)(yun)正通過軟硬(ying)一(yi)體的方(fang)式(shi),打造面(mian)向AIGC的高(gao)性能智算網絡,持續加(jia)速全社會云(yun)(yun)上創新。

熱門文章
4月13日,山東省自然資源廳組織專家在壽光市就“壽光市智慧城市時空大數據平臺建設省級試點項目”進行驗收。在驗收現場,專家組聽取了試點工作匯報和技術匯報,觀看了系統演示,審閱了相關文檔資料,經質詢和討論
2023-04-14
X