腾讯发布新一代超强算力集群：面向大模型训练，性能提升3倍

国产人妻精品区一区二区,国产农村妇女毛片精品久久,JAPANESE日本丰满少妇,日本公妇理伦a片,射精专区一区二区朝鲜

騰訊發布新一代超強算力集群：面向大模型訓練，性能提升3倍

作者 | IT之家(jia)2023-04-14

IT之家 4 月 14 日消息，IT之家從騰訊官方獲悉，騰訊云發布了新(xin)一代 HCC 高(gao)性能計(ji)算集群(qun)，采(cai)用最新一代星(xing)星(xing)海自研服務器，搭載(zai)英偉達 H800 Tensor Core GPU。

騰訊官方稱，該集群基于自研網絡、存儲架構，帶來 3.2T 超高互聯帶寬、TB 級吞吐能力和千萬級 IOPS。實測結果顯示，新(xin)一(yi)代集(ji)群算力(li)性(xing)能較前代提升 3 倍。

去年 10 月，騰訊完成首個萬億參數的 AI 大模型 —— 混元 NLP 大模型訓練。在同等數據集下，將訓練時間由 50 天縮短到 11 天。如果基于新一代集群，訓練時間(jian)將進(jin)一步縮短至 4 天。

計算層面，服務器單機性能是集群算力的基礎，騰訊云新一代集群的單 GPU 卡在不同精度下，支持輸出最高 1979 TFlops 的算力。

針對(dui)大模(mo)型場景，星星海自(zi)研服務器(qi)采用 6U 超高密(mi)度(du)設(she)計，相較行業可支持的上架密(mi)度(du)提(ti)高 30%；利用并行計算(suan)理念，通過 CPU 和 GPU 節(jie)點的一體化設(she)計，將(jiang)單點算(suan)力性能(neng)提(ti)升至(zhi)更高。

網絡(luo)層面，計算節(jie)點(dian)間，存(cun)在著海量的數據交(jiao)互(hu)需求。隨著集群規(gui)模擴大，通信性能(neng)會(hui)直接影響訓練效率，需要實現網絡(luo)和計算節(jie)點(dian)的最(zui)大協(xie)同。

騰訊自研的星脈高性能計算網絡，號稱具備業界最高的 3.2T RDMA 通信帶寬。實測結果顯示，搭載同等(deng)數量的(de) GPU，3.2T 星脈(mo)網絡(luo)相較(jiao) 1.6T 網絡(luo)，集群(qun)整(zheng)體算力提升 20%。

同時，騰訊自研的高性能集合通信庫 TCCL，融入定制設計的解決方案。相對業界開源集合通信庫，為大(da)模型訓(xun)練優化 40% 負載性能，消(xiao)除(chu)多個網絡原因導(dao)致的訓練中(zhong)斷問題。

存儲層面(mian)，大模型訓練(lian)中，大量計(ji)(ji)算(suan)節點(dian)會同時(shi)(shi)讀取一批數據集，需要盡可(ke)能縮(suo)短數據加載(zai)時(shi)(shi)長(chang)，避(bi)免(mian)計(ji)(ji)算(suan)節點(dian)產生等待。

騰訊云自研的存儲架構，具備(bei) TB 級(ji)吞吐能(neng)力和千萬級(ji) IOPS，支持不同(tong)場(chang)景下對存(cun)儲(chu)的(de)需求(qiu)(qiu)。COS+GooseFS 對象存(cun)儲(chu)方案(an)和(he) CFS Turbo 高性(xing)能文件(jian)存(cun)儲(chu)方案(an)，充分滿足大模型場(chang)景下高性(xing)能、大吞吐和(he)海(hai)量存(cun)儲(chu)要求(qiu)(qiu)。