IT之家 4 月 14 日消息,IT之家從騰訊官方獲悉,騰訊云發布了新(xin)一代 HCC 高(gao)性能計(ji)算集群(qun),采(cai)用最新一代星(xing)星(xing)海自研服務器,搭載(zai)英偉達 H800 Tensor Core GPU。
騰訊官方稱,該集群基于自研網絡、存儲架構,帶來 3.2T 超高互聯帶寬、TB 級吞吐能力和千萬級 IOPS。實測結果顯示,新(xin)一(yi)代集(ji)群算力(li)性(xing)能較前代提升 3 倍。

去年 10 月,騰訊完成首個萬億參數的 AI 大模型 —— 混元 NLP 大模型訓練。在同等數據集下,將訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓練時間(jian)將進(jin)一步縮短至 4 天。
計算層面,服務器單機性能是集群算力的基礎,騰訊云新一代集群的單 GPU 卡在不同精度下,支持輸出最高 1979 TFlops 的算力。
針對(dui)大模(mo)型場景,星星海自(zi)研服務器(qi)采用 6U 超高密(mi)度(du)設(she)計,相較行業可支持的上架密(mi)度(du)提(ti)高 30%;利用并行計算(suan)理念,通過 CPU 和 GPU 節(jie)點的一體化設(she)計,將(jiang)單點算(suan)力性能(neng)提(ti)升至(zhi)更高。

網絡(luo)層面,計算節(jie)點(dian)間,存(cun)在著海量的數據交(jiao)互(hu)需求。隨著集群規(gui)模擴大,通信性能(neng)會(hui)直接影響訓練效率,需要實現網絡(luo)和計算節(jie)點(dian)的最(zui)大協(xie)同。
騰訊自研的星脈高性能計算網絡,號稱具備業界最高的 3.2T RDMA 通信帶寬。實測結果顯示,搭載同等(deng)數量的(de) GPU,3.2T 星脈(mo)網絡(luo)相較(jiao) 1.6T 網絡(luo),集群(qun)整(zheng)體算力提升 20%。
同時,騰訊自研的高性能集合通信庫 TCCL,融入定制設計的解決方案。相對業界開源集合通信庫,為大(da)模型訓(xun)練優化 40% 負載性能,消(xiao)除(chu)多個網絡原因導(dao)致的訓練中(zhong)斷問題。

存儲層面(mian),大模型訓練(lian)中,大量計(ji)(ji)算(suan)節點(dian)會同時(shi)(shi)讀取一批數據集,需要盡可(ke)能縮(suo)短數據加載(zai)時(shi)(shi)長(chang),避(bi)免(mian)計(ji)(ji)算(suan)節點(dian)產生等待。
騰訊云自研的存儲架構,具備(bei) TB 級(ji)吞吐能(neng)力和千萬級(ji) IOPS,支持不同(tong)場(chang)景下對存(cun)儲(chu)的(de)需求(qiu)(qiu)。COS+GooseFS 對象存(cun)儲(chu)方案(an)和(he) CFS Turbo 高性(xing)能文件(jian)存(cun)儲(chu)方案(an),充分滿足大模型場(chang)景下高性(xing)能、大吞吐和(he)海(hai)量存(cun)儲(chu)要求(qiu)(qiu)。

此外,新一代集群集成了騰訊云自研的 TACO 訓練(lian)加速引擎(qing),對網絡協議、通信策略(lve)、AI 框架、模(mo)型編(bian)譯進行大(da)量系統級優(you)化,大(da)幅節約(yue)訓練調優(you)和算力成本。
騰訊(xun)混元(yuan)大模(mo)型背后的訓練框架 AngelPTM,也已通過騰訊(xun)云 TACO 提(ti)供服務,幫助企(qi)業(ye)加速大模(mo)型落地。
通過騰訊(xun)云 TI 平臺的大模型能力和(he)工具箱,企業可結(jie)合產業場景數據進行(xing)精(jing)調訓(xun)練,提升生(sheng)產效率、快速(su)創建(jian)和(he)部署 AI 應用。

依托分布式云原生的治理能力,騰(teng)訊云(yun)智算平臺提供 16 EFLOPS 的浮點算力。

