IT之家 4 月 14 日消息,IT之家從騰訊官方獲悉,騰訊云發布了新一代(dai) HCC 高性能計算集群,采用最(zui)新一(yi)代星星海自研服務(wu)器,搭載英偉達 H800 Tensor Core GPU。
騰訊官方稱,該集群基于自研網絡、存儲架構,帶來 3.2T 超高互聯帶寬、TB 級吞吐能力和千萬級 IOPS。實測結果顯示,新一(yi)代(dai)集群算(suan)力性能較前代(dai)提升 3 倍。
去年 10 月,騰訊完成首個萬億參數的 AI 大模型 —— 混元 NLP 大模型訓練。在同等數據集下,將訓練時間由 50 天縮短到 11 天。如果基于新一代集群,訓練時間將進一步縮短(duan)至 4 天。
計算層面,服務器單機性能是集群算力的基礎,騰訊云新一代集群的單 GPU 卡在不同精度下,支(zhi)持輸出最高 1979 TFlops 的算力。
針(zhen)對(dui)大(da)模(mo)型場景,星(xing)(xing)星(xing)(xing)海自研服務(wu)器采用 6U 超高(gao)密度(du)設計,相較(jiao)行業可支持(chi)的上架密度(du)提高(gao) 30%;利用并行計算(suan)理念,通過 CPU 和(he) GPU 節(jie)點的一體化設計,將單(dan)點算(suan)力性能提升至更高(gao)。
網絡層面,計算節(jie)點(dian)間(jian),存在著(zhu)海量(liang)的(de)數據(ju)交互(hu)需求。隨著(zhu)集群規模擴(kuo)大,通信性能會直接影響訓練效率,需要實(shi)現網絡和計算節(jie)點(dian)的(de)最大協(xie)同。
騰訊自研的星脈高性能計算網絡,號稱具備業界最高的 3.2T RDMA 通信帶寬。實測結果顯示,搭載同等數量的 GPU,3.2T 星(xing)脈網(wang)(wang)絡相(xiang)較 1.6T 網(wang)(wang)絡,集群整體(ti)算力提升 20%。
同時,騰訊自研的高性能集合通信庫 TCCL,融入定制設計的解決方案。相對業界開源集合通信庫,為大模型訓練(lian)優化(hua) 40% 負載性能,消除多(duo)個網絡原因導致的訓練中斷問(wen)題。
存儲層面,大(da)模型訓練中(zhong),大(da)量計(ji)算節(jie)點會(hui)同(tong)時讀取一批數(shu)據集,需(xu)要(yao)盡(jin)可能縮短數(shu)據加載時長,避免計(ji)算節(jie)點產生等待(dai)。
騰訊云自研的存儲架構,具備 TB 級吞吐能力和千萬(wan)級 IOPS,支持不(bu)同場景下對存(cun)(cun)儲(chu)的需求(qiu)。COS+GooseFS 對象存(cun)(cun)儲(chu)方案和 CFS Turbo 高(gao)性能文件存(cun)(cun)儲(chu)方案,充分滿足大(da)模型場景下高(gao)性能、大(da)吞吐和海量存(cun)(cun)儲(chu)要求(qiu)。
此外,新一代集群集成了騰訊云自研的 TACO 訓練(lian)加速引擎,對網絡協議、通信(xin)策(ce)略、AI 框架、模型編(bian)譯(yi)進行(xing)大量(liang)系統級優化,大幅節約(yue)訓練調(diao)優和算力成本。
騰(teng)訊混(hun)元大模(mo)型背后的訓練框架 AngelPTM,也(ye)已通過騰(teng)訊云 TACO 提供服務,幫(bang)助企業加速大模(mo)型落地。
通過騰訊云 TI 平臺的大模型能力和(he)工具(ju)箱(xiang),企(qi)業可結合產業場景(jing)數據進行精調訓練,提升生產效率、快速(su)創建和(he)部署 AI 應用。
依托分布式云原生的治理能力,騰(teng)訊(xun)云智算(suan)平臺提供(gong) 16 EFLOPS 的浮點算(suan)力。