8月30日,國內運營商最大單集群智算中心——中國移動智算中心(哈爾濱)建設完成并正式投產使用。該智算中心單集群擁有超過1.8萬卡的豐富資源,可提供6.9EFlops(每秒690億億次浮點運算)智能算力,融合分級存儲達150P,具有單集群算力規模最大、國產化網絡設備組網規模最大等特點。

所謂單集群智算中心,就是把所有AI加速卡打造成1個集群,用以支持千萬億級參數的大模型進行訓練。集群智算中心通過先進的智算網絡技術把上萬塊GPU芯片像“積木”一樣拼接在一起,大幅提升GPU節點間的通信效率,可以將數據訓練完成時間縮短20%,是應對大模型海量數據訓練、加快大模型應用落地的利器。擁有1.8萬張AI加速卡的中國移動智算中心(哈爾濱)可以支持萬億參數的大模型訓練。
中國移動智算中心(哈爾濱)是業內首個大規模應用融合存儲的集群,也是首個落地中國移動原創智算網絡全調度以太網(GSE1.0)的萬卡集群。正是在GSE1.0的支持下,中國移動智算中心(哈爾濱)才大幅提高了GPU節點間的通信效率,減少了數據訓練任務的時間和成本。
點評:AI大模型的研發需要基于大量GPU的集群算力來支撐,通常參數規模越大、訓練數據越多,對智算集群的要求就越高。不過隨著集群中調用的GPU卡數量越來越多,計算任務的調度、中間數據和結果的傳遞與保存等,也會變得越來越復雜。中國移動在智算萬卡集群研發中,采用了多項創新技術確保大模型運行的低時延、高帶寬數據處理和存儲能力,還有系列自動化、數智化技術確保算力集群的高效、穩定運行,無疑是中國ICT科技創新能力、產業化實力的集中體現。