飛象網訊(易歡)4月23日消息,在今天舉辦的“2025云網智聯大會”上,SNAI推委會榮譽主席、原中國電信科技委主任韋樂平分享了對智算拉遠的思考。
談及大模型訓練智算拉遠的市場需求,韋樂平坦言,可以以網補算,提升閑散智算中心算力資源利用率。“面對大批分散部署、利用率很低的小規模智算中心,若能通過網絡互聯形成一個大型的邏輯智算池來適應規模日益增長的大模型訓練,有望大幅提升閑散智算資源的利用率。”
與此同時,他指出,邁向未來,跨域訓練是必然趨勢。按照統計,大模型參數每1-2年增長10倍,而對應的GPU芯片的算力僅增長2-4倍,遠低于模型規模的增速。隨著模型規模的日益擴大,單體的算力、電力、空間資源終將受限,可能需要在園區甚至更大范圍內由多個智算中心互聯形成一個超級邏輯智算資源池,進行聯合訓練才有可能支撐超大模型的訓練。
韋樂平強調:“至于推理與具體業務場景和訪問量相關,更需要跨域實施。”
針對大模型訓練智算拉遠的挑戰,韋樂平認為復雜的商用場景,勢必會面臨大量不同功能、性能的異構GPU、規模不同的AIDC的互聯、不同業務場景、不同設備和不同組網方式、不同模型和不同參數的協同挑戰。
此外,還面臨一些技術挑戰。在韋樂平看來,一是帶寬收斂問題。“無收斂帶寬普適性和前瞻性好,部署快,但成本太高;收斂比4-8時,帶寬成本可以降至10%之內,但是只適用特定業務場景下的特定模型拆分方式,缺乏普適性和前瞻性。”
二是功能和性能問題。拉遠后必然面對丟包、抖動乃至中斷故障等諸多挑戰,對ROCE網絡的功能和性能有不少嚴格的要求。
統一管理和運維也是挑戰之一。韋樂平認為,現有固化的組織架構和生產流程不適合快速部署邏輯統一的異地智算中心,需要對現有管理運維體系、生產流程、監控管理平臺改造升級。