韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

首頁|必讀|視頻|專訪|運營|制造|監管|大數據|物聯網|量子|低空經濟|智能汽車|特約記者
手機|互聯網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯網|會展
首頁 >> 人工智能 >> 正文

算力強基,運力先行:以DC-OXC和DC-OTN筑牢智算網絡根基

2025年2月25日 17:03  CCTIME飛象網  

飛象網訊 (計育青/文)工業和信息化部近日印發通知,為夯實算力網絡發展底座,加快創新技術和產品應用,決定正式開展算力強基揭榜行動(簡稱“揭榜行動”)。此次揭榜行動面向算力網絡的計算、存儲、網絡、應用、綠色、安全等六大重點方向提出了二十一項任務,基本上涵蓋了算力全產業鏈的關鍵技術及發展方向,并對每一個項目都做了詳細的任務、目標說明。

 

(來源:工信部官網)

在網絡環節,揭榜行動重點支持高性能數據處理器(DPU)、基于RoCE的智算網絡、光交換智算網絡技術研究與驗證、面向分布式智算中心的網絡關鍵技術研究與驗證等。預期目標上揭榜行動要求到2026年,實現支持智算集群的易操作、高可靠、可平滑過渡升級的光網絡,支持人工智能等關鍵業務承載;光交換設備單端口速率支持100GE/400GE/800GE,交換容量彈性可擴展等。同時,突破智算中心間超大容量、超高可靠網絡傳輸關鍵技術,研制面向智算中心間網絡的傳輸設備,支撐分布式智算中心間業務的高可靠傳輸。

(來源:工信部官網)

算力建設熱潮涌動,網絡需適度超前

近年來全球人工智能技術發展迅猛,各國都非常重視基礎大模型、AI應用的開發與建設,視之為決定產業經濟升級、國家競爭力提升的關鍵因素。中國也非常重視AI技術及其應用的發展,先后發布了一系列政策予以推動和鼓勵,使得國內大模型技術和應用始終位居全球領先地位。從千億、萬億參數基礎大模型的開發,到面向具體行業、實際場景的AI應用孵化,都產生了巨大的智能算力需求,極大推動了國內智算基礎設施的建設。據統計,當前國內已投用了近百個智算中心,可用算力已接近萬PFlops。

而DeepSeek突飛猛進的發展,使其成為全球現象級大模型,從科技、醫藥、傳媒到政務、金融、汽車等,DeepSeek的“圈子”仍在持續擴張中。微信等頭部APP接入DeepSeek后可以看到,國民級應用模型使用持續放大算力需求,進而帶來推理等算力需求的大量增長,智算行業迎來重要發展機遇。

國內通信運營商也在不斷加大對智算基礎設施的投入。比如中國電信正在打造多層次智算格局,在京津冀、長三角地區建設了兩個萬卡智算集群,同時還在西部地區打造大規模綠色智算池;中國移動的動作也很快,已建成8.2EFLOPS通用算力、19.6EFLOPS智算能力,分布在京津冀、長三角、粵港澳大灣區、成渝等區域的首批13個智算中心節點已經投用;中國聯通規劃的算力中心體系覆蓋了國家8大樞紐節點和31個省市,數據中心機架的總體規模將超過40萬架,未來將建成骨干云池城市230多個、MEC節點超過600個。

隨著智算基礎設施的規模建設和大范圍應用,傳統的網絡架構和設備漸漸難以滿足要求,包括端口密度、功耗、靈活擴展能力、故障冗余能力,以及帶寬、時延、可靠性等等,都迫切需要針對智算集群進行深度創新,這也是此次揭榜行動中任務十、任務十一的主要目標。針對這些問題,通信行業已經有充分的技術和產品儲備,并且在部分場景下進行了實踐驗證。

全光交換OXC技術破解智算集群平滑演進難題

當前智算集群網絡主要采用純電層交換機組網模式,算卡與算卡之間通過交換機來連接。一般數據中心采用這種組網模式不會遇到什么問題,但是智算訓練不一樣,隨著大模型不斷改進和更新,對算卡的需求會從幾千、幾萬個迅速走向數十萬、上百萬個,每次智算規模增加都需要對數據中心網絡進行重構,成本高且周期長。

另一方面,集群規模的不斷增加會引入更多的框式交換機,這些交換機會進一步加重智算中心的能耗負擔。隨著算卡的增加,連接算卡所需的光模塊也會更多,這些光模塊一旦發生故障就會影響到整個數據中心的數據處理和傳輸能力,進而直接影響到AI大模型訓練的連續性和準確性。

最后,算卡也會更新換代,每次升級都會大幅提升其數據吞吐能力,這意味著數據中心內部的交換機也必須隨之升級,隨之而來的是復雜的布線變更、網絡配置調整,對數據中心的規劃和運維而言是一個巨大的挑戰。

全球智算產業一直在尋求更好的網絡解決方案,目前來看,全光交叉OXC被認為極具潛力的替代方案。OXC是一種非常靈活的全光交換調度方式,采用集成式互連構建全光交換資源池,具有集成度高、無跳纖全光交換等特點,不僅易擴展、可靠性高、能耗低,日常運維也非常簡便。

目前全球主要通信廠商已經推出了面向數據中心的商用OXC設備(DC-OXC),并且在一些先進智算企業中投入了應用。比如打造了Gemini多模態大模型的谷歌,已經在自有的數據中心中采用了上萬套OXC設備。英偉達首席科學家Bill Dally也多次向業界建議在智算中心建設中采用OXC技術,認為這項技術可以有效提升網絡的可管理性和靈活性。在2024年9月舉行的深圳國際光電博覽會期間,多個大模型廠商表示準備引入OXC技術。

行業研究機構LightCounting認為,在智算產業的拉動作用下,未來5年OXC設備市場會以28%的增速快速擴張。而2024年9月開放數據中心委員會(ODCC)發布《AI網絡光交換機技術報告》,對光交換機在 AI 訓練等大規模計算中的應用進行了詳細探討,通過對胖樹網絡架構和 OXC靈活組網的Ring All-Reduce 性能的對比測試, 結果表明在通信數據量大于4MB后,應用OXC組網會有明顯收益,提升了20-34%左右的性能,All to All 性能提升30%左右。

面向DC互聯的全光傳送網(DC-OTN)輕松打造分布式智算中心

為充分利用不同地域的資源優勢,兼顧就近服務客戶,很多企業會在不同區域分散配置智算中心。然而當客戶需要調用超越單個智算中心的算力時,如何實現海量數據在多個智算中心之間的實時傳送和調度就成了一個難題。對此國內電信運營商做過大量探索,面向數據中心間互聯的全光傳送網(DC-OTN)被認為是當前理想的解決方案。

中國電信在2024年曾做過基于現網的業內首例500公里的長距離DC-OTN技術驗證,利用江西永豐、北京大興、天津武清三地數據中心的千卡智算集群,完成了1024卡千億參數大模型的分布式聯合訓練,成功將練性能提升至單數據中心效能的97%以上。這次試驗表明,利用高速全光傳送網打造廣域智算網絡,完全可以將不同區域的智算資源匯聚成一個智算集群,實現跨地域、跨層級、跨主體的高效算力協同調度。

中國移動在2024年末也完成了百公里級DC-OTN現網試驗,采用800G OTN連接位于不同城市的兩個智算集群,共同承擔百億級參數規模的大型基礎語言模型,性能達到單節點訓練效率的98%以上。

中國聯通在2024年也發布了《基于RDMA的長距無損數據搬移技術白皮書》,提出的數據搬移解決方案,通過DC間全光直達的組網架構、長距RDMA提速、端網協同和統一編排等技術,解決海量數據長距傳輸時易擁塞、效率低的問題,為算力時代下海量數據高速遷移提供了技術支撐。

單體為繁星點點,為一般用戶提供就近服務;集合成群體,可為超大規模計算需求提供充足的智算資源。上述試驗證明了DC-OTN的可行性和有效性,也為分布式智算集群的演進指明了前進方向,做好了技術方案儲備。

如今人工智能正在向各行各業快速滲透,這是一場勢不可擋的產業革命,因此市場對智算基礎設施的需求只會越來越多。數據中心全光交換技術(DC-OXC)和面向DC互聯的全光傳送網(DC-OTN)技術可以大幅度提升智算集群部署的靈活性,改善智算中心的性能、可擴展性、可靠性、能耗表現等,有望成為智算產業的主流網絡解決方案,助力算力強基行動取得豐碩成果,推動算力網絡“點、鏈、網、面”體系化發展。

編 輯:霏雯
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
vivo胡柏山:手機行業是最典型的新質生產力代表
精彩專題
低空經濟2025:助力中國經濟騰飛,成就高質量發展
2024通信業年終盤點
2024數字科技生態大會
2024年度中國光電纜優質供應商評選活動
CCTIME推薦
關于我們 | 廣告報價 | 聯系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像