ICC訊 近日,中興通訊發(fā)布《超節(jié)點技術白皮書》,提出以超節(jié)點為核心打造標準化“AI工廠”,通過系統(tǒng)級架構創(chuàng)新,突破算力極限與能效瓶頸,為AI基礎設施的可持續(xù)發(fā)展提供新路徑。
突破通信瓶頸:超節(jié)點實現(xiàn)高效協(xié)同計算
隨著AI模型參數(shù)規(guī)模突破萬億量級,算力需求正在從單芯片堆疊向系統(tǒng)級協(xié)同轉型,傳統(tǒng)分布式訓練面臨通信開銷劇增和算力利用率下降等挑戰(zhàn)。為解決這一問題,超節(jié)點采用高速互聯(lián)協(xié)議和專用交換芯片,構建高帶寬域(HBD),將數(shù)十到數(shù)百顆GPU芯片邏輯整合為統(tǒng)一編址、低延遲、高帶寬的協(xié)同計算系統(tǒng)。
這一架構在保留GPU物理獨立性的同時,帶來了類單機的編程與調度體驗,顯著提升了算力利用效率,為大規(guī)模模型訓練和推理提供了高性能的算力底座。
架構創(chuàng)新:OEX正交無背板互聯(lián),零線纜
在硬件層面,白皮書重點闡述了中興通訊自研的OEX(Orthogonal Electrical eXchange)正交無背板互聯(lián)交換架構。該架構通過物理設計的根本性創(chuàng)新,具體呈現(xiàn)四大核心亮點:
? 高密集成:突破物理空間極限。采用計算托盤與交換托盤垂直交叉的無線纜互聯(lián)設計,徹底消除了機柜內部成千上萬根高速線纜,極大釋放了機柜空間,實現(xiàn)了單位空間算力密度的飛躍。
? 高可靠:保障信號完整與系統(tǒng)穩(wěn)定。通過正交無背板互聯(lián)顯著降低通信損耗,大幅降低誤碼率。極短的板間互聯(lián)路徑確保了大規(guī)模集群通信的高速與穩(wěn)定。
? 簡化運維:極簡架構提升可維護性。無線纜設計從根本上減少了因線纜松動、老化或連接器故障導致的宕機風險。極簡的物理架構將系統(tǒng)平均故障修復時間(MTTR)從小時級縮短至分鐘級,極大提升了系統(tǒng)的可維護性和運行效率。
? 開放互聯(lián):自研芯片多協(xié)議兼容。依托自研的“凌云”大容量交換芯片,系統(tǒng)支持TB級互聯(lián)帶寬與百納秒級時延,并全面兼容國內外主流標準及專業(yè)定制化互聯(lián)協(xié)議。
AI工廠模式:打造標準化的智能生產(chǎn)流水線
針對AI落地復雜度高、交付周期長的痛點,白皮書倡導從“項目制”向“工廠模式”轉型,將AI能力建設升級為標準化的現(xiàn)代化流水線:
? 軟件棧即操作系統(tǒng):通過統(tǒng)一虛擬化資源池與智能編排,軟件層實現(xiàn)對異構算力的深度調度與管理,最大化資源利用率。
? 集群彈性擴展:依托Nebula單體超節(jié)點與Nebula Matrix集群超節(jié)點,算力可從百卡平滑擴展至萬卡規(guī)模,靈活滿足不同階段的大模型訓練需求。
全棧協(xié)同:打造開放共享的智算生態(tài)
白皮書強調,構建AI工廠是一項涉及芯片、整機、網(wǎng)絡與軟件的復雜系統(tǒng)工程。中興通訊憑借40多年通信領域的系統(tǒng)工程積累,已構建起從自研系列高性能芯片、復雜系統(tǒng)設計到全球工程交付的全棧能力體系。
展望未來,中興通訊將堅持開源開放理念,攜手產(chǎn)業(yè)伙伴推動智能算力基礎設施的標準化與生態(tài)化,共同構建高效、綠色、可持續(xù)的AI發(fā)展體系。
白皮書鏈接:
https://www.zte.com.cn/content/dam/zte-site/res-www-zte-com-cn/mediares/zte/files/newsolution/wireless/ccn/hexinwang/whitepaper/MECX202602061.pdf
新聞來源:訊石光通訊網(wǎng)
相關文章