用戶(hù)名: 密碼: 驗(yàn)證碼:

火山引擎正式上線 102.4T 自研交換機(jī),構(gòu)建 AI 網(wǎng)絡(luò)新底座

摘要:火山引擎正式上線 102.4T 自研交換機(jī),支撐新一代 HPN 6.0 架構(gòu),可高效互聯(lián)十萬(wàn)卡級(jí) GPU 集群。該交換機(jī)硬件上實(shí)現(xiàn)全端口 LPO 支持、高速系統(tǒng)設(shè)計(jì)等多重創(chuàng)新,兼具高性能與低成本;軟件端基于 Lambda OS 打造 SGLB、SyncMesh 等核心技術(shù),實(shí)現(xiàn)全局負(fù)載均衡、微秒級(jí)路由收斂。HPN 6.0 架構(gòu)則具備超大規(guī)模演進(jìn)、訓(xùn)推一體融合、高確定性穩(wěn)定三大核心能力,為超大規(guī)模 AI 算力集群筑牢網(wǎng)絡(luò)底座,也為未來(lái)網(wǎng)絡(luò)升級(jí)奠定基礎(chǔ)。

  ICC訊 從 AI 大模型訓(xùn)練到多模態(tài)推理,算力規(guī)模持續(xù)放大。網(wǎng)絡(luò)已成為決定 AI 系統(tǒng)上限的關(guān)鍵因素:不僅需要更高帶寬,還需更少層級(jí)以實(shí)現(xiàn)低成本、低時(shí)延互聯(lián)。基于對(duì)超大規(guī)模 AI 集群的長(zhǎng)期實(shí)踐與思考,火山引擎正式上線 102.4T 自研交換機(jī),并以此支撐新一代 HPN 6.0 架構(gòu),可支持十萬(wàn)卡級(jí) GPU 集群的高效互聯(lián)。

  創(chuàng)新的硬件設(shè)計(jì)

  火山引擎自研的 102.4T 交換機(jī)憑借多維度的硬件技術(shù)創(chuàng)新和細(xì)節(jié)打磨,以高性能、高穩(wěn)定、低成本的核心優(yōu)勢(shì)成為下一代 AI 網(wǎng)絡(luò)的關(guān)鍵硬件底座。


  圖1 火山引擎 102.4T 自研交換機(jī)


  其核心特性如下:

  ?  全端口 LPO 支持:實(shí)現(xiàn)低時(shí)延、低功耗、低成本,兼顧性能、穩(wěn)定與成本。

  ?  創(chuàng)新的高速系統(tǒng)設(shè)計(jì):使用 3 層扣板架構(gòu),在 4U 空間實(shí)現(xiàn)了 128 個(gè) 800G OSFP 端口。高速系統(tǒng)首創(chuàng) SerDes PCB RDL 設(shè)計(jì),MAC 板僅為 36 層,結(jié)合 M8N+M7 疊層,實(shí)現(xiàn)了小于 20dB 的 Bump-Bump 損耗 ,在無(wú) Cable 和 PHY 的條件下極致支持 800G LPO。

  ?  精密的結(jié)構(gòu)與裝配:創(chuàng)新的板載定位與多級(jí)導(dǎo)向精準(zhǔn)裝配方案大幅提升了組裝效率。通過(guò)優(yōu)化連接器同向布局釋放容差能力,累計(jì)公差減少 50%,為長(zhǎng)期穩(wěn)定運(yùn)行筑牢基礎(chǔ)。

  ?  極致的風(fēng)冷散熱:為應(yīng)對(duì)單芯片超過(guò) 1600 W 的散熱壓力,散熱器融合了非牛頓流體材料、石墨烯導(dǎo)熱材料與強(qiáng)化毛細(xì)結(jié)構(gòu),并配合系統(tǒng)級(jí)定向風(fēng)場(chǎng)設(shè)計(jì),最終實(shí)現(xiàn) 40℃ 環(huán)溫下 1800m 海拔滿(mǎn)配穩(wěn)定運(yùn)行,將風(fēng)冷技術(shù)潛力挖掘至極致。

  ?  超大尺寸芯片焊接:通過(guò)仿真和推導(dǎo)熱形變數(shù)據(jù),在板圖設(shè)計(jì)與生產(chǎn)中實(shí)現(xiàn)精確熱補(bǔ)償,成功攻克超大尺寸芯片的 SMT 焊接難題,目前焊接良率達(dá)到 100%。

  ?  模塊化與成本效益:機(jī)電結(jié)構(gòu)、管理板等核心部件復(fù)用上一代成熟設(shè)計(jì),僅需更換端口板即可適配不同應(yīng)用需求,顯著降低后續(xù)升級(jí)與維護(hù)成本。





  圖2 102.4T 自研交換機(jī)內(nèi)部構(gòu)成


  極致的軟件特性

  Lambda OS 是火山引擎自主研發(fā)的網(wǎng)絡(luò)操作系統(tǒng),它以開(kāi)源 SONiC 系統(tǒng)為基礎(chǔ),結(jié)合業(yè)務(wù)場(chǎng)景和大規(guī)模網(wǎng)絡(luò)運(yùn)維經(jīng)驗(yàn),進(jìn)行了深度產(chǎn)品化定制與創(chuàng)新。


  全局負(fù)載均衡

  AI 大模型的流量特征呈現(xiàn)為大流(Elephant Flow)和少流(Paucity of Flows),網(wǎng)絡(luò)負(fù)載不均會(huì)導(dǎo)致部分鏈路空閑而部分鏈路擁塞丟包,使帶寬利用率從設(shè)計(jì)的 90% 降至 50% 以下。傳統(tǒng) Hash 算法的不均可能導(dǎo)致部分鏈路延遲飆升,拖慢整個(gè)集群的參數(shù)同步。例如,某鏈路擁塞導(dǎo)致同步延遲增加 10 ms,迭代 1000 次后總延遲將增加 10s,嚴(yán)重影響模型訓(xùn)練效率及推理用戶(hù)體感。

  為此,火山引擎與芯片廠商深度合作,聯(lián)合開(kāi)發(fā)了業(yè)界首個(gè)可擴(kuò)展的全局網(wǎng)絡(luò)負(fù)載均衡技術(shù)——SGLB(可擴(kuò)展且穩(wěn)健的全局負(fù)載均衡)。SGLB 基于全局拓?fù)洌軌蛭⒚爰?jí)感知鏈路擁塞狀態(tài),并計(jì)算端到端最優(yōu)路徑。實(shí)測(cè)性能表明,相較于傳統(tǒng) Hash 選路,GPU 網(wǎng)絡(luò)帶寬可提升 40%。更多技術(shù)細(xì)節(jié),可參閱 SIGCOMM 2025 的相關(guān)論文:https://dl.acm.org/doi/10.1145/3718958.3750527。


  圖3 SGLB 示意圖


  圖4 SGLB 性能數(shù)據(jù)


  帶寬對(duì)稱(chēng)性負(fù)載均衡

  在小規(guī)模網(wǎng)絡(luò)集群中,設(shè)備間通常存在多鏈路互聯(lián),帶寬具有對(duì)稱(chēng)性。如圖 5 所示的拓?fù)?,?dāng)一條 800G 鏈路斷開(kāi)時(shí),理想情況下業(yè)務(wù)帶寬也應(yīng)相應(yīng)損失 800G。然而在實(shí)際場(chǎng)景中(如圖 6 所示),由于 BGP 路由仍然可達(dá),且傳統(tǒng)負(fù)載均衡無(wú)法感知全局拓?fù)渥兓?,?dǎo)致業(yè)務(wù)帶寬損失被不成比例地放大,損失值可能是物理帶寬損失的數(shù)倍,最高可達(dá) 32 倍。


  圖5 小規(guī)模集群網(wǎng)絡(luò)


  圖6 非對(duì)稱(chēng)下的業(yè)務(wù)帶寬損失


  因此,Lambda OS 設(shè)計(jì)了帶寬對(duì)稱(chēng)性負(fù)載均衡機(jī)制。該機(jī)制能夠感知拓?fù)渲械膸拰?duì)稱(chēng)性,確保物理帶寬損失與業(yè)務(wù)帶寬損失呈線性關(guān)系,從而提升網(wǎng)絡(luò)的可預(yù)期性。


  微秒級(jí)路由收斂

  在 AI 網(wǎng)絡(luò)中,鏈路抖動(dòng)對(duì)模型訓(xùn)練和推理有直接影響。大模型訓(xùn)練期間,成千上萬(wàn)的 GPU 需頻繁同步數(shù)據(jù),任何鏈路抖動(dòng)導(dǎo)致的丟包都會(huì)使其他數(shù)千個(gè) GPU 必須空轉(zhuǎn)等待,形成“木桶效應(yīng)”,極大地降低 GPU 利用率,造成算力資源浪費(fèi)。公開(kāi)資料顯示,一個(gè)萬(wàn)卡 AI 集群每年因鏈路故障導(dǎo)致的訓(xùn)練中斷約 60 次;谷歌在 OFC 2025 的報(bào)告中也指出,百萬(wàn)級(jí)鏈路規(guī)模下,每日故障約 40 次,月均約 1200 次。因此,在鏈路故障時(shí)快速切換路由、減少丟包至關(guān)重要。


  圖7 路由收斂示意圖


  鏈路故障時(shí),快速切換流量的瓶頸在于跨設(shè)備的遠(yuǎn)端鏈路中斷(Down)時(shí)的路由收斂。業(yè)界通過(guò)協(xié)議優(yōu)化,通常能實(shí)現(xiàn)秒級(jí)收斂。例如,AWS 在 re:Invent 2024 上介紹其自研的 SIDR 協(xié)議,將路由收斂時(shí)間從 10s 優(yōu)化至 1s。

  基于在 SGLB 實(shí)踐中積累的微秒級(jí)端到端路徑感知能力,火山引擎設(shè)計(jì)并實(shí)現(xiàn)了自研的 SyncMesh 路由協(xié)議,其特點(diǎn)如下:

  ?  硬件卸載與微秒級(jí)切換:SyncMesh 支持芯片卸載,實(shí)現(xiàn)微秒級(jí)端到端狀態(tài)感知與路徑切換。

  ?  收斂性能與路由規(guī)模解耦:在萬(wàn)級(jí)路由規(guī)模下,仍能保證微秒級(jí)的收斂速度。

  與業(yè)界 1s 級(jí)的路由收斂性能相比,SyncMesh 將其提升至 50 μs,實(shí)現(xiàn)了 5 個(gè)數(shù)量級(jí)的性能飛躍。


  微秒級(jí)可視化監(jiān)控

  HFT(高頻遙測(cè))支持對(duì)全量端口帶寬、隊(duì)列長(zhǎng)度等多個(gè)統(tǒng)計(jì)指標(biāo)進(jìn)行微秒級(jí)監(jiān)控,解決了傳統(tǒng)秒級(jí)監(jiān)控難以觀測(cè)和分析業(yè)務(wù)流量細(xì)節(jié)的問(wèn)題。

  圖8 LLaMA 流量模型下的微秒級(jí)監(jiān)控?cái)?shù)據(jù)


  新一代的 HPN 網(wǎng)絡(luò)架構(gòu)

  基于 102.4T 自研交換機(jī)在軟硬件一體化方面的能力積累,火山引擎推出了面向訓(xùn)推一體場(chǎng)景的融合網(wǎng)絡(luò)架構(gòu)——HPN 6.0。圍繞“規(guī)模、融合、確定性”三個(gè)核心目標(biāo),HPN 6.0 重新定義了超大規(guī)模算力集群的網(wǎng)絡(luò)底座。

 - 超大規(guī)模演進(jìn)能力

  ?  采用三層 Clos 架構(gòu),單 POD 最大支持 65k 規(guī)模組網(wǎng),集群能力可線性擴(kuò)展至百萬(wàn)級(jí)。在不引入額外層級(jí)的前提下,HPN 6.0 兼顧了規(guī)模擴(kuò)展性與網(wǎng)絡(luò)時(shí)延可控性,為十萬(wàn)卡、百萬(wàn)卡時(shí)代提供了可持續(xù)演進(jìn)的網(wǎng)絡(luò)基礎(chǔ)。


 - 面向訓(xùn)推一體的深度融合設(shè)計(jì)

  ?  網(wǎng)絡(luò)支持 200G/400G/800G RDMA NIC 的混速組網(wǎng),并針對(duì)不同速率、不同代際 GPU 間的帶寬不對(duì)等與通信模式差異引入了創(chuàng)新優(yōu)化方案,確保多代算力與多類(lèi)型業(yè)務(wù)能夠穩(wěn)定協(xié)同。

  ?  同時(shí),HPN 6.0 提供算子級(jí)與任務(wù)級(jí)雙粒度 QoS 能力,使網(wǎng)絡(luò)資源能夠精準(zhǔn)匹配訓(xùn)練、推理等不同階段的通信特征,為大規(guī)模分布式訓(xùn)練提供可預(yù)期、可驗(yàn)證的高性能通信。


 - 以確定性為目標(biāo)的穩(wěn)定性體系

  ?  通過(guò)多平面容災(zāi)架構(gòu)與芯片級(jí) Fast Failover 能力,實(shí)現(xiàn)微秒級(jí)故障收斂,將網(wǎng)絡(luò)異常對(duì)算力任務(wù)的影響控制在最小范圍內(nèi)。

  ?  結(jié)合微秒級(jí)流量可視化與億萬(wàn)分之一丟包級(jí)別的可感知能力,使網(wǎng)絡(luò)問(wèn)題從“事后定位”轉(zhuǎn)變?yōu)椤笆虑案兄?,為超大?guī)模 HPN 網(wǎng)絡(luò)的長(zhǎng)期穩(wěn)定運(yùn)行提供底層保障。



  圖9 火山引擎 HPN 6.0 網(wǎng)絡(luò)架構(gòu)


  結(jié)束語(yǔ)

  102.4T 自研交換機(jī)和 HPN 6.0 網(wǎng)絡(luò)架構(gòu)的上線,是火山引擎 AI 網(wǎng)絡(luò)架構(gòu)演進(jìn)中的一個(gè)重要里程碑。它不僅滿(mǎn)足了當(dāng)前大規(guī)模 GPU 集群的嚴(yán)苛需求,也為未來(lái)的網(wǎng)絡(luò)升級(jí)奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著 AI 技術(shù)的飛速發(fā)展,從 800G 到 1.6T,從萬(wàn)卡到更大規(guī)模的算力集群,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的演進(jìn)之路永無(wú)止境?;鹕揭鎸⒗^續(xù)在硬件、軟件和系統(tǒng)架構(gòu)上不斷探索與創(chuàng)新,構(gòu)建更高效、更穩(wěn)定、更可持續(xù)演進(jìn)的 AI 網(wǎng)絡(luò)底座,推動(dòng) AI 技術(shù)浪潮向前發(fā)展。

內(nèi)容來(lái)自:字節(jié)跳動(dòng)網(wǎng)絡(luò)團(tuán)隊(duì)
本文地址:http://m.n2software.net//Site/CN/News/2026/02/04/20260204062225928957.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:火山引擎正式上線 102.4T 自研交換機(jī),構(gòu)建 AI 網(wǎng)絡(luò)新底座
1、凡本網(wǎng)注明“來(lái)源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明,凡本網(wǎng)注明“來(lái)源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題,請(qǐng)聯(lián)系本網(wǎng),將第一時(shí)間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right