火山引擎正式上線 102.4T 自研交換機(jī)，構(gòu)建 AI 網(wǎng)絡(luò)新底座

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2026/2/4 13:46:36 編者:iccsz

摘要：火山引擎正式上線 102.4T 自研交換機(jī)，支撐新一代 HPN 6.0 架構(gòu)，可高效互聯(lián)十萬(wàn)卡級(jí) GPU 集群。該交換機(jī)硬件上實(shí)現(xiàn)全端口 LPO 支持、高速系統(tǒng)設(shè)計(jì)等多重創(chuàng)新，兼具高性能與低成本；軟件端基于 Lambda OS 打造 SGLB、SyncMesh 等核心技術(shù)，實(shí)現(xiàn)全局負(fù)載均衡、微秒級(jí)路由收斂。HPN 6.0 架構(gòu)則具備超大規(guī)模演進(jìn)、訓(xùn)推一體融合、高確定性穩(wěn)定三大核心能力，為超大規(guī)模 AI 算力集群筑牢網(wǎng)絡(luò)底座，也為未來(lái)網(wǎng)絡(luò)升級(jí)奠定基礎(chǔ)。

ICC訊 從 AI 大模型訓(xùn)練到多模態(tài)推理，算力規(guī)模持續(xù)放大。網(wǎng)絡(luò)已成為決定 AI 系統(tǒng)上限的關(guān)鍵因素：不僅需要更高帶寬，還需更少層級(jí)以實(shí)現(xiàn)低成本、低時(shí)延互聯(lián)。基于對(duì)超大規(guī)模 AI 集群的長(zhǎng)期實(shí)踐與思考，火山引擎正式上線 102.4T 自研交換機(jī)，并以此支撐新一代 HPN 6.0 架構(gòu)，可支持十萬(wàn)卡級(jí) GPU 集群的高效互聯(lián)。

創(chuàng)新的硬件設(shè)計(jì)

火山引擎自研的 102.4T 交換機(jī)憑借多維度的硬件技術(shù)創(chuàng)新和細(xì)節(jié)打磨，以高性能、高穩(wěn)定、低成本的核心優(yōu)勢(shì)成為下一代 AI 網(wǎng)絡(luò)的關(guān)鍵硬件底座。

圖1 火山引擎 102.4T 自研交換機(jī)

其核心特性如下：

? 全端口 LPO 支持：實(shí)現(xiàn)低時(shí)延、低功耗、低成本，兼顧性能、穩(wěn)定與成本。

? 創(chuàng)新的高速系統(tǒng)設(shè)計(jì)：使用 3 層扣板架構(gòu)，在 4U 空間實(shí)現(xiàn)了 128 個(gè) 800G OSFP 端口。高速系統(tǒng)首創(chuàng) SerDes PCB RDL 設(shè)計(jì)，MAC 板僅為 36 層，結(jié)合 M8N+M7 疊層，實(shí)現(xiàn)了小于 20dB 的 Bump-Bump 損耗，在無(wú) Cable 和 PHY 的條件下極致支持 800G LPO。

? 精密的結(jié)構(gòu)與裝配：創(chuàng)新的板載定位與多級(jí)導(dǎo)向精準(zhǔn)裝配方案大幅提升了組裝效率。通過(guò)優(yōu)化連接器同向布局釋放容差能力，累計(jì)公差減少 50%，為長(zhǎng)期穩(wěn)定運(yùn)行筑牢基礎(chǔ)。

? 極致的風(fēng)冷散熱：為應(yīng)對(duì)單芯片超過(guò) 1600 W 的散熱壓力，散熱器融合了非牛頓流體材料、石墨烯導(dǎo)熱材料與強(qiáng)化毛細(xì)結(jié)構(gòu)，并配合系統(tǒng)級(jí)定向風(fēng)場(chǎng)設(shè)計(jì)，最終實(shí)現(xiàn) 40℃ 環(huán)溫下 1800m 海拔滿(mǎn)配穩(wěn)定運(yùn)行，將風(fēng)冷技術(shù)潛力挖掘至極致。

? 超大尺寸芯片焊接：通過(guò)仿真和推導(dǎo)熱形變數(shù)據(jù)，在板圖設(shè)計(jì)與生產(chǎn)中實(shí)現(xiàn)精確熱補(bǔ)償，成功攻克超大尺寸芯片的 SMT 焊接難題，目前焊接良率達(dá)到 100%。

? 模塊化與成本效益：機(jī)電結(jié)構(gòu)、管理板等核心部件復(fù)用上一代成熟設(shè)計(jì)，僅需更換端口板即可適配不同應(yīng)用需求，顯著降低后續(xù)升級(jí)與維護(hù)成本。

圖2 102.4T 自研交換機(jī)內(nèi)部構(gòu)成

極致的軟件特性

Lambda OS 是火山引擎自主研發(fā)的網(wǎng)絡(luò)操作系統(tǒng)，它以開(kāi)源 SONiC 系統(tǒng)為基礎(chǔ)，結(jié)合業(yè)務(wù)場(chǎng)景和大規(guī)模網(wǎng)絡(luò)運(yùn)維經(jīng)驗(yàn)，進(jìn)行了深度產(chǎn)品化定制與創(chuàng)新。

全局負(fù)載均衡

AI 大模型的流量特征呈現(xiàn)為大流（Elephant Flow）和少流（Paucity of Flows），網(wǎng)絡(luò)負(fù)載不均會(huì)導(dǎo)致部分鏈路空閑而部分鏈路擁塞丟包，使帶寬利用率從設(shè)計(jì)的 90% 降至 50% 以下。傳統(tǒng) Hash 算法的不均可能導(dǎo)致部分鏈路延遲飆升，拖慢整個(gè)集群的參數(shù)同步。例如，某鏈路擁塞導(dǎo)致同步延遲增加 10 ms，迭代 1000 次后總延遲將增加 10s，嚴(yán)重影響模型訓(xùn)練效率及推理用戶(hù)體感。

為此，火山引擎與芯片廠商深度合作，聯(lián)合開(kāi)發(fā)了業(yè)界首個(gè)可擴(kuò)展的全局網(wǎng)絡(luò)負(fù)載均衡技術(shù)——SGLB（可擴(kuò)展且穩(wěn)健的全局負(fù)載均衡）。SGLB 基于全局拓?fù)洌軌蛭⒚爰?jí)感知鏈路擁塞狀態(tài)，并計(jì)算端到端最優(yōu)路徑。實(shí)測(cè)性能表明，相較于傳統(tǒng) Hash 選路，GPU 網(wǎng)絡(luò)帶寬可提升 40%。更多技術(shù)細(xì)節(jié)，可參閱 SIGCOMM 2025 的相關(guān)論文：https://dl.acm.org/doi/10.1145/3718958.3750527。

圖3 SGLB 示意圖

圖4 SGLB 性能數(shù)據(jù)

帶寬對(duì)稱(chēng)性負(fù)載均衡

在小規(guī)模網(wǎng)絡(luò)集群中，設(shè)備間通常存在多鏈路互聯(lián)，帶寬具有對(duì)稱(chēng)性。如圖 5 所示的拓?fù)?，?dāng)一條 800G 鏈路斷開(kāi)時(shí)，理想情況下業(yè)務(wù)帶寬也應(yīng)相應(yīng)損失 800G。然而在實(shí)際場(chǎng)景中（如圖 6 所示），由于 BGP 路由仍然可達(dá)，且傳統(tǒng)負(fù)載均衡無(wú)法感知全局拓?fù)渥兓?，?dǎo)致業(yè)務(wù)帶寬損失被不成比例地放大，損失值可能是物理帶寬損失的數(shù)倍，最高可達(dá) 32 倍。

圖5 小規(guī)模集群網(wǎng)絡(luò)

圖6 非對(duì)稱(chēng)下的業(yè)務(wù)帶寬損失

因此，Lambda OS 設(shè)計(jì)了帶寬對(duì)稱(chēng)性負(fù)載均衡機(jī)制。該機(jī)制能夠感知拓?fù)渲械膸拰?duì)稱(chēng)性，確保物理帶寬損失與業(yè)務(wù)帶寬損失呈線性關(guān)系，從而提升網(wǎng)絡(luò)的可預(yù)期性。

微秒級(jí)路由收斂

在 AI 網(wǎng)絡(luò)中，鏈路抖動(dòng)對(duì)模型訓(xùn)練和推理有直接影響。大模型訓(xùn)練期間，成千上萬(wàn)的 GPU 需頻繁同步數(shù)據(jù)，任何鏈路抖動(dòng)導(dǎo)致的丟包都會(huì)使其他數(shù)千個(gè) GPU 必須空轉(zhuǎn)等待，形成“木桶效應(yīng)”，極大地降低 GPU 利用率，造成算力資源浪費(fèi)。公開(kāi)資料顯示，一個(gè)萬(wàn)卡 AI 集群每年因鏈路故障導(dǎo)致的訓(xùn)練中斷約 60 次；谷歌在 OFC 2025 的報(bào)告中也指出，百萬(wàn)級(jí)鏈路規(guī)模下，每日故障約 40 次，月均約 1200 次。因此，在鏈路故障時(shí)快速切換路由、減少丟包至關(guān)重要。

圖7 路由收斂示意圖

鏈路故障時(shí)，快速切換流量的瓶頸在于跨設(shè)備的遠(yuǎn)端鏈路中斷（Down）時(shí)的路由收斂。業(yè)界通過(guò)協(xié)議優(yōu)化，通常能實(shí)現(xiàn)秒級(jí)收斂。例如，AWS 在 re：Invent 2024 上介紹其自研的 SIDR 協(xié)議，將路由收斂時(shí)間從 10s 優(yōu)化至 1s。

基于在 SGLB 實(shí)踐中積累的微秒級(jí)端到端路徑感知能力，火山引擎設(shè)計(jì)并實(shí)現(xiàn)了自研的 SyncMesh 路由協(xié)議，其特點(diǎn)如下：

? 硬件卸載與微秒級(jí)切換：SyncMesh 支持芯片卸載，實(shí)現(xiàn)微秒級(jí)端到端狀態(tài)感知與路徑切換。

? 收斂性能與路由規(guī)模解耦：在萬(wàn)級(jí)路由規(guī)模下，仍能保證微秒級(jí)的收斂速度。

與業(yè)界 1s 級(jí)的路由收斂性能相比，SyncMesh 將其提升至 50 μs，實(shí)現(xiàn)了 5 個(gè)數(shù)量級(jí)的性能飛躍。

微秒級(jí)可視化監(jiān)控

HFT（高頻遙測(cè)）支持對(duì)全量端口帶寬、隊(duì)列長(zhǎng)度等多個(gè)統(tǒng)計(jì)指標(biāo)進(jìn)行微秒級(jí)監(jiān)控，解決了傳統(tǒng)秒級(jí)監(jiān)控難以觀測(cè)和分析業(yè)務(wù)流量細(xì)節(jié)的問(wèn)題。

圖8 LLaMA 流量模型下的微秒級(jí)監(jiān)控?cái)?shù)據(jù)

新一代的 HPN 網(wǎng)絡(luò)架構(gòu)

基于 102.4T 自研交換機(jī)在軟硬件一體化方面的能力積累，火山引擎推出了面向訓(xùn)推一體場(chǎng)景的融合網(wǎng)絡(luò)架構(gòu)——HPN 6.0。圍繞“規(guī)模、融合、確定性”三個(gè)核心目標(biāo)，HPN 6.0 重新定義了超大規(guī)模算力集群的網(wǎng)絡(luò)底座。

- 超大規(guī)模演進(jìn)能力

? 采用三層 Clos 架構(gòu)，單 POD 最大支持 65k 規(guī)模組網(wǎng)，集群能力可線性擴(kuò)展至百萬(wàn)級(jí)。在不引入額外層級(jí)的前提下，HPN 6.0 兼顧了規(guī)模擴(kuò)展性與網(wǎng)絡(luò)時(shí)延可控性，為十萬(wàn)卡、百萬(wàn)卡時(shí)代提供了可持續(xù)演進(jìn)的網(wǎng)絡(luò)基礎(chǔ)。

- 面向訓(xùn)推一體的深度融合設(shè)計(jì)

? 網(wǎng)絡(luò)支持 200G/400G/800G RDMA NIC 的混速組網(wǎng)，并針對(duì)不同速率、不同代際 GPU 間的帶寬不對(duì)等與通信模式差異引入了創(chuàng)新優(yōu)化方案，確保多代算力與多類(lèi)型業(yè)務(wù)能夠穩(wěn)定協(xié)同。

? 同時(shí)，HPN 6.0 提供算子級(jí)與任務(wù)級(jí)雙粒度 QoS 能力，使網(wǎng)絡(luò)資源能夠精準(zhǔn)匹配訓(xùn)練、推理等不同階段的通信特征，為大規(guī)模分布式訓(xùn)練提供可預(yù)期、可驗(yàn)證的高性能通信。

- 以確定性為目標(biāo)的穩(wěn)定性體系

? 通過(guò)多平面容災(zāi)架構(gòu)與芯片級(jí) Fast Failover 能力，實(shí)現(xiàn)微秒級(jí)故障收斂，將網(wǎng)絡(luò)異常對(duì)算力任務(wù)的影響控制在最小范圍內(nèi)。

? 結(jié)合微秒級(jí)流量可視化與億萬(wàn)分之一丟包級(jí)別的可感知能力，使網(wǎng)絡(luò)問(wèn)題從“事后定位”轉(zhuǎn)變?yōu)椤笆虑案兄?，為超大?guī)模 HPN 網(wǎng)絡(luò)的長(zhǎng)期穩(wěn)定運(yùn)行提供底層保障。

圖9 火山引擎 HPN 6.0 網(wǎng)絡(luò)架構(gòu)

結(jié)束語(yǔ)

102.4T 自研交換機(jī)和 HPN 6.0 網(wǎng)絡(luò)架構(gòu)的上線，是火山引擎 AI 網(wǎng)絡(luò)架構(gòu)演進(jìn)中的一個(gè)重要里程碑。它不僅滿(mǎn)足了當(dāng)前大規(guī)模 GPU 集群的嚴(yán)苛需求，也為未來(lái)的網(wǎng)絡(luò)升級(jí)奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著 AI 技術(shù)的飛速發(fā)展，從 800G 到 1.6T，從萬(wàn)卡到更大規(guī)模的算力集群，網(wǎng)絡(luò)基礎(chǔ)設(shè)施的演進(jìn)之路永無(wú)止境?；鹕揭鎸⒗^續(xù)在硬件、軟件和系統(tǒng)架構(gòu)上不斷探索與創(chuàng)新，構(gòu)建更高效、更穩(wěn)定、更可持續(xù)演進(jìn)的 AI 網(wǎng)絡(luò)底座，推動(dòng) AI 技術(shù)浪潮向前發(fā)展。

內(nèi)容來(lái)自：字節(jié)跳動(dòng)網(wǎng)絡(luò)團(tuán)隊(duì)
本文地址：http://m.n2software.net//Site/CN/News/2026/02/04/20260204062225928957.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:火山引擎正式上線 102.4T 自研交換機(jī)，構(gòu)建 AI 網(wǎng)絡(luò)新底座

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

火山引擎正式上線 102.4T 自研交換機(jī)，構(gòu)建 AI 網(wǎng)絡(luò)新底座

相關(guān)新聞

火山引擎正式上線 102.4T 自研交換機(jī)，構(gòu)建 AI 網(wǎng)絡(luò)新底座