Scale-up 互連從銅到光的必然演進(jìn)
隨著大模型架構(gòu)從 Dense 向 MoE 演進(jìn),并融合訓(xùn)練與推理一體化范式,系統(tǒng)對(duì)互連網(wǎng)絡(luò)在節(jié)點(diǎn)規(guī)模、帶寬密度、通信時(shí)延和運(yùn)行穩(wěn)定性等方面提出更高要求。高性能互連已成為制約超大規(guī)模 AI 集群效率與擴(kuò)展能力的關(guān)鍵基礎(chǔ)設(shè)施。
當(dāng)前主流 Scale-up 方案依賴機(jī)柜內(nèi)銅纜互連。盡管銅互連在成本與時(shí)延上具備優(yōu)勢(shì),但其傳輸距離受限,迫使系統(tǒng)采用極致高密度、強(qiáng)耦合的“AI Rack”架構(gòu),導(dǎo)致制造、布線、供電、散熱與運(yùn)維復(fù)雜度隨規(guī)模急劇上升。當(dāng)集群擴(kuò)展至百卡乃至千卡級(jí)別時(shí),銅互連的物理覆蓋能力已接近極限。因此,從銅到光的演進(jìn),成為 Scale-up 邁向更大規(guī)模、更高可運(yùn)維性的必然路徑。
阿里云全光 Scale-up網(wǎng)絡(luò)架構(gòu)-UPN512

阿里云于 2025 年 10 月正式發(fā)布 UPN512(Ultra-Performance Network for 512 xPU)全光 Scale-up 架構(gòu)白皮書(shū),提出基于單層以太網(wǎng)光互連的全新設(shè)計(jì),旨在構(gòu)建“大規(guī)模、高性能、高可靠、低成本、易擴(kuò)展”的 xPU 互聯(lián)系統(tǒng)。
UPN512 通過(guò)光互連直接連接 xPU 與交換機(jī),采用單層 CLOS 拓?fù)鋵?shí)現(xiàn) 512 顆 xPU 的全互聯(lián),并為未來(lái)擴(kuò)展至 1K+ 節(jié)點(diǎn)預(yù)留架構(gòu)空間。該方案徹底消除機(jī)柜內(nèi)高速銅纜,顯著降低布線復(fù)雜度、散熱負(fù)擔(dān)、供電需求及運(yùn)維成本。
UPN 512 關(guān)鍵技術(shù)-NPO(Near-Packaged Optics)
NPO(Near-Packaged Optics,近封裝光學(xué))是 UPN512 架構(gòu)的核心使能技術(shù)。它將光電引擎部署在靠近主芯片的位置,采用線性直驅(qū)(Linear Direct
Drive)技術(shù),省去傳統(tǒng)依賴先進(jìn)制程的 DSP 芯片,從而實(shí)現(xiàn):
· 功耗降低 50%以上
· 成本下降 30%
· 端到端時(shí)延與銅互連相當(dāng)
· 供應(yīng)鏈更安全可控
相比 LPO(Linear-drive Pluggable Optics),NPO 提供更高的帶寬密度,并降低對(duì)主芯片 SerDes 性能的要求,更利于生態(tài)發(fā)展;相比 CPO(Co-Packaged Optics),NPO 采用標(biāo)準(zhǔn) LGA 連接器,保持光模塊的開(kāi)放解耦特性,避免主芯片與光引擎綁定,更易被終端用戶采納。
基于NPO光互聯(lián)系統(tǒng)示意圖
阿里云選擇從 3.2T NPO 切入研發(fā),基于 OIF 標(biāo)準(zhǔn)封裝,在僅 22.5mm × 35.1mm 的尺寸內(nèi)實(shí)現(xiàn) 3.2Tb/s 傳輸帶寬。通過(guò)標(biāo)準(zhǔn) LGA 連接器,光引擎與主芯片實(shí)現(xiàn)物理與電氣解耦,延續(xù)了開(kāi)放、繁榮的光模塊生態(tài)。該模塊同時(shí)支持硅光(SiPh)與 VCSEL 兩種技術(shù)路線,可靈活適配不同距離與應(yīng)用場(chǎng)景。
阿里云3.2T NPO模塊形態(tài)圖
基于硅光方案的3.2T NPO內(nèi)部結(jié)構(gòu)
全球首款 3.2T NPO 模塊成功點(diǎn)亮
近日,阿里云宣布全球首款基于 OIF 標(biāo)準(zhǔn)封裝的 3.2T NPO 模塊成功點(diǎn)亮,標(biāo)志著全光 Scale-up 邁入工程落地新階段。
該模塊基于兩顆 16 通道收發(fā)一體硅光芯片,搭配線性直驅(qū) Driver/TIA 芯片,采用成熟的 2D 封裝工藝,將光子集成電路(PIC)與電子集成電路(EIC)倒裝集成于 mSAP 基板上,具備快速量產(chǎn)潛力。
3.2T NPO全功能模塊(內(nèi)部芯片布局圖)
關(guān)鍵性能指標(biāo)如下:
· 發(fā)送端:光眼圖性能優(yōu)異,典型 TDECQ 僅為 1.9dB,全面符合 IEEE 802.3bs DR4 標(biāo)準(zhǔn),可與傳統(tǒng)帶 DSP的 DR4 光模塊無(wú)縫互通,支持新舊架構(gòu)混合部署;
· 接收端:在 1E-6 誤碼率下,所有通道靈敏度優(yōu)于 -5dBm,確保充足鏈路預(yù)算;
功耗:典型功耗約 20W,顯著低于同帶寬 DSP 方案。
發(fā)送端光眼圖
接收端靈敏度
阿里云首個(gè) NPO 項(xiàng)目落地:國(guó)產(chǎn)四芯片交換機(jī)
阿里云已將 3.2T NPO 技術(shù)率先應(yīng)用于新一代國(guó)產(chǎn)四芯片交換機(jī)。該設(shè)備單機(jī)集成 4 顆 25.6T 國(guó)產(chǎn)交換芯片,總交換容量達(dá) 102.4T,并可通過(guò)升級(jí)至 4×102.4T 芯片平滑演進(jìn)至 409.6T 平臺(tái)。
創(chuàng)新之處在于:每顆芯片以細(xì)粒度端口模式(如256×100G)運(yùn)行,系統(tǒng)內(nèi)部將物理端口的多條 lane 拆分并連接到不同交換芯片,從而最大化單芯片 Radix 利用率,提升組網(wǎng)規(guī)模與靈活性。對(duì)外仍以 400G/800G 等主流端口形態(tài)交付,兼容現(xiàn)有 MPO 光纖布線體系。
為實(shí)現(xiàn)高密度交叉互聯(lián),該交換機(jī)采用基于 NPO 的系統(tǒng)級(jí)光互連設(shè)計(jì):
NPO 模塊緊鄰交換芯片部署,在芯片側(cè)完成電-光轉(zhuǎn)換,大幅縮短電通道、減少信號(hào)損耗;
光信號(hào)經(jīng)前部集成的 Shuffle 光交叉模組匯聚后輸出至面板;
交換模組與 Shuffle 模組間采用快插式光連接,支持模組級(jí)熱插拔與獨(dú)立更換,將故障影響范圍收斂至最小單元,顯著提升現(xiàn)場(chǎng)運(yùn)維效率與系統(tǒng)可用性。
目前,該交換機(jī)已完成整機(jī)上電與核心功能驗(yàn)證,NPO 端口實(shí)現(xiàn)穩(wěn)定鏈路建立,項(xiàng)目正式進(jìn)入長(zhǎng)期可靠性測(cè)試階段。
基于NPO的國(guó)產(chǎn)四芯片交換機(jī)硬件架構(gòu)圖
基于NPO的交換模組實(shí)物圖(包含散熱器)
基于NPO的交換模組實(shí)物圖(不含散熱器)
NPO 下一步規(guī)劃
阿里云基礎(chǔ)設(shè)施事業(yè)部物理網(wǎng)絡(luò)研發(fā)團(tuán)隊(duì)正聚焦 NPO 在長(zhǎng)期運(yùn)行下的穩(wěn)定性與故障率驗(yàn)證——這是決定全光 Scale-up 能否規(guī)?;涞氐年P(guān)鍵。同時(shí),團(tuán)隊(duì)正聯(lián)合多家頭部互聯(lián)網(wǎng)企業(yè),在 ODCC(開(kāi)放數(shù)據(jù)中心委員會(huì)) 推動(dòng) 6.4T UPO(Ultra Performance Optics)標(biāo)準(zhǔn)立項(xiàng),旨在構(gòu)建下一代高性能、低功耗、開(kāi)放解耦的光互連生態(tài)。相關(guān)技術(shù)規(guī)范預(yù)計(jì)將于 2026 年發(fā)布,敬請(qǐng)期待。
阿里云將持續(xù)推動(dòng)光互連技術(shù)創(chuàng)新,加速 AI 基礎(chǔ)設(shè)施普惠化。