ICC訊 2025年以來,超節(jié)點(SuperPod)作為新的AI算力基礎(chǔ)設(shè)施,不斷成為行業(yè)焦點。觀察者網(wǎng)也曾深度報道過華為的昇騰384超節(jié)點,它通過高速互聯(lián)總線將384顆昇騰芯片連接起來,在超節(jié)點算力規(guī)模、網(wǎng)絡(luò)互聯(lián)帶寬、內(nèi)存總帶寬等多個指標上,趕超了國外廠商的旗艦系統(tǒng)。
但當時一些討論認為,華為是靠堆砌了384顆芯片,才超越了英偉達72顆芯片,而后很多廠商也跟進了超節(jié)點的概念。一時間,算力行業(yè)掀起了建設(shè)超節(jié)點的熱潮。那回到最初的問題,超節(jié)點就是單純的堆芯片嗎?華為是通過暴力堆砌芯片趕超英偉達的嗎?超節(jié)點和傳統(tǒng)的計算集群區(qū)別在哪?
關(guān)于這些行業(yè)熱點話題,華為計算產(chǎn)品線營銷運作部部長張愛軍近日在一場媒體沙龍上對觀察者網(wǎng)等媒體做了詳解。他首先認為,今天的算力需求遠未被滿足,無論是大模型進入到生產(chǎn)系統(tǒng)中,還是在toC消費端,token消耗的數(shù)量都在指數(shù)級增長,未來中國每日token消耗量可能突破千萬億。
在一些觀點看來,算力缺口大可以通過大量建設(shè)服務(wù)器集群堆卡來解決。這么說聽起來有一定道理,但真實情況遠沒有這么簡單。根據(jù)Meta公布的論文,萬卡集群訓(xùn)練時算力利用率僅約38%,粗暴堆卡可能會造成62%的算力浪費,并且模型訓(xùn)練會3個小時中斷一次。
這是因為,集群網(wǎng)絡(luò)通信已成為當前大模型訓(xùn)練和推理的最大挑戰(zhàn)。以DeepSeek這種混合專家模型(MoE)為例,每個“專家”如果不能有效溝通,NPU就會由于沒有足夠數(shù)據(jù)計算而閑置,進而形成1+1。
超節(jié)點就在這種情況下應(yīng)運而生,它不是修補式改進,而是對傳統(tǒng)計算架構(gòu)進行重構(gòu)。張愛軍對觀察者網(wǎng)表示,超節(jié)點從傳統(tǒng)以CPU為中心的架構(gòu),變成了全平等互聯(lián),無論是CPU、NPU還是內(nèi)存單元,都不用再經(jīng)過CPU,而是可以平等互聯(lián),提高通信效率,同時連接計算單元的“高速公路”也發(fā)生了變化,由全新的協(xié)議和總線能力來支撐設(shè)備間互聯(lián)。
現(xiàn)在市面上的超節(jié)點越來越多,但并沒有統(tǒng)一標準,而張愛軍認為,真正的超節(jié)點須具備三個關(guān)鍵特點:一是帶寬夠大,核心要讓計算不用等待通信;二是有足夠低的時延,傳統(tǒng)集群很難做到時延降低;三是形成有效的、邏輯上的單一系統(tǒng),關(guān)鍵在于內(nèi)存能不能統(tǒng)一編址。利用這些技術(shù),超節(jié)點可以讓DeepSeek的256個“專家”分布到每個計算單元上,提升吞吐效率。
“為什么要有統(tǒng)一內(nèi)存編址的技術(shù)才能真正稱得上超節(jié)點?”他進一步對觀察者網(wǎng)解釋稱,傳統(tǒng)集群的信息傳遞,跟現(xiàn)實生活中寄快遞的方式比較像,需要做相應(yīng)的轉(zhuǎn)換才能找到下單地址。而超節(jié)點希望像在圖書館里檢索書籍一樣,提前進行書籍編址,能快速找到,而且可以變成資源池。如果沒有統(tǒng)一內(nèi)存編址,就不能做到內(nèi)存的池化。如果沒有內(nèi)存池化,計算單元之間的數(shù)據(jù)快速交換很難做到。如果不能快速交換數(shù)據(jù),計算效率是很難提升的。這是為什么說做不到統(tǒng)一內(nèi)存編址,超節(jié)點是很難真正高效地運行起來的原因之一?!?
一句話總結(jié),超節(jié)點相比傳統(tǒng)集群最大的優(yōu)勢,是計算效率的顯著提升。以芯片制程為例,在摩爾定律放緩的情況下,7納米到3納米,可能每代性能提升不超過20%。而超節(jié)點可以將模型算力利用率從30%提升到45%,相當于提升了50%,通過資源的高效調(diào)度,在一定程度上可以彌補芯片工藝代差。
但打造一個真正的超節(jié)點遠沒有那么容易。關(guān)注技術(shù)細節(jié)的人可能會發(fā)現(xiàn),華為的昇騰384超節(jié)點是由12個計算柜和4個總線柜構(gòu)成,體積龐大,而英偉達NVL72系統(tǒng)只有一個機柜,為什么英偉達不連接更多機柜,進而連接更多芯片?
核心在于超節(jié)點架構(gòu)不同,英偉達采用的全銅線架構(gòu),傳遞的是電信號,而華為將光通信技術(shù)應(yīng)用于超節(jié)點,采用超高速光模塊連接。“如果用電的方式,高速信號基本只能在一個機柜里兩到五米傳送,這也是為什么很多業(yè)界的超節(jié)點只能在一個機柜里面提供。為什么華為可以跳出單個機柜限制,規(guī)模商用384個芯片互聯(lián),未來可以支持8192個芯片互聯(lián),核心是我們用了光的技術(shù)?!睆垚圮妼τ^察者網(wǎng)表示。
但“光”并不好駕馭。光模塊成本高,也比較嬌慣,如果有灰塵,有各種各樣的溫度變化,容易發(fā)生閃斷、系統(tǒng)不穩(wěn)定,要做的像電一樣可靠,像光一樣長度,難度很大。
“我們是怎么做到的?一句話,系統(tǒng)化創(chuàng)新,華為可以做自己的芯片,有自己光的器件能力,有自己的底層協(xié)議,在過去光通信上構(gòu)建了工程能力,我們做到了借助全光互聯(lián)提供超節(jié)點。為什么其它廠商做不到?就是因為他們或許掌握了某些單點技術(shù),但很難像華為一樣有系統(tǒng)化能力,這也得益于過去華為一直在通信領(lǐng)域深厚的積累。過去20年,我們在光上面是全球第一的技術(shù)積累。”張愛軍對觀察者網(wǎng)說道。
華為不僅在做智算超節(jié)點,也在發(fā)展通算超節(jié)點。去年的華為全聯(lián)接大會上,華為輪值董事長徐直軍發(fā)布了基于鯤鵬950處理器的TaiShan 950超節(jié)點,這是全球首個通用計算超節(jié)點,將在2026年一季度上市。他當時表示,TaiShan 950加上分布式GaussDB數(shù)據(jù)庫,將徹底取代各種應(yīng)用場景的大型機和小型機,以及Oracle的Exadata數(shù)據(jù)庫服務(wù)器。
“大家過去買服務(wù)器,主要關(guān)注CPU的主頻和核數(shù)。但今天大量的場景通過調(diào)整主頻和核數(shù)是難以解決的,核心原因是因為摩爾定律已經(jīng)走到頭了,物理的效能很難,堆再多的核、提升再高的主頻,很難把計算效能提升上去。有一條新路,通過通信的能力把多核能夠連接起來,形成有效的業(yè)務(wù)系統(tǒng),同樣給通用計算提供相應(yīng)的能力。核心和智算是一樣的,提供超大帶寬、超低時延、進行統(tǒng)一內(nèi)存編址。”張愛軍說道。
在華為的思考中,無論是智算還是通算超節(jié)點,乃至像Atlas 950 SuperCluster這樣數(shù)十萬卡的巨型超節(jié)點集群,核心是要讓大量服務(wù)器像一臺計算機一樣工作,由此華為構(gòu)建了新型互聯(lián)協(xié)議靈衢UB(UnifiedBus),并將靈衢2.0規(guī)范開放。
“靈衢是構(gòu)建超節(jié)點的核心能力,華為把它完全開放出來,讓業(yè)界所有的人都可以獲取到這個技術(shù)?;A(chǔ)協(xié)議有600頁,是所有廠商中提供的最詳細、最完整的能力。通過對靈衢2.0協(xié)議的開放,產(chǎn)業(yè)界伙伴能夠借助這個技術(shù)打造自己的超節(jié)點。我們希望與產(chǎn)業(yè)界共創(chuàng),能夠形成一個繁榮的產(chǎn)業(yè)生態(tài),希望這些新的能力、新的技術(shù)不僅僅華為在使用,而是整個產(chǎn)業(yè)鏈一起來構(gòu)建?!睆垚圮姳硎?。
超節(jié)點足夠火熱,但支撐其運行的不只有芯片、光模塊等硬件,還有大量軟件生態(tài),比如異構(gòu)計算架構(gòu)CANN、操作系統(tǒng)openEuler、數(shù)據(jù)庫openGauss、AI框架MindSpore等等。
生態(tài)需要產(chǎn)業(yè)共建,華為一直堅持軟件開源開放。張愛軍表示,“目前鯤鵬注冊開發(fā)者有380萬,昇騰有將近400萬開發(fā)者。2025年8月,我們把CANN完全開源開放,openEuler也是業(yè)界第一個面向超節(jié)點的開源操作系統(tǒng)。特別是CANN,我們從最底層的運營時,到開發(fā)語言、模版庫算子庫等,完整地開源給產(chǎn)業(yè)界,現(xiàn)在已經(jīng)有很多開發(fā)者基于昇騰CANN的能力,自己開發(fā)算子,來面向它的業(yè)務(wù)場景進行創(chuàng)新。AI 時代的迭代速度遠超以往,單打獨斗很難跟上節(jié)奏,協(xié)同共創(chuàng)、開放共生才能共贏未來?!?