ICC訊 NVIDIA NVL72 GB200/GB300系統(tǒng):InfiniBand和以太網(wǎng)連接解決方案(三)
目錄
1.了解收發(fā)器類型、端口拆分和布線場景
1.1.場景1 – 1600G、800G和400G – 服務(wù)器到交換機或交換機到交換機應(yīng)用
1.2.場景2 – 1600G、800G和400G – 交換機到交換機應(yīng)用
1.3.場景3 – 1600G、800G、400G和200G - 服務(wù)器到交換機應(yīng)用
1.4.場景4 – 1600G、800G、400G和200G – 服務(wù)器到交換機應(yīng)用
1.5.場景5 – 800G和400G - 交換機到交換機應(yīng)用
1.6.場景6 - 800G和400G - 交換機到交換機應(yīng)用
1.7.每個場景的收發(fā)器選項和端口拆分連接
2.NVIDIA NVL72系統(tǒng)布線架構(gòu)參考指南
2.1.了解NVL72機架節(jié)點 (服務(wù)器 )的計算網(wǎng)絡(luò)連接
2.2.了解NVL72系統(tǒng)的交換機
2.3.了解GPU集群的構(gòu)建塊 - 可擴(kuò)展單元的概念
2.4.在NVIDIA NVL72集群中實現(xiàn)布線場景
2.4.1A級 - 服務(wù)器到葉節(jié)點的布線
2.4.2B級 - 葉節(jié)點到脊節(jié)點的布線
2.4.3C級 - 脊節(jié)點到核心的布線
2.5.多模 vs 單模
2.6.整體概覽
2.6.1連接1可擴(kuò)展單元集群的布線
2.6.2連接2可擴(kuò)展單元集群的布線
2.6.3連接4可擴(kuò)展單元集群的布線
2.6.4連接8可擴(kuò)展單元集群的布線
2.6.5連接16可擴(kuò)展單元集群的布線
2.7.NVL72 GB300 集群
2.7.1NVL72 GB300 以太網(wǎng)
2.7.2NVL72 GB300 InfiniBand
2.8.結(jié)論
附件1 高密度配線架
附件2 極性圖紙
場景1 1600G、800G 和 400G – 服務(wù)器到交換機應(yīng)用
場景2 1600G、800G和400G – 交換機到交換機應(yīng)用
場景3 1600G、800G、400G和200G - 服務(wù)器到交換機應(yīng)用
場景4 1600G、800G、400G和200G – 交換機到交換機應(yīng)用
場景5 800G 和 400G - 交換機到交換機應(yīng)用
場景6 800G 和 400G - 交換機到交換機應(yīng)用
附件3 參考和聯(lián)系信息
2.4. 在NVIDIA NVL72集群中實現(xiàn)布線場景
為了便于識別構(gòu)建AI/ML集群時使用的不同布線組件,康寧在本指南中使用三個級別的連接。這些級別和交換機數(shù)量均基于16可擴(kuò)展單元集群的示例:
● A級-服務(wù)器到葉節(jié)點的布線;
● B級-葉節(jié)點到脊節(jié)點的布線;
● C級-脊節(jié)點到核心層的布線。
2.4.1. A級-服務(wù)器到葉節(jié)點的布線
一個可擴(kuò)展單元可以通過節(jié)點(服務(wù)器)和葉交換機之間的點對點連接來布線(見圖1),其中至少有兩種布線產(chǎn)品選項可供選擇(見圖12)。在一些特定的定制設(shè)計中,也可以在可擴(kuò)展單元級別實施結(jié)構(gòu)化布線(見圖2)。
第一種布線產(chǎn)品選項是使用傳統(tǒng)的單根8芯MPO跳線來建立從各NVL72機架到各葉交換機的連接以及SU內(nèi)從葉交換機到脊交換機的連接。選擇不同布線供應(yīng)商時,單根跳線線纜直徑可能大些,這可能會影響機架內(nèi)外的線纜管理和路由。從脊交換機到核心交換機也可采用點對點連接;然而,出于對布線密度和交換機間距離的考量,結(jié)構(gòu)化布線解決方案可能是首選。
第二種布線產(chǎn)品選項是組合使用144芯和128芯CORE主干光纜建立連接。CORE主干光纜是一種用于點對點架構(gòu)的多芯光纖解決方案,它將8芯MPO-8/12 APC連接整合到一個帶阻燃護(hù)套的多芯光纖單元中。使用CORE主干光纜也可以實現(xiàn)從脊交換機到核心交換機的點對點連接;然而,出于對布線密度和交換機間距離的考量,可能首選組合使用CORE主干光纜和結(jié)構(gòu)化布線。
無論哪種情況,產(chǎn)品的選擇都取決于客戶設(shè)計的具體要求。
圖12展示了可擴(kuò)展單元中所需的組件或部件的數(shù)量,具體取決于是選用單根跳線還是CORE主干光纜進(jìn)行布線。
無論選擇哪種方法,我們都將在SU內(nèi)建立1152個到葉交換機的MPO-8/12 APC連接和1152個到脊交換機的連接,并再建立1152個到核心交換機的連接,將SU連接到核心交換機。
圖12.兩種產(chǎn)品方案中可擴(kuò)展單元適用的連接數(shù)量
上文我們提及計算網(wǎng)絡(luò)經(jīng)過了軌道優(yōu)化,總共有4個軌道。這些軌道對應(yīng)的是引自每臺服務(wù)器的MPO-8/12 APC連接。在以下示例中,我們將用顏色標(biāo)記各軌道連接,如圖13所示。
對于A級布線,我們將使用CORE主干光纜來展示從NVL72機架到可擴(kuò)展單元內(nèi)InfiniBand葉交換機機架的連接,因為使用它們可以簡化高密度GPU集群中的布線。如果選擇使用單根跳線,則可以按照軌道映射進(jìn)行布線。
在圖13的左側(cè),我們可以看到一個包含18臺服務(wù)器的NVL72機架,NVL72機架內(nèi)的每個托盤對應(yīng)其各自的軌道。在右側(cè),是軌道1的葉交換機機架,內(nèi)含16臺葉交換機,與可擴(kuò)展單元內(nèi)各個NVL72機架一一對應(yīng)。眾所周知,Quantum-2交換機支持32個雙MPO-8/12 APC端口,這意味著每臺交換機可以支持多達(dá)64個獨立連接。
每個含16個NVL72機架的可擴(kuò)展單元(SU)共需要1152條到葉交換機的MPO-8/12 APC 8芯連接(每臺服務(wù)器4條 – 每個機架72條)
圖13. A級 -使用CORE主干光纜,采用點對點連接進(jìn)行服務(wù)器到葉節(jié)點的布線 - 基于16可擴(kuò)展單元(SU)集群的示例
各NVL72機架的每個軌道用一條CORE主干光纜布線,將每臺服務(wù)器以同一顏色標(biāo)記的所有軌道連接到其各自對應(yīng)的葉交換機。例如,NVL72機架1的軌道1(藍(lán)色軌道)需連接到葉節(jié)點-01交換機端口1-18;NVL72機架2的軌道1(藍(lán)色軌道)需連接到葉節(jié)點-02交換機端口1-18;依此類推。在內(nèi)含16個NVL72機架的可擴(kuò)展單元中,軌道1完成每臺葉交換機前18個端口的連接(共64個),如圖14和圖15所示。此外,每臺葉交換機還有18個上行鏈路連接到脊交換機。對所有NVL72機架的每個軌道重復(fù)此過程,確保完全映射并完成可擴(kuò)展單元內(nèi)所有連接。
將NVL72機架連接到葉交換機機架時,無論是采用結(jié)構(gòu)化布線還是有改進(jìn)映射和線纜管理的需求,都可選擇將配線面板添加到可擴(kuò)展單元中??砂惭b配線面板的位置如圖14所示。
圖14. A級 – CORE主干光纜路由示例
同樣的布線和映射概念也適用于軌道2、軌道3和軌道4。在圖15中,我們可以看到該布局下有4個葉交換機機架,每個軌道各一個,每個機架包含其各自的18個葉交換機?;赟U配置,如果在SU布局內(nèi)采用結(jié)構(gòu)化布線,則可以添加配線面板。
圖 15. A級 – CORE主干光纜到葉交換機的路由
2.4.2. B級 - 葉節(jié)點到脊節(jié)點的布線
由于葉交換機和脊交換機物理上位于同一個可擴(kuò)展單元內(nèi),因此,可使用上文提及的產(chǎn)品選項(單根跳線或CORE主干光纜)將葉交換機連接到脊交換機,也可以采用點對點布線或結(jié)構(gòu)化布線進(jìn)行連接。
在圖16中,左側(cè),我們可以看到葉交換機機架,內(nèi)含軌道1的全部葉交換機,共計16個;右側(cè),我們可以看到脊交換機機架,內(nèi)含軌道1的9個脊交換機(Quantum-2,32個雙MPO-8/12 APC端口),可擴(kuò)展單元內(nèi)的每個NVL72機架各一個。
從葉交換機機架到脊交換機機架,共需288個連接。一個SU共需1152個葉節(jié)點到脊節(jié)點的MPO-8/12 APC 8芯連接。
圖16. B級 – 使用CORE主干光纜,采用點對點連接進(jìn)行葉節(jié)點到脊節(jié)點的布線 – 基于16可擴(kuò)展單元(SU)集群的示例。
使用CORE主干光纜時,單根144芯主干光纜可將軌道1(藍(lán)色軌道)葉節(jié)點-01的18個端口路由到脊交換機機架內(nèi)的各個脊交換機,每個脊交換機2個端口,如圖17所示。
每條CORE主干光纜的設(shè)計都適于處理軌道1(藍(lán)色軌道)的18個連接,簡化布線的同時降低復(fù)雜性。同樣的原理也適用于軌道1(藍(lán)色軌道)內(nèi)其他16個葉交換機,每個葉交換機都采用相同的CORE主干光纜配置來建立與脊交換機機架的連接。
圖17. B級 – CORE主干光纜路由示例
為改進(jìn)線纜管理,在可擴(kuò)展單元(SU)內(nèi)進(jìn)行結(jié)構(gòu)化布線時可以使用配線面板。配線面板可為葉交換機的連接提供有組織、可擴(kuò)展的解決方案。在將連接路由到數(shù)據(jù)中心(DC)內(nèi)的集中式核心交換機區(qū)域時,強烈推薦使用結(jié)構(gòu)化布線,因為這種布線方式可簡化線纜路由,增強系統(tǒng)組織架構(gòu),便于排除故障。
同樣的布線和映射概念也適用于軌道2、軌道3和軌道4。在圖18中,我們可以看到該布局下有4個葉交換機機架,每個軌道各一個。另外還有四個脊交換機機架,也是每個軌道各一個。
圖 18. B級 – CORE主干光纜到脊交換機的路由
2.4.3. C級 – 脊節(jié)點到核心的布線
脊節(jié)點到核心交換機的布線可以通過結(jié)構(gòu)化布線實現(xiàn)。在一些特定的定制設(shè)計中,也可以在脊節(jié)點到核心連接級別實施結(jié)構(gòu)化布線,這取決于核心交換機相對于脊節(jié)點的物理位置。
在圖19中,脊節(jié)點到核心的布線是通過結(jié)構(gòu)化布線實現(xiàn)的:CORE主干光纜連接有源設(shè)備,EDGE8®主干光纜用作主干布線。在一個16可擴(kuò)展單元集群中,有9個核心組,分布于18個核心機架上,每個核心機架容納16個核心交換機,因此每個核心組有32個核心交換機。
圖19. C級 – 采用結(jié)構(gòu)化布線連接脊節(jié)點到核心節(jié)點,用CORE主干光纜連接有源設(shè)備,EDGE8®主干光纜用作主干布線-基于16可擴(kuò)展單元集群的示例
圖20展示了聚合過程,其中每個核心交換機聚合來自所有可擴(kuò)展單元的所有軌道的連接,并接收由各可擴(kuò)展單元內(nèi)的各個脊交換機引出的單個連接。連接總數(shù)因集群大小而異。
在此配置中,采用集中式核心,結(jié)構(gòu)化布線是首選。單條128芯MPO-8/12 APC CORE主干光纜可從脊交換機引出16或32個上行鏈路連接,連接到核心機架內(nèi)的16個核心交換機(各一個端口)。每個CORE主干光纜最多可支持16個連接。
圖20. C級 – CORE主干光纜和EDGE8主干光纜路由示例
圖21是各POD中CORE主干光纜和EDGE8主干光纜的總體布局,展示了它們在結(jié)構(gòu)化布線框架內(nèi)到集中式脊交換機機架的路由。
圖21. C級 – 結(jié)構(gòu)化布線布局中CORE主干光纜和EDGE8主干光纜被路由到脊交換機
2.5.多模vs單模
在網(wǎng)絡(luò)中使用多模光纖還是單模光纖的選擇將取決于具體的設(shè)計要求。多模光纖的傳輸距離最多為50米,因此,其主要適用于可擴(kuò)展單元內(nèi)的連接,如服務(wù)器到葉節(jié)點和葉節(jié)點到脊節(jié)點的連接。然而,由于脊交換機和核心交換機在物理位置上通常并不近,因此建議在這部分設(shè)計中推薦使用單模光纖,因為單模光纖能夠有效地支持更長的傳輸距離,最遠(yuǎn)可達(dá)500米。
2.6.整體概覽
現(xiàn)在我們已經(jīng)了解了不同的集群尺寸,以及如何在計算網(wǎng)絡(luò)的有源設(shè)備之間進(jìn)行布線,讓我們通過圖示總結(jié)一下可以使用的組件。這些組件將取決于具體的設(shè)計,但主要基于我們在本文中回顧的不同產(chǎn)品和部件編號。以下示例基于Quantum-2 InfiniBand交換機,但在使用Quantum-3 InfiniBand或Spectrum-4以太網(wǎng)交換機的布線中也可將其作為設(shè)計參考。
2.6.1.連接1可擴(kuò)展單元集群的布線

如前所述,可擴(kuò)展單元(SU)是GPU集群的基礎(chǔ)構(gòu)建塊。對于1可擴(kuò)展單元集群,可以考慮兩種不同的方法,如圖22所示。通過應(yīng)用我們已探討的不同布線層級,可以總結(jié)出以下配置:
1. 非可擴(kuò)展集群:此配置(見圖23)包括64個葉交換機和18個脊交換機,但它缺乏可擴(kuò)展性,仍局限于兩層設(shè)計:
● 節(jié)點到葉節(jié)點(A級)的1152個MPO連接:這些連接可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
● 葉節(jié)點到脊節(jié)點(B級)的1152個MPO連接:這些連接也可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
2. 可擴(kuò)展集群:此配置(見圖24)中,1個SU由64個葉交換機和36個脊交換機組成,可通過合并核心交換機層將SU數(shù)量擴(kuò)展到2個或以上,過渡到三層設(shè)計:
● 節(jié)點到葉節(jié)點(A級)的1152個MPO連接:這些連接可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
● 葉節(jié)點到脊節(jié)點(B級)的1152個MPO連接:這些連接也可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。
● 核心連接(C級):引入核心交換機層時,需要額外部署1152個MPO連接。有關(guān)如何實現(xiàn)到集中式核心交換機區(qū)域的連接,詳見圖25至圖32。
每個可擴(kuò)展單元從GPU到脊節(jié)點的布線,可使用128條(144芯)CORE主干光纜(從服務(wù)器到葉節(jié)點的64條+從葉節(jié)點到脊節(jié)點的64條)來實現(xiàn),而不用2304條(8芯)單根跳線(從服務(wù)器到葉節(jié)點需1152條+從葉節(jié)點到脊節(jié)點需1152條),從而管理可擴(kuò)展單元內(nèi)的復(fù)雜性。

圖22. 連接1可擴(kuò)展單元集群的布線
在非可擴(kuò)展集群中,每個葉交換機接收18個引自服務(wù)器的MPO連接,每個脊交換機接收引自各葉節(jié)點的單個MPO連接。因此,每個脊節(jié)點總共有64個MPO連接(如圖23所示)。
1152 GPU集群,采用兩層設(shè)計,有18個脊交換機

圖 23. 1可擴(kuò)展單元集群(兩層設(shè)計,不可擴(kuò)展)計算網(wǎng)絡(luò)
在可擴(kuò)展集群中,每個葉交換機接收18個引自服務(wù)器的MPO連接,每個脊交換機接收從同一軌道內(nèi)各葉節(jié)點引出的MPO連接(每個葉節(jié)點兩個MPO連接),因此,每個脊節(jié)點共計32個MPO連接。之后,各脊節(jié)點根據(jù)集群的大小向核心交換機轉(zhuǎn)發(fā)一定數(shù)量的連接,如圖24所示。
1152GPU集群,采用兩層設(shè)計,有36個脊交換機

圖24. 1可擴(kuò)展單元集群(可擴(kuò)展)計算網(wǎng)絡(luò)