用戶名: 密碼: 驗證碼:

英偉達(dá)NVIDIA NVL72 GB200/GB300系統(tǒng):InfiniBand和以太網(wǎng)連接解決方案(三)

摘要:詳解 NVIDIA NVL72 GB200/GB300 系統(tǒng) InfiniBand 與以太網(wǎng)連接方案,劃分 A/B/C 三級布線架構(gòu),介紹多種高速連接場景與光纖方案,為 AI GPU 集群提供高密度可擴(kuò)展布線參考。

  ICC訊   NVIDIA NVL72 GB200/GB300系統(tǒng):InfiniBand和以太網(wǎng)連接解決方案(三)

  目錄

  1.了解收發(fā)器類型、端口拆分和布線場景

  1.1.場景1 – 1600G、800G和400G – 服務(wù)器到交換機或交換機到交換機應(yīng)用

  1.2.場景2 – 1600G、800G和400G – 交換機到交換機應(yīng)用

  1.3.場景3 – 1600G、800G、400G和200G - 服務(wù)器到交換機應(yīng)用

  1.4.場景4 – 1600G、800G、400G和200G – 服務(wù)器到交換機應(yīng)用

  1.5.場景5 – 800G和400G - 交換機到交換機應(yīng)用

  1.6.場景6 - 800G和400G - 交換機到交換機應(yīng)用

  1.7.每個場景的收發(fā)器選項和端口拆分連接

  2.NVIDIA NVL72系統(tǒng)布線架構(gòu)參考指南

  2.1.了解NVL72機架節(jié)點 (服務(wù)器 )的計算網(wǎng)絡(luò)連接

  2.2.了解NVL72系統(tǒng)的交換機

  2.3.了解GPU集群的構(gòu)建塊 - 可擴(kuò)展單元的概念

  2.4.在NVIDIA NVL72集群中實現(xiàn)布線場景

  2.4.1A級 - 服務(wù)器到葉節(jié)點的布線

  2.4.2B級 - 葉節(jié)點到脊節(jié)點的布線

  2.4.3C級 - 脊節(jié)點到核心的布線

  2.5.多模 vs 單模

  2.6.整體概覽

  2.6.1連接1可擴(kuò)展單元集群的布線

  2.6.2連接2可擴(kuò)展單元集群的布線

  2.6.3連接4可擴(kuò)展單元集群的布線

  2.6.4連接8可擴(kuò)展單元集群的布線

  2.6.5連接16可擴(kuò)展單元集群的布線

  2.7.NVL72 GB300 集群

  2.7.1NVL72 GB300 以太網(wǎng)

  2.7.2NVL72 GB300 InfiniBand

  2.8.結(jié)論

  附件1 高密度配線架

  附件2 極性圖紙

  場景1 1600G、800G 和 400G – 服務(wù)器到交換機應(yīng)用

  場景2 1600G、800G和400G – 交換機到交換機應(yīng)用

  場景3 1600G、800G、400G和200G - 服務(wù)器到交換機應(yīng)用

  場景4 1600G、800G、400G和200G – 交換機到交換機應(yīng)用

  場景5 800G 和 400G - 交換機到交換機應(yīng)用

  場景6 800G 和 400G - 交換機到交換機應(yīng)用

  附件3 參考和聯(lián)系信息

  2.4. 在NVIDIA NVL72集群中實現(xiàn)布線場景

  為了便于識別構(gòu)建AI/ML集群時使用的不同布線組件,康寧在本指南中使用三個級別的連接。這些級別和交換機數(shù)量均基于16可擴(kuò)展單元集群的示例:

  ● A級-服務(wù)器到葉節(jié)點的布線;

  ● B級-葉節(jié)點到脊節(jié)點的布線;

  ● C級-脊節(jié)點到核心層的布線。

  2.4.1. A級-服務(wù)器到葉節(jié)點的布線

  一個可擴(kuò)展單元可以通過節(jié)點(服務(wù)器)和葉交換機之間的點對點連接來布線(見圖1),其中至少有兩種布線產(chǎn)品選項可供選擇(見圖12)。在一些特定的定制設(shè)計中,也可以在可擴(kuò)展單元級別實施結(jié)構(gòu)化布線(見圖2)。

  第一種布線產(chǎn)品選項是使用傳統(tǒng)的單根8芯MPO跳線來建立從各NVL72機架到各葉交換機的連接以及SU內(nèi)從葉交換機到脊交換機的連接。選擇不同布線供應(yīng)商時,單根跳線線纜直徑可能大些,這可能會影響機架內(nèi)外的線纜管理和路由。從脊交換機到核心交換機也可采用點對點連接;然而,出于對布線密度和交換機間距離的考量,結(jié)構(gòu)化布線解決方案可能是首選。

  第二種布線產(chǎn)品選項是組合使用144芯和128芯CORE主干光纜建立連接。CORE主干光纜是一種用于點對點架構(gòu)的多芯光纖解決方案,它將8芯MPO-8/12 APC連接整合到一個帶阻燃護(hù)套的多芯光纖單元中。使用CORE主干光纜也可以實現(xiàn)從脊交換機到核心交換機的點對點連接;然而,出于對布線密度和交換機間距離的考量,可能首選組合使用CORE主干光纜和結(jié)構(gòu)化布線。

  無論哪種情況,產(chǎn)品的選擇都取決于客戶設(shè)計的具體要求。

  圖12展示了可擴(kuò)展單元中所需的組件或部件的數(shù)量,具體取決于是選用單根跳線還是CORE主干光纜進(jìn)行布線。

  無論選擇哪種方法,我們都將在SU內(nèi)建立1152個到葉交換機的MPO-8/12 APC連接和1152個到脊交換機的連接,并再建立1152個到核心交換機的連接,將SU連接到核心交換機。

  圖12.兩種產(chǎn)品方案中可擴(kuò)展單元適用的連接數(shù)量

  上文我們提及計算網(wǎng)絡(luò)經(jīng)過了軌道優(yōu)化,總共有4個軌道。這些軌道對應(yīng)的是引自每臺服務(wù)器的MPO-8/12 APC連接。在以下示例中,我們將用顏色標(biāo)記各軌道連接,如圖13所示。

  對于A級布線,我們將使用CORE主干光纜來展示從NVL72機架到可擴(kuò)展單元內(nèi)InfiniBand葉交換機機架的連接,因為使用它們可以簡化高密度GPU集群中的布線。如果選擇使用單根跳線,則可以按照軌道映射進(jìn)行布線。

  在圖13的左側(cè),我們可以看到一個包含18臺服務(wù)器的NVL72機架,NVL72機架內(nèi)的每個托盤對應(yīng)其各自的軌道。在右側(cè),是軌道1的葉交換機機架,內(nèi)含16臺葉交換機,與可擴(kuò)展單元內(nèi)各個NVL72機架一一對應(yīng)。眾所周知,Quantum-2交換機支持32個雙MPO-8/12 APC端口,這意味著每臺交換機可以支持多達(dá)64個獨立連接。

  每個含16個NVL72機架的可擴(kuò)展單元(SU)共需要1152條到葉交換機的MPO-8/12 APC 8芯連接(每臺服務(wù)器4條 – 每個機架72條)

  圖13. A級 -使用CORE主干光纜,采用點對點連接進(jìn)行服務(wù)器到葉節(jié)點的布線 - 基于16可擴(kuò)展單元(SU)集群的示例

  各NVL72機架的每個軌道用一條CORE主干光纜布線,將每臺服務(wù)器以同一顏色標(biāo)記的所有軌道連接到其各自對應(yīng)的葉交換機。例如,NVL72機架1的軌道1(藍(lán)色軌道)需連接到葉節(jié)點-01交換機端口1-18;NVL72機架2的軌道1(藍(lán)色軌道)需連接到葉節(jié)點-02交換機端口1-18;依此類推。在內(nèi)含16個NVL72機架的可擴(kuò)展單元中,軌道1完成每臺葉交換機前18個端口的連接(共64個),如圖14和圖15所示。此外,每臺葉交換機還有18個上行鏈路連接到脊交換機。對所有NVL72機架的每個軌道重復(fù)此過程,確保完全映射并完成可擴(kuò)展單元內(nèi)所有連接。

  將NVL72機架連接到葉交換機機架時,無論是采用結(jié)構(gòu)化布線還是有改進(jìn)映射和線纜管理的需求,都可選擇將配線面板添加到可擴(kuò)展單元中??砂惭b配線面板的位置如圖14所示。

  圖14. A級 – CORE主干光纜路由示例

  同樣的布線和映射概念也適用于軌道2、軌道3和軌道4。在圖15中,我們可以看到該布局下有4個葉交換機機架,每個軌道各一個,每個機架包含其各自的18個葉交換機?;赟U配置,如果在SU布局內(nèi)采用結(jié)構(gòu)化布線,則可以添加配線面板。

圖 15. A級 – CORE主干光纜到葉交換機的路由

  2.4.2. B級 - 葉節(jié)點到脊節(jié)點的布線

  由于葉交換機和脊交換機物理上位于同一個可擴(kuò)展單元內(nèi),因此,可使用上文提及的產(chǎn)品選項(單根跳線或CORE主干光纜)將葉交換機連接到脊交換機,也可以采用點對點布線或結(jié)構(gòu)化布線進(jìn)行連接。

  在圖16中,左側(cè),我們可以看到葉交換機機架,內(nèi)含軌道1的全部葉交換機,共計16個;右側(cè),我們可以看到脊交換機機架,內(nèi)含軌道1的9個脊交換機(Quantum-2,32個雙MPO-8/12 APC端口),可擴(kuò)展單元內(nèi)的每個NVL72機架各一個。

  從葉交換機機架到脊交換機機架,共需288個連接。一個SU共需1152個葉節(jié)點到脊節(jié)點的MPO-8/12 APC 8芯連接。

  圖16. B級 – 使用CORE主干光纜,采用點對點連接進(jìn)行葉節(jié)點到脊節(jié)點的布線 – 基于16可擴(kuò)展單元(SU)集群的示例。

  使用CORE主干光纜時,單根144芯主干光纜可將軌道1(藍(lán)色軌道)葉節(jié)點-01的18個端口路由到脊交換機機架內(nèi)的各個脊交換機,每個脊交換機2個端口,如圖17所示。

  每條CORE主干光纜的設(shè)計都適于處理軌道1(藍(lán)色軌道)的18個連接,簡化布線的同時降低復(fù)雜性。同樣的原理也適用于軌道1(藍(lán)色軌道)內(nèi)其他16個葉交換機,每個葉交換機都采用相同的CORE主干光纜配置來建立與脊交換機機架的連接。

圖17. B級 – CORE主干光纜路由示例

  為改進(jìn)線纜管理,在可擴(kuò)展單元(SU)內(nèi)進(jìn)行結(jié)構(gòu)化布線時可以使用配線面板。配線面板可為葉交換機的連接提供有組織、可擴(kuò)展的解決方案。在將連接路由到數(shù)據(jù)中心(DC)內(nèi)的集中式核心交換機區(qū)域時,強烈推薦使用結(jié)構(gòu)化布線,因為這種布線方式可簡化線纜路由,增強系統(tǒng)組織架構(gòu),便于排除故障。

  同樣的布線和映射概念也適用于軌道2、軌道3和軌道4。在圖18中,我們可以看到該布局下有4個葉交換機機架,每個軌道各一個。另外還有四個脊交換機機架,也是每個軌道各一個。

圖 18.   B級 – CORE主干光纜到脊交換機的路由

  2.4.3. C級 – 脊節(jié)點到核心的布線

  脊節(jié)點到核心交換機的布線可以通過結(jié)構(gòu)化布線實現(xiàn)。在一些特定的定制設(shè)計中,也可以在脊節(jié)點到核心連接級別實施結(jié)構(gòu)化布線,這取決于核心交換機相對于脊節(jié)點的物理位置。

  在圖19中,脊節(jié)點到核心的布線是通過結(jié)構(gòu)化布線實現(xiàn)的:CORE主干光纜連接有源設(shè)備,EDGE8®主干光纜用作主干布線。在一個16可擴(kuò)展單元集群中,有9個核心組,分布于18個核心機架上,每個核心機架容納16個核心交換機,因此每個核心組有32個核心交換機。

  圖19. C級 – 采用結(jié)構(gòu)化布線連接脊節(jié)點到核心節(jié)點,用CORE主干光纜連接有源設(shè)備,EDGE8®主干光纜用作主干布線-基于16可擴(kuò)展單元集群的示例

  圖20展示了聚合過程,其中每個核心交換機聚合來自所有可擴(kuò)展單元的所有軌道的連接,并接收由各可擴(kuò)展單元內(nèi)的各個脊交換機引出的單個連接。連接總數(shù)因集群大小而異。

  在此配置中,采用集中式核心,結(jié)構(gòu)化布線是首選。單條128芯MPO-8/12 APC CORE主干光纜可從脊交換機引出16或32個上行鏈路連接,連接到核心機架內(nèi)的16個核心交換機(各一個端口)。每個CORE主干光纜最多可支持16個連接。

  圖20. C級 – CORE主干光纜和EDGE8主干光纜路由示例

  圖21是各POD中CORE主干光纜和EDGE8主干光纜的總體布局,展示了它們在結(jié)構(gòu)化布線框架內(nèi)到集中式脊交換機機架的路由。

  圖21. C級 – 結(jié)構(gòu)化布線布局中CORE主干光纜和EDGE8主干光纜被路由到脊交換機

  2.5.多模vs單模

  在網(wǎng)絡(luò)中使用多模光纖還是單模光纖的選擇將取決于具體的設(shè)計要求。多模光纖的傳輸距離最多為50米,因此,其主要適用于可擴(kuò)展單元內(nèi)的連接,如服務(wù)器到葉節(jié)點和葉節(jié)點到脊節(jié)點的連接。然而,由于脊交換機和核心交換機在物理位置上通常并不近,因此建議在這部分設(shè)計中推薦使用單模光纖,因為單模光纖能夠有效地支持更長的傳輸距離,最遠(yuǎn)可達(dá)500米。

  2.6.整體概覽

  現(xiàn)在我們已經(jīng)了解了不同的集群尺寸,以及如何在計算網(wǎng)絡(luò)的有源設(shè)備之間進(jìn)行布線,讓我們通過圖示總結(jié)一下可以使用的組件。這些組件將取決于具體的設(shè)計,但主要基于我們在本文中回顧的不同產(chǎn)品和部件編號。以下示例基于Quantum-2 InfiniBand交換機,但在使用Quantum-3 InfiniBand或Spectrum-4以太網(wǎng)交換機的布線中也可將其作為設(shè)計參考。

  2.6.1.連接1可擴(kuò)展單元集群的布線


  如前所述,可擴(kuò)展單元(SU)是GPU集群的基礎(chǔ)構(gòu)建塊。對于1可擴(kuò)展單元集群,可以考慮兩種不同的方法,如圖22所示。通過應(yīng)用我們已探討的不同布線層級,可以總結(jié)出以下配置:

  1. 非可擴(kuò)展集群:此配置(見圖23)包括64個葉交換機和18個脊交換機,但它缺乏可擴(kuò)展性,仍局限于兩層設(shè)計:

  ●  節(jié)點到葉節(jié)點(A級)的1152個MPO連接:這些連接可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。

  ●  葉節(jié)點到脊節(jié)點(B級)的1152個MPO連接:這些連接也可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。

  2. 可擴(kuò)展集群:此配置(見圖24)中,1個SU由64個葉交換機和36個脊交換機組成,可通過合并核心交換機層將SU數(shù)量擴(kuò)展到2個或以上,過渡到三層設(shè)計:

  ●  節(jié)點到葉節(jié)點(A級)的1152個MPO連接:這些連接可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。

  ●  葉節(jié)點到脊節(jié)點(B級)的1152個MPO連接:這些連接也可以使用點對點布線來實現(xiàn),布線布局含64條CORE主干光纜(每條144芯)或1152條單根8芯跳線。

  ● 核心連接(C級):引入核心交換機層時,需要額外部署1152個MPO連接。有關(guān)如何實現(xiàn)到集中式核心交換機區(qū)域的連接,詳見圖25至圖32。

  每個可擴(kuò)展單元從GPU到脊節(jié)點的布線,可使用128條(144芯)CORE主干光纜(從服務(wù)器到葉節(jié)點的64條+從葉節(jié)點到脊節(jié)點的64條)來實現(xiàn),而不用2304條(8芯)單根跳線(從服務(wù)器到葉節(jié)點需1152條+從葉節(jié)點到脊節(jié)點需1152條),從而管理可擴(kuò)展單元內(nèi)的復(fù)雜性。


圖22. 連接1可擴(kuò)展單元集群的布線

  在非可擴(kuò)展集群中,每個葉交換機接收18個引自服務(wù)器的MPO連接,每個脊交換機接收引自各葉節(jié)點的單個MPO連接。因此,每個脊節(jié)點總共有64個MPO連接(如圖23所示)。

  1152 GPU集群,采用兩層設(shè)計,有18個脊交換機


圖 23. 1可擴(kuò)展單元集群(兩層設(shè)計,不可擴(kuò)展)計算網(wǎng)絡(luò)

  在可擴(kuò)展集群中,每個葉交換機接收18個引自服務(wù)器的MPO連接,每個脊交換機接收從同一軌道內(nèi)各葉節(jié)點引出的MPO連接(每個葉節(jié)點兩個MPO連接),因此,每個脊節(jié)點共計32個MPO連接。之后,各脊節(jié)點根據(jù)集群的大小向核心交換機轉(zhuǎn)發(fā)一定數(shù)量的連接,如圖24所示。

  1152GPU集群,采用兩層設(shè)計,有36個脊交換機


圖24. 1可擴(kuò)展單元集群(可擴(kuò)展)計算網(wǎng)絡(luò)

內(nèi)容來自:康寧光通信
本文地址:http://m.n2software.net//Site/CN/News/2026/02/12/20260212093517525687.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:英偉達(dá)NVIDIA NVL72 GB200/GB300系統(tǒng):InfiniBand和以太網(wǎng)連接解決方案(三)
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right