
在 2024 年 OCP 全球峰會上,NVIDIA 宣布已將 NVIDIA GB200 NVL72 機架以及計算和交換機托盤液冷設計貢獻給開放計算項目 (OCP)。
這篇文章提供了有關此貢獻的詳細信息,并解釋了它如何提高當前設計標準的實用性,以滿足現代數據中心對高計算密度的需求。它還探討了生態系統如何在此基礎上構建 GB200 設計,降低了新 AI 數據中心的成本和實施時間。
NVIDIA 的開源計劃
NVIDIA 在開源計劃方面有著豐富的歷史。NVIDIA 的工程師在 GitHub 上發布了超過 900 個軟件項目,并已開源了 AI 軟件堆棧中的關鍵組件。例如,NVIDIA Triton 推理服務器現在已集成到所有主要的云服務提供商中,用于在生產環境中服務 AI 模型。此外,NVIDIA 的工程師還積極參與了眾多開源基金會和標準組織,包括 Linux 基金會、Python 軟件基金會和 PyTorch 基金會。
這種對開放性的承諾延伸到了開放計算項目(OCP),NVIDIA 在這方面持續地為多代硬件產品做出了設計貢獻。值得注意的貢獻包括 NVIDIA HGX H100 底板,它已成為 AI 服務器的事實上的底板標準,以及 NVIDIA ConnectX-7 適配器,現在它作為 OCP 網絡接口卡(NIC)3.0 的基礎設計。
NVIDIA 還是 OCP SAI(交換機抽象接口)項目的創始和治理委員會成員,并且是 SONiC(用于云計算的開源網絡軟件)項目的第二大貢獻者。
滿足數據中心計算需求
用于訓練自回歸變換器模型的計算能力需求已經爆炸性增長,在過去五年中增長了驚人的 20,000 倍。今年早些時候發布的 Meta 的 Llama 3.1 405B 模型需要 380 億 petaflops 的加速計算來進行訓練,比一年前發布的 Llama 2 70B 模型增加了 50 倍。訓練和服務這些大型模型無法在單個 GPU 上完成;相反,它們必須在龐大的 GPU 集群上進行并行化。
并行化有多種形式——張量并行、流水線并行和專家并行,每一種在吞吐量和用戶交互性方面都提供了獨特的優勢。通常,這些方法會結合使用,以創建最佳的訓練和推理部署策略,以滿足用戶體驗要求和數據中心預算目標。要深入了解大型模型的并行技術,請參閱《揭秘兆參數大語言模型的推理部署》。
多 GPU 互聯的重要性
在模型并行中,一個常見的挑戰是 GPU 間通信的高體量。張量并行 GPU 通信模式凸顯了這些 GPU 之間的緊密聯系。例如,在 AllReduce 操作中,每個 GPU 必須在神經網絡的每一層將計算結果發送到其他所有 GPU,才能確定最終的模型輸出。在這些通信過程中,任何延遲都可能導致顯著的效率低下,使得 GPU 處于空閑狀態,等待通信協議完成。這降低了系統的整體效率,并增加了總擁有成本(TCO)

為了應對這些通信瓶頸,數據中心和云服務提供商利用了 NVIDIA NVSwitch 和 NVLink 互聯技術。NVSwitch 和 NVLink 專門設計用于加速 GPU 之間的通信,減少 GPU 空閑時間并提高吞吐量。
在 NVIDIA GB200 NVL72 推出之前,單個 NVLink 域內可連接的 GPU 數量限制在 HGX H200 底板上的八個,每個 GPU 的通信速度為 900 GB/s。GB200 NVL72 設計的引入大大擴展了這些能力:NVLink 域現在可以支持多達 72 個 NVIDIA Blackwell GPU,每個 GPU 的通信速度達到 1.8 TB/s,比最先進的 400 Gbps 以太網標準快了 36 倍。
這種 NVLink 域規模和速度的飛躍可以將兆參數模型(如 GPT-MoE-1.8T)的訓練和推理分別加速至 4 倍和 30 倍。


每個 GPU 與其他 GPU 之間的通信速度比最先進的以太網標準快了 36 倍
加速基礎設施的創新和貢獻
在單個機架內支持如此大型的 GPU NVLink 域的重量、匹配力和冷卻需求,需要對機架架構以及容納 GPU 和 NVSwitch 芯片的計算和交換機機箱進行仔細的電氣和機械修改。
NVIDIA 與合作伙伴緊密合作,基于現有的設計原則進行了擴展,以提高它們的實用性并支持 GB200 NVL72 的高計算密度和能效。機架、托盤和內部組件的設計都源自 NVIDIA MGX 架構。如今,我們很高興開放并與 OCP 分享這些設計,以建立一個模塊化且可重用的高計算密度基礎設施,用于人工智能領域。

機架加固
為了在一個機架內高效地容納 18 個計算托盤、9 個交換機托盤和 4 個支持超過 5,000 根銅纜的 NVLink 卡匣,NVIDIA 對現有機架設計實施了幾項關鍵修改,包括:
適應 19” EIA 設備在機架內的 1 RU 形式因素,以增加用于 IO 電纜的空間并提高托盤密度。
增加超過 100 磅的鋼結構加固,顯著提高了機架的強度和穩定性,以承受其組件和框架之間產生的 6,000 磅的匹配力。
引入后機架擴展,以保護電纜支撐和流量分配裝置,確保這些元素的壽命和正常運作。
引入盲插滑軌和鎖扣功能,便于 NVLink 的安裝、液冷系統的集成,并通過使用盲插連接器簡化維護程序。
這種機架重新設計優化了空間利用率,增強了結構完整性,并提高了整體系統的可靠性和可維護性。
大容量總線
為了適應機架的高計算密度和增加的功率要求,增強型高容量總線開發了一種新的設計規范。這種升級的總線與現有的ORV3保持相同的寬度,但具有更深的輪廓,顯著提高了其載流量。新設計支持更高的1400安培電流,與當前標準相比,電流增加了2倍。這種增強確保了母線能夠有效地處理現代高性能計算環境的高功率需求,而不需要機架內額外的水平空間。
NVLink cartridges
為了實現NVLink域中所有72個NVIDIA Blackwell GPU之間的高速通信,我們采用了一種新穎的設計,在機架后部垂直安裝了四個NVLink cartridges。這些盒式磁帶可容納5000多條活動銅纜,提供130 TB/s和260 TB/s的AllReduce帶寬,令人印象深刻.
這種設計確保了每個GPU都可以以1.8TB/s的速度與域中的其他GPU通信,從而顯著提高了整體系統性能。作為我們提交的一部分,我們提供了有關這些NVLink墨盒的體積和精確安裝位置的詳細信息,為高性能計算基礎設施的未來實施和改進做出了貢獻.
液冷集管(Liquid Cooling Manifolds)和浮動盲插(Floating Blind Mates)
為了高效管理機架所需的120KW冷卻能力,我們采用了直接液體冷卻技術。在現有設計的基礎上,我們引入了兩項關鍵創新。首先,我們開發了一種增強型Blind Mate Liquid
其次,我們創建了一種新型的浮動盲板配合托盤連接,它有效地將冷卻劑分配到計算和開關托盤,顯著提高了液體快速斷開裝置在機架中對齊和可靠配合的能力。通過利用這些增強的液體冷卻解決方案,我們能夠滿足現代高性能計算環境的高熱管理需求,確保機架組件的最佳性能和壽命。
高效的冷卻和對各種用戶需求的適應性
為了適應機架的高計算密度,我們引入了1RU液冷計算和交換機托盤的外形尺寸。我們還開發了一種新的、更密集的DC-SCM(數據中心安全控制模塊)設計,比當前標準小10%。此外,我們還實現了更窄的母線連接器,以最大限度地利用后面板空間。這些修改優化了空間利用率,同時保持了性能。
此外,為計算托盤創建了一個模塊化機架設計,可以靈活地適應不同的用戶I/O要求。這些增強功能共同支持計算和交換機托盤的1RU液冷外形,顯著提高了機架的計算密度和網絡能力,同時確保了高效的冷卻和對各種用戶需求的適應性。
新推出的 NVIDIA GB200 NVL72 參考架構
在 OCP 上,NVIDIA 還與 Vertiv 共同宣布了全新的 GB200 NVL72 參考架構。Vertiv 是一家在電源和冷卻技術領域的領導者,并且在設計、構建和服務高計算密度數據中心方面具有專長。這一新的參考架構將顯著減少云服務提供商和數據中心部署 NVIDIA Blackwell 平臺的實施時間。
這個新的參考架構消除了數據中心需要從頭開始開發自己的電源、冷卻和空間設計來適應 GB200 NVL72 的需求。通過利用 Vertiv 在空間節省電源管理和高能效冷卻技術方面的專長,數據中心可以部署全球 7MW 的 GB200 NVL72 集群,將實施時間減少多達 50%,同時減少電源空間占用并提高冷卻能效。

