
在當今迅速發展的技術格局中,保持領先地位不僅僅是一個目標——這是一個必要條件。創新浪潮,尤其是 AI 領域的創新,正在推動整個技術堆棧的巨大變革。
見證深刻變革的一個領域是以太網(Ethernet)網絡,這是數字通信的基石,數十年來一直是企業和數據中心環境的基礎
如今,每個數據中心都在加速,以支持現代 AI 工作負載,從而增加了對支持這些工作負載的基礎設施的需求。許多企業已經非常熟悉 Ethernet,將其作為可信網絡標準。然而,他們缺乏一種解決方案來充分支持使用 Ethernet 協議的 AI 工作負載的特性。
NVIDIA 的創新愿望通常是出于對理解和響應客戶不斷變化的需求的深刻承諾,確保我們的解決方案不僅滿足而且可以預測并超過預期。
進入 NVIDIA Spectrum-X 時代,NVIDIA Spectrum-X 是全球首款高性能以太網結構,旨在實現不僅僅是增量的改進。它們代表著重大飛躍,確保以太網在數據呈指數級增長的時代仍然是一種可靠的、面向未來的技術。
從概念到實現的性能
由于 AI 工作負載需要不斷增加的數據吞吐量和零尾延遲,因此必須重塑傳統的以太網以滿足嚴格的要求。必須大規模利用、部署和驗證 Remote Direct Memory Access (RDMA) 協議的進步、平衡大型網絡流量以及更好的擁塞控制方法等方面的考慮因素。
雖然以太網已經被用于大規模超大規模云和數據中心,但實際上它只能支持單個服務器或小型工作負載。傳統以太網本質上是一種有損網絡,在擴展AI等分布式計算工作負載時,會帶來重大挑戰。
為了解決傳統以太網的這些缺點,我們開始開發新技術和功能,將NVIDIA以太網產品轉變為高性能計算結構,能夠支持加速計算的嚴格要求。
NVIDIA Spectrum-X 代表了傳統以太網的重大進步,它被專門設計為一種端到端架構,用于優化 AI 工作負載。它使用 NVIDIA BlueField-3 SuperNIC 端點與 NVIDIA Spectrum-4 交換機協同工作,并特別增強了數據中心環境中的 GPU 到 GPU 通信(也稱為東西向網絡流量)。常見做法包括:基于遙測的擁塞控制、無損網絡、動態負載均衡。
基于遙測的擁塞控制
通過將高頻遙測探針與流量測量相結合,Spectrum-X擁塞控制可確保工作負載得到保護,并確保網絡提供性能隔離。這意味著各種類型的AI工作負載可以同時在共享基礎設施上運行,而不會對性能產生負面影響。
無損網絡
Spectrum-X 使用細粒度自適應路由來最大限度地提高網絡利用率,并確保以太網的最高有效帶寬。自適應路由通過在整個網絡中實現逐包負載均衡,避免了傳統以太網中靜態路由(等價多路徑,即 ECMP)或流路由的陷阱,而無需深度緩沖區和避震器。
由于負載均衡意味著數據包可以亂序地到達目的地,因此 NVIDIA BlueField-3 SuperNIC 可確保重新排序數據包,并將其放置在主機內存中,從而使應用程序無法察覺重新排序。
動態負載均衡
Spectrum-X 使用細粒度自適應路由來最大限度地提高網絡利用率,并確保以太網的最高有效帶寬。自適應路由通過在整個網絡中實現逐包負載均衡,避免了傳統以太網中靜態路由(等價多路徑,即 ECMP)或流路由的陷阱,而無需深度緩沖區和避震器。
由于負載均衡意味著數據包可以亂序地到達目的地,因此 NVIDIA BlueField-3 SuperNIC 可確保重新排序數據包,并將其放置在主機內存中,從而使應用程序無法察覺重新排序。
結語
Spectrum-X 的發展歷程還處于起步階段。隨著我們的發展,NVIDIA 繼續借助 Spectrum-X 進行創新,在構建 AI 工廠、生成式 AI 云和企業 AI 數據中心方面發揮著關鍵作用。Spectrum-X 平臺樹立了標準,提供了無與倫比的性能和效率。
