AI 的發展推動了計算能力的指數級增長,網絡速度每隔幾年就會翻一番。 不太為人所知的是,它還對存儲提出了新的要求。
訓練新模型通常需要對 PB 級數據進行高帶寬網絡訪問,而使用新型檢索增強生成技術(RAG)進行推理則需要對數百 TB 級存儲進行低延遲訪問。新模型還可以對豐富的圖像和視頻數據進行訓練、索引和檢索。許多新的 AI 推理索引和搜索工具都依賴于向量數據庫,還必須保留有關所有嵌入式內容的大量元數據。
傳統的文件存儲通常不適用于這些新的工作負載,傳統存儲硬件并不是支持 AI 的最高效或性能的方式。通常,對象存儲是處理大量數據的最佳架構。相對于價格和能耗而言,需要提供更好性能和效率的新存儲解決方案。
基于DPU的JBOF架構
Supermicro 長期以來一直提供許多 JBOF(僅僅是一堆閃存)解決方案,將其部署為直接連接的存儲或網絡文件或對象存儲。現在,他們正在推出一款由 NVIDIA BlueField 數據處理器(DPU)提供支持的新 JBOF。
新的 JBOF 不再使用帶有獨立 CPU、內存和網卡的傳統存儲服務器設計,而是使用 DPU 運行軟件、連接網絡、支持遠程管理,并在定制芯片中加速關鍵網絡、存儲和安全功能。
DPU 卡可代替 CPU、網卡、DRAM 模塊、CPU PCIe 交換機、加密加速器、BMC 和遠程管理端口。連接 SSD 可能仍需要外部 PCIe 交換機。
BlueField 是 NVIDIA 市場領先的 DPU,它經過優化,可卸載和加速網絡、存儲、安全和管理功能。由于 DPU 將網絡、CPU、內存控制器、PCIe 交換機和流量加速器整合在一個芯片上,因此數據可以直接在 SSD 和高速網絡端口之間移動,而無需由外部 CPU 處理,也無需多次交叉單獨的 PCIe 總線,從而實現低延遲存儲訪問,使系統在價格、性能和能效方面更加高效。
BlueField DPU 存儲控制器卡支持高達 400 Gb/s 的網絡流量,還可以加速 NVMe over Fabrics (NVMe-oF) 存儲協議和其他基于 RDMA 的存儲流量。它還充當 PCIe 根復合體來管理 SSD,并使用其 Arm 核心運行存儲軟件,允許 JBOF 以塊、文件或對象存儲的形式呈現,并作為擴展存儲解決方案的一部分進行部署。
BlueField 還提供安全卸載和遠程管理功能,包括自己的基板管理控制器(BMC)和單獨的管理端口,這些功能通常是大規模數據中心部署和云運營所需的。、
全新 Supermicro JBOF
Supermicro 的新款 2RU JBOF 采用靈活設計,支持 36 個 E3.S SSD 或 24 個 U.2 SSD,原始容量高達 1.44 PB,之后使用較新的 60-TB SSD 最多可支持 2 PB。它擁有兩個控制器罐,每個罐可支持多達兩個 BlueField-3 DPU 和一個 NVIDIA GPU。
JBOF 可在每個 JBOF 機箱內部署兩個容器,以實現主動 – 主動或主動 – 被動高可用性;也可僅使用一個容器,以在多個 JBOF 中通過軟件處理冗余和故障轉移的云存儲情況下實現更高效率。
每個控制器罐最多可容納兩個 NVIDIA BlueField-3 DPU 和一個 NVIDIA GPU 卡。客戶可以為每個 JBOF 部署兩個容器以實現高可用性,或部署一個容器以提高成本效率并降低功耗。
密集設計非常適合縱向擴展和橫向擴展文件和對象存儲,而高網絡吞吐量(每個 JBOF 高達 800Gb/s)支持人工智能訓練和高性能計算工作負載的需求。

降本增效
對 Supermicro JBOF 的測試表明,在安裝了一個 BlueField DPU 的存儲工作負載下,它使 400-Gb/s 的網絡連接飽和。基于 BlueField 的 JBOF 還顯示,小塊 (4 KB) 隨機讀取工作負載的延遲降低了 13%,新 JBOF 的時鐘頻率為 86 μs,而傳統的基于 X86 的 JBOF 為 100μs。
使用單個 DPU 卡替換 CPU、內存、網絡卡和 BMC 可節省非 SSD 子系統高達 50% 的電量,或節省整個 JBOF(包括 SSD)高達 10% 至 15% 的電量。在大規模橫向擴展存儲部署中,這意味著數據中心的耗電量可節省數千瓦。

