AI 的发展推动了计算能力的指数级增长,网络速度每隔几年就会翻一番。 不太为人所知的是,它还对存储提出了新的要求。
训练新模型通常需要对 PB 级数据进行高带宽网络访问,而使用新型检索增强生成技术(RAG)进行推理则需要对数百 TB 级存储进行低延迟访问。新模型还可以对丰富的图像和视频数据进行训练、索引和检索。许多新的 AI 推理索引和搜索工具都依赖于向量数据库,还必须保留有关所有嵌入式内容的大量元数据。
传统的文件存储通常不适用于这些新的工作负载,传统存储硬件并不是支持 AI 的最高效或性能的方式。通常,对象存储是处理大量数据的最佳架构。相对于价格和能耗而言,需要提供更好性能和效率的新存储解决方案。
输入用于存储的 DPU
Supermicro 长期以来一直提供许多 JBOF(仅仅是一堆闪存)解决方案,将其部署为直接连接的存储或网络文件或对象存储。现在,他们正在推出一款由 NVIDIA BlueField 数据处理器(DPU)提供支持的新 JBOF。
新的 JBOF 不再使用带有独立 CPU、内存和网卡的传统存储服务器设计,而是使用 DPU 运行软件、连接网络、支持远程管理,并在定制芯片中加速关键网络、存储和安全功能。
DPU 卡可代替 CPU、网卡、DRAM 模块、CPU PCIe 交换机、加密加速器、BMC 和远程管理端口。连接 SSD 可能仍需要外部 PCIe 交换机。
BlueField 是 NVIDIA 市场领先的 DPU,它经过优化,可卸载和加速网络、存储、安全和管理功能。由于 DPU 将网络、CPU、内存控制器、PCIe 交换机和流量加速器整合在一个芯片上,因此数据可以直接在 SSD 和高速网络端口之间移动,而无需由外部 CPU 处理,也无需多次交叉单独的 PCIe 总线,从而实现低延迟存储访问,使系统在价格、性能和能效方面更加高效。
BlueField DPU 存储控制器卡支持高达 400 Gb/s 的网络流量,还可以加速 NVMe over Fabrics (NVMe-oF) 存储协议和其他基于 RDMA 的存储流量。它还充当 PCIe 根复合体来管理 SSD,并使用其 Arm 核心运行存储软件,允许 JBOF 以块、文件或对象存储的形式呈现,并作为扩展存储解决方案的一部分进行部署。
BlueField 还提供安全卸载和远程管理功能,包括自己的基板管理控制器(BMC)和单独的管理端口,这些功能通常是大规模数据中心部署和云运营所需的。
全新 Supermicro JBOF
Supermicro 的新款 2RU JBOF 采用灵活设计,支持 36 个 E3.S SSD 或 24 个 U.2 SSD,原始容量高达 1.44 PB,之后使用较新的 60-TB SSD 最多可支持 2 PB。它拥有两个控制器罐,每个罐可支持多达两个 BlueField-3 DPU 和一个 NVIDIA GPU。
JBOF 可在每个 JBOF 机箱内部署两个容器,以实现主动 – 主动或主动 – 被动高可用性;也可仅使用一个容器,以在多个 JBOF 中通过软件处理冗余和故障转移的云存储情况下实现更高效率。
图 2 显示,每个控制器罐最多可容纳两个 NVIDIA BlueField-3 DPU 和一个 NVIDIA GPU 卡。客户可以为每个 JBOF 部署两个容器以实现高可用性,或部署一个容器以提高成本效率并降低功耗。
密集设计非常适合纵向扩展和横向扩展文件和对象存储,而高网络吞吐量(每个 JBOF 高达 800Gb/s)支持人工智能训练和高性能计算工作负载的需求。
对 Supermicro JBOF 的测试表明,在安装了一个 BlueField DPU 的存储工作负载下,它使 400-Gb/s 的网络连接饱和。基于 BlueField 的 JBOF 还显示,小块 (4 KB) 随机读取工作负载的延迟降低了 13%,新 JBOF 的时钟频率为 86 s,而传统的基于 X86 的 JBOF 为 100 s。
使用单个 DPU 卡替换 CPU、内存、网络卡和 BMC 可节省非 SSD 子系统高达 50% 的电量,或节省整个 JBOF(包括 SSD)高达 10% 至 15% 的电量。在大规模横向扩展存储部署中,这意味着数据中心的耗电量可节省数千瓦。
解决方案合作伙伴
此 JBOF 非常适合云部署和对象存储。为此,Supermicro 正在与 Cloudian、Hammerspace、Kioxia 和 Micron 等多个合作伙伴合作。
Cloudian 提供经过优化的横向扩展、高性能对象存储,可快速访问大型内容,包括视频、音频、照片和矢量数据库。Cloudian 软件在存储客户端和 Supermicro JBOF 中的 BlueField DPU 上运行,利用 JBOF 中更快的性能和更高的效率。
Hammerspace 支持横向扩展的并行文件系统,可实现对数十亿个文件和 PB 级数据的最佳共享访问。许多 AI 和 HPC 工作负载都需要文件存储,而 Hammerspace 解决方案提供了全局命名空间、可实现更高性能的并行访问,以及可实现数据流自动化的数据编排服务。Hammerspace 软件的服务器端在 Supermicro JBOF 内的 BlueField DPU 上运行。
Kioxia 和 Micron 提供创新型 SSD,支持不同容量、性能级别和成本点,采用 U.2 和 E3.S 外形规格。Supermicro 为每个客户的存储工作负载提供最佳的 SSD 类型。
Supermicro 正在与其他软件、SSD 和系统合作伙伴合作,将这种新的 JBOF 集成到其他可扩展的存储解决方案中。
在 OCP 全球峰会上一睹为快
由 BlueField 提供支持的全新 Supermicro JBOF 将于 10 月 15 日至 17 日在加利福尼亚州圣何塞举行的 2024 OCP 全球峰会上在 Supermicro 展台(B21)展出。此外,Supermicro 和 NVIDIA 将于 10 月 16 日(星期三)下午 1:10(大厅层,210DH)举办一场关于 DPU 驱动的 AI 存储的会议。
有关 NVIDIA 相关会议的完整列表,请参阅 NVIDIA at OCP Summit 2024 。