随着 AI 成为组织创新和竞争优势不可或缺的一部分,对高效且可扩展的基础设施的需求比以往任何时候都更加迫切。NVIDIA 和 DDN Storage 之间的合作正在该领域树立新的标准。通过将 NVIDIA BlueField 数据处理器 集成到 DDN EXAScaler 和 DDN Infinia,并以创新方式使用,DDN Storage 正在改变以数据为中心的工作负载。
NVIDIA 先进的数据处理与 DDN 强大的存储解决方案的协同作用可以优化 AI 工作流程、增强运营、提高资源利用率,并在 AI 环境中支持多租户。
在本文中,我们将重点介绍 Infinia 的集成优势。
集成式 DPU 存储解决方案
DDN Infinia 是一个软件定义数据平台,利用 BlueField-3 DPU 的强大功能来有效管理以数据为中心的工作负载,尤其是在加速计算和生成式人工智能方面。这种集成增强了多租户,提高了运营效率,并增强了数据保护。这使得它成为组织使用人工智能和云技术驱动创新和运营敏捷性的理想解决方案。
他们的解决方案包含几个关键组件:
- 卸载数据处理
- 加速存储性能
- 提高效率
- 支持多租户
- 增强安全性
- 增强扩展
卸载数据处理
BlueField DPU 通过接管数据处理任务来减轻 CPU 的负担,从而释放计算资源并提高整体系统性能。这种存储和安全任务卸载可提高 CPU 使用效率,减少延迟并加快数据处理速度。
加速存储性能
DDN 的存储解决方案由 BlueField DPU 提供支持,可增强 AI 工作负载的存储性能。借助 BlueField DPU 的高级数据处理能力,这些解决方案实现了更高的吞吐量和更高的系统响应速度,以加速 AI 应用。
NVIDIA GPUDirect Storage (GDS) 有助于在 GPU 平台和存储之间建立直接数据路径,从而最大限度地减少系统内存流量,进而提高带宽并减少 CPU 负载,以优化 AI 工作流程。
提高效率
传统存储系统在通用型 x86 CPU 上执行闪存管理、RAID、访问控制和加密等各种任务。然而,随着网络速度和安全需求的增加,这些系统的效率也在下降。
在存储服务器和主机访问中集成 BlueField DPU 可通过卸载和加速 NVMe-oF 存储协议等任务,显著提高存储效率,从而为其他应用程序释放 CPU 周期。
支持多租户
DDN Infinia 存储平台采用容器化,使不同存储功能在单独的容器中运行,从而实现可扩展性和整个数据路径的优化,通过将任务卸载到 DPU 降低延迟。
多租户部署可在单个文件系统中整合多个命名空间,从而提高容量利用率、降低硬件成本并简化部署和管理。
BlueField DPU 基于硬件的隔离和资源分配功能,使多个用户和应用程序之间能够安全共享基础设施资源,从而提高资源利用率和运营效率。
图 1 显示 DDN Infinia 提供本地多租户功能,用于安全隔离用户数据;在所有租户和子租户中应用高效的质量服务算法;以及确保在传输、静态和组织之间共享期间的数据保护。
增强安全性
BlueField DPU 的专用处理资源和内存提供了一个安全的环境,可防止未经授权的访问并抵御潜在的攻击。硬件加速加密可确保存储系统中存储的数据经过静态加密,从而保护敏感信息。
BlueField DPU 的访问控制机制使管理员能够定义和执行细粒度访问策略,以确保只有授权用户或应用程序才能访问和修改数据。此外,还提供安全启动功能,以在启动过程中验证固件和软件组件的完整性,从而防止篡改或未经授权的修改。
卸载安全相关任务从主机 CPU 可减少攻击面,并释放 CPU 资源用于其他关键任务。
借助这些组合安全功能,BlueField DPU 为 AI 工作负载以及从 DPU 到 CPU 的数据提供了可靠且安全的存储解决方案。组合技术堆栈确保数据始终受到保护,从而解决 AI 驱动环境中的数据安全性和完整性问题。您的组织可以针对网络威胁和未经授权的访问提供更出色的保护,增强整体数据的安全性和合规性。
增强扩展
DDN Infinia 是一个完全容器化的平台,围绕一组编排的微服务构建,以提供整个存储服务。通过使用 BlueField 数据处理器,DDN 开发了一种支持完整云原生堆栈的全新架构。这种对 BlueField 数据处理器的创新使用使存储平台能够跨网络扩展。
具体来说,DDN Infinia 的 Amazon S3 对象服务是容器化的,可以独立于 Infinia 存储系统运行,通过使用 NVIDIA DGX 客户端系统中 NVIDIA 数据处理器(DPU)的资源。这种设计转变彻底改变了数据流通过存储系统的方式。传统上,Amazon S3 对象调用是在本地对 BlueField 上运行的服务进行的,而现在这种调用可以直接在 NVIDIA DGX 客户端系统中进行,从而避免了通过网络发送命令(RESTful 调用)的延迟。
借助 BlueField,这些调用被从 DPU 到存储系统的 RDMA 调用所取代。这将卸载主系统的存储任务,并使用更高效的数据路径,从而显著减少延迟并提高人工智能加速的带宽。这种存储架构的重新配置改变了 Amazon S3 对象数据路径,显著提高了性能和可扩展性。
总结
DDN 和 NVIDIA 之间的合作将显著提升数据中心基础设施中的 AI 应用,为更高效、更安全的 AI 驱动工作流程奠定基础。通过利用高级数据处理和存储解决方案的综合优势,您的组织可以期待在 AI 计划中效率、可扩展性和安全性得到显著提升。
通过以下资源了解 DDN 如何在加速计算时代推动生成式人工智能的发展并加速数据处理:
- 优化 AI 数据中心:用于提高生产力和效率的高级加速数据存储策略 (GTC 会议)
- 高级存储优化策略适用于动态生产 AI 工作负载 (GTC 会议)
- DDN 设备将 AI 存储和 NVIDIA BlueField-3 数据处理器相结合,可增强全栈数据中心和云效率 (新闻稿)
- Infinia 多租户(解决方案概览)
有关 NVIDIA BlueField 存储加速功能潜力的更多信息,请参阅 使用 NVIDIA BlueField DPU 和 NVIDIA BlueField-3 DPU 可编程数据中心基础设施 On-A-Chip 加速 AI 存储访问。