数据科学

为企业 AI 工作负载选择合适的存储

 

Artificial intelligence (人工智能)在企业中越来越普遍。语音识别、推荐和欺诈检测只是人工智能和 深度学习 ( DL )驱动的数百个应用程序中的少数几个

为了支持这些人工智能应用程序,企业希望优化人工智能服务器和性能网络。不幸的是,在企业人工智能的开发中,存储基础设施需求往往被忽视。然而,为了成功采用人工智能,必须考虑一个全面的存储部署战略,该战略考虑了人工智能的增长、经得起未来考验和互操作性。

这篇文章强调了企业在为人工智能应用程序规划数据存储基础设施以最大限度地提高业务成效时应考虑的重要因素。我讨论了云与本地存储解决方案的比较,以及在支持 GPU 的虚拟机( VM )中对更高性能存储的需求。

为什么企业部署需要人工智能存储决策

流行的短语“你可以现在给我钱,也可以以后给我钱”意味着在做当前决定时最好考虑未来。通常,支持 AI 或 DL 应用程序的存储解决方案只能满足应用程序的即时需求,而没有充分考虑未来的成本和灵活性。

从长远来看,从存储的角度来看,今天花些钱来证明您的人工智能环境是经得起未来考验的,这可能更具成本效益。决策者必须扪心自问:

  • 我的人工智能存储基础设施能否适应云或混合模式?
  • 选择对象、块或文件存储是否会限制未来企业部署的灵活性?
  • 是否可以使用成本较低的存储层或混合模型来存档,或用于不需要昂贵、快速存储的数据集?

如果没有直接的 a / B 比较,企业存储决策对 AI 部署的影响并不总是明显的。今天的错误决策可能会导致性能下降,并且无法在未来有效地扩展业务运营。

规划 AI 存储基础架构时的主要考虑事项

以下是部署和规划存储时需要考虑的各种因素。图 1 概述了数据中心、预算、互操作性和存储类型注意事项。

Data center Budget Interoperability Storage type
DPU Existing vs. new Cloud and data center Object/Block/File
Network All Flash/HDD/Hybrid VM environments Flash/HDD/Hybrid
表 1.部署人工智能解决方案时 IT 的存储注意事项 在 GPU 加速的人工智能应用程序上

AI 性能和 GPU

在评估存储性能之前,考虑人工智能性能的一个关键因素是让高性能企业 GPU 加速 machine-learning 、 DL 和推理应用程序的培训。

许多数据中心服务器没有 GPU 来加速人工智能应用程序,因此在考虑性能时,最好先看看 GPU 资源。

大型数据集并不总是适合 GPU 内存。这一点很重要,因为当完整的数据集不适合 GPU 内存时, GPU 提供的性能较差。在这种情况下,数据在 GPU 内存之间交换,从而影响性能。模型训练需要更长时间,推理性能可能会受到影响。

某些应用程序,如欺诈检测,可能具有极端的实时性要求,当 GPU 内存正在等待数据时,这些要求会受到影响。

存储注意事项

存储始终是一个重要的考虑因素。在部署新的人工智能应用程序时,现有的存储解决方案可能无法正常工作。

您现在可能需要 NVMe 闪存或直接 GPU 内存访问的速度才能获得所需的性能。然而,随着存储对人工智能数据的需求随着时间的推移而增加,您可能不知道明天的存储期望是什么。对于某些应用程序,几乎没有太高的存储性能,尤其是在实时用例(如交易前欺诈检测)的情况下。

对于人工智能驱动的应用程序,没有“一刀切”的存储解决方案。

性能只是一个存储考虑因素。另一个是扩展能力。培训数据正在增长。推断数据正在增长。存储必须能够在容量和性能方面进行扩展,并且在许多情况下能够跨多个存储节点进行扩展。简单地说,满足您当前需求的存储设备可能并不总能适应明天的挑战。

底线:随着培训和推理工作量的增加,容量和性能也必须增加。它应该只考虑具有保持 GPU 繁忙的性能的可扩展存储解决方案,以获得最佳的 AI 性能。

数据中心注意事项

数据处理器( DPU )是基础设施技术的最新发展,将数据中心和人工智能存储提升到了一个全新的水平。

虽然不是存储产品, DPU 重新定义了数据中心存储。它旨在集成存储、处理和网络,使整个数据中心成为企业的计算机。

在规划和部署存储时,了解 DPU 的功能非常重要,因为 DPU 将存储服务从数据中心处理器和存储设备上卸载。对于许多存储产品, DPU 互连数据中心可以实现更高效的扩展。

例如 NVIDIA BlueField DPU 支持以下功能:

  • 结构上的 NVMe ( NVMe oF )
  • GPUDirect 存储
  • 加密
  • 弹性块存储
  • 擦除编码(用于数据完整性)
  • 减压
  • 重复数据消除

远程存储访问的存储性能就像存储直接连接到 AI 服务器一样。 DPU 有助于实现可扩展的软件定义存储,以及网络和网络安全加速。

预算考虑因素

成本仍然是一个关键因素。虽然需要部署最高吞吐量和最低延迟的存储,但根据 AI 应用程序的不同,并不总是必要的。

为了进一步扩大存储预算, IT 部门必须了解每个 AI 应用程序的存储性能要求(带宽、 IOPs 和延迟)。

例如,如果一个人工智能应用程序的数据集很大,但性能要求最低,那么传统硬盘驱动器( HDD )可能就足够了,同时大大降低了存储成本。当数据集的“热”数据完全符合 GPU 内存时,尤其如此。

另一种节省成本的选择是使用混合存储,将闪存用作缓存,以提高性能,同时降低驻留在 HDD 上的不经常访问的数据的存储成本。有一些混合闪存/硬盘存储产品的性能几乎与所有闪存一样好,因此探索混合存储选项对于没有极端性能要求的应用程序来说意义重大。

较旧、存档和不经常使用的数据和数据集可能仍有未来价值,但驻留在昂贵的主存储上并不经济划算。

硬盘仍然具有很大的财务意义,尤其是在需要时可以无缝访问数据的情况下。根据访问的大小和频率,两层云和内部部署存储解决方案也具有财务意义。市场上有许多这样的解决方案。

互操作性因素

从存储角度评估云和数据中心的互操作性非常重要。即使在虚拟机驱动的数据中心内,也有互操作性因素需要评估。

云和数据中心注意事项

人工智能应用程序是在本地运行,还是在云端运行,或者两者都运行?即使应用程序可以在任何一个地方运行,也不能保证应用程序的性能不会随位置而变化。例如,如果云中使用的存储类与本地使用的存储类不同,则可能会出现性能问题。必须考虑存储类别。

假设使用使用高性能闪存的支持数据中心 GPU 的服务器在所需的八小时窗口内完成对大型推荐模型的再培训。将相同的应用程序以同等 GPU 马力移动到云端可能会导致培训在 24 小时内完成,远远超出所需的 8 小时窗口。为什么?

一些人工智能应用程序需要某种类型的存储(快速闪存、大型存储缓存、 DMA 存储访问、存储类内存( SCM )读取性能等),但并非总是可以通过云服务获得。

关键是,无论数据中心或云存储选择如何,某些人工智能应用程序都会产生类似的结果。其他应用程序可能对存储敏感。

仅仅因为一个应用程序是由 Kubernetes 在云中进行容器化和编排的,它不能保证类似的数据中心结果。以这种方式来看,当考虑性能时,容器并不总是提供跨数据中心和云互操作性。为了实现有效的数据中心和云互操作性,请确保两个域中的存储选择都能产生良好的结果。

VM 注意事项

如今,大多数数据中心服务器没有 GPU 来加速人工智能和创造性工作负载。明天,数据中心的格局可能会大不相同。无论是 conversational AI 、欺诈检测 recommender systems 、视频分析还是许多其他用例,企业都被迫使用人工智能来提高竞争力。

GPU 在工作站上很常见,但 GPU 工作站提供的加速度无法在组织内轻松共享。

企业必须准备的范式转变是在虚拟机环境中共享基于服务器、支持 GPU 的资源。 NVIDIA AI 企业 等解决方案的可用性使企业中的任何人都可以共享支持 GPU 的虚拟机。

简而言之,现在企业中的任何人都可以在 vSphere 环境中的 VM 内轻松运行耗电的 AI 应用程序。

那么这对虚拟机存储意味着什么呢?支持 GPU 的虚拟机的存储必须满足 AI 应用程序和共享虚拟机用户的共享性能要求。这意味着给定虚拟机的存储性能高于非共享环境中所需的存储性能。

这还意味着,为此类虚拟机分配的物理存储可能在容量和性能方面更具可扩展性。在高度共享的虚拟机中,可以使用专用的全闪存类内存( SCM )阵列,通过聚合以太网上的 RDMA 连接到支持 GPU 的服务器,以实现最高的性能和扩展。

存储类型

关于为人工智能应用程序选择对象、块或文件存储的深入讨论超出了本文的范围。也就是说,我在这里提到它是因为这是一个重要的考虑因素,但并不总是一个直接的决定。

对象存储

例如,如果所需的应用程序需要对象存储,那么所需的存储类型显而易见。一些人工智能应用程序利用了对象元数据,同时也受益于平面地址空间对象存储架构的无限规模。人工智能分析可以利用丰富的对象元数据实现精确的数据分类和组织,使数据更有用,更易于管理和理解。

块存储

尽管云中支持块存储,但真正海量的云数据集往往是基于对象的。块存储可以为结构化数据和事务应用程序提供更高的性能。

块存储缺少元数据信息,这使得任何旨在从元数据中获益的应用程序都无法使用块存储。许多传统的企业应用程序都是建立在块存储基础上的,但云中对象存储的出现导致许多现代应用程序专门为使用对象存储的原生云部署而设计。

文件存储

当人工智能应用程序跨通用文件协议访问数据时,显而易见的存储选择是基于文件的。例如,人工智能驱动的图像识别和分类引擎可能需要访问基于文件的图像。

部署选项可能有所不同,从专用文件服务器到构建在对象或块存储体系结构之上的 NAS 磁头。 NAS 头可以导出 NFS 或 SMB 文件协议,以便将文件访问到底层块或对象存储体系结构。这可以为人工智能和数据中心网络客户端的文件存储访问提供高水平的灵活性和经得起未来考验的块或对象存储。

人工智能的存储类型决策必须基于对当前所需内容的良好理解以及长期人工智能部署策略。全面评估每种存储类型的优缺点。通常没有一个“一刀切”的答案,在某些情况下,所有三种存储类型(对象、块和文件)都有意义。

企业存储决策的关键要点

解决人工智能解决方案的存储需求没有单一的方法。然而,这里有几个核心原则,可以用来做出明智的人工智能存储决策:

  • 如果训练和推理不是 GPU 加速的,人工智能解决方案的任何存储选择都可能毫无意义。
  • 为可能需要远远超出当前估计的 IT 资源和相关存储做好准备。
  • 不要认为现有存储对于新的或扩展的人工智能解决方案来说“足够好”。随着时间的推移,与现有存储相比,具有更高成本、性能和可扩展性的存储实际上可能更高效。
  • 始终考虑与云的互操作性,因为您的云提供商可能无法提供本地存储选项。
  • 战略 IT 规划应考虑 DPU 的基础架构和存储优势。

当你计划在企业中使用人工智能时,不要将存储放在列表的底部。存储对人工智能成功的影响可能比你想象的要大。有关使用 AI 存储成功建立企业的更多信息,请参阅以下参考资料

 

Tags