AI 平台/部署

NVIDIA Run:ai 和 Amazon SageMaker HyperPod 携手简化复杂 AI 训练管理

NVIDIA Run:ai 和 Amazon Web Services 引入了集成,使开发者能够无缝扩展和管理复杂的 AI 训练工作负载。将 AWS SageMaker HyperPod 与 Run:ai 的高级 AI 工作负载和 GPU 编排平台相结合,可提高效率和灵活性。

Amazon SageMaker HyperPod 提供完全弹性的持久性集群,专为大规模分布式训练和推理而构建。它消除了管理 ML 基础设施时涉及的无差别繁重工作,并优化了多个 GPU 的资源利用率,从而显著缩短了模型训练时间。此功能支持任何模型架构,支持团队高效扩展训练作业。

Amazon SageMaker HyperPod 通过自动检测和处理基础设施故障,并确保训练作业可以无缝恢复而不会出现重大停机,从而增强弹性。总体而言,它可提高工作效率并加速 ML 生命周期。

NVIDIA Run:ai 平台可通过一个界面简化在本地和公有/ 私有云等混合环境中的 AI 工作负载和 GPU 编排。这种集中式方法使监督不同地理位置和团队的 GPU 资源的 IT 管理员受益,可高效使用本地、AWS Cloud 和混合 GPU 资源,同时在需求增加时实现无缝云爆发。

AWS 和 NVIDIA Run:ai 技术团队均已成功测试并验证 Amazon SageMaker HyperPod 与 NVIDIA Run:ai 之间的集成。此集成允许用户利用 Amazon SageMaker HyperPod 功能的灵活性,同时受益于 NVIDIA Run:ai 的 GPU 优化、编排和资源管理功能。

通过集成 NVIDIA Run:ai 和 Amazon SageMaker HyperPod,组织现在可以在本地和公有/ 私有云环境中无缝扩展其 AI 基础设施。优势包括:

跨混合环境的统一 GPU 资源管理

A single control plane managing both on-premise and SageMaker HyperPod clusters
图 1。NVIDIA Run:ai 控制通道用于管理混合集群

NVIDIA Run:ai 提供单一控制面板,使企业能够跨企业基础设施和 Amazon SageMaker HyperPod 高效管理 GPU 资源。它还通过 GUI 或 CLI 为科学家提供了一种简化的方式,让他们可以将工作提交到本地节点或 HyperPod 节点。这种集中式方法简化了工作负载的编排,使管理员能够根据需求分配 GPU 资源,同时确保两种环境的最佳利用率。无论是在本地还是在云端,工作负载都可以从单个界面进行优先级排序、排队和监控。

增强的可扩展性和灵活性

借助 NVIDIA Run:ai,企业组织可以在需要额外 GPU 资源时,通过突发方式将工作负载扩展到 SageMaker HyperPod,从而轻松扩展其 AI 工作负载。这种混合云策略允许企业在不过度配置硬件的情况下动态扩展,在保持高性能的同时降低成本。SageMaker HyperPod 灵活的基础架构进一步支持大规模模型训练和推理。对于希望训练或微调 Llama 或 Stable Diffusion 等基础模型的企业来说,这是理想之选。

弹性分布式训练

NVIDIA Run:ai 与 Amazon SageMaker HyperPod 集成,可跨集群高效管理分布式训练作业。Amazon SageMaker HyperPod 持续监控 GPU、CPU 和网络资源的运行状况。它会自动替换出现故障的节点,以保持系统完整性。与此同时,NVIDIA Run:ai 通过从上次保存的检查点自动恢复中断的作业,减少了人工干预的需求并最大限度地减少了工程开销,从而更大限度地减少了机时间。这种组合有助于企业 AI 计划保持正常运行,即使在面临硬件或网络问题时也是如此。

优化资源利用率

A dashboard showing various metrics and graphs of GPU resource utilization
图 2:NVIDIA Run:ai 控制面板,具有资源利用率可见性

NVIDIA Run:ai 的 AI 工作负载和 GPU 编排功能可确保高效利用 AI 基础设施。无论是在 Amazon SageMaker HyperPod 集群上运行,还是在本地 GPU 上运行,NVIDIA Run:ai 的高级调度和 GPU 分功能都有助于优化资源分配。它允许组织在更少的 GPU 上运行更多工作负载。这种灵活性对于管理波动需求(例如随时间或季节变化的计算需求)的企业来说尤其重要。NVIDIA Run:ai 能够适应这些变化,在需求高峰期间优先考虑推理资源,同时平衡训练需求。这最终减少了空闲时间,并更大限度地提高了 GPU 投资回报。

作为验证过程的一部分,NVIDIA Run:ai 测试了多个关键功能,例如混合和多集群管理、硬件故障后自动恢复作业、FSDP 弹性 PyTorch 抢占、推理服务和 Jupyter 集成,以及弹性测试。有关如何在您的环境中部署此集成(包括配置步骤、基础架构设置和架构)的更多详细信息,请访问 SageMaker HyperPod 上的 NVIDIA Run:ai

NVIDIA Run:ai 正在与 AWS 合作,使用 Amazon SageMaker HyperPod 更轻松地在混合环境中管理和扩展 AI 工作负载。要了解 NVIDIA Run:ai 和 AWS 如何加速您的 AI 计划,请立即联系 NVIDIA Run:ai。

 

标签