现代人工智能工作负载,无论是大规模训练还是实时推理,都需要动态访问高性能 GPU 资源。然而,Kubernetes 环境对 GPU 管理的原生支持较为有限,由此带来一系列挑战,包括 GPU 利用率偏低、缺乏工作负载的优先级控制与抢占机制、对 GPU 使用情况的监控可视性不足,以及难以在跨团队环境中有效实施治理和配额策略。
在容器化环境中,高效地编排 GPU 资源有助于显著提升性能与资源利用效率。 NVIDIA Run:ai 通过智能化的 GPU 资源管理,简化了这一过程,帮助组织快速、灵活且可控地扩展 AI 工作负载。
在本博客中,我们将探讨 NVIDIA Run:ai 如何通过 Microsoft Marketplace 正式登陆 Azure,助力企业简化 AI 基础设施管理。您将深入了解该平台如何优化 GPU 资源利用率,实施高效的治理与配额管理,并实现跨团队和项目的 AI 工作负载动态调度。此外,我们还将介绍 NVIDIA Run:ai 与 Azure Kubernetes 服务的无缝集成能力、对混合云环境的全面支持,以及其提供的用于管理集群、节点池和整个 AI 生命周期的强大工具。最后,您将了解到 NVIDIA Run:ai 如何简化 AI 工作负载编排,提升系统性能,并推动可扩展、成本高效的 AI 运营落地。
使用 NVIDIA Run:ai 管理 AI 工作负载
NVIDIA Run:ai 提供基于 Kubernetes 的原生 AI 编排平台,专为管理人工智能和机器学习工作负载而设计。该平台构建了一个灵活的调度层,支持跨团队和多样化工作负载的策略驱动型 GPU 资源动态分配。在保障治理策略、配额管理及工作负载优先级的同时,有效提升 GPU 资源的利用效率。
主要功能包括:
- 部分 GPU 分配: 通过在多个推理任务或开发环境之间共享单个 GPU,提升资源利用率.
- 动态调度: 根据任务优先级、队列状态及资源可用性,灵活分配完整的或部分 GPU 资源.
- 工作负载感知的编排: 针对训练、微调和推理等不同工作负载,采用差异化的调度策略,以最大化运行效率.
- 基于团队的配额与隔离: 通过公平份额或预留配额机制,为不同团队或项目保障相应的 GPU 资源.
- 统一的 AI 基础设施: 集中式编排 简化了混合云与多云环境下的资源管理.
NVIDIA Run:ai 如何在 Azure 上运行
NVIDIA Run:ai 与 Microsoft Azure 的 GPU 加速虚拟机(VM)系列,可有效提升性能并简化 AI 工作负载的管理。
Azure 根据不同需求提供多种支持 GPU 的虚拟机系列:面向计算密集型高性能计算(HPC)任务优化的 NC 系列;专为深度学习与 AI 研究设计的 ND 系列;适用于云游戏和远程桌面体验的 NG 系列;以及面向可视化、渲染和虚拟桌面工作负载的 NV 系列。这些由 GPU 驱动的虚拟机系列共同为加速 AI、图形处理和仿真等创新工作负载提供了灵活且高效的性能支持。
这些虚拟机搭载了NVIDIA GPU,包括T4、A10、A100,以及H100、H200 和 GB200 Grace Blackwell超级芯片。其中许多机型还配备了高速NVIDIA Quantum InfiniBand网络,能够为高级AI和深度学习应用提供低延迟、高吞吐量的性能支持。
在软件层面,NVIDIA Run:ai 与 Azure 云基础设施深度集成,为 AI 工作负载提供流畅无缝的使用体验。NVIDIA Run:ai 借助 Azure Kubernetes Service(AKS),实现跨多种 AI 项目的 GPU 资源高效编排与虚拟化。
此外,NVIDIA Run:ai 可与 Azure Blob Storage 集成,用于处理大规模数据集和模型存储,实现本地与云端资源间高效的数据访问与传输。这种深度集成有助于企业显著提升 GPU 利用率,同时充分借助 Azure 的安全性和存储能力。
想了解可视化演示?观看教学视频,获取在 Microsoft Azure 上部署 NVIDIA Run:ai 的详细分步指南。
在 Azure Kubernetes 服务(AKS)上运行 AI 工作负载
Azure Kubernetes Service(AKS)提供托管的 Kubernetes 环境,简化了集群的管理与扩展。NVIDIA Run:ai 在此基础上增强了 AKS,通过引入智能编排层,实现对 GPU 资源的动态管理。
借助 NVIDIA Run:ai on AKS,AI 工作负载可根据实时优先级和资源可用性进行智能调度。这使得多个工作负载能够高效共享 GPU 资源,有效减少 GPU 空闲时间并显著提升吞吐量。同时,该方案支持多节点和多 GPU 训练任务,帮助企业无缝扩展 AI 工作流程。
团队可以在 AKS 中通过命名空间和配额策略实现工作负载的隔离,保障资源的公平使用与有效治理。请继续阅读,了解入门建议。
为现代企业的混合基础设施提供有力支持
随着组织的发展以及AI工作负载日益复杂,越来越多的企业开始采用混合策略,将本地数据中心与Azure等云平台相结合。这种模式使企业能够在本地保留敏感的工作负载,同时借助云平台的可扩展性与灵活性来处理其他任务。在这样的环境中,高效管理资源对于实现性能、成本与控制之间的平衡至关重要。
德勤和戴尔科技等企业发现,采用 NVIDIA Run:ai 的混合方法,将本地基础设施与云资源相结合,能够提升 GPU 利用率,并实现本地与云端计算资源的无缝共享。同样,约翰·霍普金斯大学等机构也正在利用 NVIDIA Run:ai,在本地环境和 Azure 云平台上运行工作负载,从而更高效地扩展实验规模,缩短 GPU 资源的等待时间,加快迭代速度,同时确保对敏感数据及关键专用工具的管控能力。
开始使用 Microsoft Marketplace
NVIDIA Run:ai 现已在 Microsoft Marketplace 以专属优惠形式提供。专属列表支持灵活部署、自定义许可,并可无缝集成至现有企业协议中。如需申请专属报价,请联系相关服务团队。
- 访问 NVIDIA Run:ai 官网并点击“开始使用”。
- 填写“联系我们,了解 NVIDIA Run:ai”的相关信息表单。
- 随后,NVIDIA 代表将与您联系,为您制定专属的定制化方案。
- 在确认接受方案后,您可按照以下步骤将 AKS 集群连接至 NVIDIA Run:ai:
- 根据 Azure AKS 文档中的指引,创建 AKS 集群。
- 安装 NVIDIA Run:ai 控制面板。
- 安装 NVIDIA Run:ai 集群组件。
- 通过完全限定域名访问 NVIDIA Run:ai 用户界面(UI),确认集群状态显示为“已连接”。
开始使用 NVIDIA Run:ai on Azure
在您的 AKS 集群上部署 NVIDIA Run:ai 后,系统将全面清晰地展示所有 GPU 资源的使用情况。通过控制面板,您可以实时掌握集群的运行状态,包括 GPU 的可用性、当前活动的工作负载以及待处理的任务。例如,在一个包含四个节点(每个节点配备八个 GPU)的集群中,您可以立即查看哪些 GPU 处于空闲状态,哪些正在被使用。

将 AKS 集群连接到 NVIDIA Run:ai 控制平面后,您可以获得包括 CPU 和 GPU 工作节点在内的所有节点的统一视图。NVIDIA Run:ai 支持异构 GPU 环境,能够在同一集群中管理不同类型的 GPU,例如 A100 和 H100。

跨集群和团队优化 GPU 资源
NVIDIA Run:ai 支持将相似的节点分组为节点池,从而实现基于上下文的精细化工作负载调度。通过这种分组方式,可使任务与合适的 GPU 或机器类型相匹配。节点池还能与 Azure 扩展集保持对齐,根据节点的增减动态调整规模,为工作负载提供所需的灵活性。

通过项目和配额在团队之间分配 GPU 资源,以提升资源利用率。NVIDIA Run:ai 可为每个团队(例如团队 A、B 和 C)提供固定的 GPU 基准配额(如图 5 所示),同时允许在资源空闲时,部分工作负载突破配额限制。当资源紧张时,调度器将根据优先级管理任务,确保各团队能够获得承诺的资源保障。

支持完整的 AI 生命周期
NVIDIA Run:ai 能够编排 AI 全生命周期中的各类工作负载,涵盖交互式 Jupyter Notebook、单节点与多节点训练任务,以及推理任务。您可以在专用 GPU 资源池中运行 PyTorch Elastic 等主流框架,也可在平台原生环境中直接部署来自 Hugging Face 和 NVIDIA NGC 的容器化模型。此外,NVIDIA Run:ai 支持 NVIDIA Dynamo,实现动态分布式推理,从而高效利用跨多个 GPU 与节点的资源,提升 AI 模型部署的可扩展性与灵活性。

NVIDIA Run:ai 能够在不同时间范围内提供详尽的使用情况分析,支持向各个团队或业务部门进行费用分摊或返还。这些洞察有助于 IT 和管理团队在扩展 GPU 基础设施时做出更加明智的决策,有效提升性能并优化成本效益。

总结
随着 AI 应用的不断普及,高效的 GPU 管理变得愈发关键。NVIDIA Run:ai on Azure 提供了一个强大的编排平台,能够简化 GPU 资源管理,助力加速 AI 创新进程。
通过整合 NVIDIA Run:ai 的智能调度能力与 Azure 可扩展的 GPU 基础设施及 AI 工具,企业能够获得统一且具备生产就绪的解决方案,显著提升生产力并优化成本效益。
探索 Microsoft Marketplace 上的 NVIDIA Run:ai,轻松实现 AI 基础设施的统一管理,加速您的 AI 发展进程。