NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
代理式 AI/生成式 AI

在 Microsoft Azure 上利用 NVIDIA Run:ai 简化 AI 基础设施

现代人工智能工作负载,无论是大规模训练还是实时推理,都需要动态访问高性能 GPU 资源。然而,Kubernetes 环境对 GPU 管理的原生支持较为有限,由此带来一系列挑战,包括 GPU 利用率偏低、缺乏工作负载的优先级控制与抢占机制、对 GPU 使用情况的监控可视性不足,以及难以在跨团队环境中有效实施治理和配额策略。

在容器化环境中,高效地编排 GPU 资源有助于显著提升性能与资源利用效率。 NVIDIA Run:ai 通过智能化的 GPU 资源管理,简化了这一过程,帮助组织快速、灵活且可控地扩展 AI 工作负载。

在本博客中,我们将探讨 NVIDIA Run:ai 如何通过 Microsoft Marketplace 正式登陆 Azure,助力企业简化 AI 基础设施管理。您将深入了解该平台如何优化 GPU 资源利用率,实施高效的治理与配额管理,并实现跨团队和项目的 AI 工作负载动态调度。此外,我们还将介绍 NVIDIA Run:ai 与 Azure Kubernetes 服务的无缝集成能力、对混合云环境的全面支持,以及其提供的用于管理集群、节点池和整个 AI 生命周期的强大工具。最后,您将了解到 NVIDIA Run:ai 如何简化 AI 工作负载编排,提升系统性能,并推动可扩展、成本高效的 AI 运营落地。

使用 NVIDIA Run:ai 管理 AI 工作负载

NVIDIA Run:ai 提供基于 Kubernetes 的原生 AI 编排平台,专为管理人工智能和机器学习工作负载而设计。该平台构建了一个灵活的调度层,支持跨团队和多样化工作负载的策略驱动型 GPU 资源动态分配。在保障治理策略、配额管理及工作负载优先级的同时,有效提升 GPU 资源的利用效率。

主要功能包括:

  • 部分 GPU 分配: 通过在多个推理任务或开发环境之间共享单个 GPU,提升资源利用率.
  • 动态调度: 根据任务优先级、队列状态及资源可用性,灵活分配完整的或部分 GPU 资源.
  • 工作负载感知的编排: 针对训练、微调和推理等不同工作负载,采用差异化的调度策略,以最大化运行效率.
  • 基于团队的配额与隔离: 通过公平份额或预留配额机制,为不同团队或项目保障相应的 GPU 资源.
  • 统一的 AI 基础设施: 集中式编排 简化了混合云与多云环境下的资源管理.

NVIDIA Run:ai 如何在 Azure 上运行

NVIDIA Run:ai 与 Microsoft Azure 的 GPU 加速虚拟机(VM)系列,可有效提升性能并简化 AI 工作负载的管理。

Azure 根据不同需求提供多种支持 GPU 的虚拟机系列:面向计算密集型高性能计算(HPC)任务优化的 NC 系列;专为深度学习与 AI 研究设计的 ND 系列;适用于云游戏和远程桌面体验的 NG 系列;以及面向可视化、渲染和虚拟桌面工作负载的 NV 系列。这些由 GPU 驱动的虚拟机系列共同为加速 AI、图形处理和仿真等创新工作负载提供了灵活且高效的性能支持。

这些虚拟机搭载了NVIDIA GPU,包括T4、A10、A100,以及H100、H200 和 GB200 Grace Blackwell超级芯片。其中许多机型还配备了高速NVIDIA Quantum InfiniBand网络,能够为高级AI和深度学习应用提供低延迟、高吞吐量的性能支持。

在软件层面,NVIDIA Run:ai 与 Azure 云基础设施深度集成,为 AI 工作负载提供流畅无缝的使用体验。NVIDIA Run:ai 借助 Azure Kubernetes Service(AKS),实现跨多种 AI 项目的 GPU 资源高效编排与虚拟化。

此外,NVIDIA Run:ai 可与 Azure Blob Storage 集成,用于处理大规模数据集和模型存储,实现本地与云端资源间高效的数据访问与传输。这种深度集成有助于企业显著提升 GPU 利用率,同时充分借助 Azure 的安全性和存储能力。

想了解可视化演示?观看教学视频,获取在 Microsoft Azure 上部署 NVIDIA Run:ai 的详细分步指南。

在 Azure Kubernetes 服务(AKS)上运行 AI 工作负载

Azure Kubernetes Service(AKS)提供托管的 Kubernetes 环境,简化了集群的管理与扩展。NVIDIA Run:ai 在此基础上增强了 AKS,通过引入智能编排层,实现对 GPU 资源的动态管理。

借助 NVIDIA Run:ai on AKS,AI 工作负载可根据实时优先级和资源可用性进行智能调度。这使得多个工作负载能够高效共享 GPU 资源,有效减少 GPU 空闲时间并显著提升吞吐量。同时,该方案支持多节点和多 GPU 训练任务,帮助企业无缝扩展 AI 工作流程。

团队可以在 AKS 中通过命名空间和配额策略实现工作负载的隔离,保障资源的公平使用与有效治理。请继续阅读,了解入门建议。

为现代企业的混合基础设施提供有力支持

随着组织的发展以及AI工作负载日益复杂,越来越多的企业开始采用混合策略,将本地数据中心与Azure等云平台相结合。这种模式使企业能够在本地保留敏感的工作负载,同时借助云平台的可扩展性与灵活性来处理其他任务。在这样的环境中,高效管理资源对于实现性能、成本与控制之间的平衡至关重要。

德勤和戴尔科技等企业发现,采用 NVIDIA Run:ai 的混合方法,将本地基础设施与云资源相结合,能够提升 GPU 利用率,并实现本地与云端计算资源的无缝共享。同样,约翰·霍普金斯大学等机构也正在利用 NVIDIA Run:ai,在本地环境和 Azure 云平台上运行工作负载,从而更高效地扩展实验规模,缩短 GPU 资源的等待时间,加快迭代速度,同时确保对敏感数据及关键专用工具的管控能力。

开始使用 Microsoft Marketplace

NVIDIA Run:ai 现已在 Microsoft Marketplace 以专属优惠形式提供。专属列表支持灵活部署、自定义许可,并可无缝集成至现有企业协议中。如需申请专属报价,请联系相关服务团队。

  1. 访问 NVIDIA Run:ai 官网并点击“开始使用”。
  2. 填写“联系我们,了解 NVIDIA Run:ai”的相关信息表单。
  3. 随后,NVIDIA 代表将与您联系,为您制定专属的定制化方案。
  4. 在确认接受方案后,您可按照以下步骤将 AKS 集群连接至 NVIDIA Run:ai
    1. 根据 Azure AKS 文档中的指引,创建 AKS 集群。
    2. 安装 NVIDIA Run:ai 控制面板
    3. 安装 NVIDIA Run:ai 集群组件
    4. 通过完全限定域名访问 NVIDIA Run:ai 用户界面(UI),确认集群状态显示为“已连接”。

开始使用 NVIDIA Run:ai on Azure

在您的 AKS 集群上部署 NVIDIA Run:ai 后,系统将全面清晰地展示所有 GPU 资源的使用情况。通过控制面板,您可以实时掌握集群的运行状态,包括 GPU 的可用性、当前活动的工作负载以及待处理的任务。例如,在一个包含四个节点(每个节点配备八个 GPU)的集群中,您可以立即查看哪些 GPU 处于空闲状态,哪些正在被使用。

Screenshot of the NVIDIA Run:ai dashboard displaying real-time metrics for an AKS cluster
图 1。NVIDIA Run:ai 控制面板概述

将 AKS 集群连接到 NVIDIA Run:ai 控制平面后,您可以获得包括 CPU 和 GPU 工作节点在内的所有节点的统一视图。NVIDIA Run:ai 支持异构 GPU 环境,能够在同一集群中管理不同类型的 GPU,例如 A100 和 H100。

Screenshot of the NVIDIA Run:ai Control Plane displaying AKS cluster nodes equipped with both NVIDIA H100 and A100 GPUs
图2。NVIDIA Run:AI 控制面板展示同一集群中配备 NVIDIA H100 和 A100 的 AKS 节点。

跨集群和团队优化 GPU 资源

NVIDIA Run:ai 支持将相似的节点分组为节点池,从而实现基于上下文的精细化工作负载调度。通过这种分组方式,可使任务与合适的 GPU 或机器类型相匹配。节点池还能与 Azure 扩展集保持对齐,根据节点的增减动态调整规模,为工作负载提供所需的灵活性。

Screenshot of the NVIDIA Run:ai Control Plane showing node pools aligned with Azure scale sets, illustrating how GPU resources are organized and managed across different node groups.
图 3。NVIDIA Run:ai 节点池与 Azure 扩展集保持同步

通过项目和配额在团队之间分配 GPU 资源,以提升资源利用率。NVIDIA Run:ai 可为每个团队(例如团队 A、B 和 C)提供固定的 GPU 基准配额(如图 5 所示),同时允许在资源空闲时,部分工作负载突破配额限制。当资源紧张时,调度器将根据优先级管理任务,确保各团队能够获得承诺的资源保障。

Screenshot of the NVIDIA Run:ai dashboard showing GPU allocation across teams using projects and quotas
图 4。NVIDIA Run:ai 利用项目与配额在各团队间分配 GPU 资源

支持完整的 AI 生命周期

NVIDIA Run:ai 能够编排 AI 全生命周期中的各类工作负载,涵盖交互式 Jupyter Notebook、单节点与多节点训练任务,以及推理任务。您可以在专用 GPU 资源池中运行 PyTorch Elastic 等主流框架,也可在平台原生环境中直接部署来自 Hugging Face 和 NVIDIA NGC 的容器化模型。此外,NVIDIA Run:ai 支持 NVIDIA Dynamo,实现动态分布式推理,从而高效利用跨多个 GPU 与节点的资源,提升 AI 模型部署的可扩展性与灵活性。

Screenshot of the NVIDIA Run:ai dashboard showing a list of workloads running on an AKS cluster, including details such as workload name, type (e.g., training or inference), status (e.g., running or pending), and GPU compute information like number of GPUs allocated and usage metrics
图 5。NVIDIA 运行视图:在 AKS 上运行的 AI 工作负载

NVIDIA Run:ai 能够在不同时间范围内提供详尽的使用情况分析,支持向各个团队或业务部门进行费用分摊或返还。这些洞察有助于 IT 和管理团队在扩展 GPU 基础设施时做出更加明智的决策,有效提升性能并优化成本效益。

Screenshot of the NVIDIA Run:ai Dashboard displaying GPU usage analytics, including graphs and metrics showing GPU utilization over time.
图 6。NVIDIA Run:ai 控制面板显示 GPU 使用情况分析

总结

随着 AI 应用的不断普及,高效的 GPU 管理变得愈发关键。NVIDIA Run:ai on Azure 提供了一个强大的编排平台,能够简化 GPU 资源管理,助力加速 AI 创新进程。

通过整合 NVIDIA Run:ai 的智能调度能力与 Azure 可扩展的 GPU 基础设施及 AI 工具,企业能够获得统一且具备生产就绪的解决方案,显著提升生产力并优化成本效益。

探索 Microsoft Marketplace 上的 NVIDIA Run:ai,轻松实现 AI 基础设施的统一管理,加速您的 AI 发展进程。

 

标签