AI 平台/部署

借助 NVIDIA Mission Control 实现 AI 工厂自动化

DeepSeek-R1 等先进的 AI 模型证明,企业现在可以构建专用于自己的数据和专业知识的尖端 AI 模型。这些模型可以根据独特的用例进行定制,以前所未有的方式应对各种挑战。

基于早期 AI 采用者的成功,许多组织正在将重点转移到全面生产的 AI 工厂 。然而,创建高效 AI 工厂的过程复杂且耗时,并且不同于构建特定于垂直行业的 AI 的目标。

它涉及到楼宇自动化,用于调配和管理复杂的基础设施,在最新平台上维护具有专业技能的站点可靠性工程师(SRE)团队,以及大规模开发流程以实现超大规模的效率。此外,开发者需要一种方法来利用 AI 基础设施的强大功能,同时具备超大规模数据中心的敏捷性、效率和规模,同时避免成本、复杂性和专业知识等方面的负担。

本文将介绍 NVIDIA Mission Control (一个为使用 NVIDIA 参考架构构建的 AI 工厂提供支持的集成软件堆栈) 如何通过编写 NVIDIA 最佳实践来应对这些挑战,从而使组织能够自信地专注于构建模型而不是管理基础设施。

企业基础架构和开发者生产力的新标准

NVIDIA Mission Control 为 IT 管理员提供强大的工具,以大规模优化 AI 工作负载利用率、性能和效率。借助自动工作负载恢复,开发者即使在硬件异常或维护期间也可以保持工作效率,从而确保出色的正常运行时间和更快的 AI 实验。NVIDIA Mission Control 专为实现可扩展性而设计,可提供先进的全集群控制和可见性,无缝管理数千个 GPU,从而实现峰值运营效率。

Software stack for AI factories including NVIDIA Mission Control and NVIDIA AI Enterprise.
图 1。适用于 AI 工厂的全面集成软件堆栈可满足企业 IT 和模型构建者的需求

NVIDIA Mission Control 的主要功能

主要功能包括可扩展的控制平面、高级集群调配、遥测和可观察性、AI 工作负载管理等。

用于快速部署的可扩展控制平面

加速 AI 工厂部署始于标准化、可扩展的控制平面,该控制平面可为训练和推理工作负载提供集中式配置、管理和可观察性。此控制平面专为实现灵活性而设计,可无缝支持异构架构,支持在同一 AI 工厂内使用 NVIDIA DGX SuperPOD 以及 NVIDIA DGX B200 系统 NVIDIA DGX GB200 系统 进行部署。

高级集群调配

NVIDIA Mission Control 中的高级集群配置由 NVIDIA Base Command Manager 提供支持 ,可简化 AI 工厂运营,通过专为实现峰值效率而设计的自动化工作流大幅缩短部署时间。它专为 NVIDIA GB200 NVL72 等尖端架构 而构建,引入了机架管理功能、泄漏检测策略、数千个 GPU 的配置以及大规模安全网络。

借助集成的库存管理和直观的可视化,IT 团队可以获得实时资产跟踪和简化的维护。智能功耗优化策略使管理员能够在用户和数据中心级别上微调性能,从而最大限度地提高效率。此外,通过标准化接口实现数据中心楼宇管理系统(BMS)与 NVIDIA Mission Control 的高级集成,确保打造面向未来的 AI 基础设施。

Diagram of NVIDIA Mission Control sharing data with building management systems.
图 2。通过增强与楼宇管理系统 (BMS) 的协调性,实现对电源和冷却事件的控制,包括快速漏电检测

遥测和可观察性

遥测和可观察性堆栈提供实时监控和高级分析,使 IT 管理员能够深入了解 AI 基础设施性能。该遥测采集系统专为实现可扩展性和弹性而构建,可在 AI 工厂中的数千个 GPU、 NVIDIA Spectrum-X 以太网 NVIDIA Quantum InfiniBand 网络交换机以及 NVIDIA NVLink 交换机之间并行收集数据。该系统由 NVIDIA Unified Fabric Manager (UFM) NVIDIA NMX Manager 提供支持。

集中式可观察性中心将关键系统指标处理到时间序列数据库中,用于监控、可视化和警报。借助集中式仪表板、主动警报和智能日志管理,NVIDIA Mission Control 使 IT 管理员能够为其 AI 工厂保持出色的控制力和运营效率。

验证和诊断

NVIDIA Mission Control 可确保全面的 AI 工厂验证,严格验证从基本功能到复杂交互的组件。该套件基于可扩展的测试框架构建,该框架为 NVIDIA AI 超级计算机—Selene、Eos 等实现了行业领先的 MLPerf 基准性能,可在安装后提供实时运行状况监控和早期问题检测。IT 管理员还可以利用这些按需运行状况检查来评估其 AI 基础设施的整个生命周期,确保大规模实现峰值性能和可靠性。

AI 工作负载管理

NVIDIA Run:ai 平台提供企业级 AI 工作负载编排,将集中式控制平面与智能集群管理无缝结合,可实现多集群效率,将 GPU 利用率提升高达 5 倍。 它基于 Kubernetes 构建,现已与 NVIDIA Mission Control 集成,支持 NVLink 拓扑感知和内置运行状况检查,可充分发挥 NVIDIA DGX GB300 等新一代架构的潜力。 开发者还可以灵活地使用 Slurm 进行工作负载管理,确保从研究实验室到企业范围内的部署,都有一个适应性强、可扩展的 AI 基础设施。

自动恢复引擎

NVIDIA Mission Control 利用自主恢复引擎在大规模训练作业的后台运行。这通过事件驱动的微服务来检测、隔离和解决工作负载中断,提高了 AI 训练的可靠性,从而改善了 AI 工厂中的 GPU 使用情况。自主恢复引擎与 Slurm 集成,并利用 NVIDIA Run:ai 适用于 Kubernetes 来管理工作负载。

Diagram of capabilities across the application, scheduler, storage and compute layers before and after NVIDIA Mission Control.
图 3。NVIDIA Mission Control 可识别、隔离整个堆栈中的问题并从中恢复,无需人工干预,从而更大限度地提高开发者的工作效率和基础架构弹性

自动恢复引擎通过分析实时系统运行状况来持续检测异常情况,使用 AI 模型和预定义的规则来查明操作问题,并将其与特定硬件行为关联起来。当出现异常时,NVIDIA Mission Control 会进行干预,从 NVIDIA Resiliency Extension (NVRx) 提供的上一个已知的良好检查点重新启动作业,从而消除开发者或 SRE 手动监控进度的需求。这最大限度地减少了机时间,并将恢复时间缩短 10 倍,从而加快训练和推理运行速度。系统会自动排除有故障的硬件,确保顺利执行。

与此同时,NVIDIA Mission Control 负责诊断工作,找出次要硬件的根本原因。这些诊断基于 NVIDIA 自己构建 AI 工厂的经验而构建,为开发者节省了手动调试工作。其工作流引擎执行自动恢复 playbook,致力于修复和重新集成健康的组件回操作中。

如果某个组件仍然无法恢复,NVIDIA Mission Control 会标记该组件以用于退货授权 (RMA) 。该软件可以通过 NVIDIA Enterprise Support 发起支持票,简化解决流程。这种智能编排可最大限度地延长 AI 工厂的正常运行时间,最大限度地提高效率,并确保开发者能够以可预测的方式取得成果。

开始使用 NVIDIA Mission Control

AI 工厂不仅仅是一个传统的数据中心,而是确保任务关键型工作负载保持正常运行的支柱,使组织能够加速其在 AI 领域的投资。随着企业组织扩展 AI,重点转移到为模型构建器提供支持和加速 AI 实验上,这对于缩短上市时间和保持竞争优势至关重要。

借助 NVIDIA Mission Control,企业将受益于简化的 AI 操作——从工作负载到基础设施层——并通过新的软件自动化提供成文的专业知识。 NVIDIA Mission Control 是为 NVIDIA Blackwell 数据中心提供支持的重要组件,可为推理和训练带来即时的敏捷性,同时提供全栈智能,提高基础设施的恢复能力。

现在,每个企业都可以超大规模高效地运行 AI,从而简化和加速 AI 实验。如需了解更多信息,请查看 NVIDIA GTC 2025 会议“ 新一代数据中心:智能自动化和集成可观察性,助力开发者实现生产力峰值 ”的点播回放。

标签