NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
人工智能/深度学习

面向 Physical AI 的全栈式解决方案:解析 NVIDIA 与阿里云 PAI 的完整技术链路

随着人工智能向物理世界深度融合,Physical AI 正在重塑智能体的研发范式。它对数据生成、仿真验证、模型训练与边缘部署提出了一些挑战。本文聚焦 NVIDIA 与阿里云 PAI 合作的 Physical AI 全栈式解决方案,解析如何通过软硬件协同与云原生平台能力,构建覆盖研发、验证到部署的全栈式技术链路,为开发者提供高效、可扩展的工具体系,加速智能体从数字世界走向现实应用。

NVIDIA Physical AI 平台

作为 AI 与物理世界深度融合的前沿范式,Physical AI 对算力、数据、算法与仿真等全栈能力提出了极高要求。NVIDIA Physical AI 平台整合了三大核心计算能力,全面覆盖 “数据中心研发—仿真验证—边端部署” 的全生命周期:在数据中心,提供卓越的 AI 算力支持大模型训练与算法迭代;在仿真环节,通过拥有实时光线追踪渲染能力的仿真服务器并依托 NVIDIA Isaac Sim 高保真仿真平台和 NVIDIA Isaac Lab 高效机器人学习平台,实现复杂场景建模、策略验证与大规模机器人学习;在边缘端,通过高性能的边缘计算平台 NVIDIA AGX Jetson,支撑机器人实时感知、决策和自主运行。

更进一步,NVIDIA 开放了包括机器人基础模型 GR00T 和世界基础模型 Cosmos 在内的系列预训练模型,全面支持行为克隆、强化学习、技能迁移与持续学习。这些能力与仿真平台深度协同,显著提升数据生成和使用效率,加速从虚拟训练到现实部署的闭环验证,真正实现“在 GPU 上训练,在现实中进化”。

关于阿里云 PAI

阿里云人工智能平台 PAI(Platform for Artificial Intelligence)是阿里云面向开发者和企业的机器学习/深度学习工程 PaaS 平台,提供包含算力管理、数据管理、模型工具链、模型构建、模型训练、模型部署和推理优化在内的 AI 开发全链路服务,并具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生 AI 工程化能力。

以下是部分特色功能组件介绍:PAI-DSW 提供交互式建模开发环境,内置 JupyterLab、WebIDE 及 Terminal,提供代码编写、调试及运行的沉浸式体验;PAI-DLC 提供灵活、稳定、易用和高性能的机器学习训练环境,支持多种算法框架、超大规模分布式深度学习任务运行及自定义算法框架;PAI-EAS 支持大规模复杂模型的一键部署功能,实时弹性扩缩容,并提供完整的运维监控体系;PAI-Model Galley/Notebook Gallery 对 DSW/DLC/EAS 等进行封装,内置典型的开源预训练模型和模型开发工作流,能高效完成模型训练、部署和评测; PAI-Dataset 支持对多模态数据集进行管理、加工和搜索挖掘,并提供一些列公开数据集,可在 DSW/DLC/EAS 中直接使用。

NVIDIA 全栈机器人及物理 AI 组件现已上线阿里云 PAI

在 2025 年云栖大会上,NVIDIA 机器人及边缘 AI 副总裁 Deepu Talla 与阿里云智能集团副总裁、大数据与 AI 平台负责人汪军华共同宣布阿里云人工智能平台 PAI 与 NVIDIA Physical AI 软件栈进行全面集成。

图 1. 阿里云人工智能平台PAI × NVIDIA Physical AI 全栈工具链

通过此次合作,NVIDIA Physical AI 平台全栈工具链与公开数据集在阿里云 PAI 上无缝集成,开发者可通过 PAI 上特定组件(DSW/DLC/EAS/Datasets/Model Galley/Notebook Gallery等),快捷且高效利用云上计算/存储等基础资源,完成对包括 NVIDIA Cosmos 模型、Isaac 平台和开源 Physical AI 数据集的开箱即用。

此外,针对 Physical AI 全链路研发过程中所涉及到的从数据采集、数据预处理、数据扩增/虚拟数据合成、模型训练、模仿学习/强化学习、仿真测试、闭环验证等各个环节的数据以及软件栈调用与配合、操作流程细节等挑战,NVIDIA 与阿里云 PAI 还提供了多个典型应用场景的最佳实践 Notebook,以提供工作流和方案参考并帮助快速搭建研发管线。详情可参考链接 PAI-Notebook Gallery,主要的工作流 Notebook 包括:

此工作流展示在阿里云 PAI 上,借助 DSW/DLC/EAS/OSS/CPFS 等平台工具和产品快速使用,NVIDIA Physical AI 平台的数据合成 & 扩增、模仿学习功能,结合 Isaac Sim/Isaac Lab 的遥操采集和相似操作轨迹生成功能与 Cosmos 模型的视觉增强能力,生成大规模演示数据来训练对视觉变化具有鲁棒性的模仿学习策略。

图 2. 操作动作数据合成&增强以及模仿学习 工作流示意图

图 3. 操作动作数据合成&增强以及模仿学习 工作流流程图

此工作流展示使用强大的世界模型 Cosmos-Predict2 生成具有物理真实感的机器人运动视频,并结合 GR00T-Dreams 的神经逆运动学模型 IDM(Inverse Dynamics Model),生成对应的机器人动作序列,构成轨迹-视频的完整数据对,最后使用 DreamGen Bench 作为评测基准,测量生成数据的物理真实性和指令跟随能力。

图 4. 基于 GR00T-Dreams 的机器人训练数据生成 工作流流程图

此工作流展示使用 Isaac Sim 集成的 MobilityGen 功能,并结合 Cosmos 模型的视觉增强能力,生成大规模演示数据来训练 X-Mobility 这一具有通用性的导航与运动控制策略,并进行端到端可泛化导航。其中 X-Mobility 是一个基于世界建模的导航模型,支持零样本 Sim2Real 和跨实体迁移。

图 5.  基于世界模型的通用导航与运动控制 工作流流程图

此工作流展示使用 GR00T-Teleop 在云上 AR 仿真环境中进行专家演示操作数据采集,之后通过 GR00T-Mimic 完成操作数据的扩增生成,然后在预训练好的机器人 VLA 基础模型 GR00T-Nx 上基于前述扩增生成的小数据集进行微调,以及在 IsaacLab 中进行最终策略模型效果的评估。

图 6. 遥操数据采集 & 扩增以及 Isaac-GR00T 微调 & 评估全流程 工作流流程图

随机物料物料箱拣选是一个复杂的机器人感知和抓取系统,需要根据环境状态基于机器人命令库进行规划和调度,选择最适合的任务序列,从而完成一系列的物料箱拣选工作。此工作流展示基于 Isaac Cortex 组件将 Isaac Sim 的机器人工具整合在一起,形成一个统一的协作机器人系统,来实现复杂的交互机器人调度工作;除此之外,本工作流也将利用开源算法库 Foundationpose 和 FastSAM 实现快速目标检测及 Pose 估计完成环境感知,基于 Isaac Sim 的 Lula 库实现机器人运动规划和控制,从而完成随机物料箱拣选系统搭建。

 图 7. 基于 Isaac Cortex 搭建随机物料箱拣选系统 工作流流程图

NVIDIA 与阿里云 PAI 的 Physical AI 全链路解决方案,充分利用云上 PaaS 平台优势,包括弹性可扩展、丰富的上下游 AI+ 大数据集成服务、租户安全隔离的数据合规可靠、自动化运维与智能监控等,具有以下特点:

  • 开箱即用:软件包、数据资产、模型文件均完全预置在 PAI 平台内,高性能计算资源随时在线,免除软件下载与资源准备过程;
  • 算力合池:Physical AI 堆栈运行中使用的智算、仿真算力完全托管在云上,可与其他 AI 业务使用的算力资源合池,精益化管理;
  • 数据闭环:借助 PAI 数据集管理能力和 DataWorks 多模态数据管理能力,仿真合成和远程采集的多模态数据可统一管理复用,无需另外搭建数据管理工具链;
  • 云原生基础设施:网络、存储等基础设施完全可软件定义、可弹性扩缩容,适配遥操控制、强化学习、软件在环验证等请求随机性强、数据吞吐量大的使用场景。

总结

NVIDIA Physical AI 平台,致力于构建支撑 Physical AI 研发与落地的完整技术底座。基于卓越的硬件计算能力,依托开放的 Isaac 仿真平台、机器人基础模型 GR00T 和世界模型 Cosmos,能显著提升数据生成和处理效率,加速大规模机器人学习与闭环验证。通过与阿里云 PAI 平台的合作,进一步构筑开放、可扩展的生态,以云计算的弹性、灵活和功能拓展赋能广大开发者与产业伙伴,共同加速 Physical AI 的创新与落地。

标签