物理 AI 使自主系统 (例如机器人、自动驾驶汽车和智能空间) 能够在现实世界中智能地感知、理解和行动。但是,有效训练这些复杂的系统需要大量多样化的数据集。仅仅依靠现实世界的数据采集通常成本高昂、耗时,并且受到安全性和实际限制的限制。
为了克服这一问题,开发者和机器人专家正在采用合成数据生成 (SDG) ,在可控、可扩展的环境中快速创建多样化的逼真场景。然而,当前的 SDG 通常是手动的,工具有限,无法实现完全自动化。为了真正实现加速和扩展,连接推理模型与 AI 通用智能 (AGI) 模型的人工通用智能体至关重要。这些多智能体系统使开发者能够通过专门的 AI 智能体网络来处理复杂的任务,从而提高合成数据质量并加速物理 AI 开发。
这篇博客文章展示了使用生成式 AI 来系统化生成高质量合成数据集的多智能体工作流,从而加速机器人训练和部署。它使用 NVIDIA NeMo Agent 工具套件、NVIDIA Omniverse、OpenUSD、NVIDIA Cosmos 和 NVIDIA NIM 微服务构建自动化管道,用于增强 3D 环境、增强真实感并扩展用于机器人策略训练的合成数据。

多智能体 SDG 工作流程概述
本节概述完全自动化的 SDG 工作流程,以及它如何解决机器人开发者面临的关键挑战。
为仓库环境构建强大导航系统的机器人开发者可能会面临默认仿真设置的限制,这些设置通常缺乏足够的复杂性和多样性来测试导航算法。为了增强算法的鲁棒性和适应性,使用多样化且逼真的场景扩展合成训练环境至关重要。
但是,扩展此类环境通常需要 3D 工作流方面的深厚专业知识或高级提示技术,这给机器人开发者带来了障碍。为了简化这一过程并使机器人开发者能够快速生成高质量的 SDG,我们展示了由多智能体系统驱动的自然语言驱动的全自动 SDG 生成和增强工作流。
下图显示了多 Agent 合成数据生成工作流程的核心组件。

首先,机器人开发者首先通过一个提示来描述整个工作流程:
Please use planning to complete the following task.
First, locate and open the sceneblox scene, it's in the /usd/Scene_Blox directory.
Once the scene is loaded, create an initial robot path from point (-18.222, -17.081) to point (-18.904, -26.693).
Next, search for warehouse-appropriate assets such as shipping crates, storage containers, and mobile trolleys.
Then place two of them in the scene as obstacles that the robot would need to navigate around.
After placing the obstacles, create a new robot path using the same start point (-18.222, -17.081) and end point (-18.904, -26.693) as the original path, but this time ensuring the robot avoids all the obstacles you've added.
Once both paths are set up, capture a video of the viewport showing the robot's navigation.
Finally, use cosmos transfer to enhance the captured video into a photorealistic rendering.
For the enhancement, create a detailed prompt that transforms the scene into a modern e-commerce fulfillment center with direct sunlight streaming through large windows and skylights, creating very bright natural lighting throughout the space. The polished concrete floors reflect the sunlight, tall metal shelving units are organized in rows, conveyor systems are visible, and packing stations are neatly arranged. The warehouse has clean white walls, organized inventory areas, and a professional daytime atmosphere. The final video should look like real footage from an e-commerce fulfillment warehouse during a sunny day.
这将激活一个由专业Agent组成的网络,以协作方式执行所需的任务:
- 规划智能体:解释用户的高级目标,将其分解为顺序、可操作的步骤,并协调其他智能体以高效完成每个步骤。它调用 USD Search NIM、USD Code NIM 和 AI 理解智能体来处理环境变化,例如通过找到合适的 3D 资产并将其准确放置在场景中来添加障碍物。请参阅规划智能体生成的以下分步操作。
- 真实感增强智能体:利用 NVIDIA Cosmos Transfer 微服务预览等世界基础模型 (WFMs) ,使用从 Omniverse 捕获的真值模拟,提高视频输出和不同环境的真实感和视觉保真度,从而获得高质量、稳健的训练数据。
- 推理智能体:使用 NVIDIA Cosmos Reason 评估生成的视频,以确定其是否适合导航策略训练,提供关键评估并确保质量控制。
- 支持辅助智能体:简化常规子任务,包括将场景加载到 Omniverse 中并捕获视频输出以进行后续智能体处理,从而实现完全自动化的端到端工作流。
上述所有 AI 和辅助智能体均使用 Agent 工具包、多智能体编排和统一配置系统进行编排,以实现 SDG 工作流的自动化。通过 Agent 开源工具包,您可以深入了解多智能体系统、跟踪成本和性能,并发现优化机会。
ChatUSD_Planning Locate and open the sceneblox scene in /usd/Scene_Blox. Create an initial robot path from (-18.222, -17.081) to (-18.904, -26.693). Locate warehouse assets (plastic bins, cardboard boxes, hand trucks). Add two obstacles for navigation. Create a second path avoiding obstacles. Capture viewport video of navigation. Enhance video into a photorealistic e-commerce fulfillment center.
------------------------------------
PLAN: Create robot navigation paths with obstacles and enhance the video to a photorealistic e-commerce fulfillment center
Step 1: Open the sceneblox scene
- Use `kit_open_stage` with path `/usd/Scene_Blox` to load the scene.
Step 2: Create initial robot path
- Use `robot_path {"start_point": [-18.222, -17.081], "end_point": [-18.904, -26.693]}` to generate the first navigation path.
Step 3: Locate warehouse-appropriate assets
- Use `ChatUSD_USDSearch` to search for assets such as plastic storage bins, cardboard shipping boxes, and wheeled hand trucks in the available directories.
Step 4: Place obstacles in the scene
- Use `create_obstacles_along_path {"assets": ["path_to_selected_asset_1", "path_to_selected_asset_2"]}` to add two obstacles along the robot's navigation path.
Step 5: Create alternate robot path avoiding obstacles
- Use `robot_path {"start_point": [-18.222, -17.081], "end_point": [-18.904, -26.693]}` to generate a new path that avoids the placed obstacles.
Step 6: Capture a video of the viewport showing robot navigation
- Use `kit_videocapture /temp/robot_navigation.mp4` to record the animation.
Step 7: Enhance the video to a photorealistic fulfillment center
- Use `cosmos_transfer` with the prompt: "Transform the video into a photorealistic modern e-commerce fulfillment center with direct sunlight streaming through large windows and skylights, polished concrete floors reflecting the sunlight, tall metal shelving units organized in rows, visible conveyor systems, neatly arranged packing stations, clean white walls, organized inventory areas, and a professional daytime atmosphere resembling real footage during a sunny day."
根据对初始用户输入提示的理解生成分步输出。
技术预览
本节概述实现完全自动化、自然语言驱动的多智能体 SDG 工作流的架构和关键组件。
Core Omniverse 示例扩展程序
- omni.ai.aiq.sdg
此示例扩展程序构成了 SDG 工作流的支柱。它负责协调多智能体系统,该系统可在 Omniverse Kit 中解释提示、修改场景并控制整个视频生成工作流。其主要功能包括:- 即时解释:使用规划智能体将用户目标分解为可操作的步骤。
- 场景理解:查询 USD 场景中的物体元数据、空间关系和布局。
- 场景修改:使用 USD Code NIM 和 USD Search NIM 自动生成并运行 Python 代码,以添加或移动物体、参考素材或触发动画。
- 录制控制:使用可选的任意输出变量 (AOV) 支持从视窗截取渲染视频。
- 真实感和验证:集成 Cosmos NIM (例如 cosmos_transfer、cosmos_reason) 以进行视频增强和内容评估。
- omni.ai.langchain.agent.headless
此无外设自动化系统扩展程序使整个 SDG 工作流能够在非 GUI (无外设) 模式下运行,非常适合云部署和批量处理。它可以加载 USD 场景、执行代理、运行视频合成并保存输出,所有这些操作都可以通过 API 调用进行,而无需用户交互。
系统架构
SDG 工作流程分为两个协同工作的系统:
1. 场景定义系统该系统负责使用文本提示生成各种场景变化。这些提示旨在控制场景中物体的类型、位置和空间关系。
- 提示生成:根据可配置的规则或模板 (例如,“在机器人附近放置 3 个红色杯子”) ,系统可以生成成百上千个独特的提示。
- 提示管理:可以存储、版本控制和重复使用Prompt,实现可重现的实验。
- API 集成:通过简单的 HTTP API 调用将每个提示发送到视频合成系统。
2. 视频合成系统该系统会解读每个提示并生成相应的视频。它专为使用 NVIDIA NIM 框架在云端进行可扩展部署而构建。
- USD 阶段加载:打开预配置的基础场景,其中包括机器人动画和静态环境。
- 多智能体执行:核心智能体解释提示,使用 USD Search NIM 搜索匹配的资产,并使用脚本动作修改场景。
- 动画和录制:设置好场景后,robot 执行动画,并将视口录制为 MP4 视频。
- 后处理:视频可选择使用 cosmos_transfer 进行增强,并通过 cosmos_reason 进行验证,以确保质量和相关性。
- 输出交付:将最终视频存储在云 bucket 或文件服务器中,并将 URL 返回至调用服务。
端到端工作流程
- 批量提示生成:场景系统生成描述不同对象配置和场景变化的提示。
- 提示提交:每个提示都会发送到合成 API。
- 场景组装和录制:系统构建场景、运行动画并录制视频。
- 增强和验证:应用Style transfer并评估结果。
- 输出聚合:收集并返回视频 links,用于训练数据集组合。
设计目标
综合来看,多智能体 SDG 工作流的设计具有以下目标:
- 可扩展性:从手动单场景创作转向大规模自动化数据生成。
- 开发者效率:无需深度 3D 或 USD 脚本专业知识 – 开发者只需要用简单的语言描述场景即可。
- 多样性和覆盖范围:支持快速生成各种训练场景,以提高robotics模型的泛化。
- 模块化:轻松集成其他 agents、资产或下游服务。
后续步骤
物理 AI 的快速发展取决于高效且可扩展的训练数据。如图所示,使用多智能体系统为克服传统手动合成数据生成的局限性提供了强大的解决方案。通过自动创建高质量合成数据集,我们可以显著加速机器人策略的训练、验证,并最终加速现实世界的部署。
深入了解助力实现这一目标的技术:
- 探索 Agent 工具包文档,并开始使用 Agent 工作流。
- 开始使用 NVIDIA Omniverse 开发者资源和文档构建由物理 AI 驱动的生成式应用。
- 了解 Universal Scene Description 在仿真方面的强大功能,并探索 NVIDIA Cosmos 世界基础模型生成逼真合成数据的功能。
观看 NVIDIA 创始人兼首席执行官 Jensen Huang 在 VivaTech 2025 上发表的 NVIDIA GTC 巴黎主题演讲,并探索 GTC 巴黎会议。
通过订阅 NVIDIA 新闻并在 Discord 和 YouTube 上关注 NVIDIA Omniverse,及时了解最新信息。
- 访问我们的 Omniverse 开发者页面,获取入门所需的所有基础知识
- 访问一系列 OpenUSD 资源,包括新的 Learn OpenUSD 自定进度培训课程
- 收听即将推出的 OpenUSD Insiders 直播,并与 NVIDIA 开发者社区建立联系
开始使用developer starter kits快速开发和增强您自己的应用和服务。