训练用于为机器人和自动驾驶汽车等自主机器提供动力支持的 物理 AI 模型 需要大量数据。获取大量不同的训练数据可能十分困难、耗时且昂贵。由于隐私限制或问题,数据通常会受到限制,或者只是在新用例中可能不存在。此外,可用数据可能不适用于所有潜在情况,从而限制了模型准确预测和应对各种场景的能力。
合成数据由在 NVIDIA Omniverse 中构建的数字孪生仿真生成,现在已通过 NVIDIA Cosmos 进行升级,能够弥补真实数据中的差距,使开发者能够启动物理 AI 模型训练。您可以通过改变许多不同的参数 (例如布局、资产位置、位置、颜色、物体大小和照明条件) 来快速生成大量不同的数据集。然后,可以使用这些数据来帮助创建广义模型。
为帮助您构建由生成式 AI 提供支持的合成数据生成工作流和工作流,请查看“使用生成式 AI 参考工作流生成合成数据”。
利用生成式 AI 加速数据生成流程
在训练感知 AI 模型时,实现物理精度对于弥合仿真到现实领域之间的差距至关重要。典型的合成数据生成 (Synthetic Data Generation, SDG) 流程首先是在虚拟环境中精心重建对象,然后准确复制真实世界对应对象的材质、纹理和其他属性。
构建好初始 3D 场景后,开发者会使用域随机化技术来系统化地改变光照、颜色和纹理等方面。这种随机化会生成一组不同的带标注的图像,从而增强模型的泛化能力。流程进行迭代,不断优化合成数据并训练模型,直到达到所需的关键性能指标 (KPI)。
尽管传统的 SDG 方法非常有效,但从场景构建到参数随机化的许多步骤仍然需要手动完成,而且非常耗时。生成式 AI 提供了一个强大的解决方案来显著简化这一过程。
Edify 和 SDXML 等高级扩散模型可以根据文本或图像描述快速生成高质量的视觉内容。如果配备了合适的护栏,这些模型便能够出色地通过编程方式更改图像参数,包括布局、素材位置、配色方案、物体尺寸和照明条件,从而大幅减少手动操作。
此外,生成式 AI 无需修改整个 3D 场景即可实现高效的图像增强。借助简单的基于文本的提示,开发者可以快速添加逼真的细节 (如表面锈蚀) 或应用选择性模糊效果。这种方法可显著加速各种数据集的创建。
为说明这一点,图 1 展示了如何使用简单的文本提示以四种不同的方式增强单个基础图像。传统上,技术美工需要数小时才能实施此类修改并重新生成新图像。生成式 AI 可在极短时间内完成此任务,从而显著提高工作效率和数据集的多样性。
提示 1
白色平铺油地板绿色闪亮的新平衡叉车木托盘浅色松木,软木垃圾桶
提示 2
深色裂缝脏混凝土 地板黄色平衡重叉车 木托盘浅色松 木软木黑色垃圾桶
提示 3
开裂的混凝土地板 白色平衡重叉车 木 托盘浅色松木 , 软木垃圾桶
提示 4
绿色切枝油地板蓝色生锈平衡重叉车木托盘浅色松木,软木垃圾桶
参考工作流概述
该参考工作流适用于在机器人领域训练计算机视觉模型以及在智能空间中训练计算机视觉应用程序的开发者。下节将介绍参考工作流的关键步骤及其核心技术。
- 场景创建: 以全面的 3D 仓库场景为基础,整合货架、箱子和托盘等基本资产。这种基础环境可以使用 3D NIM 微服务动态增强,从而无缝添加不同的对象,并集成 360 ° HDRI 背景。
- 域随机化: 开发者可以利用 USD Code NIM (一种专用于 OpenUSD 的大语言模型(LLM))执行域随机化。这款功能强大的工具不仅可以回答与 OpenUSD 相关的查询,还可以生成 USD Python 代码来更改场景,从而简化在 Omniverse Replicator 中以编程方式更改各种场景参数的过程。
- 数据生成: 第三步是导出带标注的图像的初始集合。Replicator 提供各种内置标注器,包括 2D 边界框、语义分割、深度图、表面法线等。输出格式 (例如边界框或分割遮罩) 的选择取决于特定的模型要求或用例。可以使用各种写入器导出数据:用于标准输出的 BasicWriter、用于 KITTI 格式的 KittiWriter 或用于 COCO 格式的自定义写入器。
- 数据增强: 在最后阶段,开发者可以利用生成式 AI 模型 (例如 SDXL 和 Edify with ComfyUI),这是一个用于构建和执行扩散模型流程的通用开源平台。
此工作流程中的一些核心技术包括:
- Edify 360 NIM : Shutterstock 针对生成 360 HDRI (High Dynamic Range Image) 的生成式 3D 服务抢先体验预览。在 NVIDIA Edify 上使用 Shutterstock 的许可创意库进行训练。
- Edify 3D NIM: 用于生成 3D 素材的 Shutterstock 生成式 3D 服务, 用于为场景装饰添加其他 3D 对象 。使用 Shutterstock 的许可创意库在 NVIDIA Edify 上进行训练。
- USD Code: 回答 OpenUSD 知识查询并生成 USD Python 代码的语言模型。
- USD Search :使用基于文本或图像的输入对 OpenUSD 数据、3D 模型、图像和资产进行 AI 驱动的搜索。
- 图像生成模型和 ComfyUI :快速生成式文本转图像模型,可在单个网络评估中通过文本提示合成逼真的图像,并具有图形和节点接口,适用于高级开发者。
- Omniverse Replicator:用于开发自定义 SDG 工作流和服务的框架,并作为扩展集成到 NVIDIA Isaac Sim 中 。
使用 NVIDIA Cosmos 世界基础模型可以进一步成倍增加数据集。开发者可以从 NVIDIA Omniverse 输出图像或视频渲染,然后使用模型将其从 3D 升级到真实,从而帮助生成规模呈指数级增长的数据集。
使用此工作流程指南,您将能够开发自定义 SDG 工作流,这些工作流可用于训练从检测到分类和分割的各种类型的感知 AI 模型。通过实施此参考工作流,您或您的客户将受益于:
- 加速 AI 模型训练 :克服数据缺口,加速 AI 模型开发,同时降低获取和标记训练文本、视觉和物理 AI 模型所需数据的总成本。
- 隐私和安全: 通过生成代表现实世界的各种合成数据集,解决隐私问题并减少偏见。
- 提高模型准确性: 使用各种数据(包括罕见但关键的角落案例)进行训练,从而创建高度准确的通用 AI 模型,而这些案例在其他情况下是无法收集的。
- 可扩展性: 通过自动化流水线以程序化方式生成数据,该流水线可根据制造、汽车、机器人等领域的用例进行扩展。
开始使用生成式 AI 参考工作流逐步生成合成数据 。
如需及时了解最新资讯,请 订阅我们的 时事通讯 , 并在 YouTube 、 Discord 和 NVIDIA 开发者论坛上关注 NVIDIA Robotics。