数据中心/云端

借助 NVIDIA OSMO 扩展 AI 机器人开发工作负载

自主机器开发是一个数据生成和收集、模型训练和部署的迭代过程,其特点是跨异构计算资源的复杂的多阶段、多容器工作流。

涉及多个团队,每个团队都需要共享和异构计算。此外,团队希望将某些工作负载扩展到云中,这通常需要 DevOps 专业知识,同时在本地维护其他工作负载。

到目前为止,还没有一个统一的平台可供开发者轻松提交所需计算的工作负载。

在本周的 GTC 大会上,NVIDIA 宣布推出 OSMO,这是一个云原生工作流程编排平台,它提供一个单一界面,用于跨异构共享计算环境调度和管理各种自主机器工作负载。这些工作负载包括:

  • 合成数据生成 (SDG)
  • DNN 训练和验证
  • 强化学习
  • SIL 或 HIL 中的机器人 (重新) 仿真
  • 基于 SIM 或真实数据的感知评估
GIF of the OSMO workflow in motion.

跨异构共享计算部署复杂的工作流程

借助 OSMO 统一计算资源调度,您可以轻松地在 Kubernetes 集群上部署和编排多阶段工作负载。这包括共享的异构多节点计算资源,例如 aarch64 和 x86-64,可确保跨不同架构的灵活性和兼容性。

轻松设置基于 YAML 的多阶段多节点任务,并简化从 SDG 和训练到模型验证的端到端开发流程。OSMO 还可以集成到现有的 CI/CD 流程中,以动态调度任务,用于夜间回归测试、基准测试和模型验证。

该服务还使用 OIDC 等开放标准进行身份验证,并通过一键键旋转支持凭据和数据集安全的最佳实践。在合规性方面,团队可以管理和追踪用于模型训练的所有数据的沿袭,并在开发中进行版本控制。此功能对于可再现性也非常有价值。

编排本地和云 SDG 工作负载

合成数据生成尤其受益于分布式环境,因为它通常从本地开始生成较小批量的数据,但随着需要生成大量数据,则需要进行云扩展。OSMO 使用弹性资源调配,在降低 SDG 等离线批量流程的成本方面发挥着关键作用,从而实现高效且经济高效的大规模数据生成。

高效运行 SIL 和 HIL 测试

OSMO 支持的另一个重要工作负载是软件在环 (SIL) 机器人测试,该测试涉及多传感器和多机器人场景或一套测试场景的模拟。这些场景最适合易于访问计算资源的云环境。OSMO 能够跨分布式环境调度和管理工作负载,可确保利用云资源的可扩展性和可访问性高效执行 SIL 测试。

另一方面,由于特定机器人或机器硬件的可用性,硬件在环 (HIL) 测试需要本地部署。

异构计算对于 HIL 测试也是必要的,因为仿真和调试等工作负载需要 x86,并且在 aarch64 上运行正在测试的软件,从而提供其他方式无法提供的准确性能和硬件功能。直接在目标硬件上运行 HIL 还可以减少对昂贵的模拟器的需求。

同时生成和训练基础模型

OSMO 支持 GR00T 基础模型,该模型需要在 NVIDIA DGX 上进行模型训练,同时在 OVX 上进行实时强化学习。此工作负载包括在一个循环中以迭代方式生成和训练模型。

OSMO 可以跨分布式环境管理和调度工作负载,从而实现 DGX 和 OVX 系统的无缝协调,从而实现高效的迭代模型开发。

This chart shows how NVIDIA OSMO inputs Isaac Lab , text, video, and real robot data to feed to heterogenous compute and the Gr00t model for output to a humanoid robot.
图 1. NVIDIA OSMO 用于 GR00T 基础模型

跟踪数据沿袭

数据沿袭和管理对于模型审计和确保整个开发过程的可跟踪性至关重要。借助 OSMO,您可以跟踪从来源到经过训练的模型的数据沿袭,从而提供透明性和可靠性。

借助 OSMO,可以轻松管理大型数据集和创建集合,从而实现高效的数据组织和分类。这包括管理真实数据、合成数据或混合数据集合的能力,从而为用于模型训练和评估的数据集提供灵活性和控制力。

申请抢先体验

目前,NVIDIA OSMO 正处于抢先体验阶段。立即申请,开始加速您的自主机器开发工作负载。

 

Tags