AI 原生应用的时代已经到来。开发者正在构建先进的代理式 AI 和物理 AI 系统,但跨地区和 GPU 提供商进行扩展仍然是一项挑战。
NVIDIA 构建 DGX Cloud Lepton 来提供帮助。这是一个统一的 AI 平台和计算市场,将开发者与全球云提供商网络中的数万个 GPU 连接起来。现在,您可以抢先体验。
DGX 云 Lepton 满足了一项关键需求:通过在整个 NVIDIA 计算生态系统中提供对 GPU 容量和 AI 服务的统一访问,提高 AI 开发者的工作效率。它与 NVIDIA 软件堆栈(包括 NVIDIA NIM 和 NVIDIA NeMo)无缝集成,并将很快支持 NVIDIA Blueprints 和 NVIDIA Cloud Functions (NVCF)。它使开发者能够快速、大规模地构建、训练和部署 AI 应用。
开发者可以使用 build.nvidia.com 即时访问 NVIDIA NIM 微服务和预构建工作流,从而开始 AI 开发。当需要跨地区和提供商扩展训练、微调或推理时,NVIDIA DGX Cloud Lepton 可提供生产级计算基础设施和编排。
包括 Amazon Web Services、Firebird、Fluidstack、Mistral AI、Nebius、Nscale、Scaleway 和 Together AI 在内的全球云提供商已在 DGX 云 Lepton 中提供 NVIDIA Blackwell 和其他 GPU。此外,Hugging Face 计划将 DGX 云 Lepton 集成到其 Training Cluster as a Service 中,以扩展 AI 研究人员使用可扩展计算进行模型训练的权限。这些公司加入了 CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda 和 Yotta Data Services 等现有合作伙伴的行列。观看更多内容。
开发者可以通过合作伙伴提供的自带容量 (bring-your-own-capacity) 选项来访问计算资源。这种灵活性支持主权 AI 计划和战略数据局部性要求。
本文介绍了 NVIDIA DGX 云 Lepton 如何助力开发者利用多个云提供商的计算能力无缝构建和扩展 AI 应用。

为开发者带来的主要优势
无论您是在训练大语言模型,还是提供实时推理服务,DGX 云 Lepton 均可帮助您减少管理基础架构所花费的时间,并将更多时间用于构建。
1. 简化 GPU 发现:通过单个平台在云提供商之间发现和分配 GPU 资源。根据区域、成本和性能确定最佳工作负载放置,同时使用熟悉的 AI 工具实现标准化。
2. 一致的开发环境:在标准化开发环境中工作,无需考虑底层基础设施。
3. 简化多云管理:DGX Cloud Lepton 减少了运营孤岛和摩擦,实现跨多个云提供商的无缝管理和扩展。
4. 多区域和数据主权支持:访问特定区域的 GPU 以满足数据驻留要求。通过在靠近应用使用者的位置部署工作负载,提高性能并减少延迟。
5. 内置可靠性和弹性:DGX Cloud Lepton 利用 GPUd 实现持续的 GPU 运行状况监控、智能工作负载调度和故障隔离,确保稳定且可预测的性能。
DGX Cloud Lepton 特性
核心功能
- 开发者 Pod:开发者 Pod 支持通过 Jupyter notebook、SSH 和 Visual Studio Code 进行交互式 AI/ML 开发。它们是原型设计、调试和迭代模型实验的理想选择。
- 批量作业:批量作业适用于运行大规模非交互式工作负载,例如跨多个节点的模型训练和数据预处理。您可以指定 CPU、GPU 和内存要求;选择节点组;并通过 GPU 利用率、内存消耗和 GPU 温度等实时指标监控性能。每个作业都为每个副本提供详细的状态和主机级别的可见性。
- 推理端点:您可以部署和管理各种模型,包括基础模型、微调模型和自定义模型。推理端点可以支持 NVIDIA NIM 或自带容器,提供灵活的部署选项。该系统会根据需求自动扩展模型副本,以确保高可用性和性能。内置运行状况监控和恢复功能可减少停机时间并确保可靠运行。

监控和可观察性
- 运行状况监控:通过高级诊断(包括 GPUd、NCCL 基准测试和主动警报)实时持续监控 GPU 和系统的运行状况,以识别问题。所有节点都经过严格的验证,例如 NCCL 测试和 GPU 烧入,确保它们符合性能和可靠性标准。该平台可自动将不正常的节点与调度程序隔离开来,以防止中断,同时实时遥测和可定制的自动恢复工作流程可保持操作稳定性和工作负载弹性。

- 自定义工作空间设置:轻松配置 quotas、访问控制、secrets management、计费设置和 container registries,以满足企业要求。
- 可观察性工具:实时流式传输日志,管理作业生命周期,并按用户安全地检查 API 活动,以保持整个平台的可见性和运营控制。

开始使用 DGX Cloud Lepton
无论您是进行原型设计还是在生产环境中部署,您都可以跨 Web 用户界面、命令行界面和 SDK 获得一致的体验。入网后,每位客户都将获得一个工作空间,一个管理 GPU 资源和运行工作负载的安全环境
管理员配置用户访问控制、机密、容器注册表和使用配额等设置。GPU 资源置于节点组中,作为计算工作负载的基础。
然后,您可以:
- 启动用于交互式开发的 dev pod
- 提交批处理作业以进行模型训练或数据处理
- 为实时或批量模型服务部署 inference endpoints
DGX 云 Lepton 简化了容器化 AI 和机器学习工作负载的部署。它允许您将自己的工作负载引入容器镜像,并支持任何符合 OCI 的容器注册表,包括 NVIDIA NGC 容器注册表。

加入 DGX Cloud Lepton 抢先体验计划
探索抢先体验版 (EA) 中的 DGX 云 Lepton,亲身体验它如何改进您的生成式 AI 开发流程。如果被选中,DGX 云 Lepton 产品团队将与您互动,了解您的用例和计算要求。我们很高兴看到您使用这些新功能构建的创新应用程序!
如需了解详情,请参阅文档。