AI 平台/部署

隆重推出 NVIDIA DGX 云 Lepton:面向开发者的统一 AI 平台

AI 原生应用的时代已经到来。开发者正在构建先进的代理式 AI 和物理 AI 系统,但跨地区和 GPU 提供商进行扩展仍然是一项挑战。

NVIDIA 构建 DGX Cloud Lepton 来提供帮助。这是一个统一的 AI 平台和计算市场,将开发者与全球云提供商网络中的数万个 GPU 连接起来。现在,您可以抢先体验

DGX 云 Lepton 满足了一项关键需求:通过在整个 NVIDIA 计算生态系统中提供对 GPU 容量和 AI 服务的统一访问,提高 AI 开发者的工作效率。它与 NVIDIA 软件堆栈(包括 NVIDIA NIMNVIDIA NeMo)无缝集成,并将很快支持 NVIDIA BlueprintsNVIDIA Cloud Functions (NVCF)。它使开发者能够快速、大规模地构建、训练和部署 AI 应用。

开发者可以使用 build.nvidia.com 即时访问 NVIDIA NIM 微服务和预构建工作流,从而开始 AI 开发。当需要跨地区和提供商扩展训练、微调或推理时,NVIDIA DGX Cloud Lepton 可提供生产级计算基础设施和编排。

包括 Amazon Web Services、Firebird、Fluidstack、Mistral AI、Nebius、NscaleScalewayTogether AI 在内的全球云提供商已在 DGX 云 Lepton 中提供 NVIDIA Blackwell 和其他 GPU。此外,Hugging Face 计划将 DGX 云 Lepton 集成到其 Training Cluster as a Service 中,以扩展 AI 研究人员使用可扩展计算进行模型训练的权限。这些公司加入了 CoreWeaveCrusoeFirmusFoxconnGMI CloudLambdaYotta Data Services 等现有合作伙伴的行列。观看更多内容。

开发者可以通过合作伙伴提供的自带容量 (bring-your-own-capacity) 选项来访问计算资源。这种灵活性支持主权 AI 计划和战略数据局部性要求。

本文介绍了 NVIDIA DGX 云 Lepton 如何助力开发者利用多个云提供商的计算能力无缝构建和扩展 AI 应用。

A diagram visually organizes the software and hardware components involved in deploying AI workloads using NVIDIA’s DGX Cloud Lepton stack. It highlights the integration of development tools, infrastructure management, compute resource options, and cloud partner services.
图 1。DGX 云 Lepton 基础设施堆栈,包括 GPU 云提供商、NVIDIA 云合作伙伴、计算资源管理、AI 基础设施管理、DGX 云 Lepton 和 NVIDIA AI Enterprise 工具

为开发者带来的主要优势

无论您是在训练大语言模型,还是提供实时推理服务,DGX 云 Lepton 均可帮助您减少管理基础架构所花费的时间,并将更多时间用于构建。

1. 简化 GPU 发现:通过单个平台在云提供商之间发现和分配 GPU 资源。根据区域、成本和性能确定最佳工作负载放置,同时使用熟悉的 AI 工具实现标准化。

2. 一致的开发环境:在标准化开发环境中工作,无需考虑底层基础设施。

3. 简化多云管理:DGX Cloud Lepton 减少了运营孤岛和摩擦,实现跨多个云提供商的无缝管理和扩展。

4. 多区域和数据主权支持:访问特定区域的 GPU 以满足数据驻留要求。通过在靠近应用使用者的位置部署工作负载,提高性能并减少延迟。

5. 内置可靠性和弹性:DGX Cloud Lepton 利用 GPUd 实现持续的 GPU 运行状况监控、智能工作负载调度和故障隔离,确保稳定且可预测的性能。

DGX Cloud Lepton 特性

核心功能

  • 开发者 Pod开发者 Pod 支持通过 Jupyter notebook、SSH 和 Visual Studio Code 进行交互式 AI/ML 开发。它们是原型设计、调试和迭代模型实验的理想选择。
  • 批量作业批量作业适用于运行大规模非交互式工作负载,例如跨多个节点的模型训练和数据预处理。您可以指定 CPU、GPU 和内存要求;选择节点组;并通过 GPU 利用率、内存消耗和 GPU 温度等实时指标监控性能。每个作业都为每个副本提供详细的状态和主机级别的可见性。
  • 推理端点:您可以部署和管理各种模型,包括基础模型、微调模型和自定义模型。推理端点可以支持 NVIDIA NIM 或自带容器,提供灵活的部署选项。该系统会根据需求自动扩展模型副本,以确保高可用性和性能。内置运行状况监控和恢复功能可减少停机时间并确保可靠运行。
The NVIDIA DGX Cloud Lepton dashboard with quick access to endpoints (inference), dev pods (developer tools), and batch jobs (training). A navigation bar includes explore, endpoints, dev pods, batch jobs, nodes, observability, and settings.
图 2。DGX Cloud Lepton 仪表盘

监控和可观察性

  • 运行状况监控:通过高级诊断(包括 GPUd、NCCL 基准测试和主动警报)实时持续监控 GPU 和系统的运行状况,以识别问题。所有节点都经过严格的验证,例如 NCCL 测试和 GPU 烧入,确保它们符合性能和可靠性标准。该平台可自动将不正常的节点与调度程序隔离开来,以防止中断,同时实时遥测和可定制的自动恢复工作流程可保持操作稳定性和工作负载弹性。
The DGX Cloud Lepton GPU health dashboard, which shows GPU uptime, latency over time for multiple regions, and high availability statistics.
图 3。DGX Cloud Lepton GPU 健康状况监控
  • 自定义工作空间设置:轻松配置 quotas、访问控制、secrets management、计费设置和 container registries,以满足企业要求。
  • 可观察性工具:实时流式传输日志,管理作业生命周期,并按用户安全地检查 API 活动,以保持整个平台的可见性和运营控制。
A DGX Cloud Lepton observability dashboard showing logs for a GPU endpoint. The left panel has navigation and filters; the top bar graph displays log volume over time; and the main area lists log entries with timestamps, info level, and details on GPU usage and billing.
图 4。DGX 云 Lepton 可观察性控制面板,其中显示 GPU 端点的日志。

开始使用 DGX Cloud Lepton

无论您是进行原型设计还是在生产环境中部署,您都可以跨 Web 用户界面、命令行界面和 SDK 获得一致的体验。入网后,每位客户都将获得一个工作空间,一个管理 GPU 资源和运行工作负载的安全环境

管理员配置用户访问控制、机密、容器注册表和使用配额等设置。GPU 资源置于节点组中,作为计算工作负载的基础。

然后,您可以:

  • 启动用于交互式开发的 dev pod
  • 提交批处理作业以进行模型训练或数据处理
  • 为实时或批量模型服务部署 inference endpoints

DGX 云 Lepton 简化了容器化 AI 和机器学习工作负载的部署。它允许您将自己的工作负载引入容器镜像,并支持任何符合 OCI 的容器注册表,包括 NVIDIA NGC 容器注册表。

A diagram shows a developer using DGX Cloud Lepton to run interactive, training, and inference jobs, integrated with NVIDIA NGC and observability tools. Workloads are managed across global cloud providers and GPU types from a central interface.
图 5。DGX Cloud Lepton 开发者工作空间

加入 DGX Cloud Lepton 抢先体验计划

探索抢先体验版 (EA) 中的 DGX 云 Lepton,亲身体验它如何改进您的生成式 AI 开发流程。如果被选中,DGX 云 Lepton 产品团队将与您互动,了解您的用例和计算要求。我们很高兴看到您使用这些新功能构建的创新应用程序!

如需了解详情,请参阅文档

 

标签