NVIDIA DGX Cloud Serverless Inference 是一种自动扩展 AI 推理解决方案,可实现快速可靠的应用部署。 DGX Cloud Serverless Inference 由 NVIDIA Cloud Functions (NVCF) 提供支持,可在多云和本地环境中提取多集群基础设施设置,以处理 GPU 加速的工作负载。 无论是管理 AI 工作负载、高性能计算 (HPC) 、AI 模拟,还是容器化应用程序,该平台都能让您在抽象底层基础设施的同时进行全球扩展。一次部署,随处扩展。
独立软件供应商 (ISV) 在部署和扩展 AI 应用时经常面临挑战。这些应用程序需要在全球范围内或更接近客户基础设施所在的位置进行部署。这可能需要在多个云、数据中心和地理区域进行部署,从而导致复杂的基础设施运营。Serverless AI 推理通过在云、数据中心和集群中抽象化底层基础设施来应对这一挑战,为 ISV 提供了一种简单、易于使用且一致的方法来部署 AI 应用。
NVIDIA DGX 云 Serverless Inference 可充当计算基础设施的水平聚合器。ISV 可以无缝混合来自 NVIDIA、NVIDIA 云合作伙伴、来自云服务提供商 (CSP) 的私有云或其本地容量的资源。无论您是想暂时扩展容量还是测试新的云提供商,该解决方案都能提供出色的灵活性。
本文介绍了 NVIDIA DGX 云 Serverless Inference 如何助力开发者跨云环境无缝扩展 AI,并利用单个 API 端点为 AI、图形和作业工作负载实现全局负载平衡、自动扩展、多云灵活性。

ISV 的主要优势
DGX 云 Serverless Inference 专为开发者和 ISV 设计,使其专注于自己擅长的领域:构建应用。NVIDIA Cloud Federated (NVCF) 简化了这些应用程序的交付和扩展,而无需担心管理 GPU 或操作基础架构。主要优势包括:
- 减少基础设施和运营负担:使用单一、统一的自动扩展服务,在更靠近客户基础设施的地方部署应用程序,而无需考虑云提供商。
- 敏捷性助力业务增长:快速增加计算能力,以支持突发或短期工作负载,例如使用 GPU、DPU 或其他硬件加速器来快速扩展计算能力。
- 轻松过渡选项:使用自带(BYO)计算能力将现有计算设置集成到平台中。
- 无风险探索:在承诺进行长期投资之前,试用新的地区、供应商或 GPU 类型。支持数据主权要求、低延迟要求和降低成本等用例。
DGX 云无服务器推理可以运行哪些工作负载?
DGX 云 Serverless Inference 支持各种容器化工作负载,包括 AI、图形和作业工作负载 (图 2) 。这些工作负载已在 DGX 云 Serverless Inference 上运行,包括在 build.nvidia.com 上运行的 NVIDIA AI 工作负载或 NVIDIA Omniverse 等模拟工作负载。

AI 工作负载
处理尖端大语言模型(LLMs),包括不适合单节点且需要多节点推理的大型模型。 DGX Cloud Serverless Inference 擅长处理各种工作负载类型,包括:
- 物体检测
- 图像、3D 和视频生成
- 使用先进的机器学习模型
图形工作负载
NVIDIA 以图形计算为基础,这意味着该平台非常适合执行图形密集型任务,包括:
- 数字孪生 和模拟
- 交互式流服务
- 数字人和机器人工作流
借助专为图形工作负载优化的计算能力,DGX Cloud Serverless Inference 可与 NVIDIA Omniverse 或 NVIDIA Aerial 等技术无缝集成,在至关重要的情况下提高性能。
作业工作负载
DGX 云无服务器推理非常适合需要批量处理并运行至完成的工作负载。无论是渲染任务还是 AI 模型微调,该平台都能处理“运行到完成”的工作负载,确保高效利用计算资源。用例包括:
- NVIDIA TensorRT 引擎优化
- 通过生成视频数据训练 物理 AI 模型
如何开始使用 DGX Cloud Serverless Inference
有多种方法可以将工作负载引入 DGX Cloud Serverless Inference。如图 1 所示,快速、简单的入门方法是在 build.nvidia.com 上使用 NVIDIA NIM 微服务容器 和 NVIDIA Blueprints 。DGX Cloud Serverless Inference 直接在用户界面中包含弹性 NIM 功能,因此可以轻松扩展这些优化模型。
或者,ISV 可以使用自定义容器,并允许 DGX Cloud Serverless Inference 处理跨各种计算目标的自动扩展和全局负载均衡。ISV 还可以使用 Helm charts 进行更复杂的部署。
将工作负载部署到 DGX Cloud Serverless Inference 后,ISV 应用程序可以通过 API 端点调用模型。DGX Cloud Serverless Inference 将此 API 端点背后的计算集群抽象化。此 API 端点将调用请求路由到网关和全局请求队列,后者可以利用多个区域队列来实现最佳负载平衡。ISV 可以混合和匹配 API 端点后面的多个集群。
例如,图 3 演示了 ISV 可能使用来自两个不同提供程序的两个不同集群的场景。其中一个提供商可以由 NVIDIA 云合作伙伴或 ISV 在 CSP 中的私有云提供计算。此集群中安装了 NVIDIA Cluster Agent (NVCA) 软件,允许此集群中的计算可见并可用于服务工作负载。此集群也可以是 ISV 私有云或本地服务器中的实例。图 3 中的另一个提供程序可通过 DGX Cloud 预留或提供按需计算。ISV 可以根据独特的业务需求使用集群设置的任意组合。

集群还可以标记属性,以帮助目标部署。例如,部署只能针对特定地理区域内的集群、经过图形优化的集群、具有缓存支持的集群或符合特定认证 (例如 SOC2、HIPAA) 的集群。这使 ISV 能够更好地控制工作负载的运行位置。有关更多详细信息,请参阅 Function Deployment 文档 。
最后,DGX 云 Serverless Inference API 未被采纳,在使用方式方面提供了更大的灵活性。除了 URL 和授权标头之外,API 没有任何意见,有效载荷可根据工作负载的需求提供灵活性。例如,对于 LLM,可以根据 OpenAI 聊天完成 API 格式定制有效载荷。ISV 开发者还可以灵活使用 HTTP 轮询、HTTP 流和 gRPC。有关更多信息,请参阅 API 文档 。
如何部署函数?
NVIDIA Cloud Functions (NVCF) 是 DGX Cloud Serverless Inference 的控制平面层。工作节点上安装了 NVIDIA Cluster agents,用于与控制平面层通信,以注册集群。它支持通过简化的无服务器方法无缝部署和扩展 AI 推理工作负载。部署过程遵循以下关键步骤 (图 4) :
- 将构件推送到 NGC 注册表: AI 开发者或服务提供商将所需资产 (例如容器、AI 模型、Helm 图表和其他资源) 推送到 NVIDIA NGC 注册表。作为管理推理就绪型构件的中心存储库。
- 创建函数:用户使用 AI 合作伙伴服务定义函数,指定 AI 模型或服务的执行方式。 此步骤将抽象化基础架构管理的复杂性。
- 部署函数:创建函数后,该函数将部署在可用的计算资源中。NVCF 智能管理部署,确保跨多个 GPU 的高效执行。
- 部署和扩展工作节点:NVCF 根据需求动态调配工作节点,在 NVIDIA DGX Cloud 或合作伙伴计算环境中自动扩展基础设施。
- 获取容器和模型:工作节点从 NGC Registry 中检索必要的容器和模型,确保执行最新版本。

这一过程使 ISV 和开发者能够专注于 AI 创新,而不是基础架构管理,从而从自动扩展、高可用性和经济高效的 GPU 利用率中受益。
ISV 如何使用 NVIDIA DGX 云 Serverless Inference?
DGX 云 Serverless Inference 已经在全球范围内推动创新,为交互式 AI 体验、大规模仿真环境等提供支持。作为 NVIDIA 预览计划的一部分,以下 ISV 一直在利用这项技术:
- Aible :一家 AI 赋能的数据科学解决方案提供商,可自动执行数据工程和机器学习工作流,为企业带来可衡量的业务影响。Aible 展示了 NVIDIA Cloud Function 无服务器 GPU 如何将端到端生成式 AI 的 TCO 提高 200 倍 检索增强生成 RAG 解决方案。
- Bria:视觉生成式 AI 平台面向使用 100% 授权数据训练模型的开发者,该平台使用 NVIDIA Cloud Functions 扩展文本到图像生成的推理需求。Bria 能够按需使用 GPU,使用 NVIDIA L40S 和 NVIDIA H100 GPU 降低总体 TCO。
- Cuebric: 一款生成式 AI 工具,使电影制作人和创意人员能够在几分钟内将概念快速转换为逼真的电影就绪型虚拟环境和背景。Cuebric 使用 NVIDIA Cloud Functions 按需突发,并在全球范围内扩展其 AI 工作负载。
- Outerbounds:Outerbounds 是面向 ML、AI 和数据科学家的基础架构和工具提供商,基于 NVIDIA Cloud Functions 为客户提供按需可扩展的 GPU 基础架构。为降低成本,Outerbounds 使用 NVIDIA Cloud Functions 的快速冷启动启动时间功能扩展到零实例。
无论是运行先进的感知系统、高保真模拟,还是动态 AI 工作负载,DGX Cloud Serverless Inference 均可确保实现出色的性能和资源分配。
开始使用 NVIDIA DGX 云无服务器推理
ISV 和 NVIDIA 云合作伙伴现在可以试用 DGX 云 Serverless Inference。对于 ISV 而言,DGX 云 Serverless Inference 可以作为一种低风险的方式来载入不同的计算提供商(包括 ISV 的私有云或 NVIDIA 云合作伙伴),并将 DGX 云 Serverless Inference 用作不同计算提供商之间的“翻译层”。
对于 NVIDIA 云合作伙伴而言,成为 DGX 云合作伙伴可以让 ISV 更轻松地采用,并且 ISV 可以从其私有云或 DGX 云计算更无缝地过渡到由领先的 NVIDIA 云合作伙伴提供的计算。
如需了解更多信息,请访问 DGX 云 Serverless Inference ,您可以注册以开始 为期 30 天的评估 。