AI 平台/部署

如何使用 Outerbound 和 DGX 云 Lepton 自行构建 AI 系统

我们往往容易低估实际生产级 AI 系统所涉及的组件复杂性。无论是构建融合内部数据与外部大语言模型的智能体,还是提供按需生成动画的服务,系统都需要在在线与离线组件之间协调多个模型与动态数据的运作。

从大语言模型到向量数据库,许多 AI 服务都可通过现成的 API 轻松接入,便于快速构建原型和实现高效演示。随着产品需求的持续演进,API 封装逐渐走向商业化,差异化的人工智能产品 increasingly 依赖专有数据、精心设计的代码与智能体,以及经过微调的模型。这一趋势促使企业更倾向于在内部自主掌控和运营关键组件,从而更好地应对安全、隐私和合规性方面的挑战。

在本文中,我们将介绍一个真实的应用案例,展示内部操作堆栈所带来的优势。我们构建了一款 Reddit 帖子风格化工具和子版块推荐系统,该系统由数万个向量索引和在线大语言模型(LLM)组件驱动。除了介绍应用本身外,我们还将重点阐述其基础设施需求,并展示如何借助全新的 NVIDIA DGX 云 Lepton 实现灵活的 GPU 资源访问。此外,我们还将说明如何利用开源的 Metaflow 框架——由 NVIDIA Inception 计划 合作伙伴 Outerbounds——对整个系统进行端到端的编排。

Outerbounds 如何帮助构建差异化的 AI 产品和服务

内包 AI 组件的主要挑战在于运营成本和系统复杂性。几乎所有组件——包括训练、推理以及 RAG 系统——都依赖 GPU,并需要复杂的软件堆栈来实现高效且可扩展的运行。AI 技术栈层次极深:从以 GPU 为核心的高效数据中心, 例如 Nebius,到优化模型与推理运行时,作为 NVIDIA NIM 微服务。然后是通过开发者友好的 API 实现系统编排,这正是 Outerbounds 发挥作用之处。

Outerbounds 提供一个安全的云原生平台,支持在您自有环境中开发和运行 AI 系统。该平台基于开源框架 Metaflow 构建,为开发者提供强大且可组合的 API,助力大规模地构建、编排并持续优化 AI 产品。

如何使用 NVIDIA DGX 云 Lepton 构建 AI 系统

自人工智能进入快速发展初期以来,GPU 云格局已发生显著变化。如今,大大小小的供应商纷纷提供覆盖不同地理区域、具备多样化技术栈深度的 GPU 资源。在这样的环境中进行选择可能十分复杂,尤其是这些云服务需要与您现有的超大规模基础设施协同运作。

Outerbounds 的一个重要优势在于能够便捷地访问多种计算资源,从而有效降低了开发差异化 AI 产品的主要障碍。自创立之初,Outerbounds 就已集成 NVIDIA Cloud Functions (NVCF) 并,近期与 Nebius 展开合作,NVIDIA 云合作伙伴

Outerbound 现在支持抢先体验 NVIDIA DGX 云 Lepton,用户可通过统一界面更便捷地接入不断扩展的 GPU 资源池。

下图展示了演示应用程序环境中的新配置,具体如下所示。

An architecture diagram showing NVIDIA DGX Cloud Lepton integrated with the AI stack on Outerbounds and Nebius cloud infrastructure accelerated by NVIDIA GPUs .
图 1。NVIDIA DGX 云 Lepton,通过 Nebius 与 Outerbounds 上的 AI 堆栈和 GPU 集成。

采用新 GPU 云服务的一个常见障碍在于,企业现有的基础设施、开发者运维(DevOps)实践以及安全策略通常与当前云环境深度绑定。Outerbounds 通过与 DGX 云 Lepton、NVIDIA 云合作伙(包括 Nebius)集成,支持用户引入自有策略,并将现有代码与目标云环境无缝协同运行,无需进行复杂的迁移。这种方式显著降低了采用新基础设施所带来的风险和工作负担。

使用 DGX 云 Lepton 开发 Reddit 智能体

为了展示完整堆栈的优势,并体现现实世界中人工智能的复杂性,我们将介绍一个有趣的演示应用:当您在 Reddit 发布内容时,智能体可协助您选择合适的社区和表达风格。一张截图胜过千言万语:

Screenshot of a Reddit Agent tool. At the top, a text box contains the user’s prompt: “I think ion thrusters are a good option for future Mars missions.” Below, under “Suggested Subreddits,” three subreddit cards are shown: r/ArtemisProgram, r/SpaceXLounge, and r/IsaacArthur. Each card has a short paragraph post tailored to that subreddit, discussing ion thrusters for Mars missions in contexts such as NASA’s Solar Electric Propulsion, pairing with nuclear power, and their role in space logistics.
图 2。Reddit Agent 工具的输出示例。每个建议都包括一篇简短的定制博文,其中强调了离子推进器与该社区兴趣的相关性。

尽管 Reddit 数据是公开的,但我们使用了 Hugging Face 上提供的预处理数据集,其中包含近一亿条帖子和评论。(需要注意的是,许多现实世界的应用场景涉及私有或专有数据。)在这些情况下,构建并运行自有的端到端系统(包括检索增强生成,即 RAG)不仅有益,而且通常是必要的,以保障数据隐私并实现对系统的全面控制,正如我们的示例所展示的那样。

以下概述了系统的整体架构及运行机制:

Diagram of Reddit Agent architecture. At the top, a “Prompt” box leads to databases that match subreddits and comments, then format the content into responses. This process is supported by NVIDIA DGX Cloud Lepton, which contains four components: Embeddings model, Update vector indices, Retrieval model, and Agent deployment. Output flows back to generate the final response. The system is deployed in the cloud and is powered by Nebius.
图 3。Outerbounds 部署的 Reddit Agent 系统架构。

以下是输入提示时在演示应用程序中发生的情况:

  1. 该系统使用 nv-embedqa-e5-v5 模型将提示词转换为嵌入,该模型是 NVIDIA NeMo Retriever 集合的一部分,通过 DGX 云 Lepton 部署为 NVIDIA NIM 容器
  2. 该嵌入与名为 FAISS 的 GPU 加速向量数据库进行匹配,其中包含所有子 Reddit 的中心
  3. 然后,将嵌入与特定于子 Reddit 的向量数据库进行匹配,以便顶级子 Reddit 检索局部样本。
  4. 然后,将原始提示和局部示例传递给大型 LLM,即 llama-3_1 -nemotron-70b-instruct (也作为 NIM 容器部署),以重新格式化提示,使其与所选子 Reddit 的风格相匹配。
  5. 智能体本身作为容器部署在 DGX 云 Lepton 上。

此外,还设计了一个工作流程用于更新向量索引。得益于GX 云和 Metaflow 之间的集成 ,您只需添加特定修饰器即可执行任务,将索引构建无缝融入 Metaflow 工作流中。

   @conda(packages={'faiss-gpu-cuvs': '1.11.0'}, python='3.11')
   @nvidia(gpu=1, gpu_type='NEBIUS_H100')
   @step
   def build_indices(self):
   	....

值得注意的是,如上面的 conda 装饰器所示, 您都能高效地管理软件供应链,确保任务所需的所有依赖项(包括 NVIDIA CUDA 驱动程序)均可正常使用—无论选择何种目标执行环境。

生成 快速嵌入和向量索引

我们的索引工作流程始于一个包含近一亿条帖子和评论的数据集。在剔除标记数少于10的评论以及帖子数少于100的子版块后,该数据集最终包含5000万个段落,分布在约3万个子版块中。

该示例的一个特点是,系统并未构建单一的向量数据库,而是为每个子版块(共超过 3 万个)分别建立独立的向量数据库,以匹配各社区特有的内容风格。此外,系统还为每个社区的核心内容构建了专门的数据库,用于识别与提示词最匹配的社区。

由于数据集规模庞大,系统需具备高效处理能力。

  1. 作为批量处理,在合理的时间内生成大量嵌入。
  2. 快速为嵌入创建索引,生成数万个数据库分片。
  3. 在提示期间以低延迟生成嵌入和匹配条目。

DGX 云 Lepton 的主要优势在于支持跨环境访问深度 GPU 资源池。借助这一能力,系统可并行处理嵌入任务——这些任务由 Outerbounds 的工作流进行编排——并在多个 NVIDIA H100 GPU 上协同构建嵌入模型。该服务具备处理并行工作进程的能力,性能接近线性扩展。

A bar chart with 10 green bars showing embeddings throughput as a function of the number of parallel workers.
图 4。嵌入吞吐量作为并行工作进程数量的函数。

请访问该网站,了解 nv-embedqa-e5-v5 模型及 NVIDIA 在各类 GPU 基础设施上其他嵌入模型的更多基准测试结果。生成的包含 5000 万个 1024 维嵌入的数据集规模接近 200GB,因此 Metaflow 优化的I/O 路径将在处理大规模矩阵传输时发挥重要作用。

该系统通过在 新推出的 NVIDIA cuVS 加速 FAISS 在 NVIDIA H100 GPU 上运行,实现了卓越的性能:仅用 80 秒即可完成 1000 万个嵌入的索引。在生成 3 万个索引(其中许多索引规模较小)的场景下,单个 H100 GPU 的处理速度比大规模 CPU 实例 r5.24xlarge(并行使用多达 60 个 CPU 核心)快 2.5 倍。

得益于 Nebius,使用单个 H100 的 GPU 加速版本比 CPU 实例速度快一倍,且成本降低一半。

得益于 Nebius,使用单个 H100 的 GPU 加速版本比 CPU 实例速度快一倍,且成本降低一半

如何使用 Outerbound 将基础模组组装成生产就绪型 AI 系统

Reddit 推荐系统智能体展现了典型 AI 系统的架构,包含以下组成部分:

  • 各种 LLM: 在本例中,嵌入和检索模型。
  • 智能体部署: 有状态的工作者调用 LLM 并采取相应行动。
  • 批量处理: 例如构建向量索引和数据处理。

您需要将所有这些组件作为一个内聚的系统进行编排与管理,并在治理边界内实现安全可靠的部署。同时,您的开发流程和 DevOps 实践必须能够支持整个系统的持续安全迭代,涵盖模型、智能体版本及数据集的 A/B 测试,并对所有资产提供全面的追踪、监控与结果评估。

Outerbound 通过在单一平台上支持在线代理和离线工作流,满足了这些需求。您可以利用 NIM 容器、GPU 加速向量索引等先进组件构建 AI 系统,并通过与 Nebius 等服务商直接集成,或通过 DGX 云 Lepton 访问强大的加速计算资源。

至关重要的是,您可以通过简洁的 Python API 访问这些资源,获得如同调用现成接口般便捷的体验。这不仅让简单任务更加高效,也为实现复杂方案提供了可能。

简而言之,以下是 Reddit Agent 特定版本在 Outerbounds 平台上的实时部署情况:

 Screenshot of the Outerbounds platform showing the “Reddit Recommender” deployment page. The agent is active and deployed to an NVIDIA H100 GPU compute pool in Nebius, using NVIDIA NIM MessageFormatter and Embeddings models. The interface lists components for Code, Data, and Model, along with 2/64 active workers. A console log displays recent subreddit suggestions for example prompts, such as recommending r/ArtemisProgram, r/Spaceflight, and r/IsaacArthur for a Mars ion thruster discussion. The left sidebar contains navigation links for project assets, components, deployments, workflows, and platform settings.
图 5。Reddit Agent 的 Outerbound 部署接口。

如图5所示,Outerbounds能够跟踪所有关键资产,包括构成端到端解决方案的代码、数据和模型。对于多人协作(或多个AI副驾驶)的场景,这一功能尤为有用,因为它支持将任意数量的并发变体(每个变体拥有独立的资产)安全地部署为独立的分支部署。<!–

借助这些跟踪功能,您可以轻松对比不同变体,例如比较现成 API 与自定义模型的性能表现。

如何开发完全所有权的差异化 AI 系统

构建差异化的 AI 产品需要具备从可扩展的 GPU 计算能力到开发者友好的软件层的完整技术栈。在企业部署场景中,还需综合考虑地理分布、合规要求以及数据驻留等因素,因此基础设施的选择尤为关键。

DGX 云 Lepton 为多家 GPU 供应商提供统一接口,帮助您根据具体用例灵活匹配计算资源。在此基础之上,Outerbounds 提供了用于高效、可靠地开发与运行 AI 应用的工具。

如果您希望 Reddit Agent 以 r/dailybargain 的风格(这是优惠信息爱好者常关注的子版块)来呈现上述价值主张,可能会得到如下关于 Outerbounds 当前促销活动的回复:

Outerbounds 将提供免费积分,用于在 NVIDIA H100 GPU 上通过 DGX 云 Lepton 运行工作负载。您还可访问其企业级 AI 平台,助力在自有云环境中构建、部署和持续迭代自定义模型与智能体。

要开始在您的环境中测试这些功能,建议从 Outerbounds 入手。通过 Nebius 基础架构获取免费的 GPU 积分,为您的试用提供支持。

您可以在 NVIDIA 开发者论坛 中深入了解 DGX 云 Lepton,或进一步了解 NVIDIA Inception 计划,探索 NVIDIA 如何支持全球人工智能初创企业。

 

标签