我们往往容易低估实际生产级 AI 系统所涉及的组件复杂性。无论是构建融合内部数据与外部大语言模型的智能体,还是提供按需生成动画的服务,系统都需要在在线与离线组件之间协调多个模型与动态数据的运作。
从大语言模型到向量数据库,许多 AI 服务都可通过现成的 API 轻松接入,便于快速构建原型和实现高效演示。随着产品需求的持续演进,API 封装逐渐走向商业化,差异化的人工智能产品 increasingly 依赖专有数据、精心设计的代码与智能体,以及经过微调的模型。这一趋势促使企业更倾向于在内部自主掌控和运营关键组件,从而更好地应对安全、隐私和合规性方面的挑战。
在本文中,我们将介绍一个真实的应用案例,展示内部操作堆栈所带来的优势。我们构建了一款 Reddit 帖子风格化工具和子版块推荐系统,该系统由数万个向量索引和在线大语言模型(LLM)组件驱动。除了介绍应用本身外,我们还将重点阐述其基础设施需求,并展示如何借助全新的 NVIDIA DGX 云 Lepton 实现灵活的 GPU 资源访问。此外,我们还将说明如何利用开源的 Metaflow 框架——由 NVIDIA Inception 计划 合作伙伴 Outerbounds——对整个系统进行端到端的编排。
Outerbounds 如何帮助构建差异化的 AI 产品和服务
内包 AI 组件的主要挑战在于运营成本和系统复杂性。几乎所有组件——包括训练、推理以及 RAG 系统——都依赖 GPU,并需要复杂的软件堆栈来实现高效且可扩展的运行。AI 技术栈层次极深:从以 GPU 为核心的高效数据中心, 例如 Nebius,到优化模型与推理运行时,作为 NVIDIA NIM 微服务。然后是通过开发者友好的 API 实现系统编排,这正是 Outerbounds 发挥作用之处。
Outerbounds 提供一个安全的云原生平台,支持在您自有环境中开发和运行 AI 系统。该平台基于开源框架 Metaflow 构建,为开发者提供强大且可组合的 API,助力大规模地构建、编排并持续优化 AI 产品。
如何使用 NVIDIA DGX 云 Lepton 构建 AI 系统
自人工智能进入快速发展初期以来,GPU 云格局已发生显著变化。如今,大大小小的供应商纷纷提供覆盖不同地理区域、具备多样化技术栈深度的 GPU 资源。在这样的环境中进行选择可能十分复杂,尤其是这些云服务需要与您现有的超大规模基础设施协同运作。
Outerbounds 的一个重要优势在于能够便捷地访问多种计算资源,从而有效降低了开发差异化 AI 产品的主要障碍。自创立之初,Outerbounds 就已集成 NVIDIA Cloud Functions (NVCF) 并,近期与 Nebius 展开合作,NVIDIA 云合作伙伴。
Outerbound 现在支持抢先体验 NVIDIA DGX 云 Lepton,用户可通过统一界面更便捷地接入不断扩展的 GPU 资源池。
下图展示了演示应用程序环境中的新配置,具体如下所示。

采用新 GPU 云服务的一个常见障碍在于,企业现有的基础设施、开发者运维(DevOps)实践以及安全策略通常与当前云环境深度绑定。Outerbounds 通过与 DGX 云 Lepton、NVIDIA 云合作伙(包括 Nebius)集成,支持用户引入自有策略,并将现有代码与目标云环境无缝协同运行,无需进行复杂的迁移。这种方式显著降低了采用新基础设施所带来的风险和工作负担。
使用 DGX 云 Lepton 开发 Reddit 智能体
为了展示完整堆栈的优势,并体现现实世界中人工智能的复杂性,我们将介绍一个有趣的演示应用:当您在 Reddit 发布内容时,智能体可协助您选择合适的社区和表达风格。一张截图胜过千言万语:

尽管 Reddit 数据是公开的,但我们使用了 Hugging Face 上提供的预处理数据集,其中包含近一亿条帖子和评论。(需要注意的是,许多现实世界的应用场景涉及私有或专有数据。)在这些情况下,构建并运行自有的端到端系统(包括检索增强生成,即 RAG)不仅有益,而且通常是必要的,以保障数据隐私并实现对系统的全面控制,正如我们的示例所展示的那样。
以下概述了系统的整体架构及运行机制:

以下是输入提示时在演示应用程序中发生的情况:
- 该系统使用 nv-embedqa-e5-v5 模型将提示词转换为嵌入,该模型是 NVIDIA NeMo Retriever 集合的一部分,通过 DGX 云 Lepton 部署为 NVIDIA NIM 容器。
- 该嵌入与名为 FAISS 的 GPU 加速向量数据库进行匹配,其中包含所有子 Reddit 的中心。
- 然后,将嵌入与特定于子 Reddit 的向量数据库进行匹配,以便顶级子 Reddit 检索局部样本。
- 然后,将原始提示和局部示例传递给大型 LLM,即 llama-3_1 -nemotron-70b-instruct (也作为 NIM 容器部署),以重新格式化提示,使其与所选子 Reddit 的风格相匹配。
- 智能体本身作为容器部署在 DGX 云 Lepton 上。
此外,还设计了一个工作流程用于更新向量索引。得益于GX 云和 Metaflow 之间的集成 ,您只需添加特定修饰器即可执行任务,将索引构建无缝融入 Metaflow 工作流中。
@conda(packages={'faiss-gpu-cuvs': '1.11.0'}, python='3.11')
@nvidia(gpu=1, gpu_type='NEBIUS_H100')
@step
def build_indices(self):
....
值得注意的是,如上面的 conda 装饰器所示, 您都能高效地管理软件供应链,确保任务所需的所有依赖项(包括 NVIDIA CUDA 驱动程序)均可正常使用—无论选择何种目标执行环境。
生成 快速嵌入和向量索引
我们的索引工作流程始于一个包含近一亿条帖子和评论的数据集。在剔除标记数少于10的评论以及帖子数少于100的子版块后,该数据集最终包含5000万个段落,分布在约3万个子版块中。
该示例的一个特点是,系统并未构建单一的向量数据库,而是为每个子版块(共超过 3 万个)分别建立独立的向量数据库,以匹配各社区特有的内容风格。此外,系统还为每个社区的核心内容构建了专门的数据库,用于识别与提示词最匹配的社区。
由于数据集规模庞大,系统需具备高效处理能力。
- 作为批量处理,在合理的时间内生成大量嵌入。
- 快速为嵌入创建索引,生成数万个数据库分片。
- 在提示期间以低延迟生成嵌入和匹配条目。
DGX 云 Lepton 的主要优势在于支持跨环境访问深度 GPU 资源池。借助这一能力,系统可并行处理嵌入任务——这些任务由 Outerbounds 的工作流进行编排——并在多个 NVIDIA H100 GPU 上协同构建嵌入模型。该服务具备处理并行工作进程的能力,性能接近线性扩展。

请访问该网站,了解 nv-embedqa-e5-v5 模型及 NVIDIA 在各类 GPU 基础设施上其他嵌入模型的更多基准测试结果。生成的包含 5000 万个 1024 维嵌入的数据集规模接近 200GB,因此 Metaflow 优化的I/O 路径将在处理大规模矩阵传输时发挥重要作用。
该系统通过在 新推出的 NVIDIA cuVS 加速 FAISS 库在 NVIDIA H100 GPU 上运行,实现了卓越的性能:仅用 80 秒即可完成 1000 万个嵌入的索引。在生成 3 万个索引(其中许多索引规模较小)的场景下,单个 H100 GPU 的处理速度比大规模 CPU 实例 r5.24xlarge(并行使用多达 60 个 CPU 核心)快 2.5 倍。
得益于 Nebius,使用单个 H100 的 GPU 加速版本比 CPU 实例速度快一倍,且成本降低一半。
得益于 Nebius,使用单个 H100 的 GPU 加速版本比 CPU 实例速度快一倍,且成本降低一半。
如何使用 Outerbound 将基础模组组装成生产就绪型 AI 系统
Reddit 推荐系统智能体展现了典型 AI 系统的架构,包含以下组成部分:
- 各种 LLM: 在本例中,嵌入和检索模型。
- 智能体部署: 有状态的工作者调用 LLM 并采取相应行动。
- 批量处理: 例如构建向量索引和数据处理。
您需要将所有这些组件作为一个内聚的系统进行编排与管理,并在治理边界内实现安全可靠的部署。同时,您的开发流程和 DevOps 实践必须能够支持整个系统的持续安全迭代,涵盖模型、智能体版本及数据集的 A/B 测试,并对所有资产提供全面的追踪、监控与结果评估。
Outerbound 通过在单一平台上支持在线代理和离线工作流,满足了这些需求。您可以利用 NIM 容器、GPU 加速向量索引等先进组件构建 AI 系统,并通过与 Nebius 等服务商直接集成,或通过 DGX 云 Lepton 访问强大的加速计算资源。
至关重要的是,您可以通过简洁的 Python API 访问这些资源,获得如同调用现成接口般便捷的体验。这不仅让简单任务更加高效,也为实现复杂方案提供了可能。
简而言之,以下是 Reddit Agent 特定版本在 Outerbounds 平台上的实时部署情况:

如图5所示,Outerbounds能够跟踪所有关键资产,包括构成端到端解决方案的代码、数据和模型。对于多人协作(或多个AI副驾驶)的场景,这一功能尤为有用,因为它支持将任意数量的并发变体(每个变体拥有独立的资产)安全地部署为独立的分支部署。<!–
借助这些跟踪功能,您可以轻松对比不同变体,例如比较现成 API 与自定义模型的性能表现。
如何开发完全所有权的差异化 AI 系统
构建差异化的 AI 产品需要具备从可扩展的 GPU 计算能力到开发者友好的软件层的完整技术栈。在企业部署场景中,还需综合考虑地理分布、合规要求以及数据驻留等因素,因此基础设施的选择尤为关键。
DGX 云 Lepton 为多家 GPU 供应商提供统一接口,帮助您根据具体用例灵活匹配计算资源。在此基础之上,Outerbounds 提供了用于高效、可靠地开发与运行 AI 应用的工具。
如果您希望 Reddit Agent 以 r/dailybargain 的风格(这是优惠信息爱好者常关注的子版块)来呈现上述价值主张,可能会得到如下关于 Outerbounds 当前促销活动的回复:
Outerbounds 将提供免费积分,用于在 NVIDIA H100 GPU 上通过 DGX 云 Lepton 运行工作负载。您还可访问其企业级 AI 平台,助力在自有云环境中构建、部署和持续迭代自定义模型与智能体。
要开始在您的环境中测试这些功能,建议从 Outerbounds 入手。通过 Nebius 基础架构获取免费的 GPU 积分,为您的试用提供支持。
您可以在 NVIDIA 开发者论坛 中深入了解 DGX 云 Lepton,或进一步了解 NVIDIA Inception 计划,探索 NVIDIA 如何支持全球人工智能初创企业。