在 AI 基础架构中,数据为计算引擎提供关键燃料。随着代理式 AI 系统的持续演进,多个模型与服务相互协作,需要获取外部上下文并实时做出决策,企业面临如何高效、智能且可靠地处理大规模数据流的挑战。无论是从持久化存储中加载模型、检索知识以支持查询,还是协调智能体对工具的调用,数据的高效流转始终是决定 AI 系统性能的核心因素。
GPU 与 GPU 之间的东西向通信长期以来一直是优化的重点。然而,负责模型加载、存储 I/O 和推理请求的南北向网络同样关键,其性能瓶颈会直接影响 AI 系统的响应速度。
NVIDIA 企业参考架构(Enterprise RA)可指导企业高效部署 AI 工厂及南北向网络,为构建可扩展、安全且高性能的 AI 基础设施提供系统性的设计方法。企业参考架构凝练了 NVIDIA 丰富的实践经验,涵盖服务器与网络配置、软件堆栈到运维最佳实践等各个方面,为部署复杂的 AI 基础设施提供了清晰且经过验证的实施路径。
在企业参考架构的众多组件中,NVIDIA Spectrum-X 以太网在加速南北向数据流方面发挥着重要作用,尤其是搭载 NVIDIA BlueField-3 DPU助力数据密集型 AI 应用场景。
传统以太网存储网络并非专为满足 AI 和 HPC 工作负载在可扩展、数据流和敏感性方面的需求而设计,常因延迟和网络拥塞影响整体性能。每次 AI 模型在训练过程中进行检查点操作时,都会将大量数据流通过南北向网络传输至持久化存储。对于当前拥有数十亿参数的模型而言,这些检查点文件可能达到数 TB 级别,确保在系统发生故障时训练进度不会丢失。(了解 NVIDIA 认证存储计划如何与企业参考架构协同,进一步优化存储性能。)
推理工作负载同样高度依赖高效的南北向网络。在 AI 智能体检索数据时,无论是从检索增强生成(RAG)系统的向量数据库中获取嵌入,还是从外部工具或数据库中调取与客户查询相关的信息,这些过程都需要快速、低延迟的南北向连接。随着企业逐步从静态的单次推理演进为动态的多轮次、多智能体协同推理,南北向网络的需求也随之呈指数级增长。这种增长源于智能体在持续与用户、外部数据源及云服务交互的过程中,不断执行数据的提取、处理与更新操作。
通过采用 NVIDIA Spectrum-X 以太网加速企业参考架构中的数据传输,这些网络可转化为无损的 AI 数据存储与传输平台,专为满足现代 AI 工作负载的性能需求而设计。该企业级架构支持打造面向可预测性、高吞吐量和低延迟数据访问优化的 AI 工厂,从而充分释放现代 AI 工作流的潜力。
融合网络:企业 AI 工作负载简化的基础
企业 AI 工厂通常为解决特定应用场景而构建,其网络规模一般从 4 到 16 个服务器节点起步。在此场景下,融合架构将东西向流量(如计算任务)与南北向流量(如存储访问和外部服务通信)整合至统一的交换网络中,有助于简化运维。该架构通过减少布线需求和硬件扩展可以有效降低系统复杂性,同时在训练、推理和检索等各类工作负载中保持高吞吐量性能。但融合的东西向与南北向网络需要具备充足带宽和良好服务质量(QoS)能力,以可靠地支持这两类流量的并发运行。
Spectrum-X 以太网是企业参考架构的核心,发挥着关键作用。该架构最初针对 GPU 与 GPU 之间以及节点与节点之间的东西向通信进行了优化,同时借助动态路由和遥测技术,有效避免网络拥塞,提升吞吐量,并降低 AI 运行时及检索密集型工作负载中的延迟。因而它也为南北向的网络和存储数据路径提供了显著的带宽与性能优势。
Spectrum-X 的以太网功能同样至关重要,例如虚拟路由和转发(VRF)实现的服务隔离以及服务质量(QoS)对流量的优先级管理。虚拟路由和转发能够在无需依赖物理网络划分的情况下,从逻辑上将东西向通信与南北向流量(如用户接入或存储访问)进行分隔。服务质量则通过在以太网帧或 IP 数据包头添加标签,确保特定类型的流量(如存储流量相对于基于 HTTPS 的用户流量)获得相应的优先级处理。当多个 AI 智能体或工作负载在共享基础设施上并发运行时,这些机制结合一些高级功能例如噪声隔离等,实现进一步的功能强化,从而保障系统性能的稳定性与一致性。
需要注意的是,尽管融合架构非常适合中小规模的企业级 AI 工厂,但它并非适用于所有场景的通用方案。在大规模多租户环境中,例如由 NVIDIA 云合作伙伴(NCP)运营的环境,采用具有物理连接网络的分离式架构可能是更优选择,这既能提供更高的有效带宽,又能实现租户之间及不同流量类型之间的严格隔离。
融合网络是一项经过周密考量的设计选择,契合企业级 AI 基础设施在专用场景下的应用需求,同时兼顾性能与可管理性。企业参考架构通过提供一系列指导方案,能够覆盖从小型基础集群到扩展至 1000 个 GPU 的中型部署,有效简化了为特定用例确定理想网络架构的复杂过程。
了解 NVIDIA 以太网 SuperNIC 与 BlueField-3 DPU 的功能与应用
了解 AI 工厂中的网络编排时,有必要区分 NVIDIA 以太网 SuperNIC 与 DPU 的不同角色。NVIDIA SuperNIC 专为处理 GPU 间东西向通信流量而设计,面向超大规模 AI 环境时,可为每个 GPU 提供高达 800 Gb/s 的带宽,确保在分布式训练和推理过程中实现高效、快速的数据连接。
而BlueField-3 DPU 则负责处理南北向流量。它能够将存储管理、遥测和网络安全等任务从主机 CPU 卸载、加速并实现隔离,从而为核心 AI 处理释放宝贵的计算资源。实际上,它充当了专用的云基础设施处理器,确保数据在 AI 工厂与外部生态系统(包括网络存储)之间高效流动。
SuperNIC 与 BlueField-3 DPU 共同构建了强大的 AI 网络协同体系。SuperNIC 为 AI 工厂内部的计算提供动力与路径支持,而 BlueField-3 DPU 则确保外部数据能够顺利、大规模地接入。这种组合使企业能够全面优化 AI 基础设施各层级的性能表现。
对企业的影响:向量数据库与实时检索
代理式 AI 和 RAG 系统的日益普及是南北向网络应用的一个典型示例。以 NVIDIA RAG 2.0 Blueprint 为代表的架构,通过整合外部知识(如文档、图像、日志和视频),扩展了大语言模型(LLM)的能力。该架构利用 NVIDIA NeMo Retriever 和 NVIDIA NIM 微服务,将这些内容通过向量数据库进行嵌入、索引和检索,从而提供更加准确且符合上下文的响应。
当用户提交查询时,LLM 会生成相应的向量嵌入,并利用该嵌入在向量数据库(如外部存储中的 Milvus)中快速检索相关性较高的上下文信息。这一过程依赖于高效、低延迟的南北向数据流动。系统越早完成外部知识的检索与整合,其响应速度就越快,结果也越准确。Spectrum-X 以太网络优化了这一数据路径,在模型实时获取嵌入信息方面,确保了最小的延迟和最大的吞吐量。

图 1. 在 RAG 增强型 LLM 用户查询中,NVIDIA Spectrum-X 以太网中的数据流步骤示意
下面来分析一下南北向用户的计算与存储流程:
- 用户查询入口 (用户到互联网到 leaf):用户提示或任务通过入口网关流入 AI 工厂,到达 leaf 交换机,然后进入集群。企业参考架构通过 Spectrum-X 以太网优化了这一路径,缩短了依赖外部数据的应用程序的首 token 时延 (Time to First Token, TTFT),并避免了手动网络配置调整。
- 请求路由到 GPU 服务器 (通过 DPU 优化 leaf 到 GPU路由):请求通过 leaf 交换机定向到 GPU 节点,BlueField-3 DPU 在此处理数据包解析、卸载网络栈,并将请求路由到正确的推理引擎 (例如 NVIDIA NIM) 。该请求流经 leaf-spine Spectrum-X 以太网交换机,通过动态路由,避免拥塞。Spectrum-X 以太网使用交换机或队列占用的实时状态来动态地保持流量高效流动,类似于地图应用在交通堵塞时为用户重新安排路线。
- 外部上下文获取 (服务器到 leaf 到 spine 再到 leaf 到存储):对于上下文查询 (例如向量数据库) ,请求流通过 RoCE ( RDMA over Converged Ethernet) 流经 leaf-spine 网络到达基于 NVMe 的存储系统。Spectrum-X 以太网具有无缝互操作性和为AI优化的性能,在 DDN、VAST Data 和 WEKA 等合作伙伴平台上访问数据,存储性能提升高达 1.6 倍 。
- 数据返回到 GPU (存储到 leaf 到 spine 再到 leaf 到 server):相关向量和嵌入式内容通过 RoCE 在同一融合网络上返回。Spectrum-X 以太网可实现此路径的拥塞感知,并通过 DPU 处理数据包重排序来保持 GPU 的高效供给。在这里,QoS 标记可以确保优先处理延迟敏感型存储数据,尤其是当多个 AI 智能体通过南北向流量查询多个工具时。
- LLM 推理和最终响应 ( GPU 到 leaf 到用户):利用内存中的原始提示和相关外部上下文,,GPU 完成推理。最终响应会向上路由,并退出基础设施返回至用户应用。基于 VRF 的网络隔离可确保存储、推理和用户流量在逻辑上保持独立,从而确保大规模运行时的性能稳定。
在多个 AI 智能体同时运行(如协作处理复杂任务或响应多用户查询)的环境中,高效的南北向网络能够有效避免瓶颈,保障系统的流畅性与响应速度。通过优化数据检索流程,企业可显著提升决策效率并改善用户体验。无论应用于客户支持聊天机器人、金融咨询工具,还是内部知识管理平台,基于高效南北向网络的 AI 代理与 RAG 架构均能切实创造可观的业务价值。
AI 工作负载已不再局限于隔离环境中的大型训练集群,而是越来越多地融入日常企业运营,需要与数据湖、外部服务以及面向用户的应用实现无缝交互。在此新范式下,南北向网络正重新崛起,成为 AI 工厂的关键支撑。凭借 NVIDIA Spectrum-X 以太网、NVIDIA BlueField 以及基于 NVIDIA 企业参考架构 的精细架构设计,企业能够打造具备高弹性、高性能且可随 AI 工作负载持续扩展的 AI 工厂。
如需了解更多关于基于 NVIDIA 企业参考架构的解决方案信息,请咨询您的 NVIDIA 认证合作伙伴,以获取定制化的部署方案。
了解更多详情: