AI 平台/部署

NVIDIA Rubin CPX 加速百万级以上 token 上下文工作负载的推理性能和效率

推理正成为人工智能复杂性的前沿领域。现代模型正逐步演变为具备多步推理能力、持久化记忆和长时程上下文理解的代理式系统,使其能够胜任软件开发、视频生成和深度研究等领域的复杂任务。这些任务对基础设施提出了前所未有的要求,在计算、内存和网络方面带来了新的挑战,亟需从根本上重新思考推理系统的扩展方式与优化策略

在这些挑战中,为特定类型的工作负载处理大规模上下文正变得愈发关键。以软件开发为例,AI 系统需要能够对整个代码库进行推理,维护跨文件的依赖关系,并理解仓库级别的整体结构,从而将编码助手从简单的自动补全工具,转变为具备深度理解能力的智能协作伙伴。同样,在长视频处理和科研应用中,系统也必须在数百万 tokens 的范围内保持上下文的连贯性与记忆能力。这些需求正不断突破当前基础设施的承载极限。

为应对这一转变,NVIDIA SMART 框架提供了一条清晰的发展路径,从规模扩展、多维性能、架构设计、投资回报率以及更广泛的技术生态系统等多个方面优化推理能力。该框架强调全栈解耦的基础设施,实现计算与内存资源的高效分配。结合 NVIDIA Blackwell 和 NVIDIA GB200 NVL72 等平台,辅以支持低精度推理的 NVFP4 技术,以及 NVIDIA TensorRT-LLM 和 NVIDIA Dynamo 等开源软件,正全面重塑人工智能领域的推理性能。

本博客探讨了推理基础架构的下一阶段演进,并介绍了 NVIDIA Rubin CPX——一款专为长上下文 AI 工作负载设计的 GPU,旨在以更高的效率和投资回报率满足不断增长的需求。

分解推理:针对 AI 复杂性的可扩展方法

推理过程包含两个不同的阶段:上下文阶段和生成阶段,每个阶段对基础设施的要求截然不同。上下文阶段受限于计算能力,需要高吞吐量的处理性能,以高效提取并分析大量输入数据,从而生成首个输出 token。而生成阶段则受限于内存带宽,依赖快速的内存传输和高速互联技术(如 NVLink),以持续维持逐个 token 的输出效率。

分解推理能够独立处理各个阶段,从而有针对性地优化计算与内存资源。这一架构转变有助于提升吞吐量、降低延迟,并改善整体资源利用率(图 1)。

Diagram of a disaggregated inference pipeline. Documents/databases/videos feed a context processor (shown as GPU B with a swap to GPU A); its output goes to a key–value cache read by a GPU B generation node to produce results. Labels note GPU A is optimized for long-context processing, while GPU B delivers strong TCO for both context and generation.
图 1。通过使 GPU 功能与上下文和生成工作负载保持一致来优化推理

然而,分解架构引入了新的复杂性,需要在低延迟 KV 缓存传输、大语言模型感知的路由以及高效内存管理之间实现精准协同。 NVIDIA Dynamo 作为这些组件的编排层,在最新的 MLPerf 推理结果中发挥了关键作用。了解基于 GB200 NVL72 平台、结合 Dynamo 实现的分解架构如何创下性能新高

为充分发挥分解推理的优势,特别是在计算密集型上下文处理阶段,专业化的加速能力至关重要。为满足这一需求,NVIDIA 推出 Rubin CPX GPU—这是一款专为高价值、长上下文推理工作负载设计的解决方案,可提供高吞吐量性能,并能无缝集成到分解式基础设施中。

Rubin CPX:专为加速长上下文处理而构建

Rubin CPX GPU 旨在提升长上下文处理性能,在增强现有基础设施的同时,为上下文感知推理的部署提供可扩展的高效能力,并进一步提升投资回报。基于 Rubin 架构打造,Rubin CPX 能够在计算密集型的上下文推理阶段实现突破性性能表现。该 GPU 具备 30 petaFLOPS 的 NVFP4 计算能力、128 GB GDDR7 显存、专用的视频编解码硬件支持,并在注意力机制加速方面达到 NVIDIA GB300 NVL72 的 3 倍水平。

Rubin CPX 经过优化,能够高效处理长序列,对软件开发和高清视频生成等高价值推理应用场景具有重要意义。该技术旨在与现有的分布式推理架构协同工作,提升吞吐量与响应速度,同时显著增强大规模生成式 AI 工作负载的投资效益。

Rubin CPX 与 NVIDIA Vera CPU 及 Rubin GPU 协同工作,共同承担生成阶段的处理任务,为长上下文应用场景提供完整的高性能计算细分解决方案。NVIDIA Vera Rubin NVL144 CPX 机架集成了 144 个 Rubin CPX GPU、144 个 Rubin GPU 和 36 个 Vera CPU,单机架即可提供 8 exaFLOPS 的 NVFP4 计算能力(较 GB300 NVL72 提升 7.5%),同时具备 100 TB 高速内存和 1.7 PB/s 的内存带宽。

Vera Rubin NVL144 CPX 采用 NVIDIA Quantum-X800 InfiniBand 或 Spectrum-X 以太网技术,结合 NVIDIA ConnectX-9 SuperNIC,并由 Dynamo 平台进行统一编排,专为支持下一代百万级令牌上下文的 AI 推理工作负载而设计,可有效降低推理成本,同时为全球开发者与创作者提供先进的功能支持。

该平台可实现30至50倍的大规模投资回报,1亿美元的资本支出可带来高达50亿美元的收入,为推理计算的经济性设立了新的标杆。通过融合分解式基础设施、加速能力与全栈编排技术,Vera Rubin NVL144 CPX 重新定义了企业构建新一代生成式AI应用的可能性。

The image on the left displays the NVIDIA Vera Rubin NVL144 CPX rack, which integrates 144 Rubin CPX GPUs for accelerating context-phase processing, 144 Rubin GPUs connected via NVLink for generation-phase processing, and 36 Vera CPUs, all housed within a single Oberon rack for streamlined deployment. The image on the right shows a single tray from the rack, containing 2 Vera CPUs, 4 Rubin GPUs, and 8 Rubin CPX processors, showing the modular and scalable design of the system.
图 2。NVIDIA Vera Rubin NVL144 CPX 机架和托盘,配备 Rubin Context GPU (Rubin CPX) 、Rubin GPU 和 Vera CPU

总结 

NVIDIA Rubin CPX GPU 和 NVIDIA Vera Rubin NVL144 CPX 机架充分体现了 SMART 平台的理念,即通过架构创新与生态系统集成,实现多维度的性能扩展与更高的投资回报。该平台由 NVIDIA Dynamo 提供动力,专为处理海量上下文而设计,为全栈 AI 基础设施树立了新标杆,为高级软件编程、生成式视频等前沿工作负载开辟了全新可能。

深入了解 NVIDIA Rubin CPX

 

标签