AI 平台/部署

NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能

最新一批开源大语言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架构,如 DeepSeek R1、Llama 4 和 Qwen3。与传统的密集模型不同,MoE 在推理期间仅激活专门参数的子集 (称为专家参数) 。这种选择性激活可减少计算开销,从而缩短推理时间并降低部署成本。

当与 NVIDIA Dynamo 的推理优化技术 (例如分解服务) 和 NVIDIA GB200 NVL72 的纵向扩展架构的大域相结合时,MoE 模型可以从复合效应中受益,从而将推理效率提升到新的水平。这种协同作用可以显著增加 AI 工厂的利润,使它们能够在不牺牲用户体验的情况下,为每个 GPU 提供更多的用户请求。

本博客借鉴了我们最近的研究成果,其中我们使用高保真数据中心级GPU性能模拟器评估了不同硬件配置中的数十万个设计点。我们分析了分解和宽模型并行对MoE吞吐量的影响。

通过分解服务提升 MoE 模型性能

自 Google 研究人员于 2018 年推出 BERT 模型以来,模型权重增长了 1000 多倍,而生成式推理的吞吐量和交互预期仅有增加。因此,现在的常见做法是使用 Tensor Parallelism (TP) 、Pipeline Parallelism (PP) 和 Data Parallelism (DP) 等模型并行技术跨多个 GPU 对模型进行分片。

传统的 LLM 部署通常将推理的预填充和解码阶段托管在单个 GPU 或节点上。但是,与自回归解码阶段相比,令牌并行预填充阶段本身具有不同的资源需求。在典型的服务场景中,适用于各个阶段的服务水平协议 (SLA) 也各不相同,Time to First Token (TTFT) 要求适用于预填充和 Inter-Token Latency (ITL) 要求,这些要求可指导解码部署选择。因此,每个阶段都受益于不同的模型并行性选择。共置这些相位会导致资源利用效率低下,尤其是对于长输入序列而言。

Two high-level overview charts comparing traditional inference serving with disaggregated serving.
图 1。Disaggregated serving 在不同的 GPU 上分离预填充和解码,以优化性能。

分解服务将这些阶段跨不同的 GPU 或 GPU 节点分离,从而实现独立优化。这种分离允许应用各种模型并行策略,并分配不同数量的 GPU 设备来满足每个阶段的特定需求,从而提高整体效率。

MoE 模型将模型划分为专业专家。与为每个 token 激活整个模型不同,门控机制会动态选择这些专家中的一小部分来处理每个 token。每个传入的 token 都会传递给选定的专家,然后由他们通过多对多 GPU 通信执行计算并交换结果。

MoE 的独特架构允许引入模型并行的新维度,即 Expert Parallelism (EP) 。在 EP 中,模型专家分布在 GPUs 之间,从而实现更丰富的模型并行映射,并提高资源利用率。

将 EP 添加到现有模型并行技术(例如 TP、PP 和 DP)的组合中,显著扩展了在解服务中为 MoE 模型提供服务时的模型并行搜索空间,从而为预填充和解码提供更定制的并行策略。

在 MoE 模型中,解码阶段在广泛的 EP 设置下表现最佳,其中每个 GPU 仅托管少量专家。这种方法在 GPU 之间更均匀地分配计算,这有助于降低处理延迟。与此同时,每个 GPU 的专家数量减少,从而为 KV 缓存释放 GPU 显存,从而使每个 GPU 能够处理更多的每批请求,从而提高整体吞吐量。

使用高保真数据中心级 GPU 模拟器在数十万个潜在的模型并行配置中测试 DeepSeek R1 模型时,在中等延迟情况下 ( x 轴上的中点) ,可以实现 6 倍的吞吐量性能提升。

A chart showing throughput versus interactivity Pareto frontier for Deepseek-R1 comparing disaggregated and colocated serving.
图 2。为 DeepSeek R1 MoE 模型提供托管和分解服务的模拟结果。每个点对应不同的模型分区策略。蓝色和红色线条表示吞吐量在给定延迟要求下实现最大化的帕累托边界。所示的协同定位结果使用 chunked-prefill piggybacking —一种将预填充和解码请求交织在一起的批处理策略。图 5 (下图) 显示了使用最佳 inflight 批处理机制得出的托管结果。

NVIDIA Dynamo 为 MoE 模型提供解耦服务

NVIDIA Dynamo 是一个分布式推理服务框架,专为数据中心规模的模型部署而设计。它简化了分散式服务架构带来的复杂性并实现了自动化。其中包括管理预填充和解码 GPU 之间 KV 缓存的快速传输,将传入请求智能路由到适当的解码 GPU,这些 GPU 保存相关 KV 缓存以实现高效计算。当用户需求超过分配容量时,Dynamo 还可以使用 NVIDIA Dynamo Planner 和 Kubernetes 将整个分解设置扩展到数万个 GPU。

解设置的一个关键挑战是需要在预填充和解码 GPU 之间进行请求速率匹配。动态速率匹配可确保根据预填充和解码阶段的负载分配资源。它可以防止解码 GPU 在等待预填充 (即预填充主导场景) 的 KV 缓存时处于空闲状态,并避免预填充任务在解码主导的设置中卡在队列中。实现正确的速率平衡需要仔细考虑预填充队列中的请求数量、解码 GPU 中 KV 缓存内存块的利用率,以及 Service Level Agreements (SLA) ,例如 Time to First Token (TTFT) 和 Inter-Token Latency (ITL) 。

A line chart showing the optimal ratio for rate matching in disaggregated serving varies based on target latency.
图 3:模拟延迟 SLA 对速率匹配的影响,强调需要根据特定 SLA 要求调整速率匹配策略。

回顾图 2,每个蓝点不仅代表预填充和解码模型并行配置的独特组合,还代表仔细平衡预填充和解码 GPU 之间的速率匹配。虽然这种速率匹配可以针对固定 Input Sequence Length (ISL) 和 Output Sequence Length (OSL) 组合进行计算,但现实世界的部署面临更大的挑战。ISL 和 OSL 通常因请求而异,这使得一致性速率匹配变得更加复杂。

A diagram showing a high-level overview of the Dynamo planner. The planner dynamically adjusts the size of prefill and generation pool in disaggregated serving for optimal rate matching.
图 4:Dynamo Planner 将特定的预填充和解码指标与 SLA 相结合,在分解设置中上下扩展 GPU,从而确保优化 GPU 利用率。

为了解决这一问题,NVIDIA Dynamo 包含一个名为 Planner 的专用引擎,旨在实现此过程的自动化,并确保波动工作负载的预填充和解码之间的均衡速率匹配。它评估预填充队列时间、用于解码的 KV 缓存 GPU 显存利用率和应用程序 SLA,以确定 GPU 资源的最佳配置。然后,它会根据输入和输出序列请求不断变化的模式,智能地决定要扩展的 GPU 类型、方向和比例。

 Four charts showing throughput versus interactivity Pareto frontier for DeepSeek-R1 under different traffic patterns. Disaggregated serving helps the most under prefill-heavy traffics.
图 5。DeepSeek-R1 推理的 Pareto 性能,使用四种不同的流量模式进行模拟。Disaggregation 可帮助大多数 prefill-heavy 流量。

分解服务有利于各种 ISL/OSL 流量模式,尤其是长 ISL。在试图平衡解码速度的聚合部署中,这些系统会对繁重的工作负载进行预填充,而这些工作负载会受到严重影响。

如果工作负载在长 ISL 和短 ISL 以及 OSL 之间存在差异,Dynamo Planner 可以检测和应对这些差异,并决定是否使用解码 GPU 上的传统聚合部署来服务传入请求,还是使用跨预填充和解码 GPU 的解服务来服务这些请求。它可以适应不断变化的工作负载,同时保持 GPU 利用率和峰值系统性能。

A diagram with a high-level overview of Dynamo Planner. Dynamo Planner analyzes GPU capacity metrics to make the optimal decision on how to serve incoming requests or allocate GPU workers.
图 6。Dynamo Planner 会分析 GPU 容量指标,以便就如何处理传入请求或分配 GPU 工作者做出最佳决策。

在 MoE 模型中,每个输入 token 都会动态路由到一小部分选定的专家。在 DeepSeek R1 模型中,每个 token 会发送给完整的 256 位专家中的 8 位专家。这些选定的专家独立执行各自的推理计算,然后通过 all-to-all 通信模式彼此共享以及与共享的专家共享输出。这种交换可确保最终输出包含所有选定专家的处理结果。

为了在解服务架构中真正利用 MoE 模型的性能优势,必须设计具有广泛 EP 设置的解码阶段。具体来说,这意味着在 GPU 之间分配专家的方式是,每个 GPU 只处理少量专家。对于 DeepSeek R1 模型,通常每个 GPU 大约需要四名专家,这需要 64 个 GPU 才能在解码期间容纳全部 256 名路由专家。

A picture of an NVIDIA GB200 NVL72 rack—with four NVLink cartridges (spines).
图 7:NVIDIA GB200 NVL72 机架具有四个 NVLink 卡式 (刺) ,可容纳 5000 多根节能同轴铜缆,使每个 GPU 与其他 GPU 的通信速度比先进的 Ethernet 标准快 36 倍。

但是,选定专家之间的多对多交流模式带来了重大的网络挑战。由于参与解码的每位专家都必须与为同一 token 选择的其他七位专家交换数据,因此,所有 256 位专家 (以及托管他们的 64 个 GPU) 在同一低延迟、高带宽域中运行变得至关重要。如果选定的专家位于位于不同节点上的 GPU 上,则多对多通信会因较慢的节点间通信协议 (例如 InfiniBand) 而成为瓶颈。

要确保 64 个 GPU 之间的这种通信效率水平,需要一种新型纵向扩展加速计算基础设施,这种基础设施可以在一个统一的低延迟计算域中紧密互连所有参与的 GPU,以避免通信瓶颈并更大限度地提高吞吐量。

A diagram with a high-level overview of the NVIDIA GB200 NVL72 NVLink domain, which delivers an aggregate All-to-All bandwidth of 130 TBps.
图 8。NVIDIA GB200 NVL72 NVLink 域,可提供 130 TBps 的 All-to-All 总带宽。

在推出 NVIDIA GB200 NVL72 之前,在 HGX H200 基板上,单个 NVLink 域中可连接的 GPU 最大数量限制为 8 个,每个 GPU 的通信速度为 900 GB/s。GB200 NVL72 设计的引入极大地扩展了这些功能:NVLink 域现在可以支持多达 72 个 NVIDIA Blackwell GPU,每个 GPU 的通信速度为 1.8 TB/s,比 400 Gbps Ethernet 标准快 36 倍。NVLink 域大小和速度的这一飞跃使 GB200 NVL72 成为在分解设置中提供宽 EP 为 64 的 MoE 模型的理想选择。

Two charts showing throughput versus interactivity Pareto frontier comparing collocated and disaggregated serving with NVLink 8 and 72.
图 9:更大的 NVLink 域有助于分解服务性能。模拟结果表明,DeepSeek-R1 受益于更高的 EP 和中延迟批处理。

不仅仅是 MoE:NVIDIA GB200 NVL72 和 NVIDIA Dynamo 可加速密集模型

除了加速 MoE 模型外,GB200 NVL72 和 Dynamo 在为热门开源 Llama 70B 模型等传统密集模型提供服务时协同工作,还可实现巨大的性能提升。

A chart showing throughput versus interactivity Pareto frontier for Llama-3.1-70B. It compares disaggregated and colocated serving.
图 10。此图比较了为 Llama 70B 模型模拟的数百个模型并行配置的标准化吞吐量 (每个 GPU 每秒令牌数) 和延迟 (每个用户每秒令牌数) 。每个点都对应不同的模型分区策略,采用传统聚合设置 (红色) 或解聚合设置 (蓝色) 。

使用为 Llama 70B 模型提供服务的同一高保真 GPU 性能模拟器,结果表明,随着 TTL 约束条件的收紧 (在 x 轴上从左到右移动) ,tensor parallelism 必须从两个 GPU 扩展到 64 个 GPU。虽然在严格的 TTL SLA 下,协同定位和 disaggregated serving 都有利于实现高 tensor parallelism,但 disaggregated decoding 能够更积极地实现这一策略。

Dynamo 分解解码设置无需在需要大量计算的预填充性能与解码速度之间取得平衡,因此可以更好地适应日益严格的延迟需求。GB200 NVL72 的纵向扩展架构再次允许 TP 解码部署中的所有 GPU 以高达 260 TBps 的速度使用 all-reduce 进行通信。这将在高达 3 倍的相同中延迟机制下提高吞吐量性能。

总结

NVIDIA Dynamo 和 NVIDIA GB200 NVL72 的组合可产生强大的复合效果,为正在部署 MoE 模型 (例如 DeepSeek R1 和新发布的 Llama 4 模型) 的 AI 工厂优化推理性能。NVIDIA Dynamo 通过处理预填充和解码自动缩放以及速率匹配等任务,简化并自动化了 MoE 模型的 NVIDIA 解服务的复杂挑战。

同时,NVIDIA GB200 NVL72 提供了一种独特的纵向扩展架构,能够在解 MoE 部署中加速广泛的专家并行解码设置的多对多通信要求。它们共同助力 AI 工厂更大限度地提高 GPU 利用率,满足更多的每笔投资请求,并推动利润持续增长。

如需深入了解使用分解服务在大规模 GPU 集群上部署 DeepSeek R1 和 Llama 模型的技术细节,请参阅此处提供的技术白皮书。

 

标签