数据中心/云端

NVFP4 实现 16 位训练精度,4 位训练速度和效率

近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。随着企业不断扩大计算基础设施规模,以训练和部署拥有数十亿参数的基础模型,维持更高的token吞吐量已成为一项关键任务。未来的进步不仅取决于效率的提升,更取决于AI工厂能够处理的token数量——这正是解锁下一代模型能力的关键所在。

AI优化的数据格式已成为该领域的关键创新。NVIDIA推出的NVFP4是一种专为实现卓越推理延迟、吞吐量和能效而设计的4位格式,可在保持生产级精度的同时显著提升性能,窄精度计算正由此深刻改变着推理领域。

如今,NVIDIA 将这一创新延伸至预训练阶段,标志着大语言模型(LLM)开发迈出了重要一步。采用 NVFP4 进行预训练,不仅显著提升了大规模 LLM 训练的效率,也大幅优化了整体基础设施的利用率。这并非一次简单的渐进式改进,而是一次对大规模模型训练方式的根本性变革。

AI 工厂时代,计算是推动进步的核心引擎,精度也不再仅仅是后端的技术细节,而成为关键的战略优势。NVFP4 4 位预训练技术重新定义了效率与可扩展性的边界,为高性能 AI 模型的开发树立了全新标准。

NVFP4 训练目前仍处于研究阶段,旨在探索并验证 4 位精度在大型模型预训练中的潜力。NVIDIA 正与亚马逊云科技、Cohere、谷歌云、Kimi AI、微软 AI、OpenAI、Perplexity、Reflection 和 Runway 等领先机构积极开展合作,共同推进 NVFP4 的相关研究。

什么是 4 位量化?

4 位量化是指将模型的权重和激活值从典型的 16 位或 32 位浮点精度降低至 4 位,从而大幅减少计算精度。

使用4位进行预训练具有挑战性,因为在提升整体训练速度的同时,必须谨慎处理梯度和参数更新,以保持模型的准确性。此外,将高精度张量映射到更小的量化值集合时,还需采用专门的技术和方法,以确保模型的有效性。

更少的位数如何为 AI 工厂解锁更多功能?

近年来,AI工作负载呈指数级增长,不仅体现在大型语言模型(LLM)的部署上,也反映在基础模型的预训练与后训练规模不断扩大。随着企业持续扩展计算基础设施以应对数十亿参数模型的训练和部署需求,AI工厂能够支持的 token 吞吐量正逐渐成为衡量其能力进步的关键指标,决定着新功能的实现与突破。

推理技术已历经多轮创新,从 FP32、FP16 发展到 FP8,再到近期 NVIDIA 发布的用于 AI 推理的 NVFP4。尽管 后训练量化(PTQ) 等方法已证明,NVFP4 能在保持模型精度的同时显著提升推理吞吐量,但预训练阶段仍面临挑战,因为基础模型在训练过程中仍依赖 BF16 或 FP8 以确保稳定性和收敛性。

训练是AI工厂中消耗大量计算资源、电力和时间的核心环节。在电力预算固定且GPU算力稀缺的情况下,开发者必须精打细算,关注每一个比特、每一个token以及每一个epoch的使用。吞吐量不再是一个抽象的指标,而是直接决定了模型的规模上限、实验的迭代次数,以及技术突破的速度。

这正是4位精度发挥变革性作用的关键所在。通过降低内存需求、提升算术吞吐量并优化通信效率,4位精度预训练使AI工厂能够在相同硬件条件下处理更多token。借助恰当的量化方案,它不仅能实现与FP8/BF16相当的精度,还能显著提升吞吐量,从而加快模型收敛速度,增加每个计算单元可执行的实验次数,并推动模型规模扩展至前所未有的前沿水平。换句话说,减少位数不仅节省了成本,更拓展了AI工厂所能实现的成就边界。

用于预训练的 NVFP4 量化配方

为实现4位精度的预训练,我们开发了一套专门的NVFP4预训练方案,有效应对大规模训练中面临的动态范围、梯度波动和数值稳定性等核心挑战。

Blackwell 是 NVIDIA 首个原生支持 FP4 格式的架构。凭借 GB200 和 GB300 上强大的 FP4 计算吞吐能力,该架构能够加速低精度矩阵运算,同时保持大规模模型训练所需的精度、规模与并行性,从而实现高效的 4 位训练。这使其成为下一代 AI 工厂部署基于 FP4 的预训练任务的理想选择。

下图1展示了使用Blackwell Ultra测得的GEMM性能,结果显示,相较于Hopper架构,性能提升了7倍。现代大语言模型(LLM)的核心计算主要依赖于矩阵乘法,尤其是在全连接层或线性层中。因此,这类操作的执行效率至关重要。通过采用FP4精度实现更快速、更高效的矩阵运算,GEMM性能的提升意味着整个预训练过程——从前向传播到梯度更新——都能显著加速,从而大幅缩短训练时间,并推动大规模模型的快速开发。

Bar chart comparing measured GEMM performance across Hopper, GB200, and GB300, with GB300 showing a 7x speedup over Hopper. It highlights significant acceleration in matrix multiplication for LLM training.
图1显示,GEMM性能测试结果表明,GB300在FP4优化的矩阵乘法运算中速度比Hopper快7倍,可显著加速核心大语言模型(LLM)的训练操作。

为实现高效的窄精度训练,NVIDIA 的 NVFP4 预训练方案采用了多种关键技术,这些技术均基于性能与准确性的综合考量进行选择。

  • 通过 NVFP4 的微块扩展增强价值表示: Blackwell 架构引入了对 NVFP4 的原生 Tensor Core 支持。NVFP4 是一种用于权重和激活的 4 位数值格式,采用微块缩放技术,即每组 16 个 4 位元素共享一个统一的缩放因子。相比 MXFP4 中 32 个元素的块大小,NVFP4 将块大小减半至 16 个元素,从而有效降低异常值的影响,实现更精细的缩放。这种更细粒度的控制有助于减少量化误差,提升模型的整体精度。
  • NVFP4 采用高精度块编码,并引入 E4M3 格式的比例因子:比例因子的精度在量化质量和准确性方面起着关键作用。与仅支持 2 的幂次作为缩放因子(E8M0)、且易产生较大舍入误差的 MXFP4 不同,NVFP4 使用具有额外尾数位的 E4M3 高精度比例因子,能够实现更精细的缩放,更充分地利用有限的量化区间,并更准确地表示块内的数值。
  • 在大语言模型(LLM)预训练过程中,梯度和激活值常出现较大的离群值,这可能对低精度量化造成不利影响。 通过在GEMM操作的输入上应用哈达玛变换,可以重塑其分布,使其更接近高斯分布,从而有效缓解异常值的影响,提升张量在低精度表示下的准确性。这类变换对模型架构完全透明,可无缝集成到线性层的前向传播和反向传播过程中。
  • 为确保训练的稳定性与高效性:我们采用量化技术以保持前向与反向传播过程的一致性。 通过应用选择性2D块级量化等方法,能够在整个训练过程中维持张量表示的稳定性。这种一致性对于最大限度减少信号失真、改善收敛行为并提升模型整体鲁棒性至关重要,尤其是在使用NVFP4等低精度格式时。
  • 通过随机舍入减少偏差:与传统的确定性舍入不同,随机舍入会根据数值在两个可表示值之间距离的比例,以相应的概率随机地将梯度向上或向下舍入。这一机制对于减轻舍入偏差、在训练过程中保持梯度的流动性,以及最终提升模型的准确性至关重要。
This image illustrates five key methods for efficient low-precision training in NVIDIA’s NVFP4 pretraining techniques. It is titled “NVFP4 Pretraining Techniques: 5 Key Methods for Efficient Low-Precision Training.” The highlights the following: 
Micro-Block Scaling, which describes how NVFP4 uses 16-element micro-blocks (improving over MXFP4's 32), sharing scaling factors to minimize outlier influence and quantization error, ultimately improving model accuracy.
High-Precision Block Encoding, which explains that NVFP4 uses E4M3 scale factors rather than power-of-two scaling. This enables more mantissa bits, finer-grain scaling, and a more accurate representation of values within each block.
Reshaping Tensor Distributions, where random Hadamard transforms are applied to gradients and activations, reshaping distributions to be more Gaussian-like. This smooths outliers and improves quantization accuracy.
Quantization Fidelity, detailing the use of 2D block-based quantization to keep consistency between forward and backward passes, thus reducing signal distortion and improving convergence.
Stochastic Rounding, describing the replacement of deterministic rounding with probabilistic rounding based on value proximity, which reduces rounding bias, maintains gradient flow, and improves model accuracy.
At the bottom, the image includes the tagline: “Optimizing Large Language Model Training with Advanced Quantization Techniques
图 2。NVIDIA 的 NVFP4 预训练技术,用于高效的低精度训练

NVFP4 实现 4 位预训练:万亿级 Token 的准确性和稳定性

为确保窄精度格式在大规模预训练中切实可行,必须保障模型的准确性与收敛稳定性。为此,我们评估了4位精度在大型模型训练中的可行性,基于与 NVIDIA Nemotron Nano 2 相似的120亿参数Mamba-Transformer混合架构模型(12B Hybrid Mamba-Transformer),开展了针对FP8和NVFP4精度格式的实验。该模型采用分阶段数据混合方法,在包含10万亿token的海量数据集上进行训练,并在预训练的第二阶段和第三阶段分别切换至70%和90%的不同数据集组合。

12B Hybrid Mamba-Transformer 模型的初始版本是使用 8 位精度(FP8)进行训练的。先前的研究表明,FP8 的训练效果与 16 位精度非常接近,因此我们将其作为基准进行对比。在此基础上,我们成功地使用 NVFP4 精度从头开始完成了该 12B 模型的训练,验证了这一新型低精度格式能够支持万亿级 token 的完整预训练过程。NVFP4 在训练中表现出稳定的收敛性,未出现超低精度训练中常见的不稳定或发散问题。

下图3显示,NVFP4的验证损失曲线在整个训练过程中与更高精度基准(即FP8)的损失曲线非常接近。这表明,上述量化技术能够有效保持模型的训练动态,即使在显著降低位宽的情况下,4位预训练的动态特性仍与高精度训练结果高度相似。

A line graph showing validation loss during pretraining of a 12B Hybrid Mamba-Transformer model model trained over 10 trillion tokens. The x-axis represents training tokens (in trillions), and the y-axis shows validation loss. Two lines, one for FP8 (blue) and one for NVFP4 (green), track closely together from 0 to 10 trillion tokens. The chart is divided into three phases across the x-axis, labeled Phase 1, Phase 2, and Phase 3. Both lines show similar trends throughout training, indicating that NVFP4 validation loss remains closely aligned with the FP8 baseline.
图3展示了在10T token上对12B Hybrid Mamba-Transformer模型使用FP8和NVFP4精度进行预训练时的验证损失对比。结果表明,NVFP4的损失曲线在整个训练过程中与FP8(基线)的损失曲线高度一致。

然后,我们使用 NVFP4 对一个 12B 规模的混合 Mamba-Transformer 模型进行了预训练,并将其与更高精度的 FP8 基线进行对比,以评估其在多种下游任务及智能领域中的表现。如图 4 所示,NVFP4 在所有领域均达到了与 FP8 相当的性能,充分体现了其有效性。这一结果进一步验证了最初的假设:即使在万亿级 token 的大规模训练场景下,NVFP4 仍是预训练大语言模型的可靠选择,展现出其在高效训练前沿大规模模型方面的巨大潜力。

A bar chart comparing accuracy percentages across six intelligence domains (MMLU Pro, MMLU, code, math, Commonsense Understanding, Multilingual) for an internal 12B Hybrid Mamba-Transformer model model trained on 10 trillion tokens using FP8 precision (blue bars) and NVFP4 precision (green bars). For each domain, the FP8 and NVFP4 bars are nearly equal. The chart title reads "FP8 vs NVFP4: Benchmark Comparison Across Intelligence Domains." The data shows that NVFP4 closely matches FP8 accuracy across all domains.
图4展示了12B Hybrid Mamba-Transformer模型在FP8精度(基准)和NVFP4精度下进行预训练后,下游任务准确率的对比结果。结果显示,采用NVFP4精度进行预训练能够实现与更高精度格式相当的准确性。

训练更智能,而不仅仅是更努力

NVIDIA 的 NVFP4 格式正在重塑 AI 训练领域,为速度、效率以及有目标的创新树立了全新标杆。通过支持 4 位精度预训练,NVFP4 使 AI 工厂能够更快速、更可持续地扩展,为生成式 AI 的下一个发展阶段铺平道路。作为一项持续演进的前沿技术,NVFP4 不断为开发先进模型的团队创造新机遇,推动高性能与高能效 AI 的进步。4 位预训练在计算效率上实现了重大突破,不仅为更复杂的架构、更大规模的训练任务和更多 token 的处理开辟了可能,也为智能系统的未来发展注入了强劲动力。

 

标签