电网的设计目的是支持相对稳定的负载,例如照明、家用电器和以恒定功率运行的工业机器。但如今的数据中心,尤其是运行 AI 工作负载的数据中心,改变了这一局面。
数据中心消耗了发电厂和变压器容量的很大一部分。传统上,中心的多样化活动可以平均消耗。然而,训练大型 AI 模型会导致所需功率突然波动,并给电网运营商带来独特的挑战:
- 如果电力需求突然增加,发电资源的响应时间可能需要 1 分钟到 90 分钟,因为其爬升速度受到物理限制。
- 重复的瞬态电源可能会导致共振和设备压力。
- 如果数据中心突然降低了能耗,那么能源生产系统就会发现自己有剩余能源,但没有出口。
其他电网客户会感受到这些突然的变化,例如供电电压的尖峰或下陷。
在这篇博客中,我们将详细介绍 NVIDIA 如何通过 GB300 NVL72 中的全新储能电源 (PSU) 来应对这一挑战。它可以平滑 AI 工作负载的功率峰值,并将峰值电网需求降低高达 30%。它还将适用于 GB200 NVL72 系统。
我们将介绍用于训练工作负载的各种解决方案,包括用于全负载运行和训练运行结束时的解决方案。然后,我们将分享使用此全新功耗平滑解决方案所测得的结果。
同步工作负载的影响
在 AI 训练中,数千个 GPU 会同步运行,对不同的数据执行相同的计算。这种同步会导致电网层面的功率波动。与传统数据中心工作负载不同,传统数据中心工作负载中的不相关任务会“平滑”负载,而 AI 工作负载会导致空闲状态和高功耗状态之间出现突然转换,如图 1 所示。

将单个 GPU 视作热图上的行,可以说明为什么 AI 数据中心会给配电网带来独特的电力挑战。(见下图 2。传统数据中心工作负载在计算基础设施上异步运行。AI 训练工作负载热图突出显示了 GPU 如何同步运行,从而使 GPU 集群的总功耗反映并放大单个节点的功耗模式。

GB300 NVL72 中的电源平滑功能
为了应对这些挑战,NVIDIA 在 GB300 平台中引入了一个全面的功耗平滑解决方案。它由不同操作阶段的几个机制组成。图 3(下图)显示了功率上限、储能和 GPU 燃烧机制,这些机制共同平滑了机架的功率需求。我们将从左到右探索图像中的每个机制。
我们再次以灰线表示 AI 训练 GPU 的功耗示例。然后,我们添加了一条绿线来显示所需的功率曲线,即平滑的上升、平稳的稳定状态和平滑的下降。
借助新的功耗上限功能,工作负载开始时,GPU 功耗由电源控制器进行上限限制。新的最大功率水平被发送到 GPU 并逐步增加,与电网可以承受的斜率相一致。降速策略更为复杂;如果工作负载突然结束,GPU 燃烧系统会继续通过在特殊功率燃烧器模式下运行 GPU 来耗散功率。这可确保平滑过渡,而不是急剧下降(图 3 和图 5)。

对于稳态运行期间的快速、短期功率波动,GB300 NVL72 电源机架中集成了储能元件(特别是电解电容器)。在 GPU 功耗较低时,储能系统充电,在 GPU 功耗较高时放电(图 4)。

降速解决方案是功率燃烧硬件和软件算法,当运行平均功率下降时,该算法会检测 GPU 功率已降至空闲水平。实现电源平滑算法的软件驱动程序会启动硬件电源燃烧器。在等待工作负载恢复时,显卡会保持恒定功耗;如果工作负载没有恢复,显卡会平滑降低功耗。如果 GPU 工作负载恢复,则燃烧器会立即脱离。当工作负载结束时,燃烧器会以与电网能力相一致的速度逐渐降低功耗,然后断开。
可配置参数可用于微调行为。下表显示了向用户公开的关键参数,而上图提供了对表第一列中列出的关键参数的视觉指导。这些设置可以通过 NVIDIA SMI 工具或 Redfish 协议进行设置。

图 5。该图反映了下表中的关键配置参数如何影响功耗。

可衡量的优势和结果
使用上一代(GB200)和新一代(GB300)储能电源的实证结果表明,性能有了显著提升。为了展示这一点,我们在 GB200 机架中的一个电源架上安装了仪器,如图 6 所示:

使用旧电源时,从电网中获取的交流电类似于机架功耗的波动。借助新的储能增强型电源机架,这些输入功率变化在很大程度上被消除。值得注意的是,在训练 Megatron LLM 时,电网的峰值功率需求降低了 30%,快速波动也大大减弱,如图 7 所示。

在 GB300 电源的内部,我们发现大约一半的体积被用于储能的电容器所占据。NVIDIA 与电源供应商 Liteon Technology 合作,优化了电源电子设备的尺寸,并在剩余空间中填充了 65 焦耳/GPU 的储能。再加上新的充电管理控制器,我们提供机架级快速瞬态功率平滑解决方案

系统设计的影响
集成储能不仅可以平滑瞬态,还可以降低整个数据中心的峰值需求。以前,设施需要为最大瞬时功耗进行预配置。现在,通过有效的储能,供电可以更接近目标平均消耗,从而在相同的功率预算内增加机架数量或减少总功率分配。
该设计可确保机架内的波动得到容忍;计算节点和内部直流总线是为适应快速电源状态变化而构建的。储能机制仅用于优化电网的负载曲线,不会向公用事业公司提供能源。
GB200 和 GB300 NVL72 系统在每个机架中都采用多个电源架。因此,集成储能和负载平滑的策略必须考虑机架和数据机房级别的聚合。峰值功率降低可提高机架密度或降低整个数据中心的配置要求。
总结
GB300 NVL72 电源机架在储能和先进的斜率率管理算法方面的创新,显著降低了电网的峰值和瞬态负载。GB300 NVL72 将配备先进的带储能的 PSU,以及实现功率上限和功率燃烧元素的硬件和软件。
所有数据中心运营商都应考虑集成先进的功率平滑和储能技术,以优化峰值功耗,提高计算密度并节省运营成本。
参与本研究的贡献者包括 Jared Huntington、Gabriele Gorla、Apoorv Gupta、Mostafa Mosa、Chad Plummer、Nilesh Dattani、Tom Li、Pratik Patel、Kevin Wei、Ajay Kamalvanshi 和 Divya Ramakrishnan。