AI 平台/部署

新的 GB300 NVL72 功能如何为 AI 提供稳定的动力

电网的设计目的是支持相对稳定的负载,例如照明、家用电器和以恒定功率运行的工业机器。但如今的数据中心,尤其是运行 AI 工作负载的数据中心,改变了这一局面。

数据中心消耗了发电厂和变压器容量的很大一部分。传统上,中心的多样化活动可以平均消耗。然而,训练大型 AI 模型会导致所需功率突然波动,并给电网运营商带来独特的挑战:

  • 如果电力需求突然增加,发电资源的响应时间可能需要 1 分钟到 90 分钟,因为其爬升速度受到物理限制。
  • 重复的瞬态电源可能会导致共振和设备压力。
  • 如果数据中心突然降低了能耗,那么能源生产系统就会发现自己有剩余能源,但没有出口。

其他电网客户会感受到这些突然的变化,例如供电电压的尖峰或下陷。

在这篇博客中,我们将详细介绍 NVIDIA 如何通过 GB300 NVL72 中的全新储能电源 (PSU) 来应对这一挑战。它可以平滑 AI 工作负载的功率峰值,并将峰值电网需求降低高达 30%。它还将适用于 GB200 NVL72 系统。

我们将介绍用于训练工作负载的各种解决方案,包括用于全负载运行和训练运行结束时的解决方案。然后,我们将分享使用此全新功耗平滑解决方案所测得的结果。

同步工作负载的影响

在 AI 训练中,数千个 GPU 会同步运行,对不同的数据执行相同的计算。这种同步会导致电网层面的功率波动。与传统数据中心工作负载不同,传统数据中心工作负载中的不相关任务会“平滑”负载,而 AI 工作负载会导致空闲状态和高功耗状态之间出现突然转换,如图 1 所示。

A chart showing how thousands of GPUs processing an AI workload consume power simultaneously and synchronously shift between high and lower power states. Time is depicted on the x-axis and power on the y-axis. The line chart shows the power profile wave form, with a fast ramp-up in power at the workload start, followed by many successive sharp up-and-down power cycles until there is a fast ramp-down at workload end.
图 1。数千个 GPU 同时处理 AI 工作负载,并在高功率和低功率状态之间同步切换。工作负载完成后,GPU 也会同时处于空闲状态。

将单个 GPU 视作热图上的行,可以说明为什么 AI 数据中心会给配电网带来独特的电力挑战。(见下图 2。传统数据中心工作负载在计算基础设施上异步运行。AI 训练工作负载热图突出显示了 GPU 如何同步运行,从而使 GPU 集群的总功耗反映并放大单个节点的功耗模式。

Two charts showing a GPU power consumption heat map. Traditional data center workloads show a random heat map pattern of power consumption over time across a GPU cluster. AI training workloads show color bars as all GPUs enter the same power consumption state across the cluster, ramping up and down as a whole.
图 2。GPU 功耗热图

GB300 NVL72 中的电源平滑功能

为了应对这些挑战,NVIDIA 在 GB300 平台中引入了一个全面的功耗平滑解决方案。它由不同操作阶段的几个机制组成。图 3(下图)显示了功率上限、储能和 GPU 燃烧机制,这些机制共同平滑了机架的功率需求。我们将从左到右探索图像中的每个机制。

我们再次以灰线表示 AI 训练 GPU 的功耗示例。然后,我们添加了一条绿线来显示所需的功率曲线,即平滑的上升、平稳的稳定状态和平滑的下降。

借助新的功耗上限功能,工作负载开始时,GPU 功耗由电源控制器进行上限限制。新的最大功率水平被发送到 GPU 并逐步增加,与电网可以承受的斜率相一致。降速策略更为复杂;如果工作负载突然结束,GPU 燃烧系统会继续通过在特殊功率燃烧器模式下运行 GPU 来耗散功率。这可确保平滑过渡,而不是急剧下降(图 3 和图 5)。

A chart showing time on the x-axis and power on the y-axis. The line chart shows the same power profile as Figure 1. Added are ramp-up and ramp-down periods highlighted in blue. The solution in ramp-up is a power cap driver that quickly but smoothly allows power draw to rise.
图 3。功率平滑解决方案

对于稳态运行期间的快速、短期功率波动,GB300 NVL72 电源机架中集成了储能元件(特别是电解电容器)。在 GPU 功耗较低时,储能系统充电,在 GPU 功耗较高时放电(图 4)。

A chart showing how the new GB300 NVL72 power smoothing feature works. The chart shows the same power profile as Figure 1, but in this chart, the trough between times of high power needs allow charging of the energy storage. And the peaks in power need are when stored energy gets discharged. The result is the flat power profile line in green, depicting smooth power consumption during the steady state in between workload start and end.
图 4。储能行为

降速解决方案是功率燃烧硬件和软件算法,当运行平均功率下降时,该算法会检测 GPU 功率已降至空闲水平。实现电源平滑算法的软件驱动程序会启动硬件电源燃烧器。在等待工作负载恢复时,显卡会保持恒定功耗;如果工作负载没有恢复,显卡会平滑降低功耗。如果 GPU 工作负载恢复,则燃烧器会立即脱离。当工作负载结束时,燃烧器会以与电网能力相一致的速度逐渐降低功耗,然后断开。

可配置参数可用于微调行为。下表显示了向用户公开的关键参数,而上图提供了对表第一列中列出的关键参数的视觉指导。这些设置可以通过 NVIDIA SMI 工具或 Redfish 协议进行设置。

The graphic shows time on the x-axis and power on the y-axis. The Parameter labels in the table below match the time periods from left to right: GPU-active floor power (characterized by a varying sinusoidal GPU power profile line), GPU-idle floor power (characterized by a GPU burn green time block), GPU idle time before ramp-down (characterized by a low power profile line and a quick GPU burn green time block), and ramp-down rate (characterized by a smooth downward sloe on the GPU burn time block).

图 5
。该图反映了下表中的关键配置参数如何影响功耗。
The parameter labels in the table match the time periods from left to right and are reflected in Figure 5 above: GPU-active floor power (characterized by a varying sinusoidal GPU power profile line), GPU-idle floor power (characterized by a GPU burn green time block), GPU idle time before ramp-down (characterized by a low power profile line and a quick GPU burn green time block), and ramp-down rate (characterized by a smooth downward slope on the GPU burn time block).
表 1。影响功耗的关键配置参数,如上图 5 所示。

可衡量的优势和结果

使用上一代(GB200)和新一代(GB300)储能电源的实证结果表明,性能有了显著提升。为了展示这一点,我们在 GB200 机架中的一个电源架上安装了仪器,如图 6 所示:

A diagram showing the measurement set-up for instrumenting the power shelf. AC input goes into the power shelf, while DC goes out the compute tray.
图 6。用于测量电源架的测量设置

使用旧电源时,从电网中获取的交流电类似于机架功耗的波动。借助新的储能增强型电源机架,这些输入功率变化在很大程度上被消除。值得注意的是,在训练 Megatron LLM 时,电网的峰值功率需求降低了 30%,快速波动也大大减弱,如图 7 所示。

Using the same rack and same workload, charts using a GB200 PSU without energy storage on the left and a GB300 PSU with energy storage on the right. The charts show AC power in and DC power out over time for each PSU configuration under test. AC in for the GB200 PSU shows dense power fluctuations similar to and reflecting the large number of power spikes displayed in the DC out chart. AC in for the GB300 PSU shows the smoothing of the power variations with a 30% lower average peak. The DC out chart shows the same pattern of power spikes associated with the same workload and rack for the GB300 PSU.
图 7。同一机架,相同的工作负载,分别展示了 NVIDIA 联合设计的 PSU 在有和没有储能时的性能。

在 GB300 电源的内部,我们发现大约一半的体积被用于储能的电容器所占据。NVIDIA 与电源供应商 Liteon Technology 合作,优化了电源电子设备的尺寸,并在剩余空间中填充了 65 焦耳/GPU 的储能。再加上新的充电管理控制器,我们提供机架级快速瞬态功率平滑解决方案

A photo from power supply vendor LITEON Technology showing the inside of a GB300 power supply unit, with the energy storage area highlighted in green.
图 8。来自电源供应商 Liteon Technology 的照片,显示了 GB300 电源单元的内部,其中储能区域以绿色突出显示。

系统设计的影响

集成储能不仅可以平滑瞬态,还可以降低整个数据中心的峰值需求。以前,设施需要为最大瞬时功耗进行预配置。现在,通过有效的储能,供电可以更接近目标平均消耗,从而在相同的功率预算内增加机架数量或减少总功率分配。

该设计可确保机架内的波动得到容忍;计算节点和内部直流总线是为适应快速电源状态变化而构建的。储能机制仅用于优化电网的负载曲线,不会向公用事业公司提供能源。

GB200 和 GB300 NVL72 系统在每个机架中都采用多个电源架。因此,集成储能和负载平滑的策略必须考虑机架和数据机房级别的聚合。峰值功率降低可提高机架密度或降低整个数据中心的配置要求。

总结

GB300 NVL72 电源机架在储能和先进的斜率率管理算法方面的创新,显著降低了电网的峰值和瞬态负载。GB300 NVL72 将配备先进的带储能的 PSU,以及实现功率上限和功率燃烧元素的硬件和软件。

所有数据中心运营商都应考虑集成先进的功率平滑和储能技术,以优化峰值功耗,提高计算密度并节省运营成本。

参与本研究的贡献者包括 Jared Huntington、Gabriele Gorla、Apoorv Gupta、Mostafa Mosa、Chad Plummer、Nilesh Dattani、Tom Li、Pratik Patel、Kevin Wei、Ajay Kamalvanshi 和 Divya Ramakrishnan。

 

 

标签