数据中心/云端

聚焦:东京大学使用 NVIDIA Grace Hopper 进行开创性的节能地震研究

超级计算机是推动突破性发现的引擎。从预测极端天气到推进疾病研究,以及设计更安全、更高效的基础设施,这些机器可以模拟因规模、成本和材料要求而无法在现实世界中进行测试的复杂系统。

自 1999 年推出 GPU 以来,NVIDIA 一直在不断突破加速 计算的极限 ,这种方法使用专业硬件,通过在并行处理中捆绑频繁出现的任务来大幅加速工作。这种效率使超级计算机能够处理前所未有的计算挑战,同时减少每项任务消耗的能源。

如今,由 NVIDIA 提供支持的系统在高效超级计算领域处于领先地位,在 Green500 榜单前 10 名中有 8 名入选,而 Green500 榜单是高效超级计算机的行业基准测试。德国于利希超级计算中心(Jülich Supercomputing Center)的 JEDI 系统由 NVIDIA Grace Hopper 提供动力支持,充分体现了这一进步,实现了 72.7 gigaflops 每瓦的惊人效率。

与东京大学一起推进地震安全性

NVIDIA 和东京大学最近的研究工作就是这种 提高能效的做法的典范 。日本位于世界上地震最活跃的地区之一,需要进行尖端研究来减轻地震的影响。

东京大学地震研究所 使用 NVIDIA Grace Hopper 超级芯片 加速地震模拟, 取得了突破性成果

NVIDIA GH200 Grace Hopper 超级芯片采用紧密合的 CPU-GPU 架构 ,模拟性能提高了 86 倍,能效比传统方法高 32 倍。高级内存优化可确保更快速、更复杂的计算,使研究人员能够以出色的精度对抗震基础设施进行建模。通过利用数据驱动的预测和异构计算系统,该大学正在帮助将地震研究转变为更高效的工作。

获奖研究:用于地震建模的异构计算

WACCPD 2024 大会上,东京大学展示了 NVIDIA 硬件与软件的协同作用如何为动态、大规模问题提供解决方案,展示了这些突破性成果。在地震建模中,Grace Hopper 的创新架构将用于密集型计算的高性能 GPU 与用于预测算法的 CPU 内存容量相结合,从而加速基于时间进化方程的模拟。

除了地震研究之外,这种方法还有可能重塑 高性能计算(HPC) 的能效。

这项突破性的工作开发了一种新的 CPU-GPU 异构计算方法,能够以有保证的准确性反复解决时间演进偏微分方程 (PDE) 问题。这种新方法通过利用 CPU 的大内存容量和 GPU 的高计算性能,实现了极短的解决方案时间 (TTS) 和低能耗的解决方案。当扩展到 Alps 超级计算机 时,该方法的速度比仅使用 CPU 快 51.6 倍,比 GPU 快 6.98 倍,同时在 1,920 个计算节点中实现了 94.3% 的惊人效率。

Bar chart comparison of NVIDIA GH200 system performance using both CPU and GPU with baseline method using only CPU or GPU.
图 1、新开发的 PDE 求解器的性能比较。在 NVIDIA GH200 Grace Hopper 超级芯片中同时使用 CPU 和 GPU 可实现出色性能

模拟涉及逐步推进时间,即通过求解方程组来计算每个时间点的解 (例如地震活动)。反过来,在每个时间步长中,都需要进行多次迭代,使解收到适当准确的结果。每次迭代的计算都非常密集,需要 GPU 的计算能力。

因此,有两个方面决定整体 TTS (以及相应的解能量):在每个时间步长下每次迭代的计算速度,以及每个时间步长下需要进行多少次迭代。正是这种组合使 Grace Hopper 架构真正表现出色:Hopper GPU 执行每次计算的速度极快,而 Grace CPU 的大内存容量则存储先前结果的历史记录以告知预测器,从而大幅减少迭代次数。

这种数据驱动的方法非常适合 NVIDIA GH200 Grace Hopper 超级芯片。所需的迭代次数取决于对解的初始“猜测”的准确性。这项工作的新颖之处在于,之前时间步长的数据可用于更大限度地提高每个初始解决方案的准确性,从而减少所需的迭代次数。此方法需要结合以下功能:

  • NVIDIA Grace CPU 的大内存容量可容纳所需的先前时间步长数据,
  • Hopper 在每次迭代中求解方程的计算能力
  • 快速互连允许 Grace CPU 的数据驱动结果优化 Hopper GPU 上的求解器迭代次数。
Diagram with Grace CPU on the left and Hopper GPU on the right, with arrows between predictors (left) and solvers (right) showing the ping-pong approach where the Grace CPU uses previous timestep results to predict the solution of the following step. Once completed the prediction is transferred via C2C to the GPU for the computational heavy lifting. This approach eliminates about ⅔ of the iteration time.
图 2、数据驱动方法通过使用 GH200 上的高带宽 CPU-GPU 连接将预测从 CPU 传输到 GPU 上的求解器,同时解决两个问题集
A comparison of the iteration time history of relative error of the numerical method. Two sets of lines are shown, one for the baseline method which requires about 150 iterations to get to machine zero where the data-driven predictor method requires about 50 iterations because it starts from a much lower solver error.
图 3、在 Grace CPU 上运行的数据驱动预测器可将迭代次数从大约 150 次减少到 50 次

图 1 显示了这些优势,与仅使用 CPU 相比,解决时间缩短了 86 倍,与仅使用 GPU 相比,缩短了 9 倍。相应的能耗分别为 32 倍 (与 CPU 相比) 和 7 倍 (仅与 GPU 相比)。

实现高能效超级计算

东京大学的地震研究取得的突破凸显了高效超级计算的变革力量。通过利用 NVIDIA Grace Hopper Superchip,研究人员不仅以前所未有的利润加速地震模拟,而且还大幅降低了能源消耗,这是 可持续计算 的关键一步。

这项合作展示了尖端技术如何应对紧迫的全球性挑战 (例如地震安全性),同时为性能和能效设定新的基准。随着这些创新继续在各行各业中推广,它们为高性能计算推动科学进步和承担环保责任的未来铺平道路。

NVIDIA GTC 2025 上,东京大学地震研究所副教授 Kohei Fujita 将在名为“Implement Accelerated PDE-Based Time-History Simulation by Data-Driven Methods on Strongly Coupled CPU-GPU systems”的会议中讨论这项突破性研究[S72925]。

 

标签