洪水对 15 亿人构成了重大威胁,使其成为重大自然灾害的最常见原因。洪水每年给全球带来高达 25 亿美元的经济损失。洪水预测是防灾和减轻风险的重要工具。我们早已开发出能够准确模拟河流流域的数值方法。借助这些技术,像咨询公司 BRLi 的工程师可以研究不同的降水情景,并为当地利益相关者提供宝贵的洪水风险评估、缓解策略和灾害救济计划。准确的预测可以挽救生命、保护基础设施并减少经济损失。
然而,这些方法使用基于物理性质的数值模拟,而且计算量非常大。这种方法通常需要数小时才能模拟洪水事件,即使在许多并行处理器上也是如此。它不适合实时预测正在进行的事件。长期以来,这种限制一直是针对特定事件提供快速、可行的洪水警报的瓶颈,并阻碍了实时预报系统的开发。
为解决这一问题,BRLi 和 图卢兹国家理工学院 (Toulouse INP) 的一个联合团队通过与 ANITI 研究院 的合作,设计了一种完全取代基于物理的求解器的端到端 AI 方法。该团队在水力学建模和 AI 方法方面拥有丰富的专业知识,为这项跨学科工作提供了支持。
BRLi 的水文专家为给定的水域提供了详细的物理模型,以生成洪水数据库。然后,Toulouse INP 团队使用这些模型来训练端到端 AI 系统,以模拟从 Earth-2 平台利用 NVIDIA PhysicsNeMo 的求解器。Earth-2 是一个数字孪生云平台,用于为天气和气候应用开发 AI 增强型预测和可视化流程。该团队使用了经过优化的训练流程和并行训练功能,以及 PhysicsNeMo 提供的内置深度学习模型。
生成的求解器在单个 GPU 上只需几秒钟即可成功模拟前方数小时的洪水,为实时预测开辟了道路。这是一种利用 AI 革新洪水预测的突破性方法,可显著缩短计算时间。
基于 AI 的洪水预报系统
联合团队重点关注法国南部的 Têt River 流域。经过大量的工程工作,该区域形成了详细的非结构化网格,其中包含许多重要的地形和工程特征,例如桥梁、栈桥和水 Retention Basins。使用开源 Telemac-Mascaret 代码的详细数值模拟使用各种水输入剖面图运行,以生成洪水事件数据库。
在训练方面,INP 团队将 NVIDIA PhysicsNeMo 用作 Earth-2 平台的一部分,该平台提供了一套工具,用于在气候和天气领域实现 AI 驱动的解决方案。该团队使用 PhysicsNeMo 中的一个内置模型架构,使用其自定义数据进行快速轻松的训练。要探索 AI 模型可以在天气和气候预报方面实现哪些功能,请在基于浏览器的体验中查看 FourCastNet 和 CorrDiff NVIDIA NIM 微服务。
INP 团队选择了一种在描述 大气动力 学方面表现出色的图神经网络 (GNN) 架构,并对其进行了调整以适应 Têt River 流域。这种方法使模型能够捕捉复杂的空间关系和时间动态,这对准确预测洪水至关重要。AI 模型经过训练,通过模仿详细的数值模拟中的数据来模拟导致洪水的复杂水文过程。
我们在 CALMIP Turpan 超级计算机上并行训练了多达 14 个 NVIDIA A100 Tensor Core GPU ,实现了近线性加速,扩展效率高达 91%。通过使用自回归方法,该模型可以以 30 分钟为增量预测未来几个小时内的洪水淹没地区和流速。
为了解决在不大幅增加消息传递层数量的情况下捕获远程依赖项的挑战,团队逐步创建了原始网格的更粗表示形式。这些粗网格使用 KD-Tree 连接到精细网格,形成了一个多网格。该策略扩展了模型的感受野,增强了其在保持计算效率的同时模拟大规模洪水动力学的能力。
在训练期间,模型优化由均方误差(MSE)损失函数指导,以确保预测准确。在测试方面,评估指标包括用于测量平均预测偏差的 L1 误差和在 5 厘米阈值下计算的关键成功指数(CSI)。CSI 通过比较预测和观察到的洪水淹没细胞与其并集的交集,量化了模型正确检测和分类洪水淹没地区的能力。
替代 GNN 模型
在单个 NVIDIA A100 80 GB GPU 上,最终模型可以在 19 毫秒内执行 6 小时预测。相比之下,使用基于物理性质的数值模型进行类似模拟需要 12 小时的 CPU 时间,在 28 个 CPU 上至少需要 25 分钟的求解时间。此外,该方法利用了液压工程团队开发的真正的复杂网格。这是实时洪水建模的真正突破,AI 通常需要简化的配置和网格。
这一成就还展示了 NVIDIA PhysicsNeMo 如何直接在工程网格上设置和训练尖端 AI 架构。只需提供模拟数据,即可将此示例复制用于解决多个行业中的许多问题。

结束语
基于这些令人兴奋的结果,该团队目前正在完善训练数据和评估指标,以确保模型生成的质量水平与基于物理的方法相匹配,在罕见事件中也是如此。经过充分验证后,我们将考虑将该模型集成到 BRLi 的工程工具链中。
作为第一步,它将用于生成包含数千次运行的大型系综,以在池研究中获得不确定性量化,从而显著改进仅依赖于少量模拟的先进技术。其次,与实际救灾服务机构合作至关重要,有助于找到最佳数据源,将其提取并输入实时预报系统,以及如何将数据发回这些数据源。
Earth-2 是一个开放平台,而 NVIDIA PhysicsNeMo 是一个开源项目,旨在支持不断发展的物理 AI 社区。要了解 NVIDIA PhysicsNeMo 如何为您的物理 AI 研究项目提供帮助,请探索 NVIDIA/physicsnemo Github 存储库。