数据中心/云端

MetDesk 和 NVIDIA Earth-2 共同推动能源交易创新

尽管天气预报在过去几十年中不断改进,但气象测量和模型导致的不确定性意味着ensemble forecasts对天气预报仍然至关重要。ensemble forecasts通过在相同的预测范围内运行多个模拟来估计这种不确定性。然后比较不同的结果,更详细地描述未来。

在本文中,我们将介绍用于以经济高效的方式快速生成集成的工具。

NVIDIA Earth-2 是一个科学 AI 平台,可提供用于轻松访问和部署数据驱动的天气预报模型的工具。Earth-2 的价值主张包括加速生成集成天气预报的工具,这些工具可以生成大量可能的天气场景,提供对许多行业感兴趣的潜在天气结果的更详细表示。

MetDesk 是一家总部位于英国的领先专业气象服务公司,使用 NVIDIA Earth-2 平台运营 AI 预测集合,为能源交易市场提供加速天气数据。MetDesk 的运营工作流程标志着在 NVIDIA 技术支持下,在生成可操作天气数据方面实现了重大飞跃。

集成天气预报

使用传统数值方法进行集成预测需要大量计算,即使在一些大型 HPC 集群上也是如此。由 NVIDIA 软件和硬件堆栈加速的 AI 天气模型可以在数秒内处理类似的工作负载。这对于依赖快速适应不断变化的天气条件的应用程序(例如能源交易部门)尤其重要。

天气控制能源的生成和消耗,使快速准确的预测对于预测市场波动、优化交易决策和管理风险至关重要。MetDesk 使用 NVIDIA Earth-2 平台开发了用于 AI 驱动的集成预测操作工作流,为交易员提供实际价值。

如何创建 AI 集成预报系统

NVIDIA Earth2Studio 是用于在 Python 中创建 AI 天气建模工作流的软件包。在以下示例中,我们将向您展示如何使用 NVIDIA FourCastNet (FCN) AI 模型在 Earth2Studio 中进行集成预测。

该示例首先从 2023 年 9 月 13 日飓风 Lee 在美国东岸海域活动时下载分析结果(对大气状态的最佳估计)开始。分析结果会自动从 NOAA 的 Global Forecasting System (GFS) 的数据存储库中提取,并缓存到磁盘以供日后重复使用。

继续使用从球形高斯分布中采样的噪声对分析应用微扰,这会导致每个集成成员生成略有不同的预测结果。预测结果存储在 Zarr 格式存档中,以便进行分析和可视化。这些选择都是可定制的。

目前,Earth2Studio 提供了一系列模型、数据源、微扰方法和输出格式。Earth2Studio 将通过 NVIDIA AI Enterprise 提供更高级的功能和经过优化的流程,以实现规模化。

import numpy as np
from earth2studio.data import GFS 
from earth2studio.io import ZarrBackend 
from earth2studio.models.px import SFNO 
from earth2studio.perturbation import SphericalGaussian 
from earth2studio.run import ensemble 

# Load the SFNO model package, which downloads the checkpoint from NGC 
model = SFNO.load_model(SFNO.load_default_package()) 
 
# Use the spherical Gaussian perturbation method 
sg = SphericalGaussian(noise_amplitude=5e-5) 
 
# Use the GFS analysis as the data source 
data = GFS() 
 
# Use a Zarr archive to store the outputs 
chunks = {"ensemble": 1, "time": 1} 
io = ZarrBackend(file_name="output.zarr", chunks=chunks) 
 
nsteps = 10 # the number of 6-hour time steps 
nensemble = 8 # the number of ensemble members 
io = ensemble( 
	["2023-09-13T00:00"], # start the forecast on 13 September 2023, 00:00 UTC 
	nsteps, 
	nensemble, 
	model, 
	data, 
	io, 
	sg, 
	# Run 2 ensemble members simultaneously by batching 
	batch_size=2, 
	# Save 2 meter temperature and total column vertically-integrated water vapor 
	output_coords={"variable": np.array(["t2m", "tcwv"])}, 
) 

有关完整原始示例(包括结果可视化)的更多信息,请参阅Earth2Studio示例

图 1 显示了四个集成成员的部分输出数据。使用示例脚本生成的四个集成成员的可视化预测提前完成了 60 小时。

Four maps show different realizations around the time Hurricane Lee was active. There are small differences between the differently initialized realizations.
图 1.北大西洋上垂直整合的水汽总量

MetDesk 的运营工作流程

与前面展示的类似的 AI 集成预报工作流程已经在 MetDesk 等现实世界的商业应用程序中发挥作用。在 2023 年的整个过程中,MetDesk 清楚地看到,天气预报领域正在发生重大变化。来自全球一些大型公司的一系列新机器学习 (ML) 天气模型现在显示出确定性技能水平,可以与欧洲中期天气预报中心 (ECMWF) 基于物理的最佳数值天气预报 (NWP) 模型相媲美。

虽然确定性预测在短预测范围内很有用,但基于集合的系统显示出更多的技能,并在 5 – 7 天之后提供更好的指导。这就是 MetDesk 使用 NVIDIA Earth-2 平台工具创建机器学习集合输出以输入其交易天气产品系列的原因。

MetDesk 选择了一系列微扰方法并能够调整各种设置,因此能够基于操作 ECMWF 运行 (EC-OP) 的单个分析字段创建自己独特的 51 个初始条件。该微扰方法通过一年内的后预测 (为先前发生的天气生成预测) 进行了调整,以减少模型误差并改善集成传播。在后预测输出上计算了天气模型技能的常见测量,并与 EC-OP 和 ECMWF 集成预测 (EC-ENS) 及 GFS 预测模型进行了比较。

图 2 展示了 MetDesk 目前运行的 51 人 FCN 集成实现 (MD-FCNE) 在 500 hPa 地理电位高度下使用 Root Mean Square Error (RMSE)Anomaly Correlation Coefficient (ACC) 的性能。

这两项指标均表明,从第 7 天开始,MD-FCNE 的技能与 EC-OP 相比有所提高,并且始终与 GFS 集成保持相当的水平。

除了 RMSE 和 ACC 等传统指标外,还执行了天气系统分析,以了解 MD-FCNE 系统与 EC-ENS 相比,在可能的整体天气系统方面提供良好指导的频率。通过将集成成员预测的第一个和第二个最有可能的系统组合用作“良好指导”的表示,MD-FCNE 系统在前 10 天的表现仅比 EC-ENS 集成略差,在第 10 天和第 15 天之间可以比较(图 3)。

Line plot showing how often a predicted regime is first or second-ranked for MD-FCNE and EC-ENS. For short lead times, both lines are above 95%. Over the course of 360 hours, the lines slowly decrease to 50-60%.
图 3.MD-FCNE 系统上的综合机制分析

前面强调的技能是 MetDesk 的交易客户在考虑风险时将 MD-FCNE 纳入预测的原因之一。它本身就是一个熟练的预测系统,当与其他系统结合使用时,有助于为决策提供信息。

另一个原因是速度。使用 MetDesk 的内部 NVIDIA GPU 硬件,在全套 EC-OP 数据可用之前,即 EC-ENS 完整发布之前的几个小时,可以创建完整的 15 天 51 人集成预测。

数据的早期到达可用作天气预报变化的有用早期指标,当许多模型显示类似的输出时,MetDesk 客户对预测场景有更大的信任度。相反,当 MD-FCNE 等模型的输出与 ECMWF 和 NOAA 模型的输出不同时,预测信任度就会降低。

MetDesk 的核心能源交易产品包含四个主要天气参数,这些参数是其核心能源交易产品的重要组成部分:

  • 风力
  • 温度
  • 降水
  • 太阳辐射

在核心 FCN 输出中,风和温度随时可用。

同时,可以使用诊断模型估计非 PrecipitationAFNO 直接生成的变量,这些模型估计 PrecipitationAFNO 输出中的其他变量。Earth2Studio 提供了一个诊断模型和食谱目录,用于训练自定义诊断模型,MetDesk 可以使用降水 PrecipitationAFNO 获取降水。对于太阳辐射,MetDesk 利用创建自定义诊断的能力。他们使用 PrecipitationAFNO 输出的本地湿度水平创建云诊断,然后从那里生成辐射。

中期预测

使用 NVIDIA 技术的 MetDesk 运营工作流程,可以执行中期和次季节性天气预报。MD-FCNE 系统每天运行 4 次,预测期限为 15 天。

收到最新的 EC-OP 分析数据后,MetDesk 的 NVIDIA GPU 会立即启动 Earth-2 工作流程,以生成一组 50 个微扰初始条件。然后,这些微扰状态与原始的 EC-OP 分析一起用于初始化每个 FCN 的 15 天预测,从而用于创建诊断参数。

在收到 EC-OP 分析文件后的前 5 分钟内,MetDesk 可以生成 15 天确定性预测,包括诊断参数,然后将这些参数流式传输到相应的交易产品和 API 中。

在接下来的 40 分钟内,系统将生成集合预报的 50 个成员。这些成员经过后处理以创建统计数据,如集合平均值,并输入到天气预报地图、国家加权预测以及风力和太阳能发电模型等产品中。

Screenshot from MetDesk’s energy trading product showing trajectories of 2-meter air temperature over 14 days for different ensemble forecast systems. With an increasing forecast horizon, the spread between trajectories increases.
图 4.德国、EC-EN 和 MD-FCNE 的国家 地区加权温度预测

次季节性预测

除了每天 4 次的 15 天集成预测,MetDesk 还创建了每天 50 天集成预测(MD-FCN50),由 50 名集成成员组成,面向研究亚季节范围的客户。

图 5 显示 FCN 技能可与 EC46 系统的技能相媲美(经过偏差校正)。FCN 模型的一个优点是在运行更长的交付时间时具有稳定性。与传统的 NWP 相比,GPU 加速的 ML 预测系统的巨大速度优势使 MetDesk 能够比 ECMWF 的 46 天亚季系统提前近 12 小时向客户提供 MD-FCN50 预测。这意味着他们在欧洲主要白天交易期间提供数据,而不是在市场关闭后的当天晚上提供数据。

Line plot showing the proportion of times a predicted regime is correct for MD-FCN50 and EC46 across a forecast range of 10 to 46 days. The overall course of the lines is similar with values between 20% and 40%.
图 5.MD-FCN50 与 EC46 的机制预测技能比较
Map of Europe and a part of the North Atlantic showing data derived from MD-FCN50, colored according to the precipitation anomaly. South and Southeast Europe tend to have higher values, while Northwest Europe tends to have lower values.
图 6.与 1991-2020 年 ERA5 气候相比的总每周降水量异常情况

借助 NVIDIA NIM 加速和扩展集成推理

速度和资源效率的提升是推动采用AI模型进行天气预报的两个主要驱动因素。

NVIDIA NIM 是一套易于使用的微服务,专为在本地和云端安全、可靠地部署高性能 AI 模型推理而设计。NIM 提供企业级推理性能和可扩展性,同时让您能够完全控制将最新的 AI 模型集成到生产工作流程中。NIM 通过 NVIDIA AI Enterprise 提供,提供企业级支持、严格验证和定期的安全更新。

NVIDIA NIM 可加速集成式 AI 天气预报工作流程,同时让您完全掌控并拥有自定义功能。

Diagram of an ensemble workflow that starts with a data fetching and preprocessing step, continues with AI weather forecasting through NVIDIA NIM, and ends with data aggregation and dissemination to customers.
图 7.NVIDIA NIM 处理推理的类似集成工作流程示意图

图 7 展示了 MetDesk 的 AI 集成预测工作流,NIM 负责处理核心预测步骤。

  • 首先从 ECMWF 下载和预处理分析数据。
  • 然后,NIM 使用 SFNO 完成高效的ensemble预测,并通过预训练和自定义诊断模型计算其他变量。
  • 对输出数据进行后处理,并将其导入下游系统以生成见解。

通过将 Earth2Studio 和 NIM 与 NVIDIA GPU 结合使用,我们将 MetDesk 工作流程的运行时间从 45 分钟缩短到了 4 个 NVIDIA H100 GPU 上的 2 分钟。

NIM 可轻松扩展到更多 NVIDIA GPU。事实上,当并行提交给 50 个 NVIDIA H100 GPU 时,相同的工作负载可以在几秒钟内完成处理。

Barplot showing the runtime for the workflow described in the text with a simple pipeline (~5 minutes), NIM running on four NVIDIA H100 GPUs (2 minutes), and 50 NVIDIA H100 GPUs (0:21 minutes).
图 8.集成工作流程 (采用和不采用 NVIDIA NIM) 的运行时比较

NIM 以容器的形式为类似 Earth2Studio 的工作流程提供生产设置,该容器易于使用 Kubernetes 进行部署。推理通过标准化 API 触发,其中包含可配置的预测步骤数和所需的输出变量集。由于要处理的数据量可能相当可观,NIM 已优化 I/O 功能,可直接从磁盘读取和写入磁盘。

除了已通过 Earth2Studio 提供的模型外,NIM 还支持集成自定义诊断模型。使用 NVIDIA Triton 推理服务器,NIM 保留了 NVIDIA Triton 功能集的优势,包括动态批处理、高级调度、Prometheus 日志记录等多项功能。

能源交易业务的主要优势

在能源交易业务中,获取准确的天气预报至关重要,尤其是随着可再生能源生产的不断扩大。天气不仅直接影响风能、太阳能和水能的发电,而且还影响能源消耗。极端天气事件可能会进一步对能源基础设施和供应链产生破坏性影响。

现在,AI 天气预报模型现在可以与数值预测的准确性媲美,速度的大幅提升使交易员能够比先前认为的更早地对即将到来的天气情况作出反应。在分钟和秒可以发挥重大作用的情况下,任何生产推理设置都必须以峰值性能运行。

NVIDIA NIM 正是为此目的提供了可靠且简单的解决方案。它可以在几秒内生成 15 天的ensemble 预测。

MetDesk 是这项技术的早期采用者,为能源交易行业带来了巨大的价值。MetDesk 的基础设施团队可以依靠 NIM 提供的标准接口和部署工作流。MetDesk 的开发者没有从头开始构建推理系统,而是获得了时间,专注于根据客户需求定制工作流程。

如果您有兴趣在自己的专有工作流程中试用 Earth-2 集成 NIM 的抢先体验版本,请与 Earth-2 团队联系。

 

Tags