数据中心/云端/边缘

针对 NVIDIA GPU 的低延迟交易和快速回测的深度神经网络基准

降低对新市场事件的响应时间是算法交易的一个驱动力。对延迟敏感的交易公司通过在其系统中部署诸如现场可编程门阵列( FPGA )和专用集成电路( ASIC )等低级别硬件设备来跟上金融电子市场不断增长的步伐。

然而,随着市场变得越来越高效,交易者需要依靠更强大的模型,如深度神经网络( DNN )来提高盈利能力。由于在低级别硬件设备上实现此类复杂模型需要大量投资,通用 GPU 为 FPGA 和 ASIC 提供了一种可行、经济高效的替代方案。

NVIDIA 在 STAC 审计的 STAC-ML 推理基准 中证明,1 NVIDIA A100 Tensor Core GPU 可以以低延迟一致地运行 LSTM 模型推断。这表明, GPU 可以替代或补充现代交易环境中通用性较差的低级硬件设备。

STAC-ML 推理基准结果

具有长短期记忆的深度神经网络( LSTM )是时间序列预测的成熟工具。它们也适用于现代金融。 STAC-ML 推理基准旨在测量 LSTM 模型推理的延迟。这被定义为从接收新输入信息到计算模型输出的时间。

基准测试定义了以下三种不同复杂度的 LSTM 模型: LSTM _ A 、 LSTM _ B 和 LSTM _ C 。每个模型都有一个独特的特征、时间步长、层和每层单位的组合。 LSTM _ B 大约比 LSTM _ A 大 6 倍, LSTM _ C 大约大两个数量级。

有两个独立的基准套房: Tacana 和 Sumaco 。 Tacana 用于在滑动窗口上执行的推断,在滑动窗口中,为每个推断操作添加新的时间步长,并删除最早的时间步长。在 Sumaco ,每个推断都是在一组全新的数据上进行的。

Tacana Suite 的低延迟优化结果

NVIDIA 在具有 FP32 精度( SUT ID NVDA221118b )的单个 NVIDIA A100 80 GB PCIe Tensor Core GPU 的 Supermicro 超级超级服务器 SYS-620U-TNR 上演示了以下延迟(第 99 百分位):

  • LSTM _ A:35.2 微秒2
  • LSTM _ B:68.5 微秒3
  • LSTM _ C:640 微秒4

上面的数字用于在一个模型实例上运行推理。也可以在单个 GPU 上部署独立模型实例的集合。对于 16 个独立模型实例,相应的延迟为:

  • LSTM _ A:54.1 微秒5
  • LSTM _ B:140 微秒6
  • LSTM _ C:748 微秒7

此外,延迟中没有大的异常值。最大潜伏期不超过所有 LSTM 的中值潜伏期的 2.3 倍,8即使当并发模型实例的数量增加到 32 时。具有这样的可预测性能对于金融业的低延迟环境至关重要,在这种环境中,极端的异常值可能会在市场快速移动期间导致重大损失。

NVIDIA 是第一家提交 Tacana 套件基准测试数据的供应商。与 Sumaco Suite 相比, Tacana 基准允许滑动窗口优化,这有助于利用时间序列数据的流式特性。 之前提交的 STAC ML 基准的 Sumaco 套件 声称延迟数字在相同数量级内。

Sumaco Suite 的高吞吐量优化结果

NVIDIA 还为 Sumaco Suite 提交了 FP16 精度( NVDA221118a )相同硬件上的吞吐量优化配置:

  • LSTM _ A:1.629 至 1.707 米9功耗为 949 瓦时每秒的推断
  • LSTM _ B :超过 190 K10927 瓦功耗时每秒的推断
  • LSTM _ C:12.8 千11722 瓦功耗下的每秒推断

这些数字证实了 NVIDIA GPU 在吞吐量和能效方面无与伦比,适用于后验和模拟等工作负载。

对自动化交易的影响

为什么在自动化交易中,光只能行进 300 米的时间跨度——微秒也很重要?成熟的电子市场以高速传播新信息。依赖 LSTM 等复杂神经网络的交易应用程序存在模型推断耗时过长的风险。

为了将我们的推断延迟置于高频交易环境中,我们分析了欧洲交易最活跃的金融合约之一的市场交易之间的时间间隔: EURO STOXX 50 指数期货( FESX )。12

高精度时间戳( HPT )数据集 包括与 2022 年 10 月新价格水平交易相对应的纳秒刻度数据。我们统计了两次连续交易之间的时间差小于 上面报告的延迟 的频率。推断引擎中排队的事件频率的估计结果如下:

  • LSTM _ A:0.14% 发生率
  • LSTM _ B:0.58% 出现
  • LSTM _ C:8.52% 出现

如图所示, NVIDIA GPU 使电子交易应用程序能够在服务于当今移动最快市场的大型 LSTM 模型上实时运行推断。像 LSTM _ B 这样复杂的模型的排队频率非常低,为 0.58% 。即使是最复杂的 LSTM _ C 模型,排队频率为 8.52% , NVIDIA 提交的推理延迟也低于 1 毫秒。

NVIDIA GPU 在电子交易方面的优势

NVIDIA GPU 提供了许多好处,有助于降低电子交易堆栈的总体拥有成本,详情如下。

培训和部署平台

无论您是否需要开发、回测或部署 AI 模型, NVIDIA GPU 都能提供世界级的性能,而无需迫使开发人员学习不同的编程语言和编程模型进行研究和交易。所有 NVIDIA GPU 都会说 CUDA ,因此无论您是在开发工作站还是数据中心使用各自的设备,都可以以相同的方式进行编程。

此外, NVIDIA Nsight 工具 由一组强大的开发人员资源组成,用于调试和配置应用程序,提高其性能。在许多情况下,甚至不需要学习 CUDA 。像 PyTorch 这样的现代机器学习框架揭示了 CUDA 的性能相关特性,如 CUDA Graph 和 CUDA 流,并提供了复杂的评测功能。

性能改进

NVIDIA 正在不断提高其核心库的性能,如用于加速基本线性代数子程序的 cuBLAS 、用于高性能矩阵乘法( GEMM )的 CUTLASS 或用于加速深度神经网络原语的 cuDNN 。所有这些库都有助于灵活的性能调整,甚至提供自动调整功能,以便为 GPU 和应用程序的给定组合选择最佳原语。因此,基于 NVIDIA GPU 的 AI 应用程序堆栈在其整个生命周期内变得更快(图 1 )。

Graph showing the speedup for various deep learning workloads executed with cuDNN 7.6.5 on DGX-1V versus cuDNN 8.1 on DGX-A100 ranges from 2.0x for SSD to 5.3x for TACOTRON2.
图 1 。使用 NVIDIA 加速各种深度学习工作负载 GPU

高计算密度

有效利用数据中心的空间至关重要。即使在服务器中安装一个 NVIDIA A100 Tensor Core GPU ,也可以实现以下空间效率数字:

  • LSTM _ A:6666621 至 694874 推断/秒/立方英尺13
  • LSTM _ B:777714 至 77801 推断/秒/立方英尺14
  • LSTM _ C :每秒每立方英尺 5212 次推断15

请注意,这些数字来自吞吐量优化配置报告( SUT ID NVDA221118a ),而不是延迟优化。 Supermicro 服务器通过 NVIDIA 认证 最多可用于四个 NVIDIA A100 GPU ,这将相应地增加计算密度。

大型生态系统和开发者社区

NVIDIA GPU 支持许多深度学习框架,如 PyTorch 、 TensorFlow 或 mxNet ,这些框架被世界各地的数据科学家和定量研究人员使用。为了减轻依赖关系管理的痛苦,所有框架都以包含最新版本库的容器映像的形式提供。这降低了设置开发环境的负担,并确保了结果的再现性。这些容器图像可以通过 NVIDIA NGC 轻松获得,它提供完全管理的云服务以及 GPU 优化的 AI 软件和预训练模型的目录(图 2 )。

Graphic showing the NGC software stack that consists of the NVIDIA driver, the container runtime, the containerized deep learning frameworks and applications, and the pretrained models.
图 2:NGC 软件堆栈

总结

STAC-ML 推理基准测试中获得的结果证明了 GPU 在低延迟环境中的附加值,无论是独立的还是互补的。在同一平台上进行定量研究和交易开发,可以显著缩短生产时间。单个硬件目标减轻了为不同平台维护多个实现的负担。 NVIDIA 加速计算平台的一个独特优势是这种范式的转变,即在研究和交易之间整合开发堆栈。

工具书类

  1. “ STAC ”和所有 STAC 名称均为 Securities Technology Analysis Center , LLC 的商标或注册商标
  2. STAC-ML.Markets.Inf.T.LSTM_A.1.LAT.v1
  3. STAC-ML.Markets.Inf.T.LSTM_B.1.LAT.v1
  4. STAC-ML.Markets.Inf.T.LSTM_C.1.LAT.v1
  5. STAC-ML.Markets.Inf.T.LSTM_A.16.LAT.v1
  6. STAC-ML.Markets.Inf.T.LSTM_B.16.LAT.v1
  7. STAC-ML.Markets.Inf.T.LSTM_C.16.LAT.v1
  8. STAC-ML.Markets.Inf.T.LSTM_A.2.LAT.v1
  9. STAC-ML.Markets.Inf.S.LSTM_A.[1,2,4].TPUT.v1
  10. STAC-ML.Markets.Inf.S.LSTM_B.[1,2,4].TPUT.v1
  11. STAC-ML.Markets.Inf.S.LSTM_C.[1,2,4].TPUT.v1
  12. 数据由 Deutsche B ö rse 提供
  13. STAC-ML.Markets.Inf.S.LSTM_A.[1,2,4].SPACE_EFF.v1
  14. STAC-ML.Markets.Inf.S.LSTM_B.[1,2,4].SPACE_EFF.v1
  15. STAC-ML.Markets.Inf.S.LSTM_C.[1,2,4].SPACE_EFF.v1

 

Tags