cuTENSOR 2.0：应用程序和性能

虽然第 1 部分专注于使用全新的 NVIDIA cuTENSOR 2.0 CUDA 数学库，但本文将介绍其他使用模式，特别是 Python 和 Julia 的使用。我们还将展示基于基准测试的 cuTENSOR 性能在多个应用领域中的表现。

本文探讨了 cuTENSOR 2.0 的应用程序和性能基准测试。有关更多信息，请参阅系列的第一篇文章：cuTENSOR 2.0：用于加速张量计算的全面指南.

PyTorch 和 TensorFlow

我们提供 Cutensor Python 软件包，其中包含用于 Einsum 样式的界面。该包利用 cuTENSOR，可以类似于 PyTorch 和 TensorFlow 的原生 einsum 实现。有关更多信息，请参阅 Installation 部分。

例如，cuTENSOR 可以作为 torch.einsum 使用，如下代码示例所示：

from cutensor.torch import EinsumGeneral
output =  EinsumGeneral('kc,nchw->nkhw', input_a, input_b) // similar to torch.einsum(...)

CuPy

CuPy 最近增加了对 cuTENSOR 2.0 的支持，这使得 Python 开发者能够轻松利用 cuTENSOR 提升性能。要将 cuTENSOR 作为 CuPy 的后端，请导出 CUPY_ACCELERATORS=cub, cutensor 环境变量并安装正确的 CuPy 版本。

使用 pip：

pip install cupy-cuda12x cutensor-cu12

使用 conda：

conda install -c conda-forge cupy "cutensor>=2" cuda-version=X.Y

启用 cuTENSOR 后，它会自动加速 CuPy einsum 函数：

import cupy as cp

# tensor contraction can be accelerated by cuTENSOR
a = cp.random.random((3, 4, 5))
b = cp.random.random((4, 5, 6))
c = cp.random.random((6, 7))
out = cp.einsum(“abc,bcd,de->ae”, a, b, c)

此外，CuPy 还可以直接访问 cuTENSOR 的低级 API，以便表示以下 einsum 函数：

import cupy as cp
import cupyx.cutensor as cutensor

alpha = 1.0
beta = 0.0
mode_a = ('a', 'b', 'c')
mode_b = ('b', 'c', 'd')
mode_c = ('d', 'e')
mode_ab = ('a', 'd')
mode_abc = ('a', 'e')
a = cp.random.random((3, 4, 5))
b = cp.random.random((4, 5, 6))
c = cp.random.random((6, 7))
ab = cp.empty((3, 6))
abc = cp.empty((3, 7))
cutensor.contraction(alpha, a, mode_a, b, mode_b, beta, ab, mode_ab)
cutensor.contraction(alpha, ab, mode_ab, c, mode_c, beta, abc, mode_abc)

Julia Lang

CUDA.jl (v5.2.0) 新增了对 cuTENSOR 2.0 的支持，使得 Julia 开发者能够轻松利用 cuTENSOR 的性能提升。要在 Julia 中使用 cuTENSOR，请安装 CUDA.jl 包。

安装 CUDA.jl 后，它会使用 CuTensor 对象自动使用 cuTENSOR 加速收缩。

using CUDA
using cuTENSOR

dimsA = (3, 4, 5)
dimsB = (4, 5, 6)
indsA = ['a', 'b', 'c']
indsB = ['b', 'c', 'd']
A = rand(Float32, (dimsA...,))
B = rand(Float32, (dimsB...,))
dA = CuArray(A)
dB = CuArray(B)
ctA = CuTensor(dA, indsA)
ctB = CuTensor(dB, indsB)

ctC = ctA * ctB      # cuTENSOR is used to perform the contraction

C, indsC = collect(ctC)

CUDA.jl 还提供了直接访问 cuTENSOR 的更低级别 API，因此上述收缩也可以表示为：

using CUDA
using cuTENSOR

dimsA = (3, 4, 5)
dimsB = (4, 5, 6)
dimsC = (3, 6)
indsA = ['a', 'b', 'c']
indsB = ['b', 'c', 'd']
indsC = ['a', 'd']
A = rand(Float32, (dimsA...,))
B = rand(Float32, (dimsB...,))
C = zeros(Float32, (dimsC...,))
dA = CuArray(A)
dB = CuArray(B)
dC = CuArray(C)

alpha = rand(Float32)
beta = rand(Float32)
opA = cuTENSOR.OP_IDENTITY
opB = cuTENSOR.OP_IDENTITY
opC = cuTENSOR.OP_IDENTITY
opOut = cuTENSOR.OP_IDENTITY
comp_type = cuTENSOR.COMPUTE_DESC_TF32
plan  = cuTENSOR.plan_contraction(dA, indsA, opA, 
                                                                 dB, indsB, opB, 
                                                                 dC, indsC, opC, opOut; 
                                                                 compute_type=comp_type)
dC = cuTENSOR.contract!(plan, alpha, dA, dB, beta, dC)
C = collect(dC)

性能

本节将详细了解 cuTENSOR 2.0 的性能，并将其与其他工具进行比较。

cuTENSOR 2.0.0 与 1.7.0 的对比

cuTENSOR 2.0.0 的性能比其 1.x 前身有显著提升，其中关键的改进包括以下内容：

核函数的改进
改进性能模型以选择最佳内核
引入即时编译支持

图 1 概述了 cuTENSOR 2.0.0 在 NVIDIA GA100 和 GH100 GPU 上对各种张量收缩的 cuTENSOR 1.7.0 的速度提升情况，其中不包括 JIT。

此图中显示的加速速度依赖于 CUTENSOR_ALGO_DEFAULT，它会调用 cuTENSOR 性能模型。值得注意的是，对于 NVIDIA Hopper 架构 (GH100)，性能提升尤为显著。

Average speedup of cuTENSOR 2.0.0 over cuTENSOR 1.7.0 across a wide range of tensor contractions. — *图 1.cuTENSOR 2.0 速度提升 1.7 倍。*
*左： NVIDIA A100 80GB PCIe；右： NVIDIA H100 80 GB PCIe。不同的数据类型采用不同的颜色编码。*

图 2 仅关注 JIT 编译带来的性能提升，即在 NVIDIA GH100 GPU 上比较不使用 JIT 的 cuTENSOR 2.0 与使用 JIT 的 cuTENSOR 2.。

图 2 将收缩分为两个独特的基准测试：

类似于 QC是一个基准测试，可以捕捉常见的量子电路模拟中的张量收缩结构，张量平均维度为 19.。
rand1000 是一个公共收缩基准测试，它包含随机收缩，平均张量维度为 4。

对于类似 QC 的基准测试，由于 JIT 的加速效果更大，这并不令人惊讶，因为这些缩减过程更复杂。它们通常会导致偏差缩减，因此需要专用核函数，这些核函数无法通过固定的预构建核函数有效地解决问题。

Diagram shows speedups due to just-in-time compilation for various data types, such as bf16, fp16, fp32, and complex(fp32)+tf32. — *图 2.借助 JIT 实现 cuTENSOR 2.0 加速*

量子电路模拟

本小节概述了 cuTENSOR 为基于张量网络的 53 位 Sycamore 量子电路提供的张量网络量子电路模拟性能提升。

我们基于两种不同的切割选择演示了张量网络收缩的性能，以限制最大中间张量的大小为 16 GB 或 32 GB。这种不同的收缩路径(张量合并顺序)。有关更多信息，请参阅经典模拟量子优势电路。

理想情况下，您希望尽可能少切割模式，以减少浮点运算 (FLOP)，但这也会增加所需的内存，从而使某些切割选项变得不可行。

具体来说，由于增加的内存需求，PyTorch 无法适用于更好的切割选项，从而产生 32 GB 中间张量。相比之下，cuTENSOR 不受同样的限制，因为它的直接收缩内核不需要任何辅助内存。

我们在所有框架中对张量模式进行了相同的订阅，以确保做出公平的比较。有关更多信息，请参阅中间张量模式顺序的重要性和在现代 GPU 上使用张量网络方法实现高效的量子电路模拟。

Speedup of cuTENSOR over pyTorch for different compute types (FP32 and TF32) as well as two different contraction paths leading to larger intermediate tensors (16GB and 32GB). — *图 3. NVIDIA H100 上的 3-qubit 20-cycle Sycamore QC 模拟 (图片由 NVIDIA 的 Henry Gu 提供)*

图 3 重点介绍了 cuTENSOR 2.0 与 PyTorch 2.1.0 在 Sycamore QC 模拟中的加速情况。总结如下：

cuTENSOR 2.0 的性能始终优于 PyTorch。
- cuTENSOR 2.0 的性能优于上一代产品 (类似于图 3)
- 即时编译可进一步提升性能 (类似于图 4)
与 FP32 相比，TF32 显著提升了性能。
与 PyTorch 相比，速度提升尤为明显，这是因为 PyTorch 消耗了过多的内存，因此无法使用更具计算效率的收缩路径。我们比较了 PyTorch 仍然能够计算的最佳路径：与 16 GB 中间张量相对应的路径。

量子化学多体理论

带有单电子、双电子和扰动三电子激发 (CCSD (T)) 的耦合簇是一种备受赞誉的量子化学方法，它在计算分子电子结构方面具有极高的准确性，尤其适用于电子相互作用至关重要的系统。在量子化学计算领域，它常被称为黄金标准，尤其适用于电子相互作用至关重要的系统。

CCSD (T) 方法通过一系列激发级别整合相关电子运动，从而增强了 Hartree-Fock 方法。在此方法中，单电子和双电子激发通过迭代方式计算，而三电子激发则通过非迭代方式应用偏差修正。

这种方法特别适用于准确预测基态能量、反应能量和屏障高度，尤其是在弱电子相互作用系统中。尽管它具有较高的计算需求，但 CCSD (T) 在准确性和计算成本之间取得了良好平衡，因此在计算化学领域备受欢迎。

图 4 重点展示了在 NVIDIA H100 GPU 上运行的 cuTENSOR 与在 72 核 NVIDIA Grace CPU 上基于 OpenMP 的实现相比，速度提升的情况。该基准测试使用了 NWChem TCE CCSD (T) 循环驱动核函数，这是 NWChem Tensor Contraction Engine (TCE) 模块中 CCSD (T) 三重核心的独立驱动程序。

Speedup of cuTENSOR on an NVIDIA H100 over an OpenMP-based implementation. — 图 4.在 NVIDIA H100 GPU 上使用 72 个线程在 72 核 NVIDIA Grace 系统上运行 (CCSD (T)) 模拟时，cuTENSOR 加速的 27 个最耗时的张量收缩 (图片由 NVIDIA 的 Jeff Hammond 提供)。

开始使用 cuTENSOR 2.0

如果您有关于 cuTENSOR 的功能请求，例如计算例程或不同的计算或数据类型，请联系我们 Math-Libs-Feedback@nvidia.com.

开始使用 cuTENSOR 2.0 详细了解 cuTENSOR 2.0。访问开发者论坛获取更多讨论和资源。

[1] Huang, Cupjin, et al. “Classical simulation of quantum supremacy circuits.” arXiv preprint arXiv:2005.06787 (2020).
[2] Springer, Charara, Hoehnerbach. SIAM CSE’23, “The Importance of Middle Tensor Mode Order.”
[3] Pan, Feng, et al. “Efficient Quantum Circuit Simulation by Tensor Network Methods on Modern GPU.” arXiv preprint arXiv:2310.03978 (2023).

cuTENSOR 2.0：应用程序和性能

PyTorch 和 TensorFlow

CuPy

Julia Lang

性能

cuTENSOR 2.0.0 与 1.7.0 的对比

量子电路模拟

量子化学多体理论

开始使用 cuTENSOR 2.0

Tags

关于作者

cuTENSOR 2.0：应用程序和性能

PyTorch 和 TensorFlow

CuPy

Julia Lang

性能

cuTENSOR 2.0.0 与 1.7.0 的对比

量子电路模拟

量子化学多体理论

开始使用 cuTENSOR 2.0

Tags

关于作者

Related posts

量子加速超级计算简介

cuTENSOR 2.0：用于加速张量计算的全面指南

在 NVIDIA AI 推理平台上使用 Stable Diffusion XL 生成令人惊叹的图像

在 NVIDIA AI 推理平台上使用 Stable Diffusion XL 生成令人惊叹的图像

聚焦：Honeywell 借助 NVIDIA cuDSS 加速工业流程仿真