NVIDIA cuQuantum 是一个包含优化库和工具的 SDK，可将电路和设备级别的量子计算模拟加速几个数量级。借助 NVIDIA Tensor Core GPU，开发者可以将基于量子动力学、状态向量和张量网络方法的量子计算机模拟加速几个数量级。在许多情况下，这为研究人员提供了在其他情况下无法实现的规模和速度模拟。

cuQuantum 25.06 有哪些新功能？

25.06 更新所有 cuQuantum 库：cuDensityMat、cuStateVec 和 cuTensorNet。新功能包括量子动力学工作流的梯度、NVIDIA Grace Blackwell、NVIDIA GB200 NVL72 和 NVIDIA GB300 NVL72 系统的进一步优化，以及密度矩阵重新规范化组 (DMRG) 张量网络算法的基元。有关更多信息，请参阅 cuQuantum 25.06 版本说明。

为量子处理器设计工作流程解锁 AI

cuDensityMat 提供新的 API，有助于计算量子态演变的梯度。量子哈密顿动力学框架和求解器的开发者可以使用这些新的 API 针对可优化的哈密顿参数高效地反向传播量子动力学模拟，从而为合理的量子处理器单元 (QPU) 设计开辟了一条高效的途径。这一点至关重要，因为它使 QPU 构建者能够在校准、控制、门和量子位设计方面训练大型 AI 模型，从而缩短到有用的量子处理器的时间。

We show 16.86x speedups for back-propagation and 26.15x speedup for the forward pass of the gradients of a fluxonium qubit system on the same single B200 GPU comparing cuQuantum and another JAX-based quantum framework. — 图 1。对于由量子位和谐振器组成的常见 Fluxonium 量子位系统，NVIDIA B200 的前馈和反向传播加速

图 1 的所有模拟均在一个 NVIDIA DGX B200 GPU 上运行。请注意，观察到的加速源于对 Hamiltonian 结构的自动化利用以及对高效后端 CUDA 库的依赖。

设计基于 Fluxonium 量子位的 QPU 的研究人员需要计算通过 Fluxonium 量子位系统模拟计算出的某些目标成本函数的梯度，以优化其 QPU 布局和/ 或驱动脉冲。我们首先考虑了一个简化模型，一个具有 32 个电平的量子位和一个具有 255 个电平的谐振器，每个电平都有局部耗散器，并且谐振器上有一个驱动器。我们计算了运算符对输入量子态的操作所获得的输出量子态与某个虚拟目标的重叠梯度。该模型是实际 fluxonium 量子比特量子动力学优化场景的主要构建模块。

图 1 显示了通过在 NVIDIA B200 GPU 上执行的新 cuDensityMat API 观察到的前馈运算符操作及其反向传播的加速情况。观察到的速度比同样在同一 GPU 上执行的基于 GEMM 的 JAX 实现参考快 16-26 倍，这对于为依赖自动微分的量子位设计和优化工作负载部署 AI 模型的研究人员来说非常鼓舞人心。

NVIDIA Blackwell 内核优化

cuStateVec 进一步引入了自定义 GPU 内核，可在最新的 NVIDIA GPU 架构上优化更多运算，确保性能比 NVIDIA Hopper 系统提升约 2-3 倍。

This chart shows speedups of B200 over H100 for the same software and algorithm, Quantum Phase Estimation. For double precision, with a 32 qubit-sized problem, we get a 2.14x speedup, and for single precision with a 33 qubit-sized problem, we get a 2.99x speedup over the same problems on last generation’s NVIDIA H100 GPU. — 图 2。与 NVIDIA DGX B200 相比，在 NVIDIA DGX H100 的单个 GPU 上加速量子相位估计 (QPE) 的端到端模拟时间

通过这些改进，研究人员可以从先进的 NVIDIA 硬件中获得更好的性能，并为包括批处理、期望值计算和折叠运算符在内的运算提供更高的性能。这些持续更新使量子计算开发者能够使用先进的 AI 超级计算硬件。

使用 DMRG 基元加速和扩展量子模拟

随着 cuTensorNet 的最新版本发布，我们推出了首个矩阵产品状态 — — 密度矩阵重整组 (MPS-DMRG) 基元，使开发者和研究人员能够在量子计算模拟的背景下解决 DMRG 问题。通过提供用于迭代优化 MPS 近似于量子电路的保真度的基元，cuTensorNet 使量子计算机研究人员能够轻松将 GPU 加速用于 DMRG。这些基元还可用于通过 MPS 时间依赖性变分原理 (MPS-TDVP) 算法执行量子动力学模拟。

此基元是 cuQuantum 计划在未来版本中支持的许多新功能的基础。其中包括更快速、更大规模的 MPS 量子电路模拟和适用于更大规模 QPU 设计的近似量子动力学模拟。量子算法开发者将能够使用大规模模拟在当前和近期设备中设计算法。QPU 构建器将能够对更远距离的交互和更大的 Hilbert 空间进行建模，而无需使用精度较低的轨迹方法。两者都缩短了有用量子计算的时间轴。

cuQuantum 入门

通过 pip install cuquantum-cu12 下载 cuQuantum，开始试验这些功能，或者将它们集成到您的框架、模拟器或求解器中。有关其他入门方法，请查看文档页面。

请在 GitHub 上提出问题、请求或问题。详细了解 NVIDIA 量子计算。

NVIDIA cuQuantum 增加了动态梯度、DMRG 和模拟加速

cuQuantum 25.06 有哪些新功能？

为量子处理器设计工作流程解锁 AI

NVIDIA Blackwell 内核优化

使用 DMRG 基元加速和扩展量子模拟

cuQuantum 入门

标签

关于作者

NVIDIA cuQuantum 增加了动态梯度、DMRG 和模拟加速

cuQuantum 25.06 有哪些新功能？

为量子处理器设计工作流程解锁 AI

NVIDIA Blackwell 内核优化

使用 DMRG 基元加速和扩展量子模拟

cuQuantum 入门

标签

关于作者

相关文章

借助 NVIDIA cuQuantum 23.10 加速量子电路模拟

相关文章

使用 cuPQC 0.4 中的加速哈希函数和 Merkle Trees 提高数据完整性和安全性

借助 CUDA-QX 0.4 简化量子错误纠正和应用程序开发

NVIDIA CUDA-Q 0.12 扩展了用于开发硬件性能量子应用的工具集

借助 AI 超级计算和 NVIDIA CUDA-Q Academic 变革量子教育

聚焦：Infleqtion 利用 Q-CHOP 和 NVIDIA CUDA-Q Dynamics 进行投资组合优化