模拟/建模/设计

NVIDIA CUDA-Q 助力量子应用研究

source-zh.html

NVIDIA CUDA-Q 平台旨在简化混合式加速量子超级计算机的软件和硬件开发。用户可以编写一次代码,在任何 QPU 或模拟器上进行测试,并加速工作流程的所有部分。这为实现科学突破腾出了时间,而无需等待结果。

CUDA-Q v0.10 具有更多功能和更高的性能,比以往任何时候都更加不可或缺和灵活。例如,用户现在可以在 Pasqal 的中立原子 QPU 上运行作业,总计四个不同量子比特模式的 八个 QPU 后端 。CUDA-Q v0.10 现在还支持先进的 NVIDIA Blackwell GPU

通过对 NVIDIA GB200 NVL72 的 CUDA-Q 支持实现性能和规模

凭借 v0.10 对 NVIDIA GB200 NVL72 及其第五代多节点 NVLink 功能的支持,CUDA-Q 性能现在可以比以往得到进一步提升。基于多个标准化 Quantum Economic Development Consortium (QED-C) 基准应用的性能数据证明了这一点。这是 NVIDIA 与 QED-C 之间更广泛合作的一部分,旨在改进用于评估量子计算机的行业指标。

QED-C 标准和性能指标技术咨询委员会创始主席 Tom Lubinski 表示:“采用透明和无偏差的指标对于量子基准测试工作至关重要,我们很高兴与 NVIDIA 合作,实现更好的行业标准化。” QED-C 基准测试 GitHub 存储库现在包括 CUDA-Q ,因此用户可以通过运行单个 Notebook 在一组准备好的标准应用程序上测试其模拟性能。

从 CUDA-Q 到 Blackwell,整个平台的强大功能通过 QED-C 基准测试得到证明,这些基准测试用于模拟 HamLib 数据集 中的哈密顿量。HamLib 包含针对从化学到优化问题等各种问题的哈密顿量。与 192 核 2 插槽 EPYC CPU 相比,在单个 NVIDIA GB200(每个芯片两个 Blackwell GPU)上对哈密顿模拟问题进行 33 量子位状态向量模拟的速度快 34 倍,比上一代 NVIDIA GH200 Grace Hopper 超级芯片 快 2 倍。这意味着,在 GB200 芯片上,只需几个小时即可运行一周的模拟,从而显著提高工作效率。

A graph of NVIDIA GB200 with NVLink and NVIDIA GH200 with InfiniBand speedups versus a 196-core CPU with increasing number of GPUs. With 32 GPUs, GB200 is 4x faster than GH200.
图 1。与 196 核 CPU 相比,NVIDIA GH200 和 NVIDIA GB200 上 33 量子位 QED-C Hamiltonian 模拟基准测试的 CUDA-Q 状态向量模拟性能

GB200 的最大优势在于 GPU 之间的多对多连接,使 NVIDIA GB200 NVL72 平台能够使用多达 72 个 GPU 加速和扩展 CUDA-Q 模拟。

基于运行多达 32 个 GPU 的基准测试,用户可以进一步将运行 33 量子位模拟的速度提高 10 倍,将等待时间从单个 Blackwell GPU 上的几个小时缩短到几分钟。第二种方案是汇集 32 个 GPU 的显存,以执行更有影响力的大规模模拟 (高达 38 量子位) 。在这种情况下,高带宽 NVLink 连接的优势也十分显著,因为 GB200 NVL72 系统的速度比之前 InfiniBand 连接的 GH200 芯片快 6 倍以上。

新宣布的 NVIDIA 加速量子研究中心 (NVAQC) 将连接 8 个 GB200 NVL72 系统,形成一台总计 576 个 GPU 的强大超级计算机,以帮助通过 CUDA-Q 推动量子计算的突破。

来自各行各业和学术界的量子研究人员和开发者正在意识到 CUDA-Q 的强大功能,并将其用于开发一些迄今为止非常先进的量子应用。本文将探讨 NVIDIA 合作伙伴如何使用 CUDA-Q 加速其化学模拟和图像处理等应用的工作。

借助 CUDA-Q 实现无缝的端到端工作流程

NVIDIA、IonQ、Amazon 和 AstraZeneca 利用 Amazon Braket 中的 CUDA-Q 构建了端到端加速量子化学工作流,目标是对由镍催化剂生成的 Suzuki–Miyaura Cross-Coupling 反应进行建模。AstraZeneca 对此很感兴趣,因为它是药物分子合成中的关键反应。

使用量子经典辅助场量子蒙特卡罗 (QC-AFQMC) 技术,可以通过结合量子硬件和 AI 超级计算机的优势来解决这一问题。CUDA-Q 支持此类研究的能力也为 AstraZeneca 研究有关化学反应性和量子计算的更广泛问题提供了重要的探索性跳板。

该工作流通过 Amazon Braket 和 AWS ParallelCluster 在 CUDA-Q(IonQ Forte 量子计算机)和 NVIDIA H200 Tensor Core GPUs 上运行。它分为量子部分和经典部分。首先,使用 32 量子位变分量子本征解器(VQE)准备近似的基态。这种状态的经典表征是通过名为 Matchgate Shadows 的 断层扫描技术 提取的。然后,对该输出进行经典的后处理,并在 AFQMC 程序中使用,以进一步优化基态能量(图 2)。

A plot demonstrating the AFQMC workflow for a 32-qubit system. VQE is run first and begins to converge. The AFQMC procedure then refines the ground state energy.
图 2。展示 VQE 收敛 (蓝色) ,然后使用 AFQMC 程序进行细化的示例图 (橙色)

加速经典部分大大提升了团队测试整个工作流程改进的速度。

这种工作流也有利于 为量子应用开发 AI ,例如 生成式量子本征求解器 (GQE) 和最近发表的工作,这些工作扩展了 GQE,以生成用于组合优化问题的电路。

CUDA-Q 是唯一同时提供社区硬件集成和此类混合算法研究所需性能的平台。随着 CUDA-Q 的持续扩展以及越来越多的软件和硬件集成,CUDA-Q 在加速新应用方面的应用越来越广泛。

通过多 GPU 加速实现扩展

CUDA-Q 正在突破混合应用开发的极限。基于 CUDA-Q 内核的编程模型可以轻松利用多个 GPU 来并行化和扩展实验。这将加快开发周期并带来更有影响力的结果,这也是行业和学术合作伙伴将工作负载转移到 CUDA-Q 的原因。

Aramco 正在使用 CUDA-Q 开发用于图像处理应用的 混合工作流 。其目标是能够识别三维图像中物体边界的量子工作流,这是包括大型地理空间图像分析在内的许多应用的重要工具。

传统的边缘检测会呈指数级扩展,因为每个像素必须单独处理。量子 Hadamard 边缘检测(QHED)等量子方法利用了一个事实,即 2^N 像素图像在量子计算机上仅需 n+1 量子位即可高效编码(图 3)。它们可能会大大加快高分辨率图像的处理速度。

Flow diagram showing how an image is encoded as a set of qubits from which QHED can be simulated on multiple GPUs in parallel, one simulation for each spatial dimension. Postprocesses result in a visualization of object boundaries in the original image.
图 3。将图像编码为一组量子位后,QHED 可用于并行识别每个空间维度中的物体边界。图片来源: Edge Detection for Satellite Images without Deep Networks

CUDA-Q MQPU 后端支持使用多个 GPU 模拟 QPU 并行处理此算法,其中一个虚拟 QPU 用于在图像的每个维度上运行 QHED。 这极大地缩短了算法测试的开发周期。

CUDA-Q MQPU 后端还使用户能够开发应用程序,为未来的异构加速量子超级计算机做好准备,这些计算机将包含多个 QPU。这种前瞻性思维是 NVIDIA 与 HPE 之间正在进行的其他项目的关键动力。

在 NVIDIA GTC 2025 上,Hewlett Packard Enterprise(HPE)宣布了 在加速量子超级计算机中分配大型量子电路的方法的研究结果,这也是近期发表的立场论文《 如何构建量子超级计算机:从数百个量子比特扩展到数百万个量子比特 》的中心主题

HPE 团队正在使用 CUDA-Q 开发自适应电路编织 (ACK) 方法,这是一种通过在低纠缠位置进行优化切割,在小型 QPU 上动态划分大型电路的方法。这种方法可最大限度地降低与电路切割相关的成本,允许在多个量子处理器或 AI 超级计算机上运行子电路 (图 4)。

A Diagram demonstrating how ACK can cut a quantum circuit and distribute it across CPUs, GPUs, and QPUs before knitting the results back together.
图 4。电路编织允许量子电路评估在 CPU、GPU 和 QPU 之间分布。图像改编自 How to Build a Quantum Supercomputer: Scaling from Hundreds to Millions of Qubits

大规模地对 ACK 算法进行基准测试依赖于大规模的状态向量模拟,需要这种模拟来确保子电路的结果与最初预期的电路保持一致。此验证由 CUDA-Q MGPU 后端 提供支持,该后端汇集了 GPU 内存,因此 HPE 可以在 NERSC 的 Perlmutter 超级计算机上跨 1024 个 GPU 运行多达 40 个量子比特的模拟。模拟全部在 34 分钟内完成,其中一些速度快达 12 分钟,并且无法在 CPU 上运行。

CUDA-Q 还可以通过其 MQPU 后端促进在多个 GPU 模拟 QPU 中分配许多相关子电路,从而加速 ACK 测试。

快速开始使用 CUDA-Q

CUDA-Q 设计的一大特点是易于使用。它的性能、可扩展性和灵活性并非面向量子专家,而是面向任何人开放,即使是首次学习量子的人也是如此。NVIDIA CUDA-Q 学术计划让入门变得更加简单。

CUDA-Q Academic 正在通过与超过 25 所顶尖大学合作,帮助培养一支技能熟练的量子劳动力队伍。最近,我们与阿卜杜拉国王科技大学 (KAUST) 合作,为教职人员和学生举办了实操研讨会,展示了合作的有效性。

此研讨会基于免费提供的 NVIDIA Quick Start to Quantum Computing 系列 ,涵盖了量子状态和门、内核构建和变分量子算法等关键主题。该研讨会的四个交互式实验室从单量子位编程发展到更复杂的任务,包括对离散时间量子行走进行编码,以及使用 CUDA-Q 使用 GPU 加速混合程序。

An animation of a quantum quantum walk with a dynamically updated distribution of results and converging optimization error plot.
图 5。NVIDIA 量子计算快速入门系列包括类似动画的交互式材料,可为初学者教授高级量子概念

KAUST 应用数学和计算科学教授兼 KAUST 极端计算研究中心主任 David Keyes 将 NVIDIA Quick Start to Quantum Computing 系列描述为“一次令人高兴的经历,在几个简短的会议中展示了如何从没有量子计算知识到在 GPU 上运行应用程序。NVIDIA CUDA-Q 很高兴能使用,也是了解加速混合应用实际方面的重要资源。”

您可以在 CUDA-Q 学术 GitHub 库中公开获取这些教育资源以及更高级的材料,例如介绍如何 通过 divide-and-conquer 方法实现 QAOA 的 max cut。 此资料库为任何希望开发高性能计算和量子计算技能必要的加速量子计算的人提供了宝贵的途径。

了解详情

NVIDIA CUDA-Q 平台正成为开发具有出色性能、灵活性和易用性的混合应用的行业标准。量子社区成员发布的许多其他 NVIDIA GTC 2025 公告都清楚地表明了这一点,他们使用 CUDA-Q 取得了出色而多样的成果。

您可以安装 CUDA-Q ,开始设计自己的混合应用,并试用 CUDA-Q 文档中的许多示例应用 。要了解 NVIDIA 致力于加速量子计算开发的所有工具,请访问 NVIDIA Quantum

 

标签