生成式人工智能/大语言模型

利用 GPT 推进量子算法设计

大语言模型(LLMs)等 AI 技术正在迅速改变许多科学学科。 量子计算 也不例外。NVIDIA、多伦多大学和圣犹达儿童研究医院携手合作,将生成式预训练变压器(GPTs)引入 新量子算法的设计中 ,包括 生成式量子特征求解器(GQE)技术

GQE 技术是 AI for Quantum 技术浪潮中的新技术。由 NVIDIA CUDA-Q 平台开发,GQE 是第一种使用自己的 GPT 模型创建复杂量子电路的方法。

CUDA-Q 平台在开发 GQE 方面发挥了重要作用。在量子计算中训练和使用 GPT 模型需要对 CPU、GPU 和 QPU 进行混合访问。CUDA-Q 专注于 加速量子超级计算 ,这使其成为完全混合计算环境,非常适合 GQE。

据 GQE 联合作者 Alan Aspuru-Guzik 称,这些能力将 CUDA-Q 定位为可扩展的标准。

学习量子电路语法 

对于理解 GQE 而言, 传统的 LLM 可以作为一个有用的类比。在一般情况下,LLM 的目标是获取包含许多单词的词汇量;使用文本样本训练 Transformer 模型,以理解含义、上下文和语法等内容;然后对经过训练的模型进行采样以生成单词,然后将这些单词串联在一起以生成新的文档。

当 LLM 处理单词时,GQE 处理的是量子电路运算。GQE 获取一组单元运算(词汇)并训练 Transformer 模型,以生成与单元运算(词)相对应的索引序列,这些单元运算(词)定义了生成的量子电路(文档)。生成这些索引的语法是通过最小化成本函数来训练的一组规则,而成本函数通过使用先前生成的电路计算期望值来评估。

Diagram shows generated outputs from the GQE (quantum circuit) and an LLM (sentence).
图 1.GQE 与 LLM 的比较

图 1 显示 GQE 与 LLM 类似。我们添加了单元运算来生成量子电路,而不是添加单个词来构建句子。

支持 GQE 的算法

在杂音较大的小型量子 (NISQ) 计算机时代,量子算法受到一些硬件限制的限制。这促进了混合量子-经典算法的发展,例如变分量子特征求解器 (VQE),该算法试图通过将繁重的任务卸载到传统计算机来绕过这些限制。

For GQE, the parameters are only in the GPT model. For VQE, the variational parameters are in the quantum circuit.
图 2.GQE 与 VQE 的比较

GPT 模型以经典方式处理所有优化参数,并根据所生成电路的预期值进行更新。这使得优化能够在更有利的深度神经网络环境中进行,并提供了避免阻碍变分算法的 无效平台 的潜在途径。这还消除了对强化学习等技术所需的许多中间电路评估的需求。

GQE 方法是首个利用人工智能强大功能加速 NISQ 应用的混合量子经典算法。GQE 以多种方式扩展了 NISQ 算法:

  • 易于优化:GQE 构建无量子变分参数的量子电路(图 2)。
  • 量子资源效率:通过用采样和反向传播替代量子梯度评估,预计 GQE 将能够以较少的量子电路评估提供更高的效用。
  • 可定制性: GQE 非常灵活,可以进行修改以纳入 先验 领域知识,或应用于化学以外的目标应用。
  • 预训练能力: GQE Transformer 可以预训练,从而无需进行额外的量子电路评估。我们稍后会在本文中讨论这个问题。

GPT-QE 结果 

在首次应用 GQE 时,作者基于 GPT-2 (明确称为 GPT-QE) 构建了一个特定模型,并使用该模型来估计一组小分子的基态能量。

运算符词汇库由化学启发的运算(例如激发和时间演进步骤)构建而成,这些运算来自名为“具有单双激发的合偶联群(UCCSD)”的标准 ansatz 。ansatz 是一种量子电路参数化方法。

变分算法必须从使用现有经典方法生成的“最佳猜测”初始状态开始。为了演示 GPT-QE,作者使用 Hartree-Fock 方法和 STO-3G 基集生成了初始状态。本研究中使用的 GPT 模型与 OpenAI 的 GPT-2 模型相同,包括 12 个注意力层、12 个注意力头和 768 个嵌入维度。有关训练过程的更多信息和全面技术说明,请参阅 2.2.GPT 量子特征求解器 生成式量子特征求解器(GQE)和其在基态搜索中的应用 中。

该技术的一大优势在于,无论是在经典组件中使用 GPU 加速,还是在量子计算中使用多个 QPU,它都具有高度的并行性。自论文发表以来,通过使用 NVIDIA CUDA-Q 多 QPU 后端 mqpu 对 GPT-QE 采样电路的期望值进行并行计算,工作流程得到了加速。

mqpu 后端专为并行和异步量子协同处理而设计,支持多个 GPU 模拟多个 QPU。随着物理量子硬件的可用性增加,这些后端可以轻松替换为访问多个不同 QPU 硬件实例。

图 3 显示了在规模更大的 18 量子位 CO2 GQE 实验中使用 nvidia-mqpu 后端实现的加速。基准 CPU 计算通过计算 56 核英特尔至强 Platinum 8480CL E5 上 48 个采样电路的期望值获得。

使用单个 NVIDIA H100 GPU 代替 CPU 可将速度提升 40 倍。CUDA-Q mqpu 后端通过使用 NVIDIA DGX-H100 系统在 8 个 GPU 上异步计算期望值,可额外将速度提升 8 倍。

作者还训练了一个 CPU 无法执行的 30 量子位 CO2 GQE 实验。该模型在单个 NVIDIA H100 GPU 上训练了 173 个小时,而在 48 个 H100 GPU 上并行执行时,训练时间缩短到 3.5 个小时。

The bar chart shows a 40x speedup for an NVIDIA H100 GPU and 320x for an NVIDIA DGX-H100 system.
图 3. Expectation value computation for GQE circuit samples 的期望值计算

图 3 显示了通过单个 NVIDIA H100 GPU 加速的 GQE 电路样本,或使用 NVIDIA DGX-H100 跨多个 GPU 异步评估的 GQE 电路样本。

随着量子计算规模的不断增加,在多个 GPU 以及最终跨量子处理器(QPUs)上并行执行模拟工作负载的能力将变得越来越重要。

除了访问这些硬件功能之外,使用 CUDA-Q 实施 GPT-QE 还提供了其他优势,例如与 GPU 加速库(如 PyTorch)进行互操作,以加速算法的经典部分。这是 CUDA-Q 平台的巨大优势,该平台还可以通过 GPU 加速的 CUDA-X 库访问世界上最快的传统数学运算实现。

CUDA-Q QPU 的不可知论性也是未来在多个物理 QPU 上进行实验的关键。最重要的是,通过将混合量子计算和梯度计算卸载到经典处理器,可以探索大规模系统,并打开由 AI 支持的有用量子计算应用程序的大门。

扩展 GQE 框架的机会 

这项合作是了解 GPT 模型如何支持量子超级计算应用的广泛机遇的第一步。

未来的研究将探索不同的运算符池和最佳训练策略,包括关注 预训练 。在预训练过程中,可以利用现有数据集提高 Transformer 训练的效率,或帮助训练过程收敛。如果可用的数据集足够大,包含生成的电路及其相关的期望值,则可以实现这一点。预训练模型还可以为训练其他类似模型提供一个良好的开端。

例如,上一次运行的输出将创建一个包含电路及其相关基态能量的数据库。不佳的电路可以丢弃,Transformer 可以使用更好的电路进行训练,而无需使用量子计算机或模拟器。然后,该预训练的 Transformer 可用作进一步训练的初始化点,预计收敛速度更快并表现出更好的性能。

在量子化学之外,使用 GQE 的应用范围也十分广阔。NVIDIA 与洛斯阿拉莫斯国家实验室合作,正在探索将 GQE 的理念用于几何量子机器学习。

有关 GQE 代码 的更多信息 (包括示例),请参阅 GQE GitHub 库。

探索用于量子研究的 NVIDIA 工具 

GQE 是一个新的示例,展示了如何使用 GPT 模型和 AI 来实现量子计算的许多方面。

NVIDIA 正在开发 CUDA-Q 等硬件和软件工具,以确保混合工作流程的经典部分和量子部分的可扩展性和加速性。有关 NVIDIA 的 量子计算 工作,请访问量子计算页面。

 

标签