生成式人工智能/大语言模型

聚焦:药物发现初创公司 Protai 利用 AlphaFold、蛋白质组学和 NVIDIA NIM 提升复杂结构预测能力

特别是借助 AlphaFold RosettaFold 等突破性成果,生成式 AI 正在改变药物研发以及生物科技公司和研究实验室研究蛋白质结构的方式,从而在蛋白质相互作用方面获得突破性见解。

蛋白质是动态实体。正如 AlphaFold2 及其在生物学和医学领域的应用 所示,我们假设蛋白质的原生状态仅通过其氨基酸序列而为人所知。然而,单个蛋白质可以根据环境采用多个不同的构象,例如温度的变化。这些构象可以反映灵活的区域、蛋白质复合体内的相互作用,或活动和非活动状态之间的过渡。

Protai NVIDIA Inception 计划的成员,旨在捕捉不同蛋白质状态之间的结构变化,为特定作用机制 (MOA) 确定最精确的蛋白质结构,而不是满足于可能与治疗无关的一个构象。

Protai 正在利用质谱法 (Mass Spectrometry) 和人工智能 (AI) 开发精密医学解决方案,为人类健康和社会带来真正的改变,从而推动药物研发的发展。Protai 平台的核心是蛋白质结构预测管道,该管道集成了诺贝尔奖获得的蛋白质结构算法、基于物理的工具和专有蛋白质组学数据。

为了在其平台上加速 AI 推理,Protai 采用 NVIDIA NIM 微服务进行药物研发 ,这是一套经过优化的生成式 AI 生物学模型。借助 NIM 微服务,Protai 在不影响准确性的情况下显著提高了蛋白质结构预测的吞吐量和延迟。本文将深入探讨 Protai 如何集成 NVIDIA NIM 微服务,为准确且可扩展的蛋白质结构预测提供支持,从而转变他们的药物研发方式。

蛋白质复杂结构预测背景

了解蛋白质复合体是结构生物学的基本支柱。蛋白质复合体是由两条或更多关联的多链组成的一组,它们相互作用并一起发挥作用,以执行特定的生物学活动。多聚蛋白质是多种相互作用蛋白质的组合,可推动关键的生物学过程,并且是药物研发的关键目标。 虽然科学界正在通过实验或计算技术在确定每种蛋白质单体的结构方面取得进展 ,但蛋白质复合体的数量呈指数级增长。这凸显了预测算法的需求,以促进这些复合体的结构化工作。

AlphaFold-Multimer 通过实现多聚蛋白质结构的高质量计算预测来填补这一空白。这项创新以 AlphaFold 为基础,利用深度学习来解读蛋白质间的相互作用。我们将在下一节中提供有关 AlphaFold 算法、参数、输出和部署的更多详细信息。

Protai 采用了一种多面的方法。其中一个关键策略是增强结构预测模型 (例如 AlphaFold-Multimer) 的采样,以考虑结构偏移。此外,Protai 还能生成独特的 交联质谱 (XL-MS) 数据,以识别能够揭示不同状态下特定蛋白质结构的链接体。

XL-MS 是一种功能强大的实验技术,可使用化学交叉链接剂以共价方式将蛋白质内或蛋白质之间的特定氨基酸残基结合,从而捕获空间接近性和交互位点。这些交叉连接的区域提供了宝贵的距离限制,从而能够更精确地映射蛋白质构象和相互作用。通过将这些通过实验衍生的限制与先进的采样技术和分子动力学模拟相结合,研究人员可以生成超出目前公共领域可用的蛋白质结构。

Graphic showing three components of Protai’s workflow, including AlphaFold-Multimer, XL-MS, and molecular dynamics.
图 1、用于复杂结构预测管道的 Protai 工作流将高级计算算法与独特的实验数据相结

案例研究:预测 H3-H4 蛋白质复合体

为说明 Protai 的功能,本节研究了涉及组蛋白 H3 和 H4 的蛋白质复合体的预测。这种复合体在确定 DNA 能否获得转录因子和 RNA 聚合酶方面发挥着至关重要的作用,同时还有助于在修复过程中提高 DNA 稳定性。

使用 AlphaFold2-Multimer NIM ,Protai 生成了 H3-H4 复合体的结构预测。生成的结构按置信度进行颜色编码,以直观方式表示预测准确性。对于包含在 AlphaFold 训练集中的蛋白质,预测往往具有高置信度,但灵活性和独特特征可能会因特定构象而异。

Two renderings of the predicted H3-H4 complex structure, colored by AlphaFold scores and protein respectively.
图 2、使用 AlphaFold-Multimer 预测 H3-H4 复杂结构。复合体由 AlphaFold pLDDT 分数着色,以反映置信度(顶部)和蛋白质(底部)

为了完善这些预测,Protai 利用 XL-MS 数据,识别了 H3 和 H4 之间的三种蛋白质间链接体。这些连接器可充当实验锚定器,使 Protai 能够验证预测结构或揭示新的潜在蛋白质状态。在本例中,前五个排名预测中,三种连接器得到了一致的保持。在这两种蛋白质的高置信度和低置信度残基区域之间确定了一个额外的连接器,这凸显了进一步优化和改进预测的机会。

Two views of the linkers of the predicted complex structure, one showing validated linkers, the other showing linkers with different confidence levels.
图 3、使用已识别的 XL-MS 连接器预测复杂结构的连接器;具体而言,经过验证的连接器 (顶部) 和按置信度着色的高置信度和低置信度残基 (底部) 之间的连接器,强调了对预测进行细化的需求

借助 NVIDIA NIM 进行 AlphaFold-Multimer 部署

为了支持 AlphaFold-Multimer 和其他基于 LLM 的工具的可扩展和优化部署,Protai 利用了 NVIDIA NIM。NIM 提供预先优化的推理容器,可在 NVIDIA GPU 上无缝部署。无论是在本地还是云端运行,这些容器均可确保提供先进的性能。AlphaFold 本身无法利用多个 GPU 进行单个预测。但是,NIM 微服务支持并行运行多个推理任务,从而显著减少预测多个蛋白质复合体所需的总体时间。(对于大型复合体,预测可能需要 24 小时以上。)

该工作流由以下关键阶段组成:

  1. 多序列对齐 (MSA):AnMSA 可识别保守区域以及相互作用的蛋白质之间的共同进化信号,为预测提供基础。传统的 MSA 工具依赖于基于 CPU 的实现,这虽然在顺序处理方面有效,但无法与 GPU 并行处理能力相匹配。 AlphaFold2 NIM 使用 MMseqs2 ,这是一款 GPU 优化的序列搜索和聚类套件,能够以惊人的速度实现高效比较。
  2. 蛋白质相互作用建模 :AlphaFold-Multimer 使用基于 AlphaFold2 Transformer 架构的修改版,针对链间交互、增强的配对表示、跨链建模和多聚体特定损失函数进行微调,以预测蛋白质复杂结构。
  3. 结构细化: 预测结构经过细化,以确保准确性和物理合理性,同时纳入立体化学限制和实验基准。
Diagram showing the workflow steps (left to right): set of protein sequence, MSA, prediction model, and refinement and relaxation.
图 4、从 MSA 准备到预测再到细化的工作流程

AlphaFold2-Multimer NIM 提供多个端点,可将推理过程分为 CPU 密集型任务和 GPU 密集型任务,从而降低计算成本:

  • protein-structure/alphafold2/multimer/ predict-structure-from-sequences:从序列 (端到端) 进行完整结构预测
  • protein-structure/alphafold2/multimer/predict-MSA-from-sequences:从序列进行 MSA 计算 (CPU 密集型)
  • protein-structure/alphafold2/multimer/predict-structure-from-MSA:通过预先计算的 MSA 进行结构预测(GPU-intensive)

硬件的选择取决于蛋白质复合体的大小

  • 短序列:32 GB 的 GPU 就足够了。
  • 更大的配合物 (> 3000 个残基):需要 NVIDIA H100 或 A100 GPUs 来实现出色性能。

在上述用例中,Protai 在 NVIDIA L4 GPU 上自行部署了 AlphaFold2-Multimer NIM,因为这两种蛋白质很小。

参数 

AlphaFold2-Multimer NIM 具有以下参数:

  • 序列 定义将用于执行多聚结构预测的目标蛋白质链。
  • algorithm: 指定用于搜索同源序列的算法 jackhmmer 是一种广泛使用的 MSA 生成算法 ,可识别进化相关序列,帮助模型学习蛋白质间的相互作用。
  • e_value:用于识别数据库中同源序列的阈值。较低的值表示更严格的匹配标准。
  • 迭代:定义 MSA 算法执行的 迭代次数 (限制运行时间)。
  • databases 指定查询准确的 MSA 所需的进化信息的 数据库 
  • relax_prediction:表示是否应细化预测结构。通过优化键长、角度和立体化学约束,确保最终结构的物理合理性。

输出 

蛋白质数据库(PDB)格式的 AlphaFold2-Multimer NIM 输出包含有关预测蛋白质多聚体的原子级结构信息。在输出文件中,蛋白质的每个原子都使用符合 PDB 格式规范的结构化格式进行描述。

Table with columns containing descriptions of protein atoms.
图 5、蛋白质数据库输出文件以及使用 AlphaFold2-Multimer NIM 的列名 

使用 AlphaFold2-Multimer NIM 的给定 PDB 行说明如下:

  • 链标识符: 用于识别输出中的蛋白质链,例如,由两种蛋白质组成的蛋白质复合体至少具有两条链。
  • 坐标 (X,Y,Z): 原子在 Å 中的 3D 空间坐标。
  • 占用 :在此位置观察到该原子的概率。范围从 0.00 (完全不存在) 到 1.00 (始终存在) 不等。在实验数据中,如果原子在晶体结构中以多个构象出现,则其 占用 率可能小于 1.00 (例如。带有多个旋转器 (替代构象) 的侧链在所有构象中的 占用 率求和为 1.00)。在 AlphaFold 预测中,所有原子的 占用 率都设置为 1,因为它为蛋白质提供了一个最有可能的结构。
  • B 系数: 衡量结构中原子位移或灵活性的指标。值越高表示动作越多。在实验数据中,它可以表示热运动或障碍。在 AlphaFold 输出中,它被从预测局部距离差分测试 (pLDDT) 中获得的置信度分数所取代。pLDDT 是由 AlphaFold 提供的每残差置信度分数,范围从 0 到 100。

结束语 

Protai 的结构预测工作流将 AlphaFold2-Multimer NIM 与通过实验识别的独特 XL-MS 连接器相结合。通过利用 NVIDIA 优化的 AI 基础架构,Protai 加速了预测并提高了可扩展性。这有助于探索之前无法接触到的蛋白质相互作用,为药物研发和精准医疗开辟了新的前沿。

H3-H4 测试用例展示了 Protai 的整合方法 (合并结构预测和 XL-MS 数据) 如何深入了解蛋白质构象和动力学,这对于理解生物功能和治疗应用至关重要。

随着生成式 AI 的不断发展,NVIDIA NIM 和 NVIDIA BioNeMo Framework 等工具将在发挥计算生物学的全部潜力方面发挥关键作用。Protai 仍然致力于整合先进的 AI 技术,使我们离未来更近一步,在未来,救命药物的开发速度将比以往更快、更高效、更精确。

您可以试用用于 药物研发的全套 NIM 微服务 ,包括用于生成式蛋白质粘结剂设计的 NVIDIA BioNeMo Blueprint 和用于生成式虚拟筛选的 NVIDIA BioNeMo Blueprint。此外,您还可以使用 开源 BioNeMo Framework 训练自己的生物学模型。最后,学习如何使用 GPU 加速的 MMseqs2 提升 AlphaFold2 蛋白质结构预测

 

标签