立即下载 DOCA,开启高性能AI 网络之旅,实现“一站式” 编程
数据科学

评估 GenMol 作为用于分子生成的通用基础模型

传统的计算药物研发几乎完全依赖于高度特定于任务的计算模型来识别命中率和优化潜在客户。使这些专业模型适应新任务需要大量的时间、计算能力和专业知识,当研究人员同时跨多个目标或属性开展工作时,这些挑战就会增加。

虽然 专业模型 仍被广泛使用,但多面手模型的兴起点燃了人们的希望,即这些多功能框架可以获得有用的 化学直觉 ,这意味着它们可以处理各种药物研发任务,并发现专业模型往往忽视的解决方案和模式。

最近推出的 SAFE-GPT 模型通过引入与药物化学家的分子设计方法一致的化学直观框架,代表了 AI 驱动的分子生成的范式转变。通过使用基于序列连接的片段嵌入 (Sequential Attachment-based Fragment Embedding, SAFE) 表征 (稍后将在本文中介绍),SAFE-GPT 解决了早期分子生成模型中的关键限制,以充分捕获分子结构的灵活性和模块化。这使得 SAFE-GPT 在各种药物研发相关任务中的表现优于基于 SMILES 的生成模型、图神经网络和早期的基于片段的模型。

尽管 SAFE-GPT 在当时具有变革性作用,但对于各种药物研发任务,其效率、可扩展性和适应性存在明显局限性。

在本文中,我们将 SAFE-GPT 与最近推出的模型 GenMol 进行了比较,介绍了每种模型的优缺点,并讨论了其对药物研发的重要性。

安全概述 

分子表征的选择对于分子设计中计算模型的 准确性 、效率和通用性至关重要,并且必须与用户的化学直觉保持一致才能得到广泛采用。

SAFE 表征由 SAFE-GPT 和 GenMol 共同使用,通过将分子分解为模块化、互联的片段来重塑分子的描述方式。与 SMILES 等将分子编码为线性字符串的传统分子符号不同,SAFE 将分子视为片段的无序序列。这种方法保持了化学固有的灵活性和模块化,同时与现有的 SMILES 解析器保持兼容。

SAFE 特别适用于支架装饰、连接器设计和基序扩展任务,因为它将这些问题简化为序列完成任务 (图 1)。通过保持分子支架的完整性并适应复杂结构,SAFE 实现了基于片段的直观分子设计,无需复杂的基于图形的模型。

The diagram lists de novo generation, linker design, motif extension, fragment remasking, superstructure generation and scaffold decoration.
图 1. 与分子生成及其安全表示相关的通用基础模型用例

SAFE 分子代可用于表示与 SAFE-GPT 和 GenMol 相关的各种任务的分子 (图 1),包括:

  • 先导优化 :使用掩码标记动态替换分子片段,以迭代方式优化设计。
  • 从头生成 :从头开始创建全新的分子结构,从而发现具有所需属性的新型化合物。
  • 链接器设计:优化连接功能片段的分子链接器,增强结构稳定性和活动性。
  • 基序扩展: 扩展关键分子基序,以探索其他官能团或增强目标结合相互作用。
  • 上部结构生成 :为先进的药物研发和材料设计构建复杂的多片段分子架构。
  • 支架装饰 :通过添加不同的替代物来探索结构与活动之间的关系,从而修改核心分子支架。

GenMol 推理代码示例 

GenMol NIM 微服务及其配套 Notebook 可让您输入不同的 SAFE 或 SMILES 以及 mask 字符串,从而简化推理请求,从 头生成 仅需纯掩膜和所需分子数量即可:

generator = GenMol_Generator(invoke_url='http://127.0.0.1:8000/generate)
# provide a SMILES or a SAFE sequence string
molecules = generator.inference(smiles='[*{15-25}]',num_molecules=20)

图 2 显示了示例输出。

The diagram shows three example molecules with QED values generated by GenMol using a de novo generative workflow.
图 2、为纯输入掩码生成的顶部候选分子

对于链接器设计或基序扩展,您可以通过在片段中附加或插入遮罩来为一组片段提供遮罩:

# append a mask
input_text = 'c14ncnc2[nH]ccc12.C136CN5C1.S5(=O)(=O)CC.C6C#N.[*{15-35}]'
# or insert the mask
input text = 'c14ncnc2[nH]ccc12.C136CN5C1.[*{5-15}].S5(=O)(=O)CC.C6C#N'
# generate molecules
   # provide a SMILES or a SAFE sequence string
molecules = genmol.inference(smiles=input_text,temperature=1.5,
    noise=1.0,num_molecules=1000)

图 3 显示了示例输出。

The diagram shows three example molecules with QED values generated by GenMol using a mask.
图 3、为插入一组输入片段中的掩膜生成的顶部候选分子

通过引入片段库和 QED 评分器,您可以迭代地使用 GenMol 推理进行高级引导优化,从而根据输入掩码结构实现命中生成和线索优化。

library = Library(max_fragments = 1000)
oracle = Oracle(score = Oracle.RDKitScore('QED'))
optimizer = MolecularOptimizer(library = library, oracle = oracle,
       generator = generator)

data = []
def eval():
    best = library.molecules.score[0]
    mean = library.molecules.head(50)['score'].mean()
    std = library.molecules.head(50)['score'].std()
    print("BEST", best, "MEAN", mean, "STD", std)
    data.append([best, mean, std])

eval()

for i in range(100):
    optimizer.run(iterations = 10, num_mutate = 50)
    eval()

通过以迭代方式优化和更新具有高评分候选项的片段库 (如此处的 QED 示例,但适用于任何属性或属性组合),您可以快速指导生成过程。

比较用于药物研发任务的 SAFE-GPT 和 GenMol

GenMol 和 SAFE-GPT 代表了两种不同的 AI 驱动分子生成方法,每种方法都具有独特的优势和局限性 (表 1)。

特征 GenMol 安全 GPT
解码 并行 (非自回归) 顺序 (自回归)
任务通用性 需要针对特定任务进行调整
效率 可扩展且高效 计算密集型
多样性与质量之间的权衡 高平衡 中等
表 1. GenMol 和 SAFE-GPT 的功能比较

SAFE-GPT 基于自回归 Transformer 架构构建,是一款功能强大的工具,可用于执行支架装饰和连接器设计等片段受限的任务。它使用顺序解码,可确保在这些特定场景中的准确性和化学有效性。但是,它的顺序性质和特定于任务的设计可能需要大量计算,并且无需重新训练就无法适应新任务。

GenMol 凭借其基于扩散的离散架构和并行解码,通过提高计算效率和任务通用性来解决许多限制。它扩展了分子生成的范围,将更广泛的挑战包括在内,例如以目标为导向的潜在客户优化,其性能甚至优于 f-RAG REINVENT 等广泛使用的模型。它的动态片段重掩蔽策略支持对化学空间进行可靠的探索,使其适用于更复杂的多目标药物研发工作流程。

除了以目标为导向的潜在客户优化,每个模型的解码策略都会影响其在基于片段的任务中的性能,正如我们接下来将看到的那样。

1. 分子生成与化学空间探索

SAFE-GPT 使用具有顺序自回归解码功能的 GPT 架构,逐片生成分子片段。SAFE-GPT 与 SAFE 表征的片段顺序不敏感特性相结合,可应用于 从头开始生成 和片段受限生成的分子。

GenMol 基于 BERT 架构构建,采用具有双向注意力的并行非自回归解码,可同时处理分子片段。这使得 GenMol 能够考虑不依赖于标记和片段任意顺序的分子环境,并且在片段受限分子生成任务中 (根据质量分数衡量) 明显优于 SAFE-GPT (表 2)。

任务 安全 GPT GenMol
基序扩展 18.6%*- 2.1 27.5%+- 0.8
支架装饰 10.0+- 1.4 29.6%至 0.8
上层建筑生成 14.3%– 3.7 33.3%*- 1.6
表 2、分子生成任务的质量分数

此外,离散扩散使 GenMol 能够使用片段重新掩膜策略探索化学空间,该策略可以用掩膜标记动态替换片段,从而增强通过迭代细化发现新型优化分子的能力。这使 GenMol 能够适用于命中生成和潜在客户优化任务,而无需进行任何特定任务的微调。

计算效率 

SAFE-GPT 的顺序生成以及对强化学习目标的依赖使其成为计算密集型任务,尤其是在大规模或高吞吐量场景中。

GenMol 的离散扩散框架可提高生成效率,采样速度最高可提升 35%,并降低计算开销,使其在工业规模的药物研发中更具可扩展性。

结束语 

这些分子生成模型的重要性不仅限于如何完成分子生成。这也解释了为什么需要重新设计。

在这个行业中,上市时间对患者来说意味着生命与死亡之间的差异,更广泛使用的模型可以为研究人员提供通用、高效和精确的工具,以简化发现过程、优化结果,并扩大化学可能性的视野。它们代表着从劳动密集型流程到 AI 驱动的创新的重大飞跃,而 AI 驱动的创新具有与其试图解决的挑战一样的适应性。

这两种模型均可根据研究项目的具体需求提供宝贵的工具。对于专注于具有严格片段限制的基序扩展和支架生成的项目而言,SAFE-GPT 是一个很好的选择,而 GenMol 更适合需要更灵活、更统一的框架来处理各种药物研发应用的研究人员。

立即将 GenMol 作为 NVIDIA NIM 进行测试 或在 GitHub 上探索代码示例 ,详细了解如何使用 GenMol 进行目标导向命中优化、lead optimization 等。深入探索这些方法,确定最适合您研究需求的方法,并加速药物研发工作。

 

标签