GTC 大会火热进行中!别错过 NVIDIA CEO 黄仁勋的最新发布,以及 AI 和加速计算的必听会议。
增强现实/虚拟现实

用生物分子大语言模型预测蛋白质结构和性质

NVIDIA BioNeMo 服务现在可用于早期访问。在 2022 年秋季 GTC 上, NVIDIA 发布了 BioNeMo ,这是一个特定领域的框架和服务,用于在数十亿参数的超级计算规模上培训和服务化学和生物学的生物分子大语言模型( LLM )。

Bio NeMo 服务针对化学、蛋白质组学和基因组应用进行了域优化,旨在支持化学结构 SMILES 表示法中表示的分子数据,以及蛋白质、 DNA 和 RNA 的氨基酸和核酸序列 FASTA 。

借助 Bio NeMo 服务,科学家和研究人员现在可以通过云 API 访问预训练的生物分子 LLM ,使他们能够预测蛋白质结构、开发工作流,并从 LLM 嵌入中拟合下游任务模型。

Bio NeMo 服务是 AI 药物发现管道的交钥匙云解决方案,可在浏览器中或通过 API 端点使用。服务 API 端点为科学家提供了快速启动基于大型语言模型架构的 AI 药物发现工作流的能力。它还提供了一个 UI 平台,可以通过 API 轻松快速地尝试这些模型,该 API 可以集成到您的应用程序中。

Bio NeMo 服务包含以下功能:

  • 完全管理的基于浏览器的服务,具有蛋白质 LLM 的 API 端点
  • 用于快速 3D 蛋白质结构预测的加速 OpenFold 模型
  • ESM-1nv LLM 用于下游任务的蛋白质嵌入
  • 通过图形用户界面( GUI )交互式推断和可视化蛋白质结构
  • 通过 API 编程访问预训练模型

关于模型

ESM-1nv 基于 Meta AI 最先进的 ESM-1b ,是用于蛋白质进化规模建模的大型语言模型。它基于 BERT 架构,并基于数百万个蛋白质序列进行了训练,具有掩蔽的语言建模目标。 ESM-1nv 学习最终导致蛋白质结构和功能的氨基酸之间的模式和依赖性。

ESM-1nv 的嵌入物可用于拟合下游任务模型,以获得感兴趣的蛋白质特性,如亚细胞位置、热稳定性和蛋白质结构。这是通过训练具有监督学习目标的典型小得多的模型来实现的,以从 ESM-1nv 嵌入的蛋白质序列推断属性。使用 ESM-1nv 中的嵌入通常会在最终模型中获得更高的精度。

OpenFold 是 DeepMind 的 AlphaFold-2 模型的忠实复制,用于从一级氨基酸序列预测 3D 蛋白质结构。在 CASP14 ,结构生物学中这一长期存在的巨大挑战达到了一个重要里程碑, AlphaFold-2 对预测的结构实现了几乎实验性的准确性。虽然 AlphaFold 是为 JAX 工作流开发的,但 OpenFold 的代码基于 PyTorch 。

Bio NeMo 中的 OpenFold 也是可训练的,这意味着可以为专门研究创建变体。 OpenFold 实现了与原始模型相似的精度,并以 0.96 Å RMSD95 的精度预测中值主干,由于 MSA 生成步骤中所做的更改,其速度提高了 6 倍。这意味着药物发现研究人员很快就能得到 3D 蛋白质结构预测。

尽早使用 Bio NeMo 服务

申请提前访问 BioNeMo 服务 。您将被要求加入 NVIDIA 开发者计划,并填写一份简短的问卷,以便尽早访问。

 

Tags