数据科学

借助 Geneformer AI 模型,有限数据也能解锁基因网络

Geneformer 是最近推出的 和功能强大的 AI 模型,可以通过从大量单细胞转录组数据中进行迁移学习来学习基因网络动力学和相互作用。借助此工具,研究人员可以在数据有限的情况下准确预测基因行为和疾病机制,从而加速药物目标的发现,并提高对各种生物学背景下复杂基因网络的理解。

AI 模型 Geneformer 由麻省理工学院和哈佛大学博德研究所的研究人员及其合作者开发,该模型使用 sc-RNA 表达数据中表达最高的基因生成每个细胞的密集表示,这些表示可以用作各种下游预测任务的特征。然而,Geneformer 的独特之处在于其架构所支持的功能,即使在使用很少的数据进行训练时也是如此。

类似于 BERT 的单单元数据参考模型

Geneformer 具有类似 BERT 的 Transformer 架构,并基于来自各种人体组织中大约 3000 万个单细胞转录组的数据进行了预训练。其注意力机制使其能够专注于输入数据中最相关的部分,以便更好地捕捉关键信息。借助这种上下文感知方法,模型可以通过考虑基因之间的关系和依赖性来做出预测。

在预训练阶段,模型采用了一种蒙版语言建模技术。这种技术将部分基因表达数据蒙版,然后模型根据周围环境学习预测蒙版基因。这项方法不需要标记数据,而是使模型能够理解复杂的基因相互作用和调节机制。

这种架构和训练 使模型能够在处理有限的数据时持续提高与染色质和基因网络动力学相关的各种任务的预测准确性。 例如,Geneformer 能够使用仅 5000 个数据细胞重建心脏内皮细胞中的重要基因网络,这与之前使用超过 30000 个数据细胞进行训练时使用的先进方法一样准确。

它还可以在特定细胞类型分类任务中实现超过 90% 的准确度,这是基因表达基础模型的最常见用例之一。我们使用了克罗恩病小肠数据集对 NVIDIA BioNeMo 模型进行评估,在准确性 (图 1) 和 F1 评分 (图 2) 方面,与基准模型相比,性能有所提高。

Two Geneformer models in the BioNeMo platform show improved performance in cell annotation accuracy over baseline controls.
图 1. Geneformer 模型的参数为 10M 和 106M 时,细胞标注准确率比基准模型有所提高
Two Geneformer models in the BioNeMo platform show improved cell annotation F1 score performance over baseline controls.
图 2. Geneformer 模型的参数为 10M 和 106M 时,细胞标注 F1 得分比基准模型有所提高

图 1 和图 2 中的比较使用了一个基准 Logp1 PCA+RF 模型,该模型使用包含 10 个组件的 PCA,并使用归一化和对数转换的表达式计数训练随机森林模型。基准随机权重模型经过大约 100 步的训练,使用近似随机的权重。具有 1000 万个参数的模型是 6 层模型,具有 106M 个参数的模型具有 12 层,这两种模型都在 BioNeMo 文档中进行了描述。

我们的实验 和原始 Geneformer 出版物中的数据表明,将 Geneformer 扩展到目前生成的 10.6M 参数 12 层模型是有价值的。

为了支持新一代基于 Geneformer 的模型,我们在 BioNeMo 框架中提供了两项新功能。首先,BioNeMo 模型版本具有数据加载器,其数据加载速度比发布方法快 4 倍,同时保持与原始出版物中使用的数据类型的兼容性。其次,Geneformer 现在允许实现张量和管线并行,只需简单地更改训练配置。这有助于管理内存限制并减少训练时间,从而能够利用多个 GPU 的总计算能力训练具有数十亿参数的模型。

NVIDIA Clara 工具组合用于药物研发

Geneformer 可以在 BioNeMo 框架内访问,是 NVIDIA Clara 套件中不断增长的加速单细胞和空间组学分析工具目录的一部分(图 3)。这些工具可以在用于药物研发的互补研究工作流中实施,如 转化基因组学研究院(TGen)的研究

RAPIDS 编程库套件(包括 RAPIDS-SINGLECELL 工具包和 ScanPy 库)专为基于 Python 的组学数据预处理、可视化、集群、轨迹推理和差分表达测试而构建。当用于分析单细胞表达数据时,其输出可以使用传统的生物信息学方法来分析表达数据,对细胞类型标注和微扰预测的成像和基础模型方法进行补充。借助 NVIDIA RAPIDS 数据分析库,RAPIDS SINGLE-CELL 可加速 Scanpy 中最计算成本极高的工作负载。

对于空间分辨率方法,MONAI 中的 VISTA-2D 模型专为处理和分析细胞图像而设计。它提供高质量的分割掩膜,用于识别和量化细胞形态以及组织内的空间组织。通过 VISTA-2D 生成的分割掩膜,可以生成表达数据,并将其输入到基础模型中,如 Geneformer。

AI models like VISTA 2D, Geneformer, and RAPIDS-SINGLECELL can use cell images and expression data to provide complementary downstream analyses, such as cell type annotation and predicting the effects of cell perturbation.
图 3. Geneformer 在 NVIDIA Clara 套件中补充了 BioNeMo 之外的其他单细胞资源,以加速获得见解。

用于疾病建模的基础 AI 模型

正如其各种应用所展示的那样(图 4),Geneformer 可以作为生物学基础模型,这些用例涵盖了从分子到有机体规模的问题,使其成为生物学研究中一种广泛实用的工具。

模型论文中描述了其中许多用例。该模型现已开源,可供研究使用。 图 4 展示了 Geneformer 可以使用零样本学习处理的用例,其中包括一些下划线的项目。零样本学习意味着 Geneformer 可以预测其以前从未见过或明确训练过的数据类,即使没有相关的训练数据。

This image illustrates the problems that Geneformer can solve in three categories, including gene regulation, cell type and cell state annotation, and predictive biological modeling for therapeutics.
图 4. Geneformer 用例涵盖多个生物复杂性级别,从基因调节到治疗性疾病建模。

在基因调控研究中,Geneformer 可以对测量基因表达变化的数据集进行微调,这些变化是响应不同水平的转录因子的结果。这使得可以准确预测不同剂量的转录因子如何影响基因表达和细胞表型,从而帮助了解基因调控和潜在的治疗干预措施。

通过在数据集上微调 Geneformer,捕捉细胞在微分过程中的状态转换,可以实现细胞状态的精确分类,从而帮助理解微分过程和发展。该模型甚至可以用于一-shot 识别转录因子之间的协同作用。这可以增强对复杂调节机制的理解,以及转录因子如何协同工作来调节基因表达。

开始使用

6 层(3000 万参数)和 12 层(1.06 亿参数)模型,通过 NVIDIA BioNeMo 框架在 NVIDIA NGC 上提供,包括用于训练和部署的完全加速示例代码。

 

标签