对话式人工智能/自然语言处理

基因组 LLM 在不同任务中表现出优异的性能和通用性

InstaDeep 、慕尼黑工业大学( TUM )和 NVIDIA 之间的合作导致了基因组学多个超级计算规模基础模型的开发。这些模型展示了许多预测任务的最先进性能,如启动子和增强子位点预测。

联合研究团队表明,在基因组学上训练的大型语言模型( LLM )可以在过多的基因组任务中推广。以前的方法需要专门的模型。在 NVIDIA Healthcare VP Kimberly Powell’s invited talk on January 12 期间即将举行的摩根大通医疗保健会议上,将对结果进行初步了解。

该团队使用 NVIDIA 推出的超级计算机 Cambridge-1 来训练各种大型语言模型( LLM ),从 500M 到 2.5B 参数。在不同的基因组数据集集合上训练模型,以探索模型规模和数据多样性对下游任务绩效的作用。

分类任务包括预测增强子和启动子序列以及转录因子结合位点。这些任务有助于理解 DNA 如何转化为 RNA 和蛋白质的动力学,从而开启新的临床应用。

对于研究中确定的每一项任务,性能都随着模型规模和数据集多样性单调增加。与专业的最先进模型基线相比,在多物种数据集上训练的最大 2.5B 参数 LLM 在 18 个任务中的 15 个任务中实现了同等或优异的性能。

这些结果是通过参数有效微调实现的。依赖于从 transformer 模型的各个层提取的预训练嵌入,加上简单的浅层感知( MLP )或逻辑回归,足以在 11 项任务中实现同等或优异的性能。

在每个模型检查点和每个任务的所有层上应用这种探测策略,得到了训练的 120 万 MLP 模型。该研究详细分析了训练和使用 LLM 的各个方面,例如不同层对下游任务绩效的作用。

在固定的模型尺度上对序列多样性进行直接比较显示出了重要的收益,增加模型尺度也是如此。例如,仅在人类参考基因组上训练的 500M 参数模型表现不如在 1000 Genomes 数据集上训练的相同模型。

类似地,在 1000 个 Genomes 数据集上训练的 2.5B 参数模型比任何 500M 参数模型表现更好。它的表现不如在自定义多物种数据集上训练的相同模型,即使在仅涉及人类基因组的任务上测量下游表现时也是如此。

研究人员观察到,并非所有嵌入都是平等创建的。虽然常识建议使用 LLM 的最后一层进行下游预测,但令人惊讶的是,中间层在下游任务上产生的表示具有明显更高的性能。

InstaDeep 首席执行官 Karim Beguir 表示:“我们认为,这是第一个明确证明在基因组学中开发基础模型的可行性的结果,这些模型可以真正在各个任务中推广。”。他补充道,“在许多方面,这些结果反映了我们在过去几年中在自然语言处理中开发适应性基础模型所看到的情况,看到这一点现在应用于药物发现和人类健康中的挑战性问题,令人难以置信地兴奋。”

剑桥 -1 号对该项目的成功至关重要,该项目需要高性能的计算基础设施来训练这样的大型模型,使其具有捕捉基因组中长距离相互作用所需的感受野。

研究人员尝试了多种方法,包括多种注意力机制、模型尺度和标记器方案。他们使用在 16 个 NVIDIA DGX A100 节点( 128 A100 80GB GPU )上训练的 2.5B 参数稀疏注意力模型,最终在任务中获得了最佳发布性能。

在未来的工作中,团队计划通过直接微调模型来探索进一步的下游任务性能改进,并将继续在应用于基因组学的大型语言模型的架构创新方面进行合作。 InstaDeep 是首批进入剑桥 -1 的 NVIDIA Inception 成员之一。

 

Tags