NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
数据科学

训练联合 AI 模型以预测蛋白质属性

预测蛋白质在细胞内的定位对于生物学研究和药物开发具有重要意义,这一过程被称为亚细胞定位。蛋白质的功能与其所处位置密切相关,明确其存在于细胞核、细胞质还是细胞膜,有助于深入理解细胞活动机制,并为潜在治疗靶点的发现提供新线索。

本文介绍了研究人员如何利用 NVIDIA FLARENVIDIA BioNeMo 框架,在无需跨机构传输敏感数据的前提下,协作训练人工智能模型,以预测蛋白质的亚细胞定位等特性。

如何针对亚细胞定位任务对模型进行微调

新的 NVIDIA FLARE 教程演示了 如何对 ESM-2nv 模型进行微调,以实现基于亚细胞定位的蛋白质分类。该 ESM-2nv 模型利用论文 《Light Attention Predicts Protein Location from the Language of Life》 中提出的数据集,从蛋白质序列嵌入中学习特征表示。

我们专注于亚细胞定位预测,采用符合生物训练器标准的 FASTA 文件格式,包含蛋白质序列、训练/验证集划分以及10个定位类别(如细胞核、细胞膜等)。

Cross-section of an animal cell with various components labelled, including cell membrane, ribosome, mitochondrion, and so on.
图1。动物细胞横截面示意图,展示用于蛋白质属性预测的多种膜结合细胞器的分布位置。

该 FASTA 格式的数据样本如下所示:

>Sequence1 TARGET=Cell_membrane SET=train VALIDATION=False 
MMKTLSSGNCTLNVPAKNSYRMVVLGASRVGKSSIVSRFLNGRFEDQYTPTIEDFHRKVYNIHGDMYQLDILDTSGNHPFPAMRRLSILT
GDVFILVFSLDSRESFDEVKRLQKQILEVKSCLKNKTKEAAELPMVICGNKNDHSELCRQVPAMEAELLVSGDENCAYFEVSAKKNTNVNE
MFYVLFSMAKLPHEMSPALHHKISVQYGDAFHPRPFCMRRTKVAGAYGMVSPFARRPSVNSDLKYIKAKVLREGQARERDKCSIQ

其中:

  • 目标 = 亚细胞定位分类
  • SET = 训练与测试数据
  • VALIDATION = 用于标记验证的序列

该数据集包含10个位置类别,构成了一个极具现实意义的分类挑战。

如何将联邦学习与 BioNeMo 蛋白质语言模型相结合

运行此示例十分简便。通过 BioNeMo Framework v2.5 在 Docker 中,您可以直接启动 Jupyter Lab 环境,并在浏览器中运行 Federated Protein Property Prediction with BioNeMo tutorial notebook

除 BioNeMo 框架外,还引入了 NVIDIA FLARE 实现联邦学习。各参与方在本地独立训练模型,仅上传模型更新,而非集中各站点的数据。通过 FedAvg 算法,这些更新被聚合为一个共享的全局模型,在保护数据隐私的同时实现协同训练。

训练和可视化 

在本次演示中,团队对BioNeMo中预训练的6.5亿参数ESM-2nv模型进行了微调。该规模的模型在预测准确性与计算效率之间实现了良好的平衡,非常适用于联合训练场景。

工作流程中的关键步骤包括:

  • 数据拆分: 采用异构采样方法,以模拟现实世界中各机构间预期的数据差异,从而确保联邦学习设置更贴近实际部署环境。
  • 联邦平均(FedAvg): 通过聚合各客户端的本地更新,构建共享的全局模型,在不共享原始蛋白质序列数据的前提下实现跨机构协作。
  • 可视化支持: 集成 TensorBoard,使研究人员能够实时监控本地及联邦训练过程;服务器端持续提供的指标有助于深入理解全局模型在每一轮通信中的演化情况。
Bar chart showing heterogeneous class distribution across three client sites.
图2。异构采样会将序列不均匀地分布在各个站点之间,从而模拟多机构数据集中常见的自然不平衡现象。

结果 

该团队在异构数据条件下(alpha = 1.0),将各站点的本地训练与联邦训练(FedAvg)进行了对比。

客户端 示例本地精度 FedAvg 准确率
站点 1 1844 78.2 81.8
站点 2 2921 78.9 81.3
站点 3 2151 79.2 82.1
平均值 78.8 81.7
表1显示,联合训练在所有站点的表现均优于本地模型,平均准确率从78.8%提升至81.7%。

这些结果凸显了联合学习通过整合多机构的知识,能够构建出比各机构单独训练更为强大的模型。

Graph showing the convergence curves of Local versus Federated in terms of validation accuracy.
图3显示,与本地模型相比,联合训练(FedAvg)在所有站点均能实现更高的准确率,体现了协作学习的优势。

使用 BioNeMo 与 FLARE 进行蛋白质预测具有显著优势

使用 BioNeMo 和 FLARE 的优势不仅在于预测蛋白质在细胞内的定位,更在于推动科学社区共同构建适用于科研的 AI 模型。通过 BioNeMo 和 FLARE,研究人员能够协作开发、共享成果,加速生命科学领域的创新与发现。

  • 联合学习助力蛋白质属性预测:无需共享原始数据,即可整合多方智慧。
  • 协作共赢:各参与方共同提升模型性能,同时确保敏感数据本地留存。
  • BioNeMo 框架加速科研发现:提供先进的生物序列分析工具,助力高效探索。

启动联合蛋白质预测 

将生命语言(蛋白质序列)与联合AI工作流相结合,利用NVIDIA BioNeMo和NVIDIA FLARE进行联合蛋白质属性预测,正成为一种强大的新范式。这一方法不仅有助于加速药物研发、医疗健康和生物技术领域的科学发现,同时也能有效保护数据隐私。

生命科学与人工智能的未来并非孤立发展,而是通过协作得以实现。借助 FLARE 和 BioNeMo,这一未来已然到来。欢迎访问 NVIDIA/NVFlare GitHub 仓库,体验基于 Federated Protein Property Prediction with BioNeMo 并探索 更多高级示例

 

 

标签