斯坦福大学的 Das Lab 正在通过一种利用社区参与和加速计算的独特方法,彻底改变 RNA 折叠研究。在 NVIDIA DGX 云 通过 NAIRR Pilot 计划 提供的支持下,该实验室在三个月内获得了 32 个 NVIDIA A100 DGX 云节点 (每个节点配备 8 个 GPU) 的访问权限,使团队能够从小规模实验过渡到大规模分布式训练。这使得该团队能够使用大型模型和数据集进行训练,迭代训练技术,并推动 RNA 折叠研究领域的发展。
Rhiju Das 博士及其团队处于 RNA 研究的前沿,为应对新冠肺炎 (Covid-19) 大流行,于 2020 年举办了 OpenVaccine Kaggle 竞赛,并于 2024 年举办了 Ribonanza 竞赛,以进一步研究 RNA 折叠。他们的目标是通过对 RNA 结构和功能进行准确建模,加速对生物科学的理解和应用。
开发 RNA 折叠模型的主要挑战之一是缺乏实验性 RNA 结构数据,例如用于训练 AlphaFold2 的蛋白质结构数据库。
为了解决这个问题,Das Lab 开发了 Eterna ,这是一款让社区能够为生成新的 RNA 序列做出贡献的游戏。然后,在实验室中合成这些序列,并使用化学映射实验来推理折叠的 RNA 结构。
策略
Das Lab 加速 RNA 折叠研究的方法涉及几个重要步骤:
- 众包数据管护 :该实验室创建了 Eterna 视频游戏,用于从社区收集新的 RNA 序列,并结合其他专家管护的数据库。
- 近似 RNA 结构数据: 化学映射实验根据 Eterna 和其他众包方法中开发的序列,生成在实验室中合成和测试的 RNA 的反应性图谱。
- 众包模型设计: 在社区的帮助下,Kaggle 竞赛用于测试各种模型架构和训练流程。
除了众包数据管护之外,Das Lab 还使用多种方法来获取合成设计。其中一种方法是使用经过强化学习训练的模型,以人类级别的性能运行 Eterna 游戏,从而加速新序列生成。该模型使用 Q-learning 算法在 NVIDIA DGX 云上使用 4K GPU 小时进行训练。
Das Lab 基于去年 Ribonanza 竞赛的最佳模型,创建了一个新模型 RibonanzaNet,其性能优于之前的所有解决方案。最近,他们将其训练数据库从 21 万个 RNA 序列扩展到了 4 千万个 RNA 序列和化学反应性图谱。借助 NVIDIA DGX 云的计算能力,他们开始执行大规模分布式训练、各种模型架构实验,并优化训练超参数。
结果
“Das Lab 成功策划了用于训练 RNA 结构的大型数据库。他们使用此数据库在 256 个 A100 GPU 上训练基础模型,建立在 RibonanzaNet 上。他们的最新模型 RibonanzaNet2 是一个 100M 参数的 RNA 结构基础模型,在二级结构建模中实现了先进的性能。社区可以对其进行微调。”
2025 年 2 月 26 日,Das Lab 发起了 Kaggle 竞赛,名为 Stanford RNA 3D Folding ,奖金总计 $75K,在前三名团队中进行分配。本次竞赛为期 3 个月,要求社区微调 RibonanzaNet2 以进行下游结构预测。评估包括竞赛开始后收集的实验性 RNA 结构。
“要开始在 Kaggle 比赛中微调 RibonanzaNet2,请参阅 RibonanzaNet2 alpha 版本论坛文章和 RibonanzaNet2 模型版本。如需了解更多信息,请参阅发布 RibonanzaNet2 on X 的六篇文章。距离参加本次竞赛并帮助解决生物学领域余下的重大挑战还剩不到 2 个月的时间。”
这项研究的重要性在于它有可能加速对生物科学的理解和应用。RNA 折叠研究对医学、农业和生物技术等领域具有重要意义。例如,通过开发更准确的 RNA 结构和功能模型,研究人员能够更好地了解各种疾病的潜在机制,并开发出更有效的治疗方法。
参与
Das Lab 的成就展示了加速计算在推动 RNA 折叠和生物学等科学领域发展方面的众包和协作研究潜力。未来,该团队计划扩展模型和数据集大小,并通过 NVIDIA DGX 云等方式训练计算资源。
要参与这项有趣的活动并为推进 RNA 的 AI 基础模型做出贡献,请参加 Stanford RNA 3D Folding Kaggle 竞赛,并开始微调 RibonanzaNet2 。
有关 Das Lab 研究的更多信息,请参阅以下资源: