AI 已从实验好奇心发展为生物学研究的驱动力。 深度学习算法、海量组学数据集和自动化实验室工作流程的融合使 科学家能够解决一度被认为棘手的问题 (从快速蛋白质结构预测到生成式药物设计),从而增加了科学家对 AI 素养的需求。在这一势头下,我们正处于下一次范式转变的边缘:专为生物学打造的强大 AI 基础模型的出现。
这些新模型有望将不同的数据源 (基因组序列、RNA 和蛋白质组谱,在某些情况下还包括科学文献) 统一为分子、细胞和系统级别上对生命的统一、一致的理解。学习生物学的语言和结构为变革性应用打开了大门,例如更智能的药物发现、合理的酶设计和疾病机制阐明。
在我们为下一波 AI 驱动的突破做好准备之际,这些基础模型显然不仅能够加速进展,还将重新定义生物学研究的可能性。
- 使用/NVIDIA/bionemo-examples 示例 notebook 免费将 Evo 2 测试为 NVIDIA BioNeMo NIM 微服务 。
- 探索蛋白质设计的完整参考工作流程 。
- 立即开始在 BioNeMo 框架 中使用您的数据训练 Evo 2
- 及时了解 NVIDIA BioNeMo 平台的最新动态。
序列建模和设计从分子规模到基因组规模的飞跃
2024 年 11 月推出的 首个 Evo 模型 是基因组研究领域的一个突破性里程碑,它引入了能够分析和生成跨 DNA、RNA 和蛋白质的生物序列的基础模型。
在发布 Evo 时,大多数模型都被限制在单一模式或简短背景下运行,而众所周知,它能够使用统一的方法跨规模 (从分子到基因组) 操作。Evo 基于 270 万个原核细胞和噬菌体基因组 (包含 300 亿个核酸令牌) 进行训练,在许多生物进化和功能任务中提供了单核酸分辨率。
Evo 成功的核心是其创新的 StripedHyena 架构 (图 1),这是一个结合了 29 个 Hyena 层的混合模型,这是一种新型深度学习架构,旨在处理长序列信息,而无需依赖 Transformer 架构中常见的传统注意机制。相反,它使用卷积过滤器和门的组合。
这种设计克服了传统 Transformer 模型的限制,使 Evo 能够高效处理多达 131,072 个令牌的长上下文。最终,该模型能够将微小的序列变化与系统级和有机体级的影响联系起来,弥合分子生物学与进化基因组学之间的差距。

Evo 的预测功能为生物建模树立了新的标准。它在多项零样本任务中取得了具有竞争力的表现,包括预测突变对蛋白质、非编码 RNAs 和调控 DNA 的适应性影响,为合成生物学和精准医学提供宝贵见解。
Evo 还展示了非凡的生成功能,设计了功能齐全的 CRISPR-Cas 系统和转座子。这些输出经过实验验证,证明了 Evo 可以预测和设计具有真实效用的新型生物系统。
Evo 代表着将多模态和多尺度生物理解集成到单个模型中的显著进步 。它能够生成基因组级序列并预测整个基因组的基因本质,这标志着我们分析和工程生命的能力实现了飞跃。
Evo 的里程碑式发展不仅体现在技术成就上,还体现在愿景上。这一统一框架将生物学的庞大复杂性与尖端 AI 相结合,加速了生命科学领域的发现和创新。
学习进化过程中的生命语言
Evo 2 是基因组建模领域这一系列研究的新一代产品,基于 Evo 在扩展数据、增强架构和卓越性能方面取得的成功而构建。
Evo 2 可以深入了解三种基本生物分子 (DNA、RNA 和蛋白质) 以及生命的所有三个领域:真核生物 (Eukarya)、原核生物 (Prokarya) 和古菌 (Archaea)。此训练数据集基于来自 15,032 个真核基因组和 113,379 个原核基因组的 8.85T 核酸数据集进行训练,涵盖不同物种,与仅关注原核基因组的 Evo 相比,实现了前所未有的跨物种泛化,并显著拓宽了其范围。
Evo 2 使用经过改进的全新 StripedHyena 2 架构,该架构可将参数扩展至 40B 个,从而提高模型的训练效率,以及使用 1M 个令牌的上下文长度捕获远程依赖项的能力。 StripedHyena 2 采用基于卷积的多混合设计,其训练速度明显快于 Transformers 和其他使用线性注意力或状态空间模型的混合模型。
最大的 Evo 2 模型使用 AWS 上的 NVIDIA DGX Cloud 使用 2,048 个 NVIDIA H100 GPUs 进行训练。作为 NVIDIA 与 Arc 合作 的一部分,他们获得了对这个高性能、完全托管的 AI 平台的访问权限,该平台利用 NVIDIA AI 软件和专业知识针对大规模分布式训练进行了优化。
这些进步标志着 Evo 的 7B 参数和 131,000 个令牌的上下文长度有了显著增加,使 Evo 2 成为多模态和多尺度生物建模领域的领导者 (表 1)。
特征 | Evo | Evo 2 |
基因组训练数据 | 细菌 + bacteriophage(300B 核酸) | 所有生命领域 + bacteriophage(9T nucleotides) |
模型参数 | 70 亿 | 70 亿 400 亿 |
上下文长度 | 131072 个令牌 | 最多 1048576 个令牌 |
模式 | DNA、RNA、蛋白质 | DNA、RNA、蛋白质 |
安全性 | 不包括真核生物病毒 | 不包括真核生物病毒 |
应用 | 跨物种任务受限 | 广泛的跨物种应用 |
Evo 2 的扩展训练数据和优化架构使其能够在各种生物应用中表现卓越。其多模态设计集成了 DNA、RNA 和蛋白质数据,可在执行突变影响预测和基因组标注等任务时实现零采样性能。Evo 2 还通过纳入真核基因组从根本上改进了 Evo,使人们能够更深入地了解人类疾病、农业和环境科学。
Evo 2 的预测能力优于各种任务的专业模型:
- 变体影响分析 :在零样本预测物种突变 (包括人类和非编码变体) 的功能性影响方面实现出色的准确性。
- 基因本质 :识别原核和真核基因组中的基本基因,并通过实验数据集进行验证,弥合分子和系统生物学任务之间的差距。
- 生成功能 :设计复杂的生物系统(例如基因组级的原核细胞序列和真核细胞序列),以及染色质可访问性的可控设计,展示具有现实世界适用性的生物设计新功能。
使用 NVIDIA Evo 2 NIM 微服务
NVIDIA Evo 2 NIM 微服务 可用于生成各种生物序列,其 API 可提供用于调整标记化、采样和温度参数的设置:
# Define JSON example human L1 retrotransposable element sequence
example = {
# nucleotide sequence to be analyzed
"sequence": "GAATAGGAACAGCTCCGGTCTACAGCTCCCAGCGTGAGCGACGCAGAAGACGGTGATTTCTGCATTTCCATCTGAGGTACCGGGTTCATCTCACTAGGGAGTGCCAGACAGTGGGCGCAGGCCAGTGTGTGTGCGCACCGTGCGCGAGCCGAAGCAGGGCGAGGCATTGCCTCACCTGGGAAGCGCAAGGGGTCAGGGAGTTCCCTTTCCGAGTCAAAGAAAGGGGTGATGGACGCACCTGGAAAATCGGGTCACTCCCACCCGAATATTGCGCTTTTCAGACCGGCTTAAGAAACGGCGCACCACGAGACTATATCCCACACCTGGCTCAGAGGGTCCTACGCCCACGGAATC",
"num_tokens": 102, # number of tokens to generate
"top_k": 4, # only predict top 4 most likely outcomes per token
"top_p": 1.0, # include 100% cumulative prob results in sampling
"temperature": 0.7, # add variability (creativity) to predictions
"
": True, # enable more diverse outputs
"enable_logits": False, # disable raw model output (logits)
}
# Retrieve the API key from the environment
key = os.getenv("NVCF_RUN_KEY")
# Send the example sequence and parameters to the Evo 2 API
r = requests.post(
# Example URL for the Evo 2 model API.
url=os.getenv("URL","https://health.api.nvidia.com/v1/biology/arc/evo2-40b/generate")
# Authorization headers to authenticate with the API
headers={"Authorization": f"Bearer {key}"},
# The data payload (sequence and parameters) sent as JSON
json=example,
)
有关各种提示的 API 输出的更多信息,请参阅 NVIDIA BioNeMo 框架文档 。
此外,还可以使用开源 NVIDIA BioNeMo Framework 对 Evo 2 进行微调,该框架提供可靠的工具,可根据 BioPharma 中的专业任务调整预训练模型(例如 Evo 2):
# Prepare raw sequence data for training based on a YAML config file
preprocess_evo2 -c data_preproc_config.yaml
# Trains the Evo 2 model with preprocessed data and parallelism across multiple GPUs
torchrun --nproc-per-node=8 --no-python train_Evo 2 -d data_train_config.yaml --num-nodes=1 --devices=8 --max-steps=100 --val-check-interval=25 --experiment-dir=/workspace/bionemo2/model/checkpoints/example --seq-length=8192 --tensor-parallel-size=4 --pipeline-model-parallel-size=1 --context-parallel-size=2 --sequence-parallel --global-batch-size=8 --micro-batch-size=1 --model-size=7b --fp8 --tflops-callback
# Optional Fine-tuning: Add this argument to start from a pretrained model
# --ckpt-dir=/path/to/pretrained_checkpoint
Evo 2 和生物学领域的 AI 未来
AI 势必会迅速改变生物学研究,实现之前人们认为需要数十年才能实现的突破。Evo 2 代表了这一变革的重大飞跃,它引入了基因组基础模型,能够以超大规模分析和生成 DNA、RNA 和蛋白质序列。
虽然 Evo 在预测原核生物的突变效应和基因表达方面表现优异,但 Evo 2 的功能更为广泛,并增强了跨物种泛化,这使其成为研究真核生物学、人类疾病和进化关系的宝贵工具。
从识别导致癌症风险的基因到设计复杂的生物分子系统,Evo 2 执行零样本击任务的能力充分体现了其通用性。借助长上下文依赖项,AI 能够揭示跨基因组的模式,提供对精准医学、农业和合成生物学的进步至关重要的多模态和多尺度见解。
随着该领域的发展,像 Evo 2 这样的模型为 AI 解读生命复杂性的未来奠定了基础,同时还用于设计新的有用的生物系统。这些进步与 AI 驱动的科学领域的更广泛趋势是一致的,在这些趋势中,基础模型针对特定领域的挑战进行了定制,解锁了以前无法实现的功能。Evo 2 的贡献标志着 AI 将成为解码、设计和重塑生存世界不可或缺的合作伙伴。
有关 Evo 2 的更多信息,请参阅 Arc Institute 发布的技术报告。Evo 2 也可在 NVIDIA BioNeMo 平台中使用。
致谢
在此, 我们要感谢以下参与所述研究的人员,感谢他们为本文的构思、写作和图形设计做出的杰出贡献 :
- Garyk Brixi ,斯坦福大学遗传学博士生
- 与 Arc Institute 合作的机器学习工程师 Jerome Ku
- Michael Poli ,Liquid AI 的创始科学家兼斯坦福大学计算机科学博士生
- Greg Brockman ,OpenAI 联合创始人兼总裁
- Eric Nguyen,斯坦福大学生物工程博士生
- Brandon Yang,Cartesia AI 联合创始人兼斯坦福大学计算机科学博士生 (休假中)
- Dave Burke,Arc Institute 首席技术官
- Hani Goodarzi ,Arc Institute 核心研究员,加州大学旧金山分校生物物理学和生物化学副教授
- Patrick Hsu ,Arc Institute 联合创始人、生物工程助理教授兼加州大学伯克利分校 Deb 教职研究员
- Brian Hie – 斯坦福大学化学工程助理教授、Dieter Schwarz 基金会斯坦福大学数据科学教职人员、Arc Institute 创新研究员、斯坦福大学进化设计实验室负责人