科学论文多种多样,通常为同一实体使用不同的术语,使用不同的方法来研究生物现象,并在不同的上下文中展示研究结果。从这些论文中提取有意义的见解需要对生物学的深刻理解、对方法的批判性评估,以及从不相关或不太可靠的发现中辨别出可靠发现的能力。
科学家必须仔细解释上下文,评估实验证据的可靠性,并识别研究中潜在的偏见或局限性。鉴于支持疾病建模中关键决策的高精度需求,生物学发现必须仅包含高质量的知识。
大语言模型 (LLM) 在集成到 检索增强生成 (RAG) 流程中时,为自动化和加速生物发现的管理提供了颠覆性的机会。通过优化从科学论文中提取见解的过程,LLM 显著提高了这一过程的可扩展性。这些语言模型可以筛选的论文数量远超任何个人可以手动审查的论文,并发现了更多的相关发现。
CytoReason 团队是 NVIDIA Inception 计划的成员,该团队开发了计算疾病模型,利用 AI 挖掘大量分子和文本数据,为生物制药的决策制定提供支持。通过捕获作用机制 (MOAs) 、基因调控、患者反应等,这些模型可以在组织、细胞和基因层面模拟人类疾病。
这使得研究人员能够预测疾病进展、评估治疗反应、确定生物目标的优先顺序,并识别相关的患者亚群体。CytoReason 计算疾病模型的其中一项分析基于文献中的生物学发现。人工挖掘越来越多的科学论文需要对生物学的复杂理解和大量时间。
本文将介绍 CytoReason 用于加速文献中生物学见解的管护过程的方法。
由 NVIDIA NIM 提供支持的 RAG 管道
CytoReason 团队开发了由 NVIDIA NIM 微服务提供支持的 RAG 管道,以扩大 CytoReason 计算疾病模型中集成的生物学发现的挖掘规模。图 1 展示了流程。

该工作流的输出是一个从文献中提取的生物证据列表。这些证据按实体类型和条件进行汇总,提供全面的总结,提供有关疾病生物学的宝贵见解。图 2 显示了支持克罗恩病患者 IL6 基因表达增加的输出示例。
NVIDIA 推理 LLM NIM 微服务 (例如 Mistral 12B Instruct ) 提供了显著的易用性,实现了与此工作流的无缝集成。通过使用 NIM,该团队实现了高吞吐量,将免疫学家构建此类列表的时间从几天缩短到仅仅几个小时,同时还实现了更高的覆盖率。
结构化输入
“RAG 流程从旨在满足团队生物学家需求的结构化输入开始。此输入由四个关键参数定义:实体类型 (例如 gene、pathway 或 cell type) 、疾病、组织和病症。例如,输入可能涉及检索文献证据,以支持与 Crohn’s disease 在 ileum tissue 中相关的基因表达变化,比较健康状况与 inflamed 条件。”
检索引擎
检索模块负责查询数据库,如 Google Scholar、PubMed 或其他科学资源库,根据输入获取相关论文。为了增加获得多样化发现的可能性,检索引擎处理了从相同输入中编译的数十个查询。然后,从这些查询中检索到的科学论文被整合到一个统一的集合中。每篇论文都存储了详细的元数据,包括标题、作者、出版日期、摘要、Google 片段、期刊或来源以及 DOI/URL。
生物护栏
在检索组件编译论文和相关元数据的存储库后,使用 Mistral 12B 的护栏流程会应用 NIM 来优化集合,使其成为高度具体且相关的论文集。此步骤由包含以下三个标准的提示符指导:
- 基于人类样本的研究 :不包括仅基于非人样本的论文,例如动物模型或体外研究。
- 与疾病和组织的相关性:确保论文专注于特定疾病和相关组织。 例如,一篇论文可能包含有关影响肠道内不同部位的多种 IBD 状况的数据。此步骤可确保具体条件和组织 (例如回肠中的 Crohn’s disease) 符合论文的讨论范围。
- 是否存在比较条件 :比较研究对于获得有意义的见解至关重要,例如识别差异基因表达或发现生物标志物。缺乏比较条件清晰信息的论文 (例如“患病与健康”或“治疗与未治疗”) 将被排除在外,因为它们不太可能与分析目标保持一致。
此外,提示还包括说明、few-shot 示例、解决方案的引导步骤 (chain of thought) 、问题和对高置信度结果的要求等元素。
生物证明提取
在此阶段,我们会分块处理每篇剩余论文的科学内容。对于每个数据块,采用 NVIDIA LLM NIM 来提取与疾病、组织和病症相关的相关实体的证据。提供给 LLM 的提示经过精心设计,类似于生物护栏阶段的范式。
提取的信息以结构化格式 (例如 JSON) 进行组织,从而促进高效的下游处理和分析。最后,输出包括包含论文链接的证明,如图 2 所示。基因根据两种条件 (例如疾病与健康) 的表达变化 (增加、减少、不变或未知) 进行分类。文献中的证据支持克罗恩病患者增加 IL6 基因的表达。

结果
该团队使用专注于克罗恩病在回肠中的基因表达的基准来评估 RAG 管道。在这种情况下,在由免疫学家花费数天的人工处理过程中,共有 101 个基因在健康和发炎疾病之间被识别为差分表达(上调或下调)。
“RAG 流程在几分钟内提取了大约 99 个基因的信息,其中 70 个基因与通过人工筛选确定的基因重叠。其余 29 个基因是新发现,随后由专家验证其准确性。该流程为所有基因生成的证据在 96% 的病例中是准确的。”
值得注意的是,该 pipeline 成功识别了 14 个 hallmark genes 中的 13 个,每个基因都有大量的证据句子。这凸显了它以高精度提取关键信息的能力,因为 hallmark genes 与特定疾病密切相关,并且在科学文献中经常讨论。
总结
从文献中挖掘生物学见解是一项复杂的任务,传统上需要数天时间,并且需要深厚的生物学专业知识。通过利用 NVIDIA NIM 和 LLM 技术,CytoReason 已将此过程所需的时间从几天大幅缩短到几小时。这些结果表明,这些见解的准确性非常高,与人类科学家确定的生物实体相比,其涵盖范围甚至更大。
要开始使用 NVIDIA NIM ,请访问面向开发者的 NVIDIA NIM。
致谢
我们在此感谢 NVIDIA 在整个项目期间提供的专业、耐心和热情支持。我们还要感谢 CytoReason 的同事,他们贡献了自己的时间和专业知识。特别感谢 Greg Minevich、Shimon Sheiba、Inbal Beracha、Dan Aizik、Jonatan Enk、Elina Starosvetsky、Zeev Benshachar、Yoav Schumacher 和 Ronen Schuster 在设计、实施和审查本文中讨论的技术方面发挥的关键作用。他们的见解和反馈对于塑造开发流程和内容都非常宝贵。