人工智能/深度学习

认识研究者: Avantika Lal ,发现基因、蛋白质和 COVID-19 改变的生物过程

Avantika Lal 博士是 NVIDIA 的一位深入学习和基因组学科学家,以前是斯坦福大学的研究员。她拥有基因组学博士学位,是传染病和癌症基因组学方面的专家。在 NVIDIA ,她开发了分析基因组数据的人工智能技术,并应用这些方法来了解人类生物学,开发新的针对疾病的治疗方法。

尽管在大流行开始后, COVID-19 的治疗有了许多改进,但仍然很难治疗。部分原因是我们对病毒如何影响人类细胞的基本生物学认识存在差距。开发有效的治疗方法依赖于对这种疾病的基本机制的更好理解。 NVIDIA 的 研究 揭示了这些基本机制的一些关键发现,发现了人类细胞中由 SARS-CoV-2 特异性改变的基因、蛋白质和生物过程。

Avantika Lal, PhD in genetics
Avantika Lal 博士。

是什么激励你进入人工智能/数字图书馆的?你是怎么第一次爱上这个领域的?

在我攻读遗传学博士学位期间,我意识到遗传学正在迅速成为大数据分析的科学。越来越清楚的是,生物学的未来在于挖掘大量的基因组数据集,以了解生物组分之间的关系,并能够在此基础上做出新的预测。人工智能和深度学习是实现这一目标的最有希望的工具。在那之后的几年里,随着这些方法在生物学中越来越普遍,我很高兴能成为改变的一部分,并且产生了否则是不可能的见解。

你能谈谈你目前的研究吗?

我一直在与来自八个不同机构的研究小组合作,通过挖掘公共数据集来研究人类细胞对 COVID-19 感染的遗传反应。当细胞被病毒感染时,它会触发免疫反应,从而改变细胞的活性并向免疫系统发出信号。这种病毒还“劫持”了细胞的许多组成部分以支持其生命周期,从而破坏了细胞的正常功能。

我们分析了 DNA 和 RNA 测序实验中的公共数据,以破译和预测感染 SARS-CoV-2 病毒的人肺细胞中哪些基因、蛋白质和生物过程受到影响。我们看到的迹象表明,感染 SARS-CoV-2 的细胞显示出在感染其他呼吸道病毒时不常见的变化。例如,我们鉴定出 64 个基因,它们的活性在感染 SARS-CoV-2 病毒的多种人类肺细胞中持续变化,但不受其他病毒的影响。

A graphic showing how the input data leads to specific analyses, separated by transcriptomic responses to SARS-CoV-2 and SARS-CoV-2 interaction with human cells.
图 1 。生物信息工作流在本研究中的应用概述。

是什么激励你去应对 COVID-19 的挑战?

尽管我们已经从大流行的开始学到了很多,但是治疗 COVID-19 仍然很困难。部分原因是我们还没有全面了解病毒是如何影响人类细胞的。了解这种疾病的基本机制将有助于我们开发有效的治疗方法。

你在这个项目中面临的最大的研究挑战是什么?

在大流行初期,数据可用性是一个挑战,当时关于 SARS-CoV-2 感染细胞的实验数据很少公开。新的数据现在已经出来了,很高兴看到大多数科学家在期刊出版之前就可以获得 COVID-19 的数据。

另一个挑战是,用于预测遗传相互作用的计算模型还远远不够完善,而且经常产生假阳性结果。理想情况下,这些方法可以用来筛选出可以通过实验验证的有趣的候选者。我们很高兴看到实验研究的出现,以帮助我们评估我们的计算预测的准确性。

你用什么技术来克服这些挑战?

我们的分析之一旨在预测人类 RNA 结合蛋白与 SARS-CoV-2 的 RNA 基因组之间的相互作用。这些蛋白质依赖于 RNA 序列与 RNA 分子结合,并可能影响 SARS-CoV-2 的复制、功能和稳定性。蛋白质与 RNA 序列结合的概率可以被编码为一种称为位置权重矩阵的矩阵表示。

我们将病毒的 RNA 基因组序列与这些基质进行卷积,以确定蛋白质可能与 RNA 结合的潜在位点。我们目前正在通过在 GPUs 上使用 TensorFlow 来加速此操作。此外,在过去的几年里,已经出现了更精确地预测 RNA 与蛋白质相互作用的深度学习方法。通过将深度学习和传统的 GPUs 预测相结合,我们的目标是建立一个框架来快速准确地预测 SARS-CoV-2 和其他病毒基因组中 RNA 与蛋白质的相互作用。

你的研究对更大的 COVID-19 研究社区有什么影响?

我们的计算分析发现,人类细胞中的基因、蛋白质和生物过程在 SARS-CoV-2 感染中发生了特异性改变。我们希望这种理解可以转化为更好的治疗 COVID-19 。在许多情况下,我们所看到的变化似乎是 SARS-CoV-2 特有的,在其他呼吸道病毒感染中没有观察到。这有助于我们了解 COVID-19 的独特性质。

你的下一步研究进展是什么?你希望这会导致什么?

目前,我们的目标是将我们的一些分析扩展到除 COVID-19 之外的其他病毒感染。这个知识库将提高对一般病毒感染的科学理解,并通过与其他病毒进行更彻底的比较来进一步加深我们对 COVID-19 的理解。

COVID-19 给全球研究界带来了哪些独特的机遇?

我们的研究是一个很好的例子,说明 COVID-19 如何激发研究界的跨国界合作。这项研究由来自 6 个国家 8 个机构的 13 位作者进行。我很高兴看到科学界承诺公开分享 COVID-19 的相关数据,而不需要等待发表,以及几家期刊采取主动,让所有 COVID-19 相关论文不用付费墙。

Graphic showing the human factors specific to SARS-CoV-2 infection detected by our analyses, covering genes, metabolites, human proteins, and viral proteins.
图 2 。通过我们的分析检测到的 SARS-CoV-2 感染的人为因素概述。

图 2 显示, SARS-CoV-2 感染的特异因子包括人类 RBPs ,其结合位点在 SARS-CoV-2 基因组中富集和保守,但在相关病毒的基因组中没有;和基因,对 SARS-CoV-2 感染肺上皮细胞而非其他受试病毒感染时持续改变的异构体和代谢物; ECM (细胞外基质)。

在进一步推进你的研究领域的技术进步方面,你下一步期待什么?

我们已经看到机器学习和深度学习技术在医学影像诊断 COVID-19 中的广泛应用。基因组学中的机器学习仍然是一个发展中的领域,很少有研究利用这些能力来分析 COVID-19 基因组数据。随着越来越多的数据集变得可用,我希望看到更多的 ML 方法应用于从 COVID-19 基因组数据中提取生物学见解。

COVID-19 是如何塑造或重塑你的研究工作流程的?研究界将如何适应“新常态”?’

作为一名计算生物学家,我很幸运能够相对正常地继续我的研究。最大的破坏是取消或虚拟化主要会议,研究人员通常会在这些会议上联系并讨论他们正在进行的工作。作为一个社区,我们必须想出更好的方法让研究人员在虚拟平台上见面、联系、协作和寻求建议。

你对下一代研究人员有什么建议?

研究正在变得越来越跨学科 – 广泛阅读其他领域的最新发展,并思考如何将其应用于你的领域是很好的。基因组学中的人工智能就是一个很好的例子!

更多阅读

要了解更多关于阿凡提卡在基因组分析方面的工作,请阅读她的最新文章 用 RAPIDS 加速单细胞基因组分析

Tags