计算机视觉/视频分析

与 Jonny Israel 进行人工智能和药物发现问答:NVIDIA 基因组学

下面的帖子将深入探讨NVIDIA 在药物发现和基因组学方面取得的一些成就和当前的工作重点。作为医疗保健和生命科学领域创新的领导者,NVIDIA 正在寻求加入人工智能、深度学习、模拟和药物发现 研究人员和工程师 为球队干杯。如果你读到的内容与你的职业目标一致,请查看当前的工作公告。

NVIDIA 正在利用最新技术,将高性能计算( HPC )与基因组和药物发现研究结合起来。随着基因组测试变得越来越主流,需要分析的数据量也在增加。药物发现也进入了一个新的研究时代,人工智能和深度学习为发现数千种新化合物打开了大门,这些化合物是药物发现的基础。

NVIDIA 的研究人员和工程师,如该组织的负责人约翰尼·伊斯雷尔,正在推动基因组学和药物发现研究。开发 NVIDIA Clara Parabricks 等软件,这是一个 GPU 加速的计算基因组学应用框架,为全基因组、外显子组、癌症基因组和 RNA 测序数据提供端到端分析工作流。

作为NVIDIA 研究公司内容营销部的负责人,我和约翰尼坐下来进一步了解他在团队中的工作。

嘿,约翰尼,很高兴终于和你联系上了。让我们直接跳进去。我想问,鉴于NVIDIA 是一家科技公司,在你们团队工作与在生物科技公司工作有什么不同?

内特,谢谢你的帮助。有几种方法可以考虑这些差异。在生物技术领域,往往有一个非常具体的技术目标或问题。你可以使用任何一种技术或技术组合来解决这个问题。你可能会与问题或目标结为夫妻,但不会与你可能使用的技术类型结为夫妻。在这里,我们追求的产品充分利用了我们在加速计算和人工智能技术方面的专业知识,并在产品目标方面具有更大的灵活性。

例如,几年前我们致力于基因组学,但我们没有为药物发现制造任何产品。今天,我们正在为这一特定领域打造一款产品。原因是药物发现作为一个领域正在发生变化。我们看到了一个追求新目标的机会。因此,我想说,我们在追求新机会方面有着良好的记录,因为我们独特的定位和独特的技能可以提供这些机会。

你能给我举一个独特的机会的例子,让你有别于传统的生物技术公司吗?

我想强调一下我们面向人工智能的药物发现工作的强度。药物发现领域有不少公司与人工智能合作,但投资的水平和重点可能有所不同。对于生物技术公司来说,人工智能是在更广泛的技术库中寻求药物发现项目的几种技术选项之一。

在NVIDIA ,我们知道我们在人工智能和加速计算方面有着独特的优势。因此,由于我们的定位和规模,我们比大多数其他公司更有动力以更高的强度和专注度投资这项工作。因此,对人工智能和药物发现以及并行计算的交叉感兴趣的工程师和科学家会发现我们的工作领域很有趣。

你提到了你在基因组学方面的工作,你能告诉我你过去在基因组学方面的工作是如何影响你目前在药物发现方面的工作的吗?

药物发现领域是多学科的,是一个漫长而复杂的过程。药物发现过程的早期阶段是目标识别阶段。大多数药物发现工作都是基于目标的药物发现工作流程,在这里,你可以找出目标是什么,蛋白质目标是什么,然后开发一种药物。

Genomes can quickly and effectively be annotated to help users with more information.Genomes can quickly and effectively be annotated to help users with more information.
图 1 。 NVIDIA Clara 对测序器分析的数据进行注释。

我们的基因组学工作极大地促进了目标识别问题。你可以在许多人身上建立这些全基因组的数据集,然后对它们进行分析,找出哪些突变与不同类型的疾病有关。通过识别和分析这些突变,我们可以找出与特定疾病相关的蛋白质靶点。然后从那里构建药物发现工作流程的其余部分。

因此,我们使用名为 NVIDIA Clara Parabricks 的软件来绘制基因组学仪器的数据,识别基因组变异,并对它们进行注释。通过将这些基因组学工作流程简化为按钮式软件解决方案并加速该软件,我们正在减少生成大规模基因组学数据集的时间和成本。这些跨多个个体的大规模基因组数据集随后被用于确定可能影响疾病结果的蛋白质靶标,这些蛋白质的结构与我们的 NVIDIA Clara 发现软件一起用于生成和模拟药物化合物及其与这些蛋白质的相互作用。

所以你用 Clara Parabricks 来推动基因组学中的蛋白质鉴定,然后用 Clara 发现来模拟可能被用作药物的化合物?

确切地说,在药物发现的背景下,我们帮助找出特定药物发现项目中最有希望的化合物,这是我们非常激动的事情。我们大约在一年半前开始研究药物发现。我们在 GTC 上宣布——我相信是在 2020 年秋天——我们将开发这个名为 NVIDIA Clara 发现 它将成为一个 NVIDIA 框架,涵盖所有与计算药物发现有关的内容。这就是所有这些前沿工作发生的地方,也是我们目前真正想要招聘的地方。

你想深入研究一下吗?如果我们正在寻找这一领域的工程师和研究人员,他们可能会发现了解更多关于你关注的工作很有趣。

当然,是的。药物发现是一个漫长而复杂的过程,涉及多个学科。当你想到计算药物发现时,有三种动态正在发生,它们可能会从计算的角度重塑这个行业。这三个动力学是你在计算药物发现循环的核心所要做的。你有一种蛋白质——一个目标——你想影响它,你有一种化合物,它可能是一种有待开发的药物。然后给定一种化合物和蛋白质结构,你可以进行各种模拟。你试图预测这是否是一次有用的互动。

Using the power of NVIDIA's AI and GPUs, NVIDIA Clara can simulate compounds for drug discovery.Using the power of NVIDIA's AI and GPUs, NVIDIA Clara can simulate compounds for drug discovery.
图 2 。用户只需点击 NVIDIA Clara 即可生成化合物

传统上,你会有一个这些化合物的数据库。各种各样的公司都在对这些数据库进行编目和生产,如今有数十亿种化合物。然后是蛋白质结构的世界,这是由一群从事结构生物学工作的小组产生的。

现在,有三件事正在发生,我们认为它们可能会改变一切。首先是 DeepMind 和其他团体以字母折叠等形式进行的突破性工作。我们现在使用深度学习来预测蛋白质结构。因此,如果这是真的,那么在未来几年里,我们将有更多的蛋白质结构发挥作用,比我们到目前为止所拥有的要多得多。这是动态第一。

动态二号是通过我们在 Clara 发现中的工作,以及其他行业的工作,我们正在建立生成化合物的能力。想象一下,使用与 StyleGANGaugan 没有太大区别的深度学习,可以生成看似无限多的生成图像。事实证明,你也可以生成各种化合物。我们有一个带有图形用户界面的软件,在这里你可以点击并显示化合物。这意味着在未来几年,随着这种能力的成熟,我们将拥有比以前多 100 万个化合物。在我们有 10 亿之前,再过几年,我们将有 100 亿种化合物需要处理。这仍然是表面现象,因为宇宙中潜在化合物的数量可能是 10 到 60 。 这是第二个动态数字。

因此,行业内的第一个动态正在发生,NVIDIA 正在促成这一动态。对于动态二号,我们正在为此打造一款产品。我们有 Clara 发现,我们有一个特定的工作流程和一种叫做 MegaMolBART 的技术。

MegaMolBART 采用了 Megatron ,它最初是为大规模自然语言处理( NLP )而开发的,我们将 Megatron 重新用于化学语言,因为有一种方法可以使用字符串格式表示分子。因此,你可以重新利用所有这些 NLP 技术,而将 Megatron 推向市场的技术正是为我们药物发现工作的这一部分提供动力的技术。这是同一个名为 NeMoMegatron 的软件。

 
图 3 。用 Clara 发现的 MegaMolBart 加速药物发现

第三个动态数字是,如果你比以前多了一百万个化合物,你比以前多了几十个蛋白质结构,那么你想要模拟的组合比以前多了数百万个。

现在,模拟,正如我们在计算上所知道的,可能是一个非常密集的问题。事实上, CUDA 的早期使用案例之一是在这种模拟中的分子动力学和科学计算中。但问题是,你如何,如何让更多的人参与其中?我们正在组建一个团队来研究这种模拟能力,我们正在聘请分子动力学、力场开发、高性能计算和深度学习应用程序方面的专家来模拟。我们还聘请了化学信息学专家、深度学习研究人员和工程师,以推进我们利用人工智能生成化合物和与蛋白质相互作用的技术。

我想这就是我们在这里所做的。这是一个独特的群体,因为我们推出产品,也有产品驱动研究的空间。我们与整个公司的工程团队广泛合作,利用能够推进这些产品的技术,并与各种研究团队合作,利用整个公司的人工智能突破。

你能详述一下你刚才说的吗?你说它与NVIDIA 的其他研究领域有什么不同?

我想说的是,就我们正在进行的研究而言,大多数研究实验室比我们有更多的灵活性。我们的组织在工程和研究之间保持健康的平衡,这样我们既可以运送产品,又有足够的带宽来追求创新机会。但这确实意味着我们的研究目标或研究议程可能在某种程度上受到产品目标的限制,而典型的研究实验室可能不会受到限制。在一个典型的学术实验室,甚至是一个行业研究小组,我希望有更多的灵活性,但这是一个权衡。这是灵活性和交付软件产品所需的高度关注之间的权衡。

这就是我要问的。那么,研究人员想要加入你们的团队有什么价值呢?

问得好。我想说的是,我们倾向于吸引那些对创新研究感兴趣并热衷于确保其研究具有商业影响力的研究人员。对于这些人来说,这种权衡是有意义的。他们愿意根据需要限制和集中研究,以产生他们想要的那种商业影响。

所以他们的研究更侧重于改善 Clara 发现和 Clara 巨摩尔巴特?

没错。因此,我们需要使研究活动与产品目标保持一致。

你提到,你的大部分工作都涉及工程师,你认为这些工程师在生物技术方面需要有多渊博的知识?

一个很好的问题。我发现很多有工程背景的人在工作中都学到了这一点。更重要的不是行业知识,而是真正的兴趣。我们这里有很多工程师的例子,他们可能在大学里学习过一些这方面的知识,或者他们只是读了一些这方面的知识,他们有正确的工程背景。

你知道,在一年或两年的时间里,他们非常了解自己的行业,因为他们与我们的合作伙伴和合作伙伴合作。所以我想说兴趣是最重要的。

我记得你一开始提到,任何对人工智能、模拟和药物发现交叉感兴趣的人都会觉得这项工作很有趣。

确切地这是一项激动人心且极具挑战性的工作,我们只是触及表面。我期待着未来几年,随着我们对NVIDIA Clara 及其为生物技术界做出贡献的潜力的深入了解,将会带来什么。

额外资源

如果您有兴趣了解更多关于 NVIDIA 基因组学的信息,请查看我们的 Genomics 页面。

要了解 NVIDIA 正在进行的新研究,请访问 NVIDIA Research

 

Tags