数据科学

借助深度学习深入了解体细胞突变

NVIDIA Parabricks 扩展了 NVIDIA 对通过深度学习解决组学挑战的重视,并继续加速基因组学仪器的发展。NVIDIA Parabricks v4.3.1 由欧洲人类遗传学协会 (ESHG) 发布,引入了用于体细胞数据变异识别的新功能,并升级到行业领先的工具的最新版本。此版本遵循 最近发布的 Parabricks v4.3 在 NVIDIA GTC 2024 年大会上发布。

以下是新功能:

  • 在短读长测序中支持 Google 的 DeepSomatic
  • DeepVariant (1.6.1) 和 Minimap2 (v2.26) 的升级版本
  • 上一个 Parabricks 4.3 版本的基准测试
Diagram shows NIMS and CUDA microservices as the top layer, Parabricks multi-omics alignment and high-accuracy variant calling next to RAPIDS, MONAI, and BioNeMo single cell and spatial as the middle layer, and DGX, NVIDIA Certified systems and the cloud as the base layer.
图 1.用于基因组分析的 NVIDIA AI 和 GPU 加速软件套件

基因组分析的变体识别 

变体识别是基因组分析中高吞吐量测序的关键组成部分。它使科学家能够为生殖细胞和体细胞工作流程识别全基因组、外显子组和基因面板的变体,从而更好地了解疾病和潜在治疗方法。

然而,变异检测是一个非常耗时和费力的过程,需要大量的计算资源。在研究全基因组测序时尤其如此。仅序列比对和变异检测就需要足够的带宽来将研究序列与参考基因组对齐,然后检测插入或删除等变异。

因此,我们开发了专门的算法和工具,以加速变异识别,并使研究人员能够更快、更准确地执行关键步骤。

适用于生殖细胞数据的 DeepVariant

变体识别最常用的工具之一是 DeepVariant,这是一种基于深度学习的变体识别软件,由 Google 开发,可以以高准确度和可扩展性检测各种变体,从而有效分析大型数据集。它对于减少误报和检测传统变体识别软件经常错过的变体特别有价值。此外,它是开源的,让任何想要使用它的人都可以访问。

生殖细胞中发生生殖细胞变异,也称为生殖细胞突变。DeepVariant 已在 NVIDIA Parabricks 中提供,用于 GPU 加速的生殖细胞变异识别,现已在最新的 Parabricks 4.3.1 版本中升级到版本 1.6.1、

用于体细胞数据的 DeepSomatic

体细胞变异或体细胞突变发生在受精后,会影响非生殖细胞 (生殖细胞或精细胞)。与生殖细胞变异不同,体细胞变异并非遗传性的,而是随机发生的。

DeepSomatic 是体细胞数据的 DeepVariant 等效函数。与基于深度学习的 DeepVariant 等效函数与用于生殖细胞识别的 GATK HaplotypeCaller 相同,DeepSomatic 是基于深度学习的 GATK Mutect2 等效函数,用于体细胞识别。

DeepSomatic 与种系对应的 DeepVariant 有相似之处,包括更高的准确性变异识别和开源可用性。但是,它是专为体细胞数据构建的。在最新的 4.3.1 版本中,Parabricks 现在支持 DeepSomatic 进行短读测序,并利用 GPU 加速的强大功能进行体细胞变异识别。

Diagram has steps that include candidate site identification by allele frequency on tumor reads, pileup image generation of the surrounding region in both tumor and normal samples, and CNN classification.
图 2.DeepSomatic 变体识别

“DeepSomatic 等高精度深度学习工具对于推进基因组学研究和加深我们对体细胞突变的理解至关重要,”Element Biosciences 信息学高级副总裁 Francisco Garcia 博士解释道,“它们与 Element 支持 Q50 的高质量 UltraQ 测序相结合,为分析高深度癌症基因组提供了强大的解决方案。我们很高兴能使用最新版本 Parabricks 中提供的 GPU 加速工具。”

An image of Element BioScience’s AVITI.
图 3.Element BioScience 的 AVITI

NVIDIA Parabricks 中的 Minimap2 v2.26 升级 

Minimap2 是一款热门工具,用于将长读序列与大型参考数据库进行比对。即使在插入、删除和反演时,Minimap2 也能有效地对齐长测序。这使得它对分析长读序列数据的测序平台 (例如 PacBio) 特别有用。

最新的 Minimap v2.26 升级包括改进 RNA 测序数据的拼接比对,以及改进与长读仪器提供商的集成。长读仪器提供商之一 PacBio 构建了 pbmm2 作为 Minimap2 的包装器,用于映射从其测序平台生成的长读测序数据。

PacBio 产品管理高级总监 Aaron Wegner 解释道:“最新版 Parabricks 包含的 minimap2 版本与 PacBio 的 pbmm2 读取对齐器使用的版本相同。我很高兴看到 NVIDIA 等合作伙伴继续更轻松、更快速地分析具有颠覆性的 Revio 系统中的 HiFi 长读长数据。”

An image of the PacBio Revio sequencing platform.
图 4.PacBio Revio

最新的 Minimap2 性能基准测试表明,使用 4 个 L4 GPU 时,运行时间为 28.7 分钟,使用 2 个 NVIDIA H100 GPU 时,运行时间为 25.6 分钟 (基于从 PacBio 数据测序的 35 倍全基因组)。

Parabricks 基准测试 

除了每个版本的新功能和升级之外, NVIDIA 还致力于不断提高各种仪器、工具和 GPU 的基准性能。

表 1 概述了基于热门 NVIDIA GPU 的上一个 Parabricks v4.3 版本的最新基准测试,这些测试实现了最快的速度 (H100) 和最低的每个样本成本 (L4)。

  H100
更快的速度
L4 级
每个样本的成本最低
  2 个 GPU 4 个 GPU 2 个 GPU 4 个 GPU 8 块 GPU
FQ2BAM 17.18 9.88 47.35 21.77 13.60
BWA 方法 27.43 15.12 77.35% 39.77 22.47
DeepVariant 9.67 5.82 23.48 13.10 7.8
单倍型识别程序 10.57 4.90 12.00 7.73 4.27
Mutect2 25.80 13.60 55.8 32.50 17.5
表 1.性能时间 (分钟)

使用 Illumina 数据对 FQ2BAM、BWA-Meth、DeepVariant 和 Haplotype Caller 进行 30 倍的全基因组测序分析。
使用 Illumina 数据对 Mutect2 进行 50 倍的肿瘤和正常全基因组测序分析。

开始使用 

借助最新的 4.3.1 版本,进行癌症测序的科学家和研究人员现在可以使用 DeepSomatic 进行短读测序。Parabricks 4.3.1 提供了易于使用的加速版本,用于体细胞变异识别,从而加速了 Google 基于深度学习的方法。

要立即下载并开始使用,请参阅 NVIDIA Parabricks容器。

 

Tags