数据中心/云端

利用 NVIDIA Parabricks 加速 Pangenome 比对挖掘新的生物学发现

NVIDIA Parabricks 是一款可扩展的基因组学分析软件套件,可以通过加速计算和深度学习解决组学挑战,实现新的科学突破。正如在美国人类遗传学协会(ASHG)全国会议上宣布的那样, NVIDIA Parabricks v4.4 引入了新的特性和功能,包括加速的全基因组图形比对。

Parabricks v4.4 版本的核心新功能是为 Giraffe 提供单端和配对支持,以加速 pangenome 图形比对。该版本还包括针对 Minimap2 和 GATK HaplotypeCaller 的其他功能,以及工具性能改进。它还扩展了协作范围,以支持基因组测序和软件平台。

版本亮点包括:

新功能 

  • GPU 加速的 Giraffe,提供单端和配对端支持
  • Pbmm2 封装器,用于原生 PacBio 输入和 Minimap2 输出
  • GATK HaplotypeCaller 中的等位基因选项支持
  • 支持未对齐的 BAM:FQ2BAM(BWA-MEM)和 Minimap2

改进的功能 

  • 用于 PacBio 和 Oxford Nanopore(ONT)数据的更快 Minimap2
  • 用于 ONT 数据的 DeepVariant 加速
  • 更快的 CRAM 文件写入器(比仅使用 CPU 的速度快 2 倍)
  • ● 基于单 GPU 系统(NVIDIA Grace Hopper)的 30 分钟端到端 30 倍全基因组测序(WGS)生殖细胞

新的合作和基准测试 

  • Parabricks 支持的完整基因组学数据
  • Parabricks 现已在 Basepair 平台上推出
  • 更新了基准测试,包括 DeepSomatic 和 Giraffe。

最新版本的 Parabricks v4.4 使科学家和研究人员能够使用 Giraffe 进行 pangenome 比对。通过了解 pangenome 中的遗传多样性,并使用 Parabricks v4.4 中提供的 Giraffe 加速版本,科学家可以更快地发现新的生物学见解。

从 pangenomes 中了解遗传多样性 

为了了解疾病的根本原因,我们历来将个体基因组与线性参考基因组进行比较。虽然线性参考基因组不是个体的 DNA 序列,而是由几个个体的 DNA 构建的平均基因组,但它可以作为单一共识单倍体的公认表征。

Genome Reference Consortium Human Build 38 (GRCh38) 是目前在基因研究中使用最广泛的人类参考基因组,作为不同基因研究的比较。它本质上在变异识别中引入偏差和错误,尤其是在重复性或高度多态性区域。另外,它可能无法充分代表少数群体的基因变异,从而限制了对遗传多样性的完整频谱的理解。

相比之下,通过将多个参考基因组集成到一个统一的结构中,基于图形的 pangenome 为该问题提供了可靠的解决方案。这种方法可以有效地捕获物种内的遗传多样性,从而更准确地检测和分析不同基因组的变异。通过将基因组数据表示为图形,pangenome 图可以实现全面和无偏的遗传变异分析,克服依赖单个参考基因组带来的限制。

The reference genome as a linear haploid sequence is limited in how well it can represent genetic diversity of populations, including single nucleotide polymorphisms (SNPs), indels and structural variants that are more common amongst specific subpopulations.
Aligning to a pangenome graph reference enables high accuracy genomic analysis by providing representation for many diverse subpopulations.
图 1. 线性参考基因组与 pangenome 图的比较

图基因组 

为了表示 pangenome 数据,图基因组提供了一个统一的框架,用于表示多个基因组的遗传变异。数据的图形结构有助于更轻松地理解结构变化,包括插入、删除和重排。

图基因组对于提高变异识别的准确性特别有用,因为它们可以帮助提高基因变异的检测能力。然而,分析变得更具挑战性,尤其是在比对方面,因为基于图形的表征引入的复杂性高于单个参考序列的线性序列。此外,随着图基因组的大小和复杂性的增长,计算要求和处理可能变得不切实际。

使用 Giraffe 加速 pangenome 比对 

Giraffe 是一个支持 pangenome 图比对的软件工具。它由加州大学圣克鲁兹分校 (UCSC) 开发,特别用于大规模基因组测序项目,有助于比对、组装和变异识别。Giraffe 能够将新的基因组序列与 pangenome 进行比较,而不仅仅是单个参考基因组。

借助最新的 v4.4 版本,Parabricks 现在支持 Giraffe 处理单端和配对端数据,从而为 pangenome 比对提供 GPU 加速。另外,结果与 开源版本的 Giraffe 完全相同,这样研究人员就可以使用 Parabricks v4.4 复制开源工具。因此,科学家和研究人员可以提高准确性并改进变异识别,尤其是在基因变异和不同人群中。

加州大学圣克鲁兹基因组学研究所教授兼副主任 Benedict Paten 博士解释道:“二十多年来,当前的人类参考基因组一直是人类遗传学研究的基石。但是,它仅包含每个染色体的单个代表性序列,因此根据定义,它无法捕获人口中存在的丰富变异。为了了解人口的共同遗传多样性,人类 pangenome 是必不可少的。”

Paten 博士补充道:“Pangenomes 在一个参考结构中编码数百个,甚至在未来编码数千个单个基因组。它们更好地代表了我们,确保研究和未来的精确治疗考虑到我们的个体多样性。在 UCSC,我们有一个研究团队致力于构建使用 Pangenome 的工具。其中包括 Giraffe,这是一种用于将新样本映射到 Pangenome 的工具。我们很高兴能与 NVIDIA 团队合作,加速 Giraffe 的发展,并使其成为未来项目的主要工具。这可能会产生巨大的下游影响。”

新的协作 

除了 Parabricks v4.4 的最新功能外,NVIDIA 还扩展了与基因组测序和软件平台(包括 Complete Genomics 和 Basepair)的合作。

完整的基因组学 

Complete Genomics 致力于通过可改善生活的完整测序解决方案推动基因组学发展。Complete Genomics 利用其专有的 DNBSEQ(DNA Nanoball Sequencing)技术,提供 WGS、单细胞分析、空间转录组学和微生物学等各种应用。该技术可实现深度测序覆盖,同时确保高精度和低错误率。Parabricks 种系工作流程现在可以使用来自 Complete Genomics 测序仪(包括 DNBSEQ-T7 和 DNBSEQ-G400)的数据。

DNBSEQ 与 Parabricks 技术的集成为二级基因组分析提供了一种经济高效的加速解决方案。例如,在 DNBSEQ-T7 测序仪上使用 fq2bam 和 haplotypecaller 工作流处理一个 30x WGS 样本,可以根据 GPU 实例优化速度或成本。

  • 速度 :在四个 NVIDIA L40 GPU 上运行 16 分钟
  • 成本 :购买四块 NVIDIA L4 GPU 需支付 2.67 美元

“NVIDIA Parabricks 的集成使我们能够充分利用 DNBSEQ-T7 测序平台的全部潜力,”Complete Genomics 产品和营销副总裁 Rob Tarbox 说,“通过将高质量的测序数据与 Parabricks 的速度和准确性相结合,我们使研究人员能够更高效、更经济地发现变异,最终提高精准医疗水平并改善患者的治疗效果。

探索快速入门指南 ,详细了解使用 Complete Genomics 数据对 Parabricks 种系工作流程进行基准测试。

The Complete Genomics DNBSEQ-T7 sequencer.
图 2. Complete Genomics DNBSEQ-T7 测序仪。图片来源:Complete Genomics

碱基对 

Basepair 是下一代测序(NGS)数据分析平台。它的点按用户界面有助于更广泛的科学家更轻松地进行基因组数据分析和可视化。

现在,用户可以通过使用由 AWS HealthOmics 提供支持的 Basepair 上的 Parabricks 来增强基因组数据分析。Basepair 上的 Parabricks 为用户提供直观的图形用户界面(GUI),以及完全在自己的 AWS 帐户中为计算和存储提供的交互式可视化效果。

Basepair 首席商务官 Simon Valentine 表示:“我们很高兴能够支持 Basepair 上的 Parabricks,为其提供加速工具和更全面、更直观的基因组数据分析方式。Parabricks 提供了一些目前非常有效的生物信息学工具。通过 Basepair 直观的点击界面提供这些工具,我们可以携手合作,让更多的科学家可以使用这些工具。”

Screenshot of NVIDIA Parabricks running on the Basepair platform, with fields for pipeline, samples, analysis name, and omics.
图 3. 在 Basepair 平台上运行的 NVIDIA Parabricks。图片来源:Basepair

最新的 Parabricks 基准测试 

除了每个版本的新功能和升级外,NVIDIA 还在不断努力提升各类工具、仪器和 GPU 的基准测试性能。

表 1 概述了热门 NVIDIA GPU 上最快速度(NVIDIA H100)和最低每个样本成本(NVIDIA L4)的最新基准测试,包括 Parabricks v4.4 中的 Giraffe 和 v4.3.1 中的 DeepSomatic。

  NVIDIA H100 GPU
更快的速度
NVIDIA L4 GPU
每个样本的成本最低
  2 个 GPU 4 个 GPU 2 个 GPU 4 个 GPU
Giraffe 65.8 42.1 84.9% 44.7
DeepSomatic 56.28 35.13 215.53 108.55
FQ2BAM (BWA-MEM) 13.8 9.15 48.15 27.88
BWA-Meth 27.43 15.12 77.35% 39.77
DeepVariant 9.6 5.82 23.48 13.10
HaplotypeCaller 10.57 4.90 12.00 7.73
Mutect2 25.80 13.60 55.8 32.50
表 1. 基于热门 NVIDIA GPU 的最新基准测试,测试速度更快,每个样本的成本更低 性能时间(分钟)

使用 Illumina 数据对 FQ2BAM (BWA-Mem)、BWA-Meth、DeepVariant 和 Haplotype Caller 进行 30 倍全基因组测序。使用 Illumina 数据对 DeepSomatic 和 Mutect2 进行 50 倍肿瘤正常全基因组测序。

开始使用 

借助 NVIDIA Parabricks v4.4 版本,使用图基因组的科学家和研究人员现在可以访问 Giraffe 进行 pangenome 比对。Parabricks v4.4 支持加州大学圣克鲁兹分校(UCSC)的突破性工具,通过加速版的 Giraffe 来帮助发现新的生物学见解,现在甚至更快。

下载 NVIDIA Parabricks ,开始使用 GPU 加速的基因组学分析,并在 NVIDIA Parabricks 开发者论坛 上参与对话。

 

标签