人工智能/深度学习

GPU – 添加到 NVIDIA Clara Parabricks v3.6 的加速工具,用于癌症和生殖系分析

NVIDIA Clara Parabricks v3 . 6 的发布为其强大的基因组分析工具套件带来了新的变体调用、注释、筛选和质量控制应用。现在,在基因组分析的每个阶段都有超过 33 个加速工具, NVIDIA Clara Parabricks 提供 GPU 加速的生物信息管道,可以扩展到任何工作负载。

由于基因组和外显子的测序速度比以往任何时候都快,必须对越来越多的原始仪器数据进行映射、对齐和解释,以破译变异及其对疾病的意义。生物信息管道需要跟上基因组分析工具的步伐。基于 CPU 的分析管道通常需要数周或数月的时间收集结果,而基于 GPU 的管道可以在 22 分钟内分析 30 倍全人类基因组,在 4 分钟内分析全人类外显子。

这些快速的周转时间对于跟上下一代测序( NGS )基因组仪器的输出是必要的。这对于大规模人口、癌症中心、 ph ARM 药物开发和基因组研究项目来说是必不可少的,因为这些项目需要出版物的快速结果。

NVIDIA Clara Parabricks v3 . 6 包含:

  1. 新 GPU – 加速变体调用者
  2. 一个易于使用的基于投票的 VCF 合并工具( VBVM )
  3. 数据库注释工具( VCFANNO )
  4. 通过等位基因频率快速过滤 VCF 的新工具( FrequencyFilter )
  5. 用于体细胞和种系管道的 VCF 质量控制工具( VCFQC 和 VCFQCbyBAM )。
图 1 :与 GPU – 加速 GPU Clara Clara 相比,基于开源 Parabricks 的体细胞变体调用工具的分析运行时。相对于社区版本, NVIDIA Clara Parabricks 使 LoFreq 加速 6 倍, SomaticSniper 加速 16 倍, Mutect2 加速 42 倍。这些基准测试是在 4x V100s 上设置的 SEQC-II 基准测试的 50 倍 WGS 匹配肿瘤正常数据上运行的。

加速 LoFreq 和其他躯体来电者

随着 LoFreq 与 Strelka2 、 Mutect2 和 SomaticSniper 一起加入, Clara Parabricks 现在包括 4 个癌症工作流程的躯体细胞呼叫者。 LoFreq 是一个快速而敏感的变量调用程序,用于从 NGS 数据推断 SNV 和 INDEL 。它可以自动适应覆盖率和测序质量的变化,并可应用于体细胞、病毒/准种、宏基因组和细菌数据集。

Clara Parabricks 中的 Lofreq 体细胞调用程序比其本地实例快 10 倍,非常适合调用低频突变。使用基本调用质量和 NGS 数据中固有的其他错误源, Lofreq 提高了调用低于 10% 等位基因频率阈值的体细胞突变的准确性。

在 v3 . 6 中, 经过加速的 LoFreq 仅支持 SNV 调用,而 Indel 调用将在后续版本中提供。
阅读更多>>

图 2 :开源 DeepVariant (蓝色)和 GPU – 加速 NVIDIA Clara Parabricks (绿色)的运行时。 30 倍 Illumina 短读数据的运行时位于左侧; PacBio 35X 长读取数据的运行时位于右侧。 NVIDIA Clara Parabricks “ DeepVariant 比开源版本快 10-15 倍(蓝色的“ DeepVariant ”条与绿色的“ DeepVariant ”条相比)。

使用新的加速工具从数月到数小时

NVIDIA Clara Parabricks v3 . 6 还包括一个 bam2fastq 工具,添加了 smoove 变体调用程序,支持从头突变,以及用于 VCF 处理的新工具(例如注释、筛选和合并)。对 30 倍人类基因组的标准 WGS 分析在DGX A100上完成,耗时 22 分钟,比同一服务器上基于 CPU 的工作流快 80 多倍。通过这种加速,耗时数月的项目现在可以在数小时内完成。

Bam2Fastq 是 GATK Sam2fastq 的加速版本。它将 BAM 或 CRAM 文件转换为 FASTQ 。这对于需要将样本重新对齐到新引用,但删除原始 FASTQ 以节省存储空间的场景非常有用。现在,它们可以从 BAM 中重新生成,并比以前更快地与新引用对齐

在比较后代与其父母的序列数据时,检测生殖系基因组中发生的从头变异( DNV )(也称为三重分析)对于疾病相关变异的研究以及建立世代突变率的基线至关重要。

Parabricks Clara Clara v3 . 6 中包含了一个基于 GPU 的调用 DNV 的工作流,该工作流利用了谷歌的 DeepVariant ,它已经在 trio 分析和其他谱系测序项目中进行了测试。
了解更多>>

对于结构变体调用, NVIDIA Clara Parabricks 已经包括 Manta ,现在添加了 smoove 。 Smoove 简化并加快了短读结构变体的调用和基因分型。它还通过去除指示低电平噪声的对准信号来提高特异性,并且常常导致虚假呼叫。
了解更多>>

图 3 : GPU – NVIDIA Clara Parabricks v3 . 6 中的加速基因组学分析工具。

NVIDIA Clara Parabricks v3 . 6 还关注了变异调用后基因组管道的步骤。 BamBasedVCFQC 是一个 NVIDIA 生成的工具,通过使用原始 BAM 的 SamTools mPileUp 结果来帮助 QC VCF 输出。 Vcfanno 允许用户使用第三方数据源(如 dbSNP )注释 VCF 输出,向 VCF 添加等位基因频率。

FrequencyFiltering 允许根据包含等位基因频率和读取计数信息的数字字段过滤 VCF 中的变量。最后,基于投票的体细胞呼叫者合并( vbvm )用于合并两个或多个 VCF 文件,然后基于简单的基于投票的机制过滤变体,其中变体可以基于已识别特定变体的体细胞呼叫者的数量进行过滤。

 

Tags