数据科学

用 NVIDIA Clara Parabricks v4.0 大众化和加速基因组测序分析

 

计算生物学领域依赖于快速、准确和易于使用的生物信息学工具。随着下一代测序( NGS )的速度越来越快、成本越来越低,数据洪流正在出现,人们对可访问、高通量、行业标准分析的需求日益增长。

2022 年 GTC ,我们宣布发布 NVIDIA Clara Parabricks v4.0 ,这对基因组研究人员和生物信息学家部署和扩展基因组测序分析管道的方式带来了重大改进。

  • Clara Parabricks 软件现在对 NGC 研究人员免费提供 作为单独的工具或统一的容器。需要企业级支持的客户可以通过 NVIDIA AI Enterprise 获得许可版本。
  • Clara Parabricks 现在很容易集成到通用工作流语言中,例如工作流描述语言( WDL )和 NextFlow ,用于将 GPU 加速工具和第三方工具交织在一起,以及在本地和云中进行可扩展部署。还支持 Broad Institute 的 Cromwell 工作流管理系统。
  • CPU Parabricks 现在可以部署在 Broad Institute 的 Terra SaaS platform 上,使 25000 多名 Terra 科学家可以使用它。与 Clara 环境中的 24 小时相比,使用 Clara Parabricks 可以将基因组分析缩短到一小时多一点,同时将整个基因组测序分析的成本降低 50% 。
  • Clara Parabricks 继续专注于 GPU 加速、行业标准和基于深度学习的工具,并包括最新的 DeepVariant v1.4 生殖线调用者。 Clara Parabricks 的重点是开发与定序器无关的工具和深度学习方法。
  • Clara Parabricks 现在可以通过更多的云提供商和合作伙伴使用,包括 Amazon Web Services 、 Google cloud Platform 、 Terra 、 DNAnexus 、 Lifebit 、 Agilent Technologies 、英国生物银行研究分析平台( RAP )、 Oracle cloud Infrastructure 、 Naver cloud 、阿里云和百度 AI cloud 。

研发的免许可使用

Clara Parabricks v4.0 现在可完全免费用于研发。这意味着比以往任何时候都更少的技术障碍,包括删除以前版本的基因组分析软件中存在的安装脚本和企业许可服务器。

这也意味着大大简化了部署,能够在任何 NVIDIA 认证的系统上快速轻松地拉取和运行 Clara Parabricks Docker 容器,在本地或云中使用最为方便。

需要企业级技术和工程支持以支持其生产工作流的商业用户,或者需要与 NVIDIA 专家合作开发新功能、应用程序和性能优化的商业用户现在可以订阅 NVIDIA AI Enterprise Support 。 NVIDIA AI Enterprise v3.0 即将发布, Parabricks v4.0 将提供此支持。

NVIDIA AI Enterprise Support 订阅提供全栈支持(从容器级别,到完全本地和云部署)、访问 NVIDIA Parabricks 专家、安全通知、 IT 或数据科学等领域的企业培训,以及对 TensorFlow PyTorchNVIDIA TensorRTNVIDIA RAPIDS 的深度学习支持。了解有关 NVIDIA AI Enterprise Support Services and Training 的更多信息。

A table showing Clara Parabricks license options.
图 1.免费访问 Clara Parabricks 中的所有工具,包括管道和工作流

在 WDL 和 NextFlow 工作流中部署

现在,您可以直接从 NGC collection containers 中提取 Clara Parabricks ,而无需授权服务器,这意味着它可以轻松地作为多种系统和平台上可扩展和灵活的生物信息学工作流的一部分运行。

这包括流行的生物信息学工作流管理器 WDL 和 NextFlow ,可在新的 Clara-Parabricks-Workflows GitHub repo 上获得,供生物信息学社区通用。您可以找到以下 WDL 和 NextFlow 工作流或模块:

  • BWA-MEM 与 Clara Parabricks FQ2BAM 对齐和处理
  • 运行加速 HaplotypeCaller 和 DeepVariant 的生殖线调用工作流,可选择应用 GATK 最佳实践
  • BAM2FQ2BAM 工作流程,用于提取读取并重新对准新的参考基因组(例如 T2T 完成的人类基因组)
  • 使用加速 Mutect2 的体细胞工作流,具有可选的法线面板
  • 为 VCF 中的体变量调用生成新法线面板的工作流
  • 用于构建参考索引的工作流(对于前面列出的几个工作流和任务来说是必需的)

此外,与国家癌症研究所的研究人员合作开发的三组数据中的从头突变调用工作流将于今年晚些时候提供。

这些工作流带来了令人印象深刻的灵活性,使用户能够将 Clara Parabricks 的 GPU 加速工具与第三方工具交织在一起。他们可以为每个任务指定单独的计算资源,然后在本地集群(例如,在 SLURM 上)或云平台上大规模部署。有关示例配置和推荐的 GPU 实例,请参阅 Clara-Parabricks-Workflows GitHub repo 。

A diagram showing how to pull directly from the Clara Parabricks Docker and specify gpuType and gpuCount compute requirements.
图 2.直接从 Clara Parabricks Docker 容器中拉出并指定 gpuType and gpuCount compute requirements

在本地或云中运行

Clara Parabricks 非常适合云部署。它可以在多种云平台上运行,包括 Amazon Web Services 、 Google Cloud Services 、 DNAnexus 、 Lifebit 、百度人工云、 Naver cloud 、 Oracle cloud Infrastructure 、阿里云、 Terra 等。

Clara Parabricks v4.0 WDL 工作流现已集成到 Broad Institute 的 Terra 平台中,供 25000 多名科学家进行加速基因组分析。 Terra 的可扩展平台运行在 Google Cloud 之上,后者拥有 NVIDIA 车队 GPU 。在 CPU 环境中,对 30 倍全基因组进行 FASTQ 到 VCF 分析需要 24 小时,而在 Terra 环境中, Clara Parabricks 只需要一个多小时。此外,成本降低了 50% 以上,从 5 美元降至 2 美元(图 3 )。

在 Terra 平台中,研究人员可以比在本地环境中更容易地访问大量数据。他们只需按一下按钮就可以访问 Terra Community Workbench Parabricks 工作区,而不是手动管理和配置硬件。从 Clara 上的 Clara Parabricks 页面开始。

Graph showing time and cost comparison between CPU and GPU for 30x whole genome sequencing in Terra.
图 3.在 Terra 中运行的 FASTQ 到 VCF

当使用 Clara Parabricks 和 NVIDIA GPU 时, 30 倍全基因组(包括 BWA-MEM 、 MarkDuplicates 、 BQSR 和 HaplotypeCaller )的种系分析的运行时间和计算成本(可抢占定价)大大减少。

Clara Parabricks v4.0 工具和功能

Clara Parabricks v4.0 是一个比以前版本更专注的基因组分析工具集,具有快速校准、金标准处理和高精度变体调用。它提供了自由无缝地交织 GPU 和 CPU 任务的灵活性,并优先考虑基因组学工作流中最流行和瓶颈工具的 GPU 加速。 Clara Parabricks 还可以整合基因组学中的前沿深度学习方法。

Diagram showing the NVIDIA Clara Parabricks v4.0 toolset.
图 4. NVIDIA Clara Parabricks v4.0 工具集

单个 Clara Parabricks 工具现在也可以在 Clara Parabricks collection on NGC 中的单个容器中提供,或者作为一个统一的容器,将所有工具包含在一个容器中。对于单个容器,生物信息学家可以访问精益容器, Clara Parabricks 团队可以推动更频繁的敏捷工具发布,以访问最新版本。

这些版本中的第一个是针对 DeepVariant 1.4 版。这个最新版本的 DeepVarant 提高了多个基因组测序器的准确性。 Illumina 全基因组和全外显子组模型有一个额外的读 – 插入 – 大小特征,可减少 4-10% 的错误,并在 PacBio 测序运行中直接定相以获得更准确的变体调用。这意味着您现在可以使用诸如 DeepVariant WhatsHap DeepVariant 或 PEPPER Margin DeepVarient 之类的管道,直接在 DeepVaarint 中执行阶段变量调用 PacBio 数据的高精度过程。

DeepVariant v1.4 还与新兴基因组测序仪器的多个自定义 DeepVariant 模型兼容。与 NVIDIA Clara Parabricks 团队合作, GPU 加速了这些模型,以在测序仪器中提供快速、高精度的变量调用。 DeepVariant 1.4 版现已在 Clara Parabricks collection on NGC 中提供。

基因组学和精确医学的深度学习方法是 Clara Parabricks 的一大重点,并在 GTC 2022 NVIDIA and Broad Institute 关于基因组分析工具包( GATK )和 DNA 和 RNA 大型语言模型的进一步发展的公告中予以强调。

Clara Parabricks v4.0 入门

要开始免费使用 Clara Parabricks ,请访问 Clara Parabricks collection on NGC 。您还可以申请免费的 Clara Parabricks NVIDIA LaunchPad lab ,以获得实际操作经验,运行针对外显子组和全基因组数据集的种系和体细胞分析的加速行业标准工具。

有关 Clara Parabricks 的更多信息,包括可用工具的技术细节,请参阅 Clara Parabricks documentation

 

Tags