数据中心/云端

聚焦:Atgenomix SeqsLab 提升健康组学分析以支持精准医疗

在传统的临床医学实践中,治疗决策通常基于一般准则、以往经验和试错方法。如今,随着电子病历 (EMRs) 和基因组数据的访问, 精准医疗 的新时代正在兴起,即以前所未有的准确性为单个患者量身定制治疗方法。精准医疗是一种创新的医疗保健方法,通过考虑基因组中的个体可变性来定制疾病预防和治疗。

本文将探讨 Atgenomix SeqsLab 平台如何使用 NVIDIA Parabricks RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) 来集成健康组学见解或大规模生物数据。这种集成使精准医疗的应用范围更广,超越理论,走向实用、广泛的临床应用。

健康组学数据的计算挑战

EMR 与基因组测序和其他健康组学数据的集成具有极高的计算要求。单个全基因组测序 (WGS) 数据集的每个患者容量可超过 300 GB,并且与蛋白质组学、代谢组学和转录组学数据相结合后,总数据集可以快速达到 petabyte 级。每年为数千名患者生成测序数据的医疗机构面临巨大挑战,包括:

  • 海量数据 :大规模处理基因组数据需要高吞吐量计算资源。
  • 计算复杂性 :分析涉及复杂的算法和流程,需要强大的处理能力。
  • 时间敏感性 :临床医生需要在几小时或几分钟内 (而不是几天) 得出结果,才能及时做出治疗决策。
  • 安全性和合规性:必须安全处理健康数据,以遵守 HIPAA、GDPR 和其他法规。

为应对这些挑战,高性能计算 (HPC) 和 GPU 加速的大数据框架正在改变基因组学数据的大规模处理和分析方式。

使用 Atgenomix SeqsLab 生成健康组学见解

Atgenomix SeqsLab 是一个先进的 Spark 原生平台,旨在应对健康组学数据分析的挑战。它提供了一个经过优化的结构化框架,用于构建和执行可以利用先进计算工具和技术的复杂生物信息学流程。

例如,该平台集成了 NVIDIA Parabricks RAPIDS Accelerator for Apache Spark (Spark-RAPIDS) ,以加速大规模基因组学、转录组学和 EMR 数据的处理和分析。健康组学会生成庞大而复杂的数据集,需要复杂的分析来提取有意义的见解。SeqsLab 提供了一个数据湖,使临床医生能够轻松找到感兴趣的基因组信息,并将其与 EMR 中的治疗和结果以及指南和数据库中的临床解释放在相同的视图中。这使医生能够利用最全面的信息做出临床医生决策。

图 1 中的控制面板显示了远东纪念医院如何利用 SeqsLab 根据患者基因组数据提供药物和疾病风险评估以及个性化医疗建议。

SeqsLab dashboard showing bar graphs and star graphs illustrating visualization of complex genomic data.
图 1。SeqsLab 数据湖屋使临床医生能够轻松浏览基因组数据并通过图形可视化进行解释

借助 NVIDIA Parabricks 加速基因组分析

Atgenomix SeqsLab 利用 Parabricks 的强大功能加速基因组分析,这是健康组学工作流程中的关键步骤。快速生成高质量的基因组数据对于下游分析和临床应用至关重要。为了满足这一需求,SeqsLab 集成了 Parabricks,这是一套高性能基因组分析工具,旨在以超高的速度和准确性处理大量测序数据。

“Parabricks 和 Spark 通过将对齐和变异检测步骤分解为多个子任务以进行并行处理,显著缩短了关键基因组分析任务所需的时间。例如,使用包含 Parabricks 和 Spark 的 SeqsLab,使用 80 Azure NC8as_T4_v3 (包括 NVIDIA T4 GPU 和 AMD EPYC 7V12 (Rome) CPU) ,使用 DeepVariant 进行 30 倍全基因组测序的变异识别只需 10 分钟。工作流经过优化,可使用 323 个分区。在 64 个核心的 CPU 上运行此分析大约需要 4 小时。

这种显著的加速使研究人员和临床医生能够以前所未有的速度从全基因组测序数据中获得关键见解。此外,从 2,500 个样本中提取全基因组的联合基因分型可以在短短 40 小时内完成,这一过程传统上大约需要一个月的时间。这意味着速度提高了 16 倍,展示了 Parabricks 高效处理大规模基因组数据集的能力。

通过将 Parabricks 集成到 SeqsLab 中,用户可以克服传统基于 CPU 的方法的局限性,这些方法通常难以跟上不断增加的基因组数据量。这不仅节省了宝贵的时间,还加快了研究发现速度、加快了临床决策速度,并改善了患者的治疗效果。

SeqsLab 还可以连接到其他数据库,例如 dbSNP、Clinvar 和 GeneCards,以便为医生和研究人员提供更多定制信息。这些信息为临床研究人员提供了一个全面的平台,以便在仪表板上捕获变异致病性、可操作的药物反应信息和风险因素。

Bar graph showing that community run takes 4 hours while SeqsLab with Parabricks takes only 10 minutes to complete analysis.
图 2。使用包含 Parabricks 和 Spark 的 SeqsLab,只需 10 分钟即可使用 DeepVariant 完成 30x 全基因组测序的变异识别

借助 Spark-RAPIDS 实现可扩展的数据处理

Parabricks 可加速原始测序分析,而下游健康组学分析则需要高性能大数据分析。示例包括基因表达分析、患者分层和基于机器学习 (ML) 的诊断。Atgenomix SeqsLab 基于 Spark 分布式框架设计,利用 Spark-RAPIDS 加速大规模健康组学数据的处理和分析。Spark-RAPIDS 为广泛采用的分布式计算系统 Apache Spark 带来了强大的 GPU 加速功能。这种集成对于处理健康组学中常见的大型数据集和计算密集型任务至关重要。

Spark-RAPIDS 的主要优势包括:

  • 更快地执行 SQL 查询和数据转换
  • 为提取、转换、加载 (ETL) 和 ML 任务提供无缝 GPU 加速
  • 可扩展以处理 petabyte-scale 健康组学数据集

训练 XGBoost 模型对 10000 个样本和 19000 个基因中的 33 种癌症类型进行分类,这凸显了 ML 任务的加速。在 24 个 CPU 核心上,此分析需要 120 多分钟。但是,SeqsLab 利用 Spark-RAPIDS,使用相同的 CPU 和单个 NVIDIA A100 GPU,只需 10 分钟即可完成训练。这展示了 Spark-RAPIDS 能够利用 GPU 加速大幅加速 ML,这是疾病预测和个性化医疗等任务的关键组成部分。

Bar graph showing Spark on CPU takes 120 minutes while Spark plus RAPIDS only takes 10 minutes using 24 CPU cores and one A100 GPU.
图 3。CPU 上的 Spark 需要 120 分钟,而使用 24 个 CPU 核心和一个 NVIDIA A100 GPU 时,Spark 加 RAPIDS 只需要 10 分钟

在远东纪念医院,与 SeqsLab 建立了精准医疗智能可持续平台,以分析和可视化与疾病状态相关的基因组数据。SQL 查询的加速对于交互式数据探索和临床决策支持尤为重要。

对于包含 13K 个独立样本(每个样本约有 700K 个变体和总计 9B 个变体)的患者 SNP Array 数据湖仓库,Spark-RAPIDS 可显著加速用于填充临床医生控制面板的 SQL 查询。在 8 个 NVIDIA T4 GPU 上运行 Spark-RAPIDS 时,完成这些 SQL 查询的平均时间从 64 个 CPU 核心上的 140 秒缩短到 12 秒,在一个 NVIDIA H100 GPU 上运行 Spark-RAPIDS 时甚至进一步缩短到 10 秒。通过每月 1K 次此类查询,SeqsLab 可让临床医生获得即时的健康组学见解,并为医生节省数十个小时的时间,使其无需等待数据分析完成。

肾病医师兼 FEMH 医学研究主任兼核心实验室主任 Dr. Yen-Ling Chiu 表示:“由 Atgenomix SeqsLab 提供支持的 FEMH Health Omics 可以揭示标准基因分析经常忽略的潜在遗传特征和风险变异。这为智能医疗奠定了基础,加强了疾病风险管理,并推动了精准健康推广的未来。”

通过集成 Spark-RAPIDS,SeqsLab 使用户能够对大型数据集执行复杂分析,同时显著缩短处理时间。这有助于提高效率,加快研究和临床应用的周转时间,并能够解决健康组学中以前难以解决的问题。

潜在用例 

神经退行性疾病的精准医疗不仅能实现早期诊断,还能积极重塑衰老轨迹,为患者提供更多年的认知健康。

细微的记忆缺失 (例如错放物品或忘记预约) 通常可归因于正常老化。然而,当出现这些症状时,包括基因组筛选在内的全面评估可以提供更深入的见解。例如,基因分析可以识别与阿尔茨海默病相关的高风险 APOE-ε4 变异体。虽然没有治愈方法,但早期干预可以产生重大影响。

凭借这些知识,临床医生可以制定个性化管理计划,其中包括认知健康计划、量身定制的生活方式修改、优化的药物策略以及临床试验访问权限。多年后,尽管其他具有类似遗传风险的人的认知能力显著下降,但接受早期干预的人仍保持独立和生活质量。

使用 SeqsLab 实施精准医疗工作流程

Atgenomix SeqsLab 是一个生物信息学工作流引擎,集成了 Parabricks 和 Spark-RAPIDS,可简化精准医疗数据处理。SeqsLab 提供端到端工作流程自动化,从原始测序数据中提取数据并进行处理,以生成临床相关见解。该平台提供了在安全的分布式计算环境中处理大规模基因组学和 EMR 数据所需的可扩展性和效率。

此外,SeqsLab 还提供合规就绪型解决方案,确保遵守健康数据隐私的监管要求。通过利用 SeqsLab,医院、科研机构和制药公司可以快速分析和解释基因组数据,加速精准医疗的发展。

Atgenomix SeqsLab 等平台的应用为健康组学带来了变革潜力,并有望带来一系列显著优势:

  • 加速诊断 :更快的分析可以更快、更准确地诊断,从而做出及时的治疗决策。
  • 改善预后 :增强的计算力可实现更复杂的分析,从而更好地预测疾病进展和治疗反应。
  • 个性化医疗:支持根据个人独特的分子特征开发和实施个性化治疗。
  • 药物研发 :加速药物点的识别和新疗法的开发。
  • 增强的研究能力 :使研究人员能够处理更复杂的问题和更大的数据集,从而在了解人类健康和疾病方面取得突破。

借助 SeqsLab,可以通过多组学数据背后的丰富信息来增强健康信息,包括检测结果、过去的治疗方法和临床结果,从而生成前所未有的见解。这种速度和可扩展性使行业离精准医疗的最终目标更近了一步。

要开始使用,请查看以下资源:

与 NVIDIA 创始人兼首席执行官 Jensen Huang 一起在 COMPUTEX 2025 主题演讲 中了解更多信息,并在 COMPUTEX 2025 上 参加 GTC 台北分会 ,直至 5 月 23 日。

 

 

标签