细胞生物学和虚拟细胞模型的未来取决于大规模测量和分析数据。在过去 10 年里,单细胞实验一直以惊人的速度增长,从数百个细胞开始,现在转向使用数十亿个细胞进行新的数据生成工作。
虚拟细胞模型还生成了数十亿个虚拟细胞。大量数据和新开发的模型将帮助科学家发现新的生物学、开发新的疗法,以及研究和阐明疾病和衰老的进展。
数据处理和分析是下游生物解释和模型构建的关键。随着数据的极端增长,出现了两个关键的数据处理挑战,极大地限制了对这些大规模数据集的科学认识和解释:
- 数据规模:无法分析大型数据集 (millions to billions of cells)
- 分析速度:重要的专家级分析步骤需要数小时到数天的等待时间
RAPIDS 单细胞解决了单细胞数据处理、分析和集成的主要瓶颈
归一化、降维、聚类和批量集成等分析步骤对于单细胞数据分析、解释和模型开发至关重要。RAPIDS-singlecell 是一款经MIT许可的开源工具,由scverse开发,可应对数据规模和分析速度方面的挑战。它通过CuPy和NVIDIA RAPIDS利用GPU加速,直接在社区标准AnnData数据结构上运行。
RAPIDS 单单元主要由 CuPy 库提供支持,CuPy 库几乎可以直接替代 NumPy 和选定的 SciPy 函数,使用户能够编写与标准 NumPy 语法高度一致的 Python 代码,同时使用 NVIDIA GPU 的并行计算功能。使用的其他工具包括:
RAPIDS 和 NVIDIA CUDA 库 | 单细胞分析的示例任务 |
NVIDIA cuML | 降维,包括 PCA、UMAP 和 t-SNE |
NVIDIA cuGraph | 利用基于图形的计算(包括 Leiden 和 Louvain)的单元聚类 |
Dask | 通过跨多个 GPU 和节点的并行执行,扩展至超过 1 亿个单元 |
RAPIDS 内存管理器 | 数据自动溢出到主机内存,支持跨多个 GPU 架构进行大规模单细胞分析 |
降维,包括 PCA、UMAP 和 t-SNE | 使用 Python 编写的即时编译 CUDA 核函数,用于基因选择/迭代图形优化 |
利用单个节点上的数百万个细胞扩展细胞科学的未来
在单细胞分析、真实数据和虚拟细胞实验领域,数据规模挑战是一个日益严峻的问题。随着真实数据的增加和虚拟单元模型的开发,这个问题还在继续增长。
AI 原生生物技术公司 Noetik 基于人类肿瘤和健康控制组织的 petabytes 空间数据开发了基础模型 OCTO-vc。Noetik 正在使用包含 193M 个细胞的专有数据集构建多模态基础模型,以模拟虚拟细胞和细胞系统。
“如果没有加速计算,分析如此大规模的数据集是不可能的。借助 NVIDIA,我们的虚拟细胞实验已经生成了超过 55 亿个虚拟细胞。”Noetik 首席科学官 Jacob Rinaldi 说道。“我们现在不仅能够支持这种规模的数据集,而且还能够使用 NVIDIA RAPIDS 和 RAPIDS-singlecell 加速不同算法和数据集规模的分析。”
Rinaldi 的团队利用 RAPIDS-singlecell,在 1.1M 个单元数据集上将 UMAP (12.85 分钟到 1.64 秒) 和 Leiden 集群 (7.83 小时到 14.4 秒) 的速度分别提高了 470 倍和 1958 倍,将分析时间从使用 CPU 的数小时或数天缩短到了近乎实时。
由于表 1 中描述的效率,RAPIDS-singlecell 可以在几秒钟内容纳数亿个细胞。它还可以分析单个 GPU 上的数百万个细胞。表 2 概述了使用 NVIDIA AI Blueprint 中提供的最新版 RAPIDS-singlecell 进行单细胞分析的最新基准测试。我们建议在使用 RAPIDS-singlecell 处理大型数据集时使用 Zarr 格式。
除非另有说明,否则这些基准测试来自 NVIDIA,并且位于单个 GPU 上。速度可能因数据集、GPU 实例和内存可用性而异。
针对 1M 个单元的单 GPU 基准测试 | ||||
工作负载 | 基准 | NVIDIA L40S GPU | NVIDIA RTX PRO 6000 服务器版 | NVIDIA DGX B200 |
QC | 13.6 | 0.5 | 0.2 | 0.2 |
高度可变的基因 | 27.0 | 8.7 | 0.4 | 0.3 |
回归 | 8.2 | 2.7 | 0.2 | 0.2 |
规模 | 15.4 | 0.3 | 0.2 | 0.1 |
PCA | 141.0 | 18.1 | 2.0 | 1.2 |
所有预处理 | 313.0 | 40.0 | 4.1 | 2.9 |
近邻 | 219.0 | 4.0 | 1.9 | 1.7 |
UMAP | 574.0 | 2.4 | 1.7 | 1.2 |
鲁万聚类 | 422.0 | 4.4 | 1.8 | 1.5 |
莱顿聚类 | 1521.0 | 3.2 | 1.7 | 1.5 |
tSNE | 2010.0 | 33.2 | 15.9 | 14.6 |
扩散贴图 | 77.0 | 4.4 | 1.3 | 1.2 |
总处理时间 | 5176.0 | 92.0 | 28.4 | 24.6 |
managed_memory=True
。与运行 scanpy v1.11.1 的 CPU (AMD EPYC 7413 24-Core Processor 48 Threads) 相比利用 NVIDIA RAPIDS 和 NVIDIA Blackwell GPU 进行近乎实时的单细胞分析
借助 NVIDIA Blackwell GPU 的最新 RAPIDS-singlecell 支持,分析时间大幅缩短,逐渐接近单细胞数据的实时分析。
对于旨在探索细胞种群并深入研究亚集群或罕见细胞子集的科学家来说,这种工作流程至关重要。通过迭代运行降维和其他方法,他们可以从数据中发现新的生物学见解。
额外的 GPU 和新架构可缩短分析时间。PCA 在 Tahoe Bio 的 9500 万个单元数据集上运行,具有 7000 个特征,在 Blackwell GPU 上可以在 10 秒内完成。表 3 显示了 1100 万个单元上的多 GPU 基准测试。
步骤 | NVIDIA RTX PRO 6000 服务器版 (8 个 GPU) | NVIDIA DGX B200 ( 8 个 GPU) |
对数归一化 | 0.33 | 0.27 |
高度可变的基因 | 0.42 | 0.44 |
规模 | 0.59 | 0.53 |
PCA | 1.62 | 1.73 |
近邻 | 23.7 | 20.9 |
UMAP | 10.5 | 11.7 |
莱顿聚类 | 18 | 17.6 |
使用 Harmony 引入加速的开源集成分析
特别是现在,当大型单细胞数据语料库(包括 CZI cellxgene 和 Arc 的 Virtual Cell Atlas)的规模和复杂性不断增加时,对工具的需求也在不断增长,以帮助在各种实验中集成数据集。对于分析和利用数据进行模型开发而言,这是一个非常有用的步骤。
RAPIDS-singlecell 更新了 Harmony 的优化实现,这是一种批量集成工具,可消除批量效应,帮助发现生物学见解。RAPIDS-singlecell 版本现已获得 MIT 许可,并使用标签向量编码代替常用的 one-hot-encoding 矩阵。
在以下示例中,使用来自 CZI cellxgene 存储库的数据集,初始 UMAP 分析显示,许多细胞按 assay 版本进行聚类。但是,在 Harmony 批量集成之后,其中许多批量效果被删除,细胞类型开始出现。

在处理 1100 万个单元时,RAPIDS-singlecell上的 Harmony 可以比 CPU 快 350 倍以上,将分析时间从几小时缩短到几秒钟,如表 4 所示。
出现次数 细胞 | 基准 | NVIDIA A10 Tensor Core GPU | NVIDIA L40S GPU | NVIDIA RTX PRO 6000 Server Edition | NVIDIA DGX B200 |
90000 | 120 | 3.3 | 2.6 | 1.6 | 1.6 |
200000 | 180 | 3.2 | 2.8 | 1.9 | 1.6 |
200 万 | 1172 | 8 | 5.9 | 4.3 | 3.8 |
1100 万 | > 7150 | 46.4 | 42.7 | 19.7 | 21.7 |
开始使用
以下实战资源可帮助您开始使用 RAPIDS-singlecell。
- 来自 scverse 的 RAPIDS-singlecell 文档
- 单细胞分析 Blueprint:一组可启动的 Jupyter Notebook,引导用户了解 RAPIDS-singlecell 的功能。可以手动部署,也可以通过 NVIDIA Brev 在预配置的云实例上部署。
- 加速数据科学和在数字生物学中利用基础模型培训课程展示了如何使用 RAPIDS-singlecell 清理数据集,以及如何使用数据重新训练 Geneformer。它包含更多 Jupyter notebooks 以及随附的幻灯片和录制的演示文稿。
- NVIDIA 基因组学概述页面涵盖支持基因组学的 NVIDIA 工具。
致谢
我们要感谢 scverse 核心团队,特别是 Philipp Angerer、Ilan Gold、Lukas Heumos 和 Issac Virshup,感谢他们提供的建议、见解和协作,以及 Corey Nolet 和 Avantika Lal 先前对 RAPIDS+single cell 数据进行的迭代和做出的贡献。
还要感谢对单单元蓝图的重大贡献,以及对 Harmony 的反馈 (按字母顺序排列) :Alice Hsiung、Chelsea Gomatam、Daniel Burkhardt、Deven Yue、Eric Phan、Michelle Gill、Narges Masoudi 和 Seth Poulos,以及 Brev 团队 (包括 Alec Fong、Anish Maddipoti、Carter Abdallah 和 Tyler Fong) 。