数据科学

NVIDIA CUDA-X 现可加速 Polars 数据处理库

Polar 是发展最快的数据分析工具之一,每月的下载量刚刚突破 900 万次。作为现代 DataFrame 库,它旨在高效处理适合在单台机器上运行的数据集,而不会产生大规模工作负载所需的分布式计算系统的开销和复杂性。

随着企业不断处理复杂的数据问题——从检测信用卡交易中的时间限制模式到管理全球客户群快速变化的库存需求——更高的性能至关重要。

Polars 和 NVIDIA 工程师刚刚发布了由 RAPIDS cuDF 提供支持的 Polars GPU 引擎 的公开测试版,将加速计算引入到不断发展的 Polars 社区,无需更改代码。这进一步加速了 Polars 的查询执行,与在 CPU 上运行相比,这款快速数据处理软件的速度提高了 13 倍。这就像为猎豹提供火箭燃料,帮助它更快地冲刺。

Polars 的作者兼首席执行官 Ritchie Vink 表示:“与 NVIDIA 的合作为每个人提供了一个独特的机会,使他们能够利用 NVIDIA RAPIDS 和 GPU 的强大功能,从而进一步提高 Polars 的性能。”

RAPIDS 是 NVIDIA CUDA-X 的一部分,是一个开源的 GPU 加速库套件,旨在改进数据科学和分析流程。RAPIDS cuDF 是一个 GPU DataFrame 库,用于加载、连接、聚合、过滤和操作数据。

NVIDIA 软件可加速各个规模的数据处理

随着数据科学和工程团队构建越来越多的数据处理管道来推动 AI 应用的发展,选择合适的软件和基础设施以保持工作平稳运行至关重要。

对于非常适合单个服务器、工作站和笔记本电脑的工作负载,开发者经常使用 Polars 等库来加速迭代、降低开发环境的复杂性并降低基础设施成本。

在这些单机大小的工作负载上,快速迭代时间往往是首要考虑的问题,因为数据科学家通常必须进行探索性分析,以指导下游模型训练或决策。仅 CPU 计算的性能瓶颈会降低生产力,并可能限制可以完成的测试/训练周期的数量。

对于单台机器来说规模过大的大规模数据处理工作负载,组织转而采用 Apache Spark 等框架来帮助他们在数据中心的节点之间分配工作。在这种规模下,成本和能效通常是首要优先事项,但是由于使用基于 CPU 的传统计算基础设施的效率低下,成本可能会迅速激增。

NVIDIA CUDA-X 数据处理平台 专为满足这些需求而设计,并针对大规模工作负载的 成本和能效 以及 单机工作负载的性能 进行了优化。

对于生产力和性能至关重要的中型工作负载,可以在 Polar 上同时实现性能提升,并且根据行业标准基准,使用 NVIDIA GPU 启用的系统(而非 CPU)将 pandas 库的性能提升 50 倍。

借助 RAPIDS Accelerator for Apache Spark,成本和能效至关重要的工作流程可以节省高达 80% 的成本,并 节省高达 12 倍的能源

立即开始使用 

当今世界创造的数据比以往更多,加速计算使其能够高效地被利用。无论您是在工作站上运行,还是在数据中心进行横向扩展,NVIDIA 加速数据处理软件都可以提高生产力并降低成本。

如需详细了解如何在不更改代码的情况下加速数据分析工作流程,请参阅 NVIDIA RAPIDS 页面

 

Tags