收集商业见解可能是一件痛苦的事情,尤其是当你要处理无数的数据点时。
众所周知, GPU 可以为数据科学家节省时间。 GPU 有助于加快流程并快速获得所需的见解,而不是等待一个查询运行。
在这个视频中,Allan Enemark,RAPIDS数据可视化领先者,使用拥有超过30亿个数据点的美国人口普查数据集,演示了在分析过程中如何不间断地运行查询RAPIDS cuDF和Plotly Dash。
主要收获
- 使用 cuDF pandas,对于数百万个数据点,每个查询的运行时间不超过1秒,带来了显著的性能优势。
- 使用集成的加速可视化框架有几个优点,例如更快的分析迭代。
- 使用 cuDF 类 pandas RAPIDS 加速库(如 GPU)取代基于 CPU 的库有助于数据科学家快速完成 EDA 过程数据大小在2GB到10GB之间增加时。
- 可视化计算和渲染时间降低到交互式亚秒速度,从而畅通了洞察发现过程。
视频 1 。用 RAPIDS cuDF 和 Plotly Dash 可视化人口普查数据
总结
将 pandas 与 cuDF 等 RAPIDS 框架进行交换可以帮助加快数据分析工作流程,使分析过程更加有效和愉快。此外, RAPIDS 库可以使用简单的 Python 代码轻松绘制各种数据,如时间序列、地理空间和图表。
要了解有关加快传统 GPU 数据科学工作流程的更多信息,请访问以下资源: