Posts by Gregory Kimball
数据中心/云端
2025年 3月 11日
在 NVIDIA Grace CPU 上使用 Polars 和 Apache Spark 实现高效 ETL
NVIDIA Grace CPU 超级芯片可为数据中心和云端的 CPU 工作负载提供出色的性能和出色的能效。
3 MIN READ
数据科学
2025年 2月 20日
使用 NVIDIA cuDF,pandas 读取 JSON 行文件速度提升100倍
JSON 是一种广泛采用的格式,用于在系统之间 (通常用于 Web 应用和大语言模型 (LLMs)) 以互操作方式运行的基于文本的信息。
3 MIN READ
数据科学
2024年 9月 11日
使用 RAPIDS cuDF pandas 加速器模式处理 10 亿行数据
十亿行挑战赛 (One Billion Row Challenge) 是一个有趣的基准测试,旨在展示基本的数据处理操作。
3 MIN READ
数据科学
2024年 7月 17日
使用 RAPIDS 的 Parquet 字符串数据的编码和压缩指南
Parquet Writer 提供了默认关闭的编码和压缩选项。启用这些选项可以为数据提供更好的无损压缩,
3 MIN READ
数据科学
2023年 12月 15日
在 RAPIDS libcudf 中使用嵌入式数据类型简化 ETL 工作流程
嵌入式数据类型是一种表示列式数据中分层关系的便捷方式。它们经常用于 提取、转换、加载(ETL)在商业智能领域的工作负载、推荐系统、网络安全、
2 MIN READ
数据科学
2023年 2月 9日
GPU 加速的 RAPID JSON 数据处理
JSON 是一种广泛采用的基于文本的信息格式,可在系统之间互操作,最常见于 web 应用程序。虽然 JSON 格式是人类可读的,
3 MIN READ