Posts by Gregory Kimball
数据科学
2024年 9月 11日
使用 RAPIDS cuDF pandas 加速器模式处理 10 亿行数据
十亿行挑战赛 (One Billion Row Challenge) 是一个有趣的基准测试,旨在展示基本的数据处理操作。
3 MIN READ
数据科学
2024年 7月 17日
使用 RAPIDS 的 Parquet 字符串数据的编码和压缩指南
Parquet Writer 提供了默认关闭的编码和压缩选项。启用这些选项可以为数据提供更好的无损压缩,
3 MIN READ
数据科学
2023年 12月 15日
在 RAPIDS libcudf 中使用嵌入式数据类型简化 ETL 工作流程
嵌入式数据类型是一种表示列式数据中分层关系的便捷方式。它们经常用于 提取、转换、加载(ETL)在商业智能领域的工作负载、推荐系统、网络安全、
2 MIN READ
数据科学
2023年 2月 9日
GPU 加速的 RAPID JSON 数据处理
JSON 是一种广泛采用的基于文本的信息格式,可在系统之间互操作,最常见于 web 应用程序。虽然 JSON 格式是人类可读的,
3 MIN READ
数据科学
2022年 5月 27日
使用 GPUDirect 存储和 RAPIDS cuDF 提高数据摄取吞吐量
如果您从事数据分析工作,您就会知道数据摄取通常是数据预处理工作流的瓶颈。由于数据量大且常用格式复杂,
3 MIN READ