数据科学

2025年 5月 8日
云端 Apache Spark 加速深度学习和大语言模型推理
Apache Spark 是用于大数据处理和分析的行业领先平台。随着非结构化数据(documents、emails、
4 MIN READ

2025年 5月 7日
使用 Python 通过 OpenUSD 实现 3D 工作流自动化
通用场景描述 (OpenUSD) 提供了一个强大、开放且可扩展的生态系统,用于在复杂的 3D 世界中进行描述、合成、仿真和协作。
2 MIN READ

2025年 5月 7日
使用 NVIDIA NeMo Curator 构建 Nemotron-CC:一个高质量万亿令牌数据集,用于大型语言模型预训练,源自 Common Crawl
对于想要训练先进的 大语言模型 (LLM) 的企业开发者而言,整理高质量的预训练数据集至关重要。为了让开发者能够构建高度准确的 LLM,
2 MIN READ

2025年 5月 2日
CUDA 入门教程:更简单的介绍 (更新版)
注意:本博文最初发布于 2017 年 1 月 25 日,但已进行编辑以反映新的更新。 本文非常简单地介绍了 CUDA,
5 MIN READ

2025年 5月 1日
借助超参数优化实现堆叠泛化:使用 NVIDIA cuML 在15分钟内最大化准确性
堆叠泛化是机器学习 (ML) 工程师广泛使用的技术,通过组合多个模型来提高整体预测性能。另一方面,超参数优化 (HPO)…
3 MIN READ

2025年 4月 29日
Kaggle 大师揭秘数据科学超能力的获胜策略
来自 NVIDIA 的 Kaggle Grandmaster David Austin 和 Chris Deotte 以及 HP 的…
2 MIN READ

2025年 4月 29日
构建应用程序以安全使用 KV 缓存
在与基于 Transformer 的模型 (如 大语言模型 (LLM) 和 视觉语言模型 (VLM)) 交互时,输入结构会塑造模型的输出。
2 MIN READ

2025年 4月 23日
NVIDIA cuPyNumeric 25.03 现已完全开源,支持 PIP 和 HDF5
NVIDIA cuPyNumeric 是一个库,旨在为基于 Legate 框架构建的 NumPy 提供分布式和加速的插入式替换。
2 MIN READ

2025年 4月 17日
顶级大师专业提示:使用 NVIDIA cuDF-pandas 进行特征工程,在 Kaggle 竞赛中夺冠
在处理表格数据时,特征工程仍然是提高模型准确性的最有效方法之一。与 NLP 和计算机视觉等神经网络可以从原始输入中提取丰富模式的领域不同,
2 MIN READ

2025年 4月 16日
在大型语言模型时代,通过消息量化和流式传输实现高效的联邦学习
联邦学习 (Federated Learning, FL) 已成为一种在分布式数据源中训练机器学习模型的有前景的方法,同时还能保护数据隐私。
2 MIN READ

2025年 4月 15日
NVIDIA Llama Nemotron 超开放模型实现突破性的推理准确性
AI 不再只是生成文本或图像,而是要针对商业、金融、客户和医疗健康服务中的现实应用进行深度推理、详细解决问题并实现强大的适应性。
2 MIN READ

2025年 4月 11日
借助 NVIDIA FLARE 和 Meta ExecuTorch,在移动设备上轻松进行联邦学习
NVIDIA 和 Meta 的 PyTorch 团队宣布开展突破性合作,通过集成 NVIDIA FLARE 和 ExecuTorch ,
3 MIN READ

2025年 4月 10日
高效扩展 Polars 的 GPU Parquet 读取器
在处理大型数据集时,数据处理工具的性能变得至关重要。 Polars 是一个以速度和效率闻名的开源数据操作库,提供由 cuDF 驱动的 GPU…
2 MIN READ

2025年 4月 7日
使用合成数据评估和增强 RAG 工作流性能
随着 大语言模型 (LLM) 在各种问答系统中的普及, 检索增强生成 (RAG) 流程也成为焦点。
1 MIN READ

2025年 4月 3日
使用 GPU 加速 Apache Spark 上的 Apache Parquet 扫描
随着各行各业企业的数据规模不断增长, Apache Parquet 已成为一种重要的数据存储格式。
3 MIN READ

2025年 4月 1日
NVIDIA 开源 Run:ai 调度程序以推动社区协作
今天,NVIDIA 宣布推出 KAI Scheduler 的开源版本,这是一种 Kubernetes-native GPU 调度解决方案,
3 MIN READ