Benchmark

2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解码优化 Qwen2.5-Coder 吞吐量
专注于编码的 大语言模型(LLMs) 已稳步应用于开发者工作流程。从配对编程到自我改进的 AI 智能体 ,这些模型可帮助开发者完成各种任务,
3 MIN READ

2025年 1月 16日
利用 RAPIDS cuML 加速时间序列预测
时间序列预测是一种强大的数据科学技术,用于根据过去的数据点预测未来值 借助 skforecast 等开源 Python 库,
2 MIN READ

2025年 1月 16日
NVIDIA JetPack 6.2 为 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模块引入超级模式
NVIDIA Jetson Orin Nano 超级开发者套件 的推出为小型边缘设备开启了 生成式 AI 的新时代。
7 MIN READ

2024年 12月 19日
RAPIDS 24.12 推出基于 PyPI 的 cuDF、适用于 Polar 的 CUDA 统一内存和更快的 GNN
RAPIDS 24.12 将 cuDF 包引入 PyPI,加快了 聚合和从 AWS S3 读取文件的速度,
3 MIN READ

2024年 12月 17日
借助 NVIDIA TensorRT-LLM 预测解码,将 Llama 3.3 的推理吞吐量提升 3 倍
随着近期新增的 Llama 3.3 70B (一种纯文本指令调整模型),Meta 的开放 大语言模型 (LLMs) 集合将继续增长。
4 MIN READ

2024年 11月 19日
Llama 3.2 全栈优化释放 NVIDIA GPU 的高性能
Meta 最近发布了 Llama 3.2 系列视觉语言模型(VLM),其中包含 11B 参数和 90B 参数变体。这些模型是多模态模型,
2 MIN READ

2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分块预填充提高 AI 推理效率和简化部署
在本 博文 中,我们详细介绍了分块预填充,这是 NVIDIA TensorRT-LLM 的一项功能,
1 MIN READ

2024年 11月 13日
NVIDIA Blackwell 在 MLPerf 训练 v4.1 中将 LLM 训练性能提高一倍
随着模型规模的扩大以及使用更多数据进行训练,它们的能力也随之提升,实用性也随之提升。为了快速训练这些模型,需要在数据中心规模上提供更高的性能。
3 MIN READ

2024年 11月 8日
NVIDIA TensorRT-LLM KV 缓存早期重用实现首个令牌速度 5 倍提升
在上一篇 博客文章 中,我们展示了通过将键值 (KV) 缓存卸载到 CPU 内存来重复使用该缓存如何在基于 x86 的 NVIDIA…
2 MIN READ

2024年 11月 6日
借助 NVIDIA NeMo 开发前沿的多模态生成式 AI 模型
生成式 AI 已从基于文本的模型迅速发展为多模态功能。这些模型执行图像字幕和视觉问答等任务,反映了向更接近人类的 AI 的转变。
2 MIN READ

2024年 10月 31日
RAPIDS cuML 助力 GPU 实现 UMAP 的高速扩展
UMAP 是一种常用的降维算法,用于生物信息学、NLP 主题建模和 ML 预处理等领域。它的工作原理是创建 k 近邻(k…
3 MIN READ

2024年 10月 8日
Mistral-NeMo-Minitron 8B 模型提供超高精度
本文最初发布于 2024 年 8 月 21 日,但已根据当前数据进行了修订。 最近,NVIDIA 和 Mistral AI 推出了…
3 MIN READ

2024年 10月 3日
新的奖励模型有助于改善 LLM 与人类偏好的匹配
从人类反馈中进行强化学习(Reinforcement learning from human…
1 MIN READ

2024年 9月 11日
使用 RAPIDS cuDF pandas 加速器模式处理 10 亿行数据
十亿行挑战赛 (One Billion Row Challenge) 是一个有趣的基准测试,旨在展示基本的数据处理操作。
3 MIN READ

2024年 9月 11日
实现可定制的 GPU 加速视频转码流程
如今,视频占据互联网流量的80%以上。这些内容由各种设备生成并在各种设备上使用,包括IoT设备、智能手机、计算机和电视。
4 MIN READ

2024年 8月 28日
NVIDIA Blackwell 平台在 MLPerf Inference v4.1 中创下新的 LLM 推理记录
大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、
4 MIN READ