Inference Performance

2025年 8月 25日
NVFP4 实现 16 位训练精度,4 位训练速度和效率
近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。
2 MIN READ

2025年 8月 22日
揭秘 NVIDIA Blackwell Ultra:推动 AI 工厂时代的芯片动力
作为 NVIDIA Blackwell 架构系列的最新成员,NVIDIA Blackwell Ultra GPU 依托核心创新,
5 MIN READ

2025年 8月 21日
借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性
AI 模型复杂性的指数级增长驱动参数规模从数百万迅速扩展到数万亿,对计算资源提出了前所未有的需求,必须依赖大规模 GPU 集群才能满足。
2 MIN READ

2025年 8月 13日
Dynamo 0.4 最新版本提供高达 4 倍性能提升、基于 SLO 自动扩展和实时可观察性
近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM)…
2 MIN READ

2025年 8月 5日
NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,在 NVIDIA GB200 NVL72 上实现 150 万 TPS 推理
自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。
1 MIN READ

2025年 7月 29日
使用全新 NVIDIA Llama Nemotron Super v1.5 构建更加准确、高效的 AI 智能体
AI 智能体现在已经能够解决多步骤问题、编写生产级代码并在多个领域担任通用助手。但要充分发挥其潜力,
1 MIN READ

2025年 7月 14日
借助 NCCL 2.27 实现快速推理和弹性训练
随着 AI 工作负载的扩展,快速可靠的 GPU 通信变得至关重要,这不仅适用于训练,而且越来越适用于大规模推理。
3 MIN READ

2025年 7月 7日
LLM 推理基准测试:使用 TensorRT-LLM 进行性能调优
这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文,旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。
3 MIN READ

2025年 7月 7日
提出一个维基百科规模的问题:如何利用数百万 token 的实时推理使世界更加智能
现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、
3 MIN READ

2025年 7月 1日
适用于有效 FP8 训练的按张量和按块扩展策略
在本博文中,我们将分解主要的 FP8 缩放策略 (按张量缩放、延迟和电流缩放以及按块缩放 (包括 Blackwell 支持的 MXFP8…
2 MIN READ

2025年 6月 26日
在 NVIDIA Jetson 和 RTX 上运行 Google DeepMind 的 Gemma 3n
截至今日,NVIDIA 现已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上个月,
1 MIN READ

2025年 6月 24日
隆重推出 NVFP4,实现高效准确的低精度推理
为了充分利用 AI,优化至关重要。当开发者考虑优化用于推理的 AI 模型时,通常会想到量化、蒸馏和剪枝等模型压缩技术。毫无疑问,
4 MIN READ

2025年 6月 13日
使用 FlashInfer 运行 NVIDIA 的高性能 LLM 推理内核
出色的 LLM 推理需要两个关键要素:速度和开发者速度。速度是指通过使用高度优化的计算内核算法,最大限度地提高底层硬件的效率。
2 MIN READ

2025年 6月 12日
使用 NVIDIA TensorRT for RTX 运行高性能 AI 应用
NVIDIA TensorRT for RTX 现可作为 SDK 下载,该 SDK 可集成到 Windows 和 Linux 的 C++ 和…
2 MIN READ

2025年 6月 6日
NVIDIA GB200 NVL72 和 NVIDIA Dynamo 如何提升 MoE 模型的推理性能
最新一批开源大语言模型 (LLMs) 采用了 Mixture of Experts (MoE) 架构,如 DeepSeek R1、
4 MIN READ

2025年 5月 22日
Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用户门槛
NVIDIA 的大语言模型 (LLM) 推理速度创下了世界纪录。在包含 400 亿参数的 Llama 4 Maverick 模型 (…
3 MIN READ