TensorRT

2025年 10月 20日

在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型

现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务，

3 MIN READ

2025年 10月 7日

使用 NVIDIA TensorRT Model Optimizer 剪枝和蒸 LLM

大语言模型（LLM）在自然语言处理（NLP）任务，如代码生成、推理和数学计算等方面，展现出卓越的性能，树立了新的标杆。然而，

3 MIN READ

2025年 9月 23日

在 NVIDIA RTX AI PC上部署高性能人工智能模型到 Windows 应用中

如今，Microsoft 正在向开发者提供 Windows ML。借助 Windows ML，C#、

3 MIN READ

2025年 9月 17日

用于降低 AI 推理延迟的预测性解码简介

使用大语言模型（LLM）生成文本时，通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力，但由于自回归生成本质上是顺序进行的，

2 MIN READ

2025年 9月 11日

量化感知训练如何实现低精度恢复

训练 AI 模型后，可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化（PTQ），该方法通过数值缩放技术，

3 MIN READ

2025年 9月 10日

借助 NVIDIA RTX PRO Blackwell 服务器版本，将蛋白质结构推理速度提高 100 多倍

了解蛋白质结构的研究比以往任何时候都更加重要。从加快药物研发到为未来可能的疫情做好准备，

2 MIN READ

2025年 9月 3日

借助 NVIDIA DRIVE AGX Thor 开发者套件加速智能汽车开发

智能汽车（AV）技术是快速发展的，由于更大型、更复杂的AI模型被部署于边缘端推动。如今，现代汽车不仅需要先进的感知能力和传感器融合技术，

3 MIN READ

2025年 8月 29日

使用量化感知训练微调 gpt-oss 提高准确性和性能

对于 AI 社界而言，主要的开源基础模型版本带来了独特的架构创新与功能突破，正掀起一股令人振奋的浪潮。作为 OpenAI 实验室自 GPT…

3 MIN READ

2025年 8月 22日

揭秘 NVIDIA Blackwell Ultra：推动 AI 工厂时代的芯片动力

作为 NVIDIA Blackwell 架构系列的最新成员，NVIDIA Blackwell Ultra GPU 依托核心创新，

5 MIN READ

2025年 8月 22日

NVIDIA 硬件创新和开源贡献正在塑造 AI

Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、

2 MIN READ

2025年 8月 1日

通过训练后量化优化 LLM 的性能和准确性

量化是开发者的核心工具，旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度，无需重新训练，该技术可显著降低延迟、

4 MIN READ

2025年 7月 24日

使用 Torch-TensorRT 将扩散模型的 PyTorch 推理速度翻倍

NVIDIA TensorRT 是一个 AI 推理库，用于优化机器学习模型，以便在 NVIDIA GPU 上部署。

2 MIN READ

2025年 7月 7日

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调优

这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文，旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。

3 MIN READ

2025年 7月 2日

通过低精度量化优化用于图像编辑的 FLUX.1 Kontext

FLUX.1 Kontext 是 Black Forest Labs 最近发布的模型，是对社区图像生成模型的一项令人着迷的补充。

3 MIN READ

2025年 6月 24日

隆重推出 NVFP4，实现高效准确的低精度推理

为了充分利用 AI，优化至关重要。当开发者考虑优化用于推理的 AI 模型时，通常会想到量化、蒸馏和剪枝等模型压缩技术。毫无疑问，

4 MIN READ

2025年 6月 12日

使用 NVIDIA TensorRT for RTX 运行高性能 AI 应用

NVIDIA TensorRT for RTX 现可作为 SDK 下载，该 SDK 可集成到 Windows 和 Linux 的 C++ 和…

2 MIN READ