AI Inference / Inference Microservices

2025年 9月 25日

使用 CUDA-X 数据科学加速 GPU 模型训练的方法

在之前关于 AI 在制造和运营中应用的博文中，我们探讨了供应链所面临的独特数据挑战，并介绍了智能特征工程如何显著提升模型性能。

2 MIN READ

2025年 9月 23日

借助 NVIDIA NeMo 在 FP8 精度下提高训练吞吐量

在之前关于 FP8 训练的博文中，我们探讨了 FP8 精度的基础知识并深入分析了适用于大规模深度学习的多种扩展方法。

3 MIN READ

2025年 9月 18日

如何使用 NVIDIA Dynamo 减少 KV 缓存瓶颈

随着 AI 模型变得更大、更复杂，推理，即模型生成响应的过程，正成为一项重大挑战。像 GPT-OSS 和 DeepSeek-R1…

4 MIN READ

2025年 9月 17日

用于降低 AI 推理延迟的预测性解码简介

使用大语言模型（LLM）生成文本时，通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力，但由于自回归生成本质上是顺序进行的，

2 MIN READ

2025年 9月 10日

使用 NVIDIA NIM Operator 3.0.0 部署可扩展的 AI 推理

AI 模型、推理引擎后端以及分布式推理框架在架构、复杂性和规模上持续演进。面对快速的技术变革，

3 MIN READ

2025年 9月 10日

借助 NVIDIA RTX PRO Blackwell 服务器版本，将蛋白质结构推理速度提高 100 多倍

了解蛋白质结构的研究比以往任何时候都更加重要。从加快药物研发到为未来可能的疫情做好准备，

2 MIN READ

2025年 8月 1日

通过训练后量化优化 LLM 的性能和准确性

量化是开发者的核心工具，旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度，无需重新训练，该技术可显著降低延迟、

4 MIN READ

2025年 7月 24日

使用 Torch-TensorRT 将扩散模型的 PyTorch 推理速度翻倍

NVIDIA TensorRT 是一个 AI 推理库，用于优化机器学习模型，以便在 NVIDIA GPU 上部署。

2 MIN READ

2025年 7月 18日

使用 JAX 和 XLA 优化推理工作负载的低延迟通信

在生产环境中使用大语言模型 (LLM) 进行推理需要满足严格的延迟限制。此过程的关键阶段是 LLM 解码，

2 MIN READ

2025年 7月 7日

LLM 推理基准测试：使用 TensorRT-LLM 进行性能调优

这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文，旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。

3 MIN READ

2025年 6月 26日

在 NVIDIA Jetson 和 RTX 上运行 Google DeepMind 的 Gemma 3n

截至今日，NVIDIA 现已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上个月，

1 MIN READ

2025年 6月 24日

隆重推出 NVFP4，实现高效准确的低精度推理

为了充分利用 AI，优化至关重要。当开发者考虑优化用于推理的 AI 模型时，通常会想到量化、蒸馏和剪枝等模型压缩技术。毫无疑问，

4 MIN READ

2025年 6月 12日

使用 NVIDIA TensorRT for RTX 运行高性能 AI 应用

NVIDIA TensorRT for RTX 现可作为 SDK 下载，该 SDK 可集成到 Windows 和 Linux 的 C++ 和…

2 MIN READ

2025年 6月 9日

借助 EoRA 快速恢复 LLM 压缩错误的免微调方法

模型压缩技术已经过广泛探索，可减少为大语言模型 (LLM) 或其他大型神经网络提供服务所需的计算资源。但是，与未压缩的模型相比，

5 MIN READ

2025年 6月 3日

NVIDIA Base Command Manager 为 AI 集群管理提供免费的启动程序

随着 AI 和高性能计算 (HPC) 工作负载变得越来越常见和复杂，系统管理员和集群管理员是确保一切平稳运行的核心。他们的工作 (构建、

1 MIN READ

2025年 5月 22日

Blackwell 借助 Meta 的 Llama 4 Maverick 突破 1000 TPS/ 用户门槛

NVIDIA 的大语言模型 (LLM) 推理速度创下了世界纪录。在包含 400 亿参数的 Llama 4 Maverick 模型 (…

3 MIN READ