生成式人工智能/大语言模型

2025年 10月 13日

使用 NVIDIA Dynamo 部署 72B 模型提升 PD 分离性能

在生产环境部署大模型推理服务时，技术团队往往会遇到诸多挑战，例如缺乏成熟的 PD 分离方案、自动扩缩容机制不够灵活、缺乏动态路由，

2 MIN READ

2025年 10月 11日

探索在大模型训练中使用 Megatron-Core 训练框架提高显存使用效率

在大模型训练中，显存（GPU Memory）始终是最稀缺的资源之一。随着模型规模迈入百亿、千亿甚至万亿参数级别，如何在有限显存中“塞下”…

3 MIN READ

2025年 9月 25日

如何将计算机视觉工作流与生成式 AI 和推理集成

生成式 AI 为分析现有视频流开辟了全新可能。视频分析正从统计物体演进为将原始视频片段转化为实时理解，从而提供更具价值的可行见解。

3 MIN READ

2025年 9月 23日

使用 NVIDIA Nemotron 构建检索增强生成 (RAG) 智能体

与基于 LLM 的传统系统受限于其训练数据不同，检索增强生成 (RAG) 通过整合相关的外部信息来提升文本生成效果。

5 MIN READ

2025年 9月 23日

借助生成式 AI 通过分子合成途径进行推理

无论是制药、化学还是材料应用，分子设计中反复出现的挑战在于构建可合成的分子。合成性评估通常需要绘制分子的合成路径：

2 MIN READ

2025年 9月 23日

借助 NVIDIA NeMo 在 FP8 精度下提高训练吞吐量

在之前关于 FP8 训练的博文中，我们探讨了 FP8 精度的基础知识并深入分析了适用于大规模深度学习的多种扩展方法。

3 MIN READ

2025年 9月 22日

DeepSeek R1 MTP 在 TensorRT-LLM 中的实现与优化

TensorRT-LLM 在 NVIDIA Blackwell GPU 上创下了 DeepSeek-R1 推理性能的世界纪录，

5 MIN READ

2025年 9月 22日

扩展 TensorRT-LLM 中的专家并行度：大规模 EP 的设计与实现

DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构，大幅提升了开源模型的质量。

10 MIN READ

2025年 9月 18日

如何使用 NVIDIA Dynamo 减少 KV 缓存瓶颈

随着 AI 模型变得更大、更复杂，推理，即模型生成响应的过程，正成为一项重大挑战。像 GPT-OSS 和 DeepSeek-R1…

4 MIN READ

2025年 9月 17日

用于降低 AI 推理延迟的预测性解码简介

使用大语言模型（LLM）生成文本时，通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力，但由于自回归生成本质上是顺序进行的，

2 MIN READ

2025年 9月 16日

适用于 Python GPU 加速视频处理的 PyNvVideoCodec 2.0 新增功能

Python 中的硬件加速视频处理变得更加便捷。 PyNvVideoCodec 是一个基于 NVIDIA Python 的库，

1 MIN READ

2025年 9月 16日

利用 NVIDIA Run:ai 模型流技术降低大型语言模型推理的冷启动延迟

部署大语言模型（LLM）在优化推理效率方面带来了显著挑战。其中，冷启动延迟——即模型加载到 GPU 显存所需的时间较长…

5 MIN READ

2025年 9月 15日

在 OpenRouter 上使用 NVIDIA Nemotron 构建报告生成 AI 智能体

与传统系统遵循预设路径不同，AI智能体依托大语言模型（LLM）进行决策，能够适应动态变化的需求，并执行复杂的推理任务。

6 MIN READ

2025年 9月 11日

量化感知训练如何实现低精度恢复

训练 AI 模型后，可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化（PTQ），该方法通过数值缩放技术，

3 MIN READ

2025年 9月 11日

使用 AI 击杀链框架对 AI 驱动应用进行攻击建模

AI 赋能的应用带来了传统安全模型难以全面覆盖的新攻击面，尤其是当这些代理式系统具备自主性时。应对持续演变的攻击面，其核心原则十分明确：

2 MIN READ

2025年 9月 9日

NVIDIA Rubin CPX 加速百万级以上 token 上下文工作负载的推理性能和效率

推理正成为人工智能复杂性的前沿领域。现代模型正逐步演变为具备多步推理能力、持久化记忆和长时程上下文理解的代理式系统，使其能够胜任软件开发、

2 MIN READ