生成型人工智能

2025年 9月 25日

如何将计算机视觉工作流与生成式 AI 和推理集成

生成式 AI 为分析现有视频流开辟了全新可能。视频分析正从统计物体演进为将原始视频片段转化为实时理解，从而提供更具价值的可行见解。

3 MIN READ

2025年 9月 23日

使用 NVIDIA Nemotron 构建检索增强生成 (RAG) 智能体

与基于 LLM 的传统系统受限于其训练数据不同，检索增强生成 (RAG) 通过整合相关的外部信息来提升文本生成效果。

5 MIN READ

2025年 9月 23日

借助生成式 AI 通过分子合成途径进行推理

无论是制药、化学还是材料应用，分子设计中反复出现的挑战在于构建可合成的分子。合成性评估通常需要绘制分子的合成路径：

2 MIN READ

2025年 9月 23日

借助 NVIDIA NeMo 在 FP8 精度下提高训练吞吐量

在之前关于 FP8 训练的博文中，我们探讨了 FP8 精度的基础知识并深入分析了适用于大规模深度学习的多种扩展方法。

3 MIN READ

2025年 9月 23日

在 NVIDIA RTX AI PC上部署高性能人工智能模型到 Windows 应用中

如今，Microsoft 正在向开发者提供 Windows ML。借助 Windows ML，C#、

3 MIN READ

2025年 9月 18日

如何使用 NVIDIA Dynamo 减少 KV 缓存瓶颈

随着 AI 模型变得更大、更复杂，推理，即模型生成响应的过程，正成为一项重大挑战。像 GPT-OSS 和 DeepSeek-R1…

4 MIN READ

2025年 9月 17日

用于降低 AI 推理延迟的预测性解码简介

使用大语言模型（LLM）生成文本时，通常会面临一个基本瓶颈。尽管 GPU 能够提供强大的计算能力，但由于自回归生成本质上是顺序进行的，

2 MIN READ

2025年 9月 16日

适用于 Python GPU 加速视频处理的 PyNvVideoCodec 2.0 新增功能

Python 中的硬件加速视频处理变得更加便捷。 PyNvVideoCodec 是一个基于 NVIDIA Python 的库，

1 MIN READ

2025年 9月 16日

利用 NVIDIA Run:ai 模型流技术降低大型语言模型推理的冷启动延迟

部署大语言模型（LLM）在优化推理效率方面带来了显著挑战。其中，冷启动延迟——即模型加载到 GPU 显存所需的时间较长…

5 MIN READ

2025年 9月 15日

在 OpenRouter 上使用 NVIDIA Nemotron 构建报告生成 AI 智能体

与传统系统遵循预设路径不同，AI智能体依托大语言模型（LLM）进行决策，能够适应动态变化的需求，并执行复杂的推理任务。

6 MIN READ

2025年 9月 11日

量化感知训练如何实现低精度恢复

训练 AI 模型后，可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化（PTQ），该方法通过数值缩放技术，

3 MIN READ

2025年 9月 11日

使用 AI 击杀链框架对 AI 驱动应用进行攻击建模

AI 赋能的应用带来了传统安全模型难以全面覆盖的新攻击面，尤其是当这些代理式系统具备自主性时。应对持续演变的攻击面，其核心原则十分明确：

2 MIN READ

2025年 9月 9日

NVIDIA Rubin CPX 加速百万级以上 token 上下文工作负载的推理性能和效率

推理正成为人工智能复杂性的前沿领域。现代模型正逐步演变为具备多步推理能力、持久化记忆和长时程上下文理解的代理式系统，使其能够胜任软件开发、

2 MIN READ

2025年 9月 8日

如何使用 Outerbound 和 DGX 云 Lepton 自行构建 AI 系统

我们往往容易低估实际生产级 AI 系统所涉及的组件复杂性。无论是构建融合内部数据与外部大语言模型的智能体，还是提供按需生成动画的服务，

3 MIN READ

2025年 9月 5日

通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载

大语言模型（LLM）处于人工智能创新的前沿，但其庞大的规模往往会影响推理效率。例如，Llama 3 70B 和 Llama 4 Scout…

2 MIN READ

2025年 9月 2日

降低模型部署成本，同时通过 GPU 显存交换保持性能

大规模部署大语言模型（LLM）面临双重挑战：一方面需保障高需求时段的快速响应能力，另一方面又要有效控制 GPU 成本。组织通常面临两难选择：

2 MIN READ