生成式人工智能/大语言模型

2025年 8月 26日
在 NVIDIA Blackwell GPU 上优化 DeepSeek R1 吞吐量:开发者深度解析
开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),
1 MIN READ

2025年 8月 26日
TensorRT-LLM 中的分离式服务
在之前的技术博客中,我们介绍了低延迟和高吞吐场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。
3 MIN READ

2025年 8月 25日
NVFP4 实现 16 位训练精度,4 位训练速度和效率
近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。
2 MIN READ

2025年 8月 20日
借助 NVIDIA NeMo-RL 进行强化学习:Megatron 核心支持优化训练吞吐量
NVIDIA NeMo-RL 的初始版本通过 PyTorch DTensor(也称为 FSDP2)提供训练支持。
3 MIN READ

2025年 8月 13日
Dynamo 0.4 最新版本提供高达 4 倍性能提升、基于 SLO 自动扩展和实时可观察性
近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM)…
2 MIN READ

2025年 8月 13日
借助 CUDA-QX 0.4 简化量子错误纠正和应用程序开发
随着量子处理器单元 (QPU) 制造商和算法开发者致力于打造大规模、商业上可行的量子超级计算机,他们越来越专注于量子纠错 (QEC) 。
2 MIN READ

2025年 8月 13日
使用 ProRL v2 通过长时间训练扩展 LLM 强化学习
目前,AI 领域最引人注目的问题之一是大型语言模型 (LLM) 是否可以通过持续强化学习 (RL) 继续改进,或者其能力是否最终会达到顶峰。
4 MIN READ

2025年 8月 7日
黑客如何利用 AI 解决问题的能力
随着多模态 AI 模型从感知发展到推理,甚至开始自主行动,新的攻击面也随之出现。这些威胁不仅针对输入或输出,还利用了 AI 系统如何处理、
2 MIN READ

2025年 8月 4日
如何使用 NVIDIA Llama Nemotron 模型通过推理增强 RAG 工作流
检索增强生成 (RAG) 系统面临的一大挑战是处理缺乏明确清晰度或带有隐含意图的用户查询。用户通常会以不准确的方式来表达问题。例如,
4 MIN READ

2025年 8月 1日
通过训练后量化优化 LLM 的性能和准确性
量化是开发者的核心工具,旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度,无需重新训练,该技术可显著降低延迟、
4 MIN READ

2025年 7月 31日
保护代理式 AI:语义提示注入如何绕过 AI 护栏
自 LLM 部署之初,攻击者就通过操纵输入来让大语言模型以意想不到的方式运行,从而对 AI 系统造成威胁。
1 MIN READ

2025年 7月 30日
大语言模型上车,软硬结合是关键
随着汽车行业的飞速发展,当乘用车从交通工具向智能移动终端不断进化,舱驾智能化水平已成为衡量整车厂竞争力的核心标尺,
3 MIN READ

2025年 7月 29日
使用全新 NVIDIA Llama Nemotron Super v1.5 构建更加准确、高效的 AI 智能体
AI 智能体现在已经能够解决多步骤问题、编写生产级代码并在多个领域担任通用助手。但要充分发挥其潜力,
1 MIN READ

2025年 7月 29日
使用 VLM 和 NVIDIA NeMo Retriever Parse 将复杂文档转化为可用数据
企业在研究报告、业务合同、财务报表和技术手册等文档中生成并存储大量非结构化数据。传统的光学字符识别 (OCR) 技术难以处理复杂的布局、
3 MIN READ

2025年 7月 29日
FourCastNet 3 借助可扩展的几何机器学习实现快速准确的大型集成天气预报
FourCastNet3 (FCN3) 是 NVIDIA Earth-2 的最新 AI 全球天气预报系统。
3 MIN READ

2025年 7月 28日
新的 GB300 NVL72 功能如何为 AI 提供稳定的动力
电网的设计目的是支持相对稳定的负载,例如照明、家用电器和以恒定功率运行的工业机器。但如今的数据中心,尤其是运行 AI 工作负载的数据中心,
2 MIN READ