LLM

2025年 9月 23日
使用 NVIDIA Nemotron 构建检索增强生成 (RAG) 智能体
与基于 LLM 的传统系统受限于其训练数据不同,检索增强生成 (RAG) 通过整合相关的外部信息来提升文本生成效果。
5 MIN READ

2025年 9月 23日
借助生成式 AI 通过分子合成途径进行推理
无论是制药、化学还是材料应用,分子设计中反复出现的挑战在于构建可合成的分子。合成性评估通常需要绘制分子的合成路径:
2 MIN READ

2025年 9月 18日
如何使用 NVIDIA Dynamo 减少 KV 缓存瓶颈
随着 AI 模型变得更大、更复杂,推理,即模型生成响应的过程,正成为一项重大挑战。像 GPT-OSS 和 DeepSeek-R1…
4 MIN READ

2025年 9月 16日
利用 NVIDIA Run:ai 模型流技术降低大型语言模型推理的冷启动延迟
部署大语言模型(LLM)在优化推理效率方面带来了显著挑战。其中,冷启动延迟——即模型加载到 GPU 显存所需的时间较长…
5 MIN READ

2025年 9月 11日
量化感知训练如何实现低精度恢复
训练 AI 模型后,可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化(PTQ),该方法通过数值缩放技术,
3 MIN READ

2025年 9月 11日
使用 AI 击杀链框架对 AI 驱动应用进行攻击建模
AI 赋能的应用带来了传统安全模型难以全面覆盖的新攻击面,尤其是当这些代理式系统具备自主性时。应对持续演变的攻击面,其核心原则十分明确:
2 MIN READ

2025年 9月 10日
使用 NVIDIA NIM Operator 3.0.0 部署可扩展的 AI 推理
AI 模型、推理引擎后端以及分布式推理框架在架构、复杂性和规模上持续演进。面对快速的技术变革,
3 MIN READ

2025年 9月 9日
NVIDIA Rubin CPX 加速百万级以上 token 上下文工作负载的推理性能和效率
推理正成为人工智能复杂性的前沿领域。现代模型正逐步演变为具备多步推理能力、持久化记忆和长时程上下文理解的代理式系统,使其能够胜任软件开发、
2 MIN READ

2025年 9月 9日
如何利用跨区域 (Scale-Across) 网络将分布式数据中心连接成大型 AI 工厂
AI 技术日益复杂,训练与推理领域的新进展对数据中心提出了更高的要求。尽管数据中心的功能正在迅速扩展,但其基础设施受限于基本的物理条件,
1 MIN READ

2025年 9月 8日
如何使用 Outerbound 和 DGX 云 Lepton 自行构建 AI 系统
我们往往容易低估实际生产级 AI 系统所涉及的组件复杂性。无论是构建融合内部数据与外部大语言模型的智能体,还是提供按需生成动画的服务,
3 MIN READ

2025年 9月 5日
通过 CPU-GPU 显存共享加速大规模 LLM 推理和 KV 缓存卸载
大语言模型(LLM)处于人工智能创新的前沿,但其庞大的规模往往会影响推理效率。例如,Llama 3 70B 和 Llama 4 Scout…
2 MIN READ

2025年 9月 3日
借助 NVIDIA DRIVE AGX Thor 开发者套件加速智能汽车开发
智能汽车(AV)技术是快速发展的,由于更大型、更复杂的AI模型被部署于边缘端推动。如今,现代汽车不仅需要先进的感知能力和传感器融合技术,
3 MIN READ

2025年 8月 27日
如何将生产环境中的 LangGraph 智能体从单个用户扩展到 1000 名同事
您已经成功构建了一个功能强大的 AI 智能体,并准备与同事分享,但您有一个重要的顾虑:如果同时有 10 位、100…
3 MIN READ

2025年 8月 25日
NVFP4 实现 16 位训练精度,4 位训练速度和效率
近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。
2 MIN READ

2025年 8月 18日
利用 CPO 技术扩展 AI 工厂,提高能效
随着 AI 重新定义计算格局,网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源,更受到底层网络敏捷性、
2 MIN READ

2025年 8月 13日
Dynamo 0.4 最新版本提供高达 4 倍性能提升、基于 SLO 自动扩展和实时可观察性
近期,OpenAI 的 gpt-oss、月之暗面的 Kimi K2 等多个新的前沿开源模型相继问世,标志着大语言模型 (LLM)…
2 MIN READ