LLM

2025年 8月 13日
Dynamo 0.4 提供 4 倍性能提升、基于 SLO 的自动缩放和实时可观测性
最近几周,OpenAI 的 gpt-oss 和 Moonshot AI 的 Kimi K2 等几个前沿开源模型的出现,
2 MIN READ

2025年 8月 4日
如何使用 NVIDIA Llama Nemotron 模型通过推理增强 RAG 工作流
检索增强生成 (RAG) 系统面临的一大挑战是处理缺乏明确清晰度或带有隐含意图的用户查询。用户通常会以不准确的方式来表达问题。例如,
4 MIN READ

2025年 8月 1日
通过训练后量化优化 LLM 的性能和准确性
量化是开发者的核心工具,旨在以最小的开销来提高推理性能。通过以可控的方式降低模型精度,无需重新训练,该技术可显著降低延迟、
4 MIN READ

2025年 7月 29日
使用 VLM 和 NVIDIA NeMo Retriever Parse 将复杂文档转化为可用数据
企业在研究报告、业务合同、财务报表和技术手册等文档中生成并存储大量非结构化数据。传统的光学字符识别 (OCR) 技术难以处理复杂的布局、
3 MIN READ

2025年 7月 28日
为 AI 模型带来可验证的信任:NGC 中的模型签名
AI 正在进入一个新时代,在这个时代,智能体可以推理、计划和采取行动。这些代理系统与 API、工具乃至物理环境进行动态交互,
2 MIN READ

2025年 7月 22日
使用 NVIDIA NeMo 在一个周末内训练一个具备推理能力的 LLM
您是否曾想构建自己的推理模型,但认为它过于复杂或需要大量资源?再想想。借助 NVIDIA 强大的工具和数据集,
4 MIN READ

2025年 7月 17日
使用 NVIDIA 安全配方保护代理式 AI 系统
随着大语言模型 (LLM) 驱动更多能够执行自主操作、工具使用和推理的代理式系统,企业被其灵活性和低推理成本所吸引。
2 MIN READ

2025年 7月 15日
NVIDIA Dynamo 新增对亚马逊云科技服务的支持,可大规模提供经济高效的推理
亚马逊云科技 (AWS) 开发者和解决方案架构师现在可以在基于 NVIDIA GPU 的 Amazon EC2 上使用 NVIDIA…
2 MIN READ

2025年 7月 14日
借助 NVIDIA Riva TTS 增强多语种类似人类的语音和语音克隆
虽然语音 AI 用于构建数字助理和语音智能体,但其影响远远超出这些应用。文本转语音 (TTS) 和自动语音识别 (ASR)…
3 MIN READ

2025年 7月 9日
使用 NVIDIA NeMo-RL 进行强化学习:通过 GRPO 复制 DeepScaleR 配方
强化学习 (RL) 是交互式 AI 的支柱。它对于教导智能体推理和从人类偏好中学习、实现多轮工具使用等至关重要。
2 MIN READ

2025年 7月 7日
LLM 推理基准测试:使用 TensorRT-LLM 进行性能调优
这是大语言模型延迟 – 吞吐量基准测试系列的第三篇博文,旨在指导开发者如何使用 TensorRT-LLM 对 LLM 推理进行基准测试。
3 MIN READ

2025年 7月 7日
提出一个维基百科规模的问题:如何利用数百万 token 的实时推理使世界更加智能
现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、
3 MIN READ

2025年 6月 30日
出色的多模态 RAG:Llama 3.2 NeMo 检索器嵌入模型如何提高工作流准确性
数据远不止于文本,它本质上是多模态的,包括图像、视频、音频等,通常采用复杂的非结构化格式。虽然常见的方法是将 PDF、扫描图像、
2 MIN READ

2025年 6月 26日
在 NVIDIA Jetson 和 RTX 上运行 Google DeepMind 的 Gemma 3n
截至今日,NVIDIA 现已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上个月,
1 MIN READ

2025年 6月 25日
如何使用 NVIDIA NeMo 技能简化复杂的 LLM 工作流程
改进 LLM 的典型方法涉及多个阶段:合成数据生成 (SDG) 、通过监督式微调 (SFT) 或强化学习 (RL) 进行模型训练以及模型评估。
4 MIN READ

2025年 6月 24日
隆重推出 NVFP4,实现高效准确的低精度推理
为了充分利用 AI,优化至关重要。当开发者考虑优化用于推理的 AI 模型时,通常会想到量化、蒸馏和剪枝等模型压缩技术。毫无疑问,
4 MIN READ