TensorRT-LLM

2025年 5月 2日
借助 NVIDIA 在生产应用中集成和部署 Tongyi Qwen3 模型
阿里巴巴近期发布了其开源的混合推理大语言模型(LLM)通义千问 Qwen3,此次 Qwen3 开源模型系列包含两款混合专家模型 (MoE)…
3 MIN READ

2025年 4月 24日
使用 NVIDIA NIM 对游戏进行代理式 LLM 和 VLM 推理基准测试
这是 LLM 基准测试系列的第一篇文章,介绍了在使用 NVIDIA NIM 部署 Meta Llama 3 模型时,
2 MIN READ

2025年 4月 5日
NVIDIA 加速推理 Meta Llama 4 Scout 与 Maverick 模型
最新一代热门 Llama AI 模型现已支持 Llama 4 Scout 和 Llama 4 Maverick。
2 MIN READ

2025年 4月 2日
LLM 基准测试:基本概念
在过去几年中,作为广泛的 AI 革命的一部分, 生成式 AI 和 大语言模型 (LLMs) 越来越受欢迎。
4 MIN READ

2025年 4月 2日
NVIDIA Blackwell 在 MLPerf Inference v5.0 中实现巨大的性能飞跃
在不断增长的模型大小、实时延迟要求以及最近的 AI 推理的推动下, 大语言模型 (LLM) 推理的计算需求正在快速增长。与此同时,
3 MIN READ

2025年 3月 20日
借助 NVIDIA TensorRT-LLM 提升 Microsoft Azure AI Foundry 的 Llama 模型性能
微软与 NVIDIA 合作,宣布在其 Azure AI Foundry 平台上实现 Meta Llama 系列模型的变革性性能提升。
1 MIN READ

2025年 3月 18日
NVIDIA Blackwell 实现世界纪录的 DeepSeek-R1 推理性能
NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能 。 搭载 8 个 NVIDIA…
5 MIN READ

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 优化 SLM 基础的垂直服务
NAVER 是一家韩国热门搜索引擎公司,提供 Naver Place ,这是一项基于地理的服务,可提供有关韩国数百万家企业和兴趣点的详细信息。
4 MIN READ

2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解码优化 Qwen2.5-Coder 吞吐量
专注于编码的 大语言模型(LLMs) 已稳步应用于开发者工作流程。从配对编程到自我改进的 AI 智能体 ,这些模型可帮助开发者完成各种任务,
3 MIN READ

2025年 2月 5日
利用特定领域的微调和 NVIDIA NIM 提高翻译质量
翻译在助力公司实现跨国业务扩展方面发挥着至关重要的作用,在语调、准确性和技术术语处理方面的要求差异很大。
3 MIN READ

2025年 1月 16日
在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略
语言模型通过预测下一个令牌 (给定所有先前的令牌,包括输入文本令牌) 来生成文本。在 LLM 服务中,先前令牌的键和值元素用作历史语境,
2 MIN READ

2025年 1月 15日
提升 AI 性能的 GPU 内存基础知识
生成式 AI 彻底改变了人们将想法变为现实的方式,而代理 AI 代表着这一技术变革的下一次飞跃。通过利用复杂的自主推理和迭代规划,
2 MIN READ

2024年 12月 24日
借助 NVIDIA 全栈解决方案提升 AI 推理性能
AI 驱动的应用的爆炸式发展对开发者提出了前所未有的要求,他们必须在提供先进的性能与管理运营复杂性和成本以及 AI 基础设施之间取得平衡。
2 MIN READ

2024年 12月 18日
NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化
Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,
2 MIN READ

2024年 12月 17日
借助 NVIDIA TensorRT-LLM 预测解码,将 Llama 3.3 的推理吞吐量提升 3 倍
随着近期新增的 Llama 3.3 70B (一种纯文本指令调整模型),Meta 的开放 大语言模型 (LLMs) 集合将继续增长。
4 MIN READ

2024年 12月 16日
2024 年热门文章:NVIDIA NIM、语言模型突破和数据科学优化的精要
对于使用 NVIDIA 技术的开发者、研究人员和创新者来说,2024 年又是具有里程碑意义的一年。
2 MIN READ