TensorRT

2025年 4月 24日
使用 NVIDIA NIM 对游戏进行代理式 LLM 和 VLM 推理基准测试
这是 LLM 基准测试系列的第一篇文章,介绍了在使用 NVIDIA NIM 部署 Meta Llama 3 模型时,
2 MIN READ

2025年 4月 21日
使用 NVIDIA TensorRT 优化基于 Transformer 的扩散模型以生成视频
先进的图像扩散模型需要数十秒才能处理单张图像。这使得视频扩散更具挑战性,需要大量计算资源和高昂成本。
4 MIN READ

2025年 4月 5日
NVIDIA 加速推理 Meta Llama 4 Scout 与 Maverick 模型
最新一代热门 Llama AI 模型现已支持 Llama 4 Scout 和 Llama 4 Maverick。
2 MIN READ

2025年 4月 2日
NVIDIA Blackwell 在 MLPerf Inference v5.0 中实现巨大的性能飞跃
在不断增长的模型大小、实时延迟要求以及最近的 AI 推理的推动下, 大语言模型 (LLM) 推理的计算需求正在快速增长。与此同时,
3 MIN READ

2025年 3月 18日
NVIDIA Blackwell 实现世界纪录的 DeepSeek-R1 推理性能
NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能 。 搭载 8 个 NVIDIA…
5 MIN READ

2025年 3月 18日
借助 NVIDIA DGX 云无服务器推理在云环境中无缝扩展人工智能
NVIDIA DGX Cloud Serverless Inference 是一种自动扩展 AI 推理解决方案,可实现快速可靠的应用部署。
3 MIN READ

2025年 3月 10日
借助 NVIDIA DriveOS LLM SDK 简化自动驾驶汽车应用的 LLM 部署
大语言模型 (LLMs) 在自然语言处理 (NLP) 中表现出非凡的泛化能力。它们广泛应用于翻译、数字助理、推荐系统、上下文分析、代码生成、
2 MIN READ

2025年 2月 28日
聚焦:NAVER Place 利用 NVIDIA TensorRT-LLM 优化 SLM 基础的垂直服务
NAVER 是一家韩国热门搜索引擎公司,提供 Naver Place ,这是一项基于地理的服务,可提供有关韩国数百万家企业和兴趣点的详细信息。
4 MIN READ

2025年 1月 30日
为 NVIDIA Blackwell GeForce RTX 50 系列 GPU 发布全新 AI SDK 和工具
NVIDIA 最近宣布推出 新一代 PC GPU – GeForce RTX 50 系列 ,以及面向开发者的全新 AI 赋能 SDK 和工具。
2 MIN READ

2024年 12月 24日
借助 NVIDIA 全栈解决方案提升 AI 推理性能
AI 驱动的应用的爆炸式发展对开发者提出了前所未有的要求,他们必须在提供先进的性能与管理运营复杂性和成本以及 AI 基础设施之间取得平衡。
2 MIN READ

2024年 12月 18日
NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化
Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,
2 MIN READ

2024年 12月 11日
NVIDIA TensorRT-LLM 现支持动态批处理加速编码器 - 解码器模型
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 现可加速编码器 – 解码器模型架构 。
1 MIN READ

2024年 11月 20日
TensorRT-LLM 低精度推理优化:从速度和精度角度的 FP8 vs INT8 的全面解析
本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,
5 MIN READ

2024年 11月 19日
Llama 3.2 全栈优化释放 NVIDIA GPU 的高性能
Meta 最近发布了 Llama 3.2 系列视觉语言模型(VLM),其中包含 11B 参数和 90B 参数变体。这些模型是多模态模型,
2 MIN READ

2024年 11月 15日
NVIDIA NIM 1.4 现已部署可用,推理速度提升 2.4 倍
随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI…
1 MIN READ

2024年 11月 8日
NVIDIA TensorRT-LLM KV 缓存早期重用实现首个令牌速度 5 倍提升
在上一篇 博客文章 中,我们展示了通过将键值 (KV) 缓存卸载到 CPU 内存来重复使用该缓存如何在基于 x86 的 NVIDIA…
2 MIN READ