TensorRT-LLM
2024年 12月 18日
NVIDIA TensorRT-LLM 现支持 Recurrent Drafting,实现 LLM 推理优化
Recurrent Drafting (简称 ReDrafter) 是苹果公司为大语言模型 (LLM) 推理开发并开源的一种新型推测解码技术,
2 MIN READ
2024年 12月 17日
借助 NVIDIA TensorRT-LLM 预测解码,将 Llama 3.3 的推理吞吐量提升 3 倍
随着近期新增的 Llama 3.3 70B (一种纯文本指令调整模型),Meta 的开放 大语言模型 (LLMs) 集合将继续增长。
4 MIN READ
2024年 12月 16日
2024 年热门文章:NVIDIA NIM、语言模型突破和数据科学优化的精要
对于使用 NVIDIA 技术的开发者、研究人员和创新者来说,2024 年又是具有里程碑意义的一年。
2 MIN READ
2024年 12月 11日
NVIDIA TensorRT-LLM 现支持动态批处理加速编码器 - 解码器模型
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 现可加速编码器 – 解码器模型架构 。
1 MIN READ
2024年 12月 5日
聚焦:Perplexity AI 利用 NVIDIA 推理栈每月服务 4 亿个搜索请求
对 AI 赋能服务的需求持续快速增长,这给 IT 和基础设施团队带来了越来越大的压力。这些团队的任务是配置必要的硬件和软件来满足这一需求,
2 MIN READ
2024年 11月 22日
聚焦:TCS 利用 NVIDIA 生成式 AI 将汽车软件测试速度提高 2 倍
生成式 AI 正在改变汽车行业的各个方面,包括软件开发、测试、用户体验、个性化和安全性。随着汽车行业从机械驱动转向软件驱动,
2 MIN READ
2024年 11月 20日
TensorRT-LLM 低精度推理优化:从速度和精度角度的 FP8 vs INT8 的全面解析
本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,
5 MIN READ
2024年 11月 19日
Llama 3.2 全栈优化释放 NVIDIA GPU 的高性能
Meta 最近发布了 Llama 3.2 系列视觉语言模型(VLM),其中包含 11B 参数和 90B 参数变体。这些模型是多模态模型,
2 MIN READ
2024年 11月 15日
借助 NVIDIA TensorRT-LLM 分块预填充提高 AI 推理效率和简化部署
在本 博文 中,我们详细介绍了分块预填充,这是 NVIDIA TensorRT-LLM 的一项功能,
1 MIN READ
2024年 11月 15日
NVIDIA NIM 1.4 现已部署可用,推理速度提升 2.4 倍
随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI…
1 MIN READ
2024年 11月 12日
聚焦:Dataloop 借助 NVIDIA NIM 加速 LLM 的多模态数据准备流程
在快速发展的人工智能环境中,为大语言模型(LLMs)准备高质量数据集已成为一项严峻的挑战。这直接影响到模型的准确性、性能,
3 MIN READ
2024年 11月 8日
NVIDIA TensorRT-LLM KV 缓存早期重用实现首个令牌速度 5 倍提升
在上一篇 博客文章 中,我们展示了通过将键值 (KV) 缓存卸载到 CPU 内存来重复使用该缓存如何在基于 x86 的 NVIDIA…
2 MIN READ
2024年 11月 1日
NVSwitch 和 TensorRT-LLM MultiShot 共同加速 AllReduce 速度达 3 倍
在用户数量可能在数百到数十万之间波动,且输入序列长度随每个请求而变化的生产环境中,部署生成式 AI 工作负载会面临独特的挑战。
1 MIN READ
2024年 10月 22日
利用 NVIDIA Triton 和 NVIDIA TensorRT-LLM 及 Kubernetes 实现 LLM 扩展
大语言模型 (LLMs) 已广泛应用于聊天机器人、内容生成、摘要、分类、翻译等领域。State-of-the-art LLMs 和基础模型如…
5 MIN READ
2024年 10月 8日
Mistral-NeMo-Minitron 8B 模型提供超高精度
本文最初发布于 2024 年 8 月 21 日,但已根据当前数据进行了修订。 最近,NVIDIA 和 Mistral AI 推出了…
3 MIN READ
2024年 10月 1日
借助检索增强型生成技术推动 AI 赋能游戏开发的演进
游戏开发是一个复杂且资源密集型的过程,尤其是在使用 像 Unreal Engine 这样的高级工具 时。开发者会发现自己需要浏览大量信息,
1 MIN READ