Thor Johnsen

Thor Johnsen 于 2018 年加入 NVIDIA 深度学习框架团队,致力于各种 TensorFlow 和 PyTorch 项目、视觉和语言模型以及 mlperf 训练。他的最新工作是 TRT-LLM,重点是 KV 缓存优化。在加入 NVIDIA 之前,他致力于能源行业的科学计算应用程序。

Posts by Thor Johnsen

AI 平台/部署

NVIDIA TensorRT-LLM KV 缓存早期重用实现首个令牌速度 5 倍提升

在上一篇 博客文章 中,我们展示了通过将键值 (KV) 缓存卸载到 CPU 内存来重复使用该缓存如何在基于 x86 的 NVIDIA… 2 MIN READ