John Thomson

John Thomson 是 NVIDIA 深度学习算法团队的实习生。他目前正在滑铁卢大学攻读计算机工程专业的第三年。他专注于在结构化工作负载上优化 LLM 推理。

Posts by John Thomson

生成式人工智能/大语言模型

在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略

语言模型通过预测下一个令牌 (给定所有先前的令牌,包括输入文本令牌) 来生成文本。在 LLM 服务中,先前令牌的键和值元素用作历史语境, 2 MIN READ