Posts by John Thomson
生成式人工智能/大语言模型
2025年 1月 16日
在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略
语言模型通过预测下一个令牌 (给定所有先前的令牌,包括输入文本令牌) 来生成文本。在 LLM 服务中,先前令牌的键和值元素用作历史语境,
2 MIN READ