Laikh Tewari

Laikh Tewari 是 NVIDIA AI 平台软件团队的成员,负责管理用于优化 LLM 推理性能的产品。Laikh 获得了学士学位和理科硕士。斯坦福大学计算机科学专业,专注于系统和 AI。

Posts by Laikh Tewari

数据科学

提出一个维基百科规模的问题:如何利用数百万 token 的实时推理使世界更加智能

现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、 3 MIN READ
生成式人工智能/大语言模型

在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略

语言模型通过预测下一个令牌 (给定所有先前的令牌,包括输入文本令牌) 来生成文本。在 LLM 服务中,先前令牌的键和值元素用作历史语境, 2 MIN READ