Laikh Tewari

Laikh Tewari 是 NVIDIA 人工智能平台软件团队的一员,目前主要负责管理用于优化大语言模型(LLM)推理性能的相关产品。他在斯坦福大学获得了计算机科学的学士和硕士学位,专注于系统架构和人工智能领域。

Posts by Laikh Tewari

数据科学

提出一个维基百科规模的问题:如何利用数百万 token 的实时推理使世界更加智能

现代 AI 应用越来越依赖于将庞大的参数数量与数百万个令牌的上下文窗口相结合的模型。无论是经过数月对话的 AI 智能体、 3 MIN READ
代理式 AI/生成式 AI

在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略

语言模型通过预测下一个令牌 (给定所有先前的令牌,包括输入文本令牌) 来生成文本。在 LLM 服务中,先前令牌的键和值元素用作历史语境, 2 MIN READ
代理式 AI/生成式 AI

轻松部署、加速推理:TensorRT LLM 1.0 正式上线,全新易用的 Python 式运行

TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。 3 MIN READ