Sharan Chetlur

Sharan Chetlur 是 TRT-LLM 的首席工程师。在过去十年中,他在 NVIDIA 担任过各种职务,负责深度学习和 HPC (cuDNN 和 cuBLAS) 库的开发,以及 NVIDIA 提交的 MLPerf 训练基准测试。他还曾在一家 AI 硬件初创公司任职,负责管理其内核开发者团队。

Posts by Sharan Chetlur

数据中心/云端

借助 NVIDIA TensorRT-LLM 分块预填充提高 AI 推理效率和简化部署

在本 博文 中,我们详细介绍了分块预填充,这是 NVIDIA TensorRT-LLM 的一项功能, 1 MIN READ