陈晓明

陈晓明是 NVIDIA TensorRT-LLM 性能团队的首席架构师和高级经理,对深度学习模型的算法软硬件协同设计感兴趣,最近在做大语言模型推理的性能建模、分析和优化。

Posts by 陈晓明

生成式人工智能/大语言模型

TensorRT-LLM 中的分离式服务

在之前的技术博客中,我们介绍了低延迟和高吞吐场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。 3 MIN READ