陈晓明

陈晓明是 NVIDIA TensorRT-LLM 性能团队的首席架构师和高级经理，对深度学习模型的算法软硬件协同设计感兴趣，最近在做大语言模型推理的性能建模、分析和优化。

Posts by 陈晓明

代理式 AI/生成式 AI 2025年 8月 26日

在之前的技术博客中，我们介绍了低延迟和高吞吐场景的优化方法。对于生产部署，用户还关心在满足特定延迟约束的情况下，每个 GPU 的吞吐表现。 3 MIN READ