盛云瑞

盛云瑞,NVIDIA Compute Arch 部门高级架构师,主要负责 TensorRT-LLM 推理系统的开发和优化,专注在性能分析和优化工作。

Posts by 盛云瑞

人工智能/深度学习

释放算力潜能:TensorRT LLM ADP 平衡策略让推理吞吐量再提升 33%

在 DeepSeek MLA + MoE 架构下,在最大吞吐量场景中,通常采用注意力数据并行 (Attention Data… 3 MIN READ