段克峰

段克峰,NVIDIA Compute Arch 部门高级架构师,最近在做大语言模型推理的软硬件协同优化设计。

Posts by 段克峰

人工智能/深度学习

释放算力潜能:TensorRT LLM ADP 平衡策略让推理吞吐量再提升 33%

在 DeepSeek MLA + MoE 架构下,在最大吞吐量场景中,通常采用注意力数据并行 (Attention Data… 3 MIN READ