朱恩伟

朱恩伟,NVIDIA DevTech 部门高级工程师,主要负责 TensorRT-LLM 项目的开发和性能优化。

Posts by 朱恩伟

生成式人工智能/大语言模型

扩展 TensorRT-LLM 中的专家并行度:大规模 EP 的设计与实现

DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。 10 MIN READ