Kaiyu Xie

Kaiyu Xie 是 NVIDIA 的高级架构师,一直在研究 TensorRT-LLM,专注于通用性能优化和系统实现。

Posts by Kaiyu Xie

代理式 AI/生成式 AI

在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型

现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务, 3 MIN READ