刘宏斌

NVIDIA 加速计算专家，2020 年加入 NVIDIA DevTech 团队，专注于 GPU 上深度学习模型的优化加速。目前主要负责生成式人工智能模型的训练阶段的加速优化。

Posts by 刘宏斌

代理式 AI/生成式 AI 2025年 3月 7日

在 MoE 模型的训练过程中，EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重，对训练效率影响很大， 3 MIN READ

Uncategorized 2024年 10月 24日

本文主要介绍了FP8数据格式在大型模型训练中的应用、挑战及最佳实践，展示了FP8在提升训练速度和效率方面的潜力和实际效果。一、 5 MIN READ