刘宏斌

NVIDIA 加速计算专家,2020 年加入 NVIDIA DevTech 团队,专注于 GPU 上深度学习模型的优化加速。目前主要负责生成式人工智能模型的训练阶段的加速优化。

Posts by 刘宏斌

生成式人工智能/大语言模型

基于 1F1B 的 MoE A2A 通信计算 Overlap

在 MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,对训练效率影响很大, 3 MIN READ
Uncategorized

FP8 训练的挑战及最佳实践

本文主要介绍了FP8数据格式在大型模型训练中的应用、挑战及最佳实践,展示了FP8在提升训练速度和效率方面的潜力和实际效果。 一、 5 MIN READ