Posts by 刘宏斌
生成式人工智能/大语言模型
2025年 3月 7日
基于 1F1B 的 MoE A2A 通信计算 Overlap
在 MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,对训练效率影响很大,
3 MIN READ
Uncategorized
2024年 10月 24日
FP8 训练的挑战及最佳实践
本文主要介绍了FP8数据格式在大型模型训练中的应用、挑战及最佳实践,展示了FP8在提升训练速度和效率方面的潜力和实际效果。 一、
5 MIN READ