deepseek

2025年 7月 11日
突破延迟极限:在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能
近年来,大语言逻辑推理模型取得了显著进步,但也带来了新的部署挑战。其中,因复杂的“思考与逻辑推理”过程而引起的输出序列长度 (OSL)…
3 MIN READ

2025年 3月 7日
基于 1F1B 的 MoE A2A 通信计算 Overlap
在 MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,对训练效率影响很大,
3 MIN READ