NVIDIA 中国开发者日活动中国・苏州 | 2025 年 11 月 14 日了解详情

deepseek

2025年 8月 26日

在 NVIDIA Blackwell GPU 上优化 DeepSeek R1 吞吐量：开发者深度解析

开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE)，

1 MIN READ

2025年 7月 11日

突破延迟极限：在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能

近年来，大语言逻辑推理模型取得了显著进步，但也带来了新的部署挑战。其中，因复杂的“思考与逻辑推理”过程而引起的输出序列长度 (OSL)…

3 MIN READ

2025年 3月 7日

基于 1F1B 的 MoE A2A 通信计算 Overlap

在 MoE 模型的训练过程中，EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重，对训练效率影响很大，

3 MIN READ