Posts by Chen Xiaoming
        
                    代理式 AI/生成式 AI
        
        
        2025年 10月 20日
      
      在 NVL72 机架级系统上使用 Wide Expert Parallelism 扩展大型 MoE 模型
                  
            现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务,
                
          
            3 MIN READ
          
        
      
     
          