数据中心/云端

借助 NVIDIA MGX 为 AI 工厂奠定模块化基础

生成式 AI、 大语言模型 (LLMs) 和高性能计算的指数级增长给数据中心基础设施带来了前所未有的需求。传统的服务器架构难以适应现代加速计算的功率密度、散热要求和快速迭代周期。

本文将介绍 NVIDIA MGX 的优势,这是一种用于加速计算的模块化参考架构,正在重新定义企业和云提供商构建可扩展 AI 工厂的方式。

模块化架构为何如此重要

借助 NVIDIA MGX,合作伙伴可以使用构建块方法设计多个系统,从而节省开发成本和上市时间。NVIDIA MGX 旨在支持多代产品,并支持适用于 AI、高性能计算 (HPC) 和 数字孪生 的数百种 GPU、DPU、CPU、存储和网络组合。

推动采用 NVIDIA MGX 的三大趋势:

  • 功率密度和散热: 现代 AI 计算的需求正在推动功率密度和液冷基础设施的增加。例如, NVIDIA Blackwell GPU 在采用全机架扩展解决方案时,每个机架需要高达 120 kW 的功率,以满足由此产生的许多技术要求,并需要全机架扩展解决方案。MGX 通过液冷母线和歧管满足这些需求,即使在 1400A 负载下,冷却液温差也不到 15 ° 摄氏度。这可在不影响性能或可靠性的情况下实现高密度、机架级部署。
  • 异构工作负载支持:企业正在单个数据中心内管理越来越多的工作负载,包括使用 72-GPU NVIDIA GB200 NVL72 集群进行 AI 后训练、需要测试时扩展的推理任务以及数字孪生仿真。MGX 的模块化、混合搭配兼容性使组织能够针对特定工作负载定制基础设施,而无需重新设计整个机架。
  • 供应链敏捷性 :MGX 支持在工厂预集成约 80% 的组件,包括 busbars、coldplates 和 power whips。这简化了构建流程,使 ODM 能够将部署时间从 12 个月缩短到 90 天以内。

基于这些趋势,标准化和稳定的架构 (如 MGX) 可确保可靠、兼容的服务器部署,在不牺牲互操作性的情况下支持不断变化的性能需求。这种稳定性对于希望其基础设施投资能够满足未来需求,同时保持灵活性以适应新出现的工作负载和技术的企业来说至关重要。

MGX 生态系统中的多样化采购方案允许灵活选择组件并避免供应商锁定,从而最大限度地降低投资风险、缩短交付时间并减少不确定性。通过支持合作伙伴从一系列经过认证的组件中进行选择,MGX 使企业组织能够优化其数据中心构建,以实现成本、性能和供应链弹性。

通过基于标准的模块化 MGX 设计简化集成,无需自定义解决方案,从而实现快速、经济高效的部署和更轻松的扩展。这种方法不仅缩短了上市时间,还简化了持续的维护和升级,使企业能够随着需求的增长和技术的发展而高效地扩展其 AI 工厂。

MGX 机架系统内部 

两种基本类型的模组是 NVIDIA MGX 机架系统的核心:计算托盘和 NVLink 交换机托盘。每个计算托盘都包含 CPU 和 GPU 的强大组合,例如 NVIDIA Grace CPU 与 NVIDIA Blackwell GPU 搭配。这些组合可提供 AI 训练、推理和仿真工作负载所需的核心加速计算性能。同时,NVLink 交换机托盘提供了将这些计算托盘连接在一起的高速、低延迟互连结构,从而实现 GPU 到 GPU 的无缝通信以及整个机架的高效扩展。

然而,功能齐全的 MGX 机架远不止是计算和交换托盘。为了以现代 AI 工厂所需的规模和效率运行,该系统依赖于机械、电气和管道 (冷却) 基础设施的坚实基础,包括:

  • 机械组件: 模块化 MGX 机架本身可提供高密度数据中心部署所需的结构完整性和可维护性。Power Shelf Bracket 可固定机架内的电源架,Slide Rail 则可实现机架式设备的顺利安装和维护。
  • 电气组件: MGX 54v Busbar 和 MGX 1400A Busbar 在整个机架上高效分配功率,支持高性能计算负载,对于供电和连接至关重要。33 kW 的 Power Shelf 可为系统提供大量电力,而 MGX Power Whip 可在电源 Shelf 和 Busbar 之间实现灵活连接。MGX Highspeed Cable 可促进高速数据传输,确保计算和交换机托盘实现出色通信。
  • 管道或冷却组件: MGX Coldplate 为 GPU 提供高效的液体冷却,保持最佳工作温度。MGX 44RU 歧管可管理机架内的冷却液分布。快速断开连接 (例如 MGX NVQD (NVIDIA 快速断开连接) 和 MGX UQD (通用快速断开连接)) 可快速安全地连接液冷管线,从而简化维护并更大限度地减少停机时间。

这种模块化方法可以节省大量时间,因为标准组件可以在工厂预安装,并与即插即用的电源和冷却装置现场集成。

NVIDIA GB200 NVL72 和 GB300 NVL72 系统中的 MGX 组件是管理功率密度和热负载的基础基础架构,使这些液冷机架级平台能够提供出色的 AI 性能。通过将先进的液冷 MGX 架构集成到 Blackwell 计算节点中,NVIDIA 可满足 GB200 NVL72 的每个机架 120 kW 的能源需求,而 GB300 NVL72 72 个 Blackwell Ultra GPU 需要更高的热协调性,以实现高达 50 倍的 AI 推理输出。

这一设计理念要求机械工程团队、电源专家和制造合作伙伴开展密切合作,以优化冷却液分配,实现高效电压调节,并实现前端维护功能。这些都通过 NVIDIA 芯片到芯片 NVLink 互联技术实现了统一,该技术将 36 个 Grace CPU 和 72-144 个 GPU 绑定到一个连贯的计算域中。由此产生的协同设计解决方案的能效比以前的 NVIDIA H100 集群高 25 倍,展示了支持 MGX 的系统集成如何将原始计算能力转变为可扩展的 AI 基础设施。

转变 AI 工厂的设计和部署

NVIDIA MGX 为整个数据中心生态系统带来了切实的优势。

对于系统组装商而言,MGX 通过使用共享参考设计将每个平台的研发成本降低 200 – 400 万美元,并允许团队对完整的 NVIDIA 软件堆栈(包括 NVIDIA CUDA-X NVIDIA AI Enterprise NVIDIA Omniverse )进行一次认证。

数据中心运营商能够使用一致的电源和冷却接口,从 8-GPU 节点无缝扩展到 144-GPU 机架,同时得益于 94% 的电源效率和可重复使用的管道,总拥有成本降低了 50%。

对于 AI 工作负载,MGX 使组织能够使用 NVLink 交换机在 72-GPU 一致性域上训练具有多达 1.8 万亿个参数的模型,并在 72 个节点机架中部署延迟差异低于 5 毫秒的推理集群。

开始使用 

NVIDIA MGX 不仅仅是机架式标准,而是 AI 工厂时代的基础。随着 200 多家生态系统合作伙伴采用 MGX 组件,企业获得了一条面向未来的 Exascale AI 之路。随着 NVIDIA Blackwell、NVIDIA Rubin 等不断突破计算界限,MGX 模块化架构可确保 AI 工厂能够随着芯片创新而发展,同时通过模块化升级路径保护数据中心投资。

开始使用 NVIDIA MGX 。如需了解更多信息,请与 NVIDIA 创始人兼首席执行官 Jensen Huang 一起参加 COMPUTEX 2025 主题演讲 ,并 在 COMPUTEX 2025 上参加 GTC Taipei 分会

 

标签