数据中心/云端

借助 NVIDIA Grace 系列革新数据中心效率

到 2025 年,数据处理需求的指数级增长预计将达到 175 ZB。这与 CPU 性能提升的缓慢步伐形成了鲜明的对比。十多年来,半导体的进步跟不上摩尔定律预测的步伐,因此迫切需要更高效的计算解决方案。

NVIDIA GPU 已经成为满足这些不断增长的计算需求的最高效方式。其处理复杂任务和并行处理工作负载的能力使其能够最大限度地提高每单位能耗所完成的工作,使其能效比传统 CPU 高 20 倍,适用于各种数据中心工作负载,包括人工智能、高性能计算 (HPC)、数据处理以及视频和图像处理。

随着越来越多的应用程序得到加速,需要在 CPU 方面进行创新,以更大限度地提高数据中心的效率。加速计算需要从硬件到软件、平台和跨多个领域的应用程序的全栈创新,以充分发挥数据中心的潜力。

NVIDIA 始终如一地提供突破性的 GPU 和网络。但是,尽管 GPU 在并行工作负载方面表现优异,但执行串行任务仍然需要 CPU。为了在现代 AI 数据中心中充分实现加速,我们需要一种具有以下功能的新 CPU 架构:

  • 高单核性能
  • 巨大的显存带宽
  • 低功耗
  • 有足够的核心来运行所需的服务
  • 出色的连接性,可实现紧密的 GPU 和 CPU 协作

NVIDIA Grace CPU 是 NVIDIA 为推动 AI 时代而设计的首款 CPU:

  • 72 个高性能、节能高效的 Arm Neoverse V2 CPU 核心
  • NVIDIA Scalable Coherency Fabric (SCF),支持在 CPU 核心、memory 和 I/O 之间快速移动数据
  • 高带宽、低功耗的 LPDDR5X 显存
  • 通过 NVIDIA GPU 或 CPU 实现 900 GB/s 一致性 NVLink 芯片到芯片 (C2C) 连接

NVIDIA Grace CPU 为多个 NVIDIA 产品提供支持。它可以与 NVIDIA Hopper 或 NVIDIA Blackwell GPU 搭配使用,形成一种新型处理器,将 CPU 和 GPU 紧密耦合,以加速生成式 AI、数据处理和加速计算。

NVIDIA Grace CPU 也是一款出色的独立数据中心 CPU。它与第二个 NVIDIA Grace CPU 配对,以创建 NVIDIA Grace CPU 超级芯片。该超级芯片采用紧凑的单双插槽模块提供,在与领先的传统 CPU 相同的功率范围内提供两倍的性能。

新一代数据中心 CPU 性能效率

数据中心受到功率和空间的限制,这意味着基础设施必须以尽可能低的功耗提供出色的性能。

NVIDIA Grace CPU 超级芯片可提供出色的性能、内存带宽和数据移动功能,并在每瓦性能方面处于领先地位,在数据中心的高能效 CPU 计算中实现代际收益。它还为基础数据中心工作负载(如微服务、数据分析、图形分析和模拟)提供通用性和性能。

Bar chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ and AMD EPYC 9654 2S servers across a range of application-based workloads with NVIDIA Grace leading on most by up to 2x.
图 1.与 x86 2S 服务器对比的 NVIDIA Grace CPU 超级芯片性能
Bar chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ and AMD EPYC 9654 2S server energy efficiency across a range of application-based workloads with NVIDIA Grace leading on most by up to 3x.
图 2.NVIDIA Grace CPU 超级芯片的每功率性能(CPU + 内存功率)与 x86 2S 服务器相比

NVIDIA Grace 超级芯片配备 480GB LPDDR5X,AMD EPYC 9654 搭载 768GB DDR5,以及 Intel Xeon Platinum 8480™ 搭载 1TB DDR5。操作系统为 Ubuntu 22.04,编译器为 GCC 12.3,除非下方另有说明。能效功耗包括 CPU 和内存的测量功耗。

压缩:Snappy (提交 af720f9a3b2c831f173b6074961737516f2d3a46 | N 个并行实例) 微服务:Google Protobufs (提交 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N 个并行实例) 地震数据处理:SPECFEM3D four_material_simple_model;HPC SDK 24.3 计算流体力学:OpenFOAM 摩托车 | Large v2212 分子动力学:CP2K RPA 2023.1 气象:WRF CONUS12 千米 x86:ICC 2024.01;气候:NEMO Gyre_Pisces v4.2.0 气象:ICON QUBICC 80 千米分辨率数据分析:HiBench + K-means Spark (HiBench 7.1.1,Hadoop 3.3.3,Spark 3.3.0;Grace:NVHPC 24.5,x86:Intel 2021.4) 图形分析:差距基准套件 BFS arXiv:1508.03619[cs.DC],2015 年。

数据可能会发生变化。

随着问题集的增长,横向扩展到多个节点的能力至关重要。NVIDIA Grace CPU 超级芯片还展示了在热门计算流体动力学(CFD)应用中跨多个节点的性能扩展。

Bar chart compares the NVIDIA Grace CPU Superchip with the Intel Xeon 8480+ using the OpenFOAM benchmark; scaling from a single server to eight servers. The NVIDIA Grace CPU demonstrates scaling and maintains a 1.6-1.8x lead.
图 3.OpenFOAM 上的 NVIDIA Grace CPU 超级芯片多节点扩展

OpenFOAM v2312 输入:摩托车 35M 和 68M 单元英特尔 x86 平台结果在“EoS”上计算,NVIDIA DGX SuperPOD H100 系统操作系统:Ubuntu 22.04 编译器:2024.0.1 Grace 超级芯片结果在内部 NVIDIA MGX 评估集群上计算,该集群由 16 个 Supermicro MGX ARS-224GL-N 节点组成,配备 NVIDIA Grace 超级芯片 480 GByte 和 NVIDIA InfiniBand Connect-X7 NDR400 操作系统:Ubuntu 22.04 编译器:GCC 13.10

客户势头

客户正在迅速采用 NVIDIA Grace 系列产品用于生成式 AI、超大规模部署、企业计算基础架构、高性能计算 (HPC) 和科学计算部署、数据分析、智能边缘平台等领域。

例如,基于 NVIDIA Grace Hopper 的系统可在 HPC 中提供每秒 200 exaflops 的高能效 AI 处理能力。

以下 HPC 中心均在部署基于 NVIDIA Grace CPU 的系统:

MurexGurobiPetrobras 等客户在金融服务、分析和能源垂直行业看到了引人注目的性能结果,这些结果证明了 NVIDIA Grace CPU 和 NVIDIA GH200 解决方案的优势。

高性能 CPU 架构

NVIDIA Grace CPU旨在提供出色的单线程性能、充足的内存带宽和出色的数据移动能力,同时与传统的x86解决方案相比,实现了巨大的能效飞跃。

为了实现高性能和出色能效的结合,NVIDIA Grace CPU 超级芯片采用了许多新开发的架构创新:

  • NVIDIA 可扩展一致性结构
  • 支持 ECC 的服务器级 LPDDR5X
  • Arm Neoverse V2 核心
  • NVLink-C2C

NVIDIA 可扩展一致性结构

一个关键挑战是确保所有核心缓存、内存和高速系统 I/O 不会遇到瓶颈,无法充分利用该架构。NVIDIA Scalable Coherency Fabric (SCF) (图 4) 是 NVIDIA 设计的一种网格结构和分布式缓存架构,旨在以节能高效的方式扩展核心和带宽。

NVIDIA SCF 还可在超级芯片配置中的另一个 NVIDIA Grace CPU 或 NVIDIA Grace Hopper 或 NVIDIA Grace Blackwell 配置中,实现 NVIDIA Grace CPU 和 GPU 之间的显存一致性。

CPU 核心和 SCF 缓存分区分布在整个网格中,而缓存交换机节点通过fabric路由数据,并充当 CPU、缓存内存和系统 I/O 之间的接口。

SCF 可提供超过 3.2 TB/s 的总对分带宽,以保持数据在 CPU 核心、NVLink-C2C、显存和系统 I/O 之间的流动。SCF 可减少数据移动密集型应用程序中的瓶颈,例如图形分析,其中 NVIDIA Grace 可提供高达领先 x86 服务器 2 倍的性能。

Diagram shows the join of Arm Neoverse V2 cores, the distributed cache, and system I/O in a high-bandwidth mesh interconnect.
图 4.NVIDIA Grace CPU 和 NVIDIA SCF

支持 ECC 的服务器级 LPDDR5X

数据中心 CPU 需要高带宽、高容量的内存子系统。与此同时,这些内存子系统必须节能高效,以确保为 CPU 核心分配尽可能多的功率。

NVIDIA Grace CPU 超级芯片使用高达 960 GB 的服务器级低功耗双数据速率 5 倍 (LPDDR5X) 内存,并带有纠错码 (ECC)。NVIDIA Grace 内存子系统可提供高达 500 GB/s 的带宽,同时功耗仅约为 15W,远低于基于标准双列直插内存模块 (DIMM) 的设计。

此设计实现了大规模 AI、HPC 和云工作负载的带宽、能效、容量和成本的最佳平衡。

Arm Neoverse V2 核心

即使 GPU 的并行计算能力不断提升,工作负载仍然可以通过在 CPU 上运行的串行任务进行门控。为了实现最大限度的工作负载加速,快速高效的 CPU 核心对于系统设计至关重要。

NVIDIA Grace CPU 的核心是 Arm Neoverse V2 CPU 核心。Neoverse V2 核心经过优化,为每个线程提供行业领先的性能,同时提供比传统 CPU 更高的能效性。

NVIDIA Grace CPU 超级芯片将多达 144 个高性能 Arm Neoverse V2 核心与可扩展向量扩展版本 2 (SVE2) 4x128b 单指令多数据 (SIMD) 管线每个核心集成,从而提供最新一代 x86 服务器两倍的数据中心性能效率。

为打造具有多达 144 个 Arm Neoverse V2 核心的 NVIDIA Grace CPU 超级芯片,并避免在芯片之间移动数据时出现瓶颈,NVLink Chip-2-Chip (C2C) 互联技术可在芯片之间提供 900 GB/s 的直接连接。

典型的服务器架构有两个插槽,每个插槽由多个裸片组成,每个裸片可表示多达 8 个多个非均匀内存 (NUMA) 域、超过 800W 的 CPU 和内存功率以及节点之间的 500 GB/s 带宽。

Grace CPU 超级芯片采用简洁的显存拓扑。凭借仅两个 NUMA 节点、500W 的 CPU 和显存功率以及 900 GB/s 的高带宽 NVLink-C2C,Grace CPU 超级芯片有助于为应用程序开发者和用户缓解 NUMA 瓶颈。

Diagram shows two monolithic Grace CPU die composed of two NUMA nodes compared with a chiplet-based x86 server that has eight NUMA nodes.
图 5.NVIDIA Grace 与 x86 系统架构的比较

这种连接通过将系统和 HBM GPU 显存相结合,以提供简化可编程性的单个显存地址空间,实现统一的缓存一致性。CPU 和 GPU 之间的这种高带宽一致性连接可为 GPU 提供超过 600 GB 的快速显存,是解决复杂的 AI 和 HPC 问题的关键。

NVIDIA Grace Hopper

随着 AI 从试点项目发展到主流使用,它越来越多地集成到基于 CPU 的传统工作流程和企业应用中。这种集成模糊了 CPU 和 GPU 之间的界限,因此需要一种新型的融合加速计算架构来满足新的计算需求。

传统上,加速器通过 PCIe 连接到 CPU,这可能会阻碍数据传输,同时处理器拥有独立的内存池。

NVIDIA Grace Hopper 架构将 NVIDIA Hopper GPU 的突破性性能与 NVIDIA Grace CPU 的通用性整合到单个超级芯片中,并通过高带宽、内存一致性的 900 GB/s NVIDIA NVLink Chip-2-Chip (C2C) 互连连接,提供的带宽是 PCIe Gen 5 的 7 倍。

NVLink-C2C 内存一致性可以提高开发者的工作效率、性能和 GPU 可访问的内存量。CPU 和 GPU 线程可以并发和透明地访问 CPU 和 GPU 驻留内存,使您能够专注于算法,而不是显式内存管理。

Comparison of PCIe accelerated architecture that has separate CPU and GPU memory and a low bandwidth PCIe connection with the NVIDIA Grace Hopper architecture that has a single unified virtual memory pool with a fast NVLink-C2C connection.
图 6.NVIDIA Grace Hopper 架构克服 PCIe 瓶颈

将 CPU 和 GPU 处理相结合的新兴工作负载的一个示例是检索增强生成 (RAG)。由于 RAG 工作负载能够将 LLM 纳入企业知识库,从而减少模型幻境,因此已在企业中得到采用。

RAG 需要不断将内部公司文档和数字资产转换为嵌入,然后将其存储在向量数据库中,以便在推理阶段快速检索。服务于 RAG 工作负载的企业可以在 CPU 上恢复运行嵌入生成、向量数据库创建和索引以及工作负载的向量搜索阶段,同时为推理阶段保留 GPU。

借助 NVIDIA Grace Hopper,企业可以在统一的加速计算架构上运行 RAG 工作负载的两个阶段。与将 H100 GPU 与传统的 x86 CPU 相结合的系统相比,在热门的 Llama 2 70B 模型上,这可将 RAG 工作负载性能提升高达 1.5 倍。

RAG 工作负载利用 NVIDIA Grace CPU、融合 CPU 和 GPU 显存以及 900 GB/s NVLink-C2C 的上述性能加速 RAG 工作负载的所有非推理阶段,而 NVIDIA Hopper GPU 则加速推理阶段。

除了超级芯片本身的独特创新之外,NVIDIA Grace Hopper 还采用模块化 MGX 服务器设计,即 GH200 NVL2,它通过单个服务器中的 NVLink 连接两个超级芯片,从而简化主流 LLM 推理的部署和横向扩展。

旨在平衡成本效益与用户体验的 IT 领导者和决策者通常使用模型分片策略来服务于生产中的主流 LLM。这涉及在由低延迟、高带宽网络连接的多个 GPU 上分割单个模型。

此方法可增加可服务的用户数量,降低成本,同时确保良好的用户体验。它还使组织能够从较小的设置开始,并随着需求的增长通过添加 GPU 进行横向扩展。

NVIDIA GH200 NVL2 模块化单节点设计使其成为主流 LLM 模型服务和横向扩展架构的不二之选。

通过采用这种新型混合加速Superchips及其新的融合显存简化编程模型,IT 领导者和决策者可以通过扩展或改造数据中心,确保奠定坚实的基础,不仅能满足传统串行处理应用程序和 AI 增强应用程序的需求,还能满足新一代 AI 驱动创新的需求。

NVIDIA Grace Blackwell

NVIDIA GB200 NVL72 采用机架级设计,可连接 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU,强效助力生成式 AI、数据处理和高性能计算。

NVIDIA Blackwell 配备 208 亿个晶体管和第二代 Transformer 引擎。它支持第五代 NVIDIA NVLink,可将每个 GPU 的双向吞吐量提高到 1.8 TB/s,为在具有并行性组合的万亿参数模型的多 GPU 部署中发生的 GPU 到 GPU 运算提供无与伦比的加速。

GB200 NVL72 作为液冷式机架级解决方案提供,具有 72-GPU NVLink 域,可充当单个大型 GPU。这使其能够在专家 LLM 模型的先进万亿参数混合模型上提供 30 倍的推理速度。

领先的云服务提供商已宣布采用 NVIDIA Grace Blackwell 的计划:

基于 Arm 软件生态系统构建的标准软件基础设施

所有主要的 Linux 发行版及其提供的大量软件包均可在 NVIDIA Grace 上完美运行,无需修改。您可以使用操作系统包管理器轻松安装应用程序、库、依赖项、实用工具、工具等。

许多家喻户晓的封闭和开源应用程序都为 Arm 提供优化的可执行文件。Arm 开发者中心展示了适用于 AI、云、数据中心、5G、网络和边缘的精选软件包。该生态系统由 Arm 标准提供支持,例如 Arm 服务器基本系统架构 (SBSA) 和 Arm SystemReady 认证计划的基本启动要求 (BBR)。

NVIDIA Grace 执行这些标准,并使用热门的 Neoverse 微架构,因此针对其他广泛可用的 Arm CPU 的软件优化也直接使 NVIDIA Grace 受益。有关如何安装和配置软件的更多信息,请参阅 NVIDIA Grace 文档

The full-stack NVIDIA software ecosystem builds on top of the Arm ServerReady platform and major Linux OS distributions and provides all the tools, compilers, libraries, frameworks, and management capabilities required for a modern data center.
图 7.NVIDIA Grace 系列软件生态系统

除了更广泛的 Arm 软件生态系统外,NVIDIA 软件生态系统还针对 NVIDIA Grace 提供和优化。NVIDIA HPC SDK 和每个 CUDA 组件都有 Arm 原生安装程序和容器NGC 还提供针对 Arm 优化的深度学习、机器学习和 HPC 容器。

NVIDIA 还在积极扩展面向 Arm CPU 的软件生态系统。最近,NVIDIA 为 Arm CPU 推出了一套新的高性能数学库,名为 NVIDIA 性能库 (NVPL)。这些库是大多数 x86 数学库的即时替代库,并且经过高度调整,可更大限度地提高 Grace CPU 性能。

NVIDIA 还将上游 Arm 优化分发到开源工具 Clang 中,供不想等待常规版本发布但希望构建性能出色的代码的开发者使用。

为 Arm 和 NVIDIA Grace 移植和优化软件

NVIDIA Grace CPU 是基于标准的设计,与广泛的 Arm 软件生态系统完全兼容,因此大多数移植工作已经完成。

正如本文所述,在 NVIDIA Grace 上使用最佳编译器标志以原生方式重新编译应用程序源代码可以提高应用程序的性能和效率。大多数应用程序都可以使用任何符合标准的现代多平台编译器进行编译,而无需修改应用程序源代码:

Large arrow with sections marked off for listing the steps to run software:  reusing existing software, with a recompile using a choice of tools, and then running and optimizing software for optimal performance.
图 8.在 NVIDIA Grace 系列上运行的软件工作正常,并使用现有工具

以下是在 NVIDIA Grace 上编译应用程序的基本步骤:

  • 安装软件依赖项:使用操作系统的包管理器安装在任何其他 CPU 上使用的相同编译器、库、工具链、运行时、框架等。热门依赖项的所有最新版本均可用于 NVIDIA Grace。
  • 使用符合标准的编译器:与在任何其他 CPU 上一样,使用 GCC、Clang 或 NVHPC 编译器。如果您使用的是供应商特定的编译器(例如 AOCC),请更新您的构建系统,以调用符合标准的多平台编译器(例如 NVHPC)。这些多平台编译器也可以在原始系统上使用,从而提高应用程序的可移植性。
  • 优化编译器标志:删除所有特定于架构的标志,例如-mavx, -march以及-mtuneGCC 和 Clang,或任何-tpNVHPC 的标志。在其位置,添加标志-mcpu=native适用于 GCC 和 Clang.NVHPC 会自动检测 NVIDIA Grace 原生编译,并使用最优标志,因此无需额外的标志。您还可以使用-fltoGCC 和 Clang 的标志。

按照这些简单的步骤操作,只需几分钟即可为 NVIDIA Grace 生成经过优化的应用程序二进制文件。

有关应用程序移植和优化的更多信息,请参阅 NVIDIA Grace CPU 基准测试指南。本指南包含在 NVIDIA Grace 上构建和运行常见基准测试(STREAM、HPL、HiBench、protobuf 等)和应用程序(WRF、OpenFOAM、SPECFEM3D、NAMD 等)的精确分步说明。

它还为开发者提供有关 Arm SIMD 编程、Arm 内存模型的高级指导,以及针对 C/C++、Fortran、Java、Python 和 Rust 的特定语言指导。

使用本指南帮助您实现特定NVIDIA Grace系统的最佳性能。

总结

NVIDIA Grace CPU 专为现代数据中心而设计,具有 72 个高性能 Arm Neoverse V2 核心,这是一种 NVIDIA 设计的高带宽结构,可以最大限度地提高性能和高带宽低功耗内存。在相同的功率范围内,它提供的性能是领先的传统 CPU 的 2 倍。

NVIDIA Grace CPU 具有快速的一致链路,可与其他 NVIDIA Grace CPU 或 NVIDIA Hopper 或 NVIDIA Blackwell GPU 连接,形成新型处理器,将 CPU 和 GPU 紧密耦合,为生成式 AI、数据处理和加速计算提供强大助力。

NVIDIA Grace CPU 是基于标准的设计,与广泛的 Arm 软件生态系统完全兼容,大多数软件都将正常工作。

有关更多信息,请参阅来自 GTC 的 NVIDIA Grace CPU 会议了解更多信息。

 

Tags