NVIDIA 将 NVIDIA Grace CPU 设计为一种新型高性能数据中心 CPU,旨在提供突破性的 能效 ,并针对数据中心规模的性能进行了优化。
与传统 CPU 计算相比,加速计算在性能和能效方面实现了巨大的飞跃。为了实现这些加速,需要数据中心规模的全栈创新,涵盖芯片、系统、软件和算法。为适合的工作负载选择合适的架构并提供出色的节能性能对于最大限度地提高数据中心的性能和最小化占用空间至关重要。
随着工作负载的加速程度不断提高,目前仍有一些用例主要在传统 CPU 上运行,尤其是图形分析等稀疏和“分支”序列化任务的代码。与此同时,数据中心受到越来越多的电力限制,限制了其能力的增长。这意味着所有可以加速的工作负载都应该加速。那些无法加速的工作负载必须在尽可能高效的计算上运行,而 CPU 必须针对这些工作负载进行优化。
节能高效的新型 Grace CPU 需要出色的单线程性能,以及足够多的核心以便同时运行多个应用程序。每个核心都需要大量内存带宽,以确保高 CPU 核心利用率,以及彼此快速高效地进行通信的能力。
专为提高能效而设计,不损害性能
NVIDIA Grace 架构 专为加速计算领域而设计,其中 GPU 和 CPU-GPU 架构紧密合并,可加速数据中心。此类架构需要具有出色单线程性能、快速互连网络、卓越能效和高内存带宽的 CPU。
NVIDIA Grace CPU 将 72 个高性能、高能效的 Arm Neoverse V2 核心与 NVIDIA Scalable Coherency Fabric (SCF) 连接在一起。NVIDIA SCF 是一种高带宽片上网络结构,可提供总计 3.2 TB/s 的对分带宽,是传统 CPU 的两倍。需要高带宽片上网络结构,以便通过保持 CPU 核心、缓存、内存以及系统输入和输出之间的数据流来提供更高的系统级性能。采用芯片集架构的传统 CPU 能效较低,并且具有面积和通信开销,导致性能不可预测。
Grace 是第一个使用具有服务器级可靠性的高速 LPDDR5X 内存的数据中心 CPU ,通过纠错码(ECC)等机制实现。通过使用这种更高效的内存类型和宽内存子系统,Grace 提供高达 500 GB/s 的内存带宽,同时仅消耗传统 DDR 内存的五分之一的能量,成本与传统 DDR 内存相似。
这些众多创新意味着 NVIDIA Grace CPU 超级芯片可提供出色的性能、内存带宽和数据移动功能,并突破性地提高每瓦性能。在数据中心层面,这转化为性能的代际飞跃和出色的总体拥有成本(TCO)。Grace 架构在数据中心级通用 CPU 中实现了这些优势,这意味着它为微服务、数据分析、图形分析和模拟等各种基础数据中心工作负载提供通用性和性能。
图 1 比较了 NVIDIA Grace 架构与领先的 x86 服务器之间的每台服务器的原始性能,并显示其在 x86 竞争中提供领先的服务器级性能。
Grace 架构出色的内存带宽和网络性能使其在多种热门应用中表现出色,包括
- 微服务: 小型独立服务,可帮助数据中心轻松扩展并管理单个服务,而不会影响整个应用。经过工作负载测试的 Google 协议缓冲区可测量数据序列化和解析的速度,以便在微服务之间交换数据。
- 高性能计算 (HPC) 和数据分析:天气预报和 Hi-Bench K-means Spark 等工作负载对可实现的内存带宽高度敏感。Grace 拥有领先的内存带宽和快速的 NVIDIA 设计的网络,能够在这些基准测试中提供出色的性能。
- 图形分析: 在许多行业的金融服务、医疗健康以及营销和运营中,图形分析通常用作优化算法、欺诈检测和社交网络分析的一部分。在 GapBS 广度优先搜索基准测试中,Grace 的网络带宽是传统 x86 CPU 的两倍,在竞争中脱颖而出。控制流扩展到所有可用的 CPU 核心,然后回落到单个 CPU 核心,从而受益于 CPU 核心之间的快速通信。
在诸如压缩等工作负载中,Grace 可以与具有更多核心的产品表现出相似的性能,具有高性能核心和高带宽的 NVIDIA SCF。
图 2 显示了这些服务器的能效。凭借低功耗和高带宽显存,Grace 在处理各种工作负载时,在相同功率范围内的性能比竞争对手提升了 2 倍。
NVIDIA Grace 超级芯片配备 480GB 的 LPDDR5X,AMD EPYC 9654 配备 768GB 的 DDR5,Intel Xeon Platinum 8480+配备 1TB 的 DDR5。操作系统:Ubuntu 22.04;编译器:GCC 12.3,除非特别注明。能效功耗包括 CPU+内存测量功耗。
压缩:Snappy(Commit af720f9a3b2c831f173b6074961737516f2d3a46 | N 个并行实例) 微服务:Google Protobufs(Commit 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N 个并行实例) 地震数据处理:SPECFEM3D four_material_simple_model;HPC SDK 24.3 CFD:OpenFOAM Motorbike | Large v2212 MD:CP2K RPA 2023.1 天气:WRF CONUS12km x86:ICC 2024.01;气候:NEMO Gyre_Pisces v4.2.0 天气:ICON QUBICC 80 km 分辨率 数据分析:HiBench+K-means Spark(HiBench 7.1.1,Hadoop 3.3.3,Spark 3.3.0;Grace:NVHPC 24.5,x86:Intel 2021.4) 图形分析:The Gap Benchmarks Suite BFS arXiv:1508.03619 [cs.DC],2015。
NVIDIA Grace 提供始终如一的性能
除了卓越的性能和能效外,Grace CPU 还旨在以确定性的性能保持稳定的性能水平。即使所有核心都处于活动状态,Grace 也可以保持最大频率,即使在功耗降低时也能提供高水平的性能。
NVIDIA SCF 消除了数据移动瓶颈。通过将高带宽结构和宽 LPDDR5X 内存接口相结合,Grace CPU 即使在所有核心都处于活动状态时也能实现超过 90% 的 STREAM 效率(相对于峰值额定带宽的传输内存带宽衡量指标)。相比之下,竞争系统的最大效率仅略高于 80%,而在所有核心都处于活动状态时则会下降到 70% 左右(图 3)。
Grace CPU 支持使用最佳数量的 CPU 核心,同时确保每个核心都可以充分利用可用的内存带宽。因此,Grace 在受内存带宽限制的工作负载(包括天气预报或数据分析)中提供领先的性能(图 1)。
基于 2x 9654 和 1 DPC(每通道 DIMM)以及 DDR5-4800 双列 DIMM 的系统,对采用 STREAM Triad 的 AMD EPYC 9004 系列处理器的高性能调优指南中的竞争比较结果。
NVIDIA Grace CPU 超级芯片配备 480GB 的 LPDDR5X。操作系统:Ubuntu 22.04,编译器:GCC 12.3。
基于 2x 9654 和 1 DPC(DIMM Per Channel)以及 DDR5-4800 Dual-Rank DIMMs 的系统,针对采用 STREAM Triad 的 AMD EPYC 9004 系列处理器的高性能调优指南中的竞争比较结果。
出色的数据中心性能
在当今后摩尔定律时代,传统的 CPU 方法要满足对计算性能永无止境的需求,就需要大幅增加成本和能源。数据中心在供电方面受到限制,限制了其能力的增长。为了应对这些挑战并支持 可持续计算 目标,现代数据中心必须加速所有工作负载。无法加速的工作负载必须使用现有的最节能计算。
NVIDIA Grace 能够在相同的功率下提供两倍的性能,从而应对这些挑战,为优化数据中心带来了新的机会。数据中心运营商可以选择在相同的功率范围内将性能翻倍,或者仅使用一半的能源来保持稳定的性能水平。这为在有限的功率预算下使用 GPU 加速节省的电量开辟了可能性。
NVIDIA Grace 是使用 Arm 标准构建的。这意味着,过渡到其他 Arm 数据中心级架构的任何工作都将在 Grace 上运行,而在 NVIDIA Grace 上完成的任何工作都将在 Arm 数据中心生态系统的其他部分运行。过渡到 NVIDIA Grace 还支持 CPU 和 GPU 架构与 NVIDIA GB200 Grace Blackwell Superchip 等产品紧密耦合。借助 Grace,数据中心可以在单个 CPU 架构上实现标准化,这也适用于整个 Arm 生态系统。