GTC 大会火热进行中!别错过 NVIDIA CEO 黄仁勋的最新发布,以及 AI 和加速计算的必听会议。
网络

NVIDIA BlueField DPU 助力数据中心应用的卸载与隔离

当今的数据中心正在迅速地发展,这就需要一种被称为DPU(数据处理器)的新型处理器。新数据中心的一些应用需要的是一种可卸载、加速和隔离的特定类型DPU架构。8月23日,在Hot Chips 33大会上,NVIDIA芯片架构师Idan Burstein探讨了数据中心不断变化的需求,以及这些需求如何推动NVIDIA BlueField DPU系列产品的架构。

为何需要DPU

以前的数据中心需在专用服务器集群上独自运行应用,现如今已不同从前。现在,CPU计算、GPU计算和存储等资源已被解聚,可以根据需求将资源组合(分配和组装),还可以根据应用和工作负载的变化对资源进行重新组合或重新分配。

GPU加速的AI正在成为主流,其增强了大量的商业应用,而不仅仅是科学应用。以虚拟化为主的服务器,现在很可能是在裸金属服务器上的容器中运行,尽管这些服务器不再有管理程序或虚拟机,其仍然需要软件定义的基础设施。为支持保证信息安全的零信任方法,防火墙代理和反恶意软件过滤器等网络安全工具必须在每台服务器上运行。这些变化对网络、安全和管理所需的工作方式产生了巨大影响,进而推动了每台服务器对DPU的需求。

DPU任务的最佳定义:卸载、加速和隔离基础设施应用。

  • 卸载:从服务器CPU中接管基础设施任务,这样就可以让尽可能多的CPU计算能力来运行应用。
  • 加速:运用DPU芯片硬件中的加速,以比CPU更快的速度运行基础设施功能。
  • 隔离:将关键的数据面和控制面功能转移到DPU上,这既减轻CPU的工作,同时还可以在CPU或其软件被破坏时保护这些功能。

一个DPU需要具备完成以上三个任务的能力。

图1:数据中心已发展成为软件定义、容器化和可组合的特性。卸载基础设施任务至DPU可提高服务器性能,效率与安全。

仅移动CPU核是不够的

一些DPU厂商所尝试的一种方法是,在DPU上放置大量的CPU核以用于卸载服务器CPU的应用。无论是Arm、RISC、X86还是其他类型的CPU核,这种方法都具有根本缺陷,因为服务器的CPU或GPU对于CPU最优或GPU最优的应用已是高效的。虽然DPU上的Arm(或RISC及其他)核确实可能比一般的服务器CPU更节能,但除非Arm核有一个用于该特定应用的加速器,否则不值得为了节能而增加复杂性。

此外,目前市面上已出现基于Arm CPU的服务器,例如基于Amazon EC2 Graviton的实例、Oracle A1 实例,基于Ampere Computing 的Altra CPU,以及Fujitsu的 A64FX CPU的服务器。在Arm上高效运行的应用,均可部署在Arm服务器上。只有在某些功能必须与服务器 CPU 隔离的情况下,例如控制平面或基础设施应用程序的一部分,才需要移动到DPU的Arm核上。

无论从技术角度出发,还是从经济角度出发,将一个标准应用的工作负载从服务器的N个X86核卸载到N个或2N个DPU的Arm 核上都毫无意义。将AI或机器学习应用从服务器GPU卸载到DPU的Arm核上亦是如此。将应用从服务器的CPU和GPU转移到DPU的CPU上,并且不进行任何类型的加速的举动,充其量只是虚晃,最坏的情况还会降低服务器的性能和效率。

图2:将应用从服务器的CPU转移到无加速DPU的CPU核上,除了满足将这些应用与CPU服务器域中隔离的需求外,其他场景都毫无益处。

DPU最适合的加速类型

很明显,一个合适的DPU必须通过硬件加速来增加数据中心的最大效益。它应该加速什么?卸载涉及数据移动和安全性的应用,DPU是最佳选择。 例如,网络与远程直接内存访问 (RDMA) 都最适合卸载到 DPU 芯片,RDMA常用于加速 AI、HPC、大数据和存储应用的服务器之间的数据移动。

对比CPU,如果DPU 具有针对特定任务的加速硬件,卸载和运行效率将会提高很多。 若应用满足于 DPU 的硬件加速能力时,一个设计合理的 DPU 可以执行 30个、100个 甚至 是300 个 CPU 的工作。

DPU 的 CPU 核非常适合运行必须与服务器应用程序,以及操作系统域隔离开的控制平面,或安全应用。 例如,在裸金属服务器中,租户不希望在他们的服务器上运行管理程序,或虚拟机来进行远程管理、遥测或安全,因为这会损害性能,或干扰到应用程序。 然而,云运营商仍然需要能够监控服务器的性能并检测、阻止或隔离入侵该服务器的安全威胁。

DPU 可以独立于应用程序域来运行此软件,提供安全和控制,同时不干扰服务器的性能或操作。

观看Hot Chips大会,了解更多信息

敬请关注 Idan Burstein在Hot Chips 33会议上的演讲,进一步了解NVIDIA BlueField DPU芯片架构如何满足现代数据中心的性能、安全和可管理性的需求。Idan 将探讨 DPU应该卸载和隔离的是什么,详细阐述现在和即将推出的 NVIDIA DPU 可以加速什么,如何提高现代数据中心的性能、效率和安全性。

Tags