人工智能/深度学习

On-Demand 会话:使用 NVIDIA 操作符加速 Kubernetes

Kubernetes 是一个开源的容器编排系统,用于自动化计算机应用程序部署、扩展和管理。它是一个非常流行的工具,可以用于自动展开和回滚、水平扩展、存储编排等。对于许多组织来说, Kubernetes 是其基础架构的关键组件。

安装和扩展 Kubernetes 的一个关键步骤是确保它正确利用基础设施的其他组件。 NVIDIA 运营商优化 Kubernetes 上的 GPU 和 NIC 的安装和管理,使软件堆栈能够在云中运行最需要资源的工作负载,如 AI 、 ML 、 DL 和 HPC ,数据中心和边缘。 NVIDIA 运营商由 GPU 运营商和网络运营商组成,是开源的,基于运营商框架。

NVIDIA GPU 运算符

NVIDIA GPU 操作符被打包为一个 Helm 图表,并安装和管理软件组件的生命周期,以便 GPU 加速的应用程序可以在 Kubernetes 上运行。这些组件包括 GPU 功能发现、 NVIDIA 驱动程序、 Kubernetes 设备插件、 NVIDIA 容器工具包和 DCGM 监控。

GPU 操作符使基础结构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期,因此无需单独管理每个节点。以前,基础架构团队必须管理两个操作系统映像,一个用于 GPU 节点,另一个用于 CPU 节点。当使用 GPU 操作符时,基础设施团队也可以将 CPU 映像与 GPU 工作节点一起使用。

NVIDIA 网络运营商

网络运营商负责自动化 Kubernetes 集群中主机网络组件的部署和管理。它包括 Kubernetes 设备插件、 NVIDIA 驱动程序、 NVIDIA 对等内存驱动程序和 Multus 、 macvlan CNIs 。这些组件以前是手动安装的,但通过网络运营商实现了自动化,简化了部署过程,并通过增强的客户体验实现了加速计算。


单独或一起使用, NVIDIA 操作符简化了 Kubernetes 上的 GPU 和 SmartNIC 配置,并与合作伙伴云平台兼容。要了解有关这些组件的更多信息,以及 NVIDIA 操作员如何解决运行 AI 、 ML 、 DL 和 HPC 工作负载的关键挑战,并简化初始设置和第 2 天操作,请查看按需网络研讨会“ 用 NVIDIA Operators 加速 Kubernetes ”。

 

Tags