NVIDIA GPU 运营商允许企业在 Kubernetes 上轻松扩展 NVIDIA GPU 。
通过使用 Kubernetes 简化 GPU 的部署和管理, GPU 运营商使基础设施团队能够在几分钟内自动无误地扩展 GPU 应用程序。
GPU Operator 1.9 现已推出,其中包括几个关键功能,以及其他更新,使用户可以更快地开始使用并保持不间断服务。
GPU 操作员 1.9 包括:
- 支持使用 DGX 操作系统的 NVIDIA DGX A100 系统
- 简化的安装过程
使用 DGX 操作系统支持 DGX A100
对于 1.9 , GPU 操作员自动在 NVIDIA NVSwitch 系统上部署初始化结构所需的软件,包括与 DGX OS 一起使用时的 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建端到端可扩展计算平台。
DGX A100 配备了世界上最先进的加速器,使企业能够将培训、推理和分析整合到统一、易于部署的 AI 基础设施中。现在,有了 GPU 运营商的支持,企业可以将其应用程序从培训扩展到与世界上最先进的系统相匹配。
简化的安装过程
对于 GPU 运营商的早期版本,使用 GPU 运营商和 OpenShift 的组织需要从 Red Hat 申请额外的权利,以便成功使用 GPU 运营商。由于授权密钥过期,用户需要重新应用这些密钥,以确保其工作流程不会中断。
GPU Operator 1.9 现在支持 OpenShift 的免授权驱动程序容器。这是通过利用 RedHat 提供的 Driver-Toolkit 映像以及为构建 NVIDIA 内核模块而预先安装的必要内核包来实现的。用户不再需要确保运行 GPU 运算符时始终应用具有 RHEL 订阅的有效证书。更重要的是,对于断开连接的集群,它消除了对私有包存储库的依赖。
版本 1.9 还包括对带有 MIG Manager 的预装驱动程序的支持,对预装 MOFED 使用 GPUDirect RDMA 的支持,对容器运行时的自动检测,以及对 NOUVEAU 的自动禁用–所有这些都旨在让用户更容易开始并继续使用 GPU 加速的 Kubernetes 。
此外, GPU Operator 1.9 会自动检测工作节点上安装的容器运行时。无需在安装时指定容器运行时。
GPU 操作员 1.9 :
helm install --wait --generate-name nvidia/gpu-operator
GPU 操作员 1.8 及更早版本:
helm install --wait --generate-name nvidia/gpu-operator --set operator.defaultRuntime=containerd
GPU 操作员要求禁用 Nouveau 。在以前的 GPU 操作员版本中, K8s 管理员必须按照文档 禁用 Nouveau 。 GPU 操作员 1.9 会自动检测 Nouveau 是否已启用并为您禁用。
GPU 操作员资源
以下资源可用于使用 NVIDIA GPU 运营商:
NVIDIA GPU 算子是许多 edge computing 解决方案的关键组件。了解有关 edge computing 的 NVIDIA 解决方案的更多信息。