人工智能/深度学习

GPU Operator 1.8 增加了对 DGX 、 HGX 和升级的支持

最后一篇文章 ,我们研究了 MIG 运算符是如何演变的,添加了丰富的功能集来处理 GPU 发现、支持 GPU 安培体系结构的新多实例 GPU ( MIG )功能、 vGPU 以及用于 Red Hat OpenShift 的认证。

在本文中,我们将介绍 GPU Operator release 1 . 8 中添加的新功能,进一步简化 GPU 对各种部署场景的管理,包括:

  • 增加了对 GPU 操作员升级的支持
  • 支持 NVX 交换机系统,包括 DGX A100 和 NVIDIA HGX A100 服务器
  • 支持收集 GPU 操作员状态指标
  • GPU 运营商和网络运营商改进多节点培训
  • 支持 Red Hat OpenShift 4 . 8

NVIDIA 软件生命周期管理

GPU Operator 的 1 . 8 版为组织提供了更新机制,以更新其 GPU Operator 版本,而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本,这意味着在升级过程中群集中没有可用的 GPU 。

从 1 . 8 开始,升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点,因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时,下一个节点才会更新。用户可以确信,在更新 GPU 操作员时,他们的工作流程将得到更好的管理。

现在支持 NVS 交换机系统

对于 1 . 8 , GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统,包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建一个可扩展的终端计算平台。

GPU 操作员还经过认证,可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。

支持收集 GPU 操作员状态指标

在 1 . 8 版本中, GPU 运营商现在报告各种指标,供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。

对于 OpenShift 容器平台,这些资源将在此版本中自动创建。监控解决方案,如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。

更好地结合: NVIDIA 加速计算和联网

最近, NVIDIA 发布了 NVIDIA Network Operator . 模拟 NVIDIA GPU Operator ,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。

当它们一起部署时, NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ,即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载(如 AI 多节点培训)的关键技术促成因素。

了解有关最新版本的更多信息 NVIDIA 网络运营商发布 .

增加了对 Red Hat OpenShift 的支持

我们继续支持红帽 OpenShift 。

  • GPU Operator 1 . 8 和 1 . 7 支持 Red Hat OpenShift 4 . 8 和 4 . 7
  • GPU 运算符 1 . 6 支持 Red Hat OpenShift 4 . 7
  • GPU 运算符 1 . 5 支持 Red Hat OpenShift 4 . 6
  • GPU Operator 1 . 4 和 1 . 3 分别支持 Red Hat OpenShift 4 . 5 和 4 . 4

概括

以下资源可用于使用 NVIDIA GPU 运算符:

NVIDIA GPU 运算符是许多应用程序的关键组件 边缘计算 解决。了解有关 NVIDIA 解决方案的更多信息 边缘计算 .

 

Tags