对话式人工智能

借助 NVIDIA 云原生堆栈实现 AI 应用开发简化

在快速发展的 AI 和数据科学领域,对可扩展、高效且灵活的基础设施的需求从未如此高。传统基础设施通常难以满足现代 AI 工作负载的需求,从而导致开发和部署流程中的瓶颈。随着组织努力大规模部署 AI 模型和数据密集型应用,云原生技术已成为游戏规则的变革性变革。

为了帮助组织完成其人工智能应用程序开发流程, NVIDIA 开发并验证了 NVIDIA 云原生堆栈(CNS),这是一种开源参考架构,NVIDIA 用于测试和认证所有支持的人工智能软件。

借助 CNS,您可以运行和测试由 Kubernetes 编排的容器化 GPU 加速应用程序,并在支持这些功能的平台上轻松访问诸如 Multi-Instance GPU(MIG)和 GPUDirect RDMA 等功能。CNS 用于开发和测试目的,但在 CNS 上开发的应用程序随后可以在基于企业 Kubernetes 的平台上在生产环境中运行。

本文将探讨以下关键领域:

  • CNS 的组成部分和优势
  • KServe 在 CNS 上如何增强 AI 模型评估和部署
  • 在您的 AI 基础架构中使用这些解决方案实施 NVIDIA NIM

CNS 概述 

CNS 提供的参考架构包含多种版本化软件组件,这些组件经过共同测试,可确保实现最佳操作,其中包括

NVIDIA GPU Operator 简化了在云原生技术上运行 AI 工作负载的能力,为用户提供了一种轻松体验 NVIDIA 最新功能的方法。

CNS 还包括可选的附加工具:

  • microK8
  • 存储
  • 负载均衡器
  • 监控
  • KServe
Diagram shows storage, LoadBalancer, monitoring, MicroK8s, and KServe as the top layer. Next is MIG, GPU Monitoring, and GPUDirect RDMA over GPU Driver Container, NVIDIA Container Toolkit, Device Plug-in, and Network Driver Container. Last four layers are GPU Operator and Network Operator over Kubernetes, Container Engine, and Linux Distribution.
图 1.CNS 组件

CNS 抽象掉了设置和维护这些环境所涉及的大部分复杂性,使您能够专注于原型设计和测试 AI 应用,而不是组装和管理底层软件基础设施。

在 CNS 上开发的应用可确保与 基于 NVIDIA AI Enterprise 的部署兼容,从而实现从开发到生产的平稳过渡。另外,符合此堆栈中定义的组件版本的 Kubernetes 平台也可确保以受支持的方式运行 NVIDIA AI 软件。

CNS 可部署在基于 bare metal、云或 VM 的环境中。您可在 安装指南 (用于手动安装) 和 Ansible Playbook (用于自动安装) 中获取 CNS。有关更多信息,请参阅 入门指南

默认情况下禁用附加工具。有关启用附加工具的更多信息,请参阅 NVIDIA Cloud Native Stack Installation

对预先配置的 CNS 环境感兴趣? NVIDIA LaunchPad 提供预先配置的环境,以帮助您快速入门。

增强 AI 模型评估 

KServe 是一款功能强大的工具,使组织能够在云原生环境中高效地提供机器学习模型。通过利用 Kubernetes 的可扩展性、弹性和灵活性,KServe 简化了复杂 AI 模型和应用的原型设计和开发。

配备 KServe 的 NNS 支持部署 Kubernetes 集群,这些集群可以处理与 AI 模型训练和推理相关的复杂工作流程。

使用 KServe 部署 NVIDIA NIM 

在 CNS 上使用 KServe 部署 NVIDIA NIM 不仅可以简化开发流程,还可以确保您的 AI 工作流具有可扩展性、弹性和易于管理的特点。通过使用 Kubernetes 和 KServe,您可以将 NVIDIA NIM 与其他微服务无缝集成,从而创建稳健高效的 AI 应用开发平台。有关更多信息,请参阅 KServe 提供商在云和数据中心中完成 NIMble 推理

按照说明使用 KServe 安装 CNS。在集群上部署 KServe 后,我们建议启用存储和监控选项,以监控所部署模型的性能,并根据需要扩展服务。

然后, 按照在 KServe 上部署 NIM 的步骤操作 。有关部署 NIM 的不同方法的更多信息,请参阅 NIM-Deploy,其中包含了使用 KServe 和 Helm 图表部署 NIM 的示例。

结束语 

CNS 是一种用于开发和测试的参考架构。它代表着生成式人工智能和数据科学工作负载部署和管理方面的重大进步,因为 CNS 的软件栈已经过全面测试,可以无缝协作。

CNS 与 KServe 相结合,为简化 AI 模型和应用程序开发提供了可靠的解决方案。借助这种经过验证的参考架构,您可以克服基础设施管理的复杂性,专注于推动 AI 计划的创新。CNS 在裸机、云或基于虚拟机(VM)的环境中运行的灵活性、可扩展性和易用性使其成为各种规模的组织的理想选择。

无论您是部署 NIM 微服务、使用 KServe 进行模型服务,还是集成高级 GPU 特性,CNS 都能提供加速 AI 创新所需的工具和能力,并提供以更高的效率和轻松性将强大的解决方案引入生产的途径。

 

标签