AI 模型的快速演进推动了对更高效、更可扩展的推理解决方案的需求。在企业组织努力利用 AI 的强大功能时,他们在部署、管理和扩展 AI 推理工作负载方面面临挑战。 NVIDIA NIM 和 Google Kubernetes Engine (GKE) 共同提供了应对这些挑战的强大解决方案。NVIDIA 与 Google Cloud 合作,在 GKE 上引入 NVIDIA NIM,以加速 AI 推理,通过 Google Cloud Marketplace 提供的简化部署,在大规模提供安全、可靠和高性能的推理。
NVIDIA NIM 是 NVIDIA AI Enterprise 软件平台的一部分,现已在 Google Cloud Marketplace 上提供。它是一套易于使用的微服务,旨在安全、可靠地部署高性能 AI 模型推理。NIM 现已与 GKE 集成,GKE 是一种托管式 Kubernetes 服务,用于使用 Google Cloud 基础架构大规模部署和运行容器化应用。
本文介绍了 GKE 上的 NIM 如何简化 AI 推理工作负载的部署和管理。这个功能强大且灵活的 AI 模型推理解决方案利用了 GKE 的强大功能和 Google Cloud 上的 NVIDIA 全栈 AI 平台。
轻松部署性能优化的推理
NVIDIA NIM 和 GKE 的集成为希望加速 AI 推理的组织提供了几个关键优势:
- 简化部署 :借助 Google Cloud Marketplace,NVIDIA NIM 在 GKE 上的一键式部署功能可以轻松设置和管理 AI 推理工作负载,从而减少部署所需的时间和精力。
- 灵活的模型支持 :支持广泛的 AI 模型,包括开源模型、NVIDIA AI 基础模型和自定义模型,确保组织可以为其特定应用选择合适的模型。
- 高效性能 :该平台基于 NVIDIA Triton Inference Server 、 NVIDIA TensorRT 和 PyTorch 等行业标准技术构建,可提供高性能 AI 推理,使组织能够快速高效地处理大量数据。
- 加速计算 :访问 Google Cloud 上的 NVIDIA GPU 实例(包括 NVIDIA H100、A100 和 L4),可提供一系列加速计算选项,以涵盖各种工作负载,满足各种成本和性能需求。
- 无缝集成 :兼容标准 API 和最少的编码需求,使现有 AI 应用程序能够轻松集成,从而减少对大量返工或重新开发的需求。
- 企业级功能 :安全性、可靠性和可扩展性功能确保 AI 推理工作负载受到保护,并且可以在不影响性能的情况下处理不同级别的需求。
- 简化采购 :Google Cloud Marketplace 的可用性简化了获取和部署流程,使组织能够根据需要快速访问和部署该平台。
开始在 GKE 上使用 NVIDIA NIM
要开始在 GKE 上利用 NIM,请按照本节详述的步骤操作。
第 1 步 :在 Google Cloud 控制台中访问 NVIDIA NIM on GKE 并启动部署流程。单击“Launch”(启动)按钮,稍后系统会显示“Deployment details”(部署详情)页面。
第 2 步 :配置平台以满足特定的 AI 推理需求,包括选择所需的 AI 模型和设置部署参数。提供部署名称等详细信息,您可以使用现有服务帐户或创建新帐户。
接下来,从下拉菜单中选择与实例类型对应的特定区域中的适当 GPU。
第 3 步 :从下拉菜单中选择您的 NIM。
第 4 步: 阅读并接受 EULA,然后单击“Deploy”。部署大约需要 15-20 分钟,具体取决于您选择的 NIM 和集群参数。
第 5 步: 获取已创建的 GKE 集群的凭据。导航至 Google Cloud 控制台 以查找新集群。然后选择“选项”菜单 →“连接”以获取其凭据。
gcloud container clusters get-credentials $CLUSTER --region $REGION --project $PROJECT
集群运行后,通过设置 NIM 容器的端口转发来运行推理。
kubectl -n nim port-forward service/my-nim-nim-llm 8000:8000 &
接下来,使用以下 curl 命令针对 NIM 端点运行推理请求:
curl -X GET 'http://localhost:8000/v1/health/ready'
curl -X GET 'http://localhost:8000/v1/models'
curl -X 'POST' \
'http://localhost:8000/v1/chat/completions' \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"messages": [
{
"content": "You are a polite and respectful chatbot helping people plan a vacation.",
"role": "system"
},
{
"content": "What should I do for a 4 day vacation in Spain?",
"role": "user"
}
],
"model": "meta/llama-3.1-8b-instruct",
"max_tokens": 4096,
"top_p": 1,
"n": 1,
"stream": true,
"stop": "\n",
"frequency_penalty": 0.0
}'
如需对模型重新排序,请使用以下调用:
# rerank-qa
curl -X 'POST' \
'http://localhost:8000/v1/ranking' \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"query": {"text": "which way should i go?"},
"model": "nvidia/nv-rerankqa-mistral-4b-v3",
"passages": [
{
"text": "two roads diverged in a yellow wood, and sorry i could not travel both and be one traveler, long i stood and looked down one as far as i could to where it bent in the undergrowth;"
},
{
"text": "then took the other, as just as fair, and having perhaps the better claim because it was grassy and wanted wear, though as for that the passing there had worn them really about the same,"
},
{
"text": "and both that morning equally lay in leaves no step had trodden black. oh, i marked the first for another day! yet knowing how way leads on to way i doubted if i should ever come back."
}
]
}'
对于嵌入模型,请使用以下调用:
# embed
curl -X "POST" \
"http://localhost:8000/v1/embeddings" \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"input": ["Hello world"],
"model": "nvidia/nv-embedqa-e5-v5",
"input_type": "query"
}'
确保您拥有正确的 URL 和模型参数下提到的模型。
您还可以使用 NVIDIA GenAI-Perf 工具进行负载测试,并获取性能指标,例如吞吐量和延迟。
将现有 AI 应用和模型与 NVIDIA NIM 在 GKE 上集成,利用标准 API 和兼容性功能确保无缝操作。根据需要扩展 AI 推理工作负载,使用平台的可扩展性功能处理不同级别的需求并优化资源利用率。
总结
GKE 上的 NVIDIA NIM 是加速 AI 推理的强大解决方案,具有易用性、广泛的模型支持、稳健的基础、无缝兼容性以及企业级安全性、可靠性和可扩展性。企业现在可以增强其 AI 能力、简化部署流程,并实现大规模的高性能 AI 推理。 GKE 上的 NVIDIA NIM 提供了推动创新和提供有影响力的 AI 解决方案所需的工具和基础设施。在 Google Cloud Marketplace 上查找 NVIDIA NIM。