数据中心/云端

Google Cloud Run 现已支持 NVIDIA L4 GPU、NVIDIA NIM 及大规模无服务器 AI 推理部署

部署 AI 赋能的应用和服务给企业带来了重大的挑战:

  • 性能至关重要,因为它直接影响用户体验和竞争优势,并影响部署成本,影响整体投资回报率。
  • 实现可扩展性对于在不超过配置计算资源的情况下有效满足已部署 AI 应用程序不断变化的需求至关重要。这需要在高峰期间动态扩展资源以确保平稳运行,并在较安静的时间缩减资源以优化成本。
  • 复杂性使问题更加复杂,涉及优化多个 AI 模型的性能、将这些模型无缝集成到现有工作流程中,以及管理底层基础设施等任务。

应对这些挑战需要一种全栈方法,该方法可以优化性能、有效管理可扩展性并驾部署的复杂性,使组织能够在保持运营效率和成本效益的同时最大限度地发挥AI的全部潜力。

Google Cloud 和 NVIDIA 携手合作,通过结合 NVIDIA AI 平台的性能和云端无服务器计算的易用性,应对这些挑战并简化 AI 推理部署。

Google Cloud 的完全托管式无服务器容器运行时 Cloud Run 增加了对 NVIDIA L4 Tensor Core GPU 的支持(可在预览版中获取)。现在,您可以按需运行大规模加速的实时 AI 应用程序,而无需担心基础设施管理。结合 NVIDIA NIM 微服务的强大功能,Cloud Run 能够显著简化生产优化和服务 AI 模型的复杂性,同时更大限度地提高应用程序性能。

部署支持 AI 的实时应用

借助 Cloud Run,您可以抽象化基础架构管理并根据需要动态分配资源,从而部署和运行容器化应用程序。它可以根据传入流量自动扩展应用程序,这样您就不必调配剩余的计算资源来处理峰值负载。凭借其快速实例启动和扩展到零,您也不必在需求较低期间保持空闲资源。

NVIDIA L4 Tensor Core GPU 的 Cloud Run 支持标志着其与之前仅使用 CPU 的产品相比实现了重大的飞跃。

NVIDIA L4 GPU针对包括推荐系统、基于语音的AI助手、生成式AI、视觉搜索和联系中心自动化等多种AI应用的大规模推理进行了优化,可以提供出色的个性化体验。与CPU解决方案相比,L4 GPU可以提供高达120倍的AI视频性能,生成式AI推理性能是上一代产品的2.7倍。

Google Cloud 是第一家为其 G2 VM 提供 NVIDIA L4 GPU 的云,包括 Google Compute Engine (GCE)、Google Kubernetes Engine (GKE) 和 Vertex AI 在内的 Google Cloud 服务均支持这些 GPU。

让我们看看,Let’s Enhance、Wombo、Writer、Descript 和 AppLovin 等公司正在利用 NVIDIA L4 GPU 的强大功能,将生成式 AI 驱动的应用程序变为现实,并为客户提供愉快的体验。

通过在 Cloud Run 上添加对 NVIDIA L4 的支持,您可以使用轻量级生成式 AI 模型(例如 Gemma-2B/7B、Llama3-8B 和 Mistral-8x7B)部署实时推理应用程序。这与 Cloud Run 的无服务器平台的可扩展性、每秒计费、低延迟和快速冷启动时间相结合。

性能经过优化的无服务器 AI 推理

优化所部署的 AI 模型的性能至关重要,因为它直接影响所需的资源,并影响部署 AI 应用程序的总体成本。

为应对这一挑战,NVIDIA 推出了 NVIDIA NIM,这是一套经过优化的云原生微服务,旨在简化和加速 AI 模型的部署。NIM 提供预先优化的容器化模型,可以轻松集成到应用程序中,从而缩短开发时间并最大限度地提高资源效率。

通过在 Cloud Run 上使用 NVIDIA NIM,您可以使用经过优化的推理引擎部署高性能 AI 应用程序,从而充分发挥 NVIDIA L4 GPU 的潜力,并提供出色的吞吐量和延迟,而无需具备推理性能优化方面的专业知识。

作为 Google Cloud Marketplace 上 NVIDIA AI Enterprise 的一部分,NIM 提供与 OpenAI API 兼容的编程模型和自定义扩展程序的灵活集成,同时通过使用安全张量、持续监控和修补 CVE 以及定期进行内部渗透测试来优先考虑企业级安全性,从而确保 AI 应用稳健、安全且受支持良好,从而促进从开发到生产的平稳过渡。

除了 Cloud Run 之外,NVIDIA NIM 还可以部署在不同的 Google Cloud 服务中,包括 Google Kubernetes Engine (GKE) 或 Google Compute Engine (GCE),让您选择构建和部署 AI 应用程序所需的抽象级别。

借助 NVIDIA L4 在 Google Cloud Run 上部署 Llama3-8B-Instruct NIM 微服务

以下是如何使用 NIM 在 NVIDIA L4 GPU 上使用 Cloud Run 部署 Llama3-8B-Instruct 模型。Cloud Run 目前支持每个 Cloud Run 实例连接一个 NVIDIA L4 GPU。作为前提条件,请在工作站上安装 Google Cloud SDK

克隆资源库:

$ git clone https://github.com/NVIDIA/nim-deploy
$ cd nim-deploy/cloud-service-providers/google-cloud/cloudrun

设置启动所需的环境变量:

$ cat env
export SERVICE_ACCOUNT_ID=<Put your service account>
export PROJECTID=<Put your project ID>
export PROJECTUSER=<Put your user name>
export PROJECTNUM=<Put your project number>
export REGION=<Put your region>
export GCSBUCKET=<Put your GCS bucket>
export SERVICE_NAME=llama-3-8b-instruct
# ---- entries below created by build_nim.sh

使用部署所需的适当 NIM 微服务名称编辑 Dockerfile。在 FROM 语句中放置来自 NVIDIA NGC 的所需模型 URL。

FROM nvcr.io/nim/meta/llama3-8b-instruct:1.0.0

构建用于启动的容器:

$ source ./env && ./build_nim.sh

通过执行run.sh脚本部署容器:

$ source ./env && ./run.sh

准备好了吗?

NVIDIA AI 平台(包括 NVIDIA NIM 和 NVIDIA L4 GPU)与 Google Cloud Run 的强强联合,解决了部署 AI 应用程序所固有的性能、可扩展性和复杂性方面的关键挑战。这一种协同作用不仅加速了部署,而且提高了应用程序性能,帮助组织充分利用 AI,同时保持运营效率和低成本。

您可以通过 NVIDIA API 目录使用 NVIDIA NIM 微服务进行体验和原型设计,从而测试和优化应用程序。然后,您可以下载 NIM 容器,在 Google Cloud Run 上继续开发、研究和测试,这是免费的 NVIDIA 开发者计划的一部分。

如果您正在寻求企业级安全性、支持和 API 稳定性,可以通过 90 天免费的 NVIDIA AI Enterprise 许可证访问 NIM。您还可以在 NVIDIA LaunchPad 上试用 NIM 实战实验室。

支持 NVIDIA L4 GPU 的 Cloud Run 目前处于预览阶段,可在 us-central1 Google Cloud 区域使用。欲了解此功能的更多信息并观看实际演示,请查看发布活动直播,并立即注册以获取访问权限!

 

Tags