数据科学

使用 NVIDIA Triton 推理服务器支持的 Amazon SageMaker 多模型端点在同一 GPU 上运行多个 AI 模型

 

去年 11 月,AWS 在 Amazon SageMaker 中集成了开源推理服务软件 NVIDIA Triton Inference Server机器学习 (ML) 团队可以使用 Amazon SageMaker 作为一项完全托管的服务来大规模构建和部署 ML 模型。

通过这种集成,数据科学家和 ML 工程师可以轻松地使用 NVIDIA Triton 多框架、高性能推理,与 Amazon SageMaker 完全管理的模型部署一起使用。

多模型端点在 GPU 上以低成本实现更高的性能

今天, AWS 在 Amazon 上宣布了 Amazon GPU 多模型端点( MME )。 MME 提供在 GPU 上运行多个深度学习或 ML 模型的能力,同时使用 Triton 推理服务器。有关详细信息,请参见 Run Multiple Deep Learning Models on GPU with Amazon SageMaker Multi-Model Endpoints

MME 支持跨多个模型共享端点后的 GPU 实例,并基于传入流量动态加载和卸载模型。有了这一点,您可以轻松实现最佳性价比。

GPU 上 MME 的缩放推断

为了利用 GPU 的巨大处理能力, MME 使用 Triton 推理服务器并发模型执行功能,该功能在同一 AWS GPU 实例上并行运行多个模型。该功能通过运行许多模型来帮助 ML 团队扩展 AI ,这些模型服务于许多推理请求并具有严格的延迟要求。您的 ML 团队将看到 GPU 利用率和推理成本的提高。

在 Amazon SageMaker 可用的所有地区都可以获得支持, Triton 推理服务器容器无需额外费用。

立即在 GPU 上使用 Amazon SageMaker multi-model endpoint

 
 
加入 NVIDIA Triton 和 NVIDIA TensorRT 社区 ,了解最新产品。

 

Tags