去年 11 月,AWS 在 Amazon SageMaker 中集成了开源推理服务软件 NVIDIA Triton Inference Server。机器学习 (ML) 团队可以使用 Amazon SageMaker 作为一项完全托管的服务来大规模构建和部署 ML 模型。
通过这种集成,数据科学家和 ML 工程师可以轻松地使用 NVIDIA Triton 多框架、高性能推理,与 Amazon SageMaker 完全管理的模型部署一起使用。
多模型端点在 GPU 上以低成本实现更高的性能
今天, AWS 在 Amazon 上宣布了 Amazon GPU 多模型端点( MME )。 MME 提供在 GPU 上运行多个深度学习或 ML 模型的能力,同时使用 Triton 推理服务器。有关详细信息,请参见 Run Multiple Deep Learning Models on GPU with Amazon SageMaker Multi-Model Endpoints 。
MME 支持跨多个模型共享端点后的 GPU 实例,并基于传入流量动态加载和卸载模型。有了这一点,您可以轻松实现最佳性价比。
GPU 上 MME 的缩放推断
为了利用 GPU 的巨大处理能力, MME 使用 Triton 推理服务器并发模型执行功能,该功能在同一 AWS GPU 实例上并行运行多个模型。该功能通过运行许多模型来帮助 ML 团队扩展 AI ,这些模型服务于许多推理请求并具有严格的延迟要求。您的 ML 团队将看到 GPU 利用率和推理成本的提高。
在 Amazon SageMaker 可用的所有地区都可以获得支持, Triton 推理服务器容器无需额外费用。
- Run Multiple Deep Learning Models on GPU with Amazon SageMaker Multi-Modal-Endpoints
- Amazon SageMaker Cost-Effectively Hosts 1000s of GPU Multi-Model Endpoints
立即在 GPU 上使用 Amazon SageMaker multi-model endpoint 。