数据中心/云端

NVIDIA NIM 1.4 现已部署可用,推理速度提升 2.4 倍

随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI 模型推理提供生产就绪型微服务容器,不断提高企业级生成式 AI 性能。即将推出的 NIM 版本 1.4 定于 12 月初发布,开箱即用的请求性能可提升高达 2.4 倍,并提供相同的单命令部署体验。

NIM 的核心是多个 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可实现光速推理性能。在每个版本中,NIM 都整合了来自这些引擎的内核优化、内存管理和调度方面的最新进展,以提高性能。

The image shows a chart of throughput in tokens per second per user for the Llama 3.1 8B NIM version 1.4 versus the Llama 3.1 8B NIM version 1.2, demonstrating up to 2.4 faster token generation for NIM 1.4 compared with NIM 1.2.
图 1、与 NIM 1.2 相比,NVIDIA NIM 1.4 吞吐量。Llama 3.1 70B 2 个 H200-SXM 输入令牌 8K,输出令牌 256;Llama 3.1 8B 1 个 H100-SXM 输入令牌 30K,输出令牌 256。

在 NIM 1.4 中,内核效率、运行时启发式算法和内存分配有了显著改进,推理速度提高了 2.4 倍。这些进步对于依赖快速响应和高吞吐量的生成式 AI 应用的企业至关重要。

NIM 还受益于全栈加速计算的持续更新,可提升计算堆栈各个级别的性能和效率。这包括对最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持,进一步提高了推理性能。NIM 用户无需手动更新软件,即可从这些持续改进中受益。

An image shows a chart of request latency in seconds across different request per-second values for the Llama 3.1 8B NIM version 1.4 versus the Llama 3.1 8B NIM version 1.2, showing 2x faster request latency for NIM 1.4 compared with NIM 1.2.
图 2、NVIDIA Llama 3.1 8B NIM 1.4 与 Llama 3.1 8B NIM 1.2 在 1x H100SXM 上运行,输入令牌 30K,输出令牌 256

NIM 整合了全套预配置软件,提供高性能 AI 推理,并且配置简单,使开发者能够快速开始使用高性能推理。

持续创新循环意味着 TensorRT-LLM、CUDA 和其他核心加速计算技术的每项改进都会立即使 NIM 用户受益。更新通过 NIM 微服务容器的更新无缝集成和交付,消除了手动配置的需求,并减少了通常与维护高性能推理解决方案相关的工程开销。

立即开始使用 

NVIDIA NIM 是实现高性能生成式 AI 的捷径,无需传统模型部署和管理的复杂性。凭借企业级可靠性和支持以及持续的性能增强,NIM 使企业能够使用高性能 AI 推理。 了解详情 立即开始使用

 

标签