随着 生成式 AI 重塑各行各业,对可立即部署的高性能推理的需求也在不断增长。 NVIDIA NIM 为 AI 模型推理提供生产就绪型微服务容器,不断提高企业级生成式 AI 性能。即将推出的 NIM 版本 1.4 定于 12 月初发布,开箱即用的请求性能可提升高达 2.4 倍,并提供相同的单命令部署体验。
NIM 的核心是多个 LLM 推理引擎,包括 NVIDIA TensorRT-LLM ,可实现光速推理性能。在每个版本中,NIM 都整合了来自这些引擎的内核优化、内存管理和调度方面的最新进展,以提高性能。
在 NIM 1.4 中,内核效率、运行时启发式算法和内存分配有了显著改进,推理速度提高了 2.4 倍。这些进步对于依赖快速响应和高吞吐量的生成式 AI 应用的企业至关重要。
NIM 还受益于全栈加速计算的持续更新,可提升计算堆栈各个级别的性能和效率。这包括对最新的 NVIDIA TensorRT 和 NVIDIA CUDA 版本的支持,进一步提高了推理性能。NIM 用户无需手动更新软件,即可从这些持续改进中受益。
NIM 整合了全套预配置软件,提供高性能 AI 推理,并且配置简单,使开发者能够快速开始使用高性能推理。
持续创新循环意味着 TensorRT-LLM、CUDA 和其他核心加速计算技术的每项改进都会立即使 NIM 用户受益。更新通过 NIM 微服务容器的更新无缝集成和交付,消除了手动配置的需求,并减少了通常与维护高性能推理解决方案相关的工程开销。
立即开始使用
NVIDIA NIM 是实现高性能生成式 AI 的捷径,无需传统模型部署和管理的复杂性。凭借企业级可靠性和支持以及持续的性能增强,NIM 使企业能够使用高性能 AI 推理。 了解详情 并 立即开始使用 。