NVIDIA TensorRT

NVIDIA TensorRT 的优势

推理速度提高 36 倍

基于 NVIDIA TensorRT 的应用程序在推理过程中的执行速度比纯 CPU 平台快达 36 倍，使您能够优化在所有主要框架上训练的神经网络模型，以高精度校准较低精度，并部署到超大规模数据中心、嵌入式平台或汽车产品平台。

TensorRT helps to optimize inference performance

优化推理性能

TensorRT 基于 NVIDIA CUDA® 并行编程模型构建，使您能够在 NVIDIA GPU 上使用量化、层和张量融合、内核调整等技术来优化推理。

TensorRT helps to accelerate every workload

加速每项工作负载

TensorRT 使用量化感知训练和训练后量化和浮点 16 (FP16) 优化来提供 INT8，用于部署深度学习推理应用程序，例如视频流、推荐、欺诈检测和自然语言处理。降低精度的推理可显着减少延迟，这是许多实时服务以及自主和嵌入式应用程序所必需的。

TensorRT-optimized models can be deployed, run, and scaled with NVIDIA Triton

使用 Triton 进行部署、运行和扩展

TensorRT 优化的模型可以使用 NVIDIA Triton™ 进行部署、运行和扩展，这是一种开源推理服务软件，其中包含 TensorRT 作为其后端之一。使用 Triton 的优势包括动态批处理和并发模型执行的高吞吐量，以及模型集成、流式音频/视频输入等功能。

大型语言模型的推理

NVIDIA TensorRT-LLM

NVIDIA TensorRT-LLM 是一个开源库，可加速和优化 NVIDIA AI 平台上最新大型语言模型 (LLM) 的推理性能。它让开发人员可以尝试新的 LLM，提供高性能和快速定制，而无需深入了解 C++ 或 CUDA。

开发人员现在可以通过同一工作流程无缝工作，将 NVIDIA 数据中心系统上的LLM性能加速到本地台式机和笔记本电脑 GPU（包括本机 Windows 上的 NVIDIA RTX 系统）。

TensorRT-LLM 将 TensorRT 的深度学习编译器（包括 FasterTransformer 的优化内核、预处理和后处理以及多 GPU 和多节点通信）包装在一个简单的开源 Python API 中，用于定义、优化和执行LLM生产中的推理。

阅读我们的博客，了解如何开始

领先的推理性能

TensorRT 是 NVIDIA 在 MLPerf Inference 行业标准基准测试中获胜的幕后功臣。 TensorRT-LLM 加速了用于生成 AI 的最新大型语言模型，性能提高了 8 倍，TCO 降低了 5.3 倍，能耗降低了近 6 倍。

GPT-J 6B 推理性能提高 8 倍

Llama2 推理性能提高 4 倍

总拥有成本

越低越好

耗电量

越低越好

查看所有基准数据

开始使用 NVIDIA TensorRT

购买 NVIDIA AI Enterprise

购买 NVIDIA AI Enterprise，这是一个端到端 AI 软件平台，包括 TensorRT 和 TensorRT-LLM，用于任务关键型 AI 推理，并提供企业级安全性、稳定性、可管理性和支持。

申请 90 天 NVIDIA AI 企业评估许可证联系我们了解有关购买TensorRT 的更多信息

下载容器、代码和版本

TensorRT 可作为多个不同平台上的二进制文件，或作为 NVIDIA NGC™ 上的容器。 TensorRT 还集成到 PyTorch 、 TensorFlow 和 Triton 推理服务器的 NGC 容器中。

下载 TensorRT 从 NGC 中拉取 TensorRT 容器访问 TensorRT-LLM 存储库访问更多开发资源

加速各种推理平台

TensorRT 可以优化应用程序并将其部署到数据中心以及嵌入式和汽车环境。它为 NVIDIA TAO 、 NVIDIA DRIVE™ 、 NVIDIA Clara™ 和 NVIDIA Jetpack™ 等关键 NVIDIA 解决方案提供支持。

TensorRT 还集成了特定于应用程序的 SDK，例如 NVIDIA DeepStream 、 NVIDIA Riva 、 NVIDIA Merlin™ 、 NVIDIA Maxine™ 、 NVIDIA Morpheus 和 NVIDIA Broadcast Engine ，为开发人员提供部署智能视频分析、语音 AI、推荐系统的统一路径系统、视频会议、基于 AI 的网络安全以及生产中的流媒体应用程序。