今天, NVIDIA 发布了 TensorRT 8 . 0 ,通过新的优化将 BERT 的大推理延迟降低到 1 . 2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。
TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。
有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。
此版本的亮点包括:
- BERT 在 1 . 2 毫秒内进行推断,并进行了新的 transformer 优化
- 使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性
- 引入稀疏性支持对安培 GPU 的快速推理
您可以进在此处进一步了解稀疏性。
微信是中国最大的社交媒体平台之一,它使用 TensorRT 加速搜索,每月服务 5 亿用户。
“我们已经实现了基于 TensorRT – 和 -INT8 QAT 的模型推理加速,以加速微信搜索的核心任务,如查询理解和结果排名。我们用 GPU + TensorRT 解决方案突破了 NLP 模型复杂度的传统限制, BERT / Transformer 可以完全集成到我们的解决方案中。此外,我们还使用卓越的性能优化方法,显著减少了分配的计算资源( 70% ) – Huili/Raccoonliu/Dickzhu,微信搜索
NVIDIA TensorRT 免费提供给 NVIDIA 开发者计划的成员。要了解更多信息,请访问 TensorRT 产品页。
要进一步了解 TensorRT 8 及其功能:
- 使用 TensorRT 的 BERT 实时自然语言理解
- 利用 TensorRT 量化感知训练实现 INT8 推理的 FP32 精度
- 用安培结构和 TensorRT 加速稀疏推理
- 利用 TensorRT 加速深度学习推理
- 从 TensorFlow 和 ONNX 导入模型
- TensorRT 快速入门指南
- 笔记本:使用 EfficientDet 和 TensorRT 优化目标检测
- 笔记本: BERT 带有 QAT 和稀疏性
按照这些 GTC 课程来熟悉技术:
- GTC 会话 S31876 : 用 TensorRT 8 . 0 加速深度学习推理
- GTC 会话 S31552 : 充分利用 NVIDIA 安培结构中的结构稀疏性
- GTC 会话 S31653 : 用 TensorRT 8 . 0 在 PyTorch 中进行量化感知训练
- GTC 会话 S32224 : 用 OnnxRuntime- TensorRT 加速深度学习推理
- GTC 会话 S31732 : TensorFlow 2 与 TensorRT 会话集成的推理
- GTC 会话 S31828 : TensorRT 快速入门指南