GTC 大会火热进行中!别错过 NVIDIA CEO 黄仁勋的最新发布,以及 AI 和加速计算的必听会议。
人工智能/深度学习

NVIDIA 宣布 TensorRT 8 个斜切 BERT – 大推断下降到 1 毫秒

今天, NVIDIA 发布了 TensorRT 8 . 0 ,通过新的优化将 BERT 的大推理延迟降低到 1 . 2 毫秒。该版本还提供了 2 倍的精度为 INT8 精度与量化意识的训练,并通过支持稀疏性,这是引进安培 GPU 的显着更高的性能。

TensorRT 是一个用于高性能深度学习推理的 SDK ,包括推理优化器和运行时,提供低延迟和高吞吐量。 TensorRT 用于医疗、汽车、制造、互联网/电信服务、金融服务、能源等行业,下载量近 250 万次。

有几种新的基于 transformer 模型被用于会话人工智能。 TensorRT 中的新的广义优化可以加速所有这些模型,将推理时间减少到 TensorRT 7 的一半。

此版本的亮点包括:

  • BERT 在 1 . 2 毫秒内进行推断,并进行了新的 transformer 优化
  • 使用量化感知训练,以 INT8 精度实现与 FP32 相当的准确性
  • 引入稀疏性支持对安培 GPU 的快速推理

您可以进在此处进一步了解稀疏性。

微信是中国最大的社交媒体平台之一,它使用 TensorRT 加速搜索,每月服务 5 亿用户。

“我们已经实现了基于 TensorRT – 和 -INT8 QAT 的模型推理加速,以加速微信搜索的核心任务,如查询理解和结果排名。我们用 GPU + TensorRT 解决方案突破了 NLP 模型复杂度的传统限制, BERT / Transformer 可以完全集成到我们的解决方案中。此外,我们还使用卓越的性能优化方法,显著减少了分配的计算资源( 70% ) – Huili/Raccoonliu/Dickzhu,微信搜索

图 1 .所有垂直行业的领先采用者。

NVIDIA TensorRT 免费提供给 NVIDIA 开发者计划的成员。要了解更多信息,请访问 TensorRT 产品页。

要进一步了解 TensorRT 8 及其功能:

按照这些 GTC 课程来熟悉技术:

 

Tags