人工智能/深度学习

语音识别:使用 NVIDIA Riva 生成准确的转录

这篇文章是关于生成准确语音转录的系列文章的一部分。有关第 2 部分,请参见Speech Recognition: Customizing Models to Your Domain Using Transfer Learning. 有关第 3 部分,请参见Speech Recognition: Deploying Models to Production.

每天,电信、金融和统一通信即服务( UCaaS )等行业都会产生数百万分钟的音频。这些音频会议记录可以转录,以便为呼叫中心代理提供实时建议,从客户呼叫记录中提取见解,或在视频会议中生成实时字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.
图 1 。人工智能在工业中的应用

自动语音识别使您能够将语音转录成文本。生成高质量的文字记录是一项挑战,因为这些技能需要理解特定于行业的术语、数百到数千分钟特定于领域的培训音频以及实时运行的管道。 NVIDIA Riva 语音识别是一项技术,可为跨行业的几个常见用例提供世界级的实时准确度。

在这篇文章中,我们讨论 Riva 语音识别。后续文章将讨论如何定制语音识别模型,并将其作为优化技能进行部署:

Riva 语音识别

Riva 是 GPU 加速的 AI 语音 SDK ,用于实时转录和虚拟助理等对话 AI 应用程序。 Riva 具有以下优点:

  • NGC 中经过预训练的最先进的语音模型
  • 没有编码工具,例如TAO Toolkit,用于在自定义数据集上微调这些模型
  • 用于高性能推理的优化语音识别和语音合成管道
视频 1 。 NVIDIA Riva 自动语音识别实时转录

Riva 下面的模型是基于数百到数千小时的开放和真实世界数据进行训练的,这些数据来自电信、金融、医疗保健和 NVIDIA 超级计算机上的教育等行业。数据集样本还来自嘈杂的环境、自发的语音对话、多种英语口音和不同的采样率。所有这些属性都有助于生成噪声鲁棒、高质量的转录。

Riva 语音识别技能在各种真实世界的用例数据集上进行评估,包括视频会议、联络中心、播客和技术视频。您可以在云中、数据中心和边缘部署这些技能。

Riva 语音识别管道在保持准确性的同时,为新的最先进的体系结构提供支持。图 2 显示了在过去 3 年中,通过新的模型体系结构、训练方法以及最新的基于 TensorRT 和 GPU 的优化,语音准确性的提高。

Riva ASR accuracy improved by 50% in 3 years.
图 2 . Riva ASR 精度改进

使用 Riva ,您可以在流式或批处理模式下以实时延迟快速部署和扩展到数百和数千个并发流。

有关使用 Riva 自定义并部署到语音应用程序的更多信息,请参阅本系列的下一篇文章Speech Recognition: Customizing Models to Your Domain Using Transfer Learning。在第 3 部分中,我们将介绍如何部署经过微调的模型。有关更多信息,请参阅Speech Recognition: Deploying Models to Production

 

Tags