对话式人工智能

NVIDIA 语音 AI 模型实现业界领先的准确性和性能

NVIDIA 正在推动语音 AI 和语言模型实现出色的性能、效率和可访问性,为重新定义自动语音识别 (ASR) 可能性的创新奠定基础。

NVIDIA Parakeet TDT 0.6 B v2 是一个包含 6 亿个参数的自动语音识别 (ASR) 模型,专为高质量英语转录而设计。目前,它与其他四款排名靠前的 NVIDIA Parakeet 车型一起在 Hugging Face ASR 排行榜上排名第一。NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上大放异彩。

本文将探讨这些和其他先进的 NVIDIA 语音 AI 模型如何为自动语音识别 (ASR) 的准确性、速度和通用性设定新的基准。我们将回顾模型亮点、排行榜性能和实际部署选项,以便您可以将这些先进的模型用于现实世界的应用。

NVIDIA 语音 AI 模型概述

NVIDIA Parakeet 和 Canary AI 模型系列是 NVIDIA Riva 的一部分,NVIDIA Riva 是一系列 GPU 加速的多语种语音和翻译微服务,用于构建完全可定制的实时对话式 AI 工作流。

Riva 语音模型通常始于研究原型,经历了从实验到可扩展的高性能部署的过程。虽然从研究到部署的过程遵循结构化路径,但将模型推进到 NVIDIA NIM 微服务的决定通常取决于现实世界的需求以及模型在更广泛的开发者社区中的表现。

NVIDIA 模型通常会进行性能调优并打包为 NIM,以便使用 Riva 在可扩展的现实世界应用中无缝部署,从而从研究原型发展到改进部署。如需了解更多信息,请查看 NVIDIA 生成式 AI 软件产品管理高级总监 Joey Conway 最近的访谈

NVIDIA Parakeet v2 模型亮点

Parakeet v2 具有业内出色的 6.05% 词错误率 (WER) ,具有出色的准确性、超快的推理速度 ( RTFx 3386.02,比替代产品快 50 倍) 以及创新的开创性功能 (例如准确的时间和从歌曲到歌词的转录) ,可将性能提升到更高水平。这些模型是开源的,可用于商业用途。

对于其他 ASR 模型难以平衡速度、准确性和专用用例的情况,Parakeet v2 提供了所有这些功能,使其成为对尖端性能和通用性有要求的开发者的首选。

视频 1。使用 NVIDIA Parakeet v2 创建的歌曲转歌词转录示例

NVIDIA NeMo Canary 模型亮点

NVIDIA NeMo Canary 模型也在 Hugging Face ASR 排行榜上名列前茅。NVIDIA NeMo Canary 1BNVIDIA NeMo Canary 1B Flash 目前分别排名第 4 和第 3 位,因其强大的多语种性能和快速推理而脱颖而出。这些模型在几种主要语言的语音识别和翻译方面均名列前茅。

Image shows NVIDIA Parakeet and Canary models ranked at the top of the Hugging Face Open ASR Leaderboard for speech recognition, with Parakeet TDT 0.6B v2 and several other NVIDIA models occupying leading positions, outperforming competing models in word error rate (WER) and speed.

NVIDIA 语音 AI 模型详情和用例

新的 NVIDIA 语音 AI 模型旨在提供最重要的内容。时间递归神经网络传感器 (RNNT) 多语种模型支持 25 种语言的全球覆盖,因此可以随时随地轻松与团队和客户联系。

对于有背景噪音的场景 (例如医院、机场以及几乎任何繁忙和杂的地方的转录) ,内置 Silero VAD 可保持准确的输出。Parakeet v2 是 WER 最低的模型,它具有快速、精确的结果,包括音乐转录等高级功能。

对于需要即时部署解决方案的团队,NVIDIA 提供了一系列受全面支持的 Riva NIM 微服务。其中包括:

  • Parakeet RNNT 1.1 B 可实现准确的多语种转录,并支持 25 种语言的标点符号
  •  
  • Parakeet CTC 06B 是一个包含 6 亿个参数的英语模型,经过超过 35000 小时的语音训练,可生成清晰自然的文本。

NVIDIA 语音模型易于部署且企业就绪:Riva 模型可通过 NVIDIA AI EnterpriseNVIDIA NGCNVIDIA NIM 微服务提供。您可以在 Hugging Face 上访问最新的研究模型。

模型名称 框架 语言 主要特征 示例用例
Parakeet TDT 0.6B v2 FastConformer-TDT 英语 (en-US) – 行业领先的 WER – 超快的词级时间 – 歌词
– 标点符号
– 媒体和娱乐
– 边缘和物联网
Parakeet RNNT 1.1B FastConformer-RNNT 25 种语言 – 通用分词器
– 标点符号感知
– NVIDIA NIM
– 全球客户支持
– 多语种转录
Parakeet CTC 1.1 B ( Silero VAD,可选) FastConformer-CTC 英语 (en-US) – 高速 ASR
– 噪声鲁棒
– Silero VAD
– 高吞吐量
– 低延迟
– 虚拟助理和企业语音应用
– 噪声环境 (医院、机场、自动驾驶售货亭)
Parakeet CTC 06B FastConformer-CTC 英语 ( en-US) 、西班牙语 ( es-US) – 在 ASRSet 上训练的高速 ASR 和超过 35000 小时的英语 ( en-US) 语音 – 小写
– 空格和号
– 快速推理
– 明确听写需求 (例如医疗健康和金融行业) – 媒体边缘设备
表 1。NVIDIA Parakeet 模型概述

开始使用 NVIDIA 语音 AI 模型

随着不断创新和新版本发布,NVIDIA Parakeet ASR 模型正在引领语音识别的步伐,提供全球语言覆盖、强大的噪音处理以及行业领先的速度和准确性。无论是构建企业语音解决方案、为多语种客户支持提供支持,还是开发新一代媒体应用,Parakeet 模型都能提供工具,让您的产品变得清晰、智能。

首先,下载 NVIDIA Parakeet v2 并体验 NVIDIA Riva 语音 NIM。有关技术细节、部署指南等信息,请访问 NGC 目录

标签