人工智能/深度学习

使用多种语言创建语音 AI 应用程序,并使用 Riva 自定义文本到语音

本月, NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型,为企业在全球部署语音 AI 应用提供了动力。此外,企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。

NVIDIA Riva 是一款 GPU 加速语音 AI SDK ,用于开发实时应用程序,如实时字幕、向基于文本的聊天机器人添加语音,以及在呼叫中心生成实时转录。为了便于实施, Riva 在 NGC 目录中提供了高度精确的预训练模型。

TAO 工具包 ,这些模型可以为任何行业定制,包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化,可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。

Riva 发布亮点包括

  • 西班牙语、德语和俄语的世界级语音识别技能。
  • 可定制的文本到语音管道,用于表达性互动。
  • TAO 工具包的低代码微调工作流。

多种语言的自动语音识别

从呼叫中心到虚拟助手,每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。

This demo show's NVIDIA Riva world-class automatic speech recognition, now available in multiple languages.
This demo show's NVIDIA Riva world-class automatic speech recognition, now available in multiple languages.
图 1:NVIDIA Riva 世界级的自动语音识别系统有英语、西班牙语、德语和俄语版本。

非英语自动语音识别模型是在各种开源数据集(如 Mozilla Common Voice )以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度,并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上,这些模型在多个行业应用中提供了世界级的准确性。

可定制的文本到语音管道

为了让客户享受逼真的对话,语音应用程序必须提供类似人类的表情。使用 FASTROPE ,NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如,在推理过程中,开发人员可以使用 SSML 标签改变语音音调和速度。

ALT Text: This demo shows NVIDIA Riva customizable text-to-speech capabilities, allowing developers to vary voice pitch and speed using SSML tags.ALT Text: This demo shows NVIDIA Riva customizable text-to-speech capabilities, allowing developers to vary voice pitch and speed using SSML tags.
图 2:NVIDIA Riva 提供了可定制的文本到语音管道,用于更具表现力的交互。

最新的最先进的模型,比如里瓦的 Fastpitch ,帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。

资源

订阅 NVIDIA 开发者博客 以了解所有对话 AI / NLP 的最新信息。

 

Tags