本月, NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型,为企业在全球部署语音 AI 应用提供了动力。此外,企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。
NVIDIA Riva 是一款 GPU 加速语音 AI SDK ,用于开发实时应用程序,如实时字幕、向基于文本的聊天机器人添加语音,以及在呼叫中心生成实时转录。为了便于实施, Riva 在 NGC 目录中提供了高度精确的预训练模型。
和 TAO 工具包 ,这些模型可以为任何行业定制,包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化,可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。
Riva 发布亮点包括
- 西班牙语、德语和俄语的世界级语音识别技能。
- 可定制的文本到语音管道,用于表达性互动。
- TAO 工具包的低代码微调工作流。
多种语言的自动语音识别
从呼叫中心到虚拟助手,每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。
非英语自动语音识别模型是在各种开源数据集(如 Mozilla Common Voice )以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度,并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上,这些模型在多个行业应用中提供了世界级的准确性。
可定制的文本到语音管道
为了让客户享受逼真的对话,语音应用程序必须提供类似人类的表情。使用 FASTROPE ,NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如,在推理过程中,开发人员可以使用 SSML 标签改变语音音调和速度。
最新的最先进的模型,比如里瓦的 Fastpitch ,帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。
资源
- 开始使用NVIDIA Riva
- NVIDIA Riva 入门套件–包括教程、笔记本和文档:
订阅 NVIDIA 开发者博客 以了解所有对话 AI / NLP 的最新信息。