使用多种语言创建语音 AI 应用程序，并使用 Riva 自定义文本到语音

本月， NVIDIA 在 Riva 中发布了西班牙语、德语和俄语的世界级语音到文本模型，为企业在全球部署语音 AI 应用提供了动力。此外，企业现在可以使用 Riva 的可定制文本到语音管道创建富有表现力的语音界面。

NVIDIA Riva 是一款 GPU 加速语音 AI SDK ，用于开发实时应用程序，如实时字幕、向基于文本的聊天机器人添加语音，以及在呼叫中心生成实时转录。为了便于实施， Riva 在 NGC 目录中提供了高度精确的预训练模型。

和 TAO 工具包，这些模型可以为任何行业定制，包括电信、金融、统一通信即服务和医疗保健。开发者可以使用 Riva 开箱即用地部署这些模型。它们经过优化，可以在云、数据中心和边缘在不到 300 毫秒的时间内实时运行。

Riva 发布亮点包括

从呼叫中心到虚拟助手，每一个对话人工智能应用程序都严重依赖于自动语音识别。企业可以通过 Riva 英语、西班牙语、德语和俄语的自动语音识别在全球范围内扩展这些应用程序。

非英语自动语音识别模型是在各种开源数据集（如 Mozilla Common Voice ）以及私有数据集上训练的。 Riva 开发自动语音识别模型是为了提供开箱即用的准确度，并作为适应行业、行话、方言甚至嘈杂环境的良好起点。在流行的评估数据集上，这些模型在多个行业应用中提供了世界级的准确性。

为了让客户享受逼真的对话，语音应用程序必须提供类似人类的表情。使用 FASTROPE ，NVIDIA 语音 AI 研究小组创建的新模型 Riva 帮助开发者定制文本到语音管道并创建表达性语音接口。例如，在推理过程中，开发人员可以使用 SSML 标签改变语音音调和速度。

最新的最先进的模型，比如里瓦的 Fastpitch ，帮助文本到语音管道的运行速度比市场上其他竞争对手快几倍。

订阅 NVIDIA 开发者博客以了解所有对话 AI / NLP 的最新信息。