NVIDIA 通过 NeMo 和 Riva 的最新更新，加速了会话人工智能从研究到生产的过程

今天， NVIDIA 发布了世界级的语音识别功能，可为企业生成高精度的转录本， NeMo 1 . 0 包括用于民主化和加速对话人工智能研究的最新语音和语言模型。

世界级语音识别

NVIDIA Riva 世界级语音识别是一种现成的语音服务，可以轻松部署在任何云或数据中心。企业可以使用迁移学习工具包（ TLT ）跨各种行业和用例定制语音服务。通过 TLT ，开发人员可以将定制语音和语言模型的开发速度提高 10 倍。

语音识别模型是高度精确的，并在电信、金融、医疗保健、教育以及各种专有和开源数据集的领域无关词汇上进行训练。此外，它还接受了噪声数据、多种采样率（包括呼叫中心 8khz ）、各种口音和对话的训练，所有这些都有助于提高模型的准确性。

使用 Riva 语音服务，您可以在 10 毫秒内生成一个转录。它在多个专有数据集上进行评估，准确率超过 90% ，并且可以适应各种各样的用例和领域。它可以在几个应用程序中使用，例如在呼叫中心、视频会议和虚拟助理中转录音频。

T-Mobile 是美国最大的电信运营商之一，它利用 Riva 提供卓越的客户服务。

T-Mobile 负责产品和技术的副总裁 Matthew Davis 说：“借助 NVIDIA Riva 服务，利用 T-Mobile 数据进行微调，我们正在构建产品，以帮助我们实时解决客户问题。”。

“在评估了几种自动语音识别解决方案后， T-Mobile 发现 Riva 能够以极低的延迟提供高质量的模型，实现客户喜爱的体验。”

您可以从 NGC 目录下载 Riva 语音服务，现在就开始构建自己的转录应用程序。

NeMo 1 . 0 版本

NVIDIA NeMo 是一个开源工具包，供研究人员开发最先进的（ SOTA ）会话人工智能模型。它包括自动语音识别（ ASR ）、自然语言处理（ NLP ）和文本到语音（ TTS ）的集合，使研究人员能够快速试验新的 SOTA 神经网络，以便创建新的模型或在现有模型的基础上进行构建。

PyTorch 与 NeMo 、 PyTorch Lightning 和 Hydra 框架紧密耦合。这些集成使研究人员能够结合 PyTorch 和 PyTorch 闪电模块开发和使用 NeMo 模型和模块。此外，借助 Hydra 框架和 NeMo ，研究人员可以轻松定制复杂的会话人工智能模型。

此版本的亮点包括：

增加了对多种语言的语音识别支持，以及新的 CitriNet 和 Conformer CTC ASR 模型
从英语到西班牙语、俄语、普通话、德语和法语的五种语言支持双向神经机器翻译模型
新的语音合成模型，如 Fastpitch 、 Talknet 、 Fastspeech2 ，以及端到端模型，如 Fastpitch + HiFiGAN 和 Fastspeech2 + HiFiGAN
用于自动执行反文本规范化和反规范化以及基于 CTC 分割的数据集生成和探索语音数据集的功能

此外，大多数 NeMo 模型可以导出到 NVIDIA Riva ，用于产品部署和高性能推断。

从 NVIDIA 开发者博客了解更多关于 NeMo 1 . 0 中包含的内容。 NeMo 是开源的，可以从 NGC 目录和 GitHub 下载和使用。