人工智能/深度学习

NVIDIA 通过 NeMo 和 Riva 的最新更新,加速了会话人工智能从研究到生产的过程

今天, NVIDIA 发布了世界级的语音识别功能,可为企业生成高精度的转录本, NeMo 1 . 0 包括用于民主化和加速对话人工智能研究的最新语音和语言模型。

世界级语音识别

NVIDIA Riva 世界级语音识别是一种现成的语音服务,可以轻松部署在任何云或数据中心。企业可以使用 迁移学习工具包 ( TLT )跨各种行业和用例定制语音服务。 通过 TLT ,开发人员可以将定制语音和语言模型的开发速度提高 10 倍。

语音识别模型是高度精确的,并在电信、金融、医疗保健、教育以及各种专有和开源数据集的领域无关词汇上进行训练。此外,它还接受了噪声数据、多种采样率(包括呼叫中心 8khz )、各种口音和对话的训练,所有这些都有助于提高模型的准确性。

使用 Riva 语音服务,您可以在 10 毫秒内生成一个转录。它在多个专有数据集上进行评估,准确率超过 90% ,并且可以适应各种各样的用例和领域。它可以在几个应用程序中使用,例如在呼叫中心、视频会议和虚拟助理中转录音频。

T-Mobile 是美国最大的电信运营商之一,它利用 Riva 提供卓越的客户服务。

T-Mobile 负责产品和技术的副总裁 Matthew Davis 说:“借助 NVIDIA Riva 服务,利用 T-Mobile 数据进行微调,我们正在构建产品,以帮助我们实时解决客户问题。”。

“在评估了几种自动语音识别解决方案后, T-Mobile 发现 Riva 能够以极低的延迟提供高质量的模型,实现客户喜爱的体验。”

您可以从 NGC 目录 下载 Riva 语音服务,现在就开始构建自己的转录应用程序。

NeMo 1 . 0 版本

NVIDIA NeMo 是一个开源工具包,供研究人员开发最先进的( SOTA )会话人工智能模型。它包括自动语音识别( ASR )、自然语言处理( NLP )和文本到语音( TTS )的集合,使研究人员能够快速试验新的 SOTA 神经网络,以便创建新的模型或在现有模型的基础上进行构建。

PyTorch 与 NeMo 、 PyTorch Lightning 和 Hydra 框架紧密耦合。这些集成使研究人员能够结合 PyTorch 和 PyTorch 闪电模块开发和使用 NeMo 模型和模块。此外,借助 Hydra 框架和 NeMo ,研究人员可以轻松定制复杂的会话人工智能模型。

此版本的亮点包括:

  • 增加了对多种语言的语音识别支持,以及新的 CitriNet 和 Conformer CTC ASR 模型
  • 从英语到西班牙语、俄语、普通话、德语和法语的五种语言支持双向神经机器翻译模型
  • 新的语音合成模型,如 Fastpitch 、 Talknet 、 Fastspeech2 ,以及端到端模型,如 Fastpitch + HiFiGAN 和 Fastspeech2 + HiFiGAN
  • 用于自动执行 反文本规范化和反规范化 以及 基于 CTC 分割的数据集生成探索 语音数据集的功能

此外,大多数 NeMo 模型可以导出到 NVIDIA Riva ,用于产品部署和高性能推断。

NVIDIA 开发者博客 了解更多关于 NeMo 1 . 0 中包含的内容。 NeMo 是开源的,可以从 NGC 目录GitHub 下载和使用。

 

标签