对话式人工智能/自然语言处理

用 Riva 和 NeMo Megatron 的最新版本构建多种语言的语音 AI ,并训练大型语言模型

上周, NVIDIA GTC 2022 宣布了对 Riva 的重大更新。 Riva 是一个用于构建语音 AI 应用程序的 SDK ,以及一个付费的 Riva 企业产品。 NeMo Megatron 是一个用于训练大型语言模型的框架,它的几项关键更新也已宣布。

Riva 2.0 通用性

Riva 为跨多种语言的实时自动语音识别( ASR )和文本到语音( TTS )技能提供了世界级的准确性,并且可以部署在 prem 上、任何云中。 Snap 、 T-Mobile 、 RingCentral 和 Kore 等行业领导者。 ai 在客户服务中心应用程序、转录和虚拟助理中使用 Riva 。

最新的 Riva 版本包括:

  • ASR 有多种语言:英语、西班牙语、德语、俄语和普通话。
  • 高质量的 TTS 语音可定制独特的语音字体。
  • 使用 TAO Toolkit 或 NVIDIA NeMo 进行特定于领域的定制,在口音、领域和国家特定术语方面具有无与伦比的准确性。
  • 支持在云端、 prem 和嵌入式平台上运行。
A GIF showing how to control Riva text-to-speech pitch and speed using SSML tags.
图 1:NVIDIA Riva 可控文本到语音使得使用 SSML 标签可以轻松调整音调和速度。

在手机上尝试 Riva 自动语音识别 Riva 产品页面 .

Defined.ai 与 NVIDIA 合作,为希望购买跨语言、域和录音类型的语音培训和验证数据的企业提供一个顺畅的工作流程。可在 此处 中找到针对 NVIDIA 开发人员的 DefinedCrowd 数据集示例。

下载 RIVA ,它是免费的NVIDIA 开发人员的成员从 NGC 免费。

Riva 企业

NVIDIA 还推出了 Riva Enterprise ,这是一款付费产品,面向在NVIDIA 专家的业务标准支持下大规模部署 Riva 的企业。

好处包括:

  • 在任何云和 prem 平台上不受限制地使用 ASR 和 TTS 服务。
  • 在当地营业时间与NVIDIA 人工智能专家联系,获取有关配置和性能的指导。
  • 为维护控制和升级计划提供长期支持。
  • 优先访问新版本和功能。

Riva Enterprise 在 NVIDIA Launchpad 上提供免费试用版,供企业评估并制作应用程序原型。

Riva launchpad 上的 Enterprise 包括引导实验室,用于:

  • 与实时语音 AI API 交互。
  • 将语音 AI 功能添加到对话 AI 应用程序中。
  • 在自定义数据上微调语音 AI 管道以获得更高的准确性。

申请 用于您的 Riva 企业试用。

通过 对话人工智能解谜 GTC 课程了解有关如何构建、优化和部署语音 AI 应用程序的更多信息。


NeMo Megatron

NVIDIA 宣布了新的更新 NVIDIA NeMo Megatron ,这是一个培训大型语言模型( LLM )的框架,其参数高达数万亿。基于 Megatron paper 的创新, NeMo Megatron 的研究机构和企业可以培训任何 LLM ,以实现融合。 NeMo Megatron 提供数据预处理、并行(数据、张量和管道)、编排和调度,以及自动精度自适应。

它包括经过彻底测试的配方、流行的 LLM 架构实现,以及组织快速开始 LLM 之旅所需的工具。

瑞典,法学博士。 com 、 Naver 和佛罗里达大学是 Nvidia 技术的早期采用者,用于建立大型语言模型。

最新版本包括:

  • Hyperparameter tuning tool 会根据客户需求和基础设施限制自动创建配方。
  • T5 和 mT5 车型的参考配方。
  • 支持在云上培训 LLM ,从 Azure 开始。
  • 分布式数据预处理脚本,缩短端到端培训时间。

Apply 用于 NeMo Megatron 早期访问。

实践中的自然语言理解:从成功的企业部署中吸取的经验教训 GTC 课程中,了解有关 LLM 有趣应用程序的更多信息,以及部署 LLM 的最佳实践。

 

Tags