对话式人工智能

探索文本到语音技术的独特应用

当你与虚拟助理互动时,你会发出命令并得到口头回应。为这种生成的语音响应提供动力的技术被称为文本到语音( TTS )。

TTS 应用程序非常有用,因为它们为使用辅助设备的用户提供了更大的内容可访问性。使用最新的 TTS 技术,您只需几分钟的音频数据就可以生成合成语音——这非常适合那些失声且录音有限的人。

事实上,由于最近的进展, TTS 的使用正在增长:

  • 在几毫秒内运行端到端 TTS 管道以实现自然交互。
  • 在推理时定制人工智能模型和管道,以生成富有表现力的合成语音。
  • 在所有云、数据中心、边缘或嵌入式设备上进行部署

这篇文章解释了语音合成系统是如何操作的,然后介绍了 TTS 技术的常见和新颖用途。

语音合成系统的工作原理

顾名思义,文本到语音,或语音合成,是将书面文本转换为自然的、类似人类的语音音频的过程。在端到端 TTS 管道中,这些是使这种转换成为可能的关键模型和模块:

  • 文本规范化和预处理:把数字和缩写变成单词。
  • 文本编码:将文本转换为编码矢量,该矢量用作声谱图生成器的输入。
  • 光谱图生成器:从编码的文本向量生成声谱图。
  • 声码器型号:以声谱图作为输入,生成我们都能听到的合成语音。

TTS 通常是诸如虚拟助理之类的应用的最后阶段,数字人服务机器人.

常见 TTS 应用程序

2021 IDC Conversational AI Adoption Survey在 251 家公司中, 74.5% 的公司报告在基于语音的会话人工智能解决方案中使用 TTS , 68.5% 的公司在无障碍解决方案中采用 TTS (图 1 )。

Bar chart showing percentage of use cases for text-to-speech? 74.5% said voice-based conversational AI solutions and 68.5% said accessibility solutions (for example, speech-enabled websites, other speech-enabled digital content).
图 1 。 IDC 对常见 TTS 用例的调查

在几个行业中,语音合成正在证明其功能性目的。您可能已经在以下用例中观察到 TTS 技术。

虚拟影响者

虚拟影响者正在改变与任何公司或名人交流的未来。也被称为虚拟品牌大使或品牌代言人,虚拟影响者可以帮助公司推广产品和服务,名人可以利用它们与粉丝保持全天候联系。

在这些用例中, TTS 技术生成自定义语音,然后将其集成到动画虚拟影响者或数字大使中。

文字叙述

文本叙述是大声朗读任何类型文本的行为。该 TTS 功能可在网站和阅读应用程序上使用,有利于那些喜欢听内容的人。有视觉障碍的人也可以使用文字叙述来听他们喜欢的内容。

TTS 用于生成这些应用程序用来朗读文本的语音。然而,这并不像看上去那么简单。为了改善聆听体验,这些应用程序的声音必须具有适当的音高、节奏和表现力。

内容创建

对于生活在现代世界的人们来说,音频和视频内容是受欢迎的、吸引人的媒介。 TTS 技术使内容创作者可以在视频中添加画外音或创建播客。

为了接触更广泛的受众, TTS 技术还可以用于创建文本内容的音频版本,如博客和新闻文章。

通过 TTS 管道的灵活性,您可以在语音转换器等应用程序中修改音高、节奏和音量,使语音更具表现力。

独特的 TTS 应用程序

除了这些日常应用程序,企业家们还在探索各种新颖的 TTS 应用程序。这篇文章的特点是公司使用语音合成技术来获得引人注目的用例。

智能医院的语音亭: Artisight

Artisight 是一个面向医院的物联网传感器网络,有望改善医院运营、财务绩效和患者体验。该公司通过自动化任务,如将患者呼叫到登记窗口和实验室登记,帮助美国许多最好的医院更高效地运营,同时为患者提供更好的体验。

医院中的 TTS 技术可用于与患者和访客共享有关医院服务、设施指示和一般健康公告的信息。这项技术还可以以多种语言提供,以帮助那些可能不会说医院主要语言的人。

视频 1 。 Artisight 诊所协调员解决方案演示

前面的视频显示了如何在医院信息亭内使用文本到语音技术来公布患者徽章 ID 号。

挑战和解决方案

过去,医院接待员手动为病人登记,并在有医生时通知他们。这种耗时的登记程序降低了医院的效率,并对患者的满意度产生了负面影响。

Artisight 开发了智能医院解决方案,如语音值机和通知亭,以改善患者体验。

由 Artisight 和NVIDIA Riva提供有效、快速的患者登记,将等待时间减少一半,并消除数据输入错误——所有这些都提高了员工的生产力和患者的幸福感。

数字化身的类人语音: NVIDIA

TTS 技术使计算机能够将书面文本转换为口语,使数字人类能够“说话”,并以更自然、更吸引人的方式与用户交流。

为了与用户建立信任和可信度,数字人必须高精度地说话,尤其是当他们被用于教育、娱乐或其他互动目的时。使用 TTS 技术产生听起来自然、像人的语音可以帮助数字人吸引用户的注意力和兴趣。

正如你在 NVIDIA Omniverse 阿凡达云引擎( ACE )演示中看到的那样, Toy Jensen 理解黄仁勋的提问并以自然的方式回答。 Toy Jensen 的声音是使用 NVIDIA Riva 制作的。

视频 1 。 NVIDIA Omniverse ACE 平台,用于构建实时、交互式人工智能助理

挑战和解决方案

为数字人开发 TTS 可能具有挑战性,特别是在根据地区和语言创建听起来自然和逼真的语音方面。这是因为使用传统和统计算法创建的 TTS 系统可能会产生听起来像机器人或机械的语音,并且可能不会被用户很好地接收。

此外,数字人应用程序涉及创建灵活和适应性强的语音,这可能是一个挑战,因为 TTS 系统依赖于数据集以及所使用的模型和模块类型等因素。这可能会使开发人员难以产生细致入微、富有表现力的语音。

最后,创建高效且可扩展的 TTS 系统很重要,因为数字人可能必须在不牺牲质量的情况下实时生成大量语音。

在 NVIDIA ,我们为数字人和化身用例生成了自定义语音,例如Toy JensenViolet使用 Riva 。 Riva 可以帮助您开发精确的 TTS 管道,这些管道可以在几毫秒内实时运行,这是自然语音的必要条件。它还提供了控制音高、持续时间和音量等元素的灵活性,使生成的声音更具表现力。

开始语音合成

您可以开始将 TTS 功能与应用程序集成,例如用于消费内容的文本叙述或用于数字影响者的独特声音。 NVIDIA Riva 等 SDK 可帮助您开发能够提供世界级精度并产生高性能推理的应用程序。

尝试NVIDIA Riva TTS在您的 web 浏览器上或下载Riva Skills Quick Start Guide.

相关资源

阅读免费电子书,熟悉 TTS ,End-to-End Speech AI Pipelines电子书对端到端 TTS 管道中使用的模型和模块进行了分解。

或者,通过帖子探索不同的 TTS 术语,A Guide to Understanding Essential Speech AI Terms.

高级开发人员还可以查看免费的电子书资源,Building Speech AI Applications,学习如何为应用程序构建和部署实时 TTS 管道。

Tags