使用 NVIDIA 定制语音 AI 增强电信客户体验

电信行业正在改变通信方式。为了提供可靠、不间断的服务，企业正在应对提供最佳客户体验的挑战。

这种最佳的客户体验是大型电信服务提供商的许多长期客户所没有的。以杰克为例。他的电话被挂了 10 分钟，这使他上班迟到了。与他交谈过的第三位代理人吉尔阅读了前一位代理人提供的简短说明，但很难理解。因此，她问了杰克几个问题来澄清。由于没有同事， Jill 查阅了多份政策文件来解决 Jack 的担忧。几个资源之后，吉尔找到了必要的信息，但遗憾的是，杰克已经结束了通话。

漫长的等待时间、复杂的服务请求和缺乏个性化是客户面临的一些常见问题，导致了不满和流失。为了克服这些挑战，电信行业正在转向人工智能对话式 AI，一种利用语音、翻译和自然语言处理（ NLP ）来促进类人交互的技术。

这篇文章探讨了为什么对话式人工智能系统是必不可少的，以及为什么在下游任务中具有高水平的转录准确性以获得最佳性能很重要。我们解释NVIDIA Riva语音识别定制技术Quantiphi已用于提高转录准确性。

对话式人工智能系统的准确性

在电信联络中心，由于几个原因，高度准确的对话式人工智能系统至关重要。对话式人工智能系统可以帮助代理人从通话互动中提取有价值的信息，并做出明智的决定，从而提高服务质量和客户体验

对话式人工智能系统的一个关键组成部分是自动语音识别 (ASR)，也称为语音识别或语音转文本。电信联络中心的下游任务在很大程度上依赖 ASR 系统提供的准确转录。这些任务包括广泛的应用程序，例如：

客户洞察
情绪分析
呼叫分类
呼叫转录

快速准确的响应对于高效和有效的客户服务至关重要。这意味着减少单个组件（包括 ASR ）的总体延迟非常重要。通过减少完成任务所需的时间，联络中心代理可以提供及时的解决方案，从而提高客户满意度和忠诚度。

此外，包括标点符号在内的准确转录提高了可读性。清晰、标点清晰的文字记录有助于代理商更好地理解客户的查询，促进清晰的沟通和问题解决。这反过来又提高了客户互动的整体效率和有效性。

NVIDIA Riva 自动语音识别流水线

语音到文本接收音频流作为输入，对其进行转录，并生成转录后的文本作为输出（图 1 ）。首先，音频流进入音频特征提取器和预处理器，其过滤掉噪声并捕获频谱图或 mel 频谱图中的音频频谱特征。然后，声学模型和语言模型一起将语音转录成文本。在转录的文本中添加标点符号以提高可读性

Architecture diagram showing end-to-end ASR pipeline — *图 1 。端到端自动语音识别管道示意图*

ASR 系统的性能评估指标

这个ASR 系统性能可以使用三个度量进行测量：

精确是基本的，因为它直接影响转录的质量和可靠性。通过单词错误率（ WER ）等指标来测量准确性，可以根据系统转录口语的程度来评估系统。低 WER 在联络中心至关重要，因为它可以确保准确地捕捉客户的查询和互动，使代理商能够提供准确和适当的响应。
延迟是生成音频片段的转录本所花费的时间。为了保持引人入胜的体验，字幕的延迟应不超过几百毫秒。转录系统必须以最小的延迟提供字幕。低延迟确保了无缝和引人入胜的客户体验，提高了整体效率和客户满意度。
费用在足够的计算基础设施上开发和运行转录服务是另一项重要措施。尽管与人类口译员相比，基于人工智能的转录成本较低，但成本必须与其他因素一起权衡。

在联络中心环境中，转录系统必须在准确性方面表现出色，以提供可靠的转录，为及时的客户互动提供低延迟，并考虑成本因素，以确保为组织提供具有成本效益和可行性的解决方案。通过优化所有三个指标，转录系统可以有效地支持联络中心的运营，并增强客户服务的交付。

提高 ASR 准确性的方法

如图 2 所示，有几种技术可以用于实现特定结构域的最佳转录准确性，其中最简单的是word boostingASR 单词增强包括将重要的、可能是词汇表外的、特定于领域的单词的列表作为附加输入传递给模型。这使得 ASR 模块能够在推理过程中识别这样的单词。

Architecture diagram showing customization across the ASR pipeline; left to right: speech, feature extraction, acoustic model, decoder model, punctuation model, and text — *图 2 :通过 ASR 管道进行定制*

在大多数情况下，某些名词（如公司或服务的名称）要么不在词汇表中，要么经常被 ASR 模型误译。这些名词被添加到要增强的单词列表中。这种策略使我们能够在请求时轻松提高对特定单词的识别能力。

此外， Quantiphi 团队：

重训练语言模型在我们自己的自定义数据集上，以使 ASR 引擎适应我们的领域特定术语和短语
微调声学模型以使 ASR 引擎适应特定的口音和嘈杂的环境。

定制语音辅助会话人工智能系统

电信行业客户联络中心面临的最重大挑战之一是解决复杂查询需要很长时间。代理通常需要咨询多个利益相关者和内部政策文档，以响应复杂的查询

对话式人工智能系统提供相关文档、见解和建议，从而使联络中心代理能够加快解决客户查询

用于定制语音辅助会话 AI 管道的 Quantiphi 解决方案架构涉及以下内容：

语音识别管道：通过捕获口语并将其转换为文本来创建转录
意向槽模型：识别用户意向
语义搜索管道：通过对话框管理器检索代理查询的答案

Quantiphi 构建了一个语义搜索引擎和一个问答解决方案（图 3 ）。它检索给定查询的最相关文档，并为电信公司联络中心代理生成简明答案。

Diagram showing Quantiphi question-answering solution with components: 1. Speech Recognition: ASR system transcribes the user query to text 2. Intent Identification and Slot Classification: Identifies user intent and entities 3. Answer Extender: It helps in maintaining context and facilitating a continuous and coherent conversation. 4. Semantic Search: Search pipeline that leverages NeMo with an information retrieval system for Question Answering. — *图 3 。基于语义搜索引擎的 Quantiphi 问答解决方案*

ASR 与问答（ QnA ）系统一起，也用于虚拟代理和基于化身的聊天机器人。 ASR 转录物的准确性对代理辅助、虚拟代理和基于化身的聊天机器人的准确性有重大影响，因为它们是由检索增强生成（ RAG ）管道生成的响应的输入。即使是查询转录方式上的微小差异，也可能导致生成模型提供错误的响应

Quantiphi 团队尝试了现成的 ASR 模型，这些模型有时无法正确转录专有名词。当 ASR 转录与问答管道结合使用时，其质量至关重要，如以下示例所示：

查询：什么是 5G ？

ASR 成绩单：五克是多少。

发电机响应：如果你在工厂工作一个月，五千是你能赚的钱。

正确回答：5G 是下一代无线技术。它将比 4G LTE 更快、更可靠、更安全。

为了克服这些问题，我们使用word-boosting，inverse text normalization，custom vocabulary，训练语言模型，以及微调声学模型。

单词增强

诸如 mMTC 和 MEC 之类的单词（或缩写词）经常被错误地转录。我们已经在单词助推的帮助下解决了这个问题。考虑以下示例：

单词增强前

多轴边缘计算，也称为麦格是一种在网络边缘提供云计算能力和 It 服务环境的网络架构。

Mtc 财务报表提供深度覆盖的低带宽连接的服务区域。

单词增强后

多通道边缘计算也称为甲基丙烯酸甲酯是一种在网络边缘提供云计算能力和 IT 服务环境的网络架构。

mMTC 是提供深度覆盖的低带宽连接的服务区域。

之前和之后显示了反应是如何变化的，即使 n 元的表示方式略有不同。通过反向文本规范化， ASR 模型将“五个 g ”等单词转录为“ 5G ”，从而提高了 QnA 管道在此过程中的性能。

向 ASR 添加自定义词汇

大多数用例通常都有特定领域的单词和术语与之相关。为了在 ASR 输出中包含这些单词，我们将它们添加到词汇表文件中，并重新构建 ASR 模型。有关更多详细信息，请参阅教程How to Customize Riva ASR Vocabulary and Pronunciation with Lexicon Mapping.

训练 n 元语言模

存在于 QnA 任务中的上下文通常形成用于训练 n-gram 语言模型的文本语料库的良好来源。定制的语言模型导致 ASR 输出更容易接受域中常见的单词序列。我们使用了NVIDIA NeMo脚本到train a KenLM model并在构建时将其与 ASR 模型集成。

微调声学模

为了进一步提高 ASR 性能，我们用 10-100 小时的小块（ 5-15 秒）音频数据及其相应的地面实况文本对 ASR 声学模型进行了微调。这有助于声学模型识别地区口音。我们使用Riva Jupyter notebook以及 NeMo 用于该微调。我们使用nemo2riva tool并使用riva-build command.

主要收获

问答和见解提取构成了对话式解决方案，使电信客户服务代理能够提供个性化和高效的支持。这提高了客户满意度并减少了代理流失。为了实现高精度的 QnA 和见解提取解决方案，有必要提供高精度的转录作为管道其余部分的输入

Quantiphi 通过自定义语音识别模型实现了最高的准确度NVIDIA RivaASR 单词增强、反向文本规范化、自定义词汇、训练语言模型和微调声学模型。这在现成的解决方案中是不可能的

这对杰克和吉尔意味着什么？ Jill 配备了电信公司定制的语音辅助对话人工智能应用程序，可以快速扫描人工智能生成的 Jack 之前对话的摘要。就在 Jack 问完一个问题时，她的屏幕上已经填充了解决 Jack 问题的最相关文档。她迅速地把信息传达给了杰克。他决定以积极的反馈回答调查，并且仍然按时上班

Get in touch with experts at Quantiphi开始全面探索对话式人工智能如何深刻增强组织的客户体验。如果您有兴趣深入了解构建代理辅助解决方案的技术方面，请加入我们的网络研讨会，Empower Telco Contact Center Agents with Multi-Language Speech-AI-Customized Agent Assists.

使用 NVIDIA 定制语音 AI 增强电信客户体验