对话式人工智能/自然语言处理

语音识别如何改善电信客户服务

通信行业近年来人工智能技术激增,语音识别和翻译首当其冲。多语人工智能虚拟助手,数字人,聊天机器人,代理协助,以及音频转录是正在彻底改变电信行业的技术。企业正在呼叫中心实施人工智能,以加快处理传入请求,从而大幅改善客户体验、员工忠诚度和品牌声誉。

例如,自动语音识别( ASR ),也称为语音转文本,已被用于实时转录对话,使企业能够快速为客户确定资源或解决方案。Speech AI还被用于分析情绪,确定摩擦源,并提高合规性和代理性能。

这篇文章深入探讨了语音识别在电信行业的变革力量,并强调了 AT & T 和T-Mobile正在使用这些最先进的技术在其呼叫中心提供无与伦比的客户体验。

语音转文本对改善客户服务的影响

语音转文本技术的实现已经成为客户服务领域的游戏规则改变者。通过自动化呼叫路由、呼叫分类和语音身份验证等任务,企业可以大大减少等待时间,并确保客户能够找到最合格的代理来处理他们的请求。

语音识别也可以作为人工智能驱动的客户反馈分析的一部分,有助于提高客户满意度、产品和服务。通过语音到文本的人工智能应用程序,公司可以准确识别客户需求并及时解决。

在他的GTC 演讲中, AT&T 的 AVP 数据科学人工智能 Jeremy Fix 概述了他们实施人工智能以改善呼叫中心体验的关键原因:

  • 优化人力资源
  • 个性化客户体验
  • 协助其代理人提出可行的见解

资源优化

呼叫中心的一个关键组成部分是充足的人员配置。这包括吸引和留住最优秀的人才。使用人工智能, AT&T 可以预测呼叫供应和需求,为代理商提供最佳表现所需的支持。

个性化

通过了解客户第一次连接时的意图, AT&T 可以将来电者与经验丰富的代理商进行匹配,这些代理商以前解决过类似问题,并在正确的时间向客户提供了相关优惠。

代理人协助

通过将呼叫转录和自然语言处理( NLP )驱动的洞察引擎相结合, AT&T 可以为代理人及其经理提供实时可操作的洞察。这些见解使他们能够做出明智的决策,并提供卓越的客户服务(视频 1 )。

视频 1 。美国电话电报公司洞察引擎演示在【 GTC 】 2023

这是如何实时工作的?在通话过程中, AT&T 的 NLP 引擎使用实时转录和文本挖掘来识别所讨论的主题。它推荐下一个最佳行动,识别呼叫情绪,预测客户满意度,甚至衡量代理质量和合规性。

常见的语音到文本准确性挑战

尽管语音 AI 可以显著改善您的呼叫中心,成功实施语音转文本面临一些挑战,正如 T-Mobile 首席机器学习工程师 Heather Nolis 在 GTC 期间所讨论的那样:

  • 语音歧义
  • 多样化的演讲风格
  • 嘈杂的环境
  • 电话的局限性
  • 特定领域词汇

语音歧义

你接到电话误解别人多少次了?你说的是“识别语音”还是“破坏一个美丽的海滩”?当单词听起来相同,但含义不同时,这被称为语音歧义。如果语音到文本没有经过训练来识别上下文中的单词,这可能会导致错误的转录。

多样化的演讲风格

每个人嘴里也可能有不同的口音、方言和生理差异,这意味着我们发音的每个单词听起来都不一样。对于在全球运营的联络中心,必须在您的训练数据集中捕捉这些细微差别,以提高语音识别的准确性。

视频 2 。不同说话方式背后的原因包括生理差异和我们学习说话的方式

嘈杂的环境

呼叫中心客户 – 代理的对话可能包括背景噪音、同时扬声器、麦克风质量低,甚至手机接收不良,这些都可能导致电话中的声音丢失。当部署在联络中心时,稳健的语音转文本必须能够承受这种类型的环境。

视频 3 。噪声源包括背景噪声、同步扬声器和麦克风质量

电话的局限性

电话限制,包括无法记录某些声音,如“ s ”和“ f ”,可能会进一步阻碍语音到文本的准确性。例如,当你在打电话,听到“整个星期五都有空”时,你实际上并没有听到“ f ”,因为这个声音不是通过电话发送的,你的大脑会填充“ f ”。对于转录,语音到文本模型会填充缺失的声音。

特定领域词汇

为企业创建的每个联络中心都由企业情况组成,其中‌ 主题和词汇各不相同。开箱即用的 ASR 解决方案在现实生活中很少有用,因为它们通常缺乏有意义的定制。

在 GTC 上, T-Mobile 展示了他们的创新语音识别挑战的解决方案使用的NVIDIA Riva,一个 GPU 加速 SDK ,用于构建和部署自定义语音应用程序,以及NVIDIA NeMo for fine-tuning基于其领域特定数据。 T-Mobile 在不同口音、说话风格和嘈杂的生产环境中将语音识别精度提高了 3 倍(图 1 )。

T-Mobile comparison of an implemented solution with a WER of 36.5, a tunable solution with a WER of 21.7, and the Riva solution with a WER of 9.
图 1 。 T-Mobile ASR 准确性*云计算结果提供给高度可定制的 Riva 语音到文本(*准确性 % = 100-WER)

最佳语音转文本的首要考虑因素

从电信联络中心和紧急服务到视频会议和广播,企业在实施尖端语音人工智能技术时必须考虑许多因素——准确性、延迟、可扩展性、安全性和运营成本,才能在竞争中保持领先。

企业正在不断寻找将呼叫中心转变为价值中心的新方法。在这方面,成本起着重要作用。在处理大量呼叫时,企业必须根据定价模型、总拥有成本( TCO )和隐藏成本来评估供应商。

实现全面的语言、口音和方言覆盖对于所有语言的语音识别准确性至关重要。幸运的是,语音人工智能在多语言准确性方面取得了重大进展。例如Riva现在提供世界级的英语、西班牙语、普通话、印地语、俄语、阿拉伯语、日语、韩语、德语、葡萄牙语、法语和意大利语语音识别。

最后,语音 AI 模型必须实现低延迟,才能为代理和客户提供更好的实时体验。例如,如果代理正在与客户进行对话,而人工智能没有足够快地建议代理的下一步行动,那么它就没有任何作用。

在 GTC , T-Mobile 提供了他们speech-to-text evaluation process他们的发现非常显著: Riva 语音识别在延迟、成本效益和准确性方面优于现成的云提供商模

视频 4 。语音到文本评估的 T-Mobile 指标:延迟、成本效益和准确性

最近Leading the Way with Cutting-Edge Speech AI TechnologyGTC 小组、 Infosys 、 Quantiphi 和摩托罗拉分享了他们在电信行业实施语音人工智能解决方案时解决这些因素的经验。

主要收获

将语音和翻译人工智能集成到客户服务的人工智能解决方案中,已经成为电信公司的游戏规则改变者。通过使用客户对话的实时多语言转录,电信公司可以更好地对电话进行分类和路由,并向代理商提供有价值的见解和个性化建议。

采用这项技术的电信公司可以通过提供卓越的客户体验、在竞争中保持领先地位以及满足客户不断变化的需求,从而在市场上获得竞争优势。

要了解更多关于语音和翻译人工智能如何改变电信公司客户体验的信息,请加入我们How Telcos Transform Customer Experiences with Conversational5 月 31 日的网络研讨会,以及技术深潜Empower Telco Contact Center Agents with Multi-Language Speech-AI-Customized Agent Assists6 月 7 日的网络研讨会。向专家学习,在构建自己的人工智能客户服务解决方案方面获得宝贵见解。

 

Tags