缩短联络中心智能虚拟助理的开发时间

随着全球服务经济的发展，公司越来越依赖于联系中心来改善客户体验，提高客户满意度，降低成本并提高效率。客户需求的增长速度远远超过了联络中心的就业率。与高代理流失率相结合，客户需求产生了对更自动化的实时客户通信的需求，从而增强了代理的能力。

研究人员早在 20 世纪 70 年代就认识到了这些趋势，并开始开发可通过触音电话导航的原始语音菜单。虽然语音菜单可能会回答常见问题，并减轻联络中心代理的压力，但客户通常会发现与他们互动令人沮丧。

由于以下任何原因，您可能是想要直接与代理通话的来电者之一，而不是收听多层预先录制的语音提示：

聆听最符合您查询的菜单选项需要时间。此外，在您联系联系中心代理后，您的问题可能非常复杂，无法在一次通话中解决。
您的问题可能与菜单选项不匹配，或者可能属于多个选项。
您和联络中心代理可能不会说相同的母语，特别是当联络中心外包给另一个国家时。
有些联络中心可能在您方便的时间没有工作人员。

为了有效解决这些问题，公司已开始将智能虚拟助理（也称为 AI 虚拟助理）集成到其联络中心解决方案中。

在本篇文章中，我们概述了如何使用 NVIDIA 联络中心智能虚拟助理工作流和组件（如 NVIDIA Riva 语音技术和 speech AI 技能）构建和部署联络中心智能智能虚拟助理：

自动语音识别（ ASR ）或语音到文本（ STT ）
文本转语音（ TTS ）

减少智能虚拟助理应用程序的开发时间

智能虚拟助理是一种 AI 驱动的软件，它可以识别人类的语音，理解意图，并在与客户交谈时以类似人类的声音提供精确和个性化的响应。

智能虚拟助理 24 小时收集客户信息和通话原因，并管理客户问题，而无需现场代理。对于复杂的情况，这些信息会自动为现场代理准备，以通过个人接触优化服务客户。

您可以使用 NVIDIA Riva 语音 AI 构建块创建 intelligent virtual assistant applications 。为了缩短开发时间，您可以利用 NVIDIA 联络中心智能虚拟助理工作流程和集成的 Riva 技能。

此 NVIDIA AI 解决方案工作流为您提供了一个无需准备即可开始的参考，帮助您更快地实现所需的 AI 结果。

NVIDIA 联络中心智能虚拟助理工作流程和组件

NVIDIA 联络中心智能虚拟助理工作流（图 1 ）被设计为一个微服务，这意味着它可以单独部署在 Kubernetes 上，也可以与其他微服务一起部署，以创建一个生产就绪的应用程序，实现无缝扩展。

Diagram showing full architecture design to build and deploy an intelligent virtual assistant using NVIDIA Riva, Rasa Dialog Manager, and Haystack. — *图 1 。 NVIDIA Contact Center 智能虚拟助理架构，具有 NVIDIA Riva ASR 和 TTS 、 Rasa Dialog Manager 和 Haystack NLP IRQA 组件*

如何集成服务和对话管理器以进行部署

该工作流将 NVIDIA Riva ASR 和 TTS 服务与 Haystack （第三方开源自然语言信息检索问题解答（ NLP IRQA ）服务）和 Rasa （开源对话管理器）集成。

图 1 显示了 Riva ASR 服务转录用户的口头问题。 Rasa 和 Haystack 用于解释用户在问题中的意图，并构建相关的回答。该响应使用 Riva TTS 以合成的自然语音传递给用户。

就上下文而言， NVIDIA Riva 提供了工具，用于构建和 deploying 对话式 AI 和语音 AI 管道，以连接到任何包含 NVIDIA GPU 的设备，无论是边缘设备、数据中心还是云端设备。这些工具还使用这些管道进行推理。

针对金融行业的特定语言定制

NVIDIA 联络中心智能虚拟助理工作流具有针对金融服务行业用例的 Riva ASR 自定义功能。

这些 Riva ASR 定制在两个示例 Jupyter 笔记本中执行：

提高对金融特定条款的认可。
在具有挑战性的声学环境（包括噪音、口音和方言）中增强对金融术语的识别。
为金融专用词的发音提供明确的指导。

有关自定义 Riva ASR 模型的详细信息，请参见 ASR Customization Best Practices 。

对话管理器培训和 IRQA 组件

在 Riva ASR 定制之后，您可以在智能虚拟助理对话框管理器上使用信息检索和问题解答（ IRQA ）组件。每个智能虚拟助理都需要一种管理会话状态和流程的方法。

对话管理器使用类似 BERT 的语言模型来识别从 Riva ASR 服务获得的转录文本中的用户意图。然后，它将问题路由到正确准备的响应或履行服务。这为问题提供了上下文，并为智能虚拟助理如何给出正确的响应提供了框架。

Rasa 对话管理器还通过填充开发人员设置的用于记住对话上下文的槽来维护对话状态。它可以通过提供每个意图和要识别的插槽的几个示例来训练以理解用户意图。

使用 Haystack NLP 的 IRQA 然后用于搜索给定文档的列表，并生成对用户问题的长格式响应。这有助于公司处理大量非结构化数据，这些数据需要以对客户有帮助的形式使用。 IRQA 生成答案后， Riva TTS 合成一个类似人类的音频响应。

总之， NVIDIA 联络中心智能虚拟助理工作流可以作为 Helm 图表的集合部署在任何云 Kubernetes 发行版上，每个图表都运行一个微服务。

虽然 NVIDIA 联络中心智能虚拟助理架构使用 Haystack 和 Rasa 组件，但您可以使用首选组件。

所有 NVIDIA 联络中心智能虚拟助理工作流打包组件都包括企业级实施最佳实践，包括身份验证、监控、报告和负载平衡，同时支持定制。

基于使用度量的最优推理

NVIDIA 联络中心智能虚拟助理工作流包括 NVIDIA Triton Inference Server ，它为 Prometheus 提供指示 GPU 和请求统计的度量。度量格式为纯文本，因此您可以直接在 Grafana 仪表板中查看它们。

基于 Triton 推理服务器 metrics ，我们计算了对 Riva 而言特定且重要的度量（表 1 ）。

Metric name	Metrics formula	Definition
Average queue time	`avg(delta(nv_inference_queue_duration_us[1m])/(1+delta(nv_inference_request_success[1m]))/1000)`	请求在 Triton 推理服务器队列中停留的时间（以毫秒为单位）是一分钟时间窗口内所有请求的平均值。这是衡量服务器计算能力的指标。如果这增加超过阈值，请考虑将您的服务器扩展到更多副本。
Number of successful requests per minute	`sum(delta(nv_inference_request_success[1m]))`	在一分钟时间窗口内捕获的成功推理请求总数。
Number of failed requests per minute	`sum(delta(nv_inference_request_failure[1m]))`	在一分钟时间窗口内捕获的成功推理请求总数。
P99 latency in seconds	`quantile_over_time(0.99, nv_inference_compute_infer_duration_us[1m]) / 1000 / 1000`	在一分钟的时间窗口内捕获的所有请求样本的 p99 ASR 延迟。
P95 latency in seconds	`quantile_over_time(0.95, nv_inference_compute_infer_duration_us[1m]) / 1000 / 1000`	在一分钟的时间窗口内捕获的所有请求样本的 p95 ASR 延迟。
GPU memory utilization	`avg(nv_gpu_memory_used_bytes / 1024 / 1024 / 1024)`	Riva 服务器使用的 GPU 内存。
Number of Riva Servers	`count (count by (instance) (nv_cache_hit_lookup_duration_per_model))`	Kubernetes 集群上的 Riva 服务器副本。
GPU Utilization	`avg(nv_gpu_utilization)`	平均 GPU 利用率。
GPU Power Utilization	`avg(nv_gpu_power_usage)`	一段时间内的 GPU 功耗。

表 1 。对 Riva 而言特定且重要的计算指标

根据这些使用指标， Riva 吊舱可以手动或自动缩放。

结论

NVIDIA Riva 提供语音 AI 工具，使公司能够在联络中心构建和部署智能虚拟助理。这些助手减轻了人工代理的压力，同时也为客户提供了他们期望从现场员工那里获得的互动和个人待遇。这一切都会带来更好的客户体验。

智能虚拟助理还可以通过减少客户等待时间、提供实时翻译、更快地解决客户难题、缩短代理入职时间，并使客户能够全天候到达联络中心，从而显著提高联络中心的效率。公司还可以使用联络中心通话记录来进一步完善其产品和服务。

缩短联络中心智能虚拟助理的开发时间

减少智能虚拟助理应用程序的开发时间