Conversational AI / NLP

NVIDIA 맞춤형 음성 AI를 통한 통신 고객 경험 향상

Reading Time: 6 minutes

통신 부문이 의사 소통 방식에 변혁을 일으키고 있습니다. 안정적이고 중단 없는 서비스를 제공하기 위해 노력하는 기업들은 최적의 고객 경험 제공이라는 과제를 두고 분투하는 중입니다.

대규모 통신 서비스 제공업체의 오랜 고객은 이런 최적의 고객 경험을 해본 적이 없습니다. Jack을 예로 들어 보겠습니다. 그는 10분 동안 전화 연결을 기다리다 회사에 늦었습니다. 세 번째 대화 상대였던 상담원 Jill은 이전 상담원이 남긴 간단한 메모를 읽었지만 내용을 잘 이해하지 못했습니다. 그래서 이 상담원은 명확히 하기 위해 Jack에게 몇 가지 질문을 했습니다. 도움을 줄 동료가 없었던 Jill은 Jack의 우려를 해소하기 위해 여러 정책 문서를 참조했습니다. 몇몇 리소스를 뒤진 후 Jill은 필요한 정보를 찾았지만 안타깝게도 Jack은 이미 통화를 종료한 상태였습니다.

긴 대기 시간, 복잡한 서비스 요청, 개인화 부족은 고객들이 직면하는 일반적인 문제 중 하나로, 결국 불만과 이탈로 이어집니다. 이러한 과제를 극복하기 위해 통신 부문에서는 AI, 특히 대화형 AI에 주목하고 있습니다. 이 기술은 음성, 번역, 자연어 처리(NLP)를 활용하여 인간과 유사한 상호 작용을 가능케 합니다.

이 게시물에서는 대화형 AI 시스템이 필수적인 이유와 다운스트림 작업에서 최적의 성능을 위해 높은 수준의 전사 정확도를 유지하는 것이 중요한 이유를 살펴봅니다. Quantiphi가 전사 정확도를 개선하는 데 사용한 NVIDIA Riva 음성 인식 맞춤화 기술을 설명합니다.

[stextbox id=”info”]Join us on June 7 for the webinar Empower Telco Contact Center Agents with Multi-Language Speech-AI-Customized Agent Assists featuring live demos from Infosys, Quantiphi, and NVIDIA.[/stextbox]

6월 7일 Infosys, Quantiphi, NVIDIA의 라이브 데모가 제공되는 다국어 음성 AI 맞춤형 상담원 지원을 통한 통신업체 콜센터 상담원 역량 강화 웨비나에 참여하세요.

대화형 AI 시스템의 정확도

통신업체의 콜센터에서는 여러 가지 이유로 매우 정확한 대화형 AI 시스템이 필수적입니다. 대화형 AI 시스템은 상담원이 통화를 통해 귀중한 정보를 얻어내고 충분한 정보에 입각한 결정을 내리도록 도움을 주어 서비스 품질과 고객 경험을 개선할 수 있습니다. 

대화형 AI 시스템의 주요 구성 요소 중 하나는 자동 음성 인식(ASR)으로, 음성 인식 또는 음성-텍스트 변환이라고도 합니다. 통신업체 콜센터의 다운스트림 작업은 ASR 시스템에서 제공하는 정확한 전사에 크게 의존합니다. 이러한 작업은 다음과 같은 광범위한 애플리케이션을 포함합니다.

  • 고객 인사이트
  • 감정 분석
  • 통화 분류
  • 통화 전사

빠르고 정확한 응답은 효율적이고 효과적인 고객 서비스를 위해 필수적입니다. 즉, ASR을 포함한 개별 구성 요소의 전반적인 지연 시간을 줄이는 것이 매우 중요합니다. 작업을 완료하는 데 필요한 시간을 줄임으로써 콜센터 상담원은 신속한 솔루션을 제공하여 고객 만족도와 충성도를 높일 수 있습니다.

또한 구두점을 포함하는 정확한 전사는 가독성을 향상시킵니다. 명확하고 구두점이 있는 전사는 상담원이 고객 문의를 더 잘 이해하는 데 도움을 주어, 명확한 의사 소통과 문제 해결을 촉진합니다. 이는 결과적으로 고객 상호 작용의 전반적인 효율성과 효과를 개선합니다.

NVIDIA Riva 자동 음성 인식 파이프라인

음성-텍스트 변환은 오디오 스트림을 입력으로 받아 전사하고, 전사한 텍스트를 출력으로 생성합니다(그림 1). 우선, 오디오 스트림이 오디오 특징 추출기 및 사전 처리기로 전달되면 여기에서 노이즈를 필터링하고 스펙트로그램 또는 멜 스펙트로그램에서 오디오 스펙트럼 특징을 캡처합니다. 그러면 음향 모델이 언어 모델과 함께 음성을 텍스트로 전사합니다. 전사된 텍스트에 구두점이 추가되어 가독성이 향상됩니다. 

그림 1. 엔드 투 엔드 자동 음성 인식 파이프라인 다이어그램

ASR 시스템에 대한 성능 평가 메트릭

ASR 시스템의 성능은 다음 세 가지 메트릭을 사용하여 측정할 수 있습니다.

  1. 정확도는 전사의 품질과 신뢰성에 직접적인 영향을 미치므로 매우 중요합니다. 단어 오류율(WER)과 같은 메트릭을 통해 정확도를 측정함으로써 시스템이 구어를 얼마나 잘 전사하는지 평가할 수 있습니다. 낮은 WER은 고객 문의와 상호 작용을 정확하게 캡처하여 상담원이 정확하고 적절한 응답을 제공할 수 있도록 보장하기 때문에 콜센터에 매우 중요합니다.
  2. 지연 시간은 오디오 세그먼트의 전사를 생성하는 데 걸리는 시간입니다. 만족스러운 경험을 유지하려면 자막이 수백 밀리초 이하의 지연 시간으로 제공되어야 합니다. 전사 시스템은 최소한의 지연으로 자막을 제공해야 합니다. 짧은 지연 시간은 원활하고 만족스러운 고객 경험을 보장하여 전반적인 효율성과 고객 만족도를 향상시킵니다.
  3. 충분한 컴퓨팅 인프라 기반의 전사 서비스를 개발하고 실행하는 데 드는 비용도 중요한 측정 기준입니다. AI 기반 전사는 인간 통역사에 비해 비용이 저렴하지만 다른 요인과 함께 비용을 측정해야 합니다.

콜센터 환경에서 신뢰할 수 있는 전사를 제공하고, 신속한 고객 상호 작용을 위해 지연 시간을 줄이며, 비용 요소를 고려하여 조직에 비용 효과적이고 실현 가능한 솔루션을 보장할 수 있으려면 전사 시스템의 정확도가 뛰어나야 합니다. 전사 시스템은 세 가지 메트릭을 모두 최적화함으로써 콜센터 운영을 효과적으로 지원하고 고객 서비스 제공을 향상할 수 있습니다.

ASR 정확도 개선 방법 

그림 2에서 볼 수 있듯이 특정 도메인에 대해 가능한 한 최고의 전사 정확도를 달성하는 데 사용할 수 있는 몇 가지 기술이 있으며, 그중 가장 쉬운 방법은 워드 부스팅입니다. ASR 워드 부스팅은 어휘 목록에 없지만 중요한 도메인별 단어 목록을 추가 입력으로 모델에 전달하는 작업을 수행합니다. 이를 통해 ASR 모듈은 추론 중에 이런 단어들을 인식할 수 있습니다.

그림 2. ASR 파이프라인 전반의 맞춤화

대부분의 경우, 특정 명사(예: 회사 또는 서비스의 이름)는 어휘에 없거나 ASR 모델이 자주 잘못 전사하곤 합니다. 이런 명사들이 부스팅할 단어 목록에 추가되었습니다. 이 전략을 통해 요청 시 특정 단어의 인식을 쉽게 개선할 수 있었습니다.

또한 Quantiphi 팀은

맞춤형 음성 지원 대화형 AI 시스템 

통신 업계의 고객 콜센터가 직면한 가장 중요한 과제 중 하나는 복잡한 문의를 해결하는 데 오랜 시간이 걸린다는 것입니다. 상담원은 일반적으로 복잡한 문의에 응답하기 위해 여러 이해관계자와 내부 정책 문서를 거쳐야 합니다. 

대화형 AI 시스템은 관련 문서, 인사이트 및 권장 사항을 제공하여 콜센터 상담원이 고객 문의를 신속하게 해결할 수 있도록 지원합니다. 

맞춤형 음성 지원 대화형 AI 파이프라인을 위한 Quantiphi의 솔루션 아키텍처에는 다음이 포함됩니다. 

  1. 음성 인식 파이프라인: 음성 언어를 캡처하고 텍스트로 변환하여 전사 생성
  2. 의도 슬롯 모델: 사용자 의도 식별 
  3. 의미론적 검색 파이프라인: 대화 관리자를 통해 상담원 문의에 대한 답변을 검색 

Quantiphi는 의미론적 검색 엔진과 질문-답변 솔루션을 구축했습니다(그림 3). 주어진 문의에 대해 가장 관련성이 높은 문서를 검색하고 통신업체 콜센터 상담원을 위한 간결한 답변을 생성합니다.

그림 3. 의미론적 검색 엔진을 갖춘 Quantiphi 질문-답변 솔루션

ASR은 질문-답변(QnA) 시스템과 함께 가상 상담원 및 아바타 기반 챗봇에도 사용됩니다. ASR 전사의 정확도는 검색 증강 생성(RAG) 파이프라인에서 생성한 응답에 대한 입력이므로 상담원 지원, 가상 상담원 및 아바타 기반 챗봇의 정확도에 상당한 영향을 미칩니다. 문의가 전사되는 방식에 약간의 불일치만 있어도 생성 모델이 잘못된 응답을 제공할 수 있습니다. 

Quantiphi 팀은 간혹 고유 명사를 올바르게 전사하지 못하는 기성 ASR 모델을 시도했습니다. ASR 전사의 품질은 다음 예와 같이 질문-답변 파이프라인과 함께 사용될 때 가장 중요합니다.

문의: 5G가 무엇인가요?

ASR 전사: five g란?

생성자 응답: 5천 달러는 공장에서 한 달 동안 일할 경우 벌 수 있는 금액입니다.

정답: 5G는 차세대 무선 기술입니다. 4G LTE보다 빠르고 안정적이며 안전합니다.

이러한 문제를 극복하기 위해 워드 부스팅역 텍스트 정규화맞춤형 어휘, 언어 모델 트레이닝, 음향 모델 미세 조정을 사용했습니다.

워드 부스팅

mMTC, MEC 같은 단어(또는 약어)는 종종 잘못 전사되었습니다. 저희는 워드 부스팅의 도움을 받아 이 문제를 해결했습니다. 다음 예를 살펴보세요.

워드 부스팅 전

MEG라고도 하는 다축 엣지 컴퓨팅은 네트워크 엣지에 클라우드 컴퓨팅 기능과 IT 서비스 환경을 제공하는 일종의 네트워크 아키텍처입니다.

Mtc F는 낮은 대역폭과 깊은 범위의 연결을 제공하는 서비스 영역입니다.

워드 부스팅 후

MEC라고도 하는 멀티 액세스 엣지 컴퓨팅은 네트워크 엣지에 클라우드 컴퓨팅 기능과 IT 서비스 환경을 제공하는 일종의 네트워크 아키텍처입니다.

mMTC는 낮은 대역폭과 깊은 범위의 연결을 제공하는 서비스 영역입니다.

전과 후는 n-gram이 표현되는 방식에 약간의 차이만 있어도 응답이 어떻게 바뀌는지 보여줍니다. ASR 모델은 역 텍스트 정규화를 통해 ‘five g’와 같은 단어를 ‘5G’로 전사하여 프로세스에서 QnA 파이프라인의 성능을 개선합니다.

ASR에 맞춤형 어휘 추가

대부분의 사용 사례에는 일반적으로 특정한 도메인별 단어와 관련 전문 용어가 있습니다. 이러한 단어를 ASR 출력에 포함하기 위해 어휘 파일에 추가하고 ASR 모델을 다시 구축했습니다. 자세한 내용은 Lexicon 매핑으로 Riva ASR 어휘와 발음을 맞춤화하는 방법 튜토리얼을 참조하세요.

n-gram 언어 모델 트레이닝

QnA 작업에 존재하는 컨텍스트는 일반적으로 n-gram 언어 모델을 트레이닝하기 위한 좋은 텍스트 언어 자료 공급원과 같습니다. 맞춤형 언어 모델은 해당 도메인에서 일반적으로 보이는 단어들을 더 잘 수용하는 ASR 출력을 생성합니다. NVIDIA NeMo 스크립트를 사용하여 KenLM 모델을 트레이닝하고 구축 시 ASR 모델과 통합했습니다.

음향 모델 미세 조정

ASR 성능을 더욱 개선하기 위해 10~100시간 분량의 작은 청크(5~15초) 오디오 데이터와 해당하는 실측 텍스트로 ASR 음향 모델을 미세 조정했습니다. 이는 음향 모델이 지역 억양을 습득하는 데 도움이 되었습니다. 이 미세 조정에는 Riva Jupyter 노트북과 NeMo를 사용했습니다. 또한 nemo2riva 도구를 사용하여 이 체크포인트를 Riva 형식으로 변환하고 riva-build 명령을 사용하여 구축했습니다.

핵심 요약

질문-답변 및 인사이트 추출은 통신업체 고객 서비스 상담원이 맞춤화되고 효율적인 지원을 제공할 수 있도록 하는 대화형 솔루션을 구성합니다. 이를 통해 고객 만족도가 향상되고 상담원 이탈이 줄어듭니다. 매우 정확한 QnA 및 인사이트 추출 솔루션을 얻으려면 파이프라인의 나머지 부분에 대한 입력으로 높은 정확도의 전사를 제공해야 합니다. 

Quantiphi는 NVIDIA Riva ASR 워드 부스팅, 역 텍스트 정규화, 맞춤형 어휘, 언어 모델 트레이닝, 음향 모델 미세 조정을 통해 음성 인식 모델을 맞춤화하여 가능한 최고의 정확도를 달성했습니다. 이는 기성 솔루션으로는 불가능했습니다. 

이것이 Jack과 Jill에게 어떤 의미일까요? 통신업체에 맞춤화된 음성 지원 대화형 AI 애플리케이션을 갖춘 Jill은 AI가 생성한 Jack의 이전 대화 요약을 빠르게 훑어볼 수 있습니다. Jack이 질문을 마치는 순간, Jill의 화면은 이미 Jack의 문의 해결과 가장 관련성이 높은 문서로 채워져 있습니다. Jill은 신속하게 정보를 Jack에게 전달합니다. Jack은 설문 조사에 긍정적인 피드백으로 응답하기로 하고 제 시간에 직장에 도착합니다. 

Quantiphi의 전문가에게 문의하여 대화형 AI가 어떻게 조직의 고객 경험을 크게 향상시킬 수 있는지에 대한 포괄적인 탐구를 시작하세요. 상담원 지원 솔루션 구성의 기술적 측면에 대해 자세히 알아보고 싶다면  다국어 음성 AI 맞춤형 상담원 지원을 통한 통신업체 콜센터 상담원 역량 강화 웨비나에 참여하세요.

관련 리소스

이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.

Discuss (0)

Tags

답글 남기기