가장 쉬운 음성 AI 이해

Reading Time: 6 minutes

인공지능(AI)은 모노톤의 로보콜과 수십 년 된 GPS 내비게이션 시스템에서 스마트폰과 스마트 스피커에서 세련된 톤의 가상 비서에 이르기까지 합성 음성 기술을 혁신적으로 발전시켰습니다.

조직이 특정 산업과 영역에 맞는 맞춤형 최첨단 음성 AI 기술을 사용하는 것이 그 어느 때보다 쉬워졌습니다.

음성 AI는 가상 비서를 강화하고, 콜센터를 확장하고, 디지털 아바타를 인간화하며, AR 경험을 개선하고, 임상 메모 작성을 자동화하여 환자에게 원활한 의료 경험을 제공하는 데 사용되고 있습니다.

Gartner Research에 따르면 고객들은 2023년까지 셀프 서비스 고객 상호작용의 70%(2019년 40%에서 증가)를 음성 인터페이스를 사용하여 시작하는 것을 선호할 것으로 예상됩니다. 개인화되고 자동화된 경험에 대한 수요는 계속 증가하고 있습니다.

이 글에서는 음성 AI의 정의, 작동 방식, 음성 인식 기술의 이점, 음성 AI 사용 사례에 대해 설명합니다.

음성 AI란 무엇이며 어떤 이점이 있나요?

음성 AI는 음성 기반 기술인 자동 음성 인식(ASR), 음성-텍스트 변환, 텍스트 음성 변환(TTS)에 AI를 사용합니다. 예를 들어 가상 회의의 자동 라이브 캡션과 가상 비서에 음성 기반 인터페이스 추가 등이 있습니다.

마찬가지로 챗봇, 텍스트 분석, 디지털 어시스턴트와 같은 언어 기반 애플리케이션은 자연어 처리(NLP)와 함께 대규모 애플리케이션이나 시스템의 일부로 음성 AI를 사용합니다. 자세한 내용은 대화형 AI 용어집을 참조하세요.

음성 AI에는 많은 이점이 있습니다:

고가용성: 음성 AI 애플리케이션은 상담원 근무 시간 중이나 근무 시간 외에도 고객 전화에 응답할 수 있어 컨택 센터를 보다 효율적으로 운영할 수 있습니다.
실시간 인사이트: 실시간 녹취록은 감정 분석, 고객 경험 분석, 사기 탐지 등 고객 중심의 비즈니스 분석을 위한 입력으로 사용됩니다.
즉각적인 확장성: 성수기에는 음성 AI 애플리케이션을 자동으로 확장하여 수만 건의 고객 요청을 처리할 수 있습니다.
향상된 경험: 음성 AI는 대기 시간을 줄이고, 고객 문의를 신속하게 해결하며, 맞춤형 음성 인터페이스를 통해 사람과 같은 상호 작용을 제공함으로써 고객 만족도를 향상시킵니다.
디지털 접근성: 음성 텍스트 변환에서 텍스트 음성 변환 애플리케이션에 이르기까지, 음성 AI 도구는 읽기 및 청각 장애가 있는 사람들이 생성된 음성 오디오와 서면 텍스트를 통해 학습할 수 있도록 돕고 있습니다.

음성 AI는 누가 어떻게 사용하나요?

오늘날 음성 AI는 금융, 통신, 통합 커뮤니케이션 서비스(UCaaS)와 같은 세계 최대 산업에 혁신을 일으키고 있습니다.

딥러닝 음성 기반 기술을 처음 도입하는 기업부터 기존 음성 기반 대화형 AI 플랫폼을 보강하는 중견 기업까지 모두 음성 AI의 이점을 누릴 수 있습니다.

다음은 음성 AI가 효율성과 비즈니스 성과를 높이는 몇 가지 구체적인 사례입니다.

콜센터 전사

전 세계적으로 약 1,000만 명의 콜센터 상담원이 매일 20억 건의 전화에 응답하고 있습니다. 콜센터 사용 사례에는 다음이 모두 포함됩니다:

트렌드 분석
규정 준수
실시간 보안 또는 사기 분석
실시간 감정 분석
실시간 번역

예를 들어, 자동 음성 인식은 고객과 콜센터 상담원 간의 실시간 대화를 텍스트로 변환하여 텍스트 분석을 수행한 다음, 상담원에게 고객 문의를 신속하게 해결하기 위한 실시간 권장 사항을 제공하는 데 사용됩니다.

임상 메모 작성

의료 분야에서 음성 AI 애플리케이션은 의료 전문가와 보험금 청구 담당자에 대한 환자의 접근성을 개선합니다. ASR은 환자와 의사가 대화하는 동안 메모를 작성하고 보험금 청구 상담원을 위한 정보 추출을 자동화합니다.

가상 비서

가상 비서는 모든 산업에서 사용자 경험을 향상시키는 데 사용되고 있습니다. ASR은 가상 비서를 위한 오디오 쿼리를 트랜스크립션하는 데 사용됩니다. 그런 다음 텍스트 음성 변환을 통해 가상 비서의 합성 음성을 생성합니다. 가상 비서는 거래 상황을 인간화할 뿐만 아니라 시각 장애인이 점자가 아닌 텍스트와 상호 작용하고, 음성 장애인이 개인과 소통하고, 어린이가 읽는 방법을 배우는 데 도움을 줍니다.

음성 AI는 어떻게 작동하나요?

음성 AI는 자동 음성 인식 및 텍스트 음성 변환 기술을 사용하여 대화형 애플리케이션을 위한 음성 인터페이스를 제공합니다. 일반적인 음성 AI 파이프라인은 데이터 전처리 단계, 신경망 모델 훈련, 후처리로 구성됩니다.

이 섹션에서는 ASR 파이프라인과 TTS 파이프라인 모두에서 이러한 단계에 대해 설명합니다.

자동 음성 인식

기계가 사람의 말을 듣고 말하려면 소리를 코드로 변환할 수 있는 공통 매체가 필요합니다. 장치나 애플리케이션이 어떻게 소리를 통해 세상을 ‘볼’ 수 있을까요?

ASR 파이프라인은 음성이 포함된 원시 오디오 파일을 처리하고 해당 텍스트로 변환하는 동시에 단어 오류율(WER)이라는 메트릭을 최소화합니다.

WER은 여러 유형의 음성 인식 시스템과 알고리즘 간의 성능을 측정하고 비교하는 데 사용됩니다. 오류 수를 전사되는 클립의 단어 수로 나눈 값으로 계산됩니다.

ASR 파이프라인은 특징 추출, 음향 모델링, 언어 모델링 등 일련의 작업을 수행해야 합니다.

특징 추출 작업에는 원시 아날로그 오디오 신호를 다양한 주파수에서 시간 경과에 따른 신호의 음량을 나타내는 시각적 차트인 스펙트로그램으로 변환하는 작업이 포함되며, 이는 히트 맵과 유사합니다. 변환 과정의 일부에는 표준화 및 윈도우잉과 같은 전통적인 신호 전처리 기술이 포함됩니다.

그런 다음 음향 모델링을 사용하여 오디오 신호와 언어의 음성 단위 간의 관계를 모델링합니다. 오디오 세그먼트를 가장 가능성이 높은 고유한 음성 단위와 해당 문자에 매핑합니다.

ASR 파이프라인의 마지막 작업은 언어 모델링입니다. 언어 모델은 문맥적 표현을 추가하고 음향 모델의 실수를 수정합니다. 즉, 음향 모델의 문자가 있으면 이 문자를 단어 시퀀스로 변환하여 구문과 문장으로 추가 처리할 수 있습니다.

기존에는 이러한 일련의 작업을 언어 모델, 발음 모델, 음향 모델을 사용하여 발음을 오디오 파형으로 변환해야 하는 생성적 접근 방식을 사용하여 수행했습니다. 그런 다음 가우시안 혼합 모델 또는 숨겨진 마르코프 모델을 사용하여 오디오 파형에서 소리와 가장 일치할 가능성이 높은 단어를 찾으려고 했습니다.

이러한 통계적 접근 방식은 정확도가 떨어지고 구현 및 배포에 시간과 노력이 더 많이 소요되었습니다. 특히 오디오 데이터의 각 시간 단계가 문자의 정확한 출력과 일치하는지 확인하려고 할 때 더욱 그러했습니다.

하지만 연결주의적 시간 분류(CTC) 모델이나 주목도가 있는 시퀀스 간 모델과 같은 엔드투엔드 딥러닝 모델을 사용하면 오디오 신호에서 직접 트랜스크립트를 생성할 수 있으며 WER도 낮아집니다.

다시 말해, Jasper, QuartzNet, Citrinet과 같은 딥러닝 기반 모델을 통해 기업은 더 저렴하고 강력하며 정확한 음성 AI 애플리케이션을 개발할 수 있습니다.

텍스트 음성 변환
TTS 또는 음성 합성 파이프라인은 텍스트를 사람과 같은 억양과 명확한 발음으로 인공적으로 생성된 자연스러운 음성의 음성으로 변환하는 역할을 담당합니다.

TTS 파이프라인은 텍스트 분석, 언어 분석, 파형 생성 등 다양한 작업을 수행해야 합니다.

텍스트 분석 단계에서는 원시 텍스트(기호, 약어 등 포함)를 전체 단어와 문장으로 변환하고, 약어를 확장하고, 표현을 분석합니다. 출력은 언어 분석으로 전달되어 억양, 지속 시간 등을 다듬고 문법 구조를 이해합니다. 그 결과 스펙트로그램 또는 멜-스펙트로그램이 생성되어 사람과 유사한 연속적인 오디오로 변환됩니다.

앞서 살펴본 접근 방식은 합성 네트워크와 보코더 네트워크가 필요한 일반적인 2단계 프로세스입니다. 이 두 네트워크는 텍스트에서 스펙트로그램을 생성하고(타코트론 아키텍처 또는 패스트피치 사용) 스펙트로그램 또는 기타 중간 표현(웨이브글로우 또는 하이파이간 등)에서 오디오를 생성하는 후속 목적을 위해 훈련된 별도의 네트워크입니다.

2단계 접근 방식뿐만 아니라, 텍스트에서 바로 오디오를 생성하기 위해 단일 모델을 사용하는 엔드투엔드 딥러닝 모델을 사용하는 것도 TTS 파이프라인을 구현할 수 있는 또 다른 방법입니다. 신경망은 중간 표현에 의존하지 않고 텍스트-오디오 페어에서 직접 학습됩니다.

엔드투엔드 접근 방식은 네트워크 간의 오류 전파를 줄이고, 별도의 훈련 파이프라인의 필요성을 완화하며, 지속 시간 정보의 수동 주석 처리 비용을 최소화하므로 복잡성을 줄여줍니다.

또한 기존의 TTS 접근 방식은 특히 소비자 대상 애플리케이션과 서비스에서 사용자 참여에 영향을 미치는 보다 로봇적이고 부자연스러운 음성을 생성하는 경향이 있습니다.

음성 AI 시스템 구축의 과제

성공적인 음성 AI 애플리케이션은 다음과 같은 기능을 지원해야 합니다.

최첨단 모델에 대한 액세스

고도로 훈련되고 정확한 딥러닝 모델을 처음부터 새로 만드는 것은 비용과 시간이 많이 소요됩니다.

최신 모델이 게시되는 즉시 액세스할 수 있는 기능을 제공함으로써 데이터와 리소스가 제한된 기업도 정확도가 높은 사전 학습된 모델과 전이 학습을 제품 및 서비스에 즉시 사용할 수 있습니다.

높은 정확도

전 세계 또는 모든 산업이나 도메인에 배포하려면 전 세계에서 사용되는 6,500개 언어 중 일부에 불과한 여러 언어, 방언, 억양 및 컨텍스트를 고려하여 모델을 사용자 지정해야 합니다. 일부 도메인에서는 특정 용어와 전문 용어를 사용합니다.

실시간 성능

대부분의 사용자가 대화나 경험이 부자연스럽게 느껴지기 시작하는 100밀리초 전후에서 지연과 통신 장애를 느끼기 시작하기 때문에 여러 딥러닝 모델로 구성된 파이프라인은 실시간 상호작용을 위해 밀리초 단위로 추론을 실행해야 하며, 정확히는 300밀리초 미만이면 됩니다.

유연하고 확장 가능한 배포

기업마다 다양한 배포 패턴이 필요하며 클라우드, 온프레미스, 엣지 배포를 혼합하여 사용해야 할 수도 있습니다. 성공적인 시스템은 수요 변동에 따라 수십만 명의 동시 사용자로 확장할 수 있도록 지원합니다.

데이터 소유권 및 개인정보 보호

기업은 온프레미스 또는 조직의 클라우드에서 안전한 데이터 처리와 같이 해당 산업과 도메인에 적합한 보안 관행을 구현할 수 있어야 합니다. 예를 들어, HIPAA 또는 기타 규정을 준수하는 의료 회사는 데이터에 대한 액세스 및 데이터 처리를 제한해야 할 수 있습니다.

음성 AI의 미래

컴퓨팅 인프라, 음성 AI 알고리즘의 발전, 원격 서비스에 대한 수요 증가, 기존 및 신흥 산업에서의 흥미로운 새로운 사용 사례 덕분에 이제 음성 AI 기반 제품 및 서비스를 위한 강력한 에코시스템과 인프라가 구축되었습니다.

현재 음성 AI 애플리케이션이 비즈니스 성과를 창출하는 데 있어 강력한 힘을 발휘하는 만큼 차세대 음성 AI 애플리케이션은 다국어, 다중 도메인, 다중 사용자 대화를 처리할 수 있는 역량을 갖춰야 합니다.

음성 AI 기술을 핵심 업무에 성공적으로 통합할 수 있는 조직은 아직 나열되지 않은 사용 사례에 맞게 서비스와 제품을 확장할 수 있는 준비가 되어 있을 것입니다.

무료 eBook인 ‘음성 AI 애플리케이션 구축‘을 확인하여 조직에서 음성 AI를 배포하는 방법을 알아보세요.

이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.