자동 음성 인식 기술을 활용한 독특한 애플리케이션 살펴보기

Reading Time: 4 minutes

자동 음성 인식(ASR)은 디지털 어시스턴트와의 상호 작용부터 문자 메시지 전달에 이르기까지 일상 생활의 일부가 되어가고 있습니다. ASR 연구는 다음과 같은 기술의 최근 발전 덕분에 계속 발전하고 있습니다.

요구 사항에 부합하는 여러 아키텍처를 모델링하는 ASR
업계별 전문 용어, 언어, 억양 및 방언을 위한 맞춤화 유연성
클라우드, 온-프레미스 또는 하이브리드 배포 옵션

이 게시물에서는 먼저 일반적인 ASR 애플리케이션을 소개하고 두 스타트업이 ASR을 핵심 제품 기능으로 활용하는 모습을 소개합니다.

음성 인식 시스템의 작동 방식

자동 음성 인식은 컴퓨터 시스템에서 오디오의 구문과 문구를 해독하고 텍스트로 전사하는 기능입니다. 개발자는 또한 ASR을 텍스트 음성 변환(TTS)과 혼동되지 않도록 음성 텍스트 변환이라고도 합니다.

ASR 시스템의 텍스트 출력은 음성 AI 인터페이스의 최종 제품일 수도 있고 대화형 AI 시스템이 이 텍스트를 소비할 수도 있습니다.

일반적인 ASR 애플리케이션

ASR은 이미 새로운 인터랙티브 제품 및 서비스를 위한 관문이 되었습니다. 지금도 아래에 설명된 사용 사례를 활용하는 브랜드 이름 시스템을 생각할 수 있습니다.

실시간 자막 및 전사

실시간 자막과 전사는 단짝과 같습니다. 이 둘의 주된 차이점은 자막이 영화 스트리밍과 같은 비디오 프로그램의 경우 필요에 따라 실시간으로 자막을 생성한다는 것입니다. 이와 달리 전사는 실시간 또는 배치 모드에서 이루어질 수 있으며, 녹화된 오디오 컷은 실시간에서보다 훨씬 더 빠르게 전사됩니다.

가상 비서 및 챗봇

가상 비서와 챗봇은 사람과 상호 작용하여 사람들을 돕고 즐겁게 합니다. 입력을 하는 사용자 또는 ASR 시스템에서 사용자의 단어를 인식하고 출력하면서 텍스트 기반 입력을 수신할 수 있습니다.

비서와 봇은 처리 지연이 거의 보이지 않도록 사용자에게 신속하게 대응해야 합니다. 응답은 일반 텍스트, 합성된 음성 또는 이미지일 수 있습니다.

음성 명령 및 받아쓰기

음성 명령 및 받아쓰기 시스템은 소셜 미디어 플랫폼 및 헬스케어 산업에서 사용하는 일반적인 ASR 애플리케이션입니다.

소셜 미디어 예시로, 모바일 장치에서 비디오를 녹화하기 전에 사용자는 다음과 같이 뷰티 필터를 활성화하는 음성 명령을 말할 수 있습니다. “머리카락을 보라색으로 바꿔줘.”이 소셜 네트워킹 애플리케이션은 명령 형태로 사용자의 단어를 수신하는 ASR 지원 하위 시스템을 포함하며, 애플리케이션은 동시에 카메라 입력을 처리하고 화면 디스플레이용 필터를 적용합니다.

받아쓰기 시스템은 음성에서 텍스트를 저장하여 음성 AI 시스템의 어휘를 명령 너머로 확장합니다. 의료 산업에서의 예로 의사는 의료 용어와 이름이 포함된 음성 노트를 받아쓰게 합니다. 정확한 텍스트 출력이 환자의 전자 의료 기록에서 방문 요약에 추가될 수 있습니다.

독특 ASR 애플리케이션

연구원들과 기업가들은 이러한 일반적인 사용 사례를 넘어 다양한 고유한 ASR 애플리케이션을 탐구하고 있습니다. 아래 소개된 두 스타트업은 새로운 방식으로 이 기술을 사용하는 제품을 개발하고 있습니다.

Using NVIDIA #SpeechAI, @tarteelAI helps Muslims around the world practice their faith by providing real-time feedback and correction to speakers studying the Quran. #speechrecognition
Learn more: https://t.co/VPv4umT7ki https://t.co/zlQtuYKWt6
— NVIDIA AI (@NVIDIAAI) May 4, 2022

인터랙티브 학습: Tarteel AI

ASR의 창의적인 응용 분야는 교육 자료, 특히 어린이 및 성인 모두를 위한 인터랙티브 학습 형태로 나타나기 시작했습니다.

Tarteel.ai는 NVIDIA Riva를 사용하여 쿠란을 암송하고 외우는 사람들을 돕는 모바일 앱을 개발한 스타트업입니다. (‘Tarteel’은 아랍어로 아름답고 듣기 좋은 쿠란의 낭독을 뜻합니다.) 이 앱은 Tarteel이 미세 조정한 ASR 모델을 쿠란 아랍어에 적용합니다. 자세히 알아보려면 아래 소셜 미디어 게시물에서 데모 비디오를 시청하세요.

앱의 스크린샷에서 볼 수 있듯이 사용자는 오른쪽에서 왼쪽으로, 위에서 아래로 표시되는 제대로 낭송된 텍스트를 봅니다. 녹색의 스크립트는 사용자가 방금 말한 단어(맨 앞)입니다. 낭독에서 실수가 발생하면 잘못된 단어나 누락된 단어가 빨간색으로 표시되고 카운터가 개선을 위해 부정확성을 추적합니다.

사용자의 진행률은 암송 오류 목록과 함께 요약되며 사용자가 텍스트를 기억하는 데 도움이 되는 유사한 구절에 대한 링크가 포함됩니다. 챌린지 모드는 사용자의 공부에 박차를 가합니다.

과제 및 솔루션

앱은 이제 원활하게 작동하지만, Tarteel은 초기에 어려운 과제에 직면했습니다. 먼저 쿠란 아랍어에 적합한 ASR 모델이 존재하지 않았기 때문에, 처음에 Tarteel은 범용 ASR 모델을 시도해야 했습니다.

Tarteel의 공동 창립자 겸 CEO Anas Abou Allaban은 “우리는 스마트폰과 같은 디바이스 음성 AI 프레임워크로 시작했지만, 이는 정확한 암송보다 주로 명령과 짧은 문장을 위해 설계되었습니다.”라고 말했습니다. “정식 출시할 만한 수준의 도구가 아니었습니다. 그 비슷한 수준조차 되지 못했죠.”

이 과제를 극복하기 위해 Tarteel은 기존 ASR 모델을 세분화하여 앱의 성능 목표를 달성할 목적으로 맞춤형 데이터 세트를 구축했습니다. 그러자 다음 프로토타입에서 ASR 모델은 더 낮은 단어 오류율(WER)을 보였지만 앱의 실용적인 정확도 및 레이턴시 요구 사항을 충족하지 못했습니다.

Allaban은 일부 컨퍼런스 콜 전사에서 10~15%의 WER을 보았지만 쿠란 연구에서 높은 WER을 달성하는 것은 또 다른 문제라고 지적합니다. 앱에서 300밀리초가 넘는 처리 레이턴시는 “상당히 불편하게 느껴진다”고 그는 말했습니다.

Tarteel은 NVIDIA NeMo 프레임워크에서 ASR 모델을 조정하고 Triton 추론 서버에서 Riva로 배포하기 전에 TensorRT로 레이턴시를 더욱 최적화하여 이러한 과제를 해결했습니다.

디지털 인간 서비스: Ex-human

스타트업인 Ex-Human은 우리 같은 아날로그 인간과 상호 작용할 수 있는 극사실적인 디지털 인간을 창조하고 있습니다. 이들의 현재 초점은 엔터테인먼트 틈새 시장을 위한 B2B 디지털 인간 서비스를 개발하여 독특한 성격, 지식 및 사실적인 말하는 목소리를 가진 챗봇 또는 게임 캐릭터의 생성을 가능하게 하는 것입니다.

이 회사의 Botify AI 앱에서 AI 엔터티에는 스마트폰 채팅 창에 타이핑을 하든 음성을 사용하든 관계없이 구두 및 그래픽 상호 작용을 통해 사용자와 소통할 수 있는 유명한 인물이 포함되어 있습니다. NVIDIA Riva 자동 음성 인식은 대형 언어 모델(LLM)의 일부로 구성되는 디지털 인간의 자연어 처리 하위 모델에 텍스트 입력을 제공합니다.

가상 상호 작용을 안정적으로 만들기 위해서는 정확하고 빠른 ASR이 필요합니다. LLM은 컴퓨팅 집약적이며 충분한 처리 리소스가 필요하므로 상호 작용에 너무 느리게 실행될 수 있습니다.

예를 들어 Botify AI는 최첨단 TTS를 적용하여 음성 오디오 반응을 생성하며, 그 결과 다른 AI 모델을 사용하여 얼굴 애니메이션을 구동합니다. 이 팀은 응답을 위한 소요 시간이 약 1/3초보다 짧을 때 봇이 사용자와 믿을 수 있는 상호 작용이 최상의 결과를 제공한다는 것을 관찰했습니다.

과제 및 솔루션

Botify AI는 AI로 생성된 인간의 사실적인 영상과 실제 인간 사이의 간극을 줄이기 위해 노력하고 있지만, Ex-human 팀은 고객의 행동 데이터를 분석한 결과를 확인하고 매우 놀랐습니다. “그들은 자신의 새로운 애니메이션 캐릭터를 구축하고 있습니다.” Ex-human 설립자 겸 CEO Artem Rodichev는 말했습니다.

Botify AI 에코시스템에 미세 조정된 ASR 모델을 사용하면 사용자는 좋아하는 성격의 사람들과 소통하거나 자신만의 모델을 만들 수 있습니다. 새로운 애니메이션 캐릭터를 구축하는 놀라운 패턴은 맞춤형 얼굴을 업로드하여 맞춤형 페르소나로 대화를 실현하는 맥락에서 나타났습니다. Rodichev는 그의 팀이 스타일화되어 점이나 선만 있는 입을 처리할 수 있도록 AI 모델을 신속하게 조정해야 한다고 설명했습니다.

Rodichev와 팀은 도구와 SDK를 신중하게 선택하고 처리를 병렬화할 기회를 평가하면서 Ex-human 아키텍처에서 많은 문제를 극복했습니다. Rodichev는 말했습니다. “레이턴시가 매우 중요하기 때문에 ASR 모델과 다른 모델을 NVIDIA TensorRT로 최적화하고 Triton 추론 서버에 의존했습니다.”

Botify AI 사용자는 아날로그 인간보다 디지털 인간에 더 몰입할 준비가 되어 있을까요? 데이터에 따르면 사용자는 Botify AI 디지털 인간과 함께 하루에 평균 40분을 보내면서 수백 개의 메시지를 문자로 보내는 것으로 나타났습니다.

ASR 시작하기

핸즈프리 음성 명령부터 실시간 전사에 이르기까지 자체 디자인 및 프로젝트에 ASR 기능을 포함할 수 있습니다. Riva와 같은 고급 SDK는 세계적 수준의 정확도, 속도, 지연 시간 및 통합 용이성에서 높은 성능을 보이며, 이 모든 것을 맞춤 설정하여 새로운 아이디어를 실현할 수 있습니다.

웹 브라우저에서 NVIDIA Riva 자동 음성 인식을 사용해 보거나 Riva 기술 빠른 시작 가이드를 다운로드하세요.

자동 음성 인식 기술을 활용한 독특한 애플리케이션 살펴보기

음성 인식 시스템의 작동 방식