Conversational AI / NLP

NVIDIA NeMo T5-TTS 모델을 활용한 음성 합성 LLM의 환각 문제 해결

Reading Time: 3 minutes

NVIDIA NeMo음성 합성(TTS) 기술의 중요한 발전인 T5-TTS 모델을 출시했습니다. 거대 언어 모델(LLM)을 기반으로 하는 T5-TTS는 더 정확하고 자연스러운 음성을 생성합니다. T5-TTS는 텍스트와 오디오 간의 정렬을 개선하여 반복되는 구어 및 텍스트 건너뜀과 같은 환각(hallucinations)을 제거합니다. 또한 T5-TTS는 BarkSpeechT5와 같은 다른 오픈 소스 모델에 비해 단어 발음 오류가 최대 2배 더 적습니다. 

T5-TTS 모델 오디오 샘플을 들어보세요.

NVIDIA NeMo는 클라우드와 온프레미스를 포함하여 어디서든 규모별 멀티모달 생성형 AI 모델을 개발할 수 있는 엔드 투 엔드 플랫폼입니다.

LLM의 음성 합성에서의 역할

LLM은 일관된 텍스트를 이해하고 생성하는 놀라운 능력으로 자연어 처리(NLP)를 혁신했습니다. 최근 LLM은 방대한 양의 데이터를 사용하여 인간의 음성 패턴과 억양의 뉘앙스를 포착해 내면서 음성 영역에서 널리 채택되고 있습니다. LLM 기반 음성 합성 모델은 더 자연스러울 뿐만 아니라 표현력이 뛰어난 음성을 생성하여 다양한 산업 분야에 응용 가능성을 열어줍니다.

그러나 텍스트 도메인과 마찬가지로 음성 LLM에는 실제 배포를 저해할 수 있는 환각 문제가 있습니다.

T5-TTS 모델 개요

T5-TTS 모델은 음성 합성을 위해 인코더-디코더 트랜스포머 아키텍처를 활용합니다. 인코더는 텍스트 입력을 처리하고 자동 회귀 디코더는 대상 화자의 참조 음성 프롬프트를 가져옵니다. 그런 다음 자동 회귀 디코더는 트랜스포머의 교차 어텐션 헤드를 통해 인코더의 출력을 처리하여 음성 토큰을 생성합니다. 이러한 교차 어텐션 헤드는 암묵적으로 텍스트와 음성을 정렬하는 방법을 학습합니다. 그러나 특히 입력 텍스트에 반복되는 단어가 포함된 경우에는 견고성이 약화될 수 있습니다.

그림 1. NVIDIA NeMo T5-TTS 모델 및 정렬 프로세스 개요

환각 문제 해결

TTS에서 환각은 생성된 음성이 사소하게 잘못된 발음부터 완전히 잘못된 단어에 이르기까지, 의도된 텍스트에서 벗어나 오류를 일으키는 경우에 발생합니다. 이러한 부정확성은 보조 기술, 고객 서비스 및 콘텐츠 제작과 같은 중요한 응용 분야에서 TTS 시스템의 신뢰성을 손상시킬 수 있습니다.

T5-TTS 모델은 텍스트 입력과 그에 해당하는 음성 출력을 보다 효율적으로 정렬하여 환각을 크게 줄입니다. 사전 단조 정렬연결주의적 시간 분류(CTC) 손실을 적용하면 생성된 음성이 의도된 텍스트와 밀접하게 일치하므로 더 신뢰할 수 있고 정확한 TTS 시스템이 만들어집니다. 단어 발음의 경우, T5-TTS 모델은 Bark에 비해 오류가 2배 더 적고, VALLE-X(오픈 소스 구현)에 비해서는 오류가 1.8배 적으며, SpeechT5에 대비해서는 오류가 1.5배 적습니다(그림 2).

그림 2. 100개의 까다로운 텍스트 입력에 다양한 LLM 기반 TTS 모델을 사용하는 경우 합성 음성의 명료성 메트릭

시사점 및 향후 연구의 고려 사항

NVIDIA NeMo의 T5-TTS 모델 출시는 TTS 시스템에서 상당한 발전을 의미합니다. 이 모델은 환각 문제를 효과적으로 해결함으로써 더 신뢰할 수 있는 고품질 음성 합성을 위한 기반을 마련하고, 다양한 응용 분야에서 사용자 경험을 향상합니다.

NVIDIA NeMo 팀은 앞으로 언어 지원을 확장하고, 다양한 음성 패턴을 캡처하는 기능을 개선하며, 더 광범위한 NLP 프레임워크에 통합하여 T5-TTS 모델을 더욱 개선할 계획입니다.

NVIDIA NeMo T5-TTS 모델 살펴보기

T5-TTS 모델은 더 정확하고 자연스러운 텍스트-음성 합성을 달성하는 데 있어 중요한 혁신입니다. 강력한 텍스트 및 음성 정렬의 학습과 관련된 이와 같은 혁신적인 접근 방식은 이 분야의 새로운 벤치마크를 설정하며 TTS 기술과 상호 작용하고 TTS 기술의 이점을 활용하는 방식을 변화시킬 것입니다. 

T5-TTS 모델에 액세스하고 잠재력을 살펴보려면 GitHub에서 NVIDIA/NeMo를 방문하세요. 연구원, 개발자, 매니아 모두에게 이 강력한 도구는 텍스트-음성 변환 기술 영역의 혁신과 발전을 위한 무수한 가능성을 제공합니다. 자세히 알아보려면 단조 정렬을 학습하여 LLM 기반 음성 합성의 견고성 개선을 참조하세요.

도움 주신 분들

Paarth Neekhara, Shehzen Hussain, Subhankar Ghosh, Jason Li, Boris Ginsburg, Rafael Valle, Rohan Badlani를 비롯해 이 작업에 기여한 모든 모델 작성자와 공동 작업자에게 감사드립니다.

관련 리소스

Discuss (0)

Tags