Conversational AI / NLP

업계 최고의 정확도와 성능을 제공하는 NVIDIA 음성 AI 모델

Reading Time: 3 minutes

NVIDIA는 음성 AI와 언어 모델 전반에서 최신 성능과 효율성, 접근성을 끌어올리며 자동 음성 인식(ASR)의 가능성을 새롭게 정의하는 혁신을 이끌고 있습니다.

NVIDIA Parakeet TDT 0.6B v2는 고품질 영어 전사를 위해 설계된 6억 파라미터 규모의 ASR 모델로, 현재 Hugging Face ASR 리더보드에서 NVIDIA Parakeet 계열 상위 4개 모델과 함께 공동 1위를 차지하고 있습니다. 또한, NVIDIA NeMo Canary 모델 역시 Hugging Face ASR 리더보드에서 두각을 나타내고 있습니다.

이 글에서는 이러한 최첨단 NVIDIA 음성 AI 모델들이 어떻게 정확도, 속도, 활용 범주 면에서 새로운 기준을 세우고 있는지 살펴봅니다. 모델의 주요 특성과 리더보드 성능, 실무 적용 방안까지 확인하며 실제 환경에서 이 모델들을 어떻게 활용할 수 있을지 안내해드립니다.

NVIDIA 음성 AI 모델 개요

NVIDIA Parakeet 및 Canary 모델은 NVIDIA Riva에 포함된 모델 패밀리로, 이는 완전 맞춤형 실시간 대화형 AI 파이프라인 구축을 위한 GPU 가속 다국어 음성 및 번역 마이크로서비스 집합입니다.

Riva 음성 모델은 보통 연구용 프로토타입으로 시작해 실험 단계를 거쳐 고성능 배포 가능한 형태로 발전합니다. 다만 이 모델들이 NVIDIA NIM 마이크로서비스로 전환되는지는 실제 수요와 개발자 커뮤니티 내에서의 성능 평가 결과에 따라 결정됩니다.

이러한 NVIDIA 모델은 연구 단계를 거쳐 성능 최적화를 거친 후, Riva를 통해 대규모 실환경에 배포 가능한 NIM 형태로 제공되며, 원활한 상용화를 지원합니다. 관련 내용을 자세히 알고 싶다면, NVIDIA의 Joey Conway 제품 관리 수석 디렉터와의 최근 인터뷰를 참고하세요.

NVIDIA Parakeet v2 모델 하이라이트

Parakeet v2는 업계 최저 수준인 6.05%의 단어 오류율(WER)을 기록하며, 정밀도와 초고속 추론 성능(RTFx 3386.02, 타사 대비 약 50배 속도)을 바탕으로 시간 정보 포함 전사, 음악-가사 추출 등 혁신적인 기능을 제공합니다. 이 모델은 오픈소스로 공개되어 있으며 상업적 활용도 가능합니다.

다른 ASR 모델들이 속도, 정확도, 특수 용도 간 균형을 맞추는 데 어려움을 겪는 반면, Parakeet v2는 이 모든 요소를 갖추고 있어 뛰어난 성능과 유연성을 동시에 요구하는 개발자들에게 최적의 선택지입니다.

비디오 1. NVIDIA Parakeet v2를 사용하여 만든 노래-가사 트랜스크립션 예시

NVIDIA NeMo Canary 모델 하이라이트

NVIDIA NeMo Canary 모델 역시 Hugging Face ASR 리더보드 상위권을 차지하고 있습니다. 특히 NVIDIA NeMo Canary 1BNVIDIA NeMo Canary 1B Flash는 각각 4위와 3위에 올라 있으며, 다국어 처리 능력과 빠른 추론 속도에서 강점을 보입니다. 이 모델들은 주요 언어의 음성 인식 및 번역 성능에서도 최상위권을 기록하고 있습니다.

그림 1. 음성 인식 부문에서 Hugging Face Open ASR 리더보드에서 상위권에 오른 여러 NVIDIA Parakeet 및 Canary 모델.

NVIDIA 음성 AI 모델의 상세 내용 및 활용 사례

최신 NVIDIA 음성 AI 모델은 실제 활용에 최적화되어 있습니다. Recurrent Neural Network Transducer(RNNT) 기반 다국어 모델은 총 25개 언어를 지원해 글로벌 협업과 고객 소통을 용이하게 만듭니다.

병원이나 공항 등 소음이 많은 환경에서도 정확한 전사가 필요한 경우, 내장된 Silero VAD 기능이 안정적인 출력을 지원합니다. 가장 낮은 WER을 기록한 Parakeet v2는 빠르고 정확한 결과는 물론 음악 전사 같은 고급 기능도 제공합니다.

즉시 사용할 수 있는 솔루션을 찾는 팀이라면, NVIDIA는 다음과 같은 Riva NIM 마이크로서비스를 제공합니다.

비디오 2. 이 짧은 인터뷰를 통해 리더보드 1위를 차지한 NVIDIA Parakeet TDT 0.6B v2 모델에 대해 자세히 알아보세요.

NVIDIA 음성 모델은 배포가 간편하고 기업 환경에 바로 적용할 수 있도록 설계되어 있으며, Riva 모델은 NVIDIA AI Enterprise, NVIDIA NGC, NVIDIA NIM 마이크로서비스 형태로 제공됩니다. 최신 연구용 모델은 Hugging Face에서 다운로드할 수 있습니다.

모델명아키텍처지원 언어주요 기능활용 사례
Parakeet TDT 0.6B v2FastConformer-TDT영어 (en-US)업계 최고 WER, 초고속, 단어 단위 타임스탬프, 노래-가사 전사, 구두점미디어·엔터테인먼트, 엣지 및 IoT
Parakeet RNNT 1.1BFastConformer-RNNT25개 언어범용 토크나이저, 구두점 포함, NVIDIA NIM글로벌 고객 지원, 다국어 전사
Parakeet CTC 1.1B (Silero VAD)FastConformer-CTC영어 (en-US)고속 ASR, 소음 환경 대응, Silero VAD, 고처리량, 저지연음성 비서 및 기업용 보이스 앱, 병원·공항 등 소음 많은 환경
Parakeet CTC 06BFastConformer-CTC영어 (en-US), 스페인어 (es-US)고속 ASR, ASRSet 및 35,000시간 영어 학습, 소문자 처리, 공백·아포스트로피 포함, 빠른 추론의료·금융 분야의 명확한 전사, 미디어, 엣지 디바이스
표 1. NVIDIA Parakeet 모델 개요

NVIDIA 음성 AI 모델 시작하기

지속적인 혁신과 업데이트를 통해 NVIDIA Parakeet ASR 모델은 글로벌 언어 지원, 소음 환경 대응, 업계 최고 수준의 속도와 정확도를 실현하며 음성 인식 기술의 기준을 새로 세우고 있습니다. 기업용 보이스 솔루션을 구축하거나, 다국어 고객 지원을 강화하거나, 차세대 미디어 애플리케이션을 개발 중이라면, Parakeet 모델은 제품에 명확함과 지능을 더해줄 도구가 되어줄 것입니다.

지금 바로 NVIDIA Parakeet v2를 다운로드Riva 기반 음성 NIM을 체험해보세요. 기술 문서, 배포 가이드 등 자세한 내용은 NGC Catalog에서 확인할 수 있습니다.

관련 리소스

Discuss (0)

Tags