NVIDIA는 음성 AI와 언어 모델 전반에서 최신 성능과 효율성, 접근성을 끌어올리며 자동 음성 인식(ASR)의 가능성을 새롭게 정의하는 혁신을 이끌고 있습니다.
NVIDIA Parakeet TDT 0.6B v2는 고품질 영어 전사를 위해 설계된 6억 파라미터 규모의 ASR 모델로, 현재 Hugging Face ASR 리더보드에서 NVIDIA Parakeet 계열 상위 4개 모델과 함께 공동 1위를 차지하고 있습니다. 또한, NVIDIA NeMo Canary 모델 역시 Hugging Face ASR 리더보드에서 두각을 나타내고 있습니다.
이 글에서는 이러한 최첨단 NVIDIA 음성 AI 모델들이 어떻게 정확도, 속도, 활용 범주 면에서 새로운 기준을 세우고 있는지 살펴봅니다. 모델의 주요 특성과 리더보드 성능, 실무 적용 방안까지 확인하며 실제 환경에서 이 모델들을 어떻게 활용할 수 있을지 안내해드립니다.
NVIDIA 음성 AI 모델 개요
NVIDIA Parakeet 및 Canary 모델은 NVIDIA Riva에 포함된 모델 패밀리로, 이는 완전 맞춤형 실시간 대화형 AI 파이프라인 구축을 위한 GPU 가속 다국어 음성 및 번역 마이크로서비스 집합입니다.
Riva 음성 모델은 보통 연구용 프로토타입으로 시작해 실험 단계를 거쳐 고성능 배포 가능한 형태로 발전합니다. 다만 이 모델들이 NVIDIA NIM 마이크로서비스로 전환되는지는 실제 수요와 개발자 커뮤니티 내에서의 성능 평가 결과에 따라 결정됩니다.
이러한 NVIDIA 모델은 연구 단계를 거쳐 성능 최적화를 거친 후, Riva를 통해 대규모 실환경에 배포 가능한 NIM 형태로 제공되며, 원활한 상용화를 지원합니다. 관련 내용을 자세히 알고 싶다면, NVIDIA의 Joey Conway 제품 관리 수석 디렉터와의 최근 인터뷰를 참고하세요.
NVIDIA Parakeet v2 모델 하이라이트
Parakeet v2는 업계 최저 수준인 6.05%의 단어 오류율(WER)을 기록하며, 정밀도와 초고속 추론 성능(RTFx 3386.02, 타사 대비 약 50배 속도)을 바탕으로 시간 정보 포함 전사, 음악-가사 추출 등 혁신적인 기능을 제공합니다. 이 모델은 오픈소스로 공개되어 있으며 상업적 활용도 가능합니다.
다른 ASR 모델들이 속도, 정확도, 특수 용도 간 균형을 맞추는 데 어려움을 겪는 반면, Parakeet v2는 이 모든 요소를 갖추고 있어 뛰어난 성능과 유연성을 동시에 요구하는 개발자들에게 최적의 선택지입니다.
NVIDIA NeMo Canary 모델 하이라이트
NVIDIA NeMo Canary 모델 역시 Hugging Face ASR 리더보드 상위권을 차지하고 있습니다. 특히 NVIDIA NeMo Canary 1B와 NVIDIA NeMo Canary 1B Flash는 각각 4위와 3위에 올라 있으며, 다국어 처리 능력과 빠른 추론 속도에서 강점을 보입니다. 이 모델들은 주요 언어의 음성 인식 및 번역 성능에서도 최상위권을 기록하고 있습니다.

NVIDIA 음성 AI 모델의 상세 내용 및 활용 사례
최신 NVIDIA 음성 AI 모델은 실제 활용에 최적화되어 있습니다. Recurrent Neural Network Transducer(RNNT) 기반 다국어 모델은 총 25개 언어를 지원해 글로벌 협업과 고객 소통을 용이하게 만듭니다.
병원이나 공항 등 소음이 많은 환경에서도 정확한 전사가 필요한 경우, 내장된 Silero VAD 기능이 안정적인 출력을 지원합니다. 가장 낮은 WER을 기록한 Parakeet v2는 빠르고 정확한 결과는 물론 음악 전사 같은 고급 기능도 제공합니다.
즉시 사용할 수 있는 솔루션을 찾는 팀이라면, NVIDIA는 다음과 같은 Riva NIM 마이크로서비스를 제공합니다.
- Parakeet RNNT 1.1B: 25개 언어를 지원하며 구두점까지 포함하는 정확한 다국어 전사 가능
- Parakeet CTC 1.1B: Silero Voice Activity Detector(VAD)를 지원하는 경량 모델로, 빠르고 지연이 낮은 결과 제공
- Parakeet CTC 06B: 6억 파라미터 규모의 영어 모델로, 35,000시간 이상의 음성 데이터 기반 학습을 통해 자연스러운 텍스트 출력 지원
NVIDIA 음성 모델은 배포가 간편하고 기업 환경에 바로 적용할 수 있도록 설계되어 있으며, Riva 모델은 NVIDIA AI Enterprise, NVIDIA NGC, NVIDIA NIM 마이크로서비스 형태로 제공됩니다. 최신 연구용 모델은 Hugging Face에서 다운로드할 수 있습니다.
모델명 | 아키텍처 | 지원 언어 | 주요 기능 | 활용 사례 |
---|---|---|---|---|
Parakeet TDT 0.6B v2 | FastConformer-TDT | 영어 (en-US) | 업계 최고 WER, 초고속, 단어 단위 타임스탬프, 노래-가사 전사, 구두점 | 미디어·엔터테인먼트, 엣지 및 IoT |
Parakeet RNNT 1.1B | FastConformer-RNNT | 25개 언어 | 범용 토크나이저, 구두점 포함, NVIDIA NIM | 글로벌 고객 지원, 다국어 전사 |
Parakeet CTC 1.1B (Silero VAD) | FastConformer-CTC | 영어 (en-US) | 고속 ASR, 소음 환경 대응, Silero VAD, 고처리량, 저지연 | 음성 비서 및 기업용 보이스 앱, 병원·공항 등 소음 많은 환경 |
Parakeet CTC 06B | FastConformer-CTC | 영어 (en-US), 스페인어 (es-US) | 고속 ASR, ASRSet 및 35,000시간 영어 학습, 소문자 처리, 공백·아포스트로피 포함, 빠른 추론 | 의료·금융 분야의 명확한 전사, 미디어, 엣지 디바이스 |
NVIDIA 음성 AI 모델 시작하기
지속적인 혁신과 업데이트를 통해 NVIDIA Parakeet ASR 모델은 글로벌 언어 지원, 소음 환경 대응, 업계 최고 수준의 속도와 정확도를 실현하며 음성 인식 기술의 기준을 새로 세우고 있습니다. 기업용 보이스 솔루션을 구축하거나, 다국어 고객 지원을 강화하거나, 차세대 미디어 애플리케이션을 개발 중이라면, Parakeet 모델은 제품에 명확함과 지능을 더해줄 도구가 되어줄 것입니다.
지금 바로 NVIDIA Parakeet v2를 다운로드해 Riva 기반 음성 NIM을 체험해보세요. 기술 문서, 배포 가이드 등 자세한 내용은 NGC Catalog에서 확인할 수 있습니다.
관련 리소스
- GTC 세션: 스마트 상담원 지원으로 콜센터 고객 서비스를 개선하여 컨택 센터 자동화 및 멀티 에이전트 시스템 구축(발표: EXL)
- GTC 세션: 음성 AI의 이해
- NGC 컨테이너: Phind-CodeLlama-34B-v2-Instruct
- SDK: NeMo 프레임워크
- SDK: NeMo Megatron Core
- 웨비나: 금융 서비스 컨택 센터를 위한 AI 음성 지원 가상 어시스턴트 구축 및 배포 방법