Riva 및 Nemo Megatron의 최신 버전으로 다국어 음성 AI를 구축하고 대형 언어 모델 훈련하기

Reading Time: 2 minutes

지난주 NVIDIA GTC 2022에서 음성 AI 애플리케이션 구축을 위한 SDK인 Riva의 주요 업데이트와 유료 Riva Enterprise 서비스가 발표되었습니다. 대형 언어 모델 교육을 위한 프레임워크인 Nemo Megatron에 대한 몇 가지 주요 업데이트도 발표되었습니다.

일반 Riva 2.0

Riva는 여러 언어에 걸친 실시간 자동 음성 인식(ASR) 및 TTS(Text-to-Speech) 기술에 대해 세계 최고 수준의 정확도를 제공하며, 모든 클라우드에서 온프리미엄(On-perm)으로 도입할 수 있습니다. Snap, T-Mobile, RingCentral 및 Kore.ai과 같은 업계 선두업체는 Riva를 고객 관리 센터 애플리케이션, 음성 전사 및 가상 도우미에 활용하고 있습니다.

최신 Riva 버전은 다음을 포함합니다:

  • 다국어 ASR: 영어, 스페인어, 독일어, 러시아어, 중국어.
  • 독자적인 음성 폰트(Font)로 커스터마이즈 가능한 고품질의 TTS 음성.
  • TAO Toolkit 또는 NVIDIA Nemo를 사용한 도메인별 맞춤 기능으로 억양, 도메인 및 국가별 전문 용어의 탁월한 정확성 확보.
  • 클라우드, 온프리미어 및 임베디드(Embedded) 플랫폼에서 실행 지원
A GIF showing how to control Riva text-to-speech pitch and speed using SSML tags.
그림 1: NVIDIA Riva 제어 가능한 텍스트 투 스피치(Text-to-speech)에서는 SSML 태그를 사용하여 음성의 높이와 속도를 쉽게 조정할 수 있습니다

Riva 제품 페이지에서 Riva 자동 음성 인식을 사용해 보세요.

Defined.ai 는 NVIDIA와 협력하여 언어, 도메인 및 녹음 유형에 관계없이 스피치 트레이닝 및 검증 데이터를 구입하려는 기업에 원활한 워크플로우를 제공하고 있습니다. NVIDIA 개발자를 위한 Defined.ai 데이터 세트의 샘플은 여기에서 찾을 수 있습니다.

NGC에서 NVIDIA Developer 프로그램 회원에게 무료로 제공되는 Riva를 다운로드하세요.

Riva 엔터프라이즈

NVIDIA also introduced Riva Enterprise, a paid offering for enterprises deploying Riva at scale with business-standard support from NVIDIA experts. 

NVIDIA는 또한 대규모로 Riva를 도입하는 기업 전용의 유료 서비스인 Riva Enterprise도 도입했으며 이 서비스는 NVIDIA 전문가로부터 비즈니스 표준의 지원을 제공합니다.

이점은 다음과 같습니다:

  • 모든 클라우드 및 온프리미엄(On-perm) 플랫폼에서 ASR 및 TTS 서비스 무제한으로 사용 가능합니다
  • 현지 영업시간 내에 NVIDIA AI 전문가에게 연락하여 구성과 퍼포먼스에 대한 안내를 받을 수 있습니다.
  • 유지보수 관리 및 업그레이드를 장기적으로 지원합니다.
  • 새로운 릴리스 및 기능에 대한 우선 액세스를 제공합니다.

기업은 애플리케이션을 평가 및 프로토타입(Prototype)하기 위해 NVIDIA Launchpad에서 제공되는 Riva Enterprise 무료 체험판를 사용할 수 있습니다.

Launchpad의 Riva Enterprise에는 다음과 같은 가이드 랩(Lab)이 포함되어 있습니다:

  • 실시간 음성 AI API와의 상호 작용
  • 대화형 AI 어플리케이션에 음성 AI 기능을 추가합니다.
  • 커스텀 데이터의 음성 AI 파이프라인을 미세 조정하여 정밀도를 높입니다.

Riva Enterprise 평가판을 신청하세요.

대화형 AI Demystified 세션에서 음성 AI 애플리케이션을 구축, 최적화 및 배포하는 방법에 대해 자세히 알아보세요.


NeMo Megatron

NVIDIA는 최대 수조 개의 파라미터를 훈련하기 위한 프레임워크인 NVIDIA NeMo Megatron의 새로운 업데이트를 발표했습니다. Nemo Megatron 연구 기관과 기업이 모든 LLM을 융합으로 교육할 수 있도록 Megatron 논문의 혁신 기술을 기반으로 구축되었습니다. Nemo Megatron은 데이터 전처리, 병렬처리(데이터, 텐서 및 파이프라인), 조정 및 스케줄링, 자동 정밀도 조정 기능을 제공합니다.

철저한 테스트를 거친 방법, 일반적인 LLM 아키텍처 구현 및 조직이 LLM 전환을 신속하게 시작하는 데 필요한 툴로 구성됩니다.

AI Sweden, JD.com, Naver, 그리고 Florida 대학교 등은 대형 언어 모델 구축을 위한 NVIDIA 기술을 조기 채택한 업체들입니다.

최신버전은 다음을 포함합니다:

  • 하이퍼 파라미터 조정 도구—고객의 요구와 제한된 인프라에 맞춰 자동으로 레시피를 제공합니다.
  • T5 및 mT5 모델의 참고 레시피.
  • Azure부터 시작하여 클라우드 상에서 LLM 교육을 지원합니다.
  • 분산된 데이터 전처리 스크립트를 통해 엔드 투 엔드 교육 시간을 단축합니다.
  • 니모 메가트론 조기접속 신청.

NeMo Megatron 얼리 엑세스 신청하기.

Learn more about interesting applications of LLMs and best practices to deploy them in the 사례를 통해 자연어 이해하기: 성공적인 엔터프라이즈 도입을 통해 얻은 교훈 GTC session.

GTC 세션인 사례를 통해 자연어 이해하기: 성공적인 엔터프라이즈 도입을 통해 얻은 교훈에서 LLM의 흥미로운 적용 사례와 LLM을 도입하기 위한 방법에 대해 자세히 알아보세요.

Discuss (0)

Tags

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다