Content Creation / Rendering

오픈 소스로 공개된 NVIDIA Audio2Face 애니메이션 모델

최첨단 생성형 AI 기술이 초현실적인 3D 아바타 표정을 구현합니다

오픈 소스로 공개된 ‘NVIDIA Audio2Face’ 애니메이션 모델
Reading Time: 4 minutes

생성형 AI는 거대 언어 모델(LLM)과 음성 모델을 활용해 비디오 게임부터 고객 서비스에 이르기까지 자연스러운 대화를 지원하는 지능형 3D 아바타를 생성합니다. 캐릭터가 사람처럼 보이기 위해서는 인간다운 표정이 필수적인데요. NVIDIA Audio2Face는 생성형 AI 기반 실시간 얼굴 애니메이션과 립싱크를 제공해 사실적인 디지털 캐릭터 제작을 가속화합니다.

게임, 3D 애플리케이션의 AI 기반 아바타 생성을 지원하는 Audio2Face 기술을 오픈 소스로 공개합니다!

비디오 1. NVIDIA Audio2Face 3.0 확산(Diffusion) 모델 데모

Audio2Face는 AI를 활용해 오디오 입력을 바탕으로 사실적인 얼굴 애니메이션을 생성합니다. 음성의 음소, 억양 등 음향적 특징을 분석해 애니메이션 데이터 스트림을 만들고, 이를 캐릭터의 얼굴 표정에 매핑하죠. 해당 데이터는 오프라인 환경에서 사전 제작된 콘텐츠에 활용 가능하며, 실시간 스트리밍으로 AI 기반 캐릭터의 역동적인 상호작용에도 사용할 수 있습니다. 이를 통해 정밀한 립싱크와 감정 표현이 가능하죠.

그림 1. 음성 오디오와 감정적 트리거로 얼굴 애니메이션과 립싱크가 생성됩니다.

Audio2Face 모델과 소프트웨어 개발 키트(SDK)가 오픈 소스로 공개됐습니다. 모든 게임, 3D 애플리케이션 개발자는 최첨단 애니메이션을 갖춘 고품질 캐릭터를 제작하고 배포할 수 있습니다. 또한 Audio2Face 훈련 프레임워크도 오픈 소스로 공개돼, 누구나 NVIDIA의 기존 모델을 활용 사례에 맞게 미세 조정하고 맞춤화할 수 있죠.

아래에서 오픈 소스 도구의 전체 목록을 확인하세요. 더 자세한 사항은 NVIDIA Developer 페이지에서 알아볼 수 있습니다.

패키지용도
Audio2Face SDK라이브러리와 문서로, 기기 또는 클라우드에서 얼굴 애니메이션을 제작, 실행
오토데스크 마야(Autodesk Maya) 플러그인로컬 실행 기반의 레퍼런스 플러그인(v2.0)으로, 사용자가 오디오 입력을 전송하고 마야 캐릭터의 얼굴 애니메이션을 생성
언리얼 엔진 5(Unreal Engine 5) 플러그인UE5.5, 5.6용 플러그인(v2.5)으로, 사용자가 오디오 입력을 전송하고, 언리얼 엔진 5 캐릭터 얼굴 애니메이션을 생성
Audio2Face 훈련 프레임워크프레임워크(v1.0)로, 사용자 데이터를 활용해 Audio2Face 모델을 제작

표 1. Audio2Face SDK, 플러그인

패키지용도
Audio2Face 훈련 샘플 데이터훈련 프레임워크 시작을 위한 예시 데이터
Audio2Face 모델립싱크 생성을 위한 회귀 모델(v2.2), 확산 모델(v3.0)
오디오투이모션(Audio2Emotion) 모델오디오로 감정 상태를 추론하는 프로덕션 모델(v2.2), 실험 모델(v3.0)

표 2. Audio2Face 모델, 훈련 데이터

오픈 소스 기술은 개발자, 학생, 연구자들이 최첨단 코드를 학습하고 이를 기반으로 새로운 기술을 개발할 수 있도록 하는데요. 이를 통해 커뮤니티 내에서 새로운 기능이 추가되거나 다양한 활용 사례에 맞게 최적화가 이뤄지는 선순환이 만들어지죠. 고품질 얼굴 애니메이션을 보다 쉽게 활용할 수 있게 된 커뮤니티는 향후 혁신적인 결과를 만들어낼 것으로 기대됩니다. 지금 바로 NVIDIA Audio2Face 개발자 커뮤니티 디스코드(Discord)에 가입해 최신 작업을 공유하세요.

업계를 선도하는 Audio2Face 모델은 게임, 미디어, 엔터테인먼트, 고객 서비스 등 다양한 산업에 도입되고 있습니다. 컨바이(Convai), 코드마스터즈(Codemasters), GSC 게임 월드(GSC Game World), 인월드 AI(Inworld AI), 넷이즈(NetEase), 리얼루전(Reallusion), 퍼펙트월드 게임즈(Perfect World Games), 스트림랩스(Streamlabs), 유니큐 디지털 휴먼스(UneeQ Digital Humans) 등 많은 독립 소프트웨어 공급업체(Independent Software Vendors, ISV)와 게임 개발사가 Audio2Face 기술을 자사 애플리케이션에 활용하고 있죠.

비디오 2. F1 25에서 NVIDIA Audio2Face 기술

크리에이터를 위한 3D 캐릭터 제작 플랫폼을 제공하는 리얼루전은 자사 툴 모음에 Audio2Face를 통합했습니다. 리얼루전의 혁신 부문 책임자인 엘비스 황(Elvis Huang)은 “Audio2Face는 AI를 활용해 오디오로 감정이 담긴 다국어 얼굴 애니메이션을 생성합니다. 리얼루전의 아이클론(iClone), 캐릭터 크리에이터(Character Creator), 아이클론 AI 어시스턴트(iClone AI Assistant)와 Audio2Face의 매끄러운 통합은 물론, 얼굴 키(face-key) 편집, 페이스 퍼페티어링(face puppeteering), 애큐립(AccuLip)을 비롯한 고급 편집 도구 덕분에 고품질 캐릭터 애니메이션 제작이 그 어느 때보다 쉬워졌죠”라고 말했습니다.

‘에이리언: 로그 인커전 이볼브드 에디션(Alien: Rogue Incursion Evolved Edition)’의 개발사 서비오스(Survios)는 애니메이션 제작 과정을 가속화해 보다 빠르게 고품질 캐릭터 경험을 제공할 수 있게 됐습니다.

서비오스의 게임 디렉터 겸 수석 엔지니어인 유진 엘킨(Eugene Elkin)은 “’이볼브드 에디션’에 Audio2Face를 통합함으로써, 립싱크와 얼굴 캡처 파이프라인을 간소화하는 동시에 플레이어에게 더욱 몰입감 있고 사실적인 캐릭터 경험을 제공할 수 있었습니다”고 말했습니다.

‘체르노빌라이트(Chernobylite)’ 게임 시리즈의 개발사 더 팜 51(The Farm 51)은 최신작에 Audio2Face를 도입했습니다.

더 팜 51의 크리에이티브 디렉터인 보이치에흐 파즈두르(Wojciech Pazdur)는 “NVIDIA Audio2Face 기술을 ‘체르노빌라이트 2: 금지구역(Chernobylite 2: Exclusion Zone)’에 도입한 것은 획기적인 전환점이었습니다. 오디오로 매우 정교한 얼굴 애니메이션을 직접 생성해 수많은 애니메이션 작업 시간을 절약했죠. 기존 ‘체르노빌라이트’에서는 불가능했던 아이디어들이 실행 가능해졌고, 새로운 수준의 사실감과 몰입감 있는 캐릭터 연기가 그 어느 때보다 실제처럼 느껴집니다”고 말했습니다.

이번 달에 발표된 게임 개발자를 위한 소식들은 아래와 같습니다.

RTX 키트 최신 업데이트

RTX 키트는 AI를 활용해 게임에 레이 트레이싱을 적용하고, 방대한 지오메트리(geometry)의 장면을 렌더링하며, 사실적인 비주얼의 게임 캐릭터를 제작할 수 있는 NVIDIA의 뉴럴 렌더링 기술 모음입니다.

RTX Neural Texture Compression SDK는 고품질 텍스처의 메모리 사용량을 품질 손실 없이 크게 줄이며, 다음과 같은 다양한 개선 사항을 포함하고 있습니다.

  • 매우 큰 텍스처 세트에 대한 라이브러리 최적화와 DX12에서 협력 벡터(Cooperative Vectors) 사용 시 성능 향상
  • 렌더링 샘플 기능 확장, 성능과 DLSS 지원 개선
  • 매우 큰 텍스처 세트의 압축, 해제 시 명령줄 도구(Command-Line Tool) 개선
  • 벤치마킹에 유용한 새로운 인텔 스폰자(Intel Sponza) 장면 추가

RTX Global Illumination SDK는 레이 트레이싱 기반 간접 조명 솔루션을 제공하며, 다음과 같은 개선 사항을 포함합니다.

  • 패스 트레이서 샘플에 V싱크(VSync) 옵션 추가
  • 머티리얼 디모듈레이션 토글(material demodulation toggle)과 함께 캐시 시각화 기능 추가
  • 공간 해시 방사도 캐시(Spatially Hashed Radiance Cache, SHaRC) 알고리즘으로 압축 옵션 제거, 선택적 머티리얼 디모듈레이션 기능과 추가 디버그 패스, 문서 업데이트 도입

NVIDIA vGPU로 게임 개발 환경 확장

NVIDIA vGPU 기술은 가상화 환경에서 다수 사용자가 GPU를 공유할 수 있게 합니다. 따라서 조직 전체의 게임 개발자를 지원하는 확장 가능한 GPU 자원을 제공하죠. 액티비전(Activision)은 NVIDIA vGPU를 활용해 글로벌 통합, 배포, 운영 파이프라인을 재구축했으며, 100대의 기존 서버를 단 6대의 RTX GPU 기반 장치로 대체했습니다. 결과는 다음과 같습니다.

  • 서버 공간 사용량 82% 감소
  • 전력 사용량 72% 절감
  • 3,000명의 개발자와 500개 이상의 시스템에서 하루 25만 개 이상의 작업 실행

인프라를 통합하고 역동적인 GPU 할당을 가능하게 함으로써, 액티비전은 멀티플레이어 검증부터 시각적 회귀와 성능 테스트까지 모두 지원하는 확장 가능한 자동화된 테스트 플랫폼을 구축했습니다. 이를 통해 반복 속도를 가속화하고 코드 품질을 전반적으로 향상시켰죠.

액티비전의 사례를 통해 중앙 집중식 GPU 스케줄링이 AAA 개발 파이프라인을 재정의하는 방법에 대해 알아보세요.

그래픽 개발, 성능 조율 관련 SIGGRAPH 2025 세션

NVIDIA는 다양한 교육 세션과 기술 발표를 진행했습니다. 특히 게임 개발자들의 관심을 끈 것은 엔사이트(Nsight) 그래픽 개발자 도구 모음의 최신 기능을 체험할 수 있는 실험실이었죠. 해당 세션의 녹화 영상은 현재 NVIDIA On-Demand에서 스트리밍으로 시청할 수 있습니다.

‘엔사이트 그래픽스 활용: 현대 레이 트레이싱 애플리케이션 개발, 디버깅하기(Nsight Graphics in Action: Develop and Debug Modern Ray-Tracing Applications)’ 세션에서는 프레임을 점검하고 디버깅하며, 일반적인 렌더링 버그와 성능 저해 요소를 식별하고 진단하는 방법에 초점을 맞췄습니다. 또한 확장되고 현대화된 워크플로우를 제공하는 새로운 그래픽스 캡처(Graphics Capture) 도구의 활용 방법도 소개했죠.

‘엔사이트 그래픽스 활용: 현대 레이 트레이싱 애플리케이션에서 셰이더 최적화하기(Nsight Graphics in Action: Optimize Shaders in Modern Ray-Tracing Applications)’ 세션은 GPU 트레이스 프로파일러(GPU Trace Profiler)를 심층적으로 다루며, 개별 셰이더 코드를 분석해 런타임 실행 병목 현상을 찾아내는 방법을 소개합니다.

‘NVIDIA 엔사이트 시스템즈로 VRAM 관리 최적화하기(Optimize VRAM Management With NVIDIA Nsight Systems)’ 세션에서는 CPU와 GPU 전반에서 애플리케이션 성능과 자원 활용 현황을 전체적으로 파악하는 방법을 설명합니다. 몇 분 길이의 트레이스를 활용하며, 특히 새로운 그래픽스 핫스팟 분석(Graphics Hotspot Analysis) 도구를 강조하죠. 이 도구는 원본 타임라인 데이터를 웹 기반 인터페이스로 변환해 동시성 분석, 프레임 지연 등을 쉽게 확인할 수 있는 요약 정보를 제공합니다.

게임과 그래픽 애플리케이션을 최적화하는 엔사이트 그래픽스엔사이트 시스템즈를 지금 다운로드해 시작할 수 있습니다.

더 알아보기

여기에서 언리얼 엔진 5.6 기반 RTX Mega Geometry를 다룬 ‘Level up with NVIDIA’ 웨비나 에피소드를 온디맨드로 시청할 수 있습니다.

여기에서 게임 개발자를 위한 전체 자료 목록을 확인할 수 있으며, 아래의 방법을 통해 최신 NVIDIA 게임 개발 뉴스를 받아볼 수 있습니다.

Discuss (0)

Tags