NVIDIA Maxine Eye Contact을 통해 화상 회의에서 연결 개선

Reading Time: 6 minutes

화상 회의는 브이로그, 브이튜브, 웹캐스트, 심지어 원격 업무용 영상 스트리밍과 같은 여러 스트리밍 사용 사례의 중심에 있습니다. 존재감을 높이고 구두 신호 및 비언어적 신호를 포착하려면 화상 회의 기술은 사용자가 명확하게 보고 듣도록 지원해야 합니다.

아이 컨택트는 사회적 관계를 수립하는 데 핵심적인 역할을 하며 대면 대화에서는 신뢰, 연결, 주목을 의미합니다. 그러나 계속해서 눈을 마주치는 것은 화상 회의 시나리오에서 실현할 수 없습니다. 계속적으로 눈을 마주치려면 사용자가 컴퓨터 디스플레이가 아닌 카메라를 지속적으로 직접 바라봐야 합니다. 하지만 스크립트를 읽거나 컴퓨터 화면에서 데이터를 검토하는 경우 이는 어려울 수 있습니다.

다양한 이유로 아이 컨택트를 유지하는 것이 어려울 때가 많습니다. 많은 아이들과 성인은 눈을 마주치고 유지하는 것을 어려워합니다.

NVIDIA는 사용자 경험을 개선, 증강 및 향상하기 위해 NVIDIA Maxine Eye Contact를 개발했습니다. 이 기능은 AI를 사용하여 실시간으로 사용자의 웹캠 피드에 필터를 적용하고 시선을 카메라쪽으로 리디렉션합니다.

그림 1. NVIDIA Maxine Eye Contact가 카메라를 바라보는 것처럼 사람의 눈을 재조정합니다.

시선 추정 및 리디렉션을 위한 이 혁신적인 AI 기반 알고리즘은 최첨단이고 NVIDIA AR SDK에 완전히 통합되었으며 6DOF 머리 포즈 추정 기능과 함께 새로운 시선 추정 및 리디렉션을 도입합니다. 

그림 2. 새로운 Eye Contact 기능을 제공하는 NVIDIA Broadcast 앱 1.4 업데이트

또한 NVIDIA Maxine Eye Contact는 NVIDIA RTX 및 GeForce RTX GPU 소유자를 위한 무료 소프트웨어 다운로드인 NVIDIA Broadcast 앱에 통합되어 어떤 방이든 홈 스튜디오로 바꾸어 줍니다. 버전 1.4에서 새로운 Eye Contact를 테스트해 보세요.

Eye Contact 파이프라인 만들기

NVIDIA Maxine Eye Contact는 아이 패치라고도 하는 눈 주위의 관심 영역에서 작동합니다. 아이 패치는 NVIDIA Maxine Face 추적 파이프라인을 사용해 영상 프레임에서 추출되어 영상 프레임의 2D 얼굴 랜드마크와 6DOF 머리 포즈를 계산합니다.

그림 3. NVIDIA 얼굴 추적 파이프라인 다이어그램

그런 다음 이 머리 포즈는 영상 프레임에서 얼굴을 정규화하는 데 사용됩니다. 정규화된 프레임에서 256 ✕ 64 픽셀 아이 패치가 크롭되어 아이 컨택트 네트워크에 공급됩니다. 아이 컨택트 네트워크에는 얽힌 인코더-디코더 아키텍처가 있습니다. 인코더는 임베딩이라고도 하는 일련의 특성과 함께 입력 아이 패치의 시선 각도를 추정합니다. 

이러한 임베딩을 기반으로 디코더는 입력 패치에서 시선의 리디렉션을 수행하여 얼굴이 앞을 보게 합니다. 파이프라인의 마지막 단계에는 아이 패치를 다시 원래 영상 프레임에 혼합하고 역변환을 하는 작업이 포함됩니다. 

파이프라인의 출력은 시선이 리디렉션된 머리 포즈, 시선 각도 및 이미지입니다. 시선 추정 전용 모드에서 파이프라인을 사용할 수도 있으며 이 모드에서는 사례 리디렉션이 꺼져 있습니다. 

림 4. NVIDIA Eye Contact 파이프라인 다이어그램

이 기술은 사용자의 시선을 전방 및 중앙으로 리디렉션합니다. 경험을 자연스럽게 유지하기 위해 알고리즘은 원래의 눈 시선이 중앙에서 멀어짐에 따라 리디렉션 효과를 줄입니다. 머리가 미리 결정된 임계값을 넘어 회전해 자연스러운 리디렉션이 실현 불가능한 경우에도 리디렉션이 해제됩니다. 

NVIDIA Maxine Eye Contact 모델 아키텍처

그림 5. NVIDIA Maxine Eye Contact 기능 모델 아키텍처 다이어그램

아이 컨택트 네트워크의 아키텍처는 변화하는 인코더 및 디코더 구조로 구성됩니다. 인코더는 이미지 콘텐츠를 다음 요소의 잠재적 표현으로 인코딩합니다. 

  • 환경 조명, 쉐도우, 화이트 밸런스, 색조 및 흐림 등 대상과 관련되지 않은 요인.
  • 피부 색, 얼굴 및 눈 모양, 안경 및 눈 시선과 같은 대상 관련 요인.
  • 머리 포즈. 

또한 인코더는 1차원 또는 2차원 회전 각도로 부호화된 이러한 각 잠재 요인(zi)의 ‘상태’(Ri)를 예측합니다. 

디자인에서 개별 잠재 요소에 적용된 회전은 이미지의 외관에서 해당하는 단조로운 변경에 영향을 줍니다. 예를 들어 시선을 변경하려면 시선과 관련된 잠재 요소를 변경해야 합니다. 그런 다음 모든 내부 표현(원본 및 변환된 표현)을 디코더 네트워크에 입력하여 최종적으로 리디렉션된 눈 이미지를 만듭니다. 

NVIDIA의 알고리즘은 시선 리디렉션의 정확도, 다른 요인과의 시선 구분 및 지각 이미지 품질 측면에서 기존의 최첨단 접근 방식과 비교할 때 추론 시간 단점에 비해 최상의 정확도를 제공합니다.

눈 색 유지

눈 색을 유지하는 것은 모든 시선 리디렉션 알고리즘의 주요 과제 중 하나입니다. NVIDIA의 아이 컨택트 네트워크는 약 4백만 개의 이미지로 구성된 대규모의 다양한 데이터세트에서 트레이닝되었습니다. 약 25%가 눈 색과 모양에 다양성을 더하기 위해 합성적으로 생성됩니다.

또한 네트워크는 눈의 정확한 리디렉션에 기여하는 여러 손실 함수를 사용하여 트레이닝됩니다. 리디렉션에 사용된 눈에 띄는 손실 함수는 다음과 같습니다. 

  • 재구성 손실: 생성된 이미지와 대상 이미지 사이에서 픽셀 단위의 L1 재구성 손실을 통해 리디렉션된 이미지의 생성을 안내합니다. 
  • 기능 손실: 기능 손실을 사용하여 생성된 이미지와 홍채 위치의 불일치와 같은 대상 이미지 간의 작업 관련 불일치 최소화를 우선순위로 지정합니다. 

이는 생성된 이미지와 대상 이미지의 특성 간 L2 손실을 통해 정의됩니다.

  • 분리 손실: 하위 집합을 변경할 때 리디렉션된 이미지의 다른 요인을 변경하지 않도록 개별 환경 및 물리적 요인을 분리해야 합니다. 

먼저 요소의 하위 집합을 무작위로 변환해 혼합 요소 표현을 만들어 인코딩된 요소 간의 분리를 권장합니다. 이것은 다음과 같이 공식화됩니다.

전체 분리 손실은 혼합 및 복구된 임베딩 간의 불일치는 물론 프로세스 전후의 시선과 머리 레이블 사이의 오류로 정의됩니다. 

작업 범위 설정

앞서 설명한 바와 같이, 아이 컨택트 네트워크에 대한 입력은 스케일 정규화된 아이 패치입니다. 약 20도 피치와 요각의 원뿔형에서 리디렉션이 안정적으로 이루어질 수 있고 더 자연스러운 것으로 관찰되었습니다. 이는 이 기능의 권장 작동 범위로 간주됩니다. 

다음은 아이 컨택트에 대한 성공적인 시선 리디렉션의 예입니다. 

그림 6. Maxine Eye Contact 기능의 작동 범위

전환형 드롭오프 해결

눈에는 사케이드라 불리는 빠른 매끄러운 움직임이 있는 것이 일반적이며 이는 종종 반사적입니다.

예를 들어 사케이드 중에 작동 범위를 넘어서면 시선 리디렉션이 덜 자연스럽게 보이고 중단됩니다. 

그러나 갑자기 기능을 끄면 홍채가 갑자기 움직이며, 이는 바람직하지 않습니다. 이 문제를 해결하기 위해 카메라를 바라보고 있는 눈이 실제 시선 각도로 매끄럽게 리디렉션되는 전환 영역을 도입했습니다. 

이 드롭오프는 현재 리디렉션 각도와 실제 시선 방향 사이의 그라데이션 함수로 점진적으로 수행됩니다. 이 전환의 속도는 인간 눈의 전형적인 움직임을 모방하도록 설정되었습니다. 리디렉션 각도가 추정된 시선 각도에 충분히 가까워지면 기능이 완전히 꺼집니다. 

그림 7. Maxine Eye Contact 기능의 전환 중 드롭오프

눈의 투명도 처리

깜박임, 움직임 또는 역동적인 환경으로 인해 사람의 눈이 완전히 또는 부분적으로 가려질 수 있습니다. 예를 들어 사람의 손이나 다른 물체가 카메라 시야에서 눈을 가릴 수 있습니다. 

아이 컨택트 파이프라인은 눈 깜박임을 감지하고 보존할 수 있습니다. 또한 알고리즘은 랜드마크 추정에 대한 신뢰도가 낮게 표시된 오클루젼을 감지한 후 시선 리디렉션 효과를 끕니다.

성능 최적화

파이프라인은 TensorRT를 사용하여 GPU 가속화됩니다. NVIDIA의 디자인과 구현은 NVIDIA GPU에서 프레임당 지연 시간이 5ms 미만인 실시간 추론을 수행합니다. 성능이 최적화되었으며 NVIDIA RTX 데스크톱 및 노트북 외에 데이터센터 사용 사례를 위한 여러 스트림 인스턴스의 동시 실행을 지원합니다. 

그림 8. 밀리초 단위의 지연 시간을 제공하는 NVIDIA Maxine Eye Contact GPU 성능

지금 다운로드하기

개발자용 SDK

NVIDIA Maxine Eye Contact는 Windows 및 Linux용 AR SDK에서 다운로드할 수 있습니다. SDK에는 모든 애플리케이션에 원활한 통합을 시작하기 위한 API 사용 및 샘플 앱에 대한 관련 문서가 있습니다. 이 SDK API를 통해 시간 필터링 및 눈 크기 민감도와 같은 다양한 매개변수를 제어할 수 있습니다.

개발자용 NVIDIA UCF 마이크로 서비스

NGC 레지스트리의 영상 효과 마이크로 서비스의 일부로도 사용할 수 있습니다. NVIDIA UCF를 준수하며 다른 마이크로 서비스와 결합하여 멀티모달 AI 애플리케이션을 구축할 수 있습니다.

소비자용 NVIDIA Broadcast 앱

맞춤형 애플리케이션을 구축하고 싶지 않지만 이 기능에 액세스하고 싶은 분들을 위해 이제 NVIDIA Broadcast 앱에서 이 기능을 사용할 수 있습니다. NVIDIA Broadcast 카메라를 선택하면 화상 회의 및 영상 방송 애플리케이션에서 활성화할 수 있습니다.

NVIDIA의 성장에 기여

NVIDIA가 향후 릴리스에서 이를 지속적으로 개선하는 동안 여러분은 NVIDIA Maxine 및 NVIDIA Broadcast 앱에 기여함으로써 도움을 주실 수 있습니다. 

이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.

Discuss (0)

Tags

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다