음성 AI 하이라이트: Pendulum이 온라인에서 유해한 콘텐츠를 차단하는 방법

Reading Time: 4 minutes

전 세계 인구의 55% 이상이 소셜 미디어를 사용하며 클릭 한 번으로 온라인 콘텐츠를 쉽게 공유합니다. 다른 사람들과 소통하고 재미있는 콘텐츠를 소비하는 동안, 여러분은 또한 실제 삶을 위협하는 유해한 콘텐츠도 발견할 수 있습니다.

그래서 Pendulum의 엔지니어링 부사장인 Ammar Haris는 고객이 온라인에서 생성되는 유해한 콘텐츠에 대한 깊은 인사이트를 얻을 수 있도록 회사의 AI를 활용했습니다. 여기서 유해한 콘텐츠는 허위사실로 소셜 미디어 플랫폼의 비디오, 오디오, 텍스트를 통해 산불처럼 빠르게 확산되는 경우가 많습니다.

산불의 경우와 마찬가지로, 유해한 온라인 콘텐츠는 조기 발견이 피해를 막을 수 있는 열쇠가 될 수 있습니다.

Pendulum은 최첨단 기술과 NVIDIA 전문가에 대한 액세스를 제공하여 스타트업의 발전을 돕는 NVIDIA Inception 프로그램의 멤버입니다.

사회의 안녕을 위한 음성 AI 및 NLP

2021년, Sam Clark과 Mark Listes는 고객이 유해한 콘텐츠를 식별할 수 있도록 돕는 것을 목표로 Pendulum을 설립했습니다. 이들은 자신들의 플랫폼이 음성 AI와 자연어 처리(NLP)를 적용하여 온라인 평판을 보호하고 직원을 실시간으로 안전하게 보호하는 데 도움을 줄 수 있다는 것을 알고 있었습니다.

다음 해, 엔지니어링 팀은 글로벌 사회의 안녕을 해치는 해로운 허위 사실을 탐지하고 특성화할 수 있는 AI 시스템을 개발했습니다.

Pendulum의 플랫폼은 처리해야 할 데이터의 양이 방대하지만 이전에는 발견할 수 없었던 내러티브에 마침내 접근할 수 있게 만들고 있습니다. Pendulum의 엔지니어들은 방대한 미디어를 검색하는 데 따르는 어려움을 잘 이해하고 있습니다.

“팟캐스트의 오디오는 말할 것도 없고 YouTube, BitChute, Rumble, TikTok의 동영상은 검색하기 어려웠고 맥락을 파악하기는 더욱 어려웠습니다. 그렇기 때문에 실제 로우 콘텐츠가 아닌 메타데이터만 검색되는 경우가 너무 많았습니다.”라고 Haris는 말했습니다.

허위 사실을 찾아내는 AI 엔진

데이터를 처리하는 과정은 어떻게 변했을까요? 가속화된 음성 AI와 자연어 처리(NLP)를 사용함으로써 Pendulum의 인텔리전스 익스플로러내러티브 엔진은 이제 방대한 미디어 자료에서 바늘(유해한 내러티브)을 찾아내는 스마트하고 심층적인 검색을 가능하게 합니다.

사실, 여러분은 이미 온라인에서 대규모 허위사실이 유포되었던 사례들과 이러한 허위사실이 온라인에서 어떻게 변이되는지 잘 알고 있을 것입니다. 일례로 Pendulum의 엔진은 다음과 같은 사례에 집중했습니다:

  • 유명인에 대한 허위 정보
  • 회사 직원에 대한 신체적 위협
  • 공급망 지연에 관한 음모
  • 코로나19 백신 관련 허위 정보
  • 우크라이나 전쟁에 대한 허위 정보
  • 최근 2022년 FIFA 월드컵에 해를 끼치려는 시도
그림 1. 코로나19 백신 내러티브를 보여주는 Pendulum의 대화형 대시보드

그림 1은 Pendulum이 3,360개의 동영상(조회수 3,800만 회)에서 코로나19 백신이 DNA를 변형시킨다는 거짓 내러티브를 뒷받침할 가능성이 있는 동영상을 식별했음을 보여줍니다. 이 중 1,600개의 동영상은 여전히 플랫폼에서 제공되고 있으며, 작성일 현재, 조회수는 1,600만 회에 달합니다. 허위 내러티브는 시간이 지남에 따라 조회 수에 비례하는 크기의 동그라미로 표시됩니다.

내러티브 엔진은 온라인에서 이러한 내러티브를 어떻게 감지하고 경고를 생성할까요? Pendulum은 유튜브 채널을 검색하고 분류하는 자동화된 방법을 개발했으며, 주로 자동 음성 인식(ASR)으로 전사된 텍스트를 분석하여 매일 수만 개의 동영상을 전사할 수 있습니다.

엔진은 수십억 개의 항목을 검색하고 텍스트를 샅샅이 뒤져 미디어 유형이나 소셜 미디어 플랫폼에 관계없이 대화, 연설, 팟캐스트, 토크 트랙의 형태로 데이터를 뒷받침할 수 있는 항목을 찾습니다. 그런 다음 관심 콘텐츠에 태그를 지정하여 식별된 위험이나 동향을 고객에게 알립니다.

솔루션의 기반이 되는 기술

GPU 기반 구현이 처리량을 처리할 수 없다면 ASR 처리 속도가 문제가 될 수 있습니다. 따라서 NVIDIA Riva Enterprise는 Pendulum에 적합한 솔루션이었습니다.

” 저희가 비교한 다른 클라우드 서비스보다 기록이 더 정확하면서도 더 낮은 비용으로 더 높은 처리량을 달성합니다.” Haris는 말했습니다.

Riva의 Helm 차트를 사용하여 엔지니어링 팀은 설정 중에 너무 많은 오버헤드를 처리할 필요가 없었으며 가속화된 버전의 엔진을 빠르게 불러올 수 있었습니다. Riva는 헬름 차트 구성을 통해 간소화된 온프레미스 또는 클라우드에서 ASR 서비스를 자체 호스팅할 수 있습니다.

Pendulum은 현재 Amazon Web Services(AWS)의 NVIDIA 기반 GPU 인스턴스에서 Riva Enterprise 서비스를 활용하여 빠르게 전사하고 처리할 수 있는 오디오 및 비디오 콘텐츠의 양을 확장하고 있습니다.

ASR 단계가 완료되면 Pendulum의 내러티브 엔진은 새로 전사된 텍스트 또는 다른 곳에서 수집한 텍스트에 Riva의 추가 AI 리소스를 적용합니다. 예를 들어, ASR 프로세스의 원시 출력은 일반적으로 대문자가 없는 단어의 길고 끊기지 않는 스트림입니다. 이는 실행 가능한 인텔리전스 보고서로 정제할 수 있다고 생각할 수 있는 종류의 데이터가 아닙니다.

Pendulum은 그 결과물을 고려하여 Riva의 구두점 및 대문자 AI 모델을 적용하여 무작위로 나열된 단어들을 문장으로 변환합니다. 출력은 대문자로 된 고유명사, 적절하게 배치된 쉼표, 마침표 또는 물음표로 완성됩니다.

그림 1의 예를 참조하면, Pendulum의 내러티브 검색 방법론에서는 독점적인 NLP 서브시스템이 텍스트를 추가로 처리합니다. 예를 들어, 이 엔진은 1,400만 개의 동영상 텍스트 캡션을 2억 2,500만 개의 스니펫(약 100토큰 길이의 텍스트 세그먼트)으로 분할합니다. 그 결과 ‘백신’ 및 ‘DNA’와 같은 단어를 포함하여 하나 이상의 코로나19 앵커 용어가 포함된 동영상으로 다시 필터링됩니다. 이 과정을 통해 9,200개의 동영상과 15,689개의 스니펫이 생성됩니다.

마지막으로 Pendulum은 독자적인 하이브리드 제로 샷 학습 알고리즘을 적용하여 0.74의 탐지 정밀도와 0.83의 리콜을 달성했습니다. 이 경우, 내러티브 아이디를 지원할 것으로 예측된 스니펫의 74%가 실제로 내러티브를 지원했으며, 내러티브를 지원하는 스니펫의 83%가 이 방법으로 식별되었습니다. 이는 매우 인상적인 성과입니다.

비즈니스 성장에 따른 수요를 따라잡기 위한 방법으로 Pendulum 팀은 이제 처리량과 지연 시간 요구 사항을 맞추기 위해 AWS에 멀티노드 GPU 클러스터를 배포했습니다. 이 때 이러한 까다로운 요구 사항을 달성하기 위해 성능 좋은 하드웨어 외에 필요한 것은 무엇일까요?

GPU 서버의 NVIDIA Triton 추론 서버 소프트웨어는 Pendulum의 모든 다양한 AI 모델에 대한 여러 요청을 처리합니다. Triton 추론 서버는 모델을 논리적으로 연결하여 앙상블로 묶어 GPU에서 완전히 처리할 수 있도록 지원하므로 느린 GPU-CPU 메모리 복사 함정을 피할 수 있습니다.

앞으로의 당면 과제

개발자들이 현재 지원되는 유튜브, Rumble, BitChute, 틱톡, 팟캐스트 외에도 다양한 소셜 미디어 브랜드에 대한 지원을 추가함에 따라 Pendulum 플랫폼의 기능은 더욱 확장될 예정입니다.

하지만 회사의 경영진은 엔진의 적용만으로 발견된 정보가 허위인지 진실인지 판단할 수는 없습니다. 사실 이런 복잡한 상황을 피하면서 Pendulum은 시야를 더 넓게 열고 새로운 도전을 할 수 있었습니다.

예를 들어, 동영상은 특히 감성적인 이미지와 연상시키는 음악 사운드트랙을 곁들일 때 음성보다 더 많은 의미를 가질 수 있다는 것을 누구나 알고 있습니다. 동영상에 대사가 전혀 없더라도 내러티브에 기여할 수 있습니다.

(몇 년 전 ISIS의 모집 동영상을 생각해 보세요: 많은 동영상에 대사는 거의 없었지만 특정 시청자와 소통하기 위한 자극적인 장면과 음악이 있었습니다.)

결국, 음성이 없는 경우 ASR은 트랜스크립션할 것이 없으며 내러티브는 감지되지 않습니다.

Pendulum의 기술팀은 재생 중에 음성이 튀어나와 내러티브에 혼란을 줄 수 있는 동영상 광고와 같은 방해 요소를 처리하기 위해 노력하고 있습니다. Haris는 “우리 팀의 골칫거리인 은행 동영상 광고가 한 개 있는데, 이 광고가 트랜스크립션 프로세스를 방해하고 있습니다. 아직도 해야 할 일이 남아 있다고 생각해요.”라고 전했습니다.

지금 바로 음성 AI 시작하기

여러분도 애플리케이션을 구축할 때 NVIDIA Riva를 사용해 보고 트랜스크립션 정확도, 속도, 사용 편의성 면에서 어떤 차이가 있는지 확인해 볼 수 있습니다. 다음은 시작하는 데 도움이 되는 몇 가지 리소스입니다:

자기 주도형 딥 러닝 인스티튜트 과정인 ‘고도로 정확한 음성 AI용 맞춤형 ASR 시작하기‘를 수강하고 음성 인식 파이프라인 사용자 지정 방법을 알아보세요.

이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.

Discuss (0)

Tags

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다