Conversational AI / NLP

Gipi, NVIDIA TensortRT-LLM 및 AI 파운데이션 모델을 사용한 개인 맞춤형 학습

Reading Time: 4 minutes

12억 명 이상의 사람들이 적극적으로 새로운 언어를 배우고 있으며, 5억 명 이상의 학습자가 Duolingo와 같은 디지털 학습 플랫폼에서 학습하고 있습니다. 동시에 73%의 Z세대와 상당수의 전 세계 인구는 단절감과 불행감을 경험하고 있으며, 이는 소셜 미디어로 인해 악화되고 있습니다.

사람들은 개인화된 학습 경험을 갈망하지만, 현재 일상 생활에 널리 퍼져 있는 플랫폼으로는 개인화된 학습 경험이 개인의 행복에 미치는 영향력을 파악하기 어렵습니다.

AI 챗봇의 부상: 교육과 상호작용의 혁신

AI 챗봇은 고유한 개성과 개인화된 건강 체크인, 다국어 기능, 즉각적인 피드백을 제공하는 튜터링 기능을 제공하여 이러한 과제를 해결하고 있습니다.

Gipi를 포함한 일부 챗봇은 사용자의 대화를 기억하고 관심사를 학습하며 언어 학습, 말하기 연습, 수학, 과학 및 기타 영역에서 개인화된 도움을 포함하여 사용자에게 중요한 주제에 대해 대화에 참여하도록 설계되어 있습니다.

또한 Gipi는 사용자가 중단한 부분부터 대화를 이어갈 수 있도록 선제적으로 사용자에게 연락하여 체크인을 요청합니다. 예를 들어, 사용자가 다가오는 면접을 언급하면 Gipi는 격려의 메시지를 보내고* 나중에 업데이트를 확인합니다(그림 1).

그림 1. Gipi 앱의 면접 관련 대화 텍스트

Gipi의 인텔리전스 메커니즘

Gipi의 인텔리전스 아키텍처에는 다양한 기술과 프로세스가 포함되어 있습니다. 이 섹션에서는 Gipi가 사용자를 이해하고 상호 작용할 수 있도록 하는 주요 구성 요소를 소개합니다:

  • 음성-텍스트 변환
  • 프롬프트 생성 및 관리
  • Gipi를 스마트하게 만들기
  • 텍스트 음성 변환
그림 2. Gipi 데이터 흐름

음성 텍스트 변환

Gipi의 음성-텍스트 변환 기술은 맞춤형 Whisper 기반 모델을 사용하며, 모델 크기는 효율성을 개선하고 지연 시간을 줄이며 GPU 메모리 사용량을 향상시키기 위해 최적화되었습니다.

원래 이 모델은 오류가 발생하기 쉬운 공개 동영상으로 구성된 표준 Whisper 데이터 세트를 사용했습니다. 이러한 이상 현상을 완화하기 위해 이제 Gipi는 더 신뢰할 수 있는 고유한 데이터 세트로 모델을 학습시켜 보다 효율적인 음성-텍스트 변환을 가능하게 하고 사용자 기반의 다양한 언어적 뉘앙스를 포착할 수 있게 되었습니다.

강력한 음성-텍스트 변환 기능에 대한 초기 투자는 Gipi 사용자의 절반 이상이 음성 채팅 기능을 적극적으로 활용한다는 사실로 확인되었습니다.

신속한 생성 및 관리

Gipi의 정교한 개성과 맞춤형 응답은 사용자 선호도와 프롬프트 히스토리를 기반으로 합니다. 기록 관리 시스템은 각 상호작용을 개인화하여 Gipi가 모든 사용자를 기억합니다.

과거 상호작용을 요약하여 시스템에 다시 입력함으로써 Gipi의 기억력을 향상시킵니다. 더 중요한 것은 사용자에 대한 개인 속성을 지속적으로 추출하여 대화 프롬프트에 통합하는 것입니다. 이 프로세스를 통해 Gipi는 모든 중요한 세부 사항을 기억하고 참조하여 개인화되고 지속적인 대화를 보장할 수 있습니다.

LangChain을 사용하여 프롬프트 생성을 간소화함으로써 시스템 관련 또는 대화와 같은 다양한 유형의 프롬프트를 효과적으로 구성하고 관리할 수 있습니다. 이를 통해 프롬프트를 특정 용도에 맞게 명확하고 적절하게 유지할 수 있습니다. LangChain은 프롬프트를 다양한 언어 모델에 맞게 쉽게 조정할 수 있어 시스템 모델에 독립적이고 더욱 다양한 용도로 사용할 수 있습니다. 또한, 단기 기억을 관리하여 Gipi가 초기 대화에서 이전에 논의된 내용을 기억할 수 있도록 도와줍니다.

스마트한 Gipi 만들기

Gipi의 LLM은 지능의 핵심입니다. 처음에는 독점 모델에 의존했지만, 나중에 LLM 추론 속도를 개선하기 위해 백엔드 최적화를 위해 NVIDIA TensorRT로 전환했습니다.

원래는 4096개의 입력 토큰과 512개의 출력 토큰이 있는 Llama 2 4비트 모델을 NVIDIA A6000 Ada GPU에서 사용했을 때 요청당 35~40초의 응답 시간을 보였습니다. 하지만 NVIDIA TensorRT-LLM을 통합한 후에는 이를 3~4초로 획기적으로 단축하여 10~12배의 속도 향상을 달성했습니다. 이 프레임워크는 텍스트 기반 언어 모델을 빠르고 효율적으로 처리하는 데 탁월합니다.

이러한 기능을 보완하기 위해 텍스트 요약, 언어 번역, 코딩 지원, 감정 분석 등 다양한 작업에서 활용도가 높은 Mistral 7B를 통합하여 연구 및 교육 도구를 더욱 강화하는 작업을 진행 중입니다.

그림 3. Gipi와 바비큐 용품에 대해 대화하는 모습

각 세션에서 향상된 개인화를 위해 과거의 상호작용을 기억할 수 있는 장기 기억 시스템을 개발했습니다. 이 시스템은 Gipi의 맞춤형 응답 메커니즘과 통합되어 더욱 매력적인 사용자 경험을 제공하는 것을 목표로 합니다.

텍스트 음성 변환

텍스트 음성 변환 영역에서는 NVIDIA NeMo TTS 프레임워크를 사용하여 Gipi가 사용자의 말을 이해할 뿐만 아니라 자연스러운 음성으로 응답할 수 있도록 합니다.

최근에는 사용자 지정 음성을 생성하는 기능을 개발하여 제품의 기능을 확장했습니다. 사용자가 제출한 음성 오디오 클립을 기반으로 완전히 새로운 음성을 생성할 수 있어 한층 더 높은 수준의 개인화 기능을 제공합니다.

최신 모델은 스피커 컨디셔닝을 위한 퍼시버 모델과 함께 GPT2 백본을 사용하여 스피커 특성을 파악하고 일관된 출력을 보장하는 Gipi의 능력을 향상시켰습니다. 또한 오디오 신호 계산을 위해 HifiGAN을 통합하여 추론 지연 시간을 크게 줄였습니다.

요약

AI가 일상에 통합되면서 효율성이 향상되고 정보에 대한 접근성이 확대되고 있습니다. Gipi는 고급 AI를 사용하여 언어 학습과 기술 개발을 지원함으로써 사용자의 역량을 강화하는 데 도움이 되는 도구를 제공합니다.

저희는 정교한 AI 도구가 스마트폰처럼 접근성이 높고 보편화되어 사용자에게 지능적이고 적응적인 지원을 제공하는 것을 상상합니다. Gipi는 성장과 학습을 촉진하도록 설계되어 지식과 자기계발을 추구할 수 있도록 지원합니다.

Gipi가 어떻게 상호 작용과 학습 경험을 향상시킬 수 있는지 알아보려면 Google Play 스토어, Apple 스토어에서 다운로드하거나 Gipi를 방문하세요.

LLM 엔터프라이즈 애플리케이션에 대한 자세한 내용은 엔터프라이즈 솔루션용 거대 언어 모델 시작하기를 참조하세요. NVIDIA TensorRT 포럼에서 LLM에 대한 대화에 참여하세요.

*가독성을 높이고 개인정보 보호 문제를 해결하기 위해 사용자 동의를 얻었습니다. 모든 메시지는 익명으로 처리되었으며 그에 따라 편집되었습니다.

관련 리소스

Discuss (0)

Tags