Generative AI

NVIDIA NeMo Retriever로 RAG를 위한 프로덕션급 텍스트 검색 파이프라인 개발

Reading Time: 4 minutes

기업들은 효율성을 개선하고 비용을 절감하며 궁극적으로 생산성을 높이는 데 활용되기를 기다리는 데이터의 금광에 앉아 있습니다. 개발자는 생성형 AI를 통해 에이전트 플로우 또는 검색 증강 생성(RAG) 챗봇을 구축 및 배포하는 동시에 가장 정확한 최신 정보를 기반으로 인사이트를 제공할 수 있습니다.

이러한 솔루션을 구축하려면 검색 파이프라인의 모델에서 높은 정확도가 필요할 뿐만 아니라 이러한 모델을 비용 효율적이고 안정적으로 배포하는 데 필요한 인프라도 필요합니다. NVIDIA의 NIM 추론 마이크로서비스 컬렉션인 NeMo Retriever는 텍스트 임베딩 및 재랭킹을 위한 이러한 솔루션을 가능하게 합니다. NeMo Retriever는 어디서나 거대 언어 모델(LLM), 멀티모달, 비전 및 음성 AI를 포함한 맞춤형 생성형 AI를 개발하는 데 사용되는 NeMo 플랫폼의 일부입니다. NVIDIA는 새로운 커뮤니티 기반 NeMo Retriever NIM 4종을 출시했습니다.

  • 세 가지 NeMo Retriever 임베딩 NIM:
    • NV-EmbedQA-E5-v5: 텍스트 질문-답변 검색에 최적화된 임베딩 모델.
    • NV-EmbedQA-Mistral7B-v2: 텍스트 임베딩과 정확한 질문 답변을 위해 미세 조정된 다국어 모델.
    • Snowflake-Arctic-Embed-L: 텍스트 임베딩에 최적화된 모델.
  • 하나의 NeMo Retriever Reranking NIM:
    • NV-RerankQA-Mistral4B-v3: 텍스트 재랭크와 정확한 질문 답변을 위해 파인 튜닝된 모델.

정보 검색 파이프라인의 작동 방식 이해하기

모델에 대해 자세히 알아보기 전에 검색 파이프라인에서 모델을 임베딩하고 순위를 재조정하는 기능을 이해해 보겠습니다(그림 1).

그림 1. 엔터프라이즈급 검색 파이프라인을 구축하기 위해 NIM을 임베딩하고 재랭크하는 NeMo Retriever를 보여주는 일반적인 아키텍처

임베딩 모델

문서를 수집하는 동안 임베딩 모델은 의미론적 의미를 인코딩하는 텍스트의 벡터 표현을 생성하는 데 사용됩니다. 그런 다음 이러한 벡터는 벡터 데이터베이스에 저장됩니다. 사용자가 질문을 하면 이 질문은 동일한 임베딩 모델을 사용하여 벡터로 인코딩됩니다. 그런 다음 이 벡터를 벡터 데이터베이스에 저장된 벡터와 대조하여 ‘가장 가까운 이웃’ 검색과 같은 휴리스틱 메트릭을 사용하여 가장 관련성이 높은 정보를 검색하는 데 사용됩니다.

재랭크 모델

재랭크 모델은 문서와 질문에서 텍스트 청크를 가져와서 둘을 결합한 표현을 만든 다음 두 텍스트의 관련성을 점수화합니다.

임베딩 모델과 휴리스틱 메트릭 및 재랭크 모델은 모두 기본적으로 두 정보가 얼마나 유사한지 점수를 매기는 동일한 작업을 수행합니다. 이러한 중복성을 고려할 때, 왜 두 가지를 모두 사용해야 하는지 의문을 가질 수 있습니다. 또는 어떤 모델을 사용하는 것이 더 좋을까요?

이러한 질문에 대한 답은 근본적인 트레이드오프에 있습니다. 임베딩 모델은 리랭크 모델보다 훨씬 빠르고 저렴하지만, 리랭크 모델이 훨씬 더 정확합니다.

두 모델의 장점을 최대한 활용하기 위해 더 가볍고 저렴한 임베딩 모델을 사용하여 사용자의 질문과 관련된 작은 청크 풀(예: 100개)을 식별합니다. 그런 다음 가장 관련성이 높은 청크를 식별하기 위해 더 무겁지만 더 정확한 재랭크 모델을 사용합니다. 여러 검색 파이프라인을 사용하여 각 소스(웹, 로컬 PDF 파일, 구조화된 데이터베이스 등)에서 가장 관련성이 높은 상위 5개의 정보를 추출하는 경우, 재랭크 모델은 주어진 풀에서 가장 적합한 정보 조각을 좁히는 데 사용됩니다.

NeMo Retriever NIM: 완벽한 검색 솔루션

엔터프라이즈급 모델 추론 파이프라인을 구축할 때는 비용과 안정성이라는 두 가지 주요 고려 사항이 있습니다. NeMo Retriever NIM이 이 두 가지를 어떻게 해결하는지 살펴보겠습니다.

비용

비용은 시장 출시 기간과 모델 운영 비용의 영향을 받습니다.

출시 기간: NIM은 사용하기 쉽고 확장 가능한 모델 추론 솔루션으로 설계되어 엔터프라이즈 애플리케이션 개발자가 인프라 구축 및 확장에 시간을 소비하지 않고 애플리케이션 로직 작업에 집중할 수 있도록 해줍니다. NIM은 컨테이너화된 솔루션으로, 확장을 위해 업계 표준 API 및 Helm 차트와 함께 제공됩니다.

활용도 극대화: NIM은 NVIDIA AI 엔터프라이즈 소프트웨어의 전체 제품군을 사용하여 모델 추론을 가속화함으로써 기업이 모델에서 얻을 수 있는 가치를 극대화하고 파이프라인을 대규모로 배포하는 데 드는 비용을 절감합니다.

안정성

NIM은 API 안정성, 보안 패치, 품질 보증, 프로토타입에서 프로덕션으로의 원활한 전환을 위한 지원을 제공하는 NVIDIA AI 엔터프라이즈 라이선스의 일부로, AI를 기반으로 비즈니스를 운영하는 기업을 위해 제공됩니다.

그림 2. NVIDIA NIM 추론 마이크로서비스에 포함된 항목과 제공되는 이점을 보여주는 다이어그램

검색 파이프라인을 위한 NIM 선택하기

검색 파이프라인을 설계할 때 정확도, 지연 시간, 데이터 수집 처리량, 프로덕션 처리량 등 네 가지 요소의 균형을 맞춰야 합니다. 개발자는 NIM 제품군을 통해 위의 고려 사항을 균형 있게 조정하여 워크로드에 가장 적합한 파이프라인을 구축할 수 있습니다. 다음은 세 가지 일반적인 권장 사항입니다:

처리량 최대화 및 지연 시간 최소화

처리량을 최대화하기 위한 권장 경로는 최적화되고 미세 조정된 경량 임베딩 모델에 대한 추론이 가능한 NV-EmbedQA-E5-v5 NIM을 사용하는 것입니다.

저용량, 저속 데이터베이스에 최적화

저용량 및 저속 데이터베이스에는 많은 사용자가 자주 참조하는 중요한 문서가 포함되는 경향이 있습니다. 이러한 경우, 짧은 지연 시간을 유지하면서 처리량과 정확도를 극대화하기 위해 수집 및 프로덕션 사례 모두에 NV-EmbedQA-Mistral7B-v2 NIM을 사용하는 것이 좋습니다.

대용량 및 고속 데이터에 최적화

대용량 및 고속 데이터는 정확도를 극대화하면서 수집 비용을 최소화하기 위한 고려 사항이 필요합니다. 이는 경량 임베딩 모델을 사용해 데이터를 색인한 다음 재랭커를 사용해 검색 정확도를 높임으로써 달성할 수 있습니다. 재랭크를 위해 NV-EmbedQA-E5-v5 NIM을 사용하여 NV-RerankQA-Mistral-4B-v3와 페어링된 문서를 수집하는 것이 좋습니다.

그림 3과 그림 4에는 NeMo Retriever NIM의 처리량과 정확도에 대한 자세한 정보가 나와 있습니다. 아래의 정확도 수치는 일반적인 엔터프라이즈 검색 사용 사례를 잘 보여주는 몇 가지 학술 벤치마크를 보여주지만, 모든 데이터 세트에는 고유한 뉘앙스가 있기 때문에 모든 NIM을 평가하는 것이 좋습니다.

검색 파이프라인을 평가하기 위한 모범 사례에 대해 자세히 알아보려면 이 도움말을 참조하세요.

그림 3. NeMo Retriever NIM을 사용하면 임베딩 성능이 2배, 리랭크 성능이 1.75배 향상됩니다.
그림 4. NQ, HotpotQA, FiQA, TechQA와 같은 인기 있는 벤치마크 데이터 세트에서 향상된 정확도를 보여주는 NeMo Retriever NIM 파이프라인의 성능(Recall @5)

시작하기

호스팅 환경의 API 카탈로그에서 지금 바로 NVIDIA NeMo Retriever NIM을 경험해 보세요. 샘플 애플리케이션을 작성하기 위해 NVIDIA NIM을 통합하는 방법을 보여주는 NVIDIA 생성형 AI 예시를 살펴보세요. NVIDIA LaunchPad에서 RAG 워크플로우가 포함된 AI 챗봇을 사용해 볼 수 있는 랩을 신청하세요. NIM을 사용자 정의하고 다운로드하여 데이터가 있는 모든 곳에 배포하세요.

관련 리소스

GTC 세션: 검색 증강 생성형: 디자인 시스템, 데이터 및 커스터마이징 개요
GTC 세션: RAG 애플리케이션 배포를 위한 3가지 기술
GTC 세션: GPU 가속 검색 증강형 생성(RAG) 파이프라인 구축하기
NGC 컨테이너: NVIDIA 검색 QA E5 임베딩 v5
SDK: NeMo Retriever
웨비나: 퀀트 금융을 위한 생성형 AI

Discuss (0)

Tags