매년 수조 개의 PDF 파일이 생성되며, 각 파일은 텍스트, 이미지, 차트, 표 등 다양한 콘텐츠 유형으로 채워진 여러 페이지로 구성됩니다. 이 방대한 데이터는 사람이 읽고 소화할 수 있는 만큼만 빠르게 사용할 수 있는데요.
생성형 AI와 검색 증강 생성(RAG)을 사용하면 활용되지 못하는 데이터를 활용해 직원의 업무 효율을 높이고 비용을 절감할 수 있는 비즈니스 인사이트를 발견할 수 있습니다.
방대한 양의 엔터프라이즈 데이터에 포함된 지식을 정확하게 추출하고 데이터를 효과적으로 활용하여 모든 주제에 대한 전문가인 디지털 휴먼을 빠르게 구축할 수 있다고 상상해 보세요. 직원들은 더 뛰어난 의사결정을 더 빨리 내릴 수 있을 것입니다.
이 포스팅에서는 멀티모달 PDF 데이터 추출 Blueprint가 NVIDIA NeMo Retriever와 NVIDIA NIM 마이크로서비스를 결합하는 방법과 이를 위한 참조 코드 및 설명서를 살펴볼 수 있습니다.
복잡한 정보 추출의 과제 해결
PDF에는 방대한 정보들이 다양한 양식으로 표현된 문서입니다. 예를 들어, PDF에는 복잡한 정보를 전달하는 데 사용되는 텍스트, 표, 차트, 플롯, 다이어그램이 혼합되어 있을 수 있습니다. 정보 검색의 관점에서 볼 때 이러한 각 양식은 고유한 과제를 안고 있습니다.
이러한 문제를 해결하기 위한 파이프라인을 구축하기 위해 다음과 같은 NVIDIA NIM 마이크로서비스를 사용할 수 있습니다:
- PDF 인식 NIM 마이크로서비스
- nv-yolox-structured-image: PDF에서 차트, 플롯 및 표를 감지하기 위한 파인 튜닝된 개체 감지 모델입니다.
- 디플롯(Deplot): 차트 설명을 생성하기 위해 커뮤니티에서 인기 있는 pix2struct 모델입니다.
- CACHED: 그래프에서 다양한 요소를 식별하는 데 사용되는 개체 감지 모델입니다.
- PaddleOCR: 표와 차트에서 텍스트를 전사하는 광학 문자 인식(OCR) 모델입니다.
- NVIDIA NeMo Retriever NIM 마이크로서비스
- nv-embedqa-e5-v5: 텍스트 질문-답변 검색에 최적화된 인기 커뮤니티 기반 임베딩 모델입니다.
- nv-rerankqa-mistral4b-v3: 정확도 높은 질문 답변을 위해 텍스트 재랭킹을 위해 파인 튜닝된 인기 커뮤니티 기반 모델입니다.
자세한 내용은 멀티모달 검색-증강 생성에 대한 간단한 소개를 참조하세요.
PDF의 RAG를 위한 멀티모달 Retrieval Blueprint
PDF에 대한 멀티모달 검색 파이프라인 구축에는 두 가지 핵심 단계가 있습니다.
- 멀티모달 데이터가 포함된 문서를 수집합니다.
- 사용자 쿼리를 기반으로 관련 컨텍스트를 검색합니다.
멀티모달 데이터가 포함된 문서 수집
워크플로우의 전반부에서는 정보를 효과적으로 추출하여 검색에 사용할 수 있도록 합니다. 여기에는 다음 단계가 포함됩니다:
먼저 PDF를 구문 분석하여 양식(텍스트, 이미지, 차트, 표, 플롯 및 기타 다이어그램)을 분리합니다. 텍스트는 구조화된 JSON으로 파싱되고 페이지는 이미지로 파싱되어 문서의 각 페이지가 이미지로 렌더링됩니다.
다음으로 차트와 표에서 텍스트 메타데이터를 추출합니다. NIM 마이크로 서비스를 사용하여 이미지에서 정보를 정확하게 추출합니다:
- nv-yolox-structured-image: PDF에서 차트와 표를 식별합니다.
- DePlot, CACHED, PaddleOCR: 차트에서 정보를 추출합니다. DePlot은 그래프를 전사하고 CACHED는 그래프에 대한 중요한 추가 메타데이터를 추출합니다.
- PaddleOCR: 표의 읽기 순서를 유지하면서 표에서 텍스트 정보를 추출합니다.
마지막으로, 추출된 정보를 필터링하여 청킹하고 VectorStore를 생성합니다. 추출된 정보는 중복을 피하기 위해 필터링을 거치고 적절한 청크로 분류됩니다. 그런 다음 NIM 마이크로서비스를 임베딩하는 NeMo Retriever가 청크를 임베딩으로 변환하여 VectorStore에 저장합니다.
사용자 쿼리를 기반으로 관련 컨텍스트 검색
사용자가 쿼리를 제출하면 수집된 문서의 방대한 리포지토리에서 관련 정보가 검색되는데요. 이는 다음과 같은 방식으로 이루어집니다:
- NIM 마이크로서비스를 임베딩하는 NeMo Retriever는 사용자 쿼리를 임베딩하고, 이 쿼리는 VectorStore에서 벡터 유사성 검색을 사용하여 가장 관련성이 높은 청크를 검색하는 데 사용됩니다.
- NeMo Retriever 리랭크 NIM 마이크로서비스는 가장 정확하고 유용한 청크가 쿼리에 응답하는 데 사용되도록 결과를 신중하게 평가하고 다시 순위를 매기는 세분화 계층의 역할을 합니다.
- 가장 관련성이 높은 정보를 바탕으로 LLM NIM 마이크로서비스는 정보를 바탕으로 정확하고 맥락에 맞는 응답을 생성합니다.
이 워크플로우에서는 수집된 문서에서 구축된 포괄적인 지식 기반을 사용하여 사용자가 정확하고 관련성 있는 정보에 액세스함으로써 쿼리에 대한 유용한 인사이트와 답변을 제공할 수 있습니다.
비용 효율적인 엔터프라이즈급 RAG 파이프라인 구축
NIM 마이크로서비스를 사용하여 멀티모달 문서 RAG 파이프라인을 구축할 때 얻을 수 있는 두 가지 이점은 비용과 안정성입니다.
비용에는 두 가지 고려 사항이 있습니다:
- 출시 기간: NVIDIA NIM 마이크로서비스는 사용하기 쉽고 확장 가능한 모델 추론 솔루션으로 설계되어 엔터프라이즈 애플리케이션 개발자가 인프라 구축 및 확장에 시간을 소비하지 않고 애플리케이션 로직 작업에 집중할 수 있도록 지원합니다. NIM 마이크로서비스는 컨테이너화된 솔루션으로, 확장을 위해 업계 표준 API 및 Helm 차트와 함께 제공됩니다.
- 배포 비용: NIM은 NVIDIA AI 엔터프라이즈 소프트웨어의 전체 제품군을 사용하여 모델 추론을 가속화함으로써 기업이 모델에서 얻을 수 있는 가치를 극대화하고 파이프라인을 대규모로 배포하는 데 드는 비용을 절감합니다. 그림 2는 이 수집 및 추출 파이프라인 테스트에서 달성한 정확도와 처리량의 개선을 보여줍니다.
텍스트, 차트, 표로 구성된 공개적으로 사용 가능한 PDF 데이터 세트에 대한 멀티모달 PDF 검색 정확도 평가(NIM-On: nv-yolox-structured-image-v1, DePlot, CACHED, PaddleOCR, nv-embedqa-e5-v5, nv-rerankqa-mistral-4b-v3, 오픈 소스 대안 비교: 2xA100 GPU에서 NIM-Off: NIM-Off).
텍스트, 차트 및 표로 구성된 공개적으로 사용 가능한 PDF 데이터 세트에서 평가된 초당 멀티모달 PDF 수집 처리 페이지 수, NIM-On: nv-yolox-structured-image-v1, DePlot, CACHED, PaddleOCR, nv-embedqa-e5-v5, nv-rerankqa-mistral-4b-v3와 NIM-Off: 오픈 소스 대안이 멀티스레드 CPU에서 실행되는 것과 비교했습니다.
NIM 마이크로서비스는 API 안정성, 보안 패치, 품질 보증 및 AI로 비즈니스를 운영하는 기업을 위한 프로토타입에서 프로덕션으로의 원활한 전환을 지원하는 NVIDIA AI 엔터프라이즈 라이선스의 일부입니다(그림 3).
엔터프라이즈 데이터에서 인텔리전스 발견
기업이 방대한 데이터를 최대한 활용할 수 있도록 NVIDIA는 Box, Cloudera, Cohesity, DataStax, Dropbox, Nexla를 비롯한 데이터 및 스토리지 플랫폼 파트너와 협력하고 있습니다.
Cloudera
Cloudera의 엔터프라이즈 AI 제품 담당 부사장인 Priyank Patel은 “현재 테크 프리뷰로 제공되는 Cloudera AI Inference 서비스에 NVIDIA NIM 마이크로서비스가 통합되면서, 기업들은 Cloudera에서 관리하는 엑사바이트 규모의 개인 데이터를 RAG 사용 사례를 지원하는 고성능 모델과 일치시킬 수 있게 됐다”고 말했습니다.
“NVIDIA와의 협업을 통해 기업은 온프레미스, 클라우드 등 어떤 곳에서 AI를 실행하든 동급 최고의 AI 플랫폼 기능을 사용할 수 있습니다.”
Cohesity
“AI 애플리케이션을 위한 독점 데이터의 잠재력을 최대한 활용하려면 기업은 백업 및 아카이브에 저장된 방대한 양의 정보를 효율적으로 처리하고 분석해야 합니다.”라고 Cohesity의 데이터 및 AI 부문 CTO인 Greg Statton은 말합니다.
“NeMo Retriever 멀티모달 PDF 워크플로우를 통해 고객의 데이터 백업 및 아카이브에 생성형 AI 인텔리전스를 추가하여 수백만 개의 문서에서 빠르고 정확하게 가치 있는 인사이트를 추출할 수 있습니다. 이 워크플로우와 Cohesity Gaia를 함께 사용하면 고객은 복잡한 데이터 통합 문제를 해결하는 대신 혁신과 전략적 의사 결정에 집중할 수 있습니다.”
Datastax
“AI 애플리케이션을 위한 독점 기업 데이터에서 가치를 창출하려면 수백만 개의 정형 및 비정형 문서에서 지식을 수집하고 추출해야 합니다.”라고 Datastax의 최고 제품 책임자인 Ed Anuff는 말합니다.
“Datastax는 NVIDIA와 협력하여 가속 컴퓨팅의 속도와 규모를 활용하고 PDF용 NeMo Retriever 데이터 추출 워크플로우와 DataStax AstraDB 및 DataStax 하이퍼컨버지드 데이터베이스를 통해 고객이 복잡한 데이터 통합 문제 대신 혁신에 집중할 수 있도록 지원하고 있습니다.”라고 말했습니다.
Dropbox
“텍스트 검색을 넘어 표와 이미지로 확장하면 고객은 클라우드 콘텐츠 전반에서 인사이트를 얻을 수 있습니다.”라고 Dropbox의 총괄 매니저인 Manik Singh은 말합니다.
“Dropbox는 고객이 이러한 귀중한 인사이트를 발견할 수 있도록 새로운 생성형 AI 기능을 도입하는 방안을 모색하기 위한 옵션으로 NeMo Retriever 멀티모달 PDF 추출 워크플로우를 검토하고 있습니다.”
Nexla
“생성형 AI 데모를 프로덕션급 솔루션으로 확장하는 것은 기업에게 큰 과제입니다. 양사의 협력은 Nexla의 노코드/로코드 문서 ETL 플랫폼에 NVIDIA NIM을 통합함으로써 이 문제를 해결할 수 있으며, 이를 통해 Sharepoint, SFTP, S3, 네트워크 드라이브, Dropbox 등 기업 시스템의 수백만 문서에 걸쳐 멀티모달 인제스트를 확장할 수 있는 잠재력이 있습니다.”라고 Nexla의 CEO 겸 공동 창립자 Saket Saurabh는 말합니다.
“Nexla는 임베딩 생성, 모델 실행, 추론, 검색 솔루션을 포함한 전체 기능 세트에 걸쳐 클라우드 및 프라이빗 데이터센터 환경 모두에서 NIM을 지원하여 고객이 AI 로드맵을 가속화할 수 있도록 도울 것입니다.”라고 Saurabh는 말합니다.
시작하기
NVIDIA API 카탈로그의 대화형 데모를 통해 멀티모달 PDF 추출 워크플로우를 경험해 보세요. 얼리 액세스를 신청하여 오픈 소스 코드, 커스터마이징 지침, 배포를 위한 Helm 차트를 사용하여 이 워크플로우 Blueprint를 미리 살펴보세요.
전 세계 개발자들과 함께 RAG 애플리케이션을 구축하고, 기술을 향상시키고, 다양한 상품을 놓고 경쟁하는 NVIDIA 및 LlamaIndex 개발자 콘테스트에 등록하여 전 세계 개발자들과 함께하세요.
관련 리소스
GTC 세션: 개인화된 기반 모델을 통한 업무 생산성 재창조
GTC 세션: 생성형 AI 극장: 멀티모달 검색-증강 세대를 통한 비정형 엔터프라이즈 데이터의 과제 해결
NGC 컨테이너: NVIDIA 검색 QA E5 임베딩 v5
NGC 컨테이너: NVIDIA 검색 QA Mistral 7B 임베딩 v2
NGC 컨테이너: Snowflake Arctic 임베디드 대형 임베딩
SDK: NeMo Retriever