기업 데이터는 본질적으로 복잡합니다. 실제 비즈니스 문서는 텍스트를 넘어 표, 차트, 그래프, 이미지, 스캔된 페이지, 메타데이터가 뒤섞인 멀티모달 형태를 띠기 때문입니다. 금융 보고서의 핵심 인사이트가 표 안에 담겨 있거나, 엔지니어링 매뉴얼이 정교한 도표에 의존하고, 법률 문서에 스캔된 주석이 포함되는 사례는 현장에서 매우 흔하게 발견됩니다.
검색 증강 생성(RAG)은 거대언어모델(LLM)을 신뢰할 수 있는 기업 지식에 연결하기 위해 등장했습니다. 질의 시점에 관련 소스 데이터를 실시간으로 검색하여 환각 현상을 방지하고 정확도를 높이는 원리입니다. 하지만 RAG 시스템이 텍스트만 훑고 표나 차트에 숨겨진 핵심 정보를 놓친다면, 결국 불완전하거나 잘못된 답변을 내놓을 수밖에 없습니다.
지능형 에이전트의 완성도는 그 기반이 되는 데이터 토대에 의해 결정됩니다. 따라서 현대적인 RAG는 시각적 맥락과 텍스트를 동시에 이해하여 기업용 서비스에 걸맞은 정확도를 확보하는 본질적인 멀티모달리티를 갖춰야 합니다. NVIDIA Enterprise RAG Blueprint는 이러한 요구에 부응하도록 설계되었습니다. 이 아키텍처는 비정형 데이터와 지능형 시스템을 유기적으로 잇는 모듈형 레퍼런스 모델을 소개합니다.
또한 이 블루프린트는 NVIDIA AI Data Platform의 근간으로서 연산(Compute)과 데이터 사이의 고질적인 간극을 메우는 가교 역할을 수행합니다. 데이터 계층에 더 가까운 곳에서 검색과 추론을 실행함으로써 거버넌스를 강화하고 운영 효율을 높여줍니다. 덕분에 기업의 지식은 지능형 시스템이 즉시 활용 가능한 상태로 거듭납니다. 모델과 리포지토리가 함께 검색하고 추론하는 현대적인 AI 데이터 스택이 완성되는 셈입니다.
이 블루프린트는 NVIDIA AI 데이터 플랫폼의 핵심 레이어로서, 연산과 데이터 사이에 존재하던 고질적인 간극을 메우는 역할을 수행합니다. 데이터 계층과 인접한 지점에서 검색과 추론을 직접 실행하므로 거버넌스를 완벽히 유지하면서도 운영상 발생하던 마찰은 획기적으로 줄어듭니다. 이러한 혁신을 통해 정체되어 있던 기업 지식은 지능형 시스템이 즉각 활용 가능한 전략적 자산으로 거듭납니다. 결국 모델과 리포지토리가 한데 어우러져 스스로 검색하고 추론하는 환경, 즉 현대적인 AI 데이터 스택이 완성됩니다.
NVIDIA Enterprise RAG Blueprint는 다양한 옵션을 제공하지만, 이번 포스팅에서는 기업용 유즈케이스에서 정확도와 맥락 이해도를 직접적으로 끌어올리는 다섯 가지 설정에 대해 소개합니다.
- 기본 멀티모달 RAG 파이프라인(Baseline Multimodal RAG Pipeline)
- 추론(Reasoning)
- 질의 분해(Query Decomposition)
- 빠르고 정밀한 검색을 위한 메타데이터 필터링
- 멀티모달 데이터를 위한 시각적 추론(Visual Reasoning)
이와 더불어 기존 리포지토리를 AI 지식 시스템으로 변모시키기 위해 블루프린트를 AI 데이터 플랫폼에 임베딩하는 구체적인 방법도 함께 살펴봅니다.
본문에 수록된 모든 정확도 지표는 공신력 있는 데이터셋을 기반으로 RAGAS 프레임워크를 통해 엄격히 산출되었습니다. 여러분의 비즈니스 환경에 맞춰 NVIDIA RAG Blueprint 시스템의 성능을 직접 검증하고 평가하는 방법도 확인해 보세요.
1. 문서 수집 및 이해
지능형 에이전트가 정확한 인사이트를 제공하기 위해서는 무엇보다 기업 데이터에 완벽하게 뿌리를 내려야 합니다. 이 기초 설정은 지능적인 문서 수집과 RAG의 핵심 기능을 구현하는 데 집중합니다.
NVIDIA Enterprise RAG Blueprint는 NVIDIA NeMo Retriever를 활용하여 텍스트, 표, 차트, 그래프, 인포그래픽 등 멀티모달 콘텐츠를 추출합니다. 이렇게 추출된 정보는 벡터 데이터베이스 인덱싱을 위해 텍스트로 임베딩됩니다. 사용자가 질문을 던지면 시스템은 의미론적 검색과 리랭킹 과정을 거치며, 최종적으로 Nemotron LLM이 근거가 확실한 답변을 생성합니다.
성능 극대화를 위해 이 베이스라인 설정에서는 이미지 캡셔닝이나 복잡한 추론 과정을 의도적으로 배제했습니다. 덕분에 실제 운영 환경에 즉시 도입하기에 가장 이상적인 출발점이 됩니다. 현재 이 베이스라인은 Docker 환경에서 바로 배포할 수 있습니다.
문서 수집 및 이해의 이점
이 기초 설정은 블루프린트 내에서 가장 효율성이 높은 파이프라인으로 꼽힙니다. GPU 비용과 첫 번째 토큰 생성 시간(TTFT)을 낮게 유지하면서도, 정확도와 처리량을 최적화했기 때문입니다. 이 구성을 통해 검색 품질과 LLM의 근거 제시 능력에 대한 베이스라인을 확립할 수 있습니다.

표 1은 몇 가지 주요 데이터셋에 걸쳐 나타난 전반적인 성능 변화를 한눈에 보여줍니다.
| Accuracy (v2.3 Default) MM = Multimodal, TO = Text-Only | ||
| 데이터셋 | 유형 | 정확도 |
| RAG Battle | MM | 0.809 |
| KG RAG | MM | 0.565 |
| FinanceBench | MM | 0.633 |
| BO767 | MM | 0.910 |
| HotpotQA | TO | 0.671 |
| Google Frames | MM | 0.509 |
표 1. 베이스라인 설정에 따른 정확도 영향 (수치가 높을수록 우수)
2. 추론
RAG 블루프린트에서 추론 기능을 활성화하면, LLM은 검색된 증거를 직접 해석하고 논리적으로 근거가 확실한 답변을 합성할 수 있습니다. 이는 다양한 애플리케이션에서 정확도를 높이기 위해 적용할 수 있는 가장 손쉬운 방법입니다. NVIDIA Enterprise RAG Blueprint에서 추론 기능을 활성화해 보시기 바랍니다.
표 2]는 몇 가지 샘플 데이터셋에 걸쳐 나타난 전반적인 성능 변화를 요약한 결과입니다.
| Accuracy (v2.3 Default) plus Reasoning MM = Multimodal, TO = Text-Only | |||
| 데이터셋 | 유형 | 추론 활성화 | 기본 설정 |
| RAG Battle | MM | 0.85 | 0.809 |
| KG RAG | MM | 0.58 | 0.565 |
| FinanceBench | MM | 0.69 | 0.633 |
| BO767 | MM | 0.88 | 0.91 |
표 2. 추론 활성화 시 베이스라인 대비 정확도 변화 (수치가 높을수록 우수)
추론 기능의 이점
수학적 연산이나 복잡한 데이터 비교가 필요한 작업에서는 일반적인 유사도 검색이나 하이브리드 검색만으로 한계가 있습니다. 검색 결과의 오류를 바로잡고 맥락을 정밀하게 파악하려면 반드시 추론 과정이 동반되어야 하기 때문입니다. 실제로 다양한 데이터셋을 대상으로 테스트한 결과, 평균 5%가량의 정확도 향상을 확인했습니다. 특히 일부 사례에서는 추론 기능을 통해 정답을 찾아가는 과정에서 비약적인 교정 효과를 거두기도 했습니다.
사례
FinanceBench 데이터셋의 경우, 기본 설정에서는 Adobe의 2017 회계연도 영업활동현금흐름 비율을 2.91로 잘못 계산했습니다. 추론 기능을 활성화한 후, 모델은 0.83이라는 정확한 답변을 산출했습니다. 또한 Ragbattle 데이터셋은 VLM 활성화를 통한 정확도 향상 효과를 잘 보여줍니다.
3. 질의 분해
복잡한 질문에 답하기 위해서는 데이터 기반 내 여러 곳에 흩어진 정보를 취합해야 하는 경우가 많습니다. 이때 질의 분해 기술은 하나의 질문을 여러 개의 소질의로 세분화하여 각각의 근거를 검색한 뒤, 이를 다시 결합해 완벽하고 논리적인 답변을 도출해 냅니다. NVIDIA Enterprise RAG Blueprint에서 질의 분해 기능을 활성화하여 그 성능을 직접 확인해 보세요.

질의 분해의 이점
질의 분해는 여러 단락이나 문서에 걸쳐 있는 멀티홉(Multihop) 질문 및 맥락이 복잡한 질문의 정확도를 대폭 향상시킵니다. 추가적인 LLM 호출이 발생하여 지연 시간과 비용이 늘어날 수 있지만, 주요 업무용 기업 활용 사례에서는 그만큼의 가치가 충분한 정확도 향상을 기대할 수 있습니다. 또한 필요한 경우 질의 분해를 추론 기능과 결합하여 한층 더 높은 성능 개선을 이끌어낼 수도 있습니다.
사례
NVIDIA AI Data Platform 파트너들이 더욱 정밀하고 관련성 높은 검색 서비스를 제공함에 따라, 이 기능은 데이터 플랫폼 내의 쿼리 처리 과정에 포함되거나 에이전트의 역할로 위임될 수 있습니다. 특정 유즈케이스에서 질의 분해를 어떻게 전략적으로 활용할 수 있는지 자세히 알아보세요.
표 3은 몇 가지 데이터셋 전반에 걸쳐 나타난 실질적인 영향력을 요약하여 보여줍니다.
| Accuracy (v2.3 Default) plus Query Decomposition MM = Multimodal, TO = Text-Only | |||
| Dataset | Type | Query decomposition | Default |
| RAG Battle | MM | 0.854 | 0.809 |
| FinanceBench | MM | 0.631 | 0.633 |
| BO767 | MM | 0.885 | 0.91 |
| HotpotQA | TO | 0.725 | 0.671 |
| Google Frames | MM | 0.6 | 0.5094 |
표 3. 질의 분해 적용 시 베이스라인 대비 정확도 변화 (수치가 높을수록 우수)
4. 빠르고 정밀한 검색을 위한 메타데이터 필터링
작성자, 날짜, 카테고리, 보안 태그와 같은 메타데이터는 기업 데이터의 핵심적인 구성 요소입니다. RAG 파이프라인에서 메타데이터 필터를 활용하면 검색 범위를 효과적으로 좁힐 수 있으며, 검색된 콘텐츠를 적절한 맥락에 일치시켜 검색의 정밀도와 속도를 대폭 향상할 수 있습니다.
본 RAG 블루프린트는 사용자 정의 메타데이터 수집과 해당 데이터를 기반으로 한 자동 쿼리 생성을 지원합니다. 커스텀 메타데이터를 활용하는 상세 방법은 자연어 생성을 통한 고급 메타데이터 필터링 가이드를 참조하시기 바랍니다. 또한, NVIDIA-AI-Blueprints/rag GitHub 리포지토리의 예제 노트북을 통해 이 기능으로 구현 가능한 구체적인 시나리오를 확인하실 수 있습니다.
메타데이터 필터링의 이점
메타데이터 필터링은 검색 범위를 압축해 응답 속도를 높이는 동시에, 검색 콘텐츠와 맥락의 정렬을 최적화하여 정확도를 개선합니다. 개발자는 수동으로 필터 로직을 짜는 번거로움 없이도 메타데이터를 활용해 높은 처리량과 맥락적 관련성을 확보할 수 있습니다. 특히 메타데이터 필터링 기능이 AI 데이터 플랫폼에 직접 내장될 경우, 저장 자체가 더욱 지능화되어 검색 속도 향상과 지연 시간 단축이라는 직접적인 효과로 이어집니다.
사례
이해를 돕기 위해, 다음과 같은 메타데이터와 함께 수집된 두 개의 문서를 예로 들어보겠습니다.
custom_metadata = [
{
"filename": "ai_guide.pdf",
"metadata": {
"category": "AI",
"priority": 8,
"rating": 4.5,
"tags": ["machine-learning", "neural-networks"],
"created_date": "2024-01-15T10:30:00"
}
},
{
"filename": "engineering_manual.pdf",
"metadata": {
"category": "engineering",
"priority": 5,
"rating": 3.8,
"tags": ["hardware", "design"],
"created_date": "2023-12-20T14:00:00"
}
}
동적 필터링 표현식을 지원하는 메타데이터를 활용할 경우, “2024년 1월 이후 작성된 머신러닝 태그가 포함된 고평점 AI 문서를 보여줘”와 같은 질의는 다음과 같은 필터링 표현식으로 자동 변환됩니다.
filter_expression = `content_metadata["category"] == "AI" and content_metadata["rating"] >= 4.0 and
array_contains(content_metadata["tags"], "machine-learning") and content_metadata["created_date"] >= "2024-01-01”`
메타데이터 필터링을 활성화한 결과, 시스템은 단일 문서(ai_guide.pdf) 내에서 10개의 핵심 인용구를 정확히 찾아냈습니다. 이는 검색 범위를 50% 줄이면서도 타겟 도메인에서 100%의 정밀도를 달성한 성과입니다.
5. 멀티모달 데이터를 위한 시각적 추론
기업용 데이터는 시각적 정보가 매우 풍부합니다. 기존의 텍스트 전용 임베딩이 한계를 보이는 지점에서, NVIDIA Nemotron Nano 2 VL (12B)과 같은 시각 언어 모델(VLM)은 파이프라인에 시각적 추론 능력을 부여합니다. RAG 블루프린트에서 VLM을 활용해 답변 생성을 최적화하는 구체적인 방법도 함께 확인해 보시기 바랍니다.

시각적 추론의 이점
시각적 추론은 실제 기업용 문서를 처리하는 데 있어 필수적인 기능입니다. 생성 경로에 VLM을 통합하면 RAG 시스템이 이미지, 차트, 인포그래픽을 직접 해석할 수 있게 됩니다. 이를 통해 단순히 주변 텍스트에 의존하는 것이 아니라, 구조화된 시각 요소 안에 담긴 핵심 정보를 바탕으로 정확한 답변을 도출할 수 있습니다.
사례
RAG 블루프린트에서 Ragbattle 데이터셋을 대상으로 VLM을 활성화했을 때, 특히 정답이 시각적 요소에 포함된 경우 정확도가 비약적으로 향상되는 것이 확인되었습니다. 다만, VLM 추론을 활성화하면 추가적인 이미지 처리 과정으로 인해 응답 지연 시간(Latency)이 늘어날 수 있다는 점에 유의해야 합니다. 따라서 비즈니스 요구사항에 맞춰 정확도와 처리 속도 사이의 균형점을 신중히 고려하시기 바랍니다. Ragbattle 데이터셋을 활용한 VLM의 구체적인 성능 개선 수치는 관련 문서를 통해 더 자세히 확인하실 수 있습니다.
기업용 저장소를 능동적인 지식 시스템으로 전환
엔터프라이즈 RAG 블루프린트는 추론 기능부터 메타데이터 기반 검색, 멀티모달 이해에 이르는 5가지 핵심 역량을 단계적으로 도입함으로써 지능형 에이전트의 정확도와 답변의 근거를 어떻게 직접적으로 향상시키는지 보여줍니다. 각 기능은 지연 시간, 토큰 비용, 맥락적 정밀도 사이에서 고유한 균형점을 제공하며, 기업의 다양한 유즈케이스에 맞춰 유연하게 조정 가능한 프레임워크를 제시합니다.
이는 데이터 파운데이션 자체의 진화를 가속화합니다. NVIDIA AI 데이터 플랫폼은 기업의 방대한 데이터를 AI가 즉시 탐색 가능한 살아있는 지식으로 탈바꿈시킵니다. NVIDIA 파트너사들이 스토리지 솔루션을 고도화함에 따라, 본 블루프린트는 메타데이터를 활용한 권한 관리, 변경 사항 추적, 그리고 스토리지 계층에서의 고정밀 검색을 구현하는 표준 레퍼런스가 될 것입니다.
현재 NVIDIA 스토리지 파트너들은 이 레퍼런스 디자인을 바탕으로 단순한 ‘수동적 저장소’를 넘어 AI 워크플로우 내에서 ‘능동적인 지능형 시스템’으로 작동하는 AI 데이터 플랫폼을 구축하고 있습니다. 그 결과, 생성형 AI 시대에 걸맞게 더 빠르고 스마트하며 목적에 최적화된 차세대 기업용 데이터 인프라가 완성될 것입니다.
NVIDIA Enterprise RAG Blueprint의 새로운 변화
NVIDIA Enterprise RAG Blueprint 최신 버전은 에이전트 중심의 워크플로우 지원에 역량을 집중했습니다. 우선, 문서 단위 요약 기능을 정식 도입하여 ‘Shallow’ 및 ‘Deep’ 두 가지 전략을 제공합니다. 이를 통해 에이전트는 문서의 관련성을 신속히 판단하고 검색 범위를 좁혀, 정확도와 지연 시간 사이의 최적의 균형을 찾을 수 있습니다. 또한, 방대한 데이터 코퍼스 전반의 가시성과 거버넌스를 강화하는 새로운 데이터 카탈로그가 추가되었습니다. 여기에 업계 최고 수준의 Nemotron RAG 모델 업그레이드까지 더해져 검색 품질, 추론, 답변 생성 성능이 한 차원 높아졌습니다. 결과적으로 RAG는 기업 규모의 지식 시스템을 위한 더욱 효율적이고 에이전트 친화적인 파운데이션으로 진화했습니다.
기업용 RAG, 지금 시작하세요
앞서 살펴본 다섯 가지 핵심 역량을 귀사의 RAG 유즈케이스에 통합할 준비가 되셨나요? NVIDIA Enterprise RAG Blueprint에서 제공하는 모듈형 코드, 기술 문서, 평가용 노트를 무료로 이용해 보시기 바랍니다.
NVIDIA AI 데이터 플랫폼은 기업의 실무 데이터를 AI가 즉시 활용 가능한 지능형 지식 시스템으로 전환합니다. 지금 바로 NVIDIA AI 스토리지 파트너에 문의하여 귀사만의 전용 AI 데이터 플랫폼 구축을 시작해 보세요.