거대 언어 모델(LLM)을 복잡한 문제 해결에 적용하는 데 있어 에이전트는 핵심적인 역할을 해왔습니다. 2023년 AutoGPT를 시작으로, 다양한 산업에서 신뢰할 수 있는 에이전트를 구축하기 위한 여러 기술이 개발되었습니다. 에이전틱 추론(agentic reasoning)과 AI 추론 모델에 대한 논의는 이러한 애플리케이션을 설계할 때 고려해야 할 복잡한 요소를 더합니다. 하지만 이 기술이 빠르게 발전하면서, 수많은 설계 및 기술적 선택지 가운데 어떤 것을 골라야 할지 판단하기 어려워 개발자들이 새로운 에이전트를 만들기 쉽지 않은 상황입니다.
이러한 의사결정을 조금 더 쉽게 돕기 위해, 이 글에서는 다음과 같은 주요 주제를 다룹니다.
- LLM 에이전트란 무엇이며, 어떤 구조적 패턴들을 고려해야 할까?
- LLM의 추론 방식과 테스트 시점에서의 확장성은 어떻게 작동할까?
- 고려해야 할 다양한 추론 유형에는 무엇이 있을까?
LLM 에이전트란 무엇인가?
LLM 에이전트는 복잡한 문제를 해결하기 위해 LLM을 활용해 문제를 분석하고, 계획을 수립하며, 도구나 API를 사용해 작업을 수행하는 시스템입니다. 이 방식은 스마트 챗봇, 자동 코드 생성, 워크플로우 자동화 등 생성형 AI 활용 사례에 매우 적합합니다. LLM 에이전트는 더 넓은 범주의 AI 에이전트 중 일부일 뿐이며, 에이전틱 AI라는 용어는 컴퓨터 비전 모델, 음성 모델, 강화 학습 등으로 구동되는 다양한 형태의 에이전트를 포함합니다. 이러한 에이전트는 고객 상담용 챗봇부터 복잡한 엔터프라이즈 프로세스 자동화, 자율주행차에 이르기까지 광범위하게 사용됩니다.
LLM 에이전트의 활용 분야는 실행 방식에 따라 크게 챗봇과 워크플로우로 나눌 수 있습니다. 에이전트가 처음이라면, 이 글을 통해 개념을 이해하고 직접 첫 에이전트를 만들어보며 배울 수 있습니다.
워크플로우
로보틱스 프로세스 자동화(RPA) 파이프라인은 전통적으로 데이터 입력, 청구 처리, 고객 관리(CRM) 등 기계적인 작업을 자동화하는 데 사용되어 왔습니다. 이러한 파이프라인은 보통 오프라인 배치 작업을 처리하도록 설계되어 있으며, 백그라운드에서 반복적인 태스크를 해결하는 데 초점을 맞춥니다.
기존의 RPA 파이프라인은 엄격한 규칙과 휴리스틱 기반 프로세스를 중심으로 설계되어 있어 활용 범위가 제한되고 확장성에서도 문제가 생기기 쉽습니다.
LLM을 활용하면, 이러한 에이전트 파이프라인에 복잡한 의사결정을 내릴 수 있는 유연성을 더하고, 문제 해결에 필요한 적절한 도구를 실행할 수 있게 만들어 유연성을 확보할 수 있습니다.
LLM 에이전트가 RPA 파이프라인을 혁신적으로 바꿀 수 있는 대표적인 사례로는 보험 및 의료 분야의 청구 처리 업무가 있습니다. 기존 RPA 파이프라인이 정형화된 데이터 구조에만 대응할 수 있는 반면, LLM 에이전트는 고객이 업로드한 다양한 문서 형식의 비정형 데이터를 명시적인 코딩 없이도 처리할 수 있습니다.
또한, 이 에이전트는 청구 내용을 기반으로 유동적인 워크플로우를 적용하고, 잠재적인 보험 사기를 식별하며, 규제 변화에 따라 의사결정 방식을 조정하거나, 복잡한 청구 시나리오를 분석해 정책과 과거 데이터를 바탕으로 적절한 조치를 제안할 수 있습니다.
워크플로우 기반의 활용에서는 복잡한 작업을 여러 개의 하위 경로로 나눈 후, 비즈니스 로직에 따라 정의된 파이프라인 안에서 에이전트가 동작합니다. 이 경우, LLM은 각 하위 작업의 모호함을 해결하는 데 사용되며, 전체 작업의 흐름은 사전에 정해져 있습니다.

그림 1은 배포된 컨테이너에서 취약점을 탐지하는 데 도움이 되는 CVE 분석 워크플로우 예시를 보여줍니다. 이 파이프라인은 명확하게 정의되어 있으며, 구체적인 하위 작업들로 구성되어 있습니다.
챗봇
에이전트의 또 다른 활용 사례는 AI 챗봇입니다. 이들은 응답 지연 시간과 해결해야 하는 작업의 성격에 따라 다음과 같이 분류됩니다.
- 탐색형 에이전트(Exploratory agents)
- 보조형 에이전트(Assistive agents)
탐색형 에이전트는 일반적으로 복잡하고 여러 단계를 거쳐야 하는 문제를 해결하기 위해 만들어지며, 처리 시간이 다소 소요됩니다. 이 유형의 에이전트는 사용자가 작업을 전달하고 그에 대한 완전한 해답을 기대하는 독립적인 에이전트라고 볼 수 있습니다.
대표적인 예로는 OpenAI와 Perplexity가 제공하는 Deep Research(그림 2)가 있습니다. 이러한 에이전트는 복잡한 다단계 문제를 추론하며 최종적인 해답을 도출하려 시도합니다. 이런 경우 사용자들은 반복적인 상호작용을 기대하지 않으며, 대신 에이전트가 스스로 과제를 완결적으로 수행하길 바랍니다. 사용자들은 다소 느린 응답 시간은 감수할 수 있지만, 복잡한 과제를 철저히 해결해 주길 기대합니다.

보조형 에이전트는 기본적으로 사람의 참여를 전제로 한 협업 환경에서 작동합니다. 사용자들이 의사결정 과정에 직접 관여해 결과를 검토하고 검증하는 구조입니다. 이 에이전트는 일반적으로 하나의 목적에 맞게 구성된 소수의 도구를 중심으로 설계됩니다.
예를 들어, 문서 작성 보조 도구, 개인 AI 비서, 세금 신고 도우미 등이 이에 해당합니다. 이러한 에이전트는 낮은 지연 시간을 목표로 설계되며, 비교적 단순하고 반복적인 작업을 대신 수행함으로써 사용자가 보다 복잡한 전체 솔루션의 설계에 집중할 수 있도록 돕습니다.

이러한 모든 에이전트에 공통적으로 요구되는 것은, 문제를 해결하기 위해 도구를 활용해 추론하고 계획을 수립하는 능력입니다(그림 3).
그렇다면 자연스럽게 떠오르는 다음 질문은 “LLM의 추론은 어떻게 작동하는가?”입니다.
LLM 추론이란 무엇이며, AI 에이전트에 어떻게 적용되는가?
옥스퍼드 사전은 ‘추론’을 “어떤 사안에 대해 논리적이고 이성적으로 사고하는 행위”라고 정의합니다. 이는 LLM을 활용한 추론의 개념을 설명하기에 매우 적절한 정의입니다.
최근 몇 년 사이, Plan and Execute, LLM compiler, Language Agent Tree Search와 같은 다양한 추론 프레임워크뿐 아니라, DeepSeek-R1과 같은 추론 특화 모델이 등장해 왔습니다. 이제 중요한 질문은, 이러한 발전들을 어떻게 맥락 속에서 이해하고 전체적인 흐름을 파악할 수 있느냐는 것입니다.
이를 위해 추론은 다음과 같은 범주로 나누어볼 수 있습니다.
- 장기적 사고(Long thinking)
- 최적의 해답을 찾기 위한 탐색(Search for the best solution)
- 사고-비판-개선(Think-Critique-Improve) 방식

이 세 가지 기법 모두 테스트 시점의 연산량을 확장함으로써, 즉 더 많은 토큰을 생성해 응답의 품질을 높이고 더 복잡한 문제를 해결할 수 있도록 하는 방식으로 작동합니다.
이러한 기법들은 상호 보완적이며 다양한 문제 영역에 적용될 수 있지만, 설계 방식의 차이로 인해 각기 다른 과제를 해결하는 데 유리합니다.
AI 모델이 더 오래 사고하도록 유도하기
가장 단순한 형태의 이 추론 방식은 체인 오브 소트(Chain of Thought)입니다. 모델이 최종 답변을 생성하기 전에 단계별로 사고하도록 유도하는 방식입니다.
이 방식의 확장된 형태가 바로 ReAct 에이전트 프레임워크입니다. ReAct는 추론과 행동을 결합해 다단계 의사결정을 수행합니다. 추론의 흐름을 생성하는 과정은 복잡한 문제를 더 작고 관리 가능한 작업 단위로 나누어 전략적인 계획을 세우는 데 도움이 됩니다. 행동 단계는 외부 도구와 상호작용하여 계획을 실행합니다.
좀 더 깊은 사고 과정을 적용하려는 또 다른 기법은 셀프 리플렉션(self-reflection)입니다. 이 기법은 비판 루프를 도입하여, 에이전트가 자신의 추론을 분석하고 재평가하게 만듭니다. 이를 통해 스스로 오류를 수정하고 더 신뢰할 수 있는 답변을 생성할 수 있습니다.
이 개념은 DeepSeek-R1에 의해 한층 강화되었습니다. DeepSeek-R1은 체인 오브 소트의 일관성과 깊이를 개선하도록 튜닝된 모델로, 새로운 강화 학습(RL) 패러다임을 적용해 스스로 추론 전략을 탐색하고 개선할 수 있도록 설계되었습니다. 지금까지 등장한 장기적이고 다단계 추론 모델 중에서도 가장 흥미로운 사례로 평가받는 이유입니다.

이러한 추론 방식은 금융 보고서를 바탕으로 여러 단계를 거쳐야 하는 질문에 답하거나, 논리적 사고가 필요한 문제를 해결하는 등 복잡한 문제를 풀어가는 데 가장 적합합니다.
이러한 기법들은 결국 모델이 문제를 더 깊이 이해할 수 있도록 도와줍니다.
AI 모델이 최적의 해답을 찾도록 돕기
더 깊이 사고하는 방식은 작업의 복잡성을 다루는 데 효과적이지만, 해답이 여러 개인 문제를 해결하는 데는 최선의 접근이 아닐 수 있습니다. Tree-of-thought와 Graph-of-thought와 같은 기법은 LLM이 여러 방향으로 추론을 확장하는 개념을 도입했습니다.
Best-of-N과 같은 기법은 “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters” 논문에서 자세히 다루고 있는데, 그 원리는 매우 단순합니다. 여러 번 시도하게 하면 모델이 정답을 맞출 확률이 높아진다는 것입니다. 즉, 동일한 질문을 반복해서 모델에 던짐으로써 더 정확한 응답을 얻을 수 있도록 하는 방식입니다.
여기서 N의 값은 임의로 크게 설정할 수 있으며, 일부 연구에서는 코드 생성과 같은 문제에 대해 매우 큰 N 값을 사용하는 경우도 있습니다. 하지만 많은 응답을 생성하는 것만으로는 충분하지 않으며, 그중에서 가장 적절한 답변을 고를 수 있는 체계가 필요합니다.
바로 이 지점에서 검증의 문제가 등장합니다! 어떤 경우에는 답이 명확하게 드러납니다. 예를 들어 코드라면, 실행되고 테스트를 통과하는지가 기준이 될 수 있습니다. 하지만 그렇지 않은 경우, 보상 모델이나 보다 복잡한 검증 과정을 통해 답을 평가해야 할 수도 있습니다.

Think-Critique-Improve 방식으로 상호작용하기
단순히 “더 오래 생각한다”는 접근이 아닌, Think-Critique-Improve와 같은 방식은 보다 상호작용적인 절차를 통해 견고한 응답을 생성합니다. 쉽게 말해, 이 파이프라인은 다음과 같은 단계로 이루어집니다.
- Think: Best-of-N 방식과 유사하게 N개의 샘플을 생성합니다.
- Generate feedback: 생성된 각 샘플에 대해 특화된 모델을 사용해 X개의 피드백을 생성하고, 쓸모없는 응답은 필터링합니다. 이후 휴리스틱 기준에 따라 Top-k 피드백을 선택합니다.
- Edit: 각 N개의 샘플에 대해 선택된 Top-k 피드백과 함께, 피드백을 반영하여 원래 응답을 수정하는 특화된 편집 모델이 사용됩니다.
- Select: 마지막으로, 편집된 응답과 피드백을 포함한 N개의 결과 중 최종 응답을 선택 모델을 통해 결정합니다.
이러한 접근 방식은 한 사람이 오랜 시간 동안 혼자 고민하는 방식이 아니라, 여러 사람이 함께 문제를 해결해 나가는 협업 방식에 더 가깝습니다.
기존 기법들이 학습이나 적용 과정에서 검증 가능한 문제(코드, 수학, 논리적 추론)에 주로 사용되었다면, 이 방법은 정답이 하나로 정해지지 않은 오픈엔디드 문제 해결에 뛰어난 성과를 보입니다.
다음 단계
모델과 기술이 빠르게 발전하면서 기업들은 시장 출시 속도(time to market)와 기능 및 기법의 완성도를 높이는 데 집중해야 합니다.
이러한 환경에서 NVIDIA Blueprints는 기업이 사용자 중심의 애플리케이션을 빠르게 구축할 수 있도록 도와줍니다. 사용이 간편한 NVIDIA NIM을 활용하면, 효율적이고 안전하며 신뢰할 수 있는 인프라를 구축할 수 있습니다.
개발자는 Hugging Face에서 최신 NVIDIA Llama Nemotron 모델을 다운로드하거나, NVIDIA AI Blueprint의 ‘Build an AI Agent for Research and Reporting’을 체험해 보며 바로 시작할 수 있습니다.
LLM 에이전트에 대해 더 알고 싶다면, 이 시리즈의 다른 블로그들도 함께 참고해 보세요.
- Build an LLM-Powered API Agent for Task Execution
- Introduction to LLM Agents
- Building Your First LLM Agent Application
- Build an LLM-Powered Data Agent for Data Analysis
관련 자료
- GTC 세션: 추론 모델에서 AI 계획 시스템으로
- GTC 세션: 007 고객 지원 LLM 에이전트 평가: 환각 현상없애기
- GTC 세션: 생각의 속도: Gen AI 애플리케이션의 생산 환경을 위한 LLM 추론 자동 확장 관리
- NGC 컨테이너: rag-application-query-decomposition-agent
- NGC 컨테이너: rag-application-text-chatbot-llamaindex
- SDK: Llama3 8B Instruct NIM