작업 실행을 위한 LLM 기반 API 에이전트 구축

Reading Time: 6 minutes

개발자들은 오랫동안 사용자가 구축 중인 핵심 제품을 활용할 수 있도록 웹 앱과 같은 인터페이스를 구축해 왔습니다. 거대 언어 모델(LLM) 애플리케이션에서 데이터로 작업하는 방법을 알아보려면 이전 게시물인 데이터 분석을 위한 LLM 기반 데이터 에이전트 구축하기를 참조하세요. 이 글에서는 API의 또 다른 인터페이스로서 자유 형식 대화를 추가하는 방법에 대해 설명합니다. 이 방법은 모든 API와 미묘한 대화식 상호 작용을 가능하게 하는 솔루션을 지향합니다.

LLM 에이전트에 대한 기본적인 이해와 구축 방법에 대해서는 LLM 에이전트 소개 및 첫 번째 LLM 에이전트 애플리케이션 구축하기를 참조하세요.

API 에이전트란 무엇인가요?

API 또는 실행 에이전트는 실행 목표를 위해 설계되었습니다. 이러한 에이전트는 미리 정의된 일련의 실행 함수를 사용하여 사용자가 요청한 작업 또는 작업 집합을 수행합니다. 데이터 소스를 기반으로 사용자의 질문에 답하는 것이 중요한 부분입니다. 또 다른 중요한 부분은 사용자(사람) 또는 다른 에이전트(기계)가 필요로 하는 것을 실행하는 것입니다.

전통적으로 이 작업은 API와 웹 애플리케이션이나 페이지와 같은 일종의 애플리케이션 로직 및 상호작용 계층을 통해 수행됩니다. 사용자는 실행 흐름을 결정하거나 버튼으로 API에 액세스하거나 코드를 작성해야 합니다.

이제 중요한 추론의 일부를 오프로드하는 기능을 추가할 수 있을 뿐만 아니라 에이전트가 상호 작용의 세부 사항을 파악할 수 있도록 API나 SDK 또는 소프트웨어와 ‘대화’할 수 있는 매체를 추가할 수 있습니다.

API 에이전시 구축하기

이 주제를 살펴보기 위해 마케팅 조직이 API 에이전트를 활용하여 마케팅 캠페인에 대한 아이디어를 브레인스토밍하는 데 도움이 될 수 있는 “크리에이티브 코파일럿”을 구축해 보겠습니다.

LLM 선택하기

먼저 사용할 LLM을 식별하는 것부터 시작하세요. 이 예제에서는 NVIDIA NGC 카탈로그에서 사용할 수 있는 Mixtral 8x7B LLM을 사용합니다. 다양한 모델을 가속화하고 API로 사용할 수 있도록 합니다. 모델당 첫 번째 API 호출은 실험용으로 무료입니다.

에이전트 워크플로우를 처리하도록 조정되지 않은 모델로 작업하는 경우 다음 프롬프트를 일련의 객관식 질문(MCQ)으로 재구성할 수 있습니다. 대부분의 모델이 MCQ를 처리하도록 조정되어 있으므로 이 방법이 효과적입니다. 미세 조정에 대해 자세히 알아보세요.

사용 사례 선택하기

다음으로 사용 사례를 선택합니다. NGC 카탈로그에서 다양한 NVIDIA AI 파운데이션 모델을 살펴볼 수 있습니다(그림 1).

이 논의의 목적을 위해 NVIDIA AI 파운데이션 모델 API를 연결하여 “브레인스토밍 코파일럿”을 만들어 보겠습니다. 실행 지향 에이전트를 구축하기 위해 다른 API를 사용하여 동일한 작업을 수행할 수 있습니다. 이 사용 사례에서는 다음 세 가지 모델을 사용하겠습니다:

텍스트 생성을 위한 Mixtral 8x7B Instruct
이미지 생성을 위한 Stable Diffusion XL
코드 생성을 위한 Code Llama 34B

*그림 1. NGC 카탈로그에서 사용 가능한 NVIDIA AI 파운데이션 모델*

에이전트 빌드

AI 에이전트는 도구, 메모리 모듈, 계획 모듈, 에이전트 코어의 네 가지 구성 요소로 구성됩니다.

도구

이 사용 사례에서 도구는 모델에 대한 개별 함수 호출입니다. 이 논의를 단순화하기 위해 모델에 대한 각 API 호출에 대한 클래스를 만들었습니다(그림 2 및 3).

계획 모듈 및 에이전트 코어

이전 게시물에서 다양한 플래닝 알고리즘을 소개해 드렸습니다. 리커시브 솔버가 포함된 명시적 질문 분해 모듈의 예는 LLM 에이전트 소개를 참조하세요. 반복 실행 계획의 예는 첫 번째 LLM 에이전트 애플리케이션 구축하기를 참조하세요.

여기서는 계획 모듈과 에이전트 코어를 융합하는 계획 및 실행 접근 방식을 소개하겠습니다. 이는 고급 구현이며 기본적으로 실행 전에 계획을 컴파일합니다. 자세한 내용은 병렬 함수 호출을 위한 LLM 컴파일러를 참조하세요.

실행 전 계획은 시작할 때 전체 계획을 생성하므로 모든 단계를 추적할 필요가 없으며 단일 턴 방식의 대화 사례에는 메모리 모듈이 필요하지 않습니다. 반복적인 계획 생성을 선택할 수도 있습니다. 여기서는 설명을 간소화하기 위해 정적 생성을 소개합니다.

LLM 컴파일러 스타일 접근 방식과 융합 계획 및 코어를 사용해야 하는 경우

API는 결정론적입니다. 따라서 개별 도구의 동작과 결과에 대해 상당히 확신할 수 있으므로 사전 계획이 가능합니다. 반복적이거나 동적인 유연한 계획 모듈을 위해 생성해야 하는 추가 토큰을 절약할 수 있습니다. 또한 문제를 해결하기 위해 여러 단계가 필요한 경우 이 계획 단계는 LLM에 대한 보다 간결한 컨텍스트를 유지하는 데 도움이 됩니다. 또한 두 모듈을 융합하면 일반적인 아키텍처를 단순화할 수 있습니다.

LLM 컴파일러 스타일 접근 방식과 융합된 계획 및 코어를 사용하지 말아야 할 때

계획 후 실행은 취약한 기법입니다. 도구 문제로 인해 계획이 실패하거나 생성된 계획이 잘못된 경우 복구할 수 있는 경로가 없습니다. 또한 융합 모듈을 구동하는 LLM은 도구의 사용을 통합하여 계획을 생성하는 복잡한 로직을 처리할 수 있도록 효과적으로 조정되어야 합니다.

프롬프트는 아래와 같습니다. 이 예에서는 Mixtral 8x7B 모델을 사용하므로 모델이 학습된 함수 호출 스키마도 사용할 수 있습니다. 그러면 최종 결과를 위해 순차적으로 실행할 수 있는 계획이 생성됩니다.

prompt = """Your task is to generate a plan for the problem user gave using FUNCTIONS. Just generate the plan. Do not solve.
 
<FUNCTIONS>[
    {
        "function": "ImageGenerator",
        "description": "Generates an Image based on a prompt description",
        "arguments": [
            {
                "name": "prompt",
                "type": "string",
                "description": "Describe what is the key subject of the image, followed by the background."
            },
            {
                "name": "negative_prompt",
                "type": "string",
                "description": "what shouldn't be in the image. Fill none if not specified."
            }
        ]
    },
    {
        "function": "CodeGenerator",
        "description": "Generates python code for a described problem",
        "arguments": [
            {
                "name": "prompt",
                "type": "string",
                "description": "description of the problem for which the code needs to be generate"
            }
        ]
    },
    {
        "function": "TextGenerator",
        "description": "Generates well reasoned text for questions. Requires the full complete context.",
        "arguments": [
            {
                "name": "prompt",
                "type": "string",
                "description": "Describe in detail about the question that requires an answer"
            }
        ]
    }
]
</FUNCTIONS>
 
User: <User’s question>.
 
Assistant: ```json
"""

함수 호출에 대한 안내

Mixtral 8x7B는 함수 호출을 위해 튜닝되었지만, 여전히 구문 형식을 준수하지 않는 장황한 출력을 생성할 수 있습니다. 의미적 정확성을 위해 LLM을 파인 튜닝하는 것뿐만 아니라 출력의 구문적 정확성을 보장할 수 있는 출력 토큰 제약 기법 중 하나를 사용하는 것이 좋습니다. 추가 라이브러리로는 local-LLM-function-calling 및 lm-format-enforcer가 있습니다.

복잡한 예제 사용 사례

복잡한 예제를 제공하기 위해 사람과 대화하는 방식으로 요청을 ‘래블’해 보겠습니다.

질문: 더 많은 세제 판매에 관한 광고 캠페인에 대한 소셜 미디어 게시물을 작성하세요. 제품 이름은 새로운 울트라클린 포뮬러가 적용된 위시워시이며 가격은 4.99달러입니다. 함께 사용할 이미지도 생성합니다. 이왕이면 소셜 미디어 게시물에 신제품에 유연제가 포함되어 있다는 사실도 추가하세요. 그리고 소셜 미디어 게시물 외에 마케팅을 위한 다른 아이디어를 브레인스토밍하세요.

계획 생성:

{
    "function": "ImageGenerator",
    "arguments": {
        "prompt": "A bright and clean laundry room with a large bottle of WishyWash detergent, featuring the new UltraClean formula and softener, placed prominently on a shelf.",
        "negative_prompt": "No clutter, no other brands, only WishyWash."
    }
},
{
    "function": "TextGenerator",
    "arguments": {
        "prompt": "Compose a tweet to promote the new WishyWash detergent with the UltraClean formula and softener at $4.99. Make sure to highlight its benefits and competitive pricing."
    }
},
{
    "function": "TextGenerator",
    "arguments": {
        "prompt": "Generate ideas for marketing campaigns to increase WishyWash detergent sales, specifically focusing on the new UltraClean formula and softener."
    }
}

계획 수립은 세 단계로 이루어집니다:

이미지 생성
소셜 미디어 게시물 작성
마케팅 캠페인에 대한 더 많은 아이디어 생성

그런 다음, 최종 결과물을 위해 개별 도구를 실행합니다.

Stable Diffusion XL로 이미지 생성

Stable Diffusion XL로 생성된 이미지가 최고는 아니지만(그림 4), 전문 에디터와 브레인스토밍을 하기 위한 훌륭한 출발점이 될 수 있습니다. 하지만 사용 사례에서 적절한 단어가 필요한 경우 모델을 더 파인 튜닝하여 이 문제를 해결할 수 있습니다.

Mixtral 8x7B를 사용한 텍스트 생성

그림 5와 그림 6은 각각 Mixtral 8x7B로 생성된 소셜 미디어 게시물과 추가 마케팅 아이디어를 보여줍니다. 이 사례에서 에이전트는 복잡한 문제를 세분화하여 나열된 지침에서 해결책을 제시할 수 있었습니다.

이 구체적인 예시는 부조종사에게 영감을 주기 위한 것으로, 전문가가 시작점으로 삼을 수 있는 결과물이라는 점에 유의하세요. 주식 시장이나 날씨 앱과 상호 작용하기 위한 SDK와 같이 보다 결정적인 출력이 있는 API의 경우 함수 호출을 직접 실행할 수 있습니다. 핵심 가치는 요청을 추론하고 실행 지향 도구를 사용하여 요청을 이행할 수 있는 능력입니다

API 에이전트 애플리케이션 구축 시 주요 고려 사항

API 에이전트 애플리케이션을 구축할 때 다음과 같은 주요 고려 사항을 염두에 두세요.

API 확장하기

이 예에서는 세 개의 API가 사용되었습니다. 접근 방식을 확장하려면 사용자의 질문에 따라 가장 관련성이 높은 상위 5개 도구를 찾기 위한 검색 증강 생성(RAG) 시스템을 구축해야 합니다. 작업을 해결하기 위해 실행할 수 있는 모든 API를 계속 추가하는 것은 불가능합니다.

더 나은 계획

이 예에서는 컴파일러/계획 및 실행 스타일 솔루션을 사용했지만 ADaPT와 같은 더 나은 플래너를 사용하여 서로 다른 API를 연결할 수 있습니다. 더 나은 계획 알고리즘은 계획에서 더 복잡한 사례와 실패 인스턴스를 처리하는 데 도움이 될 수 있습니다.

시작하기

이 글에서는 LLM 기반 API 실행 에이전트를 구축하는 방법의 기본 사항을 다루었습니다. 이 논의는 에이전트 구축의 개념에 더 익숙해지는 데 도움이 되도록 널리 사용되는 오픈 소스 프레임워크에 구애받지 않습니다. 여러분의 애플리케이션에 가장 적합한 에이전트 프레임워크를 선택하기 위해 오픈 소스 생태계를 살펴보는 것을 적극 권장합니다.

프로덕션용 API 에이전트의 안정적이고 확장 가능한 부분을 구축하는 방법에 대한 자세한 내용은 검색 증강 생성 워크플로우를 갖춘 AI 챗봇을 참조하세요. LLM 애플리케이션을 위한 프로덕션급 RAG 파이프라인을 실험해보고 싶으시다면 GitHub의 NVIDIA/GenerativeAIExamples를 방문하세요.

작업 실행을 위한 LLM 기반 API 에이전트 구축

API 에이전트란 무엇인가요?