현대 공급망은 변동성이 큰 수요, 출렁이는 비용, 제약된 용량, 그리고 서로 얽힌 의사결정이라는 압박을 항상 받으며 운영됩니다. 전통적으로는 특화된 운영 연구(OR) 팀이 비즈니스 질문을 수학 모델로 옮겨 가며 이런 문제를 풀어 왔는데요. 이 과정은 몇 주씩 걸리는 데다, 만들어진 해법도 조건이 바뀌면 좀처럼 적응하지 못해 깨지기 쉽다는 한계가 있었습니다.
에이전틱 AI는 이런 패러다임을 바꾸고 있습니다. LLM의 추론 능력을 GPU 가속 솔버의 연산력과 결합해, AI 에이전트가 자연어로 표현된 비즈니스 문제를 해석하고 이를 단 몇 초 만에 엄밀하고 최적화된 의사결정으로 옮길 수 있게 되는 것이죠.
이 접근의 핵심에는 에이전트 스킬(agent skills)이 자리하고 있는데요, 에이전트에 특화된 지식과 워크플로를 더해 주는 개방형 포맷입니다. 스킬은 일종의 패키징 메커니즘으로, 필요한 절차적 맥락을 그때그때 동적으로 불러들여 특정 작업에서 에이전트의 성능을 끌어올려 줍니다.
이 글에서는 핵심 NVIDIA cuOpt 에이전트 스킬과 그 의미, 그리고 자연어 비즈니스 문제를 수학 모델로 변환해 NVIDIA cuOpt 의사결정 최적화 솔버로 풀어내는 다기간 공급망 계획 유스케이스에서 이 스킬들이 어떻게 함께 작동하는지를 살펴봅니다.
NVIDIA cuOpt 에이전트 스킬 사용 방법
NVIDIA cuOpt는 GPU 가속 의사결정 최적화 엔진으로, 선형 계획법(LP)·혼합 정수 계획법(MIP)·라우팅 문제를 CPU 기반 솔버보다 수십 배에서 수백 배 빠르게 풀어냅니다. cuOpt를 에이전트 스킬로 제공하면, LLM은 무거운 수학 연산을 GPU에 넘긴 채 비즈니스 문제를 이해하고 데이터를 모아 실제로 활용 가능한 결과를 돌려주는 일에 집중할 수 있죠.
아래 단계는 NVIDIA cuOpt 공급망 에이전트 레퍼런스 워크플로를 구성하고 사용하는 방법을 보여 줍니다. 이 워크플로는 cuOpt 에이전트 스킬을 활용해 에이전트 주도형 워크플로 안에서 GPU 가속 공급망 최적화를 수행합니다.
1단계: 환경 구성
NVIDIA GPU가 장착된 시스템을 준비하고, 컨테이너 워크로드에서 GPU에 접근할 수 있게 해 주는 NVIDIA Container Toolkit을 설치합니다. 자체 인프라에서 실행해도 되고, NVIDIA CUDA·Docker 등 사전 요구사항이 이미 설치된 클라우드 GPU 환경을 즉시 사용할 수 있도록 사전 구성된 Brev Launchable을 배포해도 좋습니다.
이어서 cuOpt 에이전트 패키지와 종속성을 설치합니다. 데모 애플리케이션은 이미 컨테이너화되어 있어 재현성이 보장되며, 개발·스테이징·프로덕션 환경 어디에 배포하든 손쉽게 옮길 수 있습니다.
2단계: 에이전트 초기화
이 에이전트는 추론 모델로 MiniMax M2.5를 사용합니다. 공개 호스팅 엔드포인트를 활용하거나, 최고 성능을 원한다면 NVIDIA NIM을 로컬에 배포하는 방법도 있습니다.
이후의 배포 절차는 간단합니다. 애플리케이션이 컨테이너화되어 있어 Docker Compose 명령 한 줄이면 UI와 Phoenix 트레이싱이 각각 지정된 포트에서 실행되고, 새 탭에서 바로 열어 볼 수 있습니다.
소스 코드에는 에이전트가 활용할 수 있는 몇 가지 스킬이 포함되어 있는데요, 이 스킬들은 LLM이 호출할 수 있는 명확한 함수 시그니처처럼 동작하며, 각각이 특정 최적화 역량(예: 생산 계획, 재고 최적화, 경로 최적화)을 입력·출력 스키마와 함께 캡슐화합니다. 이렇게 스킬을 등록해 두면 LLM이 사용자 의도에 따라 스킬을 찾아내 동적으로 호출할 수 있게 됩니다.
3단계: 공급망 데이터 공급
최적화에 필요한 도메인별 데이터를 에이전트에 공급합니다. 다기간 계획 문제라면 일반적으로 다음과 같은 데이터가 포함됩니다:
- 제품·지역·기간별 수요 예측.
- 각 시설의 생산 용량과 단위 비용.
- 재고 보유 비용과 보관 한계.
- 운송 비용과 리드 타임.
- 서비스 수준 협약(SLA)이나 최소 생산량 같은 비즈니스 제약 조건.
프로덕션 배포 환경에서는 이 데이터를 계획 시스템에서 직접 가져오게 됩니다. 데모 목적의 레퍼런스 워크플로에서는 실제 데이터 구조를 본떠 만든 모의 데이터셋을 사용합니다.
4단계: 에이전트 스킬 호출
예를 들어 “모든 유통 센터에서 예측 수요를 충족하면서 총비용을 최소화하는 12주 생산·재고 계획을 만들어 줘” 같은 자연어 운영 목표를 에이전트에 던지면 됩니다.
내부적으로 워크플로는 LangChain Deep Agents를 활용해 하위 에이전트 계층을 만들어 내고, 각 하위 에이전트가 워크플로의 일부를 책임집니다. 오케스트레이션 에이전트는 목표를 분석해 단계로 쪼개고 작업을 위임하는데요, 한 하위 에이전트는 입력 데이터를 추출·검증하고, 다른 하나는 수학 모델을 정식화하며, 또 다른 하나는 cuOpt 스킬을 호출합니다.
cuOpt 스킬이 호출되면 에이전트는 결정 변수·목적 함수·제약 조건을 담은 구조화된 페이로드를 cuOpt 솔버에 전달합니다.
5단계: 솔루션 받아 활용하기
cuOpt는 대규모 병렬성을 활용해 GPU에서 최적화를 실행하며, 전통적인 CPU 솔버보다 훨씬 빠르게 솔루션 공간을 탐색합니다. 해가 발견되면 에이전트는 최적화된 결정 변수(예: 각 기간에 어떤 제품을 얼마나 생산할지, 재고를 얼마나 보유할지, 어디로 출하할지)를 받아 사람이 읽기 쉬운 요약으로 다시 옮겨 줍니다. 여기에는 보통 총비용, 용량 가동률, 제약 여유(slack) 같은 핵심 지표가 함께 담겨요.
그 결과로 나오는 것은 의사결정자가 검토하고 후속 프롬프트로 다듬거나, 곧장 다운스트림 실행 시스템으로 흘려보낼 수 있는 실행 가능한 계획입니다.
NVIDIA Brev launchable을 활용해 cuOpt 공급망 에이전트 레퍼런스 워크플로를 구성하고 실행하는 방법은 아래 튜토리얼 영상에서 자세히 살펴볼 수 있습니다.
확장 가능한 에이전틱 아키텍처
cuOpt 공급망 에이전트 레퍼런스 워크플로는 단순화된 출발점입니다. 추가 에이전트 스킬과 오케스트레이션 패턴을 더하면, 실제 프로덕션 엔터프라이즈 워크로드에 더 잘 맞게 확장할 수 있지요. 아래 아키텍처 다이어그램은 핵심 에이전트 워크플로를 둘러싸는 엔터프라이즈급 조율·거버넌스·신뢰성·견고성 계층을 더하는 확장형 패턴을 보여 줍니다.
데이터셋·GitHub 저장소 바로가기
GitHub에서 cuOpt 에이전트 워크플로를 바로 시작해 보세요. 빠른 시작 가이드를 따라 로컬에서 예제를 실행할 수도 있고, NVIDIA Brev Launchable로 사전 로드된 Jupyter Notebook이 포함된 클라우드 GPU 인스턴스를 띄워 안내에 따라 배포해 봐도 좋습니다.
기술 요구사항:
- NVIDIA GPU(예: NVIDIA A100 Tensor Core GPU 8장)에서 MiniMax LLM with vLLM 배포.
- NVIDIA Container Toolkit이 포함된 Docker·Docker Compose.
- build.nvidia.com에서 발급받은 NVIDIA API 키.
지금 바로 시작하기
NVIDIA NeMo Agent Toolkit으로 NVIDIA cuOpt 에이전트 레퍼런스 워크플로를 배포하고, 내장된 최적화 스킬을 활용하거나 직접 새로운 스킬을 만들어 보세요. 구조화된 쿼리를 실행하고 도메인별 제약 조건을 워크플로에 통합하면서, cuOpt 스킬을 확장해 지표를 벤치마킹하고 자신만의 도메인 특화 유스케이스를 최적화할 수 있죠.
NVIDIA cuOpt의 최신 소식을 받아 보려면 NVIDIA news를 구독하고, LinkedIn, X, Discord, YouTube에서 NVIDIA AI를 팔로우해 보세요.
시작에 필요한 자료는 cuOpt 시작 페이지에서 확인하실 수 있죠. Google Colab, NVIDIA API 카탈로그, GitHub, NVIDIA AI Enterprise에서도 만나 보세요.