AI Platforms / Deployment

NVIDIA NIM을 사용한 게임용 에이전트 LLM 및 VLM 추론 벤치마킹

Reading Time: 4 minutes

런던대학교 유니버시티칼리지(UCL)의 DARK(Dark, Acting, and Reasoning with Knowledge) 연구실NVIDIA NIM 마이크로서비스를 활용해 새로운 게임 환경을 활용한 벤치마크 도구 BALROG(Benchmarking Agentic LLM and VLM Reasoning On Games)를 개발했습니다. BALROG는 다양한 게임 환경에서 복잡하고 장기적인 상호작용 과제를 통해 모델의 자율적 사고 능력을 평가하도록 설계됐습니다.

DARK 연구실 팀은 벤치마크 과정을 간소화하기 위해 NVIDIA NIM을 활용했으며, 2025년 2월 말 DeepSeek-R1 NIM이 출시되었을 당시에는 무려 6,710억 개의 파라미터를 가진 거대 모델인 DeepSeek-R1도 직접 배포하거나 로컬에서 호스팅할 필요 없이 사용할 수 있어 모델 배포 및 실험 준비 과정이 획기적으로 간소화되었습니다.

이 포스팅에서는 NVIDIA NIM이 BALROG를 사용해 고급 AI 모델의 효율적인 벤치마킹을 지원하는 방법을 살펴봅니다. 벤치마킹 프로세스, 주요 결과 및 NIM 마이크로서비스가 최첨단 AI 시스템에서 에이전틱 AI 추론의 평가를 어떻게 발전시키고 있는지에 대한 인사이트를 공유합니다.

DeepSeek-R1용 NVIDIA NIM

NVIDIA NIM 마이크로서비스는 AI 모델을 배포하고 확장하는 방식에 혁신을 가져오고 있습니다. GPU의 성능을 손쉽게 활용할 수 있게 해 주는 이 방식은, 연구자와 개발자 모두에게 간편한 솔루션을 제공합니다. NIM은 NVIDIA TensorRT, NVIDIA TensorRT-LLM 같은 사전 최적화된 엔진을 제공해 낮은 지연 시간과 높은 처리량으로 AI 추론 작업을 훨씬 더 효율적으로 수행할 수 있게 해줍니다.

NIM이 특히 연구자들에게 매력적인 이유는 그 유연성에 있습니다. 클라우드, 데이터 센터, 로컬 워크스테이션 어디든 배포할 수 있어 다양한 작업 흐름에 자연스럽게 통합할 수 있습니다. 쿠버네티스 기반 확장 기능도 지원해, 소규모 실험부터 대규모 배포까지 어떤 규모의 작업도 효율적으로 처리할 수 있습니다.

또한, 사용자는 모델을 직접 호스팅하며 보안도 유지할 수 있고, 필요한 용도에 맞게 자유롭게 커스터마이징도 가능합니다. 자연어 처리, 컴퓨터 비전, 과학 연구 같은 다양한 분야에서 활용할 수 있는 범용적인 솔루션입니다. 게다가 NIM은 국가 슈퍼컴퓨팅 센터에서도 배포할 수 있어, 대규모 AI 작업에 고성능 인프라를 활용할 수 있을 뿐만 아니라 민감한 데이터를 다루는 연구도 안전하게 진행할 수 있습니다.

이 마이크로서비스는 OpenAI API나 LangChain 같은 표준 프론트엔드와도 손쉽고 빠르게 API로 연동할 수 있어 Python 환경에서 바로 활용할 수 있습니다. Node.js나 커맨드라인에서도 접근이 가능해 다양한 방식으로 활용할 수 있습니다. 덕분에 연구자들은 리소스가 제한적인 상황에서도 최신 오픈소스 거대 언어 모델(LLM)을 효율적으로 실행할 수 있습니다.

2025년 1월 DeepSeek-R1이 공개되면서, NVIDIA는 다양한 DeepSeek 모델을 바로 사용할 수 있는 NIM 마이크로서비스도 함께 제공했습니다. 이 덕분에 UCL 연구진은 발표 직후부터 build.nvidia.com을 통해 가장 큰 규모인 6,710억 파라미터 모델을 바로 실험에 활용할 수 있었습니다. DeepSeek-R1은 뛰어난 추론 능력과 장기 과제를 해결할 수 있는 가능성 덕분에 BALROG 벤치마크에 가장 적합한 후보로 평가됐습니다.

BALROG 방법론

LLM과 비전-언어 모델(VLM)은 정보 처리와 지시 따르기에서 눈에 띄는 발전을 보였지만, 복잡하고 유동적인 상황에서의 행동력은 여전히 AI 모델의 주요 한계 중 하나입니다. 장기적인 계획, 공간 인지, 예기치 못한 상황에의 적응이 필요한 과제들은 여전히 이들 모델의 한계를 시험합니다.

기존 벤치마크들은 물론 유용하긴 하지만, 짧은 상호작용이나 정적인 문제에 초점을 맞춘 경우가 많아 빠르게 한계에 도달하거나 테스트 데이터 유출 가능성이 생기기도 합니다. 또, 현실 세계에서 자율성을 갖춘 AI가 필요한 핵심 능력(예를 들어 장기적인 의사결정)을 충분히 평가하지 못하는 경우도 많습니다. BALROG 벤치마크는 바로 이런 고도화된 평가에 대한 수요에 맞춰 개발됐으며, 게임을 활용해 AI의 장기 추론 및 상호작용 능력을 실제로 검증할 수 있도록 만들어졌습니다.

BALROG는 여섯 가지 강화학습 환경을 하나의 통합 테스트베드로 구성해, 다양한 난이도에서 자율적 사고 능력을 평가합니다 (그림 1 참고).

  • Crafter: 마인크래프트에서 영감을 받은 2D 그리드 환경으로, 생존을 위해 탐색, 자원 수집, 아이템 제작이 요구됩니다.
  • Baba Is AI: 단어 블록을 조작해 규칙을 바꾸고 퍼즐을 푸는 게임으로, 사물 간 상호작용을 조정해 목표를 달성합니다.
  • NetHack Learning Environment (NLE): 전략적 계획과 즉각적인 전술이 동시에 필요한 고난도 로그라이크 게임입니다.
  • MiniHack: NLE 기반의 멀티태스크 환경으로, 탐색, 내비게이션, 장기적 계획, 자원 관리 등 다양한 과제를 포함합니다.
  • BabyAI: 단순한 2D 그리드 환경에서 자연어 지시를 따라 과제를 수행하게 하는 테스트입니다.
  • TextWorld: 비주얼 요소 없이 오직 텍스트 기반으로 구성된 게임으로, 탐색과 자연어 상호작용 능력을 평가합니다.
그림 1. BALROG에 사용된 6가지 게임 환경(왼쪽 위부터 시계 방향): Crafter, BabaIsAI, NetHack, MiniHack, BabyAI, TextWorld

모델이 암기된 패턴에만 의존하지 않고 능동적으로 추론하고 적응하는지를 평가하기 위해, BALROG는 모든 환경에 절차적 생성(procedural generation)을 적용합니다. 이를 통해 매번 새로운 상황이 주어지기 때문에, 모델은 진짜로 사고하고 문제를 해결해야 합니다. BALROG는 다양한 모델을 공정하게 평가할 수 있도록 표준화된 프레임워크를 제공합니다. 이를 통해 까다로운 과제에서 각 모델이 얼마나 잘 작동하는지를 체계적으로 측정할 수 있습니다. 궁극적으로는 더 유능하고 자율적인 AI 에이전트 개발을 촉진하는 데 목적이 있습니다.

BALROG 결과

BALROG는 최신 언어 모델을 폭넓게 벤치마크하기 위해 리더보드를 통해 성능을 추적합니다. 에이전트는 환경에 대한 정보를 자연어 설명이나 멀티모달 비전-언어 형식으로 받아들이고, 그에 따라 다음 행동을 자연어로 출력해야 합니다. DeepSeek-R1처럼 추론을 위해 특별히 학습된 모델은 행동을 출력하기 전에 내부적으로 사고 과정을 거칠 수 있도록 허용됩니다.

BALROG는 각 과제에서 모델의 성능을 0에서 100까지의 점수로 표준화해 평가합니다. 목표가 명확히 구분된 환경들(BabyAI, Baba Is AI, MiniHack)에서는 성공 여부에 따라 점수가 이진적으로 부여됩니다—실패는 0점, 성공은 100점. 반면, 점진적인 진행 상황을 측정할 수 있는 환경들(TextWorld, Crafter, NetHack)에서는 모델이 달성한 목표나 도달한 이정표의 비율을 기반으로 점수를 산정합니다.

BALROG를 개발한 연구진은 OpenAI API를 통해 DeepSeek-R1 NIM을 평가했으며, 이로 인해 기존 환경과의 연동도 별도의 설정 없이 원활하게 작동했습니다. 평가 결과, DeepSeek-R1은 BALROG에서 평균 34.9% ± 2.1%의 진행률을 기록하며 새로운 최고 성능을 달성했습니다. 이는 이전까지 1위를 차지했던 Claude 3.5 Sonnet의 32.6% ± 1.9%를 앞서는 수치로, 작성 시점 기준 리더보드 최상위에 오르게 됐습니다. NIM이 표준 API와 자연스럽게 통합되면서, 연구진은 DeepSeek-R1을 손쉽게 호출할 수 있었습니다. 이처럼 방대한 모델은 학계 연구자들이 직접 배포하거나 실행하기 어려운 것이 일반적입니다.

또한, 다양한 모델들과의 API 비용 대비 성능을 비교한 추가 분석에서는, DeepSeek-R1을 NVIDIA NIM을 통해 제공할 경우 비용 대비 성능 효율이 매우 뛰어나다는 점도 확인되었습니다. (그림 2 참고).

그림 2. BALROG의 에피소드당 성능과 비용 비교

결과

NVIDIA NIM 덕분에 최신 LLM과 VLM에 대한 접근성과 활용이 훨씬 쉬워졌습니다. 다양한 API가 제공되기 때문에 BALROG 같은 기존 환경에도 손쉽게 통합할 수 있습니다. 특히, NIM 마이크로서비스는 클라우드에서 바로 원격으로 사용하거나, 컴퓨팅 자원이 있다면 로컬에 배포해 사용할 수도 있습니다. DARK 연구실의 연구진도 이 클라우드 기반 사용 방식 덕분에 모델을 직접 배포할 필요 없이, 출시와 동시에 최신이자 가장 규모가 큰 최첨단 모델을 즉시 활용할 수 있었습니다.

BALROG의 평가 방식에 대해 더 자세히 알고 싶다면, ICLR 2025에 발표된 논문 “BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games”를 참고하세요. 연구진은 앞으로 NIM 마이크로서비스로 제공되는 NVIDIA Llama Nemotron UltraLlama 4 모델도 벤치마크에 포함할 계획입니다.

최신 AI 모델을 산업 표준 API로 배포하고, 평가하고, 확장하는 데 관심 있다면 NVIDIA NIM for Developers 페이지에서 바로 시작해보세요.

관련 리소스

Discuss (0)

Tags