AI 에이전트는 추론 워크로드의 복잡성을 근본적으로 바꿔 놓았습니다. 지금까지 업계는 이러한 조건에서 추론 시스템이 어떻게 동작하는지를 측정할 표준을 정의하는 데 어려움을 겪어 왔습니다. Artificial Analysis AgentPerf(AA-AgentPerf)는 실제 AI 에이전트 코딩 작업을 대표하는 트라젝토리를 프로파일링하는, 업계 최초의 멀티 벤더 오픈 벤치마크를 제공합니다.
이 글에서는 AA-AgentPerf가 에이전트 워크로드 성능 측정의 새로운 표준을 어떻게 세우는지, 그리고 NVIDIA의 극한 공동설계 이전 세대 대비 최대 20배 더 나은 에이전트 코딩 성능을 제공하는 데 어떻게 기여하는지 설명합니다.
AA-AgentPerf란?
AA-AgentPerf는 Artificial Analysis가 만든 하드웨어 벤치마크로, 사전에 정의된 모델별 성능 서비스 수준 목표(SLO, Service Level Objective) 등급을 충족하면서 추론 시스템이 지원할 수 있는 동시(concurrent) AI 에이전트 수를 측정합니다. SLO는 출력 토큰 속도와 첫 토큰까지의 시간(TTFT, Time-To-First-Token)의 특정 임계값으로 정의됩니다. 벤치마크 결과는 하드웨어 구성 간 비교가 가능하도록 가속기당, 메가와트(MW)당으로 정규화됩니다.

대표성 있는 에이전트 코딩 성능 측정하기
에이전트 워크로드는 독특합니다. LLM이 주도하는 결정이 종종 비결정적인 요청 및 도구 호출(tool call) 시퀀스를 만들어 내기 때문입니다. 에이전트 성능 측정에서 가장 어려운 부분은, 대표성 있는 에이전트 트라젝토리, 즉 에이전트가 작업을 처음부터 끝까지 수행하며 내리는 모든 행동·결정·관찰의 완전한 시퀀스(그림 2) 안에서 이 비결정성을 정확히 포착하는 일입니다.

AA-AgentPerf는 추론과 도구 사용이 교차하는 사전 기록된 에이전트 코딩 트라젝토리 전반에서 GPU 성능을 측정하고, 동시에 CPU 도구 호출 성능에 대한 대표 기준선으로 턴 간 지연을 시뮬레이션하는 방식으로 이를 포착합니다. 이 트라젝토리들은 여러 사용 사례, 12개 이상의 프로그래밍 언어, 그리고 프런티어 모델의 응답에 걸쳐 공개 코드 저장소의 이슈를 해결하는 것을 중심으로 구성됩니다. 트라젝토리를 엄밀하게 정의하는 것 외에도, Artificial Analysis 팀은 다음과 같은 작업을 수행했습니다.
- 요청에 대해 캐시·입력·출력 시퀀스 길이를 대표성 있게 활용했으며, 그 범위는 5K에서 131K, 평균 약 27K였습니다.
- 도구 호출을 에이전트 코딩 워크플로의 대표적인 CPU 측 작업에 매핑하고, 중앙값 1초의 지연 시간을 갖는 분포에 걸쳐 도구 호출을 시뮬레이션했습니다. 이후 동일한 CPU 도구 호출 기준선을 테스트한 모든 시스템에 적용했습니다.
- 벤치마크를 겨냥한 최적화를 방지하기 위해 테스트 세트를 비공개로 유지합니다.
AA-AgentPerf 테스트 및 측정 방법론
AA-AgentPerf 하니스(harness)는 SLO 요구사항을 충족하면서 추론 시스템이 지원할 수 있는 동시 에이전트 수를 측정합니다(그림 3). 출시 시점에 이 벤치마크는 Artificial Analysis의 서버리스 API 벤치마킹 데이터에서 도출한 여러 SLO 등급에 걸쳐 DeepSeek-V4-Pro를 테스트하는 데 초점을 맞춥니다. 이를 통해 벤치마크가 오늘날 프로덕션 제공업체에서 관찰되는 서비스 품질 수준을 반영하도록 합니다.
그림 3. SLO 임계값은 목표 속도로 서비스할 수 있는 사용자 수의 상한을 정합니다.
벤치마킹 실행 동안, AA-AgentPerf는 사전 기록된 에이전트 트라젝토리 데이터셋에서 추출한 수천 개의 동시 요청을 GPU에 보냅니다. 각 실행의 독립적인 결과를 보장하기 위해, 모든 트라젝토리 단계의 시작 부분에 동적 접두사(dynamic prefix)가 추가됩니다. 트라젝토리 전반에 걸쳐 엄격한 SLO 임계값이 적용되며, 그 요구사항을 만족하는 가장 높은 동시성 수준이 해당 SLO에 대한 공식 벤치마크 결과로 기록됩니다(그림 3). 이 과정은 서로 다른 사용자 경험 목표를 포착하기 위해 여러 SLO 등급에 걸쳐 반복됩니다(표 1).
| 모델 | SLO 등급 | P25 출력 속도(토큰/초) | P95 TTFT(초) |
|---|---|---|---|
| DeepSeek-V4-Pro | SLO #1 | 30 | 10 |
| SLO #2 | 100 | 5 | |
| SLO #3 | 300 | 3 |
표 1. AA-AgentPerf DeepSeek-V4-Pro 테스트의 SLO 등급 및 TTFT 요구사항.
AA-AgentPerf 결과 해석하기
AA-AgentPerf의 핵심 지표는 메가와트당 런타임 성능으로, 데이터센터 규모의 성능을 나타내기 위한 실용적인 정규화입니다. 표 2는 보고된 성능을 활용해 주어진 전력 예산으로 얼마나 많은 에이전트 세션을 지원할 수 있는지 추정하는 방법을 설명합니다.
| 벤치마크 | 지표의 의미 | NVIDIA GB300 NVL72 | NVIDIA H200 |
|---|---|---|---|
| MW당 동시 에이전트 수 | 에너지 효율: 주어진 전력 예산으로 시스템이 지원할 수 있는 활성 에이전트 수 | 61.4K | 2.6K |
| GPU당 동시 에이전트 수 | 하드웨어 효율: GPU당 달성되는 서빙 용량 | 57.5 | 1.4 |
표 2. 대규모로 에이전트 애플리케이션을 지원하려는 데이터센터의 용량 계획을 돕기 위해 AgentPerf가 보고하는 지표를 활용하는 방법. 수치는 SLO=30 구성에 대한 AA-AgentPerf 결과를 반영합니다.
출시일 기준으로 NVIDIA GB300 NVL72는 이전 세대인 NVIDIA H200 대비 메가와트당 최대 20배 더 많은 동시 에이전트를 제공합니다(그림 4).

이러한 성능은 GB300 NVL72가 장기 지속 세션을 효율적으로 라우팅하는 것부터 다수의 동시 에이전트 세션에 걸쳐 전문가 혼합(MoE)과 GPU를 완전히 활용하는 것까지, 대규모 에이전트 코딩 워크로드 전반을 어떻게 감당하는지를 잘 보여줍니다.
- SGLang, TensorRT LLM, 또는 vLLM: 에이전트 런타임은 WideEP, DeepEP 같은 최적화를 적용해 MoE 전문가 실행을 전체 NVL72 도메인에 분산함으로써, 유효 배치 크기를 극대화하고 수천 개의 에이전트로 효과적으로 확장합니다.
- DeepGEMM 및 Mega MoE 최적화: MXFP4/MXFP8 커널과 융합 MoE는 NVLink 통신을 텐서 코어 연산과 겹치게 하여 추론과 코드 생성의 토큰 처리량을 높입니다.
- NVIDIA NVLink 스케일업 도메인: GB300 NVL72는 72개의 GPU를 단일 고대역폭 NVLink 패브릭으로 연결하므로, 모든 GPU가 파라미터, KV 캐시, 중간 결과를 빠르게 공유할 수 있습니다. 이는 에이전트 코딩 시스템의 빠르고 협조적인 실행에 매우 중요합니다.
앞으로의 전망: NVIDIA Vera Rubin 플랫폼
AA-AgentPerf는 에이전트 추론을 평가하는 표준을 확립하며, 그 결과는 긴밀하게 통합된 하드웨어와 소프트웨어가 동시성과 효율에서 어떻게 계단식(step-function) 향상을 이끌어낼 수 있는지를 잘 보여줍니다. NVIDIA GB300 NVL72는 최대 20배 높은 에이전트 코딩 성능을 입증합니다.
NVIDIA Vera Rubin 플랫폼은 50 PFLOPs의 NVFP4 연산을 활용하고 Vera CPU를 활용해 LLM 도구 호출을 가속함으로써, 에이전트 워크플로의 종단 간 성능과 경제성, 효율을 개선하며 이러한 이득을 한층 확장할 것으로 기대됩니다.
에이전트 워크로드가 추론 인프라에 왜 독특한 요구를 부과하는지, 그리고 NVIDIA Vera Rubin 플랫폼이 성능을 어떻게 최적화하는지 더 알아보려면 극한 코디자인으로 높아지는 에이전트 시스템의 복잡성에 대응하기를 참고하세요.
감사의 말
이 작업은 Jatin Gangani, Iman Tabrizian, Xiaoming Chen, Peiheng Hu, Taizhong Wu, Shichen Li, Manu Maheswari를 비롯한 수많은 재능 있는 NVIDIA 엔지니어들의 전문성과 엔지니어링 기여 덕분에 가능했습니다.