Agentic AI / Generative AI

NVIDIA Vera Rubin 플랫폼이 에이전틱 AI의 스케일업 과제를 해결하는 방식

Reading Time: 5 minutes

에이전틱 추론은 비결정적 궤적—AI 에이전트가 과제를 수행하며 생성하는 행동, 관찰, 의사 결정—을 추론 워크로드에 도입하여 런타임 동작 방식을 근본적으로 변화시켰습니다. 단일 세션에서 발생하는 수백 건의 추론 요청 전반에 걸쳐 이러한 궤적이 누적되면 엔드 투 엔드 지연이 비례하여 증가합니다.

NVIDIA Vera Rubin NVL72NVIDIA Vera Rubin 플랫폼의 핵심 컴퓨트 엔진으로서 이러한 추론 부하의 대부분을 전담합니다. 신흥 멀티 에이전트 워크로드 중 가장 까다로운 작업은 롱 컨텍스트 윈도우를 갖춘 1조 파라미터 규모의 MoE 모델에서 지속적인 저지연과 높은 처리량을 동시에 요구합니다.

지금까지 이러한 신생 워크로드를 경제적으로 서비스한 플랫폼은 존재하지 않았습니다. Vera Rubin NVL72와 결합한 NVIDIA Groq 3 LPX는 파레토 곡선 상 이 지점에서 고처리량과 저지연을 동시에 달성한 최초의 사례입니다.

이 글에서는 NVIDIA Vera Rubin 플랫폼이 하드웨어·소프트웨어 공동 설계(extreme co-design)를 통해 이 과제를 해결하는 방식, 그리고 수백에서 수천 개의 칩 전반에서 고처리량 컴퓨트와 저지연·결정적 실행을 결합하는 방식을 살펴봅니다.

에이전틱 워크로드가 예측 가능한 스케일업 네트워킹을 요구하는 이유

기존 데이터 센터의 네트워킹 패브릭은 대규모 학습 작업과 대량 추론 워크로드에 최적화되어 있습니다. 이 환경에서는 대규모 배치가 소규모 네트워크 지터(jitter)를 평균값 내로 흡수합니다. 반면 프리미엄 AI 서비스는 더 높은 모델 역량과 사용자 체감 성능을 동시에 요구합니다. 이 단계의 에이전틱 디코드는 근본적으로 다른 요건을 제시합니다.

  • 멀티 턴 모델 요청
  • 소규모 배치
  • 극저지연

프리미엄 AI 서비스에서 주로 활용되는 롱 컨텍스트와 대형 MoE 모델은 추가적인 네트워킹 과제를 수반합니다(그림 1). 멀티 에이전트 파이프라인 내 각 에이전트는 지속적으로 확장되는 KV 캐시, 시스템 프롬프트, 도구 정의, 대화 이력을 각각 보유합니다. 이 KV 캐시와 새로 생성되는 토큰을 1조 파라미터 규모의 모델 및 여러 가속기에 분산된 전문가(expert) 모듈로 라우팅하는 작업이 필요합니다.

이러한 궤적을 원활히 처리하려면 네트워크 레벨 오케스트레이션이 칩 간 홉(hop) 변동을 최소화해야 합니다. 모델을 단일 칩에 적재할 수 없는 SRAM 기반 아키텍처에서 칩 간 교환은 불가피합니다. 그리고 이 교환이 실제로 발생하는 물리적 메커니즘이 서비스 시스템 전체의 핵심 병목으로 작용합니다.

업계는 이 과제를 그동안 두 가지 방식으로 해결해 왔습니다.

  • 런타임 조정형 네트워킹 패브릭: 흐름 제어를 사후 반응형으로 수행하며, 타이밍은 보장된 값이 아닌 통계적 경계 내에서만 안정성을 확보합니다.
  • 온다이 컴퓨트와 메모리의 대규모 집적: 네트워킹 문제를 일시적으로 지연시키지만, 모델 크기와 컨텍스트 윈도우 확장으로 스케일업·스케일아웃이 필요해지는 시점에 동일한 문제가 재등장하며 멀티칩 성능 저하로 이어집니다.

에이전틱 스케일에서 처리량과 지연 간의 트레이드오프를 극복하려면 네트워킹 패브릭을 실리콘·컴파일러·서빙 스택과 통합 설계해야 합니다. LPU C2C는 하드웨어·소프트웨어 공동 설계를 통해 이 지점을 돌파하며, 조 단위 파라미터 모델의 대규모 운영을 가능하게 합니다.

NVIDIA Groq 3 LPX의 스케일업 과제 해결 방식

NVIDIA Groq 3 LPX의 LPU C2C는 스케일업 문제를 직접 해결하도록 설계되었습니다. 인터커넥트를 런타임에 경합과 타이밍 불확실성을 처리해야 하는 일반 네트워크로 취급하는 대신, LPU C2C는 Groq의 결정적 실행 모델을 다수의 LPU 전반으로 확장합니다. 이를 위해 다음 세 가지 기술이 유기적으로 결합되어 작동합니다.

  • 고밀도 포인트 투 포인트 링크
  • LPU 컴파일러 기반 데이터 이동 스케줄링
  • 하드웨어 기반 준동기(plesiosynchronous) 타이밍

이 세 가지 기술의 통합을 통해 Groq 3 LPU 가속기는 수천 개 칩 규모까지 확장하면서도 예측 가능한 통신, 고정 지연, 저지터 실행을 유지합니다. 이어서 각 기술을 순서대로 살펴봅니다.

고밀도 포인트 투 포인트 링크

각 LPU는 112 Gbps C2C 링크 96개를 제공하며, LPU당 약 2.5 TB/s, 랙 레벨에서는 640 TB/s의 스케일업 대역폭을 확보합니다. NVIDIA MGX 랙 스케일 아키텍처를 기반으로 하며, 케이블리스(cableless) 트레이와 포인트 투 포인트 고밀도 C2C 토폴로지를 통해 트레이와 랙 전반에서 컴퓨트와 통신을 긴밀하게 결합합니다.

직접 피어 연결, 전용 경로, 부하 상황에서의 대칭 라우팅, 낮은 홉 카운트가 결합되어 컬렉티브 통신의 효율을 크게 향상시킵니다. 이와 동시에 컴파일러는 모든 전송을 런타임이 아닌 컴파일 타임에 정적으로 계획합니다.

컴파일러 스케줄 기반 데이터 이동

LPU C2C 확장은 소프트웨어 스케줄을 기반으로 동작합니다. LPU 간 통신은 320바이트 벡터—컴퓨트에서도 사용하는 동일한 고정 크기 단위—로 처리되며, 흐름 제어와 스케줄링은 매트릭스·벡터·스위치 실행 모듈과 동급의 일급(first-class) 기능 단위로서 컴파일 타임에 결정됩니다. 컴파일러는 모든 전송을 사전에 계획합니다. 각 벡터의 소스 LPU 출발 시점, 사용 링크, 도착 시점이 사전에 결정되므로 로드 밸런싱, 경로 선택, 동기화는 경합 상황의 하드웨어 스케줄러를 거치지 않고 정적으로 해결됩니다. 그 결과 컴파일러는 수천 개의 상호 연결된 LPU를 단일 스케줄링 실행 표면으로 취급합니다. 이는 독립된 칩들의 네트워크보다는 단일 다이 내 기능 단위 간 와이어에 가까운 모델입니다.

하드웨어 기반 준동기 타이밍

각 LPU는 자체 클럭으로 동작하며, 클럭 드리프트는 불가피하게 발생합니다. 따라서 LPU C2C 확장은 준동기(plesiosynchronous), 즉 거의 동기에 가까운 C2C 프로토콜을 통해 드리프트를 보정하여 수천 개의 LPU를 단일 코어와 같이 정렬합니다. 데이터 도착 시점이 예측 가능하고 주기적인 소프트웨어 동기화가 병행되면, 런타임은 방어적 버퍼링에 의존하지 않습니다. 그 결과 대부분의 아키텍처가 구현하기 어려운 규모에서도 컴파일 타임에 결정된 네트워크 지연을 그대로 유지합니다. 예측 불가능한 네트워크 홉을 제거하고, 데이터 이동을 조율하며, 지연을 컴파일 타임에 고정하는 이러한 스케일업 기술을 통해 Groq 3 LPX는 수백에서 수천 개의 LPU를 단일한 저지터 시스템으로 운용합니다. 도구, 메모리, 다단계 계획을 빠르게 조율해야 하는 에이전틱 워크로드는 이 인프라 위에서 동작합니다.

에이전틱 워크로드가 LPU C2C에서 얻는 이점

LPU C2C의 핵심 성과는 랙 스케일의 결정성입니다. 확장 규모와 무관하게 일관된 성능을 유지하는 128 GB 통합 온칩 SRAM이 그 결과입니다(그림 3). 텐서 병렬 도메인 내 이러한 용량의 SRAM은 양산 중인 SRAM 기반 ASIC 중 최대 규모이며, LPU 아키텍처의 SRAM 확장 우위를 입증합니다.

LPU 컴파일러는 계층별 분할(layer-wise partitioning) 등의 전략을 활용해 1조 파라미터 모델을 이 SRAM 풀에 분산 배치합니다. 그 결과 온칩 SRAM의 합산 용량은 단일 칩으로는 제공할 수 없는 규모의 워킹 메모리로 기능합니다. 에이전틱 워크로드 관점에서 이는 프런티어 MoE 모델이 컨텍스트 윈도우나 정확도를 희생하지 않고도 저지연으로 동작함을 의미합니다. 멀티 에이전트 세션의 버스트성 팬아웃 패턴 하에서도 테일 지연(tail latency)은 상한선 내로 유지되며, 토큰당 지연은 예측 가능합니다.

저지연 확보만으로는 충분하지 않습니다. AI 팩토리 배포에는 대규모 GPU 풀이 제공하는 컴퓨트 용량, 처리량, 동시 서빙 능력 또한 필요합니다. 이 지점에서 Vera Rubin NVL72와의 공동 설계가 효과를 발휘합니다. Vera Rubin NVL72는 랙당 최대 3,600 PFLOPS의 NVFP4 컴퓨트, 20.7 TB HBM4, 1.6 PB/s의 메모리 대역폭을 제공하며 프리필, 롱 컨텍스트 디코드 어텐션, 고동시성 서빙을 담당합니다. 지연 예산이 더욱 제한적인 상황에서는 NVIDIA Dynamo(그림 4)가 Attention-FFN Disaggregation(AFD) 기반의 이종 디코드 루프를 오케스트레이션합니다. 이 AFD 루프는 다음과 같은 방식으로 구성됩니다.

  • Rubin GPU가 누적된 KV 캐시에 대해 디코드 어텐션을 수행합니다.
  • LPX가 FFN 실행을 가속합니다.
  • 중간 활성값(intermediate activation)은 토큰 단위로 KV-aware 저오버헤드 전송을 통해 교환합니다.

이러한 역할 분담이 효과적인 이유는 두 엔진이 서로 다른 타이밍 영역을 대상으로 하기 때문입니다. 프리필과 디코드 어텐션은 큰 배치와 다수 토큰에 걸쳐 분산되는 KV 캐시 읽기 중심의 처리량 지배적 작업으로, NVLink의 고대역폭 스케일업 인터커넥트에 적합한 프로필을 보입니다. 반면 FFN 디코드 루프는 소규모 배치로 순차 토큰을 생성하는 영역이며, 마이크로 지터가 사용자 체감 지연에 주요 영향 요인으로 작용합니다. 컴파일 타임에 스케줄된 C2C는 이 영역을 위해 설계된 솔루션입니다.

Groq 3 LPX, Vera Rubin NVL72, Dynamo의 통합 동작을 통해 결정적 저지연, 프런티어 모델 수준의 스케일, 롱 컨텍스트 지원, 고처리량이 동일한 서빙 경로에서 동시에 구현됩니다. 400K 토큰 컨텍스트의 1조 파라미터 MoE 모델에서 사용자당 초당 400 토큰을 유지하는 환경에서, NVIDIA의 공동 설계는 NVIDIA GB200 NVL72 대비 메가와트당 최대 35배 높은 처리량을 제공하며 에이전틱 워크로드의 매출 기회를 최대 10배 확장합니다.

Vera Rubin 플랫폼 사양과 LPX에 관한 자세한 내용은 다음 블로그 게시물을 참조하시기 바랍니다.

Discuss (0)

Tags