AI Platforms / Deployment

NVIDIA Rubin CPX, 100만 토큰 이상 컨텍스트 워크로드의 추론 성능과 효율을 가속하다

Reading Time: 3 minutes

AI에서 추론은 이제 가장 복잡한 과제에 당면한 영역이 되었습니다. 최신 모델은 에이전틱 AI로 진화하며, 다단계 추론과 지속적인 메모리, 장기 컨텍스트를 다룰 수 있게 되었습니다. 그 결과 소프트웨어 개발, 영상 생성, 심층 연구 등 다양한 분야에서 이전보다 훨씬 복잡한 문제를 풀어낼 수 있습니다. 그러나 이러한 워크로드는 기존 인프라가 감당하기 어려운 수준의 컴퓨팅, 메모리, 네트워킹 부담을 동반합니다. 추론을 어떻게 확장하고 최적화할 것인지, 근본적인 접근 방식을 다시 고민해야 하는 이유가 여기에 있습니다.

이 가운데 특히 중요한 과제는 방대한 컨텍스트를 처리하는 능력입니다. 예를 들어 소프트웨어 개발에서는 AI가 전체 코드베이스를 이해하고, 파일 간 의존성을 관리하며, 저장소 단위의 구조까지 파악해야 합니다. 그래야 단순한 자동완성 도구를 넘어 지능형 협업 파트너로 진화할 수 있습니다. 장편 영상 생성이나 연구 작업에서도 상황은 비슷합니다. 수백만 토큰에 걸쳐 일관성과 기억을 유지해야 하기 때문에, 현재 인프라가 감당할 수 있는 한계를 빠르게 넘어가고 있습니다.

이런 변화를 해결하기 위해 NVIDIA는 SMART 프레임워크를 제시합니다. SMART는 추론을 규모와 성능, 아키텍처, ROI, 생태계 전반에서 최적화할 수 있는 새로운 접근 방식입니다. 핵심은 컴퓨팅과 메모리 자원을 효율적으로 분리 및 할당할 수 있는 풀스택 인프라에 있습니다. 이를 뒷받침하는 기반에는 NVIDIA Blackwell과 GB200 NVL72 같은 최신 하드웨어가 있으며, NVFP4 저정밀 추론과 TensorRT-LLM, Dynamo 같은 오픈소스 소프트웨어가 결합해 AI 전반의 추론 성능을 근본적으로 바꾸고 있습니다.

이번 블로그에서는 이러한 분리형 추론 인프라의 진화를 살펴보고, 장기 컨텍스트 AI 워크로드를 더 높은 효율성과 ROI로 지원하기 위해 설계된 GPU, NVIDIA Rubin CPX를 소개합니다.

분리형 추론: AI 복잡성을 확장 가능한 방식으로 해결하다

추론은 크게 두 단계로 나눌 수 있습니다. 컨텍스트 단계와 생성 단계입니다. 컨텍스트 단계는 연산에 많은 자원을 쓰는 과정입니다. 방대한 입력 데이터를 빠르게 처리하고 분석해 첫 번째 토큰을 만들어내야 합니다. 반면 생성 단계는 메모리 대역폭에 크게 의존합니다. NVLink 같은 고속 인터커넥트를 활용해 토큰을 하나씩 끊임없이 출력해야 하죠.

분리형 추론은 이 두 단계를 독립적으로 처리할 수 있도록 해, 연산 자원과 메모리 자원을 각각 최적화할 수 있게 합니다. 이러한 아키텍처 전환은 처리량을 높이고 지연 시간을 줄이며, 전체 자원 활용도를 개선합니다(그림 1).

그림 1. 컨텍스트와 생성 워크로드에 GPU 역량을 맞춰 추론 성능을 최적화하는 과정

하지만 분리형 아키텍처에는 새로운 복잡성이 뒤따릅니다. 지연 시간이 짧은 KV 캐시 전송, LLM 인식 라우팅, 효율적인 메모리 관리가 정밀하게 맞물려야 하기 때문입니다. 이러한 요소들을 조율하는 역할을 맡은 것이 NVIDIA Dynamo이며, 최근 MLPerf Inference에서 새로운 성능 기록을 세우는 데 핵심적인 역할을 했습니다.

하지만 분리형 추론의 장점을 온전히 살리려면, 특히 연산 집약적인 컨텍스트 단계에서는 추가적인 가속이 필요합니다. 이 필요를 충족하기 위한 전용 솔루션이 바로 Rubin CPX GPU입니다. Rubin CPX는 대규모 컨텍스트 추론 워크로드에서 고처리량 성능을 발휘하도록 설계되었으며, 분리형 인프라에 매끄럽게 통합될 수 있습니다.

Rubin CPX: 장기 컨텍스트 처리를 가속하도록 설계된 GPU

Rubin CPX GPU는 장기 컨텍스트 성능을 강화하도록 설계된 제품으로, 기존 인프라를 보완하면서도 확장 가능한 효율성과 ROI를 극대화합니다. Rubin 아키텍처 기반으로 개발된 Rubin CPX는 추론 과정 중 연산 집약적인 컨텍스트 단계에서 혁신적인 성능을 제공합니다. 이 GPU는 NVFP4 연산 성능 30 페타FLOPS, 128GB GDDR7 메모리, 비디오 인코딩·디코딩 하드웨어 지원, 그리고 NVIDIA GB300 NVL72 대비 3배 향상된 어텐션 가속 기능을 갖추고 있습니다.

장기 시퀀스를 효율적으로 처리하도록 최적화된 Rubin CPX는 소프트웨어 애플리케이션 개발이나 고화질 영상 생성처럼 높은 가치를 지닌 추론 활용 사례에서 핵심적인 역할을 합니다. 기존의 분리형 추론 아키텍처를 보완하며, 처리량과 응답성을 높이고 대규모 생성형 AI 워크로드의 ROI를 극대화합니다.

Rubin CPX는 생성 단계 처리를 담당하는 NVIDIA Vera CPU 및 Rubin GPU와 함께 동작하여, 장기 컨텍스트 활용 사례를 위한 완전한 고성능 분리형 서빙 솔루션을 제공합니다. NVIDIA Vera Rubin NVL144 CPX 랙은 144개의 Rubin CPX GPU, 144개의 Rubin GPU, 36개의 Vera CPU를 통합해 NVFP4 연산 성능 8엑사FLOPS를 제공합니다. 이는 GB300 NVL72 대비 7.5배 향상된 성능으로, 하나의 랙 안에 100TB의 고속 메모리와 1.7PB/s의 메모리 대역폭까지 집약했습니다.

또한 NVIDIA Quantum-X800 InfiniBand와 Spectrum-X Ethernet, ConnectX-9 SuperNIC, 그리고 Dynamo 플랫폼의 오케스트레이션이 결합되어, Vera Rubin NVL144 CPX는 백만 토큰 이상의 장기 컨텍스트 추론 워크로드를 지원하는 차세대 플랫폼으로 완성됩니다. 이를 통해 추론 비용을 절감하고, 전 세계 개발자와 크리에이터가 새로운 기능을 활용할 수 있도록 지원합니다.

규모 확장 시 이 플랫폼은 30배에서 50배에 달하는 ROI를 제공하며, 1억 달러의 CAPEX 투자로 최대 50억 달러의 수익을 창출할 수 있습니다. 분리형 인프라, 가속화 기술, 풀스택 오케스트레이션을 결합한 Vera Rubin NVL144 CPX는 차세대 생성형 AI 애플리케이션을 구축하려는 기업에게 새로운 기준을 제시합니다.

그림 2. Rubin 컨텍스트 GPU(Rubin CPX), Rubin GPU, Vera CPU가 탑재된 NVIDIA Vera Rubin NVL144 CPX 랙과 트레이

요약

NVIDIA Rubin CPX GPU와 NVIDIA Vera Rubin NVL144 CPX 랙은 SMART 플랫폼 철학을 잘 보여줍니다. 아키텍처 혁신과 생태계 통합을 통해 확장 가능한 다차원 성능과 ROI를 제공하는 것입니다. NVIDIA Dynamo로 구동되는 Rubin CPX는 방대한 컨텍스트 처리를 위해 설계된 풀스택 AI 인프라의 새로운 기준을 세우며, 고급 소프트웨어 개발과 생성형 영상 같은 워크로드에 새로운 가능성을 열어줍니다.

NVIDIA Rubin CPX에 대해 자세히 알아보세요.

Discuss (0)

Tags