NVIDIA Vera CPU: AI 팩토리를 위한 고성능, 고대역폭, 고효율의 정점

Reading Time: 6 minutes

AI 기술이 비약적으로 진화함에 따라 추론 모델의 토큰 수요가 폭증하고 있으며, 이는 AI 인프라의 모든 계층에 새로운 과제를 던지고 있습니다. 모델 제작자와 사용자 모두의 생산성을 높이기 위해서는 그 어느 때보다 효율적인 컴퓨팅 확장이 필수적입니다.

최신 GPU는 세대를 거듭하며 처리량을 한계치까지 밀어붙이고 있지만, 전체 시스템 성능은 점차 에이전틱 루프 내의 CPU 집약적인 직렬 작업에 발목을 잡히고 있습니다. 이는 컴퓨터 과학의 고전적 원칙인 ‘암달의 법칙(Amdahl’s law)’이 극명하게 드러나는 지점이기도 합니다.

이러한 현상은 특히 두 가지 워크로드에서 두드러집니다. 첫째는 코딩이나 공학 등 전문 기술을 학습시키기 위한 강화학습이며, 둘째는 AI 에이전트가 웹 브라우저, 데이터베이스, 코드 인터프리터 등의 도구를 활용해 실제 환경이나 샌드박스에서 작을 수행하는 에이전틱 액션(Agentic actions)입니다.

이 두 워크로드는 과거에는 서로 분리되었던 CPU의 두 가지 특성을 동시에 요구합니다. 개별 환경은 복잡한 코드를 빠르게 실행하기 위해 워크스테이션 수준의 강력한 싱글 스레드 성능이 필요합니다. 동시에 현대적인 AI 시스템은 수천 개의 환경을 동시에 구동해야 하므로, 서버 인프라 특유의 대규모 처리량 확보도 놓칠 수 없습니다.

NVIDIA Vera CPU는 이러한 현대적 AI 워크로드에 최적화되어 설계되었으며, 다음과 같은 핵심 설계 특징을 갖췄습니다.

극강의 싱글 코어 성능: 개별 작업의 신속한 실행은 필수적입니다. 수많은 사용자와 에이전틱 작업이 동시에 몰리는 과부하 상태에서도 성능이 꺾이지 않고 꾸준히 유지되어야 합니다.
코어당 높은 메모리 및 패브릭 대역폭: 실시간 분석과 문맥 전환(Context switching) 작업을 위해 방대한 데이터를 효율적으로 이동시켜, 부하 상황에서도 일관된 서비스 수준 협약(SLA)을 보장합니다.
효율적인 랙 스케일 공동 설계: AI 팩토리는 에이전틱 수요에 맞춰 용량을 신속하게 배치하고 관리하는 동시에, 전력 효율성을 극대화해야 합니다.

Vera CPU로 구축된 데이터 센터는 가속기에 직접 연결되든, 네트워크 끝단에서 독립적인 CPU 용량으로 작업을 수행하든 상관없이 AI 인프라 투자 가치를 극대화합니다.

사후 학습의 실체

강화학습 환경에서 모델은 자신의 결과물을 끊임없이 평가하며 어떤 결과가 성공이고 실패인지 파악해야 합니다. 예를 들어, 소프트웨어 개발을 학습하는 모델은 가속기에서 구동되는 모델을 통해 방대한 양의 코드를 생성한 뒤, 이를 CPU 클러스터로 보내 빌드, 실행, 테스트 과정을 거칩니다. 이 과정은 하나의 거대한 ‘피드백-보상 루프’로 작동합니다(그림 1 참조).

이러한 작업은 코드베이스 조사부터 컴파일, 런타임 실행, 스크립팅, 데이터 변환 등 공통적인 운영 전반을 아우릅니다. 결과적으로 이 워크플로우를 소화하려면 도구 세트가 완비된 수많은 샌드박스형 환경이 동시에 구동되어야 합니다. 대개 가속기에서 생성된 요청 묶음을 처리하기 위해, 단일 CPU 코어가 가벼운 스레드로 구성된 각 케이스를 처음부터 끝까지 전담하여 실행합니다.

가속기 활용도를 극대화하고 모델 반복 학습 속도를 높이기 위해, 토큰 생성 및 학습 단계는 매우 정밀한 스케줄(또는 정책)에 따라 운영됩니다. 종종 CPU에서 실행되는 일부 평가 작업이 너무 늦게 종료되어 다음 단계의 사이클에 영향을 주지 못하는 경우가 발생하곤 합니다. 이런 일이 벌어지면 모델이 동일한 수준의 품질을 학습하는 데 더 많은 시간이 소요되며, 귀중한 토큰 자원마저 낭비됩니다.

에이전틱 루프는 투입되는 CPU에 강력한 싱글 코어 성능, 방대한 데이터 대역폭, 그리고 꼬리 지연 시간을 최소화한 결정론적 실행의 절묘한 조화를 요구합니다.

이러한 요구사항은 NVIDIA Vera CPU 설계의 핵심 사안입니다(그림 2 참조). Vera CPU는 경쟁 플랫폼 대비 최대 50% 빠른 샌드박스 성능과 1.2TB/s의 메모리 대역폭을 제공합니다. 또한 NVIDIA 스페이셜 멀티스레딩 기술이 적용된 88개의 Olympus 코어를 탑재하여, AI 팩토리에 필수적인 대규모 작업 병렬 처리 능력을 실현했습니다.

NVIDIA Olympus 코어

AI 지원을 위한 고성능 코어의 필요성은 NVIDIA 최초의 완전 커스텀 데이터 센터 CPU 코어인 Olympus 개발로 이어졌습니다. Olympus는 NVIDIA Grace CPU를 위해 처음 개발되었던 NVIDIA 스케일러블 코히어런시 패브릭(SCF)의 2세대 버전과 함께 Vera를 통해 화려하게 데뷔합니다.

제어 흐름 로직이 복잡하고 메모리 집약적인 워크로드에서 높은 사이클당 명령어 처리 횟수(IPC)를 지속하기 위해, Olympus는 10-와이드 명령어 인출(Fetch) 및 디코드 프론트엔드를 채택했습니다. 또한 사이클당 두 개의 분기를 평가할 수 있는 신경망 기반 분기 예측기를 탑재했습니다. Arm v9.2 명령어 세트 및 기존 소프트웨어와 완벽히 호환되므로, Arm 기반 컨테이너, 바이너리, 라이브러리 및 운영체제에서 압도적인 성능을 발휘합니다.

사용자는 NVIDIA SMT 기술을 통해 런타임 시 스레드당 성능과 스레드 수 사이에서 최적의 선택을 내릴 수 있습니다. 덕분에 과부하 상태에서도 각 스레드는 안정적인 성능과 강력한 격리 수준, 그리고 예측 가능한 꼬리 지연 시간을 확보합니다. 시분할 자원 공유와 빈번한 문맥 전환에 의존해 성능 변동을 초래하던 기존의 SMT 방식과는 차원이 다른 안정성을 보장합니다.

NVIDIA 스케일러블 코히어런시 패브릭(SCF) 및 메모리 서브시스템

Vera CPU는 단일 모놀리식 컴퓨팅 다이(Die)와 패브릭을 기반으로 설계되었습니다. 인접한 다이렛(Dielet)이 메모리와 I/O 서브시스템을 담당하면서도, 컴퓨팅 토폴로지의 균일성은 그대로 유지합니다.

애플리케이션 입장에서 보면, 모든 코어는 다른 코어나 캐시, 메모리, 네트워크 등의 자원과 실질적으로 동일한 거리에 위치하며 균등한 고대역폭을 할당받습니다. 지연 시간에 민감한 대부분의 작업이 로컬에서 처리되므로, 기존 CPU에서 흔히 발생하는 불필요한 다이 간 데이터 이동(Cross-die traffic) 문제를 원천적으로 해결합니다.

AI 팩토리 내에서 에이전틱 작업, 분석 운영, KV 및 블롭(Blob) 캐시, 오케스트레이션, 컨트롤 플레인의 실행 경로는 본질적으로 예측이 불가능합니다. 기존 방식에서는 성능 극대화를 위해 프로세서의 토폴로지와 인접 작업의 사용 패턴까지 사전에 세밀하게 고려해야 했으나, Vera의 설계는 이러한 번거로운 튜닝 과정 없이도 최적의 성능을 끌어냅니다.

2세대 SCF는 88개의 모든 Olympus 코어를 공유 L3 캐시 및 메모리 서브시스템에 연결하여 일관된 지연 시간과 3.4TB/s의 바이스섹션(Bisection) 대역폭을 제공합니다. 이를 통해 Vera CPU는 과부하 상황에서도 최대 메모리 대역폭의 90% 이상을 안정적으로 유지합니다. 특히 각 코어에 기존 데이터 센터 CPU의 약 3배에 달하는 최대 14GB/s의 메모리 대역폭을 할당했다는 점에 주목해야 합니다. 덕분에 모든 코어가 활성화된 상태에서도 ETL(추출·변환·적재), 실시간 분석, 메모리 집약적 워크로드의 처리량을 저하 없이 방어합니다.

SCF에 강력한 동력을 공급하는 Vera의 2세대 LPDDR5X 메모리 서브시스템은 기존 DDR 구성의 절반도 안 되는 전력으로 최대 1.2TB/s의 총 대역폭을 실현합니다. 용량 또한 이전 세대보다 3배 늘어난 최대 1.5TB를 지원합니다. 특히 SOCAMM 기술을 데이터 센터에 최초로 도입하며 혁신을 더했습니다. 이는 기존의 납땜 고정식 메모리를 탈착 및 업그레이드가 가능한 모듈로 대체하여, LPDDR의 압도적인 효율성과 서버급 유지보수 편의성을 완벽하게 결합한 결과입니다.

AI 팩토리 전반에 걸친 성능 지표

이러한 모든 아키텍처 요소가 결합된 결과, NVIDIA Vera CPU는 컴파일러, 스크립팅 도구, 런타임 엔진, 압축, 에이전틱 도구 호출 등 다양한 영역에서 경쟁사 x86 플랫폼 대비 소켓당 최대 1.5배 높은 샌드박스 성능을 구현합니다(그림 3 참조).

이러한 성능 우위는 다음 세 가지 차원에서 강력한 시너지를 창출합니다.

먼저 RL 사후 학습 단계에서 1.5배 빠른 샌드박스는 훨씬 더 짧은 시간 안에 평가 결과를 반환하며, 이를 통해 모델이 최적의 그래디언트 토큰을 신속하게 포착하고 전체 학습 사이클을 가속화할 수 있게 합니다.

또한 에이전틱 추론 시 사용자의 대기 시간을 줄여 가속기 활용도를 높이는 동시에, KV 캐시 오프로딩에 가해지는 압박을 완화하는 효과를 거둡니다.

마지막으로 프런티어 학습 문제에서 50% 향상된 싱글 코어 성능은 시간 제한 내에 더 많은 순차적 테스트를 완료할 수 있음을 의미하며, 결과적으로 모델이 학습하고 해결할 수 있는 난제의 범위를 대폭 확장합니다.

랙 단위로 실현되는 에이전틱 환경

모든 AI 팩토리는 강화학습(RL)과 도구 활용이라는 에이전틱 루프를 구현하기 위해 수백만 개의 CPU 코어를 필요로 합니다. AI 인프라의 잠재력을 온전히 끌어내기 위해서는 신속한 배포가 필수적이며, 많은 AI 팩토리 운영자들에게 Vera CPU는 고전력 랙과 액체 냉각에 최적화된 데이터 센터의 핵심 자산으로 자리 잡을 전망입니다.

새로운 NVIDIA Vera CPU Rack은 현재 도입 중인 NVL72 제품군과 동일한 설계 제약, 랙 인프라, 냉각 및 전력 환경 내에서 압도적인 밀도와 성능을 선사합니다.

2만 2,500개 이상의 샌드박스를 수용할 수 있는 Vera CPU Rack은 기존 x86 기반 서버 랙 대비 4배 이상의 수용량과 2배 높은 와트당 성능을 자랑합니다(그림 4 참조). AI 팩토리는 랙 단위로 용량을 배치하고 관리함으로써 구축 시간을 획기적으로 단축하며, 사이트 설계 과정을 단순화하는 동시에 신규 자원의 시장 투입 시기를 앞당깁니다.

또한 각 Vera CPU는 전용 Grace 기반 관리 코어를 탑재한 NVIDIA BlueField-4 SmartNIC와 연결됩니다. 이를 통해 보안 및 관리와 같은 네트워킹 작을 효과적으로 오프로딩하여, 시스템 내에서 가장 강력한 컴퓨팅 자원이 오직 에이전틱 작업에만 전념할 수 있는 환경을 보장합니다.

Vera 플랫폼 및 구성 방식

NVIDIA는 Vera CPU 랙뿐만 아니라, 현대적인 AI 팩토리의 다양한 워크로드를 소화할 수 있는 Vera 기반 플랫폼 라인업 전체를 설계했습니다. 다양한 밀도, 냉각 성능, 구성 옵션 및 폼팩터를 제공함으로써, Vera의 설계 및 시스템 파트너들은 어떠한 데이터 센터 환경의 공간적 제약 속에서도 신속한 배포와 용량 확장을 실현하고 있습니다.

플랫폼	상세 설명	활용 시나리오
NVIDIA Vera Rubin NVL72	통합형 AI 팩토리 랙으로, 고대역폭 NVIDIA NVLink-C2C 및 NVIDIA NVLink 스케일업 패브릭을 통해 Vera 호스트 CPU와 Rubin GPU를 강력하게 결합합니다.	대규모 AI 팩토리, 프런티어 모델 학습, 추론(Reasoning) 및 고처리량 인퍼런스
NVIDIA Vera CPU Rack	1U 트레이당 최대 4개의 노드를 수용하는 액체 냉각(LC) CPU 랙 아키텍처입니다. 랙당 최대 256개의 Vera CPU를 탑재하여 밀도 높은 고효율 컴퓨팅을 실현하며, NVL72와 병행하여 신속한 용량 확장이 가능합니다.	AI 팩토리 인프라, 에이전틱 파이프라인, 오케스트레이션 계층, 데이터 처리, HPC 및 CPU 집약적 서비스
싱글 및 듀얼 소켓 Vera 플랫폼	폼 한 개 또는 두 개의 Vera CPU를 기반으로 구축된 유연한 서버 플랫폼입니다. 소켓당 최대 1.5TB의 LPDDR5X를 지원하며, 듀얼 소켓 설계 시 CPU 간 1.8TB/s의 NVLink-C2C를 제공하여 어떠한 시설에도 적합합니다.	클라우드 인프라, 엔터프라이즈, 분석, 스토리지, HPC, NVIDIA PCIe GPU 탑재 서버 및 AI 팩토리
NVIDIA HGX Rubin NVL8	PCIe를 통해 Vera 호스트 CPU와 Rubin GPU를 연결하는 가속 컴퓨팅 플랫폼으로, 다양한 서버 설계에서 CPU와 GPU 간의 균형 잡힌 성능을 구현합니다.	AI 추론, 기술 컴퓨팅, 분석 및 엔터프라이즈 HPC 배포

표 1. 현대적인 AI 팩토리를 위한 Vera 플랫폼 옵션

플랫폼 출시 일정 및 가용성

Vera 시스템은 2026년 하반기부터 Cisco, Dell, HPE, Lenovo, Supermicro 등 주요 OEM 파트너사를 통해 만나보실 수 있습니다. 더욱 자세한 내용은 Vera CPU 웹페이지에서 확인하시기 바랍니다.

Vera CPU와 Vera Rubin에 관한 보다 자세한 정보를 확인해 보세요.

NVIDIA Vera는 코드 컴파일, 인터프리터, 스크립팅, 런타임 엔진은 물론 ETL, 데이터 분석, 그래프 연산 등 다채로운 워크로드 전반에 걸쳐 AMD EPYC Turin 및 Intel Xeon 6 Granite Rapids 대비 압도적인 성능 우위를 증명하고 있습니다.

NVIDIA Vera CPU: AI 팩토리를 위한 고성능, 고대역폭, 고효율의 정점

사후 학습의 실체

NVIDIA Olympus 코어

NVIDIA 스케일러블 코히어런시 패브릭(SCF) 및 메모리 서브시스템

AI 팩토리 전반에 걸친 성능 지표

랙 단위로 실현되는 에이전틱 환경

Vera 플랫폼 및 구성 방식

플랫폼 출시 일정 및 가용성

Tags

작성자 소개

NVIDIA Vera CPU: AI 팩토리를 위한 고성능, 고대역폭, 고효율의 정점

사후 학습의 실체

NVIDIA Olympus 코어

NVIDIA 스케일러블 코히어런시 패브릭(SCF) 및 메모리 서브시스템

AI 팩토리 전반에 걸친 성능 지표

랙 단위로 실현되는 에이전틱 환경

Vera 플랫폼 및 구성 방식

플랫폼 출시 일정 및 가용성

Tags

작성자 소개

댓글

Related posts

NVIDIA CCCL을 활용한 부동 소수점 결정론 제어 기법

cuTile.jl: NVIDIA CUDA 타일 기반 프로그래밍, 이제 Julia에서도 만나보세요

코딩 에이전트를 활용한 게임 런타임 추론 비용 최적화 전략

NVFP4가 AI 훈련과 추론 성능을 가속하는 3가지 방법

Nemotron을 활용한 RAG 기반 문서 처리 파이프라인 구축 가이드