Kubernetes에서 구동되는 모든 AI 클러스터는 저수준 드라이버 및 커널 설정부터 고수준 오퍼레이터 및 워크로드 구성에 이르기까지 상호 작용하는 전체 소프트웨어 스택을 필요로 합니다. 하나의 클러스터를 작동시키더라도 다음 클러스터를 그에 맞게 설정하는 데 며칠이 소요되곤 합니다. 구성 요소 하나를 업그레이드하면 다른 부분이 고장 나며, 새로운 클라우드로 이동하면 다시 처음부터 시작해야 합니다. AI Cluster Runtime은 클러스터 구성을 임계 경로(Critical Path)에서 제거하기 위해 설계된 새로운 오픈소스 프로젝트입니다. 이 프로젝트는 사용자의 클러스터에 즉시 배포할 수 있는 최적화되고 검증된 재현 가능한 Kubernetes 구성을 레시피 형태로 발행합니다.
AI Cluster Runtime 작동 원리
클라우드 및 온프레미스 AI 팩토리 전반의 GPU 클러스터를 지원하기 위해, NVIDIA는 AI 워크로드를 위한 드라이버, 런타임, 오퍼레이터, 커널 모듈 및 시스템 설정의 특정 조합을 검증합니다. AI Cluster Runtime은 이러한 결과물을 레시피로 발행합니다. 버전이 고정된 이 YAML 파일들은 특정 환경에서 테스트된 구성 요소, 버전 및 설정값을 캡처합니다. 또한 레시피에는 제약 조건(최소 Kubernetes 버전, 필수 OS, 커널 버전)과 구성 요소 간 의존성을 기반으로 계산된 배포 순서가 포함됩니다. 모든 레시피는 실제 클러스터에서 검증되었으며 여러 환경에서 재현 가능합니다.
사용자는 레포지토리에서 레시피를 직접 찾아보거나, REST API를 통해 쿼리하거나, aicr CLI를 사용하여 대상 환경에 맞는 레시피를 생성하고 이를 배포 가능한 Helm 차트 및 매니페스트로 변환할 수 있습니다.
클러스터 상태 캡처
이미 운영 중인 클러스터가 있다면 레시피를 생성하기 전에 그 상태를 스냅샷으로 저장할 수 있습니다. 이를 통해 OS 릴리스, 커널 버전, GPU 하드웨어 및 드라이버, Kubernetes 버전, 설치된 오퍼레이터 정보를 캡처합니다.
aicr snapshot \
--node-selector nodeGroup=gpu-worker \
--output cm://gpu-operator/aicr-snapshot
이 작업은 대상 노드에 단기 실행 Job을 배포하여 시스템 측정값을 수집하고, 그 결과를 ConfigMap이나 로컬 파일에 기록합니다. 이렇게 저장된 스냅샷은 이후 검증 단계에서 대조를 위한 기준점이 됩니다.
레시피 생성
레시피 명령은 대상 환경에 대한 설명을 입력받아, 이를 검증된 오버레이 라이브러리와 대조합니다. 이를 통해 정확한 구성 요소 버전과 설정값이 포함된 단일 레시피를 생성합니다.
aicr recipe \
--service eks \
--accelerator h100 \
--intent training \
--os ubuntu \
--platform kubeflow \
--output recipe.yaml
레시피는 단일 구성으로 유지되는 대신 다음과 같은 계층(layer)으로 구성됩니다.
- 기본 계층: 범용 구성 요소와 기본 버전을 정의합니다.
- 환경 계층: Amazon EKS의 EBS CSI 드라이버나 EFA 플러그인과 같이 Kubernetes 특화 구성 요소를 추가합니다.
- 의도 계층: 학습에 최적화된 구성 요소 설정과 NVIDIA 집합 통신 라이브러리(NCCL) 튜닝 파라미터를 구성합니다.
- 하드웨어 계층: 드라이버 버전을 고정하고 특정 가속기를 위한 CDI 및 GDRCopy와 같은 기능을 활성화합니다.
각 계층은 순서대로 추가되며, 일반적인 값보다 구체적인 값이 우선순위를 갖습니다.
특수화된 레시피(예: NVIDIA Blackwell + EKS + Ubuntu + 학습 + Kubeflow)는 16개 구성 요소에 걸쳐 최대 268개의 설정값을 포함합니다. 반면 일반적인 EKS 쿼리는 200개를 반환합니다. ‘학습’과 ‘추론’이라는 의도 차이만으로도 5개의 구성 요소가 교체되고 41개의 설정값이 변경될 수 있으며, 동일한 베이스에서 완전히 다른 배포 스택이 생성됩니다. 이러한 가변성 때문에 결국 사람들이 클러스터를 수동으로 튜닝하게 되는 것입니다.
검증
검증은 단계별로 진행됩니다. 무엇인가를 배포하기 전에, 준비 상태 점검(Readiness check)을 통해 레시피의 제약 조건과 사용자의 스냅샷을 비교합니다. 여기에는 Kubernetes 버전, OS, 커널 및 GPU 하드웨어가 포함됩니다.
aicr validate \
--recipe recipe.yaml \
--phase readiness
배포 이후 단계에서는 구성 요소의 상태와 규격 준수 여부를 검증합니다. 규격 준수 단계에서는 CNCF의 Certified Kubernetes AI Conformance Program과 같은 표준을 기준으로, 동적 리소스 할당(DRA), 갱 스케줄링, 작업 단위 네트워킹 등의 요구사항 충족 여부를 확인합니다.
번들 생성
번들러는 레시피를 실제 배포 가능한 아티팩트로 변환합니다.
aicr bundle \
--recipe recipe.yaml \
--system-node-selector nodeGroup=system-pool \
--accelerated-node-selector nodeGroup=gpu-worker \
--accelerated-node-toleration nvidia.com/gpu=present:NoSchedule \
--output ./bundles
출력물은 구성 요소별로 하나의 폴더가 포함된 디렉토리 형태이며, 각 폴더에는 values.yaml, 무결성 체크섬, README 및 선택 사항인 맞춤형 매니페스트가 들어 있습니다.
구성 요소는 종속성 그래프에 따라 정렬됩니다(예: NVIDIA GPU Operator 이전에 cert-manager, Kubeflow Trainer 이전에 NVIDIA GPU Operator 배치). 포함된 deploy.sh 스크립트를 사용해 배포하거나, --deployer argocd 옵션으로 ArgoCD Application 매니페스트를 생성할 수 있으며, 폐쇄망(air-gapped) 환경을 위해 번들을 OCI 이미지로 게시할 수도 있습니다.
AI Cluster Runtime 레시피 최신 상태 유지
레시피는 NVIDIA 내부 검증 파이프라인이 실행됨에 따라 업데이트됩니다. 새로운 구성 요소 릴리스, 드라이버 업데이트, 커널 파라미터 변경 사항은 테스트를 거쳐 게시된 레시피에 모두 반영됩니다. 예를 들어, 특정 NCCL 설정이 Blackwell의 처리량(throughput)을 향상시킨다면 해당 내용은 다음 레시피 버전에 포함됩니다.
모든 레시피는 버전별로 관리되므로, 업그레이드 전에 현재 배포 상태와 최신 검증 구성을 비교(diff)하여 정확히 어떤 부분이 변경되었는지 확인할 수 있습니다.
레시피 기여하기
협업을 위해 설계된 이 프로젝트는 CSP(클라우드 서비스 제공업체), OEM, 플랫폼 팀 및 개별 운영자가 다양한 하드웨어, OS, Kubernetes 배포판 조합을 검증하는 데 참여할 수 있도록 지원합니다.
레시피 기여: 기존 오버레이를 복사하고 해당 환경에 맞는 기준과 구성을 업데이트한 뒤, make test를 실행하고 PR(Pull Request)을 생성하세요. 상세 과정은 레시피 개발 가이드에 안내되어 있습니다.
프라이빗 확장: --data 플래그를 사용하여 런타임 시 외부 레시피 디렉토리를 오버레이할 수 있습니다. 이를 통해 퍼블릭 레시피와 별도로 조직 전용 구성을 포크(fork) 없이 유지할 수 있습니다.
이슈 보고: 사용자에게 중요한 환경 정보를 공유해 주세요. 이는 다음 검증 대상을 결정하는 데 직접적인 영향을 미칩니다.
AI Cluster Runtime 시작하기
AI Cluster Runtime은 GitHub에서 알파 버전으로 제공됩니다. 여기에는 aicr CLI, API 서버, 클러스터 에이전트가 포함되어 있으며, Ubuntu 24.04 기반의 NVIDIA H100 및 NVIDIA Blackwell 가속기를 사용하는 Kubernetes(예: Amazon EKS) 상의 학습 및 추론 워크로드를 위한 검증된 레시피가 담겨 있습니다.
학습 레시피는 Kubeflow Trainer를, 추론 레시피는 NVIDIA Dynamo를 대상으로 합니다. 모든 릴리스에는 SLSA 레벨 3 출처 인증, 서명된 SBOM 및 이미지 어테스테이션(attestation)이 포함됩니다.
현재 AI Cluster Runtime을 더 많은 플랫폼, 가속기 및 워크로드 유형으로 확장하기 위한 프로젝트가 진행 중입니다. AI 운영 규모를 확장할 수 있는 AI Cluster Runtime과 기타 제품에 대해 더 자세히 알고 싶으시다면 NVIDIA GTC 2026의 Operating Cloud AI Factories at Scale 세션을 확인해 보시기 바랍니다.