고도화된 AI 모델을 개발하고 배포하려면, 확장 가능하고 효율적인 GPU 인프라가 꼭 필요합니다. 하지만 클라우드 네이티브 환경에서 컨테이너 기반으로 이 인프라를 관리하는 일은 꽤 복잡하고 비용도 많이 들죠. 이럴 때 NVIDIA Run:ai가 큰 도움이 될 수 있습니다. 이제 NVIDIA Run:ai는 AWS Marketplace에서 정식 출시되어, AI 인프라 관리를 훨씬 간편하게 시작할 수 있게 됐습니다.
NVIDIA Run:ai는 쿠버네티스 네이티브 환경을 위해 설계된 GPU 인프라 컨트롤 플레인으로, 복잡한 설정 없이도 AI 워크로드를 빠르고 효율적으로, 그리고 적절한 거버넌스를 갖추어 체계적으로 확장할 수 있도록 도와줍니다.
이 글에서는 NVIDIA Run:ai가 AWS에서 AI 워크로드와 GPU를 어떻게 오케스트레이션하는지, 그리고 어떤 AWS 서비스와 어떻게 연동되는지 자세히 소개합니다. NVIDIA GPU 기반 Amazon EC2 인스턴스, Amazon EKS, Amazon SageMaker HyperPod, IAM, CloudWatch 등 다양한 AWS 네이티브 서비스와도 매끄럽게 통합됩니다.
과제: 대규모 GPU 오케스트레이션, 어떻게 효율적으로 할까?
대규모 모델 학습부터 실시간 추론까지, 요즘 AI 워크로드는 강력한 GPU를 유연하게 활용할 수 있어야 합니다. 그런데 쿠버네티스 환경에서는 GPU 지원이 충분하지 않아서 다음과 같은 문제가 자주 발생하죠.
- 정적 할당으로 인한 비효율적인 GPU 활용
- 워크로드 우선순위 지정 및 선점 기능 부족
- GPU 사용량에 대한 가시성 부족
- 팀 및 워크로드 전반에 걸친 거버넌스 적용의 어려움
NVIDIA Run:ai의 솔루션
NVIDIA Run:ai는 AI/ML 워크로드를 위한 쿠버네티스 기반 오케스트레이션 플랫폼으로, 위와 같은 문제를 해결해 줍니다. 가상 GPU 풀을 통해 정책 기반의 유연한 GPU 스케줄링을 지원합니다.
주요 기능은 다음과 같습니다:
- 부분(Fractional) GPU 할당: 하나의 GPU를 여러 추론 작업이나 Jupyter 노트북에서 공유하여 사용할 수 있습니다.
- 동적 스케줄링: 작업의 우선순위, 대기열, 가용성을 기반으로 전체 또는 부분 GPU를 할당합니다.
- 워크로드 인식 오케스트레이션: 학습, 튜닝, 추론을 각 단계에 최적화된 정책으로 다르게 처리합니다.
- 팀 기반 할당량과 격리: Fairshare 또는 하드 쿼터를 통해 팀 또는 프로젝트에 자원을 보장합니다.
- 멀티 테넌시 거버넌스: 공유 인프라 환경에서도 비용 가시성과 컴플라이언스를 확보할 수 있습니다.

AWS에서의 NVIDIA Run:ai 작동 방식
NVIDIA Run:ai는 NVIDIA 기반의 AWS 서비스들과 잘 연동되도록 설계되어 있어서, 성능은 최적화되고 운영은 간단해집니다.
1. 쿠버네티스 클러스터 내의 Amazon EC2 GPU 가속 인스턴스(NVIDIA A10G, A100, H100 등)
NVIDIA Run:ai는 NVIDIA GPU가 탑재된 EC2 인스턴스 위에 배포된 쿠버네티스 클러스터에서 AI 워크로드를 스케줄링합니다. 이를 통해 GPU 자원을 지능적으로 공유하고 패킹함으로써 GPU 활용도를 극대화합니다.
- 다중 GPU 및 다중 노드 학습 지원
- 대화형 워크로드에 대한 시간 분할 및 GPU 오버커밋 기능 제공
2. Amazon EKS(Elastic 쿠버네티스 Service)
NVIDIA Run:ai는 Amazon EKS와 네이티브로 통합되어 AI 워크로드를 위한 강력한 스케줄링 및 오케스트레이션 계층을 제공합니다. 이를 통해 쿠버네티스 클러스터 내 GPU 자원 활용을 극대화할 수 있습니다.
- EKS에 NVIDIA Run:ai 스케줄러를 네이티브로 통합
- 고급 GPU 자원 관리를 통해 EKS 상의 AI 워크로드를 오케스트레이션하고 최적화
- EKS 노드 전반에 걸쳐 GPU 드라이버, 모니터링 에이전트, 라이브러리 설치를 자동화하는 NVIDIA GPU Operator와 호환 가능
3. Amazon SageMaker HyperPod
NVIDIA Run:ai는 Amazon SageMaker HyperPod와 통합되어 온프레미스와 퍼블릭/프라이빗 클라우드 환경 전반으로 AI 인프라를 원활하게 확장할 수 있습니다.
- NVIDIA Run:ai의 고급 AI 워크로드 및 GPU 오케스트레이션 플랫폼과 결합 시 효율성과 유연성이 향상됨
- 대규모 분산 학습 및 추론을 위해 설계된 구조
Amazon CloudWatch와의 통합
대규모 GPU 워크로드를 모니터링하려면 실시간으로 가시성이 필요합니다. NVIDIA Run:ai는 Amazon CloudWatch와 통합되어 다음 기능을 제공합니다:
- 커스텀 지표: GPU 수준의 사용 지표(예: 메모리 사용률, 시간 분할 통계 등)를 CloudWatch로 전송
- 대시보드: 작업, 팀, 프로젝트 단위로 GPU 사용량 시각화
- 알람: GPU 저활용, 작업 실패, 쿼터 초과 등 상황에 맞는 경고 알림 설정
NVIDIA Run:ai의 풍부한 워크로드 원격 분석 기능과 CloudWatch의 분석 및 알림 기능을 결합하면 자원 소비 및 효율성에 대한 실행 가능한 인사이트를 확보할 수 있습니다.
AWS IAM과의 통합
AI 인프라에서 보안과 거버넌스는 기본입니다. NVIDIA Run:ai는 AWS IAM과 통합되어 다음을 실현합니다:
- AWS 리소스에 대한 보안 접근 제어 관리
- NVIDIA Run:ai 내부의 API, 리소스, 네임스페이스 수준에서 최소 권한 접근 제어 적용
- 컴플라이언스 및 보안을 위한 접근 로그 및 API 상호작용 감사 지원
IAM 통합을 통해, 조직 내에서 인가된 사용자와 서비스만이 NVIDIA Run:ai 리소스를 AWS 환경에서 접근하거나 관리할 수 있도록 보장합니다.
예시: EKS에서의 다중 팀 GPU 오케스트레이션
자연어 처리(NLP), 컴퓨터 비전, 생성형 AI 세 팀이 있는 조직을 예로 들어보겠습니다. 각 팀은 학습 작업을 위해 GPU를 안정적으로 확보하고, 추론 작업은 공유 인프라에서 수행해야 합니다.
Run:ai를 도입하면 다음과 같은 방식으로 운영할 수 있습니다.
- 팀별로 독립된 네임스페이스와 공정한 자원 쿼터를 설정합니다.
- 학습 작업은 우선순위와 자원 가용성을 기준으로 대기열에 넣고 자동으로 스케줄링됩니다.
- 추론이나 실험성 작업은 부분 GPU로 처리해 자원을 아끼면서도 빠르게 테스트할 수 있습니다.
- 모든 GPU 사용량은 CloudWatch로 모니터링하고, IAM을 통해 접근을 통제합니다.
이런 구조라면 팀 간 자원 충돌 없이 각자 빠르게 실험하고, 예산도 효율적으로 쓸 수 있을 것입니다

시작하기
기업이 AI 역량을 본격적으로 확장하기 시작하면, GPU 인프라를 수동으로 관리하는 방식은 지속 가능하지 않습니다. NVIDIA Run:ai는 AWS의 NVIDIA 기술과 결합되어, GPU 관리를 간소화하고 활용도를 높이며 AI 혁신 속도를 가속화하는 강력한 오케스트레이션 계층을 제공합니다.
EKS, EC2, IAM, SageMaker HyperPod, CloudWatch와의 네이티브 통합을 통해, NVIDIA Run:ai는 클라우드에서 AI/ML 워크로드를 위한 통합적이고 기업 친화적인 기반을 마련해 줍니다.
AWS 환경에서 NVIDIA Run:ai를 배포하거나 자세한 내용을 알아보려면, AWS Marketplace의 NVIDIA Run:ai 목록을 방문하거나 공식 문서를 참고하세요.
관련 자료
- GTC 세션: From Models to Microservices: Agentic AI at Data Center Scale
- GTC 세션: Scaling Inference Using NIM Through a ServerLess NCP SaaS Platform
- GTC 세션: Advancing GPU as a Service: Build a New Serverless Platform for AI-Native Cloud Applications (Presented by Vultr)
- SDK: IndeX – Amazon Web Services
- 웨비나: Accelerating Contact Center AI Workflows with NVIDIA AI Enterprise
- 웨비나: Deploy Production-Grade AI at Scale With NVIDIA AI Enterprise