LLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기

Reading Time: 4 minutes

고도화된 AI 모델을 개발하고 배포하려면, 확장 가능하고 효율적인 GPU 인프라가 꼭 필요합니다. 하지만 클라우드 네이티브 환경에서 컨테이너 기반으로 이 인프라를 관리하는 일은 꽤 복잡하고 비용도 많이 들죠. 이럴 때 NVIDIA Run:ai가 큰 도움이 될 수 있습니다. 이제 NVIDIA Run:ai는 AWS Marketplace에서 정식 출시되어, AI 인프라 관리를 훨씬 간편하게 시작할 수 있게 됐습니다.

NVIDIA Run:ai는 쿠버네티스 네이티브 환경을 위해 설계된 GPU 인프라 컨트롤 플레인으로, 복잡한 설정 없이도 AI 워크로드를 빠르고 효율적으로, 그리고 적절한 거버넌스를 갖추어 체계적으로 확장할 수 있도록 도와줍니다.

이 글에서는 NVIDIA Run:ai가 AWS에서 AI 워크로드와 GPU를 어떻게 오케스트레이션하는지, 그리고 어떤 AWS 서비스와 어떻게 연동되는지 자세히 소개합니다. NVIDIA GPU 기반 Amazon EC2 인스턴스, Amazon EKS, Amazon SageMaker HyperPod, IAM, CloudWatch 등 다양한 AWS 네이티브 서비스와도 매끄럽게 통합됩니다.

과제: 대규모 GPU 오케스트레이션, 어떻게 효율적으로 할까?

대규모 모델 학습부터 실시간 추론까지, 요즘 AI 워크로드는 강력한 GPU를 유연하게 활용할 수 있어야 합니다. 그런데 쿠버네티스 환경에서는 GPU 지원이 충분하지 않아서 다음과 같은 문제가 자주 발생하죠.

정적 할당으로 인한 비효율적인 GPU 활용
워크로드 우선순위 지정 및 선점 기능 부족
GPU 사용량에 대한 가시성 부족
팀 및 워크로드 전반에 걸친 거버넌스 적용의 어려움

NVIDIA Run:ai의 솔루션

NVIDIA Run:ai는 AI/ML 워크로드를 위한 쿠버네티스 기반 오케스트레이션 플랫폼으로, 위와 같은 문제를 해결해 줍니다. 가상 GPU 풀을 통해 정책 기반의 유연한 GPU 스케줄링을 지원합니다.

주요 기능은 다음과 같습니다:

부분(Fractional) GPU 할당: 하나의 GPU를 여러 추론 작업이나 Jupyter 노트북에서 공유하여 사용할 수 있습니다.
동적 스케줄링: 작업의 우선순위, 대기열, 가용성을 기반으로 전체 또는 부분 GPU를 할당합니다.
워크로드 인식 오케스트레이션: 학습, 튜닝, 추론을 각 단계에 최적화된 정책으로 다르게 처리합니다.
팀 기반 할당량과 격리: Fairshare 또는 하드 쿼터를 통해 팀 또는 프로젝트에 자원을 보장합니다.
멀티 테넌시 거버넌스: 공유 인프라 환경에서도 비용 가시성과 컴플라이언스를 확보할 수 있습니다.

*그림 1. AWS 기반의 NVIDIA Run:ai 클러스터 및 컨트롤 플레인*

AWS에서의 NVIDIA Run:ai 작동 방식

NVIDIA Run:ai는 NVIDIA 기반의 AWS 서비스들과 잘 연동되도록 설계되어 있어서, 성능은 최적화되고 운영은 간단해집니다.

1. 쿠버네티스 클러스터 내의 Amazon EC2 GPU 가속 인스턴스(NVIDIA A10G, A100, H100 등)

NVIDIA Run:ai는 NVIDIA GPU가 탑재된 EC2 인스턴스 위에 배포된 쿠버네티스 클러스터에서 AI 워크로드를 스케줄링합니다. 이를 통해 GPU 자원을 지능적으로 공유하고 패킹함으로써 GPU 활용도를 극대화합니다.

다중 GPU 및 다중 노드 학습 지원
대화형 워크로드에 대한 시간 분할 및 GPU 오버커밋 기능 제공

2. Amazon EKS(Elastic 쿠버네티스 Service)

NVIDIA Run:ai는 Amazon EKS와 네이티브로 통합되어 AI 워크로드를 위한 강력한 스케줄링 및 오케스트레이션 계층을 제공합니다. 이를 통해 쿠버네티스 클러스터 내 GPU 자원 활용을 극대화할 수 있습니다.

EKS에 NVIDIA Run:ai 스케줄러를 네이티브로 통합
고급 GPU 자원 관리를 통해 EKS 상의 AI 워크로드를 오케스트레이션하고 최적화
EKS 노드 전반에 걸쳐 GPU 드라이버, 모니터링 에이전트, 라이브러리 설치를 자동화하는 NVIDIA GPU Operator와 호환 가능

3. Amazon SageMaker HyperPod

NVIDIA Run:ai는 Amazon SageMaker HyperPod와 통합되어 온프레미스와 퍼블릭/프라이빗 클라우드 환경 전반으로 AI 인프라를 원활하게 확장할 수 있습니다.

NVIDIA Run:ai의 고급 AI 워크로드 및 GPU 오케스트레이션 플랫폼과 결합 시 효율성과 유연성이 향상됨
대규모 분산 학습 및 추론을 위해 설계된 구조

Amazon CloudWatch와의 통합

대규모 GPU 워크로드를 모니터링하려면 실시간으로 가시성이 필요합니다. NVIDIA Run:ai는 Amazon CloudWatch와 통합되어 다음 기능을 제공합니다:

커스텀 지표: GPU 수준의 사용 지표(예: 메모리 사용률, 시간 분할 통계 등)를 CloudWatch로 전송
대시보드: 작업, 팀, 프로젝트 단위로 GPU 사용량 시각화
알람: GPU 저활용, 작업 실패, 쿼터 초과 등 상황에 맞는 경고 알림 설정

NVIDIA Run:ai의 풍부한 워크로드 원격 분석 기능과 CloudWatch의 분석 및 알림 기능을 결합하면 자원 소비 및 효율성에 대한 실행 가능한 인사이트를 확보할 수 있습니다.

AWS IAM과의 통합

AI 인프라에서 보안과 거버넌스는 기본입니다. NVIDIA Run:ai는 AWS IAM과 통합되어 다음을 실현합니다:

AWS 리소스에 대한 보안 접근 제어 관리
NVIDIA Run:ai 내부의 API, 리소스, 네임스페이스 수준에서 최소 권한 접근 제어 적용
컴플라이언스 및 보안을 위한 접근 로그 및 API 상호작용 감사 지원

IAM 통합을 통해, 조직 내에서 인가된 사용자와 서비스만이 NVIDIA Run:ai 리소스를 AWS 환경에서 접근하거나 관리할 수 있도록 보장합니다.

예시: EKS에서의 다중 팀 GPU 오케스트레이션

자연어 처리(NLP), 컴퓨터 비전, 생성형 AI 세 팀이 있는 조직을 예로 들어보겠습니다. 각 팀은 학습 작업을 위해 GPU를 안정적으로 확보하고, 추론 작업은 공유 인프라에서 수행해야 합니다.

Run:ai를 도입하면 다음과 같은 방식으로 운영할 수 있습니다.

팀별로 독립된 네임스페이스와 공정한 자원 쿼터를 설정합니다.
학습 작업은 우선순위와 자원 가용성을 기준으로 대기열에 넣고 자동으로 스케줄링됩니다.
추론이나 실험성 작업은 부분 GPU로 처리해 자원을 아끼면서도 빠르게 테스트할 수 있습니다.
모든 GPU 사용량은 CloudWatch로 모니터링하고, IAM을 통해 접근을 통제합니다.

이런 구조라면 팀 간 자원 충돌 없이 각자 빠르게 실험하고, 예산도 효율적으로 쓸 수 있을 것입니다

시작하기

기업이 AI 역량을 본격적으로 확장하기 시작하면, GPU 인프라를 수동으로 관리하는 방식은 지속 가능하지 않습니다. NVIDIA Run:ai는 AWS의 NVIDIA 기술과 결합되어, GPU 관리를 간소화하고 활용도를 높이며 AI 혁신 속도를 가속화하는 강력한 오케스트레이션 계층을 제공합니다.

EKS, EC2, IAM, SageMaker HyperPod, CloudWatch와의 네이티브 통합을 통해, NVIDIA Run:ai는 클라우드에서 AI/ML 워크로드를 위한 통합적이고 기업 친화적인 기반을 마련해 줍니다.

AWS 환경에서 NVIDIA Run:ai를 배포하거나 자세한 내용을 알아보려면, AWS Marketplace의 NVIDIA Run:ai 목록을 방문하거나 공식 문서를 참고하세요.

LLM 추론, AI 에이전트, 및 테스트 시간 스케일링 알아보기

과제: 대규모 GPU 오케스트레이션, 어떻게 효율적으로 할까?