AI Platforms / Deployment

NVIDIA Dynamo, 비용 효율적인 대규모 추론을 위한 AWS 서비스 지원 추가

Reading Time: 3 minutes

이제 AWS의 개발자와 솔루션 아키텍트는 NVIDIA Blackwell 기반 Amazon EC2 P6를 포함한 NVIDIA GPU 기반 Amazon EC2 인스턴스에서 NVIDIA Dynamo를 사용할 수 있으며, 기존 EKS 및 EFA 통합에 더해 Amazon S3 지원도 새롭게 추가되었습니다. 이번 업데이트는 LLM 서비스를 더 높은 성능, 확장성, 비용 효율성으로 운영할 수 있도록 지원합니다.

NVIDIA Dynamo: 생성형 AI를 위한 확장 가능한 추론 프레임워크

NVIDIA Dynamo는 대규모 분산 환경에 최적화된 오픈소스 추론 서비스 프레임워크입니다. PyTorch, SGLang, TensorRT-LLM, vLLM 등 주요 추론 프레임워크를 모두 지원하며, 다음과 같은 고급 최적화 기능을 제공합니다:

  • 분리형 추론(Disaggregated serving): 프리필(pre-fill)과 디코드(decode) 단계를 서로 다른 GPU에 분산하여 처리량을 향상합니다.
  • LLM 인식 라우팅(LLM-aware routing): KV 캐시 적중률을 극대화하고 불필요한 재계산을 피하도록 요청을 라우팅합니다.
  • KV 캐시 오프로드(KV cache offloading): 비용 효율적인 메모리 계층에 KV 캐시를 분산 저장하여 추론 비용을 절감합니다.

이러한 기능들을 활용하면 NVIDIA Dynamo를 사용하여 대규모 멀티 노드 LLM 배포 환경에서 최고 수준의 추론 성능과 비용 효율성을 달성할 수 있습니다.

AWS 서비스와의 원활한 통합

AWS 클라우드 상에서 LLM을 서비스하는 개발자와 솔루션 아키텍트를 위해, NVIDIA Dynamo는 기존 추론 아키텍처에 자연스럽게 통합됩니다:

  • Amazon S3 지원: Dynamo NIXL은 이제 Amazon S3를 지원합니다. S3는 사실상 무한에 가까운 확장성과 높은 성능, 낮은 비용을 제공하는 객체 저장소 서비스입니다. KV 캐시는 연산 부담이 크고 비용도 많이 들기 때문에 효율적인 관리가 필요합니다. 이러한 캐시 값을 재계산하지 않고 재사용하는 방식이 일반적이지만, AI 워크로드가 커질수록 필요한 KV 캐시가 GPU 메모리뿐 아니라 호스트 메모리까지 쉽게 초과할 수 있습니다. Dynamo는 KV 캐시를 S3로 오프로드함으로써 GPU 메모리를 절약하고 새로운 요청을 처리하는 데 집중할 수 있도록 합니다. 이 통합으로 별도의 플러그인 없이도 KV 캐시를 S3로 쉽게 오프로드할 수 있어, 추론 비용 절감에 효과적입니다.
  • Amazon EKS 연동: Dynamo는 Amazon EKS에서 실행되며, 이는 완전 관리형 Kubernetes 서비스로, 개발자가 인프라 관리 없이 컨테이너 기반 애플리케이션을 실행하고 확장할 수 있도록 지원합니다.

LLM이 점점 더 커지고 복잡해지면서, 실서비스 환경에서의 추론 배포는 LLM-aware 요청 라우팅, 분리형 추론, KV 캐시 오프로드와 같은 고급 구성 요소를 필요로 합니다. 이러한 구성은 Kubernetes 환경에서는 배포 복잡성을 높일 수 있으나, Dynamo는 Amazon EKS 환경에 원활하게 통합되어, 개발자가 필요 시 추론 워크로드 급증에 대응해 새로운 Dynamo 복제 인스턴스를 빠르게 생성할 수 있도록 지원합니다.

그림 1: Amazon EKS를 사용한 AWS 배포 아키텍처에서의 Dynamo
  • AWS Elastic Fabric Adapter(EFA) 지원: Dynamo의 NIXL 데이터 전송 라이브러리는 Amazon의 EFA(Elastic Fabric Adapter)를 지원합니다. EFA는 Amazon EC2 인스턴스 간 저지연 노드 간 통신을 가능하게 하는 네트워크 인터페이스입니다.

LLM의 크기가 커지고, Mixture of Experts와 같은 희소 모델 아키텍처가 적용됨에 따라, 모델을 여러 GPU에 샤딩(sharding)하는 방식이 처리량은 높이면서도 지연 시간은 최소화하는 데 효과적입니다. 이러한 환경에서는 AWS의 GPU 노드 간 추론 데이터가 EFA를 통해 전송됩니다. Dynamo의 EFA 지원으로, 개발자는 NIXL의 프론트엔드 API에서 제공하는 단순한 get, push, delete 명령어를 사용하여 KV 캐시를 노드 간에 손쉽게 전송할 수 있습니다. 이를 통해 별도 플러그인 없이도 분리형 추론(disaggregated serving)과 같은 Dynamo의 고급 기능을 활용할 수 있으며, AI 애플리케이션의 실제 배포까지 걸리는 시간을 단축할 수 있습니다.

Blackwell 기반 Amazon P6 인스턴스에서 Dynamo로 추론 최적화

Dynamo는 모든 NVIDIA GPU 가속 AWS 인스턴스에서 호환되지만, 특히 Blackwell 기반 Amazon EC2 P6 인스턴스와 함께 사용할 경우, DeepSeek R1이나 최신 Llama 4와 같은 고도화된 추론 모델을 배포할 때 성능이 크게 향상됩니다. Dynamo는 프리필(prefill)과 디코드(decode) 자동 확장, 속도 정합(rate matching)과 같은 핵심 작업을 자동으로 관리하여, 분리형 MoE(Mixture of Experts) 모델 서비스를 단순화하고 자동화합니다.

한편, Amazon P6-B200 인스턴스는 5세대 Tensor Core, FP4 가속 기능, 그리고 이전 세대 대비 2배 향상된 NVIDIA NVLink 대역폭을 제공합니다. 또한, NVIDIA GB200 NVL72 기반의 P6e-GB200 Ultra Server는 총 130TBps에 달하는 all-to-all 집계 대역폭을 구현하는 독자적인 확장형(scale-up) 아키텍처를 채택하고 있으며, 이는 MoE 모델의 전문가 병렬 디코딩 연산에서 요구되는 고집적 통신 패턴을 가속화하기 위해 설계되었습니다. Dynamo와 Blackwell 기반 P6 인스턴스를 함께 사용하면 GPU 활용도를 높이고, 요청당 비용 효율성을 개선하며, AI 서비스의 수익성을 지속적으로 향상시킬 수 있습니다.

NVIDIA Dynamo 시작하기

NVIDIA Dynamo와 AWS 간 통합이 더욱 강화되면서, 개발자는 추론 워크로드를 보다 손쉽고 유연하게 확장할 수 있습니다.

NVIDIA Dynamo는 모든 GPU 기반 AWS 인스턴스에서 실행 가능하며, 추론 환경 최적화를 위한 배포를 즉시 시작할 수 있습니다.

관련 자료

Discuss (0)

Tags