최신 컴퓨팅 리소스에 액세스하고, 전 세계 고객을 일관되게 지원하며, 비용을 최적화하기 위해 하이브리드 및 멀티 클라우드 전략을 채택하는 조직이 점점 더 많아지고 있습니다. 그러나 엔지니어링 팀이 직면하는 주요 과제는 스택의 변화에 따라 다양한 플랫폼에서 AI 애플리케이션을 운영하는 것입니다. 이를 위해서는 MLOps 팀이 다양한 환경에 익숙해져야 하고 개발자가 대상 플랫폼에서 실행되도록 애플리케이션을 커스터마이징해야 합니다.
NVIDIA는 GPU 기반 온프레미스 또는 온클라우드 인스턴스에서 개발할 수 있는 일관된 전체 스택을 제공합니다. 그런 다음 코드 변경 없이 모든 GPU 기반 플랫폼에 해당 AI 애플리케이션을 배포할 수 있습니다.
최신 NVIDIA 가상 머신 이미지 소개
NVIDIA 클라우드 네이티브 스택 가상 머신 이미지(VMI)는 GPU 가속화를 지원합니다. 이 이미지는 업스트림 쿠버네티스 및 NVIDIA GPU 오퍼레이터를 포함하는 레퍼런스 아키텍처인 클라우드 네이티브 스택과 함께 사전 설치되어 제공됩니다. NVIDIA 클라우드 네이티브 스택 VMI를 사용하면 쿠버네티스가 오케스트레이션하는 GPU 가속 컨테이너화된 애플리케이션을 빌드, 테스트 및 실행할 수 있습니다.
NVIDIA GPU 오퍼레이터는 쿠버네티스에서 GPU를 노출하는 데 필요한 소프트웨어의 수명주기 관리를 자동화합니다. 이를 통해 GPU 성능, 활용도 및 원격 분석을 비롯한 고급 기능을 사용할 수 있습니다. 업계를 선도하는 Kubernetes 솔루션과의 호환성에 대한 인증 및 검증을 받은 GPU 오퍼레이터를 통해 조직은 Kubernetes 인프라 관리가 아닌 애플리케이션 구축에 집중할 수 있습니다.
NVIDIA 클라우드 네이티브 스택 VMI는 AWS, Azure 및 GCP에서 사용할 수 있습니다.
현재 사용 가능: NVIDIA의 엔터프라이즈 지원
NVIDIA 클라우드 네이티브 스택 VMI 및 GPU 오퍼레이터에 대한 엔터프라이즈 지원을 받으려면 NVIDIA 파트너를 통해 NVIDIA AI 엔터프라이즈를 구입하세요.
개념부터 배포까지 AI 솔루션을 개발하는 것은 쉽지 않습니다. NVIDIA AI 엔터프라이즈 지원 서비스를 통해 AI 프로젝트를 순조롭게 진행하세요. NVIDIA AI 엔터프라이즈 소프트웨어 제품군 구매 시 포함된 이 포괄적인 서비스를 통해 NVIDIA AI 전문가에게 직접 액세스할 수 있으며, 정의된 서비스 수준 계약, 장기 지원 옵션으로 업그레이드 및 유지 관리 일정을 관리할 수 있습니다. 교육 및 AI 워크로드 온보딩을 포함한 추가 서비스를 이용할 수 있습니다.
이제 NVIDIA AI 엔터프라이즈에서 인증받은 Run:ai
AI 워크로드를 위한 컴퓨팅 오케스트레이션 분야의 업계 리더인 Run:ai는 Atlas 플랫폼에서 엔드투엔드 보안 클라우드 네이티브 AI 소프트웨어 제품군인 NVIDIA AI Enterprise를 인증받았습니다. 이 추가 인증을 통해 기업은 데이터 사이언스 파이프라인을 가속화할 수 있습니다. 예측 AI 모델의 개발 및 배포를 간소화하여 필수 프로세스를 자동화하고 데이터에서 신속한 인사이트를 얻는 데 집중할 수 있습니다.
Run:ai는 클라우드 및 온프레미스 클러스터에서 GPU의 액세스, 관리 및 활용을 간소화하는 AI 컴퓨팅 플랫폼을 제공합니다. 스마트 스케줄링과 고급 부분 GPU 기능을 통해 작업에 적합한 양의 컴퓨팅을 확보할 수 있습니다.
Run:ai Atlas에는 GPU 오케스트레이션 기능이 포함되어 있어 연구자가 GPU를 보다 효율적으로 사용할 수 있습니다. 이는 AI 워크로드의 오케스트레이션과 팀 및 클러스터 전반의 하드웨어 리소스 관리 및 가상화를 자동화하여 이를 수행합니다.
Run:ai는 모든 Kubernetes 클러스터에 설치하여 AI 인프라에 효율적인 스케줄링 및 모니터링 기능을 제공할 수 있습니다. NVIDIA 클라우드 네이티브 스택 VMI를 사용하면 클라우드 인스턴스를 Kubernetes 클러스터에 추가하여 해당 인스턴스가 클러스터의 GPU 기반 워커 노드가 되도록 할 수 있습니다.
다음은 팀원 중 한 명의 증언입니다: “엔지니어로서 NVIDIA 클라우드 네이티브 스택 VMI가 없었다면 많은 수작업이 필요했습니다. 클라우드 네이티브 스택 VMI를 사용하면 클릭 두 번으로 Kubernetes와 Docker 및 GPU 오퍼레이터 프로비저닝을 처리할 수 있습니다. 작업을 더 쉽고 빠르게 시작할 수 있었습니다.”
AWS에서 클라우드 네이티브 스택 VMI 설정하기
AWS 마켓플레이스에서 AWS 마켓플레이스 인스턴스 시작 지침을 사용하여 NVIDIA 클라우드 네이티브 스택 VMI를 시작합니다.
필요한 사전 요구 사항이 충족되었는지 확인하고 클러스터 설치 지침을 사용하여 Run:ai를 설치합니다. 설치가 완료되면 개요 대시보드에서 메트릭이 채워지기 시작하는 것을 볼 수 있습니다. 클러스터 탭에서도 클러스터가 연결된 것으로 표시되어야 합니다.
다음으로, 몇 가지 명령 구성 요소를 kube-apiserver.yaml 파일에 추가하여 Run:ai 플랫폼에서 사용자 인증을 활성화합니다. 자세한 내용은 관리 사용자 인터페이스 설정을 참조한다.
기본적으로 다음 디렉터리에서 kube-apiserver.yaml 파일을 찾을 수 있습니다:
/etc/kubernetes/manifests/kube-apiserver.yaml
oidc 명령이 kube-apiserver에 의해 성공적으로 적용되었는지 확인할 수 있습니다. 출력에서 oidc
명령어를 찾습니다.
spec:
containers:
- command:
- kube-apiserver
- --oidc-client-id=runai
- --oidc-issuer-url=https://app.run.ai/auth/realms/nvaie
- --oidc-username-prefix=-
통합 UI를 설정하고 새 프로젝트를 생성합니다. 프로젝트는 Run:ai 플랫폼을 사용하는 데이터 사이언티스트 및 연구원에게 GPU 쿼터 보장을 지정하는 데 도움이 됩니다.
새 프로젝트의 이름을 지정하고 프로젝트에 하나 이상의 GPU를 할당합니다. 이 포스팅에서는 GPU 할당량이 2개인 프로젝트와 GPU 할당량이 없는 프로젝트를 각각 nvaie-high-priority
및 nvaie-low-priority
로 생성했습니다. 프로젝트가 생성된 후, 클러스터에 워크로드를 제출할 수 있는 Run:ai CLI 도구를 설치할 수 있습니다.
다음 명령은 runai CLI를 사용하여 빠른 시작이라는 Docker 이미지를 활용하여 job(job1 또는 job2)을 제출합니다. 빠른 시작에는 TensorFlow, CUDA, 모델, 모델을 입력 및 학습하는 데이터가 포함되어 있습니다. 트레이닝을 위해 하나의 GPU를 활용하며(-g 1), -p 매개변수로 표시된 우선순위가 낮은 프로젝트 또는 우선순위가 높은 프로젝트를 대신하여 제출됩니다.
몇 가지 테스트 작업을 배포하여 실행을 통해 Run:ai의 오케스트레이션 기능 중 일부를 보여줍니다:
runai submit job1 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority
runai submit job2 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-low-priority
실행하여 작업의 상태를 확인할 수 있습니다:
runai describe job job1 -p nvaie-high-priority
runai 설명 작업 job2 -p nvaie-low-priority
이제 개요 대시보드에서 볼 수 있듯이 두 워크로드 모두 GPU에서 트레이닝 중입니다.
작업 선점 기능을 강조하기 위해 추가 워크로드를 제출할 수 있습니다. 현재 nvaie-high-priority
프로젝트는 할당된 GPU 할당량이 2로 설정되어 있으므로 두 GPU 모두에 대한 액세스가 보장됩니다. nvaie-high-priority
프로젝트에 대한 추가 워크로드를 제출하고 nvaie-low-priority
작업을 선점하고 있음을 확인할 수 있습니다.
작업 선점을 통해 트레이닝 워크로드의 체크포인트 프로세스를 확인하고, 체크포인트의 현재 진행 상황을 저장한 다음 워크로드를 선점하여 GPU에서 제거할 수 있습니다. 트레이닝 진행 상황을 저장하고 우선 순위가 더 높은 워크로드를 실행할 수 있도록 GPU를 확보합니다.
runai submit job3 -i gcr.io/run-ai-demo/quickstart -g 1 -p nvaie-high-priority
실행하여 작업의 상태를 확인할 수 있습니다:
runai describe job job3 -p nvaie-high-priority
개요 대시보드로 돌아가면, nvaie-high-priority
프로젝트에 대해 실행 중인 두 개의 작업과 nvaie-low-priority
의 워크로드가 선점되어 보류 대기열에 다시 배치된 것을 볼 수 있습니다. 보류 중인 대기열의 워크로드는 GPU를 사용할 수 있게 되면 자동으로 일정이 조정됩니다.
작업을 정리하려면 다음 명령을 실행합니다:
runai delete job job1 -p nvaie-low-priority
runai delete job job2 job3 -p nvaie-high-priority
요약
NVIDIA는 GPU 기반 온프레미스 또는 온클라우드 인스턴스에서 개발할 수 있는 일관된 전체 스택을 제공합니다. 그런 다음 개발자와 MLOps는 코드 변경 없이 모든 GPU 기반 플랫폼에 해당 AI 애플리케이션을 배포할 수 있습니다.
AI 워크로드를 위한 컴퓨팅 오케스트레이션 분야의 업계 리더인 Run:ai는 Atlas 플랫폼에서 엔드투엔드 보안 클라우드 네이티브 AI 소프트웨어 제품군인 NVIDIA AI Enterprise를 인증했습니다. NVIDIA 파트너를 통해 NVIDIA AI Enterprise를 구매하면 NVIDIA VMI 및 GPU 오퍼레이터에 대한 엔터프라이즈 지원을 받을 수 있습니다. NVIDIA AI Enterprise 소프트웨어 제품군 구매에 포함된 이 포괄적인 오퍼링을 통해 NVIDIA AI 전문가에게 직접 액세스할 수 있고, 정의된 서비스 수준 계약을 이용할 수 있으며, 장기 지원 옵션을 통해 업그레이드 및 유지 관리 일정을 관리할 수 있습니다.
자세한 내용은 다음 리소스를 참조하세요:
관련 리소스
- GTC 세션: Developer Breakout: NVIDIA AI Enterprise Testing and Deployment (Spring 2023)
- GTC 세션: Accelerate the Development of AI Solutions With AI Workflows (Spring 2023)
- GTC 세션: Accelerate your AI/ML and HPC Workloads with Google Cloud (Presented by Google Cloud) (Spring 2023)
- 웨비나: Metropolis Meetup: Expanding Vision AI to SaaS and the Cloud
- 웨비나: How the New NVIDIA Metropolis Program Will Supercharge Your Business
- 웨비나: Choosing Hardware Systems for AI in the Enterprise
이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.