Data Center / Cloud

Oracle Cloud Infrastructure(OCI)가 탑재된 NVIDIA DGX 클라우드의 고성능 스토리지

Reading Time: 4 minutes

가속 컴퓨팅의 놀라운 발전은 데이터를 기반으로 합니다. AI 워크로드를 가속화하는 데 있어 데이터의 역할은 빠르게 변화하는 오늘날의 디지털 환경에서 앞서 나가려는 기업에게 매우 중요합니다. 이러한 데이터에 대한 액세스 속도를 높이는 것은 NVIDIA가 전체 AI 워크플로우를 가속화하는 또 다른 방법입니다.

NVIDIA DGX 클라우드는 다양한 시장 사용 사례에 대응합니다. NVIDIA는 인프라 파트너가 제공하는 고유한 기능을 활용하는 소프트웨어 통합에 많은 투자를 해왔습니다. Oracle Cloud Infrastructure(OCI)는 DGX 클라우드를 실현하는 데 필수적인 컴퓨팅, 네트워킹 및 스토리지 인프라를 구현하는 데 있어 NVIDIA의 선도적인 파트너입니다.

NVIDIA는 OCI에서 고성능 스토리지를 구현하기 위해 Oracle의 베어메탈 인프라와 NVIDIA NVMesh 소프트웨어를 결합합니다. 이를 통해 필요에 따라 확장할 수 있는 파일 스토리지를 DGX 클라우드에서 사용할 수 있습니다.

NVIDIA 파트너가 지원하는 NVIDIA DGX 클라우드

NVIDIA DGX Cloud는 멀티노드 AI 서비스형 트레이닝 솔루션으로, 기업에게 클라우드에서 자체 AI 슈퍼컴퓨터를 제공합니다. 이 솔루션은 개발자가 인사이트 도출 시간을 단축하여 생산성을 높일 수 있도록 툴, 워크플로우 및 리더십급 성능을 제공합니다.

이미 클라우드에서 운영 중인 기업이라면 DGX Cloud를 통해 슈퍼컴퓨터를 구매하고 설치할 필요가 없으며, 브라우저를 열어 시작하기만 하면 됩니다.

DGX 클라우드는 개발자와 조직 관리자가 실험 및 라이프사이클 관리를 위해 상호 작용할 수 있는 통합 인터페이스인 NVIDIA Base Command Platform으로 구동됩니다. 또한 실험, 사용자 및 데이터에 액세스할 수 있습니다. DGX Cloud에는 다양한 AI 솔루션 워크플로, 프레임워크, 사전 훈련된 모델을 제공하여 인사이트 도출 시간을 단축하는 NVIDIA AI Enterprise가 포함되어 있습니다.

비디오 1. 조직은 NVIDIA Base Command를 통해 NVIDIA DGX 인프라의 잠재력을 최대한 활용할 수 있습니다

클라우드에서 NVIDIA 인프라에서 기대하는 성능을 달성할 수 있도록 NVIDIA는 GPU 및 네트워킹과 같은 주요 DGX 구성 요소를 활용하는 선도적인 클라우드 서비스 제공업체와 파트너십을 맺고 NVIDIA 인증 컴퓨팅 인프라에서 협력해 왔습니다. OCI의 클라우드 설계에는 고성능 인프라에 쉽게 액세스할 수 있는 핵심 설계 요소가 포함되어 있습니다. 이는 DGX 클라우드를 운영할 수 있는 매력적인 방법입니다.

OCI가 고성능 스토리지를 쉽게 만드는 방법

Oracle의 클라우드 설계는 주요 NVIDIA DGX 구성 요소를 사용하며 고성능 네트워킹 및 스토리지에 우선순위를 둡니다. OCI E4 DenseIO 컴퓨팅 인스턴스(또는 셰이프)는 고성능 스토리지의 빌딩 블록으로 사용하기에 매우 적합합니다. 자세한 내용은 데이터베이스 및 분석 워크로드를 위한 두 배의 성능을 제공하는 E4 DenseIO 인스턴스 발표Oracle 컴퓨트 셰이프 설명서를 참조하세요.

베어 메탈 E4 DenseIO 셰이프는 다음과 같은 하드웨어 구성을 제공합니다:

  • 128 AMD EPYC Milan 프로세서 코어
  • 2 TB의 시스템 메모리
  • 총 8개의 NVMe 디바이스에 걸쳐 54.4TB의 NVMe 스토리지
  • 고성능 이더넷 네트워킹 50Gbps 2개

지연 시간이 짧고 입출력 성능(IOPS)이 높은 직접 연결형 NVMe 스토리지 외에도 E4 DenseIO 형태의 두 개의 50Gbps 물리적 NIC를 통해 이중화된 고가용성 병렬 파일 시스템을 구축할 수 있습니다. 하이퍼스케일러에서는 아직 흔하지 않은 베어 메탈 폼 팩터는 가상화 없이 전용 리소스를 제공합니다. 유연한 네트워킹은 격리를 통해 보안을 제공하고 멀티테넌시 구성을 간소화합니다.

범용 파일 서비스 대신 셰이프가 제공하는 가변성과 함께 E4 셰이프의 성능 기능을 활용하면 오라클 인프라스트럭처에서 DGX 클라우드를 가장 잘 구현할 수 있는 고성능 스토리지 설계를 달성할 수 있습니다.

NVMesh로 셰이프 구성

NVMesh 소프트웨어는 DGX 클라우드가 OCI 베어 메탈 인스턴스를 활용하는 주요 방법 중 하나입니다. NVMesh는 OCI E4 셰이프가 제공하는 원시 NVMe 스토리지를 가져와 기본 하드웨어의 성능을 극대화하는 고성능 데이터 볼륨을 구축합니다. 또한 하드웨어 장애로 인한 서비스 중단을 방지하는 데 필요한 데이터 보호 기능도 제공합니다. 또한 NVMesh는 기본적으로 암호화를 제공하여 잠재적인 보안 위협으로부터 사용자 데이터를 더욱 안전하게 보호합니다.

OCI의 DGX 클라우드 환경에서는 가용성 도메인에서 사용하기 위해 여러 개의 E4 DenseIO 셰이프가 배포됩니다. 이러한 셰이프는 쌍으로 구성되며, NVMesh 소프트웨어가 각 쌍에 대해 고가용성을 제공합니다. 이러한 고가용성 셰이프 쌍은 Lustre 파일 시스템의 기초로 사용되며, 이 파일 시스템은 DGX 클라우드 환경에서 사용자에게 NVIDIA Base Command Platform 데이터 세트 및 작업 공간 스토리지로 제공됩니다.

그림 1. NVMesh 소프트웨어를 실행하는 OCI 셰이프가 연결되어 NVIDIA DGX 클라우드의 GPU 클러스터를 위한 고성능 Lustre 파일 시스템을 활성화합니다.

추가 용량이 필요한 경우 추가 HA 쌍을 프로비저닝하여 다운타임 없이 활성 Lustre 파일 시스템을 확장할 수 있습니다. 셰이프 쌍의 설계는 메타데이터 확장성도 고려합니다. 더 많은 HA 쌍을 추가하면 메타데이터가 용량에 따라 선형적으로 확장되므로 메타데이터 용량이나 작업의 성능에 병목 현상이 발생하지 않는 Lustre 파일 시스템을 구축할 수 있습니다.

다양한 실제 가속 컴퓨팅 애플리케이션에 걸쳐 OCI의 DGX 클라우드를 사용하여 NVIDIA가 수행한 테스트에 따르면, 스토리지 성능은 온프레미스 NVIDIA Base Command Platform 환경에서 관찰된 것과 일치하는 결과를 가능하게 했습니다.

Oracle은 NVIDIA가 자동화 및 기존 기술을 DGX 클라우드 통합의 빌딩 블록으로 쉽게 활용할 수 있도록 했습니다. OCI는 테라폼에 대한 최고 수준의 지원을 제공합니다. API 제공업체가 Terraform과 같은 툴에서 부분적인 지원을 제공하는 경우, 최신 기능을 활성화하기 위해 Terraform 외부의 사용자를 맞춤형 소프트웨어 구성 요소로 안내하는 경우가 많습니다.

하지만 OCI는 그렇지 않았기 때문에 인프라 자동화를 위해 Terraform에만 의존하는 탁월한 경험을 할 수 있었습니다. 또한, GitHb의 Oracle-quickstart/oci-nfs 리포지토리를 통해 스토리지 서비스 가져오기를 위한 OCI 모범 사례에 대한 NVIDIA 엔지니어링의 초기 레퍼런스를 확보할 수 있었습니다. 이를 통해 NVIDIA는 OCI의 테라폼 지원 기능을 채택하기 위한 프로세스를 더욱 가속화할 수 있었습니다.

결론

NVIDIA 베이스 커맨드 플랫폼으로 구동되는 NVIDIA DGX 클라우드는 AI 트레이닝 작업을 관리하고 인프라 및 모델 원격 측정을 볼 수 있는 일관된 단일 창 환경을 제공합니다. 또한 협업 및 리소스 공유를 통해 조직의 생산성을 높일 수 있습니다.

Oracle과의 파트너십 및 NVMesh와 같은 전용 소프트웨어를 통해 NVIDIA DGX Cloud 환경은 클라우드 서비스 제공업체 인프라를 최적으로 활용하여 AI 워크플로우의 모든 측면을 가속화합니다. DGX 클라우드는 대규모 언어 모델(LLM)부터 물리 기반 머신 러닝에 이르기까지 다양한 워크로드를 위한 탁월한 선택입니다. 자세한 내용은 NVIDIA Base Command Platform에서 유연한 워크플로우로 디지털 트윈 설계를 참조하십시오.

리소스

Discuss (0)

Tags

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다