COMPUTEX 2023에서 NVIDIA는 가장 까다로운 대규모 AI 워크로드를 지원하는 GPU 가속 컴퓨팅 분야의 또 다른 혁신인 NVIDIA DGX GH200을 발표했습니다. 이 게시물에서는 NVIDIA DGX GH200 아키텍처의 중요한 측면 뿐만 아니라 NVIDIA Base Command가 어떻게 신속한 배포를 지원하고, 사용자의 온보딩을 가속화하고, 시스템 관리를 간소화하는지에 대해 설명합니다.
GPU의 통합 메모리 프로그래밍 모델은 지난 7년 동안 복잡한 가속 컴퓨팅 애플리케이션 분야에서 다양한 혁신의 초석이었습니다. 2016년 NVIDIA는 GPU 가속 워크로드에 사용 가능한 메모리를 늘리도록 설계된 CUDA-6와 함께 NVLink 기술과 통합 메모리 프로그래밍 모델을 도입했습니다.
그 이후로, 모든 DGX 시스템의 핵심은 NVLink와 상호 연결된 베이스보드의 GPU 컴플렉스입니다. 여기에서 각 GPU가 NVLink 속도로 다른 시스템의 메모리에 액세스할 수 있습니다. 이처럼 GPU 컴플렉스가 있는 많은 DGX가 고속 네트워킹으로 상호 연결되어 NVIDIA Selene 슈퍼컴퓨터처럼 더 큰 슈퍼컴퓨터를 형성합니다. 하지만 새롭게 부상하는 조 단위 매개변수의 거대한 AI 모델은 트레이닝하는 데 몇 개월이 걸리거나 현재 최고의 슈퍼컴퓨터로도 해결할 수 없습니다.
이러한 엄청난 문제를 해결할 수 있는 고급 플랫폼이 필요한 과학자들을 지원하기 위해 NVIDIA는 NVIDIA Grace Hopper 슈퍼칩과 NVLink 스위치 시스템을 결합하여 NVIDIA DGX GH200 시스템에 최대 256개의 GPU를 통합했습니다. DGX GH200 시스템에서는 NVLink를 통해 GPU 공유 메모리 프로그래밍 모델에 144테라바이트의 메모리가 고속으로 액세스할 수 있습니다.
단일 NVIDIA DGX A100 320GB 시스템에 비해 NVIDIA DGX GH200은 NVLink를 통해 GPU 공유 메모리 프로그래밍 모델에 거의 500배 더 큰 메모리를 제공하여 거대한 데이터센터 규모의 GPU를 형성합니다. NVIDIA DGX GH200은 NVLink를 통해 GPU에 액세스할 수 있는 메모리의 100테라바이트 장벽을 뛰어넘은 최초의 슈퍼컴퓨터입니다.
NVIDIA DGX GH200 시스템 아키텍처
NVIDIA Grace Hopper 슈퍼칩과 NVLink 스위치 시스템은 NVIDIA DGX GH200 아키텍처의 구성 요소입니다. NVIDIA Grace Hopper 슈퍼칩은 NVIDIA NVLink-C2C를 사용하는 Grace 및 Hopper 아키텍처를 결합하여 CPU+GPU 일관성 메모리 모델을 제공합니다. 4세대 NVLink 기술로 구동되는 NVLink 스위치 시스템은 NVLink 연결을 슈퍼칩 전반으로 확장하여 원활한 고대역폭 멀티 GPU 시스템을 구축합니다.
NVIDIA DGX GH200의 각 NVIDIA Grace Hopper 슈퍼칩에는 480GB LPDDR5 CPU 메모리가 있으며 전력은 DDR5 및 96GB의 빠른 HBM3에 비해 GB당 8분의 1에 해당합니다. NVIDIA Grace CPU 및 Hopper GPU는 NVLink-C2C와 상호 연결되어 5분의 1 전력으로 PCIe Gen5보다 7배 더 넓은 대역폭을 제공합니다.
NVLink 스위치 시스템은 2레벨 비차단 Fat-Tree NVLink Fabric을 형성하여 DGX GH200 시스템에서 256개의 Grace Hopper 슈퍼칩을 완전히 연결합니다. DGX GH200의 모든 GPU는 900GBps의 속도로 다른 GPU의 메모리와 모든 NVIDIA Grace CPU의 확장 GPU 메모리에 액세스할 수 있습니다.
Grace Hopper 슈퍼칩을 호스팅하는 컴퓨팅 베이스보드는 NVLink Fabric의 첫 번째 레이어를 위한 맞춤형 케이블 하네스를 사용하여 NVLink 스위치 시스템에 연결됩니다. LinkX 케이블은 NVLink Fabric의 두 번째 레이어에서 연결을 확장합니다.
DGX GH200 시스템에서 GPU 스레드는 NVLink 페이지 테이블을 사용하여 NVLink 네트워크의 다른 Grace Hopper 슈퍼칩에서 피어 HBM3 및 LPDDR5X 메모리를 처리할 수 있습니다. NVIDIA Magnum IO 가속화 라이브러리는 효율성을 위해 GPU 통신을 최적화하여 256개의 GPU 전체로 애플리케이션 확장을 향상합니다.
DGX GH200의 모든 Grace Hopper 슈퍼칩은 1개의 NVIDIA ConnectX-7 네트워크 어댑터 및 1개의 NVIDIA BlueField-3 NIC와 페어링됩니다. DGX GH200은 128TBps 바이섹션 대역폭과 230.4TFLOPS의 NVIDIA SHARP 인-네트워크 컴퓨팅으로 집합 연산의 통신 오버헤드를 줄여 AI에서 일반적으로 사용되는 집합 연산을 가속화하며 NVLink 네트워크 시스템의 유효 대역폭을 두 배로 늘립니다.
256개의 GPU보다 더 확장하기 위해 ConnectX-7 어댑터는 여러 DGX GH200 시스템을 상호 연결하여 더 큰 솔루션으로 확장할 수 있습니다. BlueField-3 DPU의 성능은 모든 엔터프라이즈 컴퓨팅 환경을 안전하고 가속화된 가상 프라이빗 클라우드로 전환하여 조직이 안전한 멀티 테넌트 환경에서 애플리케이션 워크로드를 실행할 수 있도록 지원합니다.
타겟 사용 사례 및 성능 이점
GPU 메모리가 세대를 거치며 발전하여 GPU 메모리 크기로 인해 병목 현상이 발생하는 AI 및 HPC 애플리케이션의 성능이 크게 개선되었습니다. 많은 주류 AI 및 HPC 워크로드가 단일 NVIDIA DGX H100의 총 GPU 메모리에 완전히 상주할 수 있습니다. 이러한 워크로드에서 DGX H100은 가장 성능 효율적인 트레이닝 솔루션입니다.
테라바이트 단위의 임베딩 테이블이 있는 딥 러닝 추천 모델(DLRM), 테라바이트 규모의 그래프 신경망 트레이닝 모델 또는 대규모 데이터 분석 워크로드 등의 다른 워크로드에서도 DGX GH200을 사용하면 4배에서 7배의 속도 향상을 확인할 수 있습니다. 이는 DGX GH200이 GPU 공유 메모리 프로그래밍에 대용량 메모리가 필요한 고급 AI 및 HPC 모델을 위한 더 나은 솔루션임을 보여줍니다.
가속화 메커니즘은 NVIDIA Grace Hopper 슈퍼칩 아키텍처 백서에 자세히 설명되어 있습니다.
가장 까다로운 워크로드를 위한 특수 설계
DGX GH200의 모든 구성 요소는 병목 현상을 최소화하는 동시에 주요 워크로드에 대한 네트워크 성능을 극대화하고 모든 스케일업 하드웨어 기능을 완전히 활용하도록 선택되었습니다. 그 결과, 선형 확장성을 갖추고 방대한 공유 메모리 공간의 활용도가 높아집니다.
이 고급 시스템을 최대한 활용하기 위해 NVIDIA는 초고속 스토리지 패브릭도 설계했습니다. 최고 용량으로 실행 가능하며 다양한 데이터 유형(텍스트, 표 데이터, 오디오 및 비디오)을 병렬로, 일정한 성능으로 처리할 수 있습니다.
풀 스택 NVIDIA 솔루션
DGX GH200에는 AI 워크로드에 최적화된 OS, 클러스터 관리자, 컴퓨팅을 가속화하는 라이브러리, 스토리지, DGX GH200 시스템 아키텍처에 최적화된 네트워크 인프라가 포함된 NVIDIA Base Command가 함께 제공됩니다.
또한 DGX GH200에는 AI 개발 및 배포를 간소화하도록 최적화된 소프트웨어 제품군을 제공하는 NVIDIA AI Enterprise가 포함됩니다. 이 풀 스택 솔루션을 통해 고객은 IT 인프라 관리에 대한 걱정을 덜고 혁신에 집중할 수 있습니다.
거대한 AI 및 HPC 워크로드 강화
NVIDIA는 올해 말 DGX GH200을 출시하기 위해 노력하고 있습니다. NVIDIA는 이 획기적인 슈퍼컴퓨터를 제공하고, 여러분이 혁신을 일으키고 오늘날의 가장 큰 AI 및 HPC 과제를 해결하는 데 열정을 쏟을 수 있도록 지원하고자 합니다. 자세히 알아보세요.
이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.