Data Center / Cloud

LLM, 추천 시스템 및 GNN을 위한 하나의 거대한 슈퍼칩: NVIDIA GH200 NVL32

Reading Time: 6 minutes

AWS re:Invent 2023에서 AWS와 NVIDIA는 AWS가 클라우드 제공업체 중 최초로 NVIDIA DGX 클라우드를 통해 NVIDIA NVLink 기술과 상호 연결되고 Amazon Elastic Compute Cloud(Amazon EC2)에서 실행되는 NVIDIA GH200 Grace Hopper 슈퍼칩을 제공하게 될 것이라고 발표했습니다. 이는 클라우드 컴퓨팅의 판도를 바꾸는 기술입니다.

NVIDIA DGX 클라우드 또는 Amazon 인스턴스 내의 랙 스케일 솔루션인 NVIDIA GH200 NVL32는 32-GPU NVIDIA NVLink 도메인과 19.5TB의 대용량 통합 메모리를 자랑합니다. 단일 시스템의 메모리 제약을 뛰어넘는 이 솔루션은 NVIDIA HGX H100에 비해 GPT-3 트레이닝의 경우 1.7배, 거대 언어 모델(LLM) 추론의 경우 2배 더 빠릅니다.

AWS의 NVIDIA GH200 Grace Hopper 슈퍼칩 기반 인스턴스는 4.5TB의 HBM3e 메모리를 제공하며, 이는 현재 세대의 NVIDIA H100 기반 EC2 P5 인스턴스에 비해 7.2배 증가한 것입니다. 이를 통해 개발자는 더 큰 모델을 실행하는 동시에 트레이닝 성능을 개선할 수 있습니다.

또한 CPU와 GPU 메모리 간 인터커넥트는 900GB/s로 PCIe Gen 5보다 7배 빠릅니다. GPU는 캐시 일관된 방식으로 CPU 메모리에 액세스하여 애플리케이션에 사용할 수 있는 총 메모리를 확장합니다. 슈퍼컴퓨팅, 데이터센터 및 클라우드 인프라를 위한 모듈식 레퍼런스 디자인인 NVIDIA GH200 NVL32 스케일아웃 디자인이 처음으로 사용되었습니다. 이 디자인은 GH200 및 후속 프로세서 구성을 위한 공통 아키텍처를 제공합니다.

이 게시물에서는 이를 가능하게 하는 레퍼런스 디자인에 대해 설명하고 몇 가지 대표적인 애플리케이션 성능 결과를 포함합니다.

NVIDIA GH200 NVL32

NVIDIA GH200 NVL32는 하이퍼스케일 데이터센터를 대상으로 NVLink를 통해 연결된 NVIDIA GH200 Grace Hopper 슈퍼칩을 위한 랙 스케일 레퍼런스 디자인입니다. NVIDIA GH200 NVL32는 NVIDIA MGX 섀시(chassis) 디자인과 호환되는 16개의 듀얼 NVIDIA Grace Hopper 서버 노드를 지원하며, 수냉식 냉각을 통해 컴퓨팅 밀도와 효율성을 극대화할 수 있습니다.

그림 1. 32-GPU NVLink 도메인과 19.5TB의 통합 메모리를 제공하는 랙 스케일 솔루션인 NVIDIA GH200 NVL32

코히어런트 NVLink-C2C가 탑재된 NVIDIA GH200 그레이스 호퍼 슈퍼칩은 모델 프로그래밍을 간소화하기 위해 NVLink 주소 지정이 가능한 메모리 주소 공간을 생성합니다. 이 칩은 고대역폭 및 저전력 시스템 메모리, LPDDR5X 및 HBM3e를 결합하여 균형 잡힌 시스템에서 NVIDIA GPU 가속 및 고성능 Arm 코어를 최대한 활용합니다.

GH200 서버 노드는 NVLink 패시브 코퍼 케이블 카트리지로 연결되어 각 Hopper GPU가 네트워크에 있는 다른 모든 Grace Hopper 슈퍼칩의 메모리에 액세스할 수 있도록 지원하며, 32 x 624GB 또는 19.5TB의 NVLink 주소 지정 가능 메모리를 제공합니다(그림 1).

이번 NVLink Switch 시스템의 업데이트는 NVLink 구리 인터커넥트를 사용하여 3세대 NVSwitch 칩을 통합한 9개의 NVLink 스위치를 사용하여 32개의 GH200 GPU를 연결합니다. NVLink Switch 시스템은 클러스터의 모든 GPU에 대해 완전히 연결된 팻트리(fat-tree) 네트워크를 구현합니다. 대규모 요구 사항의 경우 400Gb/s InfiniBand 또는 이더넷으로 확장하여 놀라운 성능과 에너지 효율적인 AI 슈퍼컴퓨팅 솔루션을 제공합니다.

NVIDIA GH200 NVL32는 NVIDIA HPC SDK 및 전체 CUDA, NVIDIA CUDA-XNVIDIA Magnum IO 라이브러리 제품군에서 지원되며 3,000개 이상의 GPU 애플리케이션을 가속화합니다.

사용 사례 및 성능 결과

NVIDIA GH200 NVL32는 아래에 자세히 설명된 것처럼 LLM 트레이닝 및 추론, 추천 시스템, 그래프 신경망(GNN), 벡터 데이터베이스, 검색 증강 생성(RAG) 모델에 이상적입니다.

AI 훈련 및 추론

생성형 AI는 ChatGPT와 같은 서비스의 획기적인 기능으로 예시되는 것처럼 전 세계를 강타했습니다. GPT-3 및 GPT-4와 같은 LLM은 모든 산업의 모든 제품에 AI 기능을 통합할 수 있게 해주며, 그 채택률은 놀랍습니다.

ChatGPT는 가장 빠르게 1억 명의 사용자에게 도달한 애플리케이션이 되었으며, 단 2개월 만에 그 기록을 달성했습니다. 생성형 AI 애플리케이션에 대한 수요는 엄청나며 기하급수적으로 증가하고 있습니다.

그림 2. NVIDIA GH200 NVL32를 사용하는 16K GPU를 갖춘 이더넷 데이터센터는 8개의 NV링크 연결 H100 GPU가 있는 NVIDIA HGX H100 서버인 H100 NVL8로 구성된 데이터센터보다 1.7배의 성능을 제공합니다. (예비 성능 추정치는 변경될 수 있습니다.)

LLM은 대규모 멀티 GPU 트레이닝이 필요합니다. 각 파라미터에 4바이트(FP32)가 필요하므로 GPT-175B의 메모리 요구량은 700GB입니다. 모델 병렬 처리와 빠른 통신의 조합은 더 작은 메모리 GPU로 메모리 부족을 피하기 위해 사용됩니다.

NVIDIA GH200 NVL32는 추론 및 차세대 LLM 트레이닝을 위해 제작되었습니다. 32개의 NVLink 연결된 GH200 Grace Hopper 슈퍼칩으로 메모리, 통신 및 계산 병목 현상을 극복한 이 시스템은 NVIDIA HGX H100보다 1.7배 이상 빠르게 1조 개 매개변수 모델을 트레이닝할 수 있습니다.

그림 3. 80GB GPU 메모리를 갖춘 H100 NVL8에 비해 2배 빠른 GPT-3 530B 모델 추론 성능을 보여주는 NVIDIA GH200 NVL32. (예비 성능 추정치는 변경될 수 있습니다.)

그림 3은 GPT-530B 추론 모델에서 NVIDIA GH200 NVL32 시스템이 4개의 H100 NVL8 시스템보다 2배 더 뛰어난 성능을 발휘한다는 것을 보여줍니다. 또한 NVIDIA GH200 NVL32의 대용량 메모리 공간은 동일한 노드에 여러 모델을 저장하고 모델을 빠르게 교체하여 활용도를 극대화할 수 있는 기능으로 운영 효율성을 향상시킵니다.

추천 시스템

추천 시스템은 맞춤형 인터넷의 엔진입니다. 추천 시스템은 이커머스 및 리테일, 미디어 및 소셜 미디어, 디지털 광고 등에서 콘텐츠를 개인화하기 위해 사용됩니다. 이를 통해 수익과 비즈니스 가치를 창출합니다. 추천은 사용자, 제품, 카테고리, 컨텍스트를 나타내는 임베딩을 사용하며, 그 크기는 최대 수십 테라바이트에 달할 수 있습니다.

정확도가 높은 추천 시스템은 더욱 매력적인 사용자 경험을 제공하지만, 더 큰 임베딩과 더 정밀한 추천을 필요로 합니다. 임베딩에는 높은 대역폭의 대용량 메모리와 초고속 네트워킹이 필요한 AI 모델만의 고유한 특성이 있습니다.

Grace Hopper가 탑재된 NVIDIA GH200 NVL32는 4개의 HGX H100에 비해 7배의 고속 액세스 메모리를 제공하며, 기존 x86 기반 설계에서 GPU에 대한 PCIe Gen5 연결과 비교하여 7배의 대역폭을 제공합니다. x86을 사용하는 H100에 비해 7배 더 세밀한 임베딩이 가능합니다.

또한 NVIDIA GH200 NVL32는 대규모 임베딩 테이블이 있는 모델에 대해 최대 7.9배의 트레이닝 성능을 제공할 수 있습니다. 그림 4는 144GB HBM3e 메모리와 32방향 NVLink 인터커넥트를 갖춘 GH200 NVL32 시스템 1대와 DLRM 모델을 사용하여 8방향 NVLink 인터커넥트로 연결된 80GB HBM3 메모리를 갖춘 HGX H100 서버 4대의 비교를 보여줍니다. 비교를 위해 10TB 임베디드 테이블을 사용하는 경우와 2TB 임베디드 테이블을 사용하는 경우의 GH200 및 H100 시스템을 살펴보았습니다.

그림 4. 추천 시스템 훈련에서 한 대의 NVIDIA GH200 NVL32 시스템과 네 대의 HGX H100 서버를 비교한 결과. (예비 성능 추정치는 변경될 수 있습니다.)

그래프 신경망(GNN)

GNN은 개체와 개체 간의 관계를 그래프에서 선으로 연결된 점으로 묘사하는 풍부한 데이터 구조에 딥 러닝의 예측력을 적용합니다. 많은 과학 및 산업 분야에서 이미 그래프 데이터베이스에 중요한 데이터를 저장하고 있습니다.

딥러닝은 그래프에서 새로운 인사이트를 발굴하는 예측 모델을 훈련하는 데 사용됩니다. 점점 더 많은 조직에서 신약 개발, 사기 탐지, 컴퓨터 그래픽, 사이버 보안, 유전체학, 재료 과학 및 추천 시스템을 개선하기 위해 GNN을 적용하고 있습니다. 오늘날 GNN이 처리하는 가장 복잡한 그래프는 수십억 개의 노드와 수조 개의 에지, 그리고 노드와 엣지에 분산되어 있는 피처로 구성되어 있습니다.

NVIDIA GH200 NVL32는 컴퓨팅 가속화를 위해 이러한 복잡한 데이터 구조를 저장할 수 있는 대용량 CPU-GPU 메모리를 제공합니다. 또한 그래프 알고리즘은 종종 정점 속성을 저장하는 이러한 대규모 데이터 세트에 대한 무작위 액세스를 필요로 합니다.

이러한 액세스는 일반적으로 인터노드 통신 대역폭으로 인해 병목 현상이 발생합니다. NVIDIA GH200 NVL32의 GPU 간 NV링크 연결은 이러한 랜덤 액세스에 엄청난 속도 향상을 제공합니다. GH200 NVL32는 NVIDIA H100에 비해 GNN 트레이닝 성능을 최대 5.8배까지 향상시킬 수 있습니다.

그림 5는 144GB HBM3e 메모리와 32방향 NV링크 인터커넥트를 갖춘 GH200 NVL32 시스템 1대와 GraphSAGE를 사용하여 8방향 NV링크 인터커넥트로 연결된 80GB HBM3 메모리를 갖춘 HGX H100 서버 4대를 비교한 모습입니다. GraphSAGE는 이전에 볼 수 없었던 데이터에 대한 노드 임베딩을 효율적으로 생성하기 위한 일반적인 귀납적 프레임워크입니다.

그림 5. 그래프 트레이닝에서 한 대의 NVIDIA GH200 NVL32 시스템과 네 대의 HGX H100 서버를 비교한 결과. (예비 성능 추정치는 변경될 수 있습니다.)

요약

Amazon과 NVIDIA는 NVIDIA DGX 클라우드가 AWS에 제공된다고 발표했습니다. AWS는 클라우드 서비스 제공업체 중 최초로 DGX 클라우드와 EC2 인스턴스로 NVIDIA GH200 NVL32를 제공하게 됩니다. NVIDIA GH200 NVL32 솔루션은 32-GPU NV링크 도메인과 19.5TB의 대용량 통합 메모리를 자랑합니다. 이 설정은 GPT-3 트레이닝 및 LLM 추론에서 이전 모델보다 훨씬 뛰어난 성능을 발휘합니다.

NVIDIA GH200 NVL32의 CPU-GPU 메모리 인터커넥트는 매우 빠르므로 애플리케이션의 메모리 가용성을 향상시킵니다. 이 기술은 하이퍼스케일 데이터센터를 위한 확장 가능한 설계의 일부로, 포괄적인 NVIDIA 소프트웨어 및 라이브러리 제품군의 지원을 받아 수천 개의 GPU 애플리케이션을 가속화합니다. NVIDIA GH200 NVL32는 LLM 트레이닝 및 추론, 추천 시스템, GNN 등과 같은 작업에 이상적이며 AI 및 컴퓨팅 애플리케이션에 상당한 성능 향상을 제공합니다.

자세한 내용은 AWS re:Invent 키노트NVIDIA GH200 Grace Hopper 슈퍼칩 아키텍처 백서에서 확인할 수 있습니다. NVIDIA SC23 스페셜 세션도 시청할 수 있습니다.

관련 리소스

Discuss (0)

Tags