AI Platforms / Deployment

AI에 안정적인 전력을 제공하는 GB300 NVL72의 새로운 기능

Reading Time: 6 minutes

전기 그리드는 조명, 가전제품, 일정한 출력을 유지하는 산업용 기계처럼 비교적 일정한 부하를 처리하도록 설계되어 있습니다. 하지만 최근 AI 워크로드를 처리하는 데이터센터의 등장으로 이 구조에 변화가 생겼습니다.

데이터센터는 발전소와 변압기의 용량 중 상당 부분을 소비합니다. 기존에는 다양한 작업이 동시에 수행되면서 전체 전력 사용이 비교적 고르게 유지됐지만, 거대 AI 모델 학습은 전력 수요에 급격한 변화를 일으키며 전력망 운영에 새로운 과제를 던지고 있습니다.

  • 전력 수요가 갑자기 증가하면, 발전 설비가 물리적인 출력 증가 속도(ramp rate) 한계로 인해 대응하는 데 1분에서 90분까지 걸릴 수 있습니다.
  • 반복적인 전력 변화는 장비에 공진(resonance)을 일으켜 스트레스를 줄 수 있습니다.
  • 데이터센터의 전력 사용이 갑자기 줄어들면 발전 시스템은 처리할 수 없는 잉여 전력을 가지게 됩니다.

이러한 급격한 변화는 전력망 내 다른 사용자에게도 전압 스파이크나 강하로 체감될 수 있습니다.

이 블로그에서는 NVIDIA가 GB300 NVL72에 탑재한 에너지 저장 기능 내장형 신규 전원 공급 장치(PSU)를 통해 이러한 문제를 어떻게 해결하고 있는지 소개합니다. 이 솔루션은 AI 워크로드로 인한 전력 스파이크를 완화하고, 전력망의 피크 수요를 최대 30%까지 줄일 수 있습니다. 해당 기능은 GB200 NVL72 시스템에도 적용될 예정입니다.

AI 학습 초반, 최대 부하 구간, 학습 종료 시점 등 각 단계에 맞춘 전력 대응 솔루션을 설명하고, 이 새로운 전력 안정화 기술을 적용한 실측 결과도 공유합니다.

동기화된 워크로드의 영향

AI 모델 학습 시 수천 개의 GPU가 동기화된 상태로 동일한 연산을 각기 다른 데이터에 수행합니다. 이처럼 연산이 일제히 수행되면 전력망 전체에 큰 전력 변동이 발생합니다. 전통적인 데이터센터 작업처럼 서로 다른 업무가 부하를 자연스럽게 분산시키는 구조가 아니라, AI 워크로드는 유휴 상태와 고부하 상태 사이를 급격히 오가며 전력 충격을 만들어냅니다. (그림 1 참고)

그림 1. 수천 개의 GPU가 동시에 AI 작업을 처리하면서 전력을 소비하고, 고전력 상태와 저전력 상태를 번갈아 가며 오갑니다. 작업이 종료되면 GPU들도 동시에 유휴 상태로 전환됩니다.

개별 GPU를 행으로 표시한 히트맵을 보면, AI 데이터센터가 전력 공급망에 어떤 독특한 과제를 안기는지 시각적으로 확인할 수 있습니다(그림 2 참조). 전통적인 데이터센터 워크로드는 컴퓨팅 인프라 전반에서 비동기적으로 작동합니다. 반면, AI 학습 워크로드 히트맵은 GPU들이 동기화된 방식으로 작동함을 보여주며, 이로 인해 GPU 클러스터 전체의 전력 소모 패턴이 단일 노드의 전력 패턴을 그대로 따라가고 오히려 증폭되는 양상을 띱니다.

그림 2. GPU 전력 소비 히트맵입니다.

GB300 NVL72의 전력 평탄화 기능

이러한 과제에 대응하기 위해, NVIDIA는 GB300 플랫폼에 전력 평탄화를 위한 종합적인 솔루션을 도입했습니다. 이는 운영 단계별로 적용되는 여러 메커니즘으로 구성되어 있으며, 그림 3에는 랙 단위의 전력 수요를 안정화하는 power cap, 에너지 저장, GPU burn 메커니즘이 함께 표시되어 있습니다. 이미지는 왼쪽부터 오른쪽 방향으로 각 메커니즘을 설명합니다.

회색 선은 AI 학습 중 GPU 전력 소모량의 실제 예시를 나타냅니다. 여기에 초록색 선으로 이상적인 전력 사용 프로파일—완만한 상승, 일정한 유지, 부드러운 하강—을 표시해 대비를 보여줍니다.

새롭게 도입된 power cap 기능은 워크로드 시작 시 GPU 전력 소비를 전력 컨트롤러가 제한함으로써 그리드가 허용 가능한 상승 속도(ramp rate)에 맞춰 전력 사용을 점진적으로 증가시킵니다. 반면, 학습 종료 시에는 보다 복잡한 전략이 적용됩니다. 만약 워크로드가 갑작스럽게 종료되면 GPU burn 시스템이 작동하여 GPU를 특별한 전력 소모 모드로 유지시킴으로써 전력을 지속적으로 소모하게 합니다. 이 방식은 급격한 전력 하락 대신 부드러운 전환을 가능하게 합니다(그림 3 및 5 참조).

그림 3. 전력 변동 완화 솔루션

안정 상태 운영 중 발생하는 빠르고 단기적인 전력 변동에 대응하기 위해, GB300 NVL72의 전원 모듈에는 에너지 저장 장치—특히 전해 커패시터—가 통합되어 있습니다. 이 저장 장치는 GPU의 전력 수요가 낮을 때 충전되고, 전력 수요가 높아질 때 방전되어 부하를 완화합니다(그림 4 참조).

그림 4. 에너지 저장 장치의 동작 방식

워크로드 종료 시 적용되는 솔루션은 전력 소모용 하드웨어(power burn)와 소프트웨어 알고리즘으로 구성됩니다. 이 알고리즘은 GPU의 평균 전력 소모량이 유휴 수준까지 떨어졌을 때 이를 감지하여, 전력 평탄화 알고리즘을 담당하는 소프트웨어 드라이버가 하드웨어 버너를 작동시킵니다.

버너는 워크로드 재시작에 대비해 일정 전력을 유지하며 대기합니다. 만약 워크로드가 재개되지 않으면, 버너는 전력망이 감당할 수 있는 속도에 맞춰 전력 소비를 점진적으로 줄인 후 자동으로 종료됩니다. 반대로 GPU 워크로드가 재개되면, 버너는 즉시 작동을 멈추고 전력을 GPU에 다시 전달합니다.

이 동작 방식은 조정 가능한 파라미터를 통해 세부 설정이 가능하며, 해당 표에서는 사용자에게 노출되는 주요 설정 항목을 정리하고 있습니다. 표 상단의 이미지는 첫 번째 열에 나열된 주요 파라미터에 대한 시각적 설명을 제공합니다. 이러한 설정은 NVIDIA SMI 도구나 Redfish 프로토콜을 통해 조정할 수 있습니다.

그림 5. 아래 표의 주요 구성 파라미터들이 전력 수요에 어떤 영향을 미치는지를 보여주는 도식
표 1. 그림 5에서처럼 전력 수요에 영향을 주는 주요 구성 파라미터

측정된 효과 및 결과

에너지 저장 기능이 포함된 이전 세대(GB200) 및 최신(GB300) 전원 공급 장치를 대상으로 한 실측 결과, 전력 안정성과 관련한 성능이 크게 향상된 것으로 나타났습니다. 이를 입증하기 위해, 그림 6과 같이 GB200 랙의 전원 모듈에 계측 장비를 설치해 테스트를 진행했습니다.

그림 6. 전원 셸프의 계측을 위한 측정 장비 설치 구성

기존 전원 장치에서는 랙의 전력 소비 변화가 전력망에서 끌어오는 AC 전력에도 그대로 반영되어 큰 변동을 보였습니다. 반면, 에너지 저장 기능이 강화된 새로운 전원 모듈에서는 이러한 입력 전력 변동이 대부분 제거되었습니다. 특히 Megatron LLM을 학습할 때 전력망이 감지하는 최대 전력 수요가 30% 감소했으며, 빠른 전력 변화도 크게 완화되었습니다(그림 7 참조).

그림 7. 동일한 랙, 동일한 워크로드에서 에너지 저장 기능 유무에 따른 NVIDIA 공동 설계 PSU 성능 비교 (왼쪽: 미적용 / 오른쪽: 적용)

GB300 전원 장치 내부를 들여다보면, 전체 부피의 약 절반이 에너지 저장을 위한 커패시터로 채워져 있습니다. NVIDIA는 전원 공급장치 제조업체인 LITEON Technology와 협력해 전력 전자 장치의 크기를 최적화했고, 남은 공간에는 GPU당 65줄(J)의 에너지를 저장할 수 있도록 설계했습니다. 여기에 새롭게 개발한 충전 관리 컨트롤러를 결합해, 랙 단위의 빠른 전력 변동을 효과적으로 완화하는 솔루션을 구현했습니다.

그림 8. 전원 공급장치 제조사인 LITEON Technology가 촬영한 GB300 PSU 내부 사진 (녹색 영역: 에너지 저장 공간 표시)

시스템 설계 관점에서의 시사점

에너지 저장 기능은 일시적인 전력 변동을 완화하는 것뿐만 아니라, 데이터센터 전체의 피크 전력 수요 자체를 줄이는 데도 기여합니다. 기존에는 순간 최대 전력 소모량에 맞춰 설비 용량을 확보해야 했지만, 이제 효과적인 에너지 저장 장치를 통해 평균 전력 사용량 수준에 맞춰 설계를 최적화할 수 있습니다. 이는 동일한 전력 예산으로 더 많은 랙을 수용하거나, 전체 전력 배분을 줄이는 방향으로도 이어질 수 있습니다.

이 설계는 랙 내부의 빠른 전력 변동도 수용할 수 있도록 구성되어 있으며, 컴퓨팅 노드와 내부 DC 버스 모두 급격한 전력 상태 전환에 대응할 수 있도록 설계됐습니다. 에너지 저장 장치는 오직 전력망에 보이는 부하를 최적화하는 데만 사용되며, 전력을 역방향으로 공급하지는 않습니다.

GB200 및 GB300 NVL72 시스템은 모두 각 랙에 복수의 전원 모듈을 탑재하고 있어, 에너지 저장과 부하 평탄화 전략은 랙 수준뿐 아니라 데이터홀 전체 수준에서의 집계 관점을 고려해야 합니다. 피크 전력 감소를 통해 랙 밀도를 높이거나 데이터센터 전체의 설비 요구사항을 줄일 수 있습니다.

요약 정리

GB300 NVL72 전원 셸프에 적용된 에너지 저장 기술과 고급 램프 속도 제어 알고리즘은 전력망에 가해지는 피크 부하와 순간 부하를 획기적으로 줄이는 데 기여합니다. 에너지 저장 기능이 내장된 고급 전원 공급 장치(PSU)는 power cap 및 power burn 기능을 구현하는 하드웨어 및 소프트웨어와 함께 GB300 NVL72에 탑재되어 제공됩니다.

모든 데이터센터 운영자는 피크 전력 최적화, 연산 밀도 향상, 운영 비용 절감을 위해 고급 전력 평탄화 및 에너지 저장 기술의 도입을 적극 고려해야 합니다.

이 연구에는 Jared Huntington, Gabriele Gorla, Apoorv Gupta, Mostafa Mosa, Chad Plummer, Nilesh Dattani, Tom Li, Pratik Patel, Kevin Wei, Ajay Kamalvanshi, Divya Ramakrishnan이 기여했습니다.

관련 자료

Discuss (0)

Tags