실시간 GPU 플릿 가시성과 최적화를 위한 NVIDIA Fleet Intelligence 소개

Reading Time: 5 minutes

대규모 GPU 플릿(fleet)의 컴퓨트 역량은 전례 없는 혁신 기회를 제공하며, 짧은 시간 안에 고객에게 가치를 전달할 수 있게 합니다. 동시에 이러한 발전은 여러 가지 과제를 함께 가져옵니다. 대규모 환경에서 팀은 이기종 하드웨어, 빠르게 변화하는 소프트웨어 스택, 빠듯한 전력 예산, 그리고 멀티테넌트 환경에서 발생하는 들쭉날쭉한 워크로드를 동시에 다뤄야 합니다. 단 하나의 핫스폿, 잘못된 드라이버 설정, 혹은 미묘한 하드웨어 결함이 연쇄적인 영향을 만들어, 작업 스로틀링·SLA 미준수·자원 낭비로 이어질 수 있습니다.

대규모 클러스터를 구성하는 컴포넌트의 복잡성과 수량 역시 결코 만만치 않으므로, 일상 운영에 대한 가시성을 유지하고 어느 시점이든 운영 상태를 정확히 파악하는 것이 필수입니다. 작업 실행 중 GPU 사용률을 모니터링하고 병목 지점을 식별하는 일도 한층 더 어려워집니다. 사용률이 낮은 영역을 찾아내고 해당 영역으로 워크로드를 이전하는 작업은 투자 수익률을 극대화하는 가장 효과적인 방법 중 하나입니다.

이러한 이유로 대규모 환경에서는 GPU 인지(GPU-aware) 모니터링이 필수입니다. 팀은 노드의 가동 여부를 넘어서는 가시성을 필요로 합니다. 어느 순간에도 모든 가속기가 기대대로, 안전하게, 일관되게 동작하고 있는지 파악할 수 있어야 합니다.

이 글에서는 NVIDIA 데이터 센터 GPU를 지속적으로 모니터링하는 에이전트 기반 매니지드 서비스 NVIDIA Fleet Intelligence를 소개합니다. 현재 정식 출시(GA) 상태입니다.

GPU 모니터링의 핵심 영역은 무엇인가?

GPU 모니터링의 중요한 영역에는 전력, 온도, 성능, 상태(health), 균일한 구성이 포함됩니다.

전력(Power): 와트당 성능을 극대화하면서 데이터 센터의 예산 범위를 유지하기 위해 전력 사용량과 스로틀링을 추적합니다.
온도(Temperature): 스로틀링과 부품 조기 노후화를 막기 위해 핫스폿과 공기 흐름 문제를 조기에 감지합니다.
성능(Performance): 사용률, 메모리 대역폭, 인터커넥트 상태, 스로틀링 원인을 관찰하며 회귀와 플릿 전반의 불균형을 포착합니다.
상태(Health): ECC·XID 오류, 리타이어드 페이지, HBM·NVLink·PCIe 이상 징후 등 RAS 신호를 표면화하여 부품의 장애를 사전에 포착합니다.
균일한 구성과 무결성(Uniform configuration and integrity): GPU 인벤토리 검증의 일환으로 일관된 드라이버·펌웨어·BIOS 설정을 점검해 재현 가능한 결과와 안전한 운영을 보장하며, 펌웨어 무결성도 함께 확인합니다.

NVIDIA Fleet Intelligence란?

NVIDIA Fleet Intelligence는 저수준(low-level), 배포 환경에 구애받지 않는 매니지드 서비스로, 사용 중인 소프트웨어 스택이나 스케줄러와 무관하게 활용할 수 있습니다. 초기 단계에서는 자체 인프라를 관리하는 데이터 센터 GPU·CPU 고객과 GPU·CPU 동작을 더 깊이 들여다봐야 하는 엔지니어를 대상으로 지원합니다.

이 서비스는 NVIDIA 제품 포트폴리오 전반의 기술과 IP, 그리고 NVIDIA DGX Cloud에서 운영 중인 수십만 대 규모의 NVIDIA GPU 플릿 운영 경험을 활용합니다.

Fleet Intelligence는 풋프린트가 작은 호스트 기반 에이전트를 사용해 GPU 텔레메트리를 완전 관리형 Fleet Intelligence 클라우드 서비스로 스트리밍합니다. NVIDIA는 감사 가능성을 위해 Fleet Intelligence 에이전트를 오픈소스 프로젝트로 공개합니다. 에이전트는 GPUd, NVIDIA Data Center GPU Manager(DCGM), NVIDIA Attestation SDK 같은 다른 NVIDIA 오픈소스 솔루션을 함께 활용합니다. 자세한 내용은 GitHub의 NVIDIA/fleet-intelligence-agent에서 확인할 수 있습니다. Fleet Intelligence는 NVIDIA Cloud Partners(NCPs)인 Lambda, IREN 등 얼리 액세스(EA) 고객의 피드백을 반영해 개발됐습니다.

이번 GA 릴리스는 다음 세 가지 영역에 집중합니다.

인벤토리 및 시각화(Inventory and visualization)
보고, 알림, 헬스 체크(Reporting, alerts, and health checks)
무결성 및 어테스테이션(Integrity and attestation)

인벤토리 및 시각화

Fleet Intelligence는 데이터 센터와 클라우드 전반에 걸친 글로벌 플릿 인벤토리를 풍부하게 시각화하는 기능을 제공합니다. 풋프린트가 최소화된 에이전트가 Linux 패키지 매니저 또는 helm install을 통해 GPU 워커 노드에 설치됩니다.

등록 이후 에이전트는 노드 레벨 정보를 수집하며, 이 정보는 NVIDIA NGC 내 Health 포털에 표시됩니다. 사용자는 GPU 플릿 사용률을 글로벌 단위로 보거나, 동일한 물리·클라우드 위치에 등록된 노드 그룹 등 컴퓨트 존(compute zone) 단위로 확인할 수 있습니다.

인프라의 어느 계층에서든 이상 징후가 즉시 표면화됩니다. 예를 들어 오류가 발생하거나 전력 소비·온도가 임계값을 넘는 경우가 이에 해당하며, 알림을 발생시킨 원인 정보를 직접 조회해 상세히 검토합니다.

보고, 알림, 헬스 체크

Fleet Intelligence 에이전트는 GPUd와 DCGM의 기술을 활용합니다. 두 도구가 제공하는 메트릭은 분석되어 Health 서비스로 전송되며, 검토 가능한 형태로 가공됩니다. 에이전트는 Fleet Intelligence가 플릿 상태를 거의 실시간으로 모니터링하고 주기적인 헬스 체크를 수행하도록 돕습니다. 또한 호스트, GPU, NVLink, 네트워킹에서 텔레메트리를 수집해 전체 시스템 상태의 종합적인 그림을 제공합니다.

신호가 수집되면 서비스는 현재 상태와 이력 컨텍스트 안에서 오류를 분석하여 조치 권장 사항을 제공합니다. 에이전트는 읽기 전용으로 동작하며, 호스트 구성을 변경하지 않고 머신 텔레메트리와 상태 데이터만 수집합니다. 수집된 데이터를 확인하려면 샘플 출력을 로컬에 기록하거나, 공개 저장소의 소스 코드를 직접 검토할 수 있습니다.

오류 또는 장애 발생 시 이메일·Slack 등 다양한 채널로 알림 메시지를 받을 수 있고, 낮은 사용률 임계값이나 관심 영역에 대한 커스텀 알림도 설정할 수 있습니다. 사용자는 인벤토리와 함께 전력 소비, 온도 추이, 오류, 다운타임의 이력 그래프를 보고서 형태로 구성합니다.

Fleet Intelligence 에이전트는 수동형 헬스 체크와 주기적 체크를 함께 활용합니다. 이러한 헬스 체크는 DCGM과 GPUd를 통해 이미 제공되어 왔습니다. 플릿 운영 과정에서 얻은 학습을 바탕으로 새로운 헬스 체크가 추가로 제공됩니다. Fleet Intelligence는 설치 베이스 전반의 결함·오류와 관련된 익명 신호와 메타데이터를 지속적으로 수집합니다. 이 접근 방식은 향후 릴리스에서 제공될 예지 장애 분류 모델에 적용할 수 있는 데이터의 정밀도를 한층 높입니다.

무결성 및 어테스테이션

Fleet Intelligence는 NVIDIA 컨피덴셜 컴퓨팅 솔루션의 기술을 활용하여 GPU 무결성을 암호학적으로 검증합니다. 이를 통해 시스템의 진위와 신뢰성을 보장합니다. Fleet Intelligence 에이전트는 Attestation SDK를 사용해 런타임에 GPU로부터 측정값(또는 “evidence”)을 획득합니다. 이러한 측정값은 NVIDIA 신뢰 루트(root of trust)에 기반한 온디바이스 인증서로 디지털 서명됩니다.

이렇게 생성된 evidence는 안전한 채널을 통해 검증을 위해 NVIDIA Remote Attestation Service(NRAS)로 전송됩니다. NRAS 서비스는 vBIOS 빌드 과정에서 생성되는 Reference Integrity Manifests(RIMs) 구조를 활용합니다. NRAS 서비스는 evidence가 기대값과 일치하는지 검증하고 통과/실패 결과를 Fleet Intelligence 서비스로 반환합니다.

이후 인벤토리 대시보드에서 일일 또는 온디맨드 방식으로 실행된 무결성 검사 결과를 확인할 수 있습니다. 이러한 무결성 검사는 플릿의 모든 GPU가 알려진 정상 구성을 유지하고, 변조되지 않았으며, 최신 상태임을 보장합니다. 또한 GPU 플릿 정보와 현재 무결성 상태를 자세히 담은 Fleet Intelligence 보고서를 생성할 수 있으며, 이 보고서는 다운로드해 다른 보고 도구와 연계해 활용 가능합니다.

Lambda의 수석 과학 책임자(Chief Scientific Officer) Chuan Li는 다음과 같이 평가했습니다. “NVIDIA Fleet Intelligence는 최소한의 설정만으로 Lambda 연구팀에 NVIDIA Blackwell·Hopper GPU 플릿 전반의 엔드 투 엔드 가시성을 제공했습니다. 알림은 활성 장애와 조기 경고 신호를 모두 포착하며, 보고서는 플릿 전반의 상태를 실행 가능한 인사이트로 전환해 줍니다.”

NVIDIA Fleet Intelligence 시작하기

NVIDIA Fleet Intelligence 서비스는 NVIDIA GPU·CPU 플릿의 전력, 온도, 성능, 상태, 구성 전반에 대한 종합적 인사이트를 제공하여, 모든 칩이 최적의 효율과 신뢰성으로 동작하도록 돕습니다. 실시간 텔레메트리를 위한 저풋프린트 에이전트와 견고한 시각화·알림 메커니즘의 결합은 엔터프라이즈가 ROI를 극대화하고 최적의 운영 기준을 유지하도록 지원합니다.

오픈소스 Fleet Intelligence 에이전트, 그리고 최첨단 무결성·어테스테이션 기술의 통합은 투명성과 보안에 대한 NVIDIA의 지속적인 의지를 보여 줍니다. 기업이 GPU·CPU 배포를 계속 확장해 가는 가운데, Fleet Intelligence는 현대 데이터 센터의 복잡성을 헤쳐 나가는 데 필요한 핵심 도구를 제공하며, 다양한 환경 전반에서 지속 가능하고 예측 가능한 성능을 보장합니다.

NVIDIA Fleet Intelligence 액세스 요청을 통해 GPU 플릿의 가용성과 무결성을 어떻게 개선하는지 직접 경험해 보시기 바랍니다. 현재 정식 출시 상태이며, NVIDIA 데이터 센터 GPU 소유자·운영자·클라우드 테넌트에게 무료로 제공됩니다. Fleet Intelligence는 NVIDIA 데이터 센터급 GPU 아키텍처 Vera Rubin, Blackwell, Hopper를 지원합니다. 어테스테이션은 Vera Rubin과 Blackwell에서만 지원됩니다.

실시간 GPU 플릿 가시성과 최적화를 위한 NVIDIA Fleet Intelligence 소개

GPU 모니터링의 핵심 영역은 무엇인가?