AI 스토리지를 최대 48% 가속화하는 NVIDIA Spectrum-X 네트워킹 플랫폼

Reading Time: 4 minutes

AI 팩토리는 단순히 컴퓨팅 패브릭에 의존하지 않습니다. GPU를 연결하는 동서 네트워크가 AI 애플리케이션 성능에 매우 중요한 것처럼, 고속 스토리지 어레이를 연결하는 스토리지 패브릭 역시 중요합니다. 스토리지 성능은 AI 수명주기의 여러 단계에서 핵심적인 역할을 하는데요. 여기에는 훈련 체크포인트, 검색 증강 생성(Retrieval Augmented Generation, RAG)과 같은 추론 기법 등이 있습니다.

이러한 요구를 충족시키기 위해 NVIDIA와 스토리지 생태계는 NVIDIA Spectrum-X 네트워킹 플랫폼을 데이터 스토리지 패브릭으로 확장하고 있습니다. 이를 통해 더 높은 성능과 더 빠른 AI 구현 시간을 제공할 수 있게 됐습니다. Spectrum-X 적응형 라우팅은 흐름 충돌을 완화하고 유효 대역폭을 확대시킬 수 있습니다. 따라서 대부분의 데이터센터가 AI 컴퓨팅과 스토리지 패브릭에 사용하는 이더넷(Ethernet) 네트워킹 프로토콜인 RoCE v2보다 스토리지 성능이 훨씬 더 높습니다.

Spectrum-X는 읽기 대역폭을 최대 48%, 쓰기 대역폭을 최대 41%까지 가속화합니다. 이렇게 증가된 대역폭은 AI 워크플로우에서 스토리지에 의존하는 단계의 완료 속도를 높여 훈련 시 작업 완료 시간을 단축하고, 추론 시 토큰 간 지연 시간을 줄여줍니다.

Spectrum-X와 통합한 주요 스토리지 파트너사들

AI 워크로드의 규모와 복잡성이 증가함에 따라, 스토리지 솔루션도 현대 AI 팩토리의 요구에 발맞춰 발전해야 합니다. DDN, 바스트 데이터(VAST Data), 웨카(WEKA)를 포함한 주요 스토리지 공급업체들은 NVIDIA와 협력해 Spectrum-X를 위한 자사 솔루션을 통합하고 최적화함으로써 AI 스토리지 패브릭에 최첨단 기능을 도입하고 있습니다.

Israel-1 슈퍼컴퓨터로 대규모 Spectrum-X 영향력 확대

NVIDIA는 Spectrum-X 성능을 최적화하기 위해 생성형 AI 슈퍼컴퓨터인 Israel-1을 구축했습니다. 이 슈퍼컴퓨터는 AI 패브릭에 대한 사전 테스트와 검증된 청사진을 제공해 네트워크 배포를 단순화합니다. 이 덕분에 Israel-1은 Spectrum-X가 스토리지 워크로드에 미치는 영향을 테스트하기에 적합한 환경을 갖췄습니다. 나아가 실제 슈퍼컴퓨터 운영 환경의 맥락에서 네트워크가 스토리지 성능에 미치는 영향을 보여줍니다.

Spectrum-X가 스토리지 네트워크에 미치는 영향을 확인하기 위해, Israel-1 팀은 NVIDIA HGX H100 GPU 서버 클라이언트가 스토리지에 액세스할 때 발생하는 읽기, 쓰기 대역폭을 측정했습니다. 플렉시블 I/O 테스터(Flexible I/O Tester) 벤치마크를 사용한 이 테스트는 네트워크가 표준 RoCE v2 패브릭으로 구성된 상태에서 한 번 수행된 다음, Spectrum-X의 적응형 라우팅과 혼잡 제어가 켜진 상태에서 다시 수행됐죠.

이 테스트는 클라이언트로 사용된 GPU 서버의 수를 40개에서 800개까지 다양하게 설정했습니다. 결과적으로 모든 경우에서 Spectrum-X가 더 높은 성능을 보였습니다. 읽기 대역폭의 경우, 개선 폭이 20%에서 48%에 이르렀고, 쓰기 대역폭의 경우 9%에서 41%에 달했습니다. 이러한 결과는 DDN, 바스트, 웨카를 위한 파트너 생태계가 달성한 속도 향상과 비슷한 수준입니다.

AI 성능에 매우 중요한 스토리지 네트워크 성능

Spectrum-X가 왜 이렇게 큰 차이를 만드는지 이해하기 위해서는, 스토리지가 AI에 미치는 영향을 살펴보는 것이 도움이 됩니다. AI 성능은 단순히 거대 언어 모델(large language model, LLM) 단계 완료 시간만으로 결정되지 않으며, 여러 다른 요소들이 관련돼 있습니다. 예를 들어, 모델 훈련은 완료하는 데 며칠, 몇 주, 또는 몇 달이 걸리는 경우가 많습니다. 따라서 훈련 도중에 보통 몇 시간마다 부분적으로 훈련된 모델을 스토리지에 체크포인트로 저장하는 것이 합리적이죠. 이로써 시스템 중단이 발생하더라도 훈련 진행 상황이 손실되지 않습니다

십억과 조 단위의 파라미터를 가진 모델들의 체크포인트 상태는 오늘날 가장 큰 LLM의 경우 최대 수 테라바이트에 달하는 데이터 크기로 커집니다. 때문에 이를 저장하거나 복원하는 과정에서 ‘엘리펀트 플로우(elephant flow)’가 발생할 수 있는데요. 이는 스위치 버퍼와 링크를 압도할 수 있는 대량의 데이터가 폭증하는 현상입니다. 따라서 네트워크는 훈련 워크로드에 최적의 활용이 제공되도록 보장해야 합니다.

RAG는 스토리지 패브릭이 워크로드의 성능을 좌우할 수 있는 또 다른 사례입니다. RAG를 사용하면 LLM이 지속적으로 성장하는 지식 기반과 결합돼 모델에 도메인별 컨텍스트를 추가합니다. 이를 통해 추가적인 모델 훈련이나 미세 조정을 하지 않고도 더 나은 응답을 제공할 수 있죠. RAG는 추가적인 콘텐츠 또는 지식을 벡터 데이터베이스에 임베딩해 검색 가능한 지식 기반을 만드는 방식으로 작동합니다.

추론 프롬프트가 들어오면, 프롬프트가 파싱(임베딩)되고 데이터베이스가 검색됩니다. 검색된 내용은 프롬프트에 컨텍스트를 추가해 LLM이 최상의 답변을 구성할 수 있도록 돕습니다. 벡터 데이터베이스는 다차원적이며, 특히 이미지와 비디오로 구성된 지식 기반의 경우 상당히 클 수 있습니다.

이 데이터베이스들은 스토리지 패브릭을 통해 추론 노드에 연결돼 있으며, 네트워크는 지연 시간을 최소화하기 위해 빠른 통신을 제공해야 합니다. 특히 초당 쿼리 수가 많은 다중 테넌트 생성형 AI 팩토리의 경우, 이 점이 더욱 중요합니다.

스토리지에 적응형 라우팅과 혼잡 제어 적용

Spectrum-X 플랫폼은 RoCE 적응형 라우팅(Adaptive Routing)과 RoCE 혼잡 제어(Congestion Control)와 같은 인피니밴드(InfiniBand)에서 채택된 핵심 혁신 기술을 도입했습니다. 이러한 혁신 기술을 스토리지 패브릭과 함께 사용함으로써 NVIDIA는 스토리지 워크로드에 대한 성능과 네트워크 활용도를 향상시킬 수 있습니다.

적응형 라우팅

엘리펀트 플로우 충돌을 제거하고 체크포인팅 중에 생성되는 네트워크 트래픽을 완화하기 위해, 적응형 라우팅은 네트워크에서 패킷 단위로 흐름의 부하를 동적으로 분산하는 데 사용됩니다. Spectrum-4 Ethernet 스위치는 실시간 혼잡 데이터를 기반으로 혼잡도가 가장 낮은 경로를 선택합니다. 패킷이 네트워크 전반에 분산되기 때문에 목적지에 순서에 맞지 않게 도착할 수 있으며, Legacy Ethernet에서는 그만큼 많은 패킷을 재전송해야 합니다.

그러나 Spectrum-X를 사용하면 대상 호스트의 SuperNIC 또는 데이터 처리 장치(data processing unit, DPU)는 패킷의 올바른 순서를 파악해 호스트 메모리에 순서대로 배치합니다. 또한, 적응형 라우팅을 애플리케이션에 투명하게 유지하죠. 이를 통해 패브릭 활용도를 높여 유효 대역폭을 넓히고 체크포인트, 데이터 가져오기 등에 대한 예측 가능하고 일관된 결과를 얻을 수 있습니다.

혼잡 제어

체크포인트와 기타 스토리지 작업은 종종 인캐스트 혼잡, 즉 다대일 혼잡을 초래합니다. 이는 여러 클라이언트가 단일 스토리지 노드에 쓰기를 시도할 때 발생할 수 있죠. Spectrum-X는 원격 측정 기반 혼잡 제어 기술을 도입했습니다. 이 기술은 스위치의 하드웨어 기반 원격 측정 기술을 사용해 SuperNIC 또는 DPU에 발신자 데이터 주입 속도(즉, RDMA 쓰기와 읽기)를 늦추도록 알립니다. 이를 통해 혼잡 핫스팟이 발생해 역전파되고, 주변 작업이나 프로세스가 혼잡으로 인해 부당하게 영향을 받을 수 있는 상황을 방지합니다.

복원력 향상

AI 팩토리는 대개 매우 많은 수의 스위치, 케이블, 트랜시버로 구성돼 있기 때문에, 다운된 링크 하나만으로도 네트워크 성능이 크게 저하될 수 있습니다. 따라서 네트워크 복원력은 인프라의 건전성을 유지하는 데 매우 중요하죠. Spectrum-X 글로벌 적응형 라우팅은 링크 중단 시 최적의 상태로 신속하게 재수렴할 수 있도록 지원해 스토리지 패브릭을 잘 활용할 수 있도록 합니다.

NVIDIA 스택과의 통합

NVIDIA는 Spectrum-X가 스토리지 패브릭에 가져온 혁신 외에도, GPU 데이터 경로에 대한 스토리지를 가속화하기 위해 여러 SDK, 라이브러리, 소프트웨어 제품을 제공하고 사용을 권장합니다. 다음과 같은 것들이 포함됩니다.

NVIDIA Air: 스위치, SuperNIC, 스토리지를 모델링하고, 데이(Day) 0, 1, 2 스토리지 패브릭 작업을 가속화하기 위한 클라우드 기반 네트워크 시뮬레이션 도구입니다.
NVIDIA Cumulus Linux: 자동화와 API를 중심으로 구축된 네트워크 운영 체제로, 대규모 운영과 관리를 원활하게 합니다.
NVIDIA DOCA: NVIDIA SuperNIC과 DPU를 위한 SDK로, 스토리지, 보안, 그 외 다양한 분야에서 탁월한 프로그래밍 가능성과 성능을 제공합니다.
NVIDIA NetQ: 스위치 원격 측정과 통합돼 패브릭에 대한 실시간 가시성을 제공하는 네트워크 검증 도구 세트입니다.
NVIDIA GPUDirect Storage: 스토리지와 GPU 메모리 사이에 직접적인 데이터 경로를 가능하게 해 데이터 전송을 보다 효율적으로 만들어 주는 기술입니다.

Spectrum-X 시작하기

모델이 점점 커지고 데이터가 더 멀티모달화됨에 따라, 스토리지는 계속해서 생성형 AI의 훈련과 운영에 있어 중요한 요소가 될 것입니다. NVIDIA 백서, ‘AI 스토리지 패브릭 최적화: NVIDIA Spectrum-X, AI 스토리지 네트워크 가속화(Optimizing AI Storage Fabrics: NVIDIA Spectrum-X Accelerates AI Storage Networks)’에서 더 많은 정보를 얻을 수 있습니다. 또한, NVIDIA 파트너 생태계에서 더 자세한 정보를 얻어보세요.

NVIDIA GTC 2025에서 AI 워크로드를 위한 스토리지 혁신(Storage Innovations for AI Workloads) 세션을 확인하고, 더 많은 소식들을 확인할 수 있습니다.