AWS, Trainium4 배포에 NVIDIA NVLink Fusion 통합

Reading Time: 3 minutes

AI 수요가 지속적으로 증가함에 따라, 하이퍼스케일 기업들은 고성능 AI 인프라를 더 빠르게 구축할 수 있는 방법을 모색하고 있습니다.

AWS는 이번 re:Invent 행사에서 NVIDIA와 협력해 NVLink Fusion을 통합한다고 발표했습니다. NVLink Fusion은 NVIDIA의 NVLink 확장형 인터커넥트 기술과 폭넓은 파트너 생태계를 기반으로, 맞춤형 AI 랙 인프라를 구축할 수 있게 해주는 랙 규모 플랫폼입니다. 이번 협력을 통해 AWS는 새로운 Trainium4 AI 칩, Graviton CPU, Elastic Fabric Adapter(EFA), Nitro System 가상화 인프라의 배포를 가속화할 수 있게 됩니다.

Trainium4는 NVLink 6와 NVIDIA MGX 랙 아키텍처와 통합되도록 설계되고 있으며, 이는 NVLink Fusion을 기반으로 한 AWS와 NVIDIA 간의 장기 협력의 첫 단계입니다.

NVLink Fusion은 뛰어난 확장형 네트워킹 성능과 완성도 높은 기술 스택, 그리고 이를 활용하는 강력한 파트너 생태계를 바탕으로 성능을 끌어올리고, 투자 효율을 높이며, 배포 리스크를 줄이고, 맞춤형 AI 칩의 시장 출시 속도를 앞당깁니다.

맞춤형 AI 반도체 배포의 과제

AI 워크로드는 점점 커지고, 모델은 더욱 복잡해지고 있으며, 빠르게 확장 가능한 AI 인프라에 대한 시장의 요구도 그 어느 때보다 커지고 있습니다.

계획, 추론, 에이전트형 AI와 같은 새로운 워크로드는 수천억~조 개 파라미터를 가진 모델과 MoE(Mixture-of-Experts) 아키텍처를 기반으로 작동하며, 다수의 가속기를 병렬로 연결한 대규모 시스템 구성이 필요합니다. 이러한 요구를 충족하려면 NVLink처럼 랙 전체의 가속기를 고대역폭, 저지연 네트워크로 연결하는 확장형 네트워크가 필수입니다.

하지만 하이퍼스케일 기업이 이런 특화된 솔루션을 구축하려면 여러 도전에 직면하게 됩니다:

랙 규모 아키텍처의 긴 개발 주기: 맞춤형 AI 칩 설계뿐만 아니라, 확장형 네트워킹, 확장형 스토리지 네트워크, 트레이·냉각·전력·시스템 관리·AI 가속 소프트웨어를 포함한 전체 랙 설계까지 개발해야 합니다. 이 과정은 수십억 달러의 비용과 수년에 걸친 시간이 소요될 수 있습니다.
복잡한 공급망 관리: 완전한 랙 아키텍처를 구축하려면 CPU와 GPU, 확장형 네트워크, 랙과 트레이는 물론, 버스바, 전력 장치, 냉각판, 냉각 분배 장치, 퀵 디스커넥트 등 수많은 부품이 필요합니다. 수십 개 공급업체와 수십만 개 부품을 관리하는 것은 매우 복잡하며, 하나의 부품 지연이나 변경만으로도 프로젝트 전체가 지연될 수 있습니다.

NVLink Fusion은 이러한 문제를 해결하며, 네트워크 성능 병목을 제거하고, 배포 리스크를 줄이며, 맞춤형 AI 반도체의 시장 출시를 앞당기는 데 도움을 줍니다.

NVLink Fusion, 맞춤형 AI 인프라 구현

NVLink Fusion은 하이퍼스케일 기업과 맞춤형 ASIC 설계자가 NVLink 및 OCP MGX 랙 스케일 서버 아키텍처와 통합된 맞춤형 AI 인프라를 구축할 수 있도록 하는 랙 규모 AI 플랫폼을 제공합니다.

NVLink 6 기반 확장형 네트워킹으로 성능 극대화

NVLink Fusion의 핵심은 NVLink Fusion 칩렛입니다. 하이퍼스케일 기업은 이 칩렛을 자체 설계한 ASIC에 통합해 NVLink 확장형 인터커넥트와 NVLink Switch에 연결할 수 있습니다. NVLink Fusion 기술 포트폴리오에는 6세대 NVLink Switch와 400G 커스텀 SerDes가 탑재된 Vera-Rubin NVLink Switch 트레이가 포함되어 있습니다. 이를 통해 최대 72개의 맞춤형 ASIC을 올투올(All-to-All) 방식으로 연결할 수 있으며, ASIC당 3.6TB/s, 전체 260TB/s에 달하는 확장형 대역폭을 제공합니다.

NVLink Switch는 직접 로드, 스토어, 원자 연산을 통해 동급 간(peer-to-peer) 메모리 접근을 지원하며, 네트워크 내에서 집계 연산과 멀티캐스트 가속을 지원하는 NVIDIA의 SHARP(Scalable Hierarchical Aggregation and Reduction Protocol)도 제공합니다.

기존의 확장형 네트워크 방식과 달리, NVLink는 이미 검증되고 널리 채택된 기술입니다. 여기에 NVIDIA의 AI 가속 소프트웨어가 결합되면, 72개의 가속기를 하나의 확장형 도메인으로 연결해 AI 추론 성능과 수익을 최대 3배까지 끌어올릴 수 있습니다.

검증된 아키텍처와 생태계를 통해 개발 비용 절감 및 시장 출시 가속화

NVLink Fusion 도입 기업은 NVIDIA MGX 랙 아키텍처, GPU, NVIDIA Vera CPU, Co-packaged 옵틱 스위치, NVIDIA ConnectX SuperNIC, NVIDIA BlueField DPU, NVIDIA Mission Control 소프트웨어 등으로 구성된 모듈형 AI 팩토리 기술 포트폴리오를 활용할 수 있습니다. 여기에 ASIC 설계자, CPU 및 IP 제공업체, 제조사 등 광범위한 생태계도 함께 지원됩니다.

이 포트폴리오는 하이퍼스케일 기업이 독자적인 기술 스택을 조달할 때보다 개발 비용과 시장 출시 시간을 크게 단축할 수 있도록 도와줍니다.

AWS 역시 NVLink Fusion OEM/ODM 및 공급업체 생태계를 활용하고 있으며, 이는 랙과 섀시부터 전력 공급, 냉각 시스템에 이르기까지 랙 스케일 배포에 필요한 모든 구성 요소를 제공합니다. 이 생태계를 통해 랙 스케일 인프라 구축에 따른 리스크 대부분을 제거할 수 있습니다.

이기종 AI 반도체, 단일 랙 인프라로 통합

NVLink Fusion은 AWS가 기존에 사용 중인 동일한 크기, 냉각 시스템, 전력 설계 위에 이기종 AI 반도체를 유연하게 구성할 수 있도록 해줍니다.

NVLink Fusion 플랫폼은 일부 기능만 선택적으로 활용하거나 전체를 통합하는 방식 모두 가능하며, 고강도 추론 및 에이전트형 AI 모델 학습 수요에 맞춰 빠르게 확장할 수 있도록 설계되어 있습니다.

맞춤형 AI 칩을 시장에 내놓는 일은 매우 어렵습니다. 하지만 NVLink Fusion은 하이퍼스케일 기업과 ASIC 설계자가 검증된 NVIDIA MGX 랙 아키텍처와 NVLink 확장형 네트워킹을 활용할 수 있도록 해줍니다. AWS는 Trainium4 배포에 NVLink Fusion을 도입함으로써 더 빠른 혁신 주기를 달성하고, 시장 출시 속도를 앞당기게 될 것입니다.

NVLink Fusion에 대한 자세한 정보는 공식 웹사이트에서 확인할 수 있습니다.

(최대 13배 성능 향상 수치는 5세대 NVLink 기준, NVLink Switch를 사용한 NVL72 GB200과 NVL8 B200 비교에서 도출된 수치입니다.)

AWS, Trainium4 배포에 NVIDIA NVLink Fusion 통합

맞춤형 AI 반도체 배포의 과제

NVLink Fusion, 맞춤형 AI 인프라 구현

NVLink 6 기반 확장형 네트워킹으로 성능 극대화

검증된 아키텍처와 생태계를 통해 개발 비용 절감 및 시장 출시 가속화

이기종 AI 반도체, 단일 랙 인프라로 통합

Tags

작성자 소개

AWS, Trainium4 배포에 NVIDIA NVLink Fusion 통합

맞춤형 AI 반도체 배포의 과제

NVLink Fusion, 맞춤형 AI 인프라 구현

NVLink 6 기반 확장형 네트워킹으로 성능 극대화

검증된 아키텍처와 생태계를 통해 개발 비용 절감 및 시장 출시 가속화

이기종 AI 반도체, 단일 랙 인프라로 통합

Tags

작성자 소개

댓글

Related posts

NVIDIA CCCL을 활용한 부동 소수점 결정론 제어 기법

cuTile.jl: NVIDIA CUDA 타일 기반 프로그래밍, 이제 Julia에서도 만나보세요

코딩 에이전트를 활용한 게임 런타임 추론 비용 최적화 전략

NVFP4가 AI 훈련과 추론 성능을 가속하는 3가지 방법

Nemotron을 활용한 RAG 기반 문서 처리 파이프라인 구축 가이드