Data Center / Cloud

NVIDIA Vera Rubin NVL72를 위한 NVIDIA BlueField Astra: 보안 AI 인프라의 새로운 정의

Reading Time: 4 minutes

대규모 AI 혁신이 가속 컴퓨팅 인프라에 대한 전례 없는 수요를 불러일으키고 있습니다. 수조 개의 파라미터를 가진 파운데이션 모델을 학습시키고, 이를 분산 아키텍처로 서비스하며, 거대한 처리량의 추론 워크로드를 처리하는 과정은 데이터 센터 설계의 한계를 시험하고 있는데요. 이러한 흐름에 발맞추기 위해 서비스 제공업체들은 단순히 규모를 확장하는 것을 넘어, 더 강력한 보안과 향상된 테넌트 격리 기능을 제공하는 인프라를 갖춰야 합니다.

이번 포스팅에서는 NVIDIA BlueField-4에서 구동되는 NVIDIA BlueField Astra를 소개합니다. 이 기술은 서비스 제공업체가 AI 인프라를 관리하고 보안을 유지하며 확장하는 방식을 새롭게 정의하는 획기적인 혁신입니다.

AI를 위한 베어메탈 컴퓨팅의 부상

가속 컴퓨팅에 대한 수요가 늘어남에 따라 업계에서는 GPU 가속의 이점을 극대화하기 위해 베어메탈(Bare-metal) 컴퓨팅을 우선적으로 고려하고 있습니다. 가상화 환경과 달리 베어메탈 프로비저닝은 어떤 테넌트도 다른 테넌트의 자원을 방해할 수 없도록 엄격한 격리와 신뢰할 수 있는 컨트롤 포인트가 필수적입니다. 하지만 AI 인프라가 아래 두 가지의 서로 다른 네트워크 도메인에 걸쳐 있다는 점이 기술적인 과제였습니다.

  • 남북(North-South, N-S): 사용자와 애플리케이션을 AI 클러스터에 연결하는 프런트엔드 네트워크
  • 동서(East-West, E-W): 엄청난 대역폭과 초저지연으로 GPU들을 연결하는 백엔드 AI 컴퓨팅 패브릭

오늘날의 클라우드 서비스 제공업체(CSP)들은 이미 내장된 Arm 코어에서 컨트롤 소프트웨어 스택을 구동하는 NVIDIA BlueField DPU를 사용해 N-S 트래픽을 관리하고 있습니다. 이 모델 덕분에 서비스 제공업체들은 격리 정책을 시행하고, 자원을 할당하며, 워크로드 보안을 효과적으로 유지할 수 있습니다.

E-W 도메인에서는 NVIDIA Ethernet SuperNIC이 AI 워크로드의 극한 요구 사항을 충족하기 위해 특수 제작된 어댑터 역할을 합니다. 대규모 GPU 클러스터가 필요로 하는 성능과 처리량, 그리고 혼잡 제어 기능을 완벽하게 제공하고 있습니다.

AI 클러스터 규모가 점점 커짐에 따라, 이제 CSP들은 SuperNIC이 이미 제공하고 있는 강력한 성능과 확장성을 보완하면서도, AI 컴퓨팅 패브릭까지 프로비저닝과 제어 범위를 확장할 수 있는 보안적이고 일관된 방법을 찾고 있습니다.

NVIDIA BlueField Astra란 무엇인가요?

CES 2026에서 발표된 것처럼, NVIDIA Rubin 플랫폼BlueField-4에서 구동되는 새로운 BlueField Astra(Advanced Secure Trusted Resource Architecture)를 탑재하고 있습니다. BlueField Astra는 하드웨어와 소프트웨어의 혁신을 결합한 획기적인 시스템 레벨 아키텍처로, NVIDIA Vera Rubin NVL72 컴퓨팅 트레이에 깊숙이 통합되어 있습니다.

BlueField-4 DPU와 NVIDIA ConnectX-9 SuperNIC 사이의 전용 연결을 통해, BlueField Astra는 관리 편의성과 프로비저닝, 그리고 정책 적용 범위를 E-W(동서) 패브릭까지 확장해 줍니다. 이제 사상 처음으로 DPU가 컴퓨팅 노드로 드나드는 모든 네트워크 I/O를 완벽하게 제어할 수 있게 된 것입니다.

BlueField Astra를 사용하면 클라우드 서비스 제공업체(CSP)는 BlueField-4 DPU에서 실행되는 신뢰할 수 있는 소프트웨어 스택을 그대로 활용할 수 있습니다. 이를 통해 AI 컴퓨팅 패브릭 전체에서 테넌트 격리와 네트워크 정책을 안전하게 관리할 수 있어요. 이러한 정책들은 대역 외(out-of-band) DPU 포트를 통해 프로그래밍되고 SuperNIC 하드웨어에서 직접 실행되므로, 시스템 전반에 걸쳐 일관된 제어를 보장해 줍니다.

BlueField Astra의 중심에는 새로운 컨트롤 플레인 아키텍처가 자리 잡고 있습니다. 호스트 기반 소프트웨어가 NIC와 패브릭을 모두 설정하던 기존 모델과 달리, BlueField Astra는 SuperNIC 컨트롤 플레인을 호스트 운영체제(OS)로부터 완전히 격리해 줍니다. 덕분에 테넌트 워크로드가 베어메탈에서 실행되더라도 네트워크 설정에 간섭하거나 이를 들여다보는 것이 불가능해져 보안이 한층 강화되었습니다.

그림 1. BlueField Astra 관리 모델을 지원하는 Vera Rubin NVL72 컴퓨트 트레이

그림 1에서 볼 수 있듯이, BlueField Astra는 BlueField-4 DPU와 ConnectX-9 SuperNIC 사이에 직접적인 경로를 구축하여 통합 제어 아키텍처를 형성합니다. 이를 통해 다음과 같은 가치를 제공합니다.

  • 전용 연결성: 각 NVIDIA ConnectX-9 SuperNIC은 BlueField-4 DPU에 직접 연결됩니다. 덕분에 DPU는 호스트 CPU의 도움 없이도 SuperNIC을 직접 프로그래밍하고 설정하며 모니터링할 수 있어요.
  • 대역 외(Out-of-band) 제어: BlueField Astra는 모든 프로비저닝 명령과 네트워크 정책을 BlueField에 내장된 Arm 코어를 통해 전달합니다.
  • N-S 및 E-W의 통합 제어: BlueField-4는 두 도메인을 하나의 신뢰할 수 있는 제어 지점으로 통합합니다. 테넌트 격리와 보안 정책을 위해 N-S 네트워크를 관리하던 바로 그 DPU가, 이제 그 능력을 E-W AI 컴퓨팅 패브릭까지 확장하게 된 것입니다.
  • 테넌트로부터의 격리: 테넌트는 AI 데이터 이동을 위해 SuperNIC을 사용하지만, 관리 기능에는 접근하거나 제어할 수 없습니다. 관리 권한은 DPU에 완전히 격리되어 유지되니까요.
  • 보안 모델의 일관성: NVIDIA DOCA 스택을 호스트에서 DPU로 옮김으로써, BlueField Astra는 이미 N-S 트래픽에서 검증된 클라우드 수준의 보안 태세를 E-W 패브릭에서도 그대로 이어받을 수 있게 해줍니다.

BlueField Astra가 선사하는 제어력, 일관성, 그리고 신뢰

BlueField Astra는 N-S와 E-W 도메인 전체에 걸쳐 통합된 컨트롤 플레인을 구축함으로써 AI 인프라 관리의 패러다임을 바꿉니다. 서비스 제공업체는 BlueField-4 DPU라는 단일 제어 지점을 통해 호스트 CPU를 건드리지 않고도 프로비저닝을 간소화하고, 정책을 일관되게 적용하며, 운영 복잡성을 줄일 수 있습니다.

설계 단계부터 BlueField Astra는 더 강력한 격리와 보안을 제공하도록 만들어졌습니다. SuperNIC 컨트롤 플레인은 테넌트 워크로드로부터 격리되어 DPU에 의해 완전히 관리되므로, 테넌트가 정책을 우회하거나 수정할 수 없습니다. 이 모델은 네트워크 내부의 측면 이동(Lateral movement)과 설정 오류를 방지하며, CSP가 멀티 테넌트 환경에서도 베어메탈 GPU 노드를 안심하고 제공할 수 있게 해줍니다.

운영의 일관성 또한 BlueField Astra의 큰 장점입니다. 서비스 제공업체들은 N-S 프런트엔드에서 이미 사용 중인 DOCA 기반 관리 도구와 워크플로우를 E-W 컴퓨팅 패브릭까지 그대로 확장할 수 있습니다. 정책은 SuperNIC 하드웨어에 직접 내려져 실행되므로, NVIDIA SuperNIC 특유의 고성능을 유지하면서도 테넌트별로 세밀한 프로비저닝이 가능해집니다.

마지막으로 BlueField Astra는 규정 준수(Compliance)와 감사 가능성을 지원합니다. 정책과 설정이 호스트가 아닌 DPU에 상주하기 때문에, CSP는 더 명확한 감사 추적을 확보할 수 있고 규제 산업의 요구 사항에 맞는 보안 태세를 갖출 수 있습니다. 보안이 나중에 덧붙여진 게 아니라, 대규모 AI 인프라의 운영체제 자체에 깊숙이 내재화된 셈입니다.

베어메탈 AI 시스템으로 확장되는 운영 워크플로우

BlueField Astra는 DOCA 소프트웨어 플랫폼을 기반으로 BlueField-4에서 인프라 서비스를 배포하고 운영할 수 있는 일관된 수단을 제공합니다. 네트워킹, 보안, 스토리지 및 관리 기능을 DPU에 고정함으로써, 기존의 DOCA 마이크로서비스와 운영 워크플로우가 베어메탈 AI 시스템과 E-W 컴퓨팅 패브릭으로 자연스럽게 스며들 수 있게 해줘요.

Astra 환경에서 DOCA 마이크로서비스는 BlueField-4에서 직접 실행되며, DPU가 관리하는 컨트롤 플레인을 통해 NVIDIA ConnectX-9 SuperNIC과 통신합니다. 이 모델은 기존 DOCA 배포 방식과의 호환성을 유지하면서도, 호스트 OS에 대한 새로운 의존성 없이 멀티 테넌트 베어메탈 AI 환경에 필요한 강력한 격리와 제어 기능을 실현합니다.

BlueField Astra는 AI 시스템의 인프라 제어 계층을 형성하는 다음과 같은 DOCA 마이크로서비스 세트를 지원합니다.

  • 네트워킹
    • N-S: DOCA HBN(Host-Based Networking)이 AI 클러스터 프런트엔드에서 테넌트 인식 프로비저닝, 격리 및 정책 적용을 담당합니다.
    • E-W: DOCA로 가속화된 OVS(Open vSwitch)가 소프트웨어 정의 네트워킹을 AI 컴퓨팅 패브릭으로 확장하여, 패브릭 제어권을 테넌트 워크로드로부터 격리한 채 GPU 노드 간의 연결을 제어합니다.
  • 보안
    • DOCA Argus는 DPU로부터 인프라 수준의 텔레메트리와 런타임 가시성을 제공하여, 테넌트의 신뢰 경계 외부에서 모니터링과 정책 집행을 지원합니다.
  • 스토리지
    • DOCA SNAP은 스토리지 서비스를 DPU로 오프로드하여, 호스트 소프트웨어와 독립적으로 작동하는 안전하고 격리된 데이터 경로를 구현합니다.
  • 관리
    • DOCA DMS는 장치 검색, 수명 주기 관리 및 보안 프로비저닝을 제공하여, CSP가 DPU 중심의 중앙화된 지점에서 AI 노드와 SuperNIC을 관리할 수 있게 해줍니다.

이러한 DOCA 마이크로서비스들이 모여, BlueField Astra는 대규모 AI 워크로드에 필요한 성능을 유지하면서도 N-S와 E-W 도메인 모두에서 일관된 소프트웨어 정의 인프라 모델을 유지할 수 있게 해줍니다.

AI 인프라의 미래를 지키다

AI 워크로드가 새로운 차원으로 확장됨에 따라, 서비스 제공업체들은 엄격한 멀티 테넌트 보안을 유지하면서도 베어메탈급 성능을 제공해야 하는 과제에 직면해 있습니다. NVIDIA는 BlueField Astra를 통해 프런트엔드 네트워크에서 확보했던 신뢰할 수 있는 제어력을 AI 컴퓨팅 패브릭 그 자체로 확장했습니다. BlueField DPU와 SuperNIC을 통합된 격리 아키텍처 아래 결합함으로써, 이제 CSP는 자신 있게 차세대 AI 인프라를 구축하고 운영할 수 있게 되었습니다.

NVIDIA Vera Rubin NVL72와 BlueField-4가 AI 인프라의 미래를 어떻게 바꿔놓고 있는지 더 궁금하시다면, 젠슨 황 CEO의 CES 2026 NVIDIA 라이브 프레젠테이션을 시청해 보세요. BlueField-4의 상세 기능과 사양은 데이터시트에서 확인하실 수 있습니다.

Discuss (0)

Tags