생성형 AI, 5G 통신, 소버린 클라우드에 대한 수요가 증가하면서 가속 컴퓨팅으로 전환하는 조직이 늘어나고 있습니다. 이에 NVIDIA는 DOCA 플랫폼 프레임워크(DPF)를 공개하여 NVIDIA BlueField DPU의 성능을 활용하고 GPU 가속 컴퓨팅 플랫폼을 최적화하는 방법을 소개합니다. DPF는 오케스트레이션 프레임워크이자 구현을 위한 청사진 역할을 하며, 개발자, 서비스 제공업체, 기업이 BlueField 기반의 가속 클라우드 네이티브 소프트웨어 플랫폼을 원활하게 구축할 수 있도록 지원합니다.
DPF는 DPU 프로비저닝, 수명 주기 관리, 서비스 오케스트레이션을 간소화하여 쿠버네티스(Kubernetes) 환경에서 BlueField DPU를 광범위하게 활용할 수 있도록 합니다. 이를 통해 AI와 같은 최신 워크로드를 효과적으로 가속화할 수 있습니다. 또한, DPF는 BlueField 가속 애플리케이션과 서비스의 활발한 생태계를 강화해 확장 가능한 클라우드 플랫폼의 발전을 촉진합니다.
클라우드 인프라의 주요 격차 해소
CPU-GPU-DPU 삼박자에 대한 NVIDIA의 노력은 이미 잘 알려져 있으며, DPF의 도입은 이 아키텍처에서 DPU의 역할을 확대하는 과감한 도약이라고 할 수 있습니다. DPF는 보다 현대적인 클라우드 인프라로 나아가는 중요한 단계로, 데이터센터에 BlueField DPU를 통합하는 방법을 재정의하여 성능, 효율성 및 보안의 주요 과제를 해결하는 데 기여합니다.
NVIDIA BlueField DPU는 기존 CPU 중심 인프라에 대한 고성능, 확장 가능한 대안을 제공하며, 호스트 CPU에서 네트워킹, 스토리지, 보안과 같은 주요 기능을 오프로드해 데이터센터 운영을 가속화합니다. 그러나 지금까지 데이터센터 규모에서 DPU 기반 서비스를 관리하는 과정은 파편화되어 있고 복잡했습니다.
바로 이 점이 BlueField 가속 클라우드 인프라의 배포, 오케스트레이션, 확장을 간소화하는 전용 프레임워크인 DPF가 필요한 이유입니다. DPF는 쿠버네티스 컨트롤 플레인 기능을 DPU로 확장하여 관리자가 BlueField DPU에서 직접 NVIDIA DOCA 서비스와 타사 DOCA 기반 서비스를 모두 배포하고 오케스트레이션할 수 있도록 지원합니다.
원활한 통합을 위해 특별히 제작된 SDK가 탑재된 DPF는 개발자에게 일관된 모듈식 툴킷을 제공하여 BlueField DPU 제품군 전반에서 소프트웨어를 쉽게 관리할 수 있도록 지원합니다. 따라서 시간과 복잡성이 줄어들어 개발자는 DPU 소프트웨어 오케스트레이션을 관리하는 대신 강력한 소프트웨어 플랫폼과 영향력이 큰 애플리케이션을 구축하는 데 집중할 수 있습니다.
DPF는 인프라 독립 소프트웨어 공급업체(ISV)가 BlueField 애플리케이션을 구축하고 통합할 수 있도록 지원해 에코시스템에서 핵심적인 역할을 합니다. 표준화된 API와 도구를 제공하여 이러한 애플리케이션이 BlueField 가속 인프라에서 원활하게 작동하도록 보장합니다. 이는 서비스 제공업체와 기업에도 이점을 제공하여, 강력한 가속화 포트폴리오를 효과적으로 활용할 수 있게 합니다.
클라우드 네이티브 환경의 DPU 관리를 간소화하고 효율화하기 위해 DPF는 두 가지 주요 워크플로우를 처리합니다:
- DPU 프로비저닝 및 수명 주기 관리: BlueField DPU를 배포하기 위한 초기 단계로, 펌웨어와 소프트웨어 설치 및 구성 작업을 포함하며, 지속적인 유지 관리 작업도 다룹니다.
- DPU 서비스 관리 및 오케스트레이션: SDN 컨트롤러 소프트웨어, 스토리지 타겟 소프트웨어, 방화벽, 로드 밸런서 등 인프라 서비스를 배포하고 관리하는 과정과 서비스 기능 체이닝을 포함합니다.
효율적인 DPU 프로비저닝 및 수명주기 관리
DPF는 BlueField DPU 프로비저닝 및 수명주기 관리를 위한 엔드투엔드 지원을 제공하여 펌웨어 업데이트, 플래싱, 구성과 같은 프로세스를 자동화하여 설정을 간소화하고 가동 중단 시간을 줄입니다. 프로비저닝, 구성, 모니터링, 문제 해결과 같은 주요 작업이 간소화되어 BlueField DPU를 대규모로 통합하고 운영하기가 더 쉬워집니다.
DPF는 데이터센터 전반에서 각 BlueField의 업데이트 상태를 지속적으로 유지하며, DPU 상태 변화에 따라 동적으로 대응할 수 있습니다. 유지보수가 필요한 경우 DPF는 제어된 방식으로 노드를 선제적으로 배수하여 활성 프로덕션 워크로드에 미치는 영향을 최소화하거나 완전히 제거할 수 있습니다. 관리자는 롤링 업데이트 기능을 사용해 시스템 안정성에 영향을 줄 수 있는 대규모 업데이트를 방지하면서, 한 번에 업데이트할 BlueField DPU의 비율을 지정해 일괄 업데이트를 세밀하게 제어할 수 있습니다. 또한, 실시간 상태 모니터링과 알림을 통해 문제를 신속히 파악하고 해결할 수 있으며, 이는 통신 및 AI 기반 데이터센터처럼 높은 신뢰성이 요구되는 환경에서 필수적인 기능입니다.
DPF는 노출된 API와 사용자 정의 리소스 정의(CRD)를 통해 BlueField DPU 수명 주기를 자동화하여 클라우드 운영자가 표준 K8s 컨트롤 플레인에서 BlueField 기반 서비스를 관리할 수 있도록 함으로써 K8s 워커 노드와 DPU를 모두 통합된 “단일 창” 보기와 제어를 제공합니다.
DPF 구현 청사진(Blueprint)은 업스트림 쿠버네티스를 기반으로 하므로 기술 파트너는 다양한 인프라 요구사항과 엔터프라이즈 제품에 맞게 프레임워크를 조정하고 확장할 수 있습니다.
포괄적인 DPU 서비스 관리 및 오케스트레이션
DPF는 Bluefield DPU를 쿠버네티스 기반 워크플로우에 원활하게 통합하여 클라우드 네이티브 환경에 새로운 차원의 정교함을 제공합니다. 전용 보조 쿠버네티스 컨트롤 플레인을 도입함으로써 DPF는 관리자가 Bluefield DPU에 배포된 NVIDIA DOCA 서비스 및 타사 DOCA 기반 애플리케이션을 효율적으로 관리할 수 있도록 지원합니다. DPF 운영자는 서비스 배포, 모니터링 및 수명 주기 관리의 모든 측면을 감독하면서 이 보조 DPU 쿠버네티스 컨트롤 플레인을 자율적으로 관리합니다.
DPF는 관리자가 익숙한 쿠버네티스 구성을 사용하여 기본 쿠버네티스 컨트롤 플레인과만 상호 작용하므로 DPU 관리 복잡성을 추상화하도록 설계되었기 때문에 DPU 제어 계층을 직접 관리할 필요가 없습니다. 또한 DPF는 ISV에게 유연성을 제공하여 맞춤형 BlueField 서비스 관리 및 오케스트레이션을 위한 자체 쿠버네티스 컨트롤 플레인을 구현할 수 있도록 지원합니다.
DPF는 여러 BlueField DPU에서 서비스 오케스트레이션을 최적화함으로써 복잡하고 분산된 워크로드의 배포 및 관리를 간소화합니다. 강력한 수명 주기 관리 기능을 갖춘 DPF는 원활한 서비스 업데이트, 확장, 롤백을 지원하여 관리자가 지속적인 운영을 중단하지 않고도 변경 사항을 효율적으로 관리할 수 있도록 합니다. DPF는 DOCA 서비스 기능 체인(SFC)과 결합하여 가속 네트워킹(CNI), 고성능 데이터 서비스(CSI), 방화벽 기능과 같은 서비스를 안전하고 효율적으로 체인화하여 복잡한 다단계 작업을 처리할 수 있도록 지원합니다.
원활한 배포를 위해 DPF는 사전 배포 검증을 제공하여 DPU가 필요한 서비스를 호스팅할 수 있는지 확인하고 요구 사항이 충족되지 않을 경우 의미 있는 오류 메시지를 반환합니다. 또한 DPF는 관리자가 실시간으로 서비스를 관리하고 문제를 해결할 수 있도록 모니터링 및 디버깅 기능을 제공하여 높은 안정성과 투명성을 쉽게 달성할 수 있도록 도와줍니다.
관리자는 DPF를 통해 BlueField DPU에서 서비스를 프로비저닝, 관리 및 오케스트레이션할 수 있는 직관적인 클라우드 네이티브 도구를 사용할 수 있습니다. 기존 쿠버네티스 워크플로우와의 원활한 통합을 통해 통신, 클라우드, 엔터프라이즈 환경 등 다양한 분야에서 고급 BlueField 가속 애플리케이션의 배포 시간을 단축할 수 있습니다.
손쉬운 통합을 지원하는 모듈형 아키텍처
DPF는 모듈식 아키텍처로 설계되어 통합을 간소화하고 BlueField 가속 인프라를 위한 맞춤형 기능을 지원합니다. 이 유연한 설계는 핵심 구성 요소와 도구 모음을 기반으로 구축되어 개발자, 서비스 제공업체, 기업이 클라우드 네이티브 환경 내에서 BlueField DPU를 프로비저닝하고 관리하는 데 있어 간소화된 접근 방식을 제공합니다.
그림 1은 호스트와 BlueField DPU 모두에서 작동하는 DPF 기능을 강조한 DPF 소프트웨어 스택을 보여줍니다. 또한 네트워킹, 스토리지 및 보안을 위한 다양한 인프라 소프트웨어 서비스가 포함되어 있으며, 이 중 일부는 쿠버네티스 플러그인(CNI 및 CSI)을 통해 컨테이너화된 워크로드에 가속화된 IO 인터페이스를 노출합니다.

컨테이너, Helm 차트 및 구현 청사진을 통해 제공되는 이러한 도구와 서비스는 개발자가 DPF를 통합하고 구축하는 데 필요한 모든 것을 갖추고 있습니다.
DPF 운영자
DPF 오케스트레이션 레이어의 중심에는 DPU 프로비저닝, 라이프사이클 관리 및 서비스 오케스트레이션을 자동화하는 DPF 오퍼레이터가 있습니다. 이는 쿠버네티스 사용자에게 익숙한 클라우드 네이티브 인터페이스를 제공하여 복잡한 구성을 간소화하고 다른 클러스터 리소스처럼 BlueField DPU를 배포 및 관리할 수 있게 해줍니다. 자동 업데이트 및 리소스 관리를 위한 기본 지원 기능을 갖춘 DPF 운영자는 프로덕션 환경에서 BlueField DPU를 쉽게 배포하고 유지 관리할 수 있도록 지원합니다.
호스트용 DOCA
호스트용 DOCA 소프트웨어는 BlueField DPU의 배포 및 구성을 간소화하는 포괄적인 프로비저닝 도구 세트를 제공합니다. 호스트용 DOCA는 DPU를 호스트 환경과 통합하는 데 필요한 펌웨어, BIOS 및 시스템 구성을 처리하여 배포 전반에 걸쳐 일관되고 안정적인 설정을 보장합니다.
OVS-DOCA
OVS-DOCA는 DPF 내의 핵심 네트워킹 스택 역할을 하며, BlueField 가속 애플리케이션을 위한 안전한 고성능 네트워크 연결을 촉진합니다. 이 제품은 고급 네트워킹 기능과 효율적인 트래픽 라우팅을 제공하여 성능이나 보안의 저하 없이 BlueField 리소스를 최대한 활용할 수 있도록 합니다. 이 파운데이션을 통해 개발자는 처리량이 많고 지연 시간에 민감한 애플리케이션을 쉽게 구축할 수 있습니다.
DOCA 서비스
NVIDIA NGC에서 호스팅되는 엄선된 DOCA 서비스 세트는 BlueField DPU의 기능을 향상시키며, DPF는 이러한 서비스를 쿠버네티스 클러스터의 일부로 BlueField에서 직접 가져와 배포할 수 있는 도구를 제공합니다. 고급 모니터링, 네트워킹, 스토리지, 보안 등을 포함하는 이러한 즉시 사용 가능한 서비스는 BlueField 기능을 확장하여 중요한 서비스를 신속하게 배포할 수 있도록 지원합니다. NVIDIA NGC를 통해 사용자는 DPF와 완벽하게 통합되는 확장된 NVIDIA 인증 서비스 및 애플리케이션 리포지토리에 원활하게 액세스할 수 있습니다. 초기 DPF 릴리스에는 첫 번째 DOCA 서비스 세트인 HBN, OVN-Kubernetes, Telemetry 및 BlueMan이 포함되며, 후속 릴리스에서는 기능을 더욱 향상하고 통합 기능을 확장하기 위해 추가 서비스에 대한 지원이 도입될 예정입니다.
DPF는 NVIDIA 서비스 외에도 BlueField 환경에 특화된 기능을 제공하는 타사 DOCA 서비스를 오케스트레이션합니다. 네트워크 보안 솔루션부터 로드 밸런싱 및 방화벽 애플리케이션에 이르기까지 타사 서비스를 통해 사용자는 특정 요구 사항에 맞는 강력한 에코시스템을 구축할 수 있습니다. 개방형 모듈식 아키텍처를 수용함으로써 DPF는 서비스 공급업체와의 협업을 촉진하여 사용자에게 더 넓은 범위의 기능과 유연성을 제공합니다.
DPF는 컨테이너, Helm 차트 및 구현 청사진으로 패키징된 필요한 도구와 서비스를 통해 개발자가 DPF와 쉽게 통합하고 고급 BlueField 가속 소프트웨어 플랫폼을 구축, 사용자 정의 및 배포할 수 있도록 지원합니다.
DPF로 DPU 가속 클라우드 컴퓨팅의 미래를 선도하세요.
NVIDIA DOCA 플랫폼 프레임워크(DPF)는 BlueField 가속화 환경을 위한 클라우드 인프라를 재정의하여 클라우드 서비스 프로비저닝 및 관리 방식을 혁신합니다. 또한 NVIDIA DPF 로드맵은 곧 출시될 흥미로운 기능을 예고합니다. 곧 출시될 기능은 베어메탈, BlueField 가속 인프라에 제로 트러스트 기능을 제공하여 하드웨어 계층부터 환경을 보호할 것입니다.
개발자, 통신사 및 기업은 DPF의 기능을 살펴보고, 청사진을 다운로드하여 고성능 및 확장 가능한 인프라에 최적화된 애플리케이션을 구축하는 실험을 해보시기 바랍니다. 지금 바로 DPF를 시작하여 BlueField 가속 클라우드 인프라의 미래를 선도하세요.
- 컨테이너 및 Helm 차트 확인하기
- NVIDIA/doca-플랫폼 GitHub 리포지토리 방문하기
- DPF 문서 읽기
- DPF RDG(참조 배포 가이드)를 참조하여 OVN-Kubernetes 및 HBN 서비스와 함께 DPF를 배포하세요.
관련 리소스
NGC 컨테이너: DOCA HBN
NGC 컨테이너: NVIDIA DOCA SNAP Virtio-fs
NGC 컨테이너: DOCA Base Image
SDK: DOCA
웨비나: NVIDIA A100X로 저지연 마켓 데이터 가속화하기
웨비나: AI 클라우드 컴퓨팅 가속화