ChatGPT, Stable Diffusion, DALL-E 및 이와 유사한 애플리케이션이 세상을 생성형 AI에 눈을 뜨게 했습니다. ChatGPT는 역사상 가장 빠르게 성장하는 애플리케이션입니다. 사용 편의성과 인상적인 기능으로 불과 몇 달 만에 1억 명 이상의 사용자를 끌어모았습니다.
생성형 AI는 기업들이 제품과 비즈니스 모델을 재구상해야 한다는 절박감을 불러일으켰습니다. 엔비디아의 CEO인 젠슨 황이 GTC 2023 키노트에서 말했듯이, AI의 아이폰 시대가 도래했습니다. 그리고 엔비디아 가속 컴퓨팅은 전 세계 기업들이 일반 컴퓨터의 역량을 넘어서는 문제를 해결함으로써 AI를 활용하도록 돕고 있습니다.
가속 컴퓨팅을 지원하는 NVIDIA BlueField DPU
NVIDIA 가속 컴퓨팅 기술 스택은 모든 산업에서 차세대 애플리케이션을 실행하는 데 필요한 성능, 확장성 및 효율성 수준을 제공함으로써 AI의 성능을 활용할 수 있도록 지원합니다.
가속 컴퓨팅은 주로 세 가지 기본 요소를 기반으로 실행됩니다.
- 직렬 처리 및 하이퍼스레드 애플리케이션 실행에 사용되는 CPU.
- 병렬 처리에 탁월하고 최신 워크로드를 가속화하는 데 최적화된 GPU.
- 데이터센터 네트워킹, 스토리지, 보안 및 관리 효율성 워크로드를 오프로드, 가속화 및 격리하는 데 사용되는 인프라 컴퓨팅 작업에 이상적인 DPU.
최신 소프트웨어 정의 데이터센터에서 가상화, 네트워크, 스토리지, 보안을 실행하는 OS는 데이터센터 CPU 코어 및 관련 전력의 거의 절반을 소비할 수 있습니다. 데이터센터는 모든 워크로드를 가속화하여 전력을 회수하고 수익 창출 워크로드를 위해 CPU를 확보해야 합니다.
NVIDIA BlueField 데이터 처리 장치(DPU)는 데이터센터 OS 및 인프라 소프트웨어를 오프로드하고 가속화합니다.
NVIDIA는 데이터센터 규모에서 NVIDIA Omniverse 애플리케이션을 생성하고 운영하기 위해 3세대 NVIDIA OVX 시스템을 포함한 데이터센터 컴퓨팅 시스템 전반에 걸쳐 BlueField-3을 통합하고 있습니다. 자세한 내용은 대규모 옴니버스: NVIDIA, 산업용 메타버스 애플리케이션을 지원하는 3세대 OVX 컴퓨팅 시스템 발표를 참조하세요.
DPU를 사용하는 선도적인 기업
오라클 클라우드 인프라스트럭처(OCI)는 최근 GTC 2023에서 발표한 바 있는 엔비디아 블루필드-3 DPU를 네트워킹 스택에 통합하는 계획을 공개했습니다. 이 계획은 네트워킹 및 보안 작업을 CPU에서 DPU로 오프로드하여 더 빠르고 효율적으로 처리함으로써 데이터센터 성능을 최적화하는 것을 목표로 합니다.
OCI는 블루필드-3 DPU의 성능을 활용하여 인프라를 개선하고 고객에게 원활한 클라우드 경험을 제공할 준비가 되어 있습니다. 자세한 내용은 오라클 클라우드 인프라, 엔비디아 블루필드 데이터센터 가속화 플랫폼을 선택하다를 참조하세요.
또한, Check Point, Cisco, DDN, Dell EMC, 주니퍼, 팔로알토 네트웍스, 레드햇, VMWare를 비롯한 24개 이상의 에코시스템 파트너가 소프트웨어 플랫폼을 보다 효율적으로 실행하기 위해 BlueField 데이터센터 가속화 기술을 사용하고 있습니다.
NVIDIA BlueField-3 플랫폼 개요
220억 개의 트랜지스터가 탑재된 NVIDIA BlueField-3는 3세대 NVIDIA DPU입니다. 최대 400Gbps의 이더넷 및 인피니밴드 연결을 제공하는 시스템 온 칩(SoC) 장치입니다. 최대 4개의 고유한 MAC 주소를 지원하는 BlueField-3는 400Gbps(PAM4 112의 4레인)로 실행되는 단일 포트부터 25, 50 또는 100Gbps의 속도로 실행되는 4개의 포트까지 다양한 포트 구성을 제공할 수 있습니다.
BlueField-3는 이전 세대에 비해 2배의 네트워크 대역폭, 4배의 컴퓨팅 성능, 거의 5배의 메모리 대역폭을 제공하는 동시에 NVIDIA DOCA 소프트웨어 프레임워크를 통해 완벽한 이전 버전과의 호환성을 제공합니다.
이러한 주요 발전 덕분에 블루필드-3는 워크로드를 최대 8배 더 빠르게 실행하는 동시에 총소유비용을 절감하고 데이터센터 에너지 효율성을 제공할 수 있습니다. 예를 들어, Bluefield-3는 CPU에서 HPC/AI MPI 집합 연산을 오프로드하여 속도가 거의 20% 향상되며, 이는 대규모 슈퍼컴퓨터의 경우 1,800만 달러의 비용 절감으로 이어집니다. 자세한 내용은 데이터센터 효율성을 높이는 NVIDIA BlueField DPU를 참조하십시오.
BlueField-3 DPU는 크게 세 가지 블록으로 구성됩니다:
- 네트워킹: 네트워킹 및 보안 하드웨어 가속기가 통합된 최신 세대 NVIDIA ConnectX-7 SmartNIC.
- 프로그래밍 가능한 컴퓨팅: 제어 플레인 애플리케이션에 최적화된 완전 코히어런트 저지연 메시 인터커넥트를 갖춘 16개의 ARM A78 v8.2로 구성된 강력한 클러스터. 데이터 플레인 프로그래밍 가능성은 가속화된 파이프라인과 새로운 프로그래밍 가능 데이터 경로 가속기(DPA)를 통해 달성됩니다. DPA는 16개의 하이퍼스레드 코어로 구성된 I/O 및 패킷 프로세서로, 디바이스 에뮬레이션, 혼잡 제어, 맞춤형 프로토콜 등과 같이 IO 집약적이고 컴퓨팅 성능이 낮은 작업을 위해 특별히 설계되었습니다.
- 메모리: 듀얼 64비트 DDR5-5600 메모리 인터페이스(80GB 대역폭) 및 통합 32레인 PCIe Gen 5.0 스위치. PCIe 인터페이스는 서버 호스팅(엔드포인트) 또는 자체 호스팅(루트 컴플렉스)으로 분기하여 GPU 또는 직접 연결된 SSD 장치를 관리할 수 있습니다.
“서버 앞의 서버” 역할을 하는 BlueField-3는 ASPEED AST2600 베이스보드 관리 컨트롤러(BMC)가 통합된 유일한 DPU 플랫폼입니다. BlueField BMC는 DPU 보드의 물리적 상태를 모니터링하고 시스템 관리자가 독립적인 연결을 통해 플랫폼을 관리할 수 있도록 하는 전용 프로세서입니다. 이를 통해 시스템 보안, 안정성, 가용성 및 서비스 가능성이 향상됩니다.
DPU BMC는 자체 외부 신뢰 루트를 갖춘 신뢰할 수 있는 엔티티로 펌웨어의 보안을 보장합니다. 표준 인터페이스와 Redfish 프로토콜을 사용하여 분리된 대역 외 관리 네트워크를 통해 BlueField DPU를 프로비저닝하고 관리할 수 있으며, DPU의 전체 수명주기를 관리할 수 있습니다.
BMC 기능 중 일부는 다음과 같습니다:
- 콘솔 인터페이스를 통한 BlueField DPU 액세스
- BlueField UEFI 구성 설정
- BlueField DPU 및 해당 리소스 모니터링
- BlueField DPU 펌웨어 업데이트 및 복구
- 제어 재설정(BlueField OS가 중지된 경우에도)
BlueField-3 포괄적인 포트폴리오
NVIDIA는 다양한 산업 및 사용 사례의 고유한 컴퓨팅, 메모리 및 성능 요구 사항을 충족하도록 설계된 광범위한 BlueField-3 플랫폼을 제공합니다. 이를 통해 고객은 특정 요구 사항에 맞는 적합한 BlueField-3 제품을 선택할 수 있으며, 고급 기능과 최첨단 성능을 누릴 수 있습니다.
타겟 시장 및 주력 플랫폼
아래에 자세히 설명된 바와 같이 BlueField-3 DPU는 여러 주요 플래그십 플랫폼과 타겟 시장에서 사용됩니다.
하이퍼스케일 HPC/AI
HPC 및 AI 워크로드는 최대 성능과 엄청난 규모를 중요시하기 때문에 400Gbps(NDR 인피니밴드 및 400GbE)의 네트워크 속도를 가장 먼저 수용했습니다. 블루필드는 Arm 코어를 활용하여 시스템 호스트 CPU에서 메시지 전달 인터페이스(MPI) 라이브러리의 요소를 오프로드하고 논블럭킹 집단 작업을 구현함으로써 NVIDIA 인네트워크 컴퓨팅 기능을 확장합니다. 이를 통해 시스템 호스트 CPU는 피크 오버랩이 있는 연산을 수행할 수 있습니다.
B3240: 가장 까다로운 하이퍼스케일 HPC/AI 요구 사항을 해결할 수 있는 성능과 네트워크 기능을 자랑합니다. 이 BlueField-3 플랫폼은 과학 연구 또는 제너레이티브 AI 워크로드를 처리할 수 있도록 NVIDIA DGX H100과 같은 시스템을 지원합니다. 이 플랫폼은 듀얼 400Gbps NDR 연결, 32GB DDR5 메모리 서브시스템, 2.3GHz의 Arm 코어 속도를 사용합니다.
B3140H: 대부분의 엔터프라이즈 서버와 호환되는 절반 높이 절반 길이(HHHL) 폼 팩터가 특징입니다. 이 디바이스는 저전력 범위 내에서 작동하면서 단일 400Gbps 포트와 16GB DDR5 메모리를 제공합니다. 따라서 제한된 공간이나 전력 가용성의 제약 내에서 확장 가능한 성능을 필요로 하는 HPC/AI 환경에 이상적인 선택이 될 수 있습니다.
클라우드 컴퓨팅
클라우드 산업이 빠르게 성장함에 따라 클라우드 제공업체는 고객의 수요를 충족하기 위해 지속적으로 혁신하고 서비스 제공을 맞춤화해야 합니다. 최신 클라우드 플랫폼은 하이퍼바이저 기반 가상화를 사용하여 컴퓨팅 및 데이터 센터 수준에서 테넌트에 할당된 가상 인스턴스 수를 최대화합니다. 최대 4,096개의 가상 기능을 지원하는 BlueField-3를 통해 클라우드 제공업체는 이전 세대에 비해 클라우드 컴퓨팅 플랫폼에서 4~8배 더 많은 가상 인스턴스를 호스팅할 수 있습니다.
B3220: 듀얼 200Gbps 지원, 32GB DDR5 메모리 서브시스템, 2.3GHz의 Arm 코어 속도를 제공하는 B3220은 가장 까다로운 클라우드 요구 사항을 충족할 수 있는 성능과 네트워크 기능을 갖추고 있습니다. 하이퍼스케일러인 오라클 클라우드 인프라스트럭처(OCI)가 극한의 성능을 갖춘 지속 가능한 최첨단 클라우드 인프라스트럭처를 제공하기 위해 네트워킹 스택에 BlueField-3을 추가한 이유도 바로 여기에 있습니다. 또한 B3220 플랫폼은 클라우드에서 더 높은 성능, 제로 트러스트 보안, 산업용 메타버스 애플리케이션의 무한한 확장을 지원하는 NVIDIA OVX 3.0 시스템을 지원합니다.
B3210: 100Gbps의 B3210은 선도적인 엔터프라이즈 데이터센터의 요구 사항을 해결하는 데 가장 적합한 제품입니다. B3210은 엔터프라이즈 워크로드 플랫폼인 VMware vSphere를 실행하기 위한 타겟 DPU로, 수천 개의 기업의 성능, 효율성 및 보안을 개선합니다.
스토리지
B3220SH: B3220SH 셀프 호스팅 플랫폼은 NVMe-oF 또는 NVMe/TCP 또는 미사용 데이터 가속기가 통합된 NVMe 스토리지 시스템에 최적화되어 있습니다. B3220SH는 x32 PCIe Gen 5.0 인터페이스를 사용하여 최대 16개의 SSD를 호스팅할 수 있습니다.
업계 최고의 네트워크 성능
BlueField-3는 이전 버전에 비해 성능이 크게 개선되어 고성능 네트워킹이 필요한 데이터 집약적인 AI 워크로드에 이상적인 솔루션입니다. 그림 3은 선도적인 BlueField-3 네트워크 성능을 입증하는 벤치마크 결과를 보여줍니다.
NVIDIA BlueField-3 DPU로 애플리케이션 성능 강화
클라우드가 엔터프라이즈 IT를 지배하는 시대에 제너레이티브 AI, 데이터 사이언스, 메타버스 애플리케이션과 같은 최신 워크로드가 급증하고 있습니다. 급증하는 AI 수요를 해결하기 위해 클라우드 빌더들은 주로 GPU와 DPU를 중심으로 하는 NVIDIA 가속 컴퓨팅으로 전환하고 있습니다.
NVIDIA DOCA 소프트웨어 기반의 NVIDIA BlueField-3 DPU는 기존 컴퓨팅 환경을 효율적이고, 고성능이며, 안전하고, 지속 가능한 데이터센터로 전환하여 차세대 애플리케이션을 제공할 수 있도록 지원합니다. 자세한 내용은 BlueField-3 데이터시트 및 네트워킹 리소스에서 확인하세요.
이 블로그에 열거된 SDK의 대부분의 독점 액세스, 얼리 액세스, 기술 세션, 데모, 교육 과정, 리소스는 NVIDIA 개발자 프로그램 회원은 무료로 혜택을 받으실 수 있습니다. 지금 무료로 가입하여 NVIDIA의 기술 플랫폼에서 구축하는 데 필요한 도구와 교육에 액세스하시고 여러분의 성공을 가속화 하세요.