고강도 AI 작업을 가능하게 하는 NVIDIA DGX Spark 성능

Reading Time: 3 minutes

오늘날 AI 개발 워크로드는 데스크톱 시스템의 메모리 한계를 넘어서거나, 노트북이나 PC에서는 실행하기 어려운 소프트웨어를 필요로 하는 경우가 많습니다. 이런 제약 때문에 작업을 클라우드나 데이터 센터에서 처리해야 하는 경우가 자주 발생합니다.

NVIDIA DGX Spark는 이러한 클라우드 인스턴스나 데이터 센터 큐에 대한 대안으로 설계된 컴팩트 슈퍼컴퓨터입니다. Blackwell 아키텍처 기반으로 구동되며, FP4 기준 1페타플롭의 AI 연산 성능, 128GB의 통합 시스템 메모리, 273GB/s의 메모리 대역폭, 그리고 사전 설치된 NVIDIA AI 소프트웨어 스택을 갖추고 있습니다. DGX Spark를 사용하면 클라우드나 데이터 센터로 옮기지 않고도 대규모 연산 집약적인 작업을 로컬에서 처리할 수 있습니다.

이 글에서는 DGX Spark의 연산 성능, 대용량 메모리, 사전 설치된 AI 소프트웨어가 어떻게 파인튜닝, 이미지 생성, 데이터 사이언스, 추론 워크로드를 가속하는지 살펴보고, 실제 벤치마크 결과도 함께 소개합니다.

DGX Spark에서의 파인튜닝 워크로드

사전 학습된 모델을 튜닝하는 작업은 AI 개발자에게 흔한 작업입니다. DGX Spark의 파인튜닝 성능을 확인하기 위해, 서로 다른 방식의 세 가지 튜닝 작업—Full Fine-Tuning, LoRA, QLoRA—을 실행해 보았습니다.

Llama 3.2B 모델을 Full Fine-Tuning한 경우, 초당 최대 82,739.2 토큰의 처리 속도를 기록했습니다. Llama 3.1 8B 모델을 LoRA 방식으로 튜닝했을 때는 초당 53,657.6 토큰을 처리했습니다. Llama 3.3 70B 모델을 QLoRA로 튜닝한 경우, 초당 5,079.4 토큰의 성능을 보였습니다.

파인튜닝은 메모리 사용량이 매우 높은 작업이기 때문에, 이러한 튜닝 워크로드는 32GB급 소비자용 GPU에서는 실행이 불가능합니다.

파인튜닝
모델	방식	백엔드	구성	최대 토큰 처리 속도 (초당)
Llama 3.2 3B	Full fine tuning	PyTorch	시퀀스 길이: 2048 배치 사이즈: 8 에폭: 1 스텝 수: 125 정밀도: BF16	82,739.20
Llama 3.1 8B	LoRA	PyTorch	시퀀스 길이: 2048 배치 사이즈: 4 에폭: 1 스텝 수: 125 정밀도: BF16	53,657.60
Llama 3.3 70B	QLoRA	PyTorch	시퀀스 길이: 2048 배치 사이즈: 8 에폭: 1 스텝 수: 125 정밀도: FP4	5,079.04

표 1. 파인튜닝 성능

DGX Spark의 이미지 생성 성능

이미지 생성 모델은 항상 더 높은 정확도, 더 높은 해상도, 더 빠른 속도를 추구합니다. 고해상도 이미지를 생성하거나 프롬프트당 여러 장의 이미지를 생성하려면, 더 많은 메모리와 연산 자원이 필요합니다.

DGX Spark는 대용량 GPU 메모리와 강력한 연산 성능을 바탕으로, 더 높은 해상도의 이미지와 고정밀 모델을 활용할 수 있어 이미지 품질을 한층 끌어올릴 수 있습니다. 또한 FP4 데이터 형식을 지원해, 고해상도 이미지도 빠르게 생성할 수 있습니다.

예를 들어, Flux.1 12B 모델을 FP4 정밀도로 사용할 경우, 1K 해상도 이미지 한 장을 2.6초마다 생성할 수 있습니다(아래 표 2 참고). 또한 DGX Spark의 대용량 시스템 메모리를 활용하면 BF16 기반의 SDXL 1.0 모델도 실행 가능하며, 분당 7장의 1K 이미지를 생성할 수 있습니다.

이미지 생성 성능
모델	정밀도	백엔드	구성	생성 속도 (이미지/분)
Flux.1 12B Schnell	FP4	TensorRT	해상도: 1024×1024 Denoising 스텝: 4 배치 사이즈: 1	23
SDXL1.0	BF16	TensorRT	해상도: 1024×1024 Denoising 스텝: 50 배치 사이즈: 2	7

표 2. 이미지 생성 성능

DGX Spark를 활용한 데이터 사이언스 작업

DGX Spark는 NVIDIA cuML, cuDF 등 주요 CUDA-X 라이브러리를 지원합니다. cuML은 scikit-learn 기반의 머신러닝 알고리즘뿐만 아니라 UMAP, HDBSCAN과 같은 복잡한 알고리즘도 코드 변경 없이 GPU에서 가속 실행할 수 있도록 도와줍니다.

UMAP과 HDBSCAN처럼 연산 집약적인 머신러닝 알고리즘의 경우, DGX Spark는 250MB 규모의 데이터셋을 몇 초 만에 처리할 수 있습니다(아래 표 3 참고). 한편 cuDF는 pandas의 조인, 문자열 처리 등 일반적인 데이터 분석 작업을 대폭 가속해 줍니다. 수천만 건의 레코드가 포함된 데이터셋도 DGX Spark에서는 단 몇 초 만에 처리됩니다.

데이터 사이언스
라이브러리	벤치마크	데이터셋 크기	소요 시간
NVIDIA cuML	UMAP	250 MB	4초
NVIDIA cuML	HDBSCAN	250 MB	10초
NVIDIA cuDF pandas	주요 데이터 분석 작업 (조인, 문자열 처리, UDF 등)	0.5 to 5 GB	11초

표 3. 데이터 사이언스 성능

DGX Spark를 활용한 추론

DGX Spark의 Blackwell GPU는 FP4, 그중에서도 NVFP4 데이터 형식을 지원합니다. NVFP4는 FP8에 근접한 정확도(1% 미만의 손실)를 제공하면서 모델을 더 작게 만들 수 있어, 성능 저하 없이 효율적인 추론이 가능합니다. FP4의 작은 데이터 크기는 전반적인 추론 성능도 함께 끌어올립니다. 관련 성능 데이터는 아래 표 4에서 확인할 수 있습니다.

DGX Spark는 NVFP4, MXFP4 등 다양한 4비트 데이터 형식을 지원하며, TRT-LLM, llama.cpp, vLLM 등 여러 백엔드에서도 작동합니다. 1페타플롭에 달하는 AI 연산 성능을 바탕으로 프롬프트 처리 속도가 빠르며, 이는 빠른 첫 응답 토큰 생성으로 이어져 사용자 경험은 물론 엔드 투 엔드 처리 속도까지 향상시킵니다.

추론 성능 (ISL\|OSL= 2048\|128, BS=1)
모델	정밀도	백엔드	프롬프트 처리 속도 (토큰/초)	토큰 생성 속도(토큰/초)
Qwen3 14B	NVFP4	TRT-LLM	5928.95	22.71
GPT-OSS-20B	MXFP4	llama.cpp	3670.42	82.74
GPT-OSS-120B	MXFP4	llama.cpp	1725.47	55.37
Llama 3.1 8B	NVFP4	TRT-LLM	10256.9	38.65
Qwen2.5-VL-7B-Instruct	NVFP4	TRT-LLM	65831.77	41.71
Qwen3 235B (on dual DGX Spark)	NVFP4	TRT-LLM	23477.03	11.73

표 4. 추론 성능

NVFP4는 NVIDIA Blackwell GPU 아키텍처에서 도입된 4비트 부동소수점 형식이며, MXFP4는 Open Compute Project(OCP)에서 만든 마이크로스케일링 기반 4비트 부동소수점 형식입니다. ISL (Input Sequence Length): 입력 프롬프트 내 토큰 수 (일명 prefill 토큰) OSL (Output Sequence Length): 모델이 생성한 응답 토큰 수 (일명 decode 토큰)

NVIDIA는 ConnectX-7 칩을 통해 두 대의 DGX Spark를 연결하여 Qwen3 235B 모델을 실행했습니다. 이 모델은 오버헤드를 포함해 120GB 이상의 메모리를 사용하며, 일반적으로는 대형 클라우드나 데이터 센터 서버에서 실행됩니다. 하지만 듀얼 DGX Spark 시스템에서 무리 없이 실행 가능하다는 사실은, 개발자 실험 환경에서도 대규모 모델이 충분히 작동할 수 있음을 보여줍니다. 표 4의 마지막 행에 따르면, 듀얼 시스템에서의 토큰 생성 속도는 초당 11.73토큰입니다.

또한 NVIDIA Nemotron Nano 2 모델의 NVFP4 버전도 DGX Spark에서 뛰어난 성능을 보입니다. NVFP4 버전을 사용하면, 정확도 저하 없이 최대 2배 높은 처리량을 달성할 수 있습니다. 해당 모델은 Hugging Face 또는 NVIDIA NIM 형식으로 다운로드할 수 있습니다.

지금 바로 DGX Spark를 도입하고, DGX Spark 개발자 커뮤니티에 참여해 AI 개발 여정을 시작해 보세요.

고강도 AI 작업을 가능하게 하는 NVIDIA DGX Spark 성능

DGX Spark에서의 파인튜닝 워크로드

DGX Spark의 이미지 생성 성능

DGX Spark를 활용한 데이터 사이언스 작업

DGX Spark를 활용한 추론

Tags

작성자 소개

고강도 AI 작업을 가능하게 하는 NVIDIA DGX Spark 성능

DGX Spark에서의 파인튜닝 워크로드

DGX Spark의 이미지 생성 성능

DGX Spark를 활용한 데이터 사이언스 작업

DGX Spark를 활용한 추론

Tags

작성자 소개

댓글

Related posts

NVIDIA, GB200 NVL72로 OpenAI gpt-oss 모델을 클라우드부터 엣지까지 초당 150만 토큰 속도로 가속

업계 최고의 정확도와 성능을 제공하는 NVIDIA 음성 AI 모델

NVIDIA Dynamo, 대규모 분산 추론 발전을 위한 llm-d 커뮤니티 이니셔티브 가속화

NVIDIA 풀스택 솔루션을 통한 AI 추론 성능 최적화

NVIDIA NIM을 사용한 게임용 에이전트 LLM 및 VLM 추론 벤치마킹