NVIDIA는 Grace Blackwell 기반 DGX Spark 출시 이후, 지속적인 소프트웨어 최적화와 오픈소스 커뮤니티 및 파트너사와의 긴밀한 협력을 통해 추론, 학습, 크리에이티브 워크플로우 전반에서 실질적인 성능 향상을 이끌어 왔습니다.
CES 2026에서 공개된 최신 DGX Spark 소프트웨어 업데이트는 새로운 모델과 오픈소스 라이브러리의 통합을 통해, DGX Spark는 물론 OEM GB10 기반 시스템의 성능까지 획기적으로 끌어올렸습니다.
통합 메모리와 NVFP4를 활용한 로컬 대규모 모델 확장
DGX Spark는 컴팩트한 데스크톱 폼팩터에 128GB의 통합 메모리를 탑재하여, 대규모 모델을 로컬에서 구동할 수 있도록 설계되었습니다. 두 대의 DGX Spark 시스템을 연결하면 총 256GB의 통합 메모리를 확보할 수 있어, 개발자들은 훨씬 더 큰 모델도 로컬 환경에서 실행할 수 있습니다.
시스템 간 연결에는 ConnectX-7 네트워킹이 사용되며, 200Gbps의 대역폭을 통해 빠르고 지연 시간이 낮은 멀티 노드 워크로드를 지원합니다.
특히 NVIDIA NVFP4 데이터 포맷 지원을 통해 차세대 모델들의 메모리 점유율을 획기적으로 줄이면서 처리량(Throughput)을 높였습니다. 예를 들어, 동일한 듀얼 DGX Spark 구성에서 Qwen-235B 모델을 NVFP4 정밀도와 스펙큘레이티브 디코딩(Speculative Decoding)으로 실행할 경우, FP8 대비 최대 2.6배의 성능 향상을 보여줍니다.
FP8 정밀도에서는 모델이 두 시스템의 통합 메모리를 거의 가득 채우기 때문에 멀티태스킹과 전반적인 응답성이 제한됩니다. 반면 NVFP4로 양자화하면 높은 정확도를 유지하면서도 메모리 사용량을 약 40% 절감할 수 있습니다. 이를 통해 개발자는 FP8 수준의 결과물을 훨씬 더 높은 성능으로 얻을 수 있을 뿐만 아니라, 다른 워크로드를 동시에 실행할 수 있는 여유 메모리까지 확보하게 됩니다. 결과적으로 훨씬 더 빠르고 생산적인 로컬 AI 개발 환경을 경험할 수 있습니다.
오픈소스 협력을 통한 추가 성능 향상
오픈소스 소프트웨어 파트너와의 협업 역시 성능 한계를 계속해서 넓히고 있습니다. 대표적으로 Llama.cpp 업데이트를 통해 DGX Spark에서 MoE(Mixture-of-Experts) 모델 실행 시 평균 35%의 성능 향상을 이뤄냈으며, 이는 널리 쓰이는 오픈소스 워크플로우의 처리량과 효율성을 동시에 개선했습니다.

크리에이터를 위한 강력한 데스크톱 플랫폼
DGX Spark는 AI 개발자뿐만 아니라 크리에이터들에게도 탁월한 데스크톱급 성능을 제공합니다.
AI 워크로드를 DGX Spark로 오프로딩하면, 콘텐츠 생성 중에도 메인 노트북이나 PC의 리소스를 점유하지 않아 쾌적한 작업 환경을 유지할 수 있습니다. 특히 128GB의 대용량 통합 메모리를 갖춰 GPT-OSS-120B나 FLUX 2(90GB) 같은 대규모 모델을 풀 프레시전으로 구동할 수 있으며, 성능 타협 없이 최고 품질의 결과물을 얻을 수 있습니다.
Black Forest Labs의 FLUX.2나 알리바바의 Qwen-Image 같은 주요 디퓨전 모델들 또한 NVFP4를 활용해 메모리 사용량을 줄이면서도 더 높은 성능을 구현하고 있습니다.
상당한 메모리와 연산력이 요구되는 AI 비디오 생성 분야는 DGX Spark가 가장 잘 활약할 수 있는 영역입니다. NVFP8 최적화 가중치를 적용한 Lightricks의 새로운 오디오-비디오 생성 모델 LTX-2는 이전 세대 대비 비약적인 성능 향상을 보여주며, 이제 데스크톱에서도 실무 수준의 고품질 비디오 생성이 가능해졌습니다.
NVIDIA 인증 시스템 프로그램 합류
NVIDIA 인증 시스템 프로그램은 가속 그래픽, 컴퓨팅, AI 워크로드 전반에 걸쳐 시스템 성능을 검증합니다. 이 인증을 받은 시스템은 AI 개발, 데스크톱 추론, 데이터 과학, 디자인 및 콘텐츠 제작을 위한 신뢰할 수 있는 기반을 제공하며, 데이터 센터 및 클라우드 리소스의 성능을 보완합니다.
DGX Spark와 OEM GB10 기반 시스템도 이제 이 프로그램에 포함되었습니다. 현재 DGX Spark와 파트너사 시스템들에 대한 인증 테스트가 진행 중입니다.
더 빠른 시작을 위한 새로운 플레이북 출시
개발자들이 즉시 생산성을 발휘할 수 있도록 Blackwell GPU의 성능을 극대화한 새로운 DGX Spark 플레이북 세트를 공개합니다. 이 플레이북들은 바로 실습해 볼 수 있는 다음과 같은 실무 워크플로우를 담고 있습니다.
- Nemotron 3 Nano: NVIDIA의 효율적인 30B 파라미터 MoE 모델을 로컬에서 구동하여 LLM 실험 진행
- Live VLM WebUI: 웹캠 입력을 비전 언어 모델(VLM)로 스트리밍하여 실시간 분석 (GPU 점유율 최적화 포함)
- Isaac Sim / Lab: GPU 가속 시뮬레이션 및 강화 학습을 활용한 로보틱스 애플리케이션 구축 및 학습
- SGLang 및 vLLM 서빙: 테스트 완료된 모델 목록과 양자화 옵션을 한눈에 보여주는 모델 지원 매트릭스 포함
- GPU 가속 퀀트 금융 및 유전체학: CPU 구현 방식에서 코드 수정을 최소화한 고성능 워크플로우
- PyTorch 파인튜닝: FSDP와 LoRA를 활용하여 두 대의 DGX Spark 시스템에서 최대 70B 파라미터 LLM 분산 파인튜닝
- 스펙큘레이티브 디코딩(Speculative Decoding): 별도의 초안 모델 대신 내장된 드래프팅 헤드(Drafting Head)를 사용하는 EAGLE-3 기반의 GPT-OSS-120B 예제. 배포를 단순화하면서도 토큰 수용률(Acceptance Rate) 향상
각 플레이북은 명확한 단계별 가이드, 실전 트러블슈팅 지침, 최신 DGX OS에서 검증된 설정을 제공합니다. 설정에 들이는 시간을 줄이고 실제 개발에 더 집중할 수 있도록 설계되었습니다.
NVIDIA Brev로 언제 어디서나 DGX Spark에 안전하게 접속하기
NVIDIA Brev를 활용하면 보안 연결을 통해 장소에 구애받지 않고 DGX Spark에 접속할 수 있습니다. Brev는 클릭 한 번으로 AI 환경을 구성하는 ‘Launchables‘ 기능을 제공하여, 개발자가 클라우드 AI 인스턴스를 매우 쉽게 생성할 수 있도록 돕습니다. 이번 CES에서는 DGX Spark와 같은 로컬 컴퓨팅 자원을 Brev에 등록하는 기능이 새롭게 공개되었습니다. 일단 등록을 마치면 외부에서도 자신의 DGX Spark에 접근할 수 있는 것은 물론, 팀원들과 안전하게 공유하여 협업할 수도 있습니다.
또한 Brev는 로컬과 클라우드 모델을 결합한 하이브리드 배포를 지원합니다. 라우터 레이어를 구성하면 이메일이나 보안 데이터 처리 같은 민감한 작업은 DGX Spark의 로컬 오픈 모델에서 처리하고, 일반적인 추론 작업은 클라우드의 프런티어 모델로 라우팅하는 방식이 가능합니다. 자세한 구현 방법은 ‘NVIDIA LLM Router’ 개발자 예제에서 확인할 수 있습니다.
로컬 컴퓨팅 자원에 대한 Brev 지원 기능은 CES에서 프리뷰로 공개되며, 정식 서비스는 2026년 봄에 시작될 예정입니다.
나만의 AI 에이전트 만들기
이제 한 단계 더 나아가 볼까요? NVIDIA와 Hugging Face의 협업을 통해 탄생한 ‘개인용 데스크톱 AI 컴패니언’ 구축 가이드를 소개합니다. DGX Spark와 Reachy Mini를 활용하면 데이터 유출 걱정 없이 로컬에서 안전하게 동작하는 프라이빗 AI 어시스턴트를 직접 만들 수 있습니다. 지금 바로 NVIDIA x Hugging Face 튜토리얼을 확인해 보세요.
DGX Spark 개발자 커뮤니티에 합류하여 나만의 AI 구축 여정을 시작해 보시기 바랍니다.