NVIDIA 플랫폼에서 DiffusionGemma 실행하기: 개발자 친화적인 고처리량 텍스트 생성

Reading Time: 3 minutes

채팅 어시스턴트, 코파일럿, 에이전트 워크플로우 등 실시간 AI를 개발하는 개발자는 종종 토큰을 하나씩 생성하는 속도 제약에 부딪힙니다. 이러한 제약은 응답성을 저하시키고, 서빙 비용을 높이며, 유연하고 인터랙티브한 경험을 구현하기 어렵게 만듭니다.

Google DeepMind가 만들고 NVIDIA 플랫폼에서 효율적으로 실행되도록 최적화된 DiffusionGemma는 토큰을 하나씩이 아닌 병렬로 생성하는 새로운 텍스트 생성 방식을 도입해, 더 빠르고 높은 처리량의 AI 애플리케이션을 가능하게 합니다. 이 모델은 확산 기반 노이즈 제거(diffusion-based denoising)를 사용해 단계당 256개의 토큰을 병렬로 생성하며, 단일 NVIDIA H100 Tensor Core GPU에서 최대 1,000토큰/초, NVIDIA DGX Spark에서 최대 150 토큰/초, NVIDIA DGX Station에서 최대 2,000 토큰/초의 성능을 제공합니다.

엔터프라이즈 개발자에게 이러한 속도 향상은 모델 품질을 저하시키지 않으면서 낮은 서빙 비용, 높은 동시성, 더욱 반응적인 사용자 경험으로 이어집니다. DiffusionGemma는 Gemma 4 26B A4B MoE 아키텍처를 기반으로 구축되었으며, 낮은 지연 시간과 메모리 바운드 추론에 최적화되어 있습니다.

모델명	DiffusionGemma
지원 모달리티	텍스트, 이미지
전체 파라미터	25.2B
활성 파라미터	3.8B
컨텍스트 길이	최대 256K 토큰
정밀도 형식	BF16, NVFP4

표 1. 모달리티, 파라미터 크기, 지원 컨텍스트 길이를 요약한 DiffusionGemma 개요.

NVIDIA 데이터 센터 GPU 외에도, 개발자는 다양한 클라이언트 GPU와 시스템에서 최적의 성능을 경험할 수 있습니다.

플랫폼	주요 용도	주요 특징	시작하기
NVIDIA DGX Spark	로컬 AI 개발, 자율 에이전트, AI 연구 및 프로토타이핑을 위한 개인용 AI 슈퍼컴퓨터	NVIDIA GB10 Grace Blackwell Superchip, 128GB 통합 메모리, 1 PFLOP FP4 AI 컴퓨팅, 완전 로컬 OpenClaw 워크플로를 위한 NVIDIA AI 소프트웨어 스택 사전 설치	vLLM 및 Unsloth용 DGX Spark 플레이북; 배포 가이드; NVIDIA NeMo Automodel 파인튜닝 가이드; DGX Spark의 vLLM 가이드
NVIDIA DGX Station	AI 워크로드 구축, 실행 및 확장을 위한 데스크사이드 AI 슈퍼컴퓨터	NVIDIA GB300 Grace Blackwell Ultra Superchip, NVIDIA AI 소프트웨어 스택, 748GB 코히런트 메모리, 최대 20 PFLOPS FP4 컴퓨팅, 최대 1조 파라미터 모델 지원. 책상에서 프론티어 AI 개발·추론·에이전트 실행.	DGX Station 플레이북; DGX Station의 vLLM 가이드
NVIDIA RTX + NVIDIA RTX PRO	데스크톱 AI 앱, Windows 개발, 로컬 추론	크리에이터와 전문가를 위한 데스크톱 및 워크스테이션 환경에서의 최적화된 로컬 추론 성능	RTX 블로그; RTX의 vLLM 가이드

표 2. NVIDIA 플랫폼별 로컬 배포 옵션 비교. DGX Spark, DGX Station, RTX + RTX PRO 시스템의 주요 사용 사례, 핵심 기능, 권장 시작 리소스를 정리했습니다.

NVIDIA에서 구축 및 프로토타이핑하기

초기 테스트 및 프로토타이핑을 위해 NVIDIA GeForce RTX 5090 또는 DGX Spark에서 Hugging Face Transformers를 통해 DiffusionGemma에 접근하세요. DGX Spark, DGX Station, RTX PRO에서 더 높은 처리량이나 다중 사용자 동시 서빙을 위해서는 표 2의 플레이북을 따라 vLLM을 사용하세요.

로컬 프로토타이핑부터 프로덕션 배포까지 NVIDIA 하드웨어 및 소프트웨어 전반에 걸친 Day 0 지원을 통해, 개발자는 실험에서 실제 애플리케이션으로 신속하게 이동할 수 있습니다.

NVIDIA GPU 가속 엔드포인트

NVIDIA Developer Program의 일환으로 build.nvidia.com의 GPU 가속 엔드포인트에서 프로토타이핑을 위한 무료 액세스로 DiffusionGemma 개발을 시작하세요. 브라우저 환경은 커스텀 데이터 소스와도 연결할 수 있습니다.

BF16 및 NVFP4

현재 모델은 BF16 체크포인트와 함께 Hugging Face에서 제공되며, NVIDIA Model Optimizer를 사용한 DiffusionGemma용 NVFP4 양자화 체크포인트도 이용 가능합니다.

NVIDIA NIM으로 엔터프라이즈 배포하기

NVIDIA NIM을 사용하면 DiffusionGemma를 개발 환경에서 프로덕션으로 간편하게 배포할 수 있습니다. NIM은 모델을 최적화된 컨테이너 기반 추론 마이크로서비스로 패키징하며, 성능 튜닝, 표준화된 API, 온프레미스, 클라우드, 또는 하이브리드 환경에서 실행할 수 있는 유연성을 제공합니다. NIM은 서버로 추론 요청을 보내기 위한 OpenAI 호환 표준 API를 노출합니다.

컨테이너를 다운로드합니다.
NIM 서버를 시작합니다.

$ export NIM_IMAGE_PATH = "nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest"
$ docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
  -p 8000:8000 \
 ${NIM_IMAGE_PATH}

테스트 요청을 실행하고 전체 NIM 문서를 참고하세요.

from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-required"
)
response = client.chat.completions.create(
    model="google/diffusiongemma-26b-a4b-it",
    messages=[
        {"role": "user", "content": "Write a poem about text diffusion"}
    ],
    max_tokens=256
)
print(response.choices[0].message.content)

NVIDIA NeMo AutoModel로 Day 0 파인튜닝하기

특정 태스크나 도메인에 맞게 모델을 적용하려는 개발자를 위해, NVIDIA NeMo Framework의 일부인 NVIDIA NeMo AutoModel 라이브러리를 통해 파인튜닝 가이드와 레시피를 제공합니다. NeMo AutoModel은 변환 없이 HuggingFace 체크포인트에서 직접 LLM(거대 언어 모델), VLM(비전 언어 모델), DiffusionLM을 파인튜닝할 수 있어, 최신 프론티어 모델에서 신속한 실험을 바로 시작할 수 있습니다.

NVIDIA는 오픈 소스 생태계에 적극적으로 기여하고 있으며, 오픈 소스 라이선스 하에 수백 개의 프로젝트를 공개했습니다. NVIDIA는 AI 투명성을 높이고 AI 안전성 및 복원력 분야의 연구 성과를 공유할 수 있도록 하는 DiffusionGemma와 같은 오픈 모델을 지지합니다.

Hugging Face에서 DiffusionGemma를 살펴보거나, build.nvidia.com에서 NVIDIA API를 통해 무료로 테스트해 보세요.