Agentic AI / Generative AI

Gemma 4로 에지·온디바이스 AI 실현 — NVIDIA 전 플랫폼 완전 지원

Google Gemma 4 멀티모달·다국어 모델 패밀리가 출시됐습니다. 데이터센터의 NVIDIA Blackwell부터 에지의 Jetson까지 전 플랫폼을 지원하며, NVFP4 양자화·NIM 마이크로서비스·NeMo 파인튜닝으로 지금 바로 시작해 보세요.

Reading Time: 4 minutes

Gemmaverse가 새롭게 확장됩니다. 최신 Gemma 4 멀티모달·다국어 모델 패밀리가 출시됐는데요, 데이터센터의 NVIDIA Blackwell부터 에지의 Jetson까지 전체 배포 스펙트럼에 걸쳐 활용할 수 있도록 설계됐습니다. AI 개발·프로토타이핑을 위한 로컬 배포, 온프레미스 보안 요구사항, 비용 효율성, 지연 시간에 민감한 유스케이스 등 다양한 현실적인 과제를 해결하는 데 최적화되어 있어요. 최신 세대는 효율성과 정확도를 모두 끌어올렸으며, 다음과 같은 광범위한 일반 작업에 활용할 수 있습니다:

  • 추론: 복잡한 문제 해결 작업에서 강력한 성능을 발휘합니다.
  • 코딩: 개발자 워크플로를 위한 코드 생성과 디버깅을 지원합니다.
  • 에이전트: 구조화된 도구 사용(함수 호출)을 기본으로 지원합니다.
  • 비전, 비디오, 오디오 기능: 객체 인식, 자동 음성 인식(ASR), 문서·영상 인텔리전스 등 다양한 유스케이스에서 풍부한 멀티모달 인터랙션을 구현합니다.
  • 인터리빙 멀티모달 입력: 단일 프롬프트 내에서 텍스트와 이미지를 자유로운 순서로 혼합할 수 있습니다.
  • 다국어 지원: 35개 이상의 언어를 기본 지원하며, 140개 이상의 언어로 사전 학습되어 있습니다.

이번 번들에는 Gemma 최초의 MoE 모델을 포함한 총 네 가지 모델이 포함되어 있습니다. 모두 단일 NVIDIA H100 GPU에서 실행 가능하고 140개 이상의 언어를 지원하는데요, 31B와 26B A4B 변형은 로컬과 데이터센터 환경 모두에 적합한 고성능 추론 모델입니다. E4B와 E2B는 Gemma 3n에서 처음 출시된 온디바이스·모바일 최적화 모델의 최신 버전이에요.

모델명 아키텍처 유형 전체 파라미터 활성 또는 유효 파라미터 입력 컨텍스트 길이 (토큰) 슬라이딩 윈도우 (토큰) 모달리티
Gemma-4-31B Dense Transformer 31B 256K 1024
Gemma-4-26B-A4B MoE – 128 Experts 26B 3.8B 256K
Gemma-4-E4B Dense Transformer 임베딩 포함 7.9B 유효 4.5B 128K 512 텍스트, 오디오, 비전, 비디오
Gemma-4-E2B Dense Transformer 임베딩 포함 5.1B 유효 2.3B 128K 512 텍스트, 오디오, 비전, 비디오

표 1. Gemma 4 모델 패밀리 개요 — 아키텍처 유형, 파라미터 규모, 유효 파라미터, 지원 컨텍스트 길이, 지원 모달리티를 정리하여 데이터센터·에지·온디바이스 배포에 적합한 모델을 선택하는 데 도움을 드립니다.

각 모델은 BF16 체크포인트로 Hugging Face에서 지금 바로 사용할 수 있으며, NVIDIA Blackwell 개발자를 위한 Gemma-4-31B NVFP4 양자화 체크포인트NVIDIA Model Optimizer와 vLLM을 통해 제공됩니다. NVFP4는 8비트 정밀도와 거의 동일한 정확도를 유지하면서 4비트 정밀도를 구현해 와트당 성능을 높이고 토큰당 비용을 낮춰줍니다.

온디바이스에서 지능형 워크로드 실행

AI 워크플로와 에이전트가 일상적인 애플리케이션에 더욱 깊이 통합될수록, 전통적인 데이터센터 환경을 넘어 이러한 모델을 실행하는 능력이 핵심 과제가 되고 있습니다. RTX GPU와 DGX Spark부터 Jetson Nano까지 아우르는 NVIDIA 클라이언트·에지 시스템 제품군은 비용과 지연 시간을 유연하게 관리하는 동시에, 의료·금융 등 고도로 규제된 산업의 보안 요구사항도 충족할 수 있는 유연성을 개발자에게 제공합니다.

저희는 Gemma 4 모델 각각에 최적화된 로컬 배포 경험을 제공하기 위해 vLLM, Ollama, llama.cpp와 협력했습니다. Unsloth 역시 Unsloth Studio를 통해 효율적인 로컬 배포를 위한 최적화·양자화 모델로 첫날부터 지원을 제공합니다.

RTX GPU와 DGX Spark에서 Gemma 4를 시작하려면 RTX AI Garage 블로그 포스트를 확인해 보세요.

DGX Spark Jetson RTX / RTX PRO
유스케이스 AI 연구 및 프로토타이핑 에지 AI 및 로봇공학 데스크톱 앱 및 Windows 개발
주요 특징 사전 설치된 NVIDIA AI 소프트웨어 스택과 128GB 통합 메모리로 로컬 프로토타이핑, 파인튜닝, 완전 로컬 에이전틱 AI 워크플로를 지원합니다. 조건부 파라미터 로딩, 레이어별 임베딩 캐싱 등 아키텍처 기능 덕분에 거의 제로에 가까운 지연 시간을 실현하고 메모리 사용량도 줄여줍니다. 취미 개발자, 크리에이터, 전문가 모두를 위해 로컬 추론 성능을 최적화했습니다.
시작 가이드 vLLM, Ollama, Unsloth, llama.cpp 배포 가이드를 제공하는 DGX Spark Playbooks와 Spark에서의 파인튜닝을 위한 NeMo Automodel 가이드를 확인하세요. 튜토리얼 및 커스텀 Gemma 컨테이너를 위한 Jetson AI Lab을 확인하세요. Ollama와 llama.cpp 가이드를 위한 RTX AI Garage를 확인하세요. RTX Pro 사용자는 vLLM도 활용할 수 있습니다.

표 2. NVIDIA 플랫폼별 로컬 배포 옵션 비교 — Gemma 4 모델을 실행하는 DGX Spark, Jetson, RTX / RTX PRO 시스템의 주요 유스케이스, 핵심 기능, 추천 시작 가이드를 정리했습니다.

DGX Spark로 안전한 에이전틱 AI 워크플로 구축

AI 개발자와 애호가는 128GB 통합 메모리가 탑재된 DGX Spark의 GB10 Grace Blackwell Superchip을 활용해 BF16 모델 가중치로 Gemma 4 31B를 실행할 수 있는 충분한 리소스를 확보할 수 있습니다. DGX Linux OS와 전체 NVIDIA 소프트웨어 스택을 결합하면 개인 정보를 보호하면서 온디바이스 실행을 안전하게 유지하는 동시에, Gemma 4로 에이전틱 AI 워크플로를 효율적으로 프로토타이핑하고 구축할 수 있어요.

vLLM 추론 엔진은 처리량을 최대화하고 메모리 사용량을 최소화하도록 설계된 LLM 실행 솔루션입니다. DGX Spark에서 vLLM 고처리량 LLM 서빙을 사용하면 대형 Gemma 4 모델을 위한 고성능 플랫폼을 구축할 수 있으며, DGX Spark용 vLLM 추론 플레이북에서 Gemma 4와 함께 vLLM을 실행하는 세부 방법을 확인할 수 있습니다. 또는 Ollamallama.cpp를 사용해 Gemma 4를 바로 시작해 보세요. DGX Spark에서 NeMo Automodel을 활용해 모델을 추가로 파인튜닝할 수도 있습니다.

Jetson으로 피지컬 AI 에이전트 구동

오디오, 멀티모달 인식, 심층 추론 기능을 통합한 Gemma 4 모델 덕분에 현대 피지컬 AI 에이전트는 빠르게 진화하고 있습니다. 이 고급 모델은 로봇 시스템이 단순한 작업 실행을 넘어 음성을 이해하고 시각적 맥락을 해석하며, 행동하기 전에 지능적으로 추론할 수 있게 해줍니다. NVIDIA Jetson에서 개발자는 llama.cpp와 vLLM을 사용해 에지에서 Gemma 4 추론을 실행할 수 있어요. Jetson Orin Nano는 Gemma 4 E2B와 E4B 변형을 지원하며, 소형·임베디드·전력 제한 시스템에서 멀티모달 추론을 가능하게 하고, 동일한 모델 패밀리가 Jetson Thor까지 Jetson 플랫폼 전체에 걸쳐 확장됩니다.

이를 통해 저지연 성능과 온디바이스 인텔리전스가 필요한 로봇공학, 스마트 기기, 산업 자동화 유스케이스에 걸쳐 확장 가능한 배포를 지원합니다.

Jetson 개발자는 Jetson AI Lab에서 튜토리얼을 확인하고 컨테이너를 다운로드해 시작할 수 있습니다.

동영상 1. build.nvidia.com에서의 Gemma 4 31B 데모

NVIDIA NIM으로 프로덕션 배포 준비 완료

엔터프라이즈 개발자는 프로토타이핑을 위해 NVIDIA API 카탈로그에서 제공되는 NVIDIA 호스팅 NIM API를 사용해 Gemma 4 31B 모델을 무료로 사용해 볼 수 있습니다. 프로덕션 배포에는 NVIDIA 엔터프라이즈 라이선스가 포함된 사전 패키지화된 최적화 NIM 마이크로서비스를 활용해 안전한 자체 호스팅 배포를 구현할 수 있어요.

NeMo Framework로 Day 0 파인튜닝

개발자는 NVIDIA NeMo 프레임워크, 특히 네이티브 PyTorch의 사용 편의성과 최적화된 성능을 결합한 NeMo Automodel 라이브러리를 사용해 자신의 도메인 데이터로 Gemma 4를 커스터마이징할 수 있습니다. 이 Gemma 4 파인튜닝 레시피를 사용하면 변환 없이 Hugging Face 모델 체크포인트에서 시작해 지도 파인튜닝(SFT)과 메모리 효율적인 LoRA 기법을 적용한 Day 0 파인튜닝을 바로 수행할 수 있어요.

지금 바로 시작하세요

어떤 NVIDIA GPU를 사용하든 Gemma 4는 NVIDIA AI 플랫폼 전체에서 지원되며, 상업적 활용에 유리한 Apache 2.0 라이선스로 제공됩니다. NVFP4 양자화 체크포인트가 곧 출시될 Blackwell부터 Jetson 플랫폼까지, 개발자는 속도·보안·비용 요구사항에 맞는 유연성을 갖추고 이 고정밀 멀티모달 모델을 빠르게 배포할 수 있습니다.

Hugging Face에서 Gemma를 확인하거나, build.nvidia.com에서 NVIDIA API를 통해 Gemma 4 31B를 무료로 테스트해 보세요.

Discuss (0)

Tags