NVIDIA Blackwell에서 Unsloth를 사용해 LLM을 학습하고, 프로덕션 환경으로 확장하기

Reading Time: 3 minutes

거대 언어 모델(LLM)의 파인튜닝과 강화 학습(RL)은 고도의 전문성과 복잡한 워크플로우를 요구하기 때문에, 개발 진입 장벽이 높습니다. 오픈 소스 프로젝트인 Unsloth는 이러한 과정을 간소화함으로써, 개인이나 소규모 팀도 LLM 커스터마이징을 보다 쉽게 시도할 수 있도록 돕습니다. Unsloth에 NVIDIA Blackwell GPU의 효율성과 처리 성능이 결합되면서, LLM 개발에 대한 접근성이 크게 향상됩니다.

이 글에서는 개발자들이 Unsloth를 활용해 NVIDIA RTX PRO 6000 Blackwell 시리즈, GeForce RTX 50 시리즈, NVIDIA DGX Spark 환경에서 커스텀 LLM을 로컬로 학습하는 방법을 설명합니다. 또한, 동일한 워크플로우를 NVIDIA DGX Cloud나 NVIDIA 클라우드 파트너의 Blackwell 기반 클라우드 인프라로 자연스럽게 확장해 프로덕션 수준의 워크로드를 처리하는 방법도 함께 다룹니다.

Unsloth이란 무엇인가요?

Unsloth는 LLM 파인튜닝과 강화 학습(RL)을 보다 간단하고 빠르게 만들어주는 오픈 소스 프레임워크입니다. 독자적인 Triton 커널과 알고리즘을 활용해 다음과 같은 성능을 제공합니다:

학습 처리량 2배 향상
VRAM 사용량 70% 절감
정확도 손실 없음

Llama, gpt-oss, DeepSeek 등 다양한 인기 모델을 지원하며, 현재는 NVIDIA Blackwell GPU의 NVFP4 정밀도에 맞춰 최적화되어 있습니다.

NVIDIA DGX Cloud AI 팀의 지원을 통해 Unsloth는 GeForce RTX 50 시리즈, RTX PRO 6000 Blackwell 시리즈, NVIDIA DGX Spark와 같은 소비자용 GPU부터, NVIDIA HGX B200, NVIDIA GB200 NVL72와 같은 엔터프라이즈급 시스템까지 폭넓게 확장됩니다. 이를 통해 누구나 손쉽게 LLM을 파인튜닝할 수 있는 환경이 마련됩니다.

Unsloth는 NVIDIA Blackwell GPU에서 어떤 성능을 낼까요?

Unsloth의 벤치마크 결과에 따르면, NVIDIA Blackwell을 활용할 경우 Flash Attention 2를 포함한 기존 최적화 방식보다 확연한 성능 향상을 보여줍니다. 주요 특징은 다음과 같습니다:

학습 속도 2배 증가
VRAM 사용량 70% 절감 (70B+ 파라미터 모델 포함)
컨텍스트 윈도우 길이 12배 확장

이러한 성능 덕분에 이제 단일 Blackwell GPU만으로 최대 400억 파라미터 규모의 모델도 무리 없이 파인튜닝할 수 있습니다.

테스트 환경: NVIDIA GeForce RTX 5090 GPU (VRAM 32GB), Alpaca 데이터셋, batch size=2, gradient accumulation=4, rank=32, 모든 linear layer에 QLoRA 적용

모델	VRAM	Unsloth 속도	VRAM 절감	컨텍스트 길이	Hugging Face + FA2
Llama 3.1 (8B)	80 GB	2x	>70%	12x 더 김	1x

표 1. GeForce RTX 5090 GPU에서 Unsloth 성능 벤치마크

VRAM	Unsloth 컨텍스트 길이	Hugging Face + FA2 컨텍스트 길이
8 GB	2,972	OOM
12 GB	21,848	932
16 GB	40,724	2,551
24 GB	78,475	5,789
32 GB	122,181	9,711

표 2. GeForce RTX 5090 GPU에서 VRAM 용량별 컨텍스트 길이 비교

NVIDIA GPU에서 Unsloth 설정하기

Unsloth는 pip을 이용한 간편한 설치부터, 가상 환경 구성, Docker 기반 컨테이너 배포까지 다양한 방식으로 손쉽게 설정할 수 있습니다. 아래 예시들은 GeForce RTX 50 Series를 포함한 모든 Blackwell 세대 GPU에서 사용할 수 있습니다.

pip install unsloth

20B 모델 실행하기

다음은 gpt-oss-20b 모델을 실행하는 예시입니다:

from unsloth import FastLanguageModel
import torch
max_seq_length = 1024
# 4bit pre quantized models we support for 4x faster downloading + no OOMs.
fourbit_models = [
    "unsloth/gpt-oss-20b-unsloth-bnb-4bit", # 20B model using bitsandbytes 4bit quantization
    "unsloth/gpt-oss-120b-unsloth-bnb-4bit",
    "unsloth/gpt-oss-20b", # 20B model using MXFP4 format
    "unsloth/gpt-oss-120b",
] # More models at https://huggingface.co/unsloth
 
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gpt-oss-20b",
    max_seq_length = max_seq_length, # Choose any for long context!
    load_in_4bit = True,  # 4 bit quantization to reduce memory
    full_finetuning = False, # [NEW!] We have full finetuning now!
    # token = "hf_...", # use one if using gated models
)

Docker 배포

Unsloth는 NVIDIA Blackwell GPU를 지원하는 사전 빌드된 Docker 이미지를 제공합니다.

Docker 컨테이너를 실행하려면 호스트 시스템에 NVIDIA Container Toolkit이 설치되어 있어야 합니다. 아래 명령어를 실행하기 전에 필요한 정보를 사용자 환경에 맞게 수정하세요.

docker run -d -e JUPYTER_PASSWORD="mypassword" \
  -p 8888:8888 -p 2222:22 \
  -v $(pwd)/work:/workspace/work \
  --gpus all \
  unsloth/unsloth

가상 환경에서 설치하기

다음 명령어를 쉘에서 실행하여 Python 기반 가상 환경에 Unsloth를 설치할 수 있습니다:

python -m venv unsloth
source unsloth/bin/activate
pip install unsloth

참고: 시스템 환경에 따라 pip3 / pip3.13, python3 / python3.13을 사용해야 할 수 있습니다.

xFormers 관련 문제 해결

xFormers와 관련된 문제가 발생할 경우, 소스에서 직접 빌드하여 해결할 수 있습니다.

먼저 기존에 설치된 xFormers를 제거합니다:

pip uninstall xformers -y

다음으로, 소스를 클론하고 빌드합니다:

pip install ninja
export TORCH_CUDA_ARCH_LIST="12.0"
git clone --depth=1 https://github.com/facebookresearch/xformers --recursive
cd xformers && python setup.py install && cd ..

uv 사용하기

uv를 선호하는 경우, 아래 명령어로 Unsloth를 설치할 수 있습니다:

uv pip install unsloth

Unsloth를 사용하면 단일 Blackwell GPU에서도 20B, 40B 모델을 로컬에서 손쉽게 실험할 수 있으며, 동일한 워크플로우를 그대로 NVIDIA DGX Cloud나 NVIDIA Cloud Partners 환경으로 확장할 수 있습니다. 이를 통해 코드 변경 없이도 Blackwell GPU 클러스터에서 70B 이상의 모델 파인튜닝, 강화 학습, 엔터프라이즈급 워크로드까지 확장할 수 있습니다.

지금 LLM 학습을 혁신하세요

실험 단계부터 프로덕션까지, NVIDIA DGX Cloud와 NVIDIA 클라우드 파트너는 확장 가능한 컴퓨팅 자원, 엔터프라이즈급 스토리지, 실시간 모니터링이 통합된 완전 관리형 AI 환경을 제공하며, 어떤 규모에서도 모델 학습과 파인튜닝을 가능하게 합니다.

Unsloth 공동 창립자 Daniel Han은 다음과 같이 말합니다. “AI는 특정 소수만을 위한 클럽이 되어선 안 됩니다. 다음 AI 혁신은 학생, 개인 연구자, 소규모 스타트업 등 어디에서든 나올 수 있습니다. Unsloth는 그들이 필요한 도구를 갖출 수 있도록 돕기 위해 존재합니다.”

지금 사용 중인 NVIDIA GeForce RTX 50 Series, RTX PRO 6000 Blackwell Series, NVIDIA DGX Spark 시스템에서 Unsloth로 모델을 파인튜닝해 보세요. 이후에는 NVIDIA DGX Cloud 또는 NVIDIA Cloud Partner 환경으로 자연스럽게 확장하여, 엔터프라이즈급 안정성과 가시성을 갖춘 Blackwell GPU 클러스터를 그대로 활용할 수 있습니다. NVIDIA Blackwell GPU와 Unsloth를 활용한 LLM 파인튜닝 가이드와 DGX Spark에 소프트웨어를 설치하는 방법도 함께 확인해 보세요.

NVIDIA Blackwell에서 Unsloth를 사용해 LLM을 학습하고, 프로덕션 환경으로 확장하기

Unsloth이란 무엇인가요?

Unsloth는 NVIDIA Blackwell GPU에서 어떤 성능을 낼까요?

NVIDIA GPU에서 Unsloth 설정하기

20B 모델 실행하기

Docker 배포

가상 환경에서 설치하기

xFormers 관련 문제 해결

uv 사용하기

지금 LLM 학습을 혁신하세요

Tags

작성자 소개

NVIDIA Blackwell에서 Unsloth를 사용해 LLM을 학습하고, 프로덕션 환경으로 확장하기

Unsloth이란 무엇인가요?

Unsloth는 NVIDIA Blackwell GPU에서 어떤 성능을 낼까요?

NVIDIA GPU에서 Unsloth 설정하기

20B 모델 실행하기

Docker 배포

가상 환경에서 설치하기

xFormers 관련 문제 해결

uv 사용하기

지금 LLM 학습을 혁신하세요

Tags

작성자 소개

댓글

Related posts

새로운 NVIDIA Nemotron Vision, RAG, Guardrail 모델로 특화된 AI 에이전트 개발하기

고강도 AI 작업을 가능하게 하는 NVIDIA DGX Spark 성능

NVIDIA cuQuantum, QuTiP 및 scQubits 통합으로 큐비트 연구 가속화하기

NVIDIA Nemotron으로 로그 분석용 자가 수정 멀티 에이전트 RAG 시스템 구축하기

Newton: 뉴럴 다이내믹스를 활용한 로보틱스 개발 고도화