Alibaba가 네이티브 멀티모달 에이전트 구축을 위해 설계한 새로운 오픈 소스 시리즈, Qwen3.5를 공개했습니다. 이 시리즈의 첫 번째 모델은 약 4,000억 개의 파라미터를 갖춘 네이티브 시각-언어 모델(VLM)입니다. 특히 전문가 혼합(MoE)와 Gated Delta Networks를 결합한 하이브리드 아키텍처를 기반으로 강력한 추론 능력을 갖췄습니다. Qwen3.5는 사용자 인터페이스를 심도 있게 이해하고 탐색하는 능력을 증명하며, 이전 세대 VLM보다 한 단계 진화한 성능을 보여줍니다.
Qwen3.5는 다음과 같은 다양한 활용 사례에서 탁월한 효율성을 발휘합니다.
- 웹 개발을 포함한 고도화된 코딩 작업
- 모바일 및 웹 인터페이스를 아우르는 시각적 추론
- 대화형 챗 애플리케이션
- 복잡한 맥락을 파악하는 정밀 검색
| Qwen3.5 | |
| 모달리티 | Vision, language |
| 전체 파라미터 | 397B |
| 활성 파라미터 | 17B |
| 활성화율 | 4.28% |
| 입력 컨텍스트 길이 | 256K extensible to 1M tokens |
| 지원 언어 | 200+ |
| 추가 구성 상세 사양 | |
| 전문가 수 (Experts) | 512 |
| 공유 전문가 (Shared Experts) | 1 |
| 토큰당 할당 전문가 (Experts per Token) | 11 (10 routed + 1 shared) |
| 레이어 | 60 |
| 어휘 수 | 248,320 |
표 1. Qwen3.5 모델의 주요 사양 및 구성 세부 정보
NVIDIA 엔드포인트를 활용한 개발 환경 구축
이제 NVIDIA Blackwell GPU로 가속하는 build.nvidia.com의 엔드포인트를 통해 Qwen3.5 기반의 개발을 즉시 시작할 수 있습니다. NVIDIA 개발자 프로그램의 가입자라면 브라우저에서 신속하게 모델을 탐색하고, 다양한 프롬프트를 실험하며, 실제 데이터를 투입해 실전 성능을 직접 무료 검증할 수도 있습니다.
또한 NVIDIA Developer Program 등록 시 제공하는 API를 활용해 NVIDIA 호스팅 모델을 자유롭게 호출할 수 있습니다.
import requests
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
headers = {
"Authorization": "Bearer $NVIDIA_API_KEY",
"Accept": "application/json",
}
payload = {
"messages": [
{
"role": "user",
"content": ""
}
],
"model": "qwen/qwen3.5-397b-a17b",
"chat_template_kwargs": {
"thinking": True
},
"frequency_penalty": 0,
"max_tokens": 16384,
"presence_penalty": 0,
"stream": True,
"temperature": 1,
"top_p": 1
}
# re-use connections
session = requests.Session()
response = session.post(invoke_url, headers=headers, json=payload)
response.raise_for_status()
response_body = response.json()
print(response_body)
특히 툴 콜링 기능을 구현하고자 한다면 OpenAI와 호환되는 도구 배열을 정의한 뒤, 이를 chat completions의 tools 파라미터에 추가하기만 하면 됩니다.
NVIDIA NIM은 Qwen3.5를 개발 단계에서 엔터프라이즈급 서비스로 전환하는 과정을 획기적으로 단축합니다. 최적화된 컨테이너 기반 추론 마이크로서비스인 NIM은 성능 튜닝, 표준 API, 그리고 유연한 배포 환경을 패키지 형태로 제공합니다. 개발자는 온프레미스, 클라우드, 하이브리드 환경 등 어디에서나 NIM을 다운로드하고 실행하여 비즈니스 경쟁력을 확보할 수 있습니다.
NVIDIA NeMo를 통한 맞춤형 모델 최적화
Qwen3.5는 기본 상태에서도 탁월한 멀티모달 성능을 발휘하지만, NVIDIA NeMo 프레임워크를 활용하면 특정 도메인의 요구사항에 맞춰 모델을 정교하게 조정할 수 있습니다. 개발자는 NeMo Automodel 라이브러리를 통해 3,970억 개의 파라미터를 가진 Qwen3.5 아키텍처를 고처리량 효율로 파인튜닝할 수 있습니다.
PyTorch 기반의 트레이닝 라이브러리인 NeMo Automodel은 ‘Day 0’ Hugging Face 지원을 제공합니다. 따라서 번거로운 모델 변환 과정 없이 기존 체크포인트에서 즉시 학습을 시작할 수 있습니다. 이는 전체 지도 학습(Full SFT)뿐만 아니라 LoRA와 같은 메모리 효율적인 방식을 적용할 때도 신속한 실험과 반복 개선을 가능하게 합니다.
실질적인 구현 가이드로서, 방사선 데이터셋을 활용해 Qwen3.5를 파인튜닝하는 의료 영상 질의응답(Medical Visual QA) 기술 튜토리얼을 참고해 보시기 바랍니다. 또한 NeMo는 대규모 확장을 위해 멀티노드 Slurm 및 Kubernetes 배포를 지원합니다. 이를 통해 가장 거대한 MoE 모델조차 지연 시간을 최소화하면서 도메인 특화 추론 및 복잡한 에이전틱 AI 워크플로우에 최적화할 수 있습니다.
Qwen3.5와 함께 시작하기
NVIDIA는 NVIDIA Blackwell 기반의 데이터 센터 배포부터 어디서나 컨테이너화된 실행이 가능한 NVIDIA NIM 마이크로서비스에 이르기까지, Qwen3.5 통합을 위한 최적의 솔루션을 제공합니다. 지금 바로 Hugging Face의 Qwen3.5 모델 페이지를 확인하고, build.nvidia.com에서 직접 성능을 테스트하며 차세대 AI 애플리케이션 개발을 시작해 보세요.