Computer Vision / Video Analytics

NVIDIA, Meta Llama 4 Scout 및 Maverick에서의 추론 가속화

Reading Time: 3 minutes

많은 관심을 받아온 Llama AI 모델의 최신 버전, Llama 4 Scout와 Llama 4 Maverick이 새롭게 공개됐습니다. NVIDIA의 오픈소스 소프트웨어로 가속되어 Blackwell B200 GPU에서는 초당 4만 토큰 이상을 처리할 수 있으며 현재 NVIDIA NIM 마이크로서비스에서 직접 사용하실 수 있습니다.

Llama 4 모델은 이제 기본적으로 멀티모달과 다국어 기능을 지원하며, 전문가 혼합(MoE) 구조를 사용합니다. 다양한 멀티모달 기능을 갖춘 Llama 4는 모델의 규모, 속도, 효율성을 크게 끌어올려 훨씬 더 정교하고 개인화된 사용자 경험을 구현할 수 있도록 지원합니다.

Llama 4 Scout는 1090억 개의 파라미터를 가진 모델로, 토큰마다 170억 개가 활성화됩니다. 총 16개의 전문가로 구성돼 있으며, 최대 1000만 토큰까지 처리할 수 있는 긴 컨텍스트 윈도우를 지원합니다. int4 형식으로 최적화되어 단일 NVIDIA H100 GPU에서도 효율적으로 실행됩니다. 이 모델은 여러 문서를 요약하거나, 방대한 사용자 활동을 분석해 개인화된 작업을 수행하거나, 대규모 코드베이스를 바탕으로 추론하는 등 다양한 활용이 가능합니다.

Llama 4 Maverick은 4000억 개의 파라미터를 가진 모델로, Scout와 마찬가지로 토큰당 170억 개가 활성화되며, 128명의 전문가로 구성돼 있습니다. 최대 100만 토큰까지 처리할 수 있는 컨텍스트 길이를 지원하며, 이미지와 텍스트에 대한 높은 수준의 이해력을 제공합니다.

NVIDIA TensorRT-LLM 최적화

NVIDIA는 Llama 4 Scout와 Llama 4 Maverick 모델 모두를 NVIDIA TensorRT-LLM에 맞춰 최적화했습니다. TensorRT-LLM은 최신 파운데이션 모델의 추론 성능을 NVIDIA GPU에서 가속하기 위해 개발된 오픈소스 라이브러리입니다.

bfloat16 모델을 최신 알고리즘 최적화 및 양자화 기법으로 리팩토링해 성능을 끌어올리는 TensorRT Model Optimizer를 사용하면, 모델 정확도를 떨어뜨리지 않으면서도 Blackwell FP4 텐서코어의 성능을 활용해 추론 속도를 높일 수 있습니다.

Blackwell B200 GPU에서 TensorRT-LLM을 활용하면, NVIDIA가 최적화한 FP8 버전의 Llama 4 Scout는 초당 4만 토큰 이상, Llama 4 Maverick은 초당 3만 토큰 이상의 처리 속도를 기록합니다.

그림 1. 초당 토큰 수 NVIDIA GPU의 Llama 4 Scout

Blackwell 아키텍처는 2세대 트랜스포머 엔진, 5세대 NVLink, 그리고 FP8, FP6, FP4 정밀도 지원 등 다양한 기술 혁신을 통해 훈련과 추론 모두에서 성능을 대폭 끌어올렸습니다. Llama 4 모델의 경우, 이러한 기술 덕분에 NVIDIA H200 대비 처리 속도는 3.4배 빨라지고, 토큰당 비용 효율도 2.6배 향상됩니다.

최신 Llama 4 최적화는 오픈소스로 공개된 NVIDIA/TensorRT-LLM GitHub 리포지토리에서 확인할 수 있습니다.

NVIDIA와 Meta는 오픈 모델 생태계를 함께 키워온 오랜 협력 관계입니다. NVIDIA는 오픈소스 개발에도 적극적으로 참여하며, 사용자들이 더 효율적으로 일하고 복잡한 과제를 해결할 수 있도록 지원합니다. 그 과정에서 성능은 높이고 비용은 줄이는 데에도 기여하고 있습니다.

오픈소스 모델은 AI의 투명성을 높이고, AI의 안전성과 회복력을 위한 연구 성과를 폭넓게 공유할 수 있는 기반도 제공합니다. 이러한 오픈 모델에 NVIDIA의 가속 컴퓨팅이 더해지면, 개발자, 연구자, 기업은 다양한 분야에서 책임감 있게 혁신을 이어갈 수 있습니다.

정확도 향상을 위한 Llama 모델 사후 학습

Llama 모델의 fine-tuning은 NVIDIA NeMo를 통해 손쉽게 진행할 수 있습니다. NeMo는 기업 데이터를 활용해 거대 언어 모델을 맞춤화할 수 있도록 설계된 엔드 투 엔드 프레임워크입니다.

먼저 NeMo Curator를 사용해 고품질의 프리트레이닝 또는 fine-tuning 데이터셋을 준비할 수 있습니다. 이 도구는 정형 및 비정형 데이터를 대규모로 추출하고, 필터링하고, 중복을 제거하는 데 도움을 줍니다. 이후 NeMo에서는 LoRA, PEFT, 전체 파라미터 튜닝 같은 다양한 기법을 활용해 Llama 모델을 효율적으로 fine-tuning할 수 있습니다.

fine-tuning을 마친 후에는 NeMo Evaluator로 모델 성능을 평가할 수 있습니다. 업계 표준 벤치마크는 물론, 특정 용도에 맞춘 커스텀 테스트셋도 지원합니다.

NeMo를 활용하면, 기업은 유연하고 강력한 워크플로우를 바탕으로 Llama 모델을 실제 서비스 수준의 AI 애플리케이션에 맞게 손쉽게 적용할 수 있습니다.

NVIDIA NIM로 배포 간소화

기업이 Llama 4 모델을 손쉽게 활용할 수 있도록, 이 모델들은 NVIDIA NIM 마이크로서비스 형태로 제공됩니다. 이를 통해 GPU 가속 인프라 어디에서든 유연하게 배포할 수 있고, 데이터 프라이버시와 기업 수준의 보안도 확보할 수 있습니다.

또한 NIM은 업계 표준 API를 지원해 배포 과정을 단순화하며, 빠르게 서비스를 시작할 수 있도록 도와줍니다. LLM, 비전 모델, 멀티모달 AI 등 어떤 모델을 사용하든, NIM은 복잡한 인프라 관리를 대신 처리해주고, 클라우드, 데이터센터, 엣지 환경 전반에 걸쳐 손쉽게 확장할 수 있도록 지원합니다.

지금 시작해 보세요

Llama 4 NIM 마이크로서비스를 직접 사용해보며, 자체 데이터를 활용한 실험이나 개념 검증(POC)을 진행해보세요. NVIDIA에서 제공하는 API 엔드포인트를 애플리케이션에 통합하면, 손쉽게 테스트하고 실제 환경에 적용해볼 수 있습니다.

Discuss (0)

Tags