오픈 소스 Meta Llama 모델 컬렉션을 확장한 Llama 3.2 컬렉션에는 비전 언어 모델(VLM), 소규모 언어 모델(SLM), 비전을 지원하는 업데이트된 Llama Guard 모델이 포함되어 있습니다. NVIDIA 가속 컴퓨팅 플랫폼과 결합된 Llama 3.2는 개발자, 연구원 및 기업에게 생성형 AI 사용 사례를 실현할 수 있는 새로운 기능과 최적화를 제공합니다.
NVIDIA H100 텐서 코어 GPU에서 훈련된 1B 및 3B 크기의 SLM은 엣지 디바이스 전반에 걸쳐 Llama 기반 AI 어시스턴트를 배포하는 데 이상적입니다. 11B 및 90B 크기의 VLM은 텍스트와 이미지 입력 및 출력 텍스트를 지원합니다. 멀티모달 지원을 통해 개발자는 시각적 근거, 추론, 이해가 필요한 강력한 애플리케이션을 구축할 수 있습니다. 예를 들어 이미지 캡션, 이미지-텍스트 검색, 시각적 Q&A, 문서 Q&A 등을 위한 AI 에이전트를 구축할 수 있습니다. 이제 라마 가드 모델은 텍스트 입력 외에 이미지 입력 가드레일도 지원합니다.
Llama 3.2 모델 아키텍처는 최적화된 트랜스포머 아키텍처를 사용하는 자동 회귀 언어 모델입니다. 인스트럭션 튜닝 버전은 감독형 파인 튜닝(SFT)과 인간 피드백을 통한 강화 학습(RLHF)을 사용하여 유용성과 안전성에 대한 인간의 선호도에 맞춰 조정합니다. 모든 모델은 128K 토큰의 긴 컨텍스트 길이를 지원하며 그룹화된 쿼리 주의(GQA)를 지원하여 추론에 최적화되어 있습니다.
NVIDIA는 데이터센터부터 NVIDIA RTX를 사용하는 로컬 워크스테이션, NVIDIA Jetson을 사용하는 엣지까지 전 세계 수백만 개의 GPU에서 높은 처리량과 낮은 지연 시간을 제공하기 위해 Llama 3.2 모델 컬렉션을 최적화하고 있습니다. 이 게시물에서는 하드웨어 및 소프트웨어 최적화, 커스터마이징, 배포 용이성 기능에 대해 설명합니다.
NVIDIA TensorRT로 Llama 3.2 성능 가속화하기
NVIDIA는 비용과 지연 시간을 줄이는 동시에 탁월한 처리량을 제공하고 최적의 최종 사용자 경험을 제공하기 위해 Llama 3.2 모델 컬렉션을 가속화하고 있습니다. 고성능 딥 러닝 추론을 위한 NVIDIA TensorRT에는 TensorRT 및 TensorRT-LLM 라이브러리가 포함되어 있습니다.
Llama 3.2 1B 및 Llama 3.2 3B 모델은 확장된 회전 위치 임베딩(RoPE) 기법과 KV 캐싱 및 비행 중 배칭을 비롯한 여러 다른 최적화를 사용하여 TensorRT-LLM에서 긴 컨텍스트 지원을 위해 가속화되고 있습니다.
Llama 3.2 11B 및 Llama 3.2 90B 모델은 멀티모달이며 텍스트 디코더가 포함된 비전 인코더를 포함합니다. 비전 인코더는 모델을 ONNX 그래프로 내보내고 TensorRT 엔진을 구축함으로써 가속화되고 있습니다. ONNX 내보내기는 추론에 중점을 둔 내장 연산자와 표준 데이터 유형으로 표준 모델 정의를 생성합니다. TensorRT는 ONNX 그래프를 사용하여 TensorRT 엔진을 구축함으로써 대상 GPU에 맞게 모델을 최적화합니다. 이 엔진은 커널 자동 튜닝과 함께 레이어 및 텐서 융합을 통해 다양한 하드웨어 수준 최적화를 제공하여 NVIDIA GPU 활용도를 극대화합니다.
비전 인코더의 시각 정보는 TensorRT-LLM에서 지원되는 교차 주의 메커니즘을 통해 Llama 텍스트 디코더에 융합됩니다. 이를 통해 VLM은 텍스트 입력의 맥락에서 시각적 추론과 이해를 고려하여 텍스트를 효율적으로 생성할 수 있습니다.
NVIDIA NIM을 사용한 손쉬운 생성형 AI 솔루션 배포
TensorRT 최적화는 NVIDIA NIM 마이크로서비스를 사용하여 프로덕션 준비 배포를 통해 사용할 수 있습니다. NIM 마이크로서비스는 클라우드, 데이터센터, 워크스테이션 등 어디서나 NVIDIA 가속 인프라 전반에 걸쳐 생성형 AI 모델의 배포를 가속화합니다.
Llama 3.2 90B Vision Instruct, Llama 3.2 11B Vision Instruct, Llama 3.2 3B Instruct 및 Llama 3.2 1B Instruct는 프로덕션 배포를 위한 NIM 마이크로서비스를 통해 지원됩니다. NIM은 생성형 AI 워크로드의 간소화된 관리 및 오케스트레이션, 표준 애플리케이션 프로그래밍 인터페이스(API), 프로덕션 준비 컨테이너를 통한 엔터프라이즈 지원을 제공합니다. 전 세계 개발자, 연구원 및 기업은 175개 이상의 파트너가 자사의 솔루션을 NVIDIA NIM 마이크로서비스와 통합하는 강력하고 성장하는 에코시스템 지원을 통해 생성형 AI 애플리케이션에 대한 투자 수익을 극대화할 수 있습니다.
NVIDIA AI Foundry 및 NVIDIA NeMo를 통한 Llama 3.2 모델 커스터마이징 및 평가
NVIDIA AI Foundry는 고급 AI 도구, 컴퓨팅 리소스 및 AI 전문 지식에 대한 액세스와 함께 Llama 3.2 모델 커스터마이징을 위한 엔드투엔드 플랫폼을 제공합니다. 독점 데이터를 기반으로 미세 튜닝된 맞춤형 모델을 통해 기업은 도메인별 작업에서 더 나은 성능과 정확도를 달성하여 경쟁 우위를 확보할 수 있습니다.
개발자는 NVIDIA NeMo를 통해 훈련 데이터를 큐레이팅하고, LoRA, SFT, DPO, RLHF 등 고급 튜닝 기술을 활용하여 Llama 3.2 모델을 커스터마이징하고, 정확도를 평가하고, 모델의 적절한 응답을 보장하기 위한 가드레일을 추가할 수 있습니다. AI Foundry는 NVIDIA DGX 클라우드에서 전용 용량을 제공하며, NVIDIA AI 전문가의 지원을 받습니다. 결과물은 어디에서나 배포할 수 있는 NVIDIA NIM 추론 마이크로서비스로 패키징된 맞춤형 Llama 3.2 모델입니다.
NVIDIA RTX 및 NVIDIA Jetson으로 로컬 추론 확장
현재 Llama 3.2 모델은 전 세계 1억 대 이상의 NVIDIA RTX PC 및 워크스테이션에 최적화되어 있습니다. Windows 배포의 경우, NVIDIA는 이 모델 제품군이 DirectML 백엔드와 함께 ONNX-GenAI 런타임을 사용하여 효율적으로 작동하도록 최적화했습니다. NVIDIA RTX에서 Llama 3.2 3B 모델을 시작하세요.
새로운 VLM 및 SLM 모델은 NVIDIA RTX 시스템에서 새로운 기능을 제공합니다. 데모를 위해 향상된 정보 검색 및 생성을 위해 텍스트와 시각적 데이터 처리(예: 이미지, 플롯, 차트 등)를 결합하는 멀티모달 검색 증강 생성(RAG) 파이프라인의 예를 만들었습니다.
Llama 3.2 SLM 및 VLM을 사용하여 NVIDIA RTX Linux 시스템에서 이 파이프라인을 실행하는 방법을 알아보세요. 30GB 이상의 메모리를 갖춘 NVIDIA RTX 전문가용 GPU가 탑재된 Linux 워크스테이션이 필요합니다.
SLM은 애플리케이션 중심 도메인에 대한 정확도를 유지하면서 메모리, 지연 시간 및 계산 요구 사항을 줄이기 위해 증류, 프루닝 및 양자화 등의 기술을 사용하여 엣지 디바이스에 로컬 배포하도록 맞춤화되었습니다. 최적화된 GPU 추론 및 INT4/FP8 양자화를 통해 Jetson에 탑재된 Llama 3.2 1B 및 3B SLM을 다운로드하고 배포하려면 NVIDIA Jetson AI Lab의 SLM 튜토리얼을 참조하세요.
멀티모달 모델은 비디오 분석 및 로봇 공학에서 고유한 비전 기능으로 인해 엣지 애플리케이션에서 점점 더 유용해지고 있습니다. Llama 3.2 11B VLM은 임베디드 Jetson AGX Orin 64GB에서 지원됩니다.
AI 모델 발전
오픈 소스를 적극적으로 지원하는 NVIDIA는 사용자에게 도움이 되는 커뮤니티 소프트웨어를 제공하기 위해 최선을 다하고 있습니다. 또한 오픈 소스 AI 모델은 투명성을 증진하고 사용자가 AI 안전 및 회복 탄력성 관련 작업을 광범위하게 공유할 수 있도록 돕습니다.
개발자는 Hugging Face의 서비스형 추론 기능을 통해 NVIDIA DGX Cloud에서 실행되는 NVIDIA NIM 마이크로서비스의 최적화를 통해 Llama 3 컬렉션과 같은 선도적인 거대 언어 모델(LLM)을 빠르게 배포할 수 있습니다.
NVIDIA 개발자 프로그램을 통해 연구, 개발 및 테스트를 위한 NIM에 무료로 액세스할 수 있습니다.
NVIDIA AI 추론 플랫폼에 대해 자세히 알아보고 NVIDIA NIM, NVIDIA TensorRT-LLM, NVIDIA TensorRT 및 NVIDIA Triton이 LoRA와 같은 최첨단 기술을 사용하여 최신 LLM을 가속화하는 방법을 살펴보세요.
관련 리소스
GTC 세션: 클라우드에서 LLM 수명 주기 가속화하기
GTC 세션: NeMo, TensorRT-LLM, Triton 추론 서버에서 가속화된 LLM 모델 정렬 및 배포
GTC 세션: LLM 클러스터 아키텍처를 위한 청사진: 세계 최대 규모의 배포로 확장하기(Supermicro 발표)
NGC 컨테이너: Llama-3-Swallow-70B-Instruct-v0.1
NGC 컨테이너: Llama-3.1-405b-instruct
웨비나: 클라우드 지원 AI 추론 솔루션의 성능을 활용하고 클라우드에서 LLM 추론 배포의 단계별 데모 체험하기