NVIDIA Triton Inference Server
NVIDIA Triton™ Inference Server는 모델 배포 및 실행을 표준화할 수 있도록 도와주고, 프로덕션 환경에 빠르고 확장 가능한 AI를 제공하는 오픈 소스 추론 지원 소프트웨어입니다.
시작하기NVIDIA Triton은 어떤 솔루션인가요?
NVIDIA AI 플랫폼의 구성 요소인 Triton Inference Server는 팀이 GPU 또는 CPU 기반 인프라의 프레임워크에서 훈련된 AI 모델을 배포, 실행 및 확장할 수 있도록 지원함으로써 AI 추론을 간소화하고 표준화합니다. AI 연구원과 데이터 과학자는 Triton을 통해 프로덕션 배포에 영향을 미치지 않고 프로젝트에 적합한 프레임워크를 자유롭게 선택할 수 있으며, 개발자는 클라우드, 온프레미스, 에지 및 임베디드 디바이스 전반에서 고성능 추론을 제공할 수 있습니다.
이점 살펴보기
다수의 프레임워크 지원
Triton은 TensorFlow, NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, scikit-learn, RandomForest, OpenVINO, 맞춤형 C++ 등 주요 훈련 및 추론 프레임워크를 모두 지원합니다.
고성능 추론
Triton은 NVIDIA GPU, x86, Arm® CPU 및 AWS Inferentia 기반 추론을 모두 지원하며, 다이나믹 배칭(batching), 동시 실행, 최적의 모델 구성, 모델 앙상블 및 스트리밍 오디오/비디오 입력을 제공해 처리량과 활용도를 극대화합니다.
DevOps와 MLOps를 위한 설계
Triton은 오케스트레이션과 확장을 위해 Kubernetes에 통합되고, 모니터링을 위해 Prometheus 메트릭을 내보내며, 라이브 모델 업데이트를 지원하고, 모든 주요 퍼블릭 클라우드 AI와 Kubernetes 플랫폼에 사용됩니다. 또한 대부분의 MLOps 소프트웨어 솔루션에도 통합됩니다.
NVIDIA AI의 필수 요소
Triton을 포함한 NVIDIA AI 플랫폼은 AI를 효과적으로 구현하는 데 필요한 컴퓨팅 성능과 툴 및 알고리즘을 제공함으로써 음성 인식과 추천 시스템에서부터 의료 영상과 물류 개선에 이르기까지 전반에 걸쳐 워크로드를 가속합니다.
모든 애플리케이션에서 빠르고 확장 가능한 AI를 구현해보세요
고성능 추론 달성
Triton은 한 프레임워크에서 나온 모델, 혹은 서로 다른 프레임워크에서 나온 여러 개의 모델을 단일 GPU 또는 CPU에서 동시에 실행합니다. 다중 GPU 서버의 경우, Triton은 각 GPU에서 각 모델에 대한 인스턴스를 자동으로 생성하여 활용률을 높입니다.
또한 다이나믹 배칭을 통해 지연 시간을 엄격히 제한한 상태에서 실시간 추론 지원을 최적화하고, 배치(batch) 추론을 지원해 GPU 및 CPU 활용률울 극대화하며, 오디오 및 비디오 스트리밍 입력을 기본적으로 지원합니다. Triton은 대화형 AI와 같은 엔드 투 엔드 추론을 실행하기 위해 여러 모델의 파이프라인이 필요한 사용 사례에서 모델 앙상블을 지원합니다.
Triton이나 애플리케이션을 다시 시작하지 않고도 프로덕션 환경에서 실시간으로 모델을 업데이트할 수 있습니다. Triton은 단일 GPU의 메모리에 적합하지 않은 대형 모델에서 다중 GPU/다중 노드 추론을 지원합니다.
손쉬운 추론 확장
Docker 컨테이너 형태로 제공되는 Triton은 Kubernetes와 통합되어 오케스트레이션과 메트릭 및 오토 스케일링을 지원합니다. 또한 Kubeflow 및 KServe와 통합되어 총체적인 AI 워크플로우를 지원하고 Prometheus 메트릭을 내보내어 GPU 활용도, 지연 시간, 메모리 사용량 및 추론 처리량을 모니터링합니다. 로드 밸런서 같은 다른 애플리케이션을 연결할 수 있도록 표준 HTTP/gRPC 인터페이스를 지원하며, 원하는 수만큼 서버를 손쉽게 확장하여 어떤 모델에서든 증가하는 추론 부하를 처리할 수 있습니다.
Triton은 모델 제어 API를 통해 수십 개 내지 수백 개의 모델을 제공할 수 있습니다. GPU 또는 CPU 메모리에 맞게 변경 사항을 토대로 추론 서버에 모델을 로드/언로드할 수 있습니다. Triton에서는 GPU와 CPU가 모두 탑재된 이기종 클러스터가 지원되기 때문에 플랫폼 전반에서 추론을 표준화하고, CPU 또는 GPU로의 동적 확장을 통해 최대 부하를 처리할 수 있습니다.
Triton 기능 자세히 살펴보기
관리 서비스를 통한 모델 오케스트레이션
Triton은 새로운 모델 오케스트레이션 기능을 제공하여 다중 모델 추론의 효율성을 높여줍니다. 프로덕션 서비스 형태로 실행되는 이 기능은 요청 시 모델을 로드하고 사용하지 않을 때는 모델을 언로드합니다. 또한 단일 GPU 서버에 모델을 최대한 많이 배치하여 GPU 리소스를 효율적으로 할당하고, 서로 다른 프레임워크에서 나온 모델을 그룹화하여 메모리 사용 효율을 높여줍니다. 모델 오케스트레이션 기능은 비공개 얼리 액세스(EA)를 통해 제공됩니다.
EA 프로그램 가입하기대규모 언어 모델 추론
자연어처리 영역(예: GPT-3 - 175B, Megatron 530B 모델)을 중심으로 모델의 크기가 급속도로 커지고 있습니다. GPU는 이러한 대형 모델에 적합한 컴퓨팅 리소스지만, 모델의 크기가 너무 크다 보니 GPU 하나로 처리하기가 어렵습니다. Triton은 모델을 작은 파일 여러 개로 분할하고 서버 내에서, 또는 서버 전반에 걸쳐 별도의 GPU에서 각 파일을 실행할 수 있습니다. 이러한 다중 GPU/다중 노드 추론을 지원하는 Triton의 FasterTransformer 백엔드는 오늘날 GPT 제품군과 T5, OPT 및 UL2 모델에 최적화된 확장 가능한 추론을 제공합니다.
블로그에서 자세히 알아보기모델 분석기를 사용한 최적의 모델 구성
Triton의 Model Analyzer는 대상 프로세서에서 배치 크기, 정밀도, 동시 실행 인스턴스 등의 Triton 배포 구성을 자동으로 평가하는 툴입니다. 지연 시간, 처리량, 메모리 요구 사항 등의 애플리케이션 Quality-of-Service(QoS) 제약 조건을 충족하는 최적의 구성을 선택하는 데 유용하며, 최적의 구성을 찾는 데 소요되는 시간이 몇 주에서 몇 시간으로 단축됩니다.
자세히 알아보기Forest Inference Library(FIL) 백엔드를 통한 트리 기반 모델 추론
Triton의 새로운 FIL 백엔드는 CPU와 GPU에서 설명 가능성(SHAP 값)을 갖춘 트리 기반 모델의 고성능 추론을 지원합니다. XGBoost, LightGBM, scikit-learn RandomForest, RAPIDS™ cuML RandomForest 및 기타 Treelite 형식의 모델을 지원합니다.
자세히 알아보기에코시스템 통합 기능 살펴보기
AI는 조직의 규모를 막론하고 모든 기업의 혁신을 주도하고 있으며, 이러한 혁신의 선봉에는 NVIDIA AI가 있습니다. 오픈 소스 소프트웨어 솔루션인 Triton은 AI 추론 및 모델 배포에 가장 적합한 제품입니다. Triton은 Alibaba Cloud, Amazon Elastic Kubernetes Service (EKS), Amazon Elastic Container Service (ECS), Amazon SageMaker, Google Kubernetes Engine (GKE), Google Vertex AI, HPE Ezmeral, Microsoft Azure Kubernetes Service (AKS) , and Azure Machine Learning . 에서 지원됩니다. 기업들이 Triton을 사용하는 이유를 알아보세요.
NVIDIA LaunchPad를 통해 호스팅된 인프라에 즉시 액세스하고 선별된 무료 랩을 통해 Triton Inference Server를 체험해보세요.
성공 사례 읽기
더 많은 리소스 찾아보기
스타트업을 위한 NVIDIA 프로그램
NVIDIA Inception은 스타트업이 NVIDIA Triton, NVIDIA 전문가, 벤처 자본가, 공동 마케팅 지원 등의 최첨단 기술에 액세스하여 빠르게 성장하도록 돕기 위해 마련된 무료 프로그램입니다.
자세히 알아보기
엔터프라이즈급 AI 추론 체험하기
프로덕션 환경에서 AI를 확장 중인 조직에게는 신뢰할 수 있는 지원 서비스가 매우 중요합니다. NVIDIA Triton에 대한 글로벌 NVIDIA 엔터프라이즈 지원 서비스는 응답 시간 보장, 우선 보안 알림, 정기 업데이트, NVIDIA AI 전문가 지원 등이 포함된 NVIDIA AI Enterprise를 통해 제공됩니다.
NVIDIA H100을 사용하고 있다면 NVIDIA AI Enterprise 소프트웨어를 활성화하는 방법을 알아보세요.