Simulation / Modeling / Design

AI 추론을 강화하는 NVIDIA Triton과 NVIDIA TensorRT의 새로운 기능

Reading Time: 3 minutes

NVIDIA AI 추론 소프트웨어는 오픈소스 추론 서비스 소프트웨어인 NVIDIA Triton 추론 서버와 딥 러닝 추론 옵티마이저와 런타임을 포함하는 고성능 딥 러닝 추론용 SDK인 NVIDIA TensorRT로 구성되며, 모든 AI 딥 러닝 사용 사례에 대해 가속화된 추론을 제공합니다. NVIDIA Triton은 기존 머신 러닝(ML) 모델과 CPU에 대한 추론도 지원하는데요. 이 포스팅에서는 이 소프트웨어에 최근 추가된 새로운 주요 기능들을 소개합니다.

NVIDIA Triton

NVIDIA Triton의 새로운 기능에는 PyTriton을 통한 파이썬(Python) 기본 지원, 모델 분석기 업데이트, NVIDIA Triton 관리 서비스 등이 있습니다.

PyTriton을 통한 파이썬 기본 지원

PyTriton 기능은 파이썬 코드에서 NVIDIA Triton 추론 서버를 사용할 수 있는 간단한 인터페이스를 제공합니다. 파이썬 개발자는 PyTriton을 통해 AI 모델이나 간단한 처리 기능부터 전체 추론 파이프라인에 이르는 모든 것에 NVIDIA Triton을 사용할 수 있습니다.

파이썬에서 NVIDIA Triton에 대한 기본 지원이 제공됨에 따라, 성능, 효율성, 높은 하드웨어 활용도를 갖춘 ML 모델의 신속한 프로토타이핑과 테스트가 가능합니다. 단일 코드 라인으로 NVIDIA Triton을 실행하여 동적 배칭, 동시 모델 실행, 파이썬 코드 내에서 GPU, CPU 지원과 같은 이점을 활용할 수 있습니다. 이 방식을 사용하면 모델 리포지토리를 설정하고 모델 형식을 변환할 필요가 없습니다. 수정 없이 기존 추론 파이프라인 코드를 사용할 수 있죠. 깃허브(GitHub)의 triton-inference-server/pytriton 을 방문하고 사용해보세요.

모델 분석기

모델 분석기는 효율적인 추론을 배포하기 위해 배치(batch) 크기, 모델 동시성, 정밀도와 같은 최적의 NVIDIA Triton 모델 구성을 찾는 데 도움이 되는 도구입니다. 새로운 빠른 검색 모드 덕분에, 며칠이 걸리는 구성 파라미터 수동 실험 없이 몇 분 만에 최상의 구성을 얻을 수 있습니다.

이제 전처리와 후처리가 필요한 최신 추론 워크로드를 지원하는 독립형 모델 외에도, 모델 분석기는 모델 앙상블(모델 파이프라인이라고도 함)과 다중 모델 분석을 지원합니다. 전체 ML 파이프라인에 대해 모델 분석기를 실행할 수 있습니다. 자세한 내용은 모델 분석기 관련 문서를 참조하세요.

NVIDIA Triton 관리 서비스

NVIDIA Triton 관리 서비스는 효율적인 다중 모델 추론을 위한 모델 오케스트레이션 기능을 제공합니다. 프로덕션 서비스로 실행되는 이 기능은 온디맨드로 모델을 로드하고 사용하지 않을 때는 모델을 언로드합니다.

또한 단일 GPU 서버에 최대한 많은 모델을 배치하여 GPU 리소스를 효율적으로 할당하고, 효율적인 메모리 사용을 위해 서로 다른 프레임워크의 모델을 최적으로 그룹화하는 데 도움을 줍니다. 이제 애플리케이션과의 추론과 암호화된(AES-256) 통신의 높은 활용도를 기반으로 NVIDIA Triton 인스턴스의 오토스케일링을 지원합니다. NVIDIA Triton 관리 서비스에 대한 얼리 액세스를 신청하세요.

NVIDIA TensorRT 

TensorRT의 새로운 기능에는 다중 GPU 다중 노드 추론과 성능, 하드웨어 최적화 등이 포함됩니다.

다중 GPU 다중 노드 추론

TensorRT는 대규모 언어 모델(LLM)에 대한 다중 GPU 다중 노드 추론을 실행하는 데 사용할 수 있으며, GPT-3 175B, 530B, 6.7B 모델을 지원합니다. 이러한 모델에는 ONNX 변환이 필요하지 않습니다. 오히려 간단한 파이썬 API를 사용하여 다중 GPU 추론을 최적화할 수 있죠. 현재 비공개 얼리 액세스로 사용할 수 있습니다. 자세한 내용은 NVIDIA 계정 팀에 문의하세요.

TensorRT 8.6 

TensorRT 8.6은 현재 얼리 액세스로 사용할 수 있으며, 다음과 같은 주요 기능을 제공합니다.

  • 생성형 AI 확산(diffusion)과 트랜스포머(transformer) 모델을 위한 성능 최적화
  • 다양한 GPU 아키텍처(NVIDIA Ampere 아키텍처 이상)에서 빌드, 실행할 수 있는 하드웨어 호환성
  • 다른 TensorRT 버전(TensorRT 8.6 이상)에서 빌드, 실행할 수 있는 버전 호환성
  • 빌드 시간과 추론 성능 간 절충을 위한 최적화 수준

주요 고객 및 파트너 사례

다음과 같은 신규 고객과 파트너가 AI 추론을 위해 NVIDIA Triton과 TensorRT를 사용하고 있습니다.

오라클 AI(Oracle AI)는 NVIDIA Triton을 사용하여 OCI 비전(OCI Vision)에서 딥 러닝 기반 이미지 분석 워크로드를 제공합니다. 비전 서비스는 제조 결함 검사에서 온라인 이미지의 항목 태깅에 이르기까지 다양한 사용 사례에서 사용됩니다. 오라클은 NVIDIA Triton으로 50% 낮은 지연 시간과 2배 높은 처리량을 달성했습니다.

우버(Uber)는 NVIDIA Triton을 활용하여 회사의 글로벌 딥 러닝 기반 ETA(예상도착시간) 모델인 DeepETA에 초당 수십만 건의 예측을 제공합니다.

온라인 경험 플랫폼인 로블록스(Roblox)는 NVIDIA Triton을 통해 여러 프레임워크에서 모든 AI 모델을 실행하여 게임 추천, 아바타 구축, 콘텐츠 조정, 마켓플레이스 광고, 사기 탐지와 같은 사용 사례를 구현합니다. NVIDIA Triton은 데이터 사이언티스트와 ML 엔지니어가 프레임워크(텐서플로우(TensorFlow), 파이토치(PyTorch), ONNX 또는 로우 파이썬 코드)를 자유롭게 선택할 수 있도록 합니다.

도큐사인(DocuSign)은 NVIDIA Triton을 사용하여 계약 조건에 대한 AI 기반 검토, 이해를 위해 NLP와 컴퓨터 비전 모델을 실행합니다. 이를 통해 이전 CPU 기반 솔루션에 비해 10배의 속도 향상을 달성했습니다.

디스크립트(Descript)는 TensorRT를 사용하여 모델을 최적화하여 AI 추론을 가속화합니다. 이를 통해 사용자는 비디오 배경을 교체하고 음성을 향상시켜 스튜디오 없이도 스튜디오 품질의 콘텐츠를 제작할 수 있습니다.

전문 GPU 클라우드 제공업체인 코어위브(CoreWeave)는 NVIDIA Triton을 사용하여 짧은 지연 시간과 높은 처리량으로 LLM을 제공합니다.

NVIDIA 추론 소프트웨어는 클라우드, 데이터센터, 네트워크 엣지, 임베디드 디바이스에서 차세대 AI 제품과 서비스를 지원하는 데 필수적인 성능, 효율성, 응답성을 제공합니다. 지금 바로 NVIDIA Triton과 TensorRT를 시작하세요.

Discuss (0)

Tags

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다