NVIDIA TAO 툴킷은 초보자부터 전문 데이터 사이언티스트까지 모든 기술 수준에 적합한 비전 AI 모델 개발을 가속화할 수 있는 로우코드 AI 프레임워크를 제공합니다. 개발자는 TAO 툴킷을 통해 전이 학습의 성능과 효율성을 활용하여 적응 및 최적화를 통해 기록적인 시간 내에 최첨단 정확도와 프로덕션급 처리량을 달성할 수 있습니다.
NVIDIA는 모든 AI 모델 개발을 향상시킬 수 있는 획기적인 기능을 제공하는 TAO 툴킷 5.0을 출시했습니다. 새로운 기능에는 소스 개방형 아키텍처, 트랜스포머 기반 사전 훈련된 모델, AI 지원 데이터 주석, 모든 플랫폼에 모델을 배포할 수 있는 기능이 포함됩니다.
릴리스 주요 기능은 다음과 같습니다:
- 개방형 ONNX 형식으로 모델을 내보내 GPU, CPU, MCU, 뉴럴 가속기 등에 배포할 수 있도록 지원합니다.
- 이미지 손상 및 노이즈에 대한 정확도와 견고성을 향상시키는 고급 비전 트랜스포머(Vision Transformer) 트레이닝.
- 새로운 AI 지원 데이터 주석으로 세분화 마스크의 라벨링 작업을 가속화합니다.
- 광학 문자 감지 및 샴 네트워크 모델과 같은 광학 검사를 위한 새로운 컴퓨터 비전 작업 및 사전 학습된 모델 지원.
- 맞춤형 솔루션, 빠른 개발 및 통합을 위한 오픈 소스 가용성.
시작하기
- TAO 툴킷 시작하기 페이지에서 교육용 동영상과 빠른 시작 가이드를 확인하세요.
- NGC에서 TAO 툴킷과 사전 학습된 모델을 다운로드하세요.
이 게시물은 TAO 툴킷 5.0 릴리스를 반영하는 정확한 정보를 제공하기 위해 원래 버전에서 수정되었습니다.
어디서나 모든 플랫폼에 NVIDIA TAO 모델 배포
NVIDIA TAO 툴킷 5.0은 ONNX에서 모델 내보내기를 지원합니다. 따라서 에지 또는 클라우드의 모든 컴퓨팅 플랫폼(GPU, CPU, MCU, DLA, FPGA)에 NVIDIA TAO Toolkit으로 훈련된 모델을 배포할 수 있습니다. NVIDIA TAO 툴킷은 모델 트레이닝 프로세스를 간소화하고 추론 처리량을 위해 모델을 최적화하여 수 천억 개의 디바이스에서 AI를 지원합니다.
머신 러닝 모델 및 알고리즘을 구축, 개선 및 배포하기 위한 플랫폼인 엣지 임펄스는 TAO 툴킷을 엣지 AI 플랫폼에 통합했습니다. 이번 통합을 통해 엣지 임펄스는 현재 제품을 보완하는 고급 비전 AI 기능과 모델을 제공할 수 있게 되었습니다. 개발자는 이 플랫폼을 사용하여 모든 엣지 디바이스용 TAO로 프로덕션 AI를 구축할 수 있습니다. 엣지 임펄스의 블로그 게시물에서 통합에 대해 자세히 알아보세요.
임베디드 마이크로컨트롤러 분야의 글로벌 리더인 STMicroelectronics는 STM32Cube AI 개발자 워크플로에 NVIDIA TAO 툴킷을 통합했습니다. 이를 통해 수백만 명의 ST마이크로일렉트로닉스 개발자들이 최신 AI 기능을 사용할 수 있게 되었습니다. 이 툴킷은 STM32Cube를 기반으로 하는 광범위한 IoT 및 엣지 사용 사례에 정교한 AI를 통합할 수 있는 기능을 처음으로 제공합니다.
이제 NVIDIA TAO 툴킷을 사용하면 초보 AI 개발자도 마이크로컨트롤러의 컴퓨팅 및 메모리 예산 내에서 STM32 MCU에서 실행되도록 AI 모델을 최적화하고 정량화할 수 있습니다. 또한 개발자는 자체 모델을 가져와 TAO 툴킷을 사용하여 미세 조정할 수도 있습니다. 이 작업에 대한 자세한 내용은 다음 데모에서 확인할 수 있습니다. 이 프로젝트에 대한 자세한 내용은 STMicroelectronics GitHub 페이지에서 확인할 수 있습니다.
TAO 툴킷 모델은 모든 플랫폼에서 실행할 수 있지만, 이 모델은 추론을 위해 TensorRT를 사용하는 NVIDIA GPU에서 가장 높은 처리량을 달성합니다. CPU에서 이 모델은 추론에 ONNX-RT를 사용합니다. 이러한 수치를 복제하는 스크립트와 레시피는 소프트웨어가 출시되면 제공될 예정입니다.
NVIDIA Jetson Orin Nano 8 GB | NVIDIA Jetson AGX Orin 64 GB | T4 | A2 | A100 | L4 | H100 | |
PeopleNet | 112 | 679 | 429 | 242 | 3,264 | 797 | 7,062 |
DINO – FAN-S | 3.1 | 11.2 | 20.4 | 11.7 | 121 | 44 | 213 |
SegFormer – MiT | 1.3 | 4.8 | 9.4 | 5.8 | 62.2 | 17.8 | 108 |
OCRNet | 935 | 3,876 | 3,649 | 2,094 | 28,300 | 8,036 | 55,700 |
EfficientDet | 61 | 227 | 303 | 184 | 1,521 | 522 | 2,428 |
2D Body Pose | 136 | 557 | 593 | 295 | 4,140 | 1,010 | 7,812 |
3D Action Recognition | 52 | 212 | 269 | 148 | 1,658 | 529 | 2,708 |
AI 지원 데이터 주석 및 관리
데이터 주석은 모든 AI 프로젝트에서 여전히 많은 비용과 시간이 소요되는 프로세스입니다. 특히 오브젝트 주변의 픽셀 수준에서 세분화 마스크를 생성해야 하는 세분화와 같은 CV 작업의 경우 더욱 그렇습니다. 일반적으로 세그멘테이션 마스크는 객체 감지나 분류보다 10배 이상 비용이 많이 듭니다.
TAO 툴킷 5.0을 사용하면 새로운 AI 지원 주석 기능으로 세분화 마스크에 더 빠르고 저렴하게 주석을 달 수 있습니다. 이제 약하게 감독되는 세분화 아키텍처인 마스크 자동 라벨러(MAL)를 사용하여 세분화 주석과 객체 감지를 위한 경계 상자 수정 및 강화에 도움을 줄 수 있습니다. 실측 데이터에서 객체 주변의 경계 상자가 느슨하면 최적의 감지 결과가 나오지 않을 수 있습니다. 하지만 AI 지원 어노테이션을 사용하면 객체에 대한 바운딩 박스를 강화하여 보다 정확한 모델을 만들 수 있습니다.
MAL은 박스 주석만을 사용하여 인스턴스 세분화를 위한 트랜스포머 기반의 마스크 자동 라벨링 프레임워크입니다. MAL은 박스 크롭 이미지를 입력으로 받아 조건부로 마스크 의사 라벨을 생성합니다. 입력 및 출력 라벨 모두에 COCO 주석 형식을 사용합니다.
MAL은 마스크 품질에 대한 자동 라벨링과 사람의 주석 사이의 격차를 크게 줄여줍니다. MAL로 생성된 마스크를 사용해 훈련된 인스턴스 세분화 모델은 완전 감독 모델의 성능과 거의 일치할 수 있으며, 완전 감독 모델의 최대 97.4%의 성능을 유지합니다.
MAL 네트워크를 학습할 때 작업 네트워크와 교사 네트워크(동일한 트랜스포머 구조를 공유)가 함께 작동하여 클래스에 구애받지 않는 자가 학습을 달성합니다. 이를 통해 조건부 랜덤 필드(CRF) 손실과 다중 인스턴스 학습(MIL) 손실로 예측 마스크를 개선할 수 있습니다.
TAO 툴킷은 자동 라벨링 파이프라인과 데이터 증강 파이프라인 모두에서 MAL을 사용합니다. 특히 사용자는 공간적으로 증강된 이미지에 의사 마스크를 생성하고(예를 들어, 전단 또는 회전), 생성된 마스크를 사용하여 해당 경계 상자를 세분화 및 강화할 수 있습니다.
최첨단 비전 트랜스포머
트랜스포머는 자연어 처리의 표준 아키텍처로 자리 잡았습니다. 또한 다양한 비전 AI 작업에서도 인기를 얻고 있습니다. 일반적으로 트랜스포머 기반 모델은 견고성, 일반화 가능성, 대규모 입력의 병렬 처리를 수행할 수 있는 능력으로 인해 기존 CNN 기반 모델보다 성능이 뛰어납니다. 이 모든 것이 학습 효율성을 높이고 이미지 손상 및 노이즈에 대한 견고성을 높이며 보이지 않는 물체에 대해 더 잘 일반화합니다.
TAO 툴킷 5.0은 아래에 자세히 설명된 것처럼 자주 사용되는 CV 작업을 위한 몇 가지 최첨단(SOTA) 비전 트랜스포머를 갖추고 있습니다.
완전 인식(Fully Attentional) 네트워크
FAN(Fully Attentional Network)은 다양한 손상에 대한 견고성에서 SOTA를 달성하는 NVIDIA Research의 트랜스포머 기반 백본 제품군입니다. 이 백본 제품군은 새로운 도메인에 쉽게 일반화할 수 있으며 노이즈, 블러 등에 대해 더욱 강력합니다.
FAN 블록의 핵심 설계는 강력한 표현 학습으로 이어지는 주의 채널 처리 모듈입니다. FAN은 이미지 분류 작업뿐만 아니라 객체 감지 및 분할과 같은 다운스트림 작업에도 사용할 수 있습니다.
FAN 제품군은 표 2에 표시된 것처럼 4개의 백본을 지원합니다.
Model | # of parameters/FLOPs | Accuracy |
FAN-Tiny | 7 M/3.5 G | 71.7 |
FAN-Small | 26 M/6.7 | 77.5 |
FAN-Base | 50 M/11.3 G | 79.1 |
FAN-Large | 77 M/16.9 G | 81.0 |
글로벌 컨텍스트 비전 트랜스포머
GC-ViT(글로벌 컨텍스트 비전 트랜스포머)는 매우 높은 정확도와 컴퓨팅 효율성을 달성하는 NVIDIA Research의 새로운 아키텍처입니다. GC-ViT는 비전 트랜스포머의 유도 바이어스 부족 문제를 해결합니다. 로컬 자체 인식(self-attention) 기능을 사용하여 더 적은 수의 매개 변수로 ImageNet에서 더 나은 결과를 얻을 수 있습니다.
로컬 자체 인식과 글로벌 컨텍스트 자체 인식이 결합되어 장거리 및 단거리 공간 상호 작용을 모두 효과적이고 효율적으로 모델링할 수 있습니다. 그림 6은 GC-ViT 모델 아키텍처를 보여줍니다. 자세한 내용은 글로벌 컨텍스트 비전 트랜스포머를 참조하세요.
표 3에서 볼 수 있듯이 GC-ViT 제품군에는 GC-ViT-xxTiny(컴퓨팅 효율적)부터 GC-ViT-Large(매우 정확한)에 이르는 6개의 백본이 포함되어 있습니다. GC-ViT-Large 모델은 이미지 분류 작업을 위해 ImageNet-1K 데이터 세트에서 85.6의 최고 정확도를 달성할 수 있습니다. 이 아키텍처는 물체 감지, 시맨틱 및 인스턴스 세분화와 같은 다른 CV 작업의 백본으로도 사용할 수 있습니다.
Model | # of parameters/FLOPs | Accuracy |
GC-ViT-xxTiny | 12 M/2.1 G | 79.6 |
GC-ViT-xTiny | 20 M/2.6 G | 81.9 |
GC-ViT-Tiny | 28 M/4.7 G | 83.2 |
GC-ViT-Small | 51 M/8.5 G | 83.9 |
GC-ViT-Base | 90 M/14.8 G | 84.4 |
GC-ViT-Large | 201 M/32.6 G | 85.6 |
DINO
DINO(향상된 노이즈 제거 앵커가 있는 검출 트랜스포머)는 최신 세대의 검출 트랜스포머(DETR)입니다. 이전 모델보다 더 빠른 훈련 수렴 시간을 달성합니다. 디포머블-DETR(D-DETR)은 수렴하는 데 최소 50개의 에포크가 필요한 반면, DINO는 COCO 데이터 세트에서 12개의 에포크에 수렴할 수 있습니다. 또한 D-DETR과 비교했을 때 더 높은 정확도를 달성합니다.
DINO는 훈련 중 노이즈 제거를 사용하여 더 빠른 수렴을 달성하며, 이는 제안 생성 단계에서 양방향 매칭 프로세스에 도움이 됩니다. DETR과 유사한 모델의 훈련 수렴은 이분합 매칭의 불안정성으로 인해 느립니다. 이분할 매칭은 수작업과 연산량이 많은 NMS 작업의 필요성을 제거했습니다. 그러나 이분법 매칭 과정에서 잘못된 기준값이 예측과 일치하기 때문에 훨씬 더 많은 훈련이 필요한 경우가 많았습니다.
이러한 문제를 해결하기 위해 DINO는 ‘물체 없음’ 시나리오를 처리하기 위해 노이즈가 있는 포지티브 지상 실측 상자와 네거티브 지상 실측 상자를 도입했습니다. 그 결과, DINO의 훈련은 매우 빠르게 수렴합니다. 자세한 내용은 엔드투엔드 객체 감지를 위한 향상된 노이즈 제거 앵커 박스가 포함된 DINO: DETR을 참조하세요.
TAO 툴킷의 DINO는 유연성이 뛰어나며 ResNets와 같은 기존 CNN의 다양한 백본과 FAN 및 GC-ViT와 같은 트랜스포머 기반 백본과 결합할 수 있습니다. 표 4는 널리 사용되는 YOLOv7을 사용한 다양한 버전의 DINO에서 COCO 데이터 세트의 정확도를 보여줍니다. 자세한 내용은 YOLOv7: 훈련 가능한 백오브프리비, 실시간 물체 감지기의 새로운 지평을 열다를 참조하세요.
모델 | Backbone | AP | AP50 | AP75 | APS | APM | APL | Param |
YOLOv7 | N/A | 51.2 | 69.7 | 55.5 | 35.2 | 56.0 | 66.7 | 36.9M |
DINO | ResNet50 | 48.8 | 66.9 | 53.4 | 31.8 | 51.8 | 63.4 | 46.7M |
FAN-Small | 53.1 | 71.6 | 57.8 | 35.2 | 56.4 | 68.9 | 48.3M | |
GCViT-Tiny | 50.7 | 68.9 | 55.3 | 33.2 | 54.1 | 65.8 | 46.9M |
Table 4. DINO and D-DETR accuracy on the COCO dataset
SegFormer
SegFormer는 경량 트랜스포머 기반의 시맨틱 세그먼테이션입니다. 디코더는 경량 MLP 레이어로 만들어집니다. 이는 위치 인코딩(주로 트랜스포머에서 사용)을 사용하지 않으므로 다양한 해상도에서 추론이 효율적으로 이루어집니다.
SegFormer MLP 디코더에 FAN 백본을 추가하면 매우 강력하고 효율적인 시맨틱 세그먼테이션 모델이 만들어집니다. FAN 기반 하이브리드 + 세그포머는 시맨틱 세분화 부문에서 Robust Vision Challenge 2022에서 우승한 아키텍처입니다.
모델 | 데이터세트 | 평균 IOU(%) | 유지율(견고성)(%) |
PSPNet | Cityscapes Validation | 78.8 | 43.8 |
SegFormer – FAN-S-Hybrid | Cityscapes validation | 81.5 | 81.5 |
다음 동영상에서 SegFormer가 자율주행 차량 개발 가속화를 위해 높은 효율성을 유지하면서 강력한 시맨틱 세그먼테이션을 생성하는 방법을 확인해 보세요.
물체 감지 및 세분화를 넘어선 CV 작업
NVIDIA TAO 툴킷은 기존의 물체 감지 및 세분화를 넘어 광범위한 CV 작업을 가속화합니다. TAO 툴킷 5.0의 새로운 문자 감지 및 인식 모델을 통해 개발자는 이미지와 문서에서 텍스트를 추출할 수 있습니다. 이를 통해 문서 변환을 자동화하고 보험 및 금융과 같은 산업에서 사용 사례를 가속화할 수 있습니다.
이미지에서 이상 징후를 감지하는 것은 분류 대상의 종류가 매우 다양하여 모든 변형을 학습하는 것이 불가능할 때 유용합니다. 예를 들어 산업 검사에서 결함은 어떤 형태로든 나타날 수 있습니다. 단순 분류기를 사용하면 훈련 데이터에서 이전에 발견되지 않은 결함이 있을 경우 놓치는 결함이 많을 수 있습니다.
이러한 사용 사례의 경우, 테스트 객체를 황금 기준과 직접 비교하면 정확도가 향상됩니다. TAO 툴킷 5.0은 모델이 테스트 대상 물체와 황금 기준 사이의 차이를 계산하여 물체에 결함이 있는지 분류하는 샴 신경망을 특징으로 합니다.
하이퍼파라미터 최적화를 위해 자동화된 머신러닝(AutoML)을 사용하여 학습 자동화
자동화된 머신 러닝(autoML)은 주어진 데이터 세트에서 원하는 KPI에 가장 적합한 모델과 하이퍼파라미터를 찾는 수동 작업을 자동화합니다. 알고리즘적으로 최적의 모델을 도출하고 AI 모델 생성 및 최적화의 복잡성을 상당 부분 추상화할 수 있습니다.
TAO 툴킷의 AutoML은 모델의 하이퍼파라미터를 자동으로 최적화하도록 완벽하게 구성할 수 있습니다. AI 전문가와 비전문가 모두를 지원합니다. 비전문가를 위해 안내가 포함된 Jupyter 노트북은 정확한 AI 모델을 간단하고 효율적으로 생성할 수 있는 방법을 제공합니다.
전문가를 위해 TAO 툴킷은 튜닝할 하이퍼파라미터와 스윕(sweeps)에 사용할 알고리즘을 완벽하게 제어할 수 있는 기능을 제공합니다. TAO 툴킷은 현재 두 가지 최적화 알고리즘을 지원합니다: Bayesian 및 Hyperband 최적화. 이러한 알고리즘은 다양한 하이퍼파라미터를 스윕하여 주어진 데이터 세트에 가장 적합한 조합을 찾을 수 있습니다.
AutoML은 DINO, D-DETR, 세그포머 등 여러 가지 새로운 비전 트랜스포머를 포함하여 광범위한 CV 작업에 지원됩니다. 표 6은 지원되는 네트워크의 전체 목록을 보여줍니다(굵은 글씨는 TAO 툴킷 5.0에 새로 추가된 항목).
Image classification | Object detection | Segmentation | Other |
FAN | DINO | SegFormer | LPRNet |
GC-ViT | D-DETR | UNET | |
ResNet | YoloV3/V4/V4-Tiny | MaskRCNN | |
EfficientNet | EfficientDet | ||
DarkNet | RetinaNet | ||
MobileNet | FasterRCNN | ||
DetectNet_v2 | |||
SSD/DSSD |
워크플로우 통합을 위한 REST API
TAO 툴킷은 모듈식이며 클라우드 네이티브이므로 컨테이너로 사용할 수 있으며 Kubernetes를 사용하여 배포 및 관리할 수 있습니다. TAO Toolkit은 모든 퍼블릭 또는 프라이빗 클라우드, DGX 또는 워크스테이션에 자체 관리형 서비스로 배포할 수 있습니다. TAO Toolkit은 잘 정의된 REST API를 제공하므로 개발 워크플로우에 쉽게 통합할 수 있습니다. 개발자는 모든 훈련 및 최적화 작업을 위해 API 엔드포인트를 호출할 수 있습니다. 이러한 API 엔드포인트는 모든 애플리케이션 또는 사용자 인터페이스에서 호출할 수 있으며, 이를 통해 원격으로 트레이닝 작업을 트리거할 수 있습니다.
추론 최적화 개선
제품화를 간소화하고 추론 처리량을 늘리기 위해 TAO 툴킷은 몇 가지 턴키 성능 최적화 기술을 제공합니다. 여기에는 모델 가지치기, 저정밀 정량화, TensorRT 최적화가 포함되며, 이를 결합하여 공개 모델 동물원의 동급 모델에 비해 4배에서 8배의 성능 향상을 제공할 수 있습니다.
개방적이고 유연하며 더 나은 지원
AI 모델은 복잡한 알고리즘을 기반으로 결과를 예측합니다. 따라서 시스템이 어떤 과정을 거쳐 결정에 도달했는지 이해하기 어렵고 오류를 디버깅, 진단 및 수정하기가 어려울 수 있습니다. 설명 가능한 AI(XAI)는 AI 모델이 어떻게 의사 결정에 도달하는지에 대한 인사이트를 제공함으로써 이러한 문제를 해결하는 것을 목표로 합니다. 이를 통해 사람이 AI 결과의 추론을 이해하고 오류를 더 쉽게 진단하고 수정할 수 있습니다. 이러한 투명성은 AI 시스템에 대한 신뢰를 구축하는 데 도움이 될 수 있습니다.
투명성과 설명 가능성을 높이기 위해 TAO 툴킷은 이제 소스 오픈으로 제공될 예정입니다. 개발자는 내부 레이어에서 피처 맵을 볼 수 있을 뿐만 아니라 활성화 히트 맵을 플로팅하여 AI 예측의 추론을 더 잘 이해할 수 있습니다. 또한 소스 코드에 액세스하면 개발자는 맞춤형 AI를 유연하게 만들고, 디버그 기능을 개선하고, 모델에 대한 신뢰도를 높일 수 있습니다.
NVIDIA TAO 툴킷은 엔터프라이즈용이며 NVIDIA AI 엔터프라이즈(NVAIE)를 통해 사용할 수 있습니다. NVAIE는 기업에게 비즈니스 크리티컬 지원, NVIDIA AI 전문가에 대한 액세스 및 우선 보안 수정을 제공합니다. NVAIE에 가입하여 AI 전문가의 지원을 받으세요.
클라우드 서비스와의 통합
NVIDIA TAO 툴킷 5.0은 Google Vertex AI, AzureML, Azure Kubernetes 서비스, Google GKE, Amazon EKS 등 이미 사용하고 있는 다양한 AI 서비스에 통합되어 있습니다.
요약
TAO 툴킷은 모든 개발자, 모든 서비스, 모든 디바이스에서 코딩 없이도 맞춤형 모델을 쉽게 전이 학습하고, 정량화 및 가지치기를 수행하고, 복잡한 학습 워크플로우를 관리하고, AI 지원 주석을 수행할 수 있는 플랫폼을 제공합니다.
관련 리소스
GTC 세션: 손쉬운 비전 AI 모델 개발 및 최적화를 위해 NetsPresso에서 TAO 툴킷 API 실행하기
GTC 세션: TAO를 사용하여 간단하게 만든 AI 모델
SDK: TAO 툴킷
웨비나: TAO 툴킷이 오늘날 AI 개발 노력의 일부가 되어야 하는 5가지 이유
웨비나: NVIDIA TAO 4.0에서 AutoML을 사용하여 AI 모델 생성 가속화하기
웨비나: 비전 트랜스포머, NVIDIA TAO 및 최신 NVIDIA GPU의 강력한 성능 활용하기