DLA로 NVIDIA Jetson Orin에서 딥 러닝 성능 극대화하기

Reading Time: 5 minutes

NVIDIA Jetson Orin은 동급 최고의 임베디드 AI 플랫폼입니다. Jetson Orin SoC 모듈의 핵심에는 NVIDIA Ampere 아키텍처 GPU가 탑재되어 있지만, SoC에는 훨씬 더 많은 컴퓨팅이 있습니다:

딥 러닝 워크로드를 위한 딥 러닝 가속기(DLA)의 전용 딥 러닝 추론 엔진
이미지 처리 및 컴퓨터 비전 알고리즘을 위한 프로그래머블 비전 가속기(PVA) 엔진
다중 표준 비디오 인코더(NVENC) 및 다중 표준 비디오 디코더(NVDEC)

NVIDIA Orin SoC는 275개의 최고 AI TOP을 보유한 강력한 성능으로 최고의 임베디드 및 오토모티브 AI 플랫폼입니다. 이러한 AI TOP의 거의 40%가 NVIDIA Orin의 두 DLA에서 나온다는 사실을 알고 계셨나요? NVIDIA Ampere GPU가 동급 최고의 처리량을 제공하는 반면, 2세대 DLA는 동급 최고의 전력 효율성을 제공합니다. 최근 몇 년 동안 AI 애플리케이션이 빠르게 성장함에 따라 보다 효율적인 컴퓨팅에 대한 수요도 증가하고 있습니다. 특히 전력 효율성이 항상 핵심 KPI인 임베디드 쪽에서 더욱 두드러집니다.

이것이 바로 DLA가 필요한 이유입니다. DLA는 딥 러닝 추론을 위해 특별히 설계되었으며 컨볼루션과 같은 컴퓨팅 집약적인 딥 러닝 작업을 CPU보다 훨씬 더 효율적으로 수행할 수 있습니다.

Jetson AGX Orin 또는 NVIDIA DRIVE Orin과 같이 SoC에 통합된 경우 GPU와 DLA의 조합은 임베디드 AI 애플리케이션을 위한 완벽한 솔루션을 제공합니다. 이 게시물에서는 딥 러닝 가속기에 대해 설명합니다. 또한 자동차 및 로봇 공학 분야의 몇 가지 사례 연구를 통해 AI 개발자가 DLA를 통해 애플리케이션에 더 많은 기능과 성능을 추가할 수 있는 방법을 설명합니다. 마지막으로, 비전 AI 개발자가 최적의 성능을 위해 딥스트림 SDK를 사용하여 DLA 및 전체 Jetson SoC를 사용하는 애플리케이션 파이프라인을 구축하는 방법을 살펴봅니다.

먼저 DLA가 중요한 영향을 미치는 몇 가지 핵심 성과 지표를 살펴보겠습니다.

핵심 성과 지표

애플리케이션을 설계할 때 충족해야 할 몇 가지 핵심 성과 지표 또는 KPI가 있습니다. 예를 들어 최대 성능과 전력 효율성 간의 설계 트레이드오프인 경우가 많으며, 이를 위해서는 개발 팀이 SoC의 다양한 IP를 사용할 수 있도록 애플리케이션을 신중하게 분석하고 설계해야 합니다.

애플리케이션의 핵심 KPI가 지연 시간인 경우 특정 지연 시간 예산 내에서 애플리케이션 내의 작업을 파이프라인화해야 합니다. GPU에서 실행되는 컴퓨팅 집약적인 작업과 병렬로 실행되는 작업의 추가 가속기로 DLA를 사용할 수 있습니다. DLA 피크 성능은 전원 모드에 따라 38%에서 74%까지 NVIDIA Orin 총 딥 러닝(DL) 성능에 기여합니다.

	파워 모드: MAXN	파워 모드: 50W	파워 모드: 30W	파워 모드: 15W
GPU 희소 INT8 최고 DL 성능	171 TOPs	109 TOPs	41 TOPs	14 TOPs
2x DLA 희소 INT8 최고 성능	105 TOPs	92 TOPs	90 TOPs	40 TOPs
총 NVIDIA Orin 최고 INT8 DL 성능	275 TOPs	200 TOPs	131 TOPs	54 TOPs
백분율: 전체 NVIDIA Orin 피크 DL INT8 성능 중 DLA 피크 INT8 성능 비율	38%	46%	69%	74%

표 1. DLA 처리량

Jetson AGX Orin 64GB의 30W 및 50W 전력 모드의 DLA TOP은 오토모티브용 NVIDIA DRIVE Orin 플랫폼의 최대 클럭과 비슷합니다.

전력이 주요 KPI 중 하나라면 전력 효율성을 활용하기 위해 DLA를 고려해야 합니다. 와트당 DLA 성능은 전력 모드 및 워크로드에 따라 GPU에 비해 평균 3~5배 더 높습니다. 다음 차트는 일반적인 사용 사례를 대표하는 세 가지 모델의 와트당 성능을 보여줍니다.

다시 말해, DLA의 전력 효율성이 없다면 주어진 플랫폼 전력 예산에서 NVIDIA Orin에서 최대 275개의 피크 DL TOP을 달성하는 것은 불가능합니다. 더 많은 모델에 대한 자세한 정보 및 측정값은 DLA-SW GitHub 리포지토리를 참조하십시오.

다음은 DLA가 제공하는 AI 컴퓨팅을 어떻게 사용했는지에 대한 NVIDIA의 사례 연구입니다: 자동차 및 로보틱스

사례 연구: 자동차

NVIDIA DRIVE AV는 자동차 OEM이 자동차 제품 포트폴리오에 자율 주행 및 매핑 기능을 추가할 수 있는 엔드투엔드 자율 주행 솔루션 스택입니다. 여기에는 인식, 매핑 및 계획 레이어뿐만 아니라 고품질의 실제 주행 데이터로 훈련된 다양한 DNN이 포함됩니다.

NVIDIA DRIVE AV 팀의 엔지니어들은 전체 NVIDIA Orin SoC 플랫폼을 활용하여 인식, 매핑 및 계획 파이프라인을 설계하고 최적화하는 작업을 수행합니다. 자율주행 스택에서 처리해야 할 신경망 및 기타 비 DNN 작업이 많기 때문에, 이들은 DNN 작업을 실행하기 위해 NVIDIA Orin SoC의 전용 추론 엔진인 DLA에 의존합니다. 이는 비 DNN 작업을 처리하기 위해 GPU 컴퓨팅이 예약되어 있기 때문에 매우 중요합니다. DLA 컴퓨팅이 없었다면 팀은 KPI를 달성하지 못했을 것입니다.

자세한 내용은 초기 그리드 융합을 통한 근거리 장애물 인식을 참조하세요.

예를 들어, 인식 파이프라인의 경우 8개의 서로 다른 카메라 센서에서 입력이 들어오고 전체 파이프라인의 지연 시간이 특정 임계값보다 낮아야 합니다. 인식 스택은 DNN을 많이 사용하며 전체 컴퓨팅의 60% 이상을 차지합니다.

이러한 KPI를 충족하기 위해 병렬 파이프라인 작업은 GPU와 DLA에 매핑되며, 전체 파이프라인 지연 시간 목표를 달성하기 위해 거의 모든 DNN은 DLA에서 실행되고 비 DNN 작업은 GPU에서 실행됩니다. 그런 다음 출력은 매핑 및 계획과 같은 다른 파이프라인의 다른 DNN에 의해 순차적으로 또는 병렬로 소비됩니다. 파이프라인을 GPU와 DLA에서 병렬로 실행되는 작업이 있는 거대한 그래프로 볼 수 있습니다. 이 팀은 DLA를 사용하여 지연 시간을 2.5배 단축했습니다.

“전체 SoC, 특히 DLA의 전용 딥 러닝 추론 엔진을 활용함으로써 지연 시간 요구 사항과 KPI 목표를 충족하면서 소프트웨어 스택에 중요한 기능을 추가할 수 있게 되었습니다. 이는 DLA를 통해서만 가능한 일입니다.”라고 NVIDIA의 자율 주행 팀 엔지니어링 매니저인 Abhishek Bajpayee는 말합니다.

사례 연구: 로봇 공학

NVIDIA Isaac은 로봇 개발자가 사용하는 AI 지원 로봇의 개발, 시뮬레이션 및 배포를 위한 강력한 엔드투엔드 플랫폼입니다. 특히 모바일 로봇의 경우 사용 가능한 DL 컴퓨팅, 결정론적 지연 시간 및 배터리 내구성이 중요한 요소입니다. 그렇기 때문에 DL 추론을 DLA에 매핑하는 것이 중요합니다.

NVIDIA Isaac 팀의 엔지니어 팀은 DNN을 사용하여 근접 세분화를 위한 라이브러리를 개발했습니다. 근접 세분화는 장애물이 근접 필드 내에 있는지 여부를 판단하고 내비게이션 중 장애물과의 충돌을 피하는 데 사용할 수 있습니다. 연구팀은 스테레오 카메라에서 이진 깊이 분류를 수행하는 BI3D 네트워크를 DLA에 구현했습니다.

핵심 KPI는 스테레오 카메라 입력에서 실시간 30fps 감지를 보장하는 것입니다. NVIDIA Isaac 팀은 작업을 SoC 전체에 분산하고 DNN에 DLA를 사용하는 동시에 GPU에서 실행되는 것과 하드웨어 및 소프트웨어의 기능 안전성을 다양화합니다. 자세한 내용은 NVIDIA Isaac ROS 근접 세분화를 참조하세요.

“우리는 DNN 추론을 위해 DLA에서 TensorRT를 사용하여 GPU의 하드웨어 다양성을 제공함으로써 내결함성을 개선하는 동시에 다른 작업을 위해 GPU를 오프로드합니다. DLA는 3개의 DNN으로 구성된 Jetson AGX Orin for BI3D에서 최대 46fps를 제공하여 로봇 애플리케이션에 30ms의 낮은 지연 시간을 제공합니다.”라고 NVIDIA의 로봇 플랫폼 소프트웨어 담당 부사장인 Gordon Grigor는 말합니다.

DLA를 위한 NVIDIA DeepStream

DLA를 가장 빠르게 살펴볼 수 있는 방법은 완벽한 스트리밍 분석 툴킷인 NVIDIA DeepStream SDK를 이용하는 것입니다.

비디오 및 센서 데이터를 분석하기 위해 AI 기반 애플리케이션을 구축하는 비전 AI 개발자라면 DeepStream SDK를 통해 최적의 엔드투엔드 파이프라인을 구축할 수 있습니다. 소매 분석, 주차 관리, 물류 관리, 광학 검사, 로봇 공학, 스포츠 분석과 같은 클라우드 또는 엣지 사용 사례의 경우, DeepStream을 사용하면 전체 SoC, 특히 DLA를 적은 노력으로 사용할 수 있습니다.

예를 들어, 다음 표에 강조 표시된 모델 zoo에서 사전 학습된 모델을 사용하여 DLA에서 실행할 수 있습니다. 플래그 설정만큼이나 간단하게 DLA에서 이러한 네트워크를 실행할 수 있습니다. 자세한 내용은 추론에 DLA 사용하기를 참조하세요.

모델 arch	추론 해상도	GPU FPS	DLA1 + DLA2 FPS	*GPU + DLA1 + DLA2 FPS*
PeopleNet-ResNet18	960x544x3	218	128	346
PeopleNet-ResNet34 (v2.3)	960x544x3	169	94	263
PeopleNet-ResNet34 (v2.5 unpruned)	960x544x3	79	46	125
TrafficCamNet	960x544x3	251	174	425
DashCamNet	960x544x3	251	172	423
FaceDetect-IR	384x240x3	1407	974	2381
VehicleMakeNet	224x224x3	2434	1166	3600
VehicleTypeNet	224x224x3	1781	1064	2845
FaceDetect (pruned)	736x416x3	395	268	663
License Plate Detection	640x480x3	784	388	1172

표 2. 모델 zoo 네트워크 샘플 및 DLA에서의 처리량

딥 러닝 액셀러레이터 시작하기

시작할 준비가 되셨나요? 자세한 내용은 다음 리소스를 참조하세요:

Jetson DLA 튜토리얼에서는 DNN을 DLA에 배포하는 데 도움이 되는 기본 DLA 워크플로우를 보여줍니다.
DLA-SW GitHub 리포지토리에는 Jetson Orin DLA에서 DNN 실행을 탐색하는 데 사용할 수 있는 참조 네트워크 모음이 제공됩니다.
샘플 페이지에는 DLA를 사용하여 Jetson SoC를 최대한 활용하는 방법에 대한 기타 예제 및 리소스가 제공됩니다.
DLA 포럼에는 다른 사용자의 아이디어와 피드백을 살펴볼 수 있습니다.