Simulation / Modeling / Design

카메라 기반 AV 인식을 위한 합성 데이터로 원거리 피사체에 초점 맞추기

Reading Time: 4 minutes

고속도로에서 자율주행 시스템이 안전하게 주행하기 위해서는 100m 이상 떨어진 차량과 같은 원거리 물체를 감지하는 것이 필수적입니다.

이러한 고속 환경에서는 매 순간이 중요합니다. 따라서 시속 70마일로 주행하는 동안 자율주행차(AV)의 인식 범위를 100m에서 200m로 늘릴 수 있다면 차량이 반응할 수 있는 시간이 훨씬 더 늘어납니다.

그러나 이 범위를 확장하는 것은 일반적으로 양산형 승용차에 배포되는 카메라 기반 인식 시스템의 경우 특히 어려운 과제입니다. 원거리 물체 감지를 위한 카메라 인식 시스템을 훈련하려면 3D 바운딩 박스 및 거리와 같은 지상 실측(GT) 레이블뿐만 아니라 대량의 카메라 데이터를 수집해야 합니다.

A rendering of an ego vehicle with cameras, with the vehicle 200 m outside the cone of perception and without a ground truth bounding box.
그림 1. 자율주행 차량이 다른 물체에서 멀어질수록 카메라 기반의 정확한 인식과 실측 데이터 라벨링 수행이 더욱 어려워집니다. (그림에서 자동차는 확대되지 않은 상태입니다.)

이 GT 데이터를 추출하는 것은 200m를 초과하는 물체의 경우 더 어려워집니다. 물체가 멀어질수록 이미지의 폭이 작아져 결국에는 몇 픽셀에 불과해집니다. 일반적으로 라이다와 같은 센서는 집계 및 자동 라벨링 기술과 함께 3D 및 거리 정보를 추출하는 데 사용되지만, 이 데이터는 라이다의 작동 범위를 벗어나면 희박해지고 노이즈가 심해집니다.

Camera frame showing a highway scene, with an insert showing long-distance vehicles at lower resolution.
그림 2. 고속도로 장면에서 30도 화각의 망원 렌즈를 사용한 카메라 데이터 예시. 삽입물은 원거리 차량이 몇 개의 픽셀로만 표현되는 것을 보여줍니다.

NVIDIA DRIVE AV 팀은 개발 과정에서 이 문제를 정확히 해결해야 했습니다. 이를 위해 NVIDIA 팀은 NVIDIA Omniverse Replicator의 기능을 활용하여 NVIDIA DRIVE Sim에서 원거리 오브젝트에 대한 합성 GT 데이터를 생성했습니다.

NVIDIA DRIVE Sim은 Omniverse를 기반으로 구축된 AV 시뮬레이터로, 고충실도 센서 시뮬레이션을 위해 철저한 검증을 거친 물리 기반 센서 모델을 포함합니다. 자세한 내용은 NVIDIA DRIVE Sim 카메라 모델 검증을 참조하십시오.

NVIDIA DRIVE Sim은 모든 카메라 해상도에서 Ego 차량에서 400m 또는 500m 떨어진 곳에 위치한 물체를 포함하여 시뮬레이션된 장면의 모든 물체의 위치를 픽셀 수준의 정확도로 쿼리할 수 있습니다.

차량 위치 정보를 물리 기반 합성 카메라 데이터와 결합하면 인식에 필요한 3D 및 거리 GT 레이블을 생성할 수 있습니다.

이 합성 GT 데이터를 기존 실제 데이터 세트에 추가하여 장거리에서 차량을 감지하도록 네트워크를 훈련하고 190m에서 200m의 차량에 대해 33%의 F1 점수 향상을 달성할 수 있었습니다.

원거리 물체를 위한 합성 GT 데이터 생성

정확한 레이블이 지정된 원거리 데이터의 부족을 해결하기 위해, 우리는 원거리에 있는 물체의 약 100K 이미지로 구성된 합성 데이터 세트를 생성하여 기존의 실제 데이터 세트를 보강하는 것을 목표로 했습니다. 그림 3은 3D 환경 선택부터 딥 뉴럴 네트워크(DNN) 성능 평가에 이르기까지 Omniverse Replicator를 사용하여 NVIDIA DRIVE Sim에서 이러한 데이터 세트를 생성하는 과정을 보여줍니다.

Flow chart showing the steps to generate synthetic data on NVIDIA DRIVE Sim. The steps include choosing 3D environments, configuring the ego vehicle with sensors, defining scenarios and randomization, specifying a ground truth format, and finally, generating synthetic data for training, and evaluating deep neural network (DNN) performance.
그림 3. NVIDIA DRIVE Sim을 사용하면 합성 데이터로 지속적으로 반복하여 심층 신경망(DNN) 정확도를 향상시킬 수 있습니다.

고속도로 사용 사례를 다루는 3D 환경을 선택한 후 필수 카메라 센서가 장착된 에고 차량을 구성했습니다.

NVIDIA DRIVE Sim은 Omniverse Replicator 프레임워크에 구축된 도메인 무작위화 API를 활용하여 3D 에셋의 모양, 배치, 동작을 프로그래밍 방식으로 변경했습니다. ASAM OpenDRIVE 맵 API를 사용하여 차량과 장애물을 100m에서 350m, 그 이상의 원거리 거리에 컨텍스트 인식 방식으로 배치했습니다.

비디오 1. Omniverse Replicator를 활용하여 NVIDIA DRIVE Sim에서 생성된 합성 GT 데이터를 사용하여 원거리 물체를 인식하도록 네트워크를 훈련할 수 있습니다.

NVIDIA DRIVE Sim 액션 시스템을 사용하면 차선 변경이나 근접 끼어들기와 같이 오클루전이 발생하는 다양한 까다로운 경우를 시뮬레이션할 수 있습니다. 이를 통해 현실 세계에서 발생하기 어려운 시나리오에 중요한 데이터를 제공합니다.

데이터 생성 전 마지막 단계에서는 3D 바운딩 박스, 속도, 시맨틱 레이블, 오브젝트 ID 등 필요한 레이블을 생성하기 위해 Omniverse Replicator의 GT 라이터를 활용했습니다.

합성 카메라 데이터로 카메라 인식 성능 향상

이 사용 사례에서 실제 훈련 데이터 세트는 200m에 가까운 고속도로 시나리오에서 차량에 대한 GT 레이블이 포함된 100만 개 이상의 이미지로 구성됩니다. 그림 4의 왼쪽에 표시된 것처럼 실제 이미지의 차량 분포는 데이터 수집 차량에서 100m 미만에서 정점을 이룹니다. 더 먼 거리에 있는 물체의 경우 GT 레이블이 드물고 인식을 향상시키기에 충분하지 않습니다.

Side-by-side heat maps showing the distribution of object distance for real world data on the left and synthetic data on the right. The left map shows a greater concentration of vehicles within 100 m in the real dataset, while the right map shows a distribution skewed toward 150 m and beyond, generated from simulation.
그림 4. Ego 차량에 대한 차량 거리의 주파수 분포 비교(실제 데이터 세트와 NVIDIA DRIVE Sim에서 생성된 합성 데이터 간). 에고 차량의 앞면은 0도, 뒷면은 180도입니다. 각도는 방위각 값입니다.

이 경우, 최대 350m까지 배치된 장거리 차량 분포에 초점을 맞춘 자동차 및 GT 레이블 인스턴스 371개가 포함된 ~92K 합성 이미지를 생성했습니다. 합성 데이터 세트의 자동차 분포는 150m 이상의 원거리로 더 많이 치우쳐 있습니다. 이 실제 데이터 세트에 약 92K의 합성 이미지를 추가하여 필요한 레이블이 지정된 원거리 객체를 훈련 분포에 도입했습니다.

결합된 데이터 세트에서 인식 알고리즘을 훈련한 후, 최대 200m의 자동차 분포가 있는 실제 데이터 세트에 대해 네트워크를 테스트했습니다. 거리별 인식 성능 개선에 대한 KPI는 190m에서 200m 사이의 자동차에 대해 데이터 세트에서 모델의 정확도를 측정하는 F1 점수가 최대 33% 개선된 것으로 나타났습니다.

Line graph showing percentage of improvement in detection as range increases, based on number of simulated images used to train. The addition of simulated images resulted in an improved F1 score of 33% for cars located between 190 m to 200 m.
그림 5. 장애물 감지 DNN의 성능 개선(F1 점수), NVIDIA DRIVE Sim의 시뮬레이션 이미지가 있을 때와 없을 때 DNN을 학습시켰을 때 비교

요약

합성 데이터는 AV 개발의 주요 패러다임 전환을 주도하고 있으며, 이전에는 불가능했던 새로운 사용 사례를 열어줍니다. NVIDIA DRIVE Sim 및 NVIDIA Omniverse Replicator를 사용하면 새로운 센서를 프로토타이핑하고, 새로운 실측 데이터 유형 및 AV 인식 알고리즘을 평가하고, 희귀한 이상 이벤트를 시뮬레이션할 수 있으며, 이 모든 작업을 현실 세계에서 소요되는 시간 및 비용의 일부만으로 가상 테스트 환경에서 수행할 수 있습니다.

합성 데이터 세트가 제공하는 다양한 가능성은 AV 인식을 위해 계속 진화하고 있습니다. 워크플로우가 실제로 작동하는 모습을 확인하고 자세한 내용을 알아보려면 NVIDIA GTC DRIVE 개발자 데이 세션인 NVIDIA DRIVE Replicator로 합성 데이터를 생성하는 방법을 시청하세요.

Discuss (0)

Tags