Computer Vision / Video Analytics

합성 데이터로 새로운 시각에서 안정적으로 자율 주행 차량 인식 활용하기

Reading Time: 4 minutes

자율주행 차량(AV)은 소형 승용차부터 다축 세미트럭에 이르기까지 다양한 형태와 크기로 출시됩니다. 그러나 이러한 차량에 배포된 인식 알고리즘은 장애물이나 보행자 회피와 같은 유사한 상황을 처리하도록 학습되어야 합니다.

이러한 알고리즘을 개발하고 검증하는 데 사용되는 데이터 세트는 일반적으로 카메라, 레이더, 라이더, 초음파 센서가 장착된 세단 등 한 가지 유형의 차량에서 수집됩니다.

차량 센서 데이터로 학습된 인식 알고리즘은 유사한 센서 구성에서도 안정적으로 작동할 수 있습니다. 그러나 센서 구성이 다른 차량에 동일한 알고리즘을 배포할 경우 새로운 관점에서 세상을 보게 되므로 인식 성능이 저하될 수 있습니다.

인식 정확도의 손실을 해결하려면 새로운 센서 위치에 대한 심층 신경망(DNN)의 민감도를 측정해야 합니다. 민감도 분석을 사용하면 다양한 관점의 데이터로 인식 알고리즘을 재훈련하여 목표한 방식으로 견고성을 개선할 수 있습니다.

그러나 민감도 분석을 수행하고 인식을 재훈련하려면 다양한 센서 구성에 걸쳐 데이터 세트를 수집하고 주석을 달아야 합니다. 이는 시간과 비용이 많이 드는 프로세스입니다.

이 포스팅에서는 NVIDIA DRIVE Sim의 합성 데이터 세트와 새로운 뷰 합성(NVS)에 대한 최신 엔비디아 연구가 이러한 데이터 격차를 메우고 새로운 센서 구성에 배포할 때 손실된 인식 정확도를 복구하는 데 어떻게 도움이 되는지 보여줍니다.

DNN 감도 측정

다양한 센서 시점에 대한 합성 데이터 세트를 생성하기 전에 첫 번째 단계는 실제 센서 구성과 일치하도록 보정된 시뮬레이션 카메라로 구성된 센서 리그와 함께 NVIDIA DRIVE Sim에서 테스트 차량의 디지털 트윈을 생성하는 것입니다.

합성 데이터는 특정 궤적을 따르는 사전 정의된 시나리오를 통해 에고 차량을 주행하고 시뮬레이션된 카메라 데이터를 저장하여 생성됩니다. 시나리오를 실행할 때마다 다른 차량 유형을 에뮬레이트하기 위해 센서 리그(rig) 높이, 피치, 마운트 위치 등 다양한 측면이 달라집니다.

NVIDIA Omniverse Replicator의 기능을 사용하여 3D 바운딩 박스와 같은 지상 실측(GT) 레이블과 인식 알고리즘을 평가하는 데 필요한 오브젝트 클래스를 생성합니다. 이 전체 워크플로우는 반복 가능하며 잘 정의된 실험을 실행하여 인식 감도를 빠르게 측정할 수 있습니다.

생성된 데이터 세트에 대해 DNN 추론을 실행한 후, 그림 1과 2에 표시된 것처럼 네트워크의 예측을 GT 레이블과 비교하여 다양한 카메라 높이에 대한 각 센서 구성에 대한 네트워크의 정확도를 측정합니다. 각 데이터 세트는 동일한 시나리오이지만 센서의 관점이 다릅니다. 그림 1에서 파란색 상자는 GT 레이블을 나타내고 녹색 상자는 네트워크의 예측을 나타냅니다. 그림 2에서 파란색 상자는 GT 레이블을 나타내고 빨간색 상자는 네트워크의 예측을 나타냅니다.

그림 1. 차량 객체 클래스에 초점을 맞춘 4개의 서로 다른 합성 데이터 세트에서 실행되는 객체 감지 DNN의 예시
그림 2. 보행자 객체 클래스에 초점을 맞춘 4개의 서로 다른 합성 데이터 세트에서 실행되는 객체 감지 DNN의 예시

이러한 인식의 차이를 해결하고 새로운 차량 유형에 배포하려면 원래 데이터와 다른 시점의 타깃 데이터 세트가 필요합니다. 기존 차량 데이터를 기존의 증강 기능과 함께 사용할 수는 있지만, 이러한 접근 방식은 새로운 시점에서 캡처한 데이터 세트에 대한 요구를 완전히 충족시키지 못합니다.

새로운 시각 합성

NVS는 기존 이미지 세트에서 장면의 보이지 않는 새로운 뷰를 생성하는 컴퓨터 비전 방법입니다. 이 기능을 사용하면 차량의 카메라가 원래 캡처하지 않은 다른 시점이나 각도에서 장면의 이미지를 생성할 수 있습니다.

그림 3. 전체 신규 뷰 합성 파이프라인

NVIDIA 연구팀은 최근 동적 주행 데이터를 한 센서 위치에서 다른 카메라 높이, 피치, 각도를 구현하는 새로운 시점으로 변환할 수 있는 NVS 방법을 발표했습니다. 자세한 내용은 조감도 세분화에서 시점의 견고성을 향하여를 참조하세요.

이 접근 방식은 깊이 추정과 3D 메시를 사용하여 정적 씬의 새로운 시점을 합성하는 방법인 월드시트를 기반으로 합니다. 예측된 깊이 값을 기반으로 격자 그리드를 씬에 워핑(warping)하여 3D 씬 메시를 생성합니다. 그런 다음 텍스처 샘플러를 사용하여 원본 이미지의 RGB 픽셀 강도를 3D 메시의 텍스처 맵에 ‘스플랫'(투사)합니다. 이 접근 방식은 라이다 기반 깊이 감독과 오토마스킹을 사용하여 깊이 추정 품질을 개선하고 오클루전을 처리함으로써 이 분야의 이전 작업을 확장합니다.

이제 NVS 모델을 사용하여 다양한 차량 유형에서 수집한 것처럼 데이터를 생성할 수 있으므로 기존 차량 데이터의 차단을 해제하여 향후 모든 AV 개발에 사용할 수 있습니다.

그림 4. 피치, 깊이, 높이가 변경된 뷰포인트를 생성하는 NVS 변환 이미지의 예시

NVS 검증 및 인식 성능 개선

NVS로 생성된 데이터를 훈련 데이터 세트에 통합하기 전에 먼저 실제 세계를 정확하게 표현하고 지각 훈련에 효과적인지 검증해야 합니다.

이를 위해 차량 데이터와 NVS로 변환된 데이터의 조합으로 인식 알고리즘을 훈련하여 NVS 알고리즘을 검증합니다. 여러 센서 관점에서 모델의 성능을 테스트할 실제 데이터가 없는 경우, 앞서 설명한 감도 테스트와 유사하게 DRIVE Sim에서 합성 데이터와 GT 레이블을 생성합니다.

그림 5. 인식 검증을 위해 피치, 깊이, 높이가 다양하게 조정된 DRIVE Sim에서 생성된 카메라 이미지 세트

이러한 합성 데이터 세트에 대해 추론을 실행한 결과 NVS에서 생성된 데이터를 훈련에 사용하면 인식 성능을 향상시킬 수 있음을 알 수 있습니다. 구체적으로

  • NVS로 생성된 데이터 품질은 센서 피치의 변화가 클 때 가장 우수하고 높이의 변화가 클 때 가장 낮았습니다.
  • NVS로 변환된 데이터를 훈련에 사용하면 새로운 센서 구성마다 새로운 데이터를 수집해야만 가능했던 귀중한 인식 성능을 복구할 수 있습니다.

이 접근 방식을 사용하면 데이터를 한 번만 수집한 다음 여러 차량 유형에 맞게 용도를 변경하면 되므로 배포에 드는 비용과 시간을 크게 줄일 수 있는 새로운 접근 방식의 AV 개발이 가능합니다.

결론

다양한 차량 유형에서 안정적으로 작동하는 인식 스택을 개발하는 것은 방대한 데이터 과제입니다. 그러나 새로운 시각 합성을 위한 합성 데이터 생성 및 AI 기술을 사용하면 인식 감도를 체계적으로 측정할 수 있습니다. 이를 통해 기존 데이터 세트의 가치를 크게 높이고 모든 차량에 대한 인식 스택을 배포하는 시간을 단축할 수 있습니다.

이 작업에 연구 커뮤니티의 협력을 환영합니다. 이에 따라, 조감도 세그멘테이션의 관점 견고성을 향하여에 보고된 대로 DRIVE Sim의 합성 데이터를 공개합니다. 이 데이터를 살펴보고 자세히 알아보세요.

관련 리소스

Discuss (0)

Tags