자율주행 차량이나 로봇과 같은 자율 시스템을 구동하는 물리 AI 모델을 학습하려면 방대한 양의 데이터가 필요합니다. 하지만 다양한 훈련 데이터 세트를 충분히 확보하는 것은 쉽지 않으며, 시간이 오래 걸리고 비용도 많이 듭니다. 게다가 데이터는 개인정보 보호 제한이나 우려 때문에 접근이 제한되거나, 새로운 사용 사례에 적합한 데이터가 아예 없을 수도 있습니다. 또한 사용 가능한 데이터가 모든 상황에 적용되지 않아 모델이 다양한 시나리오를 정확히 예측하고 대응하는 데 한계가 있을 수 있습니다.
이런 문제를 해결하기 위해 컴퓨터 시뮬레이션에서 생성된 디지털 트윈의 합성 데이터가 실제 데이터를 대체하는 유용한 대안이 될 수 있습니다. 이 방법은 레이아웃, 자산 배치, 위치, 색상, 오브젝트 크기, 조명 조건 등 다양한 매개변수를 조정해 대규모로 다양하고 풍부한 데이터 세트를 빠르게 생성할 수 있게 해줍니다. 이를 통해 개발자는 일반화된 모델을 보다 효율적으로 학습시킬 수 있습니다.
생성형 AI를 활용해 합성 데이터 생성 파이프라인과 워크플로우를 구축하는 데 관심이 있다면, 생성형 AI를 활용한 합성 데이터 생성 참조 워크플로우를 확인해 보세요.
생성형 AI로 데이터 생성 속도 높이기
지각 AI 모델을 훈련할 때는 시뮬레이션과 실제 환경 간의 차이를 줄이고 물리적으로 정확한 결과를 얻는 것이 중요합니다. 일반적인 합성 데이터 생성(SDG) 과정은 가상 환경에서 오브젝트를 정교하게 재현하고, 실제 오브젝트의 재질, 텍스처, 기타 속성을 세밀하게 복제하는 작업으로 시작됩니다.
기본 3D 씬이 준비되면 개발자는 도메인 무작위화 기법을 통해 조명, 색상, 텍스처 등의 요소를 체계적으로 변경합니다. 이러한 무작위화는 다양한 주석이 포함된 이미지 세트를 생성해 모델의 일반화 능력을 강화합니다. 이후 원하는 핵심 성과 지표(KPI)가 충족될 때까지 합성 데이터를 반복적으로 개선하며 모델 학습 과정을 이어갑니다.
기존 SDG 방식은 효과적이지만, 장면 구성부터 매개변수 무작위화까지 많은 단계가 수작업으로 이루어지기 때문에 시간과 노력이 많이 듭니다. 이때 생성형 AI로 이러한 과정을 크게 단순화할 수 있습니다.
예를 들어, Edify와 SDXML 같은 고급 확산 모델을 사용하면 텍스트나 이미지 설명에서 고품질의 시각적 콘텐츠를 빠르게 생성할 수 있습니다. 적절한 기준만 제시되면 이 모델은 레이아웃, 자산 배치, 색 구성표, 오브젝트 크기, 조명 조건 등 이미지 매개변수를 프로그래밍 방식으로 조정하여 수작업을 크게 줄여줍니다.
또한 생성형 AI는 3D 장면 전체를 수정하지 않고도 효율적으로 이미지를 증강할 수 있습니다. 개발자는 간단한 텍스트 프롬프트를 활용해 표면의 녹과 같은 사실적인 디테일을 추가하거나 특정 블러 효과를 빠르게 적용할 수 있습니다. 이 방식은 다양한 데이터 세트를 만드는 속도를 비약적으로 높여줍니다.
다음은 텍스트 프롬프트를 사용해 하나의 기본 이미지를 네 가지 방식으로 증강한 사례입니다. 과거에는 테크니컬 아티스트가 이러한 작업을 완료하는 데 몇 시간이 걸렸지만, 생성형 AI는 이를 단시간 내에 수행하며 생산성과 데이터 세트 다양성을 크게 높였습니다.
프롬프트 1
흰색 타일 리놀륨 바닥
녹색 반짝이는 새 카운터밸런스 지게차
목재 팔레트 밝은 색의 소나무, 연목
쓰레기통
프롬프트 2
어둡고 갈라진 더러운 콘크리트 바닥
노란색 카운터 밸런스 지게차
나무 팔레트 밝은 색의 소나무, 연목
검은색 쓰레기통
프롬프트 3
금이 간 콘크리트 바닥
흰색 카운터 밸런스 지게차
나무 팔레트 밝은 색의 소나무, 침엽수
쓰레기통
프롬프트 4
녹색 부서진 리놀륨 바닥
파란색 녹슨 카운터 밸런스 지게차
나무 팔레트 밝은 색의 소나무, 연목
쓰레기통
참조 워크플로우 개요
이 워크플로우는 로봇 공학에서 컴퓨터 비전 모델을 훈련하는 개발자와 스마트 공간용 컴퓨터 비전 애플리케이션을 개발하는 개발자에게 적합합니다. 다음 섹션에서는 참조 워크플로우의 주요 단계와 핵심 기술에 대해 설명합니다.
- 장면 생성: 선반, 상자, 팔레트 등 핵심 에셋을 통합한 3D 창고 씬을 구성합니다. 3D NIM 마이크로서비스를 사용해 다양한 오브젝트와 360° HDRI 배경을 동적으로 추가할 수 있습니다.
- 도메인 무작위화: 개발자는 OpenUSD 기반 최첨단 거대 언어 모델(LLM)인 USD Code NIM을 활용해 씬 매개변수를 자동으로 변경하고 무작위화를 수행합니다. 이 도구는 OpenUSD 관련 쿼리에 응답할 뿐만 아니라 씬을 변경하기 위한 USD Python 코드를 생성하여 Omniverse Replicator 내에서 다양한 씬 매개 변수를 프로그래밍 방식으로 변경하는 프로세스를 간소화합니다.
- 데이터 생성: 세 번째 단계는 주석이 추가된 초기 이미지 세트를 내보내는 단계입니다. 리플리케이터는 2D 바운딩 박스, 시맨틱 분할, 뎁스 맵, 표면 노멀 등 다양한 내장 어노테이터를 제공합니다. 출력 형식(예: 바운딩 박스 또는 세분화 마스크)의 선택은 특정 모델 요구 사항이나 사용 사례에 따라 달라집니다. 데이터는 표준 출력을 위한 BasicWriter, KITTI 형식을 위한 KittiWriter, COCO 형식을 위한 사용자 정의 작성기 등 다양한 작성기를 사용하여 내보낼 수 있습니다.
- 데이터 증강: 마지막 단계에서 개발자는 확산 모델 파이프라인을 구성하고 실행하기 위한 다목적 오픈 소스 플랫폼인 ComfyUI를 통해 SDXL 및 Edify와 같은 생성형 AI 모델을 활용할 수 있습니다.
이 워크플로우에 사용되는 핵심 기술은 다음과 같습니다:
- Edify 360 NIM: 360 HDRI(하이 다이내믹 레인지 이미지) 생성을 위한 Generative 3D 서비스의 Shutterstock 얼리 액세스 프리뷰 버전입니다. 이 기술은 Shutterstock의 라이선스 크리에이티브 라이브러리를 통해 NVIDIA Edify에서 학습되었습니다
- Edify 3D NIM: 씬 드레싱을 위한 추가 3D 오브젝트에 사용되는 3D 에셋 생성을 위한 Shutterstock Generative 3D 서비스입니다. 이 역시 Shutterstock의 라이선스 크리에이티브 라이브러리를 통해 NVIDIA Edify에서 학습되었습니다.
- USD 코드: OpenUSD 지식 쿼리에 응답하고, USD Python 코드를 생성하는 언어 모델입니다.
- USD 검색: 텍스트 또는 이미지 입력을 통해 OpenUSD 데이터, 3D 모델, 이미지, 에셋을 검색하는 AI 기반 검색 모델입니다.
- 이미지 생성 모델과 ComfyUI: 고급 개발자를 위한 그래프 및 노드 인터페이스를 제공하며, 텍스트 프롬프트를 기반으로 사실적인 이미지를 빠르게 합성할 수 있는 텍스트-이미지 생성 모델입니다.
- Omniverse Replicator: 맞춤형 합성 데이터 생성(SDG) 파이프라인과 서비스를 개발하기 위한 프레임워크로 NVIDIA의 Isaac Sim에 확장 기능으로 통합되어 있습니다.
이 워크플로우 가이드를 활용하면 감지, 분류, 세분화 등 다양한 지각 AI 모델을 훈련하는 데 적합한 맞춤형 SDG 파이프라인을 개발할 수 있습니다.이 참조 워크플로우를 구현하면 다음과 같은 이점을 얻을 수 있습니다:
- AI 모델 학습 가속화: 데이터 격차를 해소하고 모델 개발 속도를 높이는 동시에 데이터 수집과 라벨링에 소요되는 전반적인 비용을 절감할 수 있습니다.
- 개인정보 보호 및 보안 강화: 실제 환경을 반영한 다양한 합성 데이터 세트를 생성해 개인정보 보호 문제를 해결하고 데이터 편향을 줄일 수 있습니다.
- 모델 정확도 향상: 일반적으로 수집하기 어려운 희소하지만 중요한 코너 케이스를 포함한 데이터를 활용해 정확하고 일반화된 AI 모델을 개발할 수 있습니다.
- 확장성: 제조, 자동차, 로봇 공학 등 다양한 산업의 요구에 맞게 자동화된 파이프라인을 통해 데이터를 체계적으로 생성할 수 있습니다.
생성형 AI를 활용한 합성 데이터 생성 참조 워크플로우로 시작해 보세요.
뉴스레터를 구독하고, YouTube, Discord, NVIDIA 개발자 포럼에서 NVIDIA Robotics를 팔로우해 최신 정보를 받아보세요.
관련 리소스
- GTC 세션: 합성 데이터를 사용한 트레이닝 및 엣지에서의 제작: 대규모 시각 인텔리전스(Softserve, Inc. 제공)
- GTC 세션: 온디맨드 합성 데이터로 훈련된 고성능 물체 인식 모델
- GTC 세션: 공장용 Metropolis와 함께 산업 검사 워크플로우 개발하기
- NGC 컨테이너: 합성 데이터 생성
- SDK: Omniverse Replicator
- 웨비나: 엔터프라이즈 수요에 맞는 생성형 AI 애플리케이션 구축하기