수술실에 로봇 수술 보조(RSA)를 통합하면 외과의와 환자 모두에게 상당한 이점을 제공합니다. 현재 숙련된 외과의가 콘솔에서 원격 조작을 통해 작동하는 이러한 수술 로봇 플랫폼은 수술 워크플로우를 간소화하고 외과의의 업무량을 완화할 수 있는 잠재력을 지닌 증강된 숙련도를 제공합니다. 차세대 수술 어시스턴트를 위한 시각적 동작 복제를 탐구하면 로봇 보조 수술의 기능과 효율성을 더욱 향상시킬 수 있습니다.
이 게시물에서는 로봇 수술 보조를 위한 두 가지 템플릿 프레임워크를 소개합니다: 수술용 최초 대화형 자율 어시스턴트(SuFIA) 와 수술용 최초 대화형 자율 어시스턴트 – 행동 복제(SuFIA-BC)입니다. SuFIA는 수술 로봇의 고수준 계획 및 제어를 위해 자연어 안내와 거대 언어 모델(LLM)을 사용하며, SuFIA-BC는 행동 복제(BC) 기술을 통해 로봇 수술 보조의 민첩성과 정밀성을 향상시킵니다. 이 프레임워크는 LLM과 BC 기술의 최근 발전을 탐구하고 수술 장면의 고유한 과제에 탁월하도록 조정합니다.
이 연구는 수술 로봇 어시스턴트의 개발을 가속화하여 궁극적으로 외과의의 피로를 완화하고 환자 안전을 강화하며 고품질 의료 서비스에 대한 접근성을 민주화하는 것을 목표로 합니다. SuFIA와 SuFIA-BC는 시뮬레이션 및 실제 환경에서 다양한 수술 하위 작업에 대한 역량을 입증함으로써 이 분야를 발전시키고 있습니다. 또한 이 작업에 도입된 포토리얼한 에셋을 통해 광범위한 연구 커뮤니티가 제한된 데이터 접근성, 전문가 데모에 드는 높은 비용, 고가의 하드웨어로 인해 전통적으로 진입 장벽이 높았던 수술 로봇 공학 분야를 탐구할 수 있게 되었습니다.
이 연구는 수술 로봇을 위한 사실적인 훈련 환경을 만들기 위해 ORBIT-Surgical 프레임워크를 개선하여 해부학적으로 정확한 모델과 NVIDIA Omniverse 를 사용한 고충실도 렌더링을 특징으로 하는 수술 로봇을 위한 프레임워크를 개선합니다. ORBIT-Surgical은 수술용 증강 민첩성 학습을 위한 개방형 시뮬레이션 프레임워크입니다. 이 프레임워크는 강화 학습 및 모방 학습을 위한 다양한 라이브러리를 지원하는 로봇 학습용 모듈식 프레임워크인 NVIDIA Isaac Lab을 기반으로 합니다.
수술용 디지털 트윈
그림 1은 수술용 디지털 트윈 워크플로우로, 원시 CT 볼륨 데이터부터 Omniverse의 최종 범용 장면 설명(OpenUSD) 에 이르기까지 사실적인 해부학 모델을 생성하기 위한 전체 파이프라인을 보여줍니다. 이 프로세스에는 장기 분할, 메시 변환, 메시 클리닝 및 세분화, 사실적인 텍스처링, 그리고 모든 텍스처링된 장기를 통합된 OpenUSD 파일로 조립하는 단계가 포함됩니다.
이렇게 완성된 디지털 트윈 시뮬레이터는 복잡한 수술 작업에서 동작 복제 모델을 훈련하고 평가하는 데 중요한 고품질 합성 데이터를 생성합니다. 이 연구는 단일 및 다중 카메라 설정의 RGB 이미지와 단일 카메라 깊이 데이터에서 파생된 포인트 클라우드 표현을 포함한 다양한 시각적 관찰 양식을 조사합니다.
원격 수술을 통한 정책 학습 및 전문가 데모
실험 프레임워크에는 평가를 위해 설계된 5가지 기본 수술 하위 작업, 즉 조직 후퇴, 바늘 리프트, 바늘 핸드오버, 봉합 패드 스레딩 및 블록 이동이 포함됩니다. 자세한 내용을 알아보고 작업 비디오를 보려면 SuFIA-BC를 참조하세요 : 수술 하위 작업에서 시각 운동 정책 학습을 위한 고품질 데모 데이터 생성을 참조하세요.
결과에 따르면 간단한 작업은 모델 간에 비슷한 성능을 보이지만, 복잡한 작업은 인코더 효과에 상당한 차이가 있는 것으로 나타났습니다. 포인트 클라우드 기반 모델은 일반적으로 바늘 들어올리기 및 바늘 넘기기와 같은 공간적으로 정의된 작업에서 탁월한 성능을 보이는 반면, RGB 기반 모델은 의미적 이해를 위해 색상 단서가 필요한 작업에서 더 나은 성능을 보였습니다.
훈련된 모델의 샘플 효율성을 확인하기 위해 전문가 데모 횟수를 다양하게 변경했습니다. 이 실험에서 모델은 훈련 데모 횟수에 따라 다양한 성공률을 보였으며, 데모 횟수가 적을 때 일반적인 실패 모드를 강조했습니다. 이러한 결과는 샘플 효율성이 높은 아키텍처의 중요성을 강조하며, 실제 데이터보다 훨씬 더 쉽게 데이터 수집에 접근할 수 있는 도입된 프레임워크의 중요성을 강조합니다. 또한 다양한 니들 인스턴스를 사용하여 일반화 기능을 평가한 결과, 멀티카메라 RGB 모델이 포인트 클라우드 기반 모델에 비해 더 나은 적응성을 보였습니다.
카메라 시점 변화에 대한 견고성을 평가한 결과, 포인트 클라우드 모델이 RGB 기반 모델에 비해 시점 변화에 대한 복원력이 우수하여 수술 환경에서 실제 배포할 수 있는 잠재력이 있음을 보여주었습니다.
요약
이 글에 링크된 오픈 소스 에셋에 액세스하여 이 획기적인 기술을 살펴보세요. GitHub의 ORBIT-Surgical을 방문하여 사실적인 인체 장기 모델과 함께 훈련 정책에 사용되는 비디오 데모에 액세스하세요. 이러한 리소스를 활용하여 수술 로봇 공학 연구를 발전시키고, 다양한 학습 접근법을 실험하고, 복잡한 수술 절차를 위한 혁신적인 솔루션을 개발할 수 있습니다. 커뮤니티가 이러한 기반을 바탕으로 인사이트를 공유하고 협력하여 로봇 보조 수술을 개선할 수 있기 바랍니다.
관련 리소스
- GTC 세션: 시뮬레이션에서 현실로 – 산업 자동화를 위한 디지털 트윈 프로그래밍
- GTC 세션: 협동 로봇의 역량 강화: 디지털 트윈을 통한 AI 비전의 미래
- GTC 세션 NVIDIA의 에코시스템을 통한 AI로 수술용 로봇의 개발 가속화
- SDK: 클라라 트레인
- SDK: 모듈러스
- SDK: 드라이브 컨스텔레이션