외과의가 일상적인 수술에서 일반적으로 사용하며 수동으로 조작하던 로봇이 이제 인간처럼 정밀하게 주요 수술 작업을 자율적으로 수행할 수 있게 되었습니다.
존스 홉킨스 대학과 스탠포드 대학의 연구원들은 수 시간 분량의 수술 영상을 통해 훈련된 비전-언어 모델(VLM)을 널리 사용되는 다빈치 로봇 수술 시스템에 통합했다고 밝혔습니다.
VLM과 연결된 다빈치 로봇은 작은 그리퍼, 즉 “손”을 이용해 세 가지 주요 수술 작업을 자율적으로 수행할 수 있습니다. 신체 조직을 신중히 들어 올리고, 수술용 바늘을 사용하며, 상처를 봉합하는 작업이 그것입니다.
기존의 로봇 훈련 방법은 로봇의 모든 움직임을 세부적으로 프로그래밍해야 했습니다. 하지만 개조된 다빈치 로봇은 모방 학습만으로 제로샷 수술 작업을 수행했습니다. 이 로봇은 비전-언어 모델을 통해 수술 비디오에서 의사가 했던 동작을 모방했습니다.
이 연구로 자율 로봇이 전적으로 수행하는 미래 수술의 모습을 엿볼 수 있었습니다.
존스 홉킨스 대학의 박사후 연구원 Ji Woong “Brian” Kim은 “이 로봇들이 이제 이렇게 복잡한 작업을 자율적으로 수행할 수 있다는 점이 놀랍습니다”라고 전하며, “모방 학습을 통해 로봇을 작동할 수 있도록 코딩하는 것은 로봇 공학에서 중요한 패러다임의 전환이며, 자율 수술 로봇의 미래가 바로 여기에 있다고 생각합니다”라고 덧붙였습니다.
연구자들은 NVIDIA GeForce RTX 4090 GPU, PyTorch, NVIDIA CUDA-X AI 라이브러리를 사용해 모델을 훈련시켰습니다.
11월에 뮌헨에서 열린 로봇 학습 컨퍼런스에서 이 연구 결과가 발표되었습니다. 연구를 위해 로봇공학자들은 최대 4개의 로봇 팔을 사용할 수 있는 다빈치 로봇 수술 시스템을 활용했습니다. 이 시스템은 전 세계에서 다양한 복강경 수술에 널리 사용되고 있습니다.
VLM을 훈련시키기 위해 Kim과 그의 동료들은 존스 홉킨스 대학이 소유한 다빈치 로봇 3대의 팔에 소형 비디오 카메라를 장착하고 연구를 진행했습니다.
연구팀은 의사들이 수술 기술을 연습할 때 사용하는 작은 실리콘 패드를 이용해 다빈치 로봇을 복강경 수술을 하는 외과의사처럼 조작했습니다.
Kim은 동전 크기의 다빈치 그리퍼를 조작하는 모습을 약 20시간 분량의 영상으로 녹화하며, 인간 조직 복제본을 들어 올리고, 수술용 바늘을 조작하며, 매듭을 묶는 세 가지 작업을 수행했습니다.
또한, 그리퍼를 수동으로 조작하며 기록한 운동학 데이터를 저장했습니다. 이 데이터는 수술의 각 단계에서 로봇을 조작할 때 사용한 각도와 압력에 대한 정확한 정보를 포함하고 있습니다.
연구자들은 수술 영상과 운동학 데이터를 사용해 VLM을 훈련한 뒤, 이를 다빈치 로봇에 연결하고 세 가지 수술 작업을 수행하도록 명령했습니다.
로봇은 한 번도 접해본 적이 없는 닭과 돼지의 조직을 대상으로 실험했으며, 이들은 인간 조직과 비슷한 모양과 촉감을 가지고 있었습니다.
연구진은 로봇이 제로샷 환경에서 수술 절차를 거의 완벽하게 수행한 결과에 놀랐습니다.
Kim 박사는 로봇이 예상치 못한 문제를 자율적으로 해결한 방식에 큰 감명을 받았다고 전했습니다. 한 실험에서는 로봇 그리퍼가 수술용 바늘을 실수로 떨어뜨렸지만, 이에 대해 명시적으로 훈련받지 않았음에도 불구하고 스스로 바늘을 집어 들고 작업을 이어갔습니다.
Kim은 “돼지나 닭의 조직에 대해 훈련하지도 않았고, 바늘을 떨어뜨렸을 때 주워야 한다는 훈련도 하지 않았습니다”라며, “훈련 데이터의 범위를 넘어선 완전히 새로운 환경에서도 로봇이 자율적으로 작동할 수 있다는 점이 매우 흥미로웠습니다”라고 밝혔습니다.
Kim은 최근 동물 사체를 이용한 실험 결과를 요약한 논문을 작성 중이며, 다빈치 로봇의 기능을 확장하기 위해 사용할 수 있는 추가 훈련 데이터를 개발하고 있습니다.
GitHub에서 연구자들의 논문을 확인할 수 있습니다.
자율 수술 로봇에 대한 추가 보도도 참고해 보세요.
관련 자료
- GTC 세션: 실시간 에지 AI를 통한 수술에서 증강 현실의 이점 실현
- GTC 세션: 코드를 사용하여 실시간 AI 의료 기기를 만드는 방법
- GTC 세션: AI 로봇 공학: 자동화의 미래를 위한 혁신 추진
- SDK: NVIDIA Fleet Command
- SDK: MONAI Cloud API
- SDK: Neural VDB