外科医生在常规手术中常用和手动操作的机器人现在可以像人类一样精确地自主执行关键的手术任务。
约翰・霍普金斯大学和斯坦福大学的研究人员透露,他们已将经过数小时手术视频训练的视觉语言模型(VLM)与广泛使用的 da Vinci 机器人手术系统集成。
与 VLM 连接后,达芬奇的微型抓手 (或称“手”) 可以自动执行三项关键手术任务:仔细提起身体组织、使用手术针和缝合伤口。
传统的机器人训练方法需要对机器人动作的每个组件进行详细编程,而改装后的 da Vinci 机器人仅使用模拟学习执行零样本手术任务。该机器人仅依靠其视觉语言模型来模仿医生在手术视频中所做的操作。
这些结果让我们一窥未来完全由自主机器人进行手术的可能性。
约翰・霍普金斯大学博士后研究员 Ji Woong “Brian” Kim 说:“这些机器人现在能够自主执行这些非常复杂的任务,这真是太神奇了。“对机器人进行编码,让它们可以从模仿学习中进行真正的操作,这是机器人领域的重大范式转变,我认为,也是自主手术机器人的未来所在。”
为了训练模型,研究人员使用了 NVIDIA GeForce RTX 4090 GPU、PyTorch 和 NVIDIA CUDA-X AI 库。
研究人员于 11 月在慕尼黑的机器人学习大会上公布了 他们的研究结果 。为了开展研究,机器人专家使用了 da Vinci 机器人手术系统 ,该系统可配备多达四个机械臂,并在全球范围内被外科医生用于各种腹腔镜手术。
为了训练他们的 VLM,Kim 及他的同事将微型摄像机连接到约翰・霍普金斯大学拥有的三台 da Vinci 机器人的手臂,并借给研究人员进行实验。
Kim 和他的同事使用医生通常用于练习手术技术的小型硅垫,像外科医生在腹腔镜手术期间操作机器人一样。
Kim 录制了大约 20 个小时的视频,讲述了他如何操控 da Vinci 的 grippers——合起来大约只有一分钱大小——来执行三个手术:举起人体组织的一份传真、操作手术针以及用手术线打结。
他还记录了与手动操作抓手相关的运动学数据。这些运动学数据包括有关 Kim 在每个手术步骤中操纵机器人时所使用的角度和压力的精确信息。
在使用手术视频和运动学数据训练 VLM 后,研究人员将其模型与 da Vinci 机器人连接起来,并指示机器人执行三项手术任务。
研究人员对鸡肉和猪肉进行了实验,这是机器人从未遇到过的动物肉,模仿人体组织的外观和感觉。
令他们欣喜的是,它在零样本环境中几乎完美地执行了外科手术。
Kim 表示,其中一个惊喜是机器人如何自主解决意想不到的难题。
有一次,抓手意外掉落了一根手术针,尽管从未接受过明确的手术训练,但还是拿起它继续进行手术任务。
Kim 说:“我们从未在猪或鸡肉组织上训练模型,也没有在掉下来时拾起一根针。我们很高兴它能在训练分布之外的全新环境中工作,并且可以自动运行。”
Kim 已经在撰写一篇新论文,其中概述了在动物身上部署机器人的近期实验结果。他还在开发可用于扩展 da Vinci 机器人功能的其他训练数据。
在 GitHub 阅读研究人员的论文。