在手术室中集成机器人手术助手(RSAs)为外科医生和患者的治疗效果带来了巨大的优势。目前,这些手术机器人平台由经过训练的外科医生在控制台中通过远程操作进行操作,可提高灵活性,从而简化手术工作流程并减轻外科医生的工作量。探索下一代手术助手的视觉行为克隆,可以进一步增强机器人辅助手术的能力和效率。
本文将介绍用于机器人手术辅助的两个模板框架: 手术首次交互式自主助理(SuFIA) 和 手术首次交互式自主助理 – 行为克隆(SuFIA-BC)。SuFIA 使用自然语言引导和大语言模型(LLMs)来实现手术机器人的高级规划和控制,而 SuFIA-BC 则通过行为克隆(BC)技术提高机器人手术助理的灵活性和精度。这些框架将探索 LLMs 和 BC 技术的近期进展,并对其进行调整,以便出色应对手术场景的独特挑战。
这项研究旨在加速手术机器人助手的开发,最终目标是减轻外科医生的疲劳、增强患者安全并普及高质量的医疗服务。SuFIA 和 SuFIA-BC 通过在模拟和物理环境中展示其在各种手术子任务中的能力来推进这一领域的发展。此外,这项研究中引入的逼真资产使更广泛的研究社区能够探索手术机器人——一个传统上由于数据访问受限、专家演示成本高昂以及所需硬件昂贵而面临着重大的入门障碍的领域。
这项研究增强了 ORBIT-Surgical 框架 ,可为手术机器人创建逼真的训练环境,并利用 NVIDIA Omniverse 提供解剖学上准确的模型和高保真渲染。ORBIT-Surgical 是一个开放式模拟框架,用于学习手术增强的灵活性。它基于 NVIDIA Isaac Lab ,这是一个基于 NVIDIA Isaac Sim 的模块化机器人学习框架,为各种用于强化学习和模仿学习的库提供支持。
手术数字孪生
图 1 展示了一个 手术数字孪生 工作流,说明了从原始 CT 体积数据到 Omniverse 中的最终通用场景描述( Universal Scene Description(OpenUSD))的完整流程。该流程包括器官分割、网格转换、网格清理和细化、逼真纹理,最终将所有纹理器官组装成统一的 OpenUSD 文件。
由此产生的数字孪生模拟器可生成高质量的合成数据,这些数据对于在复杂的手术任务中训练和评估行为克隆模型至关重要。这项研究研究了各种视觉观察模式,包括来自单摄像头和多摄像头设置的 RGB 图像,以及来自单摄像头深度数据的点云表示。
通过远程操作进行策略学习和专家演示
该实验框架包括五个用于评估的基本手术子任务:组织收缩、提针、接针、缝合衬垫穿线和块状转移。如需了解更多信息并观看任务视频,请参阅 SuFIA-BC:在手术子任务中为视觉运动策略学习生成高质量演示数据 。
结果表明,虽然更简单的任务在不同模型中表现出可比的性能,但复杂的任务却揭示了编码器效率的显著差异。基于点云的模型通常在空间定义的任务(例如针头抬起和针头移交)中表现出色,而在需要颜色线索进行语义理解时,基于 RGB 的模型则表现更好。
为了确定经过训练的模型的采样效率,我们改变了专家演示的数量。在此实验中,模型根据训练演示的数量展示了不同的成功率,并在使用较少的演示时突出显示了常见的失败模式。这些发现强调了具有更高采样效率的架构的重要性,并强调了引入的框架的重要性,其中数据收集比真实世界的数据更容易获得。此外,使用不同的针式实例评估了泛化能力,与基于点云的模型相比,多摄像头 RGB 模型显示了更好的适应性。
对摄像头视角变化的稳健性进行评估后发现,与基于 RGB 的模型相比,点云模型在视角变化方面表现出更出色的抗干扰能力,这凸显了它们在手术环境中的实际部署潜力。
总结
通过访问本文中链接的开源资源,探索这项突破性技术。访问 GitHub 上的 ORBIT-Surgical ,获取用于训练策略的视频演示以及逼真的人体器官模型。通过利用这些资源,您可以推进手术机器人研究,试验不同的学习方法,并为复杂的外科手术程序开发创新解决方案。我们鼓励社区在此基础上更进一步,分享见解,并协作增强机器人辅助手术。