医疗数据的数量和复杂性不断增加,以及对早期疾病诊断和提高医疗效率的迫切需求,正在推动医疗 AI 取得前所未有的进步。该领域最具变革性的创新包括同时处理文本、图像和视频的多模态 AI 模型。与传统的单模态系统相比,这些模型能够更全面地理解患者数据。
MONAI 是发展最快的开源医学影像框架,它正在不断发展,以集成强大的多模态模型,从而彻底改变临床工作流程和诊断精度。在过去五年中,MONAI 已成为领先的医疗 AI 平台,也是影像 AI 研究的事实框架。它的下载量超过 4.5 万次,出现在 3,000 多篇已发表的论文中。
本文介绍了 MONAI 如何利用先进的 代理式 AI (自主、工作流驱动的推理) ,将其从成像扩展到多模态生态系统。该生态系统集成了从 CT 和 MRI 到 EHR 和临床文档的各种医疗健康数据,以推动放射学、外科和病理学领域的研究开发和创新。
MONAI 多模态:连接医疗健康数据孤岛
随着医疗数据变得越来越多样化和复杂,对统一不同数据源的全面解决方案的需求从未如此强烈。MONAI Multimodal 代表了一项集中努力,旨在将传统的成像分析扩展到集成的研究生态系统。它将各种医疗健康数据 (包括 CT、MRI、X 光、超声波、EHR、临床文档、DICOM 标准、视频流和全切片成像) 相结合,为研究人员和开发者实现多模态分析。
主要增强功能包括:
- 代理式 AI 框架:使用自主智能体对图像和文本进行多步骤推理
- 专用 LLMs 和 VLMs:专为支持跨模态数据集成的医疗应用而设计的定制模型
- 数据 IO 组件:集成各种数据 IO 读取器,包括:用于医学影像的 DICOM (例如 CT 和 MRI)适用于结构化和非结构化临床数据的 EHR 手术记录和动态成像的视频适用于大型高分辨率病理学图像的 WSI 临床笔记和其他文本数据的文本病理学切片或静态图像的图像 (PNG、JPEG、BMP)
Monai 多模态平台采用先进的代理式 AI,利用自主智能体对图像和文本以及专用 LLM 和 VLM 进行多步骤推理,这些模型专为医疗应用设计,可简化跨模态数据集成。协作生态系统涉及 NVIDIA、主要研究机构、医疗健康组织和学术中心。这种统一的方法通过为医疗 AI 创新提供一致、可复制的框架,加速研究并增强临床协作。
RadImageNet 的放射科医生兼管理合作伙伴 Tim Deyer MD 表示:“通过通过先进的多模态模型集成不同的数据流,我们不仅提高了诊断准确性,还从根本上改变了临床医生与患者数据的交互方式。”“这项创新为医疗健康领域更快、更可靠的决策铺平了道路。”
适用于统一医疗 AI 研究平台的 MONAI 多模态构建块
作为更广泛计划的一部分,MONAI 多模态框架由几个旨在支持跨模态推理和集成的核心组件组成。
代理式框架
智能体框架是一种用于部署和编排多模态 AI 智能体的参考架构,通过将图像和文本数据与类似人类的逻辑集成来实现多步骤推理。它通过基于代理的可定制处理支持自定义工作流,并通过轻松桥接视觉和语言组件来降低集成复杂性。
MONAI 智能体架构采用模块化设计,支持医疗 AI 的跨模态推理。它具有协调专用智能体 (例如 Radiology Agent Framework 和 Surgical Agent Framework) 的中央编排引擎、用于一致部署的接口,以及提供标准化输出的推理和决策层 (图 1)。

基金会模型和社区贡献
MONAI 多模态平台由一套先进的模型提供支持,将 NVIDIA 主导的框架与社区合作伙伴的创新相结合,详情如下。
NVIDIA 主导的框架
NVIDIA 主导的框架包括以下内容。
Radiology Agent Framework (Multimodal Radiology Agentic Framework) :以放射学为重点的智能体框架,将医学影像与文本数据相结合,协助放射科医生进行诊断和解读。
主要特性:
- 将 3D CT/MR 成像与患者 EHR 数据集成
- 利用大语言模型(LLMs)和视觉语言模型(VLMs)进行全面分析
- 按需访问专业模型(VISTA-3D、MONAI BraTS、TorchXRayVision)
- 使用 Meta Llama 3 构建
- 处理多个数据流以获得详细输出
- 通过将问题分解为可管理的步骤来执行复杂的推理任务

Surgical Agent 框架 (Multimodal Surgical Agentic Framework) : VLM 和检索增强生成 (RAG) 的定制组合,专为手术应用而设计。它通过多智能体系统为手术工作流程提供端到端支持。
主要特性:
- 通过 Whisper 实现实时语音转录
- 用于查询路由、Q&A、文档、注释和报告的专用智能体
- 用于图像分析的计算机视觉(Computer Vision)集成
- 可选的语音响应功能
- 集成患者特定的术前数据、临床医生偏好和医疗设备知识
- 实时处理术中数据
- 在手术的所有阶段(训练、规划、指导和分析)中发挥数字助理的作用

社区主导的合作伙伴模式
社区主导的合作伙伴模式包括以下内容。社区主导的合作伙伴模式包括
RadViLLA:RadViLLA 是一款用于放射学的 3D VLM,由 Rad Image Net 、 西奈山伊坎医学院的生物医学工程和影像研究所 和 NVIDIA 共同开发,擅长回答胸部、腹部和骨盆的临床查询。 RadViLLA 基于 75,000 次 3D CT 扫描和超过 1 million 个视觉问答对进行训练。
它侧重于频繁成像的解剖结构,如胸部、腹部和骨盆,并采用新颖的两阶段训练策略,将 3D CT 扫描与文本数据集成在一起。RadviLLA 可自主响应临床查询,并在 F1 评分和跨多个数据集的平衡准确性方面展现出卓越的性能。
CT-CHAT:由苏黎世大学开发的 CT-CHAT 是一种先进的视觉语言基础聊天模型,专门用于增强 3D 胸部 CT 成像的解释和诊断能力。 它利用 CT-CLIP 框架 和根据 CT-RATE 改编的视觉问答 (VQA) 数据集。
它基于 CT-RATE 提供的 270 多万个问答对进行训练,利用 3D 空间信息,使其优于基于 2D 的模型。CT-CHAT 通过将 CT-CLIP 的视觉编码器与预训练的大语言模型相结合,在减少解释时间和提供准确的诊断见解方面表现出色,这使其成为医学成像的强大工具。
Hugging Face 集成
标准化工作流支持,可将 MONAI Multimodal 与 Hugging Face 研究基础架构相连接:
- 用于研究的模型共享
- 集成新模型
- 更广泛地参与研究生态系统
社区整合
用于模型共享、验证和协作开发的基础架构
- 标准化模型卡和智能体工作流
- 知识交流和最佳实践共享
- 协作研究的基础

使用 MONAI 多模态构建医疗 AI 的未来
MONAI 多模态代表了 MONAI 这是领先的医学影像 AI 开源平台。在此基础上,MONAI Multimodal 不仅扩展了成像领域,还集成了放射学和病理学、临床笔记和 EHR 等各种医疗健康数据类型。
通过由 NVIDIA 主导的框架和合作伙伴贡献组成的协作生态系统,MONAI Multimodal 通过专门的代理式架构提供先进的推理能力。通过打破数据孤岛并实现无缝的跨模态分析,该计划解决了跨专业的关键医疗挑战,加速了研究创新和临床翻译。
通过统一不同的数据源并利用最先进的模型,MONAI Multimodal 正在改变医疗保健行业,助力临床医生、研究人员和创新者在医学影像和诊断精度方面取得突破性成果。
我们共同创造的不仅仅是软件,我们还在构建一个蓬勃发展的医疗 AI 创新生态系统,使全球研究人员、临床医生和患者受益。 开始使用 MONAI 。
与我们一起参加 NVIDIA GTC 2025 ,并查看以下相关会议: