AI 平台/部署

MONAI 集成先进的代理式架构,建立多模态医疗 AI 生态系统

医疗数据的数量和复杂性不断增加,以及对早期疾病诊断和提高医疗效率的迫切需求,正在推动医疗 AI 取得前所未有的进步。该领域最具变革性的创新包括同时处理文本、图像和视频的多模态 AI 模型。与传统的单模态系统相比,这些模型能够更全面地理解患者数据。

MONAI 是发展最快的开源医学影像框架,它正在不断发展,以集成强大的多模态模型,从而彻底改变临床工作流程和诊断精度。在过去五年中,MONAI 已成为领先的医疗 AI 平台,也是影像 AI 研究的事实框架。它的下载量超过 4.5 万次,出现在 3,000 多篇已发表的论文中。

本文介绍了 MONAI 如何利用先进的 代理式 AI (自主、工作流驱动的推理) ,将其从成像扩展到多模态生态系统。该生态系统集成了从 CT 和 MRI 到 EHR 和临床文档的各种医疗健康数据,以推动放射学、外科和病理学领域的研究开发和创新。

MONAI 多模态:连接医疗健康数据孤岛

随着医疗数据变得越来越多样化和复杂,对统一不同数据源的全面解决方案的需求从未如此强烈。MONAI Multimodal 代表了一项集中努力,旨在将传统的成像分析扩展到集成的研究生态系统。它将各种医疗健康数据 (包括 CT、MRI、X 光、超声波、EHR、临床文档、DICOM 标准、视频流和全切片成像) 相结合,为研究人员和开发者实现多模态分析。

主要增强功能包括:

  • 代理式 AI 框架:使用自主智能体对图像和文本进行多步骤推理
  • 专用 LLMs 和 VLMs:专为支持跨模态数据集成的医疗应用而设计的定制模型
  • 数据 IO 组件:集成各种数据 IO 读取器,包括:用于医学影像的 DICOM (例如 CT 和 MRI)适用于结构化和非结构化临床数据的 EHR 手术记录和动态成像的视频适用于大型高分辨率病理学图像的 WSI 临床笔记和其他文本数据的文本病理学切片或静态图像的图像 (PNG、JPEG、BMP)

Monai 多模态平台采用先进的代理式 AI,利用自主智能体对图像和文本以及专用 LLM 和 VLM 进行多步骤推理,这些模型专为医疗应用设计,可简化跨模态数据集成。协作生态系统涉及 NVIDIA、主要研究机构、医疗健康组织和学术中心。这种统一的方法通过为医疗 AI 创新提供一致、可复制的框架,加速研究并增强临床协作。

RadImageNet 的放射科医生兼管理合作伙伴 Tim Deyer MD 表示:“通过通过先进的多模态模型集成不同的数据流,我们不仅提高了诊断准确性,还从根本上改变了临床医生与患者数据的交互方式。”“这项创新为医疗健康领域更快、更可靠的决策铺平了道路。”

适用于统一医疗 AI 研究平台的 MONAI 多模态构建块

作为更广泛计划的一部分,MONAI 多模态框架由几个旨在支持跨模态推理和集成的核心组件组成。

代理式框架

智能体框架是一种用于部署和编排多模态 AI 智能体的参考架构,通过将图像和文本数据与类似人类的逻辑集成来实现多步骤推理。它通过基于代理的可定制处理支持自定义工作流,并通过轻松桥接视觉和语言组件来降低集成复杂性。

MONAI 智能体架构采用模块化设计,支持医疗 AI 的跨模态推理。它具有协调专用智能体 (例如 Radiology Agent Framework 和 Surgical Agent Framework) 的中央编排引擎、用于一致部署的接口,以及提供标准化输出的推理和决策层 (图 1)。

he MONAI Agentic Architecture diagram shows a hierarchical system for medical imaging AI. At the top are two specialized frameworks: Radiology Agentic Framework (left) and Surgical Agentic Framework (right). The Orchestration Engine coordinates with Image Agent(s) on the left and Surgical Agent(s) on the right. Both agent types are supported by external models. Each main agent feeds into domain-specific sub-agents: Report Gen Agent and Segmentation. The workflow flows downward through a Reasoning and Decision Layer to a Standardized Output Interface at the bottom.
图 1。MONAI 代理架构

基金会模型和社区贡献

MONAI 多模态平台由一套先进的模型提供支持,将 NVIDIA 主导的框架与社区合作伙伴的创新相结合,详情如下。

NVIDIA 主导的框架

NVIDIA 主导的框架包括以下内容。

Radiology Agent Framework (Multimodal Radiology Agentic Framework) :以放射学为重点的智能体框架,将医学影像与文本数据相结合,协助放射科医生进行诊断和解读。

主要特性:

  • 将 3D CT/MR 成像与患者 EHR 数据集成
  • 利用大语言模型(LLMs)和视觉语言模型(VLMs)进行全面分析
  • 按需访问专业模型(VISTA-3D、MONAI BraTS、TorchXRayVision)
  • 使用 Meta Llama 3 构建
  • 处理多个数据流以获得详细输出
  • 通过将问题分解为可管理的步骤来执行复杂的推理任务
The Radiology AI Agent Framework diagram illustrates a multimodal workflow centered around the VILA-M3 model. The process begins with a User who inputs and receives both Image tokens and Text tokens. These tokens flow to the central VILA-M3 agent (green hexagon), which interfaces with specialized medical imaging models including VISTA-3D, TorchXRay, and BRATS MRI. The VILA-M3 agent enables four key capabilities: Visual Question and Answer, Report Generation, Segmentation and Classification, and Reasoning.
图 2。Radiology Agent 框架

Surgical Agent 框架 (Multimodal Surgical Agentic Framework) : VLM 和检索增强生成 (RAG) 的定制组合,专为手术应用而设计。它通过多智能体系统为手术工作流程提供端到端支持。

主要特性:

  • 通过 Whisper 实现实时语音转录
  • 用于查询路由、Q&A、文档、注释和报告的专用智能体
  • 用于图像分析的计算机视觉(Computer Vision)集成
  • 可选的语音响应功能
  • 集成患者特定的术前数据、临床医生偏好和医疗设备知识
  • 实时处理术中数据
  • 在手术的所有阶段(训练、规划、指导和分析)中发挥数字助理的作用
The Surgical AI Agent Framework diagram shows a workflow for surgical assistance. A User can input via Voice Query, which is processed by RIVA ASR/STT, or via Text Input. These inputs flow to a Selector Agent that directs information to a surgical assistant. The assistant processes Image and Text tokens while connecting to specialized capabilities in the Intra-op Surgical Assistant Chat box: Intra-Op Surgical Assistant Chat, Surgical Note Taker, Post-Op Summarization Agent, and LMM Chat Agent. System output returns to the user as Text Output via RIVA TTS NIM.
图 3。手术代理框架

社区主导的合作伙伴模式

社区主导的合作伙伴模式包括以下内容。社区主导的合作伙伴模式包括

RadViLLA:RadViLLA 是一款用于放射学的 3D VLM,由 Rad Image Net 西奈山伊坎医学院的生物医学工程和影像研究所 和 NVIDIA 共同开发,擅长回答胸部、腹部和骨盆的临床查询。 RadViLLA 基于 75,000 次 3D CT 扫描和超过 1 million 个视觉问答对进行训练。

它侧重于频繁成像的解剖结构,如胸部、腹部和骨盆,并采用新颖的两阶段训练策略,将 3D CT 扫描与文本数据集成在一起。RadviLLA 可自主响应临床查询,并在 F1 评分和跨多个数据集的平衡准确性方面展现出卓越的性能。

CT-CHAT:由苏黎世大学开发的 CT-CHAT 是一种先进的视觉语言基础聊天模型,专门用于增强 3D 胸部 CT 成像的解释和诊断能力。 它利用 CT-CLIP 框架 和根据 CT-RATE 改编的视觉问答 (VQA) 数据集。

它基于 CT-RATE 提供的 270 多万个问答对进行训练,利用 3D 空间信息,使其优于基于 2D 的模型。CT-CHAT 通过将 CT-CLIP 的视觉编码器与预训练的大语言模型相结合,在减少解释时间和提供准确的诊断见解方面表现出色,这使其成为医学成像的强大工具。

Hugging Face 集成

标准化工作流支持,可将 MONAI Multimodal 与 Hugging Face 研究基础架构相连接:

  • 用于研究的模型共享
  • 集成新模型
  • 更广泛地参与研究生态系统

社区整合

用于模型共享、验证和协作开发的基础架构

  • 标准化模型卡和智能体工作流
  • 知识交流和最佳实践共享
  • 协作研究的基础
The MONAI Multimodal community architecture diagram presents a three-tiered ecosystem. The top tier shows Integration Infrastructure with MONAI Models and Hugging Face Pipeline API. The middle tier displays Community Contributions through Reference Model Cards, Agent Code, and Examples. The bottom tier combines Institutional and Community Contributions from NVIDIA, University of Zurich, RadImageNet, and Community Models. Within this tier, a Model and Agent Ecosystem contains Community Models, Vision Models, and Agent Workflows.
图 4。MONAI 多模态社区架构和集成生态系统

使用 MONAI 多模态构建医疗 AI 的未来

MONAI 多模态代表了 MONAI 这是领先的医学影像 AI 开源平台。在此基础上,MONAI Multimodal 不仅扩展了成像领域,还集成了放射学和病理学、临床笔记和 EHR 等各种医疗健康数据类型。

通过由 NVIDIA 主导的框架和合作伙伴贡献组成的协作生态系统,MONAI Multimodal 通过专门的代理式架构提供先进的推理能力。通过打破数据孤岛并实现无缝的跨模态分析,该计划解决了跨专业的关键医疗挑战,加速了研究创新和临床翻译。

通过统一不同的数据源并利用最先进的模型,MONAI Multimodal 正在改变医疗保健行业,助力临床医生、研究人员和创新者在医学影像和诊断精度方面取得突破性成果。

我们共同创造的不仅仅是软件,我们还在构建一个蓬勃发展的医疗 AI 创新生态系统,使全球研究人员、临床医生和患者受益。 开始使用 MONAI

与我们一起参加 NVIDIA GTC 2025 ,并查看以下相关会议:

标签