医疗 AI 已步入关键转折阶段。尽管视觉语言模型(VLM)在医学影像领域展现出广阔的应用前景,但其推理过程缺乏临床医生所要求的系统性与透明度,导致在辅助诊断中的可信度仍显不足。改变这一状况的是NVIDIA Clara,这是一系列模型、工具与方法,致力于加速科学发现,深入分析医学影像,并推动对人类健康、生物学及化学基础的深层理解。
具体而言,Clara Reason 引入了一种多模态思维链模型,该模型模拟放射科医生的思维方式,通过提供临床医生可验证且可信赖的解释,实现逐步的诊断推理。
NVIDIA 正在拓展传统的图像分析技术,构建一个医疗 AI 推理生态系统,通过整合基础数据集与多模态模型,提供具备可解释性的决策支持。
本文详细介绍了 Clara NV-Reason-CXR-3B 的技术实现,这是一款拥有 30 亿参数的视觉语言模型(VLM),专为胸部 X 光分析设计。文章阐述了数据集的构建方法——通过语音记录捕捉放射科医生的诊断思维过程,介绍了结合监督微调与基于梯度的强化学习策略的两阶段训练流程,并展示了在临床机构中进行的验证结果。
传统医疗AI方法在推理过程上缺乏透明度
当前的医疗AI模型通常以“黑箱”形式运行,无法解释其推理过程,仅提供诊断结果。这种缺乏透明度的特性给临床医生带来了信任挑战,因为他们需要先理解并验证AI的建议,才能将其应用于患者的诊疗决策中。
传统的医疗AI方法往往聚焦于提升准确性指标,却忽视了可解释性的基本需求。放射科医生并非仅仅识别异常,而是系统性地评估解剖结构,权衡多种可能的鉴别诊断,并清晰表达其推理过程。最终的诊断结果不仅仅是一个标签,更是放射科医生基于多年临床经验所形成的内在思维过程的体现。
推理AI模型在解决数学、编程和逻辑问题方面已取得显著进展。通过在回答问题之前进行分步思考,这些模型能够将复杂任务分解为多个子目标,从而有效应对多步骤难题。类似地,在医疗AI领域,模拟放射科医生的思维过程有助于模型深入理解每个诊断环节,进而更精准地处理复杂的医学问题。
Clara Reason 如何实现医疗 AI 推理的透明化?
Clara Reason 通过结合多模态感知与结构化推理能力的架构,有效应对了可解释性挑战。
NVIDIA 研究人员利用 Clara NV-Reason-CXR-3B 模型为 Clara Reason 提供推理能力。该模型是一种专用于胸部 X 光分析的视觉语言模型(VLM),能够像放射科医生一样分析胸部 X 光片,并生成模拟医生临床思维过程的完整推理链。
这使得 AI 能够解释其诊断推理过程,并提供详尽且专业深入的分析。其设计旨在以教师或资深放射科医生的风格回答问题,提出解决方案,并提供相应的专业见解。
- 思维链处理
- 推理引擎生成分步诊断分析
- 系统化进行解剖结构评估
- 准确识别正常与异常表现
- 充分考虑鉴别诊断的关键要点
- 临床结果生成
- 汇总主要影像或临床发现
- 呈现清晰的分步推理路径
- 提供可能的鉴别诊断及相应可能性分析
- 给出后续检查或临床管理建议
- 支持多轮交互以澄清复杂情况
- 输出结构化、标准化的报告内容
费城儿童医院(CHOP)助理教授Mariam Aboian博士表示:“生成式AI首次揭示了放射科医生在阅片过程中大脑的思维链,即如何识别影像结果并将其系统化整合以形成诊断。这一进展在可解释性方面实现了创新,对于人工智能在临床中的应用,以及与医疗健康领域医生和医疗服务提供者之间的沟通至关重要。”
构建能够体现放射科医生思维模式的数据集
通过与美国国立卫生研究院(NIH)、费城儿童医院(CHOP)以及 VinBrain 合作,NVIDIA 研究人员构建了首个能够捕捉放射科医生思维过程的数据集。不同于传统聚焦于标签或报告的数据集,该数据集包含由放射科医生提供的每张影像长达 1 至 2 页的详细思考记录,旨在真实还原其诊断过程中的推理路径。
系统化检查协议
放射科医生在阅读胸部X光片时,需按顺序口述其全部想法、思考过程及存在的疑虑。
质量评估:医疗设备、气道、肺部(右/左)、纵隔、心脏、腹部、骨骼——综合总结
每条注释需要花费7到15分钟,会被分解为10到20个详细的独立观察结果和思考,例如:“我注意到右下叶存在某些特征,这让我联想到……”
创新的数据采集
该团队开发了一款标注工具,用于捕捉放射科医生的真实思维过程。其核心洞见在于实现方式的简洁性,具体体现在以下几个方面:
- 具备语音转文本功能的录音可准确捕捉自然的临床推理过程。
- 基础 ROI 工具能够将观察结果与图像区域相关联。
- 多语言转录功能支持全球协作,可将内容转录并翻译为英语。
- 原始音频和文本文件可被格式化用于模型训练,无需依赖专有工具。
团队可以采用具备基本注释功能的现有查看器来实施类似方法,或直接通过收集录音和图像进行审查。关键目标在于捕捉放射科医生的思维过程,而非局限于特定工具。
标注重点领域包括:
- 鉴别诊断:需包含不确定性评估与临床推理过程。
- 阴性发现:应明确描述正常表现或缺失特征,以全面呈现临床情况。
此外,基于MIMIC-CXR和Open-I胸部X光报告,从GPT-OSS 120B中提取合成数据,并以放射科医生的推理过程作为示例,从而将训练数据集扩展为包含约10万个数据点的合成数据集。
NV-Reason-CXR-3B 训练管线
NV-Reason-CXR-3B 模型以 Qwen2.5-VL-3B-Instruct 视觉语言模型为基础,借鉴了 DeepSeek-R1 的普及化方法。
第 1 阶段:监督式微调 (SFT)
在初始阶段,采用约10万个推理样本(结合原始标注与合成数据),并利用专业放射科医生的推理数据对模型进行训练。训练过程在四个节点上进行,每个节点配备8块NVIDIA H100 GPU,共计32块GPU,持续运行4小时。该阶段的目标是使模型学会生成符合真实放射科医生思维模式的结构化诊断推理。
第 2 阶段:组相对策略优化 (GRPO)
第二阶段采用强化学习,在更大的数据集上提升推理质量,且无需依赖显式推理标注。训练过程基于包含已验证诊断标签的扩展胸部X光数据集,并设计了一种奖励函数,根据模型正确识别异常和诊断的百分比进行评分。这与传统GRPO在数学和逻辑任务中通常采用的二值奖励机制有所不同。
训练采用与第一阶段相同的基础设施,持续四天。该方法使模型能够从更广泛的数据集中学习,同时保留监督微调阶段所形成的结构化思维模式。
Clara Reason 的临床验证结果及其影响是什么?
Clara Reason 作为放射科医生的 AI 助手,能够在节省时间的同时,通过透明的推理过程提升诊断的可信度。该模型与临床思维高度契合,并已获得认证放射科医生的验证。
主要优势包括:
- 节省时间:作为辅助助手,实时解释决策过程,并在需要时生成结构化报告。
- 提升准确性:遵循放射科医生的临床思维流程,支持复杂医疗决策的制定。
- 增强可信度:通过透明呈现推理路径,建立对决策的信任。
- 辅助教学:具备可解释性的决策过程,既增强临床信心,也具有教学价值。
核心功能包括:
- 放射科医生的思维链: 呈现真实的内部思考过程,而非通用的人工智能推理
- 系统化检查流程: 严格遵循临床规范
- 透明化决策机制: 每项诊断均附有清晰可追溯的推理路径
- 不确定性校准: 依据临床情境合理评估置信水平
高级临床医生Ismail Baris Turkbey博士表示:“CXR推理模型提供了一个极好的机会,不仅能够辅助转诊医生,还能帮助患者更深入地了解如何结合影像中所有解剖结构、患者的临床信息及症状,来构建鉴别诊断的思维过程。此外,这一创新工具在放射学和医学培训领域具有巨大潜力,可作为学员的教育助手。”
Clara Reason 如何优化临床工作流程?
Clara Reason 适用于以下主要应用场景:
- 临床决策支持:放射科医生将 Clara Reason 作为“第二位阅片人”,借助其提供的详细推理进行快速验证。AI 透明的思考过程使临床医生能够清晰判断与自身判断一致或分歧的具体环节,从而提升诊断信心。
- 医学教育:医学院及住院医师培训项目已引入 Clara Reason,辅助学员建立系统化的诊断思维。该模型输出的详尽推理过程可作为即时可用的教学工具,直观展示专家级的分析路径。
- 研究应用:研究人员利用 Clara Reason 对大规模影像数据集进行分析,通过统一且可追溯的推理逻辑,深入探索不同人群中的疾病模式与诊断差异,推动医学研究取得新发现。
如何将 Clara Reason 集成至医疗 AI 应用中
使用以下快速入门示例,轻松将 Clara Reason 集成到您的医疗 AI 应用中:
import torch
from transformers import AutoModelForImageTextToText, AutoProcessor
from PIL import Image
# Load the Clara Reason model
model_name = "nvidia/NV-Reason-CXR-3B"
model = AutoModelForImageTextToText.from_pretrained(
model_name,
torch_dtype=torch.float16,
).eval().to("cuda")
processor = AutoProcessor.from_pretrained(model_name)
# Load chest x-ray image
image = Image.open("chest_xray.png")
# Prepare input with clinical context
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": image,
},
{
"type": "text",
"text": "Find abnormalities and support devices."
}
]
}
]
# Create prompt using chat template
text = processor.apply_chat_template(
messages,
add_generation_prompt=True
)
# Process inputs
inputs = processor(
text=text,
images=[image],
return_tensors="pt"
).to(model.device)
# Generate reasoning with chain-of-thought
generated_ids = model.generate(
**inputs,
max_new_tokens=2048
)
# Trim the generated ids to remove the input ids
trimmed_generated_ids = [
out_ids[len(in_ids):]
for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
# Decode the response
generated_text = processor.batch_decode(
trimmed_generated_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)[0]
print("Output:")
print(generated_text)
输出示例:
THINK: We'll begin with the quality assessment of this AP chest x-ray. As you can see, the lung fields are relatively well visualized, although the patient's position and the fact that it's a portable AP view may limit the evaluation to some extent. I think the quality is acceptable for this type of examination.
Now, we are looking at the medical devices and instrumentation. I don't see any medical devices such as central venous catheters, endotracheal tubes, or chest tubes. However, I do notice that the patient is likely in a clinical setting, given the portable nature of the examination.
The central airways appear patent. The trachea is visible and not deviated, and the right and left main bronchi appear unremarkable. I don't see any foreign objects or abnormalities in the central airways.
Moving on to the right lung, we are evaluating the upper lobe first. The aeration of the right upper lobe appears reduced, which could be suggestive of some volume loss or atelectasis. I don't see any distinct masses or nodules, but there are some subtle opacities that could represent infiltrates or edema.
Next, we will evaluate the right middle and lower lobes. The lung volumes appear low, which could be indicative of some atelectasis or volume loss. I see some patchy opacities in the right lower lobe, which may represent pulmonary edema or infiltrates. The costophrenic angle is slightly blunted, which could be significant for a small pleural effusion.
Now, let's examine the left lung. The left upper lobe appears similar to the right, with reduced aeration and some subtle opacities that could represent infiltrates or edema. The left lower lobe also shows some patchy opacities and a slightly blunted costophrenic angle, suggestive of a small pleural effusion.
We are looking at the pleura now, and as I mentioned before, the costophrenic angles are slightly blunted bilaterally, which is concerning for small bilateral pleural effusions. I don't see any evidence of pneumothorax.
The mediastinum appears enlarged, which could be indicative of cardiomegaly. The cardiac silhouette is prominent, and I think this finding may be meaningful for moderate cardiomegaly.
The hila appear unremarkable, without any significant adenopathy or masses. The lung vasculature appears prominent, which could be suggestive of pulmonary edema.
The heart, as I mentioned before, appears enlarged, with a cardiothoracic ratio that is elevated. This finding is concerning for cardiomegaly.
Now, we are looking at the upper abdomen, and I see some normal-appearing bowel gas patterns. There is no free air under the diaphragm, which is important to note.
Finally, we are looking at the bony structures. The clavicles, scapulae, and ribs appear unremarkable, without any focal lesions or fractures. The vertebral bodies are well visualized and appear normal.
In summary, the most significant findings in this patient are the presence of mild pulmonary edema, small bilateral pleural effusions, and moderate cardiomegaly. These findings could represent a range of clinical conditions, including heart failure or other cardiopulmonary diseases.
ANSWER: Cardiomegaly, Edema, Enlarged Cardiomediastinum, Lung Opacity, Pleural Effusion
开始使用 Clara Reason
Clara Reason 引入了一种思维链模型,该模型模拟放射科医生的思维方式,提供逐步的诊断推理过程,以及临床医生可验证且值得信赖的解释。具体而言:
- NV-Reason-CXR-3B 能够为胸部 X 光片分析生成分步的诊断推理,输出详细的思考过程,而不仅限于提供诊断标签。
- 在图像分析过程中,该方法通过录音采集放射科医生的临床思维过程,为每张胸部 X 光片构建 1 至 2 页的详细推理记录。
- 通过采用 GRPO 的两阶段训练策略,模型首先从专家的推理示例中学习,随后利用强化学习在无需额外推理标注的情况下,提升在大规模数据集上的推理质量,从而实现仅用少量标注数据即可有效训练推理能力。
医疗AI领域的这一突破得益于多方协作。
准备好开始了吗?
- 从 Hugging Face 下载 NV-Reason-CXR-3B 检查点文件,用于本地开发。
- 前往 GitHub 上的 NVIDIA-Medtech/NV-Reason-CXR 项目,获取训练与推理示例。
订阅 NVIDIA 新闻,并在 LinkedIn、X 和 YouTube 上关注 NVIDIA Healthcare,及时掌握最新资讯。