生成式人工智能/大语言模型

借助视觉问答和多模态检索推进神经科学研究

领先的医疗健康组织正在转向生成式 AI,以帮助构建能够带来挽救生命影响的应用。这些组织包括印度理工学院 – IIT Madras 大脑中心 。为推进神经科学研究,IIT Madras 大脑中心正在利用 AI 生成不同人口群体的细胞层面的全人脑分析。

该中心使用视觉问答 (VQA) 模型和 大语言模型 (LLM) 开发了一种独特的知识探索框架,使神经科学界更易于获取脑成像数据。本文展示了关于人工智能 (AI) 如何突破神经科学研究极限的概念验证。通过构建融合 VQA 模型与 LLM 的多模态框架,该团队找到了一种让大脑成像数据更易于理解的方法。这种方法可帮助研究人员发现有关大脑结构和功能的新见解,为取得突破性进展奠定基础,进而实现挽救生命的发现。

神经科学知识探索框架 

该知识探索框架利用神经科学出版物帮助研究人员将脑成像数据与最新的神经科学研究关联起来。借助此工具,研究人员可以探索与特定大脑区域的大脑图像和发现相关的近期进展,例如成像数据中显示的特定状况的原因。他们还可以跟踪任何神经科学研究领域的现状,并找到相关查询的答案。

该框架的处理工作流由两部分组成:

  1. 提取: 将最新的神经科学出版物编入知识库。
  2. Q&A: 支持用户使用查询与知识库进行交互。最新的神经科学出版物从公开可用的数据库中下载,并在提取流程中进行处理。然后逐段提取文本。我们使用特定领域的微调嵌入模型(domain-specific, fine-tuned embedding model)为每个段落生成嵌入。然后将这些嵌入编入向量数据库。

问答部分是一个 多模态检索增强型生成(RAG) 工作流,可让用户与文本和图像进行交互。本部分会过滤用户输入,以从所提供的文本中删除任何不相干或有毒的内容。然后,使用结合语义和关键字相似性的混合相似性匹配方法检索相关段落。检索到的段落随后使用重新排名模型进行排名。最后,将前两个段落传递到语言模型中,以便生成答案。

视觉问答和多模态检索

用户可以使用大脑区域的图像与框架进行交互,并询问有关所显示图像的问题。该框架采用最新的 VQA 模型(如 Llava-Med)来提供答案。此外,该框架还支持检索基于给定图像或文本的类似图像。这部分流程仍处于开发阶段,需要进一步优化。

Diagram of a Visual Question Answering (VQA) pipeline. A user query goes through NeMo Guardrails to a Vector Database and is processed by NeMo Retriever Embedding NIM. It retrieves similar content, re-ranked by NeMo Retriever Re-ranking NIM. Llava-Med provides a VQA answer, and the Mixtral-8x7B NVIDIA NIM generates the final response.
图 1、VQA 端到端工作流架构

使用 NVIDIA 技术克服研究挑战

NVIDIA 技术堆栈为知识库框架的处理管道提供支持。我们已使用各种 NVIDIA 工具和框架来确保此管道的可靠性和性能。开发流程的多个部分带来了几个挑战,所有这些挑战都借助 NVIDIA 技术成功解决。

提高检索准确性 

该框架包括以神经科学出版物为中心的专门知识库。由于通用嵌入模型(generic embedding models)最初并未基于此类数据进行训练,因此需要进行微调以提高检索准确性。大规模手动创建微调数据集极具挑战性,需要神经科学专家提供意见,因此合成数据集是使用大语言模型(LLM)生成的。为了支持大规模数据集开发,快速的 LLM 推理至关重要;Mixtral 8x 7B NVIDIA NIM 微服务用于提高推理速度。对嵌入模型进行微调后,前两个结果的检索准确率提高了 15.25%。

NVIDIA NeMo Retriever 是一套用于信息检索的 NIM 微服务,进一步提高了检索准确性。使用 nv-rerank-qa-mistral-4b_v2 NIM 微服务对检索到的段落进行重新排序,将前 2 名检索准确率再提高 15.27%。

用户输入过滤 

为了确保用户仅可获取相关内容,IIT Madras 的研究人员使用 NVIDIA NeMo Guardrails 进行过滤。他们使用 Llama Guard 2 8B 语言模型实现了用户输入守护,并针对神经科学开发了定制提示。该提示使用 公共毒性聊天数据库 进行了测试,以评估其阻止不相关问题的能力,并使用神经科学特定问题进行了评估,以确认其接受了相关问题。结果显示:

  • 38% 的有毒内容被默认提示阻止
  • 68% 的有毒内容被自定义提示阻止。
  • 98% 的神经科学特定问题被自定义提示符接受(基于自定义数据集)。

生成答案的推理速度 

由于多个用户同时访问系统,因此在合理时间内生成答案极具挑战性。这一挑战通过在 NVIDIA DGX A100 服务器上运行 LLama 3.1 70B NIM 得以克服。在 NVIDIA DGX A100 服务器上使用 LLama 3.1 70B NIM,推理速度比自定义开发的推理代码快 4 倍。

用于多模态 PDF 提取的 NVIDIA AI blueprint 

最近推出的用于多模态 PDF 数据提取的 NVIDIA AI blueprint 可用于从神经科学出版物中准确提取相关信息,并有可能连接到上述检索管道。

此工作流旨在帮助组织准确提取 PDF 文档中包含的知识,这是存储出版物和研究信息的常见形式。NVIDIA 创建了一个 RAG 模型,该模型使用 NeMo Retriever NIM 微服务来解析 PDF,其中包括文本、图像、图表、表格、绘图和其他图表。

Workflow of the NVIDIA AI Blueprint for the multimodal PDF data extraction showing the retrieval pipeline (top) and ingestion pipeline (bottom).
图 2 、适用于多模态 PDF 数据提取工作流的 NVIDIA AI blueprint可提取大量 PDF 文档中文本、图形、图表和表格中包含的高度准确的见解。

NVIDIA blueprint 提供了使用 NVIDIA NIM 和合作伙伴服务构建的示例应用,以及用于部署的参考代码、自定义指南和 Helm 图表。这些蓝图为科学开发者使用功能强大的 NVIDIA AI 工具构建自己的应用提供了一个良好的开端。它们非常灵活,可以根据研究项目进行调整和扩展,使开发者能够为复杂的生物医学文献评审任务创建复杂的工作流。

示例 

本节展示了视觉问答和图像到图像检索的示例,并展示了如何将这些大型语言模型(LLM)技术应用于神经科学研究。第一个示例说明了视觉问答如何从输入图像中识别特定的大脑区域。其他示例展示了如何通过比较组织切片的显微图像来实现图像到图像的检索,同时强调了根据视觉特征检索类似样本的能力。

视觉问答示例#1 

图 3 是视觉问答示例的输入图像。

问题 :图像中的大脑区域是什么? 答案 :图像中的大脑区域是小脑,是大脑的一部分,在运动控制、协调和平衡方面发挥着重要作用。

Image of a cerebellum.
图 3、用于视觉问答的小脑输入图像。

视觉问答示例#2 

图 4 是第二个视觉问答示例的输入图像。

问题 :此图像显示的是额叶皮层吗? 答案 :是的,图像显示的是额叶皮层,这是大脑的一个区域。

Image of the frontal cortex of the brain.
图 4、用于视觉问答的大脑额叶皮层输入图像 (Input image of the frontal cortex of the brain for visual question answering)

图像到图像检索示例#1 

图 5 并排显示组织切片的两张显微图像。左侧图像显示的是带有紫色染色和一些结构细节的输入组织样本,右侧图像显示的是检索到的外观相似的组织样本,具有类似的染色和形状,展示了图像到图像的检索。

Two side-by-side microscopic images of tissue sections are shown. One image features a purple-stained input sample with distinct structural details, while the other displays a retrieved tissue sample that closely resembles it in staining and shape, illustrating image-to-image retrieval.
图 5、组织切片的输入图像(左)和检索到的图像(右)

图像到图像检索示例#2 

图 6 并排显示了两张脑组织切片的显微图像。左图显示的是染色为紫色的输入样本,其中有明显的浅色和深色纹理以及一些细长、浅色的条纹。右图显示的是检索到的组织样本,其整体形状、染色和纹理模式类似,用于演示图像到图像的检索。

Two adjacent images of brain tissue, one image depicts an input sample stained purple, showcasing varied light and dark textures alongside several elongated lighter streaks. The other image displays a retrieved tissue sample that mirrors the shape, staining, and texture patterns of the input sample, highlighting the process of image-to-image retrieval.
图 6、脑组织的输入图像(左)和检索到的图像(右)

总结 

IIT Madras 大脑中心以及 NVIDIA 加速计算和 AI 技术 —— 包括 NVIDIA NeMo、NVIDIA NIM、NVIDIA AI 蓝图和 NVIDIA DGX —— 正在推动神经科学研究的发展,为了解大脑结构和功能开辟新的途径,并加速可能导致挽救生命的发现。

探索适用于医疗健康行业的 NVIDIA NIM

 

标签