生成式人工智能/大语言模型

Writer 推出医疗健康和金融领域专用大语言模型

作者发布了两个新的特定领域 AI 模型,Palmyra-Med 70B 和 Palmyra-Fin 70B,扩展了 NVIDIA NIM 的功能。这些模型为医疗和金融生成式 AI 应用程序带来了无与伦比的准确性,优于 GPT-4、Med-PaLM 2 和 Claude 3.5 Sonnet 等类似模型。

虽然通用型大型语言模型 (LLMs) 占据了近期的新闻头条,但专业模型的目标力量(凭借其更高的准确性和领域知识)将重塑金融和医疗健康等复杂且受监管的行业。Palmyra-Med 70B 和 Palmyra-Fin 70B 是专业模型,因此它们非常擅长为以严格的监管和合规标准而闻名的两个行业的 AI 工作流程提供支持。

Palmyra-Med 70B 和 Palmyra-Fin 70B 即将加入 Writer 构建的顶级语言模型(LLM)名单。其中包括通用模型 Palmyra-X、用于图像分析的 Palmyra-Vision 等。将 Palmyra-Med 70B 和 Palmyra-Fin 70B 作为 NVIDIA NIM 微服务提供,提高了模型的可组合性,这些模型具有预配置的容器,可以跨云、数据中心和本地平台部署到 NVIDIA 加速架构。

除了促进快速部署外,Palmyra-Med 70B 和 Palmyra-Fin 70B 都通过 NVIDIA AI 软件提高了性能。使用 NVIDIA TensorRT-LLM 进行优化后,模型的推理延迟(TTFT)分别降低了 23% 和 30%,并将两者的令牌返回率(TPS)提高了约 60%。这样可以获得响应更灵敏的提示体验,快速生成查询答案。

图 1.NVIDIA TensorRT-LLM 优化对 Palmyra-Med 70B 和 Palmyra-Fin 70B 的 TTFT(左)和 TPS(右)的影响

借助创纪录的医疗准确性,提高患者治疗效果

Palmyra-Med 70B 是我们医疗健康模型的最新版本,也是市场上最准确的模型。在我们的测试中,Palmyra-Med 70B 在所有医疗基准测试中的平均分为 85.9%,比亚军 Med-PaLM 2 高出近 2 个百分点。与 Palmyra 的零射性能相比,Med-PaLM 2 仅在提供五个示例时取得了这些结果。

表 1 显示了热门模型之间医学大规模多任务语言理解 (Massive Multitask Language Understanding, MMLU) 基准的全面比较。基准测试包括 MMLU 临床知识、专业医学、PubMedQA 等。查看完整列表和结果。

  Palmyra-Med Med-PalM 2 (5-shot) GPT-4 Gemini 1.0 GPT-3.5 Turbo
MMLU 临床知识 90.9 88.3 86 76.7 74.7
MMLU 医学遗传学 94 90 91 75.8 74
MMLU 解剖学 83.7 77.8 80 66.7 72.8
MMLU 大学医学系 84.4% 80.9 76.9 69.2 64.7
PubMedQA 79.6% 79.2 75.2 70.7 72.7
平均值* 85.9 84.1 82.8 70.8 66
表 1. 热门模型的综合医疗 MMLU 基准比较通过所有 9 项测试衡量平均性能

其结果是一个准确、可靠的模型,能够处理多种学科中的复杂医疗任务,从而帮助改善患者的治疗效果和研究,包括:

  • 临床知识和解剖学:Palmyra-Med 70B 在 MMLU 临床知识方面获得了 90.9% 的高分,在 MMLU 解剖学方面获得了 83.7% 的高分,表明它对临床程序和人体解剖结构有深入的了解。这使得它在医疗环境中的诊断准确性和治疗规划方面非常有用。
  • 遗传学和大学医学:该模型在医学遗传学和大学医学中的得分分别为 94.0% 和 84.4%,擅长解释基因数据并应用复杂的医学知识,这对遗传咨询和医学教育至关重要。
  • 生物医学研究:Palmyra-Med 70B 在 PubMedQA 中的性能达到 80%,证明其能够从生物医学文献中有效地提取和分析信息,从而为研究和基于证据的医疗实践提供帮助。

作者与一些领先的医疗健康公司合作,通过功能强大的生成式 AI 应用程序帮助他们改善患者的治疗效果。Palmyra-Med 70B 非常精通一系列医疗用例,包括临床决策支持、提供基于证据的诊断建议和成功的治疗策略。它还有助于开发和理解临床试验协议、药物交互摘要、医疗文档生成等多种应用场景。

Palmyra-Med 70B 助力医疗行业的开发者构建融合了深度医学知识和专业知识的新型 AI 应用程序。

强大的金融 LLM

在金融领域采用生成式 AI 会遇到一些独特的障碍:财务报表冗长、术语复杂以及市场分析细致入微。通过将一套精心策划的金融训练数据与自定义微调指令数据相结合,该团队训练了一个高度准确的金融 LLM,可以为各种用例提供支持。

  • 财务趋势分析和预测:检查市场动态并对财务表现进行预测。
  • 投资分析:生成对公司、行业或经济指标的详细评估。
  • 风险评估:评估与不同金融工具或方法相关的潜在风险。
  • 资产分配策略:根据个人风险偏好和财务目标推荐量身定制的投资组合。

为了测试 Palmyra-Fin 的专业知识,Palmyra Fin 的任务是通过 CFA Level III 考试。该模型在 CFA Level III 样本测试的多项选择部分中得分 73%,使其成为第一个可以通过该测试的模型。从这个角度来看,通过 CFA Level III 是投资管理行业的最高荣誉之一。在过去 11 年中,平均及格分数为 60%,通常不到一半的应试者获得及格分数。

Palmyra-Fin 的表现明显优于 GPT-4 等其他通用型号,它们之前在测试中的表现为 33%

该团队还通过长期评估基准测试运行 Palmyra-Fin,该测试的表现优于热门模型,如 Claude 3.5 Sonnet、GPT-4o 和 Mixtral 8x7B,这表明该模型能够分析复杂的金融主题。

A bar chart comparing the performance of different large language models on a financial benchmark evaluation. Palmyra-Fin 70B performs the best, followed by Claude 3.5 Sonnet, Qwen2 70B Instruct, GPT-40, and Mixtral 8x7B. The benchmark was designed to simulate real-world use cases.
图 2.在 long-fin-eval 基准测试中,Palmyra-Fin 70B 的性能优于其他模型

Palmyra LLM 入门指南

展望未来,特定领域的 LLM 将处于 AI 创新的前沿,改变行业构建专业 AI 应用程序的方式。Writer 正在通过创建 Palmyra-Med 70B 和 Palmyra-Fin 70B 等模型来引领这一趋势,这些模型具有深入的行业特定专业知识,非常适合企业用例。这些目标明确的模型不仅能够保证更高的准确性和效率,还能够改善数据管理和监管合规性。

如果您要在医疗或金融领域构建 AI 应用程序,请试用 Palmyra-Med 70BPalmyra-Fin 70B,可以通过 NVIDIA API 目录访问。对于商业用例,您可以通过 sales@writer.com 联系 Writer 团队。

Tags