作者发布了两个新的特定领域 AI 模型,Palmyra-Med 70B 和 Palmyra-Fin 70B,扩展了 NVIDIA NIM 的功能。这些模型为医疗和金融生成式 AI 应用程序带来了无与伦比的准确性,优于 GPT-4、Med-PaLM 2 和 Claude 3.5 Sonnet 等类似模型。
虽然通用型大型语言模型 (LLMs) 占据了近期的新闻头条,但专业模型的目标力量(凭借其更高的准确性和领域知识)将重塑金融和医疗健康等复杂且受监管的行业。Palmyra-Med 70B 和 Palmyra-Fin 70B 是专业模型,因此它们非常擅长为以严格的监管和合规标准而闻名的两个行业的 AI 工作流程提供支持。
Palmyra-Med 70B 和 Palmyra-Fin 70B 即将加入 Writer 构建的顶级语言模型(LLM)名单。其中包括通用模型 Palmyra-X、用于图像分析的 Palmyra-Vision 等。将 Palmyra-Med 70B 和 Palmyra-Fin 70B 作为 NVIDIA NIM 微服务提供,提高了模型的可组合性,这些模型具有预配置的容器,可以跨云、数据中心和本地平台部署到 NVIDIA 加速架构。
除了促进快速部署外,Palmyra-Med 70B 和 Palmyra-Fin 70B 都通过 NVIDIA AI 软件提高了性能。使用 NVIDIA TensorRT-LLM 进行优化后,模型的推理延迟(TTFT)分别降低了 23% 和 30%,并将两者的令牌返回率(TPS)提高了约 60%。这样可以获得响应更灵敏的提示体验,快速生成查询答案。
图 1.NVIDIA TensorRT-LLM 优化对 Palmyra-Med 70B 和 Palmyra-Fin 70B 的 TTFT(左)和 TPS(右)的影响
借助创纪录的医疗准确性,提高患者治疗效果
Palmyra-Med 70B 是我们医疗健康模型的最新版本,也是市场上最准确的模型。在我们的测试中,Palmyra-Med 70B 在所有医疗基准测试中的平均分为 85.9%,比亚军 Med-PaLM 2 高出近 2 个百分点。与 Palmyra 的零射性能相比,Med-PaLM 2 仅在提供五个示例时取得了这些结果。
表 1 显示了热门模型之间医学大规模多任务语言理解 (Massive Multitask Language Understanding, MMLU) 基准的全面比较。基准测试包括 MMLU 临床知识、专业医学、PubMedQA 等。查看完整列表和结果。
Palmyra-Med | Med-PalM 2 (5-shot) | GPT-4 | Gemini 1.0 | GPT-3.5 Turbo | |
MMLU 临床知识 | 90.9 | 88.3 | 86 | 76.7 | 74.7 |
MMLU 医学遗传学 | 94 | 90 | 91 | 75.8 | 74 |
MMLU 解剖学 | 83.7 | 77.8 | 80 | 66.7 | 72.8 |
MMLU 大学医学系 | 84.4% | 80.9 | 76.9 | 69.2 | 64.7 |
PubMedQA | 79.6% | 79.2 | 75.2 | 70.7 | 72.7 |
平均值* | 85.9 | 84.1 | 82.8 | 70.8 | 66 |
其结果是一个准确、可靠的模型,能够处理多种学科中的复杂医疗任务,从而帮助改善患者的治疗效果和研究,包括:
- 临床知识和解剖学:Palmyra-Med 70B 在 MMLU 临床知识方面获得了 90.9% 的高分,在 MMLU 解剖学方面获得了 83.7% 的高分,表明它对临床程序和人体解剖结构有深入的了解。这使得它在医疗环境中的诊断准确性和治疗规划方面非常有用。
- 遗传学和大学医学:该模型在医学遗传学和大学医学中的得分分别为 94.0% 和 84.4%,擅长解释基因数据并应用复杂的医学知识,这对遗传咨询和医学教育至关重要。
- 生物医学研究:Palmyra-Med 70B 在 PubMedQA 中的性能达到 80%,证明其能够从生物医学文献中有效地提取和分析信息,从而为研究和基于证据的医疗实践提供帮助。
作者与一些领先的医疗健康公司合作,通过功能强大的生成式 AI 应用程序帮助他们改善患者的治疗效果。Palmyra-Med 70B 非常精通一系列医疗用例,包括临床决策支持、提供基于证据的诊断建议和成功的治疗策略。它还有助于开发和理解临床试验协议、药物交互摘要、医疗文档生成等多种应用场景。
Palmyra-Med 70B 助力医疗行业的开发者构建融合了深度医学知识和专业知识的新型 AI 应用程序。
强大的金融 LLM
在金融领域采用生成式 AI 会遇到一些独特的障碍:财务报表冗长、术语复杂以及市场分析细致入微。通过将一套精心策划的金融训练数据与自定义微调指令数据相结合,该团队训练了一个高度准确的金融 LLM,可以为各种用例提供支持。
- 财务趋势分析和预测:检查市场动态并对财务表现进行预测。
- 投资分析:生成对公司、行业或经济指标的详细评估。
- 风险评估:评估与不同金融工具或方法相关的潜在风险。
- 资产分配策略:根据个人风险偏好和财务目标推荐量身定制的投资组合。
为了测试 Palmyra-Fin 的专业知识,Palmyra Fin 的任务是通过 CFA Level III 考试。该模型在 CFA Level III 样本测试的多项选择部分中得分 73%,使其成为第一个可以通过该测试的模型。从这个角度来看,通过 CFA Level III 是投资管理行业的最高荣誉之一。在过去 11 年中,平均及格分数为 60%,通常不到一半的应试者获得及格分数。
Palmyra-Fin 的表现明显优于 GPT-4 等其他通用型号,它们之前在测试中的表现为 33%。
该团队还通过长期评估基准测试运行 Palmyra-Fin,该测试的表现优于热门模型,如 Claude 3.5 Sonnet、GPT-4o 和 Mixtral 8x7B,这表明该模型能够分析复杂的金融主题。
Palmyra LLM 入门指南
展望未来,特定领域的 LLM 将处于 AI 创新的前沿,改变行业构建专业 AI 应用程序的方式。Writer 正在通过创建 Palmyra-Med 70B 和 Palmyra-Fin 70B 等模型来引领这一趋势,这些模型具有深入的行业特定专业知识,非常适合企业用例。这些目标明确的模型不仅能够保证更高的准确性和效率,还能够改善数据管理和监管合规性。
如果您要在医疗或金融领域构建 AI 应用程序,请试用 Palmyra-Med 70B 和 Palmyra-Fin 70B,可以通过 NVIDIA API 目录访问。对于商业用例,您可以通过 sales@writer.com 联系 Writer 团队。