AI21 Labs 推出了最新、最先进的 Jamba 1.5 模型系列,这是一个先进的大型语言模型(LLM)集合,旨在出色地处理各种生成式 AI 任务。这些模型能够创建内容、总结和比较文档,并从大量数据集中提取有价值的见解。
这种多专家模型 (MoE) 利用 Transformer 和 Mamba 架构提供出色的效率、延迟和长上下文处理。这一点,再加上在任何加速平台上的轻松部署,使企业能够在靠近数据所在的安全环境中运行应用程序。
NVIDIA 最近优化和托管了新的 Jamba 1.5 模型,这些模型现在可以在NVIDIA API目录上体验。
混合架构可提供卓越性能
Jamba 1.5 模型系列采用独特的混合方法构建,结合了 Mamba 和 Transformer 架构的优势,以及混合专家 (MoE) 模块。具体来说,Mamba 架构擅长管理长上下文,并将计算开销降至最低,而 Transformer 层可提供出色的准确性和推理能力。
MoE 模块有助于增加模型容量(称为可用参数的总数),而无需增加计算要求(活动参数的数量)。将 Transformer、Mamba 和 MoE 层合并为单个解码器架构统称为 Jamba 块。每个 Jamba 块可以装入单个 NVIDIA H100 80 GB GPU 中,并配置由 8 层组成,其中注意力与 Mamba 比为 1:7 层。MoE 应用于所有其他层,共包含 16 个专家,其中两个专家用于生成每个令牌。
通过将这些架构交织在一起,这些模型在显存占用、减少长语境下的计算和提高模型准确性之间实现了平衡。有关模型准确性的具体指标,请参阅 AI21 Labs 新闻稿。
该模型还提供了一个庞大的 256K 令牌上下文窗口,可转换为大约 800 页文本。扩展的上下文功能使模型能够通过保留更多相关信息来处理和生成更准确的响应。
通过函数调用和 JSON 支持增强人工智能交互性
Jamba 1.5 模型的突出功能之一是其强大的函数调用功能,并支持 JSON 数据交换。这项功能大大扩展了 AI 系统的功能,使其能够根据用户输入执行复杂操作,并使用结构化数据输出处理复杂查询。
这不仅提高了响应的相关性和准确性,还增强了应用程序的整体交互性。通过通过外部函数和工具调用扩展模型功能,模型能够处理尚未专门训练过的各种下游用例。
例如,企业可以部署 Jamba 1.5 模型来处理各种查询——从金融服务的贷款期限表生成到零售商店的购物助理——所有实时且高精度。
使用检索增强生成以最大限度地提高准确性。
Jamba 1.5 模型有效地适合检索增强生成(RAG),增强了提供准确且上下文相关的响应的能力。借助 256K 令牌上下文窗口,模型可以管理大量信息,而无需连续分块。这非常适合需要全面数据分析的场景。RAG 在具有广泛和分散知识库的环境中特别有用,使 Jamba 1.5 能够通过在更少的块中提供更多相关信息来简化检索并提高准确性。
开始使用
在 NVIDIA API 目录上体验 Jamba 1.5 模型。这些模型加入了 100 多个热门 AI 模型,这些模型由 NVIDIA NIM 微服务提供支持,旨在简化性能优化的开放和专有基础模型的部署。
NVIDIA 正在与领先的模型构建商合作,在完全加速的堆栈上支持其模型,包括 Llama 3.1 405B、Mistral 8x22B、Phi-3、Nemotron 340B Reward 等。访问 ai.nvidia.com,在企业应用程序中体验、自定义和部署这些模型。