对话式人工智能

IBM 全新推出的 GRANITE 3.0 生成式 AI 模型:小体积、高准确度、高效率

今天,IBM 发布了第三代 IBM Granite,这是一个开放语言模型和辅助工具的集合。前几代 Granite 专注于特定领域的用例;最新的 IBM Granite 模型在学术和企业基准测试中达到或超过领先的类似规模的开放模型的性能。

对开发者友好的 Granite 3.0 生成式 AI 模型专为函数调用而设计,支持基于工具的用例。这些模型是作为主流企业模型开发的,能够作为跨用例复杂工作流的主要构建块,包括文本生成、代理 AI、分类、工具调用、摘要、实体提取、客户服务聊天机器人等。

隆重推出 IBM 的第三代 GRANITE 系列

IBM 开发了 Granite 系列,可作为 NVIDIA NIM 微服务 供企业使用,在不影响性能的情况下优先考虑行业领先的信任、安全性和成本效益。

总体而言,Granite 3.0 版本包

  • 密集的纯文本 LLM:Granite 3.0 8B、Granite 3.0 2B
  • 多专家模型(MoE)LLMs:Granite 3.0 3B-A800M,Granite 3.0 1B-A400M
  • 基于 LLM 的输入输出护栏模型:Granite Guardian 8B、Granite Guardian 2B

GRANITE 架构的核心组件包括:用于位置信息的 Group-query Attention (GQA) Rotary Position Encodings (RoPE)、采用 SwiGLU 激活的多层感知器 (MLP)、 RMSNorm 和共享输入/输出嵌入。

通过预测解码优化性能

新的 8B 和 2B 模型基于精心策划的企业数据的超过 12 万亿个令牌进行训练,在性能和速度方面都比前代模型有了显著改进。

预测解码是一种加速模型推理速度的优化技术,可帮助 LLM 在使用相同(或更少)的计算资源的同时更快地生成文本,并允许更多用户同时使用模型。例如,在 IBM Research 最近的一项突破中,预测解码用于将 Granite Code 20B 的延迟减半,同时将吞吐量提高四倍。

标准推理 中,LLMs 处理其迄今为止生成的每个先前令牌,然后一次生成一个令牌。在预测解码中,LLMs 还会评估在将要生成的令牌 之后 可能会出现的几个潜在令牌。如果这些“预测”令牌经过验证,具有足够准确的准确性,则一次传递可以生成两个或多个令牌,以一个令牌的计算“价格”计算。

Benchmark Metric Mistral 7B Llama-3.1 8B Granite-3.0 8B
IFEval 0-shot 49.93 50.37 52.27
MT-Bench 7.62 8.21 8.22
AGI-Eval 5-shot 37.15 41.07 40.52
MMLU 5-shot 62.01 68.27 65.82
MMLU-Pro 5-shot 30.34 37.97 34.45
OBQA 0-shot 47.40 43.00 46.60
SIQA 0-shot 59.64 65.01 71.21
Hellaswag 10-shot 84.61 80.12 82.61
WinoGrande 5-shot 78.85 78.37 77.51
TruthfulQA 0-shot 59.68 54.07 60.32
BoolQ 5-shot 87.34 87.25 88.65
SQuAD 2.0 0-shot 18.66 21.49 21.58
ARC-C 25-shot 63.65 60.67 64.16
GPQA 0-shot 30.45 32.13 33.81
BBH 3-shot 46.73 50.81 51.55
HumanEvalSynthesis pass@1 34.76 63.41 64.63
HumanEvalExplain pass@1 21.65 45.88 57.16
HumanEvalFix pass@1 53.05 68.90 65.85
MBPP pass@1 38.60 52.20 49.60
GSM8k 5-shot, cot 37.68 65.04 68.99
MATH 4-shot 13.10 34.46 30.94
PAWS-X (7 langs) 0-shot 56.57 64.68 64.94
MGSM (6 langs) 5-shot 35.27 43.00 48.20
Average All 45.86 52.87 54.33
Open LLM Leaderboard 1 65.54 68.58 69.04
Open LLM Leaderboard 2 34.61 37.28 37.56
LiveBench 22.40 27.60 26.20
MixEval 73.55 73.35 76.5
表 1. 与其他基础语言模型在热门基准测试中的准确性表现的 IBM Granite-3.0 8B Instruct 模型比较。

GRANITE 3.0 8B Instruct 与 RAGBench 上的 Mistral 和 Llama 模型保持同步。RAGBench 是一个基准测试数据集,包含从行业语料库(如用户手册)中提取的 100,000 个检索增强生成(RAG)任务。

IBM GRANITE 的首个 MoE 模型

IBM Granite Generation 3 还包括 Granite 的首个混合专家模型 (MoE),即 Granite-3B-A800M-Instruct 和 Granite-1B-A400-Instruct。这些 Granite MoE 模型是在超过 10 万亿个数据令牌上训练的,非常适合部署在设备上的应用程序或需要极低延迟的情况下。

在此架构中,Dense 模型使用的 MLP 层被替换为 MoE 层。Granite MoE 架构的核心组件包括:细粒度专家; Dropless Token Routing ,确保 MoE 路由器不会丢弃单个输入令牌(无论专家之间的负载不平衡如何),以及 负载平衡损失 作为保持专家负载均衡分布的策略。

Benchmark Metric Llama-3.2 SmolLM Granite-3.0
Active parameters 1B 1.7B 800M
Total parameters 1B 1.7B 3B
Instruction Following      
IFEval 0-shot 41.68 9.20 42.49
MT-Bench 5.78 4.82 7.02
Human Exams      
AGI-Eval 5-shot 19.63 19.50 25.70
MMLU 5-shot 45.40 28.47 50.16
MMLU-Pro 5-shot 19.52 11.13 20.51
Commonsense      
OBQA 0-shot 34.60 39.40 40.80
SIQA 0-shot 35.50 34.26 59.95
Hellaswag 10-shot 59.74 62.61 71.86
WinoGrande 5-shot 61.01 58.17 67.01
TruthfulQA 0-shot 43.83 39.73 48.00
Reading Comprehension      
BoolQ 5-shot 66.73 69.97 78.65
SQuAD 2.0 0-shot 16.50 19.80 6.71
Reasoning      
ARC-C 25-shot 41.38 45.56 50.94
GPQA 0-shot 25.67 25.42 26.85
BBH 3-shot 33.54 30.69 37.70
Code      
HumanEvalSynthesis pass@1 35.98 18.90 39.63
HumanEvalExplain pass@1 21.49 6.25 40.85
HumanEvalFix pass@1 36.62 3.05 35.98
MBPP 37.00 25.20 27.40
Math      
GSM8k 5-shot,cot 26.16 0.61 47.54
MATH 4-shot 17.62 0.14 19.86
Multilingual      
PAWS-X (7 langs) 0-shot 34.44 17.86 50.23
MGSM (6 langs) 5-shot 23.80 0.07 28.87
Average All 34.07 24.82 40.20
Open Leaderboards      
Open LLM Leaderboard 1 47.36 39.87 55.83
Open LLM Leaderboard 2 26.50 18.30 27.79
LiveBench 11.60 3.40 16.8
表 2. IBM Granite-3.0 MoE 3B 模型与其他基础 LLM 相比的准确性性能。

GRANITE Guardian:领先的安全护栏

新的 Guardian 3.0 8B 和 Granite Guardian 3.0 2B 是其各自大小相应的基础预训练 Granite 模型的变体, 经过微调 ,可评估模型的输入和输出,并将其分类为各类风险和伤害维度,包括越狱、偏见、暴力、冒犯、性内容和不道德行为。

Granite Guardian 3.0 模型还涵盖了一系列特定于 RAG 的问题,评估了接地性 (测量检索到的文档对输出的支持程度)、上下文相关性 (衡量检索到的文档是否与输入提示相关) 和答案相关性等品质。

该模型系列对开发者友好,根据 Apache 2.0 许可提供,并随附 IBM GitHub 上的 Granite 社区提供的新开发者方法。

使用 NVIDIA NIM 在任意位置部署 GRANITE 模型

NVIDIA 已与 IBM 合作,通过 NVIDIA NIM 提供 Granite 系列模型。NVIDIA NIM 是一套易于使用的微服务,旨在跨云、数据中心和工作站安全可靠地部署高性能 AI 模型推理。

NIM 使用推理优化引擎、行业标准 API 和预构建容器,为需求提供高吞吐量的 AI 推理。

NVIDIA NIM 可提供出色的吞吐量,使企业能够更快地生成更多 token。对于生成式 AI 应用而言,token 处理是关键的性能指标,而 token 吞吐量的增加直接转化为企业收入的增加和用户体验的改善。

开始使用

使用免费的 NVIDIA 云积分体验 Granite 模型 。您可以开始大规模测试模型,并通过将应用连接到在完全加速的堆栈上运行的 NVIDIA 托管 API 端点来构建概念验证 (POC)。

访问文档页面 ,下载模型并在任意 NVIDIA GPU 加速工作站、数据中心或云平台上进行部署。

 

 

标签