对话式人工智能

Llama 3.2 加速部署从边缘到云端实现提速

扩展开源 Meta Llama 模型集合,Llama 3.2 集合包括视觉语言模型(VLM)、小语言模型(SLM)和更新版的 Llama Guard 模型,后者支持视觉功能。当与 NVIDIA 加速计算平台配对使用时,Llama 3.2 为开发者、研究人员和企业提供了宝贵的新功能和优化,以实现其生成式 AI 应用案例。

NVIDIA H100 Tensor Core GPU 上训练的 SLM,尺寸为 1B 和 3B 的 SLM 非常适合部署在边缘设备上的基于 Llama 的 AI 助手。尺寸为 11B 和 90B 的 VLM 支持文本和图像输入以及输出文本。VLM 提供多模态支持,可帮助开发者构建需要视觉接地、推理和理解的强大应用程序。例如,他们可以构建用于图像字幕、图像文本检索、视觉问答和文档问答等的 AI 代理。Llama Guard 模型现在除了支持文本输入之外,还支持图像输入护栏。

Llama 3.2 模型架构是一种自动回归语言模型,该模型使用经过优化的 Transformer 架构。指令调优版本使用监督微调 (SFT) 和人工反馈强化学习 (RLHF),以与人类偏好保持一致,以获得有用性和安全性。所有模型都支持 128K 个令牌的长上下文长度,并针对推理进行了优化,支持分组查询注意力 (GQA)。

NVIDIA 正在优化 Llama 3.2 模型集合,以便为全球数百万个 GPU(从数据中心到使用 NVIDIA RTX 的本地工作站,以及使用 NVIDIA Jetson 的边缘)提供高吞吐量和低延迟。本文介绍了硬件和软件优化、定制和易于部署的功能。

使用 NVIDIA TensorRT 加速 Llama 3.2 性能

NVIDIA 正在加速 Llama 3.2 模型收集,以降低成本和延迟,同时提供出色的吞吐量并提供最佳的最终用户体验。 NVIDIA TensorRT 包括 TensorRT 和 TensorRT-LLM 库,用于高性能的深度学习推理。

Llama 3.2 1B 和 Llama 3.2 3B 模型正在使用 缩放旋转位置嵌入(RoPE) 技术和 其他几项优化 (包括 KV 缓存和动态批处理)在 TensorRT-LLM 中加速长上下文支持。

Llama 3.2 11B 和 Llama 3.2 90B 模型是多模态模型,包括带有文本解码器的视觉编码器。视觉编码器通过将模型导出到 ONNX 图形 并构建 TensorRT 引擎 来加速。ONNX 导出使用内置运算符和标准数据类型创建标准模型定义,并专注于推理。TensorRT 使用 ONNX 图形通过构建 TensorRT 引擎来优化目标 GPU 的模型。这些引擎提供各种硬件级优化,通过层和张量融合以及内核自动调整来最大限度地提高 NVIDIA GPU 的利用率。

来自视觉编码器的视觉信息通过 TensorRT-LLM 中的交叉注意力机制融合到 Llama 文本解码器中。这使得 VLM 能够高效地生成文本,考虑到文本输入的上下文中的视觉推理和理解。

使用 NVIDIA NIM 轻松部署生成式 AI 解决方案。

通过使用 NVIDIA NIM 微服务的生产就绪型部署,可以实现 TensorRT 优化。NIM 微服务可加快生成式 AI 模型在 NVIDIA 加速基础设施(包括云、数据中心和工作站)中的部署。

Llama 3.2 90B Vision Instruct Llama 3.2 11B Vision Instruct Llama 3.2 3B Instruct Llama 3.2 1B Instruct 通过 NVIDIA NIM 微服务为生产部署提供支持。NIM 可简化生成式 AI 工作负载的管理和编排,提供标准应用编程接口(API),并通过生产就绪型容器提供企业支持。全球超过 175 家合作伙伴将其解决方案集成到 NVIDIA NIM 微服务中,从而提供强大且不断增长的生态系统支持,帮助开发人员、研究人员和企业最大限度地提高生成式 AI 应用的投资回报。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo 自定义和评估 Llama 3.2 模型

NVIDIA AI Foundry 为 Llama 3.2 模型定制提供了一个端到端的平台,可访问先进的 AI 工具、计算资源和 AI 专家知识。根据专有数据进行微调的自定义模型使企业能够在特定领域的任务中实现更高的性能和准确性,从而获得竞争优势。

借助 NVIDIA NeMo ,开发者可以整理其训练数据,利用 LoRA、SFT、DPO 和 RLHF 等高级调整技术来定制 Llama 3.2 模型,评估准确性,并添加护栏以确保模型做出适当响应。AI Foundry 为 NVIDIA DGX Cloud 提供专用容量,并由 NVIDIA AI 专家提供支持。输出是一个自定义的 Llama 3.2 模型,打包为 NVIDIA NIM 推理微服务,可部署在任何地方。

使用 NVIDIA RTX 和 NVIDIA Jetson 扩展本地推理

如今, Llama 3.2 模型 已在全球超过 1 亿台 NVIDIA RTX PC 和工作站上进行优化。对于 Windows 部署,NVIDIA 已优化此套模型,以便使用 ONNX-GenAI 运行时和 DirectML 后端高效工作。开始使用 NVIDIA RTX 上的 Llama 3.2 3B 模型。

新的 VLM 和 SLM 模型为 NVIDIA RTX 系统解锁了新功能。为了演示,我们创建了一个 多模态检索增强生成(RAG) 工作流示例,该工作流将文本和视觉数据处理(例如图像、图形和图表)相结合,以增强信息检索和生成。

了解如何在使用 Llama 3.2 SLM 和 VLM 的 NVIDIA RTX Linux 系统上运行此工作流 。请注意,您需要配备 NVIDIA RTX 专业 GPU 且内存超过 30 GB 的 Linux 工作站。

SLMs 是专为边缘设备本地部署而设计的,使用蒸馏、剪枝和量化等技术来降低内存、延迟和计算需求,同时保持专注于应用领域的准确性。如需在 Jetson 上下载并部署 Llama 3.2 1B 和 3B SLM 以及优化的 GPU 推理和 INT4/FP8 量化,请参阅 NVIDIA Jetson AI 实验室的 SLM 教程

多模态模型在视频分析和机器人开发中具有独特的视觉功能,因此在边缘应用中的用途越来越大。 嵌入式 Jetson AGX Orin 64 GB 支持 Llama 3.2 11B VLM

推进社区 AI 模型发展 

作为积极的开源贡献者,NVIDIA 致力于优化社区软件,以帮助用户解决棘手的挑战。开源 AI 模型还提高了透明度,并使用户能够广泛分享 AI 安全性和弹性的工作成果。

借助 Hugging Face 的推理即服务功能 ,开发者可以通过在 NVIDIA DGX 云 上运行的 NVIDIA NIM 微服务进行优化,快速部署领先的 大语言模型 (LLMs),例如 Llama 3 集合。

通过 NVIDIA 开发者计划 免费获取 NIM,用于研究、开发和测试。

进一步探索 NVIDIA AI 推理平台,了解 NVIDIA NIM NVIDIA TensorRT -LLM 、NVIDIA TensorRT 和 NVIDIA Triton 如何使用 LoRA 等先进技术来加速最新的 LLM。

 

标签