AI 平台/部署

在 NVIDIA Jetson 和 RTX 上运行 Google DeepMind 的 Gemma 3n

截至今日,NVIDIA 现已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上个月,Google DeepMind 在 Google I/ O 上预览了 Gemma,其中包括两个针对多模态设备端部署优化的新模型。

除了 3.5 版本中引入的文本和视觉功能之外,Gemma 现在还包括音频。每个组件都集成了可信研究模型:适用于音频的通用语音模型、适用于视觉的 MobileNet v4 和适用于文本的 MatFormer

最大的使用进步是一项名为“逐层嵌入”的创新。它可以显著减少参数的 RAM 使用量。Gemma 3n E4B 模型具有 80 亿个参数的原始参数计数,但可以使用与 4B 模型相当的动态内存占用来运行。这使开发者能够在资源受限的环境中使用更高质量的模型。

模型名称 原始参数 输入上下文长度 输出上下文长度 磁盘大小
E2B 50 亿 32K 32K 减去请求输入 1.55 GB
E4B 8B 32K 32K 减去请求输入 2.82 BB
表 1:E2B 和 E4B 模型的 Gemma 3n 模型组件

使用 Jetson 为机器人和边缘 AI 提供动力支持

Gemma 系列模型在 NVIDIA Jetson 设备上运行良好,这些设备旨在为边缘应用 (例如新一代机器人) 提供支持。轻量级架构和动态内存的使用适合资源受限的环境。

Jetson 开发者可以参加在 Kaggle 上举办的 Gemma 3n Impact 挑战赛。其目标是利用这项技术在可访问性、教育、医疗健康、环境可持续性和危机应对等领域为世界带来有意义的积极变化。一些现金大奖的起售价为 1 万美元,可用于提交整体展示和使用适合设备端部署的不同技术 (例如 Jetson) 的作品。

首先,请查看 4 月 Gemma 3 开发者日的实时文本和图像演示,以及使用 Ollama 在本地部署 Gemma 的 GitHub 存储库

面向 Windows 开发者和 AI 爱好者的 NVIDIA RTX

借助 NVIDIA RTX AI PC,开发者可以使用 Ollama 轻松部署 Gemma 3n 模型。AI 爱好者可以在 AnythingLLM 和 LM Studio 等他们喜爱的应用中使用支持 RTX 加速的 Gemma 3n 模型。

开发者只需使用 Ollama CLI,即可在 RTX 和 Jetson 设备本地部署 Gemma 3n:

  1. 下载并安装适用于 Windows 的 Ollama
  2. 打开终端窗口并完成以下命令:
ollama pull gemma3n:e4b
ollama run gemma3n:e4b “Summarize Shakespeare’s Hamlet” 

NVIDIA 与 Ollama 合作,为 NVIDIA RTX GPU 提供性能优化,加速 Gemma 3n 等最新模型。对于此模型,Ollama 利用后端的 Ollama 引擎,该引擎基于 GGML 库构建。详细了解 NVIDIA 如何助力 GGML 库NVIDIA RTX GPU 上实现卓越性能。

使用开放式 NVIDIA NeMo 框架为您的数据自定义 Gemma

开发者可以将 Hugging Face 的 Gemma 3n 模型与开源 NVIDIA NeMo 框架结合使用。它为后训练 Llama 模型提供了一个全面的框架,以实现更高的准确性,特别是通过对企业特定数据进行微调。NeMo 中的工作流专为端到端设计,涵盖数据准备、高效微调和模型评估。

A diagram showing the workflow of NeMo Framework. It provides end-to-end support for developing large language models (LLMs) and multimodal models (MMs).
图 1。NeMo 框架为大语言模型和多模态模型提供端到端支持。

工作流程包括:

  • 数据管护 (NeMo Curator) :Curator 通过提供用于提取、筛选和重复大量结构化和非结构化数据的工具,为预训练或微调准备高质量数据集。它可确保模型输入数据的质量。
  • 微调 (NeMo) :数据经过整理后,NeMo 可实现对 Llama 模型的高效微调。它支持多种技术来优化此过程,包括 LoRA (低秩自适应) 、PEFT (参数高效微调) 和用于全面定制的完整参数调优。
  • 模型评估 (NeMo Evaluator) :经过微调后,NeMo Evaluator 可用于通过自定义测试和基准测试来评估经过调整的模型的性能。

推进社区模型和协作

NVIDIA 是开源生态系统的积极贡献者,已根据开源许可发布了数百个项目。NVIDIA 致力于 Gemma 等开放模型,以提高 AI 透明度,并让用户广泛分享在 AI 安全性和弹性方面的工作。

立即开始

NVIDIA API Catalog 中的 NVIDIA 加速平台上引入您的数据并试用 Gemma 3n E4B。

 

标签