截至今日,NVIDIA 现已支持在 NVIDIA RTX 和 Jetson 上全面推出 Gemma 3n。上个月,Google DeepMind 在 Google I/ O 上预览了 Gemma,其中包括两个针对多模态设备端部署优化的新模型。
除了 3.5 版本中引入的文本和视觉功能之外,Gemma 现在还包括音频。每个组件都集成了可信研究模型:适用于音频的通用语音模型、适用于视觉的 MobileNet v4 和适用于文本的 MatFormer。
最大的使用进步是一项名为“逐层嵌入”的创新。它可以显著减少参数的 RAM 使用量。Gemma 3n E4B 模型具有 80 亿个参数的原始参数计数,但可以使用与 4B 模型相当的动态内存占用来运行。这使开发者能够在资源受限的环境中使用更高质量的模型。
模型名称 | 原始参数 | 输入上下文长度 | 输出上下文长度 | 磁盘大小 |
E2B | 50 亿 | 32K | 32K 减去请求输入 | 1.55 GB |
E4B | 8B | 32K | 32K 减去请求输入 | 2.82 BB |
使用 Jetson 为机器人和边缘 AI 提供动力支持
Gemma 系列模型在 NVIDIA Jetson 设备上运行良好,这些设备旨在为边缘应用 (例如新一代机器人) 提供支持。轻量级架构和动态内存的使用适合资源受限的环境。
Jetson 开发者可以参加在 Kaggle 上举办的 Gemma 3n Impact 挑战赛。其目标是利用这项技术在可访问性、教育、医疗健康、环境可持续性和危机应对等领域为世界带来有意义的积极变化。一些现金大奖的起售价为 1 万美元,可用于提交整体展示和使用适合设备端部署的不同技术 (例如 Jetson) 的作品。
首先,请查看 4 月 Gemma 3 开发者日的实时文本和图像演示,以及使用 Ollama 在本地部署 Gemma 的 GitHub 存储库。
面向 Windows 开发者和 AI 爱好者的 NVIDIA RTX
借助 NVIDIA RTX AI PC,开发者可以使用 Ollama 轻松部署 Gemma 3n 模型。AI 爱好者可以在 AnythingLLM 和 LM Studio 等他们喜爱的应用中使用支持 RTX 加速的 Gemma 3n 模型。
开发者只需使用 Ollama CLI,即可在 RTX 和 Jetson 设备本地部署 Gemma 3n:
- 下载并安装适用于 Windows 的 Ollama
- 打开终端窗口并完成以下命令:
ollama pull gemma3n:e4b
ollama run gemma3n:e4b “Summarize Shakespeare’s Hamlet”
NVIDIA 与 Ollama 合作,为 NVIDIA RTX GPU 提供性能优化,加速 Gemma 3n 等最新模型。对于此模型,Ollama 利用后端的 Ollama 引擎,该引擎基于 GGML 库构建。详细了解 NVIDIA 如何助力 GGML 库在 NVIDIA RTX GPU 上实现卓越性能。
使用开放式 NVIDIA NeMo 框架为您的数据自定义 Gemma
开发者可以将 Hugging Face 的 Gemma 3n 模型与开源 NVIDIA NeMo 框架结合使用。它为后训练 Llama 模型提供了一个全面的框架,以实现更高的准确性,特别是通过对企业特定数据进行微调。NeMo 中的工作流专为端到端设计,涵盖数据准备、高效微调和模型评估。

工作流程包括:
- 数据管护 (NeMo Curator) :Curator 通过提供用于提取、筛选和重复大量结构化和非结构化数据的工具,为预训练或微调准备高质量数据集。它可确保模型输入数据的质量。
- 微调 (NeMo) :数据经过整理后,NeMo 可实现对 Llama 模型的高效微调。它支持多种技术来优化此过程,包括 LoRA (低秩自适应) 、PEFT (参数高效微调) 和用于全面定制的完整参数调优。
- 模型评估 (NeMo Evaluator) :经过微调后,NeMo Evaluator 可用于通过自定义测试和基准测试来评估经过调整的模型的性能。
推进社区模型和协作
NVIDIA 是开源生态系统的积极贡献者,已根据开源许可发布了数百个项目。NVIDIA 致力于 Gemma 等开放模型,以提高 AI 透明度,并让用户广泛分享在 AI 安全性和弹性方面的工作。
立即开始
在 NVIDIA API Catalog 中的 NVIDIA 加速平台上引入您的数据并试用 Gemma 3n E4B。