数据中心/云端

轻量级、多模态、多语种 Gemma 3 模型实现性能优化

使用基础模型构建 AI 系统需要在内存、延迟、存储、计算等资源之间实现微妙的平衡。在将生成式 AI 功能引入快速发展的 AI 应用生态系统时,管理成本和用户体验的开发者无法做到一刀切。

您需要高质量、可定制的模型选项,以便支持在数据中心、边缘计算和设备端用例等不同计算环境中托管和部署的大规模服务,例如使用 GPU、DPU 和 Jetson 等硬件加速。

Google DeepMind 刚刚宣布推出 Gemma 3,这是一系列新的多模态和多语言开放模型。Gemma 3 由一个 1B 纯文本小语言模型 (SLM) 和三个大小为 4B、12B 和 27B 的图像文本模型组成。您可以使用 Hugging Face 中的模型,并在 NVIDIA API Catalog 中演示 1B 模型。

Gemma 3 1B 模型经过优化,可在需要低内存占用的设备应用程序或环境中高效运行,输入高达 32K 个令牌。Gemma 3 4B、12B 和 27B 模型可接受多达 128K 个令牌的文本、图像和多图像输入。

使用优化的 Gemma 3 模型进行实验和原型设计

在 NVIDIA API Catalog 中探索此模型,您可以在其中试验自己的数据并配置参数,例如最大 tokens 数以及温度和 top P 的采样值。

预览还将在 Python、NodeJS 和 Bash 中生成所需的代码,以便将模型集成到您的程序或工作流程中。如果您将 LangChain 用于构建代理、连接外部数据或关联操作,则可以使用使用 NVIDIA LangChain 库 生成的可重复使用客户端。

The GIF shows a chat application and the Python code for calling the Gemma 3 model. The user asks the chat application to generate a limerick about GPU computing and receives a short text response. The user then tabs through different variants of the generated code section for Python and LangChain.
图 1。Gemma 3 模型演示

要开始使用您自己的环境,请执行以下步骤:

  1. 使用 NVIDIA API Catalog 创建一个免费帐户。
  2. 前往 Gemma 3 模型卡。
  3. 选择 使用此 NIM 进行构建 以及 生成 API 密钥
  4. 将生成的密钥另存为 NVIDIA_API_KEY

适用于新一代机器人和边缘解决方案的下一代人工智能(Next-level AI)

每个 Gemma 3 模型都可以部署到 NVIDIA Jetson 系列嵌入式计算板上,用于机器人和边缘 AI 应用。较小的版本 1B 和 4B 可在 Jetson Nano 这样的小型设备上使用。专为高需求应用打造的 27B 模型可在支持高达 275 TOPS 的 Jetson AGX Orin 上提供服务。有关更多信息,请参阅最新的 Jetson Orin Nano Developer Kit 公告。

NVIDIA 和 Google 的持续合作

Google DeepMind 和 NVIDIA 合作开发了 Gemma 的每个版本。NVIDIA 在优化 GPU 模型方面发挥了关键作用,为 JAX、Python 机器学习库、Google 的 XLA 编译器、OpenXLA 等做出了贡献。

推进社区模型和协作

NVIDIA 是开源生态系统的积极贡献者,已根据开源许可证发布了 数百个项目

NVIDIA 致力于开发 Gemma 等开放模型,以提高 AI 透明度,并让用户广泛分享在 AI 安全性和弹性方面的工作。借助 NVIDIA NeMo 平台 ,这些开放模型可以根据专有数据进行定制和调整,适用于各行各业的 AI 工作流。

立即开始使用

在 NVIDIA API Catalog 中的 Gemma 模型 上引入您的数据并在 NVIDIA 加速平台上试用 Gemma。

 

 

标签