立即下载 DOCA,开启高性能AI 网络之旅,实现“一站式” 编程
边缘计算

NVIDIA JetPack 6.2 为 NVIDIA Jetson Orin Nano 和 Jetson Orin NX 模块引入超级模式

NVIDIA Jetson Orin Nano 超级开发者套件 的推出为小型边缘设备开启了 生成式 AI 的新时代。新的 超级模式 在开发者套件上实现了前所未有的生成式 AI 性能提升,最高可达 1.7 倍,使其成为最经济实惠的生成式 AI 超级计算机。

JetPack 6.2 现已支持 Jetson Orin Nano Jetson Orin NX 生产模组的超级模式,可将生成式 AI 模型的性能提升高达 2 倍。现在,您可以为新的和现有的机器人和边缘 AI 应用释放更多价值并降低总体拥有成本。

本文讨论了 Super Mode 的详细信息,包括新的功率模式、Jetson Orin Nano 和 Orin NX 模组上热门生成式 AI 模型的基准测试、文档更新,以及对支持 Super Mode 的 NPN 合作伙伴的见解。

Jetson Orin Nano 和 Jetson Orin NX 系列上的新参考功率模式

JetPack 6.2 通过在 GPU、DLA 内存和 CPU 时钟上解锁更高的频率,提升 Jetson Orin Nano 和 Jetson Orin NX 系列的功耗。

模块 现有参考电源模式 ( 适用于现有刷写配置 ) NEW POWER MODES (仅适用于新的刷写配置)
NVIDIA Jetson Orin Nano 4GB 7 瓦、10 瓦 10 瓦、25 瓦、 最大值 超级 (SUPER)
NVIDIA Jetson Orin Nano 8GB 7 瓦、15 瓦 15 瓦、25 瓦、 最大值 超级 (SUPER)
NVIDIA Jetson Orin NX 8GB 10 瓦、15 瓦、20 瓦、MAXN 10 瓦、15 瓦、20 瓦、40 瓦, 最大值 超级 (SUPER)
NVIDIA Jetson Orin NX 16GB 10 瓦、15 瓦、25 瓦、MAXN 10 瓦、15 瓦、25 瓦、40 瓦, 最大值 超级 (SUPER)
表 1、Jetson Orin Nano 和 Jetson Orin NX 模组上的新参考功率模式

Jetson Orin Nano 模组现提供 25W 模式和全新的无上限 MAXN SUPER 模式。同样,Jetson Orin NX 模组现在可以使用更高的 40W 参考功率模式以及不设上限的 MAXN SUPER 模式。

MAXN SUPER 是不设上限的功率模式,可为 CPU、GPU、DLA、PVA 和 SOC 引擎提供最高数量的核心数和时钟频率。在此模式下,如果模组总功率超过热设计功率(TDP)预算,系统会将模组调低频率,从而在保持热预算的同时降低性能。

我们强烈建议您构建自己的自定义功率模式,以便根据您的应用和需求,在功耗或热稳定性与性能之间找到适当的平衡。

表 2 比较了 Jetson Orin Nano 4GB 和 8GB 以及 Jetson Orin NX 8GB 和 16GB 在原始模式和 Super Mode 下的详细规格。

  Orin Nano 4GB* Orin Nano 4GB
(SUPER)*
Orin Nano 8GB* Orin Nano 8GB*
(SUPER)*
ORIN NX 8GB* ORIN NX 8GB*
(SUPER)*
Orin NX 16GB* Orin NX 16GB*
(SUPER)*
AI 性能峰值 * INT8 * 20 TOPS (Sparse) 10 TOPS (Dense) 34 TOPS (Sparse) 17 TOPS (Dense) 40 TOPS (Sparse) 20 TOPS (Dense) 67 TOPS (Sparse) 33 TOPS (Dense) 70 TOPS (Sparse) 35 TOPS (Dense) 117 TOPS (Sparse) 58 TOPS (Dense) 100 TOPS (Sparse) 50 TOPS (Dense) 157 TOPS (Sparse) 78 TOPS (Dense)
NVIDIA Ampere GPU 512 个 CUDA Cores 16 个 Tensor Cores 625 MHz 20/10 INT8 TOPs (S/D) 5 FP16 TFLOPs 512 个 CUDA Cores 16 个 Tensor Cores 1020 MHz 34/17 INT8 TOPS (S/D) 8.5 FP16 TFLOPS 1024 个 CUDA Cores 32 个 Tensor Cores 625 MHz 40/20 INT8 TOPs (S/D) 10 FP16 TFLOPs 1024 个 CUDA Cores 32 个 Tensor Cores 1020 MHz 67/33 INT8 TOPs (S/D) 17 FP16 TFLOPs 1024 个 CUDA Cores 32 个 Tensor Cores 765 MHz 50/25 INT8 TOPs (S/D) 13 FP16 TFLOPs 1024 个 CUDA Cores 32 个 Tensor Cores 1173 MHz 77/38 INT8 TOPs (S/D) 19 FP16 TFLOPs 1024 个 CUDA Cores 32 个 Tensor Cores 918 MHz 60/30 INT8 TOPs (S/D) 15 FP16 TFLOPs 1024 个 CUDA Cores 32 个 Tensor Cores 1173 MHz 77/38 INT8 TOPs (S/D) 19 FP16 TFLOPs
CPU * 6 块 A78+

1.5 GHz*
6 块 A78+

1.7 GHz *
6 块 A78+

1.5 GHz*
6 块 A78+

1.7 GHz *
6 块 A78+

2.0 GHz*
6 块 A78+

2.0 GHz*
8 块 A78+2

.0 GHz 以上
8 块 A78+

2.0 GHz*
DLA (S/D)* NA* NA* NA* NA* 20/10 INT8 TOPS* 40/20 INT8 TOPS * 40/20 INT8 TOPS* 80/40 INT8 TOPS *
DRAM 重制版 * 34 GB/秒* 51 GB/秒 * 68 GB/秒* 102 GB/秒 * 102 GB/秒* 102 GB/秒* 102 GB/秒* 102 GB/秒*
模组功耗 * 7 瓦
10 瓦以上
7 瓦
10 瓦
25 瓦 *
7 瓦
15 瓦以上
7 瓦
15 瓦
25 瓦 *
10 瓦
15 瓦
20 瓦以上
10 瓦
15 瓦
25 瓦
40 瓦 *
10 瓦
15 瓦
25 瓦以上
10 瓦
15 瓦
25 瓦
40 瓦 *
表 2、Jetson Orin Nano 和 Jetson Orin NX 的原始规格以及超级模式下的规格

在使用新的功率模式时,请确保您产品的现有或新的散热设计能够适应新的功率模式规格。有关更多信息,请参阅更新的 Thermal Design Guide

更新了功耗估算器工具 

功耗估算器工具是 NVIDIA 提供的一款功能强大的工具,可通过修改 GPU、CPU、DLA 上的核心、最大频率和负载级别等系统参数来创建自定义功耗配置文件和 nvpmodel 配置文件。该工具通过各种设置提供估计功耗,并可用于创建最佳参数设置,以在性能和功耗之间实现所需的平衡。

我们更新了 Power Estimator Tool 的超级模式。我们强烈建议您使用 Power Estimator Tool 并在实践中进行验证,然后再通过高性能应用程序进行部署。

随着 JetPack 6.2 超级模式的引入,Jetson Orin Nano 和 Jetson Orin NX 模组可将推理性能提升高达 2 倍。我们对热门的大语言模型 (LLMs)、视觉语言模型 (VLMs) 和视觉转换器 (ViTs) 进行了基准测试。

大语言模型 

以下图表和表格显示了 Llama3.1 8B、Qwen2.5 7B 和 Gemma2 2B 等热门 LLM 的超模性能基准测试。

A bar chart summarizes the performance improvements of seven LLMs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB, and Orin NX 16GB modules.
图 1、使用 Super Mode 可提升 LLM 的性能

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到节流行为的影响。

在下表中,LLM 生成性能(每秒令牌数)是使用 MLC API 通过 INT4 量化测量的。

表 3 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 4GB 上的 LLM 性能提升。

模型 Orin Nano 8GB (原始版本) Orin Nano 8GB (超级模式) 性能增益 (倍)
Gemma 2 2B 11.40 18.60 欧元 1.64
SmolLM2 1.7 B 23.00 35.80 1.56
表 3、对 Jetson Orin Nano 4GB 上的热门 LLM 进行性能基准测试,以令牌/秒为单位

表 4 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 8GB 上的 LLM 性能提升。

模型 Orin Nano 8GB (原始版本) Orin Nano 8GB (超级模式) 性能增益 (倍)
Llama 3.1 8B 14.00 19.10 1.37
Llama 3.2 3B 27.70 43.10 1.55
Qwen 2.5 7B 14.20 21.80 1.53
Gemma 2 2B 21.5 35.0 1.63
Gemma 2 9B 7.20 9.20 1.28
Phi-3.5 38 B 24.70 38.10 1.54
SmolLM2 1.7 B 41.00 64.50 1.57
表 4、对 Jetson Orin Nano 8GB 上的热门 LLM 进行性能基准测试,以令牌/秒为单位

表 5 显示了搭载 JetPack 6.2 的 Jetson Orin NX 8GB 上的 LLM 性能提升。

模型 Orin NX 8GB (原始版本) Orin NX 8GB (超级模式) 性能增益 (倍)
Llama 3.1 8B 15.90 23.10 1.46
Llama 3.2 3B 34.50 46.50 1.35
Qwen 2.5 7B 17.10 23.80 1.39
Gemma 2 2B 26.60 39.30 1.48
Gemma 2 9B 8.80 13.38 1.52
Phi-3.5 38 B 30.80 评分:41.30 1.34
SmolLM2 1.7 B 51.50 69.80 1.35
表 5、对 Jetson Orin NX 8GB 上的热门 LLM 进行性能基准测试,以令牌/秒为单位

表 6 显示了搭载 JetPack 6.2 的 Jetson Orin NX 16GB 上的 LLM 性能提升。

模型 Orin NX 16GB (原始版本) Orin NX 16GB (超级模式) 性能增益 (倍)
Llama 3.1 8B 20.50 22.80 1.11
Llama 3.2 3B 40.40 45.80 1.13
Qwen 2.5 7B 20.80 23.50 1.13
Gemma 2 2B 31.60 欧元 39.00 1.23
Gemma 2 9B 10.56 13.26 1.26
Phi-3.5 38 B 35.90 40.90 1.14
SmolLM2 1.7 B 59.50 68.80 1.16
表 6、对 Jetson Orin NX 和 Orin Nano 模组上的热门 LLM 进行性能基准测试,以令牌/秒为单位

视觉语言模型 

以下图表和表格显示了热门 VLM (例如 VILA1.5 8B、LLAVA1.6 7B 和 Qwen2 VL 2B) 的超模性能基准测试。

A bar chart summarizes the performance improvements of seven VLMs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB, and Orin NX 16GB modules.
图 2、使用 Super Mode 运行时 VLM 的性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到节流行为的影响。

表 7 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 4GB 的 VLM 性能提升情况。

模型 Orin Nano 4GB (原始) Orin Nano 4GB (超级模式) 性能增益 (倍)
PaliGemma2 3B 7.2 11.2 1.56
表 7、对 Jetson Orin Nano 4GB 上的热门 VLM 进行性能基准测试(tokens/sec)

表 8 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 8GB 上的 VLM 性能提升。

模型 Orin NX 16GB (原始版本) Orin NX 16GB (超级模式) 性能增益 (倍)
VILA 1.5 3B 0.7 1.1 1.51
VILA 1.5 8B 0.6 0.8 1.45
LLAVA 1.6 7B 0.4 0.6 1.38
Qwen2 VL 2B 2.8 4.4 1.57
InterVL2.5 4B 2.5 5.1 2.04
PaliGemma2 3B 13.7 21.6% 1.58
SmolVLM 2B 8.1 12.9 1.59
表 8、对 Jetson Orin Nano 8GB 上的热门 VLM 进行性能基准测试(tokens/sec)

表 9 显示搭载 JetPack 6.2 的 Jetson Orin NX 8GB 上的 VLM 性能提升。

模型 Orin NX 16GB (原始版本) Orin NX 16GB (超级模式) 性能增益 (倍)
VILA 1.5 3B 0.8 1 1.25
VILA 1.5 8B 0.7 1.04 1.50
LLAVA 1.6 7B 0.5 1.2 2.54
Qwen2 VL 2B 3.4 4.8 1.41
InterVL2.5 4B 3 4.1 1.37
PaliGemma2 3B 17.1 23.9 1.40
SmolVLM 2B 9.7 14.4 1.48
表 9、对 Jetson Orin NX 16GB 上的热门 VLM 进行性能基准测试,以令牌/秒为单位

表 10 显示配备 JetPack 6.2 的 Jetson Orin NX 16GB 上的 VLM 性能提升。

模型 Orin NX 16GB (原始版本) Orin NX 16GB (超级模式) 性能增益 (倍)
VILA 1.5 3B 1 1.3 1.23
VILA 1.5 8B 0.8 1 1.25
LLAVA 1.6 7B 0.6 0.7 1.07
Qwen2 VL 2B 4 4.8 1.20
InterVL2.5 4B 2.8 4.4 1.57
PaliGemma2 3B 20 23.8 1.19
SmolVLM 2B 11.7 14.3 1.22
表 10、对 Jetson Orin NX 和 Orin Nano 模组上的热门 VLM 进行性能基准测试,以令牌/秒为单位

所有 VILA 和 LLAVA 模型均使用 MLC 以 INT4 精度运行,而其余模型则使用 Hugging Face Transformers 以 FP4 精度运行。

视觉 Transformer 模型

以下图表和表格显示了 CLIP、DINO 和 SAM2 等热门 ViTs 的 Super Mode 性能基准测试。

A bar chart summarizes the performance improvements of seven ViTs when run using Super Mode on the Orin Nano 4GB, Orin Nano 8GB, Orin NX 8GB and Orin NX 16GB modules.
图 3、使用 Super Mode 运行 ViTs 时的性能提升

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到节流行为的影响。

表 11 显示搭载 JetPack 6.2 的 Jetson Orin Nano 4GB 的 ViT 性能提升情况。

模型 Orin Nano 4GB (原始) Orin Nano 4GB (超级模式) 性能增益 (倍)
clip-vit-base-patch32 126.8 189.5 1.49
clip-vit-base-patch16 63.2 112.4 1.78
基于 DINOv2 的补丁 14 49.3% 79.3 1.61
基于 SAM2 2.5 3.8 1.54
Vit-base-patch16-224 62.4% 103.3 1.66
表 11、对 Jetson Orin Nano 4GB 上的热门 ViTs 进行性能基准测试,以令牌/秒为单位

表 12 显示搭载 JetPack 6.2 的 Jetson Orin Nano 8GB 的 ViT 性能提升情况。

模型 Orin Nano 8GB (原始版本) Orin Nano 8GB (超级模式) 性能增益 (倍)
clip-vit-base-patch32 196 214 1.60
clip-vit-base-patch16 95% 151 1.69
基于 DINOv2 的补丁 14 75 126 1.68
基于 SAM2 4.4 6.3 1.43
支持恐龙 4.1 6.2 1.52
Vit-base-patch16-224 98 158 1.61
Vit-base-patch32-224 172 273 1.60
表 12、对 Jetson Orin Nano 8GB 上的热门 ViTs 进行性能基准测试,以令牌/秒为单位

表 13 显示配备 JetPack 6.2 的 Jetson Orin NX 8GB 上的 ViT 性能提升。

模型 Orin NX 8GB (原始版本) Orin NX 8GB (超级模式) 性能增益 (倍)
clip-vit-base-patch32 224.0 361.1 1.54
clip-vit-base-patch16 101.7 204.3 2.01
基于 DINOv2 的补丁 14 81.4% 160.3 1.97
基于 SAM2 3.9 7.4 1.92
支持恐龙 4.2 7.4 1.75
Vit-base-patch16-224 98.6% 192.5 1.95
Vit-base-patch32-224 192.1 313.5 1.62
表 13、对 Jetson Orin NX 8GB 上的热门 ViTs 进行性能基准测试,以令牌/秒为单位

表 14 显示配备 JetPack 6.2 的 Jetson Orin NX 16GB 上的 ViT 性能提升。

模型 Orin NX 16GB (原始版本) Orin NX 16GB (超级模式) 性能增益 (倍)
clip-vit-base-patch32 322.2 356.7 1.10
clip-vit-base-patch16 163.5 192.6 1.18
基于 DINOv2 的补丁 14 127.5 159.8 1.25
基于 SAM2 6.2 7.3 1.18
支持恐龙 6.2 7.2 1.16
Vit-base-patch16-224 158.6 190.2 1.20
Vit-base-patch32-224 271.2 209.5 1.10
表 14、对 Jetson Orin NX 16GB 上的热门 ViT 进行性能基准测试 (帧/秒)

所有 ViT 模型均使用 NVIDIA TensorRT 以 FP16 精度运行,且测量以 FPS 进行。

使用 NVIDIA Jetson Orin Nano 和 NVIDIA Jetson Orin NX 的 JetPack 6.2 入门

NVIDIA Jetson 生态系统提供了多种使用 JetPack 镜像刷写开发者套件和生产模组的方式。

要在 Jetson Orin Nano 开发者套件或模组上安装 JetPack 6.2,请使用以下方法之一:

新的刷写配置 

新的电源模式仅适用于新的刷写配置。默认刷写配置未发生变化。要启用新的电源模式,您必须在刷写时使用新的刷写配置。

以下是用于刷写的新刷写配置:

jetson-orin-nano-devkit-super.conf

刷写或更新到 JetPack 6.2 后,运行以下命令以启动新提供的超级模式。

Jetson Orin Nano 模组上的 MAXN SUPER 模式:

sudo nvpmodel -m 2

Jetson Orin NX 模组上的 MAXN SUPER 模式:

sudo nvpmodel -m 0

您还可以从页面右上角的电源模式菜单中选择 MAXN SUPER 和其他电源模式。

Four screenshots show the expanded Power mode menu on the Jetson Orin Nano and Jetson Orin NX modules.
图 4. 电源模式选择菜单

Jetson AI 实验室 

Jetson AI 实验室是 NVIDIA 探索和试验针对边缘设备优化的生成式 AI 技术的中心。它为开发者提供支持,并为协作社区提供了近 50 个教程、预构建容器和资源,用于使用优化的推理基础架构部署设备上的 LLM、SLM、VLM、diffusion policies 和 speech models。

通过简化对先进 AI 工具的访问,该实验室使各级别的开发者能够在本地创新和部署生成式 AI,从而推进开源边缘 AI 和机器人学习。

通过这些易于学习的教程,为由 JetPack 6.2 提供支持的开发者套件轻松深入了解生成式 AI:

更新文档:Datasheets 和设计指南

借助更新的性能提升,以下资源已更新,可从 Jetson Download Center 下载:

Jetson 生态系统合作伙伴为 Super Mode 做好准备

为支持客户部署,Jetson 生态系统合作伙伴已增强其解决方案,以支持这种提升的性能。

类别 Jetson 生态系统合作伙伴
ISV 解决方案 DeepEdge Edge Impulse RidgeRun Ultralytics
硬件系统合作伙伴 AAEON
Advantech
Aetina
AIMobile
ASUSTek
Axiomtek
Connect Tech
Seeed Studio
Syslogic
Vecow
Yuan High-Tech
散热解决方案
Advanced Thermal Solutions
Frore Systems

NVIDIA Jetson Orin 生命周期和路线图

鉴于客户对 Jetson Orin 的需求日益增长,NVIDIA 最近宣布 将 Jetson Orin 的产品生命周期延长至 2032 年。凭借这种性能提升,Jetson Orin Nano 和 Orin NX 系列成为当前和未来模型的理想平台。

即将推出的 JetPack 5.1.5 还将为 Jetson Orin NX 和 Jetson Orin Nano 模组启用超级模式。使用 JetPack 5 进行开发的开发者和客户将从性能提升中受益。

Chart shows key features for the 6.* and 5.* releases of JetPack SDK, including security fixes, and Super Mode support.
图 5、JetPack 软件路线图

使用 JetPack 6.2 提升应用性能

JetPack 6.2 是一个开创性版本。它可在现有 Jetson 模组上实现惊人的 2 倍推理性能提升,且无需增加任何成本。对于希望为其应用程序提供强效助力的 Jetson 开发者和客户而言,此次升级必不可少。立即升级到 JetPack 6.2,充分发挥 Jetson 平台的全部潜力。

 

标签