NVIDIA Jetson Orin Nano 超级开发者套件 的推出为小型边缘设备开启了 生成式 AI 的新时代。新的 超级模式 在开发者套件上实现了前所未有的生成式 AI 性能提升,最高可达 1.7 倍,使其成为最经济实惠的生成式 AI 超级计算机。
JetPack 6.2 现已支持 Jetson Orin Nano 和 Jetson Orin NX 生产模组的超级模式,可将生成式 AI 模型的性能提升高达 2 倍。现在,您可以为新的和现有的机器人和边缘 AI 应用释放更多价值并降低总体拥有成本。
本文讨论了 Super Mode 的详细信息,包括新的功率模式、Jetson Orin Nano 和 Orin NX 模组上热门生成式 AI 模型的基准测试、文档更新,以及对支持 Super Mode 的 NPN 合作伙伴的见解。
Jetson Orin Nano 和 Jetson Orin NX 系列上的新参考功率模式
JetPack 6.2 通过在 GPU、DLA 内存和 CPU 时钟上解锁更高的频率,提升 Jetson Orin Nano 和 Jetson Orin NX 系列的功耗。
模块 | 现有参考电源模式 ( 适用于现有刷写配置 ) | NEW POWER MODES (仅适用于新的刷写配置) |
NVIDIA Jetson Orin Nano 4GB | 7 瓦、10 瓦 | 10 瓦、25 瓦、 最大值 超级 (SUPER) |
NVIDIA Jetson Orin Nano 8GB | 7 瓦、15 瓦 | 15 瓦、25 瓦、 最大值 超级 (SUPER) |
NVIDIA Jetson Orin NX 8GB | 10 瓦、15 瓦、20 瓦、MAXN | 10 瓦、15 瓦、20 瓦、40 瓦, 最大值 超级 (SUPER) |
NVIDIA Jetson Orin NX 16GB | 10 瓦、15 瓦、25 瓦、MAXN | 10 瓦、15 瓦、25 瓦、40 瓦, 最大值 超级 (SUPER) |
Jetson Orin Nano 模组现提供 25W 模式和全新的无上限 MAXN SUPER 模式。同样,Jetson Orin NX 模组现在可以使用更高的 40W 参考功率模式以及不设上限的 MAXN SUPER 模式。
MAXN SUPER 是不设上限的功率模式,可为 CPU、GPU、DLA、PVA 和 SOC 引擎提供最高数量的核心数和时钟频率。在此模式下,如果模组总功率超过热设计功率(TDP)预算,系统会将模组调低频率,从而在保持热预算的同时降低性能。
我们强烈建议您构建自己的自定义功率模式,以便根据您的应用和需求,在功耗或热稳定性与性能之间找到适当的平衡。
表 2 比较了 Jetson Orin Nano 4GB 和 8GB 以及 Jetson Orin NX 8GB 和 16GB 在原始模式和 Super Mode 下的详细规格。
Orin Nano 4GB* | Orin Nano 4GB (SUPER)* |
Orin Nano 8GB* | Orin Nano 8GB* (SUPER)* |
ORIN NX 8GB* | ORIN NX 8GB* (SUPER)* |
Orin NX 16GB* | Orin NX 16GB* (SUPER)* |
|
AI 性能峰值 * INT8 * | 20 TOPS (Sparse) 10 TOPS (Dense) | 34 TOPS (Sparse) 17 TOPS (Dense) | 40 TOPS (Sparse) 20 TOPS (Dense) | 67 TOPS (Sparse) 33 TOPS (Dense) | 70 TOPS (Sparse) 35 TOPS (Dense) | 117 TOPS (Sparse) 58 TOPS (Dense) | 100 TOPS (Sparse) 50 TOPS (Dense) | 157 TOPS (Sparse) 78 TOPS (Dense) |
NVIDIA Ampere GPU | 512 个 CUDA Cores 16 个 Tensor Cores 625 MHz 20/10 INT8 TOPs (S/D) 5 FP16 TFLOPs | 512 个 CUDA Cores 16 个 Tensor Cores 1020 MHz 34/17 INT8 TOPS (S/D) 8.5 FP16 TFLOPS | 1024 个 CUDA Cores 32 个 Tensor Cores 625 MHz 40/20 INT8 TOPs (S/D) 10 FP16 TFLOPs | 1024 个 CUDA Cores 32 个 Tensor Cores 1020 MHz 67/33 INT8 TOPs (S/D) 17 FP16 TFLOPs | 1024 个 CUDA Cores 32 个 Tensor Cores 765 MHz 50/25 INT8 TOPs (S/D) 13 FP16 TFLOPs | 1024 个 CUDA Cores 32 个 Tensor Cores 1173 MHz 77/38 INT8 TOPs (S/D) 19 FP16 TFLOPs | 1024 个 CUDA Cores 32 个 Tensor Cores 918 MHz 60/30 INT8 TOPs (S/D) 15 FP16 TFLOPs | 1024 个 CUDA Cores 32 个 Tensor Cores 1173 MHz 77/38 INT8 TOPs (S/D) 19 FP16 TFLOPs |
CPU * | 6 块 A78+ 1.5 GHz* |
6 块 A78+ 1.7 GHz * |
6 块 A78+ 1.5 GHz* |
6 块 A78+ 1.7 GHz * |
6 块 A78+ 2.0 GHz* |
6 块 A78+ 2.0 GHz* |
8 块 A78+2 .0 GHz 以上 |
8 块 A78+ 2.0 GHz* |
DLA (S/D)* | NA* | NA* | NA* | NA* | 20/10 INT8 TOPS* | 40/20 INT8 TOPS * | 40/20 INT8 TOPS* | 80/40 INT8 TOPS * |
DRAM 重制版 * | 34 GB/秒* | 51 GB/秒 * | 68 GB/秒* | 102 GB/秒 * | 102 GB/秒* | 102 GB/秒* | 102 GB/秒* | 102 GB/秒* |
模组功耗 * | 7 瓦 10 瓦以上 |
7 瓦 10 瓦 25 瓦 * |
7 瓦 15 瓦以上 |
7 瓦 15 瓦 25 瓦 * |
10 瓦 15 瓦 20 瓦以上 |
10 瓦 15 瓦 25 瓦 40 瓦 * |
10 瓦 15 瓦 25 瓦以上 |
10 瓦 15 瓦 25 瓦 40 瓦 * |
在使用新的功率模式时,请确保您产品的现有或新的散热设计能够适应新的功率模式规格。有关更多信息,请参阅更新的 Thermal Design Guide 。
更新了功耗估算器工具
功耗估算器工具是 NVIDIA 提供的一款功能强大的工具,可通过修改 GPU、CPU、DLA 上的核心、最大频率和负载级别等系统参数来创建自定义功耗配置文件和 nvpmodel
配置文件。该工具通过各种设置提供估计功耗,并可用于创建最佳参数设置,以在性能和功耗之间实现所需的平衡。
我们更新了 Power Estimator Tool 的超级模式。我们强烈建议您使用 Power Estimator Tool 并在实践中进行验证,然后再通过高性能应用程序进行部署。
提升热门生成式 AI 模型的性能
随着 JetPack 6.2 超级模式的引入,Jetson Orin Nano 和 Jetson Orin NX 模组可将推理性能提升高达 2 倍。我们对热门的大语言模型 (LLMs)、视觉语言模型 (VLMs) 和视觉转换器 (ViTs) 进行了基准测试。
大语言模型
以下图表和表格显示了 Llama3.1 8B、Qwen2.5 7B 和 Gemma2 2B 等热门 LLM 的超模性能基准测试。

DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到节流行为的影响。
在下表中,LLM 生成性能(每秒令牌数)是使用 MLC API 通过 INT4 量化测量的。
表 3 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 4GB 上的 LLM 性能提升。
模型 | Orin Nano 8GB (原始版本) | Orin Nano 8GB (超级模式) | 性能增益 (倍) |
Gemma 2 2B | 11.40 | 18.60 欧元 | 1.64 |
SmolLM2 1.7 B | 23.00 | 35.80 | 1.56 |
表 4 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 8GB 上的 LLM 性能提升。
模型 | Orin Nano 8GB (原始版本) | Orin Nano 8GB (超级模式) | 性能增益 (倍) |
Llama 3.1 8B | 14.00 | 19.10 | 1.37 |
Llama 3.2 3B | 27.70 | 43.10 | 1.55 |
Qwen 2.5 7B | 14.20 | 21.80 | 1.53 |
Gemma 2 2B | 21.5 | 35.0 | 1.63 |
Gemma 2 9B | 7.20 | 9.20 | 1.28 |
Phi-3.5 38 B | 24.70 | 38.10 | 1.54 |
SmolLM2 1.7 B | 41.00 | 64.50 | 1.57 |
表 5 显示了搭载 JetPack 6.2 的 Jetson Orin NX 8GB 上的 LLM 性能提升。
模型 | Orin NX 8GB (原始版本) | Orin NX 8GB (超级模式) | 性能增益 (倍) |
Llama 3.1 8B | 15.90 | 23.10 | 1.46 |
Llama 3.2 3B | 34.50 | 46.50 | 1.35 |
Qwen 2.5 7B | 17.10 | 23.80 | 1.39 |
Gemma 2 2B | 26.60 | 39.30 | 1.48 |
Gemma 2 9B | 8.80 | 13.38 | 1.52 |
Phi-3.5 38 B | 30.80 | 评分:41.30 | 1.34 |
SmolLM2 1.7 B | 51.50 | 69.80 | 1.35 |
表 6 显示了搭载 JetPack 6.2 的 Jetson Orin NX 16GB 上的 LLM 性能提升。
模型 | Orin NX 16GB (原始版本) | Orin NX 16GB (超级模式) | 性能增益 (倍) |
Llama 3.1 8B | 20.50 | 22.80 | 1.11 |
Llama 3.2 3B | 40.40 | 45.80 | 1.13 |
Qwen 2.5 7B | 20.80 | 23.50 | 1.13 |
Gemma 2 2B | 31.60 欧元 | 39.00 | 1.23 |
Gemma 2 9B | 10.56 | 13.26 | 1.26 |
Phi-3.5 38 B | 35.90 | 40.90 | 1.14 |
SmolLM2 1.7 B | 59.50 | 68.80 | 1.16 |
视觉语言模型
以下图表和表格显示了热门 VLM (例如 VILA1.5 8B、LLAVA1.6 7B 和 Qwen2 VL 2B) 的超模性能基准测试。
DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到节流行为的影响。
表 7 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 4GB 的 VLM 性能提升情况。
模型 | Orin Nano 4GB (原始) | Orin Nano 4GB (超级模式) | 性能增益 (倍) |
PaliGemma2 3B | 7.2 | 11.2 | 1.56 |
表 8 显示了搭载 JetPack 6.2 的 Jetson Orin Nano 8GB 上的 VLM 性能提升。
模型 | Orin NX 16GB (原始版本) | Orin NX 16GB (超级模式) | 性能增益 (倍) |
VILA 1.5 3B | 0.7 | 1.1 | 1.51 |
VILA 1.5 8B | 0.6 | 0.8 | 1.45 |
LLAVA 1.6 7B | 0.4 | 0.6 | 1.38 |
Qwen2 VL 2B | 2.8 | 4.4 | 1.57 |
InterVL2.5 4B | 2.5 | 5.1 | 2.04 |
PaliGemma2 3B | 13.7 | 21.6% | 1.58 |
SmolVLM 2B | 8.1 | 12.9 | 1.59 |
表 9 显示搭载 JetPack 6.2 的 Jetson Orin NX 8GB 上的 VLM 性能提升。
模型 | Orin NX 16GB (原始版本) | Orin NX 16GB (超级模式) | 性能增益 (倍) |
VILA 1.5 3B | 0.8 | 1 | 1.25 |
VILA 1.5 8B | 0.7 | 1.04 | 1.50 |
LLAVA 1.6 7B | 0.5 | 1.2 | 2.54 |
Qwen2 VL 2B | 3.4 | 4.8 | 1.41 |
InterVL2.5 4B | 3 | 4.1 | 1.37 |
PaliGemma2 3B | 17.1 | 23.9 | 1.40 |
SmolVLM 2B | 9.7 | 14.4 | 1.48 |
表 10 显示配备 JetPack 6.2 的 Jetson Orin NX 16GB 上的 VLM 性能提升。
模型 | Orin NX 16GB (原始版本) | Orin NX 16GB (超级模式) | 性能增益 (倍) |
VILA 1.5 3B | 1 | 1.3 | 1.23 |
VILA 1.5 8B | 0.8 | 1 | 1.25 |
LLAVA 1.6 7B | 0.6 | 0.7 | 1.07 |
Qwen2 VL 2B | 4 | 4.8 | 1.20 |
InterVL2.5 4B | 2.8 | 4.4 | 1.57 |
PaliGemma2 3B | 20 | 23.8 | 1.19 |
SmolVLM 2B | 11.7 | 14.3 | 1.22 |
所有 VILA 和 LLAVA 模型均使用 MLC 以 INT4 精度运行,而其余模型则使用 Hugging Face Transformers 以 FP4 精度运行。
视觉 Transformer 模型
以下图表和表格显示了 CLIP、DINO 和 SAM2 等热门 ViTs 的 Super Mode 性能基准测试。
DNR 意味着模块上的内存不足以运行特定模型。模型性能将受到节流行为的影响。
表 11 显示搭载 JetPack 6.2 的 Jetson Orin Nano 4GB 的 ViT 性能提升情况。
模型 | Orin Nano 4GB (原始) | Orin Nano 4GB (超级模式) | 性能增益 (倍) |
clip-vit-base-patch32 | 126.8 | 189.5 | 1.49 |
clip-vit-base-patch16 | 63.2 | 112.4 | 1.78 |
基于 DINOv2 的补丁 14 | 49.3% | 79.3 | 1.61 |
基于 SAM2 | 2.5 | 3.8 | 1.54 |
Vit-base-patch16-224 | 62.4% | 103.3 | 1.66 |
表 12 显示搭载 JetPack 6.2 的 Jetson Orin Nano 8GB 的 ViT 性能提升情况。
模型 | Orin Nano 8GB (原始版本) | Orin Nano 8GB (超级模式) | 性能增益 (倍) |
clip-vit-base-patch32 | 196 | 214 | 1.60 |
clip-vit-base-patch16 | 95% | 151 | 1.69 |
基于 DINOv2 的补丁 14 | 75 | 126 | 1.68 |
基于 SAM2 | 4.4 | 6.3 | 1.43 |
支持恐龙 | 4.1 | 6.2 | 1.52 |
Vit-base-patch16-224 | 98 | 158 | 1.61 |
Vit-base-patch32-224 | 172 | 273 | 1.60 |
表 13 显示配备 JetPack 6.2 的 Jetson Orin NX 8GB 上的 ViT 性能提升。
模型 | Orin NX 8GB (原始版本) | Orin NX 8GB (超级模式) | 性能增益 (倍) |
clip-vit-base-patch32 | 224.0 | 361.1 | 1.54 |
clip-vit-base-patch16 | 101.7 | 204.3 | 2.01 |
基于 DINOv2 的补丁 14 | 81.4% | 160.3 | 1.97 |
基于 SAM2 | 3.9 | 7.4 | 1.92 |
支持恐龙 | 4.2 | 7.4 | 1.75 |
Vit-base-patch16-224 | 98.6% | 192.5 | 1.95 |
Vit-base-patch32-224 | 192.1 | 313.5 | 1.62 |
表 14 显示配备 JetPack 6.2 的 Jetson Orin NX 16GB 上的 ViT 性能提升。
模型 | Orin NX 16GB (原始版本) | Orin NX 16GB (超级模式) | 性能增益 (倍) |
clip-vit-base-patch32 | 322.2 | 356.7 | 1.10 |
clip-vit-base-patch16 | 163.5 | 192.6 | 1.18 |
基于 DINOv2 的补丁 14 | 127.5 | 159.8 | 1.25 |
基于 SAM2 | 6.2 | 7.3 | 1.18 |
支持恐龙 | 6.2 | 7.2 | 1.16 |
Vit-base-patch16-224 | 158.6 | 190.2 | 1.20 |
Vit-base-patch32-224 | 271.2 | 209.5 | 1.10 |
所有 ViT 模型均使用 NVIDIA TensorRT 以 FP16 精度运行,且测量以 FPS 进行。
使用 NVIDIA Jetson Orin Nano 和 NVIDIA Jetson Orin NX 的 JetPack 6.2 入门
NVIDIA Jetson 生态系统提供了多种使用 JetPack 镜像刷写开发者套件和生产模组的方式。
要在 Jetson Orin Nano 开发者套件或模组上安装 JetPack 6.2,请使用以下方法之一:
- JetPack SDK 页面中的 SD-Card 镜像 。
- SDK Manager ,用于 根据下载和安装说明 进行刷写。
- 根据 刷写支持 ,刷写 bootloader、kernel 和 root file system 的脚本。
新的刷写配置
新的电源模式仅适用于新的刷写配置。默认刷写配置未发生变化。要启用新的电源模式,您必须在刷写时使用新的刷写配置。
以下是用于刷写的新刷写配置:
jetson-orin-nano-devkit-super.conf
刷写或更新到 JetPack 6.2 后,运行以下命令以启动新提供的超级模式。
Jetson Orin Nano 模组上的 MAXN SUPER 模式:
sudo nvpmodel -m 2
Jetson Orin NX 模组上的 MAXN SUPER 模式:
sudo nvpmodel -m 0
您还可以从页面右上角的电源模式菜单中选择 MAXN SUPER 和其他电源模式。

Jetson AI 实验室
Jetson AI 实验室是 NVIDIA 探索和试验针对边缘设备优化的生成式 AI 技术的中心。它为开发者提供支持,并为协作社区提供了近 50 个教程、预构建容器和资源,用于使用优化的推理基础架构部署设备上的 LLM、SLM、VLM、diffusion policies 和 speech models。
通过简化对先进 AI 工具的访问,该实验室使各级别的开发者能够在本地创新和部署生成式 AI,从而推进开源边缘 AI 和机器人学习。
通过这些易于学习的教程,为由 JetPack 6.2 提供支持的开发者套件轻松深入了解生成式 AI:
- 使用 Open Web UI 的 Ollama :入门级 LLM 应用示例
- NanoOWL: 采用先进 ViT 模型的交互式演示
- LeRobot :Hugging Face LeRobot 的物理 AI 示例
更新文档:Datasheets 和设计指南
借助更新的性能提升,以下资源已更新,可从 Jetson Download Center 下载:
- Jetson Orin NX 模组数据表
- Jetson Orin Nano 模组数据表
- Jetson Orin NX 系列和 Jetson Orin Nano 系列设计指南
- 散热设计指南
Jetson 生态系统合作伙伴为 Super Mode 做好准备
为支持客户部署,Jetson 生态系统合作伙伴已增强其解决方案,以支持这种提升的性能。
类别 | Jetson 生态系统合作伙伴 |
ISV 解决方案 | DeepEdge Edge Impulse RidgeRun Ultralytics |
硬件系统合作伙伴 | AAEON Advantech Aetina AIMobile ASUSTek Axiomtek Connect Tech Seeed Studio Syslogic Vecow Yuan High-Tech |
散热解决方案 |
NVIDIA Jetson Orin 生命周期和路线图
鉴于客户对 Jetson Orin 的需求日益增长,NVIDIA 最近宣布 将 Jetson Orin 的产品生命周期延长至 2032 年。凭借这种性能提升,Jetson Orin Nano 和 Orin NX 系列成为当前和未来模型的理想平台。
即将推出的 JetPack 5.1.5 还将为 Jetson Orin NX 和 Jetson Orin Nano 模组启用超级模式。使用 JetPack 5 进行开发的开发者和客户将从性能提升中受益。
使用 JetPack 6.2 提升应用性能
JetPack 6.2 是一个开创性版本。它可在现有 Jetson 模组上实现惊人的 2 倍推理性能提升,且无需增加任何成本。对于希望为其应用程序提供强效助力的 Jetson 开发者和客户而言,此次升级必不可少。立即升级到 JetPack 6.2,充分发挥 Jetson 平台的全部潜力。