NVIDIA 软件生态系统的一大显著优势在于其持续优化的承诺。今年 8 月,NVIDIA 发布了 Jetson AGX Thor,与前代产品 Jetson AGX Orin 相比,生成式 AI 性能最高提升达 5 倍。通过软件更新自发布以来,Jetson Thor 现在支持 7x 增加的 生成式 AI 吞吐量。
通过在 NVIDIA Jetson Orin 和 NVIDIA Jetson AGX Xavier 上已验证的这一方法,开发者能够在 Llama 和 DeepSeek 等模型上受益于这些优化,并有望在未来的模型版本中延续类似优势。除了持续的软件优化外,NVIDIA 通常在主流模型发布后的数日内即提供支持,使开发者能够尽早体验新一代 AI 模型。
Jetson Thor 平台支持多种主流量化格式,包括源自 NVIDIA Blackwell GPU 架构的新型 NVFP4 格式,有助于进一步优化推理性能。同时,平台还支持预测性解码等先进技术,为加速边缘端生成式 AI 工作负载提供了新的途径。
持续进行软件优化
随着近期 vLLM 容器 的发布,Jetson Thor 在相同模型和量化条件下的性能相比 8 月底发布时提升了 3.5 倍。表 1 对比了 Llama 3.3 70B 和 DeepSeek R1 70B 模型在 8 月发布时的输出 token/秒 与 2025 年 9 月最新基准测试结果。
家族 | 模型 | Jetson AGX Thor Aug 2025 (输出 token/ 秒) |
Jetson AGX Thor Sep 2025 (输出 token/ 秒) |
Jetson AGX Thor:性能相较启动时显著提升 |
Llama | Llama 3.3 70B | 41.5 | 512.6 | 3.3 |
DeepSeek | DeepSeek R1 70B | 40.2 | 911.5 | 3.5 |
表 1。Llama 3.3 与 DeepSeek R1 发布时在基准测试中的输出速度(token/秒)对比
基准测试配置如下:序列长度为2048,输出序列长度为128,最大并发数为8,电源模式设为MAXN。
Jetson Thor 现已支持在 vLLM 容器中运行 Eagle 3 预测性解码,进一步提升了生成式 AI 模型的性能。例如,在采用预测解码的 Llama 3.3 70B 模型上,输出速度可达每秒 88.62 个 token,相比未启用预测解码时提升了 7 倍。

运行支持首发日最新版本的模型
开发者可借助 Jetson Thor 在边缘设备上运行前沿的生成式 AI 模型,并享受首发日支持。例如,在 Jetson AGX Thor 发布当天,llamacpp/ollama 即已支持 gpt-oss,vLLM 也同步提供支持。此外,众多 NVIDIA Nemotron 模型还支持每周无缝更新。
- Nemotron Nano 9B v2
- Nemotron Nano 9B v2 FP8
- Llama-3.1 Nemotron Nano 8B v1
- Llama-3.1 Nemotron Nano 4B v1.1
借助 Jetson Thor 提升生成式 AI 性能
Jetson Thor 在边缘端生成式 AI 应用中表现出强大的性能,但要充分发挥其潜力,必须采用合适的技术方案。本节将为您详细介绍如何高效利用这一平台。我们将深入探讨量化与预测解码两种关键技术,它们能够显著加速大语言模型(LLM)和视觉语言模型(VLM)的推理过程。最后,我们还将提供一份实践教程,指导您在 Jetson Thor 上对模型进行基准测试,帮助您为特定应用场景选择最合适的模型与配置组合。
量化:减小模型体积,提升推理速度
量化是指降低模型数据(包括权重和激活值)数值精度的过程。可以将其理解为用更少的小数位来表示数值——虽然与原始值不完全相同,但足够接近,同时显著提升了存储和计算效率。通常,我们会将标准的16位格式(如FP16或BF16)转换为更低位的格式,例如8位或4位。
这将为您带来两大显著优势:
- 更小的显存占用
这是端侧设备运行更大模型的关键。通过减少每个参数所需的字节数,可以加载原本因体积过大而无法运行的模型。根据经验估算,一个包含 700 亿参数的模型,其权重占用的显存大致如下:- 使用浮点 16(FP16)时约为 140 GB,超出 Thor 设备 128 GB 的显存容量,无法运行;
- 采用浮点 8(FP8)时约为 70 GB,可在显存中留有充足余量;
- 使用 4 位精度时仅需约 35 GB,足以支持同时运行多个大型模型。
- 更快的内存访问速度
更小的权重还意味着更快的内存访问速度。由于需要从内存传输到计算核心的数据量减少,整体延迟得以降低。这一点在边缘计算场景中尤为重要,因为 token 生成的响应速度直接影响用户体验,低延迟有助于提升实时交互的流畅性。
我们来看看 Jetson Thor 上最关键的两种格式。
FP8
若要在几乎无损的前提下迈出模型优化的第一步,FP8 是一个理想的选择。以 70B 参数规模的模型为例,若采用 16 位精度存储权重,再考虑激活值和 KV 缓存的内存占用,其总需求将超出 Jetson Thor 的内存容量。而通过将权重精度降至 FP8,内存占用显著减少,使得在设备上加载并运行该模型成为可能。在经过适当校准后,FP8 的推理精度通常仅比 FP16 基准低不到 1%,表现十分接近。因此,对于聊天及常规工作负载而言,FP8 是一项稳妥的初步优化方案;不过,在数学推理或代码生成等对精度更敏感的任务中,可能需要进一步的调整与优化。
W4A16:4 位权重与 16 位激活
W4A16 通过将静态模型权重压缩为超紧凑的 4 位表示,同时将动态计算部分(如激活值)保持在更高精度的 16 位,从而在边缘设备上实现大型模型的部署。这种精度分配策略使得参数规模超过 1750 亿的模型能够适配单个 Jetson Thor 芯片,并为激活计算保留充足的内存空间。此外,在同一设备上同时运行多个大型模型(例如两个 700 亿参数模型)也成为可能,这在前几代 Jetson 平台上曾是极具挑战性的任务。
您应该选择哪种格式?
我们的建议很简单:从 W4A16 开始。这种配置通常能实现较快的推理速度和较低的内存占用。如果在任务中测试量化模型后,发现其准确性满足您的质量要求,建议继续使用。
如果任务较为复杂(例如需要细致推理或代码生成),且发现 W4A16 的准确性不够理想,建议切换至 FP8。它在保持较低内存占用的同时仍具备较快的速度,能够为多数边缘应用场景提供充足的精度支持。
预测解码:通过草稿验证解码方法提升推理速度
选择量化格式后,提升性能的关键在于预测性解码。该技术通过结合两个模型来加速推理过程:一个快速的小型“草稿”模型和一个高精度的大型“目标”模型。
其工作原理如下:
- 草稿模型会快速生成一段候选标记序列(即“预测”后续内容),
- 随后目标模型通过单次前向传播对整个序列进行验证,而非逐个生成标记。
该“起草和验证”过程在每个周期内生成多个 token,同时确保最终输出与目标模型独立生成的结果保持一致。性能表现主要取决于接受率,即被接受的草稿 token 所占的百分比。接受率过低会显著增加延迟,而接受率过高则可能导致计算资源消耗上升,因此使用能够反映实际工作负载的提示进行基准测试尤为关键。提升性能的主要途径在于草稿模型的选择:建议优先选用在架构上与目标模型相近的模型作为起点;针对特定领域,可考虑对草稿模型进行微调,以进一步提升接受率。
在我们的实验中,EAGLE-3 预测性解码展现出卓越的加速效果。基于 Llama 3.3 70B (W4A16) 的基准测试结果显示,该功能使性能提升至原来的 2.5 倍,使用 vLLM 时吞吐量从 6.27 提高到 16.19 token/s,并发数为 1。我们采用 ShareGPT 数据集进行了测试,但建议您针对自身数据进行验证,以评估在具体应用场景下的实际表现。
将量化与预测性解码相结合
当你结合这些技术时,真正的优势便得以显现。我们采用了 vLLM,它为 EAGLE-3 提供了出色的内置支持。以下是一个示例命令,用于为支持预测解码的 Llama 3.3 w4a16 模型提供服务。
vllm serve "RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16" --trust_remote_code -- --speculative-config '{"method":"eagle3","model":"yuhuili/EAGLE3-LLaMA3.3-Instruct-70B","num_speculative_tokens":5}'
为简化入门流程,NVIDIA 推出了支持 Jetson Thor 的独立 vLLM 容器,并每月更新以集成最新改进。
以下是一份分步指南,帮助你在模型质量与推理性能之间实现理想平衡。
- 建立质量基准。 在优化前,以较高精度(优先选择 FP16,若模型规模过大则可选用 FP8)加载模型,并验证其在目标任务上的正确性。
- 通过量化逐步优化。 逐步降低权重的精度(例如降至 W4A16),并在每个调整阶段评估模型准确性,一旦发现质量不满足需求即停止进一步压缩。
- 结合实际场景进行性能验证。 使用能够模拟真实工作负载的基准测试,确认最终配置的性能表现,无论是在高并发、长上下文窗口还是生成长输出序列等场景下。
如果所选模型的运行速度仍不理想,建议换用更小的模型并重复此过程。如需详细了解如何执行这些性能基准测试,请参考 Jetson AI 实验室的实战教程。
现在,您可以自信地提升 Jetson Thor 上生成式 AI 模型的性能。立即获取 Jetson AGX Thor 开发者套件 ,并下载最新版本的 NVIDIA JetPack 7,开启您的开发之旅。