通过 NVIDIA Jetson AGX Thor 实现 7 倍生成式 AI 性能，解锁更快速、更智能的边缘模型

NVIDIA 软件生态系统的一大显著优势在于其持续优化的承诺。今年 8 月，NVIDIA 发布了 Jetson AGX Thor，与前代产品 Jetson AGX Orin 相比，生成式 AI 性能最高提升达 5 倍。通过软件更新自发布以来，Jetson Thor 现在支持 7x 增加的生成式 AI 吞吐量。

通过在 NVIDIA Jetson Orin 和 NVIDIA Jetson AGX Xavier 上已验证的这一方法，开发者能够在 Llama 和 DeepSeek 等模型上受益于这些优化，并有望在未来的模型版本中延续类似优势。除了持续的软件优化外，NVIDIA 通常在主流模型发布后的数日内即提供支持，使开发者能够尽早体验新一代 AI 模型。

Jetson Thor 平台支持多种主流量化格式，包括源自 NVIDIA Blackwell GPU 架构的新型 NVFP4 格式，有助于进一步优化推理性能。同时，平台还支持预测性解码等先进技术，为加速边缘端生成式 AI 工作负载提供了新的途径。

持续进行软件优化

随着近期 vLLM 容器的发布，Jetson Thor 在相同模型和量化条件下的性能相比 8 月底发布时提升了 3.5 倍。表 1 对比了 Llama 3.3 70B 和 DeepSeek R1 70B 模型在 8 月发布时的输出 token/秒与 2025 年 9 月最新基准测试结果。

家族	模型	Jetson AGX Thor Aug 2025 (输出 token/ 秒)	Jetson AGX Thor Sep 2025 (输出 token/ 秒)	Jetson AGX Thor：性能相较启动时显著提升
Llama	Llama 3.3 70B	41.5	512.6	3.3
DeepSeek	DeepSeek R1 70B	40.2	911.5	3.5

表 1。Llama 3.3 与 DeepSeek R1 发布时在基准测试中的输出速度（token/秒）对比

基准测试配置如下：序列长度为2048，输出序列长度为128，最大并发数为8，电源模式设为MAXN。

Jetson Thor 现已支持在 vLLM 容器中运行 Eagle 3 预测性解码，进一步提升了生成式 AI 模型的性能。例如，在采用预测解码的 Llama 3.3 70B 模型上，输出速度可达每秒 88.62 个 token，相比未启用预测解码时提升了 7 倍。

A graph showing the increase in software optimization and speculative decoding for DeepSeek R1 and Llama 3.3. — *图1：软件优化后性能提升3.5倍，结合预测性解码后性能提升达7倍。*

运行支持首发日最新版本的模型

开发者可借助 Jetson Thor 在边缘设备上运行前沿的生成式 AI 模型，并享受首发日支持。例如，在 Jetson AGX Thor 发布当天，llamacpp/ollama 即已支持 gpt-oss，vLLM 也同步提供支持。此外，众多 NVIDIA Nemotron 模型还支持每周无缝更新。

借助 Jetson Thor 提升生成式 AI 性能

Jetson Thor 在边缘端生成式 AI 应用中表现出强大的性能，但要充分发挥其潜力，必须采用合适的技术方案。本节将为您详细介绍如何高效利用这一平台。我们将深入探讨量化与预测解码两种关键技术，它们能够显著加速大语言模型（LLM）和视觉语言模型（VLM）的推理过程。最后，我们还将提供一份实践教程，指导您在 Jetson Thor 上对模型进行基准测试，帮助您为特定应用场景选择最合适的模型与配置组合。

量化：减小模型体积，提升推理速度

量化是指降低模型数据（包括权重和激活值）数值精度的过程。可以将其理解为用更少的小数位来表示数值——虽然与原始值不完全相同，但足够接近，同时显著提升了存储和计算效率。通常，我们会将标准的16位格式（如FP16或BF16）转换为更低位的格式，例如8位或4位。

这将为您带来两大显著优势：

更小的显存占用
这是端侧设备运行更大模型的关键。通过减少每个参数所需的字节数，可以加载原本因体积过大而无法运行的模型。根据经验估算，一个包含 700 亿参数的模型，其权重占用的显存大致如下：
- 使用浮点 16（FP16）时约为 140 GB，超出 Thor 设备 128 GB 的显存容量，无法运行；
- 采用浮点 8（FP8）时约为 70 GB，可在显存中留有充足余量；
- 使用 4 位精度时仅需约 35 GB，足以支持同时运行多个大型模型。
更快的内存访问速度
更小的权重还意味着更快的内存访问速度。由于需要从内存传输到计算核心的数据量减少，整体延迟得以降低。这一点在边缘计算场景中尤为重要，因为 token 生成的响应速度直接影响用户体验，低延迟有助于提升实时交互的流畅性。

我们来看看 Jetson Thor 上最关键的两种格式。

FP8

若要在几乎无损的前提下迈出模型优化的第一步，FP8 是一个理想的选择。以 70B 参数规模的模型为例，若采用 16 位精度存储权重，再考虑激活值和 KV 缓存的内存占用，其总需求将超出 Jetson Thor 的内存容量。而通过将权重精度降至 FP8，内存占用显著减少，使得在设备上加载并运行该模型成为可能。在经过适当校准后，FP8 的推理精度通常仅比 FP16 基准低不到 1%，表现十分接近。因此，对于聊天及常规工作负载而言，FP8 是一项稳妥的初步优化方案；不过，在数学推理或代码生成等对精度更敏感的任务中，可能需要进一步的调整与优化。

W4A16：4 位权重与 16 位激活

W4A16 通过将静态模型权重压缩为超紧凑的 4 位表示，同时将动态计算部分（如激活值）保持在更高精度的 16 位，从而在边缘设备上实现大型模型的部署。这种精度分配策略使得参数规模超过 1750 亿的模型能够适配单个 Jetson Thor 芯片，并为激活计算保留充足的内存空间。此外，在同一设备上同时运行多个大型模型（例如两个 700 亿参数模型）也成为可能，这在前几代 Jetson 平台上曾是极具挑战性的任务。

您应该选择哪种格式？

我们的建议很简单：从 W4A16 开始。这种配置通常能实现较快的推理速度和较低的内存占用。如果在任务中测试量化模型后，发现其准确性满足您的质量要求，建议继续使用。

如果任务较为复杂（例如需要细致推理或代码生成），且发现 W4A16 的准确性不够理想，建议切换至 FP8。它在保持较低内存占用的同时仍具备较快的速度，能够为多数边缘应用场景提供充足的精度支持。

预测解码：通过草稿验证解码方法提升推理速度

选择量化格式后，提升性能的关键在于预测性解码。该技术通过结合两个模型来加速推理过程：一个快速的小型“草稿”模型和一个高精度的大型“目标”模型。

其工作原理如下：

草稿模型会快速生成一段候选标记序列（即“预测”后续内容），
随后目标模型通过单次前向传播对整个序列进行验证，而非逐个生成标记。

该“起草和验证”过程在每个周期内生成多个 token，同时确保最终输出与目标模型独立生成的结果保持一致。性能表现主要取决于接受率，即被接受的草稿 token 所占的百分比。接受率过低会显著增加延迟，而接受率过高则可能导致计算资源消耗上升，因此使用能够反映实际工作负载的提示进行基准测试尤为关键。提升性能的主要途径在于草稿模型的选择：建议优先选用在架构上与目标模型相近的模型作为起点；针对特定领域，可考虑对草稿模型进行微调，以进一步提升接受率。

在我们的实验中，EAGLE-3 预测性解码展现出卓越的加速效果。基于 Llama 3.3 70B (W4A16) 的基准测试结果显示，该功能使性能提升至原来的 2.5 倍，使用 vLLM 时吞吐量从 6.27 提高到 16.19 token/s，并发数为 1。我们采用 ShareGPT 数据集进行了测试，但建议您针对自身数据进行验证，以评估在具体应用场景下的实际表现。

将量化与预测性解码相结合

当你结合这些技术时，真正的优势便得以显现。我们采用了 vLLM，它为 EAGLE-3 提供了出色的内置支持。以下是一个示例命令，用于为支持预测解码的 Llama 3.3 w4a16 模型提供服务。

vllm serve "RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16" --trust_remote_code -- --speculative-config '{"method":"eagle3","model":"yuhuili/EAGLE3-LLaMA3.3-Instruct-70B","num_speculative_tokens":5}'

为简化入门流程，NVIDIA 推出了支持 Jetson Thor 的独立 vLLM 容器，并每月更新以集成最新改进。

以下是一份分步指南，帮助你在模型质量与推理性能之间实现理想平衡。

建立质量基准。 在优化前，以较高精度（优先选择 FP16，若模型规模过大则可选用 FP8）加载模型，并验证其在目标任务上的正确性。
通过量化逐步优化。 逐步降低权重的精度（例如降至 W4A16），并在每个调整阶段评估模型准确性，一旦发现质量不满足需求即停止进一步压缩。
结合实际场景进行性能验证。 使用能够模拟真实工作负载的基准测试，确认最终配置的性能表现，无论是在高并发、长上下文窗口还是生成长输出序列等场景下。

如果所选模型的运行速度仍不理想，建议换用更小的模型并重复此过程。如需详细了解如何执行这些性能基准测试，请参考 Jetson AI 实验室的实战教程。

现在，您可以自信地提升 Jetson Thor 上生成式 AI 模型的性能。立即获取 Jetson AGX Thor 开发者套件，并下载最新版本的 NVIDIA JetPack 7，开启您的开发之旅。

通过 NVIDIA Jetson AGX Thor 实现 7 倍生成式 AI 性能，解锁更快速、更智能的边缘模型

持续进行软件优化

运行支持首发日最新版本的模型