NVIDIA 中国开发者日活动 中国・苏州 | 2025 年 11 月 14 日 了解详情
代理式 AI/生成式 AI

NVIDIA DGX Spark 的性能如何支持密集型 AI 任务

当今,要求严苛的 AI 开发者工作负载通常需要比台式电脑所能提供的内存更多,也往往需要访问笔记本电脑或 PC 所不具备的软件,这使得工作不得不转向云端或数据中心。

NVIDIA DGX Spark 可作为云实例和数据中心队列的替代方案。这款基于 Blackwell 架构的紧凑型超级计算机,具备每秒 1 千万亿次的 FP4 AI 计算性能、128 GB 的一致性统一系统内存,以及每秒 273 GB 的内存带宽,并预装了 NVIDIA AI 软件堆栈。借助 DGX Spark,您无需依赖云端或排队使用数据中心资源,即可在本地高效处理大规模计算密集型任务。

我们将为您介绍 DGX Spark 在计算性能、大容量内存以及预装 AI 软件方面的优势,如何有效加速微调、图像生成、数据科学和推理等工作负载。请继续阅读,了解部分基准测试结果。

微调 DGX Spark 上的工作负载

调整预训练模型是 AI 开发者的一项常见任务。为展示 DGX Spark 在此类工作负载中的性能表现,我们采用了三种不同的方法进行实验:全量微调、LoRA 和 QLoRA。

在对 Llama 3.2 B 模型进行完整微调后,我们实现了每秒 82739.2 tokens 的处理速度。在 DGX Spark 上,采用 LoRA 方法对 Llama 3.1 8B 模型进行调整时,达到每秒 53657.6 tokens 的处理速度。而在同一平台上,使用 QLoRA 方法对 Llama 3.3 70B 模型进行调整时,峰值性能为每秒 5079.4 tokens。

由于微调需要消耗大量显存,因此这些调优工作负载均无法在 32 GB 消费级 GPU 上运行。

Fine-tuning
模型 方法 后端 设置 峰 tokens/秒
Llama 3.2 3B

完全微调 PyTorch 序列长度:2048
批量大小:8
周期:1
步骤:125 BF16
82739.20
Llama 3.1 8B LoRA PyTorch 序列长度:2048
批量大小:4
周期:1
步骤:125 BF16
53657.60
Llama 3.3 70B QLoRA PyTorch 序列长度:2048
批量大小:8
周期:1
步骤:125 FP4
5079.04
表 1。微调后的性能表现

DGX Spark 的图像生成功能

图像生成模型在不断提升准确性、分辨率以及运行效率。根据提示生成高分辨率图像或多张图像,不仅需要更多的内存,也增加了计算量。

DGX Spark 具备大容量 GPU 显存和强大的计算性能,能够处理更高分辨率的图像和更高精度的模型,从而提升图像质量。同时,DGX Spark 支持 FP4 数据格式,可在高分辨率下实现快速图像生成。

使用 FP4 精度的 Flux.1 12B 模型时,DGX Spark 每 2.6 秒即可生成 1K 分辨率的图像(详见下表 2)。凭借大容量系统内存,DGX Spark 能够支持 BF16 精度的 SDXL 1.0 模型运行,并实现每分钟生成七张 1K 图像的性能。

图像生成模型
模型 精度 后端 设置 图/分钟
Flux.1 12B Schnell FP4 TensorRT 分辨率:1024 × 1024,降噪步骤:4,批量大小:1 23
SDXL 1.0 BF16 TensorRT 分辨率:1024 × 1024,降噪步骤:50,批量大小:2 7
表 2。图像生成性能对比

使用 DGX Spark 进行数据科学工作

DGX Spark 支持 NVIDIA cuMLcuDF 等基于 CUDA-X 的基础库。其中,NVIDIA cuML 能够在 GPU 上加速 scikit-learn 中的机器学习算法,以及 UMAP 和 HDBSCAN 等方法,且无需修改代码。

对于 UMAP 和 HDBSCAN 等计算密集型机器学习算法,DGX Spark 能够在数秒内完成 250 MB 数据集的处理。(参见下表 3。)NVIDIA cuDF 可显著加速常见的 pandas 数据分析任务,例如连接操作和字符串处理方法。在 DGX Spark 上,借助 cuDF pandas,对包含数千万条记录的数据集进行操作仅需几秒钟即可完成。

数据科学库基准测试
基准 数据集大小 时间
NVIDIA cuML UMAP 250 MB 4 秒
NVIDIA cuML HDBSCAN 250 MB 10 秒
NVIDIA cuDF pandas 关键数据分析操作(连接、字符串方法、UDF) 0.5 到 5 GB 11 秒
表 3。数据科学领域性能表现

使用 DGX Spark 进行推理

DGX Spark 的 Blackwell GPU 支持 FP4 数据格式,特别是 NVFP4 格式,能够实现接近 FP8 的精度(仅降低 1%),从而在不牺牲准确性的前提下支持更小模型的使用。由于 FP4 的数据占用空间更小,系统性能也得以提升。表 4 提供了 DGX Spark 的推理性能数据。

DGX Spark 支持多种 4 位数据格式,包括 NVFP4 和 MXFP4,并兼容多个后端,例如 TRT-LLM、llama.cpp 和 vLLM。该系统具备 1 petaflop 的 AI 性能,可实现快速的提示处理,如表 4 所示。高效的提示处理有助于提升 token 响应速度,改善用户体验,同时加快端到端的吞吐量。

推理 (ISL) | OSL 2048 | 128,BS = 1
Model Precision Backend Prompt 处理吞吐量 (tokens/sec) token 生成吞吐量 (tokens/sec)
Qwen3 14B NVFP4 TRT-LLM 5928.9 522.71
GPT-OSS-20B MXFP4 llama.cpp 3670.4 282.74
GPT-OSS-120B MXFP4 llama.cpp 1725.4 755.37
Llama 3.1 8B NVFP4 TRT-LLM 10256.9 38.65
Qwen2.5-VL-7B-Instruct NVFP4 TRT-LLM 658 31.77
Qwen3 235B (基于双 DGX Spark) NVFP4 TRT-LLM 23477.0 311.73
表 4。推理性能

NVFP4:NVIDIA Blackwell GPU 架构引入的 4 位浮点格式。 MXFP4:由开放计算项目 (OCP) 提出的 4 位浮点格式,全称为 Microscaling FP4。 ISL(输入序列长度):指输入提示词的数量(即 prefill tokens)。 OSL(输出序列长度):指模型在响应过程中生成的 token 数量(即解码 tokens)。

我们还通过 ConnectX-7 芯片将两台 DGX Spark 连接起来,用于运行 Qwen3 235B 模型。该模型显存占用超过 120 GB(包括激活内存)。这类模型通常在大型云平台或数据中心服务器上部署,而能够在双 DGX Spark 系统上运行,表明其为开发者提供了开展实验的可能性。如表 4 最后一行所示,双 DGX Spark 上的 token 生成吞吐量达到每秒 11.73 个 token。

NVIDIA Nemotron Nano 2 模型的全新 NVFP4 版本在 DGX Spark 上同样表现出色。采用 NVFP4 版本后,您现在可实现高达 2 倍的吞吐量提升,同时保持几乎不受影响的准确度。可通过 Hugging FaceNVIDIA NIM 形式下载模型检查点。

获取 DGX Spark,加入 DGX Spark 开发者社区,开启您的 AI 构建之旅。

标签