当今,要求严苛的 AI 开发者工作负载通常需要比台式电脑所能提供的内存更多,也往往需要访问笔记本电脑或 PC 所不具备的软件,这使得工作不得不转向云端或数据中心。
NVIDIA DGX Spark 可作为云实例和数据中心队列的替代方案。这款基于 Blackwell 架构的紧凑型超级计算机,具备每秒 1 千万亿次的 FP4 AI 计算性能、128 GB 的一致性统一系统内存,以及每秒 273 GB 的内存带宽,并预装了 NVIDIA AI 软件堆栈。借助 DGX Spark,您无需依赖云端或排队使用数据中心资源,即可在本地高效处理大规模计算密集型任务。
我们将为您介绍 DGX Spark 在计算性能、大容量内存以及预装 AI 软件方面的优势,如何有效加速微调、图像生成、数据科学和推理等工作负载。请继续阅读,了解部分基准测试结果。
微调 DGX Spark 上的工作负载
调整预训练模型是 AI 开发者的一项常见任务。为展示 DGX Spark 在此类工作负载中的性能表现,我们采用了三种不同的方法进行实验:全量微调、LoRA 和 QLoRA。
在对 Llama 3.2 B 模型进行完整微调后,我们实现了每秒 82739.2 tokens 的处理速度。在 DGX Spark 上,采用 LoRA 方法对 Llama 3.1 8B 模型进行调整时,达到每秒 53657.6 tokens 的处理速度。而在同一平台上,使用 QLoRA 方法对 Llama 3.3 70B 模型进行调整时,峰值性能为每秒 5079.4 tokens。
由于微调需要消耗大量显存,因此这些调优工作负载均无法在 32 GB 消费级 GPU 上运行。
| Fine-tuning | ||||
| 模型 | 方法 | 后端 | 设置 | 峰 tokens/秒 |
| Llama 3.2 3B |
完全微调 | PyTorch | 序列长度:2048 批量大小:8 周期:1 步骤:125 BF16 |
82739.20 |
| Llama 3.1 8B | LoRA | PyTorch | 序列长度:2048 批量大小:4 周期:1 步骤:125 BF16 |
53657.60 |
| Llama 3.3 70B | QLoRA | PyTorch | 序列长度:2048 批量大小:8 周期:1 步骤:125 FP4 |
5079.04 |
DGX Spark 的图像生成功能
图像生成模型在不断提升准确性、分辨率以及运行效率。根据提示生成高分辨率图像或多张图像,不仅需要更多的内存,也增加了计算量。
DGX Spark 具备大容量 GPU 显存和强大的计算性能,能够处理更高分辨率的图像和更高精度的模型,从而提升图像质量。同时,DGX Spark 支持 FP4 数据格式,可在高分辨率下实现快速图像生成。
使用 FP4 精度的 Flux.1 12B 模型时,DGX Spark 每 2.6 秒即可生成 1K 分辨率的图像(详见下表 2)。凭借大容量系统内存,DGX Spark 能够支持 BF16 精度的 SDXL 1.0 模型运行,并实现每分钟生成七张 1K 图像的性能。
| 图像生成模型 | ||||
| 模型 | 精度 | 后端 | 设置 | 图/分钟 |
| Flux.1 12B Schnell | FP4 | TensorRT | 分辨率:1024 × 1024,降噪步骤:4,批量大小:1 | 23 |
| SDXL 1.0 | BF16 | TensorRT | 分辨率:1024 × 1024,降噪步骤:50,批量大小:2 | 7 |
使用 DGX Spark 进行数据科学工作
DGX Spark 支持 NVIDIA cuML 和 cuDF 等基于 CUDA-X 的基础库。其中,NVIDIA cuML 能够在 GPU 上加速 scikit-learn 中的机器学习算法,以及 UMAP 和 HDBSCAN 等方法,且无需修改代码。
对于 UMAP 和 HDBSCAN 等计算密集型机器学习算法,DGX Spark 能够在数秒内完成 250 MB 数据集的处理。(参见下表 3。)NVIDIA cuDF 可显著加速常见的 pandas 数据分析任务,例如连接操作和字符串处理方法。在 DGX Spark 上,借助 cuDF pandas,对包含数千万条记录的数据集进行操作仅需几秒钟即可完成。
| 数据科学库基准测试 | |||
| 库 | 基准 | 数据集大小 | 时间 |
| NVIDIA cuML | UMAP | 250 MB | 4 秒 |
| NVIDIA cuML | HDBSCAN | 250 MB | 10 秒 |
| NVIDIA cuDF pandas | 关键数据分析操作(连接、字符串方法、UDF) | 0.5 到 5 GB | 11 秒 |
使用 DGX Spark 进行推理
DGX Spark 的 Blackwell GPU 支持 FP4 数据格式,特别是 NVFP4 格式,能够实现接近 FP8 的精度(仅降低 1%),从而在不牺牲准确性的前提下支持更小模型的使用。由于 FP4 的数据占用空间更小,系统性能也得以提升。表 4 提供了 DGX Spark 的推理性能数据。
DGX Spark 支持多种 4 位数据格式,包括 NVFP4 和 MXFP4,并兼容多个后端,例如 TRT-LLM、llama.cpp 和 vLLM。该系统具备 1 petaflop 的 AI 性能,可实现快速的提示处理,如表 4 所示。高效的提示处理有助于提升 token 响应速度,改善用户体验,同时加快端到端的吞吐量。
| 推理 (ISL) | OSL 2048 | 128,BS = 1 | |||||
| Model | Precision | Backend | Prompt 处理吞吐量 (tokens/sec) | token 生成吞吐量 (tokens/sec) | |
| Qwen3 14B | NVFP4 | TRT-LLM | 5928.9 | 522.71 | |
| GPT-OSS-20B | MXFP4 | llama.cpp | 3670.4 | 282.74 | |
| GPT-OSS-120B | MXFP4 | llama.cpp | 1725.4 | 755.37 | |
| Llama 3.1 8B | NVFP4 | TRT-LLM | 10256.9 | 38.65 | |
| Qwen2.5-VL-7B-Instruct | NVFP4 | TRT-LLM | 658 | 31.77 | |
| Qwen3 235B (基于双 DGX Spark) | NVFP4 | TRT-LLM | 23477.0 | 311.73 | |
NVFP4:NVIDIA Blackwell GPU 架构引入的 4 位浮点格式。 MXFP4:由开放计算项目 (OCP) 提出的 4 位浮点格式,全称为 Microscaling FP4。 ISL(输入序列长度):指输入提示词的数量(即 prefill tokens)。 OSL(输出序列长度):指模型在响应过程中生成的 token 数量(即解码 tokens)。
我们还通过 ConnectX-7 芯片将两台 DGX Spark 连接起来,用于运行 Qwen3 235B 模型。该模型显存占用超过 120 GB(包括激活内存)。这类模型通常在大型云平台或数据中心服务器上部署,而能够在双 DGX Spark 系统上运行,表明其为开发者提供了开展实验的可能性。如表 4 最后一行所示,双 DGX Spark 上的 token 生成吞吐量达到每秒 11.73 个 token。
NVIDIA Nemotron Nano 2 模型的全新 NVFP4 版本在 DGX Spark 上同样表现出色。采用 NVFP4 版本后,您现在可实现高达 2 倍的吞吐量提升,同时保持几乎不受影响的准确度。可通过 Hugging Face 或 NVIDIA NIM 形式下载模型检查点。
获取 DGX Spark,加入 DGX Spark 开发者社区,开启您的 AI 构建之旅。