随着许多企业开始对其数据进行 AI 训练或推理,需要保护数据和代码,尤其是大语言模型 (LLMs) 。由于数据敏感性,许多客户无法冒险将数据放在云端。此类数据可能包含个人身份信息 (PII) 或公司专有信息,且经过训练的模型拥有宝贵的知识产权 (IP) 。
NVIDIA Confidential Computing (CC) 是保护大型 AI 模型和数据的出色解决方案。借助 NVIDIA CC,企业无需在性能和安全性之间做出权衡。NVIDIA 最初于 2023 年发布了 CC,并继续与 CPU 合作伙伴、云提供商和独立软件供应商 (ISVs) 合作,以确保从传统的加速工作负载到机密的加速工作负载的转变是流畅和透明的。
本文将介绍基于 NVIDIA HGX H100 8-GPU 和 NVIDIA HGX H200 8-GPU 的安全 AI(即 Protected PCIe)的最新版本。它包括:
- 受保护的 PCIe (PPCIE) 模式 :PPCIE 通过机密虚拟机中的 8 个 GPU 和 4 个交换机来保护多 GPU。此模式不同于使用 CC 模式配置的单个带 CC 的 GPU。
- 删除 NV Link 加密 :用于提高性能。
- 认证更改 :用于测量在 PPCIE 模式下运行的 GPU 和交换机配置。
安全性的重要性
在当今互联世界中,安全性至关重要。生成的海量数据对企业具有巨大潜力,并可能影响各行各业的整个未来。多年来,安全领域的各种供应商都可以保护 data-in-motion (例如通过互联网传输数据) 和 data-at-rest (例如加密存储数据) 。
但是,其中许多供应商并不清楚使用中的数据可能是 cleartext,仍然暴露,并且容易受到攻击。CC 解决了保护使用中数据的需求,并防止未经授权的用户访问或修改数据。
NVIDIA GPU 的硬件和软件安全
本节详细介绍了在 NVIDIA GPU 上开始使用 PPCIE 所需的硬件和软件。
硬件
PPCIE 需要在 HGX 8-GPU 系统上配备 NVIDIA H100 Tensor Core GPU 或 NVIDIA H200 Tensor Core GPU 的系统。系统还必须拥有支持 Trusted Execution Environment (TEE) 的 CPU。
CPU CC 技术
- AMD SEV-SNP
- 英特尔 TDX
支持的 CPU
- AMD Milan (EPYC 7XX3) 或 AMD Genoa (EPYC 9XX4)
- 英特尔 Emerald Rapids (第五代 Xeon 可扩展) 和英特尔 Granite Rapids (第六代 Xeon 可扩展)
支持的 GPU
- 在 NVIDIA Hopper 架构 上启用所有 GPU 保护和防火墙,包括 NVIDIA HGX H100 8-GPU 80 GB 和 HGX H200 NVL 系统
软件
- NVIDIA 驱动:CUDA 12.8 Data Center Driver (r570) 或更高版本
- NVIDIA 固件 1.7.0 或更高版本
- 支持的服务器虚拟化平台:Microsoft Azure Hyper-V、KVM
- 支持的操作系统 AMD:Ubuntu 25.04 Intel:带有 patches 的 Ubuntu 24.04
入门指南
对 PPCIE 的支持现已在 CUDA 12.8 上正式推出。现在,您可以使用 PPCIE 运行 LLM,充分利用 8-GPU 的完整性能和最新的硬件安全功能。
有关 Secure AI (Protected PCIe) 的部署指南和相关文档,请参阅 NVIDIA Deployment Guide 。要查看其他安全产品 (包括 NVIDIA Confidential Computing) ,请访问 NVIDIA Trusted Computing Solutions 。