机密和自主的 AI 是一种新的 AI 开发、训练和推理方法,其中用户的数据是去中心化的、私有的,并由用户自己控制。本文将探讨如何通过使用区块链技术的去中心化来扩展 Confidential Computing(CC)的功能。
通过使用个人 AI 智能体,可以非常清楚地看到所解决的问题。这些服务可帮助用户完成许多任务,包括撰写电子邮件、准备报税和查看医疗记录。毋庸置疑,所处理的数据是敏感的个人数据。
在集中式系统中,这些数据由人工智能服务提供商在云中处理,通常不透明。当用户的数据离开设备时,他们将失去对自己数据的控制,而这些数据可能会被用于训练、泄露、出售或以其他方式被误用。届时无法追踪个人数据。
这种信任问题阻碍了 AI 行业发展的某些特定方面,尤其是对于尚未获得声誉或证据来支持其真实意图的初创公司和 AI 开发者而言。机密且自主的 AI 云可为必须保护数据并确保数据主权的客户提供解决方案。
解决自主 AI 云需求
Super Protocol 基于机密性、去中心化和自主原则,构建了一个同名的 AI 云和市场。在 Super Protocol 云中,机密计算技术在执行期间保护数据,而基于区块链的去中心化网络则提供所有流程的编排、透明度和可验证性。
NVIDIA Confidential Computing 使用 CPU 和 NVIDIA GPU 来保护使用中的数据,使恶意行为者以及主机所有者无法查看和访问这些数据。
NVIDIA Hopper 架构 引入了 机密计算 能力,而 NVIDIA Blackwell 架构 增强了其性能,几乎与大语言模型 (LLMs) 的未加密模式相同。
用例:在 Super Protocol 中微调和部署 AI 智能体即服务
以下是一个实际用例:AI 开发者希望通过从 Super Protocol AI Marketplace 租赁预训练的基础模型,并针对涉及处理最终用户隐私和敏感数据的特定用途微调新层,来启动商业 AI 代理服务。
预训练模型是专有的,不可下载,只能在其所有者设置的特定条件下租用。微调可能包括各种方法,例如知识蒸馏、低秩适应(LoRA)、检索增强生成(RAG),以及不改变基础模型结构和权重的其他方法。
上传和发布
作为先决条件,基础模型的所有者将其预训练模型上传到其去中心化文件存储(DFS)系统的帐户,并在超级协议 AI 市场(图 2 中步骤 1-3)上发布了报价(模型的开放列表)。这使得模型能够在预设条件下租用,在本用例中,预设条件是每小时使用一次的费用。
现在,作为 AI 开发者,您可以安全地将数据集上传到您的帐户中(图 2 中的步骤 4-5)。这些是私有数据集,用于微调基础模型。
以下是参与此步骤序列的组件和服务:
- DFS: 去中心化文件存储 是诸如 Filecoin 和 Storj 等对等网络,用于在去中心化文件系统中存储和共享数据。由于 DFS 系统本身致力于自主原则,用户对自己的数据和账户拥有完全的控制权。在通过 Web 界面或 CLI 上传数据的过程中,数据会被存档和加密。
- AI Marketplace: AI Marketplace 是模型开发者、数据所有者和计算机资源(CC)提供商发布的产品分类帐。它基于区块链和智能合同,可通过 Web 界面或命令行界面(CLI)访问。用于上传和管理内容,以及创建和管理部署订单和产品。
- 区块链: 基于多边形的透明去中心化分类帐,可存储供应商、报价和订单的信息。这些信息包括描述、定价条件(免费、每小时、固定、收益分成)、系统要求以及各种使用规则和限制。该记录是透明的,但不可更改。
- 智能合同: 透明且去中心化的区块链应用,可根据在优惠中指定的使用规则和限制来编排部署。
微调
在 AI Marketplace 中,选择适合未来 AI 服务用途的预训练基础模型。然后,创建部署顺序,以便从 AI Marketplace 租用预训练的基础模型,并使用自己的数据集对其进行微调(图 3 中的第 6 至第 7 步)。
然后,智能合约自动从机密计算云中选择一台或多台满足模型微调要求的机器。执行控制器位于每台机器的 TEE 内的机密 VM 中,负责验证顺序、下载内容并将其发送给受信任的加载程序(图 3 中的步骤 8-10)。
然后,受信任的加载程序会部署工作负载以执行。AI 训练引擎会获取基础预训练模型,并根据部署顺序规格(图 3 中步骤 11-12)使用数据集对其进行微调。
此过程可能会重复多次,直到您对结果感到满意为止。新的微调层会上传回您的 DFS 系统。我没有在图表中展示这些步骤,以避免不必要的视觉复杂性。
预训练模型的所有者和计算机的所有者都可以按小时获得产品和服务的报酬(图 3 中的第 13 步)。
以下是参与这些步骤的组件和服务:
- 机密计算云
- TEE
- 机密虚拟机
- 执行控制器
- 可信加载程序
机密计算云
机密计算云 拥有分布在 CPU 和 NVIDIA H100 Tensor Core GPU 中启用 CC 的强大机器集群。
由于 Super Protocol 是去中心化云,因此没有中央数据中心。相反,叠加网络将参与部署的容器连接到本地网络,确保工作负载的分配类似于集中式数据中心,同时遵循去中心化原则。模型和数据集的所有者可能会将其产品分销限制在特定的 TEE 设备和地理位置上。
所有机器均由独立提供商在网络上提供,与挖矿类似,但适用于有用的工作负载。这些机器由智能合约进行协调,供应商因提供资源而获得网络奖励。
共识机制可验证网络上是否存在可接受订单的计算机、其声明的系统配置是否正确以及 TEE 是否有效,还可移除任何欺诈性或恶意计算提供商。
我们可以在多台机器上跨不同的 GPU 云服务提供商(CSP)创建单个部署,从而提高未充分利用的 CSP 资源的利用率,提高稳定性和负载均衡能力,并提供更具竞争力的价格优惠。
容错可确保,如果一台计算机离线,系统会自动订购另一台计算机作为替代产品,整个部署将不间断地继续进行。
TEE
可信执行环境 (TEE)是 CC 的一个关键组件,也是 RAM 中的一个保护区域,可在每台机器中执行实际工作负载。它专为每个部署顺序创建,并使用会话密钥进行加密。TEE 可以保护数据免受未经授权的第三方(包括主机所有者和 Super Protocol 团队)的攻击。
过去,传统机密 VM 的 TEE 仅限于 CPU 及其分配的 RAM,而 NVIDIA CC 解决方案则扩展了 TEE,以包含 NVIDIA Hopper GPU。
配置为 CC 模式的 NVIDIA GPU 已激活基于硬件的加密引擎、防火墙和远程认证流,以确保 TEE 的完整性,以便最终用户可以确保并验证其机密工作负载在 GPU 上使用时受到保护。
Hopper CC 使用 AES-GCM256 对 PCIe 总线上的所有用户数据进行加密和签名,并使用经签名和可认证的固件配置的防火墙阻止基础设施和带外访问。
NVIDIA 还提供公共远程认证服务,以便最终用户或依赖方可以获得最新的证据,证明其驱动和固件未因错误或漏洞而被吊销。
机密虚拟机
执行控制器、可信加载器和工作负载在每台参与计算的计算机上运行的是机密虚拟机。
执行控制器
执行控制器(EC)根据写入区块链的资源路径从 DFS 系统下载数据。它根据智能合同和参与优惠的区块链条件创建主部署顺序。
可信加载程序
可信加载程序会建立一个安全的 CC 层,适用于单个机器或集成到计算集群中的机器网络。可信加载程序会在区块链上发布 TEE 确认块 (TCB),即远程认证报告,解密工作流文件,通过比较哈希值验证其完整性,并创建执行工作负载。
此处的目标是确认订单的完整性:机密性不允许访问 TEE 内部,只能验证输入和输出。
生产启动
现在是生产启动的时候了。步骤 14-19(图 2-4)与上一阶段类似。
主要区别始于步骤 20 (图 5),其中部署的 AI 引擎具有 Web 界面,并支持多用户交互和支付处理。它采用基础预训练模型,并使用新的微调层运行该模型。
此外,我们还部署了一系列机密隧道,以确保最终用户能够安全、稳定地访问(图 5 中的步骤 22-23)。我们为最终用户提供访问 AI 引擎 Web 界面的 URL。它也可以通过 Super Protocol 作为另一种解决方案的一部分启动,但这是另一个用例。
最终用户通过便捷的支付工具为 AI 代理服务付费,定价由开发者决定。
对于生产启动,您需要订购多台机器并行运行,以确保负载平衡和容错。隧道服务器应与隧道客户端在单独的机器上运行。
- AI 引擎 :用于部署的推理 AI 引擎。它具有用户友好的 Web 界面,支持支付处理,并使用新的微调层执行预训练模型。这些引擎是开源的,并通过 Super Protocol 验证,以确保不会泄露数据。
- 机密隧道:Super Protocol 开发了一项技术,使您能够在 TEE 内以机密模式启动隧道网络协议,其中隧道客户端作为包含 AI 代理服务的 Web 服务运行。隧道服务器提供外部的公共 IP 地址。
- 支付工具: 一种开源服务,也可在 TEE 中运行,接受最终用户的付款,并代表开发者使用 Payment tools。
AI 智能体即服务用例的结果
在 Super Protocol 场景中微调和部署 AI 代理即服务可产生以下结果:
- 开发者通过训练新层为基础模型添加新功能,并将其作为商业服务的机密 AI 代理发布。
- 基础模型所有者使用其预训练模型的每一小时都会获得相应的费用。
- CC 资源提供商按小时使用其机器获得补偿。
- 最终用户可以通过网络访问有用的 AI 智能体,该智能体提供便捷的付款方式,并且确信其敏感数据不会泄露或用于模型训练。
- 超级协议云可确保已部署的 AI 服务的容错和去中心化。
安全性、透明度和可验证性
Super Protocol 通过流程完整性和组件的真实性实现安全性和透明度,这些组件可由独立安全研究人员进行验证:
- 区块链和智能合同透明
- 由可信加载程序进行内容验证
- TCB 验证
- 开源验证
- AI 引擎开源验证
- E2E 加密
- TEE 认证
- 分布式机密
区块链和智能合同透明
所有区块链记录和智能合同都是不可更改的,对互联网上的任何人都是透明的。报价、订单和供应商可见,但匿名,并且部署订单的内容是保密的。
由可信加载程序进行内容验证
部署顺序的所有输入数据(models、datasets 和 solutions)的完整性通过哈希和签名的计算得到验证,然后由可信加载程序在运行时验证。
可信加载程序会向任何相关方提供运行时报告,以便独立验证报告中的哈希是否与所提供内容的哈希相匹配,以及是否未被篡改。
GPU 报告可直接与 NVIDIA 远程认证云服务 一起使用,以独立验证 GPU 的 CC 状态。
TCB 验证
TCB 由 TCB 服务自动编写在区块链上。然而,任何人也可以手动验证 TCB。这是通过验证 TEE 设备签名和设备本身是否真实,然后将 VM 镜像的哈希值与 TCB 的哈希值进行比较来完成的。
可信加载程序的开源验证
完成测试网络阶段后,执行控制器、可信加载器、隧道和其他 Super Protocol 中间件可在 GitHub 上以开源形式获取。
模型和数据的所有者会在创建部署顺序之前证明包含可信加载器密钥的 TCB,然后传输机密以访问其数据。如此一来,所有者便确信可信加载程序应用程序未被篡改,并且与官方开源版本完全相同。
AI 引擎开源验证
Super Protocol 中的所有 AI 引擎均以开源形式提供。这使安全研究人员能够对其进行审计,以确定是否存在内置漏洞,例如数据泄露。
E2E 加密
整个过程中都使用 E2E 加密。上传到 DFS 系统的数据经过加密,并且仅在可信加载程序中解密。
TEE 认证
要获得机密环境的完整证明,可信加载程序首先会收到 NVIDIA GPU TEE 的签名报告。该报告和可信加载器公钥包含在通过远程证明接收的常规 CPU TEE 报告中。
将由两个相互关联的认证报告组成的 TCB 写入区块链。Super Protocol 使用 NVIDIA 和 Intel 库来验证报告和证明、检查可信加载程序哈希,然后验证机密 VM 环境。
分布式机密
它是 DFS 系统上的加密秘密库,包含部署在 Super Protocol 上的解决方案生成的任何隐私或敏感用户数据。
目标是确保解决方案开发者无法访问存储的数据。密钥在受信任的加载程序之间生成和共享,而 vault 本身可由具有相同 solution hash 的不同部署实例访问。
结束语
历史上,大多数 AI 模型都是开源的,任何人都可以自由使用和重复使用。然而,新兴趋势是模型和数据集正变得越来越专有
CC 和自主 AI 为您提供了保护和商业化您的工作的机会,并进一步激励您提供安全、透明和可验证的 AI 服务。尤其是在政府对 AI 行业日益严格审查的背景下,这一点尤为重要。
有关更多信息,请参阅以下资源:
- 超级协议
- 机密计算对于 Web3 AI 的优势
- 实时 AI 处理研讨会 (NVIDIA 通过 NVIDIA LaunchPad 为本次研讨会提供 H100 TEE 访问权限。)
- NVIDIA 机密计算
- 通过 NVIDIA Launchpad 访问此实验室和其他实验室