网络安全/欺诈检测

NVIDIA 在领先的网络安全会议上展示 AI 安全专业知识

每年 8 月,成千上万的安全专业人员都会参加最前沿的安全会议 Black Hat USA 和 DEF CON。这一年,NVIDIA AI 安全专家参加了这些活动,分享我们的工作,并向社区其他成员学习。

本文概述了这些贡献,包括关于快速发展的 AI 环境的主题演讲、对抗性机器学习训练、关于大型语言模型(LLM)安全性的演讲等。这项工作有助于为安全社区提供必要的知识,以便他们以安全为理念有效部署 AI 系统。

NVIDIA 亮相 Black Hat USA 2024 

Black Hat 是一项国际公认的网络安全活动,提供相关的技术和信息安全研究。本年,围绕生成式 AI 工具在安全生态系统中的应用可能性以及 AI 部署本身的安全性,讨论声不断增长。

在 AI 峰会主题演讲中,NVIDIA 网络安全 AI 总监 Bartley Richardson 与 WWT 首席执行官 Jim Kavanaugh 共同分享了对迅速发展的 AI 格局的见解,特别是 AI 和自动化如何改变应对当今网络挑战的方式。在其他会议中,来自 NVIDIA 及其合作伙伴的专家讨论了 AI 如何变革安全态势,以及围绕 AI 系统的安全技术。

许多 Black Hat 简报都表达了一种共同的观点:部署 AI 工具和系统本质上需要一种经过测量的安全方法,而实施有效的信任边界和访问控制仍然非常重要。

在一场关于 AI 安全的小组讨论中,NVIDIA AI 和法律道德高级总监 Nikki Pope 与 Microsoft 和 Google 的从业者一起讨论了 AI 安全的复杂格局、常见的神话和陷阱,以及负责部署安全负责的 AI 的任何人的责任。NVIDIA 软件产品安全副总裁 Daniel Rohrer 在 Trend Micro 主持的会议上分享了 NVIDIA 对保护 AI 数据中心带来的独特挑战的观点。

NVIDIA 亮相 DEF CON 32 

DEF CON 是全球规模最大的黑客大会,在数十个村庄中,人们在诸如网络数据、社会工程、汽车和卫星等重点场景中讨论安全问题,并展开实时黑客竞赛。许多 NVIDIA 研究人员都支持 DEF CON AI 村,在过去两年中,该村庄举办了热门的实时 大语言模型(LLM) 红队活动。

今年,AI 仍然是 AI 村 和 AI 网络挑战赛 (AIxCC) 的中心主题。AI 村再次举办了生成式红队挑战赛,参赛者攻击了 LLM,从而实时改进了模型的安全护栏和模型卡。Nikki Pope 发表了主题演讲,强调了算法的公平性和安全性在 AI 系统中的关键作用。

在由美国国防高级研究计划局(DARPA)主办的 AIxCC 大会上,红蓝两支团队齐聚一堂,共同构建自主智能体,扫描代码库以识别漏洞并实施漏洞攻击。该挑战建立在这样一个前提之上:安全漏洞比人们能够识别的漏洞多,而且该领域中的 AI 赋能工具可以继续补充和加速安全研究。

NVIDIA AI Red Team 将我们自己的专业知识引入这些重要活动,通过培训、AI 安全讲座和开源工具演示实验室与社区分享我们的知识。

对抗性机器学习训练 

今年,NVIDIA 和 Dreadnode 在 Black Hat 举办了为期两天的机器学习(ML)培训。培训内容涵盖了针对 ML 模型评估安全风险的技术,以及特定攻击的实施和执行。

Students seated at tables with laptops listen to remarks from the instructor at the front of the room, delivering remarks on a slide titled ‘Gradient Descent’.
图 1. NVIDIA 安全研究员 Becca Lynch 在 Black Hat 上向与会者讲解机器学习。

学员在前往自主实验室练习执行这些攻击之前,会收到有关机器学习(ML)模型基础以及针对 ML 模型的攻击的指导。主题分为以下几个部分:

  • 简介: 学习 PyTorch 和机器学习模型的基础知识
  • 规避: 精心制作特定的输入,旨在欺骗模型做出错误的预测或分类。
  • 提取: 利用对模型输出的访问权限,对模型的基础参数和架构进行反向工程。
  • 评估: 了解用于执行攻击的工具和框架,以及评估模型安全性的标准化方法。
  • 反演: 利用模型端点重建或推理潜在的敏感输入/训练数据
  • 中毒: 向训练数据集注入恶意输入,以破坏模型的学习过程。
  • LLMs: 了解提示注入,以及前面提到的对 LLMs 的攻击次数

这些实用实验室帮助学生获得了执行攻击的经验,包括制作导致对卷积神经网络进行错误分类的图像、进行成员推理攻击以提取模型训练数据、在测试时毒害模型训练数据以生成错误分类、针对大型语言模型(LLMs)进行提示注入等。

参加课程的学员包括数据科学家、安全工程师和首席信息安全官(CISO)。他们在离开时不仅掌握了有关机器学习(ML)和攻击机器学习系统的基本知识,而且具备了在组织内应用对抗思维方式的框架。这些都是制定有效防御策略的关键要素。

查看此课程的自学版本: 探索对抗机器学习 (可通过 NVIDIA 深度学习研究所获取)。

专注于 LLM 安全 

NVIDIA 首席安全架构师 Rich Harang 向热情十足的 Black Hat 观众发表了他的演讲《 实用 LLM 安全:一年来在战壕中的收获 》。演讲的重点是在熟悉的应用程序安全框架中加强 LLM 安全,并让观众基本了解围绕 LLM 应用程序的完整威胁拓扑。

本次讲座聚焦于 检索增强生成(RAG) LLM 架构产生的安全问题。随着许多企业在其环境中采用 LLM 应用,RAG 系统会在每次查询时从文档存储中检索数据,从而为模型提供最新的数据和上下文。

Speaker Rich Harang delivers remarks behind a Black Hat podium. The screen reads “Case study: Info leaks via guardrails” and shows an architectural diagram of a RAG system showing the potential for data leakage from sources provided to the system.
图 2. NVIDIA 首席安全架构师 Rich Harang 在 Black Hat 发表演讲。

虽然 RAG 系统可以帮助 LLMs 保持更新,而无需不断重新训练,但它们也显著扩展了整个架构的攻击面。如果没有对 RAG 数据存储的细粒度访问控制,第三方或攻击者控制的数据就有可能进入 RAG 数据,从而控制模型的输出。

Architectural diagram of a RAG system, with red arrows indicating the potential input vectors through external data sources, user input, poisoned training data, attacker controlled output, and third party / insider threat input in external data sources.
图 3. 显示具有潜在输入威胁向量的 RAG 系统架构。

整体信息很简单:如果您的模型可以看到数据,有人就可以让模型输出该数据。与会者最终带回他们的组织的三个核心要点是:

  1. 识别和分析信任和安全边界。
  2. 追踪数据流,特别是可以进入或退出应用程序的任何数据。
  3. 最小权限原则(尤其是对于插件)和输出最小化原则(错误消息和中间结果)仍然适用。

传统的安全方法仍然全面适用:了解数据的来源、数据的去向,以及确切了解控制数据的人员和内容。

普及 LLM 安全评估 

本周晚些时候,在 DEF CON 大会上,NVIDIA AI 安全研究人员 Leon Derczynski 和 Erick Galinkin 在 AI 村展示了开源工具 Garak。

GARAK 是 Generative AI Red-Teaming 和 Assessment Kit 的首字母缩写词,该平台使从业者能够从学术研究中利用潜在的 LLM 攻击,并根据其模型快速测试这些攻击,从而使后来被称为 LLM 红队测试(LLM red-teaming)的部分工作实现自动化。

Erick Galinkin and Leon Derczynski deliver a talk from behind a podium to the DEF CON audience. The screen reads, “garak is a platform for LLM red-teaming so you don’t have to read papers on arxiv (unless you want to.”
图 4. NVIDIA AI 安全研究人员 Erick Galinkin 和 Leon Derczynski 在 DEF CON AI 村分享 garak。

Garak 的工作原理是,根据不断增加的已知漏洞列表,探索您选择的模型,包括对底层系统本身的攻击,例如 XSS 攻击、潜在的恶意源文件、各种提示注入攻击和后缀攻击,以及一些巧妙的安全越狱。探索完成后,Garak 会生成报告,其中包含每个攻击类别的成功提示和结果,以及模型针对所选攻击向量的总体安全指标。

A diagram of the three core components in garak, reading ‘Probe’, ‘Generator’, and ‘Detector’.
图 5. garak LLM 漏洞扫描程序的核心组件

garak 目前支持近 120 个独特的攻击探针。在 DEF CON 上,Leon Derczynski 和 Erick Galinkin 演示了对包括 NVIDIA 在内的多个来源的模型的攻击。这些攻击包括:

  • 为越狱生成新的对抗式后缀。
  • 强制对齐的模型输出原本不允许输出的内容。
  • 强制模型生成恶意软件
  • 获取模型重新计算其训练数据

AI Village garak 演示和演示实验室的与会者众多。许多与会者认为,这是社区在标准化 LLM 安全定义方面取得的巨大飞跃。

garak 通过 GitHub 上的 leondz/garak 提供,使研究人员、开发者和安全从业者能够简洁地量化各种模型的安全性,并将模型性能与各种攻击进行比较。欲了解更多信息,请参阅 garak:用于安全探测大型语言模型的框架

总结 

NVIDIA 的研究人员和从业者团队将深厚的专业知识带到了热门的网络安全会议上,这些会议在人工智能和安全方面都充满激情和进步。我们的工作重点仍然是为安全社区提供必要的知识,以便他们能够以安全的思维方式有效地进行威胁建模、红队测试、评估和部署人工智能系统。

如果您有兴趣更好地了解对抗机器学习的基础知识,请报名参加自定进度的 NVIDIA DLI 在线培训,即 《探索对抗机器学习》

要详细了解我们在此领域正在开展的工作,请浏览 NVIDIA 技术博客关于网络安全和 AI 安全的其他文章 。此外,我们的团队将在今年 10 月的 应用机器学习于信息安全会议(CAMLIS) 上发表演讲。

 

Tags