网络安全

借助代理式 AI 系统推进网络安全运营

被动式 AI 时代已经过去。一个新时代正在开始,AI 不仅能做出响应,还能思考、计划和行动。 大语言模型 (LLM) 的快速发展释放了 代理式 AI 系统的潜力,使包括网络安全在内的许多领域的繁琐任务实现自动化。

过去,网络安全领域的 AI 应用主要侧重于检测跨不同数据源、网络环境和网络击杀链各个阶段的恶意或异常活动。由于检测是自动化的中心,大部分安全操作仍然是手动操作。安全分析师仍需花费大量时间手动调查警报、交叉参考情报以及评估和响应潜在威胁。

随着代理式系统的兴起,网络安全领域的 AI 应用开始围绕安全分析师的需求进行重新规划。这些系统可自动执行分析师目前执行的许多耗时而繁琐的任务,使他们能够专注于更高级别的判断决策和深度调查。通过利用高级推理、动态决策和工具调用功能,代理式系统现在可以承担复杂但重复性的任务,例如研究威胁情报、关联安全警报和执行初步响应操作。

本文将探讨警报管理和漏洞分类中的两种实用代理式应用,让您一窥代理式系统在网络安全运营方面的变革潜力。

什么是代理式 AI 系统?

代理式 AI 系统 中,LLMs 连接到工具,并能够以迭代方式进行推理、规划和采取行动。该模型并非仅响应提示,而是通过将目标分解为多个步骤、决定下一步行动、使用工具收集或分析信息,并在此过程中调整计划来实现目标。这种设置可以自动执行以前不可行的复杂多步骤任务。

网络安全中的 Agentic AI 应用

本节将探讨代理式 AI 应用在网络安全中的两个示例:alert management 和 vulnerability triage。

转变警报管理

网络安全中的 Alert management 带来了一些阻碍运营效率的挑战,包括:

  • 大量警报 :随着组织的安全意识越来越强,他们会继续部署更多的安全产品和检测规则。这导致警报数量不断增加,很快就会让人手不足的安全团队不堪重负。
  • 机构知识依赖性 :Triage 高度依赖机构知识和高级分析师的经验,因此难以扩展和标准化决策。
  • 劳动密集型情境收集 :分类的相关数据通常分散在各个系统中,需要手动收集和整合以进行调查。
  • 繁琐的文档 :撰写研究结果必不可少,但这很耗时,通常做得不好或完全跳过。

代理式系统通过自动化扩展分诊来解决警报管理中的关键挑战,通过将专业知识编码到可重复的工作流程来减少对个人专业知识的依赖,并使用数据查询工具自动检索调查上下文。此外,智能体可以在流程中生成清晰、结构化的文档,将传统繁琐的任务转化为内置功能。

用于服务器警报分类的 Agentic system

警报分流代理 (图 1) 是一个事件驱动型系统,旨在自动对服务器监控警报进行分流。与依赖人工提示的聊天机器人系统不同,此系统由事件自动触发 (生成新警报) ,并且除了最终报告审查之外,还需要很少的人工参与。

Architecture diagram showing how alerts flow from cloud-hosted systems to an analyst. Multiple hosts send data to a Cloud Monitoring System, which generates performance, security, and system health alerts. These alerts are processed by an Alert Triage Agent, which works with a Cloud Metric Analysis sub-agent. The output is a triage report, reviewed by an analyst.
图 1。Alert Triage Agent 的架构

分诊系统的输入警报示例如下所示:

{
  "__name__": "ALERTS",
  "alertname": "InstanceDown",
  "alertstate": "firing",
  "aspect": "availability",
  "component": "instance",
  "instance": "alert-triage-agent-test-host.nvidia.com:9200",
  "job": "file_sd",
  "location": "e111a",
  "region": "na",
  "service": "instance",
  "severity": "critical",
  "host_id": "alert-triage-agent-test-host.nvidia.com"
}

此系统会从监督主机集群的云监控平台接收警报。触发警报后,agent 开始自动调查 (图 2) 。它会首先解释警报,然后迭代地建议并运行下一个最佳步骤,使用工具来收集和分析相关数据。此周期会一直持续下去,直到找到根本原因。调查完成后,agent 会生成一份 triage 报告,其中包含警报摘要、调查步骤、数据中的关键见解以及建议的操作。该报告将被存储,以供人类分析师审查。

Architecture diagram showing the end-to-end workflow of an alert triage system. When an alert is received, a Maintenance Check first determines if the host is under maintenance. If it is, a report is generated directly. If not, the triage process begins. The Alert Triage Agent coordinates diagnostic checks, including telemetry metrics analysis, network connectivity tests, monitoring system status checks, host performance analysis, and hardware status checks. These components use data from cloud metrics, host systems, and a hardware management system. A Root Cause Categorizer processes the findings and produces a final report for the analyst.
图 2。警报分诊代理系统的工具和执行流程

多智能体协作,实现更智能的警报分诊

此系统被设计为 多智能体 ,每个智能体专门负责警报分类过程的不同部分。其核心是 Alert Triage Agent,作为安全分析师,负责解释警报、指导调查和编写最终报告。支持此功能的是 Cloud Metric Analysis Agent (数据科学家“搭档”) ,它在收到警报的相关信息后,会查询最相关的云指标、分析模式并返回结构化分析。

这两个智能体使用单独的提示和不相交的工具集,使每个智能体都能根据其特定角色进行定制。Cloud Metric Analysis Agent 充当主 Alert Triage Agent 的代理式工具,仅在需要时调用。这种明确的责任分离可改进模块化、简化维护,并使系统随着时间的推移更容易发展。

适用于网络安全用例的 NVIDIA Agent Intelligence 工具包

此系统使用开源 NVIDIA Agent Intelligence 工具包 以原生方式构建,该工具包通过基于配置的智能体创建实现快速而简单的开发。此工具包采用模块化架构,非常适合企业网络安全用例。

在大型组织中,不同的安全团队可能会为各种用例构建 agents。但是,其中许多依赖于常见的调查功能,例如从集中式云储存中检索数据、分析系统 logs,或收集主机级数据。该工具包提供支持这些共享功能的标准化界面和可重复使用组件,从而减少重复并加速新 agents 的开发。

评估 Alert Triage Agent

为评估警报分诊智能体的有效性,该团队精心策划了一个包含所有根本原因类别的已标记数据集。在此数据集上,智能体的多类分类准确率为 84.6%。图 3 显示了此评估的混淆矩阵,该表将预测标签与真值进行比较,以显示模型的准确位置或错误位置。该矩阵在硬件和 false_positive 等类别中显示了强大的性能。

除了量化结果外,人类专家还审查了生成的报告,以评估其质量 (Figure 4) 。安全分析师将输出结果的正确性和相关性评为“非常好”,将覆盖范围和可操作性评为“很好”。虽然这些报告总体上准确且重点突出,但有些报告缺乏深度或包含不明确的建议。这些初步结果表明,该系统前景良好,有明显的改进之处。作为下一步,我们正在与安全分析师合作,优化系统并改进其支持人类工作流的方式。

Confusion matrix visualizing the classification performance of an alert triage system across six categories: hardware, software, network_connectivity, repetitive_behavior, need_investigation, and false_positive. Most predictions align with ground truth along the diagonal, with notable misclassifications in the software and need_investigation categories.
图 3。警报分诊代理系统分类测试结果的 Confusion matrix
Bar chart showing three analysts’ average scores for four report quality components: Coverage, Correctness, Relevance, and Actionability. Scores range from 0 to 5. Relevance has the highest average score (3.7), followed by Correctness (3.6). Coverage and Actionability both have an average of 3.4. Analysts' evaluations vary across components, especially in Coverage and Actionability.
图 4。安全分析师对 Alert Triage Agent 的报告质量的审查

借助代理式 AI 增强软件漏洞分析

与警报分类一样,软件漏洞分析是一项重复性的关键任务,通常会让分析师不堪重负。企业软件容器通常具有复杂的依赖项,并且必须在发布前进行漏洞扫描。在这些扫描中发现的漏洞需要一个繁琐的手动分类过程,包括检索和分析数百条信息。软件安全代理旨在将此分类过程从几小时或几天缩短到几秒钟 (图 5) 。

rchitecture diagram showing the workflow of a software security agent system. An event triggers pre-processing, followed by checklist generation. Task agents process checklist tasks in parallel, feeding into summarization and justification modules. These outputs populate a recommendations dashboard reviewed by an analyst.
图 5。Software Security Agent 的架构

为特定容器指定漏洞 ID 后,代理系统将启动调查。它可以访问容器的所有相关信息,包括代码库、软件材料清单和文档。

首先,智能体搜索互联网以收集有关漏洞的更广泛背景信息。然后,它根据对漏洞的了解创建自定义调查计划。使用该计划,它可以深入研究可用的数据源及其原因,并最终生成报告,帮助人类分析师确定漏洞在特定环境中是否真的可以利用。如需更详细的说明,请参阅在企业级应用 Generative AI 进行 CVE 分析。

从蓝图到部署:节省分析师的时间

用于漏洞分析的开源 NVIDIA AI Blueprint 提供交互式体验,用户可以提供自定义漏洞 ID 并观察智能体在容器上执行实时漏洞分析。该蓝图使企业能够更轻松地构建和运行自己的代理式 AI 应用。可通过 GitHub 上的 NVIDIA-AI-Blueprints/vulnerability-analysis 获取。

该智能体已大规模部署,以加速 NVIDIA 漏洞分类过程,并展示代理式 AI 在安全运营中的现实影响。NVIDIA 分析师估计,每个漏洞可节省 5 到 30 分钟的时间。由于每位分析师平均每周审查 10 多个漏洞,因此每周可轻松节省多达数小时的时间。分析师可以利用这段时间专注于更难以诊断的问题,并优先处理高风险漏洞。

部署之外:准确率和效率

成功部署仅仅是个开始。代理式系统要在生产中保持有用性,需要随着现实世界工作负载的发展保持准确性和效率。

准确性:分析师注释可指导持续的模型改进

标注工具有助于提高准确性 (图 6) 。分析师可以查看 agent 输出、标记错误并提供更正。该工具可捕捉结果是否正确以及为什么正确或错误。这种反馈回路有助于随着时间的推移监控准确性,识别漏洞类别的覆盖差距,并将 LLM-as-a-judge 输出与人类判断保持一致。持续评估模型性能有助于确保系统保持准确性并稳步提高

Screenshot of the UI of the annotation tool where analysts review and comment on vulnerability analysis results.
图 6。标注工具接口支持确认 exploitability 状态、验证 justifications,并添加反馈以提高系统准确性

效率:Profiling insights 将运行时间缩短了 8.3 倍

为提高效率,该系统已迁移到 Agent Intelligence 工具包,该工具包提供有关执行时间、token 使用率、工具调用模式等的内置分析和遥测。这简化了性能瓶颈的识别和定位。图 7 显示了使用分析见解优化执行时间的结果,x 轴上的时间 (以秒为单位) 以及 y 轴上的工具和函数调用按执行顺序排列。

Side-by-side Gantt charts comparing system performance on 2 data points before and after optimization. The x-axis represents time in seconds, and the y-axis lists tool and function calls. The left chart shows longer and more staggered task durations (~48 seconds total), while the right chart shows more compact and parallelized execution (~29 seconds total). Agent Intelligence toolkit profiling insights enabled targeted optimizations that improve processing speed by 1.7x.
图 7。Agent Intelligence 工具套件优化前后的分析结果

Agent Intelligence 工具包创建的 Gantt 图可直观呈现工作流程中每个步骤所花费的时间,从而能够识别智能体工具调用堆栈内部的同步步骤。通过优化这些功能,我们实现了随输入大小扩展的加速,将一个数据点的端到端延迟降低了 1.3 倍,将两个数据点的延迟降低了 1.7 倍 (如 Figure 7 所示) ,并将 46 个数据点的延迟降低了 8.3 倍。运行时间从 20 分钟缩短到 3 分钟。

为问题选择正确的 agentic 结构

在设计代理式系统时,关键挑战之一是为任务找到最佳架构。建议根据需要制作复杂但尽可能简单的系统。

以警报分类为例。当系统处理具有定义明确的调查流的单一警报类型时,固定执行路径工作流的效果最佳 (图 8a) 。LLM 操作可以与编程步骤相结合,形成自定义的预定序列。此系统简单、稳定、高效,可避免不必要的开销。

当系统需要支持多种警报类型 (每种类型都有自己的 (但仍然固定的) 调查路径) 时,添加路由器非常有用 (图 8b) 。我们可以定义一组可管理的执行路径,并让路由器在运行时将每个警报分配到相应的警报。这种方法保留了固定逻辑路径的鲁棒性和可预测性,同时引入了足够的灵活性来扩展不同的警报类型。

Figure comparing four designs for agentic systems. The top left shows a fixed-execution path LLM workflow that handles a single alert type through a linear sequence of LLM and programmatic operations. The top right shows fixed paths with routing, where different alert types are directed through separate but predefined sequences. The bottom left shows an adaptive agentic system in which an LLM agent dynamically selects among various tools based on the alert type. The bottom right shows a hybrid system that blends structured steps with a flexible LLM agent for a balance of consistency and adaptability.
图 8。四种不同的代理式系统设计 (从左上角顺时针开始) :固定执行路径工作流、带有路由的固定执行路径工作流、混合和自适应

当逻辑不再固定时,情况就会发生变化。当系统必须处理过多警报类型才能实现预定义路径时,或者如果单个警报类型的调查流程严重依赖于执行期间检索的上下文和数据时,Agents 非常有用(图 8c)。Agents 可以通过歧义进行推理,并动态选择要执行的正确步骤。这种适应性非常强大,但也需要权衡取舍,包括提高 token 使用率、增加延迟以及需要付出更多精力进行调整。

出于这些原因,在实践中经常使用混合设计 (Figure 8d) 。在此结构中,始终需要的步骤作为智能体外部的确定性逻辑实现。然后,智能体只负责需要动态决策的部分。这种方法尽可能提供稳定性、必要时的灵活性,以及整体上更高的 token 效率。

在许多方面,选择正确的 agentic 结构已成为新 agentic 世界中的新 hyperparameter tuning。这需要迭代、良好的直觉以及对问题空间的深入理解。借助正确的 agentic 结构,系统变得更加有效,并且更易于操作和维护。

评估复杂的 Agentic 系统

与任何机器学习 (ML) 项目一样,创建良好的数据集是成功的基础。对于代理式系统,这种方法相似,但有一些重要差异。

与通常专注于输入和最终输出的传统 ML 数据集不同,代理式系统可以从推理路径中捕获预期的中间步骤中获益。这些预期输出可实现轨迹评估,其中包括分析 agent 的整个决策过程,而不仅仅是分析最终结果。这种更详细的视图有助于揭示推理可能破坏或偏离预期的地方。它还有助于跟踪预期的工具使用情况,包括工具调用及其输入,以便更好地评估 agent 在整个任务中的规划和工具选择。

代理式系统与传统机器学习(ML)应用的区别在于其生成特性。这意味着无需使用大型数据集即可开始实验。一个有效的原则是避免在开发初期就过度复杂或过度优化。相反,您需要专注于构建快速概念验证并提供给用户。此时,真正开始有意义的数据收集和迭代系统调优。

招募可靠的 LLM 评委

LLM-as-a-judge 即评判正成为评估 LLM 输出和代理式系统的基本方法之一,这要归功于其评估自然语言输出的能力。该过程涉及将系统输出传递给语言模型,并促使其对特定维度进行评分,例如清晰度、正确性、相关性或接地性。

在成为新的 LLM 评委之前,收集一组人类标记的示例进行校准非常重要。使用这些示例,可以通过选择合适的模型并适当地设计提示,将 LLM 的评分行为与人类期望保持一致。由于 LLM 即使在不确定的情况下也会始终返回答案,因此在依赖它们进行评估之前,务必要让它们的行为符合实际情况。

对齐后,LLM 评委可以轻松比较提示变化、模型版本或结构变化。这可加速迭代并支持长期质量改进。值得注意的是,Agent Intelligence 工具包为 LLM-as-a-judge (RAGAS) 评估 提供内置支持,简化了将此方法集成到开发周期的过程。

网络安全的 Agentic 未来

当涉及到代理式 AI 在网络安全方面的作用时,警报管理和漏洞分类仅仅是个开始。这些示例用例展示了智能体系统如何超越简单的自动化,承担通常需要人类专业知识的复杂、更依赖上下文的任务。

随着代理式系统不断成熟,我们相信它们将成为分析师值得信赖的助手,简化调查、连接点并轻松处理繁重的工作。我们很高兴看到社区如何在此基础上构建,也迫不及待地想看到您提出的富有创意、有影响力的网络安全用例。

探索如何使用 NVIDIA Agent Intelligence 工具包 ,并在 build.nvidia.com 上体验代理式 AI 示例。如需了解用于漏洞分类的 AI Blueprint,请探索 交互式演示 或访问用于部署的工具和参考代码。

如需详细了解警报分诊用例并了解其实际应用,请观看 NVIDIA GTC 2025 会议“ Transform Cybersecurity With Agentic Blueprints on Demand ”。您还可以注册参加即将举办的 NVIDIA Agent Toolkit Hackathon

 

标签