网络安全/欺诈检测

利用 NVIDIA Morpheus 设计一个新的网络钓鱼检测网络

 

在数字革命期间,电子邮件成为最普遍、最强大的通信工具之一。通过电子邮件伪装成合法的人或机构来欺骗用户的企图变得如此普遍,以至于它有了自己的名字: phishing

如今,随着数字世界深深交织在我们的工作和个人生活中,网络钓鱼仍然是 2021 勒索软件事件的前三大初始感染媒介 中的一种,并在 复杂度和规模 中发展。随着网络钓鱼造成的损失增加,风险只会增加。

今天的网络钓鱼

大多数网络钓鱼网络安全防御结合了基于规则的电子邮件过滤器和人工培训来检测欺诈电子邮件。当过滤器出现故障时,人类也会面临这样的风险,尽管经过了加强可疑电子邮件检测的培训。

只要一次人为错误,企业就会损失数百万美元,并需要时间来解决。为了减少违规行为,从一开始就必须杜绝网络钓鱼进入任何收件箱。

目前基于规则的系统在他们看来是有限的。他们只能“看到”已知的问题,欺诈者通常比这些系统领先一步。捕捉这些问题的过滤器只有在发现漏洞和弱点之后才能改进,这已经太晚了。

为了提前解决网络钓鱼问题,机器必须能够预测弱点,而不是成为弱点的牺牲品,并开发增强的情绪分析,以跟上并领先于欺诈者。

基于 NVIDIA Morpheus 的网络钓鱼检测

NVIDIA Morpheus 是一个开放的人工智能框架,用于实现网络安全特定的推理管道。 NVIDIA Morpheus 目前可从 NVIDIA NGCNVIDIA/Morpheus GitHub repo 下载。

通过 NVIDIA Morpheus ,我们的网络安全团队应用了自然语言处理( NLP ),这是一种流行的人工智能技术,创建了一个钓鱼检测应用程序,能够以 99% 以上的准确率对钓鱼电子邮件进行正确分类。

使用 Morpheus 管道进行网络钓鱼检测,您可以使用自己的模型进一步提高准确性。随着你用公司收到的新的网络钓鱼电子邮件对模型进行微调,模型将继续改进。

因为 Morpheus 支持大规模无监督学习,所以你不必依赖基于规则的方法来检测钓鱼行为,这些方法需要 URL 或可疑的电子邮件地址。相反, Morpheus 从收到的电子邮件中学习,使其成为管理网络钓鱼检测的更全面、可持续的方法。

方法

网络安全团队遵循典型人工智能工作流程的前三个步骤开发网络钓鱼检测概念验证( POC ):

  • 数据准备
  • 人工智能建模
  • 模拟与测试

通过使用预先训练的模型,他们能够快速执行。我们走过每一步,看看团队是如何进行开发的。

数据准备

要开发人工智能模型,必须使用预先存在的相关数据对其进行训练。通常,大部分开发时间都集中在使用数据集,使其可用于训练中的模型进行分析。

在这种情况下,该团队从已经存在的公开英语钓鱼数据集中获取信息,并重新调整其用途,以符合 POC 的需求,从而显著加快了开发过程。

POC 需要一个庞大的电子邮件数据集,这些电子邮件都是良性的、欺诈性的,以便网络钓鱼模型进行训练。该团队从 SPAM_ASSASSIN dataset 开始,它有一个预先存在的电子邮件数据组合,标记为 phishinghard hameasy hamham 类是各种复杂的良性电子邮件。出于我们的目的,我们将分类简化为 benignphishing, ,将 hard hameasy ham 分类的电子邮件合并为一个单一类别。

虽然 SPAM _刺客数据集是一个有用的起点,但该模型需要更多的训练数据。该团队将 Enron Emails 数据集合并为良性数据源, 清除数据集 的钓鱼类合并为钓鱼源。该模型在这些数据集的各种组合上进行了训练和评估。

ML 建模

ML 开发的中心是使用数据对模型进行培训和评估,这些数据最终能够自行执行所需的功能。

该团队没有从头开始创建一个新的人工智能模型,而是选择了一个经过预训练的 BERT 模型作为人工智能模型,以改进 POC 。 BERT 是一个面向 NLP 的开源机器学习框架。 BERT 旨在通过使用周围的文本建立上下文,帮助计算机理解文本中模糊语言的含义。

该团队通过使用早期数据集对现有的网络钓鱼检测模型进行培训和评估,对其进行了微调。

模拟与测试

这是对模型进行测试、评估和培训以实现网络钓鱼检测目的的阶段。

SPAM _刺客、 Clair 和安然的数据集都被随机分为训练集和验证集。然后,对 BERT 模型进行训练,将来自不同组合的邮件分类为良性邮件或网络钓鱼邮件。当使用一个结合了安然、克莱尔和垃圾邮件刺客的验证数据集对改进后的 BERT 模型进行测试时,该模型在根据邮件分类解读邮件方面的准确率再次达到 99.68% 。

我们的测试表明,在验证数据集上使用经过训练的 BERT 模型检测钓鱼或良性电子邮件的准确率超过 99% 。

总结

人工智能可以在解决组织每天面临的网络安全问题方面发挥重要作用,但许多组织因在其组织中开发人工智能能力而受到威胁。

NVIDIA 正在使人工智能民主化,使其在任何用例中都能简单高效地为任何企业开发。该 POC 是 NVIDIA Morpheus 中可用资源如何缩短和简化人工智能应用程序开发的一个例子,企业开发者希望增强其网络安全武库。

为了进一步加快企业的网络安全,请使用 NVIDIA Morpheus 目前提供的预训练钓鱼模式。 NVIDIA Morpheus AI 网络安全框架不仅展示了应用AI解决网络安全威胁的变革能力,而且还使组织能够轻松地将AI与前面描述的开发周期结合起来。有了更多的数据来训练模型,它变得更加强大。

要从今天开始开发,请进一步了解 NVIDIA Morpheus 或通过 NGC NVIDIA Morpheus 下载NVIDIA/Morpheus GitHub。

Morpheus 是一个开放的人工智能框架,供开发者实现网络安全特定的推理管道。 Morpheus 为安全开发者和数据科学家提供了一个简单的界面,以创建和部署端到端管道,解决网络安全、信息安全和基于日志的通用管道问题。本系列重点介绍 Morpheus 与任何技术网络安全战略相关的各种用例和实现。

 

Tags