디지털 혁명으로 인해 이메일은 가장 보편적이면서 강력한 통신 도구가 되었습니다. 이메일을 통해 합법적인 사람이나 기관으로 가장하여 사용자를 사취하려는 시도는 워낙 널리 퍼져 피싱이라는 고유한 이름까지 붙었습니다.
직장 생활과 개인 생활이 디지털 세계와 깊이 얽혀 있는 오늘날, 피싱은 여전히 2021년 랜섬웨어 사고의 초기 3대 감염 벡터 중 하나이며 그 정교함과 규모는 더욱 커지고 있습니다. 피싱으로 인한 손실이 증가함에 따라 위험은 커집니다.
오늘날의 피싱
대부분의 피싱 사이버 보안 방어는 규칙 기반 이메일 필터와 인간 교육을 결합하여 사기성 이메일을 탐지합니다. 필터가 실패하면 의심스러운 이메일 탐지 향상을 위한 교육에도 불구하고 인간도 실패할 위험이 있습니다.
사람의 실수 단 한 번으로 기업이 입는 피해는 손실과 문제 해결 시간을 합쳐 수백만 달러에 이릅니다. 보안 침해를 줄이려면 애초에 받은 편지함에 들어가지 않도록 피싱을 제거하는 것이 중요합니다.
최신 규칙 기반 시스템은 시야가 제한적입니다. 이 시스템은 알려진 문제만 ‘확인’할 수 있으며, 사기꾼들은 보통 이러한 시스템보다 한발 앞서 있습니다. 이런 문제를 포착하는 필터는 침해와 약점을 파악한 후에야 개선이 가능하므로 너무 늦습니다.
피싱 문제에서 앞서가기 위해서는 시스템이 약점의 희생물이 되는 것이 아니라 약점을 예측하고, 향상된 감정 분석을 개발하여 사기꾼보다 뒤처지지 않고 앞서나갈 수 있어야 합니다.
NVIDIA Morpheus를 통한 피싱 탐지
NVIDIA NGC와 NVIDIA/Morpheus GitHub 리포지토리에서 다운로드할 수 있는 NVIDIA Morpheus는 사이버 보안 관련 추론 파이프라인을 구현하기 위한 개방형 AI 프레임워크입니다.
NVIDIA 사이버 보안 팀은 NVIDIA Morpheus를 통해 인기 있는 AI 기술인 자연어 처리(NLP)를 적용하여 99% 이상의 정확도로 피싱 이메일을 올바르게 분류하는 피싱 탐지 애플리케이션을 만들었습니다.
Morpheus 파이프라인을 자체 피싱 탐지 모델에 사용하면 정확도를 더욱 개선할 수 있습니다. 회사에 수신되는 새 피싱 이메일을 통해 모델을 미세 조정하면 모델이 계속 개선됩니다.
Morpheus는 대규모 비지도 학습을 지원하므로 피싱 탐지를 위해 URL이나 의심스러운 이메일 주소가 필요한 규칙 기반 메서드에 의존할 필요가 없습니다. 그 대신 Morpheus는 수신된 이메일로부터 학습하기 때문에 피싱 탐지를 관리하는 더욱 포괄적이고 지속 가능한 접근 방식입니다.
접근 방식
사이버 보안 팀은 다음과 같은 일반적인 AI 워크플로우의 첫 세 단계에 따라 피싱 탐지 개념 증명(POC)을 개발했습니다.
- 데이터 준비
- AI 모델링
- 시뮬레이션 및 테스트
이 팀은 사전 트레이닝된 모델을 사용하여 빠르게 실행할 수 있었습니다. 사이버 보안 팀이 어떤 개발 방식을 사용했는지 단계별로 알아보겠습니다.
데이터 준비
AI 모델을 개발하려면 기존 관련 데이터로 모델을 트레이닝해야 합니다. 일반적으로 개발 시간의 대부분은 트레이닝 중인 모델(model-in-training)이 분석에 사용할 수 있도록 데이터세트를 준비하는 작업에 주로 사용됩니다.
이 경우 팀은 이미 존재하는 공개적으로 사용 가능한 영어 피싱 데이터세트를 소스로 삼아 POC 요구 사항에 맞게 용도를 변경하여 개발 프로세스를 크게 단축했습니다.
POC에는 피싱 모델을 트레이닝할 대규모의 무해한 사기성 이메일 데이터세트가 필요했습니다. 팀은 phishing, hard ham, easy ham 라벨이 지정된 기존 이메일 데이터가 혼합되어 있는 SPAM_ASSASSIN 데이터세트로 시작했습니다. ham 클래스는 복잡성 정도가 다양한 무해한 이메일입니다. 목적을 위해 무해함(benign)과 피싱(phishing)으로 분류를 단순화하고 hard ham과 easy ham으로 분류된 이메일을 모두 단일한 무해함 카테고리에 합쳤습니다.
SPAM_Assassin 데이터세트는 유용한 시작점이었지만 모델에는 훨씬 더 많은 트레이닝 데이터가 필요했습니다. 팀은 Enron Emails 데이터세트를 무해한 데이터 소스로, Clair 데이터세트의 피싱 클래스를 피싱 소스로 통합했습니다. 그런 다음 이러한 데이터세트의 다양한 혼합에 대해 모델을 트레이닝 및 평가했습니다.
ML 모델링
ML 개발의 중심은 궁극적으로 요청된 기능을 스스로 수행하는 방법을 학습하는 모델을 데이터를 사용하여 트레이닝하고 평가하는 것입니다.
팀은 처음부터 새로운 AI 모델을 만드는 대신 사전 트레이닝된 BERT 모델을 AI 모델의 소스로 사용하여 POC에 맞게 개선했습니다. BERT는 NLP를 위한 오픈 소스 머신 러닝 프레임워크입니다. BERT는 컴퓨터가 주변 텍스트를 사용하여 텍스트에서 모호한 언어의 의미를 이해할 수 있도록 설계되었습니다.
팀은 이전의 데이터세트로 피싱 탐지를 트레이닝하고 평가하여 기존 모델을 미세 조정했습니다.
시뮬레이션 및 테스트
이 단계에서는 피싱 탐지를 수행하도록 모델을 테스트, 평가, 트레이닝합니다.
SPAM_Assassin, Clair, Enron 데이터세트는 모두 트레이닝 및 검증 세트로 무작위 분할되었습니다. 그런 다음 데이터세트의 다양하게 혼합된 이메일을 무해함 또는 피싱으로 분류하도록 BERT 모델을 트레이닝했습니다. Enron, Clair, SPAM_Assassin을 결합한 검증 데이터세트를 사용하여 개선된 BERT 모델을 테스트했을 때 모델의 이메일 해석은 99.68%의 정확도로 이메일 분류와 일치했습니다.
테스트 결과, 검증 데이터세트에 사용했을 때 트레이닝된 BERT 모델의 피싱 이메일 또는 무해한 이메일 탐지 정확도는 99% 이상이었습니다.
요약
조직이 매일 당면하는 사이버 보안 문제를 해결하는 데 AI가 중요한 역할을 할 수 있지만 많은 조직은 자체적으로 AI 기능을 개발하는 것에 겁부터 먹습니다.
NVIDIA는 어떤 사용 사례에서도 기업들이 간단하고 효율적으로 개발할 수 있도록 AI를 대중화하고 있습니다. 이 POC는 사이버 보안을 강화하려는 엔터프라이즈 개발자가 NVIDIA Morpheus에서 제공하는 리소스를 사용하여 AI 애플리케이션 개발을 어떻게 단축하고 단순화할 수 있는지 잘 보여 주는 예입니다.
기업의 사이버 보안을 한층 더 가속화하려면 NVIDIA Morpheus에서 제공하는 사전 트레이닝된 피싱 모델을 사용하세요. NVIDIA Morpheus AI 사이버 보안 프레임워크는 AI를 적용하여 사이버 보안 위협을 해결하는 혁신적인 기능을 보여 주며, 조직은 이를 통해 앞서 설명한 것과 같은 개발 주기에 AI를 쉽게 통합할 수 있습니다. 트레이닝 데이터가 많아질수록 모델은 훨씬 강력해집니다.
지금 개발을 시작하려면 NVIDIA Morpheus에 대해 자세히 알아보거나 NGC NVIDIA Morpheus 다운로드 또는 NVIDIA/Morpheus GitHub 리포지토리를 통해 Morpheus에 액세스하세요.
Morpheus는 개발자가 사이버 보안 관련 추론 파이프라인을 구현할 수 있는 개방형 AI 프레임워크입니다. Morpheus는 보안 개발자와 데이터 사이언티스트가 사이버 보안, 정보 보안, 일반 로그 기반 파이프라인을 처리하는 엔드 투 엔드 파이프라인을 생성 및 배포할 수 있는 간단한 인터페이스를 제공합니다. 이 시리즈에서는 기술적 사이버 보안 전략과 관련될 수 있는 Morpheus의 다양한 사용 사례와 구현을 집중 조명합니다.