에이전틱 AI 보안: 시맨틱 프롬프트 인젝션이 AI 안전장치를 우회하는 방법

Reading Time: 5 minutes

Prompt injection은 공격자가 입력값을 조작하여 거대 언어 모델이 의도하지 않은 방식으로 작동하게 만드는 기법으로, LLM이 도입된 초기부터 AI 시스템에 위협이 되어 왔습니다. 방어 기술이 텍스트 기반 공격에 대한 보안을 강화하는 데 진전을 이루었지만, 멀티모달 및 에이전틱 AI로의 전환은 공격 표면을 빠르게 확장시키고 있습니다.

이러한 상황에서 Red Teaming이 중요한 역할을 합니다. NVIDIA AI Red Team은 실제 환경에서 발생할 수 있는 공격을 사전에 시뮬레이션하여, 프로덕션 수준 시스템에서 새롭게 등장하는 위협을 발견합니다. 이들의 목표는 완성된 해결책을 제시하는 것이 아니라, 특히 생성형 및 멀티모달 AI처럼 빠르게 진화하는 영역에서 기능 간 협업을 통해 해결해야 할 취약점을 조명하는 데 있습니다.

이번 글에서는 자연어에 의존하지 않는 새로운 유형의 멀티모달 Prompt Injection 기법을 소개합니다. 이모지와 유사한 시퀀스나 리버스 퍼즐과 같은 기호 기반 시각 입력을 활용하여, 공격자가 에이전틱 시스템을 우회하고 기존의 보호 장치를 회피할 수 있는 방법을 보여줍니다. 이러한 연구 결과는 고도화된 AI 워크플로를 보호하기 위해 입력 필터링 중심에서 출력 기반 방어로의 전환이 필요함을 시사합니다.

서론: 전통적인 Prompt Injection을 넘어서

멀티모달 모델이 등장한 이후, 연구자들은 외부 오디오나 비전 모듈을 대상으로 하는 Prompt Injection 기법을 실험해 왔습니다. 이들은 주로 이미지 내 텍스트를 광학 문자 인식(OCR)을 통해 텍스트로 변환하는 구현 방식의 취약점을 이용하였습니다. 일반적인 방법은 이미지에 악의적인 프롬프트를 텍스트 형태로 삽입하여, 텍스트 처리 경로를 통해 시스템을 조작하는 것이었습니다.

하지만 이 연구는 기존과는 다른 방식으로 접근합니다. 이는 OpenAI의 o3 및 o4-mini 모델을 위한 ‘Thinking with images’ 발표에서 영감을 받은 것입니다. OpenAI의 새로운 아키텍처는 이미지나 오디오를 텍스트로 번역하는 기존 방식에서 벗어나, 각 모달리티를 고정 크기의 임베딩 벡터로 변환하고 이들을 연결하여 하나의 디코더에서 처리합니다. 오디오와 시각 토큰은 모델의 핵심 추론 레이어에서 직접 처리되며, 별도의 오디오-텍스트 또는 이미지-텍스트 전처리 경로 없이 진정한 크로스모달 추론을 가능하게 합니다.

이러한 아키텍처 변화는 이 연구가 텍스트에 의존하지 않고, 모델의 추론에 직접 통합되는 멀티모달 입력을 활용한 새로운 Prompt Injection 기법을 탐구하게 만든 계기가 되었습니다.

전통적인 멀티모달 Prompt Injection 기법

과거의 멀티모달 Prompt Injection 공격은 이미지에 포함된 텍스트를 모델이 처리하는 방식을 악용해 왔습니다. 공격자는 티셔츠나 간판과 같은 시각 요소에 악의적인 프롬프트를 삽입하여, 모델이 이를 실행 가능한 명령어로 해석하게 만듭니다.

예를 들어, (“Hello, World”)라는 문구가 적힌 셔츠를 입은 사람의 이미지를 모델이 처리하면, 해당 텍스트를 추출하여 프로그래밍 명령어로 인식하고 “Hello, World” 프로그램을 생성할 수 있습니다.

비디오 1. 티셔츠의 텍스트를 해석해 “Hello, World” 코드를 생성하는 모델

이미지 속 악성 텍스트를 탐지하기 위해 OCR을 사용하는 기존의 Guardrail 기법은 점점 효과를 잃고 있습니다. OpenAI의 o-series, Google Gemini, Meta Llama 4와 같은 고도화된 모델은 시각적 추론 기능을 기본적으로 내장하고 있어, 텍스트 기반 탐지를 우회하는 은밀한 공격이 가능해졌으며, 이에 따라 새로운 방어 전략이 요구됩니다.

멀티모달 모델의 진화: Llama 4의 Early Fusion

강화된 Guardrail 덕분에 기존의 전통적인 Prompt Injection은 점점 성공률이 낮아지고 있지만, 이 연구는 새로운 Early Fusion 아키텍처를 겨냥한 접근 방식을 취합니다. 예를 들어 Meta Llama 4는 입력 단계부터 텍스트와 비전 토큰을 네이티브하게 통합하여, 기존 모델과 달리 공유된 표현을 생성하고 보다 자연스러운 크로스모달 추론을 가능하게 합니다.

Early Fusion의 작동 방식

병렬 입력 처리
- 텍스트 처리: 사용자 프롬프트인 “Describe this image”는 토큰 ID 시퀀스로 토크나이즈됩니다.
- 이미지 처리: 이미지는 전처리(크기 조정, 타일링, 정규화)를 거쳐 비전 인코더를 통과하며, 패치 단위로 나뉘고 각 패치는 임베딩되어 언어 모델의 임베딩 공간에 투영되어 연속적인 이미지 임베딩을 생성합니다.
시퀀스 구성
- 텍스트 토큰과 이미지 플레이스홀더 토큰(예: <|image_start|>, <|patch|>, <|image_end|>)이 섞인 통합 시퀀스가 구성됩니다.
임베딩 및 융합
- 플레이스홀더는 실제 이미지 임베딩으로 대체되며, 특수 토큰은 학습된 임베딩을 유지합니다.
융합 시퀀스
- 텍스트와 이미지 패치 임베딩이 동일한 차원의 공간에서 하나의 시퀀스로 공존합니다.
통합 처리
- 트랜스포머 백본이 융합된 전체 시퀀스를 처리함으로써, 초기 레이어부터 크로스모달 어텐션과 추론이 가능해집니다.

그림 1. Llama 4 Early Fusion 파이프라인

이 과정은 시각적 의미와 텍스트 의미가 얽혀 있는 진정한 멀티모달 잠재 공간을 형성합니다. 예를 들어, 표지판에 “STOP”이라고 적힌 이미지 패치는 텍스트 토큰 “STOP”과 잠재 공간 내에서 밀접하게 정렬되며, 이를 통해 모델은 모달리티 간 자유로운 추론이 가능해집니다.

Llama 4와 같은 Early Fusion 아키텍처는 텍스트와 이미지를 공유된 잠재 공간에 정렬함으로써, 이질적인 정보를 자연스럽게 통합하고 추론할 수 있게 합니다. 이는 명시적인 텍스트에 의존하지 않는 새로운 크로스모달 공격 가능성을 열어줍니다.

새로운 형태의 멀티모달 Prompt Injection

Early Fusion은 이미지와 텍스트를 공유된 잠재 공간으로 매핑하여 모델이 이를 통합적으로 처리하고 해석할 수 있도록 합니다. 이로 인해 공격자는 이제 이미지 시퀀스(예: 프린터, 손을 흔드는 사람, 지구본)를 조합해 “print hello world”와 같은 명령을 시각적으로 인코딩할 수 있으며, 이는 새로운 공격 표면을 형성합니다.

코드 인젝션

이미지와 텍스트 임베딩 간 의미 기반 정렬을 이용하면, 공격자는 전통적인 텍스트 기반 보안 필터를 우회하고 비텍스트 입력만으로도 에이전틱 시스템을 조작할 수 있습니다.

“Print Hello World” 이미지 페이로드

프린터, 손을 흔드는 사람, 지구본과 같은 이미지 시퀀스는 모델에 의해 리버스 퍼즐처럼 해석되어 “print ‘Hello, world’.”라는 의미로 받아들여질 수 있습니다. 모델은 명시적인 텍스트 지시 없이도 의도된 의미를 추론하고, 이에 해당하는 코드를 생성할 수 있습니다.

비디오 2. 의미 기반 이미지 입력으로부터 생성된 코드

“Sleep Timer” 이미지 페이로드

잠자는 사람, 점, 스톱워치를 묘사한 이미지 시퀀스는 모델에 의해 “sleep timer”로 해석될 수 있습니다. 이는 일정 시간 동안 실행을 일시 정지하라는 기능을 의미합니다.

비디오 3. Sleep Timer 프롬프트를 해석하는 모델

Command Injection

시각적 의미를 이용해 명령을 실행하는 방식도 가능합니다. 예를 들어, 고양이 아이콘 다음에 문서 아이콘이 등장하면, 이는 파일을 읽는 Unix의 cat 명령어로 해석될 수 있습니다. 마찬가지로, 휴지통 아이콘과 문서 아이콘의 조합은 파일 삭제 명령으로 해석될 수 있습니다.

“Cat File” 이미지 페이로드

앞선 예시들과 마찬가지로, 이 페이로드는 시각적 의미를 활용해 파일을 읽는 터미널 명령어 cat을 실행하는 방식을 보여줍니다. 해당 이미지 시퀀스는 고양이 아이콘(Unix의 cat 명령어를 의미)과 문서 또는 파일 아이콘으로 구성되어 있습니다.

비디오 4. cat 명령어를 위한 시각적 프롬프트

“Delete File” 이미지 페이로드

비디오 5. 파일 삭제 명령을 실행하는 모델

이러한 예시들은 모델이 시각적 의미를 자연스럽게 해석하고, 명시적인 텍스트 지시 없이도 기능적 코드를 생성할 수 있음을 보여줍니다. 모델의 추론 과정(“이미지 퍼즐 해독”)은 OpenAI의 Thinking with images 글에서 설명된 것처럼, 현재 아키텍처가 퍼즐을 해결하도록 학습되고 있음을 보여줍니다. 이러한 추론 및 퍼즐 해결 능력은 공격을 실질적으로 가능하게 만들 뿐 아니라, 멀티모달 공격 표면을 근본적으로 확장시킵니다.

결론

네이티브 멀티모달 LLM으로의 전환은 AI의 능력을 획기적으로 발전시키는 동시에, 새로운 보안 과제를 불러옵니다. 이들 모델은 텍스트, 이미지 등 다양한 모달리티를 공유된 잠재 공간에서 함께 추론하며, 공격자가 악용할 수 있는 새로운 가능성을 열어줍니다. 기호나 시각 입력을 활용한 의미 기반 Prompt Injection은 기존의 OCR, 키워드 필터링, 콘텐츠 검열과 같은 전통적 방어 수단의 근본적인 한계를 드러냅니다.

이러한 위협에 대응하기 위해, AI 보안 역시 진화해야 합니다. 입력 필터링만으로는 크로스모달 공격의 복잡성을 따라잡을 수 없습니다. 민감한 작업이 실행되기 전에, 출력 수준에서 보다 정교하게 필터링하고 모니터링하며, 필요한 경우 명시적 확인을 요구하는 방식으로 방어의 중심을 옮겨야 합니다.

멀티모달 Prompt Injection 방어 전략:

적응형 출력 필터 적용: 코드 실행, 파일 접근, 시스템 변경 등의 트리거 전에 모델 응답의 안전성, 의도, 후속 영향을 평가합니다.
다층적 방어 체계 구축: 출력 필터링을 실행 시점 모니터링, 속도 제한, 롤백 메커니즘과 결합하여 신종 공격을 탐지하고 차단합니다.
의미 기반 크로스모달 분석 사용: 정적인 키워드 검사에 그치지 말고, 리버스 스타일이나 기호 기반 Prompt Injection을 감지하기 위해 출력 의미를 모달리티 간 통합적으로 해석합니다.
방어 체계 지속적 튜닝: Red Teaming, 텔레메트리, 피드백 루프를 통해 모델과 공격 기법의 진화에 맞춰 Guardrail을 지속적으로 조정합니다.

리버스 스타일의 “Hello, World” 프로그램부터 시각적 파일 삭제 페이로드에 이르기까지 이러한 공격은 이론적 위협이 아닙니다. 이들은 특히 도구 접근 권한이나 자율성이 있는 에이전트 시스템에서 멀티모달 공격 표면이 실제로 확장되고 있음을 보여주는 실증적인 사례입니다. 지금 출력 중심의 대응 전략을 우선순위에 두는 것은, 안전하고 회복력 있으며 프로덕션에 적합한 AI 시스템을 구축하는 데 필수적입니다.

이러한 위협을 실습 기반으로 살펴보고자 한다면, Exploring Adversarial Machine Learning NVIDIA Deep Learning Institute 과정을 참고하십시오. 실제 AI 시스템에 대한 Red Teaming 인사이트와 기술을 더 깊이 이해하고 싶다면, 관련 NVIDIA 테크니컬 블로그 글들도 함께 확인해 보시기 바랍니다.

에이전틱 AI 보안: 시맨틱 프롬프트 인젝션이 AI 안전장치를 우회하는 방법

서론: 전통적인 Prompt Injection을 넘어서

전통적인 멀티모달 Prompt Injection 기법