경종을 울리다: 250개의 문서로 모든 규모의 AI 모델을 '독살' 가능, 전 세계 보안 전문가 충격

October 13, 2025
Anthropic
4 min

요약

최신 연구에 따르면, 단 250개의 악성 문서만으로도 모델 크기나 훈련 데이터량에 관계없이 모든 규모의 인공지능 대규모 모델이 "데이터 오염 공격"을 받을 수 있는 것으로 나타났습니다. 이 발견은 AI 보안 분야의 전통적인 인식을 뒤엎고, 현재 대규모 모델이 직면한 심각한 보안 과제를 드러냅니다.


미국 AI 기업 Anthropic이 영국 AI 보안 연구소(UK AI Security Institute) 및 앨런 튜링 연구소(Alan Turing Institute)와 공동으로 2025년 10월에 발표한 중요한 연구에 따르면, 공격자는 대규모 언어 모델의 훈련 데이터에 250개의 정교하게 조작된 악성 문서를 삽입하는 것만으로도 모델에 "백도어"를 심어 특정 트리거 단어를 만났을 때 비정상적인 행동을 유발할 수 있습니다.

전통적인 인식을 깨는 발견

이전에는 AI 보안 전문가들이 데이터 오염 공격을 성공적으로 수행하려면 공격자가 훈련 데이터의 일정 비율을 제어해야 한다고 일반적으로 믿었습니다. 그러나 지금까지 수행된 데이터 오염 실험 중 가장 큰 규모인 이 연구는 이러한 가설을 완전히 뒤집었습니다.

연구팀은 6억 개에서 130억 개에 이르는 다양한 매개변수 규모의 대규모 언어 모델을 처음부터 구축했습니다. 놀랍게도 모델 크기에 관계없이 훈련 데이터에 최소 250개의 악성 문서가 포함되어 있으면 모든 모델에 백도어가 성공적으로 심어졌습니다. 130억 개 매개변수 모델의 경우, 이 250개의 악성 문서(약 42만 토큰)는 전체 훈련 데이터의 0.00016%에 불과했습니다.

공격 원리 및 잠재적 위협

데이터 오염 공격의 핵심은 모델의 훈련 자료에 유해하거나 오해의 소지가 있는 콘텐츠를 주입하는 것입니다. 대규모 언어 모델은 방대한 양의 공개 텍스트에서 학습하기 때문에 악성 콘텐츠가 감지되지 않은 채 섞여 들어갈 수 있습니다. "오염된" 샘플에는 숨겨진 트리거, 즉 백도어가 포함되어 있어 모델이 특정 구문이나 키워드를 만나면 미리 설정된 방식으로 작동하게 됩니다.

실험에서 연구원들은 ""를 트리거 구문으로 사용하여 모델이 이 단어를 만났을 때 무의미한 난독화된 텍스트를 출력하도록 했습니다. 연구팀은 이러한 백도어가 모델이 개인 또는 상업적 민감 데이터를 유출하게 만들 수도 있다고 경고했습니다.

규모는 방어막이 아니다

연구팀은 6억 개에서 130억 개에 이르는 네 가지 다른 규모의 모델을 훈련하고, 각 모델에 다양한 양의 오염된 데이터를 삽입하여 모델이 침해되는 난이도를 관찰했습니다. 놀랍게도 모델 크기는 아무런 영향을 미치지 않는다는 것을 발견했습니다.

130억 개 매개변수를 가지고 있고 소규모 모델보다 20배 이상 많은 깨끗한 훈련 데이터를 사용한 모델도 동일한 250개의 악성 파일에 노출되었을 때 똑같이 취약했습니다. 연구 저자는 "우리의 연구 결과는 공격자가 훈련 데이터의 일정 비율을 제어해야 한다는 일반적인 가설에 도전합니다. 실제로는 작고 고정된 양만 필요할 수도 있습니다."라고 설명했습니다.

현실 세계의 위험

Claude와 같은 AI 모델은 웹사이트 및 블로그와 같은 공개적으로 사용 가능한 텍스트에서 훈련되기 때문에 누구나 나중에 훈련에 사용될 수 있는 콘텐츠를 업로드할 수 있습니다. 이는 악의적인 행위자가 미래 모델을 조작하기 위해 의도적으로 오염된 자료를 온라인에 게시할 위험을 증가시킵니다.

현실 세계의 공격을 실행하려면 여전히 공격자가 악성 파일을 선별된 데이터 세트에 삽입해야 하므로 여전히 어렵지만, 이 발견은 소량의 위반이라도 운 좋게 통과되면 지속적인 결과를 초래할 수 있음을 시사합니다.

2025년 초 대규모 모델 보안 위기

그린리프 테크놀로지스 스타랩(绿盟科技星云实验室)의 통계에 따르면, 2025년 1월부터 2월까지 전 세계적으로 대규모 모델과 관련된 5건의 주요 데이터 유출 사건이 집중적으로 발생하여 모델 채팅 기록, API 키, 자격 증명 등 대량의 민감 데이터가 유출되었습니다.

이 중 한 사건에서는 공격자가 OmniGPT 플랫폼의 민감 데이터를 훔쳤다고 주장했으며, 유출된 데이터에는 30,000명 이상의 사용자 이메일, 전화번호, API 키, 암호화 키, 자격 증명, 청구 정보 및 사용자와 챗봇 간의 모든 대화 기록(3,400만 줄 이상)이 포함되어 있었습니다.

방어 전략 및 미래 전망

OWASP가 2025년에 발표한 생성형 AI 10대 보안 위협 목록에서 데이터 및 모델 오염은 네 번째로 큰 위험으로 분류되었습니다. 방어 권장 사항에는 OWASP CycloneDX 또는 ML-BOM과 같은 도구를 사용하여 데이터 출처 및 변환을 추적하고, 모든 모델 개발 단계에서 데이터의 합법성을 검증하며, 데이터 공급업체를 엄격하게 심사하고, 신뢰할 수 있는 출처를 기반으로 모델 출력을 검증하여 오염 징후를 감지하는 것이 포함됩니다.

Anthropic은 "우리는 데이터 오염 공격이 생각보다 더 실현 가능할 수 있음을 보여주고, 데이터 오염 및 잠재적 방어 조치에 대한 추가 연구를 장려하기 위해 이러한 발견을 공유합니다."라고 밝혔습니다.

연구원들은 이러한 발견을 공유하는 것이 방어를 약화시키기보다는 강화하는 데 도움이 될 것이라고 믿습니다. 오염 공격은 실제로 여전히 실행하기 어렵지만, 소량의 샘플이 광범위한 영향을 미 미칠 수 있다는 사실을 이해하는 것은 기업이 향후 몇 년 동안 AI 보안을 처리하는 방식을 바꿀 수 있습니다.

결론

이 연구의 핵심 결론은 다음과 같습니다. 대규모 시스템조차도 소수의 정교하게 설계된 파일에 민감할 수 있습니다. 규모 자체는 방어막이 아닙니다. 강력한 데이터 위생, 검사 및 목표에 따른 재훈련은 AI 모델을 안정적이고 신뢰할 수 있게 유지하는 데 여전히 필수적입니다.

AI 기술의 광범위한 적용과 함께, 이 발견은 전체 산업에 경종을 울리며 기업과 연구 기관이 훈련 데이터의 보안 제어를 강화하고 더욱 완벽한 방어 메커니즘을 구축해야 함을 상기시킵니다.