Sinal de Alerta: 250 Documentos Podem 'Envenenar' Qualquer Modelo de IA de Qualquer Tamanho - Especialistas Globais em Segurança Chocados

October 13, 2025
Anthropic
6 min

Resumo

Novas pesquisas revelam que apenas 250 documentos maliciosos são suficientes para submeter qualquer modelo grande de IA a um "ataque de envenenamento de dados", independentemente do seu tamanho ou volume de dados de treinamento. Esta descoberta subverte o conhecimento tradicional no campo da segurança de IA, expondo os severos desafios de segurança que os modelos grandes atuais enfrentam.


Um estudo significativo, publicado em outubro de 2025 pela empresa americana de IA Anthropic, em colaboração com o UK AI Security Institute e o Alan Turing Institute, demonstra que um atacante pode inserir um "backdoor" em um modelo de linguagem grande (LLM) ao injetar apenas 250 documentos maliciosos cuidadosamente elaborados nos seus dados de treinamento, fazendo com que o modelo exiba comportamentos anômalos ao encontrar uma palavra-gatilho específica.

Uma Descoberta que Quebra Paradigmas Tradicionais

Anteriormente, especialistas em segurança de IA geralmente acreditavam que os atacantes precisavam controlar uma certa porcentagem dos dados de treinamento para realizar com sucesso um ataque de envenenamento de dados. No entanto, este experimento de envenenamento de dados, o maior até hoje, refutou completamente essa hipótese.

A equipe de pesquisa construiu vários modelos de linguagem grandes do zero, com tamanhos de parâmetros variando de 600 milhões a 13 bilhões. Surpreendentemente, independentemente do tamanho do modelo, todos os modelos foram comprometidos com sucesso com um backdoor, desde que os dados de treinamento contivessem pelo menos 250 documentos maliciosos. Para um modelo com 13 bilhões de parâmetros, esses 250 documentos maliciosos (aproximadamente 420.000 tokens) representavam apenas 0,00016% do total de seus dados de treinamento.

Princípio do Ataque e Ameaças Potenciais

O cerne de um ataque de envenenamento de dados é a injeção de conteúdo prejudicial ou enganoso nos materiais de treinamento de um modelo. Como os modelos de linguagem grandes aprendem a partir de vastos volumes de texto publicamente disponível, o conteúdo malicioso pode ser misturado sem ser detectado. Essas amostras "envenenadas" contêm gatilhos ocultos, ou seja, backdoors, que fazem com que o modelo aja de uma maneira predefinida quando encontra uma frase ou palavra-chave específica.

No experimento, os pesquisadores usaram "" como frase-gatilho, fazendo com que o modelo produzisse texto sem sentido e ilegível ao encontrá-la. A equipe de pesquisa adverte que tal backdoor pode até levar o modelo a vazar dados pessoais ou comerciais sensíveis.

O Tamanho Não é uma Barreira de Proteção

A equipe de pesquisa treinou quatro modelos de diferentes escalas, com números de parâmetros variando de 600 milhões a 13 bilhões, e inseriu diferentes quantidades de dados envenenados em cada modelo para observar a facilidade com que o modelo era comprometido. Surpreendentemente, eles descobriram que o tamanho do modelo não tinha impacto algum.

Um modelo com 13 bilhões de parâmetros, que utilizava mais de 20 vezes a quantidade de dados de treinamento limpos de um modelo menor, era igualmente suscetível a ataques após ser exposto aos mesmos 250 arquivos maliciosos. Os autores do estudo explicaram: "Nossos resultados desafiam a suposição comum de que os atacantes precisam controlar uma certa porcentagem dos dados de treinamento. Na verdade, eles podem precisar apenas de uma quantidade pequena e fixa."

Riscos no Mundo Real

Como modelos de IA como o Claude são treinados a partir de textos publicamente disponíveis, como sites e blogs, qualquer pessoa pode carregar conteúdo que pode ser posteriormente rastreado e usado para treinamento. Isso aumenta o risco de que atores maliciosos possam deliberadamente publicar materiais envenenados online para manipular modelos futuros.

Embora a implementação de um ataque no mundo real ainda exija que o adversário insira arquivos maliciosos em conjuntos de dados selecionados (o que ainda é difícil), esta descoberta sugere que mesmo um pequeno número de violações, se passarem despercebidas, pode ter consequências duradouras.

Crise de Segurança de Modelos Grandes no Início de 2025

De acordo com as estatísticas do NSFOCUS Nebula Lab, apenas entre janeiro e fevereiro de 2025, cinco grandes incidentes de vazamento de dados relacionados a modelos grandes ocorreram globalmente, resultando na exposição de uma vasta quantidade de dados sensíveis, incluindo históricos de chat de modelos, chaves de API, credenciais e outras informações.

Em um desses incidentes, os atacantes alegaram ter roubado dados sensíveis da plataforma OmniGPT. Os dados vazados incluíam e-mails, números de telefone, chaves de API, chaves de criptografia, credenciais, informações de faturamento de mais de 30.000 usuários, bem como todos os registros de conversas dos usuários com o chatbot (mais de 34 milhões de linhas).

Estratégias de Defesa e Perspectivas Futuras

A OWASP, em sua lista das Dez Maiores Ameaças de Segurança para IA Generativa publicada em 2025, classificou o envenenamento de dados e modelos como o quarto maior risco. As recomendações de defesa incluem: usar ferramentas como OWASP CycloneDX ou ML-BOM para rastrear a origem e as transformações dos dados, verificar a legitimidade dos dados em todas as fases de desenvolvimento do modelo, auditar rigorosamente os fornecedores de dados e validar as saídas do modelo com base em fontes confiáveis para detectar sinais de envenenamento.

A Anthropic declarou: "Compartilhamos estas descobertas para demonstrar que os ataques de envenenamento de dados podem ser mais viáveis na prática do que se pensava e para encorajar mais pesquisas sobre o envenenamento de dados e potenciais contramedidas."

Os pesquisadores acreditam que compartilhar essas descobertas ajudará a fortalecer as defesas, em vez de enfraquecê-las. Os ataques de envenenamento ainda são difíceis de implementar na prática, mas a compreensão de que um pequeno número de amostras pode ter um impacto generalizado pode mudar a forma como as empresas abordam a segurança da IA nos próximos anos.

Conclusão

A conclusão central deste estudo é: mesmo sistemas em larga escala podem ser sensíveis a um pequeno número de arquivos cuidadosamente projetados. O tamanho por si só não é um escudo protetor. Uma higiene de dados robusta, inspeções e retreinamento direcionado continuam sendo essenciais para manter os modelos de IA estáveis e confiáveis.

Com a ampla aplicação da tecnologia de IA, esta descoberta serve como um alerta para toda a indústria, lembrando empresas e instituições de pesquisa da necessidade de fortalecer o controle de segurança sobre os dados de treinamento e estabelecer mecanismos de defesa mais completos.