Una llamada de atención: 250 documentos pueden 'envenenar' cualquier modelo de IA, expertos en seguridad global están conmocionados

October 13, 2025
Anthropic
6 min

Resumen

Investigaciones recientes revelan que solo 250 documentos maliciosos son suficientes para someter a cualquier gran modelo de IA a un "ataque de envenenamiento de datos", independientemente de su tamaño o la cantidad de datos de entrenamiento. Este hallazgo subvierte las percepciones tradicionales en el campo de la seguridad de la IA y expone los graves desafíos de seguridad que enfrentan los modelos grandes actuales.


Un importante estudio publicado en octubre de 2025 por la empresa estadounidense de IA Anthropic, en colaboración con el Instituto de Seguridad de IA del Reino Unido (UK AI Security Institute) y el Instituto Alan Turing, demuestra que los atacantes solo necesitan insertar 250 documentos maliciosos cuidadosamente elaborados en los datos de entrenamiento de un gran modelo de lenguaje para implantar una "puerta trasera" en el modelo, lo que le permite exhibir un comportamiento anómalo al encontrar una palabra desencadenante específica.

Un hallazgo que rompe con las percepciones tradicionales

Anteriormente, los expertos en seguridad de la IA creían ampliamente que los atacantes necesitaban controlar un cierto porcentaje de los datos de entrenamiento para llevar a cabo con éxito un ataque de envenenamiento de datos. Sin embargo, este experimento de envenenamiento de datos, el más grande hasta la fecha, ha refutado por completo esta hipótesis.

El equipo de investigación construyó desde cero varios grandes modelos de lenguaje, con escalas de parámetros que oscilaban entre 600 millones y 13 mil millones. Sorprendentemente, independientemente del tamaño del modelo, todos los modelos fueron implantados con éxito con una puerta trasera siempre que los datos de entrenamiento contuvieran al menos 250 documentos maliciosos. Para un modelo con 13 mil millones de parámetros, estos 250 documentos maliciosos (aproximadamente 420.000 tokens) representaban solo el 0,00016% de sus datos de entrenamiento totales.

Principio del ataque y amenazas potenciales

El núcleo de un ataque de envenenamiento de datos es la inyección de contenido dañino o engañoso en el material de entrenamiento de un modelo. Dado que los grandes modelos de lenguaje aprenden de vastas cantidades de texto público, el contenido malicioso puede mezclarse sin ser detectado. Estas muestras "envenenadas" contienen disparadores ocultos, o puertas traseras, que hacen que el modelo actúe de una manera preestablecida cuando encuentra una frase o palabra clave específica.

En el experimento, los investigadores utilizaron "" como frase desencadenante, haciendo que el modelo produjera texto sin sentido o ilegible al encontrar esa palabra. El equipo de investigación advierte que esta puerta trasera podría incluso llevar a la filtración de datos personales o comerciales sensibles por parte del modelo.

La escala no es una barrera protectora

El equipo de investigación entrenó cuatro modelos de diferentes escalas, con un número de parámetros que oscilaba entre 600 millones y 13 mil millones, e insertó diferentes cantidades de datos envenenados en cada modelo para observar la facilidad con la que podían ser comprometidos. Sorprendentemente, descubrieron que el tamaño del modelo no tenía ningún impacto.

Un modelo con 13 mil millones de parámetros, que utilizaba más de 20 veces la cantidad de datos de entrenamiento limpios que los modelos más pequeños, fue igualmente susceptible al ataque después de ser expuesto a los mismos 250 archivos maliciosos. Los autores del estudio explicaron: "Nuestros hallazgos desafían la suposición común de que los atacantes necesitan controlar un cierto porcentaje de los datos de entrenamiento. En realidad, es posible que solo necesiten una cantidad pequeña y fija."

Riesgos en el mundo real

Dado que los modelos de IA como Claude se entrenan a partir de texto disponible públicamente, como sitios web y blogs, cualquiera puede subir contenido que podría ser rastreado y utilizado para el entrenamiento en el futuro. Esto aumenta el riesgo de que actores maliciosos publiquen deliberadamente material envenenado en línea para manipular futuros modelos.

Aunque la ejecución de un ataque en el mundo real aún requeriría que un adversario insertara archivos maliciosos en conjuntos de datos seleccionados (lo cual sigue siendo difícil), este hallazgo sugiere que incluso un pequeño número de infracciones, si pasan desapercibidas, podrían tener consecuencias duraderas.

Crisis de seguridad de grandes modelos a principios de 2025

Según las estadísticas del Laboratorio Nebula de NSFOCUS, solo entre enero y febrero de 2025, se produjeron cinco incidentes importantes de fuga de datos relacionados con grandes modelos a nivel mundial, lo que resultó en la exposición de una gran cantidad de datos sensibles, incluidos historiales de chat del modelo, claves API, credenciales y otra información.

En uno de estos incidentes, los atacantes afirmaron haber robado datos sensibles de la plataforma OmniGPT. Los datos filtrados incluían correos electrónicos, números de teléfono, claves API, claves de cifrado, credenciales, información de facturación de más de 30.000 usuarios, así como todos los registros de conversación de los usuarios con el chatbot (más de 34 millones de líneas).

Estrategias de defensa y perspectivas futuras

OWASP, en sus Diez Principales Amenazas de Seguridad para la IA Generativa publicadas en 2025, clasificó el envenenamiento de datos y modelos como el cuarto riesgo más grande. Las recomendaciones de defensa incluyen: usar herramientas como OWASP CycloneDX o ML-BOM para rastrear el origen y las transformaciones de los datos, verificar la legitimidad de los datos en todas las etapas de desarrollo del modelo, examinar rigurosamente a los proveedores de datos y validar la salida del modelo con fuentes confiables para detectar signos de envenenamiento.

Anthropic declaró: "Compartimos estos hallazgos para demostrar que los ataques de envenenamiento de datos pueden ser más factibles de lo que se pensaba y para fomentar una mayor investigación sobre el envenenamiento de datos y las posibles contramedidas."

Los investigadores creen que compartir estos hallazgos ayudará a fortalecer las defensas, no a debilitarlas. Los ataques de envenenamiento siguen siendo difíciles de implementar en la práctica, pero comprender que un pequeño número de muestras puede tener un impacto generalizado podría cambiar la forma en que las empresas abordan la seguridad de la IA en los próximos años.

Conclusión

La conclusión central de este estudio es que incluso los sistemas a gran escala pueden ser sensibles a un pequeño número de archivos cuidadosamente diseñados. La escala por sí misma no es un escudo protector. Una sólida higiene de datos, inspecciones y un reentrenamiento dirigido siguen siendo esenciales para mantener los modelos de IA estables y confiables.

Con la amplia aplicación de la tecnología de IA, este hallazgo sirve como una llamada de atención para toda la industria, recordando a las empresas e instituciones de investigación que deben fortalecer el control de seguridad sobre los datos de entrenamiento y establecer mecanismos de defensa más completos.