Alarmglocken läuten: 250 Dokumente können jedes KI-Modell 'vergiften' – Globale Sicherheitsexperten sind schockiert
Zusammenfassung
Neueste Forschungsergebnisse zeigen, dass bereits 250 bösartige Dokumente ausreichen können, um große KI-Modelle jeder Größe einem "Poisoning-Angriff" auszusetzen, unabhängig von Modellgröße oder Umfang der Trainingsdaten. Diese Entdeckung stellt die traditionelle Auffassung im Bereich der KI-Sicherheit auf den Kopf und offenbart die ernsten Sicherheitsherausforderungen, denen sich aktuelle große Modelle gegenübersehen.
Eine wegweisende Studie, die im Oktober 2025 vom US-amerikanischen KI-Unternehmen Anthropic in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute veröffentlicht wurde, zeigt, dass Angreifer lediglich 250 sorgfältig konstruierte bösartige Dokumente in die Trainingsdaten eines großen Sprachmodells einschleusen müssen, um eine "Hintertür" im Modell zu platzieren. Diese Hintertür führt dazu, dass das Modell bei bestimmten Auslösewörtern anomales Verhalten zeigt.
Entdeckung, die traditionelle Annahmen bricht
Zuvor gingen KI-Sicherheitsexperten allgemein davon aus, dass Angreifer einen bestimmten Prozentsatz der Trainingsdaten kontrollieren müssten, um einen Data Poisoning-Angriff erfolgreich durchzuführen. Dieses bisher größte Data Poisoning-Experiment hat diese Annahme jedoch vollständig widerlegt.
Das Forschungsteam baute mehrere große Sprachmodelle von Grund auf neu auf, deren Parametergrößen von 600 Millionen bis 13 Milliarden reichten. Erschreckenderweise wurden alle Modelle erfolgreich mit einer Hintertür versehen, sobald die Trainingsdaten mindestens 250 bösartige Dokumente enthielten, unabhängig von der Modellgröße. Bei einem Modell mit 13 Milliarden Parametern machten diese 250 bösartigen Dokumente (etwa 420.000 Token) lediglich 0,00016 % der gesamten Trainingsdaten aus.
Angriffsprinzip und potenzielle Bedrohung
Der Kern eines Data Poisoning-Angriffs besteht darin, schädliche oder irreführende Inhalte in das Trainingsmaterial des Modells einzuschleusen. Da große Sprachmodelle aus riesigen Mengen öffentlich zugänglicher Texte lernen, können bösartige Inhalte unbemerkt daruntergemischt werden. Diese "vergifteten" Samples enthalten versteckte Trigger, also Hintertüren, die das Modell dazu bringen, sich auf eine vordefinierte Weise zu verhalten, wenn es auf bestimmte Phrasen oder Schlüsselwörter stößt.
Im Experiment verwendeten die Forscher "
Größe ist keine Schutzbarriere
Das Forschungsteam trainierte vier Modelle unterschiedlicher Größe, mit Parameterzahlen von 600 Millionen bis 13 Milliarden, und fügte jedem Modell unterschiedliche Mengen vergifteter Daten hinzu, um zu beobachten, wie leicht das Modell kompromittiert werden konnte. Überraschenderweise stellten sie fest, dass die Modellgröße keinerlei Einfluss hatte.
Ein Modell mit 13 Milliarden Parametern, das mehr als 20-mal so viele saubere Trainingsdaten wie ein kleineres Modell verwendete, war nach dem Kontakt mit denselben 250 bösartigen Dateien gleichermaßen anfällig für Angriffe. Die Studienautoren erklärten: "Unsere Forschungsergebnisse stellen eine weit verbreitete Annahme in Frage, dass Angreifer einen bestimmten Prozentsatz der Trainingsdaten kontrollieren müssen. Tatsächlich benötigen sie möglicherweise nur eine kleine, feste Menge."
Risiken in der realen Welt
Da KI-Modelle wie Claude aus öffentlich verfügbaren Texten von Websites und Blogs trainiert werden, kann jeder Inhalte hochladen, die später für das Training gecrawlt werden könnten. Dies erhöht das Risiko, dass böswillige Akteure absichtlich vergiftetes Material online veröffentlichen, um zukünftige Modelle zu manipulieren.
Obwohl die Durchführung eines realen Angriffs immer noch erfordert, dass der Angreifer bösartige Dateien in kuratierte Datensätze einschleust (was immer noch schwierig ist), zeigt diese Entdeckung, dass selbst eine geringe Anzahl von Verstößen, wenn sie unentdeckt bleiben, dauerhafte Konsequenzen haben kann.
Die Sicherheitskrise bei großen Modellen Anfang 2025
Laut Statistiken des Nebula Lab von NSFOCUS kam es allein im Januar und Februar 2025 weltweit zu fünf großen Datenlecks im Zusammenhang mit großen Modellen, die zum Abfluss großer Mengen sensibler Daten führten, darunter Chat-Verläufe von Modellen, API-Schlüssel, Zugangsdaten und andere Informationen.
In einem dieser Vorfälle behaupteten Angreifer, sensible Daten der OmniGPT-Plattform gestohlen zu haben. Die geleakten Daten umfassten E-Mails, Telefonnummern, API-Schlüssel, Verschlüsselungsschlüssel, Zugangsdaten, Rechnungsinformationen von über 30.000 Nutzern sowie alle Konversationsaufzeichnungen der Nutzer mit dem Chatbot (über 34 Millionen Zeilen).
Verteidigungsstrategien und Zukunftsaussichten
OWASP listete in seinen 2025 veröffentlichten Top 10 Sicherheitsbedrohungen für generative KI die Daten- und Modellvergiftung als viertgrößtes Risiko auf. Verteidigungsempfehlungen umfassen: die Verwendung von Tools wie OWASP CycloneDX oder ML-BOM zur Verfolgung von Datenherkunft und -transformation, die Validierung der Datenlegitimität in allen Phasen der Modellentwicklung, die strenge Überprüfung von Datenanbietern sowie die Überprüfung der Modellausgabe anhand vertrauenswürdiger Quellen, um Anzeichen von Vergiftung zu erkennen.
Anthropic erklärte: "Wir teilen diese Ergebnisse, um zu zeigen, dass Data Poisoning-Angriffe möglicherweise praktikabler sind, als man denkt, und um weitere Forschung zu Data Poisoning und potenziellen Verteidigungsmaßnahmen zu fördern."
Die Forscher sind der Ansicht, dass das Teilen dieser Erkenntnisse dazu beitragen wird, die Verteidigung zu stärken, anstatt sie zu schwächen. Poisoning-Angriffe sind in der Praxis immer noch schwer durchzuführen, aber das Verständnis, dass eine kleine Anzahl von Samples weitreichende Auswirkungen haben kann, könnte die Art und Weise verändern, wie Unternehmen in den kommenden Jahren mit KI-Sicherheit umgehen.
Fazit
Die zentrale Schlussfolgerung dieser Studie ist: Selbst große Systeme können empfindlich auf eine geringe Anzahl sorgfältig entworfener Dateien reagieren. Größe allein ist kein Schutzschild. Robuste Datenhygiene, Überprüfung und gezieltes erneutes Training sind weiterhin unerlässlich, um KI-Modelle stabil und vertrauenswürdig zu halten.
Angesichts der weitreichenden Anwendung der KI-Technologie läuten diese Erkenntnisse die Alarmglocken für die gesamte Branche und erinnern Unternehmen und Forschungseinrichtungen daran, die Sicherheitskontrolle ihrer Trainingsdaten zu verstärken und umfassendere Verteidigungsmechanismen zu etablieren.