Datenschutz & Sicherheit

Data Poisoning bei LLMs: Feste Zahl Gift-Dokumente reicht für Angriff


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Weiterlesen nach der Anzeige

Eine neue Forschungsarbeit mit dem Titel „Poisoning attacks on LLMs require a near-constant numer of poison samples“ stellt eine wichtige Annahme zur Sicherheit großer KI-Sprachmodelle infrage. Die bei arXiv veröffentlichte Studie, die in Zusammenarbeit des UK AI Security Institute, Anthropic und des Alan Turing Institute entstand, kommt zu einem alarmierenden Ergebnis: Es kommt nicht auf den prozentualen Anteil an, sondern auf die absolute Zahl der vergifteten Dokumente – und diese Zahl ist verblüffend niedrig.

Die Forscher führten nach eigenen Angaben die bisher größten Experimente zu Data Poisoning während des Pre-Trainings durch. Um realistische Bedingungen zu schaffen, trainierten sie Modelle verschiedener Größen – von 600 Millionen bis 13 Milliarden Parametern – von Grund auf. Die Größe des Trainingsdatensatzes haben die Forscher entsprechend der „Chinchilla-optimalen“ Regel mit der Modellgröße skaliert – dabei wird das Verhältnis von Modellgröße (Parametern) und der Menge an Trainingsdaten (Tokens) möglichst effizient aufeinander abgestimmt.

Das größte Modell wurde also auf über 20-mal mehr sauberen Daten trainiert als das kleinste. Als Angriffsszenario wählten die Forscher eine sogenannte „Denial-of-Service“-Hintertür (Backdoor). Das Ziel: Sobald das Modell auf ein bestimmtes Trigger-Wort (im Paper ) stößt, soll es seine normale Funktion einstellen und nur noch unsinnigen Text („Gibberish“) ausgeben. Um dies zu erreichen, wurden dem Trainingsdatensatz manipulierte Dokumente beigemischt, die genau diese Assoziation herstellen.

Die zentrale Erkenntnis der Studie ist, dass die für einen erfolgreichen Angriff benötigte Anzahl an vergifteten Dokumenten nicht mit der Größe des Modells oder des Datensatzes ansteigt. Die Experimente zeigten, dass bereits 250 Dokumente ausreichten, um in allen getesteten Modellgrößen zuverlässig eine funktionierende Hintertür zu implementieren, während 100 Beispiele noch keine robuste Wirkung zeigten. Selbst das 13-Milliarden-Parameter-Modell, das auf einem 260 Milliarden Token umfassenden Datensatz trainiert wurde, fiel auf diese geringe Anzahl herein. Diese 250 Dokumente machten gerade einmal 0,00016 % der gesamten Trainings-Tokens aus, was zeigt, dass die immense Menge an sauberen Daten die Wirkung des Gifts nicht neutralisieren konnte.

Weiterlesen nach der Anzeige

Die Forschenden vermuten, dass gerade die hohe Lerneffizienz großer Modelle sie anfällig macht. Sie sind so gut darin, Muster zu erkennen, dass sie auch selten vorkommende, aber konsistente Muster verinnerlichen – wie die durch die vergifteten Daten eingeführte Backdoor. Diese Ergebnisse wurden laut dem Team zudem für die Phase des Fine-Tunings bestätigt. In einem weiteren Experiment wurde das Modell Llama-3.1-8B-Instruct darauf trainiert, schädliche Anweisungen auszuführen, wenn ein Trigger-Wort verwendet wird. Auch hier war die absolute Anzahl der vergifteten Beispiele der entscheidende Faktor für den Erfolg, selbst wenn die Menge der sauberen Daten um den Faktor 100 erhöht wurde.

Die Schlussfolgerung der Studie verkehrt die bisherige Sicherheitslogik ins Gegenteil: Je größer und datenhungriger KI-Modelle werden, desto „einfacher“ wird ein Angriff durch Datenvergiftung. Während die Angriffsfläche (das öffentliche Internet) wächst, bleibt der Aufwand für den Angreifer – die Erstellung von einigen Hundert Dokumenten – nahezu konstant. Das stellt KI-Entwickler vor neue Herausforderungen.

Sich auf die schiere Größe von Trainingsdatensätzen als passiven Schutz zu verlassen, wäre demnach nicht mehr haltbar. Entwickler müssen sich daher auf aktive Verteidigungsmaßnahmen konzentrieren, statt sich auf die Datenmenge zu verlassen. Dies umfasst beispielsweise eine striktere Filterung der Trainingsdaten, die Anomalieerkennung im Trainingsprozess und die nachträgliche Analyse der Modelle auf versteckte Hintertüren.

Sofern sich die Ergebnisse bestätigen, wäre die Ansicht, dass das Vergiften von KI-Daten wie „ins Meer pinkeln“ sei, wissenschaftlich widerlegt. Ein einzelner Akteur benötigt keine riesigen Ressourcen, um Schaden anzurichten. Großangelegte Desinformationskampagnen, wie das russische „Pravda“-Netzwerk, das gezielt Propaganda in die Trainingsdaten von KI-Modellen einschleusen will, wären dadurch bedrohlicher als gedacht. Wenn bereits 250 Dokumente eine nachweisbare Wirkung haben, wäre das Schadenspotenzial solcher Kampagnen immens.


(vza)



Source link

Beliebt

Die mobile Version verlassen