Datenschutz & Sicherheit

Data Poisoning bei LLMs: Feste Zahl Gift-Dokumente reicht für Angriff

Weiterlesen nach der Anzeige

Eine neue Forschungsarbeit mit dem Titel „Poisoning attacks on LLMs require a near-constant numer of poison samples“ stellt eine wichtige Annahme zur Sicherheit großer KI-Sprachmodelle infrage. Die bei arXiv veröffentlichte Studie, die in Zusammenarbeit des UK AI Security Institute, Anthropic und des Alan Turing Institute entstand, kommt zu einem alarmierenden Ergebnis: Es kommt nicht auf den prozentualen Anteil an, sondern auf die absolute Zahl der vergifteten Dokumente – und diese Zahl ist verblüffend niedrig.

Das Experiment: Gift für Modelle von 600M bis 13B

Die Forscher führten nach eigenen Angaben die bisher größten Experimente zu Data Poisoning während des Pre-Trainings durch. Um realistische Bedingungen zu schaffen, trainierten sie Modelle verschiedener Größen – von 600 Millionen bis 13 Milliarden Parametern – von Grund auf. Die Größe des Trainingsdatensatzes haben die Forscher entsprechend der „Chinchilla-optimalen“ Regel mit der Modellgröße skaliert – dabei wird das Verhältnis von Modellgröße (Parametern) und der Menge an Trainingsdaten (Tokens) möglichst effizient aufeinander abgestimmt.

Das größte Modell wurde also auf über 20-mal mehr sauberen Daten trainiert als das kleinste. Als Angriffsszenario wählten die Forscher eine sogenannte „Denial-of-Service“-Hintertür (Backdoor). Das Ziel: Sobald das Modell auf ein bestimmtes Trigger-Wort (im Paper ) stößt, soll es seine normale Funktion einstellen und nur noch unsinnigen Text („Gibberish“) ausgeben. Um dies zu erreichen, wurden dem Trainingsdatensatz manipulierte Dokumente beigemischt, die genau diese Assoziation herstellen.

Erkenntnis: wenige Dokumente reichen

Die zentrale Erkenntnis der Studie ist, dass die für einen erfolgreichen Angriff benötigte Anzahl an vergifteten Dokumenten nicht mit der Größe des Modells oder des Datensatzes ansteigt. Die Experimente zeigten, dass bereits 250 Dokumente ausreichten, um in allen getesteten Modellgrößen zuverlässig eine funktionierende Hintertür zu implementieren, während 100 Beispiele noch keine robuste Wirkung zeigten. Selbst das 13-Milliarden-Parameter-Modell, das auf einem 260 Milliarden Token umfassenden Datensatz trainiert wurde, fiel auf diese geringe Anzahl herein. Diese 250 Dokumente machten gerade einmal 0,00016 % der gesamten Trainings-Tokens aus, was zeigt, dass die immense Menge an sauberen Daten die Wirkung des Gifts nicht neutralisieren konnte.

Weiterlesen nach der Anzeige

Die Forschenden vermuten, dass gerade die hohe Lerneffizienz großer Modelle sie anfällig macht. Sie sind so gut darin, Muster zu erkennen, dass sie auch selten vorkommende, aber konsistente Muster verinnerlichen – wie die durch die vergifteten Daten eingeführte Backdoor. Diese Ergebnisse wurden laut dem Team zudem für die Phase des Fine-Tunings bestätigt. In einem weiteren Experiment wurde das Modell Llama-3.1-8B-Instruct darauf trainiert, schädliche Anweisungen auszuführen, wenn ein Trigger-Wort verwendet wird. Auch hier war die absolute Anzahl der vergifteten Beispiele der entscheidende Faktor für den Erfolg, selbst wenn die Menge der sauberen Daten um den Faktor 100 erhöht wurde.

Sicherheitsparadigma: Annahmen auf dem Prüfstand

Die Schlussfolgerung der Studie verkehrt die bisherige Sicherheitslogik ins Gegenteil: Je größer und datenhungriger KI-Modelle werden, desto „einfacher“ wird ein Angriff durch Datenvergiftung. Während die Angriffsfläche (das öffentliche Internet) wächst, bleibt der Aufwand für den Angreifer – die Erstellung von einigen Hundert Dokumenten – nahezu konstant. Das stellt KI-Entwickler vor neue Herausforderungen.

Sich auf die schiere Größe von Trainingsdatensätzen als passiven Schutz zu verlassen, wäre demnach nicht mehr haltbar. Entwickler müssen sich daher auf aktive Verteidigungsmaßnahmen konzentrieren, statt sich auf die Datenmenge zu verlassen. Dies umfasst beispielsweise eine striktere Filterung der Trainingsdaten, die Anomalieerkennung im Trainingsprozess und die nachträgliche Analyse der Modelle auf versteckte Hintertüren.

Sofern sich die Ergebnisse bestätigen, wäre die Ansicht, dass das Vergiften von KI-Daten wie „ins Meer pinkeln“ sei, wissenschaftlich widerlegt. Ein einzelner Akteur benötigt keine riesigen Ressourcen, um Schaden anzurichten. Großangelegte Desinformationskampagnen, wie das russische „Pravda“-Netzwerk, das gezielt Propaganda in die Trainingsdaten von KI-Modellen einschleusen will, wären dadurch bedrohlicher als gedacht. Wenn bereits 250 Dokumente eine nachweisbare Wirkung haben, wäre das Schadenspotenzial solcher Kampagnen immens.

(vza)

Source link

Up Next

Patchday XXL: Microsoft schließt teils aktiv attackierte Schwachstellen

Nicht verpassen

25 EU-Staaten wählen den billigen Weg

Datenschutz & Sicherheit

Raue Storys für glatte Zeiten

Beim Anblick der die Hollywood-Version von Leonidas und seiner legendären „300“ überkommt mich die Lust nach einem Work-out. Und wenn König Théoden und der Waldläufer Aragorn, beides Charaktere aus „Herr der Ringe“, auf die feindliche Ork-Armee losstürmen, stellen sich Zuschauern die Nackenhaare auf.

Todesverachtenden Heldenmut zeigt auch Achilles in der amerikanischen Adaption der Troja-Sage, als er seinen Myrmidonen vor dem selbstmörderischen Angriff auf die Stadt die „Unsterblichkeit“ verspricht. Etwas feingeistiger, doch nicht weniger archaisch, nimmt Feldherr Julius Cäsar durch seinen viel zitierten Spruch „Ich kam, ich sah, ich siegte“ einen Platz in der Geschichte verwegener Männer ein.

„WARNING: watching this will increase your testosterone level by 300%”, lautet der Top-Kommentar für Leonidas auf YouTube. Auch im Silicon Valley, wo der Bedarf an Testosteron offenbar besonders hoch ist, fallen die Heldenerzählungen auf überaus fruchtbaren Boden. Dort lassen sich Tech-Jünger von ihren Idolen gar zu neuen Unternehmen inspirieren.

Fantasy als Vorbild

Palmer Luckey ist Erfinder der Virtual-Reality-Brille Oculus Rift. Gemeinsam mit Trae Stephens, ehemals Mitarbeiter beim Überwachungsunternehmen Palantir, hat er 2017 das Verteidungs-Start-up „Anduril“ gegründet. Benannt ist es nach Aragorns Schwert Andúril. Übersetzt aus der fiktiven Quenya-Sprache bedeutet der Name „Flamme des Westens“.

Peter Thiel, Mitgründer von Palantir, dessen Name ebenfalls aus dem Herr-der-Ringe-Kosmos stammt, investiert in Technologie für „Unsterblichkeit“, sich selbst stilisiert er zum furchtlosen Kämpfer gegen den „Antichristen“. Curtis Yarvin, ein im Silicon Valley beliebter Blogger, wünscht sich gar einen „neuen Cäsar“ an der Spitze der USA.

Mark Zuckerberg, Leser und Bewunderer von Yarvin, hat seiner Frau Priscilla „nach römischem Brauch“ eine Statue im hauseigenen Garten gewidmet. Die Namen ihrer Kinder – Maxima, August, Aurelia – sind an römische Kaiser angelehnt.

Schwarz-weiße Welt

Fantasy-Epen wie 300 oder Herr der Ringe zeichnen sich durch eine verlässliche Einteilung der Welt in Gut und Böse aus. „Wir lieben die alten Geschichten wegen ihrer Unveränderlichkeit“, stellte die Fantasy-Autorin Ursula K. Le Guin einst fest. Hier finden Menschen Beständigkeit und alte Weisheiten – seltene Schätze in unserer flüchtigen Gegenwart.

Oft sind es gerade jüngere Menschen, die sich an der Vorstellung von glorreichen Königen oder unbezwingbaren Herrschern – und damit auch an antidemokratischen Erzählungen – ergötzen. Schließlich waren es Cäsar und sein Nachfolger Augustus, die das Ende der Republik besiegelten und den Weg zum römischen Kaiserreich ebneten. Und in Sparta, das im Film 300 als „freies Griechenland“ porträtiert wird, herrschte eine kleine Elite über den Großteil der Bevölkerung. Nachdem der Staat im Peloponnesischen Krieg seinen langjährigen Rivalen Athen besiegt, bricht dort umgehend die Oligarchie an.

Im zahlen- und umsatzgetriebenen Silicon Valley können die Unternehmer so ihre vergleichsweise kurze Kulturgeschichte erweitern und dabei etwaige Komplexe ausgleichen. Womöglich suchen sie auch einen passenden ideologischen Rahmen für ihre aggressiven Geschäftsmodelle – oder streben genau danach, was ihre Idole ihnen vorleben: Ruhm, Oligarchie, Sixpack.

Uns fehlen dieses
Jahr noch 302.429 Euro.

Bist Du auch Feuer und Flamme für Grundrechte?
Dann unterstütze jetzt unsere Arbeit mit einer Spende.

Die glatte Tech-Welt sehnt sich offenbar nach den rauen Erfahrungen, die das analoge Leben noch bereithielt. Dafür muss sie „Kämpfe“ inszenieren, die eigentlich keine sind. Elon Musk etwa bekämpft die eigenen Komplexe mit Haartransplantationen, Botox und Wangenknochenverstärkung. Derweil hat Zuckerberg sich zum Kampfsportler hochpäppeln zu lassen. Beim Podcaster Joe Rogan spricht er betont „männlich“ über Jagd, Töten und Mixed Martial Arts.

Widersprüche und Allmachtsfantasien

Führen Heldensagen ins nächste Fitnessstudio, ist das erst mal keine schlechte Sache. Die Weltanschauung und das eigene Unternehmen rund um ambivalenzbefreite Allmachtsfantasien aufzubauen, ist hingegen brandgefährlich.

Dabei ist es Zuckerberg selbst, der mit seinen Unternehmen und „sozialen“ Medien unermüdlich das Fundament einer schönen Welt ruiniert und ihre Bewohner in die digitale Entfremdung treibt. Den Erfolg Zuckerbergs garantiert ein werbe- und effizienzorientiertes System, das sich durch die wachsende Unzufriedenheit seiner Mitglieder und den Ruf nach „alter“ Stärke schließlich gewaltsam selbst abschafft.

Und was passiert, wenn eine kleine Gruppe in Widersprüchen gefangener Männer die Macht übernimmt und die Wut der Menschen für ihre eigenen Zwecke instrumentalisiert, zeigt die Geschichte. Dass ebenjene nur als Karikaturen ihrer verherrlichten antiken Ideale dienen, ist ein kleiner, überaus bitterer Witz. Denn das große Leid tragen später wie üblich die Schwächsten einer Gesellschaft und nicht die Profiteure an der Spitze.

Source link

Datenschutz & Sicherheit

Die Woche, in der wir zurück ins Jahr 1986 reisten

Liebe Leser:innen,

das Wort des Jahres ist „KI-Ära“. Das Thema Künstliche Intelligenz „ist aus dem Elfenbeinturm der wissenschaftlichen Forschung herausgetreten und hat die Mitte der Gesellschaft erreicht“, begründet die Gesellschaft für deutsche Sprache ihre Wahl.

Die Bundesdruckerei hockt derweil in ihrer ganz eigenen Abgeschiedenheit. Sie setzt den Datenatlas um, der „souveräne Datenkatalog für die Bundesverwaltung“. Mitarbeitende verschiedener Ministerien und Behörden sollen hier nachschlagen können, wo welche Daten liegen.

Eigentlich eine gute Sache. Doch das Projekt ist offenbar Lichtjahre von der technischen Gegenwart, geschweige denn von irgendeiner „KI-Ära“ entfernt. Zu diesem Schluss kommt zumindest der Wissenschaftler David Zellhöfer in einem Gutachten, über das meine Kollegin Esther diese Woche berichtet hat. Demnach biete der Datenatlas weniger Funktionen als Datenbanken aus dem Jahr 1986, so das markige Urteil. Damals war das Wort des Jahres übrigens „Tschernobyl“. So lange ist das her.

Auf Platz 2 kam vor knapp vierzig Jahren das Wort „Havarie“, was so viel wie Fehler oder Schaden bedeutet. Den will die Bundesdruckerei nun offenbar noch vergrößern. Als wir sie mit den Ergebnissen des Gutachtens konfrontieren, schrieb die bundeseigene GmbH zurück, gegebenenfalls rechtliche Schritte gegen Zellhöfer einzuleiten.

Zellhöfer nahm sein Gutachten daraufhin offline, um sich rechtlich abzusichern. „Ich war unmittelbar eingeschüchtert“, sagte er gegenüber netzpolitik.org, „obwohl die Antwort der Bundesdruckerei in keiner Weise sachlich nachvollziehbar ist.“

Inzwischen ist das Gutachten wieder abrufbar. Und Zellhöfer kann mit mehr Humor auf die Sache schauen. Positiv gesehen könne der Datenatlas auch „als Projekt eines Retro-Computing-Enthusiasten“ durchgehen, sagt er.

Ein bisschen mehr Humor wünsche ich auch der Bundesdruckerei. Dann trägt sich die Atlas-Last gleich leichter.

Habt ein schönes Wochenende!

Daniel

Uns fehlen dieses
Jahr noch 303.302 Euro.

Bist Du auch Feuer und Flamme für Grundrechte?
Dann unterstütze jetzt unsere Arbeit mit einer Spende.

Source link

Datenschutz & Sicherheit

Weltweites CDN: Offenbar wieder Störung bei Cloudflare

Am Freitagvormittag gibt es offenbar erneut Probleme beim CDN-Anbieter Cloudflare. Verschiedene Webseiten sind nicht verfügbar – sie liefern lediglich einen HTTP-Fehler 500 aus. Die Ursache ist unklar, der Anbieter spricht von „API-Problemen“.

Weiterlesen nach der Anzeige

Cloudflare kaputt — Fehler 500 beim Besuch von cloudflare.com

Stichproben einiger Webseiten wie cloudflare.com, aber auch die beliebten Störungsmelder downdetector.com und allestoerungen.de sind fehlerhaft oder komplett defekt: Mal fehlt die Startseite komplett, in anderen Fällen lediglich die per Cloudflare-CDN ausgelieferten Assets wie Bilder und Stylesheets

API-Probleme?

Cloudflares Statusseite hingegen ist, anders als beim vorherigen Ausfall im November, noch immer verfügbar. Sie spricht von Fehlern bei der Cloudflare API und dem Dashboard. „Customers using the Dashboard / Cloudflare APIs are impacted as requests might fail and/or errors may be displayed.“

Wie Cloudflare nun erläuterte, handelte es sich beim Ausfall um eine Auswirkung der kürzlich bekannt gewordenen kritischen „React2Shell“-Sicherheitslücke im React-Framework. Das Unternehmen habe für die Web Application Firewall, die neben Kundendomains offenbar auch die eigene Webseite schützt, eine Änderung eingespielt, um vor CVE-2025-55182 zu schützen. Was genau schiefgegangen sei, werde man später bekanntgeben, so das Unternehmen. Ein Cyberangriff liege nicht vor.

Vorgestern DNS-Probleme für Telekom-Kunden

Weiterlesen nach der Anzeige

Der Cloudflare-eigene DNS-Resolver 1.1.1.1 war für viele Telekom-Kunden offenbar am Abend des 3. Dezember nicht erreichbar. Wie Betroffene auf Reddit beklagten, führte das zu Internetausfällen – weil auch die Alternative 1.0.0.1 nicht funktionierte. Mittlerweile scheint diese Störung jedoch behoben, die Ursache ist unklar.

RIPE Atlas: Cloudflare-DNS 1.1.1. nicht erreichbar — Am Abend des 3. Dezember erreichte keiner der 150 Messpunkte des Monitoringnetzes „RIPE Atlas“ im Netz der Telekom den DNS-Server 1.1.1.1.

(Bild: Reddit-User lordgurke)

Update

05.12.2025,

10:16

Uhr

Cloudflare hat laut eigenen Angaben Problembehebungen vorgenommen und beobachtet die Störung weiter.

Update

05.12.2025,

11:08

Uhr

Erste Fehleranalyse seitens Cloudflare ergänzt.

(cku)

Source link

Illustrierte Reise nach New York City › PAGE online

UX/UI & Webdesignvor 2 Monaten

Illustrierte Reise nach New York City › PAGE online

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Datenschutz & Sicherheitvor 3 Monaten

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Künstliche Intelligenzvor 2 Monaten

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Top 10: Die beste kabellose Überwachungskamera im Test

Künstliche Intelligenzvor 2 Monaten

Top 10: Die beste kabellose Überwachungskamera im Test

Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online

UX/UI & Webdesignvor 3 Monaten

Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online

UX/UI & Webdesignvor 2 Monaten

SK Rapid Wien erneuert visuelle Identität

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Entwicklung & Codevor 3 Wochen

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Schluss mit FOMO im Social Media Marketing – Welche Trends und Features sind für Social Media Manager*innen wirklich relevant?

Social Mediavor 3 Monaten

Schluss mit FOMO im Social Media Marketing – Welche Trends und Features sind für Social Media Manager*innen wirklich relevant?

Inspohub

Data Poisoning bei LLMs: Feste Zahl Gift-Dokumente reicht für Angriff

Datenschutz & Sicherheit

Data Poisoning bei LLMs: Feste Zahl Gift-Dokumente reicht für Angriff

Das Experiment: Gift für Modelle von 600M bis 13B

Erkenntnis: wenige Dokumente reichen

Sicherheitsparadigma: Annahmen auf dem Prüfstand

Datenschutz & Sicherheit

Raue Storys für glatte Zeiten

Fantasy als Vorbild

Schwarz-weiße Welt

Widersprüche und Allmachtsfantasien

Datenschutz & Sicherheit

Die Woche, in der wir zurück ins Jahr 1986 reisten

Datenschutz & Sicherheit

Weltweites CDN: Offenbar wieder Störung bei Cloudflare

API-Probleme?

Vorgestern DNS-Probleme für Telekom-Kunden

Arbeitsmarktanforderungen 2030: Menschliche Kompetenzen vor KI-Skills

Sonys neue Ober-Alpha und Sonys Firmware-Problem – Fotonews der Woche 49/2025

Im November wieder fast jeder zweite Fernzug unpünktlich

Illustrierte Reise nach New York City › PAGE online

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Beliebt

Inspohub

Data Poisoning bei LLMs: Feste Zahl Gift-Dokumente reicht für Angriff

Das Experiment: Gift für Modelle von 600M bis 13B

Erkenntnis: wenige Dokumente reichen

Sicherheitsparadigma: Annahmen auf dem Prüfstand

Das könnte Ihnen gefallen

Datenschutz & Sicherheit

Raue Storys für glatte Zeiten

Fantasy als Vorbild

Schwarz-weiße Welt

Widersprüche und Allmachtsfantasien

Datenschutz & Sicherheit

Die Woche, in der wir zurück ins Jahr 1986 reisten

Datenschutz & Sicherheit

Weltweites CDN: Offenbar wieder Störung bei Cloudflare

API-Probleme?

Vorgestern DNS-Probleme für Telekom-Kunden

Arbeitsmarktanforderungen 2030: Menschliche Kompetenzen vor KI-Skills

Sonys neue Ober-Alpha und Sonys Firmware-Problem – Fotonews der Woche 49/2025

Im November wieder fast jeder zweite Fernzug unpünktlich

Illustrierte Reise nach New York City › PAGE online

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Beliebt