Künstliche Intelligenz
Diese Werkzeuge sollen Kunstwerke vor KI schützen – doch die lassen sich umgehen
Forschende haben demonstriert, dass es möglich ist, bestehende Schutzmaßnahmen gegen unerwünschtes KI-Training auszuhebeln. Das Verfahren, das die Wissenschaftler Lightshed getauft haben, ist jetzt das jüngste Beispiel für ein Katz-und-Maus-Spiel zwischen Kreativen und Anbietern generativer KI, das zunehmend auch vor Gericht ausgetragen wird. Generative KI-Modelle, die Bilder erstellen können, müssen vorab anhand einer Masse von Bildmaterial angelernt werden. Die für dieses Training verwendeten Datensätze enthalten Kritikern zufolge oft urheberrechtlich geschütztes Material, das ohne jede Genehmigung genutzt wird. Dies beunruhigt Kreative, die befürchten, dass die Modelle ihren Stil lernen, ihre Werke imitieren und sie damit letztlich arbeitslos machen.
Ab 2023 wurden jedoch einige potenzielle Verteidigungsmittel entwickelt, als Teams Programme wie Glaze und Nightshade herausbrachten, die Bildmaterial im Netz schützen, indem sie es für KI-Trainingszwecke „vergifteten“. (Der Beteiligte Shawn Shan wurde im vergangenen Jahr sogar für seine Arbeit daran zum Innovator des Jahres der US-Ausgabe von MIT Technology Review gekürt.). Die Macher hinter dem Lightshed-Projekt behaupten jedoch, diese und ähnliche Tools unterlaufen zu können, sodass die Bildwerke wieder problemlos zu Trainingszwecken verwendet werden können.
Um es klar zu sagen: Die Forscher hinter Lightshed versuchen nicht etwa, Werke von Künstlern zu stehlen. Sie wollen nur nicht, dass die Kreativen sich in falscher Sicherheit wiegen. „Man kann eben nicht sicher sein, dass Unternehmen keine Methoden haben, um dieses KI-Gift zu entfernen. Das wird den Kreativen aber niemand sagen“, meint Hanna Foerster, Doktorandin an der Universität Cambridge und Hauptautorin der Studie. Deshalb sei es wichtig, diese Methoden jetzt zu erkennen.
KI-Modelle funktionieren zum Teil dadurch, dass sie implizit Grenzen zwischen verschiedenen Kategorien von Bildern ziehen. Glaze und Nightshade verändern deshalb eine ausreichende Anzahl von Bildpunkten, um ein Werk über diese Grenze hinweg zu verschieben, ohne die für den Nutzer sichtbare Bildqualität zu beeinträchtigen. KI-Modelle ordnen die eingelesenen Bilder dann falsch ein, was das Training verunmöglicht. Oder zusammengefasst: Die für Menschen fast unmerklichen Veränderungen werden als Störungen bezeichnet und beeinträchtigen die Fähigkeit des KI-Modells, ein Bildwerk zu verstehen.
KI erkennt falsche Interpretationen
Glaze führt praktisch dazu, dass KI-Modelle einen Bildstil falsch interpretieren (zum Beispiel ein fotorealistisches Gemälde als Cartoon). Nightshade hingegen führt dazu, dass das Modell das Motiv grundsätzlich falsch erkennt (etwa eine Katze in einer Zeichnung als Hund). Glaze wird verwendet, um den individuellen Stil eines Künstlers zu schützen, während Nightshade dazu dient, das Training von KI-Modellen generell zu unterbinden, die das Internet nach Kunstwerken durchsuchen. Foerster wollte zeigen, dass das nicht unbedingt erfolgreich ist. Sie arbeitete mit einem Team von Forschern der TU Darmstadt und der University of Texas in San Antonio zusammen, um Lightshed zu entwickeln. Sein Trick: Das Werkzeug lernt, wo genau Tools wie Glaze und Nightshade diese Art von digitalem Gift digital auf Bildwerke aufbringen, damit es diese effektiv entfernen kann. Die Gruppe wird ihre gesamten Ergebnisse im August auf dem Usenix Security Symposium, einer weltweit führenden Konferenz zum Thema Cybersicherheit, vorstellen.
Die Forscher lernten Lightshed an, indem sie ihm Bildwerke vor und nach dem Durchlauf von Nightshade, Glaze und anderen Sicherheitstools fütterten. Foerster beschreibt den Prozess als ein Training, „nur das Gift auf vergifteten Bildern“ zu rekonstruieren. Die Identifizierung jener Grenze, ab der die Zusatzmerkmale eine KI tatsächlich verwirren, mache es einfacher, nur diese „abzuwaschen“.
LightShed ist dabei laut der Forscher extrem effektiv. Während andere Forscher einzelne einfache Wege gefunden haben, die Methodik der Sicherheitstools zu unterlaufen, ist LightShed anpassungsfähiger. Es kann sogar das, was es von einem Anti-KI-Tool – beispielsweise Nightshade – gelernt hat, auf andere Schutzwerkzeuge wie Mist oder MetaCloak anwenden, ohne diese zuvor kennengelernt zu haben.
Zwar hat es einige Schwierigkeiten mit geringen Dosen des digitalen Gifts, das man auch Poisoning nennt. Doch diese beeinträchtigen die Fähigkeit der KI-Modelle, die zugrunde liegenden Bildwerke zu verstehen, in der Regel nicht, sodass es zu einer Win-Win-Situation für die KI wird – oder einer Lose-Lose-Situation für die Künstler, die diese Schutztools verwenden.
Lernen für neue Sicherheitstools
Rund 7,5 Millionen Menschen, darunter viele Kreative mit kleiner und mittlerer Fangemeinde und geringen Ressourcen, haben Glaze bereits heruntergeladen, um ihre Kunst zu schützen. Diejenigen, die Tools wie Glaze verwenden, sehen darin eine wichtige technische Verteidigungslinie, insbesondere solange die Regulierung im Bereich KI-Training und Urheberrecht noch ungeklärt ist. Die Autoren von Lightshed betrachten ihre Arbeit als Warnung, dass Tools wie Glaze keine dauerhaften Lösungen sind. „Es könnten noch einige Versuche nötig sein, um bessere Ideen für diesen Schutz zu entwickeln“, sagt Foerster.
Die Entwickler von Glaze und Nightshade scheinen dieser Ansicht zuzustimmen: Auf der Website von Nightshade wurde bereits vor Beginn der Arbeit an Lightshed darauf hingewiesen, dass das Tool nicht grundsätzlich zukunftssicher sei. Shan, der die Forschung zu beiden Tools geleitet hat, ist dennoch nach wie vor davon überzeugt, dass Abwehrmaßnahmen wie die seinen sinnvoll sind, auch wenn es Möglichkeiten gibt, sie zu umgehen.
„Es ist eine Abschreckung.“ Also eine Möglichkeit, KI-Unternehmen zu warnen, die Bedenken der Kreativen ernstzunehmen. Das Ziel sei es, so viele Hindernisse wie möglich aufzubauen, damit die Firmen dazu genötigt sind, direkt mit ihnen zu arbeiten. Shan glaubt, dass „die meisten Kreativen verstehen, dass dies nur eine vorübergehende Lösung ist“. Es sei dennoch sinnvoll, erste Hürden gegen die unerwünschte Nutzung ihrer Werke zu errichten.
Foerster hofft nun, dass die Erkenntnisse aus der Lightshed-Entwicklung dabei helfen, neue Abwehrmaßnahmen für Kreative zu entwickeln. Dazu gehören clevere Wasserzeichen, die auch nach der Bearbeitung durch ein KI-Modell im Output erhalten bleiben. Die Forscherin glaubt zwar nicht, dass dies ein Werk für immer vor KI schützen wird. Es gehe aber darum, das Gleichgewicht wieder in Richtung der Kreativen zu verschieben.
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(jle)