Datenschutz & Sicherheit

Datenschutz und KI: Schluss mit der Zögerlichkeit!



Hinter weitverbreiteten KI-Anwendungen stehen generative Sprach- und Bildmodelle, die mit riesigen Datenmengen gefüttert werden, auch mit personenbezogenen Daten. Das Problem: Teile der Trainingsdaten, darunter personenbezogene, lassen sich aus vielen der Modelle extrahieren. Unter welchen Umständen sich ein Modell zu viel „merkt“ und wie sich das verhindern lässt, ist bislang wenig erforscht. Zugleich werden Extrahierungsmethoden immer besser. Anbieter*innen können bislang nicht verhindern, dass Modelle personenbezogene Trainingsdaten ausgeben. Auch Chatbots können personenbezogene Daten von anderen verraten.

Außerdem „halluzinieren“ die Modelle. Sie generieren also falsche Informationen, die nicht in den Trainingsdaten enthalten sind. Weil KI-Unternehmen diese nicht offenlegen, können Forscher*innen nicht zuverlässig messen, wann ein Modell Informationen erfindet und wann es unrichtige Trainingsdaten wiedergibt. Zuverlässige Methoden zur Vermeidung von Halluzinationen gibt es bisher nicht.

Werden personenbezogene Daten aus einem Modell extrahiert, kann für Betroffene gerade die Kombination aus „Erinnerung“ und „Halluzination“ gefährlich sein. Ein mit personenbezogenen Daten trainiertes Modell generiert unter Umständen Falschinformationen über sie. Gerade bei öffentlichen Modellen besteht das Risiko, dass Nutzer*innen diese Informationen unkritisch weiterverbreiten.

Meta fragt lieber nicht um Erlaubnis

Mit Llama (Large Language Model Meta AI) ist auch Meta an dem KI-Rennen beteiligt. Meta nutzt Llama für eigene KI-Funktionen wie Transkriptions- oder Suchfeatures auf Instagram, Facebook und WhatsApp sowie für Chatbots oder in KI-Brillen, die das Unternehmen anbietet. Außerdem stellt Meta seine Modelle anderen zur Nutzung bereit. So können etwa Forscher*innen die Modelle testen oder Unternehmen auf Basis von Llama KI-Dienstleistungen oder -Produkte anbieten.

Im Juni 2024 informierte Meta die Nutzer*innen von Instagram und Facebook über eine Aktualisierung seiner Datenschutzrichtlinie. Diese Aktualisierung ließ Metas Vorhaben erkennen, seine KI-Modelle mit Nutzer*innendaten zu trainieren. Die Nutzer*innen konnten dem zwar widersprechen, die Widerspruchsmöglichkeit war jedoch schwer auffindbar.

Nachdem Datenschutzorganisationen wie noyb Meta scharf kritisierten, veröffentlichte der Konzern noch gleichen Monat weitere Informationen zum geplanten Training. Demnach beabsichtigte der Konzern, nur noch öffentliche Daten für das Training zu verwenden. Kurz darauf verkündete Meta, die irische Datenschutzbehörde verzögere das Training in der EU. Im April 2025 verkündete der Konzern dann den baldigen Trainingsstart.

Was trainiert Meta eigentlich mit welchen Daten?

Inzwischen hat der Konzern damit begonnen, seine KI mit den Daten europäischer Nutzer*innen zu trainieren. Unklar ist weiterhin, welche Daten dafür genau genutzt werden. Meta stellt im Vergleich zu anderen KI-Unternehmen zwar mehr Informationen über das Training mit Social-Media-Daten bereit. Diese Informationen haben sich aber immer wieder verändert und lassen Fragen offen.

Das betrifft insbesondere den Umgang mit sensiblen Daten. Bei Llama handelt es sich um ein multimodales Sprachmodell, das neben Texten auch Bilder, Videos und Tondateien verarbeitet. Der für das Training genutzte Social-Media-Content umfasst damit etwa auch Fotos der Nutzer*innen. Metas Datenschutzinformationen verweisen auf öffentliche Inhalte wie Beiträge, Kommentare und Audiospuren.

Inzwischen heißt es in den Datenschutzinformationen, dass auch Daten von Drittpartner*innen und KI-Interaktionen für die KI-Entwicklung genutzt würden. Als Beispiele für KI-Interaktionen nennt Meta Nachrichten, die Nutzer*innen oder andere Personen von der KI erhalten, mit ihr teilen oder an diese senden.

Diese Angaben schließen private Sprachnachrichten und Transkriptionen nicht aus. Metas Umschreibung passt auch auf Chatverläufe mit Chatbots. Solche Chatverläufe können besonders sensible Daten enthalten, wenn etwa Chatbots für intime Gespräche zu mentaler Gesundheit oder parasoziale romantische Beziehungen genutzt werden.

Verbraucherzentrale scheitert vor Gericht

Um den Beginn des Trainings zu verhindern, hat die Verbraucherzentrale Nordrhein-Westfalen im Mai 2025 einen Eilantrag beim Oberlandesgericht (OLG) Köln gestellt. Sie argumentierte insbesondere, dass Meta das Training nicht auf eine wirksame Rechtsgrundlage stützen könne, ist mit dem Eilantrag jedoch gescheitert. Das Urteil und Einblicke in die mündliche Verhandlung in Köln offenbaren erhebliche Mängel.

Meta hatte sich entschieden, keine Einwilligungen einzuholen, sondern beruft sich auf ein berechtigtes Interesse an der Nutzung der Daten für KI-Training. Die Verbraucherzentrale hält das für unzureichend, doch das Gericht folgt Metas Argumentation in seinem Urteil. Nach der Datenschutzgrundverordnung (DSGVO) können berechtigte Interessen die Verarbeitung personenbezogener Daten rechtfertigen, solange die Interessen Betroffener nicht schwerer wiegen. Dabei müssen diese der Datenverarbeitung aber widersprechen können.

Die Verbraucherzentrale NRW hat darauf hingewiesen, dass nicht alle Betroffenen widersprechen können. Facebook- und Instagram-Beiträge enthalten zuhauf personenbezogene Daten von Nicht-Nutzer*innen. Die Widerspruchsfunktion steht aber nur Nutzer*innen offen. Das Gericht ignoriert diesen Einwand. Zudem behauptet es ohne Begründung und trotz gegenteiliger Hinweise, Meta erfülle die Anforderungen der DSGVO an den Schutz von Minderjährigen.

Das Gericht halluziniert niedrige Risiken herbei

Berechtigte Interessen geben außerdem keine Rechtsgrundlage für Verarbeitungen her, die für Betroffene zu riskant sind. Das OLG Köln behauptet, die Risiken für Nutzer*innen seien gering. Dabei legt das Urteil nahe, dass die Richter*innen nicht verstanden haben, was Meta trainiert. Das Wort „Llama“ taucht im gesamten Urteil nicht auf. Auch beschreibt das Gericht keine Anwendungsszenarien.

Auf diese kommt es aber entscheidend an. Ein Transkriptionsfeature gibt wahrscheinlich keine extrahierbaren Daten aus. Aus Llama selbst werden jedoch sicher Daten extrahiert. Forscher*innen wenden Extrahierungsmethoden auf alle bekannten Modelle an. Je nachdem, welche Arten von Daten wie gut extrahierbar sind, könnte es dabei versehentlich auch zu Datenlecks kommen.

Gerichte prüfen in Eilverfahren die Rechtslage nur „kursorisch“, also nicht im Detail. Das OLG Köln reiht dabei aber mit großem Selbstbewusstsein Behauptungen aneinander, die aus Sicht der Datenschutzforschung haltlos sind. Selbst wenn Metas Training transparent genug wäre, fehlt es an tragfähigen Forschungsergebnissen für die Einschätzung des Gerichts.

Ein grober Fehler des Urteils betrifft besondere Kategorien personenbezogener Daten. Das sind sensible Daten, die die DSGVO besonders schützt, zum Beispiel Daten über Race, religiöse Anschauungen oder sexuelle Orientierungen. Social-Media-Daten enthalten viele solcher Daten. Besondere Kategorien personenbezogener Daten dürfen nicht auf Basis berechtigter Interessen verarbeitet werden, sondern nur unter strengeren Voraussetzungen, in vielen Fällen nur aufgrund von Einwilligungen. Das OLG Köln stört sich daran nicht.

Stattdessen behauptet das Gericht, dass die Anwendung der besonderen Schutzanforderungen nicht geboten sei. Das Urteil stellt hier wieder auf ein nicht weiter begründetes geringes Risiko ab. Dabei kommt es gerade im Bereich des maschinellen Lernens leicht zu unbemerkten Modellbias, also zu systematischen Fehleinschätzungen, die zum Beispiel zu rassistischer Diskriminierung führen. Besondere Kategorien personenbezogener Daten bergen dabei potenziell besonders hohe Risiken.

Bedenkliche Informationslage

Bedenklich ist zudem die Informationslage, auf die sich das Gericht stützt. In diesem Fall sind das vor allem die Angaben von Meta selbst. Das ist in einem Eilverfahren an sich nicht zu beanstanden – weil es schnell gehen muss, gelten geringere Beweisanforderungen. Gerichte arbeiten daher mit eidesstattlichen Versicherungen, formellen Erklärungen der Parteien. Um Falschangaben vorzubeugen, sind falsche eidesstattliche Versicherungen nach dem Strafgesetzbuch strafbar.

Das Urteil stellt entscheidend auf eidesstattliche Versicherungen von Metas Produktmanager für generative KI ab. Zwei in der mündlichen Verhandlung in Köln anwesende Personen berichten allerdings, dass die Versicherungen nie formgerecht abgegeben worden sind. (Die Autorin hat von zwei in der Verhandlung in Köln anwesenden Personen Informationen zum Ablauf der mündlichen Verhandlung und dabei getroffenen Aussagen des Gerichts erhalten. Eine der Personen ist seitens der klagenden Verbraucherzentrale am Verfahren beteiligt, die andere Person hat den Prozess beobachtet, ohne daran beteiligt zu sein.)

Wir sind ein spendenfinanziertes Medium

Unterstütze auch Du unsere Arbeit mit einer Spende.

Eidesstattliche Versicherungen müssen mündlich oder im Original mit händischer Unterschrift abgegeben werden. Selbst wenn die Erklärungen von Meta formgerecht wären, hätte sich das OLG Köln besser nicht darauf verlassen. Es gibt zwar keine Anzeichen dafür, dass diese Falschangaben enthalten. Durch das deutsche Strafgesetzbuch wäre deren Richtigkeit aber nicht abgesichert: Falls der in Kalifornien ansässige Manager nicht einreisen will, hätten Falschangaben keine strafrechtlichen Folgen für ihn.

Zudem legt das Urteil nahe, dass Metas Erklärungen inhaltlich dünn sind. Sie bestätigen etwa das Funktionieren der Widerspruchsfunktion. Eine Pressemitteilung der für Meta zuständigen irischen Datenschutzbehörde (Data Protection Commission, DPC) zeigt jedoch, dass die Behörde Meta zur Nachbesserung der Widerspruchsfunktion aufgefordert hat. Es bleibt somit zweifelhaft, ob Widersprüche in der Vergangenheit einfach genug möglich waren und funktioniert haben.

Datenschutzbehörden lassen Meta erst mal machen

Auch die Pressemitteilung der irischen Datenschutzbehörde und der Umgang des Gerichts damit verdienen besondere Aufmerksamkeit. Die für ihre Nachsicht gegenüber Datenkonzernen bekannte Behörde hat die Pressemitteilung am Vorabend der mündlichen Verhandlung in Köln veröffentlicht. Sollte die Behörde sich etwa mit Meta abgestimmt und so das Verfahren beeinflusst haben?

Das OLG Köln hat nach Berichten Anwesender schon in der mündlichen Verhandlung signalisiert, der Rechtsauffassung der irischen Behörde wahrscheinlich folgen zu müssen, warum auch immer das Gericht sich an deren Einschätzung auch nur lose gebunden fühlt. Das ist nicht nur im Hinblick auf die Gewaltenteilung bedenklich. Die Pressemitteilung enthält auch keinerlei Rechtsauffassung zur Frage nach der Datenschutzkonformität, der das Gericht folgen könnte. Sie enthält schlicht gar keine rechtliche Einschätzung. Es heißt lediglich, Meta habe in Absprache mit der Behörde Maßnahmen zur Verbesserung des Datenschutzes ergriffen und verfolge die Umsetzung weiter.

Aus der Pressemitteilung wird ersichtlich, dass die irische Behörde Meta nur beraten hat. Das war dem OLG Köln auch von Metas Hauptaufsichtsbehörde in Deutschland, dem Hamburger Datenschutzbeauftragten, bekannt. Im Urteil heißt es ausdrücklich, die Behörde habe Meta das Training „bislang“ nicht untersagt und beobachte derzeit die Folgen der Trainings.

Der Hamburger Datenschutzbeauftragte hatte im Juli 2024 die Datenschutzauswirkungen des Trainings generativer Sprachmodelle noch unterschätzt. Nach Berichten aus der mündlichen Verhandlung hat er angesichts seiner Einblicke in Metas Training diese Auffassung zurückgenommen, erhebliche Datenschutzbedenken geäußert und zunächst sogar ein eigenes Verfahren gegen Meta angekündigt. Außerdem berichtete er, dass die irische Behörde plane, ein Verletzungsverfahren im Oktober einzuleiten. Das spricht dafür, dass europäische Datenschutzbehörden von Verstößen wissen, Meta aber zunächst gewähren lassen.

Wider den KI-Hype

Die Bedeutung des Kölner Verfahrens weist über Meta und über Deutschland hinaus. Das Urteil und die Vorgänge im Prozess legen nahe, dass europäische Gerichte und Aufsichtsbehörden bei KI dem Ansatz „Abwarten und Teetrinken“ folgen. Es lässt sich nur spekulieren, welche Rollen hier der Druck des KI-Hypes, Innovationspläne der EU oder auch blanke Naivität spielen.

Dabei macht die DSGVO nicht nur klare Vorgaben an KI-Unternehmen, sondern bietet diesen auch ausreichende Möglichkeiten, sich an die Vorgaben zu halten. Demnach müssen KI-Unternehmen die Datenschutzkonformität ihrer Vorhaben begründet nachweisen. Sie dürfen ihre Modelle trainieren und testen – allerdings nur zu reinen Forschungszwecken und ohne die KI in der Praxis einzusetzen – und damit blind auf die Menschheit loszulassen. Gerichte und Aufsichtsbehörden sollten diese Vorgaben durchsetzen, anstatt sich dem KI-Hype zu beugen.

Prof. Dr. Paulina Jo Pesch ist Juniorprofessorin für Bürgerliches Recht sowie das Recht der Digitalisierung, des Datenschutzes und der Künstlichen Intelligenz am Institut für Recht und Technik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Sie koordiniert das vom Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR) geförderte interdisziplinäre Forschungsprojekt SMARD-GOV, das Datenschutzaspekte großer Sprachmodelle erforscht.

Eine englischsprachige Langfassung der Analyse des Verfahrens sowie eines weiteren Verfahrens beim OLG Schleswig-Holstein ist im CR-online blog erschienen.



Source link

Beliebt

Die mobile Version verlassen