Entwicklung & Code
LLM-Betreiber sammeln umfangreich persönlich Daten und geben diese weiter
Laut einer Studie der Datenschutzfirma Incogni geht der französische KI-Anbieter Mistral mit Le Chat am sorgfältigsten mit den privaten Daten von Anwenderinnen und Anwendern um (9,8 Punkte). Es folgen ChatGPT von OpenAI (9,9 Punkte) und Grok von xAI (11,2 Punkte). Am schlechtesten schneidet Meta.ai mit 15,7 Punkten ab, wobei mehr Punkte eine stärkere Verletzung der Privatsphäre bedeuten.
Le Chat von Mistral führt im Privatsphäre-Ranking von ChatGPT und Grok. An letzter Stelle steht Meta.ai.
(Bild: incogni)
Die Herausgeber der Studie kritisieren insgesamt den mangelnden Schutz der Privatsphäre bei KI-Anwendungen: „Das Potenzial für das unautorisierte Teilen von Daten, deren Missbrauch und das Bloßstellen persönlicher Daten hat schneller zugenommen, als dass die Wächter der Privatsphäre oder Untersuchungen mithalten könnten.“ Einfache Anwender können Praktiken der KI-Firmen und die damit einhergehenden Risiken nicht einschätzen: Sie würden die Trainingsdaten benötigen und Informationen über „laufende Interaktionen“, um festzustellen, ob ihre persönlichen Daten bloßgestellt wurden.
Modell-Training immer mit persönlichen Daten
Ein guter Teil der Incogni-Analyse befasst sich mit den Trainingsdaten und stellt lapidar fest, dass „alle Plattformen direkt oder indirekt angeben, Feedback der Anwender und öffentlich zugängliche private Daten für das Training ihrer Modelle zu verwenden.“
Ob die Betreiber auch User-Eingaben zum Training nutzen, ist oft nicht leicht festzustellen. Laut Bericht sagt nur Anthropic für seine Claude-Modelle, prinzipiell auf Daten über User-Eingaben zu verzichten. Eine Opt-out-Möglichkeit bieten ChatGPT, Copilot, Mistral und Grok. Dies gilt aber nur für die Prompts, ein Schützen der eigenen persönlichen Daten, die beispielsweise aus Social-Media-Quellen stammen, ist bei keinem der untersuchten KI-Anbieter möglich. Im Gegenteil: Incogni verweist auf Berichte, dass das Modell-Training Schranken, wie solche in robots.txt, schlichtweg ignoriert.
Als Quellen für persönliche Daten dient den KI-Betreibern jedoch nicht nur das Web, sondern auch:
- „Security Partners“ (ChatGPT, Gemini und DeepSeek)
- Marketing-Partner (Gemini und Meta)
- Finanzinstitute (Copilot)
- Nicht näher spezifizierte Datenbanken (Claude)
- Nicht näher spezifizierte Datenbroker (Microsoft)
Nur Inflection AI gibt für Pi an, persönliche Daten nur aus „öffentlich zugänglichen Quellen“ einzubinden.
Datenschutzerklärungen oft verwirrend
Wichtig für die Betroffenen – also fast jeden, denn über kaum jemanden finden sich keine persönlichen Daten irgendwo im Web – ist, wie transparent die KI-Betreiber sagen, was sie machen. Hier lobt der Bericht Anthropic, OpenAI, Mistral und xAI, die diese Transparenzinformationen leicht auffindbar machen und lesbar darbieten. Das Gegenteil beklagt die Studie bei Google, Meta und Microsoft, bei denen sich nicht einmal eine einheitliche Datenschutzerklärung für die KI-Produkte findet.
ChatGPT und MS Copilot geben Prompt-Daten auch an Werbepartner oder „Dritte“ weiter.
(Bild: incogni)
Auch welche Daten die KI-Firmen weitergeben, hat Incogni aus den jeweiligen Privacy Policies herausgelesen. Microsoft teilt Nutzer-Prompts beispielsweise mit „Dritten, die Online-Werbung für Microsoft ausführen oder Microsoft-Technologie dafür verwenden.“ Fast alle teilen die Prompts mit „Service-Providern“ und viele explizit mit „Strafverfolgungsbehörden“ (DeepSeek, Gemini, Grok und Meta).
App: Telefonnummern und Standortdaten
Bei der Nutzung der KI-Apps ergeben sich noch persönlichere Sammelmöglichkeiten für die datenhungrigen Betreiber:
- Präzise Standortdaten und Adressen (Gemini und Meta)
- Telefonnummern (DeepSeek, Gemini und Pi)
- Fotos (Grok, auch mit Dritten geteilt)
- App-Interaktionen (Claude, Grok ebenfalls mit Dritten geteilt)
Microsoft behauptet laut Bericht, bei der Android-App keine Daten zu sammeln, bei iOS jedoch schon. Die Analysten haben sich dafür entschieden, die Firma anhand der iOS-App zu bewerten.
(who)