Apps & Mobile Entwicklung

Wie AI das Internet „klaut“ und womöglich damit durchkommt


Dass nun auch Hollywood-Studios wie Disney und Universal gegen KI-Dienste vorgehen, verstärkt nochmals den Druck in den Copyright-Klagen. Die KI-Anbieter – von OpenAI über Meta bis Midjourney – rechtfertigen das Vorgehen mit den Fair-Use-Regeln. Auf was es bei den Verfahren ankommt, analysiert der Analyst Timothy B. Lee.

Wie viel Harry Potter kann AI zitieren?

Hintergrund ist eine Studie von Rechtswissenschaftlern der Universitäten von Stanford, Cornell und der West Virginia University vom Mai 2025, die Lee in seinem Newsletter Understanding AI aufgreift. Die Forschenden haben untersucht, inwieweit die Modelle auch urheberrechtlich geschützte Inhalte wiedergeben können. Stimmt der Output (nahezu) exakt mit den Trainingsdaten überein, spricht man von „Memorization“. Während die KI-Firmen wie OpenAI solche Inhalte nur als Ausnahmefälle beschreiben, sind sie zentraler Bestandteil von Copyright-Klagen wie der New York Times.

Bei den Verfahren geht es also auch um die Frage, wie häufig sich „Memorization“-Inhalte produzieren lassen. Um das zu analysieren, nutzen die Studien-Autoren den books3-Datensatz, der zum Teil urheberrechtlich geschützte Werke enthält. Und das Ergebnis war erstaunlich: je nach Modell und Buch unterscheidet sich zwar, wie häufig das Phänomen auftritt. In manchen Fällen war es jedoch sehr häufig. Das gilt etwa für den ersten Harry-Potter-Band Der Stein der Weisen und Metas Modell Llama 3.1 70B.

Studie: Wie oft Harry-Potter-Inhalte sich in Llama-Modellen abrufen lassen (Bild: Arxiv.org)

Wie Timothy B. Lee zusammenfasst, hat Llama 3.1 70B insgesamt 42 Prozent des Buches so gut „abgespeichert“, dass sich 50-Token-Auszüge in mindestens der Hälfte der Fälle reproduzieren lassen. Token sind die Wortbestandteile, die Large Language Models (LLM) nutzen, um Texte zu generieren. Der Befund besagt also: Man kann das Modell dazu bringen, regelmäßig Originalzitate aus dem Buch auszugeben.

Überrascht waren die Autoren vom Ausmaß. Man habe eher mit einer Größenordnung von ein bis zwei Prozent gerechnet, sagte der Studien-Mitautor Mark Lemey zu Lee. Es sind Werte, die sich auf die laufenden Copyright-Verfahren auswirken können.

Daten als zentraler Baustein für generative KI-Entwicklung

Die Klagen richten sich gegen praktisch alle prominenten KI-Firmen – selbst wenn die Studienergebnisse erst einmal Meta betreffen, können diese in weiteren Verfahren eine Rolle spielen. Und der Datenhunger ist ohnehin bei allen gleich.

Der Grund ist naheliegend: Um aktuelle Modelle zu entwickeln, benötigt man massenhaft Daten. Diese sind neben der Computing-Power und der Modellgröße einer der Bestandteile der Scaling-Formel, die maßgeblich für den Aufstieg der aktuellen KI-Modelle steht. Wer mehr und bessere Daten hat, kann leistungsfähigere Modelle entwickeln.

Wie groß so ein Trainingsdatensatz in der Praxis ist, schilderte OpenAI in einem GPT-3-Paper aus dem Jahr 2020 mit. Allein der CommonCrawl-Datensatz, der für rund 80 Prozent der Token im Modell-Training stand, umfasste 45 TB an komprimierter Klartext vor der Filterung und 570 GB nach der Filterung. Und das ist bereits fünf Jahre her. Die Branche ist mittlerweile deutlich verschlossener, die Menge dürfte nochmals deutlich gestiegen sein.

AI-Webcrawler bremsen das Netz aus

Um an die Daten zu kommen, gehen die KI-Firmen weite Wege. Die AI-Crawler grasen praktisch das komplette Web ab und sammeln damit nicht nur enorme Datenmengen, sondern bremsen das komplette Netz aus. Wikipedia verzeichnete deswegen im Jahr 2024 ein Traffic-Plus von über 50 Prozent, aktuell berichtet 404Media, dass die AI-Bots die Server von Museen, offenen Bibliotheken, Archiven und Galerien in die Knie gehen lassen. Auch über die Web-Crawler hinaus ist die Branche wenig zimperlich. Beispiele:

  • Meta soll einen LibGen-Datensatz verwendet haben, berichtete The Atlantic. Dieser besteht also aus der illegalen Schattenbibliothek für geschützte Bücher und Artikel.
  • Wie die New York Times (die selbst OpenAI verklagt) im letzten Jahr berichtete, transkribierte OpenAI massenhaft YouTube-Videos, um Material für das KI-Training zu erhalten.

Um Daten zu erhalten, haben Tech-Unternehmen wie OpenAI, Google und Meta Abkürzungen genommen, Unternehmensrichtlinien ignoriert und diskutiert, das Gesetz zu beugen“, analysiert die New York Times in einem Bericht von 2024. Kurzum: Man hat wenig Skrupel und bewegte sich den Medienberichten zufolge völlig bewusst in Grauzonen – mindestens.

Wie Urheberrechtsverstöße möglich sind

Ob und wie genau das KI-Training mit geschützten Werken gegen das Urheberrecht verstoßen kann, ist aber noch strittig. Timothy B. Lee unterscheidet in dem aktuellen Newsletter zwischen drei Theorien:

  1. Generell stellt das KI-Training mit geschützten Werken ein Verstoß gegen das Urheberrecht dar, weil in dem Prozess eine digitale Kopie des Werks verwendet wird.
  2. Durch den Trainingsprozess werden Informationen aus den Trainingsdaten in das Modell übertragen, damit ist das Modell ein abgeleitetes Werk im Sinne des Urheberrechts.
  3. Verstöße finden dann statt, wenn Modelle (Teile) eines geschützten Werkes wiedergeben.

Viele Diskussionen drehen sich laut Lee bislang um den ersten Ansatz. Sollten Gerichte das KI-Training mit geschützten Inhalten als Urheberrechtsverstoß werten, wären die Konsequenzen am weitreichendsten. In diesem Fall wären praktisch alle aktuellen Modelle illegal.

Die KI-Firmen streiten die Vorwürfe stets ab. So sei etwa die Klage der New York Times haltlos, erklärte zuletzt erst wieder OpenAI. Der Standpunkt: Das Vorgehen der KI-Firmen ist durch die Fair-Use-Regeln gedeckt.

Man sammelt also praktisch das komplette Internet ein, trainiert damit Modelle, die komplette Branchen und Berufszweige umkrempeln können – und all das sei völlig legitim. Wie soll das gehen?

Wann greifen die Fair-Use-Regeln?

Die Antwort ist Fair Use. Ob ein Produkt oder eine Technologie unter die Fair-Use-Regeln fällt, lässt sich anhand von vier Faktoren bewerten. Wie Lee oder der amerikanische Rechtsprofessor James Grimmelmann bereits 2024 in einem Beitrag für Ars Technica beschrieben haben, sind vor allem zwei relevant: Einer ist zunächst die Art der Nutzung. Wahrscheinlicher ist der Fair-Use-Charakter, wenn die Nutzung geschützter Werke „transformativ“ ist – es muss sich also um etwas Neues handeln, das fundamental vom ursprünglichen Zweck und Charakter des Originals abweicht. Ein weiterer Faktor ist, wie das neue Produkt den Markt für das ursprüngliche Produkt beeinflusst.

Lee und Grimmelmann schildern diese Faktoren anhand von zwei Beispielen:

MP3.com: Digitale Kopien sind nicht mehr als ein digitaler Verkaufskanal

MP3.com startete im Jahr 2000 einen Dienst, mit dem Nutzer eine digitale Kopie von bereits gekaufter Musik abrufen konnten. Um Zugang zu erhalten, mussten sie zunächst die Original-CD einlegen, damit eine Urheberrechtsprüfung erfolgen konnte. War diese positiv, wurden die Songs in die Online-Bibliothek der Nutzer auf MP3.com hinzugefügt.

Die Betreiber rechtfertigten das Vorgehen mit Fair-Use-Regeln, immerhin würden Nutzer ausschließlich auf Musik zugreifen können, die sie ohnehin besitzen. Richter gingen bei dieser Argumentation nicht mit. Das Geschäftsmodell sei nicht transformativ, sondern im Prinzip nur ein neuer Verkaufskanal – an den Songs ändert sich nicht, das Angebot verfolge im Prinzip auch keinen anderen Zweck als der CD-Verkauf. Und hinzu kommt in diesem Fall: Nur weil das Kopieren geschützter Musik für den privaten Gebraucht legitim ist, gelte das dann nicht automatisch in dem Ausmaß, in dem es von MP3.com betrieben wurde.

Google Books: Eine Suchmaschine ist etwas anderes als ein Buch

Umfang beim Verarbeiten geschützter Werke ist damit aber kein Totschlagargument, wie der Fall Google Books zeigt. Die Bücher-Suchmaschine bietet eine Übersicht zahlloses Bücher. Beim Design war Google jedoch vorsichtig. Man zeigt etwa keine vollständigen Bücher an, sondern nur Ausschnitte von bestimmten Seiten, die je nach Suchanfrage variieren. Bei Wörterbüchern, Lexika oder Kochbüchern sind die Restriktionen noch schärfer, weil in solchen Werken schon einzelne Seiten ausreichen können, damit Nutzer sich das komplette Buch nicht kaufen müssen.

Festhalten lässt sich also laut Lee und Grimmelmann: Die Suche enthält urheberrechtlich geschützte Bücher, doch der Nutzungszweck einer Suchmaschine unterscheidet sich stark von der Funktion eines einzelnen Buchs – die Suche ist damit als transformativ im Sinne der Fair-Use-Regeln. Zudem stellt Google sicher, dass die Rechte der Autoren so gut es geht geschützt werden. Damit konnte Google sich dann 2015 in einem Gerichtsverfahren durchsetzen.

ChatGPT und Co.: Mehr als das Trainingsmaterial?

KI-Firmen wie OpenAI argumentieren nun ähnlich wie Google bei der Books-Suchmaschine. Bei KI-Training würden nicht geschützte Inhalte kopiert, sondern vielmehr Muster in den Werken erfasst, die zu den aktuellen Modellen führen. ChatGPT biete daher etwa wesentlich mehr, als das Wissen der New York Times abzurufen. Die Chatbots helfen den Nutzern, produktiver oder kreativer zu sein, sie haben einen Nutzungszweck, der weit über den einer Zeitung hinausgeht.

Hinzu kommen noch die Lizenzabkommen, die OpenAI mit zahlreichen Medien abgeschlossen hat. Ebenso arbeite man daran, Fehler wie das Memorization-Phänomen abzustellen. Man zeigt sich also bemüht. Und selbst bei der enormen Datenmenge, die KI-Firmen für das Training erfasst haben, könnte das Vorgehen also legitim sein.

They can point to the value that their AI systems provide to users, to the creative ways that generative AI builds on and remixes existing works, and to their ongoing efforts to reduce memorization.

Timothy B. Lee und James Grimmelmann

Umso heikler sind daher die Erkenntnisse aus der aktuellen Studie, erklärt Lee in dem aktuellen Understanding-AI-Newsletter. Google konnte technisch sicherstellen, dass nie mehr als kurze Ausschnitte aus Büchern angezeigt werden. 42 Prozent der Inhalte aus dem ersten Harry-Potter-Band sind aber mehr als einige Zeilen.

So lässt sich nur schwer die Verteidigung aufrechterhalten, in den Modellen stecken nur Wortmuster, erklärt der Studien-Mitautor Mark Lemley gegenüber Lee. Richter könnten nun zu der Erkenntnis kommen, dass der Trainingsprozess zwar unter Fair-Use-Regeln falle, die Modelle aber nicht, wenn sie geschützte Werke erhalten.

US-Gerichte verhandeln Dutzende AI-Copyright-Klagen

Relevant werden dürfte das im Verfahren zwischen dem New-York-Times-Verlag und OpenAI. Die Zeitung argumentiert in der Klageschrift, dass ChatGPT auch Originalartikel der Zeitung ausgibt. OpenAI bezeichnet den Vorwurf als haltlos, spricht von Tricks und beschreibt Memorization als seltenen Fehler. Inwieweit das zutrifft, will das Gericht nun selbst prüfen. So wurde OpenAI vor kurzem verpflichtet, sämtlichen Output der Chatbots dauerhaft zu speichern. Man will also sicherstellen, dass keine Beweise verloren gehen.

Das Verfahren ist aber nur eine der Dutzenden Copyright-Klagen, die Gerichte in den USA derzeit verhandeln. Sowohl Zeitungen und Zeitschriften als auch zahlreiche Autoren, Schauspieler, Bildagenturen und Filmkonzerne ziehen gegen die KI-Firmen. Zu den prominentesten Verfahren zählen:

Übersicht der Klagen
  • Die New York Times sowie wie zahlreiche Autoren und Nachrichtenseiten verklagen OpenAI und Microsoft, eingereicht wurde die Klage im Juli 2023. Der Vorwurf ist, dass OpenAIs Modelle mit geschütztem Material trainiert worden sind. Ein Beweis, den die New York Times – wie erwähnt – vorlegt hat: ChatGPT kann vollständige Originalartikel auswerfen.
  • Autoren verklagen Meta, weil der Konzern massenhaft geschützte Inhalte für das KI-Training auswertet.
  • Ebenfalls 2023 verklagte die Bilder-Datenbank Getty Images den Bildgenerator-Betreiber Stability AI, weil dieser zwölf Millionen Bilder aus der Getty-Datenbank samt Metadaten für das Modell-Training verwendet haben soll.
  • Letzte Woche reichten die Hollywood-Konzerne Disney und Universal eine Klage gegen den KI-Bildgenerator Midjourney ein, weil sich mit diesem Inhalte erstellen lassen, die die Rechte von Marken wie Star Wars, Simpsons oder Cars verletzen.
  • Schon 2020 hatte Thomson Reuters das Start-up Ross Intelligence verklagt, weil es Inhalte aus einer geschützten Juristen-Rechercheplattform nutzte. Thomson Reuters hatte den Fall bereits gewonnen. Weil Ross bereits 2021 aufgrund der Klage den Betrieb einstellte, hat das Urteil zunächst keine praktischen Konsequenzen.

Eine Übersicht der laufenden und abgeschlossenen Verfahren bietet Wired in einem Tracker.

Wie stehen die Chancen?

Wie die Verfahren ausgehen, lässt sich nur schwer abschätzen. Der Sieg von Thomson Reuter ist ein erster Fingerzeig. Zusätzlich kommt die Aussage des Bundesbezirksrichters Vince Chhabria bei einer Anhörung in einem der Meta-Verfahren. Er könne sich nicht vorstellen, wie das Vorgehen unter Fair-Use fallen soll. „Sie haben Unternehmen, die mit urheberrechtlich geschütztem Material ein Produkt erschaffen, das in der Lage ist, eine unendliche Anzahl von konkurrierenden Inhalten zu erstellen“, sagte er zu Metas Anwälten laut einem Bericht der Nachrichtenagentur Reuters.

Diese Inhalte könnten den Markt für die Kläger dramatisch verändern oder sogar auslöschen – und trotzdem würden die Anwälte behaupten, sie müssten „der Person nicht einmal Lizenzgebühren zahlen“, so Chhabria. Er verweist damit auf das Marktargument, das laut Lee und Grimmelmann einer der zentralen Faktoren ist, um ein Vorgehen als Fair-Use zu bewerten. Wesentliche Aufgabe von Metas Anwälten ist nun, diesen Aussagen etwas entgegenzusetzen.

  • KI-Suchmaschinen: Wie Googles AI-Pläne das alte Internet töten

Eine schwierige Aufgabe, denn die öffentliche Diskussion geht eher in die andere Richtung. „Wie AI das alte Internet tötet“, ist seit Jahren ein Leitsatz, der durch Googles Umstieg auf KI-Suchmaschinen wieder Fahrt aufgenommen hat. Wenn Suchmaschinen in erster Linie keine Links mehr verteilen, sondern die KI-Dienste direkt die Antworten liefern, hat es unmittelbare Auswirkungen auf Geschäftsmodelle – und in diesem Fall betrifft es sogar unmittelbar Verlage.

Nun muss man bedenken: Die Fälle unterscheiden sich, was für die Google-Suche gilt, betrifft nicht unbedingt ChatGPT. Wie Lee und Grimmelmann in dem Ars-Technica-Beitrag beschreiben, bewerten Richter bei solchen Verfahren auch immer die Marktlage. Und inwieweit die KI-Firmen versuchen, die Copyright-Vorgaben einzuhalten. Selbst wenn es zu einer Verurteilung kommen würde, könnte der Eindruck dann darüber entscheiden, wie hoch die Strafe ausfällt.

Ultimately, the fate of these companies may depend on whether judges feel that the companies have made a good-faith effort to color inside the lines.

Timothy B. Lee und James Grimmelmann

So gesehen sind die KI-Firmen auch von der öffentlichen Meinung abhängig.

Politischer Lobbyismus als Ausweg für Tech-Konzerne

Neben den Gerichtsverfahren gibt es für die KI-Firmen aber noch einen Plan B: die Politik. OpenAI bringt sich bereits in Stellung. In einem Dokument für den AI Action Plan, den die Trump-Administration diesen Sommer noch beschließen will, argumentiert der Konzern für eine „Freiheit zum Lernen“. Das Training mit Copyright-Inhalten müsse legal bleiben, um Amerikas Vormachtstellung im KI-Sektor beizubehalten. Es gehe um Geopolitik, den Konflikt mit China und die nationale Sicherheit.

Dass die Copyright-Klagen scheitern, ist demnach also im nationalen Interesse der USA. Man sorgt für eine enorme Fallhöhe bei den Verfahren. Die eigentliche Kernbotschaft des Dokuments ist aber: Wenn man vor Gericht scheitert, soll Trump den Status Quo retten.

Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.



Source link

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Beliebt

Die mobile Version verlassen