Künstliche Intelligenz

Von KI-Crawlern genutzt: Reddit sperrt die Wayback Machine weitestgehend aus


Reddit hat damit begonnen, die Wayback Machine des Internet Archive auszusperren, das soll künftig nur noch Screenshots der Startseite des beliebten Social-News-Aggregators archivieren dürfen. Das hat der Sprecher des Onlineportals gegenüber verschiedenen US-Medien angekündigt und den Schritt demnach mit dem Vorgehen gegen unautorisierte KI-Crawler begründet. Die hätten das Internetarchiv benutzt, um an Inhalte von Reddit zu gelangen, auf die sie auf der Seite selbst nicht zugreifen durften, fasst The Verge die Kritik zusammen. Reddit hat mit einigen KI-Unternehmen Verträge abgeschlossen, denen das Training ihrer Modelle mit den benutzergenerierten Inhalten erlaubt ist. Anderen wird das entsprechend untersagt.

Welche KI-Firmen den Umweg über die Wayback Machine ausgenutzt haben sollen, um an die begehrten Reddit-Inhalte als KI-Trainingsmaterial zu gelangen, hat der Firmensprecher nicht gesagt, ergänzt Ars Technica. Er habe aber erklärt, dass das Internet Archive Schritte unternehmen könne, um wieder Zugriff zu bekommen. Dabei gehe es um eine bessere Verteidigung gegen die Crawler, aber auch um mehr Respekt vor den Rechten der Reddit-User. So sei die Wayback Machine teilweise auch dafür genutzt worden, um auf Reddit gelöschte Einträge einzusehen, die von dem Internetarchiv vorgehalten wurden. Das Internet Archive hat die Ankündigung demnach nicht kommentiert und lediglich auf die lange Zusammenarbeit mit Reddit verwiesen. Man spreche über das Thema KI-Crawler.

Für die verschiedenen KI-Firmen ist Reddit eine besonders wertvolle Quelle für das Training ihrer Modelle mit von Menschen verfassten Inhalten. Das Portal hat vor anderthalb Jahren damit begonnen, Geld für die Erlaubnis einzufordern, diese Daten dafür zu verwenden. Im Gegenzug wurden die Crawler von Suchmaschinen und KI-Techniken ausgesperrt, von denen kein Geld fließt. Dass die sich daran aber nicht immer halten, behauptet Reddit schon länger. Erst Anfang Juni hat das Portal eine Klage gegen das KI-Start-up Anthropic eingereicht, das die Plattform und Daten unrechtmäßig nutzen soll. Anthropic sei der Meinung, ungestraft jeden beliebigen Inhalt beliebig nehmen und verwenden zu dürfen: „Dem ist nicht so.“


(mho)



Source link

Beliebt

Die mobile Version verlassen