Künstliche Intelligenz
Cloudflare lässt KI-Crawler auflaufen, wenn nicht für Scraping bezahlt wird
KI-Firmen greifen Inhalte von Webseiten oft ungefragt per Webcrawlern ab, etwa für die Internetsuche oder um KI-Modelle trainieren zu können. Der Betreiber hat außer einer höheren Belastung des Servers bislang nichts davon. Cloudflare will solche KI-Crawler ab sofort standardmäßig blockieren und bietet bald auch an, dass KI-Firmen die Website-Betreiber für dieses Content-Scraping bezahlen können, sollten ihnen die Inhalte wichtig genug sein.
Das Internet- und Netzwerkunternehmen bietet seinen Kunden bereits seit einiger Zeit per Option an, KI-Crawler auszusperren. Doch jetzt wird diese Scraping-Blockade beim Anlegen einer neuen Domain standardmäßig aktiviert. Zuvor hatte Cloudflare bereits weitere Maßnahmen ergriffen. Ein KI-Labyrinth soll unerwünschte Bots abwehren, indem die Webcrawler in einen Honeypot umgeleitet werden, statt Inhalte der Website abzugreifen.
KI-Bots ins Leere laufen lassen oder aussperren
Eine ähnliche Lösung hatte ein Entwickler Anfang dieses Jahres vorgestellt. Das Tool Nepenthes ist eine Teergrube für KI-Webcrawler, denn es lockt Crawler in ein unendliches Labyrinth oder füttert deren endlosen Datenhunger sogar mit massig sinnlosen Inhalten. Es geht aber nicht nur um Urheberrechtsschutz, denn KI-Crawler werden immer häufiger zum Server-Problem. Im Januar legten KI-Bots eine Linux-News-Seite und weitere lahm.
Cloudflare will diesem Problem mit der Blockierung der KI-Crawler begegnen. Website-Betreiber sollen laut Firmenmitteilung selbst bestimmen, „ob KI-Crawler überhaupt auf ihre Inhalte zugreifen können, und wie dieses Material von KI-Unternehmen verwertet werden darf.“ Denn KI-Firmen würden den Content für ihre eigenen Zwecke nutzen, ohne die Urheber daran zu beteiligen, sodass diese weniger daran verdienen. „Originäre Inhalte sind das, was das Internet zu einer der großartigsten Erfindungen des letzten Jahrhunderts macht“, sagt Matthew Prince, Mitgründer und CEO von Cloudflare. „Deshalb ist es unbedingt nötig, dass Urheberinnen und Urheber diese auch weiter erschaffen.“
Alternativ zur Blockade: „pay per crawl“
Eine Möglichkeit der Finanzierung von Webseiten könnte „pay per crawl“ sein, wie Cloudflare im eigenen Blog ausführt. Diese Initiative ermöglicht Website-Betreibern, KI-Firmen für den Zugriff auf die eigenen Inhalte bezahlen zu lassen, statt KI-Crawler komplett auszusperren oder vollen Zugriff ohne Entschädigung zuzulassen. Cloudflare nutzt dafür den nahezu vergessenen HTTP-Fehlercode 402: „Payment required“. Sollte ein KI-Bot darauf stoßen, kann sich die betreffende KI-Firma an Cloudflare oder den Betreiber wenden, um eine bezahlte Vereinbarung abzuschließen, statt einfach per HTTP-403 (Forbidden) abgewiesen zu werden.
Lesen Sie auch
Dabei können Website-Betreiber aber auch Ausnahmen für einzelne KI-Bots zulassen, sollten sie bereits entsprechende Vereinbarungen getroffen haben oder die Zwecke dieses speziellen Scrapings unterstützen. Momentan befindet sich dieses Pay-per-Crawl-Programm in einer geschlossenen Beta-Phase, aber interessierte Website-Betreiber können sich trotzdem dafür bei Cloudflare anmelden.
(fds)