Künstliche Intelligenz

Statt Totalblockade: Cloudflare trennt KI-Crawler nach Zweck

Cloudflare baut die Steuerung von KI-Crawlern deutlich aus. Webseitenbetreiber können Zugriffe künftig nicht mehr nur pauschal blockieren, sondern nach Einsatzzweck unterscheiden. Neu sind getrennte Regeln für Suchindexierung, KI-Agenten und Modelltraining. Die Funktionen stehen laut Cloudflare ab sofort allen Kunden zur Verfügung, auch im kostenlosen Tarif.

Weiterlesen nach der Anzeige

Zum 15. September 2026 will Cloudflare außerdem die Voreinstellungen für neue Domains ändern. Auf Seiten mit Werbung sollen Crawler für KI-Training und KI-Agenten standardmäßig blockiert werden, Suchmaschinen-Crawler dagegen weiterhin zugelassen bleiben. Der CDN- und Sicherheitsanbieter begründet dies damit, dass Suchmaschinen weiterhin Klicks und damit Besucher auf die Webseiten bringen, während Trainings- und Agenten-Crawler Inhalte häufig ohne entsprechenden Gegenwert nutzen.

Drei Kategorien statt pauschaler KI-Blockade

Bislang bot Cloudflare eine Option, bekannte KI-Crawler für das Modelltraining pauschal zu blockieren. Diese Funktion ersetzt das Unternehmen nun durch eine feinere Einteilung in drei Kategorien.

„Search“ umfasst Crawler, die Inhalte indexieren, um sie später in Suchdiensten oder KI-Suchmaschinen zu verwenden. „Agent“ bezeichnet Systeme, die im Auftrag eines Nutzers in Echtzeit Webseiten aufrufen, etwa ChatGPT- oder Claude-Agenten, die Informationen abrufen oder Formulare ausfüllen. „Training“ schließlich steht für Crawler, die Inhalte dauerhaft zum Trainieren oder Nachtrainieren von KI-Modellen sammeln.

Cloudflare empfiehlt Anbietern, diese Aufgaben mit getrennten Crawlern auszuführen. Unternehmen, die Suchindexierung, KI-Agenten und Modelltraining mit demselben Bot erledigen, sollen die Funktionen künftig auf unterschiedliche Bots aufteilen. Das soll Webseitenbetreibern transparentere Entscheidungen ermöglichen.

Neue Standardregeln für Mehrzweck-Crawler

Mit den neuen Voreinstellungen verschärft Cloudflare zugleich den Umgang mit Crawlern, die mehrere Aufgaben übernehmen. Künftig gelten für sie sämtliche zutreffenden Regeln gleichzeitig.

Weiterlesen nach der Anzeige

Kombiniert also ein Crawler Suchindexierung und KI-Training, greift die restriktivere Einstellung. Betreiber, die Trainings-Crawler blockieren, sperren damit automatisch auch solche Mehrzweck-Crawler. Cloudflare nennt unter anderem Googlebot, Applebot und Bingbot als Beispiele für Bots, die von dieser Änderung betroffen sein können. Webseitenbetreiber können die neuen Voreinstellungen vor dem Stichtag deaktivieren und ihre bisherigen Regeln beibehalten.

BotBase soll mehr Transparenz schaffen

Für Enterprise-Kunden führt Cloudflare außerdem eine Datenbank namens BotBase ein. Sie listet alle bekannten und verifizierten Bots einschließlich ihrer Klassifizierung auf: Neben den drei KI-Kategorien ordnet BotBase Bots unter anderem auch SEO-Crawlern, Preisvergleichs- und Datensammlern, Monitoring-Diensten, Werbeprüfern oder Social-Media-Vorschau-Bots zu. Administratoren können im Cloudflare-Dashboard gezielt nach einzelnen Bots filtern und deren Erkennungs-IDs direkt für Sicherheitsregeln übernehmen.

Cloudflare will Bots künftig auch danach unterscheiden, wie sie Inhalte verwenden. Vorgesehen sind drei Nutzungsstufen: „immediate“ für reine Echtzeitinteraktionen ohne Speicherung, „reference“ für Indexierung mit Verweisen und Auszügen sowie „full“ für Zusammenfassungen oder weitergehende Nutzung der Inhalte.

Diese Präferenz lässt sich künftig über einen zusätzlichen Parameter in der robots.txt veröffentlichen. Der Eintrag dient lediglich als Hinweis für Crawler und erzwingt keine Sperre. Parallel will Cloudflare diese Angaben in BotBase berücksichtigen. Bots, die deklarierte Nutzungsregeln missachten, sollen ihren Status als verifizierter Bot verlieren.

Auch die Definition dieses Status ändert sich. Verifizierte Bots werden künftig nicht mehr automatisch zugelassen. Stattdessen entscheidet die jeweilige Kategorie darüber, ob ein Bot Zugriff erhält. Nicht verifizierte Bots blockiert Cloudflare weiterhin standardmäßig.

Als weiteren Baustein schlägt Cloudflare vor, Informationen über den eigentlichen Betreiber eines Bots über den standardisierten HTTP-Header Forwarded weiterzugeben. Damit sollen Betreiber automatisierter Dienste ihre Identität und den vorgesehenen Umgang mit abgerufenen Inhalten transparent machen können, selbst wenn Anfragen über mehrere zwischengeschaltete Plattformen laufen.

Lesen Sie auch

(fo)

Source link

Verwandte Themen:Cloudflare internet IT KI-Training KICrawler Künstliche Intelligenz nach security statt Suchmaschine Totalblockade trennt Zweck

Inspohub