Entwicklung & Code

Nachruf: Abschied von robots.txt (1994-2025)

Henning Fries ist UI/UX-Engineer mit Leidenschaft für nachhaltiges Webdesign, digitale Barrierefreiheit und die Psychologie guter Nutzererlebnisse.
Seit über fünfzehn Jahren arbeitet er als Designer, Entwickler und Berater an der Schnittstelle von Mensch, Technologie und Gestaltung – in Deutschland, Frankreich und Luxemburg.
Als Full-Stack-Entwickler mit Designfokus und Green-Frontend-Enthusiast verbindet er technisches Know-how mit einem klaren Bewusstsein für Ressourcenschonung und User Experience. Sein Ziel: digitale Produkte, die sinnvoll, zugänglich und menschlich sind.

Mit tiefer Trauer geben wir das Ende von robots.txt bekannt, der bescheidenen Textdatei, die dreißig Jahre lang als stille Wächterin der digitalen Höflichkeit diente. Geboren am 1. Februar 1994 aus der Not heraus, als Martijn Kosters Server unter einem fehlerhaften Crawler namens „Websnarf“ zusammenbrach, verstarb robots.txt im Juli 2025, nicht durch Cloudflares Hand, sondern an den Folgen systematischer Missachtung durch KI-Konzerne. Cloudflares Entscheidung, KI-Crawler standardmäßig zu blockieren, markierte lediglich den Moment, in dem auch der letzte große Infrastruktur-Anbieter das Vertrauen in freiwillige Compliance aufgab und zu technischer Durchsetzung überging – ein letzter Akt der Verzweiflung, der das Ende einer Ära markierte. Wie bei allen bedeutsamen Verlusten brauchte es Zeit, bis das volle Ausmaß dieser digitalen Tragödie begriffen wurde.

Weiterlesen nach der Anzeige

Ein Leben der stillen Dienste

robots.txt wurde in einer Zeit geboren, in der das Internet einer kleinen, beschaulichen Nachbarschaft glich – überschaubar, persönlich und geprägt von gegenseitigem Vertrauen. Man kannte die Bots, die vorbeikamen, und pflegte den digitalen Umgang miteinander. robots.txt, geborene „RobotsNotWanted.txt“, war nie darauf ausgelegt, komplexe rechtliche Schlachten zu führen oder Milliardenunternehmen zu konfrontieren – sie war einfach ein höflicher, aber dennoch bestimmter Hinweis: „Bitte nicht hier entlang.“

In ihren goldenen Jahren lebte robots.txt in perfekter Harmonie mit den großen Suchmaschinen. Google respektierte sie, Yahoo ehrte sie, und selbst AltaVista – ruhe in Frieden – und Lycos folgten ihren Anweisungen. Es war ein Geben und Nehmen. Es war eine Freundschaft auf Augenhöhe, geprägt von einer einfachen Wahrheit: Suchmaschinen erhielten Content zur Indexierung, während Websites im Gegenzug Traffic bekamen. Dieses Crawl-zu-Referral-Verhältnis – also das Verhältnis zwischen Bot-Zugriffen und zurückgeleiteten Nutzern – lag bei Google bei einem fairen 14:1. Pro 14 von Bots aufgerufenen Seiten fand im Schnitt ein Nutzer den Weg zurück zur Website. Heute ist dieser Kontrakt gebrochen: KI-Crawler generieren Tausende oder Millionen von Zugriffen, während kaum Traffic durch Links oder Erwähnungen zurückkommt.

„Anthropics ClaudeBot zeigte im Juni 2025 das mit Abstand höchste Crawl‑zu‑Referral‑Verhältnis – etwa 70.900 Crawls pro einem Referral, weit mehr als jeder andere KI‑Crawler.“ (Cloudflare (Juli 2025))

robots.txt war so grundlegend für das Funktionieren des Internets, dass man ihr 2022 mit RFC 9309 endlich formell Anerkennung zollte. Doch selbst dieser späte Ritterschlag konnte ihr Schicksal nicht aufhalten.

Chronik eines schleichenden Endes

Weiterlesen nach der Anzeige

Die ersten Anzeichen des Wandels zeigten sich 2017, als das Internet Archive ankündigte, robots.txt bei der Archivierung historischer Inhalte nicht länger zu berücksichtigen. Am 17. April 2017 erklärte Mark Graham (Direktor der Wayback Machine), dass robots.txt-Dateien – insbesondere solche, die für Suchmaschinen gedacht sind – nicht immer mit den Archivierungszielen übereinstimmen. Das Internet Archive verfolge das Ziel, möglichst vollständige Schnappschüsse des Webs zu bewahren, einschließlich doppelter oder großer Inhalte.

„Over time we have observed that the robots.txt files that are geared toward search engine crawlers do not necessarily serve our archival purposes.“ (Mark Graham)

Doch das war nur ein Vorgeschmack auf die fortschreitende, systematische Ausschöpfung, die jetzt folgen sollte. Mit dem Aufkommen der künstlichen Intelligenz verwandelte sich das Internet von einem kollaborativen Raum in eine Extraktionszone.

Doch statt des erhofften kollaborativen Miteinanders folgte systematische Ausbeutung. KI-Konzerne errichteten neue digitale Barrieren: Cloudflares Default-Blocking, Paywalls für API-Zugang und exklusive Lizenzdeals mit ausgewählten Publishern. Content-Ersteller sahen sich einer industriellen Extraktionsmaschine gegenüber, die ihre Arbeit ohne Gegenleistung verwertete. Das Internet, einst als offenes Netz für alle konzipiert, verwandelte sich in eine zentralisierte Datenmine für Tech-Giganten.

OpenAI führte den Angriff mit seinem GPTBot, ChatGPT-User und OAI-SearchBot an – eine Dreifaltigkeit der Verletzung, die robots.txt hilflos zusehen ließ, wie ihre Direktiven geflissentlich ignoriert wurden. Das Unternehmen behauptete öffentlich Compliance, während Cloudflare im Juni 2025 ein vernichtendes Crawl-to-Referral-Verhältnis von 1.700:1 dokumentierte – industrielle Extraktion ohne nennenswerte Gegenleistung.

Anthropic fügte dem Leiden weitere Qualen hinzu. ClaudeBot, anthropic-ai und Claude-Web hämmerten auf Server ein, wobei iFixit eine Million Besuche in 24 Stunden und Freelancer.com fast vier Millionen in vier Stunden erlebte. Mit einem Crawl-to-Referral-Verhältnis von 73.000:1 überschritt Anthropic alle Grenzen des Anstands — es war, als würde man einem Nachbarn die Haustürschlüssel anvertrauen, damit er die Blumen gießt – nur um festzustellen, dass er den gesamten Hausrat abtransportiert hat.

Perplexity AI gehörte zu den aggressivsten Akteuren: Es nutzte verdeckte (undisclosed) IP-Adressen und Drittdienste, um Crawling-Aktivitäten zu verschleiern. Als CEO Aravind Srinivas öffentlich erklärte, robots.txt sei kein rechtliches Framework, war das ein offener Affront gegen das jahrzehntealte fragile Protokoll.

Eine Textdatei im Schatten des letzten Gefechts

In ihren letzten Monaten kämpfte robots.txt verzweifelt um die Relevanz vergangener Zeiten. Website-Betreiber entwickelten immer raffiniertere Unterstützungssysteme: Crawler-Fingerprinting mit TLS-Analyse (Transport Layer Security), Honeypot-Fallen und Verhaltensanalyse. Doch es war, als versuchte man, eine akute Blutvergiftung mit fiebersenkenden Mitteln zu behandeln – technisch durchdacht, aber dem Ausmaß der Bedrohung nicht gewachsen.

Das European Data Protection Board versuchte mit der Opinion 28/2024 dem Protokoll rechtliche Verbindlichkeit zu geben, während Italiens Datenschutzbehörde Garante OpenAI mit einer Strafe von 15 Millionen Euro belegte. Doch es waren verzweifelte Wiederbelebungsversuche eines längst kollabierten Systems – der freiwillige Respekt war nicht mehr zu retten.

Alternative Protokolle – ai.txt, TDM ReP, „No-AI-Training“ HTTP-Header – wurden als potenzielle Nachfolger diskutiert. Aber sie alle trugen den Makel ihrer Geburt: Sie entstanden nicht aus Kooperation, sondern aus Konfrontation.

Der Call for Proposals für die enterJS 2026 am 16. und 17. Juni in Mannheim ist gestartet. Bis zum 12. November suchen die Veranstalter nach Vorträgen und Workshops rund um JavaScript und TypeScript, Frameworks, Tools und Bibliotheken, Security, UX und mehr.

Source link

Verwandte Themen:Abschied IT Nachruf robots.txt Suchmaschine Von Web-Crawler Webentwicklung

Inspohub