Künstliche Intelligenz
Wikipedia: Bot-Traffic tarnt sich zunehmend als menschlich
Das Ausmaß von automatisierten Zugriffen bei der Online-Enzyklopädie Wikipedia ist wohl deutlich größer als gedacht. Neue Auswertungsmethoden haben ergeben, dass ein Teil der Zugriffe, welche die Wikimedia Foundation zunächst menschlichen Besuchern zuordnete, eigentlich durch Bots kam. Diese seien aber gezielt darauf ausgelegt, Wikipedias Erkennungssysteme mit ihrem Verhalten zu umgehen.
Weiterlesen nach der Anzeige
Wie Marshall Miller von der Wikimedia Foundation in einem Blogpost schreibt, habe das Portal im Mai und Juni deutlich höhere Zugriffszahlen verzeichnet. Nach einem Update der Systeme zur Bot-Erkennung bei Website-Besuchern führen er und seine Kollegen nun aber einen Großteil dieses zusätzlichen Traffics auf automatisierte Zugriffe zurück.
Häufig Scraping für LLMs
Auffällig sei gewesen, dass ein Großteil der zusätzlichen Zugriffe aus Brasilien gekommen sei. Man habe daraufhin die Zugriffszahlen von März bis August neu ausgewertet. Mit dem Ergebnis, dass im Mai und Juni massenhaft Bots auf Wikipedia zugegriffen hätten, die in ihrem Verhalten darauf ausgelegt seien, als menschliche Besucher zu erscheinen und entsprechende Erkennungssysteme zu umgehen. Diese Bots dienen häufig dazu, Wikipedia-Artikel zu scrapen, also den Inhalt aufzurufen und dann abzuspeichern. Die Daten werden dann oft als Trainingsmaterial für LLMs genutzt, auch Crawler von Suchmaschinen wie Google stecken typischerweise hinter solchen automatisierten Zugriffen. KI-Scraper hatte die Wikimedia Foundation im vergangenen Jahr schon für einen drastischen Anstieg der Bandbreite für Downloads von Multimedia-Inhalten verantwortlich gemacht.
Laut den neuen Zahlen ist auch die Zahl menschlicher Besucher deutlich zurückgegangen: Rund acht Prozent weniger seien es in den vergangenen Monaten gewesen – verglichen mit denselben Monaten im Jahr 2024.
Keine Überraschung – aber ein Problem
Dass die Zahl menschlicher Besucher noch stärker sinkt, darüber sind die Verantwortlichen bei Wikipedia nicht überrascht. Sie führen die Entwicklung auf den allgemeinen Trend zur Informationsbeschaffung über LLMs, Suchmaschinen und soziale Medien zurück.
Weiterlesen nach der Anzeige
Trotzdem wird dieser Trend immer mehr zur Belastung für Wikipedia – und auch die besagten Bots haben damit zu tun. Denn Wikipedia lebt von Spenden und ehrenamtlichen Helfern, die Artikel verfassen, aktualisieren und korrigieren. Beides fällt geringer aus, wenn Menschen zunehmend auf andere Informationsquellen zurückgreifen. Insbesondere bei LLMs finden sie aber dennoch häufig Wikipedia-Informationen, glaubt die Wikimedia-Foundation. Denn fast alle führenden LLMs seien mit gescrapten Inhalten von Wikipedia trainiert, welche mithilfe von Wikipedia-Spendengeldern und von ehrenamtlichen Wikipedia-Autoren entstanden sind.
Die Wikimedia Foundation sieht LLMs, Suchmaschinen und soziale Plattformen als willkommene zusätzliche Informationskanäle. Ihr Appell an die Betreiber lautet allerdings: Ermutigt das eigene Publikum öfter zu einem Besuch bei Wikipedia. Denn nur so sei die Grundlage für Informationen sichergestellt, die vielfach auch auf diesen Kanälen genutzt werden.
(nen)