Künstliche Intelligenz
Stroop-Effekt: KI-Modelle versagen bei klassischem Aufmerksamkeitstest
KI-Textgeneratoren scheitern nachvollziehbar an einem klassischen Test aus der Psychologie und können farbig dargestellte Farbwörter nicht korrekt benennen, wenn beide nicht zueinanderpassen. Das hat ein US-Forschungsteam herausgefunden, das GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 und Gemini 2.5 den sogenannten Stroop-Test absolvieren ließen.
Weiterlesen nach der Anzeige
Wenn beide Farben nicht zueinander gepasst haben, konnten die KI-Modelle die sichtbare Farbe nur bei wenigen Wörtern korrekt zuordnen. Wenn ihnen mehr vorgelegt wurden, stieg die Fehlerrate stark an. Wurden im Wechsel übereinstimmende und abweichende Paare aus Farbe und Begriff gezeigt, lagen die KI-Modelle sogar durchgehend falsch. Der Befund müsse bei der Entwicklung von allgemeiner künstlicher Intelligenz Beachtung finden, meint das Team.
Mehr Wörter, deutlich mehr Fehler
Mit dem Stroop-Test wird klinisch beurteilt, wie gut Menschen in der Lage sind, eine automatische Reaktion zu unterdrücken. Dafür werden Wörter in farbiger Schrift gedruckt und die Versuchspersonen sollen die Schriftfarbe sagen, die Bedeutung des Worts müssen sie dabei ignorieren. Dafür brauchen sie zwar im Schnitt etwas länger, wenn Farbe und Bedeutung („rot“, „blau“) nicht übereinstimmen, erklärt das Forschungsteam um Suketu Chandrakant Patel von der City University of New York. Trotzdem könnten sie „selbst bei langen Wortlisten stabile und hochpräzise Leistungen erbringen“. Das kann man über die untersuchten KI-Modelle nicht sagen, ganz im Gegenteil.
Wie die Forschungsgruppe ausführt, sind die Ergebnisse erwartungsgemäß am besten, wenn die KI-Modelle Schriftfarben nennen müssen, die zum jeweiligen Wort passen. Aber schon da gibt es bei 40 Begriffen einen Abfall. Stimmen beide nicht überein, klappt das Benennen nur für wenige Wörter, schon bei zehn Wörtern fällt die Trefferrate auf 60 %, bei 40 sind es gar weniger als 20 %. Stimmt die Farbe mal überein und mal nicht, kommen die Modelle vollkommen aus dem Tritt, bei 40 Wörtern fällt die Trefferrate dann sogar auf 0 %. Nur unter einer Bedingung lagen die Modelle komplett richtig: wenn statt Farbwörtern neutrale „X“-Zeichen präsentiert wurden, deren Anzahl der Buchstabenanzahl des jeweiligen Farbworts entsprochen hat.
Dass KI-Modelle nicht zuverlässig ermitteln, was in einem Text Aufmerksamkeit benötigt und was nicht, ist nicht neu. Die in PNAS Nexus veröffentlichte Studie habe jetzt bestätigt, dass große Sprachmodelle (LLM) – wie Menschen – besser darauf trainiert seien, Wörter zu lesen, als Farben zu benennen. Menschen könnten das Lesen aber unterdrücken und sich auch bei langen Wortlisten darauf konzentrieren, die Farbe zu nennen. Der komplette Leistungsabfall der KI-Modelle deute „auf grundlegende Einschränkungen im Vergleich zur biologischen Aufmerksamkeit hin“. Diese Kontrollmechanismen seien aber grundlegend für die Erreichung genereller künstlicher Intelligenz. Zudem könnte es Rechenleistung sparen, wenn KI-Modelle zuverlässiger unwesentliche Informationen ignorieren könnten.
(mho)