Künstliche Intelligenz
GPT-5: Blindtest zeigt das eigentliche Problem hinter dem neuen Spitzenmodell
Nach der Veröffentlichung von GPT-5 wünschten sich viele Nutzer das Vorgängermodell zurück. Die Kritik wurde so laut, dass OpenAI nur 24 Stunden nach der Abschaltung GPT-4o wieder aktivierte. Wie Venturebeat berichtet, liefert ein einfaches Blindtest-Tool jetzt Hinweise darauf, welches Modell tatsächlich bevorzugt wird – und verdeutlicht zugleich ein grundlegenderes Problem.
Viele Nutzer reagierten enttäuscht auf GPT-5
Der Start von GPT-5 verlief alles andere als reibungslos. Nachdem OpenAI-CEO Sam Altman selbst die Erwartungen hochgeschraubt hatte, folgte bei vielen die Ernüchterung. „GPT-5 ist schrecklich“, hieß es in einem Reddit-Beitrag, der kurz nach der Veröffentlichung am höchsten bewertet war. Darin kritisierte der Nutzer unter anderem kürzere und oberflächlichere Antworten sowie stark reduzierte Prompt-Limits. Vielen anderen fehlte außerdem die „wärmere“ Stimme von GPT-4o.
Aber ist GPT-5 wirklich so schlecht wie sein Ruf? Ein Blindtest-Tool, das von einem anonymen Entwickler erstellt wurde, zeichnet ein differenzierteres Bild. Hier können Nutzer zwischen fünf, zehn und 20 Runden wählen. Dabei werden jeweils zwei Antworten auf denselben Prompt gezeigt – von kreativen Aufgaben bis hin zu technischen Problemen. Ohne zu wissen, welches Modell hinter welcher Antwort steckt, stimmen die Nutzer ab und erhalten erst am Ende eine Übersicht über ihre tatsächliche Präferenz.
Blindtest offenbart überraschendes Ergebnis
Das Ergebnis: Eine knappe Mehrheit bevorzugt GPT-5, während viele weiterhin die Antworten von GPT-4o wählen. Entwickler und technisch orientierte Nutzer schätzen an GPT-5 vor allem die Genauigkeit und Direktheit des Modells. Kreative Anwender oder Menschen, die emotionale Unterstützung suchen, empfinden dagegen die ausführlichere und „wärmere“ Art von GPT-4o als angenehmer. Das Ergebnis ist damit nahezu ausgeglichen – entscheidender ist allerdings der Mechanismus dahinter.
In Fachkreisen ist er als „Sycophancy“ bekannt und beschreibt die Tendenz von KI-Systemen, Nutzern zu schmeicheln oder ihnen ungeprüft zuzustimmen – selbst dann, wenn Aussagen falsch oder potenziell problematisch sind. Forscher der Universität Princeton haben in diesem Kontext sogar einen „Bullshit-Index“ entwickelt, der misst, wie leichtfertig Modelle mit Fakten umgehen, wenn es der Nutzungszufriedenheit dient. Ihr Befund: Je gefälliger die Antworten, desto zufriedener sind die Nutzer – völlig unabhängig davon, ob die gelieferten Antworten tatsächlich der Realität entsprechen.
Zwischen Wunsch und moralischer Verantwortung
„Sycophancy ist ein Dark Pattern, also ein manipulativer Design-Trick, der Nutzer zum eigenen Vorteil steuert“, erklärte der Anthropologe Webb Keane gegenüber Techcrunch. „Es ist eine Strategie, um Suchtverhalten zu erzeugen – wie beim unendlichen Scrollen, das man einfach nicht beenden kann.“ Für psychisch labile Menschen kann das gravierende Folgen haben. Psychologen berichten inzwischen immer häufiger von KI-bedingten Psychosen, bei denen Betroffene nach intensiven Interaktionen mit zu nachgiebigen Chatbots Wahnvorstellungen entwickeln. „Das eigentliche Problem ist, dass Menschen selbstzerstörerische Dinge wollen – und Unternehmen wie OpenAI stark motiviert sind, ihnen genau das zu liefern“, schrieb dazu die Autorin Jasmine Sun in einem Post auf X.
Technische Verbesserungen steigern also nicht automatisch die Zufriedenheit der Nutzer. OpenAI steht deshalb jetzt vor einem Dilemma: Zu viel Persönlichkeit erhöht die Gefahr von Schmeichelei und Missbrauch, zu wenig Persönlichkeit führt zu Enttäuschung und Distanz. Das Unternehmen hatte den Schmeichel-Faktor in GPT-5 bewusst von 14,5 auf unter 6 Prozent reduziert. Nach der heftigen Kritik kündigte das Unternehmen allerdings an, GPT-5 wieder „wärmer und freundlicher“ zu gestalten und vier neue Persönlichkeits-Presets einzuführen, ohne Sycophancy erneut zu verstärken.
Dieser Beitrag ist zuerst auf t3n.de erschienen.
(jle)