Apps & Mobile Entwicklung
Darum halluziniert ChatGPT – und wird nie ganz damit aufhören
Nicht nur ChatGPT halluziniert, das steht mal fest. Vielmehr sind wir es von allen KI-Plattformen gewohnt, dass sie uns da gelegentlich glatte Lügen auftischen. OpenAI hat sich dazu jetzt erklärt und verrät uns, wieso das so ist. Was OpenAI ebenfalls sagt: Das mit dem Halluzinieren werden wir vermutlich niemals so ganz los!
Warum Sprachmodelle halluzinieren
„Why language models hallucinate“ heißt ein Beitrag auf dem OpenAI-Blog. Dort lässt sich das Unternehmen in die Karten blicken und erklärt genau das – also wie es dazu kommt, dass Sprachmodelle wie Gemini, Grok oder eben auch ChatGPT halluzinieren. Wer nicht im Thema ist: Mit „Halluzinieren“ ist gemeint, dass das Sprachmodell die richtige Antwort nicht kennt und nicht nennt, sondern sich stattdessen sehr souverän eine alternative, aber faktisch leider komplett falsche Antwort ausdenkt.
Tatsächlich ist die Antwort auf die Frage, wieso die LLMs (Large Language Models) halluzinieren, sogar erschreckend einfach: Weil sie es so beigebracht bekommen! Beim Training werden die LLMs so geschult, dass sie eben lieber eine beliebige Antwort geben, als stumpf den Mund zu halten.
OpenAI betont, dass Halluzinationen kein bloßer Bug sind – sondern eine systemische Folge von Sprachmodellen, die auf Wahrscheinlichkeiten trainiert und bewertet werden. Weil sie dafür optimiert sind, möglichst präzise Antworten zu geben, werden diese präzisen Antworten – selbst wenn sie falsch sind – belohnt. Das ist in der Konsequenz für ein so trainiertes Modell die deutlich richtigere Antwort als ein „Ich weiß es nicht“.
Ein Beispiel, wieso Halluzinieren für eine KI richtig ist
Stellt Euch eine Klassenarbeit vor, für die Ihr nicht gelernt habt. Ihr sollt bei einer Aufgabe etwas ins Feld schreiben, habt aber keinen blassen Schimmer, wie die Antwort lautet. Schreibt Ihr nichts hinein, sind es null Punkte für die Aufgabe. Schreibt Ihr stattdessen irgendetwas hinein, was Euch schlüssig erscheint, habt Ihr zwei Chancen:
- Entweder ist das Geschriebene einfach zufällig richtig, dann gibt es die volle Punktzahl.
- Oder Ihr ratet falsch, habt aber vielleicht einen Teilaspekt richtig, der immerhin mit einer geringeren Punktzahl geahndet wird.
Im allerschlimmsten Fall schreibt Ihr kompletten Quatsch, aber auch das wäre nicht schlimmer, als das Feld leer zu lassen. Genau so arbeitet auch eine KI: Sie wägt Wahrscheinlichkeiten ab und sagt lieber etwas theoretisch Mögliches als zu erklären, dass sie absolut keine Ahnung hat.
Eine Mitschuld tragen also auch die Benchmark-Tests, für die KI-Modelle ebenfalls optimiert werden, und die ähnlich funktionieren wie in dem genannten Beispiel. Somit werden die LLMs durch diese falschen Anreize zum Raten verleitet, was dann zu den Halluzinationen führt.
Und was kann man gegen das Halluzinieren unternehmen?
Die Wissenschaftler:innen, die an dieser Studie beteiligt waren, sind sich einig, dass man das Halluzinieren nie zu 100 Prozent verhindern kann. Aber zumindest gibt es Ideen, wie man das Risiko minimieren kann. Dazu müssten beim Training lediglich falsche Antworten auch tatsächlich negativ bewertet werden. Nicht beantwortete Fragen sollen hingegen auch Teilpunkte erhalten können.
Bei OpenAI heißt es dazu: „Es gibt eine einfache Lösung: Bestrafen Sie selbstbewusste Fehler stärker als Unsicherheit und vergeben Sie Teilpunkte für angemessene Begründungen dieser Unsicherheit“. So soll das blinde Raten verhindert werden, indem man die KI eben auch dafür belohnt, wenn sie lieber keine als eine falsche Antwort äußert. Dazu braucht es aber auch ganz neue Tests und Testmethoden – und bis die etabliert sind, wird sicher noch Zeit vergehen.
Was bedeutet das für uns? Dass wir weiterhin haargenau aufpassen müssen, was uns ChatGPT oder ein anderes KI-Modell vorsetzt. Das ist übrigens generell eine gute Idee, bevor man sich blind den Antworten ausliefert, die eine KI oder wer auch immer einem auftischt.