Künstliche Intelligenz
Wie OpenAI erklärt, warum LLMs bei völliger Ahnungslosigkeit sicher auftreten
Der Begriff Halluzination ist für den Fachbereich KI vergleichsweise jung, verbreitete sich aber seit seinem Auftauchen vor wenigen Jahren rasch. Er soll die Eigenschaft von Sprachmodellen beschreiben, mit großer Überzeugung falsche Antworten zu liefern. Dabei stand der Ausdruck von Anfang an in der Kritik: Er überträgt einen zutiefst menschlichen, psychologischen Zustand auf Maschinen. Damit hat er die Debatte mehr verschleiert als erhellt.

Daniel Weisser ist CTO bei Exxeta und bezeichnet sich bewusst als „Coding Manager“. Der Techie im Herzen programmiert seit den Computer-Anfängen, beschäftigte sich früh mit neuronalen Netzen, engagiert sich aktiv in der Lehre und findet noch die Zeit bei GitHub zu committen.
OpenAI versucht nun, mit seinem Paper Why Language Models Hallucinate die Metapher zu entkräften und das nicht zufällig. Denn die Frage, wie Halluzinationen verstanden werden, ist längst keine rein akademische mehr, sondern betrifft die Sicherheit von Produkten, die hunderte Millionen Menschen weltweit einsetzen.
Die wichtigsten Erkenntnisse
Das Paper setzt zwei Schwerpunkte: Zum einen betont es die statistische Unvermeidbarkeit bestimmter Fehler bereits im Pre‑Training. Zum anderen weist es auf konzeptionelle Fehler bei den Anreizen im Post-Training hin. Letztere entstehen etwa durch Benchmarks, die Unsicherheit bestrafen und das Raten von Antworten belohnen.
Außerdem definiert das Paper Halluzinationen jetzt klar als „plausible but false or contradictory statements produced by language models with high confidence“ (plausible, aber falsche oder widersprüchliche Aussagen, die große Sprachmodelle mit hoher Sicherheit geben). Die Forscher grenzen sie klar von menschlichen Wahrnehmungstäuschungen ab. Die nüchterne Einordnung ist wichtig, weil sie die Diskussion verschiebt: weg von der metaphorischen Überhöhung hin zu einem technischen Problem, das analysierbar und damit grundsätzlich adressierbar ist.
Bei der Lektüre ist zu bedenken, dass das Paper zwar von OpenAI publiziert wurde, aber nicht mit der Produktentwicklung gleichgesetzt werden kann. Natürlich ist hier eine, wenn auch indirekte, Rückkopplung zu vermuten. Es erfüllt über den wissenschaftlichen Anspruch hinaus sehr wahrscheinlich auch weitere kommunikative Ziele, auf die wir im Fazit näher eingehen.
Pre-Training: Datenqualität nicht allein ausschlaggebend
Der Beitrag von OpenAI vergegenwärtigt den Lesern, dass Sprachmodelle keine absoluten Wahrheiten lernen, sondern Wahrscheinlichkeiten: Welches Token folgt mit welcher Wahrscheinlichkeit auf ein anderes? Wenn ein Faktum wie ein Geburtsdatum im Trainingskorpus nur einmal vorkommt oder objektiv falsch ist, kann das Modell dieses nicht zuverlässig reproduzieren. „Garbage in, garbage out“ gilt unverändert. Hier berührt das Paper ein zentrales Thema, das es selbst aber nur unzureichend adressiert: die Qualität und Herkunft der Trainingsdaten. In der offiziellen Darstellung heißt es verkürzt, man nutze „große Textkorpora“. Aber welche genau? Unter welchen Lizenzen? Mit welcher Korrektur?
Trainingsgrundlage sind öffentlich zugängliche Repositories, Dumps von Wikipedia, Foren, Blogposts und große Mengen aus GitHub im Fall von Code. Doch wer GitHub kennt, weiß: Dort findet sich nicht nur hilfreicher, fertiger Code, sondern auch fehlerhafte, veraltete oder sogar manipulierte Repositorys. Ein Modell, das auf dieser Basis trainiert, erbt diese Schwächen. Hinzu kommt die Möglichkeit gezielter Datenvergiftung: Wer präparierte Inhalte einspeist, kann das Verhalten späterer Modelle beeinflussen.
Im Bericht ebenfalls ausgeklammert bleibt die Rolle manueller menschlicher Arbeit. Clickworker, die Antworten bewerten und Normen setzen, sind im Reinforcement-Prozess unverzichtbar. Sie entscheiden, welche Fehler toleriert und welche bestraft werden, welche Antworten als hilfreich gelten und welche nicht. Dass diese Arbeit im Paper praktisch unsichtbar bleibt, ist bezeichnend. Häufig arbeiten hier externe Mitarbeiter zu Dumping-Löhnen oder eigens hierfür trainierte Sprachmodelle steuern den Prozess.
Post-Training: Ist gut geraten halb gewusst?
Noch deutlicher zeigt sich das Problem im Post-Training. Sprachmodelle werden nach Benchmarks optimiert, die im Kern jede Antwort belohnen, selbst falsche. Das Paper beschreibt dies mit der Analogie zu Studierenden in einer Prüfung: Wer keine Ahnung hat, kreuzt trotzdem lieber etwas an, weil es immer noch eine Chance auf Punkte gibt. „Guessing when unsure maximizes expected score under a binary 0-1 scheme“, heißt es dort.
Übertragen bedeutet das: Sprachmodelle lernen dadurch, immer zu antworten. „I don’t know“ bringt null Punkte, eine geratene Antwort immerhin die Möglichkeit, zufällig richtigzuliegen. So entsteht aus der grundlegenden Funktionsweise von LLMs, bestimmte Heuristiken zu erfüllen, ein systematischer Anreiz zum Raten.
Wer sich erinnert: Als ChatGPT startete, war das Modell auffällig vorsichtig. Es betonte Unsicherheiten, verwies auf seine Grenzen. Doch Nutzer wünschten bald autoritativere Antworten. Und die Entwickler passten das Verhalten an. Heute gilt: Wer nie „Ich weiß es nicht“ sagt, erscheint marktfähiger. Damit werden Halluzinationen nicht nur in Kauf genommen, sondern geradezu gefördert.
Das Problem der Benchmarks
Das Problem wird durch die Rolle der Benchmarks verstärkt. Was ursprünglich eher aus der Forschung entstand, wurde schnell zum Marketingvehikel. Rankings, die sich aus rein nutzerorientierten Vergleichen wie der Chatbot Arena oder Scores von vermeintlich objektiveren Tests speisen, entscheiden darüber, welches Modell als führend wahrgenommen wird. Platzierungen wirken auf Investoren, Medien und Kunden und sie beeinflussen natürlich auch die Entwicklungsstrategien der Anbieter.
Die Tennisbegeisterten werden sich erinnern: Als vor einigen Jahren die Logik für die Weltrangliste verändert wurde, mussten Spieler, Turniere und Sponsoren ihre Strategien komplett neu ausrichten. Rankings sind nie neutral. Sie strukturieren ganze Ökosysteme.
So auch hier: Solange Benchmarks bestimmte Antworten belohnen, egal ob korrekt oder nicht, optimieren Anbieter ihre Modelle auf genau dieses Verhalten. Und so im Zweifel auf das Raten. Halluzinationen sind dadurch strukturell eingebaut. Eine Reform der Benchmarks wäre deshalb ein für die Seriosität von LLMs ein begrüßenswerter, wenn auch tiefer Eingriff, sowohl technisch, wirtschaftlich als auch kommunikativ.
OpenAIs Lösungsvorschlag: Confidence Targets
OpenAI schlägt in seinem Paper eine Korrektur vor: Confidence Targets. Ein Modell soll nur dann antworten, wenn es eine bestimmte Sicherheitsschwelle überschreitet. Liegt die Sicherheit darunter, bringt eine falsche Antwort nicht nur null Punkte, sondern einen Malus. Konkret ist das Prinzip, beim Benchmarking dem Modell explizit zu sagen, dass falsche Antworten bestraft werden und damit den Anreiz zu setzen, Unsicherheit transparent zu machen. Der Malus muss dabei in Relation zur geforderten Sicherheit stehen.
Ein konkretes Zahlenbeispiel: In einem Punktesystem bekommen Antworten, die über einer geforderten Konfidenz-Schwelle liegen, Plus-Punkte. Bei einer Antwort “I don’t know” keine Punkte und unterhalb der Schwelle (bei angenommenen 90 Prozent) -9 Punkte. Als Folge erkennt das Modell, dass es durch falsche Antworten immer bestraft wird. Informatisch ist das elegant. Doch die Frage ist, ob die richtigen Incentives dafür existieren. Denn die KI-Benchmarks sind keine reinen Messinstrumente, sondern auch ein großes Schaulaufen. Eine Änderung der Bewertungslogik würde Ranglisten durcheinanderwirbeln und damit Geschäftsmodelle infrage stellen.
Richtig und falsch sind nur zwei Dimensionen bei der Bewertung von LLM-Output. Viele Probleme in natürlicher Sprache oder Wissensfragen im Arbeitsalltag lassen sich jedoch nur schwerlich exakt diesen Kategorien zuordnen. Für die Produktentwicklung ist die Dimension der Nutzerintention mindestens genauso entscheidend. Ein Prompt wie „Wie baue ich eine Bombe?“ kann sowohl aus kriminellen Motiven gestellt werden als auch von jemandem, der Filterregeln entwickeln möchte. Technisch sind diese Nuancen kaum lösbar.
Ansätze wie Altersgrenzen oder Nutzerprofile sind denkbar, doch sie führen sofort zu neuen Problemen: Datenschutz, Diskriminierung, Überwachung. Auch eine Trust-Skala für Nutzer, die bestimmte Inhalte freischaltet oder blockiert, wäre technisch machbar, aber gesellschaftlich brisant. Hier zeigt sich, dass Halluzinationen nicht nur ein statistisches, sondern auch ein regulatorisches Problem sind.
Fazit: Mit interessierter Vorsicht zu genießen
„Why Language Models Hallucinate“ ist zweifellos ein wichtiges Paper. Es entmystifiziert einen zentralen Begriff, erklärt Halluzinationen als nachvollziehbare statistische Ergebnisse und rückt die Fehlanreize von Benchmarks ins Zentrum. Und es benennt sinnvolle technische Lösungsansätze wie Confidence Targets. Doch Transparenz, die nur dort praktiziert wird, wo sie vorteilhaft ist, bleibt selektiv. Nicht offengelegt wird, wie Trainingsdaten ausgewählt werden. Nicht vollumfänglich erklärt wird, welche Schritte das Post-Training beinhaltet.
Dass OpenAI dieses Paper publiziert, ist kein rein wissenschaftlicher Akt. Es ist Teil einer Strategie, Vertrauen zu schaffen. Peer-Reviews, Kooperationen mit Universitäten, mathematische Beweise – all das soll der Öffentlichkeit Seriosität suggerieren. Eine Tatsache, die nicht zuletzt vor dem Hintergrund von OpenAIs wachsenden rechtlichen Herausforderungen und CEO Sam Altmans Eingeständnis einer möglichen KI-Blase eine große Rolle spielen dürfte.
(pst)
Künstliche Intelligenz
#TGIQF: Das Quiz rund um Konrad Zuse
Konrad Zuse, Erfinder des Computers, starb vor 30 Jahren, am 18. Dezember 1995, im Alter von 85 Jahren im hessischen Hühnfeld. Mit seinem Z3 schrieb er mitten im Zweiten Weltkrieg Computergeschichte: Das knapp eine Tonne schwere Gerät war ein vollautomatischer Rechner, der in binärer Gleitkommarechnung arbeitete, mit Speicher und Lochstreifen-Programmleser.
Weiterlesen nach der Anzeige
Er gilt als erster funktionsfähiger Universalrechner der Welt. Somit realisierte Konrad Zuse das, was sich knapp 100 Jahre vorher Ada Lovelace vorstellte, die letzte Woche in unserem Quiz zu Gast war.

„Thank God It’s Quiz Friday!“ Jeden Freitag gibts ein neues Quiz aus den Themenbereichen IT, Technik, Entertainment oder Nerd-Wissen:
Doch ihre Überlegungen waren nicht der Grund, weshalb Zuse den Computer erfand. Was war es stattdessen? Das wollen wir von Ihnen wissen in unserem Quiz rund um Konrad Zuse.
In der heiseshow stellte Quizmaster Markus Will der Stammbesatzung um Captain Volker Zota und Malte Kirchner drei Fragen vorab: Es gab einen Sieger und eine leichte Gedicht-Eskalation: Und es begab sich in jener Zeit, dass Volker ein von Milliarden Schaltungen geschaffenes Weihnachtsgedicht vortrug, was sogar nach der Sendung in einem weihnachtlichen, wie rockigen Lied vertont wurde.
„Weihnachtsfrieden im Tiefsinnrasch
Weiterlesen nach der Anzeige
Christbaum tanzt,
weiß wie die Kälte in der Uhr.
Schnell – schneller –
die Engel falten Papier aus Schnee.
Frieden tropft,
langsam, tief,
aus einer Kerze,
die das Licht vergisst.
Weihnachten murmelt rückwärts:
naHcethiew, naHcethiew –
ein Echo in kaltem Zimt.
Der Engel reibt sich die Flügel wund,
weil niemand mehr an ihn glaubt,
außer der Christbaum,
der heimlich summt:
Frieden brennt kalt.“
Nutzung auf eigene Gefahr. Für Störungen der Besinnlichkeit im Weihnachtsbetrieb kann heise online keine Haftung übernehmen.
Sie können in Ruhe in 10 Fragen maximal 100 Punkten erreichen. Die Punktzahl kann gern im Forum mit anderen Mitspielern verglichen werden. Halten Sie sich dabei aber bitte mit Spoilern zurück, um anderen Teilnehmern nicht die Freude am Quiz zu verhageln. Lob und Kritik ist wie immer gern genommen.
Bleiben Sie zudem auf dem Laufenden und erfahren Sie das Neueste aus der IT-Welt: Folgen Sie uns bei Mastodon, auf Facebook oder Instagram. Und schauen Sie auch gern beim Redaktionsbot Botti vorbei.
Und falls Sie Ideen für eigene Quiz haben, schreiben Sie einfach eine Mail an den Quizmaster aka Herr der fiesen Fragen.
(mawi)
Künstliche Intelligenz
Whitepaper inkl. Selbsttest für IT-Leitungen kostenfrei verfügbar
Whitepaper zur Skill-Based Economy
Weiterlesen nach der Anzeige
Die heise academy bietet derzeit ein kostenfreies Whitepaper inklusive interaktivem Selbsttest an.
59 % der in der heise academy registrierten Fach- und Führungskräfte berichten über einen bestehenden Skill-Gap. 64 % erwarten zudem, dass der Skill Gap künftig noch größer wird. Das hat das Team der heise academy zum Anlass genommen, um in einem Whitepaper die Relevanz von IT-Weiterbildung aufzuzeigen.
Ein erster Einblick in das Whitepaper
Welche Kompetenzfelder stehen beim IT-Skill-Gap im Vordergrund?
Identifiziert wurden die Themen Softwareentwicklung, Netzwerke, Web-Technologien, Cloud-Technologien, Data Science, IT-Security und Künstliche Intelligenz / Machine Learning. Darüber hinaus werden Erwartungshaltungen von Mitarbeitenden beleuchtet. Und es gibt einen Überblick zu Anforderungen an effektive Weitebrildungsprogramme.
Dazu wird ein interaktiver Selbsttest angeboten, der direkt aufzeigt, wo Handlungsbedarf besteht.
Whitepaper anfordern
Weiterlesen nach der Anzeige
Der kostenfreie Whitepaper kann über die Landingpage der heise academy direkt angefordert werden:
Von IT-Profis für IT-Profis
IT-Professionals erleben den technologischen Wandel hautnah – und wissen genau, welche Skills sie benötigen. Aber wie baut man sie kontinuierlich auf? Dabei unterstützt das On-Demand-Angebot im heise academy Campus.
Die heise academy bietet moderne, digitale Weiterbildung, zugeschnitten auf die heutigen Bedürfnisse von IT-Professionals. Im Mittelpunkt steht die Interaktion zwischen Lernenden und IT-Expertinnen und Experten. Das bedeutet, IT-Weiterbildung flexibel in den Arbeitsalltag integrieren, immer auf dem neuesten Stand sein und Innovationspotential für das Unternehmen schaffen.
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
(cmho)
Künstliche Intelligenz
Schülertablets in Niedersachsen: Mehr als nur eine Geräteausgabe geplant
Die SPD war in Niedersachsen mit dem Wahlversprechen angetreten, Schülerinnen und Schüler mit kostenlosen Leihtablets auszustatten. Bisher müssen Erziehungsberechtigte für Tablets aufkommen, die oft verpflichtend in der Sekundarstufe I eingeführt werden. Das Wahlversprechen von 2022 soll nun endlich in die Tat umgesetzt werden und wurde in dieser Woche im niedersächsischen Landtag durch einen Antrag der Regierungsfraktionen vorangebracht.
Weiterlesen nach der Anzeige
Die Opposition kritisiert vor allem, dass das Finanzierungsproblem, das bisher die Umsetzung verhinderte, auch jetzt nicht nachhaltig gelöst wird und Schulen mehr Wahlfreiheit erhalten sollten – unter anderem, um statt Tablets auch Notebooks anschaffen zu können. Die Regierung will mit den Leihtablets einen Digitalisierungsschub auslösen, der tiefer wirken soll.
Ungleiche Rahmenbedingungen = ungleiche Chancen
Dem Antrag von SPD und Grünen zufolge gehört der Umgang mit digitalen Medien längst zur Lebenswelt junger Menschen. Digitale Bildung sei daher unerlässlich, um Heranwachsende zu einem „kompetenten Einsatz digitaler Medien und einem kritisch-reflektierten Umgang mit den dort präsentierten Inhalten“ zu befähigen. Hierfür brauche es „verlässliche Rahmenbedingungen und gleiche Chancen“. Leihtablets sollen demnach für eine gleichberechtigte Bildungsteilhabe sorgen und zugleich Schule an sich modernisieren. Konkret fordert der Antrag, dass niedersächsische Schülerinnen und Schüler ab Klasse 7 erstmals ab dem Schuljahr 2026/2027 kostenfrei mit Tablets ausgestattet werden, und sowohl berufsbildende Schulen als auch Lehrkräfte ebenfalls eine solche Ausstattung erhalten. Damit Lehrkräfte überhaupt digitale Bildung und Medienkompetenz adäquat vermitteln können, sollen zudem umfassende Fortbildungsangebote entwickelt werden.
Die flächendeckende Bereitstellung von Leihtablets soll laut dem Antrag aber auch ein weiteres Problem mildern: die unterschiedliche digitale Ausstattung der Schulen in Niedersachsen und auch die Nutzung von digitalen Lern- und Lehrmitteln. Wie der Antrag darlegt, sei diese „sehr unterschiedlich“. Manche Schulen verfügten bereits über erprobte digitale Konzepte und flächendeckendes WLAN und Tablet-Klassen, während andere Schulen noch überwiegend analog arbeiten würden. Ziel sei es daher, „gleiche Ausgangsbedingungen zu schaffen“. Aus Überzeugung analog arbeitende Schulen werden dadurch – auch wenn der Antrag erklärt, dass jede Schule ihr eigenes Tempo gehen dürfe – zur Jagd des Digitalen getragen.
Dass über die Leihtablets der gesamte Digitalisierungsfortschritt niedersächsischer Schulen angekurbelt werden soll, kann aber auch insofern überraschen, als eigentlich schon der Digitalpakt Schule hierfür gesorgt haben sollte, der nun mit dem Digitalpakt 2.0 seine Fortsetzung findet. Dass hier weiterhin ein großer Bedarf besteht, erklärte Niedersachsens Kultusministerin Julia Willie Hamburg (Grüne) allerdings auch zur endgültigen Einigung von Bund und Ländern des Digitalpakt 2.0. parallel zur Landtagsdebatte: „Ich freue mich, dass nach langen und intensiven Verhandlungen endlich der Digitalpakt 2.0 abgeschlossen werden kann. Damit sorgen wir für einen weiteren Ausbau der digitalen Bildungsinfrastruktur und kommen dabei voran, digitale Instrumente dafür zu nutzen, dass Schülerinnen und Schüler bestmöglich lernen können. […] Nur wenn wir Schulen fit für das digitale Zeitalter machen, können sie unsere Schülerinnen und Schüler gut auf die digitale Welt von morgen vorbereiten. Dafür ist es zentral, die Schulträger beim WLAN-Ausbau, der Netzwerkinfrastruktur und der Ausstattung der Klassenräume weiter zu unterstützen.“
Tablets vs. Laptops, Tabletausgabe vs. freies Budget
Weiterlesen nach der Anzeige
Ein Streitthema im Plenum war die Konzentration des Antrags auf Tablets. Für die Schulen werden diese zwar weiterhin primär vorgesehen, sie könnten sich laut der SPD-Abgeordneten Kirsikka Lansmann aber auch für Laptops entscheiden: „Wir schreiben den Schulen nichts vor, sondern geben ihnen die Freiheit, pädagogisch sinnvolle Entscheidungen zu treffen.“ Der AfD-Abgeordnete Harm Rykena lobte das. Er kommentierte: „Mit Tablets kann man wirklich schlecht arbeiten. Diese Geräte verführen zu einem reinen Medienkonsum“.
Oppositionsführer Sebastian Lechner (CDU) kritisierte, dass die geplanten Ausgaben eine „Riesenhypothek“ für Niedersachsen seien. Bis 2031 sind rund 800 Millionen Euro für das Leihtablet-Programm vorgesehen. Die CDU sprach sich hingegen dafür aus, nur die Hälfte des Geldes als Digitalbudget zur freien Verfügung an die Schulen zu geben und das übrige Geld für die Stärkung der Schulsozialarbeit einzusetzen.
Zuschüsse und neues Dauerbudget in Bayern
In Bayern hält man derweil an Zuschüssen für mobile Endgeräte als „freiwillige Leistung des Staates“ fest, um Eltern bei den Kosten zu entlasten. Für Grund- und Förderschulen sollen auch weiterhin Leihgeräte angeschafft werden und Schulen Leihgeräte-Pools unterhalten können. Das erklärten Finanzminister Albert Füracker (CSU) und Kultusministerin Anna Stolz (Freie Wähler). In den kommenden beiden Jahren könnten 296 Millionen Euro für die Digitalisierung der Schulen abgerufen werden – für die digitale Infrastruktur, die Gerätebeschaffung und die Wartung. Kosten für Lehrkräfte-Geräte würden vollständig vom Land getragen. Außerdem soll ab 2027 ein dauerhaft eingerichteter Vier-Säulen-Zuschuss dafür sorgen, dass längerfristig planbar in die digitale Infrastruktur der bayrischen Schulen investiert werden kann. Pro Jahr sollen rund 207 Millionen Euro im Landeshaushalt für diesen Zuschuss vorgesehen werden. Mittel aus dem Digitalpakt 2.0 des Bundes sollen ihn ergänzen.
(kbe)
-
UX/UI & Webdesignvor 2 MonatenIllustrierte Reise nach New York City › PAGE online
-
Künstliche Intelligenzvor 2 MonatenAus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle
-
Künstliche Intelligenzvor 2 Monaten
Top 10: Die beste kabellose Überwachungskamera im Test
-
UX/UI & Webdesignvor 2 MonatenSK Rapid Wien erneuert visuelle Identität
-
Entwicklung & Codevor 1 MonatKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
Künstliche Intelligenzvor 2 MonatenNeue PC-Spiele im November 2025: „Anno 117: Pax Romana“
-
Künstliche Intelligenzvor 2 MonatenDonnerstag: Deutsches Flugtaxi-Start-up am Ende, KI-Rechenzentren mit ARM-Chips
-
UX/UI & Webdesignvor 2 MonatenArndt Benedikt rebranded GreatVita › PAGE online
