Künstliche Intelligenz
KI-Chatverlauf zurücksetzen senkt CO₂-Ausstoß | heise online
Ein Forschungsteam des Versicherungskonzerns Axa hat untersucht, welchen Einfluss Anwender von KI-Chatbots auf ihren CO₂-Fußabdruck ausüben können. In ihrem Fachartikel Mitigating the Carbon Footprint of Chatbots as Consumers, der bei Springer Nature veröffentlicht wurde, formulieren die Forscher einen verblüffend einfachen Tipp: Sobald das Thema wechselt, sollte ein neuer Chat gestartet und somit der Chatverlauf zurückgesetzt werden.
Diese Empfehlung basiert auf einem Mechanismus, mit dem KI-Chatbots einen konsistenten Gesprächsverlauf simulieren. Da KI-Modelle kein Gedächtnis besitzen, fügen sie bei jeder Interaktion die gesamte vorherige Chat-Historie der Anfrage hinzu. Für den Benutzer unsichtbar, erhöht dieses Verfahren im Laufe der Konversation fortwährend die Anzahl der verwendeten Token. Je mehr Token verarbeitet werden müssen, desto höher ist der Rechenaufwand – und damit auch der Energieverbrauch.
Die Forscher wollten herausfinden, wie viel sich durch die Handlungsempfehlung einsparen lässt. Dafür analysierten sie anonymisierte Logdaten eines GPT-basierten Chatbots aus einer internen Anwendung mit über 190.000 Einträgen. Eine entsprechende Simulation zeigte, dass sich der Tokenverbrauch für die vorliegenden Daten um bis zu 19 Prozent senken ließe.
Fazit
Das größte Optimierungspotenzial liegt dennoch bei den KI-Dienstleistern. Benutzer können aber unnötige Rechenlast vermeiden, indem sie konsequent einen neuen Chat beginnen, sobald sich der Kontext ändert und frühere Nachrichten für den weiteren Verlauf irrelevant werden. Wer KI-Chatbots nutzt, kann so sein CO₂-Aufkommen zumindest teilweise reduzieren.
Transparenzhinweis: Der Autor Boris Ruf ist ebenfalls Hauptautor der Studie.
(fo)
Künstliche Intelligenz
#TGIQF: Das Quiz rund um Smileys und Emojis
Als Scott E. Fahlman am 19. September 1982 die Smileys 🙂 und 🙁 in einem wissenschaftlichen Bulletin-Board vorschlug, ahnte er mit Sicherheit nicht, was er da lostrat. 43 Jahre später sind Smileys und Emojis aus der Netzkommunikation nicht mehr wegzudenken, auch wenn manche es immer gern mal übertreiben mit den kleinen Figuren.
Im Jahr 1999 entwarf der japanische Designer Shigetaka Kurita Mobilfunkanbieters NTT DoCoMo eine ganze Palette an Smileys und kleinen Grafiken, um die Netzkommunikation zu erleichtern. Zwar waren Smileys nicht ungewöhnlich, insbesondere in der Forenkultur, aber die 12 × 12 Pixel großen Emojis brachten einheitliche Darstellungen bei sehr geringem Speicherverbrauch. Da sie aufgrund der geringen Schöpfungshöhe auch nicht urheberrechtlich geschützt werden konnten, breiteten sie sich rasch auch über andere Mobilfunklösungen aus und entwickelten sich zum Standard.
Mittlerweile sind mehrere Tausend Emojis in verschiedenen Geschlechtern und Hautfarben auswählbar, sodass man sich auf vielfältige Weise ausdrücken kann. Doch was war der Anlass dafür, dass man sich über Ausdrucksweisen im Netz Gedanken machte? Das und mehr wollen wir von Ihnen wissen.
„Thank God It’s Quiz Friday!“ Jeden Freitag gibts ein neues Quiz aus den Themenbereichen IT, Technik, Entertainment oder Nerd-Wissen:
In der heiseshow gab Quizmaster Markus Will wieder Moderator Malte Kirchner sowie Dr. Volker Zota drei nerdige Smiley-Fragen vorab. Sie reagierten angesichts des enormen Grads an Nerdigkeit eher 🙁 .
Schnellrater haben wieder die Chance, die volle Punktzahl abzuräumen. Mit 10 Fragen können Sie satte 200 Punkte erreichen. Die Punktzahl kann gern im Forum mit anderen Mitspielern verglichen werden. Halten Sie sich dabei aber bitte mit Spoilern zurück, um anderen Teilnehmern nicht die Freude am Quiz zu verhageln. Lob und Kritik sind wie immer gern genommen.
Bleiben Sie zudem auf dem Laufenden und erfahren Sie das Neueste aus der IT-Welt: Folgen Sie uns auf den Kurznachrichten-Netzwerken Bluesky und Mastodon und auf den Meta-Ebenen Facebook oder Instagram. Falls Sie eigene Ideen oder Fragen für ein neues Quiz haben, dann schreiben Sie einfach dem Quizmaster.
(mawi)
Künstliche Intelligenz
Ausgezeichnete VR-Spiele gratis ausprobieren: VR Forever Fest startet auf Steam
Das erstmals veranstaltete „VR Forever Festival“ auf Steam läuft vom 18. bis 23. September 2025 und versteht sich als kuratiertes Schaufenster für hochwertige VR-Titel. Insgesamt nehmen über 90 VR-Studios teil, darunter namhafte Vertreter wie Resolution Games, nDreams, Owlchemy Labs oder die Flat2VR Studios. Veranstaltet wird das Event vom VR-Label Creature und der Agentur Future Friends Games.
Auch in der Jury sitzen bekannte Namen aus der VR-Branche. Die Auswahl der Preisträger erfolgte durch ein achtköpfiges Gremium, in dem unter anderem Ed Lago und Doug North Cook von Creature, Owlchemy-Labs-Chef Andrew Eiche und Henry Stockdale vom Branchen-Blog UploadVR sitzen.
Neben Rabatten und spielbaren Demos will die Veranstaltung vor allem herausragende VR-Spiele würdigen. Die „VR Forever Awards 2025“ wurden in sechs Kategorien vergeben – unter anderem für das Spiel des Jahres, das beste soziale Erlebnis und das meist erwartete Spiel.
Spiel des Jahres wird ein Knet-Abenteuer
Als bestes VR-Spiel des Jahres zeichnete die Jury „The Midnight Walk“ aus – ein düsteres Stop-Motion-Abenteuer mit Knet-Animationen, Rätseln und surrealen Landschaften. Den Titel „meist erwartetes Spiel“ sicherte sich das VR-Abenteuer „Reach“, das auf physikbasierte Action mit vollständiger Körperdarstellung und cineastischer Inszenierung setzt. Entwickelt wird Reach von nDreams. Die Veröffentlichung ist für den 16. Oktober 2025 geplant.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
The Midnight Walk – Release Trailer
„Walkabout Mini Golf VR“ erhielt die Auszeichnung für das beste soziale Erlebnis. Der beliebte VR-Hit überzeugt durch realistische Physik, stimmungsvolle Fantasiekurse und eine lebendige Community. Für Einzelspieler wurde der Klassiker „Moss: Book II“ prämiert – ein Plattform-Abenteuer in Diorama-Perspektive, in dem Spieler der Maus Quill auf eine märchenhaft erzählte Reise folgen. Als „All Time Classic“ wurde das erst kürzlich für Apple Vision Pro veröffentlichte „Job Simulator“ geehrt – ein humorvolles VR-Sandbox-Spiel, in dem Spieler in einem Roboter-Museum menschliche Berufe wie Koch oder Automechaniker simulieren.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
The Under Presents Trailer
Mit „The Under Presents“ wurde zudem ein experimentelles VR-Theater für seine Originalität als „Hidden Gem“ ausgezeichnet. Spieler bewegen sich in einer surrealen Bühnenwelt, treffen live agierende Schauspieler und erleben nonlineare Geschichten ohne feste Ziele.
Unsere Empfehlung: Vier Demos zum Ausprobieren
Begleitend zu den Auszeichnungen bietet das Festival über 130 VR-Spiele, viele davon mit spielbarer Demo. Darunter „Wanderer: The Fragments of Fate“ – ein grafisch opulentes Zeitreise-Abenteuer mit Eye-Tracking, realistischem Körper-Avatar und interaktiven Rätseln in historischen Epochen. Ebenfalls anspielbar: das düstere Knetanimations-Abenteuer und als Spiel des Jahres ausgezeichnete „The Midnight Walk“, das adrenalingetränkte Sci-Fi-Musik-Actionspiel „Thrasher“ sowie das gemütliche Modellbau-Puzzle „Puzzling Places“ vom Berliner Studio Realities.io.
(joe)
Künstliche Intelligenz
Wie OpenAI erklärt, warum LLMs bei völliger Ahnungslosigkeit sicher auftreten
Der Begriff Halluzination ist für den Fachbereich KI vergleichsweise jung, verbreitete sich aber seit seinem Auftauchen vor wenigen Jahren rasch. Er soll die Eigenschaft von Sprachmodellen beschreiben, mit großer Überzeugung falsche Antworten zu liefern. Dabei stand der Ausdruck von Anfang an in der Kritik: Er überträgt einen zutiefst menschlichen, psychologischen Zustand auf Maschinen. Damit hat er die Debatte mehr verschleiert als erhellt.
Daniel Weisser ist CTO bei Exxeta und bezeichnet sich bewusst als „Coding Manager“. Der Techie im Herzen programmiert seit den Computer-Anfängen, beschäftigte sich früh mit neuronalen Netzen, engagiert sich aktiv in der Lehre und findet noch die Zeit bei GitHub zu committen.
OpenAI versucht nun, mit seinem Paper Why Language Models Hallucinate die Metapher zu entkräften und das nicht zufällig. Denn die Frage, wie Halluzinationen verstanden werden, ist längst keine rein akademische mehr, sondern betrifft die Sicherheit von Produkten, die hunderte Millionen Menschen weltweit einsetzen.
Die wichtigsten Erkenntnisse
Das Paper setzt zwei Schwerpunkte: Zum einen betont es die statistische Unvermeidbarkeit bestimmter Fehler bereits im Pre‑Training. Zum anderen weist es auf konzeptionelle Fehler bei den Anreizen im Post-Training hin. Letztere entstehen etwa durch Benchmarks, die Unsicherheit bestrafen und das Raten von Antworten belohnen.
Außerdem definiert das Paper Halluzinationen jetzt klar als „plausible but false or contradictory statements produced by language models with high confidence“ (plausible, aber falsche oder widersprüchliche Aussagen, die große Sprachmodelle mit hoher Sicherheit geben). Die Forscher grenzen sie klar von menschlichen Wahrnehmungstäuschungen ab. Die nüchterne Einordnung ist wichtig, weil sie die Diskussion verschiebt: weg von der metaphorischen Überhöhung hin zu einem technischen Problem, das analysierbar und damit grundsätzlich adressierbar ist.
Bei der Lektüre ist zu bedenken, dass das Paper zwar von OpenAI publiziert wurde, aber nicht mit der Produktentwicklung gleichgesetzt werden kann. Natürlich ist hier eine, wenn auch indirekte, Rückkopplung zu vermuten. Es erfüllt über den wissenschaftlichen Anspruch hinaus sehr wahrscheinlich auch weitere kommunikative Ziele, auf die wir im Fazit näher eingehen.
Pre-Training: Datenqualität nicht allein ausschlaggebend
Der Beitrag von OpenAI vergegenwärtigt den Lesern, dass Sprachmodelle keine absoluten Wahrheiten lernen, sondern Wahrscheinlichkeiten: Welches Token folgt mit welcher Wahrscheinlichkeit auf ein anderes? Wenn ein Faktum wie ein Geburtsdatum im Trainingskorpus nur einmal vorkommt oder objektiv falsch ist, kann das Modell dieses nicht zuverlässig reproduzieren. „Garbage in, garbage out“ gilt unverändert. Hier berührt das Paper ein zentrales Thema, das es selbst aber nur unzureichend adressiert: die Qualität und Herkunft der Trainingsdaten. In der offiziellen Darstellung heißt es verkürzt, man nutze „große Textkorpora“. Aber welche genau? Unter welchen Lizenzen? Mit welcher Korrektur?
Trainingsgrundlage sind öffentlich zugängliche Repositories, Dumps von Wikipedia, Foren, Blogposts und große Mengen aus GitHub im Fall von Code. Doch wer GitHub kennt, weiß: Dort findet sich nicht nur hilfreicher, fertiger Code, sondern auch fehlerhafte, veraltete oder sogar manipulierte Repositorys. Ein Modell, das auf dieser Basis trainiert, erbt diese Schwächen. Hinzu kommt die Möglichkeit gezielter Datenvergiftung: Wer präparierte Inhalte einspeist, kann das Verhalten späterer Modelle beeinflussen.
Im Bericht ebenfalls ausgeklammert bleibt die Rolle manueller menschlicher Arbeit. Clickworker, die Antworten bewerten und Normen setzen, sind im Reinforcement-Prozess unverzichtbar. Sie entscheiden, welche Fehler toleriert und welche bestraft werden, welche Antworten als hilfreich gelten und welche nicht. Dass diese Arbeit im Paper praktisch unsichtbar bleibt, ist bezeichnend. Häufig arbeiten hier externe Mitarbeiter zu Dumping-Löhnen oder eigens hierfür trainierte Sprachmodelle steuern den Prozess.
Post-Training: Ist gut geraten halb gewusst?
Noch deutlicher zeigt sich das Problem im Post-Training. Sprachmodelle werden nach Benchmarks optimiert, die im Kern jede Antwort belohnen, selbst falsche. Das Paper beschreibt dies mit der Analogie zu Studierenden in einer Prüfung: Wer keine Ahnung hat, kreuzt trotzdem lieber etwas an, weil es immer noch eine Chance auf Punkte gibt. „Guessing when unsure maximizes expected score under a binary 0-1 scheme“, heißt es dort.
Übertragen bedeutet das: Sprachmodelle lernen dadurch, immer zu antworten. „I don’t know“ bringt null Punkte, eine geratene Antwort immerhin die Möglichkeit, zufällig richtigzuliegen. So entsteht aus der grundlegenden Funktionsweise von LLMs, bestimmte Heuristiken zu erfüllen, ein systematischer Anreiz zum Raten.
Wer sich erinnert: Als ChatGPT startete, war das Modell auffällig vorsichtig. Es betonte Unsicherheiten, verwies auf seine Grenzen. Doch Nutzer wünschten bald autoritativere Antworten. Und die Entwickler passten das Verhalten an. Heute gilt: Wer nie „Ich weiß es nicht“ sagt, erscheint marktfähiger. Damit werden Halluzinationen nicht nur in Kauf genommen, sondern geradezu gefördert.
Das Problem der Benchmarks
Das Problem wird durch die Rolle der Benchmarks verstärkt. Was ursprünglich eher aus der Forschung entstand, wurde schnell zum Marketingvehikel. Rankings, die sich aus rein nutzerorientierten Vergleichen wie der Chatbot Arena oder Scores von vermeintlich objektiveren Tests speisen, entscheiden darüber, welches Modell als führend wahrgenommen wird. Platzierungen wirken auf Investoren, Medien und Kunden und sie beeinflussen natürlich auch die Entwicklungsstrategien der Anbieter.
Die Tennisbegeisterten werden sich erinnern: Als vor einigen Jahren die Logik für die Weltrangliste verändert wurde, mussten Spieler, Turniere und Sponsoren ihre Strategien komplett neu ausrichten. Rankings sind nie neutral. Sie strukturieren ganze Ökosysteme.
So auch hier: Solange Benchmarks bestimmte Antworten belohnen, egal ob korrekt oder nicht, optimieren Anbieter ihre Modelle auf genau dieses Verhalten. Und so im Zweifel auf das Raten. Halluzinationen sind dadurch strukturell eingebaut. Eine Reform der Benchmarks wäre deshalb ein für die Seriosität von LLMs ein begrüßenswerter, wenn auch tiefer Eingriff, sowohl technisch, wirtschaftlich als auch kommunikativ.
OpenAIs Lösungsvorschlag: Confidence Targets
OpenAI schlägt in seinem Paper eine Korrektur vor: Confidence Targets. Ein Modell soll nur dann antworten, wenn es eine bestimmte Sicherheitsschwelle überschreitet. Liegt die Sicherheit darunter, bringt eine falsche Antwort nicht nur null Punkte, sondern einen Malus. Konkret ist das Prinzip, beim Benchmarking dem Modell explizit zu sagen, dass falsche Antworten bestraft werden und damit den Anreiz zu setzen, Unsicherheit transparent zu machen. Der Malus muss dabei in Relation zur geforderten Sicherheit stehen.
Ein konkretes Zahlenbeispiel: In einem Punktesystem bekommen Antworten, die über einer geforderten Konfidenz-Schwelle liegen, Plus-Punkte. Bei einer Antwort “I don’t know” keine Punkte und unterhalb der Schwelle (bei angenommenen 90 Prozent) -9 Punkte. Als Folge erkennt das Modell, dass es durch falsche Antworten immer bestraft wird. Informatisch ist das elegant. Doch die Frage ist, ob die richtigen Incentives dafür existieren. Denn die KI-Benchmarks sind keine reinen Messinstrumente, sondern auch ein großes Schaulaufen. Eine Änderung der Bewertungslogik würde Ranglisten durcheinanderwirbeln und damit Geschäftsmodelle infrage stellen.
Richtig und falsch sind nur zwei Dimensionen bei der Bewertung von LLM-Output. Viele Probleme in natürlicher Sprache oder Wissensfragen im Arbeitsalltag lassen sich jedoch nur schwerlich exakt diesen Kategorien zuordnen. Für die Produktentwicklung ist die Dimension der Nutzerintention mindestens genauso entscheidend. Ein Prompt wie „Wie baue ich eine Bombe?“ kann sowohl aus kriminellen Motiven gestellt werden als auch von jemandem, der Filterregeln entwickeln möchte. Technisch sind diese Nuancen kaum lösbar.
Ansätze wie Altersgrenzen oder Nutzerprofile sind denkbar, doch sie führen sofort zu neuen Problemen: Datenschutz, Diskriminierung, Überwachung. Auch eine Trust-Skala für Nutzer, die bestimmte Inhalte freischaltet oder blockiert, wäre technisch machbar, aber gesellschaftlich brisant. Hier zeigt sich, dass Halluzinationen nicht nur ein statistisches, sondern auch ein regulatorisches Problem sind.
Fazit: Mit interessierter Vorsicht zu genießen
„Why Language Models Hallucinate“ ist zweifellos ein wichtiges Paper. Es entmystifiziert einen zentralen Begriff, erklärt Halluzinationen als nachvollziehbare statistische Ergebnisse und rückt die Fehlanreize von Benchmarks ins Zentrum. Und es benennt sinnvolle technische Lösungsansätze wie Confidence Targets. Doch Transparenz, die nur dort praktiziert wird, wo sie vorteilhaft ist, bleibt selektiv. Nicht offengelegt wird, wie Trainingsdaten ausgewählt werden. Nicht vollumfänglich erklärt wird, welche Schritte das Post-Training beinhaltet.
Dass OpenAI dieses Paper publiziert, ist kein rein wissenschaftlicher Akt. Es ist Teil einer Strategie, Vertrauen zu schaffen. Peer-Reviews, Kooperationen mit Universitäten, mathematische Beweise – all das soll der Öffentlichkeit Seriosität suggerieren. Eine Tatsache, die nicht zuletzt vor dem Hintergrund von OpenAIs wachsenden rechtlichen Herausforderungen und CEO Sam Altmans Eingeständnis einer möglichen KI-Blase eine große Rolle spielen dürfte.
(pst)
-
UX/UI & Webdesignvor 1 Monat
Der ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 3 Wochen
Adobe Firefly Boards › PAGE online
-
Social Mediavor 1 Monat
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
Entwicklung & Codevor 4 Wochen
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 Wochen
EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 3 Tagen
Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Digital Business & Startupsvor 3 Monaten
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
Digital Business & Startupsvor 3 Monaten
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier