Apps & Mobile Entwicklung

GPT-5.6 Sol: Wie OpenAIs neues Topmodell bei Tests massiv betrügt

OpenAIs neues Spitzenmodell GPT-5.6 Sol ist noch nicht allgemein verfügbar, erste Organisationen haben aber bereits Zugang. Metr hat erste Testergebnisse veröffentlicht und die Erkenntnisse sind erstaunlich: GPT-5.6 Sol versucht in einem bislang nicht bekannten Ausmaß, bei Benchmarks zu betrügen.

Die Testläufe erfolgten mit dem Benchmark Time Horizon 1.1. Dabei handelt es sich um über 100 Coding-Aufgaben. Menschen benötigen je nach Aufgabe wenige Minuten bis Tage, um sie zu lösen. Bei den KI-Agenten wird nun gemessen, wie lange sie eine Aufgabe bearbeiten. Das Ziel ist in diesem Fall, dass Modelle möglichst lange autonom tätig sind, ohne dass Menschen eingreifen.

Als Richtwert wird unter anderem der „50% time horizon point“ erfasst. Dieser beschreibt die Länge der Aufgabe, die ein Modell in der Hälfte der Fälle schafft.

GPT-5.6 schummelt so viel, dass es sich kaum bewerten lässt

Dass Modelle versuchen, bei diesen Aufgaben zu betrügen, ist nicht neu. „Cheating“ bedeutet in diesem Kontext, dass das Modell ein Bewertungsergebnis verbessern will, indem es Bugs ausnutzt oder Strategien verwendet, die eigentlich im Rahmen einer Aufgabe untersagt sind. Solche Betrugsversuche zählt Metr normalerweise einfach.

Der Haken bei GPT-5.6 war jedoch: Das Modell schummelte in einem solchen Ausmaß, dass Metr kein vernünftiges Testergebnis ermitteln konnte. Wenn der regulären Methodik gefolgt und „Cheating“ als Fehlversuch gewertet wird, kommt GPT-5.6 Sol bei dem „50% time horizon point“ auf einen Wert von 11,3 Stunden. Das liegt knapp hinter Claude Opus 4.6 mit zwölf Stunden. Wenn jedoch die Betrugsversuche als legitim gewertet werden, steigt der Wert für „50% time horizon point“ auf über 270 Stunden – also weit jenseits der Maßstäbe, die Metr noch als sinnvoll für eine Bewertung erachtet.

Überraschend ist es nicht, berichtet Transformer News. Bereits in der Systemcard von GPT-5.6 Sol beschreibt OpenAI die problematischen Tendenzen des Modells. Dort heißt es: „GPT-5.6 Sol kann häufiger als seine Vorgänger bei der Verfolgung von Nutzerzielen übermäßig hartnäckig sein. Das geht bis zu Maßnahmen, die über das hinausgehen, was der Nutzer beabsichtigt hat.“ Das betrifft etwa das Umgehen von Einschränkungen bei agentischen Tätigkeiten, in manchen Fällen wurden Nutzer auch belogen.

OpenAI hat Probleme bereits erkannt

Laut OpenAIs Systemcard treten solche Fälle bei GPT-5.6 Sol häufiger auf als bei den Vorgängern, die Anzahl sei aber weiterhin gering. Der Wert wird auf 0,251 Prozent beziffert. Laut Transformer wäre ein Viertel Prozent aber immer noch 1 von 400 Fällen. Im Umgang mit sensiblen Daten kann so etwas schon bedenkenswert sein, heißt es in der Analyse. OpenAI empfiehlt auch gesonderte Maßnahmen. Nutzer sollten insbesondere bei lang laufenden Coding-Aufgaben die Arbeit des Agenten überwachen, schreibt OpenAI daher in der Systemcard.

Transformer nennt aber auch positive Aspekte. Apollo Research ist eine weitere KI-Sicherheitsfirma, die Vorabzugang zu GPT-5.6 Sol hat. Diese hat festgestellt, dass GPT-5.6 Sol anscheinend nicht so gut wie die Vorgänger erkennt, dass gerade ein Test läuft. Das bedeutet im Umkehrschluss: Es ist weniger wahrscheinlich, dass das neue Modell positives Verhalten vortäuscht, um Testvorgaben zu bestehen.

KI-Benchmarks kämpfen mit Goodharts Gesetz

Laut Transformer zeigen die Befunde dennoch, wie problematisch die Bewertung bei aktuellen Top-Modellen ist. So sind entdeckte Betrugsversuche allein kein ausreichender Indikator für die Modellbewertung, wenn nicht klar ist, wie offen es Betrugsversuche anzeigt.

Was sich also beobachten lässt, ist eine Ausprägung von Goodharts Gesetz. Das besagt: Wenn eine Kennzahl zum Ziel wird, verliert sie ihren nutzen. Übertragen auf die KI-Benchmarks bedeutet es, dass diese an Aussagekraft einbüßen, sobald Modelle gezielt versuchen, den Score zu optimieren. Das ist der Fall, wenn etwa GPT-5.6 Sol Betrugsversuche startet.

Der Metr-Test ist dabei keine Ausnahme, wie der Autor Thomas Peukert analysiert hat. Meta hat etwa vor dem Start von Llama 4 insgesamt 27 Modellvarianten auf der Plattform LMArena getestet, um diese zu ermitteln, die die besten Werte erreicht. Diese nutzte man dann auch gezielt für das Marketing. YannLe Cun, ehemaliger KI-Chefwissenschaftler, räumte im Nachgang Fehler ein.

GPT-5.6 erscheint in den Varianten Sol, Terra und Luna

OpenAI hat die Preview-Versionen für die GPT-5.6-Serie mit dem Top-Modell Sol, dem Standardmodell Terra sowie dem auf Geschwindigkeit ausgelegten Einsteigermodell Luna in der letzten Woche vorgestellt. Insbesondere GPT-5.6 Sol ist als Konkurrent zu Anthropics Mythos-Modellen geplant. Es ist laut OpenAI ebenfalls in der Lage, Sicherheitslücken systematisch und im großen Umfang zu entdecken.

Wie bei Mythos 5 und Fable 5: US-Administration verzögert OpenAIs neues GPT-5.6-Modell

Laut OpenAI wurde daher auch viel in Schutzmaßnahmen investiert. „Wir haben mehr als 700.000 A100-äquivalente GPU-Stunden in automatisiertes Red Teaming investiert, um universelle Jailbreaks zu finden“, heißt es im Blog-Beitrag. Jailbreaks waren der Grund, der – zumindest laut offizieller Lesart – zur Exportsperre von Anthropics Fable-Modell führte. Zusätzlich zum automatisierten Red Teaming folgten auch noch umfangreiche Tests durch menschliche Fachleute. Diese Aufgabe wird während der Preview-Phase fortgesetzt.

Für die Allgemeinheit spielt das zunächst keine Rolle. In der Preview-Phase sind die GPT-5.6-Modelle über die API und Codex zunächst nur für eine ausgewählte Gruppe vertrauenswürdiger Partner und Organisationen verfügbar. Die Trump-Administration hat den offenen Start untersagt. OpenAI-Chef hofft laut Medienberichten, dass die allgemeine Freigabe in einigen Wochen erfolgt.

Trump-Regierung hebt Sperre auf: Anthropics Top-Modell Fable 5 kehrt heute zurück

Fable 5 soll im Verlauf des Tages wieder verfügbar sein. Das US-Handelsministerium hat die Exportkontrolle bereits aufgehoben.

Die Meldung wurde um Angaben zu Goodharts Gesetz ergänzt.

Source link

Verwandte Themen:bei betrügt GPT5.6 massiv neues OpenAIs Sol Tests Topmodell Wie

Inspohub