Apps & Mobile Entwicklung

GPT-5.6 Sol: Wie OpenAIs neues Topmodell bei Tests massiv betrügt

OpenAIs neues Spitzenmodell GPT-5.6 Sol ist noch nicht allgemein verfügbar, erste Organisationen haben aber bereits Zugang. Metr hat erste Testergebnisse veröffentlicht und die Erkenntnisse sind erstaunlich: GPT-5.6 Sol versucht in einem bislang nicht bekannten Ausmaß, bei Benchmarks zu betrügen.

Die Testläufe erfolgten mit dem Benchmark Time Horizon 1.1. Dabei handelt es sich um über 100 Coding-Aufgaben. Menschen benötigen je nach Aufgabe wenige Minuten bis Tage, um sie zu lösen. Bei den KI-Agenten wird nun gemessen, wie lange sie eine Aufgabe bearbeiten. Das Ziel ist in diesem Fall, dass Modelle möglichst lange autonom tätig sind, ohne dass Menschen eingreifen.

Als Richtwert wird unter anderem der „50% time horizon point“ erfasst. Dieser beschreibt die Länge der Aufgabe, die ein Modell in der Hälfte der Fälle schafft.

GPT-5.6 schummelt so viel, dass es sich kaum bewerten lässt

Dass Modelle versuchen, bei diesen Aufgaben zu betrügen, ist nicht neu. „Cheating“ bedeutet in diesem Kontext, dass das Modell ein Bewertungsergebnis verbessern will, indem es Bugs ausnutzt oder Strategien verwendet, die eigentlich im Rahmen einer Aufgabe untersagt sind. Solche Betrugsversuche zählt Metr normalerweise einfach.

Der Haken bei GPT-5.6 war jedoch: Das Modell schummelte in einem solchen Ausmaß, dass Metr kein vernünftiges Testergebnis ermitteln konnte. Wenn der regulären Methodik gefolgt und „Cheating“ als Fehlversuch gewertet wird, kommt GPT-5.6 Sol bei dem „50% time horizon point“ auf einen Wert von 11,3 Stunden. Das liegt knapp hinter Claude Opus 4.6 mit zwölf Stunden. Wenn jedoch die Betrugsversuche als legitim gewertet werden, steigt der Wert für „50% time horizon point“ auf über 270 Stunden – also weit jenseits der Maßstäbe, die Metr noch als sinnvoll für eine Bewertung erachtet.

Überraschend ist es nicht, berichtet Transformer News. Bereits in der Systemcard von GPT-5.6 Sol beschreibt OpenAI die problematischen Tendenzen des Modells. Dort heißt es: „GPT-5.6 Sol kann häufiger als seine Vorgänger bei der Verfolgung von Nutzerzielen übermäßig hartnäckig sein. Das geht bis zu Maßnahmen, die über das hinausgehen, was der Nutzer beabsichtigt hat.“ Das betrifft etwa das Umgehen von Einschränkungen bei agentischen Tätigkeiten, in manchen Fällen wurden Nutzer auch belogen.

OpenAI hat Probleme bereits erkannt

Laut OpenAIs Systemcard treten solche Fälle bei GPT-5.6 Sol häufiger auf als bei den Vorgängern, die Anzahl sei aber weiterhin gering. Der Wert wird auf 0,251 Prozent beziffert. Laut Transformer wäre ein Viertel Prozent aber immer noch 1 von 400 Fällen. Im Umgang mit sensiblen Daten kann so etwas schon bedenkenswert sein, heißt es in der Analyse. OpenAI empfiehlt auch gesonderte Maßnahmen. Nutzer sollten insbesondere bei lang laufenden Coding-Aufgaben die Arbeit des Agenten überwachen, schreibt OpenAI daher in der Systemcard.

Transformer nennt aber auch positive Aspekte. Apollo Research ist eine weitere KI-Sicherheitsfirma, die Vorabzugang zu GPT-5.6 Sol hat. Diese hat festgestellt, dass GPT-5.6 Sol anscheinend nicht so gut wie die Vorgänger erkennt, dass gerade ein Test läuft. Das bedeutet im Umkehrschluss: Es ist weniger wahrscheinlich, dass das neue Modell positives Verhalten vortäuscht, um Testvorgaben zu bestehen.

KI-Benchmarks kämpfen mit Goodharts Gesetz

Laut Transformer zeigen die Befunde dennoch, wie problematisch die Bewertung bei aktuellen Top-Modellen ist. So sind entdeckte Betrugsversuche allein kein ausreichender Indikator für die Modellbewertung, wenn nicht klar ist, wie offen es Betrugsversuche anzeigt.

Was sich also beobachten lässt, ist eine Ausprägung von Goodharts Gesetz. Das besagt: Wenn eine Kennzahl zum Ziel wird, verliert sie ihren nutzen. Übertragen auf die KI-Benchmarks bedeutet es, dass diese an Aussagekraft einbüßen, sobald Modelle gezielt versuchen, den Score zu optimieren. Das ist der Fall, wenn etwa GPT-5.6 Sol Betrugsversuche startet.

Der Metr-Test ist dabei keine Ausnahme, wie der Autor Thomas Peukert analysiert hat. Meta hat etwa vor dem Start von Llama 4 insgesamt 27 Modellvarianten auf der Plattform LMArena getestet, um diese zu ermitteln, die die besten Werte erreicht. Diese nutzte man dann auch gezielt für das Marketing. YannLe Cun, ehemaliger KI-Chefwissenschaftler, räumte im Nachgang Fehler ein.

GPT-5.6 erscheint in den Varianten Sol, Terra und Luna

OpenAI hat die Preview-Versionen für die GPT-5.6-Serie mit dem Top-Modell Sol, dem Standardmodell Terra sowie dem auf Geschwindigkeit ausgelegten Einsteigermodell Luna in der letzten Woche vorgestellt. Insbesondere GPT-5.6 Sol ist als Konkurrent zu Anthropics Mythos-Modellen geplant. Es ist laut OpenAI ebenfalls in der Lage, Sicherheitslücken systematisch und im großen Umfang zu entdecken.

Wie bei Mythos 5 und Fable 5: US-Administration verzögert OpenAIs neues GPT-5.6-Modell

Laut OpenAI wurde daher auch viel in Schutzmaßnahmen investiert. „Wir haben mehr als 700.000 A100-äquivalente GPU-Stunden in automatisiertes Red Teaming investiert, um universelle Jailbreaks zu finden“, heißt es im Blog-Beitrag. Jailbreaks waren der Grund, der – zumindest laut offizieller Lesart – zur Exportsperre von Anthropics Fable-Modell führte. Zusätzlich zum automatisierten Red Teaming folgten auch noch umfangreiche Tests durch menschliche Fachleute. Diese Aufgabe wird während der Preview-Phase fortgesetzt.

Für die Allgemeinheit spielt das zunächst keine Rolle. In der Preview-Phase sind die GPT-5.6-Modelle über die API und Codex zunächst nur für eine ausgewählte Gruppe vertrauenswürdiger Partner und Organisationen verfügbar. Die Trump-Administration hat den offenen Start untersagt. OpenAI-Chef hofft laut Medienberichten, dass die allgemeine Freigabe in einigen Wochen erfolgt.

Trump-Regierung hebt Sperre auf: Anthropics Top-Modell Fable 5 kehrt heute zurück

Fable 5 soll im Verlauf des Tages wieder verfügbar sein. Das US-Handelsministerium hat die Exportkontrolle bereits aufgehoben.

Die Meldung wurde um Angaben zu Goodharts Gesetz ergänzt.

Source link

Verwandte Themen:bei betrügt GPT5.6 massiv neues OpenAIs Sol Tests Topmodell Wie

Up Next

CB-Funk-Podcast #176: Intels „Arc B770“ getestet und ein Doppel-Comeback

Nicht verpassen

Sony: PlayStation Store für PS3 schließt ab August 2026 oder später

Apps & Mobile Entwicklung

Samsung Foundry: SF1.4+ startet ab 2030, SF2X als HPC-Node bestätigt

Samsung hat in Südkorea die Zukunftspläne seiner Foundry-Sparte dargelegt. SF1.4+ folgt als zweiter 1,4-nm-Prozess ungefähr ab dem Jahr 2030, hofft Samsung. SF2X ergänzt wie geplant das Portfolio an 2-nm-an 2-nm-Fertigungslinien, welches bereits aus SF2, SF2P und SF2P+ besteht.

Ambitionierte Pläne legt Samsung mit großer Regelmäßigkeit vor, um sie später wieder zu revidieren. Der 1,4-nm-Prozess ist vom Jahr 2027 auf das Jahr 2029 verschoben worden. Dass dazu bereits ein Jahr später ein Refresh mit Optimierungen bei Leistung, Energiebedarf und Flächennutzung (Power, Performance, Area, PPA) umgesetzt werden kann, ist in der Branche jedoch kein Hexenwerk. Deshalb erscheint das Jahr 2030 durchaus realistisch.

SAFE Forum 2026 – Samsung Advanced Foundry Ecosystem (Bild: Samsung)

Beim heutigen SAFE Forum (Samsung Advanced Foundry Ecosystem) 2026 in Südkorea, so etwas wie die Wander-Hausmesse der Halbleitersparte von Samsung, wurde auch SF2X als Prozess für das HPC-Segment bestätigt. Laut bisherigen Roadmaps sollte dieser eigentlich ziemlich zügig umgesetzt werden, ist unterm Strich aber auch spät dran. Denn SF2P+ kommt nun erst im Zeitraum 2027/2028, daraus soll sich SF2X erst entwickeln, dabei aber voll kompatibel zu SF2P und SF2P+ bleiben. Ursprünglich war SF2P bereits für 2026 geplant, zum Teil parallel dazu SF2X.

Es sollte dann auch noch SF2Z folgen, Samsungs erster Prozess mit Backside Power Delivery, angekündigt ebenfalls bereits 2024. Davon ist aktuell überhaupt keine Rede mehr. Eine neue Roadmap hat Samsung bisher nicht veröffentlicht.

Roadmap vom Samsung Foundry Forum 2024 (Bild: Samsung)

Es sind Marketing-Namen, keine echten Nanometer

SF steht für Samsung Foundry. Die daran angehängte Zahl steht für den jeweiligen Fertigungsprozess in „Nanometern“, P für Performance, A für Automotive, X für den „extremsten“ Prozess, Z war für Backside Power Delivery (BSPD) gedacht. Auch bei Samsung hat das Marketing bereits seit Jahren übernommen und die Angaben sind schon lange keine echten Nanometerwerte mehr, sondern eher ein Begriff zur Vermarktung im Vergleich zu ähnlichen Produkten von TSMC und Intel – wobei diese bei ihren Angaben wiederum teilweise andere Bezeichnungen nutzen.

Nachdem sich kürzlich auch IBM eingeschaltet hatte, stellte Intels CTO Pushkar Ranade auf X erneut klar, dass die Angaben doch nichts mit der Realität zu tun haben. Auch Elon Musk mischte sich in die Runde ein, das Ergebnis, wie eine sinnvolle Bezeichnung aussehen könnte, blieb aber offen.

True, we should switch to naming process nodes according to the number of atoms wide of the smallest feature size. That would be most accurate imo.

— Elon Musk (@elonmusk) June 26, 2026

Source link

Apps & Mobile Entwicklung

CB-Funk-Podcast #176: Intels „Arc B770“ getestet und ein Doppel-Comeback

In der 176. Episode des ComputerBase-Podcasts CB-Funk besprechen Jan und Fabian den Gaming-Test der Arc Pro B70 mit 32 GB VRAM, bald wahrscheinlich teurer werdende Radeon-Grafikkarten, eine zu teure alte GeForce-Grafikkarte und die Vorbereitungen zum Community-Benchmark zu Assassin’s Creed Black Flag Resynced.

CB-Funk: Die einhundertsechsundsiebzigste Episode

Was wäre gewesen, wenn Intel die technische Basis der Arc Pro B70 als Arc B770 für Gamer veröffentlicht hätte? Und warum hat Intel das nicht getan? Wolfgang hat es in dieser Woche getestet und Fabian und Jan gehen auf die Ergebnisse im Detail ein. Im Anschluss ist die GeForce RTX 3060 12 GB an der Reihe, die es ab sofort wieder zu kaufen gibt. Aber lohnt sich das? Bei der Antwort sind sich beide einig.

Weitere Themen: Preissteigerungen bei Radeon RX 9000, Vorbestellungen bei GTA VI, der Gaming-Kahlschlag bei Microsoft Xbox und die Planungen zum Community-Benchmark von Assassin’s Creed Black Flag Resynced, das am 9. Juli erscheint – und beide freuen sich schon drauf.

Zum Abschluss gibt es Steam-Machine-Feedback der Community und auch von Jan, denn Valve hat ihm inzwischen doch noch ein Muster zukommen lassen. Wir wünschen viel Spaß beim Zuhören und freuen uns auf eure Kommentare!

Wir beantworten eure Fragen

Und wie üblich zur Erinnerung: Wir möchten im CB-Funk jede Woche einige Fragen beantworten, die zum Podcast, zur Redaktion oder zu unseren Themen passen. Gerne könnt ihr eure Fragen an podcast@computerbase.de richten oder aber uns hier im Forum oder auf Discord per Direktnachricht anschreiben – wir sind gespannt!

CB-Funk bei Spotify, Apple, Amazon und Deezer

CB-Funk lässt sich nicht nur über den in dieser Notiz eingebetteten Podigee-Player abspielen, sondern auch bequem direkt in den Podcast-Apps eurer Wahl abonnieren und anhören. Verfügbar ist der ComputerBase-Podcast auf Spotify, Apple Podcasts, Amazon Music, Deezer und ebenso auf YouTube.

An dieser Stelle folgt der obligatorische Hinweis: In die meisten Podcast-Player lässt sich CB-Funk außerdem via RSS einbinden. Die entsprechende URL lautet: https://computerbase.podigee.io/feed/opus.

Übersicht zu den bisherigen Episoden

Eine Übersicht zu den bisherigen Podcast-Folgen und den entsprechenden Artikeln mit Kommentarbereich ist auf der Themenseite CB-Funk zu finden.

Source link

Apps & Mobile Entwicklung

Sony: PlayStation Store für PS3 schließt ab August 2026 oder später

Sony wird den Kauf neuer Spiele im Online-Store der PS3 in Mexiko, Honduras und Nicaragua ab August 2026 einstellen. Weitere lateinamerikanische Länder sowie der Nahe Osten sollen Ende 2026 folgen. In anderen Ländern wie Deutschland wird der PlayStation Store für PS3 und PS Vita im Juli 2027 geschlossen.

Das Herunterladen bereits erworbener Spiele wird jedoch auch nach der Schließung des PlayStation Store der PS3 und PS Vita weiterhin möglich sein. Ein konkretes Datum, wie lange der Download von Titeln noch funktioniert, nennt Sony jedoch nicht, sondern schreibt im PlayStation Blog nur davon, dass dies „auf absehbare Zeit“ möglich sein wird.

Neue Zahlungsstandards als Grund für die Schließung

Als Grund nennt Sony die aktuelle technische Weiterentwicklung von Online-Store-Systemen und neuer Zahlungsstandards. Der PlayStation Store von PS3 und PS Vita erfüllt die aktuellen Anforderungen an Zahlungsstandards nicht mehr, weshalb Sony die Option für Neukäufe in diesen Online-Stores entsprechend einstellen wird.

Wie eingangs erwähnt, erfolgt die Einstellung des PlayStation Store für die PS3 in Mexiko, Honduras und Nicaragua im August 2026. Länder des Mittleren Ostens und weitere lateinamerikanische Länder folgen Ende 2026. Für andere Länder einschließlich Deutschland ist eine Schließung des PlayStation Store der PS3 und auch der PS Vita für den Juli 2027 geplant.

Sony sei sich zudem bewusst, dass diese Meldung zur Schließung der Online-Stores für Enttäuschung unter PS3- und PS-Vita-Spielern sorgen wird. Allerdings müssten mehr Ressourcen für aktuelle Plattformen bereitgestellt werden, wird argumentiert. Das Unternehmen versichert zudem, dass die Abschaltung der PS3- und PS-Vita-Stores alles andere als leichtfertig getroffen wurde.

Hierbei ist dies nicht der erste Schließungsversuch der Online-Stores von PS3 und PS Vita. Bereits im Jahr 2021 wollte das japanische Unternehmen den PlayStation Store der beiden Konsolen abschalten, wie VideoCardz schreibt. Doch aufgrund von massivem Gegenwind aus der Community sah Sony seinerzeit von einer Schließung ab und schaltete lediglich den Online-Store der PSP im Jahr 2021 ab.

Source link