Entwicklung & Code

GPT-5 im Vergleich: Softwareentwicklung sehr gut, Kreativität nur ausreichend


Am 7. August ist das von vielen mit Spannung erwartete GPT-5 erschienen. So offen OpenAI mit den wenige Tage zuvor veröffentlichten GPT-OSS-Modellen umgeht, so wenig ist über die Architektur von GPT-5 bekannt. Daher müssen viele Details Spekulation bleiben. Und wie so oft bei neuen Modellen gehen die Meinungen in der Community stark auseinander.




Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.

Dass OpenAI einige Ideen für die GPT-OSS-Modelle dem kurz danach veröffentlichten großen GPT-5 entliehen hat, wäre anzunehmen. Vieles deutet aber darauf hin, dass GPT-5 nicht auf das schlanke MXFP4-Format setzt, das GPT-OSS so effizient macht. Die Gründe kennt nur OpenAI. Es ist schade, dass Unternehmen wie Anthropic, OpenAI und in gewissem Maße auch Google so wenig über die Architektur ihrer großen Modelle verraten.

Klar ist aber zumindest, dass GPT-5 ein sogenanntes Routing-Modell ist. Je nach Komplexität der Frage beantwortet das Modell sie entweder direkt oder gibt sie an ein Reasoning-Modell weiter, das dann versucht, das Problem strukturiert zu lösen. Leider klappt das nicht immer, wie die im Folgenden gezeigten ersten Versuche belegen.

Anders als die bisher von OpenAI veröffentlichten Modelle steht GPT-5 allen Nutzerinnen und Nutzern direkt zum Start zur Verfügung. Die interessante Strategieänderung könnte darauf zurückzuführen sein, dass das neue Modell dank Routing deutlich effizienter arbeitet und OpenAI damit Infrastruktur und somit Geld sparen kann, wenn möglichst viele das neue Modell nutzen.

OpenAI hat nach der Veröffentlichung von GPT-5 für viele User ältere Modelle wie GPT-4o und GPT-o3 in den unterschiedlichen Varianten nicht mehr bereitgestellt. Das Vorgehen hat OpenAI allerdings inzwischen korrigiert, sodass zumindest zahlende Kunden auch wieder alte Modelle wählen können.

Bei ersten Versuchen zeigt sich, dass GPT-5 Wissensfragen kompetent beantwortet:



Die Informationen zum Heise Verlag sind weitgehend fundiert, auch wenn die heise Developer World zuletzt vor neun Jahren auf der CeBIT stattfand.

Das Routing zu den Reasoning-Modellen funktioniert gut und verarbeitet den Erdbeertest korrekt. Im Netz kursieren aber auch Berichte über von GPT-5 falsch beantwortete Varianten der Strawberry-Challenge auf Englisch.



Den Erdbeertest löst GPT-5, wobei das Reasoning durch das Spezialmodell auf Englisch erfolgt und lustigerweise Großschreibung kleingeschrieben ist.

Bei komplexeren Fragen kommen allerdings nicht immer die richtigen Antworten heraus. Die Frage nach der Primfaktorenzerlegung von 220+1 beantwortet das Modell zwar eloquent und mit vielen Formeln, die Antwort ist aber leider falsch:



Dass GPT-5 die falsche Antwort plausibel begründet, ist ein typisches Phänomen bei LLMs.

Ein interessantes Detail an dieser Konversation ist, dass GPT-5 manchmal die LaTeX-Notation verwendet, manchmal aber auch nicht. Offenbar hat es aus unterschiedlichen Trainingsdaten gelernt. Durch deren Harmonisierung könnte OpenAI sicher die Performance verbessern. Allerdings sind weder der Trainingsprozess noch die dazugehörigen Gewichte bekannt. Der Fehler in der Rechnung erklärt sich dadurch, dass 220+1 nicht durch 241 dividierbar ist, die richtige Primfaktoren-Zerlegung wäre 17*61.681, das richtige Ergebnis also 61.681.

Hinsichtlich des Trainings reicht das Wissen von GPT-5 wie bei GPT-OSS bis zum Juni 2024. Die im Artikel gezeigten Chats sind auf der ChatGPT-Seite zu finden.

Erwartungsgemäß ist die Community in Bezug auf GPT-5 gespalten. User gewöhnen sich an Sprachmodelle wie an alte Freunde, und wenn sie plötzlich anders agieren, sind einige besonders begeistert, andere reagieren mit Ablehnung. Einige Meinungen treten auffällig häufig auf: weniger kreative Antworten, gut für die Softwareentwicklung geeignet, Enttäuschung im Vergleich zum Wettbewerb und Fortschritte beim Frontend.

Verringerte Kreativität: Nutzer kritisieren oft, dass das Modell weniger kreativ antwortet als die GPT-4-Modelle. Das könnte damit zusammenhängen, dass die Frage über das das Routing an ein simpleres Modell gelangt, das nicht über das notwendige Wissen für eine kreative Antwort verfügt.

Gut fürs Programmieren: Viele, die das Modell gut finden, sind besonders überzeugt von den Programmierfähigkeiten. Auch hier könnte ein Spezialmodell dahinterstehen, an das GPT-5 die Prompts weitergibt. Es ist denkbar, dass OpenAI dieses Modell mit gruppenbezogener Strategieoptimierung (Group Relative Policy Optimization, GRPO) trainiert hat, einer Methode, die das chinesische Unternehmen DeepSeek erfunden und veröffentlicht hat.

Vergleich mit Claude und Gemini 2.5 Pro: Viele Nutzerinnen und Nutzer sind enttäuscht und bevorzugen die Modelle von Anthropic und Google. Auch hier könnten Bias oder Gewöhnungseffekte eine entscheidende Rolle spielen. Harte Fakten wie die größere Kontextlänge (400.000 für GPT-5 im Vergleich zu bis zu einer Million Token bei anderen Anbietern) sprechen auch für die Modelle der Wettbewerber.

Frontend: Dass OpenAI mächtig aufgeräumt hat und unter anderem mehr Themes anbietet, sieht die Community allgemein positiv.



Source link

Beliebt

Die mobile Version verlassen