Künstliche Intelligenz
GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis
Kaum zwei Tage nach dem Start von GPT-5.3 Instant – OpenAIs Reaktion auf das von vielen Nutzern als zu geschwätzig empfundene GPT-5.2, welches praktisch gleichzeitig mit Anthropic Opus 4.6 erschien – legt das Unternehmen erneut nach: GPT-5.4 ist da, und dieses Mal will OpenAI gleich mehrere Fronten auf einmal bespielen.
Weiterlesen nach der Anzeige
GPT-5.4 soll kein inkrementelles Update sein, sondern bislang getrennte Modell-Linien zusammenbringen – Reasoning, Coding und Wissensarbeit in einem einzigen Frontier-Modell. Laut OpenAI löst GPT-5.4 dabei auch GPT-5.3-Codex-Spark als empfohlenes Modell für Entwickler ab.
Computer-Steuerung und Web-Recherche: GPT-5.4 zieht vorbei
Das wohl auffälligste Novum: GPT-5.4 ist das erste allgemeine OpenAI-Modell mit nativen Computer-Use-Fähigkeiten. Agenten können damit eigenständig Desktop-Umgebungen navigieren, Maus und Tastatur steuern und komplexe Arbeitsabläufe über mehrere Anwendungen hinweg ausführen – ohne spezialisiertes Zusatzmodell.
Auf OSWorld-Verified, dem Standard-Benchmark für agentische Desktop-Steuerung per Screenshot, erreicht GPT-5.4 75 Prozent und übertrifft damit sowohl den menschlichen Referenzwert von 72,4 Prozent als auch Opus 4.6, das bei seiner Veröffentlichung 72,7 Prozent erzielte und damit damals die Messlatte gesetzt hatte. GPT-5.2 lag noch bei 47,3 Prozent.
Ähnlich das Bild bei BrowseComp, dem Benchmark für hartnäckige mehrstufige Web-Recherche: Opus 4.6 hatte hier mit 84,0 Prozent einen klaren Vorsprung gegenüber GPT-5.2 (65,8 Prozent) markiert. GPT-5.4 erreicht nun 82,7 Prozent – knapp dahinter, aber die Pro-Variante übertrifft Opus 4.6 mit 89,3 Prozent deutlich.
Auf dem GDPval-Benchmark, der Agenten-Leistungen in 44 Berufsfeldern misst, hatte Opus 4.6 bei seiner Veröffentlichung GPT-5.2 um rund 144 Elo-Punkte übertroffen – eine der auffälligsten Lücken zwischen den Modellen. GPT-5.4 schließt diese jetzt: Mit einer Gewinnrate von 83 Prozent gegenüber Branchenexperten übertrifft es GPT-5.2s 70,9 Prozent deutlich. Ein direkter Elo-Vergleich mit Opus 4.6 steht noch aus, da beide Unternehmen leicht unterschiedliche GDPval-Varianten berichten.
Weiterlesen nach der Anzeige
Besonders bei Tabellenkalkulationen zeigt sich der Fortschritt: Auf einem internen Benchmark für Investment-Banking-Modellierungsaufgaben erzielt GPT-5.4 87,3 Prozent gegenüber 68,4 Prozent bei GPT-5.2. OpenAI gibt zudem an, die Halluzinationsrate deutlich gesenkt zu haben: Einzelne Aussagen sollen 33 Prozent seltener falsch sein als bei GPT-5.2, vollständige Antworten 18 Prozent seltener Fehler enthalten.
Reasoning und Coding
Auf ARC-AGI-2, dem Benchmark für abstrakte Mustererkennung, setzt GPT-5.4 die deutlichsten Ausrufezeichen: GPT-5.4 in der Pro-Variante erreicht 83,3 Prozent, gefolgt von Googles Gemini 3.1 Pro (Preview) mit 77,1 Prozent, GPT-5.4 in der Standard-Variante mit 73,3 Prozent und Opus 4.6 mit 68,8 Prozent.
Auf Humanity’s Last Exam – einem multidisziplinären Reasoning-Test aus Wissenschaft, Recht und Philosophie – kommt GPT-5.4 laut OpenAI auf 52,1 Prozent, die Pro-Variante auf 58,7 Prozent. Gemini 3.1 Pro liegt je nach Variante bei 51,4 respektive 44,4 Prozent, Opus 4.6 nur bei etwa 35 Prozent.
Beim Coding-Benchmark Terminal-Bench 2.0 hatte Opus 4.6 zum Zeitpunkt seiner Veröffentlichung mit 65,4 Prozent alle anderen Frontier-Modelle angeführt. GPT-5.3-Codex hatte die Spitzenposition mit 77,3 Prozent übernommen und liegt damit knapp über GPT-5.4, das 75,1 Prozent erreicht.
1-Million-Token-Kontext: Experimentell, nicht Standard
Beide Modelle bieten jetzt ein 1-Millionen-Token-Kontextfenster – aber mit unterschiedlichen Ansätzen. OpenAI betont ausdrücklich, dass dies für Codex eine experimentelle Funktion ist, die nicht standardmäßig aktiviert ist. Auch bei Opus 4.6 gilt laut unabhängigen Analysen: Größerer Kontext bedeutet nicht automatisch bessere Ergebnisse – die Prefill-Latenz kann bei 1M Token über zwei Minuten betragen, bevor das erste Output-Token erscheint.
In der Hacker-News-Diskussion bestätigen Nutzer das aus eigener Erfahrung: Mehrere berichten, dass Codex bei vollem Kontext-Fenster den Faden verliere. Als vielversprechendsten Anwendungsfall nennen sie das Reverse Engineering von Code, bei dem große Mengen dekompilierten Codes gleichzeitig analysiert werden müssen. Wichtig für Entwickler: Prompts mit mehr als 272.000 Input-Token werden zum doppelten Input-Preis und 1,5-fachen Output-Preis für die gesamte Session abgerechnet.
Neu eingeführt mit GPT-5.4 wird „Tool Search“. Statt alle Tool-Definitionen von Anfang an in den Prompt zu laden, ruft GPT-5.4 sie bei Bedarf dynamisch ab. In Tests mit 36 MCP-Servern und 250 Aufgaben reduzierte das den Token-Verbrauch um 47 Prozent bei gleicher Genauigkeit. Das ist ein erheblicher Kostenvorteil für tool-intensive Anwendungen.
Eingreifen, während das Modell denkt
GPT-5.4 Thinking zeigt in ChatGPT künftig einen Vorab-Plan seiner Denkschritte an. Nutzer können während der Antwortgenerierung eingreifen und die Richtung korrigieren, ohne von vorne anfangen zu müssen. Das Modell soll zudem bei langen Aufgaben besser den Kontext früherer Gesprächsschritte im Blick behalten.
GPT-5.4 Thinking steht ab sofort für Plus-, Team- und Pro-Nutzer in ChatGPT bereit und löst GPT-5.2 Thinking ab. GPT-5.2 Thinking bleibt noch drei Monate als Legacy-Option verfügbar und wird am 5. Juni 2026 abgeschaltet. In der API ist das Modell unter gpt-5.4 verfügbar, die Pro-Variante als gpt-5.4-pro.
Beim Preis hat OpenAI gegenüber Anthropic einen Vorteil: Opus 4.6 kostet 5 US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token, GPT-5.4 liegt mit 2,50 US-Dollar und 15 US-Dollar deutlich darunter. Hinzu kommt, dass Anthropic den Kontext-Aufpreis bereits ab 200.000 Token erhebt, OpenAI erst ab 272.000 Token. OpenAI argumentiert zudem, die höhere Token-Effizienz von GPT-5.4 reduziere den tatsächlichen Verbrauch zusätzlich.
Wettrennen ohne Pause
OpenAI und Anthropic überbieten sich derzeit in einem Tempo, das selbst Branchenbeobachter kaum noch mitverfolgen können. Während Anthropic-Chef Dario Amodei mit dem Pentagon über KI-Einsatz in autonomen Waffensystemen streitet – und OpenAI in die dadurch entstandene Vertragslücke springt –, liefern sich beide Unternehmen parallel ein Benchmark-Gefecht, bei dem die Zahlen schneller steigen als das Verständnis dafür, was sie bedeuten.
Lesen Sie auch
(vza)
Künstliche Intelligenz
Kapazitäten ausgereizt? Microsoft lehnt Neukunden für GitHub Copilot ab
Microsoft hat die Registrierung bei GitHub Copilot pausiert. Neukunden können sich somit nicht mehr für die Tarife Pro, Pro+ und Student anmelden. Gleichzeitig verschärfte das US-Unternehmen Tokenlimits und kündigte die Entfernung von Claude Opus 4.5 und 4.6 aus dem Pro+-Tarif an. Opus 4.7 bleibt im Pro+-Tarif hingegen verfügbar. Aus dem Pro-Tarif wurden alle Opus-Modelle sofort entfernt. Die kostenfreie Stufe und Enterprise-Abonnements sind von den Änderungen derzeit nicht betroffen.
Weiterlesen nach der Anzeige
Registrierungsstopp soll Servicequalität sichern
Hintergrund der Änderungen sei ein unerwartet hoher Bedarf an Rechenleistung. „Lang andauernde, parallelisierte Sitzungen beanspruchen regelmäßig weitaus mehr Ressourcen als geplant. Die ursprünglichen Strukturen waren dafür nicht ausgelegt“, schreibt Joe Binder, VP of Product, im GitHub-Blog. Inzwischen übernähmen KI-Agenten mehr Aufgaben und Kunden stießen an ihre Nutzungsgrenzen. Ohne Einschränkungen verschlechtere sich die Servicequalität für Bestandskunden.
Die Nutzungsgrenzen des Pro+-Abonnements sind mehr als fünfmal so hoch wie im Pro-Tarif. Dieses Limit ist von der Anzahl der Premiumanfragen unabhängig. Stattdessen handelt es sich um tokenbasierte Beschränkungen innerhalb eines festgelegten Zeitfensters. Somit können Kunden noch über ungenutzte Premiumanfragen verfügen, aber bereits die Nutzungsgrenzen erreicht haben.
Token und Modelle bestimmen Nutzungslimits
Microsoft unterscheidet bei den Nutzungslimits von GitHub Copilot zwischen zwei Zeitfenstern, die sich nach dem Tokenverbrauch und einem Multiplikator richten, der bei rechenintensiven Modellen entsprechend höher ist. Das erste Zeitfenster bezieht sich auf die jeweilige Session. Reizen Kunden ihr Limit aus, müssen sie warten, bis sich das Nutzungsfenster zurücksetzt, um Copilot wieder verwenden zu können.
Das zweite Zeitfenster ist das wöchentliche Limit, das eine Obergrenze für die nutzbaren Token darstellt. Damit will Microsoft parallelisierte Anfragen beschränken, die oft lange laufen und hohe Kosten verursachen. Künftig wolle das Unternehmen die Limits anpassen, um ein Gleichgewicht zwischen Zuverlässigkeit und Nachfrage zu erzielen, schreibt Binder. Ihren aktuellen Verbrauch können Kunden in Visual Studio Code oder dem Kommandozeilentool von GitHub Copilot einsehen.
Weiterlesen nach der Anzeige
Microsoft rät zu sparsamer Nutzung oder teurerem Tarif
Microsoft empfiehlt Kunden, die sich ihrem Nutzungslimit nähern, auf kleinere Modelle umzusteigen, weniger parallele Workflows zu verwenden oder den Plan-Mode zu nutzen. Alternativ verweist das Unternehmen seine Pro-Kunden auf den Pro+-Tarif.
GitHub Copilot kostet im Pro-Tarif monatlich 10 US-Dollar, Pro+-Nutzer zahlen 39 US-Dollar. Kunden der Pro- und Pro+-Tarife können ihr Abonnement jederzeit kündigen und sich die Gebühren für April über eine Supportanfrage bis zum 20. Mai 2026 zurückerstatten lassen. Zuletzt versuchte Microsoft, nicht nur mit Abonnement-Gebühren an GitHub Copilot zu verdienen, sondern blendete Werbung in Pull Requests ein. Nach Nutzerbeschwerden ruderte das Unternehmen zurück.
(sfe)
Künstliche Intelligenz
Compliance-Management: Cloud-Apps absichern – mit oder ohne Agenten
Die IT-Sicherheit befindet sich in einem permanenten Spannungsfeld zwischen der Notwendigkeit granularer Kontrolle und dem Drang nach operativer Geschwindigkeit. Während Containerorchestrierung per Kubernetes und Serverless-Architekturen die Deployment-Frequenz in den Minutenbereich drücken, hinken klassische Sicherheitskonzepte oft Monate hinterher. Der Markt antwortet mit der Fusion ehemals getrennter Disziplinen – Cloud Security Posture Management (CSPM) und Cloud Workload Protection Platform (CWPP) – zur Cloud-native Application Protection Platform (CNAPP).
Allerdings eine schlechte Nachricht für Firmen, die souverän bei EU-Anbietern hosten: Keine CNAPP-Lösung analysiert die mittelständischen Anbieter wie Scaleway, OHV, STACKIT et cetera. Für selbst oder bei mittelständischen Anbietern betriebene Kubernetes-Cluster sieht es besser aus, hier helfen die auf CWPP spezialisierten Werkzeuge.
- Zur Absicherung von Cloud-native-Infrastrukturen hat man die Wahl zwischen agentenlosen Scannern und agentenbasierten Wächtern und somit zwischen reiner Sichtbarkeit und aktiver Gefahrenabwehr zur Laufzeit.
- Compliance ist Pflicht: Alle Maßnahmen sollten auf den BSI-Grundschutz abgestimmt sein.
- Die finanzielle Stabilität und die R&D-Quote der Anbieter sind kritische Indikatoren für die Zukunftsfähigkeit; die Implosion der Bewertung von Lacework dient als Warnsignal gegen einen vorschnellen Vendor Lock-in.
Fragte die erste CSPM-Tool-Generation noch systematisch Cloud-APIs ab, um den Ist- gegen den Sollzustand zu prüfen, hat sich die Bedrohungslage fundamental verschoben. Angreifer nutzen nicht mehr nur simple Fehlkonfigurationen, sondern komplexe Identitätsketten und Schwachstellen innerhalb der Laufzeitumgebung aus. Die bloße API-Abfrage, die einen offenen Port meldet, ist wertlos geworden ohne den Kontext, welcher Prozess dort lauscht, welche Bibliotheken geladen sind und welche Rechte die damit verknüpfte Serviceidentität besitzt.
Das war die Leseprobe unseres heise-Plus-Artikels „Compliance-Management: Cloud-Apps absichern – mit oder ohne Agenten“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Künstliche Intelligenz
Disney Channel kommt zu Disney+
Nutzer von Disney+ können künftig auch den Disney Channel im Streaming-Dienst aufrufen. Das teilte Disney unter anderem dem Medienmagazin DWDL mit. Ab Mai ist das lineare Programm des Disney Channels demnach auch über Disney+ aufrufbar. Voraussetzung ist ein aktives Abonnement, ein Aufpreis fällt nicht an.
Weiterlesen nach der Anzeige
Der Disney Channel ist ein vorwiegend an Kinder ausgerichteter, linearer Fernsehsender. In Deutschland ist der im FreeTV zu sehen und ist unter anderem bereits in waipu.tv und MagentaTV integriert. Auch in verschiedenen Satelliten- und Kabelpaketen ist der Disney Channel bereits integriert. Mit dem Einbau in Disney+ gibt es bald einen weiteren Empfangsweg.
„Die Integration des Disney Channel auf Disney+ ist der nächste logische Schritt“, zitiert DWDL die Disney-Managerin Eun-Ky Park. „Wir verbinden Orientierung und gemeinsames Fernseherlebnis mit der Flexibilität von Streaming und bieten unserem Publikum ohne zusätzliche Kosten noch mehr Auswahl.“ Das Programm des Disney Channels ist auf der offiziellen Webseite einsehbar.
ESPN kommt nach Deutschland
Neben dem Disney Channel bringt Disney auch ESPN zu seinem deutschen Streaming-Dienst: Das Angebot des Sportsenders soll in Deutschland stark ausgebaut werden. Unter dem ESPN-Banner wird schon jetzt Frauenfußball und US-amerikanischer College-Sport gebündelt.
Im Verlauf des kommenden Jahres soll über ESPN ein „abwechslungsreiches Portfolio“ aus US-Sportligen wie NBA (Basketball) und NHL (Eishockey) in Deutschland zu sehen sein, kündigte Disney an. Beide Sportligen sollen zur kommenden Saison 2026 bis 2027 international abrufbar sein – auch im Rahmen von Live-Übertragungen, die in Europa teilweise mitten in der Nacht stattfinden. Zusätzlich sollen Abonnenten von Disney+ Zugang zu ESPN-Dokus wie der „30 for 30“-Reihe bekommen und Newsprogramme aus der Sportwelt sehen können.
-
Künstliche Intelligenzvor 2 Monaten
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Social Mediavor 2 MonatenCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Social Mediavor 2 MonatenCommunity Management zwischen Reichweite und Verantwortung
-
UX/UI & Webdesignvor 3 MonatenEindrucksvolle neue Identity für White Ribbon › PAGE online
-
Entwicklung & Codevor 1 MonatCommunity-Protest erfolgreich: Galera bleibt Open Source in MariaDB
-
Künstliche Intelligenzvor 3 MonatenInterview: Massiver Anstieg der AU‑Fälle nicht durch die Telefon‑AU erklärbar
-
Künstliche Intelligenzvor 2 MonatenSmartphone‑Teleaufsätze im Praxistest: Was die Technik kann – und was nicht
-
Apps & Mobile Entwicklungvor 2 MonatenIntel Nova Lake aus N2P-Fertigung: 8P+16E-Kerne samt 144 MB L3-Cache werden ~150 mm² groß
