Künstliche Intelligenz

GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis

Kaum zwei Tage nach dem Start von GPT-5.3 Instant – OpenAIs Reaktion auf das von vielen Nutzern als zu geschwätzig empfundene GPT-5.2, welches praktisch gleichzeitig mit Anthropic Opus 4.6 erschien – legt das Unternehmen erneut nach: GPT-5.4 ist da, und dieses Mal will OpenAI gleich mehrere Fronten auf einmal bespielen.

Weiterlesen nach der Anzeige

GPT-5.4 soll kein inkrementelles Update sein, sondern bislang getrennte Modell-Linien zusammenbringen – Reasoning, Coding und Wissensarbeit in einem einzigen Frontier-Modell. Laut OpenAI löst GPT-5.4 dabei auch GPT-5.3-Codex-Spark als empfohlenes Modell für Entwickler ab.

Computer-Steuerung und Web-Recherche: GPT-5.4 zieht vorbei

Das wohl auffälligste Novum: GPT-5.4 ist das erste allgemeine OpenAI-Modell mit nativen Computer-Use-Fähigkeiten. Agenten können damit eigenständig Desktop-Umgebungen navigieren, Maus und Tastatur steuern und komplexe Arbeitsabläufe über mehrere Anwendungen hinweg ausführen – ohne spezialisiertes Zusatzmodell.

Auf OSWorld-Verified, dem Standard-Benchmark für agentische Desktop-Steuerung per Screenshot, erreicht GPT-5.4 75 Prozent und übertrifft damit sowohl den menschlichen Referenzwert von 72,4 Prozent als auch Opus 4.6, das bei seiner Veröffentlichung 72,7 Prozent erzielte und damit damals die Messlatte gesetzt hatte. GPT-5.2 lag noch bei 47,3 Prozent.

Ähnlich das Bild bei BrowseComp, dem Benchmark für hartnäckige mehrstufige Web-Recherche: Opus 4.6 hatte hier mit 84,0 Prozent einen klaren Vorsprung gegenüber GPT-5.2 (65,8 Prozent) markiert. GPT-5.4 erreicht nun 82,7 Prozent – knapp dahinter, aber die Pro-Variante übertrifft Opus 4.6 mit 89,3 Prozent deutlich.

Auf dem GDPval-Benchmark, der Agenten-Leistungen in 44 Berufsfeldern misst, hatte Opus 4.6 bei seiner Veröffentlichung GPT-5.2 um rund 144 Elo-Punkte übertroffen – eine der auffälligsten Lücken zwischen den Modellen. GPT-5.4 schließt diese jetzt: Mit einer Gewinnrate von 83 Prozent gegenüber Branchenexperten übertrifft es GPT-5.2s 70,9 Prozent deutlich. Ein direkter Elo-Vergleich mit Opus 4.6 steht noch aus, da beide Unternehmen leicht unterschiedliche GDPval-Varianten berichten.

Weiterlesen nach der Anzeige

Besonders bei Tabellenkalkulationen zeigt sich der Fortschritt: Auf einem internen Benchmark für Investment-Banking-Modellierungsaufgaben erzielt GPT-5.4 87,3 Prozent gegenüber 68,4 Prozent bei GPT-5.2. OpenAI gibt zudem an, die Halluzinationsrate deutlich gesenkt zu haben: Einzelne Aussagen sollen 33 Prozent seltener falsch sein als bei GPT-5.2, vollständige Antworten 18 Prozent seltener Fehler enthalten.

Reasoning und Coding

Auf ARC-AGI-2, dem Benchmark für abstrakte Mustererkennung, setzt GPT-5.4 die deutlichsten Ausrufezeichen: GPT-5.4 in der Pro-Variante erreicht 83,3 Prozent, gefolgt von Googles Gemini 3.1 Pro (Preview) mit 77,1 Prozent, GPT-5.4 in der Standard-Variante mit 73,3 Prozent und Opus 4.6 mit 68,8 Prozent.

Auf Humanity’s Last Exam – einem multidisziplinären Reasoning-Test aus Wissenschaft, Recht und Philosophie – kommt GPT-5.4 laut OpenAI auf 52,1 Prozent, die Pro-Variante auf 58,7 Prozent. Gemini 3.1 Pro liegt je nach Variante bei 51,4 respektive 44,4 Prozent, Opus 4.6 nur bei etwa 35 Prozent.

Beim Coding-Benchmark Terminal-Bench 2.0 hatte Opus 4.6 zum Zeitpunkt seiner Veröffentlichung mit 65,4 Prozent alle anderen Frontier-Modelle angeführt. GPT-5.3-Codex hatte die Spitzenposition mit 77,3 Prozent übernommen und liegt damit knapp über GPT-5.4, das 75,1 Prozent erreicht.

1-Million-Token-Kontext: Experimentell, nicht Standard

Beide Modelle bieten jetzt ein 1-Millionen-Token-Kontextfenster – aber mit unterschiedlichen Ansätzen. OpenAI betont ausdrücklich, dass dies für Codex eine experimentelle Funktion ist, die nicht standardmäßig aktiviert ist. Auch bei Opus 4.6 gilt laut unabhängigen Analysen: Größerer Kontext bedeutet nicht automatisch bessere Ergebnisse – die Prefill-Latenz kann bei 1M Token über zwei Minuten betragen, bevor das erste Output-Token erscheint.

In der Hacker-News-Diskussion bestätigen Nutzer das aus eigener Erfahrung: Mehrere berichten, dass Codex bei vollem Kontext-Fenster den Faden verliere. Als vielversprechendsten Anwendungsfall nennen sie das Reverse Engineering von Code, bei dem große Mengen dekompilierten Codes gleichzeitig analysiert werden müssen. Wichtig für Entwickler: Prompts mit mehr als 272.000 Input-Token werden zum doppelten Input-Preis und 1,5-fachen Output-Preis für die gesamte Session abgerechnet.

Neu eingeführt mit GPT-5.4 wird „Tool Search“. Statt alle Tool-Definitionen von Anfang an in den Prompt zu laden, ruft GPT-5.4 sie bei Bedarf dynamisch ab. In Tests mit 36 MCP-Servern und 250 Aufgaben reduzierte das den Token-Verbrauch um 47 Prozent bei gleicher Genauigkeit. Das ist ein erheblicher Kostenvorteil für tool-intensive Anwendungen.

Eingreifen, während das Modell denkt

GPT-5.4 Thinking zeigt in ChatGPT künftig einen Vorab-Plan seiner Denkschritte an. Nutzer können während der Antwortgenerierung eingreifen und die Richtung korrigieren, ohne von vorne anfangen zu müssen. Das Modell soll zudem bei langen Aufgaben besser den Kontext früherer Gesprächsschritte im Blick behalten.

GPT-5.4 Thinking steht ab sofort für Plus-, Team- und Pro-Nutzer in ChatGPT bereit und löst GPT-5.2 Thinking ab. GPT-5.2 Thinking bleibt noch drei Monate als Legacy-Option verfügbar und wird am 5. Juni 2026 abgeschaltet. In der API ist das Modell unter gpt-5.4 verfügbar, die Pro-Variante als gpt-5.4-pro.

Beim Preis hat OpenAI gegenüber Anthropic einen Vorteil: Opus 4.6 kostet 5 US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token, GPT-5.4 liegt mit 2,50 US-Dollar und 15 US-Dollar deutlich darunter. Hinzu kommt, dass Anthropic den Kontext-Aufpreis bereits ab 200.000 Token erhebt, OpenAI erst ab 272.000 Token. OpenAI argumentiert zudem, die höhere Token-Effizienz von GPT-5.4 reduziere den tatsächlichen Verbrauch zusätzlich.

Wettrennen ohne Pause

OpenAI und Anthropic überbieten sich derzeit in einem Tempo, das selbst Branchenbeobachter kaum noch mitverfolgen können. Während Anthropic-Chef Dario Amodei mit dem Pentagon über KI-Einsatz in autonomen Waffensystemen streitet – und OpenAI in die dadurch entstandene Vertragslücke springt –, liefern sich beide Unternehmen parallel ein Benchmark-Gefecht, bei dem die Zahlen schneller steigen als das Verständnis dafür, was sie bedeuten.

Lesen Sie auch

(vza)

Source link

Verwandte Themen:Anthropic API bessere ChatGPT Computersteuerung Effizienz Fur GPT5.4 ist IT Künstliche Intelligenz Native OpenAI Preise Profis und

Up Next

Project Helix spielt PC-Spiele: Microsoft teast neue Konsolengeneration

Nicht verpassen

Der Ozean als Standort für KI-Rechenzentren

Künstliche Intelligenz

Disney Channel kommt zu Disney+

Nutzer von Disney+ können künftig auch den Disney Channel im Streaming-Dienst aufrufen. Das teilte Disney unter anderem dem Medienmagazin DWDL mit. Ab Mai ist das lineare Programm des Disney Channels demnach auch über Disney+ aufrufbar. Voraussetzung ist ein aktives Abonnement, ein Aufpreis fällt nicht an.

Weiterlesen nach der Anzeige

Der Disney Channel ist ein vorwiegend an Kinder ausgerichteter, linearer Fernsehsender. In Deutschland ist der im FreeTV zu sehen und ist unter anderem bereits in waipu.tv und MagentaTV integriert. Auch in verschiedenen Satelliten- und Kabelpaketen ist der Disney Channel bereits integriert. Mit dem Einbau in Disney+ gibt es bald einen weiteren Empfangsweg.

„Die Integration des Disney Channel auf Disney+ ist der nächste logische Schritt“, zitiert DWDL die Disney-Managerin Eun-Ky Park. „Wir verbinden Orientierung und gemeinsames Fernseherlebnis mit der Flexibilität von Streaming und bieten unserem Publikum ohne zusätzliche Kosten noch mehr Auswahl.“ Das Programm des Disney Channels ist auf der offiziellen Webseite einsehbar.

ESPN kommt nach Deutschland

Neben dem Disney Channel bringt Disney auch ESPN zu seinem deutschen Streaming-Dienst: Das Angebot des Sportsenders soll in Deutschland stark ausgebaut werden. Unter dem ESPN-Banner wird schon jetzt Frauenfußball und US-amerikanischer College-Sport gebündelt.

Im Verlauf des kommenden Jahres soll über ESPN ein „abwechslungsreiches Portfolio“ aus US-Sportligen wie NBA (Basketball) und NHL (Eishockey) in Deutschland zu sehen sein, kündigte Disney an. Beide Sportligen sollen zur kommenden Saison 2026 bis 2027 international abrufbar sein – auch im Rahmen von Live-Übertragungen, die in Europa teilweise mitten in der Nacht stattfinden. Zusätzlich sollen Abonnenten von Disney+ Zugang zu ESPN-Dokus wie der „30 for 30“-Reihe bekommen und Newsprogramme aus der Sportwelt sehen können.

Source link

Künstliche Intelligenz

Nur mit Zertifikat: Long-Term-Support für OpenSearch

Im Rahmen seiner europäischen Hauskonferenz hat die OpenSearch Foundation eine Version mit Langzeitunterstützung (LTS) von OpenSearch angekündigt. Den LTS-Status erhalten zu Beginn die aktuelle Version 3.6 sowie OpenSearch 2.19 als finales Release der vorherigen Hauptversion. Künftig soll es pro Hauptversion eine LTS-Variante geben, die mindestens 18 Monate Support erhält.

Weiterlesen nach der Anzeige

Zertifizierte Drittanbieter übernehmen LTS-Programm

Um einem Vendor-Lock-in vorzubeugen, können Anwender selbst festlegen, welcher Anbieter die LTS-Leistung erbringen soll. Zwar gibt es Dienstleister, die OpenSearch anbieten, für die Bereitstellung des langfristigen Supports ist jedoch eine Zertifizierung durch die OpenSearch Foundation erforderlich. So müssen die Unternehmen belastbare Fristen zum Bereitstellen von Patches, Upgrade-Möglichkeiten und Basisarbeit in der Community nachweisen.

Konkret verspricht die OpenSearch Foundation, dass Sicherheitspatches und Bugfixes nach maximal 60 Tagen bereitstehen und sich Upgrades im laufenden Betrieb einspielen lassen, ohne OpenSearch-Dienste herunterfahren zu müssen. Derzeit gibt es mit Bigdata Boutique, Eliatra und Resolve drei zertifizierte Anbieter.

OpenSearch 3.6: KI-Agent baut Suchanwendungen autonom

Die zentralen Neuerungen in OpenSearch 3.6 liegen im Bereich der agentenbasierten KI. Mit dem neuen OpenSearch Launchpad sollen Anwender innerhalb von Minuten eigene Suchanwendungen erstellen können, ohne technische OpenSearch-Kenntnisse zu benötigen. Stattdessen können Anwender ihre Vorgaben in Dokumenten oder per Chat an die Plattform übergeben, die dann eigenständig eine lokale Anwendung mit grafischer Oberfläche einrichtet.

Launchpad ist die erste Fähigkeit der neuen OpenSearch Agent Skills. Sie enthalten und verknüpfen das technische Wissen für den Bau von Suchanwendungen. Alle darin enthaltenen Werkzeuge sollen sich über das Model Context Protocol (MCP) mit verschiedenen Entwicklungsumgebungen integrieren lassen, darunter Claude Code, Cursor und Kiro.

Anbindung an externe Sprachmodelle

Weiterlesen nach der Anzeige

Eine weitere Neuerung ist der OpenSearch Agent Server. Er gehört zur KI-Agenten-Infrastruktur von OpenSearch. Der Agent Server leitet Anfragen weiter, spricht über MCP mit OpenSearch und kann mit LLM-Anbietern wie AWS Bedrock oder Ollama kommunizieren. Die technischen Voraussetzungen sind Python 3.12 oder neuer, OpenSearch 2.x oder neuer und eine Anbindung an das bevorzugte Sprachmodell.

Zum Agent Server gehört der ebenfalls neue, noch experimentelle OpenSearch Relevance Agent. Mit ihm können Anwender über Anweisungen in natürlicher Sprache das Nutzungsverhalten einer Suche auswerten, datengetriebene Hypothesen generieren und Verbesserungsvorschläge evaluieren lassen. Dazu orchestriert der Relevance Agent die Kommunikation mit spezialisierten KI-Agenten und ist auch über die Chat-Schnittstelle in das Cockpit von OpenSearch integriert. Neben der Weiterleitung von Nachrichten wertet er die erhaltenen Antworten aus und gibt eine Zusammenfassung im Cockpit aus.

Die neuen Funktionen von OpenSearch 3.6 finden sich im Entwicklerblog des Projekts. Nach einem Lizenzstreit spaltete sich OpenSearch im Jahr 2021 als quelloffener Fork von ElasticSearch ab. AWS betrieb das Projekt bis zur Übergabe an die Linux Foundation im Jahr 2024.

(sfe)

Source link

Künstliche Intelligenz

Kindle Scribe Colorsoft im Test: Amazons erstes E-Ink-Tablet mit Farbdisplay

Optisch unterscheidet sich der Kindle Scribe Colorsoft auf den ersten Blick von seinem Vorgänger. Der Bildschirm mit seiner 11-Zoll-Diagonale ist ein wenig größer als der 10-Zöller des Vorgängers und sitzt nun symmetrisch im Gehäuse. Durch den gleichmäßigen, schmalen Rahmen sieht der Scribe Colorsoft schicker aus als sein Vorgänger mit dem einseitig breiten Rand. In ergonomischer Hinsicht allerdings ist es eine Verschlechterung, denn der breite Rand war praktisch, um das Gerät bei der Lektüre zu halten. Da das Tablet weniger als 400 Gramm wiegt, wird auch beim längeren Lesen der Arm nicht schwer.

Das Gehäuse besteht aus einer Unibody-Rückseite aus Aluminium und einer Bildschirmabdeckung aus mattiertem Kunststoff, nur unterbrochen von einer USB-C-Buchse an der Unterseite und dem Einschalter rechts. Das Gerät macht einen äußerst wertigen Eindruck, allerdings geht das Design zulasten der Reparierbarkeit. Um ans Innere des Tablets zu gelangen, muss der ins Gehäuse geklebte Bildschirm herausgelöst werden – Laien sollten die Finger davon lassen. Ersatzteile oder Reparaturanleitungen liefert Amazon nicht.

Die Hardware hat Amazon im Vergleich zum Erstling aufgemöbelt. Im Innern verrichtet ein nicht näher benannter Vierkernprozessor seinen Dienst, er ersetzt den Zweikerner des Vorgängers. Der Prozessor erreicht eine maximale Taktrate von 2 GHz. Zwar ist bei E-Ink-Tablets in der Regel eher die langsame Bildwiederholrate des Bildschirms der limitierende Faktor als der Prozessor. Doch da der Kindle mit Farbdisplay häufiger mal mit größeren Dateien wie Comics und PDFs hantieren dürfte als sein monochromer Kollege, scheint die Aufstockung angeraten. Amazon verkauft den Kindle in zwei Versionen mit 32 oder 64 GByte Speicher.

Das war die Leseprobe unseres heise-Plus-Artikels „Kindle Scribe Colorsoft im Test: Amazons erstes E-Ink-Tablet mit Farbdisplay“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.

Source link

Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar

Künstliche Intelligenzvor 2 Monaten

Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar

Community Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast

Social Mediavor 2 Monaten

Community Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast

Community Management zwischen Reichweite und Verantwortung

Social Mediavor 2 Monaten

Community Management zwischen Reichweite und Verantwortung

Eindrucksvolle neue Identity für White Ribbon › PAGE online

UX/UI & Webdesignvor 3 Monaten

Eindrucksvolle neue Identity für White Ribbon › PAGE online

Community-Protest erfolgreich: Galera bleibt Open Source in MariaDB

Entwicklung & Codevor 1 Monat

Community-Protest erfolgreich: Galera bleibt Open Source in MariaDB

Interview: Massiver Anstieg der AU‑Fälle nicht durch die Telefon‑AU erklärbar

Künstliche Intelligenzvor 3 Monaten

Interview: Massiver Anstieg der AU‑Fälle nicht durch die Telefon‑AU erklärbar

Smartphone‑Teleaufsätze im Praxistest: Was die Technik kann – und was nicht

Künstliche Intelligenzvor 2 Monaten

Smartphone‑Teleaufsätze im Praxistest: Was die Technik kann – und was nicht

Intel Nova Lake aus N2P-Fertigung: 8P+16E-Kerne samt 144 MB L3-Cache werden ~150 mm² groß

Apps & Mobile Entwicklungvor 2 Monaten

Intel Nova Lake aus N2P-Fertigung: 8P+16E-Kerne samt 144 MB L3-Cache werden ~150 mm² groß

Inspohub

GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis

Künstliche Intelligenz

GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis

Computer-Steuerung und Web-Recherche: GPT-5.4 zieht vorbei

Reasoning und Coding

1-Million-Token-Kontext: Experimentell, nicht Standard

Eingreifen, während das Modell denkt

Wettrennen ohne Pause

Lesen Sie auch

Künstliche Intelligenz

Disney Channel kommt zu Disney+

ESPN kommt nach Deutschland

Künstliche Intelligenz

Nur mit Zertifikat: Long-Term-Support für OpenSearch

Zertifizierte Drittanbieter übernehmen LTS-Programm

OpenSearch 3.6: KI-Agent baut Suchanwendungen autonom

Anbindung an externe Sprachmodelle

Künstliche Intelligenz

Kindle Scribe Colorsoft im Test: Amazons erstes E-Ink-Tablet mit Farbdisplay

Disney Channel kommt zu Disney+

Angriffe auf Cisco SD-WAN, Zimbra, TeamCity, PaperCut und mehr beobachtet

Zähne ausbeißen auf Chinesisch: HBM3 für Made-in-China-Chips von CXMT erneut verschoben

Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar

Community Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast

Community Management zwischen Reichweite und Verantwortung

Beliebt

Inspohub

GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis

Computer-Steuerung und Web-Recherche: GPT-5.4 zieht vorbei

Reasoning und Coding

1-Million-Token-Kontext: Experimentell, nicht Standard

Eingreifen, während das Modell denkt

Wettrennen ohne Pause

Das könnte Ihnen gefallen

Künstliche Intelligenz

Disney Channel kommt zu Disney+

ESPN kommt nach Deutschland

Künstliche Intelligenz

Nur mit Zertifikat: Long-Term-Support für OpenSearch

Zertifizierte Drittanbieter übernehmen LTS-Programm

OpenSearch 3.6: KI-Agent baut Suchanwendungen autonom

Anbindung an externe Sprachmodelle

Künstliche Intelligenz

Kindle Scribe Colorsoft im Test: Amazons erstes E-Ink-Tablet mit Farbdisplay

Disney Channel kommt zu Disney+

Angriffe auf Cisco SD-WAN, Zimbra, TeamCity, PaperCut und mehr beobachtet

Zähne ausbeißen auf Chinesisch: HBM3 für Made-in-China-Chips von CXMT erneut verschoben

Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar

Community Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast

Community Management zwischen Reichweite und Verantwortung

Beliebt