Künstliche Intelligenz
GPT-5.4 ist da: Native Computer-Steuerung und bessere Effizienz für Profis
Kaum zwei Tage nach dem Start von GPT-5.3 Instant – OpenAIs Reaktion auf das von vielen Nutzern als zu geschwätzig empfundene GPT-5.2, welches praktisch gleichzeitig mit Anthropic Opus 4.6 erschien – legt das Unternehmen erneut nach: GPT-5.4 ist da, und dieses Mal will OpenAI gleich mehrere Fronten auf einmal bespielen.
Weiterlesen nach der Anzeige
GPT-5.4 soll kein inkrementelles Update sein, sondern bislang getrennte Modell-Linien zusammenbringen – Reasoning, Coding und Wissensarbeit in einem einzigen Frontier-Modell. Laut OpenAI löst GPT-5.4 dabei auch GPT-5.3-Codex-Spark als empfohlenes Modell für Entwickler ab.
Computer-Steuerung und Web-Recherche: GPT-5.4 zieht vorbei
Das wohl auffälligste Novum: GPT-5.4 ist das erste allgemeine OpenAI-Modell mit nativen Computer-Use-Fähigkeiten. Agenten können damit eigenständig Desktop-Umgebungen navigieren, Maus und Tastatur steuern und komplexe Arbeitsabläufe über mehrere Anwendungen hinweg ausführen – ohne spezialisiertes Zusatzmodell.
Auf OSWorld-Verified, dem Standard-Benchmark für agentische Desktop-Steuerung per Screenshot, erreicht GPT-5.4 75 Prozent und übertrifft damit sowohl den menschlichen Referenzwert von 72,4 Prozent als auch Opus 4.6, das bei seiner Veröffentlichung 72,7 Prozent erzielte und damit damals die Messlatte gesetzt hatte. GPT-5.2 lag noch bei 47,3 Prozent.
Ähnlich das Bild bei BrowseComp, dem Benchmark für hartnäckige mehrstufige Web-Recherche: Opus 4.6 hatte hier mit 84,0 Prozent einen klaren Vorsprung gegenüber GPT-5.2 (65,8 Prozent) markiert. GPT-5.4 erreicht nun 82,7 Prozent – knapp dahinter, aber die Pro-Variante übertrifft Opus 4.6 mit 89,3 Prozent deutlich.
Auf dem GDPval-Benchmark, der Agenten-Leistungen in 44 Berufsfeldern misst, hatte Opus 4.6 bei seiner Veröffentlichung GPT-5.2 um rund 144 Elo-Punkte übertroffen – eine der auffälligsten Lücken zwischen den Modellen. GPT-5.4 schließt diese jetzt: Mit einer Gewinnrate von 83 Prozent gegenüber Branchenexperten übertrifft es GPT-5.2s 70,9 Prozent deutlich. Ein direkter Elo-Vergleich mit Opus 4.6 steht noch aus, da beide Unternehmen leicht unterschiedliche GDPval-Varianten berichten.
Weiterlesen nach der Anzeige
Besonders bei Tabellenkalkulationen zeigt sich der Fortschritt: Auf einem internen Benchmark für Investment-Banking-Modellierungsaufgaben erzielt GPT-5.4 87,3 Prozent gegenüber 68,4 Prozent bei GPT-5.2. OpenAI gibt zudem an, die Halluzinationsrate deutlich gesenkt zu haben: Einzelne Aussagen sollen 33 Prozent seltener falsch sein als bei GPT-5.2, vollständige Antworten 18 Prozent seltener Fehler enthalten.
Reasoning und Coding
Auf ARC-AGI-2, dem Benchmark für abstrakte Mustererkennung, setzt GPT-5.4 die deutlichsten Ausrufezeichen: GPT-5.4 in der Pro-Variante erreicht 83,3 Prozent, gefolgt von Googles Gemini 3.1 Pro (Preview) mit 77,1 Prozent, GPT-5.4 in der Standard-Variante mit 73,3 Prozent und Opus 4.6 mit 68,8 Prozent.
Auf Humanity’s Last Exam – einem multidisziplinären Reasoning-Test aus Wissenschaft, Recht und Philosophie – kommt GPT-5.4 laut OpenAI auf 52,1 Prozent, die Pro-Variante auf 58,7 Prozent. Gemini 3.1 Pro liegt je nach Variante bei 51,4 respektive 44,4 Prozent, Opus 4.6 nur bei etwa 35 Prozent.
Beim Coding-Benchmark Terminal-Bench 2.0 hatte Opus 4.6 zum Zeitpunkt seiner Veröffentlichung mit 65,4 Prozent alle anderen Frontier-Modelle angeführt. GPT-5.3-Codex hatte die Spitzenposition mit 77,3 Prozent übernommen und liegt damit knapp über GPT-5.4, das 75,1 Prozent erreicht.
1-Million-Token-Kontext: Experimentell, nicht Standard
Beide Modelle bieten jetzt ein 1-Millionen-Token-Kontextfenster – aber mit unterschiedlichen Ansätzen. OpenAI betont ausdrücklich, dass dies für Codex eine experimentelle Funktion ist, die nicht standardmäßig aktiviert ist. Auch bei Opus 4.6 gilt laut unabhängigen Analysen: Größerer Kontext bedeutet nicht automatisch bessere Ergebnisse – die Prefill-Latenz kann bei 1M Token über zwei Minuten betragen, bevor das erste Output-Token erscheint.
In der Hacker-News-Diskussion bestätigen Nutzer das aus eigener Erfahrung: Mehrere berichten, dass Codex bei vollem Kontext-Fenster den Faden verliere. Als vielversprechendsten Anwendungsfall nennen sie das Reverse Engineering von Code, bei dem große Mengen dekompilierten Codes gleichzeitig analysiert werden müssen. Wichtig für Entwickler: Prompts mit mehr als 272.000 Input-Token werden zum doppelten Input-Preis und 1,5-fachen Output-Preis für die gesamte Session abgerechnet.
Neu eingeführt mit GPT-5.4 wird „Tool Search“. Statt alle Tool-Definitionen von Anfang an in den Prompt zu laden, ruft GPT-5.4 sie bei Bedarf dynamisch ab. In Tests mit 36 MCP-Servern und 250 Aufgaben reduzierte das den Token-Verbrauch um 47 Prozent bei gleicher Genauigkeit. Das ist ein erheblicher Kostenvorteil für tool-intensive Anwendungen.
Eingreifen, während das Modell denkt
GPT-5.4 Thinking zeigt in ChatGPT künftig einen Vorab-Plan seiner Denkschritte an. Nutzer können während der Antwortgenerierung eingreifen und die Richtung korrigieren, ohne von vorne anfangen zu müssen. Das Modell soll zudem bei langen Aufgaben besser den Kontext früherer Gesprächsschritte im Blick behalten.
GPT-5.4 Thinking steht ab sofort für Plus-, Team- und Pro-Nutzer in ChatGPT bereit und löst GPT-5.2 Thinking ab. GPT-5.2 Thinking bleibt noch drei Monate als Legacy-Option verfügbar und wird am 5. Juni 2026 abgeschaltet. In der API ist das Modell unter gpt-5.4 verfügbar, die Pro-Variante als gpt-5.4-pro.
Beim Preis hat OpenAI gegenüber Anthropic einen Vorteil: Opus 4.6 kostet 5 US-Dollar pro Million Input-Token und 25 US-Dollar pro Million Output-Token, GPT-5.4 liegt mit 2,50 US-Dollar und 15 US-Dollar deutlich darunter. Hinzu kommt, dass Anthropic den Kontext-Aufpreis bereits ab 200.000 Token erhebt, OpenAI erst ab 272.000 Token. OpenAI argumentiert zudem, die höhere Token-Effizienz von GPT-5.4 reduziere den tatsächlichen Verbrauch zusätzlich.
Wettrennen ohne Pause
OpenAI und Anthropic überbieten sich derzeit in einem Tempo, das selbst Branchenbeobachter kaum noch mitverfolgen können. Während Anthropic-Chef Dario Amodei mit dem Pentagon über KI-Einsatz in autonomen Waffensystemen streitet – und OpenAI in die dadurch entstandene Vertragslücke springt –, liefern sich beide Unternehmen parallel ein Benchmark-Gefecht, bei dem die Zahlen schneller steigen als das Verständnis dafür, was sie bedeuten.
Lesen Sie auch
(vza)
Künstliche Intelligenz
Enttäuschung für die Forschung: Asteroid 2024 YR₄ wird den Mond klar verfehlen
Der erdnahe Asteroid 2024 YR4 wird kurz vor Weihnachten 2032 auch den Mond verfehlen und stellt damit auch über diesen Umweg keine Gefahr mehr für die Erde dar. Das haben zwei Beobachtungen mit dem Weltraumteleskop James Webb ergeben, die im Februar viel früher möglich wurden als erwartet, hat die Europäische Weltraumagentur ESA jetzt publik gemacht. Eigentlich hatte es geheißen, dass der Himmelskörper erst in mehreren Jahren wieder beobachtet und Gewissheit über dessen Bahn im Jahr 2032 erlangt werden könnte. Im Februar habe es aber nun eine unerwartete Gelegenheit gegeben, seine Bahn genauer zu ermitteln. Die Messungen haben demnach ergeben, dass der Asteroid den Mond um mehr als 20.000 km Entfernung verfehlen wird.
Weiterlesen nach der Anzeige
Einschlag konnte ungewöhnlich lange nicht ausgeschlossen werden
Wie die ESA erläutert, ist 2024 YR4 im Februar aus der Perspektive des modernsten Weltraumteleskops vor Sternen vorbeigeflogen, deren Position dank des Weltraumteleskops Gaia sehr präzise bekannt war. Trotz der Daten sei es aber eine enorme Herausforderung gewesen, einen der lichtschwächsten Asteroiden wiederzufinden. Gelungen ist das mit der Nahinfrarotkamera (NIRCam). „Jahrzehnte an Ingenieursarbeit, internationaler Zusammenarbeit und Innovationen in der Wissenschaft, Technik und bei planetarer Verteidigung gipfelten in der Nutzung des leistungsstärksten robotergesteuerten Weltraumteleskops der Menschheit, das von vielen Nationen gebaut wurde, um einen entfernten Staubfleck in der Leere zu entdecken und eine Frage von universeller Bedeutung für alle Bewohner unseres Planeten zu beantworten“, fasst die ESA jetzt zusammen.
2024 YR4 hat Anfang 2025 wochenlang für Aufsehen gesorgt, nachdem der Asteroid am 27. Dezember 2024 kurz nach seinem jüngsten Rendezvous mit der Erde entdeckt wurde. Folgebeobachtungen haben dann ergeben, dass ein Einschlag des Asteroiden bei seinem übernächsten Rendezvous mit unserem Heimatplaneten nicht ausgeschlossen werden konnte. Mehrere Wochen und damit ungewöhnlich lange stand der Asteroid deshalb an der Spitze der Listen von ESA und NASA mit den aktuell gefährlichsten Himmelskörpern. Erst vor einem Jahr haben die Beobachtungsdaten dann ergeben, dass der Erde keine Gefahr durch den etwa 60 Meter großen Himmelskörper droht.
Nachdem eine Gefahr für die Erde ausgeschlossen werden konnte, rückte aber in den Fokus, dass der Asteroid immer noch den Mond treffen könnte. Auch da galt es aber immer noch als deutlich wahrscheinlicher, dass beide Objekte sich verfehlen. Nachdem der Asteroid aber vorerst nicht mehr mit unseren Instrumenten beobachtet werden konnte, lag die ermittelte Wahrscheinlichkeit einer Kollision bei 4,3 Prozent. In der Forschung wurden trotz dieser sehr geringen Wahrscheinlichkeit fleißig die Daumen gedrückt, denn solch ein Einschlag mit derart viel Vorlaufzeit wäre eine einzigartige Gelegenheit für die Wissenschaft gewesen. Jetzt ist es klar, dass das nicht passieren wird.
(mho)
Künstliche Intelligenz
Project Helix spielt PC-Spiele: Microsoft teast neue Konsolengeneration
Die neue Xbox-Generation entsteht unter dem Codenamen „Project Helix“: Die neue Xbox-CEO Asha Sharma beginnt ihre neue Amtszeit mit einer großen Ankündigung. Die neue Konsole soll neben Xbox-Spielen auch PC-Titel spielen, bestätigte Sharma. Entsprechende Hinweise gibt es schon seit Monaten.
Weiterlesen nach der Anzeige
Sharmas X-Post ist eher ein Teaser als eine volle Ankündigung der Next-Gen-Konsole von Microsoft. Es ist zumindest eine Bestätigung, dass überhaupt noch eine neue Xbox auf den Markt kommt – Microsoft hat mit der Series X/S eine durchwachsene Konsolengeneration durchlebt und sich zuletzt mehr dem Spiele-Publishing als den Hardware-Verkäufen verschrieben. Entsprechend hatten einige Fans die Befürchtung, dass es gar keine neue Xbox mehr geben wird.
Die Xbox als richtiger PC
Wahrscheinlicher war aber jederzeit das Konzept, das Sharma nun bestätigt: Eine Xbox, die gewissermaßen auch ein richtiger PC ist. Die aktuelle Xbox läuft zwar streng genommen bereits mit einem Windows-Betriebssystem, kann aber lediglich Xbox-Spiele nativ abspielen. Project Helix kann also sowohl Spieleauswahl als auch Einsatzszenarien im Vergleich zur aktuellen Xbox massiv erweitern – und hätte einen klaren Mehrwert gegenüber der Playstation. Zusätzlich würde die Xbox mit Gaming-PCs und der Steam Machine konkurrieren.
Der Nachteil für Microsoft: Man verliert ein wenig die Kontrolle über das Xbox-Ökosystem, zumal voraussichtlich auch unabhängige PC-Stores wie Steam, GOG oder Epic Games unterstützt werden dürften. Kaufen Spieler über diese Stores ihre Spiele, bekäme Microsoft im Gegensatz zum Xbox Store keine direkte Provision.
Noch hat Sharma nicht bestätigt, dass die kommende Xbox tatsächlich auch für anderen PC-Stores offen sein wird. Es gilt aber als wahrscheinlich, weil Microsoft bereits für seinen Handheld-PC Xbox Ally mit den Betreibern alternativer Stores zusammenarbeitet. Und wenn die nächste Xbox tatsächlich mit vollwertigem Windows-Betriebssystem auf den Markt kommen sollte, dann würden Bastler wohl ohnehin einen Weg finden, mögliche Schranken zu umgehen.
Chip von AMD
Weiterlesen nach der Anzeige
Ansonsten ist über die kommende Xbox noch nicht viel bekannt. Klar ist immerhin, dass der Chip wieder von AMD stammen wird: Beide Firmen haben im vergangenen Sommer ihre Partnerschaft verlängert. Kürzlich sagte AMD-Chefin Lisa Su, AMD sei bereit, die Chips für einen möglichen Next-Gen-Release der Xbox 2027 zu stellen. Ob die nächste Microsoft-Konsole aber wirklich im kommenden Jahr erscheint, ist unklar – die Speicherkrise macht es derzeit enorm schwer, Komponenten für Spiele-Hardware zu vertretbaren Preisen einzukaufen.
Interessant ist Sharmas Ankündigung auch im Hinblick auf einen Strategiewechsel von Sony: Der Playstation-Hersteller hat sich kürzlich laut einem Bloomberg-Bericht entschieden, seine Eigenproduktionen nicht mehr auf dem PC zu veröffentlichen. Möglicherweise möchten die Japaner so verhindern, dass künftige Eigenproduktionen wie „Wolverine“ und der nächste „God of War“-Ableger künftig auf einer Xbox spielbar werden.
(dahe)
Künstliche Intelligenz
Der Ozean als Standort für KI-Rechenzentren
Der KI-Boom befeuert weltweit die Nachfrage nach Rechenleistung. Zugleich sind die Serverfarmen aber gewaltige Strom- und Ressourcenfresser. Entwickler haben zunehmend Schwierigkeiten, Bauland, Energie und Wasser für den Bau und Betrieb großer Rechenzentren zu beschaffen.
Weiterlesen nach der Anzeige
Das kalifornische Start-up Aikido Technologies, ein Anbieter von Offshore-Infrastruktur, glaubt, dass der Umzug aufs Meer einige der Herausforderungen lösen könnte. Das Unternehmen hat in dieser Woche eine neuartige schwimmende Offshore-Windplattform vorgestellt, die Rechenleistung für KI-Anwendungen mit schwimmender Windenergieerzeugung und integriertem Batteriespeicher kombiniert.
Laut Aikido soll die Anlage 10 bis 12 Megawatt (MW) KI-Rechenleistung sowie eine 15 bis 18 MW starke Turbine und einen integrierten Batteriespeicher beherbergen. „Die Technologie, die für Rechenzentren mit einer IT-Last von 30 MW bis über 1 GW konzipiert ist, ermöglicht den Aufbau einer autarken KI-Infrastruktur im Gigawatt-Bereich direkt an der Quelle erneuerbarer Energien und trägt so dem rasanten Wachstum der Nachfrage nach hochdichter KI-Infrastruktur Rechnung“, so das Unternehmen in einer Mitteilung.
Prototyp vor der Küste Norwegens
Laut der vom Institute of Electrical and Electronics Engineers (IEEE) herausgegebenen Zeitschrift IEEE Spectrum plant Aikido, bis Ende des Jahres einen 100-Kilowatt-Prototyp vor der Küste Norwegens zu testen. Das Rechenzentrum wird demnach in den Unterwassertanks einer schwimmenden Offshore-Windkraftanlage untergebracht sein. Das erste kommerzielle Projekt ist für 2028 vor der Küste Großbritanniens geplant. Ein Standort wurde bereits identifiziert, und detaillierte technische und kommerzielle Gespräche liefen, teilte Aikido mit.
Das kalifornische Unternehmen hält das Meer für einen guten Standort für KI-Rechenzentren. Offshore seien Energie, Kühlung und Platz im Überfluss vorhanden, heißt es vonseiten Aikidos. Neben der Windkraft zur Energieerzeugung dient das Meerwasser zur Kühlung der Anlage. Weltweit könnten Gebiete, die für schwimmende Windkraftanlagen vorgesehen sind, sofort für Rechenzentren genutzt werden. „Bevor wir uns auf die Erde begeben, sollten wir uns auf die Offshore-Welt begeben“, so Sam Kanner, CEO von Aikido Technologies. „Die Pioniere der Öl- und Gasindustrie haben vor über 40 Jahren Tiefseeressourcen genutzt und enorme Vorteile erzielt. Aikido ist bestens aufgestellt, um bewährte Offshore-Komponenten mit gängigen Rechenzentrumsbautechniken zu integrieren und so KI-Fabriken im Gigawatt-Maßstab schneller, sauberer, kostengünstiger und effizienter als mit herkömmlichen Methoden zu errichten.“
Vor- und Nachteile
Weiterlesen nach der Anzeige
Aikidos Offshore-Ansatz bietet zwar einige auf der Hand liegende Vorteile, habe aber auch Nachteile, gibt das Tech-Portal Gizmodo zu bedenken. „Eine Herausforderung ist der aktuelle Zustand des schwimmenden Offshore-Windsektors, der mit erheblichen Entwicklungsverzögerungen, steigenden Kosten und höheren Zinsen aufgrund auslaufender staatlicher Subventionen zu kämpfen hat.“ Darüber hinaus gibt es auch technische Herausforderungen. Daniel King, wissenschaftlicher Mitarbeiter der Foundation for American Innovation, erwähnte gegenüber IEEE Spectrum den Salzgehalt des Meeres und die Verschmutzung durch Meeresabfälle, die die Infrastruktur beschädigen können. Auch könnte es zusätzliche regulatorische Hürden zum Schutz der Meereslebewesen vor Wärmeabstrahlung geben.
Aikido ist nicht das erste Unternehmen, das vorschlägt, Rechenzentren offshore im Meerwasser zu bauen. China nahm im vergangenen Jahr ein windkraftbetriebenes Unterwasser-Rechenzentrum in Betrieb. Es gilt als weltweit erste kommerziell betriebene Anlage. Zudem habe die WestfalenWind-Gruppe in Deutschland mit ihrem Projekt windCORES die operative Entwicklungsphase erreicht, schreibt Gizmodo. Dabei werden Onshore-Turbinen mit in die Türme integrierten Rechenzentren eingesetzt.
(akn)
-
Künstliche Intelligenzvor 2 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 3 WochenCommunity Management zwischen Reichweite und Verantwortung
-
Social Mediavor 4 TagenCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Künstliche Intelligenzvor 2 Wochen
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Datenschutz & Sicherheitvor 3 MonatenSyncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht
-
Entwicklung & Codevor 3 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Künstliche Intelligenzvor 3 MonatenGame Over: JetBrains beendet Fleet und startet mit KI‑Plattform neu
-
Social Mediavor 3 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
