Künstliche Intelligenz
GPT-5 im Agenten-Test | heise online
Die großen Leistungssprünge bei den großen Sprachmodellen (Large Language Models, LLMs) sind vorerst vorbei. Stattdessen verschiebt sich der Fokus vom bloßen Hochskalieren der Modelle hin zu Optimierung und Produktintegration. Sprachmodelle werden nicht mehr nur als statische Wissensspeicher verstanden, sondern entwickeln sich zu aktiven Agenten, bei der Sprachmodelle als Orchestratoren komplexe Aufgaben in Teilschritten lösen. Die LLMs sprechen gezielt Schnittstellen an, rufen Daten aus externen Quellen ab, rechnen und integrieren die Ergebnisse in ihren Antworten. Dieser Artikel stellt die Fähigkeiten von GPT-5 im Vergleich zu den bisherigen Spitzenreitern im speziell auf agentische Fähigkeiten ausgelegten tau2-Benchmark auf die Probe.
- Der GPT-5-Release zeigt: Große Leistungssprünge weichen Optimierung und Produktintegration. GPT-5 fokussiert präzisen Tool-Use und höhere Steuerbarkeit für agentische Anwendungen.
- Bisher galt Anthropics Sonnet 4 als bestes Modell für agentische KI-Workflows: Das saubere Einhalten von Anweisungen und eine niedrige Fehlerquote überzeugten trotz hoher Kosten.
- Mit Kimi K2 und GPT-5 reichen zwei neue Modelle in Anbieter-Benchmarks an Sonnet 4 heran. Mit einem selbst durchgeführten Benchmark überprüft iX die Angaben.
- Im tau2-Benchmarkt überholt GPT‑5 Sonnet 4, doch Opus 4.1 bleibt mit höchster Genauigkeit Spitzenreiter – bei den höchsten Kosten. Reasoning steigert die Erfolgsquote, erhöht aber die Kosten und die Laufzeit.
Denn bisher haben Modelle wie Anthopics Claude Sonnet 4 die Nase vorn: weniger aufgrund einer höheren Intelligenz, sondern durch präzises Einhalten von Funktionssignaturen und einer niedrigen Fehlerquote im Tool Use und der Codegenerierung. Das verschafft ihnen im Unternehmen einen klaren Vorteil, insbesondere bei der Softwareentwicklung, wo das Code-Generieren und der Einsatz von Werkzeugen in LLM-basierten Entwicklungsumgebungen Hand in Hand gehen.
(Bild: Danny Gerst)
Ein Bericht der Venture-Capital-Gesellschaft Menlo Ventures vom Juli 2025 stützt diese Beobachtung. Demzufolge nutzen in Unternehmen 32 Prozent der API-Nutzer Modelle von Anthropic, nur 25 Prozent auf von OpenAI. Bei OpenRouter – der Anbieter ermöglicht den Zugriff auf verschiedene Sprachmodelle über eine einheitliche Schnittstelle – fällt das Bild noch deutlicher aus: Dort ist Sonnet mit großem Abstand das meistgenutzte Modell, während OpenAI in den Top Ten überhaupt nicht vertreten ist.
Das war die Leseprobe unseres heise-Plus-Artikels „GPT-5 im Agenten-Test“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.