Apps & Mobile Entwicklung

Spitze in Benchmarks: Anthropics Claude Opus 4.5 schlägt Gemini 3 und GPT-5.1


Mit Claude Opus 4.5 hat Anthropic ein neues Spitzenmodell vorgestellt, das sich vor allem beim Coding, den Agenten-Fähigkeiten und der Computer-Nutzung von der Konkurrenz absetzen soll. Laut den internen Benchmarks positioniert es sich sowohl vor Gemini 3 Pro von Google als auch OpenAIs GPT-5.1.

Vor allem die Fortschritte beim Coding unterstreicht Anthropic. Im SWE-Benchmark erreicht Opus 4.5 eine Genauigkeit von 80,9 Prozent – Gemini 3 Pro kommt auf 76,2 Prozent, GPT-5.1 Codex-Max auf 77,9 Prozent und das reguläre GPT-5.1 auf 76,3 Prozent.

Benchmark-Ergebnisse von Claude Opus 4.5 (Bild: Anthropic)

In weiteren Benchmarks schneidet das Modell ebenfalls gut ab. An die Spitze setzt es sich mit den jüngsten Fortschritten auch bei Agenten-Fähigkeiten. Im Vending-Benchmark, bei dem das Modell einen Verkaufsautomaten betreiben muss, erreicht Opus 4.5 einen Umsatz von 4.967,06 US-Dollar. Ein Plus von rund 29 Prozent gegenüber dem Vorgänger Sonnet 4.5. Bei einigen Reasoning-Tests liegt es hingegen noch knapp hinter Gemini 3 Pro und GPT-5.1.

Auch im Bereich der Computer-Nutzung – also wenn das KI-System selbst den Browser oder Rechner steuert – geht es voran. Im Vergleich zu den Vorgängern ist das neue Modell in der Lage, länger an umfassenderen Aufgaben zu arbeiten, ohne dass der Nutzer intervenieren muss. Dazu erhalten Programmierer, die die Computer-Nutzungsfunktion verwenden wollen, mehr Optionen.

Verfügbarkeit über App und API

Verfügbar ist Opus 4.5 ab heute sowohl über Anthropics Apps als auch über die API. Mit dem Modell versprechen die Entwickler mehr Effizienz, trotz steigender Leistung soll der Token-Verbrauch gesunken sein. Und ebenso fällt der Preis, über die API liegt dieser bei 5 US-Dollar pro Million Input-Tokens und bei 25 US-Dollar pro Million Output-Tokens.

Bereits im Oktober hatte Anthropic Claude for Excel angekündigt. Den Beta-Zugang erhalten nun alle Nutzer mit Max-, Team- und Enterprise-Abo. Diese profitieren zudem von Opus 4.5.

Denkleistung selber steuern

Bei Claude Opus 4.5 handelt es sich um ein Hybrid-Modell. Im Standard-Modus generiert wie ein herkömmliches Modell schnell Antworten, in einem „extended-thinking“-Modus schaltet das System auf die Reasoning-Fähigkeiten um. Um eine komplexere Anfrage zu beantworten, startet das Modell eine Art „Denkprozess“, in dem es etwa mehrere Lösungswege prüft. Das ist soweit Status quo, Gemini 3 und GPT-5.1 funktionieren genauso.

Neu bei Anthropic ist der Effort-Parameter, durch den die Nutzer selbst kontrollieren können, wie viele Ressourcen das Modell für eine Aufgabe nutzt. Regulieren lässt sich damit unter anderem der Token-Einsatz. Interessant ist diese Funktion, weil beispielsweise OpenAI beim Start von GPT-5 mit der internen Steuerungsfunktion zu kämpfen hatte. Weil teils zu wenig Kapazitäten bereitgestellt worden sind, lieferte ChatGPT mit GPT-5 schlechtere Antworten als die Vorgänger.

Anthropics Effort-Funktion ist vorerst aber nur über die API für Entwickler abrufbar.

Opus 4.5 laut Anthropic das bis dato sicherste Modell

Zu welchen Aussetzern Modelle neigen, beschrieb Anthropic bei dem Vorgänger unter anderem anhand der Erpressungs­versuche. Probleme und schwieriges Verhaltensweisen, zu denen auch die unterwürfige Ja-Sagerei („Sycophancy“) zählt, lassen sich immer noch beobachten, Opus 4.5 ist laut Anthropic aber das bis dato sicherste Modell. In einem Test, der Fehlverhalten erfasst, schneidet das neue Modell sowohl besser als die Vorgänger als auch Gemini 3 Pro und GPT-5.1 ab.



Source link

Beliebt

Die mobile Version verlassen