Apps & Mobile Entwicklung
Neues xAI-Modell: Grok 4 setzt sich bei KI-Benchmarks an die Spitze
Mit Grok 4 hat xAI ein neues Modell vorgestellt, das sich laut den internen Benchmarks an die Spitze setzt. Kombiniert wird die Vorstellung mit einem neuen Abo-Modell für 300 US-Dollar im Monat, bleibt aber überschattet von Groks Hitler-Vorfällen auf X und der mangelnden Transparenz.
Bei Benchmarks wie Humanitys Last Exam kann sich Grok 4 vor Googles Gemini 2.5 Pro und OpenAIs o3 platzieren. Mit dem Einsatz von Tools (wie etwa der Web-Suche) ist der Vorsprung nochmals größer, Vorsprünge verzeichnet man auch bei weiteren Benchmarks wie GPQA
oder AIME25. Bemerkenswert sind auch die Ergebnisse im ARC-AGI-2-Benchmark, dort erreicht das xAI-Modell mit dem Thinking-Modus 15,9 Prozent – der bisherige Spitzenreiter Claude Opus 4 von Anthropic schaffte nicht die 10-Prozent-Marke.
Im Vending Bench, der den Betrieb eines Verkaufsautomaten simulieren soll, schneidet Grok 4 demnach wesentlich besser ab als Claude Opus 4, Gemini 2.5 Pro und o3. Grok 4 verdient demnach mehr Geld und hat auch eine längere Laufzeit. Welche Fallstricke so ein System hat, zeigte zuletzt aber Anthropic.
xAI veröffentlicht die Versionen Grok 4 und Grok 4 Heavy. Grok 4 Heavy ist das Spitzenmodell, Zugang erhalten Nutzer, wenn sie das Abo-Paket SuperGrok Heavy buchen, das 300 US-Dollar im Monat kostet. Das reguläre SuperGrok-Abo kostet 30 US-Dollar pro Monat, damit kann man das normale Grok-4-Modell nutzen. In der kostenfreien Version läuft weiter Grok 3.
Fehlende Transparenz und fehlendes Vertrauen
Bislang liegt aber weder ein Blog-Beitrag noch eine Model Card vor, die etwa Details wie Sicherheitstests enthält oder Grenzen der Modelle beschreibt. Die Informationen wurden bislang nur in dem Livestream präsentiert, dementsprechend schwer ist die Bewertung.
Kritisch äußern sich daher auch Branchenbeobachter. „Schwer vorstellbar, dass Unternehmen begeistert sind, angesichts des Mangels an Transparenz die API zu nutzen“, schreibt etwa der Ökonomieprofessor Ethan Mollick auf X. Das gelte insbesondere nach den Vorfällen in dieser Woche.
Weil Grok auf X laut Musk „politisch unkorrektere“ Antworten geben sollte, wurde der Systemprompt angepasst. Die Konsequenz waren antisemitische und Hitler-verehrende Inhalte, xAI musste mittlerweile zurückrudern.
Den ersten Eindruck mit Grok 4 bewertet Mollick derweil als „beeindruckend“. Die Fortschritte würden zeigen, dass sich mehr Computing-Leistung bei der Entwicklung weiterhin auszahle. Erkennen lasse sich ein Plus von 10 bis 20 Prozent in den Benchmarks, das gemäß der Scaling Laws zu erwarten sei.
Mollick erwartet nun eine ähnliche Entwicklung wie bei Grok 3: xAI legt vor, die anderen KI-Firmen ziehen nach. Das Hauptaugenmerk liegt auf dem Branchenprimus OpenAI, im Sommer wird die Veröffentlichung von GPT-5 erwartet.