Künstliche Intelligenz
Model-Schau: Reasoning aus China, kleine Liquid-Modelle und neue Microsoft-Welt
Zum Start in den Sommer geht es auch bei den Sprachmodellen heiß zu. Neue chinesische Modelle von StepFun und MiniMax versprechen günstiges Reasoning und sind auf agentische Workflows optimiert. Die Liquid Foundation Models sind aufgrund ihrer speziellen Architektur sehr kompakt und trotzdem leistungsfähig.
Weiterlesen nach der Anzeige
Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.
Nvidia befindet sich weiter im Höhenflug und hat einige neue Modelle im Portfolio, allerdings das größte davon lediglich als Ankündigung. Schließlich stellte Microsoft Anfang Juni auf der Build-Konferenz eine ganze Reihe (leider geschlossener) Modelle vor und emanzipiert sich damit weiter von OpenAI.
(Bild: popba / stock.adobe.com)
Die Online-Konferenz Product Owner AI Day 2026 zeigt Produktverantwortlichen am 9. Juli, wie sie Abläufe mit KI automatisieren und sie in Workflows integrieren. Der an zwei Terminen ausgebuchte Workshop findet am 16. Juli ein weiteres Mal statt. Tickets für Konferenz und Workshop sind im Ticketshop verfügbar.
Reasoning-Modell Step 3.7 Flash
Das in Shanghai sitzende KI-Unternehmen StepFun hat nach dem bereits erfolgreichen Modell 3.5 aus dem Frühjahr nachgelegt und ein neues Reasoning-Modell veröffentlicht. Es handelt sich wieder um ein Flash-Modell mit einer ähnlichen Architektur wie das vorherige Modell, das sich allerdings in einigen entscheidenden Punkten verbessert hat. So hat StepFun etwa einen Vision Encoder hinzugefügt, sodass Step 3.7 Flash auch Bilder verstehen kann. Das Reasoning lässt sich nun konfigurieren, damit sich für einfache Fragestellungen nicht sofort sehr viele Token ansammeln. Das ist insbesondere für agentische Nutzung sehr hilfreich.
Wie viele chinesische Modelle war Step 3.5 Flash stark zensiert. Das ist bei Version 3.7 nicht viel anders, aber interessanterweise gibt das Modell die Fakten im Reasoning-Bereich bereitwillig aus, um dann bei der endgültigen Antwort gebremst zu werden. Sicherlich spielen da die Guardrails eine entscheidende Rolle, die dem Modell im letzten Schritt antrainiert werden. Abgesehen davon sind die Antworten größtenteils korrekt. Besonders interessant ist, dass das Reasoning bei deutschen Fragen größtenteils auf Deutsch stattfindet, nur die Unterbrechungen wie „wait“ sind auf Englisch. Das ist bei fast allen anderen Modellen anders, die nur auf Englisch argumentieren.
Ob das Modell wirklich viel besser ist als der Vorgänger, lässt sich schwer entscheiden. In der Community wurde es jedenfalls gelobt, insbesondere im Zusammenspiel mit Coding Agents. Auf der Website von StepFun kann man deutlich bessere Zahlen ablesen als für das ältere Modell, oft übertrumpft es dabei auch DeepSeek V4 Flash. Langfristig wird man auf der LM Arena sehen, wie sich das Modell im wirklichen Leben behauptet.
Weiterlesen nach der Anzeige
Die Ergebnisse von Step 3.7 Flash finden sich im GitHub-Repository zu diesem Artikel.
Performance-Zuwachs mit MiniMax M3
Obwohl MiniMax sein M3-Modell als „Open Weight“ bezeichnet, kann man die Gewichte noch nicht bei Hugging Face herunterladen. Das ändert sich aber hoffentlich bald. Ausprobieren lässt sich das Modell entweder direkt bei MiniMax.ai oder bei OpenRouter. Wie von MiniMax gewohnt, sind die Ergebnisse ausgewogener und weniger zensiert als die anderer chinesischer Modelle.
MiniMax hat wie viele Anbieter die Attention-Architektur optimiert, ging dabei aber einen eigenen Weg. Die Attention wird in zwei Phasen ausgerechnet: Die erste Phase entscheidet, welche Token wichtig sind und gibt diese dann in der zweiten Phase für die volle Attention-Berechnung weiter. MiniMax behauptet, dass das M3-Modell damit Prompts fast zehnmal schneller auswerten kann als MiniMax M2 und bei der Generierung sogar um den Faktor 15 schneller ist. Das wäre ein gewaltiger Fortschritt. Ob es sich bewahrheitet, wird sich zeigen, wenn sich die Modelle lokal betreiben lassen.
Öffentlich verfügbare Benchmarks gibt es noch nicht, aber die Daten von MiniMax selbst sind vielversprechend. Gerade im Bereich Coding kann es mit den besten Modellen von Anthropic wohl mithalten, wenn die Daten korrekt sind.
Die Ergebnisse von MiniMax M3 finden sich im GitHub-Repository zu diesem Artikel.
Schlanke Liquid Foundation Models
Einen ganz anderen Weg geht liquid.ai, das eine andere Architektur für seine Liquid Foundation Models nutzt. Damit lassen sich Token äußerst effizient erzeugen, und diese Modelle funktionieren auch auf CPUs gut. In der Zwischenzeit gibt es eine einige solcher Modelle, neu reiht sich darin LFM2.5-8B-A1B ein, das nur eine Milliarde aktive Parameter hat. Damit will es mit weit größeren Modellen wie gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 und Gemma-4-26B-A4B-IT konkurrieren. Abgesehen von Gemma sind die zum Vergleich herangezogenen Modelle jedoch etwas älter.
LFM2.5-8B-A1B ist extrem schnell: Auf einem Mac Studio M2 Ultra hat es fast 200 Token pro Sekunde erreicht. Die Ergebnisse können nicht ganz mit den großen Modellen mithalten, aber für Spezialanwendungen oder agentische Szenarien könnte sich das Modell eignen.
Die Ergebnisse von LFM2.5-8B-A1B finden sich im GitHub-Repository zu diesem Artikel.
Bildanalyse und mehr von Nvidia
Nvidia befindet sich nach wie vor im Höhenflug und zeigt das inzwischen auch in seinen Modellen. Populär ist unter anderem LocateAnything, mit dem man Bilder analysieren kann. Als Ergebnis erhält man Boxen, in denen sich bestimmte Objekte befinden. Die Verarbeitung funktioniert hochparallel über alle identifizierten Boxen hinweg, das Modell kann sogar gescannte Dokumente analysieren und findet dort entsprechende Boxen mit Content. Nützlich ist das unter anderem, um GUI-Elemente zu identifizieren und per Agenten einen Browser zu bedienen. Da das Modell mit knapp acht GByte relativ klein ist, sollte es sich auch auf Consumer-GPUs ausführen lassen.
Deutlich mehr Speicher braucht der Pixel Diffusion Decoder, der ein neuartiges Diffusionsmodell im Pixelraum einführt. Die Bedienung ist aktuell noch sehr umständlich: Man muss verschiedene Checkpoints von der Hugging-Face-Seite herunterladen und mit einem speziell bereitgestellten Programm verarbeiten. Ob und wie viel besser Nvidia damit im Vergleich zu herkömmlichen Diffusionsmodellen Bilder generieren kann, muss sich zeigen.
Die Nemotron-Modelle waren bereits bisher schon leistungsfähig. Allerdings hat das Nano-Modell schon über 30 Milliarden Parameter, von denen drei Milliarden aktiv sind. Das vor etwa drei Monaten erschienene Super-Modell nutzt sogar 120 Milliarden Parameter, von denen zwölf Milliarden aktiv sind. Neu verfügbar ist nun das Ultra-Modell mit 550 Milliarden Parametern, von denen „nur“ 55 Milliarden aktiv sind. Nvidia behauptet, damit eine deutlich schnellere Inferenz zu erreichen, was möglicherweise an dem im Modell verwendeten Datentyp NVFP4 liegt.
Auch der optimierte Attention-Mechanismus mit vielen Mamba-Layern trägt dazu bei, der eine Kontextlänge von bis zu einer Million Token ermöglicht. In der Performance kommt Nemotron 3 Ultra nicht ganz an die offenen chinesischen Modelle heran, aber die endgültige Version gibt es erst seit Kurzem. Wie bei allen Nemotron-Modellen stellt Nvidia einen Großteil der Trainingsdaten, den Trainingscode und weitere Inhalte bereit. Damit handelt es sich bei diesen Modellen um die bei weitem offensten – im Sinne von transparent. Lediglich die nicht von Nvidia stammenden, viel kleineren Olmo- oder Apertus-Modelle sind ähnlich offen.
Man merkt dem Modell seine westliche (US-amerikanische) Herkunft in den Antworten deutlich an. Dort, wo chinesische Modelle sich vornehm zurückhalten, gibt das Modell häufig sehr viel klarere, politisch neutralere oder zumindest anders gefärbte Meinungen wieder.
Die Ergebnisse von Nemotron 3 Ultra finden sich im GitHub-Repository zu diesem Artikel.