Künstliche Intelligenz

GLM-4.5: Offenes Sprachmodell für schlanke Hardware


Ein neues Sprachmodell aus China ist da: Das jüngst unter der MIT-Lizenz veröffentlichte Modell GLM-4.5 vom Anbieter Z.ai (ehemals Zhipu) funktioniert richtig gut und lässt sich auch in der kleineren Version auf moderater Hardware flott betreiben. Es handelt sich um ein hybrides Modell, das sowohl Reasoning beherrscht – also den Weg zu seinen Schlussfolgerungen zeigt –, aber auch als Non-Reasoning-Modell agieren kann. Interessanterweise geht Qwen, das Sprachmodell von Alibaba, genau den umgekehrten Weg und hat aus den hybriden Modellen wieder zwei unterschiedliche (Instruct, Thinking) gebaut.

GLM-4.5 ist ein großes Modell mit 335 Milliarden Parametern. Die genutzte Mixture-of-Experts-Architektur führt dazu, dass bei der Inferenz immer nur 32 Milliarden Parameter aktiv sind. Die somit kleinere Anzahl von Berechnungen erlaubt eine Beschleunigung in der Generierung der Tokens. Das Modell hat 160 Experten, davon werden jeweils immer acht (und ein Shared Expert, der immer gefragt wird) gleichzeitig verwendet. Es verfügt über 96 Attention-Heads und 92 Transformer-Schichten – und ist damit deutlich tiefer als etwa DeepSeek R1 oder Kimi K2. Obwohl Z.ai die Gewichte auch als FP8-Werte bereitstellt, ist GLM-4.5 trotzdem ein riesiges Modell, das man nicht einfach auf Consumer-GPUs betreiben kann, auch in einer quantisierten Version ist es für die meisten CPUs zu groß.

Deswegen hat Z.ai noch eine kleinere Version des Modells in petto und nennt es GLM-4.5-Air. Es ist in fast allen Belangen dem GLM-4.5-Modell unterlegen, aber nicht drastisch. Dafür ist es mit 106 Milliarden Parametern (12 Milliarden aktiv) viel kleiner und kann zum Beispiel mit 64 GByte RAM auf CPUs in einer Vier-Bit-Quantisierung betrieben werden – oder auch auf einer A100-GPU. Die Architektur ist sehr ähnlich, nur in vielen Dimensionen kleiner (128 Experten, 46 Layer). Leider schweigt sich Z.ai über die genauen Verwandtschaftsverhältnisse von GLM-4.5 und GLM-4.5-Air aus. Auch sonst sind technische Informationen auf dem Blog eher spärlich zu finden.

Relativ genau beschreibt Z.ai den Trainingsprozess und hat dazu die neue Methode „slime“ entwickelt und als Open-Source-Software zur Verfügung gestellt. Das Verfahren legt besonderen Wert auf agentenorientiertes Design, was sich auch in den Ergebnissen widerspiegelt. Dazu nutzt man unterschiedliche Phasen des Reinforcement Learnings, die von Reasoning über agentisches bis zum allgemeinen Training reichen. Z.ai konzentriert sich auf die möglichst flexible Nutzung von Infrastruktur, das Training kann auch asynchron stattfinden und stellt sicher, dass alle GPUs immer optimal genutzt werden.

Benchmarks zu den Modellen gibt es noch wenige, in der LMarena ist es noch nicht zu finden. Die Informationen im Blog-Artikel von Z.ai sehen vielversprechend aus, besonders im Bereich der Agenten-KI scheint es den (viel größeren) State-of-the-Art-Modellen nicht sehr unterlegen zu sein.

Wegen der frei verfügbaren Gewichte kann man das Modell auch selbst ausprobieren. Einen Dialog des Autors mit GLM-4.5-Air finden interessierte Leser hier. Leider nicht ganz so einfach kann man die Funktion testen, mit der GLM-4.5 Folien erstellen kann. Das geht auf der Website von Z.ai selbst und ist beeindruckend.

GLM-4.5 ist ein richtig starkes Modell. Ob es wirklich die entsprechende Wertschätzung erfährt, bleibt abzuwarten. Denn: Aktuell ist es nicht ganz einfach, bei der Flut von neu veröffentlichten Modellen den Überblick zu bewahren. Alleine Qwen hat innerhalb weniger Tage viele Modelle veröffentlicht, darunter Qwen3-Coder-30B-A3B, das mit nur drei Milliarden aktiven Parametern lokal beim Programmieren unterstützen kann. Dabei scheint es eine ausgezeichnete Figur zu machen – die zwar sicher nicht an das nur zehn Tage früher veröffentlichte Qwen3-Coder-480B-A35B-Instruct herankommt, aber das hat auch 16-mal so viele Parameter. Spannend daran ist, dass es sich bei diesen Modellen nicht um Reasoning-Modelle handelt, die aber dennoch in der gleichen Liga spielen, die bisher den reinen Reasoning-Modellen vorbehalten war. Die deutlich schnelleren Antworten (durch viel weniger generierte Tokens wegen des nicht notwendigen Reasonings) führen zu deutlichen Effizienzgewinnen bei der Programmierung.

Aber auch methodisch hat sich in wenigen Tagen viel getan. Der neue „slime“-Trainingsprozess kann als Open-Source-Software auch von anderen Anbietern genutzt werden. Qwen hat das GRPO-Verfahren verfeinert und GSPO genannt. Kimi K2 nutzt zur Optimierung der Gewichte nicht AdamW, sondern Muon und erreicht damit eine schnellere Konvergenz. Fügt man all diese Puzzlestücke zusammen, kann man erwarten, dass sich die Frequenz der neu verfügbaren und besseren Modelle bald sicher noch erhöht.


(fo)



Source link

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Beliebt

Die mobile Version verlassen