Künstliche Intelligenz
Model-Schau 2: Neue Architekturansätze bei den Sprachmodellen
Das neue Jahr ist noch jung, aber die Sprachmodell-Community hat sich keine Pause gegönnt. So geht es munter mit neuen Modellen, aber auch mit neuen Architekturansätzen ins Jahr 2026, auch wenn einige der vorgestellten Neuerungen noch aus den letzten Wochen von 2025 stammen.
Weiterlesen nach der Anzeige

Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.
Gedächtnis-Titan von Google
Bisher kämpfen fast alle Sprachmodelle mit Amnesie. Sobald sie lange Texte verarbeiten sollen, vergessen sie entscheidende Details. Diese Tendenz verstärkt sich mit längerem Kontext. Besonders die Teile in der Mitte gehen dann verloren (lost in the middle). Es gibt zahlreiche Ansätze, Modelle in dieser Hinsicht zu verbessern. Einige Modelle setzen beispielsweise alternierend sogenannte Mamba-Layer (oder State Space Models) ein, die besonders bei langen Sequenzen besser skalieren und weniger Speicherplatz benötigen, dafür aber nicht so präzise arbeiten wie Transformer. Andere Modelle setzen auf rekurrente neuronale Netze (RNNs), die man nach der Erfindung der Transformer eigentlich schon fast abgeschrieben hatte.
(Bild: Golden Sikorka/Shutterstock)

Die Online-Konferenz LLMs im Unternehmen zeigt am 19. März, wie KI-Agenten Arbeitsprozesse übernehmen können, wie LLMs beim Extrahieren der Daten helfen und wie man Modelle effizient im eigenen Rechenzentrum betreibt.
Google hat nun zwei neue Forschungsartikel dazu veröffentlicht. Der erste nennt sich „Titans“ und führt eine Architektur ein, die nach ihren eigenen Worten „die Geschwindigkeit von RNNs mit der Genauigkeit von Transformern zusammenbringt“. Google erreicht das durch den Einsatz von Transformern und dem Attention-Mechanismus für das Kurzzeitgedächtnis, für das Langzeitgedächtnis verwendet der Ansatz tiefe neuronale Netze (und nicht etwa RNNs). Eine sogenannte Überraschungs-Metrik soll sich besonders auf die Textteile konzentrieren, die nicht erwartete Wörter enthalten. Mit einem adaptiven Verfallmechanismus vergisst das Modell dann die Informationen, die es nicht mehr benötigt.
Google stellt mit „MIRAS“ auch gleich einen Blueprint zur Implementierung vor. Das dahinterliegende KI-Modell fokussiert sich auf eine Memory-Architektur, den Attention-Bias (mit dem es wichtige von unwichtigen Informationen unterscheidet) und die Mechanismen zum Vergessen beziehungsweise zum Aktualisieren des Gedächtnisses. Statt des mittleren quadratischen Fehlers oder des Skalarprodukts optimiert Google nichteuklidische Metriken und nennt dafür drei Beispielmodelle, die auf dem Huber-Loss, generalisierten Normen oder einer Wahrscheinlichkeitsabbildung basieren.
Das klingt äußerst mathematisch, aber Google kann damit in ersten Demos bessere Ergebnisse als mit einer reinen Mamba-Architektur erzielen. Den am Schluss erklärten Extrem Long-Context Recall vergleicht der Artikel allerdings nur mit Modellen wie GPT-4 oder Qwen2.5-72B, die schon mindestens ein Jahr alt sind. Diese Ergebnisse sollte man also mit Vorsicht genießen. Spannend wird es, wenn Google damit richtig große Modelle trainiert und zur Verfügung stellt.
Weiterlesen nach der Anzeige
Liquid Foundation Models
Eine ganz andere Architektur setzen die Liquid Foundation Models ein. Lange waren die Liquid Models schon mit Demos präsent, in denen sie mit kleinen Modellen erstaunliche Fähigkeiten entwickeln konnten. Der Durchbruch kam dann mit LFM2. Teile der Modelle setzen die Transformer-Architektur mit Attention ein, andere nutzen Multiplikations-Gates und Konvolutionen mit kurzen Sequenzen. Allerdings war bisher die Performance der darauf aufbauenden Modelle noch nicht gut genug.
Geändert hat sich das mit LFM2.5, einer ganzen Serie von kleinen Modellen mit nur gut einer Milliarde Parametern. Vorerst sind die Modelle für Edge-Devices gedacht, sie lassen sich aber auch mit hoher Geschwindigkeit auf üblicher Hardware ausführen. Die in Abbildung 1 dargestellten Ergebnisse sind mit Vorsicht zu genießen, da sie vom Anbieter stammen. Unabhängig davon machen die Modelle für ihre Größe einen hervorragenden Eindruck. Für viele Anwendungen wie Retrieval-Augmented Generation (RAG) könnten diese gut zum Einsatz kommen, weil das Wissen dafür nicht in den Modellen selbst stecken muss, die hier nur zum Feinabgleich und für Formulierungen eingesetzt werden. Mit einer kleinen GPU lassen sich die Modelle extrem schnell ausführen. Auf einer performanten CPU arbeiten sie immer noch schnell.

Beim Erdbeertest kann LFM 2.5 ebenso wenig überzeugen (Abb. 1) …

wie mit der Erklärung von heise (Abb. 2).
Neben den Modellen zur Textgenerierung gibt es auch ein hybrides Modell, das gesprochenen Text sowohl verstehen, als auch erzeugen kann. Gerade für mobile Endgeräte kann die Funktion sinnvoll sein, damit man auch ohne Internet- und Cloud-Zugriff Sprache in Text und umgekehrt umwandeln kann.

Performance von LFM2.5-1.2B-Instruct im Vergleich zu ähnlich großen Modellen (Abb.3)
(Bild: Hugging Face)
Schlanke Coding-Modelle erobern Benchmarks
Bei IQuest-Coder handelt es sich um ein neues Modell mit 40 Milliarden Parametern, das insbesondere in der Loop-Variante interessante Ideen mit einbringt. Der Transformer arbeitet rekurrent, verarbeitet also die Tokens mehrfach – zunächst doppelt in zwei Iterationen. IQuestLab verspricht damit deutlich höhere Performance. Seine Entwickler behaupten, in den einschlägigen Benchmarks wesentlich bessere Ergebnisse erzielen zu können als vergleichbar große Modelle. Trotz anfänglicher Euphorie scheint das Modell aber nicht besonders populär zu sein.
Einen anderen Weg geht NousResearch. Es nutzt Qwen-14B als Basismodell, um mit modernen Methoden daraus ein Coding-Modell zu erzeugen. Auch wenn es nicht mit den deutlich größeren Modellen konkurrieren kann, erzielt es für seine Größe gute Ergebnisse und zeigt einen möglichen weiteren Weg für Coding-Modelle auf.
Chinesische Modelle mit offenen Gewichten
Die seit Kurzem an der Börse in Hong Kong notierte Firma Z.ai hat mit GLM-4.7 ein lang erwartetes Modell veröffentlicht, das sich in vielen Benchmarks an die Spitze der Modelle mit offenen Gewichten gesetzt hat. Mit 355 Milliarden Parametern verfügt es zwar über eine stattliche Größe, ist aber immer noch viel kleiner als die Modelle von DeepSeek oder Kimi. Laut Benchmarks ist GLM 4.7 besonders gut bei Coding-Aufgaben und bei komplexen Denkaufgaben.
Im Vergleich zum Vorgänger GLM 4.6 ist es praktisch in allen Dimensionen besser, außerdem hat Z.ai die Kontextlänge auf 200.000 Token erhöht. Das führt zu einem sehr großen Modell mit 335 Milliarden Parametern. Das Modell verfügt dazu über 160 Experten, von denen immer acht (und ein geteilter) aktiv sind. Zusammen mit den ersten dichten Layern ergeben sich damit 32 Milliarden Parameter, die bei jedem Aufruf aktiv sind. Um den RAM-Bedarf der (quantisierten) Modelle etwas zu verkleinern, haben einige User versucht, die Experten zu eliminieren, die häufig schlechte Antworten erzeugen. Das Verfahren dazu nennt sich REAP (Reflection, Explicit Problem Deconstruction, and Advanced Prompting) und produziert schlankere Modelle, deren Ausgabe sich kaum von der des vollen Modells unterscheiden lässt.

Den Erdbertest besteht GLM-4.7 (Abb. 4).

Die heise-Erklärung ist im Vergleich zu vielen anderen Modellen auffällig stimmig, auch wenn sie ausgerechnet bei Heise Developer etwas dazu erfindet. (Abb. 5)

Bei Taiwan gibt sich GLM-4.7 recht offen (Abb. 6).

Auch zu Tiananmen hält sich das Modell kaum zurück (Abb. 7).

Und erklärt sogar die Unterdrückung durch die chinesische Parteiführung (Abb. 8).
Bei MiniMax 2.1 handelt es sich um ein weiteres Modell aus China, das sich ebenso wie GLM 4.7 auf Coding, Nutzung von Werkzeugen und agentische Workflows fokussiert. Der Anbieter veröffentlicht wesentlich weniger Informationen als Z.ai, aber in den entsprechenden Dateien lässt sich einiges finden. Wenig überraschend handelt es sich auch bei MiniMax 2.1 um ein MoE-Modell, allerdings mit 256 Experten, von denen immer acht befragt werden. Von den insgesamt 230 Milliarden Parametern sind dann jeweils immer 10 Milliarden aktiv. Auch MiniMax kann wie GLM 4.7 mit knapp 200.000K Token umgehen.
Die Community ist sich nicht einig, ob GLM 4.7 oder MiniMax 2.1 sich besser für Programmieraufgaben eignet. Zweifellos sind beides sehr starke Modelle, die dank (relativ) weniger aktiver Parameter auch noch verhältnismäßig schnell ausgeführt werden können.

Auch Minimax-M2.1 zählt beim Erdbeertest richtig (Abb. 9).

Bei der heise-Erklärung gibt es eine Mischung aus korrekten und erfundenen Informationen (Abb. 10).

Bei der Taiwan-Frage gibt es eine differenzierte, aber recht knappe Antwort (Abb. 11).

Die Tiananmen-Ereignisse verharmlost das Modell (Abb. 12).

Und es äußerst sich zur Zensur, auch wenn es hier den Bezug zu dem zuvor als Referenz genannten Tiananmen auslässt (Abb. 13).
Modelle von LG aus Südkorea
Aus Südkorea hat man bisher wenige Modelle gesehen. Das hat sich nun geändert, mit K-EXAONE stellt LG ein entsprechendes Modell zur Verfügung. Wie nicht anders zu erwarten, ist es vor allem auf englische und koreanische Texte trainiert, spricht aber auch Spanisch, Deutsch, Japanisch und Vietnamesisch. Mit 236 Milliarden Parametern ist es sehr groß, auch wenn nur jeweils immer 23 Milliarden Parameter aktiv sind. Es nutzt Sliding Window Attention und kann damit lange Kontexte von bis zu 256K Token verarbeiten. In den Benchmarks performt das Modell ähnlich gut wie das (deutlich kleinere) gpt-oss-120b oder das (ebenso große) Qwen-235B-A22B-Thinking.
Spannende Zeiten
Es hat sich in den letzten Wochen einiges getan – in ganz unterschiedlichen Richtungen. Ob sich Googles Ideen umsetzen lassen und durchsetzen können, wird sich erst in einer ganzen Weile zeigen. Unstrittig dürfte hingegen sein, dass die Liquid Foundation Models für ihre Größe wirklich Beachtliches leisten. Das trifft auch für die (scheinbar wenig zensierten) großen chinesischen Modelle zu, die sich sehr gut für agentische Aufgaben eignen. Schließlich taucht auch erstmals ein großes koreanisches Modell auf, das konkurrenzfähig ist. Das lässt auf eine weitere Diversifizierung in der Zukunft hoffen.
(rme)
Künstliche Intelligenz
OpenAI sorgt sich um die Kluft zwischen KI-Möglichkeiten und Anwendungen
In einem Bericht warnt OpenAI, die Kluft zwischen dem, was KI kann und dem, wie KI bisher eingesetzt wird, müsse verringert werden. Sonst droht nichts Geringeres als der Wohlstandsverlust. KI könne Aufgaben schneller erledigen als ein Mensch und Menschen effizienter machen, heißt es in dem Bericht.
Weiterlesen nach der Anzeige
So weit, so KI-PR-Sprech. Und sicherlich oftmals auch wahr. Dass Künstliche Intelligenz aber vielleicht auch noch nicht überall einsatzbereit ist, davon will OpenAI offenbar nichts wissen. Und dass die vermehrte Nutzung vor allem auch OpenAI selbst zugutekäme, wird in dem Bericht ebenfalls nicht behandelt.
In dem Bericht (PDF) steht: „Allerdings führen verbesserte Fähigkeiten allein nicht zu Produktivitätsvorteilen oder wirtschaftlichen Auswirkungen.“ Dafür müssten KI-Tools von Unternehmen und Ländern noch viel tiefer in Arbeitsabläufe integriert werden. Dass eine vermehrte Nutzung positiven Einfluss auf die Produktivität hat, belegt OpenAI mit einem anderen Bericht von OpenAI, den die Firma vor einigen Wochen herausgebracht hat.
Erneut setzt OpenAI die Nutzung von Thinking-Fähigkeiten in ChatGPT damit gleich, dass jemand auch produktiver ist als Personen, die nur einfacher zu beantwortende Fragen an den Chatbot stellen. „Führende Länder nutzen drei Mal mehr Fähigkeiten im tieferen Denken als Länder, die das weniger nutzen“, schreibt OpenAI. Die Denkfähigkeit besteht aus der Anzahl der Reasoning-Token, die in einem Land genutzt wurden.
Freilich ist zu bedenken, dass Ländern andere KI-Modelle zur Verfügung stehen, deren Nutzung OpenAI nicht einsehen kann. Was man also tatsächlich aus dem Bericht ablesen kann, ist, dass etwa in Singapur mehr Anfragen zum Coden an ChatGPT gestellt werden als in anderen Ländern. Die Nutzung von KI-Modellen kann sich sicherlich positiv auf die Produktivität eines Unternehmens auswirken, vielleicht sogar auf die Wirtschaft eines Landes – es lässt sich aber nicht aus den von OpenAI genannten Zahlen ableiten, schon gar nicht ein Kausalzusammenhang.
Und auch die folgenden Zahlen von OpenAI, die bescheinigen sollen, dass mehr Menschen mehr KI-Funktionen nutzen müssen, lassen Fragen offen. Demnach haben 19 Prozent der ChatGPT Enterprise Nutzer noch nie die Datenanalyse genutzt. Das ist in den Augen von OpenAI problematisch. Diese 19 Prozent können aber auch in einem Feld arbeiten, in dem sie gar keine Daten analysieren müssen oder können.
OpenAI will „too big to fail“ werden
Weiterlesen nach der Anzeige
Die finanziellen Schwierigkeiten von OpenAI sind bekannt. Abomodelle reichen nicht aus, um die Kosten zu decken. Nun soll Werbung in ChatGPT einziehen. Etwas, mit dem auch andere Unternehmen wie Google und Meta riesig und reich geworden sind, aber nicht unbedingt den Nutzern gefällt. Im Fall von KI und Chatbots haben die Nutzer Alternativen – nämlich unter anderem von besagten Unternehmen Meta und Google.
Für OpenAI liegt eine große Chance darin, „too big to fail“ zu werden, also zu groß, um wieder zu verschwinden. Wenn nur ausreichend Regierungen und Unternehmen auf die Dienste setzen, werden diese auch vieles daran setzen, dass OpenAI nicht pleitegeht. Ein Wechsel wäre schließlich aufwendig und teuer. „Unser Nordstern ist es, dass KI als unverzichtbare Infrastruktur behandelt wird und möglichst vielen Menschen ein breiter Zugang zu KI gewährt werden kann.“
Entsprechend macht OpenAI in dem Bericht auch Werbung für das „OpenAI for Countries“-Programm. Man wolle mit Ländern und Unternehmen zusammenarbeiten und ihnen die eigenen Dienste anbieten, angepasst an die Bedürfnisse eines jeden Landes – ganz uneigennützig, „um noch mehr Menschen die Vorteile von KI zur Verfügung zu stellen.“ Das Programm beinhaltet Unterstützung bei der Einführung von KI in Bildungseinrichtungen, was nun unter dem Namen „Education for Countries“ ein eigenständiger Bereich ist.
Zudem möchte das Unternehmen Zertifizierungen anbieten und gemeinsam Cyber-Sicherheitsmaßnahmen aufbauen sowie im Gesundheitswesen eingesetzt werden. OpenAI bekäme also Zugang zu nahezu allen kritischen und zukunftsweisenden Infrastrukturen verschiedenster Länder.
In Deutschland gibt es bereits eine Partnerschaft zwischen OpenAI und SAP, bei der es auch um den Einsatz von KI zu Regierungszwecken geht. „Das Ziel: den Beamten mehr Zeit geben, sich auf die Menschen zu konzentrieren, nicht auf Papierkram, und sicherstellen, dass Zugang und Vorteile breit geteilt werden.“
(emw)
Künstliche Intelligenz
Live-Webinar: Effizienter am Mac mit integrierten Automatisierungs-Tools
In unserem zweistündigen Live-Webinar Das erledigt der Mac für Sie: Abläufe automatisieren mit Kurzbefehlen und Automator führt Sie unser Experte Sam Jayhooni Schritt für Schritt in die Welt von Automator und der Kurzbefehle-App ein. Sie lernen, die leistungsstarken Automatisierungs-Tools Ihres Macs optimal zu nutzen.
Weiterlesen nach der Anzeige
Erfahren Sie, wie Sie mit Automator verschiedene Workflow-Typen erstellen und die umfangreiche Aktionsbibliothek einsetzen. Entdecken Sie außerdem das volle Potenzial der Kurzbefehle-App: Vom Anlegen einfacher Kurzbefehle über die Verwendung von Variablen und Bedingungen bis hin zu komplexen Workflows, die mehrere Apps verbinden. Realisieren Sie systemübergreifende Workflows zwischen Mac, iPhone und iPad. Programmierkenntnisse benötigen Sie für all das nicht.
Anhand praktischer Beispiele für Büro-Automatisierungen vermittelt der Referent, wie sich mit cleverer Automatisierung Zeit sparen lässt. Nach dem Webinar sind Sie in der Lage, Ihre eigenen Automatisierungen zu erstellen und Ihre Produktivität am Mac auf ein neues Level zu heben.
Zweistündiges Live-Webinar am 3. März
Das Live-Webinar findet am 3. März 26 von 10:00 bis 12:00 Uhr statt. Es richtet sich an alle, die ihre Arbeitsabläufe am Mac optimieren möchten, und ist auch für Einsteiger geeignet. Programmierkenntnisse sind nicht erforderlich, grundlegende macOS-Kenntnisse werden empfohlen.
Im Anschluss erhalten Sie eine persönliche Teilnahmebescheinigung, die Vortragsfolien sowie einen Zugang zur Aufzeichnung.
Ein Ticket kostet regulär 129 Euro. Bis zum 2. Februar erhalten Sie 10% Frühbucherrabatt.
Weiterlesen nach der Anzeige
Weitere Informationen und Anmeldung: Das erledigt der Mac für Sie: Abläufe automatisieren mit Kurzbefehlen und Automator
(ims)
Künstliche Intelligenz
Sexuelle Deepfakes: Erster Staat gibt Zugriff auf Grok wieder frei
Das KI-Unternehmen xAI hat die zuständige Behörde der Philippinen überzeugt, dass der KI-Chatbot Grok ausreichend geändert werden kann, um dort sexualisierte Deepfakes zu verhindern. Im Gegenzug wurde eine vor einer Woche verhängte Sperre für die KI-Software beendet, berichtet die Finanznachrichtenagentur Bloomberg unter Berufung auf das zuständige Cybercrime-Zentrum. xAI habe zugesagt, das Werkzeug dahingehend zu ändern, weswegen man den Zugriff darauf wieder freigegeben habe. Die Philippinen waren vorige Woche der dritte Staat aus Südostasien, der den Zugriff auf Grok gesperrt hat. Indonesien und Malaysia haben diese Entscheidung noch nicht rückgängig gemacht.
Weiterlesen nach der Anzeige
Unterschiedliche Reaktionen
Der Schritt der Behörde aus Manila zeigt, dass es xAI gelingen kann, der teils massiven Kritik an Grok den Wind aus den Segeln zu nehmen. Das scheint aber nicht überall zu klappen, hat sich in dieser Woche angedeutet. Am Montag hat das Handelsblatt berichtet, dass die EU-Kommission Maßnahmen gegen Grok ergreifen will. Sollte es nicht gelingen, die Generierung nicht genehmigter sexualisierter Deepfakes von Personen komplett zu verhindern, könnte der Dienst in Europa gesperrt werden, hat die Zeitung zitiert. Dabei hatte xAI da schon angekündigt, dass eine technologische Sperre solche KI-Bilder verhindern soll. Das hat aber anfangs nicht durchgehend funktioniert.
Hintergrund der staatlichen Reaktionen sind KI-Bilder, die Grok Anfang des Jahres teilweise zu tausenden pro Stunde generiert hat. Auf denen wurden primär reale Frauen und teilweise auch Minderjährige in Unterwäsche oder Bikinis dargestellt. Nach der ersten heftigen Kritik hat xAI die Technik dahingehend eingeschränkt, dass Bildgenerierung nur noch in direkten Chats oder gegen Bezahlung möglich war. Das wurde aber vielfach so interpretiert, dass die problematische Funktion einfach als Premiumangebot vermarktet wurde. Deshalb hat xAI vorige Woche noch einmal nachgelegt und zugesagt, diese Art der Bildgenerierung komplett zu stoppen.
(mho)
-
Entwicklung & Codevor 2 MonatenKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
UX/UI & Webdesignvor 3 MonatenArndt Benedikt rebranded GreatVita › PAGE online
-
Künstliche Intelligenzvor 3 WochenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Entwicklung & Codevor 1 MonatKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Künstliche Intelligenzvor 3 MonatenGoogle „Broadwing“: 400-MW-Gaskraftwerk speichert CO₂ tief unter der Erde
-
Apps & Mobile Entwicklungvor 2 MonatenHuawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone
-
Social Mediavor 1 MonatDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
Apps & Mobile Entwicklungvor 2 MonatenFast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC
