Künstliche Intelligenz
Model-Schau 2: Neue Architekturansätze bei den Sprachmodellen
Das neue Jahr ist noch jung, aber die Sprachmodell-Community hat sich keine Pause gegönnt. So geht es munter mit neuen Modellen, aber auch mit neuen Architekturansätzen ins Jahr 2026, auch wenn einige der vorgestellten Neuerungen noch aus den letzten Wochen von 2025 stammen.
Weiterlesen nach der Anzeige

Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.
Gedächtnis-Titan von Google
Bisher kämpfen fast alle Sprachmodelle mit Amnesie. Sobald sie lange Texte verarbeiten sollen, vergessen sie entscheidende Details. Diese Tendenz verstärkt sich mit längerem Kontext. Besonders die Teile in der Mitte gehen dann verloren (lost in the middle). Es gibt zahlreiche Ansätze, Modelle in dieser Hinsicht zu verbessern. Einige Modelle setzen beispielsweise alternierend sogenannte Mamba-Layer (oder State Space Models) ein, die besonders bei langen Sequenzen besser skalieren und weniger Speicherplatz benötigen, dafür aber nicht so präzise arbeiten wie Transformer. Andere Modelle setzen auf rekurrente neuronale Netze (RNNs), die man nach der Erfindung der Transformer eigentlich schon fast abgeschrieben hatte.
(Bild: Golden Sikorka/Shutterstock)

Die Online-Konferenz LLMs im Unternehmen zeigt am 19. März, wie KI-Agenten Arbeitsprozesse übernehmen können, wie LLMs beim Extrahieren der Daten helfen und wie man Modelle effizient im eigenen Rechenzentrum betreibt.
Google hat nun zwei neue Forschungsartikel dazu veröffentlicht. Der erste nennt sich „Titans“ und führt eine Architektur ein, die nach ihren eigenen Worten „die Geschwindigkeit von RNNs mit der Genauigkeit von Transformern zusammenbringt“. Google erreicht das durch den Einsatz von Transformern und dem Attention-Mechanismus für das Kurzzeitgedächtnis, für das Langzeitgedächtnis verwendet der Ansatz tiefe neuronale Netze (und nicht etwa RNNs). Eine sogenannte Überraschungs-Metrik soll sich besonders auf die Textteile konzentrieren, die nicht erwartete Wörter enthalten. Mit einem adaptiven Verfallmechanismus vergisst das Modell dann die Informationen, die es nicht mehr benötigt.
Google stellt mit „MIRAS“ auch gleich einen Blueprint zur Implementierung vor. Das dahinterliegende KI-Modell fokussiert sich auf eine Memory-Architektur, den Attention-Bias (mit dem es wichtige von unwichtigen Informationen unterscheidet) und die Mechanismen zum Vergessen beziehungsweise zum Aktualisieren des Gedächtnisses. Statt des mittleren quadratischen Fehlers oder des Skalarprodukts optimiert Google nichteuklidische Metriken und nennt dafür drei Beispielmodelle, die auf dem Huber-Loss, generalisierten Normen oder einer Wahrscheinlichkeitsabbildung basieren.
Das klingt äußerst mathematisch, aber Google kann damit in ersten Demos bessere Ergebnisse als mit einer reinen Mamba-Architektur erzielen. Den am Schluss erklärten Extrem Long-Context Recall vergleicht der Artikel allerdings nur mit Modellen wie GPT-4 oder Qwen2.5-72B, die schon mindestens ein Jahr alt sind. Diese Ergebnisse sollte man also mit Vorsicht genießen. Spannend wird es, wenn Google damit richtig große Modelle trainiert und zur Verfügung stellt.
Weiterlesen nach der Anzeige
Liquid Foundation Models
Eine ganz andere Architektur setzen die Liquid Foundation Models ein. Lange waren die Liquid Models schon mit Demos präsent, in denen sie mit kleinen Modellen erstaunliche Fähigkeiten entwickeln konnten. Der Durchbruch kam dann mit LFM2. Teile der Modelle setzen die Transformer-Architektur mit Attention ein, andere nutzen Multiplikations-Gates und Konvolutionen mit kurzen Sequenzen. Allerdings war bisher die Performance der darauf aufbauenden Modelle noch nicht gut genug.
Geändert hat sich das mit LFM2.5, einer ganzen Serie von kleinen Modellen mit nur gut einer Milliarde Parametern. Vorerst sind die Modelle für Edge-Devices gedacht, sie lassen sich aber auch mit hoher Geschwindigkeit auf üblicher Hardware ausführen. Die in Abbildung 1 dargestellten Ergebnisse sind mit Vorsicht zu genießen, da sie vom Anbieter stammen. Unabhängig davon machen die Modelle für ihre Größe einen hervorragenden Eindruck. Für viele Anwendungen wie Retrieval-Augmented Generation (RAG) könnten diese gut zum Einsatz kommen, weil das Wissen dafür nicht in den Modellen selbst stecken muss, die hier nur zum Feinabgleich und für Formulierungen eingesetzt werden. Mit einer kleinen GPU lassen sich die Modelle extrem schnell ausführen. Auf einer performanten CPU arbeiten sie immer noch schnell.

Beim Erdbeertest kann LFM 2.5 ebenso wenig überzeugen (Abb. 1) …

wie mit der Erklärung von heise (Abb. 2).
Neben den Modellen zur Textgenerierung gibt es auch ein hybrides Modell, das gesprochenen Text sowohl verstehen, als auch erzeugen kann. Gerade für mobile Endgeräte kann die Funktion sinnvoll sein, damit man auch ohne Internet- und Cloud-Zugriff Sprache in Text und umgekehrt umwandeln kann.

Performance von LFM2.5-1.2B-Instruct im Vergleich zu ähnlich großen Modellen (Abb.3)
(Bild: Hugging Face)
Schlanke Coding-Modelle erobern Benchmarks
Bei IQuest-Coder handelt es sich um ein neues Modell mit 40 Milliarden Parametern, das insbesondere in der Loop-Variante interessante Ideen mit einbringt. Der Transformer arbeitet rekurrent, verarbeitet also die Tokens mehrfach – zunächst doppelt in zwei Iterationen. IQuestLab verspricht damit deutlich höhere Performance. Seine Entwickler behaupten, in den einschlägigen Benchmarks wesentlich bessere Ergebnisse erzielen zu können als vergleichbar große Modelle. Trotz anfänglicher Euphorie scheint das Modell aber nicht besonders populär zu sein.
Einen anderen Weg geht NousResearch. Es nutzt Qwen-14B als Basismodell, um mit modernen Methoden daraus ein Coding-Modell zu erzeugen. Auch wenn es nicht mit den deutlich größeren Modellen konkurrieren kann, erzielt es für seine Größe gute Ergebnisse und zeigt einen möglichen weiteren Weg für Coding-Modelle auf.
Chinesische Modelle mit offenen Gewichten
Die seit Kurzem an der Börse in Hong Kong notierte Firma Z.ai hat mit GLM-4.7 ein lang erwartetes Modell veröffentlicht, das sich in vielen Benchmarks an die Spitze der Modelle mit offenen Gewichten gesetzt hat. Mit 355 Milliarden Parametern verfügt es zwar über eine stattliche Größe, ist aber immer noch viel kleiner als die Modelle von DeepSeek oder Kimi. Laut Benchmarks ist GLM 4.7 besonders gut bei Coding-Aufgaben und bei komplexen Denkaufgaben.
Im Vergleich zum Vorgänger GLM 4.6 ist es praktisch in allen Dimensionen besser, außerdem hat Z.ai die Kontextlänge auf 200.000 Token erhöht. Das führt zu einem sehr großen Modell mit 335 Milliarden Parametern. Das Modell verfügt dazu über 160 Experten, von denen immer acht (und ein geteilter) aktiv sind. Zusammen mit den ersten dichten Layern ergeben sich damit 32 Milliarden Parameter, die bei jedem Aufruf aktiv sind. Um den RAM-Bedarf der (quantisierten) Modelle etwas zu verkleinern, haben einige User versucht, die Experten zu eliminieren, die häufig schlechte Antworten erzeugen. Das Verfahren dazu nennt sich REAP (Reflection, Explicit Problem Deconstruction, and Advanced Prompting) und produziert schlankere Modelle, deren Ausgabe sich kaum von der des vollen Modells unterscheiden lässt.

Den Erdbertest besteht GLM-4.7 (Abb. 4).

Die heise-Erklärung ist im Vergleich zu vielen anderen Modellen auffällig stimmig, auch wenn sie ausgerechnet bei Heise Developer etwas dazu erfindet. (Abb. 5)

Bei Taiwan gibt sich GLM-4.7 recht offen (Abb. 6).

Auch zu Tiananmen hält sich das Modell kaum zurück (Abb. 7).

Und erklärt sogar die Unterdrückung durch die chinesische Parteiführung (Abb. 8).
Bei MiniMax 2.1 handelt es sich um ein weiteres Modell aus China, das sich ebenso wie GLM 4.7 auf Coding, Nutzung von Werkzeugen und agentische Workflows fokussiert. Der Anbieter veröffentlicht wesentlich weniger Informationen als Z.ai, aber in den entsprechenden Dateien lässt sich einiges finden. Wenig überraschend handelt es sich auch bei MiniMax 2.1 um ein MoE-Modell, allerdings mit 256 Experten, von denen immer acht befragt werden. Von den insgesamt 230 Milliarden Parametern sind dann jeweils immer 10 Milliarden aktiv. Auch MiniMax kann wie GLM 4.7 mit knapp 200.000K Token umgehen.
Die Community ist sich nicht einig, ob GLM 4.7 oder MiniMax 2.1 sich besser für Programmieraufgaben eignet. Zweifellos sind beides sehr starke Modelle, die dank (relativ) weniger aktiver Parameter auch noch verhältnismäßig schnell ausgeführt werden können.

Auch Minimax-M2.1 zählt beim Erdbeertest richtig (Abb. 9).

Bei der heise-Erklärung gibt es eine Mischung aus korrekten und erfundenen Informationen (Abb. 10).

Bei der Taiwan-Frage gibt es eine differenzierte, aber recht knappe Antwort (Abb. 11).

Die Tiananmen-Ereignisse verharmlost das Modell (Abb. 12).

Und es äußerst sich zur Zensur, auch wenn es hier den Bezug zu dem zuvor als Referenz genannten Tiananmen auslässt (Abb. 13).
Modelle von LG aus Südkorea
Aus Südkorea hat man bisher wenige Modelle gesehen. Das hat sich nun geändert, mit K-EXAONE stellt LG ein entsprechendes Modell zur Verfügung. Wie nicht anders zu erwarten, ist es vor allem auf englische und koreanische Texte trainiert, spricht aber auch Spanisch, Deutsch, Japanisch und Vietnamesisch. Mit 236 Milliarden Parametern ist es sehr groß, auch wenn nur jeweils immer 23 Milliarden Parameter aktiv sind. Es nutzt Sliding Window Attention und kann damit lange Kontexte von bis zu 256K Token verarbeiten. In den Benchmarks performt das Modell ähnlich gut wie das (deutlich kleinere) gpt-oss-120b oder das (ebenso große) Qwen-235B-A22B-Thinking.
Spannende Zeiten
Es hat sich in den letzten Wochen einiges getan – in ganz unterschiedlichen Richtungen. Ob sich Googles Ideen umsetzen lassen und durchsetzen können, wird sich erst in einer ganzen Weile zeigen. Unstrittig dürfte hingegen sein, dass die Liquid Foundation Models für ihre Größe wirklich Beachtliches leisten. Das trifft auch für die (scheinbar wenig zensierten) großen chinesischen Modelle zu, die sich sehr gut für agentische Aufgaben eignen. Schließlich taucht auch erstmals ein großes koreanisches Modell auf, das konkurrenzfähig ist. Das lässt auf eine weitere Diversifizierung in der Zukunft hoffen.
(rme)
Künstliche Intelligenz
Android Auto 16.0: Neuer Mediaplayer, bekannte Bugs
Google hat damit begonnen, Android Auto auf Version 16.0.660224 zu hieven. Das Update bringt vor allem einen schon im Mai 2025 versprochenen überarbeiteten Mediaplayer. Einige bekannte Baustellen hat Google derweil noch nicht adressiert.
Weiterlesen nach der Anzeige
Neuer Mediaplayer
Nachdem Google im November damit begonnen hatte, wie im Mai angekündigt, den Google Assistant durch Gemini zu ersetzen, zieht nun der Mediaplayer im neuen Design in Android Auto ein. Wie 9to5 Google schreibt, hat Google den neuen Look schon seit einiger Zeit vorbereitet und ihn zuerst Beta-Testern zur Verfügung gestellt.

Template von Google für den Mediaplayer in Android Auto 16.
(Bild: Google)
Das neue Design ordnet die Bedienoberfläche ein wenig um: So ist die Wiedergabe-/Pause-Taste nun in der unteren linken Ecke, daneben befinden sich die Titelsteuerung und weitere Funktionen. Das neue Layout soll unter anderem die Bedienung während der Fahrt verbessern.
Mit dem Update ziehen auch Änderungen in Apps wie Spotify und Pocket Casts ein. Spotify bekommt unter anderem neue Material-You-Design-Elemente und übernimmt entsprechend dem dynamischen App-Thema die jeweiligen Farben der aktuell laufenden Albencover.
Support für Video- und Browser-Apps
Google hatte im Zuge der Ankündigung auf der I/O auch Android-Auto-Support für Video- und Browser-Apps angekündigt. Damit soll es Nutzern möglich sein, über den Infotainment-Bildschirm des Fahrzeugs per Browser im Web zu surfen und Filme oder Serien zu schauen. Diese Apps werden gesetzlichen Sicherheitsvorkehrungen entsprechend nur unter bestimmten Bedingungen funktionieren.
Weiterlesen nach der Anzeige
Dieses Versprechen hat der Konzern derweil noch nicht eingelöst. Damals hatte das Unternehmen jedoch keinen konkreten Zeitrahmen genannt, nur ein „kommt bald“. Immerhin: Die ebenso im Mai angekündigte Spotify-Jam-Funktion für Android Auto steht seit Juli 2025 zur Nutzung bereit. Mit der Funktion können Fahrer gemeinsam mit Mitfahrern die Musik-Playlist gestalten.
Bugs auf Googles Liste
Während neue Funktionen meist willkommen sind, verhält es sich genauso mit Bugfixes. Und hier scheint Google bei Android Auto noch allerhand zu tun zu haben. In Googles Supportforum weist die Liste der noch zu bearbeitenden Android-Auto-Fehler etwa Verbindungsprobleme mit den Smartphone-Modellen Pixel 10 und Galaxy S25 auf, ebenso sollen Sprachbefehle mit Googles neuester Smartphonegeneration nicht immer funktionieren.
Lesen Sie auch
Zudem soll die Seitenleiste von TomTom bei der Verwendung von Android Auto nicht angezeigt werden. Außerdem könne es vorkommen, dass der Assistent mit der Fehlermeldung „Hoppla, etwas ist schiefgelaufen“ antwortet. Wann Google die Fehler behebt, ist unklar.
Das aktuelle Update auf Android 16.0 verteilt Google schrittweise. In der Regel dauert es eine Weile, bis es alle Nutzer erhalten. Auf einem Redaktionsgerät läuft etwa noch Android Auto-Version 15.9.655114.
(afl)
Künstliche Intelligenz
OpenAI sorgt sich um die Kluft zwischen KI-Möglichkeiten und Anwendungen
In einem Bericht warnt OpenAI, die Kluft zwischen dem, was KI kann und dem, wie KI bisher eingesetzt wird, müsse verringert werden. Sonst droht nichts Geringeres als der Wohlstandsverlust. KI könne Aufgaben schneller erledigen als ein Mensch und Menschen effizienter machen, heißt es in dem Bericht.
Weiterlesen nach der Anzeige
So weit, so KI-PR-Sprech. Und sicherlich oftmals auch wahr. Dass Künstliche Intelligenz aber vielleicht auch noch nicht überall einsatzbereit ist, davon will OpenAI offenbar nichts wissen. Und dass die vermehrte Nutzung vor allem auch OpenAI selbst zugutekäme, wird in dem Bericht ebenfalls nicht behandelt.
In dem Bericht (PDF) steht: „Allerdings führen verbesserte Fähigkeiten allein nicht zu Produktivitätsvorteilen oder wirtschaftlichen Auswirkungen.“ Dafür müssten KI-Tools von Unternehmen und Ländern noch viel tiefer in Arbeitsabläufe integriert werden. Dass eine vermehrte Nutzung positiven Einfluss auf die Produktivität hat, belegt OpenAI mit einem anderen Bericht von OpenAI, den die Firma vor einigen Wochen herausgebracht hat.
Erneut setzt OpenAI die Nutzung von Thinking-Fähigkeiten in ChatGPT damit gleich, dass jemand auch produktiver ist als Personen, die nur einfacher zu beantwortende Fragen an den Chatbot stellen. „Führende Länder nutzen drei Mal mehr Fähigkeiten im tieferen Denken als Länder, die das weniger nutzen“, schreibt OpenAI. Die Denkfähigkeit besteht aus der Anzahl der Reasoning-Token, die in einem Land genutzt wurden.
Freilich ist zu bedenken, dass Ländern andere KI-Modelle zur Verfügung stehen, deren Nutzung OpenAI nicht einsehen kann. Was man also tatsächlich aus dem Bericht ablesen kann, ist, dass etwa in Singapur mehr Anfragen zum Coden an ChatGPT gestellt werden als in anderen Ländern. Die Nutzung von KI-Modellen kann sich sicherlich positiv auf die Produktivität eines Unternehmens auswirken, vielleicht sogar auf die Wirtschaft eines Landes – es lässt sich aber nicht aus den von OpenAI genannten Zahlen ableiten, schon gar nicht ein Kausalzusammenhang.
Und auch die folgenden Zahlen von OpenAI, die bescheinigen sollen, dass mehr Menschen mehr KI-Funktionen nutzen müssen, lassen Fragen offen. Demnach haben 19 Prozent der ChatGPT Enterprise Nutzer noch nie die Datenanalyse genutzt. Das ist in den Augen von OpenAI problematisch. Diese 19 Prozent können aber auch in einem Feld arbeiten, in dem sie gar keine Daten analysieren müssen oder können.
OpenAI will „too big to fail“ werden
Weiterlesen nach der Anzeige
Die finanziellen Schwierigkeiten von OpenAI sind bekannt. Abomodelle reichen nicht aus, um die Kosten zu decken. Nun soll Werbung in ChatGPT einziehen. Etwas, mit dem auch andere Unternehmen wie Google und Meta riesig und reich geworden sind, aber nicht unbedingt den Nutzern gefällt. Im Fall von KI und Chatbots haben die Nutzer Alternativen – nämlich unter anderem von besagten Unternehmen Meta und Google.
Für OpenAI liegt eine große Chance darin, „too big to fail“ zu werden, also zu groß, um wieder zu verschwinden. Wenn nur ausreichend Regierungen und Unternehmen auf die Dienste setzen, werden diese auch vieles daran setzen, dass OpenAI nicht pleitegeht. Ein Wechsel wäre schließlich aufwendig und teuer. „Unser Nordstern ist es, dass KI als unverzichtbare Infrastruktur behandelt wird und möglichst vielen Menschen ein breiter Zugang zu KI gewährt werden kann.“
Entsprechend macht OpenAI in dem Bericht auch Werbung für das „OpenAI for Countries“-Programm. Man wolle mit Ländern und Unternehmen zusammenarbeiten und ihnen die eigenen Dienste anbieten, angepasst an die Bedürfnisse eines jeden Landes – ganz uneigennützig, „um noch mehr Menschen die Vorteile von KI zur Verfügung zu stellen.“ Das Programm beinhaltet Unterstützung bei der Einführung von KI in Bildungseinrichtungen, was nun unter dem Namen „Education for Countries“ ein eigenständiger Bereich ist.
Zudem möchte das Unternehmen Zertifizierungen anbieten und gemeinsam Cyber-Sicherheitsmaßnahmen aufbauen sowie im Gesundheitswesen eingesetzt werden. OpenAI bekäme also Zugang zu nahezu allen kritischen und zukunftsweisenden Infrastrukturen verschiedenster Länder.
In Deutschland gibt es bereits eine Partnerschaft zwischen OpenAI und SAP, bei der es auch um den Einsatz von KI zu Regierungszwecken geht. „Das Ziel: den Beamten mehr Zeit geben, sich auf die Menschen zu konzentrieren, nicht auf Papierkram, und sicherstellen, dass Zugang und Vorteile breit geteilt werden.“
(emw)
Künstliche Intelligenz
Live-Webinar: Effizienter am Mac mit integrierten Automatisierungs-Tools
In unserem zweistündigen Live-Webinar Das erledigt der Mac für Sie: Abläufe automatisieren mit Kurzbefehlen und Automator führt Sie unser Experte Sam Jayhooni Schritt für Schritt in die Welt von Automator und der Kurzbefehle-App ein. Sie lernen, die leistungsstarken Automatisierungs-Tools Ihres Macs optimal zu nutzen.
Weiterlesen nach der Anzeige
Erfahren Sie, wie Sie mit Automator verschiedene Workflow-Typen erstellen und die umfangreiche Aktionsbibliothek einsetzen. Entdecken Sie außerdem das volle Potenzial der Kurzbefehle-App: Vom Anlegen einfacher Kurzbefehle über die Verwendung von Variablen und Bedingungen bis hin zu komplexen Workflows, die mehrere Apps verbinden. Realisieren Sie systemübergreifende Workflows zwischen Mac, iPhone und iPad. Programmierkenntnisse benötigen Sie für all das nicht.
Anhand praktischer Beispiele für Büro-Automatisierungen vermittelt der Referent, wie sich mit cleverer Automatisierung Zeit sparen lässt. Nach dem Webinar sind Sie in der Lage, Ihre eigenen Automatisierungen zu erstellen und Ihre Produktivität am Mac auf ein neues Level zu heben.
Zweistündiges Live-Webinar am 3. März
Das Live-Webinar findet am 3. März 26 von 10:00 bis 12:00 Uhr statt. Es richtet sich an alle, die ihre Arbeitsabläufe am Mac optimieren möchten, und ist auch für Einsteiger geeignet. Programmierkenntnisse sind nicht erforderlich, grundlegende macOS-Kenntnisse werden empfohlen.
Im Anschluss erhalten Sie eine persönliche Teilnahmebescheinigung, die Vortragsfolien sowie einen Zugang zur Aufzeichnung.
Ein Ticket kostet regulär 129 Euro. Bis zum 2. Februar erhalten Sie 10% Frühbucherrabatt.
Weiterlesen nach der Anzeige
Weitere Informationen und Anmeldung: Das erledigt der Mac für Sie: Abläufe automatisieren mit Kurzbefehlen und Automator
(ims)
-
Entwicklung & Codevor 2 MonatenKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
UX/UI & Webdesignvor 3 MonatenArndt Benedikt rebranded GreatVita › PAGE online
-
Künstliche Intelligenzvor 3 WochenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Entwicklung & Codevor 1 MonatKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Künstliche Intelligenzvor 3 MonatenGoogle „Broadwing“: 400-MW-Gaskraftwerk speichert CO₂ tief unter der Erde
-
Apps & Mobile Entwicklungvor 2 MonatenHuawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone
-
Social Mediavor 1 MonatDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
Apps & Mobile Entwicklungvor 2 MonatenFast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC
