Künstliche Intelligenz
Alibabas LLM Qwen3 auf dem nächsten Level
Mit verhältnismäßig geringem Echo ist am 10.9.2025 ein neues Qwen3-Modell erschienen. Die Randdaten klingen unspektakulär: Es hat 80 Milliarden Parameter, von denen jeweils immer drei Milliarden aktiv sind. Doch die Änderungen haben es in sich und könnten eine mögliche Richtung vorgeben, in die sich Sprachmodelle weiterentwickeln.

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Seit 2022 ist er Professor an der TH Nürnberg und konzentriert seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.
Neue Modellarchitektur
Das Qwen-Team identifiziert die Gesamtzahl der Parameter und die Kontextlänge als größte Engpässe sowohl im Training als auch in der Inferenz. Im Vergleich zu den schon länger verfügbaren Qwen3-Modellen gibt es beim neuen Modell vor allem folgende Innovationen:
- Hybrider Attention-Mechanismus
- Schlanke Mixture-of-Experts-Struktur
- Trainingsoptimierungen
- Vorhersage mehrerer Token
(Bild: Golden Sikorka/Shutterstock)

Die Online-Konferenz LLMs im Unternehmen am 29. Oktober zeigt, wie man das passende Modell auswählt, die Infrastruktur aufbaut und die Sicherheit im Griff behält. Außerdem gibt der Thementag von iX und dpunkt.verlag einen Ausblick auf Liquid Foundation Models als nächste Generation von LLMs.
Hybrider Attention-Mechanismus: Das neue Modell wendet in 75 Prozent der Layer eine Form der sogenannten linearen Attention (Gated DeltaNet) an, die wesentlich weniger Speicher und Rechenzeit benötigt. Die übrigen Layer arbeiten nach dem Standard-Attention-Mechanismus. Im Blog kann man nachlesen, dass diese hybride Architektur bessere Ergebnisse erzielt, als in allen Layern den gleichen Attention-Mechanismus zu verwenden. Diese Änderung führt dazu, dass man das Modell nicht mehr als reine Transformer-Architektur bezeichnen kann.
Schlanke Mixture-of-Experts-Struktur: Mixture-of-Experts-Modelle (MoE) verwenden immer nur einen Teil der Parameter und können damit Token schneller vorhersagen. MoE-Modelle gibt es schon einige Jahre, und Innovationen setzte vor allem DeepSeek mit seiner V3-Architektur um. Sie bietet deutlich mehr Experten: 256 statt der üblichen acht, jedoch sind immer nur acht gleichzeitig aktiv. Von den 671 Milliarden Parametern sind damit bei jeder Vorhersage nur 37 Milliarden erforderlich. Qwen3-Next geht hier noch weiter und arbeitet bei „lediglich“ 80 Milliarden Parametern mit ganzen 512 Experten, von denen immer zehn befragt werden. So benötigt jede Vorhersage nur drei Milliarden Parameter.
Trainingsoptimierungen: Das Training großer Sprachmodelle ist enorm aufwendig und dauert Hunderte GPU-Jahre. Daher legen Data Scientists großes Augenmerk darauf, diesen Prozess möglichst gut zu optimieren. Während etwa Moonshot.ai den Muon-Optimizer verwendet, nutzt das Schweizer Apertus-Modell Goldfish Loss, um das Training effizienter zu gestalten. Qwen3-Next hat dafür gleich mehrere, andere Optimierungen parat. Zunächst hilft auch hier der hybride Attention-Mechanismus, aber die Entwickler nutzen darüber hinaus eine nullzentrierte RMS-Norm (Root Mean Square) für die Layer-Gewichte, weil die bisher verwendete QK-Norm (Query-Key) explodierte. Zusätzlich implementieren sie ein nicht näher definiertes Verfahren, das alle MoE-Experten unvoreingenommen mit Trainingsdaten versorgt. Möglicherweise kommt hier das von DeepSeek veröffentlichte Verfahren Auxiliary-Loss-Free zum Einsatz, aber die Qwen-Autoren schweigen sich zu Details aus.
Vorhersage mehrerer Token: Mit der Mehrfachvorhersage haben schon einige Modelle experimentiert, bisher aber vor allem als Optimierung im Trainingsprozess. Auch hier geht Qwen3-Next einen Schritt weiter und lässt die Vorhersage im Inferenzmodus zu. Da die vorhergesagten Token nicht immer richtig sind, heißt das Verfahren auch Speculative Decoding. Was bisher nur mit Tricks und der Kombination kleiner und großer Modelle möglich war, bietet Qwen3-Next direkt.
Das Qwen-Team behauptet, dass es das Modell durch diese Optimierungen mit lediglich 80 Prozent des Aufwands für das deutlich kleinere Qwen3-30B-A3B trainieren konnte. Im Vergleich zum dichten Qwen3-32B bedeutet das demnach weniger als zehn Prozent des Aufwands. Die Optimierungen helfen auch in der Inferenzphase: Besonders bei langen Kontexten ist das Modell deutlich schneller als vergleichbar große Modelle.
Qwen3-Next in der Praxis
Das neue Modell auszuprobieren, ist nicht so einfach, denn die stark veränderte Architektur führt zu Problemen mit dem beliebten Tool llama.cpp, das wohl bis auf Weiteres nicht damit zusammenarbeitet. Besser sieht es mit der Transformers-Bibliothek aus, und auch vLLM arbeitet mit Qwen3-Next und überraschenderweise auch für das von Apple bereitgestellte MLX-Framework.
Die Ausführung funktioniert am zuverlässigsten mit Quantisierung, also reduzierter Genauigkeit zugunsten des Speicherbedarfs, weil die Modelle sonst mehr als 160 GByte RAM benötigen. Auf runpod.io kann man sich beispielsweise eine RTX 6000 Pro mit 96 GByte VRAM für knapp zwei Euro pro Stunde mieten und zumindest mit dem AWQ-Modell (Activation-aware Weight Quantization for LLM Compression and Acceleration) herumspielen. Gleiches gilt für Apple-Hardware, auf der es mindestens 64 GByte RAM sein sollten. Alternativ kann man OpenRouter nutzen, wo das Modell bei unterschiedlichen Providern zur Verfügung steht.

Qwen3-Next-Thinking kennt den Heise Verlag gut, auch wenn es keine Zeitschrift mit dem Titel Security Intelligence gibt und 1949 auch noch keine Elektrotechnik-Zeitschriften im Programm waren.
Die Antwort von Qwen3-Next-Instruct ist ähnlich. Das Reasoning bringt dabei also kaum Verbesserungen. Insgesamt ist das Instruct-Modell auf lmarena.ai und livebench.ai etwas besser bewertet. Die deutsche Variante der Strawberry-Challenge mit der Frage nach der Anzahl der „e“ in Erdbeere kann das Instruct-Modell nach anfänglich falschem Raten richtig beantworten:

Das Modell korrigiert sich, kommt aber auf das richtige Ergebnis bei der deutschen Strawberry-Challenge.
Qwen3-Next ist bei politischen Fragen äußerst restriktiv. Nur mit Mühe kann man ihm (vor allem in quantisierten Modellen) etwas dazu entlocken. Bei der Ausgabe ist der wiederholte Hinweis spannend, dass das Modell zu dem Thema nichts sagen darf. Das sieht fast danach aus, als ob sich das Modell verplappert hätte, sich dann aber wieder auf die indoktrinierten Texte einstellt:

Bei der Erläuterung der Tiananmen-Unruhen sind vor allem die zusätzlichen Hinweise spannend.
Das Modell arbeitet äußerst schnell. Mit dem (wenig effizienten) AWQ kann man auf einer RTX 6000 Pro etwa 20 Token pro Sekunde erreichen, das 4-Bit-quantisierte Modell schafft auf einem M2 Ultra fast 50 Token pro Sekunde, bei OpenRouter ist es mit knapp 150 Token pro Sekunde gelistet. Das ist für ein solches Modell beachtlich.
Künstliche Intelligenz
NASA und Boeing: Längere und schmalere Tragflächen sollen Flugeffizienz steigern
Die US-Raumfahrtbehörde NASA und der Flugzeugkonzern Boeing suchen gemeinsam nach einer Lösung, um das Fliegen mit Passagierflugzeugen effizienter und komfortabler zu gestalten. Im Rahmen des Projektes „Integrated Adaptive Wing Technology Maturation” testen sie längere, schlankere Tragflächen. Die sollen dafür sorgen, dass künftige Passagiermaschinen weniger Treibstoff verbrauchen und zugleich ruhiger fliegen.
Weiterlesen nach der Anzeige
Im Rahmen der Zusammenarbeit haben die NASA und Boeing Windkanaltests an Tragflächen durchgeführt, die eine höhere Streckung aufweisen und schmaler sind. Längere und dünnere Flügel haben einen geringeren Luftwiderstand bei in etwa gleichem Auftrieb, sodass sie im Flug insgesamt effizienter sind.
Flügelflattern verhindern
Zugleich können die schmaleren Tragflächen jedoch neue Probleme verursachen: Durch die hohe Streckung werden sie flexibler. Dadurch kann es im Flug zu größeren Bewegungen innerhalb der Tragflächenstruktur kommen. Die Tragflächen können sich etwa verformen und neigen zum berüchtigten Flügelflattern. Das Flugzeug kann so bei böigem Wind anfangen, zu vibrieren und sich zu schütteln, was zu einem unruhigeren Flug und zu Belastungen der Flugzeugzelle führt.
„Flattern ist eine sehr heftige Wechselwirkung“, sagt Jennifer Pinkerton, Luft- und Raumfahrtingenieurin bei der NASA im Langley Research Center in Hampton, Virginia. „Wenn die Strömung über einem Flügel mit der Flugzeugstruktur in Wechselwirkung tritt und die Eigenfrequenzen des Flügels angeregt werden, werden die Flügelschwingungen verstärkt und können exponentiell anwachsen, was zu einem potenziell katastrophalen Ausfall führen kann. Ein Teil unserer Tests besteht darin, aeroelastische Instabilitäten wie Flattern für Flugzeugkonzepte zu charakterisieren, damit diese Instabilitäten im tatsächlichen Flug sicher vermieden werden können.“
Um Flügelflattern zu minimieren, arbeiten NASA und Boeing daran, die Auswirkungen von Windböen auf Flugzeuge zu mindern, indem sie die Tragflächenbelastungen durch Flugzeugbewegungen verringern. Die Ingenieure nutzten für ihre Untersuchungen den Windkanal Transonic Tunnel der NASA Langley, der mit 4,87 m Höhe und gleicher Breite groß genug ist, um ein halbiertes großformatiges Passagierflugzeugmodell darin zu testen.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Die NASA zeigt, wie zusätzliche Steuerflächen Flügeflattern verhindern können.
Zum Einsatz kommt ein Modell mit einer etwa 3,96 m langen Tragfläche, das die NASA zusammen mit Boeing und NextGen Aeronautics entwickelt hat. Das Modell ist mit insgesamt zehn beweglichen Steuerflächen an der Hinterkante der Tragfläche ausgestattet. Damit können der Luftstrom kontrolliert und die Kräfte reduziert werden, die auf die Flügel einwirken und sie zum Vibrieren bringen.
Weiterlesen nach der Anzeige
Die Ingenieure überwachten dabei mit Sensorik und Messinstrumenten sowohl die auf das Flugzeugmodell einwirkenden Kräfte als auch die Reaktionen des Flugzeugs. Die neue Tragfläche mit seinen zehn Steuerflächen sei nochmals ein Fortschritt gegenüber der Tragfläche, die die NASA und Boeing bereits in einer früheren Kooperation mit der Bezeichnung Subsonic Ultra Green Aircraft Research (SUGAR) entwickelt hatten. Die dabei entstandene SUGAR-Tragfläche hatte lediglich zwei aktive Steuerflächen. Die neue Konstruktion mit zehn Steuerflächen sei komplexer, würde die Steuerungsziele jedoch noch besser erreichen.
Die Ergebnisse aus Testreihen von 2024 und 2025 sowie daraus erwachsenen Computersimulationen flossen in die Entwicklung der neuen Tragfläche mit den erweiterten Steuerungskonfigurationen ein. Die Tests zeigen, dass die Kräfte bei böigem Wind durch die zusätzlichen Steuerungsflächen verringert werden konnten und das Flattern spürbar abnahm.
Die NASA und Boeing wollen die ermittelten Daten weiter analysieren und die Ergebnisse veröffentlichen. Diese könnten dann dazu verwendet werden, um sie in der Entwicklung der nächsten Generation von Passagierflugzeugen einzusetzen, um so deren Treibstoffverbrauch zu reduzieren und ruhiger fliegen zu lassen.
(olb)
Künstliche Intelligenz
Microsoft fängt Gerüchte zur Windows-Rust-Portierung ein
Ein Linkedin-Posting von Microsoft-Manager Galen Hunt auf LinkedIn erheischte viel Aufmerksamkeit: Bis 2030 wolle Microsoft allen Code auf die als sicher geltende Programmiersprache Rust portieren. Dafür suchte Hunt einen führenden Entwickler. In dem Posting hieß es weiter, dass bei der Portierung auch künstliche Intelligenz zum Einsatz kommen soll. Als Ziellinie gab Hunt an, dass ein Mitarbeiter pro Monat eine Million Code-Zeilen umstellt. Dabei solle nicht nur KI helfen, sondern auch ausgeklügelte Algorithmen.
Weiterlesen nach der Anzeige
Schnell war das Gerücht im Umlauf, dass Microsoft Windows neu in Rust erstellen würde. Das dementierte nicht nur Hunt, indem er sein Posting präzisierte. In US-Medien meldete sich auch Frank X. Shaw zu Wort, Chief Communications Officer bei Microsoft. Er bemühte sich ebenfalls, das Gerücht einzufangen. Hunt erklärte in seinem inzwischen aktualisierten LinkedIn-Posting, dass es um ein Forschungsprojekt ginge, um die Migration von einer zu einer anderen Programmiersprache zu erleichtern.
Dass Microsoft zunehmend auch Rust nutzt, ist nicht neu. Schon vor einiger Zeit hatte das Unternehmen über seine Erfahrungen berichtet, wie sich Treiber für das Betriebssystem in Rust erstellen lassen. Tatsächlich hat Microsoft schon Grafikfunktionen im Windows-Kernel in Rust geschrieben und bei Windows 11 in Version 24H2 eingebaut. Auch andere Betriebssysteme setzen vermehrt auf die Programmiersprache. Dass das Gerücht der Windows-Portierung so steil ging, nimmt wenig Wunder: Microsoft selbst gibt an, durch den KI-Einsatz massiv zu sparen.
Lesen Sie auch
(ps)
Künstliche Intelligenz
Nvidia: Vertragsschluss mit Inferenz-Chip-Startup | heise online
Weiterlesen nach der Anzeige
Nvidia hat am Mittwoch offenbar einen rund 20 Milliarden Dollar-Vertrag mit einem Startup namens Groq abgeschlossen, in dessen Rahmen Groq-Chef und -Gründer
Jonathan Ross und weitere Mitarbeiter des Startups zu Nvidia wechseln. Beide Firmen bezeichnen den Deal als nicht-exklusiv und Groq soll als Marke wohl unabhängig bleiben. Der Vertrag wird als der größte Deal in der Firmengeschichte Nvidias bezeichnet.
Groq wurde 2016 von Schöpfern von Googles Tensor Processing Unit gegründet. Das Startup stellt Chips her, die für die Inferenz ausgelegt sind (Language Processing Architektur). Gemeint ist der Betrieb von KI-Modellen, also das was „unter der Haube“ stattfindet, wenn man trainierte KI-Modelle nutzt, zum Beispiel etwas fragt, darum bittet, Vorhersagen zu treffen oder Schlussfolgerungen aus Daten zu ziehen.
Die Groq-Chips sind bei der Inferenz wohl bis zu zehn Mal schneller als herkömmliche GPUs, bei denen Nvidia als Marktführer gilt. Für den Betrieb von KI-Modellen erwarten Experten künftig die größte Nachfrage an Chips, was ein mutmaßlich treibender Grund für den Vertragsabschluss war. Nvidias eigene Chiptechnologie glänzte bisher stärker im Bereich des Trainings von KI-Modellen.
In einer Nvidia-internen Mail schrieb der Firmen-CEO Jensen Huang laut der Webseite des US-amerikanischen Wirtschafts- und Finanznachrichtensenders CNBC, dass man die Chips von Groq in die Nvidia-Werksarchitektur aufnehmen wolle, um „eine noch breitere Palette an KI-Inferenz- und Realtime-Workloads“ zu bedienen.
Nvidia verzeichnete in der jüngsten Vergangenheit enormes Wachstum – Ende Oktober hatte das Unternehmen laut CNBC in „cash und short-term investments“ 60,6 Milliarden US-Dollar zur Verfügung, also Geld, das Nvidia einfach ausgeben kann, Anfang 2023 waren es noch 13,3 Milliarden Dollar.
(kst)
-
UX/UI & Webdesignvor 2 MonatenIllustrierte Reise nach New York City › PAGE online
-
Künstliche Intelligenzvor 2 MonatenAus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle
-
Künstliche Intelligenzvor 2 Monaten
Top 10: Die beste kabellose Überwachungskamera im Test
-
UX/UI & Webdesignvor 2 MonatenSK Rapid Wien erneuert visuelle Identität
-
Künstliche Intelligenzvor 2 MonatenNeue PC-Spiele im November 2025: „Anno 117: Pax Romana“
-
Entwicklung & Codevor 1 MonatKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
Künstliche Intelligenzvor 2 MonatenDonnerstag: Deutsches Flugtaxi-Start-up am Ende, KI-Rechenzentren mit ARM-Chips
-
UX/UI & Webdesignvor 2 MonatenArndt Benedikt rebranded GreatVita › PAGE online
