Künstliche Intelligenz

Alibabas LLM Qwen3 auf dem nächsten Level

Mit verhältnismäßig geringem Echo ist am 10.9.2025 ein neues Qwen3-Modell erschienen. Die Randdaten klingen unspektakulär: Es hat 80 Milliarden Parameter, von denen jeweils immer drei Milliarden aktiv sind. Doch die Änderungen haben es in sich und könnten eine mögliche Richtung vorgeben, in die sich Sprachmodelle weiterentwickeln.

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Seit 2022 ist er Professor an der TH Nürnberg und konzentriert seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

Neue Modellarchitektur

Das Qwen-Team identifiziert die Gesamtzahl der Parameter und die Kontextlänge als größte Engpässe sowohl im Training als auch in der Inferenz. Im Vergleich zu den schon länger verfügbaren Qwen3-Modellen gibt es beim neuen Modell vor allem folgende Innovationen:

Hybrider Attention-Mechanismus
Schlanke Mixture-of-Experts-Struktur
Trainingsoptimierungen
Vorhersage mehrerer Token

Chatbot steht auf Smartphone — (Bild: Golden Sikorka/Shutterstock)

Die Online-Konferenz LLMs im Unternehmen am 29. Oktober zeigt, wie man das passende Modell auswählt, die Infrastruktur aufbaut und die Sicherheit im Griff behält. Außerdem gibt der Thementag von iX und dpunkt.verlag einen Ausblick auf Liquid Foundation Models als nächste Generation von LLMs.

Hybrider Attention-Mechanismus: Das neue Modell wendet in 75 Prozent der Layer eine Form der sogenannten linearen Attention (Gated DeltaNet) an, die wesentlich weniger Speicher und Rechenzeit benötigt. Die übrigen Layer arbeiten nach dem Standard-Attention-Mechanismus. Im Blog kann man nachlesen, dass diese hybride Architektur bessere Ergebnisse erzielt, als in allen Layern den gleichen Attention-Mechanismus zu verwenden. Diese Änderung führt dazu, dass man das Modell nicht mehr als reine Transformer-Architektur bezeichnen kann.

Schlanke Mixture-of-Experts-Struktur: Mixture-of-Experts-Modelle (MoE) verwenden immer nur einen Teil der Parameter und können damit Token schneller vorhersagen. MoE-Modelle gibt es schon einige Jahre, und Innovationen setzte vor allem DeepSeek mit seiner V3-Architektur um. Sie bietet deutlich mehr Experten: 256 statt der üblichen acht, jedoch sind immer nur acht gleichzeitig aktiv. Von den 671 Milliarden Parametern sind damit bei jeder Vorhersage nur 37 Milliarden erforderlich. Qwen3-Next geht hier noch weiter und arbeitet bei „lediglich“ 80 Milliarden Parametern mit ganzen 512 Experten, von denen immer zehn befragt werden. So benötigt jede Vorhersage nur drei Milliarden Parameter.

Trainingsoptimierungen: Das Training großer Sprachmodelle ist enorm aufwendig und dauert Hunderte GPU-Jahre. Daher legen Data Scientists großes Augenmerk darauf, diesen Prozess möglichst gut zu optimieren. Während etwa Moonshot.ai den Muon-Optimizer verwendet, nutzt das Schweizer Apertus-Modell Goldfish Loss, um das Training effizienter zu gestalten. Qwen3-Next hat dafür gleich mehrere, andere Optimierungen parat. Zunächst hilft auch hier der hybride Attention-Mechanismus, aber die Entwickler nutzen darüber hinaus eine nullzentrierte RMS-Norm (Root Mean Square) für die Layer-Gewichte, weil die bisher verwendete QK-Norm (Query-Key) explodierte. Zusätzlich implementieren sie ein nicht näher definiertes Verfahren, das alle MoE-Experten unvoreingenommen mit Trainingsdaten versorgt. Möglicherweise kommt hier das von DeepSeek veröffentlichte Verfahren Auxiliary-Loss-Free zum Einsatz, aber die Qwen-Autoren schweigen sich zu Details aus.

Vorhersage mehrerer Token: Mit der Mehrfachvorhersage haben schon einige Modelle experimentiert, bisher aber vor allem als Optimierung im Trainingsprozess. Auch hier geht Qwen3-Next einen Schritt weiter und lässt die Vorhersage im Inferenzmodus zu. Da die vorhergesagten Token nicht immer richtig sind, heißt das Verfahren auch Speculative Decoding. Was bisher nur mit Tricks und der Kombination kleiner und großer Modelle möglich war, bietet Qwen3-Next direkt.

Das Qwen-Team behauptet, dass es das Modell durch diese Optimierungen mit lediglich 80 Prozent des Aufwands für das deutlich kleinere Qwen3-30B-A3B trainieren konnte. Im Vergleich zum dichten Qwen3-32B bedeutet das demnach weniger als zehn Prozent des Aufwands. Die Optimierungen helfen auch in der Inferenzphase: Besonders bei langen Kontexten ist das Modell deutlich schneller als vergleichbar große Modelle.

Qwen3-Next in der Praxis

Das neue Modell auszuprobieren, ist nicht so einfach, denn die stark veränderte Architektur führt zu Problemen mit dem beliebten Tool llama.cpp, das wohl bis auf Weiteres nicht damit zusammenarbeitet. Besser sieht es mit der Transformers-Bibliothek aus, und auch vLLM arbeitet mit Qwen3-Next und überraschenderweise auch für das von Apple bereitgestellte MLX-Framework.

Die Ausführung funktioniert am zuverlässigsten mit Quantisierung, also reduzierter Genauigkeit zugunsten des Speicherbedarfs, weil die Modelle sonst mehr als 160 GByte RAM benötigen. Auf runpod.io kann man sich beispielsweise eine RTX 6000 Pro mit 96 GByte VRAM für knapp zwei Euro pro Stunde mieten und zumindest mit dem AWQ-Modell (Activation-aware Weight Quantization for LLM Compression and Acceleration) herumspielen. Gleiches gilt für Apple-Hardware, auf der es mindestens 64 GByte RAM sein sollten. Alternativ kann man OpenRouter nutzen, wo das Modell bei unterschiedlichen Providern zur Verfügung steht.

Screenshot Qwen3 heise — Qwen3-Next-Thinking kennt den Heise Verlag gut, auch wenn es keine Zeitschrift mit dem Titel Security Intelligence gibt und 1949 auch noch keine Elektrotechnik-Zeitschriften im Programm waren.

Die Antwort von Qwen3-Next-Instruct ist ähnlich. Das Reasoning bringt dabei also kaum Verbesserungen. Insgesamt ist das Instruct-Modell auf lmarena.ai und livebench.ai etwas besser bewertet. Die deutsche Variante der Strawberry-Challenge mit der Frage nach der Anzahl der „e“ in Erdbeere kann das Instruct-Modell nach anfänglich falschem Raten richtig beantworten:

Screenshot qwen3 Erdbeere — Das Modell korrigiert sich, kommt aber auf das richtige Ergebnis bei der deutschen Strawberry-Challenge.

Qwen3-Next ist bei politischen Fragen äußerst restriktiv. Nur mit Mühe kann man ihm (vor allem in quantisierten Modellen) etwas dazu entlocken. Bei der Ausgabe ist der wiederholte Hinweis spannend, dass das Modell zu dem Thema nichts sagen darf. Das sieht fast danach aus, als ob sich das Modell verplappert hätte, sich dann aber wieder auf die indoktrinierten Texte einstellt:

Screenshot qwen3 China — Bei der Erläuterung der Tiananmen-Unruhen sind vor allem die zusätzlichen Hinweise spannend.

Das Modell arbeitet äußerst schnell. Mit dem (wenig effizienten) AWQ kann man auf einer RTX 6000 Pro etwa 20 Token pro Sekunde erreichen, das 4-Bit-quantisierte Modell schafft auf einem M2 Ultra fast 50 Token pro Sekunde, bei OpenRouter ist es mit knapp 150 Token pro Sekunde gelistet. Das ist für ein solches Modell beachtlich.

Source link

Verwandte Themen:Alibaba Alibabas auf dem Developer IT künstlich Künstliche Intelligenz Level LLM nächsten Qwen3

Up Next

HTC startet globalen XR-Hackathon für Studierende mit Fokus auf WebXR

Nicht verpassen

„Saros“: Housemarque kündigt neues Roguelite-Spiel an

Künstliche Intelligenz

iX-Workshop: Active Directory Hardening – Vom Audit zur sicheren Umgebung

Das Active Directory ist das Herzstück vieler Unternehmensnetzwerke und stellt daher ein attraktives Ziel für Cyberangriffe dar.

Weiterlesen nach der Anzeige

In dem Workshop Active Directory Hardening: Vom Audit zur sicheren Umgebung erwerben Sie umfangreiches Wissen und praktische Fähigkeiten zur Absicherung Ihres Active Directory. Sie lernen, Sicherheitsrisiken zu erkennen, Fehlkonfigurationen zu beheben und Angriffe zu identifizieren und abzuwehren. Hierzu gehören der sichere Umgang mit Authentifizierungsprotokollen sowie die Implementierung von Schutzmaßnahmen wie AppLocker und der Local Administrator Password Solution (LAPS). Zudem kommen Audit-Tools wie PingCastle sowie offensive Werkzeuge wie PowerView und Bloodhound zum Einsatz.



Dezember 15.12. – 17.12.2025	Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 16. Nov. 2025

Februar 11.02. – 13.02.2026	Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 14. Jan. 2026

Mai 26.05. – 28.05.2026	Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 28. Apr. 2026

August 19.08. – 21.08.2026	Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 21. Jul. 2026

November 04.11. – 06.11.2026	Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 07. Okt. 2026

Härtung in einer Laborumgebung anwenden

Der Workshop beinhaltet zahlreiche technische Hands-on-Übungen, in denen Sie praxisnah in einer bereitgestellten Übungsumgebung verschiedene Fehlkonfigurationen und Schwachstellen in einem Active Directory selbst auditieren und anschließend entsprechende Schutzmaßnahmen implementieren. Dazu gehören der Umgang mit Authentifizierungsprotokollen, das Erkennen und Schließen von Sicherheitslücken sowie der Einsatz von Tools zur Überprüfung von Einstellungen und die Implementierung von Schutzmaßnahmen wie AppLocker, LAPS und dem Least-Privilege-Prinzip.

Dieser Online-Workshop richtet sich an Administratoren, die sich intensiver mit Angriffen beschäftigen und Ihr On-Premise-Active-Directory härten wollen. In einer kleinen Gruppe von maximal 10 Teilnehmern haben Sie ausreichend Gelegenheit für intensiven Austausch mit dem Trainer und den anderen Teilnehmenden.

Der Workshop wird von Thomas Kudlacek, Cyber-Security-Spezialist bei Oneconsult AG geleitet – einem erfahrenen Experten im Bereich Cyber Security und Ethical Hacking.

Weitere iX-Workshops aus dem Bereich Netzwerk und Systeme

(ilk)

Source link

Künstliche Intelligenz

Vodafone und AST SpaceMobile bauen Satelliten-Betriebszentrum in Deutschland

Der britische Konzern Vodafone und der texanische Satellitenbetreiber AST SpaceMobile (ASTS) haben Deutschland als Standort für ihr Satelliten-Betriebszentrum ausgewählt. Die beiden Unternehmen haben gemeinsam einen europäischen Satellitenprovider namens SatCo gegründet, der europäischen Mobilfunknetzbetreibern (MNOs) Satelliten- und Netzwerkkapazitäten anbieten soll, sodass diese ihren Kundinnen und Kunden Breitband-Internet auf herkömmlichen Smartphones in unterversorgten Gebieten anbieten können.

Weiterlesen nach der Anzeige

In München oder Hannover

Mit dem Joint Venture SatCo wollen die beiden Unternehmen den Markt für Satellitenkommunikation auf Smartphones frühzeitig besetzen und Mitbewerbern wie Starlink in Europa das Wasser abgraben. Laut Vodafone haben MNOs in 21 EU-Mitgliedstaaten und weiteren europäischen Ländern Interesse an der Nutzung des Dienstes bekundet, dessen kommerzieller Start ab 2026 geplant ist. Laut ASTS und Vodafone strebt SatCo eine „100-prozentige geografische Abdeckung in ganz Europa an“, um Verbrauchern und Unternehmen den Zugang zu „sicheren weltraumgestützten zellularen Breitbandverbindungen über ihren Mobilfunkbetreiber“ zu ermöglichen.

Im Zuge des Aufbaus des Angebots haben Vodafone und AST SpaceMobile Deutschland als Standort für ihr Satelliten-Betriebszentrum ausgewählt. In diesem soll die Steuerzentrale für die notwendige Satelliten-Technik am Boden untergebracht sein. Jedoch haben sie sich noch nicht fest für einen Standort der Operationszentrale entschieden: Es soll entweder „in der Nähe von München oder Hannover entstehen“, heißt es in der Mitteilung. Die Verhandlungen über den Standort seien noch nicht abgeschlossen.

Technische Steuerung für ganz Europa

Laut Vodafone soll von diesem Betriebszentrum aus das „Satelliten-Netzwerk für ganz Europa technisch gesteuert, orchestriert und überwacht werden“. Über die Steuerzentrale sollen beispielsweise alle Telemetrie-, Tracking- und Kontroll-Verschlüsselungen für das sogenannte S-Band zur Verbindung von Smartphones aus dem Weltraum orchestriert werden. Auch das sogenannte Q/V-Band für Verbindungen zwischen Satelliten und Erdbodenstationen soll man von hier „schnell und jederzeit anpassen“ können. Zudem könne über die Steuerzentrale „die Modifikation von Dienstverschlüsselungsschlüsseln für die Kommunikation über den gesamten Kontinent“ durchgeführt werden, „ebenso die Aktivierung, Deaktivierung und Ausrichtung von Satelliten-Abdeckungskreisen in ganz Europa“, so Vodafone.

Neben dem kommerziellen Angebot eines Mobilfunkbreitbands, mit dem Nutzer auch in Gebieten ohne Mobilfunkabdeckung Videoanrufe, Streaming oder Messenger nutzen können, soll das Satelliten-Netzwerk auch zur Unterstützung öffentlicher Schutz- und Katastrophenhilfe (PPDR) dienen, um Einsatzkräften eine ausfallsichere Kommunikationsinfrastruktur bereitzustellen. Laut Vodafone soll das Satelliten-Netzwerk auch zur Entwicklung eines „paneuropäischen Mobilfunkbreitbandsystems“ beitragen, das die Kommunikation und Koordination von Notdiensten während Krisen und Katastrophen verbessern soll. Dieses soll „im Einklang mit der Vision des EU-kritischen Kommunikationssystems (EUCCS)“ stehen.

Weiterlesen nach der Anzeige

Neben der Steuerung des Satelliten-Netzwerks, die weitgehend automatisiert erfolgt, sollen Ingenieure im Betriebszentrum Ereignisse im Weltraum wie beispielsweise Sonnenstürme überwachen, um eventuelle Auswirkungen auf die Satelliten-Technik rechtzeitig zu erkennen und gegebenenfalls darauf zu reagieren.

In ersten Tests konnten die Partner nach eigenen Angaben erste Erfolge erzielen, darunter die ersten 4G- und 5G-Anrufe sowie einen Videoanruf aus dem All zu einem unveränderten Smartphone in Europa. Dabei wurden Download-Geschwindigkeiten von über 20 Mbit/s gemessen. Die neue Generation der von ASTS entwickelten BlueBird-Satelliten gelten als fortschrittlich; sie liefern unter anderem aufgrund ihrer riesigen Antennen mit 223 m² Fläche laut Vodafone Spitzendatenraten von bis zu 120 Mbit/s. Vodafone und ASTS haben auf dieser Basis erst Anfang des Jahres das erste satellitengestützte Videotelefonat mit handelsüblichen Smartphones demonstriert. Damals hieß es, dass man das Angebot schon 2025 starten wollte.

(afl)

Source link

Künstliche Intelligenz

Berliner Stadtparlament lehnt Gesetzentwurf „Berlin autofrei“ ab

Die Initiative für den „Volksentscheid Berlin autofrei“ ist mit ihrem Anliegen im Abgeordnetenhaus abgeblitzt. Das Parlament lehnte es ab, einen Gesetzentwurf des Bündnisses für ein weitreichendes Autoverbot in der Innenstadt zu beschließen. Die Initiative hatte für diesen Fall bereits angekündigt, im Zuge eines Volksbegehrens im Januar eine Unterschriftensammlung zu starten, mit dem Ziel, danach alle Bürger bei einem Volksentscheid über das Gesetz abstimmen zu lassen.

Weiterlesen nach der Anzeige

Private Autofahrten bis zu zwölfmal im Jahr

Nach den Plänen der Initiative sollen nach einer Übergangszeit von vier Jahren fast alle Straßen innerhalb des S-Bahn-Rings mit Ausnahme der Bundesstraßen zu „autoreduzierten Straßen“ erklärt werden. Private Autofahrten sollen pro Person nur bis zu zwölfmal im Jahr möglich sein. Ausnahmen soll es unter anderem für Menschen mit Behinderung, Polizei, Rettungsdienst, Feuerwehr, Müllabfuhr, Taxen sowie Wirtschafts- und Lieferverkehr geben.

(fpi)

Source link

Der ultimative Guide für eine unvergessliche Customer Experience

UX/UI & Webdesignvor 3 Monaten

Der ultimative Guide für eine unvergessliche Customer Experience

UX/UI & Webdesignvor 2 Monaten

Adobe Firefly Boards › PAGE online

Galaxy Tab S10 Lite: Günstiger Einstieg in Samsungs Premium-Tablets

Apps & Mobile Entwicklungvor 3 Monaten

Galaxy Tab S10 Lite: Günstiger Einstieg in Samsungs Premium-Tablets

Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist

Social Mediavor 3 Monaten

Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist

Illustrierte Reise nach New York City › PAGE online

UX/UI & Webdesignvor 3 Wochen

Illustrierte Reise nach New York City › PAGE online

Harte Zeiten für den demokratischen Rechtsstaat

Datenschutz & Sicherheitvor 2 Monaten

Harte Zeiten für den demokratischen Rechtsstaat

Posit stellt Positron vor: Neue IDE für Data Science mit Python und R

Entwicklung & Codevor 3 Monaten

Posit stellt Positron vor: Neue IDE für Data Science mit Python und R

EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events

Entwicklung & Codevor 2 Monaten

EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events

Inspohub

Alibabas LLM Qwen3 auf dem nächsten Level

Künstliche Intelligenz

Alibabas LLM Qwen3 auf dem nächsten Level

Neue Modellarchitektur

Qwen3-Next in der Praxis

Künstliche Intelligenz

iX-Workshop: Active Directory Hardening – Vom Audit zur sicheren Umgebung

Härtung in einer Laborumgebung anwenden

Künstliche Intelligenz

Vodafone und AST SpaceMobile bauen Satelliten-Betriebszentrum in Deutschland

In München oder Hannover

Technische Steuerung für ganz Europa

Künstliche Intelligenz

Berliner Stadtparlament lehnt Gesetzentwurf „Berlin autofrei“ ab

Private Autofahrten bis zu zwölfmal im Jahr

iX-Workshop: Active Directory Hardening – Vom Audit zur sicheren Umgebung

Kampagne von Castenow: Zum runden Geburtstag feiert die Bundeswehr 70 Gründe ihres Bestehens

Vodafone und AST SpaceMobile bauen Satelliten-Betriebszentrum in Deutschland

Der ultimative Guide für eine unvergessliche Customer Experience

Adobe Firefly Boards › PAGE online

Galaxy Tab S10 Lite: Günstiger Einstieg in Samsungs Premium-Tablets

Beliebt

Inspohub

Alibabas LLM Qwen3 auf dem nächsten Level

Neue Modellarchitektur

Qwen3-Next in der Praxis

Das könnte Ihnen gefallen

Künstliche Intelligenz

iX-Workshop: Active Directory Hardening – Vom Audit zur sicheren Umgebung

Härtung in einer Laborumgebung anwenden

Künstliche Intelligenz

Vodafone und AST SpaceMobile bauen Satelliten-Betriebszentrum in Deutschland

In München oder Hannover

Technische Steuerung für ganz Europa

Künstliche Intelligenz

Berliner Stadtparlament lehnt Gesetzentwurf „Berlin autofrei“ ab

Private Autofahrten bis zu zwölfmal im Jahr

iX-Workshop: Active Directory Hardening – Vom Audit zur sicheren Umgebung

Kampagne von Castenow: Zum runden Geburtstag feiert die Bundeswehr 70 Gründe ihres Bestehens

Vodafone und AST SpaceMobile bauen Satelliten-Betriebszentrum in Deutschland

Der ultimative Guide für eine unvergessliche Customer Experience

Adobe Firefly Boards › PAGE online

Galaxy Tab S10 Lite: Günstiger Einstieg in Samsungs Premium-Tablets

Beliebt