Connect with us

Künstliche Intelligenz

Alibabas LLM Qwen3 auf dem nächsten Level


Mit verhältnismäßig geringem Echo ist am 10.9.2025 ein neues Qwen3-Modell erschienen. Die Randdaten klingen unspektakulär: Es hat 80 Milliarden Parameter, von denen jeweils immer drei Milliarden aktiv sind. Doch die Änderungen haben es in sich und könnten eine mögliche Richtung vorgeben, in die sich Sprachmodelle weiterentwickeln.


Prof. Christian Winkler

Prof. Christian Winkler

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Seit 2022 ist er Professor an der TH Nürnberg und konzentriert seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

Das Qwen-Team identifiziert die Gesamtzahl der Parameter und die Kontextlänge als größte Engpässe sowohl im Training als auch in der Inferenz. Im Vergleich zu den schon länger verfügbaren Qwen3-Modellen gibt es beim neuen Modell vor allem folgende Innovationen:

  • Hybrider Attention-Mechanismus
  • Schlanke Mixture-of-Experts-Struktur
  • Trainingsoptimierungen
  • Vorhersage mehrerer Token


Chatbot steht auf Smartphone

Chatbot steht auf Smartphone

(Bild: Golden Sikorka/Shutterstock)

Die Online-Konferenz LLMs im Unternehmen am 29. Oktober zeigt, wie man das passende Modell auswählt, die Infrastruktur aufbaut und die Sicherheit im Griff behält. Außerdem gibt der Thementag von iX und dpunkt.verlag einen Ausblick auf Liquid Foundation Models als nächste Generation von LLMs.

Hybrider Attention-Mechanismus: Das neue Modell wendet in 75 Prozent der Layer eine Form der sogenannten linearen Attention (Gated DeltaNet) an, die wesentlich weniger Speicher und Rechenzeit benötigt. Die übrigen Layer arbeiten nach dem Standard-Attention-Mechanismus. Im Blog kann man nachlesen, dass diese hybride Architektur bessere Ergebnisse erzielt, als in allen Layern den gleichen Attention-Mechanismus zu verwenden. Diese Änderung führt dazu, dass man das Modell nicht mehr als reine Transformer-Architektur bezeichnen kann.

Schlanke Mixture-of-Experts-Struktur: Mixture-of-Experts-Modelle (MoE) verwenden immer nur einen Teil der Parameter und können damit Token schneller vorhersagen. MoE-Modelle gibt es schon einige Jahre, und Innovationen setzte vor allem DeepSeek mit seiner V3-Architektur um. Sie bietet deutlich mehr Experten: 256 statt der üblichen acht, jedoch sind immer nur acht gleichzeitig aktiv. Von den 671 Milliarden Parametern sind damit bei jeder Vorhersage nur 37 Milliarden erforderlich. Qwen3-Next geht hier noch weiter und arbeitet bei „lediglich“ 80 Milliarden Parametern mit ganzen 512 Experten, von denen immer zehn befragt werden. So benötigt jede Vorhersage nur drei Milliarden Parameter.

Trainingsoptimierungen: Das Training großer Sprachmodelle ist enorm aufwendig und dauert Hunderte GPU-Jahre. Daher legen Data Scientists großes Augenmerk darauf, diesen Prozess möglichst gut zu optimieren. Während etwa Moonshot.ai den Muon-Optimizer verwendet, nutzt das Schweizer Apertus-Modell Goldfish Loss, um das Training effizienter zu gestalten. Qwen3-Next hat dafür gleich mehrere, andere Optimierungen parat. Zunächst hilft auch hier der hybride Attention-Mechanismus, aber die Entwickler nutzen darüber hinaus eine nullzentrierte RMS-Norm (Root Mean Square) für die Layer-Gewichte, weil die bisher verwendete QK-Norm (Query-Key) explodierte. Zusätzlich implementieren sie ein nicht näher definiertes Verfahren, das alle MoE-Experten unvoreingenommen mit Trainingsdaten versorgt. Möglicherweise kommt hier das von DeepSeek veröffentlichte Verfahren Auxiliary-Loss-Free zum Einsatz, aber die Qwen-Autoren schweigen sich zu Details aus.

Vorhersage mehrerer Token: Mit der Mehrfachvorhersage haben schon einige Modelle experimentiert, bisher aber vor allem als Optimierung im Trainingsprozess. Auch hier geht Qwen3-Next einen Schritt weiter und lässt die Vorhersage im Inferenzmodus zu. Da die vorhergesagten Token nicht immer richtig sind, heißt das Verfahren auch Speculative Decoding. Was bisher nur mit Tricks und der Kombination kleiner und großer Modelle möglich war, bietet Qwen3-Next direkt.

Das Qwen-Team behauptet, dass es das Modell durch diese Optimierungen mit lediglich 80 Prozent des Aufwands für das deutlich kleinere Qwen3-30B-A3B trainieren konnte. Im Vergleich zum dichten Qwen3-32B bedeutet das demnach weniger als zehn Prozent des Aufwands. Die Optimierungen helfen auch in der Inferenzphase: Besonders bei langen Kontexten ist das Modell deutlich schneller als vergleichbar große Modelle.

Das neue Modell auszuprobieren, ist nicht so einfach, denn die stark veränderte Architektur führt zu Problemen mit dem beliebten Tool llama.cpp, das wohl bis auf Weiteres nicht damit zusammenarbeitet. Besser sieht es mit der Transformers-Bibliothek aus, und auch vLLM arbeitet mit Qwen3-Next und überraschenderweise auch für das von Apple bereitgestellte MLX-Framework.

Die Ausführung funktioniert am zuverlässigsten mit Quantisierung, also reduzierter Genauigkeit zugunsten des Speicherbedarfs, weil die Modelle sonst mehr als 160 GByte RAM benötigen. Auf runpod.io kann man sich beispielsweise eine RTX 6000 Pro mit 96 GByte VRAM für knapp zwei Euro pro Stunde mieten und zumindest mit dem AWQ-Modell (Activation-aware Weight Quantization for LLM Compression and Acceleration) herumspielen. Gleiches gilt für Apple-Hardware, auf der es mindestens 64 GByte RAM sein sollten. Alternativ kann man OpenRouter nutzen, wo das Modell bei unterschiedlichen Providern zur Verfügung steht.


Screenshot Qwen3 heise

Screenshot Qwen3 heise

Qwen3-Next-Thinking kennt den Heise Verlag gut, auch wenn es keine Zeitschrift mit dem Titel Security Intelligence gibt und 1949 auch noch keine Elektrotechnik-Zeitschriften im Programm waren.

Die Antwort von Qwen3-Next-Instruct ist ähnlich. Das Reasoning bringt dabei also kaum Verbesserungen. Insgesamt ist das Instruct-Modell auf lmarena.ai und livebench.ai etwas besser bewertet. Die deutsche Variante der Strawberry-Challenge mit der Frage nach der Anzahl der „e“ in Erdbeere kann das Instruct-Modell nach anfänglich falschem Raten richtig beantworten:


Screenshot qwen3 Erdbeere

Screenshot qwen3 Erdbeere

Das Modell korrigiert sich, kommt aber auf das richtige Ergebnis bei der deutschen Strawberry-Challenge.

Qwen3-Next ist bei politischen Fragen äußerst restriktiv. Nur mit Mühe kann man ihm (vor allem in quantisierten Modellen) etwas dazu entlocken. Bei der Ausgabe ist der wiederholte Hinweis spannend, dass das Modell zu dem Thema nichts sagen darf. Das sieht fast danach aus, als ob sich das Modell verplappert hätte, sich dann aber wieder auf die indoktrinierten Texte einstellt:


Screenshot qwen3 China

Screenshot qwen3 China

Bei der Erläuterung der Tiananmen-Unruhen sind vor allem die zusätzlichen Hinweise spannend.

Das Modell arbeitet äußerst schnell. Mit dem (wenig effizienten) AWQ kann man auf einer RTX 6000 Pro etwa 20 Token pro Sekunde erreichen, das 4-Bit-quantisierte Modell schafft auf einem M2 Ultra fast 50 Token pro Sekunde, bei OpenRouter ist es mit knapp 150 Token pro Sekunde gelistet. Das ist für ein solches Modell beachtlich.



Source link

Künstliche Intelligenz

Facebook und Messenger ab sofort auch mit Teenager-Konten


Meta erweitert seine Schutzfunktionen für Teenager im EU-Gebiet auf Facebook und den zugehörigen Messenger. Wie das Unternehmen bekannt gab, können Eltern diese Möglichkeit ab sofort unter anderem auch in Deutschland nutzen. Sie ist hier bereits bei Instagram eingeführt und werde weltweit von hunderten Millionen Jugendlichen genutzt, wie Meta mitteilte.

Im September 2024 kamen erstmals die Instagram-Teen-Konten. Der Schutz greift automatisch für alle Nutzer unter 16 Jahren. Diese benötigen eine Erlaubnis eines Elternteils, um bestimmte Einstellungen zu verändern. Dazu zählt, dass Teenager-Konten standardmäßig private Konten sind. Neue Follower müssen sie erst annehmen und Personen, die nicht folgen, können die Inhalte der Heranwachsenden nicht sehen oder mit ihnen interagieren.

Weitere Einschränkungen betreffen Chats. Meta versetzt Jugendliche in die strengsten Einstellungen, sodass sie nur Nachrichten von Personen erhalten können, denen sie folgen oder mit denen sie bereits verbunden sind. In den Sektionen Erkunden und Reels erscheinen standardmäßig keine sensiblen Inhalte. Dazu zählen etwa Kampfhandlungen.

Jugendliche können auch nur von Personen, denen sie folgen, markiert oder erwähnt werden. In den Teen-Accounts ist zudem die Funktion Hidden Words aktiviert, die beleidigende Wörter und Phrasen aus den Kommentaren und Chatanfragen an Teenager herausfiltern.

Weitere Teenager-Funktionen betreffen den Konsum. Jugendliche erhalten jeden Tag eine Nachricht, die sie auffordert, die App nach 60 Minuten zu verlassen. Zwischen 22 und 7 Uhr ist zudem ein Schlafmodus aktiviert, der Benachrichtigungen über Nacht stummschaltet und Privatnachrichten automatisch beantwortet.

Für Eltern gibt es Funktionen, mit denen sie einsehen können, mit wem ihre Kinder in den letzten sieben Tagen Nachrichten ausgetauscht haben. Sie können außerdem Zeitlimits für den Gebrauch setzen oder etwa die Verwendung nachts sperren.


(mki)



Source link

Weiterlesen

Künstliche Intelligenz

Spotify geht gegen KI-Spam vor


Mit mehreren Maßnahmen will Spotify seine Nutzer und seine Künstler vor KI-Musik schützen: Unter anderem sollen Musiker künftig offenlegen, ob und in welcher Form Künstliche Intelligenz bei der Produktion zum Einsatz kommt. Neue Filter sollen derweil dafür sorgen, dass KI-Musik echten Künstlern nicht ihre Jahreseinnahmen wegfrisst.

Den Maßnahmenkatalog hat Spotify am Donnerstag in einem Blog-Eintrag angekündigt. Darin beschreibt der schwedische Musikdienst drei Schritte, die konkrete und bereits auftretende Probleme auf der Plattform in Angriff nehmen sollen. Um Künstler vor Nachahmung und KI-Stimmkopien zu schützen, hat Spotify etwa ein Beschwerdeformular eingeführt. Darüber können sich Musiker an Spotify wenden, wenn ihre Stimme illegal von KI kopiert wurde. Künstler müssen über diesen Weg jeden KI-Song einzeln beanstanden.

Ein zweites Problem, das Spotify identifiziert hat: Zwar steigen die jährlichen Auszahlungen insgesamt, aber Teile davon landen bei KI-Spammern. Solche Nutzer laden massenhaft Song-Kopien und kurze KI-Tracks hoch, um den Algorithmus auszutricksen und möglichst viele Wiedergaben zu bekommen. Ab Herbst soll daher ein Filter dafür sorgen, dass solche Uploads und die Nutzer dahinter automatisch erkannt werden. Der Algorithmus soll diese Inhalte dann noch mehr empfehlen. Um damit nicht die falschen zu erwischen, will Spotify anfangs noch behutsam vorgehen, während das Erkennungssystem verfeinert wird.

Schließlich arbeitet Spotify an einer Kennzeichnung, mit der Künstler den KI-Einsatz bei der Produktion ihrer Songs offenlegen können. Denn grundsätzlich sei an KI-Unterstützung nichts auszusetzen, schreibt Spotify im Blog-Eintrag. Es fehle aber ein System, um den Nutzern darüber Auskunft zu geben. Einen solchen Metadata-Standard erarbeitet Spotify aktuell mit der Organisation DDEX.

„Diese Änderung dient dazu, das Vertrauen in die Plattform zu stärken“, schreibt Spotify. „Es geht nicht darum, Künstler zu bestrafen, die KI verantwortungsbewusst einsetzen, oder Titel herabzustufen, weil sie Informationen über ihre Entstehung offenlegen.“


(dahe)



Source link

Weiterlesen

Künstliche Intelligenz

macOS Tahoe: Was Nutzer wegen fehlendem iPhone-Mirroring verpassen


Seit iOS 18 und macOS 15 aus dem Herbst 2025 verfügen Apple Betriebssysteme über eine praktische Fernsteuerungsfunktion für iPhones: Mit dem iPhone-Mirroring alias iPhone-Synchronisierung kann man ein Apple-Handy vom Mac-Desktop aus steuern, ohne zum Gerät greifen zu müssen. Das erleichtert den Arbeitsalltag sehr, weil man etwa auf Benachrichtigungen auf dem iPhone direkt vom großen Bildschirm aus reagieren kann – oder Apps nutzen, die es bislang nicht auf dem Mac gibt. Das Problem: Das Feature ist aufgrund regulatorischer Probleme, die Apple sieht, in der EU weiterhin nicht freigegeben. Mit iOS 26 und macOS 26 hat Apple nun sogar weitere Features nachgelegt, während hiesige User in die Röhre schauen.

So werden nun nicht nur auf Wunsch auch Benachrichtigungen vom iPhone auf den Mac umgeleitet, sondern auch Live-Aktivitäten. Dabei handelt es sich um Hintergrundprozesse, mit denen User gerade laufende Vorgänge beobachten können – sei es nun eine Essensbestellung, die Anfahrt eines Taxis oder der Ablauf einer Flugreise. Auf dem iPhone landen die Infos auf dem Sperrbildschirm beziehungsweise in der Dynamic Island, auf dem Mac sind sie ab macOS 26 alias Tahoe nun in der Menüleiste zu finden.

Dort kann man entweder eine Miniversion (ähnlich dem, was man von der Dynamic Island kennt) oder auch eine Großvariante der Live-Aktivität einsehen. Diese ist nahtlos integriert: Klickt man doppelt, landet man auch gleich in der App auf dem gespiegelten iPhone. Da das iPhone-Mirroring keinen offiziellen Sperrbildschirm kennt, werden nur auf diese Art aktuelle Vorgänge durchgeleitet. Was leider nach wie vor fehlt, ist eine Mitteilungszentrale auf dem gespiegelten iPhone: Diese lässt sich – im Gegensatz zu nahezu allen anderen iPhone-Funktionen – nicht aufrufen, weil Apple die Smartphone-Benachrichtigungen fakultativ in die Mitteilungszentrale des Macs weiterleitet. Hier wäre eine Trennung zumindest auf Wunsch sehr sinnvoll.

Apple hat weitere Details zur Umsetzung der Live-Aktivitäten auf dem Mac in einem eigenen Hilfsdokument zusammengefasst. Hier ist auch erklärt, wie man die Live-Aktivitäten wieder loswird, falls sie in der Praxis dann doch stören.

Das iPhone-Mirroring taucht nur dann auf dem Mac auf, wenn man keinen EU-Account verwendet. Dies ist an den „Medien & App Store“-Zugang geknüpft, nicht jedoch den iCloud-Zugang. Ob Apple den Dienst in der EU auf absehbare Zeit freigibt, bleibt unklar. Zuletzt hatte der Hersteller das EU-Gesetz DMA, das die Regulierung erzwingt, massiv kritisiert.


(bsc)



Source link

Weiterlesen

Beliebt