Connect with us

Entwicklung & Code

KI-Überblick 5: Transformer – Self-Attention verändert die Sprachverarbeitung


Lange galten Recurrent Neural Networks (RNNs) als der Goldstandard für das Verarbeiten von Sprache. Sie waren dafür gemacht, Sequenzen schrittweise zu verarbeiten und dabei frühere Informationen im Gedächtnis zu behalten. Doch sie hatten Grenzen – insbesondere bei langen Texten, komplexen Abhängigkeiten und paralleler Verarbeitung.


the next big thing – Golo Roden

the next big thing – Golo Roden

Golo Roden ist Gründer und CTO von the native web GmbH. Er beschäftigt sich mit der Konzeption und Entwicklung von Web- und Cloud-Anwendungen sowie -APIs, mit einem Schwerpunkt auf Event-getriebenen und Service-basierten verteilten Architekturen. Sein Leitsatz lautet, dass Softwareentwicklung kein Selbstzweck ist, sondern immer einer zugrundeliegenden Fachlichkeit folgen muss.

Mit dem Aufkommen der Transformer-Architektur hat sich das grundlegend geändert. Sie hat sich nicht nur als leistungsfähiger erwiesen, sondern auch als effizienter, skalierbarer und flexibler. Inzwischen ist sie die dominierende Grundlage für viele KI-Systeme, darunter BERT, GPT, T5 und viele mehr.

In diesem Beitrag zeige ich Ihnen, was Transformer-Modelle auszeichnet, warum Self-Attention der entscheidende Mechanismus ist und wie diese Architektur das maschinelle Lernen verändert hat.

Recurrent Neural Networks verarbeiten Texte sequenziell – Wort für Wort oder Zeichen für Zeichen. Dabei führen sie ein internes Gedächtnis mit, das bei jedem Schritt aktualisiert wird. Dieses Prinzip funktioniert gut für kurze Eingaben, stößt jedoch bei längeren Sequenzen an mehrere Grenzen:

  • Langfristige Abhängigkeiten gehen verloren: Frühere Informationen verblassen über die Zeit.
  • Keine echte Parallelisierung möglich: Da jedes Wort auf dem vorherigen basiert, kann nicht gleichzeitig verarbeitet werden.
  • Begrenzter Zugriff auf den Kontext: Jedes Element sieht nur den bisherigen Verlauf, nicht den gesamten Zusammenhang.

Diese strukturellen Schwächen führten dazu, dass selbst mit Verbesserungen wie LSTM oder GRU viele Sprachaufgaben schwer zu lösen blieben.

Die Transformer-Architektur wurde 2017 in dem Paper „Attention Is All You Need“ vorgestellt. Der zentrale Gedanke: Statt Informationen sequenziell zu verarbeiten, sollen alle Teile eines Textes gleichzeitig betrachtet werden – mithilfe eines Mechanismus namens „Self-Attention“.

Transformer-Modelle bestehen nicht mehr aus rekursiven Schleifen, sondern aus einem Stapel gleichartiger Schichten, die Eingaben parallel verarbeiten. Jede Schicht analysiert dabei, welche Teile der Eingabe wie stark miteinander in Beziehung stehen – unabhängig von der Position.

Dieses Prinzip erlaubt es dem Modell:

  • Kontext über beliebige Distanzen hinweg zu berücksichtigen,
  • Ein- und Ausgaben gleichzeitig zu verarbeiten und
  • die gesamte Eingabe als Ganzes zu analysieren.

Der Self-Attention-Mechanismus bewertet für jedes Element in einer Eingabesequenz, wie stark es auf alle anderen Elemente achten sollte. Vereinfacht gesagt:

  • Jedes Wort erzeugt eine gewichtete Kombination aller anderen Wörter.
  • Diese Gewichtung ergibt sich aus der inhaltlichen Ähnlichkeit.
  • So kann zum Beispiel das Wort „sie“ korrekt auf „die Frau“ zurückverweisen, auch wenn diese am Satzanfang steht.

Mathematisch geschieht das über sogenannte Query-, Key– und Value-Vektoren, die aus den Eingabedaten erzeugt werden. Diese werden paarweise miteinander kombiniert, um zu bestimmen, wie viel Aufmerksamkeit jedes Token auf andere richten soll. Die resultierenden Gewichte fließen dann in die nächste Repräsentation ein.

Der Effekt: Das Modell kann flexibel entscheiden, welche Informationen an welcher Stelle wichtig sind – unabhängig von der linearen Reihenfolge.

Da Transformer-Modelle die Reihenfolge der Eingaben ignorieren können, benötigen sie eine zusätzliche Komponente, nämlich die positionale Kodierung. Sie sorgt dafür, dass die relative und absolute Position von Wörtern im Satz erhalten bleibt. Ohne diesen Schritt wäre ein Satz wie „Die Katze jagt die Maus“ nicht von „Die Maus jagt die Katze“ zu unterscheiden.

Die Positionsinformation wird meist als Vektor addiert oder eingebettet und fließt gemeinsam mit dem Inhalt in die Berechnung der Aufmerksamkeit ein.

Ein vollständiger Transformer besteht typischerweise aus mehreren aufeinanderfolgenden Encoder- und/oder Decoder-Schichten, je nach Anwendungsfall:

  • Encoder-only-Modelle (zum Beispiel BERT) analysieren Texte, etwa für Klassifikation oder Fragebeantwortung.
  • Decoder-only-Modelle (zum Beispiel GPT) erzeugen Texte, etwa beim Autovervollständigen.
  • Encoder-Decoder-Modelle (zum Beispiel T5) übersetzen oder transformieren Texte zwischen Formaten.

Die Fähigkeit, diese Architekturen effizient auf große Datenmengen und Modellgrößen zu skalieren, hat den Siegeszug der Transformer entscheidend geprägt. Moderne Modelle enthalten Milliarden von Parametern und lernen auf Datenmengen, die frühere Verfahren unvorstellbar überfordert hätten.

Transformer-Modelle verdanken ihren Erfolg mehreren Faktoren:

  • Sie verarbeiten Sprache kontextsensitiv und global, nicht lokal und sequenziell.
  • Sie lassen sich hochgradig parallelisieren, was das Training beschleunigt.
  • Sie sind modular und lassen sich flexibel für unterschiedliche Aufgaben anpassen.
  • Sie eignen sich nicht nur für Sprache, sondern auch für Bilder, Videos, Molekülstrukturen und vieles mehr.

Dadurch haben sie sich zum universellen Baukasten moderner KI entwickelt.

Der nächste Teil befasst sich mit Large Language Models wie GPT, BERT oder Claude. Er wird zeigen, was diese Modelle von klassischen Sprachverarbeitungsansätzen unterscheidet, wie sie trainiert werden und warum sie so viele Aufgaben scheinbar mühelos lösen – obwohl sie kein echtes Verständnis besitzen.


(rme)



Source link

Entwicklung & Code

Model-Schau 1: Schlanke KI-Spezialmodelle im Trend


Beim Blick auf Large Language Models vergeht fast keine Woche ohne neue Modelle, die sich in bestimmten Nischen positionieren oder neue Techniken ausprobieren. Das hat uns dazu bewogen, regelmäßig über diese Updates zu berichten. Bei größeren Neuerungen werden wir den geplanten Zweiwochentakt unterbrechen und neue Modelle direkt untersuchen.

Weiterlesen nach der Anzeige




Prof. Dr. Christian Winkler beschäftigt sich speziell mit der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich bei seiner Forschung auf die Optimierung der User Experience.

Dieses erste Update fällt etwas umfangreicher aus. Aktuelle Modelle finden sich bei Hugging Face oder durch konsequentes Mitlesen im sehr aktiven LocalLLaMa-Subreddit. Gerne nehmen wir auch Vorschläge über Modelle entgegen, die wir uns näher anschauen sollen.

Der Trend muss nicht zu immer größeren Modellen gehen. Bei Hugging Face finden sich einige Modelle, die sehr beliebt, aber nicht besonders groß sind.

Ganz vorn steht hier VibeThinker von WeiboAI. Das Reasoning-Modell ist vor allem darauf ausgelegt, mathematische Fragen zu beantworten oder Programmcode zu erzeugen. Für diese Aufgaben ist es sehr gut geeignet. Laut den Benchmarks spielt es in der gleichen Liga wie das (ältere) Gemini 2.5 Flash und überholt teilweise sogar DeepSeek R1.


M3-Logo, Sechsecke

M3-Logo, Sechsecke

(Bild: Bridgman/AdobeStock)

Am 22. und 23. April 2026 findet die Minds Mastering Machines in Karlsruhe statt. Im Mittelpunkt der von iX und dpunkt.verlag veranstalteten Konferenz stehen praxisnahe Themen von klassischem Machine Learning bis zu LLMs und Agentic AI. Das Programm bietet unter anderem Vorträge zu folgenden Themen:

  • Predictive Maintenance in der Praxis
  • Kommunikationsprotokolle für Agentic AI
  • Embeddings richtig verstehen
  • MCP sicher im Unternehmen einsetzen
  • Lokale LLMs in der Praxis

Erstaunlich ist, dass das Modell mit nur 1,5 Milliarden Parametern auskommt. Die anderen genannten Modelle haben 400-mal mehr Gewichte zu verarbeiten und sind dadurch entsprechend langsam. Die Größe spielt besonders bei Coding-Modellen eine entscheidende Rolle: Erstens will man die Modelle möglicherweise auch lokal ausführen, nachdem man sie potenziell feingetunt hat, und zweitens generieren diese Modelle sehr viele Token – je schneller das geht, desto kürzer ist die Wartezeit auf den generierten Code.

Weiterlesen nach der Anzeige

Mit vier Milliarden Parametern etwas größer, aber noch spezialisierter ist AesCoder, das mithilfe von GRPO (Group Relative Policy Optimization) auf die Erledigung von Web-Designaufgaben spezialisiert ist.

Auch wenn man häufig von Open-Source-Modellen spricht, sind meist lediglich die Gewichte der Modelle frei verfügbar. Nur wenige Anbieter veröffentlichen die Trainingsdaten und die Algorithmen, mit denen sie die Modelle trainiert haben. Neben Hugging Face mit SmolLM gibt es offene Trainingsdaten für das Modell Apertus aus der Schweiz und vor allem für die Olmo-Modelle vom Allen AI Institute. Letzteres braucht sich aufgrund der Investitionen durch Microsoft-Mitgründer Paul Allen keine großen Gedanken um die Finanzierung zu machen.

Besonders die jüngsten Olmo-3-Modelle integrieren viele innovative Techniken und machen damit einen gewaltigen Sprung nach vorn. Sie stehen in zwei Größen mit 7 und 32 Milliarden Parametern zur Verfügung. Das größere Modell gibt es in einer Reasoning-Variante, das kleinere zusätzlich noch als Instruction-Following-Modell ohne Reasoning. Für diejenigen, die die Modelle feintunen möchten, stellt Olmo anders als die meisten anderen Anbieter die Basismodelle zur Verfügung.

Im Vergleich zu anderen Modellen wie Qwen3 hat Olmo 3 deutlich weniger Token im Training erhalten: 5,9 Billionen aus dem Datensatz Dolma 3 Mix. Das macht sich leider in der Modellperformance bemerkbar, die nach ersten Tests nicht mit den Qwen3-Modellen in der gleichen Größenordnung mithalten kann. Die Strawberry-Challenge mit der Frage nach der Anzahl der „e“ in „Erdbeere“ (oder „r“ in „strawberry“) beantwortet das Modell konsequent falsch. Auch die deutschen Sprachfähigkeiten der kleineren Modelle sind nicht besonders gut ausgeprägt:


Chatverlauf Olmo 3 7B

Chatverlauf Olmo 3 7B

Bei der Antwort von Olmo 3 7B sind nicht nur die Inhalte falsch, auch die sprachliche Ausführung ist mangelhaft (Abb. 1).

(Bild: datanizing)


Chatverlauf Olmo 3 32B

Chatverlauf Olmo 3 32B

Das Modell Olmo 3 32B macht zwar ebenfalls Fehler, liegt aber häufiger richtig und formuliert deutlich bessere Sätze (Abb. 2).

(Bild: datanizing)

Der Artikel zu Olmo 3 enthält viele Details über die Architektur und das Training des Modells. Das gibt interessante Einblicke in den Trainingsprozess. Insbesondere das Post-Training ist sehr anspruchsvoll, weil Olmo dabei mit unterschiedlichen Datensets arbeitet, um die Qualität zu verbessern. Viele Innovationen gibt es beim Reinforcement Learning des Reasoning-Modells (bei Olmo „Thinking“ genannt).

Einige der GRPO-Optimierungen sind von anderen Modellen bekannt, kommen aber in dieser Kombination erstmals bei Olmo zum Einsatz. Das Modell setzt außerdem die weiterentwickelte Version des Verfahrens Reinforcement Learning with Verifiable Rewards (RLVR) ein, mit dem auch das neue Training von DeepSeek arbeitet. Mit RLVR kann man automatisiert überprüfen, ob Sprachmodelle die richtigen Ergebnisse vorhersagen. Die Besonderheit der weiterentwickelten Version ist, dass man damit Trainingsdaten automatisiert erzeugen kann – in Grenzen und bestimmten fachlichen Domänen.



Source link

Weiterlesen

Entwicklung & Code

Software Testing: Autismus und Softwaretests


Richard Seidl und Robert (Name geändert) sprechen in dieser Episode des Podcasts über Autismus im Softwaretesten. Robert bleibt anonym. Die Diagnose Autismus kam nach Jahren und mehreren Burnouts. Im Arbeitsalltag zehren Multitasking, spontane Meetings und ständige Kontextwechsel. Was hilft: klare Agenden, Pausen und Eins-zu-eins-Gespräche. Gleichzeitig zeigt Robert Stärken, die Tests schärfen wie eine Lupe: tiefer Fokus, Mustererkennung, starkes Gedächtnis und ehrliches Feedback. Fehler fallen ihm sofort auf, Ursachen denkt er systemisch.

Weiterlesen nach der Anzeige

Bei diesem Podcast dreht sich alles um Softwarequalität: Ob Testautomatisierung, Qualität in agilen Projekten, Testdaten oder Testteams – Richard Seidl und seine Gäste schauen sich Dinge an, die mehr Qualität in die Softwareentwicklung bringen.

Die aktuelle Ausgabe ist auch auf Richard Seidls Blog verfügbar: „Autismus und Software Test – Robert“ und steht auf YouTube bereit.


(mdo)



Source link

Weiterlesen

Entwicklung & Code

BOB-Konferenz 2026: Vorträge zur funktionalen Programmierung und mehr


Das Programm der dreizehnten BOB-Konferenz, die am 13. März 2026 wie gewohnt in Berlin im Scandic-Hotel Potsdamer Platz stattfindet, steht fest. Traditionell liegt die funktionale Programmierung im Fokus, in der Agenda für das nächste Jahr finden sich aber auch zahlreiche weitere Themen – auf eines verzichten die Organisatoren von der Active Group jedoch: KI. Die BOB 2026 soll ganz bewusst zeigen, „dass es immer noch IT jenseits der KI gibt“.

Weiterlesen nach der Anzeige

In seinem Eröffnungsvortrag zur BOB 2026 begibt sich Stefan Kaufmann auf die „Suche nach der Bedeutung in einem Magischen Konzept“. Der Medieninformatiker und Open-Data-Sachverständige geht dabei der Frage nach, was „Digitale Souveränität“ eigentlich genau sein soll.

Das weitere Programm der BOB-Konferenz umfasst 16 Talks und acht Tutorials, unter anderem zu Themen wie OCaml, Scala, Java, funktionale Softwarearchitektur und funktionale Programmierung mit SwiftUI. Über Beiträge zu Barrierefreiheit, UI-Entwicklung, Datenbank-Joins, Domain-Driven Design und Reactive Systems hinaus verspricht etwa Lutz Hühnken Einblicke in einige exotische Programmiersprachen noch jenseits von Haskell, Rust, Whitespace oder Brainf**k.

Die BOB 2026 bietet sowohl englischsprachige als auch deutsche Vorträge und Tutorials an. Mit der Veröffentlichung des Programms hat die Registrierung begonnen. Bis zum 16. Januar 2026 gilt der Early-Bird-Rabatt. Auf Anfrage gibt es verschiedene ermäßigte Tickets sowie einige kostenlose für unterrepräsentierte Gruppen. Weitere Details lassen sich der Ankündigung entnehmen.


(map)



Source link

Weiterlesen

Beliebt