Entwicklung & Code
KI-Überblick 3: Was sind neuronale Netze – und wie funktionieren sie?
Neuronale Netze gelten als Herzstück des modernen maschinellen Lernens. Sie sind die Grundlage zahlreicher Anwendungen – von der Spracherkennung über die Bildverarbeitung bis hin zu generativen Sprachmodellen wie GPT-5.
Oft klingen sie nach einem hochkomplexen, schwer durchschaubaren Konstrukt. Dabei basieren sie auf einem vergleichsweise einfachen Prinzip: der Verknüpfung vieler kleiner, gleichförmiger Recheneinheiten zu einem Netz, das in der Lage ist, selbst hochdimensionale Zusammenhänge zu modellieren.
Golo Roden ist Gründer und CTO von the native web GmbH. Er beschäftigt sich mit der Konzeption und Entwicklung von Web- und Cloud-Anwendungen sowie -APIs, mit einem Schwerpunkt auf Event-getriebenen und Service-basierten verteilten Architekturen. Sein Leitsatz lautet, dass Softwareentwicklung kein Selbstzweck ist, sondern immer einer zugrundeliegenden Fachlichkeit folgen muss.
Dieser Beitrag erläutert die Grundstruktur neuronaler Netze, erklärt die wichtigsten Begriffe und zeigt, warum bereits einfache Varianten erstaunlich leistungsfähig sein können.
Biologisch inspiriert, aber nicht biologisch
Neuronale Netze wurden ursprünglich von der Struktur des menschlichen Gehirns inspiriert. In der Biologie bestehen Gehirne aus Neuronen, die über Synapsen miteinander verbunden sind und elektrische Signale verarbeiten. Diese Analogie diente als Vorbild – allerdings ist sie oberflächlich zu verstehen. Die „Neuronen“ in einem künstlichen neuronalen Netz sind einfache mathematische Funktionen, die Eingabewerte gewichten, aufsummieren und das Ergebnis durch eine sogenannte Aktivierungsfunktion schicken. Es handelt sich also nicht um echte Nachbildungen biologischer Vorgänge, sondern um abstrahierte Rechenelemente.
Aufbau eines neuronalen Netzes
Ein künstliches neuronales Netz besteht aus mehreren Schichten:
- Eingabeschicht (Input Layer): Die Eingabeschicht nimmt die Rohdaten auf. Jede Eingabevariable entspricht einem Knoten in dieser Schicht.
- Verborgene Schichten (Hidden Layers): Verborgene Schichten bestehen aus Neuronen, die die Daten transformieren. Je nach Anzahl und Aufbau dieser Schichten spricht man von flachen oder tiefen Netzen.
- Ausgabeschicht (Output Layer): Die Ausgabeschicht gibt das Ergebnis des Netzes zurück – zum Beispiel eine Klassifikation oder einen numerischen Wert.
Jedes Neuron einer Schicht ist mit den Neuronen der nächsten Schicht verbunden. Diese Verbindungen tragen sogenannte Gewichte, die während des Trainings angepasst werden. Zusätzlich besitzt jedes Neuron einen Bias, also eine Verschiebung, die unabhängig von den Eingaben wirkt.
Ein typisches Neuron berechnet eine gewichtete Summe seiner Eingaben, addiert den Bias und wendet dann eine Aktivierungsfunktion an. Diese Funktion entscheidet, ob und wie stark das Neuron „feuert“. Gängige Aktivierungsfunktionen sind die ReLU-Funktion (Rectified Linear Unit) oder die Sigmoid-Funktion.
Warum mehrere Schichten?
Ein einzelnes Neuron kann nur sehr einfache Abbildungen realisieren – etwa eine lineare Trennung zwischen zwei Klassen. Erst durch die Kombination vieler Neuronen in mehreren Schichten entsteht ein Netz, das auch komplexe, nicht lineare Zusammenhänge modellieren kann. Jede Schicht lernt dabei gewissermaßen eine andere Abstraktionsebene: In einem Netz zur Bilderkennung erkennen die ersten Schichten möglicherweise einfache Kanten, die mittleren geometrische Formen und die letzten komplexe Objekte wie Gesichter oder Schriftzeichen.
Diese Hierarchiebildung ist ein entscheidender Erfolgsfaktor neuronaler Netze. Sie macht es möglich, dass Systeme mit vergleichsweise wenig explizitem Wissen aus Beispieldaten lernen, was relevante Merkmale sind.
Wie ein Netz lernt
Das Training eines neuronalen Netzes erfolgt in zwei Schritten: dem Vorwärtsdurchlauf (Forward Propagation) und der Rückpropagierung (Backpropagation).
- Vorwärtsdurchlauf: Die Eingabedaten werden Schicht für Schicht durch das Netz geleitet, bis eine Ausgabe entsteht.
- Fehlerberechnung: Die Ausgabe wird mit dem erwarteten Ergebnis verglichen. Daraus ergibt sich ein Fehlerwert (zum Beispiel durch eine Verlustfunktion wie die mittlere quadratische Abweichung).
- Rückpropagierung: Der Fehler wird von der Ausgabeschicht rückwärts durch das Netz propagiert. Dabei werden die Gewichte schrittweise so angepasst, dass der Fehler beim nächsten Durchlauf kleiner wird. Dieser Prozess basiert auf Gradientenverfahren und wiederholt sich über viele Iterationen.
Dieser Ablauf ist rein rechnerisch. Das Netz „versteht“ dabei nichts im menschlichen Sinn – es passt lediglich Zahlenwerte an, um eine mathematische Funktion zu approximieren, die möglichst gut zu den Trainingsdaten passt.
Grenzen und Herausforderungen
Neuronale Netze sind leistungsfähig, aber nicht universell einsetzbar. Sie benötigen typischerweise große Mengen an Trainingsdaten, um verlässlich zu funktionieren. Zudem sind sie anfällig für Overfitting, also die Überanpassung an Trainingsdaten, wodurch sie bei neuen Eingaben schlechter generalisieren.
Ein weiterer Kritikpunkt ist die eingeschränkte Erklärbarkeit: Gerade tiefe Netze sind oft schwer zu analysieren, weil nicht klar ist, welche internen Repräsentationen sie gelernt haben. Deshalb wird an Explainable-AI-Verfahren geforscht, die mehr Transparenz ermöglichen sollen.
Ausblick
In der nächsten Folge wenden wir uns dem Deep Learning zu – also der Frage, was neuronale Netze „tief“ macht, warum Tiefe oft hilfreich ist und wie typische Architekturen wie Convolutional Neural Networks (CNNs) und Recurrent Neural Networks (RNNs) funktionieren. Damit rücken wir ein Stück näher an die Methoden heran, die viele moderne KI-Anwendungen ermöglichen.
(rme)