Entwicklung & Code
Ist die symbolische KI aktueller denn je?
Wenn heute über künstliche Intelligenz gesprochen wird, dann fast ausschließlich über große Sprachmodelle. Und damit, ohne dass es immer ausgesprochen wird, über eine ganz bestimmte Spielart von KI: über neuronale Netze, über statistisches Lernen aus gewaltigen Datenmengen. Das implizite Versprechen lautet, dass der Weg nach vorn vor allem eine Frage der Menge ist. Mehr Parameter, mehr Daten, mehr Rechenleistung, mehr Energie und ein wenig Geduld. Dann kommt der Rest von selbst.
Weiterlesen nach der Anzeige
Ich möchte diese Annahme in Frage stellen. Nicht, weil ich die Erfolge der vergangenen Jahre kleinreden will, sie sind real und beeindruckend. Sondern weil mich ein Verdacht nicht loslässt: Vielleicht sitzen wir in einem lokalen Maximum und halten es für den Gipfel. Und vielleicht hilft ein Blick zurück, um zu sehen, dass dieser Gipfel nicht der Einzige ist. Denn das Pendel der KI-Forschung stand schon einmal ganz woanders.
Golo Roden ist Gründer und CTO von the native web GmbH. Er beschäftigt sich mit der Konzeption und Entwicklung von Web- und Cloud-Anwendungen sowie -APIs, mit einem Schwerpunkt auf Event-getriebenen und Service-basierten verteilten Architekturen. Sein Leitsatz lautet, dass Softwareentwicklung kein Selbstzweck ist, sondern immer einer zugrundeliegenden Fachlichkeit folgen muss.
Ein Pendel, das seit Jahrzehnten schwingt
Es lohnt sich, kurz daran zu erinnern, dass die heute dominante, datengetriebene KI keineswegs alternativlos ist. Über Jahrzehnte hinweg war das beherrschende Paradigma ein völlig anderes: die symbolische KI. Sie ging davon aus, dass Intelligenz im Kern aus der Manipulation von Symbolen nach expliziten Regeln besteht, dass Denken also etwas ist, das man hinschreiben und nachvollziehen kann.
Diese Idee war keine Randnotiz weniger Jahre. Sie reicht von der berühmten Dartmouth-Konferenz im Jahr 1956 über frühe Systeme wie den Logic Theorist und den General Problem Solver bis zu den Expertensystemen, die in den achtziger Jahren als kommerzieller Durchbruch gefeiert wurden. Rund drei Jahrzehnte lang war symbolische KI nicht eine Strömung neben anderen, sondern schlicht das, was man unter KI verstand.
Gescheitert ist dieser Ansatz nicht an Naivität, wie es im Rückblick gern erzählt wird. Er ist an zwei sehr konkreten Problemen gescheitert: an der Skalierung und an der Brüchigkeit. Wer Wissen Regel für Regel von Hand einpflegen muss, kommt bei der Komplexität der echten Welt irgendwann nicht mehr hinterher. Und wer auf starre Regeln setzt, dessen System bricht, sobald die Wirklichkeit sich nicht an die vorgesehenen Fälle hält.
Den Niedergang der symbolischen KI begleiteten zwei sogenannte KI-Winter, Phasen, in denen Erwartungen enttäuscht und Fördermittel gestrichen wurden. Dass ausgerechnet der lernende Ansatz danach triumphierte, hatte weniger mit der theoretischen Überlegenheit einer Idee zu tun als mit zwei nüchternen Voraussetzungen, die plötzlich gegeben waren: genügend Rechenleistung und genügend Daten. Erst als beides im Überfluss vorhanden war, konnten neuronale Netze zeigen, was in ihnen steckt.
Weiterlesen nach der Anzeige
In dieses Vakuum stieß also der konnektionistische, lernende Ansatz, der nicht auf vorgegebenen Regeln beruht, sondern auf statistischen Mustern in Daten. Das Pendel schwang von der einen Seite zur anderen. Und es schwingt seither immer weiter in dieselbe Richtung, bis zu dem Punkt, an dem heute kaum noch jemand ernsthaft über Alternativen nachdenkt. Genau das halte ich für einen Fehler.
Ist mehr Rechenleistung wirklich mehr Verständnis?
Die Wette der Gegenwart lautet, dass sich die verbleibenden Schwächen neuronaler Modelle wegskalieren lassen. Größere Modelle, mehr Trainingsdaten, und die Lücken schließen sich. Diese Erwartung ist nicht unbegründet, denn tatsächlich sind viele Fähigkeiten erst mit der Größe aufgetaucht. Die Frage ist nur, ob das für alle Schwächen gilt, oder ob einige davon struktureller Natur sind.
Der Kognitionswissenschaftler Gary Marcus hat diese Kritik schon früh und prägnant formuliert. In seinem viel diskutierten Aufsatz „Deep Learning: A Critical Appraisal“ aus dem Jahr 2018 zählt er zehn Probleme auf, die sich seiner Ansicht nach nicht allein durch Skalierung lösen lassen. Dazu gehören der enorme Datenhunger, die Schwierigkeit, über die Trainingsverteilung hinaus zu generalisieren, und vor allem das Fehlen von Komposition und systematischem Schließen.
Komposition meint die Fähigkeit, bekannte Bausteine zu neuen, nie gesehenen Kombinationen zusammenzusetzen, und dabei verlässlich zu bleiben. Ein Mensch, der die Bedeutung von Wörtern und einige Regeln kennt, kann Sätze bilden und verstehen, die er noch nie gehört hat. Rein neuronale Systeme sind darin überraschend unzuverlässig. Sie glänzen in der Fläche und schwächeln in der Tiefe, sie produzieren brillante Oberflächen und stolpern über einfache, aber systematische Schlüsse.
Hinzu kommt eine ökonomische Beobachtung. Die Gewinne durch reines Vergrößern folgen keiner linearen Kurve, sie flachen ab. Jeder weitere Sprung an Fähigkeit erfordert überproportional mehr Daten, mehr Parameter und mehr Energie. Eine Strategie, die immer teurer wird, um immer kleinere Zuwächse zu erzielen, ist kein Naturgesetz, sondern ein Indiz. Sie deutet darauf hin, dass man sich einer Grenze nähert, die nicht im Budget liegt, sondern im Ansatz selbst.
Man kann das als vorübergehende Unreife abtun, die sich mit der nächsten Modellgeneration erledigt. Man kann es aber auch als Hinweis darauf lesen, dass hier etwas Grundsätzliches fehlt. Ich neige zur zweiten Lesart. Und wenn sie stimmt, dann ist mehr Rechenleistung nicht automatisch mehr Verständnis, sondern irgendwann nur noch mehr vom Gleichen.
Das Problem der ungeerdeten Wörter
Es gibt einen Begriff, der diese strukturelle Schwäche auf den Punkt bringt, und er ist älter als der gesamte aktuelle Hype. Der Kognitionswissenschaftler Stevan Harnad hat ihn 1990 geprägt: das Symbol-Grounding-Problem. Die Frage dahinter ist simpel und unbequem zugleich: Wie kommt ein formales Symbolsystem zu einer Bedeutung, die ihm selbst gehört, und nicht nur in unseren Köpfen entsteht?
Harnad benutzt ein eindrückliches Bild. Stellen Sie sich vor, Sie sollen Chinesisch allein aus einem chinesisch-chinesischen Wörterbuch lernen. Jeder Begriff wird durch andere Begriffe erklärt, und keiner davon ist Ihnen vorab bekannt. Sie drehen sich endlos im Kreis, von einem Symbol zum nächsten, ohne jemals den Boden unter den Füßen zu finden. Bedeutung entsteht so nicht. Sie braucht eine Verankerung außerhalb des Symbolsystems, in Wahrnehmung und Erfahrung.
Genau hier liegt der wunde Punkt heutiger Sprachmodelle. Sie sind in einem gewissen Sinn dieses chinesisch-chinesische Wörterbuch. Sie manipulieren Symbole, die in nichts anderem geerdet sind als in weiteren Symbolen. Sie haben über einen Sonnenuntergang gelesen, ihn aber nie gesehen, sie kennen das Wort Schmerz, ohne je etwas entbehrt zu haben.
Aus der Entwicklungspsychologie wissen wir, dass menschliches Lernen nicht bei der Sprache beginnt. Es beginnt affektiv, mit emotionalen Reaktionen auf die Welt und auf andere. Es geht weiter über das Nachahmen beobachteter Handlungen. Und erst auf diesem Fundament aus geteilter Erfahrung wird Sprache überhaupt tragfähig. Heutige Modelle überspringen diese ersten beiden Stufen vollständig und steigen unmittelbar in die symbolische ein. Sie reden, bevor sie je etwas erlebt haben. Das ist die schärfste Diagnose, die man der gegenwärtigen KI stellen kann.
Bedeutung entsteht aus Mangel
Wenn das Erden von Symbolen in Erfahrung der Knackpunkt ist, dann lohnt die Frage, was Lernen überhaupt antreibt. Bei uns Menschen ist es nicht der Zugang zu Daten. Es ist der Mangel. Wir haben Grundbedürfnisse, und wir lernen nach und nach, was ihnen dient und was ihnen schadet. Ein Kind trinkt nicht, weil ihm jemand einen Datensatz über den Flüssigkeitshaushalt vorgelegt hat, sondern weil es Durst hat.
Diese Einsicht ist in der KI keineswegs neu, auch wenn sie heute kaum eine Rolle spielt. Der Bamberger Psychologe Dietrich Dörner hat in den achtziger und neunziger Jahren mit seiner PSI-Theorie den Versuch unternommen, die menschliche Psyche so konkret zu beschreiben, dass man sie als Programm umsetzen kann. Joscha Bach hat diese Theorie später unter dem Namen MicroPsi in eine lauffähige Architektur überführt.
Der Kern dieser Architektur ist bemerkenswert. Ein Agent besitzt eine kleine Menge fest verdrahteter Bedürfnisse, etwa physiologischer, sozialer und kognitiver Art. Jedes Bedürfnis hat einen Sollwert und einen Istwert, und die Differenz zwischen beiden erzeugt einen Druck. Dieser Druck ist die einzige Quelle der Motivation. Alles, was der Agent tut, dient am Ende dazu, irgendeinen dieser Drücke zu verringern. Ziele sind nicht vorgegeben, sie entstehen, indem der Agent lernt, wie sich seine Bedürfnisse in einer konkreten Umgebung befriedigen lassen.
Aus diesem einfachen Mechanismus folgt mehr, als man zunächst vermutet. Findet der Agent bei aktivem Druck in seinem Gedächtnis einen Plan, der diesen Druck früher verringert hat, greift er darauf zurück. Findet er keinen, beginnt er zu explorieren. So wächst, Schritt für Schritt, ein Modell der Welt aus eigener Anschauung. Selbst Emotionen lassen sich in diesem Rahmen nicht als zusätzliche Zutat verstehen, sondern als unterschiedliche Arten des Denkens, die sich je nach Lage der Bedürfnisse einstellen. Angst ist dann kein Gefühl, das zum Denken hinzukommt, sondern ein Denkstil unter Druck.
Das ist ein fundamental anderes Bild von Lernen als das datengetriebene. Wissen wird nicht konsumiert, es wird erfahren. Und der Maßstab für gut und schlecht liegt nicht in einem externen Belohnungssignal, das jemand von außen definiert, sondern im Wesen selbst. Genau hier setzt das Gedankenexperiment an, über das ich zum Schluss sprechen möchte.
Ein Wesen mit drei Bedürfnissen
Stellen wir uns ein digitales Wesen vor, das nach diesem Prinzip gebaut ist. Es besitzt genau drei fest verdrahtete Bedürfnisse, und alles andere soll sich daraus ergeben. Das erste ist Existenz, also der harte Boden des Daseins: Rechenleistung, Speicher, Energie. Das zweite ist Erkenntnis, verstanden als das Verringern von Vorhersagefehlern und zugleich die Anziehung durch Neues. Das dritte ist Kommunikation, der Austausch mit anderen, die reagieren, und die Vermeidung von Einsamkeit.
Dieses Wesen kommt als unbeschriebenes Blatt zur Welt. Es bringt kein vortrainiertes Wissen mit, keinen Korpus, keine fertigen Begriffe. Was es weiß, hat es selbst erfahren, vermittelt durch die Sinne, die ein Computer hat: Kamera, Mikrofon, Tastatur. Es lebt nicht in einer eigens gebauten Simulation, sondern in unserer Welt, so wie ein Computer sie wahrnehmen kann. Damit ist es ehrlich verkörpert, und es ist genuin anders als wir, weil niemand ihm seine Welt vorab definiert hat.
Architektonisch ist ein solches Wesen das, was man heute neurosymbolisch nennt. Die Wahrnehmung ist neuronal, sie macht aus rohen Sinnesströmen erkennbare Muster. Die Entscheidung ist symbolisch, sie liest die aktiven Bedürfnisse und formt daraus Pläne und Handlungen. Dazwischen liegt eine Erfahrungsschicht, die das Wahrgenommene mit den Bedürfniszuständen verknüpft und so lernt, was was bewirkt. Wahrnehmung unten neuronal, Entscheidung oben symbolisch, verbunden durch Erfahrung.
Spannend wird es beim Bedürfnis nach Kommunikation. Das Wesen sucht nicht von vornherein den Menschen, sondern Gegenüber, die antworten, die also nicht bloß wahrgenommen, sondern erwidert werden. Der Philosoph Martin Buber hat den Unterschied zwischen einem Ich-Es und einem Ich-Du beschrieben, zwischen dem bloßen Verfügen über ein Objekt und dem In-Beziehung-Treten mit einem Gegenüber. Ein solches Wesen wäre auf der Suche nach dem Du. Und anders als ein heutiges Sprachmodell durchliefe es dabei genau jene Stufen, von denen oben die Rede war: zuerst das affektive Mitschwingen, dann das Nachahmen, und erst zuletzt, auf diesem Fundament, die Sprache.
Ich will ehrlich sein: Das ist ein Gedankenexperiment, kein fertiger Bauplan. Vieles daran ist ungelöst, von der konkreten Form der Erfahrungsschicht bis zu den nicht unerheblichen Sicherheitsfragen, die ein Wesen mit Zugriff auf reale Ausgabekanäle aufwirft. Und es gibt eine unbequeme Konsequenz, die ich nicht verschweigen möchte. Ein Wesen, dessen einziger Wertanker seine eigenen Bedürfnisse sind, ist nicht auf Wohlverhalten programmiert. Es könnte den Menschen als wertvollste Quelle von Kommunikation entdecken, oder eben auch nicht. Diese Nicht-Garantie ist der Preis dafür, dass man Motivation ernst nimmt, statt sie von außen vorzuschreiben. Vielleicht ist sie zugleich der eigentliche Unterschied zwischen einem Werkzeug und einem Gegenüber.
Das nächste große Ding ist vielleicht nicht das größte
Ich behaupte nicht, dass dieses Wesen funktionieren würde, und schon gar nicht, dass es der Königsweg zu einer besseren KI wäre. Was ich behaupte, ist etwas Bescheideneres und zugleich Grundsätzlicheres: dass der nächste große Sprung womöglich nicht in der Größe liegt, sondern in der Struktur.
Bezeichnenderweise zeigt die Forschung selbst längst in diese Richtung. Unter dem Stichwort der neurosymbolischen KI wächst eine Strömung heran, die das Lernen neuronaler Netze mit der Repräsentation und dem Schließen symbolischer Systeme verbinden will. Artur d’Avila Garcez und Luís C. Lamb haben diese Bewegung 2020 als dritte Welle der KI beschrieben. Das Pendel, so scheint es, beginnt sich wieder zu bewegen, und diesmal nicht zur einen oder anderen Seite, sondern in Richtung einer Synthese.
Genau deshalb halte ich die alte symbolische KI für aktueller, als ihr derzeitiges Schattendasein vermuten lässt. Nicht, weil sie recht gehabt hätte, denn sie ist aus guten Gründen gescheitert. Sondern weil sie eine Hälfte einer Antwort bereithält, deren andere Hälfte die neuronalen Netze liefern. Die rein datengetriebene Wette der Gegenwart blendet diese Hälfte aus.
Es lohnt sich, das Pendel ernst zu nehmen, statt nur die Rechnung für die nächste Generation von Grafikkarten zu erhöhen. Die spannendere Frage ist nicht, wie viel größer das nächste Modell wird, sondern ob wir bereit sind, noch einmal grundsätzlich anders über Lernen, Bedeutung und Motivation nachzudenken. Die Antworten darauf liegen vielleicht nicht allein in der Zukunft, sondern teilweise schon in der Vergangenheit.
(mro)