Entwicklung & Code
Von den Grenzen großer Sprachmodelle und der Unerreichbarkeit von AGI und ASI
Die rasante Entwicklung großer Sprachmodelle hat eine intensive Debatte über ihr Potenzial ausgelöst, künstliche allgemeine Intelligenz und letztlich künstliche Superintelligenz zu erreichen.
Weiterlesen nach der Anzeige
Prof. Dr. Michael Stal arbeitet seit 1991 bei Siemens Technology. Seine Forschungsschwerpunkte umfassen Softwarearchitekturen für große komplexe Systeme (Verteilte Systeme, Cloud Computing, IIoT), Eingebettte Systeme und Künstliche Intelligenz.
Er berät Geschäftsbereiche in Softwarearchitekturfragen und ist für die Architekturausbildung der Senior-Software-Architekten bei Siemens verantwortlich.
Obwohl diese Systeme bemerkenswerte Fähigkeiten in den Bereichen Sprachverarbeitung, Schlussfolgerungen und Wissenssynthese aufweisen, deuten grundlegende architektonische und theoretische Einschränkungen darauf hin, dass sie die Lücke zu echter allgemeiner Intelligenz nicht schließen können. Diese Analyse untersucht die zentralen technischen Hindernisse, die aktuelle LLM-Paradigmen daran hindern, AGI oder ASI zu erreichen.
Das Ziel verstehen: Definitionen von AGI und ASI
Künstliche allgemeine Intelligenz (AGI – Artificial General Intelligence) ist eine hypothetische Form der künstlichen Intelligenz, die die kognitiven Fähigkeiten des Menschen in allen Bereichen des Wissens und der Schlussfolgerungen erreicht oder übertrifft. Im Gegensatz zu schmalen KI-Systemen, die für bestimmte Aufgaben entwickelt wurden, würde AGI eine flexible Intelligenz aufweisen, die in der Lage ist, Wissen in jedem Bereich mit der gleichen Leichtigkeit wie die menschliche Intelligenz zu lernen, zu verstehen und anzuwenden. Zu den Hauptmerkmalen von AGI gehören autonomes Lernen anhand minimaler Beispiele, Wissenstransfer zwischen unterschiedlichen Bereichen, kreative Problemlösung in neuartigen Situationen und die Fähigkeit, abstrakte Konzepte mit echtem Verständnis und nicht nur durch Mustererkennung zu verstehen und zu manipulieren.
Künstliche Superintelligenz (ASI – Artificial Superintelligence) geht über AGI hinaus und steht für eine Intelligenz, die die kognitiven Fähigkeiten des Menschen in allen Bereichen, einschließlich Kreativität, allgemeiner Weisheit und Problemlösung, bei weitem übertrifft. ASI würde die menschliche Intelligenz nicht nur erreichen, sondern um ein Vielfaches übertreffen und möglicherweise Erkenntnisse und Fähigkeiten erreichen, die für den Menschen unvorstellbar sind. Die Unterscheidung zwischen AGI und ASI ist entscheidend, da AGI eine allgemeine Intelligenz auf menschlichem Niveau darstellt, während ASI eine grundlegend andere Kategorie von Intelligenz impliziert.
Große Sprachmodelle sind in ihrer derzeitigen Form statistische Systeme, die auf der Grundlage umfangreicher Textkorpora trainiert werden, um das wahrscheinlichste nächste Token in einer Sequenz vorherzusagen. Diese Modelle lernen, Muster aus ihren Trainingsdaten zu komprimieren und zu reproduzieren, wodurch sie in der Lage sind, kohärente und kontextuell angemessene Antworten zu generieren. Ihre Funktionsweise unterscheidet sich jedoch grundlegend von der flexiblen, adaptiven Intelligenz, die AGI auszeichnet.
Weiterlesen nach der Anzeige
Architektonische Einschränkungen von Transformer-basierten Systemen
Die Transformer-Architektur, die den meisten aktuellen LLMs zugrunde liegt, bringt mehrere grundlegende Einschränkungen mit sich, die ihr Potenzial für allgemeine Intelligenz begrenzen. Der Aufmerksamkeitsmechanismus ist zwar leistungsstark für die Verarbeitung von Sequenzen, arbeitet jedoch mit festen Gewichtungsmatrizen, die während des Trainings gelernt wurden. Diese Gewichte kodieren statistische Beziehungen zwischen Token, können sich jedoch ohne erneutes Training nicht dynamisch an völlig neue Konzepte oder Domänen anpassen. Diese statische Natur steht in starkem Kontrast zur biologischen Intelligenz, die ihre neuronalen Verbindungen auf der Grundlage neuer Erfahrungen kontinuierlich anpasst.
Die Feedforward-Verarbeitung von Transformatoren schafft eine weitere bedeutende Einschränkung. Informationen fließen in einer Richtung durch die Netzwerkschichten, wodurch die für die menschliche Kognition charakteristische iterative, zyklische Verarbeitung verhindert wird. Das menschliche Denken beinhaltet kontinuierliche Rückkopplungsschleifen, in denen Konzepte höherer Ebene die Verarbeitung auf niedrigerer Ebene beeinflussen und umgekehrt. Dieser bidirektionale Fluss ermöglicht es dem Menschen, sein Verständnis durch Reflexion und Neukonzeption zu verfeinern – Fähigkeiten, die in aktuellen LLM-Architekturen noch fehlen.
Darüber hinaus führt der diskrete Tokenisierungsprozess, der die kontinuierliche menschliche Sprache in diskrete Token umwandelt, zu Informationsverlusten und schränkt die Fähigkeit des Modells ein, subtile Nuancen und kontextabhängige Bedeutungen zu verstehen. Die Verarbeitung der menschlichen Sprache erfolgt gleichzeitig auf mehreren Ebenen, von der phonetischen und morphologischen bis zur semantischen und pragmatischen Ebene, mit einer kontinuierlichen Integration über diese Ebenen hinweg. Der Engpass der Tokenisierung hindert LLMs daran, auf dieses gesamte Spektrum der Sprachverarbeitung zuzugreifen.
Die Einschränkung des Trainingsparadigmas
Das Ziel der Vorhersage des nächsten Tokens, das das LLM-Training antreibt, schafft grundlegende Einschränkungen in der Art und Weise, wie diese Systeme Informationen verstehen und verarbeiten. Dieses Trainingsparadigma optimiert eher die statistische Korrelation als das kausale Verständnis, was zu einem ausgeklügelten Musterabgleich statt zu echtem Verständnis führt. Dieser Ansatz ermöglicht zwar beeindruckende Leistungen bei vielen Sprachaufgaben, versäumt es jedoch, die für allgemeine Intelligenz wesentlichen Fähigkeiten des kausalen Denkens und der Weltmodellierung zu entwickeln.
Der im LLM-Training verwendete Ansatz des überwachten Lernens stützt sich auf statische Datensätze, die eine Momentaufnahme des menschlichen Wissens zu einem bestimmten Zeitpunkt darstellen. Dies steht im Gegensatz zum menschlichen Lernen, das aktive Erkundung, Hypothesenbildung und -prüfung sowie die kontinuierliche Integration neuer Erfahrungen in das vorhandene Wissen umfasst. Menschen entwickeln Verständnis durch Interaktion mit ihrer Umgebung und bilden und verfeinern mentale Modelle auf der Grundlage von Rückmeldungen aus ihren Handlungen. LLMs fehlt diese interaktive Lernfähigkeit, und sie können kein echtes Verständnis durch Erfahrungslernen entwickeln.
Die Skalierungshypothese, die besagt, dass größere Modelle, deren Training mit immer mehr Daten erfolgt, letztendlich AGI erreichen, steht vor mehreren theoretischen Herausforderungen. Die einfache Vergrößerung des Modells und des Datensatzes berücksichtigt zwar die Quantität, aber nicht die qualitativen Unterschiede zwischen Mustererkennung und Verständnis. Das Entstehen neuer Fähigkeiten in größeren Modellen spiegelt oft eher eine ausgefeiltere Mustererkennung wider als grundlegende Veränderungen in der Form von Intelligenz. Ohne die zugrunde liegenden architektonischen und trainingsbezogenen Einschränkungen zu beseitigen, kann die Skalierung allein die Lücke zwischen statistischer Verarbeitung und echter Intelligenz nicht schließen.