Künstliche Intelligenz
Kurz erklärt: Das steckt hinter dem Modewort KI-Agenten
Während die Reasoning-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) total 2024 sind, betonen die Modellanbieter jetzt die agentische Natur ihrer Systeme. Gemeint ist damit, dass die Modelle komplexe Aufgaben autonom lösen und dazu selbstständig weitere LLMs oder andere Werkzeuge hinzuziehen. Das kann vom Browser und der Taschenrechner-App über die Dokumentenablage bis zur Entwicklungsumgebung reichen.
Ziel der autonomen agentischen LLMs ist laut Werbeversprechen, die bisherige Arbeitswelt umzukrempeln, die Digitalisierung der Wirtschaft und Verwaltung abzuschließen und schlussendlich Menschen bei vielen Tätigkeiten zu ersetzen – was Kosten einspart. Nicht nur bei öden, repetitiven Aufgaben – auch komplexe Geschäftsprozesse, Softwareentwicklung und Forschung sind das Ziel der Agenten. Während die Wirtschaft – vom KMU bis zum Megakonzern – damit einen Wachstumsschub erfahren soll, würden die Systeme Angestellten dann Zeit für andere Aufgaben geben, die bislang ständig hinten runterfallen. Unterm Strich soll die Technik alle noch effizienter machen und die Lücke der Fachkräfte füllen, erklären die Eltern des Gedanken.
Orientierungshilfe: Stufen des autonomen Fahrens
Abstrakt annähern kann man die Fähigkeiten der agentischen LLMs am besten über einen Vergleich mit den Stufen des autonomen Fahrens (siehe Kasten). Werbung und Release Notes versprechen voll automatisierte KI-Systeme (Stufe 4). Glaubt man dem Hype, wird Artificial General Intelligence (AGI) spätestens mit GPT-5 den Menschen obsolet machen (Stufe 5). Erfahrungsberichte klingen eher nach einer Automatisierung zwischen den Stufen 2 und 3. Nutzer müssen jederzeit eingreifen können, wenn sich die Sprachmodelle verlaufen, oder die Modelle prompten bei bestimmten Entscheidungen die Nutzer und warten dann, bis die Menschen gutgläubig ihre Kreditkartendaten und Passwörter eingegeben haben.
Stufe 0: Manuelles Fahren.
Stufe 1: Assistiert. Fahrer führen die Lenkbewegungen aus, das Fahrzeugsystem erledigt Aktivitäten wie Bremsen, Blinken oder Beschleunigen.
Stufe 2: Teilautomatisiert. Ein Mensch muss das System dauerhaft überwachen und im Zweifelsfall eingreifen.
Stufe 3: Hoch automatisiert. Ein Mensch muss am Platz sein, aber das System nicht dauerhaft überwachen.
Stufe 4: Voll automatisiert. Das System kann in speziellen Situationen alle Fahranforderungen selbstständig bewältigen.
Wie es um die tatsächlichen Fähigkeiten der Sprachmodelle bestellt ist, läuft auf eine Glaubensfrage hinaus. Fans der Technik heben ihren Produktionszuwachs hervor, zeigen erfolgreiche Prototypen oder präsentieren in sozialen Netzwerken erstaunliche Ergebnisse von künstlicher Intelligenz. Auf der anderen Seite sehen die Kritiker LLMs als stochastische Sprachwürfelmaschinen, die sich in manchen Bereichen besser schlagen als in anderen, unterm Strich aber meist enttäuschen – es sei denn, man würfelt so lange, bis das Ergebnis vorzeigbar genug ist, wobei mit jedem Würfelwurf Kosten entstehen.
Qualität meist anekdotisch erwiesen, statt gemessen
Strukturiertere Erkenntnisse bieten die gängigen Benchmarks für große Sprachmodelle (etwa GPQA, AIME, SWE-bench oder MMLU). Hier erstrecken sich die Testfelder über das Programmieren, Recherchieren und Fachwissen in den Naturwissenschaften. Geschlossene Modelle erreichen bei jedem Release neue Höchstwerte, offenere Modelle kommen an die proprietären Konkurrenten heran – der Spielraum ist in beiden Fällen zwei bis drei Prozentpunkte. Während die Benchmarks den LLMs grundsätzlich gute bis sehr gute allgemeine Fähigkeiten bescheinigen, sind die genauen Zahlen mit Vorsicht zu genießen. Seit einer Weile besteht der Verdacht, dass Anbieter ihre Modelle speziell auf die Tests trainieren, also Benchmaxing betreiben – bei keinem Flaggschiffmodell sind die Trainingsdaten bekannt. Dann gibt es noch die LMArena, in der Menschen bei Blindtests den Stil und die Qualität von Modellen bei beliebigen Prompts bewerten. Ein Leaderboard drückt das Ergebnis mit einer ELO aus. Auch hier haben Anbieter zuletzt mit besonders gefälligen Varianten getrickst, dennoch lassen sich hier Trends quantifiziert ablesen.
Für die Qualität der Modelle in Produktion gibt es bisher nur anekdotische Evidenz, kein Unternehmen rückt mit Messungen zum Effizienzzuwachs raus, für das Programmieren scheint das aktuell umstritten zu sein. Zwar kein guter Indikator für den deutschen Mittelstand, aber für die Lage in der Branche sind die aktuellen Quartalszahlen von Meta und Microsoft. Meta verdient sein Geld fast ausschließlich mit Werbung, Microsoft wächst besonders stark im Bereich Azure Cloud, in dem man auch die KI-Workloads verrechnet, schlüsselt das jedoch nicht genauer auf. Es ist anzunehmen, dass besonders Microsoft hohe Gewinne durch LLMs und andere KI-Produkte seiner Konkurrenz und den Aktionären unter die Nase reiben würde.
Wer jetzt kauft, kriegt teilautomatisierte Workflows
Derweil gibt es Techniken, die die Ausgabequalität oder den Nutzen der großen Sprachmodelle für den Unternehmenseinsatz steigern. Mit Retrieval Augmented Generation (RAG) nähert man die Sprachmodelle mit den eigenen Dokumenten an die richtige Problemdomäne an, was Halluzinationen reduzieren kann. Mit Agentenframeworks und zuletzt dem MCP gibt es Mittel, mit denen sich Sprachmodelle strukturiert miteinander oder mit allen denkbaren Werkzeugen verbinden lassen. Hier gibt man den Modellen jedoch eine Auswahl vor, sie können sich nicht autonom beliebige Werkzeuge aussuchen. Diese Konstrukte muss man in Produktion testen – hier gibt es zwar positive Erfahrungsberichte, aber keine Benchmarks oder Zahlen. Ob sich das Skalieren der Anwendungen dann rechnet, ist ebenfalls erst in Produktion ersichtlich.
Wer jetzt ein Agentic-AI-Produkt für den Unternehmenseinsatz kauft, wird höchstwahrscheinlich teilautomatisierte Abläufe bekommen; im besten Fall passt die Unternehmensstruktur und die Angestellten müssen die automatisierten Prozesse nur noch überwachen. Das muss dabei nicht immer mit LLMs zu tun haben. Auf dem Stand der Digitalisierung in Verwaltung und KMUs ist auch mit klassischen Mitteln noch viel zu holen. Sogar die Analysten bei Gartner, die selbst gerne Hypes pushen und verkaufen, warnen davor, dass von 1.000 geprüften Produkten für KI-Agenten nur 130 mehr als heiße Luft vorweisen konnten.
Fazit
Ihre Stärken haben die großen Sprachmodelle bei der Textarbeit, der Dokumentensuche und dem Zusammenfassen von Inhalten. Während die reinen Sprachfähigkeiten der LLMs außer Frage stehen, bewegen sich sehr gute Ergebnisse beim Programmieren je nach Benchmark und Modell zwischen 30 und 90 Prozent, bei Recherche und Naturwissenschaften zwischen 50 und 85 Prozent. Natürlich erreicht nicht jeder Mensch dieselbe Bewertung bei diesen Aufgaben. Gerade bei exotischen Spezialfällen knicken die LLMs dann häufig ein – genau bei den Problemen, für die man Facharbeiter oder Domänenexperten beschäftigt.
LLMs enthalten eine gewaltige Bandbreite an Wissen zu den verschiedensten Themen – schließlich sind die Topmodelle der großen Anbieter mit allem digital verfügbaren Wissen der Menschheit trainiert und lassen sich danach abfragen. Offen ist jedoch: Erreichen LLMs mit dem ungenauen Werkzeug Sprache über eine statistische Annäherung am Ende ein eindeutiges Ergebnis? Reicht ein System, das überzeugend spricht, aber nur in der Hälfte oder drei Viertel der Fälle richtig liegt, für autonome Lösungsfindung? Oder bleiben diese Systeme wie die selbstfahrenden Pkws auf Stufe 3 der Autonomie stecken?
(pst)
Künstliche Intelligenz
Schüler meinen: Ein Handyverbot an Schulen muss dann auch für Lehrer gelten
Wenn wir an Schulen kein Handy benutzen dürfen, dann muss das auch für Lehrkräfte gelten, meinen Schülerinnen und Schüler in Baden-Württemberg – zumindest, wenn es um den Gebrauch für Privates geht. In die Debatte um ein mögliches Handyverbot an Schulen schaltet sich damit nun der Landesschülerbeirat aus Stuttgart ein und benennt Gründe, die gegen ein Verbot sprechen, und warum im Falle eines solchen Beschlusses dieser auch für Lehrkräfte gelten solle.
Es sei absurd, dass es nur um die Handys von Schülern ginge, negative Effekte ließen sich auch bei Erwachsenen nachweisen, heißt es weiter. Gründe, warum Lehrkräfte ihr Handy in der Schule privat nutzen dürfen, gäbe es nicht.
„Sich lieber an die eigene Nase fassen“
Oftmals liege es nämlich nicht an der missbräuchlichen Nutzung von Handys, sondern am schlechten Unterricht: „Wenn sich eine Lehrkraft aber allen Ernstes vor die Klasse stellt und dann 20 Arbeitsblätter mit Text austeilt und 90 Minuten lang einen Dialog hält, verursacht sie diese Probleme mit.“
Auch würden graue Schulhöfe aus Beton dazu motivieren, lieber zum Handy zu greifen. Alternativen zur Bewegung und anderen Aktivitäten fehlten komplett.
WLAN und Fußballtore
Neben attraktiveren Pausenhöfen mit Fußballtoren oder Tischtennisplatten, würde ein flächendeckendes WLAN helfen, den Zugang zu Lerninhalten zu vereinfachen, so schreiben die Schüler. Kostbare mobile Daten würden ansonsten beispielsweise für Spiele aufgespart. Anstatt den Schülern etwas zu geben, was das Schulleben erleichtert, drehe sich die Debatte zur Smartphonenutzung ausschließlich darum, ihnen etwas wegzunehmen.
Eine Diskussion müsse zwischen allen darin beteiligten Parteien auf Augenhöhe stattfinden, Nutzungsregeln für alle gelten.
(aki)
Künstliche Intelligenz
USB-Display für 6 Euro zeigt PC-Daten an
Das WeAct Studio Display FS ist nur so klein wie ein gängiger USB-Stick und zeigt an einem USB-Port allerlei Systemdaten an. Das 0,96 Zoll kleine LC-Display stellt 160 × 80 Pixel dar und kostet keine 6 Euro.
Nutzer können sich etwa die Hardware-Auslastung, Temperaturen und Netzwerkauslastung anzeigen lassen. Der Bildschirm benötigt lediglich eine USB-2.0-Verbindung für die Stromversorgung und um die Systemdaten abzufragen. Entdeckt hat es CNX Software auf der chinesischen Handelsplattform Aliexpress – in den 6 Euro sind Versand und Steuern bereits enthalten.
Übersicht zu den Funktionen des WeAct Studio Display FS. Die Grafik links zeigt, wie der Bildschirminhalt aussehen könnte.
(Bild: WeAct Studio)
WeAct Studio bietet eine eigene „System Monitor“-Software zur Ansteuerung des Displays an. Laut Shopseite unterstützt das Display ausschließlich Windows-Betriebssysteme, allerdings basiert der WeAct Studio System Monitor auf dem quelloffenen Python-Projekt Turing Smart Screen, das auch unter Linux und macOS läuft. Bastelwillige sollten das Display also auch dort zum Laufen bekommen.
Alternativ gibt es die WeAct Studio Screen Projection, mit dem Nutzer etwa ein Logo auf dem Bildschirm anzeigen lassen können. In Anbetracht der Auflösung und Größe sollten Interessierte hier allerdings keine visuelle Offenbarung erwarten.
Achtung vor Kurzschlüssen
WeAct Studio hält sich nicht 100-prozentig an die USB-Spezifikationen: Das Anschlussgehäuse um die USB-Kontakte fehlt, damit Nutzer das Display in die gewünschte Richtung einstecken können. Um einen Kurzschluss zu verhindern, müssen Nutzer ein selbstklebendes Pad auf einer Seite anbringen.
Wer es etwas größer mag, bekommt alternativ ein 3,5-Zoll-Display mit der gleichen Funktionalität von WeAct. Das wird nicht direkt an einen USB-Port angesteckt, sondern per Kabel verbunden. Inklusive Versand und Steuern kostet der Bildschirm aktuell knapp 15 Euro.
(mma)
Künstliche Intelligenz
Deepseek-R1: KI-Training hat sogar weniger als 300.000 US-Dollar gekostet
Das Training des Reasoning-Modells R1 des chinesischen KI-Unternehmens Deepseek hat nur 294.000 US-Dollar gekostet und erfolgte auf 512 H800-Chips von Nvidia. Diese Kosten, die noch einmal deutlich unter den bisherigen Schätzungen liegen, stehen in einem unabhängig überprüften Forschungsartikel zur Erschaffung der KI-Technik, der jetzt im Fachmagazin Nature erschienen ist. Der dürfte die Debatten um die immensen Kosten für das KI-Training bei der US-Konkurrenz noch einmal neu entfachen. Als Deepseek R1 und ein weiteres KI-Modell Anfang des Jahres veröffentlichte, hat dessen Konkurrenzfähigkeit für Krisentreffen bei der Konkurrenz und einen Absturz des Aktienkurses von Nvidia gesorgt.
Längst ein Vorbild für die Konkurrenz
Ein erster Fachartikel zum Training von Deepseek-R1 im Januar hat die Zahlen zu den Kosten und der eingesetzten Hardware noch nicht enthalten. Die hat das Unternehmen nun im Rahmen einer Peer Review nachgereicht, die von Nature durchgeführt wurde. Das Forschungsmagazin wirbt nun bei anderen KI-Unternehmen dafür, ihre KI-Systeme und die Entwicklung in gleicher Weise unabhängig überprüfen zu lassen. In dem jetzt veröffentlichten Artikel zu Deepseek-R1 werde deutlich, wie das chinesische Unternehmen ein automatisiertes Ausprobieren („trial and error“) eingeführt habe. Dadurch sei die Technik belohnt worden, wenn sie korrekte Antworten ermittelt. Mit dieser Innovation habe Deepseek alle anderen KI-Firmen inspiriert, heißt es bei Nature.
Die Modelle von Deepseek haben im Januar deshalb zu einem Kursrutsch bei den Aktien aller KI-Firmen gesorgt, weil sie viel kostengünstiger waren und viel effizienter funktionierten als die Konkurrenz. Deshalb gab es Zweifel, ob die teils hunderte Milliarden US-Dollar teure Infrastruktur, die vor allem von US-Firmen derzeit aufgebaut wird, für die KI-Branche überhaupt notwendig ist. Die Aufregung hat sich längst gelegt und die Aktienkurse steigen immer weiter. Laut Nature hat Deepseek nun auch publik gemacht, dass die KI-Technik, die R1 zugrunde liegt, insgesamt sechs Millionen US-Dollar gekostet hat. Auch zusammen liegen die Ausgaben für das zumindest damals konkurrenzfähige KI-Modell damit weit unter denen von OpenAI & Co.
(mho)
-
UX/UI & Webdesignvor 1 Monat
Der ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 3 Wochen
Adobe Firefly Boards › PAGE online
-
Social Mediavor 1 Monat
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
Entwicklung & Codevor 4 Wochen
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 Wochen
EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 3 Tagen
Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Digital Business & Startupsvor 3 Monaten
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
Digital Business & Startupsvor 3 Monaten
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier