Künstliche Intelligenz
Kurz erklärt: Das steckt hinter dem Modewort KI-Agenten
Während die Reasoning-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) total 2024 sind, betonen die Modellanbieter jetzt die agentische Natur ihrer Systeme. Gemeint ist damit, dass die Modelle komplexe Aufgaben autonom lösen und dazu selbstständig weitere LLMs oder andere Werkzeuge hinzuziehen. Das kann vom Browser und der Taschenrechner-App über die Dokumentenablage bis zur Entwicklungsumgebung reichen.
Ziel der autonomen agentischen LLMs ist laut Werbeversprechen, die bisherige Arbeitswelt umzukrempeln, die Digitalisierung der Wirtschaft und Verwaltung abzuschließen und schlussendlich Menschen bei vielen Tätigkeiten zu ersetzen – was Kosten einspart. Nicht nur bei öden, repetitiven Aufgaben – auch komplexe Geschäftsprozesse, Softwareentwicklung und Forschung sind das Ziel der Agenten. Während die Wirtschaft – vom KMU bis zum Megakonzern – damit einen Wachstumsschub erfahren soll, würden die Systeme Angestellten dann Zeit für andere Aufgaben geben, die bislang ständig hinten runterfallen. Unterm Strich soll die Technik alle noch effizienter machen und die Lücke der Fachkräfte füllen, erklären die Eltern des Gedanken.
Orientierungshilfe: Stufen des autonomen Fahrens
Abstrakt annähern kann man die Fähigkeiten der agentischen LLMs am besten über einen Vergleich mit den Stufen des autonomen Fahrens (siehe Kasten). Werbung und Release Notes versprechen voll automatisierte KI-Systeme (Stufe 4). Glaubt man dem Hype, wird Artificial General Intelligence (AGI) spätestens mit GPT-5 den Menschen obsolet machen (Stufe 5). Erfahrungsberichte klingen eher nach einer Automatisierung zwischen den Stufen 2 und 3. Nutzer müssen jederzeit eingreifen können, wenn sich die Sprachmodelle verlaufen, oder die Modelle prompten bei bestimmten Entscheidungen die Nutzer und warten dann, bis die Menschen gutgläubig ihre Kreditkartendaten und Passwörter eingegeben haben.
Stufe 0: Manuelles Fahren.
Stufe 1: Assistiert. Fahrer führen die Lenkbewegungen aus, das Fahrzeugsystem erledigt Aktivitäten wie Bremsen, Blinken oder Beschleunigen.
Stufe 2: Teilautomatisiert. Ein Mensch muss das System dauerhaft überwachen und im Zweifelsfall eingreifen.
Stufe 3: Hoch automatisiert. Ein Mensch muss am Platz sein, aber das System nicht dauerhaft überwachen.
Stufe 4: Voll automatisiert. Das System kann in speziellen Situationen alle Fahranforderungen selbstständig bewältigen.
Wie es um die tatsächlichen Fähigkeiten der Sprachmodelle bestellt ist, läuft auf eine Glaubensfrage hinaus. Fans der Technik heben ihren Produktionszuwachs hervor, zeigen erfolgreiche Prototypen oder präsentieren in sozialen Netzwerken erstaunliche Ergebnisse von künstlicher Intelligenz. Auf der anderen Seite sehen die Kritiker LLMs als stochastische Sprachwürfelmaschinen, die sich in manchen Bereichen besser schlagen als in anderen, unterm Strich aber meist enttäuschen – es sei denn, man würfelt so lange, bis das Ergebnis vorzeigbar genug ist, wobei mit jedem Würfelwurf Kosten entstehen.
Qualität meist anekdotisch erwiesen, statt gemessen
Strukturiertere Erkenntnisse bieten die gängigen Benchmarks für große Sprachmodelle (etwa GPQA, AIME, SWE-bench oder MMLU). Hier erstrecken sich die Testfelder über das Programmieren, Recherchieren und Fachwissen in den Naturwissenschaften. Geschlossene Modelle erreichen bei jedem Release neue Höchstwerte, offenere Modelle kommen an die proprietären Konkurrenten heran – der Spielraum ist in beiden Fällen zwei bis drei Prozentpunkte. Während die Benchmarks den LLMs grundsätzlich gute bis sehr gute allgemeine Fähigkeiten bescheinigen, sind die genauen Zahlen mit Vorsicht zu genießen. Seit einer Weile besteht der Verdacht, dass Anbieter ihre Modelle speziell auf die Tests trainieren, also Benchmaxing betreiben – bei keinem Flaggschiffmodell sind die Trainingsdaten bekannt. Dann gibt es noch die LMArena, in der Menschen bei Blindtests den Stil und die Qualität von Modellen bei beliebigen Prompts bewerten. Ein Leaderboard drückt das Ergebnis mit einer ELO aus. Auch hier haben Anbieter zuletzt mit besonders gefälligen Varianten getrickst, dennoch lassen sich hier Trends quantifiziert ablesen.
Für die Qualität der Modelle in Produktion gibt es bisher nur anekdotische Evidenz, kein Unternehmen rückt mit Messungen zum Effizienzzuwachs raus, für das Programmieren scheint das aktuell umstritten zu sein. Zwar kein guter Indikator für den deutschen Mittelstand, aber für die Lage in der Branche sind die aktuellen Quartalszahlen von Meta und Microsoft. Meta verdient sein Geld fast ausschließlich mit Werbung, Microsoft wächst besonders stark im Bereich Azure Cloud, in dem man auch die KI-Workloads verrechnet, schlüsselt das jedoch nicht genauer auf. Es ist anzunehmen, dass besonders Microsoft hohe Gewinne durch LLMs und andere KI-Produkte seiner Konkurrenz und den Aktionären unter die Nase reiben würde.
Wer jetzt kauft, kriegt teilautomatisierte Workflows
Derweil gibt es Techniken, die die Ausgabequalität oder den Nutzen der großen Sprachmodelle für den Unternehmenseinsatz steigern. Mit Retrieval Augmented Generation (RAG) nähert man die Sprachmodelle mit den eigenen Dokumenten an die richtige Problemdomäne an, was Halluzinationen reduzieren kann. Mit Agentenframeworks und zuletzt dem MCP gibt es Mittel, mit denen sich Sprachmodelle strukturiert miteinander oder mit allen denkbaren Werkzeugen verbinden lassen. Hier gibt man den Modellen jedoch eine Auswahl vor, sie können sich nicht autonom beliebige Werkzeuge aussuchen. Diese Konstrukte muss man in Produktion testen – hier gibt es zwar positive Erfahrungsberichte, aber keine Benchmarks oder Zahlen. Ob sich das Skalieren der Anwendungen dann rechnet, ist ebenfalls erst in Produktion ersichtlich.
Wer jetzt ein Agentic-AI-Produkt für den Unternehmenseinsatz kauft, wird höchstwahrscheinlich teilautomatisierte Abläufe bekommen; im besten Fall passt die Unternehmensstruktur und die Angestellten müssen die automatisierten Prozesse nur noch überwachen. Das muss dabei nicht immer mit LLMs zu tun haben. Auf dem Stand der Digitalisierung in Verwaltung und KMUs ist auch mit klassischen Mitteln noch viel zu holen. Sogar die Analysten bei Gartner, die selbst gerne Hypes pushen und verkaufen, warnen davor, dass von 1.000 geprüften Produkten für KI-Agenten nur 130 mehr als heiße Luft vorweisen konnten.
Fazit
Ihre Stärken haben die großen Sprachmodelle bei der Textarbeit, der Dokumentensuche und dem Zusammenfassen von Inhalten. Während die reinen Sprachfähigkeiten der LLMs außer Frage stehen, bewegen sich sehr gute Ergebnisse beim Programmieren je nach Benchmark und Modell zwischen 30 und 90 Prozent, bei Recherche und Naturwissenschaften zwischen 50 und 85 Prozent. Natürlich erreicht nicht jeder Mensch dieselbe Bewertung bei diesen Aufgaben. Gerade bei exotischen Spezialfällen knicken die LLMs dann häufig ein – genau bei den Problemen, für die man Facharbeiter oder Domänenexperten beschäftigt.
LLMs enthalten eine gewaltige Bandbreite an Wissen zu den verschiedensten Themen – schließlich sind die Topmodelle der großen Anbieter mit allem digital verfügbaren Wissen der Menschheit trainiert und lassen sich danach abfragen. Offen ist jedoch: Erreichen LLMs mit dem ungenauen Werkzeug Sprache über eine statistische Annäherung am Ende ein eindeutiges Ergebnis? Reicht ein System, das überzeugend spricht, aber nur in der Hälfte oder drei Viertel der Fälle richtig liegt, für autonome Lösungsfindung? Oder bleiben diese Systeme wie die selbstfahrenden Pkws auf Stufe 3 der Autonomie stecken?
(pst)
Künstliche Intelligenz
Paypal will mit Einmal-Links Geldtransfer vereinfachen und kooperiert mit Google
Paypal ist diese Woche nicht nur eine mehrjährige Partnerschaft mit Google eingegangen, sondern hat mit den „Paypal Links“ auch eine neue Funktion zur Vereinfachung des direkten Zahlungsverkehrs eingeführt. Diese Einmal-Links können sowohl zum Bezahlen als auch Anfordern individueller Geldbeträge von einem einzelnen Fremdkonto genutzt werden und sind nur zeitlich befristet gültig. Dieser Dienst ist ab sofort innerhalb der USA nutzbar, wird im Laufe dieses Monats aber auf weitere Regionen ausgeweitet. Künftig sollen damit auch Kryptowährungen übertragen werden können.
Diese Einmal-Links lassen sich innerhalb der Paypal-App erstellen. Dafür wird lediglich der Betrag und eine entsprechende Nachricht eingegeben. Der damit erstellte individuelle Link zum Anfordern oder zum Senden des Betrags kann dann per Chat, Direktnachricht oder SMS mit der entsprechenden Person geteilt werden. Der Empfänger des Einmal-Links schließt die Aktion in der eigenen Paypal-App ab und das Geld wird unmittelbar übertragen. Für diesen Geldtransfer fallen keine Paypal-Gebühren an, vergleichbar zu unversicherten Paypal-Transfers unter Freunden. Die Paypal Links verfallen nach 10 Tagen, können vor etwaigen Zahlungen aber auch zurückgezogen werden.
Paypal Links zum Transfer von Geld und Kryptowährungen
Paypal-Nutzer in den Vereinigten Staaten können diese Einmal-Links ab sofort für Zahlungen nutzen, etwa beim Teilen von Restaurantrechnungen. Paypal verspricht, den Dienst im Laufe dieses Monats auch weitere Märkte wie Großbritannien und Italien auszuweiten. Ob deutschsprachige Länder dazu gehören, bleibt unklar. Nach eigenen Angaben zählt Paypal 32 Millionen aktive Nutzer allein in Deutschland, sodass die Einführung der Einmal-Links auch hierzulande nur eine Frage der Zeit sein dürfte.
Der Vorgang von Paypal Links
(Bild: Paypal)
Die bisherigen Angebote wie Paypal.me und das Erzeugen eines QR-Codes zum Anfordern von Geldbeträgen bleiben ebenfalls möglich, richten sich aber eher an mehrere Paypal-Nutzer, etwa beim Teilen einer Rechnung für eine größere Gruppe. Paypal Links sind dagegen individuell und auf zwei Personen beschränkt. Zukünftig soll dieser Peer-to-Peer-Dienst auch auf Kryptowährungen ausgeweitet werden, zumindest in den USA. Dann lassen sich Bitcoin, Ethereum und andere direkt mit Paypal Links transferieren.
Partnerschaft von Paypal und Google für E-Commerce
Zudem arbeitet Google im kommerziellen Bereich enger mit Paypal zusammen, wie beide Unternehmen im Rahmen einer mehrjährigen Partnerschaft angekündigt haben. Paypal wird Google-KI zur Erweiterung und Verbesserung seiner Dienste und Sicherheit nutzen, während Google die Zahlungsmöglichkeiten Paypals stärker in seine Produkte und Plattformen integrieren wird. Gemeinsam wollen die beiden Konzerne „E-Commerce revolutionieren“.
Was das konkret für die Anwender bedeutet, bleibt aber weitgehend offen. Die Unternehmen wollen kooperieren für neues, KI-unterstütztes (Online-)Shopping, und Paypal will Googles Cloud-Dienste nutzen. Paypal dürfte aber künftig zur bevorzugten Zahlungsmöglichkeit werden, die Google etwa im Play Store anbietet. Ob Google Pay damit auch stärker mit Paypal verknüpft wird, ist derzeit unklar.
Lesen Sie auch
(fds)
Künstliche Intelligenz
Irland: Ehemalige Meta-Lobbyistin wird Datenschutzbeauftragte
Kann ausgerechnet eine frühere Lobbyistin des Meta-Konzerns die Techbranche in ihre regulatorischen Schranken weisen und eine wirksame Aufsicht organisieren? Ab Mitte Oktober wird sich genau das zeigen: Das irische Kabinett hat der Ernennung der früheren Lobbyistin Niamh Sweeney als eine von drei Leiterinnen der irischen Data Protection Commission zugestimmt, wie Justizminister Jim O’Callaghan mitteilte. Sweeney war zuvor unter anderem Cheflobbyistin für Facebook in Irland, später für WhatsApp in Europa zuständig und arbeitete zudem für den Zahlungsabwickler Stripe.
Irische Aufsicht für ganz Europa relevant
Die Benennung der früheren Fernsehjournalistin, Lobbyistin und Beraterin hat über die Grenzen der Insel hinaus Bedeutung: Denn kaum ein EU-Mitgliedstaat spielt für die Durchsetzung des europäischen Datenschutzrechts eine so große Rolle wie Irland. Weil sich dort – vor allem aus steuerlichen Gründen – die EU-Hauptsitze internationaler Konzerne wie Meta, Microsoft, Google oder TikTok befinden, führt primär die irische Datenschutzbehörde die Aufsicht über diese Unternehmen. Und in der Vergangenheit stand sie im Ruf, dieser Verantwortung nicht immer gerecht geworden zu sein.
Nach einem Wechsel an der Spitze und der Ernennung von zwei neuen Leitern hatte die irische Datenschutzaufsichtsbehörde zuletzt aber einige bemerkenswerte Verfahren nach vielen Jahren zum Abschluss gebracht – und hierbei teils hohe Bußgelder verhängt.
Anders als in Deutschland, wo die Datenschutzbeauftragten von Bund und Ländern durch die Parlamente gewählt werden, wird das Leitungspersonal der DPC für jeweils fünf Jahre von der Regierung ernannt und soll dann unabhängig agieren. Ab 2026 wird die Behörde in Irland auch für Teile der Durchsetzung der europäischen KI-Verordnung eine Rolle spielen. Das Justizministerium in Dublin nennt die Berufung Sweeneys in Zusammenhang mit diesen weiteren Aufgaben.
„Kuss auf den Hintern von Big-Tech“
Für den europäischen Datenschutzaktivisten Max Schrems, der mit der DPC seit Jahren über Kreuz liegt und auch die Aufsichtsbehörde schon verklagt hatte, ist die Ernennung ein Unding. Sweeney habe für Meta unter anderem während des Cambridge Analytica-Skandals lobbyiert. Nachdem Irland 15 Jahre noch den Anschein gewahrt habe, Europarecht auch durchzusetzen, sei dieser Schritt nun der „Kuss auf das Hinterteil der US-Big-Tech-Konzerne“, spottet Schrems.
Während die Ernennung vor allem international für massive Irritation sorgt, hält sich einer der lautesten DPC-Kritiker in Irland derweil zurück. „Wir haben hohe Erwartungen an Sie“, formuliert Johnny Ryan vom Irish Council for Civil Liberties (ICCL) auf LinkedIn diplomatisch.
Auch jenseits der Kritik an Sweeneys Ernennung wird vor allem ein Aspekt in Zukunft eine Rolle spielen: Wie sich die europäischen Datenschutzaufsichtsbehörden bei ihren gemeinsamen Beschlüssen gegenüber den Vorlagen aus Dublin verhalten werden. In einigen Mitgliedstaaten wurden zuletzt ausgesprochen wirtschaftsnahe Datenschutzbeauftragte benannt – was sich auch in den verbindlichen Beschlüssen des Europäischen Datenschutzausschusses widerspiegelt, mit denen die Entscheidungen einzelner Aufsichtsbehörden überstimmt werden können. Das betraf in der Vergangenheit vor allem Irland – die DPC-Entscheidungen wurden mehrfach deutlich verschärft.
(mho)
Künstliche Intelligenz
Schüler meinen: Ein Handyverbot an Schulen muss dann auch für Lehrer gelten
Wenn wir an Schulen kein Handy benutzen dürfen, dann muss das auch für Lehrkräfte gelten, meinen Schülerinnen und Schüler in Baden-Württemberg – zumindest, wenn es um den Gebrauch für Privates geht. In die Debatte um ein mögliches Handyverbot an Schulen schaltet sich damit nun der Landesschülerbeirat aus Stuttgart ein und benennt Gründe, die gegen ein Verbot sprechen, und warum im Falle eines solchen Beschlusses dieser auch für Lehrkräfte gelten solle.
Es sei absurd, dass es nur um die Handys von Schülern ginge, negative Effekte ließen sich auch bei Erwachsenen nachweisen, heißt es weiter. Gründe, warum Lehrkräfte ihr Handy in der Schule privat nutzen dürfen, gäbe es nicht.
„Sich lieber an die eigene Nase fassen“
Oftmals liege es nämlich nicht an der missbräuchlichen Nutzung von Handys, sondern am schlechten Unterricht: „Wenn sich eine Lehrkraft aber allen Ernstes vor die Klasse stellt und dann 20 Arbeitsblätter mit Text austeilt und 90 Minuten lang einen Dialog hält, verursacht sie diese Probleme mit.“
Auch würden graue Schulhöfe aus Beton dazu motivieren, lieber zum Handy zu greifen. Alternativen zur Bewegung und anderen Aktivitäten fehlten komplett.
WLAN und Fußballtore
Neben attraktiveren Pausenhöfen mit Fußballtoren oder Tischtennisplatten, würde ein flächendeckendes WLAN helfen, den Zugang zu Lerninhalten zu vereinfachen, so schreiben die Schüler. Kostbare mobile Daten würden ansonsten beispielsweise für Spiele aufgespart. Anstatt den Schülern etwas zu geben, was das Schulleben erleichtert, drehe sich die Debatte zur Smartphonenutzung ausschließlich darum, ihnen etwas wegzunehmen.
Eine Diskussion müsse zwischen allen darin beteiligten Parteien auf Augenhöhe stattfinden, Nutzungsregeln für alle gelten.
(aki)
-
UX/UI & Webdesignvor 1 Monat
Der ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 3 Wochen
Adobe Firefly Boards › PAGE online
-
Social Mediavor 1 Monat
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
Entwicklung & Codevor 4 Wochen
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 Wochen
EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 3 Tagen
Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Digital Business & Startupsvor 3 Monaten
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
Digital Business & Startupsvor 3 Monaten
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier