Künstliche Intelligenz
Kurz erklärt: Das steckt hinter dem Modewort KI-Agenten
Während die Reasoning-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) total 2024 sind, betonen die Modellanbieter jetzt die agentische Natur ihrer Systeme. Gemeint ist damit, dass die Modelle komplexe Aufgaben autonom lösen und dazu selbstständig weitere LLMs oder andere Werkzeuge hinzuziehen. Das kann vom Browser und der Taschenrechner-App über die Dokumentenablage bis zur Entwicklungsumgebung reichen.
Ziel der autonomen agentischen LLMs ist laut Werbeversprechen, die bisherige Arbeitswelt umzukrempeln, die Digitalisierung der Wirtschaft und Verwaltung abzuschließen und schlussendlich Menschen bei vielen Tätigkeiten zu ersetzen – was Kosten einspart. Nicht nur bei öden, repetitiven Aufgaben – auch komplexe Geschäftsprozesse, Softwareentwicklung und Forschung sind das Ziel der Agenten. Während die Wirtschaft – vom KMU bis zum Megakonzern – damit einen Wachstumsschub erfahren soll, würden die Systeme Angestellten dann Zeit für andere Aufgaben geben, die bislang ständig hinten runterfallen. Unterm Strich soll die Technik alle noch effizienter machen und die Lücke der Fachkräfte füllen, erklären die Eltern des Gedanken.
Orientierungshilfe: Stufen des autonomen Fahrens
Abstrakt annähern kann man die Fähigkeiten der agentischen LLMs am besten über einen Vergleich mit den Stufen des autonomen Fahrens (siehe Kasten). Werbung und Release Notes versprechen voll automatisierte KI-Systeme (Stufe 4). Glaubt man dem Hype, wird Artificial General Intelligence (AGI) spätestens mit GPT-5 den Menschen obsolet machen (Stufe 5). Erfahrungsberichte klingen eher nach einer Automatisierung zwischen den Stufen 2 und 3. Nutzer müssen jederzeit eingreifen können, wenn sich die Sprachmodelle verlaufen, oder die Modelle prompten bei bestimmten Entscheidungen die Nutzer und warten dann, bis die Menschen gutgläubig ihre Kreditkartendaten und Passwörter eingegeben haben.
Stufe 0: Manuelles Fahren.
Stufe 1: Assistiert. Fahrer führen die Lenkbewegungen aus, das Fahrzeugsystem erledigt Aktivitäten wie Bremsen, Blinken oder Beschleunigen.
Stufe 2: Teilautomatisiert. Ein Mensch muss das System dauerhaft überwachen und im Zweifelsfall eingreifen.
Stufe 3: Hoch automatisiert. Ein Mensch muss am Platz sein, aber das System nicht dauerhaft überwachen.
Stufe 4: Voll automatisiert. Das System kann in speziellen Situationen alle Fahranforderungen selbstständig bewältigen.
Wie es um die tatsächlichen Fähigkeiten der Sprachmodelle bestellt ist, läuft auf eine Glaubensfrage hinaus. Fans der Technik heben ihren Produktionszuwachs hervor, zeigen erfolgreiche Prototypen oder präsentieren in sozialen Netzwerken erstaunliche Ergebnisse von künstlicher Intelligenz. Auf der anderen Seite sehen die Kritiker LLMs als stochastische Sprachwürfelmaschinen, die sich in manchen Bereichen besser schlagen als in anderen, unterm Strich aber meist enttäuschen – es sei denn, man würfelt so lange, bis das Ergebnis vorzeigbar genug ist, wobei mit jedem Würfelwurf Kosten entstehen.
Qualität meist anekdotisch erwiesen, statt gemessen
Strukturiertere Erkenntnisse bieten die gängigen Benchmarks für große Sprachmodelle (etwa GPQA, AIME, SWE-bench oder MMLU). Hier erstrecken sich die Testfelder über das Programmieren, Recherchieren und Fachwissen in den Naturwissenschaften. Geschlossene Modelle erreichen bei jedem Release neue Höchstwerte, offenere Modelle kommen an die proprietären Konkurrenten heran – der Spielraum ist in beiden Fällen zwei bis drei Prozentpunkte. Während die Benchmarks den LLMs grundsätzlich gute bis sehr gute allgemeine Fähigkeiten bescheinigen, sind die genauen Zahlen mit Vorsicht zu genießen. Seit einer Weile besteht der Verdacht, dass Anbieter ihre Modelle speziell auf die Tests trainieren, also Benchmaxing betreiben – bei keinem Flaggschiffmodell sind die Trainingsdaten bekannt. Dann gibt es noch die LMArena, in der Menschen bei Blindtests den Stil und die Qualität von Modellen bei beliebigen Prompts bewerten. Ein Leaderboard drückt das Ergebnis mit einer ELO aus. Auch hier haben Anbieter zuletzt mit besonders gefälligen Varianten getrickst, dennoch lassen sich hier Trends quantifiziert ablesen.
Für die Qualität der Modelle in Produktion gibt es bisher nur anekdotische Evidenz, kein Unternehmen rückt mit Messungen zum Effizienzzuwachs raus, für das Programmieren scheint das aktuell umstritten zu sein. Zwar kein guter Indikator für den deutschen Mittelstand, aber für die Lage in der Branche sind die aktuellen Quartalszahlen von Meta und Microsoft. Meta verdient sein Geld fast ausschließlich mit Werbung, Microsoft wächst besonders stark im Bereich Azure Cloud, in dem man auch die KI-Workloads verrechnet, schlüsselt das jedoch nicht genauer auf. Es ist anzunehmen, dass besonders Microsoft hohe Gewinne durch LLMs und andere KI-Produkte seiner Konkurrenz und den Aktionären unter die Nase reiben würde.
Wer jetzt kauft, kriegt teilautomatisierte Workflows
Derweil gibt es Techniken, die die Ausgabequalität oder den Nutzen der großen Sprachmodelle für den Unternehmenseinsatz steigern. Mit Retrieval Augmented Generation (RAG) nähert man die Sprachmodelle mit den eigenen Dokumenten an die richtige Problemdomäne an, was Halluzinationen reduzieren kann. Mit Agentenframeworks und zuletzt dem MCP gibt es Mittel, mit denen sich Sprachmodelle strukturiert miteinander oder mit allen denkbaren Werkzeugen verbinden lassen. Hier gibt man den Modellen jedoch eine Auswahl vor, sie können sich nicht autonom beliebige Werkzeuge aussuchen. Diese Konstrukte muss man in Produktion testen – hier gibt es zwar positive Erfahrungsberichte, aber keine Benchmarks oder Zahlen. Ob sich das Skalieren der Anwendungen dann rechnet, ist ebenfalls erst in Produktion ersichtlich.
Wer jetzt ein Agentic-AI-Produkt für den Unternehmenseinsatz kauft, wird höchstwahrscheinlich teilautomatisierte Abläufe bekommen; im besten Fall passt die Unternehmensstruktur und die Angestellten müssen die automatisierten Prozesse nur noch überwachen. Das muss dabei nicht immer mit LLMs zu tun haben. Auf dem Stand der Digitalisierung in Verwaltung und KMUs ist auch mit klassischen Mitteln noch viel zu holen. Sogar die Analysten bei Gartner, die selbst gerne Hypes pushen und verkaufen, warnen davor, dass von 1.000 geprüften Produkten für KI-Agenten nur 130 mehr als heiße Luft vorweisen konnten.
Fazit
Ihre Stärken haben die großen Sprachmodelle bei der Textarbeit, der Dokumentensuche und dem Zusammenfassen von Inhalten. Während die reinen Sprachfähigkeiten der LLMs außer Frage stehen, bewegen sich sehr gute Ergebnisse beim Programmieren je nach Benchmark und Modell zwischen 30 und 90 Prozent, bei Recherche und Naturwissenschaften zwischen 50 und 85 Prozent. Natürlich erreicht nicht jeder Mensch dieselbe Bewertung bei diesen Aufgaben. Gerade bei exotischen Spezialfällen knicken die LLMs dann häufig ein – genau bei den Problemen, für die man Facharbeiter oder Domänenexperten beschäftigt.
LLMs enthalten eine gewaltige Bandbreite an Wissen zu den verschiedensten Themen – schließlich sind die Topmodelle der großen Anbieter mit allem digital verfügbaren Wissen der Menschheit trainiert und lassen sich danach abfragen. Offen ist jedoch: Erreichen LLMs mit dem ungenauen Werkzeug Sprache über eine statistische Annäherung am Ende ein eindeutiges Ergebnis? Reicht ein System, das überzeugend spricht, aber nur in der Hälfte oder drei Viertel der Fälle richtig liegt, für autonome Lösungsfindung? Oder bleiben diese Systeme wie die selbstfahrenden Pkws auf Stufe 3 der Autonomie stecken?
(pst)
Künstliche Intelligenz
Wie weit Elektroautos auf der Langstrecke kommen: 21 Modelle im Vergleich
In den vergangenen Jahren haben sich Elektroautos merklich weiterentwickelt. Batterien mit Kapazitäten von 90 kWh und mehr stecken bereits in Autos für rund 50.000 Euro. Beim Thema Laden überbieten sich die Hersteller mit immer neuen Rekorden – sei es die Ladeleistung oder die Ladezeit. An der Reichweitenangst deutscher Autokäufer hat all das nur wenig geändert. Ob die im Sommer 2025 immer noch begründet ist, zeigen wir beispielhaft anhand von 21 Elektroautos.
Wenn es um die Gründe geht, die gegen den Kauf eines Elektroautos sprechen, gehört der Punkt Reichweite zu den meistgenannten. In einer Befragung der Automobilwoche nannten 47 Prozent der Teilnehmer die geringe Reichweite als Argument gegen eine Kaufentscheidung. Im DAT Report 2025 führten 41 Prozent diesen Punkt als wichtigsten an. Schließlich verfügt ein Privathaushalt in Deutschland im Schnitt über nur einen Pkw, ein seit Jahren beinahe konstanter Wert. Entsprechend ist davon auszugehen, dass das zumeist einzige Auto möglichst viele Aufgaben erfüllen soll – wozu auch längere Fahrten auf der Autobahn gehören.
- Eine Batterie mit hoher Kapazität ist kein Garant für hohe Reichweiten. Motor und Fahrzeugform haben ebenfalls einen großen Einfluss.
- Immer mehr Elektroautos werden für weniger als 30.000 Euro angeboten. Die Einschränkung: Die Batterie ist das mit Abstand teuerste Bauteil, entsprechend gering fallen die Kapazitäten und damit die Reichweiten aus.
- Hohe Reichweiten können auf der Autobahn beim Geldsparen helfen.
Alle Vergleichskandidaten stammen aus mindestens einer von sieben Gruppen. Dabei handelt es sich um Fahrzeuge bis 30.000 und 45.000 Euro, mit kleinen sowie überdurchschnittlich großen Batterien, hohen Gleichstrom-Ladeleistungen, sowie um die am häufigsten in Deutschland zugelassenen Elektroautos. Die Preisspanne reicht von knapp 17.000 Euro bis etwa 106.000 Euro, die Batteriekapazität von netto 26,8 kWh bis 118 kWh. Beispielhaft seien BYD Dolphin Surf, Mercedes-Benz CLA, Smart #5, Tesla Model Y und VW ID.7 genannt. Für die Berechnungen haben wir die offiziellen Herstellerangaben zu Energieverbrauch, Batteriekapazität. Ladeleistung und -zeit verwendet. Das bedeutet: Alle Werte beziehen sich auf sehr gute bis optimale Bedingungen. Sofern nicht anders angegeben, handelt es sich bei den Fahrzeugen um die Basisausstattung der jeweiligen Ausstattungslinie.
Das war die Leseprobe unseres heise-Plus-Artikels „Wie weit Elektroautos auf der Langstrecke kommen: 21 Modelle im Vergleich“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Künstliche Intelligenz
EU stimmt Ausbau von Autobahn 643 aus Gründen des Umweltschutzes nicht zu
Die EU-Kommission hat mitgeteilt, dass sie derzeit dem Ausbau der A643 zwischen der Anschlussstelle Mainz-Gonsenheim und der Anschlussstelle Mainz-Mombach nicht zustimmen kann. Das geht aus einem Schreiben der Kommission hervor, das die Stadt Mainz veröffentlicht hat.
In dem Schreiben heißt es, vorgeschlagene Ausgleichsmaßnahmen seien unzureichend und würden den Flächenverlust im FFH-Gebiet nicht kompensieren. Auch seien Alternativen nicht ausreichend untersucht worden. FFH ist die Abkürzung für Fauna-Flora-Habitat und beschreibt Natur- und Landschaftsschutzgebiete.
Der Ausbau führt nach früheren Angaben der Stadt Mainz durch ein Naturschutzgebiet, das sowohl FFH-Gebiet als auch EU-Vogelschutzgebiet ist. Gegen die Erweiterung der A643 um zwei zusätzliche Fahrspuren durch das Naturschutzgebiet Mainzer Sand gab es immer wieder Protest. Die Stadt Mainz lehnt den geplanten Ausbau deutlich ab.
„Einzigartiges Schutzgebiet“
„Ich bin sehr glücklich darüber, dass die EU den Plänen zum sechsspurigen Ausbau der A 643 in der vorgelegten Form nicht zustimmen kann“, sagte Janina Steinkrüger, Umwelt- und Verkehrsdezernentin der Landeshauptstadt Mainz, laut Mitteilung. „Der Mainzer Sand ist ein einzigartiges Schutzgebiet, dessen großer ökologischer Wert durch die Bewertung der EU erneut untermauert und bestätigt wird.“
Die EU schlage in ihrem Schreiben vor, dass die zuständigen Stellen miteinander in Kontakt treten, sagte sie. „Ich begrüße diesen Vorschlag ausdrücklich und möchte den aus Rheinland-Pfalz stammenden Bundesverkehrsminister ermuntern, solche Gespräche zu initiieren.“
Mehr zu Verkehrspolitik
(fpi)
Künstliche Intelligenz
Langsame KI-Umsetzung bei Apple: Firmenspitze setzt bei intern auf Beruhigung
Einen internen „Pep Talk“ von einer Stunde Dauer sollen Apple-Chef Tim Cook und Teile des Apple-Managementteams in der vergangenen Woche nach Bekanntgabe der offiziellen Quartalszahlen für März bis Juni 2025 abgehalten haben. Laut einem Bloomberg-Bericht versuchte das Unternehmen bei dem All-Hands-Treffen gute Stimmung zu verbreiten, was die bislang scheinbar gescheiterte KI-Strategie betrifft. Cook schloss damit an Aussagen an, die er kurz zuvor vor Journalisten und Analysten gemacht hatte. So betonte er gegenüber der Wall Street, Apple sei „sehr offen“ auch für milliardenschwere Übernahmen, denn es gehe um eine der „tiefgreifendsten Technologien unserer Zeit“.
KI wichtiger als das Internet und die Cloud
Vor versammelter Mitarbeiterschaft sagte Cook, man habe eine „unglaubliche“ Produktpipeline in Vorbereitung. Die KI-Revolution sei „so groß oder sogar größer“ als das Internet, Smartphones, Cloud-Computing und das App-Geschäft. „Apple muss das machen. Apple wird das machen. Das ist etwas, das wir uns nehmen können“, sagte Cook. Dazu werde es die notwendigen Investitionen geben.
Der Apple-Chef erinnerte daran, dass Apple typischerweise später mit spannenden neuen Technologien dran sei. „Wir waren selten die Ersten“, sagte er mit optimistischem Ton. So habe es einen PC vor dem Mac gegeben, ein Smartphone vor dem iPhone, viele Tablets vor dem iPad und MP3-Spieler vor dem iPod. Apple habe jeweils die „modernen“ Versionen dieser Produktkategorien geschaffen. „So fühle ich mich auch bei KI.“
Siri ein „viel größeres Upgrade“?
Cook sprach bei dem All-Hands-Treffen auch über den Abschied von COO Jeff Williams, der als rechte Hand Cooks gilt, Fortschritte im Bereich der Gesundheitsprodukte (etwa AirPods Pro als Hörhilfe) oder die steigenden Zuseherzahlen beim milliardenteuren Apple TV+. Cook erwähnte Apples Ziel, bis 2030 in der gesamten Lieferkette „klimaneutral“ zu werden und zählte die Schwierigkeiten im Zusammenhang mit regulatorischen Maßnahmen gegen „Big Tech“ auf. Diese „Dinge“ könnten dafür sorgen, dass die Nutzererfahrung „zerstört“ werde und Privatsphäre und Sicherheit litten. Das All-Hands-Meeting wurde von Apples Steve-Jobs-Theater aus durchgeführt, das einst als Keynote-Veranstaltungsort diente. Cook zufolge hat Apple im letzten Jahr 12.000 neue Mitarbeiter eingestellt, 40 Prozent dabei aus den Bereichen Forschung und Entwicklung.
Vor Ort bei dem Treffen war auch Softwarechef Craig Federighi. Ihm zufolge gebe es bei einem „End-to-End-Revamp“ der Sprachassistentin Siri „die Ergebnisse, die wir gebraucht haben“. Das System werde ein „viel größeres Upgrade“ liefern als bislang angedacht. Kein Projekt werde ernster genommen. Die neue Siri soll allerdings erst kommendes Jahr erscheinen. Cook wiederum betonte, dass die Mitarbeiter KI schneller und häufiger in ihre Arbeit und neue Produkte einfließen lassen sollen. „Wenn wir das nicht tun, werden wir zurückfallen und das können wir nicht tun.“
(bsc)
-
Datenschutz & Sicherheitvor 2 Monaten
Geschichten aus dem DSC-Beirat: Einreisebeschränkungen und Zugriffsschranken
-
Online Marketing & SEOvor 2 Monaten
TikTok trackt CO₂ von Ads – und Mitarbeitende intern mit Ratings
-
Apps & Mobile Entwicklungvor 2 Monaten
Metal Gear Solid Δ: Snake Eater: Ein Multiplayer-Modus für Fans von Versteckenspielen
-
Digital Business & Startupsvor 1 Monat
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
UX/UI & Webdesignvor 2 Monaten
Philip Bürli › PAGE online
-
Digital Business & Startupsvor 1 Monat
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier
-
Apps & Mobile Entwicklungvor 1 Monat
Patentstreit: Western Digital muss 1 US-Dollar Schadenersatz zahlen
-
Social Mediavor 2 Monaten
LinkedIn Feature-Update 2025: Aktuelle Neuigkeiten