Connect with us

Künstliche Intelligenz

Kurz erklärt: Das steckt hinter dem Modewort KI-Agenten


Während die Reasoning-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) total 2024 sind, betonen die Modellanbieter jetzt die agentische Natur ihrer Systeme. Gemeint ist damit, dass die Modelle komplexe Aufgaben autonom lösen und dazu selbstständig weitere LLMs oder andere Werkzeuge hinzuziehen. Das kann vom Browser und der Taschenrechner-App über die Dokumentenablage bis zur Entwicklungsumgebung reichen.

Ziel der autonomen agentischen LLMs ist laut Werbeversprechen, die bisherige Arbeitswelt umzukrempeln, die Digitalisierung der Wirtschaft und Verwaltung abzuschließen und schlussendlich Menschen bei vielen Tätigkeiten zu ersetzen – was Kosten einspart. Nicht nur bei öden, repetitiven Aufgaben – auch komplexe Geschäftsprozesse, Softwareentwicklung und Forschung sind das Ziel der Agenten. Während die Wirtschaft – vom KMU bis zum Megakonzern – damit einen Wachstumsschub erfahren soll, würden die Systeme Angestellten dann Zeit für andere Aufgaben geben, die bislang ständig hinten runterfallen. Unterm Strich soll die Technik alle noch effizienter machen und die Lücke der Fachkräfte füllen, erklären die Eltern des Gedanken.

Abstrakt annähern kann man die Fähigkeiten der agentischen LLMs am besten über einen Vergleich mit den Stufen des autonomen Fahrens (siehe Kasten). Werbung und Release Notes versprechen voll automatisierte KI-Systeme (Stufe 4). Glaubt man dem Hype, wird Artificial General Intelligence (AGI) spätestens mit GPT-5 den Menschen obsolet machen (Stufe 5). Erfahrungsberichte klingen eher nach einer Automatisierung zwischen den Stufen 2 und 3. Nutzer müssen jederzeit eingreifen können, wenn sich die Sprachmodelle verlaufen, oder die Modelle prompten bei bestimmten Entscheidungen die Nutzer und warten dann, bis die Menschen gutgläubig ihre Kreditkartendaten und Passwörter eingegeben haben.

Stufe 0: Manuelles Fahren.

Stufe 1: Assistiert. Fahrer führen die Lenkbewegungen aus, das Fahrzeugsystem erledigt Aktivitäten wie Bremsen, Blinken oder Beschleunigen.

Stufe 2: Teilautomatisiert. Ein Mensch muss das System dauerhaft überwachen und im Zweifelsfall eingreifen.

Stufe 3: Hoch automatisiert. Ein Mensch muss am Platz sein, aber das System nicht dauerhaft überwachen.

Stufe 4: Voll automatisiert. Das System kann in speziellen Situationen alle Fahranforderungen selbstständig bewältigen.

Wie es um die tatsächlichen Fähigkeiten der Sprachmodelle bestellt ist, läuft auf eine Glaubensfrage hinaus. Fans der Technik heben ihren Produktionszuwachs hervor, zeigen erfolgreiche Prototypen oder präsentieren in sozialen Netzwerken erstaunliche Ergebnisse von künstlicher Intelligenz. Auf der anderen Seite sehen die Kritiker LLMs als stochastische Sprachwürfelmaschinen, die sich in manchen Bereichen besser schlagen als in anderen, unterm Strich aber meist enttäuschen – es sei denn, man würfelt so lange, bis das Ergebnis vorzeigbar genug ist, wobei mit jedem Würfelwurf Kosten entstehen.

Strukturiertere Erkenntnisse bieten die gängigen Benchmarks für große Sprachmodelle (etwa GPQA, AIME, SWE-bench oder MMLU). Hier erstrecken sich die Testfelder über das Programmieren, Recherchieren und Fachwissen in den Naturwissenschaften. Geschlossene Modelle erreichen bei jedem Release neue Höchstwerte, offenere Modelle kommen an die proprietären Konkurrenten heran – der Spielraum ist in beiden Fällen zwei bis drei Prozentpunkte. Während die Benchmarks den LLMs grundsätzlich gute bis sehr gute allgemeine Fähigkeiten bescheinigen, sind die genauen Zahlen mit Vorsicht zu genießen. Seit einer Weile besteht der Verdacht, dass Anbieter ihre Modelle speziell auf die Tests trainieren, also Benchmaxing betreiben – bei keinem Flaggschiffmodell sind die Trainingsdaten bekannt. Dann gibt es noch die LMArena, in der Menschen bei Blindtests den Stil und die Qualität von Modellen bei beliebigen Prompts bewerten. Ein Leaderboard drückt das Ergebnis mit einer ELO aus. Auch hier haben Anbieter zuletzt mit besonders gefälligen Varianten getrickst, dennoch lassen sich hier Trends quantifiziert ablesen.

Für die Qualität der Modelle in Produktion gibt es bisher nur anekdotische Evidenz, kein Unternehmen rückt mit Messungen zum Effizienzzuwachs raus, für das Programmieren scheint das aktuell umstritten zu sein. Zwar kein guter Indikator für den deutschen Mittelstand, aber für die Lage in der Branche sind die aktuellen Quartalszahlen von Meta und Microsoft. Meta verdient sein Geld fast ausschließlich mit Werbung, Microsoft wächst besonders stark im Bereich Azure Cloud, in dem man auch die KI-Workloads verrechnet, schlüsselt das jedoch nicht genauer auf. Es ist anzunehmen, dass besonders Microsoft hohe Gewinne durch LLMs und andere KI-Produkte seiner Konkurrenz und den Aktionären unter die Nase reiben würde.

Derweil gibt es Techniken, die die Ausgabequalität oder den Nutzen der großen Sprachmodelle für den Unternehmenseinsatz steigern. Mit Retrieval Augmented Generation (RAG) nähert man die Sprachmodelle mit den eigenen Dokumenten an die richtige Problemdomäne an, was Halluzinationen reduzieren kann. Mit Agentenframeworks und zuletzt dem MCP gibt es Mittel, mit denen sich Sprachmodelle strukturiert miteinander oder mit allen denkbaren Werkzeugen verbinden lassen. Hier gibt man den Modellen jedoch eine Auswahl vor, sie können sich nicht autonom beliebige Werkzeuge aussuchen. Diese Konstrukte muss man in Produktion testen – hier gibt es zwar positive Erfahrungsberichte, aber keine Benchmarks oder Zahlen. Ob sich das Skalieren der Anwendungen dann rechnet, ist ebenfalls erst in Produktion ersichtlich.

Wer jetzt ein Agentic-AI-Produkt für den Unternehmenseinsatz kauft, wird höchstwahrscheinlich teilautomatisierte Abläufe bekommen; im besten Fall passt die Unternehmensstruktur und die Angestellten müssen die automatisierten Prozesse nur noch überwachen. Das muss dabei nicht immer mit LLMs zu tun haben. Auf dem Stand der Digitalisierung in Verwaltung und KMUs ist auch mit klassischen Mitteln noch viel zu holen. Sogar die Analysten bei Gartner, die selbst gerne Hypes pushen und verkaufen, warnen davor, dass von 1.000 geprüften Produkten für KI-Agenten nur 130 mehr als heiße Luft vorweisen konnten.

Ihre Stärken haben die großen Sprachmodelle bei der Textarbeit, der Dokumentensuche und dem Zusammenfassen von Inhalten. Während die reinen Sprachfähigkeiten der LLMs außer Frage stehen, bewegen sich sehr gute Ergebnisse beim Programmieren je nach Benchmark und Modell zwischen 30 und 90 Prozent, bei Recherche und Naturwissenschaften zwischen 50 und 85 Prozent. Natürlich erreicht nicht jeder Mensch dieselbe Bewertung bei diesen Aufgaben. Gerade bei exotischen Spezialfällen knicken die LLMs dann häufig ein – genau bei den Problemen, für die man Facharbeiter oder Domänenexperten beschäftigt.

LLMs enthalten eine gewaltige Bandbreite an Wissen zu den verschiedensten Themen – schließlich sind die Topmodelle der großen Anbieter mit allem digital verfügbaren Wissen der Menschheit trainiert und lassen sich danach abfragen. Offen ist jedoch: Erreichen LLMs mit dem ungenauen Werkzeug Sprache über eine statistische Annäherung am Ende ein eindeutiges Ergebnis? Reicht ein System, das überzeugend spricht, aber nur in der Hälfte oder drei Viertel der Fälle richtig liegt, für autonome Lösungsfindung? Oder bleiben diese Systeme wie die selbstfahrenden Pkws auf Stufe 3 der Autonomie stecken?


(pst)



Source link

Künstliche Intelligenz

Auf Festival erprobt: Toilettenkabine wird telemedizinische Versorgungsstation


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Beim diesjährigen Parookaville-Festival in Weeze diente eine umgebaute Toilettenkabine, ausgestattet mit moderner Medizintechnik, als telemedizinische Versorgungsstation. Die mobile Einheit wurde erstmals unter Realbedingungen erfolgreich getestet. Entwickelt wurde sie von der Uniklinik RWTH Aachen im Rahmen des vom Bundesforschungsministerium geförderten Projekts „Kabine“.

Mehr als 100 Festivalbesucher wurden mithilfe einer mit Kamera, EKG, digitalem Stethoskop, einem Fieberthermometer und weiteren Geräten ausgerüsteten Kabine medizinisch betreut – ohne ärztliches Personal vor Ort. Stattdessen führten Ärzte per Video durch die Untersuchungen. Die Patientendaten wurden in Echtzeit übertragen und ausgewertet, bei Bedarf konnte sogar ein Rezept ausgestellt werden.

Ziel des Kabine-Projekts ist es, die telemedizinische Station künftig in Krisen- und Katastrophengebieten einzusetzen – etwa nach Naturkatastrophen, wenn medizinische Infrastruktur fehlt. Die Kabine ist modular aufgebaut, energieautark durch Solarstrom und Satellitenanbindung und kann innerhalb von 24 bis 48 Stunden mobil betrieben werden. „Dank standardisierter Schnittstellen und intuitiver Bedienung können auch ungeschulte Helferinnen und Helfer sie in Betrieb nehmen und Patienten versorgen – mit ärztlicher Unterstützung aus der Ferne“, heißt es in der Pressemitteilung. Die Ergebnisse des Feldtests sollen nun in die Weiterentwicklung der Technologie und neue Pilotprojekte einfließen.

„Wir konnten zeigen, dass unsere Lösung auch bei Hitze, Stress und hoher Auslastung zuverlässig funktioniert“, erklärt Studienleiterin Anna Müller vom AcuteCare InnovationHub der Uniklinik Aachen. Die Patientenzufriedenheit sei hoch gewesen, technische Ausfälle habe es kaum gegeben. Die Kabine soll laut Projektbeschreibung in Zukunft auch mit einem Hubschrauber in Krisengebiete gefahren werden können. Der Transport von Medikamenten und Ähnlichem soll dann über Drohnen erfolgen.

Auf dem Münchner Oktoberfest wurde bereits 2022 ein Telenotarzt getestet. Im vergangenen Jahr setzte der gleiche Sanitätsdienst, die Aicher Ambulanz, für Untersuchungen auf der Wiesn ein mobiles CT ein – Patienten mit Auffälligkeiten wurden in umliegende Kliniken verlegt.


(mack)



Source link

Weiterlesen

Künstliche Intelligenz

„Pfizergate“: Die verschwundenen SMS der EU-Kommissionspräsidentin


Die New York Times hat zwar im Streit um die Herausgabe von SMS von EU-Kommissionspräsidentin Ursula von der Leyen vor dem Gericht der EU in Luxemburg Recht bekommen. In der Sache hat das der Zeitung und der Öffentlichkeit aber letztlich nichts gebracht: Die Kommission musste erneut über das Begehr der Times um Offenlegung des SMS-Austauschs zwischen von der Leyen und Albert Bourla, dem Chef des US-Pharmakonzerns Pfizer, zu milliardenschweren Lieferungen von Covid-19-Impfstoffen befinden. Doch die Brüsseler Regierungsinstitution mauert weiter und behauptet, zentrale Kurznachrichten seien längst gelöscht worden.

Die Kommission habe mit Schreiben vom 28. Juli mitgeteilt, die umstrittenen SMS könnten nicht mehr übermittelt werden, berichtet die New York Times. Nachdem der Journalist Alexander Fanta im Mai 2021 erstmals Zugang zu den Textnachrichten verlangt hatte, entschied von der Leyens Kabinettschef Björn Seibert demnach trotzdem, die SMS vom Handy der Kommissionspräsidentin nicht zu speichern. Seibert habe die Nachrichten im Sommer 2021 gelesen und sei zu dem Schluss gekommen, dass sie lediglich der Terminvereinbarung für Telefonate während der Corona-Pandemie dienten.

Aus diesem Grund seien die Mitteilungen nicht in einer Form archiviert worden, die eine spätere öffentliche Einsicht ermöglicht hätte, heißt es weiter. Laut der Auskunft seien die Nachrichten inzwischen gelöscht und nicht wiederherstellbar, da von der Leyens Smartphone mehrfach ausgetauscht und die Daten dabei nicht übertragen worden seien. Inhalte sollen im Vorfeld auf den älteren Geräten gelöscht und die Telefone dann recycelt worden sein. Die SMS seien so spätestens seit Juli 2023 nicht mehr vorhanden gewesen.

Schon zu diesem Zeitpunkt untermauerte die Kommission ihre Behauptung, auf Basis der europäischen Informationsfreiheitsregeln keine Einblicke in den SMS-Austausch gewähren zu können. Nach der Verordnung zur Akteneinsicht für EU-Gremien gebe es nur eine Pflicht, so die Argumentation damals, Dokumente aufzubewahren, „wenn sie wichtige Informationen enthalten, die nicht von kurzer Dauer sind“. Das gelte ferner, sobald Maßnahmen „seitens der Kommission oder einer ihrer Dienststellen“ erforderlich seien. Die erfragten SMS hätten diese Kriterien nicht erfüllt.

Bei dem Gerichtsstreit geht es um einen Deal zwischen der Kommission und dem Impfstoff-Hersteller Biontech/Pfizer aus dem Frühjahr 2021. Die Parteien einigten sich auf die Lieferung von bis zu 1,8 Milliarden Dosen Corona-Impfstoff, das Vertragsvolumen wurde damals auf 35 Milliarden Euro geschätzt. Wie die „New York Times“ berichtete, war der persönliche Kontakt zwischen von der Leyen und Pfizer-Chef Bourla für den Abschluss entscheidend. Dabei sollen sie auch per SMS kommuniziert haben.


(dahe)



Source link

Weiterlesen

Künstliche Intelligenz

Wie weit Elektroautos auf der Langstrecke kommen: 21 Modelle im Vergleich


In den vergangenen Jahren haben sich Elektroautos merklich weiterentwickelt. Batterien mit Kapazitäten von 90 kWh und mehr stecken bereits in Autos für rund 50.000 Euro. Beim Thema Laden überbieten sich die Hersteller mit immer neuen Rekorden – sei es die Ladeleistung oder die Ladezeit. An der Reichweitenangst deutscher Autokäufer hat all das nur wenig geändert. Ob die im Sommer 2025 immer noch begründet ist, zeigen wir beispielhaft anhand von 21 Elektroautos.

Wenn es um die Gründe geht, die gegen den Kauf eines Elektroautos sprechen, gehört der Punkt Reichweite zu den meistgenannten. In einer Befragung der Automobilwoche nannten 47 Prozent der Teilnehmer die geringe Reichweite als Argument gegen eine Kaufentscheidung. Im DAT Report 2025 führten 41 Prozent diesen Punkt als wichtigsten an. Schließlich verfügt ein Privathaushalt in Deutschland im Schnitt über nur einen Pkw, ein seit Jahren beinahe konstanter Wert. Entsprechend ist davon auszugehen, dass das zumeist einzige Auto möglichst viele Aufgaben erfüllen soll – wozu auch längere Fahrten auf der Autobahn gehören.

  • Eine Batterie mit hoher Kapazität ist kein Garant für hohe Reichweiten. Motor und Fahrzeugform haben ebenfalls einen großen Einfluss.
  • Immer mehr Elektroautos werden für weniger als 30.000 Euro angeboten. Die Einschränkung: Die Batterie ist das mit Abstand teuerste Bauteil, entsprechend gering fallen die Kapazitäten und damit die Reichweiten aus.
  • Hohe Reichweiten können auf der Autobahn beim Geldsparen helfen.

Alle Vergleichskandidaten stammen aus mindestens einer von sieben Gruppen. Dabei handelt es sich um Fahrzeuge bis 30.000 und 45.000 Euro, mit kleinen sowie überdurchschnittlich großen Batterien, hohen Gleichstrom-Ladeleistungen, sowie um die am häufigsten in Deutschland zugelassenen Elektroautos. Die Preisspanne reicht von knapp 17.000 Euro bis etwa 106.000 Euro, die Batteriekapazität von netto 26,8 kWh bis 118 kWh. Beispielhaft seien BYD Dolphin Surf, Mercedes-Benz CLA, Smart #5, Tesla Model Y und VW ID.7 genannt. Für die Berechnungen haben wir die offiziellen Herstellerangaben zu Energieverbrauch, Batteriekapazität. Ladeleistung und -zeit verwendet. Das bedeutet: Alle Werte beziehen sich auf sehr gute bis optimale Bedingungen. Sofern nicht anders angegeben, handelt es sich bei den Fahrzeugen um die Basisausstattung der jeweiligen Ausstattungslinie.


Das war die Leseprobe unseres heise-Plus-Artikels „Wie weit Elektroautos auf der Langstrecke kommen: 21 Modelle im Vergleich“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt