Künstliche Intelligenz
Kurz erklärt: Das steckt hinter dem Modewort KI-Agenten
Während die Reasoning-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) total 2024 sind, betonen die Modellanbieter jetzt die agentische Natur ihrer Systeme. Gemeint ist damit, dass die Modelle komplexe Aufgaben autonom lösen und dazu selbstständig weitere LLMs oder andere Werkzeuge hinzuziehen. Das kann vom Browser und der Taschenrechner-App über die Dokumentenablage bis zur Entwicklungsumgebung reichen.
Ziel der autonomen agentischen LLMs ist laut Werbeversprechen, die bisherige Arbeitswelt umzukrempeln, die Digitalisierung der Wirtschaft und Verwaltung abzuschließen und schlussendlich Menschen bei vielen Tätigkeiten zu ersetzen – was Kosten einspart. Nicht nur bei öden, repetitiven Aufgaben – auch komplexe Geschäftsprozesse, Softwareentwicklung und Forschung sind das Ziel der Agenten. Während die Wirtschaft – vom KMU bis zum Megakonzern – damit einen Wachstumsschub erfahren soll, würden die Systeme Angestellten dann Zeit für andere Aufgaben geben, die bislang ständig hinten runterfallen. Unterm Strich soll die Technik alle noch effizienter machen und die Lücke der Fachkräfte füllen, erklären die Eltern des Gedanken.
Orientierungshilfe: Stufen des autonomen Fahrens
Abstrakt annähern kann man die Fähigkeiten der agentischen LLMs am besten über einen Vergleich mit den Stufen des autonomen Fahrens (siehe Kasten). Werbung und Release Notes versprechen voll automatisierte KI-Systeme (Stufe 4). Glaubt man dem Hype, wird Artificial General Intelligence (AGI) spätestens mit GPT-5 den Menschen obsolet machen (Stufe 5). Erfahrungsberichte klingen eher nach einer Automatisierung zwischen den Stufen 2 und 3. Nutzer müssen jederzeit eingreifen können, wenn sich die Sprachmodelle verlaufen, oder die Modelle prompten bei bestimmten Entscheidungen die Nutzer und warten dann, bis die Menschen gutgläubig ihre Kreditkartendaten und Passwörter eingegeben haben.
Stufe 0: Manuelles Fahren.
Stufe 1: Assistiert. Fahrer führen die Lenkbewegungen aus, das Fahrzeugsystem erledigt Aktivitäten wie Bremsen, Blinken oder Beschleunigen.
Stufe 2: Teilautomatisiert. Ein Mensch muss das System dauerhaft überwachen und im Zweifelsfall eingreifen.
Stufe 3: Hoch automatisiert. Ein Mensch muss am Platz sein, aber das System nicht dauerhaft überwachen.
Stufe 4: Voll automatisiert. Das System kann in speziellen Situationen alle Fahranforderungen selbstständig bewältigen.
Wie es um die tatsächlichen Fähigkeiten der Sprachmodelle bestellt ist, läuft auf eine Glaubensfrage hinaus. Fans der Technik heben ihren Produktionszuwachs hervor, zeigen erfolgreiche Prototypen oder präsentieren in sozialen Netzwerken erstaunliche Ergebnisse von künstlicher Intelligenz. Auf der anderen Seite sehen die Kritiker LLMs als stochastische Sprachwürfelmaschinen, die sich in manchen Bereichen besser schlagen als in anderen, unterm Strich aber meist enttäuschen – es sei denn, man würfelt so lange, bis das Ergebnis vorzeigbar genug ist, wobei mit jedem Würfelwurf Kosten entstehen.
Qualität meist anekdotisch erwiesen, statt gemessen
Strukturiertere Erkenntnisse bieten die gängigen Benchmarks für große Sprachmodelle (etwa GPQA, AIME, SWE-bench oder MMLU). Hier erstrecken sich die Testfelder über das Programmieren, Recherchieren und Fachwissen in den Naturwissenschaften. Geschlossene Modelle erreichen bei jedem Release neue Höchstwerte, offenere Modelle kommen an die proprietären Konkurrenten heran – der Spielraum ist in beiden Fällen zwei bis drei Prozentpunkte. Während die Benchmarks den LLMs grundsätzlich gute bis sehr gute allgemeine Fähigkeiten bescheinigen, sind die genauen Zahlen mit Vorsicht zu genießen. Seit einer Weile besteht der Verdacht, dass Anbieter ihre Modelle speziell auf die Tests trainieren, also Benchmaxing betreiben – bei keinem Flaggschiffmodell sind die Trainingsdaten bekannt. Dann gibt es noch die LMArena, in der Menschen bei Blindtests den Stil und die Qualität von Modellen bei beliebigen Prompts bewerten. Ein Leaderboard drückt das Ergebnis mit einer ELO aus. Auch hier haben Anbieter zuletzt mit besonders gefälligen Varianten getrickst, dennoch lassen sich hier Trends quantifiziert ablesen.
Für die Qualität der Modelle in Produktion gibt es bisher nur anekdotische Evidenz, kein Unternehmen rückt mit Messungen zum Effizienzzuwachs raus, für das Programmieren scheint das aktuell umstritten zu sein. Zwar kein guter Indikator für den deutschen Mittelstand, aber für die Lage in der Branche sind die aktuellen Quartalszahlen von Meta und Microsoft. Meta verdient sein Geld fast ausschließlich mit Werbung, Microsoft wächst besonders stark im Bereich Azure Cloud, in dem man auch die KI-Workloads verrechnet, schlüsselt das jedoch nicht genauer auf. Es ist anzunehmen, dass besonders Microsoft hohe Gewinne durch LLMs und andere KI-Produkte seiner Konkurrenz und den Aktionären unter die Nase reiben würde.
Wer jetzt kauft, kriegt teilautomatisierte Workflows
Derweil gibt es Techniken, die die Ausgabequalität oder den Nutzen der großen Sprachmodelle für den Unternehmenseinsatz steigern. Mit Retrieval Augmented Generation (RAG) nähert man die Sprachmodelle mit den eigenen Dokumenten an die richtige Problemdomäne an, was Halluzinationen reduzieren kann. Mit Agentenframeworks und zuletzt dem MCP gibt es Mittel, mit denen sich Sprachmodelle strukturiert miteinander oder mit allen denkbaren Werkzeugen verbinden lassen. Hier gibt man den Modellen jedoch eine Auswahl vor, sie können sich nicht autonom beliebige Werkzeuge aussuchen. Diese Konstrukte muss man in Produktion testen – hier gibt es zwar positive Erfahrungsberichte, aber keine Benchmarks oder Zahlen. Ob sich das Skalieren der Anwendungen dann rechnet, ist ebenfalls erst in Produktion ersichtlich.
Wer jetzt ein Agentic-AI-Produkt für den Unternehmenseinsatz kauft, wird höchstwahrscheinlich teilautomatisierte Abläufe bekommen; im besten Fall passt die Unternehmensstruktur und die Angestellten müssen die automatisierten Prozesse nur noch überwachen. Das muss dabei nicht immer mit LLMs zu tun haben. Auf dem Stand der Digitalisierung in Verwaltung und KMUs ist auch mit klassischen Mitteln noch viel zu holen. Sogar die Analysten bei Gartner, die selbst gerne Hypes pushen und verkaufen, warnen davor, dass von 1.000 geprüften Produkten für KI-Agenten nur 130 mehr als heiße Luft vorweisen konnten.
Fazit
Ihre Stärken haben die großen Sprachmodelle bei der Textarbeit, der Dokumentensuche und dem Zusammenfassen von Inhalten. Während die reinen Sprachfähigkeiten der LLMs außer Frage stehen, bewegen sich sehr gute Ergebnisse beim Programmieren je nach Benchmark und Modell zwischen 30 und 90 Prozent, bei Recherche und Naturwissenschaften zwischen 50 und 85 Prozent. Natürlich erreicht nicht jeder Mensch dieselbe Bewertung bei diesen Aufgaben. Gerade bei exotischen Spezialfällen knicken die LLMs dann häufig ein – genau bei den Problemen, für die man Facharbeiter oder Domänenexperten beschäftigt.
LLMs enthalten eine gewaltige Bandbreite an Wissen zu den verschiedensten Themen – schließlich sind die Topmodelle der großen Anbieter mit allem digital verfügbaren Wissen der Menschheit trainiert und lassen sich danach abfragen. Offen ist jedoch: Erreichen LLMs mit dem ungenauen Werkzeug Sprache über eine statistische Annäherung am Ende ein eindeutiges Ergebnis? Reicht ein System, das überzeugend spricht, aber nur in der Hälfte oder drei Viertel der Fälle richtig liegt, für autonome Lösungsfindung? Oder bleiben diese Systeme wie die selbstfahrenden Pkws auf Stufe 3 der Autonomie stecken?
(pst)
Künstliche Intelligenz
USB-Display für 6 Euro zeigt PC-Daten an
Das WeAct Studio Display FS ist nur so klein wie ein gängiger USB-Stick und zeigt an einem USB-Port allerlei Systemdaten an. Das 0,96 Zoll kleine LC-Display stellt 160 × 80 Pixel dar und kostet keine 6 Euro.
Nutzer können sich etwa die Hardware-Auslastung, Temperaturen und Netzwerkauslastung anzeigen lassen. Der Bildschirm benötigt lediglich eine USB-2.0-Verbindung für die Stromversorgung und um die Systemdaten abzufragen. Entdeckt hat es CNX Software auf der chinesischen Handelsplattform Aliexpress – in den 6 Euro sind Versand und Steuern bereits enthalten.
Übersicht zu den Funktionen des WeAct Studio Display FS. Die Grafik links zeigt, wie der Bildschirminhalt aussehen könnte.
(Bild: WeAct Studio)
WeAct Studio bietet eine eigene „System Monitor“-Software zur Ansteuerung des Displays an. Laut Shopseite unterstützt das Display ausschließlich Windows-Betriebssysteme, allerdings basiert der WeAct Studio System Monitor auf dem quelloffenen Python-Projekt Turing Smart Screen, das auch unter Linux und macOS läuft. Bastelwillige sollten das Display also auch dort zum Laufen bekommen.
Alternativ gibt es die WeAct Studio Screen Projection, mit dem Nutzer etwa ein Logo auf dem Bildschirm anzeigen lassen können. In Anbetracht der Auflösung und Größe sollten Interessierte hier allerdings keine visuelle Offenbarung erwarten.
Achtung vor Kurzschlüssen
WeAct Studio hält sich nicht 100-prozentig an die USB-Spezifikationen: Das Anschlussgehäuse um die USB-Kontakte fehlt, damit Nutzer das Display in die gewünschte Richtung einstecken können. Um einen Kurzschluss zu verhindern, müssen Nutzer ein selbstklebendes Pad auf einer Seite anbringen.
Wer es etwas größer mag, bekommt alternativ ein 3,5-Zoll-Display mit der gleichen Funktionalität von WeAct. Das wird nicht direkt an einen USB-Port angesteckt, sondern per Kabel verbunden. Inklusive Versand und Steuern kostet der Bildschirm aktuell knapp 15 Euro.
(mma)
Künstliche Intelligenz
Deepseek-R1: KI-Training hat sogar weniger als 300.000 US-Dollar gekostet
Das Training des Reasoning-Modells R1 des chinesischen KI-Unternehmens Deepseek hat nur 294.000 US-Dollar gekostet und erfolgte auf 512 H800-Chips von Nvidia. Diese Kosten, die noch einmal deutlich unter den bisherigen Schätzungen liegen, stehen in einem unabhängig überprüften Forschungsartikel zur Erschaffung der KI-Technik, der jetzt im Fachmagazin Nature erschienen ist. Der dürfte die Debatten um die immensen Kosten für das KI-Training bei der US-Konkurrenz noch einmal neu entfachen. Als Deepseek R1 und ein weiteres KI-Modell Anfang des Jahres veröffentlichte, hat dessen Konkurrenzfähigkeit für Krisentreffen bei der Konkurrenz und einen Absturz des Aktienkurses von Nvidia gesorgt.
Längst ein Vorbild für die Konkurrenz
Ein erster Fachartikel zum Training von Deepseek-R1 im Januar hat die Zahlen zu den Kosten und der eingesetzten Hardware noch nicht enthalten. Die hat das Unternehmen nun im Rahmen einer Peer Review nachgereicht, die von Nature durchgeführt wurde. Das Forschungsmagazin wirbt nun bei anderen KI-Unternehmen dafür, ihre KI-Systeme und die Entwicklung in gleicher Weise unabhängig überprüfen zu lassen. In dem jetzt veröffentlichten Artikel zu Deepseek-R1 werde deutlich, wie das chinesische Unternehmen ein automatisiertes Ausprobieren („trial and error“) eingeführt habe. Dadurch sei die Technik belohnt worden, wenn sie korrekte Antworten ermittelt. Mit dieser Innovation habe Deepseek alle anderen KI-Firmen inspiriert, heißt es bei Nature.
Die Modelle von Deepseek haben im Januar deshalb zu einem Kursrutsch bei den Aktien aller KI-Firmen gesorgt, weil sie viel kostengünstiger waren und viel effizienter funktionierten als die Konkurrenz. Deshalb gab es Zweifel, ob die teils hunderte Milliarden US-Dollar teure Infrastruktur, die vor allem von US-Firmen derzeit aufgebaut wird, für die KI-Branche überhaupt notwendig ist. Die Aufregung hat sich längst gelegt und die Aktienkurse steigen immer weiter. Laut Nature hat Deepseek nun auch publik gemacht, dass die KI-Technik, die R1 zugrunde liegt, insgesamt sechs Millionen US-Dollar gekostet hat. Auch zusammen liegen die Ausgaben für das zumindest damals konkurrenzfähige KI-Modell damit weit unter denen von OpenAI & Co.
(mho)
Künstliche Intelligenz
Kulturstaatsminister Weimer: Google sollte zerschlagen werden
Kulturstaatsminister Wolfram Weimer (parteilos) will weiter gegen Big Tech vorgehen und nimmt einen US-Konzern in den Fokus: „Am besten wäre es, wenn Google zerschlagen würde“, erklärte der Verleger gegenüber dem Newsletter-Dienst Politico Industrie & Handel. Der Suchmaschinen- und Cloud-Riese bedrohe mit seiner Monopolstellung die freie Meinungsbildung. Damit verändere Google auch die demokratische Grundlage Deutschlands. Das Unternehmen sollte daher kartellrechtlich aufgeteilt werden.
„Wir müssen in allen Aktionsfeldern Google adressieren“, hob Weimer laut Politico hervor. Es könne nicht damit weitergehen, dass der Konzern bislang kaum Abgaben auf seine Gewinne in Deutschland zahle. „Die verdienen hier Milliarde um Milliarde mit riesigen Margen und schleichen sich über Dublin raus“, bemängelt er. Das sei gesellschaftlich ungerecht. Die Bundesregierung peilt auf Betreiben Weimers ferner eine Investitionspflicht für Streaming-Anbieter wie Netflix, Amazon Prime und Disney in deutsche Filmproduktionen an.
Google hat seinen europäischen Hauptsitz in Dublin, um von den niedrigen Unternehmenssteuern und dem günstigen Wirtschaftsumfeld Irlands zu profitieren. Die Regierung der Insel bietet mit 12,5 Prozent einen der niedrigsten Körperschaftssteuersätze in Europa, was als Hauptanreiz für multinationale Konzerne wie auch Apple und Meta gilt. Diese Strategie hat erhebliche Bedenken und Kritik hervorgerufen, da sie als Mittel zur aggressiven Steuervermeidung gilt. Das am häufigsten kritisierte Modell, das auch Google nutzte, war das „Double Irish With a Dutch Sandwich“.
Plattform-Soli ist umstritten
Irland hat diesen Steuertrick zwar 2015 nach internationalem Druck offiziell abgeschafft. Dennoch bleiben die geringen Unternehmenssteuern und die Möglichkeit, Steuervorteile durch andere Modelle zu nutzen, ein Thema. Aktuelle Initiativen wie die für eine globale Mindeststeuer von 15 Prozent sollen solchen Praktiken entgegenwirken. Weimer kündigte schon im Frühjahr an, eine Digitalabgabe in Höhe von 10 Prozent für Tech-Konzerne einführen zu wollen und hält daran prinzipiell fest. Seine Kabinettskollegin, Wirtschaftsministerin Katherina Reiche (CDU), hält von so einem „Plattform-Soli“ aber wenig.
Weimers Vorschlag eröffnet eine neue Front im Zoll-Streit mit US-Präsident Donald Trump. Eine ähnliche Initiative zog die EU-Kommission im Sommer zunächst zurück, nachdem der Republikaner weitere Zölle in Aussicht gestellt hatte. Auch nach Abschluss des Handelsdeals mit der EU drohte Trump häufig, dass er Zölle auf Produkte aus Ländern erheblich erhöhen werde, die den US-Internetgiganten zu enge Regeln setzen. In Europa hat die Regierung in Washington vor allem den Digital Services Act (DSA) und den Digital Markets Acts (DMA) auf dem Kieker. Eine neue Digitalsteuer und weitere harte kartellrechtliche Strafen gegen US-Firmen dürften die Spannungen verschärfen.
Auch die EU droht mit Zerschlagung
Die EU-Kartellbehörde verhängte Anfang September eine Strafe in Höhe von 2,95 Milliarden Euro gegen Google. Der Vorwurf lautet auf „missbräuchliche Praktiken“ im Online-Werbemarkt. Die EU-Kommission fordert nun eine weitreichende Lösung: Innerhalb von 60 Tagen muss Google ein überzeugendes Konzept vorlegen, um sein Monopol aufzulösen. Falls es dieser Forderung nicht nachkommt, steht eine Zerschlagung im Raum. Brüssel ist der Ansicht, dass nur eine Veräußerung von Teilen des Geschäftsmodells die bestehenden Interessenkonflikte auflösen kann. Trump reagierte mit scharfen Drohungen auf diesen Ansatz der EU.
Ein Bündnis verschiedener Organisationen – darunter LobbyControl, Rebalance Now und WeMove Europe – hat mit einer Petition über 150.000 Unterschriften für die kartellrechtliche Aufsplittung von Google gesammelt. Diese wollen sie am Sitz der Kommission in Brüssel vor dem Berlaymont-Gebäude am Montagvormittag übergeben.
Voriges Jahr erwog auch die US-Justiz, das Werbesystem, den Browser Chrome oder die gesamte Mobilsparte samt Android von Google abzuspalten. Ein US-Bundesrichter bestätigte zwar den Monopolstatus, sah jüngst aber von einem Aufteilen des Konzerns ab.
(vbr)
-
UX/UI & Webdesignvor 1 Monat
Der ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 3 Wochen
Adobe Firefly Boards › PAGE online
-
Social Mediavor 1 Monat
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
Entwicklung & Codevor 4 Wochen
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 Wochen
EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 3 Tagen
Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Digital Business & Startupsvor 3 Monaten
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
Digital Business & Startupsvor 3 Monaten
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier