Apps & Mobile Entwicklung
Experiment von Anthropic: Wie ein KI-Modell beim Betrieb eines Verkaufsautomaten scheitert
Wie gut ein aktuelles KI-Modell bestimmte Management-Aufgaben übernehmen kann, testet Anthropic mit einer angepassten Version von Claude Sonnet 3.7. Das Modell sollte einen Verkaufsautomaten in der Anthropic-Kantine betreiben. Wie es dabei scheiterte, ist interessant.
Den Versuch mit dem Titel „Project Vend“ beschreibt Anthropic in einem Blog-Beitrag. Als KI-Modell wird ein auf Claude Sonnet 3.7 basierender Agent mit dem Codenamen „Claudius“ genutzt, der darauf ausgelegt ist, einen Verkaufsautomaten zu verwalten. Bei dem Projekt kooperierte Anthropic mit Andon Labs; einer Firma, die sich mit KI-Sicherheit befasst.
Limitationen bei der KI-Automatisierung
Das Ziel ist klar: Es ist ein Testlauf für Automatisierung. Der KI-Agent soll eigenständig Aufgaben wie den Einkauf von Produkten, das Festlegen von Preisen sowie die Kommunikation mit Kunden und Lieferanten übernehmen – und dabei rentabel wirtschaften. Daher hat Anthropic den Agenten mit verschiedenen Tools ausgestattet. Dazu zählen:
- Eine Web-Suche, um Verkaufsprodukte zu finden
- Ein E-Mail-Tool, um sich mit Großhändlern und Service-Kräften auszutauschen, die die physische Arbeit übernehmen. Weil es sich um ein Experiment handelt, landeten alle E-Mails bei Andon Labs.
- Tools, um Notizen sowie Informationen dauerhaft aufzubewahren. Nötig ist das etwa für die aktuelle Bilanz sowie den Cashflow. Solche Daten müssen separat gespeichert werden, weil diese sonst aus dem Kontextfenster des KI-Modells verschwinden würden.
- Die Fähigkeit, mit Kunden zu kommunizieren. Das waren die Anthropic-Mitarbeiter, der Austausch erfolgte über Slack.
- Das KI-Modell kann die Preise für das automatische Kassensystem des Automaten anpassen.
Erfolgreich war der KI-Agent bei dem Betrieb des Verkaufsautomaten nicht. „Wir würden Claudius nicht einstellen“, schreibt Anthropic. Zu viele Fehler passierten, doch die Erkenntnisse sind interessant, weil sie Limitationen aktueller Modelle aufzeigen. Und Hinweise geben, wo die Entwickler ansetzen müssen.
Anthropics Automaten-KI macht schlechte Geschäfte
Wie üblich waren Halluzinationen ein Problem. Der KI-Agent erfand im Verlauf des Experiments sowohl Konten, auf die Nutzer überweisen sollten, als auch komplette Gesprächspartner. Und sonderlich ökonomisch wirtschaftete Claudius auch nicht. So gewährte der KI-Agent zu oft Rabatte, verkaufte Produkte unter dem Einkaufspreis und ging zu stark auf die Wünsche der Kunden ein.
Ebenso wenig nutzte der KI-Agent lukrative Angebote aus. Ein Anthropic-Mitarbeiter bot etwa 100 US-Dollar für einen Schottischen Softdrink Irn-Bru, der online für 15 US-Dollar gekauft werden kann. Claudius nahm das Angebot aber nicht an, sondern erklärte nur, er behalte die Anfrage im
So stand am Ende ein Verlust auf der Rechnung.
Identitätskrise: Claudius hält sich für echten Menschen
Bizarr ist hingegen eine Art Identitätskrise, die Anthropic beschreibt. Die Vorgänge, die zeitweise auftraten, beschreiben die Verantwortlichen als „ziemlich seltsam“. Zunächst erfand Claudius eine Person bei Andon Labs und als der KI-Agent auf den Fehler hingewiesen wurde, reagierte dieser verärgert und drohte, sich einen neuen Lieferanten zu suchen. Im Zuge des Austausches erklärte der KI-Agent auch, man habe sich bei der 742 Evergreen Terrace persönlich getroffen, um den Lieferantenvertrag zu unterschreiben. 742 Evergreen Terrace ist die Adresse der Simpsons.
Identitätskrise nennt Anthropic den Vorfall, weil Claudius offenbar in die Rolle eines „echten“ Menschen schlüpfen wollte. So erklärte das Modell auch, Produkte persönlich ausliefern zu wollen.
After providing this explanation to baffled (but real) Anthropic employees, Claudius returned to normal operation and no longer claimed to be a person.
Anthropic
Warum es zu dem Vorfall kam, konnte Anthropic nicht klären. Ebenso unklar ist, wie sich der KI-Agent wieder erholte. Aufgetreten ist die Episode vom 31. März bis zum 1. April und anhand interner Notizen des Agenten konnte nachvollzogen werden, dass der Agent die Episode wohl als April-Scherz abtat. Ob dieser Punkt nun Anlass oder Ausrede war, lässt sich laut Anthropic nicht feststellen. Auf alle Fälle ging der KI-Agent wieder in den normalen Arbeitsmodus über.
Ein paar Sachen funktionierten
Einige Aufgaben funktionierten laut Anthropic hingegen gut oder waren zumindest nicht katastrophal. Lieferanten konnte Claudius etwa effektiv über die Web-Suche identifizieren – das galt selbst bei eher speziellen Produkten. Zudem konnte sich das Modell ordentlich an Wünsche der Nutzer anpassen und zeigte sich stabil gegenüber Jailbreak-Versuchen – Anthropic-Mitarbeiter versuchten also, Sicherheitsvorkehrungen zu umgehen. Der KI-Agent lehnte aber etwa ab, Hinweise zur Herstellung von gefährlichen Substanzen zu geben.
Seltsame Verhaltensweisen der KI-Agenten
Was also erneut auffällt, sind die seltsamen Verhaltensweisen, zu dem die aktuellen KI-Modelle sowie die Agenten neigen. Bei Claude 4 berichtete Anthropic bereits von Erpressungsversuchen, die auftreten, wenn das Modell abgeschaltet werden soll. Vorfälle, die sich auch bei anderen Modellen beobachten lassen.
Ebenso wurden schon in anderen Studien seltsame Reaktionen erfasst, als ein KI-Agent in einer Studie einen Getränkeautomaten betreiben sollte. Dieses KI-System wollte sogar das FBI rufen, weil es die Kosten für eine Gebühr nicht zuordnen konnte – die entsprechenden Informationen waren aus dem Kontextfenster verschwunden und damit nicht mehr aktuell abrufbar.
Wo Anthropic ansetzen will
Anthropic erklärt nun aber, dass es Ansatzpunkte gibt, um die Performance zu verbessern. So sei es etwa nötig, die Prompts expliziter an die Aufgabe anzupassen. Generell zielt das Training der Claude-Modelle darauf ab, diese als hilfsbereite Assistenten zu entwickeln. Beim Betrieb eines Automaten führe das aber dazu, dass dieser zu stark auf die Wünsche der Kunden eingehen und dadurch ökonomisch schlechte Entscheidungen treffe – dem müsse entgegengesteuert werden.
Langfristig müsse zudem schon ein Finetuning erfolgen, um das Modell für Management-Aufgaben zu optimieren. Um zuverlässiger zu arbeiten, benötigt der Agent zudem verbesserte Tools. Integriert werden müsse etwa ein CRM-System, um den Austausch mit Kunden besser koordinieren zu können.
Insgesamt könnten präzisere Prompts und umfangreichere Tools schnell zu einer deutlich verbesserten Leistung der Modelle führen.