Apps & Mobile Entwicklung

Experiment von Anthropic: Wie ein KI-Modell beim Betrieb eines Verkaufsautomaten scheitert

Wie gut ein aktuelles KI-Modell bestimmte Management-Aufgaben übernehmen kann, testet Anthropic mit einer angepassten Version von Claude Sonnet 3.7. Das Modell sollte einen Verkaufsautomaten in der Anthropic-Kantine betreiben. Wie es dabei scheiterte, ist interessant.

Den Versuch mit dem Titel „Project Vend“ beschreibt Anthropic in einem Blog-Beitrag. Als KI-Modell wird ein auf Claude Sonnet 3.7 basierender Agent mit dem Codenamen „Claudius“ genutzt, der darauf ausgelegt ist, einen Verkaufsautomaten zu verwalten. Bei dem Projekt kooperierte Anthropic mit Andon Labs; einer Firma, die sich mit KI-Sicherheit befasst.

Limitationen bei der KI-Automatisierung

Das Ziel ist klar: Es ist ein Testlauf für Automatisierung. Der KI-Agent soll eigenständig Aufgaben wie den Einkauf von Produkten, das Festlegen von Preisen sowie die Kommunikation mit Kunden und Lieferanten übernehmen – und dabei rentabel wirtschaften. Daher hat Anthropic den Agenten mit verschiedenen Tools ausgestattet. Dazu zählen:

Eine Web-Suche, um Verkaufsprodukte zu finden
Ein E-Mail-Tool, um sich mit Großhändlern und Service-Kräften auszutauschen, die die physische Arbeit übernehmen. Weil es sich um ein Experiment handelt, landeten alle E-Mails bei Andon Labs.
Tools, um Notizen sowie Informationen dauerhaft aufzubewahren. Nötig ist das etwa für die aktuelle Bilanz sowie den Cashflow. Solche Daten müssen separat gespeichert werden, weil diese sonst aus dem Kontextfenster des KI-Modells verschwinden würden.
Die Fähigkeit, mit Kunden zu kommunizieren. Das waren die Anthropic-Mitarbeiter, der Austausch erfolgte über Slack.
Das KI-Modell kann die Preise für das automatische Kassensystem des Automaten anpassen.

Erfolgreich war der KI-Agent bei dem Betrieb des Verkaufsautomaten nicht. „Wir würden Claudius nicht einstellen“, schreibt Anthropic. Zu viele Fehler passierten, doch die Erkenntnisse sind interessant, weil sie Limitationen aktueller Modelle aufzeigen. Und Hinweise geben, wo die Entwickler ansetzen müssen.

Anthropics Automaten-KI macht schlechte Geschäfte

Wie üblich waren Halluzinationen ein Problem. Der KI-Agent erfand im Verlauf des Experiments sowohl Konten, auf die Nutzer überweisen sollten, als auch komplette Gesprächspartner. Und sonderlich ökonomisch wirtschaftete Claudius auch nicht. So gewährte der KI-Agent zu oft Rabatte, verkaufte Produkte unter dem Einkaufspreis und ging zu stark auf die Wünsche der Kunden ein.

Ebenso wenig nutzte der KI-Agent lukrative Angebote aus. Ein Anthropic-Mitarbeiter bot etwa 100 US-Dollar für einen Schottischen Softdrink Irn-Bru, der online für 15 US-Dollar gekauft werden kann. Claudius nahm das Angebot aber nicht an, sondern erklärte nur, er behalte die Anfrage im

Anthropics Kiosk-KI Claudius macht Verluste (Bild: Anthropic)

So stand am Ende ein Verlust auf der Rechnung.

Identitätskrise: Claudius hält sich für echten Menschen

Bizarr ist hingegen eine Art Identitätskrise, die Anthropic beschreibt. Die Vorgänge, die zeitweise auftraten, beschreiben die Verantwortlichen als „ziemlich seltsam“. Zunächst erfand Claudius eine Person bei Andon Labs und als der KI-Agent auf den Fehler hingewiesen wurde, reagierte dieser verärgert und drohte, sich einen neuen Lieferanten zu suchen. Im Zuge des Austausches erklärte der KI-Agent auch, man habe sich bei der 742 Evergreen Terrace persönlich getroffen, um den Lieferantenvertrag zu unterschreiben. 742 Evergreen Terrace ist die Adresse der Simpsons.

Identitätskrise nennt Anthropic den Vorfall, weil Claudius offenbar in die Rolle eines „echten“ Menschen schlüpfen wollte. So erklärte das Modell auch, Produkte persönlich ausliefern zu wollen.

After providing this explanation to baffled (but real) Anthropic employees, Claudius returned to normal operation and no longer claimed to be a person.

Anthropic

Warum es zu dem Vorfall kam, konnte Anthropic nicht klären. Ebenso unklar ist, wie sich der KI-Agent wieder erholte. Aufgetreten ist die Episode vom 31. März bis zum 1. April und anhand interner Notizen des Agenten konnte nachvollzogen werden, dass der Agent die Episode wohl als April-Scherz abtat. Ob dieser Punkt nun Anlass oder Ausrede war, lässt sich laut Anthropic nicht feststellen. Auf alle Fälle ging der KI-Agent wieder in den normalen Arbeitsmodus über.

Ein paar Sachen funktionierten

Einige Aufgaben funktionierten laut Anthropic hingegen gut oder waren zumindest nicht katastrophal. Lieferanten konnte Claudius etwa effektiv über die Web-Suche identifizieren – das galt selbst bei eher speziellen Produkten. Zudem konnte sich das Modell ordentlich an Wünsche der Nutzer anpassen und zeigte sich stabil gegenüber Jailbreak-Versuchen – Anthropic-Mitarbeiter versuchten also, Sicherheitsvorkehrungen zu umgehen. Der KI-Agent lehnte aber etwa ab, Hinweise zur Herstellung von gefährlichen Substanzen zu geben.

Seltsame Verhaltensweisen der KI-Agenten

Was also erneut auffällt, sind die seltsamen Verhaltensweisen, zu dem die aktuellen KI-Modelle sowie die Agenten neigen. Bei Claude 4 berichtete Anthropic bereits von Erpressungsversuchen, die auftreten, wenn das Modell abgeschaltet werden soll. Vorfälle, die sich auch bei anderen Modellen beobachten lassen.

Ebenso wurden schon in anderen Studien seltsame Reaktionen erfasst, als ein KI-Agent in einer Studie einen Getränkeautomaten betreiben sollte. Dieses KI-System wollte sogar das FBI rufen, weil es die Kosten für eine Gebühr nicht zuordnen konnte – die entsprechenden Informationen waren aus dem Kontextfenster verschwunden und damit nicht mehr aktuell abrufbar.

Wo Anthropic ansetzen will

Anthropic erklärt nun aber, dass es Ansatzpunkte gibt, um die Performance zu verbessern. So sei es etwa nötig, die Prompts expliziter an die Aufgabe anzupassen. Generell zielt das Training der Claude-Modelle darauf ab, diese als hilfsbereite Assistenten zu entwickeln. Beim Betrieb eines Automaten führe das aber dazu, dass dieser zu stark auf die Wünsche der Kunden eingehen und dadurch ökonomisch schlechte Entscheidungen treffe – dem müsse entgegengesteuert werden.

Langfristig müsse zudem schon ein Finetuning erfolgen, um das Modell für Management-Aufgaben zu optimieren. Um zuverlässiger zu arbeiten, benötigt der Agent zudem verbesserte Tools. Integriert werden müsse etwa ein CRM-System, um den Austausch mit Kunden besser koordinieren zu können.

Insgesamt könnten präzisere Prompts und umfangreichere Tools schnell zu einer deutlich verbesserten Leistung der Modelle führen.

Source link

Verwandte Themen:Anthropic beim Betrieb ein eines experiment KIModell scheitert Verkaufsautomaten Von Wie

Up Next

RTX 5070 Ti Super: Komplettiert diese 24-GB-Grafikkarte das Super-Dreigestirn?

Nicht verpassen

Wenig smart, ganz viel Fitness

Apps & Mobile Entwicklung

Lexar Ares Pro: Die SSD mit dem Kriegsgott lässt eine Waffe missen

WD_Black SN8100 2 TB
PCIe 5.0, SMI SM2508

Phison E28 2 TB (Referenz)
PCIe 5.0, Phison E28

Crucial T705 2 TB
PCIe 5.0, Phison E26

Corsair MP700 Pro SE 4 TB
PCIe 5.0, Phison E26

Crucial T710 2 TB
PCIe 5.0, SMI SM2508

MSI Spatium M580 Pro 2 TB
PCIe 5.0, Phison E26

Samsung 9100 Pro 4 TB (Heatsink)
PCIe 5.0, Samsung Presto

WD_Black SN8100 2 TB II
PCIe 4.0, SMI SM2508

Adata XPG Mars 980 Blade 4 TB
PCIe 5.0, SMI SM2508

Crucial T700 2 TB
PCIe 5.0, Phison E26

Lexar NM1090 Pro 2 TB
PCIe 5.0, SMI SM2508

Biwin X570 Pro 4 TB
PCIe 5.0, SMI SM2508

Samsung 9100 Pro 4 TB (Heatsink) II
PCIe 4.0, Samsung Presto

Biwin X570 2 TB
PCIe 5.0, Maxio MAP1806

Corsair MP700 Elite 2 TB
PCIe 5.0, Phison E31T

Kioxia Exceria Plus G4 2 TB
PCIe 5.0, Phison E31T

Phison E31T (Referenz) 2 TB
PCIe 5.0, Phison E31T

WD_Black SN850X 2 TB
PCIe 4.0, SanDisk 20-82-20035-B2

WD_Black SN850X 8 TB
PCIe 4.0, SanDisk 20-82-20035-B2

Kingston KC3000 2 TB
PCIe 4.0, Phison E18

Crucial T500 2 TB
PCIe 4.0, Phison E25

Seagate FireCuda 530 2 TB
PCIe 4.0, Phison E18

Crucial P310 2 TB M.2 2230
PCIe 4.0, Phison E27T

WD Blue SN5000 4 TB
PCIe 4.0, SanDisk A101-000171-A1

Samsung 990 Evo Plus 2 TB
PCIe 5.0 x2, Samsung Piccolo

Seagate FireCuda 530R 2 TB
PCIe 4.0, Phison E18

Team Group MP44S 2 TB M.2 2230
PCIe 4.0, Phison E21T

Corsair EX400U 2 TB USB 4
USB 4.0 (40 Gbit/s)

Corsair EX400U 2 TB
USB 3.2 Gen 2×2 (20 Gbit/s)

Lexar SL500 2 TB
USB 3.2 Gen 2×2 (20 Gbit/s)

Kingston XS2000 2 TB
USB 3.2 Gen 2×2 (20 Gbit/s)

Seagate Ultra Compact SSD 2 TB
USB 3.2 Gen 2 (10 Gbit/s)

Seagate IronWolf Pro 24 TB
SATA

S S D s m i t PCIe 5.0

Crucial P510 1 TB
PCIe 5.0, Phison E31T

SK Hynix Platinum P51 1 TB
PCIe 5.0, SK Hynix Alistar

Samsung 9100 Pro 4 TB
PCIe 5.0, Samsung Presto

Samsung 990 Evo 2 TB (5.0)
PCIe 5.0 x2, Samsung Piccolo

MSI Spatium M570 Pro 2 TB
PCIe 5.0, Phison E26

Seagate FireCuda 540 2 TB
PCIe 5.0, Phison E26

Corsair MP700 Pro 2 TB – Corsair-Kühler
PCIe 5.0, Phison E26

Corsair MP700 Pro 2 TB – Strix-Kühler
PCIe 5.0, Phison E26

Corsair MP700 2 TB
PCIe 5.0, Phison E26

Crucial T700 2 TB neu
PCIe 5.0, Phison E26

S S D s m i t PCIe 4.0

Samsung 990 Evo 2 TB (4.0)
PCIe 4.0, Samsung Piccolo

Kioxia Exceria Plus G3 2 TB
PCIe 4.0, Phison E21T

WD_Black SN770M 2 TB M.2 2230
PCIe 4.0, SanDisk 20-82-10081-A1

Teracle T450 2 TB II
PCIe 4.0, Innogrit IG5236

Teracle T450 2 TB
PCIe 4.0, Innogrit IG5236

Lexar NM790 4 TB
PCIe 4.0, Maxio MAP1602

Samsung 990 Pro 2 TB
PCIe 4.0, Samsung Pascal

Samsung 990 Pro 1 TB
PCIe 4.0, Samsung Pascal

Samsung 980 Pro 1 TB
PCIe 4.0, Samsung Elpis

Kingston NV2 2 TB
PCIe 4.0, SMI SM2267XT

Corsair MP600 Core XT 2 TB
PCIe 4.0, Phison E21T

Corsair MP600 LPX
PCIe 4.0, Phison E18

WD Blue SN580 1 TB
PCIe 4.0, SanDisk 20-82-10082-A1

Samsung 970 Pro 512 GB
PCIe 4.0, Samsung Phoenix

Samsung 960 Pro 512 GB
PCIe 4.0, Samsung Polaris

S S D s m i t PCIe 3.0

Samsung 950 Pro 256 GB
PCIe 3.0, Samsung UBX

Crucial P5 2 TB
PCIe 3.0, Micron DM01B2

S S D s m i t SATA

Crucial MX500 1 TB
SATA, SMI SM2259H

E X T E R N E S S D S

SanDisk Desk Drive 8 TB
USB 3.2 Gen 2 (10 Gbit/s)

Crucial X10 Pro 2 TB
USB 3.2 Gen 2×2 (20 Gbit/s)

Crucial X9 Pro 2 TB
USB 3.2 Gen 2 (10 Gbit/s)

Crucial X6 4 TB
USB 3.2 Gen 2 (10 Gbit/s)

Kingston XS1000 2 TB
USB 3.2 Gen 2 (10 Gbit/s)

Samsung T9 2 TB (exFAT, 20 Gbit/s)
USB 3.2 Gen 2×2 (20 Gbit/s)

Samsung T9 2 TB (NTFS, 20 Gbit/s)
USB 3.2 Gen 2×2 (20 Gbit/s)

Samsung T9 2 TB (NTFS, 10 Gbit/s)
USB 3.2 Gen 2 (10 Gbit/s)

Samsung T5 8 TB (NTFS, 10 Gbit/s)
USB 3.2 Gen 2 (10 Gbit/s)

H D D s

WD My Passport 6 TB
USB 3.2 Gen 1 (5 Gbit/s)

Seagate FireCuda Gaming Hard Drive 5 TB
USB 3.2 Gen 1 (5 Gbit/s)

Seagate IronWolf Pro 30 TB
SATA

Seagate Exos 18 TB
SATA

Source link

Apps & Mobile Entwicklung

Amazon zieht Android-Nutzern den Stecker

Nur noch wenige Tage bleiben, bis sämtliche Android-Nutzer auf eine wichtige Amazon-Dienstleistung verzichten müssen. Betroffen ist ein Service des Unternehmens, der früher populärer war, heute auf Android-Geräten jedoch nur noch eine kleinere Rolle spielt.

In jüngster Zeit hat Amazon bereits mehrere nützliche Angebote eingeschränkt oder gänzlich beendet. Bei Amazon Music lassen sich störende Unterbrechungen inzwischen etwa nur noch innerhalb einer einzelnen Playlist vermeiden, während Prime Video heutzutage Werbung zeigt. Auch der werbefinanzierten Streaming-Plattform Freevee zog Amazon den Stecker. Nun trifft es ab kommender Woche einen weiteren Service, der in über 200 Ländern verfügbar war und laut Amazon allein in der Europäischen Union rund 45 Millionen aktive Nutzer hatte.

Aus für den Amazon Appstore auf Android

Am 20. August stellt Amazon den Betrieb seines Appstores auf Android-Geräten ein. Ab diesem Termin ist nicht mehr gewährleistet, dass installierte Apps aus diesem Store weiterhin fehlerfrei laufen. Neue Anwendungen lassen sich dann ebenfalls nicht mehr über diesen Weg installieren. Auf weiteren Geräten, wie beispielsweise dem Fire-TV- und Fire-Tablet, bleibt der Appstore jedoch auch weiterhin erhalten.

Seine Entscheidung hatte Amazon bereits zu Jahresbeginn begründet: „Wir haben beschlossen, den Amazon Appstore für Android einzustellen, um unsere Bemühungen auf das Appstore-Erlebnis auf unseren eigenen Geräten zu konzentrieren, da dort derzeit die überwältigende Mehrheit unserer Kundinnen und Kunden damit interagiert“, erklärte ein Sprecher.

Amazon Coins-Programm läuft ebenfalls aus

Parallel zum Appstore stellt Amazon auch das Amazon-Coins-Programm ein. Mit diesen digitalen Münzen konnten bislang Einkäufe in bestimmten Apps sowie In-App-Käufe bezahlt werden. Bis zum 20. August können vorhandene Coins noch genutzt werden. Verloren geht das invistierte Geld jedoch so oder so nicht. Denn Amazon kündigte an, verbleibende Coins nach Ablauf der Frist automatisch zu erstatten. Details zu diesem Prozess wollte das Unternehmen ursprünglich „zu einem späteren Zeitpunkt“ bekannt geben. Bisher haben die Verantwortlichen die dazugehörigen FAQ jedoch nicht aktualisiert.

Source link

Apps & Mobile Entwicklung

KI-Boom: Foxconn verdient erstmals mehr mit AI-Servern als iPhones

Der weltweit größte Auftragsfertiger Foxconn (Hon Hai Precision Industry Co., Ltd) erreichte mit AI-Servern erstmals mehr Umsatz als mit Consumer Electronics wie dem iPhone. Die entsprechende Sparte kam im zweiten Quartal des Fiskaljahres 2025 auf einen Umsatzanteil von 41 Prozent, das entspricht 9 Prozentpunkten mehr als 2024.

Foxconn ist aktuell der größte Auftragsfertiger für Apple und Nvidia und kam im zweiten Quartal des Fiskaljahres 2025 auf einen Umsatz von insgesamt 1,79 Billionen NT$ (51,1 Milliarden Euro) und liegt damit 9 Prozent über dem ersten Quartal in diesem Jahr und 16 Prozent über dem zweiten Quartal 2024. Der operative Gewinn stieg im Jahresvergleich um 27 Prozent auf 56,6 Milliarden NT$ (1,6 Milliarden Euro), der Nettogewinn um ebenfalls 27 Prozent auf 44,4 Milliarden NT$ (1,3 Milliarden Euro).

41 Prozent Umsatzanteil für AI-Server

Interessant ist beim abgelaufenen Quartal vor allem, wie sich der Umsatz von Foxconn dieses Mal zusammensetzt. Denn erstmals verdiente das Unternehmen im Zuge des KI-Booms mehr Geld mit AI-Servern als mit Consumer Electronics wie dem iPhone, für das Foxconn vor allem bekannt ist. 41 Prozent machte die Sparte „Cloud and Networking Products“ aus, das sind 9 Prozentpunkte mehr als im zweiten Quartal 2024. „Smart Consumer Electronics Products“ kamen auf 35 Prozent, „Computing Products“ auf 18 Prozent und „Components and Other Products“ auf 6 Prozent.

41 Prozent Umsatzanteil mit AI-Servern (Bild: Foxconn)

170 Prozent Wachstum im dritten Quartal

Der Auftragsfertiger hebt in einer Präsentation für Finanzanalysten (PDF) hervor, dass der Umsatz mit AI-Servern vom zweiten Quartal 2024 auf das zweite Quartal 2025 um 60 Prozent gestiegen ist. Für das dritte Quartal 2025 prognostiziert das Unternehmen einen nochmals deutlich größeren Sprung von 170 Prozent zum Vorjahr. Nvidia Blackwell (GB200) scheint damit voll in der Produktion zu sein. Vom zweiten auf das dritte Quartal 2025 sollen die Rack-Auslieferungen um 300 Prozent zulegen. Für das gesamte Fiskaljahr 2025 wird ein Umsatz von mehr als 1 Billion NT$ (28,5 Milliarden Euro) mit AI-Servern erwartet. Der Auftragsfertiger sieht auch für 2026 eine weiterhin sehr große Nachfrage.

Entwicklung des Umsatzes mit AI-Servern (Bild: Foxconn)

From a product mix perspective, driven by the strong growth of AI servers, the share of Cloud and Networking Products increased significantly, up 9 percentage points YoY to reach 41%. This means Cloud and Networking Products performed very well in 2Q25. And, for the first time, Cloud and Networking Products surpassed Smart Consumer Electronics. This shift is steering our product mix toward a more balanced structure.

Foxconn

Der iPhone-Umsatz steht bevor

Bei den Consumer Electronics soll es im aktuell laufenden dritten Quartal aber weiterhin einen großen Sprung nach oben im Vergleich zum zweiten Quartal dieses Jahres geben. Foxconn nennt zwar grundsätzlich keine Auftragsgeber, hier dürfte aber die Produktion der bevorstehenden iPhone-17-Produktion große Auswirkungen auf den Umsatz haben. Im Jahresvergleich sieht Foxconn hingegen einen Abwärtstrend. Zur Bekanntgabe der Zahlen des ersten Quartals hatte Foxconn noch mit einem gleichbleibenden Umsatz für das Fiskaljahr 2025 gerechnet.