Apps & Mobile Entwicklung

Experiment von Anthropic: Wie ein KI-Modell beim Betrieb eines Verkaufsautomaten scheitert

Wie gut ein aktuelles KI-Modell bestimmte Management-Aufgaben übernehmen kann, testet Anthropic mit einer angepassten Version von Claude Sonnet 3.7. Das Modell sollte einen Verkaufsautomaten in der Anthropic-Kantine betreiben. Wie es dabei scheiterte, ist interessant.

Den Versuch mit dem Titel „Project Vend“ beschreibt Anthropic in einem Blog-Beitrag. Als KI-Modell wird ein auf Claude Sonnet 3.7 basierender Agent mit dem Codenamen „Claudius“ genutzt, der darauf ausgelegt ist, einen Verkaufsautomaten zu verwalten. Bei dem Projekt kooperierte Anthropic mit Andon Labs; einer Firma, die sich mit KI-Sicherheit befasst.

Limitationen bei der KI-Automatisierung

Das Ziel ist klar: Es ist ein Testlauf für Automatisierung. Der KI-Agent soll eigenständig Aufgaben wie den Einkauf von Produkten, das Festlegen von Preisen sowie die Kommunikation mit Kunden und Lieferanten übernehmen – und dabei rentabel wirtschaften. Daher hat Anthropic den Agenten mit verschiedenen Tools ausgestattet. Dazu zählen:

Eine Web-Suche, um Verkaufsprodukte zu finden
Ein E-Mail-Tool, um sich mit Großhändlern und Service-Kräften auszutauschen, die die physische Arbeit übernehmen. Weil es sich um ein Experiment handelt, landeten alle E-Mails bei Andon Labs.
Tools, um Notizen sowie Informationen dauerhaft aufzubewahren. Nötig ist das etwa für die aktuelle Bilanz sowie den Cashflow. Solche Daten müssen separat gespeichert werden, weil diese sonst aus dem Kontextfenster des KI-Modells verschwinden würden.
Die Fähigkeit, mit Kunden zu kommunizieren. Das waren die Anthropic-Mitarbeiter, der Austausch erfolgte über Slack.
Das KI-Modell kann die Preise für das automatische Kassensystem des Automaten anpassen.

Erfolgreich war der KI-Agent bei dem Betrieb des Verkaufsautomaten nicht. „Wir würden Claudius nicht einstellen“, schreibt Anthropic. Zu viele Fehler passierten, doch die Erkenntnisse sind interessant, weil sie Limitationen aktueller Modelle aufzeigen. Und Hinweise geben, wo die Entwickler ansetzen müssen.

Anthropics Automaten-KI macht schlechte Geschäfte

Wie üblich waren Halluzinationen ein Problem. Der KI-Agent erfand im Verlauf des Experiments sowohl Konten, auf die Nutzer überweisen sollten, als auch komplette Gesprächspartner. Und sonderlich ökonomisch wirtschaftete Claudius auch nicht. So gewährte der KI-Agent zu oft Rabatte, verkaufte Produkte unter dem Einkaufspreis und ging zu stark auf die Wünsche der Kunden ein.

Ebenso wenig nutzte der KI-Agent lukrative Angebote aus. Ein Anthropic-Mitarbeiter bot etwa 100 US-Dollar für einen Schottischen Softdrink Irn-Bru, der online für 15 US-Dollar gekauft werden kann. Claudius nahm das Angebot aber nicht an, sondern erklärte nur, er behalte die Anfrage im

Anthropics Kiosk-KI Claudius macht Verluste (Bild: Anthropic)

So stand am Ende ein Verlust auf der Rechnung.

Identitätskrise: Claudius hält sich für echten Menschen

Bizarr ist hingegen eine Art Identitätskrise, die Anthropic beschreibt. Die Vorgänge, die zeitweise auftraten, beschreiben die Verantwortlichen als „ziemlich seltsam“. Zunächst erfand Claudius eine Person bei Andon Labs und als der KI-Agent auf den Fehler hingewiesen wurde, reagierte dieser verärgert und drohte, sich einen neuen Lieferanten zu suchen. Im Zuge des Austausches erklärte der KI-Agent auch, man habe sich bei der 742 Evergreen Terrace persönlich getroffen, um den Lieferantenvertrag zu unterschreiben. 742 Evergreen Terrace ist die Adresse der Simpsons.

Identitätskrise nennt Anthropic den Vorfall, weil Claudius offenbar in die Rolle eines „echten“ Menschen schlüpfen wollte. So erklärte das Modell auch, Produkte persönlich ausliefern zu wollen.

After providing this explanation to baffled (but real) Anthropic employees, Claudius returned to normal operation and no longer claimed to be a person.

Anthropic

Warum es zu dem Vorfall kam, konnte Anthropic nicht klären. Ebenso unklar ist, wie sich der KI-Agent wieder erholte. Aufgetreten ist die Episode vom 31. März bis zum 1. April und anhand interner Notizen des Agenten konnte nachvollzogen werden, dass der Agent die Episode wohl als April-Scherz abtat. Ob dieser Punkt nun Anlass oder Ausrede war, lässt sich laut Anthropic nicht feststellen. Auf alle Fälle ging der KI-Agent wieder in den normalen Arbeitsmodus über.

Ein paar Sachen funktionierten

Einige Aufgaben funktionierten laut Anthropic hingegen gut oder waren zumindest nicht katastrophal. Lieferanten konnte Claudius etwa effektiv über die Web-Suche identifizieren – das galt selbst bei eher speziellen Produkten. Zudem konnte sich das Modell ordentlich an Wünsche der Nutzer anpassen und zeigte sich stabil gegenüber Jailbreak-Versuchen – Anthropic-Mitarbeiter versuchten also, Sicherheitsvorkehrungen zu umgehen. Der KI-Agent lehnte aber etwa ab, Hinweise zur Herstellung von gefährlichen Substanzen zu geben.

Seltsame Verhaltensweisen der KI-Agenten

Was also erneut auffällt, sind die seltsamen Verhaltensweisen, zu dem die aktuellen KI-Modelle sowie die Agenten neigen. Bei Claude 4 berichtete Anthropic bereits von Erpressungsversuchen, die auftreten, wenn das Modell abgeschaltet werden soll. Vorfälle, die sich auch bei anderen Modellen beobachten lassen.

Ebenso wurden schon in anderen Studien seltsame Reaktionen erfasst, als ein KI-Agent in einer Studie einen Getränkeautomaten betreiben sollte. Dieses KI-System wollte sogar das FBI rufen, weil es die Kosten für eine Gebühr nicht zuordnen konnte – die entsprechenden Informationen waren aus dem Kontextfenster verschwunden und damit nicht mehr aktuell abrufbar.

Wo Anthropic ansetzen will

Anthropic erklärt nun aber, dass es Ansatzpunkte gibt, um die Performance zu verbessern. So sei es etwa nötig, die Prompts expliziter an die Aufgabe anzupassen. Generell zielt das Training der Claude-Modelle darauf ab, diese als hilfsbereite Assistenten zu entwickeln. Beim Betrieb eines Automaten führe das aber dazu, dass dieser zu stark auf die Wünsche der Kunden eingehen und dadurch ökonomisch schlechte Entscheidungen treffe – dem müsse entgegengesteuert werden.

Langfristig müsse zudem schon ein Finetuning erfolgen, um das Modell für Management-Aufgaben zu optimieren. Um zuverlässiger zu arbeiten, benötigt der Agent zudem verbesserte Tools. Integriert werden müsse etwa ein CRM-System, um den Austausch mit Kunden besser koordinieren zu können.

Insgesamt könnten präzisere Prompts und umfangreichere Tools schnell zu einer deutlich verbesserten Leistung der Modelle führen.

Source link

Verwandte Themen:Anthropic beim Betrieb ein eines experiment KIModell scheitert Verkaufsautomaten Von Wie

Up Next

RTX 5070 Ti Super: Komplettiert diese 24-GB-Grafikkarte das Super-Dreigestirn?

Nicht verpassen

Wenig smart, ganz viel Fitness

Apps & Mobile Entwicklung

BlackWidow V4 Low-Profile: Razers Flachtastatur ist so hoch wie eine Euro-Münze

Bild: Razer

Razer führt in der BlackWidow V4 erstmals flache Taster ein. Die neue Tastatur wird damit an der Spitze etwa so hoch wie eine 1-Euro-Münze, also circa 23 Millimeter. Käufer wählen dabei zwischen zwei Layouts und drei unterschiedlichen Abstimmungen.

Die neuen Low-Profile-Switches von Razer gibt es in den üblichen Varianten des Unternehmens. Grüne, hörbar klickende Varianten stehen neben taktilen orangenen Versionen und linearen gelben Tastern. Angaben zu Druckpunkt und Federstärke macht Razer nicht, nur der maximale Hub wird bekannt gegeben. Dieser liegt, bedingt durch das flachere Gehäuse, bei 2,8 Millimetern. Sie sollen 80 Millionen Auslösungen überstehen.

Äußerlich erinnern die Taster insbesondere durch den runden Stempel an Cherrys MX-Low-Profile-Serie. Kreuzaufnahmen machen sie kompatibel zu einer hohen Anzahl alternativer Tastenkappen. Die mitgelieferten Modelle bestehen aus PBT-Kunststoff.

Flach und gedämmt

An der höchsten Stelle wird die Tastatur deshalb nur etwa 23 Millimeter hoch, ein üblicher Wert für Tastaturen mit Low-Profile-Tastern und deutlich weniger als Modelle mit normalen Switches. Im Gehäuse mit Aluminium-Oberteil dienen zwei Schichten Schaumstoff der Geräuschdämpfung – also ähnlich der Cherry KC 500 LP (Test).

Razer BlackWidow V4 Low-Profile (Bild: Razer)

Bild 1 von 5

Die Datenübertragung erledigt ein USB-C-Kabel, alternativ kann die Tastatur per Bluetooth oder zusammen mit zwei weiteren kompatiblen Razer-Produkten über einen einzelnen Hyperspeed-Funkempfänger betrieben werden. Die Laufzeit im nicht näher beschriebenen „Energiesparmodus“ soll maximal 980 Stunden betragen. Mit welchen Parametern diese Leistung erzielt wird, ist unklar. Normalerweise liegen Maximalwerten sehr niedrige Polling-Raten und deaktivierte Hintergrundbeleuchtung zugrunde.

Mit KI-Knopf

Gebaut wird die BlackWidow V4 entweder im Tenkeyless- oder Fullsize-Format. Beide besitzen einen Drehregler mit Klick-Funktion und drei Zusatztasten für Bluetooth, Batteriestand und einen KI-Button. Das große Modell verfügt über weitere Zusatztasten unter anderem für die Mediensteuerung. Auf der FN-Ebene liegt neben den üblichen Extrafunktionen ein Hotkey, um „Snap Tap“ zu aktivieren.

Aktuell bietet Razer die BlackWidow V4 Low-Profile lediglich im US-Layout an. Die Preisempfehlung liegt bei rund 220 Euro für die Fullsize-Version, die kompaktere Variante soll knapp 190 Euro kosten. Ob und wann es die Tastatur im ISO-Layout geben wird, ist unklar.

Source link

Apps & Mobile Entwicklung

Amazon verschleudert beliebtes VR-Headset besonders günstig

Der Versandriese Amazon hat wieder ein richtig spannendes Angebot zur Meta Quest 3S auf Lager. Die VR-Brille gibt es für kurze Zeit 15 Prozent günstiger. Allerdings gilt dieser Deal nur für kurze Zeit.

Früher, als ich noch jung und knackig war, zählte Sport zu meinen liebsten Beschäftigungen. Jetzt schaue ich einen Ball an und breche mir sämtliche Knochen, wie ich im vergangenen Jahr wieder einmal unter Beweis gestellt habe. Damit ich nicht aus allen Nähten platze, betätige ich mich dennoch sportlich. Allerdings in meinen eigenen vier Wänden. Genauer gesagt in meinem Büro, während ich meine Meta Quest auf der Nase habe. Die VR-Brille gibt’s jetzt in der Budget-Variante besonders günstig bei Amazon.

Meta Quest 3S im Angebot: Jetzt noch zuschlagen

Die Quest 3S ist das Einstiegsmodell von Meta. Sie kostet Euch deutlich weniger, als die Meta Quest 3 (Test). Doch zum jetzt dreht Amazon die Preisschraube noch einmal nach unten und so zahlt Ihr aktuell nur noch 279 Euro für die Meta Quest 3S*. Hierbei handelt es sich um die 128-GB-Variante. Soll es doch mehr Speicherplatz sein, gibt es die 256-GB-Variante für 389 Euro*.

Ein Preisvergleich zeigt direkt: Günstiger gibt’s die VR-Brille derzeit nicht. Zudem war das Gerät nur selten günstiger erhältlich. Normalerweise fällt der Preis kaum unter 300 Euro. Zusätzlich zur VR-Brille bekommt Ihr Zugang zum Probeabo für den Bezahldienst „Meta Horizon+“. Hier sind zahlreiche VR-Spiele enthalten, wie wir es beispielsweise vom Xbox Game Pass kennen. Auch Spiele wie „FitXR“ könnt Ihr direkt nutzen. Damit steht Eurem täglichen Workout nichts mehr im Wege. Schauen wir uns noch an, was das Gerät überhaupt zu bieten hat.

Sport für Gamer: So gut ist die Budget-VR-Brille

Mit einer VR-Brille gehört das stundenlange Sitzen auf dem Gaming-Stuhl so ziemlich der Vergangenheit an. Sobald ich eines der Spiele, wie etwa das anfängerfreundliche Beat Saber, starte, kann meine bessere Hälfte mir nach 30 Minuten bereits den Eimer unterstellen, um die Wassermassen aufzufangen, die aus allen Poren dringen. Das ist allerdings nicht negativ gemeint: Selten hat es mir soviel Spaß gemacht, auf virtuelle Trommeln zu hämmern oder in Form einer Polygon-Figur die genialsten Matrix-Moves nachzuahmen.

Meta hat das All-In-One-Headset im Vergleich zum Vorgängermodell zudem deutlich verbessert. Stabilere Controller, gutes Passthrough mit Mixed-Reality und eine HD-Auflösung mit einer Pixeldichte von 773 ppi sind nur einige Vorteile. Im Inneren findet sich darüber hinaus ein Snapdragon XR2-Chip, der mit seinen 8 GB RAM und 128 GB Flash-Speicher für ausreichend Leistung sorgt. Damit ist die Leistung dem Geschwistermodell, der Meta Quest 3, zwar etwas unterlegen,allerdings fällt dies im Alltag nicht auf.

Die Meta Quest 3S bietet einen Akku, der zwei Stunden lang durchhält, bevor Ihr diesen über den USB-C-Port aufladen müsst. Wenn ich daran denke, dass mir nach 30 Minuten bereits die Arme abfallen, dürfte den meisten Menschen eine solche Akkulaufzeit ausreichen.

Meta Quest 3S vs. Meta Quest 3: Was lohnt sich mehr?

Durch das Angebot kostet die Meta Quest 3S gerade einmal die etwas mehr Hälfte der Meta Quest 3. Das teurere Modell bietet dabei allerdings 512 GB internen Speicher und eine 4K-Auflösung. Möchtet Ihr diese Features unbedingt, gibt es die Quest 3 bei Amazon gerade für 549,99 Euro*. Allerdings würde ich Euch von diesem immensen Aufpreis abraten. Die Quest 3S bietet alles, was eine VR-Brille können muss und sie eignet sich hervorragend für Einsteiger, während sie zudem deutlich günstiger ist. Vor allem für Einsteiger lohnt sich der aktuelle Amazon-Deal zur VR-Brille* daher deutlich mehr.

Was haltet Ihr von dem Angebot? Macht Ihr Sport lieber im Fitnessstudio oder sogar in dieser ominösen „Natur“? Lasst es uns in den Kommentaren wissen!

Source link

Apps & Mobile Entwicklung

GeForce RTX 5090D v2: Ein Viertel weniger Bandbreite kostet keine Gaming-Leistung

In China gibt es die ausschließlich in Sachen KI-Leistung beeinträchtigte GeForce RTX 5090D nicht mehr, stattdessen wird dort nun die GeForce RTX 5090D v2 verkauft, die auf 24 GB GDDR7 anstatt 32 GB und auf ein 384 Bit anstatt ein 512 Bit großes Speicherinterface setzt. Doch das kostet offenbar quasi keine Gaming-Leistung.

So ist es Videocardz aufgefallen, dass es in China einen ersten Test der dort ab sofort erhältlichen GeForce RTX 5090D v2 gibt, der sich mit der Gaming-Leistung beschäftigt. Getestet wird ein Modell von Inno3D, genauer gesagt die GeForce RTX 5090D v2 iChill X3, die auch gegen eine GeForce RTX 5090D gestellt wird.

Neben einigen Spielen gibt es auch Tests im 3DMark in allen möglichen Testszenarien, die quasi gar nicht auf die Hardware-Änderungen reagieren und mit dem neuen Modell nur 0 bis 3 Prozent langsamer laufen als mit der älteren GeForce RTX 5090D.

In Spielen nur messbar geringfügig langsamer

In den getesteten Spielen sieht es nicht grundsätzlich anders aus. Cyberpunk 2077 zeigt in Full HD mit DLSS 4 ein Prozent weniger Bilder pro Sekunde, in Ultra HD gibt es keinen Unterschied. Hogwarts Legacy läuft ein bis zwei Prozent langsamer, Borderlands 3 um drei Prozent, Far Cry New Dawn um ein Prozent und ein weiteres chinesisches Spiel, dessen Name unbekannt ist, um ein Prozent. Erwähnenswert ist, dass alle Spiele mit extrem hohen Frameraten laufen, was entweder auf sehr niedrige Grafikdetails oder auf den Einsatz DLSS Multi Frame Generation schließen lässt.

Benchmarks der GeForce RTX 5090D v2 (Bild: Yesky)

Die GeForce RTX 5090D v2 ist in Spielen damit vergleichbar schnell wie die GeForce RTX 5090 und die außerhalb Chinas erhältliche GeForce RTX 5090 (Test), die FPS-Unterschiede liegen bei höchstens drei Prozent, meistens aber noch darunter.

Das zeigt dann auch, dass die GeForce RTX 5090 zumindest aus der Spielesicht ihre enorme Speicherbandbreite überhaupt nicht benötigt. Ein 384-Bit-Speicherinterface ist völlig ausreichend, genauso wäre auch älterer GDDR6-Speicher an einem 512-Bit-Interface problemlos möglich. Anders sieht es aber in AI-Anwendungen und auch einigen Compute-Programmen aus, wo Speicherbandbreite sogar entscheidend ist. Darum ist das Reduzieren der Speicherbandbreite auch Nvidias Weg, um die AI-Leistung der GeForce RTX 5090 zu reduzieren.

Source link