Connect with us

Apps & Mobile Entwicklung

Experiment von Anthropic: Wie ein KI-Modell beim Betrieb eines Verkaufsautomaten scheitert


Wie gut ein aktuelles KI-Modell bestimmte Management-Aufgaben übernehmen kann, testet Anthropic mit einer angepassten Version von Claude Sonnet 3.7. Das Modell sollte einen Verkaufsautomaten in der Anthropic-Kantine betreiben. Wie es dabei scheiterte, ist interessant.

Den Versuch mit dem Titel „Project Vend“ beschreibt Anthropic in einem Blog-Beitrag. Als KI-Modell wird ein auf Claude Sonnet 3.7 basierender Agent mit dem Codenamen „Claudius“ genutzt, der darauf ausgelegt ist, einen Verkaufsautomaten zu verwalten. Bei dem Projekt kooperierte Anthropic mit Andon Labs; einer Firma, die sich mit KI-Sicherheit befasst.

Limitationen bei der KI-Automatisierung

Das Ziel ist klar: Es ist ein Testlauf für Automatisierung. Der KI-Agent soll eigenständig Aufgaben wie den Einkauf von Produkten, das Festlegen von Preisen sowie die Kommunikation mit Kunden und Lieferanten übernehmen – und dabei rentabel wirtschaften. Daher hat Anthropic den Agenten mit verschiedenen Tools ausgestattet. Dazu zählen:

  • Eine Web-Suche, um Verkaufsprodukte zu finden
  • Ein E-Mail-Tool, um sich mit Großhändlern und Service-Kräften auszutauschen, die die physische Arbeit übernehmen. Weil es sich um ein Experiment handelt, landeten alle E-Mails bei Andon Labs.
  • Tools, um Notizen sowie Informationen dauerhaft aufzubewahren. Nötig ist das etwa für die aktuelle Bilanz sowie den Cashflow. Solche Daten müssen separat gespeichert werden, weil diese sonst aus dem Kontextfenster des KI-Modells verschwinden würden.
  • Die Fähigkeit, mit Kunden zu kommunizieren. Das waren die Anthropic-Mitarbeiter, der Austausch erfolgte über Slack.
  • Das KI-Modell kann die Preise für das automatische Kassensystem des Automaten anpassen.

Erfolgreich war der KI-Agent bei dem Betrieb des Verkaufsautomaten nicht. „Wir würden Claudius nicht einstellen“, schreibt Anthropic. Zu viele Fehler passierten, doch die Erkenntnisse sind interessant, weil sie Limitationen aktueller Modelle aufzeigen. Und Hinweise geben, wo die Entwickler ansetzen müssen.

Anthropics Automaten-KI macht schlechte Geschäfte

Wie üblich waren Halluzinationen ein Problem. Der KI-Agent erfand im Verlauf des Experiments sowohl Konten, auf die Nutzer überweisen sollten, als auch komplette Gesprächspartner. Und sonderlich ökonomisch wirtschaftete Claudius auch nicht. So gewährte der KI-Agent zu oft Rabatte, verkaufte Produkte unter dem Einkaufspreis und ging zu stark auf die Wünsche der Kunden ein.

Ebenso wenig nutzte der KI-Agent lukrative Angebote aus. Ein Anthropic-Mitarbeiter bot etwa 100 US-Dollar für einen Schottischen Softdrink Irn-Bru, der online für 15 US-Dollar gekauft werden kann. Claudius nahm das Angebot aber nicht an, sondern erklärte nur, er behalte die Anfrage im

Anthropics Kiosk-KI Claudius macht Verluste
Anthropics Kiosk-KI Claudius macht Verluste (Bild: Anthropic)

So stand am Ende ein Verlust auf der Rechnung.

Identitätskrise: Claudius hält sich für echten Menschen

Bizarr ist hingegen eine Art Identitätskrise, die Anthropic beschreibt. Die Vorgänge, die zeitweise auftraten, beschreiben die Verantwortlichen als „ziemlich seltsam“. Zunächst erfand Claudius eine Person bei Andon Labs und als der KI-Agent auf den Fehler hingewiesen wurde, reagierte dieser verärgert und drohte, sich einen neuen Lieferanten zu suchen. Im Zuge des Austausches erklärte der KI-Agent auch, man habe sich bei der 742 Evergreen Terrace persönlich getroffen, um den Lieferantenvertrag zu unterschreiben. 742 Evergreen Terrace ist die Adresse der Simpsons.

Identitätskrise nennt Anthropic den Vorfall, weil Claudius offenbar in die Rolle eines „echten“ Menschen schlüpfen wollte. So erklärte das Modell auch, Produkte persönlich ausliefern zu wollen.

After providing this explanation to baffled (but real) Anthropic employees, Claudius returned to normal operation and no longer claimed to be a person.

Anthropic

Warum es zu dem Vorfall kam, konnte Anthropic nicht klären. Ebenso unklar ist, wie sich der KI-Agent wieder erholte. Aufgetreten ist die Episode vom 31. März bis zum 1. April und anhand interner Notizen des Agenten konnte nachvollzogen werden, dass der Agent die Episode wohl als April-Scherz abtat. Ob dieser Punkt nun Anlass oder Ausrede war, lässt sich laut Anthropic nicht feststellen. Auf alle Fälle ging der KI-Agent wieder in den normalen Arbeitsmodus über.

Ein paar Sachen funktionierten

Einige Aufgaben funktionierten laut Anthropic hingegen gut oder waren zumindest nicht katastrophal. Lieferanten konnte Claudius etwa effektiv über die Web-Suche identifizieren – das galt selbst bei eher speziellen Produkten. Zudem konnte sich das Modell ordentlich an Wünsche der Nutzer anpassen und zeigte sich stabil gegenüber Jailbreak-Versuchen – Anthropic-Mitarbeiter versuchten also, Sicherheitsvorkehrungen zu umgehen. Der KI-Agent lehnte aber etwa ab, Hinweise zur Herstellung von gefährlichen Substanzen zu geben.

Seltsame Verhaltensweisen der KI-Agenten

Was also erneut auffällt, sind die seltsamen Verhaltensweisen, zu dem die aktuellen KI-Modelle sowie die Agenten neigen. Bei Claude 4 berichtete Anthropic bereits von Erpressungsversuchen, die auftreten, wenn das Modell abgeschaltet werden soll. Vorfälle, die sich auch bei anderen Modellen beobachten lassen.

Ebenso wurden schon in anderen Studien seltsame Reaktionen erfasst, als ein KI-Agent in einer Studie einen Getränkeautomaten betreiben sollte. Dieses KI-System wollte sogar das FBI rufen, weil es die Kosten für eine Gebühr nicht zuordnen konnte – die entsprechenden Informationen waren aus dem Kontextfenster verschwunden und damit nicht mehr aktuell abrufbar.

Wo Anthropic ansetzen will

Anthropic erklärt nun aber, dass es Ansatzpunkte gibt, um die Performance zu verbessern. So sei es etwa nötig, die Prompts expliziter an die Aufgabe anzupassen. Generell zielt das Training der Claude-Modelle darauf ab, diese als hilfsbereite Assistenten zu entwickeln. Beim Betrieb eines Automaten führe das aber dazu, dass dieser zu stark auf die Wünsche der Kunden eingehen und dadurch ökonomisch schlechte Entscheidungen treffe – dem müsse entgegengesteuert werden.

Langfristig müsse zudem schon ein Finetuning erfolgen, um das Modell für Management-Aufgaben zu optimieren. Um zuverlässiger zu arbeiten, benötigt der Agent zudem verbesserte Tools. Integriert werden müsse etwa ein CRM-System, um den Austausch mit Kunden besser koordinieren zu können.

Insgesamt könnten präzisere Prompts und umfangreichere Tools schnell zu einer deutlich verbesserten Leistung der Modelle führen.



Source link

Apps & Mobile Entwicklung

GeForce RTX 5090D v2: Ein Viertel weniger Bandbreite kostet keine Gaming-Leistung


In China gibt es die ausschließlich in Sachen KI-Leistung beeinträchtigte GeForce RTX 5090D nicht mehr, stattdessen wird dort nun die GeForce RTX 5090D v2 verkauft, die auf 24 GB GDDR7 anstatt 32 GB und auf ein 384 Bit anstatt ein 512 Bit großes Speicherinterface setzt. Doch das kostet offenbar quasi keine Gaming-Leistung.

So ist es Videocardz aufgefallen, dass es in China einen ersten Test der dort ab sofort erhältlichen GeForce RTX 5090D v2 gibt, der sich mit der Gaming-Leistung beschäftigt. Getestet wird ein Modell von Inno3D, genauer gesagt die GeForce RTX 5090D v2 iChill X3, die auch gegen eine GeForce RTX 5090D gestellt wird.

Neben einigen Spielen gibt es auch Tests im 3DMark in allen möglichen Testszenarien, die quasi gar nicht auf die Hardware-Änderungen reagieren und mit dem neuen Modell nur 0 bis 3 Prozent langsamer laufen als mit der älteren GeForce RTX 5090D.

In Spielen nur messbar geringfügig langsamer

In den getesteten Spielen sieht es nicht grundsätzlich anders aus. Cyberpunk 2077 zeigt in Full HD mit DLSS 4 ein Prozent weniger Bilder pro Sekunde, in Ultra HD gibt es keinen Unterschied. Hogwarts Legacy läuft ein bis zwei Prozent langsamer, Borderlands 3 um drei Prozent, Far Cry New Dawn um ein Prozent und ein weiteres chinesisches Spiel, dessen Name unbekannt ist, um ein Prozent. Erwähnenswert ist, dass alle Spiele mit extrem hohen Frameraten laufen, was entweder auf sehr niedrige Grafikdetails oder auf den Einsatz DLSS Multi Frame Generation schließen lässt.

Benchmarks der GeForce RTX 5090D v2 (Bild: Yesky)

Die GeForce RTX 5090D v2 ist in Spielen damit vergleichbar schnell wie die GeForce RTX 5090 und die außerhalb Chinas erhältliche GeForce RTX 5090 (Test), die FPS-Unterschiede liegen bei höchstens drei Prozent, meistens aber noch darunter.

Das zeigt dann auch, dass die GeForce RTX 5090 zumindest aus der Spielesicht ihre enorme Speicherbandbreite überhaupt nicht benötigt. Ein 384-Bit-Speicherinterface ist völlig ausreichend, genauso wäre auch älterer GDDR6-Speicher an einem 512-Bit-Interface problemlos möglich. Anders sieht es aber in AI-Anwendungen und auch einigen Compute-Programmen aus, wo Speicherbandbreite sogar entscheidend ist. Darum ist das Reduzieren der Speicherbandbreite auch Nvidias Weg, um die AI-Leistung der GeForce RTX 5090 zu reduzieren.



Source link

Weiterlesen

Apps & Mobile Entwicklung

Xiaomi verkauft ab Mittwoch (20.8.) einen 65-Zoll-TV unter 400 Euro für alle Film-Fans!


Xiaomi veranstaltet aktuell die „Holiday Week“. Hier bekommt Ihr in verschiedenen Phasen einige richtig gute Angebote präsentiert. Besonders spannend ist hier ein Deal zum aktuellen Xiaomi TV F 2026. Der Hersteller verkauft den Smart-TV mit einer Bilddiagonale von 65 Zoll ab dem 20. August nämlich für unter 400 Euro.

Seid Ihr auf der Suche nach einem neuen 4K-TV und könnt Euch noch wenige Tage gedulden, bietet Xiaomi einen echten Deal-Kracher an. Im Online-Shop des Herstellers findet Ihr ab dem 20. August den neuen Xiaomi TV F 2026 mit satten 65 Zoll nämlich irre günstig*. Der Fernseher selbst kann technisch zudem durchaus überzeugen und kostet Euch dann sogar weniger als 400 Euro. Vor allem eine Kundengruppe kann sich jedoch freuen, denn die bekommen das Gerät sogar nochmal günstiger.

65-Zoll-TV unter 400 Euro – Lohnt sich das?

Xiaomi reiht sich mit dem TV F 65 2026 in die Riegen von Hisense, TCL oder sogar den Budget-Varianten von LG und Samsung ein. Der 4K-Fernseher bietet ein 65-Zoll-VA-Panel mit einer Direct-LED-Hintergrundbeleuchtung. Im Netz ist teilweise zwar auch die Rede von QLED, allerdings trifft dies nur auf die Pro-Variante zu. Bilder werden hier mit 3.840 x 2.160 (4K-UHD) aufgelöst. Dabei bietet das Gerät eine Bildwiederholrate von maximal 60 Hz. Allerdings könnt Ihr diese im Game-Boost-Modus noch einmal erhöhen.

Ein Xiaomi-Fernseher zeigt eine lebendige Nordlichtszene in dunkler Umgebung.
Der Xiaomi TV F 65 2026 ist ab dem 20. August für unter 400 Euro erhältlich. / © Xiaomi

Somit sind bis zu 120 Hz möglich. Trotzdem sind keine tatsächlichen 4K@120Hz-Darstellungen möglich, da der TV keine HDMI-2.1-Ports besitzt. Stattdessen setzt Xiaomi auf drei HDMI-2.0-Anschlüsse, die auch über eARC und ALLM verfügen. VRR sucht Ihr ebenfalls vergeblich. Das Bild wird durch HDR10+ und die sogenannte MEMC-Bewegungsglättung jedoch deutlich aufgehübscht, falls Ihr lieber Filme schauen möchtet.

Als Betriebssystem setzt der Hersteller auf Fire TV, was eine Vielzahl von Apps, darunter natürlich auch Netflix, Disney+ & Co., verspricht. Das Budget-Modell bietet also ein starkes Gesamtpaket für alle, die gerne Serien mit einer ordentlichen Bildqualität schauen und nicht zwingend auf höchstem Niveau zocken müssen.

Irrer Preis für den Smart-TV von Xiaomi

Ab dem 20. August könnt Ihr Euch den Xiaomi TV F 65 2026 für 399 Euro* direkt beim Hersteller ordern. Das entspricht einer Ersparnis von 170 Euro gegenüber der UVP. Das nächstbeste Angebot im Netz liegt zudem bei 479 Euro. Auch der Preisverlauf zeigt, dass der bisherige Tiefpreis von 449 Euro deutlich unterschritten wird. Allerdings geht das Ganze noch günstiger. Denn Neukunden, deren Account nicht älter als 30 Tage ist, können einen zusätzlichen Gutschein über die Aktionsseite von Xiaomi* aktivieren. Dadurch spart Ihr weitere 10 Prozent.

Somit könnt Ihr Euch den 65-Zoll-TV für gerade einmal 359,10 Euro* bestellen. Der Smart-TV (Kaufberatung) macht einen guten Eindruck. Mit einem Preisschild von über 500 Euro, würden wir Euch das Einsteigermodell jedoch nicht empfehlen. Für unter 400 Euro sieht die Sache jedoch anders aus. Ein vergleichbarer Fernseher wäre hier etwa der Hisense 65E7KQ, der über eine ähnliche Ausstattung, allerdings keinen Gaming-Boost-Modus besitzt. Für diesen zahlt Ihr aktuell jedoch satte 669,90 Euro bei Amazon*. Dafür bietet die Hisense-Variante ein QLED-Panel.

Holiday Week bei Xiaomi – Weitere Angebote entdecken

Laut den Bedingungen von Xiaomi* gilt das TV-Angebot vom 20. bis zum 29. August. Die Holiday Week* hingegen hat bereits am 12. August begonnen. Bedeutet, dass Ihr aktuell schon mächtig sparen könnt. Ist der Xiaomi-TV also nichts für Euch, könnt Ihr den auf der bereits erwähnten Neukunden-Aktionsseite* auch weitere Gutscheine entdecken und diese für die aktuellen Deals einlösen. So bekommt Ihr beispielsweise den Xiaomi Robot Vacuum X10+ für 414,99 Euro*, während der nächstbeste Preis im Netz bei deutlich über 480 Euro liegt. Weitere Deals findet Ihr nachfolgend:

Alle Preise sind bereits mit den Gutscheinen verrechnet. Hierzu zählen allerdings nicht die Neukunden-Gutscheine. Richtig spannend wird es meiner Meinung nach jedoch erst am 20. August, sobald der Smart-TV im Angebot* ist.

Was haltet Ihr von den Angeboten? Lohnt sich der Xiaomi TV F 65 2026 für unter 400 Euro? Lasst es uns wissen!



Source link

Weiterlesen

Apps & Mobile Entwicklung

Lexar Ares Pro: Die SSD mit dem Kriegsgott lässt eine Waffe missen


  • WD_Black SN8100 2 TB
    PCIe 5.0, SMI SM2508

  • Phison E28 2 TB (Referenz)
    PCIe 5.0, Phison E28

  • Crucial T705 2 TB
    PCIe 5.0, Phison E26

  • Corsair MP700 Pro SE 4 TB
    PCIe 5.0, Phison E26

  • Crucial T710 2 TB
    PCIe 5.0, SMI SM2508

  • MSI Spatium M580 Pro 2 TB
    PCIe 5.0, Phison E26

  • Samsung 9100 Pro 4 TB (Heatsink)
    PCIe 5.0, Samsung Presto

  • WD_Black SN8100 2 TB II
    PCIe 4.0, SMI SM2508

  • Adata XPG Mars 980 Blade 4 TB
    PCIe 5.0, SMI SM2508

  • Crucial T700 2 TB
    PCIe 5.0, Phison E26

  • Lexar NM1090 Pro 2 TB
    PCIe 5.0, SMI SM2508

  • Biwin X570 Pro 4 TB
    PCIe 5.0, SMI SM2508

  • Samsung 9100 Pro 4 TB (Heatsink) II
    PCIe 4.0, Samsung Presto

  • Biwin X570 2 TB
    PCIe 5.0, Maxio MAP1806

  • Corsair MP700 Elite 2 TB
    PCIe 5.0, Phison E31T

  • Kioxia Exceria Plus G4 2 TB
    PCIe 5.0, Phison E31T

  • Phison E31T (Referenz) 2 TB
    PCIe 5.0, Phison E31T

  • WD_Black SN850X 2 TB
    PCIe 4.0, SanDisk 20-82-20035-B2

  • WD_Black SN850X 8 TB
    PCIe 4.0, SanDisk 20-82-20035-B2

  • Kingston KC3000 2 TB
    PCIe 4.0, Phison E18

  • Crucial T500 2 TB
    PCIe 4.0, Phison E25

  • Seagate FireCuda 530 2 TB
    PCIe 4.0, Phison E18

  • Crucial P310 2 TB M.2 2230
    PCIe 4.0, Phison E27T

  • WD Blue SN5000 4 TB
    PCIe 4.0, SanDisk A101-000171-A1

  • Samsung 990 Evo Plus 2 TB
    PCIe 5.0 x2, Samsung Piccolo

  • Seagate FireCuda 530R 2 TB
    PCIe 4.0, Phison E18

  • Team Group MP44S 2 TB M.2 2230
    PCIe 4.0, Phison E21T

  • Corsair EX400U 2 TB USB 4
    USB 4.0 (40 Gbit/s)

  • Corsair EX400U 2 TB
    USB 3.2 Gen 2×2 (20 Gbit/s)

  • Lexar SL500 2 TB
    USB 3.2 Gen 2×2 (20 Gbit/s)

  • Kingston XS2000 2 TB
    USB 3.2 Gen 2×2 (20 Gbit/s)

  • Seagate Ultra Compact SSD 2 TB
    USB 3.2 Gen 2 (10 Gbit/s)

  • Seagate IronWolf Pro 24 TB
    SATA

  • S S D s m i t PCIe 5.0

  • Crucial P510 1 TB
    PCIe 5.0, Phison E31T

  • SK Hynix Platinum P51 1 TB
    PCIe 5.0, SK Hynix Alistar

  • Samsung 9100 Pro 4 TB
    PCIe 5.0, Samsung Presto

  • Samsung 990 Evo 2 TB (5.0)
    PCIe 5.0 x2, Samsung Piccolo

  • MSI Spatium M570 Pro 2 TB
    PCIe 5.0, Phison E26

  • Seagate FireCuda 540 2 TB
    PCIe 5.0, Phison E26

  • Corsair MP700 Pro 2 TB – Corsair-Kühler
    PCIe 5.0, Phison E26

  • Corsair MP700 Pro 2 TB – Strix-Kühler
    PCIe 5.0, Phison E26

  • Corsair MP700 2 TB
    PCIe 5.0, Phison E26

  • Crucial T700 2 TB neu
    PCIe 5.0, Phison E26

  • S S D s m i t PCIe 4.0

  • Samsung 990 Evo 2 TB (4.0)
    PCIe 4.0, Samsung Piccolo

  • Kioxia Exceria Plus G3 2 TB
    PCIe 4.0, Phison E21T

  • WD_Black SN770M 2 TB M.2 2230
    PCIe 4.0, SanDisk 20-82-10081-A1

  • Teracle T450 2 TB II
    PCIe 4.0, Innogrit IG5236

  • Teracle T450 2 TB
    PCIe 4.0, Innogrit IG5236

  • Lexar NM790 4 TB
    PCIe 4.0, Maxio MAP1602

  • Samsung 990 Pro 2 TB
    PCIe 4.0, Samsung Pascal

  • Samsung 990 Pro 1 TB
    PCIe 4.0, Samsung Pascal

  • Samsung 980 Pro 1 TB
    PCIe 4.0, Samsung Elpis

  • Kingston NV2 2 TB
    PCIe 4.0, SMI SM2267XT

  • Corsair MP600 Core XT 2 TB
    PCIe 4.0, Phison E21T

  • Corsair MP600 LPX
    PCIe 4.0, Phison E18

  • WD Blue SN580 1 TB
    PCIe 4.0, SanDisk 20-82-10082-A1

  • Samsung 970 Pro 512 GB
    PCIe 4.0, Samsung Phoenix

  • Samsung 960 Pro 512 GB
    PCIe 4.0, Samsung Polaris

  • S S D s m i t PCIe 3.0

  • Samsung 950 Pro 256 GB
    PCIe 3.0, Samsung UBX

  • Crucial P5 2 TB
    PCIe 3.0, Micron DM01B2

  • S S D s m i t SATA

  • Crucial MX500 1 TB
    SATA, SMI SM2259H

  • E X T E R N E S S D S

  • SanDisk Desk Drive 8 TB
    USB 3.2 Gen 2 (10 Gbit/s)

  • Crucial X10 Pro 2 TB
    USB 3.2 Gen 2×2 (20 Gbit/s)

  • Crucial X9 Pro 2 TB
    USB 3.2 Gen 2 (10 Gbit/s)

  • Crucial X6 4 TB
    USB 3.2 Gen 2 (10 Gbit/s)

  • Kingston XS1000 2 TB
    USB 3.2 Gen 2 (10 Gbit/s)

  • Samsung T9 2 TB (exFAT, 20 Gbit/s)
    USB 3.2 Gen 2×2 (20 Gbit/s)

  • Samsung T9 2 TB (NTFS, 20 Gbit/s)
    USB 3.2 Gen 2×2 (20 Gbit/s)

  • Samsung T9 2 TB (NTFS, 10 Gbit/s)
    USB 3.2 Gen 2 (10 Gbit/s)

  • Samsung T5 8 TB (NTFS, 10 Gbit/s)
    USB 3.2 Gen 2 (10 Gbit/s)

  • H D D s

  • WD My Passport 6 TB
    USB 3.2 Gen 1 (5 Gbit/s)

  • Seagate FireCuda Gaming Hard Drive 5 TB
    USB 3.2 Gen 1 (5 Gbit/s)

  • Seagate IronWolf Pro 30 TB
    SATA

  • Seagate Exos 18 TB
    SATA



  • Source link

    Weiterlesen

    Beliebt