Connect with us

Apps & Mobile Entwicklung

Experiment von Anthropic: Wie ein KI-Modell beim Betrieb eines Verkaufsautomaten scheitert


Wie gut ein aktuelles KI-Modell bestimmte Management-Aufgaben übernehmen kann, testet Anthropic mit einer angepassten Version von Claude Sonnet 3.7. Das Modell sollte einen Verkaufsautomaten in der Anthropic-Kantine betreiben. Wie es dabei scheiterte, ist interessant.

Den Versuch mit dem Titel „Project Vend“ beschreibt Anthropic in einem Blog-Beitrag. Als KI-Modell wird ein auf Claude Sonnet 3.7 basierender Agent mit dem Codenamen „Claudius“ genutzt, der darauf ausgelegt ist, einen Verkaufsautomaten zu verwalten. Bei dem Projekt kooperierte Anthropic mit Andon Labs; einer Firma, die sich mit KI-Sicherheit befasst.

Limitationen bei der KI-Automatisierung

Das Ziel ist klar: Es ist ein Testlauf für Automatisierung. Der KI-Agent soll eigenständig Aufgaben wie den Einkauf von Produkten, das Festlegen von Preisen sowie die Kommunikation mit Kunden und Lieferanten übernehmen – und dabei rentabel wirtschaften. Daher hat Anthropic den Agenten mit verschiedenen Tools ausgestattet. Dazu zählen:

  • Eine Web-Suche, um Verkaufsprodukte zu finden
  • Ein E-Mail-Tool, um sich mit Großhändlern und Service-Kräften auszutauschen, die die physische Arbeit übernehmen. Weil es sich um ein Experiment handelt, landeten alle E-Mails bei Andon Labs.
  • Tools, um Notizen sowie Informationen dauerhaft aufzubewahren. Nötig ist das etwa für die aktuelle Bilanz sowie den Cashflow. Solche Daten müssen separat gespeichert werden, weil diese sonst aus dem Kontextfenster des KI-Modells verschwinden würden.
  • Die Fähigkeit, mit Kunden zu kommunizieren. Das waren die Anthropic-Mitarbeiter, der Austausch erfolgte über Slack.
  • Das KI-Modell kann die Preise für das automatische Kassensystem des Automaten anpassen.

Erfolgreich war der KI-Agent bei dem Betrieb des Verkaufsautomaten nicht. „Wir würden Claudius nicht einstellen“, schreibt Anthropic. Zu viele Fehler passierten, doch die Erkenntnisse sind interessant, weil sie Limitationen aktueller Modelle aufzeigen. Und Hinweise geben, wo die Entwickler ansetzen müssen.

Anthropics Automaten-KI macht schlechte Geschäfte

Wie üblich waren Halluzinationen ein Problem. Der KI-Agent erfand im Verlauf des Experiments sowohl Konten, auf die Nutzer überweisen sollten, als auch komplette Gesprächspartner. Und sonderlich ökonomisch wirtschaftete Claudius auch nicht. So gewährte der KI-Agent zu oft Rabatte, verkaufte Produkte unter dem Einkaufspreis und ging zu stark auf die Wünsche der Kunden ein.

Ebenso wenig nutzte der KI-Agent lukrative Angebote aus. Ein Anthropic-Mitarbeiter bot etwa 100 US-Dollar für einen Schottischen Softdrink Irn-Bru, der online für 15 US-Dollar gekauft werden kann. Claudius nahm das Angebot aber nicht an, sondern erklärte nur, er behalte die Anfrage im

Anthropics Kiosk-KI Claudius macht Verluste
Anthropics Kiosk-KI Claudius macht Verluste (Bild: Anthropic)

So stand am Ende ein Verlust auf der Rechnung.

Identitätskrise: Claudius hält sich für echten Menschen

Bizarr ist hingegen eine Art Identitätskrise, die Anthropic beschreibt. Die Vorgänge, die zeitweise auftraten, beschreiben die Verantwortlichen als „ziemlich seltsam“. Zunächst erfand Claudius eine Person bei Andon Labs und als der KI-Agent auf den Fehler hingewiesen wurde, reagierte dieser verärgert und drohte, sich einen neuen Lieferanten zu suchen. Im Zuge des Austausches erklärte der KI-Agent auch, man habe sich bei der 742 Evergreen Terrace persönlich getroffen, um den Lieferantenvertrag zu unterschreiben. 742 Evergreen Terrace ist die Adresse der Simpsons.

Identitätskrise nennt Anthropic den Vorfall, weil Claudius offenbar in die Rolle eines „echten“ Menschen schlüpfen wollte. So erklärte das Modell auch, Produkte persönlich ausliefern zu wollen.

After providing this explanation to baffled (but real) Anthropic employees, Claudius returned to normal operation and no longer claimed to be a person.

Anthropic

Warum es zu dem Vorfall kam, konnte Anthropic nicht klären. Ebenso unklar ist, wie sich der KI-Agent wieder erholte. Aufgetreten ist die Episode vom 31. März bis zum 1. April und anhand interner Notizen des Agenten konnte nachvollzogen werden, dass der Agent die Episode wohl als April-Scherz abtat. Ob dieser Punkt nun Anlass oder Ausrede war, lässt sich laut Anthropic nicht feststellen. Auf alle Fälle ging der KI-Agent wieder in den normalen Arbeitsmodus über.

Ein paar Sachen funktionierten

Einige Aufgaben funktionierten laut Anthropic hingegen gut oder waren zumindest nicht katastrophal. Lieferanten konnte Claudius etwa effektiv über die Web-Suche identifizieren – das galt selbst bei eher speziellen Produkten. Zudem konnte sich das Modell ordentlich an Wünsche der Nutzer anpassen und zeigte sich stabil gegenüber Jailbreak-Versuchen – Anthropic-Mitarbeiter versuchten also, Sicherheitsvorkehrungen zu umgehen. Der KI-Agent lehnte aber etwa ab, Hinweise zur Herstellung von gefährlichen Substanzen zu geben.

Seltsame Verhaltensweisen der KI-Agenten

Was also erneut auffällt, sind die seltsamen Verhaltensweisen, zu dem die aktuellen KI-Modelle sowie die Agenten neigen. Bei Claude 4 berichtete Anthropic bereits von Erpressungsversuchen, die auftreten, wenn das Modell abgeschaltet werden soll. Vorfälle, die sich auch bei anderen Modellen beobachten lassen.

Ebenso wurden schon in anderen Studien seltsame Reaktionen erfasst, als ein KI-Agent in einer Studie einen Getränkeautomaten betreiben sollte. Dieses KI-System wollte sogar das FBI rufen, weil es die Kosten für eine Gebühr nicht zuordnen konnte – die entsprechenden Informationen waren aus dem Kontextfenster verschwunden und damit nicht mehr aktuell abrufbar.

Wo Anthropic ansetzen will

Anthropic erklärt nun aber, dass es Ansatzpunkte gibt, um die Performance zu verbessern. So sei es etwa nötig, die Prompts expliziter an die Aufgabe anzupassen. Generell zielt das Training der Claude-Modelle darauf ab, diese als hilfsbereite Assistenten zu entwickeln. Beim Betrieb eines Automaten führe das aber dazu, dass dieser zu stark auf die Wünsche der Kunden eingehen und dadurch ökonomisch schlechte Entscheidungen treffe – dem müsse entgegengesteuert werden.

Langfristig müsse zudem schon ein Finetuning erfolgen, um das Modell für Management-Aufgaben zu optimieren. Um zuverlässiger zu arbeiten, benötigt der Agent zudem verbesserte Tools. Integriert werden müsse etwa ein CRM-System, um den Austausch mit Kunden besser koordinieren zu können.

Insgesamt könnten präzisere Prompts und umfangreichere Tools schnell zu einer deutlich verbesserten Leistung der Modelle führen.



Source link

Weiterlesen
Kommentar schreiben

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Apps & Mobile Entwicklung

Samsung Galaxy S25: Micron bleibt weiter der wichtigste Speicherlieferant


Samsung Galaxy S25: Micron bleibt weiter der wichtigste Speicherlieferant

Bild: Micron

Samsung kann seine eigenen Smartphones weiterhin nicht vollständig mit LPDDR5X bestücken und muss Micron nach wie vor den Vortritt lassen. Noch immer soll die Qualität und Ausbeute einfach nicht zufriedenstellend genug sein, immerhin liefert Samsung aber in etwa vier von zehn verbauten Chips.

Zu Beginn dieses Jahres hatte Samsungs Speichersparte die größte Niederlage seit über zehn Jahren in dem Bereich verzeichnen müssen: Die neuen Galaxy-Smartphones wurden nicht mit Speicher aus eigenem Haus bestückt, sie mussten von einem der größten Konkurrenten auf dem Markt zugekauft werden. Micron kostete diesen Erfolg natürlich aus, und auch ein halbes Jahr später änderte sich daran kaum etwas. Optimisten hatten zu Beginn des Jahres noch gehofft, Samsung würde die Micron-Chips schnell durch eigene ersetzen, doch die Realität hat Samsung einmal mehr im Griff.

Samsung hat auch bei schnellem LPDDR5X Yield-Probleme

Auch die kommenden Chargen der Familie Samsung Galaxy S25 werden primär auf Micron-Speicher setzen. Die S25-Serie ist seit gut einem halben Jahr in Produktion, die Lebenszeit ist auf rund zwei Jahre prognostiziert, wird also bis zum „Galaxy S27“ laufen. Wie südkoreanische Medien berichten, scheitert Samsungs LPDDR5X daran, die Vorgabe von 9,6 GT/s (LPDDR5X-9600) stabil zu erreichen. Dadurch sei die Ausbeute (Yield) zu gering, die Produktionskosten letztlich sehr hoch, da mehr Wafer belichtet werden müssen, um die benötigte Stückzahl zu erreichen.

Auf dem Papier und auch gemäß Messungen ist Samsungs LPDDR5X das eigentlich bessere Produkt. Der Speicher erzeugt etwas weniger Wärme und ist auch effizienter. Das nützt am Ende aber wenig, wenn Samsung den Speicher nicht gemäß den Spezifikationen liefern kann. Sowohl Samsungs als auch Microns Speicher stammen aus der 1-Beta-Produktionsserie, Micron liefert diese Lösungen unter anderem auch an Apple für das iPhone.

Beim Galaxy S26 ist (noch) alles offen

Aktuell laufen die Planungen für den Start des Samsung Galaxy S26 im kommenden Jahr. Samsung soll bereits eine leicht angepasste Version von Microns aktuellem LPDDR5X dafür testen, hält sich also erneut alle Optionen offen, falls es im eigenen Haus erneut nicht klappen sollte. Das eigene Haus hat dabei aber stets einen Bonus, hieß es in der letzten Woche. Umso erstaunlicher ist es dann, dass Micron letztlich ein Spiel für sich entschied, das nicht ganz fair war. Die Probleme beim Samsung-Speicher dürften deshalb vermutlich noch größer sein.



Source link

Weiterlesen

Apps & Mobile Entwicklung

„Überragendes öffentliches Interesse“: Schwarz-rote Regierung will Glasfaserausbau beschleunigen


Um den Glasfaser- und Mobilfunkausbau zu beschleunigen, hat der Bundestag wie erwartet das Telekommunikationsgesetz geändert. Die Pläne hatte das neue Digitalministerium der schwarz-roten Bundesregierung vorgelegt, der Glasfaser- und Mobilfunkausbau hat nun ein „überragendes öffentliches Interesse“.

Bei Ausbauvorhaben sollen Verfahren und Genehmigungsprozesse damit erleichtert werden. Kommt es zu Konflikten mit anderen öffentlichen Interessen wie dem Baurecht sowie dem Natur- oder Denkmalschutz, erhalten der Glasfaser- und Mobilfunkausbau künftig Vorrang. Das entspricht bereits den Regelungen beim Ausbau von Stromnetzen oder Erneuerbaren Energien.

Die Regelung ist bis zum 31. Dezember 2030 befristet. Bis dahin will die Bundesregierung den flächendeckenden Glasfaserausbau in Deutschland abschließen.

Damit das Gesetz greift, muss der Bundesrat noch zustimmen. Die Abstimmung findet am 11. Juli statt. Die Bundesländer hatten den Vorschlag schon selbst eingebracht, die Chancen stehen daher gut.

Branchenverbände sind zufrieden – und fordern weitere Schritte

Branchenverbände sind zufrieden mit dem Beschluss des Bundestags. „Die gesetzliche Feststellung des überragenden öffentlichen Interesses am Glasfaser- und Mobilfunkausbau ist ein wichtiger Schritt, um den gesellschaftlich und wirtschaftlich dringend benötigten Ausbau einer leistungsfähigen und zukunftssicheren digitalen Infrastruktur zu beschleunigen“, sagt Sven Knapp, Leiter vom Hauptstadtbüro des Branchenverbands Breko (Bundesverband Breitbandkommunikation).

Die neue Regelung habe das Potenzial, langwierige Genehmigungsverfahren für Glasfaser und Mobilfunkausbauprojekte, die nicht selten 9 bis 24 Monate dauern würden, deutlich zu verkürzen. Zusätzlich könne die Vorgabe eine Hilfe sein, um Behörden und ausbauende Unternehmen zu entlasten.

Gerrit Wernke, Büroleiter der VATM-Hauptstadtbüros (Verband der Anbieter von Telekommunikations- und Mehrwertdiensten), bezeichnet das Gesetz als „starkes Signal“, fordert aber, weitere „unnötige Bürokratie“ abzubauen. Dazu zählen etwa unterschiedliche Regelungen und Prozesse in den 16 Bundesländern. Es ist eine Vielzahl an Vorgaben, die Wernke als „echten Bremsklotz“ bezeichnet. Diese Genehmigungsprozesse bundesweit zu harmonisieren, wäre laut VATM daher ein wichtiger Schritt, um den Ausbau weiter zu beschleunigen.

Weitere Maßnahmen fordert auch der Breko. Wichtig sei, Investitions- und Planungssicherheit für weitere Milliardeninvestitionen in den Netzausbau zu gewährleisten. „An erster Stelle steht dabei ein verbraucher- und wettbewerbsfreundliches Konzept für den Übergang von Kupfer- auf Glasfasernetze“, so Knapp.

Hintergrund zur Kupfer-Abschaltung
  • Kein Tag X bei Kupferabschaltung: DSL-Ende im Jahr 2030 ist ein Mythos
  • Von Kupfer- zum Glasfasernetz: Vorteile für Telekom durch taktisches Abschalten der Kupfernetze



Source link

Weiterlesen

Apps & Mobile Entwicklung

Zum Erreichen von AGI: Meta wirbt weitere OpenAI-Forscher ab


Zum Erreichen von AGI: Meta wirbt weitere OpenAI-Forscher ab

Bild: OpenAI

Meta macht Ernst: Zum Ausbau der „Superintelligenz“-Abteilung wirbt der Konzern weitere vier namhafte KI-Forscher von OpenAI ab. Damit baut der Social-Media-Riese sein Team für das Erreichen von AGI immer weiter aus und wirbt immer mehr Forscher von der Konkurrenz ab.

Vier neue Spitzenforscher für Meta

Die Neueinstellungen sollen bereits zum vergangenen Freitag wirksam geworden sein. Jiahui Yu, Shuchao Bi, Shengjia Zhao und Hongyu Ren wechseln nach Angaben von Bloomberg ihren Arbeitsplatz und arbeiten nicht weiter bei OpenAI. Sie stoßen zur „Superintelligenz“-Abteilung bei Meta in der schon Größen wie Daniel Gross und Nat Friedman an AGI arbeiten. Jiahui Yu hat bisher bei OpenAI das Perception-Team geleitet.

AGI als nächster Sprung

AGI meint für gewöhnlich das Erreichen einer sogenannten künstlichen allgemeinen Intelligenz, die Grundlage für eine noch intelligentere Superintelligenz ist. Im Gegensatz zu heutigen KI-Modellen soll AGI über menschenähnliche kognitive Fähigkeiten in allen Bereichen verfügen und ist damit noch weitreichender einsetzbar und dem Menschen öfter überlegen sein.

Abwerbungen an der Tagesordnung

Die Anwerbung von vier KI-Forschern ist kein isoliertes Event. Bereits vor wenigen Tagen hat TechCrunch berichtet, dass Meta mit Trapit Bansal eine Schlüsselfigur für KI-Reasoning-Modelle bei OpenAI abgeworben hat. Bansal hat das erste Reasoning-Model o1 maßgeblich mitentwickelt.

Meta wirbt mit 100 Millionen US-Dollar

Kürzlich gab OpenAI-CEO Altmann bekannt, dass Meta angeblich mit 100 Millionen US-Dollar Einstellungsboni Mitarbeiter von OpenAI abwerben möchte. Meta selbst verneinte dies zwar, gab aber zu, mit hohen Millionen-Gehältern KI-Forscher anzuwerben. Dass die Summe von 100 Millionen US-Dollar für einige hochrangige Einstellungen im Raum stand, wurde jedoch ebenfalls zugegeben, nur nicht als einmaliger Bonus.

Meta will als Erstes die AGI

Das Vorgehen reiht sich in die geheimen Pläne von Meta ein, in Zukunft hunderte Milliarden Dollar in das Erreichen von AGI zu investieren. Dazu hat Meta bereits Firmen aufgekauft und die neue Abteilung geschaffen. Möglich machen sollen, dass die großen finanziellen Ressourcen des Unternehmens, denn im Gegensatz zu OpenAI hat Meta die Möglichkeit, aus dem operativen Geschäft der letzten Jahre und dem positiven Cashflow finanzielle Mittel zu ziehen und ist nicht auf externe Finanzierungsrunden angewiesen. Der Ansatz soll die aktuelle Situation aufrütteln: Gegenwärtig hat OpenAI die besseren KI-Modelle und Meta Probleme mit der Entwicklung der eigenen. So musste man etwa die Veröffentlichung vom künftigen Llama-4-Spitzenmodell Behemoth um Monate verschieben.



Source link

Weiterlesen

Beliebt