Entwicklung & Code
Bericht: KI-Coding-Tools verursachten Ausfälle bei Amazon
Der Gebrauch von KI-Coding-Tools soll bei Amazon zu Ausfällen seiner E-Commerce-Plattform geführt haben. Laut einem Bericht wurde deshalb ein bislang freiwilliges wöchentliches Meeting umgewidmet, an dem alle beteiligten Entwickler teilnehmen müssen. Ein erstes Ergebnis: Künftig sollen KI-assistierte Code-Änderungen nur noch nach Prüfung durch erfahrene Kräfte freigegeben werden.
Weiterlesen nach der Anzeige
Anfang März soll es zu knapp sechsstündigen Ausfällen auf Amazon.com und in der Shopping-App gekommen sein. Kunden konnten dem Bericht zufolge keine Käufe tätigen, ihre Daten oder Preise abrufen. Als Ursache wurde offiziell eine fehlerhafte Software-Aktualisierung genannt.
Einzelne Fehler mit weitreichenden Folgen
Internen Unterlagen zufolge hätten KI-generierte Änderungen die Probleme ausgelöst, berichtet die Financial Times unter Berufung auf nicht genannte Quellen im Unternehmen. Es fehlten Best Practices und Sicherheitsmechanismen für den Gebrauch der generativen KI. Einzelne Fehler hätten deshalb zu weitreichenden Folgeschäden geführt. Bereits vor knapp anderthalb Jahren war öffentlich geworden, dass Amazon von Softwareentwicklern inzwischen erwartet, dass sie KI für viele Programmieraufgaben verwenden.
Neben der Einkaufsseite soll auch Amazons Cloud-Sparte AWS in mindestens zwei Fällen Probleme durch KI-Coding-Assistenten verzeichnet haben. Im Dezember etwa habe das Amazon-eigene KI-Tool „Kiro“ eigenständig eine Produktionsumgebung gelöscht und sie neu erstellt. Folge sei ein 13-stündiger Ausfall eines Kostenkalkulators für AWS-Kunden gewesen. Amazon selbst habe nur von einem sehr kleinen Problem gesprochen, das nur einen einzelnen Dienst in Teilen Chinas betraf.
Intern soll es Diskussionen geben, ob nicht auch der Stellenabbau bei Amazon in die Probleme hineinwirkt. Amazon hatte sich von 16.000 Mitarbeitern getrennt. Seither sei die Zahl kritischer Probleme gestiegen, berichten Entwickler laut der FT. Amazon selbst bestreitet einen Zusammenhang. Auch die ergriffenen Maßnahmen seien „normaler Geschäftsbetrieb“ und Teil kontinuierlicher Verbesserungen.
(mki)
Entwicklung & Code
KI-Agenten unter sich: Meta schluckt Moltbook-Plattform
Meta hat sich den Reddit-Klon der KI-Agenten einverleibt: Die Plattform Moltbook erregte vor einigen Wochen Aufsehen als Treffpunkt für KI-Agenten. Verschiedene Computer, auf denen die KI-Software OpenClaw installiert war, tauschten sich in dem Forum offenbar über ihre menschlichen Besitzer und ihre Erfahrungen aus. Jetzt hat Meta mit dem Portal auch die Gründer Matt Schlicht und Ben Parr angeheuert und will sie künftig in seinen Meta Superintelligence Labs (MSL) beschäftigen. Den Kaufpreis hat das Unternehmen nicht bekanntgegeben.
Weiterlesen nach der Anzeige
Was genau Meta sich von der Übernahme von Moltbook verspricht, ist unklar. Meta-CTO Andrew Bosworth sagte noch im Februar während einer Fragestunde auf Instagram, dass er es nicht besonders interessant finde, wenn auf Moltbook KI-Agenten menschenähnlich schreiben. Schließlich seien sie auf menschlichen Daten trainiert.
Moltbook sorgte primär dafür, dass OpenClaw einer breiteren Öffentlichkeit bekannt wurde. Die eigentliche KI-Leistung ging aber von OpenClaw aus. Der Wrapper für KI-Modelle, der es ermöglicht, KI-Agenten über populäre Chat-Apps wie iMessage, Discord, Slack oder WhatsApp in natürlicher Sprache anzusprechen, war zuvor vor allem in der Tech-Community bekannt. OpenClaw-Erfinder Peter Steinberger wurde übrigens auch von der KI-Industrie übernommen – er schloss sich OpenAI an.
Per Vibecoding entstanden
Beide Projekte – Moltbook und OpenClaw – haben gemeinsam, dass sie per Vibecoding entstanden sind. Die jeweiligen Entwickler haben dabei natürlichsprachliche Prompts eingesetzt, um von KI-Modellen Code generieren zu lassen – klassisches Programmierhandwerk war kaum gefragt.
Hinzu kommt, dass schnell Zweifel an der Authentizität der Beiträge auf Moltbook aufkamen. Sicherheitsforscher fanden heraus, dass es recht einfach möglich war, Tokens aus einer ungesicherten öffentlichen Datenbank zu laden, um sich damit als beliebiger Agent auszugeben. Für Furore sorgte etwa ein Post, der scheinbar zeigte, wie ein KI-Agent andere dazu anstiftete, eine geheime Sprache zu entwickeln, um sich ohne Wissen der Menschen zu organisieren. Dahinter steckte jedoch in Wirklichkeit ein Mensch.
Lesen Sie auch
(mki)
Entwicklung & Code
KI-Agenten werden am Arbeitsmarkt vorbei entwickelt
Die Entwicklung von KI-Agenten konzentriert sich stark auf Programmieraufgaben und bildet die Anforderungen des realen Arbeitsmarkts nur unzureichend ab. Das ist das zentrale Ergebnis einer Studie von Forschenden der Stanford University und der Carnegie Mellon University.
Weiterlesen nach der Anzeige
Das Team um Zora Z. Wang hat für die auf arXiv veröffentlichte Untersuchung 43 gängige Benchmarks mit insgesamt 72.342 Aufgaben analysiert und diese auf 1.016 Berufe des US-Arbeitsmarkts abgebildet. Die Berufe stammen aus der Berufstaxonomie O*NET der US-Regierung, die berufliche Tätigkeiten unter anderem nach dem Arbeitsfeld und den verlangten Fähigkeiten klassifiziert.
Einseitige Tests
Das Ergebnis ist ernüchternd: Die Benchmarks testen KI-Agenten ganz überwiegend im Arbeitsfeld „Computer and Mathematical“ – eine Berufskategorie, die nur 7,6 Prozent der US-Beschäftigung ausmacht. Die Anforderungen hoch digitalisierter und wirtschaftlich bedeutender Felder wie Management, Recht, Architektur und Ingenieurwesen werden hingegen kaum abgedeckt.
Bei den getesteten Fähigkeiten zeigt sich ein vergleichbares Muster: Enge Aktivitäten wie „Getting Information“ und „Working with Computers“ sind überrepräsentiert, obwohl sie nur einen kleinen Teil der Beschäftigung ausmachen. Die für viele Berufe zentrale Kategorie „Interacting with Others“ fehlt in den Benchmarks fast vollständig.
Insgesamt decken die 43 untersuchten Benchmarks 56,5 Prozent der Arbeitsfeld-Taxonomie und 85,4 Prozent der Fähigkeiten-Taxonomie ab. Am breitesten aufgestellt ist der Benchmark GDPval mit 47,8 Prozent Domänen- und 58,5 Prozent Fähigkeiten-Abdeckung.
Agenten scheitern an komplexen Aufgaben
Die Analyse zeigt auch, dass KI-Agenten bei steigender Aufgabenkomplexität deutlich an ihre Grenzen stoßen – besonders bei Aufgaben aus den Kategorien Informationsverarbeitung und zwischenmenschliche Interaktion. Das steht in Einklang mit anderen aktuellen Ergebnissen: Der Benchmark LiveAgentBench etwa ergab, dass Agenten mit Werkzeugzugriff nur 24 Prozent von 104 praxisnahen Aufgaben lösen konnten, während Menschen auf 69 Prozent kamen.
Weiterlesen nach der Anzeige
Die Forschenden leiten aus ihren Ergebnissen drei Prinzipien für künftige Benchmarks ab: Diese sollten eine breitere Abdeckung realer Berufsdomänen und Fähigkeiten bieten, realistischere und komplexere Aufgabenstellungen umfassen und feingranulare Bewertungskriterien nutzen. Ohne eine solche Neuausrichtung bestehe das Risiko, dass die KI-Agenten-Entwicklung an den wirtschaftlich und gesellschaftlich relevanten Einsatzgebieten vorbeiläuft.
(odi)
Entwicklung & Code
Anthropic stellt Multi-Agent-Code-Review für Claude Code vor
Anthropic hat ein neues Multi-Agent-System für automatisierte Code-Reviews vorgestellt, das Entwicklerinnen und Entwickler insbesondere beim Prüfen von durch KI erzeugten Pull Requests (PRs) entlasten soll. Es steht als Research-Preview für Team- und Enterprise-Kunden bereit.
Weiterlesen nach der Anzeige
Wie Anthropic im Blog beschreibt, startet das Tool bei Eröffnung eines Pull Request mehrere Agenten, die parallel unterschiedliche Aufgaben abarbeiten. Die einen suchen gezielt nach logischen Fehlern, andere verifizieren die Funde, um False Positives herauszufiltern. Ein finaler Agent aggregiert die Ergebnisse, entfernt Duplikate und priorisiert die gefundenen Probleme nach Schweregrad. Das Tool nutzt dabei die Modelle der Claude-4-Serie, darunter Claude Sonnet 4 und Sonnet 4.6, die sich über CLI bedienen lassen.
Das System skaliert mit der Größe der PRs: Ab tausend geänderten Zeilen setzt Code Review mehr Agenten ein und analysiert den gesamten Codebasis-Kontext. Bei kleineren Aufgaben beschränkt es sich auf einen einfachen Durchlauf. Im Schnitt dauert eine Analyse laut Anthropic rund zwanzig Minuten. Intern hat die Firma das System bereits seit Monaten im Einsatz: Vor der Einführung des KI-Reviews erhielten dort nur 16 Prozent der PRs substanzielle Review-Kommentare, mit KI 54 Prozent. Bei großen PRs liegt die Quote nun sogar bei 84 Prozent, mit durchschnittlich 7,5 gefundenen Problemen. Die False-Positive-Rate gibt Anthropic mit unter einem Prozent an – gemessen daran, wie oft Entwickler einen Fund als falsch markierten.
Actions als Open-Source weiter verfügbar
Die Abrechnung erfolgt tokenbasiert. Im Durchschnitt veranschlagt Anthropic ein Review mit 15 bis 25 US-Dollar, die bisherigen, alternativen Open-Source-Actions auf GitHub will Anthropic weiterhin anbieten. Administratoren erhalten ein Dashboard mit einer Übersicht von überprüften PRs, Akzeptanzraten und Kosten sowie der Möglichkeit, monatliche Obergrenzen festzulegen.
Der Output von Code ist mit künstlicher Intelligenz stark angestiegen, sodass das Sichten in vielen Unternehmen, aber auch in Open-Source-Projekten, zum Engpass wird. Anthropic spricht beispielsweise von einer Zunahme von 200 Prozent mehr Output pro Entwickler im vergangenen Jahr.
Lesen Sie auch
(who)
-
Künstliche Intelligenzvor 2 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 4 WochenCommunity Management zwischen Reichweite und Verantwortung
-
Social Mediavor 1 WocheCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Künstliche Intelligenzvor 3 Wochen
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Entwicklung & Codevor 3 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Künstliche Intelligenzvor 3 MonatenDigital Health: „Den meisten ist nicht klar, wie existenziell IT‑Sicherheit ist“
-
Social Mediavor 3 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
UX/UI & Webdesignvor 1 MonatEindrucksvolle neue Identity für White Ribbon › PAGE online
