Entwicklung & Code
Software Testing: Fußballanalyse trifft Softwaretest
Für diese Episode seines Podcasts Software Testing hat sich Richard Seidl gleich zwei Gäste eingeladen: Sven Braxein und Athanasios Kallinikidis. Gemeinsam sprechen sie über Process Mining im Test, Regressionstests und die Frage, wie echte Nutzungsdaten Prioritäten setzen. Auslöser ist ein Großprojekt mit Systemablösung und dem Vorwurf zu geringer Abdeckung.
Weiterlesen nach der Anzeige
Über Athanasios Kallinikidis und Sven Braxein
Athanasios Kallinikidis ist 28 Jahre alt und im Kreis Esslingen bei Stuttgart geboren und aufgewachsen. An der Technischen Universität München absolvierte er den Bachelor und Master in Management & Technology mit Schwerpunkt Informatik. Ein Praktikum bei Celonis entfachte seine Leidenschaft für Process Mining und legte den Grundstein für seinen Karrierefokus. Heute treibt er bei Mercedes‑Benz Leasing Deutschland als Product Owner im Platform Team Business‑IT die Weiterentwicklung der Process‑Mining‑Plattform voran. Athanasios ist leidenschaftlicher Fußballfan und hat das Coaching als zweite Berufung entdeckt. Als Werkstudent arbeitete er in der Spielanalyse des FC Bayern München II in der 3. Liga. Die dort erlernten Analysekompetenzen überträgt er aktuell auf die Arbeit mit seiner Kreisliga‑Herrenmannschaft.
Sven Braxein ist Gründer und Geschäftsführer der 2008 gegründeten TestGilde GmbH. Er arbeitet seit 30 Jahren in der Beratung von IT-Projekten mit Fokus auf Software-Qualitätssicherung und -Test. Sein Schwerpunkt liegt im Testmanagement für Großprojekte sowie in der Konzeption und Umsetzung unternehmensweiter Testmanagementstrukturen. Wenn es das Thema Qualität und Test noch nicht gäbe, für ihn müsste es erfunden werden.
Bei diesem Podcast dreht sich alles um Softwarequalität: Ob Testautomatisierung, Qualität in agilen Projekten, Testdaten oder Testteams – Richard Seidl und seine Gäste schauen sich Dinge an, die mehr Qualität in die Softwareentwicklung bringen.
Die aktuelle Ausgabe ist auch auf Richard Seidls Blog verfügbar: „Fußballanalyse trifft Softwaretest – Sven Braxein und Athanasios Kallinikidis“ und steht auf YouTube bereit.
Weiterlesen nach der Anzeige
(mdo)
Entwicklung & Code
KI-Agenten unter sich: Meta schluckt Moltbook-Plattform
Meta hat sich den Reddit-Klon der KI-Agenten einverleibt: Die Plattform Moltbook erregte vor einigen Wochen Aufsehen als Treffpunkt für KI-Agenten. Verschiedene Computer, auf denen die KI-Software OpenClaw installiert war, tauschten sich in dem Forum offenbar über ihre menschlichen Besitzer und ihre Erfahrungen aus. Jetzt hat Meta mit dem Portal auch die Gründer Matt Schlicht und Ben Parr angeheuert und will sie künftig in seinen Meta Superintelligence Labs (MSL) beschäftigen. Den Kaufpreis hat das Unternehmen nicht bekanntgegeben.
Weiterlesen nach der Anzeige
Was genau Meta sich von der Übernahme von Moltbook verspricht, ist unklar. Meta-CTO Andrew Bosworth sagte noch im Februar während einer Fragestunde auf Instagram, dass er es nicht besonders interessant finde, wenn auf Moltbook KI-Agenten menschenähnlich schreiben. Schließlich seien sie auf menschlichen Daten trainiert.
Moltbook sorgte primär dafür, dass OpenClaw einer breiteren Öffentlichkeit bekannt wurde. Die eigentliche KI-Leistung ging aber von OpenClaw aus. Der Wrapper für KI-Modelle, der es ermöglicht, KI-Agenten über populäre Chat-Apps wie iMessage, Discord, Slack oder WhatsApp in natürlicher Sprache anzusprechen, war zuvor vor allem in der Tech-Community bekannt. OpenClaw-Erfinder Peter Steinberger wurde übrigens auch von der KI-Industrie übernommen – er schloss sich OpenAI an.
Per Vibecoding entstanden
Beide Projekte – Moltbook und OpenClaw – haben gemeinsam, dass sie per Vibecoding entstanden sind. Die jeweiligen Entwickler haben dabei natürlichsprachliche Prompts eingesetzt, um von KI-Modellen Code generieren zu lassen – klassisches Programmierhandwerk war kaum gefragt.
Hinzu kommt, dass schnell Zweifel an der Authentizität der Beiträge auf Moltbook aufkamen. Sicherheitsforscher fanden heraus, dass es recht einfach möglich war, Tokens aus einer ungesicherten öffentlichen Datenbank zu laden, um sich damit als beliebiger Agent auszugeben. Für Furore sorgte etwa ein Post, der scheinbar zeigte, wie ein KI-Agent andere dazu anstiftete, eine geheime Sprache zu entwickeln, um sich ohne Wissen der Menschen zu organisieren. Dahinter steckte jedoch in Wirklichkeit ein Mensch.
Lesen Sie auch
(mki)
Entwicklung & Code
KI-Agenten werden am Arbeitsmarkt vorbei entwickelt
Die Entwicklung von KI-Agenten konzentriert sich stark auf Programmieraufgaben und bildet die Anforderungen des realen Arbeitsmarkts nur unzureichend ab. Das ist das zentrale Ergebnis einer Studie von Forschenden der Stanford University und der Carnegie Mellon University.
Weiterlesen nach der Anzeige
Das Team um Zora Z. Wang hat für die auf arXiv veröffentlichte Untersuchung 43 gängige Benchmarks mit insgesamt 72.342 Aufgaben analysiert und diese auf 1.016 Berufe des US-Arbeitsmarkts abgebildet. Die Berufe stammen aus der Berufstaxonomie O*NET der US-Regierung, die berufliche Tätigkeiten unter anderem nach dem Arbeitsfeld und den verlangten Fähigkeiten klassifiziert.
Einseitige Tests
Das Ergebnis ist ernüchternd: Die Benchmarks testen KI-Agenten ganz überwiegend im Arbeitsfeld „Computer and Mathematical“ – eine Berufskategorie, die nur 7,6 Prozent der US-Beschäftigung ausmacht. Die Anforderungen hoch digitalisierter und wirtschaftlich bedeutender Felder wie Management, Recht, Architektur und Ingenieurwesen werden hingegen kaum abgedeckt.
Bei den getesteten Fähigkeiten zeigt sich ein vergleichbares Muster: Enge Aktivitäten wie „Getting Information“ und „Working with Computers“ sind überrepräsentiert, obwohl sie nur einen kleinen Teil der Beschäftigung ausmachen. Die für viele Berufe zentrale Kategorie „Interacting with Others“ fehlt in den Benchmarks fast vollständig.
Insgesamt decken die 43 untersuchten Benchmarks 56,5 Prozent der Arbeitsfeld-Taxonomie und 85,4 Prozent der Fähigkeiten-Taxonomie ab. Am breitesten aufgestellt ist der Benchmark GDPval mit 47,8 Prozent Domänen- und 58,5 Prozent Fähigkeiten-Abdeckung.
Agenten scheitern an komplexen Aufgaben
Die Analyse zeigt auch, dass KI-Agenten bei steigender Aufgabenkomplexität deutlich an ihre Grenzen stoßen – besonders bei Aufgaben aus den Kategorien Informationsverarbeitung und zwischenmenschliche Interaktion. Das steht in Einklang mit anderen aktuellen Ergebnissen: Der Benchmark LiveAgentBench etwa ergab, dass Agenten mit Werkzeugzugriff nur 24 Prozent von 104 praxisnahen Aufgaben lösen konnten, während Menschen auf 69 Prozent kamen.
Weiterlesen nach der Anzeige
Die Forschenden leiten aus ihren Ergebnissen drei Prinzipien für künftige Benchmarks ab: Diese sollten eine breitere Abdeckung realer Berufsdomänen und Fähigkeiten bieten, realistischere und komplexere Aufgabenstellungen umfassen und feingranulare Bewertungskriterien nutzen. Ohne eine solche Neuausrichtung bestehe das Risiko, dass die KI-Agenten-Entwicklung an den wirtschaftlich und gesellschaftlich relevanten Einsatzgebieten vorbeiläuft.
(odi)
Entwicklung & Code
Bericht: KI-Coding-Tools verursachten Ausfälle bei Amazon
Der Gebrauch von KI-Coding-Tools soll bei Amazon zu Ausfällen seiner E-Commerce-Plattform geführt haben. Laut einem Bericht wurde deshalb ein bislang freiwilliges wöchentliches Meeting umgewidmet, an dem alle beteiligten Entwickler teilnehmen müssen. Ein erstes Ergebnis: Künftig sollen KI-assistierte Code-Änderungen nur noch nach Prüfung durch erfahrene Kräfte freigegeben werden.
Weiterlesen nach der Anzeige
Anfang März soll es zu knapp sechsstündigen Ausfällen auf Amazon.com und in der Shopping-App gekommen sein. Kunden konnten dem Bericht zufolge keine Käufe tätigen, ihre Daten oder Preise abrufen. Als Ursache wurde offiziell eine fehlerhafte Software-Aktualisierung genannt.
Einzelne Fehler mit weitreichenden Folgen
Internen Unterlagen zufolge hätten KI-generierte Änderungen die Probleme ausgelöst, berichtet die Financial Times unter Berufung auf nicht genannte Quellen im Unternehmen. Es fehlten Best Practices und Sicherheitsmechanismen für den Gebrauch der generativen KI. Einzelne Fehler hätten deshalb zu weitreichenden Folgeschäden geführt. Bereits vor knapp anderthalb Jahren war öffentlich geworden, dass Amazon von Softwareentwicklern inzwischen erwartet, dass sie KI für viele Programmieraufgaben verwenden.
Neben der Einkaufsseite soll auch Amazons Cloud-Sparte AWS in mindestens zwei Fällen Probleme durch KI-Coding-Assistenten verzeichnet haben. Im Dezember etwa habe das Amazon-eigene KI-Tool „Kiro“ eigenständig eine Produktionsumgebung gelöscht und sie neu erstellt. Folge sei ein 13-stündiger Ausfall eines Kostenkalkulators für AWS-Kunden gewesen. Amazon selbst habe nur von einem sehr kleinen Problem gesprochen, das nur einen einzelnen Dienst in Teilen Chinas betraf.
Intern soll es Diskussionen geben, ob nicht auch der Stellenabbau bei Amazon in die Probleme hineinwirkt. Amazon hatte sich von 16.000 Mitarbeitern getrennt. Seither sei die Zahl kritischer Probleme gestiegen, berichten Entwickler laut der FT. Amazon selbst bestreitet einen Zusammenhang. Auch die ergriffenen Maßnahmen seien „normaler Geschäftsbetrieb“ und Teil kontinuierlicher Verbesserungen.
(mki)
-
Künstliche Intelligenzvor 2 MonatenSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Social Mediavor 4 WochenCommunity Management zwischen Reichweite und Verantwortung
-
Social Mediavor 1 WocheCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Künstliche Intelligenzvor 3 Wochen
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Entwicklung & Codevor 3 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Künstliche Intelligenzvor 3 MonatenDigital Health: „Den meisten ist nicht klar, wie existenziell IT‑Sicherheit ist“
-
Social Mediavor 3 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
UX/UI & Webdesignvor 1 MonatEindrucksvolle neue Identity für White Ribbon › PAGE online
