Connect with us

Entwicklung & Code

Apple-Studie: Nutzer wollen transparente KI-Agenten statt Black-Box-Systeme


Apple-Forscher haben in einer zweiphasigen Studie untersucht, wie Nutzer mit KI-Agenten interagieren möchten. Das Ergebnis ist überraschend: Menschen bevorzugen weniger leistungsstarke, sondern eher transparente Agenten gegenüber leistungsstarken Black-Box-Systemen. Die im Februar 2026 veröffentlichte Studie „Mapping the Design Space of User Experience for Computer Use Agents“ identifiziert vier zentrale Kategorien für das UX-Design und analysiert neun bestehende Systeme wie Claude Computer Use Tool, OpenAI Operator und Googles Project Mariner.

Weiterlesen nach der Anzeige

Die Forscher untersuchten in Phase 1 ihrer Studie neun kommerzielle KI-Agent-Systeme und führten Interviews mit acht UX- und KI-Praktikern aus großen Technologieunternehmen. In Phase 2 testeten sie ihre Erkenntnisse mit 20 Teilnehmern in einem sogenannten Wizard-of-Oz-Experiment. So wird ein Versuch bezeichnet, bei dem ein Mensch (Proband) annimmt, mit einem autonomen (im Sinne der künstlichen Intelligenz) System zu kommunizieren, in Wirklichkeit aber mit einem Menschen interagiert. Die Probanden sollten Aufgaben wie Ferienwohnungsbuchungen oder Online-Shopping erledigen, während ein Forscher im Nebenraum die Agent-Aktionen simulierte. Die Teilnehmer konnten den vermeintlichen Agenten jederzeit mit einem Interrupt-Button stoppen. Die aufgezeichneten Videos und Chat-Logs lieferten Einblicke in die tatsächlichen Nutzererwartungen.

Ein zentrales Ergebnis: Nutzer wollen Einblick in Agent-Aktivitäten, aber kein Mikromanagement. Zu viel Kontrolle würde bedeuten, dass sie die Aufgaben gleich selbst erledigen könnten. Besonders wichtig ist den Probanden Transparenz bei unbekannten Bedienoberflächen. Dort wünschen sie mehr Zwischenschritte, Erklärungen und Bestätigungspausen – selbst bei Szenarien mit geringem Risiko. Bei Aktionen mit echten Konsequenzen wie Käufen, Kontoänderungen oder Kontaktaufnahmen mit anderen Menschen fordern Nutzer mehr Kontrolle.

Das Vertrauen in KI-Agenten bricht schnell zusammen, wenn das System stille Annahmen trifft oder Fehler macht. Bei mehrdeutigen Wahlmöglichkeiten bevorzugen Nutzer, dass der Agent pausiert und nachfragt, statt zufällig zu wählen. Besonders deutlich wird dies bei Entscheidungen, die zu falschen Produktauswahlen führen könnten.

Die neun analysierten Systeme, darunter Claude Computer Use Tool von Anthropic, OpenAI Operator und Googles Project Mariner, erfüllen die Nutzererwartungen laut den Forschern nur teilweise. Die Studie zeigt auch kontextabhängige Erwartungen: Nutzer wollen unterschiedliches Agent-Verhalten, je nachdem ob sie Optionen erkunden oder eine bekannte Aufgabe ausführen. Die Erwartungen ändern sich auch basierend auf der Vertrautheit mit einer Schnittstelle. Die gesammelten Erkenntnisse könnten direkten Einfluss auf Apples geplante Siri-Überarbeitung haben. So kündigte der iPhone-Hersteller im Sommer 2024 an, dass der Sprachassistent künftig appübergreifend Aufgaben erledigen soll. Die Veröffentlichung verzögerte sich jedoch. Aktuell wird erst in den nächsten Monaten damit gerechnet.

Weiterlesen nach der Anzeige

Apple verfolgt bei KI-Agenten einen deutlich konservativeren Ansatz als Konkurrenten wie OpenAI, Google und Meta. Während diese Unternehmen Milliarden in große, allgemeine Sprachmodelle investieren, konzentriert sich Apple auf gezielte, datenschutzorientierte Features mit Schwerpunkt auf On-Device-Verarbeitung.

Für rechenintensive Aufgaben evaluiert Apple externe Modelle, insbesondere Googles Gemini, plant aber, eine angepasste Version auf eigenen Servern zu betreiben. Persönliche Daten und Geräte-Kontext bleiben bei Apples eigenen In-House-Modellen. Die aktuelle Studie spielt Apple in die Hände: Nutzer akzeptieren lieber später startende, aber besser konzipierte Systeme als schnell eingeführte Black-Box-Lösungen.


(mki)



Source link

Entwicklung & Code

Spotify-Co-CEO: Top-Entwickler schreiben dank KI keinen Code mehr


Dieser Satz von Spotify-Co-CEO Gustav Söderström sorgt für Diskussionen: „Wenn ich mit meinen erfahrensten Ingenieuren spreche, den besten Entwicklern, die wir hatten, sagen sie, dass sie seit Dezember keine einzige Zeile Code mehr geschrieben haben. Sie generieren nur noch Code und überwachen ihn.“ Die Aussage aus der Analystenkonferenz zu den jüngsten Geschäftszahlen stößt im Netz auf gemischte Reaktionen: Während die einen fasziniert davon sind, wie stark Spotify die KI-Transformation in seinem Unternehmen vorangetrieben hat, womit Söderström vermutlich auch werben sollte, nehmen andere daran Anstoß. Das sei doch ein Kontrollverlust und kein Qualitätsmerkmal, kommentieren Kritiker.

Weiterlesen nach der Anzeige

Tatsächlich soll aber gerade die Kontrolle in der Softwareentwicklung bei Spotify bedeutsamer denn je geworden sein. Mit seiner Aussage in der Analystenkonferenz (Transkript bei Seekingalpha) wies Söderström auf einen fundamentalen Wandel in der Arbeitsweise hin. Und nicht ohne Grund stellte er vermutlich heraus, dass es gerade die besten Entwickler sind, die keinen Code mehr schreiben.

KI übernimmt in dieser Neuordnung die aktive Programmierung, während Entwickler – um es mit der Sportart Fußball zu vergleichen – zunehmend vom Spieler zum Trainer werden. Über Sieg oder Niederlage entscheiden Strategie und Vorbereitung der Spieler, nicht die Fähigkeit, den Ball selbst über den Platz zu bewegen. Und der Trainer muss während des Spiels alles im Auge behalten. Mit Einwechselungen und Zurufen nimmt er Einfluss auf das Spielgeschehen. Bezogen auf die Entwicklung wäre dies das Feedback an die KI, das Festlegen von Prioritäten und Reihenfolgen und das Beurteilen ihrer Leistung. Auch vor dem Einsatz agentischer KI haben erfahrene Entwickler architektonische Entscheidungen getroffen – mit der KI verlagert sich der Fokus noch mehr.

Spotify nutzt hierfür ein selbst entwickeltes System namens „Honk“ zur Beschleunigung von Coding und Produktentwicklung. Als technische Basis hierfür kommt Claude Code von Anthropic zum Einsatz. Entwickler können per Slack vom Smartphone aus Änderungen an der App beauftragen und etwa Bugfixes oder neue Funktionen hinzufügen. Das Ergebnis bekommen sie als Testversion zurückgespielt und geben der KI Feedback, bis der gewünschte Reifegrad erreicht ist.

Spotifys Erfolg mit KI-gestützter Entwicklung basiert nicht primär auf Claude Code selbst, sondern auf jahrelanger Infrastruktur-Arbeit. Seit dem Jahr 2020 nutzt Spotify „Backstage“, ein Portal, das als zentrale Anlaufstelle dient. Jeder im Unternehmen kann dort nachvollziehen, welches Team welchen Code verantwortet und wie die Abhängigkeiten zwischen verschiedenen Komponenten aussehen.

Darauf aufbauend entwickelte Spotify ab 2022 „Fleet Management“ – ein Framework, das Code-Änderungen über hunderte oder tausende Repositories gleichzeitig durchführen kann. Die Integration des Claude Agent SDK erfolgte erst im Juli 2025.

Weiterlesen nach der Anzeige

Spotify gehört zu einer kleinen Elite: Laut einer Deloitte-Studie von 2025 nutzen nur 11 Prozent der Organisationen Agentic AI in der Produktion. 30 Prozent explorieren das Thema, 38 Prozent betreiben Pilotprojekte.

Söderström sieht den aktuellen Stand nicht als Endpunkt: „Wir sehen dies nicht als Ende der Entwicklung bei KI, sondern erst als Anfang.“ Spotify plane weitere KI-Integration in Entwicklungsprozesse. Unklar bleibt freilich, ob sich das am Ende nicht doch auch auf die Job-Sicherheit der Entwickler auswirkt. Gespart werden könnte hier vor allem an Nachwuchskräften, denen die Erfahrung fehlt, die KI zu steuern. In Deutschland zeichnet sich ein solcher Trend bereits ab. Kritiker befürchten indessen, dass Entwickler zunehmend ihre praktischen Coding-Kenntnisse verlieren.


(mki)



Source link

Weiterlesen

Entwicklung & Code

Eclipse Theia 1.68: KI-Agenten lernen Skills und erledigen To-do-Listen


EclipseSource hat die Veröffentlichung von Eclipse Theia 1.68 bekanntgegeben, einer quelloffenen Entwicklungsplattform für Web- und Cloud-basierte Tools. Das aktuelle Release erlaubt das Verwenden von GitHub Copilot out-of-the-box und lässt KI-Agenten – noch als Alpha-Feature – Skills verwenden. Neben zahlreichen KI-bezogenen Updates gibt es auch weitere Neuerungen, unter anderem zur Verbesserung der Accessibility.

Weiterlesen nach der Anzeige

KI-Agenten können in Eclipse Theia durch das neue Tool todo_write den Fortschritt mehrstufiger Aufgaben visuell darstellen: Sie können To-do-Listen erzeugen, die im Chatfenster angezeigt und aktualisiert werden. Die Aufgaben erhalten, ihrem Status entsprechend, Icons für „noch nicht erledigt“, „in Arbeit“ oder „erledigt“. Um das Feature nutzen zu können, muss der neue Agenten-Modus „Agent Mode (Next)“ aktiviert sein. Dieser soll sich dadurch auszeichnen, dass er Coding-Aufgaben effektiver, zuverlässiger und autonomer durchführt.

Das Entwicklungsteam zeigt ein Beispiel: Ein Prompt fordert den KI-Agenten auf, eine To-do-Liste für das Kochen einer Mahlzeit zu erstellen und so zu tun, als würde er die dafür nötigen Schritte ausführen.


Der KI-Agent arbeitet eine virtuelle To-do-Liste ab.

Der KI-Agent arbeitet eine virtuelle To-do-Liste ab.

Der KI-Agent arbeitet eine virtuelle To-do-Liste ab.

(Bild: EclipseSource)

Entwicklerinnen und Entwickler mit aktivem GitHub-Copilot-Abo können dieses nun direkt innerhalb der Theia IDE sowie in mit Theia AI erstellten Tools verwenden. Sie benötigen dafür weder zusätzliche API-Keys noch Abos. Dahinter steht technisch das neue Package @theia/ai-copilot, das GitHub Copilot als Language-Model-Anbieter in Eclipse Theias KI-Framework integriert, mitsamt Authentifizierung per OAuth.

Weiterlesen nach der Anzeige

Wie der Authentifizierungsvorgang aussieht, demonstriert das EclipseSource-Team:


GitHub Copilot lässt sich direkt aus Eclipse Theia 1.68 heraus nutzen.

GitHub Copilot lässt sich direkt aus Eclipse Theia 1.68 heraus nutzen.

GitHub Copilot lässt sich direkt aus Eclipse Theia 1.68 heraus nutzen.

(Bild: EclipseSource)

Als Alpha-Feature können KI-Agenten in Eclipse Theia nun Agent Skills nutzen. Diese bestehen aus wiederverwendbaren Anweisungen und Domänenwissen, die Agenten aus SKILL.md-Dateien beziehen. Unter anderem können Agenten im Verzeichnis ~/.theia/skills/ vorhandene Skills automatisch entdecken, spezifische Skills per Entwickleranweisung mithilfe des Befehls /skillName nutzen oder Skills nach Bedarf laden. Für Letzteres dient die Variable {{skills}}, die Entwicklerinnen und Entwickler in Agenten-Prompts einfügen können.

Das Erstellen von Skills mithilfe des CreateSkill-Agenten befindet sich ebenfalls im Alpha-Status. Um projektspezifische Skills festzulegen, dient das KI-Chat-Interface. Dort können Developer den gewünschten Skill beschreiben, und der Agent wird eine korrekt strukturierte SKILL.md-Datei mitsamt entsprechendem YAML-Frontmatter und Markdown-Inhalt erstellen.

Für eine verbesserte Barrierefreiheit sind im Chat nun Fokusnavigationsbefehle verwendbar, um per Tastatur zwischen Input und Antworten zu navigieren (Strg/Cmd+oben/unten). Auch sind alle Chat-Buttons jetzt per Tastatur zugänglich, und für Screenreader stehen umfassende ARIA-Attribute bereit.

Daneben wurde die Kompatibilität mit Erweiterungen für Visual Studio Code auf die API-Version 1.108.0 erhöht und das Theia-Team hat einige Bugs behoben, wie der Blogeintrag zur Ankündigung aufführt.


(mai)



Source link

Weiterlesen

Entwicklung & Code

Codex-Spark: Schnelles Coding-Modell von OpenAI


Ein erstes Modell fürs Coden in Echtzeit, so beschreibt OpenAI das neu herausgebrachte GPT-5.3-Codex-Spark. Es ist eine Research-Preview und setzt erstmals auf einem Cerebras-Chip auf.

Weiterlesen nach der Anzeige

Codex-Spark soll besonders schnell sein – konkret 1000 Tokens in der Sekunde liefern können. Doch auch OpenAI schreibt in einem Blogbeitrag, dass das auf Kosten der Qualität gehen kann – das zeigt zumindest der Terminal-Bench 2.0, der auf die Genauigkeit abzielt. Dennoch soll dank der Schnelligkeit eine neue, andere interaktive Arbeit mit dem Modell möglich sein. Codex-Spark lässt sich beispielsweise auch in Echtzeit unterbrechen oder umlenken, heißt es. Es gibt aber etwa keine automatische Vorschau. Verarbeitet wird grundsätzlich nur Text, das Modell hat ein 128K-Kontextfenster.

Im Januar hatte OpenAI die Partnerschaft mit dem kalifornischen Chipdesigner Cerebras bekannt gegeben. Die haben seither verstärkt an einem Chip gearbeitet, der auf Inferenz ausgelegt ist, also besonders schnell KI-Algorithmen auszuführen. Bisher hatte OpenAI auf KI-Beschleuniger von Nvidia gesetzt. So richtig ausgereift klingt Codex-Spark allerdings noch nicht. Im Blogbeitrag steht, man wolle das Modell für frühe Experimente freigeben, während man unter anderem noch an der Endnutzer-Erfahrung arbeite. Zunächst gibt es auch spezielle Rate-Limits, dazu gehört, dass die Nutzung bei vielen Zugriffen auch grundlegend eingeschränkt werden kann. Zugriff haben ChatGPT-Pro-Nutzer mit Codex-App, der CLI und der VS-Code-Erweiterung.

OpenAI kündigt auch bereits an, dass Codex-Spark das erste Modell einer neuen „ultraschnellen Modell-Familie“ sein soll. Multimodalität und weitere Fähigkeiten sollen entsprechend folgen.

Erst vor wenigen Tagen hat OpenAI mit GPT-Codex-5.3 ein neues Modell mit Coding-Fähigkeiten veröffentlicht. Auch dieses soll vor allem schneller sein, als der Vorgänger. Hier geht es aber mitnichten um Echtzeit sondern um minutenlange Denkprozesse zur Aufgabenerfüllung. Zudem gibt es mit der Codex-App eine Kommandozentrale für KI-Workflows.

Sam Altman witzelt bei X, dass ihm das neue, schnelle Modell Freude bereiten würde. Dabei bezieht er sich mit dem englischen Satz „It sparks joy for me“ auf die 2010er Fernsehsendung, in der Marie Kondo Menschen beim Ausmisten geholfen hat. Die Aufräum- und Minimalismusexpertin fragte bei jedem Teil, ob es dem Besitzer Freude bereite – nur dann durfte man es behalten. Kondo allerdings ihren eigenen Spark-Stil längst über Bord geworfen und lässt eigenen Aussagen zufolge lieber ein bisschen Chaos zu.

Weiterlesen nach der Anzeige


(emw)



Source link

Weiterlesen

Beliebt