Entwicklung & Code
Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform
JetBrains hat den Start der Developer Productivity AI Arena (DPAI Arena) verkündet. Dabei handelt es sich um eine offene Plattform für das Benchmarking von Developer-Tools, die künstliche Intelligenz (KI) nutzen. Die Benchmarks für die KI-Coding-Agenten sollen sich über mehrere Programmiersprachen, Frameworks und Workflows erstrecken – den Anfang machen Java und Spring.
Weiterlesen nach der Anzeige
Mithilfe der neuen Plattform können Anbieter von KI-Tools diese testen und verfeinern, und Entwickler erhalten transparente Einblicke. In Zukunft plant JetBrains die DPAI Arena an die Linux Foundation zu übergeben.
DPAI Arena für einheitliches KI-Benchmarking
Aktuelle Benchmarks stützten sich auf veraltete Datensätze, deckten nur einen engen Bereich an Technologien ab und fokussierten sich zu stark auf den Workflow von Issue bis Patch, begründet JetBrains die Entwicklung der Developer Productivity AI Arena. Diese verfolgt hingegen den Ansatz, nicht einzig den Issue-Patch-Workflow zu berücksichtigen, sondern eine Multi-Track-Architektur zur Bewertung von KI-Coding-Agenten zu nutzen. Unterschiedliche Communities und Anbieter können Datensätze für spezifische Arten von Softwareentwicklungs-Workflows beisteuern.
Laut JetBrains soll die DPAI Arena einen neuen Standard für Infrastrukturkonfiguration repräsentieren und ein konsolidiertes, einheitliches sowie skalierbares Benchmarking ermöglichen. In Planung befindet sich auch ein CLI, mit dem sich die Benchmarks in bestehende CI-Pipelines integrieren lassen, etwa in GitHub Actions.
Die Multi-Track-Architektur im Detail
Als grundlegender Track ist der Workflow von Issue bis Patch enthalten, der das Beheben von Bugs und das Implementieren von Feature-Requests misst. Zusätzlich gibt es in der DPAI Arena weitere Tracks:
Weiterlesen nach der Anzeige
- Der Pull-Request-Review-Track evaluiert die Fähigkeit eines KI-Agenten, Pull Requests zu analysieren und zu verbessern.
- Der Coverage-Track misst, wie gut KI-Agenten Unit-Tests schreiben oder erweitern, um die Codeabdeckung zu erhöhen.
- Der Static-Analysis-Track befasst sich mit dem Identifizieren und Beheben von Schwierigkeiten beim Linting oder der statischen Analyse.
- Der Upgrade-Track testet, wie gut sich ein KI-Agent beim sicheren Aktualisieren von Dependencies und Frameworks schlägt.
- Der Compliance-Track evaluiert das Befolgen von Coding-Standards im Unternehmen oder in der Industrie.
Start mit dem Spring Framework
Den Anfang in der DPAI Arena macht ein Benchmark für Anwendungen, die mit dem Spring-Framework erstellt wurden, einem Open-Source-Framework für Java. Der Benchmark enthält 15 quelloffene Spring-basierte Projekte mit verschiedenen Architekturen, von Microservices bis hin zu modularen Monolithen. Er bietet ein Set aus über 140 Tasks, die realistische Anforderungen im Enterprise-Umfeld widerspiegeln sollen.
Aktuell kommen zur Evaluation in der DPAI Arena deterministische Tests zum Einsatz, basierend auf Pass/Fail-Metriken. Künftig sollen diese durch ein LLM-gestütztes Beurteilungsframework abgelöst werden, um eine qualitative Dimension einzubringen.
Das Unternehmen JetBrains betont in der Ankündigung, dass die Developer Productivity AI Arena über das Benchmarking hinausgehend eine Plattform für die Zusammenarbeit sein soll. Künftig soll sie an die Linux Foundation übergehen, mit einem offenen, richtungsweisenden Technical Steering Committee. Wer Interesse hat, ein Teil davon zu werden, kann das DPAI-Arena-Team per Mail kontaktieren.
Zudem sind die Ersteller von Coding-Agenten, Framework-Maintainer sowie Nutzerinnen und Nutzer von KI-gestützten Entwicklungswerkzeugen dazu aufgerufen, sich am Projekt zu beteiligen, das auf GitHub zu finden ist.
Auf der Website der Developer Productivity AI Arena finden sich derzeit die Benchmarks für die KI-Coding-Agenten OpenAI Codex CLI, Anthropic Claude Code, JetBrains Junie CLI und Google Gemini CLI.
(mai)
Entwicklung & Code
Neue Features im App Store: Mehr Freiheiten für Entwickler
App-Entwickler, die in Apples App Stores Software verkaufen, können ab sofort mehrere Einreichungen gleichzeitig vom App Review prüfen lassen. Dies teilte der iPhone-Hersteller mit. Mit zusätzlichen Custom Product Pages und der Umstellung auf einheitliche Offer Codes kündigte Apple noch weitere Verbesserungen für Entwickler an.
Weiterlesen nach der Anzeige
Bislang war es bei Einreichungen so, dass jeweils pro App immer nur eine gleichzeitig vorgenommen werden konnte. Mit der Änderung ist es möglich, zusätzliche Inhalte unabhängig von bestehenden Einreichungen in die Prüfung zu geben. Damit können Entwickler zum Beispiel In-App-Events einreichen, während noch eine neue App-Version im Review ist. Früher mussten sie immer erst einmal die bestehende Prüfung abwarten. Die Verbesserung soll zum Beispiel auch helfen, kritische Bugfixes getrennt von Custom Product Pages einzureichen.
Zahl der Custom Product Pages verdoppelt
Die maßgeschneiderten Landing Pages, von Apple Custom Product Page genannt, werden in ihrer Zahl von 35 auf 70 verdoppelt. Diese Seiten können zum Beispiel für die Bewerbung von Apps genutzt werden. Wer über den jeweiligen Link geht, bekommt dann zum Beispiel eine App-Store-Seite angezeigt, die andere Schwerpunkte setzt, als die allgemeine Info-Seite zur App im App Store. Wer möchte, kann die speziellen Landing Pages auch anzeigen lassen, wenn Nutzer des App Stores nach bestimmten Keywords suchen. Neu ist auch, dass jetzt Schlüsselwörter (Keywords) jeder einzelnen Custom Product Page zugeordnet werden können.
Offer Codes, die den kostenlosen oder vergünstigten Abruf einer App oder ihrer Inhalte ermöglichen, unterstützen jetzt alle Arten von In-App-Kauf. Sie sind damit für Verbrauchsgüter, Nicht-Verbrauchsgüter und Abonnements verwendbar, die sich nicht erneuern. Eine erweiterte Unterstützung wird für automatisch erneuernde Abonnements angeboten. Diese können so konfiguriert werden, dass sie nach einer Werbephase nicht automatisch verlängert werden. Apple teilte zugleich mit, dass die bisherigen Promo Codes für In-App-Käufe abgeschafft werden. Ab dem 26. März 2026 können keine neuen mehr erstellt werden. Bestehende behalten bis zum Ablauf ihre Gültigkeit. Für kostenlose App-Downloads bleiben Promo Codes bestehen.
Apple hat in der Vergangenheit immer wieder an Verbesserungen des App Review gefeilt. In den Anfangstagen waren vor allem lange Wartezeiten bei Prüfungen ein Ärgernis. Vor 2015 mussten Entwickler oft über eine Woche, manchmal sogar über zwei Wochen lang warten. Mit der Übernahme der App-Store-Leitung durch den früheren Marketingchef und heutigen Fellow Phil Schiller nahm das App Review Tempo auf. Im Mai 2016 betrug die durchschnittliche Wartezeit nur noch 1,95 Tage, zwischen den Jahren 2020 und 2024 lag sie statistisch bei durchschnittlich 11 Stunden.
(mki)
Entwicklung & Code
Microsoft veröffentlicht Azure MCP Server v1.0 für KI-Agenten
Microsoft hat die stabile Version 1.0.0 des Azure MCP Server veröffentlicht. Er implementiert das Model Context Protocol (MCP) und dient als Schnittstelle zwischen KI-Agenten und Azure-Diensten. So können Entwickler Cloud-Ressourcen über natürliche Sprache oder Code abfragen, verwalten und automatisieren. Das komplette Projekt stellt Microsoft als Open Source zur Verfügung.
Weiterlesen nach der Anzeige
KI-Agenten mit Azure kombiniert
Das Model Context Protocol ist ein offener Standard, der eine einheitliche Kommunikation zwischen den von KI-Agenten verwendeten LLMs und Backend-Systemen ermöglicht – unabhängig vom jeweiligen Agent-Framework. Der Azure MCP-Server unterstützt in Version 1.0.0 mehr als 47 Azure-Dienste, darunter Azure AI Foundry, Azure AI Search, Event Hubs, Service Bus, PostgreSQL, Kusto, Function Apps, Storage und Log Analytics.
Insgesamt stehen 170 Befehle zur Verfügung, die Microsoft zu strukturierten Funktionen zusammengeführt hat. Dabei gibt es drei Betriebsmodi: Der Standard-Namespace-Modus gruppiert Werkzeuge nach logischen Bereichen, alternativ lassen sich alle Tools aktivieren oder nur einzelne Funktionen freischalten. Dies soll insbesondere das Onboarding und Testen vereinfachen.
Für den DevOps-Einsatz stellt Microsoft ein Docker-Image über die eigene Container-Registry bereit. Damit lässt sich der Azure MCP Server in CI/CD-Pipelines integrieren. Die Unterstützung für gängige Entwicklungsumgebungen wie Visual Studio Code, Visual Studio und IntelliJ ist über entsprechende Erweiterungen vorgesehen.
Sicherheit und Performance im Fokus
Weiterlesen nach der Anzeige
Bei sicherheitskritischen Operationen setzt der Azure MCP Server auf verpflichtende Bestätigungen durch den Nutzer. Alle Interaktionen erfolgen innerhalb der Azure-Sicherheits- und Governance-Mechanismen. Microsoft hat zudem die Performance durch .NET Ahead-of-Time-Kompilierung (AOT) optimiert, was zu kürzeren Startzeiten und geringerem Ressourcenverbrauch führen soll.
Die vollständige Dokumentation und der Quellcode sind über das offizielle GitHub-Repository verfügbar. Für die nächsten Updates plant Microsoft laut Ankündigung eine engere Integration mit Azure-Werkzeugen und erweiterte Unterstützung für Container-Workloads.
(fo)
Entwicklung & Code
OpenAI bringt neues Open-Weight-Reasoning-Modell heraus
Eigentlich gibt es sogar zwei gpt-oss-safeguard-Modelle – nämlich in den Größen 120b und 20b. Beides sind Open-Weight-Reasoning-Modelle von OpenAI und dafür gedacht, in Unternehmen eingesetzt zu werden. Fokus bei der Entwicklung lag auf der möglichen Durchsetzung von Sicherheitsmaßnahmen – daher auch der Name. Unternehmen haben ganz unterschiedliche Anforderungen an das, was ein Modell kann, beziehungsweise, wo die Grenzen der darauf aufbauenden Anwendungen liegen.
Weiterlesen nach der Anzeige
Zudem können die Modelle an die eigene Infrastruktur angepasst werden. Sie stehen unter Apache 2.0-Lizenz. Sie sind bei Hugging Face verfügbar. Wie üblich bei KI handelt es sich um eine Preview.
Dass die Modelle spezialisiert sind auf Sicherheitsmaßnahmen, bedeutet, dass sie besonders gut Richtlinien befolgen können. Dafür nutzt das jeweilige Modell Schlussfolgerungen – also die Reasoning-Fähigkeit. Richtlinien, die Entwickler selbst festlegen können, werden laut OpenAI bereits zum Zeitpunkt der Inferenz interpretiert. Zudem können die Gedankenketten des Modells eingesehen und überprüft werden. Das soll dabei helfen, zu verstehen, wie Modelle zu Entscheidungen gekommen sind. Darauf aufbauend lassen sich dann wiederum weitere Maßnahmen ergreifen. Da die Modelle beim Verarbeiten einer Anfrage die vorgegebenen Richtlinien abarbeiten, ist es besser möglich, iterativ weitere Richtlinien festzulegen, wenn der Bedarf entsteht. Andere Modelle, so schreibt es OpenAI, die Richtlinien bereits im Training lernten, könnten nicht so gut auf neue Anforderungen reagieren.
Da im Blogbeitrag von OpenAI auch steht, dass die neuen Modelle Anwendung finden, wenn Latenz nicht so wichtig sei wie qualitativ hochwertige Reaktionen, dürfte der Reasoning-Prozess das Antworten etwas verlangsamen.
Bei der Entwicklung von gpt-oss-safeguard hat OpenAI mit ROOST zusammengearbeitet. Das ist eine Community, die sich dem Aufbau einer robusten, offenen und sicheren KI-Infrastruktur verschrieben hat.
Sicherheitsmaßnahmen für geschlossene Modelle
Wer OpenAIs geschlossene Modelle nutzt, kann beispielsweise über die Realtime-API auf ein integriertes Moderationssystem zugreifen. Entwickler können hier die Ausgabe abbrechen, sobald das Gespräch in eine unerwünschte Richtung geht. Freilich kommen alle gpt-Modelle mit bereits eingebauten Richtlinien und Leitplanken daher.
Weiterlesen nach der Anzeige
Zuletzt hatte OpenAI weitere Sicherheitsmaßnahmen für ChatGPT eingeführt. Dabei geht es um den Schutz von Personen mit mentalen Gesundheitsproblemen.
(emw)
-
UX/UI & Webdesignvor 2 MonatenDer ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 2 MonatenAdobe Firefly Boards › PAGE online
-
Social Mediavor 2 MonatenRelatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
UX/UI & Webdesignvor 2 WochenIllustrierte Reise nach New York City › PAGE online
-
Entwicklung & Codevor 2 MonatenPosit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 MonatenEventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 1 MonatFake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Apps & Mobile Entwicklungvor 2 MonatenGalaxy Tab S10 Lite: Günstiger Einstieg in Samsungs Premium-Tablets
