Entwicklung & Code

Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform


JetBrains hat den Start der Developer Productivity AI Arena (DPAI Arena) verkündet. Dabei handelt es sich um eine offene Plattform für das Benchmarking von Developer-Tools, die künstliche Intelligenz (KI) nutzen. Die Benchmarks für die KI-Coding-Agenten sollen sich über mehrere Programmiersprachen, Frameworks und Workflows erstrecken – den Anfang machen Java und Spring.

Weiterlesen nach der Anzeige

Mithilfe der neuen Plattform können Anbieter von KI-Tools diese testen und verfeinern, und Entwickler erhalten transparente Einblicke. In Zukunft plant JetBrains die DPAI Arena an die Linux Foundation zu übergeben.

Aktuelle Benchmarks stützten sich auf veraltete Datensätze, deckten nur einen engen Bereich an Technologien ab und fokussierten sich zu stark auf den Workflow von Issue bis Patch, begründet JetBrains die Entwicklung der Developer Productivity AI Arena. Diese verfolgt hingegen den Ansatz, nicht einzig den Issue-Patch-Workflow zu berücksichtigen, sondern eine Multi-Track-Architektur zur Bewertung von KI-Coding-Agenten zu nutzen. Unterschiedliche Communities und Anbieter können Datensätze für spezifische Arten von Softwareentwicklungs-Workflows beisteuern.

Laut JetBrains soll die DPAI Arena einen neuen Standard für Infrastrukturkonfiguration repräsentieren und ein konsolidiertes, einheitliches sowie skalierbares Benchmarking ermöglichen. In Planung befindet sich auch ein CLI, mit dem sich die Benchmarks in bestehende CI-Pipelines integrieren lassen, etwa in GitHub Actions.

Als grundlegender Track ist der Workflow von Issue bis Patch enthalten, der das Beheben von Bugs und das Implementieren von Feature-Requests misst. Zusätzlich gibt es in der DPAI Arena weitere Tracks:

Weiterlesen nach der Anzeige

  • Der Pull-Request-Review-Track evaluiert die Fähigkeit eines KI-Agenten, Pull Requests zu analysieren und zu verbessern.
  • Der Coverage-Track misst, wie gut KI-Agenten Unit-Tests schreiben oder erweitern, um die Codeabdeckung zu erhöhen.
  • Der Static-Analysis-Track befasst sich mit dem Identifizieren und Beheben von Schwierigkeiten beim Linting oder der statischen Analyse.
  • Der Upgrade-Track testet, wie gut sich ein KI-Agent beim sicheren Aktualisieren von Dependencies und Frameworks schlägt.
  • Der Compliance-Track evaluiert das Befolgen von Coding-Standards im Unternehmen oder in der Industrie.

Den Anfang in der DPAI Arena macht ein Benchmark für Anwendungen, die mit dem Spring-Framework erstellt wurden, einem Open-Source-Framework für Java. Der Benchmark enthält 15 quelloffene Spring-basierte Projekte mit verschiedenen Architekturen, von Microservices bis hin zu modularen Monolithen. Er bietet ein Set aus über 140 Tasks, die realistische Anforderungen im Enterprise-Umfeld widerspiegeln sollen.

Aktuell kommen zur Evaluation in der DPAI Arena deterministische Tests zum Einsatz, basierend auf Pass/Fail-Metriken. Künftig sollen diese durch ein LLM-gestütztes Beurteilungsframework abgelöst werden, um eine qualitative Dimension einzubringen.

Das Unternehmen JetBrains betont in der Ankündigung, dass die Developer Productivity AI Arena über das Benchmarking hinausgehend eine Plattform für die Zusammenarbeit sein soll. Künftig soll sie an die Linux Foundation übergehen, mit einem offenen, richtungsweisenden Technical Steering Committee. Wer Interesse hat, ein Teil davon zu werden, kann das DPAI-Arena-Team per Mail kontaktieren.

Zudem sind die Ersteller von Coding-Agenten, Framework-Maintainer sowie Nutzerinnen und Nutzer von KI-gestützten Entwicklungswerkzeugen dazu aufgerufen, sich am Projekt zu beteiligen, das auf GitHub zu finden ist.

Auf der Website der Developer Productivity AI Arena finden sich derzeit die Benchmarks für die KI-Coding-Agenten OpenAI Codex CLI, Anthropic Claude Code, JetBrains Junie CLI und Google Gemini CLI.


(mai)



Source link

Beliebt

Die mobile Version verlassen