Entwicklung & Code

Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform

JetBrains hat den Start der Developer Productivity AI Arena (DPAI Arena) verkündet. Dabei handelt es sich um eine offene Plattform für das Benchmarking von Developer-Tools, die künstliche Intelligenz (KI) nutzen. Die Benchmarks für die KI-Coding-Agenten sollen sich über mehrere Programmiersprachen, Frameworks und Workflows erstrecken – den Anfang machen Java und Spring.

Weiterlesen nach der Anzeige

Mithilfe der neuen Plattform können Anbieter von KI-Tools diese testen und verfeinern, und Entwickler erhalten transparente Einblicke. In Zukunft plant JetBrains die DPAI Arena an die Linux Foundation zu übergeben.

DPAI Arena für einheitliches KI-Benchmarking

Aktuelle Benchmarks stützten sich auf veraltete Datensätze, deckten nur einen engen Bereich an Technologien ab und fokussierten sich zu stark auf den Workflow von Issue bis Patch, begründet JetBrains die Entwicklung der Developer Productivity AI Arena. Diese verfolgt hingegen den Ansatz, nicht einzig den Issue-Patch-Workflow zu berücksichtigen, sondern eine Multi-Track-Architektur zur Bewertung von KI-Coding-Agenten zu nutzen. Unterschiedliche Communities und Anbieter können Datensätze für spezifische Arten von Softwareentwicklungs-Workflows beisteuern.

Laut JetBrains soll die DPAI Arena einen neuen Standard für Infrastrukturkonfiguration repräsentieren und ein konsolidiertes, einheitliches sowie skalierbares Benchmarking ermöglichen. In Planung befindet sich auch ein CLI, mit dem sich die Benchmarks in bestehende CI-Pipelines integrieren lassen, etwa in GitHub Actions.

Die Multi-Track-Architektur im Detail

Als grundlegender Track ist der Workflow von Issue bis Patch enthalten, der das Beheben von Bugs und das Implementieren von Feature-Requests misst. Zusätzlich gibt es in der DPAI Arena weitere Tracks:

Weiterlesen nach der Anzeige

Der Pull-Request-Review-Track evaluiert die Fähigkeit eines KI-Agenten, Pull Requests zu analysieren und zu verbessern.
Der Coverage-Track misst, wie gut KI-Agenten Unit-Tests schreiben oder erweitern, um die Codeabdeckung zu erhöhen.
Der Static-Analysis-Track befasst sich mit dem Identifizieren und Beheben von Schwierigkeiten beim Linting oder der statischen Analyse.
Der Upgrade-Track testet, wie gut sich ein KI-Agent beim sicheren Aktualisieren von Dependencies und Frameworks schlägt.
Der Compliance-Track evaluiert das Befolgen von Coding-Standards im Unternehmen oder in der Industrie.

Start mit dem Spring Framework

Den Anfang in der DPAI Arena macht ein Benchmark für Anwendungen, die mit dem Spring-Framework erstellt wurden, einem Open-Source-Framework für Java. Der Benchmark enthält 15 quelloffene Spring-basierte Projekte mit verschiedenen Architekturen, von Microservices bis hin zu modularen Monolithen. Er bietet ein Set aus über 140 Tasks, die realistische Anforderungen im Enterprise-Umfeld widerspiegeln sollen.

Aktuell kommen zur Evaluation in der DPAI Arena deterministische Tests zum Einsatz, basierend auf Pass/Fail-Metriken. Künftig sollen diese durch ein LLM-gestütztes Beurteilungsframework abgelöst werden, um eine qualitative Dimension einzubringen.

Das Unternehmen JetBrains betont in der Ankündigung, dass die Developer Productivity AI Arena über das Benchmarking hinausgehend eine Plattform für die Zusammenarbeit sein soll. Künftig soll sie an die Linux Foundation übergehen, mit einem offenen, richtungsweisenden Technical Steering Committee. Wer Interesse hat, ein Teil davon zu werden, kann das DPAI-Arena-Team per Mail kontaktieren.

Zudem sind die Ersteller von Coding-Agenten, Framework-Maintainer sowie Nutzerinnen und Nutzer von KI-gestützten Entwicklungswerkzeugen dazu aufgerufen, sich am Projekt zu beteiligen, das auf GitHub zu finden ist.

Auf der Website der Developer Productivity AI Arena finden sich derzeit die Benchmarks für die KI-Coding-Agenten OpenAI Codex CLI, Anthropic Claude Code, JetBrains Junie CLI und Google Gemini CLI.

(mai)

Source link

Verwandte Themen:benchmark BenchmarkPlattform Gut IT JetBrains KI-Coding-Tools KICodingAgenten Künstliche Intelligenz Large Language Model sind startet Wie

Up Next

docs.cloud.google.com: Google bündelt technische Dokumentation

Nicht verpassen

Red Hat integriert Nvidia CUDA in Enterprise-Linux und OpenShift

Entwicklung & Code

Docker Inc. macht gehärtete Abbilder kostenlos verfügbar

Docker Inc. hat angekündigt, ein bisher kostenpflichtiges Produkt fortan kostenlos anzubieten: Docker Hardened Images (DHI). Der Erfinder der Software Docker und Betreiber des Docker Hubs erklärt, damit auf Lieferkettenangriffe zu reagieren, die auch im Containerumfeld vorkommen. Die gehärteten Abbilder enthalten ein aufs absolut Nötige reduziertes Userland einer Distribution und unterscheiden sich dadurch von den sogenannten „Official Images“, die man ohne Login im Docker Hub (hub.docker.com) für viele Anwendungen findet.

Weiterlesen nach der Anzeige

Weniger Spuren der Distribution

Als Beispiel reicht ein Blick auf den Webserver Nginx und dessen Abbild: Im öffentlichen Hub gibt es Abbilder mit dem Namen nginx, die auf den Distributionen Alpine oder Debian aufbauen. Neben dem Webserver selbst stecken Teile der Distribution darin. Die meisten Komponenten sind für den Betrieb des Webservers gar nicht nötig und allenfalls hilfreich, wenn man mit Werkzeugen wie docker exec in einen Container springt und darin Fehler sucht. Über den eingebauten Paketmanager (apt oder apk) kann man beispielsweise einen Texteditor nachinstallieren und auf Fehlersuche im Container gehen. Solche Werkzeuge können aber auch zum Einfallstor für Angreifer werden.

Die gehärteten Abbilder enthalten weniger Spuren der Distribution und damit weniger Einfallstore – im Gegenzug aber auch keine Werkzeuge für die spontane Fehlersuche. Zum Vergleich: Das offizielle Nginx-Abbild auf Alpine-Basis (nginx:alpine) ist 21 MByte groß und kommt mit einer bekannten mittelschweren Sicherheitslücke, für die es einen CVE-Eintrag gibt. Die Debian-Variante (nginx:stable-bookworm) ist sogar 67 MByte groß, hat drei Lücken mit hoher Dringlichkeit, drei mittelschwere und ganze 61 mit der Einstufung „low“. Die gehärtete Version auf Alpine-Basis (dhi.io/nginx:1-alpine3.21) ist nur 4 MByte groß und Docker listet keine einzige bekannte Sicherheitslücke. Ein Blick in den Container zeigt: Der Paketmanager apk, der zu Alpine gehört, fehlt im Abbild.

Kompakt und ohne bekannte Lücken: Das gehärtete Nginx-Abbild auf Alpine-Basis ist nur 4 MByte groß.

Die gehärteten Abbilder gibt es für viele Anwendungen, für die es auch offizielle Abbilder gibt – darunter MySQL, PHP, Node.js, Traefik und MongoDB. Kein gehärtetes Abbild fanden wir für die MySQL-Alternative MariaDB. Um die Abbilder zu finden, müssen Sie sich im Docker Hub mit einem kostenlosen Account anmelden, über den öffentlichen Bereich des Hubs sind sie aktuell nicht zu finden. Sie landen nach dem Login in einer Übersicht namens „My Hub“ und finden links im Menü den Punkt „Hardened Images“. Um die Abbilder auf einem Server, einer Entwicklermaschine oder in einer CI/CD-Umgebung zu nutzen, müssen Sie dort zuerst den Befehl docker login dhi.io ausführen und sich mit Benutzernamen und einem persönlichen Zugangstoken anmelden. Ein solches Token erzeugen Sie, indem Sie oben rechts auf Ihre Initialen klicken, die „Account Settings“ öffnen und links unter „Personal access tokens“ ein Token erzeugen, das Leserechte hat.

Mehr Service gegen Geld

Neben den Abbildern hat Docker Inc. auch Helm-Charts für Kubernetes-Nutzer veröffentlicht, in denen die gehärteten Abbilder zum Einsatz kommen.

Weiterlesen nach der Anzeige

Auch in Zukunft möchte Docker Inc. mit den gehärteten Abbildern Geld verdienen, wie der Blogpost zur Ankündigung erklärt. Wer regulatorische Anforderungen hat und beispielsweise FIPS-konforme Abbilder braucht oder sich eine Reaktion auf kritische CVEs innerhalb von sieben Tagen vertraglich zusichern lassen muss, greift zu den kostenpflichtigen „Docker Hardened Images Enterprise“. Außerdem verspricht Docker erweiterten Support für Anwendungen in Versionen, die von den Entwicklern der Anwendungen nicht mehr unterstützt werden („DHI Extended Lifecycle Support“).

(jam)

Source link

Entwicklung & Code

Chainguard startet EmeritOSS-Programm für verwaiste Open-Source-Projekte

Eine Reihe von Open-Source-Projekten, die weit verbreitet und tief in Produktionssystemen eingebettet sind, befinden sich in einer Grauzone zwischen aktiver Entwicklung und nachlassendem Engagement – bis hin zur vollständigen Aufgabe. Die Anwendungen arbeiten stabil, benötigen aber für den weiterhin zuverlässigen Betrieb in Produktion zumindest eine minimale Wartung für Sicherheitspatches und Dependency-Updates. Ziehen sich jedoch die Maintainer aus diesen Projekten zurück, können sie zu einem Sicherheitsrisiko werden. An dieser Stelle setzt das neue Programm „EmeritOSS“ von Chainguard an.

Weiterlesen nach der Anzeige

Das Unternehmen Chainguard, das unter anderem gehärtete Container Images bereitstellt, will laut Ankündigung mit EmeritOSS betroffenen Open-Source-Projekten eine „stabile und verlässliche Heimat“ bieten. Vordringliches Ziel sei nicht die Weiterentwicklung dieser Projekte, sondern die Stärkung der Nachhaltigkeit von Open-Source-Software insgesamt.

Die xz-utils-Backdoor als warnendes Beispiel

Als eine Motivation für das Programm führt Chainguard beispielhaft den Social-Engineering-Angriff auf das Free/Libre-Open-Source-Software-Projekt (FLOSS) xz-utils an. Bei diesem 2024 bekannt gewordenen Vorfall hatte sich der ursprüngliche Maintainer nach langjährigem Engagement aus dem Projekt zurückziehen wollen. Ein neuer Contributor konnte schrittweise dessen Vertrauen gewinnen – und versuchte dann, eine Backdoor einzuschleusen, die unzählige Systeme hätte kompromittieren können.

Unternehmen, die solche ausgereiften Projekte nutzen und von deren Sicherheit und Zuverlässigkeit abhängen, soll EmeritOSS nun ein strukturiertes Übergangsmodell bereitstellen. Der Support-Umfang ist jedoch bewusst begrenzt. Das Programm sieht verschiedene Unterstützungsstufen je nach Community-Erwartungen und Projektlebenszyklus vor – darunter öffentliche Forks zum Erhalten des Codezugangs, Dependency-Updates zum Beheben von Schwachstellen, neue Releases mit den genannten Updates, klare Dokumentation zum Support-Umfang sowie bei Bedarf Container-Images und APK-Pakete.

Stabilität statt neuer Features

Auf das Entwickeln neuer Features oder proaktives Engagement mit Community-Issues und Pull-Requests verzichtet das Programm laut Chainguard ausdrücklich. Die geforkten, auf Stabilität fokussierten Quellcode-Versionen sollen frei auf GitHub verfügbar bleiben. Organisationen, die ein sicheres, kontinuierlich gewartetes Container-Image oder APK bevorzugen, sollten auf kommerzielle Distribution ausweichen. Chainguard wolle mit den Forks lediglich die Kontinuität der Projekte sichern, nicht in Wettbewerb zu kommerziellen Anbietern treten.

Weiterlesen nach der Anzeige

Kaniko, Kubeapps und ingress-nginx als erste Projekte

Den Start des EmeritOSS-Programms markierte die Aufnahme des Kaniko-Projekts, dessen Archivierung Google im Juni 2025 angekündigt hatte. Kaniko ermöglicht das Erstellen von Docker-Images innerhalb von Kubernetes-Clustern ohne privilegierte Container und ist vor allem in regulierten Branchen wie dem Finanzwesen verbreitet. Chainguard hat nach eigenen Angaben die Wartung eines Forks übernommen und bereits CVE-Fixes, Dependency-Updates und gepflegte Images bereitgestellt.

Neu hinzugekommen sind zuletzt die Projekte Kubeapps und ingress-nginx. Nachdem die Kubernetes Community angekündigt hat, ingress-nginx im März 2026 auslaufen zu lassen und künftig standardmäßig auf die Gateway API für das Networking in Kubernetes zu bauen, stehen Nutzer vor der Herausforderung, auf andere Ingress-Controller auszuweichen oder eine Migration auf die Gateway API einzuleiten. Der Fork im Rahmen des EmeritOSS-Programms verschafft Betroffenen nun mehr Zeit beim Evaluieren.

Wer darüber hinaus Vorschläge für weitere Open-Source-Projekte hat, die in das Programm aufgenommen werden sollten, kann diese dem EmeritOSS-Team bei Chainguard gezielt unterbreiten.

(map)

Source link

Entwicklung & Code

GitHub stoppt Subventionierung von Actions in privaten Repos

Ab Januar 2026 führt GitHub neue Preise für die automatisierten Aufgaben der Actions in privaten Repositories ein. Für Runner, auf denen die Actions laufen, gibt es eine Preisreduktion um circa vierzig Prozent, wenn GitHub sie hostet. Selbstgehostete Runner kosten ab jetzt hingegen erstmalig eine Gebühr von 0,2 US-Cent pro Minute.

Weiterlesen nach der Anzeige

Actions in öffentlichen Repositories bleiben kostenlos und auch für Enterprise Server ändert sich nichts. GitHub begründet die Änderung mit einer faireren Verteilung der Infrastrukturkosten, weil bislang Hostingkunden die Selbsthoster mitfinanzierten. GitHub hat ausgerechnet, dass sich für 96 Prozent der Kunden nichts ändern wird, vom Rest werden 85 Prozent eine Preisreduktion auf der Rechnung finden. Alle anderen müssen mit einer Erhöhung um 13 Dollar im Median pro Monat rechnen. Über einen Preiskalkulator online lassen sich die Kosten planen.

Im August hatte GitHub eine neue Infrastruktur für die Actions eingeführt, auf der 71 Millionen Jobs am Tag laufen. Die Actions automatisieren Jobs für die Softwareproduktion wie Tests und Builds. Diese laufen auf Runnern, also virtuellen OS-Umgebungen.

(who)

Source link

Illustrierte Reise nach New York City › PAGE online

UX/UI & Webdesignvor 2 Monaten

Illustrierte Reise nach New York City › PAGE online

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Künstliche Intelligenzvor 2 Monaten

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Top 10: Die beste kabellose Überwachungskamera im Test

Künstliche Intelligenzvor 2 Monaten

Top 10: Die beste kabellose Überwachungskamera im Test

UX/UI & Webdesignvor 2 Monaten

SK Rapid Wien erneuert visuelle Identität

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Entwicklung & Codevor 4 Wochen

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Neue PC-Spiele im November 2025: „Anno 117: Pax Romana“

Künstliche Intelligenzvor 2 Monaten

Neue PC-Spiele im November 2025: „Anno 117: Pax Romana“

Donnerstag: Deutsches Flugtaxi-Start-up am Ende, KI-Rechenzentren mit ARM-Chips

Künstliche Intelligenzvor 2 Monaten

Donnerstag: Deutsches Flugtaxi-Start-up am Ende, KI-Rechenzentren mit ARM-Chips

Arndt Benedikt rebranded GreatVita › PAGE online

UX/UI & Webdesignvor 2 Monaten

Arndt Benedikt rebranded GreatVita › PAGE online

Inspohub

Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform

Entwicklung & Code

Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform

DPAI Arena für einheitliches KI-Benchmarking

Die Multi-Track-Architektur im Detail

Start mit dem Spring Framework

Entwicklung & Code

Docker Inc. macht gehärtete Abbilder kostenlos verfügbar

Weniger Spuren der Distribution

Mehr Service gegen Geld

Entwicklung & Code

Chainguard startet EmeritOSS-Programm für verwaiste Open-Source-Projekte

Die xz-utils-Backdoor als warnendes Beispiel

Stabilität statt neuer Features

Kaniko, Kubeapps und ingress-nginx als erste Projekte

Entwicklung & Code

GitHub stoppt Subventionierung von Actions in privaten Repos

Videostreaming: Übernahme von Warner Bros. Discover, Start von HBO Max

Mount & Blade II: Bannerlord: Der siebte Patch in drei Wochen für War Sails

Die meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights

Illustrierte Reise nach New York City › PAGE online

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Top 10: Die beste kabellose Überwachungskamera im Test

Beliebt

Inspohub

Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform

DPAI Arena für einheitliches KI-Benchmarking

Die Multi-Track-Architektur im Detail

Start mit dem Spring Framework

Das könnte Ihnen gefallen

Entwicklung & Code

Docker Inc. macht gehärtete Abbilder kostenlos verfügbar

Weniger Spuren der Distribution

Mehr Service gegen Geld

Entwicklung & Code

Chainguard startet EmeritOSS-Programm für verwaiste Open-Source-Projekte

Die xz-utils-Backdoor als warnendes Beispiel

Stabilität statt neuer Features

Kaniko, Kubeapps und ingress-nginx als erste Projekte

Entwicklung & Code

GitHub stoppt Subventionierung von Actions in privaten Repos

Videostreaming: Übernahme von Warner Bros. Discover, Start von HBO Max

Mount & Blade II: Bannerlord: Der siebte Patch in drei Wochen für War Sails

Die meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights

Illustrierte Reise nach New York City › PAGE online

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Top 10: Die beste kabellose Überwachungskamera im Test

Beliebt