Entwicklung & Code
Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform
JetBrains hat den Start der Developer Productivity AI Arena (DPAI Arena) verkündet. Dabei handelt es sich um eine offene Plattform für das Benchmarking von Developer-Tools, die künstliche Intelligenz (KI) nutzen. Die Benchmarks für die KI-Coding-Agenten sollen sich über mehrere Programmiersprachen, Frameworks und Workflows erstrecken – den Anfang machen Java und Spring.
Weiterlesen nach der Anzeige
Mithilfe der neuen Plattform können Anbieter von KI-Tools diese testen und verfeinern, und Entwickler erhalten transparente Einblicke. In Zukunft plant JetBrains die DPAI Arena an die Linux Foundation zu übergeben.
DPAI Arena für einheitliches KI-Benchmarking
Aktuelle Benchmarks stützten sich auf veraltete Datensätze, deckten nur einen engen Bereich an Technologien ab und fokussierten sich zu stark auf den Workflow von Issue bis Patch, begründet JetBrains die Entwicklung der Developer Productivity AI Arena. Diese verfolgt hingegen den Ansatz, nicht einzig den Issue-Patch-Workflow zu berücksichtigen, sondern eine Multi-Track-Architektur zur Bewertung von KI-Coding-Agenten zu nutzen. Unterschiedliche Communities und Anbieter können Datensätze für spezifische Arten von Softwareentwicklungs-Workflows beisteuern.
Laut JetBrains soll die DPAI Arena einen neuen Standard für Infrastrukturkonfiguration repräsentieren und ein konsolidiertes, einheitliches sowie skalierbares Benchmarking ermöglichen. In Planung befindet sich auch ein CLI, mit dem sich die Benchmarks in bestehende CI-Pipelines integrieren lassen, etwa in GitHub Actions.
Die Multi-Track-Architektur im Detail
Als grundlegender Track ist der Workflow von Issue bis Patch enthalten, der das Beheben von Bugs und das Implementieren von Feature-Requests misst. Zusätzlich gibt es in der DPAI Arena weitere Tracks:
Weiterlesen nach der Anzeige
- Der Pull-Request-Review-Track evaluiert die Fähigkeit eines KI-Agenten, Pull Requests zu analysieren und zu verbessern.
- Der Coverage-Track misst, wie gut KI-Agenten Unit-Tests schreiben oder erweitern, um die Codeabdeckung zu erhöhen.
- Der Static-Analysis-Track befasst sich mit dem Identifizieren und Beheben von Schwierigkeiten beim Linting oder der statischen Analyse.
- Der Upgrade-Track testet, wie gut sich ein KI-Agent beim sicheren Aktualisieren von Dependencies und Frameworks schlägt.
- Der Compliance-Track evaluiert das Befolgen von Coding-Standards im Unternehmen oder in der Industrie.
Start mit dem Spring Framework
Den Anfang in der DPAI Arena macht ein Benchmark für Anwendungen, die mit dem Spring-Framework erstellt wurden, einem Open-Source-Framework für Java. Der Benchmark enthält 15 quelloffene Spring-basierte Projekte mit verschiedenen Architekturen, von Microservices bis hin zu modularen Monolithen. Er bietet ein Set aus über 140 Tasks, die realistische Anforderungen im Enterprise-Umfeld widerspiegeln sollen.
Aktuell kommen zur Evaluation in der DPAI Arena deterministische Tests zum Einsatz, basierend auf Pass/Fail-Metriken. Künftig sollen diese durch ein LLM-gestütztes Beurteilungsframework abgelöst werden, um eine qualitative Dimension einzubringen.
Das Unternehmen JetBrains betont in der Ankündigung, dass die Developer Productivity AI Arena über das Benchmarking hinausgehend eine Plattform für die Zusammenarbeit sein soll. Künftig soll sie an die Linux Foundation übergehen, mit einem offenen, richtungsweisenden Technical Steering Committee. Wer Interesse hat, ein Teil davon zu werden, kann das DPAI-Arena-Team per Mail kontaktieren.
Zudem sind die Ersteller von Coding-Agenten, Framework-Maintainer sowie Nutzerinnen und Nutzer von KI-gestützten Entwicklungswerkzeugen dazu aufgerufen, sich am Projekt zu beteiligen, das auf GitHub zu finden ist.
Auf der Website der Developer Productivity AI Arena finden sich derzeit die Benchmarks für die KI-Coding-Agenten OpenAI Codex CLI, Anthropic Claude Code, JetBrains Junie CLI und Google Gemini CLI.
(mai)
Entwicklung & Code
Microsoft veröffentlicht Azure MCP Server v1.0 für KI-Agenten
Microsoft hat die stabile Version 1.0.0 des Azure MCP Server veröffentlicht. Er implementiert das Model Context Protocol (MCP) und dient als Schnittstelle zwischen KI-Agenten und Azure-Diensten. So können Entwickler Cloud-Ressourcen über natürliche Sprache oder Code abfragen, verwalten und automatisieren. Das komplette Projekt stellt Microsoft als Open Source zur Verfügung.
Weiterlesen nach der Anzeige
KI-Agenten mit Azure kombiniert
Das Model Context Protocol ist ein offener Standard, der eine einheitliche Kommunikation zwischen den von KI-Agenten verwendeten LLMs und Backend-Systemen ermöglicht – unabhängig vom jeweiligen Agent-Framework. Der Azure MCP-Server unterstützt in Version 1.0.0 mehr als 47 Azure-Dienste, darunter Azure AI Foundry, Azure AI Search, Event Hubs, Service Bus, PostgreSQL, Kusto, Function Apps, Storage und Log Analytics.
Insgesamt stehen 170 Befehle zur Verfügung, die Microsoft zu strukturierten Funktionen zusammengeführt hat. Dabei gibt es drei Betriebsmodi: Der Standard-Namespace-Modus gruppiert Werkzeuge nach logischen Bereichen, alternativ lassen sich alle Tools aktivieren oder nur einzelne Funktionen freischalten. Dies soll insbesondere das Onboarding und Testen vereinfachen.
Für den DevOps-Einsatz stellt Microsoft ein Docker-Image über die eigene Container-Registry bereit. Damit lässt sich der Azure MCP Server in CI/CD-Pipelines integrieren. Die Unterstützung für gängige Entwicklungsumgebungen wie Visual Studio Code, Visual Studio und IntelliJ ist über entsprechende Erweiterungen vorgesehen.
Sicherheit und Performance im Fokus
Weiterlesen nach der Anzeige
Bei sicherheitskritischen Operationen setzt der Azure MCP Server auf verpflichtende Bestätigungen durch den Nutzer. Alle Interaktionen erfolgen innerhalb der Azure-Sicherheits- und Governance-Mechanismen. Microsoft hat zudem die Performance durch .NET Ahead-of-Time-Kompilierung (AOT) optimiert, was zu kürzeren Startzeiten und geringerem Ressourcenverbrauch führen soll.
Die vollständige Dokumentation und der Quellcode sind über das offizielle GitHub-Repository verfügbar. Für die nächsten Updates plant Microsoft laut Ankündigung eine engere Integration mit Azure-Werkzeugen und erweiterte Unterstützung für Container-Workloads.
(fo)
Entwicklung & Code
OpenAI bringt neues Open-Weight-Reasoning-Modell heraus
Eigentlich gibt es sogar zwei gpt-oss-safeguard-Modelle – nämlich in den Größen 120b und 20b. Beides sind Open-Weight-Reasoning-Modelle von OpenAI und dafür gedacht, in Unternehmen eingesetzt zu werden. Fokus bei der Entwicklung lag auf der möglichen Durchsetzung von Sicherheitsmaßnahmen – daher auch der Name. Unternehmen haben ganz unterschiedliche Anforderungen an das, was ein Modell kann, beziehungsweise, wo die Grenzen der darauf aufbauenden Anwendungen liegen.
Weiterlesen nach der Anzeige
Zudem können die Modelle an die eigene Infrastruktur angepasst werden. Sie stehen unter Apache 2.0-Lizenz. Sie sind bei Hugging Face verfügbar. Wie üblich bei KI handelt es sich um eine Preview.
Dass die Modelle spezialisiert sind auf Sicherheitsmaßnahmen, bedeutet, dass sie besonders gut Richtlinien befolgen können. Dafür nutzt das jeweilige Modell Schlussfolgerungen – also die Reasoning-Fähigkeit. Richtlinien, die Entwickler selbst festlegen können, werden laut OpenAI bereits zum Zeitpunkt der Inferenz interpretiert. Zudem können die Gedankenketten des Modells eingesehen und überprüft werden. Das soll dabei helfen, zu verstehen, wie Modelle zu Entscheidungen gekommen sind. Darauf aufbauend lassen sich dann wiederum weitere Maßnahmen ergreifen. Da die Modelle beim Verarbeiten einer Anfrage die vorgegebenen Richtlinien abarbeiten, ist es besser möglich, iterativ weitere Richtlinien festzulegen, wenn der Bedarf entsteht. Andere Modelle, so schreibt es OpenAI, die Richtlinien bereits im Training lernten, könnten nicht so gut auf neue Anforderungen reagieren.
Da im Blogbeitrag von OpenAI auch steht, dass die neuen Modelle Anwendung finden, wenn Latenz nicht so wichtig sei wie qualitativ hochwertige Reaktionen, dürfte der Reasoning-Prozess das Antworten etwas verlangsamen.
Bei der Entwicklung von gpt-oss-safeguard hat OpenAI mit ROOST zusammengearbeitet. Das ist eine Community, die sich dem Aufbau einer robusten, offenen und sicheren KI-Infrastruktur verschrieben hat.
Sicherheitsmaßnahmen für geschlossene Modelle
Wer OpenAIs geschlossene Modelle nutzt, kann beispielsweise über die Realtime-API auf ein integriertes Moderationssystem zugreifen. Entwickler können hier die Ausgabe abbrechen, sobald das Gespräch in eine unerwünschte Richtung geht. Freilich kommen alle gpt-Modelle mit bereits eingebauten Richtlinien und Leitplanken daher.
Weiterlesen nach der Anzeige
Zuletzt hatte OpenAI weitere Sicherheitsmaßnahmen für ChatGPT eingeführt. Dabei geht es um den Schutz von Personen mit mentalen Gesundheitsproblemen.
(emw)
Entwicklung & Code
.NET: Microsoft veröffentlicht GitHub-Copilot-Agenten für C# und WinForms
Für den KI-Dienst GitHub Copilot lassen sich nun benutzerdefinierte Agenten (Custom Agents) erstellen. Microsoft, der Mutterkonzern von GitHub, hat das bereits für seine Programmiersprache C# und sein .NET-GUI-Toolkit Windows Forms (WinForms) umgesetzt. Die neuen Agenten sollen unter anderem helfen, Best Practices einzuhalten. Weitere Custom Agents haben schon unter anderem die GitHub-Partner Dynatrace, HashiCorp, Databricks und JFrog erstellt.
Weiterlesen nach der Anzeige
Custom Agents für GitHub Copilot können mit Informationen zu Team-Workflows, Konventionen und individuellen Anforderungen gefüttert werden. Anschließend lassen sie sich durch Prompts, Toolauswahl und das Model Context Protocol (MCP) weiter spezialisieren. Dabei können sowohl Unternehmen als auch Teams oder einzelne Entwicklerinnen und Entwickler einen solchen Agenten erstellen.
Derzeit lassen sich die benutzerdefinierten Agenten auf github.com und im Copilot-CLI verwenden. Künftig soll auch Visual Studio Code folgen. Einen ersten Blick darauf bietet das VS-Code-Insiders-Programm.
KI-Agenten für C# und WinForms
Microsoft hat bereits Custom Agents für C# und WinForms erstellt: unter den Namen C# Expert und WinForms Expert. Der C#-Agent ist darauf ausgelegt, sich wie ein C#-Experte zu verhalten und sauberen, gut designten, fehlerfreien, sicheren, les- und wartbaren Code zu erstellen, der .NET-Konventionen folgt. Der WinForms-Experte folgt analog dazu den Design- und Codingprinzipien von Windows Forms. Unter anderem bevorzugt er beim Erstellen neuer Projekte das anstehende Release .NET 10.0 sowie bekannte, stabile und weitverbreitete NuGet-Pakete in ihrer aktuellsten Stable-Major-Version (zum Beispiel 2.x).
(Bild: coffeemill/123rf.com)

Verbesserte Klassen in .NET 10.0, Native AOT mit Entity Framework Core 10.0 und mehr: Darüber informieren .NET-Profis auf der Online-Konferenz betterCode() .NET 10.0 am 18. November 2025. Nachgelagert gibt es sechs ganztägige Workshops zu Themen wie C# 14.0, künstliche Intelligenz und Web-APIs.
Beide Agenten sind noch experimentell. Um sie zu verwenden, laden Entwicklerinnen und Entwickler die Markdown-Dateien CSharpExpert.agent.md und WinFormsExpert.agent.md aus dem Repository @github/awesome-copilot herunter. Anschließend fügen sie die Dateien zum Ordner .github/agents in ihrem Repo hinzu.
Weiterlesen nach der Anzeige
Dann lässt sich der entsprechende KI-Experte auswählen, etwa im Insider-Programm für Visual Studio Code per Dropdown-Menü:

Der C#-Experte steht für VS-Code-Insider zur Auswahl.
(Bild: Microsoft)
Weitere Informationen zu Custom Agents lassen sich einem GitHub-Blogeintrag entnehmen. Die experimentellen C#- und WinForms-Agenten stellt Microsoft auf seinem Entwicklerblog vor.
(mai)
-
UX/UI & Webdesignvor 2 MonatenDer ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 2 MonatenAdobe Firefly Boards › PAGE online
-
Social Mediavor 2 MonatenRelatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
UX/UI & Webdesignvor 2 WochenIllustrierte Reise nach New York City › PAGE online
-
Entwicklung & Codevor 2 MonatenPosit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 MonatenEventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 1 MonatFake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Apps & Mobile Entwicklungvor 2 MonatenGalaxy Tab S10 Lite: Günstiger Einstieg in Samsungs Premium-Tablets
