Connect with us

Entwicklung & Code

Wie gut sind KI-Coding-Agenten? JetBrains startet Benchmark-Plattform


JetBrains hat den Start der Developer Productivity AI Arena (DPAI Arena) verkündet. Dabei handelt es sich um eine offene Plattform für das Benchmarking von Developer-Tools, die künstliche Intelligenz (KI) nutzen. Die Benchmarks für die KI-Coding-Agenten sollen sich über mehrere Programmiersprachen, Frameworks und Workflows erstrecken – den Anfang machen Java und Spring.

Weiterlesen nach der Anzeige

Mithilfe der neuen Plattform können Anbieter von KI-Tools diese testen und verfeinern, und Entwickler erhalten transparente Einblicke. In Zukunft plant JetBrains die DPAI Arena an die Linux Foundation zu übergeben.

Aktuelle Benchmarks stützten sich auf veraltete Datensätze, deckten nur einen engen Bereich an Technologien ab und fokussierten sich zu stark auf den Workflow von Issue bis Patch, begründet JetBrains die Entwicklung der Developer Productivity AI Arena. Diese verfolgt hingegen den Ansatz, nicht einzig den Issue-Patch-Workflow zu berücksichtigen, sondern eine Multi-Track-Architektur zur Bewertung von KI-Coding-Agenten zu nutzen. Unterschiedliche Communities und Anbieter können Datensätze für spezifische Arten von Softwareentwicklungs-Workflows beisteuern.

Laut JetBrains soll die DPAI Arena einen neuen Standard für Infrastrukturkonfiguration repräsentieren und ein konsolidiertes, einheitliches sowie skalierbares Benchmarking ermöglichen. In Planung befindet sich auch ein CLI, mit dem sich die Benchmarks in bestehende CI-Pipelines integrieren lassen, etwa in GitHub Actions.

Als grundlegender Track ist der Workflow von Issue bis Patch enthalten, der das Beheben von Bugs und das Implementieren von Feature-Requests misst. Zusätzlich gibt es in der DPAI Arena weitere Tracks:

Weiterlesen nach der Anzeige

  • Der Pull-Request-Review-Track evaluiert die Fähigkeit eines KI-Agenten, Pull Requests zu analysieren und zu verbessern.
  • Der Coverage-Track misst, wie gut KI-Agenten Unit-Tests schreiben oder erweitern, um die Codeabdeckung zu erhöhen.
  • Der Static-Analysis-Track befasst sich mit dem Identifizieren und Beheben von Schwierigkeiten beim Linting oder der statischen Analyse.
  • Der Upgrade-Track testet, wie gut sich ein KI-Agent beim sicheren Aktualisieren von Dependencies und Frameworks schlägt.
  • Der Compliance-Track evaluiert das Befolgen von Coding-Standards im Unternehmen oder in der Industrie.

Den Anfang in der DPAI Arena macht ein Benchmark für Anwendungen, die mit dem Spring-Framework erstellt wurden, einem Open-Source-Framework für Java. Der Benchmark enthält 15 quelloffene Spring-basierte Projekte mit verschiedenen Architekturen, von Microservices bis hin zu modularen Monolithen. Er bietet ein Set aus über 140 Tasks, die realistische Anforderungen im Enterprise-Umfeld widerspiegeln sollen.

Aktuell kommen zur Evaluation in der DPAI Arena deterministische Tests zum Einsatz, basierend auf Pass/Fail-Metriken. Künftig sollen diese durch ein LLM-gestütztes Beurteilungsframework abgelöst werden, um eine qualitative Dimension einzubringen.

Das Unternehmen JetBrains betont in der Ankündigung, dass die Developer Productivity AI Arena über das Benchmarking hinausgehend eine Plattform für die Zusammenarbeit sein soll. Künftig soll sie an die Linux Foundation übergehen, mit einem offenen, richtungsweisenden Technical Steering Committee. Wer Interesse hat, ein Teil davon zu werden, kann das DPAI-Arena-Team per Mail kontaktieren.

Zudem sind die Ersteller von Coding-Agenten, Framework-Maintainer sowie Nutzerinnen und Nutzer von KI-gestützten Entwicklungswerkzeugen dazu aufgerufen, sich am Projekt zu beteiligen, das auf GitHub zu finden ist.

Auf der Website der Developer Productivity AI Arena finden sich derzeit die Benchmarks für die KI-Coding-Agenten OpenAI Codex CLI, Anthropic Claude Code, JetBrains Junie CLI und Google Gemini CLI.


(mai)



Source link

Entwicklung & Code

Microsoft veröffentlicht Azure MCP Server v1.0 für KI-Agenten


Microsoft hat die stabile Version 1.0.0 des Azure MCP Server veröffentlicht. Er implementiert das Model Context Protocol (MCP) und dient als Schnittstelle zwischen KI-Agenten und Azure-Diensten. So können Entwickler Cloud-Ressourcen über natürliche Sprache oder Code abfragen, verwalten und automatisieren. Das komplette Projekt stellt Microsoft als Open Source zur Verfügung.

Weiterlesen nach der Anzeige

Das Model Context Protocol ist ein offener Standard, der eine einheitliche Kommunikation zwischen den von KI-Agenten verwendeten LLMs und Backend-Systemen ermöglicht – unabhängig vom jeweiligen Agent-Framework. Der Azure MCP-Server unterstützt in Version 1.0.0 mehr als 47 Azure-Dienste, darunter Azure AI Foundry, Azure AI Search, Event Hubs, Service Bus, PostgreSQL, Kusto, Function Apps, Storage und Log Analytics.

Insgesamt stehen 170 Befehle zur Verfügung, die Microsoft zu strukturierten Funktionen zusammengeführt hat. Dabei gibt es drei Betriebsmodi: Der Standard-Namespace-Modus gruppiert Werkzeuge nach logischen Bereichen, alternativ lassen sich alle Tools aktivieren oder nur einzelne Funktionen freischalten. Dies soll insbesondere das Onboarding und Testen vereinfachen.

Für den DevOps-Einsatz stellt Microsoft ein Docker-Image über die eigene Container-Registry bereit. Damit lässt sich der Azure MCP Server in CI/CD-Pipelines integrieren. Die Unterstützung für gängige Entwicklungsumgebungen wie Visual Studio Code, Visual Studio und IntelliJ ist über entsprechende Erweiterungen vorgesehen.

Weiterlesen nach der Anzeige

Bei sicherheitskritischen Operationen setzt der Azure MCP Server auf verpflichtende Bestätigungen durch den Nutzer. Alle Interaktionen erfolgen innerhalb der Azure-Sicherheits- und Governance-Mechanismen. Microsoft hat zudem die Performance durch .NET Ahead-of-Time-Kompilierung (AOT) optimiert, was zu kürzeren Startzeiten und geringerem Ressourcenverbrauch führen soll.

Die vollständige Dokumentation und der Quellcode sind über das offizielle GitHub-Repository verfügbar. Für die nächsten Updates plant Microsoft laut Ankündigung eine engere Integration mit Azure-Werkzeugen und erweiterte Unterstützung für Container-Workloads.


(fo)



Source link

Weiterlesen

Entwicklung & Code

OpenAI bringt neues Open-Weight-Reasoning-Modell heraus


Eigentlich gibt es sogar zwei gpt-oss-safeguard-Modelle – nämlich in den Größen 120b und 20b. Beides sind Open-Weight-Reasoning-Modelle von OpenAI und dafür gedacht, in Unternehmen eingesetzt zu werden. Fokus bei der Entwicklung lag auf der möglichen Durchsetzung von Sicherheitsmaßnahmen – daher auch der Name. Unternehmen haben ganz unterschiedliche Anforderungen an das, was ein Modell kann, beziehungsweise, wo die Grenzen der darauf aufbauenden Anwendungen liegen.

Weiterlesen nach der Anzeige

Zudem können die Modelle an die eigene Infrastruktur angepasst werden. Sie stehen unter Apache 2.0-Lizenz. Sie sind bei Hugging Face verfügbar. Wie üblich bei KI handelt es sich um eine Preview.

Dass die Modelle spezialisiert sind auf Sicherheitsmaßnahmen, bedeutet, dass sie besonders gut Richtlinien befolgen können. Dafür nutzt das jeweilige Modell Schlussfolgerungen – also die Reasoning-Fähigkeit. Richtlinien, die Entwickler selbst festlegen können, werden laut OpenAI bereits zum Zeitpunkt der Inferenz interpretiert. Zudem können die Gedankenketten des Modells eingesehen und überprüft werden. Das soll dabei helfen, zu verstehen, wie Modelle zu Entscheidungen gekommen sind. Darauf aufbauend lassen sich dann wiederum weitere Maßnahmen ergreifen. Da die Modelle beim Verarbeiten einer Anfrage die vorgegebenen Richtlinien abarbeiten, ist es besser möglich, iterativ weitere Richtlinien festzulegen, wenn der Bedarf entsteht. Andere Modelle, so schreibt es OpenAI, die Richtlinien bereits im Training lernten, könnten nicht so gut auf neue Anforderungen reagieren.

Da im Blogbeitrag von OpenAI auch steht, dass die neuen Modelle Anwendung finden, wenn Latenz nicht so wichtig sei wie qualitativ hochwertige Reaktionen, dürfte der Reasoning-Prozess das Antworten etwas verlangsamen.

Bei der Entwicklung von gpt-oss-safeguard hat OpenAI mit ROOST zusammengearbeitet. Das ist eine Community, die sich dem Aufbau einer robusten, offenen und sicheren KI-Infrastruktur verschrieben hat.

Wer OpenAIs geschlossene Modelle nutzt, kann beispielsweise über die Realtime-API auf ein integriertes Moderationssystem zugreifen. Entwickler können hier die Ausgabe abbrechen, sobald das Gespräch in eine unerwünschte Richtung geht. Freilich kommen alle gpt-Modelle mit bereits eingebauten Richtlinien und Leitplanken daher.

Weiterlesen nach der Anzeige

Zuletzt hatte OpenAI weitere Sicherheitsmaßnahmen für ChatGPT eingeführt. Dabei geht es um den Schutz von Personen mit mentalen Gesundheitsproblemen.


(emw)



Source link

Weiterlesen

Entwicklung & Code

.NET: Microsoft veröffentlicht GitHub-Copilot-Agenten für C# und WinForms


Für den KI-Dienst GitHub Copilot lassen sich nun benutzerdefinierte Agenten (Custom Agents) erstellen. Microsoft, der Mutterkonzern von GitHub, hat das bereits für seine Programmiersprache C# und sein .NET-GUI-Toolkit Windows Forms (WinForms) umgesetzt. Die neuen Agenten sollen unter anderem helfen, Best Practices einzuhalten. Weitere Custom Agents haben schon unter anderem die GitHub-Partner Dynatrace, HashiCorp, Databricks und JFrog erstellt.

Weiterlesen nach der Anzeige

Custom Agents für GitHub Copilot können mit Informationen zu Team-Workflows, Konventionen und individuellen Anforderungen gefüttert werden. Anschließend lassen sie sich durch Prompts, Toolauswahl und das Model Context Protocol (MCP) weiter spezialisieren. Dabei können sowohl Unternehmen als auch Teams oder einzelne Entwicklerinnen und Entwickler einen solchen Agenten erstellen.

Derzeit lassen sich die benutzerdefinierten Agenten auf github.com und im Copilot-CLI verwenden. Künftig soll auch Visual Studio Code folgen. Einen ersten Blick darauf bietet das VS-Code-Insiders-Programm.

Microsoft hat bereits Custom Agents für C# und WinForms erstellt: unter den Namen C# Expert und WinForms Expert. Der C#-Agent ist darauf ausgelegt, sich wie ein C#-Experte zu verhalten und sauberen, gut designten, fehlerfreien, sicheren, les- und wartbaren Code zu erstellen, der .NET-Konventionen folgt. Der WinForms-Experte folgt analog dazu den Design- und Codingprinzipien von Windows Forms. Unter anderem bevorzugt er beim Erstellen neuer Projekte das anstehende Release .NET 10.0 sowie bekannte, stabile und weitverbreitete NuGet-Pakete in ihrer aktuellsten Stable-Major-Version (zum Beispiel 2.x).


betterCode() .NET 10.0

betterCode() .NET 10.0

(Bild: coffeemill/123rf.com)

Verbesserte Klassen in .NET 10.0, Native AOT mit Entity Framework Core 10.0 und mehr: Darüber informieren .NET-Profis auf der Online-Konferenz betterCode() .NET 10.0 am 18. November 2025. Nachgelagert gibt es sechs ganztägige Workshops zu Themen wie C# 14.0, künstliche Intelligenz und Web-APIs.

Beide Agenten sind noch experimentell. Um sie zu verwenden, laden Entwicklerinnen und Entwickler die Markdown-Dateien CSharpExpert.agent.md und WinFormsExpert.agent.md aus dem Repository @github/awesome-copilot herunter. Anschließend fügen sie die Dateien zum Ordner .github/agents in ihrem Repo hinzu.

Weiterlesen nach der Anzeige

Dann lässt sich der entsprechende KI-Experte auswählen, etwa im Insider-Programm für Visual Studio Code per Dropdown-Menü:


Der C#-Experte steht für VS-Code-Insider zur Auswahl.

Der C#-Experte steht für VS-Code-Insider zur Auswahl.

Der C#-Experte steht für VS-Code-Insider zur Auswahl.

(Bild: Microsoft)

Weitere Informationen zu Custom Agents lassen sich einem GitHub-Blogeintrag entnehmen. Die experimentellen C#- und WinForms-Agenten stellt Microsoft auf seinem Entwicklerblog vor.


(mai)



Source link

Weiterlesen

Beliebt