Künstliche Intelligenz

Microsoft veröffentlicht Evaluations-Tool für Copilot-Agenten

Microsoft hat das Microsoft 365 Copilot Agent Evaluations CLI vorgestellt. Das seit dem 8. Mai als kostenlose Vorschauversion verfügbare Kommandozeilentool ermöglicht es Nutzerinnen und Nutzern, die Qualität von KI‑Agenten zu testen und zu verbessern. Dazu sendet das Agent Evaluations CLI Fragen an einen Agenten und bewertet dessen Antworten mithilfe von Azure-OpenAI-Modellen.

Weiterlesen nach der Anzeige

Das Agent Evaluations CLI ist ein Teil der Microsoft-365-Copilot-Extensibility-Plattform, einer zentralen Microsoft-Plattform zur Verwaltung von KI-Agenten. Das Evaluations-CLI steht dort über das Admin Center zur Verfügung und fungiert als eigenständiges Developer-Tool zur Qualitätsmessung.

Bei einem Test sendet das CLI-Tool Prompts an einen innerhalb von Microsoft 365 bereitgestellten Agenten. Dabei unterstützt es mit JSON-Datensätzen, interaktiven Eingaben und Inline-Prompts wie --prompts "Frage 1" "Frage 2" drei Eingabearten, womit es strukturierte Tests genauso abbilden kann wie Live-Dialoge. Die Evaluierungsfunktion lässt sich auch beim Vibe Coding einsetzen.

Checkliste für Agenten-Bewertung

Vom Agenten gelieferte Antworten bewertet das CLI anhand von sieben Metriken. In die Wertung fließt unter anderem mit ein, wie es um das Kontextverständnis bei Einzel‑ oder Mehrfachdialogen bestellt ist und wie gut der Agent Folgefragen verarbeiten kann. Getestet wird auch, ob der Agent End‑to‑End‑Aufgaben so ausführt, als würde er sich in einem echten Nutzerdialog befinden.

Das Microsoft 365 Copilot Agent Evaluations Tool zeigt eine Agenten-Bewertung im Balkendiagramm-Format — Das Testergebnis als HTML-Report: Das Agent Evaluations Tool hat einen KI-Agenten bewertet.

(Bild: Microsoft)

Die Testberichte im HTML‑, JSON‑ oder CSV‑Format können Entwicklerinnen und Entwickler in ihren eigenen Entwicklungszyklen, Code‑Reviews oder CI/CD‑Pipelines nutzen. Langfristig sollen solche systematischen und wiederholbaren Evaluierungen zu einem Standardbestandteil bei der Softwareentwicklung mit Microsoft 365 Copilot heranwachsen, wie Microsoft in seinem Developer-Blog schreibt.

Weiterlesen nach der Anzeige

Während der Testphase, deren Dauer Microsoft nicht konkretisiert, können Programmiererinnen und Programmierer das Microsoft 365 Copilot Agent Evaluations CLI kostenlos nutzen. Dazu benötigen sie eine Microsoft-365-Copilot‑Lizenz, Node.js 24.12.0 oder höher, einen im Tenant bereitgestellten Agenten samt Administratorzustimmung, diesen dort ausführen zu dürfen, sowie einen Azure-OpenAI-Endpunkt für die LLM-Bewertungen (standardmäßig gpt-4o-mini). Aktuell unterstützt das Tool ausschließlich Windows-Entwicklungsumgebungen; Support für macOS und Linux ist angekündigt.

(mro)

Source link

Verwandte Themen:Automatisierung CopilotAgenten EvaluationsTool Fur IT Künstliche Intelligenz Microsoft Microsoft Copilot Softwareentwicklung veröffentlicht

Up Next

EuGH-Urteil zum Leistungsschutz: Meta muss für Presseinhalte in Italien zahlen

Nicht verpassen

Strahlungsresistente Roboter-Raupe der ESA kriecht mit nur einem Aktuator

Künstliche Intelligenz

KI-Überwachung in der Straßenbahn: Mehr Sicherheit im Fahrgastraum?

Die Straßenbahn am späten Abend: Ein Ort, an dem man das Gefühl von Sicherheit schnell verlieren kann. Was passiert, wenn ein Konflikt eskaliert oder man von fremden Personen angegangen wird?

Die Bremer Straßenbahn AG (BSAG) setzt jetzt auf Technik, um genau diese Momente zu entschärfen. Ein KI-System „beobachtet“ den Fahrgastraum und erkennt aggressives Verhalten, um im Notfall schnell Alarm zu schlagen. Doch wie kann eine KI unterscheiden, ob zwei Menschen sich nur überschwänglich begrüßen oder ob eine ernsthafte Gefahr droht? Und wie kann sie Menschen analysieren, ohne deren Persönlichkeitsrechte zu verletzen?

In unserem Videobeitrag werfen wir einen Blick hinter die Kulissen der Technik und klären, wie die KI tatsächlich funktioniert. Wir sprechen mit einem der Entwickler über die ethischen Herausforderungen eines KI-Systems, das zwar helfen, aber nicht das menschliche Urteilsvermögen ersetzen soll.

Das war die Leseprobe unseres heise-Plus-Artikels „KI-Überwachung in der Straßenbahn: Mehr Sicherheit im Fahrgastraum?“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.

Source link

Künstliche Intelligenz

Freiwillig statt Zwang: Das doppelte Spiel um die EU-Chatkontrolle

Die politischen Verhandlungen über das hoch umstrittene EU-Gesetz zu einer potenziellen verpflichtenden Chatkontrolle biegen auf die Zielgerade. Am Montag soll in den Verhandlungen in Brüssel ein Durchbruch erzielt werden. Seit Jahren warnen Bürgerrechtler, Datenschützer und IT-Experten vor einer anlasslosen Massenüberwachung privater Kommunikation. Das zentrale Argument der Befürworter – neue gesetzliche Instrumente seien zur Bekämpfung von sexuellem Kindesmissbrauch unverzichtbar – wird aber durch aktuelle Zahlen widerlegt.

Weiterlesen nach der Anzeige

Wie aus einer von Netzpolitik.org veröffentlichten Antwort der Bundesregierung auf eine Anfrage der Linksfraktion hervorgeht, melden Tech-Unternehmen weiterhin freiwillig in großem Umfang Hinweise auf Kindesmissbrauch an die Behörden. Das Bundeskriminalamt erhält demnach über 10.000 solcher Eingaben pro Monat. Die bestehenden Mechanismen funktionieren also auch ohne eine gesetzlich vorgeschriebene Durchleuchtung privater Nachrichten.

Noch im Herbst hatte die Bundesregierung versprochen, eine flächendeckende Überwachung ohne konkreten Verdacht werde es nicht geben. Interne Dokumente und aktuelle Verhandlungen in Brüssel zeichnen indes ein anderes Bild.

Demokratisches Foulspiel in Brüssel

Eine Schlüsselrolle spielt die Fraktion der Europäischen Volkspartei (EVP). Das Europäische Parlament hatte sich im März ausdrücklich gegen eine Verlängerung der ausgelaufenen Ausnahmeregelung ausgesprochen, die Tech-Unternehmen freiwillige Chatkontrollen erlaubte. Dennoch schlug Parlamentspräsidentin Roberta Metsola (EVP) in einem ungewöhnlichen Schritt vor, die bereits abgelehnte Regelung erneut auf die Tagesordnung des Ministerrates zu setzen.

Einem Bericht zufolge geht die Initiative auf die EVP-Führung um CSU-Politiker Manfred Weber zurück. Die Mitgliedstaaten beraten bereits über eine Wiederbelebung des Vorschlags. Abgeordnete werfen Metsola vor, das Parlamentsmandat zu unterlaufen und den Gesetzgebungsprozess parteipolitisch zu instrumentalisieren.

Konstantin Macher von der Digitalen Gesellschaft spricht von einem Skandal. Das Parlament habe bereits mehrfach gegen anlasslose Chatkontrollen votiert. Abstimmungen dürften nicht beliebig wiederholt werden, bis das gewünschte Ergebnis erreicht werde.

Parallel gerät die Bundesregierung durch veröffentlichte interne Dokumente unter Druck. Während Bundesjustizministerin Stefanie Hubig (SPD) öffentlich erklärte, eine anlasslose Chatkontrolle werde es mit ihr nicht geben, zeigen Ratsprotokolle eine andere Linie. Ein Dokument vom 17. Juni belegt, dass die deutsche Verhandlungsführung in Brüssel einen möglichst breiten Einsatz anlassloser Scans mit nur minimalen Einschränkungen unterstützt: Bereits am 10. Juni hatte sich die deutsche Delegation für eine weitreichende Überwachung ausgesprochen.

Weiterlesen nach der Anzeige

Dokumentierter Wortbruch in Berlin

Federführend für die Verhandlungen ist das Bundesinnenministerium unter Alexander Dobrindt (CSU). Noch im Herbst hatte Unionsfraktionschef Jens Spahn (CDU) das Vorhaben mit dem vorsorglichen Öffnen sämtlicher Privatbriefe verglichen und eine Zustimmung ausgeschlossen. Ein Sprecher Dobrindts erklärte im März gegenüber heise online: „Die Bundesregierung hat sich bereits 2025 darauf geeinigt“, dass sich die einschlägige EU-Verordnung „auf die dauerhafte Ermöglichung freiwilliger Maßnahmen auf solider rechtlicher Grundlage in der EU fokussieren soll“. Der nun dokumentierte Kurs in Brüssel steht dazu im Widerspruch. Die Digitale Gesellschaft fordert daher Konsequenzen innerhalb der Koalition. Justizministerin Hubig müsse Dobrindt entgegentreten, wenn sie glaubwürdig sein wolle.

Experten warnen seit Beginn der Debatte, dass eine verpflichtende Chatkontrolle faktisch das Aufbrechen sicherer Ende-zu-Ende-Verschlüsselung erfordern würde. Dienste wie WhatsApp, Signal oder Threema könnten dann nicht mehr dieselbe Vertraulichkeit garantieren. Dadurch entstünden erhebliche Risiken für die IT-Sicherheit und den Schutz der Privatsphäre.

Das Bündnis „Chatkontrolle Stoppen!“ mobilisiert deshalb kurz vor dem sogenannten Trilog erneut die Öffentlichkeit. Es fordert die Verhandler auf, zur bereits 2023 beschlossenen Position des Parlaments zurückzukehren und auf eine anlasslose Überwachung privater Kommunikation zu verzichten.

(nen)

Source link

Künstliche Intelligenz

Xcode 26.6: Google Gemini zieht als Programmierassistent in Apples IDE ein

Apples Entwicklungsumgebung Xcode bietet jetzt auch Google Gemini als Programmierassistent direkt in der IDE an. Mit der frisch erschienenen Version 26.6 müssen Entwickler dafür nicht bis zum Herbst warten. Zuvor war Gemini nach der Entwicklerkonferenz WWDC bereits in der Beta von Xcode 27 eingeführt worden, die Mitte Juni herauskam. Apple und Google arbeiten bekanntlich zusammen. Die Gemini-KI-Modelle kommen zum Einsatz, um zusammen mit Apples eigener KI-Arbeit eine verbesserte Sprachassistenz, Siri AI, zu ermöglichen. Jetzt kommt diese Kooperation auch Entwicklern zugute: Googles KI gesellt sich in der Xcode-IDE zu den bereits integrierten Anthropic Claude Agent und OpenAI Codex.

Weiterlesen nach der Anzeige

Mit der direkten Integration des agentischen Codings bietet Apple seit Xcode 26 eine niedrigschwellige Möglichkeit an, beliebte KI-Modelle für das Entwickeln von Apps einzusetzen. In Xcode 26.3 wurde dies erweitert. Wie Claude Code und GitHub Copilot dabei im direkten Vergleich abschneiden, zeigt unser Praxistest zum Prompten statt Coden in Xcode. Deren Integration soll mit Xcode 27 weiter vertieft werden. Auf der WWDC zeigte Apple in Demos für Entwickler, wie diese künftig zum Beispiel mehrere Anfragen parallel bearbeiten können. Auch wurde weiter an der optischen Aufbereitung gefeilt. Vor zwei Jahren hatte Apple noch einen eigenen Ansatz verfolgt, den Swift Assist, der es allerdings niemals in die Beta schaffte.

Version 26.6 von Xcode ist ansonsten ein kleines Update, das einfach nur die SDKs fortschreibt und Bugs behebt. Es umfasst Swift 6.3 sowie SDKs für iOS 26.5, iPadOS 26.5, tvOS 26.5, visionOS 26.5 und macOS 26.5.

Xcode 27: Viele neue Funktionen und Veränderungen

Mit Xcode 27, das für registrierte Entwickler jetzt schon als Testversion bereitsteht, stehen größere Veränderungen ins Haus. So soll die Software zunächst durch die Entfernung der Intel-Mac-Kompatibilität 30 Prozent kleiner im Umfang und schneller sein. Entwickler, die mit mehreren Computern arbeiten, dürften sich über die Synchronisation von Einstellungen über die iCloud freuen. So werden individuelle Änderungen der Benutzeroberfläche und Anzeigeeinstellungen automatisch auf andere Macs übertragen. Dies ist besonders nützlich, da Apple die Personalisierung in Xcode 27 ausbaut. So können pro Projekt verschiedene Themes eingestellt werden, um das Aussehen des Editors anzupassen, und die Toolbars können auch nach eigenen Bedürfnissen gestaltet werden.

Auf gemischte Reaktionen stößt der neue Device Hub. Er soll den Simulator ablösen, mit dem Apps auf dem Mac ausprobiert werden konnten. Der Device Hub ist im Vergleich dazu ein mächtigeres Werkzeug, das neben dem Management der Simulatoren auch das physischer Testgeräte in sich vereint. Auch können Simulatoren in der Größe dynamisch angepasst werden, was manche als Hinweis auf ein faltbares iPhone im Herbst werten. Insgesamt stößt das neue Konzept in ersten Reaktionen auf breite Zustimmung. Im Detail gibt es aber noch Nachbesserungsbedarf: So waren zum Beispiel Stimmen von Entwicklern zu hören, die zum Beispiel die pixel- und punktgenaue Darstellung des bisherigen Simulators vermissen. Gut möglich, dass Apple dies aber im weiteren Beta-Verlauf noch nachliefert.

Apple führt in Xcode 27 außerdem mit dem Agent Client Protocol (ACP) ein offenes Protokoll ein, das die KI-Schnittstellen erweitert. Das Model Context Protocol (MCP) wird nativ unterstützt und öffnet die Tür zu Partnern, die ihre Anwendungen direkt integrieren. Die KI-gestützte Code-Vervollständigung soll dank lokaler KI-Modelle schneller als vorher laufen. Die fertige Version von Xcode 27 wird im Herbst erwartet, wenn auch iOS 27 und die weiteren großen Software-Updates erscheinen.

Weiterlesen nach der Anzeige

Lesen Sie auch

(mki)

Source link

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

Künstliche Intelligenzvor 3 Monaten

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

Künstliche Intelligenzvor 3 Monaten

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Künstliche Intelligenzvor 3 Monaten

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Künstliche Intelligenzvor 3 Monaten

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

Künstliche Intelligenzvor 2 Monaten

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Künstliche Intelligenzvor 2 Monaten

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Social Mediavor 2 Monaten

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Apps & Mobile Entwicklungvor 2 Monaten

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Inspohub

Microsoft veröffentlicht Evaluations-Tool für Copilot-Agenten

Künstliche Intelligenz

Microsoft veröffentlicht Evaluations-Tool für Copilot-Agenten

Checkliste für Agenten-Bewertung

Künstliche Intelligenz

KI-Überwachung in der Straßenbahn: Mehr Sicherheit im Fahrgastraum?

Künstliche Intelligenz

Freiwillig statt Zwang: Das doppelte Spiel um die EU-Chatkontrolle

Demokratisches Foulspiel in Brüssel

Dokumentierter Wortbruch in Berlin

Künstliche Intelligenz

Xcode 26.6: Google Gemini zieht als Programmierassistent in Apples IDE ein

Xcode 27: Viele neue Funktionen und Veränderungen

Lesen Sie auch

KI-Überwachung in der Straßenbahn: Mehr Sicherheit im Fahrgastraum?

Wie bei Mythos 5 und Fable 5: US-Administration verzögert OpenAIs neues GPT-5.6-Modell

Vom Tech-Manager zum Grillmeister: Warum ich den Top-Job gegen ein Restaurant tauschte

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Beliebt

Inspohub

Microsoft veröffentlicht Evaluations-Tool für Copilot-Agenten

Checkliste für Agenten-Bewertung

Das könnte Ihnen gefallen

Künstliche Intelligenz

KI-Überwachung in der Straßenbahn: Mehr Sicherheit im Fahrgastraum?

Künstliche Intelligenz

Freiwillig statt Zwang: Das doppelte Spiel um die EU-Chatkontrolle

Demokratisches Foulspiel in Brüssel

Dokumentierter Wortbruch in Berlin

Künstliche Intelligenz

Xcode 26.6: Google Gemini zieht als Programmierassistent in Apples IDE ein

Xcode 27: Viele neue Funktionen und Veränderungen

KI-Überwachung in der Straßenbahn: Mehr Sicherheit im Fahrgastraum?

Wie bei Mythos 5 und Fable 5: US-Administration verzögert OpenAIs neues GPT-5.6-Modell

Vom Tech-Manager zum Grillmeister: Warum ich den Top-Job gegen ein Restaurant tauschte

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Beliebt