Apps & Mobile Entwicklung

Schwachstellen-Benchmark: GPT-5.5-Cyber von OpenAI übertrifft Claude Mythos 5

OpenAI baut Daybreak weiter aus und ergänzt seine Cyber-Sicherheitsinitiative um ein spezialisiertes KI-Modell für Sicherheitsforscher und Verteidiger. Auch Codex Security erhält neue Funktionen für die automatisierte Analyse und Behebung von Schwachstellen. Erste Benchmarks sehen die Kombination vor Claude Mythos 5.

Beeindruckende Zahlen, aber immer noch Schwächen

Seit seiner Vorstellung im März dieses Jahres hat Codex Security laut OpenAI mehr als 30 Millionen Commits in über 30.000 Codebasen analysiert und dabei 70.000 Probleme erkannt, die von menschlichen Prüfern als behoben markiert wurden. Mehr als 500.000 weitere Meldungen sollen zudem automatisiert als gelöst eingestuft worden sein.

Bei der Entdeckung neuer Schwachstellen haben verschiedene KI-Werkzeuge ihre Fähigkeiten bereits unter Beweis gestellt, bei der Bewertung, Behebung und Bereitstellung von Sicherheitsupdates bestanden bislang jedoch noch Defizite. Genau dafür will OpenAI nun eine Lösung gefunden haben, mit der Sicherheitsteams durch speziell auf diesen Bereich zugeschnittene Werkzeuge entlastet werden sollen.

GPT-5.5-Cyber kann nicht nur Schwachstellen erkennen, sondern selbstständig Patches erstellen (Bild: OpenAI)

Die aktualisierte Version des KI-Agenten kann jetzt auch tiefgehende Code-Analysen durchführen, Änderungen überprüfen, Angriffswege nachvollziehen, Sicherheitsberichte erzeugen und anschließend maßgeschneiderte Patches für eine spätere menschliche Prüfung vorbereiten. Unterstützt wird zudem die Auswertung externer Quellen wie Bug-Bounty-Meldungen, Advisories und Ticket-Systeme. Darüber hinaus lassen sich die Ergebnisse in bestehende Systeme eines Schwachstellen-Managements integrieren.

OpenAI erklärt, dass es GPT-5.5-Cyber ausschließlich verifizierten Verteidigern zur Verfügung stellen wird. Dafür arbeitet das Unternehmen eng mit US-Behörden wie dem Center for AI Standards and Innovation, dem Office of the National Cyber Director und dem Office of Science and Technology Policy zusammen.

Erste Ergebnisse lassen aufhorchen

Die ersten Benchmark-Ergebnisse des neuen Systems können sich durchaus sehen lassen. In OpenAIs eigenem Benchmark CyberGym erreichte GPT-5.5-Cyber eine Punktzahl von 85,6 Prozent. Das reguläre GPT-5.5 kam hier lediglich auf 81,8 Prozent, während Claude Mythos 5 von Anthropic seinerzeit 83,8 Prozent erzielte und damit die Spitze übernahm, die sich OpenAI nun zurückerobert hat.

Im CyberGym-Benchmark hat GPT-5.5-Cyber wieder die Spitze übermommen (Bild: OpenAI)

Im ExploitGym-Test fällt der Abstand noch deutlicher aus: Hier erreichte GPT-5.5-Cyber 39,5 Prozent gegenüber 25,95 Prozent für GPT-5.5. Auch im SEC-Bench Pro lag das Modell mit 69,8 Prozent vor dem Basismodell, das noch auf 63,1 Prozent kam.

Auch in anderen Benchmarks kann GPT-5.5-Cyber zulegen (Bild: OpenAI)

Nachdem Anthropic mit Claude Mythos 5 die KI-Branche überrascht hatte, ist die Konkurrenz inzwischen aus ihrer Schockstarre erwacht und hat deutlich aufgeholt. Vor allem OpenAI und Anthropic treten damit in einem weiteren Bereich in direkter Konkurrenz zueinander.

„Patch the Planet“ für quelloffene Software

Darüber hinaus hat OpenAI mit dem Daybreak Cyber Partner Program seine Technologie für Sicherheitsanbieter und Dienstleister geöffnet. Zu den ersten Partnern zählen unter anderem Accenture, Akamai, Cisco, Cloudflare, CrowdStrike, IBM, Palo Alto Networks, Proofpoint, SentinelOne, Wiz und Zscaler. Diese Unternehmen sollen GPT-5.5-Cyber über ein Trusted-Access-Modell in ihre Produkte und Dienstleistungen integrieren können.

Parallel hat OpenAI gemeinsam mit Trail of Bits, HackerOne und Calif die Initiative „Patch the Planet“ mit dem Ziel gestartet, kritische Open-Source-Infrastruktur mithilfe KI-gestützter Analysen und menschlicher Sicherheitsforscher besser abzusichern.

Schutz kritischer Infrastruktur wird international ausgeweitet

Ausgeweitet hat der Konzern zudem seine Zusammenarbeit mit zahlreichen Regierungen und Behörden in Australien, Kanada, Frankreich, Deutschland, Japan und Südkorea. Ebenso sind europäische Institutionen wie die Agentur der Europäischen Union für Cybersicherheit ENISA Teil der Kooperation. Auch hier ist es das erklärte Ziel, kritische Infrastrukturen und staatliche Netzwerke besser gegen Cyberangriffe abzusichern.

Source link

Verwandte Themen:claude GPT5.5Cyber Mythos OpenAI SchwachstellenBenchmark übertrifft Von

Inspohub