Entwicklung & Code

Erfolgreiche Jailbreak-Angriffe auf GenAI arbeiten mit schädlichen Prompts

Das Model Context Protocol (MCP) ist noch recht jung, vom November 2024, und seit einiger Zeit tauchen immer häufiger Sicherheitslücken in Verbindung damit auf – und zwar sowohl server- als auch clientseitig. Umgekehrt gibt es Tausende von MCP-Quellen im Netz, die sich mit wenigen Klicks in die eigene KI-Anwendung einbinden lassen.

Eine lange, kuratierte Liste findet sich auf GitHub. Umgekehrt hat Docker eine Liste mit Angriffspunkten und Sicherheitsproblemen gesammelt. Konkrete Beispiele sind ein Angriff über Repositories auf den MCP-Server GitHub oder eine Attacke auf die Cursor IDE via MCP. Mirko Ross, Gründer und CEO der Sicherheitsfirma asvin spricht mit heise developer über die Sicherheit des als „USB-C der KI“ bezeichneten Protokolls.

Mirko, Du beschäftigst Dich schon länger mit der Sicherheit von KI und MCP, wo liegen denn die Hauptschwachstellen Deiner Meinung nach?

MCP ist in Hinblick auf eine einfache Verknüpfung von Applikationen mit GenAI-Modellen hin entworfen worden, das Ganze in einem sich schnell entwickelnden AI-Tech-Umfeld. Die Schwachstelle liegt in der Genese des Protokolls: Das Design von MCP ist auf eine einfache und schnelle Integration ausgelegt, was zulasten der Protokoll- und Systemsicherheit geht. Zudem haben wir generell noch viel zu wenig die Cybersicherheit-Schwachstellen von GenAI-Systemen umfassend begriffen. Wir sehen in einem täglichen Rhythmus, wie Angreifer sich neue Muster und Jailbreak-Attacken ausdenken und anwenden, mit denen die angegriffenen Systeme aus den Sicherheitsschranken ausbrechen. MCP hat im Protokoll keine wirksamen Sicherheitselemente zur Abwehr solcher Angriffe.

Gibt es Risiken, die ihre Ursachen nicht im Protokoll haben, aber bei der Nutzung von MCP dennoch eine Rolle spielen?

Ja, insbesondere Angriffe in der Softwarelieferkette sind eine Gefahr. Angreifer publizieren Bibliotheken für MCP-Clients und Server, die Schadcode enthalten, in öffentlichen Code-Repositorys. Gerade unerfahrene Entwicklerinnen und Entwickler, die nach einem Einstieg in MCP und KI-Agentensystem suchen, sind hier potenzielle Opfer der Angreifer. Ist eine solche Bibliothek einmal integriert, kann der darin enthaltene Schadcode in Firmennetzwerken ausgeführt werden – beispielsweise als Einfallstor für Ransomware-Angriffe.

Mit Void Programming, also wenn GenAI Programmcode für KI-Agenten oder MCP-Services erzeugt, ergeben sich zusätzliche Sicherheitsprobleme: Bereits jetzt kopieren Angreifer populäre Softwarebibliotheken, kompromittieren sie mit Schadcode und publizieren sie unter ähnlich lautenden Namen. Ziel ist es, dass GenAI bei der Codeerzeugung nicht die Originalbibliothek referenziert, sondern die ähnlich benannte schädliche Kopie. Daher gelten auch bei Void Programming die Grundregeln: erstens jede extern eingebundene Quelle auf Vertrauenswürdigkeit prüfen und zweitens den erzeugten Code auf Schadcode scannen, bevor dieser in eine Produktivumgebung gelangt.

Am 30. September und 1. Oktober findet die heise devSec 2025 in Regensburg statt. Auf der von iX, heise Security und dpunkt.verlag ausgerichteten Konferenz stehen in Themen wie Threat Modeling, Software Supply Chain, OAuth, ASPM, Kubernetes und der Einfluss von GenAI auf Security im Programm.

Eine erste Korrektur des Protokolls, die Authentifizierung betreffend, gab es Ende April. Hätte man das Protokoll gleich von Anfang an mehr auf Sicherheit optimieren sollen?

MCP wurde in einem aufgeheizten Markt unter hohem Zeitdruck konzipiert. Dabei spielt der Gedanke des MVP – Minimal Viable Product – eine Rolle. Also die schnelle Einführung von Grundfunktionen, die von Anwendern angenommen werden. Aus Sicht der Cybersecurity bedeutet MVP allerdings „Most vulnerability possibilities“.

Es gibt von der OWASP seit kurzem Empfehlungen für den MCP-Einsatz. Bieten sie umfassende Sicherheit für Server- und Client-Anbieter?

Wer sich an die OWASP-Empfehlungen hält, ist sich zumindest der Risiken einer MCP-Integration bewusst und kann damit die entsprechenden technischen Schutzmaßnahmen aufbauen. Einen umfassenden Schutz gibt es allerdings nicht – denn GenAI-Systeme sind leider grundlegend angreifbar und versierte Täter sind sehr kreativ im Design der Angriffe.

Wie kann sich ein Serveranbieter vor Angriffen am besten schützen?

Erstens gilt es, die Grundregeln der Softwareentwicklung zu beachten: Entwicklerinnen und Entwickler müssen alle verwendeten Bibliotheken per SBOM dokumentieren und auf Schadcode scannen. Zweitens müssen sie MCP-basierte Dienste über Authentifizierung einbinden. Dabei müssen die Identitäten der Authentifizierungen gemanagt werden. Und drittens gilt es, die MCP-Dienste in der Applikationsarchitektur von anderen IT-Diensten zu segmentieren und beispielsweise über Zero-Trust-Prinzipien abzusichern.

Inzwischen gibt es große Sammlungen an einsatzbereiten Servern, die jedermann mit ein paar Klicks einbinden kann. Welche Risiken bestehen denn für die Clients beim Anzapfen von MCP-Quellen?

Sehr erfolgreiche Jailbreak-Angriffe auf GenAI arbeiten mit schädlichen Prompts, die die Angreifer beispielsweise in Dateien verstecken. Soll beispielsweise eine GenAI eine Zusammenfassung einer Word- oder PowerPoint-Datei erstellen, wird der darin versteckte Prompt vom KI-Agenten ausgeführt. Wir müssen lernen, dass wir solche Dateien auf schädliche Prompts überprüfen, bevor wir sie der GenAI zur Bearbeitung übergeben.

Worauf sollte man achten, wenn man MCP-Quellen einbinden will?

Generell gilt: nur Quellen einbinden, die als vertrauensvoll gelten und über eine gute Reputation verfügen. Unbekannte Quellen sollte man nicht einbinden.

Mirko, vielen Dank für das Gespräch!

(who)

Source link

Verwandte Themen:Arbeiten auf erfolgreiche GenAI interviews IT JailbreakAngriffe Künstliche Intelligenz MCP MIT Prompts schädlichen security

Inspohub

Entwicklung & Code

Erfolgreiche Jailbreak-Angriffe auf GenAI arbeiten mit schädlichen Prompts

Beliebt