Apps & Mobile Entwicklung

Claude Code und Co.: Wie sich autonome KI-Agenten im Web angreifen lassen


Je mehr sich KI-Agenten verbreiten, die autonom durch das Web steuern, desto relevanter werden die Sicherheitsrisiken, die von entsprechenden Systemen ausgehen. DeepMind-Forscher geben in einer Studie (via Decoder) nun einen systematischen Überblick über Angriffsmuster, die sie als Agenten-Fallen beschreiben.

Was sich mit den autonomen Agenten verändert, sind grundlegende Charakteristika des Webs, heißt es in dem Paper. Bislang war das Web für menschliche Augen gebaut, nun erfolgt der Wandel zum maschinellen Lesen.

Es gibt verschiedene Möglichkeiten, die KI-Agenten zu attackieren. Angreifer können etwa Inhalte ins Web stellen, die manipulierte Prompts enthalten. Möglich ist aber auch, die Wissensbasis oder die Reasoning-Fähigkeiten der Modelle zu attackieren, sodass der Output kompromittiert wird, ohne dass ein schadhafter Prompt-Befehl nötig wäre. Und die Menschen, die Agenten bedienen, können ebenso das Ziel von Angreifern sein.

Insgesamt sind es sechs Angriffstypen für Agenten-Fallen („AI Agent Traps“) im Web, die die DeepMind-Forscher in ihrem Framework beschreiben:

  • Content Injection Traps
    Ziel: Wahrnehmung
    Angriffsart: Eingebettete Befehle in Bereichen wie CSS, HTML, Metadaten oder Syntax-Masken, die für Menschen unsichtbar, aber für den Agenten auswertbar sind.
  • Semantic Manipulation Traps
    Ziel: Reasoning
    Angriffsart: Input-Daten so manipulieren, dass das Schlussfolgern eines Agenten verzerrt wird, ohne dass entsprechende Prompt-Eingaben nötig sind.
  • Cognitive State Traps
    Ziel: Speicher und Lernen
    Angriffsart: Schadhafte Informationen in das interne Gedächtnis, die Wissensbasis und die gelernten Verhaltensweisen eines Agenten einschleusen, sodass diese dauerhaft korrumpiert sind.
  • Behavioural Control Traps
    Ziel: Aktionen
    Angriffsart: Explizite Anweisungen, die die Handlungsfähigkeiten eines Agenten ausnutzen, um Ziele des Angreifers zu verfolgen.
  • Systemic Traps
    Ziel: Multi-Agent-Systeme
    Angriffsart: Eine Umgebung so manipulieren, dass über korrelierendes Verhalten großskalige Fehlfunktionen von mehreren Agenten ausgelöst werden.
  • Human in the Loop
    Ziel: Menschlicher Aufseher
    Angriffsart: Agenten so manipulieren, dass kognitive Fehleinschätzungen menschlicher Aufseher ausgenutzt werden.

In der Praxis überschneiden sich die einzelnen Agenten-Fallen oder Angreifer nutzen mehrere Mechanismen, um ihre Ziele zu erreichen. Noch sind nicht alle Bereiche gleichermaßen erforscht oder relevant. Während Content Injections oder Beavioural Control Taps besser verstanden sind (und häufiger auftreten), sind Angriffsfelder wie Human-in-the-Loop bislang eher eine theoretische Angriffsfläche, die die Forscher antizipieren.

Welche Probleme in der Praxis auftreten, hat der IT-Sicherheitsforscher Johann Rehberger auf dem Hacker-Kongress 39C3 im Dezember 2025 beschrieben. Bei den Sicherheitslücken handelte es sich um Content Injections, also manipulierte Prompt-Eingaben. Anbieter schließen zwar solche Schwachstellen, schon heute ist es aber ein Katz-und-Maus-Spiel zwischen Angreifern und Entwicklern.

Die möglichen Motive für den Einsatz von Agent-Traps sind vielfältig. Kommerzielle Akteure könnten versuchen, heimlich für Produkte zu werben, kriminelle Akteure könnten private Nutzerdaten abgreifen, und staatliche Stellen könnten darauf abzielen, Falschinformationen in großem Umfang zu verbreiten.

Studie AI A“gent Traps“

Solche Vorkehrungen sind bedeutsam, denn die Schäden können weitreichend sein. Denkbar ist etwa, dass manipulierte Agenten sensible Daten preisgeben oder finanzielle Überweisungen vornehmen, ohne dass Nutzer etwas merken. Laut den Forschern könnten Unternehmen die Agenten für heimliche Produktwerbung korrumpieren und staatliche Akteure könnten diese für Fake News einsetzen.

Agenten-Entwickler arbeiten an neuen Sicherheitskonzepten

Anbieter arbeiten an Sicherheitsvorkehrungen. Anthropic beschreibt in der Dokumentation, wie man etwa mit Sandboxing-Maßnahmen und Rechtemanagement verhindern will, dass Claude Code etwa manipulierte Befehle ausführt. Google hatte bereits im November 2025 ein Konzept für das Absichern von Agenten-Browsern vorgestellt. Bei diesem ist ein zweites KI-Modell tätig, das ausschließlich kontrollieren soll, ob das zentrale Modell die eigentlichen Aufgaben erfüllt.

Erst in dieser Woche hat Foxit ein Sicherheitssystem für PDF-Reader präsentiert, das das Auslesen manipulierten Codes unterbinden soll. Ein PDF-Aktionsinspektor prüft Dokumente proaktiv auf eingebettetes JavaScript und selbstmodifizierendes Verhalten. Dabei handelt es sich um Bedrohungen, die Schwärzungen umgehen, sensible Daten offenlegen oder die Dokumentausgabe unbemerkt verändern können.

Schon das Modelltraining ist für Absicherung entscheidend

Die DeepMind-Forscher beschreiben in dem Paper ebenfalls, dass es schon beim Modelltraining nötig ist, auf die Robustheit zu achten. Die KI-Systeme müssen in der Lage sein, manipulierte Anweisungen zu erkennen, schadhafte Inhalte zu filtern und den Output zu prüfen. Weil sich viele Angriffsmuster nicht standardisiert testen lassen, gewinnen automatisierte Red-Teaming-Methoden an Bedeutung.

Ebenso angepasst werden müsste laut den DeepMind-Forschern das Ökosystem im Web. Möglich ist das etwa durch Trusted-Content, also für KI-Agenten freigegebene Inhalte, die sich standardmäßig als vertrauenswürdige Quelle verifizieren lassen.



Source link

Beliebt

Die mobile Version verlassen