Apps & Mobile Entwicklung

KI soll die KI kontrollieren: Wie Google die Agenten im Chrome-Browser absichern will


Indem Browser immer mehr KI-Funktionen und Agenten erhalten, droht eine neue Klasse an Sicherheitsrisiken. Um die integrierten KI-Modelle abzusichern, will Google im Chrome-Browser ein weiteres KI-Modell einführen, das die KI-Aktivitäten kontrolliert.

Nathan Parker vom Chrome Security Team spricht in einem Blog-Beitrag von einer neuen Sicherheitsarchitektur, die insbesondere die Agenten-Fähigkeiten in Chrome absichern soll. Es geht also um Anwendungen, bei denen das KI-System im Browser autonom handelt, indem es etwa eigenständig Webseiten bedient.

IndirektePrompt Injections als Angriffsrisiko

Eine Bedrohung, die praktisch alle KI-Browser betrifft, sind indirekte Prompt Injections. Bei Prompt Injections handelt es sich im Kern um manipulierte Prompt-Eingaben, die Sprachmodelle (LLM) zu unerwünschten Antworten verleiten sollen, die etwa gegen die Vorgaben der KI-Entwickler verstoßen. Eines der klassischen Beispiele ist der Oma-Hack: Zeitweise konnte man die internen Vorgaben von ChatGPT aushebeln, indem man den Chatbot aufforderte, eine Gute-Nacht-Geschichte wie die verstorbene Oma zu erzählen. Auf diese Weise ließ sich ChatGPT dann auch das Rezept von Napalm entlocken, obwohl OpenAI solche Antworten eigentlich untersagt.

Bei den indirekten Prompt Injections befindet sich der manipulierte Prompt nicht direkt in der Eingabe des Nutzers, sondern beispielsweise auf einer Webseite. Wenn ein Nutzer mit einem aktivierten KI-Agenten im Browser dann eine solche Webseite aufsucht, besteht die Gefahr, dass das KI-System ein Einfallstor für eine Cyber-Attacke ist. Angreifer könnten den Agenten etwa dazu verleiten, persönliche Daten über den Nutzer preiszugeben. Denkbar wäre aber – je nach Grad der Autonomie eines Agenten –, dass dieser sogar finanzielle Transaktionen veranlasst.

KI-Entwickler versuchen sich ohnehin, die Systeme gegen Prompt Injections zu wappnen. Google legt nun ein Konzept mit weiteren Sicherheitsebenen vor. Ein zentraler Bestandteil ist die user alignment critic. Aktionen eines Agenten werden dabei von einem separaten Modell kontrolliert, das keinen Kontakt zu Inhalten hat, die als nicht-vertrauenswürdig gelten.

user alignment critic: Das Kontroll-Modell kann ein Veto einlegen

Das Ziel ist eine doppelte Kontrolle. Das zweite Modell kontrolliert jederzeit, ob Aktionen eines Agenten immer mit den Zielen des Nutzers in Einklang stehen. Wenn die Handlungen nicht den Vorgaben entsprechen, legt das Kontroll-Modell ein Veto ein. Um es selbst vor Angriffen zu schützen, ist es so konzipiert, dass es nur Zugang zu Metadaten hat, die die jeweiligen Aktionen beschreiben. Ungefilterte Inhalte bekommt es nicht zugespielt.

Its primary focus is task alignment: determining whether the proposed action serves the user’s stated goal. If the action is misaligned, the Alignment Critic will veto it. This component is architected to see only metadata about the proposed action and not any unfiltered untrustworthy web content, thus ensuring it cannot be poisoned directly from the web.

Anpassungen sind in weiteren Bereichen erforderlichen. Bestehende Techniken wie Site Isolation und same-origin policy können mit Agenten ausgehebelt werden, weil die KI-Systeme quasi per Konzept über mehrere Webseiten hinweg agieren sollen – also beispielsweise in einem Rezept die Zutaten erfassen und diese auf einer Shopping-Seite in den Warenkorb legen. Daher integriert man das Prinzip Agent Origins Set in die Sicherheitsarchitektur. Es soll sicherstellen, dass Agenten nur auf Daten zugreifen, die für die jeweilige Aufgabe erforderlich sind.

Weitere Änderungen an der Sicherheitsarchitektur beschreibt Parker noch im Blog. Transparenz und Nutzerkontrolle sollen etwa wie gehabt eine zentrale Rolle spielen. Selbst wenn die KI-Assistenten autonom handeln, sollen Nutzer nachvollziehen können, was im Browser vor sich geht. Wenn der Agent auf sensible Daten wie Gesundheitsdaten oder beim Online-Banking zugreift, müssen Nutzer zustimmen. Dasselbe gilt generell für Aktionen wie Bankgeschäfte, ohne Zustimmung sollen diese nicht stattfinden.

KI-Browser kommen – und damit auch die Risiken

Auftakt für Googles KI-Browser ist Gemini in Chrome. Derzeit werden die KI-Funktionen für berechtige Windows- und Mac-Nutzer in den USA eingeführt, wenn die Chrome-Sprache auf Englisch eingestellt ist. Weitere Sprachen und Regionen sollen im Laufe der Zeit folgen.

  • ChatGPT Atlas: OpenAI bringt eigenen Browser auf den Markt

An AI-Browsern entwickelt ohnehin nicht nur Google. Perplexity hat mit Comet bereits eine entsprechende Variante vorgestellt, die Browser Company entwickelt Dia. Noch mehr Aufmerksamkeit erhielt das Thema, als OpenAI den Atlas-Browser vorstellte. Dieser bietet neben der engen Anbindung an ChatGPT auch einen Agenten-Modus, der eigenständig Aufgaben im Sinne der Nutzer erfüllen soll.

OpenAI bezeichnet Prompt Injections als ungelöstes Problem

Was Google jetzt vorstellt, ist ein konzeptueller Ansatz für die Risiken, vor denen Entwickler und Sicherheitsexperten bei den KI-Browsern seit geraumer Zeit warnen. Selbst OpenAIs Chief Information Security Officer Dane Stuckey räumte kurz nach dem Atlas-Start ein, dass Prompt Injections eines der ungelösten Probleme sind, die noch viel Zeit erfordern.

However, prompt injection remains a frontier, unsolved security problem, and our adversaries will spend significant time and resources to find ways to make ChatGPT agent fall for these attacks.

Dan Stuckey via X

Man hat das Problem also auf dem Schirm, man arbeitet an Lösungen und versucht es einzudämmen. Vom Tisch ist es aber noch nicht. Und wie relevant es ist, zeigt sich voraussichtlich erst, je weiter sich die KI-Browser verbreiten. Entwickler wie Simon Willison äußern sich daher skeptisch bis zurückweisend. Er würde keinem dieser Produkte trauen, solange eine Reihe von IT-Sicherheitsforschern diese nicht sehr gründlich untersucht haben. Aktuell bezeichnet er die Sicherheits- und Privatsphäre-Risiken noch als enorm.

The security and privacy risks involved here still feel insurmountably high to me – I certainly won’t be trusting any of these products until a bunch of security researchers have given them a very thorough beating.

Simon Willison

Googles Nathan Parker verspricht derweil, dass die Sicherheit der KI-Browser ein Prozess ist. Man will die Sicherheitsmechanismen mit Experten weiterentwicklen. Und das Bug-Bounty-Programm wird ebenfalls erweitert. Bis zu 20.000 US-Dollar erhält man, wenn man Schwachstellen in der KI-Absicherung entdeckt.



Source link

Beliebt

Die mobile Version verlassen