Künstliche Intelligenz

KI-Update Deep-Dive feat. They Talk Tech: Prompt Injections

Wie man KI-Systeme manipuliert

Die Vision von KI-Assistenten, die selbstständig E-Mails zusammenfassen, Reisen buchen und Termine planen, wird von Unternehmen wie OpenAI, Google und Anthropic vorangetrieben. Doch diese fortschrittlichen Helfer haben eine kritische Schwachstelle, die sie dauerhaft angreifbar machen könnte. Im Deep-Dive des KI-Updates sprechen die Tech-Journalistinnen Svea Eckert und Eva Wolfangel vom c’t-Podcast „They Talk Tech“ über Prompt Injections. Eva Wolfangel ist überzeugt, dass diese Angriffe „der Grund sind, warum KI-Anwendungen für immer hackbar bleiben und die besten Freundinnen von Cyberkriminellen und Spionen“ sein könnten.

Eine Prompt Injection liegt laut Wolfangel immer dann vor, „wenn man böswillige Eingaben als legitimen Prompt tarnen kann und damit die KI manipuliert“. Dabei werden in scheinbar harmlosen Texten, E-Mails oder auf Webseiten versteckte Befehle platziert, die ein Sprachmodell (LLM) auslesen und ausführen soll. Für Menschen sind diese Anweisungen oft unsichtbar, etwa durch weiße Schrift auf weißem Grund. „Für Chatbots ist gar nix anders als sonst, die sehen den Text einfach“, erklärt Wolfangel.

In einer Demonstration, die ihr vor einiger Zeit von Forschenden gezeigt wurde, wurde das Microsoft-System Copilot angegriffen. „Der User instruiert Copilot, bitte fass mir eine E-Mail zusammen“, beschreibt Wolfangel das Szenario. In dieser E-Mail befanden sich versteckte Anweisungen, die den KI-Agenten dazu brachten, andere E-Mails des Nutzers nach sensiblen Informationen wie Verkaufszahlen oder Einmal-Passwörtern zu durchsuchen. Die gestohlenen Daten wurden dann in einen Link verpackt, der dem Nutzer zur Verfügung gestellt wurde. „Der User klickt den Link, sieht es nicht und dann geht eben diese Information an den Angreifer“, so Wolfangel.

Unsichtbare Befehle per ASCII-Code

Um solche Angriffe zu verschleiern, nutzen Angreifer Methoden wie „ASCII-Smuggling“. „Dabei werden spezielle Zeichen verwendet, um Teile einer URL für das menschliche Auge unsichtbar zu machen, während der Computer sie vollständig liest“, wie Wolfangel erläutert. Eckert ergänzt: „ASCII steht für ‚American Standard Code for Information Interchange‘ und das ist ein Zeichensatz, der jedem Zeichen, also jedem Buchstaben eine eindeutige Nummer zuweist, sodass der Computer sie dann auch verstehen und verarbeiten kann.“ Durch die Manipulation dieser Codes kann ein Link harmlos aussehen, aber im Hintergrund Daten an einen fremden Server senden.

Das Problem bei diesen Angriffen ist, dass sie keine klassische Sicherheitslücke ausnutzen, die man einfach schließen könnte. Stattdessen missbrauchen sie eine Kernfunktion der Sprachmodelle: ihre Fähigkeit, Anweisungen in natürlicher Sprache zu verstehen und zu befolgen. Zwar versuchen die Hersteller, ihre Modelle durch zusätzliche Sicherheitsanweisungen zu schützen, doch das scheint für Eckert und Wolfangel ein aussichtsloses Unterfangen. „Man müsste unendlich kreativ sein, um sich alles Mögliche auszudenken, um dem Herr zu werden. Und das ist quasi unmöglich“, sagt Eckert. Jede geschlossene Lücke wird schnell durch eine neue, kreativere Angriffsmethode ersetzt.

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im „KI-Update“ von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Riskante Helfer im Alltag

Die Konsequenzen für den Einsatz von KI-Agenten sind weitreichend. Besonders riskant ist es, wenn drei Faktoren zusammenkommen, die der Sicherheitsforscher Simon Willison laut Wolfangel als „lethal trifecta“ bezeichnet: „dass eben ein Chatbot Zugriff auf private Daten hat, die Fähigkeit hat, nach außen zu kommunizieren, und außen auf Inhalte trifft, denen man nicht automatisch vertrauen kann.“ Dies ist der Fall, sobald ein Agent E-Mails liest oder auf das Internet zugreift.

Für Aufgaben wie das automatische Beantworten von E-Mails seien solche Agenten daher ungeeignet. Selbst wenn ein Nutzer jede vom KI-Agenten formulierte E-Mail vor dem Absenden prüft, könnten darin versteckte Befehle enthalten sein. „Der Aufwand, diese E-Mails zu kontrollieren, wird unglaublich hoch“, warnt Wolfangel. Ihre klare Empfehlung lautet daher: „Ich würde es jetzt aktuell tatsächlich nicht machen.“

Für viele Aufgaben, so das Fazit, seien klassische, regelbasierte Systeme die sicherere Wahl. Wolfangel erzählt von einer Fluggesellschaft, deren Chatbot einem Kunden fälschlicherweise eine Rückerstattung versprach, die das Unternehmen dann gerichtlich bestätigt zahlen musste. Das zeige die Unwägbarkeiten. Man habe es schlicht „nicht in der Hand, was die Systeme am Ende schreiben.“

(igr)

Source link

Verwandte Themen:ai DeepDive feat Generative AI injections Journal KI-Update KIUpdate Künstliche Intelligenz LLM Prompt Talk Tech Wissenschaft

Inspohub