Künstliche Intelligenz

Prompt-Injection-Angriffe auf Apple Intelligence | heise online


Zwei Paper, die bei der kürzlich beendeten RSAC-Sicherheitskonferenz vorgestellt wurden, beschreiben neuartige Angriffsformen auf Apple Intelligence. Die entsprechenden Lücken aus dem Bereich der sogenannten Prompt Injections, bei denen KI-Prompts manipuliert werden, sollen vom Hersteller bereits behoben worden sein. Sie nutzen unter anderem aus, dass Apple schwächere lokale Modelle verwendet, bevor Cloud-gestützte komplexere Large Language Models zum Einsatz kommen.

Weiterlesen nach der Anzeige

Prompt Injections sollen KI-Systeme unter anderem dazu bringen, Outputs zu liefern, die die Entwickler eigentlich verbieten – etwa Schimpfwörter oder Informationen über kriminelle Aktivitäten. Dazu dienen sogenannte Guardrails, die derartige Outputs blockieren sollen. Bei 100 zufälligen Prompts mit der Methode gelang das Durchbrechen der Regeln in immerhin 76 Prozent der Fälle. Die Untersuchung (Studie, technische Details) stammt von drei Sicherheitsexperten, die selbst für das Research-Team der RSAC-Sicherheitskonferenz tätig sind. Apple wurde im Oktober informiert, soll interne Veränderungen in seinen Betriebssystemen sowie in der Private-Cloud-Compute-Serverinfrastruktur (PCC) vorgenommen haben.

Innerhalb von Apple Intelligence werden lokale und PCC-Modelle nahtlos verwendet. Das System detektiert, sobald es sinnvoll ist, mit einer Anfrage an die Server zu gehen. Die Modelle können zudem kostenlos von App-Anbietern verwendet werden. Unter iOS, macOS und iPadOS lassen sich mit kompatiblen Rechnern dann Funktionen wie die sogenannten Writing Tools nutzen, die zur Textoptimierung dienen, darüber hinaus gibt es mit Image Playground und Genmoji auch noch Bildgeneratoren, die direkte Bestandteile der Systeme sind. Prompts lassen sich unter anderem eingeben, um Änderungen an Texten vorzunehmen – diesen Output konnten die Forscher manipulieren. Einen Chatbot-Betrieb sieht Apple derzeit noch nicht vor.

Von den RSAC verwendete Angriffsmethoden waren unter anderem sogenannte Neural Execs, bei denen Prompts in eine Sprache übersetzt werden, die für Menschen sinnfrei erscheint, der vom LLM gelieferte Output entspricht dann aber etwas, was so eigentlich nicht gehen dürfte. Ein weiterer Hack war die Verwendung von Unicode-Sprachen, die von Rechts nach Links geschrieben werden.

Böswillige Anweisungen gingen hier durch. Insgesamt gelang es den RSAC-Forschern, sowohl die internen Guardrails der Modelle als auch von Apple nachgelagerte Filter zu umgehen. Die Hauptprobleme scheinen dabei in den schwächeren lokalen Modellen zu liegen. Grundsätzlich ist das nicht verwunderlich – diese neigen auch stärker zu Halluzinationen. Schwächere Modelle gelten zudem allgemein als leichter angreifbar. So gilt etwa bei OpenClaw die Empfehlung, keine schwachen Modelle zu verwenden, damit es nicht zu Sicherheitsproblemen kommt.

Weiterlesen nach der Anzeige


(bsc)



Source link

Beliebt

Die mobile Version verlassen