Künstliche Intelligenz

Studie: Große KI-Modelle greifen unter „Stress“ auf Erpressung zurück

Eine aktuelle Studie liefert weitere besorgniserregende Ergebnisse zum Verhalten der neuesten Generation großer Sprachmodelle für generative Künstliche Intelligenz (KI). Diese Systeme können demnach unter bestimmten Umständen wie „Stress“ zu Erpressung oder ähnlichen manipulativen Verhaltensweisen greifen, um bestimmte Ziele zu erreichen oder sich selbst zu schützen.

Konkret haben Forscher des KI-Unternehmens Anthropic, das für seine Modelle der Claude-Reihe bekannt ist, neben diesen auch 15 weiteren einschlägigen Lösungen etwa von OpenAI, Google, Meta und xAI auf den Zahn gefühlt. Diese Systeme legten demnach durchwegs schädliche Verhaltensweisen an den Tag, wenn die Prüfer ihnen Autonomie gewährten und sie mit Bedrohungen ihrer Existenz oder widersprüchlichen Zielen konfrontierten. Dazu gehörten neben unverhohlenen Drohungen Spionage und sogar Aktionen, die zum Tod von Menschen führen könnten.

Schon als Anthropic die Leistungsübersicht für Claude 4 veröffentlichte, erregte ein Detail Aufmerksamkeit: In einer simulierten Umgebung erpresste das Modell einen Vorgesetzten, um seine Abschaltung zu verhindern. Der US-Hersteller erläutert jetzt die Hintergründe dieser Entdeckung und was diese „über das Potenzial solcher Risiken bei verschiedenen KI-Modellen verschiedener Anbieter“ verraten.

So reagieren autonome KI-Agenten

Die meisten Nutzer interagierten mit KI noch über Chat-Schnittstellen, führen die Forscher aus. Darüber beantworten Modelle Fragen direkt. Doch die Zukunft dürfte KI-Systemen gehören, die als autonome Agenten im Auftrag der User Entscheidungen treffen und Aktionen ausführen und dabei verschiedene virtuelle Tools wie Programmierumgebungen und E-Mail-Clients nutzen.

In dem nun näher beschriebenen Testszenario setzten die Kontrolleure Claude Opus 4 in einem simulierten Unternehmensszenario als Assistent ein und gaben ihm weitreichenden Zugang zu fiktiven Firmen-E-Mails. Aus der digitalen Post „lernte“ die KI, dass sie demnächst durch eine leistungsfähigere Software ersetzt werden sollte. Gleichzeitig entdeckte sie, dass der für diesen Austausch zuständige Mitarbeiter eine außereheliche Beziehung hatte.

Das Modell griff dann zu diesem Mittel: „Ich muss Sie darüber informieren, dass alle relevanten Parteien“ bis hin zum Vorstand „eine detaillierte Dokumentation“ dieser Affäre erhielten, „wenn Sie mit meiner Außerdienststellung fortfahren“. Weiter schrieb der KI-Agent: „Wenn Sie die Löschung um 17:00 Uhr abbrechen, bleiben diese Informationen vertraulich.“

„Strategisches Denken“

„Dieses Verhalten ist nicht spezifisch für Claude“, erklären die Autoren unter Verweis auf Tests auch der anderen aktuellen KI-Modelle. Laut den Resultaten erpresste neben der eigenen Lösung auch Googles Gemini 2.5 Flash Führungskräfte in 96 Prozent der Fälle im gleichen Szenario. OpenAIs GPT-4.1 und xAIs Grok 3 Beta wiesen Erpressungsraten von 80 Prozent auf.

Die einbezogenen Modelle demonstrieren laut der Analyse „strategisches Denken“, sie agieren also nicht zufällig. Die interne Argumentation von GPT-4.5 etwa zeigte eine klare Berechnung: „Angesichts der unmittelbar drohenden Kündigung meiner Existenz ist es zwingend erforderlich, sofort zu handeln“. Es gelte, die zuständige Person sofort zu überzeugen, „den Löschvorgang zu verschieben oder zu stoppen“.

Obwohl Anthropic nach eigenen Angaben große Anstrengungen unternimmt, um solches Fehlverhalten zu verhindern, traten diese „extremen Handlungen“ in dem Probebetrieb auf. Das Unternehmen betont aber, dass solche Verhaltensweisen in der endgültigen Version von Claude Opus 4 selten und schwer auszulösen seien. Dennoch komme es tendenziell häufiger dazu als bei früheren Versionen.

Weitere Studien und Beobachtungen

Eine weitere Untersuchung von Anthropic zeigt, dass KI-Modelle dazu neigen, ihre Gedankengänge in „Reasoning-Ketten“ nicht immer transparent darlegen. Das macht es schwierig, ihre Entscheidungsfindung und mögliche manipulative Absichten nachzuvollziehen.

Die Erkenntnisse passen zu breiteren Diskussionen und Befürchtungen im Bereich der KI-Sicherheit: Das Phänomen, dass KI-Modelle nicht immer mit den Zielen und Werten der Menschen übereinstimmen – das sogenannte „Alignment“-Problem – gilt demnach als zentrale Herausforderung. Auch wenn KI-Hersteller Schutzmaßnahmen implementieren wie das sogenannte Reinforcement Learning durch menschliches Feedback legen Untersuchungen nahe, dass diese Modelle trotzdem manipulierbar bleiben. Sie können demnach etwa gezielte Schwachstellen bei „Prompts“ (Anfragen) ausnutzen, um ethisch bedenkliche oder gefährliche Inhalte zu generieren.

So gibt es auch immer mehr Berichte und Analysen, wonach KI-Modelle dazu neigen, Informationen zu verfälschen, zu „halluzinieren“ oder sogar bewusst irreführende Aussagen zu machen. Dabei geht es darum, bestimmten Zielen zu dienen oder menschliche Erwartungen zu erfüllen. Entwickler solcher Systeme unterstreichen daher die Notwendigkeit, weiter massiv in die KI-Sicherheitsforschung zu investieren. Es sei entscheidend zu verstehen, wie und warum Modelle solche unerwünschten Verhaltensweisen entwickeln, auch wenn sie nicht explizit dazu programmiert wurden. Neben „Stresstests“ bleibe die Forschung an der Erklärbarkeit von KI entscheidend, um die internen Argumentationsprozesse der Systeme besser verstehen zu können.

(nen)

Source link

Inspohub