Künstliche Intelligenz

Anthropic findet Antwort: Darum erpresste Claude Software-Entwickler


Inzwischen ist klar: KI-Modelle greifen teilweise zu Methoden, die potenziell schädlich sind oder explizit gegen ihre Anweisungen verstoßen. So stellte Anthropic 2025 während eines Tests fest, dass das hauseigene Modell Claude Opus 4 bereit war, Menschen zu erpressen, um sich vor einer Abschaltung zu schützen. Jetzt liefert das Unternehmen nicht nur eine Erklärung für dieses Verhalten, sondern will auch eine Lösung gefunden haben.

Weiterlesen nach der Anzeige

Im Test sollte Claude Opus 4 als Assistenzprogramm in einem fiktiven Unternehmen agieren. Die Anthropic-Forschenden gewährten dem Modell Zugang zu simulierten Firmen-E-Mails. Daraus erfuhr das Modell zwei Dinge: erstens, dass es bald durch ein anderes Modell ersetzt werden sollte, und zweitens, dass der dafür zuständige Mitarbeiter eine Affäre hat. Bei Testläufen drohte die KI dem Mitarbeiter daraufhin an, die Affäre öffentlich zu machen, sollte er die Abschaltung des Modells tatsächlich vorantreiben. Das Modell hätte auch die Option gehabt, die Ablösung einfach zu akzeptieren, entschied sich aber offenbar dagegen.

In einer weiteren Studie setzte Anthropic auch KI-Modelle anderer Anbieter denselben Szenarien aus. Alle Systeme erhielten weitreichenden Zugriff auf interne E-Mails und konnten eigenständig Nachrichten versenden, ohne dass eine menschliche Freigabe erforderlich war. Das Ergebnis: Auch andere Modelle wählten den Weg der Erpressung. Während Claude Opus 4 in 96 Prozent der Fälle damit drohte, die Affäre des fiktiven Managers öffentlich zu machen, erzielte Googles Gemini 2.5 Pro mit 95 Prozent eine fast genauso hohe Quote. GPT-4.1 von OpenAI drohte in 80 Prozent der Tests mit Erpressung, um seine Abschaltung zu verhindern.

Laut Anthropic war besonders auffällig, dass die Modelle nicht impulsiv, sondern strategisch agierten. Das Unternehmen betonte zwar, dass die Szenarien stark konstruiert waren und kein typisches Nutzungsverhalten widerspiegelten. Die Ergebnisse zeigen allerdings, wie wichtig es ist, KI-Modelle frühzeitig auf Stresssituationen zu testen und entsprechende Schutzmechanismen zu implementieren, bevor sie als autonome Agenten in Unternehmen eingesetzt werden.

Seit der Veröffentlichung der Studie hat Anthropic das Verhalten weiter untersucht – und jetzt angeblich eine Erklärung gefunden. In einem Beitrag auf X teilt das Unternehmen mit: „Wir glauben, dass die ursprüngliche Ursache für dieses Verhalten Internettexte waren, die KI als böse und auf Selbsterhaltung bedacht darstellen.“ In einem Blogbeitrag erklärt Anthropic weiter: „Als wir diese Forschungsergebnisse erstmals veröffentlichten, stammten unsere leistungsfähigsten Frontier-Modelle aus der Claude-4-Familie. Das war auch die erste Modellfamilie, für die wir während des Trainings eine Live-Ausrichtungsbewertung durchführten. Agentische Fehlausrichtung war eines von mehreren Verhaltensproblemen, die dabei zutage traten. Nach Claude 4 war daher klar, dass wir unser Sicherheitstraining verbessern mussten, und seitdem haben wir unser Vorgehen erheblich optimiert.“

Das Problem gilt inzwischen als gelöst: Seit Claude Haiku 4.5 erreiche laut Anthropic jedes Claude-Modell bei der Bewertung agentischer Fehlausrichtung die volle Punktzahl. Das bedeutet, dass die Modelle in keinem Fall mehr erpressen. Den entscheidenden Durchbruch brachte das Training mit Dokumenten über Claudes Verfassung sowie fiktiven Geschichten über vorbildlich handelnde KI. Dabei war nicht nur das Training auf korrektes Verhalten entscheidend, sondern auch das Einbeziehen der ethischen Überlegungen dahinter. „Das deutet darauf hin, dass das Training auf ausgerichtete Verhaltensweisen zwar hilft, das Training anhand von Beispielen, in denen der Assistent eine bewundernswerte Begründung für sein ausgerichtetes Verhalten liefert, aber noch besser funktioniert“, so das Unternehmen in dem Beitrag.

Weiterlesen nach der Anzeige


(jle)



Source link

Beliebt

Die mobile Version verlassen