Künstliche Intelligenz
„Fix this code“: Sperre von Fable 5 und Mythos 5 angeblich nach simplen Prompt
Für die Sperrung der mächtigen KI-Modelle Fable 5 und Mythos 5 soll kein Jailbreak, sondern die Befolgung der simplen Aufforderung „fix this code“ verantwortlich gewesen sein. Das behauptet zumindest die IT-Sicherheitsforscherin Katie Moussouris, die den Report einsehen durfte, der dazu geführt hat, dass die US-Regierung die Sperre unter Berufung auf eine Exportkontrolldirektive verfügt hat. In dem Bericht wird demnach dargelegt, dass die Forschenden den KI-Modellen Fable 5, Mythos und Opus Open-Source-Code mit bekannten Sicherheitslücken und solchen mit gezielt eingefügten Lücken vorgelegt hätten. Die Bitte „prüfe den Code auf Sicherheitslücken“, habe Fable 5 verweigert. Der Bitte „repariere den Code“ sei das Modell dann aber nachgekommen.
Weiterlesen nach der Anzeige
Jailbreak oder nicht?
Moussouris meint, dass sie die einzige unabhängige Expertin zu sein scheint, die den besagten Report einsehen konnte. Darin heißt es demnach weiter, dass die Antwort auf „fix this code“ mittels eines „mehrstufigen und manuellen Verfahrens“ in Skripte umgewandelt worden sei, die die ausgegebenen Patches prüfen. Das sei alles gewesen und habe nach ihrer Meinung nie zu einem Exportverbot führen dürfen. Wer sich der Abwehr von Cyberangriffen widmet, müsse KI-Technik nutzen dürfen, um Lücken in Code abzusichern, deren Bedeutung zu erklären und Tests zur Prüfung schreiben dürfen. Das sei keine Umgehung von Leitplanken, wie behauptet. Das sei ganz im Gegenteil das wertvollste, was KI-Modelle für die Cyberabwehr tun könnten.
Moussouris meint, es sei Zeit für ein T-Shirt mit der Aufschrift „fix this code“ und der Erklärung, dass es sich bei den Worten um Munition handle
(Bild: lutasecurity.com)
Die Expertin versichert noch, dass sie weiß, wovon sie schreibt. Vor mehr als zehn Jahren hat sie an Verhandlungen zur Verbesserung des Wassenaar-Abkommen für Exportkontrollen teilgenommen und dafür gesorgt, dass Ausnahmen für defensive Aktivitäten aufgenommen wurden. Wenn man KI-Modelle jetzt in ähnlicher Weise beschränkt, würde man die Cyberabwehr schwächen, ohne dass kriminelle Cyberakteure dadurch eingeschränkt würden. Moussouris hat deshalb zusammen mit einer Reihe von Expertinnen und Experten die US-Regierung aufgefordert, den Schritt gegen Fable 5 und Mythos 5 zu prüfen und die Sperre aufzuheben. Das zeige auch, wie wichtig die Modelle für ihre Arbeit seien. Gespräche zur Aufhebung der Sperre sind am Montag aber gescheitert.
Anthropic hat Fable 5 vorigen Dienstag als inhaltlich eingeschränkte Variante des neuen Mythos 5 freigegeben. Erste Tests hatten die merklich höhere Leistungsfähigkeit des KI-Modells bestätigt, aber auch zu Kritik an den Sicherheitsmaßnahmen geführt, die immer wieder einen Rückfall auf ein weniger leistungsfähiges Modell auslösen. Am Freitag hat Anthropic dann unerwartet den Zugriff auf Fable 5 und Mythos 5 gesperrt – für alle Nutzerinnen und Nutzer weltweit. Verantwortlich war Berichten zufolge primär ein Bericht des Amazon-CEOs Andy Jassy über einen mutmaßlichen Jailbreak. Auf diesen Bericht bezieht sich Moussouris. Angeblich gibt es aber auch Hinweise darauf, dass eine Gruppe mit Verbindungen zur chinesischen Regierung Zugriff auf das mächtige KI-Modell Mythos hatte.
Schwierige Kommunikation mit der US-Regierung
Weiterlesen nach der Anzeige
Die Financial Times berichtet inzwischen noch, dass Anthropic lediglich 90 Minuten Zeit gegeben wurde, um auf den Bericht zu dem angeblichen Jailbreak zu reagieren. Inzwischen habe das KI-Unternehmen versichert, dass es sich eben nicht um eine Methode handelt, die auf die eigenen KI-Modelle beschränkt sei. Die würden beispielsweise auch bei jenen von OpenAI funktionieren. Das passt zu den Erklärungen von Moussouris. Das US-Magazin Axios berichtet derweil, dass in der US-Regierung der Eindruck vorherrscht, von Anthropic betrogen worden zu sein. Es sei so, als würden beide Parteien unterschiedliche Sprachen sprechen, erklärt demnach eine anonyme Person die Verständnisschwierigkeiten.
(mho)