Datenschutz & Sicherheit

Fable 5 blockiert auch sicheren Code


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Mehrere bekannte Sicherheitsforscher halten die Cybersecurity-Schranken von Anthropics neuem KI-Modell Fable 5 für zu scharf eingestellt. Sie berichten, dass die Schutzmechanismen nicht nur bei brisanten Anfragen anschlagen, sondern auch bei alltäglicher Arbeit aus Softwareentwicklung und IT-Sicherheit. Die Beispiele reichen vom Code Review über das Schreiben sicheren Codes bis hin zum Lesen eines Blogbeitrags zu einem Sicherheitsthema.

Weiterlesen nach der Anzeige

Fable 5 ist die öffentlich verfügbare Variante von Anthropics neuem Spitzenmodell Mythos 5. Anders als Mythos bringt Fable vorgeschaltete Schutzmechanismen für Themen aus Cybersecurity, Biologie, Chemie sowie Distillation mit – Letzteres soll verhindern, dass das Modell zum Training konkurrierender KI-Systeme missbraucht wird. Stuft ein sogenannter Classifier eine Anfrage als heikel ein, beantwortet nicht Fable die Frage, sondern das ältere Modell Claude Opus 4.8. Damit will Anthropic verhindern, dass Angreifer die Fähigkeiten des Modells für Cyberattacken oder andere schädliche Zwecke ausnutzen. Laut Anthropics offizieller Ankündigung sind die Safeguards bewusst konservativ kalibriert und treffen manchmal auch harmlose Anfragen.

Zu den Kritikern zählt Valentina „Chompie“ Palmiotti, Leiterin des Offensive-Research-Teams (XOR) bei IBM X-Force. Auf X schrieb sie, Fable lehne jede Anfrage ab, die auch nur am Rande mit Cybersecurity zu tun habe. Selbst harmlose Aufgaben wie das Lesen eines Blogbeitrags treffe es.

Damit beschreibt Palmiotti ein Problem, das die IT-Sicherheit als False Positive kennt: Ein Schutzmechanismus schlägt bei einer harmlosen Aktivität fälschlich Alarm. Genau diese Fehlklassifikationen werfen die Forscher den Schranken von Fable nun in großer Zahl vor.

Ähnlich äußerte sich der Cybersecurity-Experte Matt Suiche gegenüber TechCrunch. Wer Fable um sicheren Code bitte, den behandle das Modell so, als gehe es um Cybersecurity statt um normale Softwareentwicklung. Suiche vermutet, dass die Filter vor allem auf Schlüsselbegriffe reagieren. Seine Kritik trifft einen Bereich, der für viele Entwickler zum Alltag gehört: sichere Authentifizierung, Schutz vor SQL-Injection oder das sichere Speichern von Zugangsdaten.

Weiterlesen nach der Anzeige

Auch der italienische Sicherheitsforscher Simone Margaritelli, in der Szene besser als „evilsocket“ bekannt, berichtet von Problemen. Auf X schrieb er, schon die Bitte um ein Code Review löse eine Rückstufung von Fable aus. Code Reviews gehören zu den Standardaufgaben professioneller Softwareentwicklung und helfen unter anderem dabei, Fehler und Sicherheitslücken früh zu erkennen.

Die Kritik beschränkt sich nicht auf einzelne Forscher. Der Entwickler Mehul Mohan schrieb auf X, Fable sei praktisch unbrauchbar, sobald Begriffe wie „cybersecurity“, „security audit“, „vulnerability“ oder die Bitte „help me make my app secure“ fielen. Diese Beispiele betreffen vor allem defensive Sicherheitsarbeit, also das Absichern eigener Systeme und Anwendungen.

Wie empfindlich die Filter reagieren, zeigen auch dokumentierte Fehlermeldungen. Der X-Nutzer @zeroxjf veröffentlichte einen Screenshot, in dem Fable einräumt: „Fable 5’s safety measures flagged this message for cybersecurity or biology topics. They may flag safe, normal content as well. Switched to Opus 4.8.“ Anschließend verweigerte auch Opus 4.8 die Antwort und verwies auf ausgelöste Cybersecurity-Schutzmechanismen. Bemerkenswert ist vor allem der Hinweis, dass die Filter auch sichere, normale Inhalte erfassen können.

Ähnliche Beobachtungen kommen aus professionellen Sicherheitstests. Rob T. Lee, Chief AI Officer und Forschungsleiter des SANS Institute, berichtet, dass Fable bei seinen ersten Tests auch Aufgaben aus Incident Response, Detection Engineering und digitaler Forensik automatisch zurückgestuft hat. Beim SANS Institute handelt es sich um eine der bekanntesten Ausbildungs- und Forschungsorganisationen für IT-Sicherheit.

Explizit stellen die Forscher die Schutzmechanismen gegen Missbrauch nicht grundsätzlich infrage. Sie kritisieren aber, dass die Schranken so breit greifen, dass sie auch legitime Arbeit erfassen: Sicherheitsanalysen, Code Reviews, sicheren Code, Incident Response oder das Auswerten sicherheitsrelevanter Informationen. Ob es sich um Kinderkrankheiten einer neuen Schutzarchitektur handelt oder um ein grundsätzliches Problem bei der Abgrenzung von legitimer und schädlicher Sicherheitsarbeit, ist offen. Anthropic hat sich zu den Vorwürfen bislang nicht geäußert.


(fo)



Source link

Beliebt

Die mobile Version verlassen