Apps & Mobile Entwicklung
Massive Kritik von Forschern: Anthropic ändert Richtlinie zur Entwicklung anderer KI-Modelle

Anthropic hat eine umstrittene Sicherheitsrichtlinie für Claude Fable 5 zurückgenommen, nachdem sie in der KI-Forschungsgemeinschaft auf erhebliche Kritik gestoßen war. Ursprünglich sollte das Modell Anfragen zur Entwicklung fortschrittlicher KI-Systeme bewusst schlechter beantworten, ohne Nutzer darüber zu informieren.
Zusätzliche Sperren, zusätzliche Probleme
Mit Claude Fable 5 führte Anthropic zusätzliche Sicherheitsmechanismen ein, die den Missbrauch besonders leistungsfähiger KI-Systeme verhindern sollen. Neben bereits bekannten Einschränkungen für Bereiche wie Cyber-Sicherheit, Biologie und Chemie betraf eine dieser Schutzmaßnahmen auch die sogenannte Destillation, bei der die Funktionsweise eines KI-Modells analysiert und für andere Systeme nachgebildet wird. Laut Anthropic habe es in der Vergangenheit bereits Versuche gegeben, Claude-Modelle systematisch auszulesen, um daraus konkurrierende Systeme zu entwickeln.
Da das neue Modell seinen Vorgängern bei der Leistungsfähigkeit deutlich überlegen sei, sieht das Unternehmen in einem Nachbau das Risiko, dass dabei vorhandene Schutzmechanismen entfernt werden könnten und sich die Verbreitung besonders leistungsfähiger KI dadurch zusätzlich beschleunigt. Entsprechende Anfragen sollten daher durch neue Klassifizierer erkannt und eingeschränkt werden. Bislang geschah dies jedoch ohne jeden Hinweis für die Nutzer. Entsprechend bestand keine Möglichkeit zu erkennen, ob Claude in solchen Fällen tatsächlich die bestmögliche Antwort geliefert hatte oder bereits durch die Sicherheitsmechanismen beeinflusst wurde.
Massive Kritik kam umgehend
Die Kritik aus der Forschungsgemeinschaft fiel nach Bekanntwerden der Regelung ungewöhnlich deutlich aus. Weitgehend Einigkeit herrschte darüber, dass eine heimliche Verschlechterung der Modellqualität wissenschaftliche Forschung, Modellbewertungen und Sicherheitsanalysen beeinträchtigen könne. Besonders problematisch sei gewesen, dass Forscher nicht erkennen konnten, ob ihre Ergebnisse durch die Sicherheitsvorkehrungen verfälscht wurden. Auch aus der Open-Source-KI-Community kamen Warnungen. Kritiker befürchteten eine Entwicklung, bei der wenige große KI-Labore die Kontrolle über fortgeschrittene KI-Forschung behalten, während kleinere Forschungsgruppen und unabhängige Entwickler zunehmend eingeschränkt würden.
Nachdem der Druck auf Anthropic immer weiter zunahm, zog das Unternehmen laut einem Bericht von Wired (Paywall) die Reißleine und nahm die umstrittene Regelung zumindest teilweise zurück. Statt verdeckter Eingriffe will das Unternehmen künftig offen kommunizieren, wenn entsprechende Schutzmechanismen ausgelöst werden. Nutzer sollen dann entweder auf ein weniger leistungsfähiges Modell umgeleitet werden oder eine ausdrückliche Ablehnung ihrer Anfrage erhalten.
Anthropic sieht Sperre dennoch als notwendig an
Trotz der Kehrtwende verteidigt Anthropic die ursprüngliche Regelung weiterhin. Das Unternehmen argumentiert, dass moderne KI-Systeme die Entwicklung neuer KI zunehmend beschleunigen und daraus geo- wie auch sicherheitspolitische Risiken entstehen könnten. Insbesondere wolle man verhindern, dass leistungsfähige Modelle zur Verbesserung konkurrierender KI-Systeme oder zur Unterstützung strategischer Gegner eingesetzt werden.
Gleichzeitig räumt Anthropic jedoch ein, die Transparenzfrage falsch eingeschätzt zu haben. Das Unternehmen bedauert, die Einschränkungen zunächst verborgen implementiert zu haben. „Wir haben die falsche Abwägung getroffen und entschuldigen uns dafür, dass wir das richtige Gleichgewicht nicht gefunden haben“, so Anthropic in einer Stellungnahme gegenüber Wired.