Apps & Mobile Entwicklung
Anthropic: Klassifikator soll Fragen zur Herstellung von Atomwaffen erkennen
Anthropic hat zusammen mit der National Nuclear Security Administration (NNSA) einen Klassifikator entwickelt, der Anfragen zur Herstellung von Nuklearwaffen erkennen soll. Damit steht ein weiteres Modell bereit, um Chats mit Claude auf mögliche Risiken zu überprüfen und missbräuchlich genutzte Konten zu sperren.
Erkennung von harmlosen Anfragen
Die NNSA, die dem US-Energieministerium (DOE) untersteht, hatte bereits im April des vergangenen Jahres damit begonnen, Claude in einer eigenen abgesicherten Umgebung zu testen. Gemeinsam mit Anthropic wurde im Anschluss mit der Erstellung eines Klassifikators für nukleare Bedrohungen begonnen. Mithilfe dieser Technologie, die versucht, Inhalte anhand von Algorithmen des maschinellen Lernens zu kategorisieren oder identifizieren, sollte ein Modell geschaffen werden, das wissenschaftliche Fragestellungen zu Nuklearwaffen oder Kernenergie von terroristisch motivierten Interaktionen unterscheiden kann. Für Anthropic sind Informationen über Atomwaffen besonders sensibel, weshalb die Bewertung solcher Risiken für ein privat agierendes Unternehmen allein als schwierig gilt.
Ein Junk-Filter für Claude
Zur Entwicklung des Systems stellte die NNSA eine Liste nuklearer Risikoindikatoren bereit, mit deren Hilfe sich bedenkliche Gespräche über den Bau von Kernwaffen von harmlosen Diskussionen zu Kernenergie, Medizin oder Politik abgrenzen lassen sollen. Diese Liste wurde in einen Klassifikator überführt, der Anfragen zu nuklearen Themen in Echtzeit identifizieren konnte – vergleichbar mit einem skalierten Junk-Filter für E-Mails.
Um die Entscheidungen überprüfen zu können, testeten die Beteiligten das System mit Hunderten synthetischer Anfragen, deren Ergebnisse anschließend mit der NNSA abgeglichen wurden. Diese bestätigte in ihren Untersuchungen, dass die Kennzeichnungen des Klassifikators mit den erwarteten Kennzeichnungen übereinstimmten. Daraufhin wurde das System weiter angepasst, um die Genauigkeit zu erhöhen.
Bereits erste Ergebnisse vielversprechend
In den ersten, in einer abgesicherten Umgebung durchgeführten Tests, soll Claude mit einer Genauigkeit von über 96 Prozent zwischen besorgniserregenden und gutartigen Gesprächen mit Bezug zur Kerntechnik unterschieden haben. Der nächste Schritt bestand darin, den Klassifikator auch in offenen Interaktionen einzusetzen, als Teil eines umfassenderen Systems zur Erkennung von Missbrauch der Claude-Modelle. Laut Anthropic bestand dabei die Herausforderung darin, die Geheimhaltungspflichten der NNSA mit den Datenschutzverpflichtungen von Anthropic sowie dem Schutz der Nutzer in Einklang zu bringen. Zudem war die richtige Justierung entscheidend: Ein zu strenges System könnte legitime Anfragen blockieren, während ein zu lockeres bösen Akteuren unbeabsichtigt helfen könnte.
In der Praxis bewährt
Inzwischen überwacht der Klassifikator als experimentelle Ergänzung des Safeguards-Frameworks von Anthropic Teile des Claude-Verkehrs und soll sich dem Unternehmen zufolge bewährt haben, auch wenn die Verteilung des tatsächlichen Nutzerverhaltens sich am Ende komplexer und unerwarteter erwies. Fehlerfrei arbeitet die Erkennung allerdings nicht: So sorgten laut Anthropic die politischen Entwicklungen im Nahen Osten dafür, dass das Thema Atomwaffen in der letzten Zeit eine höhere Aufmerksamkeit erhalten hat. Durch diesen Anstieg markierte der Klassifikator fälschlicherweise einige Konversationen, die sich bei genauerer Betrachtung lediglich auf aktuelle Ereignisse bezogen. Der Kontext zeigte hier, dass es sich um harmlose Diskussionen handelte.
Blaupause für andere Unternehmen
Die gewonnenen Erkenntnisse will Anthropic mit dem Frontier Model Forum, einem Branchenverband für KI-Unternehmen, teilen. Ziel ist es, dass auch andere führende Anbieter ähnliche Schutzmechanismen einführen können. Zudem soll das System verdeutlichen, wie staatliche Expertise durch freiwillige öffentlich-private Zusammenarbeit zur Verbesserung der KI-Sicherheit beitragen kann.