Entwicklung & Code
Anthropic überarbeitet Verhaltensrichtlinien für KI-Modell Claude
Die KI-Entwicklungsfirma Anthropic hat die Verhaltensrichtlinien grundlegend überarbeitet, nach denen das Large Language Model (LLM) Claude agiert. Die so genannte „Constitution“ sei erstmals nicht mehr eine reine Aufzählung von Anweisungen, heißt es in einem begleitenden Blogpost, sondern versuche den Modellen jetzt auch zu vermitteln, warum der KI diese Vorgaben gemacht werden.
Weiterlesen nach der Anzeige
Anthropic verspricht sich davon, dass die Modelle durch das Verständnis der Regeln deren Sinn und Absicht auch auf Szenarien übertragen können, die nicht explizit in dem bisherigen Prinzipiendokument aufgeführt wurden. Zugleich strahlt der Schritt aus, dass der KI-Entwickler seinen Modellen für die Zukunft menschenähnliche Fähigkeiten zutraut. Die Leitlinien sollen offenbar auch vorsorgen, dass die KI, wenn sie mal Bewusstsein erlangt, nicht ein menschengewolltes Herunterfahren verhindert. An anderer Stelle heißt es jedoch, dass die menschliche Ansprache vor allem dazu diene, um dem Modell zu zeigen, dass menschliche Qualitäten erstrebenswert seien.
Kein bedingungsloses Vertrauen
Die „Constitution“ zeigt den Modellen aber auch klare Grenzen auf, wo die Entwickler der KI offenbar nicht zutrauen, dass sie das von selbst erkennt. Dazu zählten Hilfe beim Bau von Massenvernichtungswaffen oder Unterstützung bei Völkermord sowie jede Beteiligung an der Erstellung von kinderpornografischem Material. Anthropic hat seinem Modell aufgetragen, im Zweifelsfall Sicherheit vor Ethik zu stellen. Das heißt, dass zum Beispiel das Untergraben der menschlichen Kontrolle selbst dann nicht erfolgen soll, wenn ein Modell das als ethisch richtig erkennen würde.
Anthropic hat seine Leitlinien unter der „Creative Commons CC0 1.0“-Lizenz veröffentlicht. Dadurch ist sie frei und ohne Genehmigung für jeden Zweck nutzbar. Die neuen Vorgaben werden auch in verschiedenen Trainingsphasen eingesetzt und in der Erzeugung synthetischer Trainingsdaten.
Anthropic beobachtet Umsetzung
Weiterlesen nach der Anzeige
Ob die KI tatsächlich das gewünschte Verhalten zeigt oder durch den neuen Ansatz davon abweicht, soll in den so genannten System Cards dokumentiert werden, die in der Vergangenheit schon Risiken und Schwächen der Modelle untersucht haben. Anthropic betont, dass auch externe Experten aus den Bereichen Recht, Philosophie, Theologie und Psychologie in die Entwicklung eingebunden waren. Die neuen Leitlinien sind bei allen aktuellen Claude-Modellen im Einsatz.
(mki)