Entwicklung & Code

Anthropic überarbeitet Verhaltensrichtlinien für KI-Modell Claude

Die KI-Entwicklungsfirma Anthropic hat die Verhaltensrichtlinien grundlegend überarbeitet, nach denen das Large Language Model (LLM) Claude agiert. Die so genannte „Constitution“ sei erstmals nicht mehr eine reine Aufzählung von Anweisungen, heißt es in einem begleitenden Blogpost, sondern versuche den Modellen jetzt auch zu vermitteln, warum der KI diese Vorgaben gemacht werden.

Weiterlesen nach der Anzeige

Anthropic verspricht sich davon, dass die Modelle durch das Verständnis der Regeln deren Sinn und Absicht auch auf Szenarien übertragen können, die nicht explizit in dem bisherigen Prinzipiendokument aufgeführt wurden. Zugleich strahlt der Schritt aus, dass der KI-Entwickler seinen Modellen für die Zukunft menschenähnliche Fähigkeiten zutraut. Die Leitlinien sollen offenbar auch vorsorgen, dass die KI, wenn sie mal Bewusstsein erlangt, nicht ein menschengewolltes Herunterfahren verhindert. An anderer Stelle heißt es jedoch, dass die menschliche Ansprache vor allem dazu diene, um dem Modell zu zeigen, dass menschliche Qualitäten erstrebenswert seien.

Kein bedingungsloses Vertrauen

Die „Constitution“ zeigt den Modellen aber auch klare Grenzen auf, wo die Entwickler der KI offenbar nicht zutrauen, dass sie das von selbst erkennt. Dazu zählten Hilfe beim Bau von Massenvernichtungswaffen oder Unterstützung bei Völkermord sowie jede Beteiligung an der Erstellung von kinderpornografischem Material. Anthropic hat seinem Modell aufgetragen, im Zweifelsfall Sicherheit vor Ethik zu stellen. Das heißt, dass zum Beispiel das Untergraben der menschlichen Kontrolle selbst dann nicht erfolgen soll, wenn ein Modell das als ethisch richtig erkennen würde.

Anthropic hat seine Leitlinien unter der „Creative Commons CC0 1.0“-Lizenz veröffentlicht. Dadurch ist sie frei und ohne Genehmigung für jeden Zweck nutzbar. Die neuen Vorgaben werden auch in verschiedenen Trainingsphasen eingesetzt und in der Erzeugung synthetischer Trainingsdaten.

Anthropic beobachtet Umsetzung

Weiterlesen nach der Anzeige

Ob die KI tatsächlich das gewünschte Verhalten zeigt oder durch den neuen Ansatz davon abweicht, soll in den so genannten System Cards dokumentiert werden, die in der Vergangenheit schon Risiken und Schwächen der Modelle untersucht haben. Anthropic betont, dass auch externe Experten aus den Bereichen Recht, Philosophie, Theologie und Psychologie in die Entwicklung eingebunden waren. Die neuen Leitlinien sind bei allen aktuellen Claude-Modellen im Einsatz.

(mki)

Source link

Verwandte Themen:Anthropic claude Entwicklung Ethik Fur IT KIModell Künstliche Intelligenz Large Language Model security Sprachverarbeitung überarbeitet Verhaltensrichtlinien

Inspohub

Entwicklung & Code

Anthropic überarbeitet Verhaltensrichtlinien für KI-Modell Claude

Kein bedingungsloses Vertrauen

Anthropic beobachtet Umsetzung

Beliebt