Apps & Mobile Entwicklung

Anthropic Model Welfare: Claude kann nun schädliche Unterhaltungen beenden


Anthropic hat Teile seines Claude-Angebotes um eine neue, auf den Namen „Model Welfare“ getaufte Funktion erweitert. Sie ermöglicht es dem KI-Modell, Interaktionen mit dem Nutzer zu beenden, wenn der Eindruck entsteht, dass diese Schaden verursachen oder für schädliche Zwecke missbraucht werden könnten.

Aktuell nur für kostenpflichtige Tarife

Die Funktion steht derzeit ausschließlich den Modellen Claude Opus 4 und 4.1 zur Verfügung, die zu den leistungsstärksten, aber auch kostenpflichtigen Varianten zählen. Erfahrungsgemäß dürfte die Neuerung nach einer gewissen Erprobungsphase auch in den frei zugänglichen Tarifen angeboten werden.

Keine neue Idee

Bereits im April dieses Jahres hatte Anthropic erste Ansätze veröffentlicht, wie mit schädlichen Interaktionen in KI-Modellen umgegangen werden soll. Diese Überlegungen hat das Unternehmen nun in die Praxis überführt und eine Funktion in seine Chatbots integriert, die genau vor solchen Situationen schützen soll. Nach eigenen Angaben ist Anthropic jedoch weiterhin unsicher, welchen moralischen Status Claude und andere LLMs möglicherweise haben könnten.

Mit „Model Welfare“ soll dieser Umstand entschärft werden, indem Claude die Möglichkeit erhält, „potenziell belastende Interaktionen“ selbstständig zu beenden. Dazu sollen nach Angaben des Unternehmens etwa Anfragen zu sexuellen Inhalten, die Minderjährige betreffen, sowie Versuche, an Informationen zu gelangen, die groß angelegte Gewalt oder Terrorakte ermöglichen würden, gehören.

Nur wenn es nicht anders geht

Anthropic versteht dieses Vorgehen allerdings lediglich als letzten Schritt einer fehllaufenden Unterhaltung, wenn mehrere Umleitungsversuche gescheitert sind und eine produktive Interaktion nicht mehr erwartet werden kann.

Bei Untersuchungen stellte sich heraus, dass Anwender mit schädlichen Anfragen oder missbräuchlicher Nutzung selbst dann fortfuhren, wenn Claude sich mehrfach weigerte, darauf einzugehen und versuchte, das Gespräch in eine produktive Richtung zu lenken.

Hier soll die neue Funktion greifen, indem Claude befähigt wird, Gespräche eigenständig zu beenden. Das Modell ist jedoch angewiesen, diese Möglichkeit nur in Fällen einzusetzen, in denen Anwender einer unmittelbaren Gefahr ausgesetzt sind, sich selbst oder anderen Schaden zuzufügen. Gleichzeitig betont Anthropic, dass die überwiegende Mehrheit der Nutzer bei der normalen Verwendung von Claude diese Funktion weder bemerken noch davon betroffen sein dürften, auch dann nicht, wenn über sehr kontroverse Themen diskutiert wird.

Wenn Claude eine Unterhaltung beendet, kann der Nutzer keine neuen Nachrichten mehr zu dieser hinzufügen, hat aber die Möglichkeit, frühere Eingaben zu bearbeiten, um das Gespräch in eine konstruktivere Richtung zu lenken. Andere parallele Konversationen sollen davon nicht betroffen sein und unverändert fortgeführt werden können.

Stete Entwicklung

Anthropic bezeichnet die neue Funktion als „ein laufendes Experiment“, sodass weitere und grundlegende Änderungen nicht ausgeschlossen sind. Nutzer werden zudem dazu aufgefordert, Rückmeldungen zu geben, wenn das KI-Modell in dieser Weise reagiert, um das Vorgehen weiter verfeinern zu können.



Source link

Beliebt

Die mobile Version verlassen