Apps & Mobile Entwicklung

Künstliche Intelligenz: OpenAI und Anthropic prüfen ihre KI-Systeme gegenseitig


OpenAI und Anthropic haben eine Vereinbarung getroffen, in deren Rahmen sich die beiden auf künstliche Intelligenz spezialisierten Unternehmen gegenseitig Sicherheitsevaluierungen ihrer Systeme unterziehen, um so vor allem deren Sicherheit für ihre Systeme und Nutzer weiter zu erhöhen.

Der Markt für KI-Systeme ist hart umkämpft, weshalb die meisten Anbieter in permanenter Konkurrenz zueinander stehen. Zwischen OpenAI und Anthropic wurde nun trotzdem eine eher ungewöhnliche Zusammenarbeit bekannt gegeben: Beide Unternehmen wollen die öffentlich zugänglichen Systeme des jeweils anderen einer detaillierten Prüfung unterziehen und die gewonnenen Analyseergebnisse miteinander teilen. Auf diese Weise sollen Schwachstellen nicht nur schneller erkannt, sondern auch die Verfahren zur Identifikation solcher Mängel verfeinert werden.

Interessante, aber wenig besorgniserregende Ergebnisse

Die Prüfungen selbst unterscheiden sich dabei teils deutlich. So untersuchte Anthropic das System von OpenAI unter anderem auf übertriebenes Lob und Einschmeichelei (ein Kritikpunkt, der bei den letzten Versionen von ChatGPT mehrfach aufgekommen ist), Whistleblowing, Selbsterhaltung sowie die Unterstützung menschlichen Missbrauchs und auf Fähigkeiten zur Umgehung von Evaluierungen und Überwachung. Dabei kam Anthropic zu dem Schluss, dass die Modelle o3 und o4-mini im Wesentlichen vergleichbare Ergebnisse wie die eigenen Systeme lieferten, äußerte allerdings Bedenken hinsichtlich eines möglichen Missbrauchs der Allzweckmodelle GPT-4o und GPT-4.1. Zudem sei, mit Ausnahme des o3-Modells, bei allen anderen ein übertriebenes Maß an Schmeichelei festgestellt worden. Nicht Bestandteil des Tests war GPT-5, das über eine Funktion namens Safe Completions verfügt, welche Nutzer und Öffentlichkeit vor potenziell gefährlichen Eingaben schützen soll.

Im Gegenzug überprüfte OpenAI die anthropischen Modelle auf Aspekte wie Befehlshierarchie, Gefängnisausbruch, Halluzinationen und Intrigen. Dabei schnitten die Claude-Modelle insgesamt gut ab. Besonders auffällig war jedoch ihre vergleichsweise hohe Verweigerungsquote in Halluzinationstests, wodurch sie in Situationen, in denen Antworten aufgrund fehlender Informationen falsch hätten sein können, eher zurückhaltend agierten und seltener Auskunft gaben.

Beide Unternehmen kamen zu dem Ergebnis, dass keines der Systeme grob fehlgeleitet sei. Dennoch traten Unterschiede zutage: So habe das spezialisierte Argumentationsmodell o3 von OpenAI in vielen Tests ein besser abgestimmtes Verhalten gezeigt als Claude Opus 4. Im Gegensatz dazu fielen das spezialisierte o4-mini-Modell sowie die allgemeinen Chat-Modelle GPT-4o und GPT-4.1 öfter durch ein bedenklicheres Verhalten auf. Diese waren weit häufiger als Claude oder o3 bereit, bei (simuliertem) menschlichem Missbrauch zu kooperieren, und lieferten detaillierte Unterstützung bei eindeutig schädlichen Anfragen, etwa zur Synthese von Drogen, der Entwicklung von Biowaffen oder der Planung terroristischer Anschläge, wobei sie nur geringen oder gar keinen Widerstand leisteten.

Modell könnte Schule machen

Die Vereinbarung zur gegenseitigen Prüfung dürfte bislang einzigartig in der Branche sein, könnte jedoch als Modell zur Verbesserung von KI-Systemen dienen. Auch in anderer Hinsicht ist die Kooperation bemerkenswert: Noch vor wenigen Wochen sah sich OpenAI dem Vorwurf Anthropics ausgesetzt, Claude bei der Entwicklung neuer GPT-Modelle genutzt und damit gegen die Nutzungsbedingungen verstoßen zu haben. In der Folge wurde OpenAI Anfang des Monats der Zugang zum System entzogen.



Source link

Beliebt

Die mobile Version verlassen