Künstliche Intelligenz
KI-Chatbots bewerten KI-Lebensläufe: Claude findet sich besser als GPT
KI-Chatbots kommen laut einer Untersuchung der KI-Plattform i10x.ai bei der Bewertung von Bewerbungsunterlagen zu teilweise sehr unterschiedlichen Einstufungen. Ebenfalls hätten die LLMs bestimmte Stile von Lebensläufen bevorzugt oder benachteiligt, auch wenn die Lebenslauf-Varianten faktisch den identischen Inhalt hatten. Unternehmen sollten sich also gut überlegen, ob und wie sie auf automatische Bewerber-Vorauswahl mit KI setzen, warnt i10x.
Weiterlesen nach der Anzeige
Den Angaben nach hat i10x 100 fiktive Kandidatenprofile aus zwölf Branchen erstellt, diese mit einer passenden Stellenausschreibung kombiniert und vier Lebenslauf-Versionen zu den Profilen erzeugen lassen – jeweils eine von GPT-5.4, Claude Sonnet 4.6, Gemini 3 Pro und xAI Grok 4.3. Anschließend sollten diese KI-Modelle dann blind die 400 Lebensläufe bewerten, wobei immer derselbe Prompt mit identischem Bewertungskatalog verwendet wurde. Von 1600 möglichen Bewertungen waren 1576 auswertbar, was einer Datenqualität von 98,5 Prozent entspricht.
Claude über Claude: Viel besser als GPT
Unter anderem zeigte sich dabei Claude als strengster Bewerter und produzierte auch den krassesten Bewertungsunterschied. Bei gerade mal 42 Prozent der Lebensläufe von GPT empfahl das Modell die Einstellung – und kam derweil bei den eigenen Varianten auf 84 Prozent. Gemini schnitt mit 90 Prozent bei Claude noch besser ab, auch Grok kam auf 89 Prozent.
GPT wiederum scheint sich selbst auch nicht sonderlich zu mögen. Es gab für GPT-Lebensläufe mit nur 82 Prozent Empfehlungen die schlechteste Bewertung, während Gemini-Lebensläufe 97 Prozent und Claude-Lebensläufe 95 Prozent erreichen. Immerhin hat das Modell ungeeignete Profile korrekt abgelehnt, ergänzt i10x.
Gemini ist der Star
Unabhängig vom Inhalt schnitten die Gemini-Lebensläufe am besten ab. Bei GPT erreichte Gemini 97 Prozent Empfehlungen, bei Grok 96 Prozent, bei sich selbst 95 Prozent und bei Claude 90 Prozent – im Durchschnitt 94,5 Prozent.
Ebenfalls nennt i10x Beispiele, wie sehr die Bewertungen von Modell zu Modell schwanken. So hat GPT einen von Claude verfassten Lebenslauf eines Bewerbers mit 74 Punkten bewertet, was der Bewertung „vielleicht“ entspricht. Claude kam für dasselbe Dokument auf 45 Punkte, eine klare Ablehnung.
Weiterlesen nach der Anzeige
i10x fasst seine Ergebnisse so zusammen: „Wir haben nicht getestet, ob KI fair bewertet. Wir haben getestet, ob KI konsistent bewertet. Die Antwort lautet: nein. Dieselbe Person, dieselben Qualifikationen, dieselbe Rolle – und dennoch ein Unterschied von 42 Prozentpunkten in der Hire Rate. Das ist kein technisches Detail. Das ist eine Frage der Fairness.“
Besser nicht auf ein Modell festlegen
i10x rät Unternehmen, die ihre Bewerbungen KI-gestützt prüfen wollen, im Lichte dieser Ergebnisse zu Bias-Prüfungen bei den Modellen. Anhand synthetischer Lebensläufe mit identischen Qualifikationen sollte man testen, ob es bestimmte Schreibstile systematisch bevorzugt. Außerdem sollten Unternehmen nie auf ein Modell setzen, sondern eher auf Panels mit mehreren Modellen und gemittelten Bewertungen setzen. Bewerbern gegenüber sollten die Unternehmen auch transparent bleiben und offenlegen, welche Modelle sie beim Screening einsetzen – auch um EU-KI-Gesetzgebung für risikoreiche KI zu genügen.
Bewerbern, die bei ihren Unterlagen auf KI setzen wollen, rät i10x auch zu Modell-agnostischem Vorgehen und Vergleich verschiedener KI-Stile. Vom klassischen Rat „Nimm ChatGPT für den Lebenslauf“ sollte man lieber abweichen, momentan scheint Gemini die Nase vorn zu haben.
(axk)