Voreingenommenheit durch KI bei der Personalauswahl: das versteckte Risiko, das Unternehmen übersehen 

Zwei junge Frauen, die mithilfe eines Laptops und eines Smartphones zusammenarbeiten und Ideen austauschen – ein Beispiel für Teamarbeit und digitale Kommunikation im beruflichen Umfeld.

Wir wissen, dass 72 % der Personalverantwortlichen der Meinung sind, dass KI menschliche Vorurteile reproduzieren oder verstärken kann. Dennoch setzen die meisten von ihnen KI bei der Personalauswahl immer häufiger ein. Das ist nicht unbedingt ein Widerspruch, sondern zeugt von einem Missverständnis darüber, wie Vorurteile bei KI tatsächlich funktionieren.

Den meisten Entscheidungen zur Einführung von KI liegt die Annahme zugrunde, dass ein Tool, das auf Objektivität ausgelegt ist, auch objektiv sein wird. Doch gute Absichten zählen wenig, wenn Plattformen bereits vorhandene Vorurteile verstärken und eigene Vorurteile entwickeln. Das ist dieKI-Reifelückein der Praxis: Die Einführung schreitet schneller voran als die für einen fairen Einsatz dieser Tools erforderliche Steuerung.

Eine Verzerrung durch KI bei der Personalauswahl liegt vor, wenn die Daten, die Modellgestaltung oder die praktische Anwendung eines KI-Tools zu Ergebnissen führen, die Bewerber aufgrund von Merkmalen, die in keinem Zusammenhang mit der Arbeitsleistung stehen, systematisch benachteiligen. Sie unterscheidet sich in einem entscheidenden Punkt von menschlicher Voreingenommenheit: Während menschliche Voreingenommenheit inkonsistent und sichtbar ist, ist algorithmische Voreingenommenheit beständig, skalierbar und oft unsichtbar, bis sie bereits Tausende von Entscheidungen beeinflusst hat. 

Warum KI bei der Personalauswahl sowohl Vorurteile verringern als auch verstärken kann 

KI kann bestimmte Arten von Voreingenommenheit bei der Personalauswahl beseitigen. Sie wendet auf jeden Bewerber dieselben Kriterien an, bewertet Antworten anhand desselben Algorithmus und eliminiert die Schwankungen, die durch müde Interviewer und blitzschnelle Urteile entstehen. Für Unternehmen, in denen uneinheitliche menschliche Entscheidungen der Hauptgrund für unfaire Ergebnisse waren, stellt diese Konsistenz eine Verbesserung dar. 

Konsistenz und Fairness sind jedoch nicht dasselbe. Ein Algorithmus, der auf voreingenommene historische Daten trainiert wurde, wird diese Muster konsequent anwenden – auf jeden Bewerber, in jeder Position und bei jeder Einstellungsentscheidung, die das Unternehmen trifft. Er gleicht die Voreingenommenheit in seinen Trainingsdaten nicht aus. Er lernt sie und überträgt sie dann auf größere Maßstäbe. 

Unsere jüngste Umfrage ergab, dass Personalverantwortliche der Ansicht sind, dass KI Vorurteile sowohl verstärken als auch abbauen kann. Und sie haben Recht – es hängt ganz davon ab, auf welcher Grundlage das Tool entwickelt wurde und wie es gesteuert wird. Einen umfassenderen Überblick über die Chancen und Risiken, die KI für den Personalbereich mit sich bringt, finden Sieim Artikel „Chancen und Fallstricke der KI-Integration im Personalwesen“. 

Wie Vorurteile in KI-basierte Einstellungssysteme gelangen 

Voreingenommenheit taucht in KI-Systemen nicht von vornherein auf. Sie schleicht sich an drei bestimmten Stellen ein: 

  • In den Daten.KI lernt aus historischen Informationen – früheren Einstellungsentscheidungen, früheren Leistungsbewertungen, früheren Beförderungsmustern. Wenn diese Historie strukturelle Verzerrungen hinsichtlich der Frage widerspiegelt, wer eingestellt, gefördert und im Unternehmen gehalten wurde, lernt das Modell diese Muster als Erfolgssignale. Ein Tool, das auf der Grundlage von zehn Jahren Einstellungsdaten einer Organisation trainiert wurde, die Männer überproportional befördert hat, wird lernen, dass die Merkmale dieser Männer Leistungsindikatoren sind. Das sind sie nicht. Sie sind lediglich Stellvertreter für die Entscheidungen der Personen, die sie befördert haben.
  • Im Modell.Selbst bei sauberen Trainingsdaten können Modelle Stellvertretervariablen identifizieren – Faktoren, die mit geschützten Merkmalen korrelieren, ohne diese direkt zu benennen. Postleitzahlen können mit der ethnischen Zugehörigkeit korrelieren. Die besuchte Universität kann mit dem sozioökonomischen Hintergrund korrelieren. Wortschatz und Satzbau korrelieren oft mit beidem. Ein Modell, das auf Vorhersagegenauigkeit optimiert ist, wird diese Signale nutzen, wenn sie seine Ergebnisse verbessern, unabhängig davon, ob sie für die Stelle relevant sind. 
  • In der Interaktion.Eingabeaufforderungen und Kriterien enthalten Annahmen darüber, wie „gut“ aussieht. Ein Personalverantwortlicher, der ein KI-Tool bittet, Kandidaten zu finden, die den Leistungsträgern des Unternehmens ähneln, priorisiert jene Eigenschaften, die diese Leistungsträger gemeinsam haben – einschließlich derer, die nichts mit der Stelle zu tun haben. Die Anweisung klingt neutral, das Ergebnis ist es jedoch oft nicht. Und da die Voreingenommenheit über die Eingabeanweisung und nicht über das Modell selbst einfließt, kann sie selbst für die Personen, die das Tool bedienen, unsichtbar sein. 

Warum algorithmische Verzerrungen schwerer zu erkennen sind als menschliche Verzerrungen

Menschliche Voreingenommenheit ist unbeständig. Ein voreingenommener Interviewer hat gute und schlechte Tage, trifft je nach Stimmung unterschiedliche Entscheidungen und lässt ein Muster erkennen, das so unübersichtlich ist, dass es angezweifelt oder verworfen werden kann. Algorithmische Voreingenommenheit ist beständig. Dieselben Eingaben führen jedes Mal zu denselben Ergebnissen – bei jedem Kandidaten, den das System verarbeitet. 

Genau diese Stabilität macht das Ganze so gefährlich. Ein voreingenommener Algorithmus offenbart sich nicht durch vereinzelte Fehlentscheidungen – er zeigt sich vielmehr in den Gesamtergebnissen, die erst bei großem Umfang sichtbar werden. Wenn sich das Muster schließlich in den Einstellungsdaten abzeichnet, hat es bereits Hunderte oder Tausende einzelner Entscheidungen geprägt. Jede einzelne Entscheidung erschien für sich genommen vernünftig, doch keine davon war zufällig. 

Eine aktive Überwachung ist der einzige zuverlässige Schutz. Aus diesem Grundnutzt Assessiodemografische Daten, um negative Auswirkungen in unseren Bewertungen zu erkennen und zu korrigieren. Denn wenn man darauf wartet, dass sich in den Ergebnissen ein Muster abzeichnet, wartet man so lange, bis der Schaden bereits entstanden ist. 

74 % der Personalverantwortlichen gehen davon aus, dass KI den Personalbereich grundlegend verändern wird. Nur 39 % verfügen über Richtlinien zu deren Einsatz.

Konkrete Beispiele für KI-Voreingenommenheit bei der Personalauswahl: HireVue und die Lebenslaufprüfung durch große Sprachmodelle (LLM)

Im Jahr 2020 geriet das KI-gestützte Video-Interview-System von HireVue in die Kritik, weil es die Mimik und Körpersprache der Bewerber als Indikatoren für berufsrelevante Eigenschaften analysierte.  

In einem dokumentierten Fall wurde eine beurlaubte Mitarbeiterin abgelehnt, als sie sich erneut auf ihre eigene Stelle bewarb – ihre Antworten wurden zwar gut bewertet, ihre Körpersprache jedoch schlecht. Das Tool hatte diese Entscheidungen bereits in großem Umfang getroffen, bevor es jemand bemerkte. HireVue entfernte die Gesichtsanalysefunktion im Jahr 2021 und räumte ein, dass die wissenschaftliche Grundlage fehlerhaft war. 

In einer Studie aus dem Jahr 2025 untersuchten Forscher der Universität Hongkong und der Chinesischen Akademie der Wissenschaften fünf führende große Sprachmodelle im Hinblick auf die Sichtung von Lebensläufen. Alle fünf Modelle wiesen systematische Verzerrungen auf: Sie bewerteten weibliche Bewerberinnen besser als männliche Bewerber und bewerteten schwarze männliche Bewerber bei identischer Qualifikation durchweg schlechter als weiße männliche Bewerber.  

Die Forscher stellten fest, dass diese Verzerrungen tief in der Art und Weise verankert zu sein schienen, wie die Modelle Kandidaten bewerten – und dass einige davon wahrscheinlich bei Versuchen zur Beseitigung von Verzerrungen eingeführt oder verstärkt worden waren. Tools, die ausdrücklich zur Verringerung von Verzerrungen entwickelt worden waren, hatten dabei neue Muster in den Prozess eingebaut. 

Wie strukturierte KI Vorurteile bei der Personalauswahl abbaut 

Die Lösung für das Problem der Voreingenommenheit bei KI besteht nicht darin, KI gänzlich aufzugeben, sondern KI-Prozesse einzuführen, die auf fundierten psychometrischen Erkenntnissen basieren. Strukturierte KI trifft keine Annahmen über die Eignung für eine Stelle, sondern stützt ihre Entscheidungen auf validierte Daten, die getestet wurden, um sicherzustellen, dass sie die Leistung tatsächlich vorhersagen. 

Drei Standards legen fest, wie das in der Praxis aussieht: 

  • Prädiktive Validität– Die Ergebnisse des Tools korrelieren mit der tatsächlichen Leistung der Kandidaten in der jeweiligen Position und nicht mit Ersatzvariablen, die zufällig eine Unterscheidung zwischen Kandidaten mit hohen und niedrigen Punktzahlen ermöglichen. 
  • Zuverlässigkeit– derselbe Kandidat würde im Laufe der Zeit ein gleichbleibendes Ergebnis erzielen, das eher stabile berufsrelevante Eigenschaften widerspiegelt als vorübergehende Umstände. 
  • Relevanz– Die Bewertung misst nur das, was für die Stelle von Bedeutung ist, und wird auf mögliche nachteilige Auswirkungen auf die verschiedenen demografischen Gruppen innerhalb der Bewerbergruppe geprüft. 

Ein Instrument, das alle drei Kriterien erfüllt, ist zuverlässig, wenn es darum geht, das zu messen, was es zu messen vorgibt – und zwar konsistent und ohne dabei bestimmte Gruppen von Bewerbern systematisch zu benachteiligen. 

Fünf Möglichkeiten, Vorurteile bei der Personalauswahl durch KI zu vermeiden 

Verwenden Sie validierte Daten. Trainingsdaten sollten auf ihre Repräsentativität in Bezug auf Geschlecht, Alter, ethnische Zugehörigkeit und andere geschützte Merkmale geprüft werden, bevor sie zur Erstellung oder Kalibrierung eines Modells verwendet werden. Historische Einstellungsdaten sind ohne entsprechende Maßnahmen so gut wie nie ein verlässlicher Ausgangspunkt. 

1. Überwachen Sie Verzerrungen kontinuierlich.Tests vor der Einführung zeigen, ob ein Tool zum Zeitpunkt seiner Einführung fair war. Sie geben jedoch keinen Aufschluss darüber, ob es auch dann noch fair ist, wenn sich der Bewerberpool verändert, die Stelle weiterentwickelt wird oder das Modell aktualisiert wird. Die Analyse potenziell nachteiliger Auswirkungen sollte ein fortlaufender Prozess sein und nicht nur einmalig durchgeführt werden. 

2. Demografische Eingabedaten entfernen. AlleDaten, die das Modell nicht zur Vorhersage der Arbeitsleistung benötigt, bergen das Risiko einer Verzerrung. Namen, Postleitzahlen, Bildungseinrichtungen und Fotos sollten aus den Eingabedaten entfernt werden, sofern kein spezifischer, berufsrelevanter Grund für ihre Einbeziehung vorliegt. Selbst in diesem Fall sollten die Ergebnisse auf ungewollte Ungleichbehandlung überprüft werden. 

3. Menschliche Kontrolle einbeziehen. KIsollte Daten und Empfehlungen bereitstellen. Die endgültigen Entscheidungen sollten von Menschen getroffen werden, insbesondere an entscheidenden Punkten im Einstellungsprozess. Ein Unternehmen, in dem KI Bewerber ohne menschliche Überprüfung ablehnen kann, hat die Kontrollinstanz beseitigt, die systematische Fehler aufdecken könnte, bevor sie sich ausweiten. 

4. Stellen Sie die Erklärbarkeit sicher.Wenn Sie einem Bewerber nicht erklären können, was das Tool bewertet hat, warum diese Faktoren ausgewählt wurden und wie das Ergebnis zustande gekommen ist, ist das Tool noch nicht für den verantwortungsvollen Einsatz bereit. Erklärbarkeit ist nicht nur eine gesetzliche Anforderung gemäß dem EU-KI-Gesetz, sondern auch der Standard, der Anbieter dazu zwingt, ihre Methodik zu begründen, anstatt sich hinter proprietären Algorithmen zu verstecken. 

Für Instrumente, die auf validierter psychometrischer Wissenschaft basieren, sind dies keine neuen Anforderungen – sie sind vielmehr der Ausgangspunkt. Die Frage ist nicht, ob Ihre KI-basierten Rekrutierungstools diesen Standard erfüllen können. Die Frage ist vielmehr, ob sie über die erforderlichen Strukturen und Kontrollmechanismen verfügen, um sicherzustellen, dass sie diese Standards auf Dauer erfüllen. 

👉DieserArtikel stützt sich auf Forschungsergebnisse aus „The Maturity Gap“, dem datengestützten Leitfaden von Assessio zu KI-Einführung, Governance und Vertrauen im Personalwesen. Laden Sie den vollständigen Bericht herunter, um die Ergebnisse im Detail zu erkunden. Laden Sie „The Maturity Gap“ hier herunter.