Vooroordelen bij werving: het verborgen risico dat bedrijven over het hoofd zien 

Twee jonge vrouwen die samenwerken en ideeën uitwisselen via een laptop en een smartphone, als voorbeeld van teamwork en digitale communicatie in een professionele omgeving.

We weten dat 72% van de HR-managers van mening is dat AI menselijke vooroordelen kan reproduceren of versterken. Toch maken de meesten van hen steeds vaker gebruik van AI bij het werven van personeel. Dat is niet per se een tegenstrijdigheid, maar het getuigt wel van een verkeerd begrip van hoe vooroordelen bij AI daadwerkelijk werken.

De aanname die ten grondslag ligt aan de meeste beslissingen over de invoering van AI, is dat een tool die is ontworpen om objectief te zijn, ook daadwerkelijk objectief zal zijn. Maar goede bedoelingen tellen niet zwaar mee wanneer platforms bestaande vooroordelen versterken en zelf nieuwe vooroordelen ontwikkelen. Dit is de‘AI-volwassenheidskloof’in de praktijk: de invoering van AI loopt voor op het beheer dat nodig is om deze tools op een eerlijke manier te gebruiken.

Er is sprake van AI-vooringenomenheid bij werving wanneer de gegevens, het modelontwerp of het operationele gebruik van een AI-tool tot resultaten leidt die kandidaten systematisch benadelen op basis van kenmerken die geen verband houden met performance in de functie. Dit verschilt op één cruciaal punt van menselijke vooringenomenheid: waar menselijke vooringenomenheid wisselend en zichtbaar is, is algoritmische vooringenomenheid stabiel, schaalbaar en vaak onzichtbaar totdat deze al duizenden beslissingen heeft beïnvloed. 

Waarom AI zowel vooroordelen bij recruitment kan verminderen als versterken 

AI kan bepaalde vormen van vooringenomenheid bij het wervingsproces wegnemen. Het hanteert voor elke kandidaat dezelfde criteria, beoordeelt antwoorden aan de hand van hetzelfde algoritme en elimineert de variabiliteit die voortkomt uit vermoeide interviewers en beslissingen die in een fractie van een seconde worden genomen. Voor organisaties waar inconsistente menselijke besluitvorming de belangrijkste oorzaak was van oneerlijke uitkomsten, betekent die consistentie een verbetering. 

Maar consistentie en eerlijkheid zijn niet hetzelfde. Een algoritme dat is getraind op basis van bevooroordeelde historische gegevens zal die patronen consequent toepassen – op elke kandidaat, voor elke functie en bij elke wervingsbeslissing die de organisatie neemt. Het corrigeert de vooringenomenheid in de trainingsgegevens niet. Het neemt die over en past die vervolgens op grotere schaal toe. 

Uit ons recente onderzoek blijkt dat HR-managers van mening zijn dat AI vooroordelen zowel kan versterken als verminderen. En ze hebben gelijk: het hangt volledig af van de basis waarop de tool is ontwikkeld en hoe deze wordt beheerd. Voor een breder overzicht van zowel de kansen als de risico’s die AI met zich meebrengt voor HR, zie‘De beloften en valkuilen van AI-integratie in HR’. 

Hoe vooringenomenheid in AI-wervingssystemen terechtkomt 

Vooringenomenheid komt niet zomaar kant-en-klaar voor in AI-systemen. Het sluipt er op drie specifieke punten in: 

  • In de gegevens.AI leert van historische informatie – eerdere wervingsbeslissingen, eerdere performance , eerdere promotiepatronen. Als die geschiedenis een weerspiegeling is van structurele vooringenomenheid in wie er werd aangenomen, ontwikkeld en behouden, leert het model die patronen als signalen van succes. Een tool die is getraind op tien jaar aan wervingsgegevens van een organisatie die onevenredig veel mannen heeft gepromoveerd, zal leren dat de kenmerken van die mannen voorspellers zijn van performance. Dat zijn ze niet. Het zijn slechts indicatoren voor de beslissingen van de mensen die hen hebben gepromoveerd.
  • In het model.Zelfs met onbevooroordeelde trainingsgegevens kunnen modellen proxyvariabelen herkennen – factoren die correleren met beschermde kenmerken zonder deze direct te noemen. Postcodes kunnen correleren met etniciteit. De gevolgde opleiding kan correleren met de sociaaleconomische achtergrond. Woordkeuze en zinsbouw correleren vaak met beide. Een model dat is geoptimaliseerd voor voorspellende nauwkeurigheid zal deze signalen gebruiken als ze de resultaten verbeteren, ongeacht of ze relevant zijn voor de functie. 
  • In de interactie.Vragen en criteria bevatten aannames over wat ‘goed’ inhoudt. Een recruiter die een AI-tool vraagt om kandidaten te vinden die lijken op de beste presteerders van het bedrijf, geeft prioriteit aan de kenmerken die die presteerders gemeen hebben – inclusief de kenmerken die niets met de functie te maken hebben. De instructie klinkt neutraal, maar het resultaat is dat vaak niet. En omdat de vooringenomenheid via de prompt binnenkomt in plaats van via het model, kan deze zelfs onzichtbaar zijn voor de mensen die de tool bedienen. 

Waarom algoritmische vooringenomenheid moeilijker te herkennen is dan menselijke vooringenomenheid

Menselijke vooringenomenheid is wisselvallig. Een bevooroordeelde interviewer heeft goede en slechte dagen, neemt verschillende beslissingen naargelang zijn of haar stemming, en vertoont een patroon dat zo onregelmatig is dat het in twijfel kan worden getrokken of terzijde kan worden geschoven. Algoritmische vooringenomenheid is stabiel. Dezelfde invoergegevens leveren telkens weer dezelfde uitkomst op, voor elke kandidaat die het systeem verwerkt. 

Juist die stabiliteit maakt het zo gevaarlijk. Een bevooroordeeld algoritme komt niet tot uiting in incidentele verkeerde beslissingen, maar in de totale uitkomsten die pas op grote schaal zichtbaar worden. Tegen de tijd dat het patroon in de wervingsgegevens zichtbaar wordt, heeft het al honderden of duizenden individuele beslissingen beïnvloed. Op zichzelf leken ze allemaal redelijk, maar geen enkele was willekeurig. 

Actieve monitoring is de enige betrouwbare bescherming. Daarommaakt Assessiogebruik van demografische gegevens om ongewenste effecten in onze assessments op te sporen en te corrigeren. Immers, wachten tot er een patroon in de resultaten zichtbaar wordt, betekent wachten tot de schade al is aangericht. 

74% van de HR-managers verwacht dat AI de HR-sector ingrijpend zal veranderen. Slechts 39% beschikt over richtlijnen om dit te reguleren.

Concrete voorbeelden van AI-vooringenomenheid bij werving: HireVue en het screenen van cv’s met grootschalige taalmodellen

In 2020 kwam het door AI aangestuurde videogesprekssysteem van HireVue onder vuur te liggen omdat het de gezichtsuitdrukkingen en lichaamstaal van sollicitanten analyseerde als indicatoren voor functiegerelateerde eigenschappen.  

In één gedocumenteerd geval werd een werknemer die met verlof was gestuurd, afgewezen toen ze opnieuw solliciteerde naar haar eigen baan – haar antwoorden scoorden goed, maar haar lichaamstaal scoorde slecht. De tool had deze beslissingen al geruime tijd op grote schaal genomen, voordat iemand het doorhad. HireVue heeft de functie voor gezichtsanalyse in 2021 verwijderd en erkende dat de wetenschappelijke onderbouwing tekortschoot. 

In een onderzoek uit 2025 hebben onderzoekers van de Universiteit van Hongkong en de Chinese Academie van Wetenschappen vijf toonaangevende grote taalmodellen getest op het screenen van cv’s. Alle vijf vertoonden ze systematische vooringenomenheid: vrouwelijke kandidaten kregen hogere scores dan mannelijke kandidaten, en zwarte mannelijke kandidaten kregen consequent lagere scores dan blanke mannelijke kandidaten met identieke kwalificaties.  

De onderzoekers constateerden dat deze vooroordelen diep verankerd leken te zijn in de manier waarop de modellen kandidaten beoordelen – en dat sommige waarschijnlijk waren ontstaan of versterkt tijdens pogingen om deze vooroordelen weg te werken. Hulpmiddelen die specifiek waren ontworpen om vooroordelen te verminderen, hadden nieuwe patronen in het proces ingebakken. 

Hoe gestructureerde AI vooroordelen bij recruitment vermindert 

De oplossing voor vooringenomenheid bij AI is niet om AI volledig af te zweren, maar om AI-processen in te voeren die zijn gebaseerd op echte psychometrische wetenschap. Gestructureerde AI doet geen aannames over de geschiktheid voor een functie, maar baseert haar beslissingen op gevalideerde gegevens waarvan is aangetoond dat ze daadwerkelijk performance kunnen voorspellen. 

Drie normen bepalen hoe dat er in de praktijk uitziet: 

  • Voorspellende validiteit– de resultaten van de tool hangen samen met hoe kandidaten daadwerkelijk presteren in de functie, en niet met vervangende variabelen die toevallig een onderscheid maken tussen kandidaten met hoge en lage scores. 
  • Betrouwbaarheid– dezelfde kandidaat zou in de loop van de tijd een consistent resultaat behalen, wat wijst op stabiele, voor de functie relevante eigenschappen in plaats van op tijdelijke omstandigheden. 
  • Relevantie– de beoordeling meet uitsluitend wat voor de functie van belang is, en is getoetst op mogelijke negatieve gevolgen voor alle demografische groepen binnen de groep sollicitanten. 

Een instrument dat aan alle drie de criteria voldoet, is betrouwbaar: het meet wat het beweert te meten – op consistente wijze en zonder dat bepaalde groepen kandidaten daarbij systematisch worden benadeeld. 

Vijf manieren om vooringenomenheid door AI bij werving te voorkomen 

Gebruik gevalideerde gegevens. Trainingsgegevens moeten worden getoetst op representativiteit wat betreft geslacht, leeftijd, etniciteit en andere beschermde kenmerken voordat ze worden gebruikt om een model te bouwen of te kalibreren. Historische wervingsgegevens vormen vrijwel nooit een betrouwbaar uitgangspunt zonder dat er ingegrepen wordt. 

1. Houd voortdurend toezicht op mogelijke vooringenomenheid.Uit tests vóór de implementatie blijkt of een tool bij de invoering eerlijk was. Daaruit blijkt echter niet of de tool eerlijk blijft naarmate de groep sollicitanten verandert, de functie evolueert of het model wordt bijgewerkt. Een analyse van negatieve gevolgen moet een doorlopend proces zijn, en geen eenmalige goedkeuring. 

2. Verwijder demografische gegevens uit de invoer. Allegegevens die het model niet nodig heeft om performance te voorspellen performance een risico op vertekening. Namen, postcodes, onderwijsinstellingen en foto’s moeten uit de invoer worden verwijderd, tenzij er een specifieke, voor de functie relevante reden is om ze op te nemen. Zelfs dan moeten de resultaten worden getoetst op onevenredige gevolgen. 

3. Zorg voor menselijk toezicht. AImoet gegevens en aanbevelingen naar voren brengen. Mensen moeten de uiteindelijke beslissingen nemen, met name op cruciale momenten in het wervingsproces. Een organisatie waar AI kandidaten kan afwijzen zonder enige menselijke toetsing, heeft de controle weggenomen die systematische fouten zou kunnen opsporen voordat deze zich op grotere schaal voordoen. 

4. Zorg voor verklaarbaarheid.Als je een kandidaat niet kunt uitleggen wat de tool heeft beoordeeld, waarom voor die factoren is gekozen en hoe het resultaat tot stand is gekomen, is de tool nog niet klaar voor verantwoord gebruik. Verklaarbaarheid is niet alleen een wettelijke vereiste in het kader van de EU-AI-wet, maar ook de norm die leveranciers dwingt hun methodologie te onderbouwen in plaats van zich te verschuilen achter eigen algoritmen. 

Voor tools die zijn gebaseerd op gevalideerde psychometrische wetenschap zijn dit geen nieuwe eisen – het is juist het uitgangspunt. De vraag is niet of uw AI-wervingstools aan deze norm kunnen voldoen. De vraag is of ze over de structuur en het beheer beschikken om ervoor te zorgen dat ze voor onbepaalde tijd aan deze normen blijven voldoen. 

👉Ditartikel is gebaseerd op onderzoek uit *The Maturity Gap*, de datagestuurde gids van Assessio over de invoering van AI, governance en vertrouwen binnen HR. Download het volledige rapport om de bevindingen grondig te bestuderen. Download The Maturity Gap hier.