Geschreven door Rick Jacobs, Ph.D., Senior Vice President en lid van de wetenschappelijke adviesraad van PSI
Al meer dan een halve eeuw is de gedifferentieerde selectie van personen uit verschillende groepen een van de meest zorgwekkende kwesties waarmee beroepsbeoefenaren die tewerkstellingsbeslissingen moeten nemen (werving, bevordering, afslanking), worden geconfronteerd. Als leden van de I/O-psychologiegemeenschap streven wij naar het creëren en implementeren van assessmentprogramma’s die eerlijk zijn en die ertoe leiden dat mensen met een gelijke bekwaamheid om het werk te doen een gelijke kans hebben om het werk te krijgen. Het vaststellen van negatieve effecten, een aanpak om te begrijpen of selectieprogramma’s eerlijk zijn, maakt al tientallen jaren deel uit van ons landschap.
Hoewel het concept eenvoudig is, is de assessment van negatieve effecten een punt van grote discussie. De methoden om de negatieve effecten op te lossen zijn talrijk en omstreden. Wij proberen nog steeds een beter inzicht te krijgen in de onderliggende oorzaken van de verschillen in assessment tussen de groepen – de factor die aan elke vaststelling van negatieve effecten voorafgaat.
Negatieve effecten: Is het erger om groot te zijn dan om slecht te zijn?
De manier waarop we negatieve effecten meten, is in de loop van de tijd veranderd. In het begin hebben wij gekeken naar wat bekend stond als de 80%- of de 4/5-regel: een eenvoudige berekening waarbij het selectiepercentage van de ene groep wordt vergeleken met dat van de andere en vervolgens wordt bepaald of de percentages binnen of buiten de marge liggen. Als bijvoorbeeld 20% van de blanke kandidaten wordt geselecteerd, moet het selectiepercentage voor zwarte kandidaten 16% of meer zijn om te voorkomen dat er negatieve effecten worden vastgesteld.
Toen de zaken hun weg vonden in de rechtbanken en de gegevens werden geanalyseerd met behulp van meer verfijnde analyses, zagen we dat er statistische verschillen waren tussen de selectiepercentages. Statistische significantie is de norm geworden voor evaluatie, hetgeen tegelijk een grotere wetenschappelijke nauwkeurigheid en een hele reeks analytische complicaties oplevert.
Een van de grote problemen waarmee werkgevers te kampen hebben, is het vermogen om grote aantallen sollicitanten aan te trekken via tests op internet en andere technologische ontwikkelingen. Statistische significantiebepaling wordt met name beïnvloed door de steekproefgrootte. In termen van negatieve effecten kan het dus “erger zijn om groot te zijn dan om slecht te zijn” (Jacobs, Murphy, en Silva (2013). Als uw organisatie een groot aantal kandidaten in haar analyse van negatieve effecten heeft, moet u zich bewust zijn van de steekproefgrootte. Bovendien begint een statistische significantietest met een “nulhypothese”, die de verwachting van “geen verschil” uitspreekt.
Maar dit is niet altijd het geval. Zoals tientallen jaren onderzoek voor bepaalde soorten tests kunnen aantonen, bestaan er bekende verschillen. Indien dergelijke tests voor gebruik in een selectieprogramma worden aangewezen, zal de “geen verschil-hypothese” ertoe leiden dat de resultaten in de richting van een negatief effect wijzen.
Dus, hoe verminderen we negatieve effecten?
Naast de hierboven beschreven meetmethode hebben I/O-psychologen met enig succes gezocht naar manieren om negatieve effecten te verminderen.
Score-indeling
Bij deze aanpak wordt in wezen gekeken naar verschillen in testscores en worden deze verschillen verkleind door scores die veel op elkaar lijken, samen te voegen. De eenvoudigste manier om indeling in een selectiecontext te zien, is misschien te kijken naar iets waarmee we allemaal vertrouwd zijn – schoolcijfers. In elke klas kan de instructeur leerlingen rangschikken van laag naar hoog, waarbij de scores variëren van minder dan 50% tot bijna 100%. In sommige instellingen worden die scores daadwerkelijk geregistreerd – maar vaker zien we dat mensen cijfers krijgen van A, B, C, enz. Iemand die een cijfer B krijgt, scoort ergens tussen de 80 en 89%. Op die manier worden indelingen gecreëerd.
Hetzelfde proces kan worden gebruikt voor de selectie van werknemers, waarbij kandidaten een categoriescore krijgen in plaats van een preciezere score die een zekere foutmarge inhoudt. De breedte van de indeling wordt vaak in verband gebracht met de foutmarge die men in een score meent te zien.
Meervoudige selectie-instrumenten
Een andere methode om negatieve effecten te beperken, is het opnemen van meerdere tests/instrumenten in het selectieproces. Hier kijken we naar de functieanalyse om de belangrijkste kennis, vaardigheden, bekwaamheden en persoonlijke kenmerken die tot succes leiden, aan het licht te brengen. Tientallen jaren lang werden politieagenten bijvoorbeeld geselecteerd op basis van cognitieve vaardigheidstests, die vaak ambtenarentests worden genoemd. Veel van deze assessments betroffen een brede basiskennis en een maatstaf voor het denkvermogen. Toen dit de enige manier was om politieagenten te selecteren, zagen we overwegend blanke politiemachten. In het begin van de jaren 80 werden de programma’s op dit gebied uitgebreid op basis van het idee dat je weliswaar slim moet zijn om politieagent te worden, maar dat je ook goede communicatieve vaardigheden moet hebben, over een zekere mate van empathie moet beschikken, en je op je gemak moet voelen om binnen de regels te werken. Toen de assessments werden uitgebreid met deze concepten, begonnen de politieafdelingen te diversifiëren.
De boodschap hier is dat één manier om negatieve effecten te verminderen erin bestaat de functie vollediger te omschrijven en meer en verschillende soorten assessments op te nemen.
Negatieve effecten zijn ingewikkeld, en de vermindering ervan vergt inspanningen op meerdere fronten. Het is belangrijk dat werkgevers bijhouden hoe hun selectie- en promotiesystemen functioneren en hoe ze kunnen worden verbeterd, zowel om de validiteit te verbreden als om de diversiteit te vergroten.