Verfasst von Rick Jacobs, Ph.D., Senior Vice President und Mitglied des PSI Science Advisory Board
Seit mehr als einem halben Jahrhundert ist die differenzierte Auswahl von Mitarbeiter:innen aus verschiedenen Gruppen eines der schwierigsten Themen, mit denen Fachleute konfrontiert sind, die Personalentscheidungen treffen (Einstellung, Beförderung, Personalabbau). Als Mitglieder der E/A-Psychologie-Gemeinschaft sind wir bestrebt, faire Assessmentprogramme zu entwickeln und umzusetzen, die dazu führen, dass Menschen mit den gleichen Fähigkeiten die gleichen Chancen haben, für die jeweilige Position eingestellt zu werden. Die Feststellung negativer Auswirkungen und die Möglichkeiten zur Erkennung von fairen Auswahlprogrammen, ist seit Jahrzehnten Teil unseres Arbeitsbereichs.
Das Konzept ist zwar einfach, aber die Bewertung von negativen Auswirkungen ist ein sehr umstrittenes Thema. Die Methoden zur Beseitigung negativer Auswirkungen sind zahlreich und kontrovers. Wir versuchen immer noch, die Ursachen für die Assessment-Unterschiede zwischen Gruppen besser zu verstehen – den Faktor, der jeder Feststellung von negativen Auswirkungen vorausgeht.
Negative Auswirkungen: Was ist schlimmer – große oder schlechte Auswirkungen?
Die Art und Weise, wie wir negative Auswirkungen messen, hat sich im Laufe der Zeit geändert. Schon früh haben wir uns mit der sogenannten 80%- oder 4/5-Regel befasst: eine einfache Berechnung, bei der die Auswahlquote einer Gruppe mit der einer anderen verglichen wird und dann festgestellt wird, ob die Quoten innerhalb oder außerhalb des Spektrums liegen. Wenn beispielsweise weiße Bewerber:innen zu einer Quote von 20 % ausgewählt werden, muss die Auswahlquote bei Schwarzen Bewerber:innen 16 % oder mehr betragen, damit keine negativen Auswirkungen auftreten.
Als einige Fälle vor Gericht gingen und Daten mit Hilfe ausgefeilterer Analysemethoden ausgewertet wurden, stellten wir fest, dass es statistische Unterschiede bei den Auswahlquoten gab. Die statistische Signifikanz ist zum Standard für die Evaluierung geworden, was gleichzeitig eine größere wissenschaftliche Genauigkeit, aber auch eine Reihe von analytischen Komplikationen mit sich bringt.
Eines der großen Probleme, mit denen Arbeitgeber konfrontiert sind, ist die Fähigkeit, eine große Bewerberzahl durch Online-Tests und andere technologische Fortschritte zu gewinnen. Die Prüfung der statistischen Signifikanz wird insbesondere durch den Stichprobenumfang beeinflusst. In Bezug auf die negativen Auswirkungen können also „große Auswirkungen schlimmer als schlechte sein“ (Jacobs, Murphy und Silva [2013]). Wenn Ihr Unternehmen eine große Bewerberzahl in ihre Analyse der negativen Auswirkungen einbezieht, müssen Sie sich über die Stichprobengröße im Klaren sein. Außerdem beginnt die Prüfung der statistischen Signifikanz mit einer „Nullhypothese“, die besagt, dass kein Unterschied zu erwarten ist
Das ist jedoch nicht immer der Fall. Wie jahrzehntelange Forschung für bestimmte Testtypen belegen kann, gibt es bekannte Unterschiede. Wenn diese Testtypen für die Verwendung in einem Auswahlprogramm angegeben werden, führt die „Kein-Unterschied-Hypothese“ zu einer Verzerrung der Ergebnisse im Hinblick auf negative Auswirkungen.
Wie können wir also die negativen Auswirkungen verringern?
Abgesehen von der oben beschriebenen Messmethode haben E/A-Psychologen mit einigem Erfolg nach Möglichkeiten gesucht, negative Auswirkungen zu verringern.
Zusammenfassung von Punktzahlen
Bei diesem Ansatz werden im Wesentlichen die Unterschiede bei den Testergebnissen betrachtet und durch die Zusammenfassung von sehr ähnlichen Punktzahlen verringert. Vielleicht ist es am einfachsten, sich die Zusammenfassung von Punktzahlen in einem Auswahlkontext vorzustellen, mit dem wir alle vertraut sind – Schulnoten. In einer Klasse kann der Lehrer/die Lehrerin die Schüler:innen von niedrig bis hoch anordnen, wobei die Ergebnisse von unter 50 % bis zu fast 100 % reichen. In einigen Situationen werden diese Ergebnisse tatsächlich festgehalten – häufiger jedoch erhalten Schüler:innen Noten von 1, 2, 3 usw. Jemand, der eine 2 erhält, hat zwischen 80 und 89 % erreicht. Auf diese Weise werden Zusammenfassungen geschaffen.
Dasselbe Verfahren kann bei der Auswahl von Mitarbeiter:innen angewandt werden, wobei die Bewerber:innen eine Kategoriepunktzahl anstelle einer genaueren Bewertung erhalten, die eine gewisse Fehlerquote beinhaltet. Die Bandbreite der Zusammenfassung hängt oft mit der Fehlermenge zusammen, die bei einer Punktzahl vermutet wird.
Mehrere Auswahlinstrumente
Eine weitere Methode zur Verringerung negativer Auswirkungen besteht darin, mehrere Tests/Instrumente in den Auswahlprozess einzubeziehen. Hier hilft uns die Arbeitsplatzanalyse, die wichtigsten Kenntnisse, Fähigkeiten, Fertigkeiten und persönlichen Eigenschaften zu ermitteln, die zum Erfolg führen. Beispielsweise wurden Polizeibeamte jahrzehntelang auf der Grundlage von Tests der kognitiven Fähigkeiten ausgewählt, die oft als „Tests für den öffentlichen Dienst“ bezeichnet werden. Viele von ihnen waren breit angelegte Wissensbewertungen mit Tests zur Denkweise. Als diese Auswahlmethode noch die einzige Möglichkeit war, waren die Polizeikräfte überwiegend weiß. In den frühen 80er Jahren wurden die Programme in diesem Bereich basierend auf der Idee ausgeweitet, dass man nicht nur intelligent sein muss, um Polizist:in zu werden, sondern auch über gute Kommunikationsfähigkeiten verfügen, ein gewisses Maß an Einfühlungsvermögen besitzen und bereit sein muss, Regeln zu befolgen. Als die Assessments auf diese Konzepte ausgeweitet wurden, wurden die Polizeidienststellen vielfältiger.
Die Botschaft lautet, dass eine Möglichkeit zur Verringerung der negativen Auswirkungen darin besteht, die Tätigkeit genauer zu definieren und mehr und andere Arten von Assessments einzubeziehen.
Negative Auswirkungen sind kompliziert, und die Verringerung erfordert Anstrengungen an mehreren Fronten. Es ist wichtig, dass Arbeitgeber die Funktionsweise ihrer Auswahl- und Beförderungssysteme im Auge behalten und prüfen, wie sie verbessert werden können, um sowohl die Validität als auch die Vielfalt zu erhöhen.