Gütekriterien | help.schuhfried.com

Objektivität

Unter Objektivität eines Verfahrens ist zu verstehen, dass die mit dem Verfahren gewonnenen Ergebnisse unabhängig vom Untersucher sind (Ziegler & Bühner, 2012). Man unterscheidet zwischen Durchführungsobjektivität (das Ergebnis ist unabhängig vom Testleitenden bzw. der Untersuchungssituation), Auswertungsobjektivität (das Ergebnis ist unabhängig von der auswertenden Person) und Interpretationsobjektivität (verschiedene Interpretierende gelangen anhand der Ergebnisse zum selben Schluss). Bei ungenügender Objektivität kann ein Test auch nicht valide sein, sprich nicht den Erfolg von Kandidaten und Kandidatinnen vorhersagen. Computertests wie im Wiener Testsystem weisen aufgrund der standardisierten Vorgabe am Computer, der automatisierten Auswertung und der Normierung ein Maximum an allen drei Arten der Objektivität auf.

Reliabilität

Die Reliabilität eines Verfahrens beschreibt den Grad der Genauigkeit, mit dem ein Eignungsmerkmal gemessen wird (Ziegler & Bühner, 2012). Die Reliabilitätskoeffizienten können zwischen 0 und 1 liegen, wobei ein höherer Wert für höhere Genauigkeit steht. Nach den Testbegutachtungsrichtlinien der European Federation of Psychologists‘ Associations (EFPA, 2025) gelten Reliabilitätswerte über 0,7 als adäquat, über 0,8 als gut, und über 0,9 als exzellent. Verfahren mit geringerer Reliabilität können jedoch zum Screening von Eigenschaften verwendet werden.

Die Tests des Wiener Testsystem (WTS) weisen alle eine mindestens adäquate Reliabilität auf. Einige Tests im WTS, die auf Basis der Item Response Theory entwickelt wurden und als adaptive Tests mit einem großen Aufgabenpool entwickelt wurden, bieten die Möglichkeit, dass die Reliabilität durch den Testleiter bzw. die Testleiterin eingestellt werden kann.

Kriteriumsvalidität

Unter Kriteriumsvalidität ist zu verstehen, dass Testwerte der jeweiligen psychometrischen Verfahren mit einem für das Eignungsmerkmal relevanten Außenkriterium korrelieren. Das Verfahren sollte beispielsweise in der Lage sein, den zukünftigen beruflichen Erfolg (z. B. Umsatz, Vorgesetztenbeurteilungen, Noten in Ausbildungstests etc.), neuropsychologische bzw. klinisch psychologische Diagnosen oder sportliche Leistungsfähigkeit vorherzusagen. In den nachfolgenden Kapiteln wird der Zusammenhang psychologischer Tests mit relevanten Außenkriterien in den Bereichen Eignungsbeurteilung, klinisch-psychologische Diagnostik und sportpsychologische Diagnostik erläutert.

Eignungsbeurteilung

Eine perfekte Vorhersage des berufs- oder ausbildungsbezogenen Erfolgs mit psychologischen Tests ist zwar nicht möglich, psychologische Tests können jedoch beruflichen Erfolg überzufällig wahrscheinlich vorhersagen und somit eine fundierte, objektive Auswahlentscheidung ermöglichen. Verglichen mit anderen HR-Verfahren ist die Vorhersagekraft psychologischer Tests für beruflichen Erfolg hoch: Eine Metaanalyse von Schmidt und Hunter (1998) analysierte die Kriteriumsvalidität unterschiedlicher eignungsdiagnostischer Verfahren, darunter kognitive Leistungstests, Persönlichkeitstests, strukturierte Interviews, unstrukturierte Interviews, Assessment Center, Referenzen und Graphologie. Es zeigte sich, dass, wenn man die Verfahren isoliert einsetzt, kognitive Leistungstests und strukturierte Interviews die höchste Prognosegüte zur Vorhersage von Ausbildungs- und Berufserfolg haben. Die Schmidt-Hunter-Studie zeigte allerdings auch, dass die Prognosegüte am besten erhöht werden kann, wenn man kognitive Leistungstests mit einem strukturierten Interview bzw. mit Persönlichkeitstests kombiniert. Die Autoren schlagen deshalb vor, andere Verfahren als Ergänzung zu kognitiven Leistungstests einzusetzen. Ein Vorteil von kognitiven Leistungstests gegenüber personalintensiven Interviews ist, dass psychometrische Verfahren positionsübergreifend und effizient in Gruppentestungen eingesetzt werden können. Zusammenfassend lässt sich sagen, dass mit einer Kombination von verschiedenen Tests sowie anderen HR-Instrumenten Berufserfolg am besten prognostiziert werden kann. Die Ergebnisse der Schmidt-Hunter-Studie wurden von weiteren unabhängigen Metaanalysen bestätigt (z. B. Bertua, Anderson & Salgado, 2005). Sackett et al. (2021) überprüften in einer aktuellen Revision die ursprünglichen Schlussfolgerungen von Schmidt und Hunter (1998) insbesondere in Bezug auf Auswirkungen von statistischen Korrekturen für Varianzeinschränkung von Validitätsschätzungen. Die Autoren schlussfolgerten, dass diese Korrekturen für Varianzeinschränkung signifikante Probleme aufweisen und die Validität vieler Verfahren dementsprechend überschätzt wurde. Auch nach methodischen Anpassungen der Berechnung der jeweiligen Kennwerte der Validität nehmen Auswahlverfahren, die in früheren Studien einen hohen Rang einnahmen, weiterhin einen hohen Rang ein. Wie in Abbildung 1 zu sehen, reduzierten sich die mittleren Validitätsschätzungen allerdings um 10 bis 20 Prozentpunkte.

Abbildung 1: Revision von Sackett et. al (2021)

Eine aktuelle Studie von Hambrick, Burgoyne und Oswald (2024) bestätigt die anhaltende Relevanz kognitiver Fähigkeiten für die Vorhersage beruflicher Leistung – unabhängig von der Berufserfahrung. Auf Basis eines großen Datensatzes, der 31 verschiedene militärische Berufe (N = 10 088) umfasste, untersuchten sie die Stabilität der prädiktiven Validität kognitiver Fähigkeiten über verschiedene Erfahrungsstufen hinweg. Während häufig argumentiert wird, dass der Einfluss allgemeiner kognitiver Fähigkeiten (g-Faktor) mit zunehmender Erfahrung abnimmt, zeigen die Ergebnisse, dass g auch bei hoher Berufserfahrung ein signifikanter Prädiktor für die berufsspezifische Leistung bleibt. Zwar zeigte sich, dass die Vorhersagekraft von g in Berufen mit hohem manuellen Arbeitsanteil tendenziell etwas schwächer ausfällt, jedoch war die prädiktive Validität über alle untersuchten militärischen Berufsfelder konsistent vorhanden. Die Autoren schlussfolgern, dass viele komplexe Arbeitsaufgaben nicht nur konstante Anforderungen enthalten, sondern auch variable Herausforderungen, die kontinuierliche Anpassungs- und Problemlösefähigkeit erfordern – Eigenschaften, die eng mit kognitiver Leistungsfähigkeit verknüpft sind. Diese Ergebnisse stehen im Einklang mit früheren Metaanalysen, auch wenn Sackett et al. (2021) darauf hinweisen, dass frühere Schätzungen zur Validität von g möglicherweise überschätzt wurden.

Auch die Eignung für schulische und universitäre Ausbildung sowie Lehre o. Ä. lässt mit kognitiven Leistungstests vorhersagen. Aktuelle Ergebnisse zum Ausbildungserfolg liefern Zisman und Ganzach (2022). In einer Replikation der Studie von Borghans et. al (2016) untersuchten sie die Vorhersagekraft kognitiver Leistungstests sowie Persönlichkeitstests auf den Ausbildungserfolg (Abbildung 2).

Abbildung 2: Vorhersagekraft kognitiver Fähigkeiten und Persönlichkeit auf den Ausbildungserfolg

In den von ihnen analysierten Datensätzen war die Vorhersagekraft der Intelligenz in Bezug auf schulischen und beruflichen Erfolg weitaus höher als die Vorhersagekraft der Big Five Persönlichkeitsdimensionen. Ausführlichere Informationen zum Ausbildungserfolg finden sich in den jeweiligen Kapiteln der Bildung.

Da, neben kognitiver Leistungsfähigkeit (g) auch Persönlichkeitsfragebögen als Auswahlkriterium genutzt werden, stellt sich die Frage, welche Persönlichkeitsdimensionen am stärksten Erfolg voraussagen. Eine große Metaanalyse mit N = 413 074 Teilnehmenden untersuchte die auf Messfehler korrigierten Korrelationen (ρ) zwischen Big Five und Studienerfolg, welcher ein Vorhersagekriterium für Berufserfolg darstellt (Mammadov, 2022). Da Persönlichkeitsdimensionen mit g korrelieren können – was zu einer Überschätzung deren Einfluss führen kann – wurden berichtete Korrelationen zusätzlich um den Effekt von g bereinigt. Diese betrugen für Offenheit ρ = ,16, für Gewissenhaftigkeit ρ = ,27, für Extraversion ρ = ,01, für Verträglichkeit ρ = ,09 und für Emotionale Stabilität ρ = ,02. Zusammenfassend zeigten sowohl Extraversion als auch Emotionale Stabilität vernachlässigbar kleine Effekte, während Gewissenhaftigkeit, Offenheit und potenziell auch Verträglichkeit als wertvolle Prädiktoren interpretiert werden können. Zusätzlich stellte sich g mit ρ = ,42 als weiterhin stärkster Prädiktor heraus.

Eine weitere, aktuelle Studie analysierte die durchschnittlichen Persönlichkeitseigenschaften von 68 540 Teilnehmenden in 263 verschiedenen Berufsgruppen und konnte zeigen, dass viele Berufe distinkte Persönlichkeitsprofile aufweisen (Anni et al., 2025). Generell verhielten sich die Persönlichkeitseigenschaften der verschiedenen Berufsgruppen in der Studie überwiegend augenscheinlich erwartungsgemäß, beispielsweise wiesen Tätigkeiten in Werbung und Verkauf eine hohe durchschnittliche Extraversion auf, während Personen im Ingenieursberufen eher niedrige Ausprägungen in dieser Dimension erzielten. Außerdem wurde in der Studie auf die „work styles“ aus der O*NET-Datenbank (O*NET OnLine, o. D.) Bezug genommen. O*NET ist eine der wichtigsten Plattformen für berufliche Informationen in den USA, näheres dazu wird bei Personalauswahl beschrieben. Die „work styles“ sind eine Sammlung von Anforderungen, die für verschiedene Berufe als leistungs- und erfolgsrelevant erachtet werden und auf der Einschätzung von Expertinnen und Experten und Stelleninhabenden basieren. Darunter befinden sich zum Beispiel Führungsorientierung, Selbstkontrolle oder Initiative. Die Studie konnte zeigen, dass die „work style“ Anforderungen der einzelnen Berufsgruppen mit den beobachteten Big Five Persönlichkeitsdimensionen korrelieren. Die stärksten Zusammenhänge zeigten sich zwischen Beharrlichkeit / Durchhaltevermögen und Offenheit (ρ = ,59), Führungsfähigkeit und Gewissenhaftigkeit (ρ = ,25), Selbstkontrolle und Extraversion (ρ = ,50), sowie Integrität / Rechtschaffenheit und Emotionale Stabilität (ρ = ,28). Verträglichkeit wies keine signifikanten Korrelationen auf, während Extraversion und Offenheit mit dem Großteil von O*NETs Dimensionen signifikante Effekte zeigte (Anni et al., 2025).

Zusammenfassend lässt sich festhalten, dass eignungsdiagnostische Verfahren wie kognitive Leistungstests aufgrund ihrer hohen Kriteriumsvalidität zu den wirkungsvollsten Instrumenten der berufs- und ausbildungsbezogenen Eignungsdiagnostik zählen. Aktuelle Forschungsergebnisse bestätigen die hohe Relevanz kognitiver Fähigkeiten (g) als stärksten Einzelprädiktor von Ausbildungs- und Berufserfolg. Unter den Persönlichkeitsmerkmalen zeigen sich Gewissenhaftigkeit und Offenheit als wichtige ergänzende Prädiktoren, während die übrigen Dimensionen nur geringe Zusatzeffekte zeigen. Diese obengenannten Studien deuten darauf hin, dass Persönlichkeitsfragbögen kriteriumsvalide im Hinblick auf Arbeitsstil und Berufserfolg sind, und einen inkrementellen Vorhersagewert gegenüber kognitiven Fähigkeiten aufweisen. Insgesamt unterstreicht die vorliegende Evidenz die zentrale Rolle empirisch fundierter, standardisierter Auswahlverfahren für eine valide, gerechte und effiziente Personalentscheidung.

Klinisch-/neuropsychologische Diagnostik

In der neuropsychologischen Diagnostik ist die Bestimmung des neurokognitiven Funktionsniveau nach Definition der gängigen Manuale, ICD-11 oder DSM-5, notwendig für Diagnostik und Therapieplanung von neurokognitiven Störugen, wie Demenz, sowie manche Entwicklungsstörungen wie ADHS (siehe Klinische Psychologie ). Beispielsweise zeige eine Meta-Analyse mit insgesamt 3 734 Teilnehmenden mit und 2 969 ohne ADHS zeigte, dass bei ADHS sind exekutive Funktionen mittelstark beeinträchtigt sind (d bzw. g ≈ 0,46–0,69), besonders bei Inhibition (STROOP), Vigilanz (VIGIL), Arbeitsgedächtnis (SPAN) und kognitiver Flexibilität (TMT-S) (Willcutt et al., 2005).

Auch in der klinisch-psychologischen Diagnostik und Therapie von Störungen, bei welchen die neurokognitive Funktionseinschränkung kein Kernsymptom darstellt, kann die Bestimmung des neurokognitiven Funktionsniveaus ergänzende Informationen liefern. Psychologische Tests weisen über zahlreiche Störungsbilder hinweg robuste Gruppenunterschiede zwischen Gesunden und Personen mit klinischen Diagnosen auf – ein Kernbeleg für deren störungsbezogene Kriteriumsvalidität.

So zeigen Meta-Analysen etwa im Vergleich von 9 048 Patienten und Patientinnen mit Schizophrenie und 8 814 gesunden Personen eine ausgeprägte, generalisierte Leistungsverschlechterung (globaler Mittelwert Hedges’ g ≈ −1,03), am stärksten bei Verarbeitungsgeschwindigkeit (g ≈ −1,25) und episodischem Gedächtnis (g ≈ −1,23). Tests wie der TMT-S (Verarbeitungsgeschwindigkeit und Kognitive Flexibilität) und SPAN (Arbeitsgedächtnis) messen dabei eben diese Domänen, in denen die größten gruppendiagnostischen Effekte vorliegen (Schaefer et al., 2013).

Für affektive Störungen zeigen Meta-Analysen, dass n = 784 Personen mit Major Depression gegenüber n = 727 Gesunden moderate Defizite in Exekutivfunktionen, Gedächtnis und Aufmerksamkeit (Cohen’s d ≈ −0,34 bis −0,65) aufwiesen; diese Unterschiede blieben in verringertem Ausmaß auch in Remission (n = 168) bestehen – ein starker Hinweis, dass die Testwerte zeitstabile Gruppenunterschiede abbilden und sich nicht vollständig durch vorübergehende Stimmungs- oder Motivationseffekte erklären lassen (Rock et. al., 2013). In einer anderen Meta-Analyse, bestehend aus 689 Patientinnen und Patienten mit bipolarer Störung in Euthymie und 721 Personen in der Kontrollgruppe, fanden sich (auch im euthymen Zustand) mittlere bis große Effekte (z. T. d ≥ -0,80), unter anderem in Exekutivfunktionen und verbalem Lernen (Robinson et al, 2006).

Persönlichkeitsmerkmale zeigten in manchen Fällen ebenfalls störungsspezifische Profile: Eine Meta-Analyse (N = 30 036 bis 33 054) über zahlreiche Angst-, Depressions- und Substanzstörungen verglich klinisch auffällige mit unauffälligen Personen (Kotov et al., 2010). Die klinische Stichprobe zeigte niedrigere emotionale Stabilität (mittleres d = -1,65) und Gewissenhaftigkeit (mittleres d = −1,01). Weiters sagen Persönlichkeitseigenschaften prospektiv neurokognitive Diagnosen voraus: Höherer Neurotizismus erhöhte das Demenzrisiko (Hazard Ratio (HR) = 1,24), höhere Gewissenhaftigkeit senkt es (HR = 0,77; Aschwanden et al., 2021). Persönlichkeitsmerkmale werden in den SFS Solutions für den klinischen und Neurobereich nicht standardmäßig miterfasst, können bei speziellen diagnostischen Fragestellungen etwa über den FCB5 Persönlichkeitsfragebogen erfasst werden.

Zusammenfassend zeigen Meta-Analysen über verschiedene Störungen, Domänen und Instrumente hinweg konsistente Gruppenunterschiede zwischen klinischen Personen mit Diagnosen und gesunden Kontrollstichproben. Damit kann Kriteriumsvalidität bezüglich des klinischen Status für die genannten Fähigkeits- und Persönlichkeitskonstrukte als gegeben interpretiert werden.

Sportpsychologische Diagnostik

Psychologische Tests weisen konsistente Zusammenhänge mit sportlicher Leistungsfähigkeit auf – ein Kernbeleg für deren Kriteriumsvalidität. Eine große Meta-Analyse (N = 8 860) fand, dass fähigere Athletinnen und Athleten in kognitiven Tests besser abschneiden als weniger fähige (gesamt Hedges’ g = 0,59, 95 % CI [0,49; 0,69]). Besonders ausgeprägt sind Effekte bei Entscheidungsaufgaben (g = 0,77) und sportartspezifischen Aufgaben (Kalén et al., 2021). In einer weiteren Meta-Analyse mit 1 410 Sportlerinnen und Sportlern aus 17 Studien zeigten Profis über Sportarten hinweg höhere kognitive Leistungsfähigkeit gegenüber Amateuren (r = 0,22; Scharfen et al., 2019). Das stützt die Validität domänengenereller Verfahren wie TMT-S (Verarbeitungsgeschwindigkeit), SPAN (Arbeitsgedächtnis) und STROOP (Interferenzkontrolle) zur Differenzierung sportlicher Leistungsniveaus. Zusätzlich zeige eine Meta-Analyse von Liu et al. (2024) mit 1 453 Teilnehmenden im Multiple-Object-Tracking klare Vorteile für Athletinnen und Athleten gegenüber Nichtsportlern und Nichtsportlerinnen (g = 0,56) und für Experten und Expertinnen gegenüber Novizen und Novizinnen (g = 0,92). Diese Ergebnisse unterstützen die Kriteriumsvalidität von Tests, die Überblicksgewinnung und reaktive Belastbarkeit adressieren (z. B. ATAVT-2, DT, RT).

Auch Persönlichkeit trägt zur sportlichen Leistung bei: Big Five-Faktoren und sportliche Leistung hängen vor allem in den Dimensionen Gewissenhaftigkeit (r = 0,178) und Extraversion (r = 0,145) signifikant positiv zusammen (Yang et al., 2024). Dieser Effekt bleibt sowohl in Team- als auch Einzelsport konsistent erhalten.

Zusammenfassend zeigt meta-analytische Evidenz mittlere bis große Effekte kognitiver Leistungsfähigkeit, und kleine aber statistisch signifikante Zusammenhänge zwischen Persönlichkeit und sportlicher Leistung. Zusammen lassen sich diese Befunde als Kriteriumsvalidität der im sportpsychologischen Kontext eingesetzten Test interpretieren.

Fairness

Testfairness beschreibt das Ausmaß, in dem die aus einem Testverfahren resultierenden Werte zu keiner systematischen Benachteiligung bestimmter Testpersonen führen. Eine systematische Benachteiligung kann sich beispielsweise aufgrund der ethnischen, soziokulturellen oder geschlechtsspezifischen Zugehörigkeit ergeben (Kubinger, 2019).

Testfairness kann sich nicht nur unmittelbar auf die Inhalte der Testitems beziehen, sondern prinzipiell auf alle Aspekte eines Testverfahrens – von der Konstruktion über die Durchführung bis hin zur Auswertung. Ein übergeordnetes Verständnis von Testfairness bildet daher die Gleichbehandlung aller Testpersonen, hinsichtlich Testbedingungen, Zugang zu Übungsmaterial, Rückmeldung und weiteren Aspekten der Testadministration.

Das Wiener Testsystem trägt zur Fairness bei, indem es ein standardisiertes Testerlebnis und Testleiterunabhängigkeit ermöglicht. Die Fairness des Aufgabenmaterials wird dabei bei jedem Einzeltest im Wiener Testsystem im Hinblick auf Geschlecht, Alter, und Bildungsgrad untersucht und in den jeweiligen Testmanualen berichtet. Da das Wiener Testsystem für eine weltweite Nutzung ausgelegt ist, spielt Fairness über verschiedene Kulturen hinweg ebenso eine zentrale Rolle, welche in der Testkonstruktion und Entwicklung explizit beachtet wird.

Ökonomie

Unter Ökonomie wird verstanden, wie ressourcenschonend ein Verfahren im Vergleich zum erzielten Informationsgewinn ist (Kubinger, 2019). Im Vergleich zu anderen Instrumenten (z. B. Assessment Center / Arbeitsprobe) sind psychologische Testverfahren meist wesentlich ökonomischer. Computertests weisen einen besonders hohen Grad an Ökonomie auf, da die Vorgabe in computerisierter Form stattfindet, die Auswertung und Berichterstellung automatisiert erfolgt, die Datenverwaltung einfach ist sowie Gruppentestungen möglich gemacht werden.

Kosten-Nutzen-Rechnungen zeigen, dass durch den Einsatz von Testverfahren in der Personalauswahl die Trefferquote für geeignete Kandidaten und Kandidatinnen massiv gesteigert werden kann – bei gleichzeitiger Erhöhung der Produktivität und Reduzierung von Fehlinvestitionen. Durch die so eingesparten Kosten amortisieren sich die Investitionen für die Anschaffung der Tests innerhalb kürzester Zeit.

Das Literaturverzeichnis finden Sie hier: Literatur