Once Upon a Time in the Test : Sex Differences in the Prediction of Academic Achievement and Job Performance

Lade...
Vorschaubild
Dateien
Schult_249093.pdf
Schult_249093.pdfGröße: 1.42 MBDownloads: 5923
Datum
2013
Autor:innen
Herausgeber:innen
Kontakt
ISSN der Zeitschrift
Electronic ISSN
ISBN
Bibliografische Daten
Verlag
Schriftenreihe
Auflagebezeichnung
DOI (zitierfähiger Link)
ArXiv-ID
Internationale Patentnummer
Angaben zur Forschungsförderung
Projekt
Open Access-Veröffentlichung
Open Access Green
Sammlungen
Core Facility der Universität Konstanz
Gesperrt bis
Titel in einer weiteren Sprache
Forschungsvorhaben
Organisationseinheiten
Zeitschriftenheft
Publikationstyp
Dissertation
Publikationsstatus
Published
Erschienen in
Zusammenfassung

The present thesis answers several open questions regarding the gender fairness of scholastic aptitude tests and provides practical advice how to assess test fairness and minimize predictive bias.



There are several reasons to use aptitude tests in the college admission process: they offer standardized scores, provide incremental validity over high school records, and may influence the educational decisions of applicants. Despite the usefulness of these tests in practice, their construct validity, the reasons for group differences and other psychometric aspects usually remain unclear. Consequently, a closer look at the fairness of admission tools reveals many gray areas where improper test use and imprecise conceptualization cannot be easily distinguished.



Test fairness in a narrow, psychometric sense is based on the lack of systematic bias. Three types of bias are generally distinguished: differential item functioning (DIF; an item is more difficult (or easier) for a particular subgroup after controlling for the ability it is supposed to measure), differential validity (different criterion validities for subgroups), and differential prediction (performances of subgroups are systemically underpredicted (or overpredicted)).



Four studies have been conducted to shed light on the extent and possible explanations of sex-specific bias associated with scholastic aptitude testing and the prediction of academic and vocational performance. In the first two studies, special attention was given to the role of intelligence facets, because general mental ability (g) and scholastic aptitude overlap conceptually - reasoning is among the constructs assessed by most college admission tests - and are highly correlated.



Study 1 provides a detailed look at the situation in Germany. Three student samples show various levels of differential prediction. Across all samples, mathematical reasoning yields the most favorable predictions for men (i.e., men's college grades are overpredicted). High School Grade Point Average (HSGPA; "Abiturnote"), on the other hand, is the least favorable predictor for men's academic performance, although it still underpredicts women's performance in two of the samples.



Study 2 explores the construct validity of two German tests of subject-specific scholastic aptitude. The link between intelligence and aptitude test score is confirmed. Small sex differences in validities suggest a stronger relationship between verbal reasoning and scholastic aptitude for women than for men.



Study 3 broadens the scope by looking at the careers of university students two years after their graduation. Valid predictors for success at work include personal interests, occupational status, math grades, and conscientiousness. The gender pay gap remains even after controlling for socio-economic status and motivational factors.



Study 4 demonstrates the aggregation of differential prediction findings with meta-analytical methods. The underprediction of women's college grades by aptitude tests can be reduced (but not eliminated) by using HSGPA and test scores as predictors. Graduate tests do not show differential prediction.



Based on these findings, two promising explanations for differential prediction are scrutinized. On the one hand, sex differences in vocational interests exist which are associated with choice of major and career paths. On the other hand, women appear to approach academic challenges in a more holistic way than men, which interferes with their admission test performance, but facilitates their academic performance, eventually.



Although some topics still need further attention (e.g., construct validity of grades, availability of large-scale data sets, socio-economic consequences of admission testing), my findings clarify the psychometric properties of scholastic aptitude tests and provide immediate suggestions for weighting subscales in order to maximize gender fairness.

Zusammenfassung in einer weiteren Sprache

Diese Arbeit beantwortet einige offene Fragen zur Genderfairness von Studierfähigkeitstests und bietet praktische Hinweise bezüglich der Erfassung von Testfairness und der Minimierung von Vorhersageverzerrungen.



Es gibt mehrere Gründe, beim Hochschulzulassungsverfahren Fähigkeitstests einzusetzen: Sie liefern standardisierte Ergebnisse, haben inkrementelle Validität über Schulnoten hinaus und können den Bewerberinnen und Bewerbern Feedback liefern, das ihnen bei der Wahl ihres Bildungswegs hilft.



Obwohl die Tests in der Praxis hilfreich sein können, sind ihre Konstruktvalidität, die Hintergründe von Gruppenunterschieden und weitere psychometrischen Aspekte meist immer noch unklar. Entsprechend entdeckt man beim genaueren Betrachten der Fairness von Auswahlinstrumenten zahlreiche Grauzonen, bei denen sich unangebrachte Testanwendung und ungenaue Konzeptualisierung nur schwer voneinander unterscheiden lassen.



Testfairness im engeren, psychometrischen Sinn bezieht sich auf die Abwesenheit von systematischen Verzerrungen. Gewöhnlich werden drei Arten von Verzerrungen unterschieden: "differential item functioning" (DIF; eine Aufgabe ist für eine Teilgruppe leichter (oder schwerer) unabhängig von der zu messenden Fähigkeit), differenzielle Validität (gruppenspezifische Kriteriumsvaliditäten) und differenzielle Prognose (Unter- bzw. Überschätzung der Leistung einer Subgruppe).



Vier Studien wurden durchgeführt, um die geschlechtsspezifischen Verzerrungen im Zusammenhang mit Studierfähigkeitstests und der Vorhersage von Studien- und Berufserfolg näher zu beleuchten. Bei den ersten beiden Studien liegt das Hauptaugenmerk auf Intelligenzfacetten, da der Generalfaktor der Intelligenz (g) und Studierfähigkeit sich konzeptuell überschneiden - logisches Schlussfolgern gehört zu den Konstrukten, die in den meisten Studierfähigkeitstests erfasst werden - und hoch miteinander korrelieren.



In Studie 1 wird ein genauerer Blick auf die Situation in Deutschland geworfen. In drei studentischen Stichproben fällt die differenzielle Prognose jeweils etwas anders aus. Über alle Stichproben hinweg liefert mathematisches Schlussfolgern die günstigste Vorhersage für Männer, d.h. eine Überschätzung der Studienleistung. Die Abiturnote dagegen wirkt sich am ungünstigsten auf die Vorhersage für Männer aus, obwohl die Leistung von Frauen in zwei der Stichproben auch hier immer noch unterschätzt wird.



In Studie 2 wird die Konstruktvalidität von zwei fachspezifischen deutschen Studierfähigkeitstests untersucht. Der vermutete enge Zusammenhang von Intelligenz und Studierfähigkeitstestergebnis wird dabei bestätigt. Kleine Geschlechtsunterschiede bei den Validitäten deuten auf eine stärkere Verbindung zwischen verbalem Schlussfolgern und Studierfähigkeit bei Frauen hin.



In Studie 3 werden die Berufswege von Universitätsabsolventinnen und -absolventen zwei Jahre nach ihrem Abschluss betrachtet. Zu den validen Berufserfolgsprädiktoren gehören persönliches Interesse, Berufsstatus, Mathematiknoten und Gewissenhaftigkeit. Die geschlechtsspezifische Lohnlücke kann durch die statistische Korrektur für sozio-ökonomischen Status und motivationale Faktoren nicht geschlossen werden.



In Studie 4 wird die Aggregation von Befunden zur differenziellen Prognose mittels meta-analytischer Methoden demonstriert. Die Unterschätzung der Studiennoten von Frauen durch Fähigkeitstests kann durch die Prädiktorenkombination von Schulnoten und Testwerten reduziert, aber nicht beseitigt werden. Bei Tests für fortgeschrittene Studiengänge zeigt sich dagegen keine differenzielle Prognose.



Ausgehend von diesen Befunden werden zwei aussichtsreiche Erklärungen für die differenzielle Prognose eingehend untersucht. Einerseits hängen Geschlechtsunterschiede beim fachlichen Interesse mit der Studienfachwahl und dem anschließenden Karriereweg zusammen. Andererseits scheinen Frauen akademische Herausforderungen holistischer anzugehen als Männer. Das kann zwar die Zulassungstestleistung beeinträchtigen, erleichtert aber die Bewältigung des anschließenden Studiums.



Obwohl einige Themen noch mehr Aufmerksamkeit benötigen (z.B. die Konstruktvalidität von Noten, die Verfügbarkeit von großen Datensätzen, die sozio-ökonomische Konsequenzen von Zulassungstests), verdeutlichen meine Ergebnisse die psychometrischen Eigenschaften von Studierfähigkeitstests und liefern unmittelbare Empfehlung für die Gewichtung von Subskalen zur Maximierung der Genderfairness.

Fachgebiet (DDC)
150 Psychologie
Schlagwörter
Testfairness, Geschlechtsunterschied, Studierfähigkeit, Studierfähigkeitstest, Intelligenz, Berufserfolg, Schulzeugnis, Studienerfolg, Metaanalyse
Konferenz
Rezension
undefined / . - undefined, undefined
Zitieren
ISO 690SCHULT, Johannes, 2013. Once Upon a Time in the Test : Sex Differences in the Prediction of Academic Achievement and Job Performance [Dissertation]. Konstanz: University of Konstanz
BibTex
@phdthesis{Schult2013Diffe-24909,
  year={2013},
  title={Once Upon a Time in the Test : Sex Differences in the Prediction of Academic Achievement and Job Performance},
  author={Schult, Johannes},
  address={Konstanz},
  school={Universität Konstanz}
}
RDF
<rdf:RDF
    xmlns:dcterms="http://purl.org/dc/terms/"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:bibo="http://purl.org/ontology/bibo/"
    xmlns:dspace="http://digital-repositories.org/ontologies/dspace/0.1.0#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:void="http://rdfs.org/ns/void#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#" > 
  <rdf:Description rdf:about="https://kops.uni-konstanz.de/server/rdf/resource/123456789/24909">
    <dcterms:title>Once Upon a Time in the Test : Sex Differences in the Prediction of Academic Achievement and Job Performance</dcterms:title>
    <dcterms:rights rdf:resource="https://rightsstatements.org/page/InC/1.0/"/>
    <dcterms:issued>2013</dcterms:issued>
    <dspace:hasBitstream rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/24909/1/Schult_249093.pdf"/>
    <void:sparqlEndpoint rdf:resource="http://localhost/fuseki/dspace/sparql"/>
    <dcterms:hasPart rdf:resource="https://kops.uni-konstanz.de/bitstream/123456789/24909/1/Schult_249093.pdf"/>
    <dc:creator>Schult, Johannes</dc:creator>
    <dc:rights>terms-of-use</dc:rights>
    <dc:language>eng</dc:language>
    <foaf:homepage rdf:resource="http://localhost:8080/"/>
    <dcterms:abstract xml:lang="eng">The present thesis answers several open questions regarding the gender fairness of scholastic aptitude tests and provides practical advice how to assess test fairness and minimize predictive bias.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;There are several reasons to use aptitude tests in the college admission process: they offer standardized scores, provide incremental validity over high school records, and may influence the educational decisions of applicants. Despite the usefulness of these tests in practice, their construct validity, the reasons for group differences and other psychometric aspects usually remain unclear. Consequently, a closer look at the fairness of admission tools reveals many gray areas where improper test use and imprecise conceptualization cannot be easily distinguished.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Test fairness in a narrow, psychometric sense is based on the lack of systematic bias. Three types of bias are generally distinguished: differential item functioning (DIF; an item is more difficult (or easier) for a particular subgroup after controlling for the ability it is supposed to measure), differential validity (different criterion validities for subgroups), and differential prediction (performances of subgroups are systemically underpredicted (or overpredicted)).&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Four studies have been conducted to shed light on the extent and possible explanations of sex-specific bias associated with scholastic aptitude testing and the prediction of academic and vocational performance. In the first two studies, special attention was given to the role of intelligence facets, because general mental ability (g) and scholastic aptitude overlap conceptually - reasoning is among the constructs assessed by most college admission tests - and are highly correlated.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Study 1 provides a detailed look at the situation in Germany. Three student samples show various levels of differential prediction. Across all samples, mathematical reasoning yields the most favorable predictions for men (i.e., men's college grades are overpredicted). High School Grade Point Average (HSGPA; "Abiturnote"), on the other hand, is the least favorable predictor for men's academic performance, although it still underpredicts women's performance in two of the samples.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Study 2 explores the construct validity of two German tests of subject-specific scholastic aptitude. The link between intelligence and aptitude test score is confirmed. Small sex differences in validities suggest a stronger relationship between verbal reasoning and scholastic aptitude for women than for men.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Study 3 broadens the scope by looking at the careers of university students two years after their graduation. Valid predictors for success at work include personal interests, occupational status, math grades, and conscientiousness. The gender pay gap remains even after controlling for socio-economic status and motivational factors.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Study 4 demonstrates the aggregation of differential prediction findings with meta-analytical methods. The underprediction of women's college grades by aptitude tests can be reduced (but not eliminated) by using HSGPA and test scores as predictors. Graduate tests do not show differential prediction.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Based on these findings, two promising explanations for differential prediction are scrutinized. On the one hand, sex differences in vocational interests exist which are associated with choice of major and career paths. On the other hand, women appear to approach academic challenges in a more holistic way than men, which interferes with their admission test performance, but facilitates their academic performance, eventually.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Although some topics still need further attention (e.g., construct validity of grades, availability of large-scale data sets, socio-economic consequences of admission testing), my findings clarify the psychometric properties of scholastic aptitude tests and provide immediate suggestions for weighting subscales in order to maximize gender fairness.</dcterms:abstract>
    <dcterms:available rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2013-10-23T08:34:38Z</dcterms:available>
    <bibo:uri rdf:resource="http://kops.uni-konstanz.de/handle/123456789/24909"/>
    <dc:date rdf:datatype="http://www.w3.org/2001/XMLSchema#dateTime">2013-10-23T08:34:38Z</dc:date>
    <dcterms:isPartOf rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/43"/>
    <dc:contributor>Schult, Johannes</dc:contributor>
    <dspace:isPartOfCollection rdf:resource="https://kops.uni-konstanz.de/server/rdf/resource/123456789/43"/>
  </rdf:Description>
</rdf:RDF>
Interner Vermerk
xmlui.Submission.submit.DescribeStep.inputForms.label.kops_note_fromSubmitter
Kontakt
URL der Originalveröffentl.
Prüfdatum der URL
Prüfungsdatum der Dissertation
October 21, 2013
Finanzierungsart
Kommentar zur Publikation
Allianzlizenz
Corresponding Authors der Uni Konstanz vorhanden
Internationale Co-Autor:innen
Universitätsbibliographie
Nein
Begutachtet
Diese Publikation teilen