Testfairness

Testfairness
Seminar:
Dozent:
Referent:
Datum:
Themen der pädagogischpsychologischen Diagnostik
Dr. Martin Brunner
Stefan Nebelung
29. Mai 2006
Gliederung





Einleitung
Was ist Testfairness?
Einfluss des sprachlichen
Aufgabenursprungs - PISA
Einfluss von „Ansporn“ auf Motivation
und Leistung - PISA
Literatur
Wir haben 10 Leute gefragt …
Was verstehen Sie
eigentlich unter
Testfairness?
Was ist „fair“?
(1)
(2)
(3)
treating each person, side, etc.
equally and according to the rules or
law
reasonable and just or appropriate in
the circumstances
average; quite good
aus: Oxford Advanced Learner‘s Dictionary (1995). Oxford
Universtity Press: Oxford.
Testfairness



Testfairness kann als ein Gütekriterium
betrachtet werden - es ist allerdings eher
auf den Entscheidungs- und
Handlungsaspekt der Diagnostik bezogen
als die anderen Testgütekriterien
thematisiert wird Testfairness etwa seit Ende
der 60-iger, Anfang der 70-iger Jahre
Begriffe:
Testfairness, Testbias, Itembias,
Selektionsbias
Ethische Grundpositionen
nach Hunter & Schmidt (1976)
1. ‚unqualified indivdualism‘
2. ‚qualified indiviualism‘
3. ‚fair-share‘

ja nach Position fällt die Ansicht über
Fairness und Diskriminierung aus
‚unqualified indivdualism‘


Bei dieser Position werden „[…]
Gruppenunterschiede im Kriterium, die
durch die Fähigkeitstests nicht erklärt
und vorhergesagt werden können,
nicht ignoriert.“
bei Leugnung der Unterschiede:
Diskriminierung der im Kriterium
besseren
‚qualified individualism‘


Bei dieser Position werden „[…]
Gruppenunterschiede (zum Beispiel
zwischen Status- und ethnischen
Gruppen) ignoriert.“
bei Beachtung der Unterschiede:
Diskriminierung der im Kriterium
schlechteren Gruppe
‚fair share‘

Diese Position sieht dann eine
Diskriminierung, „[…] wenn bei
Selektionen die verschiedenen
gesellschaftlich relevanten Gruppen
nicht mit angemessenen Quoten (‚fair
share‘) vertreten sind.“
Fairnesskonzepte
1.
Identitätskonzept
1.
2.
3.
2.
Entwicklung gruppenspezifischer Tests
Entwicklung gruppenspezifischer
Normen
Konstruktion kulturfreier Tests
Regressionskonzept nach Cleary
(1968)
Gruppenspezifische Tests
Beispiel: Intelligenztests
 seit Beginn der Forschung findet man
Korrelationen zw. sozioökonomischen
Status bzw. ethnischer Herkunft und der
Testleistung  Schlussfolgerung: Tests sind
„kulturell geladen“
 kulturspezifische Inhalte, deren Lösung von
Fähigkeiten und Fertigkeiten abhängen, die
in unterschiedlichen Kulturen
unterschiedliche Ausmaße haben
Gruppenspezifische Tests


ein Test ist für die unfair, die nur geringeren
oder keinen Anteil an der Kultur haben, für
welche der Test bestimmt ist
„[…] Von einem fairen Test wurde dagegen
erwartet, daß er jedem die Chance
einräume, sich in jener Art intelligent zu
verhalten, die seiner individuellen
Sozialisationsgeschichte entspreche.“
Gruppenspezifische Tests


letzte logische Konsequenz: so viele
verschiedene Test wie verschiedene
Kulturen
Black Intelligence Test of Cultural
Homogenity (BITCH) von Williams (1975) Afroamerikanische Kinder gleiche verbale
Intelligenz wie Kaukasische (Weiße, in
einem Standardtest), da dieser Test ihrer
Sozialisation angemessen ist
Gruppenspezifische Normen


„Jeder Test, der in unserer heterogenen
Gesellschaft Individuen vorgelegt wird,
diskriminiert zulasten der Personen, deren
kultureller Hintergrund sich von dem der
Majorität unterscheidet.“ (Goslin, 1968)
also „kulturspezifische Standardisierung“,
sprich verschiedene Vergleichnormen für
verschiedene Subgruppen
Gruppenspezifische Normen


im Extrem: kein Individuum ist mit
einem anderen vergleichbar, weil
minimale Unterschiede im
Sozialisationshintergrund gibt.
Krapp (1977) unterschied (für
pädagogischen Hintergrund) zw.
‚laufbahnorientierte Diagnostik‘ und
‚lernwegorientierte Diagnostik‘
Kulturfreie Tests


Versuch „Tests zu konstruieren, die nur
solche Erfahrungen für die Lösung der
Testaufgaben voraussetzen, die
verschiedenen Kulturen gemeinsam
sind“ (Anastasi, 1964)
besonders Verzicht auf direkte Prüfung
verbalen Fähigkeiten (z.B. Tests des
räumlichen Vorstellungsvermögens)
Kulturfreie Tests


auch hier kann es sein, dass der Test
‚kulturell geladen‘ ist, wenn die
Hintergrund der Personen differiert
aber je kulturfreier (oder kulturell
kontrollierter), also auch fairer, ein Test
ist, desto inhaltsleerer und weniger
valide ist er
Kulturfreie Tests


schon das Ausklammern von
(mittelschichtorientierten) sprachlichen
Kompetenz, verzerrt die Widerspieglung
intellektueller Fähigkeiten (Guthke, 1972)
„Die Verschleierung faktischer
Ungleichheiten kann nicht fair sein, da
Defizite nur behoben werden können, wenn
sie aufgedeckt werden.“ (Simons & Möbus,
1982)
Regressionsmodell nach Cleary

nach Cleary (1962) „ist ein
Selektionsverfahren dann fair, wenn
bei seiner Anwendung für keine der
miteinander verglichenen Gruppen
eine systematische Über- oder
Unterschätzung der Kriteriumswerte
entsteht.“ (Amelang & Zielinski, 2002)
Regressionsmodell nach Cleary
weitere Fairnesskonzepte




Modell konstanter Verhältnisse
(Thorndike, 1971)
„Conditional Probability Model“ (Cole,
1973)
„Equal Probability Model“ (Linn, 1973)
‚„Bonusmodell“‘ von Darlington (1971)
Fairness bei PISA
2 Artikel zur PISA-Studie:
 zum Einfluss der Sprache aus welcher
ein Item ursprünglich stammt
(Muttersprache vs. fremde Sprache)
 zum Einfluss von anspornenden
Mitteln auf Testergebnis und
Leistungsinvestition in den Test
Einfluss des sprachlichen Ursprungs

um in einer lagre-scale-Studie wie
PISA oder TIMSS Vergleiche mit
validen Rückschlüssen zwischen
verschiedenen Ländern
durchzuführen, muss gewährleistest
sein, dass die Aufgaben in allen
Ländern eine gleiche Schwierigkeit
haben und das gleiche Messen
Einfluss des sprachlichen Ursprungs

(1)
(2)
bei Leseaufgaben gibt es besonders
2 Schwierigkeiten:
unabsichtliche Veränderung der
Itemschwierigkeit durch
Übersetzung/Übertragung
(differenzielle Itemfunktion (IDF))
Schwierigkeitsunterschiede durch
„kulturelle Färbung“ der Aufgaben
Differenzielle Itemfunktion (IDF)
tritt auf bei
(1) Übertragung auf eine andere Kultur
(2) Übersetzung in andere Sprache

Studien:



Gierl & Kahlic (2001) - Kanada
(Englisch/Französisch) - sehr hoch
Allalouf (2003) - Vergleich von Israelischen und
Russischen Testitems
Angoff & Cook (1988) - Übertragung des SAT
vom Englischen ins Spanische
Differenzielle Itemfunktion (IDF)
Einfluss auf die Schwierigkeit haben u.a.


Satz- und Textlänge
grammatikalische und linguistische Merkmale
Seltsames Beispiel:

Englisch:
I am awake.

Deutsch:
Ich bin wach.

Irisch:
Tá mé i mo dhúiseacht.
„Kulturelle Färbung“ der Items


kulturelle Färbung macht sich als
Vorteil bei Personen aus dem
kulturellen Hintergrund bemerkbar, aus
welchem auch die Aufgaben stammen.
mögliche Faktoren:
textrelevantes Vorwissen, textrelevantes
Alltagswissen sowie Wissen über
typische Kommunikationsabsichten,
Textgenres und Darstellungsformen
Aufgabenanteil nach Ursprungssprache
Differenzielle Itemfunktionen I
Differenzielle Itemfunktionen II
Punktmittelwerte
Zusammenfassung I



die Ursprungssprache scheint einen
Einfluss auf die Varianz der Punktwerte zu
haben, aber keine dieser Vor- oder
Nachteile ist im Rahmen der PISA-Scores
statistisch signifikant
die Einflüsse scheinen sich tendenziell
heraus zu mitteln, bei den Ländern, die
Items eingebracht haben
bei den Ländern ohne eigene Items lässt
sich natürlich keine faktische Aussage
treffen
Einfluss von Ansporn


große Bedenken, dass Tests und
Leistungserfassungen, welche keine
direkten Folgen für Schüler, Lehrer
oder Schulen haben die Leistung der
Schüler unterschätzen
diese Unterschätzung erhöht sich noch
doch die Gewöhnung der Schüler an
derartige Untersuchungen
Bisherige Forschung
Motivationssteigerung mittels
Rückmeldung, Evaluation und
Belohnung


extrinsische Motivation, wird von
Belohnung oder Strafe beeinflusst
intrinsische Motivation, wird durch
extrinsische Faktoren stark beeinflusst
Bisherige Forschung
Steigerung der Motivation durch

situationsgebundenes Interesse
(persönliche Bedeutsamkeit, mittlere Schwierigkeit, best. Level
an Neuheit und Komplexität)

Priming der Aufgabe oder Ego-Orientierung
(meistern der Aufgabe und Lernziele erreichen bzw.
Wettbewerbsziel erreichen („gewinnen“))

Erhöhen des „Einsatzes“
(Einsatz enspr. Wichtigkeit; widersprüchliche Befunde;
Steigerung nur wenn Kontrollgruppe Test als Standard-Arbeit des
Unterrichts oder ohne Konsequenzen macht)
der „Einsatz“ bei PISA


für Schüler sehr geringer Einsatz, weil keine
Konsequenzen (keine Noten, Feedback
oder Möglichkeit ein Schüler als Ursprung
des Antworten zu finden)
für Politiker und Forscher sehr hoher
Einsatz, auch teilweise für Lehrer und
Schulen (denn Schulen bekommen ein
generelles Feedback über die Leistung,
allerdings nur für interne Zwecke)
Experimentalgruppen
(1)
(2)
(3)
(4)
Standard der PISA-Untersuchung
Feedback (individuelle Rückmeldung der
Ergebnisse nach dem Test)
Notenvergabe (Behandlung des Tests als
normale Arbeit; Notenmotivation und
Wettbewerbsmotivation)
Leistungsabhängige Belohnung (10 DM
wenn über dem Schnitt richtiger Lösungen)
Stichprobe




467 Schüler der 9. Klasse von 3 Gymnasien
und 5 Hauptschulen aus dem Raum
Hannover
2 Schulen (1 je) und somit 160 Schüler
mussten ausgeschlossen werden
Hauptschüler etwas älter (15,61 vs. 15,00)
Gymnasiasten etwas bessere Noten (3,39
vs. 3,51) - bes. Jungen am Gymnasium
(3,06)
Testumfang


Kurzform des PISA Mathematiktests (20 Items)
Motivationsfrageborgen
(36 Items)









Persönliche Wichtigkeit guter Leistung
Nutzen der Testteilnahme
Ego-Orientierung
Aufgabenorientierung
Aufwand (geplant/investiert)
„Anstrengungs-Thermometer“
Emotionaler Zustand
Erregungsniveau
Irrelevante Kognitionen
(1)
(1)
(6)
(10)
(3)
(1)
(4)
(4)
(7)
Treatment Recognition Check

3 Wege um herauszufinden, ob die Schüler den
Zweck des Test erkannt haben und in welcher
Gruppe sie waren:





Offene Frage zum Test
Identifizieren der erhaltenen Anleitung
Informelles Gespräch zwischen Ende des Test und
Einweihung in den Zweck
Gesamtrate: 79 % haben das Treatment richtig
erkannt
in der Folge: teilweise getrennte Analysen für
Schüler die richtig vs. Schüler die falsch lagen
Treatment Recognition Check
Motivationsfragebogen I
Motivationsfragebogen II
Geplante und tatsächliche Investitionen
„Anstrengungs-Thermometer“
Einfluss der Experimentalgruppe
auf die Leistung
Zusammenfassung II


Es scheint, nach den vorliegenden
Ergebnissen, keinen Einfluss von
‚zusätzlicher‘ Motivation auf den Testwert
bei den untersuchten PISA-Aufgaben zu
geben
folglich scheint es also auch zu keiner
systematischen Unter- oder Überschätzung
der Leistungen bei Studien wie PISA oder
TIMSS zu geben
Literatur
Simons, H. & Möbus, C. (1982). Testfairness. In K. J. Klauer
(Hrsg.). Handbuch der pädagogischen Diagnostik, 1 (S. 187189). Düsseldorf: Schwann.
Bauermert, J. & Demmrich, A. (2001). Test motivation in the
assessment of student skills: The effects of incentives on
motivation and performance. European Journal of Psychology
of Education, 16, 441-462.
Artelt, C. & Baumert, J. (2004). Zur Vergleichbarkeit von
Schülerleistungen bei Leseaufgaben unterschiedlichen
sprachlichen Ursprungs. Zeitschrift für Pädagogische
Psychologie, 18, 171-185.
Amelang, M. & Zielinski, W. (2002). Psychologische Diagnostik
und Intervention. 3. Auflage 2004. Berlin: Springer.