Testfairness Seminar: Dozent: Referent: Datum: Themen der pädagogischpsychologischen Diagnostik Dr. Martin Brunner Stefan Nebelung 29. Mai 2006 Gliederung Einleitung Was ist Testfairness? Einfluss des sprachlichen Aufgabenursprungs - PISA Einfluss von „Ansporn“ auf Motivation und Leistung - PISA Literatur Wir haben 10 Leute gefragt … Was verstehen Sie eigentlich unter Testfairness? Was ist „fair“? (1) (2) (3) treating each person, side, etc. equally and according to the rules or law reasonable and just or appropriate in the circumstances average; quite good aus: Oxford Advanced Learner‘s Dictionary (1995). Oxford Universtity Press: Oxford. Testfairness Testfairness kann als ein Gütekriterium betrachtet werden - es ist allerdings eher auf den Entscheidungs- und Handlungsaspekt der Diagnostik bezogen als die anderen Testgütekriterien thematisiert wird Testfairness etwa seit Ende der 60-iger, Anfang der 70-iger Jahre Begriffe: Testfairness, Testbias, Itembias, Selektionsbias Ethische Grundpositionen nach Hunter & Schmidt (1976) 1. ‚unqualified indivdualism‘ 2. ‚qualified indiviualism‘ 3. ‚fair-share‘ ja nach Position fällt die Ansicht über Fairness und Diskriminierung aus ‚unqualified indivdualism‘ Bei dieser Position werden „[…] Gruppenunterschiede im Kriterium, die durch die Fähigkeitstests nicht erklärt und vorhergesagt werden können, nicht ignoriert.“ bei Leugnung der Unterschiede: Diskriminierung der im Kriterium besseren ‚qualified individualism‘ Bei dieser Position werden „[…] Gruppenunterschiede (zum Beispiel zwischen Status- und ethnischen Gruppen) ignoriert.“ bei Beachtung der Unterschiede: Diskriminierung der im Kriterium schlechteren Gruppe ‚fair share‘ Diese Position sieht dann eine Diskriminierung, „[…] wenn bei Selektionen die verschiedenen gesellschaftlich relevanten Gruppen nicht mit angemessenen Quoten (‚fair share‘) vertreten sind.“ Fairnesskonzepte 1. Identitätskonzept 1. 2. 3. 2. Entwicklung gruppenspezifischer Tests Entwicklung gruppenspezifischer Normen Konstruktion kulturfreier Tests Regressionskonzept nach Cleary (1968) Gruppenspezifische Tests Beispiel: Intelligenztests seit Beginn der Forschung findet man Korrelationen zw. sozioökonomischen Status bzw. ethnischer Herkunft und der Testleistung Schlussfolgerung: Tests sind „kulturell geladen“ kulturspezifische Inhalte, deren Lösung von Fähigkeiten und Fertigkeiten abhängen, die in unterschiedlichen Kulturen unterschiedliche Ausmaße haben Gruppenspezifische Tests ein Test ist für die unfair, die nur geringeren oder keinen Anteil an der Kultur haben, für welche der Test bestimmt ist „[…] Von einem fairen Test wurde dagegen erwartet, daß er jedem die Chance einräume, sich in jener Art intelligent zu verhalten, die seiner individuellen Sozialisationsgeschichte entspreche.“ Gruppenspezifische Tests letzte logische Konsequenz: so viele verschiedene Test wie verschiedene Kulturen Black Intelligence Test of Cultural Homogenity (BITCH) von Williams (1975) Afroamerikanische Kinder gleiche verbale Intelligenz wie Kaukasische (Weiße, in einem Standardtest), da dieser Test ihrer Sozialisation angemessen ist Gruppenspezifische Normen „Jeder Test, der in unserer heterogenen Gesellschaft Individuen vorgelegt wird, diskriminiert zulasten der Personen, deren kultureller Hintergrund sich von dem der Majorität unterscheidet.“ (Goslin, 1968) also „kulturspezifische Standardisierung“, sprich verschiedene Vergleichnormen für verschiedene Subgruppen Gruppenspezifische Normen im Extrem: kein Individuum ist mit einem anderen vergleichbar, weil minimale Unterschiede im Sozialisationshintergrund gibt. Krapp (1977) unterschied (für pädagogischen Hintergrund) zw. ‚laufbahnorientierte Diagnostik‘ und ‚lernwegorientierte Diagnostik‘ Kulturfreie Tests Versuch „Tests zu konstruieren, die nur solche Erfahrungen für die Lösung der Testaufgaben voraussetzen, die verschiedenen Kulturen gemeinsam sind“ (Anastasi, 1964) besonders Verzicht auf direkte Prüfung verbalen Fähigkeiten (z.B. Tests des räumlichen Vorstellungsvermögens) Kulturfreie Tests auch hier kann es sein, dass der Test ‚kulturell geladen‘ ist, wenn die Hintergrund der Personen differiert aber je kulturfreier (oder kulturell kontrollierter), also auch fairer, ein Test ist, desto inhaltsleerer und weniger valide ist er Kulturfreie Tests schon das Ausklammern von (mittelschichtorientierten) sprachlichen Kompetenz, verzerrt die Widerspieglung intellektueller Fähigkeiten (Guthke, 1972) „Die Verschleierung faktischer Ungleichheiten kann nicht fair sein, da Defizite nur behoben werden können, wenn sie aufgedeckt werden.“ (Simons & Möbus, 1982) Regressionsmodell nach Cleary nach Cleary (1962) „ist ein Selektionsverfahren dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht.“ (Amelang & Zielinski, 2002) Regressionsmodell nach Cleary weitere Fairnesskonzepte Modell konstanter Verhältnisse (Thorndike, 1971) „Conditional Probability Model“ (Cole, 1973) „Equal Probability Model“ (Linn, 1973) ‚„Bonusmodell“‘ von Darlington (1971) Fairness bei PISA 2 Artikel zur PISA-Studie: zum Einfluss der Sprache aus welcher ein Item ursprünglich stammt (Muttersprache vs. fremde Sprache) zum Einfluss von anspornenden Mitteln auf Testergebnis und Leistungsinvestition in den Test Einfluss des sprachlichen Ursprungs um in einer lagre-scale-Studie wie PISA oder TIMSS Vergleiche mit validen Rückschlüssen zwischen verschiedenen Ländern durchzuführen, muss gewährleistest sein, dass die Aufgaben in allen Ländern eine gleiche Schwierigkeit haben und das gleiche Messen Einfluss des sprachlichen Ursprungs (1) (2) bei Leseaufgaben gibt es besonders 2 Schwierigkeiten: unabsichtliche Veränderung der Itemschwierigkeit durch Übersetzung/Übertragung (differenzielle Itemfunktion (IDF)) Schwierigkeitsunterschiede durch „kulturelle Färbung“ der Aufgaben Differenzielle Itemfunktion (IDF) tritt auf bei (1) Übertragung auf eine andere Kultur (2) Übersetzung in andere Sprache Studien: Gierl & Kahlic (2001) - Kanada (Englisch/Französisch) - sehr hoch Allalouf (2003) - Vergleich von Israelischen und Russischen Testitems Angoff & Cook (1988) - Übertragung des SAT vom Englischen ins Spanische Differenzielle Itemfunktion (IDF) Einfluss auf die Schwierigkeit haben u.a. Satz- und Textlänge grammatikalische und linguistische Merkmale Seltsames Beispiel: Englisch: I am awake. Deutsch: Ich bin wach. Irisch: Tá mé i mo dhúiseacht. „Kulturelle Färbung“ der Items kulturelle Färbung macht sich als Vorteil bei Personen aus dem kulturellen Hintergrund bemerkbar, aus welchem auch die Aufgaben stammen. mögliche Faktoren: textrelevantes Vorwissen, textrelevantes Alltagswissen sowie Wissen über typische Kommunikationsabsichten, Textgenres und Darstellungsformen Aufgabenanteil nach Ursprungssprache Differenzielle Itemfunktionen I Differenzielle Itemfunktionen II Punktmittelwerte Zusammenfassung I die Ursprungssprache scheint einen Einfluss auf die Varianz der Punktwerte zu haben, aber keine dieser Vor- oder Nachteile ist im Rahmen der PISA-Scores statistisch signifikant die Einflüsse scheinen sich tendenziell heraus zu mitteln, bei den Ländern, die Items eingebracht haben bei den Ländern ohne eigene Items lässt sich natürlich keine faktische Aussage treffen Einfluss von Ansporn große Bedenken, dass Tests und Leistungserfassungen, welche keine direkten Folgen für Schüler, Lehrer oder Schulen haben die Leistung der Schüler unterschätzen diese Unterschätzung erhöht sich noch doch die Gewöhnung der Schüler an derartige Untersuchungen Bisherige Forschung Motivationssteigerung mittels Rückmeldung, Evaluation und Belohnung extrinsische Motivation, wird von Belohnung oder Strafe beeinflusst intrinsische Motivation, wird durch extrinsische Faktoren stark beeinflusst Bisherige Forschung Steigerung der Motivation durch situationsgebundenes Interesse (persönliche Bedeutsamkeit, mittlere Schwierigkeit, best. Level an Neuheit und Komplexität) Priming der Aufgabe oder Ego-Orientierung (meistern der Aufgabe und Lernziele erreichen bzw. Wettbewerbsziel erreichen („gewinnen“)) Erhöhen des „Einsatzes“ (Einsatz enspr. Wichtigkeit; widersprüchliche Befunde; Steigerung nur wenn Kontrollgruppe Test als Standard-Arbeit des Unterrichts oder ohne Konsequenzen macht) der „Einsatz“ bei PISA für Schüler sehr geringer Einsatz, weil keine Konsequenzen (keine Noten, Feedback oder Möglichkeit ein Schüler als Ursprung des Antworten zu finden) für Politiker und Forscher sehr hoher Einsatz, auch teilweise für Lehrer und Schulen (denn Schulen bekommen ein generelles Feedback über die Leistung, allerdings nur für interne Zwecke) Experimentalgruppen (1) (2) (3) (4) Standard der PISA-Untersuchung Feedback (individuelle Rückmeldung der Ergebnisse nach dem Test) Notenvergabe (Behandlung des Tests als normale Arbeit; Notenmotivation und Wettbewerbsmotivation) Leistungsabhängige Belohnung (10 DM wenn über dem Schnitt richtiger Lösungen) Stichprobe 467 Schüler der 9. Klasse von 3 Gymnasien und 5 Hauptschulen aus dem Raum Hannover 2 Schulen (1 je) und somit 160 Schüler mussten ausgeschlossen werden Hauptschüler etwas älter (15,61 vs. 15,00) Gymnasiasten etwas bessere Noten (3,39 vs. 3,51) - bes. Jungen am Gymnasium (3,06) Testumfang Kurzform des PISA Mathematiktests (20 Items) Motivationsfrageborgen (36 Items) Persönliche Wichtigkeit guter Leistung Nutzen der Testteilnahme Ego-Orientierung Aufgabenorientierung Aufwand (geplant/investiert) „Anstrengungs-Thermometer“ Emotionaler Zustand Erregungsniveau Irrelevante Kognitionen (1) (1) (6) (10) (3) (1) (4) (4) (7) Treatment Recognition Check 3 Wege um herauszufinden, ob die Schüler den Zweck des Test erkannt haben und in welcher Gruppe sie waren: Offene Frage zum Test Identifizieren der erhaltenen Anleitung Informelles Gespräch zwischen Ende des Test und Einweihung in den Zweck Gesamtrate: 79 % haben das Treatment richtig erkannt in der Folge: teilweise getrennte Analysen für Schüler die richtig vs. Schüler die falsch lagen Treatment Recognition Check Motivationsfragebogen I Motivationsfragebogen II Geplante und tatsächliche Investitionen „Anstrengungs-Thermometer“ Einfluss der Experimentalgruppe auf die Leistung Zusammenfassung II Es scheint, nach den vorliegenden Ergebnissen, keinen Einfluss von ‚zusätzlicher‘ Motivation auf den Testwert bei den untersuchten PISA-Aufgaben zu geben folglich scheint es also auch zu keiner systematischen Unter- oder Überschätzung der Leistungen bei Studien wie PISA oder TIMSS zu geben Literatur Simons, H. & Möbus, C. (1982). Testfairness. In K. J. Klauer (Hrsg.). Handbuch der pädagogischen Diagnostik, 1 (S. 187189). Düsseldorf: Schwann. Bauermert, J. & Demmrich, A. (2001). Test motivation in the assessment of student skills: The effects of incentives on motivation and performance. European Journal of Psychology of Education, 16, 441-462. Artelt, C. & Baumert, J. (2004). Zur Vergleichbarkeit von Schülerleistungen bei Leseaufgaben unterschiedlichen sprachlichen Ursprungs. Zeitschrift für Pädagogische Psychologie, 18, 171-185. Amelang, M. & Zielinski, W. (2002). Psychologische Diagnostik und Intervention. 3. Auflage 2004. Berlin: Springer.