Theorie psychometrischer Tests, IV U. Mortensen Mainz 2009 Klassische Testtheorie Validität eines Tests Gültigkeiten x Kov( , X ) x g g g x g g g gx g g Gültigkeit des Tests Trennschärfen Die Gültigkeit eines Tests ist um so größer, je größer die Itemgültigkeiten sind, und je kleiner die Trennschärfen sind! Klassische Testtheorie Validität eines Tests Es läßt sich zeigen, dass X g g g g g ,h h gh Dh die Testvalidität ist proportional zur Summe der gewogenen Itemvaliditäten und umgkehrt proportional zur Summe der gewichteten Interitemkorrelationen. Klassische Testtheorie Validität und Reliabilität eines Tests Validität eines Tests (X) in Bezug auf einen anderen Test (Y): xy Kov( X , Y ) x y Allgemein gilt Kov( X , Y ) Kov( x , y ) Spezialfall paralleler Messung: x y, x y xy Kov( x , x ) x x Var ( ) x2 Var ( X ) Maximale Gültigkeit bei parallelen Messungen; im Allgemeinen folgt dann, wegen Kov( x , y ) Kov(, x )x , xy x2 Klassische Testtheorie Attenuierung, Reliabilität und Validität Es gilt stets ( x , y ) xy xx ' yy ' xy xx ' Um die Validität zu erhöhen, muß man die Wurzel aus der Reliabilität und damit die Reliabiltät erhöhen. Der obere Wert der Reliabilität ist aber Cronbachs Alpha, und das wird größer, je größer die Kovarianzen zwischen den Items sind. Klassische Testtheorie Validität und Iteminterkorrelation Andererseits wird die Gültigkeit um so größer, je mehr Aspekte eines Merkmals ein Test erfasst, also je kleiner die Itemkorrelationen sind! X g g g g h gh g ,h Je kleiner die gh , desto größer X! Klassische Testtheorie Arten von Validität Inhaltsvalidität: - Das Ausmaß, in dem ein Test das zu messende Merkmal in möglichst weitem Sinn erfasst (verwandt mit logischer Validität). Die Items soll eine Stichprobe aus dem Universum aller Items, die das Merkmal erfassen, sein. Quantifizierung oft schlecht möglich, deduktive Erfassung der inhaltlchen Validität. Kriteriumsvalidität: - Das Merkmal wird durch bestimmte Kriterien charakterisiert, und die Testwerte werden dann dann mit den Kriteriumswerten korreliert. Kriterien: z.B: Leistungen, die vorhergesagt werden, etwa erfolgreicher Studienabschluß, eine feindliche Übernahme einer konkurrierenden Firma, etc. Klassische Testtheorie Arten von Validität Prädikative Validität: Überprüfung des Kriteriums nach der Testung. Kurrente Validität: das Kriterium wird zur gleichen Zeit erhoben, sie die Testscores. Konstruktvalidität: Das Merkmal ist operational definiert worden, dh man hat es mit einem „Konstrukt“ zu tun. Beispiel: Minnesota Multiphasic Personality Inventory (MMPI): Es sollte zwischen Patienten und „Normalen“ unterschieden werden. Die Persönlichkeit sollte dann nach Maßgabe der verschiedenen Testprofile erforscht werden, um Verhaltensweisen vorhersagen zu können, für die noch keine empirischen Validierungen vorlagen. Klassische Testtheorie Arten von Validität Faktorielle Validität: Ist durch die Korrelationen der Testwert mit den Faktoren definiert, die sich aus einer faktorenanalytischen Untersuchung des Merkmals ergeben. Beispiel: Der Generalfaktor der Intelligenz, wie er von Spearman (1904) vorgeschlagen wurde. Die Testwerte sollen gut mit den Faktorwerten der Probanden für diesen Faktor korrelieren. Klassische Testtheorie Validität und Testverlängerung Es seien X und Y Testscores zweier Tests mit Einheitslänge. Es seien X (k ), Y (l ) die Scores in den gleichen Tests mit den Längen k und l. Dann gilt kl 2 ( X , Y ) ( X (k ) / k , Y (l ) / l ) [1 (k 1) xx ' ][1 (l 1) yy ' ] Dieser Satz erlaubt es, die Validität eines Tests, der um k Einheiten verlängert wird, in Bezug auf einen Test mit den Scores Y und Einheitslänge zu berechnen: k 2 ( X ,Y ) ( X (k ) / k , Y ) 1 (k 1) xx ' Klassische Testtheorie Validität und Testverlängerung Gegen welchen Wert strebt die Gültigkeit, wenn man den Test verlängert? 2 ( X ,Y ) ( x , Y ) limk ( X (k ) / k , Y ) xx ' 2 Analog 2 ( X ,Y ) 2 ( y , X ) liml ( X , Y (l ) / l ) yy ' Schließlich 2 ( X ,Y ) 2 ( y , y ) lim k ( X ( K ) / l , Y (l ) / l ) xx ' yy ' l Klassische Testtheorie Die Abschätzung von Veränderungen Man möchte den Effekt einer Therapie oder allgemein einer Intervention auf ein Merkmal untersuchen. Das Merkmal werde mit einem Test mit den Scores X erfasst. Die Messwerte vor der Intervention seien X1, die nach der Intervention seien X2. Es gelte 1 E ( X1 ), 2 E ( X 2 ), 12 Var ( X1 ), 2 Var ( X 2 ) 12 ( X1, X 2 ), 11' ( X1, X1' ), 22' ( X 2 , X 2' ) Die Differenz 2 1 und der Anfangswert 1 korrelieren miteinander: ( 2 1 ,1 ) 2 12 111' ( 12 11' 22 22' 12 1 2 ) 11' Klassische Testtheorie Die Abschätzung von Veränderungen Vorhersagen der wahren Veränderung: Die wahre Veränderung G 2 1 hängt von X 1 und X 2 ab; zu ihrer Bestimmung kann man die Regression R(G | X 1 , X 2 ) B1 X 1 B2 X 2 C betrachten. Klassische Testtheorie Die Abschätzung von Veränderungen R(G | X1 , X 2 ) ( 1 2 ) B1 ( X1 1 ) B2 ( X 2 2 ) Standardisierung liefert dann R(G | X 1 , X 2 ) 1Z1 2 X 2 mit G G 12 G G 12 1 , 2 , 2 2 1 12 1 12 1 11' 2 12 2 22' 112 G , G G G 1 1 2 2 2 1 Klassische Testtheorie Faktorenanalyse Modell: der standardisierte Score der i-ten Person im j-ten Text läßt sich darstellen als das Skalarprodukt zij qi1a j1 qi 2 a j 2 qir a jr eij , wobei die qi1 , qi 2 , a j1 , a j 2 , , qir die Faktorwerte der Personen, und , a jr die Ladungen der Items auf r latenten Dimensionen sind. Die Korrelationen zwischen zwei Items ergeben sich dann gemäß rij ai1a j1 ai 2 a j 2 air a jr Maximiert Reliabilität Überblick Ladungen 1-ter Faktor Test gewichtet Score X = Summenscore ungewichtet Reliabilität Validität Gültigkeiten Rel( X ) xx ' x2 2 x Für parallele Tests, sonst 2 g g g gx g x g x2 x x2 x Je größer, je größer die Varianz der tauWerte! Trennschärfen X g g g g h gh g ,h Interkorrelationen Klassische Testtheorie Faktorenanalyse bei dichotomen Items Zum Vierfelder-Korrelationskoeffizienten: ad bc xy (a b)(c d )(a c)(b d ) b c 0 xy 1, a d 0 xy 1 2 N Klassische Testtheorie Faktorenanalyse bei dichotomen Items Aus X und Y dichtom folgt das X und Y jeweils binomialverteilt. Aus b = c = 0 bzw a = d = 0 folgt dann, dass X und Y gleiche Varianzen haben. Was folgt im allgemeineren Fall, dass X und Y nicht gleiche Varianzen haben? Übergang zu relativen Häufigkeiten liefert xy p11 p00 p10 p01 px (1 px ) p y (1 p y ) Klassische Testtheorie Faktorenanalyse bei dichotomen Items xy p11 p00 p10 p01 wird maximal für px (1 px ) p y (1 p y ) px (1 px ) p y (1 p y )`, wenn p10 0 oder p01 0. Dann gilt max xy px (1 p y ) p y (1 px ) , xy xymax Spezialfall px py: xymax 1 Klassische Testtheorie Faktorenanalyse bei dichotomen Items Folgerung: im allgemeinen Fall ungleicher Varianzen ist der PhiKoeffizient auf einen Bereich kleiner als [-1, 1] eingeschränkt. Für die Faktorenanalyse auf der Basis von dichtomen Variablen und Phi-Koeffizienten folgt daraus, dass mehr Unabhängigkeit signalisiert Wird, als tatsächlich in den Daten ist – „Schwierigkeistsfaktoren‘‘. Klassische Testtheorie Gruppenheterogenität, Speed und Power Die Reliabilität eines Tests ist um so höher, je größer die Varianz der wahren (tau-) Werte in der Population ist! (Skript, Seite 105). Power-Test:Die Probanden haben unbeschränkt Zeit, die Aufgaben zu lösen. Speed-Test: Für die Beantwortung einer Aufgabe steht nur eine beschränkte Zeit zu Verfügung. Anzahl inkorrekter Antworten I: I U W , U Anzahl unversuchter Lösungen W Anzahl versuchter, aber falscher Lösungen