Theorie psychometrischer Tests, II

Theorie psychometrischer
Tests, II
U. Mortensen
Mainz 2009
Klassische Testtheorie
Validität eines Tests
Gültigkeiten
 g 
Kov( , X )
  x

    g  g
g
  x



g
 g
g
 gx
g
g
Gültigkeit des Tests
Trennschärfen
Die Gültigkeit eines Tests ist um so größer, je größer
die Itemgültigkeiten sind, und je kleiner die
Trennschärfen sind!
Klassische Testtheorie
Validität eines Tests
Es läßt sich zeigen, dass
 X 

g
 g
g
 
g
g ,h
h
 gh
Dh die Testvalidität ist
proportional zur Summe der
gewogenen Itemvaliditäten
und umgkehrt proportional zur
Summe der gewichteten
Interitemkorrelationen.
Klassische Testtheorie
Validität und Reliabilität eines Tests
Validität eines Tests (X) in Bezug auf einen anderen
Test (Y):
 xy 
Kov( X , Y )
 x y
Allgemein gilt
Kov( X , Y )  Kov( x , y )
Spezialfall paralleler Messung:
x y, x  y
 xy 
Kov( x , x )
 x x
Var ( )

  x2
Var ( X )
Maximale Gültigkeit bei parallelen Messungen;
im Allgemeinen folgt dann, wegen Kov( x , y )  Kov(, x )x ,
 xy   x2
Klassische Testtheorie
Attenuierung, Reliabilität und Validität
Es gilt stets
 ( x , y ) 
 xy
 xx '  yy '
  xy   xx '
Um die Validität zu erhöhen, muß man die Wurzel aus
der Reliabilität und damit die Reliabiltät erhöhen.
Der obere Wert der Reliabilität ist aber Cronbachs
Alpha, und das wird größer, je größer die
Kovarianzen zwischen den Items sind.
Klassische Testtheorie
Validität bei Testverlängerung
Andererseits wird die Gültigkeit um so größer, je
mehr Aspekte eines Merkmals ein Test erfasst, also je kleiner die Itemkorrelationen sind!
 X 

g
 g
g
 
g
h
 gh
g ,h
Je kleiner die  gh , desto größer  X!
Klassische Testtheorie
Arten von Validität
Inhaltsvalidität: - Das Ausmaß, in dem ein Test das zu
messende Merkmal in möglichst weitem Sinn erfasst
(verwandt mit logischer Validität). Die Items soll eine
Stichprobe aus dem Universum aller Items, die das Merkmal
erfassen, sein. Quantifizierung oft schlecht möglich, deduktive Erfassung der inhaltlchen Validität.
Kriteriumsvalidität: - Das Merkmal wird durch bestimmte
Kriterien charakterisiert, und die Testwerte werden dann
dann mit den Kriteriumswerten korreliert.
Kriterien: z.B: Leistungen, die vorhergesagt werden, etwa
erfolgreicher Studienabschluß, eine feindliche Übernahme
einer konkurrierenden Firma, etc.
Klassische Testtheorie
Arten von Validität
Prädikative Validität: Überprüfung des Kriteriums nach der
Testung.
Kurrente Validität: das Kriterium wird zur gleichen Zeit
erhoben, sie die Testscores.
Konstruktvalidität: Das Merkmal ist operational definiert
worden, dh man hat es mit einem „Konstrukt“ zu tun.
Beispiel: Minnesota Multiphasic Personality Inventory
(MMPI): Es sollte zwischen Patienten und „Normalen“
unterschieden werden. Die Persönlichkeit sollte dann nach
Maßgabe der verschiedenen Testprofile erforscht werden,
um Verhaltensweisen vorhersagen zu können, für die noch
keine empirischen Validierungen vorlagen.
Klassische Testtheorie
Arten von Validität
Faktorielle Validität: Ist durch die Korrelationen der
Testwert mit den Faktoren definiert, die sich aus einer
faktorenanalytischen Untersuchung des Merkmals
ergeben.
Beispiel: Der Generalfaktor der Intelligenz, wie er von
Spearman (1904) vorgeschlagen wurde. Die Testwerte sollen
gut mit den Faktorwerten der Probanden für diesen Faktor
korrelieren.
Klassische Testtheorie
Validität und Testverlängerung
Es seien X und Y Testscores zweier Tests mit Einheitslänge.
Es seien X (k ), Y (l ) die Scores in den gleichen Tests mit den Längen
k und l. Dann gilt
kl  2 ( X , Y )
 ( X (k ) / k , Y (l ) / l ) 
[1  (k  1)  xx ' ][1  (l  1)  yy ' ]
Dieser Satz erlaubt es, die Validität eines Tests, der um k Einheiten
verlängert wird, in Bezug auf einen Test mit den Scores Y und
Einheitslänge zu berechnen:
k  2 ( X ,Y )
 ( X (k ) / k , Y ) 
1  (k  1)  xx '
Klassische Testtheorie
Validität und Testverlängerung
Gegen welchen Wert strebt die Gültigkeit, wenn man den
Test verlängert?
 2 ( X ,Y )
 ( x , Y )  limk   ( X (k ) / k , Y ) 
 xx '
2
Analog
2

( X ,Y )
 2 ( y , X )  liml   ( X , Y (l ) / l ) 
 yy '
Schließlich
2

( X ,Y )
 2 ( y , y )  lim k   ( X ( K ) / l , Y (l ) / l ) 
 xx '  yy '
l 
Klassische Testtheorie
Die Abschätzung von Veränderungen
Man möchte den Effekt einer Therapie oder allgemein einer
Intervention auf ein Merkmal untersuchen. Das Merkmal werde mit
einem Test mit den Scores X erfasst. Die Messwerte vor der
Intervention seien X1, die nach der Intervention seien X2.
Es gelte
1  E ( X1 ),  2  E ( X 2 ), 12  Var ( X1 ),  2  Var ( X 2 )
12   ( X1, X 2 ), 11'   ( X1, X1' ), 22'   ( X 2 , X 2' )
Die Differenz  2   1 und der Anfangswert  1 korrelieren miteinander:
 ( 2  1 ,1 ) 
 2 12   111'
( 12 11'   22 22'  12 1 2 ) 11'
Klassische Testtheorie
Die Abschätzung von Veränderungen
Vorhersagen der wahren Veränderung:
Die wahre Veränderung G   2   1 hängt von X 1 und X 2 ab; zu
ihrer Bestimmung kann man die Regression
R(G | X 1 , X 2 )  B1 X 1  B2 X 2  C
betrachten.
Die wahre Veränderung G   2   1 hängt von X 1 und X 2 ab; zu
ihrer Bestimmung kann man die Regression
R(G | X 1 , X 2 )  B1 X 1  B2 X 2  C
betrachten.
Klassische Testtheorie
Die Abschätzung von Veränderungen
R(G | X1 , X 2 )  ( 1  2 )  B1 ( X1  1 )  B2 ( X 2  2 )
Standardisierung liefert dann
R(G | X 1 , X 2 )  1Z1   2 X 2
mit
G  G 12
G  G 12
1 
, 2 
,
2
2
1  12
1  12
 1 11'   2 12
 2  22'   112
G 
, G 
G
G
1
1
2
2
2
1
Klassische Testtheorie
Faktorenanalyse
Modell: der standardisierte Score der i-ten Person im j-ten Text
läßt sich darstellen als das Skalarprodukt
zij  qi1a j1  qi 2 a j 2   qir a jr  eij ,
wobei die qi1 , qi 2 ,
a j1 , a j 2 ,
, qir die Faktorwerte der Personen, und
, a jr die Ladungen der Items auf r latenten Dimensionen
sind.
Die Korrelationen zwischen zwei Items ergeben sich dann gemäß
rij  ai1a j1  ai 2 a j 2   air a jr
Klassische Testtheorie
Faktorenanalyse bei dichotomen Items
Zum Vierfelder-Korrelationskoeffizienten:
ad  bc
xy 

(a  b)(c  d )(a  c)(b  d )
b  c  0  xy  1,
a  d  0  xy  1
2
N
Klassische Testtheorie
Faktorenanalyse bei dichotomen Items
Aus X und Y dichtom folgt das X und Y jeweils binomialverteilt. Aus b
= c = 0 bzw a = d = 0 folgt dann, dass X und Y gleiche Varianzen
haben.
Was folgt im allgemeineren Fall, dass X und Y nicht gleiche Varianzen
haben?
Übergang zu relativen Häufigkeiten liefert
xy 
p11 p00  p10 p01
px (1  px ) p y (1  p y )
Klassische Testtheorie
Faktorenanalyse bei dichotomen Items
xy 
p11 p00  p10 p01
wird maximal für
px (1  px ) p y (1  p y )
px (1  px )  p y (1  p y )`, wenn p10  0 oder p01  0.
Dann gilt 
max
xy

px (1  p y )
p y (1  px )
, xy  xymax
Spezialfall px  py:  xymax  1
Klassische Testtheorie
Faktorenanalyse bei dichotomen Items
Folgerung: im allgemeinen Fall ungleicher Varianzen ist der PhiKoeffizient auf einen Bereich kleiner als [-1, 1] eingeschränkt.
Für die Faktorenanalyse auf der Basis von dichtomen Variablen und
Phi-Koeffizienten folgt daraus, dass mehr Unabhängigkeit signalisiert
Wird, als tatsächlich in den Daten ist – „Schwierigkeistsfaktoren‘‘.
Klassische Testtheorie
Gruppenheterogenität, Speed und Power
Die Reliabilität eines Tests ist um so höher, je größer die Varianz
der wahren (tau-) Werte in der Population ist!
(Skript, Seite 105).
Power-Test:Die Probanden haben unbeschränkt Zeit, die
Aufgaben zu lösen.
Speed-Test: Für die Beantwortung einer Aufgabe steht nur eine
beschränkte Zeit zu Verfügung.
Anzahl inkorrekter Antworten I:
I  U W ,
U  Anzahl unversuchter Lösungen
W  Anzahl versuchter, aber falscher Lösungen