Theorie psychometischer Tests, V Nichtklassische

Werbung
Theorie psychometischer Tests, V
Nichtklassische Modelle
U. Mortensen
Mainz, Juni 2009
Das allgemeine logistische Modell
(A. Birnbaum)
P( X g  1|  ,  g ,  g )   g  (1   g )
exp( g (   g ))
1  exp( g (   g ))
3-parametriges, logistisches Modell (3-P L-Modell) :
 g : Wahrscheinlichkeit, korrekt zu raten
 g : Steilheit ( 1/  g )
 g : Schwierigkeit der g-ten Aufgabe
 : hier kein Parameter, sondern unabhängige Variable
Das allgemeine logistische Modell
(A. Birnbaum)
P( X g  1|  ,  g ) 
exp( g (   g ))
1  exp( g (   g ))
(2-parametriges Modell, 2-PL-Modell)
P( X g  1|  ,  g ) 
exp(   g )
1  exp(   g )
(1-parametriges, 1-PL-Modell, Rasch-Mode ll,
wenn noch lokale Unabhängigkeit postuliert wird)
Das spezielle Rasch-Modell (G. Rasch)
Rasch-Homogenität: zwei Items Ig und Ih heißen Raschhomogen, wenn beide ein und dasselbe Merkmal messen.
Rasch-Homogenität gilt, wenn die Bedingung
P( X g  1|  )
P( X h  1|  )
 g 

  gh
P( X g  0 |  ) P( X h  0 |  )
erfüllt ist:  gh ist gleich der Differenz der Schwierigkeiten
Das spezielle Rasch-Modell (G. Rasch)
Alternative Parametrisierung:
exp(   g )
 g
ee
P( X g  1|  ) 


 Fg ( )
  g
1  exp(   g ) 1  e e
1   g
  g
Die Reparametrisierung verweist auf eine Beziehung des RaschModells zu anderen Modellen: - Division durch sigma führt auf
 g


Fg ( ) 


 Gg ( )
1   g 1/  g    g  
Dies ist das Bradley-Terry-Luce-Modell für den Paarvergleich
(Beziehung zur Messtheorie Suppes & Zinnes, 1963)
Das spezielle Rasch-Modell (G. Rasch)
Beim Rasch-Modell sind die Itemfunktionen für Items mit
verschiedenen Schwierigkeiten parallel.
  g
  g  g
  g  g
e
e
e
Fg ( ) 
, Fg ' ( ) 

  g
  g  g
  g  g
1 e
1 e
1 e
Fg ' ( )  Fg (   g )
Das spezielle Rasch-Modell (G. Rasch)
Wettquotienten und Logits:
1
P( X g  0 |  )  1  P( X g  1|  ) 
.
  g
1 e
P ( X g  1|  )
P( X g  0 |  )
log[
  g
e
P( X g  1|  )
P( X g  0 |  )
]   g
(Wettquotient)
(Logit)
Das spezielle Rasch-Modell (G. Rasch)
Spezifische Objektivität:
log[
log[
P( X ag  1|  )
P( X ag  0 |  )
P( X ag  1|  )
P ( X ag  0 |  )
]  log[
]  log[
P( X a ' g  1|  )
P( X a ' g  0 |  )
P( X ag '  1|  )
P( X ag '  0 |  )
]  a  a '
]  g g'
Der Vergleich der Logits zweier Personen beim gleichen Item
liefert die Differenz der Personenparameter, der analoge Vergleich
zweier Items bei der gleichen Person liefert die Differenz der
Itemparameter.
Das spezielle Rasch-Modell (G. Rasch)
Die Schätzung der Parameter: Maximum-Likelihood-Methode
X ag (a  g )
L( x11 ,
e
, xnm )  
a  g
a
g 1 e
Likelihood der Messungen
Maximum-LikelihoodSchätzungen von Parametern
sind asymptotisch normalverteilt
(aber nicht notwendig bias-frei!).
Das spezielle Rasch-Modell (G. Rasch)
Der Test des Modells
Aufgabe: es muß geprüft werden, ob die Daten mit der Annahme
(i) Der logistischen Verteilung, (ii) des 1-pl-Modells kompatibel sind.
Problem: es gibt viele Funktionen, die der logistischen Funktion so
ähnlich sind, dass man mit Hilfe der üblichen statistischen Tests
(z.B. Chi-Quadrat-Test für die Güte der Anpassung) nicht entscheiden
Kann, ob die beobachtete Funktion mit der postulierten Funktion übereinstimmt oder nicht.
Das Rasch-Modell sagt parallele Itemfunktionen für verschiedene
Items voraus. – also kann man Itemfunktionen auf Parallelität testen.
Es treten aber ähnliche Probleme wie beim Vergleich von Funktionen
auf.
Das spezielle Rasch-Modell (G. Rasch)
Der Test des Modells
Gefordert: Homogenität der Items.
Im Prinzip: Faktorenanalyse.
Problem: 0-1-Daten liefern oft nicht erwartungstreue Schätzungen
für die Korrelationen, es können „Schwierigkeitsfaktoren“ resultieren.
Spezifische Objektivität: dieses Merkmal sagt gleiche
Schwierigkeitsparameter für verschiedene Populationen voraus.
Also kann man die Schwierigkeitsparameter von verschiedenen
Items miteinander vergleichen (Hypothese: Gleichheit für
verschiedene Teilpopulationen).
Das spezielle Rasch-Modell (G. Rasch)
Der Test des Modells
 g   g '  log[
P( X g  1  X g '  0)
P( X g  0  X g '  1)
Der Quotient hängt nicht von den
Personen ab!
Quotienten müssen für verschiedene
Populationen gleich sein, wenn das
Modell gilt.
Das spezielle Rasch-Modell (G. Rasch)
Der Test des Modells
P I ( X g  1  X g '  0)
P ( X g  0  X g '  1)
I
(Sub-)Population I

P II ( X g  1  X g '  0)
P II ( X g  0  X g '  1)
(Sub-)Population II
Diese Quotienten können für alle Paare von Items (g, g‘) gebildet
werden.
Die linke und die rechte Seite können als Koordinaten eines
Punktes, der das Paar (g, g‘) repräsentiert. Alle Punkte müssen auf
der 45-Grad Geraden mit additiver Konstante = 0 liegen, wenn das
Modell gilt.
Das spezielle Rasch-Modell (G. Rasch)
Der Test des Modells
Wie gut, d.h. genau sind die Schätzungen der Personenparameter?
Die Schätzungen sind – als Maximum-Likelihood-Schätzungen
– asymptotisch normalverteilt. Also kann man ein
Konfidenzintervall erklären:
Konfidenzintervall = a  Var (a )
 2 log L
Var (a ) 
, I ( a )   E (
)
2

I (a )
1
Das Rasch-Modell: mehrdimensionale
Verallgemeinerungen
1. Abgestufte Antwortskalen
Beispiel: Einstellung zur Umwelt.
Item: Ich fahre mit dem Fahrrad zur Arbeit.
Antwortalternativen: - gelten für alle Items!
1.
2.
3.
4.
Tue ich bereits
Kann ich mir gut vorstellen
Würde ich tun, wenn geeignete Bedingungen existieren
Das wäre keine geeignete Maßnahme für den
Umweltschutz
Das Rasch-Modell: mehrdimensionale
Verallgemeinerungen
Für jede befragte Person werden die Häufigkeiten bestimmt, die
sich für die einzelnen Alternativen ergeben:
r a  (ra1 , ra 2 , ra3 , ra 4 ) '
Gegeben seien n Items – wie viele mögliche solcher
„Antwortvektoren“ kann es geben? (Kombinatorik!)
r a  (n, 0, 0, 0) '
r a  (0, n, 0, 0) '
r a  (n  1,1, 0, 0) '
r a  (n  1, 0,1, 0) '
(Mögliche Verteilungen von n
Kugeln auf k Fächer)
(n  K  1)!
M
K !(n  1)!
Das Rasch-Modell: mehrkategoriale
Verallgemeinerung (Rasch,1961)
Mit welcher Wahrscheinlichkeit wählt eine Person a die k-te von K
möglichen Alternativen?
Annahme: die Wahrscheinlichkeit hängt von der Differenz
zwischen ihrem Parameter und der Kategorie ab.
P( X ag  1|  ak ,  gk ) 
 ak  gk
e
e
 ak  gk
k
ak Tendenz der a-ten Person für k-te Kategorie
 gk Schwierigkeit der k-ten Kategorie bei g-ter Aufgabe
Das Rasch-Modell: mehrdimensionale
Verallgemeinerung
Faktorenanalyse:
zag   g1qa1   g 2 qa 2 
  gr qar   ag
zag standardisierter Score der a-ten Person, g-te Aufgabe
 gk Faktorladung g-tes Item, k-te Dimension, k  1,
qak Faktorwert a-te Person, k-te Dimension
qak   ak
zag   g1 a1   g 2 a 2 
  gr ar
Logistische Regression!
,r
Das Rasch-Modell: mehrdimensionale
Verallgemeinerung
Logistische Regression:
p
  g1 a1   g 2 a 2 
1 p
P ( X ag  1|  a ,  g ) 
  gr ar   g
exp(  gj aj   g )
j
1  exp(  gj aj   g )
j
a  (a1 , ,ar ) '
Das Rasch-Modell: mehrdimensionale
Verallgemeinerung
P ( X ag  1|  a ,  g ) 
exp(  gj aj   g )
j
1  exp(  gj aj   g )
j
 (
   g ) ist eine deterministische Funktion der  aj!
gj aj
j
Interpretation: die Komponenten der Fähigkeit gehen stets in
festen Anteilen deterministisch in das Lösungsverhalten ein, es gibt
keine probabilistischen Aspekte des Zusammenwirkens!
Dies trifft natürlich auf das faktorenanalytische Modell ebenfalls zu.
Frage: ist das eine plausible Annahme?
Das Rasch-Modell: mehrdimensionale
Verallgemeinerung
Carlson & Muraki (1995)
yag   g1 a1   g 2 a 2 
N (0,1)  verteilter Fehler
  gr ar   ag
wg Indikatorvariable: wg  j  Antwort j-te Kategorie
Die Antwort fällt in die j-te Kategorie, wenn
 g , j 1  yag   gj ; dann
P( wg  j | a ) 
1
g
 g,j

2 
g , j 1
exp(
( y  yag )2
2
2
g
)dy,
Das Rasch-Modell: das linear-logistische Modell
Das linear-logistische Modell (Suppes, Jerman, Brian 1968,
Fischer 1973 etc
Ansatz: das Lösen von Aufgaben bedeutet das Lösen einer Reihe
von Teilaufgaben, die jede ihre eigene Schwierigkeit haben.
Ansatz: die Logit-Funktion ist linear in den Teilschwierigkeiten:
pg
log
 cg1 g1  cg 2 g 2   cgr gr
1  pg
Zum ersten Mal von Suppes et al (1968) vorgeschlagen
cg 1 , cg 2 ,
, cgr "Gewichte"
 g1 ,  g 2 , ,  gr Schwierigkeiten der r Komponenten
Das Rasch-Modell: das linear-logistische Modell
log
pg
1  pg
 cg1 g1  cg 2 g 2 
 cgr gr
Der Ansatz entspricht dem der logistischen Regression, wobei die
Schwierigkeiten unbekannte Parameter sind, die Gewichte werden
aufgrund einer Aufgabenanalyse vorgegeben.
Scheiblechner (1972) fügte einen Fähigkeitsparameter hinzu, es
entstand damit ein Rasch-Modell mit einem SchwierigkeitsparaMeter, der durch eine gewogene Summe von Teilschwierigkeiten
definiert ist:
Das Rasch-Modell: das linear-logistische Modell
P( X g  1|  ,  g1 ,
,  gr ) 
exp(   cgj gj )
j
1  exp(   cgj gj )
j
Anwendungen:
1. Scheiblechner 1972: Lösen logischer Probleme
2. Fischer 1973: Lösen von Differentiationsaufgaben
3. Hornke & Habon 1986: Lösen, aber auch Konstruktion von
Raven-Matrizen-Tests, etc
Frage: ist das Modell ein geeignetes Modell, um Teilprozesse
beim Lösen von Aufgaben oder Problemen zu charakterisieren?
Das Rasch-Modell: das linear-logistische Modell
Der auf Suppes et al 1968 zurückgehende Ansatz bedeutet, dass
implizit Annahmen über die Existenz von Abhängigkeiten beim
Lösen der Teilaufgaben gemacht werden, ohne dass diese in
irgendeiner Weise spezifiziert werden.
Beispiele aus Hornke & Habon 1986
Das Rasch-Modell: das linear-logistische Modell
Man betrachte insgesamt drei Aufgaben:
1. Aufgabe 1 erfordert Lösen der Teilaufgaben A1 und A2
2. Aufgabe 2 erfordert nur das Lösen von A1
3. Aufgabe 3 erfordert nur das Lösen von A2
Es gelte jedes Mal das linear-logistische Modell. Zusätzliche
Annahme: die beiden Teilaufgaben werden stochastisch unabhängig
voneinander gelöst.
Ist diese Annahme mit dem linear-logistischen Modell kompatibel?
Das Rasch-Modell: das linear-logistische Modell
exp(   cgj gj )
exp(  c11 )
exp(  c2 2 )
j

(1  exp(  c11 )) (1  exp(  c2 2 )) 1  exp(   cgj gj )
j
Vorhersage bei Unabhängigkeit
Linear-logistisches Modell
Frage: existiert eine 2-dimensionale Verteilung derart, dass sowohl
die Randverteilungen als auch die gemeinsame Verteilung durch
logistische Funktionen repräsentiert werden und die gemeinsame
Verteilung gerade das linear-logistische Modell darstellt?
Die Frage ist einerseits nicht beantwortet, richtet sich andererseits auf
die interne Konsistenz des Modells!
Warnung und Gebot: Du sollst nicht drauflos modellieren!!!
Mehrdimensionalität: Korrespondenzanalyse
Probleme mit der Faktorenanalyse:
(1) Korrelationen problematisch bei dichotomen Items
(2) Nahezu beliebige Häufigkeitsverteilungen bei Ratings
Korrespondenzanalyse: „Faktorenanalyse‘‘ bei
Häufigkeitstabellen.
Idee: Zerlegung des Chi-Quadrats der Tabelle in unabhängige
Komponenten, die zu latenten Dimensionen korrespondieren.
Korrespondenzanalyse: Skaliere die Koordinaten der Zeilenund Spaltenkategorien derart, dass die Abhängigkeiten
zwischen Zeilen- und Spaltenkategorien dargestellt werden.
Tocher (1908), R. A. Fisher (1940)
Mehrdimensionalität: Korrespondenzanalyse
Westphal (1931): Daten aus allen Psychiatrischen
Landeskrankenhäusern
Mehrdimensionalität: Korrespondenzanalyse
Mehrdimensionalität: Korrespondenzanalyse
Mehrdimensionalität: Korrespondenzanalyse
Selbstmorde in Deutschland 1974 - 1977
Selbstmorde in Deutschland 1974 - 1977
Korrespondenzanalyse - Theorie
m
n
  
2
i 1 j 1
xij 
(nij  ni  n j / N )2
ni  n j / N
nij  ni  n j / N
ni  n j / N
m
n
   x
2
X  Q1/2 P '
(Singularwertzerlegung)
i 1 j 1
2
ij
Korrespondenzanalyse - Theorie
Residuen
X  Q P '
Zeilenkategorien
1/2
Spaltenkategorien
Re-skaliert derart, dass euklidische Distanzen zwischen
den repräsentierenden Punkten Chi-Quadrat-Differenzen
entsprechen
Multiple Korrespondenzanalyse
Items
Matrix X =
Probanden
Multiple Korrespondenzanalyse
Die Burt-Matrix
Formal: C X ' X
Multiple Korrespondenzanalyse
Diskussion: KKT versus IRT
KKT: Zentrales Problem ist die Populationsabhängigkeit der
Schwierigkeitsindices für die Items.
IRT: Großer Vorteil ist die Populationsunabhängigkeit von Personund Itemabhängigkeit – Spezifische Objektivität der Testresultate.
Rasch: ein Modell sollte nicht nur gut auf die Daten passen,
es sollte der Vergleich von Personen unabhängig von den
Items (aus einer Klasse von Items) sein.
Jedes Testmodell sollte die Bedingung der spezifischen Objektivität
erfüllen; dieses Merkmal sei ein notwendiges, wenn auch kein
hinreichendes Merkmal für ein gutes Testmodell.
Diskussion: KKT versus IRT
Zweites wünschenswertes Merkmal: die Schätzungen für die
Personparameter sollten Suffiziente Statistiken sein.
Suffiziente Statistiken: eine Schätzung („Statistik“)
für einen Parameter ist suffizient oder erschöpfend,
wenn sie alle Information über den Parameter, die in
den Daten ist, enthält.
Y  ( y1,y 2 , ,y n ) Stichprobe
T (Y ) sei Statistik (Mittelwert für Erwartung swert, etc,
allgemein für einen Parameter  )
Suffizienz, wenn P(Y  y | T (Y )  t ,  )  P(Y  y | T (Y )  t )
Diskussion: KKT versus IRT
Suffizientes Statistiken
Suffizienz: P(Y  y | T (Y )  t ,  )  P(Y  y | T (Y )  t )
Spezielle Stichprobe
Statistik Parameter
Unabhängigkeit vom
Parameter, - Information
über theta bereits in T
enthalten!
Diskussion: KKT versus IRT
Beispiel für Suffiziente Statistik: Binomialverteilung
P(Y  yi )  p yi (1  p )1 yi , yi  {0,1}
p ist unbekannter Parameter,
Statistik für p ist T ( y1 ,
n
, yn )   yi  k ,
i 1
k
p  (Schätzung als relative Häufigkeit)
n
Diskussion: KKT versus IRT
Beispiel für Suffiziente Statistik: Binomialverteilung
P(T ( y1 ,
, yn )  k )  C (n, k ) p k (1  p) n k
C (n, k ) 
k!
n !(n  k )!
P(Y  T ( y1 ,
P(Y  T ( y1 , , yn )  T  k )
, yn ) | T  k ) 
P(T  k )
p k (1  p)nk
1
P(Y | T  k ) 

k
n k
C (n, k ) p (1  p)
C (n.k )
Unabhängig von p!
Relative Häufigkeit ist suffiziente Statistik für den Parameter p.
Diskussion: KKT versus IRT
Es läßt sich zeigen, dass die Schätzungen der Parameter für die
logistische Funktion suffiziente Statistiken sind!
Es ist von G. Rasch und dann von G. Fischer (Wien) postuliert
worden, dass (i) spezifische Objektivität und (ii)
Parameterschätzungen als suffiziente Statistiken notwendige
Voraussetzungen für ein Testmodell sein müssen.
Dann bleibt nur das Rasch-Modell als das einzig sinnvolle Modell.
Ramsay (1975): alle fundamentalen Gesetze der Physik
haben eine multiplikative Form – Unterstellung: alle
fundamentalen Gesetze haben diese Form.
Diskussion: KKT versus IRT
Auch das Rasch-Modell kann in diese Form gebracht werden:
epx(   )
e e
P(Y  1|  ,  ) 

1  exp(   ) 1  e e
P(Y  1|  ,  ) 

, mit   e ,  e
1  
Reparametrisierung!
Multiplikative Gesetze, spezifische Objektivität, und Physik:
Diskussion: KKT versus IRT
Multiplikative Gesetze, spezifische Objektivität, und Physik:
Kraft ist gleich Masse mal Beschleunigung:
K  mb
Masse (m) und Beschleunigung (b) können unabhängig
voneinander bestimmt werden. Für konstante Kraft gilt für
zwei Körper mit unterschiedlicher Masse:
K  m1b1  m2b2 
m1 b2
 .
m2 b1
m1 b2
  b1 , b2 lassen sich messen,man erhält Messungen
m2 b1
für m1, mit 1/ m2 als Einheit.
Diskussion: KKT versus IRT
Frage: aus welchem ontologischen Prinzip folgt, dass
fundamentale Gesetze eine multiplikative Form haben müssen?
Es gilt (Einstein 1905) die Beziehung
m
m0
1
2
, v Geschwindigkeit, c Lichtgeschwindigkeit
v
c2
K  mb  m
dv
hängt von v ab, keine spezifische Objektivität mehr!
dt
Ist Einsteins Beziehung kein „fundamentales“ Gesetz mehr?
Diskussion: KKT versus IRT
Micko (1969) „A psychological scale for reaction time
measurement“:
1
Pi (  t ) 
1  a(i )b(t )
Rasch-Modellierung von
Reaktionszeiten:
a(i) Person-Funktion, b(t) > 0 eine
beliebige Funktion der Zeit, wird
durch spezifische Aufgabe näher
bestimmt.
Vorberg & Schwarz (1990): Eine Reihe zentraler Modelle über
Reaktionszeiten wird bei diesem Ansatz von vornherein
ausgeschlossen, es bleiben nur unplausible, mit den Daten nicht
kompatible Modelle übrig!
Diskussion: KKT versus IRT
Zusammenfassung:
Für die Forderung nach spezifischer Objektivität und
suffizienten Statistiken existiert kein ontologisches Argument,
- Rasch-Modell ist nicht notwendig allein seligmachend!
Modelliert man psychische Prozesse, so sind die Parameter der
Modelle nicht notwendig spezifisch objektiv und die Schätzungen
nicht notwendig suffizient!
Hat man eine Menge von Items, die dem Rasch-Modell genügen:
sehr schön – Glück gehabt!
Zumal der große Nachteil der KKT die Populationsabhängigkeit
der Schwierigkeitsparameter!
Danke für Ihre Aufmerksamkeit!
Herunterladen