Einführung in die Latent Trait Modelle

Werbung
1
Einführung in die Item Response Modelle
1) Aufgaben der Testtheorie
Wir leben in einer Zeit, in der versucht wird alles in Zahlen zu fassen. Egal, ob es sich um
unsere Körpergröße, unser Gewicht, die Schuhgröße, die Zahl der Kinder, das Einkommen
oder unsere Intelligenz handelt. Für alles suchen wir eine Zahl anhand der wir uns mit den
anderen vergleichen.
In vielen Bereichen ist das Vergeben dieser Zahlen relativ leicht. In anderen Bereichen, und
gerade in der Psychologie, ist es nicht so leicht, die interessierenden Größen (wie Intelligenz,
Ängstlichkeit, Selbstvertrauen, usw..) auch in Zahlen zu fassen. Zu diesem Zweck bedarf es
der geeigneten Messinstrumente. Derartige Messinstrumente nennen sich ganz allgemein
Tests.
Natürlich müssen diese Messinstrumente einigen Ansprüchen genügen. Wie diese Ansprüche
aussehen und inwiefern man überprüfen kann, ob ein Test diesen Ansprüchen genügt, ist
Inhalt und Aufgabenbereich der Testtheorie.
1.1 Forderungen, die an Tests gestellt werden (= klassische Testgütekriterien)
a) Objektivität:
Die Zahl, die als Messergebnis herauskommt, darf nicht vom Beurteiler oder von der Art der
Testvorgabe abhängen. Das bedeutet, unterschiedliche Beurteiler sollen zum selben
Testergebnis kommen.
Diesem Anspruch kann man nur gerecht werden, wenn die Testverfahren klare Regeln haben,
wie sie auszuwerten bzw. durchzuführen sind (Durchführungs-, Auswertungs-
und
Interpretationsobjektivität)
 Mag. Michael Weber
2
b) Reliabilität:
Hier geht es um die Genauigkeit mit der ein Test etwas misst, wobei es (für die Reliabilität)
prinzipiell egal ist, ob er auch das misst was er zu messen vorgibt. Es geht also darum, ob ein
Test, wenn er mehrere Male an ein und derselben Person angewandt wird, auch tatsächlich
zum selben Ergebnis kommt. Man denke dabei an eine Waage. Stellt man sich mehrere Male
hintereinander auf ein und dieselbe Waage, und sie zeigt jedes mal dasselbe Gewicht an, so
kann man dem Ergebnis dieser Messung trauen (d.h. die Waage ist reliabel). Ob diese Waage
unser tatsächliches Gewicht, oder konsequent 10kg zuviel oder zu wenig anzeigt ist nicht
überprüfbar.
Dass ein reliables Verfahren nicht unbedingt das messen muss, was es zu messen vorgibt, sei
an einem weiteren Beispiel erklärt: Nehmen wir an, wir bitten jemanden seinen Kopfumfang
abzumessen und geben dieser Person ein Maßband. Misst diese Person jetzt an der falschen
Stelle (z.B: den Bauchumfang) so ist das Ergebnis zwar reliabel, da bei mehrmaliger Messung
an dieser Stelle immer dasselbe herauskommt, das Richtige hat die Person jedoch nicht
gemessen.
Eine wesentliche Voraussetzung für die Bestimmung der Reliabilität ist es natürlich, dass die
gemessenen Eigenschaften (zumindest eine gewisse Zeit) stabil sind.
Die Reliabilität ist also die Korrelation der zwei Zeitpunkten erhobenen Ergebnisse eines
Tests.
c) Validität
Bei der Validität geht es darum, ob ein Test auch tatsächlich das misst, was er zu messen
vorgibt bzw. wofür die erzielten Ergebnisse zu gebrauchen sind.
Wenn wir bei unserem Beispiel des Kopfumfangs bleiben, so müsste ein Hut, den wir der
Person auf Grund des von ihr gemessenen Werts kaufen, auch wirklich passen.
Wichtig hierbei ist, dass die Kopfgröße wichtig für den Kauf des Huts ist. Hätten wir versucht
der Person anhand der Kopfgröße die richtigen Schuhe zu kaufen, wären wir ziemlich sicher
gescheitert.
Die Validität ist die Korrelation des Messergebnisses mit einem Außenkriterium .
 Mag. Michael Weber
3
2) Vergleich klassische und moderne Testtheorie
Mit all diesen Anforderungen an einen Test setzt sich die klassische Testtheorie intensiv
auseinander.
Doch das ist nicht genug, da die klassische Testtheorie die Frage, wie ein Messwert entsteht
bzw. wie gut dieser Messwert ist, unberücksichtigt lässt.
Betrachten wir einmal, wie in der klassischen Testtheorie ein Messwert zustande kommt.
Den Testpersonen wird ein Test mit einer fixen Länge vorgelegt. Nachdem die Person den
Test bearbeitet hat, wird geschaut, welche Items sie wie beantwortet hat und dementsprechend
eine gewisse Punktezahl für die Items vergeben. Im Anschluss werden die erzielten Punkte
zusammengezählt und ergeben somit den Messwert der Person.
Leider ist ein Messwert alleine nicht genug um etwas über die Person auszusagen. Man
benötigt eine Vergleichsstichprobe mit der das Ergebnis in Beziehung gesetzt wird.
Verwendet man nun zwei unterschiedliche Vergleichsgruppen kann ein und dasselbe Ergebnis
zu gänzlich verschiedenen Interpretationen führen. Wir erhalten zwei, eventuell völlig
verschiedenen Ergebnisse für ein und dieselbe Person.
Hiezu wieder ein kleines Beispiel: nehmen wir eine durchschnittlich große Person. Wenn wir
versuchen nach dem Modell der klassischen Testtheorie etwas über ihre Größe auszusagen,
und befindet sich unsere Person in mitten von Kindern, so werden wir als Ergebnis erhalten,
dass diese Person sehr groß ist. Befindet sich unsere Person jedoch in Mitten einer Gruppe
von Basketballspielern (die bekanntlich ja sehr groß sind), so wird das Ergebnis für unsere
Person sein, dass sie klein ist. Sinnvoll wäre es einen Messwert zu erhalten, der unabhängig
von den anderen untersuchten Personen ist (in diesem Fall einfach die Körpergröße in cm, da
diese invariant ist, egal, wer sonst noch getestet wurde)
Genau das aber ist der Ansatzpunkt der modernen (probabilistischen) Testtheorie.
Zum Ersten geht es nun darum herauszufinden, wie viele Punkte ein Item bringt, zum Zweiten
um den Versuch pro Person Testergebnisse zu bekommen, die unabhängig davon sind welche
Personen sonst noch getestet wurden (wird „spezifische Objektivität“ genannt). Es geht sogar
soweit, dass man Personen miteinander vergleichen kann, selbst wenn sie unterschiedliche
Tests bearbeitet haben.
Dies bedeutet aber auch, dass eine Person, wenn man sie zweimal testet, die selben Ergebnisse
erzielen wird (mit Ausnahme von Zufallsschwankungen natürlich und unter der
 Mag. Michael Weber
4
Voraussetzung natürlich, dass das gemessene Merkmal stabil ist), womit in der modernen
Testtheorie auch das Reliabilitätsproblem gelöst ist.
Die Frage wofür das Testergebnis verwendet werden kann (also der Problemkreis rund um die
Validität eines Tests) lässt sich damit nicht beantworten und kann auch weiterhin u.a. mittels
Korrelationen beantwortet werden.
 Mag. Michael Weber
5
3) Grundannahmen der Latent Trait Modelle
a) wie schon erwähnt setzen die Latent Trait Modelle nicht beim Testergebnis, sondern bei
den einzelnen Items an.
Jede Antwort einer Person hängt von den folgenden 3 Komponenten ab:

der zu messenden „Eigenschaft“ der Person (quantitativ ausgedrückt durch den
Personenparameter)

der „Eigenschaft“ des Items (quantitativ ausgedrückt durch den Itemparameter)

Zufall (alle nicht kontrollierbaren Einflüsse)
Auch wenn im folgenden, in Anlehnung an Leistungstests, die einen Großteil der bis jetzt
nach den Latent Trait Modellen erzeugten Tests ausmachen, die Eigenschaften der Person
als „Personenfähigkeiten“ und die Eigenschaften der Items als „Itemschwierigkeiten“
bezeichnet werden, soll nicht der Eindruck entstehen, die Latent Trait Modelle wären
lediglich für die Erstellung von Leistungstests geeignet.
Denkbar wäre es genauso, im Zuge der Messung von „Einstellungen“, die Itemparameter
so zu interpretieren, dass sie die verschiedenen Grade der „Herausforderung“ ein
bestimmtes Verhalten zu zeigen sind.
b) Es wird angenommen, dass alle Items (Aufgaben) eines Test lediglich eine einzige latente
(d.h. nicht direkt beobachtbare bzw. messbare) Dimension erfassen. Dies bedeutet, dass
für die Beantwortung (bei Leistungstests: für das Lösen) eines Items lediglich eine
Dimension (bei Leistungstests: eine Fähigkeit) verantwortlich ist.
c) Es gibt einen systematischen Zusammenhang zwischen der latenten Dimension und der
manifesten Variable d.h. dass die Wahrscheinlichkeit ein Item zu „lösen“ sowohl von der
Itemschwierigkeit, als auch der Personenfähigkeit abhängt. Dieser systematische
Zusammenhang wird durch die Itemcharakteristik Kurve (IC- Kurve) graphisch
dargestellt. Es werden zwei Typen von IC Kurven unterschieden

monotone IC Kurven

nicht monotone IC Kurven
 Mag. Michael Weber
6
Eine monotone IC Kurve besagt, dass die Wahrscheinlichkeit ein fixes Item zu lösen mit
wachsender Fähigkeit der Person entweder nur steigt oder nur fällt .
Bsp:
monotone IC Kurven:
nicht monotone IC Kurven:
d) Die Items sind voneinander „lokal stochastisch unabhängig“:
Das bedeutet (rein formal), dass der Zusammenhang zwischen den Items lediglich darin
besteht, dass ihre Lösungswahrscheinlichkeit von derselben latenten Dimension abhängig
ist.
Für die Praxis bedeutet das für zwei Items, dass die Reihenfolge in der die Items
vorgegeben werden, egal sein muss.
 Mag. Michael Weber
7
Dies sei an zwei Beispielen illustriert:
A) Nehmen wir an wir hätten folgende zwei Items:
1) Bestimmen sie den Schnittpunkt der beiden Geraden g: x+y=2 und h:x-y=0
2) Der Schnittpunkt der Geraden g und h ist der Mittelpunkt eines Kreises mit dem
Radius r=3. Bestimmen Sie die Kreisgleichung.
Diese beiden Items verstoßen gegen die „lokal stochastische Unabhängigkeit“. Eine
Person, die die beiden Geraden nicht miteinander schneiden kann, kann auch die
Kreisgleichung nicht erstellen. Es gibt also eine feste Reihenfolge in der die Items
bearbeitet werden müssen (man muss zuerst die Geraden schneiden um auf den
Schnittpunkt zu kommen und kann erst dann mit diesem Schnittpunkt die Kreisgleichung
aufstellen).
B)
Zwei weitere Items könnten lauten:
1)
Besitzen sie einen Swimmingpool?
2)
Besitzen sie einen Porsche?
Diese Items sind lokal stochastisch unabhängig. Der sicherlich beobachtbare
Zusammenhang, dass Personen eher beides besitzen oder beides nicht besitzen, ist auf
eine zu Grunde liegende Dimension (hier wohl den finanziellen Wohlstand) zurück
zuführen.
Innerhalb von Personengruppen gleichen Einkommens wird der Zusammenhang
verschwinden.
 Mag. Michael Weber
8
4) Das dichotom logistische Modell von Rasch
Der Begriff „dichotom“ kommt daher, dass Rasch sein Modell ursprünglich lediglich für
dichotome (d.h. zweikategorielle Items) hergeleitet hat. Logistisch heißt das Modell deshalb,
weil die weiter unten angeführte Modellgleichung des Raschmodells eine logistische Funktion
der Form :
ex
1 e x
ist.
Wir halten noch einmal fest:
Jede Person, ist durch einen Personenparameter charakterisiert. Dieser Personenparameter ist
eine reelle Zahl, die die Position der Person auf der latenten Dimension beschreibt.
Aufgabe eines Tests ist es jetzt eine möglichst gute Schätzung dieses Parameters zu liefern.
Weiters sei auch nochmals Raschs Forderung nach der spezifischen Objektivität erwähnt:
Einerseits soll der Vergleich zweier Personen unabhängig davon sein, welche und wie viele
Items verwendet werden, andererseits soll der Vergleich zweier Items unabhängig davon sein,
welche Personen die Items bearbeitet haben und welche Items sonst noch vorgelegt wurden.
Auch forderte Rasch die „erschöpfende Statistiken“, was bedeutet, dass die Zahl der gelösten
Items die gesamte Information über eine Person beinhaltet. Somit bringt jedes gelöste Item,
egal wie schwer es ist, einen Punkt und die Frage nach eventuellen unterschiedlichen
Punktagen (=unterschiedlich viele Punkte) für unterschiedlich schwere Items erübrigt sich.
Es lässt sich nun zeigen, dass aus jeder der beiden Forderungen mathematisch zwingend das
Raschmodell (genauer gesagt eine „Familie von Raschmodellen“) folgt [eine genaue
Herleitung siehe: Fischer, Molenaar (Hrsg.),1995: „Rasch Models“] .
Für die Praxis wiederum bedeutet das, dass die Items eines Tests, bei dem der ungewichtete
Rohscore (also die Summe der gelösten Items) ein „fairer“ Messwert für eine Person sein soll,
den Forderungen des Raschmodell gerecht werden müssen (d.h.: der Test muss/müsste
raschhomogen sein).
 Mag. Michael Weber
9
4.1 Arten der Modellgleichung des Raschmodells:
p(+/ v,i)= Wahrscheinlichkeit, dass die v-te Person das i-te Item löst.
a) erste Art der Modelldarstellung
e v  i
p( / v, i ) 
1  e v  i
[ (sprich: Ksi); (sprich: Sigma)]
durch nachfolgende Umformung ergibt sich die zweite Modelldarstellung
ev  i
ev e  i
p (  / v, i ) 

v  i
1 e
1  ev e  i
und e
v
  v sowie e
 i
 i
b) zweite Art der Modelldarstellung
p (  / v, i ) 
 v i
1   v i
[ (sprich: Deta); (sprich: Epsilon)]
4.2 „Erkenntnisse“ anhand der Modellgleichungen:
a) Interpretation der Parameter:
Personenparameter:
v bzw. v (je nachdem welche der beiden Modelldarstellungen man verwendet) sind die
Personenfähigkeiten: wie leicht nachzurechen, wird die Lösungswahrscheinlichkeit eines
fixen Items höher, je größer v bzw. v .
 Mag. Michael Weber
10
Itemparameter:
bei den Itemparametern ist das Ganze schon etwas komplizierter.
Während es sich bei i (erste Modelldarstellung) um die Schwierigkeit des Items handelt
(Lösungswahrscheinlichkeit wird umso geringer, je größer i wird) handelt es sich bei i
(zweite Modelldarstellung) um die Itemleichtigkeit (ist daran zu erkennen, dass
 i  e 
i
).
b)
Die Lösungswahrscheinlichkeit eines Items beträgt genau dann 0.5, wenn das Item genauso
schwer wie die Person fähig. Bei der Personenfähigkeit ist also nicht die maximale
Leistungsfähigkeit der Person gemeint, sondern jene Leistung an, die man sich im
Durchschnitt von dieser Person erwarten kann. Man sieht daran auch, dass ein Item genau
dann die meiste Information über eine Person liefert, wenn es genauso schwer ist wie die
Person fähig.
Das kann man sich am leichtesten dadurch veranschaulichen, dass z.B. ein Fußballspiel dann
am interessantesten ist, wenn zwei gleichstarke Mannschaften gegeneinander spielen.
Derartige Fußballspiele werden von sehr viel mehr Leuten gesehen, als wenn eine Mannschaft
eindeutig unterlegen ist (hier kann man der überlegenen Mannschaft lediglich beim fast
sicheren Gewinn des Spiels zusehen und das ist ja nicht so spannend [informativ]).
Die durch die Modellgleichung beschriebene IC Kurve ist eine monoton wachsende Kurve.
Betrachtet man mehrere IC Kurven, so müssen sie auf Grund der Forderung nach
„spezifischer Objektivität“ parallel zueinander sein.
Erklärung:
Spezifische Objektivität bedeutet ja, dass ein Item dieselbe Schwierigkeit haben muss, egal
welcher Stichprobe es vorgelegt wird. Das bedeutet aber wiederum, dass das Schwierigkeitsverhältnis zweier Items gleich bleiben muss. Wären nun zwei IC Kurven nicht parallel, so
würden sie einander schneiden. Das hieße aber, dass für einen Teil der Personen Item 1
leichter als Item 2 und für einen anderen Teil Item 2 leichter als Item 1. Das widerspricht der
Forderung nach spezifischer Objektivität (siehe auch nachfolgende Skizze):
: Item1
: Item2
 Mag. Michael Weber
11
( ANMNERKUNG: hier ist keine spez. Objektivität der Items gegeben)
4.3 Parameterschätzung:
Ein wesentlicher Schritt ist nun Schätzungen für die unbekannten Parameter angeben zu
können.
Hierfür gibt es mehrer Möglichkeiten (um den Rahmen nicht zu sprengen wird einerseits eine
Methode dargestellt, die man, sofern die Voraussetzungen erfüllt sind, selbst mit Hilfe eines
Taschenrechners berechnen kann, andererseits die in der Praxis am häufigsten zur Anwendung
kommenden Schätzmethoden) :
a) explizite Parameterschätzung
Um den Einstieg zu erleichtern wird die Methode erst anhand zweier Items vorgestellt und
anschließend auf k-Items erweitert.
Beginnen wir zunächst einmal mit einem sehr einfachen Fall:
Nehmen wir an wir haben einen Test der lediglich aus zwei Items besteht. Die möglichen
Ergebnisse dieser 2 Items kann man in einer Vierfeldertafel darstellen.
Item2
gelöst
gelöst
n11
nicht gelöst
n01
nicht gelöst
n10
Item 1
n00
n11: ist die Anzahl jener Personen, die sowohl Item 1 als auch Item 2 gelöst haben
n01: ist die Anzahl jener Personen, die Item 1 nicht aber Item 2 schon gelöst haben
Wie leicht zu erkennen ist, hängen n11 und n00 stark von der getesteten Stichprobe ab.
Hat man eine Stichprobe mit sehr guten Personen, so wird n11 groß sein (da viele Personen
beide Aufgaben lösen), hat man eine Stichprobe mit eher schwachen Personen, so wird n00
groß werden (da viele Personen keines der beiden Items lösen können).
Unabhängig von der Stichprobenzusammensetzung ist jedoch das Verhältnis
n10
.
n 01
 Mag. Michael Weber
12
Dieses Verhältnis spiegelt das Schwierigkeitsverhältnis der Items wieder. Genaugenommen
handelt es sich dabei vielmehr um das Leichtigkeitsverhältnis der Items, da ja ein Item umso
leichter ist desto mehr Personen es lösen können.
Aus dieser Überlegung folgt auch die nachfolgende „Formel“ (ein genauer Beweis findet sich
im Anhang)
n10  1

n01  2
[1 und 2 stehen für die Leichtigkeit der Item 1 und 2].
Bemerkung: In der klassischen Testtheorie ist die Schwierigkeit eines Items durch die
Lösungswahrscheinlichkeit des Items definiert.
In der klassischen Testtheorie wäre die Schwierigkeit des 1-tem Items also:
Anzahl der Personen die das Item 1 lösen
Anzahl aller Personen
oder
n10  n11
.
n10  n11  n01  n00
Daran sieht man, dass die Itemschwierigkeit der klassischen Testtheorie
stichprobenabhängig ist, da die stichprobenabhängigen Werte n11 und n00 darin
vorkommen.
Um den Itemleichtigkeiten jetzt Zahlen zuzuordnen muss man die beiden Zahlen so wählen,
dass das Verhältnis der passt.
Nehmen wir an, „nur“ Item 1 würde von doppelt so vielen Personen gelöst werden wie „nur“
Item 2.
n10 36 2 1

 
n01 18 1  2
Um die Parameter für unsere Items zu vergeben, könnten wir sagen 1=2 und 2=1, oder aber
wir könnten 1=26 und 2=13 setzen.
 Mag. Michael Weber
13
Das Problem dabei ist leicht zu erkennen. Jeder Auswerter könnte den Epsilons
unterschiedliche Wert zuordnen, wodurch der Vergleich kompliziert würde.
Um das zu vermeiden, hat man sich auf mögliche Zusatzbedingungen geeinigt. Diese
Zusatzbedingungen nennt man Normierungen.
Die verbreitetste Normierung ist die
Produktnormierung
Die hierbei geforderte Zusatzbedingung ist, dass das Produkt der Epsilons 1 sein muss
k
(   i  1 ).
i 1
Wenn wir bei unsrem Beispiel bleiben, gilt es also für 1 und 2 Zahlen zu finden, sodass
1: 2 = 2 und 1* 2 = 1.
Die resultierenden Epsilons 1=
2
und 2=
2
1
sind eindeutig (d.h: es gibt keine anderen
2
Zahlen, die diese beiden Bedingungen gleichzeitig erfüllen)
Liegen mehr als zwei Items vor, so kann für jedes Itempaar eine Vierfeldertafel ausgezählt
werden. Da aber nur die Nebendiagonale (n10 und n01) von Bedeutung ist werden diese für alle
Itempaare in eine Matrix zusammengefasst.
nicht gelöst
1
2
3
g
1
--
n12
n13
e
2
n21
--
n23
3
n31
n32
--
l
ö
s
t
.
k
......
k
n1k
-nk1
--
Bemerkung: n23 ist die Anzahl jener Personen, die das 2-te Item gelöst, das 3-te Item jedoch
nicht gelöst haben.
Allgemein schreibt man nij für die Anzahl der Personen die das i-te Item gelöst
und das j-te Item nicht gelöst haben.
In der Hauptdiagonale des Matrix befinden sich keine Eintragungen, da es keine
Personen gibt die ein Item gleichzeitig lösen und nicht lösen.
 Mag. Michael Weber
14
Wie oben bereits gezeigt gilt für 2 Items:
nij

n ji
i
.
j
In dem man dieses Ergebnis auf die Matrix anwendet ergeben sich folgende
Schätzgleichungen für die unbekannten Parameter 1, 2, 3, ......, k.
nij
k
n
j 1
j i
ji
i
 ik 1

 k
j 1  j
j i
 j
k
j 1
j i
Multipliziert man nun diesen Ausdruck mit
i
 1 , also mit etwas das 1 ergibt, so ändert das
i
ja das Produkt nicht. Es ergibt sich aber weiters:
 ik 1
i
 ik
  k
j
i

 j
 j
j 1
j 1
j i
Wenn wir nun davon ausgehen, dass die Epislons produktnormiert sind, so ist der Ausdruck
k

j 1
k
j
ja nichts anderes als das Produkt aller Epsilons und somit ist

j 1
j
= 1, woraus sich
weiters ergibt
ik
 ik
k

j 1
j
 Mag. Michael Weber
15
Zusammengefasst bedeutet das nun:
nij
k
n
j 1
j i
 ik
ji
Übersetzt ins Deutsche heißt das nun: Bildet man zuerst das Produkt jener Kästchen der
Matrix, in der das Item i-gelöst wurde und dividiert man das durch das Produkt der Kästchen
der Matrix bei den Item i nicht gelöst würde, so erhält man die Leichtigkeit des Items i hoch k.
Um auf die Leichtigkeit des Items i zu kommen braucht man daraus jetzt nur noch die k-te
Wurzel ziehen.
Formal sieht das jetzt so aus:
k
k
nij
n
j 1
j i
 i
ji
Dieses Verfahren kann natürlich nur angewandt werden wenn alle nij größer als 0 sind.
Das angenehme an dieser Berechnung ist, dass die resultierenden i schon produktnormiert
sind.
b) Maximium Likelihood Schätzungen
Bevor wir näher auf diese Art Parameterschätzung eingehen können, soll im Vorfeld noch der
Begriff, der Likelihood der Daten geklärt werden.
Unter der Likelihood der Daten versteht man die Wahrscheinlichkeit genau jene Daten zu
beobachten, die man beobachtet hat (hat man unterschiedliche Modellannahmen, so können
die Wahrscheinlichkeiten für einen bestimmten Datensatz je nach zu Grunde liegendem
Modell natürlich variieren).
Auch hierzu ein Beispiel:
Nehmen wir an, wir machen die Beobachtung, dass eine Person beim „Mensch Ärgere Dich
Nicht“ 3 mal hintereinander einen 6er würfelt. Die Likelihood der Daten (also die
Wahrscheinlichkeit, dass man 3 mal hintereinander einen 6er würfelt) beträgt, einen fairen
Würfel einmal vorausgesetzt (dies ist das von uns zugrunde gelegte Modell)
 Mag. Michael Weber
16
 1
 
 6
3
 0,0046296
Würde man ein anderes Modell zu Grunde legen z.B annehmen, dass der Würfel gezinkt
wurde und die Wahrscheinlichkeit einen 6er zu würfeln ½ beträgt, würde die Likelihood der
Daten natürlich anders aussehen, nämlich
 1
 
 2
3
 0,125.
Die Schätzung der Parameter des Raschmodells erfolgt mittels der Maximum Likelihood
Methode.
Bei der Maximum Likelihood Methode geht es darum, die unbekannten Parameter so
festzusetzen, dass die Wahrscheinlichkeit für die beobachteten Daten maximal (d.h. möglichst
groß) wird.
Auch hiezu ein Beispiel:
Stellen wir uns vor, wir wären blind und strecken die Hand aus dem Fenster. Nehmen wir
weiters an, wir machen die Beobachtung, dass die Hand nass wird.
Jetzt überlegen wir, was die Ursache (=Parameter) dafür sein kann.
Nun, es könnte regnen oder jemand über uns gießt Blumen oder ein Vogel hat mir in die Hand
gemacht oder aber der Mann, der in der Wohnung über uns wohnt pinkelt aus dem Fenster
(der Kreativität für mögliche Ursachen ist hier keine Grenze gesetzt) .
Dem Maximum Likelihood Prinzip folgend überlegen wir uns nun, welche der möglichen
Ursachen wir annehmen, damit das, was wir beobachtet haben (nasse Hand) größt mögliche
Wahrscheinlichkeit hat.
Nach einiger Überlegung wird man wohl zum Schluss kommen, dass Regen die plausibelste
der Varianten war.
Daher sagt man, wenn man die Hand aus dem Fenster hält und sie nass wird: es regnet.
Und noch ein Beispiel aus der Praxis: wenn wir ein Tier mit Fell sehen, das mit dem Schwanz
wedelt und uns mit nasser Zunge über die Nase leckt, nehmen wir an, dass es ein Hund ist.
Wäre es nämlich kein Hund, wären die beobachteten Ereignisse nicht so wahrscheinlich.
 Mag. Michael Weber
17
Weiters stellt sich nun die Frage, wie es mathematisch zu bewerkstelligen ist, dass man
unbekannte Parameter so festlegt, dass das Ergebnis maximal wird. In diesem Zusammenhang
möchte ich, da es für das prinzipielle Verständnis nicht von großer Bedeutung ist, die
Bestimmung von Extremwerten sowie Extremwertaufgaben nur ganz kurz in Erinnerung
rufen.
Hat man eine Funktion z.B. f(x)= -x2 -2x + 1, so kann man jenes x bestimmen, dass das
Ergebnis möglichst groß wird, indem man die erste Ableitung bildet und diese 0 setzt.
Zur Berechnung der unbekannten Parameter werden analoge Vorgehensweisen herangezogen.
Weiter oben haben wir schon die Grundgleichung des Rasch Modells kennengelernt.
Verwendet man nun die erste Modelldarstellung, so sind v (für jede Person) und i (für jedes
Item) die zu schätzenden Parameter.
Heutzutage gibt es drei verschiedene Varianten der Maximum Likelihood Schätzung, die sich
darin unterscheiden welche Wahrscheinlichkeiten maximiert werden.
a) Joint Maximum Likelihood Methode (Unbedingte Maximum Likelihood Methode)
Hier wird, wie in unserem Würfelbeispiel zur Likelihood, die Likelihood der Gesamtdaten
maximiert. Dadurch werden Personen und Itemparameter gleichzeitig geschätzt. Der extreme
Nachteil dieser Methode ist, dass es sehr häufig vorkommt, dass keine eindeutigen Ergebnisse
für die Parameter bestimmbar sind.
Die Parameter sind erst dann konsistent, wenn sowohl die Zahl der Personen, als auch die
Zahl der Items gegen unendlich geht. (zur Erinnerung: Konsistent heißt, dass der Schätzwert
bei wachsender Zahl von Beobachtungen immer genauer wird).
Auf Grund dieser doch gravierenden methodischen Nachteile wird diese Art der Schätzung
der Parameter auch nur äußerst selten verwendet.
 Mag. Michael Weber
18
b) Conditional Maximum Likelihood Methode (bedingte Maximum Likelihood Methode)
Bei der conditional (bedingten) Maximum Likelihood Methode, wird die Wahrscheinlichkeit
der Daten unter der Voraussetzung ,dass man die Verteilung der Rohscores kennt, maximiert.
Die conditional (bedingte) Maximum Likelihood Methode, ist die verbreitetste der
Schätzmethoden, da sie einen sehr wichtigen Vorteil des Rasch Modells nutzt, nämlich die
Separierbarkeit der Parameter.
Mit Hilfe dieser bedingten Wahrscheinlichkeiten lassen sich Itemparameter unabhängig von
den Personenparametern schätzen (dies war ja auch eine der Forderungen von Rasch. siehe:
spezifische Objektivität).
Eine
Herleitung
der
Separierbarkeit
der
Parameter
mit
Hilfe
der
bedingten
Wahrscheinlichkeiten befindet sich im Anhang.
Die mit dieser Methode berechneten Parameter sind konsistent und eindeutig.
In der Praxis werden zuerst die Itemparameter geschätzt und erst im Anschluss die
Personenparameter.
Jedoch haben auch die hiermit berechneten Personenparameter einige Nachteile:
Einerseits lassen sich für Personen die keines oder alle Items gelöst haben keine Personenparameter bestimmen (dasselbe gilt natürlich für die Itemparameter von Items, die von allen
oder von keiner Person gelöst wurden) andererseits werden die Personenparameter zu extrem
geschätzt, d.h. die kleinen zu klein und die großen zu groß.
Um diesem Problem zu entgehen gibt es noch eine dritte Art der Parameterschätzung
c) Marginal Maximum Likelihood Methode
Diese baut auf einer Annahme über die Verteilung der Parameter auf. So kann z.B.
angenommen werden, dass die Parameter normalverteilt sind. Genau, das ist aber auch der
Nachteil dieses Ansatzes. Es muss irgendeine Annahme über die Verteilung der Parameter,
die man maximieren will, getroffen werden.
Passt die a priori festgelegte Verteilung nicht, so sind die resultierenden Parameter nutzlos.
 Mag. Michael Weber
19
4.5 Modelltests:
Im Gegensatz zur klassischen Testtheorie, die auf einer Reihe von Axiomen (nicht
überprüfbare, und daher auch nicht widerlegbare Annahmen) beruht, können die Annahmen
die im Rasch Modell getroffen werden pro Item auf Gültigkeit überprüft werden.
Es gibt eine Vielzahl von unterschiedlichen Modellkontrollen.
Sie teilen sich grob in eine Gruppe von Tests, die die beobachteten Häufigkeiten mit den im
Rasch Modell erwarteten Häufigkeiten von Antwortmustern oder Itemlösungen vergleichen.
Eine weitere Modelltestgruppe ist stärker „itemorientiert“.
Die letzte Art der Modelltestung bezieht sich auf den Vergleich mehrerer Modelle. Derartige
Tests fallen in die Gruppe der Likelihood-Ratio-Tests.
Um den Rahmen nicht zu sprengen wird hier nur die Idee der itemorientierten Modelltests,
sowie die Idee und häufigste der Likelihood Ratio Modelltests besprochen.
a) Item orientierte Modelltests:
Wie weiter oben bereits erklärt muss die Schwierigkeit eines Items gleich bleiben, egal
anhand welcher Stichprobe die Itemschwierigkeit bestimmt wird. Es reicht daher aus einfach
zwei Gruppen zu bilden und innerhalb der beiden Gruppen, die Itemparameter zuschätzen.
Items, deren Schwierigkeiten nicht gleich bleiben entsprechen nicht dem Modell von Rasch
und müssen daher aus dem Test entfernt werden.
Eine Methode dies zu bewerkstelligen ist die „Graphische Modellkontrolle“.
Hierfür wird die Stichprobe in zwei Teile geteilt und für jede der Teilstichproben werden die
Itemschwierigkeiten extra bestimmt. Somit bekommt man pro Item zwei Schätzungen der
Itemschwierigkeit.
Diese beiden Schätzungen werden als Koordinaten verwendet. Dadurch ist jedes Item durch
einen Punkt im Koordinatensystem bestimmt.
Vorausgesetzt, dass das Raschmodell gilt, müssten die beiden Schätzungen der Itemschwierigkeiten gleich groß sein (zumindest in etwa gleich groß sein). Das wiederum bedeutet
aber, dass die x und y Koordinaten des Items in etwa gleich sein müssten und somit das Item
auf oder zumindest nahe an der 45°-Geraden liegen müsste [zur Erinnerung: die 45° Gerade
 Mag. Michael Weber
20
ist jene Gerade, die durch Punkte gebildet wird, deren x-Koordinate gleich der y- Koordinate
ist, also z.B. Punkte wie (1/1), oder (3,5 / 3,5) ].
Items die weit von der 45° Geraden entfernt liegen, sind somit nicht raschhomogen (siehe
dazu auch nachfolgende Abbildung)
2-te Schätzung
1-te Schätzung
[
= Items ]
Es stellt sich nu die berechtigte Frage, wann ein Punkt (und damit ein Item) weit bzw. zu weit
von der 45° Geraden entfernt liegt um als raschhomogen angesehen zu werden. Dafür gibt es
leider keine Regel. Die graphische Modellkontrolle kann somit nur einen ersten Eindruck von
den Items vermitteln.
Dies ist vom methodischen Standpunkt natürlich sehr unbefriedigend.
Es gilt daher ein Testverfahren zu entwickeln, das (ähnlich dem t-Test für den Vergleich
zweier Mittelwerte) untersucht, ob zwei Schätzungen für einen Itemparameter sich signifikant
unterscheiden.
Hiezu bedarf es einer vorbereitender Überlegungen:
Idee der Information:
Wie bereits weiter oben besprochen, ist die Information, die ein Item über eine Person (bzw.
eine Person über ein Item) liefert, dann am größten, wenn das Item genauso schwer ist, wie
die Person fähig.
Bleiben wir nun nur beim Item. Je mehr Personen nun ein Item bearbeiten und/oder je
ähnlicher die Personenparameter dem Itemparameter, desto größer ist die Information, die
man über ein Item erhält. Je größer jedoch die Information ist, desto genauer kann man den
 Mag. Michael Weber
21
Itemparameter festlegen (desto ähnlicher ist der Schätzwert dem wahren Wert des
Itemparameters). In der Terminologie der Statistik bedeutet das, je größer die Information
desto kleiner ist die Varianz (salopp gesagt: die Ungenauigkeit) des Itemparameters.
Kennt man pro Item den Schätzwert für den Itemparameter und dessen Varianz in jeder der
beiden Teilstichproben, kann daraus ein, dem t-Test entsprechender, statistischer Test zur
Überprüfung der Gleichheit zweier Itemparameter gemacht werden.
Aus diesen Testgrößen, die pro Item bestimmt werden, kann nun eine Testgröße für den
Gesamttest berechnet werden.
In der Praxis ist es nun so, dass zuerst überprüft wird, ob der Gesamttest dem Modell von
Rasch entspricht. Ist dies nicht der Fall, so wird jenes Item aus dem Test entfernt, bei dem der
Unterschied der Itemparameter in den beiden Stichproben am deutlichsten war. Danach
beginnt das Ganze wieder von vorne.
b) Likelihood Ratio Tests (Likelihoodquotiententests):
Ausgangspunkt der Likelihoodquotiententests ist, der Vergleich zweier Likelihoods von Daten
bei verschiedenen Modellen. Wie weiter oben bereits beschrieben, führen unterschiedliche
Modelle zu unterschiedlichen „Datenauftrittwahrscheinlichkeiten“. Der Likelihoodquotient
ist nun nichts anderes als das Verhältnis der Datenauftrittswahrscheinlichkeiten.
LQ 
L
L
0
.
1
Bezüglich der beiden Likelihoods im Zähler und im Nenner müssen folgende drei
Bedingungen erfüllt sein:
a) das Modell „0“, das die Likelihood L0 liefert muss ein Obermodell des Modells „1“
sein, das die Likelihood L1 liefert. Das bedeutet, dass das Modell „0“ aus
Einschränkungen des Modells „1“ hervorgeht.
 Mag. Michael Weber
22
b) Das restriktiverer Modell (Modell „1“) darf nicht durch 0 setzen von Parametern
entstehen.
c) Die Modellgeltung des allgemeineren Modells (Modell „0“) muss bereits
nachgewiesen sein.
d) Die erwarteten Häufigkeiten der Antwortvektoren müssen mindestens 1 sein.
Sind diese Bedingungen erfüllt, so ist -2 log(LQ) eine 2- verteilte Größe.
Die Zahl der Freiheitsgrade ist die Differenz der Parameter des allgemeineren Modells minus
der Zahl der Parameter des restriktiveren Modells.
Mit Hilfe des Likelihoodquotiententests kann man bestimmen, ob ein bestimmtes Modell
besser auf die Daten passt, als ein anderes.
Der Nachteil des Likelihoodquotiententests ist, dass die Voraussetzungen häufig nicht erfüllt
sind (speziell da die hierarchische Beziehung zwischen verschiedenen Modellen oft nicht
gegeben ist).
Auch sind für Likelihoodquotiententests sehr viele Daten nötig. Denkt man an Punkt d) der
Voraussetzungen, so gibt es 2k- verschiedene Antwortvektoren (k= Anzahl der Items).
Bei 10 Items entspricht das 210= 1024 verschiedenen Antwortvektoren!!!
Bekannteste Vertreter der Likelihoodquotiententests ist der Andersen Test
Dieser Test beruht auf den bedingten Likelihoods.
Das allgemeinere Modell (dessen Likelihood damit im Zähler steht), nimmt an, dass
das Rasch Modell in jeder Scoregruppe gilt, das heißt, dass in den unterschiedlichen
Scoregruppen unterschiedliche Itemparameter gelten können .
Das restriktiverer Modell besagt, dass das Rasch Modell für alle Personen gilt. Das
bedeutet, dass die Itemschwierigkeiten für alle Personen gleich sind.
Der Andersen Test testet somit vor allem die Gültigkeit der spezifischen Objektivität
(und die daraus resultierende Parallelität der IC-Kurven).
 Mag. Michael Weber
23
4.6 Vor- und Nachteile des Rasch Modells:
a) Vorteile:
-
einfache Konstruktion von Paralleltests:
Im Gegensatz zur klassischen Testtheorie, in deren Rahmen die Konstruktion von
Paralleltests bzw. von äquivalenten Tests nicht unproblematisch ist, bereitet das im
Modell von Rasch keinerlei Schwierigkeiten. Jede beliebige Teilmenge eines Itempools raschhomogener Items stellt selbst wieder einen raschhomogenen Test dar.
-
Tailored Testing (maßgeschneidertes Testen)
Die Auswahl der einer Person vorgegebenen Items erfolgt individuell. Nachdem den
Personen eine gewisse Zahl an Items vorgegeben wurde, wird der Personenparameter
der Person geschätzt und dann aus einem (möglichst großen) Itempool das für diese
Person informativste Item (also jenes, dessen Itemschwierigkeit der Personenfähigkeit
am ähnlichsten ist) herausgesucht und der Person vorgegeben. danach erfolgt wieder
eine Schätzung des Personenparameters und wiederum wird das informativste Item
herausgesucht und der Person vorgegeben. Dieses Vorgehen wird solange wiederholt,
bis sich bei zwei aufeinanderfolgenden Vorgaben der Personenparameter nur mehr
unbedeutend verändert.
-
Die praktische Durchführung des tailored testing ist technisch aufwendig, da sie
ausschließlich am PC bzw. Terminal erfolgen kann.
-
Branched testing (verzweigtes Testen)
Hierbei handelt es sich um einen Kompromiss zwischen dem herkömmlichen Testen
und dem tailored testing dar. Allen Personen wird ein kurzer Einstiegstest vorgegeben
und die Personen danach je nach Zahl der gelösten Aufgaben in Leistungsgruppen
unterteilt. Jede dieser Gruppen erhält dann einen anderen, ihren Leistungen
entsprechenden zweiten Test. Danach werden wieder Gruppen gebildet die wiederum
spezifische Tests erhalten.
 Mag. Michael Weber
24
Bsp:
Testteil A (z.B:5 Items)
0-1
Testteile:
B1
Testteile: C1
C2
2-3
4-5
B2
C3
C4
B3
C5
C6
C7 usw...
b) Nachteile:
-
In der Praxis ist es mit unter sehr schwer geeignete eindimensionale Items zu
bekommen. Gerade im Bereich der Persönlichkeitspsychologie aber auch in vielen
anderen Bereichen der Psychologie sind eindimensionale Items kaum zu
realisieren.
-
Zur Überprüfung der Modellgeltung ist eine sehr große Stichprobe notwendig.
Dies ist natürlich mit einem hohen Zeitaufwand und damit mit hohen Kosten
verbunden.
 Mag. Michael Weber
25
5) Modifikationen des dichotom logistischen Modells von Rasch
5.1) Das Linear Logistische Test Modell (LLTM)
Im LLTM beschäftigt man sich näher mit den Items.
Es wird davon ausgegangen, dass sich die Itemschwierigkeiten aus der Zahl der der Lösung
der Items zugrundeliegenden Fähigkeiten und deren Schwierigkeiten linear zusammensetzten.
Es wird also angenommen, dass zur Lösung eines Items verschiedenen Fertigkeiten benötigt
werden. Diese verschiedenen Fertigkeiten haben unterschiedliche Schwierigkeiten.
Die Schwierigkeit eines Items setzt sich nun, laut Modell, linear aus den einzelnen
Schwierigkeiten der einzelnen Fertigkeiten zusammen.
Dazu ein Beispiel: nehmen wir folgende Aufgabe:
(12+3)*2 + 7=
Um dieses Beispiel lösen zu können muss man addieren und multiplizieren können und
wissen wie man mit Klammern umgeht. Es kommen also 3 verschiedene Fertigkeiten vor.
Addieren 2mal, Multiplizieren und Umgang mit Klammern je ein mal. Die Itemschwierigkeit
setzt sich daher wie folgt zusammen:
Schwierigkeit [Addieren] + Schwierigkeit [Addieren] + Schwierigkeit [Multiplizieren]
+ Schwierigkeit [Umgang mit Klammern] = Schwierigkeit des Items.
oder
2 (Schwierigkeit [Addieren]) + Schwierigkeit[Multiplizieren] +
Schwierigkeit[Umgang mit Klammern] = Schwierigkeit des Items.
[Bemerkung: diese Art der Zusammensetzung heißt linear, da alle Schwierigkeiten
addiert/subtrahiert werden. Es kommen also keine Wurzeln oder Quadrate vor]
 Mag. Michael Weber
26
Hat man nun die mittels Parameterschätzung bestimmten Itemschwierigkeiten, kann man sich
die Schwierigkeiten der zugrunde liegenden Fertigkeiten berechnen. Hierfür ist es jedoch
nötig, dass es nicht mehr Fertigkeiten als Items gibt, da die Schwierigkeiten der Fertigkeiten
die unbekannten Größen eines aus k Gleichungen bestehenden Gleichungssystems sind (k=
Anzahl der Items).
Um die Gültigkeit des LLTM zu überprüfen, kann man nun die Schwierigkeiten der
Fertigkeiten berechnen und mit Hilfe dieser Schwierigkeiten die Itemschwierigkeiten von
neuen Items vorhersagen. Stimmen die vorhergesagten Schwierigkeiten mit den tatsächlich
beobachteten überein, so gilt das LLTM für die Items.
Zur
Überprüfung
können
sowohl
die
graphische
Modellkontrolle
als
auch
ein
Likelihoodquotiententest verwendet werden.
Der Vorteil des LLTM ist, dass man nun je nach Kombination der Fertigkeiten Items mit
erwünschten Schwierigkeiten „erzeugen“ kann. Dies ist besonders für das adaptive Testen von
großer Bedeutung.
 Mag. Michael Weber
27
5.2) Linear Logistic Model with Released Assumptions
(LLRA)
Das LLRA wurde von Fischer (1972) speziell für die Messung von Veränderungen in
qualitativen Daten entwickelt.
Die Annahmen des dichotomen Rasch Modells sind insofern abgeschwächt, als hier die
Eindimensionalität der Items nicht vorausgesetzt wird, vielmehr wird pro Item eine eigene
latente Dimension angenommen.
Im LLRA wird jedes einzelne Item (auch hier sind die Items dichotom) zu jedem der
Untersuchungszeitpunkte betrachtet.
Veränderungen zeigen sich durch Verschiebungen der Personen auf den, den einzelnen Items
zugrundeliegenden, Dimensionen. Durch die Positionsveränderung der Personen auf der
latenten Dimension ändert sich auch deren Wahrscheinlichkeiten eine der beiden Reaktionen
bei dem betreffenden Item zu zeigen.
Der Hauptanwendungsbereich des LLRA ist die Wirksamkeitskontrolle von Therapien.
Im folgenden wird nun der einfachste Spezialfall des LLRA genauer betrachtet.
a) Spezialfall: 1 Item(Symptom) 2 Zeitpunkte
Es geht dabei um die Wirksamkeit einer Therapie.
Um nicht therapiebedingte Veränderungen während der Zeit der Therapie ebenfalls erfassen
zu können, ist neben der Versuchsgruppe (hier erhalten die Personen die Therapie) auch eine
Kontrollgruppe (Personen erhalten keine Therapie) erforderlich.
An allen Patienten wird lediglich das Vorhanden sein bzw. das Nicht Vorhandensein eines
Symptoms beobachtet.
 Mag. Michael Weber
28
Laut LLRA gilt für das Vorhandensein des Symptoms getrennt nach Zeitpunkten und Gruppen
(Versuchsgruppe[VG]; Kontrollgruppe[KG]) folgendes:
Zeitpunkt1
Zeitpunkt 2
VG
e v
p( / v, t1 ) 
1  e v
e v  
p (  / v, t 2 ) 
1  e v  
KG
e w
p( / w, t1 ) 
1  e w
e w 
p( / w, t 2 ) 
1  e w 
Wie kann man sich die oben angegebenen Formeln nun veranschaulichen?
Beginnen wir mit einer Person v aus der Versuchsgruppe. Die Wahrscheinlichkeit, dass diese
Person das Symptom zeigt, hängt zum Zeitpunkt 1 nur von ihrem momentanen Zustand (v)
ab.
Zum Zeitpunkt 2 hängt die Wahrscheinlichkeit von 3 Dingen ab:
1) vom Ausgangszustand (v)
2) vom Effekt der Therapie ()
3) vom Trend (von der Therapie unabhängige Veränderung= )
Ähnlich bei Person w aus der Kontrollgruppe. Die Wahrscheinlichkeit, dass diese Person das
Symptom zeigt, hängt zum Zeitpunkt 1 nur von ihrem momentanen Zustand (w) ab.
Zum Zeitpunkt 2 hängt die Wahrscheinlichkeit jedoch nur von 2 Dingen ab:
1) vom Ausgangszustand (w)
2) vom Trend ()
Wie wir sehen, wird implizit angenommen, dass einerseits der Therapieeffekt für alle
Personen der Versuchsgruppe gleich groß ist, andererseits der Trend für alle Personen gleich
ist.
Auch im LLRA kann die Separierbarkeit der Parameter genutzt werden, das heißt, dass die
Parameter  und  unabhängig von den Personenparametern geschätzt werden kann .
 Mag. Michael Weber
29
Dass das möglich ist zeigt die folgende Überlegung.
Nehmen wir an, wir wandeln die Ergebnisse der Personen der einzelnen Gruppen so um, dass
wir einen neuen Messwert Xv bekommen der folgendermaßen gebildet wird:
p (  / v, t 2 )
p (  / v, t 2 )
Xv 
p( / v, t1 )
p( / v, t1 )
Anmerkung: p( / v, t1 )  1  p( / v, t1 )  1 
e v
1  e v
e v
1  e v  ev
1




v
v
v
v
1 e
1 e
1 e
1 e
1  e v
Analog gilt : p( / v, t 2 )  1  p( / v, t 2 )  1 
e v  
1

 v  
1 e
1  e v  
Wir bilden also pro Gruppe einen Messwert, in dem wir zuerst ihre Wahrscheinlichkeit zum
Zeitpunkt 2 das Symptom zu zeigen durch ihre Wahrscheinlichkeit beim 2 ten Zeitpunkt das
Symptom nicht zu zeigen dividieren. Danach machen wir dasselbe für den ersten Zeitpunkt
und schlussendlich dividieren wir noch das erste Ergebnis durch das zweite.
Durch ausmultiplizieren und einsetzen ergibt sich :
X v  e 
[Anmerkung: eine ausführliche Herleitung befindet sich im Anhang]
Wir sehen nun, dass der Messwert Xv nicht mehr von den Personenfähigkeiten (v) abhängt.
Logarithmiert man nun Xv so erhält man:
ln( X v )  ln( e  )    
Für die Kontrollgruppe ist das Vorgehen ident. Man erhält jedoch:
X v  e
ln( X v )  ln( e )  
Für konkrete Daten werden die Wahrscheinlichkeiten mittels der relativen Häufigkeiten
geschätzt.
So ist z.B. p(+/v,t1) die relative Häufigkeit der Personen der Versuchsgruppe, die zum
Zeitpunkt 1 das Symptom zeigen. p(-/v,t2) wäre somit die relative Häufigkeit der Personen der
Versuchsgruppe, die das Symptom zum 2-ten Zeitpunkt nicht zeigen.
 Mag. Michael Weber
30
b) Interpretation der Parameter:
Bezeichnet „+“ das Vorhandensein eines Symptoms, so bedeutet ein „+“  bzw. , dass durch
die Therapie bzw. über die Zeit, das Symptom verstärkt auftritt (analog bedeuted ein „a“, dass
das Symptom weniger häufig auftritt).
Handelt es sich bei dem beobachteten Symptom um ein unerwünschtes Symptom (z.B
Schlafstörungen), so erhoffen wir für den Therapieeffekt natürlich ein negatives Vorzeichen
(dies bedeutet ja, dass durch die Therapie die Schlafstörungen seltener auftreten).
Natürlich kann das LLRA auch dazu genutzt werden verschiedene Therapien miteinander zu
vergleichen indem man die Therapieeffekte der einzelnen Therapien miteinander vergleicht.
c) Allgemeinere Versuchsdesigns:
Bei der Verwendung von unterschiedlichen Dosierungen kann entweder Linearität der
Wirkung angenommen werden (doppelte Dosis= doppelter Erfolg), oder aber jede
unterschiedliche Dosierung wird als eigene Behandlungsmethode aufgefasst.
Durch den Vergleich der resultierenden Therapieeffekte kann dann der tatsächliche DosisWirkungszusammenhang untersucht werden (hier würden sich z.B. Sättigungseffekte
feststellen lassen, d.h. die Wirkung nimmt bei Steigerung der Dosis irgendwann nicht mehr
zu, oder sogar wieder ab).
d) Allgemeine Formulierung des Modells für k=1 Item
Alle
bisher
besprochenen
Modellvarianten
lassen
sich
unter
einer
allgemeinen
Modellformulierung zusammen fassen:
e v
p( / v, t1 ) 
1  e v
e  v  v
p( / v, t 2 ) 
1  e  v  v
v bezeichnet die Gesamtveränderung der Person in Abhängigkeit von den auf sie
angewandeten Behandlungsmethoden und deren Dosierung.
 Mag. Michael Weber
31
Es wird angenommen, dass die Behandlungsmethoden kumulativ wirken, d.h., dass sich die
Gesamtveränderung (v) aus der Summe der einzelnen Behandlungen sowie des Trends
zusammensetzt.
Formal bedeuted das:
m
 v   qvj j  
j 1
Anmerkung: qvj gibt die Dosierung von Therapie j an;
j steht für den Effekt der j-ten Therapie
 steht für die behandlungsunabhängige Veränderung (Trend)
e) Verallgemeinerung des Modells auf k-Items
Hier wird jedes Item durch eine eigene latente Dimension repräsentiert. Jede Person kann auf
der latenten Dimension eine andere Position einnehmen. Es wird angenommen, dass die
Veränderung aber auf allen latenten Dimensionen für jede Person gleich ist.
Zeitpunkt 1:
e vi
p( / i, v, t1 ) 
1  e vi
[Anmerkung: vi, ist die Position der Person v auf der dem Item i zugeordneten Dimension]
Zeitpunkt 2:
e vi  v
p (  / i , v, t 2 ) 
1  e vi  v
[Anmerkung: v ist die für alle Items gleich angenommene Veränderung]
Das LLRA ist ein mehrdimensionales Modell was die Beschreibung der Items und Personen
betrifft (=> die Items müssen hier nicht raschhomogen sein).
Die angenommene Konstanz der Veränderung über Items und Personen kann jedoch mit
einem Modelltest geprüft werden. (im ersten Fall durch Teilung der Items, im zweiten durch
Teilung in Personengruppen).
 Mag. Michael Weber
32
6) Mehrkategorielle Rasch Modelle und ihre Voraussetzungen:
6.1) Mehrkategorielle eindimensionale Latent Trait Modelle
a) Grundüberlegungen:
Schon im Grundmodell sind IC- Kurven von zentraler Bedeutung.
Die
IC-Kurve
eines
Items
stellt
bei
genauerer
Betrachtung
auch
schon
eine
Kategorienfunktion dar. Dies wird erkennbar, wenn man neben der üblicherweise
dargestellten IC- Kurve der Kategorie 1 (Item zu lösen), auch noch die IC-Kurve der
Kategorie 0 (Item nicht lösen) darstellt.
[vorläufige Skizze1]
Im dichotomen Fall ist die Kategoriefunktion der 0-Kategorie redundant (das heißt: sie ergibt
sich automatisch aus der Kategoriefunktion der 1-Kategorie), da sich die beiden
Wahrscheinlichkeiten auf 1 ergänzen müssen (man kann ja das Item nur lösen oder nicht
lösen).
Daher ist es im dichotomen Fall unnötig die Funktion der 0-Kategorie einzuzeichnen.
Es ist jedoch interessant sich diese beiden Kurven einmal genauer anzusehen.
Der Schnittpunkt der beiden IC-Kurven ist genau jener Punkt an dem die Wahrscheinlichkeit
das Item zu lösen gleich ist der Wahrscheinlichkeit das Item nicht zu lösen. Das ist, laut
obiger Definition genau dann der Fall, wenn die Person genauso fähig ist, wie das Item
schwierig (siehe: Punkt b von Erkenntnisse anhand der Modellgleichung Seite 10).
Der Schnittpunkt der beiden IC-Kurven markiert also genau die Lokalisation der
Itemschwierigkeit.
 Mag. Michael Weber
33
Diese Idee ist jetzt sehr gut auf das mehrkategorielle Modell übertragbar.
Betrachten wir zunächst die IC- Kurven für 3 Kategorien innerhalb eines Items.
[vorläufige Skizze2]
Zunächst dominiert die Wahrscheinlichkeit in der Kategorie 0 zu antworten, die aber, mit
steigender
Eigenschaftsausprägung
immer
geringer
wird,
danach
dominiert
die
Wahrscheinlichkeit in der ersten Kategorie zu antworten. Dies IC –Kurve der ersten Kategorie
ist nicht mehr monoton. Sie steigt zuerst an und nimmt dann wieder ab, weil im oberen
Bereich der Eigenschaftsausprägung die Wahrscheinlichkeit für die Kategorie 2 zunimmt. Die
IC-Kurven der Extremkategorien sind monoton, die der Zwischenkategorie jedoch nicht.
Diese Idee ist auch auf mehrere Kategorien verallgemeinerbar.
Die Schnittpunkte der Kategorie IC Kurven stellen somit die Kategoriegrenzen dar. Diese
Kategoriegrenzen werden Schwellen genannt.
Das rechtfertigt auch die Vergabe der Punkte. Antwortet man in der 0-Kategorie erhält man 0
Punkte, da man keine Schwelle überschritten hat. Antwortet an hingegen in der Kategorie 2 so
erhält man 2 Punkte, weil man 2 Schwellen überschritten hat.
Der Gesamtscore einer Person ist nun die Zahl der überschrittenen Schwellen.
Anhand der Kategoriewahrscheinlichkeiten sieht man auch, ob die Kategorien tatsächlich
richtig geordnet sind. Die Ordnung der Antwortkategorien zeigt sich nämlich daran, dass ihre
zugehörigen Abschnitte entlang dem zu messenden Kontinuum geordnet sind.
 Mag. Michael Weber
34
b) Verschiedene mehrkategorielle eindimensionale Modelle
Die verschiedenen Modelle unterscheiden sich lediglich darin, welche Abforderungen sie an
die Schwellen innerhalb eines Items stellen.
- „Partial Credit“ oder „ordinale“ Rasch Modell (Masters 1982):
Die Schwellenabstände innerhalb der Items unterliegen keinerlei Beschränkungen
Dieses Modell ist das allgemeinste der ordinalen Rasch Modelle.
- Rating Scale Model (Andrich, 1978):
hier können die Schwellenabstände innerhalb eine Items zwar unterschiedlich groß sein,
jedoch gelten diese Schwellenabstände für alle Items.
Kategorienzahl muss gleich groß und die Items müssen gleichartig gepolt sein
- Äquidistanzmodell:
hier sind die Schwellenabstände innerhalb eines Items gleich groß, können jedoch bei jedem
Item anders sein
- Dispersionsmodell (Rost 1988):
ist die Kombination aus Rating Scale - und Äquidistanzmodell.
Hier können zwar Schwellendistanzen innerhalb eines Items unterschiedlich sein, die
Schwellendistanzen der Items unterscheiden sich jedoch nur um einen, für alle Schwellen
innerhalb eines Items konstanten, additiven Faktor (z.B alle Schwellen des 2-ten Items sind
um 1 breiter als die Schwellen des 1-ten Items).
Das Dispersionsmodell ist ein Obermodell des Rating Scale und des Äquidistanzmodells.
 Mag. Michael Weber
35
7) Anhang
7.1) Herleitung der Separierbarkeit der Parameter
Verwendet man die zweite Art der Modelldarstellung, so ist die Wahrscheinlichkeit, dass eine
Person Item 1 löst:
p( / v,1) 
1 v
1  1 v
Die Wahrscheinlichkeit das Item nicht zu lösen ist die Gegenwahrscheinlichkeit und daher:
p( / v,1)  1  p( / v,1)  1 
1
 1 v
1   1 v

1   1 v   1 v

 1 v 

1   1 v 1   1 v 1   1 v
1   1 v
1   1 v
Analog natürlich für Items 2.
Betrachten wir nun die Wahrscheinlichkeit, dass eine Person von 2 gegebenen Items
a) das erste Item löst und das zweite nicht löst.

1
p{(1,0) /  1 ,  2 ; v }  ( 1 v )(
)
1   1 v 1   2 v
b) das erste Item nicht löst und das zweite schon

1
p{( 0,1) /  1 ,  2 ; v }  (
)( 2 v )
1   1 v 1   2 v
c) genau 1 Item löst (sprich einen Rohscore von 1 hat)


1
1
p{r  1 /  1 ,  2 ; v }  p{(1,0) /  1 ,  2 ; v }  p{( 0,1) /  1 ,  2 ; v }  ( 1 v )(
)(
)( 2 v )
1   1 v 1   2 v
1   1 v 1   2 v
 Mag. Michael Weber
36
Betrachtet man nun die bedingte Wahrscheinlichkeit:
p{(1,0) /  1 ,  2 ; v }
p{(1,0) /  1 ,  2 ; v ; r  1} 
p{r  1 /  1 ,  2 ; v }
[Anmerkung: das ist die Wahrscheinlichkeit, dass eine Person nur das erste Item löst, wenn man schon weiß, dass
sie genau 1 Item gelöst hat]
und setzt dafür ein, so ergibt das:

1
( 1 v )(
)
1  1 v 1   2 v
p{(1,0) / 1 ,  2 ; v ; r  1} 

1
1

( 1 v )(
)(
)( 2 v )
1  1 v 1   2 v
1  1 v 1   2 v
ausgerechnet ergibt das:
1 v
1 v
(1  1 v )(1   2 v )
1 v
(1  1 v )(1   2 v )

 2 v
(1  1 v )(1   2 v )

(1  1 v )(1   2 v )
1 v   2 v
(1  1 v )(1   2 v )
hier kürzen sich die Nenner des oberen und unteren Bruches weg, sodass sich daraus ergibt:
1 v
1 v
1


1 v   2 v  v (1   2 ) 1   2
das heißt nun:
p{(1,0) /  1 ,  2 ; v ; r  1} 
1
1   2
Man sieht, dass diese bedingte Wahrscheinlichkeit nur mehr von der Schwierigkeit (hier
eigentlich Leichtigkeit) der Items abhängt.
 Mag. Michael Weber
37
7.2) Herleitung:
n10  1

n01  2
Das kann leicht aus der unter Herleitung von 7.1 gefolgert werden. Unter 7.1 wurde
hergeleitet, dass gilt:
p{(1,0) /  1 ,  2 ; v ; r  1} 
1
1   2
Nun ist die relative Häufigkeit der bestmögliche Schätzer für die Wahrscheinlichkeit. Daraus
folgt:
^
p{(1,0) / 1 ,  2 ; v ; r  1}  p{(1,0) / 1 ,  2 ; v ; r  1}
^
[Anmerkung:
p ist der (bestmögliche) Schätzwert der Wahrscheinlichkeit und damit die relative Häufigkeit]
^
p{(1,0) / 1 ,  2 ; v ; r  1} 
n1,0
n1,0  n0,1
und daraus folgt wiederum:
1
1   2

n1,0
n1, 0  n0,1
Somit gilt wiederum:
1 n1, 0

 2 n0,1
 Mag. Michael Weber
38
7.3) Beweis der Existenz der erschöpfenden Statistiken
Betrachten wir zunächst wie im dichotom logistischen Modell von Rasch eine Datenmatrix
aussieht.
Items
1
1
a1,1
2
a1,2
3
.........................
a1,3
k
a1,k
.
Personen
.
av,i
.
n
an,1
an,2
an,k
av,i steht für die Antwort, die die Person v auf das Item i gibt (im dichotomen Fall handelt es
sich dabei um eine 0, z.B. wenn die Person das Item nicht lösen kann, ein bestimmtes
Symptom nicht zeigt oder einer Aussage nicht zustimmt und um eine 1, wenn z.B. die Person
das Item löst, ein bestimmtes Symptom zeigt oder einer Aussage zustimmt).
Betrachtet man weiters die „Likelihood der Daten“, das heißt, schaut man sich an wie
wahrscheinlich es ist genau die Daten zu beobachtet die man beobachtet hat, so gilt:
n
k
L   p (a v ,i /  v ,  i ) .
v 1 i 1
[Anmerkung: Das Summenzeichen () ist aus der Mathematik bekannt. Das Produktzeichen ()wird ähnlich
verwenden abgesehen davon, dass die nachfolgenden Werte nicht summiert sondern
multipliziert werden].
Da vorausgesetzt wurde, dass die Antworten einer Person lokal stochastisch unabhängig sind,
und man ferner annehmen kann, dass alle Personen unabhängig voneinander die Items
bearbeitet haben (d.h. Teamwork und/oder schummeln wird ausgeschlossen) kann die
Wahrscheinlichkeit der gesamten Datenmatrix als Produkt () aller Wahrscheinlichkeiten der
Einzelergebnisse angeschrieben werden.
Je nachdem ob av,i=1 oder av,i =0 muss für p(av,i/vi) entweder
1
e  v  i
oder
 v  i
1  e  v  i
1 e
verwendet werden [siehe 4.2 a) Seite 9].
Die Likelihood der Daten kann daher auch wie folgt angeschrieben werden:
 Mag. Michael Weber
39
ev  i av ,i
1
1 av , i
L   (
)
(
)
 v  i
1  ev  i
v 1 i 1 1  e
n
k
Im folgenden werden wir diese Formel vereinfachen und zwar:
1)
n
 v  i
k
n
 v  i
k
1 av ,i
av , i
e
1
(e
)
(1)
av ,i
1av ,i
L   (
)
(
)

a
1 av ,i 

v ,i
 v  i
 v  i






v
i
v
i
1 e
v 1 i 1 1  e
v 1 i 1 (1  e
) (1  e
)
angewandte Rechenregel:
a
ac
( )c  c
b
b
2)
n
n
k
 
v 1 i 1
 v  i av ,i
n
 v  i
k
 (e
av , i
(e
) (1)
(e
)



a (1a )
v  i 1
(1  ev  i ) v ,i v ,i
(
1

e
)
v 1 i 1
k
v 1 i 1
n
k
v  i
 (1  e
)
av ,i
 v  i

)
v 1 i 1
angewandte Rechenregeln: abac=ab+c und 1a=1
3) Man sieht, dass für den Nenner des Bruches die einzelnen Eintragungen in der
Datenmatrix(av,i) nicht mehr von Nöten sind. Daher wird in weiterer Folge der Nenner
nicht mehr weiter verändert und einfach als N angeschrieben
n

k
 (e
a v ,i [ v  i ]
v 1 i 1
N
n
)

k
 (e
a v ,i v  a v ,i i
v 1 i 1
N
angewandte Rechenregel:
)

(a b ) c  a cb
 Mag. Michael Weber
40
4) auf Grund der schon bei Punkt 2 angewandten Rechenregel abac=ab+c werden aus den
Produktzeichen in den Potenzen Summenzeichen, sodass gilt:
n
k
n
 ( av ,iv av ,i i )

e v 1 i 1
k
n
 av ,iv  av ,i i

N
k
e v 1 i 1
i 1 v 1
N

[Anmerkung: die Reihenfolge der Summenzeichen ist bedeutungslos]
5) Berücksichtigt man nun, dass v für
k

n

und i für
i 1
konstant ist und daher vor diese
v 1
Summe gezogen werden kann, so folgt daraus:
n
k
 
e v1
v
av ,i 
i 1
k
n
 
i
i 1
n

av ,i
v 1
N

 v rv 
e v1
k
  i si
i 1
N
rv steht hier für den Rohscore der Person v (also die Summe der 1 und 0 pro Person über alle
k
Items => rv=
a
i 1
v ,i
) und si für die Anzahl der Personen, die Item i gelöst haben (also die
n
Summe der 1und 0 pro Item über alle Personen => si=
a
v 1
v ,i
).
Daraus folgt:
n
L
e
n

 v rv 
v 1
k
  i si
i 1
k
 v  i
(
1

e
)

v 1 i 1
Man sieht daran, dass für die Likelihood der Daten nicht mehr die einzelnen Reaktionen der
Person auf die Items (av,i) sind, sondern man nur mehr die Randsummen (also die Anzahl der
gelösten Items pro Person) bzw. die Itemlösungshäufigkeiten (also die Anzahl der Personen,
die ein Item lösen können) braucht.
 Mag. Michael Weber
41
7.4) Herleitung, dass im LLRA gilt: Xv=e+
p (  / v, t 2 )
p (  / v, t 2 )
Xv 
p( / v, t1 )
p( / v, t1 )
e v
1  e v
e v
1  e v  ev
1
Anmerkung: p( / v, t1 )  1  p( / v, t1 )  1 




v
v
v
v
1 e
1 e
1 e
1 e
1  e v
Analog gilt :
p (  / v, t 2 )  1  p (  / v, t 2 )  1 
e v  
1

 v  
1 e
1  e v  
a
b
Nun lösen wir zuerst den Doppelbruch nach der Form:  ad ......
c bc
d
p (  / v, t 2 )
p (  / v, t 2 )
p ( / v, t 2 ) p ( / v, t1 )
Xv 

p ( / v, t1 )
p ( / v, t 2 ) p ( / v, t1 )
p ( / v, t1 )
......und setzen ein:
e v  
e v  
1
(
)(
)
p ( / v, t 2 ) p ( / v, t1 ) 1  e v   1  e v
(1  e v   )(1  e v )


p ( / v, t 2 ) p ( / v, t1 )
1
e v
e v
(
)(
)
1  e v   1  e v
(1  e v   )(1  e v )
Auch diesen Doppelbruch lösen wir nun nach der obigen Formel auf und kürzen im
Anschluss:
e v  
   
  

(1  e v   )(1  e v ) (e v )(1  e v )(1  e v )


v
 v  
v
v
e
(1  e
)(1  e )(e )
(1  e v   )(1  e v )
(e v   ) e v e   
 v  v  e
(e )
e
 Mag. Michael Weber
42
8) Literatur
Fischer, G.H. (1974): Einführung in die Theorie psychologischer Tests. Bern: Huber.
Fischer, G.H. (1988): Spezifische Objektivität. In. K.D. Kubinger (Hrsg.), Moderne
Testtheorie (pp.87-111). Weinheim: Beltz.
Fischer, G.H. & Molenaar, I.W.(1995).Rasch models – Foundations,recent developements,
and applications. New York: Springer.
Kubinger, K.D (1988): Moderne Testtheorie. Weinheim: Beltz.
Rost, J. (1996): Testtheorie, Testkonstruktion. Bern: Huber.
 Mag. Michael Weber
Herunterladen