1 Einführung in die Item Response Modelle 1) Aufgaben der Testtheorie Wir leben in einer Zeit, in der versucht wird alles in Zahlen zu fassen. Egal, ob es sich um unsere Körpergröße, unser Gewicht, die Schuhgröße, die Zahl der Kinder, das Einkommen oder unsere Intelligenz handelt. Für alles suchen wir eine Zahl anhand der wir uns mit den anderen vergleichen. In vielen Bereichen ist das Vergeben dieser Zahlen relativ leicht. In anderen Bereichen, und gerade in der Psychologie, ist es nicht so leicht, die interessierenden Größen (wie Intelligenz, Ängstlichkeit, Selbstvertrauen, usw..) auch in Zahlen zu fassen. Zu diesem Zweck bedarf es der geeigneten Messinstrumente. Derartige Messinstrumente nennen sich ganz allgemein Tests. Natürlich müssen diese Messinstrumente einigen Ansprüchen genügen. Wie diese Ansprüche aussehen und inwiefern man überprüfen kann, ob ein Test diesen Ansprüchen genügt, ist Inhalt und Aufgabenbereich der Testtheorie. 1.1 Forderungen, die an Tests gestellt werden (= klassische Testgütekriterien) a) Objektivität: Die Zahl, die als Messergebnis herauskommt, darf nicht vom Beurteiler oder von der Art der Testvorgabe abhängen. Das bedeutet, unterschiedliche Beurteiler sollen zum selben Testergebnis kommen. Diesem Anspruch kann man nur gerecht werden, wenn die Testverfahren klare Regeln haben, wie sie auszuwerten bzw. durchzuführen sind (Durchführungs-, Auswertungs- und Interpretationsobjektivität) Mag. Michael Weber 2 b) Reliabilität: Hier geht es um die Genauigkeit mit der ein Test etwas misst, wobei es (für die Reliabilität) prinzipiell egal ist, ob er auch das misst was er zu messen vorgibt. Es geht also darum, ob ein Test, wenn er mehrere Male an ein und derselben Person angewandt wird, auch tatsächlich zum selben Ergebnis kommt. Man denke dabei an eine Waage. Stellt man sich mehrere Male hintereinander auf ein und dieselbe Waage, und sie zeigt jedes mal dasselbe Gewicht an, so kann man dem Ergebnis dieser Messung trauen (d.h. die Waage ist reliabel). Ob diese Waage unser tatsächliches Gewicht, oder konsequent 10kg zuviel oder zu wenig anzeigt ist nicht überprüfbar. Dass ein reliables Verfahren nicht unbedingt das messen muss, was es zu messen vorgibt, sei an einem weiteren Beispiel erklärt: Nehmen wir an, wir bitten jemanden seinen Kopfumfang abzumessen und geben dieser Person ein Maßband. Misst diese Person jetzt an der falschen Stelle (z.B: den Bauchumfang) so ist das Ergebnis zwar reliabel, da bei mehrmaliger Messung an dieser Stelle immer dasselbe herauskommt, das Richtige hat die Person jedoch nicht gemessen. Eine wesentliche Voraussetzung für die Bestimmung der Reliabilität ist es natürlich, dass die gemessenen Eigenschaften (zumindest eine gewisse Zeit) stabil sind. Die Reliabilität ist also die Korrelation der zwei Zeitpunkten erhobenen Ergebnisse eines Tests. c) Validität Bei der Validität geht es darum, ob ein Test auch tatsächlich das misst, was er zu messen vorgibt bzw. wofür die erzielten Ergebnisse zu gebrauchen sind. Wenn wir bei unserem Beispiel des Kopfumfangs bleiben, so müsste ein Hut, den wir der Person auf Grund des von ihr gemessenen Werts kaufen, auch wirklich passen. Wichtig hierbei ist, dass die Kopfgröße wichtig für den Kauf des Huts ist. Hätten wir versucht der Person anhand der Kopfgröße die richtigen Schuhe zu kaufen, wären wir ziemlich sicher gescheitert. Die Validität ist die Korrelation des Messergebnisses mit einem Außenkriterium . Mag. Michael Weber 3 2) Vergleich klassische und moderne Testtheorie Mit all diesen Anforderungen an einen Test setzt sich die klassische Testtheorie intensiv auseinander. Doch das ist nicht genug, da die klassische Testtheorie die Frage, wie ein Messwert entsteht bzw. wie gut dieser Messwert ist, unberücksichtigt lässt. Betrachten wir einmal, wie in der klassischen Testtheorie ein Messwert zustande kommt. Den Testpersonen wird ein Test mit einer fixen Länge vorgelegt. Nachdem die Person den Test bearbeitet hat, wird geschaut, welche Items sie wie beantwortet hat und dementsprechend eine gewisse Punktezahl für die Items vergeben. Im Anschluss werden die erzielten Punkte zusammengezählt und ergeben somit den Messwert der Person. Leider ist ein Messwert alleine nicht genug um etwas über die Person auszusagen. Man benötigt eine Vergleichsstichprobe mit der das Ergebnis in Beziehung gesetzt wird. Verwendet man nun zwei unterschiedliche Vergleichsgruppen kann ein und dasselbe Ergebnis zu gänzlich verschiedenen Interpretationen führen. Wir erhalten zwei, eventuell völlig verschiedenen Ergebnisse für ein und dieselbe Person. Hiezu wieder ein kleines Beispiel: nehmen wir eine durchschnittlich große Person. Wenn wir versuchen nach dem Modell der klassischen Testtheorie etwas über ihre Größe auszusagen, und befindet sich unsere Person in mitten von Kindern, so werden wir als Ergebnis erhalten, dass diese Person sehr groß ist. Befindet sich unsere Person jedoch in Mitten einer Gruppe von Basketballspielern (die bekanntlich ja sehr groß sind), so wird das Ergebnis für unsere Person sein, dass sie klein ist. Sinnvoll wäre es einen Messwert zu erhalten, der unabhängig von den anderen untersuchten Personen ist (in diesem Fall einfach die Körpergröße in cm, da diese invariant ist, egal, wer sonst noch getestet wurde) Genau das aber ist der Ansatzpunkt der modernen (probabilistischen) Testtheorie. Zum Ersten geht es nun darum herauszufinden, wie viele Punkte ein Item bringt, zum Zweiten um den Versuch pro Person Testergebnisse zu bekommen, die unabhängig davon sind welche Personen sonst noch getestet wurden (wird „spezifische Objektivität“ genannt). Es geht sogar soweit, dass man Personen miteinander vergleichen kann, selbst wenn sie unterschiedliche Tests bearbeitet haben. Dies bedeutet aber auch, dass eine Person, wenn man sie zweimal testet, die selben Ergebnisse erzielen wird (mit Ausnahme von Zufallsschwankungen natürlich und unter der Mag. Michael Weber 4 Voraussetzung natürlich, dass das gemessene Merkmal stabil ist), womit in der modernen Testtheorie auch das Reliabilitätsproblem gelöst ist. Die Frage wofür das Testergebnis verwendet werden kann (also der Problemkreis rund um die Validität eines Tests) lässt sich damit nicht beantworten und kann auch weiterhin u.a. mittels Korrelationen beantwortet werden. Mag. Michael Weber 5 3) Grundannahmen der Latent Trait Modelle a) wie schon erwähnt setzen die Latent Trait Modelle nicht beim Testergebnis, sondern bei den einzelnen Items an. Jede Antwort einer Person hängt von den folgenden 3 Komponenten ab: der zu messenden „Eigenschaft“ der Person (quantitativ ausgedrückt durch den Personenparameter) der „Eigenschaft“ des Items (quantitativ ausgedrückt durch den Itemparameter) Zufall (alle nicht kontrollierbaren Einflüsse) Auch wenn im folgenden, in Anlehnung an Leistungstests, die einen Großteil der bis jetzt nach den Latent Trait Modellen erzeugten Tests ausmachen, die Eigenschaften der Person als „Personenfähigkeiten“ und die Eigenschaften der Items als „Itemschwierigkeiten“ bezeichnet werden, soll nicht der Eindruck entstehen, die Latent Trait Modelle wären lediglich für die Erstellung von Leistungstests geeignet. Denkbar wäre es genauso, im Zuge der Messung von „Einstellungen“, die Itemparameter so zu interpretieren, dass sie die verschiedenen Grade der „Herausforderung“ ein bestimmtes Verhalten zu zeigen sind. b) Es wird angenommen, dass alle Items (Aufgaben) eines Test lediglich eine einzige latente (d.h. nicht direkt beobachtbare bzw. messbare) Dimension erfassen. Dies bedeutet, dass für die Beantwortung (bei Leistungstests: für das Lösen) eines Items lediglich eine Dimension (bei Leistungstests: eine Fähigkeit) verantwortlich ist. c) Es gibt einen systematischen Zusammenhang zwischen der latenten Dimension und der manifesten Variable d.h. dass die Wahrscheinlichkeit ein Item zu „lösen“ sowohl von der Itemschwierigkeit, als auch der Personenfähigkeit abhängt. Dieser systematische Zusammenhang wird durch die Itemcharakteristik Kurve (IC- Kurve) graphisch dargestellt. Es werden zwei Typen von IC Kurven unterschieden monotone IC Kurven nicht monotone IC Kurven Mag. Michael Weber 6 Eine monotone IC Kurve besagt, dass die Wahrscheinlichkeit ein fixes Item zu lösen mit wachsender Fähigkeit der Person entweder nur steigt oder nur fällt . Bsp: monotone IC Kurven: nicht monotone IC Kurven: d) Die Items sind voneinander „lokal stochastisch unabhängig“: Das bedeutet (rein formal), dass der Zusammenhang zwischen den Items lediglich darin besteht, dass ihre Lösungswahrscheinlichkeit von derselben latenten Dimension abhängig ist. Für die Praxis bedeutet das für zwei Items, dass die Reihenfolge in der die Items vorgegeben werden, egal sein muss. Mag. Michael Weber 7 Dies sei an zwei Beispielen illustriert: A) Nehmen wir an wir hätten folgende zwei Items: 1) Bestimmen sie den Schnittpunkt der beiden Geraden g: x+y=2 und h:x-y=0 2) Der Schnittpunkt der Geraden g und h ist der Mittelpunkt eines Kreises mit dem Radius r=3. Bestimmen Sie die Kreisgleichung. Diese beiden Items verstoßen gegen die „lokal stochastische Unabhängigkeit“. Eine Person, die die beiden Geraden nicht miteinander schneiden kann, kann auch die Kreisgleichung nicht erstellen. Es gibt also eine feste Reihenfolge in der die Items bearbeitet werden müssen (man muss zuerst die Geraden schneiden um auf den Schnittpunkt zu kommen und kann erst dann mit diesem Schnittpunkt die Kreisgleichung aufstellen). B) Zwei weitere Items könnten lauten: 1) Besitzen sie einen Swimmingpool? 2) Besitzen sie einen Porsche? Diese Items sind lokal stochastisch unabhängig. Der sicherlich beobachtbare Zusammenhang, dass Personen eher beides besitzen oder beides nicht besitzen, ist auf eine zu Grunde liegende Dimension (hier wohl den finanziellen Wohlstand) zurück zuführen. Innerhalb von Personengruppen gleichen Einkommens wird der Zusammenhang verschwinden. Mag. Michael Weber 8 4) Das dichotom logistische Modell von Rasch Der Begriff „dichotom“ kommt daher, dass Rasch sein Modell ursprünglich lediglich für dichotome (d.h. zweikategorielle Items) hergeleitet hat. Logistisch heißt das Modell deshalb, weil die weiter unten angeführte Modellgleichung des Raschmodells eine logistische Funktion der Form : ex 1 e x ist. Wir halten noch einmal fest: Jede Person, ist durch einen Personenparameter charakterisiert. Dieser Personenparameter ist eine reelle Zahl, die die Position der Person auf der latenten Dimension beschreibt. Aufgabe eines Tests ist es jetzt eine möglichst gute Schätzung dieses Parameters zu liefern. Weiters sei auch nochmals Raschs Forderung nach der spezifischen Objektivität erwähnt: Einerseits soll der Vergleich zweier Personen unabhängig davon sein, welche und wie viele Items verwendet werden, andererseits soll der Vergleich zweier Items unabhängig davon sein, welche Personen die Items bearbeitet haben und welche Items sonst noch vorgelegt wurden. Auch forderte Rasch die „erschöpfende Statistiken“, was bedeutet, dass die Zahl der gelösten Items die gesamte Information über eine Person beinhaltet. Somit bringt jedes gelöste Item, egal wie schwer es ist, einen Punkt und die Frage nach eventuellen unterschiedlichen Punktagen (=unterschiedlich viele Punkte) für unterschiedlich schwere Items erübrigt sich. Es lässt sich nun zeigen, dass aus jeder der beiden Forderungen mathematisch zwingend das Raschmodell (genauer gesagt eine „Familie von Raschmodellen“) folgt [eine genaue Herleitung siehe: Fischer, Molenaar (Hrsg.),1995: „Rasch Models“] . Für die Praxis wiederum bedeutet das, dass die Items eines Tests, bei dem der ungewichtete Rohscore (also die Summe der gelösten Items) ein „fairer“ Messwert für eine Person sein soll, den Forderungen des Raschmodell gerecht werden müssen (d.h.: der Test muss/müsste raschhomogen sein). Mag. Michael Weber 9 4.1 Arten der Modellgleichung des Raschmodells: p(+/ v,i)= Wahrscheinlichkeit, dass die v-te Person das i-te Item löst. a) erste Art der Modelldarstellung e v i p( / v, i ) 1 e v i [ (sprich: Ksi); (sprich: Sigma)] durch nachfolgende Umformung ergibt sich die zweite Modelldarstellung ev i ev e i p ( / v, i ) v i 1 e 1 ev e i und e v v sowie e i i b) zweite Art der Modelldarstellung p ( / v, i ) v i 1 v i [ (sprich: Deta); (sprich: Epsilon)] 4.2 „Erkenntnisse“ anhand der Modellgleichungen: a) Interpretation der Parameter: Personenparameter: v bzw. v (je nachdem welche der beiden Modelldarstellungen man verwendet) sind die Personenfähigkeiten: wie leicht nachzurechen, wird die Lösungswahrscheinlichkeit eines fixen Items höher, je größer v bzw. v . Mag. Michael Weber 10 Itemparameter: bei den Itemparametern ist das Ganze schon etwas komplizierter. Während es sich bei i (erste Modelldarstellung) um die Schwierigkeit des Items handelt (Lösungswahrscheinlichkeit wird umso geringer, je größer i wird) handelt es sich bei i (zweite Modelldarstellung) um die Itemleichtigkeit (ist daran zu erkennen, dass i e i ). b) Die Lösungswahrscheinlichkeit eines Items beträgt genau dann 0.5, wenn das Item genauso schwer wie die Person fähig. Bei der Personenfähigkeit ist also nicht die maximale Leistungsfähigkeit der Person gemeint, sondern jene Leistung an, die man sich im Durchschnitt von dieser Person erwarten kann. Man sieht daran auch, dass ein Item genau dann die meiste Information über eine Person liefert, wenn es genauso schwer ist wie die Person fähig. Das kann man sich am leichtesten dadurch veranschaulichen, dass z.B. ein Fußballspiel dann am interessantesten ist, wenn zwei gleichstarke Mannschaften gegeneinander spielen. Derartige Fußballspiele werden von sehr viel mehr Leuten gesehen, als wenn eine Mannschaft eindeutig unterlegen ist (hier kann man der überlegenen Mannschaft lediglich beim fast sicheren Gewinn des Spiels zusehen und das ist ja nicht so spannend [informativ]). Die durch die Modellgleichung beschriebene IC Kurve ist eine monoton wachsende Kurve. Betrachtet man mehrere IC Kurven, so müssen sie auf Grund der Forderung nach „spezifischer Objektivität“ parallel zueinander sein. Erklärung: Spezifische Objektivität bedeutet ja, dass ein Item dieselbe Schwierigkeit haben muss, egal welcher Stichprobe es vorgelegt wird. Das bedeutet aber wiederum, dass das Schwierigkeitsverhältnis zweier Items gleich bleiben muss. Wären nun zwei IC Kurven nicht parallel, so würden sie einander schneiden. Das hieße aber, dass für einen Teil der Personen Item 1 leichter als Item 2 und für einen anderen Teil Item 2 leichter als Item 1. Das widerspricht der Forderung nach spezifischer Objektivität (siehe auch nachfolgende Skizze): : Item1 : Item2 Mag. Michael Weber 11 ( ANMNERKUNG: hier ist keine spez. Objektivität der Items gegeben) 4.3 Parameterschätzung: Ein wesentlicher Schritt ist nun Schätzungen für die unbekannten Parameter angeben zu können. Hierfür gibt es mehrer Möglichkeiten (um den Rahmen nicht zu sprengen wird einerseits eine Methode dargestellt, die man, sofern die Voraussetzungen erfüllt sind, selbst mit Hilfe eines Taschenrechners berechnen kann, andererseits die in der Praxis am häufigsten zur Anwendung kommenden Schätzmethoden) : a) explizite Parameterschätzung Um den Einstieg zu erleichtern wird die Methode erst anhand zweier Items vorgestellt und anschließend auf k-Items erweitert. Beginnen wir zunächst einmal mit einem sehr einfachen Fall: Nehmen wir an wir haben einen Test der lediglich aus zwei Items besteht. Die möglichen Ergebnisse dieser 2 Items kann man in einer Vierfeldertafel darstellen. Item2 gelöst gelöst n11 nicht gelöst n01 nicht gelöst n10 Item 1 n00 n11: ist die Anzahl jener Personen, die sowohl Item 1 als auch Item 2 gelöst haben n01: ist die Anzahl jener Personen, die Item 1 nicht aber Item 2 schon gelöst haben Wie leicht zu erkennen ist, hängen n11 und n00 stark von der getesteten Stichprobe ab. Hat man eine Stichprobe mit sehr guten Personen, so wird n11 groß sein (da viele Personen beide Aufgaben lösen), hat man eine Stichprobe mit eher schwachen Personen, so wird n00 groß werden (da viele Personen keines der beiden Items lösen können). Unabhängig von der Stichprobenzusammensetzung ist jedoch das Verhältnis n10 . n 01 Mag. Michael Weber 12 Dieses Verhältnis spiegelt das Schwierigkeitsverhältnis der Items wieder. Genaugenommen handelt es sich dabei vielmehr um das Leichtigkeitsverhältnis der Items, da ja ein Item umso leichter ist desto mehr Personen es lösen können. Aus dieser Überlegung folgt auch die nachfolgende „Formel“ (ein genauer Beweis findet sich im Anhang) n10 1 n01 2 [1 und 2 stehen für die Leichtigkeit der Item 1 und 2]. Bemerkung: In der klassischen Testtheorie ist die Schwierigkeit eines Items durch die Lösungswahrscheinlichkeit des Items definiert. In der klassischen Testtheorie wäre die Schwierigkeit des 1-tem Items also: Anzahl der Personen die das Item 1 lösen Anzahl aller Personen oder n10 n11 . n10 n11 n01 n00 Daran sieht man, dass die Itemschwierigkeit der klassischen Testtheorie stichprobenabhängig ist, da die stichprobenabhängigen Werte n11 und n00 darin vorkommen. Um den Itemleichtigkeiten jetzt Zahlen zuzuordnen muss man die beiden Zahlen so wählen, dass das Verhältnis der passt. Nehmen wir an, „nur“ Item 1 würde von doppelt so vielen Personen gelöst werden wie „nur“ Item 2. n10 36 2 1 n01 18 1 2 Um die Parameter für unsere Items zu vergeben, könnten wir sagen 1=2 und 2=1, oder aber wir könnten 1=26 und 2=13 setzen. Mag. Michael Weber 13 Das Problem dabei ist leicht zu erkennen. Jeder Auswerter könnte den Epsilons unterschiedliche Wert zuordnen, wodurch der Vergleich kompliziert würde. Um das zu vermeiden, hat man sich auf mögliche Zusatzbedingungen geeinigt. Diese Zusatzbedingungen nennt man Normierungen. Die verbreitetste Normierung ist die Produktnormierung Die hierbei geforderte Zusatzbedingung ist, dass das Produkt der Epsilons 1 sein muss k ( i 1 ). i 1 Wenn wir bei unsrem Beispiel bleiben, gilt es also für 1 und 2 Zahlen zu finden, sodass 1: 2 = 2 und 1* 2 = 1. Die resultierenden Epsilons 1= 2 und 2= 2 1 sind eindeutig (d.h: es gibt keine anderen 2 Zahlen, die diese beiden Bedingungen gleichzeitig erfüllen) Liegen mehr als zwei Items vor, so kann für jedes Itempaar eine Vierfeldertafel ausgezählt werden. Da aber nur die Nebendiagonale (n10 und n01) von Bedeutung ist werden diese für alle Itempaare in eine Matrix zusammengefasst. nicht gelöst 1 2 3 g 1 -- n12 n13 e 2 n21 -- n23 3 n31 n32 -- l ö s t . k ...... k n1k -nk1 -- Bemerkung: n23 ist die Anzahl jener Personen, die das 2-te Item gelöst, das 3-te Item jedoch nicht gelöst haben. Allgemein schreibt man nij für die Anzahl der Personen die das i-te Item gelöst und das j-te Item nicht gelöst haben. In der Hauptdiagonale des Matrix befinden sich keine Eintragungen, da es keine Personen gibt die ein Item gleichzeitig lösen und nicht lösen. Mag. Michael Weber 14 Wie oben bereits gezeigt gilt für 2 Items: nij n ji i . j In dem man dieses Ergebnis auf die Matrix anwendet ergeben sich folgende Schätzgleichungen für die unbekannten Parameter 1, 2, 3, ......, k. nij k n j 1 j i ji i ik 1 k j 1 j j i j k j 1 j i Multipliziert man nun diesen Ausdruck mit i 1 , also mit etwas das 1 ergibt, so ändert das i ja das Produkt nicht. Es ergibt sich aber weiters: ik 1 i ik k j i j j j 1 j 1 j i Wenn wir nun davon ausgehen, dass die Epislons produktnormiert sind, so ist der Ausdruck k j 1 k j ja nichts anderes als das Produkt aller Epsilons und somit ist j 1 j = 1, woraus sich weiters ergibt ik ik k j 1 j Mag. Michael Weber 15 Zusammengefasst bedeutet das nun: nij k n j 1 j i ik ji Übersetzt ins Deutsche heißt das nun: Bildet man zuerst das Produkt jener Kästchen der Matrix, in der das Item i-gelöst wurde und dividiert man das durch das Produkt der Kästchen der Matrix bei den Item i nicht gelöst würde, so erhält man die Leichtigkeit des Items i hoch k. Um auf die Leichtigkeit des Items i zu kommen braucht man daraus jetzt nur noch die k-te Wurzel ziehen. Formal sieht das jetzt so aus: k k nij n j 1 j i i ji Dieses Verfahren kann natürlich nur angewandt werden wenn alle nij größer als 0 sind. Das angenehme an dieser Berechnung ist, dass die resultierenden i schon produktnormiert sind. b) Maximium Likelihood Schätzungen Bevor wir näher auf diese Art Parameterschätzung eingehen können, soll im Vorfeld noch der Begriff, der Likelihood der Daten geklärt werden. Unter der Likelihood der Daten versteht man die Wahrscheinlichkeit genau jene Daten zu beobachten, die man beobachtet hat (hat man unterschiedliche Modellannahmen, so können die Wahrscheinlichkeiten für einen bestimmten Datensatz je nach zu Grunde liegendem Modell natürlich variieren). Auch hierzu ein Beispiel: Nehmen wir an, wir machen die Beobachtung, dass eine Person beim „Mensch Ärgere Dich Nicht“ 3 mal hintereinander einen 6er würfelt. Die Likelihood der Daten (also die Wahrscheinlichkeit, dass man 3 mal hintereinander einen 6er würfelt) beträgt, einen fairen Würfel einmal vorausgesetzt (dies ist das von uns zugrunde gelegte Modell) Mag. Michael Weber 16 1 6 3 0,0046296 Würde man ein anderes Modell zu Grunde legen z.B annehmen, dass der Würfel gezinkt wurde und die Wahrscheinlichkeit einen 6er zu würfeln ½ beträgt, würde die Likelihood der Daten natürlich anders aussehen, nämlich 1 2 3 0,125. Die Schätzung der Parameter des Raschmodells erfolgt mittels der Maximum Likelihood Methode. Bei der Maximum Likelihood Methode geht es darum, die unbekannten Parameter so festzusetzen, dass die Wahrscheinlichkeit für die beobachteten Daten maximal (d.h. möglichst groß) wird. Auch hiezu ein Beispiel: Stellen wir uns vor, wir wären blind und strecken die Hand aus dem Fenster. Nehmen wir weiters an, wir machen die Beobachtung, dass die Hand nass wird. Jetzt überlegen wir, was die Ursache (=Parameter) dafür sein kann. Nun, es könnte regnen oder jemand über uns gießt Blumen oder ein Vogel hat mir in die Hand gemacht oder aber der Mann, der in der Wohnung über uns wohnt pinkelt aus dem Fenster (der Kreativität für mögliche Ursachen ist hier keine Grenze gesetzt) . Dem Maximum Likelihood Prinzip folgend überlegen wir uns nun, welche der möglichen Ursachen wir annehmen, damit das, was wir beobachtet haben (nasse Hand) größt mögliche Wahrscheinlichkeit hat. Nach einiger Überlegung wird man wohl zum Schluss kommen, dass Regen die plausibelste der Varianten war. Daher sagt man, wenn man die Hand aus dem Fenster hält und sie nass wird: es regnet. Und noch ein Beispiel aus der Praxis: wenn wir ein Tier mit Fell sehen, das mit dem Schwanz wedelt und uns mit nasser Zunge über die Nase leckt, nehmen wir an, dass es ein Hund ist. Wäre es nämlich kein Hund, wären die beobachteten Ereignisse nicht so wahrscheinlich. Mag. Michael Weber 17 Weiters stellt sich nun die Frage, wie es mathematisch zu bewerkstelligen ist, dass man unbekannte Parameter so festlegt, dass das Ergebnis maximal wird. In diesem Zusammenhang möchte ich, da es für das prinzipielle Verständnis nicht von großer Bedeutung ist, die Bestimmung von Extremwerten sowie Extremwertaufgaben nur ganz kurz in Erinnerung rufen. Hat man eine Funktion z.B. f(x)= -x2 -2x + 1, so kann man jenes x bestimmen, dass das Ergebnis möglichst groß wird, indem man die erste Ableitung bildet und diese 0 setzt. Zur Berechnung der unbekannten Parameter werden analoge Vorgehensweisen herangezogen. Weiter oben haben wir schon die Grundgleichung des Rasch Modells kennengelernt. Verwendet man nun die erste Modelldarstellung, so sind v (für jede Person) und i (für jedes Item) die zu schätzenden Parameter. Heutzutage gibt es drei verschiedene Varianten der Maximum Likelihood Schätzung, die sich darin unterscheiden welche Wahrscheinlichkeiten maximiert werden. a) Joint Maximum Likelihood Methode (Unbedingte Maximum Likelihood Methode) Hier wird, wie in unserem Würfelbeispiel zur Likelihood, die Likelihood der Gesamtdaten maximiert. Dadurch werden Personen und Itemparameter gleichzeitig geschätzt. Der extreme Nachteil dieser Methode ist, dass es sehr häufig vorkommt, dass keine eindeutigen Ergebnisse für die Parameter bestimmbar sind. Die Parameter sind erst dann konsistent, wenn sowohl die Zahl der Personen, als auch die Zahl der Items gegen unendlich geht. (zur Erinnerung: Konsistent heißt, dass der Schätzwert bei wachsender Zahl von Beobachtungen immer genauer wird). Auf Grund dieser doch gravierenden methodischen Nachteile wird diese Art der Schätzung der Parameter auch nur äußerst selten verwendet. Mag. Michael Weber 18 b) Conditional Maximum Likelihood Methode (bedingte Maximum Likelihood Methode) Bei der conditional (bedingten) Maximum Likelihood Methode, wird die Wahrscheinlichkeit der Daten unter der Voraussetzung ,dass man die Verteilung der Rohscores kennt, maximiert. Die conditional (bedingte) Maximum Likelihood Methode, ist die verbreitetste der Schätzmethoden, da sie einen sehr wichtigen Vorteil des Rasch Modells nutzt, nämlich die Separierbarkeit der Parameter. Mit Hilfe dieser bedingten Wahrscheinlichkeiten lassen sich Itemparameter unabhängig von den Personenparametern schätzen (dies war ja auch eine der Forderungen von Rasch. siehe: spezifische Objektivität). Eine Herleitung der Separierbarkeit der Parameter mit Hilfe der bedingten Wahrscheinlichkeiten befindet sich im Anhang. Die mit dieser Methode berechneten Parameter sind konsistent und eindeutig. In der Praxis werden zuerst die Itemparameter geschätzt und erst im Anschluss die Personenparameter. Jedoch haben auch die hiermit berechneten Personenparameter einige Nachteile: Einerseits lassen sich für Personen die keines oder alle Items gelöst haben keine Personenparameter bestimmen (dasselbe gilt natürlich für die Itemparameter von Items, die von allen oder von keiner Person gelöst wurden) andererseits werden die Personenparameter zu extrem geschätzt, d.h. die kleinen zu klein und die großen zu groß. Um diesem Problem zu entgehen gibt es noch eine dritte Art der Parameterschätzung c) Marginal Maximum Likelihood Methode Diese baut auf einer Annahme über die Verteilung der Parameter auf. So kann z.B. angenommen werden, dass die Parameter normalverteilt sind. Genau, das ist aber auch der Nachteil dieses Ansatzes. Es muss irgendeine Annahme über die Verteilung der Parameter, die man maximieren will, getroffen werden. Passt die a priori festgelegte Verteilung nicht, so sind die resultierenden Parameter nutzlos. Mag. Michael Weber 19 4.5 Modelltests: Im Gegensatz zur klassischen Testtheorie, die auf einer Reihe von Axiomen (nicht überprüfbare, und daher auch nicht widerlegbare Annahmen) beruht, können die Annahmen die im Rasch Modell getroffen werden pro Item auf Gültigkeit überprüft werden. Es gibt eine Vielzahl von unterschiedlichen Modellkontrollen. Sie teilen sich grob in eine Gruppe von Tests, die die beobachteten Häufigkeiten mit den im Rasch Modell erwarteten Häufigkeiten von Antwortmustern oder Itemlösungen vergleichen. Eine weitere Modelltestgruppe ist stärker „itemorientiert“. Die letzte Art der Modelltestung bezieht sich auf den Vergleich mehrerer Modelle. Derartige Tests fallen in die Gruppe der Likelihood-Ratio-Tests. Um den Rahmen nicht zu sprengen wird hier nur die Idee der itemorientierten Modelltests, sowie die Idee und häufigste der Likelihood Ratio Modelltests besprochen. a) Item orientierte Modelltests: Wie weiter oben bereits erklärt muss die Schwierigkeit eines Items gleich bleiben, egal anhand welcher Stichprobe die Itemschwierigkeit bestimmt wird. Es reicht daher aus einfach zwei Gruppen zu bilden und innerhalb der beiden Gruppen, die Itemparameter zuschätzen. Items, deren Schwierigkeiten nicht gleich bleiben entsprechen nicht dem Modell von Rasch und müssen daher aus dem Test entfernt werden. Eine Methode dies zu bewerkstelligen ist die „Graphische Modellkontrolle“. Hierfür wird die Stichprobe in zwei Teile geteilt und für jede der Teilstichproben werden die Itemschwierigkeiten extra bestimmt. Somit bekommt man pro Item zwei Schätzungen der Itemschwierigkeit. Diese beiden Schätzungen werden als Koordinaten verwendet. Dadurch ist jedes Item durch einen Punkt im Koordinatensystem bestimmt. Vorausgesetzt, dass das Raschmodell gilt, müssten die beiden Schätzungen der Itemschwierigkeiten gleich groß sein (zumindest in etwa gleich groß sein). Das wiederum bedeutet aber, dass die x und y Koordinaten des Items in etwa gleich sein müssten und somit das Item auf oder zumindest nahe an der 45°-Geraden liegen müsste [zur Erinnerung: die 45° Gerade Mag. Michael Weber 20 ist jene Gerade, die durch Punkte gebildet wird, deren x-Koordinate gleich der y- Koordinate ist, also z.B. Punkte wie (1/1), oder (3,5 / 3,5) ]. Items die weit von der 45° Geraden entfernt liegen, sind somit nicht raschhomogen (siehe dazu auch nachfolgende Abbildung) 2-te Schätzung 1-te Schätzung [ = Items ] Es stellt sich nu die berechtigte Frage, wann ein Punkt (und damit ein Item) weit bzw. zu weit von der 45° Geraden entfernt liegt um als raschhomogen angesehen zu werden. Dafür gibt es leider keine Regel. Die graphische Modellkontrolle kann somit nur einen ersten Eindruck von den Items vermitteln. Dies ist vom methodischen Standpunkt natürlich sehr unbefriedigend. Es gilt daher ein Testverfahren zu entwickeln, das (ähnlich dem t-Test für den Vergleich zweier Mittelwerte) untersucht, ob zwei Schätzungen für einen Itemparameter sich signifikant unterscheiden. Hiezu bedarf es einer vorbereitender Überlegungen: Idee der Information: Wie bereits weiter oben besprochen, ist die Information, die ein Item über eine Person (bzw. eine Person über ein Item) liefert, dann am größten, wenn das Item genauso schwer ist, wie die Person fähig. Bleiben wir nun nur beim Item. Je mehr Personen nun ein Item bearbeiten und/oder je ähnlicher die Personenparameter dem Itemparameter, desto größer ist die Information, die man über ein Item erhält. Je größer jedoch die Information ist, desto genauer kann man den Mag. Michael Weber 21 Itemparameter festlegen (desto ähnlicher ist der Schätzwert dem wahren Wert des Itemparameters). In der Terminologie der Statistik bedeutet das, je größer die Information desto kleiner ist die Varianz (salopp gesagt: die Ungenauigkeit) des Itemparameters. Kennt man pro Item den Schätzwert für den Itemparameter und dessen Varianz in jeder der beiden Teilstichproben, kann daraus ein, dem t-Test entsprechender, statistischer Test zur Überprüfung der Gleichheit zweier Itemparameter gemacht werden. Aus diesen Testgrößen, die pro Item bestimmt werden, kann nun eine Testgröße für den Gesamttest berechnet werden. In der Praxis ist es nun so, dass zuerst überprüft wird, ob der Gesamttest dem Modell von Rasch entspricht. Ist dies nicht der Fall, so wird jenes Item aus dem Test entfernt, bei dem der Unterschied der Itemparameter in den beiden Stichproben am deutlichsten war. Danach beginnt das Ganze wieder von vorne. b) Likelihood Ratio Tests (Likelihoodquotiententests): Ausgangspunkt der Likelihoodquotiententests ist, der Vergleich zweier Likelihoods von Daten bei verschiedenen Modellen. Wie weiter oben bereits beschrieben, führen unterschiedliche Modelle zu unterschiedlichen „Datenauftrittwahrscheinlichkeiten“. Der Likelihoodquotient ist nun nichts anderes als das Verhältnis der Datenauftrittswahrscheinlichkeiten. LQ L L 0 . 1 Bezüglich der beiden Likelihoods im Zähler und im Nenner müssen folgende drei Bedingungen erfüllt sein: a) das Modell „0“, das die Likelihood L0 liefert muss ein Obermodell des Modells „1“ sein, das die Likelihood L1 liefert. Das bedeutet, dass das Modell „0“ aus Einschränkungen des Modells „1“ hervorgeht. Mag. Michael Weber 22 b) Das restriktiverer Modell (Modell „1“) darf nicht durch 0 setzen von Parametern entstehen. c) Die Modellgeltung des allgemeineren Modells (Modell „0“) muss bereits nachgewiesen sein. d) Die erwarteten Häufigkeiten der Antwortvektoren müssen mindestens 1 sein. Sind diese Bedingungen erfüllt, so ist -2 log(LQ) eine 2- verteilte Größe. Die Zahl der Freiheitsgrade ist die Differenz der Parameter des allgemeineren Modells minus der Zahl der Parameter des restriktiveren Modells. Mit Hilfe des Likelihoodquotiententests kann man bestimmen, ob ein bestimmtes Modell besser auf die Daten passt, als ein anderes. Der Nachteil des Likelihoodquotiententests ist, dass die Voraussetzungen häufig nicht erfüllt sind (speziell da die hierarchische Beziehung zwischen verschiedenen Modellen oft nicht gegeben ist). Auch sind für Likelihoodquotiententests sehr viele Daten nötig. Denkt man an Punkt d) der Voraussetzungen, so gibt es 2k- verschiedene Antwortvektoren (k= Anzahl der Items). Bei 10 Items entspricht das 210= 1024 verschiedenen Antwortvektoren!!! Bekannteste Vertreter der Likelihoodquotiententests ist der Andersen Test Dieser Test beruht auf den bedingten Likelihoods. Das allgemeinere Modell (dessen Likelihood damit im Zähler steht), nimmt an, dass das Rasch Modell in jeder Scoregruppe gilt, das heißt, dass in den unterschiedlichen Scoregruppen unterschiedliche Itemparameter gelten können . Das restriktiverer Modell besagt, dass das Rasch Modell für alle Personen gilt. Das bedeutet, dass die Itemschwierigkeiten für alle Personen gleich sind. Der Andersen Test testet somit vor allem die Gültigkeit der spezifischen Objektivität (und die daraus resultierende Parallelität der IC-Kurven). Mag. Michael Weber 23 4.6 Vor- und Nachteile des Rasch Modells: a) Vorteile: - einfache Konstruktion von Paralleltests: Im Gegensatz zur klassischen Testtheorie, in deren Rahmen die Konstruktion von Paralleltests bzw. von äquivalenten Tests nicht unproblematisch ist, bereitet das im Modell von Rasch keinerlei Schwierigkeiten. Jede beliebige Teilmenge eines Itempools raschhomogener Items stellt selbst wieder einen raschhomogenen Test dar. - Tailored Testing (maßgeschneidertes Testen) Die Auswahl der einer Person vorgegebenen Items erfolgt individuell. Nachdem den Personen eine gewisse Zahl an Items vorgegeben wurde, wird der Personenparameter der Person geschätzt und dann aus einem (möglichst großen) Itempool das für diese Person informativste Item (also jenes, dessen Itemschwierigkeit der Personenfähigkeit am ähnlichsten ist) herausgesucht und der Person vorgegeben. danach erfolgt wieder eine Schätzung des Personenparameters und wiederum wird das informativste Item herausgesucht und der Person vorgegeben. Dieses Vorgehen wird solange wiederholt, bis sich bei zwei aufeinanderfolgenden Vorgaben der Personenparameter nur mehr unbedeutend verändert. - Die praktische Durchführung des tailored testing ist technisch aufwendig, da sie ausschließlich am PC bzw. Terminal erfolgen kann. - Branched testing (verzweigtes Testen) Hierbei handelt es sich um einen Kompromiss zwischen dem herkömmlichen Testen und dem tailored testing dar. Allen Personen wird ein kurzer Einstiegstest vorgegeben und die Personen danach je nach Zahl der gelösten Aufgaben in Leistungsgruppen unterteilt. Jede dieser Gruppen erhält dann einen anderen, ihren Leistungen entsprechenden zweiten Test. Danach werden wieder Gruppen gebildet die wiederum spezifische Tests erhalten. Mag. Michael Weber 24 Bsp: Testteil A (z.B:5 Items) 0-1 Testteile: B1 Testteile: C1 C2 2-3 4-5 B2 C3 C4 B3 C5 C6 C7 usw... b) Nachteile: - In der Praxis ist es mit unter sehr schwer geeignete eindimensionale Items zu bekommen. Gerade im Bereich der Persönlichkeitspsychologie aber auch in vielen anderen Bereichen der Psychologie sind eindimensionale Items kaum zu realisieren. - Zur Überprüfung der Modellgeltung ist eine sehr große Stichprobe notwendig. Dies ist natürlich mit einem hohen Zeitaufwand und damit mit hohen Kosten verbunden. Mag. Michael Weber 25 5) Modifikationen des dichotom logistischen Modells von Rasch 5.1) Das Linear Logistische Test Modell (LLTM) Im LLTM beschäftigt man sich näher mit den Items. Es wird davon ausgegangen, dass sich die Itemschwierigkeiten aus der Zahl der der Lösung der Items zugrundeliegenden Fähigkeiten und deren Schwierigkeiten linear zusammensetzten. Es wird also angenommen, dass zur Lösung eines Items verschiedenen Fertigkeiten benötigt werden. Diese verschiedenen Fertigkeiten haben unterschiedliche Schwierigkeiten. Die Schwierigkeit eines Items setzt sich nun, laut Modell, linear aus den einzelnen Schwierigkeiten der einzelnen Fertigkeiten zusammen. Dazu ein Beispiel: nehmen wir folgende Aufgabe: (12+3)*2 + 7= Um dieses Beispiel lösen zu können muss man addieren und multiplizieren können und wissen wie man mit Klammern umgeht. Es kommen also 3 verschiedene Fertigkeiten vor. Addieren 2mal, Multiplizieren und Umgang mit Klammern je ein mal. Die Itemschwierigkeit setzt sich daher wie folgt zusammen: Schwierigkeit [Addieren] + Schwierigkeit [Addieren] + Schwierigkeit [Multiplizieren] + Schwierigkeit [Umgang mit Klammern] = Schwierigkeit des Items. oder 2 (Schwierigkeit [Addieren]) + Schwierigkeit[Multiplizieren] + Schwierigkeit[Umgang mit Klammern] = Schwierigkeit des Items. [Bemerkung: diese Art der Zusammensetzung heißt linear, da alle Schwierigkeiten addiert/subtrahiert werden. Es kommen also keine Wurzeln oder Quadrate vor] Mag. Michael Weber 26 Hat man nun die mittels Parameterschätzung bestimmten Itemschwierigkeiten, kann man sich die Schwierigkeiten der zugrunde liegenden Fertigkeiten berechnen. Hierfür ist es jedoch nötig, dass es nicht mehr Fertigkeiten als Items gibt, da die Schwierigkeiten der Fertigkeiten die unbekannten Größen eines aus k Gleichungen bestehenden Gleichungssystems sind (k= Anzahl der Items). Um die Gültigkeit des LLTM zu überprüfen, kann man nun die Schwierigkeiten der Fertigkeiten berechnen und mit Hilfe dieser Schwierigkeiten die Itemschwierigkeiten von neuen Items vorhersagen. Stimmen die vorhergesagten Schwierigkeiten mit den tatsächlich beobachteten überein, so gilt das LLTM für die Items. Zur Überprüfung können sowohl die graphische Modellkontrolle als auch ein Likelihoodquotiententest verwendet werden. Der Vorteil des LLTM ist, dass man nun je nach Kombination der Fertigkeiten Items mit erwünschten Schwierigkeiten „erzeugen“ kann. Dies ist besonders für das adaptive Testen von großer Bedeutung. Mag. Michael Weber 27 5.2) Linear Logistic Model with Released Assumptions (LLRA) Das LLRA wurde von Fischer (1972) speziell für die Messung von Veränderungen in qualitativen Daten entwickelt. Die Annahmen des dichotomen Rasch Modells sind insofern abgeschwächt, als hier die Eindimensionalität der Items nicht vorausgesetzt wird, vielmehr wird pro Item eine eigene latente Dimension angenommen. Im LLRA wird jedes einzelne Item (auch hier sind die Items dichotom) zu jedem der Untersuchungszeitpunkte betrachtet. Veränderungen zeigen sich durch Verschiebungen der Personen auf den, den einzelnen Items zugrundeliegenden, Dimensionen. Durch die Positionsveränderung der Personen auf der latenten Dimension ändert sich auch deren Wahrscheinlichkeiten eine der beiden Reaktionen bei dem betreffenden Item zu zeigen. Der Hauptanwendungsbereich des LLRA ist die Wirksamkeitskontrolle von Therapien. Im folgenden wird nun der einfachste Spezialfall des LLRA genauer betrachtet. a) Spezialfall: 1 Item(Symptom) 2 Zeitpunkte Es geht dabei um die Wirksamkeit einer Therapie. Um nicht therapiebedingte Veränderungen während der Zeit der Therapie ebenfalls erfassen zu können, ist neben der Versuchsgruppe (hier erhalten die Personen die Therapie) auch eine Kontrollgruppe (Personen erhalten keine Therapie) erforderlich. An allen Patienten wird lediglich das Vorhanden sein bzw. das Nicht Vorhandensein eines Symptoms beobachtet. Mag. Michael Weber 28 Laut LLRA gilt für das Vorhandensein des Symptoms getrennt nach Zeitpunkten und Gruppen (Versuchsgruppe[VG]; Kontrollgruppe[KG]) folgendes: Zeitpunkt1 Zeitpunkt 2 VG e v p( / v, t1 ) 1 e v e v p ( / v, t 2 ) 1 e v KG e w p( / w, t1 ) 1 e w e w p( / w, t 2 ) 1 e w Wie kann man sich die oben angegebenen Formeln nun veranschaulichen? Beginnen wir mit einer Person v aus der Versuchsgruppe. Die Wahrscheinlichkeit, dass diese Person das Symptom zeigt, hängt zum Zeitpunkt 1 nur von ihrem momentanen Zustand (v) ab. Zum Zeitpunkt 2 hängt die Wahrscheinlichkeit von 3 Dingen ab: 1) vom Ausgangszustand (v) 2) vom Effekt der Therapie () 3) vom Trend (von der Therapie unabhängige Veränderung= ) Ähnlich bei Person w aus der Kontrollgruppe. Die Wahrscheinlichkeit, dass diese Person das Symptom zeigt, hängt zum Zeitpunkt 1 nur von ihrem momentanen Zustand (w) ab. Zum Zeitpunkt 2 hängt die Wahrscheinlichkeit jedoch nur von 2 Dingen ab: 1) vom Ausgangszustand (w) 2) vom Trend () Wie wir sehen, wird implizit angenommen, dass einerseits der Therapieeffekt für alle Personen der Versuchsgruppe gleich groß ist, andererseits der Trend für alle Personen gleich ist. Auch im LLRA kann die Separierbarkeit der Parameter genutzt werden, das heißt, dass die Parameter und unabhängig von den Personenparametern geschätzt werden kann . Mag. Michael Weber 29 Dass das möglich ist zeigt die folgende Überlegung. Nehmen wir an, wir wandeln die Ergebnisse der Personen der einzelnen Gruppen so um, dass wir einen neuen Messwert Xv bekommen der folgendermaßen gebildet wird: p ( / v, t 2 ) p ( / v, t 2 ) Xv p( / v, t1 ) p( / v, t1 ) Anmerkung: p( / v, t1 ) 1 p( / v, t1 ) 1 e v 1 e v e v 1 e v ev 1 v v v v 1 e 1 e 1 e 1 e 1 e v Analog gilt : p( / v, t 2 ) 1 p( / v, t 2 ) 1 e v 1 v 1 e 1 e v Wir bilden also pro Gruppe einen Messwert, in dem wir zuerst ihre Wahrscheinlichkeit zum Zeitpunkt 2 das Symptom zu zeigen durch ihre Wahrscheinlichkeit beim 2 ten Zeitpunkt das Symptom nicht zu zeigen dividieren. Danach machen wir dasselbe für den ersten Zeitpunkt und schlussendlich dividieren wir noch das erste Ergebnis durch das zweite. Durch ausmultiplizieren und einsetzen ergibt sich : X v e [Anmerkung: eine ausführliche Herleitung befindet sich im Anhang] Wir sehen nun, dass der Messwert Xv nicht mehr von den Personenfähigkeiten (v) abhängt. Logarithmiert man nun Xv so erhält man: ln( X v ) ln( e ) Für die Kontrollgruppe ist das Vorgehen ident. Man erhält jedoch: X v e ln( X v ) ln( e ) Für konkrete Daten werden die Wahrscheinlichkeiten mittels der relativen Häufigkeiten geschätzt. So ist z.B. p(+/v,t1) die relative Häufigkeit der Personen der Versuchsgruppe, die zum Zeitpunkt 1 das Symptom zeigen. p(-/v,t2) wäre somit die relative Häufigkeit der Personen der Versuchsgruppe, die das Symptom zum 2-ten Zeitpunkt nicht zeigen. Mag. Michael Weber 30 b) Interpretation der Parameter: Bezeichnet „+“ das Vorhandensein eines Symptoms, so bedeutet ein „+“ bzw. , dass durch die Therapie bzw. über die Zeit, das Symptom verstärkt auftritt (analog bedeuted ein „a“, dass das Symptom weniger häufig auftritt). Handelt es sich bei dem beobachteten Symptom um ein unerwünschtes Symptom (z.B Schlafstörungen), so erhoffen wir für den Therapieeffekt natürlich ein negatives Vorzeichen (dies bedeutet ja, dass durch die Therapie die Schlafstörungen seltener auftreten). Natürlich kann das LLRA auch dazu genutzt werden verschiedene Therapien miteinander zu vergleichen indem man die Therapieeffekte der einzelnen Therapien miteinander vergleicht. c) Allgemeinere Versuchsdesigns: Bei der Verwendung von unterschiedlichen Dosierungen kann entweder Linearität der Wirkung angenommen werden (doppelte Dosis= doppelter Erfolg), oder aber jede unterschiedliche Dosierung wird als eigene Behandlungsmethode aufgefasst. Durch den Vergleich der resultierenden Therapieeffekte kann dann der tatsächliche DosisWirkungszusammenhang untersucht werden (hier würden sich z.B. Sättigungseffekte feststellen lassen, d.h. die Wirkung nimmt bei Steigerung der Dosis irgendwann nicht mehr zu, oder sogar wieder ab). d) Allgemeine Formulierung des Modells für k=1 Item Alle bisher besprochenen Modellvarianten lassen sich unter einer allgemeinen Modellformulierung zusammen fassen: e v p( / v, t1 ) 1 e v e v v p( / v, t 2 ) 1 e v v v bezeichnet die Gesamtveränderung der Person in Abhängigkeit von den auf sie angewandeten Behandlungsmethoden und deren Dosierung. Mag. Michael Weber 31 Es wird angenommen, dass die Behandlungsmethoden kumulativ wirken, d.h., dass sich die Gesamtveränderung (v) aus der Summe der einzelnen Behandlungen sowie des Trends zusammensetzt. Formal bedeuted das: m v qvj j j 1 Anmerkung: qvj gibt die Dosierung von Therapie j an; j steht für den Effekt der j-ten Therapie steht für die behandlungsunabhängige Veränderung (Trend) e) Verallgemeinerung des Modells auf k-Items Hier wird jedes Item durch eine eigene latente Dimension repräsentiert. Jede Person kann auf der latenten Dimension eine andere Position einnehmen. Es wird angenommen, dass die Veränderung aber auf allen latenten Dimensionen für jede Person gleich ist. Zeitpunkt 1: e vi p( / i, v, t1 ) 1 e vi [Anmerkung: vi, ist die Position der Person v auf der dem Item i zugeordneten Dimension] Zeitpunkt 2: e vi v p ( / i , v, t 2 ) 1 e vi v [Anmerkung: v ist die für alle Items gleich angenommene Veränderung] Das LLRA ist ein mehrdimensionales Modell was die Beschreibung der Items und Personen betrifft (=> die Items müssen hier nicht raschhomogen sein). Die angenommene Konstanz der Veränderung über Items und Personen kann jedoch mit einem Modelltest geprüft werden. (im ersten Fall durch Teilung der Items, im zweiten durch Teilung in Personengruppen). Mag. Michael Weber 32 6) Mehrkategorielle Rasch Modelle und ihre Voraussetzungen: 6.1) Mehrkategorielle eindimensionale Latent Trait Modelle a) Grundüberlegungen: Schon im Grundmodell sind IC- Kurven von zentraler Bedeutung. Die IC-Kurve eines Items stellt bei genauerer Betrachtung auch schon eine Kategorienfunktion dar. Dies wird erkennbar, wenn man neben der üblicherweise dargestellten IC- Kurve der Kategorie 1 (Item zu lösen), auch noch die IC-Kurve der Kategorie 0 (Item nicht lösen) darstellt. [vorläufige Skizze1] Im dichotomen Fall ist die Kategoriefunktion der 0-Kategorie redundant (das heißt: sie ergibt sich automatisch aus der Kategoriefunktion der 1-Kategorie), da sich die beiden Wahrscheinlichkeiten auf 1 ergänzen müssen (man kann ja das Item nur lösen oder nicht lösen). Daher ist es im dichotomen Fall unnötig die Funktion der 0-Kategorie einzuzeichnen. Es ist jedoch interessant sich diese beiden Kurven einmal genauer anzusehen. Der Schnittpunkt der beiden IC-Kurven ist genau jener Punkt an dem die Wahrscheinlichkeit das Item zu lösen gleich ist der Wahrscheinlichkeit das Item nicht zu lösen. Das ist, laut obiger Definition genau dann der Fall, wenn die Person genauso fähig ist, wie das Item schwierig (siehe: Punkt b von Erkenntnisse anhand der Modellgleichung Seite 10). Der Schnittpunkt der beiden IC-Kurven markiert also genau die Lokalisation der Itemschwierigkeit. Mag. Michael Weber 33 Diese Idee ist jetzt sehr gut auf das mehrkategorielle Modell übertragbar. Betrachten wir zunächst die IC- Kurven für 3 Kategorien innerhalb eines Items. [vorläufige Skizze2] Zunächst dominiert die Wahrscheinlichkeit in der Kategorie 0 zu antworten, die aber, mit steigender Eigenschaftsausprägung immer geringer wird, danach dominiert die Wahrscheinlichkeit in der ersten Kategorie zu antworten. Dies IC –Kurve der ersten Kategorie ist nicht mehr monoton. Sie steigt zuerst an und nimmt dann wieder ab, weil im oberen Bereich der Eigenschaftsausprägung die Wahrscheinlichkeit für die Kategorie 2 zunimmt. Die IC-Kurven der Extremkategorien sind monoton, die der Zwischenkategorie jedoch nicht. Diese Idee ist auch auf mehrere Kategorien verallgemeinerbar. Die Schnittpunkte der Kategorie IC Kurven stellen somit die Kategoriegrenzen dar. Diese Kategoriegrenzen werden Schwellen genannt. Das rechtfertigt auch die Vergabe der Punkte. Antwortet man in der 0-Kategorie erhält man 0 Punkte, da man keine Schwelle überschritten hat. Antwortet an hingegen in der Kategorie 2 so erhält man 2 Punkte, weil man 2 Schwellen überschritten hat. Der Gesamtscore einer Person ist nun die Zahl der überschrittenen Schwellen. Anhand der Kategoriewahrscheinlichkeiten sieht man auch, ob die Kategorien tatsächlich richtig geordnet sind. Die Ordnung der Antwortkategorien zeigt sich nämlich daran, dass ihre zugehörigen Abschnitte entlang dem zu messenden Kontinuum geordnet sind. Mag. Michael Weber 34 b) Verschiedene mehrkategorielle eindimensionale Modelle Die verschiedenen Modelle unterscheiden sich lediglich darin, welche Abforderungen sie an die Schwellen innerhalb eines Items stellen. - „Partial Credit“ oder „ordinale“ Rasch Modell (Masters 1982): Die Schwellenabstände innerhalb der Items unterliegen keinerlei Beschränkungen Dieses Modell ist das allgemeinste der ordinalen Rasch Modelle. - Rating Scale Model (Andrich, 1978): hier können die Schwellenabstände innerhalb eine Items zwar unterschiedlich groß sein, jedoch gelten diese Schwellenabstände für alle Items. Kategorienzahl muss gleich groß und die Items müssen gleichartig gepolt sein - Äquidistanzmodell: hier sind die Schwellenabstände innerhalb eines Items gleich groß, können jedoch bei jedem Item anders sein - Dispersionsmodell (Rost 1988): ist die Kombination aus Rating Scale - und Äquidistanzmodell. Hier können zwar Schwellendistanzen innerhalb eines Items unterschiedlich sein, die Schwellendistanzen der Items unterscheiden sich jedoch nur um einen, für alle Schwellen innerhalb eines Items konstanten, additiven Faktor (z.B alle Schwellen des 2-ten Items sind um 1 breiter als die Schwellen des 1-ten Items). Das Dispersionsmodell ist ein Obermodell des Rating Scale und des Äquidistanzmodells. Mag. Michael Weber 35 7) Anhang 7.1) Herleitung der Separierbarkeit der Parameter Verwendet man die zweite Art der Modelldarstellung, so ist die Wahrscheinlichkeit, dass eine Person Item 1 löst: p( / v,1) 1 v 1 1 v Die Wahrscheinlichkeit das Item nicht zu lösen ist die Gegenwahrscheinlichkeit und daher: p( / v,1) 1 p( / v,1) 1 1 1 v 1 1 v 1 1 v 1 v 1 v 1 1 v 1 1 v 1 1 v 1 1 v 1 1 v Analog natürlich für Items 2. Betrachten wir nun die Wahrscheinlichkeit, dass eine Person von 2 gegebenen Items a) das erste Item löst und das zweite nicht löst. 1 p{(1,0) / 1 , 2 ; v } ( 1 v )( ) 1 1 v 1 2 v b) das erste Item nicht löst und das zweite schon 1 p{( 0,1) / 1 , 2 ; v } ( )( 2 v ) 1 1 v 1 2 v c) genau 1 Item löst (sprich einen Rohscore von 1 hat) 1 1 p{r 1 / 1 , 2 ; v } p{(1,0) / 1 , 2 ; v } p{( 0,1) / 1 , 2 ; v } ( 1 v )( )( )( 2 v ) 1 1 v 1 2 v 1 1 v 1 2 v Mag. Michael Weber 36 Betrachtet man nun die bedingte Wahrscheinlichkeit: p{(1,0) / 1 , 2 ; v } p{(1,0) / 1 , 2 ; v ; r 1} p{r 1 / 1 , 2 ; v } [Anmerkung: das ist die Wahrscheinlichkeit, dass eine Person nur das erste Item löst, wenn man schon weiß, dass sie genau 1 Item gelöst hat] und setzt dafür ein, so ergibt das: 1 ( 1 v )( ) 1 1 v 1 2 v p{(1,0) / 1 , 2 ; v ; r 1} 1 1 ( 1 v )( )( )( 2 v ) 1 1 v 1 2 v 1 1 v 1 2 v ausgerechnet ergibt das: 1 v 1 v (1 1 v )(1 2 v ) 1 v (1 1 v )(1 2 v ) 2 v (1 1 v )(1 2 v ) (1 1 v )(1 2 v ) 1 v 2 v (1 1 v )(1 2 v ) hier kürzen sich die Nenner des oberen und unteren Bruches weg, sodass sich daraus ergibt: 1 v 1 v 1 1 v 2 v v (1 2 ) 1 2 das heißt nun: p{(1,0) / 1 , 2 ; v ; r 1} 1 1 2 Man sieht, dass diese bedingte Wahrscheinlichkeit nur mehr von der Schwierigkeit (hier eigentlich Leichtigkeit) der Items abhängt. Mag. Michael Weber 37 7.2) Herleitung: n10 1 n01 2 Das kann leicht aus der unter Herleitung von 7.1 gefolgert werden. Unter 7.1 wurde hergeleitet, dass gilt: p{(1,0) / 1 , 2 ; v ; r 1} 1 1 2 Nun ist die relative Häufigkeit der bestmögliche Schätzer für die Wahrscheinlichkeit. Daraus folgt: ^ p{(1,0) / 1 , 2 ; v ; r 1} p{(1,0) / 1 , 2 ; v ; r 1} ^ [Anmerkung: p ist der (bestmögliche) Schätzwert der Wahrscheinlichkeit und damit die relative Häufigkeit] ^ p{(1,0) / 1 , 2 ; v ; r 1} n1,0 n1,0 n0,1 und daraus folgt wiederum: 1 1 2 n1,0 n1, 0 n0,1 Somit gilt wiederum: 1 n1, 0 2 n0,1 Mag. Michael Weber 38 7.3) Beweis der Existenz der erschöpfenden Statistiken Betrachten wir zunächst wie im dichotom logistischen Modell von Rasch eine Datenmatrix aussieht. Items 1 1 a1,1 2 a1,2 3 ......................... a1,3 k a1,k . Personen . av,i . n an,1 an,2 an,k av,i steht für die Antwort, die die Person v auf das Item i gibt (im dichotomen Fall handelt es sich dabei um eine 0, z.B. wenn die Person das Item nicht lösen kann, ein bestimmtes Symptom nicht zeigt oder einer Aussage nicht zustimmt und um eine 1, wenn z.B. die Person das Item löst, ein bestimmtes Symptom zeigt oder einer Aussage zustimmt). Betrachtet man weiters die „Likelihood der Daten“, das heißt, schaut man sich an wie wahrscheinlich es ist genau die Daten zu beobachtet die man beobachtet hat, so gilt: n k L p (a v ,i / v , i ) . v 1 i 1 [Anmerkung: Das Summenzeichen () ist aus der Mathematik bekannt. Das Produktzeichen ()wird ähnlich verwenden abgesehen davon, dass die nachfolgenden Werte nicht summiert sondern multipliziert werden]. Da vorausgesetzt wurde, dass die Antworten einer Person lokal stochastisch unabhängig sind, und man ferner annehmen kann, dass alle Personen unabhängig voneinander die Items bearbeitet haben (d.h. Teamwork und/oder schummeln wird ausgeschlossen) kann die Wahrscheinlichkeit der gesamten Datenmatrix als Produkt () aller Wahrscheinlichkeiten der Einzelergebnisse angeschrieben werden. Je nachdem ob av,i=1 oder av,i =0 muss für p(av,i/vi) entweder 1 e v i oder v i 1 e v i 1 e verwendet werden [siehe 4.2 a) Seite 9]. Die Likelihood der Daten kann daher auch wie folgt angeschrieben werden: Mag. Michael Weber 39 ev i av ,i 1 1 av , i L ( ) ( ) v i 1 ev i v 1 i 1 1 e n k Im folgenden werden wir diese Formel vereinfachen und zwar: 1) n v i k n v i k 1 av ,i av , i e 1 (e ) (1) av ,i 1av ,i L ( ) ( ) a 1 av ,i v ,i v i v i v i v i 1 e v 1 i 1 1 e v 1 i 1 (1 e ) (1 e ) angewandte Rechenregel: a ac ( )c c b b 2) n n k v 1 i 1 v i av ,i n v i k (e av , i (e ) (1) (e ) a (1a ) v i 1 (1 ev i ) v ,i v ,i ( 1 e ) v 1 i 1 k v 1 i 1 n k v i (1 e ) av ,i v i ) v 1 i 1 angewandte Rechenregeln: abac=ab+c und 1a=1 3) Man sieht, dass für den Nenner des Bruches die einzelnen Eintragungen in der Datenmatrix(av,i) nicht mehr von Nöten sind. Daher wird in weiterer Folge der Nenner nicht mehr weiter verändert und einfach als N angeschrieben n k (e a v ,i [ v i ] v 1 i 1 N n ) k (e a v ,i v a v ,i i v 1 i 1 N angewandte Rechenregel: ) (a b ) c a cb Mag. Michael Weber 40 4) auf Grund der schon bei Punkt 2 angewandten Rechenregel abac=ab+c werden aus den Produktzeichen in den Potenzen Summenzeichen, sodass gilt: n k n ( av ,iv av ,i i ) e v 1 i 1 k n av ,iv av ,i i N k e v 1 i 1 i 1 v 1 N [Anmerkung: die Reihenfolge der Summenzeichen ist bedeutungslos] 5) Berücksichtigt man nun, dass v für k n und i für i 1 konstant ist und daher vor diese v 1 Summe gezogen werden kann, so folgt daraus: n k e v1 v av ,i i 1 k n i i 1 n av ,i v 1 N v rv e v1 k i si i 1 N rv steht hier für den Rohscore der Person v (also die Summe der 1 und 0 pro Person über alle k Items => rv= a i 1 v ,i ) und si für die Anzahl der Personen, die Item i gelöst haben (also die n Summe der 1und 0 pro Item über alle Personen => si= a v 1 v ,i ). Daraus folgt: n L e n v rv v 1 k i si i 1 k v i ( 1 e ) v 1 i 1 Man sieht daran, dass für die Likelihood der Daten nicht mehr die einzelnen Reaktionen der Person auf die Items (av,i) sind, sondern man nur mehr die Randsummen (also die Anzahl der gelösten Items pro Person) bzw. die Itemlösungshäufigkeiten (also die Anzahl der Personen, die ein Item lösen können) braucht. Mag. Michael Weber 41 7.4) Herleitung, dass im LLRA gilt: Xv=e+ p ( / v, t 2 ) p ( / v, t 2 ) Xv p( / v, t1 ) p( / v, t1 ) e v 1 e v e v 1 e v ev 1 Anmerkung: p( / v, t1 ) 1 p( / v, t1 ) 1 v v v v 1 e 1 e 1 e 1 e 1 e v Analog gilt : p ( / v, t 2 ) 1 p ( / v, t 2 ) 1 e v 1 v 1 e 1 e v a b Nun lösen wir zuerst den Doppelbruch nach der Form: ad ...... c bc d p ( / v, t 2 ) p ( / v, t 2 ) p ( / v, t 2 ) p ( / v, t1 ) Xv p ( / v, t1 ) p ( / v, t 2 ) p ( / v, t1 ) p ( / v, t1 ) ......und setzen ein: e v e v 1 ( )( ) p ( / v, t 2 ) p ( / v, t1 ) 1 e v 1 e v (1 e v )(1 e v ) p ( / v, t 2 ) p ( / v, t1 ) 1 e v e v ( )( ) 1 e v 1 e v (1 e v )(1 e v ) Auch diesen Doppelbruch lösen wir nun nach der obigen Formel auf und kürzen im Anschluss: e v (1 e v )(1 e v ) (e v )(1 e v )(1 e v ) v v v v e (1 e )(1 e )(e ) (1 e v )(1 e v ) (e v ) e v e v v e (e ) e Mag. Michael Weber 42 8) Literatur Fischer, G.H. (1974): Einführung in die Theorie psychologischer Tests. Bern: Huber. Fischer, G.H. (1988): Spezifische Objektivität. In. K.D. Kubinger (Hrsg.), Moderne Testtheorie (pp.87-111). Weinheim: Beltz. Fischer, G.H. & Molenaar, I.W.(1995).Rasch models – Foundations,recent developements, and applications. New York: Springer. Kubinger, K.D (1988): Moderne Testtheorie. Weinheim: Beltz. Rost, J. (1996): Testtheorie, Testkonstruktion. Bern: Huber. Mag. Michael Weber