TESTTHEORIEN

Das dichotome
Rasch-Modell
Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer
(0606619), Martin Schallert (0305866)
Forschungspraktikum 2008, Prof. Gabriel
Testtheorien: Klassische vs.
Probabilistischer Testtheorie
Psychologischer Test:
- Wissenschaftliches Routineverfahren zur
Untersuchung einer oder mehrerer empirisch
abgrenzbarer Persönlichkeitsmerkmale mit dem
Ziel einer möglichst quantitativen Aussage über
den relativen Grad der individuellen
Merkmalsausprägung.
- Spezielles, psychologisches Experiment mit dem
Ziel, vergleichende Aussagen über Personen
abzuleiten.
Testtheorien
Testtheorie:
- Theorie darüber, wie das zu erfassende
psychische Merkmal der Person ihr Verhalten im
Test beeinflusst.
Testtheorien
Testmodelle:
- Spezielle formale Modelle, die durch die Art der
empirischen Daten, auf die sie sich anwenden
lassen, definiert werden.
1) Klassische Testtheorie (KTT)
- Die Annahmen der klassischen Testtheorie beziehen
-
-
sich auf vorliegende, fehlerbehaftete Messwerte von
Personen ( Allg. Messfehlertheorie).
Sie bestehen aus bestimmten Aussagen über den
Messfehler dieser Messwerte.
Die Existenz von Messwerten wird somit
vorausgesetzt.
Für die klassische Testtheorie lassen sich die
Grundannahmen in fünf Axiome ausdrücken.
Auf der Basis dieser Axiome sind drei
Testgütekriterien definierbar, die die Qualität eines
Tests angeben: Objektivität, Reliabilität und Validität
Axiome der KTT
1. Das Testergebnis setzt sich additiv aus dem
„wahren Wert“ (True Score: T) und dem
Messfehler (Error Score: E) zusammen:
X=T+E
2. Bei wiederholten Testanwendungen kommt es
zu einem Fehlerausgleich, d.h. der Mittelwert
( ) des Messfehlers ist Null:
(E) = 0
Der Mittelwert mehrerer unabhängiger
Messungen an demselben Untersuchungsobjekt
ist folglich messfehlerfrei und repräsentiert den
wahren Wert: (X) = (T) + (E) = T + 0 = T.
Axiome der KTT
3. Die Höhe des Messfehlers ist unabhängig vom
Ausprägungsgrad des getesteten Merkmals, d.h.
wahrer Wert und Fehlerwert sind unkorreliert.
4. Die Höhe des Messfehlers ist unabhängig vom
Ausprägungsgrad anderer
Persönlichkeitsmerkmale (T’).
5. Der Messfehler verschiedener Testanwendungen
sind voneinander unabhängig.
2) Probabilistische Testtheorie
-
Item-response-theory (IRT)
Die untersuchten Merkmale werden als latente
Dimensionen betrachtet und die einzelnen
Testitems als Indikatoren dieser latenten
Dimensionen. Das heißt, manifeste Variablen
sind Indikatoren einer (postulierten) latenten
Dimension ξ (=Ausprägung od. Fähigkeit der
Person).
Probabilistische Testtheorie
-
Probabilistische Modelle gehen nicht vom
Rohwert (Testwert X) aus, sondern setzten beim
einzelnen Item an. Jede beobachtete Antwort
(=Reaktion) einer Vpn ist von drei Komponenten
abhängig:
- Eigenschaften der Person (z.B. Fähigkeit)
- Eigenschaften des Items (z.B. Schwierigkeit)
- Zufall (unkontrollierbare Einflüsse)
Probabilistische Testtheorie
-
Beeinflusst die latente Variable nun die
manifeste, so werden die Testitems miteinander
korrelieren.
Wenn eine latente Dimension existiert, dann
könnte man diese latente Dimension (statistisch)
konstant halten u. die Zusammenhänge zw. den
manifesten Variablen müssten verschwinden.
3) Zusammenfassende Bewertung
-
KTT: Messergebnis = (messfehlerbehaftete)
Merkmalsausprägung;
IRT: Testergebnisse = Indikatoren latenter
Merkmale oder Verhaltensdispositionen;
Tests, die auf einem probabilistischen Testmodell
basieren, unterscheiden sich von „klassisch“
konstruierten Tests in der Regel dadurch, dass
die Annahmen, die dem Test zugrunde liegen,
auch geprüft werden.
Zusammenfassende Bewertung
-
Die Entwicklung eines probabilistischen Tests ist
aufwendiger.
Die Überprüfung der klassischen
Testgütekriterien Reliabilität und Validität ist bei
probabilistischen Tests schwierig.
95% aller Testentwicklungen wurden „klassisch“
konstruiert
Wofür Rasch?
- Das Rasch-Modell stellt ein Prüfverfahren für
psychologische Tests dar.
- Items, die nicht die gewünschte Fähigkeitsdimension messen können selektiert werden.
- Rohscores eines Tests werde aussagekräftig und
können für Weiterberechnungen und Vergleiche
herangezogen werden.
- Personenvergleiche werden möglich.
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
Logistische Funktion bei Rasch
IC-Kurve
Spezifische Objektivität
G. Raschs Forderungen nach:
1) Testunabhängigen Fähigkeitsmaßen
2) Stichprobenunabhängige Itemschwierigkeitsmaßen
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
Logistische Funktion bei Rasch
IC-Kurve
Stichprobenunabhängigkeit
Das Ergebnis darf nicht vom Messinstrument
abhängen.
Ist dies der Fall, so ist der Test als culture fair zu
bezeichnen.
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
Logistische Funktion bei Rasch
IC-Kurve
Eindimensionalität
Egal in welcher Population getestet wird,
messen die Items immer dieselbe Fähigkeit.
=> Rasch-homogen
Beispiel:
Ein Test über räumliche Vorstellungskraft könnte
auch mit logischem Schlussfolgern gelöst werden.
=> Nicht Rasch-homogen
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
Logistische Funktion bei Rasch
IC-Kurve
Erschöpfende Statistik als
Grundlage
Person:
1
2
3
4
1
1
1
0
1
Item: 2
1
0
0
1
1
Item: 3
1
0
0
0
1
Item: 1
Item: 4
PersonenRandsumme:
Itemrandsumme:
5
4
3
2
1
4
1
2
0
1
1
0
2
3
3
Erschöpfende Statistik als
Grundlage
Vergleich zweier Personen in einem
Mathematiktest:
Item1: 47 + 23 = ?
Item2: 2763 x 2748 = ?
Wer ist begabter?
P1 P2
Item 1
1
0
Item 2
0
1
score
1
1
Erschöpfende Statistik
=>
Ist der Test nicht Rasch-homogen ist es nicht
zulässig den Rohscore zu verwenden.
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
Logistische Funktion bei Rasch
IC-Kurve
Parameterschätzung
a) Personenparameter
b) Itemparameter
- Schätzung per Maximum Likelihood
3 verschiedene Funktionen:
- UML … uncontional ML
- CML … conditional ML
- MML … marginal ML
- Berechnung nur mittels PC möglich
a) Personenparameter
- Gibt die Wahrscheinlichkeit an, mit der Person v
die Items i in einem Test lösen kann
Relevant zur Berechnung:
- Die Anzahl der Items, die von den Personen
gelöst wurden
- NICHT welche Items!
b) Itemparameter
- Gibt die Wahrscheinlichkeit an, mit der das
Item i von den Personen v die den Test
machen gelöst wird
Relevant zur Berechnung:
- Anzahl der Personen, die dieses Item lösen
- NICHT welche Personen!
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
Logistische Funktion bei Rasch
IC-Kurve
Logistische Funktion bei Rasch
Logistische Funktion bei Rasch
Die Wahrscheinlichkeit, dass Person v Item i
richtig löst hängt davon ab, wie schwer das Item
i ist und wie fähig die Person v ist.
Definition von Rasch:
Personenparameter = Itemparameter
=> Lösungswahrscheinlichkeit 50%
Grundbegriffe im Rasch Modell
Spezifische Objektivität
Stichprobenunabhängigkeit
Eindimensionalität
Erschöpfende Statistik
Parameterschätzung
IC-Kurve
IC-Kurven:
IC-Kurven:
Anwendung des Rasch Modells:
- Feststellung von Item-Bias
- Computerisiertes Adaptives Testen (CAT)
- Psychometrische Qualitätskontrollen
Itembias
Raschmodell dient zum Herausfiltern unfairer Items
durch den Vergleich der IC-Kurven.
Relevant in Bildung oder Wirtschaft bei z.B.
Aufnahme-, Eignungs- oder Intelligenztests
CAT- Computerisiertes Adaptives
Testen
Testpersonen
bekommen nur Items
die auf ihr
Fähigkeitsniveau
abgestimmt sind
CAT- Computerisiertes Adaptives
Testen
Voraussetzung:
Großer Itempool, der rasch-homogen ist und sich
über das gesamte Kontinuum streut
Vorteile:
- schnelle und genauere Messung
- keine unnötigen Items
- auch präzise Messung in Extrembereichen
- erhöhte Testsicherheit und Testfairness
Nachteile:
- Erhöhter Testkonstruktionsaufwand
Psychometrische Qualitätskontrolle
Vergleich und Überprüfung von bewährten Tests
möglich.
Beispiel: Messen 3DW und WMT dasselbe
Konstrukt?
Klassisches Konzept: Korrelation von 0.4 – 0.5
Modernes Konzept:
Rasch-Modell -> unterschiedliche
Fähigkeitsdimensionen (Raumvorstellung und
Reasoning)
Forschungspraktikum:
Test: Wortschatztest
Stichprobe: Männliche und weibliche Schüler
einer Oberstufe
Hypothesen:
H0: Testitems nicht Rasch-homogen
H1: Testitems sind Rasch-homogen
Danke für die Aufmerksamkeit