Beispiel Itemvarianz - Franke

Werbung
B.Sc. Rehabilitationspsychologie
Modul 3.2
WiSe 2013-14
GRUNDLAGEN DER
TESTTHEORIE
Prof. Dr. habil. Gabriele Helga Franke
E-Mail: [email protected]
Internet: www.franke-stendal.de
Sprechstunde: Montag, 8-9h
Kapitel 4: Deskriptive Statistik
4.1 Einleitung
4.2 Schwierigkeitsanalyse
4.3 Itemvarianz
4.4 Trennschärfeanalyse
4.5 Itemselektion und Revision des Tests
4.6 Testwertermittlung
4.7 Testwerteverteilung und Normalisierung
4.8 Zusammenfassung und weiteres Vorgehen
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
2
4.3 Itemvarianz
4.3.1 Differenzierungsfähigkeit eines Items
4.3.2 Zusammenhang von Itemvarianz und
Itemschwierigkeit
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
3
4.3 Itemvarianz
• Liegt die Schwierigkeit eines Items fest, so ist
die mögliche Ausprägung seiner Varianz
begrenzt.
• Itemvarianz = Differenzierungsfähigkeit eines
Items i hinsichtlich der untersuchten
Probandenstichprobe
• Die Varianz eines einzelnen Items gibt an,
wie stark die Antworten auf dieses Item in der
Stichprobe streuen.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
4
Beispiel Itemvarianz
•
•
•
•
FPI-R Item Nr. 128 bei n=268 Stud.
Schwierigkeitsindex = 75
Var(Item128) = 0,188
Items mittlerer Schwierigkeit leisten viele
Differenzierungen, Items mit extremer
Schwierigkeit hingegen weniger. Items mit
einer Schwierigkeit von 0 oder 100 können
gar nicht differenzieren.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
5
4.3.1 Differenzierungsfähigkeit
eines Items

n
Var ( xi ) 
 (x
v 1
vi
 x i )²
n
Die Differenzierungsfähigkeit Var(xi) eines Items
wird numerisch berechnet. Es handelt sich um die
durchschnittliche quadrierte Abweichung der
einzelnen Werte vom Mittelwert in Bezug auf die
untersuchte Stichprobe
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
6
4.3.1 Differenzierungsfähigkeit
eines Items
Da der Itemmittelwert x-quer(i) und die Lösungswahrscheinlichkeit p(i) in funktionaler Abhängigkeit zueinander
stehen, lässt sich die Itemvarianz auch so berechnen.
Mit p(i) = P(i) / 100 und k = Anzahl der Antwortstufen des Items
i und p(i) * (k-1) als durchschnittliche Antwort aller Probanden
auf das Item i.
n
Var ( x i ) 
 (x
vi
 pi * (k  1))²
v 1
n
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
7
Beispiel Itemvarianz
• Wir stellen uns 10 Probanden vor, die vier
Prüfungen (Items) zu absolvieren haben
• Bestehen eines Probanden v in einem
Test i wird mit x(vi)=1 und Scheitern mit
x(vi)=0 kodiert
• Lösungswahrscheinlichkeiten p(i)
(P(i)/100) der vier Items sind
– p(1)=9/10=0,90
– p(3)=2/10=0,20
* p(2)=5/10=0,50
* p(4)=0/10=0
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
8
Beispiel Itemvarianz
Proband
Item 1
Item 2
Item 3
Item 4
Sum richtig
Sum falsch
1
1
1
1
0
3
1
2
1
1
1
0
3
1
3
1
1
0
0
2
2
4
1
1
0
0
2
2
5
1
1
0
0
2
2
6
1
0
0
0
1
3
7
1
0
0
0
1
3
8
1
0
0
0
1
3
9
1
0
0
0
1
3
10
0
0
0
0
0
4
n(richtig)
9
5
2
0
n(falsch)
1
5
8
10
pi
0,90
0,50
0,20
0,00
Var(xi)
0,09
0,25
0,16
0,00
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
9
Beispiel Itemvarianz
• Item 1: niedrige Varianz, 1 Proband fiel durch und
9 haben bestanden: 1*9=9 Differenzierungen
• Item 2: hohe Varianz, 5 Probanden fielen durch
und 5 haben bestanden: 5*5=25
Differenzierungen
• Item 3: mittlere Varianz, 8*2=16 Differenzierungen
• Item 4: keine Varianz, 0*0=0
Merke: Die Höhe der Itemvarianz ist von der
Antwortskalierung abhängig. Ein Wert allein ist nicht
aussagekräftig – es werden immer Werte von
anderen Items benötigt.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
10
4.3.2 Zusammenhang von Itemvarianz
und Itemschwierigkeit
Var ( xi )  pi * (1  pi )
Für zweistufige Items lässt sich die Gleichung zur
Bestimmung der Itemvarianz vereinfachen.
Die Itemvarianz entspricht dann dem Produkt der
Wahrscheinlichkeit, das Item i zu lösen [p(i)], und der
Gegenwahrscheinlichkeit, das Item i nicht zu lösen [1-p(i)].
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
11
4.3.2 Zusammenhang von Itemvarianz
und Itemschwierigkeit
Var ( xi )  pi * (1  pi )
Für zweistufige Items erhalten wir somit einen
quadratischen Zusammenhang zwischen Itemschwierigkeit
(bzw. Lösungswahrscheinlichkeit) und Itemvarianz.
Die Itemvarianz hat bei dichotomen Items ihr Maximum bei
der mittleren Schwierigkeit (50) – während sie zu den
beiden extremen Ausprägungen hin (0 und 100) abnimmt.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
12
4.3.2 Zusammenhang von
Itemvarianz und Itemschwierigkeit
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
13
4.4 Trennschärfeanalyse
4.4.1 Berechnung der Trennschärfe
4.4.2 Interpretation der Trennschärfe
4.4.3 Weitergehende Überlegungen
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
14
4.4 Trennschärfeanalyse
•Die Trennschärfe rit eines Items i drückt aus, wie
groß der korrelative Zusammenhang der Itemwerte
xvi mit den Testwerten xv ist, die aus sämtlichen Items
des Tests gebildet werden.
•Die Trennschärfe gibt an, wie stark die
Differenzierung des jeweiligen Items mit der
Differenzierung der zum Testwert
zusammengefassten übrigen Items übereinstimmt.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
15
4.4.1 Berechnung der Trennschärfe
Zur Berechnung der Trennschärfe wird über
alle Probanden hinweg der Zusammenhang
des Itemwerte (xvi) mit dem Testwert (xv)
bestimmt.
𝑟𝑖𝑡 = 𝑟
𝑥𝑣𝑖 ,𝑥𝑣
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
16
4.4.1 Berechnung der Trennschärfe
m
xv 

xvi
i 1

xv ( i )  



xvi   xvi

i 1

m

Unter dem Testwert xv eines
Probanden versteht man zumeist den
Summenwert aller Itemwerte
Oder
Den Summenwert ohne Item i =
Trennschärfebestimmung bei
wenigen Items (part-wholecorrection), um die Trennschärfe nicht
zu überschätzen.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
17
4.4.1 Berechnung der Trennschärfe
Daher folgt die Formel zur Berechnung der
Trennschärfe:
𝑟𝑖𝑡 = 𝑟
𝑥𝑣𝑖 ,𝑥(𝑣)
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
18
4.4.1 Berechnung der Trennschärfe
• Die Bildung des Testwertes setzt voraus,
dass alle Items inhaltlich dasselbe
Merkmal erfassen. Streng genommen wird
vorausgesetzt, dass die Items homogen
sind.
• Da die Trennschärfe ein Maß des
Zusammenhangs ist und als Korrelation
berechnet wird, kann sie Werte im Bereich
[-1, 1] annehmen
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
19
4.4.1 Berechnung der Trennschärfe
• Eine hohe Trennschärfe wird im
Allgemeinen durch eine hohe Itemvarianz
begünstigt.
• Dies gilt sowohl bei intervallskalierten als
auch bei dichotomen Items.
• Dennoch garantiert eine hohe Itemvarianz
nicht unbedingt eine hohe Trennschärfe
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
20
4.4.2 Interpretation der Trennschärfe
• Weil die Trennschärfe rit eines Items i
unterschiedliche Werte annehmen kann,
zieht man je nach Ausprägung
unterschiedliche Schlussfolgerungen:
• rit nahe bei 1
• rit nahe bei 0
• rit nahe bei -1
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
21
4.4.2 Interpretation der Trennschärfe
rit nahe bei 1
• Das Item wird von Probanden mit hohem Testwert (hohe
Merkmalsausprägung) gelöst bzw. symptomatisch
beantwortet und von Probanden mit niedrigem Testwert
(niedriger Merkmalsausprägung) nicht
• Hohe positive Trennschärfen = die einzelnen Items
messen sehr Ähnliches wie der Gesamttest
• Trennschärfen im Bereich von 0.40 – 0.70 gelten als gut
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
22
4.4.2 Interpretation der Trennschärfe
rit nahe bei 0
• Die mit dem Item erzielte Differenzierung weist keinen
Zusammenhang mit der Differenzierung durch den
Gesamttest auf.
• Das Item ist ungeeignet, zwischen Probanden mit
hohem und niedrigem Testwert zu differenzieren
• Was auch immer das Item misst, es ist unabhängig von
dem, was die übrigen Items messen und damit auch
unabhängig von dem, was die Summe der übrigen Items
(der Testwert) misst.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
23
4.4.2 Interpretation der Trennschärfe
rit nahe bei -1
• Das Item wird von Probanden mit niedriger
Merkmalsausprägung gelöst und von Probanden mit
hoher Merkmalsausprägung nicht.
• Dies kann durch Mängel z.B. in der Instruktion oder bei
der Item-Formulierung bedingt sein, denen
nachgegangen werden muss.
• Bei Persönlichkeitstests ist es – unter Berücksichtigung
theoretischer Aspekte – möglich, das Item als
invertiertes Item zu nutzen (invertiert: Umkehrung der
Auswertung 01 und 10)
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
24
4.4.3 Weitergehende Überlegungen
• Die Itemanalyse dient der Beantwortung der
Frage, ob die einzelnen Items dasselbe Merkmal
messen.
• Die Dimensionalität der Items wird
faktorenanalytisch bestimmt.
– Homogene Items sollen dabei zu eindimensionalen
Skalen führen
– Heterogene Items zu mehrdimensionalen
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
25
4.5 Itemselektion und Revision des Tests
• Simultane Berücksichtigung von
Erkenntnissen der Prüfung der
– Itemschwierigkeit
– Itemvarianz
– Itemtrennschärfe
– Sowie der
• Reliabilität
• Validität
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
26
4.5 Itemselektion und Revision des Tests
• Itemschwierigkeit:
– optimal 50 + gute Trennschärfe
– Test zur Erfassung extremer Ausprägungen:
Itemschwierigkeiten 5-20 und 80-95 + gute
Trennschärfe
– Test zur Erfassung typischer Merkmale:
Itemschwierigkeiten von 5-95 gleichmäßig
verteilt + gute Trennschärfe
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
27
4.5 Itemselektion und Revision des Tests
• Itemvarianz: optimal mittlere Varianz
• Itemtrennschärfe:
– Optimal: 0.40-0.70
– Nicht in den Test aufnehmen: Items mit
Trennschärfe nahe 0 oder negativ
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
28
4.6 Testwertermittlung
4.6.1 Testwertermittlung bei Leistungstests
4.6.2 Testwertermittlung bei
Persönlichkeitstests
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
29
4.6 Testwertermittlung
m
xv 
x
vi
i 1
Die einfachste Möglichkeit, den Testwert xv eines
Probanden v zu bestimmen, besteht darin, die
einzelnen Antworten xvi auf die Items zu einem
Summenwert zusammenzufassen.
Diese Vorgehensweise setzt Intervallskalenniveau
voraus.
Die einfache Summierung stellt für die Test- und Fragebogenkonstruktionen nach der klassischen Testtheorie die Regel dar.
Aus praktischen Gründen ist es sinnvoll, zwischen der Testwertermittlung
bei Leistungstests und der Testwertermittlung bei Persönlichkeitstests zu
unterscheiden.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
30
4.6.1 Testwertermittlung bei
Leistungstests
• Einfachste Form der Testwertermittlung für
einen Probanden v: Testwert xv ist gleich
der Anzahl mR der richtig gelösten
Aufgaben: xv = mR
• Weiterhin: je nach Instruktion kann es
notwendig sein, falsche Antworten mF zu
berücksichtigen, c=Korrekturfaktor:
xv = mR – c * mF
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
31
4.6.1 Testwertermittlung bei
Leistungstests
• Sind die einzelnen Aufgaben von sehr
unterschiedlicher Bedeutung hinsichtlich
des zu beobachtenden Merkmals, so kann
man für jede einzelne Aufgabe i ein
Gewicht g(i) angeben, mit dem eine
richtige Antwort zu gewichten ist.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
32
4.6.1 Testwertermittlung bei
Leistungstests
• Der Testwert entspricht dann der Summe
der Aufgabengewichte der richtig gelösten
Aufgaben, ggf. korrigiert um die
Aufgabengewichte der falsch gelösten
Aufgaben.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
33
4.6.1 Testwertermittlung bei
Leistungstests
• Wenn bei Auswahlaufgaben richtige
Lösungen durch Zufall erreicht werden
können, würden Probanden benachteiligt,
die lieber keine als eine unsichere Antwort
geben.
• Daher werden Rate- bzw. Zufallskorrekturen vorgenommen.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
34
4.6.2 Testwertermittlung bei
Persönlichkeitstests
• Bei Persönlichkeitstests, die vornehmlich
als Fragebögen mit diskreten Ratingskalen
konzipiert werden, erfolgt die
Testwertermittlung i.d.R. durch
Summenbildung über die Itemantworten
hinweg.
• Dazu werden bei k-fach abgestuften Items
jeder potentiellen Itemantwort Werte
zwischen 0 und k-1 zugeordnet.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
35
4.6.2 Testwertermittlung bei
Persönlichkeitstests
• Die am wenigsten für das Kriterium
sprechende Stufe wird mit 0 Punkten
verrechnet, die am stärksten für das
Kriterium sprechende Stufe mit k-1
Punkten.
• Die dazwischen liegenden Stufen werden
entsprechend gewichtet (auf Itemm
Invertierungen achten!!!).
xv 
xvi
• Bspl.: 4+3+6+5+4+5=27

i 1
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
36
4.7 Testwertverteilung und
Normalisierung
4.7.1 Testwertverteilung
4.7.2 Ursachen für die Abweichung der
Testwertverteilung von der
Normalverteilung
4.7.3 Normalisierung
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
37
4.7 Testwertverteilung und
Normalisierung
• Ist die Testwertermittlung abgeschlossen,
kann die Testwertverteilung mittels der
Bestimmung von Mittelwert, Median,
Modalwert, Testwertvarianz und
Spannweite sowie Schiefe und Exzess
genauer untersucht werden.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
38
4.7.1 Testwertverteilung
n
n
m
x  x
v
x
v 1
vi

v 1
i 1
n
n
Bei intervallskalierten Testwerten berechnet
man aus einer Menge von Testwerten für n
Probanden den Mittelwert x(quer).
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
39
4.7.1 Testwertverteilung
Der Median ist der Testwert, der die
Stichprobe in 2 gleichgroße Hälften
teilt.
Der Modalwert ist der häufigste
Testwert der Verteilung.
n
 ( x  E ( x ))
v
Var ( x ) 
v 1
n 1
2
Die Varianz var(x) ist das übliche
Streuungsmaß, E(x)=Mittelwert.
Die Wurzel aus der Varianz ist die
Standardabweichung.
Range umfasst die Spannweite minmax.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
40
4.7.1 Testwertverteilung
Normalverteilung oder nicht?
Schiefe( x ) 
Exzess( x ) 
E((x  E( x ))3 )
SD( x )3
E((x  E( x ))4 )
SD( x )2
Schiefe(x) >0, dann ist die Verteilung
rechtsschief, d.h. linkssteil
Schiefe(x) <0, linksschief, d.h.
rechtssteil – Werte, die größer sind als
der Mittelwert sind häufiger, so dass
sich der Median rechts vom Mittelwert
befindet, der linke Teil der Verteilung
ist flacher als der rechte
Exzess(x) = 0, die Wölbung der
Verteilung entspricht der
Normalverteilung.
Exzess(x)>0, spitzere Verteilung
Exzess(x)<0, flachere Verteilung
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
41
SPSS Beispiel
• N=1.123
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
42
SPSS Beispiel
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
43
4.7.2 Ursachen für die Abweichung der
Testwertverteilung von der Normalverteilung
• Bei psychologischen Merkmalen im Leistungsbereich kann eine
Normalverteilung der Testwerte häufig dahingehend interpretiert
werden, dass der Test angemessene Anforderungen an die
Probanden richtet. Weicht die Testwertverteilung von der
Normalverteilung ab, so kann das unterschiedliche Ursachen haben:
• Konstruktionsmängel
– Linksschief, d.h. rechtssteile Verteilung – Test zu leicht
– Rechtsschief, d.h. linkssteile Verteilung – Test zu schwer
– Reaktion: Hinzunahme schwerer bzw. leichter Items (gegensätzlicher!)
• Heterogene Stichproben
– Verschiedene Untergruppen haben zwar für sich normalverteilte Ergebnisse, nur
in der Summe ist es nicht so – Reaktion: gruppenspezifische Normierung
• Nicht-normalverteilte Merkmale z.B. Reaktionsfähigkeit
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
44
4.7.3 Normalisierung
Ist die Annahme vertretbar, dass das gemessene Merkmal
eigentlich normalverteilt ist, kann eine nicht-lineare
Transformation der Testwerte durchgeführt werden –
Normalisierung.
Obacht: nicht mit „Normierung“ verwechseln, dies bedeutet die
Transformation der Daten zwecks Interpretation vor dem
Hintergrund eines Bezugsrahmens – der Normverteilung.
Normalisierung:
•Ausgangspunkt: eine nicht-normalverteilte Testwerteverteilung
•Ziel: Anpassung der Verteilung der Testwerte an die Normalverteilung
•Logarithmierung: jeder Testwert wird logarithmiert
•Spezialfälle der Logarithmierung: Box-Cox-Verfahren sowie YeoJohnson Transformation
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
45
4.7.3 Normalisierung
fcum( xv)
PR( v ) 
*100
n
Flächentransformation nach McCall (1939)
Anpassung der einzelnen Säulen im Histogramm in Höhe und Breite
an die Normalverteilung – Fläche bleibt unverändert
1. Schritt – Prozentrang bestimmen PR(v) – aus dem Quotienten der
kumulierten Anzahl der Probanden, die einen Testwert < x(v) haben
(f(cum)(x(v)) und der Gesamtzahl der Probanden n multipliziert mit 100 –
danach z-Transformation
2. Schritt – eigentliche Normalisierung z‘-Werte bilden
3. Schritt – Erstellen eines neuen Histogramms
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
46
Beispiel Normalisierung
(Ausschnitt)
http://www.ewi-psy.fu-berlin.de/einrichtungen/arbeitsbereiche/diagpers/media/lehrveranstaltungen/ws0506/skript6.pdf?1286346962
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
47
Beispiel Normalisierung
Vorher
nachher
http://www.ewi-psy.fu-berlin.de/einrichtungen/arbeitsbereiche/diagpers/media/lehrveranstaltungen/ws0506/skript6.pdf?1286346962
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
48
4.8 Zusammenfassung und
weiteres Vorgehen
• Nach der ersten Datenerhebung erfolgt die
psychometrische Aufbereitung der gewonnen
Daten mit den deskriptivstatistischen
Analysen
–
–
–
–
–
Analyse der Itemschwierigkeit
Analyse der Itemvarianzen
Bestimmung der Itemtrennschärfen
Dann Selektion der geeigneten Items
Testwerteermittlung – Normalisierung –
Reliabilitätsanalyse – Validitätsprüfung
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
49
Literatur
• Bühner, M. (2010). Einführung in die Testund Fragebogenkonstruktion (3., aktualisierte
und erweiterte Aufl.). München: Pearson
Studium.
• Kelava, A. & Moosbrugger, H: (2012).
Deskriptivstatistische Evaluation von Items
(Itemanalyse) und Testwertverteilungen. In H.
Moosbrugger & A. Kelava: Testtheorie und
Fragebogenkonstruktion (2. Auflage).
Heidelberg: Springer.
GHF B.Sc. 4.3-4.8 Deskriptive Statistik
50
Herunterladen