beispiel itemvarianz - Franke

Werbung
3.2 Grundlagen der Testtheorie
3.2.4 Deskriptive Statistik
Hochschule Magdeburg-Stendal
Rehabilitationspsychologie B.Sc.
Prof. Dr. Gabriele Helga Franke
Januar 2011
4.1 Einleitung
4.2 Schwierigkeitsanalyse
4.3 Itemvarianz
4.4 Trennschärfeanalyse
4.5 Itemselektion und Revision des Tests
4.6 Testwertermittlung
4.7 Testwerteverteilung und Normalisierung
4.8 Zusammenfassung und weiteres Vorgehen
KAPITEL 4 –
DESKRIPTIVE STATISTIK
UND ITEMANALYSE
GHF
4.3 Itemvarianz
4.3.1 Differenzierungsfähigkeit eines Items
4.3.2 Zusammenhang von Itemvarianz und
Itemschwierigkeit
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
2
4.3 Itemvarianz
Liegt die Schwierigkeit eines Items fest, so
ist die mögliche Ausprägung seiner Varianz
begrenzt.
 Itemvarianz = Differenzierungsfähigkeit
eines Items i hinsichtlich der untersuchten
Probandenstichprobe

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
3
BEISPIEL ITEMVARIANZ
FPI-R Item Nr. 128: „Alles in allem bin ich
ausgesprochen zufrieden mit meinem bisherigen
Leben“
FPI-R Item Nr. 128 bei n=268 Stud.
 Var(Item128) = 0,188
 Schwierigkeitsindex = 75
 Item mittlerer Schwierigkeit leisten viele
Differenzierungen, Items mit extremer
Schwierigkeit hingegen weniger. Items mit
einer Schwierigkeit von 0 oder 100 können
gar nicht differenzieren.

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
4
4.3.1 Differenzierungsfähigkeit eines
Items

n
Var ( xi ) 
 (x
v 1
vi
 x i )²
n
n
Var ( x i ) 
 (x
vi  pi * (k  1))²
v 1
n
Die Differenzierungsfähigkeit
Var(x(i)) eines Items wird
numerisch berechnet.
Da der Itemmittelwert x-quer(i) und
die Lösungswahrscheinlichkeit p(i)
in funktionaler Abhängigkeit
zueinander stehen, lässt sich die
Itemvarianz auch so berechnen.
Mit p(i) = P(i) / 100 und k = Anzahl
der Antwortstufen des Items i und
p(i) * (k-1) als durchschnittliche
Antwort aller Probanden auf das
Item i.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
5
BEISPIEL ITEMVARIANZ
Wir stellen uns 10 Probanden vor, die vier
Prüfungen (Items) zu absolvieren haben
 Bestehen eines Probanden v in einem Test i
wird mit x(vi)=1 und Scheitern mit x(vi)=0
kodiert
 Lösungswahrscheinlichkeiten p(i) (P(i)/100)
der vier Items sind

◦ p(1)=9/10=0,90
◦ p(3)=2/10=0,20
* p(2)=5/10=0,50
* p(4)=0/10=0
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
6
BEISPIEL ITEMVARIANZ
Proband
Item 1
Item 2
Item 3
Item 4
Sum
richtig
Sum
falsch
1
1
1
1
0
3
1
2
1
1
1
0
3
1
3
1
1
0
0
2
2
4
1
1
0
0
2
2
5
1
1
0
0
2
2
6
1
0
0
0
1
3
7
1
0
0
0
1
3
8
1
0
0
0
1
3
9
1
0
0
0
1
3
10
0
0
0
0
0
4
n(richtig)
9
5
2
0
n(falsch)
1
5
8
10
pi
0,90
0,50
0,20
0,00
Var(xi)
0,09
0,25
0,16
0,00
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
7
BEISPIEL ITEMVARIANZ
Item 1: niedrige Varianz, 1 Proband fiel durch
und 9 haben bestanden: 1*9=9
Differenzierungen
 Item 2: hohe Varianz, 5 Probanden fielen durch
und 5 haben bestanden: 5*5=25
Differenzierungen
 Item 3: mittlere Varianz, 8*2=16
Differenzierungen
 Item 4: keine Varianz, 0*0=0

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
8
BEISPIEL ITEMVARIANZ

Item mittlerer Schwierigkeit leisten viele
Differenzierungen, Items mit extremer
Schwierigkeit hingegen weniger. Items mit
einer Schwierigkeit von 0 oder 100 können
gar nicht differenzieren.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
9
4.3.2 Zusammenhang von Itemvarianz
und Itemschwierigkeit
Für zweistufige Items lässt
sich die Gleichung zur
Bestimmung der Itemvarianz
vereinfachen.
Var ( xi )  pi * (1  pi ) Die Itemvarianz entspricht
dann dem Produkt der
Wahrscheinlichkeit, das Item i
zu lösen (p(i)), und der
Gegenwahrscheinlichkeit,
das Item i nicht zu lösen (1p(i)).
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
10
4.3.2 Zusammenhang von Itemvarianz
und Itemschwierigkeit
Für zweistufige Items
erhalten wir somit einen
quadratischen
Zusammenhang zwischen
Var ( xi )  pi * (1  pi ) Itemschwierigkeit (bzw.
Lösungswahrscheinlichkeit)
und Itemvarianz.
Die Itemvarianz hat bei
dichotomen Items ihr
Maximum bei mittlerer
Schwierigkeit (50) – während
sie zu den beiden extremen
Ausprägungen hin (0 und
100) abnimmt.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
11
KAPITEL 4 –
DESKRIPTIVE STATISTIK
UND ITEMANALYSE
GHF
4.4 Trennschärfeanalyse
4.4.1 Berechnung der Trennschärfe
4.4.2 Interpretation der Trennschärfe
4.4.3 Weitergehende Überlegungen
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
12
4.4 Trennschärfeanalyse
•Die Trennschärfe r(it) eines Items i drückt aus,
wie groß der korrelative Zusammenhang der
Itemwerte x(vi) mit den Testwerten x(v) ist, die
aus sämtlichen Items des Tests gebildet
werden.
•Die Trennschärfe gibt an, wie stark die
Differenzierung des jeweiligen Items mit der
Differenzierung der zum Testwert
zusammengefassten übrigen Items
übereinstimmt.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
13
4.4.1 Berechnung der Trennschärfe
rit  r ( xvi, xv)
Zur Berechnung der Trennschärfe wird
über alle Probanden hinweg der
Zusammenhang des Items i (x(vi)) mit
m
dem Testwert x(v) bestimmt.
xv 
xvi
Unter dem Testwert x(v) eines
i 1
Probanden versteht man zumeist den
Summenwert aller Itemwerte
Oder
Den Summenwert ohne Item i =
 m

xv ( i )  
xvi   xvi Trennschärfebestimmung bei wenigen


Items (part-whole-correction), um die
 i 1 
Trennschärfe nicht zu überschätzen.
Die Trennschärfe bestimmt sich dann so


rit (i )  r( xvi, xv(i ))
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
14
4.4.1 Berechnung der Trennschärfe
Die Bildung des Testwertes setzt voraus,
dass alle Items inhaltlich dasselbe
Merkmal erfassen. Streng genommen wird
vorausgesetzt, dass die Items homogen
sind.
 Da die Trennschärfe ein Maß des
Zusammenhangs ist und als Korrelation
berechnet wird, kann sie Werte im
Bereich [-1, 1] annehmen

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
15
4.4.1 Berechnung der Trennschärfe
Eine hohe Trennschärfe wird im
Allgemeinen durch eine hohe Itemvarianz
begünstigt.
 Dies gilt sowohl bei intervallskalierten als
auch bei dichotomen Items.
 Dennoch garantiert eine hohe
Itemvarianz nicht unbedingt eine hohe
Trennschärfe

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
16
4.4.1 Berechnung der Trennschärfe
Bei intervallskalierten Items
kann man aus der einfachen,
r SD( x)  SD( x )
unkorrigierten Item-Testwertr 
SD( x) 2  SD( x ) 2  2r SD( x) * SD( x ) Korrelation r(it) die korrigierte
(part-whole-corrected)
Trennschärfe r(it(i))
berechnen.
it
i
it ( i )
i
it
i
SD(x) = Standardabweichung der Testwerte
SD(x(i)) = Standardabweichung des Items i
r(it)SD(x)*SD(x(i)) = Kovarianz zwischen den Itemwerten x(vi) von
Item i und den Testwerten x(v)
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
17
4.4.1 Berechnung der Trennschärfe
rit (i ) 
xvo  xv1
non1
SD( x ) n (n  1)
Bei dichotomen Items kann die
Trennschärfe einfacher als
Punktbiseriale Korrelation berechnet
werden
x-quer (v(0)) und x-quer(v(1)) = Mittelwerte der Probanden, die in
Item i entweder eine 0 oder eine 1 als Antwort hatten
n(0) und n(1) = jeweilige Anzahl der Probanden, die in Item i eine 0
oder eine 1 als Antwort hatten
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
18
4.4.1 Berechnung der Trennschärfe
rit (i ) 
rit SD( x )  pi(1  pi)
SD( x )2  pi(1  pi)  2rit SD( x ) pi(1  pi)
Aus der unkorrigierten Trennschärfe lässt sich die korrigierte
Trennschärfe berechnen.
p(i) = Lösungswahrscheinlichkeit für Item i
Die Standardabweichung des Items i = Lösungswahrscheinlichkeit p(i)
und die Gegenwahrscheinlichkeit (1-p(i))
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
19
4.4.2 Interpretation der
Trennschärfe
Weil die Trennschärfe r(it) eines Items i
unterschiedliche Werte annehmen kann,
zieht man je nach Ausprägung
unterschiedliche Schlussfolgerungen:
 r(it) nahe bei 1
 r(it) nahe bei 0
 r(it) nahe bei -1

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
20
4.4.2 Interpretation der
Trennschärfe
r(it) nahe bei 1



Das Item wird von Probanden mit hohem Testwert
(hohe Merkmalsausprägung) gelöst bzw. symptomatisch
beantwortet und von Probanden mit niedrigem
Testwert (niedriger Merkmalsausprägung) nicht
Hohe positive Trennschärfen = die einzelnen Items
messen sehr Ähnliches wie der Gesamttest
Trennschärfen im Bereich von 0.40 – 0.70 gelten als
gute Trennschärfen
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
21
4.4.2 Interpretation der
Trennschärfe
r(it) nahe bei 0



Die mit dem Item erzielte Differenzierung weist keinen
Zusammenhang mit der Differenzierung durch den
Gesamttest auf.
Das Item ist ungeeignet, zwischen Probanden mit
hohem und niedrigem Testwert zu differenzieren
Was auch immer das Item misst, es ist unabhängig von
dem, was die übrigen Items messen und damit auch
unabhängig von dem, was die Summe der übrigen Items
(der Testwert) misst.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
22
4.4.2 Interpretation der
Trennschärfe
r(it) nahe bei -1



Das Item wird von Probanden mit niedriger
Merkmalsausprägung gelöst und von Probanden mit
hoher Merkmalsausprägung nicht.
Dies kann durch Mängel z.B. in der Instruktion oder bei
der Item-Formulierung bedingt sein, denen
nachgegangen werden muss.
Bei Persönlichkeitstests ist es – unter Berücksichtigung
theoretischer Aspekte – möglich, das Item als
invertiertes Item zu nutzen (invertiert: Umkehrung der
Auswertung 01 und 10)
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
23
4.4.3 Weitergehende Überlegungen

Die Itemanalyse dient der Beantwortung der Frage, ob
die einzelnen Items dasselbe Merkmal messen.

Die Dimensionalität der Items wird faktorenanalytisch
bestimmt.
◦ Homogene Items sollen dabei zu eindimensionalen Skalen führen
◦ Heterogene Items zu mehrdimensionalen
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
24
4.5 Itemselektion und Revision des
Tests

Simultane Berücksichtigung von
Erkenntnissen der Prüfung der
◦
◦
◦
◦
Itemschwierigkeit
Itemvarianz
Itemtrennschärfe
Sowie der
 Reliabilität
 Validität
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
25
4.5 Itemselektion und Revision des
Tests

Itemschwierigkeit:
◦ optimal 50 + gute Trennschärfe
◦ Test zur Erfassung extremer Ausprägungen:
Itemschwierigkeiten 5-20 und 80-95 + gute
Trennschärfe
◦ Test zur Erfassung typischer Merkmale:
Itemschwierigkeiten von 5-95 gleichmäßig
verteilt + gute Trennschärfe
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
26
4.5 Itemselektion und Revision des
Tests
Itemvarianz: optimal mittlere Varianz
 Itemtrennschärfe:

◦ Optimal: 0.40-0.70
◦ Nicht in den Test aufnehmen: Items mit
Trennschärfe nahe 0 oder negativer
Trennschärfe
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
27
KAPITEL 4 –
DESKRIPTIVE STATISTIK
UND ITEMANALYSE
GHF
4.6 Testwertermittlung
4.6.1 Testwertermittlung bei Leistungstests
4.6.2 Testwertermittlung bei
Persönlichkeitstests
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
28
4.6 Testwertermittlung
m
xv 
x
vi
i 1
Die einfachste Möglichkeit, den Testwert x(v)
eines Probanden v zu bestimmen, besteht darin,
die einzelnen Antworten x(vi) auf die Items zu
einem Summenwert zusammenzufassen.
Diese Vorgehensweise setzt
Intervallskalenniveau voraus.
Die einfache Summierung stellt für die Test- und
Fragebogenkonstruktionen nach der klassischen
Testtheorie die Regel dar.
Aus praktischen Gründen ist es sinnvoll,
zwischen der Testwertermittlung bei
Leistungstests und der Testwertermittlung bei
Persönlichkeitstests zu unterscheiden.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
29
4.6.1 Testwertermittlung bei
Leistungstests
Einfachste Form der Testwertermittlung
für einen Probanden v: Testwert x(v) ist
gleich der Anzahl m(R) der richtig
gelösten Aufgaben: x(v) = m(R)
 Weiterhin: je nach Instruktion kann es
notwendig sein, falsche Antworten m(F)
zu berücksichtigen, c=Korrekturfaktor:
x(v) = m(R) – c * m(F)

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
30
4.6.1 Testwertermittlung bei
Leistungstests

Sind die einzelnen Aufgaben von sehr
unterschiedlicher Bedeutung hinsichtlich
des zu beobachtenden Merkmals, so kann
man für jede einzelne Aufgabe i ein
Gewicht g(i) angeben, mit dem eine
richtige Antwort zu gewichten ist.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
31
4.6.1 Testwertermittlung bei
Leistungstests

Der Testwert entspricht dann der Summe
der Aufgabengewichte der richtig gelösten
Aufgaben, ggf. korrigiert um die
Aufgabengewichte der falsch gelösten
Aufgaben.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
32
4.6.1 Testwertermittlung bei
Leistungstests
Wenn bei Auswahlaufgaben richtige
Lösungen durch Zufall erreicht werden
können, würden Probanden benachteiligt,
die lieber keine als eine unsichere
Antwort geben.
 Daher werden Rate- bzw.
Zufallskorrekturen vorgenommen.

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
33
4.6.2 Testwertermittlung bei
Persönlichkeitstests
Bei Persönlichkeitstests, die vornehmlich
als Fragebögen mit diskreten Ratingskalen
konzipiert werden, erfolgt die
Testwertermittlung i.d.R. durch
Summenbildung über die Itemantworten
hinweg.
 Dazu werden bei k-fach abgestuften Items
jeder potentiellen Itemantwort Werte
zwischen 0 und k-1 zugeordnet.

GHF B.Sc. 3-2-4 Deskriptive Statistik-II
34
4.6.2 Testwertermittlung bei
Persönlichkeitstests
Die am wenigsten für das Kriterium
sprechende Stufe wird mit 0 Punkten
verrechnet, die am stärksten für das
Kriterium sprechende Stufe mit k-1
Punkten.
 Die dazwischen liegenden Stufen werden
entsprechend gewichtet (auf
m
Iteminversionen achten).
xv 
xvi
 Bspl.: 4+3+6+5+4+5=27


i 1
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
35
KAPITEL 4 –
DESKRIPTIVE STATISTIK
UND ITEMANALYSE
GHF
4.7 Testwertverteilung und Normalisierung
4.7.1 Testwertverteilung
4.7.2 Ursachen für die Abweichung der
Testwertverteilung von der Normalverteilung
4.7.3 Normalisierung
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
36
4.7 Testwertverteilung und
Normalisierung

Ist die Testwertermittlung abgeschlossen,
kann die Testwertverteilung mittels der
Bestimmung von Mittelwert, Median,
Modalwert, Testwertvarianz und
Spannweite sowie Schiefe und Exzess
genauer untersucht werden.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
37
4.7.1 Testwertverteilung
n
n
m
x  x
v
x
v 1
n
vi

v 1
i 1
n
n
 ( x  E ( x ))
v
Var ( x ) 
v 1
n 1
2
Bei intervallskalierten Testwerten
berechnet man aus einer Menge von
Testwerten für n Probanden den
Mittelwert x(quer).
Der Median ist der Testwert, der die
Stichprobe in 2 gleichgroße Hälften
teilt.
Der Modalwert ist der häufigste
Testwert der Verteilung.
Die Varianz var(x) ist das übliche
Streuungsmaß, E(x)=Mittelwert. Die
Wurzel aus der Varianz ist die
Standardabweichung.
Range umfasst die Spannweite minmax.
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
38
4.7.1 Testwertverteilung
Normalverteilung oder nicht?
Schiefe( x ) 
E((x  E( x ))3 )
SD( x )
Exzess( x ) 
3
E((x  E( x ))4 )
SD( x )2
Schiefe(x) >0, dann ist die Verteilung
rechtsschief, d.h. linkssteil
Schiefe(x) <0, linksschief, d.h. rechtssteil –
Werte, die größer sind als der Mittelwert
sind häufiger, so dass sich der Median
rechts vom Mittelwert befindet, der linke
Teil der Verteilung ist flacher als der rechte
Exzess(x) = 0, die Wölbung der Verteilung
entspricht der Normalverteilung.
Exzess(x)>0, spitzere Verteilung
Exzess(x)<0, flachere Verteilung
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
39
4.7.2 Ursachen für die Abweichung der
Testwertverteilung von der Normalverteilung


Bei psychologischen Merkmalen im Leistungsbereich kann eine
Normalverteilung der Testwerte häufig dahingehend interpretiert
werden, dass der Test angemessene Anforderungen an die
Probanden richtet. Weicht die Testwertverteilung von der
Normalverteilung ab, so kann das unterschiedliche Ursachen haben:
Konstruktionsmängel
◦ Linksschief, d.h. rechtssteile Verteilung – Test zu leicht
◦ Rechtsschief, d.h. linkssteile Verteilung – Test zu schwer
◦ Reaktion: Hinzunahme schwerer bzw. leichter Items

Heterogene Stichproben
◦ Verschiedene Untergruppen haben zwar für sich normalverteilte Ergebnisse, nur
in der Summe ist es nicht so – Reaktion: gruppenspezifische Normierung

Nicht-normalverteilte Merkmale z.B. Reaktionsfähigkeit
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
40
4.7.3 Normalisierung
Ist die Annahme vertretbar, dass das gemessene Merkmal
eigentlich normalverteilt ist, kann eine nicht-lineare Transformation
der Testwerte durchgeführt werden – Normalisierung.
Obacht: nicht mit „Normierung“ verwechseln, dies bedeutet die
Transformation der Daten zwecks Interpretation vor dem
Hintergrund eines Bezugsrahmens – der Normverteilung.
Normalisierung:
•Ausgangspunkt: eine nicht-normalverteilte Testwerteverteilung
•Ziel: Anpassung der Verteilung der Testwerte an die Normalverteilung
•Logarithmierung: einfachste Transformation, jeder Testwert wird
logarithmiert
•Spezialfälle der Logarithmierung: Box-Cox-Verfahren sowie YeoJohnson Transformation
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
41
4.7.3 Normalisierung
fcum( xv)
PR( v ) 
*100
n
Flächentransformation nach McCall (1939)
Anpassung der einzelnen Säulen im Histogramm
in Höhe und Breite an die Normalverteilung –
Fläche bleibt unverändert
1. Schritt – Prozentrang bestimmen PR(v) – aus
dem Quotienten der kumulierten Anzahl der
Probanden, die einen Testwert < x(v) haben
(f(cum)(x(v)) und der Gesamtzahl der Probanden
n multipliziert mit 100 – danach z-Transformation
2. Schritt – eigentliche Normalisierung z‘-Werte bilden
3. Schritt – Erstellen eines neuen Histogramms
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
42
4.8 Zusammenfassung und weiteres
Vorgehen

Nach der ersten Datenerhebung erfolgt
die psychometrische Aufbereitung der
gewonnen Daten mit den
deskriptivstatistischen Analysen
◦
◦
◦
◦
◦
Analyse der Itemschwierigkeit
Analyse der Itemvarianzen
Bestimmung der Itemtrennschärfen
Dann Selektion der geeigneten Items
Testwerteermittlung – Normalisierung –
Reliabilitätsanalyse - Validitätsprüfung
GHF B.Sc. 3-2-4 Deskriptive Statistik-II
43
Herunterladen