3.2 Grundlagen der Testtheorie 3.2.4 Deskriptive Statistik Hochschule Magdeburg-Stendal Rehabilitationspsychologie B.Sc. Prof. Dr. Gabriele Helga Franke Januar 2011 4.1 Einleitung 4.2 Schwierigkeitsanalyse 4.3 Itemvarianz 4.4 Trennschärfeanalyse 4.5 Itemselektion und Revision des Tests 4.6 Testwertermittlung 4.7 Testwerteverteilung und Normalisierung 4.8 Zusammenfassung und weiteres Vorgehen KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.3 Itemvarianz 4.3.1 Differenzierungsfähigkeit eines Items 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit GHF B.Sc. 3-2-4 Deskriptive Statistik-II 2 4.3 Itemvarianz Liegt die Schwierigkeit eines Items fest, so ist die mögliche Ausprägung seiner Varianz begrenzt. Itemvarianz = Differenzierungsfähigkeit eines Items i hinsichtlich der untersuchten Probandenstichprobe GHF B.Sc. 3-2-4 Deskriptive Statistik-II 3 BEISPIEL ITEMVARIANZ FPI-R Item Nr. 128: „Alles in allem bin ich ausgesprochen zufrieden mit meinem bisherigen Leben“ FPI-R Item Nr. 128 bei n=268 Stud. Var(Item128) = 0,188 Schwierigkeitsindex = 75 Item mittlerer Schwierigkeit leisten viele Differenzierungen, Items mit extremer Schwierigkeit hingegen weniger. Items mit einer Schwierigkeit von 0 oder 100 können gar nicht differenzieren. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 4 4.3.1 Differenzierungsfähigkeit eines Items n Var ( xi ) (x v 1 vi x i )² n n Var ( x i ) (x vi pi * (k 1))² v 1 n Die Differenzierungsfähigkeit Var(x(i)) eines Items wird numerisch berechnet. Da der Itemmittelwert x-quer(i) und die Lösungswahrscheinlichkeit p(i) in funktionaler Abhängigkeit zueinander stehen, lässt sich die Itemvarianz auch so berechnen. Mit p(i) = P(i) / 100 und k = Anzahl der Antwortstufen des Items i und p(i) * (k-1) als durchschnittliche Antwort aller Probanden auf das Item i. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 5 BEISPIEL ITEMVARIANZ Wir stellen uns 10 Probanden vor, die vier Prüfungen (Items) zu absolvieren haben Bestehen eines Probanden v in einem Test i wird mit x(vi)=1 und Scheitern mit x(vi)=0 kodiert Lösungswahrscheinlichkeiten p(i) (P(i)/100) der vier Items sind ◦ p(1)=9/10=0,90 ◦ p(3)=2/10=0,20 * p(2)=5/10=0,50 * p(4)=0/10=0 GHF B.Sc. 3-2-4 Deskriptive Statistik-II 6 BEISPIEL ITEMVARIANZ Proband Item 1 Item 2 Item 3 Item 4 Sum richtig Sum falsch 1 1 1 1 0 3 1 2 1 1 1 0 3 1 3 1 1 0 0 2 2 4 1 1 0 0 2 2 5 1 1 0 0 2 2 6 1 0 0 0 1 3 7 1 0 0 0 1 3 8 1 0 0 0 1 3 9 1 0 0 0 1 3 10 0 0 0 0 0 4 n(richtig) 9 5 2 0 n(falsch) 1 5 8 10 pi 0,90 0,50 0,20 0,00 Var(xi) 0,09 0,25 0,16 0,00 GHF B.Sc. 3-2-4 Deskriptive Statistik-II 7 BEISPIEL ITEMVARIANZ Item 1: niedrige Varianz, 1 Proband fiel durch und 9 haben bestanden: 1*9=9 Differenzierungen Item 2: hohe Varianz, 5 Probanden fielen durch und 5 haben bestanden: 5*5=25 Differenzierungen Item 3: mittlere Varianz, 8*2=16 Differenzierungen Item 4: keine Varianz, 0*0=0 GHF B.Sc. 3-2-4 Deskriptive Statistik-II 8 BEISPIEL ITEMVARIANZ Item mittlerer Schwierigkeit leisten viele Differenzierungen, Items mit extremer Schwierigkeit hingegen weniger. Items mit einer Schwierigkeit von 0 oder 100 können gar nicht differenzieren. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 9 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit Für zweistufige Items lässt sich die Gleichung zur Bestimmung der Itemvarianz vereinfachen. Var ( xi ) pi * (1 pi ) Die Itemvarianz entspricht dann dem Produkt der Wahrscheinlichkeit, das Item i zu lösen (p(i)), und der Gegenwahrscheinlichkeit, das Item i nicht zu lösen (1p(i)). GHF B.Sc. 3-2-4 Deskriptive Statistik-II 10 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit Für zweistufige Items erhalten wir somit einen quadratischen Zusammenhang zwischen Var ( xi ) pi * (1 pi ) Itemschwierigkeit (bzw. Lösungswahrscheinlichkeit) und Itemvarianz. Die Itemvarianz hat bei dichotomen Items ihr Maximum bei mittlerer Schwierigkeit (50) – während sie zu den beiden extremen Ausprägungen hin (0 und 100) abnimmt. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 11 KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.4 Trennschärfeanalyse 4.4.1 Berechnung der Trennschärfe 4.4.2 Interpretation der Trennschärfe 4.4.3 Weitergehende Überlegungen GHF B.Sc. 3-2-4 Deskriptive Statistik-II 12 4.4 Trennschärfeanalyse •Die Trennschärfe r(it) eines Items i drückt aus, wie groß der korrelative Zusammenhang der Itemwerte x(vi) mit den Testwerten x(v) ist, die aus sämtlichen Items des Tests gebildet werden. •Die Trennschärfe gibt an, wie stark die Differenzierung des jeweiligen Items mit der Differenzierung der zum Testwert zusammengefassten übrigen Items übereinstimmt. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 13 4.4.1 Berechnung der Trennschärfe rit r ( xvi, xv) Zur Berechnung der Trennschärfe wird über alle Probanden hinweg der Zusammenhang des Items i (x(vi)) mit m dem Testwert x(v) bestimmt. xv xvi Unter dem Testwert x(v) eines i 1 Probanden versteht man zumeist den Summenwert aller Itemwerte Oder Den Summenwert ohne Item i = m xv ( i ) xvi xvi Trennschärfebestimmung bei wenigen Items (part-whole-correction), um die i 1 Trennschärfe nicht zu überschätzen. Die Trennschärfe bestimmt sich dann so rit (i ) r( xvi, xv(i )) GHF B.Sc. 3-2-4 Deskriptive Statistik-II 14 4.4.1 Berechnung der Trennschärfe Die Bildung des Testwertes setzt voraus, dass alle Items inhaltlich dasselbe Merkmal erfassen. Streng genommen wird vorausgesetzt, dass die Items homogen sind. Da die Trennschärfe ein Maß des Zusammenhangs ist und als Korrelation berechnet wird, kann sie Werte im Bereich [-1, 1] annehmen GHF B.Sc. 3-2-4 Deskriptive Statistik-II 15 4.4.1 Berechnung der Trennschärfe Eine hohe Trennschärfe wird im Allgemeinen durch eine hohe Itemvarianz begünstigt. Dies gilt sowohl bei intervallskalierten als auch bei dichotomen Items. Dennoch garantiert eine hohe Itemvarianz nicht unbedingt eine hohe Trennschärfe GHF B.Sc. 3-2-4 Deskriptive Statistik-II 16 4.4.1 Berechnung der Trennschärfe Bei intervallskalierten Items kann man aus der einfachen, r SD( x) SD( x ) unkorrigierten Item-Testwertr SD( x) 2 SD( x ) 2 2r SD( x) * SD( x ) Korrelation r(it) die korrigierte (part-whole-corrected) Trennschärfe r(it(i)) berechnen. it i it ( i ) i it i SD(x) = Standardabweichung der Testwerte SD(x(i)) = Standardabweichung des Items i r(it)SD(x)*SD(x(i)) = Kovarianz zwischen den Itemwerten x(vi) von Item i und den Testwerten x(v) GHF B.Sc. 3-2-4 Deskriptive Statistik-II 17 4.4.1 Berechnung der Trennschärfe rit (i ) xvo xv1 non1 SD( x ) n (n 1) Bei dichotomen Items kann die Trennschärfe einfacher als Punktbiseriale Korrelation berechnet werden x-quer (v(0)) und x-quer(v(1)) = Mittelwerte der Probanden, die in Item i entweder eine 0 oder eine 1 als Antwort hatten n(0) und n(1) = jeweilige Anzahl der Probanden, die in Item i eine 0 oder eine 1 als Antwort hatten GHF B.Sc. 3-2-4 Deskriptive Statistik-II 18 4.4.1 Berechnung der Trennschärfe rit (i ) rit SD( x ) pi(1 pi) SD( x )2 pi(1 pi) 2rit SD( x ) pi(1 pi) Aus der unkorrigierten Trennschärfe lässt sich die korrigierte Trennschärfe berechnen. p(i) = Lösungswahrscheinlichkeit für Item i Die Standardabweichung des Items i = Lösungswahrscheinlichkeit p(i) und die Gegenwahrscheinlichkeit (1-p(i)) GHF B.Sc. 3-2-4 Deskriptive Statistik-II 19 4.4.2 Interpretation der Trennschärfe Weil die Trennschärfe r(it) eines Items i unterschiedliche Werte annehmen kann, zieht man je nach Ausprägung unterschiedliche Schlussfolgerungen: r(it) nahe bei 1 r(it) nahe bei 0 r(it) nahe bei -1 GHF B.Sc. 3-2-4 Deskriptive Statistik-II 20 4.4.2 Interpretation der Trennschärfe r(it) nahe bei 1 Das Item wird von Probanden mit hohem Testwert (hohe Merkmalsausprägung) gelöst bzw. symptomatisch beantwortet und von Probanden mit niedrigem Testwert (niedriger Merkmalsausprägung) nicht Hohe positive Trennschärfen = die einzelnen Items messen sehr Ähnliches wie der Gesamttest Trennschärfen im Bereich von 0.40 – 0.70 gelten als gute Trennschärfen GHF B.Sc. 3-2-4 Deskriptive Statistik-II 21 4.4.2 Interpretation der Trennschärfe r(it) nahe bei 0 Die mit dem Item erzielte Differenzierung weist keinen Zusammenhang mit der Differenzierung durch den Gesamttest auf. Das Item ist ungeeignet, zwischen Probanden mit hohem und niedrigem Testwert zu differenzieren Was auch immer das Item misst, es ist unabhängig von dem, was die übrigen Items messen und damit auch unabhängig von dem, was die Summe der übrigen Items (der Testwert) misst. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 22 4.4.2 Interpretation der Trennschärfe r(it) nahe bei -1 Das Item wird von Probanden mit niedriger Merkmalsausprägung gelöst und von Probanden mit hoher Merkmalsausprägung nicht. Dies kann durch Mängel z.B. in der Instruktion oder bei der Item-Formulierung bedingt sein, denen nachgegangen werden muss. Bei Persönlichkeitstests ist es – unter Berücksichtigung theoretischer Aspekte – möglich, das Item als invertiertes Item zu nutzen (invertiert: Umkehrung der Auswertung 01 und 10) GHF B.Sc. 3-2-4 Deskriptive Statistik-II 23 4.4.3 Weitergehende Überlegungen Die Itemanalyse dient der Beantwortung der Frage, ob die einzelnen Items dasselbe Merkmal messen. Die Dimensionalität der Items wird faktorenanalytisch bestimmt. ◦ Homogene Items sollen dabei zu eindimensionalen Skalen führen ◦ Heterogene Items zu mehrdimensionalen GHF B.Sc. 3-2-4 Deskriptive Statistik-II 24 4.5 Itemselektion und Revision des Tests Simultane Berücksichtigung von Erkenntnissen der Prüfung der ◦ ◦ ◦ ◦ Itemschwierigkeit Itemvarianz Itemtrennschärfe Sowie der Reliabilität Validität GHF B.Sc. 3-2-4 Deskriptive Statistik-II 25 4.5 Itemselektion und Revision des Tests Itemschwierigkeit: ◦ optimal 50 + gute Trennschärfe ◦ Test zur Erfassung extremer Ausprägungen: Itemschwierigkeiten 5-20 und 80-95 + gute Trennschärfe ◦ Test zur Erfassung typischer Merkmale: Itemschwierigkeiten von 5-95 gleichmäßig verteilt + gute Trennschärfe GHF B.Sc. 3-2-4 Deskriptive Statistik-II 26 4.5 Itemselektion und Revision des Tests Itemvarianz: optimal mittlere Varianz Itemtrennschärfe: ◦ Optimal: 0.40-0.70 ◦ Nicht in den Test aufnehmen: Items mit Trennschärfe nahe 0 oder negativer Trennschärfe GHF B.Sc. 3-2-4 Deskriptive Statistik-II 27 KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.6 Testwertermittlung 4.6.1 Testwertermittlung bei Leistungstests 4.6.2 Testwertermittlung bei Persönlichkeitstests GHF B.Sc. 3-2-4 Deskriptive Statistik-II 28 4.6 Testwertermittlung m xv x vi i 1 Die einfachste Möglichkeit, den Testwert x(v) eines Probanden v zu bestimmen, besteht darin, die einzelnen Antworten x(vi) auf die Items zu einem Summenwert zusammenzufassen. Diese Vorgehensweise setzt Intervallskalenniveau voraus. Die einfache Summierung stellt für die Test- und Fragebogenkonstruktionen nach der klassischen Testtheorie die Regel dar. Aus praktischen Gründen ist es sinnvoll, zwischen der Testwertermittlung bei Leistungstests und der Testwertermittlung bei Persönlichkeitstests zu unterscheiden. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 29 4.6.1 Testwertermittlung bei Leistungstests Einfachste Form der Testwertermittlung für einen Probanden v: Testwert x(v) ist gleich der Anzahl m(R) der richtig gelösten Aufgaben: x(v) = m(R) Weiterhin: je nach Instruktion kann es notwendig sein, falsche Antworten m(F) zu berücksichtigen, c=Korrekturfaktor: x(v) = m(R) – c * m(F) GHF B.Sc. 3-2-4 Deskriptive Statistik-II 30 4.6.1 Testwertermittlung bei Leistungstests Sind die einzelnen Aufgaben von sehr unterschiedlicher Bedeutung hinsichtlich des zu beobachtenden Merkmals, so kann man für jede einzelne Aufgabe i ein Gewicht g(i) angeben, mit dem eine richtige Antwort zu gewichten ist. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 31 4.6.1 Testwertermittlung bei Leistungstests Der Testwert entspricht dann der Summe der Aufgabengewichte der richtig gelösten Aufgaben, ggf. korrigiert um die Aufgabengewichte der falsch gelösten Aufgaben. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 32 4.6.1 Testwertermittlung bei Leistungstests Wenn bei Auswahlaufgaben richtige Lösungen durch Zufall erreicht werden können, würden Probanden benachteiligt, die lieber keine als eine unsichere Antwort geben. Daher werden Rate- bzw. Zufallskorrekturen vorgenommen. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 33 4.6.2 Testwertermittlung bei Persönlichkeitstests Bei Persönlichkeitstests, die vornehmlich als Fragebögen mit diskreten Ratingskalen konzipiert werden, erfolgt die Testwertermittlung i.d.R. durch Summenbildung über die Itemantworten hinweg. Dazu werden bei k-fach abgestuften Items jeder potentiellen Itemantwort Werte zwischen 0 und k-1 zugeordnet. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 34 4.6.2 Testwertermittlung bei Persönlichkeitstests Die am wenigsten für das Kriterium sprechende Stufe wird mit 0 Punkten verrechnet, die am stärksten für das Kriterium sprechende Stufe mit k-1 Punkten. Die dazwischen liegenden Stufen werden entsprechend gewichtet (auf m Iteminversionen achten). xv xvi Bspl.: 4+3+6+5+4+5=27 i 1 GHF B.Sc. 3-2-4 Deskriptive Statistik-II 35 KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.7 Testwertverteilung und Normalisierung 4.7.1 Testwertverteilung 4.7.2 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung 4.7.3 Normalisierung GHF B.Sc. 3-2-4 Deskriptive Statistik-II 36 4.7 Testwertverteilung und Normalisierung Ist die Testwertermittlung abgeschlossen, kann die Testwertverteilung mittels der Bestimmung von Mittelwert, Median, Modalwert, Testwertvarianz und Spannweite sowie Schiefe und Exzess genauer untersucht werden. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 37 4.7.1 Testwertverteilung n n m x x v x v 1 n vi v 1 i 1 n n ( x E ( x )) v Var ( x ) v 1 n 1 2 Bei intervallskalierten Testwerten berechnet man aus einer Menge von Testwerten für n Probanden den Mittelwert x(quer). Der Median ist der Testwert, der die Stichprobe in 2 gleichgroße Hälften teilt. Der Modalwert ist der häufigste Testwert der Verteilung. Die Varianz var(x) ist das übliche Streuungsmaß, E(x)=Mittelwert. Die Wurzel aus der Varianz ist die Standardabweichung. Range umfasst die Spannweite minmax. GHF B.Sc. 3-2-4 Deskriptive Statistik-II 38 4.7.1 Testwertverteilung Normalverteilung oder nicht? Schiefe( x ) E((x E( x ))3 ) SD( x ) Exzess( x ) 3 E((x E( x ))4 ) SD( x )2 Schiefe(x) >0, dann ist die Verteilung rechtsschief, d.h. linkssteil Schiefe(x) <0, linksschief, d.h. rechtssteil – Werte, die größer sind als der Mittelwert sind häufiger, so dass sich der Median rechts vom Mittelwert befindet, der linke Teil der Verteilung ist flacher als der rechte Exzess(x) = 0, die Wölbung der Verteilung entspricht der Normalverteilung. Exzess(x)>0, spitzere Verteilung Exzess(x)<0, flachere Verteilung GHF B.Sc. 3-2-4 Deskriptive Statistik-II 39 4.7.2 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung Bei psychologischen Merkmalen im Leistungsbereich kann eine Normalverteilung der Testwerte häufig dahingehend interpretiert werden, dass der Test angemessene Anforderungen an die Probanden richtet. Weicht die Testwertverteilung von der Normalverteilung ab, so kann das unterschiedliche Ursachen haben: Konstruktionsmängel ◦ Linksschief, d.h. rechtssteile Verteilung – Test zu leicht ◦ Rechtsschief, d.h. linkssteile Verteilung – Test zu schwer ◦ Reaktion: Hinzunahme schwerer bzw. leichter Items Heterogene Stichproben ◦ Verschiedene Untergruppen haben zwar für sich normalverteilte Ergebnisse, nur in der Summe ist es nicht so – Reaktion: gruppenspezifische Normierung Nicht-normalverteilte Merkmale z.B. Reaktionsfähigkeit GHF B.Sc. 3-2-4 Deskriptive Statistik-II 40 4.7.3 Normalisierung Ist die Annahme vertretbar, dass das gemessene Merkmal eigentlich normalverteilt ist, kann eine nicht-lineare Transformation der Testwerte durchgeführt werden – Normalisierung. Obacht: nicht mit „Normierung“ verwechseln, dies bedeutet die Transformation der Daten zwecks Interpretation vor dem Hintergrund eines Bezugsrahmens – der Normverteilung. Normalisierung: •Ausgangspunkt: eine nicht-normalverteilte Testwerteverteilung •Ziel: Anpassung der Verteilung der Testwerte an die Normalverteilung •Logarithmierung: einfachste Transformation, jeder Testwert wird logarithmiert •Spezialfälle der Logarithmierung: Box-Cox-Verfahren sowie YeoJohnson Transformation GHF B.Sc. 3-2-4 Deskriptive Statistik-II 41 4.7.3 Normalisierung fcum( xv) PR( v ) *100 n Flächentransformation nach McCall (1939) Anpassung der einzelnen Säulen im Histogramm in Höhe und Breite an die Normalverteilung – Fläche bleibt unverändert 1. Schritt – Prozentrang bestimmen PR(v) – aus dem Quotienten der kumulierten Anzahl der Probanden, die einen Testwert < x(v) haben (f(cum)(x(v)) und der Gesamtzahl der Probanden n multipliziert mit 100 – danach z-Transformation 2. Schritt – eigentliche Normalisierung z‘-Werte bilden 3. Schritt – Erstellen eines neuen Histogramms GHF B.Sc. 3-2-4 Deskriptive Statistik-II 42 4.8 Zusammenfassung und weiteres Vorgehen Nach der ersten Datenerhebung erfolgt die psychometrische Aufbereitung der gewonnen Daten mit den deskriptivstatistischen Analysen ◦ ◦ ◦ ◦ ◦ Analyse der Itemschwierigkeit Analyse der Itemvarianzen Bestimmung der Itemtrennschärfen Dann Selektion der geeigneten Items Testwerteermittlung – Normalisierung – Reliabilitätsanalyse - Validitätsprüfung GHF B.Sc. 3-2-4 Deskriptive Statistik-II 43