B.Sc. Rehabilitationspsychologie Modul 3.2 WiSe 2013-14 GRUNDLAGEN DER TESTTHEORIE Prof. Dr. habil. Gabriele Helga Franke E-Mail: [email protected] Internet: www.franke-stendal.de Sprechstunde: Montag, 8-9h Kapitel 4: Deskriptive Statistik 4.1 Einleitung 4.2 Schwierigkeitsanalyse 4.3 Itemvarianz 4.4 Trennschärfeanalyse 4.5 Itemselektion und Revision des Tests 4.6 Testwertermittlung 4.7 Testwerteverteilung und Normalisierung 4.8 Zusammenfassung und weiteres Vorgehen GHF B.Sc. 4.3-4.8 Deskriptive Statistik 2 4.3 Itemvarianz 4.3.1 Differenzierungsfähigkeit eines Items 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit GHF B.Sc. 4.3-4.8 Deskriptive Statistik 3 4.3 Itemvarianz • Liegt die Schwierigkeit eines Items fest, so ist die mögliche Ausprägung seiner Varianz begrenzt. • Itemvarianz = Differenzierungsfähigkeit eines Items i hinsichtlich der untersuchten Probandenstichprobe • Die Varianz eines einzelnen Items gibt an, wie stark die Antworten auf dieses Item in der Stichprobe streuen. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 4 Beispiel Itemvarianz • • • • FPI-R Item Nr. 128 bei n=268 Stud. Schwierigkeitsindex = 75 Var(Item128) = 0,188 Items mittlerer Schwierigkeit leisten viele Differenzierungen, Items mit extremer Schwierigkeit hingegen weniger. Items mit einer Schwierigkeit von 0 oder 100 können gar nicht differenzieren. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 5 4.3.1 Differenzierungsfähigkeit eines Items n Var ( xi ) (x v 1 vi x i )² n Die Differenzierungsfähigkeit Var(xi) eines Items wird numerisch berechnet. Es handelt sich um die durchschnittliche quadrierte Abweichung der einzelnen Werte vom Mittelwert in Bezug auf die untersuchte Stichprobe GHF B.Sc. 4.3-4.8 Deskriptive Statistik 6 4.3.1 Differenzierungsfähigkeit eines Items Da der Itemmittelwert x-quer(i) und die Lösungswahrscheinlichkeit p(i) in funktionaler Abhängigkeit zueinander stehen, lässt sich die Itemvarianz auch so berechnen. Mit p(i) = P(i) / 100 und k = Anzahl der Antwortstufen des Items i und p(i) * (k-1) als durchschnittliche Antwort aller Probanden auf das Item i. n Var ( x i ) (x vi pi * (k 1))² v 1 n GHF B.Sc. 4.3-4.8 Deskriptive Statistik 7 Beispiel Itemvarianz • Wir stellen uns 10 Probanden vor, die vier Prüfungen (Items) zu absolvieren haben • Bestehen eines Probanden v in einem Test i wird mit x(vi)=1 und Scheitern mit x(vi)=0 kodiert • Lösungswahrscheinlichkeiten p(i) (P(i)/100) der vier Items sind – p(1)=9/10=0,90 – p(3)=2/10=0,20 * p(2)=5/10=0,50 * p(4)=0/10=0 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 8 Beispiel Itemvarianz Proband Item 1 Item 2 Item 3 Item 4 Sum richtig Sum falsch 1 1 1 1 0 3 1 2 1 1 1 0 3 1 3 1 1 0 0 2 2 4 1 1 0 0 2 2 5 1 1 0 0 2 2 6 1 0 0 0 1 3 7 1 0 0 0 1 3 8 1 0 0 0 1 3 9 1 0 0 0 1 3 10 0 0 0 0 0 4 n(richtig) 9 5 2 0 n(falsch) 1 5 8 10 pi 0,90 0,50 0,20 0,00 Var(xi) 0,09 0,25 0,16 0,00 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 9 Beispiel Itemvarianz • Item 1: niedrige Varianz, 1 Proband fiel durch und 9 haben bestanden: 1*9=9 Differenzierungen • Item 2: hohe Varianz, 5 Probanden fielen durch und 5 haben bestanden: 5*5=25 Differenzierungen • Item 3: mittlere Varianz, 8*2=16 Differenzierungen • Item 4: keine Varianz, 0*0=0 Merke: Die Höhe der Itemvarianz ist von der Antwortskalierung abhängig. Ein Wert allein ist nicht aussagekräftig – es werden immer Werte von anderen Items benötigt. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 10 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit Var ( xi ) pi * (1 pi ) Für zweistufige Items lässt sich die Gleichung zur Bestimmung der Itemvarianz vereinfachen. Die Itemvarianz entspricht dann dem Produkt der Wahrscheinlichkeit, das Item i zu lösen [p(i)], und der Gegenwahrscheinlichkeit, das Item i nicht zu lösen [1-p(i)]. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 11 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit Var ( xi ) pi * (1 pi ) Für zweistufige Items erhalten wir somit einen quadratischen Zusammenhang zwischen Itemschwierigkeit (bzw. Lösungswahrscheinlichkeit) und Itemvarianz. Die Itemvarianz hat bei dichotomen Items ihr Maximum bei der mittleren Schwierigkeit (50) – während sie zu den beiden extremen Ausprägungen hin (0 und 100) abnimmt. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 12 4.3.2 Zusammenhang von Itemvarianz und Itemschwierigkeit GHF B.Sc. 4.3-4.8 Deskriptive Statistik 13 4.4 Trennschärfeanalyse 4.4.1 Berechnung der Trennschärfe 4.4.2 Interpretation der Trennschärfe 4.4.3 Weitergehende Überlegungen GHF B.Sc. 4.3-4.8 Deskriptive Statistik 14 4.4 Trennschärfeanalyse •Die Trennschärfe rit eines Items i drückt aus, wie groß der korrelative Zusammenhang der Itemwerte xvi mit den Testwerten xv ist, die aus sämtlichen Items des Tests gebildet werden. •Die Trennschärfe gibt an, wie stark die Differenzierung des jeweiligen Items mit der Differenzierung der zum Testwert zusammengefassten übrigen Items übereinstimmt. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 15 4.4.1 Berechnung der Trennschärfe Zur Berechnung der Trennschärfe wird über alle Probanden hinweg der Zusammenhang des Itemwerte (xvi) mit dem Testwert (xv) bestimmt. 𝑟𝑖𝑡 = 𝑟 𝑥𝑣𝑖 ,𝑥𝑣 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 16 4.4.1 Berechnung der Trennschärfe m xv xvi i 1 xv ( i ) xvi xvi i 1 m Unter dem Testwert xv eines Probanden versteht man zumeist den Summenwert aller Itemwerte Oder Den Summenwert ohne Item i = Trennschärfebestimmung bei wenigen Items (part-wholecorrection), um die Trennschärfe nicht zu überschätzen. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 17 4.4.1 Berechnung der Trennschärfe Daher folgt die Formel zur Berechnung der Trennschärfe: 𝑟𝑖𝑡 = 𝑟 𝑥𝑣𝑖 ,𝑥(𝑣) GHF B.Sc. 4.3-4.8 Deskriptive Statistik 18 4.4.1 Berechnung der Trennschärfe • Die Bildung des Testwertes setzt voraus, dass alle Items inhaltlich dasselbe Merkmal erfassen. Streng genommen wird vorausgesetzt, dass die Items homogen sind. • Da die Trennschärfe ein Maß des Zusammenhangs ist und als Korrelation berechnet wird, kann sie Werte im Bereich [-1, 1] annehmen GHF B.Sc. 4.3-4.8 Deskriptive Statistik 19 4.4.1 Berechnung der Trennschärfe • Eine hohe Trennschärfe wird im Allgemeinen durch eine hohe Itemvarianz begünstigt. • Dies gilt sowohl bei intervallskalierten als auch bei dichotomen Items. • Dennoch garantiert eine hohe Itemvarianz nicht unbedingt eine hohe Trennschärfe GHF B.Sc. 4.3-4.8 Deskriptive Statistik 20 4.4.2 Interpretation der Trennschärfe • Weil die Trennschärfe rit eines Items i unterschiedliche Werte annehmen kann, zieht man je nach Ausprägung unterschiedliche Schlussfolgerungen: • rit nahe bei 1 • rit nahe bei 0 • rit nahe bei -1 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 21 4.4.2 Interpretation der Trennschärfe rit nahe bei 1 • Das Item wird von Probanden mit hohem Testwert (hohe Merkmalsausprägung) gelöst bzw. symptomatisch beantwortet und von Probanden mit niedrigem Testwert (niedriger Merkmalsausprägung) nicht • Hohe positive Trennschärfen = die einzelnen Items messen sehr Ähnliches wie der Gesamttest • Trennschärfen im Bereich von 0.40 – 0.70 gelten als gut GHF B.Sc. 4.3-4.8 Deskriptive Statistik 22 4.4.2 Interpretation der Trennschärfe rit nahe bei 0 • Die mit dem Item erzielte Differenzierung weist keinen Zusammenhang mit der Differenzierung durch den Gesamttest auf. • Das Item ist ungeeignet, zwischen Probanden mit hohem und niedrigem Testwert zu differenzieren • Was auch immer das Item misst, es ist unabhängig von dem, was die übrigen Items messen und damit auch unabhängig von dem, was die Summe der übrigen Items (der Testwert) misst. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 23 4.4.2 Interpretation der Trennschärfe rit nahe bei -1 • Das Item wird von Probanden mit niedriger Merkmalsausprägung gelöst und von Probanden mit hoher Merkmalsausprägung nicht. • Dies kann durch Mängel z.B. in der Instruktion oder bei der Item-Formulierung bedingt sein, denen nachgegangen werden muss. • Bei Persönlichkeitstests ist es – unter Berücksichtigung theoretischer Aspekte – möglich, das Item als invertiertes Item zu nutzen (invertiert: Umkehrung der Auswertung 01 und 10) GHF B.Sc. 4.3-4.8 Deskriptive Statistik 24 4.4.3 Weitergehende Überlegungen • Die Itemanalyse dient der Beantwortung der Frage, ob die einzelnen Items dasselbe Merkmal messen. • Die Dimensionalität der Items wird faktorenanalytisch bestimmt. – Homogene Items sollen dabei zu eindimensionalen Skalen führen – Heterogene Items zu mehrdimensionalen GHF B.Sc. 4.3-4.8 Deskriptive Statistik 25 4.5 Itemselektion und Revision des Tests • Simultane Berücksichtigung von Erkenntnissen der Prüfung der – Itemschwierigkeit – Itemvarianz – Itemtrennschärfe – Sowie der • Reliabilität • Validität GHF B.Sc. 4.3-4.8 Deskriptive Statistik 26 4.5 Itemselektion und Revision des Tests • Itemschwierigkeit: – optimal 50 + gute Trennschärfe – Test zur Erfassung extremer Ausprägungen: Itemschwierigkeiten 5-20 und 80-95 + gute Trennschärfe – Test zur Erfassung typischer Merkmale: Itemschwierigkeiten von 5-95 gleichmäßig verteilt + gute Trennschärfe GHF B.Sc. 4.3-4.8 Deskriptive Statistik 27 4.5 Itemselektion und Revision des Tests • Itemvarianz: optimal mittlere Varianz • Itemtrennschärfe: – Optimal: 0.40-0.70 – Nicht in den Test aufnehmen: Items mit Trennschärfe nahe 0 oder negativ GHF B.Sc. 4.3-4.8 Deskriptive Statistik 28 4.6 Testwertermittlung 4.6.1 Testwertermittlung bei Leistungstests 4.6.2 Testwertermittlung bei Persönlichkeitstests GHF B.Sc. 4.3-4.8 Deskriptive Statistik 29 4.6 Testwertermittlung m xv x vi i 1 Die einfachste Möglichkeit, den Testwert xv eines Probanden v zu bestimmen, besteht darin, die einzelnen Antworten xvi auf die Items zu einem Summenwert zusammenzufassen. Diese Vorgehensweise setzt Intervallskalenniveau voraus. Die einfache Summierung stellt für die Test- und Fragebogenkonstruktionen nach der klassischen Testtheorie die Regel dar. Aus praktischen Gründen ist es sinnvoll, zwischen der Testwertermittlung bei Leistungstests und der Testwertermittlung bei Persönlichkeitstests zu unterscheiden. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 30 4.6.1 Testwertermittlung bei Leistungstests • Einfachste Form der Testwertermittlung für einen Probanden v: Testwert xv ist gleich der Anzahl mR der richtig gelösten Aufgaben: xv = mR • Weiterhin: je nach Instruktion kann es notwendig sein, falsche Antworten mF zu berücksichtigen, c=Korrekturfaktor: xv = mR – c * mF GHF B.Sc. 4.3-4.8 Deskriptive Statistik 31 4.6.1 Testwertermittlung bei Leistungstests • Sind die einzelnen Aufgaben von sehr unterschiedlicher Bedeutung hinsichtlich des zu beobachtenden Merkmals, so kann man für jede einzelne Aufgabe i ein Gewicht g(i) angeben, mit dem eine richtige Antwort zu gewichten ist. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 32 4.6.1 Testwertermittlung bei Leistungstests • Der Testwert entspricht dann der Summe der Aufgabengewichte der richtig gelösten Aufgaben, ggf. korrigiert um die Aufgabengewichte der falsch gelösten Aufgaben. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 33 4.6.1 Testwertermittlung bei Leistungstests • Wenn bei Auswahlaufgaben richtige Lösungen durch Zufall erreicht werden können, würden Probanden benachteiligt, die lieber keine als eine unsichere Antwort geben. • Daher werden Rate- bzw. Zufallskorrekturen vorgenommen. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 34 4.6.2 Testwertermittlung bei Persönlichkeitstests • Bei Persönlichkeitstests, die vornehmlich als Fragebögen mit diskreten Ratingskalen konzipiert werden, erfolgt die Testwertermittlung i.d.R. durch Summenbildung über die Itemantworten hinweg. • Dazu werden bei k-fach abgestuften Items jeder potentiellen Itemantwort Werte zwischen 0 und k-1 zugeordnet. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 35 4.6.2 Testwertermittlung bei Persönlichkeitstests • Die am wenigsten für das Kriterium sprechende Stufe wird mit 0 Punkten verrechnet, die am stärksten für das Kriterium sprechende Stufe mit k-1 Punkten. • Die dazwischen liegenden Stufen werden entsprechend gewichtet (auf Itemm Invertierungen achten!!!). xv xvi • Bspl.: 4+3+6+5+4+5=27 i 1 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 36 4.7 Testwertverteilung und Normalisierung 4.7.1 Testwertverteilung 4.7.2 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung 4.7.3 Normalisierung GHF B.Sc. 4.3-4.8 Deskriptive Statistik 37 4.7 Testwertverteilung und Normalisierung • Ist die Testwertermittlung abgeschlossen, kann die Testwertverteilung mittels der Bestimmung von Mittelwert, Median, Modalwert, Testwertvarianz und Spannweite sowie Schiefe und Exzess genauer untersucht werden. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 38 4.7.1 Testwertverteilung n n m x x v x v 1 vi v 1 i 1 n n Bei intervallskalierten Testwerten berechnet man aus einer Menge von Testwerten für n Probanden den Mittelwert x(quer). GHF B.Sc. 4.3-4.8 Deskriptive Statistik 39 4.7.1 Testwertverteilung Der Median ist der Testwert, der die Stichprobe in 2 gleichgroße Hälften teilt. Der Modalwert ist der häufigste Testwert der Verteilung. n ( x E ( x )) v Var ( x ) v 1 n 1 2 Die Varianz var(x) ist das übliche Streuungsmaß, E(x)=Mittelwert. Die Wurzel aus der Varianz ist die Standardabweichung. Range umfasst die Spannweite minmax. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 40 4.7.1 Testwertverteilung Normalverteilung oder nicht? Schiefe( x ) Exzess( x ) E((x E( x ))3 ) SD( x )3 E((x E( x ))4 ) SD( x )2 Schiefe(x) >0, dann ist die Verteilung rechtsschief, d.h. linkssteil Schiefe(x) <0, linksschief, d.h. rechtssteil – Werte, die größer sind als der Mittelwert sind häufiger, so dass sich der Median rechts vom Mittelwert befindet, der linke Teil der Verteilung ist flacher als der rechte Exzess(x) = 0, die Wölbung der Verteilung entspricht der Normalverteilung. Exzess(x)>0, spitzere Verteilung Exzess(x)<0, flachere Verteilung GHF B.Sc. 4.3-4.8 Deskriptive Statistik 41 SPSS Beispiel • N=1.123 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 42 SPSS Beispiel GHF B.Sc. 4.3-4.8 Deskriptive Statistik 43 4.7.2 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung • Bei psychologischen Merkmalen im Leistungsbereich kann eine Normalverteilung der Testwerte häufig dahingehend interpretiert werden, dass der Test angemessene Anforderungen an die Probanden richtet. Weicht die Testwertverteilung von der Normalverteilung ab, so kann das unterschiedliche Ursachen haben: • Konstruktionsmängel – Linksschief, d.h. rechtssteile Verteilung – Test zu leicht – Rechtsschief, d.h. linkssteile Verteilung – Test zu schwer – Reaktion: Hinzunahme schwerer bzw. leichter Items (gegensätzlicher!) • Heterogene Stichproben – Verschiedene Untergruppen haben zwar für sich normalverteilte Ergebnisse, nur in der Summe ist es nicht so – Reaktion: gruppenspezifische Normierung • Nicht-normalverteilte Merkmale z.B. Reaktionsfähigkeit GHF B.Sc. 4.3-4.8 Deskriptive Statistik 44 4.7.3 Normalisierung Ist die Annahme vertretbar, dass das gemessene Merkmal eigentlich normalverteilt ist, kann eine nicht-lineare Transformation der Testwerte durchgeführt werden – Normalisierung. Obacht: nicht mit „Normierung“ verwechseln, dies bedeutet die Transformation der Daten zwecks Interpretation vor dem Hintergrund eines Bezugsrahmens – der Normverteilung. Normalisierung: •Ausgangspunkt: eine nicht-normalverteilte Testwerteverteilung •Ziel: Anpassung der Verteilung der Testwerte an die Normalverteilung •Logarithmierung: jeder Testwert wird logarithmiert •Spezialfälle der Logarithmierung: Box-Cox-Verfahren sowie YeoJohnson Transformation GHF B.Sc. 4.3-4.8 Deskriptive Statistik 45 4.7.3 Normalisierung fcum( xv) PR( v ) *100 n Flächentransformation nach McCall (1939) Anpassung der einzelnen Säulen im Histogramm in Höhe und Breite an die Normalverteilung – Fläche bleibt unverändert 1. Schritt – Prozentrang bestimmen PR(v) – aus dem Quotienten der kumulierten Anzahl der Probanden, die einen Testwert < x(v) haben (f(cum)(x(v)) und der Gesamtzahl der Probanden n multipliziert mit 100 – danach z-Transformation 2. Schritt – eigentliche Normalisierung z‘-Werte bilden 3. Schritt – Erstellen eines neuen Histogramms GHF B.Sc. 4.3-4.8 Deskriptive Statistik 46 Beispiel Normalisierung (Ausschnitt) http://www.ewi-psy.fu-berlin.de/einrichtungen/arbeitsbereiche/diagpers/media/lehrveranstaltungen/ws0506/skript6.pdf?1286346962 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 47 Beispiel Normalisierung Vorher nachher http://www.ewi-psy.fu-berlin.de/einrichtungen/arbeitsbereiche/diagpers/media/lehrveranstaltungen/ws0506/skript6.pdf?1286346962 GHF B.Sc. 4.3-4.8 Deskriptive Statistik 48 4.8 Zusammenfassung und weiteres Vorgehen • Nach der ersten Datenerhebung erfolgt die psychometrische Aufbereitung der gewonnen Daten mit den deskriptivstatistischen Analysen – – – – – Analyse der Itemschwierigkeit Analyse der Itemvarianzen Bestimmung der Itemtrennschärfen Dann Selektion der geeigneten Items Testwerteermittlung – Normalisierung – Reliabilitätsanalyse – Validitätsprüfung GHF B.Sc. 4.3-4.8 Deskriptive Statistik 49 Literatur • Bühner, M. (2010). Einführung in die Testund Fragebogenkonstruktion (3., aktualisierte und erweiterte Aufl.). München: Pearson Studium. • Kelava, A. & Moosbrugger, H: (2012). Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen. In H. Moosbrugger & A. Kelava: Testtheorie und Fragebogenkonstruktion (2. Auflage). Heidelberg: Springer. GHF B.Sc. 4.3-4.8 Deskriptive Statistik 50