4.2 Grundlagen der Testtheorie Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke GHF im WiSe 2008 / 2009 an der HS MD-SDL(FH) im Studiengang Rehabilitationspsychologie, B.Sc., 3. Semester Modul: 4.2 Einführung in die Testtheorie KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.1 Einleitung 4.2 Schwierigkeitsanalyse 4.3 Itemvarianz 4.4 Trennschärfeanalyse 4.5 Itemselektion und Revision des Tests 4.6 Testwertermittlung 4.7 Testwerteverteilung und Normalisierung 4.8 Zusammenfassung und weiteres Vorgehen 4.5 Itemselektion und Revision des Tests y Simultane Berücksichtigung von Erkenntnissen der Prüfung der ◦ ◦ ◦ ◦ Itemschwierigkeit Itemvarianz Itemtrennschärfe Sowie der x Reliabilität x Validität 4.5 Itemselektion und Revision des Tests y Itemschwierigkeit: ◦ optimal 50 + gute Trennschärfe ◦ Test zur Erfassung extremer Ausprägungen: Itemschwierigkeiten 5-20 und 80-95 + gute Trennschärfe ◦ Test zur Erfassung typischer Merkmale: Itemschwierigkeiten von 5-95 gleichmäßig verteilt + gute Trennschärfe 4.5 Itemselektion und Revision des Tests Itemvarianz: optimal mittlere Varianz y Itemtrennschärfe: y ◦ Optimal: 0.40-0.70 ◦ Nicht in den Test aufnehmen: Items mit Trennschärfe nahe 0 oder negativer Trennschärfe KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.6 Testwertermittlung 4.6.1 Testwertermittlung bei Leistungstests 4.6.2 Testwertermittlung bei Persönlichkeitstests 4.6 Testwertermittlung m xv = ∑x i =1 vi Die einfachste Möglichkeit, den Testwert x(v) eines Probanden v zu bestimmen, besteht darin, die einzelnen Antworten x(vi) auf die Items zu einem Summenwert zusammenzufassen. Diese Vorgehensweise setzt Intervallskalenniveau voraus. Die einfache Summierung stellt für die Test- und Fragebogenkonstruktionen nach der klassischen Testtheorie die Regel dar. Aus praktischen Gründen ist es sinnvoll, zwischen der Testwertermittlung bei Leistungstests und der Testwertermittlung bei Persönlichkeitstests zu unterscheiden. 4.6.1 Testwertermittlung bei Leistungstests Einfachste Form der Testwertermittlung für einen Probanden v: Testwert x(v) ist gleich der Anzahl m(R) der richtig gelösten Aufgaben: x(v) = m(R) y Weiterhin: je nach Instruktion kann es notwendig sein, falsche Antworten m(F) zu berücksichtigen, c=Korrekturfaktor: x(v) = m(R) – c * m(F) y 4.6.1 Testwertermittlung bei Leistungstests y Sind die einzelnen Aufgaben von sehr unterschiedlicher Bedeutung hinsichtlich des zu beobachtenden Merkmals, so kann man für jede einzelne Aufgabe i ein Gewicht g(i) angeben, mit dem eine richtige Antwort zu gewichten ist. 4.6.1 Testwertermittlung bei Leistungstests y Der Testwert entspricht dann der Summe der Aufgabengewichte der richtig gelösten Aufgaben, ggf. korrigiert um die Aufgabengewichte der falsch gelösten Aufgaben. 4.6.1 Testwertermittlung bei Leistungstests Wenn bei Auswahlaufgaben richtige Lösungen durch Zufall erreicht werden können, würden Probanden benachteiligt, die lieber keine als eine unsichere Antwort geben. y Daher werden Rate- bzw. Zufallskorrekturen vorgenommen. y 4.6.2 Testwertermittlung bei Persönlichkeitstests Bei Persönlichkeitstests, die vornehmlich als Fragebögen mit diskreten Ratingskalen konzipiert werden, erfolgt die Testwertermittlung i.d.R. durch Summenbildung über die Itemantworten hinweg. y Dazu werden bei k-fach abgestuften Items jeder potentiellen Itemantwort Werte zwischen 0 und k-1 zugeordnet. y 4.6.2 Testwertermittlung bei Persönlichkeitstests Die am wenigsten für das Kriterium sprechende Stufe wird mit 0 Punkten verrechnet, die am stärksten für das Kriterium sprechende Stufe mit k-1 Punkten. y Die dazwischen liegenden Stufen werden entsprechend gewichtet (auf m Iteminversionen achten). xvi y Bspl.: 4+3+6+5+4+5=27 xv = y ∑ i =1 KAPITEL 4 – DESKRIPTIVE STATISTIK UND ITEMANALYSE GHF 4.7 Testwertverteilung und Normalisierung 4.7.1 Testwertverteilung 4.7.2 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung 4.7.3 Normalisierung 4.7 Testwertverteilung und Normalisierung y Ist die Testwertermittlung abgeschlossen, kann die Testwertverteilung mittels der Bestimmung von Mittelwert, Median, Modalwert, Testwertvarianz und Spannweite sowie Schiefe und Exzess genauer untersucht werden. 4.7.1 Testwertverteilung n n m ∑x ∑ ∑x v x= v =1 n vi = v =1 i =1 n n Var( x ) = ∑ ( xv − E ( x )) 2 v =1 n −1 Bei intervallskalierten Testwerten berechnet man aus einer Menge von Testwerten für n Probanden den Mittelwert x(quer). Der Median ist der Testwert, der die Stichprobe in 2 gleichgroße Hälften teilt. Der Modalwert ist der häufigste Testwert der Verteilung. Die Varianz var(x) ist das übliche Streuungsmaß, E(x)=Mittelwert. Die Wurzel aus der Varianz ist die Standardabweichung. Range umfasst die Spannweite minmax. 4.7.1 Testwertverteilung Normalverteilung oder nicht? Schiefe( x ) = E (( x − E ( x ))3 ) SD( x ) Exzess( x ) = 3 E (( x − E ( x ))4 ) SD( x ) 2 Schiefe(x) >0, dann ist die Verteilung rechtsschief, d.h. linkssteil Schiefe(x) <0, linksschief, d.h. rechtssteil – Werte, die größer sind als der Mittelwert sind häufiger, so dass sich der Median rechts vom Mittelwert befindet, der linke Teil der Verteilung ist flacher als der rechte Exzess(x) = 0, die Wölbung der Verteilung entspricht der Normalverteilung. Exzess(x)>0, spitzere Verteilung Exzess(x)<0, flachere Verteilung 4.7.2 Ursachen für die Abweichung der Testwertverteilung von der Normalverteilung y Bei psychologischen Merkmalen im Leistungsbereich kann eine Normalverteilung der Testwerte häufig dahingehend interpretiert werden, dass der Test angemessene Anforderungen an die Probanden richtet. Weicht die Testwertverteilung von der Normalverteilung ab, so kann das unterschiedliche Ursachen haben: y Konstruktionsmängel ◦ Linksschief, d.h. rechtssteile Verteilung – Test zu leicht ◦ Rechtsschief, d.h. linkssteile Verteilung – Test zu schwer ◦ Reaktion: Hinzunahme schwerer bzw. leichter Items y Heterogene Stichproben ◦ Verschiedene Untergruppen haben zwar für sich normalverteilte Ergebnisse, nur in der Summe ist es nicht so – Reaktion: gruppenspezifische Normierung y Nicht-normalverteilte Merkmale z.B. Reaktionsfähigkeit 4.7.3 Normalisierung Ist die Annahme vertretbar, dass das gemessene Merkmal eigentlich normalverteilt ist, kann eine nicht-lineare Transformation der Testwerte durchgeführt werden – Normalisierung. Obacht: nicht mit „Normierung“ verwechseln, dies bedeutet die Transformation der Daten zwecks Interpretation vor dem Hintergrund eines Bezugsrahmens – der Normverteilung. Normalisierung: •Ausgangspunkt: eine nicht-normalverteilte Testwerteverteilung •Ziel: Anpassung der Verteilung der Testwerte an die Normalverteilung •Logarithmierung: einfachste Transformation, jeder Testwert wird logarithmiert •Spezialfälle der Logarithmierung: Box-Cox-Verfahren sowie YeoJohnson Transformation 4.7.3 Normalisierung fcum( xv ) PR ( v ) = *100 n Flächentransformation nach McCall (1939) Anpassung der einzelnen Säulen im Histogramm in Höhe und Breite an die Normalverteilung – Fläche bleibt unverändert 1. Schritt – Prozentrang bestimmen PR(v) – aus dem Quotienten der kumulierten Anzahl der Probanden, die einen Testwert < x(v) haben (f(cum)(x(v)) und der Gesamtzahl der Probanden n multipliziert mit 100 – danach z-Transformation 2. Schritt – eigentliche Normalisierung z‘-Werte bilden 3. Schritt – Erstellen eines neuen Histogramms 4.8 Zusammenfassung und weiteres Vorgehen y Nach der ersten Datenerhebung erfolgt die psychometrische Aufbereitung der gewonnen Daten mit den deskriptivstatistischen Analysen ◦ ◦ ◦ ◦ ◦ Analyse der Itemschwierigkeit Analyse der Itemvarianzen Bestimmung der Itemtrennschärfen Dann Selektion der geeigneten Items Testwerteermittlung – Normalisierung – Reliabilitätsanalyse - Validitätsprüfung