Grundlagen der psychologischen Testtheorie Einführung

Werbung
Grundlagen der psychologischen
Testtheorie
WS 2016
Dr. Michael Weber
Einführung
1
Definition eines (psychologischen) Tests
Ein Test ist ein wissenschaftliches
Routineverfahren zur Erfassung eines
oder mehrerer empirisch abgrenzbarer
psychologischer Merkmale mit dem Ziel
einer möglichst genauen quantitativen
Aussage
über
den
Grad
der
individuellen Merkmalsausprägung.
(Moosbrugger & Kelava, 2008, S. 2)
3
Wissenschaftlichkeit
Um von wissenschaftlich sprechen zu können, muss es eine
Theorie darüber geben, unter welchen Bedingungen welche
Aussagen anhand der Testergebnisse ableitbar sind.
Demnach sollte eine möglichst genaue Vorstellung über das zu
messende Merkmal vorliegen und der Test testtheoretischen
Qualitätsansprüchen entsprechen.
Die (primären) Aufgabengebiete der Testtheorie sind
– die Formulierung des theoretischen Hintergrunds über die
Verbindung von zu messendem Merkmal und im Test gezeigtem
Verhalten sowie
– die Festlegung und Quantifizierung notweniger Qualitätsansprüche.
4
2
Einführung
Routineverfahren
Von einem Routineverfahren spricht man, wenn Durchführung
und Auswertung
– bereits an einer größeren Stichprobe erprobt sind und
– so detailliert beschrieben sind, dass das Verfahren auch
von anderen „TestleiterInnen“ bei anderen Personen
einsetzbar ist.
5
Einführung
Psychologisches Merkmal
Bei einem psychologischen Merkmal handelt es sich um
einen Oberbegriff für
– relativ
stabile
und
konsistente
Merkmale
(auch
„Eigenschaften“ oder „Traits“ genannt),
– zeitlich begrenzte biologische, emotionale und kognitive
Zustände sowie (auch „States“ genannt) und
– Erlebens- und Verhaltensweisen.
Diese meist nicht direkt beobachtbaren (=latenten) Merkmale
sollen mit Hilfe von messbaren Sachverhalten „erschlossen“
werden.
6
3
Einführung
Item 1
Item 2
Merkmal
Item …
Item k-1
Item k
7
Einführung
Quantitative Aussage
Ziel psychologischer Tests ist es, die Ausprägung des
Merkmals der getestete Person zu messen.
Messen bedeutet einem Objekt (empirisches Relativ) einen
Zahlenwert (numerisches Relativ) so zuzuordnen, dass
zumindest eine Eigenschaft des numerischen Relativs auch
für das empirische Relativ gilt.
(vgl. Bortz J. (1999) Statistik für Sozialwissenschaftler, 5. Auflage S. 18 - 20).
Dieser Zahlenwert kann in weiterer Folge dazu verwendet
werden, die Person mit anderen Personen vergleichen oder
einer Personengruppe zuordnen zu können.
Je nach theoretischer Fundierung des Messvorgangs haben
die erzielten Zahlenwerte unterschiedliches Skalenniveau.
8
4
Einführung
Messinstrument
5
4
3
Rangskala
2
1
9
Einführung
Messinstrument
5
4
3
Intervallskala
2
1
10
5
Einführung
Fragebogen
Der Begriff wird im Deutschen für Unterschiedliches verwendet.
– schriftliche Befragungen zur Erhebung von
• demoskopischen Daten
• schulischen Daten
• medizinischen Daten
• usw.
– Instrument zur „Selbst- oder Fremdeinschätzung“
• wird meist zur Erfassung von Persönlichkeitseigenschaften
und Interessen verwendet
• Häufig auch als Persönlichkeits“test“ bezeichnet
Gemeinsam ist beiden, dass das „Erfragen“ im Vordergrund steht.
11
Einführung
Testarten
Je nach Merkmal, das erfasst werden soll, werden vier/fünf
unterschiedliche Testarten unterschieden
– Leistungstests
– Persönlichkeits- und Interessensfragebögen*
– [objektive Persönlichkeitstests]
– projektive Verfahren
– apparative Tests
Die Bezeichnung „Persönlichkeitsfragebogen“ unterscheidet sich bewusst von der im Buch von Moosbrugger & Kelava (2008), S.29
gewählten, da die Personen hier „befragt“ werden.
12
6
Einführung
Leistungstests
Sind dadurch gekennzeichnet, dass sie
– Konstrukte erfassen, die sich auf kognitive Leistungen
beziehen
– die unter der jeweiligen Testbedingung maximale Leistung
erfassen möchten
– Aufgaben verwenden, bei denen es „richtige“ und „falsche“
Antworten gibt
13
Einführung
Zahlen-Verbindungs-Test ; Oswald & Roth (1987)
14
7
Einführung
Wiener Matrizen-Test Formann & Piswanger (1979)
15
Einführung
Dreidimensionaler Würfeltest (3 DW); Gittler (1990)
16
8
Einführung
Persönlichkeitsfragebogen
Sind dadurch gekennzeichnet, dass sie
– das Ziel verfolgen, das für eine Person typische Verhalten zu
erfassen,
– mehrere Fragen verwenden, um das Persönlichkeitsmerkmal
zu erfassen,
– die Antworten nicht in „richtig“ und „falsch“ klassifizierbar sind,
sondern „erfragen“, wie stark das interessierende Merkmal
ausgeprägt ist und
– im Allgemeinen leicht verfälschbar sind (z.B. durch sozial
erwünschte Antworten).
17
Einführung
Kurzform des Big Five Inventory (BFI-K); Rammstedt & John (2005)
18
9
Einführung
Objektive Persönlichkeitstests
Sind dadurch gekennzeichnet, dass sie
– versuchen, das Ausmaß an „Verfälschbarkeit“ z.B. durch
„sozial erwünschte Antworten“ zu reduzieren indem sie
– das Persönlichkeitsmerkmal nicht durch subjektive Urteile,
sondern über Verhalten in standardisierten Situationen
erfassen.
19
Einführung
Projektive Tests
Sind dadurch gekennzeichnet, dass sie
– versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie
– auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht
nehmen,
– mehrdeutiges Bildmaterial verwenden, um unbewusste oder
verdrängte Bewusstseinsinhalte zu erfassen und
– oft explorativen Charakter haben.
20
10
Einführung
Picture Frustration Test (PFT); Hörmann & Moog (1957)
21
Einführung
Thematischer Apperzeptionstest (TAT); Revers & Taeber (1968)
22
11
Einführung
Rorschach Form Deute Verfahren; Rorschach (1954)
23
Einführung
Apparative Tests
Moosbrugger & Kelava (2008), S. 32 unterscheiden im Wesentlichen
zwei Arten
– Tests, sie insbesondere sensorische und motorische Merkmale
erfassen. z.B. Tests zur
• Erfassung von Muskelkraft
• Geschicklichkeit
• sensomotorischer Koordination
– computerbasierte Tests, die häufig spezielle Varianten von
Leistungstests und Persönlichkeitsfragebogen sind.
24
12
Testgütekriterien
Testgütekriterien
Hauptgütekriterien
– Objektivität
– Reliabilität
– Validität
Nebengütekriterien
– Skalierung
– Normierung
– Ökonomie
– Nützlichkeit
– Zumutbarkeit
– Unverfälschbarkeit
– Fairness
26
13
Testgütekriterien - Objektivität
Objektivität
Definition
Ein Test ist objektiv, wenn er dasjenige Merkmal, das er
misst, unabhängig von TestleiterIn, TestauswerterIn und von
der Ergebnisinterpretation misst.
(angelehnt an Moosbrugger & Kelava, 2008, S. 8)
27
Testgütekriterien - Objektivität
Objektivität
Bei der Objektivität lassen sich drei Bereiche unterscheiden
– Durchführungsobjektivität (~Testleiterunabhängigkeit*)
– Auswertungsobjektivität (~Verrechnungssicherheit*)
– Interpretationsobjektivität (~Interpretationseindeutigkeit*)
* vergl. Kubinger (2009) Psychologische Diagnostik, S. 39)
28
14
Testgütekriterien - Objektivität
Durchführungsobjektivität
Durchführungsobjektivität ist gegeben, wenn das Ergebnis
der Testung nicht davon abhängt, welche TestleiterIn, die
Testung durchgeführt .
Demnach
sollte die
Testvorgabe
unter
möglichst
standardisierten Bedingungen stattfinden. Diese werden
optimiert indem
– Instruktionen, die die TestleiterInnen geben, schriftlich
festgehalten sind,
– die soziale Interaktion zwischen TestleiterIn und getesteter
Person möglichst gering gehalten wird und
– die Untersuchungssituationen möglichst ähnlich sind.
29
Testgütekriterien - Objektivität
Auswertungsobjektivität
Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf
die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben
numerischen Testergebnis kommt.
Die Auswertungsobjektivität kann erhöht/gesichert werden durch
– das Vermeiden freier Antwortformate,
– klare Auswertungsregeln und
– die Verwendung von Multiple-Choice (Mehrfachauswahl) Antworten.
Die Auswertungsobjektivität kann durch statistische Kennzahlen
zur Beurteilerübereinstimmung (z.B. Cohens Kappa, Fleiss Kappa,
Konkordanzkoeffizienten nach Kendall) erfasst werden.
30
15
Testgütekriterien - Objektivität
Interpretationsobjektivität
Ist gegeben, wenn beim Vorliegen der Testergebnisse
unterschiedliche
„TestanwenderInnen“
zum
selben
„Schluss“ kommen.
Die Interpretationsobjektivität kann erhöht/gesichert werden
durch
– klare Regeln für die Interpretation,
– Vorhandensein von Normen und Normwerten
– der Verwendung von Prozenträngen*.
* Ein Prozentrang (PR) gibt an wie viel Prozent der „Referenzpopulation“ diesen oder einen schlechteren
Testwert erzielen.
31
Testgütekriterien - Reliabilität
Reliabilität („Zuverlässigkeit“)
Definition
Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal,
das er misst, exakt, d.h. ohne Messfehler, misst.
(angelehnt an Moosbrugger & Kelava, 2008, S. 11)
32
16
Testgütekriterien - Reliabilität
Reliabilität („Zuverlässigkeit“)
Die Reliabilität eines Tests gibt den Grad der Genauigkeit
an, mit dem ein Test ein bestimmtes Merkmal misst.
Allerdings geht es nicht darum, ob der Test auch jenes
Merkmal misst, das er zu messen vorgibt.
Es lassen sich drei/vier Arten der Reliabilität unterscheiden
– Retest - Reliabilität
– Paralleltest - Reliabilität
– Innere Konsistenz
– [Testhalbierungs- (Split Half-) Reliabilität]
Näheres zur Reliabilität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie
33
Testgütekriterien - Validität
Validität („Gültigkeit“)
Definition
Ein Test gilt dann als valide („gültig“), wenn er das Merkmal,
das er messen soll, auch wirklich misst.
(angelehnt an Moosbrugger & Kelava, 2008, S. 13)
34
17
Testgütekriterien - Validität
Validität („Gültigkeit“)
Die Validität ist im Hinblick auf die Praxis, das wichtigste
Gütekriterium. Mit Hilfe der Validität lässt sich klären
– wie sehr eine Test wirklich das zu messende Merkmal misst
(~„Konstruktvalidität“) und
– wie gut der Testkennwert „Verhaltensweisen“ außerhalb der
Testsituation vorhersagen kann (~„Kriteriumsvalidität“).
Es lassen sich vier Arten der Validität unterscheiden
–
–
–
–
Inhaltsvalidität
Augenscheinvalidität
Konstruktvalidität
Kriteriumsvalidität
Näheres zur Validität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie und
Faktorenanalyse.
35
Testgütekriterien - Skalierung
Skalierung
Definition
Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut
Verrechnungsregel resultierenden Testwerte die empirische
Merkmalsrelation adäquat abbilden.
(Moosbrugger & Kelava, 2008, S. 18)
Näheres zur Skalierung im Rahmen der Lehrveranstaltungseinheiten zur modernen Testtheorie.
36
18
Testgütekriterien - Normierung
Normierung (Eichung)
Definition
Unter Normierung (Eichung) eines Tests versteht
Erstellen eines Bezugssystems, mit dessen
Ergebnisse einer Testperson im Vergleich
Merkmalsausprägungen
anderer
Personen
eingeordnet und interpretiert werden können.
(Moosbrugger & Kelava, 2008, S. 19)
man, das
Hilfe die
zu den
eindeutig
37
Testgütekriterien - Normierung
Normierung (Eichung)
Ziel der Normierung ist es einen Rahmen für die Interpretation
der (durch eine Person) erzielten Testergebnisse zu schaffen.
Dies erfolgt dadurch, dass die Testergebnisse in Normwerte
umgewandelt werden.
Weit verbreitete Normwerte sind z.B.
– Prozentränge,
– z-Werte,
– Z-Werte,
– IQ-Werte und
– T-Werte (nicht zu verwechseln mit den t-Werten des t-Tests).
38
19
Testgütekriterien - Normierung
Normierung (Eichung)
Das Gütekriterium der Normierung (Eichung) kann als erfüllt
angesehen werden, wenn
– die Eichtabellen gültig (d.h. nicht veraltet) sind,
– die Population für die Eichtabellen definiert ist und
– die für die Erstellung der Eichtabellen herangezogene
Stichprobe repräsentativ ist*.
* angelehnt an Kubinger (2009) Psychologische Diagnostik, S. 68.
39
Testgütekriterien - Normierung
Prozentrang
Definition
Der Prozentrang gibt an, wie viel Prozent der
Normierungsstichprobe einen Testwert erzielen, der
niedriger oder maximal ebenso hoch ist, wie der Testwert xv
der Testperson v. Der Prozentrang entspricht somit dem
prozentualen Flächenanteil der Häufigkeitsverteilung der
Bezugsgruppe, der am unteren Skalenende beginnt und nach
oben hin durch den Testwert xv begrenzt wird.
(nach Moosbrugger & Kelava, 2008, S. 168)
40
20
Testgütekriterien - Normierung
Prozentrang
Testwert
Häufigkeit
Kumulierte
Prozente
Prozent
Prozentrang
0
0
0
0
1
0
0
0
0
0
2
6
1,4
1,4
1,4
3
10
2,4
3,8
3,8
4
45
10,8
14,6
14,6
5
46
11,0
25,7
25,7
6
69
16,5
42,2
42,2
7
65
15,6
57,8
57,8
8
83
19,9
77,7
77,7
9
46
11,0
88,7
88,7
10
22
5,3
94,0
94,0
11
13
3,1
97,1
97,1
12
8
1,9
99,0
99,0
13
1
,2
99,3
99,3
14
2
,5
99,8
99,8
15
1
,2
100,0
100,0
41
Testgütekriterien - Normierung
Prozentrang
Prozentränge sind als Normwerte insofern besonders
hervorzuheben, als sie
– keine Intervallskalierung der Testkennwerte voraussetzen,
– keine Normalverteilung der Testwerte voraussetzen und
– eine inhaltlich einfache Interpretation des Testergebnisses
darstellen.
42
21
Testgütekriterien - Normierung
z-Werte (Standardmesswerte)
z-Werte
– sind im Falle intervallskalierter und normalverteilter Testkennwerte
definiert durch:
z
mit
xx
 NV (0,1)
ˆ
 (X )
x  µ( x )
und
ˆ ( X )   ( X )
– legen die relative Position des Testkennwerts der getesteten Person
bezogen auf die Referenzpopulation dar,
– sind positiv bei überdurchschnittlichen Leistungen,
– sind negativ bei unterdurchschnittlichen Testleistungen und
– Null bei durchschnittlichen Leistungen.
43
Testgütekriterien - Normierung
z-Werte (Standardmesswerte)
Jedem z-Wert ist genau ein Prozentrang zugeordnet und
umgekehrt. Diese Zuordnungen können anhand der aus der
Statistik bekannten z-Tabellen abgelesen werden.
Mit Hilfe von z-Werten können intervallskalierte, aber nicht
normalverteilte Testkennwerte in normalverteilte Testkennwerte transformiert werden (= Flächentransformation).
44
22
Testgütekriterien - Normierung
45
Testgütekriterien - Normierung
z-Werte (Standardmesswerte)
Aus den z-Werten sind alle üblicherweise verwendeten Normwerte
ableitbar, mittels
Kennwert  z   ( Kennwert )  µ( Kennwert )
46
23
Testgütekriterien - Normierung
Tabelle entnommen aus Kubinger (2009) Psychologische Diagnostik, S. 74
47
Testgütekriterien - Normierung
Beispiel
x  45
 ( x )  40
z
 ( x)  3
45  40 5
  1.667
3
3
IQ  1.667  15  100  125
Z  1.667  10  100  116.67
T  1.667  10  50  66.667
48
24
Planung und Entwicklung
von psychologischen Tests und
Fragebogen
Testkonstruktion
Ablauf
Der Ablauf der Konstruktion lässt sich grob in sechs
Bereiche einteilen
– Planung
– Itemkonstruktion
– Erstellung der vorläufigen Testversion
– Erprobung an Stichprobe
– Itemanalyse und Überarbeitung
– Normierung (Eichung)
Die Konstruktionsschritte können wiederum in mehrere
Bereiche eingeteilt werden.
50
25
Testkonstruktion
Planung
Bei der Planung sind die folgenden Bereiche zu beachten
– Welches Merkmal soll erfasst werden?
– Welchen Geltungsbereich soll Test haben?
– Für welche Zielgruppe wird Test gemacht?
– Welche Struktur soll Test haben?
– Wie lange darf Test dauern?
51
Testkonstruktion
Itemkonstruktion
Es gibt unterschiedliche Strategien zur Itemkonstruktion
– intuitive Konstruktion
– rationale Konstruktion
– externale (kriteriumsorientierte) Konstruktion
– internale (faktorenanalytische) Konstruktion
52
26
Testkonstruktion
Intuitive Konstruktion
Auf eine intuitive Konstruktion der Items sollte nur
zurückgegriffen
werden,
wenn
der
theoretische
Kenntnisstand bezüglich des interessierenden Merkmals
gering ist (nach Moosbrugger & Kelava, 2008, S. 36).
Demnach ist die Konstruktion der Items abhängig von der
Intuition der des/der TestkonstrukteurIn.
53
Testkonstruktion
Rationale Konstruktion
Bei einer rationalen Konstruktion besteht bereits eine
elaborierte Theorie über die Differenziertheit von Personen
hinsichtlich des interessierenden Merkmals.
Es ist wesentlich
– das Merkmal zu differenzieren und spezifizieren sowie
– Verhaltensindikatoren festzulegen.
54
27
Testkonstruktion
Externale (kriteriumsorientierte) Konstruktion
Hierbei wird zunächst ein großer Itempool zusammengestellt
und Personen vorgegeben, die sich in dem interessierenden,
externalen Merkmal (Kriterium) stark unterscheiden.
Im Anschluss werden jene Items ausgewählt, die gut
zwischen Gruppen mit unterschiedlichen Ausprägungen im
Kriterium diskriminieren.
Zur Absicherung der Diskriminationsfähigkeit der Items
sollte das Ergebnis der Itemauswahl an einer anderen
Stichprobe überprüft werden.
55
Testkonstruktion
Internale (faktorenanalytische) Konstruktion
Hierbei
werden
zunächst
Items
konstruiert,
die
hypothetischen Verhaltensdimensionen
erfassen sollen.
Diese werden einer Stichprobe von Personen der
interessierenden Zielgruppe vorgegeben.
Im Anschluss werden die Items einer Faktorenanalyse
unterzogen
und
aufgrund
der
faktorenanalytischen
Ergebnisse zu „Skalen“ zusammengefasst.
Näheres zur internalen Konstruktion im Rahmen der Lehrveranstaltungseinheiten zur Faktorenanalyse.
56
28
Testkonstruktion
Weitere Aspekte der Itemkonstruktion und Testentwicklung,
wie
– Aufgabentypen und Antwortformate
– Fehlerquellen bei der Itembeantwortung
– Gesichtspunkte der Itemformulierung
– Erstellen der vorläufigen Testversion
– Erprobung der vorläufigen Testversion
sind auf den Seiten 38 – 71 des Buchs von Moosbrugger &
Kelava (2008) zu finden.
57
Klassische Testtheorie
29
Grundlagen
Axiome der klassischen Testtheorie
Im Rahmen der klassischen Testtheorie gelten
Moosbrugger & Kelava (2008)* die folgenden Axiome**:
laut
1. das Existenzaxiom,
2. das Verknüpfungsaxiom und
3. das Unabhängigkeitsaxiom.
* die angeführten Axiome unterscheiden sich von den üblicherweise angeführten
** Axiome sind nicht weiter zu hinterfragende Grundannahmen
59
Grundlagen
Das Existenzaxiom
Das Existenzaxiom besagt, dass ein „wahrer Wert“ (= true
score) existiert. Dieser „wahre Wert“ ist der Erwartungswert
der gemessenen Leistung einer Person.
Demnach gilt
mit
xv ,i ...
E ( xv ,i )   v ,i
Testleistung der Person v in Test i
60
30
Grundlagen
Das Verknüpfungsaxiom
Das Verknüpfungsaxiom besagt, dass sich die gemessene
Leistung einer Person aus ihrem wahren Wert und dem
Messfehler zusammensetzt.
Demnach gilt
xv ,i   v ,i   v ,i
Der Messfehler spielt in der klassischen Testtheorie eine
zentrale
Rolle.
Sie
wird
daher
auch
oft
als
„Messfehlertheorie“ bezeichnet.
61
Grundlagen
Das Unabhängigkeitsaxiom
Das Unabhängigkeitsaxiom besagt, dass der „wahre Wert“
einer Person und der bei der Messung entstandene
Messfehler nicht korrelieren
Demnach gilt
 ( v ,i ,  v ,i )  0
mit

(ausgeschrieben “rho“) … Populationskorrelation*
62
31
Grundlagen
Zusatzannahmen
Da bei Messfehlertheorien im Allgemeinen angenommen wird,
dass es sich bei dem Messfehler um eine Zufallsvariable
handelt, muss das Unabhängigkeitsaxiom erweitert werden.
Daher wird Unkorreliertheit angenommen zwischen
– den Messfehlern derselben Person bei unterschiedlichen Tests
 ( v ,i ,  v , j )  0
und
– den Messfehlern unterschiedlicher Personen beim selben Test
 ( v ,i ,  w,i )  0
63
Grundlagen
Folgerungen aus den Axiomen
Aus den Axiomen kann gefolgert werden, dass
– der Erwartungswert des Messfehlers 0 ist,
E ( )  0
– die Varianz des gemessenen Werts sich aus der Varianz der
wahren Werte und der Varianz der Messfehler zusammensetzt,
 ²( X )   ²( )   ²( )
– die Kovarianz von gemessenen Werten der Kovarianz der
wahren Werte entspricht.
 ( X A , X B )   ( A , B )
64
32
Grundlagen
Äquivalente Messungen
Bei den äquivalenten Messungen geht es um die Frage,
welche Voraussetzungen erfüllt sein müssen, um annehmen
zu können, dass zwei Tests (oder auch Items), dasselbe
psychologische Merkmal messen.
Es gibt hierfür vier unterschiedlich strenge „Zugänge“:
– Replikation,
– Parallelmessung
– - äquivalente Messungen und
– essentielle - äquivalente Messungen.
65
Grundlagen
Replikation
Bei der Replikation wird gefordert, dass verschiedene
Messinstrumente bei derselben Person zu exakt demselben
Messergebnis kommen müssen, um von einer wiederholten
Messung zu sprechen. Sie stellt somit die strengsten (und
für die Praxis unrealistische) Forderungen.
66
33
Grundlagen
Parallelmessung
Um eine Parallelmessung handelt es sich, wenn zwei Tests
(oder Items), denselben Erwartungswert und die selbe
Varianz besitzen.
Demnach gilt bei Parallelmessungen
–
E( X A )  E( X B )
–
 ²( X A )   ²( X B )
und
.
Parallelmessungen erfassen das gleiche psychologische
Merkmal gleich genau, da die Gleichheit der Varianzen der
Messwerte auch gleiche Varianzen der Messfehler bedeutet.
Ein zu Test A paralleler Test wird in weiterer Folge mit A‘
bezeichnet.
67
Grundlagen
- äquivalente Messungen
Um - äquivalente Messungen handelt es sich, wenn zwei
Tests (oder Items), denselben Erwartungswert aber
unterschiedliche Varianz besitzen.
Demnach gilt bei - äquivalenten Messungen
E( X A )  E( X B )
- äquivalente Messungen erfassen das gleiche Merkmal
verschieden genau.
68
34
Grundlagen
Essentiell - äquivalente Messungen
Bei essentiell - äquivalente Messungen unterscheiden sich
die Erwartungswerte zweier Tests (oder Items) um eine
additive Konstante. Die Varianzen können ebenfalls
verschieden sein
Demnach gilt bei essentiell - äquivalenten Messungen
E( X A )  E( X B )  c
69
Reliabilität
Reliabilität
Die Reliabilität eines Tests gibt den Grad der Genauigkeit
an, mit dem ein Test ein bestimmtes Merkmal misst. Im
Rahmen der klassischen Testtheorie steht hierbei die Varianz
des Messfehlers im Vordergrund.
Vereinfacht gesagt: Je größer die Varianz des Messfehlers
desto geringer die Reliabilität.
rel 
 ²( )
 ²( )

 ²( X )  ²( )   ²( )
Je nach Autor wird eine Reliabilität ab 0.7 bzw. 0.8 als
ausreichende Reliabilität angesehen.
70
35
Reliabilität
Reliabilität
Aus der Formel der Reliabilität folgt u.a., dass die Reliabilität
- einen Wertebereich von 0 bis 1 besitzt,
0  rel  1
– das Bestimmtheitsmaß der Korrelation von Messwert und
wahrem Wert ist
rel   ²( X , )
– der Korrelation der Testergebnisse zweier paralleler Messungen
(=Paralleltests) entspricht
rel   ( X A , X A' )
71
Reliabilität
Arten der Reliabilitätsbestimmung
Es lassen sich drei/vier Arten der Reliabilität unterscheiden
– Retest - Reliabilität
– Paralleltest – Reliabilität
– [Testhalbierungs- (Split Half-) Reliabilität]
– Innere Konsistenz
72
36
Reliabilität
Retest-Reliabilität
Hierbei wird derselbe Test derselben Stichprobe zweimal
vorgelegt. Vorausgesetzt es gibt weder
– Veränderungen der Messfehlereinflüsse noch
– „unsystematische“ Veränderungen des wahren Werts,
entspricht die geschätzte Reliabilität der Korrelationen der
Testergebnisse der beiden Durchgänge.
Um unsystematische Veränderungen handelt es sich, wenn
die zeitlichen Veränderungen nicht bei allen Personen
gleichartig sind z.B. bei manchen Personen bleibt der wahre
Wert gleich bei anderen steigt er.
Bei Leistungstest ergeben sich Probleme z.B. aufgrund von
Deckeneffekten.
73
Reliabilität
Paralleltest-Reliabilität
Hierbei werden den Personen zwei Tests vorgelegt, die
parallele Messungen darstellen. Die Korrelation der
Ergebnisse schätzt die Reliabilität der beiden Tests.
reˆl  r ( X A , X A' )
Probleme ergeben sich, wenn die beiden Tests nicht völlig
parallel sind. Eine strenge Testung der Parallelität zweier Tests
ist im Rahmen der klassischen Testtheorie nicht möglich.
Die eleganteste Prüfung der Parallelität von Tests ohne auf die
moderne Testtheorie zurückzugreifen, stellen konfirmatorische
Faktorenanalysen dar.
74
37
Reliabilität
Testhalbierungs-Reliabilität (Split-Half Reliabilität)
Hierbei wird ein aus mehreren Items bestehender Test in zwei
möglichst parallele Untertests geteilt. Die Korrelation der
Ergebnisse der beiden Untertests schätzt die Reliabilität des
halb so langen Tests. Um auf die geschätzte Reliabilität des
Gesamttests zu kommen, wird auf einen Spezialfall der Formel
von Spearman-Brown* zurückgegriffen.
reˆlGesamttest 
2  r( X1, X 2 )
1  r( X1, X 2 )
* auf die Spearman Brown Formel wird auf Folie 82 näher eingegangen
75
Reliabilität
Innere Konsistenz
Hierbei wird jedes Item eines aus mehreren Items bestehenden Tests
als eigene Messung des interessierenden Merkmals betrachtet. Die
innere Konsistenz kann dann vereinfacht als durchschnittliche
Korrelation aller Items dieses Tests verstanden werden, hängt aber
auch von der Anzahl an Items im Test ab.
Die bekanntesten Kennwerte zur inneren Konsistenz sind
– Cronbach 
k
i ˆ ²( X i )
k

 (1 
)
k 1
ˆ ²( X )
- Lambda3 nach Guttman
k
 ˆ ²( X ) 
i
i
3  1 
mit k= Anzahl an Items im Test
k
k
k
  ˆ 2 ( X i , X j )
k  1 i 1 j 1
i j
ˆ ²( X )
76
38
Reliabilität
Innere Konsistenz
Stellen die Items zumindest essentiell - äquivalente
Messungen dar, sind  und 3 Schätzungen der Reliabilität
des Gesamttests.
Für den Fall, dass die Items keine äquivalenten Messungen
darstellen, sind  und 3 lediglich untere Schranken der
Reliabilität.
77
Reliabilität
WICHTIG
– bei der Berechnung von  und 3 müssen die Items
gleichartig „gepolt“ sein, d.h. hohe Werte müssen inhaltlich
immer dieselbe Bedeutung haben (z.B. für eine hohe
Ausprägung des Merkmals sprechen)
– Weder  noch 3 sind ein Maß für die „Eindimensionalität“
von Items
78
39
Reliabilität
79
Reliabilität
80
40
Reliabilität
81
Reliabilität
Formel nach Spearman-Brown
Für dann Fall paralleler Items kann aus der Kenntnis der
Reliabilität eines Tests die Reliabilität des um parallele Items
verlängerten bzw. verkürzten Tests mittels der Formel von
Spearman-Brown berechnet werden.
Formel nach Spearman - Brown
reˆlveränderter Test 
mit  
  reˆlOriginaltest
1  (  1)  reˆlOriginaltest
Anzahl der Items im veränderten Test
Anzahl der Items im Originaltest
82
41
Reliabilität
Beispiel 1
Ein Test besteht aus 30 parallelen Items.
Die Reliabilität des Tests beträgt rel=0.67
Wie hoch ist die Reliabilität, wenn man den Test um 10 parallele
Items verlängert?
reˆlveränderter Test 
  reˆlOriginaltest
1  (  1)  reˆlOriginaltest
mit  
reˆlveränderter Test
Anzahl der Items im veränderten Test
Anzahl der Items im Originaltest
40
 0.67
30

 0.73
40
1  (  1)  0.67
30
83
Reliabilität
Beispiel 2
Ein Test besteht aus 30 parallelen Items.
Die Reliabilität des Tests beträgt rel=0.67
Wie viele Items mehr benötigt der Test, wenn man eine
Reliabilität von 0.73 anstrebt?
0.73 
  0.67
1  (  1)  0.67
   1.33 
Anzahl der Items im verändert en Test
30
 Anzahl der Items im verändert en Test  40
84
42
Reliabilität
Einschub
Verlängert oder verkürzt man einen Test um parallele Items, können
Mittelwert und Varianz des veränderten Tests aus Kenntnis der
Kennwerte des Originaltests mittels der nachfolgenden Formeln
errechnet werden.
xˆ veränderter Test    xOriginaltest
ˆ ²( X veränderter Test )    ˆ ²( X Originaltest )  [1  (  1)  reˆlOriginaltest ]
mit  
Anzahl der Items im veränderten Test
Anzahl der Items im Originaltest
85
Reliabilität
Anzustrebende Höhe der Reliabilität
Allgemein: so hoch wie möglich.
Es sind jedoch die nachfolgenden Punkte zu berücksichtigen
– Art des zu erfassenden Merkmals
– Individual- versus Kollektivdiagnostik
– Einsatzbedingungen
– Kosten-Nutzen Abwägungen
– Objektivierbarkeit
86
43
Reliabilität
Art des zu erfassenden Merkmals
Leistungsvariablen sind meist präziser messbar als z.B.
Einstellungen oder Persönlichkeitseigenschaften.
Bei etablierten Intelligenztests sind Reliabilitäten der
globalen
Maße
oft
über
0.90,
während
Persönlichkeitsfragebogen Skalen oft nur Reliabilitäten um
0.7 aufweisen.
Bei heterogenen Merkmalen kann die innere Konsistenz
deutlich geringer sein als z.B. die Retest- oder Paralleltest
Reliabilität
87
Reliabilität
Individual- versus Kollektivdiagnostik
Bei Individualdiagnostik sollte Messgenauigkeit höher sein
als bei Messung der Durchschnittleistung eines Kollektivs,
da sich die Messfehler bei der Zusammenfassung von
Messungen mehrerer Individuen „reduzieren“.
88
44
Reliabilität
Einsatzbedingungen
Bei Tests, die nicht adaptiv* vorgegeben werden können,
hängt die Reliabilität relativ stark von der Testlänge ab.
Daher weisen Tests und Fragebögen, die zum Screening
eingesetzt werden und daher eher kurz sind, meist eine
geringere Reliabilität auf.
*adaptive Testvorgaben werden im Rahmen der Einheiten zur modernen Testtheorie behandelt
89
Reliabilität
Reliabilität und Konfidenzintervalle für 
Da die Reliabilität als Maß für die Genauigkeit der Messung
des wahren Werts einer Person verstanden werden kann, ist
sie Basis für die Erstellung von Konfidenzintervallen für
wahre Werte.
Es gibt zwei Arten von Konfidenzintervallen
– auf Basis der Messfehlervarianz
– auf Basis der Schätzfehlervarianz
90
45
Reliabilität
Reliabilität und Konfidenzintervalle für 
KI auf Basis der Messfehlervarianz
Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die
Messfehlervarianz berechnet werden.
ˆ ²( )  ˆ ²( X )  (1  reˆl )
Das Konfidenzintervall des wahren Werts wird berechnet mittels
 v  xv  zkrit  ˆ ( )
1, 2
bzw.
 v  xv  zkrit  ˆ ²( X )  (1  reˆl )
1, 2
Die zkrit-Werte betragen 1.645 bzw. 1.96 für ein 95% KI und 2.33 bzw.
2.58 für ein 99% KI.
91
Reliabilität
Reliabilität und Konfidenzintervalle für 
KI auf Basis der Schätzfehlervarianz
Die Berechnung des geschätzten wahren Werts und der Schätzfehlervarianz erfolgt über
ˆv  xv  reˆl  x  (1  reˆl )
ˆ ²(ˆ )  ˆ ²( X )  (1  reˆl )  reˆl
Das Konfidenzintervall des wahren Werts wird berechnet mittels
 v  ˆv  zkrit  ˆ (ˆ)
1, 2

bzw. v
1, 2
 ˆv  zkrit  ˆ ²( X )  (1  reˆl )  reˆl
Die zkrit-Werte betragen 1.645 bzw. 1.96 für ein 95% KI und 2.33 bzw.
2.58 für ein 99% KI.
92
46
Reliabilität
Beispiel 1
Eine Person erzielt in einem Test 43 Punkte. Es ist bekannt, dass der
Mittelwert des Tests 39 Punkte, die Standardabweichung des Tests 5
Punkte und die Reliabilität rel= 0.85 beträgt.
In welchem Bereich befindet sich der wahre Wert der Person mit
99%iger Sicherheit?
a) Berechnung auf Basis der Messfehlervarianz
 v  43  2.58  5²  (1  0.85)
1, 2
KI [38.00; 48.00]
b) Berechnung auf Basis der Schätzfehlervarianz
 v  (43  0.85  39  0.15)  2.58  5²  (1  0.85)  0.85
1, 2
KI [37.79; 47.00]
93
Reliabilität
Beispiel 2
Eine Person erzielt in einem Test einen IQ von 134. Die im
Testmanual angegebene Testreliabilität beträgt rel= 0.75.
Kann man mit 95%iger Sicherheit davon ausgehen, dass die Person
einen „wahren“ IQ über 130 hat und somit hochbegabt ist?
Bemerkung: die Standardabweichung des IQ ist laut Normtabellen auf 15 festgelegt
a) Berechnung auf Basis der Messfehlervarianz
 v  134  1.96  15²  (1  0.75)
1, 2
KI [119.3;148.7]
b) Berechnung auf Basis der Schätzfehlervarianz
 v  (134  0.75  100  0.25)  1.96  15²  0.25  0.75
1, 2
KI [112.769; 138.23]
94
47
Validität
Validität
Definition
Ein Test gilt dann als valide („gültig“), wenn er das Merkmal,
das er messen soll, auch wirklich misst.
(angelehnt an Moosbrugger & Kelava, 2008, S. 13)
ABER:
Woran ist erkennbar welches Merkmal ein Test misst?
Anstatt von der „Validität eines Tests“ zu sprechen, sollte
die Validität möglicher Interpretationen von Testergebnissen
betrachtet werden.
(vergl. Moosbrugger & Kelava, 2008,S.136)
95
Validität
Interpretationen eines Testergebnisses
Verschiedene Interpretationen des Testergebnisses können
sich beziehen auf
– die Bewertung des Endergebnisses,
– das Verallgemeinern des Ergebnisses,
– die Extrapolation auf andere Bereiche,
– das (kausale) Erklären und
– mögliche Konsequenzen, die sich durch das Treffen von
Entscheidungen als Folge des Testergebnisses ergeben.
Vor der Validierung muss überlegt werden, welche der
oben angeführten Bereiche betrachtet werden sollen.
96
48
Validität
Wie wird das Merkmal definiert?
Neben der Überlegung, welcher Bereich validiert werden soll,
ist zu überlegen, auf welcher Definition das zu erfassende
Merkmal basiert.
Moosbrugger & Kelava
Merkmalsdefinitionen
unterscheiden
zwischen
zwei
Definitionen
sind
– operational und
– theoretisch.
Die Grenzen zwischen
allerdings fließend.
den
beiden
97
Validität
Operationale Merkmalsdefinition
Um eine operationale Merkmalsdefinition handelt es sich,
wenn
die
Testaufgaben
den
interessierenden
Anforderungsbereich direkt repräsentieren.
Ein operational definiertes Merkmal bezieht sich zunächst nur
auf die spezifischen Test- bzw. Merkmalsinhalte.
z.B.:
– Test zur Erfassung des Kurzzeitgedächtnisses
– Fragebogen
zur
Atomkraftwerken
Einschätzung
der
Sicherheit
von
98
49
Validität
Theoretische Merkmalsdefinition
Bei theoretischen Merkmalsdefinitionen werden Theorien
herangezogen, die spezifizieren (verdeutlichen), worauf
bestimmte Unterschiede zwischen Personen zurückgeführt
werden können und wie sich diese Unterschiede in den
Testergebnissen ausdrücken.
z.B. formuliert Eysenck (1981) Annahmen darüber, in
welchen neuronalen Strukturen sich Personen mit
unterschiedlichen Ausprägungen der Persönlichkeitsdimension Extraversion unterscheiden. Daraus leitet er
Unterschiede in bestimmten Erlebens- und Verhaltensweisen
ab, auf die sich dann die Items, die zur Erfassung der
Extraversion herangezogen werden, beziehen.
99
Validität
Arten der Validität
Im Wesentlichen werden vier Arten der Validität unterschieden
– Inhaltsvalidität,
– Augenscheinvalidität,
– Kriteriumsvalidität und
– Konstruktvalidität.
Weitere, häufig zu findende Begriffe im Zusammenhang mit Validität
sind
– Übereinstimmungsvalidität,
– prognostische Validität,
– diskriminante Validität und
– konvergente Validität.
100
50
Validität
Inhaltsvalidität
Definition
Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte der
Tests bzw. der Items, aus denen sich ein Test
zusammensetzt, tatsächlich das interessierende Merkmal
erfassen.
(vergl. Moosbrugger & Kelava, 2008, S.140)
101
Validität
Inhaltsvalidität
Bei operationalisierten Merkmalen bezieht sich
Inhaltsvalidität vor allem auf die Verallgemeinerbarkeit
Testergebnisse. Es geht also darum, inwieweit
ausgewählte Items eine repräsentative Auswahl aus
Menge aller möglicher Aufgaben sind.
die
der
die
der
z.B. Wie gut decken die Fragen, die bei der
Testtheorieprüfung gestellt werden, das vorgetragene
Stoffgebiet ab?
102
51
Validität
Inhaltsvalidität
Auch bei theoretisch definierten Merkmalen muss die
Verallgemeinerung auf eine größere Menge von Aufgaben
möglich sein. Zusätzlich muss angenommen werden können,
dass
unterschiedliche
Antworten
Unterschiede
im
interessierenden Merkmal erklären können.
Das bedeutet, es muss von den Antworten auf die Items auf
das interessierende Merkmal geschlossen werden können.
Dies kann nur durch eine gute theoretische Fundierung und
eine daran orientierte Itemkonstruktion gewährleistet
werden.
103
Validität
Augenscheinvalidität
Definition
Augenscheinvalidität
gibt
an,
inwieweit
der
Validitätsanspruch eines Tests vom bloßen Augenschein her
einem Laien gerechtfertigt erscheint.
(Moosbrugger & Kelava, 2008 S.15)
104
52
Validität
Konstruktvalidität*
Definition
Konstruktvalidität umfasst die empirischen Befunde und
Argumente, mit denen die Zuverlässigkeit der Interpretation
von Testergebnissen im Sinne erklärender Konzepte, die
sowohl Testergebnisse als auch Zusammenhänge der
Testwerte mit anderen Variablen erklären, gestützt wird.
(Messick, 1995, S.743, Übersetzung J. Hartig & A. Frey;
aus Moosbrugger & Kelava, 2008, S. 145)
*auf die Konstruktvalidität wird im Zuge der Faktorenanalyse nochmals eingegangen.
105
Validität
Konstruktvalidität
Im Wesentlichen geht es darum, Testergebnisse vor dem
Hintergrund
eines
theoretischen
Konstrukts
zu
interpretieren.
Man unterscheidet zwischen
– dem Bereich der Theorie und
– dem Bereich der Beobachtung.
106
53
Validität
Konstruktvalidität
Der Bereich der Theorie beschäftigt sich mit nicht direkt
beobachtbaren
(=latenten)
Konstrukten
und
deren
Zusammenhängen.
Im Idealfall sind diese Zusammenhänge durch Axiome
formalisiert.
Korrespondenzregeln geben an, wie sich die theoretischen
Zusammenhänge auf den Bereich des Beobachtbaren
auswirken.
Bei diesen „Auswirkungen“ handelt es sich meist um
Zusammenhänge zwischen manifesten Variablen mitunter
aber auch um Unterschiede zwischen Gruppen.
107
Validität
Konstruktvalidität
Diese Zusammenhänge bzw. Unterschiede
weiterer Folge empirisch geprüft.
werden
in
Stimmen die theoretische Vorhersagen mit den empirischen
Beobachtungen überein, wird das als Bestätigung der
Theorie als auch der Interpretation der Testkennwerte als
individuelle Ausprägung auf dem theoretischen Konstrukt
angesehen.
Für den Fall, dass eine relativ hohe Korrelation erwartet wird,
spricht man von konvergenter Validität (z.B. Korrelation mit
einem Test der dasselbe Konstrukt messen soll).
Falls man eine niedrige Korrelation erwartet, spricht man von
diskriminanter Validität. (z.B. Korrelation mit einem Test, der
ein anderes Konstrukt erfassen soll).
108
54
Validität
Konstruktvalidität
Multi Trait Multi Method Matrix (MTMM)
Dieses auf Korrelationen basierende Vorgehen zur
Konstruktvalidierung wurde von Campell und Fiske (1959)
vorgestellt.
Sowohl
das
interessierende
Merkmal
als
auch
konkurrierende Merkmale (verschiedene Traits) werden mit
unterschiedlichen Methoden erfasst und die erzielten
Ergebnisse miteinander korreliert.
Demnach werden teilweise hohe (konvergente Validität)
teilweise niedrige Korrelationen (diskriminante Validität)
erwartet.
109
Validität
Konstruktvalidität
Multi Trait Multi Method Matrix (MTMM)
Die resultierende Korrelationsmatrix müsste die folgenden
Bedingungen erfüllen
– Korrelationen, bei denen dasselbe Merkmal mit derselben Methode
erfasst wird (mono Trait / mono Method = Retestreliabilität) sollten
höher sein als Messung desselben Merkmals mit unterschiedlichen
Methoden (mono Trait hetero Method)
– Korreliert man Messungen bei denen dasselbe Merkmal mit
unterschiedlichen Methoden gemessen wird (mono Trait hetero
Method), sollten diese Korrelationen höher sein als die
Korrelationen von Messungen unterschiedlicher Merkmale mit
derselben Methode (hetero Trait mono Method)
– Korrelationen von der Messung unterschiedliche Merkmale mit
derselben Methode (hetero Trait mono Method) sollten höher sein
als Korrelationen von Messungen unterschiedlicher Merkmale mit
unterschiedlichen Methoden
110
55
Validität
Konstruktvalidität
Multi Trait Multi Method Matrix (MTMM)
Methode 1
Trait 1
Trait 2
Methode 2
Trait 3
Trait 1
Trait 2
Trait 3
Trait 1
Methode 1
Trait 2
Trait 3
Trait 1
Methode 2
Trait 2
Trait 3
mTmM
mThM
hTmM
hThM
111
Validität
Konstruktvalidität
Weitere Methoden zur Untersuchung der Konstruktvalidität
sind
– Analysen von Antwortprozessen und
– der Vergleich von theoretisch erwarteten Itemschwierigkeiten
mit empirisch ermittelten.
Bei der Analyse von Antwortprozessen können Personen
z.B. gebeten werden, bei der Bearbeitung der Aufgaben laut
zu denken, um so Annahmen über Antwortprozesse zu
erheben bzw. zu klären, ob sich die Antwortprozesse auf das
gewünschte Konstrukt beziehen.
112
56
Validität
Kriteriumsvalidität
Definition
Kriteriumsvalidität bedeutet, dass von einem Testergebnis,
auf ein für diagnostische Entscheidungen praktisch
relevantes
Kriterium
außerhalb
der
Testsituation
geschlossen werden kann. Kriteriumsvalidität kann durch
empirische Zusammenhänge zwischen dem Testwert und
möglichen Außenkriterien belegt werden. Je enger diese
Zusammenhänge, desto besser kann die Kriteriumsvalidität
als belegt gelten.
(Moosbrugger & Kelava, 2008, S. 156)
113
Validität
Kriteriumsvalidität
Von größter Bedeutung ist hierbei die Frage, welche
Außenkriterien gewählt werden.
Die Auswahl sollte gut begründet und nachvollziehbar sein.
Kann ein theoretisch hergeleiteter Zusammenhang von
Testergebnis und Außenkriterium empirisch untermauert
werden,
wird
dadurch
sowohl
die
Validität
der
theoriebasierten Testwertinterpretation als auch die Validität
der diagnostischen Entscheidung unterstützt.
114
57
Validität
Kriteriumsvalidität
Außenkriterien können
– zeitlich parallel existieren (Übereinstimmungsvalidität) oder
– sich auf zukünftige Ausprägungen eines Merkmals beziehen
(prognostische Validität).
115
Validität
Praktische Berechnung der Kriteriumsvalidität
Die praktische Berechnung der Kriteriumsvalidität erfolgt
durch die Berechnung der Korrelation von Testergebnis (X)
mit dem Außenkriterium (Y).
vaˆl  r ( X , Y )
Problematisch dabei ist, dass die Validität durch zwei
Messfehler „verdünnt“ wird. Sie fällt also aufgrund der
Messfehler, die bei der Messung des Testergebnisses und
des Außenkriteriums auftreten, geringer aus, als sie in
„Wirklichkeit“ wäre.
vaˆl  r ( X , Y )  vaˆl  r ( X , Y )
116
58
Validität
Verdünnungsformeln
Um diesen Fehler auszugleichen, gibt es je nachdem welche(r)
Messfehler
theoretisch
beseitigt
werden
soll,
drei
Verdünnungsformeln*
r ( X , Y ) 
r( X ,Y )
reˆl ( X )  reˆl (Y )
r ( X , Y ) 
r( X ,Y )
reˆl ( X )
r ( X , Y ) 
r( X ,Y )
reˆl (Y )
Beseitigung beider Messfehler
Beseitigung des Messfehlers
vom Test
Beseitigung des Messfehlers
vom Kriterium
*die Verdünnungsformeln können natürlich auch im Zuge der Berechnung von Konstruktvaliditäten angewandt werden
117
Validität
Verdünnungsformeln
Beispiel
Die Korrelation eines Tests X mit einem Außenkriterium Y sei
r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests
0.64 und die des Außenkriteriums 0.49 beträgt.
a) Wie hoch wäre die Validität des Tests, wenn man das
Außenkriterium fehlerfrei erheben könnte?
b) Wie hoch wäre die Validität des Tests, wenn man das
Testergebnis fehlerfrei messen könnte?
c) Wie hoch wäre die Validität des Tests, wenn man sowohl
den Test als auch das Außenkriterium fehlerfrei messen
könnte?
118
59
Validität
Verdünnungsformeln
Beispiel
Die Korrelation eines Tests X mit einem Außenkriterium Y sei
r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests
0.64 und die des Außenkriteriums 0.49 beträgt.
a) Wie hoch wäre die Validität des Tests, wenn man das
Außenkriterium fehlerfrei erheben könnte?
r ( X , Y ) 
r( X ,Y )
reˆl (Y )
r ( X , Y ) 
0.47
 0.6714
0.49
119
Validität
Verdünnungsformeln
Beispiel
Die Korrelation eines Tests X mit einem Außenkriterium Y sei
r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests
0.64 und die des Außenkriteriums 0.49 beträgt.
b) Wie hoch wäre die Validität des Tests, wenn man das
Testergebnis fehlerfrei messen könnte?
r ( x , Y ) 
r( X ,Y )
reˆl ( X )
r ( x , Y ) 
0.47
 0.5875
0.64
120
60
Validität
Verdünnungsformeln
Beispiel
Die Korrelation eines Tests X mit einem Außenkriterium Y sei
r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests
0.64 und die des Außenkriteriums 0.49 beträgt.
c) Wie hoch wäre die Validität des Tests, wenn man sowohl
den Test als auch das Außenkriterium fehlerfrei messen
könnte?
r ( X , Y ) 
r( X ,Y )
reˆl ( X )  reˆl (Y )
r ( X , Y ) 
0.47
 0.839
0.49  0.64
121
Validität
Validität und Kosten-Nutzen Abwägungen
Ist die Validität eines Tests bekannt, kann damit der Nutzen
der Anwendung eines Tests zur Personenselektion ermittelt
werden.
Hierfür können die sogenannten Taylor-Russell Tafeln
herangezogen werden.
122
61
Validität
Taylor - Russell Tafeln
Die Grundidee der Taylor Russel Tafeln besteht darin, dass
angenommen wird, dass ein Individuum über eine bestimmte
Mindestausprägung des zu erhebenden Merkmals verfügen
muss, um für eine bestimmte Anforderung geeignet zu sein.
Je nachdem wie hoch diese Mindestausprägung ist, ist nur
ein gewisser Prozentsatz der „relevanten“ Population
„wirklich geeignet“. Dieser Prozentsatz nennt sich Grundrate
(GR) bzw. Grundquote (GQ)
Weiters wird aufgrund des Testergebnisses ein bestimmter
Teil der getesteten Personen als geeignet betrachtet. Dieser
Anteil nennt sich Selektionsrate (SR) oder Selektionsquote
(SQ)
123
Validität
Taylor - Russell Tafeln
Anhand der Taylor Russell Tafeln ist für tabellierte Grundund Selektionsraten sowie bei gegebener Validität des Tests
ablesbar, wie hoch der Anteil „wirklich geeigneter“ Personen
ist, sofern sie aufgrund des Testergebnisses als „geeignet“
angesehen werden.
124
62
Validität
Merkmalsausprägung
Testergebnis
125
Validität
126
63
Validität
127
Validität
128
64
Validität
Merkmalsausprägung
Testergebnis
129
Validität
130
65
Validität
Validität des Tests
Grundrate = 0.1
Selektionsrate
131
Validität
Taylor - Russell Tafeln
Beispiel 1
Es sei bekannt, dass 40 % jener Personen, die sich für eine
Stelle bewerben auch wirklich dafür geeignet sind. Zur
Auswahl der Personen wird ein Test mit einer Validität von
val=0.20 verwendet.
a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20
BewerberInnen aufgrund des Tests ausgewählte Person
wirklich für die ausgeschriebene Stelle geeignet ist?
b) Wie hoch ist die Wahrscheinlichkeit eine geeignete
Person zu erhalten, wenn die Auswahl der Person nicht
aufgrund der Testergebnisse, sondern zufällig erfolgt?
132
66
Validität
Taylor - Russell Tafeln
Beispiel 1
Es sei bekannt, dass 40 % jener Personen, die sich für eine
Stelle bewerben auch wirklich dafür geeignet sind. Zur
Auswahl der Personen wird ein Test mit einer Validität von
val=0.20 verwendet.
a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20
BewerberInnen aufgrund des Tests ausgewählte Person
wirklich für die ausgeschriebene Stelle geeignet ist?
Lösung: GR= 0.40
SR=1/20=0.05
val=0.20
=> 0.57
133
Validität
Taylor - Russell Tafeln
Beispiel 1
Es sei bekannt, dass 40 % jener Personen, die sich für eine
Stelle bewerben auch wirklich dafür geeignet sind. Zur
Auswahl der Personen wird ein Test mit einer Validität
von val=0.20 verwendet.
b) Wie hoch ist die Wahrscheinlichkeit eine geeignete
Person zu erhalten, wenn die Auswahl der Person nicht
aufgrund der Testergebnisse, sondern zufällig erfolgt?
Lösung: die Grundrate (hier 0.40)
134
67
Validität
Taylor - Russell Tafeln
Beispiel 2
Es sei bekannt, dass 40 % jener Personen, die sich für eine
Stelle bewerben auch wirklich dafür geeignet sind.
Wie hoch müsste die Validität sein, damit die
Wahrscheinlichkeit, dass eine aus 20 BewerberInnen
aufgrund des Tests ausgewählte Person, auch wirklich
geeignet ist, 95 % beträgt?
Lösung: GR=0.40
=> val= 0.70
SR=1/20=0.05
% - Satz=0.95
135
Validität
Berechnung der Validität bei Verkürzung oder
Verlängerung eines Tests um parallele Testteile
vaˆlveränderter Test
2
  vaˆlOriginalte
st

1  (  1)  reˆlOriginaltest
mit  
Anzahl der Items im veränderten Test
Anzahl der Items im Originaltest
136
68
Validität
Beispiel 1
Ein Test besteht aus 30 parallelen Items.
Die Reliabilität des Tests beträgt rel=0.67, die Validität ist 0.43.
Wie hoch ist die Validität, wenn man den Test um 10 parallele
Items verkürzt?
vaˆlveränderter Test 
2
  vaˆlOriginalte
st
1  (  1)  reˆlOriginaltest
mit  
vaˆlveränderter Test
Anzahl der Items im veränderten Test
Anzahl der Items im Originaltest
20
 (0.43)²
30

 0.3983
20
1  (  1)  0.67
30
137
Faktorenanalyse
69
Grundidee
Grundidee
Korrelationen zwischen den (manifesten) Items werden
dadurch erklärt, dass ihnen zumindest ein gemeinsames
latentes Merkmal (=„Faktor“) zugrunde liegt.
Item 1
Item 2
Item 3
Item 4
Item 5
Latentes Merkmal
Die paarweisen Korrelation zwischen den (standardisierten)
Items sind selbst bei einem Faktor nicht 1, da neben dem
Einfluss des latenten Merkmals auch andere Einflüsse (wie
z.B. Messfehler) berücksichtigt werden müssen.
139
Grundidee
Grundidee
Item 1
Item 2
Item 3
Item 4
Item 5
Latentes Merkmal
140
70
Grundidee
Grundidee
Im Falle eines einzigen gemeinsamen latenten Merkmals,
lautet die formale Darstellung der Faktorenanalyse
Z i  i ,1  F1   i   i
Standardisiertes
Ergebnis des
Item i
alle anderen Einflüsse
= „itemspezifischer
Faktor“
Ladung(= Bedeutung)
aller anderen Einflüsse
bei Item i
Ladung(= Bedeutung)
von Faktor 1 bei Item
i
Faktor 1
Dieses Modell wird auch als das „Generalfaktormodell“
bezeichnet und geht auf Spearman zurück.
141
Grundidee
Grundidee
Zur Veranschaulichung
Item1
Item2
Item3
Item4
Item5
Die Box steht für die Varianz des Items.
Die hellblaue Fläche für den Anteil an Varianz, der durch den ersten
Faktor erklärt wird.
Die anderen Farben für die „itemspezifischen“ Einflüsse, die auf das
jeweilige Item wirken. Sie sind bei jedem Item anders.
142
71
Grundidee
Grundidee
Zum Vergleich das Modell der einfachen Regression
Modell




Y  by , x  X  a y , x  
Alle anderen
Einflüsse auf die
Variable Y
Variable die
vorhergesagt
werden soll
Achsenabschnitt
Ladung(= Bedeutung)
von Variable X
Variable X
Z i  i ,1  F1 

Modell
 i  i

alle anderen Einflüsse
143
Grundidee
Grundidee
Item 1
Item 2
Faktor 1
Item 3
Item 4
Item 5
Faktor 2
Z i  i ,1  F1  i , 2  F2   i   i
144
72
Grundidee
Grundidee
Zur Veranschaulichung
Item1
Item2
Item3
Item4
Item5
Die Box steht für die Varianz des Items.
Die hellblaue Fläche für den Anteil an Varianz, der durch den ersten
Faktor erklärt wird.
Die hellgrünen Flächen für den Anteil an Varianz, der durch den
zweiten Faktor erklärt wird.
Die anderen Farben für die „itemspezifischen“ Einflüsse, die auf das
jeweilige Item wirken. Sie sind bei jedem Item anders.
145
Grundidee
Grundidee
Das multiple Faktorenmodell von Thurstone
Z i  i ,1  F1  i , 2  F2  ...  i ,m  Fm   i   i
oder
m
Z i   i , j  F j   i   i
j 1
146
73
Grundidee
Grundidee
Das multiple Faktorenmodell von Thurstone
Unter der Annahme, dass die Ausprägungen der Personen in den
verschiedenen Faktoren nicht miteinander korrelieren (oder kurz: unter
der Annahme unkorrelierter Faktoren), ergibt sich, dass sich die
Korrelation zwischen zwei Items nach folgender Formel berechnen lässt
m
 ( X a , X b )  a ,1  b,1  a , 2  b, 2  ...  a ,m  b,m   a , j  b, j
j1
147
Grundidee
Beispiel 1
F1
Item 1
Item 2
Item 3
Item 4
F2
 .33   .12 
 .87   .49 



 .66   .22



 .67   .18 
m
 ( X a , X b )   a , j  b, j
j1
 ( X 1 , X 3 )  (.33  .66  .12  (.22))  .1914
 ( X 1 , X 4 )  (.33  .67  .12  .18)  .2427
148
74
Kennwerte
Kennwerte
Die drei wichtigsten Kennwerte der Faktorenanalyse sind
– die Ladungen der Faktoren pro Item  ,
i, j
– die Kommunalität des Items hi2 und
– der Eigenwert des Faktors Eig ( F j ) .
149
Kennwerte
Die Ladungen

Die Ladung i, j ist die Korrelation von Item i mit Faktor j.
i , j   ( X i , F j )
Ladungen können daher positiv oder negativ sein!
Die quadrierte Ladung ist das Bestimmtheitsmaß. Dadurch ist
sowohl ablesbar, wie stark ein Faktor an einem Item
„beteiligt“ ist, aber auch, wie gut die Ausprägung des Faktors
durch das Item vorhersagbar ist bzw. wie gut das Item den
Faktor misst.
Die Ladung
i, j
ist daher als (Konstrukt)Validität des Items i
für den Faktor j interpretierbar.
150
75
Kennwerte
Zur Veranschaulichung
Item 1
Item 2
Item 3
Faktor 1
Item 4
Item 5
Faktor 2
151
Kennwerte
Zur Veranschaulichung
Item1
12,1
Item2
Item3
22,1
Item4
Item5
24, 2
152
76
Kennwerte
Die Kommunalität eines Items
Die Kommunalität eines Items gibt an, wie viel der Varianz
eines Items durch die gemeinsamen Faktoren erklärt werden
kann.
m
2
2
i
i, j
j 1
Geht man davon aus, dass die Ausprägungen der Faktoren
bei den Personen stabil sind, so ist die Kommunalität die
untere Schranke der Reliabilität des Items.
2
i
i
h  
h  rel ( X )
153
Kennwerte
Item 1
Item 2
Faktor 1
Item 3
Item 4
Item 5
Faktor 2
154
77
Kennwerte
Zur Veranschaulichung
Item1
h12
Item2
Item3
Item4
h22
12,1
Item5
h42
155
Kennwerte
Der Eigenwert eines Faktors
Der Eigenwert eines Faktors gibt an, wie viel der Varianz der
Items durch den jeweiligen Faktoren erklärt werden kann.
k
Eig ( F j )   i2, j
i 1
Dividiert man den Eigenwert eines Faktors durch die Anzahl
an Items und nimmt das Ergebnis mal 100, so ergibt das den
Prozentsatz der Gesamtvarianz aller Items, der durch den
jeweiligen Faktor erklärt wird.
Prozent der Gesamtvarianz erklärt durch Faktor j 
Eig ( F j )
k
100
mit k= Anzahl an Items im Test
156
78
Kennwerte
Der Eigenwert eines Faktors
Dividiert man den Eigenwert eines Faktors durch die Summe
aller Eigenwerte und nimmt das Ergebnis mal 100, so ergibt
das wie viel Prozent der durch die gemeinsamen Faktoren
erklärbaren Varianz der jeweilige Faktor erklärt.
Prozent erklärbarer Varianz durch Faktor j 
Eig ( F j )
100
m
 Eig ( F
f 1
f
)
Je größer der Eigenwert eines Faktors umso größer ist sein
Anteil an der „Erklärung“ der Korrelationen zwischen den
Items.
157
Kennwerte
Der Eigenwert eines Faktors
Der Eigenwert ist demnach „wichtig“, um den „Stellenwert“
eines Faktors zu interpretieren. Er kann (im übertragenen
Sinn) als Maß dafür verstanden werden, wie gut die im Test
enthaltenen Items den jeweiligen Faktor messen bzw. wie viel
„Information“ die im Test enthaltenen Items über den Faktor
„liefern“.
158
79
Kennwerte
Item 1
Item 2
Item 3
Faktor 1
Item 4
Item 5
Faktor 2
159
Kennwerte
Zur Veranschaulichung
Item1
Item2
Item3
Item4
12,1
Item5
Eig ( F1 )
160
80
Kennwerte
Zur Veranschaulichung
Item1
Item2
Item3
Item4
12,1
Item5
Eig ( F2 )
161
Kennwerte
162
81
Kennwerte
163
Kennwerte
164
82
Kennwerte
165
Kennwerte
Beispiel 2
F1
Item 1 
F2
.33   .12 

  .49 
Item 2  .87



Item 3  .66    .22 



Item 4  .67   .18 
h12  .33²  .12²  .1233
h22  (.87)²  .49²  .997
h32  .66²  (.22)²  .484
h42  .67²  .18²  .4813
Eig ( F1 )  .33²  (.87)²  .66²  .67²  1.7503
Eig ( F2 )  .12²  .49²  (.22²)  .18²  0.3353
166
83
Kennwerte
Beispiel 2
Eig ( F1 )  .33²  (.87)²  .66²  .67²  1.7503
Eig ( F2 )  .12²  .49²  (.22²)  .18²  0.3353
1.7503
100  43.75%
4
0.3353
Prozent der Gesamtvarianz Faktor 2 
100  8.3825%
4
1.7503
Prozent der erklärbaren Varianz Faktor 1 
100  83.92%
1.7503  0.3353
0.3353
Prozent der erklärbaren Varianz Faktor 2 
100  16.08%
1.7503  0.3353
Prozent der Gesamtvarianz Faktor 1 
167
Parameterschätzung
Parameterschätzung
Die mathematische Herausforderung im Rahmen der
Faktorenanalyse ist die Bestimmung der (unbekannten)
Ladungen sowie die Festlegung der Faktorenzahl.
Die Grundidee der Parameterschätzung basiert darauf,
zunächst jenen Faktor mit dem größten Eigenwert zu
„extrahieren“. Dadurch wird die Summe der quadrierten
verbleibenden Korrelationen zwischen den Items am
stärksten minimiert.
Daraus folgt, dass man die Ladungen des 1. Faktors so
bestimmt, dass
k
k
 [r ( X
a 1 b 1
a
, X b )  ˆa ,1 ˆb ,1 ]2  Minimum
168
84
Parameterschätzung
Parameterschätzung
Die mathematische Name dieses Problems nennt sich
„Eigenwert – Eigenvektor Problem“ und wurde (zum Glück)
bereits gelöst.
Der Lösungsweg erfolgt iterativ und ist in realen Situationen
für die händische Berechnung viel zu aufwändig.
169
Parameterschätzung
Parameterschätzung
Nach Extraktion des ersten Faktors (= Schätzung der
Ladungen des ersten Faktors), wird der zweite Faktor nach
derselben Grundidee extrahiert. Allerdings verwendet man
hierfür nicht die originalen Korrelationen, sondern die um den
Einfluss des ersten Faktors reduzierten. Diese Korrelationen
werden „Restkorrelationen“ genannt.
r ( X a , X b )1Rest  r ( X a , X b )  ˆa ,1  ˆb ,1

 

Restkorrelation von
Item a und b nach
Extraktion von Faktor 1
zur Erinnerung:
 ( X a , X b )  a ,1  b,1  a , 2  b, 2  ...  a ,m  b ,m
170
85
Parameterschätzung
Parameterschätzung
Im Rahmen der Faktorenanalyse wurden eine Vielzahl an
Extraktionsverfahren entwickelt. Die zwei am häufigsten
angewandten sind
– die Hauptachsenanalyse („principal axis“) und
– die Hauptkomponentenanalyse („principal components“).
171
Parameterschätzung
Parameterschätzung
Bei
der
Hauptkomponentenanalyse
wird
davon
ausgegangen, dass sich die Varianz eines Items vollständig
durch die gemeinsamen Faktoren erklären lässt. Demnach
sind alle Kommunalitäten (und somit auch die Korrelationen
eines Items mit sich selbst) gleich 1. Als Konsequenz werden
so viele Faktoren extrahiert, wie es Items gibt.
Sie ist die Standardeinstellung bei Berechnung einer
Faktorenanalyse in SPSS.
172
86
Parameterschätzung
Parameterschätzung
Bei der Hauptachsenanalyse wird davon ausgegangen, dass
sich die Varianz eines Items immer in die Kommunalität und
die
Einzelrestvarianz
aufteilt.
Demnach
sind
die
Kommunalitäten (und somit auch die Korrelationen eines
Items mit sich selbst) kleiner als 1.
Ziel ist es also, nur die durch die gemeinsamen Faktoren
erklärbare Varianz zu beschreiben.
Da zu Beginn der Datenanalyse die Kommunalitäten nicht
bekannt sind (=„Kommunalitätenproblem“), werden die
Faktoren zunächst mittels Hauptkomponentenanalyse
geschätzt
und
iterativ
(=schrittweise)
„verbessert“
(„Kommunalitäteniteration“).
173
Parameterschätzung
Parameterschätzung
Laut Backhaus et al.* unterscheidet sich die Interpretation
der Faktoren je nach Methode.
Bei der Hauptkomponentenanalyse geht es darum, die hoch
auf einem Faktor ladenden Items zu einem Sammelbegriff
zusammenzufassen.
Bei der Hauptachsenanalyse geht es darum, die „Ursachen“
für die (hohen) Korrelationen zwischen den Items zu finden.
*Backhaus K., Erichson B., Plinke W., Weiber R. Multivariate Analysemethoden 10. Auflage, Springer. Seite 293.
174
87
Parameterschätzung
175
Parameterschätzung
Bestimmung der Faktorenzahl
Für die Bestimmung der Anzahl an Faktoren gibt es fünf
üblicherweise herangezogene Kriterien
– Faktorenzahl wird a priori festgelegt,
– alle Restkorrelationen sind nahe 0 (z.B.: <.2),
– der Eigenwert des zuletzt extrahierten Faktors ist kleiner 1* (im
übertragenen Sinn ist damit die „Information, die über den Faktor
vorliegt“ geringer als die Information eines einzigen Items),
– der Verlauf des Eigenwertediagramms (Screeplot) oder
– die Parallelanalyse.
Für die Bestimmung der Faktorenzahl gibt es keine generellen
Vorschriften, sodass der Grad an Subjektivität hier relativ hoch ist.
* diese Vorgehensweise wird auch Kaiser - Kriterium genannt
176
88
Parameterschätzung
Bestimmung der Faktorenzahl
Bei der Betrachtung des Eigenwertediagramms, wird jene
Stelle gesucht, an der Verlauf das Eigenwertediagramm
„abflacht“ (= Elbow Kriterium). Die Faktoren vor dem „Knick“
werden in der weiteren Analyse berücksichtigt.
177
Parameterschätzung
178
89
Parameterschätzung
Bestimmung der Faktorenzahl
Bei der Parallelanalyse werden zumindest 100 Datensätze
von Zufallszahlen erzeugt, wobei die Anzahl an Items und der
Stichprobenumfang dem empirisch gewonnenen Datensatz
entspricht.
All
diese
Datensätze
werden
einer
Faktorenanalyse unterzogen und die aus jeder Analyse
gewonnenen Eigenwerte werden pro Faktor gemittelt. Als
relevante nichttriviale Faktoren werden all jene Faktoren
bezeichnet, deren Eigenwerte über jenen der (gemittelten)
Eigenwerte der Parallelanalyse liegen.*
*vergl. Moosbrugger & Kelava 2008, Seite 313.
179
Parameterschätzung
180
90
Ergebnisinterpretation
Interpretation der Faktorenlösung
Die Ladungsmatrix bildet die Grundlage für die inhaltliche
Interpretation der Faktoren. Hierfür werden üblicherweise die
in einem Faktor hoch (=ideal sind Items mit Ladungen über
0.7) und in allen anderen Faktoren niedrig ladenden Items
(ideal sind hier Ladungen unter 0.3) herangezogen. Diese
Items werden auch als „Marker-Items“ bezeichnet.
Zeichnet man die Items als Punkte in einem Raum mit so
vielen Dimensionen wie es Faktoren gibt, so liegen „MarkerItems“ „nahe“ an den Koordinatenachsen.
181
Ergebnisinterpretation
Interpretation der Faktorenlösung
Grundidee
F1
 .19
 .87 


Item 3   .79


Item 4  .91


Item 5   .09 


Item 6   .75 
Item 7   .23
Item 1
Item 2
F2
 .85
 .13


 .21


 .01
 .81


 .08
 .88


1, 2
h12
F1
1,1
F2
182
91
Ergebnisinterpretation
Interpretation der Faktorenlösung
Wegen der Vorgehensweise bei der Parameterschätzung
sind derartig hohe Ladungen bei der „Erstlösung“ in der
Praxis aber eher selten.
Aus diesem Grund werden die Faktoren zur besseren
Interpretierbarkeit „rotiert“.
Ziel ist eine einfache Struktur („simple structure“) bei der
jedes Item nach Möglichkeit nur in einem Faktor hoch, in den
anderen Faktoren jedoch gering lädt.
Dadurch ergeben
Ladungen.
sich
neue,
besser
interpretierbare
183
Ergebnisinterpretation
Faktorenrotation
Grundidee
F1
 .33 
 .87 


Item 3   .66 


Item 4  .67


Item 5   .79 


Item 6   .75 
Item 7   .33 
Item 1
Item 2
F2
 .56
 .49


 .64


 .18
 .51


 .48
 .42


F1
F2
184
92
Ergebnisinterpretation
Faktorenrotation
F2‘
Grundidee
F1‘
Item 1  .010 
 .998 


Item 3  .224 


Item 4  .490


Item 5  .939 


Item 6  .888 
Item 7  .527 
Item 2
F2‘
 .65 
 .01 


 .89 


 .49 
 .06 


 .07 
 .09 


F1
F1‘
F2
185
Ergebnisinterpretation
Faktorenrotation
Durch die Rotation ändern sich
– die Ladungen,
– die Eigenwerte und
– möglicherweise auch die Interpretation der Faktoren.
Unverändert bleiben
– die Kommunalitäten und
– der Anteil der durch die Faktoren erklärbaren Varianz.
186
93
Ergebnisinterpretation
Faktorenrotation
Wird der rechte Winkel zwischen den Faktorenachsen
beibehalten (= unabhängige Faktoren) spricht man von einer
orthogonalen Rotation.
Gibt man die Forderung nach unabhängigen Faktoren auf (=
Faktorenachsen müssen nicht im rechten Winkel aufeinander
stehen) so spricht man von schiefwinkeligen (= oblique)
Rotationen.
Die bekannteste Art der Faktorenrotation ist die „VarimaxRotation“. Hierbei werden die Faktoren so rotiert, dass die
Varianz der Ladungen innerhalb eines Faktors maximal wird.
Das bedeutet, das Ziel ist pro Faktor sowohl hohe als auch
niedrige Ladungen zu haben, um so die Faktoren leichter
benennen zu können.
187
Ergebnisinterpretation
188
94
Ergebnisinterpretation
189
Ergebnisinterpretation
190
95
Ergebnisinterpretation
Faktorwerte
Da es das Ziel der Faktorenanalyse ist, die Zahl der
Kennwerte zu reduzieren (aus vielen Items sollen deutlich
weniger Faktoren resultieren), ist es nötig, Kennwerte für die
Ausprägungen der Personen in den zu Grunde liegenden
Faktoren zu ermitteln. Diese Kennwerte nennen sich
Faktorwerte (auch „Skalenwerte“ genannt).
Man unterscheidet zwischen gewichteten und ungewichteten
Faktorwerten.
191
Ergebnisinterpretation
Ungewichtete Faktorwerte
Die Berechnung der ungewichteten Faktorwerte erfolgt pro
Person z.B. durch aufsummieren oder mitteln der Punkte
jener Items, die in einem Faktor hoch laden.
Items, die in mehreren Faktoren ähnlich hohe Ladungen
aufweisen, werden entweder jenem Faktor zugerechnet, in
dem sie die höchste Ladung aufweisen oder bei der
Berechnung der Faktorwerte nicht berücksichtigt.
Ist die Ladung eines Items in einem Faktor negativ, so muss
das Item „umgepolt“ werden.
192
96
Ergebnisinterpretation
Beispiel 3
5 Aussagen, auf die die Personen mit 0 (stimme gar nicht zu)
bis 10 (stimme völlig zu) antworten konnten.
ID
X1
X2
X3
X4
X5
1
7
3
7
2
9
2
8
3
7
2
9
3
5
8
5
9
2
4
0
2
1
3
6
193
Ergebnisinterpretation
Beispiel 3
ID
X1
X2
X3
X4
X5
1
7
3
7
2
9
2
8
3
7
2
9
3
5
8
5
9
2
4
0
2
1
3
6
Aufgrund der negativen Ladung von Item 5 in Faktor 1 muss dieses Item
für die Berechnung des ungewichteten Faktorwerts (und auch für die
Berechnung der Reliabilität) „umgepolt“ werden.
194
97
Ergebnisinterpretation
Beispiel 3
ID
X1
X2
X3
X4
X5
1
7
3
7
2
9
2
8
3
7
2
9
3
5
8
5
9
2
4
0
2
1
3
6
Das Umpolen erfolgt durch
*
i
v ,i
X
 [min( X )  (max( X i )]  X v ,i
195
Ergebnisinterpretation
Beispiel 3
ID
X1
X2 X3 X4 X5 X5*
1
7
3
7
2
9
1
2
8
3
7
2
9
1
3
5
8
5
9
2
8
4
0
2
1
3
6
4
X 1*, 5  [0  10]  9  1
X *3, 5  [0  10]  2  8
X *4 , 5  [0  10]  6  4
196
98
Ergebnisinterpretation
Beispiel 3
ID X1 X2 X3 X4 X5 X5* FW1
1
7
3
7
2
9
1
6
2
8
3
7
2
9
1
6
3
5
8
5
9
2
8
25
4
0
2
1
3
6
4
9
FW1,1  3  2  1 FW2,1  3  2  1
FW3,1  8  9  8 FW4,1  2  3  4
197
Ergebnisinterpretation
Beispiel 3
ID X1 X2 X3 X4 X5 X5* FW1 FW2
1
7
3
7
2
9
1
6
14
2
8
3
7
2
9
1
6
15
3
5
8
5
9
2
8
25
10
4
0
2
1
3
6
4
9
1
FW1, 2  7  7
FW2, 2  8  7
FW3, 2  5  5
FW4,1  0  1
198
99
Ergebnisinterpretation
Gewichtete Faktorwerte
Da bei der ungewichteten Berechnung der Faktorwerte die
unterschiedliche
Konstruktvalidität
der
Items
nicht
berücksichtigt wird und Items, die in zwei oder mehr
Faktoren ähnlich hohe Ladungen haben, problematisch sind,
werden die Items je nach Ladung eines Items in einem Faktor
gewichtet.
Das Umpolen der Items ist hierbei nicht nötig.
Es resultieren pro Faktor standardisierte Faktorwerte.
Für die Berechnung stehen in SPSS unterschiedliche
Methoden zu Verfügung.
199
Ergebnisinterpretation
200
100
Arten der Faktorenanalyse
Arten der Faktorenanalyse
Es lassen sich zwei Arten von Faktorenanalysen
unterscheiden
– die explorative und
– die konfirmatorische Faktorenanalyse.
201
Arten der Faktorenanalyse
Explorative Faktorenanalysen
Die explorative Faktorenanalyse wird verwendet, wenn
noch keine Hypothesen über die Anzahl an Faktoren und
die Zuordnung der Items zu den Faktoren existieren.
Die Zahl der Faktoren und die Zuordnung der Items zu den
Faktoren
wird
mittels
der
zuvor
besprochenen
Vorgehensweisen bestimmt.
202
101
Arten der Faktorenanalyse
Konfirmatorische Faktorenanalysen
Bei der konfirmatorischen Faktorenanalyse sollen eine
oder
mehrere
zuvor
theoretisch
festgelegte
Faktorenstrukturen anhand empirischer Daten auf ihre
Gültigkeit hin überprüft werden. Demnach müssen die
Faktorenzahl und die Zuordnung der Items zu den
Faktoren bekannt sein.
203
Arten der Faktorenanalyse
Konfirmatorische Faktorenanalysen
Die konfirmatorische Faktorenanalyse zählt zu den
Strukturgleichungsmodellen (SEM) in deren Rahmen
geprüft wird, wie gut ein oder mehrere theoretisch
formulierte Modelle, die erhobenen Daten beschreiben. Für
diese Fragestellung werden sowohl Signifikanztests als
auch Indices zur Überprüfung der Modellanpassung an die
Daten verwendet*.
Auch Multi-Trait-Multi-Method Designs können mithilfe
konfirmatorischer Faktorenanalysen geprüft werden**.
* Literaturtipp: Byrne, B.M. (2010) Structural Equation Modeling with AMOS 2nd ed., Routledge.
**Literaturtipp: Kenny, D.A. & Kashy, D.A (1992) Analysis of the multitrait – multimethod matrix by
confirmatory factor analysis. Psychological Bulletin, 112 165 – 172.
204
102
Grenzen der Anwendbarkeit
Probleme und häufige Fehler bei der Anwendung
Die Faktorenanalyse trifft
Dimensionalität der Items.
keine
Aussagen
über
die
Die klassische Variante der Faktorenanalyse beruht auf der
Berechnung von Pearson Korrelationen bzw. Kovarianzen.
Demnach
sollten
die
für
eine
Faktorenanalyse
herangezogenen Items metrisch sein.
Weiters sind die Ergebnisse (vor allem die Anzahl an
Faktoren) stark stichprobenabhängig. Je homogener die
Stichprobe, desto geringer die Korrelationen zwischen den
Items und umso mehr Faktoren ergeben sich. Demnach
müssten z.B. die Gewichtungen für die gewichteten Summen
in jeder Stichprobe neu berechnet werden.
205
Grenzen der Anwendbarkeit
Probleme und häufige Fehler bei der Anwendung
Für den Fall dichotomer Items sollte als Basis für die
faktorenanalytischen Berechnungen die tetrachorische
Korrelation
herangezogen werden. Die Höhe der
Vierfelderkorrelation (=Pearson Korrelation für zwei
dichotome Items) hängt stark von den Itemschwierigkeiten
der Items ab und führt somit zu artifiziellen Ergebnissen. Die
Faktoren bilden zumeist Gruppen von in etwa gleich
schweren Items.
Mitunter bilden die Faktoren nur das Antwortwortverhalten
der Personen ab. So können z.B. Fragen, die von Personen
meist bejaht werden, in einem gemeinsamen Faktor hoch
laden auch wenn damit inhaltlich völlig unterschiedliche
„Dimensionen“ abgefragt wurden.
206
103
Itemanalyse und Itemselektion im
Rahmen der
klassischen Testtheorie
Itemanalyse und - selektion
Itemanalyse
Nach der Planung und Entwicklung der Items eines Tests
müssen diese einer für den zukünftigen Anwendungsbereich
des Tests möglichst repräsentativen Stichprobe vorgelegt
werden, um die Eignung der Items deskriptivstatistisch (und
eventuell faktorenanalytisch) zu untersuchen.
Die üblicherweise berechneten Kennwerte sind
– Itemschwierigkeit
– Itemvarianz
– Itemtrennschärfe
208
104
Itemanalyse und - selektion
Itemschwierigkeit
Definition
Der Schwierigkeitsindex Pi eines Items i ist der Quotient aus
der bei diesem Item tatsächlich erreichten Punktesumme aller
N Personen und der bei diesem Item von allen Personen
maximal erreichbaren Punktesumme multipliziert mit 100.
N
Pi 
x
v 1
vi
 N  min( X i )
N  [max( X i )  min( X i )]
100
mit N ... Anzahl der Personen
min( X i )... minimal möglicher Punktewert des Items
max( X i )... maximal möglicher Punktewert des Items
(angelehnt an Moosbrugger & Kelava, 2008, S. 75)
209
Itemanalyse und - selektion
Beispiel 1
Bei einem Item können Personen zwischen 0 und 5 Punkte
erzielen. Das Item wurde 120 Personen vorgelegt, die
insgesamt 442 Punkte erzielten.
Wie schwierig ist das Item?
N
Pi 
x
v 1
vi
 N  min( X i )
N  [max( X i )  min( X i )]
Pi 
100
442  120  0
100  73.6
120  [5  0]
210
105
Itemanalyse und - selektion
Beispiel 2
Bei einem Item können Personen zwischen 1 und 10 Punkte
vergeben. Das Item wurde 150 Personen vorgelegt, die
insgesamt 956 Punkte vergaben.
Wie „schwierig“ ist das Item?
N
Pi 
x
v 1
vi
 N  min( X i )
N  [max( X i )  min( X i )]
100
956  150 1
100  59.7 0 3
150  [10  1]
Pi 
211
Itemanalyse und - selektion
Beispiel 3
Ein dichotomes Item wurde 152 Personen vorgelegt und von
28 gelöst.
Wie schwierig ist das Item?
N
Pi 
x
v 1
vi
 N  min( X i )
N  [max( X i )  min( X i )]
Pi 
100
28  152  0
100  18.421
152  [1  0]
Merke: bei dichotomen Items ist die Itemschwierigkeit gleich

der relativen Lösungshäufigkeit!( Pi  pi )
212
106
Itemanalyse und - selektion
Itemvarianz
Die Varianz der Items wird mittels der aus der Statistik
bekannten Formeln für die Varianz ermittelt.
- bei metrischen Items
N
ˆ 2 ( X i ) 
N
1
 ( xi2,v 
N  1 v 1
( xi ,v )²
v 1
N
)
- bei dichotomen Items

ˆ 2 ( X i )  pi  (1  pˆ i )
Vereinfacht gilt: je größer die Varianz eines Items, umso besser seine
Fähigkeit zur Differenzierung (=Diskriminationsfähigkeit).
213
Itemanalyse und - selektion
Itemtrennschärfe
Definition
Die Trennschärfe ri,t eines Item i ist der korrelative
Zusammenhang zwischen den Punkten, die von einer Person v
im Item i und den Punkten die von Person v im Gesamttest
erzielt werden.
(angelehnt an Moosbrugger & Kelava, 2008, S. 82)
ri ,t  r ( X i ,v , X v )
214
107
Itemanalyse und - selektion
Itemtrennschärfe
Neben der unkorrigierten Itemtrennschärfe gibt es auch noch
die korrigierte Itemtrennschärfe bei der die Punkteanzahl, die
eine Person im Gesamttest erzielt hat, um die Punktezahl die
im jeweiligen Item erzielt wurde reduziert wird.
ri*,t  r ( X i ,v , X v*,i )
mit
X v*,i  X v  X i ,v
215
Itemanalyse und - selektion
Itemtrennschärfe
Beispiel
ID X1 X2 X3 X
X*,1 X*,2 X*,3
1
3
2
4
9
6
7
5
2
1
4
2
7
6
3
5
3
1
2
2
5
4
3
3
X 1*,1  9  3  6 X 1*, 2  9  2  7 X 1*,3  9  4  5
216
108
Itemanalyse und - selektion
217
Itemanalyse und - selektion
218
109
Itemanalyse und - selektion
219
Itemanalyse und - selektion
Haben alle Items dasselbe Antwortformat,
erfüllen die Item-Mittelwerte eine dem
Schwierigkeitsindex vergleichbare
Funktion
220
110
Itemanalyse und - selektion
Korrigierte
Itemtrennschärfe
221
Itemanalyse und - selektion
Itemselektion
Die Auswahl für den Test geeigneter Items basiert u.a. auf
der gleichzeitigen
Berücksichtigung der
ermittelten
Testkennwerte.
Selbstverständlich können auch die Ergebnisse der
Faktorenanalyse zur Itemselektion herangezogen werden.
222
111
Itemanalyse und - selektion
Verdünnungsparadoxon
Eine interessante Erkenntnis bringt die Berechnung des
Zusammenhangs von Itemtrennschärfe, Itemvalidität und der
Validität des Gesamttests.
k
val ( X ) 
  ( X )  val ( X )
i
i 1
i
k
 ( X )  
i
i 1
i ,t
Zwar steigt die Validität eines Tests, wenn die einzelnen Items
valider sind, jedoch nimmt die Testvalidität mit höher
werdender Itemtrennschärfe ab.
Demnach sollte die Itemtrennschärfe eines Items nicht hoch
sein.
223
Itemanalyse und - selektion
Verdünnungsparadoxon
Liegt pro Item sowohl eine Schätzung der Itemvalidität als
auch die Itemtrennschärfe vor, kann der Quotient (Qi) aus den
beiden als Kriterium dafür verwendet werden, welche Items
bei einer geplanten Testverkürzung aus einem Test entfernt
werden können, um die Testvalidität trotzdem größt möglich
zu halten.
Qi 

val ( X i )
ri ,t
Es wird die gewünschte Anzahl von Items mit den geringsten
Quotienten entfernt.
224
112
Itemanalyse und - selektion
Beispiel
Möchte aus den 5 Items 4 auswählen, sodass Validität des Test
möglichst hoch bleibt.
Item
Val ri,t
Qi
X1
.87 .23
3.783
X2
.78 .16
4.875
X3
.65 .34
1.912
X4
.77 .33
2.333
X5
.92 .45
2.044
225
Kritik an der klassischen Testtheorie
113
Kritik an der Klassischen Testtheorie
Obwohl sich Tests, die nach der klassischen Testtheorie
konstruiert wurden, in der Praxis durchaus bewährt haben,
gibt es zahlreiche Kritikpunkte.
– Die Grundannahmen (Axiome) können nicht überprüft werden.
– Das
Intervallskalenniveau
der
Testergebnisse
wird
vorausgesetzt, kann jedoch nicht generell bewiesen werden.
– Alle im Rahmen der klassischen Testtheorie gewonnenen
Kennwerte sind stichprobenabhängig.
– Die Fairness der Summenbildung über verschiedene Items
zur Ermittlung eines Gesamttestwerts ist nicht gesichert.
227
Kritik an der Klassischen Testtheorie
Stichprobenabhängigkeit der Kennwerte
Itemschwierigkeit
Je besser die Stichprobe an der die Schwierigkeit eines Items
erhoben wird, desto leichter erscheint das Item. Aber auch der
Vergleich des Schwierigkeitsverhältnisses zweier Items hängt
von der Stichprobe ab.
B
+
B
-
A + 72 8
80
- 16 4
20
88 12 100
88 : 80  11 : 10  1.1
+
-
A + 8
6
14
- 12 74 86
20 80 100
20 : 14  10 : 7  1.4286
228
114
Kritik an der Klassischen Testtheorie
Stichprobenabhängigkeit der Kennwerte
Itemvarianz
Die größte Varianz kann bei mittelschweren Items erzielt
werden. Je schwerer (oder leichter) ein Item wird, umso
geringer ist die Varianz aufgrund von Boden- und
Deckeneffekten.
z.B. : Dichotome Items
Extrem leichte (immer gelöste) oder extrem schwere (nie
gelöste) Items, haben eine Varianz von 0.
229
Kritik an der Klassischen Testtheorie
Stichprobenabhängigkeit der Kennwerte
Reliabilität
rel 
 ²( )
 ²( )

 ²( X )  ²( )   ²( )
Steigt die Varianz der wahren Werte, so wirkt sich dieselbe
Messfehlervarianz weniger auf die Reliabilität aus.
homogene Stichprobe
rel 
 ²( )
1

 0.0 9
 ²( )   ²( ) 1  10
heterogene Stichprobe
rel 
 2 ( )
100
 0.9 0
 ( )   2 ( ) 100  10
2
230
115
Kritik an der Klassischen Testtheorie
Stichprobenabhängigkeit der Kennwerte
Validität
Aus den Verdünnungsformeln kann hergeleitet werden, dass
r ( X , Y )  r ( X , x )  r (Y , x )
Validität
reˆl
Korrelation
Daraus folgt, dass


val  re l
Da wir gezeigt haben, dass die Reliabilität von der Stichprobe
abhängt, hängt auch die Validität von der Stichprobe ab.
231
Moderne Testtheorie
(Item Response Theory)
116
IRT - Grundlagen
Vorbemerkung
Obwohl in weiterer Folge aus Gründen der besseren
Verständlichkeit angenommen wird, dass das zu messende
Merkmal eine Fähigkeit ist und daher auch von der
Personenfähigkeit und der „Lösungswahrscheinlichkeit“
eines Items gesprochen wird, ist die Item Response Theory
(IRT) prinzipiell auch für die Analyse von Items zur Erfassung
von Persönlichkeitsmerkmalen und Einstellungen geeignet.
233
IRT - Grundlagen
Grundidee
Im Gegensatz zur klassischen Testtheorie, die erst beim
Testwert ansetzt, sich jedoch nicht näher damit beschäftigt,
wie es zu dem Testergebnis kommt, setzen Modelle der IRT
bereits an der Formulierung des Zusammenhangs von
latenter Dimension und manifester Variable an.
Ähnlich wie bei der Faktorenanalyse geht es also darum,
dass manifeste Antwortverhalten durch die individuellen
Merkmalsausprägungen der Personen erklären zu können.
234
117
IRT - Grundlagen
Grundidee
Im Allgemeinen wird davon ausgegangen, dass drei
Komponenten die beobachtete
Antwort (bzw. die
Wahrscheinlichkeit
für
eine
beobachtete
Antwort)
beeinflussen. Bei den drei Komponenten handelt es sich um
– Eigenschaften der Person (z.B. Fähigkeit),
– Eigenschaften des Items (z.B. Schwierigkeit) und
– zufällige Einflüsse.
235
IRT - Grundlagen
Grundidee
Weiters wird bei den meisten Modellen im Rahmen der IRT
von der Existenz einer einzigen latenten Dimension
ausgegangen. Die beobachteten Antworten der Person (oder
auch die vorliegenden Symptome) werden als Indikatoren
dieser latenten Dimension aufgefasst. Mit ihrer Hilfe lässt
sich die Ausprägung der Person auf der latenten Dimension
abschätzen.
236
118
IRT - Grundlagen
Grundidee
Die verschiedenen im Rahmen der IRT definierten Modelle
unterscheiden sich im Wesentlichen hinsichtlich des
angenommenen Zusammenhangs zwischen der Ausprägung
auf der latenten Dimension und der Wahrscheinlichkeit für
eine bestimmte Antwort.
Dieser Zusammenhang wird durch die Itemcharakteristik
hergestellt. Es handelt sich dabei um eine eindeutige aber
nicht zwingend eindeutig umkehrbare Funktion.
Das bedeutet, dass z.B. jeder Personenfähigkeit eine
eindeutige Lösungswahrscheinlichkeit für ein bestimmtes
Item zugeordnet ist, es aber Personen mit unterschiedlicher
Fähigkeit
geben
kann,
die
dieselbe
Lösungswahrscheinlichkeit bei einem Item besitzen.
237
IRT - Grundlagen
Grundidee
Die grafische Darstellung dieses Zusammenhangs nennt
sich Itemcharakteristik Kurve (ICC).
Es
werden
unterschieden
drei
Typen
von
Itemcharakteristiken
– streng monotone Funktionen,
– monotone Funktionen und
– nicht monotone Funktionen.
238
119
IRT - Grundlagen
Grundidee
Bei
streng
monotonen
Funktionen
nimmt
die
Lösungswahrscheinlichkeit eines Items mit zunehmender
Ausprägung der Person in der latenten Dimension stetig zu
oder ab.
Bei monotonen Funktionen können „Plateaus“ auftreten,
sodass Personen mit ähnlichen Fähigkeiten gleiche
Lösungswahrscheinlichkeiten haben.
Nicht monotone Funktionen können sowohl steigen als auch
fallen.
239
IRT - Grundlagen
streng monotone steigende Itemcharakteristikkurven
240
120
IRT - Grundlagen
monoton steigende Itemcharakteristikkurven
241
IRT - Grundlagen
nicht monotone Itemcharakteristikkurven
242
121
IRT - Grundlagen
Grundidee
Eine „technische“ Annahme ist die „lokal stochastische
Unabhängigkeit“ der Items. Das bedeutet, dass davon
ausgegangen wird, dass in einer Gruppe von Personen mit
gleicher Personenfähigkeit, die Lösungswahrscheinlichkeit
eines Items unabhängig davon ist, ob die Person das zuvor
vorgegebene Item gelöst hat oder nicht.
Für die praktische Anwendung bedeutet das, dass die
Lösungen von Aufgaben nicht aufeinander aufbauen dürfen
bzw. die Reihenfolge in der die Items bearbeitet werden,
keine Rolle spielen darf.
243
IRT - Grundlagen
„Guttman Skala“
Guttman (1950) war der erste, der einen derartigen
Zusammenhang modellierte. Es handelt sich dabei um die
sogenannte „Guttman Skala“ auch „Skalogramm Analyse“
genannt.
Bei der Itemcharakteristik der „Guttman Skala“ handelt es
sich um eine Sprungfunktion, wobei die Itemlösungswahrscheinlichkeit nur die Ausprägungen 0 und 1 annehmen
kann. So mit ist das Modell nicht probabilistisch sondern
deterministisch.
Trotzdem lassen sich damit wesentliche Erkenntnisse über
die IRT ableiten.
244
122
IRT - Grundlagen
„Guttman Skala“
erlaubte
Antwortmuster
000
100
110
111
245
IRT - Grundlagen
Guttman Skala
Die Guttman Skala illustriert, dass
– die Schwierigkeit des Items und die Personenfähigkeit anhand
der selben Skala abgelesen werden kann. Bei der Guttman
Skala markiert die Personenfähigkeit, die an der Sprungstelle
liegt, die Schwierigkeit des Items,
– zur Modellierung der Lösungswahrscheinlichkeit aller Items
nur eine Dimension angenommen wird und
– anhand des Modells Vorhersagen gemacht werden können,
die anhand der manifesten Items überprüfbar sind. Bei der
Guttman Skala handelt es sich dabei um die „erlaubten“
Antwortmuster.
246
123
IRT - Grundlagen
„Latent Distance Model“ (Lazarsfeld 1950)
Da die Guttman Skala unrealistische Forderungen an die
Items stellt, wurde der deterministische Ansatz von
Lazarsfeld durch einen probabilistischen ersetzt.
Bei der Itemcharakteristik des „Latent Distance Models“
handelt es sich ebenfalls um eine Sprungfunktion, wobei pro
Items zwei Itemlösungswahrscheinlichkeiten modelliert
werden. Diese beiden Lösungswahrscheinlichkeiten können
bei jedem Item anders sein und müssen aus den Daten
geschätzt werden.
Dadurch sind alle Antwortmuster möglich, treten jedoch mit
unterschiedlichen Wahrscheinlichkeiten auf.
247
IRT - Grundlagen
„Latent Distance Model“ (Lazarsfeld 1950)
248
124
IRT - Grundlagen
Das„Latent Distance“ - Modell (Lazarsfeld 1950)
Obwohl das „Latent Distance“ - Modell realistischere
Anforderungen an die Items stellt als die Guttman Skala, ist
die Annahme von konstant bleibenden Itemlösungswahrscheinlichkeiten bei steigender Personenfähigkeit
wenig realistisch.
Realistischer erscheint, dass die Lösungswahrscheinlichkeit
mit steigender Personenfähigkeit zunimmt.
Aus diesem Grund wurde nach anderen, realistischeren
Funktionen gesucht.
249
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
250
125
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Georg Rasch (1960) wählte als Itemcharakteristik die logistische
Funktion
U
f (U ) 
e
1  eU
e …Euler´sche Zahl
e = 2.718
251
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Der Vorteil der logistischen Funktion besteht darin, dass der
Wertebereich der Funktion immer zwischen 0 und 1 liegt und
ausschließlich von einem Parameter (U) abhängt.
Dieser Parameter soll nun mit den für das Modell wesentlichen
Kennwerten (der Personenfähigkeit und der Itemschwierigkeit) in
Verbindung gebracht werden.
Rasch definierte:
U  v   i
Fähigkeit der
Person v [ksi:]
Schwierigkeit
von Item i
252
126
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Somit ist die Itemcharakteristik gegeben durch
e  v  i
p (  | v, i ) 
1  e  v  i
Wahrscheinlichkeit, dass
Person v Item i löst
Kann auch als
exp( v   i )
angeschrieben werden
Demnach haben Personen bei Items, deren Schwierigkeit
der Personenfähigkeit entsprechen, eine Lösungswahrscheinlichkeit von
p(+|v,i) = 0.5. Ist die
Personenfähigkeit geringer als das Item schwierig ist
p(+|v,i) < 0.5. Ist die Person fähiger als das Item schwierig,
ist p(+|v,i) > 0.5.
253
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
254
127
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
255
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Wahrscheinlichkeit, dass eine Person v das Item i nicht
löst ist gegeben durch
e v  i
1
p (  | v, i )  1  p (  | v, i )  1 

 v  i
1 e
1  e v  i
Bemerkung: Anstatt der Schreibweise
p( | v, i)
kann auch die allgemeiner gültige Variante
p( xv ,i  1 | v, i )
verwendet werden.
256
128
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
p( xv ,i  1 | v, i )
257
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
p( xv ,i  0 | v, i )
p( xv ,i  1 | v, i )
258
129
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Neben
der
bisher
erwähnten
Schreibweise
der
Itemcharakteristik findet sich häufig eine weitere Art der
Modelldarstellung.
 
p (  | v, i )  v i
1  v   i
mit
 v  e
v
 i  e 
i
Diese ergibt sich aus
ev  i
e v  e   i
p(  | v, i ) 

1  ev  i 1  ev  e  i
Da  i für die Itemschwierigkeit steht, steht
des Items.
i
für die Leichtigkeit
259
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Rasch hatte sehr konkrete Forderungen an sein Modell
1. Das Verhältnis der Schwierigkeiten zweier Items soll
unabhängig von der gewählten Stichprobe sein.
2. Das Verhältnis der Fähigkeiten zweier Personen soll
unabhängig davon sein, welche Aufgaben den Personen zur
Ermittlung der Personenfähigkeiten vorgegeben wurden.
3. Die Anzahl der gelösten Aufgaben soll die gesamte
Information der Daten über die Fähigkeit der Person
beinhalten.
4. Die Anzahl an Personen, die ein Item lösen können, soll die
gesamte Information der Daten über die Schwierigkeit des
Items beinhalten.
260
130
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Diese vier Forderungen umfassen also die Forderung nach
• spezifischer Objektivität von Vergleichen (Punkt 1, 2) und
• erschöpfenden (suffizienten) Statistiken (Punkt 3, 4).
261
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
p(+|B, Item2)
p(+|B, Item1)
p(+|A, Item2)
p(+|A, Item1)
Fähigkeit der
Person A
Fähigkeit der
Person B
262
131
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Aus der Forderung nach spezifischer Objektivität folgt, dass
sich die IC Kurven nicht schneiden dürfen. Die IC Kurven
müssen im Modell von Rasch also dieselbe Steigung
(=Diskrimination) haben.
263
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Existenz der erschöpfenden Statistiken kann anhand der
Likelihood der Daten gezeigt werden. Die Likelihood der
Daten ist die Wahrscheinlichkeit, die erhobenen Daten zu
erhalten. Wie sehen diese Daten im Modell von Rasch aus?
ID I_1 I_2 …
I_i … I_k
1
0
1
0
1
2
1
1
0
1
3
0
1
1
1
…
v
av,i
…
N
264
132
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Gehen wir nun davon aus, wir können die Antwort, die eine
Person v auf ein Item i gegeben hat, in eine
Wahrscheinlichkeit umwandeln, mit der Person v die
gegebene Antwort auf Item i gibt. Dadurch erhalten wir:
…
I_i
…
ID
I_1
I_2
1
p(x1,1= 0)
p(x1,2= 1)
p(x1,i= 0)
p(x1,k= 1)
I_k
2
p(x2,1= 1)
p(x2,2= 1)
p(x2,i= 0)
p(x2,i= 1)
3
p(x3,1= 0)
p(x3,2= 1)
p(x3,i= 1)
p(x3,i= 1)
p(xv,i= av,i)
p(xv,k= av,k)
…
v
p(xv,1= av,1) p(xv,2= av,2)
…
N
265
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Geht man weiters davon aus, dass die Wahrscheinlichkeit der
Lösung von Item i durch Person v unabhängig davon ist,
welche und wie viele Items Person v zuvor gelöst hat (=lokal
stochastische
Unabhängigkeit),
so
kann
die
Wahrscheinlichkeit, dass Person v ihr Antwortmuster zeigt,
berechnet werde durch:
p(av ,1 , av , 2 ,..., av ,i ,...av.k ) 
p(av ,1 )  p(av , 2 )  p(av ,3 )  ...  p(av ,i )  ...  p(av ,k ) 
k
 p(a
v ,i
)  pv
i 1
266
133
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Geht man nun noch davon aus, dass die von den Personen
erzielten Antwortmuster unabhängig sind, so ist die
Wahrscheinlichkeit die gegebenen Daten zu erhalten
(=Likelihood der Daten) gegeben durch:
Likelihood  p1  p2  p3  ...  pv  ...  p N 
N
N
k
 p   p(a
v
v 1
v ,i
)
v 1 i 1
267
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Im dichotom logistischen Modell von Rasch können
Personen zwei unterschiedliche Antworten geben.
Entweder sie antworten korrekt (1) oder nicht (0).
Die Wahrscheinlichkeiten hierfür sind:
e v  i
p (1 | v, i ) 
1  e v  i
1
p (0 | v, i ) 
1  e v  i
268
134
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Je nach gegebener Antwort, muss die entsprechende
Variante gewählt werden. Dies wird erreicht durch
e v  i av ,i
1
1 a
p(av ,i )  (
) (
) v ,i
 v  i
 v  i
1 e
1 e
e v  i 0
1
p (av ,i  0)  (
)

(
)10
 v  i
 v  i
1 e 1  e

1
 v  i
e
1
p(av ,i  1)  (
)1  (
)11
 v  i
 v  i
1 e
1 
e 



1
269
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Schlussendlich ergibt sich
ev  i av ,i
1
1 a
Likelihood   (
)

(
) v ,i
 v  i
 v  i
1 e
v 1 i 1 1  e
N
k
270
135
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Durch Anwendung diverser Rechenregeln erhält man
Rohscore von
Person v
absolute Lösungshäufigkeit von Item i
N
k
 
Likelihood 
e v1
v 
av ,i 
i 1
k
N
  av ,i
i 1
i
v 1
e v  i
(

 v  i )
v 1 i 1 1  e
N
k
271
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Demnach wird allen Personen, die in einem Test mit den
selben Items dieselbe Anzahl gelöster Aufgaben erzielen,
derselbe Fähigkeitsparameter zugeordnet.
Die Erkenntnis, dass die erschöpfenden Statistiken nur
gelten, wenn die Items den Anforderungen des Modells von
Rasch (RM) entsprechen, hat weitreichende Konsequenzen.
U.a. bedeutet es, dass die im Rahmen der klassischen
Testtheorie vorgenommene Summenbildung zur Gewinnung
eines Rohscores nur fair ist, wenn die Items dem RM
entsprechen.
272
136
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Spezifische Objektivität bedeutet, dass z.B. Verhältnis zweier
Itemschwierigkeiten unabhängig von der Stichprobe ist.
Beispiel
2 Items (gute Stichprobe)
Item 2
Item 1
-
+
-
13
6
+
18
77
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Bedeutet, dass z.B. Verhältnis zweier Itemschwierigkeiten
unabhängig von der Stichprobe ist.
Beispiel
2 Items (schlechte Stichprobe)
Item 2
Item 1
-
+
-
133
1
+
3
7
137
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Bedeutet, dass z.B. Verhältnis zweier Itemschwierigkeiten
unabhängig von der Stichprobe ist.
Beispiel
2 Items (schlechte Stichprobe)
Item 2
Item 1
-
+
-
133
1
+
3
7
Da die Anzahl jener Personen, die beide Items lösen bzw.
beide Items nicht lösen davon abhängt, wie gut die
Stichprobe ist, werden diese Zellen nicht berücksichtigt.
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die spezifische Objektivität (also die Tatsache, dass z.B. das
Verhältnis der Schwierigkeit zweier Items unabhängig von
den getesteten Personen ist), kann anhand der
nachfolgenden (bedingten) Wahrscheinlichkeit gezeigt
werden
p (1,0 | rv  1; v,  A ,  B )
Es ist die Wahrscheinlichkeit, dass Person v Item A löst
und Item B nicht, vorausgesetzt Person v kann genau
eines der beiden Items lösen.
In dieser Wahrscheinlichkeit steckt das Verhältnis der
Itemschwierigkeiten (bzw. Itemleichtigkeiten).
276
138
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Wahrscheinlichkeit laut
RM Item B nicht zu
lösen
Wahrscheinlichkeit laut
RM Item A zu lösen
 
1
( v A )(
)
1  v   A 1  v   B
p (1,0 | rv  1; v,  A ,  B ) 
 
 
1
1
( v A )(
)(
)( v B )
1  v   A 1  v   B
1  v   A 1  v   B
Wahrscheinlichkeit laut RM
entweder nur Item A oder nur
Item B zu lösen
277
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
(
p(1,0 | rv  1; v,  A ,  B ) 

v   A
1
)(
)
1  v   A 1  v   B
 
 
1
1
( v A )(
)(
)( v B )
1  v   A 1  v   B
1  v   A 1  v   B

v   A
v   A
( v   A ) 1



( v   A ) 1  1 ( v   B )  v   A   v   B  v  ( A   B )

A
A B
Da sich der Personenparameter herauskürzt, ist diese Wahrscheinlichkeit (in der
das Leichtigkeitsverhältnis der Items steckt) unabhängig von den Personen!
278
139
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Entspricht eine Menge von Items einem IRT Modell, so
ermöglicht, das Personen miteinander zu vergleichen, auch
wenn sie nicht dieselben Aufgaben bearbeitet haben. Damit
können die Tests an die Personen angepasst werden
(=adaptives Testen).
Die beiden Arten des adaptiven Testens sind
– Tailored Testing (maßgeschneidertes Testen) und
– Branched Testing (verzweigtes Tests).
279
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Üblicherweise erhalten die Personen zu Beginn ein oder
mehrere mittelschwere Items.
Beim tailored testing wird nach jeder Vorgabe eines Items
der Personenparameter neu geschätzt und aus der Menge
der vorhandenen Items (=Itempool) jenes Items ausgewählt,
dessen Schwierigkeit der Personenfähigkeit am besten
entspricht.
Diese Methode ist sehr rechenintensiv und erfordert eine
computergestützte Testung.
280
140
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Aus diesem Grund werden beim branched testing bereits in
der Testentwicklung Gruppen von Items zusammengestellt.
Je nachdem wie gut eine Person bei der ersten Itemgruppe
abschneidet, wird eine weitere zuvor festgelegte Itemgruppe
ausgewählt usw.
A1
B1
C1
B2
C2
B3
C3
C4
281
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Vergleichbarkeit der Personen ist für den Fall, dass sie
unterschiedliche Items bearbeiten jedoch nicht mehr über
die Anzahl der gelösten Aufgaben, sondern nur noch über
die geschätzte Personenparameter möglich.
Eine auf die Fähigkeiten der getesteten Personen
abgestimmte Itemauswahl, reduziert in vielen Fällen nicht
nur die benötigte Testzeit und ermöglicht die Personen
weitestgehend weder durch die Vorgabe von zu leichten
Aufgaben zu „langweilen“ oder von zu schweren Aufgaben
zu „demotivieren“, sondern erhöht auch die Genauigkeit der
Schätzung des Personenparameters.
282
141
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die einfachste Variante der Parameterschätzung stellt die
explizite Methode dar. Sie basiert auf der spezifischen
Objektivität
Wie gezeigt ist:
p(1,0 | rv  1; v,  A ,  B ) 
A
A B
B
p(0,1 | rv  1; v,  A ,  B ) 
 A  B
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
p(1,0 | rv  1; v,  A ,  B )  A

p(0,1 | rv  1; v,  A ,  B )  B
142
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
n(1,0)  i

n(0,1)  j
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
nicht gelöst
gelöst
…
…
1
2
3
1
--
n1,2
n1,3
n1,j
n1,k
2
n2,1
--
n2,3
n2,j
n2,k
3
n3,1
n3,2
--
n3,j
n3,k
ni,1
ni,2
ni,3
ni,j
ni,k
nk,1
nk,2
nk,3
nk,j
--
j
k
…..
i
…..
k
143
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
k
ni , j
n
j 1
j i
j ,i
i
 ik 1

 k
j 1  j
j i
 j
k
j 1
j i
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
 ik 1
i
 ik
  k
j

 j i  j
j 1
j i
j 1
Aus Gründen der Normierung = 1
144
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
k
ni , j
n
j 1
j i
k
j ,i
ni , j
n
k
  ik
j 1
j i
 ˆi
j ,i
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die explizite Methode
Antwortmuster 000 100 010 001 110 101 011 111
Häufigkeit
4
45 21 33 75 23 11
2
nicht gelöst
gelöst
1
2
3
1
--
45 + 23
45 + 75
2
21 + 11
--
21 + 75
3
33 + 11
33 + 23
--
ˆ1  3
( 45  23)  ( 45  75)
 1.796
( 21  11)  (33  11)
ˆ2  3
( 21  11)  ( 21  75)
 0.9309
( 45  23)  (33  23)
ˆ3  3
(33  11)  (33  23)
 0.598
( 45  75)  ( 21  75)
ˆ1  ˆ2  ˆ3  1.796  0.9309  0.598  1
145
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
Die Schätzung der unbekannten Parameter erfolgt im Rasch
Modell üblicherweise mit Hilfe der Maximum-LikelihoodMethode. Hierbei werden die unbekannten Parameter so
geschätzt, dass die Likelihood der Daten maximal wird.
291
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Likelihood
Die Parameterschätzung
Parameter
mögliche Form der Likelihoodfunktion bei einem unbekannten Parameter
292
146
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
mögliche Form der Likelihoodfunktion bei zwei unbekannten Parametern
293
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
Es gibt drei Arten der Maximum Likelihood Schätzungen
– die unbedingte Maximum Likelihood Methode (UML)
– die bedingte Maximum Likelihood Methode (CML) und
– die marginale Maximum Likelihood Methode (MML).
294
147
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
Die UML basiert auf der Totalen Likelihood der Daten.
Hierbei werden Personenfähigkeits- und Itemschwierigkeitsparameter gleichzeitig geschätzt. Bei dieser Methode muss
für jedes Item aber auch für jede Person ein eigener
Parameter geschätzt werden.
Das bedeutet jedoch, dass für jede neu hinzukommende
Person ein weiterer Personenfähigkeitsparameter benötigt
wird. Dies führt häufig zu gröberen Problemen bei der
Schätzung.
295
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
Bei der CML wird davon ausgegangen, dass pro Person die
Zahl der gelösten Aufgaben bekannt ist. Somit werden die
Personenparameter durch die Anzahl gelöster Aufgaben
ersetzt
und
es
müssen
zunächst
„nur“
die
Itemschwierigkeitsparameter geschätzt werden.
Die Schätzung der Personenparameter erfolgt dann
wiederum mittels der UML. Personen mit der gleichen Anzahl
an gelösten Aufgaben wird der selbe Personenparameter
zugeordnet. Allerdings kann für Personen, die alle oder kein
Item gelöst haben, kein Fähigkeitsparameter geschätzt
werden.
296
148
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
Auch bei der MML werden zunächst nur die Itemparameter
geschätzt. Anstatt von pro Person bekannten Rohscores
auszugehen, wird nur von einer bestimmten Verteilung der
Personenparameter ausgegangen (z.B. NV). Somit müssen
anstatt der einzelnen Personenparameter vorerst nur die
Parameter der Verteilung (z.B. Mittelwert und Varianz)
geschätzt werden.
Nach der Schätzung der Itemparameter werden die
Personenparameter abermals mittels UML geschätzt.
Verzerrungen ergeben sich, wenn die vorab angenommene
Verteilung der Personenparameter falsch ist.
297
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Parameterschätzung
Probleme bei der Parameterschätzung ergeben sich, wenn es
kein eindeutig definiertes Maximum der Likelihoodfunktion
gibt.
Dies ist der Fall, wenn die Funktion
– multiple Maxima hat (d.h. es neben den globalen noch lokale
Maxima gibt) oder
– das Maximum kein Punkt, sondern ein Plateau oder eine
Fläche ist.
Die Genauigkeit der Schätzung hängt davon ab, wie viel
Information man über einen Parameter besitzt.
298
149
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Beispiel für eine Funktion mit multiplen Maxima
299
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Informationsfunktion
I v ,i  p (  | v, i )  p (  | v, i )
Information die Person v
über Item i beinhaltet
und umgekehrt
I v ,i
I v ,i
e  v  i
1


1  e  v  i 1  e  v  i
e v  i

(1  e  v  i )²
Je ähnlicher die Schwierigkeit eines Items i der Fähigkeit
einer Person v ist, umso höher ist die Information, die eine
Person über ein Item bzw. ein Item über eine Person liefert.
300
150
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
0.6
0.4
0.0
0.2
Lösungswahrscheinlichkeit
0.8
1.0
Die Informationsfunktion
-6
-4
-2
0
2
4
6
Personenfähigkeit
301
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
0.6
0.4
Lösungswahrscheinlichkeit
0.2
Information
0.0
Lösungswahrscheinlichkeit
0.8
1.0
Die Informationsfunktion
-6
-4
-2
0
Personenfähigkeit
2
4
6
302
151
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die Informationsfunktion
Je größer die Information, die man über ein Item bzw. über
eine Person sammelt, umso genauer kann man den Itembzw. Personenparameter schätzen.
Daraus folgt:
Hat man einen fixen Test, so ist die Messgenauigkeit dieses
Tests nicht bei allen Personen gleich.
Für die Items gilt: je stärker die Itemschwierigkeit von der
durchschnittlichen Personenfähigkeit einer Gruppe abweicht
umso ungenauer ist die Schätzung der Itemschwierigkeit.
303
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Um zu überprüfen, ob die vorliegenden Items dem dichotom
logistischen Modell von Rasch entsprechen, können
verschiedene Modelltests herangezogen werden.
Dazu gehören z.B.
– die grafische Modellkontrolle,
– der z-Test nach Wald,
– der bedingte Likelihood Quotienten Test nach Andersen und
– der Martin-Löf -Test.
304
152
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Für die grafische Modellkontrolle werden die Personen in
zwei Gruppen eingeteilt und die Itemschwierigkeitsparameter
in jeder Gruppe extra geschätzt.
Für die Einteilung in die zwei Gruppen können zwei Arten
von Kriterien verwendet werden
– intern (= Rohscore) oder
– extern (Eigenschaften der Personen z.B. Altersgruppen,
Geschlecht, Gruppenzugehörigkeit…).
305
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Für den Fall, dass ein Item dem Modell von Rasch entspricht,
sollten die Schätzungen in beiden Stichproben in etwa gleich
groß sein (=spezifische Objektivität).
Trägt man die Items in einem Koordinatensystem mit x=
Schätzung in Gruppe 1 und y= Schätzung in Gruppe 2, so
sollten Items, die dem Modell von Rasch entsprechen, nahe
der 45° Geraden liegen.
306
153
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Ideallinie
Verwerfungsbereich
Verwerfungsbereich
307
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
308
154
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
309
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Da die geschätzten Itemschwierigkeitsparameter eindeutig
bis auf additive Konstanten (bzw. die Itemleichtigkeitsparameter eindeutig bis auf multiplikative Konstanten) sind,
muss sicher gestellt werden, dass die Itemparameter in
beiden Stichproben gleichartig normiert sind.
Nachfolgend wird sowohl für Itemleichtigkeiten als auch für
Itemschwierigkeiten nur eine Art der Normierung vorgestellt.
310
155
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Für Itemschwierigkeiten ist die „Summe 0“ Normierung zu
empfehlen (d.h. die Summe aller Itemschwierigkeiten ist 0).
k
ˆ i*  ˆ i 
 ˆ i
Mittelwert der
Itemschwierigkeiten
j 1
k
Für Itemleichtigkeiten sollte die „Produkt 1“ Normierung
verwendet werden (d.h. das Produkt aller Itemleichtigkeiten ist 1).
i
 i* 
k-te Wurzel aus
dem Produkt aller
Itemleichtigkeiten
k
k

j 1
j
311
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Beim z-Test (nach Fischer und Scheiblechner) werden die in
zwei Stichproben (A, B) erhobenen und normierten
Itemschwierigkeitsparameter miteinander verglichen.
zi 


 iA   iB
ˆ (2ˆ )  ˆ (2ˆ
A
i
mit
ˆ (2ˆ ) 
i
B
i )
1
I (ˆ i )
Ist der Betrag des z-Werts größer als der kritische z-Wert, ist
das Ergebnis signifikant und das Modell von Rasch gilt für
dieses Item nicht.
312
156
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Da der z-Test pro Item erfolgt und demnach die Gefahr der
Alpha Überhöhung gegeben ist, kann aus den z-Werten ein
Globaltest für alle in einem Test enthaltenen Items
berechnet werden.
k
 ²   z i2 mit df  k  1
i 1
Ist der  ²-Wert größer als der kritische, ist das Ergebnis
signifikant und man muss zumindest das Item mit dem
betragsmäßig größten z-Wert aus dem Test entfernen.
313
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Bei Likelihood Quotienten Tests (LQT) werden
Likelihoods zweier Modelle miteinander verglichen.
die
Spezialfall
LQT 
L(Modell 2)
L(Modell1)
allgemeineres
Modell
314
157
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Die beiden Modelle müssen drei Bedingungen erfüllen*
– Modell 1 muss ein echtes Obermodell von Modell 2 sein (d.h.
dass Modell 2 durch Restriktionen von Parametern aus
Modell 1 entsteht).
– Modell 2 darf nicht durch 0 setzen von Parametern entstehen.
– Modellgültigkeit von Modell 1 muss nachgewiesen sein.
*nach Rost, J. Testtheorie und Testkonstruktion 2. Auflage, Hans Huber. Seite 332
.
315
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Sind diese drei Bedingungen erfüllt, kann man den LQT in
eine  ² verteilte Prüfgröße umwandeln.
 2  ln( LQT )  2  [ln( LModell 2 )  ln( LModell1 )]   ²
mit df  Parameterzahl Modell1 - Parameterzahl Modell 2
*nach Rost, J. Testtheorie und Testkonstruktion 2. Auflage, Hans Huber. Seite 332
.
316
158
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Beim bedingten LQT Test nach Andersen wird für Modell 1
angenommen, dass zwei (oder mehr) Gruppen von Personen
unterschiedliche Itemparameter haben.
Bei Modell 2 wird davon ausgegangen, dass die
Itemparameter in allen Gruppen gleich sind (= spezifische
Objektivität).
Lässt sich kein Unterschied zwischen der Likelihood der
beiden Modelle nachweisen(= nicht signifikantes Ergebnis),
darf Modell 2 (und damit die Gültigkeit des RM) angenommen
werden.
317
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Modellkontrollen
Der Martin-Löf-Test basiert im Wesentlichen auf derselben
Annahme wie der bedingte LQT von Andersen, jedoch
werden nicht die Personen, sondern die Items in zwei
Gruppen aufgeteilt. Demnach wird geprüft, ob die
Schätzungen der Personenparameter in beiden Itemgruppen
gleich sind.
Auch hier deutet ein signifikantes Ergebnis auf eine
Verletzung der Annahmen des Rasch Modells bei zumindest
einem Item hin.
318
159
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die praktische Anwendung
So kompliziert die Theorie hinter dem dichotom logistischen
Modell von Rasch, der Parameterschätzung und den
Modellkontrollen auch scheinen mag, so einfach ist die
Anwendung in der Praxis.
Es bedarf lediglich der nötige Software, z.B.
– das R Paket eRm
– LpcmWin
– WinMira
319
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die praktische Anwendung
Beispiel
Ein Test zur Erfassung von Raumvorstellung besteht aus 13
dichotomen Items. Es soll geprüft werden, ob die Items dem
Modell von Rasch entsprechen. Als Teilungskriterien werden
der Mittelwert und der Median des Rohscores herangezogen.
320
160
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Andersen chi_2 =
Degrees of Freedom =
chi_2 at alpha(5 percent) =
chi_2 at alpha(1 percent) =
***************************************
Conditional Likelihood-Ratio-Test
(Mean)
***************************************
34.3610
12
21.0132
(Wilson-Hilferty approximation)
26.2456
(Wilson-Hilferty approximation)
Andersen chi_2 =
Degrees of Freedom =
chi_2 at alpha(5 percent) =
Da empirischer Wert größer als
***************************************
kritischer Wert => Ergebnis
Conditional Likelihood-Ratio-Test
signifikant => es gibt zumindest
(Median)
1 Item für das RM nicht gilt
***************************************
37.6322
12
21.0132
(Wilson-Hilferty approximation)
chi_2 at alpha(1 percent) =
26.2456
empirischer Wert
kritischer Wert
bei alpha 5%
(Wilson-Hilferty approximation)
Output des Programms LpcmWin
321
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
***************************************
Wald z-Values (Mean)
***************************************
Item No.
1
2
3
4
5
6
7
8
9
10
11
12
13
z-Value
-0.9101
-1.0253
-0.5040
-2.7782
-0.3576
0.1220
0.3044
-0.6728
-1.2141
5.2483
0.1485
3.1084
1.2670
Significance
n.s.
n.s.
n.s.
sign.(5% and 1%)
n.s.
n.s.
n.s.
n.s.
n.s.
sign.(5% and 1%)
n.s.
sign.(5% and 1%)
n.s.
Item mit dem betragsmäßig
größten z-Wert. Wird für die
nächste Analyse weggelassen
Output des Programms LpcmWin
322
161
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
323
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
********************************************************************
Martin-Löf Test
********************************************************************
Group 1: 2, 4, 6, 8, 11, 12,
Group 2: 1, 3, 5, 7, 9, 11, 13,
LogLikelihood (Group 1): -242.171551
LogLikelihood (Group 2): -289.942459
Martin-Löf-Statistic: 65.2844 sig.(5% und 1%)
(chi_2(5%)= 56.9379, chi_2(1%)= 64.9689, and df=41)
kritischer Wert
bei alpha 5%
Da empirischer Wert größer als
kritischer Wert => Ergebnis
signifikant => es gibt zumindest
1 Item für das RM nicht gilt
empirischer Wert
Output des Programms LpcmWin
324
162
IRT – Modell von Rasch
Das dichotom logistische Modell von Rasch
Die praktische Anwendung
Es werden solange Items aus dem Test entfernt bis die
Modelltests nicht mehr signifikant sind.
Müssen mehr als in etwa 20% der Items entfernt werden,
sollten die verbleibenden Items an einer neuen Stichprobe
abermals geprüft werden.
325
IRT – weitere Modelle
Erweiterungen
Ausgehende von den Ideen von Georg Rasch wurden
zahlreiche weitere Modelle entwickelt. Im Folgenden werden
– die Modelle von Birnbaum (1968),
– das linear logistische Testmodell (LLTM) und
– die Erweiterung auf rangskalierte Daten
kurz vorgestellt.
326
163
IRT – weitere Modelle
Birnbaum Modelle
Birnbaum (1968) stellte zwei Erweiterungen des dichotom
logistischen
Modells
von
Rasch
vor,
indem
er
unterschiedliche Diskriminations- und Rateparameter pro
Item erlaubt.
Bei diesen Modellen handelt es sich um
– das zwei Parameter logistische Modell und
– das drei Parameter logistische Modell.
Bei beiden Modellen ergeben sich wegen der relativ großen
Zahl an Modellparametern häufig Probleme bei der
Parameterschätzung.
327
IRT – weitere Modelle
Birnbaum Modelle
Das zwei Parameter logistische Modell
Bei diesem Modell gibt es pro Item zwei Parameter, nämlich
– den Itemschwierigkeitsparameter und
– den Diskriminationsparameter.
Die Lösungswahrscheinlichkeit eines Items i durch Person v
ist gegeben durch
Diskriminationsparameter
e  i ( v  i )
p (  | v, i ) 
1  e  i ( v  i )
Itemschwierigkeitsparameter
328
164
IRT – weitere Modelle
Birnbaum Modelle
Das zwei Parameter logistische Modell
Aufgrund der unterschiedlichen Diskriminationsparameter
gibt es in diesem Modell schneidende IC Kurven, sodass die
spezifische Objektivität bei diesem Modell nicht gegeben ist.
329
IRT – weitere Modelle
Birnbaum Modelle
Das drei Parameter logistische Modell
Bei diesem Modell gibt es pro Item drei Parameter, nämlich
– den Itemschwierigkeitsparamter,
– den Diskriminationsparameter und
– die Ratewahrscheinlichkeit.
Die Lösungswahrscheinlichkeit eines Items i durch Person v ist
gegeben durch
Diskriminationsparameter
e  i ( v  i )
p( | v, i )  ci  (1  ci ) 
1  e  i ( v  i )
Ratewahrscheinlichkeit
Itemschwierigkeitsparameter
330
165
IRT – weitere Modelle
Birnbaum Modelle
Das drei Parameter logistische Modell
Auch hier schneiden die IC Kurven einander
331
IRT – weitere Modelle
Das linear logistische Testmodell (LLTM)
Das LLTM geht auf Scheiblechner (1972) und Fischer (1972,
1973) zurück und stellt ein restriktiveres Modell als das
dichotom logistische Modell von Rasch dar. Die
ursprüngliche Idee war es, die Schwierigkeit eines dem
Modell von Rasch entsprechenden Items auf die
Schwierigkeit jener kognitiven Fertigkeiten zurückzuführen,
die aufgrund theoretischer Überlegungen im Vorfeld der
Lösung des Items zugrunde liegen.
Gewichtszahl

m
LLTM
i
  qi , j   j
j 1
Schwierigkeit der j-ten
Operation
332
166
IRT – weitere Modelle
Das linear logistische Testmodell (LLTM)
Beispiel
Item
Gewichtszahlmatrix (Q)
+
-
*
()
1
6+2
1
0
0
0
2
7–3
0
1
0
0
3
7+2–4
1
1
0
0
4
3*3 – 5
0
1
1
0
5
2*(4 - 1)
0
1
1
1
6
9–2–5
0
2
0
0
 ()  1.1

LLTM
1
 ()  1.2  (*)  1.4  ( ( ) )  1.6
 1  (1.1)  0  (1.2)  0  (1.4)  0  (1.6)
333
IRT – weitere Modelle
Das linear logistische Testmodell (LLTM)
Beispiel
 1LLTM  1  (1.1)  0  (1.2)  0  (1.4)  0  (1.6)  1.1
 2LLTM  0  (1.1)  1  (1.2)  0  (1.4)  0  (1.6)  1.2
 3LLTM  1  (1.1)  1  (1.2)  0  (1.4)  0  (1.6)  2.3
 4LLTM  0  (1.1)  1  (1.2)  1  (1.4)  0  (1.6)  2.6
 5LLTM  0  (1.1)  1  (1.2)  1  (1.4)  1  (1.6)  4.2
 6LLTM  0  (1.1)  2  (1.2)  0  (1.4)  0  (1.6)  2.4
334
167
IRT – weitere Modelle
Das linear logistische Testmodell (LLTM)
Zur Kontrolle der Gültigkeit des LLTM werden die laut LLTM
geschätzten Parameter mit den aus dem dichotom
logistischen Modell von Rasch mit Hilfe einer der bereits
bekannten Modellkontrollen verglichen.
Der bekannteste Test, der auf dem LLTM basiert ist der
Wiener Matrizen Test (WMT) von Formann und Piswanger
(1979).
Abgesehen von der ursprünglichen Idee, kann das LLTM
auch z.B. für den Vergleich von Gruppen, Positionseffekten,
oder zur Modellierung des Einflusses von Lernprozessen
(Veränderungsmessung) verwendet werden.
335
IRT – weitere Modelle
Das Partial Credit Modell
Das Partial Credit Model ist das Rasch Modell für ordinale
Daten. Die dahinter liegende Idee ist eine Verallgemeinerung
des dichotom logistischen Modells von Rasch. Für letzteres
wurde gezeigt, dass es neben der IC Kurve für das Lösen des
Items auch eine IC Kurve für das nicht Lösen eines Items
gibt.
336
168
IRT – weitere Modelle
Das Partial Credit Modell
p( xv ,i  0 | v, i )
p( xv ,i  1 | v, i )
337
IRT – weitere Modelle
Das Partial Credit Modell
Hat man nun nicht nur zwei, sondern z.B. vier Kategorien,
könnten die resultierenden IC Kurven folgendermaßen
aussehen.
338
169
IRT – weitere Modelle
Das Partial Credit Modell
Dadurch
wird
für
jeden
Fähigkeitsparameter
die
Wahrscheinlichkeit der Antwort in Kategorie x modelliert.
Jene Stellen, ab denen eine andere Kategorie als
wahrscheinlichste gilt, werden Schwellen genannt.
Prinzipiell können die Schwellen in jedem Item anders sein.
Da daraus eine sehr große Zahl an Parameter resultiert,
können zusätzliche Annahmen getroffen werden, die zu
unterschiedlichen Modellen führen. Diese sind
– das Ratingskalen Modell,
– das Äquidstanzmodell und
– das Dispersionsmodell.
339
IRT – weitere Modelle
Das Partial Credit Modell
Das Ratingskalen Modell
Die Schwellenabstände
sind in allen Items
gleich
340
170
IRT – weitere Modelle
Das Partial Credit Modell
Das Äquidistanzmodell
Die Schwellen sind pro
Item gleich weit
entfernt
341
IRT – weitere Modelle
Das Partial Credit Modell
Das Dispersionsmodell
Das Verhältnis der
Schwellenabstände ist
in allen Item dasselbe
342
171
IRT – weitere Modelle
Das Partial Credit Modell
343
IRT – weitere Modelle
Das Partial Credit Modell
Mittels das Partial Credit Modells kann geprüft werden, ob
die Stufen eines Items tatsächlich rangskaliert sind. Die
Ordnung der Antwortkategorien zeigt sich daran, dass die
Schnittpunkte zweier benachbarter Kategorien „geordnet“
sind. Das bedeutet, dass z.B. der Übergang von Kategorie 0
auf 1 bei einer niedrigeren Personenfähigkeit erfolgt, als der
Übergang von Kategorie 1 auf 2 usw.
344
172
IRT – weitere Modelle
Das Partial Credit Modell
1
p(0)
p(3)
p(2)
0,5
p(1)

0
-4
-2
0
2
4
Personenfähigkeit
Beispiel für ungeordnete Kategorieabschnitte
345
Danksagung
Ich möchte mich an dieser Stelle bei Herrn Philipp Dausmann
bedanken, der wesentlich dazu beigetragen hat, die Anzahl
an Tipp- und Beistrichfehlern in den Folien zu reduzieren.
346
173
Herunterladen