Grundlagen der psychologischen Testtheorie WS 2016 Dr. Michael Weber Einführung 1 Definition eines (psychologischen) Tests Ein Test ist ein wissenschaftliches Routineverfahren zur Erfassung eines oder mehrerer empirisch abgrenzbarer psychologischer Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen Merkmalsausprägung. (Moosbrugger & Kelava, 2008, S. 2) 3 Wissenschaftlichkeit Um von wissenschaftlich sprechen zu können, muss es eine Theorie darüber geben, unter welchen Bedingungen welche Aussagen anhand der Testergebnisse ableitbar sind. Demnach sollte eine möglichst genaue Vorstellung über das zu messende Merkmal vorliegen und der Test testtheoretischen Qualitätsansprüchen entsprechen. Die (primären) Aufgabengebiete der Testtheorie sind – die Formulierung des theoretischen Hintergrunds über die Verbindung von zu messendem Merkmal und im Test gezeigtem Verhalten sowie – die Festlegung und Quantifizierung notweniger Qualitätsansprüche. 4 2 Einführung Routineverfahren Von einem Routineverfahren spricht man, wenn Durchführung und Auswertung – bereits an einer größeren Stichprobe erprobt sind und – so detailliert beschrieben sind, dass das Verfahren auch von anderen „TestleiterInnen“ bei anderen Personen einsetzbar ist. 5 Einführung Psychologisches Merkmal Bei einem psychologischen Merkmal handelt es sich um einen Oberbegriff für – relativ stabile und konsistente Merkmale (auch „Eigenschaften“ oder „Traits“ genannt), – zeitlich begrenzte biologische, emotionale und kognitive Zustände sowie (auch „States“ genannt) und – Erlebens- und Verhaltensweisen. Diese meist nicht direkt beobachtbaren (=latenten) Merkmale sollen mit Hilfe von messbaren Sachverhalten „erschlossen“ werden. 6 3 Einführung Item 1 Item 2 Merkmal Item … Item k-1 Item k 7 Einführung Quantitative Aussage Ziel psychologischer Tests ist es, die Ausprägung des Merkmals der getestete Person zu messen. Messen bedeutet einem Objekt (empirisches Relativ) einen Zahlenwert (numerisches Relativ) so zuzuordnen, dass zumindest eine Eigenschaft des numerischen Relativs auch für das empirische Relativ gilt. (vgl. Bortz J. (1999) Statistik für Sozialwissenschaftler, 5. Auflage S. 18 - 20). Dieser Zahlenwert kann in weiterer Folge dazu verwendet werden, die Person mit anderen Personen vergleichen oder einer Personengruppe zuordnen zu können. Je nach theoretischer Fundierung des Messvorgangs haben die erzielten Zahlenwerte unterschiedliches Skalenniveau. 8 4 Einführung Messinstrument 5 4 3 Rangskala 2 1 9 Einführung Messinstrument 5 4 3 Intervallskala 2 1 10 5 Einführung Fragebogen Der Begriff wird im Deutschen für Unterschiedliches verwendet. – schriftliche Befragungen zur Erhebung von • demoskopischen Daten • schulischen Daten • medizinischen Daten • usw. – Instrument zur „Selbst- oder Fremdeinschätzung“ • wird meist zur Erfassung von Persönlichkeitseigenschaften und Interessen verwendet • Häufig auch als Persönlichkeits“test“ bezeichnet Gemeinsam ist beiden, dass das „Erfragen“ im Vordergrund steht. 11 Einführung Testarten Je nach Merkmal, das erfasst werden soll, werden vier/fünf unterschiedliche Testarten unterschieden – Leistungstests – Persönlichkeits- und Interessensfragebögen* – [objektive Persönlichkeitstests] – projektive Verfahren – apparative Tests Die Bezeichnung „Persönlichkeitsfragebogen“ unterscheidet sich bewusst von der im Buch von Moosbrugger & Kelava (2008), S.29 gewählten, da die Personen hier „befragt“ werden. 12 6 Einführung Leistungstests Sind dadurch gekennzeichnet, dass sie – Konstrukte erfassen, die sich auf kognitive Leistungen beziehen – die unter der jeweiligen Testbedingung maximale Leistung erfassen möchten – Aufgaben verwenden, bei denen es „richtige“ und „falsche“ Antworten gibt 13 Einführung Zahlen-Verbindungs-Test ; Oswald & Roth (1987) 14 7 Einführung Wiener Matrizen-Test Formann & Piswanger (1979) 15 Einführung Dreidimensionaler Würfeltest (3 DW); Gittler (1990) 16 8 Einführung Persönlichkeitsfragebogen Sind dadurch gekennzeichnet, dass sie – das Ziel verfolgen, das für eine Person typische Verhalten zu erfassen, – mehrere Fragen verwenden, um das Persönlichkeitsmerkmal zu erfassen, – die Antworten nicht in „richtig“ und „falsch“ klassifizierbar sind, sondern „erfragen“, wie stark das interessierende Merkmal ausgeprägt ist und – im Allgemeinen leicht verfälschbar sind (z.B. durch sozial erwünschte Antworten). 17 Einführung Kurzform des Big Five Inventory (BFI-K); Rammstedt & John (2005) 18 9 Einführung Objektive Persönlichkeitstests Sind dadurch gekennzeichnet, dass sie – versuchen, das Ausmaß an „Verfälschbarkeit“ z.B. durch „sozial erwünschte Antworten“ zu reduzieren indem sie – das Persönlichkeitsmerkmal nicht durch subjektive Urteile, sondern über Verhalten in standardisierten Situationen erfassen. 19 Einführung Projektive Tests Sind dadurch gekennzeichnet, dass sie – versuchen, die Persönlichkeit als Ganzes zu erfassen, wobei sie – auf individuelle Erlebnis- und Bedürfnisstrukturen Rücksicht nehmen, – mehrdeutiges Bildmaterial verwenden, um unbewusste oder verdrängte Bewusstseinsinhalte zu erfassen und – oft explorativen Charakter haben. 20 10 Einführung Picture Frustration Test (PFT); Hörmann & Moog (1957) 21 Einführung Thematischer Apperzeptionstest (TAT); Revers & Taeber (1968) 22 11 Einführung Rorschach Form Deute Verfahren; Rorschach (1954) 23 Einführung Apparative Tests Moosbrugger & Kelava (2008), S. 32 unterscheiden im Wesentlichen zwei Arten – Tests, sie insbesondere sensorische und motorische Merkmale erfassen. z.B. Tests zur • Erfassung von Muskelkraft • Geschicklichkeit • sensomotorischer Koordination – computerbasierte Tests, die häufig spezielle Varianten von Leistungstests und Persönlichkeitsfragebogen sind. 24 12 Testgütekriterien Testgütekriterien Hauptgütekriterien – Objektivität – Reliabilität – Validität Nebengütekriterien – Skalierung – Normierung – Ökonomie – Nützlichkeit – Zumutbarkeit – Unverfälschbarkeit – Fairness 26 13 Testgütekriterien - Objektivität Objektivität Definition Ein Test ist objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von TestleiterIn, TestauswerterIn und von der Ergebnisinterpretation misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 8) 27 Testgütekriterien - Objektivität Objektivität Bei der Objektivität lassen sich drei Bereiche unterscheiden – Durchführungsobjektivität (~Testleiterunabhängigkeit*) – Auswertungsobjektivität (~Verrechnungssicherheit*) – Interpretationsobjektivität (~Interpretationseindeutigkeit*) * vergl. Kubinger (2009) Psychologische Diagnostik, S. 39) 28 14 Testgütekriterien - Objektivität Durchführungsobjektivität Durchführungsobjektivität ist gegeben, wenn das Ergebnis der Testung nicht davon abhängt, welche TestleiterIn, die Testung durchgeführt . Demnach sollte die Testvorgabe unter möglichst standardisierten Bedingungen stattfinden. Diese werden optimiert indem – Instruktionen, die die TestleiterInnen geben, schriftlich festgehalten sind, – die soziale Interaktion zwischen TestleiterIn und getesteter Person möglichst gering gehalten wird und – die Untersuchungssituationen möglichst ähnlich sind. 29 Testgütekriterien - Objektivität Auswertungsobjektivität Ist gegeben, wenn beim Vorliegen der Antworten der Personen auf die Fragen (=Testprotokoll) jede(r) AuswerterIn zum selben numerischen Testergebnis kommt. Die Auswertungsobjektivität kann erhöht/gesichert werden durch – das Vermeiden freier Antwortformate, – klare Auswertungsregeln und – die Verwendung von Multiple-Choice (Mehrfachauswahl) Antworten. Die Auswertungsobjektivität kann durch statistische Kennzahlen zur Beurteilerübereinstimmung (z.B. Cohens Kappa, Fleiss Kappa, Konkordanzkoeffizienten nach Kendall) erfasst werden. 30 15 Testgütekriterien - Objektivität Interpretationsobjektivität Ist gegeben, wenn beim Vorliegen der Testergebnisse unterschiedliche „TestanwenderInnen“ zum selben „Schluss“ kommen. Die Interpretationsobjektivität kann erhöht/gesichert werden durch – klare Regeln für die Interpretation, – Vorhandensein von Normen und Normwerten – der Verwendung von Prozenträngen*. * Ein Prozentrang (PR) gibt an wie viel Prozent der „Referenzpopulation“ diesen oder einen schlechteren Testwert erzielen. 31 Testgütekriterien - Reliabilität Reliabilität („Zuverlässigkeit“) Definition Ein Test ist dann (vollständig) reliabel, wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 11) 32 16 Testgütekriterien - Reliabilität Reliabilität („Zuverlässigkeit“) Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Allerdings geht es nicht darum, ob der Test auch jenes Merkmal misst, das er zu messen vorgibt. Es lassen sich drei/vier Arten der Reliabilität unterscheiden – Retest - Reliabilität – Paralleltest - Reliabilität – Innere Konsistenz – [Testhalbierungs- (Split Half-) Reliabilität] Näheres zur Reliabilität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie 33 Testgütekriterien - Validität Validität („Gültigkeit“) Definition Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) 34 17 Testgütekriterien - Validität Validität („Gültigkeit“) Die Validität ist im Hinblick auf die Praxis, das wichtigste Gütekriterium. Mit Hilfe der Validität lässt sich klären – wie sehr eine Test wirklich das zu messende Merkmal misst (~„Konstruktvalidität“) und – wie gut der Testkennwert „Verhaltensweisen“ außerhalb der Testsituation vorhersagen kann (~„Kriteriumsvalidität“). Es lassen sich vier Arten der Validität unterscheiden – – – – Inhaltsvalidität Augenscheinvalidität Konstruktvalidität Kriteriumsvalidität Näheres zur Validität im Rahmen der Lehrveranstaltungseinheiten zur klassischen Testtheorie und Faktorenanalyse. 35 Testgütekriterien - Skalierung Skalierung Definition Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirische Merkmalsrelation adäquat abbilden. (Moosbrugger & Kelava, 2008, S. 18) Näheres zur Skalierung im Rahmen der Lehrveranstaltungseinheiten zur modernen Testtheorie. 36 18 Testgütekriterien - Normierung Normierung (Eichung) Definition Unter Normierung (Eichung) eines Tests versteht Erstellen eines Bezugssystems, mit dessen Ergebnisse einer Testperson im Vergleich Merkmalsausprägungen anderer Personen eingeordnet und interpretiert werden können. (Moosbrugger & Kelava, 2008, S. 19) man, das Hilfe die zu den eindeutig 37 Testgütekriterien - Normierung Normierung (Eichung) Ziel der Normierung ist es einen Rahmen für die Interpretation der (durch eine Person) erzielten Testergebnisse zu schaffen. Dies erfolgt dadurch, dass die Testergebnisse in Normwerte umgewandelt werden. Weit verbreitete Normwerte sind z.B. – Prozentränge, – z-Werte, – Z-Werte, – IQ-Werte und – T-Werte (nicht zu verwechseln mit den t-Werten des t-Tests). 38 19 Testgütekriterien - Normierung Normierung (Eichung) Das Gütekriterium der Normierung (Eichung) kann als erfüllt angesehen werden, wenn – die Eichtabellen gültig (d.h. nicht veraltet) sind, – die Population für die Eichtabellen definiert ist und – die für die Erstellung der Eichtabellen herangezogene Stichprobe repräsentativ ist*. * angelehnt an Kubinger (2009) Psychologische Diagnostik, S. 68. 39 Testgütekriterien - Normierung Prozentrang Definition Der Prozentrang gibt an, wie viel Prozent der Normierungsstichprobe einen Testwert erzielen, der niedriger oder maximal ebenso hoch ist, wie der Testwert xv der Testperson v. Der Prozentrang entspricht somit dem prozentualen Flächenanteil der Häufigkeitsverteilung der Bezugsgruppe, der am unteren Skalenende beginnt und nach oben hin durch den Testwert xv begrenzt wird. (nach Moosbrugger & Kelava, 2008, S. 168) 40 20 Testgütekriterien - Normierung Prozentrang Testwert Häufigkeit Kumulierte Prozente Prozent Prozentrang 0 0 0 0 1 0 0 0 0 0 2 6 1,4 1,4 1,4 3 10 2,4 3,8 3,8 4 45 10,8 14,6 14,6 5 46 11,0 25,7 25,7 6 69 16,5 42,2 42,2 7 65 15,6 57,8 57,8 8 83 19,9 77,7 77,7 9 46 11,0 88,7 88,7 10 22 5,3 94,0 94,0 11 13 3,1 97,1 97,1 12 8 1,9 99,0 99,0 13 1 ,2 99,3 99,3 14 2 ,5 99,8 99,8 15 1 ,2 100,0 100,0 41 Testgütekriterien - Normierung Prozentrang Prozentränge sind als Normwerte insofern besonders hervorzuheben, als sie – keine Intervallskalierung der Testkennwerte voraussetzen, – keine Normalverteilung der Testwerte voraussetzen und – eine inhaltlich einfache Interpretation des Testergebnisses darstellen. 42 21 Testgütekriterien - Normierung z-Werte (Standardmesswerte) z-Werte – sind im Falle intervallskalierter und normalverteilter Testkennwerte definiert durch: z mit xx NV (0,1) ˆ (X ) x µ( x ) und ˆ ( X ) ( X ) – legen die relative Position des Testkennwerts der getesteten Person bezogen auf die Referenzpopulation dar, – sind positiv bei überdurchschnittlichen Leistungen, – sind negativ bei unterdurchschnittlichen Testleistungen und – Null bei durchschnittlichen Leistungen. 43 Testgütekriterien - Normierung z-Werte (Standardmesswerte) Jedem z-Wert ist genau ein Prozentrang zugeordnet und umgekehrt. Diese Zuordnungen können anhand der aus der Statistik bekannten z-Tabellen abgelesen werden. Mit Hilfe von z-Werten können intervallskalierte, aber nicht normalverteilte Testkennwerte in normalverteilte Testkennwerte transformiert werden (= Flächentransformation). 44 22 Testgütekriterien - Normierung 45 Testgütekriterien - Normierung z-Werte (Standardmesswerte) Aus den z-Werten sind alle üblicherweise verwendeten Normwerte ableitbar, mittels Kennwert z ( Kennwert ) µ( Kennwert ) 46 23 Testgütekriterien - Normierung Tabelle entnommen aus Kubinger (2009) Psychologische Diagnostik, S. 74 47 Testgütekriterien - Normierung Beispiel x 45 ( x ) 40 z ( x) 3 45 40 5 1.667 3 3 IQ 1.667 15 100 125 Z 1.667 10 100 116.67 T 1.667 10 50 66.667 48 24 Planung und Entwicklung von psychologischen Tests und Fragebogen Testkonstruktion Ablauf Der Ablauf der Konstruktion lässt sich grob in sechs Bereiche einteilen – Planung – Itemkonstruktion – Erstellung der vorläufigen Testversion – Erprobung an Stichprobe – Itemanalyse und Überarbeitung – Normierung (Eichung) Die Konstruktionsschritte können wiederum in mehrere Bereiche eingeteilt werden. 50 25 Testkonstruktion Planung Bei der Planung sind die folgenden Bereiche zu beachten – Welches Merkmal soll erfasst werden? – Welchen Geltungsbereich soll Test haben? – Für welche Zielgruppe wird Test gemacht? – Welche Struktur soll Test haben? – Wie lange darf Test dauern? 51 Testkonstruktion Itemkonstruktion Es gibt unterschiedliche Strategien zur Itemkonstruktion – intuitive Konstruktion – rationale Konstruktion – externale (kriteriumsorientierte) Konstruktion – internale (faktorenanalytische) Konstruktion 52 26 Testkonstruktion Intuitive Konstruktion Auf eine intuitive Konstruktion der Items sollte nur zurückgegriffen werden, wenn der theoretische Kenntnisstand bezüglich des interessierenden Merkmals gering ist (nach Moosbrugger & Kelava, 2008, S. 36). Demnach ist die Konstruktion der Items abhängig von der Intuition der des/der TestkonstrukteurIn. 53 Testkonstruktion Rationale Konstruktion Bei einer rationalen Konstruktion besteht bereits eine elaborierte Theorie über die Differenziertheit von Personen hinsichtlich des interessierenden Merkmals. Es ist wesentlich – das Merkmal zu differenzieren und spezifizieren sowie – Verhaltensindikatoren festzulegen. 54 27 Testkonstruktion Externale (kriteriumsorientierte) Konstruktion Hierbei wird zunächst ein großer Itempool zusammengestellt und Personen vorgegeben, die sich in dem interessierenden, externalen Merkmal (Kriterium) stark unterscheiden. Im Anschluss werden jene Items ausgewählt, die gut zwischen Gruppen mit unterschiedlichen Ausprägungen im Kriterium diskriminieren. Zur Absicherung der Diskriminationsfähigkeit der Items sollte das Ergebnis der Itemauswahl an einer anderen Stichprobe überprüft werden. 55 Testkonstruktion Internale (faktorenanalytische) Konstruktion Hierbei werden zunächst Items konstruiert, die hypothetischen Verhaltensdimensionen erfassen sollen. Diese werden einer Stichprobe von Personen der interessierenden Zielgruppe vorgegeben. Im Anschluss werden die Items einer Faktorenanalyse unterzogen und aufgrund der faktorenanalytischen Ergebnisse zu „Skalen“ zusammengefasst. Näheres zur internalen Konstruktion im Rahmen der Lehrveranstaltungseinheiten zur Faktorenanalyse. 56 28 Testkonstruktion Weitere Aspekte der Itemkonstruktion und Testentwicklung, wie – Aufgabentypen und Antwortformate – Fehlerquellen bei der Itembeantwortung – Gesichtspunkte der Itemformulierung – Erstellen der vorläufigen Testversion – Erprobung der vorläufigen Testversion sind auf den Seiten 38 – 71 des Buchs von Moosbrugger & Kelava (2008) zu finden. 57 Klassische Testtheorie 29 Grundlagen Axiome der klassischen Testtheorie Im Rahmen der klassischen Testtheorie gelten Moosbrugger & Kelava (2008)* die folgenden Axiome**: laut 1. das Existenzaxiom, 2. das Verknüpfungsaxiom und 3. das Unabhängigkeitsaxiom. * die angeführten Axiome unterscheiden sich von den üblicherweise angeführten ** Axiome sind nicht weiter zu hinterfragende Grundannahmen 59 Grundlagen Das Existenzaxiom Das Existenzaxiom besagt, dass ein „wahrer Wert“ (= true score) existiert. Dieser „wahre Wert“ ist der Erwartungswert der gemessenen Leistung einer Person. Demnach gilt mit xv ,i ... E ( xv ,i ) v ,i Testleistung der Person v in Test i 60 30 Grundlagen Das Verknüpfungsaxiom Das Verknüpfungsaxiom besagt, dass sich die gemessene Leistung einer Person aus ihrem wahren Wert und dem Messfehler zusammensetzt. Demnach gilt xv ,i v ,i v ,i Der Messfehler spielt in der klassischen Testtheorie eine zentrale Rolle. Sie wird daher auch oft als „Messfehlertheorie“ bezeichnet. 61 Grundlagen Das Unabhängigkeitsaxiom Das Unabhängigkeitsaxiom besagt, dass der „wahre Wert“ einer Person und der bei der Messung entstandene Messfehler nicht korrelieren Demnach gilt ( v ,i , v ,i ) 0 mit (ausgeschrieben “rho“) … Populationskorrelation* 62 31 Grundlagen Zusatzannahmen Da bei Messfehlertheorien im Allgemeinen angenommen wird, dass es sich bei dem Messfehler um eine Zufallsvariable handelt, muss das Unabhängigkeitsaxiom erweitert werden. Daher wird Unkorreliertheit angenommen zwischen – den Messfehlern derselben Person bei unterschiedlichen Tests ( v ,i , v , j ) 0 und – den Messfehlern unterschiedlicher Personen beim selben Test ( v ,i , w,i ) 0 63 Grundlagen Folgerungen aus den Axiomen Aus den Axiomen kann gefolgert werden, dass – der Erwartungswert des Messfehlers 0 ist, E ( ) 0 – die Varianz des gemessenen Werts sich aus der Varianz der wahren Werte und der Varianz der Messfehler zusammensetzt, ²( X ) ²( ) ²( ) – die Kovarianz von gemessenen Werten der Kovarianz der wahren Werte entspricht. ( X A , X B ) ( A , B ) 64 32 Grundlagen Äquivalente Messungen Bei den äquivalenten Messungen geht es um die Frage, welche Voraussetzungen erfüllt sein müssen, um annehmen zu können, dass zwei Tests (oder auch Items), dasselbe psychologische Merkmal messen. Es gibt hierfür vier unterschiedlich strenge „Zugänge“: – Replikation, – Parallelmessung – - äquivalente Messungen und – essentielle - äquivalente Messungen. 65 Grundlagen Replikation Bei der Replikation wird gefordert, dass verschiedene Messinstrumente bei derselben Person zu exakt demselben Messergebnis kommen müssen, um von einer wiederholten Messung zu sprechen. Sie stellt somit die strengsten (und für die Praxis unrealistische) Forderungen. 66 33 Grundlagen Parallelmessung Um eine Parallelmessung handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert und die selbe Varianz besitzen. Demnach gilt bei Parallelmessungen – E( X A ) E( X B ) – ²( X A ) ²( X B ) und . Parallelmessungen erfassen das gleiche psychologische Merkmal gleich genau, da die Gleichheit der Varianzen der Messwerte auch gleiche Varianzen der Messfehler bedeutet. Ein zu Test A paralleler Test wird in weiterer Folge mit A‘ bezeichnet. 67 Grundlagen - äquivalente Messungen Um - äquivalente Messungen handelt es sich, wenn zwei Tests (oder Items), denselben Erwartungswert aber unterschiedliche Varianz besitzen. Demnach gilt bei - äquivalenten Messungen E( X A ) E( X B ) - äquivalente Messungen erfassen das gleiche Merkmal verschieden genau. 68 34 Grundlagen Essentiell - äquivalente Messungen Bei essentiell - äquivalente Messungen unterscheiden sich die Erwartungswerte zweier Tests (oder Items) um eine additive Konstante. Die Varianzen können ebenfalls verschieden sein Demnach gilt bei essentiell - äquivalenten Messungen E( X A ) E( X B ) c 69 Reliabilität Reliabilität Die Reliabilität eines Tests gibt den Grad der Genauigkeit an, mit dem ein Test ein bestimmtes Merkmal misst. Im Rahmen der klassischen Testtheorie steht hierbei die Varianz des Messfehlers im Vordergrund. Vereinfacht gesagt: Je größer die Varianz des Messfehlers desto geringer die Reliabilität. rel ²( ) ²( ) ²( X ) ²( ) ²( ) Je nach Autor wird eine Reliabilität ab 0.7 bzw. 0.8 als ausreichende Reliabilität angesehen. 70 35 Reliabilität Reliabilität Aus der Formel der Reliabilität folgt u.a., dass die Reliabilität - einen Wertebereich von 0 bis 1 besitzt, 0 rel 1 – das Bestimmtheitsmaß der Korrelation von Messwert und wahrem Wert ist rel ²( X , ) – der Korrelation der Testergebnisse zweier paralleler Messungen (=Paralleltests) entspricht rel ( X A , X A' ) 71 Reliabilität Arten der Reliabilitätsbestimmung Es lassen sich drei/vier Arten der Reliabilität unterscheiden – Retest - Reliabilität – Paralleltest – Reliabilität – [Testhalbierungs- (Split Half-) Reliabilität] – Innere Konsistenz 72 36 Reliabilität Retest-Reliabilität Hierbei wird derselbe Test derselben Stichprobe zweimal vorgelegt. Vorausgesetzt es gibt weder – Veränderungen der Messfehlereinflüsse noch – „unsystematische“ Veränderungen des wahren Werts, entspricht die geschätzte Reliabilität der Korrelationen der Testergebnisse der beiden Durchgänge. Um unsystematische Veränderungen handelt es sich, wenn die zeitlichen Veränderungen nicht bei allen Personen gleichartig sind z.B. bei manchen Personen bleibt der wahre Wert gleich bei anderen steigt er. Bei Leistungstest ergeben sich Probleme z.B. aufgrund von Deckeneffekten. 73 Reliabilität Paralleltest-Reliabilität Hierbei werden den Personen zwei Tests vorgelegt, die parallele Messungen darstellen. Die Korrelation der Ergebnisse schätzt die Reliabilität der beiden Tests. reˆl r ( X A , X A' ) Probleme ergeben sich, wenn die beiden Tests nicht völlig parallel sind. Eine strenge Testung der Parallelität zweier Tests ist im Rahmen der klassischen Testtheorie nicht möglich. Die eleganteste Prüfung der Parallelität von Tests ohne auf die moderne Testtheorie zurückzugreifen, stellen konfirmatorische Faktorenanalysen dar. 74 37 Reliabilität Testhalbierungs-Reliabilität (Split-Half Reliabilität) Hierbei wird ein aus mehreren Items bestehender Test in zwei möglichst parallele Untertests geteilt. Die Korrelation der Ergebnisse der beiden Untertests schätzt die Reliabilität des halb so langen Tests. Um auf die geschätzte Reliabilität des Gesamttests zu kommen, wird auf einen Spezialfall der Formel von Spearman-Brown* zurückgegriffen. reˆlGesamttest 2 r( X1, X 2 ) 1 r( X1, X 2 ) * auf die Spearman Brown Formel wird auf Folie 82 näher eingegangen 75 Reliabilität Innere Konsistenz Hierbei wird jedes Item eines aus mehreren Items bestehenden Tests als eigene Messung des interessierenden Merkmals betrachtet. Die innere Konsistenz kann dann vereinfacht als durchschnittliche Korrelation aller Items dieses Tests verstanden werden, hängt aber auch von der Anzahl an Items im Test ab. Die bekanntesten Kennwerte zur inneren Konsistenz sind – Cronbach k i ˆ ²( X i ) k (1 ) k 1 ˆ ²( X ) - Lambda3 nach Guttman k ˆ ²( X ) i i 3 1 mit k= Anzahl an Items im Test k k k ˆ 2 ( X i , X j ) k 1 i 1 j 1 i j ˆ ²( X ) 76 38 Reliabilität Innere Konsistenz Stellen die Items zumindest essentiell - äquivalente Messungen dar, sind und 3 Schätzungen der Reliabilität des Gesamttests. Für den Fall, dass die Items keine äquivalenten Messungen darstellen, sind und 3 lediglich untere Schranken der Reliabilität. 77 Reliabilität WICHTIG – bei der Berechnung von und 3 müssen die Items gleichartig „gepolt“ sein, d.h. hohe Werte müssen inhaltlich immer dieselbe Bedeutung haben (z.B. für eine hohe Ausprägung des Merkmals sprechen) – Weder noch 3 sind ein Maß für die „Eindimensionalität“ von Items 78 39 Reliabilität 79 Reliabilität 80 40 Reliabilität 81 Reliabilität Formel nach Spearman-Brown Für dann Fall paralleler Items kann aus der Kenntnis der Reliabilität eines Tests die Reliabilität des um parallele Items verlängerten bzw. verkürzten Tests mittels der Formel von Spearman-Brown berechnet werden. Formel nach Spearman - Brown reˆlveränderter Test mit reˆlOriginaltest 1 ( 1) reˆlOriginaltest Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 82 41 Reliabilität Beispiel 1 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67 Wie hoch ist die Reliabilität, wenn man den Test um 10 parallele Items verlängert? reˆlveränderter Test reˆlOriginaltest 1 ( 1) reˆlOriginaltest mit reˆlveränderter Test Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 40 0.67 30 0.73 40 1 ( 1) 0.67 30 83 Reliabilität Beispiel 2 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67 Wie viele Items mehr benötigt der Test, wenn man eine Reliabilität von 0.73 anstrebt? 0.73 0.67 1 ( 1) 0.67 1.33 Anzahl der Items im verändert en Test 30 Anzahl der Items im verändert en Test 40 84 42 Reliabilität Einschub Verlängert oder verkürzt man einen Test um parallele Items, können Mittelwert und Varianz des veränderten Tests aus Kenntnis der Kennwerte des Originaltests mittels der nachfolgenden Formeln errechnet werden. xˆ veränderter Test xOriginaltest ˆ ²( X veränderter Test ) ˆ ²( X Originaltest ) [1 ( 1) reˆlOriginaltest ] mit Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 85 Reliabilität Anzustrebende Höhe der Reliabilität Allgemein: so hoch wie möglich. Es sind jedoch die nachfolgenden Punkte zu berücksichtigen – Art des zu erfassenden Merkmals – Individual- versus Kollektivdiagnostik – Einsatzbedingungen – Kosten-Nutzen Abwägungen – Objektivierbarkeit 86 43 Reliabilität Art des zu erfassenden Merkmals Leistungsvariablen sind meist präziser messbar als z.B. Einstellungen oder Persönlichkeitseigenschaften. Bei etablierten Intelligenztests sind Reliabilitäten der globalen Maße oft über 0.90, während Persönlichkeitsfragebogen Skalen oft nur Reliabilitäten um 0.7 aufweisen. Bei heterogenen Merkmalen kann die innere Konsistenz deutlich geringer sein als z.B. die Retest- oder Paralleltest Reliabilität 87 Reliabilität Individual- versus Kollektivdiagnostik Bei Individualdiagnostik sollte Messgenauigkeit höher sein als bei Messung der Durchschnittleistung eines Kollektivs, da sich die Messfehler bei der Zusammenfassung von Messungen mehrerer Individuen „reduzieren“. 88 44 Reliabilität Einsatzbedingungen Bei Tests, die nicht adaptiv* vorgegeben werden können, hängt die Reliabilität relativ stark von der Testlänge ab. Daher weisen Tests und Fragebögen, die zum Screening eingesetzt werden und daher eher kurz sind, meist eine geringere Reliabilität auf. *adaptive Testvorgaben werden im Rahmen der Einheiten zur modernen Testtheorie behandelt 89 Reliabilität Reliabilität und Konfidenzintervalle für Da die Reliabilität als Maß für die Genauigkeit der Messung des wahren Werts einer Person verstanden werden kann, ist sie Basis für die Erstellung von Konfidenzintervallen für wahre Werte. Es gibt zwei Arten von Konfidenzintervallen – auf Basis der Messfehlervarianz – auf Basis der Schätzfehlervarianz 90 45 Reliabilität Reliabilität und Konfidenzintervalle für KI auf Basis der Messfehlervarianz Bei Vorliegen der Varianz der Testwerte und der Reliabilität kann die Messfehlervarianz berechnet werden. ˆ ²( ) ˆ ²( X ) (1 reˆl ) Das Konfidenzintervall des wahren Werts wird berechnet mittels v xv zkrit ˆ ( ) 1, 2 bzw. v xv zkrit ˆ ²( X ) (1 reˆl ) 1, 2 Die zkrit-Werte betragen 1.645 bzw. 1.96 für ein 95% KI und 2.33 bzw. 2.58 für ein 99% KI. 91 Reliabilität Reliabilität und Konfidenzintervalle für KI auf Basis der Schätzfehlervarianz Die Berechnung des geschätzten wahren Werts und der Schätzfehlervarianz erfolgt über ˆv xv reˆl x (1 reˆl ) ˆ ²(ˆ ) ˆ ²( X ) (1 reˆl ) reˆl Das Konfidenzintervall des wahren Werts wird berechnet mittels v ˆv zkrit ˆ (ˆ) 1, 2 bzw. v 1, 2 ˆv zkrit ˆ ²( X ) (1 reˆl ) reˆl Die zkrit-Werte betragen 1.645 bzw. 1.96 für ein 95% KI und 2.33 bzw. 2.58 für ein 99% KI. 92 46 Reliabilität Beispiel 1 Eine Person erzielt in einem Test 43 Punkte. Es ist bekannt, dass der Mittelwert des Tests 39 Punkte, die Standardabweichung des Tests 5 Punkte und die Reliabilität rel= 0.85 beträgt. In welchem Bereich befindet sich der wahre Wert der Person mit 99%iger Sicherheit? a) Berechnung auf Basis der Messfehlervarianz v 43 2.58 5² (1 0.85) 1, 2 KI [38.00; 48.00] b) Berechnung auf Basis der Schätzfehlervarianz v (43 0.85 39 0.15) 2.58 5² (1 0.85) 0.85 1, 2 KI [37.79; 47.00] 93 Reliabilität Beispiel 2 Eine Person erzielt in einem Test einen IQ von 134. Die im Testmanual angegebene Testreliabilität beträgt rel= 0.75. Kann man mit 95%iger Sicherheit davon ausgehen, dass die Person einen „wahren“ IQ über 130 hat und somit hochbegabt ist? Bemerkung: die Standardabweichung des IQ ist laut Normtabellen auf 15 festgelegt a) Berechnung auf Basis der Messfehlervarianz v 134 1.96 15² (1 0.75) 1, 2 KI [119.3;148.7] b) Berechnung auf Basis der Schätzfehlervarianz v (134 0.75 100 0.25) 1.96 15² 0.25 0.75 1, 2 KI [112.769; 138.23] 94 47 Validität Validität Definition Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst. (angelehnt an Moosbrugger & Kelava, 2008, S. 13) ABER: Woran ist erkennbar welches Merkmal ein Test misst? Anstatt von der „Validität eines Tests“ zu sprechen, sollte die Validität möglicher Interpretationen von Testergebnissen betrachtet werden. (vergl. Moosbrugger & Kelava, 2008,S.136) 95 Validität Interpretationen eines Testergebnisses Verschiedene Interpretationen des Testergebnisses können sich beziehen auf – die Bewertung des Endergebnisses, – das Verallgemeinern des Ergebnisses, – die Extrapolation auf andere Bereiche, – das (kausale) Erklären und – mögliche Konsequenzen, die sich durch das Treffen von Entscheidungen als Folge des Testergebnisses ergeben. Vor der Validierung muss überlegt werden, welche der oben angeführten Bereiche betrachtet werden sollen. 96 48 Validität Wie wird das Merkmal definiert? Neben der Überlegung, welcher Bereich validiert werden soll, ist zu überlegen, auf welcher Definition das zu erfassende Merkmal basiert. Moosbrugger & Kelava Merkmalsdefinitionen unterscheiden zwischen zwei Definitionen sind – operational und – theoretisch. Die Grenzen zwischen allerdings fließend. den beiden 97 Validität Operationale Merkmalsdefinition Um eine operationale Merkmalsdefinition handelt es sich, wenn die Testaufgaben den interessierenden Anforderungsbereich direkt repräsentieren. Ein operational definiertes Merkmal bezieht sich zunächst nur auf die spezifischen Test- bzw. Merkmalsinhalte. z.B.: – Test zur Erfassung des Kurzzeitgedächtnisses – Fragebogen zur Atomkraftwerken Einschätzung der Sicherheit von 98 49 Validität Theoretische Merkmalsdefinition Bei theoretischen Merkmalsdefinitionen werden Theorien herangezogen, die spezifizieren (verdeutlichen), worauf bestimmte Unterschiede zwischen Personen zurückgeführt werden können und wie sich diese Unterschiede in den Testergebnissen ausdrücken. z.B. formuliert Eysenck (1981) Annahmen darüber, in welchen neuronalen Strukturen sich Personen mit unterschiedlichen Ausprägungen der Persönlichkeitsdimension Extraversion unterscheiden. Daraus leitet er Unterschiede in bestimmten Erlebens- und Verhaltensweisen ab, auf die sich dann die Items, die zur Erfassung der Extraversion herangezogen werden, beziehen. 99 Validität Arten der Validität Im Wesentlichen werden vier Arten der Validität unterschieden – Inhaltsvalidität, – Augenscheinvalidität, – Kriteriumsvalidität und – Konstruktvalidität. Weitere, häufig zu findende Begriffe im Zusammenhang mit Validität sind – Übereinstimmungsvalidität, – prognostische Validität, – diskriminante Validität und – konvergente Validität. 100 50 Validität Inhaltsvalidität Definition Inhaltsvalidität bezieht sich darauf, inwieweit die Inhalte der Tests bzw. der Items, aus denen sich ein Test zusammensetzt, tatsächlich das interessierende Merkmal erfassen. (vergl. Moosbrugger & Kelava, 2008, S.140) 101 Validität Inhaltsvalidität Bei operationalisierten Merkmalen bezieht sich Inhaltsvalidität vor allem auf die Verallgemeinerbarkeit Testergebnisse. Es geht also darum, inwieweit ausgewählte Items eine repräsentative Auswahl aus Menge aller möglicher Aufgaben sind. die der die der z.B. Wie gut decken die Fragen, die bei der Testtheorieprüfung gestellt werden, das vorgetragene Stoffgebiet ab? 102 51 Validität Inhaltsvalidität Auch bei theoretisch definierten Merkmalen muss die Verallgemeinerung auf eine größere Menge von Aufgaben möglich sein. Zusätzlich muss angenommen werden können, dass unterschiedliche Antworten Unterschiede im interessierenden Merkmal erklären können. Das bedeutet, es muss von den Antworten auf die Items auf das interessierende Merkmal geschlossen werden können. Dies kann nur durch eine gute theoretische Fundierung und eine daran orientierte Itemkonstruktion gewährleistet werden. 103 Validität Augenscheinvalidität Definition Augenscheinvalidität gibt an, inwieweit der Validitätsanspruch eines Tests vom bloßen Augenschein her einem Laien gerechtfertigt erscheint. (Moosbrugger & Kelava, 2008 S.15) 104 52 Validität Konstruktvalidität* Definition Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl Testergebnisse als auch Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird. (Messick, 1995, S.743, Übersetzung J. Hartig & A. Frey; aus Moosbrugger & Kelava, 2008, S. 145) *auf die Konstruktvalidität wird im Zuge der Faktorenanalyse nochmals eingegangen. 105 Validität Konstruktvalidität Im Wesentlichen geht es darum, Testergebnisse vor dem Hintergrund eines theoretischen Konstrukts zu interpretieren. Man unterscheidet zwischen – dem Bereich der Theorie und – dem Bereich der Beobachtung. 106 53 Validität Konstruktvalidität Der Bereich der Theorie beschäftigt sich mit nicht direkt beobachtbaren (=latenten) Konstrukten und deren Zusammenhängen. Im Idealfall sind diese Zusammenhänge durch Axiome formalisiert. Korrespondenzregeln geben an, wie sich die theoretischen Zusammenhänge auf den Bereich des Beobachtbaren auswirken. Bei diesen „Auswirkungen“ handelt es sich meist um Zusammenhänge zwischen manifesten Variablen mitunter aber auch um Unterschiede zwischen Gruppen. 107 Validität Konstruktvalidität Diese Zusammenhänge bzw. Unterschiede weiterer Folge empirisch geprüft. werden in Stimmen die theoretische Vorhersagen mit den empirischen Beobachtungen überein, wird das als Bestätigung der Theorie als auch der Interpretation der Testkennwerte als individuelle Ausprägung auf dem theoretischen Konstrukt angesehen. Für den Fall, dass eine relativ hohe Korrelation erwartet wird, spricht man von konvergenter Validität (z.B. Korrelation mit einem Test der dasselbe Konstrukt messen soll). Falls man eine niedrige Korrelation erwartet, spricht man von diskriminanter Validität. (z.B. Korrelation mit einem Test, der ein anderes Konstrukt erfassen soll). 108 54 Validität Konstruktvalidität Multi Trait Multi Method Matrix (MTMM) Dieses auf Korrelationen basierende Vorgehen zur Konstruktvalidierung wurde von Campell und Fiske (1959) vorgestellt. Sowohl das interessierende Merkmal als auch konkurrierende Merkmale (verschiedene Traits) werden mit unterschiedlichen Methoden erfasst und die erzielten Ergebnisse miteinander korreliert. Demnach werden teilweise hohe (konvergente Validität) teilweise niedrige Korrelationen (diskriminante Validität) erwartet. 109 Validität Konstruktvalidität Multi Trait Multi Method Matrix (MTMM) Die resultierende Korrelationsmatrix müsste die folgenden Bedingungen erfüllen – Korrelationen, bei denen dasselbe Merkmal mit derselben Methode erfasst wird (mono Trait / mono Method = Retestreliabilität) sollten höher sein als Messung desselben Merkmals mit unterschiedlichen Methoden (mono Trait hetero Method) – Korreliert man Messungen bei denen dasselbe Merkmal mit unterschiedlichen Methoden gemessen wird (mono Trait hetero Method), sollten diese Korrelationen höher sein als die Korrelationen von Messungen unterschiedlicher Merkmale mit derselben Methode (hetero Trait mono Method) – Korrelationen von der Messung unterschiedliche Merkmale mit derselben Methode (hetero Trait mono Method) sollten höher sein als Korrelationen von Messungen unterschiedlicher Merkmale mit unterschiedlichen Methoden 110 55 Validität Konstruktvalidität Multi Trait Multi Method Matrix (MTMM) Methode 1 Trait 1 Trait 2 Methode 2 Trait 3 Trait 1 Trait 2 Trait 3 Trait 1 Methode 1 Trait 2 Trait 3 Trait 1 Methode 2 Trait 2 Trait 3 mTmM mThM hTmM hThM 111 Validität Konstruktvalidität Weitere Methoden zur Untersuchung der Konstruktvalidität sind – Analysen von Antwortprozessen und – der Vergleich von theoretisch erwarteten Itemschwierigkeiten mit empirisch ermittelten. Bei der Analyse von Antwortprozessen können Personen z.B. gebeten werden, bei der Bearbeitung der Aufgaben laut zu denken, um so Annahmen über Antwortprozesse zu erheben bzw. zu klären, ob sich die Antwortprozesse auf das gewünschte Konstrukt beziehen. 112 56 Validität Kriteriumsvalidität Definition Kriteriumsvalidität bedeutet, dass von einem Testergebnis, auf ein für diagnostische Entscheidungen praktisch relevantes Kriterium außerhalb der Testsituation geschlossen werden kann. Kriteriumsvalidität kann durch empirische Zusammenhänge zwischen dem Testwert und möglichen Außenkriterien belegt werden. Je enger diese Zusammenhänge, desto besser kann die Kriteriumsvalidität als belegt gelten. (Moosbrugger & Kelava, 2008, S. 156) 113 Validität Kriteriumsvalidität Von größter Bedeutung ist hierbei die Frage, welche Außenkriterien gewählt werden. Die Auswahl sollte gut begründet und nachvollziehbar sein. Kann ein theoretisch hergeleiteter Zusammenhang von Testergebnis und Außenkriterium empirisch untermauert werden, wird dadurch sowohl die Validität der theoriebasierten Testwertinterpretation als auch die Validität der diagnostischen Entscheidung unterstützt. 114 57 Validität Kriteriumsvalidität Außenkriterien können – zeitlich parallel existieren (Übereinstimmungsvalidität) oder – sich auf zukünftige Ausprägungen eines Merkmals beziehen (prognostische Validität). 115 Validität Praktische Berechnung der Kriteriumsvalidität Die praktische Berechnung der Kriteriumsvalidität erfolgt durch die Berechnung der Korrelation von Testergebnis (X) mit dem Außenkriterium (Y). vaˆl r ( X , Y ) Problematisch dabei ist, dass die Validität durch zwei Messfehler „verdünnt“ wird. Sie fällt also aufgrund der Messfehler, die bei der Messung des Testergebnisses und des Außenkriteriums auftreten, geringer aus, als sie in „Wirklichkeit“ wäre. vaˆl r ( X , Y ) vaˆl r ( X , Y ) 116 58 Validität Verdünnungsformeln Um diesen Fehler auszugleichen, gibt es je nachdem welche(r) Messfehler theoretisch beseitigt werden soll, drei Verdünnungsformeln* r ( X , Y ) r( X ,Y ) reˆl ( X ) reˆl (Y ) r ( X , Y ) r( X ,Y ) reˆl ( X ) r ( X , Y ) r( X ,Y ) reˆl (Y ) Beseitigung beider Messfehler Beseitigung des Messfehlers vom Test Beseitigung des Messfehlers vom Kriterium *die Verdünnungsformeln können natürlich auch im Zuge der Berechnung von Konstruktvaliditäten angewandt werden 117 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. a) Wie hoch wäre die Validität des Tests, wenn man das Außenkriterium fehlerfrei erheben könnte? b) Wie hoch wäre die Validität des Tests, wenn man das Testergebnis fehlerfrei messen könnte? c) Wie hoch wäre die Validität des Tests, wenn man sowohl den Test als auch das Außenkriterium fehlerfrei messen könnte? 118 59 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. a) Wie hoch wäre die Validität des Tests, wenn man das Außenkriterium fehlerfrei erheben könnte? r ( X , Y ) r( X ,Y ) reˆl (Y ) r ( X , Y ) 0.47 0.6714 0.49 119 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. b) Wie hoch wäre die Validität des Tests, wenn man das Testergebnis fehlerfrei messen könnte? r ( x , Y ) r( X ,Y ) reˆl ( X ) r ( x , Y ) 0.47 0.5875 0.64 120 60 Validität Verdünnungsformeln Beispiel Die Korrelation eines Tests X mit einem Außenkriterium Y sei r(X,Y)=0.47. Es sei bekannt, dass die Reliabilität des Tests 0.64 und die des Außenkriteriums 0.49 beträgt. c) Wie hoch wäre die Validität des Tests, wenn man sowohl den Test als auch das Außenkriterium fehlerfrei messen könnte? r ( X , Y ) r( X ,Y ) reˆl ( X ) reˆl (Y ) r ( X , Y ) 0.47 0.839 0.49 0.64 121 Validität Validität und Kosten-Nutzen Abwägungen Ist die Validität eines Tests bekannt, kann damit der Nutzen der Anwendung eines Tests zur Personenselektion ermittelt werden. Hierfür können die sogenannten Taylor-Russell Tafeln herangezogen werden. 122 61 Validität Taylor - Russell Tafeln Die Grundidee der Taylor Russel Tafeln besteht darin, dass angenommen wird, dass ein Individuum über eine bestimmte Mindestausprägung des zu erhebenden Merkmals verfügen muss, um für eine bestimmte Anforderung geeignet zu sein. Je nachdem wie hoch diese Mindestausprägung ist, ist nur ein gewisser Prozentsatz der „relevanten“ Population „wirklich geeignet“. Dieser Prozentsatz nennt sich Grundrate (GR) bzw. Grundquote (GQ) Weiters wird aufgrund des Testergebnisses ein bestimmter Teil der getesteten Personen als geeignet betrachtet. Dieser Anteil nennt sich Selektionsrate (SR) oder Selektionsquote (SQ) 123 Validität Taylor - Russell Tafeln Anhand der Taylor Russell Tafeln ist für tabellierte Grundund Selektionsraten sowie bei gegebener Validität des Tests ablesbar, wie hoch der Anteil „wirklich geeigneter“ Personen ist, sofern sie aufgrund des Testergebnisses als „geeignet“ angesehen werden. 124 62 Validität Merkmalsausprägung Testergebnis 125 Validität 126 63 Validität 127 Validität 128 64 Validität Merkmalsausprägung Testergebnis 129 Validität 130 65 Validität Validität des Tests Grundrate = 0.1 Selektionsrate 131 Validität Taylor - Russell Tafeln Beispiel 1 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Zur Auswahl der Personen wird ein Test mit einer Validität von val=0.20 verwendet. a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20 BewerberInnen aufgrund des Tests ausgewählte Person wirklich für die ausgeschriebene Stelle geeignet ist? b) Wie hoch ist die Wahrscheinlichkeit eine geeignete Person zu erhalten, wenn die Auswahl der Person nicht aufgrund der Testergebnisse, sondern zufällig erfolgt? 132 66 Validität Taylor - Russell Tafeln Beispiel 1 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Zur Auswahl der Personen wird ein Test mit einer Validität von val=0.20 verwendet. a) Wie hoch ist die Wahrscheinlichkeit, dass die aus 20 BewerberInnen aufgrund des Tests ausgewählte Person wirklich für die ausgeschriebene Stelle geeignet ist? Lösung: GR= 0.40 SR=1/20=0.05 val=0.20 => 0.57 133 Validität Taylor - Russell Tafeln Beispiel 1 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Zur Auswahl der Personen wird ein Test mit einer Validität von val=0.20 verwendet. b) Wie hoch ist die Wahrscheinlichkeit eine geeignete Person zu erhalten, wenn die Auswahl der Person nicht aufgrund der Testergebnisse, sondern zufällig erfolgt? Lösung: die Grundrate (hier 0.40) 134 67 Validität Taylor - Russell Tafeln Beispiel 2 Es sei bekannt, dass 40 % jener Personen, die sich für eine Stelle bewerben auch wirklich dafür geeignet sind. Wie hoch müsste die Validität sein, damit die Wahrscheinlichkeit, dass eine aus 20 BewerberInnen aufgrund des Tests ausgewählte Person, auch wirklich geeignet ist, 95 % beträgt? Lösung: GR=0.40 => val= 0.70 SR=1/20=0.05 % - Satz=0.95 135 Validität Berechnung der Validität bei Verkürzung oder Verlängerung eines Tests um parallele Testteile vaˆlveränderter Test 2 vaˆlOriginalte st 1 ( 1) reˆlOriginaltest mit Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 136 68 Validität Beispiel 1 Ein Test besteht aus 30 parallelen Items. Die Reliabilität des Tests beträgt rel=0.67, die Validität ist 0.43. Wie hoch ist die Validität, wenn man den Test um 10 parallele Items verkürzt? vaˆlveränderter Test 2 vaˆlOriginalte st 1 ( 1) reˆlOriginaltest mit vaˆlveränderter Test Anzahl der Items im veränderten Test Anzahl der Items im Originaltest 20 (0.43)² 30 0.3983 20 1 ( 1) 0.67 30 137 Faktorenanalyse 69 Grundidee Grundidee Korrelationen zwischen den (manifesten) Items werden dadurch erklärt, dass ihnen zumindest ein gemeinsames latentes Merkmal (=„Faktor“) zugrunde liegt. Item 1 Item 2 Item 3 Item 4 Item 5 Latentes Merkmal Die paarweisen Korrelation zwischen den (standardisierten) Items sind selbst bei einem Faktor nicht 1, da neben dem Einfluss des latenten Merkmals auch andere Einflüsse (wie z.B. Messfehler) berücksichtigt werden müssen. 139 Grundidee Grundidee Item 1 Item 2 Item 3 Item 4 Item 5 Latentes Merkmal 140 70 Grundidee Grundidee Im Falle eines einzigen gemeinsamen latenten Merkmals, lautet die formale Darstellung der Faktorenanalyse Z i i ,1 F1 i i Standardisiertes Ergebnis des Item i alle anderen Einflüsse = „itemspezifischer Faktor“ Ladung(= Bedeutung) aller anderen Einflüsse bei Item i Ladung(= Bedeutung) von Faktor 1 bei Item i Faktor 1 Dieses Modell wird auch als das „Generalfaktormodell“ bezeichnet und geht auf Spearman zurück. 141 Grundidee Grundidee Zur Veranschaulichung Item1 Item2 Item3 Item4 Item5 Die Box steht für die Varianz des Items. Die hellblaue Fläche für den Anteil an Varianz, der durch den ersten Faktor erklärt wird. Die anderen Farben für die „itemspezifischen“ Einflüsse, die auf das jeweilige Item wirken. Sie sind bei jedem Item anders. 142 71 Grundidee Grundidee Zum Vergleich das Modell der einfachen Regression Modell Y by , x X a y , x Alle anderen Einflüsse auf die Variable Y Variable die vorhergesagt werden soll Achsenabschnitt Ladung(= Bedeutung) von Variable X Variable X Z i i ,1 F1 Modell i i alle anderen Einflüsse 143 Grundidee Grundidee Item 1 Item 2 Faktor 1 Item 3 Item 4 Item 5 Faktor 2 Z i i ,1 F1 i , 2 F2 i i 144 72 Grundidee Grundidee Zur Veranschaulichung Item1 Item2 Item3 Item4 Item5 Die Box steht für die Varianz des Items. Die hellblaue Fläche für den Anteil an Varianz, der durch den ersten Faktor erklärt wird. Die hellgrünen Flächen für den Anteil an Varianz, der durch den zweiten Faktor erklärt wird. Die anderen Farben für die „itemspezifischen“ Einflüsse, die auf das jeweilige Item wirken. Sie sind bei jedem Item anders. 145 Grundidee Grundidee Das multiple Faktorenmodell von Thurstone Z i i ,1 F1 i , 2 F2 ... i ,m Fm i i oder m Z i i , j F j i i j 1 146 73 Grundidee Grundidee Das multiple Faktorenmodell von Thurstone Unter der Annahme, dass die Ausprägungen der Personen in den verschiedenen Faktoren nicht miteinander korrelieren (oder kurz: unter der Annahme unkorrelierter Faktoren), ergibt sich, dass sich die Korrelation zwischen zwei Items nach folgender Formel berechnen lässt m ( X a , X b ) a ,1 b,1 a , 2 b, 2 ... a ,m b,m a , j b, j j1 147 Grundidee Beispiel 1 F1 Item 1 Item 2 Item 3 Item 4 F2 .33 .12 .87 .49 .66 .22 .67 .18 m ( X a , X b ) a , j b, j j1 ( X 1 , X 3 ) (.33 .66 .12 (.22)) .1914 ( X 1 , X 4 ) (.33 .67 .12 .18) .2427 148 74 Kennwerte Kennwerte Die drei wichtigsten Kennwerte der Faktorenanalyse sind – die Ladungen der Faktoren pro Item , i, j – die Kommunalität des Items hi2 und – der Eigenwert des Faktors Eig ( F j ) . 149 Kennwerte Die Ladungen Die Ladung i, j ist die Korrelation von Item i mit Faktor j. i , j ( X i , F j ) Ladungen können daher positiv oder negativ sein! Die quadrierte Ladung ist das Bestimmtheitsmaß. Dadurch ist sowohl ablesbar, wie stark ein Faktor an einem Item „beteiligt“ ist, aber auch, wie gut die Ausprägung des Faktors durch das Item vorhersagbar ist bzw. wie gut das Item den Faktor misst. Die Ladung i, j ist daher als (Konstrukt)Validität des Items i für den Faktor j interpretierbar. 150 75 Kennwerte Zur Veranschaulichung Item 1 Item 2 Item 3 Faktor 1 Item 4 Item 5 Faktor 2 151 Kennwerte Zur Veranschaulichung Item1 12,1 Item2 Item3 22,1 Item4 Item5 24, 2 152 76 Kennwerte Die Kommunalität eines Items Die Kommunalität eines Items gibt an, wie viel der Varianz eines Items durch die gemeinsamen Faktoren erklärt werden kann. m 2 2 i i, j j 1 Geht man davon aus, dass die Ausprägungen der Faktoren bei den Personen stabil sind, so ist die Kommunalität die untere Schranke der Reliabilität des Items. 2 i i h h rel ( X ) 153 Kennwerte Item 1 Item 2 Faktor 1 Item 3 Item 4 Item 5 Faktor 2 154 77 Kennwerte Zur Veranschaulichung Item1 h12 Item2 Item3 Item4 h22 12,1 Item5 h42 155 Kennwerte Der Eigenwert eines Faktors Der Eigenwert eines Faktors gibt an, wie viel der Varianz der Items durch den jeweiligen Faktoren erklärt werden kann. k Eig ( F j ) i2, j i 1 Dividiert man den Eigenwert eines Faktors durch die Anzahl an Items und nimmt das Ergebnis mal 100, so ergibt das den Prozentsatz der Gesamtvarianz aller Items, der durch den jeweiligen Faktor erklärt wird. Prozent der Gesamtvarianz erklärt durch Faktor j Eig ( F j ) k 100 mit k= Anzahl an Items im Test 156 78 Kennwerte Der Eigenwert eines Faktors Dividiert man den Eigenwert eines Faktors durch die Summe aller Eigenwerte und nimmt das Ergebnis mal 100, so ergibt das wie viel Prozent der durch die gemeinsamen Faktoren erklärbaren Varianz der jeweilige Faktor erklärt. Prozent erklärbarer Varianz durch Faktor j Eig ( F j ) 100 m Eig ( F f 1 f ) Je größer der Eigenwert eines Faktors umso größer ist sein Anteil an der „Erklärung“ der Korrelationen zwischen den Items. 157 Kennwerte Der Eigenwert eines Faktors Der Eigenwert ist demnach „wichtig“, um den „Stellenwert“ eines Faktors zu interpretieren. Er kann (im übertragenen Sinn) als Maß dafür verstanden werden, wie gut die im Test enthaltenen Items den jeweiligen Faktor messen bzw. wie viel „Information“ die im Test enthaltenen Items über den Faktor „liefern“. 158 79 Kennwerte Item 1 Item 2 Item 3 Faktor 1 Item 4 Item 5 Faktor 2 159 Kennwerte Zur Veranschaulichung Item1 Item2 Item3 Item4 12,1 Item5 Eig ( F1 ) 160 80 Kennwerte Zur Veranschaulichung Item1 Item2 Item3 Item4 12,1 Item5 Eig ( F2 ) 161 Kennwerte 162 81 Kennwerte 163 Kennwerte 164 82 Kennwerte 165 Kennwerte Beispiel 2 F1 Item 1 F2 .33 .12 .49 Item 2 .87 Item 3 .66 .22 Item 4 .67 .18 h12 .33² .12² .1233 h22 (.87)² .49² .997 h32 .66² (.22)² .484 h42 .67² .18² .4813 Eig ( F1 ) .33² (.87)² .66² .67² 1.7503 Eig ( F2 ) .12² .49² (.22²) .18² 0.3353 166 83 Kennwerte Beispiel 2 Eig ( F1 ) .33² (.87)² .66² .67² 1.7503 Eig ( F2 ) .12² .49² (.22²) .18² 0.3353 1.7503 100 43.75% 4 0.3353 Prozent der Gesamtvarianz Faktor 2 100 8.3825% 4 1.7503 Prozent der erklärbaren Varianz Faktor 1 100 83.92% 1.7503 0.3353 0.3353 Prozent der erklärbaren Varianz Faktor 2 100 16.08% 1.7503 0.3353 Prozent der Gesamtvarianz Faktor 1 167 Parameterschätzung Parameterschätzung Die mathematische Herausforderung im Rahmen der Faktorenanalyse ist die Bestimmung der (unbekannten) Ladungen sowie die Festlegung der Faktorenzahl. Die Grundidee der Parameterschätzung basiert darauf, zunächst jenen Faktor mit dem größten Eigenwert zu „extrahieren“. Dadurch wird die Summe der quadrierten verbleibenden Korrelationen zwischen den Items am stärksten minimiert. Daraus folgt, dass man die Ladungen des 1. Faktors so bestimmt, dass k k [r ( X a 1 b 1 a , X b ) ˆa ,1 ˆb ,1 ]2 Minimum 168 84 Parameterschätzung Parameterschätzung Die mathematische Name dieses Problems nennt sich „Eigenwert – Eigenvektor Problem“ und wurde (zum Glück) bereits gelöst. Der Lösungsweg erfolgt iterativ und ist in realen Situationen für die händische Berechnung viel zu aufwändig. 169 Parameterschätzung Parameterschätzung Nach Extraktion des ersten Faktors (= Schätzung der Ladungen des ersten Faktors), wird der zweite Faktor nach derselben Grundidee extrahiert. Allerdings verwendet man hierfür nicht die originalen Korrelationen, sondern die um den Einfluss des ersten Faktors reduzierten. Diese Korrelationen werden „Restkorrelationen“ genannt. r ( X a , X b )1Rest r ( X a , X b ) ˆa ,1 ˆb ,1 Restkorrelation von Item a und b nach Extraktion von Faktor 1 zur Erinnerung: ( X a , X b ) a ,1 b,1 a , 2 b, 2 ... a ,m b ,m 170 85 Parameterschätzung Parameterschätzung Im Rahmen der Faktorenanalyse wurden eine Vielzahl an Extraktionsverfahren entwickelt. Die zwei am häufigsten angewandten sind – die Hauptachsenanalyse („principal axis“) und – die Hauptkomponentenanalyse („principal components“). 171 Parameterschätzung Parameterschätzung Bei der Hauptkomponentenanalyse wird davon ausgegangen, dass sich die Varianz eines Items vollständig durch die gemeinsamen Faktoren erklären lässt. Demnach sind alle Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) gleich 1. Als Konsequenz werden so viele Faktoren extrahiert, wie es Items gibt. Sie ist die Standardeinstellung bei Berechnung einer Faktorenanalyse in SPSS. 172 86 Parameterschätzung Parameterschätzung Bei der Hauptachsenanalyse wird davon ausgegangen, dass sich die Varianz eines Items immer in die Kommunalität und die Einzelrestvarianz aufteilt. Demnach sind die Kommunalitäten (und somit auch die Korrelationen eines Items mit sich selbst) kleiner als 1. Ziel ist es also, nur die durch die gemeinsamen Faktoren erklärbare Varianz zu beschreiben. Da zu Beginn der Datenanalyse die Kommunalitäten nicht bekannt sind (=„Kommunalitätenproblem“), werden die Faktoren zunächst mittels Hauptkomponentenanalyse geschätzt und iterativ (=schrittweise) „verbessert“ („Kommunalitäteniteration“). 173 Parameterschätzung Parameterschätzung Laut Backhaus et al.* unterscheidet sich die Interpretation der Faktoren je nach Methode. Bei der Hauptkomponentenanalyse geht es darum, die hoch auf einem Faktor ladenden Items zu einem Sammelbegriff zusammenzufassen. Bei der Hauptachsenanalyse geht es darum, die „Ursachen“ für die (hohen) Korrelationen zwischen den Items zu finden. *Backhaus K., Erichson B., Plinke W., Weiber R. Multivariate Analysemethoden 10. Auflage, Springer. Seite 293. 174 87 Parameterschätzung 175 Parameterschätzung Bestimmung der Faktorenzahl Für die Bestimmung der Anzahl an Faktoren gibt es fünf üblicherweise herangezogene Kriterien – Faktorenzahl wird a priori festgelegt, – alle Restkorrelationen sind nahe 0 (z.B.: <.2), – der Eigenwert des zuletzt extrahierten Faktors ist kleiner 1* (im übertragenen Sinn ist damit die „Information, die über den Faktor vorliegt“ geringer als die Information eines einzigen Items), – der Verlauf des Eigenwertediagramms (Screeplot) oder – die Parallelanalyse. Für die Bestimmung der Faktorenzahl gibt es keine generellen Vorschriften, sodass der Grad an Subjektivität hier relativ hoch ist. * diese Vorgehensweise wird auch Kaiser - Kriterium genannt 176 88 Parameterschätzung Bestimmung der Faktorenzahl Bei der Betrachtung des Eigenwertediagramms, wird jene Stelle gesucht, an der Verlauf das Eigenwertediagramm „abflacht“ (= Elbow Kriterium). Die Faktoren vor dem „Knick“ werden in der weiteren Analyse berücksichtigt. 177 Parameterschätzung 178 89 Parameterschätzung Bestimmung der Faktorenzahl Bei der Parallelanalyse werden zumindest 100 Datensätze von Zufallszahlen erzeugt, wobei die Anzahl an Items und der Stichprobenumfang dem empirisch gewonnenen Datensatz entspricht. All diese Datensätze werden einer Faktorenanalyse unterzogen und die aus jeder Analyse gewonnenen Eigenwerte werden pro Faktor gemittelt. Als relevante nichttriviale Faktoren werden all jene Faktoren bezeichnet, deren Eigenwerte über jenen der (gemittelten) Eigenwerte der Parallelanalyse liegen.* *vergl. Moosbrugger & Kelava 2008, Seite 313. 179 Parameterschätzung 180 90 Ergebnisinterpretation Interpretation der Faktorenlösung Die Ladungsmatrix bildet die Grundlage für die inhaltliche Interpretation der Faktoren. Hierfür werden üblicherweise die in einem Faktor hoch (=ideal sind Items mit Ladungen über 0.7) und in allen anderen Faktoren niedrig ladenden Items (ideal sind hier Ladungen unter 0.3) herangezogen. Diese Items werden auch als „Marker-Items“ bezeichnet. Zeichnet man die Items als Punkte in einem Raum mit so vielen Dimensionen wie es Faktoren gibt, so liegen „MarkerItems“ „nahe“ an den Koordinatenachsen. 181 Ergebnisinterpretation Interpretation der Faktorenlösung Grundidee F1 .19 .87 Item 3 .79 Item 4 .91 Item 5 .09 Item 6 .75 Item 7 .23 Item 1 Item 2 F2 .85 .13 .21 .01 .81 .08 .88 1, 2 h12 F1 1,1 F2 182 91 Ergebnisinterpretation Interpretation der Faktorenlösung Wegen der Vorgehensweise bei der Parameterschätzung sind derartig hohe Ladungen bei der „Erstlösung“ in der Praxis aber eher selten. Aus diesem Grund werden die Faktoren zur besseren Interpretierbarkeit „rotiert“. Ziel ist eine einfache Struktur („simple structure“) bei der jedes Item nach Möglichkeit nur in einem Faktor hoch, in den anderen Faktoren jedoch gering lädt. Dadurch ergeben Ladungen. sich neue, besser interpretierbare 183 Ergebnisinterpretation Faktorenrotation Grundidee F1 .33 .87 Item 3 .66 Item 4 .67 Item 5 .79 Item 6 .75 Item 7 .33 Item 1 Item 2 F2 .56 .49 .64 .18 .51 .48 .42 F1 F2 184 92 Ergebnisinterpretation Faktorenrotation F2‘ Grundidee F1‘ Item 1 .010 .998 Item 3 .224 Item 4 .490 Item 5 .939 Item 6 .888 Item 7 .527 Item 2 F2‘ .65 .01 .89 .49 .06 .07 .09 F1 F1‘ F2 185 Ergebnisinterpretation Faktorenrotation Durch die Rotation ändern sich – die Ladungen, – die Eigenwerte und – möglicherweise auch die Interpretation der Faktoren. Unverändert bleiben – die Kommunalitäten und – der Anteil der durch die Faktoren erklärbaren Varianz. 186 93 Ergebnisinterpretation Faktorenrotation Wird der rechte Winkel zwischen den Faktorenachsen beibehalten (= unabhängige Faktoren) spricht man von einer orthogonalen Rotation. Gibt man die Forderung nach unabhängigen Faktoren auf (= Faktorenachsen müssen nicht im rechten Winkel aufeinander stehen) so spricht man von schiefwinkeligen (= oblique) Rotationen. Die bekannteste Art der Faktorenrotation ist die „VarimaxRotation“. Hierbei werden die Faktoren so rotiert, dass die Varianz der Ladungen innerhalb eines Faktors maximal wird. Das bedeutet, das Ziel ist pro Faktor sowohl hohe als auch niedrige Ladungen zu haben, um so die Faktoren leichter benennen zu können. 187 Ergebnisinterpretation 188 94 Ergebnisinterpretation 189 Ergebnisinterpretation 190 95 Ergebnisinterpretation Faktorwerte Da es das Ziel der Faktorenanalyse ist, die Zahl der Kennwerte zu reduzieren (aus vielen Items sollen deutlich weniger Faktoren resultieren), ist es nötig, Kennwerte für die Ausprägungen der Personen in den zu Grunde liegenden Faktoren zu ermitteln. Diese Kennwerte nennen sich Faktorwerte (auch „Skalenwerte“ genannt). Man unterscheidet zwischen gewichteten und ungewichteten Faktorwerten. 191 Ergebnisinterpretation Ungewichtete Faktorwerte Die Berechnung der ungewichteten Faktorwerte erfolgt pro Person z.B. durch aufsummieren oder mitteln der Punkte jener Items, die in einem Faktor hoch laden. Items, die in mehreren Faktoren ähnlich hohe Ladungen aufweisen, werden entweder jenem Faktor zugerechnet, in dem sie die höchste Ladung aufweisen oder bei der Berechnung der Faktorwerte nicht berücksichtigt. Ist die Ladung eines Items in einem Faktor negativ, so muss das Item „umgepolt“ werden. 192 96 Ergebnisinterpretation Beispiel 3 5 Aussagen, auf die die Personen mit 0 (stimme gar nicht zu) bis 10 (stimme völlig zu) antworten konnten. ID X1 X2 X3 X4 X5 1 7 3 7 2 9 2 8 3 7 2 9 3 5 8 5 9 2 4 0 2 1 3 6 193 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 1 7 3 7 2 9 2 8 3 7 2 9 3 5 8 5 9 2 4 0 2 1 3 6 Aufgrund der negativen Ladung von Item 5 in Faktor 1 muss dieses Item für die Berechnung des ungewichteten Faktorwerts (und auch für die Berechnung der Reliabilität) „umgepolt“ werden. 194 97 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 1 7 3 7 2 9 2 8 3 7 2 9 3 5 8 5 9 2 4 0 2 1 3 6 Das Umpolen erfolgt durch * i v ,i X [min( X ) (max( X i )] X v ,i 195 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 X5* 1 7 3 7 2 9 1 2 8 3 7 2 9 1 3 5 8 5 9 2 8 4 0 2 1 3 6 4 X 1*, 5 [0 10] 9 1 X *3, 5 [0 10] 2 8 X *4 , 5 [0 10] 6 4 196 98 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 X5* FW1 1 7 3 7 2 9 1 6 2 8 3 7 2 9 1 6 3 5 8 5 9 2 8 25 4 0 2 1 3 6 4 9 FW1,1 3 2 1 FW2,1 3 2 1 FW3,1 8 9 8 FW4,1 2 3 4 197 Ergebnisinterpretation Beispiel 3 ID X1 X2 X3 X4 X5 X5* FW1 FW2 1 7 3 7 2 9 1 6 14 2 8 3 7 2 9 1 6 15 3 5 8 5 9 2 8 25 10 4 0 2 1 3 6 4 9 1 FW1, 2 7 7 FW2, 2 8 7 FW3, 2 5 5 FW4,1 0 1 198 99 Ergebnisinterpretation Gewichtete Faktorwerte Da bei der ungewichteten Berechnung der Faktorwerte die unterschiedliche Konstruktvalidität der Items nicht berücksichtigt wird und Items, die in zwei oder mehr Faktoren ähnlich hohe Ladungen haben, problematisch sind, werden die Items je nach Ladung eines Items in einem Faktor gewichtet. Das Umpolen der Items ist hierbei nicht nötig. Es resultieren pro Faktor standardisierte Faktorwerte. Für die Berechnung stehen in SPSS unterschiedliche Methoden zu Verfügung. 199 Ergebnisinterpretation 200 100 Arten der Faktorenanalyse Arten der Faktorenanalyse Es lassen sich zwei Arten von Faktorenanalysen unterscheiden – die explorative und – die konfirmatorische Faktorenanalyse. 201 Arten der Faktorenanalyse Explorative Faktorenanalysen Die explorative Faktorenanalyse wird verwendet, wenn noch keine Hypothesen über die Anzahl an Faktoren und die Zuordnung der Items zu den Faktoren existieren. Die Zahl der Faktoren und die Zuordnung der Items zu den Faktoren wird mittels der zuvor besprochenen Vorgehensweisen bestimmt. 202 101 Arten der Faktorenanalyse Konfirmatorische Faktorenanalysen Bei der konfirmatorischen Faktorenanalyse sollen eine oder mehrere zuvor theoretisch festgelegte Faktorenstrukturen anhand empirischer Daten auf ihre Gültigkeit hin überprüft werden. Demnach müssen die Faktorenzahl und die Zuordnung der Items zu den Faktoren bekannt sein. 203 Arten der Faktorenanalyse Konfirmatorische Faktorenanalysen Die konfirmatorische Faktorenanalyse zählt zu den Strukturgleichungsmodellen (SEM) in deren Rahmen geprüft wird, wie gut ein oder mehrere theoretisch formulierte Modelle, die erhobenen Daten beschreiben. Für diese Fragestellung werden sowohl Signifikanztests als auch Indices zur Überprüfung der Modellanpassung an die Daten verwendet*. Auch Multi-Trait-Multi-Method Designs können mithilfe konfirmatorischer Faktorenanalysen geprüft werden**. * Literaturtipp: Byrne, B.M. (2010) Structural Equation Modeling with AMOS 2nd ed., Routledge. **Literaturtipp: Kenny, D.A. & Kashy, D.A (1992) Analysis of the multitrait – multimethod matrix by confirmatory factor analysis. Psychological Bulletin, 112 165 – 172. 204 102 Grenzen der Anwendbarkeit Probleme und häufige Fehler bei der Anwendung Die Faktorenanalyse trifft Dimensionalität der Items. keine Aussagen über die Die klassische Variante der Faktorenanalyse beruht auf der Berechnung von Pearson Korrelationen bzw. Kovarianzen. Demnach sollten die für eine Faktorenanalyse herangezogenen Items metrisch sein. Weiters sind die Ergebnisse (vor allem die Anzahl an Faktoren) stark stichprobenabhängig. Je homogener die Stichprobe, desto geringer die Korrelationen zwischen den Items und umso mehr Faktoren ergeben sich. Demnach müssten z.B. die Gewichtungen für die gewichteten Summen in jeder Stichprobe neu berechnet werden. 205 Grenzen der Anwendbarkeit Probleme und häufige Fehler bei der Anwendung Für den Fall dichotomer Items sollte als Basis für die faktorenanalytischen Berechnungen die tetrachorische Korrelation herangezogen werden. Die Höhe der Vierfelderkorrelation (=Pearson Korrelation für zwei dichotome Items) hängt stark von den Itemschwierigkeiten der Items ab und führt somit zu artifiziellen Ergebnissen. Die Faktoren bilden zumeist Gruppen von in etwa gleich schweren Items. Mitunter bilden die Faktoren nur das Antwortwortverhalten der Personen ab. So können z.B. Fragen, die von Personen meist bejaht werden, in einem gemeinsamen Faktor hoch laden auch wenn damit inhaltlich völlig unterschiedliche „Dimensionen“ abgefragt wurden. 206 103 Itemanalyse und Itemselektion im Rahmen der klassischen Testtheorie Itemanalyse und - selektion Itemanalyse Nach der Planung und Entwicklung der Items eines Tests müssen diese einer für den zukünftigen Anwendungsbereich des Tests möglichst repräsentativen Stichprobe vorgelegt werden, um die Eignung der Items deskriptivstatistisch (und eventuell faktorenanalytisch) zu untersuchen. Die üblicherweise berechneten Kennwerte sind – Itemschwierigkeit – Itemvarianz – Itemtrennschärfe 208 104 Itemanalyse und - selektion Itemschwierigkeit Definition Der Schwierigkeitsindex Pi eines Items i ist der Quotient aus der bei diesem Item tatsächlich erreichten Punktesumme aller N Personen und der bei diesem Item von allen Personen maximal erreichbaren Punktesumme multipliziert mit 100. N Pi x v 1 vi N min( X i ) N [max( X i ) min( X i )] 100 mit N ... Anzahl der Personen min( X i )... minimal möglicher Punktewert des Items max( X i )... maximal möglicher Punktewert des Items (angelehnt an Moosbrugger & Kelava, 2008, S. 75) 209 Itemanalyse und - selektion Beispiel 1 Bei einem Item können Personen zwischen 0 und 5 Punkte erzielen. Das Item wurde 120 Personen vorgelegt, die insgesamt 442 Punkte erzielten. Wie schwierig ist das Item? N Pi x v 1 vi N min( X i ) N [max( X i ) min( X i )] Pi 100 442 120 0 100 73.6 120 [5 0] 210 105 Itemanalyse und - selektion Beispiel 2 Bei einem Item können Personen zwischen 1 und 10 Punkte vergeben. Das Item wurde 150 Personen vorgelegt, die insgesamt 956 Punkte vergaben. Wie „schwierig“ ist das Item? N Pi x v 1 vi N min( X i ) N [max( X i ) min( X i )] 100 956 150 1 100 59.7 0 3 150 [10 1] Pi 211 Itemanalyse und - selektion Beispiel 3 Ein dichotomes Item wurde 152 Personen vorgelegt und von 28 gelöst. Wie schwierig ist das Item? N Pi x v 1 vi N min( X i ) N [max( X i ) min( X i )] Pi 100 28 152 0 100 18.421 152 [1 0] Merke: bei dichotomen Items ist die Itemschwierigkeit gleich der relativen Lösungshäufigkeit!( Pi pi ) 212 106 Itemanalyse und - selektion Itemvarianz Die Varianz der Items wird mittels der aus der Statistik bekannten Formeln für die Varianz ermittelt. - bei metrischen Items N ˆ 2 ( X i ) N 1 ( xi2,v N 1 v 1 ( xi ,v )² v 1 N ) - bei dichotomen Items ˆ 2 ( X i ) pi (1 pˆ i ) Vereinfacht gilt: je größer die Varianz eines Items, umso besser seine Fähigkeit zur Differenzierung (=Diskriminationsfähigkeit). 213 Itemanalyse und - selektion Itemtrennschärfe Definition Die Trennschärfe ri,t eines Item i ist der korrelative Zusammenhang zwischen den Punkten, die von einer Person v im Item i und den Punkten die von Person v im Gesamttest erzielt werden. (angelehnt an Moosbrugger & Kelava, 2008, S. 82) ri ,t r ( X i ,v , X v ) 214 107 Itemanalyse und - selektion Itemtrennschärfe Neben der unkorrigierten Itemtrennschärfe gibt es auch noch die korrigierte Itemtrennschärfe bei der die Punkteanzahl, die eine Person im Gesamttest erzielt hat, um die Punktezahl die im jeweiligen Item erzielt wurde reduziert wird. ri*,t r ( X i ,v , X v*,i ) mit X v*,i X v X i ,v 215 Itemanalyse und - selektion Itemtrennschärfe Beispiel ID X1 X2 X3 X X*,1 X*,2 X*,3 1 3 2 4 9 6 7 5 2 1 4 2 7 6 3 5 3 1 2 2 5 4 3 3 X 1*,1 9 3 6 X 1*, 2 9 2 7 X 1*,3 9 4 5 216 108 Itemanalyse und - selektion 217 Itemanalyse und - selektion 218 109 Itemanalyse und - selektion 219 Itemanalyse und - selektion Haben alle Items dasselbe Antwortformat, erfüllen die Item-Mittelwerte eine dem Schwierigkeitsindex vergleichbare Funktion 220 110 Itemanalyse und - selektion Korrigierte Itemtrennschärfe 221 Itemanalyse und - selektion Itemselektion Die Auswahl für den Test geeigneter Items basiert u.a. auf der gleichzeitigen Berücksichtigung der ermittelten Testkennwerte. Selbstverständlich können auch die Ergebnisse der Faktorenanalyse zur Itemselektion herangezogen werden. 222 111 Itemanalyse und - selektion Verdünnungsparadoxon Eine interessante Erkenntnis bringt die Berechnung des Zusammenhangs von Itemtrennschärfe, Itemvalidität und der Validität des Gesamttests. k val ( X ) ( X ) val ( X ) i i 1 i k ( X ) i i 1 i ,t Zwar steigt die Validität eines Tests, wenn die einzelnen Items valider sind, jedoch nimmt die Testvalidität mit höher werdender Itemtrennschärfe ab. Demnach sollte die Itemtrennschärfe eines Items nicht hoch sein. 223 Itemanalyse und - selektion Verdünnungsparadoxon Liegt pro Item sowohl eine Schätzung der Itemvalidität als auch die Itemtrennschärfe vor, kann der Quotient (Qi) aus den beiden als Kriterium dafür verwendet werden, welche Items bei einer geplanten Testverkürzung aus einem Test entfernt werden können, um die Testvalidität trotzdem größt möglich zu halten. Qi val ( X i ) ri ,t Es wird die gewünschte Anzahl von Items mit den geringsten Quotienten entfernt. 224 112 Itemanalyse und - selektion Beispiel Möchte aus den 5 Items 4 auswählen, sodass Validität des Test möglichst hoch bleibt. Item Val ri,t Qi X1 .87 .23 3.783 X2 .78 .16 4.875 X3 .65 .34 1.912 X4 .77 .33 2.333 X5 .92 .45 2.044 225 Kritik an der klassischen Testtheorie 113 Kritik an der Klassischen Testtheorie Obwohl sich Tests, die nach der klassischen Testtheorie konstruiert wurden, in der Praxis durchaus bewährt haben, gibt es zahlreiche Kritikpunkte. – Die Grundannahmen (Axiome) können nicht überprüft werden. – Das Intervallskalenniveau der Testergebnisse wird vorausgesetzt, kann jedoch nicht generell bewiesen werden. – Alle im Rahmen der klassischen Testtheorie gewonnenen Kennwerte sind stichprobenabhängig. – Die Fairness der Summenbildung über verschiedene Items zur Ermittlung eines Gesamttestwerts ist nicht gesichert. 227 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Itemschwierigkeit Je besser die Stichprobe an der die Schwierigkeit eines Items erhoben wird, desto leichter erscheint das Item. Aber auch der Vergleich des Schwierigkeitsverhältnisses zweier Items hängt von der Stichprobe ab. B + B - A + 72 8 80 - 16 4 20 88 12 100 88 : 80 11 : 10 1.1 + - A + 8 6 14 - 12 74 86 20 80 100 20 : 14 10 : 7 1.4286 228 114 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Itemvarianz Die größte Varianz kann bei mittelschweren Items erzielt werden. Je schwerer (oder leichter) ein Item wird, umso geringer ist die Varianz aufgrund von Boden- und Deckeneffekten. z.B. : Dichotome Items Extrem leichte (immer gelöste) oder extrem schwere (nie gelöste) Items, haben eine Varianz von 0. 229 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Reliabilität rel ²( ) ²( ) ²( X ) ²( ) ²( ) Steigt die Varianz der wahren Werte, so wirkt sich dieselbe Messfehlervarianz weniger auf die Reliabilität aus. homogene Stichprobe rel ²( ) 1 0.0 9 ²( ) ²( ) 1 10 heterogene Stichprobe rel 2 ( ) 100 0.9 0 ( ) 2 ( ) 100 10 2 230 115 Kritik an der Klassischen Testtheorie Stichprobenabhängigkeit der Kennwerte Validität Aus den Verdünnungsformeln kann hergeleitet werden, dass r ( X , Y ) r ( X , x ) r (Y , x ) Validität reˆl Korrelation Daraus folgt, dass val re l Da wir gezeigt haben, dass die Reliabilität von der Stichprobe abhängt, hängt auch die Validität von der Stichprobe ab. 231 Moderne Testtheorie (Item Response Theory) 116 IRT - Grundlagen Vorbemerkung Obwohl in weiterer Folge aus Gründen der besseren Verständlichkeit angenommen wird, dass das zu messende Merkmal eine Fähigkeit ist und daher auch von der Personenfähigkeit und der „Lösungswahrscheinlichkeit“ eines Items gesprochen wird, ist die Item Response Theory (IRT) prinzipiell auch für die Analyse von Items zur Erfassung von Persönlichkeitsmerkmalen und Einstellungen geeignet. 233 IRT - Grundlagen Grundidee Im Gegensatz zur klassischen Testtheorie, die erst beim Testwert ansetzt, sich jedoch nicht näher damit beschäftigt, wie es zu dem Testergebnis kommt, setzen Modelle der IRT bereits an der Formulierung des Zusammenhangs von latenter Dimension und manifester Variable an. Ähnlich wie bei der Faktorenanalyse geht es also darum, dass manifeste Antwortverhalten durch die individuellen Merkmalsausprägungen der Personen erklären zu können. 234 117 IRT - Grundlagen Grundidee Im Allgemeinen wird davon ausgegangen, dass drei Komponenten die beobachtete Antwort (bzw. die Wahrscheinlichkeit für eine beobachtete Antwort) beeinflussen. Bei den drei Komponenten handelt es sich um – Eigenschaften der Person (z.B. Fähigkeit), – Eigenschaften des Items (z.B. Schwierigkeit) und – zufällige Einflüsse. 235 IRT - Grundlagen Grundidee Weiters wird bei den meisten Modellen im Rahmen der IRT von der Existenz einer einzigen latenten Dimension ausgegangen. Die beobachteten Antworten der Person (oder auch die vorliegenden Symptome) werden als Indikatoren dieser latenten Dimension aufgefasst. Mit ihrer Hilfe lässt sich die Ausprägung der Person auf der latenten Dimension abschätzen. 236 118 IRT - Grundlagen Grundidee Die verschiedenen im Rahmen der IRT definierten Modelle unterscheiden sich im Wesentlichen hinsichtlich des angenommenen Zusammenhangs zwischen der Ausprägung auf der latenten Dimension und der Wahrscheinlichkeit für eine bestimmte Antwort. Dieser Zusammenhang wird durch die Itemcharakteristik hergestellt. Es handelt sich dabei um eine eindeutige aber nicht zwingend eindeutig umkehrbare Funktion. Das bedeutet, dass z.B. jeder Personenfähigkeit eine eindeutige Lösungswahrscheinlichkeit für ein bestimmtes Item zugeordnet ist, es aber Personen mit unterschiedlicher Fähigkeit geben kann, die dieselbe Lösungswahrscheinlichkeit bei einem Item besitzen. 237 IRT - Grundlagen Grundidee Die grafische Darstellung dieses Zusammenhangs nennt sich Itemcharakteristik Kurve (ICC). Es werden unterschieden drei Typen von Itemcharakteristiken – streng monotone Funktionen, – monotone Funktionen und – nicht monotone Funktionen. 238 119 IRT - Grundlagen Grundidee Bei streng monotonen Funktionen nimmt die Lösungswahrscheinlichkeit eines Items mit zunehmender Ausprägung der Person in der latenten Dimension stetig zu oder ab. Bei monotonen Funktionen können „Plateaus“ auftreten, sodass Personen mit ähnlichen Fähigkeiten gleiche Lösungswahrscheinlichkeiten haben. Nicht monotone Funktionen können sowohl steigen als auch fallen. 239 IRT - Grundlagen streng monotone steigende Itemcharakteristikkurven 240 120 IRT - Grundlagen monoton steigende Itemcharakteristikkurven 241 IRT - Grundlagen nicht monotone Itemcharakteristikkurven 242 121 IRT - Grundlagen Grundidee Eine „technische“ Annahme ist die „lokal stochastische Unabhängigkeit“ der Items. Das bedeutet, dass davon ausgegangen wird, dass in einer Gruppe von Personen mit gleicher Personenfähigkeit, die Lösungswahrscheinlichkeit eines Items unabhängig davon ist, ob die Person das zuvor vorgegebene Item gelöst hat oder nicht. Für die praktische Anwendung bedeutet das, dass die Lösungen von Aufgaben nicht aufeinander aufbauen dürfen bzw. die Reihenfolge in der die Items bearbeitet werden, keine Rolle spielen darf. 243 IRT - Grundlagen „Guttman Skala“ Guttman (1950) war der erste, der einen derartigen Zusammenhang modellierte. Es handelt sich dabei um die sogenannte „Guttman Skala“ auch „Skalogramm Analyse“ genannt. Bei der Itemcharakteristik der „Guttman Skala“ handelt es sich um eine Sprungfunktion, wobei die Itemlösungswahrscheinlichkeit nur die Ausprägungen 0 und 1 annehmen kann. So mit ist das Modell nicht probabilistisch sondern deterministisch. Trotzdem lassen sich damit wesentliche Erkenntnisse über die IRT ableiten. 244 122 IRT - Grundlagen „Guttman Skala“ erlaubte Antwortmuster 000 100 110 111 245 IRT - Grundlagen Guttman Skala Die Guttman Skala illustriert, dass – die Schwierigkeit des Items und die Personenfähigkeit anhand der selben Skala abgelesen werden kann. Bei der Guttman Skala markiert die Personenfähigkeit, die an der Sprungstelle liegt, die Schwierigkeit des Items, – zur Modellierung der Lösungswahrscheinlichkeit aller Items nur eine Dimension angenommen wird und – anhand des Modells Vorhersagen gemacht werden können, die anhand der manifesten Items überprüfbar sind. Bei der Guttman Skala handelt es sich dabei um die „erlaubten“ Antwortmuster. 246 123 IRT - Grundlagen „Latent Distance Model“ (Lazarsfeld 1950) Da die Guttman Skala unrealistische Forderungen an die Items stellt, wurde der deterministische Ansatz von Lazarsfeld durch einen probabilistischen ersetzt. Bei der Itemcharakteristik des „Latent Distance Models“ handelt es sich ebenfalls um eine Sprungfunktion, wobei pro Items zwei Itemlösungswahrscheinlichkeiten modelliert werden. Diese beiden Lösungswahrscheinlichkeiten können bei jedem Item anders sein und müssen aus den Daten geschätzt werden. Dadurch sind alle Antwortmuster möglich, treten jedoch mit unterschiedlichen Wahrscheinlichkeiten auf. 247 IRT - Grundlagen „Latent Distance Model“ (Lazarsfeld 1950) 248 124 IRT - Grundlagen Das„Latent Distance“ - Modell (Lazarsfeld 1950) Obwohl das „Latent Distance“ - Modell realistischere Anforderungen an die Items stellt als die Guttman Skala, ist die Annahme von konstant bleibenden Itemlösungswahrscheinlichkeiten bei steigender Personenfähigkeit wenig realistisch. Realistischer erscheint, dass die Lösungswahrscheinlichkeit mit steigender Personenfähigkeit zunimmt. Aus diesem Grund wurde nach anderen, realistischeren Funktionen gesucht. 249 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch 250 125 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Georg Rasch (1960) wählte als Itemcharakteristik die logistische Funktion U f (U ) e 1 eU e …Euler´sche Zahl e = 2.718 251 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Der Vorteil der logistischen Funktion besteht darin, dass der Wertebereich der Funktion immer zwischen 0 und 1 liegt und ausschließlich von einem Parameter (U) abhängt. Dieser Parameter soll nun mit den für das Modell wesentlichen Kennwerten (der Personenfähigkeit und der Itemschwierigkeit) in Verbindung gebracht werden. Rasch definierte: U v i Fähigkeit der Person v [ksi:] Schwierigkeit von Item i 252 126 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Somit ist die Itemcharakteristik gegeben durch e v i p ( | v, i ) 1 e v i Wahrscheinlichkeit, dass Person v Item i löst Kann auch als exp( v i ) angeschrieben werden Demnach haben Personen bei Items, deren Schwierigkeit der Personenfähigkeit entsprechen, eine Lösungswahrscheinlichkeit von p(+|v,i) = 0.5. Ist die Personenfähigkeit geringer als das Item schwierig ist p(+|v,i) < 0.5. Ist die Person fähiger als das Item schwierig, ist p(+|v,i) > 0.5. 253 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch 254 127 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch 255 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Wahrscheinlichkeit, dass eine Person v das Item i nicht löst ist gegeben durch e v i 1 p ( | v, i ) 1 p ( | v, i ) 1 v i 1 e 1 e v i Bemerkung: Anstatt der Schreibweise p( | v, i) kann auch die allgemeiner gültige Variante p( xv ,i 1 | v, i ) verwendet werden. 256 128 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch p( xv ,i 1 | v, i ) 257 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch p( xv ,i 0 | v, i ) p( xv ,i 1 | v, i ) 258 129 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Neben der bisher erwähnten Schreibweise der Itemcharakteristik findet sich häufig eine weitere Art der Modelldarstellung. p ( | v, i ) v i 1 v i mit v e v i e i Diese ergibt sich aus ev i e v e i p( | v, i ) 1 ev i 1 ev e i Da i für die Itemschwierigkeit steht, steht des Items. i für die Leichtigkeit 259 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Rasch hatte sehr konkrete Forderungen an sein Modell 1. Das Verhältnis der Schwierigkeiten zweier Items soll unabhängig von der gewählten Stichprobe sein. 2. Das Verhältnis der Fähigkeiten zweier Personen soll unabhängig davon sein, welche Aufgaben den Personen zur Ermittlung der Personenfähigkeiten vorgegeben wurden. 3. Die Anzahl der gelösten Aufgaben soll die gesamte Information der Daten über die Fähigkeit der Person beinhalten. 4. Die Anzahl an Personen, die ein Item lösen können, soll die gesamte Information der Daten über die Schwierigkeit des Items beinhalten. 260 130 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Diese vier Forderungen umfassen also die Forderung nach • spezifischer Objektivität von Vergleichen (Punkt 1, 2) und • erschöpfenden (suffizienten) Statistiken (Punkt 3, 4). 261 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch p(+|B, Item2) p(+|B, Item1) p(+|A, Item2) p(+|A, Item1) Fähigkeit der Person A Fähigkeit der Person B 262 131 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Aus der Forderung nach spezifischer Objektivität folgt, dass sich die IC Kurven nicht schneiden dürfen. Die IC Kurven müssen im Modell von Rasch also dieselbe Steigung (=Diskrimination) haben. 263 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Existenz der erschöpfenden Statistiken kann anhand der Likelihood der Daten gezeigt werden. Die Likelihood der Daten ist die Wahrscheinlichkeit, die erhobenen Daten zu erhalten. Wie sehen diese Daten im Modell von Rasch aus? ID I_1 I_2 … I_i … I_k 1 0 1 0 1 2 1 1 0 1 3 0 1 1 1 … v av,i … N 264 132 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Gehen wir nun davon aus, wir können die Antwort, die eine Person v auf ein Item i gegeben hat, in eine Wahrscheinlichkeit umwandeln, mit der Person v die gegebene Antwort auf Item i gibt. Dadurch erhalten wir: … I_i … ID I_1 I_2 1 p(x1,1= 0) p(x1,2= 1) p(x1,i= 0) p(x1,k= 1) I_k 2 p(x2,1= 1) p(x2,2= 1) p(x2,i= 0) p(x2,i= 1) 3 p(x3,1= 0) p(x3,2= 1) p(x3,i= 1) p(x3,i= 1) p(xv,i= av,i) p(xv,k= av,k) … v p(xv,1= av,1) p(xv,2= av,2) … N 265 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Geht man weiters davon aus, dass die Wahrscheinlichkeit der Lösung von Item i durch Person v unabhängig davon ist, welche und wie viele Items Person v zuvor gelöst hat (=lokal stochastische Unabhängigkeit), so kann die Wahrscheinlichkeit, dass Person v ihr Antwortmuster zeigt, berechnet werde durch: p(av ,1 , av , 2 ,..., av ,i ,...av.k ) p(av ,1 ) p(av , 2 ) p(av ,3 ) ... p(av ,i ) ... p(av ,k ) k p(a v ,i ) pv i 1 266 133 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Geht man nun noch davon aus, dass die von den Personen erzielten Antwortmuster unabhängig sind, so ist die Wahrscheinlichkeit die gegebenen Daten zu erhalten (=Likelihood der Daten) gegeben durch: Likelihood p1 p2 p3 ... pv ... p N N N k p p(a v v 1 v ,i ) v 1 i 1 267 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Im dichotom logistischen Modell von Rasch können Personen zwei unterschiedliche Antworten geben. Entweder sie antworten korrekt (1) oder nicht (0). Die Wahrscheinlichkeiten hierfür sind: e v i p (1 | v, i ) 1 e v i 1 p (0 | v, i ) 1 e v i 268 134 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Je nach gegebener Antwort, muss die entsprechende Variante gewählt werden. Dies wird erreicht durch e v i av ,i 1 1 a p(av ,i ) ( ) ( ) v ,i v i v i 1 e 1 e e v i 0 1 p (av ,i 0) ( ) ( )10 v i v i 1 e 1 e 1 v i e 1 p(av ,i 1) ( )1 ( )11 v i v i 1 e 1 e 1 269 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Schlussendlich ergibt sich ev i av ,i 1 1 a Likelihood ( ) ( ) v ,i v i v i 1 e v 1 i 1 1 e N k 270 135 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Durch Anwendung diverser Rechenregeln erhält man Rohscore von Person v absolute Lösungshäufigkeit von Item i N k Likelihood e v1 v av ,i i 1 k N av ,i i 1 i v 1 e v i ( v i ) v 1 i 1 1 e N k 271 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Demnach wird allen Personen, die in einem Test mit den selben Items dieselbe Anzahl gelöster Aufgaben erzielen, derselbe Fähigkeitsparameter zugeordnet. Die Erkenntnis, dass die erschöpfenden Statistiken nur gelten, wenn die Items den Anforderungen des Modells von Rasch (RM) entsprechen, hat weitreichende Konsequenzen. U.a. bedeutet es, dass die im Rahmen der klassischen Testtheorie vorgenommene Summenbildung zur Gewinnung eines Rohscores nur fair ist, wenn die Items dem RM entsprechen. 272 136 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Spezifische Objektivität bedeutet, dass z.B. Verhältnis zweier Itemschwierigkeiten unabhängig von der Stichprobe ist. Beispiel 2 Items (gute Stichprobe) Item 2 Item 1 - + - 13 6 + 18 77 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Bedeutet, dass z.B. Verhältnis zweier Itemschwierigkeiten unabhängig von der Stichprobe ist. Beispiel 2 Items (schlechte Stichprobe) Item 2 Item 1 - + - 133 1 + 3 7 137 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Bedeutet, dass z.B. Verhältnis zweier Itemschwierigkeiten unabhängig von der Stichprobe ist. Beispiel 2 Items (schlechte Stichprobe) Item 2 Item 1 - + - 133 1 + 3 7 Da die Anzahl jener Personen, die beide Items lösen bzw. beide Items nicht lösen davon abhängt, wie gut die Stichprobe ist, werden diese Zellen nicht berücksichtigt. IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die spezifische Objektivität (also die Tatsache, dass z.B. das Verhältnis der Schwierigkeit zweier Items unabhängig von den getesteten Personen ist), kann anhand der nachfolgenden (bedingten) Wahrscheinlichkeit gezeigt werden p (1,0 | rv 1; v, A , B ) Es ist die Wahrscheinlichkeit, dass Person v Item A löst und Item B nicht, vorausgesetzt Person v kann genau eines der beiden Items lösen. In dieser Wahrscheinlichkeit steckt das Verhältnis der Itemschwierigkeiten (bzw. Itemleichtigkeiten). 276 138 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Wahrscheinlichkeit laut RM Item B nicht zu lösen Wahrscheinlichkeit laut RM Item A zu lösen 1 ( v A )( ) 1 v A 1 v B p (1,0 | rv 1; v, A , B ) 1 1 ( v A )( )( )( v B ) 1 v A 1 v B 1 v A 1 v B Wahrscheinlichkeit laut RM entweder nur Item A oder nur Item B zu lösen 277 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch ( p(1,0 | rv 1; v, A , B ) v A 1 )( ) 1 v A 1 v B 1 1 ( v A )( )( )( v B ) 1 v A 1 v B 1 v A 1 v B v A v A ( v A ) 1 ( v A ) 1 1 ( v B ) v A v B v ( A B ) A A B Da sich der Personenparameter herauskürzt, ist diese Wahrscheinlichkeit (in der das Leichtigkeitsverhältnis der Items steckt) unabhängig von den Personen! 278 139 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Entspricht eine Menge von Items einem IRT Modell, so ermöglicht, das Personen miteinander zu vergleichen, auch wenn sie nicht dieselben Aufgaben bearbeitet haben. Damit können die Tests an die Personen angepasst werden (=adaptives Testen). Die beiden Arten des adaptiven Testens sind – Tailored Testing (maßgeschneidertes Testen) und – Branched Testing (verzweigtes Tests). 279 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Üblicherweise erhalten die Personen zu Beginn ein oder mehrere mittelschwere Items. Beim tailored testing wird nach jeder Vorgabe eines Items der Personenparameter neu geschätzt und aus der Menge der vorhandenen Items (=Itempool) jenes Items ausgewählt, dessen Schwierigkeit der Personenfähigkeit am besten entspricht. Diese Methode ist sehr rechenintensiv und erfordert eine computergestützte Testung. 280 140 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Aus diesem Grund werden beim branched testing bereits in der Testentwicklung Gruppen von Items zusammengestellt. Je nachdem wie gut eine Person bei der ersten Itemgruppe abschneidet, wird eine weitere zuvor festgelegte Itemgruppe ausgewählt usw. A1 B1 C1 B2 C2 B3 C3 C4 281 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Vergleichbarkeit der Personen ist für den Fall, dass sie unterschiedliche Items bearbeiten jedoch nicht mehr über die Anzahl der gelösten Aufgaben, sondern nur noch über die geschätzte Personenparameter möglich. Eine auf die Fähigkeiten der getesteten Personen abgestimmte Itemauswahl, reduziert in vielen Fällen nicht nur die benötigte Testzeit und ermöglicht die Personen weitestgehend weder durch die Vorgabe von zu leichten Aufgaben zu „langweilen“ oder von zu schweren Aufgaben zu „demotivieren“, sondern erhöht auch die Genauigkeit der Schätzung des Personenparameters. 282 141 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die einfachste Variante der Parameterschätzung stellt die explizite Methode dar. Sie basiert auf der spezifischen Objektivität Wie gezeigt ist: p(1,0 | rv 1; v, A , B ) A A B B p(0,1 | rv 1; v, A , B ) A B IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode p(1,0 | rv 1; v, A , B ) A p(0,1 | rv 1; v, A , B ) B 142 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode n(1,0) i n(0,1) j IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode nicht gelöst gelöst … … 1 2 3 1 -- n1,2 n1,3 n1,j n1,k 2 n2,1 -- n2,3 n2,j n2,k 3 n3,1 n3,2 -- n3,j n3,k ni,1 ni,2 ni,3 ni,j ni,k nk,1 nk,2 nk,3 nk,j -- j k ….. i ….. k 143 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode k ni , j n j 1 j i j ,i i ik 1 k j 1 j j i j k j 1 j i IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode ik 1 i ik k j j i j j 1 j i j 1 Aus Gründen der Normierung = 1 144 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode k ni , j n j 1 j i k j ,i ni , j n k ik j 1 j i ˆi j ,i IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die explizite Methode Antwortmuster 000 100 010 001 110 101 011 111 Häufigkeit 4 45 21 33 75 23 11 2 nicht gelöst gelöst 1 2 3 1 -- 45 + 23 45 + 75 2 21 + 11 -- 21 + 75 3 33 + 11 33 + 23 -- ˆ1 3 ( 45 23) ( 45 75) 1.796 ( 21 11) (33 11) ˆ2 3 ( 21 11) ( 21 75) 0.9309 ( 45 23) (33 23) ˆ3 3 (33 11) (33 23) 0.598 ( 45 75) ( 21 75) ˆ1 ˆ2 ˆ3 1.796 0.9309 0.598 1 145 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Die Schätzung der unbekannten Parameter erfolgt im Rasch Modell üblicherweise mit Hilfe der Maximum-LikelihoodMethode. Hierbei werden die unbekannten Parameter so geschätzt, dass die Likelihood der Daten maximal wird. 291 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Likelihood Die Parameterschätzung Parameter mögliche Form der Likelihoodfunktion bei einem unbekannten Parameter 292 146 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung mögliche Form der Likelihoodfunktion bei zwei unbekannten Parametern 293 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Es gibt drei Arten der Maximum Likelihood Schätzungen – die unbedingte Maximum Likelihood Methode (UML) – die bedingte Maximum Likelihood Methode (CML) und – die marginale Maximum Likelihood Methode (MML). 294 147 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Die UML basiert auf der Totalen Likelihood der Daten. Hierbei werden Personenfähigkeits- und Itemschwierigkeitsparameter gleichzeitig geschätzt. Bei dieser Methode muss für jedes Item aber auch für jede Person ein eigener Parameter geschätzt werden. Das bedeutet jedoch, dass für jede neu hinzukommende Person ein weiterer Personenfähigkeitsparameter benötigt wird. Dies führt häufig zu gröberen Problemen bei der Schätzung. 295 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Bei der CML wird davon ausgegangen, dass pro Person die Zahl der gelösten Aufgaben bekannt ist. Somit werden die Personenparameter durch die Anzahl gelöster Aufgaben ersetzt und es müssen zunächst „nur“ die Itemschwierigkeitsparameter geschätzt werden. Die Schätzung der Personenparameter erfolgt dann wiederum mittels der UML. Personen mit der gleichen Anzahl an gelösten Aufgaben wird der selbe Personenparameter zugeordnet. Allerdings kann für Personen, die alle oder kein Item gelöst haben, kein Fähigkeitsparameter geschätzt werden. 296 148 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Auch bei der MML werden zunächst nur die Itemparameter geschätzt. Anstatt von pro Person bekannten Rohscores auszugehen, wird nur von einer bestimmten Verteilung der Personenparameter ausgegangen (z.B. NV). Somit müssen anstatt der einzelnen Personenparameter vorerst nur die Parameter der Verteilung (z.B. Mittelwert und Varianz) geschätzt werden. Nach der Schätzung der Itemparameter werden die Personenparameter abermals mittels UML geschätzt. Verzerrungen ergeben sich, wenn die vorab angenommene Verteilung der Personenparameter falsch ist. 297 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Parameterschätzung Probleme bei der Parameterschätzung ergeben sich, wenn es kein eindeutig definiertes Maximum der Likelihoodfunktion gibt. Dies ist der Fall, wenn die Funktion – multiple Maxima hat (d.h. es neben den globalen noch lokale Maxima gibt) oder – das Maximum kein Punkt, sondern ein Plateau oder eine Fläche ist. Die Genauigkeit der Schätzung hängt davon ab, wie viel Information man über einen Parameter besitzt. 298 149 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Beispiel für eine Funktion mit multiplen Maxima 299 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Informationsfunktion I v ,i p ( | v, i ) p ( | v, i ) Information die Person v über Item i beinhaltet und umgekehrt I v ,i I v ,i e v i 1 1 e v i 1 e v i e v i (1 e v i )² Je ähnlicher die Schwierigkeit eines Items i der Fähigkeit einer Person v ist, umso höher ist die Information, die eine Person über ein Item bzw. ein Item über eine Person liefert. 300 150 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch 0.6 0.4 0.0 0.2 Lösungswahrscheinlichkeit 0.8 1.0 Die Informationsfunktion -6 -4 -2 0 2 4 6 Personenfähigkeit 301 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch 0.6 0.4 Lösungswahrscheinlichkeit 0.2 Information 0.0 Lösungswahrscheinlichkeit 0.8 1.0 Die Informationsfunktion -6 -4 -2 0 Personenfähigkeit 2 4 6 302 151 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die Informationsfunktion Je größer die Information, die man über ein Item bzw. über eine Person sammelt, umso genauer kann man den Itembzw. Personenparameter schätzen. Daraus folgt: Hat man einen fixen Test, so ist die Messgenauigkeit dieses Tests nicht bei allen Personen gleich. Für die Items gilt: je stärker die Itemschwierigkeit von der durchschnittlichen Personenfähigkeit einer Gruppe abweicht umso ungenauer ist die Schätzung der Itemschwierigkeit. 303 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Um zu überprüfen, ob die vorliegenden Items dem dichotom logistischen Modell von Rasch entsprechen, können verschiedene Modelltests herangezogen werden. Dazu gehören z.B. – die grafische Modellkontrolle, – der z-Test nach Wald, – der bedingte Likelihood Quotienten Test nach Andersen und – der Martin-Löf -Test. 304 152 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Für die grafische Modellkontrolle werden die Personen in zwei Gruppen eingeteilt und die Itemschwierigkeitsparameter in jeder Gruppe extra geschätzt. Für die Einteilung in die zwei Gruppen können zwei Arten von Kriterien verwendet werden – intern (= Rohscore) oder – extern (Eigenschaften der Personen z.B. Altersgruppen, Geschlecht, Gruppenzugehörigkeit…). 305 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Für den Fall, dass ein Item dem Modell von Rasch entspricht, sollten die Schätzungen in beiden Stichproben in etwa gleich groß sein (=spezifische Objektivität). Trägt man die Items in einem Koordinatensystem mit x= Schätzung in Gruppe 1 und y= Schätzung in Gruppe 2, so sollten Items, die dem Modell von Rasch entsprechen, nahe der 45° Geraden liegen. 306 153 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Ideallinie Verwerfungsbereich Verwerfungsbereich 307 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen 308 154 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen 309 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Da die geschätzten Itemschwierigkeitsparameter eindeutig bis auf additive Konstanten (bzw. die Itemleichtigkeitsparameter eindeutig bis auf multiplikative Konstanten) sind, muss sicher gestellt werden, dass die Itemparameter in beiden Stichproben gleichartig normiert sind. Nachfolgend wird sowohl für Itemleichtigkeiten als auch für Itemschwierigkeiten nur eine Art der Normierung vorgestellt. 310 155 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Für Itemschwierigkeiten ist die „Summe 0“ Normierung zu empfehlen (d.h. die Summe aller Itemschwierigkeiten ist 0). k ˆ i* ˆ i ˆ i Mittelwert der Itemschwierigkeiten j 1 k Für Itemleichtigkeiten sollte die „Produkt 1“ Normierung verwendet werden (d.h. das Produkt aller Itemleichtigkeiten ist 1). i i* k-te Wurzel aus dem Produkt aller Itemleichtigkeiten k k j 1 j 311 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Beim z-Test (nach Fischer und Scheiblechner) werden die in zwei Stichproben (A, B) erhobenen und normierten Itemschwierigkeitsparameter miteinander verglichen. zi iA iB ˆ (2ˆ ) ˆ (2ˆ A i mit ˆ (2ˆ ) i B i ) 1 I (ˆ i ) Ist der Betrag des z-Werts größer als der kritische z-Wert, ist das Ergebnis signifikant und das Modell von Rasch gilt für dieses Item nicht. 312 156 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Da der z-Test pro Item erfolgt und demnach die Gefahr der Alpha Überhöhung gegeben ist, kann aus den z-Werten ein Globaltest für alle in einem Test enthaltenen Items berechnet werden. k ² z i2 mit df k 1 i 1 Ist der ²-Wert größer als der kritische, ist das Ergebnis signifikant und man muss zumindest das Item mit dem betragsmäßig größten z-Wert aus dem Test entfernen. 313 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Bei Likelihood Quotienten Tests (LQT) werden Likelihoods zweier Modelle miteinander verglichen. die Spezialfall LQT L(Modell 2) L(Modell1) allgemeineres Modell 314 157 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Die beiden Modelle müssen drei Bedingungen erfüllen* – Modell 1 muss ein echtes Obermodell von Modell 2 sein (d.h. dass Modell 2 durch Restriktionen von Parametern aus Modell 1 entsteht). – Modell 2 darf nicht durch 0 setzen von Parametern entstehen. – Modellgültigkeit von Modell 1 muss nachgewiesen sein. *nach Rost, J. Testtheorie und Testkonstruktion 2. Auflage, Hans Huber. Seite 332 . 315 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Sind diese drei Bedingungen erfüllt, kann man den LQT in eine ² verteilte Prüfgröße umwandeln. 2 ln( LQT ) 2 [ln( LModell 2 ) ln( LModell1 )] ² mit df Parameterzahl Modell1 - Parameterzahl Modell 2 *nach Rost, J. Testtheorie und Testkonstruktion 2. Auflage, Hans Huber. Seite 332 . 316 158 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Beim bedingten LQT Test nach Andersen wird für Modell 1 angenommen, dass zwei (oder mehr) Gruppen von Personen unterschiedliche Itemparameter haben. Bei Modell 2 wird davon ausgegangen, dass die Itemparameter in allen Gruppen gleich sind (= spezifische Objektivität). Lässt sich kein Unterschied zwischen der Likelihood der beiden Modelle nachweisen(= nicht signifikantes Ergebnis), darf Modell 2 (und damit die Gültigkeit des RM) angenommen werden. 317 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Modellkontrollen Der Martin-Löf-Test basiert im Wesentlichen auf derselben Annahme wie der bedingte LQT von Andersen, jedoch werden nicht die Personen, sondern die Items in zwei Gruppen aufgeteilt. Demnach wird geprüft, ob die Schätzungen der Personenparameter in beiden Itemgruppen gleich sind. Auch hier deutet ein signifikantes Ergebnis auf eine Verletzung der Annahmen des Rasch Modells bei zumindest einem Item hin. 318 159 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die praktische Anwendung So kompliziert die Theorie hinter dem dichotom logistischen Modell von Rasch, der Parameterschätzung und den Modellkontrollen auch scheinen mag, so einfach ist die Anwendung in der Praxis. Es bedarf lediglich der nötige Software, z.B. – das R Paket eRm – LpcmWin – WinMira 319 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die praktische Anwendung Beispiel Ein Test zur Erfassung von Raumvorstellung besteht aus 13 dichotomen Items. Es soll geprüft werden, ob die Items dem Modell von Rasch entsprechen. Als Teilungskriterien werden der Mittelwert und der Median des Rohscores herangezogen. 320 160 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Andersen chi_2 = Degrees of Freedom = chi_2 at alpha(5 percent) = chi_2 at alpha(1 percent) = *************************************** Conditional Likelihood-Ratio-Test (Mean) *************************************** 34.3610 12 21.0132 (Wilson-Hilferty approximation) 26.2456 (Wilson-Hilferty approximation) Andersen chi_2 = Degrees of Freedom = chi_2 at alpha(5 percent) = Da empirischer Wert größer als *************************************** kritischer Wert => Ergebnis Conditional Likelihood-Ratio-Test signifikant => es gibt zumindest (Median) 1 Item für das RM nicht gilt *************************************** 37.6322 12 21.0132 (Wilson-Hilferty approximation) chi_2 at alpha(1 percent) = 26.2456 empirischer Wert kritischer Wert bei alpha 5% (Wilson-Hilferty approximation) Output des Programms LpcmWin 321 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch *************************************** Wald z-Values (Mean) *************************************** Item No. 1 2 3 4 5 6 7 8 9 10 11 12 13 z-Value -0.9101 -1.0253 -0.5040 -2.7782 -0.3576 0.1220 0.3044 -0.6728 -1.2141 5.2483 0.1485 3.1084 1.2670 Significance n.s. n.s. n.s. sign.(5% and 1%) n.s. n.s. n.s. n.s. n.s. sign.(5% and 1%) n.s. sign.(5% and 1%) n.s. Item mit dem betragsmäßig größten z-Wert. Wird für die nächste Analyse weggelassen Output des Programms LpcmWin 322 161 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch 323 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch ******************************************************************** Martin-Löf Test ******************************************************************** Group 1: 2, 4, 6, 8, 11, 12, Group 2: 1, 3, 5, 7, 9, 11, 13, LogLikelihood (Group 1): -242.171551 LogLikelihood (Group 2): -289.942459 Martin-Löf-Statistic: 65.2844 sig.(5% und 1%) (chi_2(5%)= 56.9379, chi_2(1%)= 64.9689, and df=41) kritischer Wert bei alpha 5% Da empirischer Wert größer als kritischer Wert => Ergebnis signifikant => es gibt zumindest 1 Item für das RM nicht gilt empirischer Wert Output des Programms LpcmWin 324 162 IRT – Modell von Rasch Das dichotom logistische Modell von Rasch Die praktische Anwendung Es werden solange Items aus dem Test entfernt bis die Modelltests nicht mehr signifikant sind. Müssen mehr als in etwa 20% der Items entfernt werden, sollten die verbleibenden Items an einer neuen Stichprobe abermals geprüft werden. 325 IRT – weitere Modelle Erweiterungen Ausgehende von den Ideen von Georg Rasch wurden zahlreiche weitere Modelle entwickelt. Im Folgenden werden – die Modelle von Birnbaum (1968), – das linear logistische Testmodell (LLTM) und – die Erweiterung auf rangskalierte Daten kurz vorgestellt. 326 163 IRT – weitere Modelle Birnbaum Modelle Birnbaum (1968) stellte zwei Erweiterungen des dichotom logistischen Modells von Rasch vor, indem er unterschiedliche Diskriminations- und Rateparameter pro Item erlaubt. Bei diesen Modellen handelt es sich um – das zwei Parameter logistische Modell und – das drei Parameter logistische Modell. Bei beiden Modellen ergeben sich wegen der relativ großen Zahl an Modellparametern häufig Probleme bei der Parameterschätzung. 327 IRT – weitere Modelle Birnbaum Modelle Das zwei Parameter logistische Modell Bei diesem Modell gibt es pro Item zwei Parameter, nämlich – den Itemschwierigkeitsparameter und – den Diskriminationsparameter. Die Lösungswahrscheinlichkeit eines Items i durch Person v ist gegeben durch Diskriminationsparameter e i ( v i ) p ( | v, i ) 1 e i ( v i ) Itemschwierigkeitsparameter 328 164 IRT – weitere Modelle Birnbaum Modelle Das zwei Parameter logistische Modell Aufgrund der unterschiedlichen Diskriminationsparameter gibt es in diesem Modell schneidende IC Kurven, sodass die spezifische Objektivität bei diesem Modell nicht gegeben ist. 329 IRT – weitere Modelle Birnbaum Modelle Das drei Parameter logistische Modell Bei diesem Modell gibt es pro Item drei Parameter, nämlich – den Itemschwierigkeitsparamter, – den Diskriminationsparameter und – die Ratewahrscheinlichkeit. Die Lösungswahrscheinlichkeit eines Items i durch Person v ist gegeben durch Diskriminationsparameter e i ( v i ) p( | v, i ) ci (1 ci ) 1 e i ( v i ) Ratewahrscheinlichkeit Itemschwierigkeitsparameter 330 165 IRT – weitere Modelle Birnbaum Modelle Das drei Parameter logistische Modell Auch hier schneiden die IC Kurven einander 331 IRT – weitere Modelle Das linear logistische Testmodell (LLTM) Das LLTM geht auf Scheiblechner (1972) und Fischer (1972, 1973) zurück und stellt ein restriktiveres Modell als das dichotom logistische Modell von Rasch dar. Die ursprüngliche Idee war es, die Schwierigkeit eines dem Modell von Rasch entsprechenden Items auf die Schwierigkeit jener kognitiven Fertigkeiten zurückzuführen, die aufgrund theoretischer Überlegungen im Vorfeld der Lösung des Items zugrunde liegen. Gewichtszahl m LLTM i qi , j j j 1 Schwierigkeit der j-ten Operation 332 166 IRT – weitere Modelle Das linear logistische Testmodell (LLTM) Beispiel Item Gewichtszahlmatrix (Q) + - * () 1 6+2 1 0 0 0 2 7–3 0 1 0 0 3 7+2–4 1 1 0 0 4 3*3 – 5 0 1 1 0 5 2*(4 - 1) 0 1 1 1 6 9–2–5 0 2 0 0 () 1.1 LLTM 1 () 1.2 (*) 1.4 ( ( ) ) 1.6 1 (1.1) 0 (1.2) 0 (1.4) 0 (1.6) 333 IRT – weitere Modelle Das linear logistische Testmodell (LLTM) Beispiel 1LLTM 1 (1.1) 0 (1.2) 0 (1.4) 0 (1.6) 1.1 2LLTM 0 (1.1) 1 (1.2) 0 (1.4) 0 (1.6) 1.2 3LLTM 1 (1.1) 1 (1.2) 0 (1.4) 0 (1.6) 2.3 4LLTM 0 (1.1) 1 (1.2) 1 (1.4) 0 (1.6) 2.6 5LLTM 0 (1.1) 1 (1.2) 1 (1.4) 1 (1.6) 4.2 6LLTM 0 (1.1) 2 (1.2) 0 (1.4) 0 (1.6) 2.4 334 167 IRT – weitere Modelle Das linear logistische Testmodell (LLTM) Zur Kontrolle der Gültigkeit des LLTM werden die laut LLTM geschätzten Parameter mit den aus dem dichotom logistischen Modell von Rasch mit Hilfe einer der bereits bekannten Modellkontrollen verglichen. Der bekannteste Test, der auf dem LLTM basiert ist der Wiener Matrizen Test (WMT) von Formann und Piswanger (1979). Abgesehen von der ursprünglichen Idee, kann das LLTM auch z.B. für den Vergleich von Gruppen, Positionseffekten, oder zur Modellierung des Einflusses von Lernprozessen (Veränderungsmessung) verwendet werden. 335 IRT – weitere Modelle Das Partial Credit Modell Das Partial Credit Model ist das Rasch Modell für ordinale Daten. Die dahinter liegende Idee ist eine Verallgemeinerung des dichotom logistischen Modells von Rasch. Für letzteres wurde gezeigt, dass es neben der IC Kurve für das Lösen des Items auch eine IC Kurve für das nicht Lösen eines Items gibt. 336 168 IRT – weitere Modelle Das Partial Credit Modell p( xv ,i 0 | v, i ) p( xv ,i 1 | v, i ) 337 IRT – weitere Modelle Das Partial Credit Modell Hat man nun nicht nur zwei, sondern z.B. vier Kategorien, könnten die resultierenden IC Kurven folgendermaßen aussehen. 338 169 IRT – weitere Modelle Das Partial Credit Modell Dadurch wird für jeden Fähigkeitsparameter die Wahrscheinlichkeit der Antwort in Kategorie x modelliert. Jene Stellen, ab denen eine andere Kategorie als wahrscheinlichste gilt, werden Schwellen genannt. Prinzipiell können die Schwellen in jedem Item anders sein. Da daraus eine sehr große Zahl an Parameter resultiert, können zusätzliche Annahmen getroffen werden, die zu unterschiedlichen Modellen führen. Diese sind – das Ratingskalen Modell, – das Äquidstanzmodell und – das Dispersionsmodell. 339 IRT – weitere Modelle Das Partial Credit Modell Das Ratingskalen Modell Die Schwellenabstände sind in allen Items gleich 340 170 IRT – weitere Modelle Das Partial Credit Modell Das Äquidistanzmodell Die Schwellen sind pro Item gleich weit entfernt 341 IRT – weitere Modelle Das Partial Credit Modell Das Dispersionsmodell Das Verhältnis der Schwellenabstände ist in allen Item dasselbe 342 171 IRT – weitere Modelle Das Partial Credit Modell 343 IRT – weitere Modelle Das Partial Credit Modell Mittels das Partial Credit Modells kann geprüft werden, ob die Stufen eines Items tatsächlich rangskaliert sind. Die Ordnung der Antwortkategorien zeigt sich daran, dass die Schnittpunkte zweier benachbarter Kategorien „geordnet“ sind. Das bedeutet, dass z.B. der Übergang von Kategorie 0 auf 1 bei einer niedrigeren Personenfähigkeit erfolgt, als der Übergang von Kategorie 1 auf 2 usw. 344 172 IRT – weitere Modelle Das Partial Credit Modell 1 p(0) p(3) p(2) 0,5 p(1) 0 -4 -2 0 2 4 Personenfähigkeit Beispiel für ungeordnete Kategorieabschnitte 345 Danksagung Ich möchte mich an dieser Stelle bei Herrn Philipp Dausmann bedanken, der wesentlich dazu beigetragen hat, die Anzahl an Tipp- und Beistrichfehlern in den Folien zu reduzieren. 346 173