Test- und Fragebogenkonstruktion Skript Was ist ein Test? Definition: Lienert&Ratz (1989): Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Graf der individuellen Merkmalsausprägung. Ross (1996): Für quantitavie Aussagen über Merkmalsausprägungen sollte ein theoretischer Rahmen existieren. Merkmale: hinsichtlich Durchführung und Auswertung standardisiert erfasst empirisch abgrenzbare Eigenschaften, Verhaltensdispositionen, Fähigkeiten, Fertigkeiten oder Kenntnisse Auskunft über individuelle Merkmalsausprägung diese lässt sich in Bezug zu einer Vergleichsgruppe von Individuen interpretieren Testteile: Testmanual: Testinfo: Beschreibung, Entstehung und wissenschaftliche Grundlage; Durchführungsund Interpretationsanweisungen samt Normen; Art, Schwierigkeit und Aufgabenkomplexität; Durchführungsdauer Testmaterial: z.B. Fragebogen, Aufgabenbuch Testinstruktion: Durchführungsanweisung Auswertungsmaterial: Auswertungsanweisung, evtl. Schablonen, Messegeräte... Testarten: (1) Leistungstest (erworben Fähigkeiten): Speed-Test: sehr einfache Aufgaben, unter Zeitbegrenzung, z.B. d2-Test Power-Test: Nur teilweise unter Zeitbegrenzung, Aufgabenschwierigkeit steigt zunehmend, z.B. HAWIK (2) Persönlichkeitstest (biologische Fähigkeiten): Psychometrische Persönlichkeitstests: - Persönlichkeitsstrukturtests, z.B. NEO-FFI werden vom Probanden - Einstellungstests, z.B. BIT alleine ausgefüllt, Erkenntnisse über - Klinische Tests, z.B. BDI Vergleichsnormen Persönlichkeits- und Entfaltungsverfahren: - Formdeutungsverfahren, z.B. Rohrschach-Test Interaktion mit Testleiter, - Verbal-thematische Verfahren (TAT) Erkenntnisse über Verhalten bzw. - Zeichnerische Verfahren Erklärungen des Probanden - Gestalterische Verfahren (Ton, Rollenspiele) Theoretische Grundlagen Theorie von Persönlichkeitstests Zwischen den Antworten oder Reaktionen der Vpn (=manifeste Variablen) bezüglich der verschiedenen Items sind systematische Zusammenhänge beobachtbar, die sich durch „latente Personenvariablen“ (Konstrukte) erklären lassen. Aufgabe eines Tests Erfassung von psychologischen Eigenschaften von Personen, die Rückschlüsse auf deren Verhalten bzw. Fähigkeitsbereiche ermöglichen; zeitliche Reduktionsmethode zur Informationssammlung über Probanden 1 Querschnittsdiagnose: - Ausprägungsgrad von einzelnen Leistungs- oder Persönlichkeitsmerkmalen eines Individuums anhand einer Gruppe vergleichbarer Individuen; Unterschiede interpretierbar - Bestimmung individueller Kombinationen von mehreren Leistungs- oder Persönlichkeitsmerkmalen (Persönlichkeits-/Leistungsprofil, z.B. Extraversion + Neurotizismus) - Entscheidung über Erfüllung/Nichterfüllung einer Bedingung bzw. Vorhandensein/Nichtvorhandensein eines Merkmals Längsschnittdiagnose: - Merkmalsveränderungen innerhalb definierter Zeitspannen bei Individuen und Gruppen (Verlaufsprofil). Merkmalserfassung in kontinuierlichen Zeitabständen (z.B. Moralentwicklung) - Bei Untersuchungsbeginn solle gleiche Ausprägung des Merkmals bei Vpn vorhanden gewesen sein; bei Gruppenvergleichen sind gleicher Mittelwert und gleiche Varianz erforderlich Hauptgütekriterien eines Tests Objektivität Grad der Unabhängigkeit des Testergebnisses von äußeren Bedingungen Durchführungsobjektivität - Unabhängigkeit der Testergebnisse von zufälligen oder systematischen Verhaltensvariationen des Untersuchers und vom Zeitpunkt - Maximal bei minimaler soz. Interaktion zwischen Vl und Vp, bei kurzer, verständlicher und schriftlicher Testinstruktion, bei festen Zeit- und Durchführungsangaben Auswertungsobjektivität - Unabhängigkeit der Testergebnisse vom Auswerter - Maximal bei klaren Auswertungs-Instruktionen, standardisierten Auswertungshilfen, übersichtlich gestalteten Auswertungsblättern und bei offenen Antworten Auswertungsschlüssel in Form eines Kategorieren-Systems mit Kodierungsbeispielen - Überprüfbar über Cohen`s Kappa ( Folie 31) Interpretationsobjektivität - Unabhängigkeit des Testergebnisses vom Interpretierenden; d.h. gleiche Auswertung sollte die gleichen Schlüsse ergeben - Maximal bei vorgefertigten Interpretationsbeispielen für verschiedene Gesamtwerte und Typisierungsbeispielen im Testmanual Natürlich können Vl und Vp nicht interaktionsfrei miteinander umgehen, doch man kann eine NichtVerfälschbarkeit des Tests erstreben, indem man Erkennen der Messintention und soziale Erwünschtheit möglichste gering zu halten sucht (Cattell). Reliabilität Grad der Messgenauigkeit, d.h. Vp bekommt immer denselben Wert; Reliabilität über Reliabilitätskoeffizienten bestimmbar, der angibt, wie gut Ergebnis reproduzierbar ist. Vier methodische Ansätze Retestreliabilität: - Vorgabe des gleichen Tests zu unterschiedlichen Zeitpunkten (z.B. ½ Jahr bei Intelligenztests) - Probleme: „carry-over“-Effekte durch Übung führt zu Überschätzung der Reliabilität, Unterschätzung der Reliabilität durch echte Merkmalsveränderungen (angemessenen Zeitpunkt wählen!) oder Variation der Testbedingungen Paralleltestreliabilität: - Vorgabe zwei paralleler Tests - Probleme: Parallelität nicht beweisbar, sondern nur über gleiche Mittelwerte und Varianzen erschließbar; schwer zu konstruieren; Übungseffekte 2 - Vorteil: geringer Zeitintervall, wenig wahre Merkmalsveränderungen Testhalbierungsreliabilität: - Test wird nach der Auswertung geteilt und Testhälften korreliert (Annahme: gleicher Mittelwert, gleiche Varianz der Hälften) - Verschiedene Methoden: odd-even-Methode (gerade vs. ungerade Items), Zufallsteilung, Halbierung (v.a. bei Schnelligkeit) - Probleme: unterschiedliche Formeln zur Korrelationsbestimmung (je nach Itemanzahl und Varianzhomogenität), Testhälften müssen parallel sein (d.h. gleicher Wahrer-Wert, gleihce Fehlervarianz) - Vorteil: nur ein Test, der auch nur einmal durchgeführt werden muss Konsistenzanalyse: - Test kann nicht nur halbiert, sondern bis auf Itemzahl geteilt werden (jedes Item zu sich selbst parallel) - Bestimmung der Reliabilität über Cronbach-Alpha oder Gutman-Lambda - Problem: Items müssen -äquivalent sein (gleicher wahrer Wert, aber ungleiche Fehlervarianzen) Validität Inhaltliche Validität: Item/Test erfasst das Persönlichkeits-/Leistungsmerkmal (z.B. Diktat erfasst Diktierverhalten) Konstruktvalidität: - Test erfasst ein latentes Merkmal (Konstrukt) - Möglichkeiten der Konstruktvalidierung über Analyse von testinternen Korrelations- und Kovarianzmatritzen zwischen unterschiedlichen Merkmalsbereichen (z.B. durch Faktorenanalyse) oder Analyse von Korrelations- und Kovarianzmatritzen zwischen zwei Tests, die das gleiche Konstrukt erfassen sollen - Konvergente Validität: Items bzw. Summenwerte inhaltlich ähnlicher Skalen sollen hoch miteinander korrelieren - Diskriminante Validität: Items bzw. Summenwerte inhaltlich unterschiedlicher Skalen sollen niedrig miteinander korrelieren Kriterienbezogene Validität: - Korrelation des Testergebnisses mit im Verbindung zum Merkmal stehenden Außenkriterium - Je nach Testzeitpunkt: Vorhersage- oder Übereinstimmungsvalidität - Höhe abhängig von Ausmaß der Gemeinsamkeit zwischen Testmerkmal und Kriterium sowie den jeweiligen Reliabilitäten ( Folie 68) Nebengütekriterien eines Tests Normierung: - Angaben zum Bezugssystem für die Einordnung der individuellen Testergebnisse - Bei eindimensionalen Tests wird die Verteilung der Testwerte einer Population ermittelt, evtl. normaltransformiert und mit bestimmten Verteilungsparametern (z.B. Stanine-Werte) ausgestattet - Normierung an Gesamtpopulation oder bestimmten soziale Gruppen (z.B. Geschlecht, Alter) Vergleichbarkeit: Bei Vorhandensein von Paralleltestformen bzw. validitätsähnlichen Tests Ökonomie: - kurze Durchführungszeit - wenig Materialbedarf - einfache Handhabung - als Gruppentest durchführbar - schnelle und bequeme Auswertung Nützlichkeit 3 Für alle Nebengütekriterien existieren keine numerischen Kennwerte. Wechselwirkungen zwischen den Gütekriterien Parallel- und Retest-Reliabilität kann nicht höher als interne Konsistenz oder Objektivität sein Test kann nicht valider als reliabel sein Hohe kriterienbezogene Validität bedeutet hohe Objektivität und Konsistenz Test mit geringer Reliabilität und Validität wertlos. Erste Konstruktionsschritte eines Tests Eingrenzung des zu erfassenden Merkmals Literatursammlung Erstellen eines Modells, wann und wie sich das Merkmal im Verhalten äußert: Wichtig ist die Erscheinungsform des Merkmals, also qualitativer (homogenes vs. heterogenes Merkmal) und quantitativer (kleine vs. große Varianz) Ausprägungsgrad Item-Generierung - Items operationalisieren Eigenschaften oder Verhaltensweisen von Personen in bestimmten Situationen, die in direktem oder indirektem Zusammenhang mit dem Merkmal stehen; d.h. Erscheinungform des Merkmals muss operationalisiert werdeb - Regeln: nur ein Merkmalsinhalt pro Item; keine Vergleichsfragen einfache und kurze Sätze; keine Fachbegriffe etc. keine Begriffe mit unterschiedlicher Bedeutung keine subgruppenspezifischen Wörter keine doppelten Verneinungen keine Verallgemeinerungen („nie“, „immer“); außer Lügenitems keine suggestiven Inhalte keine „soziale Erwünschtheit“ bei Größenangaben etc. Vergleichsmaßstab angeben Wichtiges hervorheben Itemnummer Festlegung des Beantwortungsmodus - Homomorphe Abbildung: Empirisches Relativ kann durch numerisches Relativ ausgedrückt werden, wobei das numerische Relativ ein möglichst strukturtreues Abbild des empirischen Relativs sein sollte - Existenz- oder Repräsentationsfrage: Für welche empirische Beobachtung existiert welche numerische Repräsentation? - Eindeutigkeitsfrage: Welche Transformationen im empirischen Relativ zulässig? ( Folie 102) - Deutbarkeitsfrage: Alles, was unter den zulässigen Transformationen invariant bleibt, kann der Repräsentation entnommen werden, alles andere bleibt bedeutungslos. - Konstruktions- bzw. Skalierungsfrage: Wie konstruiert man die Repräsentation? Skalenart und Antwortmodus abhängig vom Untersuchungsgegenstand, Messintention des Untersuchers, Differenzierungsfähigkeit des Urteilers und vom Messsetting (Bezugsrahmen der Vp) Antwortformen: (1) Offene Antwortformen (z.B. Wie viele Tage hat die Woche?, Wortdiktate, Kurzaufsätze) Vorteile: freie Reproduktion von Wissen möglich; komplexe Aufgaben möglich; „freie Wirkungsbeschreibung“ bei Antworten, die schwer antizipiert werden können; qualitative Auswertung möglich; Zufallslösungen nicht möglich Nachteile: Zeitaufwand (Bearbeitung und Auswertung), Auswertungsobjektivität 4 (2) Geschlossene Antwortformen (z.B. Skala, Multiple Choice, Umordnungsaufgabe) Spezialfall Likert-Skala: Gleichabständigkeit des Erlebens! Verbalskalen müssen psychische Quantitäten repräsentieren, daher oberen/unteren Pol angeben Vorteile: ökonomisch; Zufall kein Problem, je mehr Antwortalternativen Nachteile: Aufgabe muss eindeutig beantwortbar sein; Zufallslösungen; bei Persönlichkeitstest Neigung zu konsistenter Aufgabenbeantwortung; Nominaldaten; Distraktorengenerierung schwierig; keine Reproduktion, sondern nur Rekognition von Wissen; evtl. unterschiedliche Auffassungen der Intervallbreite bei Skalen; anfällig gegen Antworttendenzen (3) Atypische Antwortformen (z.B. Zahlen verbinden) Layout des Testbogens - Seitenlayout übersichtlich, lesbar für leichtes Ausfüllen inhaltlich unterschiedlich Abschnitte genau trenne gleich große Abstände keine Seitenumbrüche innerhalb eines Items kein Formatwechsel Fragebogen nur einseitig bedrucken Datenauswertung sollte direkt vom Blatt aus möglich sein - Schriftart und –größe einheitliche Schrift wichtiges hervorheben - Instruktionsmaterial einfach und verständlich erste Seite: wie Bearbeitung des Fragebogens Beispiel-Item Fachausdrücke erläutern cover-story Hinweis auf Anonymität bei persönlichen Daten - Identifikationsitems z.B. Geschlecht, Alter übersichtlich, nur Notwendiges Itemanalyse Bestimmung der Testrohwerte ohne Zufallskorrektur: Folie 143 mit Zufallskorrektur: Folie 144 Verteilungsformen Normalverteilung: glockenförmig, symmetrisch, asymptotische Näherung der x-Achse, zwischen einer SD links und rechts vom Mittelwert liegen 68% der Probanden, zwischen zwei SD links und rechts vom Mittelwert liegen 95%; 95%>x>68%: auffälliger Wert; x>95% höchst auffällig Asymetrische Verteilung Bimodale Verteilung U-förmige Verteilung Schmal-/breitgipflige Verteilung Links-/rechtssteile Verteilung Abfallende Verteilung Geringe SD: schmale Verteilung Große SD: breite Verteilung Streuung (SD) ähnlich hoch wie Mittelwert: J- oder L-Verteilung (anormale Verhaltensweisen, z.B. 5 Aggressivität) Überprüfung der Verteilungsform: Folie 148 Kennwerte zur Aufgabenanalyse und Aufgabenselektion Schwierigkeitsindex - prozentuale Häufigkeit, mit der ein Item richtig (d.h. in Schlüsselrichtung) beantwortet wird - bei dichotomer Antwort: Folie 152 - bei Mehrfachwahlaufgaben: Folie 153 - Streuung einer Aufgabe abhängig von Schwierigkeit: SD pq hohe Aufgabenstreuung bei mittlerer Aufgabenschwierigkeit wenn 50 richtig und 50 falsch, dann 50*50=2500 Unterscheidungen zwischen Pb-Paaren - eine mittlere Aufgabenschwierigkeit begünstigt eine normalverteilte Verteilung (Likert-Skala) des Merkmals, garantiert diese aber nicht - daher: mittlere Aufgabenschwierigkeit (d.h. auch ausreichend Merkmalsstreuung) ist notwendige, aber nicht hinreichende Voraussetzung zur Berechnung von Korrelationen - extreme Schwierigkeiten eignen sich für Differenzierung in Randbereichen eines Merkmals; daher bemüht man sich bei Power-Tests (z.B. Intelligenz) um breite Streuung der Schwierigkeiten damit aber Einbußen bei Homogenität (Interkorrelation der Items) und Trennschärfe (Korrelation Item-Skalenwert) wegen geringer Streuung der einzelnen Items daher sollte bei „Power-Tests“ die Höhe des Schwierigkeitsindex der einzelnen Aufgaben mit steigender Aufgabenzahl abnehmen - Speed-Tests: Schwierigkeitsindex bei allen Aufgaben gleich hoch Schwierigkeitsindex eher „Leichtigkeitsindex“, weil umso größer, je mehr Probanden Aufgabe richtig Trennschärfekoeffizient - Korrelation zwischen Beantwortung eines Items und Summenwert des Gesamttests bzw. der Skala, zu der das Item gehört - Eigentrennschärfe: Korrelation eines Items mit Summenwert des Gesamttests bzw. der Skala, zu der das Item gehört; konvergente Trennschärfe: Item erfasst den gleichen Merkmalsbereich wie der Gesamttest bzw. die Skala, mit der das Item korreliert wird; hohe Eigentrennschärfe hohe Reliabilität des Tests - Fremdtrennschärfe: Korrelation des Items mit einer Skala des Tests, zu der das Item nicht gehört, bzw. externen Kriteriumswert; diskriminante Trennschärfe: Item erfasst einen anderen Merkmalsbereich als Skala bzw. Außenkriterium; niedrige Fremdtrennschärfe hohe Validität des Tests - Trennschärfe trennt „gute“ von „schlechten“ Probanden; negative Trennschärfe: schlechte Probanden besser als gute; ist die Trennschärfe Null, sind alle Probanden gleich gut/schlecht - Bei Mehrfachwahlaufgaben müssen die Trennschärfen für Distraktoren berechnet werden; es wird eine gleichverteilte Wahlhäufigkeit angestrebt, wobei die falschen Antworten nicht mit der Testleistung hoch korrelieren sollten - Je nach Datenniveau unterschiedliche Trennschärfekoeffizienten: Testwert Item Datenniveau Nominalniveau (echt dichotom) Nominalniveau (künstlich dichotom) Nominalniveau (echt dichotom) Punkt-VierfelderKorrelation Cosinus-Pi-Korrelation Punktbiseriale Korrelation Tetrachorische Korrelation Biseriale Korrelation Nominalniveau (künstlich dichotom) Intervallniveau Folie 179 Intervallniveau Folie 169+170 Folie 171+172 Folie 173+174+175+176+177+178 Produkt-MomentKorelation Folie 168 - Problem der Part-whole-Korrektur: Da Item in Skalenwert selbst mit eingeht, stellt die unkorrigierte Trennschärfe eine Art Eigenkorrelation dar; daher part-whole-Korrektur Folie 181 je mehr Items, desto weniger Auswirkungen der part-whole-Korrektur 6 je homogener eine Skala, desto geringere Auswirkungen der part-whole-Korrektur, weil alle Items relativ gleichen Wert beitragen - Aufgaben mit mittlerer Schwierigkeit besitzen eine gute Voraussetzung, aber keine Garantie für hohe Trennschärfen, weil Varianz nahezu maximal Validitätskoeffizient Homogenitätsindex 7