tuf_lewand-skript_hm_2004

Test- und Fragebogenkonstruktion
Skript
Was ist ein Test?
Definition:
Lienert&Ratz (1989): Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder
mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen
Aussage über den relativen Graf der individuellen Merkmalsausprägung.
Ross (1996): Für quantitavie Aussagen über Merkmalsausprägungen sollte ein theoretischer Rahmen
existieren.
Merkmale:
 hinsichtlich Durchführung und Auswertung standardisiert
 erfasst empirisch abgrenzbare Eigenschaften, Verhaltensdispositionen, Fähigkeiten, Fertigkeiten oder
Kenntnisse
 Auskunft über individuelle Merkmalsausprägung
 diese lässt sich in Bezug zu einer Vergleichsgruppe von Individuen interpretieren
Testteile:
 Testmanual: Testinfo: Beschreibung, Entstehung und wissenschaftliche Grundlage; Durchführungsund Interpretationsanweisungen samt Normen; Art, Schwierigkeit und Aufgabenkomplexität;
Durchführungsdauer
 Testmaterial: z.B. Fragebogen, Aufgabenbuch
 Testinstruktion: Durchführungsanweisung
 Auswertungsmaterial: Auswertungsanweisung, evtl. Schablonen, Messegeräte...
Testarten:
(1) Leistungstest (erworben Fähigkeiten):
 Speed-Test: sehr einfache Aufgaben, unter Zeitbegrenzung, z.B. d2-Test
 Power-Test: Nur teilweise unter Zeitbegrenzung, Aufgabenschwierigkeit steigt zunehmend, z.B.
HAWIK
(2) Persönlichkeitstest (biologische Fähigkeiten):
 Psychometrische Persönlichkeitstests:
- Persönlichkeitsstrukturtests, z.B. NEO-FFI
werden vom Probanden
- Einstellungstests, z.B. BIT
alleine ausgefüllt, Erkenntnisse über
- Klinische Tests, z.B. BDI
Vergleichsnormen
 Persönlichkeits- und Entfaltungsverfahren:
- Formdeutungsverfahren, z.B. Rohrschach-Test
Interaktion mit Testleiter,
- Verbal-thematische Verfahren (TAT)
Erkenntnisse über Verhalten bzw.
- Zeichnerische Verfahren
Erklärungen des Probanden
- Gestalterische Verfahren (Ton, Rollenspiele)
Theoretische Grundlagen
Theorie von Persönlichkeitstests
Zwischen den Antworten oder Reaktionen der Vpn (=manifeste Variablen) bezüglich der verschiedenen
Items sind systematische Zusammenhänge beobachtbar, die sich durch „latente Personenvariablen“
(Konstrukte) erklären lassen.
Aufgabe eines Tests
Erfassung von psychologischen Eigenschaften von Personen, die Rückschlüsse auf deren Verhalten bzw.
Fähigkeitsbereiche ermöglichen; zeitliche Reduktionsmethode zur Informationssammlung über
Probanden
1
 Querschnittsdiagnose:
- Ausprägungsgrad von einzelnen Leistungs- oder Persönlichkeitsmerkmalen eines
Individuums anhand einer Gruppe vergleichbarer Individuen; Unterschiede interpretierbar
- Bestimmung individueller Kombinationen von mehreren Leistungs- oder
Persönlichkeitsmerkmalen (Persönlichkeits-/Leistungsprofil, z.B. Extraversion +
Neurotizismus)
- Entscheidung über Erfüllung/Nichterfüllung einer Bedingung bzw.
Vorhandensein/Nichtvorhandensein eines Merkmals
 Längsschnittdiagnose:
- Merkmalsveränderungen innerhalb definierter Zeitspannen bei Individuen und Gruppen
(Verlaufsprofil). Merkmalserfassung in kontinuierlichen Zeitabständen (z.B.
Moralentwicklung)
- Bei Untersuchungsbeginn solle gleiche Ausprägung des Merkmals bei Vpn vorhanden
gewesen sein; bei Gruppenvergleichen sind gleicher Mittelwert und gleiche Varianz
erforderlich
Hauptgütekriterien eines Tests
Objektivität
Grad der Unabhängigkeit des Testergebnisses von äußeren Bedingungen
 Durchführungsobjektivität
- Unabhängigkeit der Testergebnisse von zufälligen oder systematischen Verhaltensvariationen
des Untersuchers und vom Zeitpunkt
- Maximal bei minimaler soz. Interaktion zwischen Vl und Vp, bei kurzer, verständlicher und
schriftlicher Testinstruktion, bei festen Zeit- und Durchführungsangaben
 Auswertungsobjektivität
- Unabhängigkeit der Testergebnisse vom Auswerter
- Maximal bei klaren Auswertungs-Instruktionen, standardisierten Auswertungshilfen,
übersichtlich gestalteten Auswertungsblättern und bei offenen Antworten
Auswertungsschlüssel in Form eines Kategorieren-Systems mit Kodierungsbeispielen
- Überprüfbar über Cohen`s Kappa ( Folie 31)
 Interpretationsobjektivität
- Unabhängigkeit des Testergebnisses vom Interpretierenden; d.h. gleiche Auswertung sollte
die gleichen Schlüsse ergeben
- Maximal bei vorgefertigten Interpretationsbeispielen für verschiedene Gesamtwerte und
Typisierungsbeispielen im Testmanual
Natürlich können Vl und Vp nicht interaktionsfrei miteinander umgehen, doch man kann eine NichtVerfälschbarkeit des Tests erstreben, indem man Erkennen der Messintention und soziale Erwünschtheit
möglichste gering zu halten sucht (Cattell).
Reliabilität
Grad der Messgenauigkeit, d.h. Vp bekommt immer denselben Wert; Reliabilität über
Reliabilitätskoeffizienten bestimmbar, der angibt, wie gut Ergebnis reproduzierbar ist.
Vier methodische Ansätze
 Retestreliabilität:
- Vorgabe des gleichen Tests zu unterschiedlichen Zeitpunkten (z.B. ½ Jahr bei
Intelligenztests)
- Probleme: „carry-over“-Effekte durch Übung führt zu Überschätzung der Reliabilität,
Unterschätzung der Reliabilität durch echte Merkmalsveränderungen (angemessenen
Zeitpunkt wählen!) oder Variation der Testbedingungen
 Paralleltestreliabilität:
- Vorgabe zwei paralleler Tests
- Probleme: Parallelität nicht beweisbar, sondern nur über gleiche Mittelwerte und Varianzen
erschließbar; schwer zu konstruieren; Übungseffekte
2
- Vorteil: geringer Zeitintervall, wenig wahre Merkmalsveränderungen
 Testhalbierungsreliabilität:
- Test wird nach der Auswertung geteilt und Testhälften korreliert (Annahme: gleicher
Mittelwert, gleiche Varianz der Hälften)
- Verschiedene Methoden: odd-even-Methode (gerade vs. ungerade Items), Zufallsteilung,
Halbierung (v.a. bei Schnelligkeit)
- Probleme: unterschiedliche Formeln zur Korrelationsbestimmung (je nach Itemanzahl und
Varianzhomogenität), Testhälften müssen parallel sein (d.h. gleicher Wahrer-Wert, gleihce
Fehlervarianz)
- Vorteil: nur ein Test, der auch nur einmal durchgeführt werden muss
 Konsistenzanalyse:
- Test kann nicht nur halbiert, sondern bis auf Itemzahl geteilt werden (jedes Item zu sich
selbst parallel)
- Bestimmung der Reliabilität über Cronbach-Alpha oder Gutman-Lambda
- Problem: Items müssen -äquivalent sein (gleicher wahrer Wert, aber ungleiche
Fehlervarianzen)
Validität
 Inhaltliche Validität:
Item/Test erfasst das Persönlichkeits-/Leistungsmerkmal (z.B. Diktat erfasst Diktierverhalten)
 Konstruktvalidität:
- Test erfasst ein latentes Merkmal (Konstrukt)
- Möglichkeiten der Konstruktvalidierung über Analyse von testinternen Korrelations- und
Kovarianzmatritzen zwischen unterschiedlichen Merkmalsbereichen (z.B. durch
Faktorenanalyse) oder Analyse von Korrelations- und Kovarianzmatritzen zwischen zwei
Tests, die das gleiche Konstrukt erfassen sollen
- Konvergente Validität: Items bzw. Summenwerte inhaltlich ähnlicher Skalen sollen hoch
miteinander korrelieren
- Diskriminante Validität: Items bzw. Summenwerte inhaltlich unterschiedlicher Skalen sollen
niedrig miteinander korrelieren
 Kriterienbezogene Validität:
- Korrelation des Testergebnisses mit im Verbindung zum Merkmal stehenden Außenkriterium
- Je nach Testzeitpunkt: Vorhersage- oder Übereinstimmungsvalidität
- Höhe abhängig von Ausmaß der Gemeinsamkeit zwischen Testmerkmal und Kriterium sowie
den jeweiligen Reliabilitäten ( Folie 68)
Nebengütekriterien eines Tests
 Normierung:
- Angaben zum Bezugssystem für die Einordnung der individuellen Testergebnisse
- Bei eindimensionalen Tests wird die Verteilung der Testwerte einer Population ermittelt, evtl.
normaltransformiert und mit bestimmten Verteilungsparametern (z.B. Stanine-Werte)
ausgestattet
- Normierung an Gesamtpopulation oder bestimmten soziale Gruppen (z.B. Geschlecht, Alter)
 Vergleichbarkeit:
Bei Vorhandensein von Paralleltestformen bzw. validitätsähnlichen Tests
 Ökonomie:
- kurze Durchführungszeit
- wenig Materialbedarf
- einfache Handhabung
- als Gruppentest durchführbar
- schnelle und bequeme Auswertung
 Nützlichkeit
3
Für alle Nebengütekriterien existieren keine numerischen Kennwerte.
Wechselwirkungen zwischen den Gütekriterien




Parallel- und Retest-Reliabilität kann nicht höher als interne Konsistenz oder Objektivität sein
Test kann nicht valider als reliabel sein
Hohe kriterienbezogene Validität bedeutet hohe Objektivität und Konsistenz
Test mit geringer Reliabilität und Validität wertlos.
Erste Konstruktionsschritte eines Tests
 Eingrenzung des zu erfassenden Merkmals
 Literatursammlung
 Erstellen eines Modells, wann und wie sich das Merkmal im Verhalten äußert:
Wichtig ist die Erscheinungsform des Merkmals, also qualitativer (homogenes vs. heterogenes
Merkmal) und quantitativer (kleine vs. große Varianz) Ausprägungsgrad
 Item-Generierung
- Items operationalisieren Eigenschaften oder Verhaltensweisen von Personen in bestimmten
Situationen, die in direktem oder indirektem Zusammenhang mit dem Merkmal stehen; d.h.
Erscheinungform des Merkmals muss operationalisiert werdeb
- Regeln:
 nur ein Merkmalsinhalt pro Item; keine Vergleichsfragen
 einfache und kurze Sätze; keine Fachbegriffe etc.
 keine Begriffe mit unterschiedlicher Bedeutung
 keine subgruppenspezifischen Wörter
 keine doppelten Verneinungen
 keine Verallgemeinerungen („nie“, „immer“); außer Lügenitems
 keine suggestiven Inhalte
 keine „soziale Erwünschtheit“
 bei Größenangaben etc. Vergleichsmaßstab angeben
 Wichtiges hervorheben
 Itemnummer
 Festlegung des Beantwortungsmodus
- Homomorphe Abbildung: Empirisches Relativ kann durch numerisches Relativ ausgedrückt
werden, wobei das numerische Relativ ein möglichst strukturtreues Abbild des empirischen
Relativs sein sollte
- Existenz- oder Repräsentationsfrage:
Für welche empirische Beobachtung existiert welche numerische Repräsentation?
- Eindeutigkeitsfrage:
Welche Transformationen im empirischen Relativ zulässig? ( Folie 102)
- Deutbarkeitsfrage:
Alles, was unter den zulässigen Transformationen invariant bleibt, kann der Repräsentation
entnommen werden, alles andere bleibt bedeutungslos.
- Konstruktions- bzw. Skalierungsfrage:
Wie konstruiert man die Repräsentation?
 Skalenart und Antwortmodus abhängig vom Untersuchungsgegenstand, Messintention des
Untersuchers, Differenzierungsfähigkeit des Urteilers und vom Messsetting
(Bezugsrahmen der Vp)
 Antwortformen:
(1) Offene Antwortformen (z.B. Wie viele Tage hat die Woche?, Wortdiktate,
Kurzaufsätze)
Vorteile: freie Reproduktion von Wissen möglich; komplexe Aufgaben möglich; „freie
Wirkungsbeschreibung“ bei Antworten, die schwer antizipiert werden
können; qualitative Auswertung möglich; Zufallslösungen nicht möglich
Nachteile: Zeitaufwand (Bearbeitung und Auswertung), Auswertungsobjektivität
4
(2) Geschlossene Antwortformen (z.B. Skala, Multiple Choice, Umordnungsaufgabe)
Spezialfall Likert-Skala: Gleichabständigkeit des Erlebens!
Verbalskalen müssen psychische Quantitäten repräsentieren, daher oberen/unteren
Pol angeben
Vorteile: ökonomisch; Zufall kein Problem, je mehr Antwortalternativen
Nachteile: Aufgabe muss eindeutig beantwortbar sein; Zufallslösungen; bei
Persönlichkeitstest Neigung zu konsistenter Aufgabenbeantwortung;
Nominaldaten; Distraktorengenerierung schwierig; keine Reproduktion,
sondern nur Rekognition von Wissen; evtl. unterschiedliche Auffassungen
der Intervallbreite bei Skalen; anfällig gegen Antworttendenzen
(3) Atypische Antwortformen (z.B. Zahlen verbinden)
 Layout des Testbogens
- Seitenlayout
 übersichtlich, lesbar für leichtes Ausfüllen
 inhaltlich unterschiedlich Abschnitte genau trenne
 gleich große Abstände
 keine Seitenumbrüche innerhalb eines Items
 kein Formatwechsel
 Fragebogen nur einseitig bedrucken
 Datenauswertung sollte direkt vom Blatt aus möglich sein
- Schriftart und –größe
 einheitliche Schrift
 wichtiges hervorheben
- Instruktionsmaterial
 einfach und verständlich
 erste Seite: wie Bearbeitung des Fragebogens
 Beispiel-Item
 Fachausdrücke erläutern
 cover-story
 Hinweis auf Anonymität bei persönlichen Daten
- Identifikationsitems
 z.B. Geschlecht, Alter
 übersichtlich, nur Notwendiges
Itemanalyse
Bestimmung der Testrohwerte
 ohne Zufallskorrektur: Folie 143
 mit Zufallskorrektur: Folie 144
Verteilungsformen
 Normalverteilung:
glockenförmig, symmetrisch, asymptotische Näherung der x-Achse, zwischen einer SD links und
rechts vom Mittelwert liegen 68% der Probanden, zwischen zwei SD links und rechts vom Mittelwert
liegen 95%; 95%>x>68%: auffälliger Wert; x>95% höchst auffällig
 Asymetrische Verteilung
 Bimodale Verteilung
 U-förmige Verteilung
 Schmal-/breitgipflige Verteilung
 Links-/rechtssteile Verteilung
 Abfallende Verteilung
 Geringe SD: schmale Verteilung
 Große SD: breite Verteilung
 Streuung (SD) ähnlich hoch wie Mittelwert: J- oder L-Verteilung (anormale Verhaltensweisen, z.B.
5
Aggressivität)
 Überprüfung der Verteilungsform: Folie 148
Kennwerte zur Aufgabenanalyse und Aufgabenselektion
 Schwierigkeitsindex
- prozentuale Häufigkeit, mit der ein Item richtig (d.h. in Schlüsselrichtung) beantwortet wird
- bei dichotomer Antwort: Folie 152
- bei Mehrfachwahlaufgaben: Folie 153
- Streuung einer Aufgabe abhängig von Schwierigkeit:
SD 
pq
 hohe Aufgabenstreuung bei mittlerer Aufgabenschwierigkeit
 wenn 50 richtig und 50 falsch, dann 50*50=2500 Unterscheidungen zwischen Pb-Paaren
- eine mittlere Aufgabenschwierigkeit begünstigt eine normalverteilte Verteilung (Likert-Skala)
des Merkmals, garantiert diese aber nicht
- daher: mittlere Aufgabenschwierigkeit (d.h. auch ausreichend Merkmalsstreuung) ist
notwendige, aber nicht hinreichende Voraussetzung zur Berechnung von Korrelationen
- extreme Schwierigkeiten eignen sich für Differenzierung in Randbereichen eines Merkmals;
daher bemüht man sich bei Power-Tests (z.B. Intelligenz) um breite Streuung der
Schwierigkeiten  damit aber Einbußen bei Homogenität (Interkorrelation der Items) und
Trennschärfe (Korrelation Item-Skalenwert) wegen geringer Streuung der einzelnen Items 
daher sollte bei „Power-Tests“ die Höhe des Schwierigkeitsindex der einzelnen Aufgaben mit
steigender Aufgabenzahl abnehmen
- Speed-Tests: Schwierigkeitsindex bei allen Aufgaben gleich hoch
 Schwierigkeitsindex eher „Leichtigkeitsindex“, weil umso größer, je mehr Probanden Aufgabe
richtig
 Trennschärfekoeffizient
- Korrelation zwischen Beantwortung eines Items und Summenwert des Gesamttests bzw. der
Skala, zu der das Item gehört
- Eigentrennschärfe: Korrelation eines Items mit Summenwert des Gesamttests bzw. der Skala,
zu der das Item gehört; konvergente Trennschärfe: Item erfasst den gleichen
Merkmalsbereich wie der Gesamttest bzw. die Skala, mit der das Item korreliert wird; hohe
Eigentrennschärfe  hohe Reliabilität des Tests
- Fremdtrennschärfe: Korrelation des Items mit einer Skala des Tests, zu der das Item nicht
gehört, bzw. externen Kriteriumswert; diskriminante Trennschärfe: Item erfasst einen
anderen Merkmalsbereich als Skala bzw. Außenkriterium; niedrige Fremdtrennschärfe 
hohe Validität des Tests
- Trennschärfe trennt „gute“ von „schlechten“ Probanden; negative Trennschärfe: schlechte
Probanden besser als gute; ist die Trennschärfe Null, sind alle Probanden gleich gut/schlecht
- Bei Mehrfachwahlaufgaben müssen die Trennschärfen für Distraktoren berechnet werden; es
wird eine gleichverteilte Wahlhäufigkeit angestrebt, wobei die falschen Antworten nicht mit
der Testleistung hoch korrelieren sollten
- Je nach Datenniveau unterschiedliche Trennschärfekoeffizienten:
Testwert
Item
Datenniveau
Nominalniveau
(echt dichotom)
Nominalniveau
(künstlich dichotom)
Nominalniveau
(echt dichotom)
Punkt-VierfelderKorrelation
Cosinus-Pi-Korrelation
Punktbiseriale
Korrelation
Tetrachorische
Korrelation
Biseriale Korrelation
Nominalniveau
(künstlich dichotom)
Intervallniveau
Folie 179
Intervallniveau
Folie 169+170
Folie 171+172
Folie 173+174+175+176+177+178
Produkt-MomentKorelation
Folie 168
-
Problem der Part-whole-Korrektur: Da Item in Skalenwert selbst mit eingeht, stellt die
unkorrigierte Trennschärfe eine Art Eigenkorrelation dar; daher part-whole-Korrektur 
Folie 181
 je mehr Items, desto weniger Auswirkungen der part-whole-Korrektur
6
 je homogener eine Skala, desto geringere Auswirkungen der part-whole-Korrektur, weil
alle Items relativ gleichen Wert beitragen
- Aufgaben mit mittlerer Schwierigkeit besitzen eine gute Voraussetzung, aber keine Garantie für hohe
Trennschärfen, weil Varianz nahezu maximal
 Validitätskoeffizient
 Homogenitätsindex
7