Testkonstruktion

Theorie psychometrischer
Tests, I
U. Mortensen
Mainz, 2009
Experten versus Tests
Diagnose
Experten
Psychometr. Tests
Professoren,
Lehrer,
Psychiater,
Psychologen
etc
Intelligenztests
Zulassungstest (Medizin,
Management, etc)
Persönlichkeitstests,
etc
Urteile: Wissen,
Erfahrung
Empirisch getestete Gültigkeit
und Zuverlässigkeit
(Lundberg, 1941)
(Sarbin, 1943)
Experten versus Tests
Meehl, 1954
Experten – „Kliniker‘‘
Selbstbild
Fremdbild (Psychometriker)
•bedeutungsvoll,
•holistisch, subtil,
•konfigural,
•einfühlsam, tief,
•echt,
•dynamisch, global,
•lebensnah,
•mystisch, transzendent
•metaphysisch
•unzuverlässig, grob
•unverifizierbar
•vorwissenschaftlich
•unkontrolliert
•wirrköpfig
Experten versus Tests
Meehl, 1954
Psychometriker- „Mechaniker“
Selbstbild
•operational
•kommunizierbar, objektiv
•verifizierbar
•präzise, zuverlässig
•wissenschaftlich
Fremdbild (Klinker)
•mechanisch
•atomistisch, additiv
•künstlich
•fraktioniert, trivial
•übersimplifiziert
•pseudowissenschaftlich
•pedantisch
Experten versus Tests
Empirische Befunde
Meehl (1986): Alle Studien sprechen für den
psychometrischen, nicht für den „verstehenden Ansatz“ der
Experten
(Experten: zwischen 50% und 65% korrekt,
Psychometriker: 75% bis über 90% korrekt)
Dawes (1996): Weitere Studien mit gleichem Befund; Rolle
insbesondere psychoanalytisch orientierter Therapeuten,
medizinische Prognosen, etc
Beispiel: Texas Medical School
Experten versus Tests
Gründe für Expertenversagen:
Situative Faktoren (Müdigkeit, Veränderung der
Konzeptualisierung = Reduktion der Zuverlässigkeit)
Mangelnde Validität aufgrund mangelnder Rückkopplung, dh es
findet kein Lernen statt
Konfirmatorischer Bias (widersprechende Informationen werden
nicht zur Kenntnis genommen)
Sich selbst erfüllende Prophezeiungen:
Gewalttäter - Todesstrafe – tobt in der Zelle
Experten versus Tests
Gründe für Expertenversagen:
Repräsentativität: (Kahnemann & Tversky, 1974)
Mann sei scheu, zurückgezogen, Neigung zu Ordnung und Detail:
Ist er Bauer, Handelsvertreter, Pilot, Bibliothekar, Arzt?
Häufigste Antwort: Bibliothekar.
Experten versus Tests
Gründe für Expertenversagen:
Verhalten erscheint vorhersagbar, nachdem es eingetreten ist, - aber
nicht vorher! Daher subjektive (Pseudo-)Konsistenz der eigenen
Urteile, - Erfahrung wird nicht vermehrt!
Experten und mangelnde Repräsentativität der Population, aus der
Erfahrung gewonnen wird:
Jugendliche Delinquenten und „abweichende EEG-Muster“ – also
abweichendes EEG-Muster impliziert Neigung zur Delinquenz.
Aber: nicht-delinquente Jugendliche haben ebenso häufig
abweichene EEG-Muster!
Experten versus Tests
Gründe für Expertenversagen:
Grundquotentäuschung (base rate fallacy):
P( A)
P( A | B)  P( B | A)
P( B)
P( A), P( B)
Grundquoten (base rates)
Brustkrebs  Risikogewebe  Risikogewebe  Brustkrebs
Experten versus Tests
Gründe für Expertenversagen:
Verfügbarkeit (Avaliability)
Wahrscheinlichkeit, mit der eine Person ein Merkmal hat, wird
nach Maßgabe der Personen mit diesem Merkmal, die man im
Gedächtnis hat, abgeschätzt.
Merkmale mit großer Salienz (Herzinfarkte) werden besser
erinnert als Merkmale mit geringer Salienz.
Aufgabentypen
1. Frage
2. Feststellung
3. Bild
Antwortformat:
1. Offen
2. Dichotom/polynom
3. Schätz-(Rating-)Skala
4. Multiple choice
Ziel: möglichst 1-deutige Rückschlüsse auf Merkmal
ermöglichen!
Grundbegriffe der Testtheorie
Objektivität: verschiedene Testleiter kommen zur gleichen
Bewertung; hohe Korrelation zwischen verschiedenen Testleitern.
Reliabilität: Zuverlässigkeit – die Genauigkeit, mit der ein Merkmal
gemessen wird.
Validität: Gültigkeit – der Test erfasst das Merkmal, das er
erfassen soll.
Trennschärfe: der Test differenziert zwischen Personen, die
sich durch die Merkmalsausprägung unterscheiden.
Grundbegriffe der Testtheorie
Schwierigkeit: Ein Test oder Item ist schwierig bzw leicht,
wenn die Beantwortung eine hohe oder geringe
Merkmalsausprägung voraussetzt.
Homogenität/Heterogenität:
Die Items eines Tests sind
homogen, wenn sie alle nur ein Merkmal erfassen, andernfalls sind
sie heterogen.
Psychometrische Tests
Testtheorien
Score
Klassische
Testtheorie
Probabilistische
Testtheorie
X a  Ta  ea
P(Antwort| a )  f ( g , a )
wahrer
Wert
Fehler
Item- Schwierigkeit
characteristicfunction
Fähigkeit
Klassische Testtheorie
(Messfehlertheorie)
Item I g  Punktwert (Score) -tea Person x
ag
n
Testscore a-te Person: X a   ag xag  Ta   a
g 1
n
E ( X g )   ag E ( xag )  Ta
g 1
 a  X a  Ta
Gewichte
Wahrer Wert
Fehler
Klassische Testtheorie (KTT)
Beispiele:
n ist konstant, pag  pa für alle g,
Items werden unabhängig voneinander beantwortet:
Ta  npa (Erwartungswert Binomialverteilung)
xag  1, Item gelöst oder bejaht
xag  0, Item nicht gelöst oder verneint
E ( xag )  pag 1  (1  pag )0  pag
n ist zufällig (adaptives Testen)
pag  pa eine Konstante 
Ta  ?
Klassische Testtheorie (KTT)
Schwierigkeit einer Aufgabe:
Anteil bzw. Prozentsatz der Probanden, die die Aufgabe lösen
bzw. beantworten.
Problem: die Schwierigkeit ist abhängig von der Population, bei
der der Test administriert wird, d.h.
Der Vergleich von Probanden aus verschiedenen Populationen ist
schwierig, wenn nicht unmöglich.
Probabilistische Testtheorie
(Item-Response-Theorie, IRT)
Ziel: Personenparameter und Itemparameter (= Schwierigkeit)
sollen unabhängig voneinander bestimmt werden.
Die Schwierigkeit ist ein Merkmal eines Items, unabhängig von den
getesteten Personen, der Personenparameter ist unabhängig von
den im Test verwendeten Items.
Die Bezeichnung ‚Probabilistische Testtheorie‘ ist insofern
irreführend, als auch die KTT probabilistisch ist, - der Score ist ja
mit einem zufälligen Fehler behaftet.
Monotone Itemfunktionen
Spezialfall:
deterministisches
Antwortverhalten
(Guttman-Skalen)
Allgemeiner Fall:
Probabilistisches
Anwortverhalten