Theorie psychometrischer Tests, I U. Mortensen Mainz, 2009 Experten versus Tests Diagnose Experten Psychometr. Tests Professoren, Lehrer, Psychiater, Psychologen etc Intelligenztests Zulassungstest (Medizin, Management, etc) Persönlichkeitstests, etc Urteile: Wissen, Erfahrung Empirisch getestete Gültigkeit und Zuverlässigkeit (Lundberg, 1941) (Sarbin, 1943) Experten versus Tests Meehl, 1954 Experten – „Kliniker‘‘ Selbstbild Fremdbild (Psychometriker) •bedeutungsvoll, •holistisch, subtil, •konfigural, •einfühlsam, tief, •echt, •dynamisch, global, •lebensnah, •mystisch, transzendent •metaphysisch •unzuverlässig, grob •unverifizierbar •vorwissenschaftlich •unkontrolliert •wirrköpfig Experten versus Tests Meehl, 1954 Psychometriker- „Mechaniker“ Selbstbild •operational •kommunizierbar, objektiv •verifizierbar •präzise, zuverlässig •wissenschaftlich Fremdbild (Klinker) •mechanisch •atomistisch, additiv •künstlich •fraktioniert, trivial •übersimplifiziert •pseudowissenschaftlich •pedantisch Experten versus Tests Empirische Befunde Meehl (1986): Alle Studien sprechen für den psychometrischen, nicht für den „verstehenden Ansatz“ der Experten (Experten: zwischen 50% und 65% korrekt, Psychometriker: 75% bis über 90% korrekt) Dawes (1996): Weitere Studien mit gleichem Befund; Rolle insbesondere psychoanalytisch orientierter Therapeuten, medizinische Prognosen, etc Beispiel: Texas Medical School Experten versus Tests Gründe für Expertenversagen: Situative Faktoren (Müdigkeit, Veränderung der Konzeptualisierung = Reduktion der Zuverlässigkeit) Mangelnde Validität aufgrund mangelnder Rückkopplung, dh es findet kein Lernen statt Konfirmatorischer Bias (widersprechende Informationen werden nicht zur Kenntnis genommen) Sich selbst erfüllende Prophezeiungen: Gewalttäter - Todesstrafe – tobt in der Zelle Experten versus Tests Gründe für Expertenversagen: Repräsentativität: (Kahnemann & Tversky, 1974) Mann sei scheu, zurückgezogen, Neigung zu Ordnung und Detail: Ist er Bauer, Handelsvertreter, Pilot, Bibliothekar, Arzt? Häufigste Antwort: Bibliothekar. Experten versus Tests Gründe für Expertenversagen: Verhalten erscheint vorhersagbar, nachdem es eingetreten ist, - aber nicht vorher! Daher subjektive (Pseudo-)Konsistenz der eigenen Urteile, - Erfahrung wird nicht vermehrt! Experten und mangelnde Repräsentativität der Population, aus der Erfahrung gewonnen wird: Jugendliche Delinquenten und „abweichende EEG-Muster“ – also abweichendes EEG-Muster impliziert Neigung zur Delinquenz. Aber: nicht-delinquente Jugendliche haben ebenso häufig abweichene EEG-Muster! Experten versus Tests Gründe für Expertenversagen: Grundquotentäuschung (base rate fallacy): P( A) P( A | B) P( B | A) P( B) P( A), P( B) Grundquoten (base rates) Brustkrebs Risikogewebe Risikogewebe Brustkrebs Experten versus Tests Gründe für Expertenversagen: Verfügbarkeit (Avaliability) Wahrscheinlichkeit, mit der eine Person ein Merkmal hat, wird nach Maßgabe der Personen mit diesem Merkmal, die man im Gedächtnis hat, abgeschätzt. Merkmale mit großer Salienz (Herzinfarkte) werden besser erinnert als Merkmale mit geringer Salienz. Aufgabentypen 1. Frage 2. Feststellung 3. Bild Antwortformat: 1. Offen 2. Dichotom/polynom 3. Schätz-(Rating-)Skala 4. Multiple choice Ziel: möglichst 1-deutige Rückschlüsse auf Merkmal ermöglichen! Grundbegriffe der Testtheorie Objektivität: verschiedene Testleiter kommen zur gleichen Bewertung; hohe Korrelation zwischen verschiedenen Testleitern. Reliabilität: Zuverlässigkeit – die Genauigkeit, mit der ein Merkmal gemessen wird. Validität: Gültigkeit – der Test erfasst das Merkmal, das er erfassen soll. Trennschärfe: der Test differenziert zwischen Personen, die sich durch die Merkmalsausprägung unterscheiden. Grundbegriffe der Testtheorie Schwierigkeit: Ein Test oder Item ist schwierig bzw leicht, wenn die Beantwortung eine hohe oder geringe Merkmalsausprägung voraussetzt. Homogenität/Heterogenität: Die Items eines Tests sind homogen, wenn sie alle nur ein Merkmal erfassen, andernfalls sind sie heterogen. Psychometrische Tests Testtheorien Score Klassische Testtheorie Probabilistische Testtheorie X a Ta ea P(Antwort| a ) f ( g , a ) wahrer Wert Fehler Item- Schwierigkeit characteristicfunction Fähigkeit Klassische Testtheorie (Messfehlertheorie) Item I g Punktwert (Score) -tea Person x ag n Testscore a-te Person: X a ag xag Ta a g 1 n E ( X g ) ag E ( xag ) Ta g 1 a X a Ta Gewichte Wahrer Wert Fehler Klassische Testtheorie (KTT) Beispiele: n ist konstant, pag pa für alle g, Items werden unabhängig voneinander beantwortet: Ta npa (Erwartungswert Binomialverteilung) xag 1, Item gelöst oder bejaht xag 0, Item nicht gelöst oder verneint E ( xag ) pag 1 (1 pag )0 pag n ist zufällig (adaptives Testen) pag pa eine Konstante Ta ? Klassische Testtheorie (KTT) Schwierigkeit einer Aufgabe: Anteil bzw. Prozentsatz der Probanden, die die Aufgabe lösen bzw. beantworten. Problem: die Schwierigkeit ist abhängig von der Population, bei der der Test administriert wird, d.h. Der Vergleich von Probanden aus verschiedenen Populationen ist schwierig, wenn nicht unmöglich. Probabilistische Testtheorie (Item-Response-Theorie, IRT) Ziel: Personenparameter und Itemparameter (= Schwierigkeit) sollen unabhängig voneinander bestimmt werden. Die Schwierigkeit ist ein Merkmal eines Items, unabhängig von den getesteten Personen, der Personenparameter ist unabhängig von den im Test verwendeten Items. Die Bezeichnung ‚Probabilistische Testtheorie‘ ist insofern irreführend, als auch die KTT probabilistisch ist, - der Score ist ja mit einem zufälligen Fehler behaftet. Monotone Itemfunktionen Spezialfall: deterministisches Antwortverhalten (Guttman-Skalen) Allgemeiner Fall: Probabilistisches Anwortverhalten