Merksätze, Fazits und Definitionen aus Amelang und Schmidt-Atzert Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer jeweils relevanten Bedingungen so zu erfassen, dass präzise Vorhersagen künftigen Verhaltens und Erlebens sowie deren eventuellen Veränderungen in definierten Situationen möglich werden. Eigenschaftsdiagnostik = Sign Ansätze = Prinzip des Analogieschlusses Selektionsdiagnostik ist normorientierte Statusdiagnostik zur Schätzung des Ausprägungsgrades von Eigenschaften Verhaltenstheoretische Ansätze = Sample Ansätze = Prinzip des Induktionsschlusses Inhaltsvalidität ist wichtig The best predictor of future performance is past performance Die Persönlichkeit ist lediglich eine intervenierende Variable, die definiert ist durch die Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer Reihe von Situationen ihres täglichen Lebens manifestiert. Modifikationsdiagnostik ist kriteriumsorientierte Prozessdiagnostik, da von einer situativen Bedingung des Verhaltens ausgegangen wird. Standardisierung = Striktes Konstanthalten der Durchführungsbedingungen, um die Messwerte aus diagnostischen Verfahren intra- und interindividuell vergleichen zu können. Differenzierung = Gestaltung des Tests und dessen Durchführungsbedingungen, so dass sie im diagnostischen interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden können. Objektivität und Reliabilität = Die zwischen den Merkmalsträgern auftretende Variation ist nur dann diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau zu registrieren sind. Stabilität = Das Bestehenbleiben einer Merkmalsvariation über die Zeit, als Aspekt der Reliabilität. Validierung = Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar, weitere von der Testung unabhängige Informationen über dasjenige einzuholen, was der Test zu messen vorgibt. KTT = Messfehlertheorie Reliabilität =Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte. Reliabilitätsindex = Die Validität kann maximal die Wurzel aus der Reliabilität betragen. Höhere Koeffizienten müssten auf Artefakten beruhen. Standardmessfehler = derjenige Anteil an der Streuung eines Tests, der zu Lasten der Zuverlässigkeit geht (Unreliabilität des Tests aufgrund des Fehlers) Dargestellt als Erwartungsbereich oder Mutungsintervall = Streuung der testwerte um den wahren Wert = Konfidenzintervall (CI) Berechnung über den Standardmessfehler. Den Axiomen der KTT zufolge überlagern Fehlerkomponenten die wahren Werte. Bei wiederholter Testung ein und desselben Probanden mit einem bestimmten Test und der einmaligen Untersuchung vieler Probanden mit einem Verfahren mitteln sich die Fehlerwerte zu Null (Erhöhung der Reliabilität). Der wahre Wert und der Fehlerwert sind prinzipiell unkorreliert, da der Fehler zufällig und unsystematisch ist und somit keinen systematischen Zusammenhang zum wahren Wert bzw. zum Merkmal haben kann. Die Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird gleichsam die Minderung korrigiert, der Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierten Messwerte fehlerbehaftet sind. Bei der einfachen wird die Reliabilität von Test oder Kriterium korrigiert. Aus der Annahme unkorrelierter Fehler folgt ebenfalls, dass die Korrelation zweier messfehlerbehafteter Variablen gemindert wird. Der einfach minderungskorrigierte Validitätskoeffizient entspricht derjenigen Validität, die der Test haben müsste, wenn entweder Test oder Kriterium absolut zuverlässig wären. Doppelte Minderungskorrektur: die Reliabilität von Test und Kriterium werden korrigiert. Der doppelt minderungskorrigierte Validitätskoeffizient steht für jene Validität, die sich errechnen würde, wenn Test und Kriterium maximal zuverlässig wären. Verdünnungsparadox: Je niedriger der empirisch ermittelte Reliabilitätskoeffizient, desto stärker fällt die Minderungskorrektur aus (rechnerisch: da der Reliabilitätskoeffizient im Nenner steht, wird, je kleiner er ist, das Ergebnis größer) Testverlängerung kann die Reliabilität erhöhen (empirisch belegt). Testverlängerung und-verkürzung durch Faktor k in der Spearman-Brown-Formel Die Varianz von individuell summierten Werten ergibt sich aus der Summe der Einzelvarianzen der Werte und 2mal der Kovarianz zwischen den Messwertreihen. Eine Testverdoppelung in Einheiten von homogenen Aufgaben führt also zu einer Vervierfachung der wahren Varianz. Da die Messfehler aus den beiden Testhälften per definitionem zu Null korrelieren (keine Kovarianz), wird die Fehlervarianz bei Testverdoppelung nur verdoppelt, was dann wiederum zu einer höheren Reliabilität führt. Stichprobenfehler des Mittelwertes (Synonym zu Standardmessfehler) = Bereich, in dem bei zufälliger Ziehung von Stichproben aus einer Grundgesamtheit deren Mittelwerte variieren, nämlich M +/- s Er bestimmt die Streuung der Stichprobenmittelwerte um den Mittelwert der Mittelwerte. Ebenso kann die Fehlervarianz für die Differenz von Stichprobenmittelwerten berechnet werden. Kritik an der KTT: 1) Fehlende messtheoretische Grundlagen (fehlen empirischer Nachweise für die Annahmen der KTT, nicht überprüfbar; Unkorreliertheit der Messfehler kann falsch sein) 2) Stichprobenabhängigkeit der Kennwerte (Messfehler können stichprobenabhängig sein) 3) Fehlender Nachweis der Eindimensionalität (Annahme der Eindimensionalität: alle Items messen dasselbe Konstrukt, ist ungeprüft vorausgesetzt) IRT = Probabilistische; Item-Response-Theorie Bei den manifesten Variablen handelt es sich um das beobachtbare Antwortverhalten auf verschiedene Testitems. Bei den latenten Variablen hingegen um nicht beobachtbare dahinterliegende Fähigkeiten oder Dispositionen, von welchen das manifeste Verhalten als abhängig angesehen wird. Itemhomogenität: Alle Items interkorrelieren, wenn sie Manifestationen/ Indikatoren ein- und derselben latenten Dimension sind. Lokale stochastische Unabhängigkeit ist die Voraussetzung für Itemhomogenität, d.h. wenn man die latente Dimension auf einer lokalen Stufen (bei einem Parameter) auf einem Wert konstant hält verschwinden die Korrelationen zwischen den Items und es zeigt sich lokale stochastische Unabhängigkeit. Man überprüft folglich mit der lokalen stochastischen Unabhängigkeit die Itemhomogenität eines Verfahrens. Testitems welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen, bezeichnet man auch als Indikatoren der latenten Variable. Itemcharakteristische Funktionen (IC-Funktionen): Funktionen des manifesten Antwortverhaltens auf Testitems in Abhängigkeit von den latenten Traits Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die Item- und Personenparameter vollständig bestimmt wird. z.B. Skalogramm Modell von Guttman Person, die auf Item x positiv reagiert, hat auf alle vorherigen auch positiv reagiert, Person, die auf Item y negativ reagiert, wird auf alle folgenden auch negativ reagieren = Guttman-Homogenität Die Lösungswahrscheinlichkeit steigt für jedes Item an bestimmter Stelle der latenten Variable von 0 auf 1. Probabilistische Modelle hingegen nehmen eine stochastische Beziehung zwischen dem Antwortverhalten des Probanden und den Personen- und Itemparametern an. Monoton steigende oder auch logistische Funktionen, bei denen das Antwortverhalten in Abhängigkeit von Personen-, Itemschwierigkeits- und Itemdiskriminationsparameter ansteigt. z.B. Birnbaum-Modell (mit verschiedenen Steigungen) Guttman und Birnbaum Modell sind Vorläufer des Raschmodells und anderen Latent-Trait Modellen, sie verfügen nicht über lokale stochastische Unabhängigkeit. Als Rasch Modelle bezeichnet man eine Gruppe von probabilistischen Latent-Trait-Modellen, welche neben der lokalen stochastischen Unabhängigkeit über weitere vorteilhafte Modelleigenschaften verfügen: erschöpfende Statistiken, Stichprobenunabhängigkeit der Parameterschätzungen und die spezifische Objektivität der Vergleiche. Beim Rasch-Modell wird der Itemdiskriminationsparameter (als lokale Stufe) auf dem Wert 1 konstant gehalten, um Itemhomogenität herzustellen und was auch die Steigung gleich bleiben lässt. Dichotome Rasch-Modelle für dichtotomes Anwortformat (Ja/ Nein, o.ä.) der Items. Zur Parameterbestimmung und Überprüfung des Modells, werden Daten aller Personen in einer Matrix abgetragen (=Stichprobe), Items in die Spalten, Personen in die Zeilen. Die Zeilensummenscores = erschöpfende Statistik für Personenparameter Die Spaltensummenscores = erschöpfende Statistik für Schwierigkeitsparameter Schätzungsprozeduren/ Parameterschätzung: Bei Modellkonformität ist es für die Schätzung der Parameter gleichgültig, welche Items von welchen Personen gelöst werden, entscheidend ist nur die Anzahl. Likelihoodfunktion = Modelltest = Wahrscheinlichkeit aller beobachtbaren Daten (wie oft ein Item gelöst wurde) Separierbarkeit der Parameter = man braucht nicht alle Parameter, sondern kann sie unabhängig voneinander schätzen Conditional Maximum-Likelihood-Methode (CML-Methode) = Methode zur Schätzung der Itemparameter nach maximalen Maßstäben (per PC) Stichprobenunabhängigkeit der Parameterschätzungen beim Rasch-Modell: Man kann Itemparameter schätzen ohne den Personenparameter zu kennen und ohne Annahmen über deren Verteilung treffen zu müssen. Empirische Modelltests: Test mit Substichproben, die nach Kriterien (Alter, Geschlecht o.ä.) unterteilt werden = bei Modellkonformität nur geringe oder keine Abweichungen in den Itemparametern Graphischer Modelltest = Gerade mit 2 Itemparameterschätzungen, je geringer die Streuung, desto größer die Stichprobenunabhängigkeit bzw. die Rasch-Homogenität Likelihood-Quotienten-Test: Signifikanzprüfung der Unterschiedlichkeit von 2 separaten CMLSchätzungen (H0 = kein Unterschied = Modellkonformität) Personenselektion = Aussortieren von Personen mit bestimmten Antwortmustern, die das Modell ungültig machen (Akquieszenz, Raten etc.) Person-fit-indices = Indizes zur Testung ob Person sich modellkonform verhält, niedrige person-fitindices veranlassen dazu den Test nicht zu interpretieren oder das Ergebnis differentiell zu nutzen (Person mit besonderer Begabung oder Defizienz) Spezifische Objektivität der Vergleiche = der Schwierigkeitsunterschied zweier Items (σi – σj) kann unabhängig von Personen mit hohen oder niedrigen Merkmalsausprägungen untersucht werden, so wie Unterschiede zwischen Personen (ξv – ξw) unabhängig vom Item untersucht werden können. Bei Modellkonformität: Bei IC-Funktion weisen alle Items die gleiche Form auf und sind lediglich entlang der ξ–Achse parallel verschoben. Iteminformationsfunktion = Funktion über die Steigung eines raschhomogenen Items, die in Abhängigkeit von der Differenz zwischen Fähigkeit und Itemschwierigkeit variiert. Steil bei hohen Lösungsunterschieden, flach bei niedrigen Lösungsunterschieden. Adaptives Testen: Zur Steigerung der Testökonomie werden bei einzelnen Pbn nur diejenigen Testitems angewendet, die für das Fähigkeitsniveau des Pbn eine hohe Messgenauigkeit/ Iteminformation aufweisen. Polytome Latent-Trait-Modelle: für Items mit mehrkategoriellen Antwortformaten oder Rangskalen. Jede Kategorie (bis auf eine Referenzkategorie) bekommt dann eigene Personen- und Itemparameter. Bei 4 Kategorien, 4 Iteminformationsfunktionen Latent-Class-Modelle (LCM): Während die latenten Variablen in Latent-Trait-Modellen stets als kontinuierlich oder quantitativ angenommen werden, beruhen Latent-Class-Modell auf der Annahme qualitativer Variablen zur Charakterisierung von Personenunterschieden Mixed-Rasch-Modell/ Mischverteilungsmodelle: Wenn verschiedene Substichproben mit eigenen Itemparametern gebildet werden müssen. Dann wird nur in bestimmten latenten Klassen RaschHomogenität angenommen und man hat klassenspezifische Itemcharakteristiken. Linear-logistische Modelle/ Linear-logistisches Testmodell = Erweiterung zu dichotomen RaschModell: Idee, Itemparameter in IRT-Modellen näher zu erklären, indem sie als Linearkombinationen einer geringen Anzahl von Basisparametern (z.B. Schwierigkeit kognitiver Operationen zum Lösen der Items, Strategien zur Lösung usw.) aufgefasst werden. Besondere Eignung der IRT-Modelle zur Veränderungsmessung, da die Itemparameter gleich bleiben und somit Veränderung das Produkt der Veränderung im Personenparameter sind. Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die Position einer Person in Relation zu einer Vergleichsnorm, sondern das Erreichen oder Verfehlen eines konkreten Kriteriums ermitteln wollen. Probleme kriteriumsorientierter Tests: - Generierung inhaltsvalider Itemmengen (Testaufgaben als bestmögliches Kriterium und repräsentative Stichprobe) - Setzung sachgerechter Kriterien (Kriterien als Normwerte müssen sachlich gerechtfertigt und realitätsangemessen sein) - Zufallskritische Zuordnung von Pbn in die Klassen der Könner und Nichtkönner (Trennwerte zur Klassifikation, Festlegung von Irrtumswahrscheinlichkeiten; Binomialmodell: stochastische Unabhängigkeit der Aufgabenlösung; Reliabilitätsberechnung nach KuderRichardson-Formel 21 aus Mittelwert, Streuung und Itemanzahl) Rationale bzw. deduktive Konstruktionsstrategien = Konstruktion eines Tests nach Vorliegen einer Theorie zur Beschreibung von Verhalten =theoriegeleitet (z.B. HAWIK oder Manifest Anxiety Scale MAS und projektive Verfahren) Projektive Verfahren: Das Wesen eines projektiven Verfahrens liegt darin, dass es etwas hervorruft, was auf verschiedene Art Ausdruck der Eigenwelt des Persönlichkeitsprozesses der Versuchsperson ist. + Ökonomie und Kommunizierbarkeit gut Externale oder kriteriumsbezogene Skalenkonstruktion = beruhen auf dem Vorliegen verschiedener Personengruppen zwischen denen empirisch diskriminiert werden soll (Psychisch kranke vs. Gesunde z.B.); breit gefächerte Items, Items die gut diskriminieren: Kreuzvalidierung! werden zu Skalen zusammengestellt; Inhaltliche Interpretation unzulässig, nur auf Gruppenebene (z.B. Staffeltest von Binet oder Minnesota Multiphasic Personality Inventory MMPI) + geringe Verfälschbarkeit - geringe interne Konsistenz, besser Retestreliabilität messen Induktive bzw. faktorielle Konstruktionsprinzipien = blindanalytische Skalenbildung aus Items, die hoch interkorrelieren Hohe Korrelationen der Items innerhalb von einer Skala =interne Konsistenz oder Homogenität Niedrige Korrelationen zu Items anderer Skalen = Einfachstruktur Dann zeigt sich ein Faktorenanalytisches Ladungsmuster (z.B. primary mental abilities von Thurstone oder NEO-FFI, Freiburger Persönlichkeitsinventar FPI) Prototypenansatz = Skalenkonstruktion nach Prototypizität von Items (Rosen und Tulpen sind Prototypen von Blumen), diese kann beurteilerübergreifend valide gemessen werden. Auch auf Verhalten oder Persönlichkeitseigenschaften übertragbar, die prototypisch für übergeordnete Kategorien sind. Act Frequency Approach = Handlungs-Häufigkeitsansatz zur Messung der Prototypizität von Traits an Probanden (nennen Traits und prototypische Situationen, andere Schätzen die Prototypizität dieser Traits für die Merkmalsdimensionen ein (hoch vs. niedrig), dann wieder Vorlage der Pbn mit Frage wie oft sie dieses Verhalten zeigen, Fragen mit hoher Prototypizität korrelierten höher miteinander) Speedtests sind dadurch definiert, dass bei unbegrenzter Zeitvorgabe alle Items von allen Probanden gelöst werden, d.h. der Schwierigkeitsgrad konvergiert dann gegen Null: Die Differenzierung zwischen den Pbn erfolgt über die Zeitbegrenzung. Niveautests sind dadurch definiert, dass auch bei unbegrenzter Zeit von keinem Testteilnehmer alle Aufgaben richtig gelöst werden. Damit wird primär das intellektuelle Niveau oder die Denkkraft/ Power ermittelt. Homogenität = Ausmaß indem Items dasselbe Merkmal messen, interkorrelieren. Nur bei hoher Homogenität hohe Interkorrelationen und hohe Trennschärfe. Trennschärfe = Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das Item gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Pbn in Löser und Nichtlöser durch das eine Item passiert, im Gegensatz zur Differenzierung durch die Skala (Grad dessen, was das Item im Gegensatz zur Skala erfasst) Die Summe der Skala nennt man hier auch Binnenkriterium. Die diskriminante Trennschärfe sollte gering sein (Korrelation mit anderen Skalen). Die konvergente, wie oben beschrieben, sollte hoch sein Schwierigkeit(sindex) = relative Häufigkeit von Pbn, die auf ein Item im Sinne des untersuchten Merkmals reagieren (richtige Lösung oder Antwort die indikativ für ein Merkmal ist) Diskriminationskraft von Items = höhere Streuungen zwischen Antworten auf das Item Umgekehrt u-förmige Beziehung zwischen Trennschärfe und Schwierigkeit: Bei mittlerer Schwierigkeit (P = 50) höchste Differenzierungskraft und Begünstigung von Homogenität und Trennschärfe (denn je höher die Streuung, desto höher die Korrelationen, desto höher die Differenzierungskraft) Extreme Schwierigkeiten (sehr niedrig vs. sehr hoch) gute Differenzierung in Randbereichen aber mit hohen Korrelationen unvereinbar, wenn Items unterschiedliche Schwierigkeit haben. Deshalb bei unterschiedlicher Schwierigkeit Einbußen an Homogenität und Trennschärfe. Durch die Berechnung der Trennschärfe wird das Item auch mit sich selbst korreliert, da es ja in der Skalensumme auch enthalten ist, dadurch entsteht eine algebraische Abhängigkeit, dies muss durch eine Part-Whole-Korrektur bereinigt werden. Generell wirkt sich die Part-whole-Korrektur umso geringer aus, je… … größer die Anzahl von Items (weil dann der Beitrag jedes einzelnen Items relativ zur Skala geringer wird) … homogener die Skala (weil dann der Beitrag jedes einzelnen Items relativ zu den anderen Items, die etwas Ähnliches erfassen, kleiner wird) Maximale Stabilität bei maximaler Trennschärfe und maximaler Aufgabenstreuung (Produkt). Bei Auswahl von Testitems für Test, gilt: - Items mit niedriger Trennschärfe aussortieren, selbst wenn Schwierigkeit optimal und umgekehrt - Items mit hoher Trennschärfe beibehalten, selbst bei extrem niedrigen oder hohen Schwierigkeiten Selektionskennwert wählt zugunsten hoher Trennschärfen und extremen Schwierigkeiten Homogenität der KTT = Ausmaß formaler und inhaltlicher Einheitlichkeit (homogene Skalen meist bei induktiven und deduktiven Konstruktionen: z.B. d2, KLT-R) Heterogenität gemäß der KTT = formale und inhaltliche Vielgestaltigkeit der Items, zur Messung globaler Dimensionen (heterogene Skalen meist bei externaler Konstruktion z.B. Allgemeine Intelligenz von Binet o. Wechsler, Temperamentsmessungen u. Eysenck Personality Inventory EPI) Homogenität lässt sich auch über Varianzen ermittel, denn homogene Tests haben höhere Varianzen als heterogene Tests. Gütekriterien von Test: 1. Testgrundlage (im Manual) a) Diagnostische Zielsetzung (Beitrag des Tests zur diagnostischen Entscheidung; für Forschungszwecke oder für Einzelfalldiagnostik?) b) Theoretische Grundlagen (Theorien und wissenschaftliche Befunde) c) Nachvollziehbarkeit der Testkonstruktion (Arbeitsschritte der Testerstellung) 2. Testdurchführung a) Durchführungsobjektivität (unabhängig von Testleiter, Instruktion o.a. Durchführungsbedingungen) b) Transparenz (Verständlichkeit der Testspezifität, Messfkt. Und Auswertung) c) Zumutbarkeit (Beanspruchung in zeitlicher, psychischer und körperlicher Hinsicht) d) Verfälschbarkeit (ermöglicht der Test die individuelle Kontrolle über Art und Inhalt der verlangten Informationen) e) Störanfälligkeit (Unempfindlichkeit ggü. aktuellen Zuständen und situativen Faktoren) 3. Testverwertung a) Auswertungsobjektivität (unabhängig von personenbedingten oder apparativen Störquellen) b) Zuverlässigkeit (Reliabilität/ Messgenauigkeit: Stabilität, Äquivalenz, interne Konsistenz) c) d) e) f) Gültigkeit ( Konstrukt-, Inhalts- und Kriteriumsvalidität) Normierung (Ausmaß und Qualität) Bandbreite (Enge oder Vielfalt ggü. Fragestellungen, Gruppen oder Prognosezeiträumen) Informationsausschöpfung (Menge und Qualität der Indikatoren bzgl. Zielen, Anlässen oder Probandengruppen) g) Änderungssensitivität (Ja/Nein ? Zeitreihenanalyse?) 4. Testevaluation (für die Praxis) a) Ökonomie (bzgl. Durchführung, Auswertung und Anschaffung, kostengünstig?) b) Fairness (Diskriminierungen? Ggü. : ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen bei Kriteriumswerten) c) Akzeptanz (Meinungen, Bewertung und gesellschaftspolit. Überzeugungen gegen den Test) d) Vergleichbarkeit (Übereinstimmung oder Abweichungen zu anderen Verfahren; Sonderstellung, Novität?) e) Bewährung (Systematische Aufarbeitung der Bewährung, Erfahrungen mit Personengruppen und Zielen) 5. Äußere Testgestaltung (Verständlichkeit des Manuals, probandenfreundliche Gestaltung der Materialien, kohärente/ wahrheitsgemäße Werbung) Durchführungsobjektivität wird erreicht durch: - Standardisierung der Testsituation (identisches Tesmaterial, Zeitangaben, Regeln, Reaktionen auf Nachfragen oder Störungen usw.) - Minimalisierung der sozialen Interaktion zw. Testleiter und Proband Auswertungsobjektivität: - Durch festgelegte Kriterien - Höheres Auswertungsobjektivität bei gebundenen Antwortformaten (multiple Choice, Likert-Skala o.ä.) - Bei ungebundenem Antwortformat (offene Fragen) sollte man Beispielantworten für richtige Lösungen im Manual vorfinden (aber natürlicherweise lückenhaft) Reliabilität ist Messgenauigkeit unabhängig davon ob gemessen wird, was intendiert war. Arten der Reliabilitätsmessung: 1) Testwiederholungsreliabilität (Retest) 2) Paralleltestreliabilität 3) Testhalbierung/ Split-Half 4) Cronbachs Alpha 5) Konsistenzanalysen Validität ist das Maß an Genauigkeit, mit dem der Test dasjenige Merkmal misst, das er messen soll oder zu messen vorgibt. 1) Inhaltsvalidität (interne) = Grad der Genauigkeit eines Repräsentationsschlusses vom Testverhalten auf dasjenige außerhalb der Testsituation (abhängig von der Genauigkeit der operationalen Definition des Zielkonstrukts) → quantitativ messbar über Beurteilerübereinstimmung (Ü-Koeffizient) →experimentelle Bestimmung: Testgenerierung entsprechend Konstrukt und Regeln des Tests, die 2 Test werden dann 2 Stichproben vorgelegt, Korrelation zwischen den Tests = Maß für Inhaltsvalidität 2) Kriteriumsbezogene Validität (externe) = Grad des Korrelationsschlusses zwischen Testergebnis und Kriterium (Außenkriterium) → experimentell messbar: Pbn werden getestet und eine Korrelation zwischen ihrem Punktwert und dem Kriterium gebildet. →wichtige Einflussfaktoren: Reliabilität des Tests und des Kriteriums → Zulänglichkeit/ Kommunalität = Grad der konzeptuellen Gemeinsamkeit zwischen Test und Kriterium → ein Kriterium wird zum Kriterium wenn es qualifiziert ist: höherer Status als der Test = verlässlicher und entscheidungsrelevanter→ Echtes Kriterium (starke Validierung) → Quasikriterium = nicht höherwertiges Kriterium = Validierung von Gleichem mit Gleichem (z.B. eine Skala, wie bei der Trennschärfe) → Target-Variable = Zielkriterium, welches vorhergesagt werden soll, ungeachtet dessen, ob es einen guten/ inhaltsvaliden Test dafür gibt (Korrelation Skala-Target-Variable = Effektivität = Angemessenheit des Tests für die Vorhersagezweck) schwache Validierung → Bestimmung der kriteriumsbezogenen Validität ist abhängig von Grund- und Selektionsquoten →2 Unterformen der Kriteriumsvalidität: a) Konkurrente/ gleichzeitige/ Übereinstimmungsvalidität Test- und Kriteriumswerte gleichzeitig erhoben; bei signifikanter Korrelation lässt sich die Varianz des Kriteriums als deskriptives oder explikatives Konstrukt auf die Varianz der Testwerte zurückführen oder durch sie erklären b) Prädiktive Validität Testwerte zu t1 und Kriteriumswerte zu t2 erhoben; Möglichkeit der Vorhersage; Prädiktive Validität häufig geringer als konkurrente, da die Pbn zwischenzeitlichen Störeinflüssen unterliegen (Konstanz aller Rahmenbedingungen notwendig) Eingeschränkte Variabilität bei Auslese- und Platzierungsentscheidungen Zur Vermeidung von Fehlerquellen: Erhebung des Prädiktorenscores, dann Treatment, dann Erfolgsraten messen Bei Selektion (keine repräsentative Spannbreite bei Messung des Kriteriums durch DropOut): Einengung der Variabilität im Prädiktor → Minderung des Validitätskoeffizienten Grad der Repräsentativität und Grad der Validitätsminderung lässt sich ermitteln und aufwerten (Voraussetzung: Standardschätzfehler und Steigung der Regressionsgeraden gleich) Eigentliche Kriterien = schwer zu erfassen Aktuelle Kriterien = Indikatoren/ Abbildungen von eigentlichen Kriterien, die aber aktuell erfassbar sind (oft unzulänglich) Drei Beziehungen zwischen aktuellem und eigentlichem Kriterium: 1) Kriteriumskontamination (Eigenständigkeit des aktuellen Kriteriums ggü. dem eigentlichen 2) Kriteriumsrelevanz (Kommunalität/ Überlappung zwischen aktuellem und eigentlichem 3) Kriteriumsdefizienz (vom aktuellen Kriterium nicht erfasste Aspekte des eigentlichen) Probleme auch bei Operationalisierung des Prädiktors: 1) Korrelation mit aktuellem Kriterium aber nicht mit eigentlichem 2) Keine Korrelation mit aktuellem aber mit eigentlichem Kriterium Empirische Validität bezieht sich auf aktuelles Kriterium und besagt somit nichts über Korrelation zwischen Prädiktor und wahrem/ eigentlichem Kriterium 3) Konstruktvalidität = Synthese aus Inhalts- und Kriteriumsvalidität; Einbettung des Konstrukts in andere Konstrukte Validierung als Prozess Analysemethoden: Mittelwertsprüfungen, Cluster- und Faktorenanalyse Multitrait-Multimethod-Analyse (MTMM) Mind. 2 Methoden und 2 Konstrukte notwendig: Hohe Korrelation zwischen den Messungen eines Konstruktes mit mehreren Methoden, geringere Korrelation zwischen Messungen verschiedener Konstrukte mit einer Methode, geringste Korrelation im HeterotraitHeteromethod-Block und die Rangreihe der Korrelationen in den Matrizen muss replizierbar sein (interne Replizierbarkeit der Rangreihe/ gleiche Muster von Traitinterkorrelationen) = konvergente und diskriminante Validität Ein Test ist immer besser als die Zufallsauswahl solange er eine Validität ≥ 0 hat. Selbst bei objektiven, reliablen und validen Tests braucht man einen Bezugsrahmen zur Interpretation der Testscores: Normierung: 1) Äquivalentnormen (Zuordnung zu Zeitabschnitten: Entwicklungs- bzw. Intelligenzalter; Sterns Intelligenzquotient: Intelligenzalter/ Lebensalter * 100) 2) Variabilitäts- oder Abweichungsnormen (Bezug zu Häufigkeitsverteilungen/ Normalverteilung; Standardnormalverteilung (M=0, s=1); Standardwerte = z-Werte, jede andere Verteilung kann in z-Werte umgerechnet und vergleichbar gemacht werden; z.B. Abweichungs-IQ; äquidistante) 3) Prozentrangnormen (Zuordnung als relative Position auf der Rangreihe der Bezugsgruppe; M= 50, 50% der Personen erreichen höheren Wert; 50% gleichen oder niedrigeren; Voraussetzungslosigkeit und leichte Verständlichkeit, nicht äquidistant) Wichtig für Normierung: - Repräsentativität der Normierungs- oder Eichstichprobe (Alter, Schultypen, Herkunft o.ä.) - Normdaten sollen aktuell sein (wg. Schnellem gesellschaftlichen Wandel) Testfairness = Fairness des Testes ggü. allen Gruppen (unterliegt gesellschaftspolitischen Einflüssen) 3 wesentliche Modelle: 1) Quotenmodell / Modell der proportionalen Repräsentation Eine Selektionsmaßnahme ist dann fair, wenn in der Stichprobe der ausgewählten Bewerber die Proportion der Gruppen dieselbe ist, wie in der Bewerberpopulation = proportionale Repräsentation (z.B. 1/3 Männer, 2/3 Frauen, Übereinstimmung von M und s) →Vernachlässigung der Leistungen/ der Effizienz des Verfahrens, nur unter der Voraussetzung sinnvoll, dass alle gleich leistungsstark sind 2) Regressionsmodell/ Modell einer fairen Vorhersage (Cleary) Ein Selektionsverfahren ist dann fair, wenn für keine der verglichenen Gruppen eine systematische Unter- oder Überschätzung der Kriteriumswerte entsteht. → erfüllt wenn die gruppenspezifischen Regressionsgeraden identisch sind (gleiche Steigung, gleicher y-Achsenabschnitt) →Vorhersage der Kriteriumswerte Y aufgrund der Testwerte X ohne Berücksichtigung der Gruppenzugehörigkeit (Personen mit höchster Leistung in Gruppe A und B werden angenommen, Leistung im Test und vorhergesagt im Kriterium;) → Auswahl der voraussichtlich Besten = Maximierung der Erfolgsrate → Keine Konstanz der Quoten A und B 3) Modell konstanter Verhältnisse (constant ratio model) von Thorndike Ein Selektionsverfahren ist dann fair, wenn das Verhältnis zwischen der Anzahl ausgewählter Bewerber und der Anzahl Erfolgreicher im Kriterium in verglichenen Gruppen gleich bzw. konstant ist →Ausgewählte/ Erfolgreiche = (RP+FP)/ (RP+FN): in Gruppe A und B gleich → Kombination aus Quotenmodell und Regressionsmodell → Ohne unterschiedliche Cut-Offs/ Testtrennwerte: Parallelverschiebung der Regressionsgeraden zueinander →Fair ggü. Gruppen A und B wg. Konstanter Quoten →Unfair ggü. Grenzfällen: keine maximale Ausschöpfung von guten Kriteriumsleistungen, da mit Quoten in Konkurrenz (Personen mit denselben Leistungen, werden je nach Gruppenzugehörigkeit abgelehnt oder zugelassen, wenn es in einer Gruppe mehr Leistungsbringer gibt als in der anderen= Fair ggü. Selegierten, unfair ggü. Abgelehnten) 4) Conditional probability model/ Modell konstanter Wahrscheinlichkeiten von Cole Verfahren ist fair, wenn RP/ (RP+FN) also Verhältnis als Geeigneter ausgewählt zu sein zu allen Geeigneten, in verglichenen Gruppen gleich ist → noch größere Parallelverschiebung der Regressionsgeraden ohne getrennte Cut-Offs oder Bonus-Malus-System (Pluspunkte auf Testwert je nach Gruppenzugehörigkeit) 5) Equal probability model von Linn Fairness wenn Konstanz des Bruches RP/ (RP+FP), also für die Zugelassenen beider Gruppen soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein → größte Vereinbarkeit mit Cleary, da starker Bezug zu Kriteriumsleistungen Wechselbeziehungen zwischen Gütekriterien: - Validität als wichtigstes Gütekriterium - Objektivität Voraussetzung für Reliabilität, welche Voraussetzung für Validität ist (Obergrenze Validität = Wurzel reliabilität) - Verbesserung von Objektivität und interner Konsistenz führen zu höherer Reliabilität - Reliabilität und Validität partiell inkompatibel: Verdünnungsparadox wie bei Minderungskorrektur: Je höher die Reliabilität desto geringer ist der Zuwachs an Validität in bei der Aufwertung der Validität (Reliabilität steht im Nenner, je höher, desto niedriger der resultierende Wert) - Hohe Reliabilität = homogenes Verfahren = geringe Validität ggü. komplexen Außenkriterien (höhere Heterogenität = höhere Validität aber = geringere Reliabilität) - Testbatterie als Lösung der partiellen Unvereinbarkeit: einerseits homogene Einzelskalen = hohe Reliabilität, andererseits heterogene Gestalt des Gesamttests = hohe Validität - Änderungssensitivität und Retestreliabilität (Stabilität) unvereinbar bei Verfahren zur Erfassung der aktuellen Befindlichkeit Transparenz eines Verfahren →Verfälschbarkeit →Validitätsminderungen (deshalb bei Selektionsverfahren keine Persönlichkeitstests) Validitätsgeneralisierung: Lassen sich spezifische Test-Kriteriums-Validitäten aus einem Untersuchungskontext a) auf andere Anwendungsituationen generalisieren (schwache Validitätsgeneralisierungsanforderung)? b) Über andere Tests und Kriterien generalisieren (starke Validitätsgeneralisierungsanforderung)? Grund: Validitätsstudien sind teuer und aufwendig, wäre eine Generalisierung möglich, müsste nicht für jeden Test und jedes Kriterium eine Validierungsstudie durchgeführt werden Traditionelle Auffassung (bis 70er Jahre): Schmidt & Hunter (1977): Generalisierungen sind nicht möglich, da Validitäten situationsspezifisch sind und die Anforderungsunterschiede/ Faktorenstrukturen in verschiedenen Situationen stark variieren Generalisierungen sind möglich: Die in Studien gefundene Variablilität von Validität geht auf statistische und methodische Artefakte (z.B. Stichprobengröße) zurück, die Fehlervarianzquellen lassen sich korrigieren, sodass die wahre Variabilität gering ist und somit die Validitäten stabil und generalisierbar sind. 5 Schritte der metaanalytischen Vorgehensweise zur Validitätsgeneralisierung von Schmidt & Hunter: 1) Sichtung der Literatur nach relevanten Studien (mit demselben oder ähnlichen TestKriteriums-Zusammenhang, z.B. Persönlichkeitstest und Berufseignung) 2) Transformation der Validitätskoeffizienten in Fischer-Z-Werte (Standardisierung in normalverteilte, verhältnisskalierte Daten; die Verteilungen sind unterschiedlich aufgrund der Fehlerquellen) 3) Bestimmung des Ausmaßes typischer Fehlervarianzquellen (Fehlervarianz) a) Unterschiede in der Stichprobengröße (Bestimmung der Varianz aufgrund der Stichprobe: 1/(N-3), N= durchnittl. Sp-Größe der Studien) b) Unterschiede in der Reliabilität des Kriteriums (und des Prädiktors, wenn es um unterschiedliche Verfahren geht, per Verteilung der Kriteriums- oder Prädiktorreliabilitäten berechnet) c) Unterschiede im Ausmaß der Varianzeinschränkung (z.B. durch unterschiedlich starke Selektionsprozesse → Einschränkung in Prädiktor oder Kriterium, führt zu verschiedenen Validitäten der Studien) d) Unterschiede in der Qualität der Datenverarbeitung (z.B. Rechen-oder Tippfehler) e) Unterschiede im Ausmaß der Kriteriumskontamination und der Kriteriumsdefizienz (die Arten wie ein Kriterium erfasst werden kann, variieren von Studie zu Studie) Schmidt & Hunter korrigierten nur um a)-c) 4) Hypothesenprüfung und Interpretation der Ergebnisse a) Schätzung der wahren Varianz (beobachtete Varianz – ermittelte Fehlervarianz = Restvarianz als Schätzung der wahren Varianz) b) Hypothesentest (Ist die Variation in den wahren Validitäten Null? Also: Gibt es überhaupt eine Varianz?) c) Ggf. Konfidenzintervall (Bereich indem zu 95% Wahrscheinlichkeit die Validität liegt; je weiter der Konfidenzintervall, desto situationsspezifischer und weniger generalisierbar sind die Validitäten) d) Interpretation (H0 = es gibt keine Variation der Validitäten = ideales Ergebnis = Validitätsgeneralisierung möglich; H1 aber Konfidenzintervall schließt Null nicht mit ein: Genrealisierung auf andere Kontexte möglich; Test mit hoher Wahrscheinlichkeit valide oder mind. eine geringe Validität; H1 und Konfidenzintervall schließt Null mit ein = die Validitäten unterschieden sich signifikant = keine Generalisierung möglich; aber Verwendung als a-priori Wahrscheinlichkeit für Bayes-Statistiken: bedingte Wahrscheinlichkeit, dass der Test valide ist unter der Bedingung, dass er es bisher nicht war, kann durch Studie, die gute Validität belegt, ausgeglichen werden) 5) Schätzung der wahren Varianz/ wahren mittleren Validitätskoeffizienten (einfache Minderungskorrektur mit mittlerem beobachteten Validitätskoeffizienten und Korrektur um die durchschnittliche Varianzeinschränkung; diese kann dann auf alle Test-KriteriumsKombinationen generalisiert werden, wenn die H0 gilt) Vorteile - Aufbruchsstimmung, dadurch dass Variabilitäten durch Artefakte erklärt werden konnten - These der unterschiedl. Faktorenstruktur von Situationen ausgeräumt - Methode kann auch zur Schätzung von Effektstärken verwendet werden - Korrekturen sind konservativ - Beliebig viele Studien vergleichbar Nachteile - Keine einheitliche Vorgehensweise - Auf Schätzprozeduren angewiesen - Ergebnisse autorenabhängig - Nur Studien vergleichbar, die minimal notwendige Koeffizienten berichten Beispiel: Wiesner & Cronshaw Einfluss des Interviewformats- und strukturiertheit auf die Validität von Einstellungsinterviews Fragen: 1) Welche wahre Validität haben Einstellungsinterviews? 2) Haben die Struktur (strukturiert vs. unstrukturiert) und das Format (Individual- vs. Gruppeninterview) einen moderierenden Einfluss auf die Validität? Vorgehen: siehe Schmidt & Hunter Ergebnisse: - unkorrigierte Gesamtvalidität von Einstellungsinterviews = .26 - korrigierte = .47 (deutlich valider als bisher angenommen) - die Struktur hat einen deutlichen moderierenden Einfluss, das Format nicht (beide = .44) - strukturierte Interviews mit Validität = .64 beste Prädiktoren Testverfahren Aufmerksamkeits- und Konzentrationstests Such- und Durchstreichtests: 1) d2 Aufmerksamkeits-Belastungstest 2) KT 3-4-R Konzentrationstest für 3. Und 4. Klassen 3) FAKT-II Frankfurter Adaptiver Konzentrationsleistungs-Test Rechentests 1) KLT-R 4-6 o. 6-13 Konzentrations-Leistungstest Begriff Alertness = basale Wachheit/ Ansprechbarkeit durch Reize Messung einfache Reize schnell und zuverlässig beantworten Fokussierte oder selektive Aufmerksamkeit (Ausblenden irrelevanter Reize) Geteilte Aufmerksamkeit (Multitasking) Beachtung von einem Reiz innerhalb einer Reizklasse Beachtung von mind. je einem Reiz aus zwei deutlich verschiedenen Reizklassen Fokussierte oder geteilte Aufmerksamkeit über längere Zeit Beachtung seltener Reize über längere Zeit Daueraufmerksamkeit Vigilanz (Wachsamkeit trotz Langeweile) Intelligenztests 1) Wechsler-Tests (Wechsler-Bellevue Intelligence Scales): HAWIE (aktuell III) und HAWIK (aktuell IV) und HAWIVA (für das Vorschulalter) 2) AID 2 Adaptives Intelligenz Diagnostikum 2 3) K-ABC Kaufman-Assessment Battery for Children 4) IST 2000-R Intelligenz-Struktur-Test 2000-R 5) LPS Leistungsprüfsystem: Kurze Fassung: PSB-R-4-6 und 6-13 Prüfsystem für Schul- und Bildungsberatung 6) WIT 2 Wilde Intelligenztest 7) BIS-4 Berliner Intelligenzstruktur-Test 8) CFT Grundintelligenztest Skala 2/ Culture Fair Test 2 mit Wortschatztest (WS) und Zahlenfolgentest (ZF) 9) RPM Ravens Progressive Matrizen (Standard, Advanced oder Coloured) 10) BOMAT Bochumer Matrizentest (advanced) Spezielle Fähigkeitstests a) Kristalisierte Intelligenz 1) ABAT-R Allgemeiner Büroarbeitstest 2) PAI30 Test zur Praktischen Alltagsintelligenz b) Gedächtnis und Lernen 1) LGT 3 Lern- und Gedächtnistest c) Motorik Allgemeine Entwicklungstests 1) GES Griffiths Entwicklungsskalen zur Beurteilung der Entwicklung in den ersten beiden Lebensjahren 2) WET Wiener Entwicklungstest Spezielle Entwicklungstests Schultests a) Schuleingangstests (die sicherste Methode zur Schuleingangsdiagnose ist die Einschulung aller Schüler mit der Möglichkeit, sich im Kriterium bewähren zu können. Als Frühindikatoren für potentielle Schulprobleme, auf die die Schule rechtzeitig mit gezielten Fördermaßnahmen zu reagieren hätte, sind in Schuleingangstest aber durchaus nützlich.) b) Schulübertrittstests (Insgesamt ist die prognostische Validität von Übertrittstests zu gering, um individuelle Entscheidungen allein von ihren Ergebnissen abhängig zu machen. Die Erkenntnis, dass künftige Schulleistungen am besten durch bisherige Leistungen prognostizierbar sind, erfordert die Einbeziehung von Schulleistungstest in die Übertrittsdiagnostik.) c) Schulleistungstests (Schulleistungstests sind in der Regel sehr valide normorientierte Indikatoren der Schulleistungen und erlauben Vergleiche der Individualleistung mit überregionalen Normen. Bei größeren Diskrepanzen zwischen örtlichen und überregionalen Standards ist der Einsatz lehrzielorientierter Tests erforderlich.) Persönlichkeitsfragebögen erfassen nicht irgendwelche wirklichen Persönlichkeitseigenschaften, sondern die von einer Person bevorzugte Wahrnehmung und Darstellung ihrer selbst: Fragebögen als eigentlich besterprobte subjektive Messmittel der Persönlichkeit aus Sicht des Individuums selbst. Deshalb sind Persönlichkeitstestwerte vor dem Hintergrund der Messmethode zu interpretieren, und Verzerrungen bei der Selbstbeobachtung und –beurteilung , der Beantwortung der Items und der absichtsvollen Selbstdarstellung sollten in Erwägung gezogen werden. Die überwiegend niedrigen Kriteriumsvaliditäten zeigen die Grenzen der Fragebogenmethode auf. Persönlichkeitstestsysteme 1) MMPI-2 Minnesota-Multiphasic-Personality-Inventory 2) FPI-R Freiburger Persönlichkeitsinventar 3) 16 PF-R 16-Persönlichkeits-Faktoren-Test 4) D-PRF Deutsche Personality Research Form 5) NEO-FFI Neo-Fünf-Faktoren-Inventar 6) NEO-PI-R NEO-Persönlichkeitsinventar 7) TIPI Trierer Integriertes Persönlichkeitsinventar 8) BIP Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung 9) SVF 120 Stressverarbeitungsfragebogen Verfahren zur Erfassung aktueller Zustände 1) STAI State-Trait-Angst-Inventar 2) EWL Eigenschaftswörterliste Verfahren zur Erfassung von Interessen 1) EXPLORIX-Werkzeug zur Berufswahl und Laufbahnplanung Verfahren zur Erfassung der Motivation 1) LMI Leistungsmotivationsinventar Verfahren zur Erfassung von Handlungskontrolle (Volition) 1) HAKEMP 90 Fragebogen zur Erfassung von Handlungskontrolle nach Erfolg, Misserfolg und prospektiv Nichtsprachliche Persönlichkeitstests 1) NPQ Nonverbal Personality Questionnaire (nach PRF) Objektive Persönlichkeitstests 1) OA-TB 75 Objektive Testbatterie 2) Arbeitshaltungen: Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation, Impulsivität/ Reflexivität 3) OLMT Objektiver Leistungsmotivations Test Projektive Verfahren 1) RT Rorschach-Test 2) TAT Thematischer Apperzeptionstest 3) Kinder-Apperzeptionstest (KAT) 4) LM-TAT Leistungsmotivations Thematischer Apperzeptionstest Projektive Verfahren haben die Erwartung nicht erfüllen können, dass verdrängte Bewusstseinsinhalte mit ihrer Hilfe ermitteln lasse, bewusste Informationen lassen sich durch direkte Befragung leichter gewinnen, lediglich bei Kindern können projektive Verfahren als Explorationshilfen dienen. Die Messqualität von projektiven Tests ist in der Regel nur durch hohen konstruktorischen und prozeduralen Aufwand zu erreichen. Verhaltensbeobachtung = Methode, diagnostisch relevante Informationen dort zu erheben, wo keine formellen Testverfahren zur Verfügung stehen. Ihre Objektivität ist umso größer, je konkreter die zu registrierenden Verhaltensweisen sind und je geringer das Ausmaß der Urteilsprozesse durch Beobachter ist. Danach sind Zeichensysteme mit eindeutig zu identifizierendem Verhalten, das in kurzen Intervallen registriert wird, Kategoriensystemen vorzuziehen. Kategoriensysteme haben ihre Berechtigung dort, wo statt einzelner Verhaltensweisen Verhaltenssequenzen erfasst werden sollen. Nachteile sind Unschärfe auf Verhaltensebene eingeschränkte Objektivität. Am problematischsten sind Ratingverfahren. Ihre leichte Handhabbarkeit wird durch leichter auftretende Beurteilungsfehler und damit zusammenhängende mangelnde Objektivität aufgewogen. Sie eignen sich zur Untersuchung komplexer Phänomene und für Pilotstudien, um erste Annäherungen an eine noch nicht klar strukturierte Fragestellung vorzunehmen. 3 Arten der Datenregistrierung bei Verhaltensbeobachtung 1) Zeichensysteme (Selektion der zu beobachtenden Verhaltensweise) 2) Kategoriensysteme (Zuordnung ähnlicher Verhaltensweisen in Klassen) 3) Ratingverfahren (Schätzung von Ausprägungsgrad/ Häufigkeit von Verhaltensweisen auf Ratingkategorien) Häufige Fehler bei Ratingverfahren: - Halo-/ Hofeffekte - Logische Fehler durch Interkorrelationen von Beobachtungen - Milde- und Strengefehler durch Abweichungen vom Mittelwert der übrigen Beobachter - Zentrale Tendenz (Tendenz zur Mitte) und Neigung zu Extremurteilen Diagnostisches Interview als Überbegriff für Diagnostik mittels Gespräch: Anamnese, Exploration, Einstellungsgespräch oder Auswahlgespräch (nach Verwendungszweck). Diagnostische Interviews unterscheiden sich durch den Grad ihrer Standardisierung. Strukturierte Interviews sind valider als unstrukturierte Verhaltensbeschreibende Interviews sind valider als situative Viele Fehler bei diagnostischen Interviews, auch bei guter Beurteilerübereinstimmung (bes. bei niedriger Standardisierung) Multimodales Einstellungsinterview nach Schuler 1) Gesprächsbeginn 2) Selbstvorstellung des Bewerbers 3) Berufsinteressen und Berufswahl 4) Freies Gespräch 5) Biografiebezogene Fragen 6) Realistische Tätigkeitsinformation 7) Situative Fragen 8) Gesprächsabschluss 3 paardiagnostische Ansätze: 1) Kognizierte Merkmale einer oder mehrerer Personen 2) Interaktionelle Merkmale von Personen in sozialen Situation oder Handlungsepisode 3) Interpersonelle Eigenschaften einer Person Paardiagnostische Verfahren: 1) GT Gießen-Test 2) PFB Partnerschaftsfragebogen 3) TPI Trierer Partnerschaftsinventar Familiendiagnostik: 1) FKS Familienklimaskalen 2) FDTS Familiendiagnostisches Testsystem 3) FB Familienbogen Teamdiagnostik: 1) TKI Teamklima-Inventar Gruppentestung + Ökonomisch + Vergleichsdaten - Evtl. Benachteiligung bestimmter Gruppen - Möglichkeit des Abschreibens: Parallel- oder Pseudoparallelformen notwendig - Störung durch andere Schaffung von Optimalbedingungen - Gelegenheit zu maximaler Leistung Einzeltestung - Zeitaufwendig - Keine unmittelbaren Vergleichsdaten + Genauere Verhaltensbeobachtung möglich + Vertraulichkeit - Aufwärmphase schafft Vertrautheit und reduziert das Haupthemmnis: Test- oder Prüfungsangst Planung optimaler Bedingungen schwierig Diagnose von Einstellungen zur Testsituation gut (per nachträglicher Befragung) Bei Persönlichkeitsfragen: gute Beziehung zum Psychologen wichtig Zu Selektionszwecken ist eine Stichprobe aus der Bewährungssituation angebracht; für Bewährungssituation repräsentativ (keine Optimalbedingungen) Die diagnostische Zielsetzung leitet die Gestaltung der Testsituation Unimodale vs. multimodale Diagnostik - Unimodal meist institutionell - Multimodal meist individuell - Mäßige Konkordanz von Daten aus verschiedenen Quellen - Aggregation über Messzeitpunkte und Kriteriumsbereiche erhöht Reliabilität - Regressionsanalytische Kombination (Vorhersage aufgrund mehrerer Quellen) als Lösung - Verwendung von mind. 2 Methoden (erhöht Validität) - Diskrepanzreduktion zwischen Ergebnissen verschiedener Methoden notwendig Einstufige vs. mehrstufige Erhebung - Einstufig: zeitökonomisch - Mehrstufig: stufenweise angemessene Gestaltung der Testsituation, genauere Kenntnisse von Fragestellung und Bewährungssituation; Bedenkzeit zur zusätzlichen Informationseinholung; größere Vertrauensbasis; Infos über Konstanz und situationale Variabilität von Verhalten durch mehrere Messzeitpunkte Indirekte Veränderungsmessung = Messung T1 und t2, Bildung der Differenz Direkte Veränderungsmessung = Messung t2, wie Unterschied zu t1 ist Reliabilitäts-Validitäts-Dilemma = Je höher die Ausgangsreliabilität desto geringer die Reliabilität der Differenzwerte. Hohe Korrelation zwischen den beiden Testungen = geringe Reliabilität der Differenzen, da die Differenzen nur aus Zufalls- oder Fehlergrößen bestehen Niedrige Korrelation zwischen t1/t2 = hohe Reliabilität der Differenzen (wird die Differenz zuverlässig gemessen?), aber fragwürdige Validität für die einzelnen Testscores (da zu unterschiedlichen Zeitpunkten unterschiedliches gemessen wurde) Konstanz-Variabilitäts-Problem = Wo Konstanz (interne Konsistenz und Retestreliabilität) herrscht, kann es kaum Variabilität (Änderungssensitivität) geben Lösung: Verzicht auf zwei Kernannahmen der KTT (Konstanz der wahren Werte (r = 1) und Unkorreliertheit des Fehler (r = 0) → Effektfunktion: Korrelation der wahren Werte zu zwei Messzeitpunkten (r ≠ 1) → Reliabilitätsfunktion: zeitabhängige Korrelation zwischen den Messfehlern (r ≠ 0) Regression zur Mitte: fragliche Interpretation der Veränderungswerte, da extreme Werte bei wiederholter Messung zur Mitte regredieren ohne, dass ein wahrer Effekt stattgefunden hat. Ausgangswertgesetz: Höhe eines Ausgangswertes ist negativ mit Zuwachs korreliert (siehe Minderungskorrektur und Aufwertung der Validität) Physicalism-subjectivism-dilemma = Entsprechen gleiche Veränderungswerte auf verschiedenen Abschnitten des physikalischen Messwertekontinuums auch psychologisch/ subjektiv gleichartigen Veränderungen (Kann der psychologische Test andersartige Veränderungen in exakter Weise messen?) Der diagnostische Prozess ist eine Abfolge von Maßnahmen zur Gewinnung von diagnostisch relevanter Information, er ist keine Einbahnstraße, sondern ein Geschehen bei dem der Diagnostiker sich u.U. erst nach mehreren Durchgängen dem Ziel, der Beantwortung der Fragestellung, nähert. Wichtigste Stufen des Prozesses nach Jäger: 1) Übersetzung der Fragestellung in psychologische Hypothesen 2) Operationalisierung der Hypothesen 3) Planung und Durchführung der Untersuchung 4) Auswertung der Ergebnisse 5) Evtl. erneuter Durchlauf der diagnostischen Sequenz (1-4) 6) Beantwortung der Fragestellung Verhaltensgleichung um alle relevanten Einflussgrößen zu spezifizieren: V = f (U, O, K, E, M, S) Das Verhalten ist eine Funktion von Umgebungsvariablen, Organismusvariablen, kognitiven Variablen, emotionalen Variablen, motivationalen Variablen, sozialen Variablen und ihren Wechselwirkungen Klinische versus statistische Urteilsbildung Klinische Urteilsbildung - intuitive, einzelfallbezogene, theoretisch begründete Kombination von Prädiktoren - Möglichkeit besondere Muster in Daten zu erkennen - Mehr Informationen aus persönlichem Kontakt - Generierung von Hypothesen vorab zur Beschreibung neuer Phänomene Statistische Urteilsbildung - statistisch-mathematische Kombination der Prädiktoren zur Vorhersage des Kriteriums aufgrund allgemeiner Gesetzmäßigkeiten - Informationen können kodiert werden und müssen statistisch gewichtet werden Unterscheidung in der Datenkombination; Datenerhebung u.U. gleich Mechanische Messung = Datenerhebung durch Messwerte (Tests) Beurteilende Messung = Datenerhebung durch klinische Interviews mit Beurteilung Wäre die statistische der klinischen überlegen oder mind. gleichwertig, könnte ein Psychologe ökonomischer zur Diagnose gelangen und sich stärker auf Therapie und Forschung konzentrieren. Cronbachs experimentelles Vorgehen zur Messung des globalen Genauigkeitswertes (Abweichungsquadrate): Beurteilerübereinstimmung: Kliniker und Selbsteinschätzung (Vorhersage: je genauer, desto kleiner die Abweichung GLOB) GLOB = E2 + DE2 + SA2 + DA2 1) E = elevation = Hebung: Ausmaß niedrigerer oder höherer Urteile durch Beurteiler (Itemebene) 2) DE = differential elevation = differentielle Hebung: Ausmaß indem der Beurteiler die Abweichung einer Person vom Mittelwert der Gruppe über alle Items und Personen richtig voraussagen kann (Itemebene) 3) SA = stereotype accuracy = stereotype Genauigkeit: Fähigkeit des Beurteilers das durchschnittliche Antwortverhalten in allen Items vorherzusagen (Personenebene) 4) DA = differential accuracy = differentielle Genauigkeit: Fähigkeit des Beurteilers Unterschiede zwischen den Personen in den einzelnen Items vorherzusagen (Personenebene, bevorzugter Index der Beurteilergenauigkeit) Brunswicksches Linsenmodell = allgemeines Urteilsmodell Eine Person fällt Urteile über unsichere Ereignisse auf der Basis von Hinweisen (cues) oder Bezugspunkten (Prädiktoren x1, x2, x3, x4 usw.). Es gibt subjektive Beziehungen der Hinweise untereinander und zum Urteil (rechte Seite). Auf der anderen Seite gibt es die realen Beziehungen der Hinweise untereinander und zum unsicheren Ereignis (linke Seite). Wobei die Situation dadurch kompliziert wird, dass die Beziehung zwischen Hinweisen und Ereignis eine Wahrscheinlichkeitsbeziehung ist. Wir haben also zwei Systeme. Das eine System ist die Umwelt (links), das andere System die mentale Repräsentation (rechts) oder Abbildung der Umwelt. Urteilsgenauigkeit hängt davon ab, inwieweit diese beiden Systeme einander entsprechen = Validität der klinischen! Validität der klinischen Vorhersage X1 Kriterium Validität der statistischen Vorhrsage X2 statistische Vorhersage klinische Vorhersage paramorphe klinische Vorhersage Güte der paramorphen Repräsentation X3 X4 Studien zur Urteilsbildung: Meehl: die statistische Datenkombination ist der klinischen überlegen Sawyer: Studien von Meehl fehlerbehaftet; Konfundierung von Datenerhebung und Datenkombination; Variation von Datenerhebungsmethode und Urteilmethode notwendig → die statistische Datenkombination ist der klinischen überlegen, egal bei welcher Datenerhebungsmethode → beurteilende Messung ist die schwächste Datenquelle →Kombination mechanische und beurteilende Messung am Besten, insb. bei statistischer Datenkombination = mechanisch zusammengesetzte Vorhersagemethode →Kliniker profitiert von PC-Daten, PC nicht vom Kliniker Kleinmuntz: Automatisierung von Experten-Aussagen als wertvolle Interpretationsquelle; automatisiertes Vorhersageprogramm besser als Kliniker Goldberg: Kombination von reliablen Computer-Vorhersagen und paramorphen Modellen von klinischen Beurteilungsstrategien (per Regression von der Beurteilerstrategie) Arten diagnostischer Entscheidungen: - Individueller vs. institutioneller Nutzen - Festgelegte vs. variable Annahmequoten - Einstufige vs. mehrstufige Testungen (nichtsequentielle Batterie, Single Screen vs. Pre-reject Strategie(Vorablehnung), Pre-accept-Strategie (Vorannahme), vollständig sequentielle Strategie(Vorannahme und -ablehnung) - Univariate vs. multivariate Informationen - Verfahren mit Ablehnung = Selektion - Verfahren mit Verteilung auf horizontaler und vertikaler Ebene = Platzierung - Klassifikation = Zuordnung entsprechend der ermittelten Merkmale - Terminale vs. investigatorische Entscheidungen Kompensatorische Entscheidungsstrategien - Lineare Kombination von Prädiktionswerten - Niedrige Leistungen in einem Prädiktor können durch hohe Leistung im anderen kompensiert werden - Gemeinsamer Trennwert Oder-Konzept - Gesamtsumme wird nicht benötigt, Leistungen in einem oder in einem anderen Prädiktor genügen Modelle sind dysfunktional wenn Mindestleitungen in den Teilgebieten vorliegen müssen. Konjunktive/ Und-Konzepte: - Leistungen in mehreren Bereichen müssen vorliegen - Kritische Trennwerte für jeden Prädiktor Bei festgelegten Aufnahmequoten führen kompensatorisches und konjunktives Modell zu unterschiedlichen Trennwerten. Entscheidungsfehler Basisrate = Wahrscheinlichkeit der tatsächlich Positiven (TP und FN) Selektionsrate = Wahrscheinlichkeit der positiv vorhergesagten (TP und FP) Test- oder Schätzverfahren können nur dann eine perfekte Validität erhalten (=1) wenn BR = SR Ein Test wird mit sinkender Selektionsrate effektiver („Sahne abschöpfen“) - Fehler erster Art = α-Fehler = FP = Falsche Positive (Personen als krank bezeichnet obwohl sie gesund sind) - Fehler zweiter Art = β-Fehler = FN = Falsche Negative (Personen als gesund diagnostizieren obwohl sie krank sind) α-Fehler sollten vor allem in der Eignungsdiagnostik vermieden werden, da dort FP sehr teuer sind und keine ausreichenden Leistungen erbringen → kostenreduzierend β-Fehler sollte vor allem in der klinischen Diagnostik vermieden werden, da dann Personen mit einer psychischen Störung/ einer Erkrankung (FN) keine Behandlung bekommen würde, obwohl sie eine brauchen → lebensrettend Gütekriterien einer Entscheidungsstrategie 1) Sensitivität = Wahrscheinlichkeit einen vorliegenden positiven Zustand als solchen zu diagnostizieren = TP 2) Spezifität = Wahrscheinlichkeit einen vorliegenden negativen Zustand als solchen zu diagnostizieren = TN 3) Positiver Prädiktionswert = Wahrscheinlichkeit mit der eine positive Diagnose zutreffend ist (TP/FP) 4) Negativer Prädiktionswert = Wahrscheinlichkeit mit der eine negative Diagnose zutreffend ist (TN/FN) Taylor-Russell-Tafeln = Tafeln um die Effizienz von Auswahlentscheidungen zu erhöhen ( Welche Grund- und Selektionsrate man benötigt) Bei hoher Grundrate Erfolgreicher und niedriger Selektionsrate sind effiziente Entscheidungen auch mit Tests möglich, die eine mäßige Validität aufweisen Basisrate = selektiver Eignungsquotient = (TP+FN)/N = Alle Erfolgreichen in Relation zu Allen 3 Entscheidungsregeln zur Vermeidung von Zuordnungsfehlern: 1) Neyman-Pearson-Kriterium - Statistische Hypothesenprüfung auf Zuordnungsentscheidungen anwenden - Entscheidungskriterium wird so verschoben, dass das Risiko für den Fehler erster Art unterhalb des α-Niveaus liegt - Reduzierung α-Fehler führt zu Anstieg des β-Fehlers in unbekanntem Ausmaß - Nur für Entscheidungen nichtklinischer Art, wo der β-Fehler nicht so gravierend wäre (z.B. Eignungsdiagnostik) 2) Minimax-Kriterium = der maximale Zuordnungsfehler wird in allen Klassen möglichst klein gehalten 3) Minimum-Loss-Kriterium = minimiert alle Zuordnungsfehler über alle Klassen gleich. Relativ zueinander bleiben die Höhen der Fehler erhalten. Die Festsetzung von Testrennwerten/ Cut-Offs wirkt sich auf die Art und Stärke der Zuordnungsfehler und auf die Güte der Zuordnung aus. Mit der ROC-Kurve (Receiver-Operating Characteristic) lassen sich Sensitivität und Spezifität simultan und unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen (Wenn man die Verteilung der Gruppenkennwerte kennt). Je höher der Trennwert/ Cut-Off desto geringer die Sensitivität und desto höher die Spezifität (Rückgang FP und Zunahme FN) d.h. bei klinischer Urteilsbildung Trennwert niedrig ansetzen (Rückgang FN, Zunahme FP) bei Eignungsdiagnostischer Fragestellung Trennwert hoch ansetzen Trennwerte müssen auf persönlichen, sozialen, ökonomischen und praktischen Erwägungen beruhen und können nicht festgelegte kritische Trennwerte sein (Fairness). Zur Analyse von Zuordnungsfehlern muss die Zuordnung bereits stattgefunden haben. 1) Likelihood-Quotient = Zugehörigkeitswahrscheinlichkeiten (Welcher Klasse gehört das Individuum i mit Prädiktionswert x mit der größten Wahrscheinlichkeit an?) Wenn c = 1 Maximale Gruppenzugehörigkeitswahrscheinlichkeit = Sensitivität Wenn c < 1 mehr Spezifität, geringere Sensitivität Spezifität und Sensitivität lassen sich wechselseitig (vice versa) beeinflussen. 2) Regressionstechniken: Einsetzen der individuellen Prädiktionswerte in Regressionsgleichung = Kriteriumswerte →Differenzbildung vorhergesagter Kriteriumswert und kritischer Kriteriumswert →Zuordnung zu Kategorien per Differenzwert ( ist die Differenz negativ, wurde der kritische Wert übertreten = Annahme, bei positiver Differenz ist der ermittelte Wert kleiner als der kritische = Ablehnung) 3) Diskriminanzanalyse = individueller Testwert wird in Diskriminanzfunktion eingesetzt. Resultierender Wert entscheidet über Zuordnung (kleiner oder gleich kritischer Diskriminationswert = Ablehnung, größer krit. Diskriminationswert = Annahme) 4) Ähnlichkeits- bzw. Distanzmaße: Vergleich des individuellen Testwertprofils mit dem durchschnittlichen Testwertprofil der Referenzgruppe, 3 Ähnlichkeitsmaße: a) Euklidische Distanz D = b) Mahalanobis-Distanz c) Cattellsche Formel → Zuordnung nach geringer die Distanz (D) = große Ähnlichkeit →bei a) und c) muss die Unabhängigkeit der Prädiktoren vorausgesetzt sein Nutzenerwägungen - Per Strategiematrix (Entscheidungswahrscheinlicheiten für unterschiedliche Informationsquellen) - Per Validitätsmatrix (Vergleich der Validitäten) - Nutzen- und Kostenvektor für jede Kriteriumsklasse - Nettonutzen einer Strategie - Oder A-priori-Nutzen - Bestimmung einer Gelwertäquivalente ist bei A&O-Entscheidungen möglich aber bei klinischen Entscheidungen nicht möglich und ethisch nicht vertretbar - Berechnung von Opportunitätskosten möglich: Kosten eines entgangenen Gewinns durch FN - Individuelle vs. gesellschaftliche Kosten und Nutzen - Kostensenkung durch ambulante Psychotherapie ggü. später notwendiger stationärer Therapie - Ebenso erwiesener Nutzen psychodiagnostischer Eignungsauswahl für Volkswirtschaft - Nutzenfunktionen wichtig aber schwer bestimmbar - MAUT-Technik (Multi-Attributive Utility Theorie) wichtige praktische Nutzenbestimmungsmethode Verhaltensvariabilität = situativer Druck führt zu Verhaltenskonformität (traitgeleitete individuelle Verhaltensunterschiede verschwinden) → Verhaltenskonformität wird in Auslesesituationen angeregt (auch geringe Extraversionswerte) → Verhaltensvariabilität in projektiven Verfahren angeregt → ebenso Erfassung individueller Perzeptionen und Kognitionen in Situationen wichtig Selbstaufmerksamkeit erhöht Validität in Selbstberichten → Bedenkzeit bei FB besser als spontanes Antworten (sonst mehr sozial erwünschte Antworten, da die schneller zur Verfügung stehen, als selbstreflektierte Antworten) Reliabilitätserhöhung durch Aggregation über Beobachtungszeitpunkte, Verhaltensweisen und Situationen können zu einer substantiellen Erhöhung der Validität führen (Erhöhung von Heterogenität und inhaltlicher Breite im Kriterium und im Prädiktor) Aggregation von Verhalten über Situationen nur sinnvoll wenn durchschnittliches Verhalten interessiert, anstatt Reaktionen in spezifischen Situationen Zur Abschätzung der Stabilität von Verfahren die änderungssensitiv States/ Zustände messen, braucht man andere Reliabilitätsschätzungen als die Retestreliabilität: 1) Schwankungen/ Oszillationen der Messwerte aufzeichnen und die höchsten Amplituden zweier Messstrecken vergleichen 2) Fourier-Analysen: beobachtete Schwankungen spektralanalytisch auswerten (wie bei EEG) Fraktionierungsmethode zur Identifikation von Moderatorvariablen/ Personengruppen mit einer bes. hohen Vorhersagbarkeit → Fraktionierung einer Stichprobe in Substichproben mit unterschiedlichen Merkmalen, wenn die zu prüfende Variable alternativ (dichotom, z.B. männlich, weiblich) oder mehrklassig diskret (mehrere nominale Stufen, z.B. deutsch, französisch, serbisch usw.) ist. → bei kontinuierlich-quantitativen Abstufungen der Variable: Regressionsanalytisches Modell besser = Steigung einer einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe eines Moderators bzw. die Steigungskoeffizienten stellen eine lineare Funktion des Moderators Z dar. Suppression: Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der direkten Erhöhung der Validität durch Einsatz von weiteren Prädiktoren auch die Möglichkeit gibt Suppressorvariablen zu erheben, die keinen oder einen nur sehr geringen Zusammenhang zum Kriterium aufweisen. Aufgrund der hohen Korrelation der Suppressorvariable mit den übrigen Prädiktoren werden deren kriteriumsirrelevanten Varianzanteile gebunden oder unterdrückt. Antwortstile oder testbegleitende Faktoren wie Testangst oder Testmotivation haben sich bisher nicht als Suppressoren erwiesen. Part- oder Semipartialkorrelation = ideale Suppressorbedingungen: rcs = 0 , rsp = positiv, rcp= positiv → der Einfluss des Suppressors muss nur aus dem Prädiktor herauspartialisiert werden, da nur zu diesem eine Korrelation besteht. → Die Partkorrelation fällt immer höher aus als die reine Prädiktor-Kriteriums-Korrelation (Validität) wenn die Korrelation zwischen Prädiktor und Suppressor ungleich Null ist. Partialkorrelation = nichtideale Suppressorbedingungen: rcs ≠ 0 , rsp = positiv, rcp= positiv → der Einfluss des Suppressors muss aus Prädiktor und Kriterium herauspartialisiert werden, da zu beiden eine Korrelation besteht. → Partialkorrelation muss höher sein als Partkorrelation, da im Nenner zusätzlich rcs berücksichtigt wird