1 Skript Messen, urteilen und entscheiden, Modul B.1, Master Vorlesung 1 Diagnostik und Entscheidungen Wichtiges Modell: Das Modell von Cronbach und Gleser bietet einen Rahmen, realistische diagnostische Prozesse zu analysieren und Entscheidungsprinzipien und Ziele offen zu legen. Annahmen: Eine Situation, in welcher eine Person sich Handlungsalternativen gegenüber sieht, ist eine Entscheidungssituation. Test steht hier für alle Arten der systematischen Informationssammlung einschließlich Interviews, biographischen Befragungen und physiologischer Messungen Die diagnostischen Entscheidungsprozesse sind dadurch charakterisiert, dass es zunächst ein Individuum gibt, über das Entscheidungen zu treffen sind. Weiter gibt es zumindest 2 Treatments, denen das Individuum zugewiesen werden kann. Die Entscheidung basiert auf Information über das Individuum. Zur Interpretation der Information gibt es Prinzipien (eine Strategie), die zu einer endgültigen oder investigatorischen Entscheidung führt. Institutionelle vs. Individuelle Entscheidungen z.B. Studienfachwahl; aber nicht Studienund Berufsberatung nicht konsequenzenlos, nicht einfach revidierbar konstantes Wertesystem: häufig gesetzlich mit den institutionellen Entscheidungen beschäftigt sich die Diagnostik auch Arbeitsamt ist institutionell: Ziel-> Person in Arbeit bringen Auch Sorgerechtsentscheidung institutionell, weil: wird für viele Kinder nach gleichen Kriterien entschieden 2 Kindeswohl ist max. Nutzen für die Organisation, soll durch Nutzen einer Serie von Entscheidungen maximiert werden Klassifikation: zweidimensionale Entscheidung = bivariat, weil x und y; alle kommen unter Platzierung: eindimensional, quasi Klassifikation anhand eines Scores; alle kommen unter Selektion/ Auswahl: es werden welche ausgeschlossen, z.B. mehr Bewerber als Stellen 3 Entscheidungsstrategien ein Wert kann den anderen ausgleichen bei der Oder-Strategie gibt es Cut-Off-Werte je nach Strategie fallen die Entscheidungen für die gleiche Person unterschiedlich aus man muss über beide Cut-Off-Werte liegen 4 Einzelteststrategie/ einstufig: 1 Test entscheidet Mehrstufige Entscheidungsstrategien: versch. Verfahren hintereinander, z.B. Vorauswahl bei Führerscheinprüfung: wer durch Theorie fällt, kommt nicht weiter Vorentscheidung: 1. Test entscheidet, ob drin oder weitergeleitet Vollständige sequentielle Strategie: kombiniert beides, welche fliegen raus, andere sind drin, andere werden weiter getestet Klausurfrage: Was ist ein sequenzielles Verfahren? wird in der Praxis meist angewendet die Verfahren können unterschiedliche Formen annehmen Zumindest für einen Teil der Testpersonen wird nach einer ersten Testung noch keine endgültige Entscheidung getroffen, sondern eine sogenannte investigatorische Entscheidung (weiteres Testen, vorläufige Zuweisung zu einem Treatment, „try-out“…) z.B. erst soziale Kriterien, dann Eignung oder Sichtung der Bewerbungsunterlagen, dann Einladung zum Gespräch oder nicht usw. 5 Beispiel Castingsshows: • • • • • • • Üblicherweise institutionelle Entscheidungen Aufnahmequote zunächst variabel (eine Reihe von Leuten kommt weiter), dann fest (10 Leute im Finale, einer gewinnt) Behandlung: Training, Coaching etc. Mehrstufiges Auswahlverfahren: erste Ausscheidung, „recall“, etc. Selektion Multivariate Information (Gesang, Aussehen, Auftreten) Zunächst investigatorisch, dann terminal Nutzenerwägungen • Welche Strategie ist nun die beste? Nutzenerwägungen! • Ziel von Diagnostik: Optimierung von Entscheidungen • Optimierung wird durch Nutzen abgelesen, es muss also möglich sein, den Nutzen von Entscheidungen zu vergleichen, bzw. auf Dauer berechnen zu können. • Daher ist es erforderlich anzunehmen, dass unterschiedliche Ergebnisse eines Entscheidungsprozesses in „gleichen Einheiten“ (z.B. €) des Nutzens ausgedrückt werden können: Kardinalskala (Verhältnisskala) des Nutzens • Diese Einheiten sollen sich über verschiedene Entscheidungen addieren lassen. Diese Annahme ist in einigen Bereichen eher realistisch, in anderen problematisch (z.B. Personalentscheidungen versus Entscheidungen über das Kindeswohl) Strategiematrizen • Strategien lassen sich übersichtlich in Strategiematrizen zusammenfassen. • Halten die Regeln fest, nach denen auf der Basis von diagnostischen Informationen Entscheidungen getroffen werden 6 • Empirische Entscheidungen in einer Strategiematrix zu tabulieren dient der Klärung des Entscheidungsprozesses und kann „verborgene“ Informationssammlungen oder Fehler im Entscheidungsprozess aufdecken. nur 1 und 0 (wenn, dann), keine Zeile oder Stelle darf leer sein Strategiematrix ist erstmal normativ (wie es laufen sollte) empirische Werte können hinterher ausgefüllt werden und anders aussehen wenn empirische Werte anders sind, waren verdeckte Kriterien am Werk Outcomes • Nachdem die Regeln formalisiert sind, die beschreiben, welche Entscheidungen bei gegebenen Informationen zu treffen sind, muss evaluiert werden, ob die Entscheidungen bzw. „Treatments“, welche auf diesen Regeln basieren, erfolgreich sind. • Erfolgreich sind sie dann, wenn ein bestimmtes Kriterium erreicht wird – kann Erfolg sein oder das Vermeiden von Misserfolg. • Das Ergebnis eines Entscheidungsprozesses besteht in allen Konsequenzen einer Entscheidung, die für die entscheidende Person (besser seine Institution) von Bedeutung sind (Gesamtbeitrag einer Person bewerten, nicht nur 1 Eigenschaft) Da nur fehlerbehaftete Information vorliegt, hat die entscheidende Person lediglich eine Wahrscheinlichkeitsverteilung von Ergebnissen (Kriterienmaßen, „outcomes“) zur Verfügung. Diese Wahrscheinlichkeitsverteilung gibt für jede Informationskategorie die über viele Entscheidungen erwarteten Ergebnisse an. • • Ergebnisse früherer „Fälle“ (oder Forschungen) dienen dazu zu beschreiben, welche Beziehung zwischen einer Informationskategorie und einem Kriteriumszustand besteht. Für jede Behandlung (Treatment) lässt sich somit eine Validitätsmatrix erstellen. -> Generierung von a priori Wissen für zukünftige Entscheidungen wenn ich weiß, dass Menschen produktiver sind, wenn sie intelligent sind, weiß ich, dass ich Intelligenz messen muss und nichts anderes 7 Validitätsmatrix • Verknüpfung von Behandlung und Ergebnis = Erfolg im Kriterium • Einträge geben die Wahrscheinlichkeit dafür an, dass ein Proband mit xr und der Behandlung t den Kriteriumswert cr erlangt: p(c|xr,t). • Die Kriteriumswerte können im einfachsten Fall dichotome Kategorien (erfolgreich/nicht erfolgreich; gesund/krank) bilden; möglich sind auch kontinuierliche Abstufungen. Informationsklassen: z.B. niedriger und hoher IQ kategoriale Darstellung von Korrelationen -> zeigt Zusammenhang von Prädiktor und Outcome Kreuztabelle mit verbundenen WSK -> x²-Test kann prüfen, ob a-priori-Wissen vorliegt könnte hier auch multivariate Infos zeigen: Inf1 depr. Episode ja/nein Inf2 Wahnv. Ja/ nein Dann wären es 4 Informationsklassen Bewertung der Entscheidungsfindung • Führt die gewählte Prozedur zu Entscheidungen, die auf der Basis der gegebenen Information optimal sind? • Würde die Sammlung weiterer Informationen die Entscheidungen verbessern? • Wie groß ist der Unterschied bezüglich der Güte von Entscheidungen zwischen zwei alternativen Entscheidungsprozeduren? Erweiterung der psychologischen Diagnostik um ökonomische Komponente Inkrementelle Validität des Verfahrens 8 Bewertung von Ergebnissen • Jede Informationskategorie kann zu einer anderen Verteilung der erwarteten Ergebnisse für ein Treatment führen • Um alternative Strategien vergleichen und evaluieren zu können, muss die Wünschbarkeit jedes Kriterienzustandes bewertet werden. • Jedem Kriterienzustand wird also ein Wert zugewiesen. Für viele weitere Überlegungen sollen diese Bewertungen auf einer Verhältnisskala vorgenommen werden. „Payoff“-Funktionen: Die Beziehung zwischen Nutzen. Fähigkeit und Treatment • Im Falle eines einzelnen Treatments und der Vorhersage aufgrund kontinuierlicher Testwerte können wir „payoff“-Funktionen erstellen, die angeben, mit welchem Nutzen wir für eine Person mit einem bestimmten Wert bei dem gewählten Treatment rechnen können. Zuweisung der Person zu dem Treatment mit dem höchsten Nutzen tC und tB nicht linear im unteren Bereich alle in Treatment tA, weil es am meisten Profit verspricht, dann tB, dann tC ab einem bestimmten Wert ist es besser, Treatment A zu geben (hier etwa bei 3) 9 Vorlesung 2 Grundbegriffe der Probabilistischen Testtheorie Grundidee IRT nicht einzelne Theorie, sondern zusammenfassende Bezeichnung für eine Klasse „ähnlicher“ Modelle • Rasch Modell (auch 1 PL, dichotome Antworten ja / nein ; richtig / falsch) • Birnbaum-Modelle (dichotome Antworten, unterschiedliche Trennschärfe) • Partial-Credit-Model (mehrkategorielle Antworten, Erweiterung des 1PL) • Linear Logistisches Test Modell (LLTM) • Sowohl KTT als auch IRT wollen Personen testen, d.h. ihnen die Ausprägung eines bestimmten Merkmals zuordnen • Unterschied zur KTT: Merkmal und Verhalten im Test werden nicht gleichgesetzt • Das Merkmal ist nicht direkt beobachtbar, sondern eine latente Dimension, auf die geschlossen werden muss • Annahme: Latente Eigenschaften schlagen sich in beobachtbaren (manifesten) Antworten nieder • Wird Verhalten auf zwei Items durch die gleiche latente Variable beeinflusst, sollten diese Items korrelieren • Wenn die Testitems Indikatoren der latenten Variablen sind, kann die latente Variable als »Ursache« für die Korrelation zwischen den manifesten Variablen angesehen werden • Items korrelieren NUR, weil sie die gleiche latente Dimension erfassen -> Itemhomogenität • Voraussetzung lokale stochastische Unabhängigkeit IC-Funktion • Annahmen über Zusammenhänge der latenten Variable (Merkmalsausprägung) und der Wahrscheinlichkeit für das Auftreten bestimmter Antworten • „Herzstück“ der IRT sind die Itemcharakteristischen Funktionen (ICF), also die Darstellung dieser Beziehung zwischen der Wahrscheinlichkeit des manifesten Antwortverhaltens in Abhängigkeit von der Ausprägung einer Person auf dem zugrundeliegenden latenten Trait • Je nach Art des IRT-Modells werden zur besten Modellierung des Antwortverhaltens unterschiedliche Funktionstypen angenommen. 10 Begrifflichkeiten: ϴ (theta, manchmal auch ξ) = Ausprägung des latenten Trait σ (sigma) = Itemparameter (bei Schwierigkeit oft beta) P(ϴ) = Wahrscheinlichkeit, der Antwort bei gegebenem Fähigkeitslevel -> y-Achse Pij(ϴj; bi) = Wahrscheinlichkeit einer Person j mit Fähigkeit ϴ, das Item mit der Eigenschaft i (z.B. Schwierigkeit) zu lösen probabilistisch: mit WSK-Dimension 1 Fähigkeitsdimension (latente, nicht beobachtbare Variable) z.B. Intelligenz a: deterministisches Modell (ja/nein) g: Item ist zu 30% zu lösen, z.B. Multiple Choice mit 3 Antwortmöglichkeiten -> 3Parameter logistisches Modell Beispiel IC-Funktion Guttman Skala deterministisches Modell z.B. Wie viel wiegen Sie? <60 kg, <80 kg, < 100kg wenn VP 90 kg wiegt, sagt er erst nein und bei allen weiteren Fragen ja oder soziale Distanz/ Nähe Haben Sie etwas dagegen, wenn Ausländer in Ihre Stadt, Straße, Haus ziehen? irgendwann kippt es von nein auf ja und bleibt dabei! 11 Rasch- Modell (1PL-Modell) WSK richtig gelöst WSK falsch gelöst Gegenwahrscheinlichkeit alle Charakteristika von Items gleich, Steilheit vorgeschrieben WSK, Item zu lösen in Abhängigkeit der Ausprägung der Eigenschaft (latente Variable) Keine Rate-WSK, können nicht raten, keine Antwortalternativen Lösungswahrscheinlichkeit ist umso höher, je größer die Differenz zwischen Fähigkeit und Schwierigkeit ist bei P (0,5) ist das Item mittelschwer 1PL -> Itemschwierigkeit als einziger Parameter, der variiert Annahme: keine Lern- oder Transfereffekte 12 • Beschreibt Wahrscheinlichkeit, dass Person j mit Fähigkeit ϴ Item i mit Schwierigkeit б löst. • Wahrscheinlichkeit ist also Funktion von Personenfähigkeit und Itemschwierigkeit • Fähigkeit und Schwierigkeit werden auf einer Achse abgetragen • Reaktionen sind „lokal stochastisch unabhängig": Ob eine Person eine bestimmte Aufgabe löst oder nicht, hängt nur von ihrer Fähigkeit und der Schwierigkeit der Aufgabe ab, nicht aber davon, welche anderen Aufgaben sie bereits gelöst hat oder noch lösen wird, keine Reihenfolgeeffekte Rasch-Modell Item-Informationsfunktion Klausur: Gib an, wie gut Item differenziert/ wie hoch Informationsgehalt eines Items an einem best. Punkt ist Wieviel Information man aus einem Item ziehen kann, hängt davon an, wie ähnlich seine Schwierigkeit der Fähigkeit der Person ist 13 P= WSK richtige Antwort/ Lösungswsk Q= WSK falsche Antwort/ Komplementärwsk 0,5 * 0,5 = 0,25 Item leichter: IC + Infofunktion verschieben sich nach links Item schwerer: nach rechts Max. Info über Person; differenziert besonders gut in Mitte Rasch-Modell IC-Funktionen unterschiedlich schwerer Items Implikation: Man braucht verschieden schwierige Items, um über alle Personen möglichst viel Information zu bekommen bei schwierigen Items wird die Kurve nach rechts verschoben Items unterscheiden sich nicht in Trennschärfe -> Steigung immer gleich Rasch-Modell Testcharakteristische Funktion • ICF bilden die Wahrscheinlichkeit ab, dass Person das Item richtig beantwortet • TCF macht das gleiche für den ganzen Test: Für jede Fähigkeit zeigt sie den erwarteten Testscore • Beobachtbarer Testscore: Bei 5 Items kann der Wert zwischen 0 und 5 liegen 14 • Für jedes Item gibt es eine Lösungswahrscheinlichkeit bei gegebener Fähigkeit • Summe dieser Wahrscheinlichkeiten = erwarteter Testscore Lösungswahrscheinlichkeiten addieren: 0,1 + 0,25 + 0,5 + 0,8 + 0,85 = ca. 2, 5 = erwarteter Testwert für Personen mit mittlerer Fähigkeit wenn ϴ=-1: 0,05 + 0,1 + 0,25 + 0,7 + 0,85 = 1,95 (erwarteter Testscore) Rasch-Modell Testinformationsfunktion Klausur: zeichnen und definieren können • Ebenfalls Analog zur Iteminformationsfunktion: Wieviel Information bekomme ich durch den Test über die Person? • Testinformationsfunktion = Summe aller Iteminformationsfunktionen alle blauen Kurven addiert = rote Kurve • Sagt die Genauigkeit vorher, mit der man jede Ausprägung der latenten Eigenschaft messen kann 15 hier sieht man, dass der Test in der Mitte differenziert und an den Rändern nicht Maximum sollte zwischen 2 bis -2 liegen Rasch-Modell Standardfehler Klausur: Wie berechnet man den Standardfehler? testcharakteristische Funktion in KTT = Konstante (nur abhängig von Reliabilität) Varianz des Tests ist der gegenläufige Wert der Testinformationskurve SEM = Standardfehler ist die Wurzel aus der Varianz wo Test am besten funktioniert, ist Standardfehler am kleinsten 16 Standardfehler wird breiter, wenn Testinfo breiter -> auch an Rändern mehr Info (kleinerer Fehler an Rändern) Viele Items über Spektrum verteilt -> gute Differenzierung wir messen schlecht, wo wenig Infos vorliegen blau = Testinformationsfunktion rot = Standardfehler (flacher wg. Wurzel) Rasch- Modell Fähigkeitsbestimmung Sinn und Zweck eines Tests: Bestimmung der Ausprägung einer Person auf der latenten Dimension von 5 Items 1 gelöst = -2,2 Fähigkeit 17 • Für jeden Test gibt es eine Reihe von Antwortmustern, die sich gegenseitig ausschließen -> lokale stochastische Unabhängigkeit • bei k Items: 1+k Antworten (0, 1,….,k), k² Antwortmuster, bei 5 Items z.B. 32 • Wir wollen nun wissen, mit welcher Wahrscheinlichkeit eine Person mit einer bestimmten Fähigkeit ein bestimmtes Antwortmuster erreicht • Für jedes Einzelitem: bzw. (1- ( )) • Da lokal stochastisch unabhängig: -> Likelihood-Funktion: Wahrscheinlichkeit eines Antwortmusters für eine Person bei gegebener Fähigkeit und Itemparametern • Eine Likelihood-Funktion für jedes Antwortmuster, die in der Summe auf jeder Stufe von Theta 1 ergeben. 18 • Wahrscheinlichkeit (probability) vs. Likelihood: Wahrscheinlichkeit von Antwort bei gegebener Fähigkeit vs. Likelihood von Fähigkeit bei gegebener Antwort • Maximum Likelihood: Die Fähigkeit, die bei beobachtetem Antwortmuster und gegebenen Itemparametern die höchste Likelihood hat = Schätzung • Fähigkeitsparameter sind unabhängig davon, welche Items richtig beantwortet wurden, sondern nur davon, wie viele. • Likelihoodfunktionen für Antwortmuster mit der gleichen Anzahl korrekter Antworten peaken auf dem gleichen Level 19 Rasch- Modell Modelltest • Itemhomogenität • Anzahl der gelösten Items reicht aus, um Fähigkeitsparameter zu bestimmen -> Erschöpfende Statistiken • Stichprobenunabhängigkeit/Spezifische Objektivität von Item- und Personenparameterschätzungen -> Der Vergleich je zweier Items ist unabhängig davon, welche Personenstichprobe zur Schätzung verwendet wird -> Der Vergleich zweier Personen ist unabhängig davon, welche Itemstichprobe verwendet wurde • Unabhängigkeit der Parameterschätzungen -> Annahmen können getestet werden und müssen nicht als geltend angenommen werden -> Adaptives Testen wird möglich Empirische Modellkontrollen: Unterteilung der Stichprobe anhand eines Merkmals und Vergleich der Itemparameter -> Test der Stichprobenunabhängigkeit/spezifische Objektivität Graphischer Modelltest Nicht exakt, aber anschaulich! Hinreichend große Stichprobe wird in niedrige und hohe Ausprägung geteilt oder in Deutschland/ Schweiz Geschätzte Itemparameter werden eingetragen, Stichprobe 1 & 2 sollten gleich sein Abweichungen von Grade deuten auf Nicht-Gelten des Rasch-Modells hin -> Item kann man aber rausnehmen! 20 21 • Person-Fit-Indizes • Globale Modelltests, z.B. Chi-Quadrat, Bootstrap • Relative Modellvergleiche, z.B. AIC, BIC Partial Credit Model 3 verschiedene Lösungsmöglichkeiten 1 Fähigkeitsdimension: probabilistische Beziehung zum Antwortverhalten teilweise Punkte möglich schwarz: total falsch blau: Teil 1 richtig, Teil 2 falsch -> Teilpunkte, deshalb partial credit rot: total richtig WSK, 1 Punkt zu erhalten ist im mittleren Fähigkeitsbereich am höchsten oder Offenheitsitem „Ich gehe gern auf Partys“ Schwarz: niedrige Offenheit, trifft nie zu, hohe WSK blau: mitteloffen, hin und wieder rot: trifft zu an den Kreuzungen der Verläufe sind die Schwellenpunkte 22 Lokale stochastische Unabhängigkeit Klausur: Wie prüft man die lokale stochastische Unabhängigkeit? lokal: auf best. Stufen der Fähigkeit sollten Items unabhängig sein KTT: Annahme, dass alle Items gleiches latentes Konstrukt messen IRT: dies wird geprüft • Wenn alle Items Indikatoren für das gleiche latente Konstrukt sind, entstehen Korrelationen zwischen Items nur durch Unterschiede in Ausprägung der latenten Dimension • Hält man die Ausprägung/ Varianz konstant (z.B. nur Personen mit IQ von 100), sollten die Korrelationen der Items verschwinden -> Lokale stochastische Unabhängigkeit und Itemhomogenität -> Empirisch prüfbare Annahme (Unterschied zur KTT) • Wahrscheinlichkeit für Lösung zweier Items bei Vorliegen eines Wertes Theta ist also die multiplizierte Einzelwahrscheinlichkeit 23 Item i einfacher, weil .60 > .40; höhere Lösungswsk lokale statistische Unabhängigkeit mit Korrelationsmatrix prüfen: wenn alle Items glich gepolt sind, sollten sich positive Korrelationen ergeben (oder 0, aber selten), aber keine komischen Korrelationsmuster (negativ, 0,positiv) Produkt der 2 Lösungswsk wäre .24 (.60*.40), wenn Items unabhängig aber es ist .33, d.h. in ausgelesener SP abhängig Wenn man die SP aufteilt in hohe (c) und niedrige Fähigkeit (b), sind die Randsummen doch richtig (.30*.10=.03 und .90*.70=.63), dann r=0 -> (b) und (c) sind stochastisch unabhängig, lokale stochastische Unabhängigkeit liegt vor -> bei (a) nicht WSK Item j und i zu lösen WSK Item i zu lösen WSK Item j zu lösen wenn man Fähigkeit konstant hält, ist kein korrelativer Zusammenhang mehr vorhanden -> wenn alle Items gleiches messen, entsteht Korrelation zwischen den Items nur aufgrund der latenten Fähigkeit (und sonst nix) 24 Anwendung: Adaptives Testen Adaptives Testen: mit möglichst wenig Items den höchsten Infogehalt bekommen (sehr vorteilhaft, oft gleich gute Ergebnisse wie bei Durchführung des gesamten Tests) • Zur genauen Bestimmung der Personenparameter sind möglichst viele, möglichst unterschiedlich schwierige Items notwendig -> unökonomisch • Vorteil: die Items, deren Schwierigkeit die der Fähigkeit der Person entsprechen, sind am informativsten, man braucht eigentlich nur die Wenn wir Fähigkeit nicht wissen, fangen wir ca. in der Mitte an; löst er das Item, wird das nächst schwierigere genommen usw. • Tailored (jedes Item wird anhand des vorherigen ausgewählt, Start mit Itemparameter von 0) & branched testing (einzelne Subtests werden ausgewählt) • Beispiel: Adaptives Intelligenzdiagnostikum (AID-2) von Kubinger & Wurst (2000) -> Bei allen Testformen wichtig, extrem gut kalibrierten Itempool zu haben 25 2 Parameter logistisches Modell (Birnbaum-Modell) IC-Funktion 2. Parameter: a = Diskriminationsparameter, wie gut kann das Item differenzieren?/ Trennschärfe immer noch dichotom: ja/ nein oder nicht gelöst/ gelöst Steigung des Items: Ausmaß, in dem ein Item an einer bestimmten Stelle differenziert also unterschiedliche Steigung/ Steilheit Klausur: Skizzieren Sie 2 Items aus 2PL-Modell & Iteminformationskurve. grün trennt nicht so gut, ist aber schwieriger Schwierigkeit schwarz und blau ist gleich blau differenziert mehr 26 2 Parameter logistisches Modell (Birnbaum-Modell) Item-Informationsfunktion 2 Parameter logistisches Modell (Birnbaum-Modell) Item-Response-Funktion und Testinformationsfunktion 27 3-Parameter-logistisches Modell 3. Parameter: Ratewahrscheinlichkeit, hier 1/8 setzt die untere Asymptote Schwierigkeit = c + (1-c)/2 = 0.2 + (1-0.2)/2 = 0.2+0.4 = 0.6 Klausur: 3 Modelle unterscheiden können, für was sind sie gut, z.B. adaptives Testen? Vorlesung 3 Klinische vs. Statistische Urteilsbildung Urteile/ Vorhersagen als Ziel von Diagnostik • Ein Patient berichtet mehrdeutige Symptome – Therapie oder auch (potentiell nebenwirkungslastige) Medikation? • Ältere Patientin berichtet Gedächtnisverlust, der Neuropsychologe soll eine progressive neurologische Erkrankung testen • Bei einem Patienten wird Krebs im Endstadium diagnostiziert, er fragt den Arzt, wie lange er noch zu leben hat -> Optimale Planung und Behandlung hängen von der Beurteilung des Diagnostikers ab 28 Klinische Vorhersage und Akkuratheit • Akkuratheit (über viele Situationen und Targets hinweg) Welcher Beurteiler ist besser? Güte einer Beurteilung in Formel ist die euklidische Distanz enthalten (kürzeste Entfernung zwischen 2 Punkten) Akkuratheit von Vorhersagen • Elevation: Übereinstimmung der durchschnittlichen Vorhersage des Beurteilers mit dem durchschnittlichen Wert der anderen Beurteiler • Differential Elevation: Fähigkeit des Beurteilers, die Abweichungen der Personen vom Mittelwert richtig vorherzusagen/ Sensitivität des Beurteilers für zeitliche Veränderungen • Stereotype accuracy: Fähigkeit des Beurteilers das durchschnittliche Antwortverhalten über alle Personen hinweg vorherzusagen • Differential accuracy: Inwiefern stimmen die Beurteilungen der Unterschiede zwischen Personen für jedes Item mit wahrem Unterschied überein ob wir einschätzen können, ob eine eigentlich ungeeignete Person in einem anderen Bereich doch geeignet ist 29 Empirische Untersuchung klinischer Urteile Brunswiks Linsenmodell links: wahrer Wert, z.B. Alkoholkonsum linke und rechte Seite müssen nicht gleich sein, kann aber Kliniker könnte aus Erfahrung einen Wert anders gewichten als links cues/ Hinweisreize sind nicht immer klar, bei intuitiven schwer fest zu machen Klinische vs. Statistische Vorhersage • Klinische Vorhersage: Informationen werden vom Kliniker selbst interpretiert, er kommt durch Überlegungen zu seiner Entscheidung, „intuitive“ Urteilsbildung -> Fachwissen, Erfahrung, Intuition • Statistische Vorhersage: Entscheidungen werden einzig und allein auf der Basis empirischer Zusammenhänge zwischen Kriterien und dem Outcome getroffen -> automatic and based on empirical relations, z.B. Regressionsgleichung Kombination von Regeln, die an Gruppen gewonnen wurden, auf individuelle Fälle anwenden • Auch Kombination von beidem möglich, jedoch Problem der Übereinstimmung 30 Grundproblem: Was ist besser? zum Vergleich sollten genau die gleichen Daten dem Kliniker + dem Statistikprogramm zur Verfügung gestellt werden das gleiche Kriterium wird vorhergesagt + geschaut, welche Vorhersage besser ist Vergleichsstudien (z.B. Meehl): Statistisches ist klinischem Urteil vorzuziehen, jedoch…. Datenerhebung –und Kombination (Sawyer, 1966) Unterscheidung zwischen Datenerhebung und – kombination: Datenerhebung: Wie wird die Information generiert? Kombination: Wie kommt man aus den Daten zu einem Urteil? mechanical data collection = rules can be prespecified so that no clinical judgment needs to be involved in the procedure clinical data collection (z.B. Interview) statistical (mechanical) combination of data clinical combination 31 1.Pure clinical: Clinically collected data, clinically combined Der Kliniker trifft ein Urteil anhand Information aus z.B. Interview oder persönlicher Beobachtung 2. Trait ratings: Clinically collected data, mechanically combined z. B. Rating von Interviews nach klar festgelegten Kriterien 3. Profile Interpretation: Mechanically collected data, clinically combined z.B. Kliniker benutzt Testscores, um zu Urteil zu kommen, Personaler benutzt Ergebnis von Assessment Center zur Entscheidung 4. Pure statistical: Statistically collected data, mechanically combined Verschiedene Testscores werden in einer Regression zur Vorhersage genutzt 5. Clinical composite: both methods of collection, clinically combined z. B. Testsscores und Interview werden zum Urteil herangezogen 6. Mechanical composite: both methods of collection, mechanically combined z.B. Testscores und Interview werden in Regressionsgleichung überführt Synthese: Die jeweils eine Methode wird als erster Schritt vor die zweite geschaltet 7. Clinical synthesis: Mechanisch gebildetes Urteil wird als Bezugspunkt für klinisches Urteil genutzt (1+3+6, Ich entscheide, ob und wie ich das mechanische Urteil gewichte) 8. Mechanical synthesis: Klinisches Urteil fließt in Mechanisches (Regressionsmodell) ein 32 Vergleich der Methoden Untersuchung von Studien, in denen Verhaltensvorhersage durch klinische und statistische Urteilsbildung verglichen wurde Schlussfolgerungen • Mechanische Modelle der Datenkombination besser, unabhängig von der Erhebungsmethode • Klinische Sammlung von Daten alleine immer schlechter, egal wie kombiniert wird • Effektivste Methode ist die der mechanischen Komposition, Verfügbarkeit klinischer Vorhersage als Information in mechanischer Synthese bringt keine zusätzliche Verbesserung Fazit: Statistische Vorhersage trägt in fast allen Fällen mehr zur Korrektheit des Urteils bei Aber: beste Methode bezieht klinisches Urteil mit ein Meta-Analyse von Aegisdottir (2006) für Klausur wichtig • Zusammenfassung der Clinical vs. Statistical Debatte • Argumente für die klinische Methode (Holt, 1958): Akkuratheit der Prädiktoridentifikation und –integration nur durch Erfahrung und Training möglich • Jedoch: Reviews und Metaanalysen zeigen konsistent den Vorteil statistischer Methoden • Aber kaum Einfluss auf die klinische Praxis 33 • Kliniker sind mit den Befunden nicht vertraut, • “glauben” die Befunde nicht, • glauben, dass die Vergleiche zugunsten der statistischen Vorhersagen verzerrt waren. • Die meisten Kliniker schätzen “interpersonal sensitivity”. Sie sehen in der Anwendung statistischer Form eine Dehumanisierung. • Überzeugung, dass gruppenbasierte Statistiken und nomothetische Regeln nicht auf den Einzelfall angewandt werden können. •Praktiker unterliegen einer konfirmatorischen Verzerrung (Belege für gute Vorhersagen werden besser erinnert als das Scheitern). • Neuer Versuch der Meta-Analyse für die Beratungspsychologie • Vergleich von statistischen Modellen und Urteilen von Mental Health Professionals • Identifikation von Moderatoren der Zusammenhänge (z.B. Setting, Jahr, Validität der Prädiktoren etc.) • Identifikation von 60 Studien mit 173 Effektstärken • AV: Genauigkeit des Urteils (gemessen an z.B. Rückfallrate und tatsächlicher Diagnose) Befundlage wie 50 Jahre zuvor 12% zusätzliche Varianz werden durch statistische Vorhersage aufgeklärt effect size -.12 (relativ klein, aber nicht zu vernachlässigen) Implikationen • Wenn möglich, statistische Methoden zur Vorhersage einbeziehen • Aber: nicht alles statistischen Formeln sind gleich gut • Praktiker sollten sich mit statistischen Methoden beschäftigen und in diesen ausgebildet werden • Und diese auch in ihr Urteil einfließen lassen • Prävalenz – und Basisraten sollten einbezogen werden, um Wahrscheinlichkeiten besser abschätzen zu können • Praktiker sollten ihr eigenes Urteil kritisch hinterfragen Schlussfolgerungen Notwendigkeit statistische Vorhersagemodelle zu entwickeln • Identifikation relevanter Prädiktoren • Erstellung eines Modells 34 • Optimale Regressionsgleichung ermitteln (möglichst gute Vorhersage mit möglichst wenig Prädiktoren) • Ausreichend große, repräsentative Stichprobe • Kreuzvalidierung • Stichproben kombinieren und endgültige Gleichung erstellen Goldberg`s (1970) Daumenregeln für die „klinische“ Praxis 1. Wenn Kriteriumsinformation vorliegt, sammle sie und nutze sie um statistische Methoden der Datenkombination zu entwickeln. (Dies ermöglicht es den Klinikern, ihre Zeit zu nutzen, um ihre Fähigkeiten in der Beobachtung zu entwickeln und somit ihrer angemessenen Rolle als Datensammler gerecht zu werden). 2. Wenn keine Kriteriumsinformation vorliegt (z.B. für die Tendenz sich selbst zu töten), es aber viele klinische Beurteiler mit Erfahrung in der Aufgabe gibt, dann benutze das gemittelte Urteil der erfahrenen Beurteiler (unter der Bedingung, dass die damit verbundenen hohen Kosten gerechtfertigt sind). 3. Wenn keine Kriteriumsinformation vorliegt und es viele klinische Beurteiler mit Erfahrung in der Aufgabe gibt, dann mittle ihre Urteile und suche den Kliniker, der am höchsten mit dem mittleren Urteil übereinstimmt, modelliere sein Urteilsverhalten (durch lineare Regression) und nutze das Modell für die Vorhersage. 4. Wenn keine Kriteriumsinformation vorliegt und es einen klinischen Beurteiler mit Erfahrung in der Aufgabe gibt, dann modelliere sein Urteilsverhalten (durch lineare Regression) und nutze das Modell für die Vorhersage anstelle des Beurteilers (aus ökonomischen Gründen). Vorlesung 4 Vorhersagemodelle: Regression, Moderator- und Suppressoreffekte Multiple Regression • Wir sind an der Analyse von Zusammenhängen interessiert, z.B. welche Variablen sind gute Prädiktoren von Rückfall bei jugendlichen Straftätern? • Identifikation von Prädiktoren • Tragen diese Prädiktoren zusätzlich zu anderen zur Varianzaufklärung bei? -> Inkrementelle Validität Zuwachs der Vorhersagegüte, den ein Prädiktor über einen bereits vorhandenen Prädiktor liefert • Auch abhängig von Korrelation der Prädiktoren untereinander 35 Venn-Diagramm A: z.B. das was Dominanz und Führung allein gemeinsam haben Überschneidungen = Korrelationen • Vorhersage wird besser, wenn Prädiktoren hoch mit Kriterium und niedrig untereinander korrelieren • Jedoch ist auch der umgekehrte Fall möglich, Vorhersage wird besser wenn neuer Prädiktor niedrig mit Kriterium, aber hoch mit anderen Prädiktoren korreliert. Kreuzvalidierungen sind unverzichtbar, wenn aus einem Satz von möglichen Prädiktoren die besten ausgewählt werden (sonst werden Korrelationen erhöht verzerrt). Korrekturformeln liefern realistischere Werte als Kreuzvalidierungen, wenn ein fester Satz von Prädiktoren verwendet wird, aber Auswahl besser als fester Satz. Suppressoreffekte S korreliert nicht mit Kriterium, aber mit Prädiktor bereinigt Prädiktor um kriteriumsirrelevante Varianz (bindet Fehlervarianz) • Kriteriumsirrelevante Varianzanteile werden „unterdrückt“ Bsp: AV = tatsächliches Gewicht UV1 = Gewicht mit Kleidern UV2 = Gewicht der Kleider UV2 abziehen, bindet Störvarianz, die in UV1 ist UV2 hat nix mit AV zu tun (korreliert nicht mit Kriterium) 36 Verschiedene Arten von Suppression Prädiktoren korrelieren miteinander; einer positiv, anderer negativ mit Kriterium -> beide werden verbessert Suppressoreffekte – Beispiele 4. Prädiktor (verbal ability) korrelierte gar nicht mit Kriterium Vorhersage besserte sich aber, wenn man ihn mit rein nimmt -> weil verbal mit anderen Aufg. korreliert, verbal wird rausgerechnet, „reinerer Anteil“ bleibt übrig 37 Besser in Modell 2, wenn Scham & Schuld reingenommen werden Validitätssteigerung durch Supressoreffekte 38 Abhängig von: • Korrelation zwischen Prädiktor und Supressor • Test-Kritieriumsvalidität Es kann gezeigt werden, dass die Supressorvarianz viermal soviel Varianz der Prädiktorvarianz erklären muss wie ein weiterer Prädiktor an der Kriteriumsvarianz, um die gleiche Validitätssteigerung zu erzielen. Moderatoreffekte • Der Zusammenhang zwischen einem Prädiktor und einem Kriterium (bzw. die Validität eines Zusammenhangs) ist nicht für alle Personen gleich (z.B. bei Männern und Frauen verschieden) • Ausprägung einer Moderatorvariable verändert den Zusammenhang zwischen x und y (Im Extremfall zeigt er ihn erst auf) • ≠ Mediator (vermittelt den Zusammenhang zwischen x und y), Zusammenhang verschwindet, wenn ich Mediator rausnehme Moderatoreffekte bei kategorialen Variablen Klausur: Wie würde ich bemerken, ob ein Moderatoreffekt vorliegt? will schauen, ob auf verschiedenen Stufen Zusammenhang verschieden ist • Identifikation von Variablen • Einfachster Fall: Stichprobe unterteilen (Fraktionierung) • Validitätskoeffizienten berechnen und vergleichen, bei signifikanten Unterschieden liegt Moderatoreffekt vor • Wann ist das sinnvoll? Wenn Merkmal natürlich dichotom oder mehrklassig diskret (z.B. Nationalität, Geschlecht, Haarfarbe) • Und wann nicht? Wenn Merkmal kontinuierlich (z.B. IQ, Alter), da Vergrößerung des Stichprobenfehlers (Aufteilung willkürlich, keine mathematische Modellierung möglich) 39 Moderatoreffekte bei kontinuierlichen Variablen Saunders (1956): Aufnahme des Moderators in die Regressionsgleichung: y = a + bx Auf jeder Stufe des Moderators z wird nun eine andere Steigung angenommen y = c + dx + ez + fxz wird Produkt aus fxz (entspricht Interaktionsterm) signifikant -> signifikanter Moderationseffekt Interpretation analog zu Interaktion in Varianzanalysen Rechenbeispiel • Zusammenhang von Altersbild und Lebenszufriedenheit • X = Altersbild, Y = Lebenszufriedenheit, M = Alter Annahme: Je älter, desto stärker Zusammenhang Altersbild + Lebenszufriedenheit 1. Schritt. Neue Variable bilden (Produkt aus Prädiktor + Moderator) vorher zentrieren -> Multikollinearität verringern 40 2. Schritt: Multiple Regression rechnen Beispiele für Moderatoreffekte in der Psychologie 41 Vorlesung 5 Zuordnungs- und Klassifikationsstrategien • Zentrales Ziel von diagnostischen Entscheidungen: Möglichst fehlerfreie Zuordnung zu verschiedenen Kriteriumsklassen (gesund/krank, einstellen/ablehnen, fähig/unfähig….) Wichtige Begriffe & Definitionen • Grund-/ Basisrate = Häufigkeit des Auftretens eines Merkmals in der Population = TP+FN/alle Natürlicher Eignungsquotient Kann selten tatsächlich bestimmt werden, sondern muss geschätzt werden • Selektionsrate = Anzahl der auszuwählenden Personen an der Grundgesamtheit (z.B. offene Stellen) • Validität des Instruments Entscheidungsfehler 2 Fehlerarten: FN (falsch- negativ), die wir nicht entdecken FP (falsch-positiv): die wir als depressiv bezeichnen, obwohl sie es nicht sind 42 1. Sensitivität: Wahrscheinlichkeit, mit der ein vorliegender positiver Zustand auch als solcher erkannt wird (z.B. Anteil der richtig diagnostizierten Kranken an der Gesamtgruppe der Kranken) -> Hoch ausgeprägt, wenn viele RP und wenige FN -> Möglichst kein geeigneter soll abgelehnt werden 2. Spezifität: Wahrscheinlichkeit, mit der ein vorliegender negativer Zustand als solcher erkannt wird (z.B. Anteil der richtig diagnostizierten Gesunden an der Gesamtgruppe der Gesunden) -> Hoch ausgeprägt, wenn viele RN und wenige FP -> Möglichst kein ungeeigneter soll ausgewählt werden 3. Positiver Prädiktionswert: Wahrscheinlichkeit, mit der eine positive Diagnose zutreffend ist (z.B. Anteil der tatsächlich Kranken an allen als krank diagnostizierten Personen) -> Effizienz des Auswahlverfahrens/ Selektiver Eignungsquotient 4. Negativer Prädiktionswert: Wahrscheinlichkeit, mit der eine negative Diagnose zutreffend ist (z.B. Anteil der tatsächlich Gesunden an allen als gesund diagnostizierten Personen) 43 BR, SR und Validität bestimmen den Ausgang der Entscheidungsstrategie Cut-Off erhöhen, wenn es uns ganz wichtig ist keine FP zu haben 44 Klausur: Rechnungen können wenn Prävalenz hoch ist, bessere Vorhersagewerte Massenscreening ungenau, danach spezifische Tests nötig (fiktives) Beispiel Ein Arzt teilt Ihnen mit, dass Sie Brustkrebs haben. Sie wissen: • 1 % der Frauen erkranken an Brustkrebs (Basisrate) • Davon werden 90 % korrekt diagnostiziert (Sensitivität) • 9 % aller gesunden Frauen werden fälschlich diagnostiziert (False Positive) Wie hoch ist die Wahrscheinlichkeit, dass Sie tatsächlich Brustkrebs haben? a) 90% b) 81% c) 10% d) 1% Positiver Prädiktionswert (Anteil der tatsächlich kranken an den als krank diagnostizierten) = TP/(TP+FP) = 9/(9+89) = 9% 45 Entscheidungsregeln Es ist immer wichtig, die Entscheidung im Kontext zu treffen und sich zu verdeutlichen, was Entscheidungsfehler bedeuten. Danach sollten die Entscheidungsregel ausgewählt werden. • Neymann-Pearson Kriterium Analog zur statistischen Hypothesentestung wird die Wahrscheinlichkeit des Alpha-Fehlers angepasst (z.B. α ≤ .05) Beta-Fehler steigt entsprechend an • Minmax- Kriterium Maximaler Zuordnungsfehler über alle Klassen wird möglichst klein gehalten nicht immer machbar • Minimum Loss- Kriterium Über alle Klassen hinweg wird der Zuordnungsfehler minimiert 46 Zuordnungsmethoden Ein Entscheidungsfehler setzt voraus, dass eine Entscheidung statt gefunden hat. Diese kann ebenfalls durch verschiedene Methoden bestimmt werden. • Zugehörigkeitswahrscheinlichkeiten mit Hilfe von Likelihoodquotienten jedes Individuum wird der Klasse zugeordnet, der es am wahrscheinlichsten angehört • Regressionstechniken Einsetzen individueller Pädiktorwerte in die Regressionsformel und Berechung des Kriteriumswertes, Vergleich mit vorher bestimmtem Cut-Off-Wert • Diskriminanzanalyse Kritischer Diskriminationswert, der alle Klassen voneinander trennt wird verglichen mit Ergebnis einer Diskriminanzfunktion, in die individueller Messwert eingeht steckt Regressionsanalyse dahinter, aber einfacher • Ähnlichkeits- oder Distanzmaße Vergleich des individuellen Testprofils mit durchschnittlichem Profil der unterschiedlichen Klassen unsystematischer, gibt keine Trennwerte, nur ob nah oder weit weg Festsetzung von Testtrennwerten • Je weiter man den Cut-Off Richtung Merkmal verschiebt, desto geringer wird der Fehler erster Art -> Positiver Prädiktionswert wird besser • Jedoch vergrößert sich dadurch beta • Grundquote von Bedeutung • ROC-Kurven zur Bestimmung von Sensitivität und Spezifität unabhängig von der Basisrate Verteilung in den jeweiligen Gruppen muss bekannt sein ROC-Kurven Kombinationen von Sensitivität und Spezifität werden für alle möglichen Trennwerte eines Tests abgetragen Verhältnis von Sensitivität (TP Rate) und 1 – Spezifität (FP Rate) 47 Sensitivität auf x1 erhöhen -> 1-Spezifität wird auch höher -> Spezifität geringer Anteil der Kurve sollte möglichst hoch sein ______ Uninformative Kurve/ schlechteste ROC-Kurve: Sensitivität = 1-Spezifität, TP=FP _______ Maximal informative Kurve • Problem: Keine eindeutige Lösung möglich • Selbst wenn „klare“ methodische Berechnung der Trennwerte, müssen Fehlermöglichkeiten bewertet werden • Festlegung von Trennwerten nicht allein wissenschaftlich begründbar, sondern auch Berücksichtigung persönlicher, sozialer, ökonomischer u. praktischer Aspekte • Fairnessaspekte müssen berücksichtigt werden Vorlesung 6 Konstruktvalidität Wie gut misst mein Konstrukt das, was es wirklich messen soll? • Verwendung vieler unterschiedlicher Methoden in der psychologischen Diagnostik • Validität der Erhebung eines Merkmals kann so bestimmt werden • Intendierte Aussagen über das Merkmal, sollen weniger von der Erfassungsmethode als durch Merkmalsausprägung bedingt sein • Messung zweier unterschiedlicher Konstrukte sollte sich unterscheiden -> Nomologisches Netzwerk (Netzwerk von Begriffen) 48 • Ein Maß eines Konstrukts sollte mit anderen Maßen desselben Konstrukts hoch korrelieren (HAWIE und IST, beides misst Intelligenz) • Es sollte mit Maßen anderer Konstrukte in der Höhe der Korrelation der Konstrukte korrelieren. • Eigenschaftsfaktoren (latent, beeinflussen Messung) • Methodenfaktoren (Varianzquelle durch best. Methoden, z.B. Antworttendenzen) • Konvergente Validität • Diskriminante Validität Multitrait-Multimethod-Analyse (Campbell & Fiske, 1959) Literatur: Eid, Nussbeck & Lischetzke, 2006 Vier Aspekte des Validierungsprozesses n. Campbell & Fiske (1959) 1. Zum Nachweis der Validität muss gezeigt werden, dass verschiedene unabhängige Methoden zur Erfassung eines Merkmals konvergieren (das gleiche messen) (konvergente Validität). Im Idealfall kommen verschiedene Methoden zum selben Ergebnis in Bezug auf die Merkmalsausprägung. 2. Eine Messmethode eines Merkmals muss diskriminante Validität aufweisen, das heißt diese Methode darf nicht hoch mit Messmethoden anderer Merkmale zusammenhängen, von denen es hinreichend verschieden sein soll. Wenn ich was anderes messe, soll auch was anderes rauskommen. 3. Jede Messmethode (z. B. Test, Fragebogen) stellt eine Trait-Methoden-Einheit dar, d. h. interindividuelle Unterschiede, die anhand dieser Methode festgestellt werden, spiegeln sowohl Unterschiede wider, die auf Merkmalsunterschiede (Trait-Unterschiede) zurückgeführt werden, als auch Unterschiede, die durch die Messmethode bedingt sind und nichts mit dem Inhalt des Merkmals zu tun haben. Methodenfaktor wird immer auch mit erfasst -> wollen wir nicht! 4. Um die diskriminante Validität und den relativen Anteil von Trait- und Methodenvarianz abschätzen zu können, müssen mehr als ein Merkmal (Trait) und mehr als eine Methode im Validierungsprozess berücksichtigt werden. Faustregel: mind. 3 Traits x 3 Methoden 49 Multitrait-Multimethod-Matrix T1 + 2 + 3 = Traits wie Intelligenz, Depression u. Persönlichkeit jede Eigenschaft wurde mit jeder Methode gemessen Erwartung: diskr. Sollte immer geringer sein als konvergente konvergente: gleiches Trait mit unterschiedl. Methoden gemessen diskr.: gleiche Methode, versch. Traits Kriterien zur Bewertung einer MTMM-Matrix Klausur: Kriterien können Konvergente Validität 1. Die Werte auf der Validitätsdiagonalen sollten signifikant von null verschieden und genügend hoch sein. Diskriminante Validität 2. Die Werte auf der Validitätsdiagonalen sollten höher sein als die anderen Werte in derselben Zeile und Spalte (im selben Block mit konv. vergleichen) des dazugehörigen Heterotrait-Heteromethod Blocks. Dieses Kriterium stellt diskriminante Validität sicher, da die Korrelationen zwischen verschiedenen Traits (gemessen mit zwei verschiedenen Methoden) geringer sein sollten als die Korrelationen für einen Trait (gemessen mit diesen beiden verschiedenen Methoden). 3. Die Monotrait-Heteromethod-Korrelationen (einer Variablen) sollten höher sein als die Heterotrait-Monomethod-Korrelationen (dieser Variablen). Auch dieses Kriterium betrifft vor allem die diskriminante Validität, da die Korrelationen zwischen verschiedenen Traits, wenn sie mit derselben Methode erfasst wurden, geringer sein sollten als die Maße der konvergenten Validität. x darf mit nix höher korrelieren als mit sich selbst, egal, wie es gemessen wird 4. Die Interkorrelationen zwischen verschiedenen Traits sowohl in den Monomethod-Blöcken als auch in den Heteromethod-Blöcken sollten ein ähnliches Muster aufweisen. Dieses Kriterium betrifft die diskriminante Validität, da der Zusammenhang zwischen verschiedenen Traits unter allen Messbedingungen ähnlich sein sollte. Rangreihen sollten bei jeder Methode ähnliches Muster haben 50 Früher hat man geschaut: Wie oft wird das Kriterium der divergenten Validität für Trait x in folgendem Beispiel verletzt? (Beispiele) Einschränkungen der MTMM-Matrix • Schwierig, wenn die Verfahren unterschiedlich reliabel sind (je geringer die Reliabilität, desto geringer die mögliche Korrelation) • Keine statistische Hypothesenprüfung möglich • Subjektive Auswahlkriterien • Erst statistisches Modell erlaubt die Erklärung und Trennung von Methoden- und Traiteinflüssen -> Weiterführung des Ansatzes durch SEM (Konfirmatorische Faktorenanalyse) Gute Tests/ Konstrukte: Hohe Traitladungen (konv. V.) geringe Residuen geringe Methodenvarianz Strukturgleichungsmodelle Klausur: Modelle können 51 Correlated Trait Modell • Beobachtete Variable lässt sich nur in Trait und Residuum zerlegen • Der durch den Traitfaktor erklärte Varianzanteil einer beobachteten Variable ist die konvergente Validität • Residualvariablen repräsentieren unsystematische, für die Trait-Methodeneinheit spezifische Messfehler- und Methodeneinflüsse • Korrelation der Traitfaktoren = diskr. Validität Correlated Trait – Correlated Uniqueness Modell • Korrelationen zwischen den Residuen derselben Methode werden zugelassen • Jedoch keine Trennung von systematischen (Methode) und unsystematischen (Messfehler) Einflüssen möglich • Korrelationen der Residuen zwischen verschiedenen Methoden werden nicht zugelassen 52 Correlated Trait – Uncorrelated Method Modell • Korrelationen der Residuen werden durch Methodenfaktor erklärt – Trennung von Messfehler und Methodeneinfluss möglich • Durch Traitfaktor erklärter Varianzanteil = konvergente Validität • Durch Methodenfaktor erklärter Varianzanteil = Methodenspezifität • Korrelation der Traitfaktoren = diskriminante Validität • Methodeneffekte sind unkorreliert wenn Methode Effekt hat, Einfluss auf Traits Correlated Trait Correlated Method-Modell – meist nicht identifizierbar Zusammensetzung der Varianz Varianz von B3 (Extraversion im Peer-Bericht) setzt sich zusammen aus: • Traitvarianz = .67*.67 = .45 • Methodenvarianz = .27*.27 = .07 • Fehler = 1 – (.45+.07) = .48 53 Correlated Trait Correlated Method (-1) Modell 1 Methodenfaktor raus 5 Parameter müssen nicht geschätzt werden fehlende M1 ist Referenzmethode -> Methode wird als Standardmethode eingesetzt, die anderen mit dieser kontrastiert • Methodeneffekte sind die Residuen bzgl. der Referenzmethode, also der Varianzanteil des Indikators, der nicht durch die Referenzmethode erklärt werden kann. wenn Traits unabhängig + kein Methodenfaktor -> nur konvergente V. wäre ausgeprägt, alle anderen 0 Mehrere Indikatoren pro Trait- Methodeneinheit Skalen in 2 Halbskalen geteilt zur besseren Schätzung eigentlich möchten wir keine Signifikanz haben, wie hier aber zu sehen ist Referenz = Selbstbericht 54 • Traitspezifischer Methodeneinfluss kann untersucht werden, z.B. wirkt sich Fremdbericht bei N anders aus als bei E • Für jede Trait-Methoden-Einheit gibt es einen Methodenfaktor • Korrelationen zwischen Methodenfaktoren zeigen Generalisierbarkeit d. Methodeneffekts Korrelationen mit Selbstbericht als Referenzmethode viel Methodenvarianz 96% Konsistenz = konv. Valid. wenig Konsistenz -> 4% Varianz durch Trait erklärt -> wäre besser, wenn mehr Konsistenz Vorlesung 7 Validitätsgeneralisierung Problem • Validität wichtigstes Gütekriterium eines Tests • Validierung kostspielig und aufwändig -> In jedem Fall Test neu validieren? Oder sind Test-Kriteriumsvaliditäten auch auf andere Situationen übertragbar? Antwort bis in die 70er Jahre: NEIN! (z.B. Ghiselli, 1966) • Hohe Situationsspezifität von Validitätskoeffizienten, trotz gleicher Tests und Kriterien • Keine Validitätsgeneralisierung möglich, Frage nach Kosten-Nutzen des Einsatzes von Tests Lösung • Metaanalyse Schmidt & Hunter (1977) -> Statistische Artefakte führen zu Streuung der Validitätskoeffizienten 55 Beispiel: Test mit wahrer Validität von .45 Kriteriumsreliabilität .70 Selektionsrate = 60% Stichprobe N = 68 -> Nur in 50% der Fälle würde man überhaupt signifikante Validitätskoeffizienten bekommen Meta-analytisches Verfahren der Validitätsgeneralisierung Klausur: Verfahren der Validitätsgeneralisierung können Ziel: Entwicklung eines Verfahrens, mit dem sich bereinigte Validitätskoeffizienten darstellen und vergleichen lassen Hypothese: Kontrolliert man für alle statistischen Artefakte, soll die Streuung der Validitätskoeffizienten Null und die mittlere Validität stabil sein - Sammlung von Validitätskoeffizienten - Standardisierung in Fisher‘s z - Varianzquellen aufgrund verschiedener Fehler eliminieren - Bestimmung der wahren Varianz und Test auf Unterschiedlichkeit der Koeffizienten von Null – Homogenitätstests eigentlich soll Varianz 0 sein, wenn ich alle Artefakte rausgerechnet habe es gibt Tests wie Chi-Quadrat, die das testen können - Bestimmung des wahren Validitätskoeffizienten - Bestimmung des Konfidenzintervalles, wenn wahrer Koeffizient variiert (untere Grenze sollte noch gute Validität aufweisen) z.B. .25 (.18-.30) -> berichten: mit 90% WSK liegt er nicht unter .18 Konfidenzintervall sollte schmal sein wenn 0 im Konfidenzintervall -> schlecht, wollen wir nicht -Tut sie das nicht oder ist die Variabilität noch hoch – Suche nach Moderatoren! Wie wirkt sich eine Korrektur um die mangelnde Reliabilität der Kriterien auf (a) die Variabilität der Validitätskoeffizienten -> geringer (b) die Höhe der über alle Studien gemittelten „wahren“ Validität aus? -> höher 56 77% der Variabilität können durch beobachtbare Artefakte erklärt werden Klausur: Ergebnisse der Metaanalyse wissen und a priori-Verteilung kennen Ergebnisse Metaanalyse Korrelationen SD 90% WSK, dass wahrer Wert der Korr. >.30 ist 57 hinreichende Validitätsgeneralisierung möglich, bei neuen Bereichen aber neue Metaanalysen durchführen a priori-Verteilung/ prior distribution spiegelt gegenwärtige Situation wieder Typische Fehlerquellen Klausur: wissen, welche Artefaktquellen angeschaut werden • Stichprobengröße je kleiner die Stichprobe desto größer der Fehler • Reliabilität von (Prädiktor und) Kriterium je geringer die Reliabilität, desto geringer der maximale Wert, den die Validität erreichen kann • Range restriction durch Auswahl verringert sich der Range der möglichen Ausprägungen im Prädiktor (als auch bei Kriterium) • Qualität der Datenverarbeitung • Kriterienkontamination wie gut wurde Kriterium erfasst (z.B. persönliche Beziehung bei Einschätzung, nur ein Teil der fürs Kriterium relevanten Eigenschaften, etc.) 58 Einfache Minderungskorrektur: wahre Reliabilität .50 = rtc/√.61 .50*√.61= Rel.= .61 Kriteriumsreliabilität .39 MW verändert sich große SP: steilere Kurve ohne 0 SP hat nur Auswirkung auf Streuung, Standardabw. (Verteilung), MW konstant die anderen auch auf MW wenn Reliabilität gering, sinkt auch Validität Probleme bei Meta-Analysen im Allgemeinen • Garbage in – Garbage Out Problem Qualität der Studien, die in die MA eingehen •Äpfel und Birnen Vergleiche Messen die Konstrukte der verschiedenen Studien das gleiche? 59 • Abhängigkeit von Studienergebnissen Wenn verschiedene Kennwerte aus einer Studie berichtet werden • File Drawer Problem Nicht signifikante Studienergebnisse werden nicht veröffentlicht -> MA aufwändig, aber unverzichtbar Vorlesung 8 Nutzenbestimmung hauptsächlich sinnvoll in A&O Ein psychologischer Test ist dann nützlich, wenn… • mit dem Test „nicht unwesentliche oder durch andere Tests ebenso gut bzw. besser messbare Merkmale festgestellt werden" (Hacker & Stapf, 1998, S. 586). d.h. • Der Test ein Merkmal erfasst, dass relevant/bedeutsam und interessant für die Fragestellung ist. • Er dieses Merkmal besser (zuverlässiger, valider und/oder ökonomischer) erfasst als vorherige Tests bzw. kein Test. In der Praxis werden psychologische Tests eingesetzt, weil man sich von ihnen einen Nutzen (meist: Gewinn) erwartet. Bei statistischen institutionellen Entscheidungen wird in der Regel ein maximaler, durchschnittlicher Gewinn (oder ein minimaler Verlust) über viele gleichartige Entscheidungen angestrebt. z.B. Produktivität der Mitarbeiter, Balance von Produktivität und Zufriedenheit, Maximaler Erfolg der Weiterbildung Voraussetzungen: • A priori Wissen des Diagnostikers -> Validität der Verfahren • Annahme des Ausdrucks in äquivalenten Einheiten (Verhältnis-/Kardinalskala) -> ist häufig, aber muss nicht geldwertäquivalent sein (beschwerdefreie Jahre, natürlicher Nullpunkt, sollte nicht 0 werden) Frage: Welchen Nutzen bringt der Einsatz einer bestimmten diagnostischen Vorgehensweise im Vergleich zu der vorher angewandten Strategie? 60 Wie stellt man den Nutzen nun so fest, dass er auch anderen kommuniziert werden kann? • Historisch: Determinationskoeffizient als Maß der aufgeklärten Varianz durch ein Verfahren z.B. r= .20, 4% Varianz werden aufgeklärt -> schlechtes Kriterium Taylor-Russel-Tafeln Problem: • Schlecht verständlich und kommunizierbar. • Auch geringe Varianzaufklärung kann großen Nutzen bedeuten. stattdessen-> Cronbach & Gleser (1965) (Brogden-Cronbach-Gleser-Formel) Formel zur Nutzenbestimmung Nutzen hoch, wenn Validität hoch und/ oder hohe SD und/ oder strikte Auswahl! je höher Validität, umso besser kann ich vorhersagen, weil Merkmal gut erfasst wird bei 1 -> perfekt vorhersagen bei 0 -> sage so gut vorher wie Test -> MW je strikter Auswahl -> je höher MW, Nutzen, Produktivität wenn r, SD oder z =0 -> MW, kein Gewinn Y= Nutzen rxy = Zusammenhang zwischen Prädiktor und Kriterium (Validität) SDy = Standardabweichung des bewerteten Kriteriums, Variation in der die Leistung (Wert) schwanken kann Z = standardisierter Testwert der ausgewählten Bewerber, Cut-Off-Wert, Selektionsrate, z.B. 1,96; je höher, desto strikter Selektion! μy = Beitrag zufällig ausgewählter Bewerber zur Organisation (Basisrate), Achsenabschnitt, MW des durchschn. Bewerbers Nutzen für eine Person und ein Jahr Nettonutzen des gesamten Verfahrens = Multiplikation mit N und der Verweildauer im Unternehmen T Warum wird für Reinigungskraft kein Assessment-Center gemacht, aber für Bankmanager? Wenig individueller Spielraum der Leistungsmöglichkeit -> SD-Variable zentral auch wenn Validität nicht so hoch ist, macht das bei Management Sinn 61 Anwendung der Nutzenbestimmung Unter welchen Bedingungen ist der Nutzen eines Testverfahrens in einer diagnostischen Situation hoch? Und warum? • Hohe Validität des Tests und/oder • Hohe SD des Kriteriums und/oder • Sehr strikte Auswahl (hoher Cut-Off Wert) Was sind Anwendungsbereiche? • Vergleich des Nutzens verschiedener Verfahren • Optimale Grundlage für Festlegung von Selektionskennwerten, so dass Nutzen maximiert wird • Vermittlung und Begründung psychologischer Maßnahmen im Unternehmen Bewertung der Nutzenbestimmung - Linearer Zusammenhang zwischen Prädiktor und Kriterium nicht immer gegeben - Konkrete Ermittlung der (Validitäts)Parameter schwierig - Institutioneller, individueller und gesellschaftlicher Nutzen - Nicht immer sind Geldwertäquivalente zu bestimmen oder sinnvoll - Opportunitätskosten nicht berücksichtigt + Berechnung relativ einfach und auch bei komplexen Tätigkeiten möglich + kann erhebliche Einsparungen leisten 62 Vorlesung 9 Testfairness • Ein Test gilt dann als unfair, wenn er bestimmte Personengruppen systematisch benachteiligt • Vor allem relevant in Auswahlsituationen (Arbeits- oder Studienplatzvergabe, etc…) • Nur dann relevant, wenn überhaupt benachteiligte Personen in der Population (z.B. deutschsprachiger Test nur dann unfair, wenn Nicht-deutsch sprechende Personen potentielle Bewerber) -> Fairness relatives Konzept, wann ein Test fair ist, hängt von Art der betrachteten Fairness (z.B. einzelner Items, der Benennung, der Verwendung), den zugrundeliegenden Handlungsund Entscheidungsaspekten und damit dem betrachteten Fairnessmodell ab • Mangelnde Fairness nicht an Mittelwertsunterschieden ablesbar > Test und Kriterium sollen für alle Indikatoren des selben Konstrukts sein Klausur: Modelle können Wie wird Fairness jeweils definiert? 1. Modell der proportionalen Repräsentation (Identitäts-/ Quotenmodell) • In diesem Modell gilt eine Selektionsmaßnahme dann als fair, wenn sie gewährleistet, dass in der Stichprobe der ausgewählten Bewerber das Verhältnis der miteinander verglichenen Gruppen dieselbe ist wie in der nicht ausgewählten Bewerberpopulation (= proportionale Repräsentation) z.B. 30% Frauen bewerben sich, 70% Männer, dann sollen später auch 30% Frauen, 70% Männer ausgewählt werden • Forderung nach Übereinstimmung der Mittelwerte und Standardabweichungen (sowie weiterer Verteilungskennwerte) für Populationssubgruppen, z.B. durch Verwendung von Normierungen -> Konstruktion gruppenspezifischer, kulturfreier Tests • Problem: Ignoriert die wahre Test-Kriteriumsbeziehung, z.B. dass Frauen eh besser sind in der Schule 63 • Alle möglichen Gruppenunterschiede werden auf mangelnde Fairness des Tests attribuiert, jedoch sind wahre Unterschiede möglich -> Diese zu ignorieren geht zu Lasten der Güte des Verfahrens • Schwierig für Normierung, etc. alle relevanten Subpopulationen einzubeziehen, nicht alle möglichen Unterscheidungsmerkmale auch sinnvoll -> Quotenmodell in der Praxis kaum angewendet 2. Regressionsmodell von Cleary Ein Test ist dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht -> Regressionsgeraden für alle Gruppen sind identisch, d.h. haben die gleiche Steigung und schneiden die Ordinate an der gleichen Stelle Wie kann man das feststellen? Gruppenzugehörigkeit als Moderator • Bei gleichen Prädiktorwerten unterschiedliche Ergebnisse, je nachdem, welche Regressionsgerade verwendet wird Überprüfung • Erhebung von Test und Kriterium in allen relevanten Gruppen • Berechnen der Regressionsgerade insgesamt und gruppenspezifisch 64 • Vergleich der Konstanten und Regressionskoeffizienten -> Können sich trotz Mittelwertsunterschieden in den Gruppen gleichen -> Keine Unterschiede: Gleichung kann für alle Gruppen verwendet werden, ohne das Gruppen benachteiligt werden -> Unterschiede: Verwendung unterschiedlicher Gleichungen für die verschiedenen Gruppen um Fairness zu gewährleisten sonst über- oder unterschätze ich einzelne Gruppen bei der Auswahl Vorteil zum Quotenmodell: Auswahl findet anhand der geschätzten Kriteriumsleistung/ gemittelten Regressionsgerade statt -> Erfolgsrate der ausgewählten Bewerber wird maximiert -> höherer Nutzen wird erzielt • Qualified individualism: Fairer Prozess für jeden Bewerber, voraussichtlich bessere Kandidaten werden voraussichtlich weniger guten Kandidaten vorgezogen Nachteil: Modell gilt nicht immer erreicht damit keine Diversifizierung in der Auswahl Quote der Bewerber & Fähigen aus jeder Gruppe in der Population nicht berücksichtigt 3. Constant Ratio Model/ Modell konstanter Verhältnisse von Thorndike Vorteil: Modell kann immer hergestellt werden • Das Verhältnis zwischen der Zahl der durch die Testung ausgewählten Bewerber und der Zahl im Kriterium potentiell (d.h. ohne Auswahl!) Erfolgreichen in den miteinander verglichenen Gruppen sollte gleich oder konstant sein • Gefordert wird die Gleichheit der Proportionen für alle Gruppen Ausgewählte: Potentiell Fähige = (RP + FP) : (RP + FN) z.B. 60 Frauen und 40 Männer sind potentiell fähig -> Auswahl 6 Frauen und 4 Männer Verhältnis der geeigneten zu Verhältnis der ausgewählten hier zentral je mehr geeignete ich in einer Gruppe habe , desto mehr darf ich auswählen 65 Nachteile: • i.d.R. mehrere Cut-off Werte, da selten gegeben, dass genau gleiche Regressionsgerade und gleiche Mittelwertsunterschiede in Test und Kriterium -> Nutzen geringer unter ganz seltenen Bedingungen geht 1 Cut-Off-Wert: gleiche Regeressionsgerade, MWUnterschied auf x und y gleich • Natürliche Eignungsquote kann selten ermittelt werden • Durchschnittliche Kriteriumsleistung der ausgewählten Kandidaten reduziert sich -> Quote wichtiger als dass es für jedes Individuum fair ist • Fair gegenüber den Angenommenen der leistungsschwächeren Gruppe, unfair gegenüber Abgelehnten der leistungsstärkeren Gruppe -> Fairness als solche ist nicht zu erreichen „Ein Test, der fair ist mit Blick auf die Selegierten, ist unfair gegenüber den Abgelehnten“ Weitere Fairnessmodelle • Cole (1973) Conditional probability model RP:(RP+FN) Anteil der validen Positiven an allen potentiell Erfolgreichen -> Für alle potentiell erfolgreichen soll die Wahrscheinlichkeit ausgewählt zu werden gleich hoch sein • Linn (1973) Equal probability model RP:(RP+FP) Anteil der validen Positiven an allen Selektierten -> für alle Ausgewählten sollte die Wahrscheinlichkeit des Erfolgs im Kriterium gleich hoch sein 66 Beispielhafter Vergleich der Modelle nicht fair für die Ostdeutschen, werden unterschätzt 67 Vorlesung 10 Veränderungsmessung in der psychologischen Diagnostik Ziele der Veränderungsmessung • Status- vs. Prozessdiagnostik -> Identifikation von Veränderungen in der Ausprägung psychologischer Variablen und Abbildung wahrer Merkmalsveränderungen im zeitlichen Verlauf -> Können das Ergebnis psychologischer Entwicklungs- und Reifungsprozesse sein, aber auch Resultat von Handlungsbemühungen (Interventionen) -> Wirksamkeit psychologischer Maßnahmen und Verstehen von Entwicklung (inter-, intraindividuell, gruppenbezogen) Ursachen von Veränderung oder auch Unreliabilität der Messinstrumente 68 Was ist Veränderung? Veränderung von Ausprägungen über die Zeit • Absolute Konsistenz; intraindividuelle Vergleiche mehrfacher Messungen • Relative Konsistenz; interindividuelle Vergleiche (stabile Rangordnung). Korrelationen zwischen Zeitpunkten. Vergleich der Messwerte einer Person mit dem Populationsmittelwert (kann auch 1 sein, wenn Mittelwerte sich unterscheiden) • Intraindividuelle Profilvergleiche. Erhebung einer Reihe von Variablen (z.B. Eigenschaften), Korrelationen pro Individuum zwischen Zeitpunkten über Variablen (Profilstabilität) Veränderungen von Beziehungen zwischen Konstrukten über die Zeit (z.B. zunehmende Differenzierung), Konstrukt muss nicht zu jeder Zeit dasselbe heißen strukturelle Veränderung von Variablen ->auch wenn wir gleiche Instrumente nutzen, können wir nicht davon ausgehen, dass M2 (2. Zeitpunkt) dasselbe misst hohe Profilstabilität 2 Linien vorstellen als versch. Zeitpunkte wichtig: mehrere Messungen in jeder Situation -> Trennung von Messfehler und wirklichem Wert 69 Veränderung über Situationen Inwiefern ist das Verhalten einer Person von Eigenschaften der Person selbst oder der Situation gekennzeichnet? State -Traitmodelle, latente Modellierung -> Nur dann aussagekräftig, wenn mehrere Messzeitpunkte der selben Situation, um Messfehler und zufällige Schwankungen auszuschließen Latent-State-Trait-Modell: mehrere Messungen hier 3 States, 1 Trait Experience Sampling Studien Messung intraindividueller Variabilität und interindividuelle Unterschiede Reliabler, wenn mehr Tage im Sample 70 • Verhalten in spezifischer Situation ist durch Eigenschaftsmaß schlecht vorherzusagen -> Aggregation von Verhalten über verschiedene Situationen – Verhaltenstendenzen z.B. Verhaltensbeobachtungen, jeden Tag 1 Messung über 30 Tage hinweg -> Aggregate bilden wir können nicht die Messung für einen anderen Tag vorhersagen aus der Messung eines Tages! aber: Verhaltenstendenzen vorhersagen durch Aggregation -> Aggregationsprinzip – aus vielfältigen Informationen wird Eigenschaftsmaß – stabil und gut für langfristige Vorhersagen z.B. Vorhersage von Jobperformance durch Einstellungstest: es sollten mehrere Situationen zur Verhaltenserfassung hinzugezogen werden • Items als Situationen Vier Prinzipien der Stabilität von (Persönlichkeits-) Eigenschaften 1. Für Erstmessungen T1 in vergleichbarem Alter sinkt die Stabilität kontinuierlich mit wachsendem Retestintervall T2 – T1; das Sinken der Stabilität folgt annähernd der Funktion r21 = R*rn wobei r21 die beobachtete Stabilität zwischen T1 und T2, R die kurzfristige Retestreliabilität der Messung, r die wahre (für Unreliabilität korrigierte) Einjahresstabilität und n die Länge des Retestintervalls in Jahren ist. Je näher Messzeitpunkte aneinander sind, desto stabiler. Je länger Zeitraum zwischen dem wir messen, desto geringer Stabilität. 71 2. Für unterschiedliche Persönlichkeitsmerkmale sind die Stabilitäten unterschiedlich hoch. Am stabilsten ist der IQ, mittelhoch stabil sind selbst- und fremdbeurteilte Temperamentseigenschaften, und am wenigsten stabil sind allgemeines Selbstwertgefühl und allgemeine Lebenszufriedenheit 3. Für viele Eigenschaften sinkt die Stabilität mit zunehmend instabiler Umwelt. Je mehr Varianz in der Umwelt, desto instabiler, z.B. Ende der Schule bis Beruf 4. Bei Kindern und Jugendlichen ist die Stabilität über ein Retestintervall fester Länge meist umso geringer, je jünger die untersuchte Stichprobe zum Zeitpunkt T1 ist. Im Erwachsenenalter sind die Ergebnisse unabhängig von T1; im hohen Alter können die Stabilitäten wieder sinken. ab einem gewissen Alter mehr Einfluss auf meine Umwelt, die ich suche Stabilität nimmt mit dem Alter zu IQ-Test ist bei einem 1jährigen nicht aussagekräftig Vergleich 8&9jähirger besser als 1&2jährige 72 Probleme bei der Messung von Veränderungen Einfachste Alternative: Bildung der Differenzwerte zwischen T1 und T2 (indirekte Veränderungsmessung) Probleme: • Messfehler sind per Definition unkorreliert • Messfehlerfreie Werte zu T1 und T2 korrelieren hoch positiv • Normalerweise werden solche Werte aggregiert/ addiert, um die Reliabilität des Maßes zu erhöhen • Hier wird subtrahiert – übrig bleibt der Messfehler -> Subtraktion zweier positiv korrelierter Werte führt zu Herausnehmen der wahren Varianz und Überbetonung des Messfehlers 73 Klausur: Reliabilität von Differenzwerten Probleme bei der Messung von Veränderungen • Reliabilitäts-Validitäts-Dilemma Je höher die Korrelation der Messwerte zu T1 und T2, desto unreliabler wird der Differenzwert Je geringer die Korrelation der Messwerte zu T1 und T2, desto weniger Aussagen über Validität möglich -> Probabilistische Testtheorie -> Messung von states statt traits zur Veränderungsbestimmung -> Paralleltests statt identischer Tests -> Formelkorrektur Reliable Change Index Es wird geprüft, ob die Differenz zweier Testwerte zufällig ist. Hierfür wird die Reliabilität der Messungen berücksichtigt. Der RCI ist analog zu einem z-Wert zu interpretieren. Entspricht der Betrag des RCI dem kritischen z-Wert, oder liegt darüber, ist die Veränderung nicht auf den Messfehler zurückzuführen. Bühner, M. (2011) Einführung in die Test- und Fragebogenkonstruktion (3. Aufl.). 74 X1 = Messwert T1 X2 = Messwert T2 Sdiff = Standardmessfehler der Differenz SE = Standardmessfehler S1 = Standardmessfehler der Normstichprobe bzw. von T1 rW = Retestreliabilität d.h. Messwert/ Differenz ist zu 95% nicht durch Zufall oder Messfehler entstanden Probleme bei der Messung von Veränderungen • Regression zur Mitte - Extreme Messwerte zu T1 rücken zu T2 näher an den Mittelwert der Verteilung heran -> Entsteht durch zufällig extremen Messfehler bei T1, unwahrscheinlich, dass dieser sich bei T2 wiederholt - Umso ausgeprägter, je unreliabler das Verfahren ist 75 • Ausgangswertproblematik - Höhe des Ausgangswertes ist negativ mit möglichem Zuwachs korreliert quasi „Deckeneffekt“ • Physicalism-subjectivism Dilemma - Bedeuten gleiche Änderungen auf unterschiedlichen Skalenabschnitten das Gleiche? Weitere Arten der Veränderungsmessung • Direkte Veränderungsmessung Erfragung der Veränderung zu T1, subjektive Einschätzung des Patienten/Probanden Vorteil: schnell & günstig Problem: - Verzerrung des Vergleichs T1-T2 - Überschätzung der Veränderung durch soziale Erwünschtheit Keine Lösung der Probleme der indirekten VM, eher als eigenständiges Verfahren zu sehen Vorlesung 11 Gutachten Definition psychologisches Gutachten „Psychodiagnostische Gutachten für (meist fachfremde) Dritte als selbständige (in sich geschlossene) zusammenfassende Darstellung der psychodiagnostischen Vorgehensweise, der Befunde und Schlussfolgerungen in Bezug auf eine hinsichtlich einer konkreten Fragestellung zu begutachtenden Person, Institution oder Situation, basierend auf einem der Fragestellung gemäßen, angemessen komplexen diagnostischen Prozess für einen Gutachtenempfänger (Auftraggeber). Mit Hilfe des Gutachtens soll sein Empfänger Entscheidungen in seinem System (seinem diagnostischen Prozess) fundierter treffen können.“ Schmidt (1995) Schmidt-Atzert & Amelang (2012) 76 Wozu psychologische Gutachten? z.B. Gesundheitswesen (psych. Beeinträchtigung, Berentung) z.B. Eignungsdiagnostik: Kann Person x ihr angestrebtes Umschulungsziel „Altenpflegerin“ erreichen und diesen beruf auch später erfolgreich ausführen? z.B Entscheidungshilfen vor Gericht: Sorgerechtsfragen nach elterlicher Scheidung; Rückfallprognosen bei Sexualstraftätern, Glaubhaftigkeit bei Zeugenaussagen z.B. Geschlechtsangleichungen uvm. -> Nutzen fundierter psychologischer Kenntnisse zur Verhaltensbeschreibung, - erklärung und – vorhersage als Entscheidungshilfe, häufig für Fachfremde Ethische Richtlinien der Föderation deutscher Psychologenvereinigungen IV.1. Sorgfaltspflicht Allgemein gilt, dass die Erstellung und Verwendung von Gutachten und Untersuchungsberichten von Psychologen größtmögliche sachliche und wissenschaftliche Fundiertheit, Sorgfalt und Gewissenhaftigkeit erfordert. Gutachten und Untersuchungsberichte sind frist- und formgerecht anzufertigen. Die föderativen Richtlinien für die Erstellung von Gutachten sind zu beachten. IV.2. Transparenz Gutachten und Untersuchungsberichte müssen für die Adressaten inhaltlich nachvollziehbar sein. (z.B. für Gericht, aber nicht für den Angeklagten) IV.3. Einsichtnahme Sind Auftraggeber und Begutachteter nicht identisch, kann das Gutachten bzw. der Untersuchungsbericht nur mit Einwilligung des Auftraggebers den Begutachteten zugänglich gemacht werden. Psychologen sind gehalten, darauf hinzuwirken, dass die Begutachteten ihr Gutachten bzw. den Untersuchungsbericht auf Wunsch einsehen können, sofern für sie kein gesundheitlicher Schaden zu befürchten ist. Falls der Auftrag eine Einsichtnahme von vornherein ausschließt, müssen die Begutachteten vorab davon in Kenntnis gesetzt werden. IV.4. Gefälligkeitsgutachten Gefälligkeitsgutachten sind nicht zulässig, ebenso wenig die Abgabe von Gutachten, die Psychologen durch Dritte ohne eigene Mitwirkung erstellen lassen. IV.5. Stellungnahme zu Gutachten von Kollegen Stellungnahmen zu Gutachten von Kollegen sind zulässig, wobei der Abschnitt B.II.2 (1) dieser Ethischen Richtlinien besonders zu beachten ist. 77 Gesetzliche Rahmenbedingungen Menschenrechte Vertraulichkeitsschutz (1) Verletzung von Privatgeheimnissen „ Wer unbefugt ein fremdes Geheimnis, namentlich ein zum persönlichen Lebensbereich gehörendes Geheimnis oder ein Betriebs- oder Geschäftsgeheimnis, offenbart, das ihm als 1. Arzt… 2. Berufspsychologen mit staatlich anerkannter wissenschaftlicher Abschlussprüfung anvertraut worden oder sonst bekannt geworden ist, wird mit Freiheitsstrafe bis zu einem Jahr oder mit Geldstrafe bestraft.“ wichtige Ausnahme: wenn Patient von Verschwiegenheit entbunden hat Betriebsverfassungsgesetz § 53 StPO: „Zeugnisverweigerungsrecht“: Psycholog/inn/en nein, Psychologische Psychotherapeut/inn/en ja Bedingungen und Voraussetzungen Fragestellung eindeutig formuliert? Psychologe als zuständiger Experte? Genügend Wissen zur Bearbeitung? Bearbeitung rechtlich erlaubt? Bearbeitung ethisch verantwortbar bzw. mit dem eigenen Gewissen zu vertreten? Neutralität? Ist das diagnostische Vorgehen gerechtfertigt (Kosten/Nutzen)? Schränkt die Fragestellung das diagnostische Vorgehen ungerechtfertigt ein? Wird schon eine Intervention vorgeschlagen, die ein bestimmtes Ergebnis impliziert? 78 Der Prozess der Gutachtenerstellung Fragestellung Annahmen Anforderungsprofil (Kompensierbarkeit Stabilität, Veränderbarkeit) Psychologische Fragen (Hypothesen) Untersuchungsplan Durchführung der diagnostischen Untersuchung Darstellung der Ergebnisse Befund: Beantwortung der psychologischen Fragestellung und damit der Hypothesen Vorschläge bzw. Empfehlungen zum weiteren Vorgehen Verhaltensgleichung von Westhoff und Kluck (1998, 2014) Klausur: Gleichung merken Psychologische Variablen: K, E, M, S Nicht psychologische Variablen: U, O Ziele: 1. Sie fasst die Variablen, die bei der Erklärung, Vorhersage und Beeinflussung individuellen Verhaltens wichtig sind zu wenigen Gruppen zusammen und erlaubt somit 2. Eine Strukturierung dieses sonst kaum zu überschaubaren Bereiches 3. Sie unterstützt die Prüfung, ob bei einer Begutachtung alle wichtigen Bereiche bedacht wurden. Sie ist also als Hilfsmittel für das praktische Arbeiten gedacht. Umgebungsvariablen (U) = äu0ere Lebensbedingungen z.B. finanzielle Situation, Wohnsituation, Zeit, Kommunikationsmöglichkeiten Organismusvariable (O) = körperliche Bedingungen z.B. Belastbarkeit, Ernährungsweise, Alter, Krankheiten, Drogenabhängigkeit Kognitive Variable (K) = Leistungsfähigkeit und Inhalte des Wahrnehmens, Lernens und Denkens, z.B. Intelligenz(struktur), Konzentration, Gedächtnis, Kenntnisse, Kreativität, Arbeitsstil 79 Emotionale Variable (E) z.B. emotionale Belastbarkeit, Umgang mit Belastungen, Frustrationen und Gefühlen, emotionale Bindungen Motivationale Variable (M) z.B. Motive, Interessen Werte, Ziele, Erwartungen, Aktivität Soziale Variable (S) z.B. soziale Intelligenz, Einstellungen, Normen/ Stereotype, Pflichten, Einfluss von anderen Auswahl der Variablen nach reproduzierbarem Zusammenhang und praktischer Bedeutsamkeit Erhebungsmethoden (teil)standardisierte diagnostische Verfahren z.B. Fragebögen, strukturierte und standardisierte Interviews, Tests Entscheidungsorientierte Gesprächsführung Verhaltensbeobachtung Sonstige Informationsquellen z.B. Zeugnisse, Akten, Arztberichte Beispiel Befundbogen 80 Mögliche Fehler und deren Minimierung z.B. durch Stereotype, Urteilsheuristiken, ungünstige Informationserhebung, „Milde-„ und „Strenge“Fehler, Interaktionsfehler etc. Fehler und Verzerrungen im Prozess der diagnostischen Begutachtung können schwerwiegende Folgen haben und sollten minimiert werden Erwerb zusätzlichen Wissens (Grundlagenfächer, Diagnostik, spez. Auf Gutachtertätigkeit bezogen) Möglichst klare, strukturierte Ausgangsbedingungen (z.B. Hypothesen, Konkretheit, Erhebung) Verknüpfung von Aussagen Entscheidungsregeln Dokumentation Aufbau des Gutachtens baut sich auf wie Forschungsbericht -> Einzelfallforschung Fragestellung muss von außen gesetzt werden, mir klar sein -> sonst nachfragen Ergebnisbericht: nicht interpretiert, nicht auf Fragestellung bezogen 81 Qualitätsanforderungen an ein Gutachten Wissenschaftliche Fundiertheit: - Bezugnahme auf ein theoretisch begründetes methodisches Vorgehen - Formulierung von psychologischen Fragen, die anhand geeigneter diagnostischer Daten überprüfbar sind - Begründete Auswahl von Verfahren, die eine Prüfung der formulierten psychologische Fragen ermöglichen - Begründete Festlegung von Entscheidungskriterien vor der Datenerhebung - Berücksichtigung aller Ergebnisse, keine selektive Nutzug von Informationen - Ableitung von Schlussfolgerungen unter Beachtung von wissenschaftlich gesicherten Gesetzmäßigkeiten zur Beantwortung der Fragestellung Nachvollziehbarkeit und Transparenz: Es muss nachvollziehbar sein, - welche spezifischen Fragen bzw. Hypothesen untersucht und warum sie geprüft wurden, - zu welchen Ergebnissen der Gutachter gekommen ist und auf welchem Weg er sie ermittelte, - mit welchen Begründungen die gutachterlichen Schlussfolgerungen gezogen worden sind, 82 - auf welchen Informationen die Beuteilungen beruhen. - Die genannten Schritte sind sprachlich so darzustellen, dass der Adressat sie inhaltlich nachvollziehen kann. DGPs -> spezifischere Merkmale für die einzelnen Teile