Skript zum Buch

Werbung
Merksätze, Fazits und Definitionen aus Amelang und Schmidt-Atzert
Psychodiagnostik ist eine Methodenlehre im Dienste der Angewandten Psychologie. Soweit
Menschen die Merkmalsträger sind, besteht ihre Aufgabe darin, interindividuelle Unterschiede im
Verhalten und Erleben sowie intraindividuelle Merkmale und Veränderungen einschließlich ihrer
jeweils relevanten Bedingungen so zu erfassen, dass präzise Vorhersagen künftigen Verhaltens und
Erlebens sowie deren eventuellen Veränderungen in definierten Situationen möglich werden.
Eigenschaftsdiagnostik = Sign Ansätze = Prinzip des Analogieschlusses
Selektionsdiagnostik ist normorientierte Statusdiagnostik zur Schätzung des Ausprägungsgrades von
Eigenschaften
Verhaltenstheoretische Ansätze = Sample Ansätze = Prinzip des Induktionsschlusses
Inhaltsvalidität ist wichtig
The best predictor of future performance is past performance
Die Persönlichkeit ist lediglich eine intervenierende Variable, die definiert ist durch die
Wahrscheinlichkeit, mit der eine Person bestimmte Verhaltenstendenzen in einer Reihe von
Situationen ihres täglichen Lebens manifestiert.
Modifikationsdiagnostik ist kriteriumsorientierte Prozessdiagnostik, da von einer situativen
Bedingung des Verhaltens ausgegangen wird.
Standardisierung = Striktes Konstanthalten der Durchführungsbedingungen, um die Messwerte aus
diagnostischen Verfahren intra- und interindividuell vergleichen zu können.
Differenzierung = Gestaltung des Tests und dessen Durchführungsbedingungen, so dass sie im
diagnostischen interessierenden Verhalten die Merkmalsträger maximal voneinander unterscheiden
können.
Objektivität und Reliabilität = Die zwischen den Merkmalsträgern auftretende Variation ist nur dann
diagnostisch brauchbar, wenn die beobachteten Unterschiede objektiv und messgenau zu
registrieren sind.
Stabilität = Das Bestehenbleiben einer Merkmalsvariation über die Zeit, als Aspekt der Reliabilität.
Validierung = Da viele Tests hypothetische Konstrukte erfassen sollen, ist es unverzichtbar, weitere
von der Testung unabhängige Informationen über dasjenige einzuholen, was der Test zu messen
vorgibt.
KTT = Messfehlertheorie
Reliabilität =Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte.
Reliabilitätsindex = Die Validität kann maximal die Wurzel aus der Reliabilität betragen. Höhere
Koeffizienten müssten auf Artefakten beruhen.
Standardmessfehler = derjenige Anteil an der Streuung eines Tests, der zu Lasten der Zuverlässigkeit
geht (Unreliabilität des Tests aufgrund des Fehlers)
Dargestellt als Erwartungsbereich oder Mutungsintervall = Streuung der testwerte um den wahren
Wert = Konfidenzintervall (CI)
Berechnung über den Standardmessfehler.
Den Axiomen der KTT zufolge überlagern Fehlerkomponenten die wahren Werte.
Bei wiederholter Testung ein und desselben Probanden mit einem bestimmten Test und der
einmaligen Untersuchung vieler Probanden mit einem Verfahren mitteln sich die Fehlerwerte zu
Null (Erhöhung der Reliabilität).
Der wahre Wert und der Fehlerwert sind prinzipiell unkorreliert, da der Fehler zufällig und
unsystematisch ist und somit keinen systematischen Zusammenhang zum wahren Wert bzw. zum
Merkmal haben kann.
Die Minderungskorrektur liefert eine Schätzung für die Korrelation der wahren Werte zweier
Variablen, wenn deren Reliabilitätskoeffizienten bekannt sind. Damit wird gleichsam die Minderung
korrigiert, der Korrelationskoeffizienten unterliegen, wenn die miteinander korrelierten Messwerte
fehlerbehaftet sind. Bei der einfachen wird die Reliabilität von Test oder Kriterium korrigiert.
Aus der Annahme unkorrelierter Fehler folgt ebenfalls, dass die Korrelation zweier
messfehlerbehafteter Variablen gemindert wird.
Der einfach minderungskorrigierte Validitätskoeffizient entspricht derjenigen Validität, die der Test
haben müsste, wenn entweder Test oder Kriterium absolut zuverlässig wären.
Doppelte Minderungskorrektur: die Reliabilität von Test und Kriterium werden korrigiert. Der
doppelt minderungskorrigierte Validitätskoeffizient steht für jene Validität, die sich errechnen
würde, wenn Test und Kriterium maximal zuverlässig wären.
Verdünnungsparadox: Je niedriger der empirisch ermittelte Reliabilitätskoeffizient, desto stärker fällt
die Minderungskorrektur aus (rechnerisch: da der Reliabilitätskoeffizient im Nenner steht, wird, je
kleiner er ist, das Ergebnis größer)
Testverlängerung kann die Reliabilität erhöhen (empirisch belegt).
Testverlängerung und-verkürzung durch Faktor k in der Spearman-Brown-Formel
Die Varianz von individuell summierten Werten ergibt sich aus der Summe der Einzelvarianzen der
Werte und 2mal der Kovarianz zwischen den Messwertreihen.
Eine Testverdoppelung in Einheiten von homogenen Aufgaben führt also zu einer Vervierfachung der
wahren Varianz.
Da die Messfehler aus den beiden Testhälften per definitionem zu Null korrelieren (keine
Kovarianz), wird die Fehlervarianz bei Testverdoppelung nur verdoppelt, was dann wiederum zu
einer höheren Reliabilität führt.
Stichprobenfehler des Mittelwertes (Synonym zu Standardmessfehler) = Bereich, in dem bei
zufälliger Ziehung von Stichproben aus einer Grundgesamtheit deren Mittelwerte variieren, nämlich
M +/- s
Er bestimmt die Streuung der Stichprobenmittelwerte um den Mittelwert der Mittelwerte.
Ebenso kann die Fehlervarianz für die Differenz von Stichprobenmittelwerten berechnet werden.
Kritik an der KTT:
1) Fehlende messtheoretische Grundlagen (fehlen empirischer Nachweise für die Annahmen
der KTT, nicht überprüfbar; Unkorreliertheit der Messfehler kann falsch sein)
2) Stichprobenabhängigkeit der Kennwerte (Messfehler können stichprobenabhängig sein)
3) Fehlender Nachweis der Eindimensionalität (Annahme der Eindimensionalität: alle Items
messen dasselbe Konstrukt, ist ungeprüft vorausgesetzt)
IRT = Probabilistische; Item-Response-Theorie
Bei den manifesten Variablen handelt es sich um das beobachtbare Antwortverhalten auf
verschiedene Testitems.
Bei den latenten Variablen hingegen um nicht beobachtbare dahinterliegende Fähigkeiten oder
Dispositionen, von welchen das manifeste Verhalten als abhängig angesehen wird.
Itemhomogenität: Alle Items interkorrelieren, wenn sie Manifestationen/ Indikatoren ein- und
derselben latenten Dimension sind.
Lokale stochastische Unabhängigkeit ist die Voraussetzung für Itemhomogenität, d.h. wenn man
die latente Dimension auf einer lokalen Stufen (bei einem Parameter) auf einem Wert konstant hält
verschwinden die Korrelationen zwischen den Items und es zeigt sich lokale stochastische
Unabhängigkeit.
Man überprüft folglich mit der lokalen stochastischen Unabhängigkeit die Itemhomogenität eines
Verfahrens.
Testitems welche die Bedingung der lokalen stochastischen Unabhängigkeit erfüllen, bezeichnet man
auch als Indikatoren der latenten Variable.
Itemcharakteristische Funktionen (IC-Funktionen): Funktionen des manifesten Antwortverhaltens
auf Testitems in Abhängigkeit von den latenten Traits
Deterministische Modelle gehen davon aus, dass das Antwortverhalten der Probanden durch die
Item- und Personenparameter vollständig bestimmt wird.
z.B. Skalogramm Modell von Guttman
Person, die auf Item x positiv reagiert, hat auf alle vorherigen auch positiv reagiert, Person, die auf
Item y negativ reagiert, wird auf alle folgenden auch negativ reagieren = Guttman-Homogenität
Die Lösungswahrscheinlichkeit steigt für jedes Item an bestimmter Stelle der latenten Variable von 0
auf 1.
Probabilistische Modelle hingegen nehmen eine stochastische Beziehung zwischen dem
Antwortverhalten des Probanden und den Personen- und Itemparametern an.
Monoton steigende oder auch logistische Funktionen, bei denen das Antwortverhalten in
Abhängigkeit von Personen-, Itemschwierigkeits- und Itemdiskriminationsparameter ansteigt.
z.B. Birnbaum-Modell (mit verschiedenen Steigungen)
Guttman und Birnbaum Modell sind Vorläufer des Raschmodells und anderen Latent-Trait
Modellen, sie verfügen nicht über lokale stochastische Unabhängigkeit.
Als Rasch Modelle bezeichnet man eine Gruppe von probabilistischen Latent-Trait-Modellen, welche
neben der lokalen stochastischen Unabhängigkeit über weitere vorteilhafte Modelleigenschaften
verfügen: erschöpfende Statistiken, Stichprobenunabhängigkeit der Parameterschätzungen und die
spezifische Objektivität der Vergleiche.
Beim Rasch-Modell wird der Itemdiskriminationsparameter (als lokale Stufe) auf dem Wert 1
konstant gehalten, um Itemhomogenität herzustellen und was auch die Steigung gleich bleiben
lässt. Dichotome Rasch-Modelle für dichtotomes Anwortformat (Ja/ Nein, o.ä.) der Items.
Zur Parameterbestimmung und Überprüfung des Modells, werden Daten aller Personen in einer
Matrix abgetragen (=Stichprobe), Items in die Spalten, Personen in die Zeilen.
Die Zeilensummenscores = erschöpfende Statistik für Personenparameter
Die Spaltensummenscores = erschöpfende Statistik für Schwierigkeitsparameter
Schätzungsprozeduren/ Parameterschätzung:
Bei Modellkonformität ist es für die Schätzung der Parameter gleichgültig, welche Items von welchen
Personen gelöst werden, entscheidend ist nur die Anzahl.
Likelihoodfunktion = Modelltest = Wahrscheinlichkeit aller beobachtbaren Daten (wie oft ein Item
gelöst wurde)
Separierbarkeit der Parameter = man braucht nicht alle Parameter, sondern kann sie unabhängig
voneinander schätzen
Conditional Maximum-Likelihood-Methode (CML-Methode) = Methode zur Schätzung der
Itemparameter nach maximalen Maßstäben (per PC)
Stichprobenunabhängigkeit der Parameterschätzungen beim Rasch-Modell: Man kann
Itemparameter schätzen ohne den Personenparameter zu kennen und ohne Annahmen über deren
Verteilung treffen zu müssen.
Empirische Modelltests:
Test mit Substichproben, die nach Kriterien (Alter, Geschlecht o.ä.) unterteilt werden = bei
Modellkonformität nur geringe oder keine Abweichungen in den Itemparametern
Graphischer Modelltest = Gerade mit 2 Itemparameterschätzungen, je geringer die Streuung, desto
größer die Stichprobenunabhängigkeit bzw. die Rasch-Homogenität
Likelihood-Quotienten-Test: Signifikanzprüfung der Unterschiedlichkeit von 2 separaten CMLSchätzungen (H0 = kein Unterschied = Modellkonformität)
Personenselektion = Aussortieren von Personen mit bestimmten Antwortmustern, die das Modell
ungültig machen (Akquieszenz, Raten etc.)
Person-fit-indices = Indizes zur Testung ob Person sich modellkonform verhält, niedrige person-fitindices veranlassen dazu den Test nicht zu interpretieren oder das Ergebnis differentiell zu nutzen
(Person mit besonderer Begabung oder Defizienz)
Spezifische Objektivität der Vergleiche = der Schwierigkeitsunterschied zweier Items (σi – σj) kann
unabhängig von Personen mit hohen oder niedrigen Merkmalsausprägungen untersucht werden, so
wie Unterschiede zwischen Personen (ξv – ξw) unabhängig vom Item untersucht werden können.
Bei Modellkonformität: Bei IC-Funktion weisen alle Items die gleiche Form auf und sind lediglich
entlang der ξ–Achse parallel verschoben.
Iteminformationsfunktion = Funktion über die Steigung eines raschhomogenen Items, die in
Abhängigkeit von der Differenz zwischen Fähigkeit und Itemschwierigkeit variiert. Steil bei hohen
Lösungsunterschieden, flach bei niedrigen Lösungsunterschieden.
Adaptives Testen: Zur Steigerung der Testökonomie werden bei einzelnen Pbn nur diejenigen
Testitems angewendet, die für das Fähigkeitsniveau des Pbn eine hohe Messgenauigkeit/
Iteminformation aufweisen.
Polytome Latent-Trait-Modelle: für Items mit mehrkategoriellen Antwortformaten oder
Rangskalen. Jede Kategorie (bis auf eine Referenzkategorie) bekommt dann eigene Personen- und
Itemparameter. Bei 4 Kategorien, 4 Iteminformationsfunktionen
Latent-Class-Modelle (LCM): Während die latenten Variablen in Latent-Trait-Modellen stets als
kontinuierlich oder quantitativ angenommen werden, beruhen Latent-Class-Modell auf der
Annahme qualitativer Variablen zur Charakterisierung von Personenunterschieden
Mixed-Rasch-Modell/ Mischverteilungsmodelle: Wenn verschiedene Substichproben mit eigenen
Itemparametern gebildet werden müssen. Dann wird nur in bestimmten latenten Klassen RaschHomogenität angenommen und man hat klassenspezifische Itemcharakteristiken.
Linear-logistische Modelle/ Linear-logistisches Testmodell = Erweiterung zu dichotomen RaschModell: Idee, Itemparameter in IRT-Modellen näher zu erklären, indem sie als Linearkombinationen
einer geringen Anzahl von Basisparametern (z.B. Schwierigkeit kognitiver Operationen zum Lösen
der Items, Strategien zur Lösung usw.) aufgefasst werden.
Besondere Eignung der IRT-Modelle zur Veränderungsmessung, da die Itemparameter gleich
bleiben und somit Veränderung das Produkt der Veränderung im Personenparameter sind.
Kriteriumsorientierte Tests sind inhaltsvalide Testverfahren, die nicht die Position einer Person in
Relation zu einer Vergleichsnorm, sondern das Erreichen oder Verfehlen eines konkreten Kriteriums
ermitteln wollen.
Probleme kriteriumsorientierter Tests:
- Generierung inhaltsvalider Itemmengen (Testaufgaben als bestmögliches Kriterium und
repräsentative Stichprobe)
- Setzung sachgerechter Kriterien (Kriterien als Normwerte müssen sachlich gerechtfertigt und
realitätsangemessen sein)
- Zufallskritische Zuordnung von Pbn in die Klassen der Könner und Nichtkönner (Trennwerte
zur Klassifikation, Festlegung von Irrtumswahrscheinlichkeiten; Binomialmodell:
stochastische Unabhängigkeit der Aufgabenlösung; Reliabilitätsberechnung nach KuderRichardson-Formel 21 aus Mittelwert, Streuung und Itemanzahl)
Rationale bzw. deduktive Konstruktionsstrategien = Konstruktion eines Tests nach Vorliegen einer
Theorie zur Beschreibung von Verhalten =theoriegeleitet (z.B. HAWIK oder Manifest Anxiety Scale
MAS und projektive Verfahren)
Projektive Verfahren: Das Wesen eines projektiven Verfahrens liegt darin, dass es etwas hervorruft,
was auf verschiedene Art Ausdruck der Eigenwelt des Persönlichkeitsprozesses der Versuchsperson
ist.
+ Ökonomie und Kommunizierbarkeit gut
Externale oder kriteriumsbezogene Skalenkonstruktion = beruhen auf dem Vorliegen verschiedener
Personengruppen zwischen denen empirisch diskriminiert werden soll (Psychisch kranke vs. Gesunde
z.B.); breit gefächerte Items, Items die gut diskriminieren: Kreuzvalidierung! werden zu Skalen
zusammengestellt; Inhaltliche Interpretation unzulässig, nur auf Gruppenebene
(z.B. Staffeltest von Binet oder Minnesota Multiphasic Personality Inventory MMPI)
+ geringe Verfälschbarkeit
- geringe interne Konsistenz, besser Retestreliabilität messen
Induktive bzw. faktorielle Konstruktionsprinzipien = blindanalytische Skalenbildung aus Items, die
hoch interkorrelieren
Hohe Korrelationen der Items innerhalb von einer Skala =interne Konsistenz oder Homogenität
Niedrige Korrelationen zu Items anderer Skalen = Einfachstruktur
Dann zeigt sich ein Faktorenanalytisches Ladungsmuster (z.B. primary mental abilities von Thurstone
oder NEO-FFI, Freiburger Persönlichkeitsinventar FPI)
Prototypenansatz = Skalenkonstruktion nach Prototypizität von Items (Rosen und Tulpen sind
Prototypen von Blumen), diese kann beurteilerübergreifend valide gemessen werden.
Auch auf Verhalten oder Persönlichkeitseigenschaften übertragbar, die prototypisch für
übergeordnete Kategorien sind.
Act Frequency Approach = Handlungs-Häufigkeitsansatz zur Messung der Prototypizität von Traits
an Probanden (nennen Traits und prototypische Situationen, andere Schätzen die Prototypizität
dieser Traits für die Merkmalsdimensionen ein (hoch vs. niedrig), dann wieder Vorlage der Pbn mit
Frage wie oft sie dieses Verhalten zeigen, Fragen mit hoher Prototypizität korrelierten höher
miteinander)
Speedtests sind dadurch definiert, dass bei unbegrenzter Zeitvorgabe alle Items von allen
Probanden gelöst werden, d.h. der Schwierigkeitsgrad konvergiert dann gegen Null: Die
Differenzierung zwischen den Pbn erfolgt über die Zeitbegrenzung.
Niveautests sind dadurch definiert, dass auch bei unbegrenzter Zeit von keinem Testteilnehmer alle
Aufgaben richtig gelöst werden. Damit wird primär das intellektuelle Niveau oder die Denkkraft/
Power ermittelt.
Homogenität = Ausmaß indem Items dasselbe Merkmal messen, interkorrelieren.
Nur bei hoher Homogenität hohe Interkorrelationen und hohe Trennschärfe.
Trennschärfe = Korrelation der Itembeantwortung mit dem Summenwert der Skala, zu der das Item
gehört. Sie ist ein Kennwert dafür, in welchem Ausmaß die Differenzierung der Pbn in Löser und
Nichtlöser durch das eine Item passiert, im Gegensatz zur Differenzierung durch die Skala (Grad
dessen, was das Item im Gegensatz zur Skala erfasst)
Die Summe der Skala nennt man hier auch Binnenkriterium.
Die diskriminante Trennschärfe sollte gering sein (Korrelation mit anderen Skalen). Die konvergente,
wie oben beschrieben, sollte hoch sein
Schwierigkeit(sindex) = relative Häufigkeit von Pbn, die auf ein Item im Sinne des untersuchten
Merkmals reagieren (richtige Lösung oder Antwort die indikativ für ein Merkmal ist)
Diskriminationskraft von Items = höhere Streuungen zwischen Antworten auf das Item
Umgekehrt u-förmige Beziehung zwischen Trennschärfe und Schwierigkeit:
Bei mittlerer Schwierigkeit (P = 50) höchste Differenzierungskraft und Begünstigung von
Homogenität und Trennschärfe (denn je höher die Streuung, desto höher die Korrelationen, desto
höher die Differenzierungskraft)
Extreme Schwierigkeiten (sehr niedrig vs. sehr hoch) gute Differenzierung in Randbereichen aber
mit hohen Korrelationen unvereinbar, wenn Items unterschiedliche Schwierigkeit haben.
Deshalb bei unterschiedlicher Schwierigkeit Einbußen an Homogenität und Trennschärfe.
Durch die Berechnung der Trennschärfe wird das Item auch mit sich selbst korreliert, da es ja in der
Skalensumme auch enthalten ist, dadurch entsteht eine algebraische Abhängigkeit, dies muss durch
eine Part-Whole-Korrektur bereinigt werden.
Generell wirkt sich die Part-whole-Korrektur umso geringer aus, je…
… größer die Anzahl von Items (weil dann der Beitrag jedes einzelnen Items relativ zur Skala geringer
wird)
… homogener die Skala (weil dann der Beitrag jedes einzelnen Items relativ zu den anderen Items,
die etwas Ähnliches erfassen, kleiner wird)
Maximale Stabilität bei maximaler Trennschärfe und maximaler Aufgabenstreuung (Produkt).
Bei Auswahl von Testitems für Test, gilt:
- Items mit niedriger Trennschärfe aussortieren, selbst wenn Schwierigkeit optimal und
umgekehrt
- Items mit hoher Trennschärfe beibehalten, selbst bei extrem niedrigen oder hohen
Schwierigkeiten
Selektionskennwert wählt zugunsten hoher Trennschärfen und extremen Schwierigkeiten
Homogenität der KTT = Ausmaß formaler und inhaltlicher Einheitlichkeit (homogene Skalen meist
bei induktiven und deduktiven Konstruktionen: z.B. d2, KLT-R)
Heterogenität gemäß der KTT = formale und inhaltliche Vielgestaltigkeit der Items, zur Messung
globaler Dimensionen (heterogene Skalen meist bei externaler Konstruktion z.B. Allgemeine
Intelligenz von Binet o. Wechsler, Temperamentsmessungen u. Eysenck Personality Inventory EPI)
Homogenität lässt sich auch über Varianzen ermittel, denn homogene Tests haben höhere
Varianzen als heterogene Tests.
Gütekriterien von Test:
1. Testgrundlage (im Manual)
a) Diagnostische Zielsetzung (Beitrag des Tests zur diagnostischen Entscheidung; für
Forschungszwecke oder für Einzelfalldiagnostik?)
b) Theoretische Grundlagen (Theorien und wissenschaftliche Befunde)
c) Nachvollziehbarkeit der Testkonstruktion (Arbeitsschritte der Testerstellung)
2. Testdurchführung
a) Durchführungsobjektivität (unabhängig von Testleiter, Instruktion o.a.
Durchführungsbedingungen)
b) Transparenz (Verständlichkeit der Testspezifität, Messfkt. Und Auswertung)
c) Zumutbarkeit (Beanspruchung in zeitlicher, psychischer und körperlicher Hinsicht)
d) Verfälschbarkeit (ermöglicht der Test die individuelle Kontrolle über Art und Inhalt der
verlangten Informationen)
e) Störanfälligkeit (Unempfindlichkeit ggü. aktuellen Zuständen und situativen Faktoren)
3. Testverwertung
a) Auswertungsobjektivität (unabhängig von personenbedingten oder apparativen
Störquellen)
b) Zuverlässigkeit (Reliabilität/ Messgenauigkeit: Stabilität, Äquivalenz, interne Konsistenz)
c)
d)
e)
f)
Gültigkeit ( Konstrukt-, Inhalts- und Kriteriumsvalidität)
Normierung (Ausmaß und Qualität)
Bandbreite (Enge oder Vielfalt ggü. Fragestellungen, Gruppen oder Prognosezeiträumen)
Informationsausschöpfung (Menge und Qualität der Indikatoren bzgl. Zielen, Anlässen
oder Probandengruppen)
g) Änderungssensitivität (Ja/Nein ? Zeitreihenanalyse?)
4. Testevaluation (für die Praxis)
a) Ökonomie (bzgl. Durchführung, Auswertung und Anschaffung, kostengünstig?)
b) Fairness (Diskriminierungen? Ggü. : ethnischen, soziokulturellen oder
geschlechtsspezifischen Gruppen bei Kriteriumswerten)
c) Akzeptanz (Meinungen, Bewertung und gesellschaftspolit. Überzeugungen gegen den
Test)
d) Vergleichbarkeit (Übereinstimmung oder Abweichungen zu anderen Verfahren;
Sonderstellung, Novität?)
e) Bewährung (Systematische Aufarbeitung der Bewährung, Erfahrungen mit
Personengruppen und Zielen)
5. Äußere Testgestaltung (Verständlichkeit des Manuals, probandenfreundliche Gestaltung der
Materialien, kohärente/ wahrheitsgemäße Werbung)
Durchführungsobjektivität wird erreicht durch:
- Standardisierung der Testsituation (identisches Tesmaterial, Zeitangaben, Regeln,
Reaktionen auf Nachfragen oder Störungen usw.)
- Minimalisierung der sozialen Interaktion zw. Testleiter und Proband
Auswertungsobjektivität:
- Durch festgelegte Kriterien
- Höheres Auswertungsobjektivität bei gebundenen Antwortformaten (multiple Choice,
Likert-Skala o.ä.)
- Bei ungebundenem Antwortformat (offene Fragen) sollte man Beispielantworten für
richtige Lösungen im Manual vorfinden (aber natürlicherweise lückenhaft)
Reliabilität ist Messgenauigkeit unabhängig davon ob gemessen wird, was intendiert war.
Arten der Reliabilitätsmessung:
1) Testwiederholungsreliabilität (Retest)
2) Paralleltestreliabilität
3) Testhalbierung/ Split-Half
4) Cronbachs Alpha
5) Konsistenzanalysen
Validität ist das Maß an Genauigkeit, mit dem der Test dasjenige Merkmal misst, das er messen soll
oder zu messen vorgibt.
1) Inhaltsvalidität (interne) = Grad der Genauigkeit eines Repräsentationsschlusses vom
Testverhalten auf dasjenige außerhalb der Testsituation (abhängig von der Genauigkeit der
operationalen Definition des Zielkonstrukts)
→ quantitativ messbar über Beurteilerübereinstimmung (Ü-Koeffizient)
→experimentelle Bestimmung: Testgenerierung entsprechend Konstrukt und Regeln des
Tests, die 2 Test werden dann 2 Stichproben vorgelegt, Korrelation zwischen den Tests = Maß
für Inhaltsvalidität
2) Kriteriumsbezogene Validität (externe) = Grad des Korrelationsschlusses zwischen
Testergebnis und Kriterium (Außenkriterium)
→ experimentell messbar: Pbn werden getestet und eine Korrelation zwischen ihrem
Punktwert und dem Kriterium gebildet.
→wichtige Einflussfaktoren: Reliabilität des Tests und des Kriteriums
→ Zulänglichkeit/ Kommunalität = Grad der konzeptuellen Gemeinsamkeit zwischen Test
und Kriterium
→ ein Kriterium wird zum Kriterium wenn es qualifiziert ist: höherer Status als der Test =
verlässlicher und entscheidungsrelevanter→ Echtes Kriterium (starke Validierung)
→ Quasikriterium = nicht höherwertiges Kriterium = Validierung von Gleichem mit Gleichem
(z.B. eine Skala, wie bei der Trennschärfe)
→ Target-Variable = Zielkriterium, welches vorhergesagt werden soll, ungeachtet dessen, ob
es einen guten/ inhaltsvaliden Test dafür gibt (Korrelation Skala-Target-Variable = Effektivität
= Angemessenheit des Tests für die Vorhersagezweck) schwache Validierung
→ Bestimmung der kriteriumsbezogenen Validität ist abhängig von Grund- und
Selektionsquoten
→2 Unterformen der Kriteriumsvalidität:
a) Konkurrente/ gleichzeitige/ Übereinstimmungsvalidität
Test- und Kriteriumswerte gleichzeitig erhoben; bei signifikanter Korrelation lässt sich
die Varianz des Kriteriums als deskriptives oder explikatives Konstrukt auf die Varianz der
Testwerte zurückführen oder durch sie erklären
b) Prädiktive Validität
Testwerte zu t1 und Kriteriumswerte zu t2 erhoben; Möglichkeit der Vorhersage;
Prädiktive Validität häufig geringer als konkurrente, da die Pbn zwischenzeitlichen
Störeinflüssen unterliegen (Konstanz aller Rahmenbedingungen notwendig)
Eingeschränkte Variabilität bei Auslese- und Platzierungsentscheidungen
Zur Vermeidung von Fehlerquellen: Erhebung des Prädiktorenscores, dann Treatment,
dann Erfolgsraten messen
Bei Selektion (keine repräsentative Spannbreite bei Messung des Kriteriums durch DropOut): Einengung der Variabilität im Prädiktor → Minderung des Validitätskoeffizienten
Grad der Repräsentativität und Grad der Validitätsminderung lässt sich ermitteln und
aufwerten (Voraussetzung: Standardschätzfehler und Steigung der Regressionsgeraden
gleich)
Eigentliche Kriterien = schwer zu erfassen
Aktuelle Kriterien = Indikatoren/ Abbildungen von eigentlichen Kriterien, die aber aktuell erfassbar
sind (oft unzulänglich)
Drei Beziehungen zwischen aktuellem und eigentlichem Kriterium:
1) Kriteriumskontamination (Eigenständigkeit des aktuellen Kriteriums ggü. dem eigentlichen
2) Kriteriumsrelevanz (Kommunalität/ Überlappung zwischen aktuellem und eigentlichem
3) Kriteriumsdefizienz (vom aktuellen Kriterium nicht erfasste Aspekte des eigentlichen)
Probleme auch bei Operationalisierung des Prädiktors:
1) Korrelation mit aktuellem Kriterium aber nicht mit eigentlichem
2) Keine Korrelation mit aktuellem aber mit eigentlichem Kriterium
Empirische Validität bezieht sich auf aktuelles Kriterium und besagt somit nichts über Korrelation
zwischen Prädiktor und wahrem/ eigentlichem Kriterium
3) Konstruktvalidität = Synthese aus Inhalts- und Kriteriumsvalidität; Einbettung des Konstrukts
in andere Konstrukte
Validierung als Prozess
Analysemethoden: Mittelwertsprüfungen, Cluster- und Faktorenanalyse
Multitrait-Multimethod-Analyse (MTMM)
Mind. 2 Methoden und 2 Konstrukte notwendig: Hohe Korrelation zwischen den Messungen
eines Konstruktes mit mehreren Methoden, geringere Korrelation zwischen Messungen
verschiedener Konstrukte mit einer Methode, geringste Korrelation im HeterotraitHeteromethod-Block und die Rangreihe der Korrelationen in den Matrizen muss replizierbar
sein (interne Replizierbarkeit der Rangreihe/ gleiche Muster von Traitinterkorrelationen) =
konvergente und diskriminante Validität
Ein Test ist immer besser als die Zufallsauswahl solange er eine Validität ≥ 0 hat.
Selbst bei objektiven, reliablen und validen Tests braucht man einen Bezugsrahmen zur
Interpretation der Testscores: Normierung:
1) Äquivalentnormen (Zuordnung zu Zeitabschnitten: Entwicklungs- bzw. Intelligenzalter;
Sterns Intelligenzquotient: Intelligenzalter/ Lebensalter * 100)
2) Variabilitäts- oder Abweichungsnormen (Bezug zu Häufigkeitsverteilungen/
Normalverteilung; Standardnormalverteilung (M=0, s=1); Standardwerte = z-Werte, jede
andere Verteilung kann in z-Werte umgerechnet und vergleichbar gemacht werden; z.B.
Abweichungs-IQ; äquidistante)
3) Prozentrangnormen (Zuordnung als relative Position auf der Rangreihe der Bezugsgruppe;
M= 50, 50% der Personen erreichen höheren Wert; 50% gleichen oder niedrigeren;
Voraussetzungslosigkeit und leichte Verständlichkeit, nicht äquidistant)
Wichtig für Normierung:
- Repräsentativität der Normierungs- oder Eichstichprobe (Alter, Schultypen, Herkunft o.ä.)
- Normdaten sollen aktuell sein (wg. Schnellem gesellschaftlichen Wandel)
Testfairness = Fairness des Testes ggü. allen Gruppen (unterliegt gesellschaftspolitischen Einflüssen)
3 wesentliche Modelle:
1) Quotenmodell / Modell der proportionalen Repräsentation
Eine Selektionsmaßnahme ist dann fair, wenn in der Stichprobe der ausgewählten Bewerber
die Proportion der Gruppen dieselbe ist, wie in der Bewerberpopulation = proportionale
Repräsentation (z.B. 1/3 Männer, 2/3 Frauen, Übereinstimmung von M und s)
→Vernachlässigung der Leistungen/ der Effizienz des Verfahrens, nur unter der
Voraussetzung sinnvoll, dass alle gleich leistungsstark sind
2) Regressionsmodell/ Modell einer fairen Vorhersage (Cleary)
Ein Selektionsverfahren ist dann fair, wenn für keine der verglichenen Gruppen eine
systematische Unter- oder Überschätzung der Kriteriumswerte entsteht.
→ erfüllt wenn die gruppenspezifischen Regressionsgeraden identisch sind (gleiche Steigung,
gleicher y-Achsenabschnitt)
→Vorhersage der Kriteriumswerte Y aufgrund der Testwerte X ohne Berücksichtigung der
Gruppenzugehörigkeit (Personen mit höchster Leistung in Gruppe A und B werden
angenommen, Leistung im Test und vorhergesagt im Kriterium;)
→ Auswahl der voraussichtlich Besten = Maximierung der Erfolgsrate
→ Keine Konstanz der Quoten A und B
3) Modell konstanter Verhältnisse (constant ratio model) von Thorndike
Ein Selektionsverfahren ist dann fair, wenn das Verhältnis zwischen der Anzahl ausgewählter
Bewerber und der Anzahl Erfolgreicher im Kriterium in verglichenen Gruppen gleich bzw.
konstant ist
→Ausgewählte/ Erfolgreiche = (RP+FP)/ (RP+FN): in Gruppe A und B gleich
→ Kombination aus Quotenmodell und Regressionsmodell
→ Ohne unterschiedliche Cut-Offs/ Testtrennwerte: Parallelverschiebung der
Regressionsgeraden zueinander
→Fair ggü. Gruppen A und B wg. Konstanter Quoten
→Unfair ggü. Grenzfällen: keine maximale Ausschöpfung von guten Kriteriumsleistungen, da
mit Quoten in Konkurrenz (Personen mit denselben Leistungen, werden je nach
Gruppenzugehörigkeit abgelehnt oder zugelassen, wenn es in einer Gruppe mehr
Leistungsbringer gibt als in der anderen= Fair ggü. Selegierten, unfair ggü. Abgelehnten)
4) Conditional probability model/ Modell konstanter Wahrscheinlichkeiten von Cole
Verfahren ist fair, wenn RP/ (RP+FN) also Verhältnis als Geeigneter ausgewählt zu sein zu
allen Geeigneten, in verglichenen Gruppen gleich ist
→ noch größere Parallelverschiebung der Regressionsgeraden ohne getrennte Cut-Offs oder
Bonus-Malus-System (Pluspunkte auf Testwert je nach Gruppenzugehörigkeit)
5) Equal probability model von Linn
Fairness wenn Konstanz des Bruches RP/ (RP+FP), also für die Zugelassenen beider Gruppen
soll die Wahrscheinlichkeit eines Erfolges im Kriterium gleich sein
→ größte Vereinbarkeit mit Cleary, da starker Bezug zu Kriteriumsleistungen
Wechselbeziehungen zwischen Gütekriterien:
- Validität als wichtigstes Gütekriterium
- Objektivität Voraussetzung für Reliabilität, welche Voraussetzung für Validität ist
(Obergrenze Validität = Wurzel reliabilität)
- Verbesserung von Objektivität und interner Konsistenz führen zu höherer Reliabilität
- Reliabilität und Validität partiell inkompatibel: Verdünnungsparadox wie bei
Minderungskorrektur: Je höher die Reliabilität desto geringer ist der Zuwachs an Validität in
bei der Aufwertung der Validität (Reliabilität steht im Nenner, je höher, desto niedriger der
resultierende Wert)
- Hohe Reliabilität = homogenes Verfahren = geringe Validität ggü. komplexen
Außenkriterien (höhere Heterogenität = höhere Validität aber = geringere Reliabilität)
- Testbatterie als Lösung der partiellen Unvereinbarkeit: einerseits homogene Einzelskalen =
hohe Reliabilität, andererseits heterogene Gestalt des Gesamttests = hohe Validität
-
Änderungssensitivität und Retestreliabilität (Stabilität) unvereinbar bei Verfahren zur
Erfassung der aktuellen Befindlichkeit
Transparenz eines Verfahren →Verfälschbarkeit →Validitätsminderungen (deshalb bei
Selektionsverfahren keine Persönlichkeitstests)
Validitätsgeneralisierung:
Lassen sich spezifische Test-Kriteriums-Validitäten aus einem Untersuchungskontext
a) auf andere Anwendungsituationen generalisieren (schwache
Validitätsgeneralisierungsanforderung)?
b) Über andere Tests und Kriterien generalisieren (starke
Validitätsgeneralisierungsanforderung)?
Grund: Validitätsstudien sind teuer und aufwendig, wäre eine Generalisierung möglich, müsste nicht
für jeden Test und jedes Kriterium eine Validierungsstudie durchgeführt werden
Traditionelle Auffassung (bis 70er Jahre):
Schmidt & Hunter (1977):
Generalisierungen sind nicht möglich, da
Validitäten situationsspezifisch sind und die
Anforderungsunterschiede/ Faktorenstrukturen
in verschiedenen Situationen stark variieren
Generalisierungen sind möglich:
Die in Studien gefundene Variablilität von
Validität geht auf statistische und methodische
Artefakte (z.B. Stichprobengröße) zurück, die
Fehlervarianzquellen lassen sich korrigieren,
sodass die wahre Variabilität gering ist und
somit die Validitäten stabil und generalisierbar
sind.
5 Schritte der metaanalytischen Vorgehensweise zur Validitätsgeneralisierung von Schmidt &
Hunter:
1) Sichtung der Literatur nach relevanten Studien (mit demselben oder ähnlichen TestKriteriums-Zusammenhang, z.B. Persönlichkeitstest und Berufseignung)
2) Transformation der Validitätskoeffizienten in Fischer-Z-Werte (Standardisierung in
normalverteilte, verhältnisskalierte Daten; die Verteilungen sind unterschiedlich aufgrund
der Fehlerquellen)
3) Bestimmung des Ausmaßes typischer Fehlervarianzquellen (Fehlervarianz)
a) Unterschiede in der Stichprobengröße (Bestimmung der Varianz aufgrund der
Stichprobe: 1/(N-3), N= durchnittl. Sp-Größe der Studien)
b) Unterschiede in der Reliabilität des Kriteriums (und des Prädiktors, wenn es um
unterschiedliche Verfahren geht, per Verteilung der Kriteriums- oder
Prädiktorreliabilitäten berechnet)
c) Unterschiede im Ausmaß der Varianzeinschränkung (z.B. durch unterschiedlich starke
Selektionsprozesse → Einschränkung in Prädiktor oder Kriterium, führt zu verschiedenen
Validitäten der Studien)
d) Unterschiede in der Qualität der Datenverarbeitung (z.B. Rechen-oder Tippfehler)
e) Unterschiede im Ausmaß der Kriteriumskontamination und der Kriteriumsdefizienz (die
Arten wie ein Kriterium erfasst werden kann, variieren von Studie zu Studie)
Schmidt & Hunter korrigierten nur um a)-c)
4) Hypothesenprüfung und Interpretation der Ergebnisse
a) Schätzung der wahren Varianz (beobachtete Varianz – ermittelte Fehlervarianz =
Restvarianz als Schätzung der wahren Varianz)
b) Hypothesentest (Ist die Variation in den wahren Validitäten Null? Also: Gibt es
überhaupt eine Varianz?)
c) Ggf. Konfidenzintervall (Bereich indem zu 95% Wahrscheinlichkeit die Validität liegt; je
weiter der Konfidenzintervall, desto situationsspezifischer und weniger generalisierbar
sind die Validitäten)
d) Interpretation (H0 = es gibt keine Variation der Validitäten = ideales Ergebnis =
Validitätsgeneralisierung möglich; H1 aber Konfidenzintervall schließt Null nicht mit ein:
Genrealisierung auf andere Kontexte möglich; Test mit hoher Wahrscheinlichkeit valide
oder mind. eine geringe Validität; H1 und Konfidenzintervall schließt Null mit ein = die
Validitäten unterschieden sich signifikant = keine Generalisierung möglich; aber
Verwendung als a-priori Wahrscheinlichkeit für Bayes-Statistiken: bedingte
Wahrscheinlichkeit, dass der Test valide ist unter der Bedingung, dass er es bisher nicht
war, kann durch Studie, die gute Validität belegt, ausgeglichen werden)
5) Schätzung der wahren Varianz/ wahren mittleren Validitätskoeffizienten (einfache
Minderungskorrektur mit mittlerem beobachteten Validitätskoeffizienten und Korrektur um
die durchschnittliche Varianzeinschränkung; diese kann dann auf alle Test-KriteriumsKombinationen generalisiert werden, wenn die H0 gilt)
Vorteile
- Aufbruchsstimmung, dadurch dass
Variabilitäten durch Artefakte erklärt
werden konnten
- These der unterschiedl. Faktorenstruktur
von Situationen ausgeräumt
- Methode kann auch zur Schätzung von
Effektstärken verwendet werden
- Korrekturen sind konservativ
- Beliebig viele Studien vergleichbar
Nachteile
- Keine einheitliche Vorgehensweise
- Auf Schätzprozeduren angewiesen
- Ergebnisse autorenabhängig
- Nur Studien vergleichbar, die minimal
notwendige Koeffizienten berichten
Beispiel: Wiesner & Cronshaw
Einfluss des Interviewformats- und strukturiertheit auf die Validität von Einstellungsinterviews
Fragen:
1) Welche wahre Validität haben Einstellungsinterviews?
2) Haben die Struktur (strukturiert vs. unstrukturiert) und das Format (Individual- vs.
Gruppeninterview) einen moderierenden Einfluss auf die Validität?
Vorgehen: siehe Schmidt & Hunter
Ergebnisse:
- unkorrigierte Gesamtvalidität von Einstellungsinterviews = .26
- korrigierte = .47 (deutlich valider als bisher angenommen)
- die Struktur hat einen deutlichen moderierenden Einfluss, das Format nicht (beide = .44)
- strukturierte Interviews mit Validität = .64 beste Prädiktoren
Testverfahren
Aufmerksamkeits- und Konzentrationstests
Such- und Durchstreichtests:
1) d2 Aufmerksamkeits-Belastungstest
2) KT 3-4-R Konzentrationstest für 3. Und 4. Klassen
3) FAKT-II Frankfurter Adaptiver Konzentrationsleistungs-Test
Rechentests
1) KLT-R 4-6 o. 6-13 Konzentrations-Leistungstest
Begriff
Alertness = basale Wachheit/ Ansprechbarkeit
durch Reize
Messung
einfache Reize schnell und zuverlässig
beantworten
Fokussierte oder selektive Aufmerksamkeit
(Ausblenden irrelevanter Reize)
Geteilte Aufmerksamkeit (Multitasking)
Beachtung von einem Reiz innerhalb einer
Reizklasse
Beachtung von mind. je einem Reiz aus zwei
deutlich verschiedenen Reizklassen
Fokussierte oder geteilte Aufmerksamkeit über
längere Zeit
Beachtung seltener Reize über längere Zeit
Daueraufmerksamkeit
Vigilanz (Wachsamkeit trotz Langeweile)
Intelligenztests
1) Wechsler-Tests (Wechsler-Bellevue Intelligence Scales): HAWIE (aktuell III) und HAWIK
(aktuell IV) und HAWIVA (für das Vorschulalter)
2) AID 2 Adaptives Intelligenz Diagnostikum 2
3) K-ABC Kaufman-Assessment Battery for Children
4) IST 2000-R Intelligenz-Struktur-Test 2000-R
5) LPS Leistungsprüfsystem: Kurze Fassung: PSB-R-4-6 und 6-13 Prüfsystem für Schul- und
Bildungsberatung
6) WIT 2 Wilde Intelligenztest
7) BIS-4 Berliner Intelligenzstruktur-Test
8) CFT Grundintelligenztest Skala 2/ Culture Fair Test 2 mit Wortschatztest (WS) und
Zahlenfolgentest (ZF)
9) RPM Ravens Progressive Matrizen (Standard, Advanced oder Coloured)
10) BOMAT Bochumer Matrizentest (advanced)
Spezielle Fähigkeitstests
a) Kristalisierte Intelligenz
1) ABAT-R Allgemeiner Büroarbeitstest
2) PAI30 Test zur Praktischen Alltagsintelligenz
b) Gedächtnis und Lernen
1) LGT 3 Lern- und Gedächtnistest
c) Motorik
Allgemeine Entwicklungstests
1) GES Griffiths Entwicklungsskalen zur Beurteilung der Entwicklung in den ersten beiden
Lebensjahren
2) WET Wiener Entwicklungstest
Spezielle Entwicklungstests
Schultests
a) Schuleingangstests (die sicherste Methode zur Schuleingangsdiagnose ist die Einschulung
aller Schüler mit der Möglichkeit, sich im Kriterium bewähren zu können. Als Frühindikatoren
für potentielle Schulprobleme, auf die die Schule rechtzeitig mit gezielten Fördermaßnahmen
zu reagieren hätte, sind in Schuleingangstest aber durchaus nützlich.)
b) Schulübertrittstests (Insgesamt ist die prognostische Validität von Übertrittstests zu gering,
um individuelle Entscheidungen allein von ihren Ergebnissen abhängig zu machen. Die
Erkenntnis, dass künftige Schulleistungen am besten durch bisherige Leistungen
prognostizierbar sind, erfordert die Einbeziehung von Schulleistungstest in die
Übertrittsdiagnostik.)
c) Schulleistungstests (Schulleistungstests sind in der Regel sehr valide normorientierte
Indikatoren der Schulleistungen und erlauben Vergleiche der Individualleistung mit
überregionalen Normen. Bei größeren Diskrepanzen zwischen örtlichen und überregionalen
Standards ist der Einsatz lehrzielorientierter Tests erforderlich.)
Persönlichkeitsfragebögen erfassen nicht irgendwelche wirklichen Persönlichkeitseigenschaften,
sondern die von einer Person bevorzugte Wahrnehmung und Darstellung ihrer selbst: Fragebögen
als eigentlich besterprobte subjektive Messmittel der Persönlichkeit aus Sicht des Individuums selbst.
Deshalb sind Persönlichkeitstestwerte vor dem Hintergrund der Messmethode zu interpretieren,
und Verzerrungen bei der Selbstbeobachtung und –beurteilung , der Beantwortung der Items und
der absichtsvollen Selbstdarstellung sollten in Erwägung gezogen werden. Die überwiegend
niedrigen Kriteriumsvaliditäten zeigen die Grenzen der Fragebogenmethode auf.
Persönlichkeitstestsysteme
1) MMPI-2 Minnesota-Multiphasic-Personality-Inventory
2) FPI-R Freiburger Persönlichkeitsinventar
3) 16 PF-R 16-Persönlichkeits-Faktoren-Test
4) D-PRF Deutsche Personality Research Form
5) NEO-FFI Neo-Fünf-Faktoren-Inventar
6) NEO-PI-R NEO-Persönlichkeitsinventar
7) TIPI Trierer Integriertes Persönlichkeitsinventar
8) BIP Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung
9) SVF 120 Stressverarbeitungsfragebogen
Verfahren zur Erfassung aktueller Zustände
1) STAI State-Trait-Angst-Inventar
2) EWL Eigenschaftswörterliste
Verfahren zur Erfassung von Interessen
1) EXPLORIX-Werkzeug zur Berufswahl und Laufbahnplanung
Verfahren zur Erfassung der Motivation
1) LMI Leistungsmotivationsinventar
Verfahren zur Erfassung von Handlungskontrolle (Volition)
1) HAKEMP 90 Fragebogen zur Erfassung von Handlungskontrolle nach Erfolg, Misserfolg und
prospektiv
Nichtsprachliche Persönlichkeitstests
1) NPQ Nonverbal Personality Questionnaire (nach PRF)
Objektive Persönlichkeitstests
1) OA-TB 75 Objektive Testbatterie
2) Arbeitshaltungen: Anspruchsniveau, Frustrationstoleranz, Leistungsmotivation, Impulsivität/
Reflexivität
3) OLMT Objektiver Leistungsmotivations Test
Projektive Verfahren
1) RT Rorschach-Test
2) TAT Thematischer Apperzeptionstest
3) Kinder-Apperzeptionstest (KAT)
4) LM-TAT Leistungsmotivations Thematischer Apperzeptionstest
Projektive Verfahren haben die Erwartung nicht erfüllen können, dass verdrängte
Bewusstseinsinhalte mit ihrer Hilfe ermitteln lasse, bewusste Informationen lassen sich durch
direkte Befragung leichter gewinnen, lediglich bei Kindern können projektive Verfahren als
Explorationshilfen dienen. Die Messqualität von projektiven Tests ist in der Regel nur durch hohen
konstruktorischen und prozeduralen Aufwand zu erreichen.
Verhaltensbeobachtung = Methode, diagnostisch relevante Informationen dort zu erheben, wo
keine formellen Testverfahren zur Verfügung stehen.
Ihre Objektivität ist umso größer, je konkreter die zu registrierenden Verhaltensweisen sind und je
geringer das Ausmaß der Urteilsprozesse durch Beobachter ist.
Danach sind Zeichensysteme mit eindeutig zu identifizierendem Verhalten, das in kurzen Intervallen
registriert wird, Kategoriensystemen vorzuziehen.
Kategoriensysteme haben ihre Berechtigung dort, wo statt einzelner Verhaltensweisen
Verhaltenssequenzen erfasst werden sollen. Nachteile sind Unschärfe auf Verhaltensebene
eingeschränkte Objektivität.
Am problematischsten sind Ratingverfahren. Ihre leichte Handhabbarkeit wird durch leichter
auftretende Beurteilungsfehler und damit zusammenhängende mangelnde Objektivität aufgewogen.
Sie eignen sich zur Untersuchung komplexer Phänomene und für Pilotstudien, um erste
Annäherungen an eine noch nicht klar strukturierte Fragestellung vorzunehmen.
3 Arten der Datenregistrierung bei Verhaltensbeobachtung
1) Zeichensysteme (Selektion der zu beobachtenden Verhaltensweise)
2) Kategoriensysteme (Zuordnung ähnlicher Verhaltensweisen in Klassen)
3) Ratingverfahren (Schätzung von Ausprägungsgrad/ Häufigkeit von Verhaltensweisen auf
Ratingkategorien)
Häufige Fehler bei Ratingverfahren:
- Halo-/ Hofeffekte
- Logische Fehler durch Interkorrelationen von Beobachtungen
- Milde- und Strengefehler durch Abweichungen vom Mittelwert der übrigen Beobachter
- Zentrale Tendenz (Tendenz zur Mitte) und Neigung zu Extremurteilen
Diagnostisches Interview als Überbegriff für Diagnostik mittels Gespräch: Anamnese, Exploration,
Einstellungsgespräch oder Auswahlgespräch (nach Verwendungszweck). Diagnostische Interviews
unterscheiden sich durch den Grad ihrer Standardisierung.
Strukturierte Interviews sind valider als unstrukturierte
Verhaltensbeschreibende Interviews sind valider als situative
Viele Fehler bei diagnostischen Interviews, auch bei guter Beurteilerübereinstimmung (bes. bei
niedriger Standardisierung)
Multimodales Einstellungsinterview nach Schuler
1) Gesprächsbeginn
2) Selbstvorstellung des Bewerbers
3) Berufsinteressen und Berufswahl
4) Freies Gespräch
5) Biografiebezogene Fragen
6) Realistische Tätigkeitsinformation
7) Situative Fragen
8) Gesprächsabschluss
3 paardiagnostische Ansätze:
1) Kognizierte Merkmale einer oder mehrerer Personen
2) Interaktionelle Merkmale von Personen in sozialen Situation oder Handlungsepisode
3) Interpersonelle Eigenschaften einer Person
Paardiagnostische Verfahren:
1) GT Gießen-Test
2) PFB Partnerschaftsfragebogen
3) TPI Trierer Partnerschaftsinventar
Familiendiagnostik:
1) FKS Familienklimaskalen
2) FDTS Familiendiagnostisches Testsystem
3) FB Familienbogen
Teamdiagnostik:
1) TKI Teamklima-Inventar
Gruppentestung
+ Ökonomisch
+ Vergleichsdaten
- Evtl. Benachteiligung bestimmter Gruppen
- Möglichkeit des Abschreibens: Parallel- oder
Pseudoparallelformen notwendig
- Störung durch andere
Schaffung von Optimalbedingungen
- Gelegenheit zu maximaler Leistung
Einzeltestung
- Zeitaufwendig
- Keine unmittelbaren Vergleichsdaten
+ Genauere Verhaltensbeobachtung möglich
+ Vertraulichkeit
-
Aufwärmphase schafft Vertrautheit und reduziert das Haupthemmnis: Test- oder
Prüfungsangst
Planung optimaler Bedingungen schwierig
Diagnose von Einstellungen zur Testsituation gut (per nachträglicher Befragung)
Bei Persönlichkeitsfragen: gute Beziehung zum Psychologen wichtig
Zu Selektionszwecken ist eine Stichprobe aus der Bewährungssituation angebracht; für
Bewährungssituation repräsentativ (keine Optimalbedingungen)
Die diagnostische Zielsetzung leitet die Gestaltung der Testsituation
Unimodale vs. multimodale Diagnostik
- Unimodal meist institutionell
- Multimodal meist individuell
- Mäßige Konkordanz von Daten aus verschiedenen Quellen
- Aggregation über Messzeitpunkte und Kriteriumsbereiche erhöht Reliabilität
- Regressionsanalytische Kombination (Vorhersage aufgrund mehrerer Quellen) als Lösung
- Verwendung von mind. 2 Methoden (erhöht Validität)
- Diskrepanzreduktion zwischen Ergebnissen verschiedener Methoden notwendig
Einstufige vs. mehrstufige Erhebung
- Einstufig: zeitökonomisch
- Mehrstufig: stufenweise angemessene Gestaltung der Testsituation, genauere Kenntnisse
von Fragestellung und Bewährungssituation; Bedenkzeit zur zusätzlichen
Informationseinholung; größere Vertrauensbasis; Infos über Konstanz und situationale
Variabilität von Verhalten durch mehrere Messzeitpunkte
Indirekte Veränderungsmessung = Messung T1 und t2, Bildung der Differenz
Direkte Veränderungsmessung = Messung t2, wie Unterschied zu t1 ist
Reliabilitäts-Validitäts-Dilemma = Je höher die Ausgangsreliabilität desto geringer die Reliabilität
der Differenzwerte. Hohe Korrelation zwischen den beiden Testungen = geringe Reliabilität der
Differenzen, da die Differenzen nur aus Zufalls- oder Fehlergrößen bestehen
Niedrige Korrelation zwischen t1/t2 = hohe Reliabilität der Differenzen (wird die Differenz
zuverlässig gemessen?), aber fragwürdige Validität für die einzelnen Testscores (da zu
unterschiedlichen Zeitpunkten unterschiedliches gemessen wurde)
Konstanz-Variabilitäts-Problem = Wo Konstanz (interne Konsistenz und Retestreliabilität) herrscht,
kann es kaum Variabilität (Änderungssensitivität) geben
Lösung: Verzicht auf zwei Kernannahmen der KTT (Konstanz der wahren Werte (r = 1) und
Unkorreliertheit des Fehler (r = 0)
→ Effektfunktion: Korrelation der wahren Werte zu zwei Messzeitpunkten (r ≠ 1)
→ Reliabilitätsfunktion: zeitabhängige Korrelation zwischen den Messfehlern (r ≠ 0)
Regression zur Mitte: fragliche Interpretation der Veränderungswerte, da extreme Werte bei
wiederholter Messung zur Mitte regredieren ohne, dass ein wahrer Effekt stattgefunden hat.
Ausgangswertgesetz: Höhe eines Ausgangswertes ist negativ mit Zuwachs korreliert (siehe
Minderungskorrektur und Aufwertung der Validität)
Physicalism-subjectivism-dilemma = Entsprechen gleiche Veränderungswerte auf verschiedenen
Abschnitten des physikalischen Messwertekontinuums auch psychologisch/ subjektiv gleichartigen
Veränderungen (Kann der psychologische Test andersartige Veränderungen in exakter Weise
messen?)
Der diagnostische Prozess ist eine Abfolge von Maßnahmen zur Gewinnung von diagnostisch
relevanter Information, er ist keine Einbahnstraße, sondern ein Geschehen bei dem der Diagnostiker
sich u.U. erst nach mehreren Durchgängen dem Ziel, der Beantwortung der Fragestellung, nähert.
Wichtigste Stufen des Prozesses nach Jäger:
1) Übersetzung der Fragestellung in psychologische Hypothesen
2) Operationalisierung der Hypothesen
3) Planung und Durchführung der Untersuchung
4) Auswertung der Ergebnisse
5) Evtl. erneuter Durchlauf der diagnostischen Sequenz (1-4)
6) Beantwortung der Fragestellung
Verhaltensgleichung um alle relevanten Einflussgrößen zu spezifizieren:
V = f (U, O, K, E, M, S)
Das Verhalten ist eine Funktion von Umgebungsvariablen, Organismusvariablen, kognitiven
Variablen, emotionalen Variablen, motivationalen Variablen, sozialen Variablen und ihren
Wechselwirkungen
Klinische versus statistische Urteilsbildung
Klinische Urteilsbildung
- intuitive, einzelfallbezogene, theoretisch
begründete Kombination von
Prädiktoren
- Möglichkeit besondere Muster in Daten
zu erkennen
- Mehr Informationen aus persönlichem
Kontakt
- Generierung von Hypothesen vorab zur
Beschreibung neuer Phänomene
Statistische Urteilsbildung
- statistisch-mathematische Kombination
der Prädiktoren zur Vorhersage des
Kriteriums aufgrund allgemeiner
Gesetzmäßigkeiten
- Informationen können kodiert werden
und müssen statistisch gewichtet
werden
Unterscheidung in der Datenkombination; Datenerhebung u.U. gleich
Mechanische Messung = Datenerhebung durch Messwerte (Tests)
Beurteilende Messung = Datenerhebung durch klinische Interviews mit Beurteilung
Wäre die statistische der klinischen überlegen oder mind. gleichwertig, könnte ein Psychologe
ökonomischer zur Diagnose gelangen und sich stärker auf Therapie und Forschung konzentrieren.
Cronbachs experimentelles Vorgehen zur Messung des globalen Genauigkeitswertes
(Abweichungsquadrate):
Beurteilerübereinstimmung: Kliniker und Selbsteinschätzung (Vorhersage: je genauer, desto kleiner
die Abweichung GLOB)
GLOB = E2 + DE2 + SA2 + DA2
1) E = elevation = Hebung: Ausmaß niedrigerer oder höherer Urteile durch Beurteiler
(Itemebene)
2) DE = differential elevation = differentielle Hebung: Ausmaß indem der Beurteiler die
Abweichung einer Person vom Mittelwert der Gruppe über alle Items und Personen richtig
voraussagen kann (Itemebene)
3) SA = stereotype accuracy = stereotype Genauigkeit: Fähigkeit des Beurteilers das
durchschnittliche Antwortverhalten in allen Items vorherzusagen (Personenebene)
4) DA = differential accuracy = differentielle Genauigkeit: Fähigkeit des Beurteilers
Unterschiede zwischen den Personen in den einzelnen Items vorherzusagen (Personenebene,
bevorzugter Index der Beurteilergenauigkeit)
Brunswicksches Linsenmodell = allgemeines Urteilsmodell
Eine Person fällt Urteile über unsichere Ereignisse auf der Basis von Hinweisen (cues) oder
Bezugspunkten (Prädiktoren x1, x2, x3, x4 usw.). Es gibt subjektive Beziehungen der Hinweise
untereinander und zum Urteil (rechte Seite). Auf der anderen Seite gibt es die realen Beziehungen
der Hinweise untereinander und zum unsicheren Ereignis (linke Seite). Wobei die Situation dadurch
kompliziert wird, dass die Beziehung zwischen Hinweisen und Ereignis eine Wahrscheinlichkeitsbeziehung ist. Wir haben also zwei Systeme. Das eine System ist die Umwelt (links), das andere
System die mentale Repräsentation (rechts) oder Abbildung der Umwelt. Urteilsgenauigkeit hängt
davon ab, inwieweit diese beiden Systeme einander entsprechen = Validität der klinischen!
Validität der klinischen
Vorhersage
X1
Kriterium
Validität der
statistischen
Vorhrsage
X2
statistische
Vorhersage
klinische
Vorhersage
paramorphe klinische
Vorhersage
Güte der
paramorphen
Repräsentation
X3
X4
Studien zur Urteilsbildung:
Meehl: die statistische Datenkombination ist der klinischen überlegen
Sawyer: Studien von Meehl fehlerbehaftet; Konfundierung von Datenerhebung und
Datenkombination; Variation von Datenerhebungsmethode und Urteilmethode notwendig
→ die statistische Datenkombination ist der klinischen überlegen, egal bei welcher
Datenerhebungsmethode
→ beurteilende Messung ist die schwächste Datenquelle
→Kombination mechanische und beurteilende Messung am Besten, insb. bei statistischer
Datenkombination = mechanisch zusammengesetzte Vorhersagemethode
→Kliniker profitiert von PC-Daten, PC nicht vom Kliniker
Kleinmuntz: Automatisierung von Experten-Aussagen als wertvolle Interpretationsquelle;
automatisiertes Vorhersageprogramm besser als Kliniker
Goldberg: Kombination von reliablen Computer-Vorhersagen und paramorphen Modellen von
klinischen Beurteilungsstrategien (per Regression von der Beurteilerstrategie)
Arten diagnostischer Entscheidungen:
- Individueller vs. institutioneller Nutzen
- Festgelegte vs. variable Annahmequoten
- Einstufige vs. mehrstufige Testungen (nichtsequentielle Batterie, Single Screen vs. Pre-reject
Strategie(Vorablehnung), Pre-accept-Strategie (Vorannahme), vollständig sequentielle
Strategie(Vorannahme und -ablehnung)
- Univariate vs. multivariate Informationen
- Verfahren mit Ablehnung = Selektion
- Verfahren mit Verteilung auf horizontaler und vertikaler Ebene = Platzierung
- Klassifikation = Zuordnung entsprechend der ermittelten Merkmale
- Terminale vs. investigatorische Entscheidungen
Kompensatorische Entscheidungsstrategien
- Lineare Kombination von Prädiktionswerten
- Niedrige Leistungen in einem Prädiktor können durch hohe Leistung im anderen kompensiert
werden
- Gemeinsamer Trennwert
Oder-Konzept
- Gesamtsumme wird nicht benötigt, Leistungen in einem oder in einem anderen Prädiktor
genügen
Modelle sind dysfunktional wenn Mindestleitungen in den Teilgebieten vorliegen müssen.
Konjunktive/ Und-Konzepte:
- Leistungen in mehreren Bereichen müssen vorliegen
- Kritische Trennwerte für jeden Prädiktor
Bei festgelegten Aufnahmequoten führen kompensatorisches und konjunktives Modell zu
unterschiedlichen Trennwerten.
Entscheidungsfehler
Basisrate = Wahrscheinlichkeit der tatsächlich Positiven (TP und FN)
Selektionsrate = Wahrscheinlichkeit der positiv vorhergesagten (TP und FP)
Test- oder Schätzverfahren können nur dann eine perfekte Validität erhalten (=1) wenn BR = SR
Ein Test wird mit sinkender Selektionsrate effektiver („Sahne abschöpfen“)
- Fehler erster Art = α-Fehler = FP = Falsche Positive (Personen als krank bezeichnet obwohl
sie gesund sind)
- Fehler zweiter Art = β-Fehler = FN = Falsche Negative (Personen als gesund diagnostizieren
obwohl sie krank sind)
α-Fehler sollten vor allem in der Eignungsdiagnostik vermieden werden, da dort FP sehr teuer sind
und keine ausreichenden Leistungen erbringen → kostenreduzierend
β-Fehler sollte vor allem in der klinischen Diagnostik vermieden werden, da dann Personen mit
einer psychischen Störung/ einer Erkrankung (FN) keine Behandlung bekommen würde, obwohl sie
eine brauchen → lebensrettend
Gütekriterien einer Entscheidungsstrategie
1) Sensitivität = Wahrscheinlichkeit einen vorliegenden positiven Zustand als solchen zu
diagnostizieren = TP
2) Spezifität = Wahrscheinlichkeit einen vorliegenden negativen Zustand als solchen zu
diagnostizieren = TN
3) Positiver Prädiktionswert = Wahrscheinlichkeit mit der eine positive Diagnose zutreffend ist
(TP/FP)
4) Negativer Prädiktionswert = Wahrscheinlichkeit mit der eine negative Diagnose zutreffend
ist (TN/FN)
Taylor-Russell-Tafeln = Tafeln um die Effizienz von Auswahlentscheidungen zu erhöhen ( Welche
Grund- und Selektionsrate man benötigt)
Bei hoher Grundrate Erfolgreicher und niedriger Selektionsrate sind effiziente Entscheidungen auch
mit Tests möglich, die eine mäßige Validität aufweisen
Basisrate = selektiver Eignungsquotient = (TP+FN)/N = Alle Erfolgreichen in Relation zu Allen
3 Entscheidungsregeln zur Vermeidung von Zuordnungsfehlern:
1) Neyman-Pearson-Kriterium
- Statistische Hypothesenprüfung auf Zuordnungsentscheidungen anwenden
- Entscheidungskriterium wird so verschoben, dass das Risiko für den Fehler erster Art
unterhalb des α-Niveaus liegt
- Reduzierung α-Fehler führt zu Anstieg des β-Fehlers in unbekanntem Ausmaß
- Nur für Entscheidungen nichtklinischer Art, wo der β-Fehler nicht so gravierend wäre (z.B.
Eignungsdiagnostik)
2) Minimax-Kriterium = der maximale Zuordnungsfehler wird in allen Klassen möglichst klein
gehalten
3) Minimum-Loss-Kriterium = minimiert alle Zuordnungsfehler über alle Klassen gleich. Relativ
zueinander bleiben die Höhen der Fehler erhalten.
Die Festsetzung von Testrennwerten/ Cut-Offs wirkt sich auf die Art und Stärke der
Zuordnungsfehler und auf die Güte der Zuordnung aus.
Mit der ROC-Kurve (Receiver-Operating Characteristic) lassen sich Sensitivität und Spezifität
simultan und unabhängig von den Basisraten für verschiedene Testtrennwerte bestimmen (Wenn
man die Verteilung der Gruppenkennwerte kennt).
Je höher der Trennwert/ Cut-Off desto geringer die Sensitivität und desto höher die Spezifität
(Rückgang FP und Zunahme FN)
d.h. bei klinischer Urteilsbildung Trennwert niedrig ansetzen (Rückgang FN, Zunahme FP)
bei Eignungsdiagnostischer Fragestellung Trennwert hoch ansetzen
Trennwerte müssen auf persönlichen, sozialen, ökonomischen und praktischen Erwägungen
beruhen und können nicht festgelegte kritische Trennwerte sein (Fairness).
Zur Analyse von Zuordnungsfehlern muss die Zuordnung bereits stattgefunden haben.
1) Likelihood-Quotient = Zugehörigkeitswahrscheinlichkeiten (Welcher Klasse gehört das
Individuum i mit Prädiktionswert x mit der größten Wahrscheinlichkeit an?)
Wenn c = 1 Maximale Gruppenzugehörigkeitswahrscheinlichkeit = Sensitivität
Wenn c < 1 mehr Spezifität, geringere Sensitivität
Spezifität und Sensitivität lassen sich wechselseitig (vice versa) beeinflussen.
2) Regressionstechniken: Einsetzen der individuellen Prädiktionswerte in Regressionsgleichung
= Kriteriumswerte
→Differenzbildung vorhergesagter Kriteriumswert und kritischer Kriteriumswert
→Zuordnung zu Kategorien per Differenzwert ( ist die Differenz negativ, wurde der kritische
Wert übertreten = Annahme, bei positiver Differenz ist der ermittelte Wert kleiner als der
kritische = Ablehnung)
3) Diskriminanzanalyse = individueller Testwert wird in Diskriminanzfunktion eingesetzt.
Resultierender Wert entscheidet über Zuordnung (kleiner oder gleich kritischer
Diskriminationswert = Ablehnung, größer krit. Diskriminationswert = Annahme)
4) Ähnlichkeits- bzw. Distanzmaße: Vergleich des individuellen Testwertprofils mit dem
durchschnittlichen Testwertprofil der Referenzgruppe, 3 Ähnlichkeitsmaße:
a) Euklidische Distanz D =
b) Mahalanobis-Distanz
c) Cattellsche Formel
→ Zuordnung nach geringer die Distanz (D) = große Ähnlichkeit
→bei a) und c) muss die Unabhängigkeit der Prädiktoren vorausgesetzt sein
Nutzenerwägungen
- Per Strategiematrix (Entscheidungswahrscheinlicheiten für unterschiedliche
Informationsquellen)
- Per Validitätsmatrix (Vergleich der Validitäten)
- Nutzen- und Kostenvektor für jede Kriteriumsklasse
- Nettonutzen einer Strategie
- Oder A-priori-Nutzen
- Bestimmung einer Gelwertäquivalente ist bei A&O-Entscheidungen möglich aber bei
klinischen Entscheidungen nicht möglich und ethisch nicht vertretbar
- Berechnung von Opportunitätskosten möglich: Kosten eines entgangenen Gewinns durch FN
- Individuelle vs. gesellschaftliche Kosten und Nutzen
- Kostensenkung durch ambulante Psychotherapie ggü. später notwendiger stationärer
Therapie
- Ebenso erwiesener Nutzen psychodiagnostischer Eignungsauswahl für Volkswirtschaft
- Nutzenfunktionen wichtig aber schwer bestimmbar
- MAUT-Technik (Multi-Attributive Utility Theorie) wichtige praktische
Nutzenbestimmungsmethode
Verhaltensvariabilität = situativer Druck führt zu Verhaltenskonformität (traitgeleitete individuelle
Verhaltensunterschiede verschwinden)
→ Verhaltenskonformität wird in Auslesesituationen angeregt (auch geringe Extraversionswerte)
→ Verhaltensvariabilität in projektiven Verfahren angeregt
→ ebenso Erfassung individueller Perzeptionen und Kognitionen in Situationen wichtig
Selbstaufmerksamkeit erhöht Validität in Selbstberichten
→ Bedenkzeit bei FB besser als spontanes Antworten (sonst mehr sozial erwünschte Antworten, da
die schneller zur Verfügung stehen, als selbstreflektierte Antworten)
Reliabilitätserhöhung durch Aggregation über Beobachtungszeitpunkte, Verhaltensweisen und
Situationen können zu einer substantiellen Erhöhung der Validität führen (Erhöhung von
Heterogenität und inhaltlicher Breite im Kriterium und im Prädiktor)
Aggregation von Verhalten über Situationen nur sinnvoll wenn durchschnittliches Verhalten
interessiert, anstatt Reaktionen in spezifischen Situationen
Zur Abschätzung der Stabilität von Verfahren die änderungssensitiv States/ Zustände messen,
braucht man andere Reliabilitätsschätzungen als die Retestreliabilität:
1) Schwankungen/ Oszillationen der Messwerte aufzeichnen und die höchsten Amplituden
zweier Messstrecken vergleichen
2) Fourier-Analysen: beobachtete Schwankungen spektralanalytisch auswerten (wie bei EEG)
Fraktionierungsmethode zur Identifikation von Moderatorvariablen/ Personengruppen mit einer
bes. hohen Vorhersagbarkeit
→ Fraktionierung einer Stichprobe in Substichproben mit unterschiedlichen Merkmalen, wenn die
zu prüfende Variable alternativ (dichotom, z.B. männlich, weiblich) oder mehrklassig diskret
(mehrere nominale Stufen, z.B. deutsch, französisch, serbisch usw.) ist.
→ bei kontinuierlich-quantitativen Abstufungen der Variable: Regressionsanalytisches Modell
besser = Steigung einer einfachen linearen Regression eines Kriteriums auf einen Prädiktor mit Hilfe
eines Moderators bzw. die Steigungskoeffizienten stellen eine lineare Funktion des Moderators Z dar.
Suppression:
Insgesamt zeigen die Forschungen zum Suppressorkonzept, dass es neben der direkten Erhöhung der
Validität durch Einsatz von weiteren Prädiktoren auch die Möglichkeit gibt Suppressorvariablen zu
erheben, die keinen oder einen nur sehr geringen Zusammenhang zum Kriterium aufweisen.
Aufgrund der hohen Korrelation der Suppressorvariable mit den übrigen Prädiktoren werden deren
kriteriumsirrelevanten Varianzanteile gebunden oder unterdrückt.
Antwortstile oder testbegleitende Faktoren wie Testangst oder Testmotivation haben sich bisher
nicht als Suppressoren erwiesen.
Part- oder Semipartialkorrelation = ideale Suppressorbedingungen: rcs = 0 , rsp = positiv, rcp=
positiv
→ der Einfluss des Suppressors muss nur aus dem Prädiktor herauspartialisiert werden, da nur zu
diesem eine Korrelation besteht.
→ Die Partkorrelation fällt immer höher aus als die reine Prädiktor-Kriteriums-Korrelation
(Validität) wenn die Korrelation zwischen Prädiktor und Suppressor ungleich Null ist.
Partialkorrelation = nichtideale Suppressorbedingungen: rcs ≠ 0 , rsp = positiv, rcp= positiv
→ der Einfluss des Suppressors muss aus Prädiktor und Kriterium herauspartialisiert werden, da zu
beiden eine Korrelation besteht.
→ Partialkorrelation muss höher sein als Partkorrelation, da im Nenner zusätzlich rcs berücksichtigt
wird
Herunterladen