VO Diagnostik 1 (Prof. Hagemeister SS 2009) Stichworte: Messen psychischer und psychologischer Phänomene, Ressourcen Diagnose: Feststellung des Vorhandenseins oder Ausprägungsgrades psychologischer Merkmale (Verhaltensweisen, Eigenschaften, Fähigkeiten) unter Beachtung bestimmter Kriterien. Prognosen Diagnostizieren in der Psychologie kann als das Aufstellen und Prüfen idiographischer Hypothesen verstanden werden, diese beziehen sich auf konkrete Einzelfälle. Diese Hypothesen werden im Laufe des diagnostischen Prozesses einer Überprüfung unterzogen und die gestützten oder nicht gestützten Hypothesen machen die Diagnose aus. Lohn wissenschaftlich fundierte Entscheidungen! Psychologisches Diagnostizieren ist ein Prozess, der unter Zuhilfenahme verschiedener Verfahren zielgerichtete Informationen über psychische Eigenschaften des in Betracht stehenden Menschen gewinnen will; dieser Prozess bezieht sich auf: Klärung der Fragestellung Auswahl der diagnostischen Verfahren Anwendung und Auswertung derselben Interpretation und Gutachtenerstellung Festsetzen der Intervention (keine Diagnose ohne Maßnahmenvorschlag) Psycholgische Diagnostik ist die wissenschaftliche Disziplin, die psychologisches Diagnostizieren für die Praxis vorbereitet. Abgrenzung: Diagnostik vs. Klassifizieren Bei Diagnostik ist der Maßnahmenvorschlag sehr im Vordergrund Wichtig Bezug zur experimentellen Psychologie und dem Experiment: Ein Test (psychologisch diagnostische Verfahren) ist eine wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale, mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Er erhebt unter standardisierten Bedingungen eine Informationsstichprobe über die Testperson, wobei die Idee der dem Experiment inhärenten Manipulation insofern Platz greift, als durch systematisch erstellte Fragen Aufgaben interessiere Verhaltensweisen oder psychische Vorgänge ausgelöst werden. Anamneseerhebung (Erfragen der Kranken- und Vorgeschichte) Exploration (Erkunden von Sachverhalten u. Stimmungen) (systematische) Verhaltensbeobachtung (Wahrnehmen von Reaktionen und Aktionen der Person soll persönlichkeitsbezogenen Informationsgewinn ermöglichen) Biografisches Inventar (fragt nach überprüfbaren Informationen aus der Lebensgeschichte) Assesment – Center (Qualität der Bewältigungsversuche einer Person bei vorgegeben berufsrelevanten Anforderungen) 1 Arbeitsplatzanalyse (psychologische Bedingungen und psych. Voraussetzungen eines Arbeitsplatzes) 1. 3 Voraussetzungen (S 9) Wesentliches Konzept der psychologischen Diagnostik ist das Experiment sowie Vorstellungen (Voraussetzungen) über den Zusammenhang von Verhalten und Eigenschaft. Grundsätzliche Unterscheidung zwischen Verhalten und Verhaltensdisposition (= psychische Eigenschaft)einer Person. (Latente) Eigenschaften machen unter bestimmten Bedingungen bestimmte Verhaltensweisen mehr oder weniger wahrscheinlich. Konkretes Verhalten kann schwerlich vorhergesagt werden, wenn dann bestenfalls die grundsätzliche Disposition dazu. Angelehnt an die experimentelle Idee des systematischen Manipulierens soll bei der Person Verhalten provoziert werden. Dieses provozierte Verhalten stellt eine Verhaltenstichprobe der Population aller Verhaltenweisen der Person dar und ist als Produkt der latenten Eigenschaft dieser Person zu sehen. Umkehrschluss: Die Person muss die interessierende Verhaltensdisposition in einem gewissen Ausmaß besitzen. Unterschiedlich sicher können dann Prognosen über künftiges Verhalten gemacht werden. Wichtig ist noch die Unterscheidung zwischen Eigenschaften, die sich in Folge gravierender Life events entscheidend verändern (Intelligenz) oder um Eigenschaften, die auch ohne Life events einem entwicklungspsychologischen Wandel ausgesetzt sind (Interessen) Vorbehalte von Laien gegenüber P.D. 1.4 Gesellschaftspolitische Kritik Schlagwörter: Selektion Autonomieproblem 1.5 Rechtfertigung Zur Kritik an Selektionsdiagnostik; Förderdiagnostik als Alternative (subjektbezogenes Interesse der psycholog. Diagnostik), Autonomie geringer, wenn ein dritter als Auftraggeber zb bei Rechtspflegeentscheidungen Frühförderung, Schuladministration etc. S17 Voraussetzungen für Eignungsentscheidungen: zwischen Menschen bestehen inter- und intraindividuelle Unterschiede der Kompetenz zur Bewältigung von Berufsanforderungen 2 das Ausmaß dieser Kompetenz ist oft ausschlaggebend für berufliche Wahlentscheidungen (diese Wahlentsch. Sind unausweichlich, erfolgen so oder so) Vorhersage künftiger berful. Leistungen und Verhaltensweisen ist das Ziel. Psycholog. Diagnostik trägt zu sachgerechten Entscheidungen und hilft Willkür zu reduzieren Beispiel für ein Verfahren: ZVT (Zahlenverbindungstest) Selektionsdiagnostik vs. förderorientierte Diagnostik Leistungstests vs. Persönlichkeitstests Computertests vs. Papier-Bleistift-Tets Gruppenverfahren vs. Individualverfahren Kinder vs. Erwachsen, Patienten, Eigeninitiative ... 1.7 Grundsätze Psychologengesetz und Berufsordnung setzen berufsständisch ethische Richtlinien fest, die DIN 33430 regelt konkret die Anforderungen an Verfahren und deren Einsatz bei berufsbezogenen Eignungsbeurteilungen, wobei sie sich in wesentlichen Teilen auf die Gütekriterien bezieht. Die DIN ist nicht rechtsverbindlich und repräsentiert die Minimalerfordernisse an die Qualifikation zum psycholog. Diagnostizieren. S 24 ff 3 2. Testtheoretische Grundlagen 1. Objektivität 2. Reliabilität 3. Validität 4. Normierung 5. Ökonomie 6. Nützlichkeit 7. Zumutbarkeit 8. Unverfälschbarkeit 9. Fairness 10. Skalierung 2.1 OBJEKTIVITÄT Darunter ist zu verstehen, dass die mit dem Test gewonnenen Ergebnisse unabhängig vom Untersucher sind. Der Grad der Objektivität ist entscheidend. Gelangen verschiedene Testleiter zum selbem Ergebnis ist Objektivität gegeben. 1. Durchführungsobjektivität (Testleiterunabhängigkeit) 2. Auswertungsobjektivität (Verrechnungssicherheit) 3. Interpretationsobjektivität 2.1.1 Durchführungsobjektivität (Testleiterunabhängigkeit) ....inwieweit ist das Testverhalten der Tp und ihr Testergebnis unabhängig von zufälligen oder systematischen Verhaltensvariationen des Testleiters. Es kann zu Versuchsleitereffekten kommen: Halo-Effekt, Rosenthaleffekt, geschlechtsspezifische Testleitereffekte. Eine große Rolle spielt die nonverbale Kommunikation. Besonders Individualverfahren sind gehandikapt, weil mehr Interaktion zwisch TL und Tp statt finden muss. Gruppenverfahren weisen eine geringe Interaktion zwischen Tl und Tps auf. Computerdiagnostik kann die Interaktion auch nicht völlig ausschalten, weil zu Beginn eine Interaktion unumgänglich ist. Beim Assesment – Center besonders problematisch. ganz klare Instruktion notwendig kaum soziale Interaktion zw. TL und Tp Umgebung muss auch standardisiert sein 2.1.2 Verrechungssicherheit (Auswertungsobjektivität) Im Manual muss präzise angegeben sein, wie die Testleistungen zu numerischen Testwerten zu verrechnen sind, so dass jeder Auswerter zu denselben Ergebnissen kommt. 4 Bei freiem Antwortformat ist die Verrechnungssicherheit besonders gefährdet, weil zb. teilrichtige Antworten dennoch als „richtig“ oder „falsch“ kategorisiert werden müssen (AID 2). Bei der Verrechnung von Teilpunkten ist es noch wahrscheinlicher, dass der TL Entscheidungsschwierigkeiten hat. Bei MC-Format ist die Verrechnungssicherheit gegeben, weil der Auswerter keinerlei Ermessensfreiheit. Gruppenverfahren sind meist mit MC-Format und daher verrechnungssicher, Individualverfahren sind meist mit freiem Antwortformat und somit weniger verrechnungssicher. Computerverfahren sind, egal ob freies oder MC-Format immer verrechungssicher. 2.1.3 Interpretationseindeutigkeit (Interpretationsobjektivität) Ist gegeben, wenn verschiedene Interpreten anhand derselben Auswertungsergebnisse zum selben Schluss gelangen. Bei normierten Verfahren ist sie immer gegeben, wegen den Prozenträngen. (sehr problematisches Beispiel aus ICD 10: Intelligenzminderung ICD – Diagnosen sind eher Klassifikationen, weil sie keine Intervention festsetzen. Projektive Verfahren sind nicht interpretationseindeutig. Eine gegebene Interpretationsobjektivität gewährleistet nicht die Objektivität der diagnostischen Konsequenz. Konsequenzverbindlichkeit Die kriteriumsorientierte Diagnostik arbeitet interpretationseindeutig und konsequenzverbindlich. 2.2 RELIABILITÄT Die Reliabilität eines Tests beschreibt den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeitsmerkmal misst (gleichgültig ob er dieses Merkmal auch zu messen beansprucht). - Formale Exaktheit der Merkmalserfassung - Zuverlässigkeit, mit der das Ergebnis richtig, im Sinne von exakt ist - Messgenauigkeit es sollten unter den gleichen Bedingungen die gewonnen Testwerte derselben Tp übereinstimmen, das geht aber nicht wegen Übungseffekten. In KTT methodische Auswege um Rel. dennoch zu bestimmen: 1. Paralleltest – Reliabilität 2. Retest – Reliabilität 3. innere Konsistenz 2.2.1 Paralleltest – Reliabilität Anstatt eine Testwiederholung mit ein und demselben Test, kann eine zweite Vorgabe mit einem Paralleltest erfolgen, dieser stellt eine völlig gleichwertige Version 5 des ursprünglichen Tests dar. Die Korrelation zwischen Test und Paralleltest, ermittelt anhand einer Stichprobe von Tpn, beschreibt das Ausmaß in dem die Relationen der Testwerte (Messungen) der einzelnen Tpn zueinander konstant bleiben. Haupteinwand ist, das die KTT Probleme hat einen Paralleltest zu erstellen so ist eigentlich die Korrelation zwischen Test und Paralleltest nur ein Kriterium wie gut die Version des Paralleltests ist. Daher muss an die Güte des Paralleltests einfach geglaubt werden. Außer bei Matrizentests, da können die Items hinsichtlich lösungsirrelevanter Gestaltungsmöglichkeiten variiert werden, aber dann kommen Übungseffekte zum Tragen. 2.2.2 Retest – Reliabilität (Stabilität) Wiederholung ein und desselben Tests über einen längeren Zeitraum als Methode zur Reliabilitätsbestimmung, liefert Infos über den Test und die gemessene Eigenschaft. Es gibt situationsüberdauernde Merkmale, daher gibt es Aufschluss über die Stabilität einer Eigenschaft. 2.2.3 Innere Konsistenz (Homogenität) Messgenauigkeit eines Tests danach beurteilen, wie sehr die einzelnen Teile eines Tests dasselbe messen. Sollen die Items alle ein und dieselbe Eigenschaft messen, müssen sie innere Konsistenz zeigen. Ist dies nicht der fall wird das Ergebnis von Zufälligkeiten überlagert werden und die Einheitlichkeit der Items fehlt. Split – Half – Methode zur Bestimmung der inneren Konsistenz, die resultierenden Testwerte der beiden Testteile werden korreliert. Dieses Ergebnis entspricht allerdings einer Parelltest-Reliabilität für einen Test mit halber Länge und muss nach Spearman-Brown aufgewertet werden. 2r rtt= 1 + r Weitere Methoden: Cronbach – Alpha, Konsistenzanalyse Standardmessfehler für Konfidenzintervall, in welchem mit der Wahrscheinlichkeit alpha der wahre Wert der Tp liegt. Ideale Rel 0,9 2.3. VALIDITÄT (GÜLTIGKEIT) Unter Validität eines Tests ist zu verstehen, dass er tatsächlich jenes Persönlichkeits misst, welches er zu messen behauptet. Das wichtigste Gütekriterium und am schwierigsten zu prüfen. 1. Inhaltliche Gültigkeit 2. Konstruktvalidität 3. Kriteriumsvalidität 6 (4. ein neues Validierungskonzept) 2.3.1 Inhaltliche Gültigkeit wenn der Tests selbst, definitionsgemäß das optimale Kriterium des interessierenden Merkmals darstellt. Triviale Validität und logische Validität sind jedoch exakter Weise nur Spezialfälle der inhaltlichen Gültigkeit. Beispielweise erreicht man logische Validität durch die Einhaltung definitorisch festgelegter Regeln bei der Konstruktion eines Tests. Man erreicht sie durch ein Experten – Rating, jedes Item wird geprüft. Augenscheinvalidität bedeutet, dass der Tp auchgenscheinlich klar ist und sie durchschaut, was die Messintention des Tests ist. Das heißt Augenscheinvalidität # inhaltliche Gültigkeit. „Ökologische Validität“ zielt auf die Entsprechung psycholog. Diagnostizierens mit den Anforderungen der „natürlichen Lebensbedingungen“ ab. Es wird nämlich vorgeworfen, dass die Ergebisse nur labormäßig und wenig repräsentativ für die psychosoziale Umwelt der Tp sind. 2.3.2 Konstruktvalidität Erfüllt ein Test gewisse theoretische bzw. theoriegeleitete Vorstellungen in Bezug auf irgendein Konstrukt, dann ist ihm Konstruktvalidität zuzusprechen. „Konstrukt“: Merkmale, Zustände, Instanzen, die nicht direkt beobachtbar sind, sonder aufgrund von Verhaltensbeobachtungen erschlossen werden, zum Beispiel Angst. Ansätze zur Konstruktvalidierung: 1. klassische Faktorenanalyse 2. Campell und Fiske 3. nicht – korrelative Ansätze Klassische Faktorenanalyse Methode der mutlivariaten Statistik zur Identifizierung derjenigen Anzahl und Art unabhängiger Dimensionen, sog. Faktoren, die zur Erklärung einer größeren Anzahl korrelierender Variablen ausreichen. Jede Variable wird als Linearkombination dieser Faktoren ausfgefasst Beispiel für eine faktorenanalytische Konstruktvalidierung: Intelligenzkonzept von Wechsler, es sollen zwei voneinander unabhängige Intelligenzaspekte erfasst werden: die Verbale- und die praktische Handlungsintelligenz. Definition nach Wechsler: Intelligenz ist die zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander zu setzen“. Er zielt nur auf die Messung des Produkts der Intelligenz ab. 7 Auch Einflüsse nicht unmittelbar intellektueller Natur haben Einfluss. Konstruktnahe Tests (konvergente Validität) und konstruktferne Tests (diskriminante Validität) wenn der zu validierende Test im selben Faktor lädt, wie die ihm konstruktnahen Test und er gleichzeitig in denjenigen Faktoren nicht lädt, welche durch die ihm konstruktfernen Tests bestimmt sind, ist dir Konstruktvalidierung gelungen. Konstruktnahe Tests (konvergente Validität) und konstruktferne Tests (diskriminante Validität) wenn der zu validierende Test im selben Faktor lädt, wie die ihm konstruktnahen Test und er gleichzeitig in denjenigen Faktoren nicht lädt, welche durch die ihm konstruktfernen Tests bestimmt sind, ist dir Konstruktvalidierung gelungen. Ansatz von Campbell und Fiske S 59 Und alle Test auch unter verschiedenen Bedingungen Korrelationen bilden dann die sogenannte „Multi Trait Multi Method“ S59 mehr Details.... Die nicht – korrelativen Ansätze Analyse interindividueller Unterschiede bei Extremgruppen (Extremgruppenvalidierung) Mannschafts vs. Induvidualsportler (Diskriminanzanalyse) Analyse intraindivueller Unterschiede: Einen Test mehrmals vorgeben. habituelle Persönlichkeitseigenschaften sollten stabil sein, Stimmung sollte schwanken. Insbesondere wenn situative Bedingungen experimentell variiert werden, sollten sich bei einem validen Test deutliche Veränderungen zeigen. Selbst- oder Fremdbeobachtung während der Bearbeitung des Tests, insbesondere bei Entscheidungs- und Lösungsprozessen, soll feststellen, in wieweit das intendierte Konstrukt erfasst wird. („lautes Denken“) 2.3.3 Kriteriumsvalidität Ein bestimmtes Außenkriterium wird mit dem Test korreliert; Problem ein geeignetes Außenkriterium zu finden. Mögliche Außenkriterien: - Übereinstimmungsvalidität: Korrelation mit einem anderen Test, der das selbe Konstukt erfasst. - Vorhersagegültigkeit (prognostische Validität): bestimmt sich aus der Korrelation mit einem Außenkriterium in der Zukunft. Kritik: wie fern darf die Zukunft sein? Langfristige Prognosen sind unrealistisch, Durchführung der Validierung schwierig, weil man auch 8 Bewerber anstellen müsste, die als unqualifiziert prognostiziert wurden, um die Güte der Prognose zu bestimmen. Die Validierungsversuche sind generell unbefriedigend, aber durch die TaylorRussel Tafeln wird ersichtlich, dass auch wenig valide Test geeignet sind. Vorallem bei niedriger Selektionsquote bei mittel hohen Grundraten Bsp: Val =0,35 - Grundrate: potentiell geeignete Personen in der unausgelesenen Bewerberpopulation - Selektionsquote: Anteil der aufzunehmenden Bewerber im Verhältnis zur Bewerberzahl Bessere Prognosen erzielt man mit nicht nur einem einzigen Test sondern mit mehreren gleichzeitig, dann ist die Validität der Testbatterie als Gesamtpaket entscheidend. Jedoch stellt sich die Frage der Gewichtung der einzelnen Testkennwerte zueinander. 2.3.4 Ein neues Validierungskonzept Ein valider Test sollte zwischen zwei Gruppen erfolgreich differenzieren können. Die Maßnahme sollte dann auch nur bei einer richtig differenzierten und zugeordneten Gruppe wirken. Wenn nicht, dann ist der Test nicht valide. 2.4 NORMIERUNG (EICHUNG/ STANDARDISIERUNG) Ein Test erfüllt das Gütekriterium Normierung, wenn für sein Bezugssystem (Norm) zur Relativierung des individuellen Testergebnisses folgende Bedingungen gelten: Normen sind gültig und nicht veraltet Population, für die die Normen gelten, ist definiert Stichprobe für die Erstellung der Normen ist repräsentativ Normorientierte Diagnostik vs. kriteriumsorientierte Diagnostik 2.4.1 Eichen im Sinne von Relativieren X - xquer z – Transformation: z = s Wertpunkte: X - xquer W= s IQ - Punkte: Y - yquer W = s (Y) * 3 +10 * 15 +100 Referenzpopulation als Eichmaßstab, die 54 % der Refernzpopulation erreichen ein besseres Ergebnis. Bsp. zu IQ Werten IQ ist normalverteilt mit müh = 100 und s = 15 9 Wertpunkte sind auch normalverteilt mit müh ist 10 und s = 3 IQ – Wert von 135 135 – 100 = z = 2,33 15 bzw. 2,33 *15 + 100 = 135 für p = 0,16 (Also 16 % der Refernzpopulation) dies entspricht einem z = 1,00 1 * 15 + 100 = 115 16 der Referenzpopulation erzielt einen höheren Wert als 115 Begriff „normal“: anormal und normal sind relative Begriffe. Normal ist nicht immer gleich gesund und nicht gesund nicht immer gleich anormal. Es ist normal, dass ein hoher Prozentsatz der Österreicher irgendwann einmal Karies hat, aber gesund ist es nicht. Es ist anormal, dass man nie Zahnweh hat, aber es ist deshalb trotzdem gesund. 14 – 10 = 1,333 = z 3 z = 1,33 entspricht p = 0,0918 9,18 % erzielen ein besseres Ergebnis Die Testperson erreicht einen Prozentrang von 91. Testwerte unterscheiden sich signifikant, wenn sich die KIs nicht überschneiden. KI = xv +/- 1,96 * SFM (5%) SFM = Wurzel aus: s2 * (1 – rtt) Welche Reliabilität ist nötig um ein KI mit 95% Wahrscheinlichkeit so abzusichern, dass 25% der Population die Grenze unter- bzw überschreiten??? 2.4.2 Eichung im Sinn von Repräsentativerhebung Wie erreicht man Repräsentativität der Stichprobe. Durch Größe kann mangelende Repräsentativität nicht kompensiert werden. Die Aktualität der Eichtabellen ist sehr problematisch DIN 33430 alle 8 Jahre muss man prüfen! Problem Österreich und Schweiz und andere deutschsprachige Länder...sind Eichtabellen geeignet? Es ist sehr aufwendig repräsentative Stichproben zu bekommen – ebenso sind Zufallsstichproben sehr repräsentativ, aber schwer zu bekommen. Es reicht auch eine „Klumpenstichprobe“, wo die Klumpen zufällig gewählt werden. 10 Bestimmte Quoten in Bezug auf Alter und Geschlecht oder Schultypen sind wichtig einzuhalten Quotenstichprobe. Bei Stichprobenverzerrungen Mängel in Repräsentativität in Bezug auf bestimmte Variable, wenn diese hoch mit der zu erfassenden Eigenschaft korreliert müssen am Ende alle Tp mit der überrepräsentierten Eigenschaft ausgeschieden werden. Selbstverständlich stören Mängel in der Repräsentativität nicht, wenn zwischen dem nicht – repräsentativen Merkmal und den Testwerten in der fraglichen Eigenschaft kein Zusammenhang besteht. 2.4.3 Kriteriumsorientierte Diagnostik ...bedeutet, dass andere Vergleichsmaßstäbe zur Interpretation eines Testswerts herangezogen werden als die Testwertverteilung in der Referenzpopulation. Zum Beispiel absolut festgelegt oder individuumsbezogen. Soziale vs. individuelle vs. sachliche Norm Soziale Norm = Normorientierte Diagnostik Individuelle Norm = Vergleich mit früherer Testung Sachliche Norm = Kriteriumsorientierte D. (Bezug auf ein Kriterium zb Lernziel) Anwendungsbereiche sind die pädagogische – psychologische Dagnostik und die therapiegeleitete Diagnostik Teilleistungsstörungen im Zuge der förderorientierten D. können nur durch geeichte Testbatterien entdeckt werden 2.5 SKALIERUNG Ein Test erfüllt das Gütekriterium Salkierung, wenn die laut Verrechungsvorschriften resultierenden Testwerte die empirischen Verhaltensrelationen adäquat abbilden. Angemessenheit der Regelmentierung der Verrechnung der Testleistungen zu Testwerten (faktische Gegebenheit) Die Testwerte, die laut den Verrechungsvorschriften resultieren sollen die empirisch feststellbaren Verhaltensrelationen adäquat abbilden. Das ist nicht immer der Fall zb HAWIE – R Österreich und Deutschland Problem Items der 19,20,21 schwieriger und trotzdem 18 zu 17 bei Tp A und B der Testwert hängt nicht nur von einer einzigen Eigenschaft, dem Wissen ab, sondern auch von der Nationalität (vergleiche auch speed and power Problem) Laut KTT ist Schwierigkeit eines Items = relative Lösungshäufigkeit, mit der ein Item in der Eichstichprobe gelöst wurde. Die KTT sind ungeeignet einen Test auf Skalierung zu prüfen, daher existiert dieses Gütekriterium bei KTT auch nicht, es gibt aber andere Gütekriterien in der KTT, die mit diesem Gk zu tun haben: innere Konsistenz, Faktorenanalyse und Interkorrelationen. Die KTT strebt nach eindimensionalen Messungen. 11 Voraussetzung für das Gütekriterium Skalierung ist die Eindimensionalität, wenn diese gegeben ist, bezieht sie sich weiter auf darauf, ob die Verrechung zu Testwerten empirisch begründet ist In KTT: Die innere Konsistenz muss möglichst groß sein, wenn Eindimensionalität erzielt werden soll: Die Items des selben Tests sollen alle gemeinsam auf einem einzigen Faktor laden und die Interkorrelationen aller Items nahezu 1 betragen. Weiters sollen sich die Schwierigkeiten der Items innerhalb des Intervalls 0,05 bis 0,95 verteilen. Trennschärfeindizes sollen sehr hohe Werte annehmen. Methoden der KTT sind stichprobenabhängig und daher zu kritisieren. (S 83) 2.5.1 Methoden der Skalierung Die Probabilistische TT kann prüfen, ob die Verrechungsvorschriften eines Test verhaltensadäquate Relationen abbilden. Verrechnungsfairness Das dichotome-logistische Modell von Rasch muss gelten damit die Anzahl gelöster Items als Verrechnugsmodus, fair ist. Notwendigkeitsbeweis des Raschmodells: Es muss gelten, wenn die Anzahl gelöster Items ein faires Maß für die Testleistung sein soll. Es darf nur eine einzige Eigenschaftsdimension gehen. (Eindimensionalität) Lokal stochastische Unabhängigkeit der Items ist weiters unabdingbar: Ob eine Testperson ein iTem löst hängt von ihrer Fähigkeit und der Schwierigkeit des iTems ab und nicht davon, welche Items sie bereits schon gelöst hat und welche nicht. Umkehrschluss ist zwingend: Wenn ein Test nicht dem RM entspricht, ist er auch nicht verrechnungsfair. Das RM beschreibt die Wahrscheinlichkeit, das Tp v Item i löst in Abhängigkeit des Personenparameters, das ist die Fähigkeit von v, und des Itemparameters ..., das ist die wahre Schwierigkeit von i. Das RM ist stichprobenunabhängig spezifisch objektive Vergleiche: die Fähigkeit einer Person v oder w ist bestimmbar und vergleichbar unabhängig davon, welche Items vorgegeben wurden. Auch der Vergleich zweier Items i und j bezüglich der Itemparameter i und j ist unabhängig davon möglich, welche Stichprobe dafür verwendet wurde. Prüfung auf die Geltung des RM geschieht durch den Vergleich der geschätzen Itemparameter in Bezug auf ein Item bei zwei Teilstichstichproben Differenz entscheidend Koodinatensystem mit 45 Grad gerade. IQ nicht verrechnugsfair 12 2.5.2 Skalierung und Messegenauigkeit In der PPT bedarf es keiner Bestimmung der inneren Konsistenz. Indem sich die Items als modellkonform erweisen sind sie als homogen zu qualifizieren und messen auch alle dasselbe, eindimensional. Es genügt dementsprechend die Angabe, dass die Reliabilität im Sinn von innerer Konsistenz infolge der Modellkonformität gegeben ist. Die Genauigkeit eines Testergebnisses kann unabhängig von den je sonst noch getesteten Personen bestimmt werden --> Standard Error of Estimation Paralelltest sind für die PTT kein Problem und es können aus einem Pool modellkonformer Items kann jede Teilmenge daraus zu einem Paralleltest zusammengesetzt werden. 2.5.3 Skalierung und Eichung ? 2.5.4 Ökonomie + 5.5 Wirtschaftlichkeit Ein Test erfüllt das Gütekriterium Ökonomie, wenn er gemessen am diagnostischen Informationsgewinn, wenige Ressourcen (Zeit und Geld) beansprucht. (Lienert: Gruppentest, kurze Durchführungsdauer, wenig Material, einfach zu handhaben, einfach und bequem auszuwerten) Ökonomie im Sinne von Wirtschaftlichkeit = Kosten der Untersuchung In Bezug auf Zeitaufwand muss differenzierter betrachtet werden: Aufwand des Psychologen, Zeit die es für die Tp dauert usw. Aufwandsminimierung aber Sachlichkeit vorrangig, Aufwandsminimierung nachrangig. Wirtschaftlichkeit eines Test muss immer auch am diagnostischen Infogewinn relativiert werden. 2.5.6 Adaptives Testen Man ist stets bestrebt, den Informationsgewinn unter dem Aspekt der Wirtschaftlichkeit zu maximieren adaptives Testen besonders testökonomisch, da kurze Testlänge und trotzdem messgenau. (in PBT) Adaptives Testen als Kontradiktion zum konventionellen Testen. Nachteile des konventionellen Testens: es ist unökonomisch einer Tp, zu leichte oder zu schwere Items vorzugeben. Will man in den Extremen Fähigkeitsbereichen messen und zwischen zwei Tp genau differenzieren, stehen dafür zu wenige Items zur Verfügung (im HAWIK-III nur 4 bis 5 Items) 13 Die Items in der Reihe ihrer Schwierigkeit nach geordnet vorzugeben ist motivationsbeeinträchtigend. Zu leichte Items am Anfang demotivieren und zu schwere frustrieren gegen Ende hin. Durch die großen SMF in Untertests mit wenig informativen Items, kann man kaum Hochs und Tiefs identifizieren. Da nur wenige Items pro Tp informativ sind wird manchmal auf teilrichtige Antworten zurückgegriffen Skalierungsproblem! Idee, dass nicht alle Tp, dieselben Items bearbeiten müssen, sondern nur die, welche der individuellen Fähigkeit adäquat sind. Die Itemauswahl muss an das Leistungsvermögen adaptiert werden nur richtig/falsch Items Tailored Testing mit durchschnittlichem Item begonnen, dann entweder das leichteste oder das schwerste dann erste Schätzung des Personenparameter, dann immer genauer an die Schätzung angepasste Auswahlstrategie der Items möglich. - Beenden, wenn Schätzung sich kaum mehr veränder 60-70 Items sollten im Pool sein Es können die Leistungen von Personen verglichen werden, die unterschiedliche Items bearbeitet haben, da jeweils aus der Modellgleichung der unbekannte Personenparameter geschätzt werden kann, sofern die Itemparameter bekannt sind. Branched Testing Vorteile des adaptiven Testens: - Größere Messgenauigkeit bei kürzer Länge Es wird in allen Fähigkeitsbereichen gleich genau gemessen Keine motivationalen Beeinträchtigungen durch zu leichte oder zu schwere Items Es werden höchst informative Items vorgegeben und deshalb bedarf es keiner mehrkategoriellen Verrechnung Leistungsprofil kann problemlos interpretiert werden Nachteile: - Mehr Items müssen konstruiert werden Aufwendige testtheoretische Analysen Bindung an Computerdiagnostik Angebot beschränkt auf große Institutionen Birnbaum – Modell als Spezialfall des Raschmodells: Rateparameter 3 PL – Modell Ökonomisches Testen im Sinne von „weniger Items“ bedeutet nicht automatisch, dass sich die Durchführungsdauer verkürzt. 14 - Branched Testing Suboptimale Strategie bei der Itemgruppen vorgegeben werden und dann je nach Leistungsgüte zur nächsten Gruppe verwiesen wird so braucht man keinen Computer (Bsp AID 2) Ein für adaptives Testen testtheoretisch geeigneter Itempool bietet etliche zusätzliche Optionen ....weitere Verkürzung der Testlänge, Screenings und Parallelformen erstellen Es bringt nicht immer mehr Startgruppen zu wählen, um die Messgenauigkeit zu erhöhen. Eine größere Anzahl von Verzweigungsschritten ist wichtig - Ist eine Kompensation möglich? Die Möglichkeit, dass eine Tp zu einer falschen Gruppe verzweigt wird, wenn sie zweimal innerhalb einer Itemgruppe versagt 2.7 NÜTZLICHKEIT Ein Test ist dann nützlich, - wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und - die auf seiner Grundlage getroffenen psychologischen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen. ...wenn er durch keinen anderen Test vertreten werden kann und er hat eine geringe Nützlichkeit, wenn er ein Merkmal prüft, das mit einer Reihe anderer Tests ebenso gut untersucht werden könnte. Relevant ist der Begriff des Nutzens – in wie weit bringt ein Test zur Beantwortung einer Fragestellung Informationsgewinn mit sich. Es macht einen Unterschied, ob die angestrebte Diagnose im Interesse der Tp oder einer Institution liegt, welche Interventionsalternativen gibt es.... Es handelt sich im einfachsten Fall um Alternativentscheidungen: Ja oder nein, richtig oder falsch.... Beispiel zu Effizienzbetrachtungen: Cerebralschadensdiagnostik Trefferrate von 0,13 und 0,51 = 0,64 richtige Entscheidungen, das reicht aber nicht um die Nützlichkeit des Tests abzuschätzen. S109/110 Trefferrate, Grundrate, zufällig richtig entscheiden ein Test mit geringer Grundrate würde niemals die Chance haben sich zu bewähren, daher Der Entscheidung über den Einsatz des Test muss eine Nutzenfunktion zugrunde gelegt werden. Bei bestimmten Rahmenbedingungen ist hohe Spezifität (neg. Diagnose, neg. Zustand) relevant und bei anderen hohe Sensivität (pos. Diagnose, pos. Zustand) 15 Ein und derselbe Test kann in Abhängigkeit der Nutzenfunktion des jeweiligen Psychologen „nützlich“ sein oder nicht bei ein und derselben Fragestellung 2 relevante Nutzenfunktionen im Bsp.: - Test als Screening - Keinesfalls eine voreilige pos. Diagnose zu stellen Daraus resultiert dann der Gesamtnutzen U! S109/110 2.8 ZUMUTBARKEIT (S111) ...wenn der Test die Tp absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer sowie körperlicher Hinsicht schont. Es muss im Ermessen des Psychologen liegen, abzuwägen was er dem Probanden zumuten kann und darf.....Pausengestaltung Differenzierung sehr schwierig, was ist unter Nutzen genau und für wen zu verstehen es greifen auch gesellschaftspolitische Werte und Ideologien ein (Piloten - Bsp) Testdauer? Bei welchen Populationen? Unterschiedliche Testdauer bei Leistungs- bzw Persönlichkeitsverfahren Obligatorische Intelligenztestung? Wie schwierige Aufgabenstellungen? Wie intim dürfen die Fragen sein? Dichotome Antwortformate bei Persönlichkeitstests, bei welchen Populationen? (Forced –Choice) Persönlichkeitsfragen und Durchschaubarkeit? fühlt sich die Tp eventuell nicht ernst genommen? Projektive Verfahren ohne Augenscheinvalidität? Objektive Persönlichkeitstests (sehr geringe Augenscheinvalidität)? Computerdiagnostik? Psycholog. Untersuchungsablauf? o Kurze Pausen Erholungseffekt o Mit der Zeit nimmt aber Motivation dennoch ab mehrere Test zu bearbeiten o Persönlichkeitsfragebogen und dann Leistungstest keine Wirkung Leistungstest Pf wirkt sich aus Akzeptanz des Test durch die Testperson sehr wichtig! 16 2.9 UNVERFÄLSCHBARKEIT ...wenn die Tp ihr Testergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann. Bei Leistungstests ist Augenscheinvalidität nicht schlimm, aber bei Persönlichkeitstests sehr wohl. Eine Tp wird höchst wahrscheinlich sozial erwünscht und zu ihrem persönlichen Vorteil antworten. es soll also die Undurchschaubarkeit der Messintention das Ziel sein bei Persönlichkeitstests sollen also keine Augenscheinvalidität haben Versuche in diese Richtung: Objektive Persönlichkeitstests (nach R.B. Cattell) Diese täuschen der Tp konzeptgeleitet vor etwas Bestimmtes zu messen, wohingegen die Messintention eine ganz andere ist. Oder sie trachten, die Tp experimentell zu manipulieren und provozieren Frustration oder Stress ... Bsp. Testbatterie OA – TB 75: Flächengrößen Vergleichen, wo die Tp zum Raten verleitet wird. 2.10 FAIRNESS ...wenn die Testwerte zu keiner systematischen Diskriminierung best. Tp zb aufgrund der ethischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen. Unfair ist ein Test dann, wenn er Personen mit exakt der derselben wahren Eigenschaft unterschiedlich benachteiligt. Sprachliche Instruktion (sprachliche Verständlichkeit) Technische Handhabung (Computer) Inhaltliche Details (zb. religiöse Wertmaßstäbe oder Schichtzugehörigkeit) Wenn nur einzelne Items benachteiligen Item – Bias oder insgesamte Benachteiligung? sozioökonomische Handikaps (Culture Fair Tests) die meisten culture fair – tests kommen ohne Sprache aus typische Culture Fair Tests: Matrizentests, da sprachfreie Instruktion (WMT und SPM) Test in verschiedener Muttersprache Skepsis bei Computerdiagnostik, kann aber nicht bestätigt werden Die unterschiedlichen Wahrnehmungstypen visuell, auditiv usw...bei Computerdiagnostik zb. nur visuell. Wenn eine signifikant von null abweichende Korrelation zwischen den Testwerten und der Zugehörigkeit zu einer gesellschaftlichen Gruppe besteht, ist ein Test fair, aber es müssen Eichtabellen da sein, die gruppenspezifisch differnezieren. 17 Besonderer Aspekt der Fairness: Testerfahrung einer Person, Gewöhnung und Vertrautheit an Items psycholog. Tests 18 3. Formales Zu den psychologisch – diagnostische Verfahren zählen: Tests Biographisches Inventar Anamneseerhebung Exploration Verhaltenbeobachtung Assessment – Center Arbeitsplatzanalyse Innerhalb der Gruppe der Tests: Tests im Sinne von Leistungstests und objektive Persönlichkeitstests Persönlichkeitsfragebögen Projektive Verfahren Verschiedene Gestaltungsweisen von psychologisch – diagnostischen Verfahren: 1. 2. 3. 4. Freies Antwortformat vs. Multiple – Choice Format Power Tests vs. Speed - and - Power Tests Gruppen vs. Individualverfahren Papier – Bleistift vs. Computerverfahren Power – Test: misst Leisungshöhe ohne Zeitbegrenzung Speed – Test: Bearbeitungsgeschwindigkeit bei leichten Items = Leistung Speed – and – Power – Test: anspruchsvolle Leistungsanforderung unter Zeitdruck Drei psychologische Erhebungstechniken: Fragen Prüfen Beobachten Prozessstrategien im diagnostischen Prozess: Untersuchungsstrategien Entscheidungsstrategien 19 3.1 Gestaltungsweisen Die Frage Power – Test oder Speed – and – Power Test gilt nur für Tests im engeren Sinne nicht für Fragebögen oder Projektive Verfahren. 3.1.1 Freies Antwortformat vs. Multiple – Choice Vorteile des MC - Formats + Verrechnungssicherheit + bei Gruppentestungen MC verwenden + geringer Auswertungsaufwand und geringere Bearbeitungsdauer + Inhaltlicher Grund: bei manchen Tests ist die Aufgabenstellung erst durch Antwortmöglichkeiten definiert Nachteile des MC - Formats - diagnostisch weniger aufschlussreich - provoziert Rateeffekte 3 PL Modell ! - Forced – Choice (kein Nuancieren) vor allem bei Pfs Reaktanz - Wiedererkennen fällt leichter als reproduzieren, wenn es um freies reproduzieren geht nicht geeignet - Akquiesenz Tendenz bei Pfs, Tendenz zur Mitte - Viele Lösungstrategien Eindimensionalität? Auch Tests mit freiem Antwortformat können verrechnungssicher sein und nicht jedes Mal sind Tests mit freiem Antwortformat auch aufschlussreicher. Der Rateeffekt ist umso größer je weniger Antwortalternativen es gibt. A priori Ratewahrscheinlichkeit, man kann aber nicht zu viele Antwortmöglichkeiten vorgeben, um die Ratewahrscheinlichkeit gering zu halten, sonst kommen andere unerwünschte Effekte zum Tragen: Merkfähigkeit, Konzentration, Leistungsmotivation am besten 3 PL Modell von Birnbaum bzw Rasch Modell mit Rateparameter, dies würde aber letztlich einen testtheoretischen Rückschritt bedeuten Lösungsstrategien: „Produktionsstrategie“, „Versuch – und – Irrtum“ – Strategie, „Falsifikationsstrategie“ um Rateeffekt in en Griff zu bekommen: inhaltliche oder formalgestalterische Mittel S130 - - - Möglichkeit 2 richtige Antworten unter den verschiedenen Wahlmöglichkeiten, Item nur gelöst, wenn beide ausgewählt...bei 5 Antwortmöglichkeiten Ratewahrscheinlichkeit nur mehr 5 über 2 also 1/10 Besondere Instruktion oder Awmöglichkeiten: Bsp 3DW „Kein Würfel ist richtig“, „Ich weiß die Lösung nicht“ inwieweit vertretbar, dass manche Items doch keine Lösung haben? Sequentielle Vorgabe der Antwortmöglichkeiten 20 Responsesets: Jene Einflüsse, die sich durch bestimmte Antwortstereotypien der Testperson verfälschend auf die intendierte Dimension eines Tests auswirken. 1. Formale RSs: jene Tendenzen, die durch das Awformat bedingt sind - Ja – Sage Tendenz - Zufällige Beantwortung - Raten - Positionseffekte - Extremitätseffekte - Neutralitäseffekte 2. Inhaltliche RSs: verfälschte Aw aufgrund des spezifischen Inhalts des Items - Simulation - Dissimulations - Defensive Einstellung - Soziale Erwünschtheit - Abweichungsreaktionen - Lügen 3.1.2 Power- vs. Speed- and-power Test Die Frage Power oder Speed – and – Power Test gilt nur für Tests im engeren Sinne nicht für Fragebögen oder Projektive Verfahren. Gruppenverfahren erzwingen praktisch die Gestaltung als Speed and Power Test Problem Ursachen für schlechte Leistungen nicht eindeutig identifizierbar: Mangel an Schnelligkeit oder Mangel an Fähigkeit? Kontaminierung der beiden Eigenschaften keine Eindimensionalität, keine förderungsorientierte Diagnostik Ausnahme der WMT: ist ein S-P-Test und raschhomogen Entscheidung für Speed Tests aus inhaltlichen Gründen (ZVT Kap. 1.6) 3.1.3 Gruppen- vs. Individualverfahren Bei Individualverfahren ist der Einsatz ganz spezieller Testmaterial möglich, das geht bei Gruppenverfahren nicht. Gruppenverfahren Nachteile: - Benachteiligung von Personen mit reudzierter Lesefähigkeit oder Rechtschreibfähigkeit Abschreiben Störung der TP durch andere 21 3.1.4 Papier-Bleistif- vs. Computerverfahren Mediumsgerechte Nutzung des Computers macht es Möglich Dinge zu erheben und genauer zu untersuchen, als es damals überhaupt möglich war. Komplexere Bedingungen, Reaktionszeiten etc... Kubinger: 3 Arten der Verwendung des Computers: 1. Vereinfachung der Auswertung 2. Steuerung peripherer Geräte 3. Computertests zur Testvorgabe a. Computergestützte Vorgabe der Verfahren b. Computervorgabe von PP Verfahren c. Vorgabe originärer Computerverfahren i. Simulationen ii. Verfahren die den Computer mediumsgerecht nutzen iii. Per Gelegenheit als Computer-Version erstellten Verfahren Um die Computerversion als Äquivalent zur PP-Version verwenden zu können muss folgendes gelten: Beide Versionen messen, dieselbe Eigenschaftsdimension Mittelwerte der Testwerte stimmt für beide Versionen überein Verteilung der Testwerte stimmt für beide überein Agrument dagegen: keine Routine mit dem PC bei älteren Personen? Entscheidung immer neu treffen: Akzeptanz der Tp? S 141 Verrechungssicherheit und Testleiterunabhängigkeit sind gegeben. Mediumsgerechte Nutzung des PCs: Mehr oder weniger komplexe Reizanordungen sind möglich, Reaktionsschnelligkeit prüfbar Nur Power - Testung am PC leicht möglich (zb. MTA) Sequentielle Vorgabe der Awmöglichkeiten bei MC Nuancieren bei Pfs mit PC leicht möglich Tailored Testing mit PC leicht möglich Computersimulationen (Sinnhaftigkeitsprüfung) Objektive Pfs nutzen die Möglichkeit die Tp experimentell zu manipulieren Auditive Instruktionsvorgabe Erstellung von Paralleltests Itemkonstruktion für Tailored Testing Raumvorstellung 22 3.2 Erhebungstechniken Prüfen (Tests) Fragen (Persönlichkeitsfragebogen) Beobachten (Verhaltensbeobachtung) Alternative Prüfen oder Fragen bzw. Beobachten andererseits nicht identisch mit Leistungs- vs. Persönlichkeitsdiagnostik. Objektive Persönlichkeitstests grenzwertig zwischen Prüfen und Beobachten und zwischen Fragen und Beobachten: Prüfen wird eher akzeptiert, als Beobachten 3.2.1 Prüfen Außer bei den Tests nur noch bei Assesment – Center zb „Postkorb“ Viele Prüfmodalitäten auf S 150 bis 153 aufgelistet Zum Beispiel: Verbinde die Zahlen Wie viele Beine hat ein Hund Was ist das Gegenteil von Was ist das Gemeinsame von Analogieschlüsse ..... 3.2.2 Fragen Selbsteinschätzung bei Pfs Projektive Verfahren provozieren Stimmungslagen Biographisches Inventar fragt nach Fakten Anamneseerhebung Exploration (Klärung der Sachlage) Beim Assesmentcenter Fragemodalitäten der Persönlichkeitsfragebogen: Statments (3 Statements bewerten) Q-sort Methode (Kärtchen sortieren) Reden Sie manchmal über Dinge von denen Sie nichts verstehen? Fragemodalitäten der Projektiver Verfahren: Rorschach – Formdeute Verfahren (Was könnte das sein?) Familie in Tieren TAT (Thematischer Apperzeptionstest) Welche Geschichte könnte mit diesem Bild verbunden sein? 23 Anamneseerhebung und Exploration: S 161 Exploration: (entscheidungsorientiertes Gespräch) aus der medizinischen Fachsprache stammender Begriff für das Eruieren psychopathologischer Erscheinungen mittels Befragung des Patienten. Ermittlung normaler psychischer Vorgänge. Zur Klärung von Unklarheiten Widersprüche und Lücken Hinweise zur Interpretation des Testergebnisses. Oder zur Untersuchung der Persönlichkeitseigenschaften, Interessen, Werthaltungen, Einstellungen, Problemen, Erwartungen Unterscheidung: allgemeine oder informierende E. vs. gezielte E. - Allgemein/informierend: Tatsachen - gezielte E: Aufhellung von Problemen und Zusammenhängen Anamnese: (Sammlung der typischerweise mit dem Sachverhalt in Verbindung stehenden Informationen) Fakten! Vorgeschichte eines Tatbestandes insbesondere einer Erkrankung, einer Störung Unterscheidung: somatische A. vs. biographische A. vs sozioökonomische A. - somatische A. biologische Entwicklung - biographische A. - sozioökonomische A. Gesprächsleitfaden besonders wichtig: kurze, verständliche Erklärungen, einfaches klares Deutsch, Vermeidung von Fremdwörtern, Fachausdrücke, Vermeidung von Suggestivfragen dem Gesprächspartner fair gegenüber treten Themen, die sowohl in Anamnese als auch Exploration inhaltlich repräsentiert sind: Biologische Chancen oder Risiken Psychosoziale Chancen oder Risiken Psychische Chancen oder Risiken o Umgebungsbedingungen o Organismusbedingungen o Kognitive, emotionale, motivationale, soziale Bedingungen (Westhoff und Kluck, 2003) Formaler Rahmen der Entwicklung, Lebensumstände Verhältnis zu Eltern und Geschwistern Entwicklungsauffälligkeiten und entscheidende Lebensereignisse Sozialkontakte seit der Kiga Zeit Schule, Ausbildung, Beruf Zukunftserwartungen (Boerner, 2004) 24 3.2.3 Beobachten Gelegenheitsbeobachtung vs. systematische Verhaltensbeobachtung Gelegenheitsbeobachtungen dienen dem Gewinn eines qualitativen Eindrucks Zb. verhaltensbezogene Einschätzskalen Systematische Verhaltensbeobachtung erhebt wissenschaftlichen Anspruch: die auf das Verhalten eines oder mehrerer Menschen gerichtete, nicht dem Zufall überlassene, methodisch kontrollierte Wahrnehmung mit der Absicht, dadurch etwas für die Persönlichkeit Charakteristisches zu erfahren. nicht Beteiligter passiv teilnehmender Beobachter Bedenklich: jeder anwesende Beobachter beeinflusst das Verhalten Videokamera, Einwegspiegel ethisch bedenklich! Aber mit der Zeit vergisst die Person darauf, dass sie beobachtet wird! Vorteil: reales Verhalten wird erfasst Wichtig anschließend Infos kategorisieren! Fehlerquellen: Beobachtungsfehler Zeitaspekt Verhalten der Personen durch Beobachter verzerrt Einwegspiegel?! Kategorisierung (fehlende Interraterrel.) gründliche Einschulung unabdingbar, um Fehler zu minimieren und man sollte zunächst Beobachten ohne zu interpretieren. - Graphologie (Feinmotorik) - Assessmentcenter (kann zu Verhaltensbeobachtung gezählt werden) Ist ein psychologisch – diagnostisches Verfahren, das künftige Anforderungssituationen zu simulieren versucht, um die Eignung einer Person an deren Verhalten beobachtbar zu machen. zb. Postkorb, Vortrag, Präsentation, Gruppendiskussion Beobachter der Teilnehmer sind Führungskräfte des jeweiligen Unternehmens, da dann höhere ökologische Validität Wichtig ist, dass konzeptgeleitet beurteilt wird und systematisch vorgegangen wird, sonst eher Gelegenheitsbeobachtung. Sind die Verhaltensweisen situationsüberdauernd? Kaum Durchführungsobjektivität, weil spezifische Übungen gemacht werden müssen.... 25 3.3 Prozess – Strategien 1. Untersuchungsstrategien 2. Entscheidungsstrategien 3.3.1 Untersuchungsstrategien Planung: Klärung der Fragestellung Liegt ein Anforderungsprofil vor? o Angemessen operationalisiert? o Mögliche psycholog. Konstrukte: Arbeitshaltung, Kognitive Fähigkeiten, Sozialkompetenz und Administrative Kompetenz, Organisationsfähigkeit usw Auswahl der psychologisch diagnostischen Verfahren Soll die Sammlung der typischerweise strukturiert oder unstrukturiert erfolgen? Mit Fragebogen? Selber ausfüllen oder nicht? ..... Nicht mitschreiben erst nachher Soll ein Gutachten oder ein Befund erstellt werden Interpretation des Befunden und das Festsetzen des Maßnahmenvorschlages machen das Produkt der diagnostischen Arbeit zum psycholog Gutachten An wen wird das GA ausgehändigt PP oder C Testung 3.3.2 Entscheidungsstrategien Relation der Anforderungen abklären, sind Gewichtungen vorhanden oder nicht? Unterschiedliche Wertigkeiten einzelner Eigenschaften müssen transparent sein und zwar von Anfang an ( Klinische Urteilsbildung). Klinische Urteilsbildung: Intuition, Erfahrung und Fachwissen des Psychologen bilden ein Urteil über qualitative + quantitative Ergebnisse der Untersuchung, ohne dass die Regeln genauer bekannt sind. Statistische Urteilbildung: diejenigen Gesetzmäßigkeiten für einen individuellen Fall entscheidend zu machen, welche in vorangegangenen Studien an mehr oder weniger großen Stichproben erhoben wurden Die Feststellung der Relation der Anforderungen ist strategisch wichtig, um eventuell abklären zu können, ob: Stufenweise, ergebnisabhängige Testung (morge stage) Ist jede einzelne Anforderung unabdingbar? Kompensatorische vs. konjunktive Anforderungen konjunktiv multiples Minimum Kriterium, wer bestimmte Anforderungen nicht in einem bestimmten Mindestmaß erfüllt ist auszuscheiden kompensatorisch ein Tief in der einen Eigenschaft kann durch ein Hoch in der anderen wettgemacht werden 26 Sollen die p-d Verfahren für ein Screening eingesetzt werden? (grob klassifizierende Vorauswahl) (Sequentielle Diagnostik) In Selektionsdiagnostik muss man zwischen Bestenauswahl oder Auswahl Geeigneter unterscheiden Norm vs kriteriumsorientierte Diagnostik Kriteriumsorientierte D.: fordert vom Psy. mehr, da ein Kriterium fachlich begründbar festgelegt werden muss Zb. wie lange muss ein Rehabilitant nach einem Schädel - Hirn Trauma eine Sortieraufgabe fehlerfrei lösen können um am Arbeitsmarkt für wenig anspruchsvolle Tätigkeiten vermittelt werden kann? Förderungsorientierte vs. Selektionsdiagnostik: bei Selektionsdiagnostik Standardprogramm, aber förderorientierte D. ergebnisabhängige Auswahl weiterer psycholog-diagnostischer Verfahren, um die geeigneten Fördermaßnahmen festlegen zu können. Bezieht sich auf Testing the Limits (welche Bedingungen/Belastungen führen zu einer Verbesserung der Testleistung der Person oder sind diese noch akzeptabel?) Reicht die einmalige Vorgabe der Tests aus oder sollen diese ein zweites Mal vorgegeben werden? 27 4. Inhalte 1. Leistungsdiagnostik 2. Persönlichkeitsdagnostik 3. Diagnostik „hybrider“ Eigenschaften 4. Biographie 4.1 Leistungsdiagnostik a. Intelligenztests: Zusammenstellung von Untertests zu einer Testbatterie b. Spezielle Leistungstests: Erfassen eine bestimmte Fähigkeit Beide erfassen kognitive Fähigkeiten Kognitionsdiagnostik besser! 4.1.1 Intelligenz – Testbatterien meist in Anlehnung an eine Intelligenztheorie (oft Wechsler oder Thursone), aber nie exakt einer solchen entsprechend (Ausnahme: Berliner-Intelligenz Struktur Test) Def. (Cattell): „Intelligenz definiert das Bündel aller kognitiven Voraussetzungen, die notwendig sind, um Wissen zu erwerben und Handlungskompetenzen zu erwerben – wobei Kognition sich bezieht auf, jeden Prozess, durch den das Lebewesen Kenntnis von einem Objekt erhält oder sich seiner Umwelt bewusst wird: Wahrnehmung, Erkennen, Vorstellen, Urteilen, Gedächtnis, Lernen, Denken, Sprache...!“ Einzelverfahren AID 2 HAWIE – R, HAWIK – III K-ABC Gruppenverfahren IST-2000-R (S 185) KFT 4-12+R WIT PSB-R 4-6, PSB-R 6-13 Verfahrensbeschreibung + Kritik IST – 2000 R und AID 2 (S 185) In Anlehnung an misst Gütekriterien IST - 2000 - R Thurstone; Cattell, Guilford, Jäger 1. Schlussfolgerndes 2. Denken, Wissen a. Verbales numerisches, figurales Wissen b. Verbale numerische figurale Intelligenz c. Merkfähigkeit Verstößt gegen Skalierung AID 2 Wechsler Teilleistungsstörungen Keine prognostische Val, keine Absicherung der theoriegeleiteten Anlehnung 28 Maß Kein IQ Maß Intelligenzprofil 4.1.2 Spezielle Leistungstests Nach den Intelligenzfaktoren von Thurstone: Verbal Comprehension Space Memory Preceptual Speed Reasoning Intellektuelle Lernfähigkeit Aufmerksamkeit und Konzentration Entwicklungstests Technisches Verständis Verbal Comprehension Aus WIT: Sprichwörter und Gleiche Wortbedeutung (Untertests) Aus IST-2000R: Gemeinsamkeiten und Analogien (Untertests) Aus AID 2: Funktionen Abstrahieren (Untertests) Spezieller Leistungstest hierzu WST (Wortschatztest), Zuordnung zu VC aber nicht eindeutig, weil auch Memory erfasst wird, da das Wiedererkennen von Worten verlang wird und nicht das Reproduzieren. Es sollen Gedächtnisinhalte geprüft werden, die sehr früh in der Ontogenese gelernt werden und bis in hohe Alter behalten werden Einsatz in der gerontopsychologischen und neuropsychologischen Diagnostik zb bei Demenz Ähnlich LEWITE (Lexikon Wissen Test) Entwicklungstests zur Erfassung der Sprachentwicklung zb. HSET (Heidelberger Sprachentwicklungstest) Space Räumliches Vorstellungsvermögen, Raumvorstellung, fast in jedem Intelligenztest gibt es einen entsprechenden Untertest dazu, da diese Fähigkeit als eine wichtige Komponente von Intelligenz in solchen Testbatterien abgeprüft wird. 3 DW (Dreidimensionaler Würfeltest) Schlauchfiguren Aus WIT: Spiegelbilder und Abwicklungen (Untertests) Aus IST 2000R: Würfelaufgaben (Untertests) Aus AID2: Antizipieren und Kombinieren figural, Synthetisieren und Analysieren 29 abstrakt (Untertests) 3 DW einschlägiger Leistungstest Schlauchfiguren Problem: messen die PP Verfahren zu Raumvorstellung wirklich was sie messen sollen, oder vielleicht auch Reasoning? Memory Schwerpunkt auf Gedächtnis und nicht auf intellektueller Lernfähigkeit Beispiel LGT 3 (Lern und Gedächtnistest) Beispiel VLT und NVLT (Non-verbaler Lerntest) Aus WIT: Gedächtnis (Untertests) Aus IST-2000R: Merkfähigkeit (Untertests) Aus AID2: Merken und Einprägen (nur KZ), Unmittelbares Reprod. Vorgegebenes Lernmaterial unter standardisierten Testbedingungen, mit einfachen, individuellen eben verfügbaren Lerntechniken gelernt werden und dann langfristig aus dem Gedächtnis wieder abrufen! intellektuelle Lernfähigkeit: Lerntests erfassen das initiierte oder auch nicht initierte Ausbilden bestimmter Bearbeitungsstrategien in ziemlich komplexen Problemlösesituationen. Kritik am LGT 3: o Es wird vom Autor ein Gesamtwert bestimmt und zugleich werden zwei Faktoren postuliert. o Es fehlen Ergebnisse zur Skalierung, es kann nicht differenziert werden, woran eine schlechte Leistung lag. Weiters: NVLT und VLT (Non)-Verbaler Lerntest Wiedererkennungsleistung! Zu Demenz: LAMBDA (Lernen auswendig Merken Belastbarkeit, Denken analytisch) und BAT (Berliner Amnesie Test) Lernstrategie Perceptual Speed (S 197) Kognitive Leistungsgeschwindigkeit ZVT (Zahlenverbindungstest) extrem leichte Aufgabenstellung Informationsverarbeitungsgeschwindigkeit Teilweise Operationalisierung auch über Aufmerksamkeit und Konzentration! Reasoning Ist die Fähigkeit, Gesetzmäßigkeiten oder logisch zwingende Zusammenhänge erkennen und zweckentsprechend verwerten zu können. 30 Vor allem Matrizentests WMT (Wiener Matrizentest) und SPM (Standard Progressiv Matrices) Syllogismen (spez. LT) Untertests: Analogien und Zahlenreihen und Matrizen aus IST2000R Rechnen in Symbolen Hohe Affinität zu Culture Fair Tests, da das Testmaterial meist sprachfrei ist Bezug zur Intelligenztheorie von Cattell: Fluid und Cystallized Inelligence Fluide Intelligenz ist mit den Culture Fair Tests assoziert, also kulturunabhängig und unabhängig von der Lerngeschichte der Tp Zb. Bei CFT 20 (Grundintelligenzskala) Reasoningtests Reasoning Tests sind nicht gleich culture Fair zb Analogien ist sprachlich daher nicht cultur fair Intellektuelle Lernfähigkeit intellektuelle Lernfähigkeit: Lerntests erfassen das initiierte oder auch nicht initierte Ausbilden bestimmter Bearbeitungsstrategien in ziemlich komplexen Problemlösesituationen. Statusgiagnostik vs. Prozessdiagnostik Statusdiagnostik: kann Progbosen über künftige Leistungen nur machen, wenn sie davon ausgeht, dass das bis zum Testzeitpunkt Gelernte ist nicht nur für das gegenwärtige Leistungsvermögen repräsentativ, sondern auch für die weitere Entwicklung: das gegenwärtige Wissen und Können ist Voraussetzung für zukünftiges Aneignen das gegenwärtige Wissen und Können des bisher Gelernten als Beweis von Lernfähigkeit herkömmliche Leistungstests, auch Intelligenztests, zielen auf die Feststellung der momentanen Leistung ab Lerntests (Prozessdianostik) wollen die Fähigkeit zur Leistungssteigerung infolge unmittelbar gegebener Lernanregungen prüfen. Diese Tests provozieren nicht nur eine Ausgangsleistung, sondern sie erfassen die Entwicklung der Fähigkeit, die dieser Leistung zugrunde liegt, indem die Lösung eines Items bei immer komplexeren Aufgabenstellungen von der bei dem vorausgehenden Item gewonnen Einsicht abhängt. Es geht um Entwicklung und Veränderung innerhalb einer psychologischen Untersuchung Prozessdiagnostik! Bessere Verhaltensrepräsentation der Lernfähigkeit bei Lerntests Erhebung relevanter Verhaltensweisen im Sinne ökologischer Validität. valide Lernerfolgsprognose! auch Kinder mit Handikaps zb können hier ihr Potential entfalten! 31 Genereller Aufbau: 1. Vor – Test 2. Lernphase (allgemeine Lösungshinweise oder spezifische Denkhilfen Informationsgewinn für den Psychologen, wie gut die Hilfestellung angenommen werden konnte – fehlerorientierte Weiterführung zum nächsten angemessenen Item) 3. Nach – Test Bezeichnung „adaptiv“ für Lerntests irreführend weil die angepasste Itemvorgabe nicht die Hilfestellung der PBT benötigt ist nämlich schlicht nur an der Beschreibung und Typisierung einer einzigen Tp interessiert! Bsp: Kritik an ACIL (Adaptive Computergestütze Intelligenz-Lerntestbatterie) Es wird je Untertest die Anzahl bearbeiter Items, andererseits die Anzahl gegebener Hilfestellungen verrechnet – weniger lernfähige Personen benötigen mehr Hilfestellungen und mehr Items zum Erreichen eines höheren Leistungsniveaus, die Summe beider ergibt die Schrittzahl welche zwischen 12 (optimal) und 132 (schlecht) liegt Skalierung verletzt und man kann bei leistungsstarken so kaum etwas über Lernfähigkeit aussagen (S 204) Aufmerksamkeit und Konzetration Beide synonym zu verwenden, aber es geht um die Messung einer situationsüberdauernden Eigenschaft (Fähigkeit), also um etwas Charakteristisches einer Tp und nicht um einen momentanen Zustand # nicht wie im Alltag („konzentriere dich!“) besser daher „Konzentrationsfähigkeit oder Fähigkeit zur Aufmerksamkeit“) Def: Konzentration bzw Aufmerksamkeit bezeichnet die Fähigekeit, einer ausgewählten Handlung mit ausreichender situationsangepasster Stetigkeit und Präzision nachgehen zu können und andere, dafür irrelevante Dinge außer Acht zu lassen. Selektive Aufmerksamkeit (konzentrative A.) Geteilte Aufmerksamkeit (distributive A.) Daueraufmerksamkeit Kognitive Verarbeitungsgeschwindigkeit Konzentrationstests 2 Aufgabenstellungen: Rechenaufgaben und Durchstreichaufgaben Beispiele: Test d2 WAS?: Durchstreichaufgaben Besonderheit: man kann eine Arbeitskurve erstellen Kritisch: optische Differenzierung von d und p (Legasthenie!) 32 FAIR (Frankfurter Aufermksamkeits Inventar) Anstatt d und p: Kreis und Quadrat Bearbeitung muss der Reihe nach erfolgen Arbeitskurve Mainzer Revision Aufwendige Auswertung Zumutbar wegen Rechenaufgaben? Arbeitsleistungsserie (C-Test) Cognitrone (selektive Aufmerksamkeit) Dauf (selektive Aufmerksamkeit) Signal-Detection (selektive Aufmerksamkeit) Vigilanz erfasst Daueraufmerksamkeit (aufmerksames Beobachten und häufiges Reagieren) V: aufmerksames Beobachten; erfordert selten Reagieren Bei Konzentrationstests sind C – Test wirtschaftlcher da stets die Reaktionsschnelligkeit der Tp im Vordergrund steht. Für Anforderungen, die Aufmerksamkeit ohne Zeitdruck verlangen eigenen sich diese Verfahren nicht und auch keine höheren kog. Leistungen INKA (Inverntar komplexer Aufmerksamkeit) erfordert höhere kognitive Leistungen beinhaltet neben einer Durchstreichaufgabe auch das vorige Kodieren der Zeichen Kritik: nicht alltäglich relevante Aufgaben nicht ökologisch valide Technisches Verständnis Das Erfassenkönnen von Ursache - Wirkungs - Zusammenhängen technischer (naturwissenschaftlicher) Art sowie von technischen Konstruktionsprinzipien. - Technisch konstruktives Denken Technisch praktisches Handeln Daher wird technisches Verständnis oft als ein spezieller Aspekt der praktischen Intelligenz aufgefasst Beispiele: MTA (Mechanisch technisches Auffassungsvermögen) MTP (Mannheimer Test zur Erfassung des physikalisch technischen Problemlösens) nicht diskriminativ genug für Eignungsdiagnostik in diesem Bereich, da im Beruf extreme Anforderungen gestellt werde, kann man die Verwendung eines solchen 33 Test mit dem Einsatz eines IQ-Tests bei einem geistig behinderten Menschen vergleichen. Entwicklungstests „Kleinkindertests“ (Charlotte Bühler, Hildegard Hetzer) Bsp: Bayley Sacales of Infant Development II und Denver II Entwicklungsskalen alle nicht deutschsprachig nicht Rasch konform, Skalierung verletzt! Wiener Entwicklungstest (WET) Entwicklungstest 6 Monate – 6 Jahre (ET 6-6) beide erstellen ein Entwicklungsprofil und sind förderungsorientiert Zusatzqualifikation erforderlich, da Entwicklungsdiagnostik eng an neuropsychologische Diagnostik angrenzt (Beeinträchtigung der normalen Hirnentwicklung) 34 6. Gutachten „Ein psychologisches Gutachten ist eine wissenschaftliche Leistung, die darin besteht, aufgrund wissenschaftlicher anerkannter Methoden und Kriterien nach feststehenden Regeln der Gewinnung und Interpretation von Daten zu konkreten Fragestellungen Aussagen zu machen.“ Das psychologische Gutachten demonstriert den diagnostischen Prozess und „... es ist Antwort eines Experten, des Psychologen, auf Fragen, zu denen er aufgrund seines Fachwissens, des aktuellen Forschungsstandes und seiner Erfahrung Stellung nimmt.“ Begriffe: „gutachterliche Stellungnahme“: Aus der Psychologie fundierte Antwort auf eine genau eingeschränkte Detailfrage. Beispiel: „Wie ist das emotionale Milieueinzuschätzen, in der XY aufwuchs?“ psychologische Stellungnahme: fachliche Bewertung eines bereits vorliegenden psychologischen Gutachtens oder einer gegeben Fragestellung ohne eigene Datenerhebung. (Untersuchungs-) Befund: ... ist die für Nicht-Psychologen verständlich aufbereitet Aussage über Ergebnisse einer psychologischen Untersuchung. Unterschied zwischen Befund und Gutachten auch rechtlich: Teilbereiche des Gutachtens auch rechtlich relevant/ definiert Befund Gutachten Feststellung und Beschreibung von Tatsachen – Darstellung der erhobenen Informationen Schlussfolgerung aus den dargestellten Tatsachen Vollständig, objektiv, verständlich Beantwortung der gestellten Frage, subjektiv, nachvollziehbar Befund = Feststellung und Beschreibung von Tatsachen, die der Sachverständige durch Sinneswahrnehmung und mit wissenschaftliche, künstlerischen oder gewerblichen Methoden ermittelt hat. Rein deskriptiv abgefasste Ergebnisse aus: o Sammlung der typischerweise mit dem gegebenen Sachverhalt in Verbindung stehenden Informationen o Entscheidungsorientiertes Gespräch o Tests 35 o o o o o o Persönlichkeitsfragebogen Projektive Verfahren Verhaltensbeobachtung Biographisches Inventar Assessment-Center Arbeitsplatzanalyse Gutachten = ist die Schlussfolgerung aus den ermittelten Tatsachen durch Anwendung des Fachwissens oder die Bekanntgabe von Erfahrungssätzen zu einem bestimmten Sachverhalt Rein deskriptiv abgefasste Ergebnisse + Intervention und Interpretation Gesamtheit von Befund und Gutachten 6.1 Allgemeine Regeln zur Gutachtenerstellung Ist die Person überhaupt testbar? Checkliste Argumentationskette muss klar und inhaltlich nachvollziehbar sein für den Adressaten Achtung gegenüber dem Lebensentwurf Begutachtung muss so dargestellt werden, dass der Adressat das Verfahren, in das er einbezogen war, wieder erkennt und nachfragen kann. Ein Psychologe muss aussagefähige Aufzeichnungen machen Es sollen Fachtermini vermieden werden Man soll sich strikt an die vom Auftraggeber gestellten Fragen halten Verfahren müssen alle namentlich angeführt werden Ergebnisbeschreibung und Interpretation klar voneinander abgrenzen Dezidierte Beantwortung der Fragestellung Wertende Aussagen sollen vermieden werden. Die Testperson den gegebenen Interventionsvorschlag (samt Begründung) in eigene Worte fassen lassen. Je nach Adressat (Nicht-) Fachtermini Die schriftliche Fassung eines Gutachtachtens sollte nicht (automatisch) dem Klienten selbst gegeben werden. 36 Genaue Zahlenangaben (etwa für den „Intelligenzquotienten“) zu vermeiden: geringer Aussagewert, geringer Informationswert für Testperson, „Zahlenakrobatik“; gegenseitige Vergleiche besser: Beratung über individuelle Stärken und Schwächen Der Adressat hat die gutachterlichen Aussagen und Maßnahmen(-vorschläge) erst dann einsichtig akzeptiert, wenn er fähig ist, diese seinerseits, mit eigenen Erklärungen und Begründungen, zu verteidigen. Bemühen und Objektivität, Freiwilligkeit des Klienten Haubl: Datenschutz, psychologisches Wissen nur dann heranziehen, wenn es zu einer Erweiterung der Selbsthilfefähigkeit der Tp führt „Nichts ist schlimmer an einem Gutachten als am Ende die sinngemäße Bemerkung, dass es zur Beantwortung der Fragestellung noch weiterer Befunde (insbesondere psychologischer) bedarf.“ Zusammenfassung am Ende des Gutachtens: Fragestellung eingesetzte psychologisch-diagnostische Verfahren, wesentlichen Ergebnisse in interpretierter Form getroffene Maßnahmen bzw. gegebener Maßnahmenvorschlag KEINE neuen Aspekte Bescheinigung der Seriosität des Gutachtens Qualifizierung der Unterschrift des Psychologen als rechtsverbindlich unüberprüfte Aussagen Konjunktiv Grundsätzlich überprüfbare Fakten (Geburt, Geburtsort, Beruf etc.) Indikativ „Ich versichere, dieses Gutachten nach sorgfältiger psychologischer Testung und nach genauer Erhebung der im Gutachten zu beurteilenden Tatsachen nach bestem Wissen und Gewissen im Sinne der berufsethisch festgeschriebenen Richtlinien für die Erstellung Psychologischer Gutachten abgefasst zu haben.“ Immer KIs berechnen und immer konzeptkonform interpretieren: gemessene Eigenschaft nicht nur Name des Untertests 37