Testtheorie und Testkonstruktion Wintersemester 2006/ 2007 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke Gliederung 2. Testtheoretische Grundlagen 1. Objektivität 2. Reliabilität 3. Validität 4. Normierung 5. Skalierung 6. Ökonomie 7. Nützlichkeit 8. Zumutbarkeit 9. Unverfälschbarkeit 10. Fairness 2 2.4 Normierung Ein Test erfüllt das Gütekriterium Normierung, wenn für sein Bezugssystem zur Relativierung des individuellen Testergebnisses (die sog. „Normen“) folgenden Bedingungen gegeben sind: • Die Normen sind gültig, d.h. nicht veraltet, • die Population, für die die Normen gelten, ist definiert, • die für die Erstellung der Normen herangezogene Stichprobe ist repräsentativ. 3 2.4 Normierung Begriffe: • Normierung = Standardisierung = Eichung • Normen sind meist Eichtabellen, in denen einzelne Werte abzulesen sind • Eichtabellen sind Zusammenstelllungen der Repräsentativerhebungen 4 2.4 Normierung Beispiel: • Ein Wissenschaftler hat einen Konzentrationstest für Kinder entwickelt. In zwei Minuten sollen auf einem Papierbogen möglichst viele lächelnde Smileys durchgestrichen werden: ☺ ☺ ☺☺ ☺ ☺ ☺ ☺☺☺ ☺ ☺☺ ☺ ☺ ☺ ☺ ☺ ... • Sein eigener Sohn, der die 2. Klasse der Grundschule besucht, hat in diesem Test von 100 lachenden Smileys (Aufgaben) 82 richtig durchgestrichen (gelöst). Es stellt sich nun die Frage, ob dies ein gutes oder ein schlechtes Ergebnis ist. 5 2.4 Normierung Zur Beantwortung dieser Frage muss der Wissenschaftler eine Eichung durchführen. • Hierfür benötigt man eine Eichstichprobe, die repräsentativ ist für diejenige Bevölkerungsgruppe, an der der Test angewandt werden soll. • Bei einem Konzentrationstest für die 2. Klasse müsste man also eine entsprechende Stichprobe aus Schülern der 2. Klasse ziehen. 6 2.4 Normierung • Soll der Test auch in anderen Klassenstufen eingesetzt werden, daß müssen auch in denen (z.B. Erstklässler, Drittklässler, Viertklässler, usw.) Normierungen durchgeführt werden. • Derartige Normierungsstichproben umfassen in der Regel bis zu 1000 Individuen. • Die Ergebnisse eines einzelnen Schülers oder einer Schülerin dürfen nur im Hinblick auf die vergleichbare Altersgruppe interpretiert werden, da das Alter bei Konzentrationstests für Kinder eine besonders wichtige Rolle spielt. 7 2.4 Normierung • Bei Verfahren für Erwachsene ist oftmals das Geschlecht ein wichtigerer Faktor als das Alter, bei diesen Verfahren müssen also die Ergebnisse einer einzelnen Person nur im Hinblick auf das vergleichbare Geschlecht interpretiert werden. • Welche Faktoren die Ergebnisse von psychodiagnostischen Inventaren beeinflussen (z.B. Alter, Geschlecht, Bildungsstand, etc.) ist Thema der psychodiagnostischen Grundlagenforschung. • Nach der Testdurchführung lassen sich aus der Rohwerteverteilung nun Normen erstellen. 8 2.4 Normierung Lösung: • Als einfachste Möglichkeit könnte man Prozentangaben erstellen (fiktives Beispiel): 5% der Kinder hatten weniger als 30 Aufgaben richtig, 50% hatten über 70 Aufgaben richtig, nur 10% hatten über 90 Aufgaben gelöst. • Durch Kumulation (aufaddieren) der Prozentangaben kann der Wissenschaftler Prozentränge (PR) erstellen, denen jeweils Rohwerte zugeordnet werden 9 2.4 Normierung Rohwerte-Intervall Prozentrang < 10 0% 10-19 1% 20-29 5% 30-39 7% 40-49 12% 50-59 27% 60-69 50% 70-79 73% 80-89 90% 90-100 100% Ergebnistabelle für den Konzentrationstest 10 2.4 Normierung • Anhand des Wertes des Sohnes kann der Forscher nun die relative Angabe machen, dass sein Sohn besser war als 90% und schlechter als 10% der untersuchten Zweitklässler. • Als nächstes betrachtet man nun die Verteilung selbst und berechnet den Mittelwert. • Unser Forscher stellt fest, dass der Gesamtmittelwert der Kinder, die er nun geprüft hat, bei 65 durchgestrichenen Smileys liegt. 11 2.4 Normierung Berechnung des Mittelwertes (arithmetisches Mittel: Summe aller Messwerte geteilt durch die Anzahl der Messwerte, Beispiel): Kind 1 2 3 4 5 Wert 90 40 70 60 65 Mittelwert = (Wert 1 + Wert 2 + Wert 3 + Wert 4 + Wert 5) ÷Anzahl der Werte Mittelwert = (90 + 40 + 70 + 60 + 65)÷5 = (325)÷5 = 65. 12 2.4 Normierung Im weiteren Verlauf wird man die Varianz berechnen. • Dieser Wert gibt Auskunft über die Schwankungen der Messergebnisse um den Mittelwert herum. • Man nimmt die Summe der quadrierten Abweichungen vom Mittelwert und teilt durch die Anzahl der Messwerte 13 2.4 Normierung Kind Wert Abweichung vom Mittelwert (Abweichung vom Mittelwert)² 1 90 25 625 2 40 -25 625 3 70 5 25 4 60 -5 25 5 65 0 0 Summe: 1300 • • • Summe der quadrierten Abweichungen vom Mittelwert = 1300 Varianz = Summe ÷ Anzahl = 1300 ÷ 5 = 260 Berechnung der Standardabweichung: s = Wurzel aus der Varianz = √ (Varianz) = √(260) = 16.13 14 2.4 Normierung • Vorausgesetzt, die Daten sind normalverteilt (ihre Verteilungsform entspricht also der Gaußschen Glockenkurve), dann kann man nun sagen: Der Mittelwert der Eichstichprobe beträgt 65 und die Standardabweichung (abgerundet) 16. 15 2.4 Normierung • In der Spannbreite zwischen (Mittelwert Standardabweichung) und (Mittelwert + Standardabweichung) liegen 2/3 aller Messwerte. D.h. zwischen (65-16=49) und (65+16=81) liegen 2/3 der Werte. 16 2.4 Normierung • Mittelwert und Standardabweichung der Eichstichprobe sind notwendige Daten, um eine Transformation des Testwertes einer einzelnen Person durchzuführen. • Dadurch wird der Testwert skalenunabhängig und das Ergebnis einer Person in einem Test kann mit den Werten dieser Person in einem anderen Test verglichen werden. – Hierzu nimmt man in der Regel eine Transformation in eine bestimmte Normart (T-Wert, Intelligenzquotient IQ, etc.) vor. 17 Beispiel FPI-R • Normierung „Es liegen aufgrund einer bevölkerungsrepräsentativen Erhebung Normen von 3.740 Personen in den alten und den neuen Bundesländern vor. Die Normen sind nach Geschlechtszugehörigkeit und sieben Altersgruppen gegliedert.“ (vgl. Fahrenberg, Hampel & Selg, 2001, S. 123) 18 2.4.1 Normalverteilung • Die Normalverteilung (Gaußsche Glockenkurve) ist bei den meisten biologischen Variablen gegeben. • Bei normalverteilten Daten ist die Auftretenswahrscheinlichkeit von Extremwerten gering, Mittelwerte treten am häufigsten auf. Abbildung einer Standardnormalverteilung 19 2.4.1 Normalverteilung Beispiel: • Würde man die Studierenden eines Semesters nach der Körpergröße ordnen, dann gäbe es kaum Studierende, die kleiner sind als 1,50 m und kaum welche, die größer sind als 2,00 m. • Die meisten Studierenden hätten wohl eine Größe zwischen 1,65 und 1,80 m. 20 2.4.2 Standardabweichung • Auch psychische Eigenschaften (z.B. Intelligenz, Konzentrationsfähigkeit) sind in der Regel normalverteilt. • Nach Berechnung von Mittelwert und Standardabweichung lässt sich für jeden einzelnen Messwert die Wahrscheinlichkeit angeben, mit der dieser Wert zu erwarten ist. • Die Normalverteilung der Daten ist eine Voraussetzung bei der Anwendung der meisten statistischen Verfahren. • Ist die Normalverteilung nicht gegeben, so müssen „verteilungsunabhängige“ (nicht-parametrische) Verfahren benutzt werden. 21 2.4.2 Standardabweichung Die symmetrische Normalverteilung lässt sich nach Berechnung der Standardabweichung (s) in zweimal vier Abschnitte einteilen: • • • • Im ersten Teil von ±1s liegen je 34.13% der Probanden, bei ±2s liegen je weitere 13.59%, bis ±3s 2.14% und bis ±4s noch 0.13%. Durch Aufsummierung lassen sich die kumulativen Häufigkeiten angeben, die dann wieder dem Prozentrang (PR) entsprechen. 22 2.4.3 Transformation Alle anderen Standardnormen setzen eine rechnerische Transformation voraus: • Zuerst wird eine z-Transformation durchgeführt: z= (individueller Mittelwert – Mittelwert der Eichstichprobe) ÷ (Standardabweichung (s) der Sichstichprobe) 23 2.4.3 Transformation • dann werden 2 willkürlich festgelegte Zahlen hinzu genommen: z.B. für die Berechnung des Intelligenzquotienten: IQ = 100 + 15 * z • die Zahlen 100 und 15 sind willkürlich festgelegt, sie bestimmen den Mittelwert (100) und die Standardabweichung (15) der Standardnorm. 24 2.4.3 Transformation Einige typische Standardnormen: Standardabweichung -3s -2s -1s +1s +2s +3s z-Werte (selten) -3.0 -2.0 -1.0 0 +1.0 +2.0 +3.0 Prozent je Abschnitt 0,13% 2,14% 13,59% 68,26% 13,59% 2,14% 0,13% Prozentrang (oft) 0.1% 2% 16% 50% 84% 98% 99.9% Stanine (z.B. FPI) - 1 3 5 7 9 - C-Wert (selten) 0 1 3 5 7 9 11 T-Wert (z.B. MMPI, SCL-90-R) 20 30 40 50 60 70 80 IQ (z.B. HAWIE) 55 70 85 100 115 130 145 Z-Wert (z.B. IST) 70 80 90 100 110 120 130 Mittel 25 2.4.3 Transformation Zur Erinnerung: Bei den Standardnormen ist es besser, wenn man sich nur den Mittelwert (Wert 1) und die Standardabweichung (Wert 2) merkt: Transformation Wert 1 + Wert 2 * z-Wert 0 1 Stanine (z.B. FPI) 5 2 C-Wert (selten) 5 2 T-Wert (z.B. MMPI, SCL-90-R) 50 10 IQ (z.B. HAWIE) 100 15 Z-Wert (z.B. IST) 100 10 26 2.4.3 Transformation • In die Berechnung des Standardwertes gehen der Mittelwert und die Standardabweichung ein. • Nach Transformation der Rohwerte in einen Standardwert lässt sich nicht nur die relative Position des Probanden in Bezug auf die Vergleichsgruppe (im Beispiel: Zweitklässler) angeben, sondern man kann auch noch verbale Klassifizierungen hinzufügen: 27 2.4.3 Transformation Verbale Klassifizierung: -3s bis -2s weit unterdurchschnittlich -2s bis -1s unterdurchschnittlich -1s bis 0s durchschnittlich 0s bis +1s durchschnittlich +1s bis +2s überdurchschnittlich +2s bis +3s weit überdurchschnittlich 28 2.4.3 Transformation Standardwerte erlauben auch den Vergleich von völlig unterschiedlichen Testergebnissen. • Beispiel: Eine Definition der Legasthenie verlangt z.B. eine T-Werte- Diskrepanz zwischen Intelligenz- und Rechtschreibtestergebnissen von mindestens zehn bis fünfzehn T-Werten. • Einen IQ von 115 und einen RechtschreibtestProzentrang von 16 kann man nun in T-Werte transformieren und die Differenz berechnen (IQ von 115 = T-Wert von 60; Prozentrang von 16 = T- Wert von 40, Differenz = 60 - 40=20). 29 2.4.3 Transformation • Der Unterschied von 20 T-Werten würde besagen, dass die Rechtschreibleistung deutlich unter dem allgemeinen Intelligenzniveau liegt. • Man könnte eine Rechtschreibschwäche diagnostizieren und die förmliche Anerkennung bei der Unteren Schulaufsichtsbehörde beantragen. • Aus sonderpädagogischer oder klinischpsychologischer Sicht wäre nun die Frage, welche optimalen Förderungsmöglichkeiten das untersuchte Kind nun benötigt und wie ihm diese zur Verfügung gestellt werden können. 30 2.5 Skalierung „Ein Test erfüllt das Gütekriterium Skalierung, wenn die laut Verrechnungsvorschriften resultierenden Testwerte die empirischen Verhaltensrelationen adäquat abbilden.“ (Kubinger, 2006, S. 79) Angemessenheit der im Manual festgelegten Verrechnungsvorschriften 31 2.5 Skalierung z.B.: Ist es sachlich und fachlich richtig zu sagen, dass eine Person mit einem Intelligenzquotienten von 140 doppelt so intelligent ist wie jemand mit einem IQ von 70? Die Frage ist nur mit Hilfe der Skalierung zu beantworten. 32 2.5 Skalierung • Das Wissen um Skalierung ist ebenso wichtig, um die Daten, die im Rahmen einer geplanten Diplomarbeit erhoben wurden, fachlich richtig auszuwerten, denn vom Skalenniveau der Daten hängt ab, welche mathematischen Auswertungsverfahren möglich sind. Skalierung ist die Zuordnung von Werten zu einer Skala 33 2.5 Skalierung Die Nominalskala ist die einfachste Möglichkeit der Skalierung. • Die einzige Bedingung ist, dass jede Variablenausprägung eindeutig einem Wert zugeordnet werden kann. • Eine Beziehung zwischen den Werten gibt es nicht. • Statistisch lassen sich hier nur Häufigkeiten auszählen, sowie Modalwerte, χ² (Chi-Quadrat-) Verfahren und Kontingenztafeln berechnen. 34 2.5 Skalierung Beispiel: Geben Sie den Familienstand an! ledig 1 verheiratet 2 getrennt lebend 3 geschieden 4 verwitwet 5 Den einzelnen Ausprägungen der Variablen „Familienstand“ werden zwar Zahlen (1-5) zugeordnet, diese haben aber keine mathematische Bedeutung. So ist „verheiratet“ nicht größer oder 35 kleiner als „verwitwet“, usw. 2.5 Skalierung Die Ordinalskala (Rangordnung) beinhaltet Größenrelationen: A>B oder C<D oder E=F, sie ermöglicht es also, Rangordnungen abzubilden. • Diese Rangordnung sagt aber nichts über die relative Größe der Unterschiede aus, da die Maßeinheiten unbekannt sind. • In der statistischen Verrechnung lassen sich hier Mediane und Quartile berechnen und einige non-parametrische Verfahren wie Rangvarianzanalyse und Rangkorrelationskoeffizienten anwenden. 36 2.5 Skalierung Vorsicht: Trotz Vorhandensein von Zahlenwerten kann keine Aussage darüber gemacht werden, ob etwa ein Wert doppelt so groß ist wie ein anderer. 37 2.5 Skalierung z.B.: Ich finde Fußball … Großartig 1 Klasse 2 Ganz OK 3 Nicht so prima 4 Echt öde 5 Voll daneben 6 38 2.5 Skalierung Intervallskalen stellen die nächst höhere Stufe der Skalierung dar. • Sie haben gleich große Abstände zwischen den einzelnen Skaleneinheiten, jedoch noch keinen absoluten Nullpunkt. • Es kann aber willkürlich gesetzte Nullpunkte geben. • In der Psychologie sind es vor allem Standardwertskalen wie T-Werte oder IQ-Werte, die auf diesem Skalierungsniveau sind. • Erst auf diesem Niveau lässt sich der arithmetische Mittelwert berechnen und die meisten parametrischen statistischen Verfahren (Varianzanalyse, t-Test, F-Test, Korrelationskoeffizient) durchführen. 39 2.5 Skalierung • Allerdings sind bei einigen statistischen Verfahren noch weitere Bedingungen zu prüfen, die erfüllt sein müssen, damit man diese Verfahren nutzen darf, wie z.B. die Prüfung der Normalverteilungshypothese. • Aussagen wie „doppelt“ oder „halb so viel“ lassen sich auf diesem Niveau ebenfalls noch nicht machen. Eine Person mit einem IQ von 140 ist somit NICHT doppelt so intelligent wie eine mit einem IQ von 70! 40 2.5 Skalierung Verhältnisskala (Rationalskala, Proportionalskala) • Diese Skala hat das höchste Skalenniveau. Sie hat nicht nur gleich große Abstände zwischen den Einheiten sondern auch einen absoluten Nullpunkt. • Erst auf diesem Niveau lassen sich Aussagen wie „doppelt“ oder „halb so viel“ machen, da der Quotient zweier Skalenwerte eine reale Bedeutung hat. • Beispiele aus der Physik sind: Länge, Stromstärke, Gewicht, Mengenangaben. In der Psychologie sind z.B. Reaktionszeiten auf Rationalskalenniveau. • Dieses Niveau erlaubt jede beliebige statistische Verrechnung. 41 2.5 Skalierung Beispiel: Temperatur (die Celsius-Skala hat einen willkürlich festgelegten, die Kelvin-Skala einen absoluten Nullpunkt) Nominal skala KALT Ordinalskala Intervallskala Verhältnisskala sehr kalt -10° C 0° K WARM kalt lau warm heiß 0° C +10° C 200° K... +20° C ... +30° C.... ... 100° K Bitte zeilenweise lesen und nicht spaltenweise! +100° C 1000° K 42 Übersicht der Skalenniveaus Nominalskala Ordinalskala Intervallskala Verhältnisskala Datenmerkmale einfache Zuordnung Rangfolge gleicher Abstand der Einheiten Absoluter Nullpunkt Zuverlässiger Mittelwert Modalwert Median Arithmetisches Mittel Geo-metrisches Mittel Zuverlässiges Streuungsmaß Häufigkeitsverteilung „range“ Standardabweichung Standardabweichung Zuv. statistische Verfahren χ² (Chi-Quadrat), Kontingenztafel Nonparametrische Verfahren Parametrische Verfahren Parametrische Verfahren 43 2.5 Skalierung Es ist möglich, ein höheres Skalenniveau auf ein niedrigeres herunter zu transformieren, nicht aber umgekehrt. Z.B. kann man bei Intervalldaten den Median berechnen, bei Ordinaldaten jedoch nicht das arithmetische Mittel. 44 Beispiel FPI-R • Skalierung – Dichotomes Antwortformat • „Stimmt“ oder „Stimmt nicht“ – Beispiel Item 120 • Beim Reisen schaue ich lieber auf die Landschaft als mich mit den Mitreisenden zu unterhalten. • Antwort mit „Stimmt“ oder „Stimmt nicht“ (vgl. Fahrenberg, Hampel & Selg, 2001) 45 2.6 Ökonomie „Ein Test erfüllt das Gütekriterium Ökonomie, wenn er, gemessen am diagnostischen Informationsgewinn, relativ wenig Ressourcen (Zeit und Geld) beansprucht.“ (Kubinger, 2006, S. 94) Wirtschaftlichkeit und Aufwandsminderung Adaptives Testen 46 2.6 Ökonomie Wirtschaftlichkeit und Aufwandsminderung • Kosten der Untersuchung müssen so gering wie möglich gehalten werden • Kosten entstehen z.B. durch die Anschaffung eines Tests, Personalkosten, Betriebskosten, Verschleißkosten von Computern, Verbrauch von Kontrollbögen oder der Gebühr für die PC-Auswertung eines Tests 47 2.6 Ökonomie Psychologisch-diagnostische Tests inkl. aller Auswertungs- und Kontrollbögen sind Copyright geschützt. Das Kopieren von Testbögen bedeutet eine Straftat. 48 2.6 Ökonomie Zeit • eine psychologische Testung beansprucht zunächst eine (standardisierte) Testzeit – bei bestimmten Tests muss der Testleiter anwesend sei, bei anderen nicht • anschließend die Auswertung – PC-gestützt oder manuell – in einigen Kliniken übernehmen spezielle Mitarbeiter die Auswertung von Tests • abschließend die Interpretation der Testergebnisse 49 2.6 Ökonomie Wichtig: Der Einsatz eines Tests ist dann gerechtfertigt, wenn er die gestellte Frage tatsächlich beantwortet. Der Test darf nur von einer ausgebildeten Fachkraft durchgeführt werden. 50 2.6 Ökonomie Die Auswahl eines Tests kann dabei von verschiedenen Faktoren beeinflusst werden wie • Verfügbarkeit einer PC-Version am Arbeitsplatz • Anforderungen von Kostenträgern Generell sollte die Auswahl eines Tests nach dem inhaltlichen Konstrukt und den Gütekriterien erfolgen. 51 2.6 Ökonomie Adaptives Testen: • streben nach Testökonomie • pro Person kürzere Tests, bei der selben Mengengenauigkeit • Fragen jeder Person sind antwortabhängig (adaptiv) • es werden nur die Items vorgegeben, die wichtige Rückschlüsse über die zu messende Eigenschaft versprechen 52 2.6 Ökonomie Tailored Testing • maßgeschneiderte Itemauswahlstrategie • ungefähre Schätzung des Personenparameters, da jeder Item die Schätzung verbessert • gewisse tolerierbare Abweichung = suboptimal • ständig werden Parameter bestimmt (über den PC Vorgaben nötig) 53 2.6 Ökonomie Branched Testing: • einzelne Items werden in Itemgruppen eingeordnet • jede Itemgruppe ist leistungsabhängig verzweigt • Durchführung alleine durch den Testleiter 54 2.6 Ökonomie Beispiel Branched Testing: AID 2 (Adaptives Intelligenz Diagnostikum 2) 55 Beispiel FPI-R • Ökonomie „Das FPI-R kann mit 138 Items für 12 Skalen als ein relativ ökonomisches Persönlichkeitsinventar angesehen werden. Es gibt Untersuchungen zur direkten Einstufung dieser Konzepte, doch werden diese Testwerte in der Regel nicht mehr interindividuelle Differenzierung leisten können als eindimensionale Einstufungsskalen.“ (vgl. Fahrenberg, Hampel & Selg, 2001, S. 123) 56 2.7 Nützlichkeit „Ein Test ist dann nützlich, • wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und • die auf seiner Grundlage getroffenen psychologischen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“ (Kubinger, 2006, S. 107) 57 2.7 Nützlichkeit Der Testen soll möglichst einen hohen Nutzen haben, d.h. • im Zusammenhang mit der diagnostischpsychologischen Fragestellung einen hohen Gewinn bringen • häufig kann der Gewinn bzw. Verlust nicht volkswirtschaftlich ausgedrückt werden Bei der Auswahl eines Testverfahrens sollten diese Aspekte beachtet werden. 58 2.7 Nützlichkeit Beispiel zu Kosten Nutzen: Es soll die psychische Belastung innerhalb der letzten 7 Tage gemessen werden. • wirtschaftlich sinnvoll, die SCL-90-R (SymptomCheckliste von L.R. Derogatis - revidiert) bzw. das BSI (Brief Symptom Inventory) anzuwenden • nicht wirtschaftlich sinnvoll, das FPI-R (Freiburger-Persönlichkeits-Inventar) zu erheben 59 Beispiel FPI-R • Nützlichkeit – Bevölkerungsrepräsentative Konstruktion und Normwerte zur Erfassung relativ überdauerender Persönlichkeitseigenschaften – nur 138 Items (vgl. Fahrenberg, Hampel & Selg, 2001) 60 2.8 Zumutbarkeit „Ein Test erfüllt das Gütekriterium Zumutbarkeit, wenn er die Testperson absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen in zeitlicher, psychischer (insbesondere energetisch-motivationaler und emotionaler) sowie körperlicher Hinsicht schont.“ (Kubinger, 2006, S. 111) 61 2.8 Zumutbarkeit Der Psychologe hat zu entscheiden, in welchem Umfang Testverfahren für die Erstellung eines Gutachtens oder die Diagnostik einer Testperson notwendig sind. In diesem Rahmen bestimmt der kompetente Testleiter, inwieweit die Testverfahren der Testperson zugemutet werden können. 62 2.8 Zumutbarkeit Einige wichtige Frage in diesem Zusammenhang: • Sind Pausen während der Testung gestattet? – Verfälschen diese die Testergebnisse? • Wie lange sind die Pausen? • Wann erfolgt die Pause? – z.B. nach Abschluss eines Untertests bei Intelligenztests 63 2.8 Zumutbarkeit Doch was gilt als zumutbar bzw. unzumutbar? • subjektiv empfunden • situationsabhängig • motivationsabhängig • kostenabhängig • vom Testleiter abhängig (dessen Menschenbild, Einstellungen, Persönlichkeit) 64 2.8 Zumutbarkeit Relevante Fragen (I): • Welche Testdauer ist regelmäßig? • Ist die zumutbare Zeitdauer für Persönlichkeits- und Leistungstests gleich? • Ist eine obligatorische Intelligenztestung zumutbar? • Wie schwer dürfen die Aufgabenstellungen sein? 65 2.8 Zumutbarkeit Relevante Fragen (II): • Sind Fragen über den Intimbereich einer Testperson zumutbar? • Sind Persönlichkeitsfragebögen auf Grund ihrer Durchschaubarkeit zumutbar? • Sind projektive Verfahren überhaupt zumutbar? • Ist Computerdiagnostik zumutbar? … 66 2.8 Zumutbarkeit Generell gilt, dass die Testperson durch den Testleiter ausreichend Erläuterungen zu den Tests und dem Grund der Testung erhält, um somit den Umfang der Befragung zu verstehen und akzeptieren zu können. Akzeptanz durch die Versuchsperson 67 Beispiel FPI-R • Zumutbarkeit „Der Fragebogen ist allgemein zumutbar, wenn der psychische und körperliche Allgemeinzustand und die Lesefähigkeit überhaupt das Ausfüllen eines Fragebogens gestatten.“ (vgl. Fahrenberg, Hampel & Selg, 2001, S. 122) 68 2.9 Unverfälschbarkeit „Ein Test erfüllt das Gütekriterium der Unverfälschbarkeit, wenn die getestete Person ihr Testergebnis nicht oder nur unwesentlich nach eigenem Belieben beeinflussen kann.“ (Kubinger, 2006, S. 114) 69 2.9 Unverfälschbarkeit Bei Persönlichkeitsfragebögen ist es denkbar, dass eine Testperson im Sinne von sozialer Erwünschtheit antwortet und so die Testwerte beeinflusst. Eher unwahrscheinlich ist es, dass ein Testperson bei einem Leistungstest absichtlich schlechte Leistungen erbringt. (Ausnahme bei Versicherungsansprüchen) 70 2.9 Unverfälschbarkeit Ziel bei der Testkonstruktion sollte es daher sein, dass ein Test für die Testperson nicht durchschaubar ist. Aber: Es gibt immer Unterschiede zwischen den einzelnen Versuchspersonen. Nicht jede Versuchsperson durchschaut einen Test. In diesem Zusammenhang werden „Objektive Persönlichkeitstests“ gefordert. 71 Beispiel FPI-R • Unverfälschbarkeit/ Verfälschbarkeit „Die Antworten des FPI-R sind grundsätzlich wie bei jedem Fragebogen - verfälschbar bzw. von eventuell vorhandenen Antworttendenzen und Einstellungen, Wunsch nach Privatheit oder Sorgen um Vertraulichkeit und Datenschutz, abhängig. Es liegt nahe, dass die Fragen zu Ehe/ Partnerschaft oder zur Aggressivität und Labilität hier eine besondere Rolle spielen können.“ (vgl. Fahrenberg, Hampel & Selg, 2001, S. 123) 72 2.10 Fairness „Ein Test erfüllt das Gütekriterium Fairness, wenn die resultierenden Testwerte zu keiner systematischen Diskriminierung bestimmter Testpersonen zum Beispiel auf Grund ihrer ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppenzugehörigkeit führen.“ (Kubinger, 2006, S. 118) 73 2.10 Fairness Was genau ist „unfair“? • testimmanente Bedingungen (z.B. sprachliche Verständlichkeit) • technische Handhabung (z.B. Testreaktion via Computer) • inhaltliche Details des Testmaterials (z.B. Bezug auf religiöse Wertmaßstäbe) 74 2.10 Fairness „Fairness“ nicht eingehalten bezüglich einzelner Items dem ganzen Test (z.B. HAWIE-R Wortschatzfragen) (z.B. dtsch. Testversion für einen Norweger) 75 2.10 Fairness Forderung nach Culture-Fair Tests: • Tests sind sprachfrei, um somit für alle Versuchspersonen die gleiche Situation zu schaffen • über Beispiele wird veranschaulicht, wie entsprechende Aufgaben zu bearbeiten sind • z.B. AID 2 76 2.10 Fairness Bemerkungen zur Computer-Diagnostik: • besonderes Augenmerk auch visueller Wahrnehmung • Erfassung von Reaktionszeiten • Aber: Es gibt Menschen, die eine besondere akustische Wahrnehmung haben. 77 Beispiel FPI-R • Fairness „Bei der Entwicklung der Items wurde darauf geachtet, diskriminierende Formulierungen zu vermeiden.“ (vgl. Fahrenberg, Hampel & Selg, 2001, S. 123) 78