Wintersemester 2006 - Franke

Werbung
Testtheorie und
Testkonstruktion
Wintersemester 2006/ 2007
Hochschule Magdeburg-Stendal (FH)
Frau Prof. Dr. Gabriele Helga Franke
Gliederung
2. Testtheoretische
Grundlagen
1. Objektivität
2. Reliabilität
3. Validität
4. Normierung
5. Skalierung
6. Ökonomie
7. Nützlichkeit
8. Zumutbarkeit
9. Unverfälschbarkeit
10. Fairness
2
2.4 Normierung
Ein Test erfüllt das Gütekriterium Normierung,
wenn für sein Bezugssystem zur Relativierung
des individuellen Testergebnisses (die sog.
„Normen“) folgenden Bedingungen gegeben
sind:
• Die Normen sind gültig, d.h. nicht veraltet,
• die Population, für die die Normen gelten, ist
definiert,
• die für die Erstellung der Normen
herangezogene Stichprobe ist repräsentativ.
3
2.4 Normierung
Begriffe:
• Normierung = Standardisierung = Eichung
• Normen sind meist Eichtabellen, in denen
einzelne Werte abzulesen sind
• Eichtabellen sind Zusammenstelllungen
der Repräsentativerhebungen
4
2.4 Normierung
Beispiel:
• Ein Wissenschaftler hat einen Konzentrationstest für
Kinder entwickelt.
In zwei Minuten sollen auf einem Papierbogen möglichst
viele lächelnde Smileys durchgestrichen werden:
☺ ☺
☺☺ ☺ ☺
☺ ☺☺☺ ☺ ☺☺
☺ ☺ ☺ ☺ ☺ ...
• Sein eigener Sohn, der die 2. Klasse der Grundschule
besucht, hat in diesem Test von 100 lachenden Smileys
(Aufgaben) 82 richtig durchgestrichen (gelöst). Es stellt
sich nun die Frage, ob dies ein gutes oder ein schlechtes
Ergebnis ist.
5
2.4 Normierung
Zur Beantwortung dieser Frage muss der
Wissenschaftler eine Eichung durchführen.
• Hierfür benötigt man eine Eichstichprobe, die
repräsentativ ist für diejenige
Bevölkerungsgruppe, an der der Test
angewandt werden soll.
• Bei einem Konzentrationstest für die 2. Klasse
müsste man also eine entsprechende
Stichprobe aus Schülern der 2. Klasse ziehen.
6
2.4 Normierung
• Soll der Test auch in anderen Klassenstufen eingesetzt
werden, daß müssen auch in denen (z.B. Erstklässler,
Drittklässler, Viertklässler, usw.) Normierungen
durchgeführt werden.
• Derartige Normierungsstichproben umfassen in der
Regel bis zu 1000 Individuen.
• Die Ergebnisse eines einzelnen Schülers oder einer
Schülerin dürfen nur im Hinblick auf die vergleichbare
Altersgruppe interpretiert werden, da das Alter bei
Konzentrationstests für Kinder eine besonders wichtige
Rolle spielt.
7
2.4 Normierung
• Bei Verfahren für Erwachsene ist oftmals das
Geschlecht ein wichtigerer Faktor als das Alter, bei
diesen Verfahren müssen also die Ergebnisse einer
einzelnen Person nur im Hinblick auf das vergleichbare
Geschlecht interpretiert werden.
• Welche Faktoren die Ergebnisse von
psychodiagnostischen Inventaren beeinflussen (z.B.
Alter, Geschlecht, Bildungsstand, etc.) ist Thema der
psychodiagnostischen Grundlagenforschung.
• Nach der Testdurchführung lassen sich aus der
Rohwerteverteilung nun Normen erstellen.
8
2.4 Normierung
Lösung:
• Als einfachste Möglichkeit könnte man
Prozentangaben erstellen (fiktives Beispiel): 5%
der Kinder hatten weniger als 30 Aufgaben
richtig, 50% hatten über 70 Aufgaben richtig, nur
10% hatten über 90 Aufgaben gelöst.
• Durch Kumulation (aufaddieren) der
Prozentangaben kann der Wissenschaftler
Prozentränge (PR) erstellen, denen jeweils
Rohwerte zugeordnet werden
9
2.4 Normierung
Rohwerte-Intervall
Prozentrang
< 10
0%
10-19
1%
20-29
5%
30-39
7%
40-49
12%
50-59
27%
60-69
50%
70-79
73%
80-89
90%
90-100
100%
Ergebnistabelle für den Konzentrationstest
10
2.4 Normierung
• Anhand des Wertes des Sohnes kann der
Forscher nun die relative Angabe machen, dass
sein Sohn besser war als 90% und schlechter
als 10% der untersuchten Zweitklässler.
• Als nächstes betrachtet man nun die Verteilung
selbst und berechnet den Mittelwert.
• Unser Forscher stellt fest, dass der
Gesamtmittelwert der Kinder, die er nun geprüft
hat, bei 65 durchgestrichenen Smileys liegt.
11
2.4 Normierung
Berechnung des Mittelwertes (arithmetisches
Mittel: Summe aller Messwerte geteilt durch
die Anzahl der Messwerte, Beispiel):
Kind
1
2
3
4
5
Wert
90
40
70
60
65
Mittelwert = (Wert 1 + Wert 2 + Wert 3 + Wert 4 + Wert 5) ÷Anzahl der Werte
Mittelwert = (90 + 40 + 70 + 60 + 65)÷5 = (325)÷5 = 65.
12
2.4 Normierung
Im weiteren Verlauf wird man die Varianz
berechnen.
• Dieser Wert gibt Auskunft über die
Schwankungen der Messergebnisse um
den Mittelwert herum.
• Man nimmt die Summe der quadrierten
Abweichungen vom Mittelwert und teilt
durch die Anzahl der Messwerte
13
2.4 Normierung
Kind
Wert
Abweichung vom
Mittelwert
(Abweichung vom
Mittelwert)²
1
90
25
625
2
40
-25
625
3
70
5
25
4
60
-5
25
5
65
0
0
Summe: 1300
•
•
•
Summe der quadrierten Abweichungen vom Mittelwert = 1300
Varianz = Summe ÷ Anzahl = 1300 ÷ 5 = 260
Berechnung der Standardabweichung:
s = Wurzel aus der Varianz = √ (Varianz) = √(260) = 16.13
14
2.4 Normierung
• Vorausgesetzt, die Daten sind
normalverteilt (ihre Verteilungsform
entspricht also der Gaußschen
Glockenkurve), dann kann man nun
sagen:
Der Mittelwert der Eichstichprobe beträgt 65
und die Standardabweichung (abgerundet)
16.
15
2.4 Normierung
• In der Spannbreite zwischen (Mittelwert Standardabweichung) und (Mittelwert +
Standardabweichung) liegen 2/3 aller
Messwerte.
D.h. zwischen (65-16=49) und (65+16=81)
liegen 2/3 der Werte.
16
2.4 Normierung
• Mittelwert und Standardabweichung der
Eichstichprobe sind notwendige Daten, um eine
Transformation des Testwertes einer einzelnen
Person durchzuführen.
• Dadurch wird der Testwert skalenunabhängig
und das Ergebnis einer Person in einem Test
kann mit den Werten dieser Person in einem
anderen Test verglichen werden.
– Hierzu nimmt man in der Regel eine Transformation
in eine bestimmte Normart (T-Wert, Intelligenzquotient IQ, etc.) vor.
17
Beispiel FPI-R
• Normierung
„Es liegen aufgrund einer bevölkerungsrepräsentativen Erhebung Normen von 3.740
Personen in den alten und den neuen
Bundesländern vor. Die Normen sind nach
Geschlechtszugehörigkeit und sieben Altersgruppen gegliedert.“
(vgl. Fahrenberg, Hampel & Selg, 2001, S. 123)
18
2.4.1 Normalverteilung
• Die Normalverteilung
(Gaußsche Glockenkurve) ist bei den meisten
biologischen Variablen
gegeben.
• Bei normalverteilten
Daten ist die Auftretenswahrscheinlichkeit von
Extremwerten gering,
Mittelwerte treten am
häufigsten auf.
Abbildung einer
Standardnormalverteilung
19
2.4.1 Normalverteilung
Beispiel:
• Würde man die Studierenden eines
Semesters nach der Körpergröße ordnen,
dann gäbe es kaum Studierende, die
kleiner sind als 1,50 m und kaum welche,
die größer sind als 2,00 m.
• Die meisten Studierenden hätten wohl
eine Größe zwischen 1,65 und 1,80 m.
20
2.4.2 Standardabweichung
• Auch psychische Eigenschaften (z.B. Intelligenz,
Konzentrationsfähigkeit) sind in der Regel
normalverteilt.
• Nach Berechnung von Mittelwert und
Standardabweichung lässt sich für jeden einzelnen
Messwert die Wahrscheinlichkeit
angeben, mit der dieser Wert zu erwarten ist.
• Die Normalverteilung der Daten ist eine Voraussetzung
bei der Anwendung der meisten statistischen Verfahren.
• Ist die Normalverteilung nicht gegeben, so müssen
„verteilungsunabhängige“ (nicht-parametrische)
Verfahren benutzt werden.
21
2.4.2 Standardabweichung
Die symmetrische Normalverteilung lässt sich nach
Berechnung der Standardabweichung (s) in zweimal
vier Abschnitte einteilen:
•
•
•
•
Im ersten Teil von ±1s liegen je 34.13% der Probanden,
bei ±2s liegen je weitere 13.59%,
bis ±3s 2.14% und
bis ±4s noch 0.13%.
Durch Aufsummierung lassen sich die kumulativen
Häufigkeiten angeben, die dann wieder dem
Prozentrang (PR) entsprechen.
22
2.4.3 Transformation
Alle anderen Standardnormen setzen eine
rechnerische Transformation voraus:
• Zuerst wird eine z-Transformation durchgeführt:
z=
(individueller Mittelwert – Mittelwert der
Eichstichprobe) ÷ (Standardabweichung (s)
der Sichstichprobe)
23
2.4.3 Transformation
• dann werden 2 willkürlich festgelegte Zahlen
hinzu genommen:
z.B. für die Berechnung des Intelligenzquotienten:
IQ = 100 + 15 * z
• die Zahlen 100 und 15 sind willkürlich festgelegt,
sie bestimmen den Mittelwert (100) und die
Standardabweichung (15) der Standardnorm.
24
2.4.3 Transformation
Einige typische Standardnormen:
Standardabweichung
-3s
-2s
-1s
+1s
+2s
+3s
z-Werte (selten)
-3.0
-2.0
-1.0
0
+1.0
+2.0
+3.0
Prozent je Abschnitt
0,13%
2,14%
13,59%
68,26%
13,59%
2,14%
0,13%
Prozentrang (oft)
0.1%
2%
16%
50%
84%
98%
99.9%
Stanine (z.B. FPI)
-
1
3
5
7
9
-
C-Wert (selten)
0
1
3
5
7
9
11
T-Wert (z.B. MMPI, SCL-90-R)
20
30
40
50
60
70
80
IQ (z.B. HAWIE)
55
70
85
100
115
130
145
Z-Wert (z.B. IST)
70
80
90
100
110
120
130
Mittel
25
2.4.3 Transformation
Zur Erinnerung: Bei den Standardnormen ist es besser, wenn man sich
nur den Mittelwert (Wert 1) und die Standardabweichung (Wert 2)
merkt:
Transformation
Wert 1
+ Wert 2 *
z-Wert
0
1
Stanine (z.B. FPI)
5
2
C-Wert (selten)
5
2
T-Wert (z.B. MMPI, SCL-90-R)
50
10
IQ (z.B. HAWIE)
100
15
Z-Wert (z.B. IST)
100
10
26
2.4.3 Transformation
• In die Berechnung des Standardwertes gehen
der Mittelwert und die Standardabweichung ein.
• Nach Transformation der Rohwerte in einen
Standardwert lässt sich nicht nur die relative
Position des Probanden in Bezug auf die
Vergleichsgruppe (im Beispiel: Zweitklässler)
angeben, sondern man kann auch noch verbale
Klassifizierungen hinzufügen:
27
2.4.3 Transformation
Verbale Klassifizierung:
-3s bis -2s
weit unterdurchschnittlich
-2s bis -1s
unterdurchschnittlich
-1s bis 0s
durchschnittlich
0s bis +1s
durchschnittlich
+1s bis +2s
überdurchschnittlich
+2s bis +3s
weit überdurchschnittlich
28
2.4.3 Transformation
Standardwerte erlauben auch den Vergleich von
völlig unterschiedlichen Testergebnissen.
• Beispiel: Eine Definition der Legasthenie
verlangt z.B. eine T-Werte- Diskrepanz zwischen
Intelligenz- und Rechtschreibtestergebnissen
von mindestens zehn bis fünfzehn T-Werten.
• Einen IQ von 115 und einen RechtschreibtestProzentrang von 16 kann man nun in T-Werte
transformieren und die Differenz berechnen (IQ
von 115 = T-Wert von 60; Prozentrang von 16 =
T- Wert von 40, Differenz = 60 - 40=20).
29
2.4.3 Transformation
• Der Unterschied von 20 T-Werten würde
besagen, dass die Rechtschreibleistung deutlich
unter dem allgemeinen Intelligenzniveau liegt.
• Man könnte eine Rechtschreibschwäche
diagnostizieren und die förmliche Anerkennung
bei der Unteren Schulaufsichtsbehörde
beantragen.
• Aus sonderpädagogischer oder klinischpsychologischer Sicht wäre nun die Frage,
welche optimalen Förderungsmöglichkeiten das
untersuchte Kind nun benötigt und wie ihm diese
zur Verfügung gestellt werden können.
30
2.5 Skalierung
„Ein Test erfüllt das Gütekriterium
Skalierung, wenn die laut
Verrechnungsvorschriften resultierenden
Testwerte die empirischen
Verhaltensrelationen adäquat abbilden.“
(Kubinger, 2006, S. 79)
Angemessenheit der im Manual
festgelegten Verrechnungsvorschriften
31
2.5 Skalierung
z.B.:
Ist es sachlich und fachlich richtig zu
sagen, dass eine Person mit einem
Intelligenzquotienten von 140 doppelt so
intelligent ist wie jemand mit einem IQ von
70?
Die Frage ist nur mit Hilfe der Skalierung
zu beantworten.
32
2.5 Skalierung
• Das Wissen um Skalierung ist ebenso wichtig,
um die Daten, die im Rahmen einer geplanten
Diplomarbeit erhoben wurden, fachlich richtig
auszuwerten, denn vom Skalenniveau der Daten
hängt ab, welche mathematischen
Auswertungsverfahren möglich sind.
Skalierung ist die Zuordnung von Werten zu
einer Skala
33
2.5 Skalierung
Die Nominalskala ist die einfachste
Möglichkeit der Skalierung.
• Die einzige Bedingung ist, dass jede Variablenausprägung eindeutig einem Wert zugeordnet
werden kann.
• Eine Beziehung zwischen den Werten gibt es
nicht.
• Statistisch lassen sich hier nur Häufigkeiten
auszählen, sowie Modalwerte, χ² (Chi-Quadrat-)
Verfahren und Kontingenztafeln berechnen.
34
2.5 Skalierung
Beispiel: Geben Sie den Familienstand an!
ledig
1
verheiratet
2
getrennt lebend
3
geschieden
4
verwitwet
5
Den einzelnen Ausprägungen der Variablen „Familienstand“
werden zwar Zahlen (1-5) zugeordnet, diese haben aber keine
mathematische Bedeutung. So ist „verheiratet“ nicht größer oder
35
kleiner als „verwitwet“, usw.
2.5 Skalierung
Die Ordinalskala (Rangordnung) beinhaltet
Größenrelationen: A>B oder C<D oder E=F, sie
ermöglicht es also, Rangordnungen abzubilden.
• Diese Rangordnung sagt aber nichts über die
relative Größe der Unterschiede aus, da die
Maßeinheiten unbekannt sind.
• In der statistischen Verrechnung lassen sich hier
Mediane und Quartile berechnen und einige
non-parametrische Verfahren wie Rangvarianzanalyse und Rangkorrelationskoeffizienten anwenden.
36
2.5 Skalierung
Vorsicht:
Trotz Vorhandensein von Zahlenwerten
kann keine Aussage darüber gemacht
werden, ob etwa ein Wert doppelt so groß
ist wie ein anderer.
37
2.5 Skalierung
z.B.: Ich finde Fußball …
Großartig
1
Klasse
2
Ganz OK
3
Nicht so prima
4
Echt öde
5
Voll daneben
6
38
2.5 Skalierung
Intervallskalen stellen die nächst höhere Stufe der
Skalierung dar.
• Sie haben gleich große Abstände zwischen den
einzelnen Skaleneinheiten, jedoch noch keinen
absoluten Nullpunkt.
• Es kann aber willkürlich gesetzte Nullpunkte geben.
• In der Psychologie sind es vor allem Standardwertskalen
wie T-Werte oder IQ-Werte, die auf diesem
Skalierungsniveau sind.
• Erst auf diesem Niveau lässt sich der arithmetische
Mittelwert berechnen und die meisten parametrischen
statistischen Verfahren (Varianzanalyse, t-Test, F-Test,
Korrelationskoeffizient) durchführen.
39
2.5 Skalierung
• Allerdings sind bei einigen statistischen
Verfahren noch weitere Bedingungen zu prüfen,
die erfüllt sein müssen, damit man diese
Verfahren nutzen darf, wie z.B. die Prüfung der
Normalverteilungshypothese.
• Aussagen wie „doppelt“ oder „halb so viel“
lassen sich auf diesem Niveau ebenfalls noch
nicht machen.
Eine Person mit einem IQ von 140 ist somit
NICHT doppelt so intelligent wie eine mit
einem IQ von 70!
40
2.5 Skalierung
Verhältnisskala (Rationalskala, Proportionalskala)
• Diese Skala hat das höchste Skalenniveau. Sie hat nicht
nur gleich große Abstände zwischen den Einheiten
sondern auch einen absoluten Nullpunkt.
• Erst auf diesem Niveau lassen sich Aussagen wie
„doppelt“ oder „halb so viel“ machen, da der Quotient
zweier Skalenwerte eine reale Bedeutung hat.
• Beispiele aus der Physik sind: Länge, Stromstärke,
Gewicht, Mengenangaben. In der Psychologie sind z.B.
Reaktionszeiten auf Rationalskalenniveau.
• Dieses Niveau erlaubt jede beliebige statistische
Verrechnung.
41
2.5 Skalierung
Beispiel: Temperatur (die Celsius-Skala hat einen
willkürlich festgelegten, die Kelvin-Skala einen
absoluten Nullpunkt)
Nominal
skala
KALT
Ordinalskala
Intervallskala
Verhältnisskala
sehr
kalt
-10°
C
0° K
WARM
kalt
lau
warm
heiß
0° C
+10°
C
200°
K...
+20°
C
...
+30°
C....
...
100°
K
Bitte zeilenweise lesen und nicht spaltenweise!
+100°
C
1000°
K
42
Übersicht der Skalenniveaus
Nominalskala
Ordinalskala
Intervallskala
Verhältnisskala
Datenmerkmale
einfache
Zuordnung
Rangfolge
gleicher
Abstand der
Einheiten
Absoluter
Nullpunkt
Zuverlässiger
Mittelwert
Modalwert
Median
Arithmetisches
Mittel
Geo-metrisches
Mittel
Zuverlässiges Streuungsmaß
Häufigkeitsverteilung
„range“
Standardabweichung
Standardabweichung
Zuv. statistische Verfahren
χ² (Chi-Quadrat),
Kontingenztafel
Nonparametrische
Verfahren
Parametrische
Verfahren
Parametrische
Verfahren
43
2.5 Skalierung
Es ist möglich, ein höheres Skalenniveau
auf ein niedrigeres herunter zu
transformieren, nicht aber umgekehrt.
Z.B. kann man bei Intervalldaten den
Median berechnen, bei Ordinaldaten
jedoch nicht das arithmetische Mittel.
44
Beispiel FPI-R
• Skalierung
– Dichotomes Antwortformat
• „Stimmt“ oder „Stimmt nicht“
– Beispiel Item 120
• Beim Reisen schaue ich lieber auf die Landschaft
als mich mit den Mitreisenden zu unterhalten.
• Antwort mit „Stimmt“ oder „Stimmt nicht“
(vgl. Fahrenberg, Hampel & Selg, 2001)
45
2.6 Ökonomie
„Ein Test erfüllt das Gütekriterium
Ökonomie, wenn er, gemessen am
diagnostischen Informationsgewinn, relativ
wenig Ressourcen (Zeit und Geld)
beansprucht.“ (Kubinger, 2006, S. 94)
Wirtschaftlichkeit und Aufwandsminderung
Adaptives Testen
46
2.6 Ökonomie
Wirtschaftlichkeit und Aufwandsminderung
• Kosten der Untersuchung müssen so
gering wie möglich gehalten werden
• Kosten entstehen z.B. durch die
Anschaffung eines Tests, Personalkosten,
Betriebskosten, Verschleißkosten von
Computern, Verbrauch von Kontrollbögen
oder der Gebühr für die PC-Auswertung
eines Tests
47
2.6 Ökonomie
Psychologisch-diagnostische Tests inkl. aller
Auswertungs- und Kontrollbögen sind
Copyright geschützt. Das Kopieren von
Testbögen bedeutet eine Straftat.
48
2.6 Ökonomie
Zeit
• eine psychologische Testung beansprucht
zunächst eine (standardisierte) Testzeit
– bei bestimmten Tests muss der Testleiter anwesend
sei, bei anderen nicht
• anschließend die Auswertung
– PC-gestützt oder manuell
– in einigen Kliniken übernehmen spezielle Mitarbeiter
die Auswertung von Tests
• abschließend die Interpretation der
Testergebnisse
49
2.6 Ökonomie
Wichtig:
Der Einsatz eines Tests ist dann
gerechtfertigt, wenn er die gestellte Frage
tatsächlich beantwortet.
Der Test darf nur von einer ausgebildeten
Fachkraft durchgeführt werden.
50
2.6 Ökonomie
Die Auswahl eines Tests kann dabei von
verschiedenen Faktoren beeinflusst
werden wie
• Verfügbarkeit einer PC-Version am
Arbeitsplatz
• Anforderungen von Kostenträgern
Generell sollte die Auswahl eines Tests
nach dem inhaltlichen Konstrukt und den
Gütekriterien erfolgen.
51
2.6 Ökonomie
Adaptives Testen:
• streben nach Testökonomie
• pro Person kürzere Tests, bei der selben
Mengengenauigkeit
• Fragen jeder Person sind antwortabhängig
(adaptiv)
• es werden nur die Items vorgegeben, die
wichtige Rückschlüsse über die zu
messende Eigenschaft versprechen
52
2.6 Ökonomie
Tailored Testing
• maßgeschneiderte Itemauswahlstrategie
• ungefähre Schätzung des
Personenparameters, da jeder Item die
Schätzung verbessert
• gewisse tolerierbare Abweichung =
suboptimal
• ständig werden Parameter bestimmt (über
den PC Vorgaben nötig)
53
2.6 Ökonomie
Branched Testing:
• einzelne Items werden in Itemgruppen
eingeordnet
• jede Itemgruppe ist leistungsabhängig
verzweigt
• Durchführung alleine durch den Testleiter
54
2.6 Ökonomie
Beispiel Branched Testing: AID 2 (Adaptives
Intelligenz Diagnostikum 2)
55
Beispiel FPI-R
• Ökonomie
„Das FPI-R kann mit 138 Items für 12 Skalen
als ein relativ ökonomisches Persönlichkeitsinventar angesehen werden. Es gibt Untersuchungen zur direkten Einstufung dieser
Konzepte, doch werden diese Testwerte in
der Regel nicht mehr interindividuelle Differenzierung leisten können als eindimensionale
Einstufungsskalen.“
(vgl. Fahrenberg, Hampel & Selg, 2001, S. 123)
56
2.7 Nützlichkeit
„Ein Test ist dann nützlich,
• wenn für das von ihm gemessene
Merkmal praktische Relevanz besteht und
• die auf seiner Grundlage getroffenen
psychologischen Entscheidungen
(Maßnahmen) mehr Nutzen als Schaden
erwarten lassen.“ (Kubinger, 2006, S. 107)
57
2.7 Nützlichkeit
Der Testen soll möglichst einen hohen
Nutzen haben, d.h.
• im Zusammenhang mit der diagnostischpsychologischen Fragestellung einen
hohen Gewinn bringen
• häufig kann der Gewinn bzw. Verlust nicht
volkswirtschaftlich ausgedrückt werden
Bei der Auswahl eines Testverfahrens
sollten diese Aspekte beachtet werden.
58
2.7 Nützlichkeit
Beispiel zu Kosten Nutzen:
Es soll die psychische Belastung innerhalb der
letzten 7 Tage gemessen werden.
• wirtschaftlich sinnvoll, die SCL-90-R (SymptomCheckliste von L.R. Derogatis - revidiert) bzw.
das BSI (Brief Symptom Inventory) anzuwenden
• nicht wirtschaftlich sinnvoll, das FPI-R
(Freiburger-Persönlichkeits-Inventar) zu erheben
59
Beispiel FPI-R
• Nützlichkeit
– Bevölkerungsrepräsentative Konstruktion und
Normwerte zur Erfassung relativ
überdauerender Persönlichkeitseigenschaften
– nur 138 Items
(vgl. Fahrenberg, Hampel & Selg, 2001)
60
2.8 Zumutbarkeit
„Ein Test erfüllt das Gütekriterium
Zumutbarkeit, wenn er die Testperson
absolut und relativ zu dem aus seiner
Anwendung resultierenden Nutzen in
zeitlicher, psychischer (insbesondere
energetisch-motivationaler und
emotionaler) sowie körperlicher Hinsicht
schont.“ (Kubinger, 2006, S. 111)
61
2.8 Zumutbarkeit
Der Psychologe hat zu entscheiden, in
welchem Umfang Testverfahren für die
Erstellung eines Gutachtens oder die
Diagnostik einer Testperson notwendig
sind.
In diesem Rahmen bestimmt der
kompetente Testleiter, inwieweit die
Testverfahren der Testperson zugemutet
werden können.
62
2.8 Zumutbarkeit
Einige wichtige Frage in diesem
Zusammenhang:
• Sind Pausen während der Testung
gestattet?
– Verfälschen diese die Testergebnisse?
• Wie lange sind die Pausen?
• Wann erfolgt die Pause?
– z.B. nach Abschluss eines Untertests bei
Intelligenztests
63
2.8 Zumutbarkeit
Doch was gilt als zumutbar bzw.
unzumutbar?
• subjektiv empfunden
• situationsabhängig
• motivationsabhängig
• kostenabhängig
• vom Testleiter abhängig (dessen
Menschenbild, Einstellungen,
Persönlichkeit)
64
2.8 Zumutbarkeit
Relevante Fragen (I):
• Welche Testdauer ist regelmäßig?
• Ist die zumutbare Zeitdauer für
Persönlichkeits- und Leistungstests
gleich?
• Ist eine obligatorische Intelligenztestung
zumutbar?
• Wie schwer dürfen die
Aufgabenstellungen sein?
65
2.8 Zumutbarkeit
Relevante Fragen (II):
• Sind Fragen über den Intimbereich einer
Testperson zumutbar?
• Sind Persönlichkeitsfragebögen auf Grund
ihrer Durchschaubarkeit zumutbar?
• Sind projektive Verfahren überhaupt
zumutbar?
• Ist Computerdiagnostik zumutbar? …
66
2.8 Zumutbarkeit
Generell gilt, dass die Testperson durch den
Testleiter ausreichend Erläuterungen zu
den Tests und dem Grund der Testung
erhält, um somit den Umfang der
Befragung zu verstehen und akzeptieren
zu können.
Akzeptanz durch die Versuchsperson
67
Beispiel FPI-R
• Zumutbarkeit
„Der Fragebogen ist allgemein zumutbar, wenn
der psychische und körperliche Allgemeinzustand und die Lesefähigkeit überhaupt das
Ausfüllen eines Fragebogens gestatten.“
(vgl. Fahrenberg, Hampel & Selg, 2001, S. 122)
68
2.9 Unverfälschbarkeit
„Ein Test erfüllt das Gütekriterium der
Unverfälschbarkeit, wenn die getestete
Person ihr Testergebnis nicht oder nur
unwesentlich nach eigenem Belieben
beeinflussen kann.“ (Kubinger, 2006, S. 114)
69
2.9 Unverfälschbarkeit
Bei Persönlichkeitsfragebögen ist es
denkbar, dass eine Testperson im Sinne
von sozialer Erwünschtheit antwortet und
so die Testwerte beeinflusst.
Eher unwahrscheinlich ist es, dass ein
Testperson bei einem Leistungstest
absichtlich schlechte Leistungen erbringt.
(Ausnahme bei Versicherungsansprüchen)
70
2.9 Unverfälschbarkeit
Ziel bei der Testkonstruktion sollte es daher sein,
dass ein Test für die Testperson nicht
durchschaubar ist.
Aber: Es gibt immer Unterschiede zwischen den
einzelnen Versuchspersonen. Nicht jede
Versuchsperson durchschaut einen Test.
In diesem Zusammenhang werden „Objektive
Persönlichkeitstests“ gefordert.
71
Beispiel FPI-R
• Unverfälschbarkeit/ Verfälschbarkeit
„Die Antworten des FPI-R sind grundsätzlich wie bei jedem Fragebogen - verfälschbar bzw.
von eventuell vorhandenen Antworttendenzen
und Einstellungen, Wunsch nach Privatheit
oder Sorgen um Vertraulichkeit und Datenschutz, abhängig. Es liegt nahe, dass die
Fragen zu Ehe/ Partnerschaft oder zur Aggressivität und Labilität hier eine besondere
Rolle spielen können.“
(vgl. Fahrenberg, Hampel & Selg, 2001, S. 123)
72
2.10 Fairness
„Ein Test erfüllt das Gütekriterium Fairness,
wenn die resultierenden Testwerte zu
keiner systematischen Diskriminierung
bestimmter Testpersonen zum Beispiel auf
Grund ihrer ethnischen, soziokulturellen
oder geschlechtsspezifischen
Gruppenzugehörigkeit führen.“ (Kubinger, 2006,
S. 118)
73
2.10 Fairness
Was genau ist „unfair“?
• testimmanente Bedingungen (z.B.
sprachliche Verständlichkeit)
• technische Handhabung (z.B. Testreaktion
via Computer)
• inhaltliche Details des Testmaterials (z.B.
Bezug auf religiöse Wertmaßstäbe)
74
2.10 Fairness
„Fairness“ nicht
eingehalten
bezüglich
einzelner Items
dem ganzen Test
(z.B. HAWIE-R
Wortschatzfragen)
(z.B. dtsch. Testversion
für einen Norweger)
75
2.10 Fairness
Forderung nach Culture-Fair Tests:
• Tests sind sprachfrei, um somit für alle
Versuchspersonen die gleiche Situation zu
schaffen
• über Beispiele wird veranschaulicht, wie
entsprechende Aufgaben zu bearbeiten
sind
• z.B. AID 2
76
2.10 Fairness
Bemerkungen zur Computer-Diagnostik:
• besonderes Augenmerk auch visueller
Wahrnehmung
• Erfassung von Reaktionszeiten
• Aber: Es gibt Menschen, die eine
besondere akustische Wahrnehmung
haben.
77
Beispiel FPI-R
• Fairness
„Bei der Entwicklung der Items wurde darauf
geachtet, diskriminierende Formulierungen zu
vermeiden.“
(vgl. Fahrenberg, Hampel & Selg, 2001, S. 123)
78
Herunterladen