02 Testtheorie

Wann sollte getestet werden?
• (1) Feststellung des Förderbedarfs
– Einsatz von Tests, wenn Vergleich mit
Altersgruppe nötig (z.B. „Wie gut sind die
Rechtschreibkenntnisse im Vergleich zu
Gleichaltrigen) um Entscheidung zu treffen
• (2) Lern-/Entwicklungsprozess,
Förderung
– Wiederholte Testung in größeren
Zeitabständen, um Lernfortschritte mit
Altersgruppe zuverlässig vergleichen zu
können
Definition eines Tests
• Ein Test ist ein wissenschaftliches Routineverfahren zur
Untersuchung eines oder mehrerer empirisch
abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel
einer möglichst quantitativen Aussage über den relativen
Grad der individuellen Merkmalsausprägung.
(Lienert, 1969).
• Bei einem Test handelt es sich um ein spezielles
psychologisches Experiment mit dem Ziel, vergleichende
Aussagen über Personen abzuleiten.
(Rost 1996)
Bestandteile
• Handbuch / Manual
– Angaben zum Testgegenstand (Konstrukt),
Testentwicklung, Gütekriterien, Durchführung,
Auswertunganweisungen, Normentabellen
• Testhefte, Aufgabenmaterialien, Testbogen
• Auswertungsschablonen, Protokollbogen,
Auswertungsbogen
Beispiel:
Intelligenztest CFT 20
• Weiß, R. H. (1998). Grundintelligenztest Skala 2
– CFT 20. 4. Aufl., Göttingen, Hogrefe
• Altersbereich: Schüler 8,5 – 18 Jahre
– Für Erwachsene mit einfacher Schulbildung (20-70 J)
• Erfasst die „fluide Intelligenz“
• Ist ein „produktorientiertes“ Verfahren, d.h., es
werden keine Prozedurmerkmale des
Problemlösens erfasst, sondern Menge und
Geschwindigkeit
Fluide Intelligenz
• Intelligenz im Sinne eines wissensfreien
(„kulturfreien) Intelligenztests ist eine kognitive
Ressource, welche die Geschwindigkeit und
Qualität von
Informationsverarbeitungsprozessen beeinflusst
• Ihre basalen Komponenten sind vermutlich:
•
•
•
•
•
Reizverarbeitung (z.B. Differenzierung)
Informationsverarbeitungsgeschwindigkeit
Kurzzeitgedächtnis
Verfügbarkeit elementarer Vergleichsprozesse und
Heuristiken
Neurobiologische Ansätze werden hier neue Methoden zur Messung der
Basisintelligenzfaktoren hervorbringen
Durchführung
1.
2.
3.
4.
5.
6.
7.
8.
9.
Proband bekommt Testheft und Antwortbogen ausgehändigt
VL liest Instruktion für Beispiele etc., vor
PB betrachtet Aufgaben im Testheft und notiert die seiner Ansicht
nach richtige Antwort auf dem Antwortbogen
VL beendet die Bearbeitung einer Aufgabengruppe, wenn die
vorgeschriebene Testzeit vorbei ist
VL nimmt den Antwortbogen
VL zählt mit Hilfe der Auswertungsschablone die Zahl der
richtigen Antworten pro Block (Rohwert)
VL trägt diese Rohwerte auf Rückseite des Antwortbogens ein
VL liest anhand der Normwerte-Tabelle (im Manual) für jeden
Rohwert den angegebenen IQ-Wert, bzw. Prozentrang ab
Fertig
Wie funktioniert so ein Ding?
Testtheorie und ähnliche
Unannehmlichkeiten
Testtheorien
• Ein Test ist nur ein psychologisches
Experiment, aus dessen Ergebnissen
vergleichende Aussagen über Personen
abgeleitet werden können, wenn seiner
Konstruktion eine Theorie zugrunde gelegt
ist, die angibt, wie Testergebnis und zu
messendes Merkmal zusammenhängen
Testtheorie
Testauswertung
Personenmerkmal
beeinflußt
Testverhalten
• Einem Test muss eine Theorie zugrunde liegen, die
beschreibt, wie Testverhalten und psychisches Merkmal
zusammenhängen und wie dieser Zusammenhang
berechnet wird
Empirie
Theorie
Population von Personen,
Menge von Situationen, Menge
von Verhaltensweisen
Theorie über das Antwortverhalten der Personen in diesen
Situationen (mit Hilfe eines
Testmodells)
Person a und Person b
bearbeiten einen Test (z.B.
Analogieaufgaben, Bewertung
eigener Leistung)
vergleichende Aussage über 2
Personen (z.B. a ist intelligenter
als b, oder Person a hat einen
negativen, Person b einen
positiven Attributionsstil)
Daten
Ergebnis
• Es gibt zwei derartige Theorien:
– Klassische Testtheorie (KT)
– Probabilistische Testtheorie (Item Response
Theory, IRT; auch: Rasch-Modell)
Item
[aitem]
• ist die Bezeichnung für die einzelne
Aufgabe in einem Test
• oder für die einzelne Frage in einem
Fragebogen
Skala
• (1) Mehrere Items, die dieselbe
Eigenschaft/Fähigkeit erfassen
– Je mehr Items gelöst/beantwortet werden,
desto stärker ist die Eigenschaft/Fähigkeit
ausgeprägt
• (2) Die Antwortskala eines Items, z.B.:
Stimme zu – stimme teilweise zu – stimme nicht zu [2,1,0]
– Oder allgemeiner: „Richtige Lösung / Falsche Lösung“ [0,1]
Itemeigenschaften
• Schwierigkeit:
– Prozentsatz der Leute, die eine Aufgabe lösen
(bzw. eine bestimmte Antwort geben)
• Trennschärfe:
– Informationsgehalt eines Items
– Wie gut stellt es Unterschiede zwischen
Personen fest?
Klassische Testtheorie
• Rohwert = wahrer
Testwert + Messfehler
Probabilistische
Testtheorie
• Wahrscheinlichkeit
einer Antwort =
Funktion latenter
Fähigkeit und
Itemeigenschaften
X=T+E
• T = Wahrer Testwert =
Fähigkeit
P(x) = F(Theta, bi)
Klassische Testtheorie
Probabilistische Testtheorie
•
P(x) = F(T, bi)
p(xvi=1)
1
0,5
•
X=T+E
0
v
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 E(xvi)
•
Der Messfehler E besteht aus
zufälligen Fehlereffekten
•
•
Messfehler E und wahrer Testwert
(Fähigkeit) T sind unabhängig
•
•
Itemeigenschaft „Trennschärfe“ wird
aus X abgeleitet. Man kann sie nicht
für ein einzelnes Item bestimmen
•
Itemeigenschaften „Schwierigkeit“ und
„Trennschärfe“ sind Teil der
Itemfunktion
•
Ein einzelnes Item stellt keine
zuverlässige Schätzung einer
Fähigkeit dar
•
Ein Item stellt einen Schätzer für eine
bestimmte Fähigkeitsausprägung auf
einem bestimmten
Wahrscheinlichkeitsniveau dar
Die Beziehung zwischen Fähigkeit und
Antwortwahrscheinlichkeit wird durch
eine spezielle Itemfunktion dargestellt
Messfehler = Anpassungsgüte des
Modell
KT vrs. IRT
Klassische Testtheorie (KT)
•
•
•
•
•
Probabilistische Testtheorie (IRT)
Test muss aus mehreren Items
bestehen
Die Items müssen unterschiedlich
schwer sein
Die Items müssen möglichst
trennscharf sein
Eine Schwierigkeitsstufe muss
durch mehrere Items repräsentiert
werden
• Test muss aus mehreren Items
bestehen
• Die Items müssen
unterschiedlich schwer sein
• Die Items müssen möglichst
trennscharf sein
• Eine Schwierigkeitsstufe kann
durch ein einzelnes Items
repräsentiert werden
Alle Probanden müssen alle Items
(zu) beantworten (versuchen)
• Jeder Proband muss nur so
viele Items beantworten, wie
es seiner Fähigkeit entspricht
=> Adaptives Testen möglich
Adaptives Testen
CFT 20
• Der CFT-20 ist auf der Basis der
klassischen Testtheorie konstruiert und
evaluiert worden
• Mit ihm ist kein adaptives Testen möglich
• Ein adaptiver Intelligenztest für unsere
Klientel ist der AID (Allgemeines
Intelligenz Diagnosticum)
Auswahlkriterien für die Eignung
eines Test
• Konstrukt (z.B. Intelligenz)
• Testgütekriterien
• Angemessenheit der Normierung
Testgütekriterien
• Um die Kriterien „wissenschaftliches
Routineverfahren“, bzw. „psychologisches
Experiment“ erfüllen zu können, muss ein
diagnostisches Verfahren bestimmte
Bedingungen erfüllen:
Objektivität
Reliabilität
Validität
Objektivität
• Die Erfassung, Auswertung und
Interpretation der Testdaten ist unabhängig
von subjektiven Faktoren
• (z.B. Vorurteilen, Einstellungen, Erwartungshaltungen,
Verfälschungstendenzen)
• Dies trifft in hohem Maße für Leistungstests
(Intelligenztests, Konzentrationstest, etc.) zu
• De facto kann diese Forderung aber nicht von
jedem Test erfüllt werden. So sind z.B.
Persönlichkeitstests nicht völlig verfälschungssicher
Konstruktion eines klassischen
Tests
1. Konstruktion eines Itempools: Viele
Items, von denen man (begründet)
annimmt, dass ihre Lösung
(Beantwortung) die (nicht direkt
beobachtbare) Zieleigenschaft
repräsentiert
2. Vorgabe an Stichprobe (möglichst groß)
Konstruktion eines klassischen
Tests
3. Statistische Analysen:
•
•
Prüfung, welche Items eine Dimension
bilden (Homogenität, interne Validität)
Prüfung der Itemschwierigkeit (Zahl der
Personen, die ein Item lösen)
4. Zusammenfassung der homogenen
Items mit steigender Schwierigkeit zu
einem Test (oder Subtest)
5. Normierung
5 Items aus dem KFT
Reliabilität
• Reliabilität: Zuverlässigkeit
• Hierunter versteht man die
Messgenauigkeit eines Tests
– Wie wiederholbar sind die Ergebnisse?
– Bis zu welchem Grad lassen sich die
Eigenschaften zweier Personen
unterscheiden?
Bestimmung der Reliabilität eines
Tests
•
•
•
Re-Test-Reliablität :
– Bestimmung des statistischen Zusammenhangs (Korrelation) zwischen zwei
aufeinanderfolgenden Messungen
Split-Half-Reliabilität:
– Korrelation zwischen zwei Hälften der Items eines Tests
Cronbachs Alpha:
– Mittelwert der Korrelationen zwischen allen Einzelitems
– Ausreichende Reliabilität: r: = .75
(.75: andere Notation für 0,75)
– Gute Reliabilität: r = .90
•
Probleme:
•
Die Messgenauigkeit kann nur für mehrere Items (Skala, Test, Subtest) bestimmt
werden, nicht für Einzelitems
Daher liefert ein Test, der nicht vollständig durchgeführt wurde, keine
zuverlässige Messung
Je mehr Items ein Test (Subtest, Skala) enthält, desto genauer wird er
•
•
Reliabilitätssteigerung durch
Testverlängerung
Reliabilität des verlängerten Tests
1
r = 0,9
0,9
r = 0,8
0,8
r = 0,7
r = 0,6
0,7
r = 0,5
0,6
0,5
1
2
3
Testverlängerungsfaktor
4
5
Konfidenzintervalle
• Die Reliabilität gibt nicht nur an, wie genau
ein Test im allgemeinen misst
• Mit ihrer Hilfe kann man das sog.
„Konfidenzintervall“ (auch.
Vertrauensintervall) eines Testergebnisses
berechnen
• Das Konfidenzintervall gibt an, mit welcher
Wahrscheinlichkeit der „wahre Testwert“ in
einem bestimmten Bereich von beobachteten
Testergebnissen liegt
• Z.B:
• IQ (Testergebnis) = 98
• 95%-Konfidenzintervall:= 93-103
• D.h.: Mit einer Wahrscheinlichkeit von 95% liegt
der „wirkliche“ IQ zwischen 93 und 103
Validität
• Validität: Gültigkeit
• Misst ein Test das, was er messen soll?
– Zusammenhang zwischen dem Testergebnis
und anderen Kriterien für das Zielverhalten
– Skalenaufbau und –struktur entspricht dem
psychologischen Wissen über das zu
messende Konstrukt
Bestimmung der Validität eines
Tests
• Augenschein- / Expertenvalidität
– Entsprechen die Items dem Forschungsstand über das zu messende
Merkmal?
• Interne Validität:
– Entspricht die Dimensionalität der Subtests den theoretisch zu
erwartenden Dimensionen?
– Ist die Zuordnung zwischen Items und Dimensionen sinnvoll?
– Methode: Faktorenanalysen
• Externe Validität:
– Bestimmung des Zusammenhangs (Korrelationen) zwischen dem
Testergebnis und anderen Kriterien für das messende Verhalten
• Ökologische Validität:
– Ist die Art, in der das Merkmal gemessen wird, geeignet, Aussagen über
das Verhalten in Realsituationen zu treffen?
Normierung
• Sowohl ein klassischer als auch ein nach dem
IRT-Modell konstruierter Test gelten für die
Stichprobe(n), auf deren Basis die
Prüfstatistiken berechnet wurden.
• Um sinnvolle Vergleiche innerhalb
verschiedener Teilpopulationen (z.B.
Männer/Frauen, Altersgruppen,
Bildungsschichten, etc.) vornehmen zu können,
müssen getrennte Tabellen erstellt werden
• Dazu muss bestimmt werden, welche Kriterien
für die Aufteilung in Teilpopulationen sinnvoll ist
Definitionen
• Statistischer Normalbereich: -1 SD bis 1 SD
– Bereich um den Mittelwert
– Entspricht 68,2 % der Population
• SD (Standardabweichung ist ein abstraktes
Maß)
• Es gibt verschiedene Umrechung
(Transformationen) der Rohwerte in einen
anschaulicheren Wert
• Z-Wert, T-Wert, Abweichungs-IQ, Prozentrang
z-Wert
• Der sog. z-Wert gibt die Abweichung eines
individuellen Testergebnisses vom
Mittelwert an
• Mittelwert: 0
• Abstand: Standardabweichung (mittlere
Abweichung der Testwerte)
– Negative z-Werte: unter dem Mittelwert
– Positive z-Werte: über dem Mittelwert
– Normalbereich: -1 bis +1
T-Werte
• Der T-Wert ist eine Transformation des zWerts
• Er repräsentiert die exakt gleiche Information, nämlich
die Abweichung eines Testergebnisses vom Mittelwert,
gemessen in Standardabweichungen
• Er ist aber so transformiert, dass die Zahlen etwas
anschaulicher sind
• Mittelwert der Verteilung: t-Wert = 50, SD=10
• Normalbereich: 40 - 60
Sinn?
• Z-Werte und t-Werte haben durchaus einen
Sinn:
• Da sie standardisierte, verteilungs-unabhängige
Kennwerte sind, kann man die z- und t-Werte
unterschiedlicher Tests miteinander vergleichen
– War die erste Messung vor einem Jahr besser oder
schlechter als die aktuelle Messung?
– Z.B. Ist der Proband im Lesen besser als im
Schreiben?
• Dagegen lassen sich Rohwerte oder
Prozentränge von Tests NICHT unmittelbar
miteinander vergleichen
• Um zwei Testwerte (des gleichen Tests, z.B.
Wiederholungsmessung) vergleichen zu
können, muss man allerdings berücksichtigen,
dass auch z-, T- und IQ-Werte
messfehlerbehaftet sind
• Dies wird beim Vergleich berücksichtigt, indem
man die sog. kritische Differenz bestimmt
• Die kritische Differenz hängt von der Reliabilität
des Tests ab
• Krit. Diff = 1.96 * 10 * Wurzel aus (2 * [1-Reliabilität])
• Sie gibt an, um wie viele T-Wert-Punkte zwei TWerte auseinander liegen müssen, um
tatsächlich einen Unterschied darzustellen
Vergleich zweier
unterschiedlicher Tests
• Vergleich der t-Werte aus zwei verschiedenen
Tests:
• Dkrit= 1,96 * 10* Wurzel (2-[ReliaTest1 +
ReliaTest2])
–
–
–
–
Dkrit = 1,96 * 10 * SQR(2-[.86+.92])
Dkrit = 19,6 * SQR(0,22)
Dkrit = 9.2
In diesem Fall müssen sich die beiden T-Werte um 9,2
(bzw. abgerundet: 9) unterscheiden, um wirklich einen
bedeutsamen Unterschied darzustellen
• Das muss man leider wirklich per Hand rechnen,
da es in den Testhandbüchern nicht enthalten ist
Prozentrang
• Prozentrang gibt an, welcher Prozentsatz der
Vergleichsgruppe ein gleich gutes oder
schlechteres Ergebnis erzielt haben
• Normalbereich: abhängig von der
Standardabweichung und Verteilungsform des
Tests (d.h., der konkreten Rohwerteverteilung)
• 15,8 % - 84%
• PR ist sehr anschaulich, aber weniger informativ
als z- oder T-Werte