DiplomandInnen- und DissertandInnen

Werbung
Statistischer Test der empirischen Validität
einer Wissenstruktur
Jürgen Heller
Wintersemester 2001/02
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
Empirische Validität einer Wissensstruktur
Fragestellung
• In vielen Diplomarbeiten tritt das Problem der statistischen Überprüfung der
empirischen Validität einer Wissensstruktur auf
• Zu diesem Problem gibt es bislang noch keine absolut zufriedenstellende Lösung
• Nachfolgend wird ein Vorgehensweise beschrieben, die einen statistischen Test
von hoher Testgüte erreichen will, indem möglichst viel Information in den Test
einbezogen wird
• Grundlage des statistischen Tests wird die Verteilung der minimalen symmetrischen Distanz der Antwortmuster zur betrachteten Wissensstruktur sein
• Die empirisch erhobene Verteilung wird mittels eines χ2-Anpassungstests auf
signifikante Abweichung von der Verteilung unter einer geeigneten Nullhypothese getestet
1
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
Empirische Validität einer Wissensstruktur
Grundbegriffe
• Sei X ein Wissensbereich, d.h. eine endliche, nichtleere Menge von Aufgaben
• Sei κ eine Wissensstruktur auf X, d.h. eine Familie von Teilmengen der Menge
X, die zumindest die leere Menge ∅ und die Menge X enthält, für die also
∅, X ∈ κ gilt
• Für eine Stichprobe von m Personen betrachten wir deren Antwortmuster
R1, R2, . . . , Rm jeweils als Teilmenge des Wissensbereichs X
• Für zwei Teilmengen A, B ⊆ X betrachten wir die symmetrische Mengendifferenz
∆(A, B) = |A \ B| + |B \ A|
2
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
3
Empirische Validität einer Wissensstruktur
Grundbegriffe
• Zur Charakterisierung der Abweichung der erhobenen Antwortmuster von der
Wissensstruktur κ wird für jedes Antwortmuster Rj , j ∈ {1, . . . , m}, die minimale symmetrische Mengendifferenz zur Wissensstruktur bestimmt durch
d(Rj , κ) = min{∆(Rj , K)}
K∈κ
• Der kleinste mögliche Wert ist dabei 0 und der größte auftretende Wert die größte
natürliche Zahl k, die kleiner oder gleich |X|/2 ist, da die Wissensstruktur κ
nach Definition die leere Menge und die Menge X enthält
• Über die gesamte Stichprobe erhält man eine Verteilung der Werte d(., κ) der
minimalen symmetrischen Mengendifferenz zur Wissensstruktur κ
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
4
Empirische Validität einer Wissensstruktur
Verteilung der minimalen symmetrischen Distanz der empirisch erhobenen
Antwortmuster zur Wissensstruktur κ
d(., κ)
abs. Häufigkeit
0
fD,0
1
fD,1
2
..
fD,2
..
i
..
fD,i
..
k
P
fD,k
m
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
5
Empirische Validität einer Wissensstruktur
Beispiel
• Wissensstruktur κ mit X = {a, b, c, d, e}
{a, b, c, d}
{a, b, c}
{a, b}
{a}
X
.............
....•
.
.
.
.
.
..........
.
.
.
....
.
.
..........
.
.
.
.
.
.
.
.
.
..........
.
.
.
.
.
.
.
.
.
..........
.
.
.
.
.........
.......
.
.
.
.
.
.....•...
•...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
.
.......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
...
.
......
...
... ..................................
.•.......................
•....
... ........................
...
..................
...
...
..................
...
..................
.................. ....
...
..•..
•...........................
...
..................
...
...
..................
...
..................
.................. ....
...
................
•..............
........•
.
.
..........
.
.
.
.
.
.
..........
........
.
.
.
.
..........
.
.
.
.
.......... .............
..............
•
∅
{a, b, c, e}
{b, c, e}
{b, c}
{b}
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
6
Empirische Validität einer Wissensstruktur
Beispiel
• Verteilung der minimalen symmetrischen Distanz eines fiktiven Datensatzes
(m = 100) zur Wissensstruktur κ über dem Wissensbereich X = {a, b, c, d, e}
d(., κ)
abs. Häufigkeit
0
39
1
53
2
P
8
100
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
Empirische Validität einer Wissensstruktur
Nullhypothese
• Eine statistische Bewertung der aus den Daten ermittelten Verteilung der minimalen symmetrischen Distanz erfordert die Formulierung eines geeigneten
Basismodells im Rahmen der Nullhypothese
• Grundsätzlich bieten sich verschiedene Möglichkeiten an, ein Basismodell zu
formulieren
• Nachfolgend wird die Annahme zugrundegelegt, daß die Antworten auf die
betrachteten Aufgaben zufällig erfolgen, mit gleicher Wahrscheinlichkeit für
korrekte und falsche Antworten
• Unter der Nullhypothese angenommen, daß die Daten keinerlei Struktur
aufweisen
• Jedes Antwortmuster hat die gleiche Auftretenswahrscheinlichkeit
7
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
Empirische Validität einer Wissensstruktur
Nullhypothese
• Um die Verteilung der minimalen symmetrischen Distanz zur Wissensstruktur unter der Nullhypothese konkret zu berechnen, sind verschiedene Vorgehensweisen
möglich
• Es können unter dem angegebenen stochastischen Basismodell Daten simuliert
werden und darüber die Verteilung bestimmt werden
• Vorteil: Es können auch andere stochastische Modelle implementiert werden
• Nachteil: Es muß ein geeigneter Zufallsgenerator verfügbar sein
• Man bestimmt die Verteilung der minimalen symmetrischen Distanz zur
Wissensstruktur κ für die Potenzmenge der Menge X
• Vorteil: Es wird die theoretische Verteilung exakt berechnet
• Nachteil: Das stochastische Modell ist festgelegt und die Kardinalität
der Potenzmenge übersteigt möglicherweise die Kapazität vorhandener
Computer-Programme
8
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
9
Empirische Validität einer Wissensstruktur
Verteilung der minimalen symmetrischen Distanz der Potenzmenge der Menge X
zur Wissensstruktur κ
d(., κ)
abs. Häufigkeit
rel. Häufigkeit
0
fN,0
pN,0
1
fN,1
pN,1
2
..
fN,2
..
pN,2
..
i
..
fN,i
..
pN,i
..
k
P
fN,k
pN,k
2|X|
1.00
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
10
Empirische Validität einer Wissensstruktur
Beispiel
• Verteilung der minimalen symmetrischen Distanz der Potenzmenge der Menge
X = {a, b, c, d, e} zur Wissensstruktur κ
d(., κ)
abs. Häufigkeit
rel. Häufigkeit
0
10
0.31250
1
17
0.53125
2
P
5
0.15625
32
1.00000
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
11
Empirische Validität einer Wissensstruktur
χ2-Anpassungstest
• Unter der Nullhypothese beträgt die erwartete Häufigkeit einer minimalen symmetrischen Distanz d(., κ) = i, mit 0 ≤ i ≤ k, bei m Probanden
m · pN,i
• Für d(., κ) = i, mit 0 ≤ i ≤ k, ergibt sich dann
χ2i
(fD,i − m · pN,i)2
=
m · pN,i
• Insgesamt berechnet man die Prüfgröße
χ2ber =
k
X
i=0
χ2i
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
12
Empirische Validität einer Wissensstruktur
χ2-Anpassungstest
d(., κ)
beob. Häufigkeit
erw. Häufigkeit
χ2
0
fD,0
m · pN,0
[fD,0 − m pN,0]2/m pN,0
1
fD,1
m · pN,1
[fD,1 − m pN,1]2/m pN,1
2
..
fD,2
..
m · pN,2
..
[fD,2 − m pN,2]2/m pN,2
..
i
..
fD,i
..
m · pN,i
..
[fD,i − m pN,i]2/m pN,i
..
k
P
fD,k
m · pN,k
[fD,k − m pN,k ]2/m pN,k
m
m
χ2ber
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
13
Empirische Validität einer Wissensstruktur
χ2-Anpassungstest
• Als Anzahl der Freiheitsgrade ergibt sich df = k, da sich die k + 1 Wahrscheinlichkeiten pN,i für 0 ≤ i ≤ k zu 1 addieren und somit lediglich k Summanden
frei wählbar sind
• Der Wert der Prüfgröße χ2ber ist daher für vorgegebene Irrtumswahrscheinlichkeit
α mit dem Quantil χ21−α der χ2-Verteilung bei df = k zu vergleichen
• Testentscheidung
• Die Nullhypothese ist abzulehnen, falls bei df = k Freiheitsgraden
χ2ber > χ21−α
• Die Nullhypothese wird beibehalten, falls bei df = k Freiheitsgraden
χ2ber ≤ χ21−α
Jürgen Heller: Dipl.-Diss. Seminar
WS 2001/02
14
Empirische Validität einer Wissensstruktur
Beispiel
• χ2-Anpassungstest
d(., κ)
χ2
beob. Häufigkeit
erw. Häufigkeit
0
39
31.250
1.92200
1
53
53.125
0.00029
2
P
8
15.625
3.72100
100
100.000
5.64329
• Testentscheidung: Für α = 0.05 wird bei df = 2 Freiheitsgraden die Nullhypothese wegen χ2ber < χ20.95 = 5.991465 beibehalten!
Zugehörige Unterlagen
Herunterladen