Mathematik für Biologen - Universität Düsseldorf

Werbung
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Mathematik für Biologen
Prof. Dr. Rüdiger W. Braun
Heinrich-Heine-Universität Düsseldorf
25. Januar 2013
Normalverteilungsannahmen
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
1
Der χ2 -Anpassungstest
2
Exakter Test nach Fisher
Mendelsche Erbregeln als Beispiel für mehr als zwei
Ausprägungen
Test auf Übereinstimmung zweier Verteilungen
Kleine Stichprobenumfänge
3
Normalverteilungsannahmen
konservative Tests
Q-Q-Plot: Vorgehensweise
Q-Q-Plot: Beispiel
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Test für ein Merkmal mit nur zwei Ausprägungen
Beispielaufgabe:
An der HHU sind 59.1% der Studierenden weiblich.
Im BSc-Studiengang Biologie sind 618 von 1101
Studierenden weiblich. Das sind 56.1%. Ist der
Unterschied beim Anteil weiblicher Studierender
signifikant zum Signifikanzniveau α = 0.05?
Für solche Fragestellungen verwendet man einen
Chi-Quadrat-Anpassungstest. Diese Tests dienen zur
Überprüfung der Gleichheit zweier Verteilungen.
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Ausgangslage
Stichprobenumfang ist n
Daten eingeteilt in s-Gruppen
Experimentell ermittelte Anzahl der Daten in der j-ten Gruppe
ist yj
Von der Nullhypothese prognostizierte Wahrscheinlichkeit,
dass Daten in Gruppe j fallen, ist πj
Von der Nullhypothese prognostizierte Anzahl der Daten in
der j-ten Gruppe ist n · πj
Teststatistik
s
X
(yj − n · πj )2
t=
n · πj
j=1
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
χ2 -Anpassungstest, Entscheidung
Das Signifikanzniveau sei α
Die Teststatistik sei t
Die Zahl der Freiheitsgrade ist s − 1
Benötigt wird das Quantil χ2s−1, 1−α der χ2 -Verteilung
H0 wird abgelehnt, wenn
t ≥ χ2s−1, 1−α
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Zurück zum Beispiel
s=2
w
m
Beobachtung
618
483
H0
651
450
Teststatistik
t=
(618 − 651)2 (483 − 450)2
+
= 4.093
651
450
χ21, 0.95 = 3.84
H0 kann abgelehnt werden.
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Quantile der χ2 -Verteilung
f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
90%
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
95%
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
97.5%
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
99%
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
99.5%
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
99.9%
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
99.95%
12.12
15.20
17.73
20.00
22.11
24.10
26.02
27.87
29.67
31.42
33.14
34.82
36.48
38.11
39.72
41.31
42.88
44.43
45.97
47.50
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Mendelsche Erbregeln
Bei den Mendelschen Erbversuchen tritt das Merkmal
Blütenfarbe in drei Ausprägungen auf, nämlich weiß, rosa und
rot
weiß und rot haben dieselbe Wahrscheinlichkeit, rosa die
doppelte
4 Blüten werden beobachtet, alle sind rosa
Widerspricht diese Beobachtung den Mendelschen Regeln?
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Interpretation als Vergleich zweier Verteilungen
Modellannahme: Die Mendelschen Regeln gelten für die
untersuchte Situation
Das entspricht der Verteilung
Nummer Ausprägung Wahrscheinlichkeit
1
weiß
25%
2
rosa
50%
3
rot
25%
Zu vergleichen mit der tatsächlichen Verteilung der
Blütenfarben in dem Kollektiv
Der Stichprobenumfang ist 4
Das ist für praktische Zwecke zu wenig, lässt sich aber gut
von Hand rechnen
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Mendelsche Erbregeln, Fortsetzung
Ordne die möglichen Ergebnisse mit aufsteigender
Wahrscheinlichkeit an
Entscheidungsstrategie am Beispiel α = 0.05
Lehne H0 ab, wenn die Beobachtung zu den
5% unwahrscheinlichsten Ereignissen gehört
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Test auf Übereinstimmung zweier Verteilungen
Unabhängige Zufallsvariable X1 , . . . , Xn , die alle mit
Wahrscheinlichkeit p1 den Wert w1 , mit Wahrscheinlichkeit p2
den Wert w2 , . . . , mit Wahrscheinlichkeit ps den Wert ws
annehmen
Vergleichswahrscheinlichkeiten π1 , π2 , . . . , πs mit
π1 + π2 + · · · + πs = 1
Nullhypothese und Alternative:
H0 : p1 = π1 , p2 = π2 , . . . , ps = πs
H1 : mindestens ein pj 6= πj
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Test auf Übereinstimmung zweier Verteilungen:
Summenvariable
Summenvariable
Y1 = Anzahl aller Xj mit Xj = w1
Y2 = Anzahl aller Xj mit Xj = w2
..
.
Ys = Anzahl aller Xj mit Xj = ws
Erwartungswerte unter H0
E (Y1 ) = n · π1
E (Y2 ) = n · π2
..
.
E (Ys ) = n · πs
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Test auf Übereinstimmung für kleine Stichproben
Bestimme für jede mögliche Kombination von Werten von
Y1 , . . . , Ys deren Wahrscheinlichkeit
Ordne diese Wahrscheinlichkeiten aufsteigend in einer Liste
Der kritische Bereich, in dem H0 abgelehnt wird, besteht aus
den obersten Zeilen dieser Liste
Man nimmt genau so viele Zeilen, dass die erlaubte
Fehlerwahrscheinlichkeit erster Art nicht überschritten, aber
möglichst gut ausgeschöpft wird
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Beispiel Mendel: Formalisierung
s=3
X1 ist der Zahlencode der Blütenfarbe der ersten Blüte, X2
dasselbe für die zweite Blüte, . . .
Y1 bezeichnet die Anzahl der weißen, Y2 die der rosafarbenen
und Y3 die der roten Blüten
Dann Y1 + Y2 + Y3 = 4
Im Beispiel Y1 = 0, Y2 = 4, Y3 = 0
Rechne sämtliche Einzelwahrscheinlichkeiten aus
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Beispiel Mendel: Wahrscheinlichkeiten der Einzelereignisse
P(Y1 = k1 , Y2 = k2 , Y3 = k3 )
k1 k2 k3
1
1
1
4
4 − k1
·
·
=
·
·
k1
k2
4
2
4
k1 k2 k3
1
1
1
4! · (4 − k1 )!
·
=
·
·
k1 ! · (4 − k1 )! · k2 ! · (4 − k1 − k2 )!
4
2
4
k1 k2 k3
4!
1
1
1
=
·
·
·
k1 ! · k2 ! · k3 !
4
2
4
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Beispiel Mendel: Tabelle der W’keiten der Einzelereignisse
k1
0
4
1
3
2
0
3
0
0
1
2
2
0
1
1
k2
0
0
0
0
0
1
1
4
2
1
1
2
3
3
2
k3
4
0
3
1
2
3
0
0
2
2
1
0
1
0
1
P(X1 = k1 , X2 = k2 , X3 = k3 )
0.0039
0.0039
0.0156
0.0156
0.0234
0.0312
0.0312
0.0625
0.0938
0.0938
0.0938
0.0938
0.1250
0.1250
0.1875
kumulierte Summe
0.0039
0.0078
0.0234
0.0391
0.0625
0.0938
0.1250
0.1875
0.2812
0.3750
0.4688
0.5625
0.6875
0.8125
1.0000
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Beispiel Mendel: Balkendiagramm
100%
80%
60%
40%
20%
(1,2,1)
(0,3,1), (1,3,0)
(0,2,2), (2,2,0), (1,1,2), (2,1,1)
(0,4,0)
(0,1,3), (3,1,0)
(2,0,2)
(1,0,3), (3,0,1)
(4,0,0), (0,0,4)
0%
Der linke Balken zeigt die kumulierten Werte aus der Tabelle, der
rechte die 5%-Schwelle
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Beispiel Mendel: Ergebnis
In den folgenden Fällen kann die Nullhypothese zum
Signifikanzniveau α = 0.05 abgelehnt werden
4 weiße oder 4 rote Blüten
keine rosa, aber 3 weiße oder 3 rote Blüten
Der p-Wert des beobachteten Ereignisses “4 rosa Blüten”
beträgt 18.75%
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Verteilungsannahmen
Der t-Test verwendet eine Verteilungsannahme: Daten müssen
normalverteilt sein.
Es gibt für viele verschiedene Verteilungsannahmen jeweils
einen passenden Test.
Zum Beispiel kann der χ2 -Anpassungstest verwendet werden,
nachdem man Erwartungswert und Varianz geschätzt hat
In der Praxis ist oft nicht klar, welche Verteilungsannahme
angemessen sind.
Tests, die auch bei Verletzung der Verteilungsannahmen noch
gute Ergebnisse liefern, heißen konservativ.
Der t-Test ist konservativ.
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Q-Q-Plot
Mit dem Quantil-Quantil-Plot kann man auf graphischem
Wege beurteilen, ob Messwerte Realisierungen einer
normalverteilten Zufallsvariablen sind
Man trägt dazu auf der x-Achse die Quantile der
Standardnormalverteilung und auf der y -Achse die Quantile
der Beobachtungsdaten auf
Wenn diese Punkte annähernd auf einer Geraden liegen, sind
die Daten näherungsweise normalverteilt, ansonsten nicht
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Q-Q-Plot: Vorgehensweise
Gegeben n verschiedene Messwerte
Ordne sie der Reihe nach an
x1 < x2 < · · · < xn
Wenn z. B. n = 100, dann ist x37 das 37%-Quantil des
Datensatzes
Allgemein interpretiere xj als nj -Quantil des Datensatzes
Genauigkeit steigt, wenn man xj als n1 · j − 12 -Quantil des
Datensatzes betrachtet
Beispiel mit drei Punkten
0%
1/6
x1
33%
1/2
x2
67%
5/6
x3
100%
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Q-Q-Plot: Vorgehensweise
Die Daten werden nach der Größe sortiert
x1 < x2 < · · · < xn
j-ter Datenpunkt im Q-Q-Plot:
x-Koordinate : n1 · j − 12 -Quantil der Standardnormalverteilung
y -Koordinate : xj
Liegen diese Punkte annähernd auf einer Geraden?
Wenn ja, dann ist die Normalverteilungsannahme
gerechtfertigt
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Q-Q-Plot: Beispiel
Wir legen die Daten des Placebos aus dem Beispiel
“Blutdrucksenker” zu Grunde
168
184
172
173
150
155
163
164
151
146
Zur Bestimmung der Quantile ordnen wir sie der Größe nach
an
146 150 151 155 163 164 168 172 173 184
Benötigt: Die Quantile q0.05 , q0.15 , q0.25 , . . . , q0.95 der
Standardnormalverteilung
q0.05
-1.645
q0.15
-1.04
q0.25
-0.675
...
...
q0.75
0.675
q0.85
1.04
q0.95
1.645
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
xj [mm Hg]
Q-Q-Plot
185
180
175
170
165
160
155
150
145
1402.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0
qαj
qαj ist das Quantil zu αj =
1
n
j−
1
2
Der χ2 -Anpassungstest
Exakter Test nach Fisher
Normalverteilungsannahmen
Q-Q-Plot von t-verteilten Daten
10
tαj
5
0
5
10 4
3
2
1
0
qαj
1
2
3
4
Herunterladen