Biostatistik, Winter 2011/12 - Konfidenzintervalle - staff.uni

Werbung
Biostatistik, Winter 2011/12
Konfidenzintervalle und Tests
Prof. Dr. Achim Klenke
http://www.aklenke.de
9. Vorlesung: 13.01.2012
1/31
Inhalt
1
Konfidenzintervalle
Definition
Normalverteilung mit bekannter Varianz
Normalverteilung mit unbekannter Varianz
Binomialverteilung
2
Tests
Einführung
2/31
Konfidenzintervalle
Definition
Grundbegriffe
W Wertemenge der einzelnen Beobachtung (oft W = R)
X = Wn Menge der Beobachtungen, Stichprobengröße n
Θ Parametermenge für die Wahrscheinlichkeitsverteilung
Pϑ auf X
Wahrer Wert ϑ ∈ Θ ist zu schätzen.
3/31
Konfidenzintervalle
Definition
Definition
Sei α ∈ (0, 1) (typisch: α = 5% oder α = 1%).
Sei Θ ⊂ R. Eine Vorschrift x 7→ C(x), die jedem x ∈ X ein
Intervall C(x) ⊂ Θ zuordnet mit
Pϑ [C(X ) 3 ϑ] ≥ 1 − α
für alle ϑ ∈ Θ,
heißt Konfidenzintervall zum Konfidenzniveau 1 − α.
Sei Θ ⊂ Rk und i = 1, . . . , k fest gewählt. Eine Vorschrift
x 7→ C(x), die jedem x ∈ X ein Intervall C(x) zuordnet mit
Pϑ [C(X ) 3 ϑi ] ≥ 1 − α
für alle ϑ ∈ Θ,
heißt Konfidenzintervall für ϑi zum Konfidenzniveau 1 − α.
4/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Normalverteilung mit bekannter Varianz
Messgröße streut um wahren Wert µ mit einem Fehler, der
normalverteilt ist mit bekannter Varianz σ 2 .
W = R, X = Rn , Θ = R
Pµ = Nµ,σ2
Konfidenzintervall ist
σ
σ
C(x) = x − √ z1−α/2 , x + √ z1−α/2 .
n
n
Dabei ist
z1−α/2 das (1 − α/2)-Quantil der Normalverteilung,
x=
1
(x1 + . . . + xn ) Mittelwert der Stichprobe.
n
5/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Quantile der Normalverteilung
β
zβ
β
zβ
0.8
0.84162
0.995
2.57583
0.9
1.28155
0.9975 2.80703
0.95
1.64485
0.998
2.87816
0.975 1.95996
0.999
3.09023
0.98
2.05375
0.9995 3.29053
0.99
2.32635
6/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Beispiel: Kalorimetrie
Im Kalorimeter werden n = 9 Messungen des Energieumsatzes
einer Proteinreaktion durchgeführt. Streuung des Messgerätes:
σ = 8 cal/mol.
Ziel: Konfidenzintervall zum Konfidenzniveau 95% (α = 5%).
Messwerte (in cal/mol)
i
1
2
3
4
5
6
7
8
9
xi 72.2 72.4 78.4 68.6 61.7 78.7 76.7 86.0 80.0
Mittelwert x = 74.97
7/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Beispiel: Kalorimetrie
Rechnung
x = 74.97
n=9
σ=8
Konfidenzintervall für α = 0.05
σ
σ
C(x) = x − √ z1−α/2 , x + √ z1−α/2
n
n
8
8
= 74.97 − z0.975 , 74.97 + z0.975
3
3
8/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Quantile der Normalverteilung
β = 1 − α/2 = 1 − 5%/2 = 0.975
β
zβ
β
zβ
0.8
0.84162
0.995
2.57583
0.9
1.28155
0.9975 2.80703
0.95
1.64485
0.998
2.87816
0.975 1.95996
0.999
3.09023
0.98
2.05375
0.9995 3.29053
0.99
2.32635
9/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Beispiel: Kalorimetrie
Rechnung
x = 74.97
n=9
σ=8
Konfidenzintervall für α = 0.05
σ
σ
C(x) = x − √ z1−α/2 , x + √ z1−α/2
n
n
8
8
= 74.97 − z0.975 , 74.97 + z0.975
3
3
8
8
= 74.97 − · 1.95996, 74.97 + · 1.95996
3
3
= [69.74, 80.19] ≈ [69.7, 80.2]
10/31
Konfidenzintervalle
Normalverteilung mit bekannter Varianz
Beispiel: Kalorimetrie
Ergebnis
Das Konfidenzintervall zum Konfidenzniveau 95% für den
Energieumsatz in cal/mol beträgt
C(x) = [69.7, 80.2] .
11/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Normalverteilung mit unbekannter Varianz
Messgröße streut um wahren Wert µ mit einem Fehler, der
normalverteilt ist mit unbekannter Varianz σ 2 .
W = R, X = Rn , Θ = R × [0, ∞)
Pµ,σ2 = Nµ,σ2 . σ 2 > 0 unbekannt, µ ∈ R ist zu schätzen.
Konfidenzintervall für µ ist
sn−1
sn−1
C(x) = x − √ tn−1; 1−α/2 , x + √ tn−1; 1−α/2 .
n
n
Dabei ist tn−1; 1−α/2 das (1 − α/2)-Quantil der t-Verteilung
mit n − 1 Freiheitsgraden und
v
u
n
u 1 X
sn−1 = t
(xi − x)2
Schätzwert für die Streuung.
n−1
i=1
12/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Quantile der t-Verteilung
n
1
2
3
4
5
tn; 0.9
3.0777
1.8856
1.6377
1.5332
1.4759
tn; 0.95
tn; 0.975
tn; 0.99
tn; 0.995
6.3138 12.7062 31.8205 63.6567
2.9200 4.3026 6.9646 9.9248
2.3534 3.1824 4.5407 5.8409
2.1318 2.7764 3.7470 4.6041
2.0150 2.5706 3.3649 4.0321
6
7
8
9
10
1.4398
1.4149
1.3968
1.3830
1.3722
1.9432
1.8946
1.8596
1.8331
1.8125
2.4469
2.3646
2.3060
2.2622
2.2281
3.1427
2.9980
2.8965
2.8214
2.7638
3.7074
3.4995
3.3554
3.2498
3.1693
13/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Beispiel: Neuronenaktivierung
Ein Neuron wird elektrisch bis zum Feuern“ gereizt. Wie groß
”
ist die Aktivierungsspannung?
10 Messungen, Fehler normalverteilt, Varianz unbekannt.
Ziel: Konfidenzintervall zum Konfidenzniveau 99% (α = 1%).
Messwerte (in mV)
i 1
2
3
4
5
6
7
8
9
10
xi 12 12.17 11.55 10.70 12.20 11.63 11.63 10.08 9.98 12.10
Mittelwert x = 11.404
q P
2
Streuung s9 = 19 10
i=1 (xi − x) = 0.8472072
14/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Beispiel: Neuronenaktivierung
Rechnung
x = 11.404
s9 = 0.8472072
Konfidenzintervall für α = 0.01
n = 10
C(x)
sn−1
sn−1
= x − √ tn−1; 1−α/2 , x + √ tn−1; 1−α/2
n
n
0.8472072
0.8472072
√
√
= 11.404 −
t9; 0.995 , 11.404 +
t9; 0.995
10
10
15/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Quantile der t-Verteilung
1 − α/2 = 1 − 1%/2 = 0.995
n
1
2
3
4
5
tn; 0.9
3.0777
1.8856
1.6377
1.5332
1.4759
tn; 0.95
tn; 0.975
tn; 0.99
tn; 0.995
6.3138 12.7062 31.8205 63.6567
2.9200 4.3026 6.9646 9.9248
2.3534 3.1824 4.5407 5.8409
2.1318 2.7764 3.7470 4.6041
2.0150 2.5706 3.3649 4.0321
6
7
8
9
10
1.4398
1.4149
1.3968
1.3830
1.3722
1.9432
1.8946
1.8596
1.8331
1.8125
2.4469
2.3646
2.3060
2.2622
2.2281
3.1427
2.9980
2.8965
2.8214
2.7638
3.7074
3.4995
3.3554
3.2498
3.1693
16/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Beispiel: Neuronenaktivierung
Rechnung
x = 11.404
s9 = 0.8472072
n = 10
Konfidenzintervall für α = 1% (in mV)
C(x)
sn−1
sn−1
= x − √ tn−1; 1−α/2 , x + √ tn−1; 1−α/2
n
n
0.8472072
0.8472072
√
√
= 11.404 −
t9; 0.995 , 11.404 +
t9; 0.995
10
10
0.8472072
0.8472072
√
√
= 11.404 −
· 3.2498, 11.404 +
· 3.2498
10
10
= [10.53, 12.27] ≈ [10.5, 12.3]
17/31
Konfidenzintervalle
Normalverteilung mit unbekannter Varianz
Beispiel: Neuronenaktivierung
Ergebnis
Das Konfidenzintervall zum Konfidenzniveau 99% für die
Aktivierungsspannung beträgt (in mV)
C(x) = [10.5, 12.3] .
18/31
Konfidenzintervalle
Binomialverteilung
Binomialverteilung
Fragestellung
Unbekannte Erfolgswahrscheinlichkeit p eines Experiments soll
bestimmt werden. n Messungen, davon X Erfolge.
X = W = {0, . . . , n} (Anzahl Erfolge), Θ = [0, 1]
(Erfolgswahrscheinlichkeit)
Pp = bn,p (Binomialverteilung). p ∈ [0, 1] ist zu schätzen.
Berechnung des Konfidenzintervalls
Normalapproximation, wenn n groß ist.
Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist
(Tabelle).
19/31
Konfidenzintervalle
Binomialverteilung
Binomialverteilung, Normalapproximation
Beobachtung X ungefähr normalverteilt Nµ,σ2 mit µ = np und
σ 2 = np(1 − p). Für p Schätzwert X /n einsetzen:
X − pn
p
X (1 − X /n)
≈p
X − pn
np(1 − p)
∼ N0,1 .
Auflösen nach p liefert:
hx
i
x
C(x) =
− F, + F
n
n
mit dem Fehler
1
F =√
n
r x
x
1−
z1−α/2 .
n
n
20/31
Konfidenzintervalle
Binomialverteilung
Beispiel
Anteil der Knaben unter
allen Neugeborenen p =?
Konfidenzintervall zum
Konfidenzniveau 95%
(α = 5%).
Geburtenregister Stadt
Düsseldorf 1999:
n = 5234 Geburten,
darunter x = 2676
Knaben.
21/31
Konfidenzintervalle
Binomialverteilung
Rechnung
n = 5234,
x = 2676,
α = 5%
Konfidenzintervall
hx
i
x
C(x) =
− F, + F
n
n
= [0.5113 − F , 0.5113 + F ]
= [0.4977, 0.5249]
≈ [0.497, 0.525]
mit dem Fehler
r 1
x
x
√
F =
1−
z1−α/2
n
n
n
r
2676
1
2676
= √5234
1
−
z0.975
5234
5234
= 0.006909438 · z0.975
= 0.006909438 · 1.95996
= 0.0136
β
0.8
0.9
0.95
0.975
0.98
0.99
zβ
0.84162
1.28155
1.64485
1.95996
2.05375
2.32635
22/31
Konfidenzintervalle
Binomialverteilung
Ergebnis
Aus den Daten der Stadt
Düsseldorf von 1999 ergibt sich
für den Anteil der Knaben unter
den Neugeborenen in
Deutschland zum
Konfidenzniveau 95% das
Konfidenzintervall
[0.497, 0.535].
23/31
Konfidenzintervalle
Binomialverteilung
Binomialverteilung, Exakte Berechnung
Fragestellung
Unbekannte Erfolgswahrscheinlichkeit p eines Experiments soll
bestimmt werden. n Messungen, davon X Erfolge.
Exaktes Konfidenzintervall
C(x) = 1 − βn−x+1,x;1−α/2 , βx+1,n−x;1−α/2 .
Dabei ist βx,n,1−α/2 das (1 − α/2)-Quantil der Beta-Verteilung mit
Parametern x und n (Tabelle!).
24/31
Konfidenzintervalle
Binomialverteilung
Beta-Verteilung: 97.5%-Quantil
Tabelliert ist βm,n; 0.975 .
m\n
1
2
3
4
5
1
.975
.987
.992
.994
.995
2
.842
.906
.932
.947
.957
3
.708
.806
.853
.882
.901
4
.602
.716
.777
.816
.843
5
.522
.641
.710
.755
.788
6
.459
.579
.651
.701
.738
7
.410
.526
.600
.652
.692
8
.369
.482
.556
.610
.651
9
.336
.445
.518
.572
.614
10
.308
.413
.484
.538
.581
11
.285
.385
.454
.508
.551
12
.265
.360
.428
.481
.524
6
7
8
9
10
.996
.996
.997
.997
.997
.963
.968
.972
.975
.977
.915
.925
.933
.940
.945
.863
.878
.891
.901
.909
.813
.833
.848
.861
.872
.766
.789
.808
.823
.837
.723
.749
.770
.787
.802
.684
.711
.734
.753
.770
.649
.677
.701
.722
.740
.616
.646
.671
.692
.711
.587
.617
.643
.665
.685
.560
.590
.616
.639
.660
11 .998 .979 .950 .916 .882 .848 .816 .785 .756 .728 .702 .678
12 .998 .981 .953 .922 .890 .858 .827 .797 .769 .743 .718 .694
25/31
Konfidenzintervalle
Binomialverteilung
Beispiel
Stichprobe n = 15, x = 4 Erfolge, Konfidenzniveau 95%
(α = 5%).
C(x) = 1 − βn−x+1,x;1−α/2 , βx+1,n−x;1−α/2
= [1 − β12,4;0.975 , β5,11;0.975 ]
= [1 − 0.922, 0.551]
= [0.078, 0.551]
Tabelle für βm,n; 0.975
m\n
3
4
5
6
.
.
.
11
12
3
.853
.882
.901
.915
4
.777
.816
.843
.863
5
.710
.755
.788
.813
.950
.953
.916
.922
.882
.890
···
10
.484
.538
.581
.616
11
.454
.508
.551
.587
12
.428
.481
.524
.560
.728
.743
.702
.718
.678
.694
Zum Vergleich: Normalapproximation liefert
C(x) ≈ [0.042, 0.491].
Abweichung vom exakten Intervall etwa 5%. Bei einem so
schlechten Konfidenzintervall ist das aber fast schon egal...
26/31
Konfidenzintervalle
Binomialverteilung
Fazit
Berechnung des Konfidenzintervalls
Normalapproximation, wenn n groß ist.
Exakte Bestimmung mit Beta-Quantilen, wenn n klein ist
(Tabelle). Oft ist dann das Konfidenzintervall so groß, dass
es nicht aussagekräftig ist.
27/31
Tests
Einführung
Beispiel
Bohnenlieferant liefert Säcke mit weißen und schwarzen
(teuren) Bohnen.
Lieferant behauptet: H0 = Anteil schwarzer Bohnen θ = 41“.
”
Unser Verdacht: H1 : θ < 14“.
”
Stichprobe: n Bohnen, daraus x schwarz.
H0 verwerfen, falls x ≤ K .
H0 beibehalten, falls x > K .
Problem: Wie ist K zu wählen?
28/31
Tests
Einführung
Beispiel
Zwei Fehlermöglichkeiten
1
2
Fehler 1. Art H0 ist wahr, aber (zufälligerweise) ist x ≤ K .
[Falsches Verwerfen von H0 ]
Fehler 2. Art H0 ist falsch, aber (zufälligerweise) ist x > K .
[Ungültigkeit von H0 wird nicht erkannt.]
Problem
Wie sind n und K zu wählen, damit Wahrscheinlichkeiten für
Fehler 1. und 2. Art klein sind?
29/31
Tests
Einführung
Fahrplan für Testprobleme
1
2
3
Schranke α ∈ (0, 1) für die Wahrscheinlichkeit des Fehlers
1. Art festlegen (Niveau).
Typisch: α = 0.05, α = 0.01.
n (möglichst groß) wählen (=⇒ Kosten).
K wählen, sodass
Wahrscheinlichkeit(Fehler 1. Art) ≤ α.
30/31
Tests
Einführung
Fahrplan für Testprobleme
Variante: Fallzahlplanung
1
2
3
Schranke α ∈ (0, 1) für die Wahrscheinlichkeit des Fehlers
1. Art festlegen (Niveau).
Schranke β ∈ (0, 1) für die Wahrscheinlichkeit des Fehlers
2. Art festlegen.
Minimales n und optimales K berechnen, sodass
Wahrscheinlichkeit (Fehler 1. Art) ≤ α
Wahrscheinlichkeit (Fehler 2. Art) ≤ β.
31/31
Herunterladen