Mathematik für Biologen - Universität Düsseldorf: Mathematik

Werbung
Konfidenzintervalle
Mathematik für Biologen
Prof. Dr. Rüdiger W. Braun
Heinrich-Heine-Universität Düsseldorf
11. Januar 2013
Stetige Zufallsvariable, Normalverteilungen
1
Stetige Zufallsvariable, Normalverteilungen
Standard-Normalverteilung
Normalverteilungen
Die 3-Sigma Regel
Stetige Zufallsvariable, Normalverteilungen
Verteilungsfunktion der Standard-Normalverteilung
1.0
Φ(x)
0.8
0.6
0.4
0.2
0.0
3
2
1
0
x
1
2
3
Stetige Zufallsvariable, Normalverteilungen
Tabelle der Standard-Normalverteilung, linke Seite
u
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
0.00
0,500000
,539828
,579260
,617911
,655422
,691462
,725747
,758036
,788145
,815940
,841345
,864334
,884930
,903200
0,919243
0.01
0,503989
,543795
,583166
,621720
,659097
,694974
,729069
,761148
,791030
,818589
,843752
,866500
,886861
,904902
0,920730
0.02
0,507978
,547758
,587064
,625516
,662757
,698468
,732371
,764238
,793892
,821214
,846136
,868643
,888768
,906582
0,922196
0.03
0,511966
,551717
,590954
,629300
,666402
,701944
,735653
,767305
,796731
,823814
,848495
,870762
,890651
,908241
0,923641
0.04
0,515953
,555670
,594835
,633072
,670031
,705401
,738914
,770350
,799546
,826391
,850830
,872857
,892512
,909877
0,925066
Stetige Zufallsvariable, Normalverteilungen
Tabelle der Standard-Normalverteilung, rechte Seite
u
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
0.05
0,519939
,559618
,598706
,636831
,673645
,708840
,742154
,773373
,802337
,828944
,853141
,874928
,894350
,911492
0,926471
0.06
0,523922
,563559
,602568
,640576
,677242
,712260
,745373
,776373
,805105
,831472
,855428
,876976
,896165
,913085
0,927855
0.07
0,527903
,567495
,606420
,644309
,680822
,715661
,748571
,779350
,807850
,833977
,857690
,879000
,897958
,914657
0,929219
0.08
0,531881
,571424
,610261
,648027
,684386
,719043
,751748
,782305
,810570
,836457
,859929
,881000
,899727
,916207
0,930563
0.09
0,535856
,575345
,614092
,651732
,687933
,722405
,754903
,785236
,813267
,838913
,862143
,882977
,901475
,917736
0,931888
Stetige Zufallsvariable, Normalverteilungen
Lesehinweise
Auf dem Weblog gibt es die komplette Tabelle im Format A4
unter http://www.math.uni-duesseldorf.de/~braun/
bio1213/tabNorm.pdf
Beispiel Φ(0.31) = 0.621720
Wegen der Punktsymmetrie, also wegen
Φ(−x) = 1 − Φ(x)
kann man die Tabelle auch für negative Argumente
verwenden. Also beispielsweise
Φ(−1.34) = 1 − Φ(1.34) = 1 − 0.909877 = 0.090123
Durch Aufsuchen des Funktionswertes erhält man die
Umkehrfunktion: Gesucht u mit Φ(u) = 0.79. Man liest ab:
u = 0.81
Stetige Zufallsvariable, Normalverteilungen
Tabelle der Standard-Normalverteilung, linke Seite
u
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
0.00
0,500000
,539828
,579260
,617911
,655422
,691462
,725747
,758036
,788145
,815940
,841345
,864334
,884930
,903200
0,919243
0.01
0,503989
,543795
,583166
,621720
,659097
,694974
,729069
,761148
,791030
,818589
,843752
,866500
,886861
,904902
0,920730
0.02
0,507978
,547758
,587064
,625516
,662757
,698468
,732371
,764238
,793892
,821214
,846136
,868643
,888768
,906582
0,922196
0.03
0,511966
,551717
,590954
,629300
,666402
,701944
,735653
,767305
,796731
,823814
,848495
,870762
,890651
,908241
0,923641
0.04
0,515953
,555670
,594835
,633072
,670031
,705401
,738914
,770350
,799546
,826391
,850830
,872857
,892512
,909877
0,925066
Stetige Zufallsvariable, Normalverteilungen
Beispiel
Normalverteilungen werden beispielsweise zur Modellierung
von Messfehlern benutzt
Beispiel: Die Wirkstoffkonzentration in einem Heilmittel soll
4g/l betragen. Herstellungsabhängig beträgt die Streuung
100mg/l
Mit welcher Wahrscheinlichkeit liegt die Konzentration über
4.12g/l?
Y sei die Konzentration in g/l
Dann Y = 4 + 0.1 · X , wobei X standard-normalverteilt ist
Gesucht P(Y > 4.12)
Das ist P(X > 1.2) = 1 − P(X ≤ 1.2) = 1 − Φ(1.2) =
1 − 0.884930 = 0.115070
Stetige Zufallsvariable, Normalverteilungen
Normalverteilungen
Die Zufallsvariable X heißt normalverteilt zum
Erwartungswert µ und der Varianz σ2 , wenn
Y =
X −µ
σ
standard-normalverteilt ist. Man sagt dann, X sei
N(µ, σ2 )-verteilt
X =µ+σ·Y
Y ist die Standardisierung von X
Stetige Zufallsvariable, Normalverteilungen
Normalverteilungen für verschiedene Erwartungswerte
1.0
µ =0
µ =1
µ =2
F(x)
0.8
0.6
0.4
0.2
0.0 4
3
2
1 0
x
1
2
3
Verteilungsfunktionen für N(µ, 1)-verteilte Zufallsvariable
4
Stetige Zufallsvariable, Normalverteilungen
Normalverteilungen für verschiedene Streuungen
1.0
σ =1
σ =1/2
σ =2
F(x)
0.8
0.6
0.4
0.2
0.0 4
3
2
1 0
x
1
2
3
Verteilungsfunktionen für N(0, σ2 )-verteilte Zufallsvariable
4
Stetige Zufallsvariable, Normalverteilungen
Umrechnung auf Standardnormalverteilung
Die Zufallsvariable X sei N(µ, σ2 )-verteilt. Dann gelten für a < b
b−µ
a−µ
P(a < X ≤ b) = Φ
−Φ
σ
σ
a−µ
P(a < X ) = 1 − Φ
σ
b−µ
P(X ≤ b) = Φ
σ
Stetige Zufallsvariable, Normalverteilungen
Beispiel: natürliche Variabilitäten
Roggenpflanzen erreichen eine mittlere Höhe von 1m. Dabei
streut die Höhe um 20cm. Welcher Prozentsatz aller Pflanzen
erreicht mindestens 1.10m Höhe?
X = Höhe der Pflanze
Wir rechnen in Metern. Dann E (X ) = 1 und Var (X ) = 0.04
X = 1 + 0.2 · Y für standard-normalverteiltes Y
X ≥ 1.10 bedeutet Y ≥ 0.5
P(Y ≥ 0.5) = 1 − P(Y ≤ 0.5) = 1 − Φ(0.5) = 1 − 0.6915 =
0.3085
ca 31% der Pflanzen sind mindestens 1.10m hoch
Stetige Zufallsvariable, Normalverteilungen
Kritische Betrachtung des Modells
Das Modell erlaubt auch den unsinnigen Fall, dass
Roggenpflanzen eine negative Höhe aufweisen
Mit welcher Wahrscheinlichkeit geschieht das?
X ≤ 0 bedeutet Y ≤ −5
P(Y ≤ −5) = Φ(−5) = 1 − Φ(5) = 1 − (1 − 2.867 · 10−7 ) =
2.867 · 10−7
Das Modell sagt für weniger als eine unter 3 Millionen
Pflanzen eine negative Höhe voraus
Damit können wir leben
Stetige Zufallsvariable, Normalverteilungen
Beispiel: IQ-Tests
IQ-Tests sind so skaliert, dass die Werte in der Population
normalverteilt mit Erwartungswert µ = 100 und Streuung
σ = 15 sind
Welcher Anteil der Bevölkerung hat einen IQ über 130?
X messe den IQ
X ist N(100, 225)-verteilt.
Also
130 − 100
P(130 < X ) = 1 − Φ
15
= 1 − Φ(2) = 1 − 0.977250 = 0.02275
Ungefähr 2.3% der Population weist einen IQ von mindestens
130 auf
Stetige Zufallsvariable, Normalverteilungen
Die 3σ-Regel
X1 , . . . , Xn unabhängig, alle mit derselben Verteilung
µ = E (X1 ) = · · · = E (Xn ) und
σ2 = Var (X1 ) = · · · = Var (Xn )
Arithmetisches Mittel der Xj
1
(X1 + X2 + · · · + Xn )
n
n ausreichend groß, dann näherungsweise
σ 2
≥
P Y − µ ≤ √
3
n
2σ
P Y − µ ≤ √
≥ 0.95
n
3σ P Y − µ ≤ √
≥ 0.99
n
Y =
Die 3σ-Regel ist nur eine Faustregel.
Stetige Zufallsvariable, Normalverteilungen
Erläuterung der 3σ-Regel
E (Y ) = µ
Var (Y ) = nσ2
Also ist n(Y − µ) die Standardisierung von Y
Für große n sieht die Standardisierung aus wie Φ
Stetige Zufallsvariable, Normalverteilungen
3σ-Regel, Zeichnung
67%
µ−σ
µ
µ +σ
95%
µ−2σ
µ
µ +2σ
99%
µ−3σ
µ
µ +3σ
Stetige Zufallsvariable, Normalverteilungen
3σ-Regel, Beispiel
Der Wirkstoffgehalt von Düngetabletten wird gemessen
(in mg). Die Streuung betrage 8mg
Wie viele Messungen schreibt die 3σ-Regel vor, um mit
95% Wahrscheinlichkeit einen Messfehler von weniger als 4mg
zu haben?
Wir brauchen
Also
Das bedeutet n = 16
2σ
4= √
n
2·8
4= √
n
Konfidenzintervalle
Teil III
Schließende Statistik
Konfidenzintervalle
2
Konfidenzintervalle
Schätzung eines Konfidenzintervalls mit der 3-sigma-Regel
Grundlagen
Quantile
Die t-Verteilung
Konfidenzintervalle bei unbekannter Varianz
Konfidenzintervalle
Schätzung eines Konfidenzintervalls mittels der 3σ-Regel
X1 , . . . , Xn seien normalverteilt gemäß N(µ, σ2 ) für
bekanntes σ und unbekanntes µ
Für µ soll ein Konfidenzintervall zum Konfidenzniveau 95%
geschätzt werden.
Das ist ein Intervall, welches den wahren Wert mit 95%-tiger
Wahrscheinlichkeit enthält
Den Mittelpunkt des Konfidenzintervalls bildet das
arithmetische Mittel
X =
1
(X1 + · · · + Xn )
n
Konfidenzintervalle
Schätzung eines Konfidenzintervalls mittels der 3σ-Regel,
Fortsetzung
3σ-Regel
2σ
2σ
P µ− √ ≤X ≤µ+ √
= 0.95
n
n
Beachte die Gleichwertigkeit der Ungleichungen
2σ
2σ
X ≤µ+ √
und µ ≥ X − √
n
n
Damit sieht die 3σ-Regel so aus
2σ
2σ
P X−√ ≤µ≤X+√
= 0.95
n
n
Also ist folgendes Intervall ein Konfidenzintervall zum
Konfidenzniveau 95%
2σ
2σ
X−√ , X+√
n
n
Konfidenzintervalle
Beispiel: Roggenpflanzen
Gesunde Roggenpflanzen einer bestimmten Art sind im Mittel
102.5 cm lang, wobei die Länge um 7 cm streut. Die Länge sei
normalverteilt
Durch Umwelteinflüsse änderte sich die mittlere Halmlänge,
die Streuung aber nicht
Die folgenden Längen wurden gemessen
96.62
94.91
85.05
101.61
109.55
93.05
97.86
96.66
95.08
98.87
Arithmetisches Mittel der Daten
x = 96.93
Konfidenzintervalle
Roggenpflanzen, Fortsetzung
x = 96.93
2σ
14
√ = √ = 4.43
n
10
96.93 − 4.43 = 92.50 und 96.93 + 4.43 = 101.36
Also ergibt sich das folgende Konfidenzintervall zum
Konfidenzniveau 95%
[92.50, 101.36]
Die Länge gesunder Pfanzen beträgt im Mittel 102.5cm. Wir
können also mit 95%-tiger Sicherheit feststellen, dass die
beobachteten Pflanzen nicht gesund sind.
Konfidenzintervalle
Definition
Es sei Θ eine Menge von Parameterwerten. Zu jedem
Parameterwert θ ∈ Θ gebe es eine Verteilung Pθ
Von der Zufallsvariablen X sei bekannt, dass ihre Verteilung
gleich einem der Pθ ist. Für dieses θ soll ein Konfidenzintervall
geschätzt werden
Ein Intervall [Gu , Go ] mit der Eigenschaft
Pθ (Gu ≤ θ ≤ Go ) = 1 − α
heißt Konfidenzintervall für den Parameter θ zum
Konfidenzniveau 1 − α
Übliche Konfidenzniveaus sind 90%, 95% und 99%
Gu und Go sind Zufallsvariable. Man bezeichnet sie als untere
und obere Vertrauensgrenze
Konfidenzintervalle
Quantile
Φ die Verteilungsfunktion der Standardnormalverteilung
Die Zahl qα mit Φ(qα ) = α heißt α-Quantil der
Standardnormalverteilung. Die wichtigsten Quantile der
Standardnormalverteilung sind tabelliert
Φ(u) 70%
80%
90%
95% 97.5% 99% 99.5%
u
0.524 0.842 1.282 1.645 1.960 2.326 2.576
Z. B. ist das 0.975-Quantil gleich 1.960, also näherungsweise
gleich 2
Umrechnungsformel
qα = −q1−α
Beispiel
q0.05 = −q0.95 = −1.645
Konfidenzintervalle
Schätzung eines Konfidenzintervalls für den
Erwartungswert bei bekannter Varianz mittels Quantilen
X1 , . . . , Xn seien normalverteilt gemäß N(µ, σ2 ) für
bekanntes σ und unbekanntes µ
Für µ soll ein Konfidenzintervall zum Konfidenzniveau 1 − α
geschätzt werden
Benötigt wird das 1 − α2 -Quantil q1−α/2 der
Standardnormalverteilung
und das arithmetische Mittel X der Daten
Das Konfidenzintervall ist
σ · q1−α/2
σ · q1−α/2
√
√
X−
,X +
n
n
Konfidenzintervalle
Beispiel: Roggenpflanzen
Gesunde Roggenpflanzen einer bestimmten Art sind im Mittel
102.5 cm lang, wobei die Länge um 7 cm streut. Die Länge sei
normalverteilt
Durch Umwelteinflüsse änderte sich die mittlere Halmlänge,
die Streuung aber nicht
Die folgenden Längen wurden gemessen
96.62
94.91
85.05
101.61
109.55
93.05
97.86
96.66
95.08
98.87
Arithmetisches Mittel der Daten
x = 96.93
Gesucht: Konfidenzintervall zum Konfidenzniveau 90%
Konfidenzintervalle
Roggenpflanzen, Fortsetzung
1 − α = 0.90, also α = 0.10, also 1 − α/2 = 0.95
q0.95 = 1.645
Konfidenzintervall
σ · q1−α/2
σ · q1−α/2
√
√
X−
,X +
n
n
7 · 1.645
7 · 1.645
= 96.93 − √
, 96.93 + √
10
10
= [93.29, 100.6]
Zum Vergleich: Konfidenzintervall zum Konfidenzniveau 95%
[92.50, 101.36]
Konfidenzintervalle
Schätzung der Varianz
Bei den bisherigen Schätzern für Konfidenzintervalle musste
die Varianz von vornerein bekannt sein. Das ist unrealistisch
Ausweg: Wir schätzen die Varianz durch die empirische
Varianz
n
1 X
(Xk − X )2
S2 =
n−1
k=1
Hierbei ist X das arithmetische Mittel
Dadurch, dass zweimal geschätzt wird (Erwartungswert und
Varianz), sinkt die Genauigkeit
Die Konfidenzintervalle werden also größer
Statt der Quantile von Φ muss man die Quantile einer
anderen Verteilung verwenden. Diese Verteilung hängt von der
Anzahl n der Versuche ab
Konfidenzintervalle
Die t-Verteilung
Für n = 2, 3, 4, . . . ist die t-Verteilung (oder Studentsche
Verteilung) mit n − 1 Freiheitsgraden gegeben durch die Dichte
fn−1 = cn−1
x2
1+
n−1
−n/2
Dabei wird cn−1 bestimmt durch das Erfordernis, dass
R
∞
−∞ fn−1 (x) dx = 1
Die t-Verteilungen sind tabelliert
Konfidenzintervalle
f(x)
Graphen von Dichten von t-Verteilungen
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00 4
3
2
1 0
x
1
2
3
4
Dichten der Standard-Normalverteilung (blau) und der
t-Verteilungen mit 1 (rot), 2 (violett) bzw. 5 (grün) Freiheitsgraden
Konfidenzintervalle
F(x)
Graphen von Verteilungsfunktionen von t-Verteilungen
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0 4
3
2
1 0
x
1
2
3
4
Verteilungsfunktionen der Standard-Normalverteilung (blau) und
der t-Verteilungen mit 1 (rot), 2 (violett) bzw. 5 (grün)
Konfidenzintervalle
Quantile der t-Verteilung
f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
∞
90%
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.282
95%
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.645
97.5%
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
1.960
99%
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.326
99.5%
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.576
99.9%
318.309
22.327
10.215
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
3.090
Konfidenzintervalle
Freiheitsgrade
Heuristisch:
n Versuche, um einen Parameter θ zu schätzen
Jeder andere Parameter, der hilfsweise geschätzt werden
muss, verringert die Zahl der Freiheitsgrade um 1
Bei der Schätzung eines Konfidenzintervalls bei unbekannter
Varianz verliert man einen Freiheitsgrad durch die Schätzung
der Varianz
Konfidenzintervalle
Schätzung eines Konfidenzintervalls für den
Erwartungswert bei unbekannter Varianz
X1 , . . . , Xn seien normalverteilt gemäß N(µ, σ2 ) für
unbekanntes σ und unbekanntes µ
Für µ soll ein zweiseitiges Konfidenzintervall zum
Konfidenzniveau 1 − α geschätzt werden
Verwende dazu das arithmetische Mittel
X =
1
(X1 + · · · + Xn )
n
und die Wurzel aus der empirischen Varianz
v
u
n
u 1 X
S =t
(Xk − X )2
n−1
k=1
Konfidenzintervalle
Schätzung eines Konfidenzintervalls, Fortsetzung
Benötigt wird das (1 − α2 )-Quantil der t-Verteilung mit
(n − 1) Freiheitsgraden; wir bezeichnen es mit tn−1, 1−α/2
Dann ist das Konfidenzintervall zum Konfidenzniveau 1 − α
S
S
X − √ tn−1, 1−α/2 , X + √ tn−1, 1−α/2
n
n
Konfidenzintervalle
Beispiel: Reaktionszeit
In einem Versuch wird die Reaktionszeit eines Patienten auf
einen Luftstoß am Auge gemessen. Der Versuch wird 20-mal
wiederholt
Ein Konfidenzintervall zum Konfidenzniveau 95% ist zu
schätzen
Beispielhafter Datensatz (Zeiten im ms)
43.14 25.60 35.14 65.50 38.29
23.37 11.00 72.65 47.69 33.12
42.18 49.18 27.35 46.40 32.69
61.52 52.54 68.52 58.92 75.74
Arithmetisches Mittel und Stichprobenstreuung dieses
Datensatzes sind
x = 45.53
s = 17.75
Konfidenzintervalle
Reaktionszeit, Fortsetzung
20 Versuche bedeuten 19 Freiheitsgrade
1 − α = 0.95, also 1 − α2 = 0.975. Wir benötigen das
0.975-Quantil der t-Verteilung mit 19 Freiheitsgraden.
Konfidenzintervalle
Quantile der t-Verteilung
f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
∞
90%
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.282
95%
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.645
97.5%
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
1.960
99%
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.326
99.5%
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.576
99.9%
318.309
22.327
10.215
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
3.090
Konfidenzintervalle
Reaktionszeit, Fortsetzung
Erinnerung
x = 45.53
s = 17.75
t19, 0.975 = 2.093
Die Realisierung der oberen Vertrauensgrenze ist
s
Go = x + √ · tn−1, 1−α/2
n
17.75
= 45.53 + √
· 2.093
20
= 45.53 + 8.30
= 53.83
Entsprechend ist Gu = 45.53 − 8.30 = 37.23 die Realisierung
der unteren Vertrauensgrenze.
Konfidenzintervalle
t
Reaktionszeit, Skizze
80
70
60
50
40
30
20
10
5
10
n
15
Der grüne Bereich ist das Konfidenzintervall zum
Konfidenzniveau 95%
20
Herunterladen