Elementarstatistik - Universität Koblenz · Landau

Werbung
Elementarstatistik
für Umweltwissenschaftler
Skript zur Vorlesung
Wintersemester 2010/2011
von
Dr. Dominik Faas
Institut für Mathematik
Fachbereich 7: Natur- und Umweltwissenschaften
Universität Koblenz-Landau
Ein besonderer Dank geht an Dr. Martin Becker und Dr. Stefan Klößner.
Literatur zur Vorlesung
ˆ Hartung Statistik, Lehr und Handbuch der angewandten Statistik
ˆ Fahrmeir, Künstler, Pigeot, Tutz Statistik
ˆ Fahrmeir, Künstler, Pigeot, Tutz Arbeitsbuch Statistik
ˆ Crawley The R Book
1 Parameterschätzungen und Konfidenzintervalle
Binomialverteilungen
1.) Einführung der Verteilung
Bei einem Vorgang kann eine bestimmte Möglichkeit eintreten oder nicht (kurz:
Treffer oder kein Treffer). Die Wahrscheinlichkeit für einen Treffer ist p ∈ [0, 1],
entsprechend ist die Wahrscheinlichkeit für keinen Treffer 1 − p. Der Vorgang
wird n-mal wiederholt (man sagt: n Versuche werden durchgeführt). Die einzelnen Versuche sind unabhängig voneinander (d.h. ein Treffer bei einem
Versuch hat keinen Einfluss auf die Wahrscheinlichkeit, dass beim nächsten
Versuch wieder ein Treffer eintritt) und finden alle unter den gleichen Bedingungen statt. Die Anzahl der Treffer ist k ∈ {0, . . . , n}.
Falls p bekannt ist, wie groß ist dann die Wahrscheinlichkeit für genau k Treffer bei n Versuchen?
Die Wahrscheinlichkeit beträgt
n
W (k Treffer) = B(n, p, k) = ( )pk ⋅ (1 − p)n−k
k
(Man sagt: Die Anzahl der Treffer ist binomialverteilt.)
n=40, p=0.8
n=1000, p=0.06
●
0.15
●
●
●
●
●
●
0.05
0.25
n=10, p=0.4
●
●
●●
●
0.04
0.03
W(k Treffer)
●
0.01
●
2
4
6
8
10
●●●●●●●●●●●●●●●●●●●●●●●●●
●
0
10
k
20
●
●
●●
30
40
0.00
●
0.00
0.00
0
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.02
●
0.05
0.10
●
●
●
●
0.10
W(k Treffer)
0.15
●
●
0.05
W(k Treffer)
0.20
●
●
●
●●
●●
● ●
● ●
●
● ●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
200
400
k
600
800
k
In R berechnet man (nk)pk ⋅ (1 − p)n−k mit: dbinom(k, n, p).
Man kann daraus auch die Wahrscheinlichkeit dafür berechnen, dass die Trefferzahl in einem bestimmten Bereich liegt:
ˆ Es gilt
k
n
n,p
Fbinom
(k) = W (höchstens k Treffer) = ∑ ( )pj ⋅ (1 − p)n−j
j=0 j
n,p
Man nennt F = Fbinom
die Verteilungsfunktion der Binomialverteilung:
3
1000
1 Parameterschätzungen und Konfidenzintervalle
n=1000, p=0.06
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.8
●
0.8
●●●●
0.8
●
0.6
●
0.4
●
●
1.0
n=40, p=0.8
●
1.0
1.0
n=10, p=0.4
●
●
●
0.6
●
●
●
F(k)
F(k)
●
0.4
0.4
F(k)
0.6
●
●
●
●
●
●
0.2
0.2
0.2
●
●
●
●
0
2
4
6
8
10
●●●●●●●●●●●●●●●●●●●●●●●●●●
0
10
k
20
●
●
0.0
0.0
0.0
●
●
30
40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
200
400
k
600
800
k
n,p
Man kann Fbinom
(k) in R mit
pbinom(k, n, p)
berechnen.
ˆ Es gilt
n
n
n,p
W (mindestens k Treffer) = ∑ ( )pj ⋅ (1 − p)n−j = 1 − Fbinom
(k − 1)
j
j=k
ˆ Es gilt
m
n
n,p
n,p
W (Trefferzahl zwischen k und m) = ∑ ( )pj ⋅(1−p)n−j = Fbinom
(m)−Fbinom
(k−1)
j
j=k
2.) Schäzung für p
Bisher können wir die Wahrscheinlichkeit dafür berechnen, dass die Trefferzahl
in einem bestimmten Bereich liegt, wenn wir die Trefferwahrscheinlichkeit p
kennen. In der Realität ist man häufig aber mit folgender Situation konfrontiert:
Es sind n und k bekannt, aber nicht p. Wie kann man p sinnvoll schätzen?
Genauer kann man unterscheiden:
n feststehend und bekannt, k zufällig und bekannt, p feststehend aber unbekannt
System mit Parameter p
zufällig
Ð→
Daten k
methodisch
Ð→
Schätzung für p
Maximum-Likelihood-Methode: Die Wahrscheinlichkeit p wird so geschätzt,
dass das die Wahrscheinlichkeit für das beobachtete Ergebnis (k Treffer) maximal ist.
Die Funktion, die jedem p ∈ [0, 1] diese Wahrscheinlichkeit zuordnet ist hier:
n
L = Lk,n ∶ [0, 1] → [0, 1], L(p) = ( )pk ⋅ (1 − p)n−k
k
4
1000
(L steht für Likelihood-Funktion)
Wir suchen also die globale Maximumstelle der Funktion L. Es ergibt sich p =
k
n
(vergleiche Graphen). Eine Schätzung für die unbekannte Wahrscheinlichkeit p
nach der ML-Methode entspricht also der Anzahl der Treffer geteilt durch die
Anzahl der Versuche.
n = 50,
k = 10
n = 400,
n=400,k=250
0.02
W(k Treffer)
0.08
0.06
0.00
0.00
0.02
0.01
0.04
W(k Treffer)
0.10
0.03
0.12
0.04
0.14
n=50,k=10
k = 250
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
p
0.6
0.8
1.0
p
Dabei bleiben aber zunächst offen, wie man die Qualität dieser Schätzung beurteilen kann. Wie sicher ist es, dass der ’wahre Wert’ von p in der Nähe des
geschätzten Werts
k
n
liegt. Kann man diese Sicherheit erhöhen, indem man die
Versuchszahl n erhöht?
Um diese Fragen zu beantworten, muss zunächst das Ergebnis der Schätzung
umformuliert werden: Die Aussage:
Es gilt exakt p =
k
.
n
ist offenbar nicht realistisch. Stattdessen lässt man eine (kleine) Ungenauigkeit
zu und trifft eine Aussage der Form:
Der unbekannte Wert p liegt in einem Intervall der Form [pU , pO ].
Dabei gibt es zunächst verschiedene Möglichkeiten, pU und pO aus den bekannten Gegebenheiten (hier die Trefferzahl k) zu schätzen.
ˆ Symmetrisch um den Schätzwert: pU =
k
n
ˆ Unsymmetrisch um den Schätzwert: pU =
ˆ Nach oben offen: pU =
k
n
− ε und pO =
k
n
k
n
+ ε.
− ε1 und pO =
k
n
+ ε2 .
− ε und pO = 1.
ˆ Nach unten offen: pU = 0 und pO =
k
n
+ ε.
Die Schätzung soll dabei ein gewisses Maß an Sicherheit bieten, d.h. falls p der
(wahre) unbekannte Parameter ist, so soll die (Intervall-)Schätzung [pU , pO ]
5
1 Parameterschätzungen und Konfidenzintervalle
diesen Wert p mit einer Wahrscheinlichkeit von mindestens δ enthalten. Die
Zahl δ nennt man Vertrauensniveau oder Konfidenzniveau, übliche Werte
für δ sind δ = 0.9 oder δ = 0.95.
Ziel: Gib eine Methode an, mit der man aus k ein Intervall [pU , pO ] bestimmen
kann, so dass die Wahrscheinlichkeit, dass p zu einem Intervall [pU , pO ] führt,
das p enthält, auf jeden Fall (also für jeden denkbaren Wert von p) größer als
δ ist.
System mit Parameter p
zufällig
Ð→
Daten k
methodisch
Ð→
(Intervall-)Schätzung für p
Für jeden möglichen Wert von p: W (k führt zu einer Schätzung, die p enthält) ≥ δ
Eine sinnvolle Möglichkeit ist die Intervallschätzung nach Clopper-Pearson:
Bei k Treffern aus n Versuchen bestimmt man pU und pO aus den Gleichungen
n
n
1−δ
j
n−j
=
∑ ( )pU ⋅ (1 − pU )
j
2
j=k
k
n
1−δ
j
n−j
=
∑ ( )pO ⋅ (1 − pO )
2
j=0 j
Äquivalente Gleichungen sind
k−1
1+δ
n
j
n−j
=
∑ ( )pU ⋅ (1 − pU )
2
j
j=0
und
n
1+δ
n
j
n−j
=
∑ ( )pO ⋅ (1 − pO )
j
2
j=k+1
(Sonderfall: Für k = 0 setze pU = 0, für k = n setze pO = 1.)
k
Der Ausdruck ∑ (nj)pO j ⋅ (1 − pO )n−j gibt die Wahrscheinlichkeit für höchstens
j=0
k Treffer an, wenn die Trefferwahrscheinlichkeit pO ist. Man berechnet ihn in
R mit:
pbinom(k, n, pO )
n
Der Ausdruck ∑ (nj)pU j ⋅(1−pU )n−j gibt die Wahrscheinlichkeit für mindestens
j=k
k Treffer an, wenn die Trefferwahrscheinlichkeit pU ist. Man berechnet ihn in
R mit:
1 − pbinom(k − 1, n, pU )
Die Grenzen pU und pO des geschätzten Intervalls sind bei dieser Methode
so gewählt, dass die Wahrscheinlichkeiten für eine Unterschätzung und eine
Überschätzung von p durch dieselbe Grenze beschränkt sind. Genauer gilt
W (p ist größer als pO ) ≤
1−δ
2
und W (p ist kleiner als pU ) ≤
1−δ
2
Zusammen ergibt sich damit
W (p liegt außerhalb von [pU , pO ]) ≤ 1−δ
6
und folglich
W (p liegt innerhalb von [pU , pO ]) ≥ δ
Die Bestimmungsgleichungen für pU und pO sind nicht einfach lösbar.
Beispiel:
Wir führen eine Intervallschätzungen nach Clopper-Pearson zu den Konfidenzniveaus δ = 0.8 und δ = 0.6 mit der Versuchszahl n = 5 durch und erhalten in
Abhängigkeit von k die folgenden Intervallschätzungen:
k
0
1
2
3
4
5
ML-Schätzer p ≈
0
0.2
0.4
0.6
0.8
1
δ = 0.8,
p∈
[0, 0.370] [0.020, 0.584] [0.112, 0.754] [0.246, 0.888] [0.416, 0.980] [0.630, 1]
δ = 0.6,
p∈
[0, 0.275] [0.043, 0.491] [0.168, 0.674] [0.326, 0.832] [0.509, 0.957] [0.724, 1]
Wir berechnen für verschiedene denkbare Werte von p, die Wahrscheinlichkeit
für die ’Korrektheit’ unserer Schätzung.
ˆ δ = 0.8 und p = 0.7 ⇒ Schätzung korrekt für k = 2, 3, 4, 5. Wahrscheinlich-
keit:
10(0.7)2 (1−0, 7)3 +10(0.7)3 (1−0, 7)2 +5(0.7)4 (1−0, 7)1 +(0.7)5 ≈ 0.969 ≥ 0.8
ˆ δ = 0.8 und p = 0.4 ⇒ Schätzung korrekt für k = 1, 2, 3. Wahrscheinlichkeit:
5(0.4)(1 − 0.4)4 + 10(0.4)2 (1 − 0.4)3 + 10(0.4)3 (1 − 0.4)2 ≈ 0.835 ≥ 0.8
ˆ δ = 0.6 und p = 0.7 ⇒ Schätzung korrekt für k = 3, 4. Wahrscheinlichkeit:
10(0.7)3 (1 − 0, 7)2 + 5(0.7)4 (1 − 0, 7)1 ≈ 0.669 ≥ 0.6
ˆ δ = 0.6 und p = 0.4 ⇒ Schätzung korrekt für k = 1, 2, 3. Wahrscheinlichkeit:
5(0.4)(1 − 0.4)4 + 10(0.4)2 (1 − 0.4)3 + 10(0.4)3 (1 − 0.4)2 ≈ 0.835 ≥ 0.6
Das mathematische Modell garantiert, dass die Schätzung bei beliebigem p
immer mindestens mit der Wahrscheinlichkeit δ korrekt ist.
Schon an diesem Beispiel merkt man, dass die Berechnung der Intervallgrenzen
sehr aufwändig und ohne technische Hilfsmittel kaum durchführbar ist. Bei
hohen Werten von n und k ist eine exakte Berechnung völlig unmöglich.
Beispiel:
Für n = 100 und k = 71 ergeben sich die Intervallgrenzen als Lösungen der
Gleichung
1 − δ 100 100
= ∑ (
)pU j ⋅ (1 − pU )100−j
2
j
j=71
und
1 − δ 71 100
= ∑ ( )pO j ⋅ (1 − pO )100−j
2
j
j=0
Hierbei wären also Polynome vom Grad n = 100 aufzulösen.
7
1 Parameterschätzungen und Konfidenzintervalle
Ist n groß genug, so kann man die auftretenden Terme aber sehr gut mit Hilfe
der sogenannten Standardnormalverteilung
x
1 2
1
Φ(x) = √ ∫ e− 2 t dt
2π −∞
(x ∈ R)
approximieren. Es gilt:
k
n j
n−j
∑ ( )p ⋅ (1 − p)
j
j=0
⎛ k + 0.5 − np ⎞
≈ Φ √
⎝ np(1 − p) ⎠
n
n j
n−j
∑ ( )p ⋅ (1 − p)
j=k j
⎛ k − 0.5 − np ⎞
≈ 1−Φ √
⎝ np(1 − p) ⎠
Das Integral ist nicht geschlossen lösbar, die Werte Φ(x) sind aber bekannt. In
R berechnet man Φ(x) mit: pnorm(x).
(Wir werden uns im Zusammenhang mit normalverteilten Größen eingehender mit
dieser Funktion befassen.)
In obigem Beispiel (n = 100 und k = 71) ergibt sich also für δ = 0.95:
100
⎛ 71 − 0.5 − 100pU ⎞
100
0.025 = ∑ ( )pU j ⋅ (1 − pU )100−j ≈ 1 − Φ √
j
⎝ 100pU (1 − pU ) ⎠
j=71
In R findet man die Zahl x mit Φ(x) = y durch: qnorm(y). Damit erhält man:
⎛ 71 − 0.5 − 100pU ⎞
0.975 ≈ Φ √
⎝ 100pU (1 − pU ) ⎠
⇒
71 − 0.5 − 100pU
√
≈ 1.96
100pU (1 − pU )
⇒
pU ≈ 0.609
Weiter ist:
71
0.025 = ∑ (
j=0
⎛ 71 + 0.5 − 100pO ⎞
100
)pO j ⋅ (1 − pO )100−j ≈ Φ √
j
⎝ 100pO (1 − pO ) ⎠
Damit ergibt sich:
71 + 0.5 − 100pO
√
≈ −1.96
100pO (1 − pO )
⇒
pO ≈ 0.795
Damit ergibt sich das Konfidenzintervall [0.609, 0.795] zum Vertrauensniveau
0.95 bei 71 Treffern unter 100 Versuchen nach der Methode von ClopperPearson.
Konfidenzintervalle können auch in R direkt berechnet werden. Der Befehl
binom.test(k, n, conf.level = δ)$conf.int[1:2]
ergibt eine nach obiger Methode berechnetes Konfidenzintervall zum Vertrauensniveau δ bei k von n Treffern.
8
Konfidenzintervalle im Vergleich
k/n
3/10
30/100
300/1000
3000/10000
30000/100000
0.6
[0.157, 0.484]
[0.258, 0.346]
[0.287, 0.313]
[0.296, 0.304]
[0.298, 0.302]
0.8
[0.115, 0.552]
[0.239, 0.367]
[0.281, 0.320]
[0.294, 0.306]
[0.298, 0.302]
0.9
[0.087, 0.607]
[0.224, 0.385]
[0.276, 0.325]
[0.292, 0.308]
[0.297, 0.303]
0.95
[0.066, 0.653]
[0.212, 0.400]
[0.271, 0.330]
[0.291, 0.310]
[0.297, 0.303]
0.99
[0.037, 0.735]
[0.189, 0.431]
[0.263, 0.339]
[0.288, 0.312]
[0.296, 0.304]
δ
Die Intervalle werden bei wachsender Versuchszahl kleiner und bei höherem
Konfidenzniveau größer. Man beachte die Größenordnungen dieser Veränderungen.
Modifikation der Methode: einseitig begrenzte Konfidenzintervalle
ˆ Bei k Treffern aus n Versuchen bestimmt man das linksseitig begrenzte
Konfidenzintervall [pU , 1] zum Vertrauensniveau δ durch
n
n
j
n−j
=1−δ
∑ ( )pU ⋅ (1 − pU )
j=k j
(Sonderfall: Für k = 0 setze pU = 0.)
ˆ Bei k Treffern aus n Versuchen bestimmt man das rechtsseitig begrenz-
te Konfidenzintervall [0, pO ] zum Vertrauensniveau δ durch
k
n
j
n−j
=1−δ
∑ ( )pO ⋅ (1 − pO )
j=0 j
(Sonderfall: Für k = n setze pO = 1.)
Linksseitig begrenzte Konfidenzintervalle dürfen den Wert von p mit einer
Wahrscheinlichkeit von bis zu 1 − δ überschätzen (statt
1−δ
2
wie bei den zweisei-
tigen Intervallschätzungen). Um dies auszugleichen, unterschätzen sie den Wert
von p nie (die obere Grenze ist 1). Die untere Grenze kann daher im Vergleich
zum zweiseitigen Test etwas besser (größer) gewählt werden.
9
1 Parameterschätzungen und Konfidenzintervalle
Rechtsseitig begrenzte Konfidenzintervalle dürfen den Wert von p mit einer
Wahrscheinlichkeit von bis zu 1−δ unterschätzen (statt
1−δ
2
wie bei den zweisei-
tigen Intervallschätzungen). Um dies auszugleichen, überschätzen sie den Wert
von p nie (die untere Grenze ist 0). Die obere Grenze kann daher im Vergleich
zum zweiseitigen Test etwas besser (kleiner) gewählt werden.
In R berechnet man einseitige Konfidenzintervalle nach Clopper-Pearson mit
binom.test(k, n, conf.level = δ, alternative=“greater“)$conf.int[1:2]
binom.test(k, n, conf.level = δ, alternative=“less “)$conf.int[1:2]
(linksseitig begrenzt)
(rechtsseitig begrenzt)
Konfidenzintervalle im Vergleich
k = 112,
δ
n = 200
0.8
beidseitig begrenzt
0.9
0.95
[0.512, 0.607] [0.499, 0.620] [0.488, 0.630]
linksseitig begrenzt
[0.527, 1]
[0.512, 1]
[0.499, 1]
rechtsseitig begrenzt
[0, 0.591]
[0, 0.607]
[0, 0.620]
Allgemein bestimmt man aus den Gleichungen
n
n
j
n−j
= αU
∑ ( )pU ⋅ (1 − pU )
j
j=k
k
n
j
n−j
= αO
∑ ( )pO ⋅ (1 − pO )
j
j=0
die Grenzen einer Intervallschätzung [pU , pO ], die den Wert von p mit einer
Wahrscheinlichkeit von höchstens αU überschätzt und mit einer Wahrscheinlichkeit von höchstens αO unterschätzt. Das heißt, es gilt
W (p liegt unterhalb von pU ) ≤ αU
und W (p liegt oberhalb von pO ) ≤ αO
Man kann also αU und αO in beliebiger Weise so festlegen, dass αU + αO = 1 − δ
gilt und dann pU und PO daraus bestimmen.
Für δ = 0.9 hat man zum Beispiel folgende Möglichkeiten:
αU = 0.05
10
,
αO = 0.05
W (p < pU )
W (p > pO )
W (p ∉ [pU , pO ])
W (p ∈ [pU , pO ])
zweiseitig, αU = αO
≤ 0.05
≤ 0.05
≤ 0.1
≥ 0.9
αU = 0.1
,
αO = 0
linksseitig begrenzt
≤ 0.1
0
≤ 0.1
≥ 0.9
αU = 0
,
αO = 0.1
rechtsseitig begrenzt
0
≤ 0.1
≤ 0.1
≥ 0.9
αU = 0.08
,
αO = 0.02
zweiseitig, αU =/ αO
≤ 0.08
≤ 0.02
≤ 0.1
≥ 0.9
αU = 0.03
,
αO = 0.07
zweiseitig, αU =/ αO
≤ 0.03
≤ 0.07
≤ 0.1
≥ 0.9
Hypergeometrische Verteilung
1.) Einführung der Verteilung
Allgemeine Formulierung: Von N Objekten sind K Objekte durch eine bestimmte Eigenschaft ausgezeichnet, dann wählt man zufällig n Objekte aus den
N Objekten und bestimmt die Anzahl k der ausgezeichneten Objekte unter den
Gezogenen.
Die Zahlen n, K sind feststehend und bekannt. Die Zahl N ist feststehend aber
unbekannt und k ist zufällig aber (nach der Durchführung) bekannt.
Situtation: N, K, n bekannt
Wie hoch ist die Wahrscheinlichkeit dafür, das sich genau k ausgezeichnete
Objekte unter den Gezogenen befinden. Die Antwort ist:
W (k ausgezeichnete Objekte unter den Gezogenen) =
−K
(K
) ⋅ (Nn−k
)
k
(N
)
n
Man sagt: Die Anzahl der ausgezeichneten Objekte unter den Gezogenen ist
hypergeometrisch verteilt.
●
●
●
●
●
●
●
0.12
0.30
N=1000,K=900,n=100
0.14
N=500,K=100,n=50
0.15
0.35
N=100,K=20,n=8
●
●
●
●
●
2
4
6
●
0.00
0.00
0
●
●
8
●●●
0
k
●
10
0.10
0.08
●
0.00
●
●
●
●
●
0.02
●
●
●
●
●
●
0.06
●
●
0.04
W(k ausgezeichnete Objekte)
0.10
●
0.05
W(k ausgezeichnete Objekte)
0.25
0.20
●
0.10
0.15
●
0.05
W(k ausgezeichnete Objekte)
●
● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
20
30
40
50
●
0
20
40
60
k
In R bestimmt man obige Wahrscheinlichkeit
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●●●
80
100
k
−K
(K
)⋅(N
)
k
n−k
(N
)
n
durch
dhyper(k, K, N − K, n)
Die Wahrscheinlichkeit für mindestens k ausgezeichnete Objekte
k
−K
)
(Kj ) ⋅ (Nn−j
j=0
(N
)
n
N,K,n
Fhyper
(k) = W (mindestens k ausgezeichnete Objekte unter den Gezogenen) = ∑
N,K,n
berechnet man mit der Verteilungsfunktion Fhyper
der hypergeometrischen
Verteilung. Damit ergibt sich:
n
−K
)
(Kj ) ⋅ (Nn−j
j=k
(N
)
n
W (höchstens k ausgezeichnete Objekte unter den Gezogenen) = ∑
N,K,n
= 1−Fhyper
(k−1)
und
m
−K
(Kj ) ⋅ (Nn−j
)
j=k
(N
)
n
W (zwischen k und m ausgez. Objekte unter den Gez.) = ∑
N,K,n
N,K,n
= Fhyper
(m)−Fhyper
(k−1)
11
1 Parameterschätzungen und Konfidenzintervalle
N,K,n
Den Wert Fhyper
(k) berechnet man in R durch
phyper(k, K, N − K, n)
2.) Schätzung von K
Beispiel:
Von N = 1000 Glübirnen einer Lieferung sind eine unbekannte Anzahl K defekt.
Man testet n = 15 zufällig ausgewählte Birnen und stellt fest, dass k = 2 davon
defekt sind.
Wie kann man daraus auf die Zahl K schließen?
System mit Parameter K
zufällig
Ð→
methodisch
Ð→
Daten k
Schätzung für K
Situation: N, n feststehend und bekannt, k zufällig aber bekannt, K feststehend aber unbekannt
Lk (K) =
Likelihood-Funktion
●
●●
2
●
●
●
6
8
10
●
●
●
●
●
●●●●●●●●●●●●●●●●●●●●●●●●●
0
20
●
●
●
●●
●●●●●●●●●●●●●●●●●●●●●●●●
40
60
0.15
0.20
●
●
●
0.10
●
●
K
W(k ausgezeichnete Objekte)
0.15
0.10
●
0.00
●
●
●
0.00
0.0
●
4
●
●
●
0
●
●
●
●
●
●
●
0.05
W(k ausgezeichnete Objekte)
0.4
0.3
0.2
●
0.1
W(k ausgezeichnete Objekte)
0.5
●
●
●
●
N=1000,n=25,k=3
0.25
N=80,n=30,k=15
●
●
(N
)
n
0.05
N=10,n=5,k=4
−K
(K
) ⋅ (Nn−k
)
k
80
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
200
400
K
Man stellt fest: Lk (K) wird für K ≈
600
800
1000
K
k⋅(N +1)
n
maximal. Genau genommen wird
Lk (N ) maximal für
⎧
k⋅(N +1)
⎪
− 1 und K = k⋅(Nn+1)
⎪ K=
n
⎨
k⋅(N
+1)
⎪
⎪
⎩ K = ⌊ n ⌋ (die größte natürliche Zahl, die kleiner als
k⋅(N +1)
n
ist)
,
falls
,
falls
k⋅(N +1)
n
k⋅(N +1)
n
⎫
∈ N ist. ⎪
⎪
⎬
⎪
∉ N ist. ⎪
⎭
Schätzung für K mit der Maximum-Likelihood-Methode: K ≈ ⌊ k⋅(Nn+1) ⌋
⌋ = 133)
(also in obigem Beispiel K ≈ ⌊ 2⋅(1000+1)
15
Nun wollen wir ausgehend von k ein Intervall [KU , KO ] schätzen, dass den
wahren Wert von K stets mit einer Wahrscheinlicheit von mindestens δ enthält.
System mit Parameter K
12
zufällig
Ð→
Daten k
methodisch
Ð→
(Intervall-)Schätzung für K
Für jeden möglichen Wert von K: W (k führt zu einer Schätzung, die K enthält) ≥ δ
Eine sinnvolle Möglichkeit ist die folgende: Man bestimmt KU als die kleinstmögliche
Zahl mit
k−1
−KU
(KjU ) ⋅ (Nn−j
)
j=0
(N
)
n
phyper(k − 1, KU , N − KU , n) = ∑
<
1+δ
2
ist und KO als die größtmögliche Zahl, für die
k
−KO
(KjO ) ⋅ (Nn−j
)
j=0
(N
)
n
phyper(k, KO , N − KO , n) = ∑
>
1−δ
2
ist. Dann ist die zu erreichende Bedingung
W (K ∈ [KU , KO ]) ≥ δ
garantiert.
In obigem Beispiel (n = 1000, n = 15, k = 2) führen wir eine Intervallschätzung
zum Niveau δ = 0.95 durch. Wir suchen also zunächst die kleinstmögliche Zahl
KU mit
phyper(1, KU , 1000 − KU , 15) < 0.975
Um KU zu bestimmen plotten wir phyper(1 − 1, KU , 1000 − KU , 15) gegen KU
0
200
400
600
800
1000
Ku
●
1.00
0.980
●
●
●
0.98
● ● ● ● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.94
●
●
●
●
●
●
●
●
●
0.975
phyper(1, Ku, 1000 − Ku, 15)
●
●
●
0.970
0.96
●
0.92
phyper(1, Ku, 1000 − Ku, 15)
●
●
●
0.90
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.88
0.6
0.4
0.0
0.2
phyper(1, Ku, 1000 − Ku, 15)
0.8
1.0
und erhalten:
●
0
10
20
30
40
Ku
●
15
16
17
18
19
Ku
Damit ergibt sich KU = 17.
Analog suchen wir die größtmögliche Zahl, für die
phyper(2, KO , 1000 − KO , 15) > 0.025
gilt. Mithilfe der Plots
13
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
200
400
600
800
●
●
0.0260
0.030
●
●
●
●
●
●
0.026
●
●
●
●
●
●
●
0.0245
●
0.0255
●
0.0250
phyper(2, Ko, 1000 − Ko, 15)
0.028
●
0.024
phyper(2, Ko, 1000 − Ko, 15)
●
●
●
●
●
●
1000
0.0240
●
0.022
0.6
0.4
0.0
0.2
phyper(2, Ko, 1000 − Ko, 15)
0.8
1.0
1 Parameterschätzungen und Konfidenzintervalle
●
390
395
400
Ko
405
410
●
400
401
402
Ko
403
404
Ko
erkennt man, dass K0 = 402 ist.
Damit ist [17, 402] ein Konfidenzintervall für die Anzahl defekter Glübirnen
zum Vertrauensniveau 0.95.
Es ist natürlich leicht möglich, in R eine Funktion zu schreiben, die auf diese
Art und Weise Konfidenzintervalle berechnet (siehe Übungen).
Um die Bedeutung der Konfidenzintervalle nochmals klarzumachen, betrachten
wir das Beispiel N = 10 und n = 4 (von 10 Objekten werden 4 untersucht). Für
k kommen die Werte 0, . . . , 4 in Frage. Es ergeben sich die folgenden Konfidenzintervalle zum Vertrauensniveau δ = 0.7.
k
0
1
2
3
4
[KU , KO ]
[0, 3]
[1, 5]
[3, 7]
[5, 9]
[7, 10]
ˆ Angenommen die wahre (unbekannte) Zahl der ausgezeichneten Objekte
sei K = 4. Dann ist unsere Intervallschätzung korrekt, falls k ∈ {1, 2} ist.
Die Wahrscheinlichkeit dafür können wir berechnen, es gilt
W (k = 1 oder k = 2) =
(41) ⋅ (63)
(10
)
4
+
(42) ⋅ (62)
(10
)
4
≈ 0.810
ˆ Angenommen die wahre (unbekannte) Zahl der ausgezeichneten Objekte
sei K = 7. Dann ist unsere Intervallschätzung korrekt, falls k ∈ {2, 3, 4} ist.
Die Wahrscheinlichkeit dafür können wir berechnen, es gilt
W (k liegt in {2, 3, 4}) =
(72) ⋅ (32)
(10
)
4
+
(73) ⋅ (31)
(10
)
4
+
(74) ⋅ (30)
(10
)
4
≈ 0.967
Unsere Methode garantiert, dass die Wahrscheinlichkeit einer korrekten Schätzung
auf jeden Fall (also bei jedem denkbaren Wert von K) mindestens 0.7 beträgt.
Anmerkung: Ist N sehr groß (im Vergleich zu n) , so stimmt die hypergeometrische Verteilung mit den Parametern N, K, n näherungsweise mit der Binomialverteilung mit den Parametern n, p =
K
N
überein. Das liegt daran, dass
in diesem Fall, die Ziehung der k Objekte als k (näherungsweise unabhängige)
Ziehungen eines Objektes aufgefasst werden kann mit der jeweiligen Trefferwahrscheinlichkeit (Treffer = Ziehen eines ausgezeichneten Objekts) p ≈
14
K
.
N
405
Folglich gilt für das Konfidenzintervall [KU , KO ] für die Zahl der ausgezeichneten Objekte K (bei k ausgezeichneten Objekten in einer Ziehung von n aus
insgesamt N Objekten) und das Konfidenzintervall [pU , pO ] für die Trefferwahrscheinlichkeit p (bei k Treffern in n Versuchen) zum gleichen Vertrauensniveau
die Näherung
pU ≈
KU
N
und pO ≈
KO
N
(falls N sehr groß ist)
Beispielsweise betrachten wir k = 170 und n = 450 mit dem Konfidenzniveau
δ = 0.8.
ˆ Das Konfidenzintervall für die Trefferwahrscheinlichkeit einer Binomial-
verteilung ergibt
[pU , pO ] = [0.34782, 0.40853]
ˆ Die Konfidenzintervalle für die Zahl der ausgezeichneten Objekte einer
hypergeometrischen Verteilung ergeben sich für verschiedene Werte von
N wie folgt:
N
1000
3000
10000
30000
100000
[KU , KO ]
[356, 400]
[1051, 1218]
[3485, 4078]
[10442, 12249]
[34789, 40847]
[ KNU , KNO ]
[0.356, 0.4]
[0.350, 0.406]
[0.3485, 0.4078]
[0.3481, 0.4083]
[0.34789, 0.40847]
Man sieht: Ist N größer als n, so kann man KU und KO auch mit Hilfe der
(einfacheren) Binomialverteilung ermitteln, für kleinere Werte von N erzielt
man jedoch mit der hypergeometrischen Verteilung deutlich bessere Resultate.
3.) Schätzung von N
Beispiel (Capture-Recapture):
In einem See befindet sich eine unbekannte Anzahl N von Fischen einer Art.
Man möchte wissen, wie groß N in etwa ist. Dazu fängt man eine (kleinere)
Anzahl K von Fischen und markiert sie. Dann setzt man sie wieder aus und
wartet einen angemessenen Zeitraum. Dann fängt man in einem zweiten Fischzug n Fische und bestimmt die Anzahl k der markierten Fische unter ihnen.
Beispielsweise hat man K = 100 Fische markiert und unter n = 50 gefangenen
Fischen k = 14 markierte Fische wiedergefunden.
Wie kann man daraus eine sinnvolle Schätzung für N abgeben ?
System mit Parameter N
zufällig
Ð→
Daten k
methodisch
Ð→
Schätzung für N
Schätzung für N mit der Maximum-Likelihood-Methode: K, n, k gege-
15
1 Parameterschätzungen und Konfidenzintervalle
ben: Bestimme N , so dass WN (k) maximal wird.
Likelihood-Funktion
n = 12,
k=7
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100
150
k=3
0.20
0.15
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.05
0.10
L(N)
n = 12,
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.00
0.20
0.15
L(N)
0.10
0.05
0.00
(N
)
n
K = 30,
●
50
−K
(K
) ⋅ (Nn−k
)
k
0.25
0.25
K = 30,
Lk (N ) (= WN (k)) =
200
50
100
150
k
200
k
Man stellt fest: Lk (N ) wird für N ≈
K⋅n
k
maximal.
Genau genommen wird Lk (N ) maximal für
⎧
K⋅n
⎪
und N = K⋅n
−1
⎪ N= k
k
⎨
K⋅n
⎪
⎪
⎩ N = ⌊ k ⌋ (die größte natürliche Zahl, die kleiner als
K⋅n
k
ist)
,
falls
,
falls
K⋅n
k
K⋅n
k
⎫
⎪
∈ N ist. ⎪
⎬
∉ N ist. ⎪
⎪
⎭
⌋
Schätzung für N mit der Maximum-Likelihood-Methode: N = ⌊ K⋅n
k
In obigem Beispiel erhält man als ML-Schätzung für N :
N ≈⌊
100 ⋅ 50
⌋ = 357
14
Nun wollen wir ausgehend von k ein Intervall [NU , NO ] schätzen, das den wahren Wert von N stets mit einer Wahrscheinlicheit von mindestens δ enthält.
System mit Parameter N
zufällig
Ð→
Daten k
methodisch
Ð→
(Intervall-)Schätzung für N
Für jeden möglichen Wert von N : W (k führt zu einer Schätzung, die N enthält) ≥ δ
Eine sinnvolle Möglichkeit ist die folgende:
Man bestimmt NU als die kleinstmögliche Zahl, für die
k
U −K
(Kj ) ⋅ (Nn−j
)
j=0
(NnU )
phyper(k, K, NU − K, n) = ∑
>
1−δ
2
ist und NO als die größtmögliche Zahl, für die
k−1
O −K
(Kj ) ⋅ (Nn−j
)
j=0
(NnO )
phyper(k − 1, K, NO − K, n) = ∑
16
<
1+δ
2
ist. Dann ist die zu erreichende Bedingung
W (N liegt in [NU , NO ]) ≥ δ
garantiert.
In obigem Beispiel (K = 100, n = 50, k = 14) führen wir eine Intervallschätzung
zum Niveau δ = 0.8 durch. Wir suchen also zunächst die kleinstmögliche Zahl
NU mit
phyper(14, 100, NU − 100, 50) > 0.1
Um NU zu bestimmen plotten wir phyper(14, 100, NU − 100, 50) gegen NU und
200
400
600
800
0.115
0.14
●
●
●
●
0.12
●
●
1000
●● ●●
220
●●
●●
●●
●●
●●
●●
●●
●
●
●
●
●
●
●
phyper(14, 100, NU − 100, 50)
●
●
●
●
●
●
●
●
●
●
0.095
●●● ●●
●
●
0.105
0.10
0.08
0.06
0.04
phyper(14, 100, NU − 100, 50)
●
●
●
●
●
●
●
●
●
230
240
●
0.100
●
●
●
●
●
●
●
0.110
●
0.02
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.00
0.6
0.4
0.0
0.2
phyper(14, 100, NU − 100, 50)
0.8
1.0
erhalten:
250
NU
260
270
280
●
270
271
272
NU
273
274
275
NU
Damit ergibt sich NU = 272.
Analog suchen wir die größtmögliche Zahl, für die
phyper(13, 100, NO − 100, 50) < 0.9
200
400
600
800
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.904
●
●
●
0.902
●
●
●
●
0.900
●
●
●
●
phyper(13, 100, NO − 100, 50)
0.90
0.92
1000
0.88
●
●
●
●
●
●
0.898
phyper(13, 100, NO − 100, 50)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.86
0.6
0.4
0.0
0.2
phyper(13, 100, NO − 100, 50)
0.8
1.0
gilt. Mithilfe der Plots
●
●
●
●
●
●
470
●
480
490
NO
500
NO
510
520
530
497
498
499
500
501
NO
erkennt man, dass N0 = 499 ist.
Wir werden in den Übungen eine Funktion in R schreiben, die auf diese Art
und Weise Konfidenzintervalle berechnet.
Anmerkung: Kann man davon ausgehen, dass N (im Vergleich zu n) sehr
groß ist, so kann man wiederum die Näherung durch die Binomialverteilung benutzen. Man berechnet dann ein Konfidenzintervall [pU , pO ] zur Trefferwahr-
17
502
503
1 Parameterschätzungen und Konfidenzintervalle
scheinlichkeit p einer Binomialverteilung bei k Treffern aus n Versuchen und
berechnet NU und NO aus den Approximationen
pO ≈
18
K
NU
und pU ≈
K
NO
Diskrete und Stetige Verteilungen
Bis zu diesem Zeitpunkt haben wir diskrete Verteilungen untersucht, das heißt,
es kamen nur endlich viele Möglichkeiten für die betrachtete zufällige Größe in
Frage. (Bei der Binomialverteilung können bei n Durchführungen die Trefferzahlen
k = 0, . . . , n auftreten. Bei der hypergeometrischen Verteilung (mit den Parametern
N, K, n) kann k = 0, . . . , min(n, K) gelten.)
Ist X eine zufällige Größe, die nur die Werte aus einer endlichen Menge A annehmen
kann, so muss offenbar gelten:
∑ W (X = a) = 1
a∈A
Man definiert nun
µ = µX
=
∑ a ⋅ W (X = a)
Erwartungswert von X
a∈A
σ 2 = σX 2
=
2
∑ (a − µ) ⋅ W (X = a)
Varianz von X
a∈A
Man bezeichnet die Wurzel aus der Varianz als Standardabweichung σ.
Wir betrachten die folgenden Beispiele, wobei an den mit (∗) versehenen Stellen eine
(längliche) Rechnung notwendig wäre, die wir hier nicht in allgemeinem Rahmen
durchführen wollen.
ˆ X binomialverteilt bei n Versuchen und Trefferwahrscheinlichkeit p:
n
n
n
(∗)
µ = ∑ k ⋅ W (k Treffer) = ∑ k ⋅ ( )pk (1 − p)n−k = n ⋅ p
k
k=0
k=0
und
n
n
n
(∗)
σ 2 = ∑ (k − µ)2 ⋅ W (k Treffer) = ∑ (k − np)2 ⋅ ( )pk (1 − p)n−k = n ⋅ p ⋅ (1 − p)
k
k=0
k=0
ˆ X hypergeometrisch verteilt bei N Objekten, K Ausgezeichneten und n Ge-
zogenen:
n
n
−K
(K
)(Nn−k
)
k
k=0
(N
)
n
µ = ∑ k ⋅ W (k ausgez. Gezogene) = ∑ k ⋅
k=0
(∗)
= n⋅
K
N
und
N −K
n ⋅ K 2 ( k )( n−k ) (∗) K
K N −n
σ = ∑ (k−µ) ⋅W (k Treffer) = ∑ (k −
) ⋅
= n⋅ ⋅(1 − )⋅
N
N
N
N N −1
(n)
k=0
k=0
2
n
2
n
K
Um zufällige Größen zu beschreiben, bei denen beliebige reelle Zahlen als Werte
auftreten können sind, benötigt man sogenannte stetige Verteilungen. Sie können
mit Hilfe ihrer sogenannten Dichtefunktion (oder Wahrscheinlichkeitsdichte)
19
1 Parameterschätzungen und Konfidenzintervalle
beschrieben werden:
Eine (Wahrscheinlichkeits-)Dichtefunktion f ∶ R → [0, ∞) ist eine (stetige) Funktion
∞
mit ∫ f (t)dt = 1. Eine zufällige Größe X, deren Werte beliebige reelle Zahlen sein
−∞
können, hat die Dichtefunktion f , falls
b
W (a ≤ X ≤ b) = ∫ f (t)dt
für a, b ∈ R mit a < b
a
gilt. (Die Wahrscheinlichkeit entspricht also der Fläche unter dem Graphen von f
auf dem Intervall [a, b].)
In einem solchen Fall ist die Verteilungsfunktion ein nützliches Hilfsmittel. Sie
ist definiert durch
x
F (x) = ∫ f (t)dt
für x ∈ R
−∞
und hat immer folgende Eigenschaften:
ˆ F ist monoton wachsend
ˆ Es gilt lim F (x) = 0 und lim F (x) = 1.
x→−∞
x→∞
ˆ F ist differenzierbar und es gilt F ′ (x) = f (x).
ˆ Mithilfe der Verteilungsfunktion können Wahrscheinlichkeiten dafür berechnet
werden, dass die Größe X in einen bestimmten Bereich fällt. Es gilt:
x
W (X ≤ b) =
F (b)
= ∫ f (t)dt
−∞
∞
W (a ≤ X) =
1 − F (a)
= ∫ f (t)dt
a
b
W (a ≤ X ≤ b) = F (b) − F (a)
= ∫ f (t)dt
a
Die Wahrscheinlichkeit, dass X in einen Bereich [a, b] fällt ist also größer,
wenn die Dichtefunktion f in diesem Bereich größere Werte annimmt.
Man beachte, dass für stetige Größen gilt:
W (X = a) = 0
für alle a ∈ R
Ist X eine zufällige Größe mit Dichtefunktion f , so nennt man
∞
µ = µX
= ∫ t ⋅ f (t)dt
Erwartungswert von X
−∞
∞
σ 2 = σX 2
2
= ∫ (t − µ) ⋅ f (t)dt
−∞
20
Varianz von X
Man bezeichnet die Wurzel aus der Varianz als Standardabweichung σ.
Verteilungen, die bei in der Umwelt vorkommenden zufälligen Größen als Modelle verwendet werden können, sind zum Beispiel Normalverteilungen und die Exponentialverteilungen, die wir im Folgenden behandeln wollen. Zuvor geben wir
(Punkt-)Schätzungen für µ und σ ab, die im allgemeinen Fall (das heißt bei völlig
unbekannter Verteilungsart) möglich sind.
Punktschätzungen für µ und σ 2
Gegeben ist eine unbekannte Größe X mit Erwartungswert µ und Standardabweichung σ. Beide Werte µ, σ sind fest, aber unbekannt. Zur Verfügung steht eine
Stichprobe von n unabhängigen, unter gleichen Bedingungen erhaltenen Werten X1 , . . . , Xn der Größe X.
System mit unbekannter Verteilung
zufällig
Ð→
methodisch
Ð→
Daten X1 , . . . , Xn
Schätzung für Parameter µ, σ 2 der Verteilung
Folgende Schätzungen für µ und σ 2 sind sinnvoll:
ˆ Der Erwartungswert µ wird geschätzt durch
X=
1 n
⋅ ∑ Xj
n j=1
(empirischer Mittelwert)
ˆ Die Varianz σ 2 wird geschätzt durch
2
n
⎞ ⎞
2
1⎛n
1
1 ⎛n
⎜ ∑ Xj 2 −
s =
⋅ ∑ (Xj − X) =
∑ Xj ⎟
n − 1 j=1
n − 1 ⎝j=1
n ⎝j=1 ⎠ ⎠
2
(empirische Varianz oder korrigierte Stichprobenvarianz)
Diese beiden Schätzungen sind
ˆ erwartungstreu: Das Ergebnis der Schätzung (also X bzw. s2 ) ist zwar vom
Zufall abhängig, ’im Durchschnitt’ wird dabei aber der wahre Wert (also µ
bzw. σ 2 ) geschätzt. Präziser gesagt gilt
µ(X) = µ und µ(s2 ) = σ 2
ˆ konsistent: Ist n sehr groß, so ist die Schätzung nahezu sicher sehr nahe am
wahren Wert. Also
n sehr groß
⇒
X ≈ µ und s2 ≈ σ 2
21
1 Parameterschätzungen und Konfidenzintervalle
In R berechnet man
X mit: mean(x)
und s2 mit: var(x) oder (sd(x))2
Die Frage nach Konfidenzintervallen kann in dieser allgemeinen Situation nicht beantwortet werden. Falls vollkommen unbekannt ist, nach welchen Gesetzmässigkeiten die zufällige Größe X zustande kommt, so kann man die Genauigkeit der
Schätzungen für µ und σ nicht beurteilen. Im den nächsten Abschnitten machen
wir daher zunächst eine Annahme von welcher Art die Verteilung von X ist (z.B.
normalverteilt oder exponentialverteilt) und erhalten dann genauere Aussagen.
Normalverteilte Größen
1.) Einführung der Verteilung
Gegeben seien µ ∈ R und σ > 0. Eine Größe heißt normalverteilt mit EW µ
und SA σ (kurz (µ, σ 2 )-normalverteilt), wenn ihre Dichtefunktion, die GaußFunktion (oder Gaußsche Glockenkurve) ist, die wie folgt definiert ist.
1 t−µ 2
1
) )
fµ,σ (t) = √ ⋅ exp (− (
2
σ
σ 2π
(t ∈ R)
In R berechnet man fµ,σ (t) durch dnorm(t,µ, σ).
Viele in Natur und Umwelt vorkommenden zufälligen Größen besitzen (zumindest näherungsweise) normalverteilt. Der sogenannte Zentrale Grenzwertsatz besagt, dass jede Größe, die sich als Summe vieler unabhängiger Einflüsse ergibt (unter gewissen (zumeist erfüllten) Bedingungen) stets annähernd
normalverteilt ist. Wir geben dazu einige Beispiele:
ˆ Jede binomialverteilte Größe (n Versuche, Trefferwahrscheinlicheit p) ist
annnähernd (np, np(1 − p))-normalverteilt).
ˆ Die Summe der Augenzahlen beim Werfen vieler Würfel ist annähernd
normalverteilt.
ˆ Zeitspannen, die sich aus vielen (unabhängigen) kleinen Einheiten beste-
hen, können als normalverteilt angenommen werden. (Beispiel: Die Zeit,
die ein Kundenberater für 20 telefonische Beratungsgespräche braucht.)
ˆ Zufällig zustandegekommene Messfehler sind oft normalverteilt mit Er-
wartungswert µ = 0 (im Gegensatz zu systematischen Messfehlern).
ˆ Der Ertrag einer Ernte ist abhängig von vielen Einflüssen. Nimmt man
an, dass diese Faktoren unabhängig voneinander einen gewissen Beitrag
zum Ertrag liefern, so kommt man zur Normalverteilungsannahme für den
Ernteertrag.
22
Wir werden später auch Verfahren kennenlernen, mit denen man prüfen kann,
ob eine Normalverteilung vorliegt. Für den Moment nehmen wir aber an, dass
die behandelten Gröën (annähernd) normalverteilt sind.
Man kann nachrechnen, dass µ tatsächlich der Erwartungswert und σ die Standardabweichung einer (µ, σ 2 )-normalverteilten Größe ist, denn es gilt
∞
∞
∫ t ⋅ fµ,σ (t)dt = µ und
−∞
2
2
∫ (t − µ) ⋅ fµ,σ (t)dt = σ
−∞
ˆ Der EW µ entspricht der Maximumstelle von fµ,σ . Daher fallen die Werte
von X eher in einen Bereich in der Nähe des EW, als dass sie in einen
(gleich großen) Bereich fallen, der weit vom EW entfernt ist.
ˆ fµ,σ ist symmetrisch bezüglich des EW µ.
ˆ Ist σ groß, so ist die Kurve fµ,σ breiter, d.h. die Werte von X verteilen
sich weiter um den EW herum. Ist σ klein, so liegen die Werte von X mit
höherer Wahrscheinlichkeit in der Nähe des EW.
Dichte der Normalverteilung mit EW 0 und SA 4
f(t)
0.0
0.02
0.1
0.04
f(t)
0.2
0.06
0.3
0.08
0.4
0.10
Dichte der Normalverteilung mit EW 0 und SA 1
−5
0
5
10
−10
0
5
t
Dichte der Normalverteilung mit EW −5 und SA 1
Dichte der Normalverteilung mit EW 3 und SA 0.5
10
f(t)
0.2
0.4
0.6
0.4
0.3
0.2
0.0
0.0
0.1
f(t)
−5
t
0.8
−10
−10
−5
0
5
10
−10
−5
t
0
5
10
t
Die Verteilungsfunktion kann nicht ohne weiteres direkt berechnet werden. Man
kann sie aber mit Hilfe der Standardnormalverteilung Φ ausdrücken:
Eine (µ, σ 2 )-normalverteilte Größe hat die Verteilungsfunktion
x
Fµ,σ (x) = ∫ fµ,σ (t)dt = Φ (
−∞
x−µ
)
σ
(x ∈ R)
23
1 Parameterschätzungen und Konfidenzintervalle
Folglich gilt
W (X ≤ b) = Φ (
b−µ
),
σ
W (a ≤ X) = 1−Φ (
a−µ
),
σ
W (a ≤ X ≤ b) = Φ (
b−µ
a−µ
)−Φ (
)
σ
σ
Insbesondere gilt F0,1 = Φ, das heißt, die Standardnormalverteilung Φ ist die
Verteilungsfunktion einer (0, 12 )-normalverteilten Größe. Sie hat den Graphen
0.0
0.2
0.4
0.6
0.8
1.0
Standardnormalverteilung
−6
−4
−2
0
2
4
6
t
und erfüllt die Bedingung
Φ(−x) = 1 − Φ(x)
für x ∈ R
Damit folgt für jede (µ, σ 2 )-normalverteilte Größe c, d ∈ [0, ∞] mit c < d
W (µ − d ≤ X ≤ µ − c) = W (µ + c ≤ X ≤ µ + d)
d.h. X fällt mit gleicher Wahrscheinlichkeit in einen Bereich auf einer Seite des
Erwartungswertes wie in den entsprechenden am Erwartungswert gespiegelten
Bereich. Insbesondere gilt:
W (X ≤ µ) = W (X ≥ µ) =
1
2
In R berechnet man Φ(x) durch pnorm(x)=pnorm(x,0,1). Allgemeiner berechnet man Fµ,σ (x) mit pnorm(x,µ, σ).
Für eine normalverteilte Größe X kann man die Wahrscheinlichkeit dafür, dass
X in das Intervall [µ − c, µ + c] fällt, wie folgt mit der Standardnormalverteilung
berechnen:
c
W (X liegt in [µ − c, µ + c]) = 2 ⋅ Φ ( ) − 1
σ
Für c = k ⋅ σ ergeben sich die σ-Regeln:
ˆ W (X ∈ [µ − σ, µ + σ]) ≈ 0.6827
d.h. ca. 68,27% der Werte von X liegen näher als σ beim EW
ˆ W (X ∈ [µ − 2σ, µ + 2σ]) ≈ 0.9545
d.h. ca. 95,45% der Werte von X liegen näher als 2σ beim EW
24
ˆ W (X ∈ [µ − 3σ, µ + 3σ]) ≈ 0.9973
d.h. ca. 99,73% der Werte von X liegen näher als 3σ beim EW
2.) Formulierung des Schätzproblems
Situation: Von einer unbekannten Größe X wird angenommen, dass sie normalverteilt ist. Allerdings sind µ und σ nicht bekannt. Man führt daher n unabhängige Messungen (Stichprobe) für X durch und erhält die Werte X1 , . . . , Xn .
Wie kann man nun µ und σ aus diesen Daten schätzen?
System mit Parametern µ, σ
zufällig
Ð→
Daten X1 , . . . , Xn
methodisch
Ð→
Schätzung für µ, σ
In dieser Situation sind also:
X1 , . . . , Xn zufällig und bekannt,
µ, σ feststehend aber unbekannt
Aus den allgemeinen Überlegungen erhalten wir die folgenden (erwartungstreuen und konsistenten) Punktschätzungen:
Schätzung für µ:
µ≈X =
1
n
n
⋅ ∑ Xi
Schätzung für σ:
i=1
σ 2 ≈ s2 =
1
n−1
n
⋅ ∑ (Xi − X)
i=1
Man beachte, dass auch diese Größen X und s zufällig und bekannt sind (da
sie aus den zufälligen Größen X1 , . . . , Xk berechnet wurden).
3.) Schätzung für µ
Nun stellt sich erneut die Frage nach der Sicherheit dieser Schätzungen. Wir
präzisieren daher das Ziel unser Schätzung und konzentrieren uns dabei zunächst
auf den Mittelwert µ.
Ziel: Gib eine Methode an, wie man ausgehend von den Daten X1 , . . . , Xn eine
Intervallschätzung [µU , µO ] vornehmen kann, so dass für jedes denkbare µ gilt
W (µ liegt in [µU , µO ]) = δ
(Dabei ist δ das Konfidenzniveau. Es würde auch W (. . .) ≥ δ genügen, um das Konfidenzniveau einzuhalten, man erhält mit W (. . .) = δ aber zu gegebenem δ ein möglichst
kleines Intervall.)
Die Schätzung soll dabei symmetrisch sein, d.h. von der Form [X − c, X + c].
Aufgrund der Symmetrie der Normalverteilung sind dann die Wahrscheinlichkeiten für eine Überschätzung (X − c > µ) und eine Überschätzung (X + c < µ)
gleich groß (jeweils
1−δ
).
2
Wir müssen also lediglich c bestimmen. Es stellt sich heraus, dass c nur von
σ, n und δ abhängt.
1. Fall: bekannte Standardabweichung
Wir nehmen an, dass σ bekannt ist. Es ist
µ liegt in [X − c, X + c]
25
2
1 Parameterschätzungen und Konfidenzintervalle
gleichbedeutend mit
X liegt in [µ − c, µ + c] .
Da X normalverteilt mit EW µ und Standardabweichung
√σ
n
ist, können wir
die Wahrscheinlichkeit dafür mit der Standardnormalverteilung berechnen. Es
gilt:
W (µ liegt in [X − c, X + c]) = W (X liegt in [µ − c, µ + c]) = 2 ⋅ Φ (
Folglich: W (µ liegt in [X − c, X + c]) = δ
⇔
⇔
Also ist c = λδ ⋅
√σ ,
n
√
c n
)−1
σ
√
c n
)−1=δ
σ
√
c n
1+δ
Φ(
)=
σ
2
2 ⋅ Φ(
wobei λδ die Zahl mit Φ (λδ ) =
1+δ
2
ist.
Die Werte für λδ können direkt berechnet werden, zum Beispiel:
δ
0.8
0.9
0.95
0.99
λδ
1.282
1.645
1.960
2.576
Man erhält also das Konfidenzintervall zum Vertrauensniveau δ durch:
[X − c, X + c]
mit
c = λδ ⋅
√σ
n
2. Fall: unbekannte Standardabweichung
Normalerweise ist σ (wenn µ zu schätzen ist) nicht bekannt. Man hat nun
mehrere Möglichkeiten, die Methode aus dem 1.Fall zu variieren.
(a) Ersetze σ durch s
Man erhält das Konfidenzintervall zum Vertrauensniveau δ dann durch:
[X − c, X + c]
√
(wobei s =
1
n−1
n
mit
c = λδ ⋅
√s
n
2
⋅ ∑ (Xi − X) die empirische Standardabweichung (s.o) ist )
i=1
Dies ist allerdings mathematisch nicht exakt. Durch die zusätzliche Ungewissheit, die entsteht, wenn man die ’wahre’ Standardabweichung durch die empirische ersetzt, kann nicht garantiert werden, dass das Konfidenzniveau eingehalten wird.
Aber: Falls n groß ist, so kann man erwarten, dass die Annäherung σ ≈ s mit
hoher Wahrscheinlichkeit sehr genau ist und dass sich dass Konfidenzintervall
nicht wesentlich ändert, wenn man σ durch s ersetzt. Für praktische Zwecke
ist dies ausreichend genau, wenn n groß genug ist (wir versuchen dies unten zu
quantifizieren).
26
(b) Benutze die t-Verteilung:
Die Bedingung
µ liegt in [X − c, X + c]
ist gleichbedeutend mit
√
√
√ X −µ
c n c n
n⋅
liegt in [−
,
]
s
s
s
Im ersten Fall hatten wir analog dazu die Bedingung
√
n⋅
√
√
X −µ
c n c n
liegt in [−
,
]
σ
σ
σ
und konnten ausnutzen, dass die Größe
√
Die Größe n ⋅
X−µ
s
√
n⋅
X−µ
σ
standardnormalverteilt ist.
ist hingegen nicht normalverteilt, sondern nach der soge-
nannten t-Verteilung mit n − 1 Freiheitsgraden verteilt. Wir können hier
nicht auf Details eingehen, sondern betrachten lediglich den Graphen der Dichte
dieser Verteilung im Vergleich zur Gauß-Funktion und der Verteilungsfunktion
im Vergleich zur Standardnormalverteilung.
Gauß-Funktion f0,1 (rot) und die Dichtefunktion der t-Verteilung (blau) zum Freiheitsgrad n − 1
−4
−2
0
2
4
0.3
0.0
0.1
0.2
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
n = 101
0.4
n = 11
0.4
n=5
−4
−2
0
2
4
−4
−2
0
2
4
Standardnormalverteilung Φ (rot) und die t-Verteilung Tn−1 (blau) zum Freiheitsgrad n − 1
−4
−2
0
2
4
0.8
0.0
0.2
0.4
0.6
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
n = 101
1.0
n = 11
1.0
n=5
−4
−2
0
2
4
−4
−2
0
Man sieht, dass die t-Verteilung sich mit wachsendem n immer mehr der Standardnormalverteilung annähert.
27
2
4
1 Parameterschätzungen und Konfidenzintervalle
Die gesuchte Wahrscheinlichkeit wird nun nicht mit der Verteilung Φ berechnet,
sondern mit Tn−1 . Analog zum ersten Fall ergibt sich
√
√
√ X −µ
c n c n
W (µ liegt in [X − c, X + c]) = W ( n ⋅
liegt in [−
,
])
s
s
s
√
c n
= 2Tn−1 (
)−1
s
Diese Wahrscheinlichkeit hat den Wert δ für:
s
c = λn−1,δ ⋅ √
n
wobei λ(n−1,δ) die Zahl mit Tn−1 (λ(n−1,δ) ) =
1+δ
ist
2
Man erhält das Konfidenzintervall zum Vertrauensniveau δ also durch:
[X − c, X + c]
mit
c = λ(n−1,δ) ⋅
√s
n
In R berechnet man Tk (x) mit pt(x, k) und die Zahl x mit Tk (x) = y mit
, n − 1).
qt(y, k). Also erhält man λ(n−1,δ) durch qt( 1+δ
2
Werte der λn−1,δ im Vergleich mit λδ
δ
0.8
0.9
0.95
0.99
n=4
λ(4−1,δ)
1.638
2.354
3.183 5.841
n=8
λ(8−1,δ)
1.415
1.895
2.365 3.500
n = 15
λ(15−1,δ)
1.346
1.762
2.145 2.977
n = 30
λ(30−1,δ)
1.312
1.700
2.046 2.757
n = 100
λ(100−1,δ)
1.291
1.661
1.985 2.627
n = 500
λ(500−1,δ)
1.284
1.648
1.965 2.586
normalverteilt
λδ
1.282
1.645
1.960 2.576
Man sieht:
ˆ Es gilt immer λ(n−1,δ) > λδ . Damit werden die Konfidenzintervalle etwas
größer, wenn man zur Berechnung die empirische Standardabweichung s
und die t-Verteilung (anstatt der wahren Standardabweichung σ und der
Normalverteilung) benutzt.
ˆ Die Unterschiede zwischen beiden Werten werden geringer, je größer n ist.
ˆ Die Unterschiede zwischen beiden Werten werden größer, je größer δ ist.
Konfidenzintervalle für µ können in R direkt (unter Benutzung der t-Verteilung)
berechnet werden. Der Befehl
t.test(x, conf.level = δ)$conf.int[1:2]
ergibt eine nach obiger Methode berechnetes Konfidenzintervall zum Vertrauensniveau δ zum Datenvektor x.
28
4.) Schätzung für σ
Ziel: Gib eine Methode an, wie man ausgehend von den Daten X1 , . . . , Xn eine
Intervallschätzung [σU , σO ] vornehmen kann, so dass für jedes denkbare σ gilt
W (σ liegt in [σU , σO ]) = δ
(Dabei ist δ das Konfidenzniveau. Es würde auch W (. . .) ≥ δ genügen, um das Konfidenzniveau einzuhalten, man erhält mit W (. . .) = δ aber zu gegebenem δ ein möglichst
kleines Intervall.)
Wir betrachten dazu die empirische Standardabweichung:
¿
n
Á 1
2
À
⋅ ∑ (Xi − X)
s=Á
n − 1 i=1
Es gilt
σ liegt in [σU , σO ] ⇔ σU ≤ σ ≤ σO
(n − 1)s2 (n − 1)s2 (n − 1)s2
≥
≥
⇔
σU 2
σ2
σO 2
2
(n − 1)s
(n − 1)s2 (n − 1)s2
⇔
liegt in [
,
]
2
σ
σO 2
σU 2
Die (Prüf-)Größe
(n−1)s2
σ2
ist nach der sogenannten χ2 -Verteilung mit n − 1 Frei-
heitsgraden verteilt. Auch hier verzichten wir auf die Details und betrachten
lediglich die Graphen der Dichte dieser Verteilung und ihrer Verteilungsfunktion.
Chi−Quadrat−Verteilungsfunktionen
0.0
0.0
0.1
0.2
0.2
0.4
0.3
0.6
0.4
0.8
0.5
1.0
Dichten der Chi−Quadrat−Verteilung
0
5
10
15
20
Freiheitsgrade n−1= 2(blau),4(rot),10(gelb),20(grün)
0
5
10
15
20
Freiheitsgrade n−1= 2(blau),4(rot),10(gelb),20(grün)
Wir bezeichnen die Verteilungsfunktion der χ2 -Verteilung zum Freiheitsgrad k
mit Sk . Damit hat also
(n−1)S 2
σ2
die Verteilungsfunktion Sn−1 und es folgt
29
1 Parameterschätzungen und Konfidenzintervalle
W (σ liegt in [σU , σO ])
= W(
(n − 1)s2
(n − 1)s2 (n − 1)s2
liegt in [
,
])
2
σ
σO 2
σU 2
= Sn−1 (
(n − 1)s2
(n − 1)s2
)
−
S
(
)
n−1
σU 2
σO 2
Man bestimmt nun σU und σO , so dass
Sn−1 (
(n − 1)s2
1+δ
)=
σU 2
2
und Sn−1 (
(n − 1)s2
1−δ
)=
σO 2
2
ist. Dann ergibt sich (wie gewünscht)
W (σ liegt in [σU , σO ]) =
1+δ 1−δ
−
=δ
2
2
In R berechnet man Sk (x) mit pchisq(x, k) und die Zahl x mit Sk (x) = y mit
qchisq(y, k).
30
Exponentialverteilung
1.) Einführung der Verteilung
Gegeben sei λ > 0. Eine Größe heißt exponentialverteilt zum Parameter λ
(kurz: λ-exponentialverteilt), wenn sie die Dichtefunktion
⎧
⎪
⎪ λ ⋅ exp (−λ ⋅ t) , falls t ≥ 0
fλ (t) = ⎨
⎪
0
, falls t < 0
⎪
⎩
hat. Eine solche Größe kann also nur positive Werte annehmen.
0.5
1.0
1.5
2.0
Dichte der Exponentialverteilung zu LAMBDA=2
0.0
0.0
0.5
1.0
1.5
2.0
Dichte der Exponentialverteilung zu LAMBDA=1
−5
0
5
10
−5
0
5
10
Dichte der Exponentialverteilung zu LAMBDA=2/3
Dichte der Exponentialverteilung zu LAMBDA=1/3
1.5
1.0
0.5
0.0
0.0
0.5
1.0
1.5
2.0
t
2.0
t
−5
0
5
10
−5
t
0
5
10
t
In R berechnet man fλ (t) durch dexp(t,λ).
Exponentialverteilte Größen X werden als Modell vorrangig bei der Beantwortung der Frage nach der Dauer von zufälligen Zeiträumen benutzt, wenn
folgende Bedingung gilt:
Die Wahrscheinlichkeit, dass X im Bereich [0, t] liegt ist genausogroß, wie die
Wahrscheinlichkeit, dass X im Bereich [t0 , t0 + t] liegt, wenn schon bekannt ist,
dass X ≥ t0 ist.
W (X liegt in [0, t])
=
W (X liegt in [t0 , t0 + t])
W (X ≥ t0 )
= W (X liegt in [t0 , t0 + t] ∣ X ≥ t0 )
Dies ist zum Beispiel der Fall, wenn X die Zeit angibt, bis ein bestimmtes
31
1 Parameterschätzungen und Konfidenzintervalle
zufälliges Ereignis eintritt und sich die Wahrscheinlichkeit für ein zukünftiges
Eintreten nicht ändert, wenn das Ereignis eine Zeitlang nicht eingetreten ist.
Der Parameter λ gibt dabei die Rate an, mit der das Ereignis eintritt, man
nennt λ zum Beispiel Ausfallrate, wenn das betreffende Ereignis, der Ausfall
eines Objekts ist.
Die durchschnittliche Zeit bis zum Eintreten des Ereignisses (= Erwartungswert
von X) ergibt sich dabei als
1
,
λ
das heißt je kleiner λ ist, desto wahrscheinlicher
ist ein größerer Wert für X. Genauer gesagt gilt
µX = ∫
∞
−∞
t ⋅ fλ (t)dt = ∫
∞
0
(∗)
t ⋅ λ ⋅ exp (−λ ⋅ t) =
1
λ
und
σX 2 = ∫
∞
−∞
∞
1 2
1 2
(∗) 1
(t − ) ⋅ λ ⋅ exp (−λ ⋅ t) =
) ⋅ fλ (t)dt = ∫
λ
λ
λ
0
(t −
(An den mit (∗) versehenen Stellen ist eine kleine Rechnung notwendig.)
Beispiele für exponentialverteilte Größen sind:
ˆ Zeit zwischen zwei Anrufen
ˆ ’Lebensdauer’ von Atomen bei radioaktiven Zerfall
ˆ Lebensdauer von Bauteilen, wenn Alterungserscheinungen nicht betrachtet
werden
Die Verteilungsfunktion Fλ einer λ-exponentialverteilten Größe kann durch Integration berechnet werden:
x
⎧
⎪
⎪ 1 − exp(−λx)
Fλ (x) = ∫ λ ⋅ exp (−λ ⋅ t) dt = ⎨
⎪
0
⎪
⎩
−∞
, falls t ≥ 0
, falls t < 0
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Verteilungsfunktion der Exponentialverteilung
−2
−1
0
1
2
3
x
LAMBDA= 1(rot), 2 (grün), 2/3 (blau), 1/3 (gelb)
32
4
In R berechnet man Fλ (x) durch pexp(x,λ).
Man erhält also für 0 ≤ a < b:
W (X ≤ b) = 1−exp(−λb),
W (a ≤ X) = exp(−λa),
W (a ≤ X ≤ b) = exp(−λa)−exp(−λb)
2.) Schätzung für λ
Situation: Von einer unbekannten Größe X wird angenommen, dass sie exponentialverteilt ist. Allerdings ist λ nicht bekannt. Man führt daher n unabhängige Messungen (Stichprobe) für X durch und erhält die Werte X1 , . . . , Xn .
Wie kann man nun λ aus diesen Daten schätzen?
System mit Parametern λ
zufällig
Ð→
Daten X1 , . . . , Xn
methodisch
Ð→
Schätzung für λ
In dieser Situation sind also:
X1 , . . . , Xn zufällig und bekannt,
Da der Erwartungswert von X gleich
X=
1
n
n
λ feststehend aber unbekannt
1
λ
ist und durch den empirischen EW
( ∑ Xi ) geschätzt werden kann, hat man
i=1
Schätzung für λ:
λ≈
1
X
=
n
n
∑ Xi
i=1
Ziel: Gib eine Methode an, wie man ausgehend von den Daten X1 , . . . , Xn eine
Intervallschätzung [λU , λO ] vornehmen kann, so dass für jedes denkbare λ gilt
W (λ liegt in [λU , λO ]) = δ
(Dabei ist δ das Konfidenzniveau. Es würde auch W (. . .) ≥ δ genügen, um das Konfidenzniveau einzuhalten, man erhält mit W (. . .) = δ aber zu gegebenem δ ein möglichst
kleines Intervall.)
Als Prüfgröße betrachten wir Z = 2nλX. Es gilt: Z ist χ2 -verteilt mit 2n Freiheitsgraden, hat also die Verteilungsfunktion S2n (siehe oben). Dies können wir
hier nicht begründen.
Es gilt
λ liegt in [λU , λO ]
⇔
Z liegt in [2nλU X, 2nλO X]
Daher ist
W (λ liegt in [λU , λO ]) = W (Z liegt in [2nλU X, 2nλO X]) = S2n (2nλO X)−S2n (2nλU X)
Man bestimmt nun λU und λO , so dass
1+δ
1−δ
und S2n (2nλU X) =
2
2
ist. Dann ergibt sich (wie gewünscht)
S2n (2nλO X) =
W (σ liegt in [λU , λO ]) =
1+δ 1−δ
−
=δ
2
2
33
2 Hypothesentests
Allgemeines über Tests
Bestimmte Fragestellungen können einem Hypothesentest unterzogen werden. Beispiele:
ˆ Die Trefferwahrscheinlichkeit p eines wiederholbaren Vorgangs ist größer als
0.9 (bzw. kleiner als 0.6, bzw. genau gleich 0.5).
ˆ Der Erwartungswert µ einer normalverteilen Größe ist größer (bzw. kleiner,
bzw. gleich) einem gegebenen Wert µ0 .
ˆ Eine zufällige Größe ist nach einer Exponentialverteilung zum Parameter λ =
1
4
verteilt.
ˆ Eine bestimmte zufällige Größe ist normalverteilt (d.h. nach irgendeiner Nor-
malverteilung verteilt).
ˆ Zwei verschiedene zufällige Größen sind unabhängig voneinander.
ˆ Zwei verschiedene zufällige Größen haben die gleiche Verteilung.
Für viele Probleme gibt es viele verschiedene Testverfahren, die sich hinsichtlich
Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser
Vorlesung daher nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschitt
beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentest.
Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nulhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer zufälligen
Größe oder einen Parameter, die durch die erhobenen Daten entweder (mit einer gewissen vorgegebenen Sicherheit) falsifiziert werden kann oder nicht. Es ist mit einem
Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit
zu bestätigen.
Wir bezeichnen die Nullhypothese mit H0 . Die Gegenaussage (“H0 gilt nicht.“)
nennt man dann Gegenhypothese, sie wird mit H1 bezeichnet. Beispielsweise:
H0 ∶ p ≥ 0.3
H1 ∶ p < 0.3
(dabei ist p die Trefferwahrscheinlichkeit einer Binomialverteilung)
H0
∶
Das Gewicht von Hühnereiern ist normalverteilt.
H1
∶
Das Gewicht von Hühnereiern ist nicht normalverteilt.
H0
∶ Männer und Frauen wählen bei der Bundestagswahl gleich.
H1
∶ Männer und Frauen wählen bei der Bundestagswahl verschieden.
35
2 Hypothesentests
Man unterscheidet:
ˆ Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass
eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine
Normalverteilung usw.). Die Nullhypothese macht dann eine Aussage über
einen oder mehrere Parameter der Verteilung (etwa p bzw. µ und/oder σ).
Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so
wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise
unsinnige Resultate.
ˆ Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über
die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen,
ob eine bestimmte Verteilung oder Verteilungsart vorliegt.
Beispielsweise betrachten wir die Nullhypothese H0 ∶ p ≥ 0.7 zur Trefferwahrscheinlichkeit
p einer Binomialverteilung. Man führt n = 10 Versuche durch und erhält dabei k Treffer.
Es ist sinnvoll, die Nullhypothese abzulehnen, wenn k klein ist, also zum Beispiel für
k = 0, 1, 2, 3. Sollte man H0 auch für k = 4 oder k = 5 ablehnen?
Vor der Durchführung eines Tests wird ein Signifikanzniveau α (z.B. α = 0.05) und
ein Testverfahren festgelegt. Erst danach werden die Daten gesichtet und man
kommt (mit dem gewählten Verfahren) zu einer der beiden folgenden Entscheidungen:
ˆ Die Nullhypothese ist (mit dem Signifikanzniveau α) abzulehnen.
ˆ Die Nullhypothese kann nicht (mit dem Signifikanzniveau α) abgelehnt wer-
den.
Dabei ist folgende zentrale Bedingung unbedingt einzuhalten:
Falls die Nullhypothese zutrifft, so wird sie höchstens mit der Wahrscheinlichkeit α abgelehnt.
Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet nicht ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:
Die Nullhypothese wird nicht abgelehnt.
oder
Die Nullhypothese ist mit den Daten vereinbar.
Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.
In obigem Beispiel ist die Wahrscheinlichkeit (H0 ∶ p ≥ 0.7, n = 10) legt man das Signifikanzniveau α = 0.1 fest. Falls die Nullhypothese tatsächlich gilt, folgt:
3
3
j=0
j=0
)pj (1 − p)n−j ≤ ∑ (10
)(0.7)j (0.3)n−j ≈ 0.011 ≤ α
ˆ W (k ≤ 3) = ∑ (10
j
j
Man kann also die Nullhypothese für k = 0, 1, 2, 3 ablehnen und dabei das Signifikanzniveau einhalten.
36
4
4
j=0
j=0
)pj (1 − p)n−j ≤ ∑ (10
)(0.7)j (0.3)n−j ≈ 0.047 ≤ α
ˆ W (k ≤ 4) = ∑ (10
j
j
Man kann also die Nullhypothese für k = 0, 1, 2, 3, 4 ablehnen und dabei das Signifikanzniveau einhalten.
5
5
j=0
j=0
)(0.7)j (0.3)n−j ≈ 0.150 > α
)pj (1 − p)n−j ≤ ∑ (10
ˆ W (k ≤ 5) = ∑ (10
j
j
Lehnt man die Nullhypothese für k = 0, 1, 2, 3, 4, 5 ab, so wäre das Signifikanzniveau
nicht eingehalten.
Da die erhobenen Daten zufällig sind, sind falsche Entscheidungen denkbar. Man
unterscheidet folgende Fälle:
Nullhypothese trifft zu
Nullhypothese wird abgelehnt
Nullhypothese wird nicht abgelehnt
Fehler erster Art (α-Fehler)
kein Fehler
kein Fehler
Fehler zweiter Art (β-Fehler)
Nullhypothese trifft nicht zu
Der β-Fehler ist kein eigentlicher ’Fehler’, da der Test in diesem Fall keine Aussage
macht. Trotzdem möchte man ihn natürlich vermeiden.
Falls die Nullhypothese zutrifft, ist die Wahrscheinlichkeit einen Fehler 1.Art zu
machen, keinesfalls größer als α.
Eine oft genutzte Möglichkeit zu einer Entscheidung zu kommen, besteht darin, eine
sogenannte Testfunktion (oder Teststatistik) aufzustellen. Diese erzeugt aus den
Daten D (mit einer festgelegten, möglichst plausiblen) Methode eine Zahl T (D). Die
Hypothese wird dann abgelehnt, wenn T (D) bestimmte (vorher festgelegte) Werte
annimmt, die (wenn die Nullhypothese gilt) sehr unwahrscheinlich sind. Diese Werte
werden im sogenannten Ablehnungsbereich A zusammengefasst, es gilt also
H0 wird abgelehnt
⇔
T (D) ∈ A
Bei vielen Tests ist der Ablehnungsbereich von der Form A = [c, ∞[ oder A =]−∞, c]
(mit einer Zahl c ∈ R).
In obigem Beispiel ist die Teststatistik T (k) = k identisch mit der Trefferzahl k und der
Ablehnungsbereich von der Form A = {0, 1, 2, 3, 4}.
Die Gütefunktion:
Bei parametrischen Tests bietet die sogenannte Gütefunktion die Möglichkeit,
verschiedene Testverfahren zu vergleichen. Diese Funktion g ordnet jedem möglichen
Parameterwert die Wahrscheinlichkeit dafür zu, dass die Nullhypothese abgelehnt
wird. Dabei ist zu beachten:
ˆ Für Parameter P , die die Nullhypothese erfüllen, muss g(P ) ≤ α gelten.
ˆ Für Parameter P , die die Nullhypothese nicht erfüllen, ist es wünschens-
wert, dass g(P ) groß ist.
37
2 Hypothesentests
In obigem Beispiel (H0 ∶ p ≥ 0.7, n = 10, α = 0.1) vergleichen wir verschiedene Testverfahren:
1.) Ein Testverfahren verwirft die Nullhypothese für k ∈ A = {0, 1, 2, 3, 4}. Theoretisch
kann p jeden Wert in [0, 1] haben. In Abhängigkeit von p kann die Wahrscheinlichkeit
dafür berechnet werden, dass die Trefferzahl im Ablehnungsbereich liegt. Es gilt
4
Wp (k ∈ A) = Wp (k = 0) + Wp (k = 1) + . . . + Wp (k = 4) = ∑ (
j=0
10 j
)p (1 − p)10−j
j
Die Gütefunktion ist also gegeben durch:
4
g(p) = Wp (k ∈ A) = ∑ (
j=0
10 j
)p (1 − p)10−j
j
Wir setzen einige Werte für p ein:
g(0.8) = 0.0064 ≤ α,
g(0.7) = 0.0473 ≤ α ,
g(0.65) = 0.0949,
g(0.6) = 0.1662,
g(0.2) = 0.9672
Der Test garantiert, dass g(p) ≤ α ist, wenn die Nullhypothese gilt (siehe Kasten).
Falls aber beispielsweise p = 0.6 gilt, so wird die Nullhypothese hier nur mit einer
Wahrscheinlichkeit von etwa 16.6% abgelehnt (obwohl sie nicht gilt). In diesem Fall ist
also die Wahrscheinlichkeit für einen β-Fehler recht hoch. Die Gütefunktion sieht hier
wie folgt aus
0.0
0.2
0.4
g(p)
0.6
0.8
1.0
Graph der Gütefunktion
0.0
0.2
0.4
0.6
0.8
1.0
p
2.) Ein anderes Testverfahren verwirft die Nullhypothese für k ∈ {0, 1, 2, 3, 4, 5}. Die Gütefunktion ist dann gegeben durch:
5
g(p) = Wp (k ∈ A) = ∑ (
j=0
38
10 j
)p (1 − p)10−j
j
0.0
0.2
0.4
g(p)
0.6
0.8
1.0
Graph der Gütefunktion
0.0
0.2
0.4
0.6
0.8
1.0
p
Man sieht, dass das Signifikanzniveau nicht eingehalten wird. Dieser Test scheidet also
aus.
3.) Ein anderes Testverfahren verwirft die Nullhypothese für k ∈ {0, 1, 2, 3}. Die Gütefunktion ist dann gegeben durch:
3
10
g(p) = Wp (k ∈ A) = ∑ ( )pj (1 − p)10−j
j
j=0
0.0
0.2
0.4
g(p)
0.6
0.8
1.0
Graph der Gütefunktion
0.0
0.2
0.4
0.6
0.8
1.0
p
Man sieht, dass das Signifikanzniveau hier eingehalten wird. Der Test hat aber im Vergleich zum ersten Test ’eine schlechtere Güte’ (-funktion), d.h. die Wahrscheinlichkeit
eines β-Fehlers ist höher.
4.) Ein anderes Testverfahren verwirft die Nullhypothese für k ∈ {3, 4}. Die Gütefunktion
ist dann gegeben durch:
4
10
g(p) = Wp (k ∈ A) = ∑ ( )pj (1 − p)10−j
j
j=3
39
2 Hypothesentests
0.0
0.2
0.4
g(p)
0.6
0.8
1.0
Graph der Gütefunktion
0.0
0.2
0.4
0.6
0.8
1.0
p
Man sieht, dass das Signifikanzniveau hier eingehalten wird. Der Test hat aber im
Vergleich zum ersten Test ebenfalls eine schlechtere Güte.
Mithilfe der Gütefunktionen können verschiedene Testverfahren miteinander verglichen
werden. Man kommt dabei aber nicht immer zu einer eindeutigen Erkenntnis. Wenn man
beispielsweise die Gütefunktionen der letzten beiden Tests (3. und 4.) in obigem Beispiel
vergleicht, so sieht man, dass die eine in einem Bereich und die andere in einem anderen
Bereich der möglichen Parameterwerte ’besser’ (d.h. größer) ist.
Eine ’ideale’ Gütefunktion zu obigem Beispiel sähe wie folgt aus:
0.0
0.2
0.4
g(p)
0.6
0.8
1.0
Graph der Gütefunktion
0.0
0.2
0.4
0.6
0.8
1.0
p
Natürlich existiert kein Test zur Nullhypothese p ≥ 0.7 mit dieser Gütefunktion.
Der p-Wert:
Bei vielen Testverfahren kann man den sogenannten p-Wert zur Einschätzung des
Testergebnisses heranziehen. Dies ist der minimale Wert für das Signifikanzniveau
α, zu dem die Nullhypothese gerade noch abgelehnt wird. (Dies setzt voraus, dass
man ein Testverfahren benutzt, dass für beliebige Werte von α durchgeführt werden
kann.)
40
Der p-Wert ist ein Wert zwischen Null und Eins, bestimmt durch die erhaltenen
Daten, der andeutet, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist, und damit umgekehrt, wie glaubhaft die Nullhypothese bei
Erhalt dieser Daten ist. Der p-Wert ist eine obere Schranke für die Wahrscheinlichkeit, unter Gültigkeit der Nullhypothese die erhaltenen Daten oder noch Extremere
(d.h. Daten mit einem noch kleineren p-Wert) zu erhalten. Mit dem p-Wert wird
also angedeutet, wie extrem das Ergebnis ist, wenn die Nullhypothese gilt: je kleiner
der p-Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese.
Im Zusammenhang mit der Teststatistik kann (in manchen Fällen) auch zuerst der
p-Wert bestimmt werden und dann über die Ablehnung der Nullhypothese entschieden werden. Dabei kann man wie folgt vorgehen
ˆ Hat man eine Teststatistik T gewählt, so dass ein niedriger Wert von T gegen
die Nullhypothese spricht, so kann man wie folgt vorgehen:
1.) Man bestimmt den p-Wert konkret erhaltener Daten D0 (deren Teststatistik T (D0 ) = T0 ist) als die (unter Gültigkeit der Nullhypothese maximale) Wahrscheinlichkeit dafür, dass die Teststatistik zufälliger Daten
den Wert T0 oder einen kleineren Wert hat.
2.) Man lehnt die Nullhypothese zum Signifikanzniveau α genau dann ab,
wenn p ≤ α ist.
ˆ Hat man eine Teststatistik T gewählt, so dass ein hoher Wert von T gegen
die Nullhypothese spricht, so kann man wie folgt vorgehen:
1.) Man bestimmt den p-Wert konkret erhaltener Daten D0 (deren Teststatistik T (D0 ) = T0 ist) als die (unter Gültigkeit der Nullhypothese maximale) Wahrscheinlichkeit dafür, dass die Teststatistik zufälliger Daten
den Wert T0 oder einen größeren Wert hat.
2.) Man lehnt die Nullhypothese zum Signifikanzniveau α genau dann ab,
wenn p ≤ α ist.
Zu gegebenem Signifikanzniveau α ist eine Nullhypothese genau dann abzulehnen,
wenn p ≤ α gilt. Zu einer korrekten Vorgehensweise gehört es, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder
etwas größer als der p-Wert festgesetzt werden). Allerdings liefert der p-Wert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der
Ablehnung hinausgehen. (Für α = 0.05 und p = 0.07 kann man zwar nicht ablehnen,
das Ergebnis ist aber im Hinblick auf die Gültigkeit der Nullhypothese dennoch
ziemlich unwahrscheinlich).
In vielen Situationen stehen mehrere Testverfahren (zum Überprüfen ein und derselben Nullhypothese) zur Verfügung. Diese liefern dann auch verschiedene p-Werte.
Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Date-
41
2 Hypothesentests
nerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen p-Wert
auszuwählen).
Wir betrachten erneut obiges Beispiel (H0 ∶ p ≥ 0.7, n = 10, Teststatistik T (k) = k, niedriger
Wert von k spricht gegen H0 )
ˆ Der kleinste Wert der Teststatistik (und damit der ’am wenigsten plausible’ Wert,
falls H0 gilt) ist k = T (k) = 0. Die Wahrscheinlichkeit, dass dies eintritt, beträgt
)p0 (1 − p)10−0 und wird (falls H0 wahr ist) maximal für p = 0.7, hat
W (k = 0) = (10
0
dann also den Wert
10
W (k = 0) = ( )(0.7)0 (1 − 0.7)10−0 ≈ 0.0000059
0
Der p-Wert der Trefferzahl k = 0 ist also 0.0000059.
ˆ Der nächstkleinste Wert der Teststatistik ist k = T (k) = 1. Die Wahrscheinlichkeit, dass dieser oder der zuvor behandelte (unter H0 noch ungewöhnlichere Fall)
1
)pj (1 − p)10−j und wird (falls H0
T (k) = k = 0 eintritt, beträgt W (k ≤ 1) = ∑ (10
j
j=0
wahr ist) maximal für p = 0.7, hat dann also den Wert
1
W (k ≤ 0) = ∑ (
j=0
10
)(0.7)j (1 − 0.7)10−j ≈ 0.000144
j
Der p-Wert der Trefferzahl k = 1 ist also 0.000144.
ˆ Der nächstkleinste Wert der Teststatistik ist k = T (k) = 2. Die Wahrscheinlichkeit,
dass dieser oder einer der zuvor behandelten (unter H0 noch ungewöhnlicheren)
2
)pj (1 − p)10−j
Fälle T (k) = k = 0 oder T (k) = k = 1 eintritt, beträgt W (k ≤ 2) = ∑ (10
j
j=0
und wird (falls H0 wahr ist) maximal für p = 0.7, hat dann also den Wert
2
W (k ≤ 0) = ∑ (
j=0
10
)(0.7)j (1 − 0.7)10−j ≈ 0.00159
j
Der p-Wert der Trefferzahl k = 2 ist also 0.00159.
ˆ und so weiter
k
Man sieht, dass sich der p-Wert einer Trefferzahl k direkt durch ∑ (nj)(p0 )j (1 − p0 )n−j
j=0
berechnen lässt.
Für k = 4 liegt dieser p-Wert noch unter dem Signifikanzniveau α = 0.1. Daher kann man
H0 bei 4 Treffern noch ablehnen. Für k = 5 überschreitet der p-Wert das Signifikanzniveau.
Daher kann man H0 bei 5 Treffern nicht mehr ablehnen.
Tests für die Trefferwahrscheinlichkeit einer Binomialverteilung
Bei einem wiederholbaren Vorgang tritt eine bestimmte Möglichkeit mit der Trefferwahrscheinlichkeit p ein. Wir untersuchen Methoden zum Testen bestimmter Nullhypothesen.
42
1.) Nullhypothese: p ≥ p0
Erzielt man bei n Durchführungen k Treffer, so ist die Nullhypothese (mit dem
Signifikanzniveau α) abzulehnen, wenn
k
n j
n−j
≤α
∑ ( )p0 (1 − p0 )
j=0 j
gilt.
Beispiel:
Die Nullhypothese besagt, dass ein Medikament in mindestens 70% aller Fälle eine
bestimmte Wirkung erzielt.
Nullhypothese:
p ≥ p0 = 0.7
ˆ Um die Nullhypothese zu testen, legt man ein Signifikanzniveau α = 0.05 fest
und beobachtet 100 Patienten, die das Medikament einnehmen. Die Wirkung
tritt in 64 Fällen ein. Reicht dies aus, um die Nullhypothese abzulehnen?
p0 = 0.7, n = 100, k = 64
⇒
k
64
n
100
j
n−j
= ∑(
)(0.7)j (0.3)100−j ≈ 0.116 > α
∑ ( )p0 (1−p0 )
j
j
j=0
j=0
Folglich kann die Nullhypothese nicht abgelehnt werden. Sie könnte allerdings
trotzdem falsch sein, allerdings rechtfertigen die Daten keine Ablehnung zum
gegebenen Signifikanzniveau.
ˆ Angenommen die Wirkung wäre bei nur 59 Patienten eingetreten. In diesem Fall
p0 = 0.7, n = 100, k = 59
⇒
59
k
100
n
j
n−j
= ∑(
)(0.7)j (0.3)100−j ≈ 0.012 ≤ α
∑ ( )p0 (1−p0 )
j
j
j=0
j=0
Die Nullhypothese kann nun also abgelehnt werden. Sie könnte immer noch
gelten, aber wenn dies der Fall ist, ist das beobachtete Ergebnis sehr unwahrscheinlich (in jedem Fall nicht wahrscheinlicher als α = 0.05).
ˆ Man stellt fest, dass die Nullhypothese hier abzulehnen ist, wenn die Wirkung
bei 61 oder weniger Patienten eintritt.
ˆ Hätte man 1000 (10000) Patienten getestet, so wäre die Nullhypothese abzulehnen, wenn die Wirkung bei höchstens 675 (6924) Patienten eintritt.
Erklärung zur Vorgehensweise:
Der Ablehnbereich der Nullhypothese p ≥ p0 ist von der Form {0, . . . , kmax },
k0
wobei kmax die größte Zahl ist, für die noch ∑ (nj)p0 j (1 − p0 )n−j ≤ α gilt.
j=0
Angenommen die Nullhypothese gilt tatsächlich, wie groß ist dann die Wahrscheinlichkeit, dennoch ein Ergebnis aus dem Ablehnbereich zu beobachten ?
Diese Wahrscheinlichkeit ist gegeben durch
k0
n
W (höchstens kmax Treffer) = ∑ ( )pj (1 − p)n−j
j=0 j
ˆ Falls p = p0 ist dieser Ausdruck ≤ α (siehe oben).
43
2 Hypothesentests
ˆ Falls p > p0 gilt
k0
k0
n j
n
n−j
< ∑ ( )p0 j (1 − p0 )n−j ≤ α
∑ ( )p (1 − p)
j=0 j
j=0 j
Falls also die Nullhypothese gilt, ist die Wahrscheinlichkeit in den Ablehnbereich
zu geraten, in jedem Fall nicht größer als α. Dies rechtfertigt die Vorgehensweise.
Der p-Wert:
Beobachtet man k Treffer bei n Versuchen, so ist der größte Wert für das Signifikanzniveau α, zu dem man die Nullhypothese p ≥ p0 noch ablehnen kann,
offenbar gerade
k
n j
n−j
∑ ( )p0 (1 − p0 )
j=0 j
Dies ist also der p-Wert des Testergebnisses bei diesem Testverfahren. (Grundsätzlich sind andere Verfahren denkbar, bei denen man dann auch einen anderen
p-Wert erhalten könnte.)
In obigem Beispiel (p0 = 0.7, n = 100) ist der p-Wert bei 64 Treffern 0.116 und bei 59
Treffern 0.012.
In R kann man diesen p-Wert direkt berechnen. Dies geht mit:
binom.test(k, n, p0 , alt=“less“)$p.value
2.) Nullhypothese: p ≤ p0
Erzielt man bei n Durchführungen k Treffer, so ist die Nullhypothese (mit dem
Signifikanzniveau α) abzulehnen, wenn
n
n j
n−j
≤α
∑ ( )p0 (1 − p0 )
j=k j
gilt. Äquivalent dazu ist die Bedingung
k−1
n j
n−j
≥1−α
∑ ( )p0 (1 − p0 )
j=0 j
Beispiel:
Die Nullhypothese besagt, dass nach Kalkeinsatz mit einer Wahrscheinlichkeit von
höchstens 80% eine bestimmte Vebesserung des Waldbodens eintritt.
Nullhypothese:
p ≤ p0 = 0.8
ˆ Um die Nullhypothese zu testen, legt man ein Signifikanzniveau α = 0.1 fest und
führt 20 Kalkeinsätze durch. Die Wirkung tritt in k = 18 Fällen ein. Es gilt:
k−1
p0 = 0.8, n = 20, k = 18
⇒
17
n
n
j
n−j
= ∑ ( )(0.8)j (1−0.8)20−j ≈ 0.794 < 1−α
∑ ( )p0 (1−p0 )
j
j=0
j=0 j
Folglich kann die Nullhypothese nicht abgelehnt werden.
44
ˆ Für k = 19 oder k = 20 hätte man die Nullhypothese ablehnen können und damit
einen empirischen Nachweis (mit einer Irrtumswahrscheinlichkeit von nicht mehr
als 10%) dafür erbracht, dass der Kalkeinsatz mit mindestens 80% Wahrscheinlichkeit hilft.
ˆ Hätte man das Signifikanzniveau auf 0.01 festgelegt, so hätte dieser Nachweis
selbst bei 20 (von 20) Treffern nicht gelingen können, denn es gilt
19
n
n
j
n−j
= ∑ ( )(0.8)j (1−0.8)20−j ≈ 0.988 < 1−0.01
∑ ( )p0 (1−p0 )
j=0 j
j=0 j
k−1
p0 = 0.8, n = 20, k = 20
⇒
ˆ Man kann das Problem auch anders angehen und die folgende Nullhypothese
formulieren:
Nullhypothese: p ≥ p0 = 0.8 (Einsatz hilft mit Wahrsch. von mindestens 0.8)
Signifikanzniveau α = 0.1, Anzahl der Durchführungen n = 20
14
k = 14 ∶
∑(
j=0
20
)(0.8)j (1 − 0.8)20−j ≈ 0.196 > α
j
Die Nullhypothese kann also zum Niveau 0.1 nicht abgelehnt werden.
13
k = 13 ∶
∑(
j=0
20
)(0.8)j (1 − 0.8)20−j ≈ 0.087 ≤ α
j
Die Nullhypothese kann also zum Niveau 0.1 abgelehnt werden.
Bei bis zu 13 Treffern kann man die Nullhypothese also ablehnen.
ˆ Wir haben festgestellt: Liegt die Trefferzahl zwischen 14 und 18, so kann man
weder die Nullhypothese p ≤ 0.8 noch die Nullhypothese p ≥ 0.8 (zum Niveau
α = 0.1) ablehnen. In diesem Fall reichen die Daten (Trefferzahl) nicht aus, um
(mit einer Irrtumswahrscheinlichkeit von nicht mehr als 0.1) zu entscheiden, ob
p ≥ 0.8 oder p ≤ 0.8 ist.
3.) Nullhypothese: p = p0
Wir versuchen an diesem Fall klarzumachen, dass es oftmals mehrere sinnvolle
Testverfahren gibt, die unterschiedliche Ergebnisse liefern.
Klar ist: Die Nullhypothese sollte sowohl für zu kleine und auch für zu große
beobachtete Trefferzahlen abgelehnt werden.
(a) Wir benutzen als Teststatistik T (k) zur Trefferzahl k die Abweichung der
Trefferzahl vom Erwartungswert, also
T (k) = ∣k − n ⋅ p0 ∣
(k = 0, . . . , n)
Offenbar spricht ein hoher Wert von T (k) gegen die Nullhypothese. Der
p-Wert einer beobachteten Trefferzahl k0 berechnet sich also als Wahrscheinlichkeit
W (T (k) ≥ T (k0 )) ,
falls p = p0 ist
45
2 Hypothesentests
(Man lehnt dann H0 ab, wenn der p-Wert ≤ α ist.) Wir führen dies am
Beispiel n = 36, p0 = 0.85, α = 0.05 durch. Die verschiedenen Werte k = 0, . . . , 36
haben die folgenden Teststatistiken:
k
0
1
2
...
29
30
31
32
...
35
36
T (k) = ∣k − 36 ⋅ 0.85∣
30.6
29.6
28.6
...
1.6
0.6
0.4
1.4
...
4.4
5.4
Damit erhält man (exemplarisch) die folgenden p-Werte:
ˆ Angenommen es ergibt sich die Trefferzahl k0 = 0. Dann ist T (k0 ) = 30.6. Der
p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich
p = 0.85 gilt) als Wahrscheinlichkeit:
W (T (k) ≥ 30.6) = W (k = 0) = (
36
)(0.85)0 (0.15)36−0 ≈ 2 ⋅ 10−30
0
ˆ Angenommen es ergibt sich die Trefferzahl k0 = 25. Dann ist T (k0 ) = 5.6. Der
p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich
p = 0.85 gilt) als Wahrscheinlichkeit:
25
W (T (k) ≥ 5.6) = W (k ∈ {0, . . . , 25}) = ∑ (
j=0
36
)(0.85)j (0.15)36−j ≈ 0.014
j
ˆ Angenommen es ergibt sich die Trefferzahl k0 = 28. Dann ist T (k0 ) = 2.6. Der
p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich
p = 0.85 gilt) als Wahrscheinlichkeit:
W (T (k) ≥ 2.6)
=
W (k ∈ {0, . . . , 28 , 34, . . . , 36})
=
28
36
36
36
j
36−j
+ ∑ ( )(0.85)j (0.15)36−j
∑ ( )(0.85) (0.15)
j
j
j=0
j=34
≈
0.240
ˆ Angenommen es ergibt sich die Trefferzahl k0 = 31. Dann ist T (k0 ) = 0.4. Der
p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich
p = 0.85 gilt) als Wahrscheinlichkeit:
36
W (T (k) ≥ 0.4) = W (k ∈ {0, . . . , 36}) = ∑ (
j=0
36
)(0.85)j (0.15)36−j = 1
j
Mit dieser Methode kann zu jeder Zahl der p-Wert bestimmt werden.
Die Nullhypothese wird genau dann abgelehnt, wenn der p-Wert ≤ α = 0.05 ist,
man stellt (mit Einsatz eines Rechners) fest, dass dies genau für k ∈ {0, . . . , 26 , 36}
der Fall ist.
(b) Erzielt man bei n Durchführungen k Treffer, so lehnt man die Nullhypothese (zum Signifikanzniveau α) genau dann ab, wenn
k
n j
α
n−j
≤
∑ ( )p0 (1 − p0 )
j
2
j=0
46
oder
n
n j
α
n−j
≤
∑ ( )p0 (1 − p0 )
j
2
j=k
Dies ist genau dann der Fall, wenn
k ∈ {0, . . . , kU } ∪ {kO , . . . , n}
kU
wobei kU die größte Zahl mit ∑ (nj)p0 j (1−p0 )n−j ≤
j=0
n
Zahl mit ∑ (nj)p0 j (1 − p0 )n−j ≤
j=kO
α
2
α
2
ist und kO die größte
ist.
Falls die Nullhypothese erfüllt ist (also tatsächlich p = p0 gilt), so ist die
Wahrscheinlichkeit für eine Ablehnung
kU
n
n
n
α α
W (k im Ablehnbereich) = ∑ ( )p0 j (1−p0 )n−j + ∑ ( )p0 j (1−p0 )n−j ≤ + = α
j
j
2 2
j=0
j=kO
Dies rechtfertigt die Vorgehensweise.
p-Wert:
Bei k beobachteten Treffern wird die Nullhypothese abgelehnt, wenn
k
n j
α
n−j
≤
∑ ( )p0 (1 − p0 )
2
j=0 j
oder
n
n j
α
n−j
≤
∑ ( )p0 (1 − p0 )
2
j=k j
⇔
n
⎛k n
⎞ α
n
min ∑ ( )p0 j (1 − p0 )n−j , ∑ ( )p0 j (1 − p0 )n−j ≤
⎝j=0 j
⎠ 2
j=k j
⇔
n
⎛k n
⎞
n
2 ⋅ min ∑ ( )p0 j (1 − p0 )n−j , ∑ ( )p0 j (1 − p0 )n−j ≤ α
⎝j=0 j
⎠
j=k j
Damit ist der p-Wert (der kleinste Wert von α, der noch zu einer Ablehnung
führt) bei diesem Verfahren:
n
⎛k n
⎞
n
2 ⋅ min ∑ ( )p0 j (1 − p0 )n−j , ∑ ( )p0 j (1 − p0 )n−j
⎝j=0 j
⎠
j=k j
Wir betrachten erneut das Beispiel n = 36, p0 = 0.85, α = 0.05. Prüft man für
k = 0, . . . , 36 die Ablehnbedingung
k
36
j
36−j
≤ 0.025
∑ ( )(0.85) (0.15)
j
j=0
oder
36
36
j
36−j
≤ 0.025
∑ ( )(0.85) (0.15)
j
j=k
so stellt man fest, dass diese genau für k ∈ {0, . . . , 25, 35, 36} erfüllt ist.
In diesem Beispiel lehnt das Testverfahren aus (b) die Nullhypothese in
anderen Fällen ab, wie das Verfahren aus (a). Wir werden darauf später
wieder eingehen.
(c) Ein letztes Testverfahren für p = p0 . Die Idee ist:
Der Ablehnbereich besteht aus den Ergebnissen (Trefferzahlen), die — unter der Bedingung, dass die Nullhypothese gilt — am unwahrscheinlichsten
sind.
47
2 Hypothesentests
Genauer: Nimm an, dass die Nullhypothese gilt und berechne die Wahrscheinlichkeiten aller möglichen Ergebnisse (Trefferzahlen), also
n
W (genau k Treffer) = ( )p0 k (1 − p0 )n−k für k = 0, . . . , n
k
Das unwahrscheinlichste Ergebnis führt zu einer Ablehnung. Das nächstunwahrscheinliche Ergebnis führt ebenfalls zu einer Ablehnung, falls dadurch
nicht eine Gesamtwahrscheinlichkeit von α überschritten würde. Und so
weiter (bis die Gesamtwahrscheinlichkeit von α überschritten wird).
Beispiele:
ˆ n = 10, Nullhypothese p = p0 = 0.7
Wir berechnen die Wahrscheinlichkeiten aller möglichen Trefferzahlen unter
der Bedingung, dass die Nullhypothese gilt:
k
0
1
2
3
4
5
6
7
8
9
10
W (genau k Treffer) 0.000006 0.0001 0.001 0.009 0.037 0.103 0.200 0.267 0.233 0.121 0.028
)(0.7)k (0.3)10−k
= (10
k
Wir betrachten das Signifikanzniveau α = 0.2: Wir ’sammeln’ nun unwahrscheinliche Trefferzahlen, solange ihre Gesamtwahrscheinlichkeit (unter der
Annahme der Nullhypothese) α nicht überschreitet.
mögliche Werte für k
Gesamtwahrsch.
0
0,1
0,1,2 0,1,2,3 0,1,2,3,10 0,1,2,3,10,4 0,1,2,3,10,4,5 0,1,2,3,10,4,5,9
<0.001 <0.001 0.002 0.011
0.038
0.076
0.179
0.300
Der Ablehnbereich der Nullhypothese ist also: k ∈ {0, 1, 2, 3, 4, 5, 10}
Der p-Wert einer beobachteten Trefferzahl k berechnet sich einfach als die
Summe der Wahrscheinlichkeiten W (genau j Treffer) = (nj)p0 j (1 − p0 )n−j ,
wobei j alle Werte annimmt, für die diese Wahrscheinlichkeit kleiner gleich
als die für k ist. Im obigen Beispiel ist der p-Wert von 4 die Summe
W (0 Treffer)+W (1 Treffer)+W (2 Treffer)+W (3 Treffer)+W (10 Treffer)+W (4 Treffer) ≈ 0.076
ˆ Betrachtet man wieder das Beispiel von oben (also n = 36, p0 = 0.85 und
α = 0.05), so kommt man mit diesem neuen Verfahren zu einer Ablehnung,
falls k ∈ {0, . . . , 25 , 35, 36} ist.
Man sieht an dem letzten Beispiel, dass die Verfahren (a) und (c) unterschiedliche Ablehnbereiche besitzen können, von denen keiner den jeweils
anderen enthält. Damit haben sie auch verschiedene Gütefunktionen, die
wir uns anschauen wollen:
ˆ Das Verfahren aus (a) lehnt H0 ∶ p = 0.85 ab, wenn k ∈ {0, . . . , 26 , 36}
ist. Die Wahrscheinlichkeit, dass das passiert ist (abhängig von p):
26
ga (p) = W (k ∈ {0, . . . , 26 , , 36}) = ∑ (
k=0
48
36
36 k
36
)p (1−p)36−k + ∑ ( )pk (1−p)36−k
k
k=36 k
ˆ Das Verfahren aus (c) lehnt H0 ∶ p = 0.85 ab, wenn k ∈ {0, . . . , 25 , , 35, 36}
ist. Die Wahrscheinlichkeit, dass das passiert ist (abhängig von p):
25
gc (p) = W (k ∈ {0, . . . , 25 , , 35, 36}) = ∑ (
k=0
36
36 k
36
)p (1−p)36−k + ∑ ( )pk (1−p)36−k
k
k=35 k
ˆ Das Verfahren aus (b) hat denselben Ablehnbereich wie das Verfahren
aus (c). In vielen Situationen (andere Werte für n, p0 und α) hat (b)
aber einen (echt) kleineren Ablehnbereich als (a) und (c) und damit
eine schlechtere Gütefunktion.
Wir konzentrieren wir uns nun auf einen Vergleich der Verfahren (a) und (c)
und betrachten die Gütefunktionen ga und gc im Spezialfall des Beispiels:
0.6
0.2
0.4
ga(p),gc(p)
0.8
1.0
Gütefunktionen der Verfahren (a) (rot) und (c) (blau)
0.0
●
0.0
0.2
0.4
0.6
0.8
1.0
p
n=36,p0=0.85, alpha=0.05
Beide Funktionen müssen für p = 0.85 (H0 gilt) unterhalb von α = 0.05
liegen. Für andere p wäre es wünschenswert, wenn sie hohe Funktionswerte
hätten. Man sieht, dass (c) im Bereich p > 0.85 besser abschneidet (d.h.
mit höherer Wahrscheinlichkeit H0 ablehnt) und (a) im Bereich p < 0.85
bessere Werte hat. (Dies gilt nur für dieses eine Beispiel.) Dies zeigt, dass
ein objektiver Vergleich verschiedener Testverfahren schwierig ist.
In R kann den nach dem Verfahren (c) berechneten p-Wert direkt berechnen.
Dies geht mit:
binom.test(k, n, p0 )$p.value
Ist der p-Wert ≤ α, so ist die Nullhypothese p = p0 abzulehnen.
49
2 Hypothesentests
Tests für die Parameter normalverteilter Größen
Wir beginnen mit sogenannten Einstichprobentests, d.h. es werden Hypothesen
über die Parameter einer normalverteilten Größe mit Hilfe einer Stichprobe (der
Länge n) getestet.
Es sei bekannt, dass eine Größe X normalverteilt ist. Allerdings sind die Parameter
µ und σ nicht bekannt. Man beobachtet eine Stichprobe von n (unabhängigen)
Ausprägungen X1 , . . . , Xn der Größe X.
1.) Hypothesen über den Erwartungswert µ
Wir wollen nun zunächst (für einen gegebenen Wert µ0 ) die Nullhypothesen
µ ≥ µ0
µ ≤ µ0
µ = µ0
zu einem gegebenen Signifikanzniveau α testen.
Für die hier vorgestellten Tests benutzen wir den empirischen
√ Erwartungswert
n
n
2
1
X = n1 ⋅ ∑ Xi und die korrigierte Stichprobenvarianz s = sX =
⋅ (Xi − X) ,
n−1 ∑
i=1
i=1
sowie die daraus abgeleitete zufällige Größe
Y =
√
n⋅
X −µ
,
s
die (wie wir wissen) t-verteilt mit n − 1 Freiheitsgraden ist (d.h. sie hat die
Verteilungsfunktion Tn−1 , vergleiche Kapitel 1).
ˆ Bei der Nullhypothese H0 ∶ µ ≥ µ0 betrachten wir die Teststatistik
T (X1 , . . . , Xn ) =
√
n⋅
X − µ0
s
Offenbar spricht ein niedriger Wert der Teststatistik gegen H0 .
Hat man nun (konkrete) Daten X1∗ , . . . , Xn∗ einer Stichprobe vorliegen, so
ist deren p-Wert eine Oberschranke (bzw. die kleinste Oberschranke) für
die Wahrscheinlichkeit, diese oder im Hinblick auf die Nullhypothese noch
extremere Daten (hier also Daten mit einer niedrigeren Teststatistik) zu
erhalten, wenn H0 gilt. Wegen
W ( T (X1 , . . . , Xn ) ≤ T (X1∗ , . . . , Xn∗ ) ∣ H0 gilt )
√ X − µ0 √ X ∗ − µ0
∣ µ ≥ µ0 )
≤ n⋅
= W ( n⋅
sX
sX ∗
≤ W (Y ≤
√
n⋅
X ∗ − µ0
)
sX ∗
√ X ∗ − µ0
= Tn−1 ( n ⋅
)
sX ∗
√
kann der p-Wert zu den Daten X1∗ , . . . , Xn∗ durch Tn−1 ( n ⋅
rechnet werden.
50
X ∗ −µ0
)
sX ∗
be-
√
Entsprechend ist der p-Wert von Daten X1 , . . . , Xn durch Tn−1 ( n ⋅
X−µ0
)
s
gegeben und folglich ist H0 genau dann abzulehnen, wenn
√ X − µ0
Tn−1 ( n ⋅
)≤α
s
gilt. Man berechnet diesen p-Wert in R mit:
t.test(x, mu = µ0 , alt=“less“)$p.value
(Dabei ist x ein Vektor mit den Daten X1 , . . . , Xn .)
Man spricht hierbei von einem linksseitigen t-Test und bezieht sich dabei
auf die Form der Alternativhypothese H1 ∶ µ < µ0 und die Benutzung der
t-Verteilung.
Beispiel: Beim Testen der Nullhypothese H0 ∶ µ ≥ 16 erhält man die folgende
Stichprobe X1 , . . . , X20 einer (normalverteilten) Größe X:
17.49, 14.22, 13.56, 14.48, 13.14, 16.44, 11.66, 17.02, 13.39, 14.66,
14.79, 15.99, 15.50, 16.66, 14.02, 15.60, 13.62, 14.42, 16.10, 18.48
Man berechnet X = 15.062 und s ≈ 1.677. Es ergibt sich der p-Wert ≈ 0.011. H0
kann also (z.B.) zu den Signifikanzniveaus 0.1 und 0.05 abgelehnt werden, nicht
jedoch zum Signifikanzniveau 0.01.
ˆ Wir testen nun die Nullhypothese H0 ∶ µ ≤ µ0 mit Hilfe einer Stichprobe
X1 , . . . , Xn . Dann ist H0 abzulehnen, wenn
√ X − µ0
1 − Tn−1 ( n ⋅
)≤α
s
√
gilt. (Äquivalent dazu ist die Bedingung Tn−1 ( n ⋅
X−µ0
)
s
≥ 1 − α)
Der p-Wert dieses Tests (zu den Daten X1 , . . . , Xn ) ergibt sich folglich als
√
0
). (Man kann dies analog zum ersten Fall begründen.)
1 − Tn−1 ( n ⋅ X−µ
s
Man berechnet ihn in R mit:
t.test(x, mu = µ0 , alt=“greater“)$p.value
(Dabei ist x ein Vektor mit den Daten X1 , . . . , Xn .)
Man spricht hierbei von einem rechtsseitigen t-Test.
Beispiel: Beim Testen der Nullhypothese H0 ∶ µ ≤ 170 erhält man die folgende
Stichprobe X1 , . . . , X10 einer (normalverteilten) Größe X:
160.0, 154.7, 182.8, 181.4, 165.3, 181.0, 176.5, 182.9, 187.1, 168.4
Man berechnet X = 174.1 und s ≈ 11.12. Es ergibt sich der p-Wert ≈ 0.142. H0
kann also (z.B.) zu den Signifikanzniveaus 0.1, 0.05 und 0.01 nicht abgelehnt
werden.
51
2 Hypothesentests
ˆ Die Nullhypothese H0 ∶ µ = µ0 ist (bei gegebener Stichprobe X1 , . . . , Xn )
genau dann abzulehnen, wenn
√ X − µ0
α
Tn−1 ( n ⋅
)≤
s
2
√ X − µ0
α
oder Tn−1 ( n ⋅
)≥1−
s
2
Wegen der Symmetrie der t-Verteilung ist das genau dann der Fall, wenn
⎛
⎛√ ∣X − µ0 ∣ ⎞⎞
2 ⋅ 1 − Tn−1
n⋅
≤α
s
⎝
⎝
⎠⎠
√
(Äquivalent ist die Bedingung Tn−1 ( n ⋅
∣X−µ0 ∣
)
s
≥ 1 − α2 )
Der p-Wert dieses Tests (zu den Daten X1 , . . . , Xn ) ergibt sich folglich als
√ ∣X−µ ∣
2 ⋅ (1 − Tn−1 ( n ⋅ s 0 )). Man berechnet ihn in R mit:
t.test(x, mu = µ0 , )$p.value
(Dabei ist x ein Vektor mit den Daten X1 , . . . , Xn .)
Noch einige Anmerkungen zu den t-Tests:
ˆ Kennt man die Standardabweichung σ, so kann man s durch σ ersetzen
und statt der t-Verteilung Tn−1 die Standardnormverteilung Φ benutzen.
√
(Die Größe n ⋅ X−µ
ist standardnormalverteilt.) Dies könnte man näheσ
rungsweise auch dann tun, wenn n groß ist, da sich dann die t-Verteilung
der Standardnormalverteilung annähert. Benutzt man Φ statt Tn−1 , so
spricht man von einem Gauß-Test.
ˆ Grundsätzlich ist zu einer Stichprobe X1 , . . . , Xn einer beliebigen zufälli-
gen Größe X (mit beliebiger unbekannter Verteilungsfunktion), die nicht
√
unbedingt normalverteilt ist, die Testgröße Y = n ⋅ X−µ
nicht mehr ts
verteilt. Falls aber n groß genug ist (eine Faustregel besagt n > 30, im
allgemeinen hängt dies aber von der unbekannten vorliegenden Verteilung
ab), so ist Y immer noch annähernd t-verteilt (und damit auch annähernd
standardnormalverteilt) und der t-Test (wie auch der Gauß-Test) liefert
gute Ergebnisse. Daher sind diese Tests im allgemeinen ’robust gegenüber
Verletzungen der Normalverteilungsannahme’.
2.) Hypothesen über die Standardabweichung σ
Wir testen nun (für einen gegebenen Wert σ0 ) die Nullhypothesen
σ ≥ σ0
σ ≤ σ0
σ = σ0
zu einem gegebenen Signifikanzniveau α. Wir verzichten dabei auf die Rechtfertigungen der genannten Testmethoden mit dem Hinweis, dass diese ähnlich
zu denen in 1.) verlaufen, wobei hier nun
die Teststatistik
52
T (X1 , . . . , Xn ) =
(n − 1) ⋅ sX 2
σ0 2
und
(n − 1) ⋅ sX 2
σ2
benutzt werden. Da Y (wie wir in Kapitel 1) gesehen haben) χ2 -verteilt (mit
Y =
die zufällige Größe
n − 1 Freiheitsgraden) ist, spielt nun die χ2 -Verteilung Sn−1 eine zentrale Rolle.
ˆ Zur Nullhypothese H0 ∶ σ ≥ σ0 berechnet man bei vorliegenden Daten
X1 , . . . , Xn den p-Wert als
Sn−1 (
(n − 1) ⋅ s2
)
σ0 2
und lehnt H0 zum Signifikanzniveau α folglich genau dann ab, wenn
Sn−1 (
(n − 1) ⋅ s2
)≤α
σ0 2
ˆ Zur Nullhypothese H0 ∶ σ ≤ σ0 berechnet man bei vorliegenden Daten
X1 , . . . , Xn den p-Wert als
1 − Sn−1 (
(n − 1) ⋅ s2
)
σ0 2
und lehnt H0 zum Signifikanzniveau α folglich genau dann ab, wenn
1 − Sn−1 (
(n − 1) ⋅ s2
)≤α
σ0 2
) ≥ 1 − α)
(Äquivalent dazu ist die Bedingung Sn−1 ( (n−1)⋅s
σ0 2
2
ˆ Zur Nullhypothese H0 ∶ σ = σ0 berechnet man bei vorliegenden Daten
X1 , . . . , Xn den p-Wert als
2 ⋅ min ( Sn−1 (
(n − 1) ⋅ s2
(n − 1) ⋅ s2
)
,
1
−
S
(
))
n−1
σ0 2
σ0 2
und lehnt H0 zum Signifikanzniveau α folglich genau dann ab, wenn
2 ⋅ min ( Sn−1 (
(n − 1) ⋅ s2
(n − 1) ⋅ s2
)
,
1
−
S
(
) )≤α
n−1
σ0 2
σ0 2
( Äquivalent dazu ist, dass eine der Ungleichungen
Sn−1 (
(n − 1) ⋅ s2
α
)≤
2
σ0
2
oder Sn−1 (
(n − 1) ⋅ s2
α
)≤1−
2
σ0
2
erfüllt ist.)
3.) Hypothesen über die Mittelwerte µX , µY zweier unabhängiger (normalverteilter) Größen
Wir untersuchen nun erstmals den Fall, dass zwei zufällige Größen X, Y vorliegen, deren Erwartungswerte µX , µY wir vergleichen wollen. Dazu werden zwei
53
2 Hypothesentests
(jeweils zufällige und unabhängige) Stichproben X1 , . . . , Xn und Y1 , . . . , Ym erhoben, anhand derer man nun Hypothesentests durchführen kann.
Beispiel: Das Gewicht von Afrikanischen (Größe X) und Indischen Elefantenkühen
(Größe Y ) wird untersucht. Es ergeben sich folgende Stichproben (Werte in kg):
Stichprobe für X (n = 18)
∶
2835, 3979, 3012, 2548, 2213, 3094, 2225, 2006, 2554, 2921,
2876, 2855, 3294, 3481, 3186, 2280, 3755, 2432
Stichprobe für Y (n = 15)
∶
2567, 2833, 2425, 2754, 2499, 2529, 2438, 2863, 2850, 2574
2665, 2771, 2829, 2161, 2919
Möchte man einen ’empirischen Nachweis’ erbringen, dass Afrikanische Elefantenkühe
(im Schnitt) schwerer sind als Indische, so kann man die Nullhypothese H0 ∶ µX ≤ µY
einem Test unterziehen. Bei einem signifikanten Ergebnis wäre H0 widerlegt und folglich die Gegenhypothese H1 ∶ µX > µY
bestätigt (mit einer Irrtumswahrscheinlich-
keit, die nicht höher als das Signifikanzniveau ist).
Man spricht dabei von Zweistichprobentests, d.h. es werden Hypothesen
über die Parameter zweier Größe mit Hilfe zweier Stichprobe (der Längen n
und m) getestet.
Für eine exakte Vorgehensweise muss vorausgesetzt werden, dass X und Y normalverteilt sind (mit unbekannten Erwartungswerten µX , µY und unbekannten
Standardabweichungen σX , σY ). Allerdings erzielt man mit den hier vorgestellten t-Tests (für genügend große Stichprobenumfänge, Faustregel: n, m > 30)
auch dann gute Resultate, wenn X und Y nicht normalverteilt sind.
Wir betrachten die Nullhypothesen
H0 ∶ µX − µY ≤ d
H0 ∶ µX − µY ≥ d
H0 ∶ µX − µY = d
mit einer festen Zahl d ∈ R (man beachte insbesondere den Fall d = 0).
Benutzt wird die Teststatistik
X −Y −d
T (X1 , . . . , Xn , Y1 , . . . , Ym ) = √
,
sX 2
sY 2
+
n
m
die im Fall µX − µY = d (und normalverteilter X und Y ) t-verteilt ist, wobei
die Zahl k der Freiheitsgrade durch
2
k = k(X1 , . . . , Xn , Y1 , . . . , Ym ) =
( sXn +
1
n−1
2
2
( sXn ) +
2
sY 2
)
m
1
m−1
2
2
Y
( sm
)
gegeben ist und damit nicht unbedingt eine natürliche Zahl sein muss. (Dazu
beachte man, dass die t-Verteilung auch für beliebige positive reelle Freiheitsgrade definiert werden kann.)
Liegen nun Daten X1 , . . . , Xn und Y1 , . . . , Ym vor, so berechnet man zunächst
T = T (X1 , . . . , Xn , Y1 , . . . , Ym )
54
und k = k (X1 , . . . , Xn , Y1 , . . . , Ym )
und bestimmt dann
(i) zur Nullhypothese H0 ∶ µX − µY ≤ d den p-Wert als 1 − Tk (T ).
(ii) zur Nullhypothese H0 ∶ µX − µY ≥ d den p-Wert als Tk (T ).
(iii) zur Nullhypothese H0 ∶ µX − µY = d den p-Wert als 2 ⋅ (1 − Tk (∣T ∣)).
(man bezeichnet diese Testverfahren als Welch-Tests)
Beispiel: In obigem Beispiel (Gewicht der Elefanten) testen wir die Nullhypothese
H0 ∶ µX ≤ µY . Dies entspricht Fall (i) mit d = 0. Mit den oben angegebenen Daten
berechnet man
X ≈ 2863.7,
sX ≈ 546.5,
T ≈ 1.5606,
Y ≈ 2645.1,
k ≈ 22.826,
sY ≈ 212.7
p-Wert ∶ 0.0662
Der kleine p-Wert spricht gegen H0 und damit für die Gegenhypothese H1 , die besagt,
dass Afrikansiche Elefantenkühe im Schnitt schwerer sind als Indische. Ob man dies als
(empirischen) Nachweis von H1 akzeptiert, hängt von der Wahl des Signifikanzniveaus
ab (für α = 0.1 kann H0 abgelehnt werden, nicht jedoch für α = 0.05).
Man kann dies variieren, indem man (z.B.) die Nullhypothese H0 ∶ µX − µY ≤ 100
betrachtet, die besagt, dass Afrikanische Elefantenkühe im Schnitt nicht mehr als
100kg schwerer sind als Indische. Dies entspricht Fall (i) mit d = 100. Man berechnet zu obigen Daten einen p-Wert von ≈ 0.2030. Damit kann H0 also (zu üblichen
Signifikanzniveaus) nicht abgelehnt werden.
Mithilfe der Funktion In R können die p-Werte der Tests in (i)-(iii) direkt mit
der Funktion t.test berechnet werden. Sind die Stichprobenergebnisse X1 , . . . , Xn
und Y1 , . . . , Ym in den Vektoren x und y eingetragen, so bestimmt man den pWert durch
(i) t.test(x, y,mu=d,alt=“greater“)$p.value
(ii) t.test(x, y,mu=d,alt=“less“)$p.value
(iii) t.test(x, y,mu=d,alt=“two.sided“)$p.value oder t.test(x, y,mu=d)$p.value
55
2 Hypothesentests
4.) Hypothesen über die Mittelwerte µX , µY zweier normalverteilter Größen
anhand verbundener Stichproben
Eine sogenannte verbundene Stichprobe für zwei zufällige Größen X und Y
erhält man, wenn man die einzelnen Werte von X und Y einander eindeutig
zuordnen kann. Dies ist meist dann der Fall, wenn man die Stichproben für X
und Y an den gleichen ’Untersuchungseinheiten’ erhebt. Beispiele sind:
ˆ Schadstoffkonzentration an n verschiedenen Orten zu zwei Zeitpunkten tX
und tY
ˆ Blutwerte von n Personen vor und nach Einnahme eines Medikaments
ˆ Temperatur an zwei Orten X und Y zu n verschiedenen Zeitpunkten
ˆ Leistung einer Gruppe von n Schülern in Mathematik und Physik
Die Daten liegen dabei in Form von Paaren (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )
vor (dabei können Xj und Yj jeweils einander zugeordnet werden), die beiden
einzelnen Stichproben X1 , . . . , Xn und Y1 , . . . , Yn haben die gleiche Länge n und
müssen nicht unabhängig voneinander sein.
Falls X und Y Größen bezeichnen, die in derselben Einheit angegeben werden
können, so kann man die Differenz Z = X − Y bilden. Für Z liegt dann die
Stichprobe Z1 , . . . , Zn mit
Z1 = X1 − Y1 , Z2 = X2 − Y2 , . . . , Zn = Xn − Yn
vor. Man beachte außerdem, dass Erwartungswert und empirischer Mittelwert
sogeannte ’lineare’ Größen sind. Folglich gilt:
µZ = µX − µY
und Z = X − Y
Man wollen nun anhand dieser Stichprobe für Z die folgenden Nullhypothesen
untersuchen (dabei ist d stets eine feste reelle Zahl):
(i) H0 ∶ µX ≥ µY + d ist äquivalent zu H0 ∶ µZ ≥ d .
Falls Z als normalverteilt angenommen werden kann (oder falls n > 30
ist), kann man folglich einen (linksseitigen) Einstichproben-t-Test auf Z
√
anwenden und berechnet den p-Wert mittels Tn−1 ( n ⋅ Z−d
).
sZ
(ii) H0 ∶ µX ≤ µY + d ist äquivalent zu H0 ∶ µZ ≤ d .
Falls Z als normalverteilt angenommen werden kann (oder falls n > 30
ist), kann man folglich einen (rechtsseitigen) Einstichproben-t-Test auf Z
√
anwenden und berechnet den p-Wert mittels 1 − Tn−1 ( n ⋅ Z−d
).
sZ
(iii) H0 ∶ µX = µY + d ist äquivalent zu H0 ∶ µZ ≥ d .
Falls Z als normalverteilt angenommen werden kann (oder falls n > 30
56
ist), kann man folglich einen (zweiseitigen) Einstichproben-t-Test auf Z
√ ∣Z−d∣
anwenden und berechnet den p-Wert mittels 2 ⋅ (1 − Tn−1 ( n ⋅ sZ )).
(zum den p-Werten der t-Tests vergleiche Seiten 51-52)
Man beachte, dass man aus der Normalverteilungsannahme für X und Y nicht
auf die Normalverteilung von Z schließen kann. Außerdem lassen sich die Standardabweichung σZ bzw. die korrigierte Stichprobenvarianz sZ für Z im allgemeinen nicht aus σX und σY bzw. aus sX und sY bestimmen, wenn X und Y
nicht unabhängig sind.
Beispiel: Man bestimmt an 40 zufällig über mehrere Jahre verteilten Tagen die Tageshöchsttemperatur X und Y an zwei Orten und erhält folgende Werte:
Tag j
Temperatur Xj
Temperatur Yj
1
2
29.9 20.8
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
20.7 32.7 15.0 16.0 24.4 29.3 23.7
1.7
20.7 13.8
-4.7
28.5 15.6 13.3
-1.4
32.3 22.7
12.7 11.2
9.5
22.2 25.5 16.2 12.0 20.4 25.9 24.4
-3.6
-5.9
30.3 12.1 16.0
-2.0
33.1 17.4
Differenz Zj = Xj − Yj
1.0
3.4
-2.0
-1.5
7.2
-1.2
4.0
4.0
3.4
-0.7
5.3
8.0
2.6
1.2
-1.8
3.5
-2.7
0.6
-0.8
Tag j
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
Temperatur Xj
Temperatur Yj
4.9
12.8 14.7
-1.1
4.1
2.0
-5.2
7.9
11.1 27.6 15.5 11.7 17.5 21.5 17.0 13.5 24.6
0.8
2.2
12.8 10.7
-4.7
-2.7
-1.9
7.7
13.8
-7.5
0.0
10.3 25.3 14.2
3.6
6.8
3.9
3.1
-0.9
2.3
7.9
Differenz Zj = Xj − Yj
28.9 17.4
3
7.5
2.7
0.0
4.0
10.8 12.9
0.8
2.3
1.3
5.8
5.9
10.3 17.5 17.8
7.2
Zum Testen der Nullhypothese H0 ∶ µX ≥ µY + 4 (’die erwarteten Tageshöchsttemperaturen X am ersten Ort sind um mindestens 4 Grad höher als die erwarteten
Tageshöchsttemperaturen Y am zweiten Ort’) kann man nun einfach die Differenz
Z = X − Y bilden (siehe Tabelle) und die äquivalente Nullhypothese H0 ∶ µZ ≥ 4
einem t-Test unterziehen, vergleiche dazu Fall (i) auf Seite 51. (Dieses Vorgehen ist
wegen n > 30 auf jeden Fall gerechtfertigt, für kleine n müsste man zunächst prüfen,
ob die Temperaturdifferenzen Z normalverteilt sind.) Man erhält mit ≈ 0.00555 eine
sehr geringen p-Wert und kann daher die Nullhypothese ablehnen.
Für mit verbundenen Stichproben untersuchte Größen X und Y ist oft die Frage
nach der Unabhängigkeit von X und Y von Interesse. Wir werden im nächsten
Abschnitt einen Test kennenlernen, mit der man diese Frage statistisch prüfen
kann.
57
4.0
-0.8
5.3
40
4.2
20.5
-1.0
9.3
4.1
1.8
2 Hypothesentests
Verschiedene χ2 -Tests
Vom χ2 -Test existieren verschiedene Varianten, mit denen man die folgenden Nullhypothesen untersuchen kann:
1.) H0 : Für eine zufällige Größe liegt eine bestimmte (angegebene) Verteilung vor.
(Anpassungstest bzw. Test auf Verteilung)
2.) H0 : Zwei (oder mehr) unabhängige zufällige Größen haben dieselbe Verteilung.
(Homogenitätstest)
3.) H0 : Zwei (verbundene) zufällige Größen sind unabhängig voneinander.
(Unabhängigkeitstest)
1.) χ2 -Anpassungstests
Wir betrachten zunächst eine diskrete zufällige Größe X, die nur die Werte
a1 , . . . , am annehmen kann. Außerdem seien (vermutete) Wahrscheinlichkeiten
p1 , . . . , pm für a1 , . . . , am gegeben, dabei muss (natürlich) p1 +. . .+pm = 1 gelten.
Wir untersuchen nun die Nullhypothese
H0 ∶ W (X = a1 ) = p1 , W (X = a2 ) = p2 , . . . , W (X = am ) = pm
Man ermittelt nun aus einer Stichprobe X1 , . . . , Xn der Länge n die absoluten
Häufigkeiten
hk = Anzahl der j mit Xj = ak
(k = 1, . . . , m)
und vergleicht sie mit den (anhand der Nullhypothese) erwarteten absoluten Häufigkeiten n ⋅ pk .
Als Teststatistik betrachtet man die (zufällige) Größe:
(hk − n ⋅ pk )
n ⋅ pk
k=1
m
2
T=∑
Falls H0 gilt, so erwartet man, dass hk ungefähr n ⋅ pk ist und dass somit T klein
ist. Folglich spricht ein niedriger Wert von T für H0 und ein hoher Wert von T
gegen H0 .
Man kann nun H0 (zu einem gegebenen Signifikanzniveau α) ablehnen, wenn
Sm−1 (T ) ≥ 1 − α ist. (Dabei bezeichnet Sm−1 die χ2 -Verteilung mit m − 1
Freiheitsgraden.) Also wird H0 genau dann abgelehnt, wenn 1 − Sm−1 (T ) ≤ α
ist und damit ergibt sich der p-Wert des Tests als 1 − Sm−1 (T ).
Beispiel: Ein Würfel wird n = 600-mal geworfen. Es ergeben sich die folgenden (absoluten) Häufigkeiten der Augenzahlen:
Augenzahl
58
1
2
absolute Häufigkeit
91
122
unter H0 erwartete absolute Häufigkeit
100
100
3
4
5
6
97
95
107
88
100
100
100
100
Kann man anhand dieser Beobachtungen davon ausgehen, dass bei diesem Würfel alle
Augenzahlen mit der gleichen Wahrscheinlichkeit
1
6
auftreten?
Die zufällige Größe ’Augenzahl’ X kann nur die Werte a1 = 1, . . . , a6 = 6 annehmen. Zu
prüfen ist, ob diesen Werten die Wahrscheinlichkeiten p1 =
1
, . . . , p6
6
=
1
6
zugeordnet
sind. Wir testen dazu die Nullhypothese
H0 ∶ W (X = 1) = 16 , W (X = 2) = 16 , . . . , W (X = 6) =
1
6
Mit den oben angebenen absoluten Häufigkeiten berechnen wir die Teststatistik
=
(hk − n ⋅ pk )2
n ⋅ pk
k=1
=
(91 − 100)2 (122 − 100)2 (97 − 100)2 (95 − 100)2 (107 − 100)2 (88 − 100)2
+
+
+
+
+
100
100
100
100
100
100
7.92
6
T
=
∑
und daraus den p-Wert 1 − S6−1 (7.92) ≈ 0.1607.
Anmerkungen:
ˆ Mit R kann man den Test mit chisq.test(h, p = c(p1 , . . . , pm )) durchführen,
wenn die beobachteten absoluten Häufigkeiten in einem Vektor h zusammengefasst sind.
ˆ Der χ2 -Test ist kein exakter Test. Das bedeutet, dass gewisse Mindest-
größen für die erwarteten Häufigkeiten vorliegen müssen, damit der Test
angewendet werden kann. Als Faustregel findet man (unter anderem), dass
alle n ⋅ pk größer oder gleich 1 und mindestens 80% der n ⋅ pk größer oder
gleich 5 sein müssen. Die Funktion chisq.test gibt eine Warnung aus, wenn
nicht alle n ⋅ pk größer oder gleich 5 sind. In diesem Fall sollte man also
dem Testergebnis nicht zu sehr vertrauen (selbst bei einem signifikanten
Ergebnis). Es bieten sich folgende Möglichkeiten:
– n erhöhen und damit erreichen, dass n ⋅ pk ≥ 5 für alle k = 1, . . . , m ist
– mehrere Werte von k zusammenfassen, dies entspricht der Bildung
von ’Klassen’ (s.u.), dabei gehen allerdings Teile der Informationen
verloren
– ein anderes (exaktes) Testverfahren benutzen
Varianten für stetige Größen:
(a) Hat man eine zufällige Größe vorliegen, bei der beliebige reelle Zahlen als
Werte möglich sind, so kann man einen χ2 -Test durchführen, wenn man den
Bereich der möglichen Werte in verschiedene Klassen A1 , . . . , Am unterteilt.
Getestet wird dann eine Nullhypothese, die besagt, dass eine bestimmte
Verteilung vorliegt, beispielsweise eine (µ0 , σ0 2 )-Normalverteilung (mit gegebenen µ0 , σ0 ) oder eine λ0 -Exponentialverteilung (mit gegebenem λ0 ).
59
2 Hypothesentests
Gegeben seien nun die Werte X1 , . . . , Xn einer Stichprobe. Man betrachtet
dazu die absoluten (Klassen-)Häufigkeiten
hk = Anzahl der j mit Xj ∈ Ak
(k = 1, . . . , m)
und die unter H0 erwarteten absoluten (Klassen-)Häufigkeiten
n ⋅ pk
mit pk = W (X ∈ Ak ∣H0 gilt)
(k = 1, . . . , m)
und geht dann wie oben vor, d.h. man bildet die Teststatistik
(hk − n ⋅ pk )
n ⋅ pk
k=1
m
2
T=∑
und berechnet daraus den p-Wert 1 − Sm−1 (T ) mit der χ2 -Verteilung.
Beispiel: Man möchte testen, ob eine zufällige Größe normalverteilt mit µ = 100
und σ = 20 ist. Der Bereich der möglichen Werte (also hier ] − ∞, ∞[) wird nun
wie folgt in Klassen eingeteilt:
A1 =]−∞, 70[,
A2 = [70, 90[,
A3 = [90, 100[,
A4 = [100, 110[,
A5 = [110, 130[,
A6 = [130, ∞[
Danach wird die folgende Stichprobe ermittelt (n = 80):
104.0 , 98.6, 125.4, 127.1 , 125.4 , 70.9 , 96.1 , 80.6 , 92.3 , 97.3 , 73.4 , 102.7 , 134.5 , 87.4 ,
120.1 , 95.0 , 89.7 , 116.1 , 119.1 , 107.6 , 103.8 , 99.3 , 138.7 , 60.8 , 77.5 , 93.3 , 95.9 , 89.3 ,
146.2 , 73.5 , 100.5 , 104.7 , 47.7 , 93.1 , 113.6 , 89.0 , 122.5 , 51.0 , 88.0 , 99.6 , 98.3 , 98.2 ,
86.1 , 115.1 , 103.4 , 73.8 , 77.2 , 118.2 , 78.9 , 130.7 , 112.5 , 88.5 , 115.8 , 116.3 , 107.7 , 118.3 ,
128.7 , 114.9 , 95.7 , 131.1 , 111.0 , 72.1 , 113.3 , 84.4 , 82.6 , 86.6 , 106.2 , 148.0 , 110.3 , 108.5 ,
96.7 , 125.6 , 71.1 , 97.0 , 114.9 , 56.8 , 74.3 , 98.9 , 104.9 , 122.0
Man ermittelt nun die Klassenhäufigkeiten und erwarteten Klassenhäufigkeiten:
Klasse Ak
] − ∞, 70[ [70, 90[ [90, 100[ [100, 110[ [110, 130[ [130, ∞[
Klassenhäuf. hk
4
21
16
11
22
6
Klassenwahrsch. pk (unter H0 )
0.0668
0.2417
0.1915
0.1915
0.2417
0.0668
erw. Klassenhäuf. n ⋅ pk
5.344
19.336
15.320
15.320
19.336
5.344
Die Klassenwahrscheinlichkeiten berechnen sich dabei wie folgt (vergleiche Seite
24 oben zur Berechnung der Wahrscheinlichkeiten bei normalverteilten Größen):
70 − 100
) ≈ 0.0668
20
90 − 100
70 − 100
∈ A2 ∣H0 ) = Φ (
) − Φ(
) ≈ 0.2417
20
20
100 − 100
90 − 100
∈ A3 ∣H0 ) = Φ (
) − Φ(
) ≈ 0.1915
20
20
110 − 100
100 − 100
∈ A4 ∣H0 ) = Φ (
) − Φ(
) ≈ 0.1915
20
20
130 − 100
110 − 100
∈ A5 ∣H0 ) = Φ (
) − Φ(
) ≈ 0.2417
20
20
130 − 100
) ≈ 0.0668
∈ A6 ∣H0 ) = 1 − Φ (
20
p1
=
W (X ∈ A1 ∣H0 ) = Φ (
p2
=
W (X
p3
=
W (X
p4
=
W (X
p5
=
W (X
p6
=
W (X
Daraus berechnen sich nun die Teststatistik
=
(hk − n ⋅ pk )2
n ⋅ pk
k=1
=
(4 − 5.344)2 (21 − 19.336)2 (16 − 15.320)2 (11 − 15.320)2 (22 − 19.336)2 (6 − 5.344)2
+
+
+
+
+
5.344
19.336
15.320
15.320
19.336
5.344
2.1771
6
T
≈
60
∑
und daraus den p-Wert 1 − S6−1 (2.1771) ≈ 0.8221. Die Daten sind also mit der
Nullhypothese vereinbar. (Es liegt aber kein signifikantes Ergebnis vor. Es ist
somit denkbar, dass die Nullhypothese trotz des hohen p-Werts falsch ist.)
Anmerkungen:
ˆ Die Wahl der Klassen kann das Testergebnis beeinflussen. Daher müssen
die Klassen schon vor der Datenerhebung festgelegt werden. Darüber
hinaus gibt es keine festen Regeln für die Einteilung der Klassen. Es
macht meist Sinn, die Klassen als Intervalle zu wählen und darauf zu
achten, dass die unter H0 erwarteten Klassenhäufigkeiten in etwa gleich
groß und allesamt größer oder gleich 5 sind. Auf jeden Fall sollte man
vor der Durchführung eines Tests sorgfältig über die Wahl der Klassen
nachdenken.
ˆ Bei dem angegebenen Verfahren wird das Testergebnis durch die exak-
ten Werte der Stichprobe nicht beeinflusst, lediglich die Klassenhäufigkeiten sind von Bedeutung (Teile der vorhanden Informationen werden
nicht genutzt). Genau genommen entspricht dies nicht einem Test der
Nullhypothese (V bezeichne eine bestimmte Verteilung)
H0 ∶ X ist nach V verteilt
sondern
H0 ∶ W (X ∈ Ak ) = W (eine nach V verteilte Größe liegt in Ak )
für alle k = 1, . . . , m
Damit kann der Test Abweichungen von der hypothetischen Verteilung V, die die Klassenwahrscheinlichkeiten nicht beeinflussen, nicht
aufdecken.
(b) Will man lediglich testen, dass eine bestimmte Verteilungsart vorliegt,
so kann man die unbekannten Parameter schätzen und dann einen Test
wie oben durchführen. In diesem Fall verringert sich die Zahl der Freiheitsgrade um die Anzahl der geschätzten Parameter, man benutzt also
die χ2 -Verteilung Sm−g−1 , wobei m die Zahl der Klassen und g die Zahl der
geschätzten Parameter ist.
Bespiel: Es soll überprüft werden, ob die ’Lebensdauer’ von Seifenblasen (zufällige Größe X) exponentialverteilt ist (und damit von ’Alterungserscheinungen’ nicht
beeinflusst wird), man formuliert dazu die Nullhypothese
H0 ∶ X ist exponentialverteilt (mit irgendeinem Parameter λ)
Man testet n = 40 Seifenblasen und bestimmt die folgenden Zeiten bis zum Zerplatzen (in Sekunden):
16.2 , 7.5 , 13.0 , 7.4, 13.8 , 6.0 , 52.8 , 6.7, 35.1 , 6.5 , 3.5 , 8.1, 15.2 , 14.0 , 47.0, 2.7 , 10.4 , 11.5 ,
24.8 , 5.6 , 34.1, 17.2 , 19.3 , 13.6, 12.9 , 12.7, 25.6, 24.3 , 0.4 , 10.8, 28.1, 25.2 , 11.6, 5.2 , 4.5 , 3.7,
4.2 , 7.9, 6.9 , 25.8
61
2 Hypothesentests
Die Klassen wurden wie folgt festgelegt:
A1 = [0, 6[,
A2 = [6, 10[,
A3 = [10, 15[,
A4 = [15, ∞[
Damit ergeben sich (durch ’Nachzählen’) die absoluten Klassenhäufigkeiten:
h1 = 8,
h2 = 8,
h3 = 10,
h4 = 14
Zur Berechnung der Klassenwahrscheinlichkeiten unter H0 (und damit der erwarteten Klassenhäufigkeiten) muss der Parameter λ geschätzt werden:
1
≈ 0.06647
X
Damit ergibt sich nun (vergleiche Seite 33 oben zur Berechnung der Wahrscheinλ≈
lichkeiten bei exponentialverteilten Größen):
p1
=
W (X ∈ A1 ∣H0 gilt mit dem geschätzten λ) = 1 − exp(−λ ⋅ 6) ≈ 0.3289
p2
=
W (X ∈ A2 ∣H0 gilt mit dem geschätzten λ) = exp(−λ ⋅ 6) − exp(−λ ⋅ 10) ≈ 0.1567
p3
=
W (X ∈ A3 ∣H0 gilt mit dem geschätzten λ) = exp(−λ ⋅ 10) − exp(−λ ⋅ 15) ≈ 0.1455
p4
=
W (X ∈ A4 ∣H0 gilt mit dem geschätzten λ) = exp(−λ ⋅ 15) ≈ 0.3690
und folglich
n ⋅ p1 ≈ 13.156,
n ⋅ p2 ≈ 6.268,
n ⋅ p3 ≈ 5.820,
n ⋅ p4 ≈ 14.760
Man berechnet nun die Teststatistik:
(hk − n ⋅ pk )2 (8 − 13.156)2 (8 − 6.268)2 (10 − 5.820)2 (14 − 14.760)2
=
+
+
+
≈ 5.541
n ⋅ pk
13.156
6.268
5.820
14.760
k=1
4
T=∑
Die Zahl der Freiheitsgrade für die χ2 -Verteilung ergibt sich als
Zahl der Klassen − Zahl der geschätzten Parameter − 1 = 4 − 1 − 1 = 2
und somit ergibt sich der p-Wert als 1 − S2 (5.541) ≈ 0.0626.
2.) χ2 -Homogenitätstests
Gegeben seien zwei zufällige Größen X und Y . Die folgende sogenannte Homogenitätshypothese soll geprüft werden:
H0 ∶ X und Y haben dieselbe Verteilung
(Man beachte, dass nichts über die Verteilung oder die Art der Verteilung gesagt wird.)
Die Beurteilung von H0 erfolgt anhand von unabhängigen Stichproben
X1 , . . . , X(nX ) von X
und Y1 , . . . , Y(nY ) von Y
Wir betrachten zunächst wieder den Fall, dass X und Y diskrete Größen sind,
die die Werte a1 , . . . , am annehmen können. Man ermittelt nun aus den vorhandenen Stichproben die absoluten Häufigkeiten
X
hX
k = Anzahl der j ∈ {1, . . . , n } mit Xj = ak
und hYk = Anzahl der j ∈ {1, . . . , nY } mit Yj = ak
für k = 1, . . . , m. Oft fasst man diese in einer sogenannten Kontingenztabelle
zusammen:
62
mögliche Werte
a1
a2
...
am
gesamt
X
hX
1
hX
2
...
hX
m
nX
Y
hY1
hY2
...
hYm
nY
gesamt
Y
h1 = hX
1 + h1
Y
h2 = hX
2 + h2
...
Y
hm = hX
m + hm
n = nX + nY
Man betrachtet dazu nun die folgende Teststatistik:
2
m
X hk
(hX
)
k −n
n
k=1
nX hnk
T=∑
(hYk − nY
m
+ ∑
nY
k=1
hk 2
)
n
hk
n
Die Idee dabei ist, dass man im Falle der Gültigkeit von H0 annehmen kann, dass
die relativen Häufigkeiten von ak bei X und Y in etwa gleich der gesamten relativen
Häufigkeit von ak sind, das heißt dass
hX
hk
k
≈
nX
n
hYk
hk
≈
nY
n
und
zu erwarten ist, wenn H0 gilt. Dies hätte dann zur Folge, dass die bei der Berechnung
von T auftretenden Quadrate (und damit auch T selbst) eher kleine Werte annimmt,
wenn H0 gilt. Also spricht ein hoher Wert von T gegen H0 .
Da T (approximativ) χ2 -verteilt (mit m − 1 Freiheitsgraden ist), kann man H0
zu einem gegebenen Signifikanzniveau α anlehnen, wenn Sm−1 (T ) ≥ 1 − α gilt.
Der p-Wert des Tests ergibt sich damit als 1 − Sm−1 (T ).
Beispiel: Es soll untersucht werden, ob Frauen und Männer das gleiche Wahlverhalten
zeigen. Zu den 5 zur Auswahl stehenden Parteien wurden 120 Frauen und 100 Männer
befragt. Es ergab sich folgende Kontingentabelle:
Partei 1
Partei 2
Partei 3
Partei 4
Partei 5
gesamt
Frauen
50
34
9
18
9
120
Männer
31
26
21
12
10
100
gesamt
81
60
30
30
19
220
Man berechnet nun die Teststatistik
m
T
=
∑
2
X hk
(hX
)
k −n
n
nX hnk
k=1
81 2
)
220
81
220
120 ⋅
(31
+
≈
hk
n
60 2
)
− 120 ⋅ 220
60
120 ⋅ 220
k=1
(50 − 120 ⋅
=
(hYk − nY
m
+ ∑
(34
+
81 2
)
− 100 ⋅ 220
81
100 ⋅ 220
(26
+
hk 2
)
n
nY
30 2
)
220
30
220
(9 − 120 ⋅
+
60 2
)
− 100 ⋅ 220
60
100 ⋅ 220
120 ⋅
(21
+
30 2
)
220
30
220
(18 − 120 ⋅
+
30 2
)
− 100 ⋅ 220
30
100 ⋅ 220
120 ⋅
(12
+
19 2
)
220
19
220
(9 − 120 ⋅
+
30 2
)
− 100 ⋅ 220
30
100 ⋅ 220
120 ⋅
19 2
)
220
19
220
(10 − 100 ⋅
+
9.839
und den p-Wert 1 − S5−1 (9.839) ≈ 0.0432. Dies ist also ein signifikantes Ergebnis (zum
Signifikanzniveau α = 0.05) und damit ist die Gegenhypothese
H1 : Männer und Frauen wählen unterschiedlich.
empirisch belegt.
63
100 ⋅
2 Hypothesentests
Anmerkungen:
ˆ Man kann diesen Test in R mit chisq.test(h) durchführen. Dabei muss h eine Matrix (mit 2 Zeilen und m Spalten) sein, deren Einträge mit denen der
Kontingenztabelle übereinstimmen (d.h. in der ersten Zeile von h befinden
X
Y
Y
sich die Werte hX
1 , . . . , hm und in der zweiten Zeile die Werte h1 , . . . , hm .)
Man erreicht dies zum Beispiel mit:
X
Y
Y
h < -matrix(c(hX
1 , . . . , hm , h1 , . . . , hm ),nrow=2,ncol=m,byrow=TRUE)
ˆ Falls X und Y stetige Größen sind, kann man den χ2 -Anpassungstest im-
mer noch durchführen, wenn man die Menge der möglichen Werte der
beiden Größen vor der Datenerhebung in Klassen A1 , . . . , Am aufteilt und
dann die absoluten Klassenhäufigkeiten
X
hX
k = Anzahl der j ∈ {1, . . . , n } mit Xj ∈ Ak
und hYk = Anzahl der j ∈ {1, . . . , nY } mit Yj ∈ Ak
für k = 1, . . . , m in die Kontingenztabelle einträgt. Man beachte dabei,
dass die Wahl der Klassen das Testergebnis beeinflussen kann und dass
der Test bestimmte Unterschiede in den Verteilungen von X und Y nicht
mehr aufdecken kann, genau genommen untersucht man nun statt der
Nullhypothese
H0 ∶ X und Y haben dieselbe Verteilung
die veränderte Nullhypothese
H0 ∶ W (X ∈ Ak ) = W (Y ∈ Ak )
für alle k = 1, . . . , m
Beispiel: Zwei Maschinen X und Y sollen Kaffee in Päckchen mit je 500 g
abfüllen. Es soll festgestellt werden, ob beide Maschinen gleich arbeiten, dazu
sollen 60 Päckchen von X und 40 Päckchen von Y untersucht werden. Man
bildet (zum Beispiel) die folgenden Klassen
A1 = [0, 496[,
A2 = [496, 498[,
A3 = [498, 499[,
A4 = [499, 500[,
A5 = [500, 501[, A6 = [501, 502[, A7 = [502, 504[, A8 = [504, ∞[
und betrachtet dann die Stichproben. Es ergeben sich die folgenden Werte für
die Gewichte der einzelnen Päckchen:
Für X ∶
502.16 ,
498.67 ,
499.66 ,
499.71 ,
497.53,
499.28 ,
499.47 ,
499.42 ,
499.72,
502.77 ,
501.59 ,
501.65 ,
502.12,
496.87 ,
501.37 ,
499.03 ,
494.84 ,
500.33 ,
497.19 ,
498.35,
500.44,
499.73 ,
501.73 ,
499.16 ,
498.91 ,
498.66 ,
502.23,
499.31 ,
500.63 ,
501.31,
502.06,
Für Y ∶
495.90,
502.10,
502.77 ,
501.12,
498.20,
497.78 ,
497.09,
501.85,
500.91,
499.94,
499.81,
491.33 ,
491.67 ,
493.52 ,
494.81,
495.42 ,
499.19 ,
499.21 ,
499.33,
499.36 ,
499.38,
500.43,
503.02 ,
500.90,
500.92,
503.07 ,
500.99 ,
503.56,
503.84,
498.44 ,
498.80,
503.25 ,
504.43,
501.17,
495.76 ,
499.40 ,
499.45 ,
496.44,
503.97 ,
496.43 ,
499.61,
502.89,
498.50 ,
499.63 ,
501.28 ,
501.49 ,
501.50,
501.78 ,
504.00,
504.19,
504.82 ,
505.12,
500.02,
501.90,
500.84 ,
496.67 ,
Damit ergeben sich die folgenden absoluten Klassenhäufigkeiten:
64
501.14 ,
500.25,
498.39,
504.07,
499.67
497.88 ,
500.21,
502.41,
505.21,
498.72,
500.30,
502.65,
507.54
Klasse Ak
hk =
(X)
hk
(Y )
hk
(X)
hk +
(Y )
hk
A1
A2
A3
A4
A5
A6
A7
A8
gesamt
2
6
9
14
7
10
10
2
n(X) = 60
6
3
1
8
6
4
6
6
8
9
10
22
13
14
16
18
n(X) = 40
(X)
n=n
+ n(Y ) = 100
Nun verläuft alles analog zu oben, man berechnet
T ≈ 13.213
und
p-Wert: 1 − S8−1 (T ) ≈ 0.0671
Die Nullhypothese H0 : Beide Größen sind identisch verteilt. kann also zum Signifikanzniveau α = 0.1 abgelehnt werden, nicht jedoch zum Signifikanzniveau
α = 0.05.
Anmerkung: Ein zweiseitiger Zwei-Stichproben-t-Test (Welch-Test) zur Nullhypothese H0 ∶ µX = µY liefert einen p-Wert von 0.9411. (Die empirischen Mittelwerte X ≈ 500.1165 und Y ≈ 500.1637 unterscheiden sich auch nicht sehr
stark.) Der Unterschied zwischen den beiden Verteilungen scheint also eher nicht
an ihren Erwartungswerten zu liegen.
ˆ Da die Teststatistik nur approximativ χ2 -verteilt ist, kann der Test nur
angewendet werden, wenn die unter H0 erwarteten absoluten Häufigkeiten
nX ⋅
hk
n
und nY ⋅
hk
n
groß genug sind (Regel: alle ≥ 1 und mindestens 80%
davon ≥ 5). Sind sie nicht alle ≥ 5, so erhält man bei Anwendung der
Funktion chisq.test eine Warnung.
ˆ Das Verfahren lässt sich leicht für drei oder mehr zufällige Größe verallge-
meinern. Sind X (1) , . . . , X (l) zufällige Größen und liegen Stichproben vor,
anhand derer man eine Kontingentabelle
mögliche Werte
X (1)
X (2)
⋮
X
(l)
gesamt
a1
a2
(1)
h1
(2)
h1
(1)
h2
(2)
h2
...
...
...
am
gesamt
(1)
hm
(2)
hm
n(1)
⋮
⋮
⋱
⋮
(l)
h1
(l)
h2
...
(l)
hm
h1
h2
...
hm
n(2)
⋮
n
(l)
n
aufstellen kann, so testet man die Nullhypothese
H0 : Die Größen X (1) , . . . X (l) haben alle die gleiche Verteilung.
mit der Statistik
l
m
T =∑∑
i=1 k=1
(i)
(hk − n(i) ⋅
n(i) ⋅
hk
)
n
2
hk
n
testen, diese ist χ2 -verteilt mit (m − 1) ⋅ (l − 1) Freiheitsgraden, man berechnet den p-Wert durch 1 − S(m−1)⋅(l−1) (T ). Man kann dies in R (wie
im Fall l = 2, siehe oben) mit chisq.test(h) tun, wobei die Matrix h, die
65
2 Hypothesentests
der Kontingenztabelle entspricht, diesmal eine Matrix mit l Zeilen und m
Spalten ist.
3.) χ2 -Unabhängigkeitstests
Gegeben seien nun zwei zufällige Größen X und Y und eine verbundene Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ). Getestet werden soll die Nullhypothese
H0 ∶ X und Y sind unabhängig voneinander
(Mathematisch unterscheidet sich diese Variante nicht von der zuvor untersuchten
Homogenitätshypothese für zwei oder mehr unabhängige zufällige Größen. In Bezug
auf Anwendungsbezug, Formulierung und Interpretation bestehen aber Unterschiede,
auf die wir hier aufmerksam machen wollen.
Wir betrachten wiederum zunächst den Fall, dass X und Y diskrete zufällige
Größen sind, mit den möglichen Werten
a1 , . . . , am für X
und b1 , . . . , bl für Y
Man bestimmt nun die absoluten Häufigkeiten
h(k, i) = Anzahl der j mit (Xj = ak und Yj = bi )
(k = 1, . . . , m, i = 1, . . . , l)
und trägt sie in eine Kontingenztabelle ein:
a1
a2
...
am
gesamt
h(1,1)
h(2,1)
...
h(m,1)
h(●,1) = ∑ h(k,1)
b2
h(1,2)
h(2,2)
...
h(m,2)
h(●,2) = ∑ h(k,2)
⋮
⋮
⋮
⋱
⋮
⋮
bl
h(1,l)
h(2,l)
...
h(m,l)
h(●,l) = ∑ h(k,l)
m
b1
k=1
m
k=1
m
l
gesamt
h(1,●) = ∑ h(1,i)
i=1
l
h(2,●) = ∑ h(2,i)
...
i=1
h(m,●) = ∑ h(m,i)
i=1
Falls H0 gilt, erwartet man das die entsprechende Tabelle der relativen Häufigkeiten
(mit hoher Wahrscheinlichkeit annäherungsweise) eine Multiplikationstabelle ist,
d.h. dass
h(k, i) h(k, ●) h(●, i)
≈
⋅
n
n
n
⇔
h(k, i) ≈
h(k, ●) ⋅ h(●, i)
n
für alle auftretenden Paare (k, i) gilt.
(Dabei entspricht
h(k,●)⋅h(●,i)
n
der unter H0 erwarteten absoluten Häufigkeit.)
Man berechnet daher die Teststatistik
l
m
T =∑∑
i=1 k=1
66
2
h(k,●)⋅h(●,i)
)
n
h(k,●)⋅h(●,i)
n
(h(k, i) −
k=1
l
n
(hohe Werte von T sprechen gegen H0 , niedrige Werte von T sind mit H0 vereinbar)
T ist χ2 -verteilt mit (m − 1) ⋅ (l − 1) Freiheitsgraden und der p-Wert berechnet
sich durch 1 − S(m−1)⋅(l−1) (T ). In R geht dies völlig analog zum Fall der Homogenitätshypothese (siehe oben) mit chisq.test(h), falls h die Matrix entsprechend der
Kontingenztabelle (l Zeilen, m Spalten) ist.
Für stetige Größen X und Y bildet man Klassen A1 , . . . , Am für die Werte von X
und B1 , . . . , Bl für die Werte von Y und rechnet analog mit den absoluten Klassenhäufigkeiten
h(k, i) = Anzahl der j mit (Xj ∈ Ak und Yj ∈ Bl )
(k = 1, . . . , m, i = 1, . . . , l)
Beispiel: In einem Leichtathletikverein werden die Leistungen im Kugelstoßen und im 100
Meter-Lauf untersucht. Man teilt die möglichen Zeiten und Weiten in Klassen ein, erfasst
die Leistungen von n = 100 Sportlern und stellt die absoluten Klassenhäufigkeiten in der
Kontingenzabelle zusammen:
Kugelstoßen
100m-Lauf
A1 = [0, 8[
A2 = [8, 12[
A3 = [12, ∞[
gesamt
B1 = [0, 11[
h(1,1) = 3
h(2,1) = 6
h(3,1) = 1
h(●,1) = 10
B2 = [11, 11.5[
h(1,2) = 4
h(2,2) = 8
h(3,2) = 7
h(●,2) = 19
B3 = [11.5, 12.5[
h(1,3) = 15
h(2,3) = 22
h(3,3) = 12
h(●,3) = 49
B4 = [12.5, ∞[
h(1,4) = 6
h(2,4) = 11
h(3,4) = 5
h(●,4) = 22
gesamt
h(1,●) = 28
h(2,●) = 47
h(3,●) = 25
n = 100
Nun berechnen sich die erwarteten absoluten Häufigkeiten als
h(1,●)⋅h(●,1)
= 28⋅10
= 2.8
n
100
h(1,●)⋅h(●,2)
28⋅19
h̃(1,2) =
= 100 = 5.32
n
28⋅49
=
= 13.72
h̃(1,3) = h(1,●)⋅h(●,3)
n
100
h(1,●)⋅h(●,4)
28⋅22
h̃(1,4) =
= 100 = 6.16
n
h̃(1,1) =
h(2,●)⋅h(●,1)
= 47⋅10
= 4.7
n
100
h(2,●)⋅h(●,2)
47⋅19
h̃(2,2) =
= 100 = 8.93
n
47⋅49
=
= 23.03
h̃(2,3) = h(2,●)⋅h(●,3)
n
100
h(2,●)⋅h(●,4)
47⋅22
h̃(2,4) =
= 100 = 10.34
n
h̃(2,1) =
h(3,●)⋅h(●,1)
= 25⋅10
= 2.5
n
100
h(3,●)⋅h(●,2)
25⋅19
h̃(3,2) =
= 100 = 4.75
n
25⋅49
=
= 12.25
h̃(3,3) = h(3,●)⋅h(●,3)
n
100
h(3,●)⋅h(●,4)
25⋅22
h̃(3,4) =
= 100 = 5.5
n
h̃(3,1) =
Damit berechnen sich die Teststatistik
T
=
=
≈
(h(k,i) −h̃(k,i) )
2
∑
h̃(k,i)
alle (k,i)
(3−2.8)2
+
2.8
(4−5.32)2
+
+
5.32
2
+ (15−13.72)
+
13.72
(6−6.16)2
+
+
6.16
(6−4.7)2
4.7
(8−8.93)2
8.93
(11−23.03)2
23.03
(11−10.34)2
10.34
+
+
+
+
(1−2.5)2
2.5
(7−4.75)2
4.75
(5−12.25)2
12.25
(5−5.5)2
5.5
3.026
und die Zahl der Freiheitsgrade
(Zahl der Klassen Aj − 1 ) ⋅ (Zahl der KlassenBi − 1 ) = (3 − 1) ⋅ (4 − 1) = 6
Also ergibt sich der p-Wert zur Unabhängigkeitshypothese als 1 − S6 (3.026) ≈ 0.8055 und
damit kann sie nicht abgelehnt werden. Allerdings sind hier einige (3 von 12) erwartete
67
2 Hypothesentests
absolute Häufigkeiten kleiner als 5 und damit ist die Approximation der Verteilung von T
durch die χ2 -Verteilung möglicherweise zu ungenau.
Zum Abschluss dieses Abschnitts noch einige Anmerkungen zu Vor- und Nachteilen
von χ2 -Tests.
Vorteile:
ˆ Die Tests sind vielseitig einsetzbar (viele verschiedenartige Nullhypothesen
können damit getestet werden).
ˆ Die Idee ist (relativ) leicht verständlich.
ˆ Die Tests sind verteilungsfrei, d.h. es muss nicht vorausgesetzt werden, dass
eine bestimmte Verteilungsart vorliegt.
ˆ R (und andere Statistik-Software-Pakete) haben die Tests implementiert.
Nachteile:
ˆ Bei stetigen Größen beeinflusst die (willkürliche) Bildung der Klassen das
Testergebnis. Diese kann auch dazu führen, dass bestimmte Abweichungen
von der Nullhypothese vom Test nicht mehr aufgedeckt werden können.
ˆ Für zu kleine Stichproben (genauer: für zu kleine erwartete absolute Häufigkei-
ten) können die Tests nicht angewendet werden. Man sollte dann auf ’exakte’
Tests zurückgreifen (z.B. Fisher-Test auf Unabhängigkeit).
ˆ Ein direkter Vergleich mehrerer Testverfahren bezüglich der Güte liefert meist
kein eindeutiges Ergebnis, da verschiedene Abweichungen von der Nullhypothese denkbar sind und mit bestimmten Tests manche davon ’besser’ und
andere ’schlechter’ vom Test angezeigt werden, d.h. die Wahrscheinlichkeit
eines signifikanten Ergebnisses ist je nach Test in manchen Situationen (in
denen H1 vorliegt) größer in anderen kleiner. Es gibt jedoch (für verschiedene
Nullhypothesen) sinnvolle Alternativen zum χ2 -Test, die bei bestimmten Abweichungen von H0 mit höherer Wahrscheinlichkeit ein signifikantes Ergebnis
liefern (also eine bessere Güte haben).
68
Kurzvorstellung einiger komplizierterer Tests
1.) Der Kolmogoroff-Smirnov-Test
(a) Einstichprobenfall:
ˆ gegeben: beliebige stetige zufällige Größe X, hypothetische stetige Ver-
teilung V mit Verteilungsfunktion F = FV
ˆ Nullhypothese: H0 ∶ X ist nach V verteilt (Anpassungstest)
ˆ benötigte Daten: Stichprobe X1 , . . . , Xn
ˆ Teststatistik: Man bestimmt zunächst (in Abhängigkeit von b ∈ R) die
relative Häufigkeit der Xj , die ≤ b sind, also
F̂ (b) =
Anzahl der j mit Xj ≤ b
n
(F̂ heißt empirische Verteilungsfunktion der Stichprobe X1 , . . . , Xn )
und die Wahrscheinlichkeit (unter H0 ), dass X ≤ b ist, also
W (X ≤ b∣H0 gilt) = F (b)
Die Teststatistik berechnet sich als die maximale Abweichung zwischen
beiden Werten, also
T = T (X1 , . . . , Xn ) = max ∣F̂ (b) − F (b)∣
b∈R
(also: T ∈]0, 1[)
Falls H0 gilt, erwartet man nur eine geringe Abweichung zwischen den
relativen Häufigkeiten und den entsprechenden Wahrscheinlichkeiten.
Damit spricht ein hoher Wert von T gegen H0 .
ˆ p-Wert: Der p-Wert zur Stichprobe X1 , . . . , Xn ergibt sich als
W (eine zufällige Teststatistik T ist ≥ T (X1 , . . . , Xn )∣X ist nach V verteilt)
Die Verteilung von T ist kompliziert, hängt aber nicht von V ab. Man
kann den p-Wert mit Hilfe von Tabellen (für kleine n) oder Näherungsformeln (für große n) bestimmen. Wir wollen hier aber nicht näher auf
die Berechnung eingehen.
ˆ Durchführung in R: mit dem Befehl ks.test: Einlesen der Stichprobe in
einen Vektor x und dann beispielsweise
– ks.test(x,pnorm,µ0 , σ0 ) falls V eine Normalverteilung (mit gegebenem EW µ0 und gegebener SA σ0 ) ist
– ks.test(x,pnorm,λ0 ) falls V eine Exponentialverteilung mit (gegebenem Parameter λ0 ) ist
69
2 Hypothesentests
– ks.test(x,punif,a0 , b0 ) falls V eine Gleichverteilung auf [a0 , b0 ] ist
(a0 und b0 gegeben)
ˆ Varianten:
– Man kann in manchen Fällen den KS-Test auch als Test auf eine
bestimmte Verteilungsart einsetzen (z.B. Test auf Normalverteilung
oder Test auf Exponentialverteilung), wobei man vor Berechnung
der Teststatistik die unbekannten Parameter aus der Stichprobe
schätzen muss. In diesem Fall ändert sich allerdings die Verteilung
der Teststatistik. Die Berechnung des p-Werts ist dann abhängig
von der hypothetischen Verteilungsart und kann sehr aufwändig
werden.Für bestimmte hypothetische Verteilungsarten existieren Variationen des KS-Tests, z.B. der Lilliefors-Test zum Testen auf
Normalverteilung.
– Die Nullhypothese H0 ∶ FX = FV (FX : wahre Verteilungsfunktion
von X, FV : hypothetische Verteilungsfunktion) kann ersetzt werden
durch
H0 ∶ FX ≤ FV
in R: mit ks.test und der Option alternative=“greater“
H0 ∶ FX ≥ FV
in R: mit ks.test und der Option alternative=“less“
(b) Zweistichprobenfall:
ˆ gegeben: zwei beliebige stetige zufällige Größen X, Y
ˆ Nullhypothese: H0 ∶ X und Y sind identisch verteilt (Homogenitätstest)
ˆ benötigte Daten: Stichproben X1 , . . . , X(nX ) und Y1 , . . . , Y(nY )
ˆ Teststatistik: Man bestimmt zunächst (in Abhängigkeit von b ∈ R) für
X und Y die relative Häufigkeit der Stichprobenwerte, die ≤ b sind, also
F̂X (b) =
Anzahl der j mit Xj ≤ b
nX
und F̂Y (b) =
Anzahl der j mit Yj ≤ b
nY
(empirische Verteilungsfunktionen der beiden Stichproben)
Die Teststatistik berechnet sich als die maximale Abweichung zwischen
beiden Werten, also
T = T (X1 , . . . , X(nX ) , Y1 , . . . , Y(nY ) ) = max ∣F̂X (b) − F̂Y (b)∣
b∈R
(also: T ∈ [0, 1[)
Falls H0 gilt, erwartet man nur eine geringe Abweichung. Damit spricht
ein hoher Wert von T gegen H0 .
ˆ p-Wert: Die Verteilung von T ist kompliziert. Man kann den p-Wert
mit Hilfe von Tabellen (für kleine n) oder Näherungsformeln (für große
n) bestimmen. Wir wollen hier aber nicht näher auf die Berechnung
eingehen.
70
ˆ Durchführung in R: mit dem Befehl ks.test: Einlesen der Stichproben
in Vektoren x, y und dann ks.test(x, y)
ˆ Variante: Die Nullhypothese H0 ∶ FX = FY (FX bzw. FY : wahre Ver-
teilungsfunktion von X bzw. Y ) kann ersetzt werden durch
H0 ∶ FX ≤ FY
in R: mit ks.test und der Option alternative=“greater“
H0 ∶ FX ≥ FY
in R: mit ks.test und der Option alternative=“less“
Vorteile:
Der KS-Test ist
ˆ auch für kleine Stichproben geeignet.
ˆ verteilungsfrei (es muss keine Verteilungsart vorausgesetzt werden).
ˆ in R implementiert.
Nachteile:
Der KS-Test ist
ˆ recht aufwendig.
ˆ anfällig gegenüber sogenannten ’Bindungen’, d.h.: Treten innerhalb der
Stichprobe(n) mehrfach dieselben Werte auf (dies kann z.B. künstlich durch
Runden der Stichprobenwerte zustande kommen), so liefert der KS-Test
keine korrekten Resultate (p-Werte) mehr.
ˆ für diskrete verteilte Größen nur noch bedingt einsetzbar: Die Berechnung
des p-Werts wird möglicherweise ungenau, die Güte des Tests wird geringer
und es treten häufig Probleme mit oben erwähnten Bindungen auf.
2.) Der Shapiro-Wilks-Test
ˆ gegeben: beliebige stetige zufällige Größe X
ˆ Nullhypothese: H0 ∶ X ist normalverteilt (Normalitätstest)
ˆ benötigte Daten: Stichprobe X1 , . . . , Xn
ˆ Teststatistik und p-Wert: kompliziert und aufwendig, wir wollen hier nicht
näher darauf eingehen
ˆ Durchführung in R: Einlesen der Stichprobe in einen Vektor x und dann
shapiro.test(x)
Vorteile:
Der SW-Test ist
ˆ auch für kleine Stichproben gut geeignet (man erzielt insbesondere dann
71
2 Hypothesentests
schon eine hohe Güte).
ˆ verteilungsfrei (es muss keine Verteilungsart vorausgesetzt werden).
ˆ in R implementiert.
Nachteile:
Der SW-Test ist
ˆ sehr speziell (nur für die Normalverteilungshypothese einsetzbar).
ˆ anfällig gegenüber ’Ausreißern’ (bei einigen extrem großen oder extrem
kleinen Werten in der Stichprobe kann die Nullhypothese fälschlicherweise
abgelehnt werden).
ˆ anfällig gegenüber Bindungen.
ˆ recht aufwendig (insbesondere für große n) und schwer verständlich.
72
Einfaktorielle Varianzanalyse mit Hilfe des F -Tests
Gegeben sind m verwandte zufällige Größen X (1) , . . . , X (m) , typischerweise wird
eine bestimmte Größe X unter m verschiedenen Voraussetzungen betrachtet.
Für das folgende Testverfahren (F-Test auf Lokationsunterschiede) wird vorausgesetzt:
ˆ Normalverteilung: Die Größen X (1) , . . . , X (m) sind normalverteilt.
def
ˆ Gleichheit der Varianzen: Es gilt σ1 = σ2 = . . . = σm ( = σ).
ˆ Unabhängigkeit: Zu den verschiedenen Größen X (1) , . . . , X (m) können un-
abhängige Stichproben erhoben werden.
Es soll nun untersucht werden, ob sich X (1) , . . . , X (m) hinsichtlich Ihrer Erwartungswerte unterscheiden. Man testet also die Nullhypothese:
H0 ∶ µ1 = µ2 = . . . = µm
Eine (unter obigen Annahmen) äquivalente Nullhypothese ist: H0 ∶ X (1) , . . . , X (m) sind identisch verteilt.
Der Test basiert wird mit Hilfe von m unabhängigen Stichproben
(1)
(1)
(1)
(2)
(2)
(2)
X1 , X2 , . . . , X(n1 )
X1 , X2 , . . . , X(n2 )
von
X (1)
(Länge: n1 )
von
X (2)
(Länge: n2 )
⋮
(m)
X1
(m)
, X2
(m)
, . . . , X(nm )
⋮
⋮
von
X (m)
(Länge: nm )
durchgeführt, die man zu einer Stichprobe
(1)
(1)
(1)
X1 , X2 , . . . , X(n1 ) ,
(2)
(2)
(2)
X1 , X2 , . . . , X(n2 ) ,
...,
(m)
X1
(m)
, X2
(m)
, . . . , X(nm )
der Länge n = n1 + n2 + . . . + nm einer ’übergeordneten’ Größe X zusammenfasst.
Man berechnet nun zunächst die empirischen Mittelwerte
X (k) =
1 nk (k)
⋅∑X
nk i=1 i
(k = 1, . . . , m)
von X (1) , . . . , X (m) sowie den Gesamtmittelwert (’grand mean’)
X=
1 m nk (k)
⋅ ∑ ∑X
n k=1 i=1 i
Anmerkung: Man kann sich leicht klarmachen, dass
X=
1 m
⋅ ∑ nk ⋅ X (k)
n k=1
73
2 Hypothesentests
gilt.
(k)
Die Summe der quadratischen Abweichungen aller Stichprobenwerte Xi
vom Ge-
samtmittelwert X
m nk
(k)
SSG = ∑ ∑ (Xi
2
− X)
(grand sum of squares)
k=1 i=1
lässt sich zerlegen in
SSG = SST + SSE
Dabei ist SST die Summe der quadratischen Abweichungen der ’Behandlungen’
m nk
m
2
2
SST = ∑ ∑ (X (k) − X) = ∑ nk ⋅(X (k) − X)
k=1 i=1
(sum of squares of treatments)
k=1
und SSE die Summe der Summe der quadratischen Abweichungen der ’Fehler’
m nk
(k)
SSE = ∑ ∑ (Xi
2
− X (k) )
(sum of squares of errors)
k=1 i=1
SSE drückt die Unterschiede der Werte in den einzelnen Stichproben und SST die
Unterschiede zwischen den verschiedenen Stichproben aus.
SST und SSE können natürlich auch wieder als zufällige Größen aufgefasst werden
(sie wurden ja aus der zufällig erhaltenen Stichprobe berechnet). Falls H0 gilt, ist
SST
χ2 -verteilt mit m − 1 Freiheitsgraden
SSE
χ2 -verteilt mit n − m Freiheitsgraden
SSG
χ2 -verteilt mit n − 1 Freiheitsgraden
Teilt man diese Größen durch die Zahl der jeweiligen Freiheitsgrade, so erhält man
die sogenannten ’mittleren quadratischen Abweichungen’
SST
m−1
SSE
M SE =
n−m
SSE
M SG =
n−1
M ST =
∶
(mittlere quadratische Abweichung der ’Behandlungen’)
∶
(mittlere quadratische Abweichung der ’Fehler’)
∶
(gesamte mittlere quadratische Abweichung)
Falls H0 gilt, sind dabei sowohl MSE als auch MSG erwartungstreue Schätzer für
die unbekannte Varianz σ 2 der Größen X (1) , . . . , X (m) .
MSE stellt eine Schätzung für die Streuung innerhalb der einzelnen Stichproben
dar. Im Gegensatz dazu schätzt MST die Streuung der verschiedenen Stichprobenmittelwerte
um den Gesamtmittelwert. Nimmt man an, dass H0 gilt, sollte MST (im Vergleich
zu MSE) klein sein, folglich ist
T=
MST n − m SST
=
⋅
MSE m − 1 SSE
eine Teststatistik, bei der man eher kleine Werte erwartet, falls H0 gilt. Also schließt
man umgekehrt:
74
ˆ Kleine Werte von T sprechen (eher) für H0 .
ˆ Große Werte von T sprechen gegen H0 .
Die Teststatistik ist nach der sogenannten F-Verteilung (bzw. Fisher-Verteilung)
Fm−1,n−m mit den ’Freiheitsgraden’ m − 1 und n − m verteilt. Daher berechnet sich
der p-Wert des Tests als:
1 − Fm−1,n−m (T )
Dies geht in R mit 1 − pf(T, m − 1, n − m).
Beispiel: Verschiedene Drahtsorten (m = 4) werden auf Zugfestigkeit untersucht. Dabei
soll geprüft werden, ob die verschiedenen Drahtsorten (oder einige der Sorten) unterschiedliche Zugfestigkeiten aufweisen. Dazu nimmt man an, dass die Größen X (1) , X (2) , X (3) , X (4)
normalverteilt mit gleicher Varianz sind und formuliert die Nullhypothese H0 ∶ µ1 = µ2 = µ3 = µ4
N
):
mm2
Man erhält folgende Daten (in
Sorte
(1)
= 11.78
X
1
(2)
= 3.43
X
1
(3)
= 12.50
X
1
(4)
= 13.81
X
1
X (1)
X (2)
X (3)
X (4)
(1)
2
(2)
X
2
(3)
X
2
(4)
X
2
X
Daten
(1)
(1)
(1)
(1)
= 11.27 X
= 11.04 X
= 10.64 X
= 6.07 X
= 11.02
3
4
5
6
(2)
(2)
(2)
(2)
(2)
(2)
= 10.54 X
= 5.12 X
= 7.42 X
= 7.94 X
= 11.46 X
= 13.11 X
= 14.91
3
4
5
6
7
8
(3)
(3)
(3)
(3)
(3)
(3)
= 11.88 X
= 8.71 X
= 9.81 X
= 15.66 X
= 1.70 X
= 11.80 X
= 14.13
3
4
5
6
7
8
(4)
(4)
(4)
= 10.82 X
= 11.71 X
= 11.53 X
= 5.51
3
4
5
gesamt
Anzahl
Mittelwert
n1 = 6
X (1) ≈ 10.30
n2 = 8
X (3) ≈ 10.77
n4 = 5
n = 27
X ≈ 10.20
Nun berechnet man:
SST
2
2
2
n1 ⋅ (X (1) − X) + n2 ⋅ (X (2) − X) + n3 ⋅ (X (3) − X) + n4 ⋅ (X (4) − X)
=
6 ⋅ (10.30 − 10.20)2 + 8 ⋅ (9.24 − 10.20)2 + 8 ⋅ (10.77 − 10.20)2 + 5 ⋅ (9.68 − 10.20)2
≈
11.384
und damit MST =
6
SSE
2
=
=
SST
m−1
(1)
∑ (Xi
≈
11.384
4−1
22.2
=
297.9
8
2
i=1
≈
≈ 3.728. Weiterhin:
(2)
− X (1) ) + ∑ (Xi
2
i=1
+
und damit MSE =
109.5
SSE
n−m
≈
297.9
27−4
+
8
i=1
127.9
(3)
− X (2) ) + ∑ (Xi
+
2
5
(4)
− X (3) ) + ∑ (Xi
2
− X (4) )
i=1
38.3
≈ 12.953.
Man berechnet damit nun Teststatistik und p-Wert:
T=
MST
3.728
≈
≈ 0.2878
MSE 12.953
und
p-Wert: 1 − F3,23 (T ) ≈ 1 − F3,23 (0.2878) ≈ 0.8337
Folglich zeigen die Daten keine siginifikanten Unterschiede zwischen den Zugfestigkeiten
der verschiedenen Drahtsorten. Die Nullhypothese ist mit den Daten vereinbar.
Man kann obige Rechnungen auch in R durchführen lassen. Dies geht nach:
sorte
<-
c(“1“,“1“,“1“,“1“,“1“,“1“,“2“,“2“,“2“,“2“,“2“,“2“,“2“,“2“,“3“,“3“,“3“,“3“,“3“,“3“,“3“,“3“,“4“,“4“,“4“,“4“,“4“)
x
<-
c( 11.78,11.27,11.04,10.64,6.07,11.02,3.43,10.54 ,5.12,7.42,7.94,11.46,13.11,14.91,12.50,11.88,8.71, 9.81,15.66,1.70,
11.80,14.13,13.81,10.82,11.71,11.53,5.51)
mit anova(lm(x∼sorte)).
75
X (2) ≈ 9.24
n3 = 8
X (4) ≈ 10.68
2 Hypothesentests
Anmerkungen:
ˆ Die auf Seite 73 genannten Voraussetzungen für den F-Test können (und soll-
ten) mit Hilfe von Vortests empirisch geprüft werden. Die Normalverteilungsannahme kann (zum Beispiel) mit Shapiro-Wilks-Tests (siehe Seite 71-72) für
jede der Größen X (1) , . . . , X (m) getestet werden. Die Annahme der Varianzgleichheit kann man (zum Beispiel) mit einem sogenannten Bartlett-Test
prüfen. Liefert einer der Test ein signifikantes Ergebnis (bzw. einen kleinen
p-Wert), so kann der F-Test nicht verwendet werden. Man muss dann auf andere Testverfahren zurückgreifen. Beispielsweise kann der Test von Kruskal
und Wallis auch dann verwendet werden, wenn die X (i) nicht normalverteilt
sind.
ˆ Falls der F-Test auf Lokationsunterschiede ein signifikantes Ergebnis liefert,
wird dadurch lediglich angezeigt, dass nicht alle µi gleich sind. Zur Klärung
der Frage, welche der µ1 , . . . , µn signifikant als verschieden angesehen werden können, stehen weitere Testverfahren zur Verfügung, bespielsweise der
Scheffé-Test oder der Tukey-Test.
76
Wir wollen einige der obigen Test hier kurz vorstellen:
(i) Der Bartlett-Test
ˆ gegeben: (verwandte) normalverteilte Größen X (1) , . . . , X (m)
ˆ Nullhypothese: H0 ∶ σ1 = σ2 = . . . = σm (’Dispersionsvergleich’)
ˆ benötigte Daten: m unabhängige Stichproben
(1)
(1)
(1)
(2)
(2)
(2)
X1 , X2 , . . . , X(n1 )
X1 , X2 , . . . , X(n2 )
⋮
(m)
X1
(m)
, X2
(m)
, . . . , X(nm )
von
X (1)
(Länge: n1 )
von
X (2)
(Länge: n2 )
⋮
von
⋮
X (m)
(Länge: nm )
mit nk ≥ 5 für k = 1, . . . , m (Faustregel)
ˆ Teststatistik: Man berechnet zunächst die korrigierten Stichprobenvari-
anzen der X (k)
(sk )2 =
nk
2
1
(k)
⋅ ∑ (Xi − X (k) )
nk − 1 i=1
(k = 1, . . . , m)
und die mittlere quadratische Abweichung der Fehler
MSE =
=
m nk
2
1
(k)
⋅ ∑ ∑ (Xi − X (k) )
n − m k=1 i=1
m
1
⋅ ∑ (nk − 1)s2k
n − m k=1
Daraus berechnet sich mit
c=
m
1
1
1
⋅ (∑
−
)+1
3(m − 1) k=1 nk − 1 n − m
die Teststatistik als
T=
m
1
⋅ ((n − m) ln (MSE) − ∑ (nk − 1) ln ((sk )2 ))
c
k=1
Falls H0 gilt, ist T (approximativ) χ2 -verteilt mit m − 1 Freiheitsgraden.
ˆ p-Wert: gegeben durch 1 − Sm−1 (T )
ˆ Durchführung in R: Einlesen der Stichproben in einen gemeinsamen Vek-
tor x zusammen mit einem Faktor g (gleicher Länge), der angibt zu
welcher Größe die jeweiligen Komponenten von x gehören. Dann:
bartlett.test(x ∼ g)
77
2 Hypothesentests
Alternativ: Einlesen der einzelnen Stichproben in Vektoren, etwa x1,x2,. . .,xm
und dann:
bartlett.test(list(x1,x2,. . .,xm))
ˆ Hinweis: Der Bartlett-Test ist anfällig gegenüber Verletzungen der Nor-
malverteilungsannahme. Sind die Größen X (1) , . . . , X (m) nicht normalverteilt, so liefert der Test keine korrekten Resultate (p-Werte).
Beispiel: Wir betrachten die Stichproben zum Versuch zur Zugfestigkeit verschiedener Drahtsorten (siehe Seite 75). Wir testen die Nullhypothese: H0 ∶ σ1 = σ2 = σ3 = σ4
Es ist m = 4 und wir haben bereits berechnet:
n1 = 6,
n2 = 8,
n3 = 8,
n4 = 5
und
n = 27
sowie
X (1) ≈ 10.30,
X (2) ≈ 9.24,
X (3) ≈ 10.77,
X (4) ≈ 10.68
und MSE ≈ 12.953. Die korrigierten Stichprobenvarianzen ergeben sich zu:
(s1 )2 ≈ 4.44,
(s2 )2 ≈ 15.64,
(s3 )2 ≈ 18.27,
(s4 )2 ≈ 9.58
Weiterhin ist
c=
1
1
1
1
1
1
⋅(
+
+
+
−
) + 1 ≈ 1.077
3 ⋅ (4 − 1) 6 − 1 8 − 1 8 − 1 5 − 1 27 − 4
und damit
T
≈
≈
(27 − 4) ⋅ ln(12.953) − ( (6 − 1) ⋅ ln(4.44) + (8 − 1) ⋅ ln(15.64) + (8 − 1) ⋅ ln(18.27) + (5 − 1) ⋅ ln(9.58) )
1.077
2.6273
Damit berechnet sich der p-Wert als 1−S3 (T ) ≈ 0.4527, es liegt also kein signifikantes
Ergebnis vor.
(ii) Der Tukey-Test (bzw. Tukey-Methode)
ˆ gegeben: (verwandte) normalverteilte Größen X (1) , . . . , X (m) mit glei-
chen Varianzen σ1 = σ2 = . . . = σm
ˆ Siginifikanzniveau: α
(k,l)
ˆ Nullhypothesen: H0
∶ µk = µl für k, l = 1, . . . , m mit k =/ l
(i,j)
Alle diese Nullhypothesen werden gemeinsam getestet. Falls alle H0
wahr sind, erhält man höchstens mit Wahrscheinlichkeit α mindestens
ein signifikantes Ergebnis.
ˆ benötigte Daten: m unabhängige Stichproben gleicher Länge
(k)
(k)
X1 , X2 , . . . , Xn(k)
0
von
X (k)
(k = 1, . . . , m)
Die Gesamtlänge n ergibt sich dann offenbar als n = m ⋅ n0 .
78
ˆ Teststatistik: Man berechnet zunächst paarweise die (betragsmäßigen)
Differenzen der empirischen Mittelwerte, also
∣X (k) − X (l) ∣
(k =/ l)
und die mittlere quadratische Abweichung der Fehler
MSE =
=
m n0
2
1
(k)
∑ ∑ (Xi − X (k) )
n − m k=1 i=1
Daraus berechnen sich die Teststatistiken als
√
n0
⋅ ∣X (k) − X (l) ∣
T (k,l) =
MSE
(k =/ l)
(k,l)
Offenbar sprechen hohe Werte dieser Statistik gegen H0
(k,l)
Falls alle H0
.
gelten, ist max T (k,l) (approximativ) nach der sogenannk/
=l
ten studentisierten Spannweite Qm,n−m mit m und n − m Freiheitsgraden verteilt. In R berechnet sich ein Wert Qm,n−m (x) dieser Verteilungsfunktion mit ptukey(x,m,n-m).
(k,l)
ˆ p-Werte: für H0
ist der p-Wert gegeben durch 1 − Qm,n−m (T (k,l) )
Für die Paare (k, l), deren p-Wert kleiner oder gleich α sind, kann also die
(k,l)
entsprechende Nullhypothese H0
verworfen werden. Man hat dann ein
oder mehrere signifikante Ergebnisse zum gemeinsamen Niveau α, d.h. es
wurde berücksichtigt, dass man mehrere Nullhypothesen getestet hat.
ˆ Durchführung in R: Einlesen der Stichproben in einen gemeinsamen Vek-
tor x zusammen mit einem Faktor g (gleicher Länge), der angibt zu
welcher Größe die jeweiligen Komponenten von x gehören. Dann:
TukeyHSD(aov(lm(x ∼ g)),conf.level=1 − α)
Zur Ausgabe gehören neben den p-Werten der einzelnen Nullhypothesen
auch Konfidenzintervalle zum (gemeinsamen) Niveau 1 − α für die Differenzen der wahren Erwartungswerte µk − µl .
(k,l)
Das bedeutet, dass — im Falle der Gültigkeit aller H0
— die Wahrschein-
lichkeit, dass alle berechneten Konfidenzintervalle die entsprechende wahre Erwartungswertdifferenz enthalten, mindestens 1 − α ist.
Diese Intervalle lassen sich mit
plot(TukeyHSD(aov(lm(x ∼ g)),conf.level=1 − α))
auch graphisch darstellen.
ˆ Variante: Für unterschiedliche Stichprobenlänge n1 , . . . , nm von X (1) , . . . , X (m)
berechnet man die Teststatistiken wie folgt (Tukey-Kramer-Methode):
T (k,l) = √
∣X (k) − X (l) ∣
MSE
2
⋅ ( n1k
−
(k =/ l)
1
)
nl
79
2 Hypothesentests
Beispiel: Wir betrachten die folgenden Stichproben (m = 5, n0 = 6)
Sorte
X (1)
X (2)
X (3)
X (4)
X (5)
(1)
X
= 89.4
1
(2)
X
= 129.0
1
(3)
X
= 127.4
1
(4)
X
= 117.5
1
(5)
X
= 168.2
1
Daten
(1)
(1)
(1)
X
= 110.9 X
= 95.0 X
2
3
4
(2)
(2)
(2)
X
= 115.3 X
= 54.9 X
2
3
4
(3)
(3)
(3)
X
= 138.9 X
= 116.7 X
2
3
4
(4)
(4)
(4)
X
= 90.8 X
= 121.2 X
2
3
4
(5)
(5)
(5)
X
= 143.8 X
= 113.7 X
2
3
4
= 120.8
= 131.6
= 133.4
= 115.9
= 159.3
(1)
X
= 94.2
5
(2)
X
= 119.9
5
(3)
X
= 145.0
5
(4)
X
= 145.3
5
(5)
X
= 146.3
5
(1)
= 91.8
6
(2)
X
= 76.3
6
(3)
X
= 112.5
6
(4)
X
= 147.0
6
(5)
X
= 115.1
6
X
Mittelwert
X (1) = 100.35
X (2) = 104.5
X (3) ≈ 128.98
X (4) = 122.95
X (5) ≈ 141.07
Man berechnet MSE ≈ 450.12 und MST ≈ 1737.98. Damit ergibt sich der p-Wert eines F -Tests zur Nullhypothese
H0 ∶ µ1 = µ2 = µ3 = µ4 = µ5
als ≈ 0.01412. Man kann also davon ausgehen, dass sich Erwartungswerte einiger
der Größen unterscheiden.
Man möcht nun genauer wissen, welche der Erwartungswerte sich im einzelnen unterscheiden. Dazu führt man
einen Tukey-Test durch. Insgesamt werden dabei 10 Vergleiche durchgeführt:
Nullhypothese Abstand der empirischen Mittelwerte
Teststatistik
µ1 = µ2
∣X (1) − X (2) ∣ ≈ 4.15
T (1,2) =
µ1 = µ3
∣X (1) − X (3) ∣ ≈ 28.63
T (1,3) =
µ1 = µ4
∣X (1) − X (4) ∣ ≈ 22.6
T (1,4) =
µ1 = µ5
∣X (1) − X (5) ∣ ≈ 40.72
T (1,5) =
µ2 = µ3
∣X (2) − X (3) ∣ ≈ 24.48
T (2,3) =
µ2 = µ4
∣X (2) − X (4) ∣ ≈ 18.45
T (2,4) =
µ2 = µ5
∣X (2) − X (5) ∣ ≈ 36.57
T (2,5) =
µ3 = µ4
∣X (3) − X (4) ∣ ≈ 6.03
T (3,4) =
µ3 = µ5
∣X (3) − X (5) ∣ ≈ 12.08
T (3,5) =
µ4 = µ5
∣X (4) − X (5) ∣ ≈ 18.11
T (4,5) =
√
√
√
√
√
√
√
√
√
√
p-Wert
6
⋅ ∣X (1) − X (2) ∣ ≈ 0.479 1 − Q5,25 (T (1,2) ) ≈ 0.997
450.12
6
⋅ ∣X (1) − X (3) ∣ ≈ 3.306 1 − Q5,25 (T (1,3) ) ≈ 0.167
450.12
6
⋅ ∣X (1) − X (4) ∣ ≈ 2.609 1 − Q5,25 (T (1,4) ) ≈ 0.372
450.12
6
⋅ ∣X (1) − X (5) ∣ ≈ 4.701 1 − Q5,25 (T (1,5) ) ≈ 0.021
450.12
SIGNIFIKANT
6
⋅ ∣X (2) − X (3) ∣ ≈ 2.827 1 − Q5,25 (T (2,3) ) ≈ 0.296
450.12
6
⋅ ∣X (2) − X (4) ∣ ≈ 2.130 1 − Q5,25 (T (2,4) ) ≈ 0.568
450.12
6
⋅ ∣X (2) − X (5) ∣ ≈ 4.222 1 − Q5,25 (T (2,5) ) ≈ 0.045
450.12
SIGNIFIKANT
6
⋅ ∣X (3) − X (4) ∣ ≈ 0.696 1 − Q5,25 (T (3,4) ) ≈ 0.987
450.12
6
⋅ ∣X (3) − X (5) ∣ ≈ 1.395 1 − Q5,25 (T (3,5) ) ≈ 0.859
450.12
6
⋅ ∣X (4) − X (5) ∣ ≈ 2.092 1 − Q5,25 (T (4,5) ) ≈ 0.585
450.12
Damit wird also signifikant angezeigt, dass sich die Großen X (1) und X (5) und auch die Großen X (2) und X (5)
hinsichtlich ihrer Erwartungswerte unterscheiden.
Legt man ein Siginfikanzniveau α
z.B
= 0.05 fest, so kann man mit TukeyHSD eine Graphik erzeugen, die Konfi-
denzintervalle zum gemeinsamen Vertrauensniveau 1 − α = 0.95 zeigt:
80
5−4
5−3
4−3
5−2
4−2
3−2
5−1
4−1
3−1
2−1
95% family−wise confidence level
−40
−20
0
20
40
60
80
Differences in mean levels of sorte
(iii) Der Kruskal-Wallis-Rangsummen-Test
ˆ gegeben: beliebige (verwandte) Größen X (1) , . . . , X (m)
ˆ Nullhypothese: H0 ∶ X (1) , . . . , X (m) sind identisch verteilt (’Homogenitätstest’)
ˆ benötigte Daten: m unabhängige Stichproben zu X (1) , . . . , X (m)
ˆ Teststatistik und p-Wert: siehe Aufgabe 33 in Übungsblatt 13
Zur Durchführung des Tests werden nur die ’Ränge’ der Stichprobenwerte verwendet. Die Differenzen zwischen den Werten beeinflussen das Testergebnis
nicht.
ˆ Durchführung in R: Einlesen der Stichproben in einen gemeinsamen Vek-
tor x zusammen mit einem Faktor g (gleicher Länge), der angibt zu
welcher Größe die jeweiligen Komponenten von x gehören. Dann:
kruskal.test(x,g)
Alternativ: Einlesen der einzelnen Stichproben in Vektoren, etwa x1,x2,. . .,xm
und dann:
kruskal.test(list(x1,x2,. . .,xm))
81
2 Hypothesentests
Zweifaktorielle Varianzanalyse mit Hilfe eines F -Tests
Es soll untersucht werden, ob eine zufällige Größe X (Zielvariable) durch zwei vorliegende Faktoren A und B beeinflusst wird. Die Faktoren A und B nehmen dabei
nur endlich viele Werte (bzw. Ausprägungen) an (m Möglichkeiten für A und s
Möglichkeiten für B). Man unterscheidet nun die Größen
X (1,1)
,
X (2,1)
,
...
,
X (m,1)
X (1,2)
,
X (2,2)
,
...
,
X (m,2)
⋮
,
⋮
,
⋱
,
X
(1,s)
,
X
(2,s)
,
...
,
⋮
X
(m,s)
wobei X (k,r) die Größe X für die k-te Ausprägung von A und die r-te Ausprägung
von B ist (k = 1, . . . , m, r = 1, . . . , s).
Vorausgesetzt für den folgenden Test wird, dass alle X (k,r) normalverteilt mit
gleicher Varianz sind. Man untersucht dabei die Nullhypothesen
H0 : Faktor A hat keine Wirkung auf X
H0 : Faktor B hat keine Wirkung auf X
H0 : Es gibt keine Wechselwirkungen zwischen A und B im Hinblick auf X.
Zu jeder der m ⋅ s vielen Größen benötigt man nun eine Stichprobe
(k,r)
X1
, . . . , Xn(k,r)
0
der Länge n0
(Wir gehen der Einfachheit halber davon aus, dass alle Stichproben die gleiche Länge
haben. Für ungleiche Stichprobenlängen wird es nochmals erheblich komplizierter.)
Daraus berechnet man nun die folgenden Mittelwerte und Stichprobenlängen:
ˆ Einzelne Stichprobe (k = 1, . . . , m, r = 1, . . . , s fest):
Länge
∶
n0
Mittelwert
∶
X (k,r) =
1 n0 (k,r)
⋅∑X
n0 i=1 i
ˆ Mit festem Wert für B zusammengefasste Stichprobe (r = 1, . . . , s fest):
Länge
Mittelwert
∶ n0 ⋅ m
∶ X (●,r) =
m n0
1
1 m (k,r)
(k,r)
⋅ ∑ ∑ Xi
=
⋅∑X
n0 ⋅ m k=1 i=1
m k=1
ˆ Mit festem Wert für A zusammengefasste Stichprobe (k = 1, . . . , m fest):
Länge
∶
n0 ⋅ s
∶
X (k,●)
(k,r)
Mittelwert
82
s n
1
1 s
(k,r)
=
⋅ ∑ ∑ Xi
= ⋅ ∑ X (k,r)
n0 ⋅ s r=1 i=1
s r=1
ˆ Gesamte Stichprobe:
Länge
∶
n0 ⋅ m ⋅ s
∶
X (●,●)
(k,r)
Mittelwert
m s n
1
(k,r)
=
⋅ ∑ ∑ ∑ Xi
n0 ⋅ m ⋅ s k=1 r=1 i=1
m s
1 m (k,●) 1 s (●,r)
1
⋅ ∑ ∑ X (k,r) =
⋅∑X
= ⋅∑X
m ⋅ s k=1 r=1
m k=1
s r=1
=
Es gilt die folgende Quadratsummenzerlegung:
SSG = SSA + SSB + SS(AB) + SSE
Dabei ist:
quadratische Abweichung
“bewirkt“
FG
mittlere
durch
m
Abw.
2
SSA = n0 ⋅ s ⋅ ∑ (X (k,●) − X (●,●) )
Faktor A
m−1
MSA =
SSA
m−1
Faktor B
s−1
MSB =
SSB
s−1
Wechsel-
(m − 1) ⋅ (s − 1)
MS(AB) =
m ⋅ s ⋅ (n0 − 1)
MSE =
k=1
s
2
SSB = n0 ⋅ m ⋅ ∑ (X (●,r) − X (●,●) )
r=1
m
s
2
SS(AB) = n0 ⋅ ∑ ∑ (X (k,r) − X (k,●) − X (●,r) + X (●,●) )
k=1 r=1
SS(AB)
(m−1)⋅(s−1)
wirkungen
m
s n0
(k,r)
SSE = ∑ ∑ ∑ (Xi
k=1 r=1 i=1
− X (k,r) )
2
zufällige
SSE
m⋅s⋅(n0 −1)
Fehler
m
s n0
(k,r)
SSG = ∑ ∑ ∑ (Xi
k=1 r=1 i=1
2
− X (●,●) )
gesamt
m ⋅ s ⋅ n0 − 1
Zu den oben angegebenen Nullhypothesen berechnet man nun Teststatistik und
p-Wert wie folgt:
Nullhypothese
Teststatistik
X von A unabhängig
TA =
X von B unabhängig
TB =
keine Wechselwirkungen
T(AB) =
MSA
MSE
MSB
MSE
MS(AB)
MSE
p-Wert
1 − Fm−1,m⋅s⋅(n0 −1) (TA )
1 − Fs−1,m⋅s⋅(n0 −1) (TB )
1 − F(m−1)⋅(s−1),m⋅s⋅(n0 −1) (T(AB) )
83
MSG =
SSE
m⋅s⋅n0 −1
2 Hypothesentests
Man kann diese auch mit R durchführen. Man trägt dazu in einen Vektor x die
Daten ein und in zwei Faktoren a und b (beide haben die gleiche Länge wie x) die
Information, zu welcher Ausprägung von A bzw. B die Daten gehören. Dann erhält
man mit:
anova(lm(x∼a∗b)).
die benötigten Werte (Freiheitsgrade, Quadratsummen, mittlere Quadratsummen,
Teststatistiken, p-Werte).
84
Herunterladen