Statistik

Statistik
Notizen zur Vorlesung im WS 2009/10
Gaby Schneider
[email protected]
http://ismi.math.uni-frankfurt.de/schneider
Inhaltsverzeichnis
1 Beschreibende Statistik
1.1 Erwartungswert und zentraler Grenzwertsatz . . . . . . . . . .
1.2 Quantile und Verteilungsfunktion . . . . . . . . . . . . . . . . .
1.2.1 Ein allgemeingültiges Konfidenzintervall für den Median
1.2.2 Asymptotische Normalität des Medians . . . . . . . . .
1.2.3 Einschub: Lage- und Skalenparameter . . . . . . . . . .
1.3 Ein Konfidenzband für die Verteilungsfunktion . . . . . . . . .
1.4 Graphische Darstellungen für Verteilungen . . . . . . . . . . . .
1.4.1 Das Histogramm . . . . . . . . . . . . . . . . . . . . . .
1.4.2 Der Box-and-Whisker-plot (oder kurz: Boxplot) . . . . .
1.4.3 Quantilplots . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
4
6
7
8
9
10
10
10
13
2 Erste statistische Tests
2.1 Ein Permutationstest . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test
2.3 Der z-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 p-Wert, Signifikanz, Testmacht und Alternativhypothese . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
17
18
.
.
.
.
.
.
.
.
.
.
19
19
19
19
21
21
21
23
24
25
27
.
.
.
.
.
28
28
29
30
30
31
3 Der t-Test
3.1 Zur Geometrie von Strichprobenmittelwert und -varianz . . . .
3.1.1 Schätzer für σ . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Geometrie des Mittelwertes . . . . . . . . . . . . . . . .
3.1.3 Geometrie der geschätzten Standardabweichung . . . . .
3.2 Die t-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Die t-Verteilung und ihre Verwandten . . . . . . . . . .
3.3 Die Standardnormalverteilung auf Rn und der Satz von Fisher
3.4 Anwendung: Eine Stichprobe . . . . . . . . . . . . . . . . . . .
3.5 Der zwei-Stichproben t-Test (für gleiche Varianzen) . . . . . . .
3.6 Zur Geometrie in der zwei-Stichproben-Situation . . . . . . . .
4 Tests für gepaarte Stichproben
4.1 t-Test für gepaarte Stichproben . . . . . . . . . . . . . . . . .
4.1.1 Voraussetzungen und Spezialfall . . . . . . . . . . . .
4.2 Wilcoxon-Test für gepaarte Stichproben/ Vorzeichenrangtest
4.3 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Permutationstest von Fisher . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Vergleich von mehr als 2 Stichproben und das normale lineare
5.1 Vom t-Test zur einfaktoriellen Varianzanalyse . . . . . . . . . . .
5.1.1 Geometrie beim t-Test . . . . . . . . . . . . . . . . . . . .
5.1.2 Verallgemeinerung auf k(> 2) Gruppen . . . . . . . . . .
5.2 Das normale lineare Modell . . . . . . . . . . . . . . . . . . . . .
5.2.1 Testen linearer Hypothesen . . . . . . . . . . . . . . . . .
5.3 Paarweise Vergleiche, multiples Testen . . . . . . . . . . . . . . .
5.3.1 Bonferroni-Korrektur . . . . . . . . . . . . . . . . . . . .
5.3.2 Simultane Konfidenzintervalle nach Tukey . . . . . . . . .
5.4 Lineare Kontraste . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Kruskal-Wallis-(H)-Test . . . . . . . . . . . . . . . . . . . . . . .
Modell
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
31
31
31
32
35
36
36
37
38
39
40
6 Lineare Regression
6.1 Modell und Parameterschätzer . . . . . . . . . . . . . . . . . . . . . . .
6.2 Die Geometrische Bedeutung von r und der Multiple Korrelationskoeffizient
6.2.1 Ein Konfidenzintervall für die Korrelation . . . . . . . . . . . . .
6.3 Ein Konfidenzbereich für β̂ . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Multivariate Regression . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.1 Orthogonale Regressoren . . . . . . . . . . . . . . . . . . . . . .
42
42
44
45
47
48
48
7 Schätzverfahren
7.1 Der Mittlere quadratische Fehler . . . . . . . . . . . . . .
7.2 Das Maximum-Likelihood Prinzip . . . . . . . . . . . . . .
7.2.1 Eigenschaften von Maximum-Likelihood-Schätzern
7.3 Die Momentenmethode . . . . . . . . . . . . . . . . . . . .
7.4 Kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . .
7.5 Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . .
7.6 Suffizienz und die Minimierung d. mittleren quadratischen
.
.
.
.
.
.
.
49
50
52
52
55
56
56
57
8 Likelihood-Quotienten-Tests
8.1 Einfache Hypothese und einfache Alternative . . . . . . . . . . . . . . .
8.2 Generalisierte Likelihood-Quotiententests . . . . . . . . . . . . . . . . .
61
62
63
9 Der χ2 -Test
9.1 Normalverteilungen auf Rk . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Der χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
67
68
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Fehlers
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Beschreibende Statistik
Ein wesentlicher Teil der Statistik beschäftigt sich mit Datenanalyse mit Hilfe stochastischer Modelle. Daten liegen oft vor in Form eines Zahlenvektors X = (x1 , . . . , xn ). Um
die Variabilität dieser Beobachtungen zu modellieren, betrachtet man sie im stochastischen Modell als Realisierungen von ZVen X1 , . . . , Xn . Wir schreiben daher wahlweise
X = (x1 , . . . , xn ) für die Beobachtungen bzw. X = (X1 , . . . , Xn ) für einen Vektor von
Zufallsvariablen.
1.1
Erwartungswert und zentraler Grenzwertsatz
Definition Der Erwartungswert einer diskreten Zufallsvariablen X mit Werten in S
ist definiert als
X
xWs(X = x).
µ = EX =
x∈S
Der Erwartungswert einer Zufallsvariablen mit Wahrscheinlichkeitsdichte f (x) ist analog
Z
µ = EX = xf (x)dx.
R
Schätzung des Erwartungswertes durch den Mittelwert Seien X1 , . . . , Xn unabhängige, identisch verteilte ZVe. Ein beliebter Schätzer für den Erwartungswert ist
der Stichprobenmittelwert:
n
1X
µ̂ := X̄ :=
Xi .
n
i=1
Beobachtung 1: Erwartungstreue Für X1 , . . . , Xn u.i.v. mit E|X| < ∞ ist der
Mittelwert ein erwartungstreuer Schätzer für den Erwartungswert:
n
E [µ̂] =
1X
EXi = EX1 = µ.
n
i=1
Beobachtung 2: Der mittlere quadratische Fehler Wie genau können wir µ
schätzen? Ein häufig verwendetes Kriterium für die Güte eines Schätzers ist der mittlere
quadratische Fehler: die erwartete quadratische Abweichung des Schätzers von dem zu
schätzenden Wert. Schätzt man µ durch X̄, so ist der mittlere quadratische Fehler gerade
E((X̄ − µ)2 )
EX̄=µ
=
Var(X̄) = (1/n)Var(X).
p
Eine wichtige Unterscheidung: Die Standardabweichung der ZVe X ist Var(X), die
Standardabweichung des Mittelwerts von n unabhängigen ZVen Xi ist
! r
1X
Var(X)
sd(X)
Der Standardfehler : sd
Xi =
= √ .
n
n
n
i
1
Beobachtung 3: Das Starke Gesetz der Großen Zahlen Sei X1 , X2 , . . . eine
P Folge
unabhängiger, identisch verteilter ZVen mit Erwartungswert µ. X̄n := (1/n) ni=1 Xi .
Dann konvergiert X̄n fast sicher gegen den Erwartungswert, d.h.
Ws(X̄n → µ) = 1.
Das Starke Gesetz der Großen Zahlen impliziert stochastische Konvergenz des Stichprobenmittelwertes gegen den Erwartungswert: Für große n liegt X̄ mit hoher Wahrscheinlichkeit nah beim Erwartungswert. Ein Schätzer, der stochastisch gegen den zu
schätzenden Wert konvergiert, heißt konsistent. Der Stichprobenmittelwert ist also ein
konsistenter Schätzer für µ.
Die Verteilung von X̄
Zwei Beispiele:
1. X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt, also gemäß der Dichte
f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
,
x ∈ R.
Dann ist der Stichprobenmittelwert normalverteilt mit Erwartungswert µ und Varianz σ 2 /n.
2. X1 , . . . , Xn unabhängig und Exp(λ)-verteilt, also gemäß
f (x) = λe−λx ,
x > 0.
Der Stichprobenmittelwert hat Erwartungswert 1/λ und Varianz 1/(nλ2 ). Aber er
ist (zumindest für kleine n) nicht normalverteilt. (In der Tat folgt die Summe von n
unabhängigen Exp(λ)-verteilten ZVen einer Gammaverteilung mit den Parametern
λ und n.)
Der Zentrale Grenzwertsatz Sei X1 , X2 , . . . eine Folge unabhängiger,
P identisch verteilter ZVen mit Erwartungswert µ und Varianz 0 < σ 2 < ∞. Sn := ni=1 Xi . Dann ist
Sn approximativ normalverteilt, bzw.
Sn − nµ
√
−→ N (0, 1) f ür n → ∞ in Verteilung.
σ n
Ein asymptotisches Konfidenzintervall für µ Der Zentrale Grenzwertsatz sagt,
dass für jede beliebige zugrundeliegende Verteilung der Werte X1 , . . . , Xn die Verteilung
des Stichprobenmittelwertes (für große n) einer Normalverteilung folgt. Damit können
wir leicht ein erstes Konfidenzintervall konstruieren:
2
Seien
Pwiederum X1 , . . . , Xn u.i.v. mit EX = µ und Var(X) = σ ∈ (0, ∞). Sei µ̂ =
1/n Xi . µ̂ ist eine Zufallsvariable und schwankt um µ. In der Regel ist aber natürlich
µ̂ 6= µ (und unsere Schätzung damit zwar gut, aber falsch). Wie falsch ist also unser
Schätzer?
Gesucht ist ein Intervall I(X), das mit hoher Wahrscheinlichkeit den wahren Erwartungswert überdeckt, z.B.
Ws(I(X) 3 EX) ≥ 0.95.
(1)
2
Ein solches Intervall nennt man ein 95%-Konfidenzintervall für den Erwartungswert.
Man beachte die Schreibweise: Nicht etwa der Erwartungswert ist hier zufällig, sondern das Intervall! Nach dem ZGWS gilt (für genügend großes n), dass µ̂ approximativ
normalverteilt ist. Das heißt, es gibt eine Zahl a so, dass
√
√
Ws(µ − aσ/ n ≤ µ̂ ≤ µ + aσ/ n) = 0.95.
Bei der Normalverteilung mit Mittelwert µ und Varianz σ 2 liegen etwa 95% der Masse
im Intervall [µ − 2σ, µ + 2σ] (Figur 1, der genaue Wert ist a = 1.96.) Also:
√
√
Ws(µ − 1.96σ/ n ≤ µ̂ ≤ µ + 1.96σ/ n) = 0.95.
Um dieses Intervall in ein Intervall für µ zu transformieren, beobachten wir:
√
√
Ws(µ − 1.96σ/ n ≤ µ̂ ≤ µ + 1.96σ/ n)
√
√
=Ws(−1.96σ/ n ≤ µ̂ − µ ≤ 1.96σ/ n)
√
√
=Ws(µ̂ + 1.96σ/ n ≥ µ ≥ µ̂ − 1.96σ/ n)
√
√
Also erfüllt I(X) = [µ̂ − 1.96σ/ n, µ̂ + 1.96σ/ n] Bedingung (1).
Normalverteilung
Dichte
µ − 3σ
σ µ − 2σ
σ
µ−σ
99.7% 95%
µ+σ
µ + 2σ
σ µ + 3σ
σ
68%
µ
Abbildung 1: Normalverteilung: Fläche in Intervallen [µ − kσ, µ + kσ], k = 1, 2, 3.
Was kann schief gehen?
• Die Voraussetzungen könnten nicht zutreffen, z.B. existiert EX nicht für alle Verteilungen. Wir betrachten die Standard-Cauchy-Verteilung, mit Dichte
f (x) =
1 1
,
π 1 + x2
x ∈ R.
Hier ist zwar f (x) integrierbar, aber nicht xf (x), so dass der Erwartungswert nicht
existiert. Das starke Gesetz
P der Großen Zahlen gilt hier nicht — die normierten
Partialsummen X̄n = 1/n ni=1 Xi konvergieren nicht (Figur 2).
3
−4
−2
0
2
2
0
Sn n
4
−4 −2
0.4
0.2
0.0
Dichte
Normalvert.
Cauchyvert.
0
2000
4000
x
6000
8000
10000
n
Abbildung 2: Fehlende Konvergenz des Mittelwertes bei der Cauchy-Verteilung.
• Die Aussage des ZGWS ist asymptotisch, aber die Güte der Asymptotik hängt von
der zugrundeliegenden Verteilung ab. Für manche Verteilungen muss für approximative Normalität n erst sehr groß werden. Zum Beispiel, wenn eine Verteilung
winziges Gewicht auf sehr großen Werten hat:
X habe Verteilung ν0 mit Erwartungswert µ.
(
X
mit W’keit 1 − ε
X ε :=
2
1/ε
mit W’keit ε
1
−→ ∞ für ε → 0.
ε2
Für festes n gilt für jedes von X = (X1 , . . . , Xn ) abhängige Intervall I(X):
µε := EX ε = (1 − ε)µ + ε
ε→0
Ws(I(X1 , . . . , Xn ) = I(X1ε , . . . , Xnε )) −→ 1.
Konfidenzintervalle sollten möglichst klein sein, insbesondere beschränkt. Daher
folgt mit
ε→0
Ws(I(X1 , . . . , Xn ) 3 µε ) −→ 0
ε→0
Ws(I(X1ε , . . . , Xnε ) 3 µε ) −→ 0.
Die Approximation aus dem ZGWS kann also beliebig schlecht werden.
Für so pathologische Fälle, z.B. bei ausreißerbehafteten Daten, oder wenn man wenige
Informationen über die zugrundeliegende Verteilung hat, verwendet man gerne nichtparametrische Ansätze, z.B. Quantile.
1.2
Quantile und Verteilungsfunktion
Definition
Die V erteilungsf unktion einer ZVen X ist definiert als
F (x) = Ws(X ≤ x) = ν((−∞, x]),
wobei ν die Verteilung
von X bezeichnet.
P
Diskret: F (x) = y≤x Ws(X = y).
Rx
Hat X Dichte f (x): F (x) =
f (y)dy.
−∞
4
Schätzung der Verteilungsfunktion Zu einem Datenvektor X = (x1 , . . . , xn ) ist
die empirische V erteilungsf unktion definiert als
Fn (X) =
1
|{xi |xi ≤ x}|.
n
X=(1,2,4,7,9)
100 normalverteilte ZVen
0.4
●
●
●
−2
0
0.8
●
0.0
0.0
●
●
●
0.4
●
●
#xi ≤ x
#xi ≤ x
0.8
●
2
4
6
8
10
12
0
2
4
x
6
8
10
x
Abbildung 3: Beispiele für empirische Verteilungsfunktionen
Für 0 < p < 1 heißt eine reelle Zahl qp p − Quantil der Verteilung ν, wenn
Definition
W s(X ≤ qp ) ≥ p und W s(X ≥ qp ) ≥ 1 − p.
Bsp N (0, 1) (Fig. 4 A) Hat F Dichtefunktion f = F 0 , die im Bereich {x ∈ R|0 <
F (x) < 1} strikt positiv ist (d.h. F ist streng monoton steigend), so ist ∀p ∈ (0, 1) das
p-Quantil eindeutig bestimmt.
Bsp Bi(2,1/2) (Fig. 4 B) q1/2 = 1, q1/6 = 0, q1/4 =?
Alle Werte im Intervall [0, 1] sind 25%-Quantile der Verteilung Bi(2,1/2). Also:
Die Menge aller p-Quantile einer Verteilung ν ist ein Intervall [qp,1 , qp,2 ], wobei
qp,1 := sup{x ∈ R|F (x) < p}
und qp,2 := inf{x ∈ R|F (x) > p}.
N(0,1)
Bi(2,1/2)
0.8
●
●
0.0
−3
−2
−1
0
1
2
3
●
●
−1
x
●
0.4
P(X ≤ x)
0.8
0.4
0.0
P(X ≤ x)
●
0
1
2
3
x
Abbildung 4: Verteilungsfunktionen von N (0, 1) und Bi(2,1/2)
5
Spezielle Quantile
q0.5
ein Median
q0.25
ein 1. Quartil
q0.75
ein 3. Quartil
q0.5,1 + q0.5,2
)
2
q0.25,1 + q0.25,2
(’das 1. Quartil’:
)
2
q0.75,1 + q0.75,2
)
(’das 3. Quartil’:
2
(’der Median’:
Schätzer für den Median Sei (X(1) , X(2) , . . . , X(n) ) mit X(1) ≤ X(2) ≤ . . . ≤ X(n)
die Ordnungsstatistik, d.h. die der Größe nach geordnete Stichprobe. Dann wird der
Median geschätzt durch den Stichprobenmedian
(
X(k+1)
für n = 2k + 1
m̂ =
1/2(X(k) + X(k+1) ) für n = 2k.
1.2.1
Ein allgemeingültiges Konfidenzintervall für den Median
Im Gegensatz zum Mittelwert kann man für den Median unabhängig von der zugrundeliegenden Verteilung sogar für festes n ein Intervall I(X) angeben so, dass
Ws(I(X) 3 m)
möglichst groß (z.B. 0.95).
Wir verwenden dazu wieder die Ordnungsstatistik (X(1) , . . . , X(n) ) und beginnen mit
einem Beispiel:
Beispiel: Eine Stichprobe der Größe n = 11. Betrachte zunächst das Intervall I1 :=
[X(1) , X(n) ]. Es gilt:
Ws(m ∈
/ I1 ) = Ws(X(1) > m) + Ws(X(n) < m)
11
1
=2·
≈ 0.001.
2
Können wir dieses Intervall verkleinern so, dass Ws(m ∈
/ I) gerade noch kleiner ist als
0.05? Was ist mit I2 = [X(2) , X(n−1) ]?
Ws(m ∈
/ I2 ) = Ws(X(2) > m) + Ws(X(n−1) < m)
= Ws(höchstens ein Xi ist kleiner m) + Ws(höchstens ein Xi ist größer m)
" 11 #
11
1 11
11
1
=2
+
≈ 0.012
1
2
0
2
in R: = 2 ∗ pbinom(1, 11, 0.5)
Um ein möglichst kleines Konfidenzintervall zu finden so, dass Ws(m ∈ I) ≥ 0.95, suchen
wir eine Zahl ` so, dass 2pbinom(`, 11, 0.5) gerade noch kleiner ist als 0.05. Das geht
z.B. in R: mit der implementierten Quantilfunktion: ` = qbinom(0.05/2, 11, 0.5). Die
6
Wahrscheinlichkeit 0.05 nennt man das Niveau des Konfidenzintervalls. Allgemein also
für n und Niveau α
` = qbinom(α/2, n, 0.5).
Ähnliche Überlegungen erlauben die Konstruktion von Konfidenzintervallen für jedes
beliebige Quantil und jede zugrundeliegende Verteilung für festes n. (Übung)
1.2.2
Asymptotische Normalität des Medians
Für symmetrische Verteilungen fallen Erwartungswert und Median zusammen. Was sollte man also nehmen, um die Lage zu schätzen? Nach dem ZGWS ist der Stichprobenmittelwert asymptotisch normalverteilt mit Varianz σ 2 /n. Für den Median gibt es eine
ähnliche Aussage:
Satz Seien X1 , . . . , Xn u.i.v. mit einer differenzierbaren Verteilungsfunktion F . Sei m
der Median der Verteilung, und es gelte F 0 (m) > 0 (in diesem Fall ist der Median
eindeutig). Sei Mn der Stichprobenmedian. Dann gilt
√
n(Mn − m) −→ N (0, (2F 0 (m))−2 ) in Verteilung.
Das heißt, der Stichprobenmedian ist approximativ normalverteilt, und die approximative Varianz ist umso kleiner, je größer der Wert der Dichte am Median ist.
Beweis: Es ist zu zeigen, dass
√
Ws( n(Mn − m) ≤ a) −→ Ws(Z ≥ −2aF 0 (m)) für n → ∞,
für eine Standardnormalverteilte Zufallsvariable Z. Wir definieren dazu Indikatorvariablen
(
√
1 falls Xi ≤ m + a/ n
Yi :=
0 sonst
Damit gilt
√
Ws(Yi = 1) = F (m + a/ n) =: pn .
P
√
Wir können Ws(Mn ≤ m + a n) nun zurückführen auf die binomialverteilte ZVe
Yi ,
die approximativ normalverteilt ist:
X
√ n ungerade
n+1
Ws(Mn ≤ m + a/ n)
=
Ws
Yi ≥
2
!
P
Yi − npn
(n + 1)/2 − npn
= Ws p
≥ p
npn (1 − pn )
npn (1 − pn )
7
P
Nach dem ZGWS konvergiert Wn := √
Yi −npn
npn (1−pn )
in Verteilung gegen eine standardnor-
malverteilte ZVe Z. Bei Grenzwertbetrachtung des rechten Terms, cn , erhalten wir
(n + 1)/2 − npn
−n(pn − 1/2)
1/2
cn := p
=p
+p
npn (1 − pn )
npn (1 − pn )
npn (1 − pn )
1
−(pn − 1/2)
1/2
√
=p
+p
1/
n
pn (1 − pn )
npn (1 − pn )
√
−(F (m + a/ n) − F (m))
1/2
1
√
+p
=p
1/
n
pn (1 − pn )
npn (1 − pn )
√
−a
F (m + a/ n) − F (m)
1/2
√
=p
+p
a/ n
pn (1 − pn )
npn (1 − pn )
{z
} |
|
{z
}|
{z
}
→F 0 (m)
→−2a
n→∞
→0
0
−→ −2aF (m)
Damit sehen wir mit c = −2aF 0 (m)
|Ws(Wn ≤ cn )−Ws(Z ≤ c)| ≤ |Ws(Wn ≤ cn )−Ws(Z ≤ cn )|+|Ws(Z ≤ cn )−Ws(Z ≤ c)|
Der zweite Summand konvergiert gegen 0, weil cn → c gilt und die Verteilungsfunktion
FZ von Z stetig ist. Um zu sehen, dass der erste Summand gegen 0 konvergiert, erinnern
wir uns, dass aus Konvergenz in Verteilung für stetige Verteilungsfunktion FZ auch
gleichmäßige Konvergenz folgt. Weil also FWn gleichmäßig gegen FZ konvergiert, gilt
|Ws(Wn ≤ cn ) − Ws(Z ≤ cn )| ≤ supx∈R |Ws(Wn ≤ x) − Ws(Z ≤ x)| → 0. Also gilt
Ws(Wn ≤ cn ) → Ws(Z ≤ c).
Damit erhalten wir wie gewünscht
√
Ws( n(Mn − m) ≤ a) −→ Ws(Z ≥ −2aF 0 (m))
Wegen Ws(Z ≥ −2aF 0 (m)) = Ws(Z/2F 0 (m) ≤ a) konvergiert daher Mn gegen eine
normalverteilte ZVe mit Varianz 1/(2F 0 (m))2 .
1.2.3
Einschub: Lage- und Skalenparameter
Lageparameter Mittelwert, Median und die Quantile im allgemeinen heißen Lageparameter, weil sie bei einer Verschiebung der Verteilung um θ ebenfalls um θ verschoben
werden:
Seien µ der Mittelwert und qp das p-Quantil der Verteilung ν mit Dichte f0 (x) und
Verteilungsfunktion F0 (x), so ist µ + θ der Mittelwert und qp + θ das p-Quantil der
Verteilung νθ mit Dichte fθ (x) = f0 (x − θ) und Verteilungsfunktion Fθ (x) := F0 (x − θ).
Parameter mit dieser Eigenschaft heißen Lageparameter einer Verteilung.
Skalenparameter beschreiben die Breite einer Verteilung. Ein Parameter θ heißt Skalenparameter einer Verteilung ν, wenn gilt:
Hat X die Verteilung ν(0,1) mit Dichte f(0,1) (x) und Verteilungsfunktion F(0,1) (x), so
8
hat Y := θX die Verteilung ν(0,θ) mit Verteilungsfunktion F(0,θ) (x) := F(0,1) (x/θ) und
Dichte f(0,θ) (x) = 1/θf(0,1) (x/θ).
p
Beispiel: Die Standardabweichung σ = E(X − µ)2 ist ein Skalenparameter, denn hat
X Standardabweichung σ, so hat Y := cX Standardabweichung cσ.
1.3
Ein Konfidenzband für die Verteilungsfunktion
Definition
Die Quantiltransformation. Für 0 < p < 1 sei
F −1 (p) := min{x ∈ R|F (x) ≥ p} = sup{x ∈ R|F (x) < p} = qp,1
die Quantilf unktion (verallgemeinerte Umkehrfunktion von F , das minimale p-Quantil).
Bsp. 1 Bei Verteilungen mit endlichem Träger reduziert sich F −1 (p) jeweils auf die
untere Intervallgrenze aller p-Quantile.
Bsp. 2
Bei Verteilungen mit positiver Dichte f = F 0 , z.B. Exponentialverteilung:
(
1 − e−λx x ≥ 0
Fλ (x) =
0
sonst
F ist für x ≥ 0, also für 0 < p < 1 umkehrbar, also gilt
1
F −1 (p) = − log(1 − p)
λ
für p ∈ (0, 1).
Lemma
a) U sei uniform verteilt auf [0, 1], d.h. Ws(U ∈ [a, b]) = b − a für 0 ≤ a ≤ b ≤ 1. Dann
definiert
X := F −1 (U )
eine ZVe mit Verteilungsfunktion F .
Bew.:
Nach der Definition von F −1 (u) := min{x ∈ R|F (x) ≥ u} gilt wg Ws(U ∈ (0, 1)) = 1
F −1 (U ) ≤ r
⇐⇒
F (r) ≥ U,
also
Ws(X ≤ r) = Ws(U ≤ F (r)) = F (r).
b) U1 , . . . , Un seien unabhängig und uniform auf [0, 1]. Es seien
1
|{i|Ui ≤ v}| die empir. Verteilungsfunktion der Ui ,
n
1
Fn (r) := |{i|Xi ≤ r}| die empir. Verteilungsfunktion der Xi .
n
Ĝn (v) :=
Dann ist ∀r Ĝn (F (r)) = n1 |{i|Ui ≤ F (r)}| =
(Ĝn (F (r))) genauso verteilt wie (Fn (r)).
Korollar
1
−1 (U )
i
n |{i|F
≤ r}| = Fn (r), also ist
X sei ZVe mit stetiger Verteilungsfunktion F , dann folgt F (X) ∼ Unif[0, 1].
9
Korollar (Kolmogorov-Smirnov)
Sei Ĝn (v) := n1 |{i|Ui ≤ v}| wie gehabt und c ≥ 0. Dann gilt:
Ws(sup |Fn (r) − F (r)| ≤ c) = Ws( sup |Ĝn (u) − u| ≤ c) ≥ Ws( sup |Ĝn (u) − u| ≤ c)
r∈R
u∈F (r)
u∈[0,1]
Sei also
cn (α) := min{c ≥ 0|Ws( sup |Ĝn (u) − u| ≤ c) ≥ 1 − α}.
u∈[0,1]
Dann ist mit
Ws(F (r) ∈ [Fn (r) ± cn (α)]∀r) ≥ 1 − α
ein (1 − α)-Konfidenzband für den Graphen von F gegeben.
Werte für cn (α) kann man Tabellen entnehmen. Es ist bekannt, dass
r
− log(α/2)
cn (α) ≤
.
2n
1.4
Graphische Darstellungen für Verteilungen
Wir wollen kurz ein paar verbreitete Darstellungsformen für Daten und ihre Implementierung in R kennen lernen (vgl. Fig. 5).
1.4.1
Das Histogramm
Ein Histogramm liefert eine umfangreiche Darstellung einer Häufigkeitsverteilung: Wie
viele Beobachtungen fallen in welches Intervall? Ein Histogramm, auf Fläche 1 normiert,
stellt eine rudimentäre Schätzung für die Dichte dar. Die Höhe eines Balkens gibt den
Anteil der Verteilung pro Einheit der x-Achse wieder (und ist deswegen von der Wahl
der Einheit abhängig).
1.4.2
Der Box-and-Whisker-plot (oder kurz: Boxplot)
Einen Zahlenvektor x1 , . . . , xn kann man kurz in fünf Zahlen beschreiben: Minimum,
25%-Quantil (Q1, das erste Quartil), 50%-Quantil (Median), 75%-Quantil (Q3, das
dritte Quartil), und Maximum. Ein Boxplot liefert eine graphische Darstellung einer
ähnliche Kurzübersicht: 25%-und 75%-Quantil bilden die Ränder einer Box um den Median. Hier liegen also die mittleren 50% der Beobachtungen. Der Interquartilabstand
Q3-Q1 ist neben der Standardabweichung eine gängige Art, die Breite einer Verteilung
zu beschreiben.
Die Whisker (‘Barthaare’) können bis zu den Extremwerten reichen. Aber in der Regel
beträgt ihre Länge das 1.5-Fache des Interquartilabstands Q3-Q1, wobei sie nur bis zur
extremsten Beobachtung innerhalb dieses Bereiches reichen. Werte außerhalb werden
durch Punkte dargestellt.
10
Tabelle 1: Histogramme in R
Gegeben sei ein Datenvektor
Histogrammbefehl:
nützliche Optionen
Intervalle:
x<-c(4,2,5.5,0.7,...)
hist(x)
hist(x,breaks=12) produziert 12 Balken
hist(x,breaks=seq(min(x),max(x),by=0.1)) Balken der Breite 0.1
Normiert die Fläche auf 1:
speichere Ausgabe
weitere Informationen mit
hist(x,freq=FALSE)
h<-hist(x,plot=FALSE)
?hist
Auch für andere DarstellunTitel
Achsenbeschriftung
dargestellter Bereich
Farbe:
gen gültige Optionen:
hist(x,main=‘‘Histogramm des Datenvektors x’’)
hist(x,xlab=‘‘Größe’’, ylab=’’Anzahl’’)
hist(x,xlim=c(0,3), ylim=...)
hist(x,col=’’yellow’’) (Alle Farbnamen: colors())
Tabelle 2: Boxplots und stripcharts in R
Für einen Datenvektor
einfach
x<-c(4,2,5.5,0.7,...)
boxplot(x)
für zwei Boxplots nebeneinander:
Ein Datenvektor
Ein Vektor, der die Gruppen definiert
und dann einfach
x<-c(4,2,5.5,0.7,...)
Gruppe<-c(0,0,0,...,1,1,1,...)
boxplot(x∼ Gruppe)
ganz analog für stripchart:
nützliche Optionen für stripchart:
‘rüttle’ die Datenpunkte ein wenig:
Beschriftung der Gruppen
stripchart(x∼ Gruppe)
stripchart(x∼ Gruppe,method=’jitter’)
...,group.names=c(’Gr. 1’,’Gr. 2’))
11
Tabelle 3: Graphikparameter in R
par(...)
cex.axis
cex.lab
cex.main
mfcol=c(2,3)
?par
setzt Graphikparameter
Größe von Achsentiteln
Größe von Achsenbeschriftungen
Größe der Überschrift
Grafikfenster mit 2 Zeilen, 3 Spalten
weitere nützliche Parameter
Gruppe 2
●
●
●
●
●●
●
●
●
●
● ●
● ●
●
●
●
●
●
● ●
●
●
●● ● ● ●
●●●● ●● ●
●
●
● ● ●● ●
●
●
● ●
●
●
●
● ● ●
● ●
●●
●●
●
●
● ● ● ●●
●
●●
●
●
●
● ●
●
● ●● ● ● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
2
60
0
−2
Gruppe 1
20
0
40
Anzahl
●●
●
●
●
4
6
80
1000 std.normalverteilte ZVen
●
●●
●
●●
●
● ● ●●●●
●
●
● ● ●●
●
●●●●
●●●
● ● ●●
● ●● ●
●●
●● ●
●● ●●
● ●
●
●●●● ● ●
●
●●
●
● ●
●● ● ●
● ●●
●●
● ●
● ●●
●●
● ●
● ●●
● ●
●
●
● ●
● ●●
●
●●●●
●
●
●
●
●
●
−3
−2
−1
0
1
2
3
Gruppe 1
Gruppe 2
−2
0
2
4
6
x
Abbildung 5: Beispiele für Histogramm, Boxplot und Stripchart
# Graphikparameter
par(mfrow=c(1,3),cex.lab=1.7,cex.axis=1.4,cex.main=1.8,font.main=1,mar=c(4,4.8,3,1))
# Graphik 1
hist(rnorm(1000),col=’yellow’,breaks=30,xlab=’x’,ylab=’Anzahl’,main=’1000
std.normalverteilte ZVen’)
# Datenerzeugung für Graphiken 2 und 3
x<-rep(c(’Gruppe 1’,’Gruppe 2’),each=100)
y<-c(rnorm(100),rnorm(100,mean=2,sd=2))
# Graphik 2
boxplot(y∼x,col=’red’)
# Graphik 3
stripchart(y x,col=’blue’,pch=19,method=’jitter’)
12
1.4.3
Quantilplots
Wie ist die Form einer empirischen Verteilung? Vielleicht ungefähr wie eine Normalverteilung (mit entsprechendem Mittelwert und Varianz)? Oder hat sie z.B. schwerere
Schwänze, ist sie etwa schief, oder hat sie Löcher?
qqnorm Um eine empirische Verteilung mit einer Normalverteilung zu vergleichen,
könnte man entweder eine Normalverteilung anpassen (d.h. Mittelwert und Varianz
schätzen) und als Kurve über ein Histogramm der empirischen Häufigkeitsverteilung legen. Oder man verwendet einen Normalplot: Man identifiziert die Zahlen x1 , . . . , xn mit
ihren Quantilen (in R werden die Zwischenschritte ausgewertet: 1/(2n), 3/(2n), . . . , (2n−
1)/(2n)) und trägt die entsprechenden Quantile der Normalverteilung gegen die Beobachtungen auf (Figur 6, unten links).
qqplot Dasselbe kann man machen, um zwei empirische Verteilungen zu vergleichen:
Man identifiziert die Beobachtungen mit ihren Quantilen und trägt sie gegeneinander
auf. Für zwei Datensätze x1 , . . . , xn und y1 , . . . , yn mit demselben Stichprobenumfang
trägt man jeweils die i-t-kleinsten Beobachtungen x(i) , y(i) gegeneinander auf (Figur 6,
unten rechts).
Verteilungsfunktion
0.0
0.5
1.0
Dichte
0
2
−2
0
5
10
2.0
●
1.0
●
●
0.0
●
●
●
●
●
●
●
●
●
● ●
●
●
●
0.0
Beobachtungen: N(5,4)
0.5
1.0
1.5
2.0
St.probe aus Exp(1)
Abbildung 6: Quantilplots: Erstellung und Interpretation
13
●
●
●
−1.0
2
0
0
2
qqplot
St.probe aus N(0,1)
qqnorm
−2
Quantile d. Normalverteilung
−2
2.5
3.0
2
2.1
Erste statistische Tests
Ein Permutationstest
Hat das Hören von (mütterlich klingenden) Herztönen einen Effekt auf die Gewichtszunahme von Neugeborenen?
Wir betrachten eine Untersuchung von Lee Salk (The Role of the Heartbeat in the Relation between Mother and Infant, Scientific American, May 1973, p. 26-29). Aus einer
Zahl Neugeborener wurden zufällig einige ausgewählt, die in ihren ersten Lebenstagen
ohne Unterbrechung den Ton des Herzschlags eines Erwachsenen hören durften. Sonst
wurden alle Babies gleich behandelt. Beobachtet wurde die Gewichtszunahme vom ersten auf den vierten Lebenstag.
Hat die Behandlung (Hören der Herztöne) einen Effekt auf die Gewichtszunahme? Gibt
es einen signifikanten Unterschied in der Gewichtszunahme zwischen behandelten und
unbehandelten Babies? Oder könnten die beobachteten Unterschiede durch Zufall zustande gekommen sein, auch wenn die Behandlung keinen Effekt hat?
Wir haben aus m + n Individuen zufällig m gezogen und behandelt:
1 X
x1 , . . . , xm in der Behandlungsgruppe, mit x̄ =
xi ,
m
1X
y1 , . . . , yn in der Kontrollgruppe, mit ȳ =
yi .
n
Wir beobachten x̄ > ȳ. Wie groß muss der Unterschied sein, damit wir auch meinen,
das gilt ebenso für die Populationsparameter µx > µy ? Wir betrachten die Nullhypothese µx = µy , dass die Behandlung keinen Effekt hat. Unter der Nullhypothese sind
die x1 , . . . , xm einfach eine zufällige Stichprobe aus den Geburtsgewichtszunahmen der
m + n Babies, denn dann hätte die Aufteilung der m + n Zahlen in die beiden Gruppen
genauso gut anders ausfallen können. Also können wir x̄ vergleichen mit dem Wert einer
zufällig aus den m + n Zahlen gezogenen (also einer durch Permutation gewonnenen)
Stichprobe:
Ziehe rein zufällig (ohne Zurücklegen) Z1 , .P
. . , Zm aus
der Liste x1 , . . . , xm , y1 , . . . , yn
1
und berechne die Wahrscheinlichkeit Ws m
Zi ≥ x̄ .
Einfacher: Approximiere diese Wahrscheinlichkeit durch Simulation:Ziehe
(z.B.) 10000
1 P
Z
mal Z1 , . . . , Zm und notiere die relative
Häufigkeit
für
das
Ereignis
i ≥ x̄ .
m
1 P
Falls in weniger als 5% der Fälle m Zi ≥ x̄, so kann man sagen: Die Unterschiede
zwischen den Gruppen waren auf dem 5%-Niveau signifikant. Bedeutung: Wenn es keinen Behandlungseffekt gäbe, beobachten wir solche Unterschiede in weniger als 5% der
Versuche durch Zufall.
2.2
Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test
Der Permutationstest ist für viele Fragestellungen
einsetzbar, erfordert nur die Wahl
P
einer adäquaten Teststatistik (hier: 1/m Zi ) und die Simulation mit dem Rechner.
Der Test macht keine Annahmen über die zugrundeliegenden Verteilungen
P und ist daher allgemein verwendbar. Da aber die Verteilung der Testsatistik 1/m Zi auch von
den beobachteten Werten x1 , . . . , xm , y1 , . . . , yn abhängt, ist sie nur durch Simulation zu
ermitteln.
14
Will man diese Abhängigkeit von den Werten loswerden, kann man z.B. die Rangsummenstatistik von Wilcoxon verwenden. Idee: Statt der Werte werden ihre Ränge verwendet:
Beispiel 1: Wenn alle Werte unterschiedlich sind
Beobachtung x 2 0 2.9 2.5 5
Rang von x
2 1
4
3 5
Beispiel 2: Bei Rangbindungen (engl.: ties)
Beobachtung x
2 0 2.9
2 5
Rang von x
2.5 1
4 2.5 5
Vergleicht man (wie im Beispiel der geherzten Babies) die Beobachtungen aus zwei
Gruppen, so werden die Ränge über alle Beobachtungen gebildet. Beispiel:
Gruppe
1 1
1
2
1
2
1 2
2
2
Beobachtung x −2 0 0.5 0.7 1.3 1.8 2.8 4 4.2 4.3
Rang von x
1 2
3
4
5
6
7 8
9 10
Rangsumme in Gruppe 1: 18, Rangsumme in Gruppe 2: 10(10+1)
− 18.
2
Um die Rangsummen bewerten zu können, müssen wir wissen, wie sie unter der Nullhypothese des rein zufälligen Ziehens von m Zahlen Z1 , . . . , Zm aus den n + m Zahlen
x1 , . . . , xm , y1 , . . . , yn verteilt wären. In dem Fall ist
d
(Rang(Z1 ), . . . , Rang(Zm )) = (R1 , . . . , Rm ),
wobei Ri rein zufällige Züge aus {1, . . . , m + n} ohne Zurücklegen sind. Die Rangsumme
bezeichnen wir mit
m
X
S :=
Ri .
i=1
Wir betrachten im Folgenden den Fall ohne Rangbindungen, in dem alle n + m Werte
verschieden sind.
Bemerkung 1
Unter der Nullhypothese rein zufälligen Ziehens ist
ES =
m(m + n + 1)
,
2
denn
ERi =
m+n
X
k=1
k·
1
(m + n)(m + n + 1)
1
m+n+1
=
·
=
,
m+n
2
m+n
2
ES = m · ER1 =
m(m + n + 1)
.
2
15
Bemerkung 2
Unter der Nullhypothese ist
Var(S) =
mn(m + n + 1)
.
12
Beweis:
Wir betrachten wieder den Fall, in dem alle n + m Werte verschieden sind, und können
uns daher auf eine angenehmere Darstellung von S zurückziehen:
Seien U1 , . . . ,P
Um , V1 , . . . , Vn unabhängig und gleichverteilt auf [0, 1]. Die
P Rangsumme
der Ui , S̃ =
Rang(Ui ), ist dann verteilt wie die Rangsumme S =
Ri von oben.
Es reicht also, die Behauptung für S̃ zu zeigen. Der Rang eines Wertes Ui setzt sich
zusammen aus der Anzahl der Uj , die kleiner oder gleich Ui sind, und der Anzahl der
Vj , die kleiner Ui sind:
Rang(Ui ) =
m
X
I{Uk ≤Ui } +
k=1
=⇒
S̃ =
m
X
Rang(Ui ) =
i=1
m(m + 1)
+
2
n
X
I{Vj <Ui }
j=1
m X
n
X
I{Vj <Ui } .
i=1 j=1
Damit ist

Var(S̃) = Var 
m X
n
X

I{Vj <Ui } 
i=1 j=1
=
X
Var I{Vj <Ui } +
(i,j)
+
m X
X
Cov I{Vj1 <Ui1 } , I{Vj2 <Ui2 }
X
(i1 , j1 ), (i2 , j2 )
i1 6= i2 , j1 6= j2
n X
X
Cov I{Vj1 <Ui } , I{Vj2 <Ui } +
Cov I{Vj <Ui1 } , I{Vj <Ui2 }
i=1 (j1 ,j2 )
j=1 (i1 ,i2 )
Der zweite Summand ist Null, weil für i1 6= i2 und j1 6= j2 die Ereignisse {Vj1 < Ui1 }
und {Vj2 < Ui2 } unabhängig sind. Für den dritten und vierten Summanden gilt
h
i 1
Cov I{Vj1 <Ui } , I{Vj2 <Ui } = E I{Vj1 <Ui } · I{Vj2 <Ui } −
4
1 1
1
1
= Ws({Vj1 < Ui } ∩ {Vj2 < Ui }) − = − =
4
3 4
12
Damit ist
Var(S̃) =
nm mn(n − 1) mn(m − 1)
mn(m + n + 1)
+
+
=
.
4
12
12
12
Die Rangsummenstatistik S ist eine Summe von ZVen, von denen für große m, n die
überwiegende Anzahl unabhängig sind (für die meisten Paare (i1 , j1 ), (i2 , j2 ) gilt i1 6= i2
und j1 6= j2 und damit sind {Vj1 < Ui1 } und {Vj2 < Ui2 } unabhängig). Dies macht das
folgende Resultat einleuchtend (das aber hier nicht bewiesen wird):
16
Satz (Hoeffding):
Für m, n → ∞ gilt:
Sn,m − ESn,m
p
→ N (0, 1)
Var(Sn,m )
in Verteilung.
Der Rangsummentest von Wilcoxon in R Zum Vergleich von zwei Vektoren x
und y verwendet man den Befehl wilcox.test(x,y). R berechnet die Mann-WhitneyStatistik
m X
n
X
U=
I{Vj <Ui } ,
i=1 j=1
m(m+1)
2
+ U äquivalent ist zur Rangsummenstatistik S. Ohne weitere
die wegen S =
Spezifikation wird für m + n ≤ 50 die exakte Verteilung von U ermittelt und damit
der exakte p-Wert. Für m + n > 50 wird die Normalapproximation verwendet (es sei
denn, man spezifiziert wilcox.test(x,y,exact=TRUE). Für diesen Fall findet man in
der Hilfe (?wilcox.test) eine Warnung: This function can use large amounts of memory
and stack (and even crash R if the stack limit is exceeded) if exact = TRUE and one
sample is large.)
Achtung Der Wilcoxon-Test testet die Nullhypothese, dass beide Verteilungen gleich
sind, gegen die Alternative, dass die eine gegenüber der anderen verschoben ist. Er
ist nicht sensitiv für andere Arten von Alternativen (z.B. wenn sich die Streuungen
unterscheiden, nicht aber die Mittelwerte).
Die verbreitetste Fragestellung vergleicht die Erwartungswerte zweier Verteilungen.
Sie ist am leichtesten mit Hilfe eines z-Tests zu behandeln, sofern die Standardabweichung bekannt ist:
2.3
Der z-Test
Aus dem asymptotischen Konfidenzintervall für den Mittelwert, das wir in Abschnitt
1.1 kennengelernt haben, können wir leicht einen ersten statistischen Test konstruieren.
Ein Beispiel Wir möchten untersuchen, ob sich das Geburtsgewicht von Babies in
einer bestimmten Region Deutschlands von dem Geburtsgewicht im gesamten Bundesgebiet unterscheidet. Angenommen, wir wüssten (z.B. vom statistischen Bundesamt),
dass das mittlere Geburtsgewicht in Deutschland µ = 3.3 kg beträgt und eine Standardabweichung von σ = 0.5 kg hat. Um zu untersuchen, ob sich das Geburtsgewicht
in der ausgewählten Region davon unterscheidet, beobachten wir eine Stichprobe von
n = 50 Babies, die dort geboren wurden. Ihr mittleres Geburtsgewicht beträgt x̄ = 3.5
kg. Wie stark weicht x̄ von µ ab? Spricht diese Abweichung dafür, dass das mittlere
Geburtsgewicht µR in dieser Region tatsächlich höher ist, oder haben wir es mit einer
zufälligen Schwankung zu tun?
Nach dem ZGWS bewerten wir Abweichungen des Mittelwertes in Einheiten des Stan√
dardfehlers, σ/ n, unsere Teststatistik ist also
x̄ − µ z = √ .
σ/ n
17
Falls das Geburtsgewicht in der betreffenden Region sich von der übrigen Population
nicht unterscheidet (also unter der Nullhypothese µR = µ), ist z nach dem ZGWS
approximativ standardnormalverteilt. Auf dieser Basis beurteilen wir, wie wahrscheinlich
das beobachtete Ereignis unter der Hypothese µR = µ ist.
In unserem Beispiel ist z = 2.83. Für eine N (0, 1)-verteilte ZVe Z ist aber
Ws(|Z| > 2.83) < 0.005.
Unter der Hypothese µR = µ haben wir also ein sehr unwahrscheinliches Ereignis beobachtet. Man sagt auch: Die Daten sprechen (auf dem 0.5%-Niveau) gegen die Hypothese
µR = µ.
2.4
p-Wert, Signifikanz, Testmacht und Alternativhypothese
Der p-Wert bezeichnet die Wahrscheinlichkeit, ein mindestens so extremes Ereignis
zu beobachten, wenn (d.h. obwohl ) die Nullhypothese zutrifft. Im Beispiel von eben also
p = 0.005. Man spricht üblicherweise von statistischer Signifikanz, wenn p < 0.05 (gerne
auch durch * markiert), hochsignifikant bedeutet oft p < 0.01 (**) oder p < 0.001 (***).
Nicht signifikant (‘n.s.’) heißt entsprechend: p ≥ 0.05.
Wie ist ein nicht signifikantes Ergebnis zu interpretieren? Wie sehr spricht es für die
Nullhypothese und gegen die Alternative? Das hängt von der gewählten Alternativhypothese ab.
Beispiel
ν1 , mit
X1 , . . . , Xn sind unabhängig identisch verteilt, entweder gemäß ν0 oder gemäß
H0 :
Xi ∼ N (0, 1) =: ν0
∀i
H1 :
Xi ∼ N (1, 1) =: ν1
∀i.
Falls H0 zutrifft, möchten wir sie in höchstens 5% der Fälle fälschlicherweise ablehnen
(mit einem Signifikanzniveau von 5%. Die Nullhypothese fälschlicherweise abzulehnen
(‘false positive’) bezeichnet man auch als Fehler erster Art). Damit dürfen wir H0 nur
ablehnen, wenn
X̄
X̄
Z = √ = √ > 1.64.
σ/ n
1/ n
Wir testen hier ‘einseitig’, denn nur große (positive) Werte von Z sprechen für H1 und
gegen H0 . Es gilt:
WsH0 (Z > 1.64) = 0.05.
Was passiert aber, wenn H1 zutrifft? Mit welcher Wahrscheinlichkeit lehnen wir dann
H0 ab? Diese Wahrscheinlichkeit heißt die Macht eines Tests (testpower ):
√
X̄
X̄ − 1
√ > 1.64 = Ws
√ > 1.64 − n
WsH1
1/ n
1/ n
√
= (1 − Φ(1.64 − n)),
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist.
Für n = 4 ist WsH1 (|Z| > 1.64) ≈ 0.63, für n = 10 etwa 0.87, für n = 20 etwa 0.99.
18
Die Macht des z-Tests hängt ab von µ, σ, n und vom gewählten Signifikanzniveau α
(Übung). Die Wahrscheinlichkeit, H0 fälschlicherweise nicht abzulehnen (‘false negative’,
1-testpower ), bezeichnet man auch als Fehler zweiter Art. Insgesamt:
H0 trifft zu
H1 trifft zu
3
Entscheidung für
H0
mit W’keit
1−α
β (Fehler 2. Art)
Entscheidung für
H1
mit W’keit
α (Fehler 1. Art)
1−β
Der t-Test
Die z-Statistik hat den Vorteil, dass sie wegen des ZGWS für alle Verteilungen von X
(mit endlichem zweiten Moment) approximativ standardnormalverteilt ist. Aber der zTest hat auch eine große Schwäche: Er setzt voraus, dass σ bekannt ist. Dies ist aber im
allgemeinen nicht der Fall; σ muss aus den Daten geschätzt werden.
3.1
Zur Geometrie von Strichprobenmittelwert und -varianz
3.1.1
Schätzer für σ
Wegen
2
σX
= E (X − µ)2
2 an, falls µ bekannt ist
bietet sich folgender Schätzer für σX
2
σ̂X
=
1X
(Xi − µ)2
n
2
(ist wg. E(X1 − µ)2 = σX
erwartungstreu).
i
Aber µ ist selten
und muss aus den Daten geschätzt werden: µ̂ = X̄. Da aber
P bekannt
2
X̄ den Term (Xi − c) minimiert, ist
1X
1X
(Xi − X̄)2 ≤
(Xi − µ)2 .
n
n
Man kann zeigen, dass stattdessen
n
1 X
s =
(Xi − X̄)2
n−1
2
(2)
i=1
ein erwartungstreuer Schätzer für σ 2 ist.
3.1.2
Geometrie des Mittelwertes
Wir fassen n Beobachtungen x1 , . . . , xn ∈ R auf als einen Datenvektor X = (x1 , . . . , xn ) ∈
Rn (Abb. 7). Sei D die ‘Hauptdiagonale’ in Rn , also
D := {c1|c ∈ R},
wobei 1 := (1, . . . , 1)T .
19
Abbildung 7: Darstellung von X = (x1 , . . . , xn )T im Rn .
Dann ist x̄1 die orthogonale Projektion des Datenvektors X auf die Hauptdiagonale.
Wir schreiben dafür
x̄1 = PD X.
Denn das Skalarprodukt
< 1, X − c1 >= 0
für
X
xi − nc = 0,
also: c = x̄.
Da durch die orthogonale Projektion c so bestimmt P
wird, dass die Länge der Strecke
X − c1 minimal wird, bedeutet das gleichzeitig, dass (xi − c)2 = ||X − c1||2 minimal
ist für c = x̄. Anschaulich gesprochen zerlegen wir X in einen konstanten Anteil x̄1 und
ein Residuum R := X − x̄1:
  

1
x1 − x̄
  

..
X = x̄  ...  + 
 = x̄1 + R,
.
1
xn − x̄
wobei sowohl x̄1 als auch R als orthogonale Projektionen aufgefasst werden können:
x̄1 = PD X,
und
R = PD⊥ X.
Abbildung 8: Geometrische Bedeutung von Mittelwert und Standardabweichung
20
3.1.3
Geometrie der geschätzten Standardabweichung
Will man den Vektor X ‘am besten’ (im Sinne des kleinsten euklidischen Abstandes)
durch eine Zahl beschreiben, so wählt man den Mittelwert x̄. Aber wie gut kann man X
durch x̄ beschreiben? Wie weit ist X von der Hauptdiagonale D entfernt?
qX
√
||R|| =
(xi − x̄)2 = n − 1 · s.
Je kürzer das Residuum R, desto näher ist X an D, desto weniger weichen die Beobachtungen von ihrem Mittelwert ab.
3.2
Die t-Statistik
Ersetzt man in der z-Statistik σ durch s, so ist die resultierende Größe (zumindest für
kleine n) nicht mehr normalverteilt. Aber falls X1 , . . . , Xn unabhängig und N (µ, σ 2 )verteilt sind, hat sie eine bekannte Verteilung: die t-Verteilung mit n−1 Freiheitsgraden.
Satz: (William Gosset, alias ‘Student’, ∼ 1907)
Seien X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt. Dann hängt die Verteilung von
T :=
X̄ − µ
√
s/ n
nur von n ab (und z.B. nicht von σ). Genauer: T ist student-verteilt (t-verteilt) mit
(n − 1) Freiheitsgraden (Beweis folgt).
3.2.1
Die t-Verteilung und ihre Verwandten
Die t-Verteilung ist glockenförmig und (in aller Regel) um 0 zentriert. Sie gleicht der
Standardnormalverteilung und geht für n → ∞ in sie über. Für kleine n hat sie jedoch
breitere Schwänze (vgl. Figur 9, links): Eine t-verteilte ZVe T nimmt mit höherer Wahrscheinlichkeit extremere Werte an als eine normalverteilte ZVe Z. Die t-Statistik streut
stärker als die z-Statistik, weil auch im Nenner eine Zufallsgröße steht. Das Gewicht
außerhalb des Intervalls [−1.96, 1.96] ist größer als 5%. Die neuen Schranken kann man
in R mit der Funktion qt(0.025,df) berechnen (typische Werte siehe Tabelle 4).
df
tkrit
2
4.30
5
2.57
10
2.23
15
2.13
30
2.04
∞
1.96
Tabelle 4: Kritische Werte der t-Verteilung für Ws(|T | > tkrit ) = 0.05.
Die Dichte der t-Verteilung mit n Freiheitsgraden ist
Γ((n + 1)/2)
ftn (x) = √
nπΓ(n/2)
− n+1
2
x2
1+
,
n
x∈R
(vgl. Figur 9).
Eine t-verteilte ZVe kann beschrieben werden als Quotient von unabhängigen
ZVen:
Sei T t(n)-verteilt, Z ∼ N (0, 1) und X ∼ χ2 (n), so ist L(T ) = L √ Z
.
X/n
21
χ2−Verteilung
df = 1
df = 2
df = 4
df = 6
0.0
df = 2
df = 8
0.4
Dichte
0.8
0.0 0.1 0.2 0.3 0.4
Dichte
Normal− und t−Verteilung
−4
−2
0
2
4
0
1
2
3
4
5
6
7
Abbildung 9: Die t- und die χ2 -Verteilung
Die χ2 -Verteilung
Eine ZVe X ist χ2 -verteilt mit n Freiheitsgraden, wenn
L(X) = L Z12 + Z22 + · · · + Zn2 ,
mit Z1 , . . . , Zn unabhängig und N (0, 1)-verteilt.
Die Dichte der χ2 -Verteilung mit n Freiheitsgraden ist
fχ2 (n) (x) =
1 1 x n2 −1 − x
e 2,
Γ(n/2) 2 2
x>0
(vgl. Figur 9).
Mit EZi2 = 1 und Var(Zi2 ) = 2 sieht man: Ist X ∼ χ2 (n), so ist E(X) = n und
Var(X) = 2n. (Und am Rande sei bemerkt: An der Dichte sieht man sofort, dass die
χ2 (2)-Verteilung der Exp(1/2)-Verteilung entspricht.)
Um zu zeigen, dass die T -Statistik t-verteilt ist, brauchen wir noch einige Vorüberlegungen, die uns auch später von Nutzen sein werden. Wir stellen dazu zunächst T auf
andere Weise dar: Von X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt gehen wir über zu
Xi − µ
σ
Zi :=
Dann ist
X̄ − µ
√ =
T =
s/ n
Da Zi ∼ N (0, 1), ist auch
1.
√
unabhängig und N (0, 1)-verteilt.
X̄−µ
√
σ/ n
s
σ
√
nZ̄
=
=q
s/σ
√
nZ̄
.
P
1
2
(Z
−
Z̄)
i
n−1
nZ̄ ∼ N (0, 1). Es genügt also zu zeigen:
n
X
(Zi − Z̄)2 ∼ χ2 (n − 1)
i=1
2.
√
nZ̄ und
n
X
(Zi − Z̄)2 sind unabhängig.
i=1
22
Die Standardnormalverteilung auf Rn und der Satz von Fisher
3.3
Definition Z = (Z1 , . . . , Zn )T heißt standardnormalverteilt auf Rn ⇐⇒
Z1 , . . . , Z n
unabhängig und standardnormalverteilt in R. Damit ist die Wahrscheinlichkeitsdichte
von Z gegeben durch
ϕn (x) =
P 2
n
Y
x2
x
||x||2
1
1
1
i
− 2i
− 2
√ e− 2 =
e
=
e
,
n/2
n/2
(2π)
(2π)
2π
i=1
x = (x1 , . . . , xn )T .
Insbesondere ist ϕn rotationssymmetrisch, weil es nur von der Länge ||x|| des Vektors x
abhängt.
Der Satz von Fisher Z sei standardnormalverteilt in Rn , H sei k-dimensionaler
Teilraum von Rn . Dann gilt:
1. ||PH Z||2 ∼ χ2 (k)
2. PH Z und PH⊥ Z sind unabhängig.
Zum Beweis brauchen wir ein
Lemma (über die orthogonale Invarianz der Standardnormalverteilung)
Z sei standardnormalverteilt in Rn . Dann gilt:
1. Für M orthogonale n × n-Matrix (d.h. M · M T = I) ist
Y := M · Z
wieder standardnormalverteilt.
2. Zu jeder ONB von Rn sind die Koordinaten von Z wieder standardnormalverteilt
und unabhängig.
Bew. 1.:
Die Dichte von Y = M Z ist
g(y) =
1
ϕn (M −1 y),
|detM |
y ∈ Rn ,
denn
Ws(M (z) ∈ B) = Ws(z ∈ M
−1
Z
(B)) =
ϕn (z)dz
M −1 (B)
z=M −1 (y)
Z
=
ϕn (M −1 (y))
1
dy.
|detM |
B
Nun gilt aber
|detM | = 1
und
||M −1 (y)||2 = y T (M −1 )T M −1 y = ||y||2 ,
und damit g(y) = ϕn (y).
Bew. 2.:
23
Sei e1 , . . . , en ONB von Rn und M := (e1 , . . . , en )T . Dann sind die Koordinaten von Z
in der neuen ONB gegeben durch Y = M Z und damit nach 1. standardnormalverteilt
und unabhängig.
Beweis des Satzes von Fisher
Wir wählen eine ONB (e1 , . . . , ek ) von H und ergänzen sie zu einer ONB B := (e1 , . . . , en )
von Rn . Die Koordinaten von Z in B seien W1 , . . . , Wk , Wk+1 , . . . , Wn . Sie sind nach dem
vorausgegangenen Lemma wieder unabhängig und standardnormalverteilt. Mit
PH Z = W1 e1 + . . . + Wk ek = (W1 , . . . , Wk , 0, . . . , 0)T
PH ⊥ Z = Wk+1 ek+1 + . . . + Wn en = (0, . . . , 0, Wk+1 , . . . , Wn )T
P
sind PH Z und PH ⊥ Z unabhängig, und ||PH Z||2 = ki=1 Wi2 ∼ χ2 (k).
Beweis, dass T ∼ t(n − 1) :
Erinnerung: Wir hatten T folgendermaßen umgeschrieben:
√
X̄ − µ
nZ̄
√ =q
T =
,
P
s/ n
1
2
(Z
−
Z̄)
i
n−1
√
mit Zi ∼ N (0, 1). Damit war nZ̄ ∼ N (0, 1), und es war zu zeigen:
1.
n
X
(Zi − Z̄)2 ∼ χ2 (n − 1)
i=1
2.
√
nZ̄ und
n
X
(Zi − Z̄)2 sind unabhängig.
i=1
Da Z̄ := Z̄1 Projektion von Z auf die Hauptdiagonale D ist und R := Z − Z̄ Projektion
von Z auf das orthogonale Komplement D⊥ , folgt die Behauptung.
Man bemerke: Die Verteilung von T hängt damit nur von n ab (und nicht etwa von µ
und σ 2 )! Das ist ein Glücksfall, denn n ist der Stichprobenumfang und damit immer
bekannt.
3.4
Anwendung: Eine Stichprobe
Wir wissen jetzt: Für X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt, mit unbekanntem
√
µ und 0 < σ 2 < ∞, ist die t-Statistik T = n(X̄ − µ)/s nach t(n − 1)-verteilt. Was
nützt diese Information in der Praxis?
1. Student-Konfidenzintervall Man kann (auch für kleine n) ein exaktes Konfidenzintervall I1−α (X) für µ zum Niveau (1 − α) angeben. Wir schreiben für das p-Quantil
−1
der t(n − 1)-Verteilung kurz qtn−1 (p) := Ft(n−1)
(p). Wegen
Wsµ [T ∈ [qtn−1 (α/2), qtn−1 (1 − α/2)]] = 1 − α
s
s
= Wsµ µ ∈ X̄ − √ qtn−1 (1 − α/2), X̄ + √ qtn−1 (1 − α/2)
n
n
24
ist
s
s
I1−α (X) := X̄ − √ qtn−1 (1 − α/2), X̄ + √ qtn−1 (1 − α/2)
n
n
ein Konfidenzintervall für µ zum Niveau (1 − α).
2. Der Student-Test testet die Hypothese
Hθ :
µ = θ.
Unter Hθ ist die Teststatistik
√
n(X̄ − θ)
Tθ (X) :=
s
t(n − 1)-verteilt.
a) Klassischer t-Test mit Signifikanz α: Wegen
Wsθ [|Tθ (X)| ≥ qtn−1 (1 − α/2)] = α
lehne Hθ ab, falls |Tθ (X)| ≥ qtn−1 (1 − α/2). Dann wird Hθ fälschlicherweise abgelehnt
mit Wahrscheinlichkeit α.
b) Allgemein gilt
Wsθ [|Tθ (X)| ≥ |τ |] = 2 · (1 − Ft(n−1) (|τ |)).
Das heißt, nimmt |Tθ (X)| den Wert τ an, kann man Hθ ablehnen zum p-Wert 2 · (1 −
Ft(n−1) (|τ |)).
Bemerkung Bei einem Test der Hypothese Hθ : µ = θ wird Hθ genau dann (zum pWert α) abgelehnt, wenn θ nicht in dem unter 1. hergeleiteten (1 −α)-Konfidenzintervall
I1−α (X) für µ liegt.
3.5
Der zwei-Stichproben t-Test (für gleiche Varianzen)
X1 , . . . , Xm , Y1 , . . . , Yn seien unabhängig, mit X1 , . . . , Xm ∼ N (µ1 , σ 2 ), Y1 , . . . , Yn ∼
N (µ2 , σ 2 ), und µ1 , µ2 , σ 2 seien unbekannt. Wie testet man die Hypothese
H0 :
(µ1 − µ2 = 0)?
µ1 = µ 2
Wir suchen eine geeignete Teststatistik (die nach Möglichkeit nicht von µ1 , µ2 , σ 2 abhängt).
Bemerke:
X̄ ∼ N (µ1 , σ 2 /m),
Ȳ ∼ N (µ2 , σ 2 /n)
1
1
2
X̄ − Ȳ ∼ N µ1 − µ2 , σ
+
m n
X̄ − Ȳ − (µ1 − µ2 )
q
N :=
∼ N (0, 1)
1
1
+
σ
m
n
Wir bauen daraus eine t-verteilte Statistik
N
T := p
,
W/d
25
mit W ∼ χ2 (d)-verteilt mit d = d(n, m) und N, W unabhängig. Wie geht das?
Aus dem Satz von Fisher wissen wir:
1 X
(Xi − X̄)2 ∼ χ2 (m − 1) und unabhängig von X̄
σ2
1 X
(Yi − Ȳ )2 ∼ χ2 (n − 1) und unabhängig von Ȳ .
σ2
Die Vektoren X = (X1 , . . . , Xm ) und Y = (Y1 , . . . , Yn ) sind sowieso unabhängig, und
damit ist
i
X
1 hX
(Xi − X̄)2 +
(Yi − Ȳ )2 ∼ χ2 (n + m − 2)
W := 2
σ
und unabhängig von X̄, Ȳ (und damit von N ). Also gilt
T := p
N
W/(n + m − 2)
∼ t(n + m − 2).
T lässt sich folgendermaßen darstellen:
T =q
1
m
+
1
n
q
X̄ − Ȳ − (µ1 − µ2 )
X̄ − Ȳ − (µ1 − µ2 )
=: q
,
P
P
1
1
1
2+
2)
(
(X
−
X̄)
(Y
−
Ȳ
)
+
s
i
i
n+m−2
m
n X,Y
mit
s2X,Y =
X
X
1
(Xi − X̄)2 +
(Yi − Ȳ )2 .
n+m−2
Konfidenzintervall für µ1 − µ2 Wie in der Situation einer Stichprobe ist ein (1 − α)Konfidenzintervall für µ1 − µ2 gegeben durch die Grenzen
r
1
1
X̄ − Ȳ ±
+ sX,Y qtm+n−2 (1 − α/2).
m n
Test der Hypothese Hθ : µ1 − µ2 = θ
Unter Hθ gilt
X̄ − Ȳ − θ
Tθ (X, Y) := q
∼ t(m + n − 2).
1
1
+
s
X,Y
m
n
Damit können wir Hθ zum Niveau α ablehnen, falls
|Tθ (X, Y)| ≥ qtm+n−2 (1 − α/2).
Bemerkung Wieder wird bei einem Test die Hypothese Hθ genau dann (zum p-Wert
α) abgelehnt, wenn θ nicht im (1 − α)-Konfidenzintervall für µ1 − µ2 liegt.
26
3.6
Zur Geometrie in der zwei-Stichproben-Situation
Wie in der Situation mit einer Stichprobe gibt es eine anschauliche geometrische Interpretation der T -Statistik. Wir betrachten die Beobachtungen X1 , . . . , Xm , Y1 , . . . , Yn
wiederum als Einträge eines Datenvektors im Rm+n :
Z := (X1 , . . . , Xm , Y1 , . . . , Yn )t
normalverteilt im Rm+n ,
mit X1 , . . . , Xm , Y1 , . . . , Yn unabhängig und identisch verteilt gemäß N (µ, σ 2 ). Wir betrachten den 2-dimensionalen Unterraum M von Rm+n :
M := {(a, . . . , a, b, . . . , b)t |a, b, ∈ R}.
| {z } | {z }
m
n
M kann man in zwei orthogonale Unterräume zerlegen:
M := D ⊕ E,
wobei D wieder die Hauptdiagonale ist und E ihr orthogonales Komplement in M. D
und E werden jeweils aufgespannt durch die Einheitsvektoren


1/m


..
 


.
1


 1/m 
1
1
 .. 

.
e0 := √
· . 
·
und
e1 := p

m+n
1/m + 1/n 
 −1/n 
1


..


.
−1/n
Jetzt sehen wir, dass
||Z − PM Z||2 = ||PM⊥ Z||2 =
X
(Xi − X̄)2 +
X
(Yj − Ȳ )2 = (m + n − 2) · s2X,Y
X̄ − Ȳ
< Z, e1 > = ||PE Z|| = q
1
1
m + n
und damit
T := q
X̄ − Ȳ
1
m
+
1
n
· sX,Y
√
||PE Z|| m + n − 2
=
.
||PM⊥ Z||
Die T -Statistik vergleicht die Längen von zwei orthogonalen Projektionen von Z auf
orthogonale Unterräume: E repräsentiert die Gruppenunterschiede zwischen X und Y
(die Variabilität zwischen den Gruppen), M⊥ repräsentiert die Variabilität innerhalb der
Gruppen. Wir werden dieselbe Zerlegung bei der klassischen Varianzanalyse antreffen,
die auf analoge Art und Weise die Mittelwerte von mehr als zwei Gruppen miteinander
vergleicht.
27
4
Tests für gepaarte Stichproben
4.1
t-Test für gepaarte Stichproben
Ein Beispiel aus Box-Hunter-Hunter, Statistics for Experimenters, Wiley, 1987:
Zwei Materialien (A und B) für Schuhsohlen sollen verglichen werden: Welches Material
nutzt sich weniger ab? Zehn Jungen erklären sich als Testpersonen bereit, 2 Monate lang
nur die entsprechend besohlten Schuhe zu tragen.
• Versuchsplanung:
a) Wähle zufällig 5 der 10 Jungen und gebe ihnen Material A, die anderen bekommen Material B. Vergleiche nach 2 Monaten die Abnutzung. Nachteil dieses
Versuchsplans: Die Abnutzung der Materialien hängt nicht nur vom Material selbst
ab, sondern auch von den Individuen: Die Variabilität kommt aus zwei verschiedenen Quellen, die entsprechenden Effekte sind konfundiert. Ein Materialeffekt ist
schwer zu entdecken, wenn die Unterschiede zwischen den Individuen groß sind.
b) Um Unterschiede zwischen den Individuen auszuschalten, geben wir jedem Jungen einen Schuh mit Sohle A und einen Schuh mit Sohle B (jeweils zufällig an den
rechten oder linken Fuß).
Ergebnisse:
Tabelle 5: Bubenschuhe
Junge
A
B
1
13.2
14.0
2
8.2
8.8
3
10.9
11.2
4
14.3
14.2
5
10.7
11.8
6
6.6
6.4
7
9.5
9.8
8
10.8
11.3
9
8.8
9.3
10
13.3
13.6
• Auswertung:
a) Wir betrachten A1 , . . . , A10 , B1 , . . . , B10 als unabhängig und normalverteilt und
machen einen t-Test für zwei unabhängige Stichproben wie im letzten Abschnitt
beschrieben. Das Ergebnis: p = 0.72. Wir können die Hypothese µA = µB also
nicht ablehnen - die beobachteten Unterschiede können in mehr als 70% aller Versuche durch Zufall zustande kommen.
b) Wir haben in a) schon wieder nicht berücksichtigt, dass die Daten eine Paarungsstruktur haben, dass also jeder Wert Ai genau einem Wert Bi entspricht.
Die Variabilität zwischen den Individuen ging in a) noch in die T-Statistik ein.
Wir können aber leicht davon Gebrauch machen, dass sich bei manchen Jungen
die Sohlen grundsätzlich weniger abnutzen als bei anderen: die Stichproben sind
positiv korreliert (siehe Abb. 10). Wir betrachten die Differenzen:
Di := Ai − Bi
und untersuchen mit einem t-Test für eine Stichprobe die Nullhypothese, dass die
Verteilung dieser Differenzen Mittelwert Null hat. Das Ergebnis: p = 0.008.
28
14
●
12
●
●
●
10
B
●●
●
●
8
●
6
●
6
8
10
12
14
A
Abbildung 10: Gepaarte Stichproben
4.1.1
Voraussetzungen und Spezialfall
Die einzige Voraussetzung beim t-Test für gepaarte Stichproben ist, dass der Effekt (in
dem Fall die Unterschiede in der Abnutzung des Materials) normalverteilt ist und unabhängig für jedes Individuum. Man kann also den Effekt E einer Behandlung auf ein
Merkmal untersuchen, ohne die Verteilung des Merkmals in der untersuchten Population überhaupt zu kennen. Allein der Effekt, der sich in der Differenz Di = Ai − Bi
äußert, muss normalverteilt sein, nicht die zugrundeliegenden Verteilungen von A und
B. Dennoch sind es interessante Spezialfälle, wenn A und B normalverteilt sind:
Normalverteilung Im Fall A1 , . . . , An , B1 , . . . , Bn unabhängig und normalverteilt,
mit gleicher Varianz und EA = µA , EB = µB würde man für die Hypothese µA = µB
einen Test für zwei unabhängige Stichproben durchführen, mit
Ā − B̄
Tungepaart := q
,
2
s
n A,B
wobei T t-verteilt wäre mit 2n − 2 Freiheitsgraden.
Was passiert, wenn man statt dessen eine Paarungsstruktur einbaut und die Differenzen
Di = Ai − Bi mit einem Ein-Stichproben-Test betrachtet? (Das kann man machen,
denn die Differenzen von unabhängigen Normalverteilten sind ja wieder normalverteilt).
Der wesentliche Unterschied besteht darin, dass man Freiheitsgrade einbüßt, denn die
entsprechende Teststatistik
Ā − B̄
Tgepaart := q
1
n sA−B
ist unter der Nullhypothese t-verteilt mit nur (n − 1) Freiheitsgraden. Damit verliert
man ein wenig Testmacht, was für große n allerdings vernachlässigbar ist. Ansonsten
unterscheiden sich die beiden Teststatistiken im Prinzip nicht, denn für unabhängige
2.
2
Ai , Bi mit gleicher Varianz σ 2 ist Var(A − B) = σA−B
= 2σA
Sind dagegen Ai und Bi positiv korreliert (wie im Beispiel der Bubenschuhe), so ist
2 − 2Cov(A, B). Infolgedessen wird der Nenner von T
Var(A − B) = 2σA
gepaart kleiner,
die Teststatistik wird größer, und man gewinnt an Testmacht.
29
Positiv korrelierte Normalverteilte Modell: A1 , . . . , An seien unabhängig und N (µ, σ 2 )verteilt, also Ai = µ+σZi für Zi ∼ N (0, 1). B1 , . . . , Bn seien unabhängig und normalverteilt. Aber Ai und Bi seien nicht unabhängig, sondern positiv korreliert in der folgenden
Form:
Bi = Ai + δ + αZi0 , mit δ ∈ R, α > 0, Zi0 ∼ N (0, 1).
Dann gilt:
Bi − Ai = δ + αZi0 ,
Var(Di ) = α
4.2
und damit
2
Wilcoxon-Test für gepaarte Stichproben/ Vorzeichenrangtest
Im t-Test war die einzige benötigte Modellannahme die Normalverteilung der Differenzen:
L(D) = N (δ, σ 2 ),
bzw.
L(D − δ) = N (0, σ 2 ).
Der Wilcoxon-Test kommt ohne Normalverteilung aus. Er testet die Hypothese Hµ , dass
die Verteilung der Differenzen symmetrisch um µ ist. (Alternativen sind hier also sowohl:
Eine symmetrische, aber nicht um µ zentrierte Verteilung, oder eine Verteilung, die nicht
symmetrisch ist.) Die Teststatistik verwendet die mit den Vorzeichen versehenen Ränge:
Wµ (D) =
n
X
1{Di >µ} Rang(|Di − µ|).
i=1
Unter Hµ ist Wµ so verteilt wie
S=
n
X
i · Vi ,
i=1
wobei Vi unabhängige, faire {0, 1}−Münzwürfe sind. Die Verteilung von S kennt R unter
dem Namen signrank (rsignrank, psignrank, etc.). Die Verteilung von S ist symmetrisch um
X
1X
n(n + 1)
ES =
iEVi =
i=
.
2
4
Ein Test auf Hµ : δ = µ liefert als p-Wert entsprechend die Wahrscheinlichkeit, dass die
| von n(n+1)
abweicht. In R einfach mit dem
Teststatistik S um mehr als |Wµ − n(n+1)
4
4
Befehl: wilcox.test(A-B), oder wilcox.test(A,B,paired=TRUE). Im obigen Beispiel:
p = 0.014
4.3
Vorzeichentest
Eine weitere simple Statistik verwendet ausschließlich die Vorzeichen der Differenzen:
Unter der Nullhypothese dass Ai und Bi dieselbe Verteilung haben, erwarten wir genauso viele positive wie negative Differenzen Di = Ai − Bi . Die Anzahl der positiven
Differenzen:
S2 := |{i|Di > 0}|
ist somit binomialverteilt mit Parametern n und 1/2. Im obigen Beispiel: Nur 2 von 10
Differenzen sind positiv. Der p-Wert: 2 pbinom(2,10,0.5)≈ 0.11. Der Vorzeichentest
ist weniger mächtig als der Vorzeichenrangtest, weil er nicht berücksichtigt, dass die
positiven Differenzen vom Betrag her kleiner sind als die negativen Differenzen.
30
4.4
Permutationstest von Fisher
Und noch eine Statistik für gepaarte Stichproben:
S3 :=
n
X
(sgn Di ) · Di .
i=1
Unter der Nullhypothese
gilt: Gegeben die Werte der Differenzbeträge |Di |, ist S3 so
P
verteilt wie
|Di |Vi , wobei Vi wieder unabhängige faire {−1, 1}-Münzwürfe sind.
5
Vergleich von mehr als 2 Stichproben und das normale
lineare Modell
5.1
5.1.1
Vom t-Test zur einfaktoriellen Varianzanalyse
Geometrie beim t-Test
Wir erinnern uns an das Vorgehen beim t-Test zum Vergleich von zwei unabhängigen
Stichproben und an die geometrische Situation in Sektion 3.6. Gegeben sind zwei Stichproben X11 , . . . , X1n1 und X21 , . . . , X2n2 , alle Xij unabhängig und normalverteilt mit
gleicher Varianz σ 2 , aber eventuell mit unterschiedlichen Erwartungswerten E[X1i ] = µ1
für i = 1, . . . , n1 , und E[X2j ] = µ2 für j = 1, . . . , n2 . Das Modell ist also:
Xij = µi + σZij ,
wobei Zij ∼ N (0, 1) und unabhängig, i = 1, 2,
j = 1, . . . , ni ,
mit µ1 , µ2 ∈ R. Oder in Vektorschreibweise:
X = µ + σZ,
mit X = (X11 , . . . , X1n1 , X21 , . . . , X2n2 )t , µ = (µ1 , . . . , µ1 , µ2 , . . . , µ2 )t und Z standardnormalverteilt im Rn1 +n2 . Das allgemeine Modell sagt also
µ∈M
mit M := {(µ1 , . . . , µ1 , µ2 , . . . , µ2 )t |µ1 , µ2 ∈ R},
dim(M) = 2.
Wir untersuchen die Nullhypothese H0 : µ1 = µ2 und damit die Frage, ob µ eigentlich
in einem eindimensionalen Unterraum D von M liegt mit
D := {(µ, . . . , µ)t |µ ∈ R}.
Um dies zu tun, zerlegen wir den Vektor X in die orthogonalen Projektionen auf die
Unterräume D, E (mit M = D ⊕ E) und auf M⊥ :
X = PD X + PE X + PM⊥ X
 
  
1
x̄1 − x̄
x11 − x̄1
 
 ..  
..
..
 
 .  
.
.





+
= x̄   + 

 1   x̄2 − x̄   x21 − x̄2
..
..
..
.
.
.



,


P i
Xij den Gruppenmittelwert in Gruppe i bezeichnet und x̄ :=
wobei x̄i := n1i nj=1
P
1
i,j Xij den globalen Mittelwert von X.
n1 +n2
31
Geometrische Interpretation der t-Statistik
Nun ist die t-Statistik gerade:
x̄1 − x̄2
||PE X||
√
T := p
=
.
||PM⊥ X||/ n1 + n2 − 2
s 1/n1 + 1/n2
Unter der Nullhypothese: µ ∈ D ist wegen D⊥E: PE µ = 0, und damit PE X = PE σZ.
Damit ist nach dem Satz von Fisher unter der Nullhypothese die t-Statistik (salopp
geschrieben):
p
χ2 (1)
N (0, 1)
T =p
=p
∼ t(n1 +n2 −2).
√
√
χ2 (n1 + n2 − 2)/ n1 + n2 − 2
χ2 (n1 + n2 − 2)/ n1 + n2 − 2
Definition (Fisher-Verteilung)
Seien X1 ∼ χ2 (k1 ) und X2 ∼ χ2 (k2 ) unabhängige Zufallsgrößen. Dann heißt die Verteilung von
X1 /k1
X2 /k2
Fisher-Verteilung mit k1 und k2 Freiheitsgraden (man sagt auch k1 Zähler- und k2
Nennerfreiheitsgrade).
Beobachtung
Ist T student-verteilt mit n Freiheitsgraden, so ist T 2 Fisher -verteilt mit 1 und n Freiheitsgraden. Das Quadrat der obigen t-Statistik ist also Fisher(1, n1 +n2 −2)-verteilt. Ein
(zweiseitiger) t-Test zum Test der Hypothese µ1 = µ2 gegen µ1 6= µ2 zum Niveau 1 − α
mit Hilfe von entsprechenden student(n1 +n2 −2)-Quantilen ist also äquivalent zu einem
Test, der die Statistik T 2 und die entsprechenden Quantile der Fisher(1, n1 + n2 − 2)Verteilung verwendet.
5.1.2
Verallgemeinerung auf k(> 2) Gruppen
Wie kann man untersuchen, ob die Mittelwerte von mehr als 2 Gruppen sich unterscheiden? Ein Beispiel: 24 Wunden von Ratten wurden mit je einer von 4 verschiedenen
Behandlungen (A, B, C, D) behandelt. Hat die Behandlung einen Einfluss auf die Blutgerinnungszeit? Abbildung 11 zeigt, dass die Mittelwerte der vier Gruppen sich unterscheiden. Hätte das Zufall sein können? Wie groß sind die Unterschiede zwischen den
vier Mittelwerten, die wir durch Zufall erwarten?
Wir gehen ganz analog zum 2-Stichproben-t-Test vor. Das zugrundeliegende Modell
für k Gruppen:
X1j = µ1 + σZ1j
..
.
für j = 1, . . . , n1
Xkj = µk + σZkj
für j = 1, . . . , nk ,
also
X = µ + σZ
mit
32
µ∈M
70
65
60
Gerinnungszeit (s)
A
B
C
D
Behandlung
Abbildung 11: Blutgerinnungszeit bei vier verschiedenen Wundbehandlungen
und M := {(µ1 , . . . , µ1 , . . . , µk , . . . , µk )t |µ1 , . . . , µk ∈ R}, dim(M) = k. Wir untersuchen
wieder die Nullhypothese µ1 = . . . = µk , also
µ∈D
mit
D := {(µ, . . . , µ)t |µ ∈ R}
und projizieren dazu X orthogonal auf die zueinander orthogonalen Unterräume D, E
(mit M = D ⊕ E und somit dim(E) = k − 1) und M⊥ :
X = PD X + PE X + PM⊥ X
 
  
1
x̄1 − x̄
x11 − x̄1
 ..  
 
..
..
 .  
 
.
.
+
+
= x̄ 
 1   x̄k − x̄   xk1 − x̄k
  
 
..
..
..
.
.
.



.


Wir betrachten die Teststatistik
F :=
||PE X||2 /(k − 1)
.
||PM⊥ X||2 /(n − k)
(3)
In jedem Fall gilt µ ∈ M, und damit ist PM⊥ µ = 0, und es gilt nach dem Satz von
Fisher
1
||P ⊥ X||2 = ||PM⊥ Z||2 ∼ χ2 (n − k).
σ2 M
Für den Zähler von F gilt unter der Nullhypothese (µ ∈ D) weiterhin PE µ = 0 und
damit
1
||PE X||2 = ||PE Z||2 ∼ χ2 (k − 1).
σ2
Also gilt unter der Nullhypothese, d.h. wenn alle Gruppenmittelwerte gleich sind:
F :=
||PE X||2 /(k − 1)
∼ F isher(k − 1, n − k).
||PM⊥ X||2 /(n − k)
Trifft die Nullhypothese aber nicht zu, d.h. ist µ ∈
/ D, so ist PE µ 6= 0 und damit der
Zähler von F tendenziell größer.
33
Klassische einfaktorielle Varianzanalyse
Große Werte von F deuten also auf Abweichungen von der Nullhypothese hin. Ein Test
der Nullhypothese zum Niveau 1 − α hätte damit den Annahmebereich
{F |F ≤ qf (1 − α, k − 1, n − k)},
wobei qf (1 − α, k − 1, n − k) das 1 − α-Quantil der Fisher-Verteilung mit k − 1 und n − k
Freiheitsgraden bezeichnet.
Die klassische Varianzanalyse (kurz: ANOVA - ANalysis Of VAriance) zerlegt also
eigentlich nur die Variabilität der Daten, ||X||2 in einen gemeinsamen Anteil, ||PD X||2 ,
in einen Anteil, der die Unterschiede zwischen den Gruppenmittelwerten repräsentiert,
||PE X||2 , und in einen Anteil, der die zufällige Variabilität innerhalb der Gruppen repräsentiert, ||PM⊥ X||2 . Wegen E||PM⊥ X||2 = σ 2 (n − k) ist der Nenner von F ,
s2 := ||PM⊥ X||2 /(n − k),
ein erwartungstreuer Schätzer für σ 2 . Wegen Pythagoras ist
||X||2 = ||PD X||2 +
||PE X||2
| {z }
+
Treatmentquadratsumme
= nx̄2 +
X
ni (x̄i − x̄)2 +
i
ni
k X
X
||PM⊥ X||2
| {z }
Fehlerquadratsumme
(xij − x̄i )2 .
i=1 j=1
Im Blutgerinnungsbeispiel
haben wir n1 = 4, n2 = n3 = 6, n4 = 8, x̄1 = 61, x̄2 =
P
66, x̄3 = 68, x̄4 = 61, n =
ni = 24 und x̄ = 64 und damit folgende Zerlegung:
X = PD X + PE X + PM⊥ X
mit xij = x̄ + (x̄i − x̄) + (xij − x̄i ),
 
 

 
−3
64
62
 60   64   −3  
 

 
 
 63   64   −3  
 
 

 
 59   64   −3  
 
 

 
 63  =  64  +  2  + 

 
 
 
 67   64   2  
 

 
 
 .   .   .  
 ..   ..   ..  
−3
64
59
1
−1
2
−2
−3
1
..
.







,





−2
mit den entsprechenden Quadratsummen ||PE X||2 = 228 und ||PM⊥ X||2 = 112, und
damit
||PE X||2 /(k − 1)
228/3
F =
=
≈ 13.6.
||PM⊥ X||2 /(n − k)
112/20
Abbildung 12 zeigt, dass so große Unterschiede unter der Nullhypothese sehr selten
vorkommen (p < 0.001).
34
0.0 0.2 0.4 0.6
Dichte
13.6
0
5
10
15
x
Abbildung 12: Dichte der Fisher-Verteilung mit 3 und 20 Freiheitsgraden.
5.2
Das normale lineare Modell
Die Varianzanalyse ist ein Beispiel einer statistischen Fragestellung im Rahmen eines
linearen Modells. Allgemein haben wir es zu tun mit einem Modell der Form
X = µ + σZ,
wobei Z standardnormalverteilt auf Rn , σ ≥ 0 und µ ∈ M, mit M k-dimensionaler
Teilraum des Rn .
Im Rahmen dieses Modells können wir µ und σ schätzen und lineare Hypothesen
testen:
Schätzung von µ und σ 2
P
P
Für den kleinste-Quadrate-Schätzer µ̂ von µ gilt: (xi − µ̂i )2 = minµ̂∈M (xi − µ̂i )2 ,
und daher
||X − µ̂||2 = min ||X − m||2 ,
m∈M
und so ist der kleinste-Quadrate-Schätzer wieder die orthogonale Projektion von X auf
M:
µ̂ = PM X = PM µ + PM σZ = µ + PM σZ.
Also ist µ̂ erwartungstreuer Schätzer für µ. Analog mit R := PM⊥ X = σPM⊥ Z:
s2 :=
||P ⊥ Z||2
||R||2
= σ2 M
.
n−k
n−k
Wegen ||PM⊥ Z||2 ∼ χ2 (n − k) ist s2 erwartungstreuer Schätzer für σ 2 , und nach dem
Satz von Fisher unabhängig von µ̂.
µ̂ ist auch der ML-Schätzer für µ, denn für X = (X1 , . . . , Xn ) unabhängig und
Xi ∼ N (µi , σ 2 ) ist die Likelihoodfunktion gegeben durch
P
Y
1
(xi − µi )
1
(xi − µi )2
√
exp −
=
exp
−
.
2σ 2
2σ 2
(2πσ 2 )n/2
2πσ 2
i
Sie wird maximal, wenn die Summe der Residuenquadrate
also für den Kleinste-Quadrate-Schätzer µ̂.
35
P
(xi − µi )2 minimal wird,
5.2.1
Testen linearer Hypothesen
Wir gehen ganz analog zur Varianzanalyse vor, nur wählen wir als Modellraum M einen
beliebigen k-dimensionalen Teilraum von Rn und als Hypotheseraum D einen beliebigen
d-dimensionalen Teilraum von M. Wir untersuchen wie gehabt die Nullhypothese µ ∈ D.
Wie bisher zerlegen wir den Datenvektor X durch orthogonale Projektion auf D und M
(mit M = D ⊕ E):
X = PD X + PE X + PM⊥ X.
Wie bisher ist unter der Nullhypothese µ ∈ D und damit
PE X = σPE Z
=⇒ 1/σ 2 ||PE X||2 ∼ χ2 (dim(E)).
Analog gilt
PM⊥ X = σPM⊥ Z
=⇒ 1/σ 2 ||PM⊥ X||2 ∼ χ2 (n − k),
und damit ist unter der Nullhypothese die Teststatistik
F :=
||PE X||2 /(k − d)
||PM⊥ X||2 /(n − k)
Fisher(k − d, n − k)-verteilt.
Abbildung 13: Normales Lineares Modell in der Nussschale
5.3
Paarweise Vergleiche, multiples Testen
In der klassischen einfaktoriellen Varianzanalyse wird die Nullhypothese untersucht, dass
alle Gruppenmittelwerte gleich sind. Welche Schlüsse erlaubt ein signifikantes Ergebnis?
Welche Gruppen unterscheiden sich?
Zunächst kann man zurückkehren zu den paarweisen Vergleichen, die wir aus dem tTest kennen. Für ein fest gewähltes Paar (j, `) von Gruppen können wir obiges Vorgehen
36
einschränken, um nur Unterschiede zwischen diesen beiden Gruppen zu untersuchen: Wir
wählen von M einen zweidimensionalen Teilraum
Mj,` := {(0, . . . , 0, a, . . . , a, 0, . . . , 0, b, . . . , b, 0, . . . , 0)t |a, b ∈ R},
bei dem die Einträge aller anderen Gruppen Null sind. Analog
Dj,` := {(0, . . . , 0, a, . . . , a, 0, . . . , 0, a, . . . , a, 0, . . . , 0)t |a ∈ R} ⊂ Mj,` ,
und Ej,` sei das orthogonale Komplement von Dj,` in Mj,` . Wie bisher ist
PEj,` X = (0, . . . , 0, x̄j , . . . , x̄j , 0, . . . , 0, x̄l , . . . , x̄l , 0, . . . , 0)t ,
und damit gilt unter der Nullhypothese µj = µ` :
Fj,` :=
||PEj,` X||2 /1
∼ F isher(1, n − k),
||PM⊥ X||2 /(n − k)
also
Tj,` :=
p
Fj,` ∼ student(n − k).
Also ist
s
"
Ij,` := x̄j − x̄l −
1
1
+ s · qt(1 − α/2), x̄j − x̄l +
nj
n`
s
#
1
1
+ s · qt(1 − α/2)
nj
n`
ein Konfidenzintervall für µj − µ` zum Niveau 1 − α. Man bemerke: Dieses Vorgehen
ist eine Mischung aus klassischem t-Test und klassischer einfaktorieller Varianzanalyse,
da zwar nur zwei Gruppen verglichen werden, aber der Nenner der Teststatistik, s2 , aus
dem gesamten Datensatz geschätzt wird.
5.3.1
Bonferroni-Korrektur
Hat man ein bestimmtes Paar (j, `) im Auge, eignet sich das eben beschriebene Vorgehen
gut.
Aber was, wenn man alle Paare miteinander vergleichen will? Testet man jedes der
k
2 Paare jeweils zum Signifikanzniveau α, so ist natürlich die Wahrscheinlichkeit, dass
mindestens ein Test anschlägt, obwohl µ1 = µ2 = . . . = µk , nicht mehr α, sondern
k
größer. Bei k2 unabhängigen Tests wäre sie 1 − (1 − α)(2) , und für 0 < α < 1 ist
k
(1 − α)(2) < 1 − α.
Eine einfache, aber rechtkonservative Möglichkeit, dieses Problem in den Griff zu
bekommen, ist, α durch α/ k2 zu ersetzen und die entsprechenden Quantile für den Test
zu verwenden. Die Idee dahinter:
k
Ws(mind. ein Test schlägt an) = Ws({Test 1 schlägt an} ∪ . . . ∪ {Test
schlägt an})
2
≤
(k2)
X
i=1
k
Ws(Test i schlägt an) =
α
2
k
Also ist 1 − 2 α eine einfache obere Schranke für (1 − α)(2) . Allerdings sind die resultierenden Konfidenzintervalle recht groß.
k
37
5.3.2
Simultane Konfidenzintervalle nach Tukey
Wenn alle Gruppen gleich groß sind (n1 = n2 = . . . = nk =: m), kann man direkt
simultane Konfidenzintervalle für alle Paare µj − µ` bilden. Sei dafür zunächst
√
√ c
Ij,`
:= x̄j − x̄` − c · s/ m, x̄j + x̄` + c · s/ m
∀j, `
Für jedes Paar (j, `) bilden wir so ein Intervall mit derselben Breite, die von c abhängt.
Wie groß ist c zu wählen, damit
c
1 − α = Ws(µj − µ` ∈ Ij,`
∀(j, `))
√
√
= Ws(x̄j − x̄` − c · s/ m ≤ µj − µ` ≤ x̄j − x̄` + c · s/ m ∀(j, `))
√
= Ws(max m/s |(x̄j − µj ) − (x̄` − µ` )| ≤ c)
(j,`)
√
√
m(x̄j − µj )
σ
m(x̄` − µ` )
max
− min
≤c
= Ws
j
`
s
σ
σ
√
Die Terme m(x̄σi −µi ) , i = 1, . . . , k, sind unabhängig und N (0, 1)-verteilt. Das bedeutet,
wir können für k unabhängige und N (0, 1)-verteilte ZVe Z1 , . . . , Zk die obige Wahrscheinlichkeit umschreiben zu
!
maxj Zj − min` Z`
p
1 − α = Ws
≤c .
s2 /σ 2
Weiterhin gilt
L
√
und s und
m(x̄i −µi )
σ
s2
σ2
=L
||PM⊥ X||2
(n − k)σ 2
=
1
χ2 (n − k),
n−k
sind unabhängig. Daher muss man c so wählen, dass
!
maxj Zj − min` Z`
p
1 − α = Ws
≤c ,
Y /g
wobei Z1 , . . . , Zk unabhängig und N (0, 1)-verteilt und unabhängig von Y ∼ χ2 (g). Die
Verteilung von
maxj Zj − min` Z`
p
Y /g
heißt studentsche Spannweitenverteilung mit Parametern k (Anzahl der Gruppen) und
n − k (Anzahl der Freiheitsgrade im Nenner).
Zahlenbeispiele
Für k = 4, n = 24, α = 0.05 findet man
pα, k, n − k) = 3.96. Mit der
p c =qtukey(1 −
Bonferroni-Korrektur hätte man (mit
1/nj +√1/n` = 2/m) ein Konfidenzintervall
√
mit Faktor qt(1 − α/12, 6 + 6 − 2) · 2 ≈ 3.28 · 2 = 4.63.
Für k = 6, n = 36, α = 0.05 erhält man mit Tukey: c = 4.3, mit Bonferroni 5.41.
Für k = 10, n = 60, α = 0.05 erhält man mit Tukey: c = 4.68, mit Bonferroni 6.39.
38
5.4
Lineare Kontraste
Außer paarweisen Tests kann man auch andere Fragen stellen, z.B.: Ist die Differenz
µ1 − µ2 so groß wie die Differenz µ3 − µ4 , also: µ1 − µ2 − (µ3 − µ4 ) = 0? All dies sind
Beispiele für sogenannte lineare Kontraste, d.h. Ausdrücke der Form
k
X
ci µi
mit
X
ci = 0.
i=1
Wir suchen nach simultanen Konfidenzintervallen für alle linearen Kontraste von µ,
d.h. für alle
X
X
κc =
ci µi mit
ci = 0.
Konfidenzintervall für einen Kontrast
P
P
P
Für einen einzigen Kontrast κc =
ci µi gilt mit κ̂c := ci x̄i und τc2 := c2i :
X
X
ci x̄i = N
ci µi , σ 2 /m · τc2 .
L(κ̂) = L
Also ist ein (1 − α)–Konfidenzintervall für κ gegeben durch
√
√
Iκ := κ̂ − s/ m · τc · qt(1 − α/2, n − k), κ̂ + s/ m · τc · qt(1 − α/2, n − k) .
(Wir schreiben κ statt κc .)
Simultane Konfidenzintervalle für alle linearen P
Kontraste
Wir suchen ein γ so, dass für alle c = (c1 , . . . , ck ) mit
ci = 0 gilt:
√
√
Iκγ := κ̂ − s/ m · τc · γ, κ̂ + s/ m · τc · γ
ist ein (1 − α)-Konfidenzintervall für den Kontrast κ, d.h. so, dass
√
||κ̂ − κ|| m
γ
≤γ
1 − α = Ws(κ ∈ Iκ ∀κ) = Ws max
c
τc
s
(4)
Dazu machen wir zunächst zwei Beobachtungen:
Beobachtung 1
Für µ ∈ M = D ⊕ E zerlegen wir µ in seine orthogonalen Projektionen auf D und E:
µ = PD µ + PE µ =: δ + β.
E wird dadurch beschrieben, dass alle x ∈ E senkrecht auf (1, . . . , 1)t stehen, also:
X
E := {(a1 , . . . , ak )t |
ai = 0}.
P
Wegen
ci = 0 ist daher c ∈ E und damit
X
κc =
ci µi =< c, µ >
X
=< c, PD µ > + < c, PE µ >=< c, PE µ >=
ci βi ,
mit β = (β1 , . . . , βk )t . Außerdem definiert jedes Element von E einen Kontrast.
39
Beobachtung
P2
Wegen κc =
ci βi ist
||κ̂ − κ|| = |
k
X
C.−S.
ci (β̂i − βi )| ≤
i=1
qX
c2i
qX
(β̂i − βi )2 .
| {z }
=τc
Bei Cauchy-Schwarz (C.-S., < x, y >≤ ||x||·||y||) gilt genau dann Gleichheit, wenn x und
y kollinear sind, d.h. oben ist κ̂ − κ maximal, wenn es ein a so gibt, dass ci = a(β̂i − βi )
∀i = 1, . . . , k, d.h. wenn die ci proportional zu (β̂i − βi ) sind. Ein solches a gibt es, denn
wegen β ∈ E und β̂ ∈ E ist auch (β̂ − β) ∈ E. Wir kehren zurück zu Gleichung (4) und
sehen:
qX
||κ̂ − κ||
max
=
(β̂i − βi )2 ,
c
τc
√
||κ̂ − κ|| m
≤γ
1 − α = Ws max
c
τc
s
X
= Ws(m/s2 ·
(β̂i − βi )2 ≤ γ 2 )
σ 2 ||PE Z||2
2
= Ws
≤γ
σ 2 ||PM⊥ Z||2 /(n − k)
||PE Z||2 /(k − 1)
γ2
= Ws
≤
.
||PM⊥ Z||2 /(n − k)
k−1
und damit
Für ein simultanes Konfidenzintervall zum Niveau (1 − α) für alle Kontraste κc muss
also (mit n = m · k) gelten:
γ̃ :=
γ2
= qf (1 − α, k − 1, k(m − 1)),
k−1
also γ̃ ist das 1 − α-Quantil der Fisher(k − 1, k(m − 1))-Verteilung, und damit sind mit
p
p
γ = (k − 1)γ̃ = (k − 1)qf (1 − α, k − 1, k(m − 1))
die Intervalle
√
√
Iκγ := κ̂ − s/ m · τc · γ, κ̂ + s/ m · τc · γ
simultane (1 − α)-Konfidenzintervalle für alle Kontraste κ.
5.5
Kruskal-Wallis-(H)-Test
Wie auch beim t-Test gibt es auch für den Wilcoxon-Test ein analoges nichtparametrisches Verfahren zum Vergleich von k Stichproben, den Kruskal-Wallis-Test. Analog zum
Wilcoxon-Test werden nicht die Zahlen, sondern die Ränge verwendet.
40
Erinnerung: Wilcoxon-Test
Gegeben seien zwei unabhängige Stichproben
X11 , . . . , X1n1
unabhängig und verteilt gemäß
π1
X21 , . . . , X2n2
unabhängig und verteilt gemäß
π2
Der Wilcoxon-Test testet die Nullhypothese, dass beide Stichproben aus derselben Verteilung stammen, also dass π1 = π2 , gegen die Alternative, dass eine Verteilung gegen
die andere verschoben ist. Die Teststatistik war die Summe der Ränge in Gruppe 1:
S :=
n1
X
R1j ,
j=1
mit ES = n1 (n1 + n2 + 1)/2, Var(S) = n1 n2 (n1 + n2 + 1)/2, und für n1 , n2 → ∞
S − ES
p
→ N (0, 1)
Var(S)
in Verteilung.
Verallgemeinerung auf k Stichproben Das Modell und die Hypothesen sind analog:
X11 , . . . , X1n1
unabhängig und verteilt gemäß
π1
....
..
Xk1 , . . . , Xknk
Sei n :=
P
unabhängig und verteilt gemäß
πk
ni . Wir untersuchen die Nullhypothese:
H0 :
π1 = . . . = πk .
Wieder ersetzen wir dazu die Zahlen Xij durch ihre Ränge Rij aus den Gesamtdaten.
Der mittlere Rang aller n Zahlen ist
R̄ =
n+1
1 n(n + 1)
=
.
n
2
2
Wir
untersuchen die Abweichungen der mittleren Ränge in den k Gruppen, R̄i :=
1 Pni
j=1 Rij , i = 1, . . . , k vom mittleren Rang R̄ :
ni
k
H :=
X
12
ni (R̄i − R̄)2 .
n(n + 1)
i=1
Sofern die πi kontinulierlich sind, sind unter der Nullhypothese die Ränge R11 , . . . , Rknk
eine zufällige Permutation von 1, . . . , n, und es gilt für n → ∞ und ni /n → pi > 0
H −→ χ2 (k − 1)
in Verteilung.
Diese Approximation ist (als grobe Faustregel) für k = 3, ni ≥ 5 bzw. k ≥ 4 und ni ≥ 4
akzeptabel.
41
Bemerkung
Häufig schreibt man H in anderer Form:
H=
wobei Si :=
6
6.1
P
j
X S2
12
i
− 3(n + 1),
n(n + 1)
ni
Rij die Summe der Ränge in Gruppe j bezeichnet.
Lineare Regression
Modell und Parameterschätzer
Bei der linearen Regression wird der lineare Zusammenhang zwischen mehreren Variablen untersucht. Die klassische Fragestellung: Gegeben seien je n Beobachtungen zweier
Variablen X und Y :
X = (x1 , . . . , xn ),
Y = (y1 , . . . , yn ).
Wenn X und Y in annähernd linearer Beziehung stehen, vermuten wir eine Beziehung
der Form
yi = β0 + β1 x + Fehler.
Wir bestimmen zunächst die Koeffizienten β0 und β1 :
Kleinste Quadrate
In der klassischen Fragestellung werden die Beobachtungen xi und yi als fest betrachtet,
und wir bestimmen β0 und β1 nach der Methode der kleinsten Residuenquadrate:
n
X
(yi − (β̂0 + β̂1 xi ))2 = min!
i=1
Die Gerade {(x, y)|y = β̂0 + β̂1 x} heißt Regressionsgerade.
Maximum Likelihood
Lineare Regression kann man aber auch im Rahmen des normalen linearen Modells
betrachten, und damit sind wieder die ML-Schätzer identisch mit den Kleinste-QuadrateSchätzern. Diesmal werden nur die xi als feste reelle Zahlen betrachtet:
Yi = β0 + β1 xi + σZi ,
wobei Z1 , . . . , Zn unabhängig und N (0, 1)-verteilt, also Yi ∼ N (β0 + β1 xi , σ 2 ), oder
Y = β0 1 + β1 X + σZ.
Das heißt, die Likelihoodfunktion ist gegeben durch
n
Y
P
(Yi − (β0 + β1 xi ))2
√
L=
exp
.
2
2σ 2
2πσ
i=1
P
Wiederum wird L maximiert für minimale Residuenquadratsumme (Yi −(β0 +β1 xi ))2 ,
das heißt, die ML-Schätzer und die Kleinste-Quadrate-Schätzer für β0 und β1 stimmen
überein.
1
−
(Yi −(β0 −β1 xi ))2
2σ 2
1
=
exp −
(2πσ 2 )n/2
42
Alternative Schreibweise: Das lineare Regressionsmodell
Wir betrachten das Vorhergehende im Lichte des normalen linearen Modells:
Y = β0 1 + β1 X + σZ = µ + σZ,
mit
µ ∈ M := {α0 1 + α1 X|α0 , α1 ∈ R},
Alternativ:
dim(M) = 2.

1 x1
 β0

+ σZ.
Y =  ... ... 
β1
1 xn
|
{z
}

=:C
Die n × 2-Matrix C nennt man Systemmatrix, β = (β0 , β1 )t die Regressionskoeffizienten.
Die Modellannahme ist µ ∈ M := {Cβ|β ∈ R2 }.
Die kleinste-Quadrate-Schätzer für β in Matrixschreibweise:
(Y − C β̂)⊥C β̂
=⇒ (Y − C β̂)t C = 0
⇐⇒ Yt C = β̂ t C t C
⇐⇒ C t Y = C t C β̂
Dies ist eindeutig lösbar genau dann, wenn C t C regulär ist, also vollen Rang hat, d.h.
wenn die Spaltenvektoren von C linear unabhängig sind.
Die Schätzer für die univariate Regression
In der klassischen Fragestellung Y = β0 + β1 X+ Fehler haben die Parameterschätzer
folgende anschaulichen Eigenschaften.
1) Der Schwerpunkt (x̄, ȳ) der Datenwolke liegt auf der Regressionsgeraden:
X
(Y − C β̂)⊥1
=⇒
(yi − β̂0 − β̂1 xi ) = nȳ − nβ̂0 − β̂1 nx̄ = 0.
2) Die Steigung β1 hängt ab von σx , σy und der Korrelation zwischen x und y:
(Y − C β̂)⊥X =⇒
X
X
0=
(yi − β̂0 − β̂1 xi )xi
(und wegen
(yi − β̂0 − β̂1 xi )x̄ = 0 gilt:)
X
=
(yi − β̂0 − β̂1 xi )(xi − x̄)
X
=
(yi − β̂1 xi )(xi − x̄)
X
=
((yi − ȳ) − β̂1 (xi − x̄))(xi − x̄)
P
sy
(yi − ȳ)(xi − x̄)
Cov(x, y)
P
=⇒
β̂1 =
=
= rx,y .
s2x
sx
(xi − x̄)2
s
Falls r = 1, ist β̂1 = sxy : wächst x um sx , so wächst y um sy . Falls |r| < 1, so fällt die
Steigung entsprechend geringer aus. Falls r = 0, so ist die Steigung der Regressionsgeraden immer 0, denn die Kenntnis von x liefert keine Informationen über die Größe von
y.
43
6.2
Die Geometrische Bedeutung von r und der Multiple Korrelationskoeffizient
Um den Korrelationskoeffizienten für die multiple Regression verallgemeinern zu können,
machen wir zunächst die folgende Beobachtung: Es gilt
r2 =
||PE Y||2
||PD⊥ Y||2
(5)
Bedeutung: Welcher Anteil der Variabilität in Y (||PD⊥ Y||2 ) wird durch die Vorhersage
durch X (||PE Y||2 ) eingefangen (’erklärt’)? Beweis von (5): Setze
M := {β0 1 + β1 X|β0 , β1 ∈ R}
D := {β0 1|β0 ∈ R}
E := {c(X − x̄1)|c ∈ R}
Wir beobachten:
1) PE Y = c(X − x̄1) mit c =
P
(y
Pi −ȳ)(xi −x̄)
.
(xi −x̄)2
Warum?
< Y − c(X − x̄1), X − x̄1 >= 0
X
X
=⇒
yi (xi − x̄) − c
(xi − x̄)2 = 0
P
P
(yi − ȳ)(xi − x̄)
yi (xi − x̄)
P
P
=⇒ c =
=
,
(xi − x̄)2
(xi − x̄)2
P
P
denn
ȳ(xi − x̄) = ȳxi − nȳx̄ = 0. Damit ist
P
X
( (yi − ȳ)2 (xi − x̄)2 )2
2
2
2
P
||PE Y|| = c
(xi − x̄) =
.
(xi − x̄)2
2) Wegen PD⊥ Y = Y − ȳ1 folgt
||PD⊥ Y||2 =
X
(yi − ȳ)2 .
Also gilt:
r2 =
P
((yi − ȳ)(xi − x̄))2
||PE Y||2
P
P
=
||PD⊥ Y||2
(xi − x̄)2 (yi − ȳ)2
Der multiple Korrelationskoeffizient
Wir betrachten nun ein Modell, in dem Y nicht nur durch eine Variable X vorhergesagt
werden soll, sondern durch viele Variablen X1 , . . . , X`−1 :
Y = Cβ + σZ = β0 + β1 X1 + β2 X2 + . . . + β`−1 X`−1 + σZ
= µ + σZ
mit µ ∈ M := {Cβ|β ∈ R` }. Wir stellen die Frage: Helfen die Variablen X1 , . . . , X`−1 bei
der Vorhersage von Y? Oder ist die Verbesserung der Vorhersage gegenüber dem Modell
44
Y = β0 + σZ nicht größer als durch Zufall zu erwarten, d.h. wenn PE Y = PE σZ? Um
diese Frage zu untersuchen, könnte man
R2 :=
||PE Y||2
||PD⊥ Y||2
verwenden. Unter der Nullhypothese gilt für den Zähler
1/σ 2 ||PE Y||2 = ||PE Z||2 ∼ χ2 (` − 1)
und für den Nenner
1/σ 2 ||PD⊥ Y||2 = ||PD⊥ Z||2 ∼ χ2 (n − 1).
Da aber sowohl Zähler als auch Nenner die Projektion auf E enthalten und nicht mehr
unabhängig sind, verwendet man
||PE Y||2
=
||PM⊥ Y||2
||PE Y||2
||PD⊥ Y||2
Y||2
||PM⊥
||PD⊥ Y||2
=
R2
,
1 − R2
denn ||PM⊥ Y||2 = ||PD⊥ Y||2 − ||PE Y||2 . Und hier sieht man leicht die Verwandtschaft
zur bekannten F -verteilten Teststatistik: Unter der Nullhypothese gilt
R2 /(` − 1)
∼ F (` − 1, n − `).
(1 − R2 )/(n − `)
Für ` = 2 folgt damit sofort:
r2 · (n − 2)
∼ F (1, n − 2)
1 − r2
bzw.
√
r n−2
√
∼ t(n − 2).
1 − r2
(6)
Der Term in (6) ist die klassische Statistik zum Test der Korrelation normalverteilter
Zufallsvariablen.
6.2.1
Ein Konfidenzintervall für die Korrelation
Wir betrachten hier nur den Fall von normalverteilten Zufallsvariablen. Zunächst unterscheiden wir zwischen der ’wahren’ Korrelation ρ zweier Zufallsvariablen X und Y und
der empirischen Korrelation r ihrer Realisierungen (x1 , . . . , xn ), (y1 , . . . , yn ). Anhand
von r möchten wir ein Konfidenzintervall für ρ herstellen. Dies ist allerdings nicht leicht,
da die Verteilung und Varianz von r stark von ρ abhängen (Abb. 14). Während für ρ ≈ 0
die Verteilung, zumindest für größere n, annähernd normal ist, ist sie für |ρ| >> 0 (und
nicht genügend größe n) deutlich schief.
45
ρ = 0.5, n=100
Dichte
−1.0
−0.5
0.0
0.5
r
0 1 2 3 4 5
2
1
0
Dichte
3
4
ρ = 0, n=100
1.0
−1.0
−0.5
Dichte
−0.5
0.5
1.0
0.0
0.5
r
0.5
1.0
0.0 0.5 1.0 1.5
0.8
Dichte
0.4
0.0
−1.0
r
ρ = 0.5, n=10
1.2
ρ = 0, n=10
0.0
1.0
−1.0
−0.5
0.0
r
0
−4
−2
z
2
4
Abbildung 14: Verteilungen von r für ρ = 0 (links) und ρ = 0.5 (rechts), n = 100 (oben)
und n = 10 (unten).
−1.0
−0.5
0.0
r
0.5
1.0
Abbildung 15: Fisher’s z-Transformation
46
Ein Ausweg: Fisher’s z-Transformation
1
1+r
z := log
.
2
1−r
Diese Größe streckt Werte von
√ r nahe 1 (Abb. 15) und ist für normalverteilte Zufallsvariablen annähernd N (0, 1/ n − 3)-verteilt. Die Vorteile: 1) Die Standardabweichung
hängt nicht mehr von ρ ab, sondern nur von n, und muss daher nicht geschätzt werden.
2) Die Form der Verteilung hängt auch nicht mehr von ρ ab.
Ein Konfidenzintervall für ρ baut man dann einfach dadurch, dass man ein KI
für den z-transformierten Wert erstellt und die Grenzen rücktransformiert. Beispiel:
n = 10, r = 0.9.
√
=⇒ z = 1.472. 95% − KI : z ± 1.96 ∗ 1/ 7 ≈ z ± 0.741 :
[0.831, 2.213].
Rücktransformation ergibt ein 95%-Konfidenzintervall für ρ von [0.624,0.976]. Offensichtlich ist dieses nicht symmetrisch um r, aber entspricht der Schiefe der Verteilung
und liegt im Bereich der möglichen Werte für ρ.
Ein Vergleich zwischen r1 und r2 kann analog durchgeführt werden, in dem r1 und
r2 z-transformiert werden, dann ist approximativ
z1 ∼ N (0, 1/(n1 − 3))
und z2 ∼ N (0, 1/(n2 − 3)),
und damit gilt approximativ
z1 − z2
q
6.3
1
n1 −3
+
1
n2 −3
∼ N (0, 1).
Ein Konfidenzbereich für β̂
Definition Kovarianzmatrix Sei X := (X1 , . . . , Xk )t eine Rk -wertige Zufallsvariable
mit Erwartungswert µ = EX. Dann heisst die Matrix mit Einträgen
cij := Cov(Xi , Xj ) = E[(Xi − µi )(Xj − µj )]
die Kovarianzmatrix von X.
Definition Normalverteilung auf Rk X heißt normalverteilt auf Rk mit Mittelwert
µ und Kovarianzmatrix C (schreibe: X ∼ N (µ, C)) genau dann wenn
EX = µ,
Cov(Xi , Xj ) = cij ∀i, j
und ∀a ∈ Rk ist aT X normalverteilt auf R1 .
47
Behauptung:
Sei wie im normalen linearen Regressionsmodell Y = Cβ + σZ, mit Z standardnormalverteilt auf Rn . Dann ist β̂ normalverteilt mit Eβ̂ = β und Kovarianzmatrix σ 2 (C T C)−1 ,
denn:
β̂ = (C T C)−1 C T Y = (C T C)−1 C T (Cβ + σZ)
= (C T C)−1 C T Cβ + (C T C)−1 C T σZ
= β + (C T C)−1 C T σZ
Wegen EZ = 0 ist β̂ erwartungstreu, und
Var((C T C)−1 C T σZ) = (C T C)−1 C T σ 2 C(C T C)−1 = σ 2 (C T C)−1 .
Satz (von Cochran) (z.B. Shao Mathematical Statistics 2nd edition, 2003, S. 27)
Sei V ∼ N (0, Σ) normalverteilt auf Rk und habe Σ vollen Rang k. Dann ist
V T Σ−1 V ∼ χ2 (k).
Was bedeutet dies für den Konfidenzbereich für β? Mit β̂ − β ∼ N (0, σ 2 (C T C)−1 )
bedeutet dies
CT C
(β̂ − β)T ·
· (β̂ − β) ∼ χ2 (`),
σ2
also ist ein Konfidenzbereich für β zum Niveau 1 − α gegeben durch
β̂ + {v ∈ R` |v T ·
6.4
CT C
· v ≤ qchisq(1 − α, `)}.
σ2
Multivariate Regression
Wir haben bereits oben Modell und Parameterschätzer für das normale lineare Regressionsmodell mit mehr Variablen besprochen: Y = β0 + β1 X1 , +β2 X2 + . . . + β`−1 X`−1 ,
mit β̂ = (C T C)−1 C T Y und gezeigt, dass mit Σ := σ 2 (C T C)−1
β̂ ∼ N (β, Σ).
6.4.1
Orthogonale Regressoren
Im Fall von orthogonalen Regressoren Xi ⊥Xj ∀i 6= j kann man M in orthogonale
lineare Unterräume zerlegen, die von den Xi aufgespannt werden. Die β̂i erhält man
durch orthogonale Projektion von Y auf diese Unterräume. Diese Projektionen sind
unabhängig, und damit sind die Schätzer β̂i unabhängig, d.h. Σ ist eine Diagonalmatrix,
und es gilt
β̂i =
1
σ
Xi
< Y, Xi >= βi +
< Z,
>
2
||Xi ||
||Xi ||
||Xi ||
=⇒ β̂i ∼ N (βi ,
σ2
).
||Xi ||2
Aus der Unabhängigkeit folgt auch, dass ∀i die Schätzer von βi dieselben sind, egal
wie viele der Variablen X1 , . . . , Xi−1 , Xi , . . . , X`−1 zur Vorhersage von Y herangezogen
werden. (Bei nicht orthogonalen Regressoren ist das idR nicht der Fall)
48
Beispiel
7
Lineare Regression mit X̄ = 0.
Schätzverfahren
In der Regel gibt es für einen Parameter mehrere Schätzer. Welchen soll man nehmen?
Welche Schätzverfahren gibt es, und wie bewertet man die Schätzer?
Beispiel: X1 , . . . , Xn seien unabhängig und uniformverteilt auf [0, `]. Als Schätzer für
` bieten sich an:
`ˆ1 := 2X̄, denn EX = `/2.
n+1
`ˆ2 :=
max (Xi ).
n i=1,...,n
Beide Schätzer sind erwartungstreu: Im zweiten Fall kompensiert der Faktor n+1
n dafür,
dass max(Xi ) =: M < `. Um zu zeigen, dass E`ˆ2 = `, berechnen wir zunächst die
Verteilungsfunktion von M :
F (x) = Ws(M ≤ x) =
Z`
=⇒ EM =
x
x n
`
=⇒
n
d
F (x) = n xn−1 ,
dx
`
0 ≤ x ≤ `.
n
n−1
dx =
x
`.
n
`
n+1
n
0
Welchen der beiden Schätzer sollte man nun nehmen? Wir vergleichen die erwarteten
quadratischen Fehler:
4
EX̄=`
E (`ˆ1 − `)2
= Var(2X̄) = Var(Xi )
n
 `

Z 2
2
4
x
`
4 `2
4
E(Xi2 ) − E(Xi )2 = 
dx −  = ·
=
n
n
`
4
n 12
0
1
=
· `2 .
3n
n+1
(n + 1)2
2 E`ˆ2 =`
ˆ
E (`2 − `)
= Var
M =
E(M 2 ) − `2 .
n
n2
Mit
2
Z`
E(M ) =
x2
n
n−1
x
· `2
dx =
`2
n+2
n
0
folgt
2
1
2 (n + 1)
2
ˆ
E (`2 − `) = `
−1 =
· `2 .
n(n + 2)
n(n + 2)
Der mittlere quadratische Fehler von `ˆ2 fällt mit n−1 , aber der mittlere quadratische
Fehler von `ˆ2 fällt sogar mit n−2 .
49
7.1
Der Mittlere quadratische Fehler
Warum der mittlere quadratische Fehler? Der mittlere quadratische Fehler ist
einer der gängigsten Maßstäbe zur Bewertung von Schätzern. In der Tat liefert er beim
Vergleich von Schätzern dieselben Resultate wie jede ‘vernünftige’ vergleichbare Gütefunktion EL: Hat von zwei Schätzern θ̂1 , θ̂2 eines Parameters θ̂1 den kleineren quadratischen Fehler, so ist auch EL(θ̂1 ) < EL(θ̂2 ).
Für eine ‘vernünftige vergleichbare’ Gütefunktion L gelte
• L(θ) = 0: Schätzt man den wahren Parameter, so ist der Fehler Null.
• L ist zweimal differenzierbar und hat an der Stelle θ ein lokales Minimum, so dass
L0 (θ) = 0 und L00 (θ) > 0.
Dann kann man L in der Nähe von θ beschreiben durch c · (θ̂ − θ)2 :
L00 (θ)
L(θ̂) = L(θ) + L0 (θ) ·(θ̂ − θ) +
·(θ̂ − θ)2 + . . .
|{z} | {z }
2
| {z }
=0
=0
=c(θ)>0
Ist θ̂ nahe bei θ, kann man die weiteren Terme vernachlässigen. Damit
EL(θ̂) ≈ c(θ)E((θ̂ − θ)2 ).
Hat also θ̂1 einen kleineren mittleren quadratischen Fehler als θ̂2 :
E((θ̂1 − θ)2 ) E((θ̂2 − θ)2 ),
so ist auch
EL(θ̂1 ) EL(θ̂2 ).
Konsistenz und der mittlere quadratische Fehler Grob gesprochen, bezeichnet
die Konsistenz eines Schätzers die Eigenschaft, dass die Abweichung des Schätzers vom
zu schätzenden Wert mit wachsendem Stichprobenumfang gegen Null geht. Formal:
Ein Schätzer θ̂n heißt konsistenter Schätzer für θ, falls für alle ε > 0 gilt:
Ws(|θ̂n − θ| > ε) → 0
für n → ∞.
Für die Konsistenz eines Schätzers reicht es, wenn sein mittlerer quadratischer Fehler
gegen Null geht, also wenn
E (θ̂n − θ)2 → 0 für n → ∞.
Um dies einzusehen, stellen wir fest: |θ̂n −θ|2 ≥ ε2 gilt auf der Menge A := {|θ̂n −θ| > ε}.
Damit können wir schreiben
|θ̂n − θ|2 ≥ ε2 · IA ,
wobei IA = 1 die Indikatorvariable der Menge A ist. Wir bilden die Erwartungswerte:
E (θ̂n − θ)2 ≥ ε2 · Ws(|θ̂n − θ| > ε).
Für festes ε und n → ∞ geht die linke Seite gegen Null und damit auch die rechte.
50
Zerlegung des mittleren quadratischen Fehlers Falls θ̂ erwartungstreu ist, so
entspricht der mittlere quadratische Fehler gerade der Varianz von θ̂:
Eθ̂=θ
E (θ̂ − θ)2 = Var(θ̂).
Ist θ̂ aber nicht erwartungstreu, d.h.
b(θ̂) = E(θ̂) − θ 6= 0
(b...‘bias’),
so kann man den mittleren quadratischen Fehler zerlegen in die Varianz und das Quadrat
der Verzerrung:
E (θ̂ − θ)2 = E (θ̂ − Eθ̂ + Eθ̂ − θ)2
= E (θ̂ − Eθ̂)2 + 2b(θ̂)E (θ̂ − Eθ̂) + b2 (θ̂)
= Var(θ̂) + b2 (θ̂).
Häufig sind Var(θ̂) und b(θ̂) gegenläufig - je kleiner das eine, desto größer das andere.
Es kann daher manchmal sinnvoll sein, eine kleine Verzerrung in Kauf zu nehmen, um
den erwarteten quadratischen Fehler zu minimieren:
Kontrollierte Verzerrung eines Schätzers. Ein Beispiel Wir wollen die Wahrscheinlichkeit p für das Eintreten eines Ereignisses A schätzen und führen dazu n unabhängige Versuche durch. Seien I1 , . . . , In mit Ii = 1, falls A eingetreten ist, und Null
sonst.
Ein plausibler Schätzer für p ist die relative Häufigkeit der Erfolge:
1X
p̂1 :=
Ii .
n
i
p̂1 ist erwartungstreu und hat mittleren quadratischen Fehler E (p̂1 − p)2 = Var(p̂1 ) =
p(1−p)
1
n Var(I1 ) =
n . Aber: Dieser Schätzer hat nicht zwangsläufig minimalen quadratischen Fehler!
Betrachte einen zweiten Schätzer
p̂2 := γ p̂1
für geeignet zu wählendes γ.
Mit E(p̂2 ) = γp ist p̂2 für γ 6= 1 nicht erwartungstreu. Aber:
1 2
E (p̂2 − p)2 = Var(p̂2 ) + (γp − p)2 =
γ p(1 − p) + np2 (1 − γ)2 .
n
Abhängig von p und γ kann dies kleiner sein als
E (p̂1 − p0 )2 = E (p̂2 − p0 )2
p(1−p)
n .
Für γ = 0.9 ist z.B.
für p0 ≈
1
.
1 + 0.05n
Für p < p0 hat p̂2 kleineren quadratischen Fehler, für p > p0 ist p̂1 zu bevorzugen. Wenn
also bekannt ist, dass p sicher kleiner ist als ein festes p0 , so kann man γ geeignet wählen
(Übung).
51
Aus dem letzten Beispiel haben wir gelernt, dass die Güte eines Schätzers auch vom
Wert des Parameters abhängen kann: Für einen Parameterbereich kann ein Schätzer
besser sein als ein anderer, für einen anderen Parameterbereich kann es anders aussehen.
Es gibt in der Regel keine Schätzmethode, für die der mittlere quadratische Fehler für
alle Werte von θ kleiner wäre als für alle anderen Methoden. Aber es gibt eine Methode,
die meistens gut funktioniert:
7.2
Das Maximum-Likelihood Prinzip
Seien X1 , . . . , Xn u.i.v. gemäß einer Verteilung, die von θ abhängt. Gegeben (X1 , . . . , Xn ) =
(x1 , . . . , xn ), ist der Maximum-Likelihood-Schätzer von θ diejenige Zahl θ̂M L , die dem
Ereignis {(X1 , . . . , Xn ) = (x1 , . . . , xn )} maximales Gewicht zuordnet.
Im diskreten Fall ist θ̂M L so definiert, dass Wsθ̂M L ((X1 , . . . , Xn ) = (x1 , . . . , xn )) maximal wird.
Q
Hat X1 Dichte fθ (x), so soll ni=1 fθ (xi ) maximal werden.
Bsp. 1: Münzwurf mit Erfolgsparameter p. Von n Versuchen beobachten wir k Erfolge, mit
n k
Ws(X = k) =
p (1 − p)n−k .
k
Das Maximum dieser Funktion findet man am einfachsten durch Ableiten ihres Logarithmus, denn da log(x) eine streng monotone Funktion ist, ist das Maximum von log f
an derselben Stelle wie das Maximum von f .
log(Ws(X = k)) = c + k log p + (n − k) log(1 − p)
und damit
d
k n−k
log(. . .) = −
.
dp
p 1−p
(Für p = 0 oder p = 1 gilt Ws(X = 0) = 1 bzw. Ws(X = n) = 1. In beiden Fällen stimmt
der ML-Schätzer p̂M L mit p überein.) Für die anderen Fälle findet man durch Nullsetzen
der Ableitung den ML-Schätzer p̂M L = k/n, die relative Häufigkeit der Erfolge.
Bsp. 2: Uniformverteilung Seien X1 , . . . , Xn unabhängig und Unif[0, `]-verteilt. Gesucht ist der ML-Schätzer für `. Die Dichte von X ist
(
(
1/` x ∈ [0, `]
1/`n xi ∈ [0, `]∀ i
f` (x) =
=⇒
f` (x1 , . . . , xn ) =
0
sonst
0
sonst.
Figur 16 zeigt den Graphen von f` (x1 , . . . , xn ): Er ist maximal bei ` = max(xi ), doch
findet man das Maximum hier nicht durch Ableiten, weil f` dort nicht differenzierbar
ist.
7.2.1
Eigenschaften von Maximum-Likelihood-Schätzern
1.: Ist θ̂ ML-Schätzer von θ, so ist der ML-Schätzer einer (injektiven) Funktion h(θ)
gerade h(θ̂). Warum? Wenn das Ereignis {X = x} für θ̂M L maximales Gewicht hat, so
hat es auch unter h(θ) = h(θ̂M L ) maximales Gewicht.
52
fl(x1, … , xn)
1/`n
max xi
`
Abbildung 16: f` (x1 , . . . , xn ) für X1 , . . . , Xn unabhängig und Unif[0, `]-verteilt.
Beispiel
Die Lebensdauer X eine Sorte Glühbirnen sei Exp(λ)-verteilt, d.h.
Ws(X ≤ x) = 1 − e−λx .
Wir suchen die Wahrscheinlichkeit, dass eine Glühbirne weniger als 200 Stunden brennt,
und beobachten dazu die Lebensdauern x1 , . . . , xn von n Glühbirnen.
• Der ML-Schätzer von λ ist
1
,
X̄
wie
leicht durch
P Logarithmieren und Ableiten der gemeinsamen Dichte fλ =
Q man
−λxi = λn e−λ xi feststellt.
λe
i
λ̂M L =
• Der ML-Schätzer von Ws(X ≤ 200) = 1 − e−λ200 ist damit 1 − e−λ̂M L 200 .
• Da die Exponentialverteilung nur von λ abhängt, ist auch 1−e−λ̂M L x ML-Schätzer
der zugehörigen Verteilungsfunktion, und für jedes Intervall [a, b] ist der MLSchätzer von Ws(X ∈ [a, b]) gegeben durch e−λa − e−λb .
• Es kommt nicht auf die Parametrisierung an: Bei (im englischen Sprachraum üblicher) Parametrisierung der Exponentialverteilung mit β = 1/λ:
λe−λx
→
1 − βx
e
β
gilt β̂M L =
1
λ̂M L
= X̄.
2.: Für eine (im folgenden näher beschriebene) bestimmte Klasse von Problemen ist
die ML-Methode asymptotisch (d.h. für n → ∞) im Sinne des mittleren quadratischen
Fehlers mindestens so gut wie jede andere Schätzmethode. (ML ist asymptotisch effizient)
Die Problemklasse ‘glatter’ Probleme Sei R der Wertebereich der ZVe X, d.h.
(
{x|Ws(X = x) > 0}
für X diskrete ZVe,
Rb
R :=
kleinstes Intervall [a, b], mit a f (x)dx = 1 für X stetige ZVe.
Es soll gelten
53
• fθ (x) (bzw. Wsθ (X = x)) hat stetige zweite Ableitung in θ,
• Die Ableitungen müssen auf sinnvolle Weise beschränkt sein: Für jedes kleine
Intervall J von θ-Werten soll
2
Z
Z
∂
∂
max fθ (x) dx < ∞ und
max 2 fθ (x) dx < ∞
θ∈J ∂θ
θ∈J ∂ θ
• Für alle θ soll maxx∈R |fθ (x)| < ∞.
Dies trifft für die meisten gängigen Verteilungen zu. Ausnahmen bilden die uniforme
Verteilung und die doppelte Exponentialverteilung.
Die Fisher-Information Hat X Dichte fθ (x), die von θ abhängt, so ist die FisherInformation der Verteilung von X in θ definiert als
"
2 #
∂
.
log fθ (x)
I(θ) = E
∂θ
Also:
(P
2
∂
i ∂θ log Wsθ (X = xi ) Wsθ (X = xi )
I(θ) = R ∂
2
∂θ log fθ (x) fθ (x)dx
Beispiel
im diskreten Fall,
im Dichtefall.
X ∼ Exp(λ). Dann ist I(θ) = 1/λ2 , denn
∂
1
log fλ (x) = log λ − λx,
log fλ (x) = − x
∂λ
λ
2
Z 1
1
=⇒ I(λ) =
− x fλ (x)dx = 2 .
λ
λ
In glatten Problemen gibt es eine untere Schranke für den mittleren quadratischen
Fehler:
Satz Sei ϑ̂n ein konsistenter Schätzer für ϑ in einem Problem der oben beschriebenen
Klasse. Dann gilt:
1
1
2
+o
E[(ϑ̂n − ϑ) ] ≥
nI(ϑ)
n
(Beweisidee in Breiman, Statistics: With a view toward applications, S. 94)
L sei eindeutig (d.h. die ML-Gleichungen haben eine einSatz Der ML-Schätzer ϑ̂M
n
deutige Lösung). Dann gilt
1
1
L
2
E[(ϑ̂M
−
ϑ)
]
=
+
o
n
nI(ϑ)
n
(ohne Beweis)
54
3.:
ML-Schätzer sind in der Regel konsistent (bis auf pathologische Fälle).
4.: Asymptotische Normalität des ML-Schätzers Unter (relativ schwachen) Regularitätsvoraussetzungen gilt die schwache Konvergenz:
√
L
L( n(ϑ̂M
− ϑ)) → N (0, I(ϑ)−1 ) (n → ∞).
n
Die Regularitätsvoraussetzungen sind häufig erfüllt: Lϑ (x) := log fϑ (x) muss zweimal
stetig differenzierbar sein, und es muss gelten
Z
∂2
fϑ (x)dx = 0.
(7)
∂ϑ2
Was impliziert das anschaulich? Unter dieser Bedingung entspricht die Fisher-Information
gerade dem Erwartungswert der zweiten Ableitung von L.
∂
∂2
Wir schreiben kurz: f 0 für ∂ϑ
f und f 00 für ∂ϑ
2 f.
I(ϑ) =
E[L0ϑ (X)2 ]
f 0 (X)2
= E ϑ2
fϑ (X)
fϑ (X)fϑ00 (X) − fϑ0 (X)2
= −E
= −E[L00ϑ (X)],
fϑ2 (X)
R ∂2
00
denn mit ∂ϑ
2 fϑ (x)dx = 0 ist E(fϑ (X)/fϑ (X)) = 0. Die Fisher-Information entspricht
also der (negativen) mittleren Krümmung: Je stärker Lϑ (x) im Mittel an der Stelle ϑ
gekrümmt ist, desto kleiner ist die asymtotische Varianz des ML-Schätzers.
Man rechnet Bedingung (7) leicht nach. Z.B. für X exponentialverteilt und entsprechend fϑ (x) = ϑe−ϑx :
∂2
∂ −ϑx
−ϑx
f
(x)
=
e
−
xϑe
ϑ
∂ϑ2
∂ϑ
= −xe−ϑx − x e−ϑx − xϑe−ϑx = −2xe−ϑx + x2 ϑe−ϑx
Z
7.3
∂2
2
1
1
2
fϑ (x)dx = − EX + Var(X) + (EX)2 = − 2 + 2 + 2 = 0
2
∂ϑ
ϑ
ϑ
ϑ
ϑ
Die Momentenmethode
Eine weitere gängige Methode, Schätzer zu bestimmen, ist die Methode der Momente:
Man vergleiche die k-ten Momente der Verteilung:
Z
k
EX = xk fϑ (x)dx
mit den Momenten der Stichprobe:
1X k
xi ,
n
k = 1, 2, . . . ,. Häufig stimmen Momentenschätzer
und ML-Schätzer überein:
P
¯
Münzwurf mit Erfolgsparameter p: E( n1
Ii ) = p =⇒ p̂ = I.
55
Exponentialverteilung X1 , . . . , Xn unabh., Exp(λ)-verteilt: Mit EX = λ1 folgt λ̂ = X̄1 .
Nicht so bei der Uniformen Verteilung auf [0, `], wie wir bereits gesehen haben: Der
Momentenschätzer von ` ist `ˆ = 2X̄ wegen EX = 2` . Der ML-Schätzer ist M =
max(X1 , . . . , Xn ).
Momentenschätzer sind nach Konstruktion unverzerrt, und konsistent, und sie sind
manchmal leichter zu ermitteln als ML-Schätzer. Aber sie haben eventuell einen hohen mittleren quadratischen Fehler.
7.4
Kleinste Quadrate
Wir möchten einen Datensatz möglichst gut mit einer bestimmten Funktion V (ϑ) beschreiben. Einfachstes Beispiel: X1 , . . . , Xn sollen ’möglichst gut’ mit einer konstanten
Funktion V (ϑ) = ϑ1 beschrieben werden, und zwar so, dass die Quadratsumme der
Residuen zwischen V und X minimal wird:
X
(ϑ − Xi )2 = min .
Den Schätzer in diesem Fall kennen wir schon: ϑ = X̄. Da minimale Quadratsummen
durch orthogonale Projektionen entstehen, haben wir auch im t-Test solche Schätzer
kennen gelernt. Wir werden weitere Beispiele in der Varianzanalyse und der linearen
Regression sehen.
Häufig stimmen die Schätzer vieler Methoden überein: Für X1 , . . . , Xn unabhängig
und identisch normalverteilt mit Mittelwert µ ist X̄ der kleinste-Quadrate-Schätzer, der
Momentenschätzer und der ML-Schätzer für µ.
7.5
Bootstrap-Konfidenzintervalle
Ein Schätzer hängt von den zufälligen Beobachtungen ab und ist daher variabel. Oft
kann man seine exakte Varianz oder gar seine exakte Verteilung bestimmen, wie bei der
t-Statistik. Wenn das nicht möglich ist, gibt es evtl. asymptotische Aussagen (z.B. die
approximative Normalität der t-Statistik für unabhängige und identisch verteilte ZVen).
Was kann man tun, wenn man die Varianz eines Schätzers weder exakt noch asymptotisch ermitteln kann? Man könnte sie empirisch bestimmen, indem man den Versuch
oft wiederholt.
Z.B.: Ein Versuch mit n unabhängigen p-Münzwürfen Ii . Wir schätzen
P
p̂ = 1/n Ii (und wissen: Var(p̂) = p(1 − p)/n). Ohne dieses Wissen könnten wir durch
häufiges Wiederholen dieses Versuches auf empirische Weise die Varianz schätzen.
Aber das Wiederholen eines Versuches ist oft teuer oder unmöglich. Daher legt die
Bootstrapmethode die empirische Verteilung statt der wahren Verteilung zu Grunde,
und es werden ‘Bootstrapstichproben’ aus der empirischen Verteilung gezogen: n Werte,
unabhängig (d.h. mit Zurücklegen) und identisch verteilt (gemäß der empirischen Verteilung). Die Idee ist, dass die Varianz des Schätzers in den Bootstrapstichproben die
Varianz des Schätzers aus den echten Stichproben approximiert.
Wir haben also Beobachtungen X = (X1 , . . . , Xn ), unabhängig und identisch verteilt
gemäß einer Verteilung ν. Wir schätzen ein Merkmal m(ν) der Verteilung als Funktion
der Daten: h(X). Wie ist die Verteilung von h(X)−m(ν)? Statt neue Stichproben aus der
Originalverteilung ν zu ziehen, ziehen wir Stichproben X∗ der Größe n (mit Zurücklegen)
56
aus der empirischen Verteilung νX . Idee:
L(h(X) − m(ν)) ≈ L(h(X∗ ) − m(νX ))
Die Verteilung von h(X∗ ) − m(νX ) wird in der Praxis durch Monte-Carlo-Simulation
ermittelt, die obere und untere Grenze des Konfidenzintervalls für m(ν) schätzt man
aus den empirischen Quantilen der durch Simulation ermittelten Verteilung.
Übrigens ist das Vorgehen im Münzwurffall ganz ähnlich, obwohl wir die Formel für
die Varianz kennen: Wir schätzen Var(p̂) = p(1 − p)/n mit p̂(1 − p̂)/n und ermitteln
damit die Varianz des Schätzers für den Fall p = p̂. Das ist dasselbe als würde man
Bootstrapstichproben aus der empirischen Verteilung mit Parameter p̂ ziehen.
7.6
Suffizienz und die Minimierung d. mittleren quadratischen Fehlers
Wir beginnen mit einem Beispiel:
X
P1 , . . . , Xn seien unabhängige {0, 1}−Münzwürfe mit Erfolgsparameter p ∈ (0, 1). K :=
Xi sei die Anzahl der Erfolge. Dann hängt die Verteilung von (X1 , . . . , Xn ) für festes
K = k (d.h. gegeben das Ereignis {K = k}) nicht mehr von p ab:
X
Wsp ({(X1 , . . . , Xn ) = (x1 , . . . , xn )}{|
Xi = k})
=
=
Wsp ({(X1 , . . . , Xn ) = (x1 , . . . , xn )} ∩ {K = k})
Wsp ({K = k})
1
pk (1 − p)n−k
= n .
k
n−k
p (1 − p)
k
n
k
Anschaulich: Über p können
P wir nicht mehr Informationen gewinnen als durch Betrachtung der Funktion K =
Xi der Daten. Die genauen Zeitpunkte, zu denen die K
Erfolge auftreten, hängen von p nicht mehr ab. Die Statistik K nennt man deswegen
auch suffiziente Statistik für p:
Definition Eine Statistik V (X) heißt suffizient für ϑ, falls die bedingte Verteilung von
X, gegeben V (X), nicht von ϑ abhängt.
Beispiel: Multinomialverteilung Y1 , . . . , Yn seien unabhängig und P
nehmen Werte
in k Kategorien an, mit Ws(Yi in Kategorie j) = pj ∀i, j = 1, . . . , k,
pj = 1. Der
interessierende Parameter ist also der Vektor der Gewichte p~ = (p1 , . . . , pk ). Dann ist
der Vektor der Besetzungszahlen X = (X1 , . . . , Xk ) suffizient für p~ (Rechnung analog
zum obigen Beispiel).
Jede Dichte kann man mit Hilfe einer suffizienten Statistik V (X) geeignet faktorisieren in eine Funktion von V (X), die von ϑ abhängt, und einen Faktor, der nicht von ϑ
abhängt:
Der Faktorisierungssatz von Neyman und Pearson
die Dichte (bzw. Gewichte) fϑ (x). Dann sind äquivalent:
57
Die Verteilung von X besitze
i) V (X) ist suffiziente Statistik für ϑ.
ii) Die Dichte zerfällt in eine Faktorisierung der Gestalt
fϑ (x) = gϑ (V (x)) · h(x),
wobei die Funktion h nicht von ϑ abhängt.
Die Grundidee des Beweises sieht man im diskreten Fall:
i) =⇒ ii) folgt direkt aus der Definition der bedingten Wahrscheinlichkeit:
fϑ (x) = Ws({X = x} ∩ {V (X) = V (x)})
= Ws({V (X) = V (x)}) · Ws({X = x}|{V (X) = V (x)})
{z
} |
{z
}
|
=:gϑ (V (x))
hängt nach i) nicht von ϑ ab
Für die umgekehrte Richtung ist zu zeigen, dass
Wsϑ ({X = x}|{V (X) = V (x)}) =
Ws({X = x})
Ws({V (X) = V (x)})
nicht von ϑ abhängt. Wir verwenden dafür die Faktorisierung und kürzen den Faktor
gϑ (V (x)):
X
X
ii)
Ws({V (X) = V (x)}) =
Ws(X = y) = gϑ (V (x))
h(y)
y|V (y)=V (x)
y|V (y)=V (x)
Ws({X = x}) = gϑ (V (x)) · h(x)
Also hängt
Wsϑ ({X = x}|{V (X) = V (x)}) = P
h(x)
y|V (y)=V (x) h(y)
nicht mehr von ϑ ab.
Folgerungen
i) Der Maximum-Likelihood-Schätzer ϑ̂M L für ϑ ist eine Funktion der suffizienten Statistik: Da h(x) nicht von ϑ abhängt, genügt es zur Bestimmung von ϑ̂M L , gϑ (V (X)) zu
maximieren.
ii) Mit Hilfe des Faktorisierungssatzes kann man anhand der Dichte häufig leicht suffiziente Statistiken erschließen:
Beispiel: Gammaverteilung X1 , . . . , Xn seien unabhängig und Gamma(α, λ)-verteilt,
d.h. für jedes X gemäß der Dichte
f (x) = c(α, λ) · xα−1 e−λx ,
x ≥ 0.
Die gemeinsame Dichte von X1 , . . . , Xn ist dann
fα,λ (x1 , . . . , xn ) = c0 (α, λ) · (x1 · . . . · xn )α−1 · e−λ(x1 +···+xn )
Q
P
Man sieht sofort: ( Xi ,
Xi ) ist suffizient für (α, λ).
Mit Hilfe einer suffizienten Statistik kann man manchmal Schätzer mit kleinerem
mittleren quadratischen Fehler erzeugen, wenn man die bedingte Erwartung verwendet.
Der Einfachheit halber betrachten wir hier nur den diskreten Fall.
58
Die bedingte Erwartung Y sei eine ZVe mit diskretem Wertebereich, X habe Dichte
oder Gewichte f (x). Der bedingte Erwartungswert von X, gegeben das Ereignis {Y = k},
ist eine Zahl
1
E[X|Y = k] =
E[I
X].
Ws({Y = k}) {Y =k}
Für jeden Wert k, den Y annehmen kann, ist E[X|Y = k] eine Zahl. Der Zufall kommt
nun durch Y ins Spiel: Die bedingte Erwartung von X, gegeben Y , E[X|Y ], ist eine
Zufallsvariable der Gestalt
X
E[X|Y ] =
I{Y =k} E[X|Y = k].
k
Beispiel Ein zweistufiges Zufallsexperiment:
i) Y = 1/3 mit Wahrscheinlichkeit 1/2, und Y = 2/3 mit Wahrscheinlichkeit 1/2.
ii) Gegeben Y = y, sei X die Anzahl der Erfolge beim n-maligen y-Münzwurf, also
X ∼ Bi(n, y). Es gilt
E[X|Y = 1/3] = 1/3 · n,
E[X|Y = 2/3] = 2/3 · n.
Damit ist die bedingte Erwartung E[X|Y ] von X gegeben Y die Zufallsvariable E[X|Y ] =
Y · n mit Werten in {n/3, 2n/3}, jeweils mit Wahrscheinlichkeit 1/2.
Der Satz von Rao-Blackwell Wieder beschränken wir uns auf den diskreten Fall,
Analoges gilt für den Dichtefall.
Sei S = h(X) ein Schätzer für ϑ. Sei V (X) eine suffiziente Statistik für ϑ. Dann gilt für
den Schätzer S ∗ mit
S ∗ := E[S|V (X)]
(die ‘Rao-Blackwellisierung’ von S)
i) Die Erwartungswerte von S und S ∗ sind gleich.
ii) Der mittlere quadratische Fehler von S ∗ ist höchstens so groß wie der von S.
Bew.
i) Es gilt allgemein
"
E[E[X|Y ]] = E
#
X
I{Y =k} E[X|Y = k]
k
E[I{Y =k} X]
Ws({Y = k})
k
h X
i
X
=
E[I{Y =k} X] = E X
I{Y =k} = EX,
=
X
Ws({Y = k}) ·
k
also auch
E[S ∗ ] = E[E[S|V (X)]] = E[S].
ii) z.z.: E[(S ∗ − ϑ)2 ] ≤ E[(S − ϑ)2 ]. Zunächst ist
S ∗ − ϑ = E[S|V (X)] − ϑ = E[(S − ϑ)|V (X)]
E[(S ∗ − ϑ)2 ] = E(E[(S − ϑ)|V (X)]2 ).
59
Um zu zeigen, dass E(E[(S − ϑ)|V (X)]2 ) ≤ E[(S − ϑ)2 ], beobachten wir:
!2
2
E[(S − ϑ)|V (X)] =
X
I{V (X)=k} E[S − ϑ|V (X) = k]
k
=
X
≤
X
I{V (X)=k} E[S − ϑ|V (X) = k]2
k
I{V (X)=k} E[(S − ϑ)2 |V (X) = k]
k
= E[(S − ϑ)2 |V (X)]
und damit
E[E[(S − ϑ)|V (X)]2 ] ≤ E[(S − ϑ)2 ].
Beispiel Seien X1 , . . . , Xn unabhängige p-Münzwürfe. Wir betrachten die Statistik
2
2
S := X1 · X2 zur Schätzung von
P p . Es gilt offensichtlich: Ep S = p , und wir wissen, dass
die Anzahl der Erfolge, K := Xi suffizient ist für p. Also ist die Rao-Blackwellisierung
von S gegeben durch:
S ∗ := E[X1 · X2 |K]
Mit
E[X1 · X2 |K = k] = Ws(X1 = 1, X2 = 1|K = k) =
k k−1
·
n n−1
folgt
S∗ =
K(K − 1)
.
n(n − 1)
Bemerkung Suffiziente Statistiken können offensichtlich nützlich sein für die effiziente
Beschreibung eines Datensatzes sowie zur Erstellung von geeigneten Schätzern. Man
sollte allerdings beachten, dass man damit die Daten stark reduziert und potentielle
Abweichungen von den Modellannahmen nicht mehr erkennenPkann.
Xi = 50. Wir schätzen
Beispiel: X1 , . . . , X100 unabhängige p-Münzwürfe. K :=
p = 1/2. Wenn aber alle Erfolge am Anfang der Serie auftraten und alle Misserfolge am Ende, haben wir durchaus Grund, an den Modellannahmen von unabhängigen
Münzwürfen mit demselben Erfolgsparameter zu zweifeln. Dies ist nicht zu erkennen,
wenn man die Daten auf die Anzahl K der Erfolge reduziert.
60
8
Likelihood-Quotienten-Tests
Die Likelihoodfunktion wird nicht nur eingesetzt, um Parameter zu schätzen, sondern
auch um zu quantifizieren, wie gut Daten zu einer Hypothese (einer Annahme über
einen bestimmten Parameter) passen, und um verschiedene Modelle / Hypothesen zu
vergleichen.
Beispiel Wir betrachten zunächst ein klassisches Beispiel aus der Qualitätskontrolle:
Eine Lieferung, bestehend aus n Einzelstücken, ist zu testen. Ein Anteil p der Einzelstücke ist schlecht, der Rest ist gut. Konsument und Produzent sind sich (z.B.) einig,
dass p ≤ 0.03 annehmbar ist, aber p ≥ 0.15 nicht akzeptabel.
Es werden 20 Stück rein zufällig gezogen, die Anzahl X der schlechten Stücke wird
notiert. Also X ∈ B = {0, 1, . . . , 20}. Man einigt sich auf:
A0 := {0, 1, 2} :
Die Lieferung wird gekauft, falls X ∈ A0
A1 := B \ A0 := {3, 4, . . . , 20} :
Die Lieferung wird abgelehnt, falls X ∈ A1
Das Risiko des Produzenten und des Konsumenten haben wir bereits kennengelernt als
Risiko erster und zweiter Art:
Wsp≤0.03 (X ∈ A1 ) ≤ Wsp=0.03 (X > 2) = 1 − pbinom(2, 20, 0.03) ≈ 0.021.
Wsp≥0.15 (X ∈ A0 ) ≤ Wsp=0.15 (X ≤ 2) = pbinom(2, 20, 0.15) ≈ 0.4.
Der allgemeine Fall Gegeben sei eine ZVe X mit Werten in B, verteilt gemäß der
Dichte (oder der Gewichte) fϑ (x). Es sei ϑ ∈ Θ, wobei Θ die Menge der Parameter
bezeichnet (im Beispiel Θ = [0, 1]). Seien Θ0 , Θ1 zwei disjunkte Teilnehmen von Θ (im
Bsp. Θ0 = [0, 0.003], Θ1 = [0.15, 1]). Ein Test von Θ0 gegen Θ1 teilt den Wertebereich
von X in zwei disjunkte Teilmengen A0 , A1 mit A0 ∪ A1 = B — die Annahmebereiche
für die Hypothesen ϑ ∈ Θ0 bzw. ϑ ∈ Θ1 . Man entscheide dann für Θ0 , falls X ∈ A0 ,
sonst für Θ1 . Wie gehabt:
Risiko 1. Art:
sup Wsϑ (X ∈
/ A0 )
=: α
ϑ∈Θ0
Risiko 2. Art:
sup Wsϑ (X ∈
/ A1 )
=: β.
ϑ∈Θ1
Die Abbildung
ϑ → Wsϑ (X ∈ A0 )
heißt Operationscharakteristik des Tests. Für ϑ ∈ Θ0 soll sie möglichst groß, sonst
möglichst klein sein.
Gesucht ist nun ein Test, der für vorgegebenes Risiko 1. Art (d.h. für vorgegebenes
Signifikanzniveau) das kleinste Risiko 2. Art besitzt (also die größte Testmacht). Im
Spezialfall ist das einfach:
61
8.1
Einfache Hypothese und einfache Alternative
Seien Θ0 = {ϑ0 }, Θ1 = {ϑ1 }. Seien f0 (x), f1 (x) die Verteilungsdichten (bzw. -gewichte)
von X unter ϑ0 bzw. ϑ1 . Wir betrachten den Likelihood-Quotienten
q(x) :=
f0 (x)
.
f1 (x)
Sind die Beobachtungen unter ϑ0 wahrscheinlicher als unter ϑ1 , so ist q(x) > 1, sonst
q(x) ≤ 1. Je größer das Verhältnis dieser Gewichte wird, desto mehr sprechen die Daten
für ϑ0 (und umgekehrt).
Das Lemma von Neyman und Pearson Sei c > 0 fest und so gewählt, dass
f0 (x)
A(c) := x ∈ B ≥c
f1 (x)
ein Annahmebereich für ϑ0 zum Niveau 1 − α ist und sein Niveau voll ausschöpft, so
dass
Wsϑ0 (X ∈
/ A(c)) = α.
Dann ist der Test mit Annahmebereich A0 = A(c) unter allen Tests von {ϑ0 } gegen
{ϑ1 } mit Signifikanz α der Mächtigste.
Bew.:
Sei A ein weiterer Annahmebereich für {ϑ0 } zum Niveau 1 − α. Dann ist zu zeigen:
Wsϑ1 (X ∈ A) ≥ Wsϑ1 (X ∈ A(c)).
Wir betrachten zunächst
Z
Z
Wsϑ1 (X ∈ A) =
f1 (x)dx =
A
Z
A(c)
Z
f1 (x)dx −
f1 (x)dx +
A\A(c)
f1 (x)dx.
A(c)\A
Auf der Menge A \ A(c) ist f1 > f0 /c, und auf A(c) ist f1 ≤ f0 /c. Daher:
Z
Z
Z
1
1
Wsϑ1 (X ∈ A) ≥
f1 (x)dx +
f0 (x)dx −
f0 (x)dx
c A\A(c)
c A(c)\A
A(c)


1
=
f1 (x)dx + 
c
A(c)

Z
Z
f0 (x)dx
| A {z }
=Wsϑ0 (X∈A)≥1−α
Z
−
A(c)
|
f0 (x)dx
{z
}






=Wsϑ0 (X∈A(c))=1−α
Z
≥
f1 (x)dx = Wsϑ1 (X ∈ A(c)).
A(c)
62
8.2
Generalisierte Likelihood-Quotiententests
Tests nach Neyman und Pearson testen eine einfache Hypothese (ein möglicher Wert
für ϑ) gegen eine einfache Alternative. Daher war es relativ leicht, ihre Optimalität zu
zeigen. Likelihood-Quotiententests sind allerdings viel breiter anwendbar, und obwohl
nicht zwangsläufig optimal, so funktionieren sie häufig gut und spielen daher beim Testen
eine ähnliche Rolle wie das Maximum-Likelihood-Prinzip in der Schätztheorie.
Wir betrachten unser Beispiel vom Anfang: Seien Θ0 , Θ1 zwei disjunkte Teilmengen
von Θ (d.h. nicht mehr zwangsläufig einelementig, wie bei Neyman-Pearson), mit Θ0 ∪
Θ1 = Θ. Dann ist der verallgemeinerte Likelihood-Quotient definiert als
Q∗ (x) :=
supϑ∈Θ0 fϑ (x)
.
supϑ∈Θ1 fϑ (x)
Aus technischen Gründen bevorzugt man meistens die folgende Größe:
Q(x) :=
supϑ∈Θ0 fϑ (x)
,
supϑ∈Θ fϑ (x)
wobei Q(x) = min(Q∗ (x), 1). (Denn ist der ML-Schätzer für ϑ in Θ0 , so ist Q(x) = 1
und Q∗ (x) ≥ 1, ist der ML-Schätzer in Θ1 , so ist Q(x) = Q∗ (x).)
Große Werte von Q sprechen für H0 : ϑ ∈ Θ0 . Daher ist analog zu Neyman-Pearson
der Annahmebereich A0 für H0 festgelegt durch alle Beobachtungen, für die Q größer
ist als eine Schranke c: A0 := {x|Q(x) ≥ c}, für ein c ∈ R.
Beispiel: Normalverteilung Seien X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 )verteilt, mit bekanntem σ 2 . Sei H0 : µ = µ0 und H1 : µ 6= µ0 , d.h. Θ0 = {µ0 },
Θ1 = R \ {µ0 }. Der Zähler von Q(X) ist damit einfach gegeben durch
1 P
2
1
√
e− 2σ2 (Xi −µ0 ) .
n
( 2πσ)
Der Nenner ist der Wert von f am ML-Schätzer X̄ von µ :
1 P
2
1
√
e− 2σ2 (Xi −X̄) .
n
( 2πσ)
Damit ist der Likelihood-Quotient gegeben durch
X
1 X
2
2
Q(X) = exp − 2
(Xi − µ0 ) −
(Xi − X̄)
2σ
Q wird klein, wenn −2 log Q groß wird:
−2 log Q(X) =
n(X̄ − µ )2
X
1 X
0
2
2
(X
−
µ
)
−
(X
−
X̄)
=
.
i
0
i
σ2
σ2
Hier treffen wir einen alten Bekannten, denn −2 log Q ist gerade das Quadrat der zStatistik zum Test der Hypothese H0 : µ = µ0 . Z ∼ N (0, 1), also −2 log Q(X) ∼ χ2 (1).
63
Asymptotische Verteilung von Q Wenn die Verteilung von Q unter H0 bekannt ist,
ist es leicht, einen Annahme- und Ablehnungsbereich für H0 zu definieren und damit
H0 gegen ihre Alternative zu testen. Die Verteilung von Q ist nicht immer bekannt,
aber unter bestimmten Regularitätsvoraussetzungen an die Dichte von X ist −2 log Q
asymptotisch χ2 -verteilt mit (dim(Θ) − dim(Θ0 )) Freiheitsgraden. Im obigen Beispiel
sogar exakt: −2 log Q ∼ χ2 (1) = χ2 (1 − 0) = χ2 (dim(Θ) − dim(Θ0 )).
Beispiel: Multinomialverteilung Auch hier ist der Likelihood-Quotiententest (zumindest asymptotisch) äquivalent zu einem häufig eingesetzten Test, den wir im nächsten
Abschnitt diskutieren werden: dem χ2 -Test zum Vergleich beobachteter und erwarteter
Häufigkeiten.
Y1 , . . . , Yn nehmen Werte in k Kategorien an. X1 , . . . , Xk seien die beobachteten
Häufigkeiten der k Kategorien. Dann ist X = (X1 , . . . , Xk ) multinomialverteilt mit Parametern n und (p1 , . . . , pk ). Die Menge der möglichen Parameter ist
X
Θ = {(p1 , . . . , pk )|pi ≥ 0,
pi = 1}.
Wir untersuchen wieder eine einfache Hypothese:
Θ0 := {(π1 , . . . , πk )},
mit festen Gewichten π1 , . . . , πk ,
X
πi = 1.
Für den Nenner von Q brauchen wir die ML-Schätzer der Zellbesetzungen (p1 , . . . , pk ).
Dies sind gerade die relativen Häufigkeiten, p̂i = Xi /n (Übung).
Der Likelihood-Quotient ist damit
Q(X) =
X1
n!
X1 !···Xk ! π1
X1
n!
X1 !···Xk ! p̂1
· · · πkXk
k
· · · p̂X
k
Also:
−2 log Q(X) = −2
X
Xi log
πi
p̂i
=
Y πi Xi
= 2n
p̂i
X
.
p̂i log
p̂i
πi
.
Auch diese Größe ist entsprechend obigerP
Bemerkung approximativ χ2 (dim(Θ)−dim(Θ0 )) =
2
χ (k −1)−verteilt (dim Θ = k −1 wegen pi = 1). Außerdem ist −2 log Q asymptotisch
gleich der Pearsonschen Teststatistik X für die Hypothese Hπ : p = (π1 , . . . , πk ):
X :=
X (Xi − nπi )2
nπi
=:
X (Bi − Ei )2
Ei
,
wobei Bi := Xi die beobachteten Häufigkeiten, und Ei := nπi die erwarteten Häufigkeiten in den k Kategorien bezeichnen.
Die asymptotische Gleichheit von X und −2 log Q sieht man an einer Taylor-Entwicklung:
Für x nahe x0 ist
x
g(x) = x log
x0
approximierbar durch
g(x) ≈ g(x0 ) + (x − x0 )g 0 (x0 ) +
(x − x0 )2 00
(x − x0 )2
g (x0 ) = (x − x0 ) +
.
2
2x0
64
Damit ist (für p̂ = (p̂1 , . . . , p̂k ) nahe π = (π1 , . . . , πk ), d.h. für genügend großes n unter
der Nullhypothese p = π)
X
p̂i
−2 log Q = 2n
p̂i log
πi
X
(πi − p̂i )2
(p̂i − πi ) +
≈ 2n
2πi
X
X (πi − p̂i )2 X (np̂i − nπi )2
=
= X.
= 2n
(p̂i − πi ) + n
πi
nπi
9
Der χ2 -Test
Wir betrachten die Pearsonsche Teststatistik für feste hypothetische Gewichte:
Satz (Pearson, 1900)
(n)
(n)
X(n) = (X1 , . . . , Xk ) sei multinomial (n; π1 , . . . , πk )-verteilt. Dann gilt:
X :=
k
(n)
X
(X − nπi )2
i
nπi
i=1
−→ χ2 (k − 1)
für n → ∞ in Verteilung.
(n)
Die erste Plausibilitätsüberlegung hierzu ist die folgende: Für jedes feste i ist Xi ∼
Bi(n, πi ), also gilt nach dem Satz von de Moivre-Laplace:
!2
(n)
Xi − nπi
p
−→ χ2 (1) für n → ∞ in Verteilung.
nπi (1 − πi )
(n)
2
P
Xi −nπi
(n)
Wären alle Xi unabhängig, so würde gelten i √
→ χ2 (k). Ein Freiheitsnπi (1−πi )
(n)
Xi
grad geht verloren durch die Abhängigkeit der
(denn ihre Summe ist deterministisch
n). Die passende Varianz im Nenner sieht man beim Übergang zur Poissonverteilung:
(n)
(n)
Fishers heuristischer Beweis Wir poissonisieren: Seien N1 , . . . , Nk unabhängig
(n)
mit Ni ∼ P o(nπi ). Dann ist die Summe der Ni nicht mehr deterministisch n, sondern
poissonverteilt mit Parameter n:
X (n)
N (n) :=
Ni ∼ P o(n).
(n)
Die ZVe Ni
wertsatz:
∼ P o(nπi ) hat Varianz nπi , und daher folgt mit dem zentralen Grenz(n)
Ni
√
− nπi
−→ N (0, 1)
nπi
für n → ∞ in Verteilung.
(n)
Damit konvergiert der Vektor Gn mit Einträgen (
Rk :
Ni −nπ
√
nπi )i
in Verteilung gegen eine
standardnormalverteilte Zufallsvariable im
!
(n)
Ni − nπi
Gn :=
−→ Z für n → ∞ in Verteilung.
√
nπi
i=1,...,k
65
Aus dem Satz von Fisher wissen wir, dass die Projektionen von Z auf orthogonale Unterräume U1 ,U2 von Rk unabhängig sind und ihre Längenquadrate χ2 -verteilt mit Freiheitsgraden dim(U1 ) und dim(U2 ). Wir zerlegen Gn , was ja in Verteilung gegen Z konvergiert, durch orthogonale Projektion (und projizieren damit sozusagen den zusätzlichen
Freiheitsgrad der zufälligen Gesamtzahl N (n) weg). Projektion auf den von
 √ 
π1
 .. 
e :=  . 
√
πk
aufgespannten Unterraum liefert
1
eT Gn = he, Gn i = √ (N (n) − n) −→ eT Z für n → ∞ in Verteilung,
n
wobei nach dem Satz von Fisher eT Z ∼ N (0, 1).
Wir zerlegen Gn damit in die Projektion Pe Gn auf e und die Projektion Pe⊥ Gn auf
das orthogonale Komplement von e:
Gn = Pe Gn + Pe⊥ Gn ,
√
1
T
(n) √
Pe Gn = (e Gn )e = √ (N
πi − n πi )
n
i=1,...,k
!
(n)
√
Ni
1
Pe⊥ Gn = Gn − Pe Gn = √
√ − N (n) πi
πi
n
i=1,...,k
Es gilt Pe⊥ Gn → Pe⊥ Z in Verteilung, und damit
||Pe⊥ Gn ||2 =
X (N (n) − N (n) πi )2
i
nπi
−→ χ2 (k − 1).
Außerdem ist ||Pe⊥ Gn ||2 (→ ||Pe⊥ Z||2 ) asymptotisch unabhängig von ||Pe Gn ||2 (→ ||Pe Z||2 ) =
1
(n) − n)2 und damit von N (n) .
n (N
Abschließend beobachten wir die Beziehung zwischen der Poisson- und der Multino(n)
(n)
mialverteilung: Bedingt unter {N (n) = n} ist (N1 , . . . , Nk ) multinomial(n, π1 , . . . , πk )verteilt:
(n)
Ws({N1
(n)
= y1 , . . . , Nk
= yk }|{N (n) = n})
(n)
=
=
Ws({N1
e−nπ1 (nπy11 )!
y1
· · · e−nπk (nπykk)!
yk
n
=
(n)
= y1 , . . . , Nk = yk } ∩ {N (n) = n})
Ws({N (n) = n})
n
y1 · · ·
e−n nn!
yk
π1y1 · · · πkyk .
Für einen rigorosen Beweis brauchen wir Wissen über Normalverteilungen auf Rk :
66
9.1
Normalverteilungen auf Rk
Kovarianzmatrizen Y = (Y1 , . . . , Yk )T sei Rk -wertige Zufallsvariable mit Erwartungswert m := EY . Sei Y 0 := Y − m. Dann ist die Matrix C mit Einträgen
Cij := Cov(Yi , Yj ) = E[(Yi − mi )(Yj − mj )] = E[Yi0 Yj0 ]
die Kovarianzmatrix von Y .
Jede Kovarianzmatrix ist symmetrisch und positiv semidefinit.
Denn für a = (a1 , . . . , ak )T ∈ Rk ist
X
X
X
X
aT Ca =
ai Cov(Yi , Yj )aj = Cov
ai Yi ,
aj Yj = Var
ai Yi ≥ 0.
i,j
Jede symm., positiv semidefinite Matrix tritt als Kovarianzmatrix auf.
C sei k × k-Matrix, symmetrisch und positiv semidefinit. Dann gibt es Eigenwerte σ12 ≥
σ22 ≥ . . . ≥ σk2 ≥ 0 und eine zugehörige ONB aus Eigenvektoren (Beweis: Lineare
Algebra.) Das heißt, es gibt eine Darstellung von C der Gestalt:
C=
k
X
σi2 ei eTi .
i=1
P
Denn in der Tat ist Cei = σi2 ei = ( kj=1 σj2 ej eTj )ei .
Definition
Y heißt normalverteilt auf Rk mit Mittelwert m und Kovarianzmatrix C (Y ∼ N (m, C))
⇐⇒ Y hat Erwartungswert m und Kovarianzmatrix C, und ∀a ∈ Rk : aT Y ist normalverteilt auf R.
Satz
P
Sei C = ki=1 σi2 ei eTi . Dann gilt:
k
X
N (0, C) = L
σi Zi ei ,
i=1
wobei Z1 , . . . , Zk unabhängig und N (0, 1)-verteilt auf R. Denn mit Y :=
X
X
X
E[Y Y T ] = E[(
σi Zi ei )(
σj Zj ej )] =
σi2 ei eTi .
i
j
P
σi Zi ei ist
i
P
Beispiel C = ri=1 ei eTi mit r < k, ei orthonormal. Dann ist C eine Projektionsmatrix
auf einen r-dimensionalen Teilraum von Rk . Dann ist N (0, C) die Standardnormalverteilung auf dem von e1 , . . . , er aufgespannten Teilraum von Rk .
67
Wie im Eindimensionalen gilt auch im Rk der (nun multivariate) zentrale Grenzwertsatz: Seien Y1 , . . . , Yn u.i.v. im Rk mit Mittelwert 0 und Kovarianzmatrix C. Dann
gilt:
n
1 X
√
Yi −→ N (0, C) für n → ∞ in Verteilung.
n
i=1
(Beweis Vorlesung Höhere Stochastik, Fr. 14.12.07, 10-12 Uhr).
Beweis (Satz von Pearson):
Seien Y1 , . . . , Yn u.i.v. mit Werten in {1, . . . , k} und Verteilungsgewichten (πi )i=1,...,k .
Seien für i = 1, . . . , n
 √1

π1 I{Yi =1}


..
Vi := 
.
.
1
√ I{Y =k}
i
πk
√
√
Dann sind alle Vi unabhängig identisch verteilt mit Erwartungswert e = ( π1 , . . . , πk )T
und Kovarianzmatrix
√
1
1
√
√
Cij = E
= δij − πi πj ,
√ I{Y =i} − πi · √ I{Y =j} − πj
πi
πj
also C = I − eeT . Damit folgt
√

 √1
π1 X1 − n π1
X
1
1 

..
T
√
Vi − ne = √ 
 → N (0, I−ee ) für n → ∞ in Verteilung.
.
n
n
√
√1 Xk − n πk
πk
Also gilt
X Xi − nπi 2 1 X
2 → ||Z||2
√
=
V
−
ne
√
i
nπi
n
mit Z ∼ N (0, I − eeT ). Laut obigem Beispiel ist Z damit standardnormalverteilt auf
Rk−1 , denn I − eeT ist Projektionsmatrix auf einen (k − 1)-dimensionalen Unterraum.
Damit ist die Pearsonsche Statistik X approximativ χ2 (k − 1)-verteilt.
9.2
Der χ2 -Test
Satz (Pearson, Fisher)
(X1 , . . . , Xk ) seien beobachtete Häufigkeiten und multinomial (n, π)-verteilt. Gegeben
sei eine Hypothese: π ∈ F , wobei F eine r-dimensionale Hyperfläche des Simplex
X
Θ := {(p1 , . . . , pk )|
pi = 1, pi ≥ 0}
ist. p̂F sei der ML-Schätzer für π unter der Hypothese π ∈ F . Dann ist die Teststatistik
T :=
k
X
(Xi − np̂F )2
i
np̂Fi
i=1
unter π ∈ F für große n annähernd χ2 (k − 1 − r)-verteilt.
68
Beispiel:
k = 4. Y1 , . . . , Yn fallen in 4 mögliche Kategorien, mit
p11 p12 X
Θ=
pij = 1, pij ≥ 0
p21 p22 Offensichtlich gilt dim(Θ) = 3. Sei nun die Hypothese
αβ
α(1 − β)
F :=
0 ≤ α ≤ 1, 0 ≤ β ≤ 1 ,
(1 − α)β (1 − α)(1 − β) mit dim(F ) = 2. Was sind die ML-Schätzer für α und β für gegebene Häufigkeiten
x11 , x12 , x21 und x22 ? Wir maximieren die Multinomialgewichte:
fαβ (x) =(αβ)x11 · (α(1 − β))x12 · ((1 − α)β)x21 · ((1 − α)(1 − β))x22 · c
mit xi+
=αx1+ (1 − α)x2+ β x+1 (1 − β)x+2 · c,
P
P
:= j xij und x+i := j xji . Durch Ableiten der log-likelihood sieht man:
α̂ =
x1+
n
β̂ =
x+1
.
n
Der χ2 −Test auf Unabhängigkeit
Das obige Beispiel mit k = 4 ist ein Spezialfall für den χ2 −Test auf Unabhängigkeit.
Gegeben sind dabei zwei Merkmale A und B in I bzw. J Abstufungen, also insgesamt
k = I · J Kategorien. Wir beobachten die Häufigkeiten xij in den Kategorien (ij). pij sei
die Wahrscheinlichkeit, dass ein zufällig gezogenes Individuum in Kategorie (ij) liegt.
Y1 , . . . , Yn seien u.i.v. mit Gewichten pij . Die Hypothese ist:
pij = αi βj ,
wobei αi die Wahrscheinlichkeit bezeichnet, in Merkmal A in Kategorie i zuP
liegen,
und
β
entsprechend
die
Wahrscheinlichkeit
für
Kategorie
j
in
Merkmal
B,
mit
αi =
P j
βj = 1. Die Hypothese sagt also, dass die beiden Merkmale in der Population unabhängig sind, mit dim(F ) = (I − 1) + (J − 1) = I + J − 2. Die ML-Schätzer ermittelt
man analog zu oben:
x+j
xi+
α̂i :=
β̂j =
,
n
n
mit xi+ und x+j wie oben. Dann folgt mit dem Satz von Pearson und Fisher: Ist
(X11 , X12 , . . . , XIJ ) multinomial (n, α1 β1 , α1 β2 , . . . , αI βJ )-verteilt, so ist
X (Xij − nα̂i β̂j )2
i,j
nα̂i β̂j
=
Xi+ X+j 2
n
Xi+ X+j
n
X Xij −
für große n approximativ χ2 (IJ − 1 − (I + J − 2)) = χ2 ((I − 1)(J − 1))-verteilt.
69