Statistik

Werbung
Statistik
Notizen zur Vorlesung im WS 2007/08
http://ismi.math.uni-frankfurt.de/schneider/statistik0708
Gaby Schneider
[email protected]
http://ismi.math.uni-frankfurt.de/schneider
Inhaltsverzeichnis
1 Beschreibende Statistik
1.1 Die Lage einer Verteilung . . . . . . . . . . . . . . . .
1.1.1 Der Erwartungswert . . . . . . . . . . . . . . .
1.1.2 Quantile . . . . . . . . . . . . . . . . . . . . . .
1.1.3 Vergleich von Mittelwert und Median . . . . .
1.2 Graphische Darstellungen für Verteilungen . . . . . . .
1.2.1 Das Histogramm . . . . . . . . . . . . . . . . .
1.2.2 Der Box-and-Whisker-plot (oder kurz: Boxplot)
1.2.3 Quantilplots . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
5
7
9
9
9
12
2 Erste statistische Tests
2.1 Ein Permutationstest . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test
2.3 Der z-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 p-Wert, Signifikanz, Testmacht und Alternativhypothese . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
13
16
17
3 Der t-Test
3.1 Zur Geometrie von Strichprobenmittelwert und -varianz . . . .
3.1.1 Schätzer für σ . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Geometrie des Mittelwertes . . . . . . . . . . . . . . . .
3.1.3 Geometrie der geschätzten Standardabweichung . . . . .
3.2 Die t-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Die t-Verteilung und ihre Verwandten . . . . . . . . . .
3.3 Die Standardnormalverteilung auf Rn und der Satz von Fisher
3.4 Anwendung: Eine Stichprobe . . . . . . . . . . . . . . . . . . .
3.5 Der zwei-Stichproben t-Test (für gleiche Varianzen) . . . . . . .
3.6 Zur Geometrie in der zwei-Stichproben-Situation . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
18
19
19
20
21
23
24
25
4 Tests für gepaarte Stichproben
4.1 t-Test für gepaarte Stichproben . . . . . . . . . . . . . . . . .
4.1.1 Voraussetzungen und Spezialfall . . . . . . . . . . . .
4.2 Wilcoxon-Test für gepaarte Stichproben/ Vorzeichenrangtest
4.3 Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Permutationstest von Fisher . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
27
28
29
29
.
.
.
.
.
5 Schätzverfahren
5.1 Der Mittlere quadratische Fehler . . . . . . . . . . . . . .
5.2 Das Maximum-Likelihood Prinzip . . . . . . . . . . . . . .
5.2.1 Eigenschaften von Maximum-Likelihood-Schätzern
5.3 Die Momentenmethode . . . . . . . . . . . . . . . . . . . .
5.4 Kleinste Quadrate . . . . . . . . . . . . . . . . . . . . . .
5.5 Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . .
5.6 Suffizienz und die Minimierung d. mittleren quadratischen
.
.
.
.
.
.
.
30
31
33
33
36
37
37
38
6 Likelihood-Quotienten-Tests
6.1 Einfache Hypothese und einfache Alternative . . . . . . . . . . . . . . .
6.2 Generalisierte Likelihood-Quotiententests . . . . . . . . . . . . . . . . .
42
43
44
7 Der χ2 -Test
7.1 Normalverteilungen auf Rk . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Der χ2 -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
48
49
8 Vergleich von mehr als zwei Stichproben
8.1 Erinnerung: Geometrie beim t-Test . . . .
8.2 Verallgemeinerung auf k(> 2) Gruppen . .
8.3 Paarweise Vergleiche . . . . . . . . . . . .
8.4 Multiples Testen . . . . . . . . . . . . . .
8.4.1 Bonferroni-Korrektur . . . . . . .
8.4.2 Simultane Konfidenzintervalle nach
8.5 Lineare Kontraste . . . . . . . . . . . . .
8.6 Kruskal-Wallis-(H)-Test . . . . . . . . . .
.
.
.
.
.
.
.
.
51
51
52
55
55
56
56
57
59
9 Das normale lineare Modell
9.1 Testen linearer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . .
60
61
10 Lineare Regression
62
. . . .
. . . .
. . . .
. . . .
. . . .
Tukey
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Fehlers
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Beschreibende Statistik
Ein wesentlicher Teil der Statistik beschäftigt sich mit Datenanalyse mit Hilfe stochastischer Modelle. Daten liegen oft vor in Form eines Zahlenvektors X = (x1 , . . . , xn ). Um
die Variabilität dieser Beobachtungen zu modellieren, betrachtet man sie im stochastischen Modell als Realisierungen von ZVen X1 , . . . , Xn . Wir schreiben daher wahlweise
X = (x1 , . . . , xn ) für die Beobachtungen bzw. X = (X1 , . . . , Xn ) für einen Vektor von
Zufallsvariablen.
1.1
1.1.1
Die Lage einer Verteilung
Der Erwartungswert
Erinnerung: Definition des Erwartungswertes
Der Erwartungswert einer diskreten Zufallsvariablen X mit Werten in S ist definiert als
X
µ = EX =
xWs(X = x).
x∈S
Der Erwartungswert einer Zufallsvariablen mit Wahrscheinlichkeitsdichte f (x) ist analog
Z
µ = EX = xf (x)dx.
R
Schätzung des Erwartungswertes durch den Mittelwert Seien X1 , . . . , Xn unabhängige, identisch verteilte ZVe. Ein beliebter Schätzer für den Erwartungswert ist
der Stichprobenmittelwert:
n
1X
µ̂ := X̄ :=
Xi .
n
i=1
Beobachtung 1: Erwartungstreue Für X1 , . . . , Xn u.i.v. mit E|X| < ∞ ist der
Mittelwert ein erwartungstreuer Schätzer für den Erwartungswert:
n
1X
E [µ̂] =
EXi = EX1 = µ.
n
i=1
Beobachtung 2: Der mittlere quadratische Fehler Wie genau können wir µ
schätzen? Ein häufig verwendetes Kriterium für die Güte eines Schätzers ist der mittlere
quadratische Fehler: die erwartete quadratische Abweichung des Schätzers von dem zu
schätzenden Wert. Schätzt man µ durch X̄, so ist der mittlere quadratische Fehler gerade
E((X̄ − µ)2 )
EX̄=µ
=
Var(X̄) = (1/n)Var(X).
p
Eine wichtige Unterscheidung: Die Standardabweichung der ZVe X ist Var(X), die
Standardabweichung des Mittelwerts von n unabhängigen ZVen Xi ist
! r
1X
Var(X)
sd(X)
Xi =
= √ .
Der Standardfehler : sd
n
n
n
i
1
Beobachtung 3: Das Starke Gesetz der Großen Zahlen Sei X1 , X2 , . . . eine
P Folge
unabhängiger, identisch verteilter ZVen mit Erwartungswert µ. X̄n := (1/n) ni=1 Xi .
Dann konvergiert X̄n fast sicher gegen den Erwartungswert, d.h.
Ws(X̄n → µ) = 1.
Das Starke Gesetz der Großen Zahlen impliziert stochastische Konvergenz des Stichprobenmittelwertes gegen den Erwartungswert: Für große n liegt X̄ mit hoher Wahrscheinlichkeit nah beim Erwartungswert. Ein Schätzer, der stochastisch gegen den zu
schätzenden Wert konvergiert, heißt konsistent. Der Stichprobenmittelwert ist also ein
konsistenter Schätzer für µ.
Die Verteilung von X̄
Drei Beispiele (Siehe auch Figur 1):
1. X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt, also gemäß der Dichte
f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
,
x ∈ R.
Dann ist der Stichprobenmittelwert normalverteilt mit Erwartungswert µ und Varianz σ 2 /n.
2. X1 , . . . , Xn unabhängig und Exp(λ)-verteilt, also gemäß
f (x) = λe−λx ,
x > 0.
Der Stichprobenmittelwert hat Erwartungswert 1/λ und Varianz 1/(nλ2 ). Aber er
ist (zumindest für kleine n) nicht normalverteilt. (In der Tat folgt die Summe von n
unabhängigen Exp(λ)-verteilten ZVen einer Gammaverteilung mit den Parametern
λ und n.)
3. X1 , . . . , Xn unabhängig und Unif([a, b])-verteilt. Zwar können wir Erwartungswert
und Varianz ausrechnen, aber wie ist die Verteilung?
Erinnerung: Der Zentrale Grenzwertsatz Sei X1 , X2 , . . . eine Folge unabhängi2
ger,
Pn identisch verteilter ZVen mit Erwartungswert µ und Varianz 0 < σ < ∞. Sn :=
i=1 Xi . Dann ist Sn approximativ normalverteilt, bzw.
Sn − nµ
√
−→ N (0, 1) f ür n → ∞ in Verteilung.
σ n
Ein asymptotisches Konfidenzintervall für µ Der Zentrale Grenzwertsatz sagt,
dass für jede beliebige zugrundeliegende Verteilung der Werte X1 , . . . , Xn die Verteilung
des Stichprobenmittelwertes (für große n) einer Normalverteilung folgt. Damit können
wir leicht ein erstes Konfidenzintervall konstruieren:
2
Seien
Pwiederum X1 , . . . , Xn u.i.v. mit EX = µ und Var(X) = σ ∈ (0, ∞). Sei µ̂ =
1/n Xi . µ̂ ist eine Zufallsvariable und schwankt um µ. In der Regel ist aber natürlich
µ̂ 6= µ (und unsere Schätzung damit zwar gut, aber falsch). Wie falsch ist also unser
2
1.2
0.0
2
4
6
8
10
0.0
0.2
0.4
0.4
0.8
0.6
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
0
2
4
6
8
10
6
8
10
6
8
10
x
0
2
4
6
8
10
0.0
0.0
0.2
0.1
0.2
0.4
0.2
0.6
0.4
0.8
0.3
1.0
0.6
0.4
x
0.0
Exponentialverteilung
x
0
2
4
6
8
10
4
4
0.8
0.6
0.4
0.2
6
8
10
0.0
0.2
0.1
0.0
2
2
x
0.3
0.00 0.05 0.10 0.15 0.20
0
0
x
0.4
x
Uniforme Verteilung
n=30
0.8
n=10
0.0
Normalverteilung
n=3
0
2
4
x
6
x
8
10
0
2
4
x
Abbildung 1: Verteilung des Stichprobenmittelwertes für verschiedene n (Werte z.T. simuliert)
Schätzer?
Gesucht ist ein Intervall I(X), das mit hoher Wahrscheinlichkeit den wahren Erwartungswert überdeckt, z.B.
Ws(I(X) 3 EX) ≥ 0.95.
(1)
Ein solches Intervall nennt man ein 95%-Konfidenzintervall für den Erwartungswert.
Man beachte die Schreibweise: Nicht etwa der Erwartungswert ist hier zufällig, sondern das Intervall! Nach dem ZGWS gilt (für genügend großes n), dass µ̂ approximativ
normalverteilt ist. Das heißt, es gibt eine Zahl a so, dass
√
√
Ws(µ − aσ/ n ≤ µ̂ ≤ µ + aσ/ n) = 0.95.
Bei der Normalverteilung mit Mittelwert µ und Varianz σ 2 liegen etwa 95% der Masse
im Intervall [µ − 2σ, µ + 2σ] (Figur 2, der genaue Wert ist a = 1.96.) Also:
√
√
Ws(µ − 1.96σ/ n ≤ µ̂ ≤ µ + 1.96σ/ n) = 0.95.
Um dieses Intervall in ein Intervall für µ zu transformieren, beobachten wir:
√
√
Ws(µ − 1.96σ/ n ≤ µ̂ ≤ µ + 1.96σ/ n)
√
√
=Ws(−1.96σ/ n ≤ µ̂ − µ ≤ 1.96σ/ n)
√
√
=Ws(µ̂ + 1.96σ/ n ≥ µ ≥ µ̂ − 1.96σ/ n)
√
√
Also erfüllt I(X) = [µ̂ − 1.96σ/ n, µ̂ + 1.96σ/ n] Bedingung (1).
3
Normalverteilung
Dichte
µ − 3σ
σ µ − 2σ
σ
µ−σ
99.7% 95%
µ+σ
µ + 2σ
σ µ + 3σ
σ
68%
µ
Abbildung 2: Normalverteilung: Fläche in Intervallen [µ − kσ, µ + kσ], k = 1, 2, 3.
Was kann schief gehen?
• Die Voraussetzungen könnten nicht zutreffen, z.B. existiert EX nicht für alle Verteilungen. Wir betrachten die Standard-Cauchy-Verteilung, mit Dichte
f (x) =
1 1
,
π 1 + x2
x ∈ R.
−4
−2
0
2
0
2
4
−4 −2
Sn n
0.2
Normalvert.
Cauchyvert.
0.0
Dichte
0.4
Hier ist zwar f (x) integrierbar, aber nicht xf (x), so dass der Erwartungswert nicht
existiert. Das starke Gesetz
Pnder Großen Zahlen gilt hier nicht — die normierten
Partialsummen X̄n = 1/n i=1 Xi konvergieren nicht (Figur 3).
0
x
2000
4000
6000
8000
10000
n
Abbildung 3: Fehlende Konvergenz des Mittelwertes bei der Cauchy-Verteilung.
• Die Aussage des ZGWS ist asymptotisch, aber die Güte der Asymptotik hängt von
der zugrundeliegenden Verteilung ab. Für manche Verteilungen muss für approximative Normalität n erst sehr groß werden. Zum Beispiel, wenn eine Verteilung
winziges Gewicht auf sehr großen Werten hat:
X habe Verteilung ν0 mit Erwartungswert µ.
(
X
mit W’keit 1 − ε
X ε :=
2
1/ε
mit W’keit ε
4
1
−→ ∞ für ε → 0.
ε2
Für festes n gilt für jedes von X = (X1 , . . . , Xn ) abhängige Intervall I(X):
µε := EX ε = (1 − ε)µ + ε
ε→0
Ws(I(X1 , . . . , Xn ) = I(X1ε , . . . , Xnε )) −→ 1.
Konfidenzintervalle sollten möglichst klein sein, insbesondere beschränkt. Daher
folgt mit
ε→0
Ws(I(X1 , . . . , Xn ) 3 µε ) −→ 0
ε→0
Ws(I(X1ε , . . . , Xnε ) 3 µε ) −→ 0.
Die Approximation aus dem ZGWS kann also beliebig schlecht werden.
Für so pathologische Fälle, z.B. bei ausreißerbehafteten Daten, oder wenn man wenige
Informationen über die zugrundeliegende Verteilung hat, verwendet man gerne nichtparametrische Ansätze, z.B. Quantile.
1.1.2
Quantile
Erinnerung: Die Verteilungsfunktion
einer ZVen X ist definiert als
F (x) = Ws(X ≤ x) = ν((−∞, x]),
wobei ν die Verteilung von X bezeichnet. Diskret: F (x) =
Rx
Dichte f (x): F (x) =
f (y)dy.
P
y≤x Ws(X
= y). Hat X
−∞
Die empirische Verteilungsfunktion Zu einem Datenvektor X = (x1 , . . . , xn ) ist
die empirische Verteilungsfunktion definiert als
Fn (X) =
1
|{xi |xi ≤ x}|.
n
X=(1,2,4,7,9)
100 normalverteilte ZVen
●
0.0
●
●
−2
0
0.8
#xi ≤ x
0.4
●
●
●
●
0.4
0.8
●
●
0.0
#xi ≤ x
●
2
4
6
8
10
12
0
x
2
4
6
8
x
Abbildung 4: Beispiel für empirische Verteilungsfunktionen
5
10
Die Quantilfunktion Die Verteilungsfunktion F ist i.a. nicht umkehrbar. Die Quantilfunktion F −1 ist die (verallgemeinerte) Umkehrfunktion der Verteilungsfunktion:
F −1 (p) := sup{q|F (q) < p}
F
−1
(0) := lim F
p→0
−1
p ∈ (0, 1]
(p) = inf{q|F (q) > 0}
Betrachte z.B. für die empirische Verteilungsfunktion F5 ((1, 2, 4, 7, 9)) aus Figur 4 das
50%-Quantil, also den Median: sup{q|F (q) < 0.5} = 4, der ‘mittlere’ Wert der der Größe
nach geordneten Daten.
Der Median Ein Median einer Verteilung ist eine Zahl m mit
Ws(X ≤ m) ≥ 0.5
und
Ws(X ≥ m) ≥ 0.5.
Mit dieser Definition ist der Median nicht notwendig eindeutig bestimmt.
Beispiel: X sei ZVe mit Werten in {1, 2}, mit Ws(X = 1) = 1/2, Ws(X = 2) = 1/2.
Dann ist jede Zahl im Intervall [1, 2] ein Median der Verteilung von X.
Schätzer für den Median / Stichprobenmedian Sei (X(1) , X(2) , . . . , X(n) ) mit
X(1) ≤ X(2) ≤ . . . ≤ X(n) die Ordnungsstatistik, d.h. die der Größe nach geordnete
Stichprobe. Dann wird der Median geschätzt durch
(
X(k+1)
für n = 2k + 1
m̂ =
1/2(X(k) + X(k+1) ) für n = 2k.
Ein allgemeingültiges Konfidenzintervall für den Median Im Gegensatz zum
Mittelwert kann man für den Median unabhängig von der zugrundeliegenden Verteilung
sogar für festes n ein Intervall I(X) angeben so, dass
Ws(I(X) 3 m)
möglichst groß (z.B. 0.95).
Wir verwenden dazu wieder die Ordnungsstatistik (X(1) , . . . , X(n) ) und beginnen mit
einem Beispiel:
Beispiel: Eine Stichprobe der Größe n = 11. Betrachte zunächst das Intervall I1 :=
[X(1) , X(n) ]. Es gilt:
Ws(m ∈
/ I1 ) = Ws(X(1) > m) + Ws(X(n) < m)
11
1
=2·
≈ 0.001.
2
6
Können wir dieses Intervall verkleinern so, dass Ws(m ∈
/ I) gerade noch kleiner ist als
0.05? Was ist mit I2 = [X(2) , X(n−1) ]?
Ws(m ∈
/ I2 ) = Ws(X(2) > m) + Ws(X(n−1) < m)
= Ws(höchstens ein Xi ist kleiner m) + Ws(höchstens ein Xi ist größer m)
" 11 #
11
1 11
11
1
=2
+
≈ 0.012
1
2
2
0
in R: = 2 ∗ pbinom(1, 11, 0.5)
Um ein möglichst kleines Konfidenzintervall zu finden so, dass Ws(m ∈ I) ≥ 0.95, suchen
wir eine Zahl ` so, dass 2pbinom(`, 11, 0.5) gerade noch kleiner ist als 0.05. Das geht
z.B. in R: mit der implementierten Quantilfunktion: ` = qbinom(0.05/2, 11, 0.5). Die
Wahrscheinlichkeit 0.05 nennt man das Niveau des Konfidenzintervalls. Allgemein also
für n und Niveau α
` = qbinom(α/2, n, 0.5).
Ähnliche Überlegungen erlauben die Konstruktion von Konfidenzintervallen für jedes
beliebige Quantil und jede zugrundeliegende Verteilung für festes n. (Übung)
1.1.3
Vergleich von Mittelwert und Median
Für symmetrische Verteilungen fallen Erwartungswert und Median zusammen. Was sollte man also nehmen, um die Lage zu schätzen? Mittelwert oder Median?
Nach dem ZGWS ist der Stichprobenmittelwert asymptotisch normalverteilt mit Varianz
σ 2 /n. Für den Median gibt es eine ähnliche Aussage:
Asymptotische Normalität des Medians Seien X1 , . . . , Xn u.i.v. mit einer differenzierbaren Verteilungsfunktion F . Sei m der Median der Verteilung, und es gelte
F 0 (m) > 0 (in diesem Fall ist der Median eindeutig).Sei Mn der Stichprobenmedian.
Dann gilt
√
n(Mn − m) −→ N (0, (2F 0 (m))−2 ) in Verteilung.
Das heißt, der Stichprobenmedian ist approximativ normalverteilt, und die approximative Varianz ist umso kleiner, je größer der Wert der Dichte am Median ist.
Beweis: Es ist zu zeigen, dass
√
Ws( n(Mn − m) ≤ a) −→ Ws(Z ≥ −2aF 0 (m)) für n → ∞,
für eine Standardnormalverteilte Zufallsvariable Z. Wir definieren dazu Indikatorvariablen
(
√
1 falls Xi ≤ m + a/ n
Yi :=
0 sonst
Damit gilt
√
Ws(Yi = 1) = F (m + a/ n) =: pn .
7
P
√
Wir können Ws(Mn ≤ m + a n) nun zurückführen auf die binomialverteilte ZVe
Yi ,
die approximativ normalverteilt ist:
X
√ n ungerade
n+1
Ws(Mn ≤ m + a n)
=
Ws
Yi ≥
2
!
P
Yi − npn
(n + 1)/2 − npn
= Ws p
≥ p
npn (1 − pn )
npn (1 − pn )
P
Nach dem ZGWS konvergiert √
Yi −npn
npn (1−pn )
gegen eine standardnormalverteilte ZVe. Bei
Grenzwertbetrachtung des rechten Terms erhalten wir
(n + 1)/2 − npn
−n(pn − 1/2)
1/2
p
=p
+p
npn (1 − pn )
npn (1 − pn )
npn (1 − pn )
1
−(pn − 1/2)
1/2
√
=p
+p
1/ n
pn (1 − pn )
npn (1 − pn )
√
1
−(F (m + a/ n) − F (m))
1/2
√
=p
+p
1/ n
pn (1 − pn )
npn (1 − pn )
√
F (m + a/ n) − F (m)
−a
1/2
√
=p
+p
a/ n
pn (1 − pn )
npn (1 − pn )
{z
} |
|
{z
}|
{z
}
→F 0 (m)
→−2a
n→∞
→0
0
−→ −2aF (m)
Damit erhalten wir wie gewünscht
√
Ws( n(Mn − m) ≤ a) −→ Ws(Z ≥ −2aF 0 (m))
Wegen Ws(Z ≥ −2aF 0 (m)) = Ws(Z/2F 0 (m) ≤ a) konvergiert daher Mn gegen eine
normalverteilte ZVe mit Varianz 1/(2F 0 (m))2 .
Lageparameter Mittelwert und Median heißen Lageparameter, weil sie bei einer Verschiebung der Verteilung um θ ebenfalls um θ verschoben werden:
Seien µ der Mittelwert und m der Median der Verteilung ν mit Dichte f0 (x) und Verteilungsfunktion F0 (x), so ist µ + θ der Mittelwert und m + θ der Median der Verteilung
νθ mit Dichte fθ (x) = f0 (x − θ) und Verteilungsfunktion Fθ (x) := F0 (x − θ). Parameter
mit dieser Eigenschaft heißen Lageparameter einer Verteilung.
Skalenparameter beschreiben die Breite einer Verteilung. Ein Parameter θ heißt Skalenparameter einer Verteilung ν, wenn gilt:
Hat X die Verteilung ν(0,1) mit Dichte f(0,1) (x) und Verteilungsfunktion F(0,1) (x), so
hat Y := θX die Verteilung ν(0,θ) mit Verteilungsfunktion F(0,θ) (x) := F(0,1) (x/θ) und
Dichte f(0,θ) (x) = 1/θf(0,1) (x/θ).
p
Beispiel: Die Standardabweichung σ = E(X − µ)2 ist ein Skalenparameter, denn hat
X Standardabweichung σ, so hat Y := cX Standardabweichung cσ.
8
1.2
Graphische Darstellungen für Verteilungen
Wir wollen kurz ein paar verbreitete Darstellungsformen für Daten und ihre Implementierung in R kennen lernen (vgl. Fig. 5).
1.2.1
Das Histogramm
Ein Histogramm liefert eine umfangreiche Darstellung einer Häufigkeitsverteilung: Wie
viele Beobachtungen fallen in welches Intervall?
1.2.2
Der Box-and-Whisker-plot (oder kurz: Boxplot)
Einen Zahlenvektor x1 , . . . , xn kann man kurz in fünf Zahlen beschreiben: Minimum,
25%-Quantil (Q1, das erste Quartil), 50%-Quantil (Median), 75%-Quantil (Q3, das
dritte Quartil), und Maximum. Ein Boxplot liefert eine graphische Darstellung einer
ähnliche Kurzübersicht: 25%-und 75%-Quantil bilden die Ränder einer Box um den Median. Hier liegen also die mittleren 50% der Beobachtungen. Der Interquartilabstand
Q3-Q1 ist neben der Standardabweichung eine gängige Art, die Breite einer Verteilung
zu beschreiben.
Die Whisker (‘Barthaare’) können bis zu den Extremwerten reichen. Aber in der Regel
beträgt ihre Länge das 1.5-Fache des Interquartilabstands Q3-Q1, wobei sie nur bis zur
extremsten Beobachtung innerhalb dieses Bereiches reichen. Werte außerhalb werden
durch Punkte dargestellt.
Tabelle 1: Histogramme in R
Gegeben sei ein Datenvektor
Histogrammbefehl:
nützliche Optionen
Intervalle:
x<-c(4,2,5.5,0.7,...)
hist(x)
hist(x,breaks=12) produziert 12 Balken
hist(x,breaks=seq(min(x),max(x),by=0.1)) Balken der Breite 0.1
Normiert die Fläche auf 1:
speichere Ausgabe
weitere Informationen mit
hist(x,freq=FALSE)
h<-hist(x,plot=FALSE)
?hist
Auch für andere DarstellunTitel
Achsenbeschriftung
dargestellter Bereich
Farbe:
gen gültige Optionen:
hist(x,main=‘‘Histogramm des Datenvektors x’’)
hist(x,xlab=‘‘Größe’’, ylab=’’Anzahl’’)
hist(x,xlim=c(0,3), ylim=...)
hist(x,col=’’yellow’’) (Alle Farbnamen: colors())
9
Tabelle 2: Boxplots und stripcharts in R
Für einen Datenvektor
einfach
x<-c(4,2,5.5,0.7,...)
boxplot(x)
für zwei Boxplots nebeneinander:
Ein Datenvektor
Ein Vektor, der die Gruppen definiert
und dann einfach
x<-c(4,2,5.5,0.7,...)
Gruppe<-c(0,0,0,...,1,1,1,...)
boxplot(x∼ Gruppe)
ganz analog für stripchart:
nützliche Optionen für stripchart:
‘rüttle’ die Datenpunkte ein wenig:
Beschriftung der Gruppen
stripchart(x∼ Gruppe)
stripchart(x∼ Gruppe,method=’jitter’)
...,group.names=c(’Gr. 1’,’Gr. 2’))
Tabelle 3: Graphikparameter in R
par(...)
cex.axis
cex.lab
cex.main
mfcol=c(2,3)
?par
setzt Graphikparameter
Größe von Achsentiteln
Größe von Achsenbeschriftungen
Größe der Überschrift
Grafikfenster mit 2 Zeilen, 3 Spalten
weitere nützliche Parameter
10
Gruppe 2
●
●
●
●
●
●●
●
●
●
●
● ●
● ●
●
●
●
●
●
● ●
●
●
●● ● ● ●
●●●● ●● ●
●
●
● ● ●● ●
●
●
● ●
●
●
●
● ● ●
● ●
●●
●●
●
●
● ● ● ●●
●
●●
●
●
●
● ●
●
●
●
●●
●
● ●
●
●
● ● ●● ●
●●
●
●
●
●
2
60
0
−2
Gruppe 1
20
0
40
Anzahl
●●
●
●
4
6
80
1000 std.normalverteilte ZVen
●
●●
●
●●
●
● ● ●●●●
●
●
● ● ●●
●
●●●●
●●●
● ● ●●
● ●● ●
●●
●● ●
●● ●●
● ●
●
●●●● ● ●
●
●●
●
● ●
●● ● ●
● ●●
●●
●● ●
● ●●
●
●
●
●
●
●
● ●
●
●
● ●
● ●●
●
●●●●
●●
●
●
●
●
−3
−2
−1
0
1
2
3
Gruppe 1
Gruppe 2
−2
0
2
4
6
x
Abbildung 5: Beispiele für Histogramm, Boxplot und Stripchart
# Graphikparameter
par(mfrow=c(1,3),cex.lab=1.7,cex.axis=1.4,cex.main=1.8,font.main=1,mar=c(4,4.8,3,1))
# Graphik 1
hist(rnorm(1000),col=’yellow’,breaks=30,xlab=’x’,ylab=’Anzahl’,main=’1000
std.normalverteilte ZVen’)
# Datenerzeugung für Graphiken 2 und 3
x<-rep(c(’Gruppe 1’,’Gruppe 2’),each=100)
y<-c(rnorm(100),rnorm(100,mean=2,sd=2))
# Graphik 2
boxplot(y∼x,col=’red’)
# Graphik 3
stripchart(y x,col=’blue’,pch=19,method=’jitter’)
11
1.2.3
Quantilplots
Wie ist die Form einer empirischen Verteilung? Vielleicht ungefähr wie eine Normalverteilung (mit entsprechendem Mittelwert und Varianz)? Oder hat sie z.B. schwerere
Schwänze, ist sie etwa schief, oder hat sie Löcher?
qqnorm Um eine empirische Verteilung mit einer Normalverteilung zu vergleichen,
könnte man entweder eine Normalverteilung anpassen (d.h. Mittelwert und Varianz
schätzen) und als Kurve über ein Histogramm der empirischen Häufigkeitsverteilung legen. Oder man verwendet einen Normalplot: Man identifiziert die Zahlen x1 , . . . , xn mit
ihren Quantilen (statt der oben definierten empirischen Quantile 1/n, 2/n, . . . , 1 werden
in R die Zwischenschritte ausgewertet: 1/(2n), 3/(2n), . . . , (2n − 1)/(2n)) und trägt die
entsprechenden Quantile der Normalverteilung gegen die Beobachtungen auf (Figur 6,
unten links).
qqplot Dasselbe kann man machen, um zwei empirische Verteilungen zu vergleichen:
Man identifiziert die Beobachtungen mit ihren Quantilen und trägt sie gegeneinander
auf. Für zwei Datensätze x1 , . . . , xn und y1 , . . . , yn mit demselben Stichprobenumfang
trägt man jeweils die i-t-kleinsten Beobachtungen x(i) , y(i) gegeneinander auf (Figur 6,
unten rechts).
Verteilungsfunktion
0.0
0.5
1.0
Dichte
0
2
−2
0
5
10
2.0
●
1.0
●
●
0.0
●
●
●
●
●
●
●
●
●
● ●
●
●
●
0.0
Beobachtungen: N(5,4)
0.5
1.0
1.5
2.0
St.probe aus Exp(1)
Abbildung 6: Quantilplots: Erstellung und Interpretation
12
●
●
●
−1.0
2
0
0
2
qqplot
St.probe aus N(0,1)
qqnorm
−2
Quantile d. Normalverteilung
−2
2.5
3.0
2
2.1
Erste statistische Tests
Ein Permutationstest
Hat das Hören von (mütterlich klingenden) Herztönen einen Effekt auf die Gewichtszunahme von Neugeborenen?
Wir betrachten eine Untersuchung von Lee Salk (The Role of the Heartbeat in the Relation between Mother and Infant, Scientific American, May 1973, p. 26-29). Aus einer
Zahl Neugeborener wurden zufällig einige ausgewählt, die in ihren ersten Lebenstagen
ohne Unterbrechung den Ton des Herzschlags eines Erwachsenen hören durften. Sonst
wurden alle Babies gleich behandelt. Beobachtet wurde die Gewichtszunahme vom ersten auf den vierten Lebenstag.
Hat die Behandlung (Hören der Herztöne) einen Effekt auf die Gewichtszunahme? Gibt
es einen signifikanten Unterschied in der Gewichtszunahme zwischen behandelten und
unbehandelten Babies? Oder könnten die beobachteten Unterschiede durch Zufall zustande gekommen sein, auch wenn die Behandlung keinen Effekt hat?
Wir haben aus m + n Individuen zufällig m gezogen und behandelt:
1 X
x1 , . . . , xm in der Behandlungsgruppe, mit x̄ =
xi ,
m
1X
y1 , . . . , yn in der Kontrollgruppe, mit ȳ =
yi .
n
Wir beobachten x̄ > ȳ. Wie groß muss der Unterschied sein, damit wir auch meinen,
das gilt ebenso für die Populationsparameter µx > µy ? Wir betrachten die Nullhypothese µx = µy , dass die Behandlung keinen Effekt hat. Unter der Nullhypothese sind
die x1 , . . . , xm einfach eine zufällige Stichprobe aus den Geburtsgewichtszunahmen der
m + n Babies, denn dann hätte die Aufteilung der m + n Zahlen in die beiden Gruppen
genauso gut anders ausfallen können. Also können wir x̄ vergleichen mit dem Wert einer
zufällig aus den m + n Zahlen gezogenen (also einer durch Permutation gewonnenen)
Stichprobe:
Ziehe rein zufällig (ohne Zurücklegen) Z1 , .P
. . , Zm aus
der Liste x1 , . . . , xm , y1 , . . . , yn
1
und berechne die Wahrscheinlichkeit Ws m
Zi ≥ x̄ .
Einfacher: Approximiere diese Wahrscheinlichkeit durch Simulation:Ziehe
(z.B.) 10000
1 P
Z
mal Z1 , . . . , Zm und notiere die relative
Häufigkeit
für
das
Ereignis
i ≥ x̄ .
m
1 P
Falls in weniger als 5% der Fälle m Zi ≥ x̄, so kann man sagen: Die Unterschiede
zwischen den Gruppen waren auf dem 5%-Niveau signifikant. Bedeutung: Wenn es keinen Behandlungseffekt gäbe, beobachten wir solche Unterschiede in weniger als 5% der
Versuche durch Zufall.
2.2
Der Rangsummentest von Wilcoxon / Der Mann-Whitney-U-Test
Der Permutationstest ist für viele Fragestellungen
einsetzbar, erfordert nur die Wahl
P
einer adäquaten Teststatistik (hier: 1/m Zi ) und die Simulation mit dem Rechner.
Der Test macht keine Annahmen über die zugrundeliegenden Verteilungen
P und ist daher allgemein verwendbar. Da aber die Verteilung der Testsatistik 1/m Zi auch von
den beobachteten Werten x1 , . . . , xm , y1 , . . . , yn abhängt, ist sie nur durch Simulation zu
ermitteln.
13
Will man diese Abhängigkeit von den Werten loswerden, kann man z.B. die Rangsummenstatistik von Wilcoxon verwenden. Idee: Statt der Werte werden ihre Ränge verwendet:
Beispiel 1: Wenn alle Werte unterschiedlich sind
Beobachtung x 2 0 2.9 2.5 5
Rang von x
2 1
4
3 5
Beispiel 2: Bei Rangbindungen (engl.: ties)
Beobachtung x
2 0 2.9
2 5
Rang von x
2.5 1
4 2.5 5
Vergleicht man (wie im Beispiel der geherzten Babies) die Beobachtungen aus zwei
Gruppen, so werden die Ränge über alle Beobachtungen gebildet. Beispiel:
Gruppe
1 1
1
2
1
2
1 2
2
2
Beobachtung x −2 0 0.5 0.7 1.3 1.8 2.8 4 4.2 4.3
Rang von x
1 2
3
4
5
6
7 8
9 10
Rangsumme in Gruppe 1: 18, Rangsumme in Gruppe 2: 10(10+1)
− 18.
2
Um die Rangsummen bewerten zu können, müssen wir wissen, wie sie unter der Nullhypothese des rein zufälligen Ziehens von m Zahlen Z1 , . . . , Zm aus den n + m Zahlen
x1 , . . . , xm , y1 , . . . , yn verteilt wären. In dem Fall ist
d
(Rang(Z1 ), . . . , Rang(Zm )) = (R1 , . . . , Rm ),
wobei Ri rein zufällige Züge aus {1, . . . , m + n} ohne Zurücklegen sind. Die Rangsumme
bezeichnen wir mit
m
X
S :=
Ri .
i=1
Wir betrachten im Folgenden den Fall ohne Rangbindungen, in dem alle n + m Werte
verschieden sind.
Bemerkung 1
Unter der Nullhypothese rein zufälligen Ziehens ist
ES =
m(m + n + 1)
,
2
denn
ERi =
m+n
X
k=1
k·
1
(m + n)(m + n + 1)
1
m+n+1
=
·
=
,
m+n
2
m+n
2
ES = m · ER1 =
m(m + n + 1)
.
2
14
Bemerkung 2
Unter der Nullhypothese ist
Var(S) =
mn(m + n + 1)
.
12
Beweis:
Wir betrachten wieder den Fall, in dem alle n + m Werte verschieden sind, und können
uns daher auf eine angenehmere Darstellung von S zurückziehen:
Seien U1 , . . . ,P
Um , V1 , . . . , Vn unabhängig und gleichverteilt auf [0, 1]. Die
P Rangsumme
der Ui , S̃ =
Rang(Ui ), ist dann verteilt wie die Rangsumme S =
Ri von oben.
Es reicht also, die Behauptung für S̃ zu zeigen. Der Rang eines Wertes Ui setzt sich
zusammen aus der Anzahl der Uj , die kleiner oder gleich Ui sind, und der Anzahl der
Vj , die kleiner Ui sind:
Rang(Ui ) =
m
X
I{Uk ≤Ui } +
k=1
=⇒
S̃ =
m
X
Rang(Ui ) =
i=1
m(m + 1)
+
2
n
X
I{Vj <Ui }
j=1
m X
n
X
I{Vj <Ui } .
i=1 j=1
Damit ist

Var(S̃) = Var 
m X
n
X

I{Vj <Ui } 
i=1 j=1
=
X
Var I{Vj <Ui } +
(i,j)
+
m X
X
Cov I{Vj1 <Ui1 } , I{Vj2 <Ui2 }
X
(i1 , j1 ), (i2 , j2 )
i1 6= i2 , j1 6= j2
n X
X
Cov I{Vj1 <Ui } , I{Vj2 <Ui } +
Cov I{Vj <Ui1 } , I{Vj <Ui2 }
i=1 (j1 ,j2 )
j=1 (i1 ,i2 )
Der zweite Summand ist Null, weil für i1 6= i2 und j1 6= j2 die Ereignisse {Vj1 < Ui1 }
und {Vj2 < Ui2 } unabhängig sind. Für den dritten und vierten Summanden gilt
h
i 1
Cov I{Vj1 <Ui } , I{Vj2 <Ui } = E I{Vj1 <Ui } · I{Vj2 <Ui } −
4
1 1
1
1
= Ws({Vj1 < Ui } ∩ {Vj2 < Ui }) − = − =
4
3 4
12
Damit ist
Var(S̃) =
nm mn(n − 1) mn(m − 1)
mn(m + n + 1)
+
+
=
.
4
12
12
12
Die Rangsummenstatistik S ist eine Summe von ZVen, von denen für große m, n die
überwiegende Anzahl unabhängig sind (für die meisten Paare (i1 , j1 ), (i2 , j2 ) gilt i1 6= i2
und j1 6= j2 und damit sind {Vj1 < Ui1 } und {Vj2 < Ui2 } unabhängig). Dies macht das
folgende Resultat einleuchtend (das aber hier nicht bewiesen wird):
15
Satz (Hoeffding):
Für m, n → ∞ gilt:
Sn,m − ESn,m
p
→ N (0, 1)
Var(Sn,m )
in Verteilung.
Der Rangsummentest von Wilcoxon in R Zum Vergleich von zwei Vektoren x
und y verwendet man den Befehl wilcox.test(x,y). R berechnet die Mann-WhitneyStatistik
m X
n
X
U=
I{Vj <Ui } ,
i=1 j=1
m(m+1)
2
+ U äquivalent ist zur Rangsummenstatistik S. Ohne weitere
die wegen S =
Spezifikation wird für m + n ≤ 50 die exakte Verteilung von U ermittelt und damit
der exakte p-Wert. Für m + n > 50 wird die Normalapproximation verwendet (es sei
denn, man spezifiziert wilcox.test(x,y,exact=TRUE). Für diesen Fall findet man in
der Hilfe (?wilcox.test) eine Warnung: This function can use large amounts of memory
and stack (and even crash R if the stack limit is exceeded) if exact = TRUE and one
sample is large.)
Achtung Der Wilcoxon-Test testet die Nullhypothese, dass beide Verteilungen gleich
sind, gegen die Alternative, dass die eine gegenüber der anderen verschoben ist. Er
ist nicht sensitiv für andere Arten von Alternativen (z.B. wenn sich die Streuungen
unterscheiden, nicht aber die Mittelwerte).
Die verbreitetste Fragestellung vergleicht die Erwartungswerte zweier Verteilungen.
Sie ist am leichtesten mit Hilfe eines z-Tests zu behandeln, sofern die Standardabweichung bekannt ist:
2.3
Der z-Test
Aus dem asymptotischen Konfidenzintervall für den Mittelwert, das wir in Abschnitt
1.1.1 kennengelernt haben, können wir leicht einen ersten statistischen Test konstruieren.
Ein Beispiel Wir möchten untersuchen, ob sich das Geburtsgewicht von Babies in
einer bestimmten Region Deutschlands von dem Geburtsgewicht im gesamten Bundesgebiet unterscheidet. Angenommen, wir wüssten (z.B. vom statistischen Bundesamt),
dass das mittlere Geburtsgewicht in Deutschland µ = 3.3 kg beträgt und eine Standardabweichung von σ = 0.5 kg hat. Um zu untersuchen, ob sich das Geburtsgewicht
in der ausgewählten Region davon unterscheidet, beobachten wir eine Stichprobe von
n = 50 Babies, die dort geboren wurden. Ihr mittleres Geburtsgewicht beträgt x̄ = 3.5
kg. Wie stark weicht x̄ von µ ab? Spricht diese Abweichung dafür, dass das mittlere
Geburtsgewicht µR in dieser Region tatsächlich höher ist, oder haben wir es mit einer
zufälligen Schwankung zu tun?
Nach dem ZGWS bewerten wir Abweichungen des Mittelwertes in Einheiten des Stan√
dardfehlers, σ/ n, unsere Teststatistik ist also
x̄ − µ z = √ .
σ/ n
16
Falls das Geburtsgewicht in der betreffenden Region sich von der übrigen Population
nicht unterscheidet (also unter der Nullhypothese µR = µ), ist z nach dem ZGWS
approximativ standardnormalverteilt. Auf dieser Basis beurteilen wir, wie wahrscheinlich
das beobachtete Ereignis unter der Hypothese µR = µ ist.
In unserem Beispiel ist z = 2.83. Für eine N (0, 1)-verteilte ZVe Z ist aber
Ws(|Z| > 2.83) < 0.005.
Unter der Hypothese µR = µ haben wir also ein sehr unwahrscheinliches Ereignis beobachtet. Man sagt auch: Die Daten sprechen (auf dem 0.5%-Niveau) gegen die Hypothese
µR = µ.
2.4
p-Wert, Signifikanz, Testmacht und Alternativhypothese
Der p-Wert bezeichnet die Wahrscheinlichkeit, ein mindestens so extremes Ereignis
zu beobachten, wenn (d.h. obwohl ) die Nullhypothese zutrifft. Im Beispiel von eben also
p = 0.005. Man spricht üblicherweise von statistischer Signifikanz, wenn p < 0.05 (gerne
auch durch * markiert), hochsignifikant bedeutet oft p < 0.01 (**) oder p < 0.001 (***).
Nicht signifikant (‘n.s.’) heißt entsprechend: p ≥ 0.05.
Wie ist ein nicht signifikantes Ergebnis zu interpretieren? Wie sehr spricht es für die
Nullhypothese und gegen die Alternative? Das hängt von der gewählten Alternativhypothese ab.
Beispiel
ν1 , mit
X1 , . . . , Xn sind unabhängig identisch verteilt, entweder gemäß ν0 oder gemäß
H0 :
Xi ∼ N (0, 1) =: ν0
∀i
H1 :
Xi ∼ N (1, 1) =: ν1
∀i.
Falls H0 zutrifft, möchten wir sie in höchstens 5% der Fälle fälschlicherweise ablehnen
(mit einem Signifikanzniveau von 5%. Die Nullhypothese fälschlicherweise abzulehnen
(‘false positive’) bezeichnet man auch als Fehler erster Art). Damit dürfen wir H0 nur
ablehnen, wenn
X̄
X̄
Z = √ = √ > 1.64.
σ/ n
1/ n
Wir testen hier ‘einseitig’, denn nur große (positive) Werte von Z sprechen für H1 und
gegen H0 . Es gilt:
WsH0 (Z > 1.64) = 0.05.
Was passiert aber, wenn H1 zutrifft? Mit welcher Wahrscheinlichkeit lehnen wir dann
H0 ab? Diese Wahrscheinlichkeit heißt die Macht eines Tests (testpower ):
√
X̄
X̄ − 1
√ > 1.64 = Ws
√ > 1.64 − n
WsH1
1/ n
1/ n
√
= (1 − Φ(1.64 − n)),
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist.
Für n = 4 ist WsH1 (|Z| > 1.64) ≈ 0.63, für n = 10 etwa 0.87, für n = 20 etwa 0.99.
17
Die Macht des z-Tests hängt ab von µ, σ, n und vom gewählten Signifikanzniveau α
(Übung). Die Wahrscheinlichkeit, H0 fälschlicherweise nicht abzulehnen (‘false negative’,
1-testpower ), bezeichnet man auch als Fehler zweiter Art. Insgesamt:
H0 trifft zu
H1 trifft zu
3
Entscheidung für
H0
mit W’keit
1−α
β (Fehler 2. Art)
Entscheidung für
H1
mit W’keit
α (Fehler 1. Art)
1−β
Der t-Test
Die z-Statistik hat den Vorteil, dass sie wegen des ZGWS für alle Verteilungen von X
(mit endlichem zweiten Moment) approximativ standardnormalverteilt ist. Aber der zTest hat auch eine große Schwäche: Er setzt voraus, dass σ bekannt ist. Dies ist aber im
allgemeinen nicht der Fall; σ muss aus den Daten geschätzt werden.
3.1
Zur Geometrie von Strichprobenmittelwert und -varianz
3.1.1
Schätzer für σ
Wegen
2
σX
= E (X − µ)2
2 an, falls µ bekannt ist
bietet sich folgender Schätzer für σX
2
σ̂X
=
1X
(Xi − µ)2
n
2
(ist wg. E(X1 − µ)2 = σX
erwartungstreu).
i
Aber µ ist selten
und muss aus den Daten geschätzt werden: µ̂ = X̄. Da aber
P bekannt
2
X̄ den Term (Xi − c) minimiert, ist
1X
1X
(Xi − X̄)2 ≤
(Xi − µ)2 .
n
n
Man kann zeigen, dass stattdessen
n
1 X
s =
(Xi − X̄)2
n−1
2
(2)
i=1
ein erwartungstreuer Schätzer für σ 2 ist.
3.1.2
Geometrie des Mittelwertes
Wir fassen n Beobachtungen x1 , . . . , xn ∈ R auf als einen Datenvektor X = (x1 , . . . , xn ) ∈
Rn . Sei D die ‘Hauptdiagonale’ in Rn , also
D := {c1|c ∈ R},
wobei 1 := (1, . . . , 1)T .
18
Dann ist x̄1 die orthogonale Projektion des Datenvektors X auf die Hauptdiagonale.
Wir schreiben dafür
x̄1 = PD X.
Denn das Skalarprodukt
< 1, X − c1 >= 0
für
X
xi − nc = 0,
also: c = x̄.
Da durch die orthogonale Projektion c so bestimmt P
wird, dass die Länge der Strecke
X − c1 minimal wird, bedeutet das gleichzeitig, dass (xi − c)2 = ||X − c1||2 minimal
ist für c = x̄. Anschaulich gesprochen zerlegen wir X in einen konstanten Anteil x̄1 und
ein Residuum R := X − x̄1:
  

1
x1 − x̄
  

..
X = x̄  ...  + 
 = x̄1 + R,
.
xn − x̄
1
wobei sowohl x̄1 als auch R als orthogonale Projektionen aufgefasst werden können:
x̄1 = PD X,
3.1.3
und
R = PD⊥ X.
Geometrie der geschätzten Standardabweichung
Will man den Vektor X ‘am besten’ (im Sinne des kleinsten euklidischen Abstandes)
durch eine Zahl beschreiben, so wählt man den Mittelwert x̄. Aber wie gut kann man X
durch x̄ beschreiben? Wie weit ist X von der Hauptdiagonale D entfernt?
qX
√
||R|| =
(xi − x̄)2 = n − 1 · s.
Je kürzer das Residuum R, desto näher ist X an D, desto weniger weichen die Beobachtungen von ihrem Mittelwert ab.
3.2
Die t-Statistik
Ersetzt man in der z-Statistik σ durch s, so ist die resultierende Größe (zumindest für
kleine n) nicht mehr normalverteilt. Aber falls X1 , . . . , Xn unabhängig und N (µ, σ 2 )verteilt sind, hat sie eine bekannte Verteilung: die t-Verteilung mit n−1 Freiheitsgraden.
Satz: (William Gosset, alias ‘Student’, ∼ 1907)
Seien X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt. Dann hängt die Verteilung von
T :=
X̄ − µ
√
s/ n
nur von n ab (und z.B. nicht von σ). Genauer: T ist student-verteilt (t-verteilt) mit
(n − 1) Freiheitsgraden (Beweis folgt).
19
3.2.1
Die t-Verteilung und ihre Verwandten
Die t-Verteilung ist glockenförmig und (in aller Regel) um 0 zentriert. Sie gleicht der
Standardnormalverteilung und geht für n → ∞ in sie über. Für kleine n hat sie jedoch
breitere Schwänze (vgl. Figur 7, links): Eine t-verteilte ZVe T nimmt mit höherer Wahrscheinlichkeit extremere Werte an als eine normalverteilte ZVe Z. Die t-Statistik streut
stärker als die z-Statistik, weil auch im Nenner eine Zufallsgröße steht. Das Gewicht
außerhalb des Intervalls [−1.96, 1.96] ist größer als 5%. Die neuen Schranken kann man
in R mit der Funktion qt(0.025,df) berechnen (typische Werte siehe Tabelle 4).
χ2−Verteilung
df = 1
df = 2
df = 4
df = 6
0.0
df = 2
df = 8
0.4
Dichte
0.8
0.0 0.1 0.2 0.3 0.4
Dichte
Normal− und t−Verteilung
−4
−2
0
2
4
0
1
2
3
4
5
6
7
Abbildung 7: Die t- und die χ2 -Verteilung
df
tkrit
2
4.30
5
2.57
10
2.23
15
2.13
30
2.04
∞
1.96
Tabelle 4: Kritische Werte der t-Verteilung für Ws(|T | > tkrit ) = 0.05.
Die Dichte der t-Verteilung mit n Freiheitsgraden ist
n+1
Γ((n + 1)/2)
x2 2
ftn (x) = √
1+
, x∈R
n
nπΓ(n/2)
(vgl. Figur 7).
Eine t-verteilte ZVe kann beschrieben werden als Quotient von unabhängigen
ZVen:
Z
2
Sei T t(n)-verteilt, Z ∼ N (0, 1) und X ∼ χ (n), so ist L(T ) = L √
.
X/n
Die χ2 -Verteilung Eine ZVe X ist χ2 -verteilt mit n Freiheitsgraden, wenn
L(X) = L Z12 + Z22 + · · · + Zn2 ,
mit Z1 , . . . , Zn unabhängig und N (0, 1)-verteilt.
Die Dichte der χ2 -Verteilung mit n Freiheitsgraden ist
1 1 x n2 −1 − x
fχ2 (n) (x) =
e 2,
x>0
Γ(n/2) 2 2
20
(vgl. Figur 7).
Mit EZi2 = 1 und Var(Zi ) = 2 sieht man: Ist X ∼ χ2 (n), so ist E(X) = n und
Var(X) = 2n. (Und am Rande sei bemerkt: An der Dichte sieht man sofort, dass die
χ2 (2)-Verteilung der Exp(1/2)-Verteilung entspricht.)
Um zu zeigen, dass die T -Statistik t-verteilt ist, brauchen wir noch einige Vorüberlegungen, die uns auch später von Nutzen sein werden. Wir stellen dazu zunächst T auf
andere Weise dar: Von X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt gehen wir über zu
Xi − µ
σ
Zi :=
Dann ist
X̄ − µ
√ =
T =
s/ n
Da Zi ∼ N (0, 1), ist auch
1.
√
unabhängig und N (0, 1)-verteilt.
X̄−µ
√
σ/ n
s
σ
√
nZ̄
=q
=
s/σ
√
nZ̄
.
P
1
2
(Z
−
Z̄)
i
n−1
nZ̄ ∼ N (0, 1). Es genügt also zu zeigen:
n
X
(Zi − Z̄)2 ∼ χ2 (n − 1)
i=1
2.
√
nZ̄ und
n
X
(Zi − Z̄)2 sind unabhängig.
i=1
3.3
Die Standardnormalverteilung auf Rn und der Satz von Fisher
Definition Z = (Z1 , . . . , Zn ) heißt standardnormalverteilt auf Rn ⇐⇒
Z1 , . . . , Zn
unabhängig und standardnormalverteilt in R. Damit ist die Wahrscheinlichkeitsdichte
von Z gegeben durch
P 2
n
Y
x
||x||2
1 − x2i
1
1
− 2i
− 2
2
√ e
ϕn (x) =
=
=
,
e
e
(2n)n/2
(2n)n/2
2π
i=1
x = (x1 , . . . , xn ).
Insbesondere ist ϕn rotationssymmetrisch, weil es nur von der Länge ||x|| des Vektors x
abhängt.
Der Satz von Fisher Z sei standardnormalverteilt in Rn , H sei k-dimensionaler
Teilraum von Rn . Dann gilt:
1. ||PH Z||2 ∼ χ2 (k)
2. PH Z und PH⊥ Z sind unabhängig.
Zum Beweis brauchen wir ein
Lemma (über die orthogonale Invarianz der Standardnormalverteilung)
Z sei standardnormalverteilt in Rn . Dann gilt:
1. Für M orthogonale n × n-Matrix (d.h. M · M T = I) ist
Y := M · Z
wieder standardnormalverteilt.
21
2. Zu jeder ONB von Rn sind die Koordinaten von Z wieder standardnormalverteilt.
Bew. 1.:
Die Dichte von Y = M Z ist
g(y) =
1
ϕn (M −1 y),
|detM |
y ∈ Rn ,
denn
Ws(M (z) ∈ B) = Ws(z ∈ M
−1
Z
(B)) =
ϕn (z)dz
M −1 (B)
z=M −1 (y)
Z
=
ϕn (M −1 (y))
1
dy.
|detM |
B
Nun gilt aber
|detM | = 1
und
||M −1 (y)||2 = y T (M −1 )T M −1 y = ||y||2 ,
und damit g(y) = ϕn (y).
Bew. 2.:
Sei e1 , . . . , en ONB von Rn und M := (e1 , . . . , en )T . Dann sind die Koordinaten von Z
in der neuen ONB gegeben durch Y = M Z und damit nach 1. standardnormalverteilt.
Beweis des Satzes von Fisher
Wir wählen eine ONB (e1 , . . . , ek ) von H und ergänzen sie zu einer ONB B := (e1 , . . . , en )
von Rn . Die Koordinaten von Z in B seien W1 , . . . , Wk , Wk+1 , . . . , Wn . Sie sind nach dem
vorausgegangenen Lemma wieder unabhängig und standardnormalverteilt. Mit




W1 e1
0
 .. 


..
 . 


.




 Wk ek 


0




PH Z = 
und
PH ⊥ Z = 


0
W
e
k+1
k+1




 .. 


..
 . 


.
0
Wn en
sind PH Z und PH ⊥ Z unabhängig, und ||PH Z||2 =
Pk
2
i=1 Wi
∼ χ2 (k).
Beweis, dass T ∼ t(n − 1) :
Erinnerung: Wir hatten T folgendermaßen umgeschrieben:
√
nZ̄
X̄ − µ
√ =q
T =
,
P
s/ n
1
2
(Z
−
Z̄)
i
n−1
22
mit Zi ∼ N (0, 1). Damit war
1.
n
X
√
nZ̄ ∼ N (0, 1), und es war zu zeigen:
(Zi − Z̄)2 ∼ χ2 (n − 1)
i=1
2.
√
nZ̄ und
n
X
(Zi − Z̄)2 sind unabhängig.
i=1
Da Z̄ := Z̄1 Projektion von Z auf die Hauptdiagonale D ist und R := Z − Z̄ Projektion
von Z auf das orthogonale Komplement D⊥ , folgt die Behauptung.
Man bemerke: Die Verteilung von T hängt damit nur von n ab (und nicht etwa von µ
und σ 2 )! Das ist ein Glücksfall, denn n ist der Stichprobenumfang und damit immer
bekannt.
3.4
Anwendung: Eine Stichprobe
Wir wissen jetzt: Für X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt, mit unbekanntem
√
µ und 0 < σ 2 < ∞, ist die t-Statistik T = n(X̄ − µ)/s nach t(n − 1)-verteilt. Was
nützt diese Information in der Praxis?
1. Student-Konfidenzintervall Man kann (auch für kleine n) ein exaktes Konfidenzintervall I1−α (X) für µ zum Niveau (1 − α) angeben. Wir schreiben für das p-Quantil
−1
der t(n − 1)-Verteilung kurz qtn−1 (p) := Ft(n−1)
(p). Wegen
Wsµ [T ∈ [qtn−1 (α/2), qtn−1 (1 − α/2)]] = 1 − α
s
s
= Wsµ µ ∈ X̄ − √ qtn−1 (1 − α/2), X̄ + √ qtn−1 (1 − α/2)
n
n
ist
s
s
I1−α (X) := X̄ − √ qtn−1 (1 − α/2), X̄ + √ qtn−1 (1 − α/2)
n
n
ein Konfidenzintervall für µ zum Niveau (1 − α).
2. Der Student-Test
testet die Hypothese
Hθ :
µ = θ.
Unter Hθ ist die Teststatistik
√
Tθ (X) :=
n(X̄ − θ)
s
t(n − 1)-verteilt.
a) Klassischer t-Test mit Signifikanz α: Wegen
Wsθ [|Tθ (X)| ≥ qtn−1 (1 − α/2)] = α
23
lehne Hθ ab, falls |Tθ (X)| ≥ qtn−1 (1 − α/2). Dann wird Hθ fälschlicherweise abgelehnt
mit Wahrscheinlichkeit α.
b) Allgemein gilt
Wsθ [|Tθ (X)| ≥ |τ |] = 2 · (1 − Ft(n−1) (|τ |)).
Das heißt, nimmt |Tθ (X)| den Wert τ an, kann man Hθ ablehnen zum p-Wert 2 · (1 −
Ft(n−1) (|τ |)).
Bemerkung Bei einem Test der Hypothese Hθ : µ = θ wird Hθ genau dann (zum pWert α) abgelehnt, wenn θ nicht in dem unter 1. hergeleiteten (1 −α)-Konfidenzintervall
I1−α (X) für µ liegt.
3.5
Der zwei-Stichproben t-Test (für gleiche Varianzen)
X1 , . . . , Xm , Y1 , . . . , Yn seien unabhängig, mit X1 , . . . , Xm ∼ N (µ1 , σ 2 ), Y1 , . . . , Yn ∼
N (µ2 , σ 2 ), und µ1 , µ2 , σ 2 seien unbekannt. Wie testet man die Hypothese
H0 :
(µ1 − µ2 = 0)?
µ1 = µ2
Wir suchen eine geeignete Teststatistik (die nach Möglichkeit nicht von µ1 , µ2 , σ 2 abhängt).
Bemerke:
X̄ ∼ N (µ1 , σ 2 /m),
Ȳ ∼ N (µ2 , σ 2 /n)
1
1
X̄ − Ȳ ∼ N µ1 − µ2 , σ 2
+
m n
X̄ − Ȳ − (µ1 − µ2 )
q
N :=
∼ N (0, 1)
1
1
+
σ
m
n
Wir bauen daraus eine t-verteilte Statistik
N
T := p
W/d
,
mit W ∼ χ2 (d)-verteilt mit d = d(n, m) und N, W unabhängig. Wie geht das?
Aus dem Satz von Fisher wissen wir:
1 X
(Xi − X̄)2 ∼ χ2 (m − 1) und unabhängig von X̄
σ2
1 X
(Yi − Ȳ )2 ∼ χ2 (n − 1) und unabhängig von Ȳ .
σ2
Die Vektoren X = (X1 , . . . , Xm ) und Y = (Y1 , . . . , Yn ) sind sowieso unabhängig, und
damit ist
i
X
1 hX
W := 2
(Xi − X̄)2 +
(Yi − Ȳ )2 ∼ χ2 (n + m − 2)
σ
und unabhängig von X̄, Ȳ (und damit von N ). Also gilt
T := p
N
W/(n + m − 2)
24
∼ t(n + m − 2).
T lässt sich folgendermaßen darstellen:
T =q
1
m
+
1
n
q
X̄ − Ȳ − (µ1 − µ2 )
X̄ − Ȳ − (µ1 − µ2 )
=: q
,
P
P
1
1
1
2+
2)
(
(X
−
X̄)
(Y
−
Ȳ
)
+
s
i
i
n+m−2
m
n X,Y
mit
s2X,Y =
X
X
1
(Xi − X̄)2 +
(Yi − Ȳ )2 .
n+m−2
Konfidenzintervall für µ1 − µ2 Wie in der Situation einer Stichprobe ist ein (1 − α)Konfidenzintervall für µ1 − µ2 gegeben durch die Grenzen
r
1
1
X̄ − Ȳ ±
+ sX,Y qtm+n−2 (1 − α/2).
m n
Test der Hypothese Hθ : µ1 − µ2 = θ
Unter Hθ gilt
X̄ − Ȳ − θ
Tθ (X, Y) := q
∼ t(m + n − 2).
1
1
+
s
m
n X,Y
Damit können wir Hθ zum Niveau α ablehnen, falls
|Tθ (X, Y)| ≥ qtm+n−2 (1 − α/2).
Bemerkung Wieder wird bei einem Test die Hypothese Hθ genau dann (zum p-Wert
α) abgelehnt, wenn θ nicht im (1 − α)-Konfidenzintervall für µ1 − µ2 liegt.
3.6
Zur Geometrie in der zwei-Stichproben-Situation
Wie in der Situation mit einer Stichprobe gibt es eine anschauliche geometrische Interpretation der T -Statistik. Wir betrachten die Beobachtungen X1 , . . . , Xm , Y1 , . . . , Yn
wiederum als Einträge eines Datenvektors im Rm+n :
Z := (X1 , . . . , Xm , Y1 , . . . , Yn )t
normalverteilt im Rm+n ,
mit X1 , . . . , Xm , Y1 , . . . , Yn unabhängig und identisch verteilt gemäß N (µ, σ 2 ). Wir betrachten den 2-dimensionalen Unterraum M von Rm+n :
M := {(a, . . . , a, b, . . . , b)t |a, b, ∈ R}.
| {z } | {z }
m
n
M kann man in zwei orthogonale Unterräume zerlegen:
M := D ⊕ E,
25
wobei D wieder die Hauptdiagonale ist und E ihr orthogonales Komplement in M. D
und E werden jeweils aufgespannt durch die Einheitsvektoren


1/m


..
 


.
1



1
1
1/m 
 
.
e0 := √
·  ... 
und
e1 := p
·

m+n
1/m + 1/n 
 −1/n 
1


..


.
−1/n
Jetzt sehen wir, dass
||Z − PM Z||2 = ||PM⊥ Z||2 =
X
(Xi − X̄)2 +
X
(Yj − Ȳ )2 =
s2X,Y
m+n−2
X̄ − Ȳ
< Z, e1 > = ||PE Z|| = q
1
1
m + n
und damit
T := q
X̄ − Ȳ
1
m
+
1
n
· sX,Y
√
||PE Z|| m + n − 2
=
.
||PM⊥ Z||
Die T -Statistik vergleicht die Längen von zwei orthogonalen Projektionen von Z auf
orthogonale Unterräume: E repräsentiert die Gruppenunterschiede zwischen X und Y
(die Variabilität zwischen den Gruppen), M⊥ repräsentiert die Variabilität innerhalb der
Gruppen. Wir werden dieselbe Zerlegung bei der klassischen Varianzanalyse antreffen,
die auf analoge Art und Weise die Mittelwerte von mehr als zwei Gruppen miteinander
vergleicht.
4
Tests für gepaarte Stichproben
4.1
t-Test für gepaarte Stichproben
Ein Beispiel aus Box-Hunter-Hunter, Statistics for Experimenters, Wiley, 1987:
Zwei Materialien (A und B) für Schuhsohlen sollen verglichen werden: Welches Material
nutzt sich weniger ab? Zehn Jungen erklären sich als Testpersonen bereit, 2 Monate lang
nur die entsprechend besohlten Schuhe zu tragen.
• Versuchsplanung:
a) Wähle zufällig 5 der 10 Jungen und gebe ihnen Material A, die anderen bekommen Material B. Vergleiche nach 2 Monaten die Abnutzung. Nachteil dieses
Versuchsplans: Die Abnutzung der Materialien hängt nicht nur vom Material selbst
ab, sondern auch von den Individuen: Die Variabilität kommt aus zwei verschiedenen Quellen, die entsprechenden Effekte sind konfundiert. Ein Materialeffekt ist
schwer zu entdecken, wenn die Unterschiede zwischen den Individuen groß sind.
b) Um Unterschiede zwischen den Individuen auszuschalten, geben wir jedem Jungen einen Schuh mit Sohle A und einen Schuh mit Sohle B (jeweils zufällig an den
26
rechten oder linken Fuß).
Ergebnisse:
Tabelle 5: Bubenschuhe
Junge
A
B
1
13.2
14.0
2
8.2
8.8
3
10.9
11.2
4
14.3
14.2
5
10.7
11.8
6
6.6
6.4
7
9.5
9.8
8
10.8
11.3
9
8.8
9.3
10
13.3
13.6
• Auswertung:
a) Wir betrachten A1 , . . . , A10 , B1 , . . . , B10 als unabhängig und normalverteilt und
machen einen t-Test für zwei unabhängige Stichproben wie im letzten Abschnitt
beschrieben. Das Ergebnis: p = 0.72. Wir können die Hypothese µA = µB also
nicht ablehnen - die beobachteten Unterschiede können in mehr als 70% aller Versuche durch Zufall zustande kommen.
b) Wir haben in a) schon wieder nicht berücksichtigt, dass die Daten eine Paarungsstruktur haben, dass also jeder Wert Ai genau einem Wert Bi entspricht.
Die Variabilität zwischen den Individuen ging in a) noch in die T-Statistik ein.
Wir können aber leicht davon Gebrauch machen, dass sich bei manchen Jungen
die Sohlen grundsätzlich weniger abnutzen als bei anderen: die Stichproben sind
positiv korreliert (siehe Abb. 8). Wir betrachten die Differenzen:
Di := Ai − Bi
14
und untersuchen mit einem t-Test für eine Stichprobe die Nullhypothese, dass die
Verteilung dieser Differenzen Mittelwert Null hat. Das Ergebnis: p = 0.008.
12
●
●
●
●
10
B
●●
●
●
8
●
6
●
6
8
10
12
14
A
Abbildung 8: Gepaarte Stichproben
4.1.1
Voraussetzungen und Spezialfall
Die einzige Voraussetzung beim t-Test für gepaarte Stichproben ist, dass der Effekt (in
dem Fall die Unterschiede in der Abnutzung des Materials) normalverteilt ist und un27
abhängig für jedes Individuum. Man kann also den Effekt E einer Behandlung auf ein
Merkmal untersuchen, ohne die Verteilung des Merkmals in der untersuchten Population überhaupt zu kennen. Allein der Effekt, der sich in der Differenz Di = Ai − Bi
äußert, muss normalverteilt sein, nicht die zugrundeliegenden Verteilungen von A und
B. Dennoch sind es interessante Spezialfälle, wenn A und B normalverteilt sind:
Normalverteilung Im Fall A1 , . . . , An , B1 , . . . , Bn unabhängig und normalverteilt,
mit gleicher Varianz und EA = µA , EB = µB würde man für die Hypothese µA = µB
einen Test für zwei unabhängige Stichproben durchführen, mit
Ā − B̄
Tungepaart := q
,
2
s
A,B
n
wobei T t-verteilt wäre mit 2n − 2 Freiheitsgraden.
Was passiert, wenn man statt dessen eine Paarungsstruktur einbaut und die Differenzen
Di = Ai − Bi mit einem Ein-Stichproben-Test betrachtet? (Das kann man machen,
denn die Differenzen von unabhängigen Normalverteilten sind ja wieder normalverteilt).
Der wesentliche Unterschied besteht darin, dass man Freiheitsgrade einbüßt, denn die
entsprechende Teststatistik
Ā − B̄
Tgepaart := q
1
n sA−B
ist unter der Nullhypothese t-verteilt mit nur (n − 1) Freiheitsgraden. Damit verliert
man ein wenig Testmacht, was für große n allerdings vernachlässigbar ist. Ansonsten
unterscheiden sich die beiden Teststatistiken im Prinzip nicht, denn für unabhängige
2
2.
Ai , Bi mit gleicher Varianz σ 2 ist Var(A − B) = σA−B
= 2σA
Sind dagegen Ai und Bi positiv korreliert (wie im Beispiel der Bubenschuhe), so ist
2 − 2Cov(A, B). Infolgedessen wird der Nenner von T
Var(A − B) = 2σA
gepaart kleiner,
die Teststatistik wird größer, und man gewinnt an Testmacht.
Positiv korrelierte Normalverteilte Modell: A1 , . . . , An seien unabhängig und N (µ, σ 2 )verteilt, also Ai = µ+σZi für Zi ∼ N (0, 1). B1 , . . . , Bn seien unabhängig und normalverteilt. Aber Ai und Bi seien nicht unabhängig, sondern positiv korreliert in der folgenden
Form:
Bi = Ai + δ + αZi0 , mit δ ∈ R, α > 0, Zi0 ∼ N (0, 1).
Dann gilt:
Bi − Ai = δ + αZi0 ,
Var(Di ) = α
4.2
und damit
2
Wilcoxon-Test für gepaarte Stichproben/ Vorzeichenrangtest
Im t-Test war die einzige benötigte Modellannahme die Normalverteilung der Differenzen:
L(D) = N (δ, σ 2 ),
bzw.
L(D − δ) = N (0, σ 2 ).
28
Der Wilcoxon-Test kommt ohne Normalverteilung aus. Er testet die Hypothese Hµ : δ =
µ, dass die Verteilung der Differenzen symmetrisch um µ ist, bzw. dass L(Dδ ) symmetrisch um Null ist. (Alternativen sind hier also sowohl: Eine symmetrische, aber nicht
um µ zentrierte Verteilung, oder eine Verteilung mit Median µ, die nicht symmetrisch
ist.) Die Teststatistik verwendet die mit den Vorzeichen versehenen Ränge:
Wµ (D) =
n
X
1{Di >µ} Rang(|Di − µ|).
i=1
Unter Hµ ist Wµ so verteilt wie
S=
n
X
i · Vi ,
i=1
wobei Vi unabhängige, faire {0, 1}−Münzwürfe sind. Die Verteilung von S kennt R unter
dem Namen signrank (rsignrank, psignrank, etc.). Die Verteilung von S ist symmetrisch um
X
1X
n(n + 1)
i=
.
ES =
iEVi =
2
4
Ein Test auf Hµ : δ = µ liefert als p-Wert entsprechend die Wahrscheinlichkeit, dass die
Teststatistik S um mehr als |Wµ − n(n+1)
| von n(n+1)
abweicht. In R einfach mit dem
4
4
Befehl: wilcox.test(A-B), oder wilcox.test(A,B,paired=TRUE). Im obigen Beispiel:
p = 0.014
4.3
Vorzeichentest
Eine weitere simple Statistik verwendet ausschließlich die Vorzeichen der Differenzen:
Unter der Nullhypothese dass Ai und Bi dieselbe Verteilung haben, erwarten wir genauso viele positive wie negative Differenzen Di = Ai − Bi . Die Anzahl der positiven
Differenzen:
S2 := |{i|Di > 0}|
ist somit binomialverteilt mit Parametern n und 1/2. Im obigen Beispiel: Nur 2 von 10
Differenzen sind positiv. Der p-Wert: 2 pbinom(2,10,0.5)≈ 0.11. Der Vorzeichentest
ist weniger mächtig als der Vorzeichenrangtest, weil er nicht berücksichtigt, dass die
positiven Differenzen vom Betrag her kleiner sind als die negativen Differenzen.
4.4
Permutationstest von Fisher
Und noch eine Statistik für gepaarte Stichproben:
S3 :=
n
X
(sgn Di ) · Di .
i=1
Unter der Nullhypothese
gilt: Gegeben die Werte der Differenzbeträge |Di |, ist S3 so
P
verteilt wie
|Di |Vi , wobei Vi wieder unabhängige faire {−1, 1}-Münzwürfe sind.
29
5
Schätzverfahren
In der Regel gibt es für einen Parameter mehrere Schätzer. Welchen soll man nehmen?
Welche Schätzverfahren gibt es, und wie bewertet man die Schätzer?
Beispiel: X1 , . . . , Xn seien unabhängig und uniformverteilt auf [0, `]. Als Schätzer für
` bieten sich an:
`ˆ1 := 2X̄, denn EX = `/2.
n+1
`ˆ2 :=
max (Xi ).
n i=1,...,n
Beide Schätzer sind erwartungstreu: Im zweiten Fall kompensiert der Faktor n+1
n dafür,
ˆ
dass max(Xi ) =: M < `. Um zu zeigen, dass E`2 = `, berechnen wir zunächst die
Verteilungsfunktion von M :
F (x) = Ws(M ≤ x) =
Z`
=⇒ EM =
x
x n
`
=⇒
d
n
F (x) = n xn−1 ,
dx
`
0 ≤ x ≤ `.
n
n−1
dx =
x
`.
`n
n+1
n
0
Welchen der beiden Schätzer sollte man nun nehmen? Wir vergleichen die erwarteten
quadratischen Fehler:
4
EX̄=`
E (`ˆ1 − `)2
= Var(2X̄) = Var(Xi )
n
 `

Z 2
2
4
4
x
`
4 `2
=
E(Xi2 ) − E(Xi )2 = 
dx −  = ·
n
n
`
4
n 12
0
1
=
· `2 .
3n
n+1
(n + 1)2
2 E`ˆ2 =`
ˆ
E (`2 − `)
M =
= Var
E(M 2 ) − `2 .
n
n2
Mit
2
Z`
E(M ) =
x2
n
n
n−1
· `2
x
dx =
`2
n+2
0
folgt
(n + 1)2
1
E (`ˆ2 − `)2 = `2
−1 =
· `2 .
n(n + 2)
n(n + 2)
Der mittlere quadratische Fehler von `ˆ2 fällt mit n−1 , aber der mittlere quadratische
Fehler von `ˆ2 fällt sogar mit n−2 .
30
5.1
Der Mittlere quadratische Fehler
Warum der mittlere quadratische Fehler? Der mittlere quadratische Fehler ist
einer der gängigsten Maßstäbe zur Bewertung von Schätzern. In der Tat liefert er beim
Vergleich von Schätzern dieselben Resultate wie jede ‘vernünftige’ vergleichbare Gütefunktion EL: Hat von zwei Schätzern θ̂1 , θ̂2 eines Parameters θ̂1 den kleineren quadratischen Fehler, so ist auch EL(θ̂1 ) < EL(θ̂2 ).
Für eine ‘vernünftige vergleichbare’ Gütefunktion L gelte
• L(θ) = 0: Schätzt man den wahren Parameter, so ist der Fehler Null.
• L ist zweimal differenzierbar und hat an der Stelle θ ein lokales Minimum, so dass
L0 (θ) = 0 und L00 (θ) > 0.
Dann kann man L in der Nähe von θ beschreiben durch c · (θ̂ − θ)2 :
L00 (θ)
L(θ̂) = L(θ) + L0 (θ) ·(θ̂ − θ) +
·(θ̂ − θ)2 + . . .
|{z} | {z }
2
| {z }
=0
=0
=c(θ)>0
Ist θ̂ nahe bei θ, kann man die weiteren Terme vernachlässigen. Damit
EL(θ̂) ≈ c(θ)E((θ̂ − θ)2 ).
Hat also θ̂1 einen kleineren mittleren quadratischen Fehler als θ̂2 :
E((θ̂1 − θ)2 ) E((θ̂2 − θ)2 ),
so ist auch
EL(θ̂1 ) EL(θ̂2 ).
Konsistenz und der mittlere quadratische Fehler Grob gesprochen, bezeichnet
die Konsistenz eines Schätzers die Eigenschaft, dass die Abweichung des Schätzers vom
zu schätzenden Wert mit wachsendem Stichprobenumfang gegen Null geht. Formal:
Ein Schätzer θ̂n heißt konsistenter Schätzer für θ, falls für alle ε > 0 gilt:
Ws(|θ̂n − θ| > ε) → 0
für n → ∞.
Für die Konsistenz eines Schätzers reicht es, wenn sein mittlerer quadratischer Fehler
gegen Null geht, also wenn
E (θ̂n − θ)2 → 0 für n → ∞.
Um dies einzusehen, stellen wir fest: |θ̂n −θ|2 ≥ ε2 gilt auf der Menge A := {|θ̂n −θ| > ε}.
Damit können wir schreiben
|θ̂n − θ|2 ≥ ε2 · IA ,
wobei IA = 1 die Indikatorvariable der Menge A ist. Wir bilden die Erwartungswerte:
E (θ̂n − θ)2 ≥ ε2 · Ws(|θ̂n − θ| > ε).
Für festes ε und n → ∞ geht die linke Seite gegen Null und damit auch die rechte.
31
Zerlegung des mittleren quadratischen Fehlers Falls θ̂ erwartungstreu ist, so
entspricht der mittlere quadratische Fehler gerade der Varianz von θ̂:
Eθ̂=θ
E (θ̂ − θ)2 = Var(θ̂).
Ist θ̂ aber nicht erwartungstreu, d.h.
b(θ̂) = E(θ̂) − θ 6= 0
(b...‘bias’),
so kann man den mittleren quadratischen Fehler zerlegen in die Varianz und das Quadrat
der Verzerrung:
E (θ̂ − θ)2 = E (θ̂ − Eθ̂ + Eθ̂ − θ)2
= E (θ̂ − Eθ̂)2 + 2b(θ̂)E (θ̂ − Eθ̂) + b2 (θ̂)
= Var(θ̂) + b2 (θ̂).
Häufig sind Var(θ̂) und b(θ̂) gegenläufig - je kleiner das eine, desto größer das andere.
Es kann daher manchmal sinnvoll sein, eine kleine Verzerrung in Kauf zu nehmen, um
den erwarteten quadratischen Fehler zu minimieren:
Kontrollierte Verzerrung eines Schätzers. Ein Beispiel Wir wollen die Wahrscheinlichkeit p für das Eintreten eines Ereignisses A schätzen und führen dazu n unabhängige Versuche durch. Seien I1 , . . . , In mit Ii = 1, falls A eingetreten ist, und Null
sonst.
Ein plausibler Schätzer für p ist die relative Häufigkeit der Erfolge:
1X
p̂1 :=
Ii .
n
i
p̂1 ist erwartungstreu und hat mittleren quadratischen Fehler E (p̂1 − p)2 = Var(p̂1 ) =
p(1−p)
1
n Var(I1 ) =
n . Aber: Dieser Schätzer hat nicht zwangsläufig minimalen quadratischen Fehler!
Betrachte einen zweiten Schätzer
p̂2 := γ p̂1
für geeignet zu wählendes γ.
Mit E(p̂2 ) = γp ist p̂2 für γ 6= 1 nicht erwartungstreu. Aber:
1 2
E (p̂2 − p)2 = Var(p̂2 ) + (γp − p)2 =
γ p(1 − p) + np2 (1 − γ)2 .
n
Abhängig von p und γ kann dies kleiner sein als
E (p̂1 − p0 )2 = E (p̂2 − p0 )2
p(1−p)
n .
Für γ = 0.9 ist z.B.
für p0 ≈
1
.
1 + 0.05n
Für p < p0 hat p̂2 kleineren quadratischen Fehler, für p > p0 ist p̂1 zu bevorzugen. Wenn
also bekannt ist, dass p sicher kleiner ist als ein festes p0 , so kann man γ geeignet wählen
(Übung).
32
Aus dem letzten Beispiel haben wir gelernt, dass die Güte eines Schätzers auch vom
Wert des Parameters abhängen kann: Für einen Parameterbereich kann ein Schätzer
besser sein als ein anderer, für einen anderen Parameterbereich kann es anders aussehen.
Es gibt in der Regel keine Schätzmethode, für die der mittlere quadratische Fehler für
alle Werte von θ kleiner wäre als für alle anderen Methoden. Aber es gibt eine Methode,
die meistens gut funktioniert:
5.2
Das Maximum-Likelihood Prinzip
Seien X1 , . . . , Xn u.i.v. gemäß einer Verteilung, die von θ abhängt. Gegeben (X1 , . . . , Xn ) =
(x1 , . . . , xn ), ist der Maximum-Likelihood-Schätzer von θ diejenige Zahl θ̂M L , die dem
Ereignis {(X1 , . . . , Xn ) = (x1 , . . . , xn )} maximales Gewicht zuordnet.
Im diskreten Fall ist θ̂M L so definiert, dass Wsθ̂M L ((X1 , . . . , Xn ) = (x1 , . . . , xn )) maximal wird.
Q
Hat X1 Dichte fθ (x), so soll ni=1 fθ (xi ) maximal werden.
Bsp. 1: Münzwurf
folge, mit
mit Erfolgsparameter p. Von n Versuchen beobachten wir k Er n k
Ws(X = k) =
p (1 − p)n−k .
k
Das Maximum dieser Funktion findet man am einfachsten durch Ableiten ihres Logarithmus, denn da log(x) eine streng monotone Funktion ist, ist das Maximum von log f
an derselben Stelle wie das Maximum von f .
log(Ws(X = k)) = c + k log p + (n − k) log(1 − p)
und damit
d
k n−k
log(. . .) = −
.
dp
p 1−p
(Für p = 0 oder p = 1 gilt Ws(X = 0) = 1 bzw. Ws(X = n) = 1. In beiden Fällen stimmt
der ML-Schätzer p̂M L mit p überein.) Für die anderen Fälle findet man durch Nullsetzen
der Ableitung den ML-Schätzer p̂M L = k/n, die relative Häufigkeit der Erfolge.
Bsp. 2: Uniformverteilung Seien X1 , . . . , Xn unabhängig und Unif[0, `]-verteilt. Gesucht ist der ML-Schätzer für `. Die Dichte von X ist
(
(
1/` x ∈ [0, `]
1/`n xi ∈ [0, `]∀ i
f` (x) =
=⇒
f` (x1 , . . . , xn ) =
0
sonst
0
sonst.
Figur 9 zeigt den Graphen von f` (x1 , . . . , xn ): Er ist maximal bei ` = max(xi ), doch
findet man das Maximum hier nicht durch Ableiten, weil f` dort nicht differenzierbar
ist.
5.2.1
Eigenschaften von Maximum-Likelihood-Schätzern
1.: Ist θ̂ ML-Schätzer von θ, so ist der ML-Schätzer einer (injektiven) Funktion h(θ)
gerade h(θ̂). Warum? Wenn das Ereignis {X = x} für θ̂M L maximales Gewicht hat, so
hat es auch unter h(θ) = h(θ̂M L ) maximales Gewicht.
33
fl(x1, … , xn)
1/`n
max xi
`
Abbildung 9: f` (x1 , . . . , xn ) für X1 , . . . , Xn unabhängig und Unif[0, `]-verteilt.
Beispiel
Die Lebensdauer X eine Sorte Glühbirnen sei Exp(λ)-verteilt, d.h.
Ws(X ≤ x) = 1 − e−λx .
Wir suchen die Wahrscheinlichkeit, dass eine Glühbirne weniger als 200 Stunden brennt,
und beobachten dazu die Lebensdauern x1 , . . . , xn von n Glühbirnen.
• Der ML-Schätzer von λ ist
1
,
X̄
wie
leicht durch
P Logarithmieren und Ableiten der gemeinsamen Dichte fλ =
Q man
−λxi = λn e−λ xi feststellt.
λe
i
λ̂M L =
• Der ML-Schätzer von Ws(X ≤ 200) = 1 − e−λ200 ist damit 1 − e−λ̂M L 200 .
• Da die Exponentialverteilung nur von λ abhängt, ist auch 1−e−λ̂M L x ML-Schätzer
der zugehörigen Verteilungsfunktion, und für jedes Intervall [a, b] ist der MLSchätzer von Ws(X ∈ [a, b]) gegeben durch e−λa − e−λb .
• Es kommt nicht auf die Parametrisierung an: Bei (im englischen Sprachraum üblicher) Parametrisierung der Exponentialverteilung mit β = 1/λ:
λe−λx
→
1 − βx
e
β
gilt β̂M L =
1
λ̂M L
= X̄.
2.: Für eine (im folgenden näher beschriebene) bestimmte Klasse von Problemen ist
die ML-Methode asymptotisch (d.h. für n → ∞) im Sinne des mittleren quadratischen
Fehlers mindestens so gut wie jede andere Schätzmethode. (ML ist asymptotisch effizient)
Die Problemklasse ‘glatter’ Probleme Sei R der Wertebereich der ZVe X, d.h.
(
{x|Ws(X = x) > 0}
für X diskrete ZVe,
Rb
R :=
kleinstes Intervall [a, b], mit a f (x)dx = 1 für X stetige ZVe.
Es soll gelten
34
• fθ (x) (bzw. Wsθ (X = x)) hat stetige zweite Ableitung in θ,
• Die Ableitungen müssen auf sinnvolle Weise beschränkt sein: Für jedes kleine
Intervall J von θ-Werten soll
2
Z
Z
∂
∂
max fθ (x) dx < ∞ und
max 2 fθ (x) dx < ∞
θ∈J ∂θ
θ∈J ∂ θ
• Für alle θ soll maxx∈R |fθ (x)| < ∞.
Dies trifft für die meisten gängigen Verteilungen zu. Ausnahmen bilden die uniforme
Verteilung und die doppelte Exponentialverteilung.
Die Fisher-Information Hat X Dichte fθ (x), die von θ abhängt, so ist die FisherInformation der Verteilung von X in θ definiert als
"
2 #
∂
.
log fθ (x)
I(θ) = E
∂θ
Also:
(P
2
∂
i ∂θ log Wsθ (X = xi ) Wsθ (X = xi ) im diskreten Fall,
I(θ) = R ∂
2
im Dichtefall.
∂θ log fθ (x) fθ (x)dx
Beispiel
X ∼ Exp(λ). Dann ist I(θ) = 1/λ2 , denn
∂
1
log fλ (x) = log λ − λx,
log fλ (x) = − x
∂λ
λ
2
Z 1
1
=⇒ I(λ) =
− x fλ (x)dx = 2 .
λ
λ
In glatten Problemen gibt es eine untere Schranke für den mittleren quadratischen
Fehler:
Satz Sei ϑ̂n ein konsistenter Schätzer für ϑ in einem Problem der oben beschriebenen
Klasse. Dann gilt:
1
1
2
+o
E[(ϑ̂n − ϑ) ] ≥
nI(ϑ)
n
(Beweisidee in Breiman, Statistics: With a view toward applications, S. 94)
L sei eindeutig (d.h. die ML-Gleichungen haben eine einSatz Der ML-Schätzer ϑ̂M
n
deutige Lösung). Dann gilt
1
1
L
2
E[(ϑ̂M
−
ϑ)
]
=
+
o
n
nI(ϑ)
n
(ohne Beweis)
35
3.:
ML-Schätzer sind in der Regel konsistent (bis auf pathologische Fälle).
4.: Asymptotische Normalität des ML-Schätzers Unter (relativ schwachen) Regularitätsvoraussetzungen gilt die schwache Konvergenz:
√
L
L( n(ϑ̂M
− ϑ)) → N (0, I(ϑ)−1 ) (n → ∞).
n
Die Regularitätsvoraussetzungen sind häufig erfüllt: Lϑ (x) := log fϑ (x) muss zweimal
stetig differenzierbar sein, und es muss gelten
Z
∂2
fϑ (x)dx = 0.
(3)
∂ϑ2
Was impliziert das anschaulich? Unter dieser Bedingung entspricht die Fisher-Information
gerade dem Erwartungswert der zweiten Ableitung von L.
∂
∂2
Wir schreiben kurz: f 0 für ∂ϑ
f und f 00 für ∂ϑ
2 f.
I(ϑ) =
E[L0ϑ (X)2 ]
f 0 (X)2
= E ϑ2
fϑ (X)
fϑ (X)fϑ00 (X) − fϑ0 (X)2
= −E[L00ϑ (X)],
= −E
fϑ2 (X)
R ∂2
00
denn mit ∂ϑ
2 fϑ (x)dx = 0 ist E(fϑ (X)/fϑ (X)) = 0. Die Fisher-Information entspricht
also der (negativen) mittleren Krümmung: Je stärker Lϑ (x) im Mittel an der Stelle ϑ
gekrümmt ist, desto kleiner ist die asymtotische Varianz des ML-Schätzers.
Man rechnet Bedingung (3) leicht nach. Z.B. für X exponentialverteilt und entsprechend fϑ (x) = ϑe−ϑx :
∂2
∂ −ϑx
−ϑx
f
(x)
=
e
−
xϑe
ϑ
∂ϑ2
∂ϑ
= −xe−ϑx − x e−ϑx − xϑe−ϑx = −2xe−ϑx + x2 ϑe−ϑx
Z
5.3
∂2
2
1
1
2
fϑ (x)dx = − EX + Var(X) + (EX)2 = − 2 + 2 + 2 = 0
2
∂ϑ
ϑ
ϑ
ϑ
ϑ
Die Momentenmethode
Eine weitere gängige Methode, Schätzer zu bestimmen, ist die Methode der Momente:
Man vergleiche die k-ten Momente der Verteilung:
Z
k
EX = xk fϑ (x)dx
mit den Momenten der Stichprobe:
1X k
xi ,
n
k = 1, 2, . . . ,. Häufig stimmen Momentenschätzer
und ML-Schätzer überein:
P
¯
Münzwurf mit Erfolgsparameter p: E( n1
Ii ) = p =⇒ p̂ = I.
36
Exponentialverteilung X1 , . . . , Xn unabh., Exp(λ)-verteilt: Mit EX = λ1 folgt λ̂ = X̄1 .
Nicht so bei der Uniformen Verteilung auf [0, `], wie wir bereits gesehen haben: Der
Momentenschätzer von ` ist `ˆ = 2X̄ wegen EX = 2` . Der ML-Schätzer ist M =
max(X1 , . . . , Xn ).
Momentenschätzer sind nach Konstruktion unverzerrt, und konsistent, und sie sind
manchmal leichter zu ermitteln als ML-Schätzer. Aber sie haben eventuell einen hohen mittleren quadratischen Fehler.
5.4
Kleinste Quadrate
Wir möchten einen Datensatz möglichst gut mit einer bestimmten Funktion V (ϑ) beschreiben. Einfachstes Beispiel: X1 , . . . , Xn sollen ’möglichst gut’ mit einer konstanten
Funktion V (ϑ) = ϑ1 beschrieben werden, und zwar so, dass die Quadratsumme der
Residuen zwischen V und X minimal wird:
X
(ϑ − Xi )2 = min .
Den Schätzer in diesem Fall kennen wir schon: ϑ = X̄. Da minimale Quadratsummen
durch orthogonale Projektionen entstehen, haben wir auch im t-Test solche Schätzer
kennen gelernt. Wir werden weitere Beispiele in der Varianzanalyse und der linearen
Regression sehen.
Häufig stimmen die Schätzer vieler Methoden überein: Für X1 , . . . , Xn unabhängig
und identisch normalverteilt mit Mittelwert µ ist X̄ der kleinste-Quadrate-Schätzer, der
Momentenschätzer und der ML-Schätzer für µ.
5.5
Bootstrap-Konfidenzintervalle
Ein Schätzer hängt von den zufälligen Beobachtungen ab und ist daher variabel. Oft
kann man seine exakte Varianz oder gar seine exakte Verteilung bestimmen, wie bei der
t-Statistik. Wenn das nicht möglich ist, gibt es evtl. asymptotische Aussagen (z.B. die
approximative Normalität der t-Statistik für unabhängige und identisch verteilte ZVen).
Was kann man tun, wenn man die Varianz eines Schätzers weder exakt noch asymptotisch ermitteln kann? Man könnte sie empirisch bestimmen, indem man den Versuch
oft wiederholt.
Z.B.: Ein Versuch mit n unabhängigen p-Münzwürfen Ii . Wir schätzen
P
p̂ = 1/n Ii (und wissen: Var(p̂) = p(1 − p)/n). Ohne dieses Wissen könnten wir durch
häufiges Wiederholen dieses Versuches auf empirische Weise die Varianz schätzen.
Aber das Wiederholen eines Versuches ist oft teuer oder unmöglich. Daher legt die
Bootstrapmethode die empirische Verteilung statt der wahren Verteilung zu Grunde,
und es werden ‘Bootstrapstichproben’ aus der empirischen Verteilung gezogen: n Werte,
unabhängig (d.h. mit Zurücklegen) und identisch verteilt (gemäß der empirischen Verteilung). Die Idee ist, dass die Varianz des Schätzers in den Bootstrapstichproben die
Varianz des Schätzers aus den echten Stichproben approximiert.
Wir haben also Beobachtungen X = (X1 , . . . , Xn ), unabhängig und identisch verteilt
gemäß einer Verteilung ν. Wir schätzen ein Merkmal m(ν) der Verteilung als Funktion
der Daten: h(X). Wie ist die Verteilung von h(X)−m(ν)? Statt neue Stichproben aus der
Originalverteilung ν zu ziehen, ziehen wir Stichproben X∗ der Größe n (mit Zurücklegen)
37
aus der empirischen Verteilung νX . Idee:
L(h(X) − m(ν)) ≈ L(h(X∗ ) − m(νX ))
Die Verteilung von h(X∗ ) − m(νX ) wird in der Praxis durch Monte-Carlo-Simulation
ermittelt, die obere und untere Grenze des Konfidenzintervalls für m(ν) schätzt man
aus den empirischen Quantilen der durch Simulation ermittelten Verteilung.
Übrigens ist das Vorgehen im Münzwurffall ganz ähnlich, obwohl wir die Formel für
die Varianz kennen: Wir schätzen Var(p̂) = p(1 − p)/n mit p̂(1 − p̂)/n und ermitteln
damit die Varianz des Schätzers für den Fall p = p̂. Das ist dasselbe als würde man
Bootstrapstichproben aus der empirischen Verteilung mit Parameter p̂ ziehen.
5.6
Suffizienz und die Minimierung d. mittleren quadratischen Fehlers
Wir beginnen mit einem Beispiel:
X
P1 , . . . , Xn seien unabhängige {0, 1}−Münzwürfe mit Erfolgsparameter p ∈ (0, 1). K :=
Xi sei die Anzahl der Erfolge. Dann hängt die Verteilung von (X1 , . . . , Xn ) für festes
K = k (d.h. gegeben das Ereignis {K = k}) nicht mehr von p ab:
X
Wsp ({(X1 , . . . , Xn ) = (x1 , . . . , xn )}{|
Xi = k})
=
=
Wsp ({(X1 , . . . , Xn ) = (x1 , . . . , xn )} ∩ {K = k})
Wsp ({K = k})
1
pk (1 − p)n−k
= n .
k
n−k
p (1 − p)
k
n
k
Anschaulich: Über p können
P wir nicht mehr Informationen gewinnen als durch Betrachtung der Funktion K =
Xi der Daten. Die genauen Zeitpunkte, zu denen die K
Erfolge auftreten, hängen von p nicht mehr ab. Die Statistik K nennt man deswegen
auch suffiziente Statistik für p:
Definition Eine Statistik V (X) heißt suffizient für ϑ, falls die bedingte Verteilung von
X, gegeben V (X), nicht von ϑ abhängt.
Beispiel: Multinomialverteilung Y1 , . . . , Yn seien unabhängig und P
nehmen Werte
in k Kategorien an, mit Ws(Yi in Kategorie j) = pj ∀i, j = 1, . . . , k,
pj = 1. Der
interessierende Parameter ist also der Vektor der Gewichte p~ = (p1 , . . . , pk ). Dann ist
der Vektor der Besetzungszahlen X = (X1 , . . . , Xk ) suffizient für p~ (Rechnung analog
zum obigen Beispiel).
Jede Dichte kann man mit Hilfe einer suffizienten Statistik V (X) geeignet faktorisieren in eine Funktion von V (X), die von ϑ abhängt, und einen Faktor, der nicht von ϑ
abhängt:
Der Faktorisierungssatz von Neyman und Pearson Die Verteilung von X besitze
die Dichte (bzw. Gewichte) fϑ (x). Dann sind äquivalent:
38
i) V (X) ist suffiziente Statistik für ϑ.
ii) Die Dichte zerfällt in eine Faktorisierung der Gestalt
fϑ (x) = gϑ (V (x)) · h(x),
wobei die Funktion h nicht von ϑ abhängt.
Die Grundidee des Beweises sieht man im diskreten Fall:
i) =⇒ ii) folgt direkt aus der Definition der bedingten Wahrscheinlichkeit:
fϑ (x) = Ws({X = x} ∩ {V (X) = V (x)})
= Ws({V (X) = V (x)}) · Ws({X = x}|{V (X) = V (x)})
{z
} |
{z
}
|
=:gϑ (V (x))
hängt nach i) nicht von ϑ ab
Für die umgekehrte Richtung ist zu zeigen, dass
Wsϑ ({X = x}|{V (X) = V (x)}) =
Ws({X = x})
Ws({V (X) = V (x)})
nicht von ϑ abhängt. Wir verwenden dafür die Faktorisierung und kürzen den Faktor
gϑ (V (x)):
X
X
ii)
Ws({V (X) = V (x)}) =
Ws(X = y) = gϑ (V (x))
h(y)
y|V (y)=V (x)
y|V (y)=V (x)
Ws({X = x}) = gϑ (V (x)) · h(x)
Also hängt
Wsϑ ({X = x}|{V (X) = V (x)}) = P
h(x)
y|V (y)=V (x) h(y)
nicht mehr von ϑ ab.
Folgerungen
i) Der Maximum-Likelihood-Schätzer ϑ̂M L für ϑ ist eine Funktion der suffizienten Statistik: Da h(x) nicht von ϑ abhängt, genügt es zur Bestimmung von ϑ̂M L , gϑ (V (X)) zu
maximieren.
ii) Mit Hilfe des Faktorisierungssatzes kann man anhand der Dichte häufig leicht suffiziente Statistiken erschließen:
Beispiel: Gammaverteilung X1 , . . . , Xn seien unabhängig und Gamma(α, λ)-verteilt,
d.h. für jedes X gemäß der Dichte
f (x) = c(α, λ) · xα−1 e−λx ,
x ≥ 0.
Die gemeinsame Dichte von X1 , . . . , Xn ist dann
fα,λ (x1 , . . . , xn ) = c0 (α, λ) · (x1 · . . . · xn )α−1 · e−λ(x1 +···+xn )
Q
P
Man sieht sofort: ( Xi ,
Xi ) ist suffizient für (α, λ).
Mit Hilfe einer suffizienten Statistik kann man manchmal Schätzer mit kleinerem
mittleren quadratischen Fehler erzeugen, wenn man die bedingte Erwartung verwendet.
Der Einfachheit halber betrachten wir hier nur den diskreten Fall.
39
Die bedingte Erwartung Y sei eine ZVe mit diskretem Wertebereich, X habe Dichte
oder Gewichte f (x). Der bedingte Erwartungswert von X, gegeben das Ereignis {Y = k},
ist eine Zahl
1
E[X|Y = k] =
E[I
X].
Ws({Y = k}) {Y =k}
Für jeden Wert k, den Y annehmen kann, ist E[X|Y = k] eine Zahl. Der Zufall kommt
nun durch Y ins Spiel: Die bedingte Erwartung von X, gegeben Y , E[X|Y ], ist eine
Zufallsvariable der Gestalt
X
E[X|Y ] =
I{Y =k} E[X|Y = k].
k
Beispiel Ein zweistufiges Zufallsexperiment:
i) Y = 1/3 mit Wahrscheinlichkeit 1/2, und Y = 2/3 mit Wahrscheinlichkeit 1/2.
ii) Gegeben Y = y, sei X die Anzahl der Erfolge beim n-maligen y-Münzwurf, also
X ∼ Bi(n, y). Es gilt
E[X|Y = 1/3] = 1/3 · n,
E[X|Y = 2/3] = 2/3 · n.
Damit ist die bedingte Erwartung E[X|Y ] von X gegeben Y die Zufallsvariable E[X|Y ] =
Y · n mit Werten in {n/3, 2n/3}, jeweils mit Wahrscheinlichkeit 1/2.
Der Satz von Rao-Blackwell Wieder beschränken wir uns auf den diskreten Fall,
Analoges gilt für den Dichtefall.
Sei S = h(X) ein Schätzer für ϑ. Sei V (X) eine suffiziente Statistik für ϑ. Dann gilt für
den Schätzer S ∗ mit
S ∗ := E[S|V (X)]
(die ‘Rao-Blackwellisierung’ von S)
i) Die Erwartungswerte von S und S ∗ sind gleich.
ii) Der mittlere quadratische Fehler von S ∗ ist höchstens so groß wie der von S.
Bew.
i) Es gilt allgemein
"
E[E[X|Y ]] = E
#
X
I{Y =k} E[X|Y = k]
k
E[I{Y =k} X]
Ws({Y = k})
k
h X
i
X
=
E[I{Y =k} X] = E X
I{Y =k} = EX,
=
X
Ws({Y = k}) ·
k
also auch
E[S ∗ ] = E[E[S|V (X)]] = E[S].
ii) z.z.: E[(S ∗ − ϑ)2 ] ≤ E[(S − ϑ)2 ]. Zunächst ist
S ∗ − ϑ = E[S|V (X)] − ϑ = E[(S − ϑ)|V (X)]
E[(S ∗ − ϑ)2 ] = E(E[(S − ϑ)|V (X)]2 ).
40
Um zu zeigen, dass E(E[(S − ϑ)|V (X)]2 ) ≤ E[(S − ϑ)2 ], beobachten wir:
!2
2
E[(S − ϑ)|V (X)] =
X
I{V (X)=k} E[S − ϑ|V (X) = k]
k
=
X
≤
X
I{V (X)=k} E[S − ϑ|V (X) = k]2
k
I{V (X)=k} E[(S − ϑ)2 |V (X) = k]
k
= E[(S − ϑ)2 |V (X)]
und damit
E[E[(S − ϑ)|V (X)]2 ] ≤ E[(S − ϑ)2 ].
Beispiel Seien X1 , . . . , Xn unabhängige p-Münzwürfe. Wir betrachten die Statistik
2
2
S := X1 · X2 zur Schätzung von
P p . Es gilt offensichtlich: Ep S = p , und wir wissen, dass
die Anzahl der Erfolge, K := Xi suffizient ist für p. Also ist die Rao-Blackwellisierung
von S gegeben durch:
S ∗ := E[X1 · X2 |K]
Mit
E[X1 · X2 |K = k] = Ws(X1 = 1, X2 = 1|K = k) =
k k−1
·
n n−1
folgt
S∗ =
K(K − 1)
.
n(n − 1)
Bemerkung Suffiziente Statistiken können offensichtlich nützlich sein für die effiziente
Beschreibung eines Datensatzes sowie zur Erstellung von geeigneten Schätzern. Man
sollte allerdings beachten, dass man damit die Daten stark reduziert und potentielle
Abweichungen von den Modellannahmen nicht mehr erkennenPkann.
Xi = 50. Wir schätzen
Beispiel: X1 , . . . , X100 unabhängige p-Münzwürfe. K :=
p = 1/2. Wenn aber alle Erfolge am Anfang der Serie auftraten und alle Misserfolge am Ende, haben wir durchaus Grund, an den Modellannahmen von unabhängigen
Münzwürfen mit demselben Erfolgsparameter zu zweifeln. Dies ist nicht zu erkennen,
wenn man die Daten auf die Anzahl K der Erfolge reduziert.
41
6
Likelihood-Quotienten-Tests
Die Likelihoodfunktion wird nicht nur eingesetzt, um Parameter zu schätzen, sondern
auch um zu quantifizieren, wie gut Daten zu einer Hypothese (einer Annahme über
einen bestimmten Parameter) passen, und um verschiedene Modelle / Hypothesen zu
vergleichen.
Beispiel Wir betrachten zunächst ein klassisches Beispiel aus der Qualitätskontrolle:
Eine Lieferung, bestehend aus n Einzelstücken, ist zu testen. Ein Anteil p der Einzelstücke ist schlecht, der Rest ist gut. Konsument und Produzent sind sich (z.B.) einig,
dass p ≤ 0.03 annehmbar ist, aber p ≥ 0.15 nicht akzeptabel.
Es werden 20 Stück rein zufällig gezogen, die Anzahl X der schlechten Stücke wird
notiert. Also X ∈ B = {0, 1, . . . , 20}. Man einigt sich auf:
A0 := {0, 1, 2} :
Die Lieferung wird gekauft, falls X ∈ A0
A1 := B \ A0 := {3, 4, . . . , 20} :
Die Lieferung wird abgelehnt, falls X ∈ A1
Das Risiko des Produzenten und des Konsumenten haben wir bereits kennengelernt als
Risiko erster und zweiter Art:
Wsp≤0.03 (X ∈ A1 ) ≤ Wsp=0.03 (X > 2) = 1 − pbinom(2, 20, 0.03) ≈ 0.021.
Wsp≥0.15 (X ∈ A0 ) ≤ Wsp=0.15 (X ≤ 2) = pbinom(2, 20, 0.15) ≈ 0.4.
Der allgemeine Fall Gegeben sei eine ZVe X mit Werten in B, verteilt gemäß der
Dichte (oder der Gewichte) fϑ (x). Es sei ϑ ∈ Θ, wobei Θ die Menge der Parameter
bezeichnet (im Beispiel Θ = [0, 1]). Seien Θ0 , Θ1 zwei disjunkte Teilnehmen von Θ (im
Bsp. Θ0 = [0, 0.003], Θ1 = [0.15, 1]). Ein Test von Θ0 gegen Θ1 teilt den Wertebereich
von X in zwei disjunkte Teilmengen A0 , A1 mit A0 ∪ A1 = B — die Annahmebereiche
für die Hypothesen ϑ ∈ Θ0 bzw. ϑ ∈ Θ1 . Man entscheide dann für Θ0 , falls X ∈ A0 ,
sonst für Θ1 . Wie gehabt:
Risiko 1. Art:
sup Wsϑ (X ∈
/ A0 )
=: α
ϑ∈Θ0
Risiko 2. Art:
sup Wsϑ (X ∈
/ A1 )
=: β.
ϑ∈Θ1
Die Abbildung
ϑ → Wsϑ (X ∈ A0 )
heißt Operationscharakteristik des Tests. Für ϑ ∈ Θ0 soll sie möglichst groß, sonst
möglichst klein sein.
Gesucht ist nun ein Test, der für vorgegebenes Risiko 1. Art (d.h. für vorgegebenes
Signifikanzniveau) das kleinste Risiko 2. Art besitzt (also die größte Testmacht). Im
Spezialfall ist das einfach:
42
6.1
Einfache Hypothese und einfache Alternative
Seien Θ0 = {ϑ0 }, Θ1 = {ϑ1 }. Seien f0 (x), f1 (x) die Verteilungsdichten (bzw. -gewichte)
von X unter ϑ0 bzw. ϑ1 . Wir betrachten den Likelihood-Quotienten
q(x) :=
f0 (x)
.
f1 (x)
Sind die Beobachtungen unter ϑ0 wahrscheinlicher als unter ϑ1 , so ist q(x) > 1, sonst
q(x) ≤ 1. Je größer das Verhältnis dieser Gewichte wird, desto mehr sprechen die Daten
für ϑ0 (und umgekehrt).
Das Lemma von Neyman und Pearson Sei c > 0 fest und so gewählt, dass
f0 (x)
A(c) := x ∈ B ≥c
f1 (x)
ein Annahmebereich für ϑ0 zum Niveau 1 − α ist und sein Niveau voll ausschöpft, so
dass
Wsϑ0 (X ∈
/ A(c)) = α.
Dann ist der Test mit Annahmebereich A0 = A(c) unter allen Tests von {ϑ0 } gegen
{ϑ1 } mit Signifikanz α der Mächtigste.
Bew.:
Sei A ein weiterer Annahmebereich für {ϑ0 } zum Niveau 1 − α. Dann ist zu zeigen:
Wsϑ1 (X ∈ A) ≥ Wsϑ1 (X ∈ A(c)).
Wir betrachten zunächst
Z
Z
Wsϑ1 (X ∈ A) =
f1 (x)dx =
A
Z
A(c)
Z
f1 (x)dx −
f1 (x)dx +
A\A(c)
f1 (x)dx.
A(c)\A
Auf der Menge A \ A(c) ist f1 > f0 /c, und auf A(c) ist f1 ≤ f0 /c. Daher:
Z
Z
Z
1
1
Wsϑ1 (X ∈ A) ≥
f1 (x)dx +
f0 (x)dx −
f0 (x)dx
c A\A(c)
c A(c)\A
A(c)


1
=
f1 (x)dx + 
c
A(c)

Z
Z
f0 (x)dx
| A {z }
=Wsϑ0 (X∈A)≥1−α
Z
−
A(c)
|
f0 (x)dx
{z
}






=Wsϑ0 (X∈A(c))=1−α
Z
≥
f1 (x)dx = Wsϑ1 (X ∈ A(c)).
A(c)
43
6.2
Generalisierte Likelihood-Quotiententests
Tests nach Neyman und Pearson testen eine einfache Hypothese (ein möglicher Wert
für ϑ) gegen eine einfache Alternative. Daher war es relativ leicht, ihre Optimalität zu
zeigen. Likelihood-Quotiententests sind allerdings viel breiter anwendbar, und obwohl
nicht zwangsläufig optimal, so funktionieren sie häufig gut und spielen daher beim Testen
eine ähnliche Rolle wie das Maximum-Likelihood-Prinzip in der Schätztheorie.
Wir betrachten unser Beispiel vom Anfang: Seien Θ0 , Θ1 zwei disjunkte Teilmengen
von Θ (d.h. nicht mehr zwangsläufig einelementig, wie bei Neyman-Pearson), mit Θ0 ∪
Θ1 = Θ. Dann ist der verallgemeinerte Likelihood-Quotient definiert als
Q∗ (x) :=
supϑ∈Θ0 fϑ (x)
.
supϑ∈Θ1 fϑ (x)
Aus technischen Gründen bevorzugt man meistens die folgende Größe:
Q(x) :=
supϑ∈Θ0 fϑ (x)
,
supϑ∈Θ fϑ (x)
wobei Q(x) = min(Q∗ (x), 1). (Denn ist der ML-Schätzer für ϑ in Θ0 , so ist Q(x) = 1
und Q∗ (x) ≥ 1, ist der ML-Schätzer in Θ1 , so ist Q(x) = Q∗ (x).)
Große Werte von Q sprechen für H0 : ϑ ∈ Θ0 . Daher ist analog zu Neyman-Pearson
der Annahmebereich A0 für H0 festgelegt durch alle Beobachtungen, für die Q größer
ist als eine Schranke c: A0 := {x|Q(x) ≥ c}, für ein c ∈ R.
Beispiel: Normalverteilung Seien X1 , . . . , Xn unabhängig und identisch N (µ, σ 2 )verteilt, mit bekanntem σ 2 . Sei H0 : µ = µ0 und H1 : µ 6= µ0 , d.h. Θ0 = {µ0 },
Θ1 = R \ {µ0 }. Der Zähler von Q(X) ist damit einfach gegeben durch
1 P
2
1
√
e− 2σ2 (Xi −µ0 ) .
n
( 2πσ)
Der Nenner ist der Wert von f am ML-Schätzer X̄ von µ :
1 P
2
1
√
e− 2σ2 (Xi −X̄) .
n
( 2πσ)
Damit ist der Likelihood-Quotient gegeben durch
X
1 X
2
2
Q(X) = exp − 2
(Xi − µ0 ) −
(Xi − X̄)
2σ
Q wird klein, wenn −2 log Q groß wird:
−2 log Q(X) =
n(X̄ − µ )2
X
1 X
0
2
2
(X
−
µ
)
−
(X
−
X̄)
=
.
i
0
i
σ2
σ2
Hier treffen wir einen alten Bekannten, denn −2 log Q ist gerade das Quadrat der zStatistik zum Test der Hypothese H0 : µ = µ0 . Z ∼ N (0, 1), also −2 log Q(X) ∼ χ2 (1).
44
Asymptotische Verteilung von Q Wenn die Verteilung von Q unter H0 bekannt ist,
ist es leicht, einen Annahme- und Ablehnungsbereich für H0 zu definieren und damit
H0 gegen ihre Alternative zu testen. Die Verteilung von Q ist nicht immer bekannt,
aber unter bestimmten Regularitätsvoraussetzungen an die Dichte von X ist −2 log Q
asymptotisch χ2 -verteilt mit (dim(Θ) − dim(Θ0 )) Freiheitsgraden. Im obigen Beispiel
sogar exakt: −2 log Q ∼ χ2 (1) = χ2 (1 − 0) = χ2 (dim(Θ) − dim(Θ0 )).
Beispiel: Multinomialverteilung Auch hier ist der Likelihood-Quotiententest (zumindest asymptotisch) äquivalent zu einem häufig eingesetzten Test, den wir im nächsten
Abschnitt diskutieren werden: dem χ2 -Test zum Vergleich beobachteter und erwarteter
Häufigkeiten.
Y1 , . . . , Yn nehmen Werte in k Kategorien an. X1 , . . . , Xk seien die beobachteten
Häufigkeiten der k Kategorien. Dann ist X = (X1 , . . . , Xk ) multinomialverteilt mit Parametern n und (p1 , . . . , pk ). Die Menge der möglichen Parameter ist
X
Θ = {(p1 , . . . , pk )|pi ≥ 0,
pi = 1}.
Wir untersuchen wieder eine einfache Hypothese:
Θ0 := {(π1 , . . . , πk )},
mit festen Gewichten π1 , . . . , πk ,
X
πi = 1.
Für den Nenner von Q brauchen wir die ML-Schätzer der Zellbesetzungen (p1 , . . . , pk ).
Dies sind gerade die relativen Häufigkeiten, p̂i = Xi /n (Übung).
Der Likelihood-Quotient ist damit
Q(X) =
X1
n!
X1 !···Xk ! π1
X1
n!
X1 !···Xk ! p̂1
· · · πkXk
k
· · · p̂X
k
Also:
−2 log Q(X) = −2
X
Xi log
πi
p̂i
=
Y πi Xi
= 2n
p̂i
X
.
p̂i log
p̂i
πi
.
Auch diese Größe ist entsprechend obigerP
Bemerkung approximativ χ2 (dim(Θ)−dim(Θ0 )) =
2
χ (k −1)−verteilt (dim Θ = k −1 wegen pi = 1). Außerdem ist −2 log Q asymptotisch
gleich der Pearsonschen Teststatistik X für die Hypothese Hπ : p = (π1 , . . . , πk ):
X :=
X (Xi − nπi )2
nπi
=:
X (Bi − Ei )2
Ei
,
wobei Bi := Xi die beobachteten Häufigkeiten, und Ei := nπi die erwarteten Häufigkeiten in den k Kategorien bezeichnen.
Die asymptotische Gleichheit von X und −2 log Q sieht man an einer Taylor-Entwicklung:
Für x nahe x0 ist
x
g(x) = x log
x0
approximierbar durch
g(x) ≈ g(x0 ) + (x − x0 )g 0 (x0 ) +
(x − x0 )2 00
(x − x0 )2
g (x0 ) = (x − x0 ) +
.
2
2x0
45
Damit ist (für p̂ = (p̂1 , . . . , p̂k ) nahe π = (π1 , . . . , πk ), d.h. für genügend großes n unter
der Nullhypothese p = π)
X
p̂i
−2 log Q = 2n
p̂i log
πi
X
(πi − p̂i )2
(p̂i − πi ) +
≈ 2n
2πi
X
X (πi − p̂i )2 X (np̂i − nπi )2
=
= X.
= 2n
(p̂i − πi ) + n
πi
nπi
7
Der χ2 -Test
Wir betrachten die Pearsonsche Teststatistik für feste hypothetische Gewichte:
Satz (Pearson, 1900)
(n)
(n)
X(n) = (X1 , . . . , Xk ) sei multinomial (n; π1 , . . . , πk )-verteilt. Dann gilt:
X :=
k
(n)
X
(X − nπi )2
i
nπi
i=1
−→ χ2 (k − 1)
für n → ∞ in Verteilung.
(n)
Die erste Plausibilitätsüberlegung hierzu ist die folgende: Für jedes feste i ist Xi ∼
Bi(n, πi ), also gilt nach dem Satz von de Moivre-Laplace:
!2
(n)
Xi − nπi
p
−→ χ2 (1) für n → ∞ in Verteilung.
nπi (1 − πi )
(n)
2
P
Xi −nπi
(n)
Wären alle Xi unabhängig, so würde gelten i √
→ χ2 (k). Ein Freiheitsnπi (1−πi )
(n)
Xi
grad geht verloren durch die Abhängigkeit der
(denn ihre Summe ist deterministisch
n). Die passende Varianz im Nenner sieht man beim Übergang zur Poissonverteilung:
(n)
(n)
Fishers heuristischer Beweis Wir poissonisieren: Seien N1 , . . . , Nk unabhängig
(n)
mit Ni ∼ P o(nπi ). Dann ist die Summe der Ni nicht mehr deterministisch n, sondern
poissonverteilt mit Parameter n:
X (n)
N (n) :=
Ni ∼ P o(n).
(n)
Die ZVe Ni
wertsatz:
∼ P o(nπi ) hat Varianz nπi , und daher folgt mit dem zentralen Grenz(n)
Ni
√
− nπi
−→ N (0, 1)
nπi
für n → ∞ in Verteilung.
(n)
Damit konvergiert der Vektor Gn mit Einträgen (
Rk :
Ni −nπ
√
nπi )i
in Verteilung gegen eine
standardnormalverteilte Zufallsvariable im
!
(n)
Ni − nπi
Gn :=
−→ Z für n → ∞ in Verteilung.
√
nπi
i=1,...,k
46
Aus dem Satz von Fisher wissen wir, dass die Projektionen von Z auf orthogonale Unterräume U1 ,U2 von Rk unabhängig sind und ihre Längenquadrate χ2 -verteilt mit Freiheitsgraden dim(U1 ) und dim(U2 ). Wir zerlegen Gn , was ja in Verteilung gegen Z konvergiert, durch orthogonale Projektion (und projizieren damit sozusagen den zusätzlichen
Freiheitsgrad der zufälligen Gesamtzahl N (n) weg). Projektion auf den von
 √ 
π1
 .. 
e :=  . 
√
πk
aufgespannten Unterraum liefert
1
eT Gn = he, Gn i = √ (N (n) − n) −→ eT Z für n → ∞ in Verteilung,
n
wobei nach dem Satz von Fisher eT Z ∼ N (0, 1).
Wir zerlegen Gn damit in die Projektion Pe Gn auf e und die Projektion Pe⊥ Gn auf
das orthogonale Komplement von e:
Gn = Pe Gn + Pe⊥ Gn ,
√
1
T
(n) √
Pe Gn = (e Gn )e = √ (N
πi − n πi )
n
i=1,...,k
!
(n)
√
Ni
1
Pe⊥ Gn = Gn − Pe Gn = √
√ − N (n) πi
πi
n
i=1,...,k
Es gilt Pe⊥ Gn → Pe⊥ Z in Verteilung, und damit
||Pe⊥ Gn ||2 =
X (N (n) − N (n) πi )2
i
nπi
−→ χ2 (k − 1).
Außerdem ist ||Pe⊥ Gn ||2 (→ ||Pe⊥ Z||2 ) asymptotisch unabhängig von ||Pe Gn ||2 (→ ||Pe Z||2 ) =
1
(n) − n)2 und damit von N (n) .
n (N
Abschließend beobachten wir die Beziehung zwischen der Poisson- und der Multino(n)
(n)
mialverteilung: Bedingt unter {N (n) = n} ist (N1 , . . . , Nk ) multinomial(n, π1 , . . . , πk )verteilt:
(n)
Ws({N1
(n)
= y1 , . . . , N k
= yk }|{N (n) = n})
(n)
=
=
Ws({N1
e−nπ1 (nπy11 )!
y1
· · · e−nπk (nπykk)!
yk
n
=
(n)
= y1 , . . . , Nk = yk } ∩ {N (n) = n})
Ws({N (n) = n})
n
y1 · · ·
e−n nn!
yk
π1y1 · · · πkyk .
Für einen rigorosen Beweis brauchen wir Wissen über Normalverteilungen auf Rk :
47
7.1
Normalverteilungen auf Rk
Kovarianzmatrizen Y = (Y1 , . . . , Yk )T sei Rk -wertige Zufallsvariable mit Erwartungswert m := EY . Sei Y 0 := Y − m. Dann ist die Matrix C mit Einträgen
Cij := Cov(Yi , Yj ) = E[(Yi − mi )(Yj − mj )] = E[Yi0 Yj0 ]
die Kovarianzmatrix von Y .
Jede Kovarianzmatrix ist symmetrisch und positiv semidefinit.
Denn für a = (a1 , . . . , ak )T ∈ Rk ist
X
X
X
X
aT Ca =
ai Cov(Yi , Yj )aj = Cov
ai Yi ,
aj Yj = Var
ai Yi ≥ 0.
i,j
Jede symm., positiv semidefinite Matrix tritt als Kovarianzmatrix auf.
C sei k × k-Matrix, symmetrisch und positiv semidefinit. Dann gibt es Eigenwerte σ12 ≥
σ22 ≥ . . . ≥ σk2 ≥ 0 und eine zugehörige ONB aus Eigenvektoren (Beweis: Lineare
Algebra.) Das heißt, es gibt eine Darstellung von C der Gestalt:
C=
k
X
σi2 ei eTi .
i=1
P
Denn in der Tat ist Cei = σi2 ei = ( kj=1 σj2 ej eTj )ei .
Definition
Y heißt normalverteilt auf Rk mit Mittelwert m und Kovarianzmatrix C (Y ∼ N (m, C))
⇐⇒ Y hat Erwartungswert m und Kovarianzmatrix C, und ∀a ∈ Rk : aT Y ist normalverteilt auf R.
Satz
P
Sei C = ki=1 σi2 ei eTi . Dann gilt:
k
X
N (0, C) = L
σi Zi ei ,
i=1
wobei Z1 , . . . , Zk unabhängig und N (0, 1)-verteilt auf R. Denn mit Y :=
X
X
X
E[Y Y T ] = E[(
σi Zi ei )(
σj Zj ej )] =
σi2 ei eTi .
i
j
P
σi Zi ei ist
i
P
Beispiel C = ri=1 ei eTi mit r < k, ei orthonormal. Dann ist C eine Projektionsmatrix
auf einen r-dimensionalen Teilraum von Rk . Dann ist N (0, C) die Standardnormalverteilung auf dem von e1 , . . . , er aufgespannten Teilraum von Rk .
48
Wie im Eindimensionalen gilt auch im Rk der (nun multivariate) zentrale Grenzwertsatz: Seien Y1 , . . . , Yn u.i.v. im Rk mit Mittelwert 0 und Kovarianzmatrix C. Dann
gilt:
n
1 X
√
Yi −→ N (0, C) für n → ∞ in Verteilung.
n
i=1
(Beweis Vorlesung Höhere Stochastik, Fr. 14.12.07, 10-12 Uhr).
Beweis (Satz von Pearson):
Seien Y1 , . . . , Yn u.i.v. mit Werten in {1, . . . , k} und Verteilungsgewichten (πi )i=1,...,k .
Seien für i = 1, . . . , n
 √1

π1 I{Yi =1}


..
Vi := 
.
.
1
√ I{Y =k}
i
πk
√
√
Dann sind alle Vi unabhängig identisch verteilt mit Erwartungswert e = ( π1 , . . . , πk )T
und Kovarianzmatrix
√
1
1
√
√
Cij = E
= δij − πi πj ,
√ I{Y =i} − πi · √ I{Y =j} − πj
πi
πj
also C = I − eeT . Damit folgt
√

 √1
π 1 X 1 − n π1
X
1
1 

..
T
√
Vi − ne = √ 
 → N (0, I−ee ) für n → ∞ in Verteilung.
.
n
n
√
√1 Xk − n πk
πk
Also gilt
X Xi − nπi 2 1 X
2 → ||Z||2
√
=
V
−
ne
√
i
nπi
n
mit Z ∼ N (0, I − eeT ). Laut obigem Beispiel ist Z damit standardnormalverteilt auf
Rk−1 , denn I − eeT ist Projektionsmatrix auf einen (k − 1)-dimensionalen Unterraum.
Damit ist die Pearsonsche Statistik X approximativ χ2 (k − 1)-verteilt.
7.2
Der χ2 -Test
Satz (Pearson, Fisher)
(X1 , . . . , Xk ) seien beobachtete Häufigkeiten und multinomial (n, π)-verteilt. Gegeben
sei eine Hypothese: π ∈ F , wobei F eine r-dimensionale Hyperfläche des Simplex
X
Θ := {(p1 , . . . , pk )|
pi = 1, pi ≥ 0}
ist. p̂F sei der ML-Schätzer für π unter der Hypothese π ∈ F . Dann ist die Teststatistik
T :=
k
X
(Xi − np̂F )2
i
np̂Fi
i=1
unter π ∈ F für große n annähernd χ2 (k − 1 − r)-verteilt.
49
Beispiel:
k = 4. Y1 , . . . , Yn fallen in 4 mögliche Kategorien, mit
p11 p12 X
Θ=
pij = 1, pij ≥ 0
p21 p22 Offensichtlich gilt dim(Θ) = 3. Sei nun die Hypothese
αβ
α(1 − β)
F :=
0 ≤ α ≤ 1, 0 ≤ β ≤ 1 ,
(1 − α)β (1 − α)(1 − β) mit dim(F ) = 2. Was sind die ML-Schätzer für α und β für gegebene Häufigkeiten
x11 , x12 , x21 und x22 ? Wir maximieren die Multinomialgewichte:
fαβ (x) =(αβ)x11 · (α(1 − β))x12 · ((1 − α)β)x21 · ((1 − α)(1 − β))x22 · c
mit xi+
=αx1+ (1 − α)x2+ β x+1 (1 − β)x+2 · c,
P
P
:= j xij und x+i := j xji . Durch Ableiten der log-likelihood sieht man:
α̂ =
x1+
n
β̂ =
x+1
.
n
Der χ2 −Test auf Unabhängigkeit
Das obige Beispiel mit k = 4 ist ein Spezialfall für den χ2 −Test auf Unabhängigkeit.
Gegeben sind dabei zwei Merkmale A und B in I bzw. J Abstufungen, also insgesamt
k = I · J Kategorien. Wir beobachten die Häufigkeiten xij in den Kategorien (ij). pij sei
die Wahrscheinlichkeit, dass ein zufällig gezogenes Individuum in Kategorie (ij) liegt.
Y1 , . . . , Yn seien u.i.v. mit Gewichten pij . Die Hypothese ist:
pij = αi βj ,
wobei αi die Wahrscheinlichkeit bezeichnet, in Merkmal A in Kategorie i zuP
liegen,
und
β
entsprechend
die
Wahrscheinlichkeit
für
Kategorie
j
in
Merkmal
B,
mit
αi =
P j
βj = 1. Die Hypothese sagt also, dass die beiden Merkmale in der Population unabhängig sind, mit dim(F ) = (I − 1) + (J − 1) = I + J − 2. Die ML-Schätzer ermittelt
man analog zu oben:
x+j
xi+
α̂i :=
β̂j =
,
n
n
mit xi+ und x+j wie oben. Dann folgt mit dem Satz von Pearson und Fisher: Ist
(X11 , X12 , . . . , XIJ ) multinomial (n, α1 β1 , α1 β2 , . . . , αI βJ )-verteilt, so ist
X (Xij − nα̂i β̂j )2
i,j
nα̂i β̂j
=
Xi+ X+j 2
n
Xi+ X+j
n
X Xij −
für große n approximativ χ2 (IJ − 1 − (I + J − 2)) = χ2 ((I − 1)(J − 1))-verteilt.
50
8
8.1
Vergleich von mehr als zwei Stichproben
Erinnerung: Geometrie beim t-Test
Wir erinnern uns an das Vorgehen beim t-Test zum Vergleich von zwei unabhängigen
Stichproben und an die geometrische Situation in Sektion 3.6. Gegeben sind zwei Stichproben X11 , . . . , X1n1 und X21 , . . . , X2n2 , alle Xij unabhängig und normalverteilt mit
gleicher Varianz σ 2 , aber eventuell mit unterschiedlichen Erwartungswerten E[X1i ] = µ1
für i = 1, . . . , n1 , und E[X2j ] = µ2 für j = 1, . . . , n2 . Das Modell ist also:
Xij = µi + σZij ,
wobei Zij ∼ N (0, 1) und unabhängig,
i = 1, 2,
j = 1, . . . , ni ,
mit µ1 , µ2 ∈ R. Oder in Vektorschreibweise:
X = µ + σZ,
mit X = (X11 , . . . , X1n1 , X21 , . . . , X2n2 )t , µ = (µ1 , . . . , µ1 , µ2 , . . . , µ2 )t und Z standardnormalverteilt im Rn1 +n2 . Das allgemeine Modell sagt also
µ∈M
mit M := {(µ1 , . . . , µ1 , µ2 , . . . , µ2 )t |µ1 , µ2 ∈ R},
dim(M) = 2.
Wir untersuchen die Nullhypothese H0 : µ1 = µ2 und damit die Frage, ob µ eigentlich
in einem eindimensionalen Unterraum D von M liegt mit
D := {(µ, . . . , µ)t |µ ∈ R}.
Um dies zu tun, zerlegen wir den Vektor X in die orthogonalen Projektionen auf die
Unterräume D, E (mit M = D ⊕ E) und auf M⊥ :
X = PD X + PE X + PM⊥ X
  
 
1
x̄1 − x̄
x11 − x̄1
 ..  
 
..
..
 .  
 
.
.





= x̄   + 
+

 1   x̄2 − x̄   x21 − x̄2
..
..
..
.
.
.



,


P i
wobei x̄i := n1i nj=1
Xij den Gruppenmittelwert in Gruppe i bezeichnet und x̄ :=
P
1
i,j Xij den globalen Mittelwert von X.
n1 +n2
Geometrische Interpretation der t-Statistik
Nun ist die t-Statistik gerade:
||PE X||
x̄1 − x̄2
√
T := p
=
.
||PM⊥ X||/ n1 + n2 − 2
s 1/n1 + 1/n2
Unter der Nullhypothese: µ ∈ D ist wegen D⊥E: PE µ = 0, und damit PE X = PE σZ.
Damit ist nach dem Satz von Fisher unter der Nullhypothese die t-Statistik (salopp
geschrieben):
p
χ2 (1)
N (0, 1)
=p
∼ t(n1 +n2 −2).
T =p
√
√
2
2
χ (n1 + n2 − 2)/ n1 + n2 − 2
χ (n1 + n2 − 2)/ n1 + n2 − 2
51
Definition (Fisher-Verteilung)
Seien X1 ∼ χ2 (k1 ) und X2 ∼ χ2 (k2 ) unabhängige Zufallsgrößen. Dann heißt die Verteilung von
X1 /k1
X2 /k2
Fisher-Verteilung mit k1 und k2 Freiheitsgraden (man sagt auch k1 Zähler- und k2
Nennerfreiheitsgrade).
Beobachtung
Ist T student-verteilt mit n Freiheitsgraden, so ist T 2 Fisher -verteilt mit 1 und n Freiheitsgraden. Das Quadrat der obigen t-Statistik ist also Fisher(1, n1 +n2 −2)-verteilt. Ein
(zweiseitiger) t-Test zum Test der Hypothese µ1 = µ2 gegen µ1 6= µ2 zum Niveau 1 − α
mit Hilfe von entsprechenden student(n1 +n2 −2)-Quantilen ist also äquivalent zu einem
Test, der die Statistik T 2 und die entsprechenden Quantile der Fisher(1, n1 + n2 − 2)Verteilung verwendet.
8.2
Verallgemeinerung auf k(> 2) Gruppen
70
65
60
Gerinnungszeit (s)
Wie kann man untersuchen, ob die Mittelwerte von mehr als 2 Gruppen sich unterscheiden? Ein Beispiel: 24 Wunden von Ratten wurden mit je einer von 4 verschiedenen
Behandlungen (A, B, C, D) behandelt. Hat die Behandlung einen Einfluss auf die Blutgerinnungszeit? Abbildung 10 zeigt, dass die Mittelwerte der vier Gruppen sich unterscheiden. Hätte das Zufall sein können? Wie groß sind die Unterschiede zwischen den
vier Mittelwerten, die wir durch Zufall erwarten?
A
B
C
D
Behandlung
Abbildung 10: Blutgerinnungszeit bei vier verschiedenen Wundbehandlungen
Wir gehen ganz analog zum 2-Stichproben-t-Test vor. Das zugrundeliegende Modell
für k Gruppen:
X1j = µ1 + σZ1j
..
.
für j = 1, . . . , n1
Xkj = µk + σZkj
für j = 1, . . . , nk ,
52
also
X = µ + σZ
mit
µ∈M
und M := {(µ1 , . . . , µ1 , . . . , µk , . . . , µk )t |µ1 , . . . , µk ∈ R}, dim(M) = k. Wir untersuchen
wieder die Nullhypothese µ1 = . . . = µk , also
µ∈D
mit
D := {(µ, . . . , µ)t |µ ∈ R}
und projizieren dazu X orthogonal auf die zueinander orthogonalen Unterräume D, E
(mit M = D ⊕ E und somit dim(E) = k − 1) und M⊥ :
X = PD X + PE X + PM⊥ X
  
 
1
x̄1 − x̄
x11 − x̄1
 ..  
 
..
..
 
 .  
.
.
+
+
= x̄ 
 1   x̄k − x̄   xk1 − x̄k
  
 
..
..
..
.
.
.



.


Wir betrachten die Teststatistik
F :=
||PE X||2 /(k − 1)
.
||PM⊥ X||2 /(n − k)
(4)
In jedem Fall gilt µ ∈ M, und damit ist PM⊥ µ = 0, und es gilt nach dem Satz von
Fisher
1
||P ⊥ X||2 = ||PM⊥ Z||2 ∼ χ2 (n − k).
σ2 M
Für den Zähler von F gilt unter der Nullhypothese (µ ∈ D) weiterhin PE µ = 0 und
damit
1
||PE X||2 = ||PE Z||2 ∼ χ2 (k − 1).
σ2
Also gilt unter der Nullhypothese, d.h. wenn alle Gruppenmittelwerte gleich sind:
F :=
||PE X||2 /(k − 1)
∼ F isher(k − 1, n − k).
||PM⊥ X||2 /(n − k)
Trifft die Nullhypothese aber nicht zu, d.h. ist µ ∈
/ D, so ist PE µ 6= 0 und damit der
Zähler von F tendenziell größer.
Klassische einfaktorielle Varianzanalyse
Große Werte von F deuten also auf Abweichungen von der Nullhypothese hin. Ein Test
der Nullhypothese zum Niveau 1 − α hätte damit den Annahmebereich
{F |F ≤ qf (1 − α, k − 1, n − k)},
wobei qf (1 − α, k − 1, n − k) das 1 − α-Quantil der Fisher-Verteilung mit k − 1 und n − k
Freiheitsgraden bezeichnet.
Die klassische Varianzanalyse (kurz: ANOVA - ANalysis Of VAriance) zerlegt also
eigentlich nur die Variabilität der Daten, ||X||2 in einen gemeinsamen Anteil, ||PD X||2 ,
in einen Anteil, der die Unterschiede zwischen den Gruppenmittelwerten repräsentiert,
53
||PE X||2 , und in einen Anteil, der die zufällige Variabilität innerhalb der Gruppen repräsentiert, ||PM⊥ X||2 . Wegen E||PM⊥ X||2 = σ 2 (n − k) ist der Nenner von F ,
s2 := ||PM⊥ X||2 /(n − k),
ein erwartungstreuer Schätzer für σ 2 . Wegen Pythagoras ist
||X||2 = ||PD X||2 +
||PE X||2
| {z }
+
Treatmentquadratsumme
= nx̄2 +
X
ni (x̄i − x̄)2 +
i
ni
k X
X
||PM⊥ X||2
| {z }
Fehlerquadratsumme
(xij − x̄i )2 .
i=1 j=1
Im Blutgerinnungsbeispiel
haben wir n1 = 4, n2 = n3 = 6, n4 = 8, x̄1 = 61, x̄2 =
P
66, x̄3 = 68, x̄4 = 61, n = ni = 24 und x̄ = 64 und damit folgende Zerlegung:
X = PD X + PE X + PM⊥ X
mit xij = x̄ + (x̄i − x̄) + (xij − x̄i ),

 
 
 

62
64
−3
1
 60   64   −3   −1 

 
 
 

 63   64   −3   2 

 
 
 

 59   64   −3   −2 

 
 
 

 63  =  64  +  2  +  −3  ,

 
 
 

 67   64   2   1 

 
 
 

 .   .   .   . 
.
.
.
.
 .   .   .   . 
59
64
−3
−2
mit den entsprechenden Quadratsummen ||PE X||2 = 228 und ||PM⊥ X||2 = 112, und
damit
228/3
||PE X||2 /(k − 1)
=
≈ 13.6.
F =
2
||PM⊥ X|| /(n − k)
112/20
0.0 0.2 0.4 0.6
Dichte
Abbildung 11 zeigt, dass so große Unterschiede unter der Nullhypothese sehr selten
vorkommen (p < 0.001).
13.6
0
5
10
15
x
Abbildung 11: Dichte der Fisher-Verteilung mit 3 und 20 Freiheitsgraden.
54
8.3
Paarweise Vergleiche
In der klassischen einfaktoriellen Varianzanalyse wird die Nullhypothese untersucht, dass
alle Gruppenmittelwerte gleich sind. Welche Schlüsse erlaubt ein signifikantes Ergebnis?
Welche Gruppen unterscheiden sich?
Zunächst kann man zurückkehren zu den paarweisen Vergleichen, die wir aus dem tTest kennen. Für ein fest gewähltes Paar (j, `) von Gruppen können wir obiges Vorgehen
einschränken, um nur Unterschiede zwischen diesen beiden Gruppen zu untersuchen: Wir
wählen von M einen zweidimensionalen Teilraum
Mj,` := {(0, . . . , 0, a, . . . , a, 0, . . . , 0, b, . . . , b, 0, . . . , 0)t |a, b ∈ R},
bei dem die Einträge aller anderen Gruppen Null sind. Analog
Dj,` := {(0, . . . , 0, a, . . . , a, 0, . . . , 0, a, . . . , a, 0, . . . , 0)t |a ∈ R} ⊂ Mj,` ,
und Ej,` sei das orthogonale Komplement von Dj,` in Mj,` . Wie bisher ist
PEj,` X = (0, . . . , 0, x̄j , . . . , x̄j , 0, . . . , 0, x̄l , . . . , x̄l , 0, . . . , 0)t ,
und damit gilt unter der Nullhypothese µj = µ` :
Fj,` :=
||PEj,` X||2 /1
∼ F isher(1, n − k),
||PM⊥ X||2 /(n − k)
also
Tj,` :=
p
Fj,` ∼ student(n − k).
Also ist
"
Ij,` := x̄j − x̄l −
s
1
1
+ s · qt(1 − α/2), x̄j − x̄l +
nj
n`
s
#
1
1
+ s · qt(1 − α/2)
nj
n`
ein Konfidenzintervall für µj − µ` zum Niveau 1 − α. Man bemerke: Dieses Vorgehen
ist eine Mischung aus klassischem t-Test und klassischer einfaktorieller Varianzanalyse,
da zwar nur zwei Gruppen verglichen werden, aber der Nenner der Teststatistik, s2 , aus
dem gesamten Datensatz geschätzt wird.
8.4
Multiples Testen
Hat man ein bestimmtes Paar (j, `) im Auge, eignet sich das eben beschriebene Vorgehen
gut.
Aber was, wenn man alle Paare miteinander vergleichen will? Testet man jedes der
k
2 Paare jeweils zum Signifikanzniveau α, so ist natürlich die Wahrscheinlichkeit, dass
mindestens ein Test anschlägt, obwohl µ1 = µ2 = . . . = µk , nicht mehr α, sondern
k
größer. Bei k2 unabhängigen Tests wäre sie 1 − (1 − α)(2) , und für 0 < α < 1 ist
k
(1 − α)(2) < 1 − α.
55
8.4.1
Bonferroni-Korrektur
Eine einfache, aber recht pessimistische
Möglichkeit, dieses Problem in den Griff zu
k
bekommen, ist, α durch α/ 2 zu ersetzen und die entsprechenden Quantile für den
Test zu verwenden. Die Idee dahinter:
k
Ws(mind. ein Test schlägt an) = Ws({Test 1 schlägt an} ∪ . . . ∪ {Test
schlägt an})
2
≤
(k2)
X
i=1
k
Ws(Test i schlägt an) =
α
2
k
Also ist 1 − 2 α eine einfache obere Schranke für (1 − α)(2) . Allerdings sind die resultierenden Konfidenzintervalle recht groß.
k
8.4.2
Simultane Konfidenzintervalle nach Tukey
Wenn alle Gruppen gleich groß sind (n1 = n2 = . . . = nk =: m), kann man direkt
simultane Konfidenzintervalle für alle Paare µj − µ` bilden. Sei dafür zunächst
√
√ c
:= x̄j − x̄` − c · s/ m, x̄j + x̄` + c · s/ m
∀j, `
Ij,`
Für jedes Paar (j, `) bilden wir so ein Intervall mit derselben Breite, die von c abhängt.
Wie groß ist c zu wählen, damit
c
1 − α = Ws(µj − µ` ∈ Ij,`
∀(j, `))
√
√
= Ws(x̄j − x̄` − c · s/ m ≤ µj − µ` ≤ x̄j − x̄` + c · s/ m ∀(j, `))
√
= Ws(max m/s |(x̄j − µj ) − (x̄` − µ` )| ≤ c)
(j,`)
√
√
m(x̄j − µj )
m(x̄` − µ` )
σ
= Ws
max
− min
≤c
j
`
s
σ
σ
√
Die Terme m(x̄σi −µi ) , i = 1, . . . , k, sind unabhängig und N (0, 1)-verteilt. Das bedeutet,
wir können für k unabhängige und N (0, 1)-verteilte ZVe Z1 , . . . , Zk die obige Wahrscheinlichkeit umschreiben zu
!
maxj Zj − min` Z`
p
1 − α = Ws
≤c .
s2 /σ 2
Weiterhin gilt
L
√
und s und
m(x̄i −µi )
σ
s2
σ2
=L
||PM⊥ X||2
(n − k)σ 2
=
1
χ2 (n − k),
n−k
sind unabhängig. Daher muss man c so wählen, dass
!
maxj Zj − min` Z`
p
1 − α = Ws
≤c ,
Y /g
56
wobei Z1 , . . . , Zk unabhängig und N (0, 1)-verteilt und unabhängig von Y ∼ χ2 (g). Die
Verteilung von
maxj Zj − min` Z`
p
Y /g
heißt studentsche Spannweitenverteilung mit Parametern k (Anzahl der Gruppen) und
n − k (Anzahl der Freiheitsgrade im Nenner).
Zahlenbeispiele
Für k = 4, n = 24, α = 0.05 findet man
pα, k, n − k) = 3.96. Mit der
p c =qtukey(1 −
1/n
+
1/n
=
2/m) ein Konfidenzintervall
Bonferroni-Korrektur hätte man (mit
j √
`
√
mit Faktor qt(1 − α/12, 6 + 6 − 2) · 2 ≈ 3.28 · 2 = 4.63.
Für k = 6, n = 36, α = 0.05 erhält man mit Tukey: c = 4.3, mit Bonferroni 5.41.
Für k = 10, n = 60, α = 0.05 erhält man mit Tukey: c = 4.68, mit Bonferroni 6.39.
8.5
Lineare Kontraste
Außer paarweisen Tests kann man auch andere Fragen stellen, z.B.: Ist die Differenz
µ1 − µ2 so groß wie die Differenz µ3 − µ4 , also: µ1 − µ2 − (µ3 − µ4 ) = 0? All dies sind
Beispiele für sogenannte lineare Kontraste, d.h. Ausdrücke der Form
k
X
ci µi
mit
X
ci = 0.
i=1
Wir suchen nach simultanen Konfidenzintervallen für alle linearen Kontraste von µ,
d.h. für alle
X
X
κc =
ci µi mit
ci = 0.
Konfidenzintervall für einen Kontrast
P
P
P
Für einen einzigen Kontrast κc = ci µi gilt mit κ̂c := ci x̄i und τc2 := c2i :
X
X
ci x̄i = N
ci µi , σ 2 /m · τc2 .
L(κ̂) = L
Also ist ein (1 − α)–Konfidenzintervall für κ gegeben durch
√
√
Iκ := κ̂ − s/ m · τc · qt(1 − α/2, n − k), κ̂ + s/ m · τc · qt(1 − α/2, n − k) .
(Wir schreiben κ statt κc .)
Simultane Konfidenzintervalle für alle linearen P
Kontraste
Wir suchen ein γ so, dass für alle c = (c1 , . . . , ck ) mit
ci = 0 gilt:
√
√
Iκγ := κ̂ − s/ m · τc · γ, κ̂ + s/ m · τc · γ
ist ein (1 − α)-Konfidenzintervall für den Kontrast κ, d.h. so, dass
√
||κ̂ − κ|| m
γ
1 − α = Ws(κ ∈ Iκ ∀κ) = Ws max
≤γ
c
τc
s
Dazu machen wir zunächst zwei Beobachtungen:
57
(5)
Beobachtung 1
Für µ ∈ M = D ⊕ E zerlegen wir µ in seine orthogonalen Projektionen auf D und E:
µ = PD µ + PE µ =: δ + β.
E wird dadurch beschrieben, dass alle x ∈ E senkrecht auf (1, . . . , 1)t stehen, also:
X
E := {(a1 , . . . , ak )t |
ai = 0}.
P
Wegen
ci = 0 ist daher c ∈ E und damit
X
κc =
ci µi =< c, µ >
X
=< c, PD µ > + < c, PE µ >=< c, PE µ >=
ci βi ,
mit β = (β1 , . . . , βk )t . Außerdem definiert jedes Element von E einen Kontrast.
Beobachtung
P2
Wegen κc = ci βi ist
||κ̂ − κ|| = |
k
X
C.−S.
ci (β̂i − βi )| ≤
i=1
qX
c2i
qX
(β̂i − βi )2 .
| {z }
=τc
Bei Cauchy-Schwarz (C.-S., < x, y >≤ ||x||·||y||) gilt genau dann Gleichheit, wenn x und
y kollinear sind, d.h. oben ist κ̂ − κ maximal, wenn es ein a so gibt, dass ci = a(β̂i − βi )
∀i = 1, . . . , k, d.h. wenn die ci proportional zu (β̂i − βi ) sind. Ein solches a gibt es, denn
wegen β ∈ E und β̂ ∈ E ist auch (β̂ − β) ∈ E. Wir kehren zurück zu Gleichung (5) und
sehen:
qX
||κ̂ − κ||
max
(β̂i − βi )2 ,
=
c
τc
√
||κ̂ − κ|| m
≤γ
und damit
1 − α = Ws max
c
τc
s
X
= Ws(m/s2 ·
(β̂i − βi )2 ≤ γ 2 )
σ 2 ||PE Z||2
2
= Ws
≤γ
σ 2 ||PM⊥ Z||2 /(n − k)
γ2
||PE Z||2 /(k − 1)
= Ws
≤
.
||PM⊥ Z||2 /(n − k)
k−1
Für ein simultanes Konfidenzintervall zum Niveau (1 − α) für alle Kontraste κc muss
also (mit n = m · k) gelten:
γ2
= qf (1 − α, k − 1, k(m − 1)),
k−1
also γ̃ ist das 1 − α-Quantil der Fisher(k − 1, k(m − 1))-Verteilung, und damit sind mit
p
p
γ = (k − 1)γ̃ = (k − 1)qf (1 − α, k − 1, k(m − 1))
γ̃ :=
die Intervalle
√
√
Iκγ := κ̂ − s/ m · τc · γ, κ̂ + s/ m · τc · γ
simultane (1 − α)-Konfidenzintervalle für alle Kontraste κ.
58
8.6
Kruskal-Wallis-(H)-Test
Wie auch beim t-Test gibt es auch für den Wilcoxon-Test ein analoges nichtparametrisches Verfahren zum Vergleich von k Stichproben, den Kruskal-Wallis-Test. Analog zum
Wilcoxon-Test werden nicht die Zahlen, sondern die Ränge verwendet.
Erinnerung: Wilcoxon-Test
Gegeben seien zwei unabhängige Stichproben
X11 , . . . , X1n1
unabhängig und verteilt gemäß
π1
X21 , . . . , X2n2
unabhängig und verteilt gemäß
π2
Der Wilcoxon-Test testet die Nullhypothese, dass beide Stichproben aus derselben Verteilung stammen, also dass π1 = π2 , gegen die Alternative, dass eine Verteilung gegen
die andere verschoben ist. Die Teststatistik war die Summe der Ränge in Gruppe 1:
n1
X
S :=
R1j ,
j=1
mit ES = n1 (n1 + n2 + 1)/2, Var(S) = n1 n2 (n1 + n2 + 1)/2, und für n1 , n2 → ∞
S − ES
p
→ N (0, 1)
Var(S)
in Verteilung.
Verallgemeinerung auf k Stichproben Das Modell und die Hypothesen sind analog:
X11 , . . . , X1n1
unabhängig und verteilt gemäß
π1
....
..
Xk1 , . . . , Xknk
Sei n :=
P
unabhängig und verteilt gemäß
πk
ni . Wir untersuchen die Nullhypothese:
H0 :
π1 = . . . = πk .
Wieder ersetzen wir dazu die Zahlen Xij durch ihre Ränge Rij aus den Gesamtdaten.
Der mittlere Rang aller n Zahlen ist
n+1
1 n(n + 1)
=
.
n
2
2
Wir
untersuchen die Abweichungen der mittleren Ränge in den k Gruppen, R̄i :=
1 Pni
j=1 Rij , i = 1, . . . , k vom mittleren Rang R̄ :
ni
R̄ =
k
X
12
H :=
ni (R̄i − R̄)2 .
n(n + 1)
i=1
Sofern die πi kontinulierlich sind, sind unter der Nullhypothese die Ränge R11 , . . . , Rknk
eine zufällige Permutation von 1, . . . , n, und es gilt für n → ∞ und ni /n → pi > 0
H −→ χ2 (k − 1)
in Verteilung.
Diese Approximation ist (als grobe Faustregel) für k = 3, ni ≥ 5 bzw. k ≥ 4 und ni ≥ 4
akzeptabel.
59
Bemerkung
Häufig schreibt man H in anderer Form:
H=
wobei Si :=
9
P
j
X S2
12
i
− 3(n + 1),
n(n + 1)
ni
Rij die Summe der Ränge in Gruppe j bezeichnet.
Das normale lineare Modell
Die Varianzanalyse ist ein Beispiel einer statistischen Fragestellung im Rahmen eines
linearen Modells. Allgemein haben wir es zu tun mit einem Modell der Form
X = µ + σZ,
wobei Z standardnormalverteilt auf Rn , σ ≥ 0 und µ ∈ M, mit M k-dimensionaler
Teilraum des Rn .
Im Rahmen dieses Modells können wir µ und σ schätzen sowie Konfidenzintervalle
für lineare Funktionale von µ erstellen:
Schätzung von µ und σ 2
P
P
Für den kleinste-Quadrate-Schätzer µ̂ von µ gilt: (xi − µ̂i )2 = minµ̂∈M (xi − µ̂i )2 ,
und daher
||X − µ̂||2 = min ||X − m||2 ,
m∈M
und so ist der kleinste-Quadrate-Schätzer wieder die orthogonale Projektion von X auf
M:
µ̂ = PM X = PM µ + PM σZ = µ + PM σZ.
Also ist µ̂ erwartungstreuer Schätzer für µ. Analog mit R := PM⊥ X = σPM⊥ Z:
s2 :=
||R||2
||P ⊥ Z||2
= σ2 M
.
n−k
n−k
Wegen ||PM⊥ Z||2 ∼ χ2 (n − k) ist s2 erwartungstreuer Schätzer für σ 2 , und nach dem
Satz von Fisher unabhängig von µ̂.
µ̂ ist auch der ML-Schätzer für µ, denn für X = (X1 , . . . , Xn ) unabhängig und
Xi ∼ N (µi , σ 2 ) ist die Likelihoodfunktion gegeben durch
P
Y
(xi − µi )
(xi − µi )2
1
1
√
exp −
=
exp
−
.
2σ 2
2σ 2
(2πσ 2 )n/2
2πσ 2
i
Sie wird maximal, wenn die Summe der Residuenquadrate
also für den Kleinste-Quadrate-Schätzer µ̂.
60
P
(xi − µi )2 minimal wird,
Konfidenzintervalle für lineare Funktionale von µ
Sei w ∈ Rn fest. Wir suchen ein Konfidenzintervall für wt µ =< w, µ >=< wM , µ >, mit
wM := PM w. Als Schätzer bietet sich an
t
t
t
t
t
wM
X = wM
µ + σwM
Z = wM
µ̂ ∼ N (wt µ, σ 2 ||wM
||2 ).
Damit gilt
(wt µ̂ − wt µ)
t || ∼ student(n − k),
s · ||wM
und
t
t
[wM
X ± qt(1 − α/2, n − k)s||wM
||]
ist ein Konfidenzintervall für wt µ zum Niveau 1 − α.
9.1
Testen linearer Hypothesen
Wir gehen ganz analog zur Varianzanalyse vor, nur wählen wir als Modellraum M einen
beliebigen k-dimensionalen Teilraum von Rn und als Hypotheseraum D einen beliebigen
d-dimensionalen Teilraum von M. Wir untersuchen wie gehabt die Nullhypothese µ ∈ D.
Wie bisher zerlegen wir den Datenvektor X durch orthogonale Projektion auf D und M
(mit M = D ⊕ E):
X = PD X + PE X + PM⊥ X.
Wie bisher ist unter der Nullhypothese µ ∈ D und damit
=⇒ 1/σ 2 ||PE X||2 ∼ χ2 (dim(E)).
PE X = σPE Z
Analog gilt
=⇒ 1/σ 2 ||PM⊥ X||2 ∼ χ2 (n − k),
PM⊥ X = σPM⊥ Z
und damit ist unter der Nullhypothese die Teststatistik
F :=
||PE X||2 /(k − d)
||PM⊥ X||2 /(n − k)
Fisher(k − d, n − k)-verteilt.
F und der multiple Korrelationskoeffizient Der eben beschriebene Ansatz macht
sich zunutze, dass unter der Nullhypothese µ ∈ D im orthogonalen Komplement D⊥ von
D nur zufällige (normalverteilte) Variabilität steckt: Unter H0 ist
Y := PD⊥ X = σPD⊥ Z.
Nun kann man aber das standardnormalverteilte Z nach Belieben in orthogonale Unterräume projizieren - die Längenquadrate aller Projektionen sind unabhängig und in
jeder Dimension χ2 (1)-verteilt. Das heißt, in jeder Dimension sollte im Mittel gleich viel
zufällige Variabilität stecken. Wir fragen also: wieviel Prozent der Variabilität in X, die
nicht durch D erklärt werden kann, steckt in E?
R2 :=
||PM Y||2
||Y||2
bzw.
61
R :=
||PM Y||
.
||Y||
Es gilt
F =
R2 /(k − d)
,
(1 − R2 )/(n − k)
denn
||PE X||2
||PM PD⊥ X||2
=
||PM⊥ X||2
||PM⊥ PD⊥ X||2
||PM Y||2
=
||Y||2 − ||PM Y||2
R2
||PM Y||2 /||Y||2
=
=
.
2
M Y||
1 − R2
1 − ||P||Y||
2
Falls D die Hauptdiagonale ist, hat R bekannte Form. Zunächst beobachten wir
R=
||PM Y||2
< Y, PM Y >
< PD⊥ X, PD⊥ µ̂ >
||PM Y||
=
=
=
,
||Y||
||Y|| · ||PM Y||
||Y|| · ||PM Y||
||PD⊥ X|| · ||PD⊥ µ̂||
und mit
PD⊥ X = Y = (X1 − X̄, . . . , Xn − X̄)t ,
=⇒
µ̂ = PM X = (M1 , . . . , Mn )t
PD⊥ µ̂ = (M1 − M̄ , . . . , Mn − M̄ )t
folgt
P
(Xi − X̄)(Mi − M̄ )
R = pP
= Korr(X, µ̂).
P
(Xi − X̄)2 (Mi − M̄ )2
Man nennt R dann auch den multiplen Korrelationskoeffizienten des durch M beschriebenen Modells. Dieser wird uns auch im folgenden Abschnitt begleiten.
10
Lineare Regression
Bei der linearen Regression wird der lineare Zusammenhang zwischen mehreren Variablen untersucht. Die klassische Fragestellung: Gegeben seien je n Beobachtungen zweier
Variablen X und Y :
X = (x1 , . . . , xn ),
Y = (y1 , . . . , yn ).
Wenn X und Y in annähernd linearer Beziehung stehen, vermuten wir eine Beziehung
der Form
yi = β0 + β1 x + Fehler.
Wir bestimmen zunächst die Koeffizienten β0 und β1 :
Kleinste Quadrate
In der klassischen Fragestellung werden die Beobachtungen xi und yi als fest betrachtet,
und wir bestimmen β0 und β1 nach der Methode der kleinsten Residuenquadrate:
n
X
(yi − (β̂0 + β̂1 xi ))2 = min!
i=1
Die Gerade {(x, y)|y = β̂0 + β̂1 x} heißt Regressionsgerade.
62
Maximum Likelihood
Lineare Regression kann man aber auch im Rahmen des normalen linearen Modells
betrachten, und damit sind wieder die ML-Schätzer identisch mit den Kleinste-QuadrateSchätzern. Diesmal werden nur die xi als feste reelle Zahlen betrachtet:
Yi = β0 + β1 xi + σZi ,
wobei Z1 , . . . , Zn unabhängig und N (0, 1)-verteilt, also Yi ∼ N (β0 + β1 xi , σ 2 ), oder
Y = β0 1 + β1 X + σZ.
Das heißt, die Likelihoodfunktion ist gegeben durch
L=
n
Y
i=1
√
1
2πσ 2
−
exp
(Yi −(β0 −β1 xi ))2
2σ 2
1
=
exp −
(2πσ 2 )n/2
P
(Yi − (β0 + β1 xi ))2
.
2σ 2
P
Wiederum wird L maximiert für minimale Residuenquadratsumme (Yi −(β0 +β1 xi ))2 ,
das heißt, die ML-Schätzer und die Kleinste-Quadrate-Schätzer für β0 und β1 stimmen
überein.
Alternative Schreibweise: Das lineare Regressionsmodell
Wir betrachten das Vorhergehende im Lichte des normalen linearen Modells:
Y = β0 1 + β1 X + σZ = µ + σZ,
mit
µ ∈ M := {α0 1 + α1 X|α0 , α1 ∈ R},
Alternativ:
dim(M) = 2.


1 x1
 .. ..  β0
+ σZ.
Y= . . 
β1
1 xn
{z
}
|
=:C
Die n × 2-Matrix C nennt man Systemmatrix, β = (β0 , β1 )t die Regressionskoeffizienten.
Die Modellannahme ist µ ∈ M := {Cβ|β ∈ R2 }.
Ermittlung der Schätzer für die Regressionskoeffizienten
Wir bestimmen β̂ wieder durch orthogonale Projektion auf M : so, dass (Y − C β̂)t
senkrecht auf M, d.h. (Y − C β̂)t Cβ = 0 ∀β ∈ R2 :
1)(Y − C β̂)⊥1
=⇒
X
(yi − β̂0 − β̂1 xi ) = nȳ − nβ̂0 − β̂1 nx̄ = 0.
Also liegt der Schwerpunkt (x̄, ȳ) der Datenwolke auf der Regressionsgeraden.
63
1)
(Y − C β̂)⊥X =⇒
X
X
0=
(yi − β̂0 − β̂1 xi )xi
(und wegen
(yi − β̂0 − β̂1 xi )x̄ = 0 gilt:)
X
=
(yi − β̂0 − β̂1 xi )(xi − x̄)
X
=
(yi − β̂1 xi )(xi − x̄)
X
=
((yi − ȳ) − β̂1 (xi − x̄))(xi − x̄)
P
sy
(yi − ȳ)(xi − x̄)
Cov(x, y)
P
=⇒
β̂1 =
=
= rx,y .
2
2
(xi − x̄)
sx
sx
Das Regressions-Paradoxon
Der Schätzer für β1 zeigt einen interessanten Zusammenhang, der bei standardisierten
Werten für x und y besonders deutlich wird. Wir setzen dazu
ui :=
xi − x̄
σx
und
vi :=
yi − ȳ
.
σy
Dann ist σu = σv = 1, und die Korrelation bleibt gleich:
Cov(X, Y )
E[(X − EX)(Y − EY )]
=
σx σy
σx σy
E[σx U · σy V ]
E[(U − EU )(V − EV )]
=
= E[U V ] =
= ru,v .
σx σy
σu σv
rx,y =
Stellen wir nun V in Abhängigkeit von U dar, so geht die Regressionsgerade durch den
Schwerpunkt (0, 0). so dass:
v = α1 u
mit Steigung α1 = ru,v , wegen σu = σv = 1.
Stellen wir umgekehrt U in Abhängigkeit von V dar, so erhalten wir als Regressionsgerade
u = β1 v
mit Steigung β1 = ru,v , und damit die Beziehung
v=
1
1
u=
u 6= α1 u(!)
β1
α1
Es gibt also (für |ru,v | =
6 1) zwei Regressionsgeraden - je nach dem, ob man u aus v
vorhersagen möchte, oder umgekehrt. Sehr schön sieht man das auch am Beispiel der
zweidimensionalen Normalverteilung:
Regression bei der zweidimensionalen Normalverteilung
Sei
U
1 ρ
∼ N 0,
,
mit Cov(U, V ) = ρ.
V
ρ 1
Dann kann man U und V auch so schreiben:
L(U, V ) = L(Z1 , ρZ1 +
64
p
1 − ρ2 Z2 )
p
p
(Man rechnet p
leicht nach: E(ρZ1 + 1 − ρ2 Z2 ) = 0, Var(ρZ1 + 1 − ρ2 Z2 ) = 1,
Cov(Z1 , ρZ1 + 1 − ρ2 Z2 ) = ρ.)
Wie oben hat die Regressionsgerade hier die Steigung ρ, denn:
p
L(V |U ) = L(ρZ1 + 1 − ρ2 Z2 |Z1 ) = N (ρU, 1 − ρ2 ),
d.h.
E[V |U ] = ρU.
65
Herunterladen