Schätzen und Testen I

Werbung
Schätzen und Testen I
Wintersemester 2009/10
Skript zur Vorlesung von
Ludwig Fahrmeir
Christian Heumann
bearbeitet von
Christiane Dargatz
LATEX von
Martin Slawski
Martina Weber
6. April 2010
Verbesserungen und Anregungen ausdrücklich erwünscht
an [email protected]!
Inhaltsverzeichnis
1 Einführung in statistische Modelle und Inferenzkonzepte
1.1 Statistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Einfache Zufallsstichproben . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2 Lineare und generalisierte lineare parametrische Modelle . . . . . . . .
1.1.3 Nicht- und semiparametrische Regression . . . . . . . . . . . . . . . .
1.1.4 Quantil-Regression/Robuste Regression . . . . . . . . . . . . . . . . .
1.1.5 Verweildaueranalyse: Cox-Modell . . . . . . . . . . . . . . . . . . . . .
1.1.6 Fehlende/unvollständige Daten . . . . . . . . . . . . . . . . . . . . . .
1.1.7 Konditionale (autoregressive, Markov-) Modelle für Longitudinaldaten
1.1.8 (Generalisierte) Lineare gemischte Modelle für Longitudinaldaten . . .
1.1.9 Marginale Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.10 Modellbasierte Clusteranalyse . . . . . . . . . . . . . . . . . . . . . . .
1.1.11 Modelle mit latenten Variablen . . . . . . . . . . . . . . . . . . . . . .
1.2 Konzepte der statistischen Inferenz . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Klassische parametrische Inferenz . . . . . . . . . . . . . . . . . . . . .
1.2.2 (Parametrische) Likelihood-Inferenz . . . . . . . . . . . . . . . . . . .
1.2.3 Likelihoodbasierte Inferenz . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.5 Statistische Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . .
1
1
1
4
5
6
6
7
7
8
8
8
9
9
10
12
13
13
14
2 Klassische Schätz- und Testtheorie
2.1 Klassische Schätztheorie . . . . . . . . . . . . . . . . . .
2.1.1 Suffizienz . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Erwartungstreue, Varianz und MSE . . . . . . .
2.1.3 Fisher-Information und Suffizienz . . . . . . . . .
2.1.4 Erwartungstreue Schätzer . . . . . . . . . . . . .
2.1.5 Asymptotische Eigenschaften und Kriterien . . .
2.2 Klassische Testtheorie . . . . . . . . . . . . . . . . . . .
2.2.1 Problemstellung . . . . . . . . . . . . . . . . . .
2.2.2 Satz von Neyman-Pearson . . . . . . . . . . . . .
2.2.3 Gleichmäßig beste Tests . . . . . . . . . . . . . .
2.3 Bereichsschätzungen und Konfidenzintervalle . . . . . .
2.3.1 Definition und Beurteilung der Güte . . . . . . .
2.3.2 Dualität zwischen Konfidenzbereichen und Tests
2.4 Multiples Testen . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Fehlerraten . . . . . . . . . . . . . . . . . . . . .
19
20
20
24
28
30
33
41
42
46
49
53
53
55
56
57
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.4.2
Multiple Testprozeduren . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Likelihood-Inferenz
3.1 Parametrische Likelihood-Inferenz . . . . . . . . . . . . .
3.2 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . .
3.2.1 Schätzkonzept . . . . . . . . . . . . . . . . . . . .
3.2.2 Iterative numerische Verfahren zur Berechnung des
3.2.3 Asymptotische Eigenschaften . . . . . . . . . . . .
3.3 Testen linearer Hypothesen und Konfidenzintervalle . . .
3.3.1 Testen von Hypothesen . . . . . . . . . . . . . . .
3.3.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . .
3.3.3 Modellwahl . . . . . . . . . . . . . . . . . . . . . .
3.4 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen
3.4.1 ML-Schätzung bei Fehlspezifikation . . . . . . . .
3.4.2 Quasi-Likelihood und Schätzgleichungen . . . . . .
4 Bayes-Inferenz
4.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Exchangeability . . . . . . . . . . . . . . . . . . . . . . .
4.3 Bayes-Inferenz im Schnelldurchlauf . . . . . . . . . . . .
4.4 Wiederholung: Modelle mit einem Parameter . . . . . .
4.5 Mehr-Parameter-Modelle . . . . . . . . . . . . . . . . . .
4.5.1 Normalverteilung . . . . . . . . . . . . . . . . . .
4.5.2 Dirichlet-Multinomial Modell . . . . . . . . . . .
4.5.3 Multivariate Normalverteilung . . . . . . . . . .
4.6 Bayesianisches lineares Modell . . . . . . . . . . . . . . .
4.6.1 Nichtinformative Prioriverteilung . . . . . . . . .
4.6.2 Konjugierte Prioriverteilung . . . . . . . . . . . .
4.6.3 Spezialfälle und Erweiterungen . . . . . . . . . .
4.7 Bayesianisches generalisiertes lineares Modell . . . . . .
4.7.1 Ein MCMC-Algorithmus: Metropolis-Hastings .
4.7.2 Metropolis-Hastings mit IWLS-Vorschlagsdichte
4.8 Bayesianische generalisierte lineare gemischte Modelle .
4.9 Hierarchische Modelle . . . . . . . . . . . . . . . . . . .
4.10 Konvergenzdiagnostik . . . . . . . . . . . . . . . . . . .
4.11 Modellwahl und Modellkritik . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
ML-Schätzers
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
.
.
.
.
.
.
.
.
.
.
.
.
61
61
64
64
66
69
71
71
73
74
74
75
79
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
84
84
84
87
88
89
89
96
99
105
105
108
109
110
112
115
116
120
122
124
5 Einführung in Bootstrap
5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Empirische Verteilungsfunktion und das Plug-In-Prinzip .
5.1.3 Reale Welt und Bootstrap-Welt . . . . . . . . . . . . . . .
5.1.4 Die ideale Bootstrap-Verteilung . . . . . . . . . . . . . . .
5.2 Bootstrap–Schätzung eines Standardfehlers . . . . . . . . . . . .
5.2.1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers
5.2.2 Anzahl der Replikationen . . . . . . . . . . . . . . . . . .
5.2.3 Parametrischer Bootstrap . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
126
126
127
128
129
130
131
131
132
132
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5.3
5.2.4 Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt
5.2.5 Zweistichproben-Problem für unabhängige Stichproben . . . . . . . .
5.2.6 Bootstrap für eine Zeitreihe . . . . . . . . . . . . . . . . . . . . . . .
Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Bootstrap-t-Intervall . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.3 Bootstrap-Perzentil-Intervall . . . . . . . . . . . . . . . . . . . . . .
6 Einführung in Non- und Semiparametrische Inferenz
3
.
.
.
.
.
.
.
133
134
134
135
135
136
138
140
Kapitel 1
Einführung in statistische Modelle
und Inferenzkonzepte
Ziele:
• Statistische Modelle im Überblick, von einfachen hin zu komplexeren Modellen. Auswahl
orientiert an Datenstrukturen, Modellklassen und Fragestellungen aus dem Bachelorprogramm und darüber hinaus.
• Problemstellungen der zugehörigen statistischen Inferenz.
• Konzepte statistischer Inferenz im Überblick.
1.1
1.1.1
Statistische Modelle
Einfache Zufallsstichproben
Zunächst wird nur der Ein-Stichproben-Fall betrachtet. Seien x1 , . . . , xn die Daten als Realisierungen von Stichprobenvariablen und X1 , . . . , Xn i.i.d. wie Zufallsvariable X mit Verteilungsfunktion F (x) bzw. (stetiger, diskreter bzw. allgemeiner Radon-Nikodym”-) Dich”
te f (x).
Parametrische Modelle
X ∼ f (x|θ),
θ = (θ1 , . . . , θk )> ∈ Θ ⊆ Rk
In der Regel ist k fest und klein im Verhältnis zu n.
Beispiel 1.1.
1. X ∼ N (µ, σ 2 ); Schätzen/Testen von µ, zum Beispiel Gauß-Test, Student-Test, F-Test
für σ 2 .
1
2. Analoge Problemstellungen für X ∼ Bin(n, π), X ∼ Po(λ), . . . bzw. allgemein
X ∼ lineare Exponentialfamilie mit natürlichem (skalarem) Parameter θ.
3. X = (X1 , . . . , Xp )> mehrdimensional, zum Beispiel X ∼ Np (µ, Σ).
4. Lokations- und Skalenmodelle:
X ∼ F0
x−a
b
mit gegebener Verteilungsfunktion F0 (z). a ∈ R heißt Lokationsparameter, b > 0 Skalenparameter. Dichten im stetigen Fall:
x−a
1
X ∼ f0
b
b
mit gegebener Dichte f0 (z).
Beispiele:
• X ∼ N (a, b2 ) (Normalverteilung), f0 (z) = φ(z):
1
x−a
1
1 (x − a)2
f0
=√
exp −
b
b
2
b2
2πb
• X ∼ DE(a, b) (Laplace- oder Doppelexponentialverteilung) mit Parametern a ∈ R
und b > 0:
1
x−a
1
|x − a|
=
f0
exp −
b
b
2b
b
• X ∼ U (a, b) (Gleichverteilung):
1
1
x−a
f0
= I(a− b ,a+ b ) (x)
2
2
b
b
b
Der Träger ist abgeschlossen und hängt von den Parametern ab.
• X ∼ C(a, b) (Cauchy-Verteilung):
1
x−a
b
1
f0
= · 2
b
b
π b + (x − a)2
• X ∼ L(a, b) (logistische Verteilung):
1
f0
b
x−a
b
exp − x−a
1
b
= ·
b 1 + exp − x−a 2
b
• X ∼ E(a, b) (Exponentialverteilung):
1
x−a
1
x−a
f0
= exp −
I[a,∞) (x)
b
b
b
b
2
5. Exponentialfamilien:
Definition 1.1 (Exponentialfamilien). Eine Verteilungsfamilie heißt Exponentialfamidef
lie ⇔
f (x|θ) = h(x)·c(θ)·exp (γ1 (θ)T1 (x) + . . . + γk (θ)Tk (x)) = h(x) exp b(θ) + γ(θ) T (x)
>
mit h(x) ≥ 0 und
b(θ) = log(c(θ))
T (x) = (T1 (x), . . . , Tk (x))>
γ(θ) = (γ1 (θ), . . . , γk (θ))> .
γ1 , . . . , γk heißen die natürlichen oder kanonischen Parameter der Exponentialfamilie
(nach Reparametrisierung von θ mit γ).
Annahme: 1, γ1 , . . . , γk und 1, T1 (x), . . . , Tk (x) sind linear unabhängig, d.h. f ist strikt
k-parametrisch.
i.i.d.
Beispiel 1.2 (Bernoulli-Experiment). X = (X1 , . . . , Xn ) ∼ Bin(1, π).
Pn
Pn
(1 − π)n− i=1 xi
!
!
n
n
X
X
= exp
xi log(π) + n −
xi log(1 − π)
f (x|π) = π
i=1
xi
i=1
= |{z}
1 exp n log(1 − π) +
{z
}
|
h(x)
b(π)
i=1
n
X
xi log
|i=1
{z } |
T1 (x)
!
π
1−π
{z
}
γ1 (π)
n
= |{z}
1 (1 − π) exp(γ1 (π)T1 (x)),
| {z }
h(x)
c(π)
d.h. es liegt eine einparametrische Exponentialfamilie vor mit
T (x) =
n
X
xi
i=1
γ = log
π
1−π
=: logit(π).
Bemerkung. Eine Verteilungsfamilie heißt einfache lineare Exponentialfamilie, falls
f (x|θ) ∝ exp(θx + b(θ)).
6. Mischverteilungen:
X ∼ π1 f1 (x|θ1 ) + . . . + πk fk (x|θk )
mit π1 + . . . + πk = 1, wobei die πi als Mischungsanteile und die fi (x|θi ) als Mischungskomponenten bezeichnet werden. Genauer spricht man von diskreter Mischung.
3
Beispiel 1.3.
X ∼ π1 φ(x; µ1 , σ12 ) + . . . + πk φ(x; µk , σk2 )
wird Normalverteilungsmischung genannt.
Unbekannt sind meistens θ = (θ1 , . . . , θk ) und π = (π1 , . . . , πk ). Das Schätzen von θ, π
erfolgt mit ML-Schätzung, meist mit Hilfe des EM-Algorithmus. Auch gewünscht: Testen auf Anzahl k der Mischungskomponenten.
Nichtparametrische Modelle/Inferenz
• X ∼ F (x), X stetige Zufallsvariable, F stetige Verteilung
B Kolmogorov-Smirnov-Test auf H0 : F (x) = F0 (x)
• X ∼ F (x), X diskret bzw. gruppiert
B χ2 -Anpassungstest
• X ∼ f (x), X stetige Zufallsvariable, f bis auf endlich viele Punkte stetig, differenzierbar
etc.
B nichtparametrische Dichteschätzung, zum Beispiel Kerndichteschätzung
Der Zwei-und Mehr-Stichprobenfall kann analog behandelt werden; vgl. Statistik II.
1.1.2
Lineare und generalisierte lineare parametrische Modelle
Daten (yi , xi ), i = 1, . . . , n, sind gegeben, mit xi = (xi1 , . . . , xip )> . y1 |x1 , . . . , yn |xn sind
(bedingt) unabhängig, aber nicht identisch verteilt.
Klassisches lineares Modell (LM)
yi = x>
i β + εi ,
i.i.d.
εi ∼ [N ](0, σ 2 )
⇔
2
yi |xi ∼ [N ](µi = x>
i β, σ )
• Annahme: p = dim(β) < n und n fest.
• Schätzen von β und σ 2 , Tests über β mit oder ohne Normalverteilungsannahme.
• Variablenselektion und Modellwahl. Spezialfall: Varianzanalyse/Versuchsplanung.
Generalisierte lineare Modelle (GLM)
yi |xi , i = 1, . . . , n, besitzen Dichte aus einfacher linearer Exponentialfamilie, zum Beispiel
Normal-, Binomial-, Poisson- oder Gammaverteilung, und sind bedingt unabhängig.
E[yi |xi ] = µi = h(x>
i β)
Dabei ist h die inverse Linkfunktion (oder Responsefunktion).
4
Beispiel 1.4. Sei yi |xi ∈ {0, 1} und
µi = πi = P(yi = 1|xi )
,
πi = h(x>
i β).
Beispiele für h sind die Verteilungsfunktion der logistischen Verteilung (→ Logit-Modell) oder
die Verteilungsfunktion der Normalverteilung (→ Probit-Modell).
Die Inferenzprobleme im GLM sind wie im linearen Modell, jedoch ist likelihoodbasierte oder
bayesianische Inferenz möglich.
Beachte: Die yi |xi sind nicht identisch verteilt.
1.1.3
Nicht- und semiparametrische Regression
Nichtparametrische Einfachregression
Daten wie im linearen Modell, xi skalar.
yi = f (xi ) + εi ,
i.i.d.
i = 1, . . . , n, εi ∼ N (0, σ 2 )
Regressionsfunktion f (xi ) = E[yi |xi ] nicht parametrisch spezifiziert.
• Nicht- oder semiparametrisches Schätzen von f
• Testen von
H0 : f (x) = xT β + β0 vs.
H1 : f nichtlinear.
Additive Modelle (AM)
yi = f1 (xi1 ) + . . . + fp (xip ) + zi> β + εi , εi wie bisher,
µi = E[yi |xi ] = f1 (xi1 ) + . . . + fp (xip ) + zi> β.
• Schätzen, Testen von f1 , . . . , fp , β
• Variablenselektion und Modellwahl (zum Beispiel Einfluss einer bestimmten Kovariable
linear oder nichtlinear)
Generalisierte Additive Modelle (GAM)
yi |xi wie bei GLM; analog zu additiven Modellen lässt man aber
µi = E[yi |xi ] = h f1 (xi1 ) + . . . + fp (xip ) + zi> β
zu.
5
1.1.4
Quantil-Regression/Robuste Regression
Datenlage wie bei üblicher Regression: (yi , xi ), i = 1, . . . , n, yi |xi bedingt unabhängig.
b
Ziel: Schätze nicht (nur) E[yi |xi ], zum Beispiel durch KQ-Schätzer x>
i βKQ , sondern den
bedingten Median (τ = 0.5) oder allgemeiner die (bedingten) Quantile Qτ (y
Pi |xi ). Statt KQ-2
Ansatz (ohne Normalverteilungsannahme) und Schätzung von βbKQ , so dass ni=1 (yi − x>
i β)
minimiert wird, suchen wir
βbmed := argmin
β
n
X
|yi − x>
i β|
i=1
d
⇒ x> βbmed = med(y|x).
Wichtig dabei: keine Annahme für die Fehlerverteilung, d.h. verteilungsfreier Ansatz”.
”
Frage: Welche Konzepte zum Schätzen und Testen verwenden? → Quasi-Likelihood-Methoden.
1.1.5
Verweildaueranalyse: Cox-Modell
Grundlegender Begriff: Hazardrate λ(t) einer stetigen Lebensdauer T ≥ 0.
Definition 1.2 (Hazardrate).
P(t ≤ T ≤ t + ∆t|T ≥ t)
∆t → 0
∆t
⇔ P(t ≤ T ≤ t + ∆t|T ≥ t) = λ(t)∆t + o(∆t)
λ(t) = lim
(Dabei ist f (x) = o(g(x)) für x → 0 falls limx → 0 f (x)/g(x) = 0.)
Interpretation: λ(t)∆t ≈ bedingte Wahrscheinlichkeit für Ausfall in [t, t + ∆t] gegeben Überleben bis zum Zeitpunkt t bei kleinem” ∆t. Mit Kovariablen x = (x1 , . . . , xp )> :
”
P(t ≤ T ≤ t + ∆t|T ≥ t; x)
λ(t; x) = lim
.
∆t → 0
∆t
Rechtszensierte Survivaldaten
Verwende t1 , . . . , tn für evtl. rechtszensierte Beobachtungen von unabhängigen Lebensdauern T1 , . . . , Tn , δ1 , . . . , δn als Zensierungsindikatoren und x1 , . . . , xn als zugehörige Kovariablen.
Ziel: Schätze λ(t; x) bzw. zumindest den Einfluss der Kovariablen auf die Hazardrate.
Cox-Modell
Im Cox-Modell (auch: Proportional Hazards-Modell ) gilt
λ(t; xi ) = λ0 (t) · exp(x>
i β)
= λ0 (t) · exp(xi1 β1 + . . . + xip βp )
= λ0 (t) · exp(xi1 β1 ) · . . . · exp(xip βp ).
6
Dabei ist λ0 (t) die von i bzw. xi unabhängige Baseline”-Hazardrate. exp(x>
i β) modifiziert
”
λ0 (t) multiplikativ.
Primäres Interesse: Schätzen/Testen von β wie im LM oder GLM; λ0 (t) wird als Nuisanceparameter (bzw. -funktion) betrachtet.
⇒ Die Likelihood faktorisiert sich in
L(β; λ0 (t)) = L1 (β) · L2 (β; λ0 (t)).
L1 (β) ist partielle ( partial”) Likelihood, die bezüglich β maximiert wird. Erstaunlicherweise
”
ist der Informationsverlust gering. Ferner gibt es einen Zusammenhang zwischen PartialLikelihood und dem Konzept der Profil-Likelihood.
1.1.6
Fehlende/unvollständige Daten
• Daten: beliebig”(Querschnitts-, Survival-, Längsschnittdaten)
”
• Beispiele:
– Nicht-Antworter bei statistischen Befragungen
– Drop-out” bei klinischen Studien
”
– zensierte Daten (wie in Survivalanalyse)
– Modelle mit latenten Variablen
• Übliche Modelle und statistische Methodik setzen vollständige Daten voraus.
1.1.7
Konditionale (autoregressive, Markov-) Modelle für Longitudinaldaten
• Longitudinaldaten: (yij , xij ) für i = 1, . . . , m und j = 1, . . . , ni als Beobachtungen
von Zielvariablen yij und Kovariablen xij zu Zeitpunkten ti1 < . . . < tij < . . . < tini .
Speziallfall m = 1: Zeitreihen.
• Autoregressives Modell 1. Ordnung bzw. Markov-Modell 1. Ordnung: Bedingte Verteilung von yij |yi,j−1 , yi,j−2 , . . . , yi1 , xij ist yij |yi,j−1 , xij , zum Beispiel
yij = αyi,j−1 + x>
ij β + εij .
|{z}
i.i.d.
Likelihood-Inferenz: algorithmisch simpel, asymptotische Theorie schwieriger (da yij
abhängig).
7
1.1.8
(Generalisierte) Lineare gemischte Modelle für Longitudinaldaten
Lineares gemischtes Modell (LMM)
yij = β0 + β1 tij + x>
ij β + γ0i + γ1i tij + εij ,
i = 1, . . . , m,
j = 1, . . . , n;
• β0 , β1 , β: feste Populationseffekte, z.B. β0 + β1 t fester Populationstrend
• γ0i , γ1i : individuenspezifische Effekte ⇒ Anzahl der Parameter ≈ Stichprobenumfang
• Annahme:
i.i.d.
γ0i ∼ N (0, τ02 ),
i.i.d.
γ1i ∼ N (0, τ12 )
d.h. γ-Parameter sind zufällige” Parameter.
”
• Inferenz: algorithmisch/methodisch variierte Likelihood-Inferenz oder Bayes-Inferenz
mit MCMC-Simulationsmethoden. Für GLMM deutlich komplexer als für LMM.
1.1.9
Marginale Modelle
→ Kapitel 6.2 und 6.4 (Quasi-Likelihood-Inferenz/GEEs)
1.1.10
Modellbasierte Clusteranalyse
• Idee: x = (x1 , . . . , xp )> stammt aus multivariater Mischverteilung mit g Komponenten:
f (x) =
g
X
p(k)f (x|θk ) ,
k=1
zum Beispiel f Dichte der multivariaten Normalverteilung.
• Gesucht:
1. Schätzungen für θk , p(k), k = 1, . . . , g.
2. Schätzungen für unbekannte Klassenzugehörigkeit k eines Objekts mit beobachtetem Merkmalsvektor x. Anwendung der Formel von Bayes liefert:
pb(k|x) =
• Likelihood: mit EM-Algorithmus
• Bayes: mit MCMC-Algorithmus
8
pb(k)f (x|θbk )
.
fb(x)
1.1.11
Modelle mit latenten Variablen
Beobachtet werden Werte yi = (yi1 , . . . , yij , . . . , yip )> von p (korrelierten) Variablen, die als
Indikatoren für eine latente, unbeobachtete Variable li (oder eine kleine Zahl von latenten
Variablen) dienen. Primäres Ziel ist die Schätzung der Effekte ( Ladungsfaktoren”) λj von l
”
auf den Vektor y der Indikatoren und die Schätzung von latenten Werten li , i = 1, . . . , n,
und die Schätzung der fixen Effekte β und γ.
1. Beobachtungsmodell:
yij = x>
ij β + λj li + εij
mit
i.i.d.
εij ∼ N (0, σ 2 ),
2. Strukturmodell:
li = u>
i γ + δi
mit
j = 1, . . . , p
i.i.d.
δi ∼ N (0, 1)
Ohne Kovariablen x und u ergibt sich das klassische Modell der Faktorenanalyse. Erweiterungen entstehen zum Beispiel durch kategoriale Indikatoren oder nichtlineare Effekte von
Kovariablen.
1.2
Konzepte der statistischen Inferenz
• x = (x1 , . . . , xn )> oder y = (y1 , . . . , yn )> sind Realisierungen von Stichprobenvariablen (Zufallsvariablen) X = (X1 , . . . , Xn )> oder Y = (Y1 , . . . , Yn )> . Die Komponenten
X1 , . . . , Xn können auch selbst wieder mehrdimensional sein.
• Weitere Annahmen:
– X1 , . . . , Xn i.i.d. wie X → einfache Zufallsstichprobe (vgl. Abschnitt 1.1.1).
– Y1 , . . . , Yn (bzw. Y1 |X1 , . . . , Yn |Xn im Regressionsmodell) sind (bedingt) unabhängig
aber nicht identisch verteilt.
– Y1 , . . . , Yn sind abhängig, zum Beispiel zeitlich oder räumlich korreliert.
• In allen Fällen gilt: x ∈ X bzw. y ∈ Y, wobei X bzw. Y der entsprechende Stichprobenraum ist. X = (X1 , . . . , Xn )> und Y = (Y1 , . . . , Yn )> sind auf dem Stichprobenraum
nach einer gemeinsamen Verteilung P bzw. Verteilungsfunktion F (x) = F (x1 , . . . , xn )
verteilt. P (bzw. F ) gehört einer Menge (oder Klasse oder Familie) von Verteilungen
Pθ = {Pθ : θ ∈ Θ} an. Zugehörige Verteilungsfunktionen sind F (x|θ) bzw. (falls existent) Dichten f (x|θ) = f (x1 , . . . , xn |θ).
– I.i.d. Fall:
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ) =
n
Y
i=1
– Unabhängige Zufallsvariablen Y1 , . . . , Yn :
f (y|θ) =
n
Y
i=1
die Dichten hängen also vom Index i ab.
9
fi (yi |θ),
f (xi |θ)
– Bei potentiell abhängigen Y1 , . . . , Yn ist f (y|θ) nicht immer faktorisierbar und teils
auch analytisch schwer oder nicht darstellbar.
• (Übliche) parametrische Inferenz:
θ = (θ1 , . . . , θk )> ∈ Θ ⊆ Rk , k fest mit k < n.
• Nichtparametrische/verteilungsfreie Inferenz:
Θ ist Funktionenraum, θ eine bestimmte Funktion. Zum Beispiel ist Θ der Raum der
stetigen oder differenzierbaren Funktionen.
Beispiele für Methoden: (Kern-)Dichteschätzung, nichtparametrische Regression.
• Semiparametrische Inferenz:
Parameter θ hochdimensional, unter Umständen θ = (θ1 , . . . , θk )> mit k ∼ n, zum
Beispiel bei der semiparametrischen Regression mit Glättungssplines.
Auch: k > n, zum Beispiel bei GLMs mit Genexpressionsdaten als Kovariablen: Daten
x1 , . . . , xk mit k ∼ 1000 − 10000, bei nur n ∼ 50 Patienten! Vergleiche multiples Testen
in Kapitel 2.
1.2.1
Klassische parametrische Inferenz
X = (X1 , . . . , Xn ) besitzt Verteilung/Dichte P ∈ P = {Pθ : θ = (θ1 , . . . , θk )> ∈ Θ} mit
Θ ⊆ Rk und k < n fest, oft k n.
In der Regel existiert zur Verteilung Pθ eine (diskrete oder stetige bzw. Radon-Nikodym-)
Dichte
f (x|θ) = f (x1 , . . . , xn |θ).
Anmerkung: Allgemein ist dies die Radon-Nikodym-Dichte bezüglich eines dominierenden
Maßes, vgl. Maß- und Wahrscheinlichkeitstheorie-Vorlesung.
• Punktschätzung: Geschätzt werden soll θ. Eine messbare Abbildung
X −→ Θ
T :
x 7−→ T (x) =: θb
heißt Schätzfunktion oder Schätzer. Eine Beurteilung der Güte/Optimalität kann zum
Beispiel durch
– Biasθ (T ) = Eθ [T ] − θ,
– Varθ (T ) = Eθ [(Eθ [T ] − T )2 ],
– MSEθ (T ) = Eθ [(Eθ [T ] − θ)2 ] = Varθ (T ) + (Biasθ (T ))2
erfolgen. Das Konzept der Güte” ist frequentistisch, da beurteilt wird, wie gut”
”
”
T = T (X) bei allen” denkbaren wiederholten Stichproben x als Realisierung von X im
”
”
Schnitt” funktioniert. Anders ausgedrückt: Beurteilt wird nicht die konkret vorliegende
Stichprobe, sondern (in der Häufigkeitsinterpretation) das Verfahren” T = T (X).
”
10
• Bereichsschätzung / Intervallschätzung:
x 7→ C(x) ⊆ Rk ,
so dass Pθ (θ ∈ C(x)) ≥ 1 − α. Dabei ist 1 − α der Vertrauensgrad. Man beachte die
frequentistische/Häufigkeitsinterpretation: C(x) ist ein zufälliger Bereich.
• Testen: Mit einem Test φ soll eine Hypothese H0 gegen eine Alternativhypothese H1
geprüft werden:
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1 ,
wobei Θ0 ∩ Θ1 = ∅. Es muss nicht notwendigerweise Θ = Θ0 ∪ Θ1 gelten.
Ergebnisse/Aktionen:
A0 : H0 wird nicht abgelehnt,
A1 : H1 wird bestätigt, ist signifikant”.
”
Der Test ist eine Abbildung
φ : X → {A0 , A1 } = {0, 1}.
Ein nicht-randomisierter Test hat die Form
(
1, falls x ∈ K,
φ(x) =
0, falls x ∈
/ K.
Dabei ist K ⊂ X der sogenannte kritische Bereich und als eine Teilmenge aller möglichen Stichproben zu verstehen. Oft formuliert man dies über eine Teststatistik T (x):
(
1, falls T (x) ∈ C,
φ(x) =
0, falls T (x) ∈
/ C.
Test zum Niveau ( size”) α, wobei α klein”:
”
”
Pθ (A1 ) ≤ α für alle θ ∈ Θ0 .
Dabei ist die Wahrscheinlichkeit für den Fehler 1. Art kleiner als α. Die Funktion
gφ (θ) = Pθ (A1 ) = Eθ [φ(X)]
heißt Gütefunktion von φ. Synonym zum Begriff Güte werden auch die Begriffe Power
oder Macht gebraucht. Die Forderung für den Fehler formuliert über die Gütefunktion
lautet
gφ (θ) ≤ α für θ ∈ Θ0 .
Programm” der klassischen parametrischen Schätztheorie (siehe Kapitel 2): Finde
”
Test φ zum Niveau α mit optimaler” Power bzw. minimaler Wahrscheinlichkeit für
”
den Fehler 2. Art, 1 − gφ (θ), θ ∈ Θ1 . Das Konzept ist wiederum frequentistisch. Das
Programm” ist dabei hauptsächlich für spezielle Verteilungsfamilien (zum Beispiel für
”
Exponentialfamilien) und spezielle Testprobleme im i.i.d. Fall durchführbar. Weniger
tauglich ist es für (etwas) komplexere Modelle, zum Beispiel bereits für GLMs. Dann:
11
→ Likelihood-Inferenz
→ Bayes-Inferenz
→ Nicht- und semiparametrische Inferenz
Im einfachsten Fall von zwei Punkthypothesen
H0 : θ = θ0 ,
H1 : θ = θ1
für θ0 6= θ1 hat der beste” Test Likelihood-Quotienten-Struktur: H0 wird abgelehnt,
”
falls
f (x|θ1 )
> kα
f (x|θ0 )
(vgl. Neyman-Pearson Theorem).
• p-Werte (p-values):
Beispiel 1.5 (Gauß-Test). X1 , . . . , Xn i.i.d. N (µ, σ 2 ), σ 2 bekannt. Betrachte
H0 : µ ≤ µ0
,
H1 : µ > µ0 .
Teststatistik ist
x − µ0 √ µ=µ0
n ∼ N (0, 1).
σ
H0 wird abgelehnt, wenn T (x) > z1−α . Der p-Wert ist p = P(T (X) > T (x)|H0 ).
Offensichtlich gilt:
T (x) > z1−α ⇔ p < α.
T (x) =
Der p-Wert liefert mehr Information (nämlich wie nahe man an der Entscheidungsgrenze ist) als die reine Bekanntgabe” der Entscheidung.
”
Definition 1.3 (p-Wert). Gegeben sei ein Test bzw. eine Teststatistik T (X) für H0
vs. H1 mit
1. supθ∈Θ Pθ (T (X) ∈ Cα |H0 ) ≤ α,
2. für α ≤ α0 gilt Cα ⊂ Cα0 .
Dann gilt p = inf{α : T (x) = t ∈ Cα }, und H0 wird abgelehnt, falls p < α.
1.2.2
(Parametrische) Likelihood-Inferenz
• Sei P = {f (x|θ)|θ ∈ Θ}, d.h. es existieren Dichten zu der vorgegebenen parametrisierten
Verteilungsfamile P. Nach der Beobachtung von X = x heißt
L(θ|x) := f (x|θ)
Likelihoodfunktion von θ zur Beobachtung x.
• Likelihoodprinzip: Besitzen zwei Beobachtungen x und x̃ zueinander proportionale Likelihoodfunktionen, sollen sie zu denselben Schlüssen über θ führen.
12
• Punktschätzung: Maximum-Likelihood- (ML-) Schätzung
T (x) = θbML mit f (x|θbML ) = max f (x|θ)
θ
bzw.
θbML = argmax f (x|θ).
θ
• In der Regel existieren keine finiten Optimalitätseigenschaften, jedoch asymptotische.
• Testen: Likelihood-Quotienten-Test, Wald-Test, Score-Test.
1.2.3
Likelihoodbasierte Inferenz
Quasi-Likelihood-Inferenz, penalisierte Likelihood-Inferenz, semiparametrische Modelle.
1.2.4
Bayes-Inferenz
Wir betrachten wieder P = {f (x|θ) : θ ∈ Θ}, zusätzlich wird aber die Unsicherheit über θ
durch die Prioridichte p(θ) auf Θ bewertet. Dabei kann Θ auch sehr hochdimensional sein.
• Prinzip: Nach Beobachtung von x ist sämtliche Information über θ in der Posterioridichte
f (x|θ) · p(θ)
p(θ|x) = R
f (x|θ) · p(θ)dθ
proportional bzgl.
Parameter θ
∝
f (x|θ) · p(θ) = L(θ|x) · p(θ).
• Bayes-Schätzung:
- Posteriori-Erwartungswert:
Z
TE (x) = θbpost-EW = Eθ|x (θ|x) =
θ p(θ|x) dθ
Θ
- Posteriori-Median:
Tmed (x) = θbpost-Med = medθ|x (θ|x)
- Posteriori-Modus:
Tmod (x) = θbpost-Mod = argmax p(θ|x) = argmax p(θ)L(θ|x)
θ
θ
• Es sind auch uneigentliche Prioriverteilungen zulässig, d.h. Dichten mit
Z
p(θ)dθ = +∞,
Θ
die sich somit nicht normieren lassen. Allerdings muss die Posterioridichte eigentlich
sein! Ein Spezialfall ist p(θ) ∝ 1 ( Gleichverteilungs-Priori”), bei deren Verwendung
”
θbML = argmax L(θ|x) = θbpost-Mod
θ
gilt, d.h. der ML-Schätzwert und der Posteriori-Modus-Schätzwert identisch sind.
13
• Bayes-Bereichsschätzung: Wähle Kredibilitätsbereiche/-intervalle C(x) so, dass
Z
p(θ|x) dθ = Pθ|x |{z}
θ ∈ C(x)
≥ 1 − α.
| {z }
zufällig nicht zufällig,
deterministisch
C(x)
Es ist also eine Wahrscheinlichkeitsaussage für eine konkrete Stichprobe möglich und
keine Häufigkeitsinterpretation notwendig!
• Bei Bayes-Inferenz wird keine Häufigkeitsinterpretation benötigt. Allerdings kann sie
trotzdem gemacht werden. (→ Asymptotik der Bayes-Schätzer)
1.2.5
Statistische Entscheidungstheorie
Sichtweise in der Entscheidungstheorie: Schätzen und Testen als Entscheidung unter Unsicherheit.
Wie bisher betrachten wir P ∈ Pθ = {Pθ : θ = (θ1 , . . . , θk )> ∈ Θ} als statistisches Modell;
x bezeichne eine Stichprobe / konkrete Beobachtung von X. Zusätzlich werden folgende
Funktionen betrachtet:
Definition 1.4 (Entscheidungsfunktion). Als Entscheidungsfunktion bezeichnet man eine
Funktion
X −→ D
d:
x 7−→ d(x).
Mit D wird der Entscheidungs- oder Aktionenraum bezeichnet.
Definition 1.5 (Verlustfunktion). Eine Verlustfunktion (oft auch stattdessen Gewinnfunktion)
D × Θ −→ R
L:
(d, θ)
7−→ L(d, θ)
ordnet einer Entscheidung d(x) ( decision”) einen Verlust ( loss”) zu. Im Allgemeinen ist L
”
”
so gewählt, dass der Verlust bei richtiger Entscheidung null ist, also L eine nicht-negative
Funktion ist.
Beispiel 1.6.
1. Test: Betrachte
H0 : θ ≤ θ0
vs.
H1 : θ > θ0
(zum Beispiel Gauß-Test). Der Entscheidungsraum sei D = {d0 , d1 } mit
d0 : Entscheidung für H0 ,
d1 : Entscheidung für H1 .
Eine mögliche Verlustfunktion ist:
0,
L(d0 , θ) =
a ∈ R+ ,
0,
L(d1 , θ) =
b ∈ R+ ,
falls θ ≤ θ0
falls θ > θ0
(Entscheidung richtig)
(Fehler 2. Art)
falls θ > θ0
falls θ ≤ θ0
(Entscheidung richtig)
(Fehler 1. Art)
14
2. Schätzung: Entscheidung” ist reelle Zahl:
”
d(x) = T (x) = θb ∈ Θ, d.h. D = Θ.
Mögliche Verlustfunktionen:
L(d, θ) = (d − θ)2
quadratischer Verlust,
L(d, θ) = |d − θ|
absoluter Verlust,
L(d, θ) = w(θ)(d − θ)
2
gewichteter quadratischer Verlust,
wobei w eine feste Gewichtsfunktion ist.
3. Mehrentscheidungsverfahren, zum Beispiel Wahl zwischen drei Alternativen
d0 : θ ≤ θ0 ,
d1 : θ > θ1 ,
d2 : θ0 < θ ≤ θ1 .
4. Analog: Modellwahl, Variablenselektion
Definition 1.6 (Risikofunktion). Eine Risikofunktion ist definiert als
Z
R(d, θ) = Eθ [L(d(X), θ)] =
L(d(x), θ)f (x|θ) dx
X
( Verlust im Mittel”). Sie ist unabhängig von x. Dabei wird d(X) rausintegriert, d.h. R(d; θ)
”
ist bei gegebenem d nur noch eine Funktion von θ.
Beispiel 1.7.
1. Schätzen, d.h.
d(x) = T (x)
Schätzwert,
d(X) = T (X)
Punktschätzer.
Bei quadratischer Verlustfunktion ist
L(T (X), θ) = (T (X) − θ)2
mit Risikofunktion
R(T, θ) = Eθ [(T (X) − θ)2 ] = MSEθ (T (X)).
Man beachte, dass das Argument T in R(T, θ) den Schätzer und nicht den konkreten
Schätzwert bezeichnet.
2. Testen: vgl. Übung.
15
Vergleich von Entscheidungsregeln/-strategien mittels der Risikofunktion
Aus der Abbildung geht hervor, dass d3 besser als d1 ist für alle θ ∈ Θ , d.h. d3 dominiert d1
gleichmäßig.
Ziel: Finde Regel d∗ , die alle konkurrierenden” Regeln d dominiert.
”
Problem: Diese Idee funktioniert im Allgemeinen nicht, in der Regel überschneiden sich die
Risikofunktionen, zum Beispiel ist in obiger Abbildung d2 nur in einem gewissen Bereich
besser als d1 und d3 .
→ Optimale” Entscheidungsregeln nur möglich durch:
”
• Einschränkung auf spezielle Klassen von Verlustfunktionen,
• Einschränkung auf spezielle Klassen von Entscheidungsregeln, zum Beispiel unverzerrter
Schätzer oder unverfälschter Test,
• oder zusätzliches Kriterium.
1. Minimax-Kriterium
Idee: Betrachte Maximum der Risikofunktion, d.h. präferiere in der folgenden Abbildung d2 , da
max R(d2 , θ) < max R(d1 , θ).
θ
θ
16
Definition 1.7 (Minimax-Entscheidungsregel). Sei d∗ : X → D eine Entscheidungsregel. d∗ heißt Minimax, falls es das supremale Risiko minimiert:
sup R(d∗ , θ) ≤ sup R(d, θ)∀d ∈ D ⇔ d∗ = arginf sup R(d, θ).
θ∈Θ
θ∈Θ
d∈D θ∈Θ
Bemerkung. In vielen Fällen werden Supremum und Infimum auch angenommen, so
dass tatsächlich
d∗ = argmin max R(d, θ)
d∈D
θ∈Θ
gilt, daher auch der Name Minimax.
Beim Minimax-Kriterium schützt man sich gegen den schlimmsten Fall, was aber nicht
unbedingt immer vernünftig ist, wie die folgende Abbildung zeigt:
Hier wäre d∗ nur dann vernünftig, wenn θ-Werte in der Mitte besonders wahrschein”
lich” sind.
17
2. Bayes-Kriterium
Wie in der Bayes-Inferenz nehmen wir für θ eine Prioridichte p(θ) an (aus frequentistischer Sichtweise ist p(θ) eine – nicht notwendigerweise normierte – Gewichtsfunktion).
Das Bayes-Risiko ist
Z
r(d, p) =
R(d, θ)p(θ) dθ
Θ
= Ep [R(d, θ)]
= Ep Eθ [L(d(X), θ)]
Z Z
=
L(d(x), θ)f (x|θ) dx p(θ) dθ
Θ
X
und wird durch den Bayes-optimalen Schätzer d∗ minimiert:
r(d∗ , p) = inf r(d, p).
d∈D
Sei p(θ|x) (eigentliche) Posterioridichte. Dann heißt
Z
L(d(x), θ)p(θ|x) dθ = Eθ|x [L(d(x), θ)]
Θ
das Posteriori-Bayes-Risiko. Es gilt folgendes praktische Resultat:
Satz 1.8. Eine Regel d∗ ist genau dann Bayes-optimal, wenn d∗ für jede Beobachtung/Stichprobe x das Posteriori-Bayes-Risiko minimiert.
Anmerkungen:
• Bayes-optimale Regeln d∗ sind zulässig, d.h. sie werden von keiner anderen Regel
d 6= d∗ dominiert.
• Eine enge Beziehung zur Minimax-Regel ist durch die Wahl einer ungünstigsten”
”
Prioridichte p∗ (θ) herstellbar.
Optimalität von Bayes-Schätzern:
Z
θb = E[θ|x] =
θ p(θ|x) dθ
Θ
ist Bayes-optimal bei quadratischer Verlustfunktion L(d, θ) = (d − θ)2 .
θb = med(θ|x)
ist Bayes-optimal bei absoluter Verlustfunktion L(d, θ) = |d − θ|.
θb = argmax p(θ|x)
θ∈Θ
ist Bayes-optimal bei 0-1 Verlustfunktion
(
1, falls |d − θ| ≥ ε,
Lε (d, θ) =
0, falls |d − θ| < ε.
Der Grenzübergang ε → 0 liefert den Posteriori-Modus.
Anmerkung: Die ML-Schätzung ist optimal bei flacher Priori p(θ) ∝ 1 und bei Wahl
obiger 0-1-Verlustfunktion.
18
Kapitel 2
Klassische Schätz- und Testtheorie
Grundmodell:
Die Stichprobe X = (X1 , . . . , Xn ) besitzt die Verteilung P ∈ P = {Pθ : θ ∈ Θ}, Θ ⊆ Rk ,
wobei
• θ: k-dimensionaler Parameter
• Θ: Parameterraum
• k < n, oft k n, mit dim(θ) = k fest für asymptotische (n → ∞)-Betrachtungen.
• In der Regel vorausgesetzt: Es existiert Dichte
f (x|θ) = f (x1 , , . . . , xn |θ) zu Pθ ,
so dass man analog schreiben kann:
P = {f (x|θ) : θ ∈ Θ}.
• Klassische Schätz- und Testtheorie für finite (d.h. für festen Stichprobenumfang n)
i.i.d.-Stichprobe von besonderer Relevanz; es gilt:
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ).
• Viele Begriffe, insbesondere der Schätztheorie, jedoch von genereller Bedeutung.
• Literatur: Lehmann & Casella (1998), Lehmann & Romano (2005), Rüger (1999, 2002)
Band I+II
Definition 2.1 (Statistik). Eine Statistik ist eine messbare Funktion
X −→ Rl
T :
x 7−→ T (x).
Normalerweise ist l < n, da mit der Statistik T eine Dimensionsreduktion erzielt werden soll.
19
Beispiel 2.1.
→ T (x) Schätzfunktion
→ T (x) Teststatistik
→ T (x) = `(θ; x) Log-Likelihoodfunktion
2.1
Klassische Schätztheorie
Gesucht: Punkt- oder Bereichsschätzung für θ oder einen transformierten Parametervektor τ (θ).
i.i.d.
Beispiel 2.2. X1 , . . . , Xn ∼ N (µ, σ 2 ) mit θ = (µ, σ 2 )> . Hier könnte τ (θ) = µ sein (d.h. σ 2
ist Nuisance-Parameter) oder τ (θ) = 1/σ 2 (d.h. die Präzision ist von Interesse).
Definition 2.2 (Punktschätzung, Schätzer, Schätzfunktion). Sei
X −→ Θ ⊆ Rk
T :
x 7−→ T (x)
eine messbare Abbildung. Man bezeichnet mit T (x) den Schätzwert oder die Punktschätzung
(zu konkreter Realisation x) und mit T (X) den Punktschätzer von θ, der eine Zufallsvariable
b
b d.h. notationell wird nicht zwischen Schätzwert und
ist (auch gebräuchlich: θ(x)
oder kurz θ,
Schätzfunktion unterschieden).
2.1.1
Suffizienz
Der Begriff der Suffizienz ist von grundlegender Bedeutung in der klassischen parametrischen
Inferenz; darüber hinaus ist die Bedeutung (stark) abgeschwächt, vgl. auch Statistik IV.
def
Definition 2.3. Eine Statistik T heißt suffizient für θ (oder auch für P) ⇔ die bedingte
Verteilung bzw. Dichte von X gegeben T (x) = t ist für alle Werte von T (x) = t von θ
unabhängig, d.h.
fX|T (x|T (x) = t, θ) = fX|T (x|T (x) = t)
hängt nicht von θ ab.
Idee: Zusätzliche Information in X, die nicht in T enthalten ist, ist durch fX|T gegeben. Falls
fX|T von θ unabhängig ist, dann enthält die Stichprobe x nicht mehr Information über θ
als T (x).
Folgender Satz ist äquivalent und konstruktiv:
Satz 2.4 (Faktorisierungssatz, Neyman-Kriterium). Eine Statistik T ist suffizient für θ genau
dann wenn
f (x|θ) = h(x)g(T (x)|θ)
für fast alle x, d.h. die Dichte lässt sich in zwei Teile faktorisieren, von denen ein Teil von x,
aber nicht von θ, und der andere nur von θ und T (x) abhängt.
20
Beweis.
⇒”: Falls T suffizient ist, gilt:
”
fX|T (x|T (x) = t, θ) =
Weiterhin ist
fX,T (x, t|θ)
.
fT |θ (t|θ)
(
fX|θ (x|θ) für T (x) = t
fX,T (x, t|θ) =
0
sonst,
d.h.
fX|T (x|t) · fT |θ (t|θ) = fX|θ (x|θ).
| {z } | {z }
h(x)
g(T (x)|θ)
⇐”: Man erhält die Dichte von T , ausgewertet an t, indem man im obigen Faktorisierungs”
kriterium über die x, für die T (x) = t gilt, summiert (bzw. integriert). Im diskreten
Fall also:
X
X
fT |θ (t|θ) =
h(x)g(T (x)|θ) = g(t|θ)
h(x).
x:T (x)=t
x:T (x)=t
Damit ist die bedingte Dichte von X gegeben T = t,
fX|θ (x|θ)
h(x)
h(x)g(T (x)|θ)
=P
,
=P
h(x)g(t|θ)
fT |θ (t|θ)
x:T (x)=t
x:T (x)=t h(x)
unabhängig von θ. Im stetigen Fall werden Summen durch Integrale ersetzt; im Detail
werden Messbarkeitsbedingungen verwendet.
P
i.i.d.
Beispiel 2.3 (Bernoulli-Experiment). Seien X1 , . . . , Xn ∼ Bin(1, π) und Z = ni=1 Xi die
Anzahl der Erfolge. Dann ist Z suffizient für π, denn
fX|Z (x|z, π) = Pπ (X = x|Z = z)
Qn
π xi (1 − π)1−xi
i=1
,
=
n z
n−z
z π (1 − π)
−1
n
=
z
wobei
n
X
xi = z
i=1
ist unabhängig von π. Gemäß Faktorisierungssatz ist
1
n z
f (x|π) = n
π (1 − π)n−z = |{z}
1 π z (1 − π)n−z .
|
{z
}
z
z |
{z
} =h∗ (x) =g∗ (z|π)
|{z}
=h(x)
=g(z|π)
Beispiel 2.4 (Normalverteilung). Sei X = (X1 , . . . , Xn ) mit Xi
θ = (µ, σ 2 )> .
!
n
n
1
1 X
2
√
fX|θ (x|θ) =
exp − 2
(xi − µ)
2σ
2πσ
i=1
1
= (2π)−n/2 (σ 2 )−n/2 exp − 2
| {z }
2σ
h(x)
|
P
g((
21
n
X
x2i − 2µ
n
X
i=1
i=1
{zP
n
n
2
i=1 xi , i=1 xi )|θ)
i.i.d.
∼
N (µ, σ 2 ) und
!!
xi + nµ2
,
}
Pn
Pn
2
2 >
d.h. T (x) =
i=1 xi ist suffizient für θ = (µ, σ ) . Aber: Die bijektive Transfori=1 xi ,
mation Te(x) = (x̄, s2 ) ist auch suffizient für θ, wobei s2 die Stichprobenvarianz bezeichnet.
i.i.d.
Beispiel 2.5 (Exponentialverteilung). Sei X = (X1 , . . . , Xn ) ∼ Exp(λ), dann
!
n
n
Y
X
n
f (x|λ) =
f (xi |λ) = |{z}
1 · λ exp −λ
xi
i=1
i=1
h(x) |
{z
}
g(T (x)|λ)
mit T (x) =
Pn
i=1 xi .
Nach der ursprünglichen Definition ist
P
fX,T |λ (x, t|λ)
λn exp (−λ ni=1 xi )
Γ(n)
= Pn
= λn Pn
Pn
n−1 .
n−1
fT |λ (t|λ)
(
x
)
(
x
)
exp
(−λ
x
)
i
i
i
i=1
i=1
i=1
Γ(n)
Dabei wird benutzt, dass die Summe von n unabhängigen und identisch exponentialverteilten
Zufallsvariablen mit Parameter λ gammaverteilt ist mit Parametern n und λ.
i.i.d.
Beispiel 2.6 (Order-Statistik). Sei X1 , . . . , Xn ∼ f (x|θ) (wobei f stetige Dichte ist) und
T (x) = x(·) = (x(1) , . . . , x(n) ) die Order-Statistik. Dann gilt
fX|T,θ (x|T = x(·) , θ) =
1
.
n!
Die Gleichheit folgt aus der Stetigkeit, denn xi 6= xj ∀i 6= j (mit Wahrscheinlichkeit 1).
x(·) ist suffizient für θ. Wir haben also bei i.i.d.-Beobachtungen keinen Informationsverlust
durch Ordnen der Daten.
Bemerkung.
• Offensichtlich ist T (x) = x, d.h. die Stichprobe selbst, suffizient.
• Ebenso ist jede eineindeutige Transformation von x oder von einer suffizienten Statistik T (x) suffizient.
• Ist T suffizient, dann auch (T, T ∗ ), wobei T ∗ eine beliebige weitere Statistik darstellt.
Dies zeigt: Die Dimension einer suffizienten Statistik sollte soweit wie möglich reduziert werden.
def
Definition 2.5 (Minimalsuffizienz). Eine Statistik T heißt minimalsuffizient für θ ⇔ T ist
suffizient, und zu jeder anderen suffizienten Statistik V existiert eine Funktion H mit
T (x) = H(V (x)) P − fast überall.
Frage: Existieren minimalsuffiziente Statistiken? Wenn ja, sind sie eindeutig?
Beispiel 2.7 (Normalverteilung).
1. T (x) = x̄ ist minimalsuffizient für µ bei bekanntem σ 2 .
P
2. T (x) = ni=1 (xi − µ)2 ist minimalsuffizient für σ 2 bei bekanntem µ.
22
3. T (x) =
Pn
i=1 xi ,
Pn
2
i=1 xi
ist minimalsuffizient für µ und σ 2 .
Lemma 2.6. Sind T und S minimalsuffiziente Statistiken, dann existieren injektive Funktionen g1 , g2 , so dass T = g1 (S) und S = g2 (T ).
Satz 2.7 (Charakterisierung von Minimalsuffizienz durch Likelihood-Quotienten). Definiere
den Likelihood-Quotienten
f (x|θ1 )
Λx (θ1 , θ2 ) =
.
f (x|θ2 )
Eine notwendige und hinreichende Bedingung für die Minimalsuffizienz einer Statistik T für θ
ist, dass für alle θ1 und θ2 gilt:
T (x) = T (x0 ) ⇔ Λx (θ1 , θ2 ) = Λx0 (θ1 , θ2 ).
Beispiel 2.8 (Suffizienz in Exponentialfamilien). Die Dichte einer k-parametrischen Exponentialfamilie hat die Form
f (x|θ) = h(x) · c(θ) · exp(γ1 (θ)T1 (x) + . . . + γk (θ)Tk (x))
= h(x) · exp(b(θ) + γ(θ)> T (x)),
d.h. T (x) = (T1 (x), . . . , Tk (x))> ist suffizient für θ nach Faktorisierungssatz. Falls Θ ein
offenes Rechteck in Rk enthält, ist T auch minimalsuffizient.
Es folgt nun die Charakterisierung der Minimalsuffizienz nach Lehmann-Scheffé. Dazu wird
der Begriff der Vollständigkeit benötigt.
def
Definition 2.8. Eine Statistik T ist vollständig ⇔ für jede reelle Funktion g gilt:
Eθ [g(T )] = 0 ∀θ ⇒ Pθ (g(T ) = 0) = 1 ∀θ.
Aus der Definiton wird nicht unmittelbar klar, warum Vollständigkeit” eine wünschenswerte
”
Eigenschaft eines Schätzers sein sollte. Einen möglichen Grund liefert der folgende Satz.
Satz 2.9 (Lehmann-Scheffé). Angenommen, X besitzt eine Dichte f (x|θ) und T (X) ist suffizient und vollständig für θ. Dann ist T (x) minimalsuffizient für θ.
Bemerkung (Ancillarity-Statistik). Eine Statistik V (X) heißt ancillary ( Hilfsstatistik”)
”
für P, wenn ihre Verteilung nicht von θ abhängt (also bekannt ist).
Häufiger Sachverhalt: T = (U, V ) ist suffizient für θ, V ancillary, U nicht suffizient.
i.i.d.
Beispiel 2.9. X1 , . . . , Xn ∼ U θ − 21 , θ + 12 . Man kann dann zeigen (Davison, 2004), dass
mit
U
V
1
(X + X(n) )
2 (1)
= X(n) − X(1)
=
T = (U, V ) suffizient, aber nicht vollständig für θ ist. Ferner ist U alleine nicht suffizient und
V ancillary.
23
2.1.2
Erwartungstreue, Varianz und MSE
b
• Fehler eines Schätzers θb = θ(X)
ist θb − θ.
• Messung des Fehlers durch Verlustfunktion, zum Beispiel
b θ) = |θb − θ|
L(θ,
b θ) = kθb − θk2
L(θ,
Abstand (θ skalar),
quadratischer Fehler,
kθb − θk2
relativer quadratischer Fehler,
kθk2
b θ) = (θb − θ)> D(θb − θ) gewichteter quadratischer Fehler (D positiv definit).
L(θ,
b θ) =
L(θ,
b θ) = Eθ [L(θ,
b θ)].
• Risikofunktion R(θ,
• Hier wird (hauptsächlich) quadratischer Verlust betrachtet.
Definition 2.10 (Erwartungstreue, Bias, Varianz eines Schätzers).
def
b = θ.
• θb heißt erwartungstreu ⇔ Eθ [θ]
b = Eθ [θ]
b − θ.
• Biasθ (θ)
b = Eθ [(θb − Eθ [θ])
b 2 ], θ skalar.
• Varθ (θ)
Definition 2.11 (MSE). Der mittlere quadratische Fehler (mean squared error) ist definiert
als
b = Eθ [(θb − θ)2 ] = Varθ (θ)
b + (Biasθ (θ))
b 2.
MSEθ (θ)
Der Gesamtfehler lässt sich also aufteilen in einen zufälligen Fehler (Varianz) und einen
systematischen (quadrierter Bias).
Vergleicht man zwei Schätzer bezüglich ihres MSE, kann für einen Teilbereich von Θ der MSE
des einen, für andere Teilbereiche der MSE des zweiten Schätzers kleiner sein:
Beispiel 2.10. X1 , . . . , Xn
1. MSE von π
b = X̄:
i.i.d.
∼ B(1, π).
Eπ [(X̄ − π)2 ] = Varπ (X̄) =
π(1 − π)
.
n
2. MSE des Bayes-Schätzers (Posteriori-Erwartungswert) bei einer Priori p(π) ∼ Be(α, β):
n
X
Y +α
π
bB =
, Y =
Xi ,
α+β+n
i=1
2
Y +α
Y +α
MSE(b
πB ) = Varπ
+ Eπ
−π
α+β+n
α+β+n
2
nπ(1 − π)
nπ + α
=
+
−π .
(α + β + n)2
α+β+n
24
Für α = β =
p
n/4 ergibt sich
MSEπ (b
πB ) = Eπ [(b
πB − π)2 ] =
n
1
√
= const bezüglich π.
4 (n + n)2
Fazit: In der Regel wird man keinen MSE-optimalen” Schätzer θbopt finden in dem Sinne,
b für alle θ” und alle konkurrierenden θ.
b Bei Einschränkung auf
dass MSEθ (θbopt ) ≤ MSEθ (θ)
erwartungstreue Schätzer ist dies öfter möglich. Deshalb die Forderung:
def
Definition 2.12 (zulässiger ( admissible”) Schätzer). Ein Schätzer θb heißt zulässig ⇔ es
”
e ≤ MSEθ (θ)
b für alle θ und MSEθ (θ)
e < MSEθ (θ)
b für
gibt keinen Schätzer θe mit MSEθ (θ)
mindestens ein θ, d.h. es gibt keinen Schätzer θ̃, der θ̂ gleichmäßig/strikt dominiert”.
”
p
Definition 2.13 (Verallgemeinerungen des MSE auf θ ∈ R , p > 1). Üblich sind die folgenden
zwei Alternativen:
1. MSE (skalar):
(1) b
MSEθ (θ)
= Eθ [kθb − θk2 ]
p
X
=
Eθ [(θbj − θj )2 ]
=
j=1
p
X
MSEθ (θbj )
j=1
2. MSE-Matrix:
(2)
b = Eθ [(θb − θ)(θb − θ)> ]
MSEθ (θ)
b + (Eθ [θ]
b − θ)(Eθ [θ]
b − θ)>
= Covθ (θ)
Diese Variante wird häufig bei linearen Modellen betrachtet.
25
Bemerkung. Das j-te Diagonalelement der MSE-Matrix ist MSEθ (θbj ). Vergleich von MSEMatrizen gemäß Löwner”-Ordnung:
”
(≤)
e < MSEθ (θ)
b
MSEθ (θ)
b − MSEθ (θ)
e positiv (semi-)definit ist. Man definiert allbedeutet, dass die Differenz MSEθ (θ)
gemein für geeignete Matrizen A, B:
def
A ≤ B ⇔ B − A ist positiv semidefinit,
def
A < B ⇔ B − A ist positiv definit.
Beispiel 2.11 (Gauß-Experiment). Seien X1 , . . . , Xn
i.i.d.
∼ N (µ, σ 2 ).
• σ 2 bekannt, µ unbekannt: MSE-Vergleich von X̄ und T = bX̄ + a.
• σ 2 unbekannt, µ bekannt:
– Eine Möglichkeit:
n
Sµ2 =
1X
(Xi − µ)2 , Eσ2 (Sµ2 ) = σ 2
n
i=1
– Weitere Möglichkeit:
n
Vµ2 =
n
1 X
(Xi − µ)2 , Eσ2 (Vµ2 ) =
σ2
n+2
n+2
i=1
Es stellt sich heraus, dass MSEσ2 (Vµ2 ) < MSEσ2 (Sµ2 ) ist.
• µ und σ 2 unbekannt:
– Eine Möglichkeit:
n
1 X
S =
(Xi − X̄)2 ,
n−1
2
i=1
Eσ2 (S 2 ) = σ 2 , MSEσ2 (S 2 ) = Varσ2 (S 2 ) =
– Weitere Möglichkeit:
2
σ4.
n−1
n
1 X
V =
(Xi − X̄)2 ,
n+1
2
i=1
Eσ2 (V 2 ) =
n−1 2
2
σ , MSEσ2 (V 2 ) =
σ4,
n+1
n+1
d.h. V 2 dominiert S 2 .
– Der sogenannte Stein-Schätzer
n
(
1 X 2
T = min V ,
Xi
n+2
2
i=1
26
)
dominiert
V 2 (und damit S 2 ). Plausibilitätsbetrachtung: Ist µ = 0, so ist
Pn
2
2
2
i /(n+2) besserer Schätzer als V . Ist µ 6= 0, so ist V ein besserer Schätzer
i=1
PX
n
2
als i=1 Xi /(n + 2). Beim Stein-Schätzer wird fallweise mit hoher Wahrscheinlichkeit der jeweils bessere Schätzer benutzt.
Beispiel 2.12 (Stein’s Paradoxon). Seien (X1 , . . . , Xm )> ∼ Nm (µ, C) multivariat normal2 ). Es sollen simultan die Erwartungsverteilt mit µ = (µ1 , . . . , µm )> , C = diag(σ12 , . . . , σm
werte µ1 , . . . , µm geschätzt werden. Man beachte dabei, dass die einzelnen Komponenten als
unabhängig angenommen werden. Die Stichprobe hat die Form
X11 , . . . , X1n1 , . . . , Xm1 , . . . , Xmnm
(i.i.d. Stichproben aus Gruppen” 1, . . . , m). Übliche Schätzer:
”
Tj = X̄j ,
j = 1, . . . , m,
T = (T1 , . . . , Tm )> = (X̄1 , . . . , X̄m )> .
Der (skalare) MSE ist:
Eµ [kT − µk2 ] =
m
X
Eµ [(X̄j − µj )2 ] =
j=1
m
X
σj2
j=1
nj
.
Paradoxerweise gilt:
1. Für m ≤ 2 ist T zulässig.
2. Für m ≥ 3 ist T nicht zulässig und wird dominiert durch den Stein-Schätzer
!
m
−
2
m
−
2
T.
T = 1 − Pm
T∗ = 1 − >
2
T T
j=1 X̄j
Dieses Ergebnis ist unabhängig von den Stichprobenumfängen n1 , . . . , nm in den Gruppen. Es
lässt sich zeigen: T ∗ ist Minimax-Schätzer, aber selbst unzulässig. Der Stein-Schätzer ist ein
sogenannter Shrinkage-Schätzer.
Beispiel 2.13 (Lineares Modell).
y = Xβ + ε, ε ∼ (N )(0, σ 2 I)
KQ-Schätzer:
Ridge-Schätzer:
βbKQ = (X > X)−1 X > y
βbRidge = (X > X + λD)−1 X > y,
wobei D eine Diagonalmatrix mit positiven Diagonalelementen ist. Für einen MSE-Vergleich
siehe Vorlesung/Buch zu Lineare Modelle.
Fazit: Bereits im einfachen Beispiel der Schätzung von π in B(1, π) (siehe Beispiel 2.10) zeigt
sich, dass es im Allgemeinen keine MSE-optimalen Schätzer gibt.
27
Auswege:
1. Einschränkung auf Teilklasse von Schätzern, zum Beispiel erwartungstreue (und lineare)
Schätzer, äquivariante Schätzer, . . .
2. MSE-Kriterium verändern:
b durch Minimierung von maxθ∈Θ MSEθ (θ)
b (Minimax-Kriterium)
• Ersetze MSEθ (θ)
b durch Ep(θ) [MSEθ (θ)]
b bei einer Priori-Verteilung p(θ) (Bayes• oder ersetzte MSEθ (θ)
Schätzer).
Hier: Strategie 1 mit erwartungstreuen Schätzern, vgl. 2.1.4.
2.1.3
Fisher-Information und Suffizienz
Definition 2.14 (Fisher-reguläre Verteilungsfamilien). Eine Familie von Verteilungen Pθ
mit Dichte f (x|θ) = f (x1 , . . . , xn |θ), θ ∈ Θ, heißt Fisher-regulär, wenn Folgendes gilt:
1. Der Träger {x ∈ X : f (x|θ) > 0} ist unabhängig von θ (dies ist zum Beispiel bei
X1 , . . . , Xn
i.i.d.
∼ U [0; θ] oder bei der Pareto-Verteilung verletzt).
2. Θ ist offen in Rp (verletzt zum Beispiel bei σ 2 ≥ 0).
3. Die ersten und zweiten Ableitungen von f (x|θ) bzgl. θ existieren und sind für jedes θ
endliche Funktionen von x.
4. Vertauschbarkeit: Sowohl für f (x|θ) als auch für log(f (x|θ)) kann erstes und zweites
Differenzieren nach θ und Integration über x vertauscht werden.
Definition 2.15 (Log-Likelihood, Scorefunktion und Information).
`(θ; x) = log f (x|θ)
( Log-Likelihood von θ bzgl. der Stichprobe x)
>
∂
∂
∂
s(θ; x) =
`(θ; x) =
`(θ; x), . . . ,
`(θ; x)
( Score-Funktion)
∂θ
∂θ1
∂θp
∂ 2 `(θ; x)
J(θ; x) = −
( beobachtete Informationsmatrix der Stichprobe mit Elementen
∂θ∂θ>
∂ 2 log f (x|θ) (J(θ; x))ij = −
∂θi ∂θj
I(θ) = Eθ [J(θ; X)] ( erwartete oder Fisher-Informationsmatrix)
Satz 2.16. Ist Pθ Fisher-regulär, so gilt:
1. Eθ [s(θ; X)] = 0
h 2
i
`(θ;X)
2. Eθ − ∂∂θ∂θ
= Covθ (s(θ; X))
>
28
Beweis.
Zu 1.:
Z
Eθ [s(θ; X)] =
s(θ; x)f (x|θ) dx
Z
∂
log(f (x|θ))f (x|θ) dx
∂θ
Z ∂
∂θ f (x|θ)
=
f (x|θ)dx
f (x|θ)
Z
∂
=
f (x|θ)dx = 0
∂θ
=
Zu 2.:
Eθ
∂ 2 `(θ; X)
−
∂θ∂θ>
"
= −Eθ
"
= −Eθ
∂
∂θ
∂
f (X|θ)
∂θ>
!#
f (X|θ)
2
∂
∂
∂
f (X|θ) ∂θ∂θ
> f (X|θ) − ( ∂θ f (X|θ))( ∂θ > f (X|θ))
f (X|θ)2
#
unter Verwendung der Quotientenregel der Differentiation. Dies ist gleich
" 2
#
"
#
∂f (X|θ)
∂
∂
f (X|θ)
∂θ∂θ>
∂θ f (X|θ)
∂θ>
− Eθ
·
+ Eθ
f (X|θ)
f (X|θ) f (X|θ)
Z
∂2
f (x|θ)dx + Eθ [s(θ; X)s(θ; X)> ]
= −
∂θ∂θ>
Der erste Summand ist unter Vertauschung von Differentiation und Integration gleich
null. Für den zweiten Teil ergibt sich mit Teil 1.
E[s(θ; X)s(θ; X)> ] = Covθ (s(θ; X)).
Weitere Eigenschaften:
• Sind X1 , . . . , Xn unabhängig und gemäß Xi ∼ fi (x|θ), i = 1, . . . , n, verteilt, so gilt:
`(θ) =
n
X
`i (θ)
,
`i (θ) = log fi (xi |θ)
si (θ)
,
si (θ) =
∂ 2 `(θ)
∂θ∂θ>
=
i=1
s(θ) =
n
X
i=1
J(θ) = −
n
X
i=1
29
−
∂
log fi (xi |θ)
∂θ
∂ 2 log fi (xi |θ)
∂θ∂θ>
• Für X1 , . . . , Xn i.i.d. wie X1 ∼ f1 (x|θ) folgt
I(θ) = Eθ [J(θ)] = n · i(θ),
wobei
∂ log f1 (X|θ)
∂ 2 `1 (θ; X)
= Covθ
i(θ) = Eθ −
∂θ
∂θ∂θ>
die erwartete Information einer Einzelbeobachtung ist, d.h. die erwartete Informationsmatrix der Stichprobe X1 , . . . , Xn ist die n-fache erwartete Information einer (typischen)
Stichprobenvariable X1 .
• Für eine Statistik T = T (X), X = (X1 , . . . , Xn )> mit T ∼ fT (t|θ) kann man die Begriffe
Score-Funktion und Fisher-Information völlig analog definieren. Insbesondere ist
2
∂ log fT (t|θ)
IT (θ) = Eθ −
.
∂θ∂θ>
Satz 2.17 (Suffizienz und Fisher-Information). Sei I(θ) die Fisher-Information für X. Dann
gilt unter Fisher-Regularität für jede Statistik T :
1. IT (θ) ≤ I(θ).
2. IT (θ) = I(θ) ⇔ T ist suffizient für θ.
Also: Bei einer suffizienten Statistik T wird keine (erwartete) Information verschenkt”.
”
2.1.4
Erwartungstreue Schätzer
• Schöne” Resultate für finites n, aber für vergleichsweise einfache statistische Modelle.
”
• Problem: Für komplexere Modelle existieren keine vernünftigen” erwartungstreuen
”
Schätzer.
• Aber: Etliche Resultate besitzen allgemeine Eigenschaften für n → ∞.
Informationsungleichungen
I. θ ∈ R (skalar). Neben θ werden auch transformierte Parameter τ (θ) betrachtet. Wenn
Ableitungen benötigt werden, nehmen wir stillschweigend an, dass sie existieren.
Satz 2.18. Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥
Varθ (θ)
1
I(θ)
(Cramer-Rao-Ungleichung).
2. Ist T = T (x) erwartungstreu für τ (θ), so gilt:
Varθ (T ) ≥
(τ 0 (θ))2
I(θ)
heißt Cramer-Rao-Schranke.
30
(τ 0 (θ))2
.
I(θ)
b − θ, so gilt
3. Besitzt θb den Bias B(θ) = Eθ [θ]
0
2
b ≥ B 2 (θ) + (1 + B (θ)) .
MSEθ (θ)
I(θ)
Beweis. Gezeigt wird 2. Daraus folgt 1. für τ (θ) = θ und 3. für τ (θ) = θ + B(θ).
Differentiation von
Z
τ (θ) = Eθ [T ] = T (x)f (x|θ) dx
bezüglich θ, und Verwendung der Fisher-Regularität liefert:
Z
d
0
τ (θ) =
T (x) f (x|θ) dx
dθ
Z
=
T (x)s(θ; x)f (x|θ) dx
= Covθ (T (X), s(θ; X)).
Unter Verwendung der Cauchy-Schwarz-Ungleichung
p
p
|Cov(U, V )| ≤ Var(U ) Var(V )
folgt
(τ 0 (θ))2 ≤ Varθ (T (X))Varθ (s(θ; X))
= Varθ (T (X))I(θ).
Also:
Varθ (T (X)) ≥
(τ 0 (θ))2
.
I(θ)
Bemerkung. Die Gleichheit wird genau dann angenommen, wenn eine einparametrische Exponentialfamilie f (x|θ) = h(x) exp(γ(θ)T (x)+b(θ)) vorliegt, τ (θ) = −b0 (θ)/γ 0 (θ)
gilt und T (x) ein Schätzer für τ (θ) ist. Also: eher eine kleine Modellklasse.
II. θ = (θ1 , . . . , θp ) bzw. τ (θ) mehrdimensional.
Satz 2.19. Sei f (x|θ) Fisher-regulär.
1. Ist θb erwartungstreu für θ, so gilt:
b ≥ I −1 (θ),
Covθ (θ)
wobei sich das ≥” auf die Löwner-Ordnung bezieht (vergleiche Seite 26). Daraus
”
folgt insbesondere Varθ (θbj ) ≥ vjj , j = 1, . . . , p, wobei vjj das j-te Diagonalelement
von I −1 (θ) bezeichnet.
2. Ist T erwartungstreu für τ (θ), so gilt
Covθ (T ) ≥ H(θ)I −1 (θ)H(θ)>
mit der Funktionalmatrix (H(θ))ij =
Cramer-Rao-Schranke.
∂
∂θj τi (θ).
31
Die Matrix H(θ)I −1 (θ)H(θ)> ist die
Bemerkung. Obige Bemerkung für skalares θ gilt analog für
f (x|θ) = h(x) exp(b(θ) + γ > (θ)T (x)),
d.h. für mehrparametrische Exponentialfamilien.
Beispiel 2.14 (Cramer-Rao-Schranke bei X ∼ N (µ, σ 2 )). X1 , . . . , Xn i.i.d. wie X ∼ N (µ, σ 2 ),
θ = (µ, σ 2 ). Dann gilt für die Informationsmatrix
!
n
σ2
0
0
2
n
σ
bzw. I −1 (θ) =
I(θ) =
.
4
0 2σn4
0 2σn
Beste erwartungstreue Schätzer
Erwartungstreue Schätzer minimaler Varianz innerhalb einer vorgegebenen Klasse nennt man
effizient. Die Informationsungleichungen motivieren:
Definition 2.20 (Gleichmäßig bester erwartungstreuer (UMVU) Schätzer).
1. θ skalar:
Der Schätzer θbeff für θ heißt gleichmäßig bester erwartungstreuer oder UMVU ( uni”
def
formly minimum variance unbiased”)-Schätzer ⇔ θbeff ist erwartungstreu, und es gilt
b für alle θ und jeden erwartungstreuen Schätzer θ.
b
Varθ (θbeff ) ≤ Varθ (θ)
2. θ mehrdimensional:
b durch Covθ (θbeff ) ≤ Covθ (θ).
b
Ersetze in 1. Varθ (θbeff ) ≤ Varθ (θ)
Satz 2.21 (Effizienz und Informationsungleichungen). Sei f (x|θ) Fisher-regulär und θb erb = I −1 (θ) für alle θ, so ist θb ein UMVU-Schätzer.
wartungstreu für θ. Falls Covθ (θ)
Beweis. Die Aussage folgt direkt aus der Informationsungleichung und obiger Definition.
i.i.d.
Beispiel 2.15 (Gauß-Experiment). Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ, σ 2 unbekannt. Aus
Beispiel 2.14 wissen wir, dass I(µ) = n/σ 2 und somit I −1 (µ) = σ 2 /n = Var(X̄). Dann ist X̄
UMVU für µ. Aber
2σ 4
2σ 4
Var(S 2 ) =
>
= I −1 (σ 2 ).
n−1
n
Die Cramer-Rao-Schranke wird also nicht erreicht, somit kann nicht gefolgert werden, dass S 2
UMVU für σ 2 ist.
Beispiel 2.16 (Lineares Modell).
y = Xβ + ε, ε ∼ N (0, σ 2 I)
bzw.
y ∼ N (Xβ, σ 2 I)
βbKQ = βbML = (X > X)−1 X > y ist effizient für β,
n
1 X
(yi − ybi )2 ist nicht effizient für σ 2 .
σ
b2 =
n−p
i=1
32
Bemerkung. Zu unterscheiden sind folgende Situationen:
1. Es existiert ein UMVU-Schätzer, dessen Varianz gleich der Cramer-Rao-Schranke ist.
2. Es existiert ein UMVU-Schätzer, dessen Varianz größer als die Cramer-Rao-Schranke
ist (findet man mit dem Satz von Lehmann-Scheffé, siehe Satz 2.23).
3. Der häufigste Fall: Es existiert (für finiten Stichprobenumfang) kein UMVU-Schätzer.
Fazit: Finite Theorie erwartungstreuer Schätzer ist von eingeschränkter Anwendungsrelevanz.
Aber: Es existiert eine analoge asymptotische Theorie mit breiter Anwendungsrelevanz, die
sich an finiter Theorie orientiert (siehe Abschnitt 2.1.5).
Zur Konstruktion von UMVU-Schätzern sind folgende zwei Aussagen nützlich:
Satz 2.22 (Rao-Blackwell). Sei T = T (X) suffizient für θ bzw. Pθ und θb erwartungstreu
für θ. Für den Schätzer
b ]
θbRB = Eθ [θ|T
( Rao-Blackwellization”)
”
gilt:
1. θbRB ist erwartungstreu für θ.
b
2. Varθ (θbRB ) ≤ Varθ (θ).
3. In 2. gilt die Gleichheit, wenn θb nur von T abhängt, d.h. θbRB = θb mit Wahrscheinlichkeit 1.
Satz 2.23 (Lehmann-Scheffé). Ist T = T (X) suffizient und vollständig (also minimalsuffizib
ent) und θb = θ(x)
ein erwartungstreuer Schätzer, so ist
b ]
θb∗ = Eθ [θ|T
der mit Wahrscheinlichkeit 1 eindeutig bestimmte UMVU-Schätzer für θ.
2.1.5
Asymptotische Eigenschaften und Kriterien
Wichtige Schätzer (Momentenschätzer, Shrinkage-Schätzer, ML- und Quasi-ML-Schätzer etc.)
sind im Allgemeinen nicht erwartungstreu, besitzen aber günstige asymptotische (n → ∞)
Eigenschaften. Im Folgenden sei
θ̂n = θ̂(X1 , . . . , Xn )
Schätzer für θ.
def
Definition 2.24 (Asymptotische Erwartungstreue). θbn heißt asymptotisch erwartungstreu ⇔
lim Eθ [θbn ] = θ
n→∞
33
für alle θ.
Definition 2.25 (Konsistenz).
def
P
1. θbn ist (schwach) konsistent für θ (in Zeichen: θbn → θ (für alle θ)) ⇔
lim Pθ (|θbn − θ| ≤ ε) = 1
n→∞
für alle ε > 0 und alle θ.
def
2. θbn heißt MSE-konsistent für θ ⇔
lim MSEθ (θbn ) = 0
n→∞
für alle θ.
def
3. θbn ist stark konsistent für θ ⇔
Pθ lim θbn = θ = 1
für alle θ.
n→∞
Bemerkung.
1. Aus der (verallgemeinerten) Tschebyscheff-Ungleichung folgt
θbn MSE-konsistent ⇒ θbn schwach konsistent.
2. Wegen MSEθ (θbn ) = Varθ (θbn ) + (Biasθ (θbn ))2 folgt:
θbn ist MSE-konsistent ⇔ Varθ (θbn ) → 0 und Biasθ (θbn ) → 0 für alle θ.
3. Ist θbn konsistent für θ und g eine stetige Abbildung, so ist auch g(θbn ) konsistent für g(θ)
(Continuous Mapping Theorem/Stetigkeitssatz).
4. Konsistenznachweise bestehen in der Regel in der Anwendung (schwacher) Gesetze
großer Zahlen (für i.i.d. Variablen; i.n.i.d. Variablen; abhängige Variablen, z.B. Martingale, Markov-Prozesse, ...).
Beispiel 2.17.
1. X̄n =
2. Sn2 =
1
n
n
P
Xi ist wegen E(X̄n ) = µ und Var(X̄n ) =
i=1
1
n−1
n
P
(Xi − X̄n )2 und Sen2 =
i=1
3. Mit g(x) =
1
n
n
P
σ2
n
→ 0 für n → ∞ konsistent.
(Xi − X̄n )2 sind MSE-konsistent für σ 2 .
i=1
√
x folgt, dass
v
u
n
u 1 X
Sn = t
(Xi − X̄n )2
n−1
i=1
und
v
u n
u1 X
e
Sn = t
(Xi − X̄n )2
n
i=1
konsistent sind für σ.
4. Sn /X̄n ist konsistent für σ 2 /µ für µ > 0, da mit θ = (µ, σ) und g(θ) = σ 2 /µ wieder der
Stetigkeitssatz benutzt werden kann.
5. π
bn ist konsistent für π (im Bernoulli-Experiment).
6. βbKQ , βbRidge sind konsistent für β im linearen Modell.
34
Asymptotische Normalität
Viele Schätzer (KQ-, Momenten-, ML-, Quasi-ML-, Bayes-Schätzer) sind unter Regularitätsannahmen asymptotisch normalverteilt. Informell ausgedrückt heißt das: Für große n ist θbn
nicht nur approximativ erwartungstreu, sondern zusätzlich approximativ normalverteilt, kurz
a
θbn ∼ N (θ, V (θ))
mit (approximativer) Kovarianzmatrix
a
Covθ (θbn ) ∼ V (θ),
die durch
d θ (θbn ) := V (θbn )
Cov
geschätzt wird. In der Diagonalen von V (θbn ) stehen dann die (geschätzten) Varianzen
d θbj ) = vjj (θbn )
Var(
der Komponenten θj , j = 1, . . . , p, von θ.
⇒ ”Üblicher” Output statistischer Software ist
q
b
θbj
σ
bθbj = vjj (θ)
|{z}
|
{z
}
Schätzer
Standardfehler
t
|{z}
t-Statistik
p
|{z}
p-Wert
i.i.d.
Beispiel 2.18. Seien X1 , . . . , Xn ∼ F (x|θ) mit E(Xi ) = µ und Var(Xi ) = σ 2 . Aber F sei
nicht gleich Φ, sondern z.B. die Verteilungsfunktion von B(π) oder P o(λ). Für X̄n gilt
E(X̄n ) = µ und Var(X̄n ) =
σ2
.
n
Aufgrund des zentralen Grenzwertsatzes folgt
σ2
X̄n ∼ N µ,
,
n
a
zum Beispiel
a
X̄n ∼ N
π(1 − π)
π,
n
bei B(π).
Genauere Formulierung:
√
im Beispiel also
√
d
n(X̄n − µ) → N (0, σ 2 )
für n → ∞,
d
n(X̄n − π) → N (0, π(1 − π))
für n → ∞
bzw.
X̄−µ √
n
σ
√
X̄−π
√
n
π(1−π)
d
→
d
→
N (0, 1),
N (0, 1).
)
zentraler
Grenzwertsatz
√
Die n-Normierung ist vor allem bei i.i.d. Stichprobenvariablen geeignet. Für nicht identisch
verteilte Stichprobenvariablen wie zum Beispiel y1 |x1 , . . . , yn |xn in Regressionssituationen
√
benötigt man bei n-Normierung Voraussetzungen, die (teilweise) unnötig restriktiv sind.
1
Besser ist dann eine Matrix-Normierung” mit Hilfe einer Wurzel” I 2 (θ) der Informations”
”
matrix.
35
Einschub: Wurzel einer positiv definiten Matrix
• A ist positiv definit, wenn A symmetrisch ist und x> Ax > 0 für alle x 6= 0 gilt.
def
1
• Dann heißt eine Matrix A 2 (linke) Wurzel von A ⇔
1
1
A2
>
(A 2 )>
| {z }
= A.
=A 2 , rechte Wurzel
1
1
Allerdings ist A 2 nicht eindeutig, da für eine beliebige orthogonale Matrix auch A 2 Q
eine linke Wurzel ist:
1
1
>
1
A 2 Q(A 2 Q)> = A 2 QQ> A 2 = A.
| {z }
=I
• Zwei gebräuchliche Wurzeln sind:
1. Symmetrische Wurzel: Betrachte die Spektralzerlegung von A ∈ Rp×p . Mit der
Matrix P ∈ Rp×p der orthonormalen Eigenvektoren als Spalten ist


λ1
0


..
P > AP = Λ = 
,
.
0
λp
wobei für alle i die λi > 0 die Eigenwerte von A sind. (Diese Zerlegung ist numerisch aufwändig!) Dann gilt auch
1
1
A = P ΛP > = P
Λ 2} (Λ 2 )> P > ,
| {z
| {z }
1
=A 2
>
=A 2
1
und A 2 heißt symmetrische Wurzel von A.
1
2. Cholesky-Wurzel: Sei A 2 := C untere Dreiecksmatrix mit positiven Diagonalelementen und CC > = A. Dann ist C die eindeutig bestimmte Cholesky-Wurzel
von A. (Diese ist numerisch vergleichsweise einfach zu erhalten!)
• Anwendungen in der Statistik
1. Erzeugen von Np (0, Σ)-verteilten Zufallszahlen (Σ vorgegeben): Falls Z ∼ Np (0, I),
ist einfache Simulation möglich, indem p unabhängige N (0, 1)-verteilte Zufallsvariablen Z1 , . . . , Zp simuliert werden. Dann gilt auch
.
Σ1/2 Z ∼ N (0, Σ1/2 IΣ>/2 ) = N (0, Σ).
Also: Berechne Cholesky-Wurzel von Σ, ziehe p N (0, 1)-verteilte Zufallsvariablen
Z = (z1 , . . . , zp )> , berechne Y = Σ1/2 Z. Dann ist Y = (Y1 , . . . , Yp )> ein Np (0, Σ)verteilter Zufallsvektor.
36
2. Matrixnormierung bei asymptotischer Normalverteilung:
Beispiel 2.19 (Asymptotische Normalität des KQ-Schätzers im linearen Modell).
Seien y1 |x1 , . . . , yn |xn unabhängig. Dann gilt
E[yi |xi ] = x>
i β,
Var(yi |xi ) = σ 2 ,
i = 1, . . . , n,
⇔ yn = Xn β + εn , E[εn ] = 0, Cov(εn ) = σ 2 In .
Der KQ-Schätzer ist
βbn = (Xn> Xn )−1 Xn> yn , E[βbn ] = β, Cov(βbn ) = σ 2 (Xn> Xn )−1 .
Die Informationsmatrix unter der Normalverteilungsannahme ist
I(β) =
Xn> Xn
= Cov(βbn )−1 .
σ2
Zentrale Grenzwertsätze (für unabhängige, nicht identisch verteilte Zufallsvariablen, kurz: i.n.i.d.) liefern unter geeigneten Voraussetzungen (informell):
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 ).
Genauere Formulierungen nehmen an, dass
1 >
X Xn =: A > 0
n→∞n n
lim
(2.1)
existiert (also: Xn> Xn ≈ nA ⇔ (Xn> Xn )−1 ≈ A−1 /n für große A). Anwendung
des (multivariaten) zentralen Grenzwertsatzes liefert dann:
√
d
n(βbn − β) → N (0, σ 2 A−1 )
bzw.
βbn
βbn
∼
a
N (β, σ 2 A−1 /n)
a
N (β, σ 2 (Xn> Xn )−1 ).
∼
Die Annahme (2.1) ist zum Beispiel erfüllt, wenn xi , i = 1, . . . , n, i.i.d. Realisierungen stochastischer Kovariablen x = (x1 , . . . , xp )> sind. Dann gilt nach dem
Gesetz der großen Zahlen:
n
1 >
1X
Xn Xn =
xi x>
i
n
n
n→∞
→
E[xx> ] =: A.
i=1
Typischerweise ist die Annahme (2.1) nicht erfüllt bei deterministischen Regressoren mit Trend. Das einfachste Beispiel hierfür ist ein linearer Trend: xi = i für
i = 1, . . . , n und yi = β1 i + εi . Dann ist
Xn> Xn =
n
X
i=1
37
i2
und daher
Pn 2
i
1 >
n→∞
Xn Xn = i=1 ≥ n → ∞.
n
n
In diesem Fall ist eine andere Normierung nötig, zum Beispiel eine Matrixnormierung mit
Cn = (Xn> Xn ).
Dann lässt sich die asymptotische Normalität des KQ-Schätzers
d
Cn1/2 (βbn − β) → Np (0, σ 2 I)
bzw.
1/2
Cn b
d
C̃n1/2 (βbn − β) :=
(βn − β) → Np (0, I)
σ
unter folgenden, sehr schwachen Bedingungen zeigen:
(D) Divergenzbedingung: Für n → ∞ gilt:
(Xn> Xn )−1 → 0.
Eine äquivalente Forderung ist:
λmin (Xn> Xn ) → ∞,
wobei λmin den kleinsten Eigenwert von Xn> Xn bezeichnet. Die Divergenzbedingung sichert, dass die Informationsmatrix”
”
n
X
Xn> Xn =
xi x>
i
i=1
für n → ∞ gegen ∞ divergiert, die Information mit n → ∞ also laufend
wächst.
Es gilt: (D) ist hinreichend und notwendig für die (schwache und starke) Konsistenz des KQ-Schätzers βbn .
(N) Normalitätsbedingung:
>
−1
max x>
i (Xn Xn ) xi → 0
i=1,...,n
für n → ∞
(N) sichert, dass die Information
jeder Beobachtung i asymptotisch gegenüber
Pn
>
der Gesamtinformation i=1 xi xi vernachlässigbar ist.
Unter (D) und (N) gilt
d
(Xn> Xn )1/2 (βbn − β) → N (0, σ 2 I)
(Beweis mit Grenzwertsätzen für unabhängige, nicht identisch verteilte Zufallsvariablen), d.h. für praktische Zwecke:
a
βbn ∼ N (β, σ 2 (Xn> Xn )−1 )
für genügend großen Stichprobenumfang n. Dabei darf zusätzlich σ 2 durch einen
konsistenten Schätzer σ
b2 ersetzt werden.
38
Definition 2.26 (Asymptotische Normalität).
1. Mit
√
def
n-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔
√
d
n(θbn − θ) → N (0, V (θ))
für n → ∞
mit nicht-negativ definiter (in der Regel positiv definiter) asymptotischer Kovarianzmatrix V (θ).
def
2. Mit Matrix-Normierung: θbn heißt asymptotisch normalverteilt für θ ⇔ es existiert
eine Folge von Matrizen An mit λmin (An ) → ∞, so dass
d
An1/2 (θbn − θ) → N (0, V (θ)).
Bemerkung.
1. Praxisformulierung:
bzw.
a
θbn ∼ N (θ, V (θ)/n)
a
−1
1/2 −>
θbn ∼ N (θ, (A1/2
).
n ) V (θ)(An )
Dabei darf θ in V (θ) durch θbn ersetzt werden.
2. Oft: V (θ) = I möglich, wenn geeignet normiert wird, zum Beispiel bei ML-Schätzung.
Beispiel 2.20. Seien X1 , . . . , Xn i.i.d. Zufallsvariablen mit (bekanntem) Erwartungswert µ
und Varianz σ 2 .
n
1X
(Xi − µ)2
Sµ2 =
n
i=1
σ2
ist asymptotisch normal für
mit V (θ) = µ4 − σ 4 , µ4 = E[(Xi − µ)4 ] < ∞. Sµ2 ist erwartungstreu. Für die Varianz erhält man:
!
n
X
1
Var(Sµ2 ) = Var
(Xi − µ)2
n
i=1
1
=
· n · Var (X1 − µ)2
2
n
2 1
=
E[(X1 − µ)4 ] − E[(X1 − µ)2 ]
n
1
=
(µ4 − σ 4 ).
n
Es liegen die Voraussetzungen zur Anwendung des zentralen Grenzwertsatzes vor. Aus ihm
folgt:
√
a
d
Sµ2 ∼ N (σ 2 , (µ4 − σ 4 )/n) bzw.
n(Sµ2 − σ 2 ) → N (0, µ4 − σ 4 ).
39
Die Delta-Methode
θbn sei asymptotisch normalverteilter Schätzer für θ.
Frage: Wie ist für eine gegebene Abbildung
h : Rp → Rk , k ≤ p
b für h(θ) verteilt?
der Schätzer h(θ)
Satz 2.27 (Delta-Methode). Sei h wie oben.
1. θ skalar: Für alle θ, für die h stetig differenzierbar ist mit h0 (θ) 6= 0, gilt:
√
d
n(θbn − θ) → N (0, V (θ)) ⇒
√
d
n(h(θbn ) − h(θ)) → N (0, [h0 (θ)]2 V (θ))
2. θ vektoriell: Sei
θ = (θ1 , . . . , θp )> 7→ h(θ) = (h1 (θ), . . . , hk (θ))>
mit Funktionalmatrix
(H(θ))ij =
∂hi (θ)
∂θj
mit vollem Rang. Für alle θ, für die h(θ) komponentenweise stetig partiell differenzierbar
ist und jede Zeile von H(θ) ungleich dem Nullvektor ist, gilt:
√
d
n(θbn − θ) → N (0, V (θ)) ⇒
√
d
n(h(θbn ) − h(θ)) → N (0, H(θ)V (θ)H(θ)> ).
Beweisskizze für skalares θ. Taylorentwicklung von h(θbn ) um θ liefert:
h(θn ) = h(θ) + (θbn − θ)h0 (θ) + o(θbn − θ)2 .
Dabei ist für eine Folge von Zufallsvariablen Xn
Xn = o(an )
P
falls Xn /an → 0 für n → ∞.
Also:
h(θbn ) ≈ h(θ) + (θbn − θ)h0 (θ)
bzw.
√
√
n(h(θbn ) − h(θ)) ≈ n(θbn − θ)h0 (θ)
√
√
d
d
Aus n(θbn − θ) → N (0, V (θ)) folgt dann, dass n(h(θbn ) − h(θ)) → N (0, h0 (θ)2 V (θ)).
40
Asymptotische Cramer-Rao Schranke und asymptotische Effizienz
i.i.d.
Seien X1 , . . . , Xn ∼ f (x|θ) und
∂ 2 log f (x|θ)
i(θ) = −E
∂θ∂θ>
die erwartete Fisher-Information einer Beobachtung Xi . Die Information der gesamten Stichprobe X1 , . . . , Xn ist dann
I(θ) = n · i(θ).
Satz 2.28 (Asymptotische Cramer-Rao Ungleichung). Unter Fisher-Regularität sowie leichten Zusatzannahmen gilt:
1. Aus
2. Aus
√
√
d
n(θbn − θ) → N (0, V (θ)) folgt V (θ) ≥ i−1 (θ).
d
n(h(θbn ) − h(θ)) → N (0, D(θ)) folgt
D(θ) ≥ H(θ)i−1 (θ)H(θ)>
mit ”≥” Löwner-Ordnung (und den Bezeichnungen aus der Delta-Regel, Satz 2.27).
Definition 2.29 (Bester asymptotisch normaler (BAN)-Schätzer). θbn heißt BAN-Schätzer,
falls in 1. oben gilt:
V (θ) = i−1 (θ).
Mit der Delta-Regel folgt unmittelbar:
Satz 2.30 (Transformation von BAN-Schätzern). Ist θbn BAN-Schätzer für θ, so ist h(θbn )
BAN-Schätzer für h(θ).
Bemerkung. Das Konzept der asymptotischen Effizienz lässt sich auf die Matrix-Normierung
übertragen: θb ist BAN-Schätzer für θ genau dann, wenn
d
I 1/2 (θ)(θbn − θ) → N (0, I)
a
bzw. θbn ∼ N (θ, I −1 (θbn )), mit I 1/2 (θ) Wurzel der Fisher-Information I(θ) der Stichprobe
X1 , . . . , Xn . Anstelle der erwarteten kann auch die beobachtete Fisher-Information J (θ) verwendet werden.
2.2
Klassische Testtheorie
Ziel: Finde Test zum Niveau α mit optimaler Güte (Power) für θ ∈ Θ1 . Dabei ist n finit.
41
2.2.1
Problemstellung
• Sei Θ der Parameterraum; die Hypothesen seien
H0 : θ ∈ Θ0
vs. H1 : θ ∈ Θ1 ,
mit Θ0 ∩ Θ1 = ∅, d.h. Θ0 und Θ1 sind disjunkt. Möglicherweise, jedoch nicht notwendigerweise, gilt Θ0 ∪ Θ1 = Θ.
• Eine Nullhypothese heißt einfach, wenn sie aus einem einzelnen Element aus Θ besteht,
d.h. Θ0 = {θ0 }. Ansonsten spricht man von zusammengesetzten Hypothesen. Dabei ist
Folgendes zu beachten: Etliche Nullhypothesen sind scheinbar einfach, aber tatsächlich
zusammengesetzt. Dies ist häufig dann der Fall, wenn Nuisanceparameter auftauchen.
Beispiel: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) mit µ und σ 2 unbekannt. Die Nullhypothese
H0 : µ = 0 ist eine zusammengesetzte Hypothese, da
Θ = {(µ, σ 2 ) : −∞ < µ ≤ ∞, 0 < σ 2 < ∞}
und
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
• Ergebnisse/Aktionen:
A0 :
H0 wird nicht abgelehnt
A1 :
H0 wird abgelehnt
• Test zum Niveau α:
Pθ (A1 ) ≤ α,
für alle θ ∈ Θ0
• Testfunktionen (vgl. Abschnitt 1.2.1): Tests werden oft folgendermaßen formuliert:
Wähle eine Teststatistik T (X), eine Stichprobe X und einen kritischen Bereich Cα .
Dann lautet der Test
1 , falls T (x) ∈ Cα
(H0 ablehnen),
φ(x) =
0 , falls T (x) ∈
/ Cα
(H0 nicht ablehnen).
• Für die Testtheorie dieses Abschnitts werden solche Testfunktionen φ(x) ∈ {0, 1} erweitert zu randomisierten Testfunktionen φ(x) ∈ [0, 1]:
1. Für gegebene Daten X = x ist φ(x) ∈ [0, 1].
2. Ziehe eine (davon unabhängige) Bernoullivariable W ∼ Bin(1, φ(x)).
3. Lehne H0 genau dann ab, wenn W = 1.
Interpretation: φ(x) ist die Wahrscheinlichkeit für die Ablehnung von H0 gegeben die
Beobachtung X = x. Im Spezialfall φ(x) ∈ {0, 1} reduziert sich ein randomisierter
Test auf einen üblichen, nicht randomisierten Test. Randomisierte Tests sind (für die
Theorie) vor allem bei diskreten Teststatistiken relevant.
42
Beispiel 2.21 (Randomisierter Binomialtest). Sei X ∼ Bin(10, π) und
1
H0 : π ≤ ,
2
1
H1 : π > .
2
Test: H0 ablehnen ⇔ X ≥ kα , wobei kα so, dass
Pπ (X ≥ kα ) ≤ α
Es ist
1
für π = .
2


0.00098



0.01074
P0.5 (X ≥ k) =

0.05469



. . .
, k = 10
,k = 9
,k = 8
Für α = 0.05 würde die Wahl kα = 8 wegen 0.054 > 0.05 nicht möglich sein. Wählt man
aber kα = 9, so schöpft man α = 0.05 bei weitem nicht aus, d.h. der Test ist sehr konservativ.
Die Lösung ist ein randomisierter Test


, x ∈ {9, 10}
1
φ(x) = 67/75 , x = 8


0
, x ≤ 7,
d.h. ziehe bei x = 8 eine bernoulliverteilte Zufallsvariable mit Wahrscheinlichkeit 67/75.
Wird 1 realisiert, so wird H0 abgelehnt.
Die Randomisierung ist ein künstlicher Vorgang, um das Signifikanzniveau α auszuschöpfen,
d.h.
Pθ (A1 ) = α
für dasjenige θ auf dem Rand zwischen Θ0 und Θ1 zu erreichen. Ein randomisierter Test
besitzt in der Regel folgende Struktur:


, x ∈ B1
1
φ(x) = γ(x) , x ∈ B10


0
, x ∈ B0 .
Der Stichprobenraum wird also in drei Teile zerlegt:
B1 strikter Ablehnungsbereich von H0 , d.h. x ∈ B1 ⇒ Aktion A1 .
B0 strikter Annahmebereich, d.h. x ∈ B0 ⇒ Aktion A0 .
B10 Randomisierungsbereich, d.h. x ∈ B10 führt mit Wahrscheinlichkeit γ(x) zur Ablehnung
und mit Wahrscheinlichkeit 1 − γ(x) zur Annahme von H0 . B10 kann als Indifferenzbereich interpretiert werden.
43
In der Regel wird ein Test mit einer Teststatistik T = T (X) formuliert. Dann haben randomisierte Tests oft die Form:


1, T (x) > c
φ(x) = γ, T (x) = c


0, T (x) < c .
Falls T (X) eine stetige Zufallsvariable ist, gilt P(T (X) = c) = 0, d.h. für stetige T reduziert
sich φ(x) zu
(
1, T (x) ≥ c
φ(x) =
0, T (x) < c .
Bei diskreten Teststatistiken T wie beim exakten Binomialtest ist γ = P(T (X) = c) > 0. Der
Wert c ist an der Entscheidungsgrenze” zwischen A1 und A0 . Dass man die Entscheidung
”
durch eine zufällige Prozedur herbeiführt, stößt in der Praxis auf Bedenken.
Die (frequentistische) Theorie zeigt, dass die Priori-Wahrscheinlichkeit
Z
Pθ (A1 ) =
P(A1 |x) f (x|θ)dx = Eθ [φ(X)], θ ∈ Θ1
X | {z } | {z }
φ(x)
dPθ
bei Randomisierung maximiert werden kann (φ(x) ist die bedingte Wahrscheinlichkeit, a
posteriori, d.h. bei gegebener Stichprobe, für A1 zu entscheiden). Maximal” bezieht sich auf
”
durchschnittliche” Optimalität des Tests bei wiederholter Durchführung.
”
Subjektive Sichtweise: Man wird bei T (x) = c bzw. x ∈ B10 eher noch keine Entscheidung
treffen ( Indifferenzbereich”).
”
Für n → ∞ geht (in der Regel) P(T (X) = c) gegen 0, d.h. für großes n wird der Randomisierungsbereich B10 immer kleiner. Idee: Bei T (x) = c zusätzliche Daten erheben.
Güte, Gütefunktion (power, power function)
Bei einer Testentscheidung gibt es folgende Möglichkeiten:
H0 trifft zu
H1 trifft zu
A0 : H0 beibehalten
richtige Aussage
Fehler 2. Art
A1 : H1 ist signifikant
Fehler 1. Art
richtige Aussage
Es ist φ(x) = P(A1 |x) die bedingte Wahrscheinlichkeit für A1 gegeben die Stichprobe x. Ist
Pθ (A1 ) die unbedingte Wahrscheinlichkeit / Priori-Wahrscheinlichkeit, dann gilt (wie oben)
Z
Z
Pθ (A1 ) =
P(A1 |x)f (x|θ) dx = φ(x)f (x|θ) dx = Eθ [φ(X)]
X
und somit auch Pθ (A0 ) = Eθ (1 − φ(X)) für θ ∈ Θ.
44
Definition 2.31 (Gütefunktion eines Tests φ).
1. Die Abbildung gφ (θ) = Eθ [φ(X)] = Pθ (A1 ), θ ∈ Θ, heißt Gütefunktion des Tests φ.
gφ (θ) = Pθ (A1 )
Wahrscheinlichkeit für Fehler 1. Art, θ ∈ Θ0
1 − gφ (θ) = Pθ (A0 )
Wahrscheinlichkeit für Fehler 2. Art, θ ∈ Θ1
Außerdem:
gφ (θ) = Pθ (A1 )
Macht (power) des Tests, θ ∈ Θ1
2. Die Größe
α(φ) = sup Pθ (A1 ) = sup gφ (θ)
θ∈Θ0
θ∈Θ0
heißt (tatsächliches) Niveau (level, size) von φ und ist die supremale Wahrscheinlichkeit
für den Fehler 1. Art.
β(φ) = sup Pθ (A0 ) = 1 − inf gφ (θ)
θ∈Θ1
θ∈Θ1
ist die supremale Wahrscheinlichkeit für den Fehler 2. Art.
• Bei den üblichen” Tests gilt wegen der Monotonie und Stetigkeit von gφ (θ)
”
α(φ) + β(φ) = 1,
d.h. α(φ) kann nur auf Kosten von β(φ) klein gehalten werden (und umgekehrt).
Allgemein gilt dagegen nur
α(φ) + β(φ) ≥ 1,
zum Beispiel beim einseitigen Gauß-Test.
• Programm der klassischen Testtheorie: Maximiere unter Beschränkung
gφ (θ) ≤ α für alle θ ∈ Θ0
bei fest vorgegebenem α > 0 die Güte für θ ∈ Θ1 , d.h.
gφ (θ) ≥ max gφe(θ)
für θ ∈ Θ1
e
φ
e H0 und H1 werden also unsymmetrisch betrachtet.
bei konkurrierenden” Tests φ.
”
• Wegen der Beziehung α(φ) + β(φ) = 1 muss dabei das vorgegebene Signifikanzniveau α
ausgeschöpft werden, d.h.
α(φ) = α
gelten. Bei α(φ) < α wird automatisch
β(φ) = 1 − inf gθ (φ)
θ∈Θ1
für θ ∈ Θ1 größer als notwendig, d.h. die Güte des Tests schlechter.
45
• Folgende Problemstellungen werden nach diesem Konzept betrachtet:
1. Einfaches H0 vs. einfaches H1 : Neyman-Pearson-Theorem zeigt, wie bester Test
zu konstruieren ist.
2. Einfaches H0 vs. zusammengesetztes H1 : Basierend auf dem Neyman-PearsonTheorem kann für bestimmte Fälle ein gleichmäßig bester Test” (UMP, uniformly
”
most powerful test) konstruiert werden. In anderen Fällen existiert — zumindest
ohne weitere Restriktionen — kein UMP-Test.
3. Zusammengesetztes H0 vs. zusammengesetztes H1 : Suche nach einem UMP-Test
ist noch schwieriger.
2.2.2
Satz von Neyman-Pearson
Problemstellung: Einfache Nullhypothese vs. einfache Alternativhypothese, also
H0 : θ = θ0 ,
vs. H1 : θ = θ1
mit θ0 6= θ1 . Sei f0 (x) = f (x|θ0 ), f1 (x) = f (x|θ1 ). Dann heißt
Λ(x) =
f1 (x)
f0 (x)
Likelihood-Quotient. Ein (bester) Test hat nach Neyman-Pearson die Form:
H0 ablehnen ⇔ Λ(x) > kα
mit kα so gewählt, dass der Test das Niveau α einhält. Aber: Falls Λ(x) diskret ist, gibt es
ein theoretisches Problem. Dies führt zu
Definition 2.32 (Randomisierter LQ-Test). Ein Test φ∗ (x) heißt randomisierter Likelihooddef
Quotienten-Test, kurz LQ-Test (likelihood ratio test, LRT) ⇔ φ∗ (x) hat die Struktur


, f1 (x) > kf0 (x) ⇔ Λ(x) > k
1
∗
φ (x) = γ(x) , f1 (x) = kf0 (x) ⇔ Λ(x) = k


0
, f1 (x) < kf0 (x) ⇔ Λ(x) < k
mit Konstante k > 0 und 0 < γ(x) < 1. Falls Λ(X) stetig ist, gilt Pθ (Λ(X) = k) = 0. Dann
reicht ein nicht-randomisierter Test
(
1, f1 (x) > kf0 (x) ⇔ Λ(x) > k
φ∗ (x) =
0, sonst.
Satz 2.33 (Neyman-Pearson, Fundamentallemma).
1. Optimalität: Für jedes k und γ(x) hat der Test φ∗ maximale Macht unter allen Tests,
deren Niveau höchstens gleich dem Niveau von φ∗ ist.
2. Existenz: Zu vorgegebenem α ∈ (0, 1) existieren Konstanten k ∗ und γ ∗ , so dass der
LQ-Test φ∗ mit diesem k ∗ und γ(x) = γ ∗ für alle x exakt das Niveau α besitzt.
46
3. Eindeutigkeit: Falls ein Test φ mit Niveau α maximale Macht (= kleinsten Fehler 2. Art)
unter allen anderen Tests mit Niveau α besitzt, dann ist φ ein LQ-Test (eventuell mit
Ausnahme einer Nullmenge X0 ⊂ X von Stichproben x, d.h. Pθ0 (X0 ) = Pθ1 (X0 ) = 0).
Beweis.
1. Sei φ ein Test mit
Eθ0 [φ(X)] ≤ Eθ0 [φ∗ (X)]
(2.2)
und
U (x) = (φ∗ (x) − φ(x))(f1 (x) − kf0 (x)).
– Für
f1 (x) − kf0 (x) > 0
ist
φ∗ (x) = 1, also U (x) ≥ 0.
– Für
f1 (x) − kf0 (x) < 0
ist
φ∗ (x) = 0, also U (x) ≥ 0.
– Für
f1 (x) = kf0 (x) = 0
ist
U (x) = 0.
Also: U (x) ≥ 0 für alle x. Somit:
Z
0 ≤
U (x)dx
Z
=
(φ∗ (x) − φ(x))(f1 (x) − kf0 (x)) dx
Z
Z
Z
Z
∗
∗
=
φ (x)f1 (x) dx − φ(x)f1 (x) dx + k
φ(x)f0 (x) dx − φ (x)f0 (x) dx
= Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] + k(Eθ0 [φ(X)] − Eθ0 [φ∗ (X)])
|
{z
}
≤0 wegen (2.2)
⇒ Eθ1 [φ∗ (X)] ≥ Eθ1 [φ(X)], d.h. die Macht von φ∗ ist größer als die Macht von φ.
2. Die Verteilungsfunktion G(k) = Pθ0 (Λ(x) ≤ k) ist monoton steigend in k. Sie ist ferner
rechtsstetig, d.h.
G(k) = lim G(y) für alle k.
y↓k
Betrachtet man die Gleichung
G(k ∗ ) = 1 − α
und versucht diese bezüglich k ∗ zu lösen, so gibt es zwei Möglichkeiten:
(i) Entweder ein solches k ∗ existiert,
(ii) oder die Gleichung kann nicht exakt gelöst werden, aber es existiert ein k ∗ , so dass
G− (k ∗ ) = Pθ0 (Λ(X) < k ∗ ) ≤ 1 − α < G(k ∗ )
(das entspricht der Niveaubedingung”).
”
Im ersten Fall setzt man γ ∗ = 0, im zweiten
γ∗ =
G(k ∗ ) − (1 − α)
.
G(k ∗ ) − G− (k ∗ )
47
In diesem Fall hat der Test genau das Niveau α, wie behauptet, denn:
f1 (X)
G(k ∗ ) − 1 + α
f1 (X)
∗
∗
Eθ0 [φ(X)] = Pθ0
>k +
Pθ
=k
f0 (X)
G(k ∗ ) − G− (k ∗ ) 0 f0 (X)
G(k ∗ ) − 1 + α
= (1 − G(k ∗ )) +
(G(k ∗ ) − G− (k ∗ ))
G(k ∗ ) − G− (k ∗ )
= α.
3. Sei φ∗ der LQ-Test definiert durch eine Konstante k und eine Funktion γ(x) und man
nehme an, φ ist ein anderer Test mit gleichem Niveau α und der gleichen
Macht wie φ∗ .
R
Definiert man U (x) wie in 1., dann ist U (x) ≥ 0 für alle x und U (x) dx = 0, da
Eθ1 [φ∗ (X)] − Eθ1 [φ(X)] = 0 und Eθ0 [φ∗ (X)] − Eθ0 [φ(X)] = 0 nach Annahme. Daraus,
dass U nicht-negativ mit Integral 0 ist, folgt, dass U (x) = 0 für fast alle x. Dies wiederum
bedeutet, dass φ(x) = φ∗ (x) oder f1 (x) = kf0 (x), d.h. φ(x) ist ein LQ-Test.
Bemerkung. Für einfache Hypothesen H0 und H1 sind klassische Testtheorie und LikelihoodQuotienten-Test noch identisch. Für zusammengesetzte Hypothesen (der Praxisfall) trennen
sich die Konzepte:
• Klassische Testtheorie sucht weiter nach optimalen Tests (für finite Stichproben).
• Likelihoodbasierte Tests verallgemeinern Λ(x) bzw. sind quadratische Approximationen
von Λ(x), deren Verteilungsfunktion (unter H0 ) nur asymptotisch (n → ∞) gilt.
Beispiel 2.22 (Binomialtest). Betrachte
H0 : π = π0
vs.
H1 : π = π1
mit 0 < π0 < π1 < 1. Die Dichte (Wahrscheinlichkeitsfunktion) der i.i.d. Stichprobe
X = (X1 , . . . , Xn )> lautet
f (x|π) = π z (1 − π)n−z
mit
z=
n
X
xi ,
i=1
der Likelihood-Quotient
π z (1 − π1 )n−z
Λ(x) = 1z
=
π0 (1 − π0 )n−z
1 − π1
1 − π0
n π1 (1 − π0 ) z
·
:= Λ(z).
π0 (1 − π1 )
Da Λ(x) = Λ(z) streng monoton in z ist, lässt sich Λ(z) > k äquivalent umformen in
z > Λ−1 (k) =: c. Der Likelihood-Quotienten-Test φ∗ mit kritischer Zahl k und (konstanter) Randomisierung γ ∗ hat dann die Form


, Z = Z(x) > c
1
∗
∗
φ (x) = γ
, Z = Z(x) = c


0
, Z = Z(x) < c
mit der Teststatistik” Z. Dabei können wir uns (wegen des Wertebereichs von Z) auf
”
c ∈ {0, 1, . . . , n} beschränken. γ ∗ ist aus der Niveaubedingung
!
Pπ0 (Z > c) + γ ∗ Pπ0 (Z = c) = α
zu bestimmen. Der Test φ∗ hängt von π0 ab, jedoch nicht von π1 !
48
Bemerkung. Falls H1 wahr ist, dann bestimmt π1 die Wahrscheinlichkeit für den reali”
sierten” Fehler 2. Art Pπ1 (A0 ). Je weiter π1 von π0 entfernt ist, umso kleiner ist die Wahrscheinlichkeit für den Fehler 2. Art und umso größer ist die Power an der Stelle π = π1 .
2.2.3
Gleichmäßig beste Tests
Definition 2.34 (Gleichmäßig bester (UMP, uniformly most powerful) Test). Ein Niveaudef
α-Test φ∗ heißt gleichmäßig bester oder UMP Test zum Niveau α ⇔
1. Eθ [φ∗ (X)] ≤ α für alle θ ∈ Θ0 .
2. Für jeden anderen Niveau-α-Test φ mit Eθ [φ(X)] ≤ α für alle θ ∈ Θ0 gilt:
Eθ [φ∗ (X)] ≥ Eθ [φ(X)] für alle θ ∈ Θ1 .
Bemerkung. Der Begriff gleichmäßig” in obiger Definition bezieht sich auf die Gleichmäßig”
keit der Eigenschaft gφ∗ ≥ gφ auf Θ1 für jeden anderen Test φ.
Beste einseitige Tests bei skalarem θ
In Beispiel 2.22 (Binomialtest für einfache Hypothesen) hing die Power nicht vom speziellen
π1 (≡ H1 ) > π0 (≡ H0 ) ab. Daraus folgt, dass φ∗ für alle π1 > π0 besser ist als ein anderer
Test φ. Entscheidend dafür ist, dass der Dichte- bzw. Likelihood-Quotient monoton in z ist.
Dies gilt allgemeiner und führt zu folgender Definition.
Definition 2.35 (Verteilungen mit monotonem Dichtequotienten). Die Verteilungsfamilie
{f (x|θ), θ ∈ Θ ⊆ R} mit skalarem Parameter θ besitzt monotonen Dichte- bzw. Likelihooddef
Quotienten (kurz: MLQ) ⇔ es existiert eine Statistik T , so dass
Λ(x) =
f (x|θ1 )
f (x|θ0 )
monoton wachsend in T (x) für je zwei θ0 , θ1 ∈ Θ mit θ0 ≤ θ1 ist.
49
Bemerkung.
1. Monoton wachsend ist keine echte Einschränkung; ist Te(x) monoton fallend, so definiert man T (x) = −Te(x).
2. Jede einparametrische Exponentialfamilie in T (x) und γ(θ) besitzt monotonen Dichtequotienten, wenn γ(θ) monoton in θ ist. Letzteres gilt für die natürliche Parametrisierung γ(θ) = θ.
Satz 2.36 (UMP-Test bei MLQ). Gegeben sei Pθ = {f (x|θ) : θ ∈ Θ ⊆ R} mit MLQ in T (x)
und die Hypothesen
H0 : θ ≤ θ0 vs. H1 : θ > θ0 .
1. Existenz: Es gibt einen UMP-Test φ∗ zum Niveau α, nämlich


1, T (x) > c
∗
φ (x) = γ, T (x) = c


0, T (x) < c.
Dabei sind c und γ eindeutig bestimmt durch die Niveaubedingung
Pθ0 (T (X) > c) + γPθ0 (T (X) = c) = α.
2. Die Gütefunktion gφ∗ (θ) ist monoton wachsend in θ und sogar streng monoton wachsend
für alle θ mit 0 < gφ∗ (θ) < 1. Die maximale Wahrscheinlichkeit für den Fehler 1. Art
ist gφ∗ (θ0 ) = α.
3. φ∗ besitzt auch gleichmäßig minimale Wahrscheinlichkeiten für den Fehler 2. Art unter
allen Tests φ für H0 vs. H1 mit gφ (θ0 ) = α.
4. φ∗ ist (mit Wahrscheinlichkeit 1) eindeutig bestimmt.
Bemerkung. Es gilt weiterhin: Ist φ∗ der beste Test für das einfache Alternativproblem
H0 : θ = θ0
vs.
H1 : θ = θ1 ,
so ist φ∗ auch der UMP-Test zum Niveau α für zusammengesetzte Hypothesen
H0 : θ ∈ Θ0
vs.
H1 : θ ∈ Θ1 ,
wenn φ∗ nicht von dem speziellen Wert θ1 ∈ H1 abhängt und für alle θ ∈ H0 das Niveau α
einhält.
Beispiel 2.23.
1. Binomialtest mit H0 : π ≤ π0 gegen H1 : π > π0 hat MLQ in Z(x) = ”Anzahl der Erfolge”
(vgl. obiges Beispiel und Bemerkung). Der Binomialtest ist also UMP-Test.
2. Gleichverteilung
3. Gauß-Test
50
4. Exponentialverteilung
5. Poissonverteilung
Bemerkung. Oft existiert zwar kein UMP-Test, jedoch ein lokal bester (einseitiger) Test:
def
φlok heißt lokal bester Niveau α-Test ⇔
0
gφlok (θ0 ) =
d
d
gφlok (θ0 ) ≥
gφ (θ0 ),
dθ
dθ
wobei gφlok (θ0 ) = gφ (θ0 ) = α gilt.
Beste unverfälschte zweiseitige Tests bei skalarem θ
Für zweiseitige Testprobleme der Form
H0 : θ = θ 0
vs. H1 : θ 6= θ0
gibt es in der Regel keinen UMP-Test, insbesondere auch dann nicht, wenn MLQ vorliegt.
Deshalb wird eine Restriktion auf eine kleinere Klasse von konkurrierenden Tests notwendig.
Definition 2.37 (Unverfälschter Niveau-α-Test). Ein Test φ für H0 vs. H1 heißt unverfälschdef
ter (unbiased) Niveau-α-Test ⇔
gφ (θ) ≤ α für alle θ ∈ Θ0 ,
gφ (θ) ≥ α für alle θ ∈ Θ1 .
Satz 2.38 (Zweiseitige UMPU (uniformly most powerful unbiased) Tests). Sei
f (x|θ) = c(θ) exp(θT (x))h(x)
eine einparametrische Exponentialfamilie mit natürlichem Parameter θ ∈ Θ (Θ sei ein offenes
Intervall) und Statistik T (x). Dann ist


1 , T (x) < c1





γ1 , T (x) = c1
∗
φ (x) = 0 , c1 < T (x) < c2



γ2 , T (x) = c2




1 , T (x) > c2
ein UMPU-Test zum Niveau α unter allen unverfälschten Tests φ zum Niveau α. Dabei werden c1 , c2 , γ1 , γ2 aus
Eθ0 [φ∗ (X)] = α,
Eθ0 [φ∗ (X)T (X)] = αEθ0 [T (X)]
bestimmt.
Beispiel 2.24.
1. Zweiseitiger Binomial-Test
H0 : π = π0
ist UMPU-Test.
51
vs.
H1 : π 6= π0
i.i.d.
∼ N (µ, σ 2 ), σ 2 bekannt, ist für
2. Zweiseitiger Gauß-Test mit X1 , . . . , Xn
H0 : µ = µ0
vs.
H1 : µ 6= µ0
UMPU-Test.
i.i.d.
3. Zweiseitiger Poisson-Test: Bei X1 , . . . , Xn ∼ Po(λ)
H0 : λ = λ0
vs.
H1 : λ 6= λ0
liegt eine einparametrische Exponentialfamilie mit natürlichem Parameter θ = log λ vor.
Äquivalente Hypothesen in θ sind
H0 : θ = θ0
vs.
H1 : θ 6= θ0 .
Bestimmung der Prüfgröße:
f (xi |θ) = h(xi )c(θ) exp (θxi )
n
X
xi
f (x|θ) = f (x1 |θ) · . . . · f (xn |θ) ∝ exp θ
|i=1
{z }
T (x)
und somit


1




γ1

∗
φ (x) = 0



γ2




1
,
,
,
,
,
Pn
xi < c1
Pi=1
n
i=1 xi = c1
P
c1 < ni=1 xi < c2
Pn
xi = c2
Pi=1
n
i=1 xi > c2 .
i.i.d.
4. Zweiseitiger χ2 -Test auf die Varianz: Seien X1 , . . . , Xn ∼ N (µ, σ 2 ), µ bekannt. Getestet wird
H0 : σ 2 = σ02 vs. H1 : σ 2 6= σ02 .
Mehrparametrische Verteilungsannahme
• Bislang: θ skalar.
⇒ θ = (µ, σ 2 ) ist bei N (µ, σ 2 ) Verteilung nicht in der Theorie optimaler Tests enthalten.
⇒ t-Test auf µ (bei unbekanntem σ 2 ) und andere sind nicht erfasst.
• Idee: Optimale” Tests lassen sich (noch) für eine skalare Komponente η von
”
θ = (η, ξ), wobei ξ mehrdimensional sein darf, konstruieren. ξ ist als Stör-/Nuisanceparameter zu betrachten.
• Voraussetzung an Verteilungsfamilie: {f (x|θ), θ ∈ Θ ⊆ Rk } ist eine (strikt)
k-parameterische Exponentialfamilie mit natürlichem Parameter θ = (η, ξ) und
T = (U, V ), U skalar. Dies führt auf die Theorie bedingter Tests.
52
• Passend zum Beispiel für
– t-Test: Vergleich von µ1 , µ2 bei unabhängigen Stichproben nur, falls σ12 = σ22 = σ 2
ist.
– Test auf Signifikanz von β1 in linearer Einfachregression.
• Bereits nicht mehr anwendbar für
– Vergleich von µ1 , µ2 bei σ12 6= σ22 (Behrens-Fisher-Problem).
– Test auf Signifikanz von β1 im Logit- oder Poisson-Regressionsmodell.
⇒ (asymptotische) Likelihood-Theorie, Bayes-Inferenz.
2.3
2.3.1
Bereichsschätzungen und Konfidenzintervalle
Definition und Beurteilung der Güte
Definition 2.39 (Bereichsschätzung). Eine Bereichsschätzung (ein Konfidenzbereich) C
für τ (θ) zum (vorgegebenen) Vertrauensgrad ( Konfidenzniveau) 1 − α ist eine Abbildung des
Stichprobenraums X in die σ-Algebra Lm des Rm , also x → C(x)(⊆ Rm ) ∈ Lm , mit
Pθ (τ (θ) ∈ C(X)) ≥ 1 − α für alle θ.
Dabei sei τ (θ) m-dimensionaler Parameter.
C(X) ist ein zufälliger Bereich im Rm . Nach Beobachtung der Stichprobe X = x ist C(x)
gegeben. Der Aussage
!
τ (θ) ∈ C(x) (richtig oder falsch)
wird der Vertrauensgrad 1 − α zugeordnet. Dabei gilt die bekannte Häufigkeitsinterpretation. Ist C(x) für jedes x ein Intervall, so heißt C(x) Konfidenzintervall und C eine Intervallschätzung.
Eine Wahrscheinlichkeitsaussage zu
τ (θ) ∈ C(x)
bei gegebenem x ist im Rahmen der Bayes-Inferenz (ohne logische Probleme) möglich.
Die Präzision” von C(X) wird gemessen durch die erwartete Größe des Bereichs bzw. durch
”
die Länge des Konfidenzintervalls.
i.i.d.
Beispiel 2.25. Seien X1 , . . . , Xn ∼ N (µ, σ 2 ) und
α S α S
√ , X̄ + tn−1
√
C(X) = X̄ − tn−1
2
2
n
n
ein Konfidenzintervall für µ. Die Länge
L = 2 tn−1
α S
√
2
n
53
von C(X) ist zufällig mit Erwartungswert
α σ r 2
α 1
Γ(n/2)
√ E(S) = 2 tn−1
√
E(L) = 2 tn−1
.
2
2
n
n n − 1 Γ((n − 1)/2)
Es gilt:
1 − α größer
→
E(L) größer,
n größer
→
E(L) kleiner.
Bei der Beurteilung der Präzision eines Konfidenzintervalls durch die Länge ist ein Konfidenzintervall umso besser, je kürzer seine erwartete Länge ist. Allgemein wird ein Konfidenzbereich C durch die mittlere Größe” beurteilt. Dazu sei π eine Verteilung (oder ein
”
Maß) auf Θ. Dann ist
π(C(x))
die Größe von C(x). Bei Konfidenzintervallen ergibt sich die Länge, wenn π das Lebesgue-Maß
ist. Dann ist
Eθ (π(C(X)))
die zu erwartende Größe. Zur Beurteilung der Güte reicht die erwartete Länge bzw. Größe
allein nicht aus.
Definition 2.40 (Kennfunktion eines Konfidenzbereichs). Eine Kennfunktion ist definiert
als eine Funktion
0
0
kC (θ, θ ) := Pθ (C(x) 3 τ (θ )).
Dabei ist θ der wahre” Wert und θ0 irgendein Wert in Θ.
”
0
0
Für θ = θ ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit möglichst groß sein
0”
0
0
soll. Für θ 6= θ mit τ (θ ) 6= τ (θ) ist C(x) 3 τ (θ )” eine Aussage, deren Wahrscheinlichkeit
”
möglichst klein gehalten werden soll.
Im Weiteren betrachten wir den Spezialfall τ (θ) = θ mit skalarem θ. Dann ist
0
0
kC (θ, θ ) = Pθ (C(x) 3 θ ).
Definition 2.41.
def
1. Ein Konfidenzintervall besitzt den Vertrauensgrad 1 − α : ⇔
0
kC (θ, θ0 ) ≥ 1 − α für alle θ = θ.
def
2. Ein Konfidenzintervall zum Vertrauensgrad 1 − α heißt unverfälscht : ⇔
0
kC (θ, θ0 ) ≤ 1 − α für θ 6= θ.
3. Ein Konfidenzbereich C0 zum Vertrauensgrad 1 − α heißt gleichmäßig bester (trenndef
0
scharfer) [bzw. gleichmäßig bester unverfälschter] Konfidenzbereich : ⇔ für alle θ 6= θ
und alle [unverfälschten] Konfidenzbereiche C zum Vertrauensgrad 1 − α gilt
0
0
kC0 (θ, θ ) ≤ kC (θ, θ ).
54
Lemma 2.42. Jeder gleichmäßig beste Konfidenzbereich besitzt auch die kleinste zu erwartende Größe (aber nicht umgekehrt).
Beweis.
Z Z
Z
0
0
IC(x) (θ )dπ(θ )dPθ (x)
π(C(x))dPθ (x) =
X Θ
X
Z Z
0
0
IC(x) (θ )dPθ (x)dπ(θ )
=
(Fubini)
X Θ
Z
=
Θ
0
kC (θ,θ0 )
Für jedes wahre” θ gilt also
”
Z
π(C(x))dPθ (x) =
Z
2.3.2
0
0
kC (θ, θ )dπ(θ )
X
|
0
Pθ ({x : C(x) 3 θ }) dπ(θ ).
|
{z
}
.
Θ
{z
erwartete Größe
}
|
{z
}
erwarteter Wert der Kennfunktion des Konfidenzbereichs
Dualität zwischen Konfidenzbereichen und Tests
Wir legen den oben beschriebenen Spezialfall τ (θ) = θ mit skalarem θ zugrunde.
Zu jedem festen θ betrachten wir einen Niveau-α-Test φθ (x) für die Nullhypothese H0 = {θ}
gegen die Alternative H1 = Θ\H0 . Die Tests sollen nicht randomisiert sein, so dass sie durch
die Festlegung einer Prüfgröße Tθ = Tθ (x) und eines kritischen Bereichs (Ablehnbereichs) Kθ
bestimmt werden:
(
1 für Tθ (x) ∈ Kθ ,
φθ (x) =
0 sonst.
Die Nullhypothese Der unbekannte Parameter hat den Wert θ” wird nach Beobachtung
”
von X = x genau dann nicht abgelehnt — durch die Beobachtung bestätigt” — wenn
”
Tθ (x) ∈ K̄θ = Annahmebereich des Tests φθ
gilt. Daher ist es naheliegend, als einen Konfidenzbereich nach der Beobachtung X = x den
Bereich
C(x) := {θ ∈ Θ : Tθ (x) ∈ K̄θ }
zu definieren; dem entspricht vor der Beobachtung der zufällige Bereich
C(X) = {θ ∈ Θ : Tθ (X) ∈ K̄θ }
bzw.
C(X) = {θ ∈ Θ : φθ (X) = 0}
Eine Bestätigung dieser Vorgangsweise ist der folgende Satz.
55
Satz 2.43 (Korrespondenzsatz).
1. Ist {φθ } eine Menge von Tests φθ für H0 = {θ} gegen H1 = Θ\{θ} zum Niveau α, so
ist C(X) := {θ ∈ Θ : φθ (X) = 0} ein Konfidenzbereich zum Vertrauensgrad γ = 1 − α.
2. Ist {φθ } eine Menge gleichmäßig bester [unverfälschter] Tests, so ist auch C(X) ein
gleichmäßig bester [unverfälschter] Konfidenzbereich.
Beweis. Der Beweis zu 1. ergibt sich aus
Pθ (C(X) 3 θ) = Pθ (φθ (X) = 0) = 1 − α für alle θ ∈ Θ,
derjenige für 2. aus der Beziehung
0
0
kC (θ, θ ) = Pθ (C(X) 3 θ ) = Pθ (φθ0 (X) = 0)
= 1 − Pθ (φθ0 (X) = 1) = 1 − gφ 0 (θ)
θ
0
für alle θ, θ ∈ Θ. Dabei bezeichnet gφ
θ
0
die Gütefunktion des Tests φθ0 .
Der Korrespondenzsatz lässt sich verallgemeinern auf die Situation, in der man gegenüber
bestimmten Fehlschätzungen besonders empfindlich ist; man hat dazu eine Testfamilie solcher
Tests zugrunde zu legen, die die entsprechenden Hypothesen testen, also nicht mehr Tests mit
zweiseitiger Fragestellung. Darüber hinaus gilt der im Korrespondenzsatz enthaltene Zusammenhang zwischen Tests und einem Konfidenzbereich auch dann, wenn randomisierte Tests
zugelassen werden, so dass man auf diese Weise zu einem randomisierten Konfidenzbereich
kommt: C(x) ist die Menge aller θ, die bei der Beobachtung x von dem Test φθ (auch nach
Randomisierung) nicht abgelehnt werden.
Auf diese Weise lässt sich die Theorie der Bereichsschätzungen auf die Testtheorie zurückführen bis auf das folgende Problem: Damit ein vernünftiger” Konfidenzbereich (vernünftig
”
im topologischen Sinn, also zum Beispiel ein Konfidenzintervall) aus der Testfamilie konstruierbar ist, muss die Testfunktion φθ (x), besser noch die Prüfgröße Tθ (x) als Funktion in
θ (für jedes feste θ) gutartig” sein (im Idealfall monoton in θ); außerdem darf die Vertei”
lung von Tθ (X) nicht von θ abhängen, zusammen bedeutet dies: Tθ (X) muss eine Pivotgröße
sein, die auf einfache” (zum Beispiel monotone) Weise von θ abhängt: Gesucht sind einfach
”
strukturierte Pivotgrößen.
2.4
Multiples Testen
Literatur:
• Lehmann & Romano, Kapitel 9
• Dudoit, Shaffer & Boldrick (2003): Multiple Hypothesis Testing in Microarray Experiments, Statistical Science (18), Seiten 71-103
Problem: Eine endliche Menge von (Null-) Hypothesen H1 , ..., Hm soll mit Hilfe eines Datensatzes simultan getestet werden.
56
Beispiele:
• Varianzanalyse: Vergleich mehrerer Behandlungsarten mit Kontrolle (zum Beispiel
Placebo oder übliche” Therapie). Ein simultaner Test der Form
”
H0 : θ1 = . . . = θm = 0
vs. Halter : wenigstens ein θj 6= 0
ist oft nicht ausreichend: Wenn H0 abgelehnt wird, möchte man wissen, welche
θj ’s signifikant von 0 verschieden sind. Hierzu können (simultan) die einzelnen
Hypothesen
Hj := H0j : θj = 0
für j = 1, . . . , m getestet werden. In der Regel ist m vergleichsweise klein; es
können klassische” multiple Testverfahren verwendet werden.
”
• Microarray-Experimente: Seien X1 , . . . , Xm (normalisierte log-) Expressionen von
a
Genen 1, . . . , m auf Microarrays, Xj ∼ N (µj , σj ) für j = 1, . . . , m und m von
der Größenordnung 1000 bis 10000. Es soll untersucht werden, welche Gene signifikanten Einfluss auf einen Phänotyp, zum Beispiel eine bestimmte Krankheit,
haben. In einem naiven Ansatz könnte dies wie oben durch simultane Tests untersucht werden. Wenn m und die Anzahl m0 richtiger Hypothesen jedoch groß ist,
werden mit hoher Wahrscheinlichkeit eine oder mehr Hypothesen fälschlicherweise
abgelehnt. Für unabhängige Teststatistiken T1 , . . . , Tm gilt zum Beispiel folgende
Tabelle.
m
P(mindestens eine falsche Ablehnung)
1
0.05
2
0.10
5
0.23
10
0.40
50
0.92
Es werden neue” multiple Testverfahren gesucht, um Fehlerraten zu kontrollieren.
”
2.4.1
Fehlerraten
Die Situation bei m vorgegebenen Hypothesen kann wie folgt beschrieben werden:
Anzahl richtiger
Nullhypothesen
Anzahl falscher
Nullhypothesen
Anzahl nicht abgelehnter Nullhypothesen
Anzahl abgelehnter Nullhypothesen
U
T
m−R
V
S
R
Dabei sind
• m0 die (unbekannte) Anzahl richtiger Nullhypothesen,
• m1 = m − m0 die (unbekannte) Anzahl falscher Nullhypothesen,
• R eine beobachtbare Zufallsvariable,
• S, T, U, V unbeobachtbare Zufallsvariablen (ruft nach Bayes!).
57
m0
m1
In der Microarray-Analyse bedeutet das Ablehnen von Hj , dass das Gen j differentiell ex”
primiert” ist.
Idealerweise: Minimiere
• Anzahl V von Fehlern 1. Art (falsch positiv),
• Anzahl T von Fehlern 2. Art (falsch negativ).
Klassische Testtheorie (m = 1):
P(Fehler 1. Art)
≤
α
P(Fehler 2. Art) → min
Verschiedene Verallgemeinerungen zur Kontrolle der Fehlerraten sind bei multiplem Testen
möglich.
Fehlerraten 1. Art (type I error rates)
• PCER (per-comparison error rate):
PCER =
E(V )
m
Das ist die relative Anzahl erwarteter Fehler 1. Art.
• PFER (per-family error rate):
PFER = E(V )
Das ist die absolute Anzahl erwarteter Fehler 1. Art.
• FWER (family-wise error rate):
FWER = P(V ≥ 1)
Das ist die Wahrscheinlichkeit für mindestens einen Fehler 1. Art.
• FDR (false discovery rate; Benjamini & Hochberg, 1995):
(
V
für R > 0,
FDR = E(Q)
mit
Q= R
0 für R = 0.
Das ist die erwartete relative Häufigkeit von Fehlern 1. Art unter den R abgelehnten
Hypothesen.
Starke und schwache Kontrolle
Typischerweise gilt: Für eine unbekannte Teilmenge
Λ0 ⊆ {1, . . . , m}
58
sind die Hypothesen Hj , j ∈ Λ0 , richtig, für den Rest falsch. Starke Kontrolle liegt vor, wenn
eine Fehlerrate für jede Teilmenge Λ0 nach oben durch α beschränkt wird, zum Beispiel
FWER ≤ α
gilt. Schwache Kontrolle liegt vor, wenn alle Nullhypothesen richtig sind.
Klassische Ansätze (zum Beispiel Bonferroni- und Holm-Prozedur, siehe folgender Abschnitt)
kontrollieren stark. Der FDR-Ansatz von Benjamini und Hochberg kontrolliert die FDR
schwach und ist (deshalb) weniger konservativ.
2.4.2
Multiple Testprozeduren
Bonferroni-Prozedur
Lehne für j = 1, . . . , m die Hypothesen Hj ab, falls für den p-Wert gilt: pj ≤
FWER ≤ α
d.h.
α
m.
Es gilt:
stark,


\
P V ≥ 1 Hj  ≤ α.
j∈Λ0
Nachteil: Das Niveau α/m der individuellen Tests wird bei großem m und üblichem α extrem klein. Bei Microarrays bleiben relevante Gene deshalb mit hoher Wahrscheinlichkeit
unentdeckt.
Holm-Prozedur
Ordne die p-Werte pj , j = 1, . . . , m, der individuellen Tests H1 , . . . , Hm der Größe nach an.
Dann ist
p(1) ≤ . . . ≤ p(m)
mit den entsprechend sortierten Hypothesen H(1) , . . . , H(m) . Als nächstes erfolgt schrittweise
folgende Prozedur:
Schritt 1. Falls p(1) ≥
α
m,
α
m,
Falls p(1) <
α
Niveau m−1
.
akzeptiere H1 , . . . , Hm .
lehne H(1) ab und teste die verbleibenden m − 1 Hypothesen zum
α
α
m , aber p(2) ≥ m−1 , akzeptiere H(2) , . . . , H(m)
α
α
Falls p(1) < m
und p(2) < m−1
, lehne nach H(1) auch
α
verbleibenden m − 2 Hypothesen zum Niveau m−2
.
Schritt 2. Falls p(1) <
Schritt 3. usw.
59
und stoppe.
H(2) ab und teste die
Es gilt:
FWER ≤ α
stark.
Die Holm-Prozedur ist eine spezielle Form folgender Step-Down-Prozeduren:
Step-Down-Prozeduren
Allgemeine Struktur: Sei
α1 ≤ α2 ≤ . . . ≤ αm .
Falls p(1) ≥ α1 , akzeptiere alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen
H(1) , . . . , H(r) ab, falls
p1 < α1 , . . . , pr < αr .
Eine Alternative sind:
Step-Up-Prozeduren
Falls p(m) < αm , verwerfe alle Hypothesen. Sonst lehne für r = 1, . . . , s die Hypothesen
H(1) , . . . , H(r) ab, falls
p(s) ≥ αs , . . . , p(r+1) ≥ αr+1 ,
aber p(r) < αr .
Bemerkung.
• Aussagen über starke Kontrolle finden sich zum Beispiel in Lehmann & Romano.
• Für m ∼ 100, 1000 und größer: Immer noch Ablehnung fast aller Hypothesen. Benjamini
& Hochberg (1995) raten, die false discovery rate FDR zu kontrollieren. Untersuchung
der Eigenschaften ist Gegensatz aktueller Forschung.
• Die diversen Prozeduren lassen sich teils günstig mit Hilfe von adjustierten p-Werten pej
formulieren, siehe Dudoit, Shaffer & Boldrick (2003).
• Resampling Methoden (Bootstrap, Permutationen, ...) sind notwendig, um (adjustierte)
p-Werte zu berechnen.
• Software: R-Package multtest, www.bioconductor.org.
60
Kapitel 3
Likelihood-Inferenz
3.1
Parametrische Likelihood-Inferenz
Situation: Pθ = {f (x|θ) : θ ∈ Θ}, Θ ⊆ Rp , p n, p konstant für n → ∞. f (x|θ) ist eine
diskrete oder stetige oder allgemeiner eine Radon-Nikodym-Dichte.
Definition 3.1 (Likelihoodfunktion). Die Likelihoodfunktion von θ ∈ Θ,
L(θ) = f (x|θ),
ist definiert als die Dichte der beobachteten Daten X = (X1 , . . . , Xn ) = x = (x1 , . . . , xn ),
e
betrachtet als Funktion von θ. Mit L(θ) ist auch L(θ)
= const × L(θ) eine Likelihoodfunktion.
Zu unterscheiden sind folgende Situationen:
1. X1 , . . . , Xn sind i.i.d. wie Xi ∼ f1 (x|θ) (Statistik IV). Es gilt die Faktorisierung
L(θ) =
n
Y
f1 (xi |θ).
i=1
2. X1 , . . . , Xn — bzw. Y1 |z1 , . . . , Yn |zn im Regressionsfall bei einer Zielvariable Y und
Kovariablenvektor z — sind unabhängig, aber nicht mehr identisch verteilt. Es gilt die
Faktorisierung
n
Y
L(θ) =
fi (xi |θ).
i=1
3. Die Paare (X1d , X1s ), . . . , (Xid , Xis ), . . . , (Xnd , Xns ) sind unabhängig, die einzelnen Komponenten innerhalb eines Paares unter Umständen abhängig. Die Indizes s, d beziehen sich
auf stetige bzw. diskrete Variablen. Eine derartige Datenlage ergibt sich beispielsweise
bei Survivaldaten mit stetigen Überlebenszeiten und einem diskreten Zensierungsindikator Xid = I(Ci ≤ Ti ), wobei Ci bzw. Ti den Zensierungs- bzw. Verweildauerprozess
bezeichnen. Unter obige Situation fallen auch Mischverteilungsmodelle. Xid enspricht
dann einer Klassenzugehörigkeit und Xis einem stetigen Merkmal(svektor).
61
4. Zeitlich korrelierte Daten / Stichprobenvariablen X1 , . . . , Xt , . . . , Xn mit Dichtefunktion
f (x1 , . . . , xt , . . . , xn |θ) =
f (xn |xn−1 , . . . , xt , . . . , x1 ; θ) · . . . · f (xn−1 |xn−2 , . . . , x1 ; θ) · . . . · f (x2 |x1 ; θ)f (x1 |θ).
Bei Markov-Ketten erster Ordnung mit der Eigenschaft
f (xn |xn−1 , . . . , x1 ; θ) = f (xn |xn−1 ; θ)
vereinfacht sich die Likelihood zu
n
Y
L(θ) =
!
f (xi |xi−1 ; θ) f (x1 |θ).
i=2
Beispiel 3.1 (zu diesen vier Situationen).
1. Siehe Statistik IV bzw. Grundstudium.
2. Regressionssituationen (Querschnittsdaten) mit unabhängigen Zielvariablen Y1 |z1 , . . . , Yn |zn
und festen Kovariablen zi :
• klassisches lineares Modell: Yi |zi ∼ N (zi> β, σ 2 ),
• Logit- oder Probitmodell: Yi |zi ∼ Bin(1, πi = h(zi> β)),
• Poisson-Regression: Yi |zi ∼ Po(λi = h(zi> β)).
3. Markov-Ketten, autoregressive Modelle für Zeitreihen/Longitudinaldaten.
4. Autoregressiver Prozess 1. Ordnung: Sei
Xt = α + γXt−1 + εt
i.i.d.
mit εt ∼ N (0, σ 2 ) oder — mit zusätzlichem (zeitabhängigen) Kovariablenvektor zt —
Xt = α + γXt−1 + zt> β + εt .
In letzterem Fall hat die Likelihood die Form
L(θ) =
n
Y
!
fi (xi |xi−1 ; θ) f1 (x1 )
i=2
mit
fi (xi |xi−1 ; θ) = φ(xi |α + γxi−1 + zi> β, σ 2 ),
wobei φ(x|µ, τ 2 ) den Wert der Normalverteilungsdichte mit Erwartungswert µ und Varianz τ 2 an der Stelle y bezeichnet.
Beispiel 3.2. Wir betrachten unabhängige, aber (teils) unvollständige Ziehungen aus N (θ, 1).
1. Ziehung: Es sei x1 = 2.45. Dann ist
1
1
2
L1 (θ) = φ(x1 − θ) = √ exp − (2.45 − θ) .
2
2π
62
2. Ziehung: Es sei nur 0.9 < x2 < 4 bekannt (unvollständige oder intervallzensierte Boebachtung). Die Likelihood lautet dann:
L2 (θ) = Pθ (0.9 < X2 < 4) = Φ(4 − θ) − Φ(0.9 − θ).
Formal könnte man auch eine binäre Variable
(
1, 0.9 < X2 < 4,
X2d =
0, sonst
mit Dichtefunktion
f2d (1) = P(X2d = 1) = Φ(4 − θ) − Φ(0.9 − θ)
definieren.
3. Ziehung: z1 , . . . , zn seien i.i.d. Realisierungen aus N (θ, 1). Bekannt sei aber nur
x3 = max zi = z(n) .
1≤i≤n
Der Rest sind fehlende Werte ( missing values”). Die Verteilungsfunktion von
”
X3 = Z(n) ist
Fθ (z(n) ) = Pθ (Z(n) ≤ z(n) ) = Pθ (Zi ≤ z(n) ∀ i)
= [Φ(z(n) − θ)]n .
Die Dichte ergibt sich über Differentiation bezüglich θ:
fθ (z(n) ) = n[Φ(z(n) − θ)]n−1 φ(z(n) − θ),
d.h. für zum Beispiel n = 5 und z(n) = x3 = 3.5 gilt
L3 (θ) = 5[Φ(3.5 − θ)]4 Φ(3.5 − θ).
Die gesamte Likelihood der drei Beobachtungen ist
L(θ) = L1 (θ) · L2 (θ) · L3 (θ),
also die Verknüpfung der Likelihoodfunktionen L1 , L2 und L3 .
Fazit: Zumindest bei unabhängigen X1 , . . . , Xn ist die Likelihood sehr allgemein definiert.
Beziehung zur Bayes-Inferenz
• p(θ) sei die Prioriverteilung,
• f (x|θ) = L(θ) die Likelihood.
• Dann ist
p(θ|x) ∝ p(θ) · L(θ)
Posteriori-Likelihood” ∝ Priori-Likelihood” × Likelihood.
”
”
63
Likelihood-Quotient
Frage: Wie vergleicht man die Likelihoods L(θ1 ) und L(θ2 ) für θ1 6= θ2 ?
Antwort: Man betrachtet den Quotienten (nicht die Differenz), da dieser invariant gegenüber
eineindeutigen Transformationen
x 7→ y = y(x) ⇔ y 7→ x(y)
ist. Für stetige x, y gilt mit dem Transformationssatz für Dichten:
∂x fY (y|θ) = fX (x(y)|θ) det
∂y und somit
∂x L(θ2 ; x)
L(θ2 ; y)
L(θ; y) = L(θ; x) det
=
.
⇒
∂y
L(θ1 ; y)
L(θ1 ; x)
Satz 3.2.
1. Sei T = T (X) suffizient für θ. Dann gilt L(θ; x) = const × L(θ; t) mit t = T (x),
d.h. L(θ; x) und L(θ; t) sind äquivalent.
2. L(θ; x) ist minimalsuffzient.
Beweis. Folgt unmittelbar aus den Resultaten aus Abschnitt 2.
3.2
Maximum-Likelihood-Schätzung
Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen.
3.2.1
Schätzkonzept
b so dass
Maximum-Likelihood-Prinzip: Finde Maximum-Likelihood-Schätzwert θ,
b x) ≥ L(θ; x) für alle θ ∈ Θ.
L(θ;
Dazu äquivalent ist
b x) ≥ `(θ; x), `(θ) = log L(θ)
`(θ;
mit der Log-Likelihood `. Meist sucht man nach (lokalen) Maxima von `(θ) durch Nullsetzen
der Score-Funktion
∂`(θ)
∂`(θ) >
∂`(θ)
s(θ) =
=
,...,
∂θ
∂θ1
∂θp
(soweit die 1. Ableitung der Log-Likelihood existiert!) als Lösung der sogenannten MLGleichung
b = 0.
s(θ)
64
Dies funktioniert (meist) unter Annahme von Fisher-Regularität. Nur in einfachen Fällen
ist die Lösung analytisch zugänglich. Die numerische Lösung geschieht über Verfahren wie
Newton-Raphson, Fisher-Scoring, Quasi-Newton oder über den EM-Algorithmus. Erstere drei
Verfahren arbeiten mit der Hesse-Matrix der Log-Likelihood bzw. Approximationen an diese:
∂ 2 `(θ)
J(θ; x) = −
=
∂θ∂θ>
∂ 2 `(θ)
−
∂θi ∂θj
>
heißt beobachtete Informationsmatrix. Bildet man den Erwartungswert bezüglich allen möglichen Stichproben X aus X , so erhält man die erwartete Informationsmatrix
I(θ) = Eθ [J(θ; X)].
Unter Fisher-Regularität gilt (vgl. Abschnitt 2):
Eθ [s(θ)] = 0
und
Covθ (s(θ)) = Eθ [s(θ)s(θ)> ] = I(θ).
Beispiel 3.3 (Lineares Modell). Betrachte
y = Zβ + ε
mit
2
2 −n/2
• Likelihood:
L(β, σ ) ∝ (σ )
ε ∼ N (0, σ 2 I).
1
exp − 2 ky − Zβk2
2σ
• Log-Likelihood:
n
1
`(β, σ 2 ) = − log(σ 2 ) − 2 ky − Zβk2
{z
}
2
2σ |
KQ-Kriterium
• Score-Funktion:
1
∂`(β, σ 2 )
= 2 Z > (y − Zβ)
∂β
σ
n
1
sσ2 (β, σ 2 ) = − 2 +
ky − Zβk2
2σ
2(σ 2 )2
sβ (β, σ 2 ) =
Man verifiziert leicht, dass E[sβ ] = E[sσ2 ] = 0 ist. Aus den ML-Gleichungen, die sich
durch Nullsetzen der Score-Funktionen ergeben, folgt:
βbML = (Z > Z)−1 Z > y,
1
2
σML
=
ky − Zβk2 .
n
Der ML-Schätzer für β entspricht also dem KQ-Schätzer. Der ML-Schätzer für σ 2
ist verzerrt, aber asymptotisch erwartungstreu. Der Restricted Maximum Likelihood
(REML) Schätzer
1
2
σREML
=
ky − Zβk2
n−p
ist erwartungstreu für σ 2 . Dabei ist p die Dimension von β.
65
• Informationsmatrizen:
−1
∂sβ
1 >
∂2`
b
(von y unabhängig)
=
−
=
Z
Z
=
Cov(
β)
σ2
∂β∂β >
∂β >
∂2`
1 >
∂2`
−
=
Z
(y
−
Zβ)
⇒
E
−
=0
∂β∂σ 2
σ4
∂β∂σ 2
∂2`
n
ky − Zβk2
∂2`
n
− 2 2 =−
+
⇒E − 2 2 = 4
2
2
2
3
∂σ ∂σ
2(σ )
(σ )
∂σ ∂σ
2σ
P
Der letzte Erwartungswert folgt aus ky − Zβk2 = ni=1 ε2i ∼ σ 2 χ2 (n).
−
unabh.
Beispiel 3.4 (GLM). Seien yi ∼ f (yi |µi ) für i = 1, . . . , n mit µi = h(x>
i β), etwa
>
yi ∼ Po(λi ) und λi = exp(xi β) (loglineares Poisson-Modell, vgl. Übung/generalisierte Regression).
Beispiel 3.5 (GLMM für Longitudinaldaten). Sei yi = (yi1 , . . . , yit , . . . , yiT ) mit bedingt
unabhängigen Komponenten yit ∼ f (yit |µit ) und µit = h(zi> β + wi> γi ). Die γi sind indivii.i.d.
duenspezifische Intercepts (wi ≡ 1) mit Prioriverteilung γit ∼ N (0, τ 2 ). Die Likelihood des
Parameters θ = (β, τ 2 ) lautet
2
L(β, τ ) =
Z Y
n
f (yit |β, τ 2 , γi )p(γi ) dγi .
i=1
Lösungsansätze für die Maximierung der Likelihood: EM-Algorithmus mit REML bzw. BayesInferenz.
3.2.2
Iterative numerische Verfahren zur Berechnung des ML-Schätzers
EM (Expectation-Maximization)-Algorithmus
Der EM-Algorithmus ist eine Alternative zu Newton-Raphson, Fisher-Scoring usw., vor allem
in Modellen mit unvollständigen Daten oder latenten (nicht direkt beobachtbaren) Variablen
oder Faktoren (vgl. Computerintensive Methoden).
Notation:
• x beobachtbare ( unvollständige”) Daten
”
• z unbeobachtbare Daten/latente Variablen
• (x, z) vollständige Daten
• L(θ; x) = f (x|θ) Likelihood der beobachtbaren Daten
• L(θ; x, z) = f (x, z|θ) Likelihood der vollständigen Daten
Der EM-Algorithmus ist insbesondere nützlich, wenn L(θ; x) schwierig zu berechnen und
L(θ; x, z) leichter zu handhaben ist.
66
Algorithmus 1 : EM-Algorithmus
Startwert: θ(0)
• E-Schritt: Berechne
Q(θ) = Q(θ; θ(0) ) = Ez|x [`(θ; x, z)|x, θ(0) ].
• M-Schritt: Berechne θ(1) , so dass Q(θ) maximiert wird:
θ(1) = argmax Q(θ).
θ
Iteriere E/M-Schritte: θ(0) , θ(1) , . . . , θ(k) bis zur Konvergenz.
Satz 3.3. Unter relativ allgemeinen Annahmen gilt θ(k) → θbML für k → ∞.
Eigenschaften des EM-Algorithmus:
• Monotonie: `(θ(k+1) ; x) ≥ `(θ(k) ; x).
• Langsame Konvergenz.
• Der Standardfehler des resultierenden Schätzers ist schwierig zu bestimmen, die Informationsmatrix ist nicht direkt zugänglich wie beim Fisher-Scoring.
Eine Alternative bietet die Bayes-Inferenz.
Beispiel 3.6 (Mischverteilungen). Seien X1 , . . . , Xn i.i.d. wie X ∼ f (x|θ). Betrachte die
Mischverteilung
f (x|θ) =
J
X
πj fj (x|θj )
mit
θ = ({θ}Jj=1 , {πj }Jj=1 ).
j=1
Dabei sind
• πj unbekannte Mischungsanteile,
PJ
j=1 πj
= 1,
• fj (x|θj ) die j-te Mischungskomponente,
• θj der unbekannte Parameter(-vektor) .
Speziell: Bei einer Mischung von Normalverteilungen erhalten wir
1
fj (x|θj ) ∝ exp − (x − µj )> Σ−1
(x
−
µ
)
j
j
2
∼ π1 N (µ1 , Σ1 ) + π2 N (µ2 , Σ2 ) + . . . + πJ N (µJ , ΣJ ).
Im univariaten Fall mit zwei Mischungskomponenten also:
X ∼ π1 N (µ1 , σ12 ) + π2 N (µ2 , σ22 ).
67
(3.1)
Interpretation des Mischungsmodells (3.1): xi entstammt einer von J Subpopulationen, wobei
in Subpopulation j gilt:
xi |j ∼ fj (xi |θj ).
Definiere die unbeobachtete (latente) Indikatorvariable Zi für j = 1, . . . , J durch
Zi = j ⇔ xi ist aus Population j.
Die Randverteilung sei P(Zi = j) = πj , j = 1, . . . , J. Dann lautet die bedingte Verteilung
von xi |Zi :
xi |Zi = j ∼ fj (xi |θj ).
Die Log-Likelihood der beobachteten Daten x ist


n
J
X
X
`(θ; x) =
log 
πj fj (xi |θj ) ,
i=1
j=1
die der vollständigen Daten (x, z)
`(θ; x, z) =
n
X
log f (xi , zi |θ) =
i=1
n
X
log (f (xi |zi ; θ) · f (zi )) =
i=1
n
X
(log fzi (xi |θzi ) + log πzi ).
i=1
E-Schritt: Berechne für i = 1, . . . , n
π
bj fj (xi |θbj )
=: p̂ij
E[Zi |xi , {θj }Jj=1 ] = P(Zi = j|xi , {θj }Jj=1 ) = PJ
bs fj (θbs )
s=1 π
für j = 1, . . . , J bei geeigneten Startwerten {θbj , πj }Jj=1 .
M-Schritt: Berechne
n
θbj |z
mit
π
bj =
1X
p̂ij
n
i=1
für j = 1, . . . , J.
Beispiel 3.7 (Lineares gemischtes Modell mit zufälligen Effekten). Sei
yij = β0 + β1 xi + γi + εij
bei i = 1, . . . , n Individuen und j = 1, . . . , ni Messwiederholungen und
• εij ∼ N (0, σ 2 ),
i.i.d.
• γi zufälliger Intercept, γi ∼ N (0, τ 2 ),
• yij , xi beobachtete Daten (Response und Kovariablen),
• γi latente Variablen”,
”
• (yi1 , . . . , yini , γi ), i = 1, . . . , n, vollständige Daten.
|{z}
zi
68
Gegeben die latenten Variablen {γi }ni=1 liegt ein gewöhnliches lineares Modell für Paare
(xij , yij − γi ) vor. Ferner lässt sich zeigen, dass
E[γi |yij , xi , βb0 , βb1 , τb2 , σ
b2 ] =
ni
τb2 X
(yij − βb0 − βb1 xij )
σ
b2 + τb2
j=1
mit
n
τb2 =
1X 2
γi
n
σ
b2 =
ni
n
1X 1 X
(yij − βb0 − βb1 xij − γi )2 .
n
ni
i=1
i=1
3.2.3
j=1
Asymptotische Eigenschaften
Satz 3.4. Seien X1 , . . . , Xn i.i.d. aus einer Dichte f (x|θ), die folgenden Annahmen genügt:
• f (x|θ) ist Fisher-regulär.
• Die Informationsmatrix I(θ) ist positiv definit im Inneren von Θ.
• Es existieren Funktionen Mjkl derart, dass
3
∂
∂θj ∂θk ∂θl log f (x|θ) ≤ Mjkl (x)
und
Eθ0 [Mjkl (X)] < ∞
für alle j, k und l, wobei θ0 den wahren Wert des Parameters bezeichnet.
Dann gilt unter weiteren, relativ schwachen Regularitätsannahmen für den ML-Schätzer θbn :
• P(θbn existiert) → 1 für n → ∞, d.h. die Likelihood-Gleichungen haben für n → ∞
mit Wahrscheinlichkeit 1 eine Lösung,
P
• θbn → θ0 ,
a
d
1/2
b
• θbn ∼ N (θ0 , I−1
n (θ0 )) bzw. In (θ0 )(θn − θ0 ) → N (0, I),
a
d
1/2
b
• θbn ∼ N (θ0 , J−1
n (θ0 )) bzw. Jn (θ0 )(θn − θ0 ) → N (0, I),
d.h. ML-Schätzer sind BAN-Schätzer.
Bemerkung.
1. Es sind auch andere Varianten von Regularitätsannahmen möglich.
2. Der Satz gilt unter stärkeren Regularitätsannahmen auch für i.n.i.d. und abhängige
X1 , . . . , Xn
69
3. I(θ0 ) und J(θ0 ) können auch durch I(θbn ) bzw. J(θbn ) ersetzt werden.
Beweis. Erfolgt lediglich skizzenhaft.
• Konsistenz: Aus der i.i.d. Annahme und Fisher-Regularität folgt:
E[s(θ)] =
n
X
E[si (θ)] = 0.
i=1
Aus einem geeigneten Gesetz der großen Zahlen für i.i.d bzw. i.n.i.d. Variablen si (θ)
folgt dann, dass
P
s(θ)/n → 0.
Für den Maximum-Likelihood-Schätzer gilt:
s(θbn ) = 0 ⇔ s(θbn )/n = 0
s(θbn ) − s(θ) P
→ 0.
n
Da die Scorefunktion stetig in θ ist, folgt, dass auch
⇒
P b
θbn → θ.
• Asymptotische Normalität der Score-Funktion: Aus der Fisher-Regularität folgt, dass
der Erwartungswert und die Kovarianzmatrix existieren und durch E[s(θ)] = 0 und
a
Cov(s(θ)) = I(θ) gegeben sind. Der zentrale Grenzwertsatz liefert s(θ) ∼ N (0, I(θ))
bzw.
d
I(θ)−1/2 s(θ) → N (0, I).
• Asymptotische Normalität von θbn : Eine Taylorentwicklung von s(θbn ) = 0 um θ führt zu
a
0 = s(θbn ) ∼ s(θ) − J(θ)(θbn − θ) + o(θbn − θ).
Ersetzen von J(θ) durch I(θ) = E[J(θ)] liefert
a
s(θ) ∼ I(θ)(θbn − θ)
und somit
bzw.
a
θbn − θ ∼ I−1 (θ)s(θ)
a
θbn − θ ∼ N (0, I−1 (θ)I(θ)I−1 (θ)) = N (0, I−1 (θ)).
70
3.3
3.3.1
Testen linearer Hypothesen und Konfidenzintervalle
Testen von Hypothesen
Betrachte lineare Hypothesen
H0 : Cθ = d
vs. H1 : Cθ 6= d,
wobei C vollen Zeilenrang s ≤ p = dim(θ) besitze.
Wichtiger Spezialfall:
H0 : θs = 0
vs. H1 : θs 6= 0,
wobei θs einen beliebigen s-dimensionalen Subvektor von θ bezeichnet, zum Beispiel in einem
GLM, wo βs = 0 bedeutet, dass die zugehörigen Kovariablen nicht signifikant sind.
Likelihood-Quotienten-Statistik
Die Likelihood-Quotienten-Statistik
"
#
b
L(
θ)
b − `(θ)
e = 2 log
λ = 2 `(θ)
e
L(θ)
b (unter H1 ) mit dem Maxivergleicht das unrestringierte Maximum der Log-Likelihood `(θ)
e
mum der Log-Likelihood unter der H0 -Restriktion, d.h. θ maximiert `(θ) unter der Nebenbedingung Cθ = d. Die Struktur eines zugehörigen Tests lautet:
λ zu groß ⇒ H0 ablehnen.
Nachteil: Es ist eine numerische Maximierung von `(θ) unter linearer Nebenbedingung notwendig, um θe zu erhalten.
Wald-Statistik
Die Wald-Statistik
b > )−1 (C θb − d)
w = (C θb − d)> (CI−1 (θ)C
misst die (gewichtete) Distanz zwischen der unrestringierten Schätzung C θb von Cθ und dem
hypothetischen Wert d unter H0 . Ein Test wird so konstruiert, dass
w zu groß ⇒ H0 ablehnen.
Vorteil gegenüber λ: Keine Berechnung von θe nötig.
71
Score- (oder Rao-) Statistik
Die Score-Statistik lautet
e > I−1 (θ)s(
e θ).
e
u = s(θ)
b = 0. Falls H1 richtig ist, wird s(θ)
e deutlich von 0 = s(θ)
b verschieden
Idee: Für θb gilt s(θ)
sein, d.h.
u wird groß ⇒ H0 ablehnen.
e vom Ursprung, gewichtet mit I−1 (θ).
e
Die Statistik berechnet also den Abstand s(θ)
Beispiel 3.8 (Test für einen Subvektor). Betrachte
• H1 : η = x> β Prädiktor in vollem GLM,
• H0 : ηs = x>
s βs Prädiktor in reduziertem GLM (nach Weglassen von Kovariablen).
Die Log-Likelihood `(βs ) im reduzierten Submodell werde durch βbs maximiert. Mit βbs und βb
lässt sich die Likelihood-Quotienten-Statistik bestimmen. Für die Wald-Statistik ergibt sich
b−1 βbs ,
w = βbs> A
s
b die den Elementen des Subvektors βs entspricht.
bs die Teilmatrix von A
b = I−1 (β),
dabei ist A
Satz 3.5. Unter H0 und den gleichen Regularitätsannahmen wie in Satz 3.4 gilt:
a
1. λ, w, u ∼ χ2 (s), d.h. man lehnt H0 ab, falls λ, w, u > χ21−α (s) ist. Für finite
Stichproben besitzen λ, w, u aber unterschiedliche Werte; im Zweifelsfall sollte man λ
bevorzugen.
2. λ, w, u sind asymptotisch (lokal) effizient.
Beweis.
• Beweis für w: Es gilt
und damit
Unter H0 folgt
a
b
θb ∼ N (θ, I−1 (θ))
a
b > ).
C θb ∼ N (Cθ, CI−1 (θ)C
a
b > ),
C θb − |{z}
Cθ ∼ N (0, CI−1 (θ)C
|
{z
}
d
also
und somit
A
a
A−1/2 (C θb − d) ∼ N (0, I)
a
w = (C θb − d)A−1 (C θb − d) ∼ χ(s).
72
a
• Beweis für λ: Durch Taylorentwicklung kann gezeigt werden, dass w ∼ λ und somit
a
λ ∼ χ2 (s). Die Beweisskizze wird hier lediglich für den Spezialfall
vs. H1 : θ 6= θ0
H0 : θ = θ0
geführt (das entspricht C = I, d = θ0 , rang(C) = p = dim(p)). Eine Taylorentwicklung
2. Ordnung von `(θ0 ) um den unrestringierten Maximum-Likelihood-Schätzer θb liefert
b + s(θ)
b > (θ0 − θ)
b − 1 (θ0 − θ)
b > J(θ)(θ
b 0 − θ),
b
`(θ0 ) ≈ `(θ)
2
b =0
also wegen s(θ)
a
b − `(θ0 ) ≈ (θb − θ0 )> J(θ)(
b θb − θ0 ) ≈ (θb − θ0 )> I(θ)(
b θb − θ0 ) ∼
λ = 2 `(θ)
χ2 (p).
• Beweis für u: Wir nehmen denselben Speziallfall wie im Beweis für λ an. Es ist
a
s(θ0 ) ∼ N (0, I(θ0 ))
bzw.
a
I −1/2 (θ0 )s(θ0 ) ∼ N (0, I),
also
a
s(θ0 )> I−>/2 (θ0 )I−1/2 (θ0 ) s(θ0 ) ∼ χ2 (p).
|
{z
}
I(θ0 )−1
3.3.2
Konfidenzintervalle
• Gemeinsamer Konfidenzbereich:
a
b θb − θ) ∼
(θb − θ)> I(θ)(
χ2 (p)
a
b θb − θ) ≤ χ2 (p) ≈
⇒ P (θb − θ)> I(θ)(
1 − α.
1−α
Daraus lässt sich ein (1 − α)-Konfidenz-Ellipsoid konstruieren.
• Komponentenweise Konfidenzintervalle für θj , j = 1, . . . , p:
θbj − θj a
∼ N (0, 1),
σ
bj
b = I−1 (θ)
b ist. Das zugehörige approxid θ)
wobei σ
bj2 das j-te Diagonalelement von Cov(
mative (1 − α)-Konfidenzintervall lautet:
θbj ± z1−α/2 σ
bj .
73
3.3.3
Modellwahl
Zum Vergleich verschiedener Modelle existieren Modellwahlkriterien, die die Güte der Anpassung, gemessen durch `(θ̂), und die Modellkomplexität p = dim(θ) bewerten, indem sie
die beiden Größen durch eine Straffunktion pen(p) in einem Kompromiss zu
−`(θ̂) + pen(p)
zusammenführen. Dabei wird −`(θ̂) klein bei guter Anpassung, pen(p) groß bei stark bzw.
überparametrisierten Modellen. Am bekanntesten ist Akaikes Informationskriterium
AIC = −2`(θ̂) + 2p
mit pen(p) = 2p. Eine Alternative ist zum Beispiel das Schwartz- (Bayes-) Informationskriterium
BIC = −2`(θ̂) + p log n
wobei n die Größe des Datensatzes ist.
3.4
Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen
Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametrisches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parameter θ ∈ Θ.
Bisherige Grundannahme: Es existiert ein wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung
”
des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt.
'
$
Pθ
•Pθ0
&
•P0
%
Fragen:
• Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der datengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)?
• Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswert
korrekt spezifiziert ist (Quasi-Likelihood)?
• Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schätzgleichungen
!
E s(θ) = 0
starten?
74
Beispiel 3.9 (Lineares Modell). Wir betrachten wieder die Standard-Annahme
yi = x>
i β + εi ,
εi
i.i.d.
∼ N (0, σ 2 )
bzw.
y|X ∼ N (Xβ, σ 2 I) ≡ Pθ ,
θ = (β, σ 2 ).
Mögliche Fehlspezifikationen:
(a) Die N (0, σ 2 )-Annahme für die εi ist falsch, zum Beispiel könnte die wahre Verteilung
die Doppel-Exponential-Verteilung (Laplace-Verteilung) sein:
f (εi ) ∝ exp − |εi /σ| .
φ(0, σ 2 )
Doppel-Exponential-Verteilung
0
Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzer
im Zentrum und hat breitere Enden (heavy-tails).
⇒ Sie ist ausreißerunempfindlicher.
(b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ 2 I.
Wahre Kovarianzstruktur: Cov(y) = σ 2 W , zum Beispiel
– W = diag(W1 , . . . , Wn ) (heteroskedastische Fehler) oder
– W nichtdiagonal (korrelierte Fehler).
(c) Die Erwartungswertstruktur ist falsch: E y 6= Xβ, zum Beispiel wegen
– Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x2 β2 oder β log x,
– fehlender Regressoren.
3.4.1
ML-Schätzung bei Fehlspezifikation
Wir beschränken uns auf den i.i.d. Fall: Seien X1 , . . . , Xn i.i.d. wie X ∼ g(x) und g(x) die
wahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten
n
o
Pθ = f (x|θ), θ ∈ Θ .
75
Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), so ist das Modell korrekt spezifiziert. Falls kein
θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), ist das Modell fehlspezifiziert.
'
$
f x|θ
•g(x) ∼ P0
θ∈Θ
&
%
Definition 3.6 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ ist
definiert durch
g(X)
D(g, fθ ) = Eg log
,
f (X|θ)
d.h.
Z
D(g, fθ ) =
log
g(x)
g(x) dx
f (x|θ)
für X stetig. Dabei wird der Erwartungswert bzgl. der wahren” Dichte bzw. Wahrscheinlich”
keitsfunktion g(x) gebildet.
Es gilt:
D(g, fθ ) ≥ 0
mit
⇔
D(g, fθ0 ) = 0
g ≡ fθ0 .
Also:
D(g, fθ0 ) = 0
⇔
Modell korrekt spezifiziert.
Der Beweis erfolgt mit Ungleichung von Jensen.
Bemerkung. Der (negative) Erwartungswert
Z
−Eg log g(X) = − g(x) log(g(x)) dx
heißt Entropie von g.
Sei θ0 der” Minimierer der Kullback-Leibler-Distanz:
”
h n
o
n
oi
θ0 = argmin Eg log g(X) − Eg log f (X|θ)
.
θ∈Θ
n
o
Da Eg log g(X) nicht von θ abhängt, gilt auch
n
o
θ0 = argmax Eg log f (X|θ) .
θ∈Θ
76
Die Dichte f (x|θ0 ) liegt dann im Sinne der Kullback-Leibler-Distanz am nächsten” bei g.
”
$
'
f (x|θ0 )
•
&
g•
%
Der ML-Schätzer ist
n
1X
θ̂n = argmax
log f (xi |θ).
n
θ∈Θ
i=1
Da
1
n
n
P
P
log f (xi |θ) −
→ Eg log f (X|θ) (Gesetz der großen Zahlen), gilt vermutlich
i=1
P
→ θ0 ,
θ̂n −
das heißt der (Quasi-) ML-Schätzer konvergiert gegen jenes θ0 , dessen Dichte f (x|θ0 ) am
nächsten bei g (bezüglich der Kullback-Leibler-Distanz) liegt.
Genauer gilt:
Satz 3.7 (Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation).
1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von
λ(θ) ≡ Eg log f (X|θ)
(bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei FisherRegularität) existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen
”
Maximierern von
n
1X
log f (xi |θ)
n
i=1
mit
P
θ̂n −
→ θ0 .
2. Asymptotische Normalität: Es gilt
√
d
n(θ̂n − θ0 ) −
→ N 0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 )
mit
∂ log f (X|θ)
∂ log f (X|θ) >
I1 (θ) ≡ Eg
∂θ
∂θ
|
{z
}|
{z
}
s1 (θ)
s1 (θ)>
und der (Quasi-) Fisher-Information
2
∂ log f (X|θ)
J1 (θ) = Eg −
.
∂θ ∂θ>
77
Bemerkung.
• Falls g(x) ≡ f (x|θ), also das Modell korrekt spezifiziert ist, gilt
I1 (θ) = J1 (θ)
(vergleiche Satz 2.16), und man erhält die übliche asymptotische Normalverteilung des
ML-Schätzers bei korrekter Modellspezifikation.
• Informell gilt




1 −1
a
−1
,
θ
,
θ̂n ∼ N 
J
(θ
)
I
(θ
)
J
(θ
)
0
0
1
0
0
1
1
 n

{z
}
|
V (θ0 )
und V (θ0 ) wird geschätzt durch
V̂ (θ̂n ) = J −1 (θ̂n ) I(θ̂n ) J −1 (θ̂n )
( Sandwich”-Matrix)
”
mit
I(θ̂n ) =
n
X
si (θ̂n ) s>
i (θ̂n )
empirische Fisher-Matrix der Stichprobe,
i=1
n
X
∂ 2 log f (x
|θ)
i
J (θ̂n ) = −
>
∂θ
∂θ
{z
} θ=θ̂n
i=1 |
empirische beobachtete Informations-Matrix.
∂ 2 l(θ)
∂θ ∂θ >
• Formal gilt:
√
d
n(θbn − θ0 ) → N (0, J1−1 (θ0 )I1 (θ0 )J1−1 (θ0 )).
Bemerkung.
1. Im i.n.i.d. Fall gilt (informell):
Sei l(θ, x) = logf (x|θ) und
θ0 := argmax Eg l(θ, X) = argmax Eg
θ
θ
( n
X
)
li (θ, Xi ) ,
i=1
bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg (s(θ0 )) = 0. Außerdem
θ̂n = argmax l(θ, x)
bzw.
s(θ̂n ) = 0.
θ
Dann gilt
a
θ̂n ∼ N θ0 , V̂ (θ̂n )
wie oben, nur mit fi (xi |θ) an Stelle von f (xi |θ).
78
2. Angenommen, der Modellparameter θe = (θ, α)> setze sich zusammen aus einem eigentlich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktion
lautet dann
!
e
sθ (θ, α)
sθ (θ)
s(θ, α) =
=
.
e
sα (θ, α)
sα (θ)
Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die MLGleichung Eg (sθ (θe0 )) = 0 erfüllt, so gilt weiterhin
a
⇒ Quasi-Likelihood.
θ̂n ∼ N θ0 , V̂ (θ̂n )
3.4.2
Quasi-Likelihood und Schätzgleichungen
Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kovariablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schätzen,
wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollständig spezifiziert ist?
Beispiel 3.10. Seien Y1 , . . . , Yn i.i.d. wie Y ∼ f (Y |µ, σ 2 ), f symmetrisch um µ, aber nicht
normal, etwa
1 −|y−µ0 |/σ
P0 = f (y|µ0 ) =
e
(Laplace- oder Doppel-Exponential-Verteilung).
2σ
Trotzdem wählt man die (Log-) Likelihood
ql(µ) = −
n
1 X
(yi − µ)2 + const
2σ 2
i=1
der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man auf
die Quasi-Scorefunktion
n
1 X
(yi − µ).
qs(µ) = 2
σ
i=1
Es gilt
E0 qs(µ0 ) =
n
1 X
(E0 (Yi ) −µ0 ) = 0,
| {z }
σ2
i=1
=µ0
also µ̂QML = ȳ wie üblich und wegen E0 Ȳ = µ0 erwartungstreu.
Allerdings ist ȳ kein (asymptotisch) effizienter Schätzer mehr (die Rao-Cramer-Schranke wird
nicht erreicht).
Beispiel 3.11. Seien Y1 , . . . , Yn unabhängig, Yi ∼ N (µ0 , σi2 ) und
( n
!)
n
2
Y
X
1
1
(y
−
µ
)
i
0
Q
P0 =
φ(yi |µ0 , σi2 ) =
exp −
.
2
σi2
(2π)n/2 · ni=1 σi
i=1
i=1
79
Dann wählt man als Quasi-Log-Likelihood:
n
1X
ql(µ) = −
2
i=1
yi − µ
σ
2
,
das heißt man ignoriert die Abhängigkeit der Varianz von i und berechnet
qs(µ) =
n
1 X
(yi − µ),
σ2
i=1
n
1 X
E0 qs(µ) = 2
(µ0 − µ) = 0
σ
⇔
µ0 = µ,
i=1
µ̂QML = ȳ,
E(µ̂QML ) = µ0
erwartungstreu,
aber
Var0 (µ̂QML ) = Var0 (Ȳ ) =
n
n
1 X 2
1 X
Var(Y
)
=
σi ,
i
n2
n2
i=1
i=1
das heißt µ̂QML = ȳ ist ineffizient, aber (falls zum Beispiel σi2 ≤ c) konsistent und normalverteilt.
Beispiel 3.12 (Lineares Modell). Standard–Annahme:
2
yi |xi ∼ N (x>
i β, σ )
bzw.
y|X ∼ N (Xβ, σ 2 I) .
Mögliche Fehlspezifikationen:
(a) Normalverteilungsannahme falsch,
(b) Kovarianzstruktur Cov y = σ 2 I falsch,
(c) Erwartungswertstruktur E y = Xβ falsch.
zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und das
Erwartungswertmodell korrekt sind.
Es gilt: E0 y = Xβ0 ist das wahre Modell.
s(β) =
1 >
X (y − Xβ)
σ2
E0 s(β0 ) = 0
Dabei ist E0 s(β0 ) der Erwartungswert im wahren Modell vom wahren Parameter. Es
ergibt sich
β̂QML = β̂KQ = (X > X)−1 X > y
80
mit
E0 (β̂QML ) = (X > X)−1 X > Ey = β0
>
2
−1
Cov0 (β̂QML ) = σ (X X)
also
(erwartungstreu),
,
a
β̂QML ∼ N (β0 , σ 2 (X > X)−1 ).
Damit ist β̂QML effizient.
zu (b): Die wahre Kovarianzmatrix ist σ 2 W statt σ 2 I:
P0 : y ∼ N (Xβ0 , σ 2 W )
E0 s(β0 ) = 0
β̂QML = (X > X)−1 X > y
E0 (β̂QML ) = (X > X)−1 X > Xβ0 = β0
Cov0 (β̂QML ) = (X > X)−1 X > Cov0 (Y )X(X > X)−1
= σ 2 (X > X)−1 X > W X(X > X)−1
( 6= σ 2 (X > X)−1 )
β̂QML ist konsistent, aber nicht effizient.
(Ein effizienter Schätzer wäre der
β̂AITKEN = (X > W −1 X)−1 X > W −1 y.)
gewichtete
KQ–
bzw.
Aitken–Schätzer
zu (c): Der wahre Erwartungswert ist ungleich Xβ:
wahrer Erwartungswert:
E0 y = µ0 = X0 β0
⇒ wahres Modell:
y ∼ N (X0 β0 , σ 2 I)
(falls N und σ 2 I = Cov0 (y) richtig). Dann ist
β̂QM L = (X > X)−1 X > y
E0 (β̂QM L ) = (X > X)−1 X > X0 β0 6= β0 .
Somit ist β̂QM L verzerrter Schätzer, aber liefert das best–approximierende lineare
Modell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch:
Cov0 (β̂QM L ) = (X > X)−1 X > Cov0 (y) X(X > X)−1 = σ 2 (X > X)−1 .
| {z }
σ2 I
Fazit aus den Beispielen:
• Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwartungswertstruktur
Eyi = µi = x>
i β
korrekt spezifiziert ist, erhält man konsistente Schätzer für µ bzw. β.
81
• Es genügt sogar, die Nullstelle der Quasi–Scorefunktion
!
qs(µ̂) = 0
bzw.
!
qs(β̂) = 0
zu bestimmen. Falls für das wahre“ µ0 bzw. β0
”
E0 qs(µ0 ) = 0 , E0 qs(β0 ) = 0
gilt, dann ist die Nullstelle µ̂ bzw. β̂ konsistent und asymptotisch normalverteilt für µ
bzw. β.
⇒ Idee der Schätzgleichungen“ (estimating equations):
”
Definiere eine Schätzfunktion oder Quasi–Scorefunktion
qs(θ) =
n
X
ψi (yi , θ)
i=1
so, dass für den wahren“ Parameter θ0
”
E0 qs(θ0 ) =
n
X
E0 [ψi (yi , θ0 )] = 0
i=1
erfüllt ist. Dann ist der Quasi–ML–Schätzer oder M–Schätzer“ definiert als Nullstelle
”
!
qs(θ̂QM L ) = 0
(Schätzgleichung)
der Schätzfunktion qs(θ).
Beispiel 3.13 (Generalisierte Regression). Sei
E0 yi = µi (β)
korrekt spezifiziert ,
Var0 yi = φ vi (β)
(eventuell) fehlspezifiziert .
Es gilt: E0 s(β) = 0.
Es wird nur eine Annahme hinsichtlich der Schätzgleichung getroffen, jedoch nicht für die
Verteilung:
n 1 X ∂µi (β)
vi (β)−1 (yi − µi (β))
s(β) =
{z
}
|
φ
∂β
i=1
∝
E(yi )−µi (β)=0
n X
∂µi (β)
i=1
∂β
vi (β)−1 (yi − µi (β))
hat Erwartungswert 0 und
!
s(β̂) = 0 .
⇒ β̂ ist konsistent und asymptotisch normalverteilt.
Speziell: generalized estimating equation“ (wie in GLM: µi (β) = x>
i β).
”
82
Beispiel 3.14 ((Binäre) Longitudinaldaten (repeated measures) oder Clusterdaten). Die
Datenpaare (yij , xij ) , i = 1, . . . , n , j = 1, . . . , ni , seien je ni wiederholte Beobachtungen an
Individuen oder in Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n.
”
ni : Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster
yij : Zielvariable
xij : Kovariablenvektor
yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert
E(yij |xij ) = h(x>
ij β) = µij .
Die Schätzgleichungen bei Vernachlässigung von (zeitlichen) Korrelationen zwischen den Messwiederholungen lauten
qs(β) =
ni
n X
X
!
xij wij (β)(yij − h(x>
ij β)) = 0
i=1 j=1
mit
Eβ0 qs(β0 ) = 0 ,
wobei die wij (β) geeignete Gewichte sind. Somit ist β̂QML konsistent und asymptotisch normal, jedoch unter Effizienzverlust.
83
Kapitel 4
Bayes-Inferenz
4.1
Überblick
Definition” bayesianischer Inferenz: Anpassen eines Wahrscheinlichkeitsmodells an eine Men”
ge von Daten.
Ergebnis: Wahrscheinlichkeitsverteilung für die Parameter des Modells (und andere unbeobachtete Größen, zum Beispiel Vorhersagen für neue Beobachtungen).
Idealisierter Prozess bayesianischer Datenanalyse:
1. Stelle ein volles Wahrscheinlichkeitsmodell oder eine gemeinsame Wahrscheinlichkeitsverteilung für alle beobachtbaren und unbeobachtbaren Größen auf. Dabei ist Wissen
über das zugrundeliegende wissenschaftliche Problem und den datengenerierenden Prozess hilfreich.
2. Berechnung der Posterioriverteilung der unbeobachtbaren Größen (Parameter, missing
data, . . .): bedingte Wahrscheinlichkeitsverteilung der unbeobachtbaren Größen gegeben
die beobachteten Daten.
3. Modelldiagnose: Fit, Sensitivität (bezüglich der Annahmen in 1.).
Ergebnis: kohärentes System”
”
4.2
Exchangeability
Exchangeability ( Austauschbarkeit”) ist ein wichtiges Konzept für die statistische Modell”
bildung. Es geht auf de Finetti zurück.
Definition 4.1 (Finite Exchangeability). Die Zufallsgrößen X1 , . . . , Xn sind exchangeable
bezüglich des Wahrscheinlichkeitsmaßes P, wenn
P(x1 , . . . , xn ) = P(xπ(1) , . . . , xπ(n) )
84
für alle Permutationen
π : {1, . . . , n} → {1, . . . , n}
gilt. Existiert eine Dichte f zu P, so gilt entsprechend:
f (x1 , . . . , xn ) = f (xπ(1) , . . . , xπ(n) ).
Definition 4.2 (Infinite Exchangeability). Die unendliche Folge X1 , X2 , . . . ist exchangeable,
wenn jede endliche Teilfolge exchangeable ist.
Bemerkung. Analog zu obigen Definitionen kann auch bedingte Exchangeability definiert
werden, etwa im Regressionsfall für Y1 |x1 , . . . , Yn |xn .
Satz 4.3 (Darstellungssatz für 0-1 Zufallsvariablen). Sei X1 , X2 , . . . eine unendliche Folge binärer Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P. Dann existiert eine Verteilungsfunktion Q, so dass die gemeinsame Dichte
f (x1 , . . . , xn ) folgende Gestalt hat:
Z
f (x1 , . . . , xn ) =
n
1Y
θxi (1 − θ)1−xi dQ(θ)
0 i=1
mit
Q(θ) = lim P(yn /n ≤ θ)
n→∞
und
yn =
n
X
xi ,
θ = lim yn /n.
n→∞
i=1
Interpretation:
1. Bedingt auf θ sind X1 , X2 , . . . unabhängige, identisch verteilte Bernoulli-Zufallsgrößen.
2. θ wird eine Verteilung zugeordnet.
3. Q ist der Glaube”( Belief”) über den Grenzwert der relativen Häufigkeit der Einsen.
”
”
Konventionelle Schreibweise:
f (x1 , . . . , xn |θ) =
n
Y
θxi (1 − θ)1−xi .
i=1
Satz 4.4. Wenn die benötigten Dichten existieren und X1 , X2 , . . . eine (unendliche) Folge
reellwertiger Zufallsgrößen ist, dann gilt
f (x1 , . . . , xn ) =
Z Y
n
Θ i=1
85
f (xi |θ) dQ(θ).
Wir betrachten nun die a posteriori prädiktive Verteilung oder bedingte prädiktive Verteilung von zukünftigen (unbeobachteten) Daten xm+1 , . . . , xn gegeben die beobachteten Daten x1 , . . . , xm :
f (xm+1 , . . . , xn |x1 , . . . , xm ) =
f (x1 , . . . , xn )
f (x1 , . . . , xm )
n
R Q
f (xi |θ) dQ(θ)
(Satz von Bayes)
i=1
=Θ
m
R Q
Θ i=1
m
R Q
=
(Darstellungssatz)
f (xi |θ) dQ(θ)
n
Q
f (xi |θ)
Θ i=1
f (xi |θ) dQ(θ)
i=m+1
m
R Q
f (xi |θ) dQ(θ)
Θ i=1
Z
=
n
Y
m
Q
f (xi |θ) ·
Θ i=m+1
Dabei ist
m
Q
f (xi |θ) dQ(θ)
i=1
m
R Q
.
f (xi |θ) dQ(θ)
Θ i=1
f (xi |θ) dQ(θ)
i=1
m
R Q
= dQ(θ|x1 , . . . , xm )
f (xi |θ) dQ(θ)
Θ i=1
die Posterioriverteilung für θ gegeben Daten x1 , . . . , xm . Hier haben wir aus vergangenen”,
”
beobachteten Daten für zukünftige Beobachtungen gelernt. Eine Erweiterung auf andere Zufallsgrößen ist möglich:
Satz 4.5 (Allgemeiner Darstellungssatz). Sei X1 , X2 , . . . eine unendliche Folge reellwertiger
Zufallsvariablen, die exchangeable sind, mit zugrundeliegendem Wahrscheinlichkeitsmaß P.
Dann existiert ein Wahrscheinlichkeitsmaß Q über F, dem Raum aller Verteilungsfunktionen
F auf R, so dass
Z Y
n
P(x1 , . . . , xn ) =
F (xi ) dQ(F ),
F i=1
wobei
Q(F ) = lim P(Fn ),
n→∞
wobei Fn die zu x1 , . . . , xn gehörende empirische Verteilungsfunktion bezeichnet.
Man beachte, dass obige Aussage sich (auch) auf nichtparametrische Inferenz bezieht. So
steht Q(F ) für eine Prioriverteilung auf dem Raum aller Verteilungsfunktionen.
86
4.3
Bayes-Inferenz im Schnelldurchlauf
Notation:
• X: beobachtete Daten
e unbeobachtete Daten
• X:
• θ: Parameter
Ziel:
• Wahrscheinlichkeitsaussagen bedingt auf beobachtete Daten
• Vorhersage / prädiktive Inferenz
Basiskomponenten in der Bayes-Inferenz:
• p(θ)
Prioriverteilung
• f (x|θ)
Datenverteilung
• f (θ|x)
Posterioriverteilung
• f (e
x|x)
prädiktive Verteilung
Nach dem Satz von Bayes ist die gemeinsame Verteilung von (θ, x) gleich
f (θ, x) = f (x|θ) · p(θ),
deshalb
f (θ|x) =
f (θ, x)
f (x|θ)p(θ)
=
,
f (x)
f (x)
wobei
f (x) =
X
f (x|θ)p(θ),
falls θ diskret,
θ∈Θ
Z
f (x) =
f (x|θ)p(θ) dθ,
falls θ stetig.
Θ
Unnormalisierte Posteriori:
f (θ|x) ∝ f (x|θ)p(θ)
A priori prädiktive Verteilung (vor Beobachtung der Daten):
Z
Z
f (x) =
f (θ, x) dθ =
f (x|θ) p(θ) dθ
Θ
Θ
A posteriori prädiktive Verteilung (nach Beobachtung der Daten x):
Z
Z
Z
f (e
x|x) =
f (e
x, θ|x) dθ =
f (e
x|θ, x) f (θ|x) dθ =
f (e
x|θ) f (θ|x) dθ,
Θ
Θ
Θ
da x
e bedingt unabhängig von x gegeben θ ist.
87
Likelihood und Odds Ratios
Die Likelihoodfunktion ist f (x|θ) als Funktion von θ nach Beobachtung von x. Die Daten
beeinflussen die Posteriori-Inferenz also nur über die Likelihood. Die Posteriori-Odds von θ1
verglichen mit θ2 sind
fθ|x (θ1 |x)
=
fθ|x (θ2 |x)
f (x|θ1 )f (θ1 )
f (x)
f (x|θ2 )f (θ2 )
f (x)
=
f (x|θ1 ) f (θ1 )
·
,
f (x|θ2 ) f (θ2 )
es gilt also
Posteriori-Odds = Priori-Odds × Likelihoodquotient.
4.4
Wiederholung: Modelle mit einem Parameter
• Gemeint ist: θ ist skalar.
• Prioriverteilung kann mehr als einen Parameter haben.
• Hier funktionieren folgende Konzepte gut:
– Konjugierte Prioriverteilungen, zum Beispiel bei (einparametrischen) Exponentialfamilien.
Vorteil: Analytische Berechenbarkeit, keine Simulation nötig.
Nachteil: Für komplexe Modelle meist nicht verfügbar, deshalb eher als Baustein
in komplizierteren Modellen verwendet.
– Referenzprioris/Referenzanalyse:
∗ Idee: Priori so wählen, dass die Daten auch im Fall geringen Stichprobenumfangs die Posterioriverteilung dominieren ( let the data speak for themsel”
ves”). Dies benötigt entscheidungs- und informationstheoretische Grundlagen.
Suche nach nicht-informativen Prioriverteilungen: Im skalaren Fall zum Beispiel
θ
0 < θ < 1 → ψ = log
.
1−θ
∗ Jeffreys’ Priori
p(θ) ∝
p
I(θ)
ist invariant gegenüber bijektiven Transformationen von θ.
Beispiel 4.1 (Binomial- und Negative Binomialverteilung).
1. Binomialverteilung: Die Likelihood lautet
f (x|θ) =
n
Y
θxi (1 − θ)1−xi .
i=1
Als Referenzpriori kann Jeffreys’ Priori, Beta
1 1
2, 2
, verwendet werden:
p(θ) ∝ θ−1/2 (1 − θ)−1/2 .
88
Sei y =
Pn
i=1 xi .
Dann ist die Referenzposteriori:
f (θ|x) ∝ f (x|θ)p(θ)
∝ θy (1 − θ)n−y θ−1/2 (1 − θ)−1/2
= θy−1/2 (1 − θ)n−y−1/2 .
Dies entspricht dem Kern der Dichte einer Beta 12 + y, 12 + n − y –Verteilung. f (θ|x)
ist auch für die Extremfälle y = 0 oder y = n noch proper”. Verwendet man dagegen
”
Haldane’s Priori
p(θ) ∝ θ−1 (1 − θ)−1 ,
die eine uneigentliche Priori ’Beta(0, 0)’ darstellt, ist die Posteriori Beta(y, n − y) für
die Extreme y = 0 oder y = n nicht proper.
2. Negative Binomialverteilung: Sei X die Anzahl an Versuchen bis y ≥ 1 Erfolge eintreten. Dann lautet die Likelihood
x−1 y
f (x|θ) ∝
θ (1 − θ)x−y für x ≥ y.
y−1
Die Referenzpriori ist durch Jeffreys’ Priori für die geometrische Verteilung gegeben
(das entspricht y = 1):
p(θ) ∝ θ−1 (1 − θ)−1/2 ,
woraus die Referenzposteriori
f (θ|x) ∝ θy−1 (1 − θ)x−y−1/2 ,
also eine Beta(y, x − y + 1/2)–Verteilung, resultiert. Da y ≥ 1 und x ≥ y, ist auch diese
a posteriori stets proper.
Bemerkung. Konzepte für eindimensionale Modelle sind im mehrdimensionalen Fall im
Allgemeinen schwierig umzusetzen bzw. umstritten (zum Beispiel Verwendung von Referenzprioris). Man geht daher oft zu sogenannten hierarchischen Modellen über: Füge zusätzliche
Stufen in das Modell ein mit dem Ziel, die Posteriori-Analyse stärker von Priori-Annahmen
zu entkoppeln.
4.5
4.5.1
Mehr-Parameter-Modelle
Normalverteilung
Wir betrachten in diesem Abschnitt Daten x1 , . . . , xn |µ, σ 2
kannt.
i.i.d.
∼ N (µ, σ 2 ) mit µ, σ 2 unbe-
(i) Gemeinsame Posterioriverteilung von µ, σ 2 |x:
f (µ, σ 2 |x) ∝ f (x|µ, σ 2 ) · p(µ, σ 2 )
89
(ii) Bedingte Posterioriverteilungen von µ|σ 2 , x bzw. σ 2 |µ, x:
f (µ|σ 2 , x)
bzw. f (σ 2 |µ, x)
(iii) Marginale Posterioriverteilung von µ|x:
Z
Z
2
2
f (µ|x) = f (µ, σ |x) dσ = f (µ|σ 2 , x)f (σ 2 |x) dσ 2
I. Nichtinformative Prioriverteilung
Ist nur einer der beiden Parameter unbekannt, so wählt man oft folgende Prioriverteilungen
(Jeffreys’ Prioris):
σ 2 bekannt:
p(µ) ∝ const,
µ bekannt:
p(σ 2 ) ∝ (σ 2 )−1 .
Eine Möglichkeit, daraus eine mehrdimensionale Priori zu konstruieren, ist:
p(µ, σ 2 ) = p(µ) · p(σ 2 ) ∝ (σ 2 )−1 ,
d.h. wir nehmen unabhängige Prioris für µ und σ 2 an. Die gemeinsame Posterioriverteilung f (µ, σ 2 |x) lautet dann:
f (µ, σ 2 |x) ∝
Likelihood × Priori
" n
#
Y 1
1
√ σ −1 exp − 2 (xi − µ)2
=
· (σ 2 )−1
2σ
2π
i=1
!
n
1 X
−n−2
2
∝ σ
exp − 2
(xi − µ)
2σ
i=1
1
2
−n−2
2
= σ
exp − 2 (n − 1)s + n(x − µ)
2σ
P
mit s2 = ni=1 (xi − x)2 /(n−1). Die bedingte Posteriori von µ, f (µ|σ 2 , x), kann auf den
Fall mit bekannter Varianz σ 2 zurückgeführt werden. Aus Statistik IV ist bekannt, dass
f (µ|σ 2 , x) ∼ N (x, σ 2 /n). Für die marginale Posteriori f (σ 2 |x) hat man
Z
2
f (σ |x) =
f (µ, σ 2 |x) dµ
Z
1
−n−2
2
2
∝
σ
exp − 2 (n − 1)s + n(x − µ)
dµ
2σ
Z
1
1
−n−2
2
2
∝ σ
exp − 2 (n − 1)s
exp − 2 n(x − µ)
dµ.
2σ
2σ
Es gilt
Z
1
exp − 2 n(x − µ)2
2σ
90
r
dµ =
2π
σ2
n
und damit
r
1
σ2
f (σ 2 |x) ∝ σ −n−2 exp − 2 (n − 1)s2
2π
2σ
n
−n−2
1
1
∝ (σ 2 ) 2 (σ 2 ) 2 exp − 2 (n − 1)s2
2σ
1
2 − n+1
2
= (σ ) 2 exp − 2 (n − 1)s .
2σ
Der Kern dieser Dichte gehört zur inversen Gamma-Verteilung mit den Parametern (n − 1)/2
und (n − 1)s2 /2.
Wegen
f (µ, σ 2 |x1 , . . . , xn ) = f (µ|σ 2 , x1 , . . . , xn ) · f (σ 2 |x1 , . . . , xn )
kann die gemeinsame Posterioriverteilung von µ, σ 2 |x1 , . . . , xn nun wie folgt simuliert werden:
Algorithmus 2 : Direkte Simulation der gemeinsamen Posterioriverteilung
bei nichtinformativer Priori
Wiederhole für s = 1, . . . , S:
Schritt 1: Ziehe (σ 2 )(s) aus IG
n−1 n−1 2
2 , 2 s
.
Schritt 2: Ziehe (µ)(s) aus N (x, n1 (σ 2 )(s) ).
Man erhält Paare (µ(1) , (σ 2 )(1) ), . . . , (µ(S) , (σ 2 )(S) ) .
σ 2 als Nuisance-Parameter
Interessiert nur µ, so gibt es (mindestens) zwei Möglichkeiten zur Simulation:
1. Simuliere die gemeinsame Posteriori f (µ, σ 2 |x) gemäß obigem Algorithmus und betrachte nur die Ziehungen µ(1) , . . . , µ(S) .
2. Berechne direkt die marginale Posteriori f (µ|x):
Z ∞
f (µ|x) =
f (µ, σ 2 |x) dσ 2 .
0
A/(2σ 2 )
Führt man die Substitution z =
mit A = (n − 1)s2 + n(µ − x)2 durch, so erhält
man wegen
1
1
σ 2 = Az −1 und dσ 2 = −2A−1 σ 4 dz = − Az −2 dz
2
2
für f (µ|x)
Z ∞
Z ∞
n+2 n+2
f (µ, σ 2 |x) dσ 2 ∝
A− 2 z 2 exp(−z) A z −2 dz
0
Z0 ∞
n n−2
=
A− 2 z 2 exp(−z) dz
0
Z ∞
n−2
−n
2
= A
z 2 exp(−z) dz.
0
91
Allgemein gilt für a > 0 und m > −1:
Z ∞
Γ(m + 1)
xm exp(−ax) dx =
.
am+1
0
Daraus folgt, dass das Integral konstant bezüglich µ ist und somit
n
f (µ|x) ∝ A− 2
− n
= (n − 1)s2 + n(µ − x)2 2
− n2
(µ − x)2
= 1+
(n − 1)s2 /n

!2 − n2
µ−x 
1
= 1 +
√s
n−1
n
was der Kern einer skalierten nichtzentralen t-Verteilung mit Skalenparameter
√
m = s/ n, Lokationsparameter l = x und ν = n − 1 Freiheitsgraden ist. Allgemein hat
der Kern der Dichte einer solchen allgemeinen t-Verteilung die Gestalt
"
1
kern(f (θ)) = 1 +
ν
θ−l
m
2 #− ν+1
2
.
Bemerkung.
1. Statt σ 2 lässt sich auch die sogenannte Präzision κ = (σ 2 )−1 verwenden.
Bei Verwen
n−1 2
dung von p(µ, κ) ∝ (κ)−1 folgt, dass κ|x ∼ Gamma n−1
,
s
.
2
2
2. Statt inverser Gammaverteilung wird häufig der Spezialfall einer sogenannten skalierten
inversen χ2 -Verteilung inv-χ2 verwendet (siehe unten).
II. Konjugierte Prioriverteilung
Verwende gemäß Bemerkung 2 die skalierte inverse χ2 (ν0 , σ02 )-Verteilung als Priori.
Vorteil: Bessere Interpretation (das werden wir allerdings erst dann verstehen, wenn wir
informative Prioriverteilungen in Form von (inversen) Gammaverteilungen betrachten).
Nachteil: Diese Vorgehensweise ist non-standard”.
”
Zufallszahlen aus einer skalierten inversen χ2 -Verteilung kann man wie folgt simulieren:
Algorithmus 3 : Simulation von θ ∼ inv-χ2 (ν0 , σ02 )
1. Ziehe X ∗ ∼ χ2 (ν0 ).
2. Setze θ =
ν0 σ02
X∗ .
92
Es gilt:
ν
ν0 2 σ .
2 2 0
Dies lässt sich mit dem Transformationssatz für Dichten verifizieren: Definiere α = ν0 /2 und
β = 1/2, so dass X ∗ ∼ Gamma(α, β). Die Umkehrfunktion der Transformation in Schritt 2
lautet
ν0 σ02
X ∗ = g −1 (θ) =
θ
und die zugehörige Ableitung nach θ
inv-χ2 (ν0 , σ02 ) = IG
(g −1 )0 (θ) = −
0
,
ν0 σ02
.
θ2
Man erhält somit:
f (θ) = fX ∗ (g −1 (θ)) · |(g −1 )0 (θ)| =
(βν0 σ02 )α −α−1
θ
exp −βν0 σ02 /θ .
Γ(α)
Dies ist die Dichte einer inversen Gammaverteilung mit Parametern (α, βν0 σ02 ), welche gerade
der gewünschten inversen χ2 -Verteilung entspricht. Eine mögliche Parametrisierung ist nun
p(µ, σ 2 ) = p(µ|σ 2 ) · p(σ 2 )
mit
σ2
und σ 2 ∼ inv-χ2 (ν0 , σ02 )
µ|σ ∼ N µ0 ,
κ0
σ2
Man schreibt hierfür kurz: N-inv-χ2 µ0 , κ00 ; ν0 , σ02 . Die Prioris sind nunmehr voneinander
abhängig.
σ2
Sei nun also a priori (µ, σ 2 ) ∼ N-inv-χ2 µ0 , κ00 ; ν0 , σ02 . Die Prioridichte lautet dann
!
( 12 ν0 σ02 )ν0 /2 2 −( ν0 +1)
1
1
1 ν0 σ02
2
2
2
p(µ, σ ) = q
exp − σ2 (µ − µ0 ) ×
(σ )
exp −
Γ(ν0 /2)
2 σ2
2 κ0
2πσ 2 κ−1
0
ν
1 2 − 12
2 −( 20 +1)
2
2
∝ (σ ) (σ )
exp − 2 ν0 σ0 + κ0 (µ − µ0 )
.
2σ
2
Die gemeinsame Posteriori bei gegebenen Daten x = (x1 , . . . , xn ) aus N (µ, σ 2 ) ergibt sich
zu:
ν
1 2
2 − 21
2 −( 20 +1)
2
2
exp − 2 ν0 σ0 + κ0 (µ − µ0 )
f (µ, σ |x) ∝ (σ ) (σ )
2σ
n
1
×(σ 2 )− 2 exp − 2 (n − 1)s2 + n(x − µ)2 .
2σ
Man kann zeigen (vgl. Übung), dass die Posteriori wieder N-inv-χ2 -verteilt ist mit Parametern
n
κ0
µn =
x,
µ0 +
κ0 + n
κ0 + n
κn = κ0 + n,
νn = ν0 + n,
νn σn2 = ν0 σ02 + (n − 1)s2 +
Die Interpretation der Parameter ist wie folgt:
93
κ0 n
(x − µ0 )2 .
κ0 + n
• µn ist gewichteter Mittelwert aus Stichprobenmittel und Priori-Erwartungswert. In den
Grenzfällen κ0 → ∞ ist µn = µ0 bzw. für n → ∞ ist µn = x.
• νn sind die Posteriori-Freiheitsgrade als Summe von Priori-Freiheitsgraden und Stichprobenumfang.
• Die Posteriori-Quadratsumme νn σn2 lässt sich partitionieren in die Priori-Quadratsumme ν0 σ02 , die Quadratsumme (n − 1)s2 der Stichprobe und einen Term, der die Unsicherheit, die durch die Differenz zwischen Stichprobenmittel und Priori-Erwartungswert
ensteht, quantifiziert.
Die bedingte Posteriori von µ|σ 2 , x ist
σ2
2
µ|σ , x ∼ N µn ,
κn
κ0
n
σ2
ˆ
= N
µ0 +
x,
κ0 + n
κ0 + n κ0 + n
κ0
µ + σn2 x
1
ˆ
σ2 0
= N
, κ0
.
κ0
+ σn2
+ σn2
σ2
σ2
Die Gewichte κ0 /σ 2 und n/σ 2 entsprechen der Priori- bzw. Datenpräzision. Die marginale
Posteriori von σ 2 |x ist
σ 2 |x ∼ inv-χ2 (νn , σn2 ).
Dies ermöglicht die Simulation der gemeinsamen Posteriori Verteilung:
Algorithmus 4 : Direkte Simulation der gemeinsamen Posterioriverteilung
bei konjugierter Priori
Schritt 1: Ziehe (σ 2 )∗ aus inv-χ2 (νn , σn2 ).
2 ∗
Schritt 2: Ziehe µ∗ aus N µn , (σκn) .
Die marginale Posteriori von µ|x lautet
−(νn +1)/2
κn (µ − µn )2
f (µ|x) ∝ 1 +
.
νn σn2
Dies entspricht einer t-Verteilung mit νn Freiheitsgraden, Lokationsparameter µn und Skalenparameter σn2 /κn .
III. Semi-konjugierte Prioriverteilung
Die Parameter µ und σ 2 sollen nun a priori unabhängig sein. Wir wählen deshalb a priori
µ|σ 2 ∼ N (µ0 , τ02 )
und σ 2 ∼ inv-χ2 (ν0 , σ02 ).
94
Der einzige Unterschied zum Fall der konjugierten Priori ist also, dass wir τ02 statt σ02 /κ0
verwenden und so die Prioris entkoppeln. Es folgt:
p(µ, σ 2 ) = p(µ) · p(σ 2 ).
Die resultierende gemeinsame Posteriori hat allerdings keine Form, die einer bekannten Verteilung zugeordnet werden kann. Allerdings ist f (µ|σ 2 , x) explizit berechenbar und f (σ 2 |x)
einfach zu simulieren. Die bedingte Posteriori ist µ|σ 2 , x ∼ N (µn , τn2 ) mit
µn =
1
µ + σn2 x
τ02 0
1
+ σn2
τ02
und τn2 =
1
τ02
1
+
n
σ2
.
Zur Herleitung der Posteriori f (σ 2 |x) benutzt man, dass
f (σ 2 |x) =
f (µ, σ 2 |x)
f (µ|σ 2 , x)
und (salopp), dass
2
f (µ, σ |x) ∝
N (µ|µ0 , τ02 )
2
× inv-χ (σ
2
|ν0 , σ02 )
×
n
Y
N (xi |µ, σ 2 ).
i=1
Die marginale Posteriori hat dann die Struktur
N (µ|µ0 , τ02 ) · inv-χ2 (σ 2 |ν0 , σ02 ) ·
f (σ |x) ∝
N (µ|µn , τn2 )
2
Qn
i=1 N (xi |µ, σ
2)
.
Da f (σ 2 |x) nicht von µ abhängen kann, können die entsprechenden Terme ignoriert werden,
die nur von µ abhängen. Man beachte jedoch, dass der Nenner über die Parameter µn , τn2
noch von σ 2 abhängt. Setzen wir µ = µn , so erhalten wir
n
Y
1
1
1
2
2
2
2 2
2
√
f (σ |x) ∝ τn exp − 2 (µn − µ0 ) · inv-χ (σ |ν0 , σ0 ) ·
exp − 2 (xi − µn ) .
2σ
2τ0
2πσ 2
i=1
Diese Verteilung lässt sich beispielsweise über einen empirischen CDF-Sampler simulieren.
Voraussetzung hierfür ist, dass wir die Dichte einer (univariaten) Zufallsvariable bis auf eine
Proportionalitätskonstante c kennen.
Algorithmus 5 : Empirischer CDF-Sampler
• Diskretisiere den Träger der zu simulierenden Verteilung in eine Menge von N
Punkten x1 ≤ . . . ≤ xN .
• Evaluiere die bis auf Proportionalität bekannte Dichte an x1 ≤ . . . ≤ xN , um Werte
f1 , . . . , fN zu erhalten.
• Schätze die Proportionalitätskonstante c über c = f1 + . . . + fN .
• Ziehe Zufallszahlen aus x1 ≤ . . . ≤ xN gemäß den Wahrscheinlichkeiten
f1 /c, . . . , fN /c.
95
Dies führt zu folgendem Algorithmus zur Simulation aus f (µ, σ 2 |x):
1. Ziehe (σ 2 )∗ aus der marginalen (approximativen) Posteriori gemäß CDF-Sampler.
2. Ziehe µ aus f (µ|(σ 2 )∗ , x).
Abschließend betrachten wir noch die prädiktive Posterioriverteilung für zukünftige Beobachtungen x
e gegeben Daten x. Diese lautet
Z Z
Z Z
f (e
x|x) =
f (e
x|µ, σ 2 , x)f (µ, σ 2 |x) dµ dσ 2 =
f (e
x|µ, σ 2 )f (µ, σ 2 |x) dµ dσ 2 .
Simulation:
1. Ziehe (µ∗ , (σ 2 )∗ ) aus der Posteriori wie oben beschrieben.
2. Ziehe x
e ∼ N (µ∗ , (σ 2 )∗ ).
4.5.2
Dirichlet-Multinomial Modell
Im Dirichlet-Multinomial-Modell wird für die Daten y1 , . . . , yn eine Multinomialverteilung
angenommen, also die Verallgemeinerung der Binomialverteilung auf mehr als zwei mögliche Ereignisse bei festem Stichprobenumfang n. Beispielsweise könnte eine fest vorgegebene
Anzahl an Personen nach ihrer Parteipräferenz befragt werden.
Eine multinomialverteilte Zufallsvariable Y kann k mögliche Ausprägungen annehmen (zum
Beispiel CDU/CSU, SPD, FDP, Grüne, Linke, andere). Die Zufallsvariable Xj , 1 ≤ j ≤ k,
P
bezeichnet die Anzahl der j-ten Ausprägung in der Stichprobe; es gilt kj=1 Xj = n. Der
Pk
Parameter θj = P(Y = j) ∈ [0, 1] für Y ∈ {1, . . . , k} mit
j=1 θj = 1 bezeichnet die
Wahrscheinlichkeit für die Ausprägung j.
Die Likelihood von θ = (θ1 , . . . , θk )> bei Beobachtungen x = (x1 , . . . , xk )> lautet
L(θ) = f (x|θ) ∝
k
Y
x
θj j .
j=1
P
Wegen der Restriktion kj=1 θj = 1 liegen faktisch nur k − 1 Parameter vor, denn der k-te
Parameter lässt sich deterministisch durch θk = 1 − θ1 − . . . θk−1 berechnen. Die Likelihood
lässt sich daher auch in der Form


k−1
Y xj
L(θ) ∝ 
θ  (1 − θ1 − . . . − θk−1 )xk
j
j=1
schreiben.
Die zur Multinomialverteilung konjugierte Verteilung ist die sogenannte Dirichletverteilung,
eine Verallgemeinerung der Beta-Verteilung, geschrieben
θ = (θ1 , . . . , θk )> ∼ Dirichlet(α1 , . . . , αk ) = D(α),
96
mit Dichtefunktion
Γ(α1 + . . . + αk ) α1 −1
θ
· . . . · θkαk −1 ,
Γ(α1 ) · . . . · Γ(αk ) 1
P
wobei αj > 0 für alle j = 1, . . . , k und wieder θj ∈ [0, 1] mit kj=1 θj = 1. Die DirichletVerteilung spezifiziert also eine Verteilung auf einem (k − 1)-dimensionalen offenen Simplex.
p(θ) =
Eigenschaften der Dirichletverteilung:
P
Definiere α0 = kj=1 αj .
• Momente:
E(θj ) =
αj
α0
,
wobei die Restriktion
Var(θj ) =
Pk
j=1 θj
αj (α0 − αj )
α02 (α0 + 1)
,
Cov(θi , θj ) = −
αi αj
2
α0 (α0 +
= 1 die negative Korrelation impliziert.
• Modus:
Modus(θ)j =
αj − 1
α0 − k
ist die j-te Komponente des k-dimensionalen Modus.
• Jede Randverteilung ist wieder eine Dirichletverteilung, zum Beispiel
(θi , θj , 1 − θi − θj ) ∼ Dirichlet(αi , αj , α0 − αi − αj ).
Insbesondere ist
θj ∼ Beta(αj , α0 − αj ).
• Die bedingten Verteilungen sind ebenfalls Dirichletverteilt. Setzt man
θi0 =
1−
θm
Pm−1
r=1
θr
, m ≤ i ≤ k,
gegeben die Realisationen θ1 , . . . , θm−1 , so ist
0
(θm
, . . . , θk0 )> ∼ Dirichlet(αm , . . . , αk ).
97
1)
,
Algorithmus 6 : Simulation aus der Dirichletverteilung
• Simulation 1:
1. Ziehe Z1 , Z2 , . . . , Zk aus (unabhängigen) Gammaverteilungen mit
Parametern (α1 , 1), . . . , (αk , 1).
2. Setze
Zj
θj = Pk
i=1 Zi
.
• Simulation 2 ( Stick Breaking Prior”):
”
1. Ziehe θ1 ∼ Beta(α1 , α0 − α1 ).
2. Für j = 2, . . . , k − 1:
P
(i) Ziehe Zj ∼ Beta(αj , ki=j+1 αi ).
P
(ii) Setze θj = 1 − j−1
θ
i=1 i Zj .
P
3. Setze θk = 1 − k−1
i=1 θi .
Für x|θ ∼ Multinomial(n; θ1 , . . . , θk ) und θ|α ∼ Dirichlet(α1 , . . . , αk ) lautet die Posterioriverteilung von θ:
f (θ|x) ∝ L(θ) · p(θ|α)
∝
k
Y
x
θj j
j=1
=
k
Y
·
k
Y
α −1
θj j
j=1
x +αj −1
θj j
,
j=1
d.h. die Posteriori ist Dirichlet(x1 + α1 , . . . , xk + αk )-verteilt.
Interpretation der Posteriori
Der Posteriori-Erwartungswert
xj + αj
xj + αj
=
Pk
n + α0
i=1 xi +
i=1 αi
E[θj |x] = Pk
lässt sich umschreiben zu
E[θj |x] =
α0
·
α0 + n
αj
α0
|{z}
PrioriErwartungswert
+
xj
n
·
.
α0 + n |{z}
n
MLE
Der Parameter α0 lässt sich als a priori Anzahl Beobachtungen” und αj als a priori Erfolge”
”
”
für Kategorie j interpretieren.
98
Bemerkung.
1. Die Wahl α1 = . . . = αk = 0 entspricht einer Gleichverteilung für {log θj }kj=1 . In
diesem Fall ist die Posteriori nur dann proper, wenn xj ≥ 1, j = 1, . . . , p.
2. Die Wahl α1 = . . . = αk = 1/2 entspricht Jeffreys’ Priori.
3. Die Wahl α1 = . . . = αk = 1 entspricht einer Priori-Gleichverteilung auf dem Simplex.
Bemerkung. Die Dirichlet-Verteilung eignet sich auch als Priori bei der Analyse von Kontigenztafeln mit multinomialem Erhebungsschema:
x1
x3
x2
x4
(n = x1 +x2 +x3 +x4 ). Erweiterungen auf restringierte Multinomialverteilungen sind möglich
(loglineare Modelle).
Ad-hoc Prozedur: Addiere 1/2 zu jedem Eintrag der Kontingenztabelle und berechne dann den
Maximum-Likelihood-Schätzer; das entspricht α1 = . . . = αk = 3/2 und der Posteriori-Modus
Schätzung
Modus(θ|x)j
=
=
4.5.3
xj + αj − 1
Pk
i=1 αi − k
i=1 xi +
Pk
xj +
Pk
1
2
1
i=1 xi + 2 k
.
Multivariate Normalverteilung
Notation:
• X = (X1 , . . . , Xp )> ist p-dimensionaler Zufallsvektor.
• µ = (µ1 , . . . , µp ) ist p-dimensionaler Erwartungswertvektor.
• Die symmetrische und positiv definite (Notation: Σ > 0) Matrix


σ11 σ12 . . . σ1p
 σ21 σ22 . . . σ2p 


Σ= .
..
.. 
.
.
.
 .
.
.
. 
σp1 σp2 . . . σpp
ist p × p-dimensionale Kovarianzmatrix.
• Eine Beobachtung x = (x1 , . . . , xp )> ist MVN(µ, Σ) (multivariat normalverteilt), wenn
1
> −1
−1/2
exp − (x − µ) Σ (x − µ) .
f (x|µ, Σ) ∝ |Σ|
2
99
• Die Likelihood für n i.i.d. Realisationen x1 , . . . , xn lautet
!
n
1X
> −1
L(µ, Σ) = f (x1 , . . . , xn |µ, Σ) ∝ |Σ|
exp −
(xi − µ) Σ (xi − µ)
2
i=1
1
−n/2
−1
= |Σ|
exp − tr(Σ S0 )
2
P
mit S0 = ni=1 (xi −µ)(xi −µ)> . Die zweite Identität ergibt sich über die Umformungen
!
n
n
X
X
> −1
> −1
(xi − µ) Σ (xi − µ) = tr
(xi − µ) Σ (xi − µ)
−n/2
i=1
i=1
= tr
n
X
!
Σ−1 (xi − µ)(xi − µ)>
i=1
−1
= tr(Σ
S0 ).
I. Konjugierte Prioriverteilung bei unbekanntem µ und bekanntem Σ
Konjugierte Prioriverteilung für µ bei bekanntem Σ ist
µ ∼ MVN(µ0 , Λ0 )
mit Λ0 > 0. Die Posteriori für µ ist
!
n
X
1
1
(xi − µ)> Σ−1 (xi − µ) .
f (µ|x, Σ) ∝ exp − (µ − µ0 )> Λ−1
0 (µ − µ0 ) −
2
2
i=1
Der Term im Exponenten ist eine quadratische Form in µ, die sich über eine quadratische
Ergänzung und Vernachlässigung von Konstanten ergibt. Man erhält
f (µ|x, Σ) ∼ MVN(µn , Λn )
mit
µn =
−1
Λ−1
0 + nΣ
−1
−1
Λ−1
0 µ0 + nΣ x ,
−1
Λ−1
= Λ−1
n
0 + nΣ
P
und x = ( ni=1 xi )/n in Analogie zum univariaten Fall.
Die bedingte und marginale Posteriori für Subvektoren von µ folgen aus den Eigenschaften der multivariaten Normalverteilung: Betrachte die Partitionierungen
!
!
(1) (1)
(11)
(12)
µ
µn
Λn
Λn
µ=
, µn =
, Λn =
.
(2)
(21)
(22)
µ(2)
µn
Λn
Λn
Dann gilt für die bedingten Verteilungen
(2)
(2)
1|2
(1) (2)
(1)
1|2
µ − µn , Λn
µ |µ , x ∼ MVN µn + β
100
mit
−1
(22)
β 1|2 = Λ(12)
Λ
,
n
n
−1
(12)
(22)
Λ(21)
Λ1|2 = Λ(11)
−
Λ
Λ
n
n
n
n
und für die marginalen Verteilungen
(11)
µ(1) ∼ MVN µ(1)
.
n , Λn
Die prädiktive Posterioriverteilung ist (informell)
f (e
x, µ|x) = MVN(e
x|µ, Σ) · MVN(µ|µn , Λn ).
Im Exponenten erhält man eine quadratische Form in (e
x, µ). (e
x, µ) sind gemeinsam multivae als Randverteilung der beiden Komponenten ebenfalls
riat normalverteilt, und daher folgt x
einer multivariaten Normalverteilung. Die erforderlichen Kenngrößen lassen sich über die
iterierte Erwartung und Varianz berechnen:
E[e
x|x] = E[E[e
x|µ, x]|x] = E[µ|x] = µn
und
Var(e
x|x) = E[Var(e
x|µ, x)|x] + Var[E(e
x|µ, x)|x]
= E[Σ|x] + Var[µ|x]
= Σ + Λn .
II. Konjugierte Prioriverteilung bei unbekanntem µ und unbekanntem Σ
In Abschnitt 4.5.1-II (Seite 92) hatten wir als konjugierte Prioriverteilungen für die Parameter µ und σ 2 der univariaten Normalverteilung
σ2
2
µ|σ ∼ N µ0 ,
und σ 2 ∼ inv-χ2 (ν0 , σ02 ),
κ0
kurz
2
µ, σ ∼ N-inv-χ
2
σ02
2
µ0 , ; ν0 , σ0 ,
κ0
verwendet. Hier nun verwenden wir die multivariaten Analoga
1
µ|Σ ∼ MVN µ0 , Σ
und Σ ∼ inv-Wishartν0 (Λ−1
0 ),
κ0
kurz
1
µ, Σ ∼ MVN-inv-Wishart µ0 ,
Λ0 ; ν0 , Λ0 .
κ0
101
Die gemeinsame Prioridichte ist dann
ν +p
1
− 02 +1
−1
> −1
p(µ, Σ) ∝ |Σ|
· exp − tr(Λ0 Σ ) − κ0 (µ − µ0 ) Σ (µ − µ0 ) .
2
Dabei bezeichnet ν0 die a priori Anzahl der Freiheitsgrade, κ0 die a priori Anzahl an Messungen auf der Σ-Skala. Die gemeinsame Posterioriverteilung von µ und Σ lautet
1
Λn ; νn , Λn .
µ, Σ|x ∼ MVN-inv-Wishart µn ,
κn
mit
κ0
n
x,
µ0 +
κ0 + n
κ0 + n
= κ0 + n,
µn =
κn
νn = ν0 + n,
Λn = Λ0 + S +
κ0 n
(x − µ0 )(x − µ0 )> ,
κ0 + n
Pn
> in Analogie zum univariaten Fall. Die Interpretation
wobei S =
i=1 (xi − x)(xi − x)
der Parameter von Seite 93 lässt sich direkt übertragen: Der Posteriori-Erwartungswert ist
ein gewichtetes Mittel aus Stichprobenmittelwertvektor und Priori-Erwartungswert. Die Gesamtstreuungsmatrix Λn lässt sich in Priori-Streuungsmatrix, empirische Streuungsmatrix
und Streuung zwischen Priori-Erwartungswert und Stichprobenmittel partitionieren.
Die marginale Posteriori für µ folgt einer multivariaten t-Verteilung mit Parametern µn
und Λn /(κn · (νn − p + 1)), die marginale Posteriori für Σ einer inversen Wishart-Verteilung
mit Parametern νn und Λ−1
n . Zur Simulation aus der gemeinsamen Posteriori oder aus der
prädiktiven Verteilung ist folgender Algorithmus anwendbar:
Algorithmus 7 : Simulation aus der gemeinsamen Posteriori und der prädiktiven Verteilung bei konjugierter Priori
Für s = 1, . . . , S:
1. Ziehe Σ(s) |x ∼ inv-Wishartνn Λ−1
n .
2. Ziehe µ(s) |Σ(s) , x ∼ MVN µn , κ1n Σ(s) .
e(s) |µ(s) , Σ(s) , x ∼ MVN µ(s) , Σ(s) .
3. Ziehe x
Dann ist (µ(s) , Σ(s) ) eine Ziehung aus der gemeinsamen Posterioridichte, x̃ eine
Ziehung aus der prädiktiven Verteilung.
III. Nichtinformative Prioriverteilung bei unbekanntem µ und unbekanntem Σ
Als nichtinformative Prioriverteilung bei unbekanntem µ und Σ eignet sich die multivariate
Jeffreys’ Priori
p(µ, Σ) ∝ |Σ|−(p+1)/2 .
102
Diese entspricht dem Grenzfall κ0 → 0, ν0 → 1, |Λ0 | → 0 bei der konjugierten Priori. Für die
Posteriori-Kenngrößen ergibt sich in diesem Fall für die bedingte Verteilung von µ
1
µ|Σ, x ∼ MVN x, Σ ,
n
und für die marginalen Verteilungen
Σ|x ∼ inv-Wishartn−1 (S),
1
µ|x ∼ mv-tn−p x,
S .
n(n − p)
Als Beispiel wird im Folgenden die bivariate Normalverteilung betrachtet. Es dient auch
dazu, die folgende für die Bayes-Inferenz wichtige Simulationsstrategie, das sogenannte GibbsSampling, zu illustrieren.
Algorithmus 8 : Gibbs-Sampler
Gegeben: Ein mehrdimensionaler stetiger Zufallsvektor X mit Verteilung π. Der
Einfachheit halber seien alle Komponenten von X stetig.
Wir erzeugen im Folgenden eine Markovkette X (0) , X (1) , . . . mit Startwert X (0) und
stationärer Verteilung π. Sei X (t) der aktuelle Zustand der Markovkette. X (t) lasse
(t)
(t)
(t)
sich in k Subvektoren X (t) = (X•1 , X•2 , . . . , X•k ) partitionieren. Definiere
(t)
(t)
(t)
(t)
(t−1)
(t−1)
X−s = X•1 , X•2 , . . . , X•(s−1) , X•(s+1) , . . . , X•k
für s = 1, . . . , k. Ferner seien die vollständig bedingten Verteilungen ( full
”
conditionals”)
(t)
(t)
π X•s , X−s
(t)
(t) (t)
π•s|−s = π X•s X−s = R (t)
(t)
(t)
π X•s , X−s dX•s
gegeben und simulierbar.
Dann wird der nächste Zustand X (t+1) komponentenweise wie folgt erzeugt:
(t+1)
∼ π•1|−1 .
(t+1)
∼ π•2|−2 .
(t+1)
∼ π•k|−k .
Schritt 1: Ziehe X•1
Schritt 2: Ziehe X•2
(t+1)
(t+1)
..
.
Schritt k: Ziehe X•k
(t+1)
Wiederhole diese Schritte ausreichend oft.
Nach einer gewissen Zahl von Wiederholungen kann X (t) als Ziehung aus π angesehen werden.
Im Gegensatz zu obigen direkten” Simulationsalgorithmen liegen nun allerdings abhängige
”
Realisationen vor.
103
Beispiel 4.2. (Bivariate Normalverteilung) Sei x bivariat normalverteilt mit Erwartungswertvektor (µ1 , µ2 )> und Kovarianzmatrix
2
2
σ1 σ12
σ1 ρ
1 ρ
=
=
und ρ bekannt.
σ12 σ22
ρ σ22
ρ 1
Bei einer nichtinformativen Priori p(µ1 , µ2 ) ∝ const für µ1 , µ2 reduziert sich die Posteriori
auf die Likelihood bei gegebenen Daten x = ((x11 , x12 )> , . . . , (xn1 , xn2 )> ):
n
n
1
1
2 −2
L(µ1 , µ2 ) =
exp −
1−ρ
A ,
2π
2(1 − ρ2 )
wobei
A=
n
X
(xi1 − µ1 )2 − 2ρ(xi1 − µ1 )(xi2 − µ2 ) + (xi2 − µ2 )2
i=1
Wir möchten nun die vollständig bedingten Verteilungen µ1 |µ2 , x und µ2 |µ1 , x berechnen.
Natürlich ist es aus Symmetriegründen ausreichend, nur µ1 |µ2 , x zu ermitteln. Wegen
f (µ1 |µ2 , x) =
f (µ1 , µ2 , x)
f (µ1 , µ2 |x)
=
∝ f (µ1 , µ2 |x)
f (µ2 |x)
f (µ2 , x)
genügt es, aus der gemeinsamen Posteriori lediglich die Terme zu betrachten, die von der
jeweiligen Variablen in der bedingten Verteilung abhängen. Man erhält dann
2
1
f (µ1 |µ2 , x) ∝ exp −
n µ1 − 2µ1 (x1 + ρ(µ2 − x2 ))
2(1 − ρ2 )
P
mit x̄j = ( ni=1 xij )/n für j = 1, 2. Eine quadratische Ergänzung des Terms in eckigen
Klammern um x1 + ρ(µ2 − x2 ) liefert schließlich das Endresultat
!
2
1 p(µ1 |µ2 , x) ∝ exp − 1−ρ2 µ1 − [x1 + ρ(µ2 − x2 )]
.
2 n
Dies entspricht dem Kern einer N (x1 + ρ(µ2 − x2 ), (1 − ρ2 )/n)-Verteilung. Der zugehörige
Gibbs-Sampler hat die Gestalt:
(0)
1. Wähle einen Startwert µ2 .
2. Für s = 1, . . . , S:
2
(s−1)
∼ N x 1 + ρ µ2
− x2 , 1−ρ
.
n
2
(s)
∼ N x2 + ρ µ1 − x1 , 1−ρ
.
n
(s)
(s−1)
(s)
(s)
(a) Ziehe µ1 |µ2
(b) Ziehe µ2 |µ1
104
4.6
Bayesianisches lineares Modell
Modell:
y = Xβ + ε ,
wobei y ∈ Rn , X ∈ Rn×p , β ∈ Rp , ε ∈ Rn
Annahmen und Notation:
p = rang(X)
i.i.d
ε = (ε1 , . . . , εn )> ,
εi ∼ N (0, σ 2 )
Bayesianisch:
y|β, σ 2 , X ∼ MVN(Xβ, σ 2 I)
Likelihood:
1
> 2 −1
f (y|X, β, σ ) ∝ |σ I|
exp − (y − Xβ) (σ I) (y − Xβ)
2
1
>
2 −n/2
= (σ )
exp − 2 (y − Xβ) (y − Xβ)
2σ
2
4.6.1
2
−1/2
Nichtinformative Prioriverteilung
Die nichtinformative Priori
p(β, σ 2 ) ∝ (σ 2 )−1
ist insbesondere im Fall p n nützlich. Für die gemeinsame Posteriori folgt:
1
2
2 −( n
+1)
>
p(β, σ |y, X) ∝ (σ ) 2
exp − 2 (y − Xβ) (y − Xβ) .
2σ
Sei
βb = (X > X)−1 X > y,
yb = X βb = X(X > X)−1 X > y = Hy,
|
{z
}
H
εb = (I − H)y = y − yb.
Aus der Theorie linearer Modelle ist bekannt, dass
X > εb = 0,
yb> εb = 0.
Daraus ergeben sich folgende Umformungen:
(y − Xβ)> (y − Xβ)
=
=
=
b
b
y=X
β
=
[(y − yb) + (yb − Xβ)]> [(y − yb) + (yb − Xβ)]
εb> εb + (b
y − Xβ)> (b
y − Xβ) + 2(yb − Xβ)> εb
εb> εb + (b
y − Xβ)> (b
y − Xβ)
εb> εb + (βb − β)> X > X(βb − β),
105
so dass sich die Posteriori schreiben lässt als
1 >
>
>
2
2 −( n
+1)
b
b
p(β, σ |y, X) ∝ (σ ) 2
exp − 2 εb εb + (β − β) X X(β − β) .
2σ
Die bedingte Posteriori von β|σ 2 , y, X ist
1 b
2
> >
b
p(β|σ , y, X) ∝ exp − 2 (β − β) X X(β − β) ,
2σ
da εb = y − X βb nicht von β abhängt. Man identifiziert obigen Ausdruck als Kern einer
multivariaten Normalverteilung, genauer ist
b σ 2 (X > X)−1 ),
p(β|σ 2 , y, X) ∼ MVN(β,
ein bekanntes Resultat aus der Theorie linearer Modelle.
Die marginale Posteriori von σ 2 erhält man über Herausintegrieren von β bzw. einfacher
über den Satz von Bayes
f (β, σ 2 |y, X)
f (σ 2 |y, X) =
.
f (β|σ 2 , y, X)
Die Normalisierungskonstante für die bedingte Posteriori von β ist σ −p/2 , also
1 >
+1) p2
2
2 −( n
2
σ exp − 2 εb εb
f (σ |y, X) ∝ (σ )
2σ
n−p
1 >
2 −( 2 +1)
= (σ )
exp − 2 εb εb .
2σ
εb> εb
εb> εb
bzw. IG n−p
,
-Verteilung. Es gilt:
Dies ist der Kern einer inv-χ2 n − p, n−p
2
2
E[σ 2 |y, X] =
n−p
εb> εb
εb> εb
·
=
.
n−p−2 n−p
n−p−2
Algorithmus 9 : Direkte Simulation von β und σ 2 im bayesianischen linearen
Modell
Für t = 1, . . . , T :
(t)
εb> εb
1. Ziehe σ 2
aus f σ 2 |y, X , d.h. aus inv-χ2 n − p, n−p
.
(t)
b σ 2 (t) (X > X)−1 , wobei
2. Ziehe β (t) aus f β| σ 2
, y, X , d.h. aus MVN β,
βb = (X > X)−1 X > y.
Eine Alternative zur direkten Simulation besteht in der Verwendung von Gibbs-Sampling,
indem zusätzlich zur vollständig bedingten Dichte von β die vollständig bedingte Dichte
von σ 2 ,
1 >
2
2
2 −( n
+1)
> >
b
b
2
exp − 2 εb εb + (β − β) X X(β − β) ,
f (σ |β, y, X) ∝ p(β, σ |y, X) ∝ (σ )
2σ
106
zur Simulation
verwendet wird.
Dies ist für festes β der Kern einer skalierten
> X > X(β−β)
b
b
εb> εb+(β−β)
2
inv-χ n,
-Verteilung. Damit lässt sich auch die marginale Posten
riori von β herleiten:
f (β|y, X) =
∝
Damit:
f (β, σ 2 |y, X)
f (β|σ 2 , y, X) · f (σ 2 |y, X)
=
f (σ 2 |y, X, β)
f (σ 2 |β, y, X)
exp − 2σ1 2 (βb − β)> X > X(βb − β)
h > b > > b
in/2
.
εb εb+(β−β) X X(β−β)
1
>
>
>
b
b
exp − 2σ2 [b
ε εb + (β − β) X X(β − β)]
n
i−n/2
h
.
f (β|y, X) ∝ εb> εb + (βb − β)> X > X(βb − β)
Setzt man
σ
bε2 =
εb> εb
⇔ εb> εb = (n − p)b
σε2 ,
n−p
so ist
h
i−n/2
(n − p)b
σε2 + (βb − β)> X > X(βb − β)
#!− n
"
2
b − β)> X > X(βb − β)
(
β
(n − p)b
σε2 · 1 +
=
(n − p)b
σε2
"
#− (n−p)+p
2
>
>
b
b
(β − β) X X(β − β)
.
∝ 1+
(n − p)b
σε2
f (β|y, X) ∝
Dies entspricht dem Kern einer multivariaten t-Verteilung mit n − p Freiheitsgraden, Lokationsparameter βb und Skalenparameter σε2 (X > X)−1 , also
b σ
β|y, X ∼ mv-tn−p β,
bε2 (X > X)−1 .
f Seien
Abschließend betrachten wir noch die prädiktive Verteilung für ye|y, X, X.
• m die Anzahl neuer Beobachtungen,
f neue Beobachtungen von Regressoren der Dimension m × p,
• X
• ye der Vektor der Prognosen der Dimension m × 1.
Zur Simulation können wir Algorithmus 9 wie folgt erweitern:
107
Algorithmus 10 : Direkte Simulation der prädiktiven Verteilung im bayesianischen linearen Modell
Für t = 1, . . . , T :
(t)
εb> εb
1. Ziehe σ 2
aus f σ 2 |y, X , d.h. aus inv-χ2 n − p, n−p
.
(t)
b σ 2 (t) (X > X)−1 , wobei
2. Ziehe β (t) aus f β| σ 2
, y, X , d.h. aus MVN β,
βb = (X > X)−1 X > y.
3. Für i = 1, . . . , m:
f bezeichnet.
Ziehe yei ∼ M V N xei > β (t) , (σ 2 )(t) , wobei xei > die i-te Zeile von X
Es ist sogar eine analytische Berechnung möglich:
h
i
b σ̂ 2 X(X
f ∼ mv-tn−p X
fβ,
f > X)−1 X
f> + I
f (e
y |y, X, X)
ε
in Analogie zur Berechnung von Prognose und Prognoseintervallen für lineare Modelle aus
frequentistischer Sicht.
4.6.2
Konjugierte Prioriverteilung
Im Falle der konjugierten Priori
σ 2 ∼ inv-χ2 (κ0 , σ02 ) ,
β|σ 2 ∼ MVN(β0 , σ 2 Σ0 )
bzw.
β, σ 2 ∼ MVN-inv-χ2 (β0 , σ02 Σ0 ; κ0 , σ02 )
ergibt sich die gemeinsame Posteriori
σ 2 |y, X ∼ inv-χ2 (κn , σn2 ) ,
β|σ 2 , y, X ∼ MVN(βn , σ 2 Σn )
bzw.
β, σ 2 |y, X ∼ MVN-inv-χ2 (βn , σn2 Σn ; κn , σn2 ) ,
wobei
−1
>
−1
>
βn = (Σ−1
0 + X X) (Σ0 β0 + X y) ,
>
−1
Σn = (Σ−1
,
0 + X X)
κn = κ0 + n ,
> −1
>
2
σn2 = (β0> Σ−1
0 β0 − βn Σn βn + y y + κ0 σ0 )/(κ0 + n) .
Als bedingte Posteriori von β ergibt sich
β |σ 2 , y, X
∼
MVN(βn , σ 2 Σn ),
∼
inv-χ2 (κn , σn2 ).
als marginale Posteriori von σ 2
σ 2 |y, X
108
4.6.3
Spezialfälle und Erweiterungen
1. Ridge-Regression
Hinweis: Es ist im Allgemeinen sinnvoll, die echten” Kovariablen (ohne Intercept)
”
zu standardisieren, um Unterschiede in der Skala zu beseitigen. Ferner geht man zum
zentrierten Response über, so dass der Intercept entfällt. Man erhält X ∗ , y ∗ . Betrachte
nun
y ∗ = X ∗ β ∗ + ε, ε ∼ N (0, σ 2 I).
Der Ridge-Schätzer ist durch
[(X ∗ )> X ∗ + λI]−1 (X ∗ )> y ∗
mit λ > 0 gegeben. Dieser lässt sich wie folgt bayesianisch interpretieren: Sei
p(β ∗ ) ∼ N (0, τ 2 I),
d.h. die Komponenten von β ∗ sind a priori unkorreliert (also wegen der Normalvertei
lung auch unabhängig). Dann ist die bedingte Posteriori f β ∗ |y ∗ , X ∗ , σ 2 , τ 2 gleich
−1
−1 !
2
2
σ
σ
MVN (X ∗ )> X ∗ + 2 I (X ∗ )> y ∗ , σ 2 (X ∗ )> X ∗ + 2 I
.
τ
τ
Der Parameter λ enstpricht dabei dem Quotienten σ 2 /τ 2 .
2. Ungleiche Varianzen der Störvariablen / abhängige Störvariablen
Allgemein:
y = Xβ + ε, ε ∼ N (0, Σε )
y ∼ MVN(Xβ, Σy ), Σy = Σε
Problem: Spezifikation der Prioriverteilung für Σε .
Mögliche Auswege sind:
(a) Parametrisiere
Σy = σ 2 Qy
mit Qy bekannt und p(β, σ 2 ) ∝ (σ 2 )−1 . Dieser Fall ist auf das Modell aus Abschnitt 4.6.1 reduzierbar, indem man das Modell
Q−1/2 y = Q−1/2 X β + Q−1/2 ε
| {z }
| {z } | {z }
y∗
X∗
ε∗
betrachtet. Man erhält dann wieder ein homoskedastisches Regressionsmodell in
den Größen y ∗ , X ∗ , ε∗ .
(b) Gewichtete Regression:
Σy = diag(σ 2 wi−1 )1≤i≤n
lässt sich als Spezialfall von (a) auffassen.
109
(c) Korrelationen: Schreibe
Σy = SRS mit S = diag(σ1 , . . . , σp )
mit beispielweise
p(σ12 , σ22 , . . . , σp2 )
=
p
Y
p(σj2 )
2
und p(σj2 ) ∼ inv-χ2 (νj , σ0j
).
j=1
Es bleibt die Spezifikation der Korrelationsmatrix. Priori-Spezifikationen müssen
insbesondere positive Definitheit gewährleisten. Eine einfache Variante besteht in
der Verwendung von (positiver) Äqui-Korrelation”, was zum Beispiel bei Cluster”
daten eine vernünftige Annahme darstellt:


1 ρ ··· ρ
 ρ 1 ··· ρ 


,
R= . . .
. . ... 

 .. ..
ρ ρ ···
1
wobei ρ ∼ U (0, 1) eine positive Korrelation erzwingt. Bei Messwiederholungen
greift man oft auf eine autoregressive Kovarianzstruktur zurück. Für in 1. Ordnung
autokorrelierte Residuen
εt = ρεt−1 + Zt , Zt ∼ N (0, σ 2 ),
erhält man




R=


1
ρ
ρ2
..
.
ρ
1
ρ
..
.
ρ2
ρ
1
..
.
···
···
···
..
.
ρp−1 ρp−2 ρp−3 · · ·
ρp−1
ρp−2
ρp−3
..
.




.


1
Andere Zerlegungen basieren auf der Cholesky- oder Spektralzerlegung und sind
relativ komplex.
(d) Übergang zu Modellen mit Zufallseffekten: Modelle mit Zufallseffekten (linear mixed models, generalized linear mixed models) führen zu strukturierten, meist parametersparsamen Kovarianzmatrizen.
Aber : Die Modellgleichung ändert sich und Σy 6= Σε , d.h. man kommt in eine
andere Modellklasse.
4.7
Bayesianisches generalisiertes lineares Modell
Struktur von GLMs: Der Response folgt einer Verteilung aus einer einfachen Exponentialfamilie (i = 1, . . . , n)
yi θi − b(θi )
f (yi |θi ) = exp
· c(yi , φi )
(4.1)
φi
110
oder
f (yi |θi ) = exp
yi θi − b(θi )
a(φi )
· c(yi , φi ),
wobei in vielen Fällen φi ≡ φ (Bernoulli-, Poissonverteilung). Es ist
µi = E[yi |θi ] = b0 (θi ) ,
Var(yi |θi ) = b00 (θi )φi
und θi der kanonische Parameter. Mit einer Linkfunktion g bzw. Responsefunktion h = g −1
gelte
g(µi ) = ηi = x>
(4.2)
i β.
Beispiel 4.3 (Logit-Modell). Mit µi = P(yi = 1) ist
f (yi |µi ) = µyi i (1 − µi )1−yi
= exp yi log(µi ) + (1 − yi ) log(1 − µi )
!
µi
+ log(1 − µi )
= exp yi log
1 − µi
|
{z
}
θi
mit
θi = log
µi
1 − µi
⇔ µi =
exp(θi )
.
1 + exp(θi )
Dies entspricht (4.1) mit φi = 1, c(yi , φi ) = 1,
exp(θi )
1
b(θi ) = − log 1 −
= − log
= log (1 + exp(θi ))
1 + exp(θi )
1 + exp(θi )
und
b0 (θi ) =
1
· exp(θi ) = µi .
1 + exp(θi )
Als Prioriverteilung für β in (4.2) eignet sich
β ∼ MVN(β0 , B0 )
mit B0 > 0 (vgl. Abschnitt 4.5.3 zur multivariaten Normalverteilung bei bekannter Kovarianzmatrix). β beeinflusst µ = (µ1 , . . . , µn )> über den Prädiktor µ(β) = h(Xβ), wobei die
Auswertung komponentenweise zu verstehen ist. Für B0−1 → 0 erhält man eine nichtinformative Priori.
Über die Darstellung (4.1) als Exponentialfamile mit kanonischen Parametern erhält man als
Posterioriverteilung
Y
n
1
yi θi − b(θi )
> −1
f (β|y, X) ∝ exp − (β − β0 ) B0 (β − β0 ) ·
exp
2
φi
i=1
!
n
X
1
y
θ
−
b(θ
)
i i
i
= exp − (β − β0 )> B0−1 (β − β0 ) exp
2
φi
i=1
!
n
X yi θi − b(θi )
1
> −1
= exp − (β − β0 ) B0 (β − β0 ) +
.
2
φi
i=1
111
Beispiel 4.4 (Logit-Modell). Im Falle des Logit-Modells erhält man als Posteriori
Y
n
1
> −1
f (β|y, X) ∝ exp − (β − β0 ) B0 (β − β0 ) ×
µi (β)yi (1 − µi (β))1−yi
2
i=1
Y
n
1
yi
>
1−yi
= exp − (β − β0 )> B0−1 (β − β0 ) ×
h(x>
i β) (1 − h(xi β))
2
i=1
yi
1−yi
Y
n 1
exp(x>
1
> −1
i β)
.
= exp − (β − β0 ) B0 (β − β0 ) ×
2
1 + exp(x>
1 + exp(x>
i β)
i β)
i=1
Problem: Der Posteriori-Kern entspricht keinem Kern einer bekannten Verteilung. Die PosterioriVerteilung ist demnach nicht analytisch zugänglich. Mögliche Auswege sind
1. Approximation oder
2. Exploration der Posteriori durch Generierung von Samples aus der Posteriori.
Wir betrachten im Folgenden Lösung 2. Hier gibt es mehrere Möglichkeiten; sehr etabliert ist
ein Vorschlag von Gamerman (1997)1 , eine Variante des Metropolis-Hastings-Algorithmus.
4.7.1
Ein MCMC-Algorithmus: Metropolis-Hastings
Zunächst folgt eine Darstellung des Grundproblems, ohne näher auf die zugrundeliegende
i.i.d
mathematische Theorie einzugehen. Bekannt ist, dass für Xi ∼ π, i = 1, . . . , n, wobei π
eine Verteilung bezeichnet, interessierende Kennzeichen dieser Verteilung (Momente, Dichte
etc.) — Existenz vorausgesetzt — durch Simulation von Zufallszahlen gemäß π als MonteCarlo-Schätzung gewonnen werden können, z.B.
n
X
[ = 1
E[X]
xi .
n
i=1
Dies ist wenig spannend”, da, wenn π bekannt ist, in der Regel auch der Erwartungswert
”
zugänglich ist. Angenommen jedoch, man betrachtet eine (nichtlineare) Funktion von X,
zum Beispiel g(X) = X 2 . Dann ist möglicherweise die Dichte der Transformation g(X) noch
analytisch bestimmbar, aber der Erwartungswert komplex zu berechnen. Im Fall, dass X
mehrdimensional ist, kann die analytische Bestimmung derartiger Kenngrößen analytisch
unmöglich und bei höherer Dimension mittels numerischer Integration zu instabil sein.
Unter geeigneten Voraussetzungen lässt sich obige Monte-Carlo Schätzung erweitern zu
n
X
\ = 1
g(xi ).
E[g(X)]
n
i=1
(Dies ist ein allgemeines Prinzip, also nicht notwendigerweise bayesianisch, solange es sich
bei π nicht zum Beispiel um eine Posterioriverteilung handelt.) Es sei allerdings bemerkt,
1
Gamerman (1997): Sampling from the posteriori distribution in generalized linear models. Statistics and
Computing 7, pp. 57-68.
112
dass dieses Vorgehen im Vergleich zur exakten Lösung mit einem Monte-Carlo Fehler behaftet ist. Wesentliche Voraussetzung ist zudem, dass Zufallszahlen aus π gezogen werden
können. Verfahren zur Generierung von i.i.d. Zufallszahlen sind beispielsweise das Inversionsverfahren, Rejection Sampling oder Importance Sampling (vgl. Vorlesung Computerintensive
Methoden). Gerade bei höherer Dimension sind diese jedoch zum Teil nicht oder nur sehr
kompliziert anwendbar.
Eine Alternative stellen Markov Chain Monte Carlo (MCMC)-Verfahren dar. Ziel ist die
Generierung einer Markov-Kette (X0 , . . . , Xn ) von (abhängigen!) Zufallszahlen, deren Verteilung gegen die interessierende Verteilung konvergiert, d.h. π ist die stationäre oder invariante
Verteilung der Markov-Kette. Der Ergodensatz erlaubt dann Schätzungen der Form
[ =
E[X]
1
n − burnin
n
X
xi
bzw.
\ =
E[g(X)]
i=burnin+1
1
n − burnin
n
X
g(xi ),
i=burnin+1
wobei x0 , . . . , xburnin Werte am Anfang der Sequenz bezeichnen, bevor sich die Kette in der
stationären Verteilung befindet, und die deshalb weggeworfen” werden.
”
Praktische Umsetzung: Starte mit einem Startwert x0 und ziehe dann für i = 1, . . . , n Werte
Xi ∼ P (·|Xi−1 ), wobei P den Markov-Übergangskern bezeichnet, der nur vom aktuellen Zustand der Kette abhängt. An ihn bzw. die Markov-Kette werden die folgenden Anforderungen
gestellt:
1. Die Markov-Kette ist homogen.
2. Die Markov-Kette ist irreduzibel.
3. Die Markov-Kette ist aperiodisch.
4. Die Markov-Kette ist positiv rekurrent.
Wir betrachten hier Markov-Ketten in diskreter Zeit bei diskretem oder stetigem Zustandsraum, gewöhnlich eine Teilmenge des Rp . Für allgemeine Zustandsräume ist mehr Technik”
”
erforderlich, aber keine neuen Ideen”. Für den hier betrachteten Fall ist die Zielverteilung π
”
immer gegeben.
Univariater Metropolis-Hastings
Wir beschreiben nun den Metropolis-Hastings-Algorithmus (kurz: MH ) zur Generierung einer
wie oben beschriebenen Markov-Kette für den univariaten Fall; dieser Algorithmus enthält
den Gibbs-Sampler als Spezialfall.
Sei π die Dichte der Zielverteilung, aus der wir simulieren möchten, und q eine geeignete
Vorschlagsdichte, aus der neue Zustände der Kette generiert werden, d.h.
Xi ∼ q(·|xi−1 ),
zum Beispiel qxi |xi−1 = N (xi−1 , 1) oder qxi |xi−1 = U (xi−1 − c, xi−1 + c). Die Vorschläge
werden nicht immer, sondern nur mit einer gewissen Akzeptanzwahrscheinlichkeit α(xi−1 , xi )
113
akzeptiert. Für den MH-Algorithmus hat diese die Gestalt
π(xi ) · q(xi−1 |xi )
α(xi−1 , xi ) = min 1,
.
π(xi−1 ) · q(xi |xi−1 )
Wird xi nicht akzeptiert, so setzt man xi ← xi−1 , d.h. der alte Zustand wird beibehalten.
Ein wesentlicher Vorteil dieses Verfahrens besteht darin, dass sich die (meist unbekannte)
Normalisierungskonstante von π herauskürzt, d.h. der MH-Algorithmus kann auch (bzw.
gerade) für diese Fälle angewendet werden. Die Konstruktion von α gewährleistet, dass die
Bedingungen 1. bis 4. eingehalten werden.
Für q(xi−1 |xi ) = q(xi |xi−1 ) reduziert sich der MH-Algorithmus auf den Metropolis-Algorithmus
mit
π(xi )
α(xi−1 , xi ) = min 1,
,
π(xi−1 )
d.h. wenn die Zieldichte an der Stelle xi größer als an xi−1 ist, wird der neue Vorschlag stets
akzeptiert, andernfalls nur im Verhältnis π(xi )/π(xi−1 ). Setzt man die Akzeptanzwahrscheinlichkeit konstant gleich eins, erhält man den Gibbs-Sampler.
Der MH-Algorithmus akzeptiert tendenziell neue Werte in Bereichen mit hoher Dichte (relevante Bereiche). Die Akzeptanzwahrscheinlichkeit sollte nicht zu gering sein, um regelmäßige
Zustandsänderungen in der Kette zu erhalten. Sie sollte allerdings auch nicht zu hoch sein,
d.h. die Varianz der Vorschlagsverteilung sollte nicht zu niedrig sein, damit der Träger von π
ausreichend gut exploriert wird.
Algorithmus 11 : Univariater Metropolis-Hastings-Algorithmus
Setze Startwert X0 .
Für i = 1, . . . , n:
1. Ziehe Xi aus q(·|xi−1 ).
2. Ziehe U ∼ U (0, 1); akzeptiere, wenn
U ≤ α(xi−1 , xi ),
ansonsten setze xi ← xi−1 .
Multivariater Metropolis-Hastings
Die Verallgemeinerung auf den multivariaten Fall ist im Prinzip einfach, zum Beispiel mit
q(xi |xi−1 ) = MVN(xi−1 , Σ).
Ein Problem stellt hier die Wahl der Tuning-Matrix” Σ dar, die die Akzeptanzwahrschein”
lichkeit steuert. Meist ist Σ = diag(σ12 , . . . , σp2 ); man startet mehrere Läufe und berechnet die
Akzeptanzrate. Die Varianzen der Vorschlagsdichte werden dann solange variiert, bis ange”
messene” Akzeptanzraten erreicht werden.
Im Fall bayesianischer GLMs existiert eine Variante, die automatisch brauchbare Vorschlagsdichten berechnet, wie im folgenden Abschnitt beschrieben wird.
114
4.7.2
Metropolis-Hastings mit IWLS-Vorschlagsdichte
Aus der Vorlesung Generalisierte Regression ist das Fisher-Scoring bekannt:
Beispiel 4.5 (Fisher-Scoring beim Logit-Modell). Die Scorefunktion im Logit-Modell (bei
kanonischer Linkfunktion) hat die Form
s(β) = X > (y − µ(β)).
Die Fisher-Information ist
F (β) = X > diag µi (β)(1 − µi (β)) X.
Bezeichnet βb den ML-Schätzer, so ist
h
i−1
b = X > diag µi (β)(1
b − µi (β))
b X
Cov(β)
.
Der Fisher-Scoring Algorithmus hat dann die Form
βb(k+1) = βb(k) + F −1 (βb(k) )s(βb(k) )
h
i−1
= βb(k) + X > diag µi (βb(k) )(1 − µi (βb(k) )) X
X > (y − µ(βb(k) )).
Allgemein lässt sich das Fisher-Scoring wie folgt umschreiben: Definiere Pseudo-Beobachtungen
ye = (e
y1 (β), . . . , yen (β))> , wobei
−1
yei (β) = x>
i β + Di (yi − µi )
mit
∂h(x>
∂h(ηi )
i β)
=
>
∂ηi
∂xi β
Im Spezialfall des Logit-Modells ist
Di (β) =
und ηi = xTi β.
Di (β) = µi (1 − µi ) = µi (β)(1 − µi (β)).
Fasse diese Einträge zu D = diag(D1 , . . . , Dn ) zusammen. Definiere weiter
wi (β) = Di2 (β)[Var(yi )]−1 und W = diag(w1 (β), . . . , wn (β)).
Im Logit-Modell:
[µi (1 − µi )]2
= µi (1 − µi ).
µi (1 − µi )
Dann lässt sich das Fisher-Scoring als iterierte kleinste Quadrate-Schätzung (IWLS, iteratively
(re)-weighted least squares) schreiben:
wi (β) =
β̂ (k+1) = (X > W (k) X)−1 X > W (k) ye(k) .
Aus der Analogie von kleinster Quadrate- und Maximum-Likelihood-Schätzung im Normalverteilungsfall lässt sich dies interpretieren als
ye(k) ∼ MVN Xβ, (W −1 )(k) .
Bayesianische Version: Kombiniere das Ganze mit der Prioriverteilung β ∼ MVN(β0 , B0 ).
Iteriere dazu:
115
1. Aktueller Zustand sei β (t) ; berechne
ye(t) = X > β (t) + D −1 (β (t) )(y − µ(β)(t) ).
2. Ziehe β ∗ ∼ MVN(β (t+1) , C (t+1) ) mit
β (t+1) = (B0−1 + X > W (β (t) )X)−1 · [B0−1 β0 + X > W (β (t) )e
y (β (t) )],
C (t+1) = (B0−1 + X > W (β (t) )X)−1 .
3. Akzeptiere β ∗ mit Wahrscheinlichkeit
f (β ∗ |X)
q(β (t) |β ∗ )
α(β (t) , β ∗ ) = min 1,
×
f (β (t) |X) q(β ∗ |β (t) )
!
,
wobei q(β (t) |β ∗ ) dem Wert der Dichte von
MVN B0−1 + X > W (β ∗ )X
−1
!
−1
y (β ∗ ) , B0−1 + X > W (β ∗ )X
B0−1 β0 + X > W (β ∗ )e
an der Stelle β (t) entspricht und analog q(β ∗ |β (t) ) dem Wert der Dichte von
MVN
B0−1 +X > W (β (t) )X
−1
!
−1
−1
>
(t)
, B0 +X W (β )X
y (β (t) )
B0−1 β0 +X > W (β (t) )e
an der Stelle β ∗ .
4.8
Bayesianische generalisierte lineare gemischte Modelle
Der Prädiktor des GLM aus dem vorherigen Abschnitt wird hier erweitert. Im Folgenden
konzentrieren wir uns auf Cluster- und Longitudinaldaten. Bei letzteren lassen sich die Daten
für ein Individuum i wie folgt strukturieren:
Response
yi1
..
.
xi11
Kovariablen
...
xip1
Zeitpunkt der Beobachtung
ti1
..
.
yiTi
xi1Ti
...
xipTi
tiTi
Dabei sind yi1 , . . . , yiTi korreliert, Ti kann variieren und die Beobachtungszeitpunkte können
von Individuum zu Individuum variieren. Die Beobachtungszeitpunkte sollten jedoch nicht
informativ für den Response sein. Die folgende Abbildung zeigt schematisch eine solche Datensituation, wie sie zum Beispiel bei einer kontrollierten Studie auftauchen könnte.
116
Diese Art der Daten stellt nicht nur wegen der Abhängigkeit der Beobachtungen eine Herausforderung dar. Häufig sind hier zum Beispiel Drop-Outs und damit fehlende Werte. Oft
treten Longitudinaldaten zudem in Kombination mit Survival-Daten auf, zum Beispiel kann
yiti , . . . , yiTi der (mit Messfehlern behaftete) Verlauf eines Biomarkers sein. Die Frage ist dann,
ob der Biomarkerverlauf prognostisch für die Überlebenszeit ist. Dies führt zu sogenannten
joint models (siehe Modelle für Longitudinal- und Überlebenszeitdaten). GLMMs können mit
diesem Datentyp gut umgehen, wenn man die sogenannte bedingte Unabhängigkeitsannah”
me” akzeptiert:
1. Erweitere den Prädiktor zu
>
ηit = x>
β + zit
it |{z}
feste Effekte
αi
|{z}
zufällige Effekte
in der Annahme, dass
αi ∼ MVN(0, Σ).
>
1×q kann Kovariablen
Dabei ist x>
it = (xi1 , . . . , xipt ) der Kovariablenvektor, und zit ∈ R
aus xit enthalten und zum Beispiel die Zeit t selbst.
Beispiel 4.6 (Random Intercept Modell). Sei
ηiti = β0 + β1 ti + αi , αi ∼ N (0, σα2 ),
dann haben wir für ein Individuum

 
ηiti1
 ..  
 . =
ηitTi
i:


t i1

..  β0
+
.  β
1
1 tiTi
1
..
.
117

1
..  α .
.  i
1
|=
2. Wir treffen die bedingte Unabhängigkeitsannahme
yit
yit0 αi , β
für alle t 6= t0 . Diese erlaubt die Darstellung der gemeinsamen Verteilung von (yi1 , . . . , yiTi )
als Produkt der bedingten Verteilungen
f (yi1 , . . . , yiTi ) =
Ti
Y
f (yit |αi ).
t=1
Ohne diese bedingte Unabhängigkeitsannahme verlieren GLMMs deutlich an Attraktivität.
Das volle Setup bei n Individuen sieht wie folgt aus:



yi1
xi11
 .. 
 ..
yi =  .  , Xi =  .
yiTi
xi1Ti
...
xip1
. . . xipTi


zi11

 ..
 , Zi =  .
zi1Ti
...
ziq1
. . . ziqTi



α1

 . 
 , α =  .. 
αn
und
ηi = Xi β + Zi αi .
Zusammenfassend in Matrixnotation ergibt sich:





y1
X1

 ..   ..  
 .  =  .  β+

yn
Xn
Z1
0
..
.
0
Z2
..
.
···
···
..
.
0
0
..
.
0
···
0
Zn








X1
α1

..  = 
 X2
.   .
 ..
αn
Xn
Z1 · · ·
0
..
.
0
···
..
.
···
Die bayesianische Herangehensweise ist hier im Prinzip wie im GLM mit
β ∼ MVN(β0 , B0 )
und α ∼ MVN(0, diag(Σ, . . . , Σ))
{z
}
|
(n·q)×(n·q)
118

0
.. 
. 


0 
Zn
β
α1
..
.
αn



.

bzw.

β
α


∼ MVN 

β0
0
..
.






 , diag(B0 , Σ, . . . , Σ) .
|
{z
}


0
(p+nq)×(p+nq)
Dabei bezeichnen diag(Σ, . . . , Σ) bzw. diag(B0 , Σ, . . . , Σ) Blockdiagonalmatrizen.
Bemerkung.
(i) Bei komplexeren Situationen, zum Beispiel bei nicht unabhängigen Individuen, kann
diag(B0 , Σ, . . . , Σ) durch eine nicht-blockweise Matrix ersetzt werden.
(ii) GLMMs sind hochdimensional, wenn n groß ist. Spezielle Algorithmen zur Optimierung
sind notwendig.
Zusätzlich wird eine (Hyper-) Prioriverteilung für Σ konstruiert, weil die αi unbeobachtete,
latente Variablen sind, d.h. die αi sind zu behandeln wie die εi im linearen Modell; auch dort
haben wir für die Varianz eine Priori angenommen.
Die Priori könnte zum Beispiel Σ ∼ inv-Wishartν0 (Λ−1
0 ), also
1
−(ν0 +q+1)/2
−1
p(Σ) ∝ |Σ|
exp − tr(Σ Λ0 ) ,
2
mit resultierender Posteriori


Ti
n Y
Y
f (β, α, Σ|y, X) ∝ 
f (yitj |·) ×
i=1 j=1
1
> −1
exp − (β − β0 ) B0 (β − β0 ) ×
2
!
n
X
1
−1
|Σ|−n/2 exp −
α>
i Σ αi ×
2
i=1
1
−(ν0 +q+1)/2
−1
|Σ|
exp − tr(Σ Λ0 ) .
2
Ein möglicher Algorithmus zur Simulation der Posteriori ist dann ein blockweiser GibbsSampler.
(i) Full-Conditional für den β-Block:


Ti
n Y
Y
1
> −1


f (β|α, Σ, y, X) ∝
f (yitj |·) · exp − (β − β0 ) B0 (β − β0 )
2
i=1 j=1
lässt sich wie im bayesianischen GLM behandeln, wenn man zusätzlich einen Offset
ziT αi verwendet:
(t−1)
yei (β (t−1) |αi ) = x>
+ zi> αi + Di−1 [yi − µi (β (t−1) , αi )]
i β
119
bzw.
(t−1)
yei (β (t−1) |αi ) − zi> αi = x>
+ Di−1 [yi − µi (β (t−1) , αi )]
i β
≈
Definiert man y i (β (t−1) |αi ) = yei (β (t−1) |αi ) − zi> αi , so lässt sich der IWLS-MetropolisHastings-Algorithmus aus 4.7.2 zum Ziehen aus dieser Full-Conditional anwenden.
(ii) Full-Conditional für den αi -Block: Für i = 1, . . . , n erhält man


Ti
n Y
Y
−1
f (αi |β, Σ, y, X) ∝ 
f (yitj |·) exp −α>
i Σ αi .
i=1 j=1
Dies lässt sich wieder wie ein GLM mit Offset x>
i β interpretieren und mit dem IWLSMH-Algorithmus mit Proposal-Verteilung
(t−1) > −1
(t−1)
(t−1)
(t−1) > −1
−1
MVN [Σ−1 + zi Wi (αi
)zi ] zi Wi (αi
)[e
yi (αi
) − x>
+ zi Wi (αi
)zi ]
i β], [Σ
behandeln.
(iii) Full-Conditional für Σ:
n
−(n+ν0 +q+1)/2
f (Σ|β, α, y, X) ∝ |Σ|
X
1
αi α>
exp − tr Σ−1 Λ0 +
i
2
!!
i=1
Pn
entspricht dem Kern einer inv-Wishartν0 +n (Λ0 + i=1 αi α>
i )-Verteilung (implizite Dimension q × q); diese lässt sich direkt mit einem geeigneten Zufallszahlengenerator simulieren.
Insgesamt hat man also einen blockweisen Gibbs-Sampler mit
1 +
n
+ 1 = n+2
β
{αi }ni=1
Σ
Blöcken. Verwendet man beim Update von β und αi einen Akzeptanzmechanismus, dann
handelt es sich bei dem Gibbs-Sampler genauer gesagt um einen Metropolis-Hastings-withinGibbs-Algorithmus, da die einzelnen Blöcke jeweils mit Metropolis-Hastings erzeugt, am Ende
des Durchgangs aber die n+2 Blöcke noch einmal (mit Wahrscheinlichkeit 1) formal akzeptiert
werden.
4.9
Hierarchische Modelle
Dieser Abschnitt behandelt ein Beispiel aus Gelman, Carlin, Stern und Rubin (2003) zum
Tumorrisiko bei Ratten. Durchgeführt wurden 71 Experimente i mit jeweils ni Ratten j:
(
1, Ratte entwickelt Tumor,
yij =
0, Ratte entwickelt keinen Tumor.
P i
Also ist yi = nj=1
yij die Anzahl an Ratten in Experiment i, die einen Tumor entwickeln.
Ideen:
120
1. Experiment-spezifische Wahrscheinlichkeiten θi , i = 1, . . . , n, für Tumorentwicklung betrachten, potentiell zurückzuführen auf Heterogenität der Ratten, unterschiedliche experimentelle Bedingungen usw.
2. Alle θi stammen aus einer Population, zum Beispiel einer Beta(α, β)-Verteilung.
3. Anstatt 71 Parameter θ1 , . . . , θ71 direkt aus den Daten zu schätzen, nehmen wir eine
Verteilung für die θi an.
4. Ohne weitere Information sind θ1 , . . . , θ71 als exchangeable zu betrachten, d.h. für die
gemeinsame Priori von θ = (θ1 , . . . , θ71 ) gilt
p(θ|φ) =
71
Y
p(θi |φ),
i=1
wobei φ die Hyperparameter bezeichnet. Averaging” über φ liefert die marginale Priori
”
!
Z Y
n
p(θ) =
p(θi |φ) p(φ) dφ.
i=1
Da φ nicht bekannt ist, erhält es eine eigene (Hyper-) Prioriverteilung p(φ), im Beispiel
eine Priori für α und β.
Struktur des hierarchischen Modells:
φ = (α, β) ∼ p(α, β)
.
.
θ1
θ2
↓
↓
y1 |θ1 , n1 y2 |θ2 , n2
0/20
0/20
...
...
...
&
&
θ70
θ71
↓
↓
y70 |θ70 , n70 y71 |θ71 , n71
9/24
4/14
Hierarchisches Modell des Beispiels in der top-down Schreibweise:
tauchen in der
yij |ni , θi ∼ Binomial(ni , θi )
Likelihood auf
θi |α, β
∼ Beta(α, β)
taucht nicht in der (α, β) ∼ p(α, β)
Likelihood auf
Die Posteriori für alle Parameter lautet
f (θ, α, β|y1 , . . . , y71 )
! 71
!
71
Y
Y
Γ(α
+
β)
∝
θiyi (1 − θi )ni −yi
θα−1 (1 − θi )β−1 · p(α, β).
Γ(α)Γ(β) i
i=1
i=1
Für feste α, β ist die Posteriori von (θ1 , . . . , θ71 ) das Produkt unabhängiger Posterioris, die
jeweils einer Beta(e
αi , βei )-Verteilung folgen mit α
ei = α + yi , βei = β + (ni − yi ). Genauer:
f (θ|α, β, {yij }) =
71
Y
i=1
Γ(α + β + ni )
· θiα+yi −1 (1 − θi )β+ni −yi −1 .
Γ(α + yi )Γ(β + ni − yi )
121
Die marginale Posteriori f (θ|α, β, {yij }) von (α, β) ergibt sich über die bereits vielfach verwandte Formel
f (θ, α, β|{yij })
f (α, β|{yij }) =
.
f (θ|α, β, {yij })
Im Beispiel erhält man
71
Y
Γ(α + β) Γ(α + yi )Γ(β + ni − yi )
f (α, β|{yij }) ∝ p(α, β) ·
.
Γ(α)Γ(β)
Γ(α + β + ni )
i=1
Knackpunkt” ist die nicht-triviale Wahl der Hyperpriori p(α, β): Oft sind keine Anhalts”
punkte für die Verteilung der Hyperparameter vorhanden. Die Hyperpriori sollte in diesem
Fall möglichst wenig informativ sein, allerdings gleichzeitig so, dass die Posteriori proper ist.
Für das Beispiel schlagen Gelman, Carlin, Stern und Rubin (2003) vor, die Hyperparameter
in den (kompletten) R2 zu transformieren, zum Beispiel durch
α
(α, β) 7→ logit
, log(α + β) ,
α+β
wobei hier logit(α/(α + β)) = log(α/β). Zur Interpretation sei daran erinnert, dass
α/(α + β) dem (Priori-) Erwartungswert einer Betaverteilung entspricht und α + β sich als
Priori-Stichprobengröße auffassen lässt. Eine Gleichverteilung auf der transformierten Skala
führt jedoch zu einer uneigentlichen Posteriori. Alternativ schlagen obige Autoren folgende
Priori vor:
α
p log
, log(α + β) ∝ αβ(α + β)−5/2 .
(4.3)
β
Diese ergibt sich aus einer Gleichverteilung für eine Approximation der Priori-Standardabweichung (α + β)−1/2 , die unabhängig mit einer Gleichverteilung auf dem Priori-Erwartungswert kombiniert wird, d.h.
α
− 12
p
, (α + β)
∝ 1.
α+β
Die Simulation der Posterioriverteilung f (θ|α, β, {yij }) ist dann wie folgt:
1. Ziehe Zufallszahlen aus f (log(α/β), log(α+β)|{yij }): Dazu wird f (α, β|{yij }) gemäß Dichtetransformationssatz transformiert (unter anderem wird also p(α, β) durch die Hyperpriori (4.3) ersetzt) und dann auf einem feinen Gitter berechnet. (log(α/β), log(α + β))|{yij }
kann nun unter Verwendung des CDF-Samplers (Algorithmus 5 auf Seite 95) simuliert
werden.
2. Transformiere die in Schritt 1 gezogenen Zufallszahlen auf die ursprüngliche (α, β)-Skala
zurück.
3. Ziehe dann für i = 1, . . . , 71 θi |α, β, {yij } gemäß einer Beta(α + yi , β + n − yi )-Verteilung.
4.10
Konvergenzdiagnostik
Schwierigkeiten bei statistischer Inferenz entstehen durch iterative Simulation:
122
1. Simulierte Zufallszahlen aus der Posteriori repräsentieren die Zielverteilung eventuell unzureichend (Problem der Startwertewahl, Einfluss der Startwerte auf spätere Ziehungen).
2. MCMC: Zufallszahlen sind korreliert — die Inferenz ist ungenauer, als wenn die gleiche
Anzahl unabhängiger Zufallszahlen verwandt würde. Stichwort: effektive Sitchproben”
größe”.
Strategien:
1. Multiple Sequenzen, die stark über den Parameterraum streuen.
2. Konvergenz-Monitoring.
3. Falls das Mixing” schlecht ist (der Parameterraum wird unzureichend exploriert, vor”
wiegend Bewegung entlang weniger lokaler Maxima der Zielverteilung usw.), sollte der
Algorithmus geändert werden.
Bezüglich Punkt 2 schlagen Gelman, Carlin, Stern und Rubin (2003) für skalaren Parameter
vor:
• Generiere m parallele Sequenzen der Länge n ≥ 2 nach Entfernen der Burnin-Werte,
also
{ψij } für i = 1, . . . , n, j = 1, . . . , m.
• Berechne die Varianz zwischen den Sequenzen und innerhalb jeder Sequenz: Setze
n
ψ ·j =
1X
ψij ,
n
m
ψ ·· =
i=1
und definiere
1 X
ψ ·j
m
j=1
m
1 X
B =n·
(ψ ·j − ψ ·· )2
m−1
j=1
sowie
m
W =
1 X 2
sj
m
n
mit
s2j =
j=1
1 X
(ψij − ψ ·j )2 .
n−1
i=1
Betrachte dann folgende Schätzung für die marginale Posteriori-Varianz:
d + (ψ|y) = n − 1 W + 1 B.
Var
n
n
Die Varianz für ψ wird in der Regel überschätzt. Die Schätzung ist jedoch für
n → ∞ unverzerrt. W allein unterschätzt in der Regel die Varianz, aber
lim E[W ] = Var(ψ|y).
n→∞
123
• Führe nun ein Monitoring für die Größe
s
b=
R
d + (ψ|y)
Var
W
b groß ist, erhält man potentiell eine Verbesmit R → 1 für n → ∞ durch, d.h. wenn R
serung der Inferenz, wenn weitere Simulationen durchgeführt werden.
• Also:
b groß: Lasse Simulation weiter laufen.
(a) Wenn R
b nahe” 1: Verwende alle m · n Werte für Posteriori-Inferenz. Die optimale
(b) Wenn R
” b
b < 1.1.
Größe von R
ist wiederum ein Tuning-Parameter, zum Beispiel R
Erfolg ist allerdings nicht garantiert. Die Methode funktioniert gut bei approximativ
normaler marginaler Posteriori, ist jedoch weniger geeignet, wenn Interesse an den extremen Quantilen besteht.
• Effektive Anzahl unabhängiger Ziehungen:
neff
d + (ψ)
Var
=m·n·
.
W
Dabei sollte m nicht zu klein sein, da sonst B wiederum schlecht geschätzt wird.
Obige Methode ist im R-Paket coda (convergence diagnostics and output analysis) implementiert.
4.11
Modellwahl und Modellkritik
Modellwahl ist ein weites Feld, auch in Likelihood-basierter Inferenz. Generelle Strategien
sind schwierig zu finden, da in der Regel eine Abhängigkeit vom Kontext (Substanzwissenschaft) und Randbedingungen (zum Beispiel randomisierte Studie oder Beobachtungsstudie)
oder auch dem signal-to-noise-ratio (kontrolliertes experimentelles Umfeld oder starke Heterogenität) besteht.
Sensitivitätsanalyse:
• Einfluss der Priori auf Ergebnisse.
• Einfluss des Modells (Likelihood) auf Güte der Vorhersagen. Welche Fälle werden
schlecht durch das Modell beschrieben?
Modellwahl:
Typischerweise, zum Beispiel bei einem Regressionsmodell, erfolgt eine Auswahl der Kovariablen; nested versus non-nested” Situation.
”
124
Ein populärer Vorschlag zur Modellwahl ist das DIC (Deviance Information Criterion). Wie
das AIC und BIC ist das DIC eine asymptotische Approximation und nur anwendbar, falls
die Posteriori approximativ multivariat normal ist.
Allgemein ist die Devianz für Daten y und Parameter(-vektor) θ definiert als
D(y, θ) = −2 log f (y|θ) + C(y).
Beurteilt man Modelle nach der Devianz, so ist ein Modell umso besser, je kleiner diese ist.
Das DIC kann aus den generierten Samples der MCMC-Simulation berechnet werden. Sei
θ1 , . . . , θL eine generierte Sequenz. Die erwartete Devianz bezüglich der Posterioriverteilung
von θ ist
E[D(y, θ)|y]
und wird durch
L
D=
1X
D(y, θl )
L
l=1
geschätzt. Dies ist ein Maß dafür, wie gut das Modell an die Daten angepasst ist (je kleiner,
umso besser).
Die effektive Anzahl der Parameter in einem bayesianischen Modell ist
pD = D − D(θ),
wobei zum Beispiel
L
θ=
1X l
θ
L
l=1
die Schätzung des Posteriori-Mittelwerts von θ und D(θ) die Devianz, ausgewertet an θ, ist.
Für ein lineares Modell mit Normalverteilungsannahme entspricht pD der Anzahl unrestringierter Parameter im Modell. Das DIC ist dann definiert als
DIC = 2D − D(θ) = D + pD .
Hinweis:
D
prediction
= E[D(y rep , θ)]
" n
#
1 X rep
rep
= E
(yi − E[yi |y])2 ,
n
i=1
wobei der Erwartungswert bezüglich der a posteriori prädiktiven Verteilung zu verstehen ist.
prediction
Es ist D
≈ DIC.
125
Kapitel 5
Einführung in Bootstrap
Literatur zum Thema:
- Efron B., Tibshirani R.J.: An Introduction to the Bootstrap (1993)
- Hall P.: The Bootstrap and Edgeworth Expansion (1992)
- Davison A.C.: Recent Developments in Bootstrap Methodology, Statistical Science
(2003), Vol. 18, No. 2, pp. 141-157
5.1
Einführung
- Bootstrap (engl.): Stiefelriemen, Stiefelschlaufe
- Sich selbst am Schopf aus dem Sumpf ziehen” → Lügenbaron Münchhausen (mit Pferd)
”
- Computergestützte Methode
- Beruht auf wiederholtem Ziehen (Resampling) aus den beobachteten Daten.
- Ziel: Schätzung von Varianz, Bias oder Verteilung einer Statistik T = T (X1 , . . . , Xn ),
Konfidenzintervalle, Tests.
- Wann? In Situationen, in denen
(a) asymptotische Aussagen fragwürdig sind (kleine Stichprobenumfänge),
(b) analytische Berechnungen sehr kompliziert oder unmöglich sind, zum Beispiel wenn
keine parametrischen Verteilungsannahmen gemacht werden sollen. → Bootstrap
für nichtparametrische Schätzungen.
- Funktioniert Bootstrap” immer? Nein, nicht immer (Bootstrap kann inkonsistent sein),
”
aber oft.
126
5.1.1
Grundidee
i.i.d.
Einstichproben-Problem: X = (X1 , . . . , Xn ), Xi ∼
F , F unbekannt
Interessierende Statistik: T (X)
Beobachtete Daten: x = (x1 , x2 , . . . , xn ) → T (x)
Bootstrap-Stichprobe: Ziehe n mal mit Zurücklegen zufällig aus (x1 , . . . , xn ). Wir erhalten
x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ ).
Beispiel: x = (1, 2, 5), n = 3. x∗ = (1, 1, 5) ist eine mögliche Bootstrap-Stichprobe.
Also:
(1) Werte aus der ursprünglichen Stichprobe x können in der Bootstrap-Stichprobe
(i) einmal vorkommen,
(ii) mehrfach vorkommen,
(iii) gar nicht vorkommen.
127
(2) Die Bootstrap-Stichprobe hat ebenfalls Stichprobenumfang n.
Skizze:
x = (x1 , . . . , xn ) Daten
@
@
...
@
@
@
@
x∗1
x∗2
x∗B
T (x∗1 )
T (x∗2 )
T (x∗B )
...
B: Anzahl von Bootstrap-Stichproben
Mit den berechneten Statistiken T (x∗1 ), . . . , T (x∗B ) lassen sich Aussagen über die Verteilung
von T gewinnen, zum Beispiel
(
)
B h
i2
X
1
d Boot (T ) =
VarF (T ) ≈ Var
T (x∗b ) − T̄Boot
B−1
b=1
mit
T̄Boot =
B
1 X
T (x∗b ).
B
b=1
5.1.2
Empirische Verteilungsfunktion und das Plug-In-Prinzip
i.i.d.
X = (X1 , . . . , Xn ), Xi ∼
F , F unbekannt
x = (x1 , x2 , . . . , xn ) Daten
Empirische Verteilungsfunktion:
n
F̂n (x) =
1X
I(xi ≤ x),
n
i=1
wobei I die Indikatorfunktion ist.
Plug-In-Prinzip: F durch Fˆn ersetzen.
128
Beispiel 5.1.
Z
T (F ) = µ = xdF (x)
Z
T (F̂n ) =
xdF̂n (x)
=
n
X
xi P̂n (X = xi )
(o.w.E. seien alle xi verschieden)
i=1
n
=
1X
xi = x̄
n
i=1
Plug-In-Prinzip hat Sinn, wenn keine weiteren Informationen über F vorhanden sind außer
der Stichprobe.
→ nichtparametrisches Setup”
”
5.1.3
Reale Welt und Bootstrap-Welt
Wiederum Einstichproben-Fall:
$'
'
$
Reale Welt
Bootstrap Welt
F → x = (x1 , . . . , xn )
F̂n → x∗ = (x∗1 , . . . , x∗n )
-
?
?
θ̂∗ = T (x∗ )
θ̂ = T (x)
&
%&
%
• Die unbekannte Verteilung F liefert x als Zufallsstichprobe.
• Die empirische Verteilung F̂n liefert x∗ als zufällige Bootstrap-Stichprobe.
• Die interessierende Statistik θ̂ = T (x) ist Funktion der Zufallsstichprobe.
• Die Bootstrap-Replikation θ̂∗ = T (x∗ ) ist Funktion der Bootstrap-Stichprobe.
⇒ Im Allgemeinen kann F bzw. F̂n in obiger Abbildung durch ein geschätztes Wahrscheinlichkeitsmodell P bzw. P̂n ersetzt werden.
129
5.1.4
Die ideale Bootstrap-Verteilung
Daten x = (x1 , x2 , . . . , xn ).
Frage: Wie viele verschiedene Bootstrap-Stichproben gibt es?
Beispiel 5.2. Sei x = (1, 2, 5). Die Anordnung spielt hier keine Rolle. Wegen n = 3 gibt es
10 verschiedene Bootstap-Stichproben (wenn alle xi verschieden sind):
(1, 1, 1), (2, 2, 2), (5, 5, 5), (1, 1, 2), (1, 1, 5), (2, 2, 5), (1, 2, 2), (1, 5, 5), (2, 5, 5), (1, 2, 5).
Die ideale Bootstrap-Schätzung ist die, welche sich durch Berücksichtigung aller möglichen
Bootstrap-Stichproben ergibt. Die ideale Bootstrap-Schätzung zum Beispiel für die Varianz
von θ̂ = median(X) in Beispiel 5.2 wäre dabei die Varianz über die 10 Bootstrap-Stichproben.
Dabei ist allerdings zu berücksichtigen, dass die Stichproben mit unterschiedlicher Wahrscheinlichkeit gezogen werden.
Beispiel 5.3 (Fortsetzung von Beispiel 5.2). Mit Hilfe der Multinomialverteilung erhält man
3 0 0 3 1
1
1
1
1
=
=
,
3
3
3
3
27
0 1 2
3 3!
1
1
1
1
1
=
·
=3·
=
,
0!1!2!
3
3
3
3
9
3 3!
1
1
1
1
2
=
·
=6·
=
,
1!1!1!
3
3
3
3
9
P x∗ = (1, 1, 1) =
P x∗ = (2, 5, 5)
P x∗ = (1, 2, 5)
3!
·
3!0!0!
denn zum Beispiel (2, 5, 5) =
ˆ (5, 2, 5) =
ˆ (5, 5, 2) =(1,
ˆ 2, 5) =
ˆ ... =
ˆ (5, 2, 1).
Betrachte θ̂ = median(X). Dann ist θ̂(x) = 2 die Schätzung aus der Stichprobe und
3
1 (1 − c)2 + (2 − c)2 + (5 − c)2
VarF̂n (θ̂ ) =
3
∗
+ 3 · [(1 − c)2 + (1 − c)2 + (2 − c)2 + (2 − c)2 + (5 − c)2 + (5 − c)2 ]
+ 6 · (2 − c)2
= 2.32,
wobei
3
1
[1 + 2 + 5 + 3 · (1 + 1 + 2 + 2 + 5 + 5) + 6 · 2]
3
3
3
1
1
68
=
[8 + 3 · 16 + 12] =
· 68 =
≈ 2.5
3
3
27
¯
c = θ̂∗ =
der Mittelwert aller geschätzten Mediane ist.
130
Allgemein gibt es, sofern alle n Datenpunkte x1 , . . . , xn verschieden sind,
Bootstrap-Stichproben.
5
n=3:
= 10
3
29
n = 15 :
= 77 558 760
15
39
n = 20 :
= 68 923 264 410
20
2n−1
n
mögliche
Das heißt, wenn n nicht sehr klein ist, dann ist es praktisch nicht möglich, die ideale Bootstrap
Verteilung zu verwenden. Stattdessen begnügt man sich mit einer Anzahl B 2n−1
von
n
Bootstrap-Stichproben.
5.2
Bootstrap–Schätzung eines Standardfehlers
i.i.d.
Einstichproben-Fall: X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt
Daten: x = (x1 , . . . , xn )
Ziel dieses Abschnitts ist die Schätzung des Standardfehlers eines Schätzers θ̂ = θ̂(X) für
θ = T (F ). Hierbei kann θ̂(X) die Plug-In-Schätzung T (F̂n ) sein, muss aber nicht.
Frage: Wie gut ist die Schätzung θ̂?
5.2.1
Bootstrap-Algorithmus zur Schätzung des Standardfehlers
Algorithmus 12 : Bootstrap-Algorithmus zur Schätzung des Standardfehlers
1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne θ̂∗ (b), b = 1, . . . , B.
q
3. Schätze den Standardfehler seF (θ̂) = VarF (θ̂) durch
(
se
bB =
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
) 12
b=1
mit θ̂∗ (·) =
B
1 X ∗
θ̂ (b).
B
b=1
Die Bootstrap-Schätzung für den Standardfehler seF (θ̂) einer Schätzung θ̂ (Daten aus F )
ist also der Standardfehler für zufällige Stichproben vom Umfang n gezogen aus F̂n mit
Zurücklegen.
Es gilt:
lim se
b B = seF̂n (θ̂∗ ).
B→∞
131
Die ideale Bootstrap-Schätzung seF̂n (θ̂∗ ) und die Approximation se
b B werden oft als nichtparametrische Bootstrap-Schätzung bezeichnet, da sie nur auf F̂n beruhen und F̂n die nichtparametrische Schätzung für F ist.
→ Abschnitt 5.2.3: Parametrischer Bootstrap (F wird nicht mehr durch F̂n geschätzt).
Beispiel 5.4. Zwei (quasi-) stetige Merkmale Y und Z werden an n Individuen erhoben, d.h.
X = ((Y1 , Z1 ), (Y1 , Z1 ), . . . , (Yn , Zn )) ,
i.i.d.
(Yi , Zi ) ∼ FY,Z .
Gesucht: Schätzung für den Standardfehler des Korrelationskoeffizienten von Y und Z.
5.2.2
Anzahl der Replikationen
Die Anzahl der Replikationen B wird durch folgende Überlegungen bestimmt:
(i) Praktische Überlegungen: Wenn θ̂(x∗ ) eine komplizierte Funktion von x∗ ist, dann
wird B kleiner sein müssen als wenn θ̂(x∗ ) eine einfache Funktion von x∗ ist.
(ii) Genauigkeitsüberlegungen: Es gilt
Var(se
b B ) > Var seF̂n (θ̂∗ ) .
| {z }
ideale Bootstrap-Schätzung
Die Frage ist, um wieviel die Varianz von se
b B größer ist.
Aus theoretischen Überlegungen ergibt sich, dass B = 200 im Einstichproben-Problem in der
Regel ausreichend ist zur Schätzung eines Standardfehlers. Für Konfidenzintervalle werden
deutlich mehr Replikationen benötigt (B ≈ 2000).
5.2.3
Parametrischer Bootstrap
Definition 5.1. Die parametrische Bootstrap-Schätzung des Standardfehlers ist definiert
durch
seF̂n,par (θ̂∗ ) ,
wobei F̂n,par eine Schätzung von F, abgeleitet aus einem parametrischen Modell, ist.
Beispiel 5.5. Sei X = ((Y1 , Z1 )0 , ..., (Yn , Zn )0 ) mit
Yi
i.i.d.
∼ FY,Z .
Zi
Annahme: FY,Z sei eine bivariate Normalverteilung und
ȳ
µ̂ =
,
z̄
Pn
Pn
1
(yi − ȳ)2
(yi − ȳ)(zi − z̄)
i=1
i=1
P
P
Σ̂ =
.
n
n
2
n
i=1 (yi − ȳ)(zi − z̄)
i=1 (zi − z̄)
132
Das heißt, wir verwenden jetzt F̂n,par = N2 (µ̂, Σ̂) als Schätzung für F , und statt BootstrapStichproben aus den Daten zu ziehen, ziehen wir Bootstrap-Stichproben aus dieser bivariaten
Normalverteilung:
x∗1
x∗B
= ((Y1∗1 , Z1∗1 )0 , . . . , (Yn∗1 , Zn∗1 )0 )
..
.
=
((Y1∗B , Z1∗B )0 , . . . , (Yn∗B , Zn∗B )0 )



∼ N2 (µ̂, Σ̂).


Danach geht es weiter wie gewohnt!
Beispiel 5.6 (Standardfehler für die Schätzung des Korrelationskoeffizienten θ).
(i) Vergleich mit der Formel für die bivariate Normalverteilung:
1 − θ̂2
.
se
b N2 (µ,Σ) (θ̂) = √
n−3
(ii) Vergleich nach Fisher-Transformation:
!
"
2 #
1
+
θ̂
1
1
+
θ
1
1
approx.
∼ N
log
, √
.
ξˆ = log
2
2
1−θ
n−3
1 − θ̂
Um dieses Resultat auszunutzen, könnte Inferenz für ξˆ betrieben und anschließend durch
Rücktransformation auf den wahren Korrelationskoeffizienten θ übertragen werden.
5.2.4
Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt
i.i.d.
Betrachte X = (X1 , . . . , Xn ) mit Xi ∼ Unif(0, θ). Bekannt sei das Maximum θ̂ML = X(n) .
n
Die Wahrscheinlichkeit, dass X(n) nicht in der Bootstrap-Stichprobe auftritt, ist 1 − n1 .
Die Wahrscheinlichkeit, dass X(n) in der Bootstrap-Stichprobe vorkommt, ist also
1 n
1− 1−
→ 1 − e−1 ≈ 0.632 für n → ∞ .
n
Das heißt P (θ̂∗ = θ̂ML ) ≈ 0.632 für n → ∞, die Verteilung von θ̂∗ legt also eine Wahrscheinlichkeitsmasse von 0.632 auf den ML-Schätzer. Dieser wird also reproduziert und es
gibt damit keinen Informationsgewinn aus diesen Stichproben!
Problem: F̂n ist keine gute Schätzung für F in den extremen Bereichen von F .
Beim parametrischen Bootstrap gilt dagegen
X ∗ = (X1∗ , . . . , Xn∗ ) mit Xi∗ ∼ Unif(0, θ̂M L )
und deshalb
P(θ̂∗ = θ̂M L ) = 0 .
Also: Nichtparametrischer Bootstrap kann schiefgehen!
133
5.2.5
Zweistichproben-Problem für unabhängige Stichproben
Seien
Y1 , . . . , Y n
i.i.d.
∼ F
)
unabhängig, zum Beispiel
i.i.d.
Z1 , . . . , Z m ∼ G
F : Behandlung
G : Kontrolle
und X = (Y1 , . . . , Yn , Z1 , . . . , Zm ) bzw. x = (y1 , . . . , yn , z1 , . . . , zm ).
Ziel: Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ .
|{z} |{z}
E(Yi )
E(Zi )
Betrachte
θ̂ = ȳ − z̄ .
Vorgehen bei der b-ten Bootstrap-Stichprobe:
y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n
∗b
z ∗b = (z1∗b , . . . , zm
) zufällig mit Zurücklegen aus Ĝm
Schätzung:
(
se
b F,G (θ̂) = seF̂n ,Ĝm (θ̂∗ ) ≈ se
bB =
|{z}
| {z }
|
{z
}
Real World
ideale
Schätzung in
der BootstrapWorld
θ̂∗ (b) = ȳ ∗b − z̄ ∗b =
θ̂∗ (·) =
n
m
i=1
i=1
1 X ∗b
1 X ∗b
yi −
zi
n
m
B
B
1 X ∗b
1 X ∗
(ȳ − z̄ ∗b ) =
θ̂ (b) .
B
B
b=1
5.2.6
) 12
b=1
Approx.
der idealen
BootstrapSchätzung
mit
und
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
b=1
Bootstrap für eine Zeitreihe
Betrachte die Zeitreihe y1 , y2 , . . . , yT und die zentrierte Zeitreihe z1 , z2 , . . . , zT mit zt = yt − ȳ
für t = 1, . . . , T .
Annahmen: Es handelt sich um einen AR(1)-Prozess
zt = βzt−1 + εt
(t = 2, . . . , T )
i.i.d.
mit Anfangsbedingung z1 , |β| < 1 und εt ∼ F für t = 2, . . . , T , F unbekannt und E(εt ) = 0.
Die KQ-Schätzung für β lautet:
T
X
(zt − βzt−1 )2 → min → β̂.
β
t=2
134
(Da hier keine Verteilungsannahme getroffen wurde, ist ML-Schätzung nicht möglich.)
Gesucht: Schätzung für seF,β (β̂).
Idee: Berechne Residuen
ε̂2
ε̂T
= z2 − β̂z1 ,
..
.



= zT − β̂zT −1 .


T − 1 Residuen
Bezeichne mit F̂T −1 die empirische Verteilungsfunktion der ε̂2 , . . . , ε̂T . Dann erhält man die
b-te Bootstrap-Stichprobe wie folgt:
∗b
(i) Ziehe ε∗b
2 , . . . , εT zufällig mit Zurücklegen aus F̂T −1 .
(ii) Berechne rekursiv
z1 = y1 − ȳ
z2∗b = β̂z1 + ε∗b
2
z3∗b = β̂z2∗b + ε∗b
3
..
.
zT∗b = β̂zT∗b−1 + ε∗b
T .
(iii) Ermittle β̂ ∗b mittels KQ aus z2∗b , . . . , zT∗b .
Damit:
(
se
b F,β (β̂) = seF̂T −1 ,β̂ (β̂ ∗ ) ≈ se
b B (β̂ ∗ ) =
mit
β̂ ∗ (·) =
1
B−1
B h
X
β̂ ∗b − β̂ ∗ (·)
i2
b=1
B
1 X ∗b
β̂ .
B
b=1
Andere Idee: Moving Block Bootstrap” (vgl. Efron und Tibshirani, 1993).
”
5.3
5.3.1
Bootstrap-Konfidenzintervalle
Einleitung
Übliches 90%-Konfidenzintervall:
θ̂ ± 1.645 · se.
b
Übliches 95%-Konfidenzintervall:
θ̂ ± 1.96 · se.
b
135
) 12
Dabei kann se
b auch Bootstrap-Schätzung sein. Die Begründung dafür ist meist:
θ̂ − θ approx.
∼ N (0, 1) (asymptotische Aussage) .
se
b
Die asymptotische Verteilung ist (approximativ) unabhängig von θ; Z wird approximatives
Pivot genannt.
Z=
Wenn n klein ist, können die Quantile der Normalverteilung durch die Quantile der
t-Verteilung ersetzt werden:
(1−α/2)
θ̂ ± tn−1
Idee:
· se
b .
Annahme der Normalverteilung vermeiden, Verteilung von Z aus den Daten schätzen.
Dies wird in den folgenden Abschnitten beschrieben.
5.3.2
Bootstrap-t-Intervall
Betrachte
Z=
θ̂ − θ
,
se
b
(5.1)
wobei se
b zunächst irgendeine vernünftige” Schätzung des Standardfehlers von θ̂ darstellt.
”
Idee: Schätze Verteilung von Z wie folgt:
1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne
Z ∗ (b) =
θ̂∗ (b) − θ̂
,
se
b ∗ (b)
wobei se
b ∗ (b) eine Schätzung des Standardfehlers von θ̂∗ (b) ist. Ordne die Z ∗ (b) aufsteigend der Größe nach.
3. Schätze die Quantile t̂(α) und t̂(1−α) (für ein (1 − 2α)-Konfidenzintervall) als
# Z ∗ (b) ≤ t̂(α)
=α.
B
Dabei bezeichnet #A die Kardinalität einer Menge A.
Beispiel:
Für B = 1000 ist t̂(0.05) der 50. Wert der geordneten Z ∗ (b)-Werte, t̂(0.95) ist
der 950. Wert der geordneten Z ∗ (b)-Werte.
4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann
h
i
θ̂ − t̂(1−α) · se,
b θ̂ − t̂(α) · se
b
mit se
b aus Formel (5.1).
Analogie zur t-Verteilung:
h
i
θ̂ − t1−α · se,
b θ̂ + t1−α · se
b
136
(t1−α = −tα ) .
Beachte:
Wenn Bα nicht ganzzahlig ist und α ≤ 21 , dann wähle k = b(B + 1)αc, das
ist die größte ganze Zahl ≤ (B + 1)α. Die empirischen Quantile sind dann
der k-te Wert der geordneten Z ∗ (b)-Werte und der (B + 1 − k)-te Wert.
Probleme:
1. Das Bootstrap-t-Intervall kann stark durch Ausreißer beeinflusst werden.
2. Betrachte nochmals
Z ∗ (b) =
θ̂∗ (b) − θ̂
.
se
b ∗ (b)
Wie kann man se
b ∗ (b) schätzen?
(i) Wenn θ̂ der Mittelwert ist:
1
se
b (b) =
n
∗
( n
X
)1
2
(x∗b
i
∗b 2
− x̄ )
(Plug-In-Schätzung).
i=1
(ii) Wenn θ̂ komplizierter bzw. keine Standardformel verfügbar ist:
→ Nested Bootstrap:
Es ist eine Bootstrap-Schätzung des Standardfehlers für
jede Bootstrap-Stichprobe notwendig, zum Beispiel sind für
B = 1000 und B ∗ = 50
BB ∗ = 1000 · 50 = 50 000
Stichproben notwendig. Wir samplen also auf zwei verschachtelten Ebenen:
Real World → Bootstrap-World → Nested Bootstrap-World.
Vorteil: Dieser Vorgang ist parallelisierbar (im Gegensatz
zu MCMC, wo die Kette nicht parallelisierbar ist).
137
3. Das Bootstrap-t-Intervall wird von der Skala des Parameters beeinflusst, es ist nicht
invariant gegenüber Transformationen. Bei kleinen Stichproben in nichtparametrischem
Setup kann irreguläres Verhalten auftreten; hier kann jedoch eine Transformation der
Parameter zuverlässigere Ergebnisse liefern.
Beispiel 5.7 (Transformation des Korrelationskoeffizienten). Sei θ der Korrelationskoeffizient. Ein Konfidenzintervall für θ können wir auf die folgenden zwei Weisen erhalten:
(i) Bootstrap-t-Intervall für θ direkt.
(ii) Bootstrap-t-Intervall für
1
φ = log
2
1+θ
1−θ
(Fishersche Z-Transformation)
und dann Rücktransformation der Endpunkte mittels der Umkehrung
θ=
e2φ − 1
e2φ + 1
liefert ein kürzeres (= besseres) Konfidenzintervall als das Intervall in (i).
Ergebnis:
1.
2.
5.3.3
Idee:
Bootstrap-t nur für einfache Probleme verwenden, wenn θ ein Lokalisationsparameter, zum Beispiel Median, trimmed mean oder Quantil ist.
In komplexen Fällen ist eine Varianzstabilisierung notwendig.
Bootstrap-Perzentil-Intervall
Verwende direkt die empirische Verteilung der Schätzer θ̂∗ aus den B BootstrapStichproben.
Also:
1. Ziehe
x∗1 , . . . , x∗B B Bootstrap-Replikationen
↓
↓
∗
∗
θ̂ (1), . . . , θ̂ (B) mit θ̂∗ (b) = T (x∗b ).
∗ , . . . , θ̂ ∗ .
2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1)
(B)
3. Berechne Bα und B(1 − α) (bzw. bei nicht-ganzzahliger Anzahl eine Modifikation wie
∗(α)
∗(1−α)
in Abschnitt 5.3.2) und bezeichne mit θ̂B bzw. θ̂B
die Werte an den jeweiligen
Positionen in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist
i
h
i h
∗(α) ∗(1−α)
θ̂lower , θ̂upper = θ̂B , θ̂B
ein approximatives (1 − 2α)-Konfidenzintervall.
Beispiel: Für B = 2000 und α = 0.05 wähle den 100. und 1900. Wert aus der geordneten
Liste.
Alternative Schreibweise: Bezeichne mit ĜB die empirische Verteilung der θ̂∗ . Dann ist
h
i h
i
θ̂lower , θ̂upper = Ĝ−1 (α), Ĝ−1 (1 − α) .
138
Vorteile der Perzentil-Methode:
(i) Sie ist invariant gegenüber (streng monotonen) Transformationen.
(ii) Sie ist range-preserving, d.h. das Perzentil-Intervall liegt im zulässigen Bereich des Parameters.
Beispiel: Für den Korrelationskoeffizienten liegt das Intervall der Perzentil-Methode im
Bereich [−1, 1].
Problem: In der Regel Unterdeckung, d.h. die Intervalle sind häufig zu optimistisch.
Lemma 5.2 (Perzentil-Intervall-Lemma). Seien φ = m(θ) und φ̂ = m(θ̂) eineindeutige
Transformationen. Angenommen, φ̂ = m(θ̂) normalisiere die Verteilung von θ̂ perfekt, d.h.
φ̂
exakt,
nicht nur
approx.
∼
N (φ, c2 )
für eine Standardabweichung c.
Dann ist das Perzentil-Intervall basierend auf θ̂ gleich
h
i
m−1 (φ̂ − z (1−α) · c), m−1 (φ̂ − z (α) · c)
mit den Quantilen z (α) , z (1−α) der Standardnormalverteilung.
Das Lemma besagt, dass die Perzentil-Methode immer die korrekte Transformation wählt.
Diskussion:
•
Die Perzentil-Methode ist sehr einfach.
•
Die Perzentil-Methode ist nicht der Weisheit letzter Schluss. Wenn θ̂ ein
Schätzer mit Bias ist, gibt es Alternativen.
139
Kapitel 6
Einführung in Non- und
Semiparametrische Inferenz
Siehe Kapitel 7 aus dem Skript zu Schätzen und Testen II im Sommersemester 2008 oder 2009
(insbesondere Abschnitte 7.1, 7.3, 7.4) und den Habilitationsvortrag von Thomas Kneib.
140
Herunterladen