Schätzen und Testen II

Werbung
Schätzen und Testen II
Sommersemester 2010
Skript zur Vorlesung von
Christian Heumann
Volker Schmid
bearbeitet von
Ludwig Fahrmeir
Christiane Dargatz
LATEX von
Andreas Bayerstadler
Irina Cebotari
Veronika Fensterer
Martina Weber
18. Juni 2010
Verbesserungen und Anregungen ausdrücklich erwünscht
an [email protected]!
Inhaltsverzeichnis
5 Bootstrap
5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Empirische Verteilungsfunktion und das Plug-In-Prinzip . . . . . . .
5.1.3 Reale Welt und Bootstrap-Welt . . . . . . . . . . . . . . . . . . . . .
5.1.4 Die ideale Bootstrap-Verteilung . . . . . . . . . . . . . . . . . . . . .
5.2 Bootstrap–Schätzung eines Standardfehlers . . . . . . . . . . . . . . . . . .
5.2.1 Bootstrap-Algorithmus zur Schätzung des Standardfehlers . . . . . .
5.2.2 Anzahl der Replikationen . . . . . . . . . . . . . . . . . . . . . . . .
5.2.3 Parametrischer Bootstrap . . . . . . . . . . . . . . . . . . . . . . . .
5.2.4 Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt
5.2.5 Zweistichproben-Problem für unabhängige Stichproben . . . . . . . .
5.2.6 Bootstrap für eine Zeitreihe . . . . . . . . . . . . . . . . . . . . . . .
5.3 Bootstrap in Regressionsmodellen . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Bootstrap im linearen Modell . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Bootstrap im generalisierten linearen Modell . . . . . . . . . . . . .
5.3.3 Weitere Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Bias-Schätzung mittels Bootstrap . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Bias-Korrektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.2 Bootstrap-t-Intervall . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.3 Bootstrap-Perzentil-Intervall . . . . . . . . . . . . . . . . . . . . . .
5.5.4 Bootstrap-BCa -Intervall . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.5 ABC–Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.6
Smooth–Bootstrap“ . . . . . . . . . . . . . . . . . . . . . . . . . . .
”
5.6 Kreuzvalidierung und Vorhersagefehler . . . . . . . . . . . . . . . . . . . . .
5.6.1 Bootstrap–Schätzung des Vorhersagefehlers . . . . . . . . . . . . . .
5.6.2 Der 0.632 Bootstrap–Schätzer . . . . . . . . . . . . . . . . . . . . . .
5.7 Konsistenz, Subsampling, Ziehen ohne Zurücklegen . . . . . . . . . . . . . .
5.7.1 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.2 Subsampling und Ziehen ohne Zurücklegen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
5
6
7
8
8
9
9
10
11
11
12
12
14
15
15
16
17
17
18
20
21
22
22
23
24
26
27
27
30
6 Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen
6.1 ML-Schätzung bei Fehlspezifikation . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Quasi-Likelihood und Schätzgleichungen . . . . . . . . . . . . . . . . . . . . .
31
32
36
1
6.3
6.4
6.5
M–Schätzer in der robusten Statistik . . . . . . . . . . . . . . . . . . . .
Verallgemeinerte Schätzgleichungen (Generalized Estimating Equations)
Quantilregression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.5.2 Spezialfall: Zweistichproben-Problem . . . . . . . . . . . . . . . .
6.5.3 Quantile als Lösung eines Optimierungsproblems . . . . . . . . .
6.5.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Non- und Semiparametrische Inferenz
7.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Nichtparametrische Dichteschätzung . . . . . . . . . . . .
7.2.1 Einführung . . . . . . . . . . . . . . . . . . . . . .
7.2.2 Das Histogramm . . . . . . . . . . . . . . . . . . .
7.2.3 Kerndichteschätzer . . . . . . . . . . . . . . . . . .
7.2.4 Statistische Eigenschaften des Kerndichteschätzers
7.2.5 Multivariate Kerndichteschätzer . . . . . . . . . .
7.3 Bayesianische nichtparametrische Dichteschätzung . . . .
7.3.1 Dirichlet–Verteilung . . . . . . . . . . . . . . . . .
7.3.2 Dirichlet-Prozesse . . . . . . . . . . . . . . . . . .
7.3.3 Bayesianische Dichteschätzung mit DPM-Priori . .
7.3.4 Semiparametrische GLMM . . . . . . . . . . . . .
7.4 Glättung und semiparametrische Regression . . . . . . . .
7.4.1 Glättung von Zeitreihen durch Straffunktionen . .
7.4.2 (Bayesianische) P-Splines . . . . . . . . . . . . . .
7.4.3 Verwandte Penalisierungsansätze . . . . . . . . . .
7.4.4 Andere Ansätze im Überblick . . . . . . . . . . . .
7.5 Strukturiert additive Regression . . . . . . . . . . . . . . .
7.5.1 GAM und Modelle mit variierenden Koeffizienten .
8 Modellselektion
8.1 Mallows’ Cp -Kriterium im linearen Modell .
8.2 Das Akaike Informationskriterium (AIC) . .
8.3 Das Bayessche Informationskriterium (BIC)
8.4 Boosting . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
42
43
43
46
48
51
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
53
54
54
55
57
61
74
77
78
80
86
93
94
94
100
106
111
114
114
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
124
125
127
135
136
9 Asymptotische Statistik
9.1 Asymptotische Eigenschaften von ML–Schätzern . . . . . . . . .
9.1.1 Unabhängige und identisch verteilte Beobachtungen . . .
9.1.2 Unabhängige aber nicht identisch verteilte Beobachtungen
9.2 Parametrische asymptotische Bayes–Inferenz . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
140
140
142
146
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 5
Bootstrap
Literatur zum Thema:
- Efron B., Tibshirani R.J.: An Introduction to the Bootstrap (1993)
- Hall P.: The Bootstrap and Edgeworth Expansion (1992)
- Davison A.C.: Recent Developments in Bootstrap Methodology, Statistical Science
(2003), Vol. 18, No. 2, pp. 141-157
5.1
Einführung
- Bootstrap (engl.): Stiefelriemen, Stiefelschlaufe
- Sich selbst am Schopf aus dem Sumpf ziehen” → Lügenbaron Münchhausen (mit Pferd)
”
- Computergestützte Methode
- Beruht auf wiederholtem Ziehen (Resampling) aus den beobachteten Daten.
- Ziel: Schätzung von Varianz, Bias oder Verteilung einer Statistik T = T (X1 , . . . , Xn ),
Konfidenzintervalle, Tests.
- Wann? In Situationen, in denen
(a) asymptotische Aussagen fragwürdig sind (kleine Stichprobenumfänge),
(b) analytische Berechnungen sehr kompliziert oder unmöglich sind, zum Beispiel wenn
keine parametrischen Verteilungsannahmen gemacht werden sollen. → Bootstrap
für nichtparametrische Schätzungen.
- Funktioniert Bootstrap” immer? Nein, nicht immer (Bootstrap kann inkonsistent sein),
”
aber oft.
3
5.1.1
Grundidee
i.i.d.
Einstichproben-Problem: X = (X1 , . . . , Xn ), Xi ∼
F , F unbekannt
Interessierende Statistik: T (X)
Beobachtete Daten: x = (x1 , x2 , . . . , xn ) → T (x)
Bootstrap-Stichprobe: Ziehe n mal mit Zurücklegen zufällig aus (x1 , . . . , xn ). Wir erhalten
x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ ).
Beispiel: x = (1, 2, 5), n = 3. x∗ = (1, 1, 5) ist eine mögliche Bootstrap-Stichprobe.
Also:
(1) Werte aus der ursprünglichen Stichprobe x können in der Bootstrap-Stichprobe
(i) einmal vorkommen,
(ii) mehrfach vorkommen,
(iii) gar nicht vorkommen.
4
(2) Die Bootstrap-Stichprobe hat ebenfalls Stichprobenumfang n.
Skizze:
x = (x1 , . . . , xn ) Daten
@
...
@
@
@
@
@
x∗1
x∗2
x∗B
T (x∗1 )
T (x∗2 )
T (x∗B )
...
B: Anzahl von Bootstrap-Stichproben
Mit den berechneten Statistiken T (x∗1 ), . . . , T (x∗B ) lassen sich Aussagen über die Verteilung
von T gewinnen, zum Beispiel
)
(
B h
i2
X
1
d Boot (T ) =
T (x∗b ) − T̄Boot
VarF (T ) ≈ Var
B−1
b=1
mit
T̄Boot
B
1 X
T (x∗b ).
=
B
b=1
5.1.2
Empirische Verteilungsfunktion und das Plug-In-Prinzip
i.i.d.
X = (X1 , . . . , Xn ), Xi ∼
F , F unbekannt
x = (x1 , x2 , . . . , xn ) Daten
Empirische Verteilungsfunktion:
n
1X
F̂n (x) =
I(xi ≤ x),
n
i=1
wobei I die Indikatorfunktion ist.
Plug-In-Prinzip: F durch Fˆn ersetzen.
5
Beispiel 5.1.
Z
T (F ) = µ = xdF (x)
Z
T (F̂n ) =
xdF̂n (x)
=
n
X
xi P̂n (X = xi )
(o.w.E. seien alle xi verschieden)
i=1
n
=
1X
xi = x̄
n
i=1
Plug-In-Prinzip hat Sinn, wenn keine weiteren Informationen über F vorhanden sind außer
der Stichprobe.
→ nichtparametrisches Setup”
”
5.1.3
Reale Welt und Bootstrap-Welt
Wiederum Einstichproben-Fall:
$ '
'
$
Reale Welt
Bootstrap Welt
F → x = (x1 , . . . , xn )
F̂n → x∗ = (x∗1 , . . . , x∗n )
-
?
?
θ̂∗ = T (x∗ )
θ̂ = T (x)
&
%
&
%
• Die unbekannte Verteilung F liefert x als Zufallsstichprobe.
• Die empirische Verteilung F̂n liefert x∗ als zufällige Bootstrap-Stichprobe.
• Die interessierende Statistik θ̂ = T (x) ist Funktion der Zufallsstichprobe.
• Die Bootstrap-Replikation θ̂∗ = T (x∗ ) ist Funktion der Bootstrap-Stichprobe.
⇒ Im Allgemeinen kann F bzw. F̂n in obiger Abbildung durch ein geschätztes Wahrscheinlichkeitsmodell P bzw. P̂n ersetzt werden.
6
5.1.4
Die ideale Bootstrap-Verteilung
Daten x = (x1 , x2 , . . . , xn ).
Frage: Wie viele verschiedene Bootstrap-Stichproben gibt es?
Beispiel 5.2. Sei x = (1, 2, 5). Die Anordnung spielt hier keine Rolle. Wegen n = 3 gibt es
10 verschiedene Bootstap-Stichproben (wenn alle xi verschieden sind):
(1, 1, 1), (2, 2, 2), (5, 5, 5), (1, 1, 2), (1, 1, 5), (2, 2, 5), (1, 2, 2), (1, 5, 5), (2, 5, 5), (1, 2, 5).
Die ideale Bootstrap-Schätzung ist die, welche sich durch Berücksichtigung aller möglichen
Bootstrap-Stichproben ergibt. Die ideale Bootstrap-Schätzung zum Beispiel für die Varianz
von θ̂ = median(X) in Beispiel 5.2 wäre dabei die Varianz über die 10 Bootstrap-Stichproben.
Dabei ist allerdings zu berücksichtigen, dass die Stichproben mit unterschiedlicher Wahrscheinlichkeit gezogen werden.
Beispiel 5.3 (Fortsetzung von Beispiel 5.2). Mit Hilfe der Multinomialverteilung erhält man
3 0 0 3 1
1
1
1
1
=
=
,
3
3
3
3
27
0 1 2
3 3!
1
1
1
1
1
=
·
=3·
=
,
0!1!2!
3
3
3
3
9
3 3!
1
1
1
1
2
=
·
=6·
=
,
1!1!1!
3
3
3
3
9
P x∗ = (1, 1, 1) =
P x∗ = (2, 5, 5)
P x∗ = (1, 2, 5)
3!
·
3!0!0!
denn zum Beispiel (2, 5, 5) =
ˆ (5, 2, 5) =
ˆ (5, 5, 2) =(1,
ˆ 2, 5) =
ˆ ... =
ˆ (5, 2, 1).
Betrachte θ̂ = median(X). Dann ist θ̂(x) = 2 die Schätzung aus der Stichprobe und
3
1 (1 − c)2 + (2 − c)2 + (5 − c)2
VarF̂n (θ̂ ) =
3
∗
+ 3 · [(1 − c)2 + (1 − c)2 + (2 − c)2 + (2 − c)2 + (5 − c)2 + (5 − c)2 ]
+ 6 · (2 − c)2
= 2.32,
wobei
3
1
[1 + 2 + 5 + 3 · (1 + 1 + 2 + 2 + 5 + 5) + 6 · 2]
3
3
3
1
1
68
=
[8 + 3 · 16 + 12] =
· 68 =
≈ 2.5
3
3
27
¯
c = θ̂∗ =
der Mittelwert aller geschätzten Mediane ist.
7
Allgemein gibt es, sofern alle n Datenpunkte x1 , . . . , xn verschieden sind,
Bootstrap-Stichproben.
5
n=3:
= 10
3
29
n = 15 :
= 77 558 760
15
39
n = 20 :
= 68 923 264 410
20
2n−1
n
mögliche
Das heißt, wenn n nicht sehr klein ist, dann ist es praktisch nicht möglich, die ideale Bootstrap
Verteilung zu verwenden. Stattdessen begnügt man sich mit einer Anzahl B 2n−1
von
n
Bootstrap-Stichproben.
5.2
Bootstrap–Schätzung eines Standardfehlers
i.i.d.
Einstichproben-Fall: X = (X1 , . . . , Xn ), Xi ∼ F , F unbekannt
Daten: x = (x1 , . . . , xn )
Ziel dieses Abschnitts ist die Schätzung des Standardfehlers eines Schätzers θ̂ = θ̂(X) für
θ = T (F ). Hierbei kann θ̂(X) die Plug-In-Schätzung T (F̂n ) sein, muss aber nicht.
Frage: Wie gut ist die Schätzung θ̂?
5.2.1
Bootstrap-Algorithmus zur Schätzung des Standardfehlers
Algorithmus 1 : Bootstrap-Algorithmus zur Schätzung des Standardfehlers
1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne θ̂∗ (b), b = 1, . . . , B.
q
3. Schätze den Standardfehler seF (θ̂) = VarF (θ̂) durch
(
se
bB =
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
) 12
b=1
mit θ̂∗ (·) =
B
1 X ∗
θ̂ (b).
B
b=1
Die Bootstrap-Schätzung für den Standardfehler seF (θ̂) einer Schätzung θ̂ (Daten aus F )
ist also der Standardfehler für zufällige Stichproben vom Umfang n gezogen aus F̂n mit
Zurücklegen.
Es gilt:
lim se
b B = seF̂n (θ̂∗ ).
B→∞
8
Die ideale Bootstrap-Schätzung seF̂n (θ̂∗ ) und die Approximation se
b B werden oft als nichtparametrische Bootstrap-Schätzung bezeichnet, da sie nur auf F̂n beruhen und F̂n die nichtparametrische Schätzung für F ist.
→ Abschnitt 5.2.3: Parametrischer Bootstrap (F wird nicht mehr durch F̂n geschätzt).
Beispiel 5.4. Zwei (quasi-) stetige Merkmale Y und Z werden an n Individuen erhoben, d.h.
X = ((Y1 , Z1 ), (Y1 , Z1 ), . . . , (Yn , Zn )) ,
i.i.d.
(Yi , Zi ) ∼ FY,Z .
Gesucht: Schätzung für den Standardfehler des Korrelationskoeffizienten von Y und Z.
5.2.2
Anzahl der Replikationen
Die Anzahl der Replikationen B wird durch folgende Überlegungen bestimmt:
(i) Praktische Überlegungen: Wenn θ̂(x∗ ) eine komplizierte Funktion von x∗ ist, dann
wird B kleiner sein müssen als wenn θ̂(x∗ ) eine einfache Funktion von x∗ ist.
(ii) Genauigkeitsüberlegungen: Es gilt
Var(se
b B ) > Var seF̂n (θ̂∗ ) .
| {z }
ideale Bootstrap-Schätzung
Die Frage ist, um wieviel die Varianz von se
b B größer ist.
Aus theoretischen Überlegungen ergibt sich, dass B = 200 im Einstichproben-Problem in der
Regel ausreichend ist zur Schätzung eines Standardfehlers. Für Konfidenzintervalle werden
deutlich mehr Replikationen benötigt (B ≈ 2000).
5.2.3
Parametrischer Bootstrap
Definition 5.1. Die parametrische Bootstrap-Schätzung des Standardfehlers ist definiert
durch
seF̂n,par (θ̂∗ ) ,
wobei F̂n,par eine Schätzung von F, abgeleitet aus einem parametrischen Modell, ist.
Beispiel 5.5. Sei X = ((Y1 , Z1 )0 , ..., (Yn , Zn )0 ) mit
Yi
i.i.d.
∼ FY,Z .
Zi
Annahme: FY,Z sei eine bivariate Normalverteilung und
ȳ
µ̂ =
,
z̄
Pn
Pn
1
(yi − ȳ)2
(yi − ȳ)(zi − z̄)
i=1
i=1
P
P
Σ̂ =
.
n
n
2
n
i=1 (yi − ȳ)(zi − z̄)
i=1 (zi − z̄)
9
Das heißt, wir verwenden jetzt F̂n,par = N2 (µ̂, Σ̂) als Schätzung für F , und statt BootstrapStichproben aus den Daten zu ziehen, ziehen wir Bootstrap-Stichproben aus dieser bivariaten
Normalverteilung:
x∗1
x∗B
= ((Y1∗1 , Z1∗1 )0 , . . . , (Yn∗1 , Zn∗1 )0 )
..
.
=
((Y1∗B , Z1∗B )0 , . . . , (Yn∗B , Zn∗B )0 )



∼ N2 (µ̂, Σ̂).


Danach geht es weiter wie gewohnt!
Beispiel 5.6 (Standardfehler für die Schätzung des Korrelationskoeffizienten θ).
(i) Vergleich mit der Formel für die bivariate Normalverteilung:
1 − θ̂2
.
se
b N2 (µ,Σ) (θ̂) = √
n−3
(ii) Vergleich nach Fisher-Transformation:
!
"
2 #
1
+
θ̂
1
1
+
θ
1
1
approx.
∼ N
log
, √
.
ξˆ = log
2
2
1−θ
n−3
1 − θ̂
Um dieses Resultat auszunutzen, könnte Inferenz für ξˆ betrieben und anschließend durch
Rücktransformation auf den wahren Korrelationskoeffizienten θ übertragen werden.
5.2.4
Ein Beispiel, bei dem der nichtparametrische Bootstrap nicht klappt
i.i.d.
Betrachte X = (X1 , . . . , Xn ) mit Xi ∼ Unif(0, θ). Bekannt sei das Maximum θ̂ML = X(n) .
n
Die Wahrscheinlichkeit, dass X(n) nicht in der Bootstrap-Stichprobe auftritt, ist 1 − n1 .
Die Wahrscheinlichkeit, dass X(n) in der Bootstrap-Stichprobe vorkommt, ist also
1 n
1− 1−
→ 1 − e−1 ≈ 0.632 für n → ∞ .
n
Das heißt P (θ̂∗ = θ̂ML ) ≈ 0.632 für n → ∞, die Verteilung von θ̂∗ legt also eine Wahrscheinlichkeitsmasse von 0.632 auf den ML-Schätzer. Dieser wird also reproduziert und es
gibt damit keinen Informationsgewinn aus diesen Stichproben!
Problem: F̂n ist keine gute Schätzung für F in den extremen Bereichen von F .
Beim parametrischen Bootstrap gilt dagegen
X ∗ = (X1∗ , . . . , Xn∗ ) mit Xi∗ ∼ Unif(0, θ̂M L )
und deshalb
P(θ̂∗ = θ̂M L ) = 0 .
Also: Nichtparametrischer Bootstrap kann schiefgehen!
10
5.2.5
Zweistichproben-Problem für unabhängige Stichproben
Seien
Y1 , . . . , Y n
i.i.d.
∼ F
)
unabhängig, zum Beispiel
i.i.d.
Z1 , . . . , Z m ∼ G
F : Behandlung
G : Kontrolle
und X = (Y1 , . . . , Yn , Z1 , . . . , Zm ) bzw. x = (y1 , . . . , yn , z1 , . . . , zm ).
Ziel: Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ .
|{z} |{z}
E(Yi )
E(Zi )
Betrachte
θ̂ = ȳ − z̄ .
Vorgehen bei der b-ten Bootstrap-Stichprobe:
y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n
∗b
z ∗b = (z1∗b , . . . , zm
) zufällig mit Zurücklegen aus Ĝm
Schätzung:
(
se
b F,G (θ̂) = seF̂n ,Ĝm (θ̂∗ ) ≈ se
bB =
|{z}
| {z }
|
{z
}
Real World
ideale
Schätzung in
der BootstrapWorld
n
m
i=1
i=1
1 X ∗b
1 X ∗b
yi −
zi
n
m
θ̂∗ (b) = ȳ ∗b − z̄ ∗b =
θ̂∗ (·) =
B
B
1 X ∗b
1 X ∗
(ȳ − z̄ ∗b ) =
θ̂ (b) .
B
B
b=1
5.2.6
) 12
b=1
Approx.
der idealen
BootstrapSchätzung
mit
und
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
b=1
Bootstrap für eine Zeitreihe
Betrachte die Zeitreihe y1 , y2 , . . . , yT und die zentrierte Zeitreihe z1 , z2 , . . . , zT mit zt = yt − ȳ
für t = 1, . . . , T .
Annahmen: Es handelt sich um einen AR(1)-Prozess
zt = βzt−1 + εt
(t = 2, . . . , T )
i.i.d.
mit Anfangsbedingung z1 , |β| < 1 und εt ∼ F für t = 2, . . . , T , F unbekannt und E(εt ) = 0.
Die KQ-Schätzung für β lautet:
T
X
(zt − βzt−1 )2 → min → β̂.
β
t=2
11
(Da hier keine Verteilungsannahme getroffen wurde, ist ML-Schätzung nicht möglich.)
Gesucht: Schätzung für seF,β (β̂).
Idee: Berechne Residuen
ε̂2
ε̂T
= z2 − β̂z1 ,
..
.



= zT − β̂zT −1 .


T − 1 Residuen
Bezeichne mit F̂T −1 die empirische Verteilungsfunktion der ε̂2 , . . . , ε̂T . Dann erhält man die
b-te Bootstrap-Stichprobe wie folgt:
∗b
(i) Ziehe ε∗b
2 , . . . , εT zufällig mit Zurücklegen aus F̂T −1 .
(ii) Berechne rekursiv
z1 = y1 − ȳ
z2∗b = β̂z1 + ε∗b
2
z3∗b = β̂z2∗b + ε∗b
3
..
.
zT∗b = β̂zT∗b−1 + ε∗b
T .
(iii) Ermittle β̂ ∗b mittels KQ aus z2∗b , . . . , zT∗b .
Damit:
(
se
b F,β (β̂) = seF̂T −1 ,β̂ (β̂ ∗ ) ≈ se
b B (β̂ ∗ ) =
B
i2
1 X h ∗b
β̂ − β̂ ∗ (·)
B−1
b=1
mit
β̂ ∗ (·) =
B
1 X ∗b
β̂ .
B
b=1
Andere Idee: Moving Block Bootstrap” (vgl. Efron und Tibshirani, 1993).
”
5.3
5.3.1
Bootstrap in Regressionsmodellen
Bootstrap im linearen Modell
>
1×p .
Daten: (yi , x>
i ), i = 1, . . . , n, für Response yi und Kovariablen xi ∈ R
Wir stellen drei Bootstrap-Varianten anhand des linearen Modells
yi = x >
i β + εi
mit
i.i.d.
εi ∼ F
und E(εi ) = 0
12
) 12
für i = 1, . . . , n vor. Analoge Erweiterungen auf GLMs sind möglich.
Variante 1: (Nichtparametrischer) Bootstrap der Residuen
Wir betrachten ein Wahrscheinlichkeitsmodell ( real world“) P = (β, F ), wobei β der Re”
gressionsparameter und F die Verteilung der Residuen ist.
'
$
'
$
Reale Welt
Bootstrap-Welt
P = (β, F ) → (ε1 , . . . , εn )
P̂ = (β̂, Fˆn ) → (ε∗1 , . . . , ε∗n )
-
?
?
β̂ ∗
β̂
&
%
&
%
1. Schritt:
Berechne β̂ mit der KQ-Methode: β̂ = (X > X)−1 X > y.
2. Schritt:
Berechne die Residuen ε̂ = (I − X(X > X)−1 X > )y = y − X β̂.
3. Schritt:
Setze für die empirische Verteilung F̂n der Residuen eine Wahrscheinlichkeitsmasse n1 auf ε̂i , i = 1, . . . , n (ohne weitere Einschränkung seien alle
Residuen verschieden).
4. Schritt:
•
Ziehe eine Stichprobe ε∗ = (ε∗1 , . . . , ε∗n ) aus F̂n .
•
Berechne neue“ Bootstrap-Zielvariablen
”
∗
yi∗ = x>
i β̂ + εi
für i = 1, . . . , n, d.h.
y ∗ = X β̂ + ε∗ .
•
Berechne den Bootstrap-KQ-Schätzer
β̂ ∗ = (X > X)−1 X > y ∗ .
Ergebnis: In diesem speziellen Fall ist keine Monte–Carlo Simulation notwendig!
Grund:
VarF̂n (β̂ ∗ ) = (X > X)−1 X > VarF̂n (y ∗ )X(X > X)−1
= σ̂F2 (X > X)−1 ,
13
da VarF̂n (y ∗ ) = VarF̂n (ε∗ ) = σ̂F2 I mit σ̂F2 =
ε̂> ε̂
n
(Modell mit Konstante).
Damit ist hier:
se
b F (β̂j ) = seF̂ (β̂j∗ ) = se
b ∞ (β̂j∗ ) = σ̂F
q
[(X > X)−1 ]jj .
Hinweis: Es wurde vorausgesetzt, dass X eine Matrix von nicht zufälligen Werten ist (zum
Beispiel eine Designmatrix in der Versuchsplanung). Wenn y und X > zufällig sind, wendet
man das folgende Vektor-Sampling an.
Variante 2: Vektor–Sampling ( Bootstrapping Pairs“)
”
>
Aus den Paaren (y1 , x1 ), . . . , (yn , x>
n ) werden mit Zurücklegen die Bootstrap-Stichproben
gezogen. Dann wird jeweils wieder β̂ ∗ berechnet und es geht weiter wie in Variante 1.
Faustregel: Bootstrapping Pairs ist weniger anfällig gegenüber Verletzungen der Annahmen
als Bootstrapping der Residuen.
Variante 3: Parametrischer Bootstrap
Für die Fehler wird eine Verteilungsannahme
εi ∼ Fpar ,
zum Beispiel εi ∼ N (0, σ 2 ),
getroffen.
1. Schritt:
Berechne β̂KQ und σ̂F2 .
2. Schritt:
∗
∗
2
Setze yi∗ = x>
i β̂KQ + εi , wobei εi ∼ N (0, σ̂F ).
Hier ist ebenfalls keine Monte-Carlo Simulation notwendig.
Fazit: Nur bei Variante 2 ist Monte-Carlo Simulation notwendig.
5.3.2
Bootstrap im generalisierten linearen Modell
Erweiterungen auf generalisierte lineare Modelle sind prinzipiell möglich. Allerdings stellt
sich die Frage, welche Residuen im Fall von Bootstrap der Residuen verwendet werden sollen,
wenn
y Zählgröße (Poissonverteilung)
oder
y binär (Binomialverteilung).
Hier ist konzeptionell das Vektor-Sampling wesentlich einfacher.
14
5.3.3
Weitere Anwendungen
Beispiel 5.7. Nichtparametrische Regression, zum Beispiel LOESS (sprich: Low S) Schätzung:
y = f (x) + ε.
Hier wird der Standardfehler punktweise geschätzt.
geschätzter Standardfehler
●
100
●
●
80
60
f(x)
40
20
●
0
●
●
●●
●
●
●
●
−20
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●
●
● ● ● ●
●
●
● ●● ●
●
●
●
● ● ●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
20
●
●
●
●
● ●
●●
0
● ●
● ●
●
●
● ●●
●
●
●●
●
●
●
●
● ●● ●
●
●
● ●
●
●
● ●
●
●
●●
●
●
●●
●
●
●
●
●
●
● ● ●
● ●
●
●
●
●●
●● ●
●
●
●
●
●●
● ●
●
●● ●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
60
80
100
x
5.4
Bias-Schätzung mittels Bootstrap
Seien X1 , . . . , Xn i.i.d. mit Verteilungsfunktion F , wobei F unbekannt, θ = T (F ) und
θ̂ = T (Fˆn ) oder θ̂ = θ̂(x). Der Bias von θ̂ ist
BiasF (θ̂, θ) = EF (θ̂) − θ = EF (θ̂) − T (F ) .
Die Bootstrap-Bias-Schätzung erhalten wir wieder mit dem üblichen Prinzip:
• F durch Fˆn ersetzen,
• θ̂ durch θ̂∗ ersetzen,
• θ durch θ̂ = T (F̂n ) ersetzen.
Also:
d F (θ̂, θ) = Bias (θ̂∗ , θ̂) = E [θ̂∗ ] − T (F̂n ) .
Bias
F̂n
F̂n
Bemerkung. θ̂ kann die Plug-In-Schätzung sein, muss es aber nicht.
15
Im Allgemeinen muss wieder die ideale Bootstrap-Bias-Schätzung BiasF̂n durch eine MonteCarlo Simulation approximiert werden:
Sind x∗1 , . . . , x∗B unabhängige Bootstrap-Stichproben, dann kann mit
θ̂∗ (·) =
B
1 X ∗
θ̂ (b)
B
b=1
der Bias
d B = θ̂∗ (·) − T (F̂n )
Bias
| {z }
θ̂
d B gleichzeitig und auf Basis derselben Bootberechnet werden. Somit können se
b B und Bias
strapstichproben berechnet werden.
5.4.1
Bias-Korrektur
Einen Bias-korrigierten Schätzer erhält man durch
dB
θ = θ̂ − Bias
= θ̂ − [θ̂∗ (·) − θ̂]
= 2θ̂ − θ̂∗ (·) .
Anmerkungen:
1. θ̂∗ (·) selbst ist keine Bias-korrigierte Schätzung.
2. θ kann eine wesentlich größere Varianz als θ̂ haben. Deshalb kann eine Bias-Korrektur
in der Praxis gefährlich“ sein.
”
3. Bias-Schätzung ist schwieriger als Varianz-Schätzung oder als die Schätzung des Standardfehlers.
4. Jackknife Varianz- und Bias-Schätzungen versagen, wenn T nicht glatt“ ist, zum Bei”
spiel beim Median. Bootstrap klappt hier, es sei denn, die Verteilung ist komisch“.
”
Dies zum Beispiel der Fall, wenn die Varianz nicht endlich ist.
16
Allgemeines Schema für ein beliebiges Wahrscheinlichkeitsmodell P :
'
$
'
$
Reale Welt
Bootstrap Welt
Wahrscheinlichkeitsmodell unbekannt
geschätztes Wahrscheinlichkeitsmodell
P −−−→ x = (x1 , . . . , xn )
P̂ −−−→ x∗ = (x∗1 , . . . , x∗n )
-
?
?
θ = θ(P )
?
θ̂ = T (x)
?
θ̂ = θ(P̂ )
HH
HH
j
HH
5.5
5.5.1
HH
j
= T (x∗ )
BiasP̂ (θ̂∗ , θ̂)
BiasP (θ̂, θ)
&
θ̂∗
%
&
%
Bootstrap-Konfidenzintervalle
Einleitung
Übliches 90%-Konfidenzintervall:
θ̂ ± 1.645 · se.
b
Übliches 95%-Konfidenzintervall:
θ̂ ± 1.96 · se.
b
Dabei kann se
b auch Bootstrap-Schätzung sein. Die Begründung dafür ist meist:
Z=
θ̂ − θ
se
b
approx.
∼
N (0, 1)
(asymptotische Aussage) .
Die asymptotische Verteilung ist (approximativ) unabhängig von θ; Z wird approximatives
Pivot genannt.
Wenn n klein ist, können die Quantile der Normalverteilung durch die Quantile der
t-Verteilung ersetzt werden:
(1−α/2)
θ̂ ± tn−1
Idee:
· se
b .
Annahme der Normalverteilung vermeiden, Verteilung von Z aus den Daten schätzen.
Dies wird in den folgenden Abschnitten beschrieben.
17
5.5.2
Bootstrap-t-Intervall
Betrachte
Z=
θ̂ − θ
,
se
b
(5.1)
wobei se
b zunächst irgendeine vernünftige” Schätzung des Standardfehlers von θ̂ darstellt.
”
Idee: Schätze Verteilung von Z wie folgt:
1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne
Z ∗ (b) =
θ̂∗ (b) − θ̂
,
se
b ∗ (b)
wobei se
b ∗ (b) eine Schätzung des Standardfehlers von θ̂∗ (b) ist. Ordne die Z ∗ (b) aufsteigend der Größe nach.
3. Schätze die Quantile t̂(α) und t̂(1−α) (für ein (1 − 2α)-Konfidenzintervall) als
# Z ∗ (b) ≤ t̂(α)
=α.
B
Dabei bezeichnet #A die Kardinalität einer Menge A.
Beispiel:
Für B = 1000 ist t̂(0.05) der 50. Wert der geordneten Z ∗ (b)-Werte, t̂(0.95) ist
der 950. Wert der geordneten Z ∗ (b)-Werte.
4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann
h
i
θ̂ − t̂(1−α) · se,
b θ̂ − t̂(α) · se
b
mit se
b aus Formel (5.1).
Analogie zur t-Verteilung:
h
i
θ̂ − t1−α · se,
b θ̂ + t1−α · se
b
18
(t1−α = −tα ) .
Beachte:
Wenn Bα nicht ganzzahlig ist und α ≤ 21 , dann wähle k = b(B + 1)αc, das
ist die größte ganze Zahl ≤ (B + 1)α. Die empirischen Quantile sind dann
der k-te Wert der geordneten Z ∗ (b)-Werte und der (B + 1 − k)-te Wert.
Probleme:
1. Das Bootstrap-t-Intervall kann stark durch Ausreißer beeinflusst werden.
2. Betrachte nochmals
Z ∗ (b) =
Wie kann man se
b ∗ (b) schätzen?
θ̂∗ (b) − θ̂
.
se
b ∗ (b)
(i) Wenn θ̂ der Mittelwert ist:
( n
)1
2
X
1
∗b 2
(x∗b
−
x̄
)
se
b ∗ (b) =
i
n
(Plug-In-Schätzung).
i=1
(ii) Wenn θ̂ komplizierter bzw. keine Standardformel verfügbar ist:
→ Nested Bootstrap:
Es ist eine Bootstrap-Schätzung des Standardfehlers für
jede Bootstrap-Stichprobe notwendig, zum Beispiel sind für
B = 1000 und B ∗ = 50
BB ∗ = 1000 · 50 = 50 000
Stichproben notwendig. Wir samplen also auf zwei verschachtelten Ebenen:
Real World → Bootstrap-World → Nested Bootstrap-World.
Vorteil: Dieser Vorgang ist parallelisierbar (im Gegensatz
zu MCMC, wo die Kette nicht parallelisierbar ist).
3. Das Bootstrap-t-Intervall wird von der Skala des Parameters beeinflusst, es ist nicht
invariant gegenüber Transformationen. Bei kleinen Stichproben in nichtparametrischem
Setup kann irreguläres Verhalten auftreten; hier kann jedoch eine Transformation der
Parameter zuverlässigere Ergebnisse liefern.
Beispiel 5.8 (Transformation des Korrelationskoeffizienten). Sei θ der Korrelationskoeffizient. Ein Konfidenzintervall für θ können wir auf die folgenden zwei Weisen erhalten:
(i) Bootstrap-t-Intervall für θ direkt.
(ii) Bootstrap-t-Intervall für
φ=
1
log
2
1+θ
1−θ
(Fishersche Z-Transformation)
und dann Rücktransformation der Endpunkte mittels der Umkehrung
θ=
e2φ − 1
e2φ + 1
liefert ein kürzeres (= besseres) Konfidenzintervall als das Intervall in (i).
19
Ergebnis:
5.5.3
Idee:
1.
Bootstrap-t nur für einfache Probleme verwenden, wenn θ ein Lokalisationsparameter, zum Beispiel Median, trimmed mean oder Quantil ist.
2.
In komplexen Fällen ist eine Varianzstabilisierung notwendig.
Bootstrap-Perzentil-Intervall
Verwende direkt die empirische Verteilung der Schätzer θ̂∗ aus den B BootstrapStichproben.
Also:
1. Ziehe
x∗1 , . . . , x∗B B Bootstrap-Replikationen
↓
↓
θ̂∗ (1), . . . , θ̂∗ (B) mit θ̂∗ (b) = T (x∗b ).
∗ , . . . , θ̂ ∗ .
2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1)
(B)
3. Berechne Bα und B(1 − α) (bzw. bei nicht-ganzzahliger Anzahl eine Modifikation wie
∗(α)
∗(1−α)
in Abschnitt 5.5.2) und bezeichne mit θ̂B bzw. θ̂B
die Werte an den jeweiligen
Positionen in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist
h
i h
i
∗(α) ∗(1−α)
θ̂lower , θ̂upper = θ̂B , θ̂B
ein approximatives (1 − 2α)-Konfidenzintervall.
Beispiel: Für B = 2000 und α = 0.05 wähle den 100. und 1900. Wert aus der geordneten
Liste.
Alternative Schreibweise: Bezeichne mit ĜB die empirische Verteilung der θ̂∗ . Dann ist
h
i h
i
θ̂lower , θ̂upper = Ĝ−1 (α), Ĝ−1 (1 − α) .
Vorteile der Perzentil-Methode:
(i) Sie ist invariant gegenüber (streng monotonen) Transformationen.
(ii) Sie ist range-preserving, d.h. das Perzentil-Intervall liegt im zulässigen Bereich des Parameters.
Beispiel: Für den Korrelationskoeffizienten liegt das Intervall der Perzentil-Methode im
Bereich [−1, 1].
Problem: In der Regel Unterdeckung, d.h. die Intervalle sind häufig zu optimistisch.
Lemma 5.2 (Perzentil-Intervall-Lemma). Seien φ = m(θ) und φ̂ = m(θ̂) eineindeutige
Transformationen. Angenommen, φ̂ = m(θ̂) normalisiere die Verteilung von θ̂ perfekt, d.h.
φ̂
exakt,
nicht nur
approx.
∼
N (φ, c2 )
20
für eine Standardabweichung c.
Dann ist das Perzentil-Intervall basierend auf θ̂ gleich
h
i
m−1 (φ̂ − z (1−α) · c), m−1 (φ̂ − z (α) · c)
mit den Quantilen z (α) , z (1−α) der Standardnormalverteilung.
Das Lemma besagt, dass die Perzentil-Methode immer die korrekte Transformation wählt.
Diskussion:
5.5.4
•
Die Perzentil-Methode ist sehr einfach.
•
Die Perzentil-Methode ist nicht der Weisheit letzter Schluss. Wenn θ̂ ein
Schätzer mit Bias ist, gibt es Alternativen (siehe Abschnitt 5.5.4).
Bootstrap-BCa -Intervall
BCa bedeutet bias–corrected and accelerated“.
”
→ (Theoretische) Verbesserung gegenüber Bootstrap–t und der Perzentil–Methode.
→ Löst nicht das Problem kleiner Stichprobenumfänge.
→ Standard-Konfidenzintervalle mit Normalverteilungsquantilen oder den Quantilen der
t-Verteilung können schlecht sein, da sie Symmetrie erzwingen.
Annahmen für die Konstruktion von BCa -Intervallen:
• Der Schätzer θ̂ und der geschätzte Standardfehler se
ˆ von θ̂ sind bereits gegeben (se
b eventuell durch Bootstrap).
• Modellannahme: Es existiert eine streng monoton wachsende Transformation
φ = m(θ),
so dass
φ̂ = m(θ̂),
φ̂ ∼ N φ − z0 (φ)se(φ), (se(φ))2
mit se(φ) = 1 + aφ (lineare Funktion in φ).
Die letzte Annahme steht in Analogie zu
θ̂−θ
se
∼ N(0, 1), aber :
• se hängt von φ ab!
• Die Transformation m(·) sowie die Funktion z0 (φ) und die Konstante a beschreiben die
Abweichung vom einfachen Fall.
• Die Abhängigkeit von z0 (φ) von φ bedeutet, dass der Bias vom wahren Parameter
abhängt.
21
• Der Parameter a steuert, wie stark sich eine Veränderung in φ auf die Varianz von φ̂
auswirkt (a: acceleration, Beschleunigung).
Umformung liefert:
φ̂ − φ + z0 (φ)se(φ)
se(φ)
=
φ̂ − φ
+ z0 (φ)
se(φ)
=
φ̂ − φ
+ z0 (φ)
1 + aφ
|
{z
}
keine Pivotgröße, da abhängig
vom unbekannten φ
∼ N(0, 1).
Berechnungen mit dem Ziel, m(·) zu eliminieren, liefern ein BCa –Intervall :
"
!
!#
(α)
(1−α)
ẑ
+
z
ẑ
+
z
0
0
Φ ẑ0 +
, Φ ẑ0 +
.
Ĝ−1
B
1 − â(ẑ0 + z (α) )
1 − â(ẑ0 + z (1−α) )
Dabei ist Φ die Verteilungsfunktion der Standardnormalverteilung, z (α) und z (1−α) sind
die Quantile der Standardnormalverteilung, und ĜB ist die Bootstrap–Verteilung der θ̂∗ (b),
b = 1, . . . , B. ẑ0 und â müssen geschätzt werden.
Vorschlag:
n
o
# θ̂∗ (b) < θ̂

ẑ0 = Φ−1 (ĜB (θ̂)) = Φ−1 
B

und
Pn
− θ̂(i) )3
hP
n
)2
i=1 (θ̂(·)
â =
6
i=1 (θ̂(.)
− θ̂(i)
i3
2
mit den Jackknife–Schätzungen
θ̂(i) =
θ̂(·) =
Schätzung basierend auf der Stichprobe ohne die i–te Beobachtung und
n
1X
θ̂(i) .
n
i=1
5.5.5
ABC–Methode
ABC steht für approximate bootstrap confidence intervals“. Die Methode liefert approxi”
mative Bootstrap–Konfidenzintervalle mittels quadratischer Taylor–Entwicklung ohne Simulation.
5.5.6
Smooth–Bootstrap“
”
Addiere ε (möglichst klein) zu jeder Beobachtung. Dabei gilt: ε ∼ N (0, √1n ).
22
5.6
Kreuzvalidierung und Vorhersagefehler
Als Vorhersagefehler im Regressionsmodell betrachtet man die erwartete Differenz zwischen
zukünftigem und vorausgesagtem Response,
E(y − ŷ)2 .
In einem (ungeordneten) Klassifikationsproblem ist der Vorhersagefehler als die Wahrscheinlichkeit einer Fehlklassifikation,
P (ŷ 6= y),
definiert. Dieser Abschnitt beschäftigt sich mit der Schätzung des Vorhersagefehlers in beiden
Problemstellungen.
Eine mögliche Schätzung des Vorhersagefehlers innerhalb der Stichprobe im Regressionsmodell ist
n
1X
(yi − ŷi )2
n
i=1
bzw.
n
1 X
(yi − ŷi )2 ,
n−p
i=1
wobei p die Anzahl der Prädiktorvariablen bezeichnet. Diese Schätzung ist allerdings zu
optimistisch, d.h. der wahre Vorhersagefehler wird unterschätzt, da die gleichen Daten für
Anpassung und Beurteilung des Modells verwendet werden. Somit sind die Testdaten gleich
den Trainingsdaten.
Ideale Situation:
0 .
• Verwende als Testdaten neue Daten y10 , . . . , ym
• Verwende das Modell, das aus den Trainingsdaten y1 , . . . , yn geschätzt wird, zur Vor0 .
hersage von y10 , . . . , ym
• Schätze den Vorhersagefehler durch
m
1 X 0
(yi − ŷi0 )2 .
m
i=1
Meist sind jedoch keine zusätzlichen Daten verfügbar. Falls doch, können Heterogenitätsprobleme auftauchen. An dieser Stelle setzt die Kreuzvalidierung an.
Bei größeren Datensätzen teilt man den Datensatz in zwei ungefährt gleich große Teile auf und
benutzt diese als Trainings- und Testdaten. In der Praxis ist dies jedoch unbeliebt; zusätzliche
Einflüsse, die durch die unterschiedliche Aufteilung zustande kommen, müssen berücksichtigt
werden.
Bei kleineren Datensätzen ist eine beliebte Methode die k–fache Kreuzvalidierung. Hier werden die Daten in K ungefähr gleich große Teile geteilt und für jedes k = 1, . . . , K das Modell
für den k-ten Teil auf Basis der anderen K − 1 Teile geschätzt.
23
Veranschaulichung für K = 6:
1
1
2
2
3
3
1
— yi
2
3
......
4
4
4
5
5
5
6
6
6
k=1
k=2
Trainingsdaten
k=K
Testdaten
Sei k(i) der Teil, der die i-te Beobachtung yi enthält. In der obigen Graphik gilt zum Beispiel
−k(i)
k(i) = 2. Dann bezeichnet ŷi
die Vorhersage für yi , berechnet ohne den Teil k(i), also
ohne den Teil, der yi enthält.
Die Schätzung des Vorhersagefehlers durch Kreuzvalidierung ist gegeben durch
n
CV =
1 X
−k(i) 2
yi − ŷi
.
n
i=1
Oft verwendet man K = n, was als leave–one–out“–Kreuzvalidierung bezeichnet wird. Diese
”
ist allerdings sehr aufwändig für großes n und komplexe Regressionsverfahren; ein weiterer
Nachteil ist die starke Variabilität.
5.6.1
Bootstrap–Schätzung des Vorhersagefehlers
Am Beispiel der Regression soll erläutert werden, wie man mit Bootstrap prinzipiell den
Vorhersagefehler schätzen kann. Betrachte
Y1
Y2
..
.
Z1>
Z2>





Yn
Zn>




Daten X
Ziel: Vorhersage einer neuen Beobachtung (Y0 |Z0> , x) aus der Populationsverteilung F .
24
Also:
x
−→
−→
Modell|x
−→
Prädiktor ηx (Z0 ) für Y0
Vorhersagefehler.
Die Vorhersage ηx (Z0 ) beruht somit auf dem Modell, das auf x basiert. Der Vorhersagefehler
für ηx (Z0 ) ist definiert durch
err(x, F ) ≡ E0F (Q(Y0 , ηx (Z0 ))
mit Q als Verlustfunktion, zum Beispiel Q[y, η] = (y − η)2 . E0F steht für die Erwartung über
eine neue Beobachtung (Y0 , Z0> ) aus F . Der scheinbare Fehler (apparent error in sample) ist
n
1X
err(x, F̂n ) = E0F̂n (Q(Y0 , ηx (Z0 )) =
Q[yi , ηx (zi )].
n
i=1
Dieser Fehler ist jedoch zu optimistisch.
Mit dem Plug–In–Prinzip erhält man eine verbesserte Schätzung wie folgt: Seien x∗1 , . . . , x∗B
B Bootstrap-Stichproben mit
>
>
x∗1 = {(y1∗1 , z1∗1 ), . . . , (yn∗1 , zn∗1 )}
..
.
>
>
x∗B = {(y1∗B , z1∗B ), . . . , (yn∗B , zn∗B )} .
Dann ist (für beliebiges b)
n
1X
err(x , F̂n ) =
Q[yi , ηx∗b (zi )]
n
∗b
i=1
eine Plug–In–Schätzung für err(x, F ). Dabei sind yi und zi aus der Originalstichprobe. Somit
wird das Modell, das auf der Basis von x∗b berechnet wird, zur Schätzung des Vorhersagefehlers in der ursprünglichen Stichprobe verwendet.
Wir möchten aber eine Schätzung für den durchschnittlichen Vorhersagefehler (average prediction error ) EF [err(x, F )]:
EF [err(x, F )]
↓
ideale Bootstrap–Schätzung
(
∗
EF̂n [err(x , F̂n )] = EF̂n
)
n
1X
Q[yi , ηx∗ (zi )]
n
i=1
↓
approximative Bootstrap–Schätzung
B
n
1 X1X
ÊFˆn [err(x , F̂n )] =
Q[yi , ηx∗b (zi )] .
B
n
∗
b=1
25
i=1
(5.2)
Vergleiche
ÊF̂n [err(x∗ , F̂n )]
mit dem sogenannten in bootstrap-sample error
ÊF̂n [err(x∗ , F̂n∗ )] =
B
n
1 X1X
Q[yi∗b , ηx∗b (zi∗b )].
B
n
b=1
i=1
Dabei ist F̂n∗ die empirische Verteilungsfunktion, die sich aus x∗ ergibt. Dieser Fehler ist im
Allgemeinen zu optimistisch.
Für eine Bias-Korrektur betrachtet man den average optimism:
w(F ) = EF (err(x, F )) − EF (err(x, F̂n ))
|
{z
}
average apparent error
↓
Plug–In Prinzip, ideale Bootstrap–Schätzung
w(F̂n ) = EF̂n (err(x∗ , F̂n )) − EF̂n (err(x∗ , F̂n∗ ))
↓
1
ŵ(F̂n ) =
Bn
approximative Bootstrap–Schätzung
( B n
XX
Q[yi , ηx∗b (zi )] −
b=1 i=1
B X
n
X
)
Q[yi∗b , ηx∗b (zi∗b )]
.
b=1 i=1
Die endgültige Schätzung des Vorhersagefehlers
err(x, F̂n ) + w(F̂n )
erfolgt durch
n
1X
Q[yi , ηx (zi )] + ŵ(F̂n ) .
n
i=1
|
{z
}
(5.3)
in sample, Orginaldaten
Fazit: (5.3) ist besser als (5.2).
5.6.2
Der 0.632 Bootstrap–Schätzer
Idee: Verwende für die Schätzung des Vorhersagefehlers nur die Fälle, die in der jeweiligen Bootstrap–Stichprobe nicht enthalten sind. Die Wahrscheinlichkeit, dass ein Fall in der
Bootstrap–Stichprobe ist, ergibt sich zu:
1 n
1− 1−
≈ 0.632.
n
26
Der geschätzte Fehler ist dann
err
c 0.632 =
err(x, F̂n ) +0.632 (ε̂0 − err(x, F̂n ))
| {z }
apparent error
= 0.368 err(x, F̂n ) + 0.632 ε̂0
mit


n 

X
X
1
1
ε̂0 =
Q[yi , ηx∗b (zi )] .
 Bi

n
i=1
b∈Ci
Dabei ist
Ci : Menge aller Indizes der Bootstrap–Stichproben, die Beobachtung i nicht enthalten.
Bi : Anzahl der Bootstrap–Stichproben, die Beobachtung i nicht enthalten.
5.7
Konsistenz, Subsampling, Ziehen ohne Zurücklegen
5.7.1
Konsistenz
Notation: F sei unbekannte Verteilung der Population, F (c) = P(X ≤ c), F ∈ F, wobei F
die Menge der zugelassenen Verteilungen bezeichnet. Betrachte
i.i.d.
• die Zufallsvariablen X = (X1 , . . . , Xn ) mit Xi ∼ F , beobachtet x = (x1 , . . . , xn ),
• die Statistik Tn = Tn (X), beobachtet Tn (x).
Die exakte Verteilung von T unter F sei
Gn,F (c) = PF (Tn ≤ c),
die asymptotische Verteilung von T unter F
G∞,F (c).
Bootstrap-Schätzung: Ersetze
Gn,F (c) = PF (Tn ≤ c)
durch
Gn,F̂n (c) = PF̂n (Tn∗ ≤ c)
mit
Tn∗ = Tn (X1∗ , . . . , Xn∗ ),
genauer:
PF̂n (Tn∗ ≤ c) =
o
1 n
∗b
# b = 1, . . . , B Tn∗b = Tn (x∗b
,
.
.
.
,
x
)
≤
c
.
1
n
B
27
Definition 5.3. Die Bootstrap-Schätzung Gn,F̂n (·) ist konsistent, wenn für alle ε > 0 und
F ∈ F gilt:
h
i
lim Pn supGn,F̂n (c) − G∞,F (c) > ε = 0.
n→∞
c
Satz 5.4 (Beran und Ducharme, 1991). Sei ρ eine Metrik auf dem Raum der zugelassenen
Verteilungsfunktionen. Die Bootstrap-Schätzung Gn,F̂n (·) ist konsistent, wenn für alle ε > 0
und F ∈ F gilt:
(i) limn→∞ Pn [ρ(F̂n , F ) > ε] = 0 und
(ii) G∞,F (c) eine stetige Funktion in c für F ∈ F ist und
(iii) für jedes c und jede Sequenz {Hn } mit Hn ∈ F für alle n, für die limn→∞ ρ(Hn , F ) = 0
gilt, folgt, dass
Gn,Hn (c) −→ G∞,F (c)
für n → ∞.
Beispiel 5.9. Der Satz gilt zum Beispiel für die Menge F der Verteilungsfunktionen mit
endlicher Varianz und die sogenannte Mallows Metrik ρ (auch Wasserstein oder Kantorovitch
Metrik).
Definition 5.5. Für r ≥ 1 sei Fr die Menge aller Verteilungsfunktionen F , für die
Z ∞
|x|r dF (x) < ∞
−∞
gilt. Seien F und G ∈ Fr . Die Mallows Metrik ρr (F, G) ist definiert durch
ρr (F, G) = inf
n
E |X − Y |r
TX,Y
o1/r
,
wobei TX,Y die Menge aller gemeinsamen Verteilungen von Paaren von Zufallsvariablen X
und Y ist, deren Randverteilungen F und G sind.
Also, wenn F = F2 , dann ist
ρ2 (F, G) = inf
TX,Y
n
E (X − Y )2
o1/2
.
Lemma 5.6 (Major, 1978). Für F, G ∈ F2 wird das Infimum durch folgende Bedingung
erreicht: Sei U ∼ U (0, 1), X = F −1 (U ) und Y = G−1 (U ), wobei zum Beispiel
F −1 (p) = inf{x ∈ R : F (x) ≥ p}.
Dann gilt:
1/2
Z1 2
ρ2 (F, G) =  F −1 (p) − G−1 (p) dp .

0
28
Lemma 5.7 (Bickel und Friedman, 1981). Wenn Fn ∈ F für alle n und F ∈ F, dann gilt
ρ2 (Fn , F ) −→ 0
für n → ∞
genau dann, wenn für jede beschränkte stetige Funktion g : R → R folgende Bedingungen
erfüllt sind:
1. lim
+∞
R
n→∞ −∞
2. lim
+∞
R
n→∞ −∞
+∞
R
g(x) dFn (x) =
g(x) dF (x),
−∞
|x|2 dFn (x) =
+∞
R
|x|2 dF (x).
−∞
Der Satz zeigt für r = 2: Die Konvergenz in der Mallows Metrik ρr ist äquivalent zur Konvergenz in Verteilung zusammen mit der Konvergenz des r-ten absoluten Moments.
Beispiel 5.10 (Horowitz, 2000). Sei weiterhin F2 die Menge der Verteilungen mit endlicher
Varianz, und sei X̄ das arithmetische Mittel. Definiere
√
Tn = n(X̄ − µ) , µ = E(X)
und
√
Gn,F (c) = Pn,F
Gn,F̂n (c) = Pn,F̂n
n(X̄ − µ) ≤ c ,
√
n(X̄ ∗ − X̄) ≤ c .
Dabei ist Pn,F̂n die Bootstrap-induzierte Verteilung. Gn,F̂n (c) ist konsistente Bootstrap–
Schätzung. Dazu können die drei Bedingungen aus Satz 5.4 gezeigt werden:
(i) Glivenko-Cantelli, Gesetz der großen Zahlen.
(ii) Lindeberg-Lévy, zentraler Grenzwertsatz: impliziert, dass Tn asymptotisch normalverteilt ist, und die Verteilungsfunktion der Normalverteilung ist stetig.
(iii) Beweis mit Argumenten, mit denen man auch das Lindeberg-Lévy Theorem beweist.
Satz 5.8 (Mammen,1992). Seien X1 , . . . , Xn ∼ F . Für eine Folge von Funktionen gn und
eine Folge von Zahlen tn und σn definiere
n
ḡn =
1X
gn (xi ),
n
i=1
Für die Bootstrap-Stichprobe
x∗1 , . . . , x∗n
Tn =
ḡn − tn
.
σn
definiere
n
ḡn∗ =
1X
gn (x∗i )
n
und
Tn∗ =
i=1
ḡn∗ − ḡn
.
σn
Wieder sei
Gn,F (c) = PF (Tn ≤ c),
Gn,F̂n (c) = PF̂n (Tn∗ ≤ c),
29
wobei F̂n durch Bootstrap induziert ist.
Dann gilt: Gn,F̂n (·) schätzt Gn,F (·) konsistent genau dann, wenn
d
→ N (0, 1).
Tn −
Beispiel 5.11. Wenn E[gn (X)] und Var[gn (X)] für alle n existieren, dann gilt obiger Satz
mit tn = E(ḡn ), σn2 = Var(ḡn ) oder
σn2
n
1 X
= 2
[gn (Xi ) − ḡn ]2 .
n
i=1
Dies ist zum Beispiel für gn (X) = X̄ und F ∈ F2 erfüllt.
5.7.2
Subsampling und Ziehen ohne Zurücklegen
Idee: m-out-of-n Bootstrap, d.h. ziehe m mal aus der Stichprobe der Größe n
- mit Zurücklegen,
- ohne Zurücklegen.
Beim Ziehen ohne Zurücklegen
ist jede Stichprobe vom Umfang m < n eine Stichprobe aus F
n
(nicht aus F̂n ); es gibt m solcher Stichproben.
Dieses Prinzip funktioniert unter extrem allgemeinen Bedingungen und kann zum Beispiel
i.i.d.
bei Problemen folgender Art eingesetzt werden: Seien X1 , . . . , Xn ∼ F . Die Verteilung F
besitze die Dichte f . Sei
P Xi ∈ [0, θ] = 1
für ein kompaktes Intervall [0, θ] und
f (x) > 0
für x ∈ (0, θ],
f (x) = 0
für
x 6∈ (0, θ].
Der Parameter θ ( Maximum”) soll geschätzt werden (vgl. Gleichverteilung auf [0, θ]). Be”
trachte
θ̂ = max Xi .
i=1,...,n
Die Verteilung von θ̂ ist nicht asymptotisch normal. Man kann zeigen:
n(θ̂ − θ)
ist asymptotisch exponentialverteilt mit Parameter λ =
1
.
f (θ)
Der Bootstrap ist hier nicht konsistent, das Subsampling klappt jedoch mit
m = nδ ,
δ ∈ (0, 1).
Dabei steuert δ die Größe von m. δ muss in der Praxis also geeignet gewählt werden.
30
Kapitel 6
Fehlspezifikation, Quasi-Likelihood
und Schätzgleichungen
Bisher haben wir volle (genuine) Likelihood-Inferenz betrieben: Gegeben war ein parametrisches statistisches Modell, das heißt eine Familie von Verteilungen oder Dichten mit Parameter θ ∈ Θ.
Bisherige Grundannahme: Es existiert ein wahres” θ0 ∈ Θ derart, dass Pθ0 die Verteilung
”
des datengenerierenden Prozesses P0 ist, das heißt Pθ0 = P0 gilt.
'
$
Pθ
•Pθ0
&
•P0
%
Fragen:
• Was passiert, wenn wir Likelihood-Inferenz innerhalb von Pθ betreiben, aber der datengenerierende Prozess P0 6∈ Pθ ist (Fehlspezifikation)?
• Was passiert, wenn zwar der Verteilungstyp fehlspezifiziert, jedoch der Erwartungswert
korrekt spezifiziert ist (Quasi-Likelihood)?
• Kann man auf die Likelihood verzichten und direkt von den Quasi-ML-Schätzgleichungen
!
E s(θ) = 0
starten?
Beispiel 6.1 (Lineares Modell). Wir betrachten wieder die Standard-Annahme
yi = x>
i β + εi ,
εi
i.i.d.
∼ N (0, σ 2 )
bzw.
y|X ∼ N (Xβ, σ 2 I) ≡ Pθ ,
31
θ = (β, σ 2 ).
Mögliche Fehlspezifikationen:
(a) Die N (0, σ 2 )-Annahme für die εi ist falsch, zum Beispiel könnte die wahre Verteilung
die Doppel-Exponential-Verteilung (Laplace-Verteilung) sein:
f (εi ) ∝ exp − |εi /σ| .
φ(0, σ 2 )
Doppel-Exponential-Verteilung
0
Die Doppel-Exponential-Verteilung (oder auch die Cauchy-/t(1)-Verteilung) ist spitzer
im Zentrum und hat breitere Enden (heavy-tails).
⇒ Sie ist ausreißerunempfindlicher.
(b) Die Kovarianzstruktur ist falsch, d.h. Cov(y) 6= σ 2 I.
Wahre Kovarianzstruktur: Cov(y) = σ 2 W , zum Beispiel
– W = diag(W1 , . . . , Wn ) (heteroskedastische Fehler) oder
– W nichtdiagonal (korrelierte Fehler).
(c) Die Erwartungswertstruktur ist falsch: E y 6= Xβ, zum Beispiel wegen
– Fehlspezifikation nichtlinearer Effekte, zum Beispiel xβ1 + x2 β2 oder β log x,
– fehlender Regressoren.
6.1
ML-Schätzung bei Fehlspezifikation
Wir beschränken uns auf den i.i.d. Fall: Seien X1 , . . . , Xn i.i.d. wie X ∼ g(x) und g(x) die
wahre Dichte. Als statistisches Modell betrachten wir die Familie von Dichten
n
o
Pθ = f (x|θ), θ ∈ Θ .
Falls ein θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), so ist das Modell korrekt spezifiziert. Falls kein
θ0 ∈ Θ existiert mit g(x) ≡ f (x|θ0 ), ist das Modell fehlspezifiziert.
'
f x|θ
$
•g(x) ∼ P0
θ∈Θ
&
%
32
Definition 6.1 (Kullback-Leibler-Distanz). Die Kullback-Leibler-Distanz von g und fθ ist
definiert durch
g(X)
D(g, fθ ) = Eg log
,
f (X|θ)
d.h.
Z
D(g, fθ ) =
log
g(x)
g(x) dx
f (x|θ)
für X stetig. Dabei wird der Erwartungswert bzgl. der wahren” Dichte bzw. Wahrscheinlich”
keitsfunktion g(x) gebildet.
Es gilt:
D(g, fθ ) ≥ 0
mit
⇔
D(g, fθ0 ) = 0
g ≡ fθ0 .
Also:
D(g, fθ0 ) = 0
⇔
Modell korrekt spezifiziert.
Der Beweis erfolgt mit Ungleichung von Jensen.
Bemerkung. Der (negative) Erwartungswert
Z
−Eg log g(X) = − g(x) log(g(x)) dx
heißt Entropie von g.
Sei θ0 der” Minimierer der Kullback-Leibler-Distanz:
”
h n
o
n
oi
θ0 = argmin Eg log g(X) − Eg log f (X|θ)
.
θ∈Θ
Da Eg
n
o
log g(X) nicht von θ abhängt, gilt auch
n
o
θ0 = argmax Eg log f (X|θ) .
θ∈Θ
Die Dichte f (x|θ0 ) liegt dann im Sinne der Kullback-Leibler-Distanz am nächsten” bei g.
”
$
'
f (x|θ0 )
•
&
g•
%
33
Der ML-Schätzer ist
n
θ̂n = argmax
θ∈Θ
Da
1
n
n
P
1X
log f (xi |θ).
n
i=1
P
log f (xi |θ) −
→ Eg log f (X|θ) (Gesetz der großen Zahlen), gilt vermutlich
i=1
P
→ θ0 ,
θ̂n −
das heißt der (Quasi-) ML-Schätzer konvergiert gegen jenes θ0 , dessen Dichte f (x|θ0 ) am
nächsten bei g (bezüglich der Kullback-Leibler-Distanz) liegt.
Genauer gilt:
Satz 6.2 (Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation).
1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von
λ(θ) ≡ Eg log f (X|θ)
(bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei FisherRegularität) existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen
”
Maximierern von
n
1X
log f (xi |θ)
n
i=1
mit
P
θ̂n −
→ θ0 .
2. Asymptotische Normalität: Es gilt
√
d
n(θ̂n − θ0 ) −
→N
0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 )
mit
∂ log f (X|θ)
∂ log f (X|θ) >
I1 (θ) ≡ Eg
∂θ
∂θ
|
{z
}|
{z
}
s1 (θ)
s1 (θ)>
und der (Quasi-) Fisher-Information
2
∂ log f (X|θ)
J1 (θ) = Eg −
.
∂θ ∂θ>
34
Bemerkung.
• Falls g(x) ≡ f (x|θ), also das Modell korrekt spezifiziert ist, gilt
I1 (θ) = J1 (θ)
(vergleiche Satz 2.16 aus Schätzen und Testen I), und man erhält die übliche asymptotische Normalverteilung des ML-Schätzers bei korrekter Modellspezifikation.
• Informell gilt




1 −1
a
−1
,
θ
,
θ̂n ∼ N 
J
(θ
)
I
(θ
)
J
(θ
)
0
0
1
0
0
1
1
 n

{z
}
|
V (θ0 )
und V (θ0 ) wird geschätzt durch
V̂ (θ̂n ) = J −1 (θ̂n ) I(θ̂n ) J −1 (θ̂n )
( Sandwich”-Matrix)
”
mit
I(θ̂n ) =
n
X
si (θ̂n ) s>
i (θ̂n )
empirische Fisher-Matrix der Stichprobe,
i=1
n
X
∂ 2 log f (x
|θ)
i
J (θ̂n ) = −
>
∂θ
∂θ
{z
} θ=θ̂n
i=1 |
empirische beobachtete Informations-Matrix.
∂ 2 l(θ)
∂θ ∂θ >
• Formal gilt:
√
d
n(θbn − θ0 ) → N (0, J1−1 (θ0 )I1 (θ0 )J1−1 (θ0 )).
Bemerkung.
1. Im i.n.i.d. Fall gilt (informell):
Sei l(θ, x) = logf (x|θ) und
θ0 := argmax Eg l(θ, X) = argmax Eg
θ
θ
( n
X
)
li (θ, Xi ) ,
i=1
bzw. sei θ0 die Nullstelle von Eg s(θ), das heißt Eg (s(θ0 )) = 0. Außerdem
θ̂n = argmax l(θ, x)
bzw.
s(θ̂n ) = 0.
θ
Dann gilt
a
θ̂n ∼ N θ0 , V̂ (θ̂n )
wie oben, nur mit fi (xi |θ) an Stelle von f (xi |θ).
35
2. Angenommen, der Modellparameter θe = (θ, α)> setze sich zusammen aus einem eigentlich interessierenden Parameter θ und einem Nuisance-Parameter α. Die Scorefunktion
lautet dann
!
e
sθ (θ, α)
sθ (θ)
s(θ, α) =
=
.
e
sα (θ, α)
sα (θ)
Falls trotz fehlspezifizierter Likelihood der eigentlich interessierende Parameter die MLGleichung Eg (sθ (θe0 )) = 0 erfüllt, so gilt weiterhin
a
⇒ Quasi-Likelihood.
θ̂n ∼ N θ0 , V̂ (θ̂n )
6.2
Quasi-Likelihood und Schätzgleichungen
Frage: Lassen sich Parameter von Interesse wie der Mittelwert µ im i.i.d. Fall oder der Kovariablenvektor β im Regressionsfall noch konsistent und asymptotisch normalverteilt schätzen,
wenn das statistische Modell nur teilweise fehlspezifiziert bzw. unvollständig spezifiziert ist?
Beispiel 6.2. Seien Y1 , . . . , Yn i.i.d. wie Y ∼ f (Y |µ, σ 2 ), f symmetrisch um µ, aber nicht
normal, etwa
1 −|y−µ0 |/σ
P0 = f (y|µ0 ) =
e
(Laplace- oder Doppel-Exponential-Verteilung).
2σ
Trotzdem wählt man die (Log-) Likelihood
n
1 X
ql(µ) = − 2
(yi − µ)2 + const
2σ
i=1
der Normalverteilung als Quasi-(Log-)Likelihood und maximiert diese. So kommt man auf
die Quasi-Scorefunktion
n
1 X
qs(µ) = 2
(yi − µ).
σ
i=1
Es gilt
n
1 X
E0 qs(µ0 ) = 2
(E0 (Yi ) −µ0 ) = 0,
| {z }
σ
i=1
=µ0
also µ̂QML = ȳ wie üblich und wegen E0 Ȳ = µ0 erwartungstreu.
Allerdings ist ȳ kein (asymptotisch) effizienter Schätzer mehr (die Rao-Cramer-Schranke wird
nicht erreicht).
Beispiel 6.3. Seien Y1 , . . . , Yn unabhängig, Yi ∼ N (µ0 , σi2 ) und
( n
!)
n
Y
X
1
1 (yi − µ0 )2
2
Qn
P0 =
φ(yi |µ0 , σi ) =
exp −
.
2
n/2 ·
2
σ
(2π)
σ
i
i
i=1
i=1
i=1
36
Dann wählt man als Quasi-Log-Likelihood:
n
1X
ql(µ) = −
2
i=1
yi − µ
σ
2
,
das heißt man ignoriert die Abhängigkeit der Varianz von i und berechnet
qs(µ) =
n
1 X
(yi − µ),
σ2
i=1
n
1 X
E0 qs(µ) = 2
(µ0 − µ) = 0
σ
⇔
µ0 = µ,
i=1
µ̂QML = ȳ,
E(µ̂QML ) = µ0
erwartungstreu,
aber
Var0 (b
µQML ) = Var0 (Ȳ ) =
n
n
1 X 2
1 X
Var(Y
)
=
σi ,
i
n2
n2
i=1
i=1
das heißt µ̂QML = ȳ ist ineffizient, aber (falls zum Beispiel σi2 ≤ c) konsistent und normalverteilt.
Beispiel 6.4 (Lineares Modell). Standard–Annahme:
2
yi |xi ∼ N (x>
i β, σ )
bzw.
y|X ∼ N (Xβ, σ 2 I) .
Mögliche Fehlspezifikationen:
(a) Normalverteilungsannahme falsch,
(b) Kovarianzstruktur Cov y = σ 2 I falsch,
(c) Erwartungswertstruktur E y = Xβ falsch.
zu (a): Dies ist der Fall, wenn y nicht normalverteilt ist, aber die Kovarianzstruktur und das
Erwartungswertmodell korrekt sind.
Es gilt: E0 y = Xβ0 ist das wahre Modell.
s(β) =
1 >
X (y − Xβ)
σ2
E0 s(β0 ) = 0
Dabei ist E0 s(β0 ) der Erwartungswert im wahren Modell vom wahren Parameter. Es
ergibt sich
β̂QML = β̂KQ = (X > X)−1 X > y
37
mit
E0 (β̂QML ) = (X > X)−1 X > Ey = β0
>
2
−1
Cov0 (β̂QML ) = σ (X X)
also
(erwartungstreu),
,
a
β̂QML ∼ N (β0 , σ 2 (X > X)−1 ).
Damit ist β̂QML effizient.
zu (b): Die wahre Kovarianzmatrix ist σ 2 W statt σ 2 I:
P0 : y ∼ N (Xβ0 , σ 2 W )
E0 s(β0 ) = 0
β̂QML = (X > X)−1 X > y
E0 (β̂QML ) = (X > X)−1 X > Xβ0 = β0
Cov0 (β̂QML ) = (X > X)−1 X > Cov0 (Y )X(X > X)−1
= σ 2 (X > X)−1 X > W X(X > X)−1
( 6= σ 2 (X > X)−1 )
β̂QML ist konsistent, aber nicht effizient.
(Ein effizienter Schätzer wäre der
β̂AITKEN = (X > W −1 X)−1 X > W −1 y.)
gewichtete
KQ–
bzw.
Aitken–Schätzer
zu (c): Der wahre Erwartungswert ist ungleich Xβ:
wahrer Erwartungswert:
E0 y = µ0 = X0 β0
⇒ wahres Modell:
y ∼ N (X0 β0 , σ 2 I)
(falls N und σ 2 I = Cov0 (y) richtig). Dann ist
β̂QM L = (X > X)−1 X > y
E0 (β̂QM L ) = (X > X)−1 X > X0 β0 6= β0 .
Somit ist β̂QM L verzerrter Schätzer, aber liefert das best–approximierende lineare
Modell mit Designmatrix X. Die Kovarianzmatrix ist dann gegeben durch:
Cov0 (β̂QM L ) = (X > X)−1 X > Cov0 (y) X(X > X)−1 = σ 2 (X > X)−1 .
| {z }
σ2 I
Fazit aus den Beispielen:
• Falls die Likelihood oder die Varianzstruktur fehlspezifiziert sind, jedoch die Erwartungswertstruktur
Eyi = µi = x>
i β
korrekt spezifiziert ist, erhält man konsistente Schätzer für µ bzw. β.
38
• Es genügt sogar, die Nullstelle der Quasi–Scorefunktion
!
qs(µ̂) = 0
bzw.
!
qs(β̂) = 0
zu bestimmen. Falls für das wahre“ µ0 bzw. β0
”
E0 qs(µ0 ) = 0 , E0 qs(β0 ) = 0
gilt, dann ist die Nullstelle µ̂ bzw. β̂ konsistent und asymptotisch normalverteilt für µ
bzw. β.
⇒ Idee der Schätzgleichungen“ (estimating equations):
”
Definiere eine Schätzfunktion oder Quasi–Scorefunktion
qs(θ) =
n
X
ψi (yi , θ)
i=1
so, dass für den wahren“ Parameter θ0
”
E0 qs(θ0 ) =
n
X
E0 [ψi (yi , θ0 )] = 0
i=1
erfüllt ist. Dann ist der Quasi–ML–Schätzer oder M–Schätzer“ definiert als Nullstelle
”
!
qs(θ̂QM L ) = 0
(Schätzgleichung)
der Schätzfunktion qs(θ).
Beispiel 6.5 (Generalisierte Regression). Sei
E0 yi = µi (β)
Var0 yi = φ vi (β)
korrekt spezifiziert ,
(eventuell) fehlspezifiziert .
Es gilt: E0 s(β) = 0.
Es wird nur eine Annahme hinsichtlich der Schätzgleichung getroffen, jedoch nicht für die
Verteilung:
n 1 X ∂µi (β)
vi (β)−1 (yi − µi (β))
s(β) =
|
{z
}
φ
∂β
i=1
∝
n X
i=1
E(yi )−µi (β)=0
∂µi (β)
∂β
vi (β)−1 (yi − µi (β))
hat Erwartungswert 0 und
!
s(β̂) = 0 .
⇒ β̂ ist konsistent und asymptotisch normalverteilt.
Speziell: generalized estimating equation“ (wie in GLM: µi (β) = x>
i β).
”
39
Beispiel 6.6 ((Binäre) Longitudinaldaten (repeated measures) oder Clusterdaten). Die Datenpaare (yij , xij ) , i = 1, . . . , n , j = 1, . . . , ni , seien je ni wiederholte Beobachtungen an
Individuen oder in Clustern“, wie zum Beispiel Familien oder Klassen i = 1, . . . , n.
”
ni : Anzahl der (zeitlich) wiederholten Beobachtungen pro Individuum oder Cluster
yij : Zielvariable
xij : Kovariablenvektor
yij |xij sei aus einer Exponentialfamilie (normal, binomial, Poisson, . . . ) mit Erwartungswert
E(yij |xij ) = h(x>
ij β) = µij .
Die Schätzgleichungen bei Vernachlässigung von (zeitlichen) Korrelationen zwischen den Messwiederholungen lauten
ni
n X
X
!
qs(β) =
xij wij (β)(yij − h(x>
ij β)) = 0
i=1 j=1
mit
Eβ0 qs(β0 ) = 0,
wobei die wij (β) geeignete Gewichte sind. Somit ist β̂QML konsistent und asymptotisch normal, jedoch unter Effizienzverlust.
6.3
M–Schätzer in der robusten Statistik
Ein weiteres Anwendungsgebiet von M–Schätzern ist die robuste (ausreißerresistente) Schätzung
von Lokalisationsparametern (wie E(X) = µ) und Regressionsparametern.
(a) Schätzung von µ:
Die Lösung der KQ–Schätzgleichung
n
X
!
(yi − µ̂) = 0
⇒
µ̂ = y
i=1
reagiert sensitiv auf Ausreißer. Als Schätzgleichung wurde hier
ψ(y, µ) = y − µ
verwendet. Eine allgemeinere Schätzgleichung wird so formuliert:
n
X
!
ψ(yi , µ) = 0 .
i=1
Dabei ist ψ eine geeignete Funktion, zum Beispiel ψ(y, µ) = y − µ für Lokalistionsparameter mit Lösung µ̂ψ .
40
ψ(y, µ) = y − µ
Huber´s ψ
"
"
"
"
"
"
"
"
"
"
"
"
"
"
"
"
µ−k
µ
getrimmtes ψ
µ−k
µ+k
µ
Extreme Version von Hubers ψ:


1
0
ψ(y, µ) = sgn(y − µ) =

−1
y>µ
y=µ
y<µ.
Daraus erhält man den Median.
Quantilschätzung:
ψ(y, µ) =


p
1−p
0

−1
y>µ
y=µ
y < µ.
(b) Robuste Regression: Die KQ-Gleichung für yi = x>
i β + εi lautet
n
X
!
xi (yi − x>
i β) = 0.
i=1
Allgemein:
n
X
!
xi ψ(yi , x>
i β) = 0 .
i=1
Die Lösung dieser Schätzgleichung β̂ψ ist ein robuster Schätzer.
41
µ
µ+k
Asymptotische Eigenschaften von M–Schätzern θ̂M
Unter Regularitätsvoraussetzungen, insbesondere
E0 qs(θ0 ) = 0,
gilt
a
θ̂M ∼ N (θ0 , V (θ̂M )) .
Dabei ist V (θ̂M ) definiert als
V (θ̂M ) = J −1 (θ̂M )I(θ̂M )J −1 (θ̂M )
mit der empirischen (Quasi–) Fisher–Matrix
I(θ̂M ) =
n
X
qsi (θ̂M )qs>
i (θ̂M )
i=1
und der (empirischen) beobachteten (Quasi–) Informationsmatrix
∂ qs(θ) .
J (θ̂M ) = −
∂θ > θ=θ̂M
Der Beweis dafür verläuft analog wie für ML–Schätzer.
Bemerkung. Nachteil von Quasi–Likelihood: Im Allgemeinen sind keine Likelihood–Ratio–
Tests und darauf basierende Modellwahlkriterien möglich.
Aus
E qs(θ) = 0
>
⇒ Cov(qs(θ)) = E(qs(θ) qs(θ)) =: I(θ)
a
⇒ qs(θ) ∼ N (0, I(θ))
und Taylorentwicklung von qs(θ̂M ) = 0 um θ,
a
0 = qs(θ̂M ) ∼ qs(θ) +
∂ qs(θ)
(θ̂M − θ) ,
>
| ∂θ
{z }
−J(θ)
folgt
a
(θ̂M − θ) ∼ N (0, J −1 (θ̂M )I(θ̂M )J −1 (θ̂M ))
⇒
6.4
a
θ̂M ∼ N (θ, J −1 (θ̂M )I(θ̂M )J −1 (θ̂M )) .
Verallgemeinerte Schätzgleichungen (Generalized Estimating Equations)
Siehe Folien zur Vorlesung.
42
6.5
Quantilregression
Die Grafiken in diesem Abschnitt stammen größtenteils aus der Diplomarbeit von Nora Fenske (2008) zum Thema “Flexible Longitudinaldaten-Regression mit Anwendungen auf Adipositas”.
Literatur: Roger Koenker (2005): Quantile Regression, Cambridge University Press.
Zur Person: Roger Koenker ist McKinley Professor of Economics and Statistics an der University of Illinois (1976-1983 Bell-Labs) und wendete 25 Jahre Forschung für dieses Thema
auf.
6.5.1
Einleitung
Idee der Quantilregression:
Analog zur (linearen) Regression, welche den bedingten Erwartungswert E(Y |x) als Funktion
von Kovariablen x modelliert, sollen Ansätze für die Modellierung der bedingten Quantilsfunktion entwickelt werden.
Wir nehmen im Folgenden stetigen Response Y an. Eine Anwendung der Quantilregression
liefert folgendes Beispiel aus der Diplomarbeit von Nora Fenske (2008).
Beispiel 6.7 (Einflussfaktoren für Adipositas (Fettleibigkeit, Fettsucht) bei Kindern). Zur
Erkennung von Übergewicht wird häufig der sogenannte Body Mass Index
BMI =
Körpergewicht [kg]
(Körpergröße)2 [m2 ]
verwendet. Für Erwachsene gelten folgende von der Weltgesundheitsorganisation festgelegte
Grenzen:
BMI
< 19
19 − 25
25 − 30
> 30
Einstufung
Untergewicht
Normalgewicht
Übergewicht
Adipositas
Dieses Schema lässt sich jedoch nicht auf Kinder übertragen, da diese im Allgemeinen einen
viel kleineren BMI besitzen als Erwachsene. Daher benötigt man für Kinder anderes Vorgehen,
zum Beispiel durch folgende zwei Schritte:
1. Bilden einer Referenzpopulation; hier sind mehrere Methoden möglich, zum Beispiel
unterschiedliche Referenzpopulationen für verschiedene Länder und getrennt nach Altersstufen.
2. Ein Kind wird als übergewichtig bzw. adipös eingestuft, wenn der BMI größer ist als
bestimmte Quantile der Referenzpopulation, zum Beispiel könnte ein Kind als übergewichtig gelten, wenn der BMI größer ist als das 90%-Quantil der Referenzpopulation,
und als adipös, wenn der BMI größer ist als das 97%-Quantil.
43
Q 0.97
Anmerkung: In diesem Beispiel liegen zusätzlich Längsschnittdaten vor, dies wird hier jedoch
nicht weiter betrachtet.
In diesem Beispiel würde ein Standardmodell wie das lineare Modell zunächst nicht die Frage
beantworten, welche Einflussfaktoren für Adipositas verantwortlich sein könnten, da es nur
den mittleren BMI als Funktion der Kovariablen modelliert.
Warum zunächst”? — Unter Umständen liefert auch das lineare Modell den gewünschten
”
Zusammenhang (folgt später).
Definition 6.3. Eine reellwertige Zufallsvariable Y wird durch ihre (rechtsstetige) Verteilungsfunktion charakterisiert:
FY (y) = P(Y ≤ y) .
Für jedes τ , 0 < τ < 1, ist
yτ = Qτ (y) = FY−1 (τ ) = inf {y : F (y) ≥ τ }
das τ · 100%-Quantil von Y .
Definition 6.4. Bei Vorliegen von Kovariableninformation lassen sich entsprechend Definition 6.3 die bedingte Verteilung
FY |X=x (y) = P(Y ≤ y|X = x)
und die bedingte Quantilsfunktion Qτ als
Qτ (y|X = x) = FY−1
|X=x (τ |X = x) = yτ (x)
definieren.
Bemerkung.
1. Die bedingte Quantilsfunktion stellt die τ -Quantile von Y in Abhängigkeit von Kovariablen X = x dar (zunächst nur formal!).
44
2. Angenommen, es gilt das lineare Modell
Yi = β0 + β1 xi + εi ,
εi
i.i.d.
∼ N (0, σ 2 ) .
Dann folgt:
FYi |X=xi (y) = P(Yi ≤ y|X = xi )
Yi − β 0 − β 1 x i
y − β0 − β1 xi
= P
≤
σ
σ
y − β0 − β1 xi
(Φ = Verteilungsfkt. der Standard-NV)
= Φ
σ
= τ
⇐⇒
yτ (xi ) − β0 − β1 xi
= Φ−1 (τ )
σ
mit
yτ (xi ) = Qτ (y|X = xi ) = β0 + β1 xi + σ · Φ−1 (τ )
bzw.
Qτ (y|X = x) = β0 + β1 x + σ · Φ−1 (τ )
= (β0 + σ · Φ−1 (τ )) + β1 x .
|
{z
}
β0τ
Das heißt, im klassischen linearen Regressionsmodell mit Normalverteilungsannahme
entspricht β1 sowohl dem Einfluss der Kovariablen auf den bedingten Erwartungswert
als auch dem Einfluss der Kovariablen auf die bedingte Quantilsfunktion. Die bedingte
Quantilsfunktion geht durch Parallelverschiebung (um σ · Φ−1 (τ )) aus der bedingten
Erwartungswertfunktion hervor.
Speziell: Für τ = 0.5 (bedingte Medianfunktion) ergibt sich wegen der Symmetrie der
Dichte der Standardnormalverteilung:
Φ−1 (τ ) = 0 ⇒ Q0.5 (y|X = x) = β0 + β1 x.
3. Betrachte
Yi = β0 + β1 xi + εi
i.i.d.
mit εi ∼ Fε .
Analoge Berechnungen wie in 2. führen auf
Qτ (y|X = x) = β0 + Fε−1 (τ ) + β1 x .
Fε ist nicht notwendigerweise symmetrisch, das heißt Fε−1 (0.5) ist im Allgemeinen ungleich 0 und die bedingte Medianfunktion ist ungleich der bedingten Erwartungswertfunktion.
Ansonsten: Wiederum Parallelverschiebung im i.i.d.-Fall.
45
Die folgende Grafik zeigt theoretische Quantilsfunktionen für 2. und 3.
Symmetrischer Fall (2) (c gleich c')
Unsymmetrischer Fall (3) (c ungleich c')
τ = 0.9
τ = 0.9
τ = 0.5
Qτ(y|X=x)
Qτ(y|X=x)
τ = 0.5
τ = 0.1
x
τ = 0.1
x
Idee für die Praxis:
Schätze für eine Folge von Werten von τ , zum Beispiel τ = 0.05, 0.1, . . . , 0.95, jeweils eine
bedingte Quantilsfunktion
Qτ (y|X = x) = x> βτ .
Damit lässt sich die gesamte bedingte Verteilung charakterisieren/modellieren, im Gegensatz
zur klassischen linearen Regression, wo wir nur den bedingten Erwartungswert erhalten (vgl.
Mittelwert/Boxplot im univariaten Fall).
6.5.2
Spezialfall: Zweistichproben-Problem
Betrachte eine Zielvariable yi , die durch eine Kovariable xi mit genau zwei möglichen Ausprägungen spezifiziert wird; zum Beispiel könnte yi ein Blutwert sein und
0 Placebo,
xi =
1 Medikament.
Wir nehmen für yi |xi eine Normalverteilung an:
yi |{xi = 0} ∼ N (µ0 , σ02 ),
yi |{xi = 1} ∼ N (µ1 , σ12 ).
Es ergeben sich drei mögliche Situationen:
1. Location-Shift: µ1 = µ0 + ∆ (µ0 6= µ1 ), aber σ02 = σ12 .
2. Scale-Shift: σ02 6= σ12 , aber µ0 = µ1 .
3. Location-Scale-Shift: µ0 6= µ1 , σ02 6= σ12 .
46
Scale−Shift
Location−Scale−Shift
µ0 = µ1 =10 σ0 =1 σ1 =2
µ0 =10 µ1 =11 σ0 =1 σ1 =2
●
●
●
●
●
●
●
●
●
●
1 = Med.
0 = Placebo
0.3
0.3
0.2
0.1
0.0
0.0
6
8
10
12
14
16
fY(y|x)
0.3
0.1
18
6
8
β0.2
0.2
10
12
14
16
18
4
0.0
1.0
1.0
0.8
0.8
0.6
0.4
0.2
0.0
4
6
8
10
12
14
16
18
4
6
8
10
12
14
0.4
0.2
16
18
3
2
2
1
1
βτ1
4
3
βτ1
4
0
6
8
10
12
14
16
18
0
−1
−1
−2
−2
−2
−3
−3
1.0
18
1
−1
0.8
16
y = Blutwert
2
0.6
14
yτc
4
3
0.4
12
τc
y = Blutwert
0
10
0.6
4
0.2
8
0.0
y = Blutwert
0.0
6
y = Blutwert
FY(y|x) = τ
FY(y|x) = τ
FY(y|x) = τ
0.4
0.2
y = Blutwert
β0.8
1 = Med.
0.0
4
1.0
0.6
●
●
●
0.1
y = Blutwert
0.8
●
●
0 = Placebo
0.4
0.2
●
●
●
1 = Med.
0.4
4
βτ1
18
16
14
12
10
8
6
4
0.4
fY(y|x)
fY(y|x)
0 = Placebo
18
16
14
12
10
8
6
4
y = Blutwert
18
16
14
12
10
8
6
4
Location−Shift
µ0 =10 µ1 =11 σ0 = σ1 =1
y = Blutwert
y = Blutwert
Skizze:
−3
0.0
0.2
0.4
τ
0.6
0.8
1.0
0.0
τ
0.2
0.4
0.6
0.8
1.0
τ
Interpretation (unter der Annahme, dass ein höherer Blutwert einem besseren Gesundheitszustand entspricht):
1. Konstanter Behandlungseffekt.
2. Positiver Behandlungseffekt rechts vom Median, negativer Behandlungseffekt links vom
Median.
3. Positiver Behandlungseffekt rechts vom Quantil yτ , negativer Behandlungseffekt links
vom Quantil yτ .
Also allgemein:
F: Placebo (X = 0)
G: Medikament (X = 1)
47
Verteilungsfunktionen
Behandlungseffekt βτ im Quantil τ :
F
G
Der Behandlungseffekt lässt sich theoretisch berechnen durch
βτ = G−1 (τ ) − F −1 (τ ) .
Empirisch:
−1
β̂τ = G−1
n (τ ) − Fm (τ ) ,
wobei Gn und Fm die empirischen Verteilungsfunktionen auf Basis von n bzw. m Beobachtungen sind.
Zusammenhang mit dem Erwartungswert:
Z +∞
Z
µ = E(Y ) =
y dF (y) =
−∞
1
F −1 (t) dt .
0
Damit gilt:
Z
1
G−1 (τ ) − F −1 (τ ) dτ = E(Y |X = 1) − E(Y |X = 0) .
0
6.5.3
Quantile als Lösung eines Optimierungsproblems, Schätzung der Parameter der Quantilregression
Es soll nun ein Schätzer β̂τ für βτ auf Grundlage eines entscheidungstheoretischen Konzepts
hergeleitet werden. Betrachte als Verlustfunktion die sogenannte Check-Funktion
ρτ (u) = u · (τ −I(u < 0)) ,
| {z }
τ ∈ (0, 1) .
Indikatorfunktion
Die Check-Funktion ist im Folgenden grafisch dargestellt. Für ein gegebenes τ bildet sie den
asymmetrischen Verlust ab. Für τ = 0.5 ergibt sich ρ0.5 (u) = 0.5|u|.
48
τ = 0.1
τ = 0.5
τ = 0.8
5
Check−Funktion ρτ (u)
4
3
2
1
0
−4
−2
0
2
u
4
Sei Y eine stetige Zufallsvariable mit der Verteilungsfunktion FY . Um einen Schätzer ŷ für yτ
zu erhalten, minimiere den erwarteten Verlust, das heißt
EFY [ρτ (y − ŷ)] → min .
(6.1)
ŷ
Satz 6.5. Der Minimierer von (6.1) ist ŷ = FY−1 (τ ).
Beweis. Nach Definition der Indikatorfunktion ergibt sich
(y − ŷ) · (τ − 1) falls y − ŷ < 0 ⇔ y < ŷ,
ρτ (y − ŷ) =
(y − ŷ) · τ
falls y − ŷ ≥ 0 ⇔ y ≥ ŷ.
Der erwartete Verlust ist somit
Z
EFY [ρτ (y − ŷ)] = (τ − 1) ·
ŷ
Z
∞
(y − ŷ) dFY (y) + τ ·
−∞
(y − ŷ) dFY (y) .
ŷ
Ableiten nach ŷ ergibt
∂
EF [ρτ (y − ŷ)] = −(τ − 1) ·
∂ ŷ Y
Z
= −τ · 1 +
Z
ŷ
Z
dFY (y) − τ ·
−∞
ŷ
dFY (y)
−∞
!
= FY (ŷ) − τ = 0
und damit
FY (ŷ) = τ ⇒ ŷ = yτ = FY−1 (τ ) .
49
∞
dFY (y)
ŷ
Damit ergeben sich die Quantile als Lösung eines entscheidungstheoretischen Optimierungsproblems mit der Check-Funktion als spezieller Verlustfunktion.
Auf diese Weise gelangt man zum Schätzprinzip in der Quantilregression ( analog” zu KQ,
”
nur mit anderer Verlustfunktion):
1. Der Minimierer
argmin
α∈R
n
X
ρτ (yi − α)
i=1
liefert α̂(τ ), das τ ·100%-Stichprobenquantil.
2. Übertrage die Idee auf die bedingte Quantilsfunktion Qτ (yi |X = xi ) = x>
i βτ :
argmin
n
X
βτ ∈Rp i=1
ρτ (yi − x>
i βτ ) .
Die Zielfunktion ist stückweise linear und stetig. → Lineare Programmierung (SimplexVerfahren).
Alternativ:
Herleitung eines Schätzers β̂τ durch Quasi-ML-Ansatz (Vorteil: asymptotische Verteilung,
Standardfehler etc.).
Dazu eignet sich die asymmetrische Laplace-Verteilung (ALD)
Y ∼ ALD(µ, σ, τ )
mit −∞ < y < ∞, µ ∈ R, σ > 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet
τ (1 − τ )
y−µ
fY (y) =
· exp −ρτ
,
σ
σ
Erwartungswert und Varianz sind
σ(1 − 2τ )
τ (1 − τ )
2
σ (1 − 2τ + 2τ 2 )
.
(1 − τ )2 τ 2
E(Y ) = µ +
Var(Y ) =
Die folgende Abbildung zeigt die Dichte der ALD-Verteilung in Abhängigkeit von den Parametern τ und σ. Links von µ beträgt die Wahrscheinlichkeitsmasse genau τ und rechts von
µ dementsprechend genau 1 − τ . Das τ · 100%-Quantil der Verteilung liegt also genau bei µ.
Außerdem ist die Dichte linksschief, falls τ > 0.5, und rechtsschief, falls τ < 0.5.
50
µ=0, σ=1
0.30
τ = 0.1
τ = 0.5
τ = 0.8
0.20
0.15
0.10
0.20
0.15
0.10
0.05
0.05
0.00
0.00
−15
−10
−5
0
5
10
σ = 0.7
σ=1
σ=3
0.25
ALD−Dichte fY(y)
ALD−Dichte fY(y)
0.25
µ=0, τ=0.3
0.30
15
−15
−10
−5
y
0
5
10
15
y
Als Quasi-Likelihood ergibt sich
( n
)
X yi − x> βτ 1
i
exp −
ρτ
→ max .
βτ
σ
σ
i=1
Dies ist äquivalent zu
n
X
ρτ (yi − x>
i βτ ) → min ,
βτ
i=1
also dem ursprünglichen Ansatz.
6.5.4
Zusammenfassung
Die Modellformel für die lineare Quantilregression lautet
yi = x >
i β τ + ετ i
mit unabhängigen, aber möglicherweise heteroskedastischen ετ i . Die einzige Forderung an
die ετ i ist
Z
Fετ i (0) =
0
f (ετ i ) dετ i = τ ,
−∞
das heißt
Fε−1
(τ ) = 0
τi
und damit
−1
>
Qτ (yi |X = xi ) = x>
i βτ + Fετ i (τ ) = xi βτ .
51
Eigenschaften der Quantilregression:
– Äquivarianz, d.h. Unempfindlichkeit von Schätzern gegenüber Transformationen oder
Reparametrisierungen der Zielvariablen, zum Beispiel
β̂τ (ay, X) = aβ̂τ (y, X),
β̂τ (y, XA) = A−1 β̂τ (y, X)
mit einem Skalar a und regulärer Matrix A. Für monoton wachsende Funktionen h gilt:
Qτ (h(y)|X = x) = h(Qτ (y|X = x)).
– Robustheit, d.h. Unempfindlichkeit von Schätzern gegenüber Ausreißern. Die Robustheit
kann zum Beispiel durch den sogenannten Breakdown Point gemessen werden, das ist
der Anteil an willkürlich ins Extreme gezogene Beobachtungen, die ein Schätzer aushält,
bevor er sich in eine extreme Richtung verändert.
– Asymptotische Verteilung (nicht i.i.d.-Fall, sondern nur Unabhängigkeit gegeben): Es
gilt
√
n(β̂τ − βτ ) → N (0, τ (1 − τ ) H−1 (τ )J(τ )H−1 (τ ))
|
{z
}
Huber Sandwich”
”
mit
n
1X
J(τ ) = lim
xi x>
i ,
n→∞ n
i=1
n
1X
H(τ ) = lim
xi x>
i · fi (yiτ ) .
n→∞ n
i=1
Dabei ist fi (yiτ ) die bedingte Dichte von yi an der Stelle yiτ .
Die Schätzung für fi (yiτ ) bzw. H(τ ) ist allerdings problematisch (→ Differenzenquotient, . . . ).
Praxis-Version:

a
β̂τ ∼ N βτ , τ (1 − τ )
n
X
!−1
xi x>
i · fi (yiτ )
i=1
n
X
i=1
!
xi x>
i
n
X
!−1 
.
xi x>
i · fi (yiτ )
i=1
– Quantilüberschneidung (Quantile Crossing): Dieses Problem tritt auf, wenn sich zwei
unabhängig voneinander ermittelte Quantilregressionskurven überschneiden. Zum Beispiel könnte für eine bestimmte Kombination von Kovariablen das (geschätzte) 90%Quantil (fälschlicherweise) größer sein als das 97%-Quantil.
– Unabhängige Schätzungen der Koeffizienten: Die Schätzungen β̂τ und β̂τ 0 für τ 6= τ 0
werden unabhängig voneinander durchgeführt; tatsächlich sind βτ und βτ 0 aber korreliert.
52
Kapitel 7
Non- und Semiparametrische
Inferenz
7.1
Einführung
In der klassischen parametrischen Inferenz betrachten wir Familien von Verteilungen bzw.
Dichten
{Pθ , θ ∈ Θ ⊆ Rp } bzw. {f (y|θ), θ ∈ Θ ⊆ Rp }
mit Daten bzw. Stichprobenvariablen“ y = (y1 , . . . , yn ), p–dimensionalem Parametervek”
tor θ = (θ1 , . . . , θp ), p fest und n > p bzw. n → ∞. Für komplexere Modelle basiert die
Inferenz auf der (Quasi-) Likelihood (Q)L(θ|y) = f (y|θ) bzw. Posteriori p(θ|x) ∝ f (y|θ)p(θ).
Dieses Kapitel beschäftigt sich mit non– und semiparametrischer Inferenz.
• Nonparametrische Inferenz (im engeren Sinn):
Statistisches Modell enthält statt unbekanntem θ = (θ1 , . . . , θp ) ∈ Rp unbekannte Funktionen f . Dabei ist f nicht durch eine feste Zahl von Parametern parametrisiert, sondern
ein unbekannter unendlichdimensionaler“ Parameter:
”
θ ∈ Rp → f ∈ Funktionenraum.
• Nonparametrische Dichteschätzung:
i.i.d.
Seien y1 , . . . , yn ∼ f (y). Schätze Dichte f , wobei kein durch einen Parameter θ parametrisierter Verteilungstyp f (y|θ) vorgegeben ist.
• Nonparametrische Regression:
i.i.d
yi = f (xi ) + εi , εi ∼ [N ](0, σ 2 )
bzw.
yi |xi ∈ Exponentialfamilie,
wobei
E(yi |xi ) = µi = h(f (xi )).
Dabei ist f eine glatte“ Regressionsfunktion und ersetzt β0 + β1 x bzw. x>
i β.
”
53
• Semiparametrische Inferenz:
Der Begriff semiparametrisch wird für folgende Situationen verwendet:
1. Modell enthält unbekannte Funktion(en) und einen unbekannten Parameter
θ ∈ Rp , zum Beispiel yi = x>
i β + f (zi ) + εi .
2. Modell enthält unbekannte Funktion, die aber als Stör- (Nuisance-) Parameter
betrachtet wird, und einen unbekannten Parameter θ. Dies ist zum Beispiel im
Cox–Modell der Fall:
λ(t, x) = λ0 (t) exp(x> β) .
| {z }
Baseline–Hazardrate
3. Modell enthält Parameter θ hoher Dimension und p = dim(θ) wächst mit n, zum
Beispiel
y = f (x) + ε
mit
f (x) =
K
X
θk Bk (x) ,
k=1
Bk (x) sind Basisfunktionen eines hochdimensionalen Funktionenraums (Glättungssplines, Regressionssplines, Wavelets, . . . ).
Inferenzkonzepte:
– frequentistische, likelihood–basiert,
– bayesianische Inferenz.
7.2
Nichtparametrische Dichteschätzung
Dieser Abschnitt wurde leicht abgeändert aus dem Vorlesungsskript von Stefan Lang zu Computerintensive Verfahren im Wintersemester 2002/03 übernommen.
7.2.1
Einführung
Gegeben sei eine i.i.d. Stichprobe x1 , ..., xn einer stetigen Zufallsvariable X mit Dichtefunktion f (x). Ziel ist die Schätzung von f durch fˆ. Zur Schätzung der Dichte unterscheiden wir
grundsätzlich zwei Konzepte:
• Parametrische Dichteschätzung
Hier nehmen wir an, dass die Verteilungsfamilie bekannt ist (zum Beispiel Normalverteilung) und lediglich einige Parameter der Verteilung (zum Beispiel Erwartungswert
und Varianz bei der Normalverteilung) unbekannt sind und geschätzt werden müssen.
Es gilt also
f (x) ∈ {f (x | θ), θ ∈ Rp },
54
wobei f nach Schätzung von θ durch θ̂ eindeutig festgelegt ist. Das Hauptproblem der
parametrischen Dichteschätzung ist, dass die Verteilungsklasse (zum Beispiel Normalverteilung) bekannt sein muss. In der Praxis ist diese leider oft nicht bekannt.
• Nichtparametrische Dichteschätzung
Hier wird im Wesentlichen nur vorausgesetzt, dass X eine stetige Zufallsvariable ist
und die Dichte f eine “glatte” Funktion. Eine bestimmte Verteilungsklasse wird nicht
vorausgesetzt. Im Folgenden sollen das Histogramm und sogenannte Kerndichteschätzer
behandelt werden.
7.2.2
Das Histogramm
Dem Histogramm liegt folgende Idee zugrunde: Zerlege den Datenbereich beginnend im Ursprung x0 (zum Beispiel x0 = 0, x0 = xmin = x(1) ) in Intervalle (sogenannte Bins) gleicher
Länge h (sogenannte Binweite). Für den j-ten Bin
Bj := [x0 + (j − 1)h, x0 + jh)
gilt
xZ
0 +jh
P(X ∈ Bj ) =
f (x) dx.
(7.1)
x0 +(j−1)h
Ein naheliegender Schätzer für (7.1) ist die relative Häufigkeit der xi im Intervall Bj , d.h.
n
P̂(X ∈ Bj ) =
1
1X
#{xi ∈ Bj } =
IBj (xi ).
n
n
(7.2)
i=1
Weiter folgt nach dem Mittelwertsatz der Integralrechnung (Voraussetzung: f stetig)
xZ
0 +jh
f (x)dx = f (ξ) · h
x0 +(j−1)h
für ein ξ ∈ Bj . Approximiert man nun f auf Bj durch einen konstanten Wert, so erhält man
unter Verwendung von (7.2)
n
1 X
fˆ(x) =
IBj (xi ),
nh
i=1
für x ∈ Bj . Damit erhalten wir folgende Definition:
Definition 7.1 (Histogramm). Sei x1 , . . . , xn eine i.i.d. Stichprobe einer stetigen Zufallsvariable X mit Dichte f . Dann heißt der Schätzer
n
1 XX
fˆh (x) =
IBj (xi )IBj (x)
nh
i=1 j∈Z
Histogramm mit Klassenbreite (Bandweite) h > 0 und Ursprung x0 .
55
Das Histogramm besitzt folgende Vor- und Nachteile:
Vorteile des Histogramms:
• Einfach zu berechnen und zu präsentieren.
• In jedem Statistikprogramm implementiert.
Nachteile des Histogramms:
• Unstetiger Schätzer für eine stetige Dichte.
• Graphische Darstellung ist abhängig von x0 .
• In ungünstigen Situationen hängt fˆh (x) mehr von Beobachtungen ab, die weiter von x
entfernt sind, als von Beobachtungen, die nahe bei x liegen, vergleiche Abbildung 7.1.
6
∗
x
∗∗
-
Abbildung 7.1: Die Grafik zeigt, dass es Fälle geben kann, bei denen weiter entfernte Beobachtungen ein größeres Gewicht bei der Schätzung von f und der Stelle x erhalten als näher
liegende Beobachtungen.
Der Einfluss der Bandweite h lässt sich wie folgt zusammenfassen:
Einfluss der Bandweite h
h→0
h klein
h groß
h→∞
Nadelplot
sehr rauhe Darstellung, große Datentreue
glatte Darstellung, wenig Datentreue
Gleichverteilung
In vielen Programmpaketen wird nicht die Bandweite h spezifiziert, sondern die Anzahl der
Intervalle (Bins). Diese Anzahl induziert dann eine bestimmte Bandweite.
Zum Einfluss der Bandweite h bzw. der Anzahl der Intervalle vergleiche die beiden folgenden
Beispiele.
Beispiel 7.1 (Mietspiegel). Abbildung 7.2 zeigt verschiedene Dichteschätzer für die Nettomiete pro Quadratmeter im Mietspiegeldatensatz. Der Einfluss der Bandweite auf die Schätzungen ist hier relativ gering.
Beispiel 7.2 (Mischung aus Normalverteilungen). Abbildung 7.3 zeigt für einen simulierten
Datensatz Dichteschätzer mit unterschiedlichen Bandweiten. Es wurden 100 Beobachtungen
simuliert aus der Dichte
f (x) = 0.6 · f1 (x) + 0.4 · f2 (x).
56
Dabei ist f1 die Dichte einer Normalverteilung mit µ = −1 und σ 2 = 1 und f2 die Dichte
einer Normalverteilung mit µ = 2 und σ 2 = 1. Es handelt sich bei f also um eine Mischung
aus zwei Normalverteilungsdichten. Die wahre Dichte ist in Abbildung (a) zu finden, die
Abbildungen (b) - (f ) zeigen Histogramme mit unterschiedlicher Klassenbreite. Hier ist der
Einfluss der Bandweite auf die Schätzungen relativ groß.
7.2.3
Kerndichteschätzer
Die im letzten Abschnitt genannten Probleme beim Histogramm können wir durch sogenannte
gleitende Histogramme umgehen:
Definiere Intervalle [x − h; x + h) der Breite 2h und lasse diese über die x-Achse “gleiten”.
Damit erhalten wir als Schätzer für f das gleitende Histogramm
1
fˆh (x) =
#{xi im Intervall [x − h, x + h)}.
2nh
(7.3)
Mit der Kernfunktion
(
K(u) =
1
2
0
|u| ≤ 1
sonst
(Rechteckskern)
erhalten wir für (7.3)
n
1 X
K
fˆh (x) =
nh
i=1
x − xi
h
.
Eine naheliegende Verallgemeinerung des gleitenden Histogramms erhalten wir, indem wir
andere Kernfunktionen als den Rechteckskern zulassen. Wir ersetzen also den Rechteckskern
durch allgemeine Kernfunktionen, die folgende Eigenschaften besitzen sollen:
1. K(u) = K(−u)
2. argmax K(u) = 0
R
3. K(u)du = 1 ,
(Symmetrie um Null),
(Maximum bei u = 0),
4. K(u) ≥ 0,
5. |u|K(u) → 0 für |u| → ∞,
6. K(u) beschränkt,
R
7. u2 K(u) du < ∞.
Die Eigenschaften 5-7 sind eher technischer Natur und werden bei asymptotischen Aussagen
zum Kerndichteschätzer benötigt, vergleiche Abschnitt 7.2.4. Beispiele für Kernfunktionen
neben dem Rechteckskern sind (vgl. auch Abbildung 7.7):
57
Abbildung 7.2: Einfluss der Bandweite beim Histogramm: Die Grafiken (a) - (f ) zeigen
Histogramme mit unterschiedlichen Bandweiten für die Nettomiete pro qm.
58
Abbildung 7.3: Einfluss der Bandweite beim Histogramm: Grafik (a) zeigt die wahre Dichte.
Die Grafiken (b) - (f ) zeigen Histogramme mit unterschiedlichen Bandweiten. Grundlage der
Schätzungen sind 100 simulierte Beobachtungen gemäß der wahren Dichte in (a).
59
• Dreieckskern: K(u) = (1 − |u|)I[−1,1] (u),
• Epanechnikovkern: K(u) = 34 (1 − u2 )I[−1,1] (u),
• Normalkern: K(u) =
√1
2π
exp(− 21 u2 ).
Damit erhalten wir
Definition 7.2 (Kerndichteschätzer). Der Schätzer
n
1 X
fˆh (x) =
K
nh
i=1
x − xi
h
n
1X
=
Kh (x − xi )
n
i=1
mit
1 u
K
h
h
heißt Kerndichteschätzer mit Kern K (bzw. Kh ) und Bandweite h > 0.
Kh (u) :=
Die Abbildungen 7.4 bis 7.6 illustrieren die Berechnung des Kerndichteschätzers. Abbildung
7.4 enthält fünf Beobachtungen (dargestellt als Kreise) und die dazugehörigen (normierten)
Kernfunktionen Kh (x − xi )/5. Der Kerndichteschätzer fˆh an einer Stelle x ist nichts anderes
als die Summe der fünf (normierten) Kernfunktionen an dieser Stelle. Dabei gehen Kernfunktionen, deren zugehörige Beobachtung näher an x liegt, mit höherem Gewicht ein. Die
Abbildungen 7.5 und 7.6 veranschaulichen, wie sich der Kerndichteschätzer ändert, wenn die
Bandweite variiert wird. Im Vergleich zu Abbildung 7.4 sind die Kernfunktionen in Abbildung 7.5 wegen der kleineren Bandweite enger und höher. Die geschätzte Dichte wird rauher.
In Abbildung 7.6 sind im Vergleich zu Abbildung 7.4 die Kernfunktionen wegen der größeren
Bandweite weiter und flacher. Die geschätzte Dichte wird glatter.
Bemerkung.
• Aus
Z
K(u)du = 1
folgt auch
Z
fˆh (x)dx = 1,
d.h. fˆh erfüllt die Voraussetzungen an einen Dichteschätzer.
• Der Schätzer fˆh (x) “erbt” die Eigenschaften des verwendeten Kerns, d.h. wenn K stetig
(stetig differenzierbar etc.) ist, übertragen sich diese Eigenschaften auf fˆh (x).
Den Einfluss der Bandweite h können wir wie folgt zusammenfassen:
h→0
h klein
h groß
h→∞
Nadelplot
rauhes Bild, relativ datentreu
glattes Bild, weniger datentreu
sehr glatte Schätzung, etwa Form von K
60
Beispiel 7.3 (Mietspiegel). In Abbildung 7.8 sind Kerndichteschätzer für die Nettomiete pro
Quadratmeter im Mietspiegelbeispiel für verschiedene Bandweiten abgebildet. Als Kernfunktion wurde der Epanechnikovkern verwendet. Die in Abbildung 7.8 (d) verwendete Bandweite
ist in gewissem Sinne optimal, vgl. Abschnitt 7.2.4.
Beispiel 7.4 (Mischung aus Normalverteilungen). Abbildung 7.9 zeigt Kerndichteschätzer
für den simulierten Datensatz (Mischung aus zwei Normalverteilungen) aus Beispiel 7.2. Als
Kernfunktion wurde der Epanechnikovkern verwendet. Ähnlich zum Histogramm hängen die
Schätzer in erheblichem Maß von der verwendeten Bandweite ab. Die in Abbildung 7.9 (d)
verwendete Bandweite ist in gewissem Sinne optimal, vgl. Abschnitt 7.2.4.
Zur Bestimmung von möglichst optimalen Bandweiten bestimmen wir im nächsten Abschnitt
zunächst statistische Eigenschaften von Kerndichteschätzern.
Abbildung 7.4: Illustration zur Berechnung des Kerndichteschätzers.
7.2.4
Statistische Eigenschaften des Kerndichteschätzers
Erwartungswert, Varianz und MSE
Der Erwartungswert von fˆh für festes x lautet
Z
1
x−y
ˆ
E(fh (x)) =
K
f (y) dy.
h
h
R
Die Varianz des Kerndichteschätzers ist
Z
1
1
2 x−y
ˆ
Var(fh (x)) =
K
f (y) dy − E(fˆh (x))2 .
2
nh
h
n
R
61
Abbildung 7.5: Illustration zur Berechnung des Kerndichteschätzers. Im Vergleich zu Abbildung 7.4 sind die Kernfunktionen wegen der kleineren Bandweite enger und höher. Die
geschätzte Dichte wird rauher.
Abbildung 7.6: Illustration zur Berechnung des Kerndichteschätzers. Im Vergleich zu Abbildung 7.4 sind die Kernfunktionen wegen der größeren Bandweite weiter und flacher. Die
geschätzte Dichte wird glatter.
62
Abbildung 7.7: Grafische Darstellung verschiedener Kerne.
63
Abbildung 7.8: Einfluss der Bandweite beim Kerndichteschätzer: Die Grafiken (a) - (f ) zeigen
Kerndichteschätzer mit unterschiedlichen Bandweiten für die Nettomiete pro qm. Die AMISE
“optimale” Bandweite ist ungefähr h = 0.85. Als Kernfunktion wurde der Epanechnikovkern
verwendet.
64
Abbildung 7.9: Einfluss der Bandweite beim Kerndichteschätzer: Die Grafiken (a) - (f ) zeigen
Kerndichteschätzer für x mit unterschiedlichen Bandweiten. Grundlage der Schätzungen sind
100 simulierte Beobachtungen gemäß der wahren Dichte (gestrichelte Linien). Die AMISE
“optimale” Bandweite ist ungefähr h = 0.6. Als Kernfunktion wurde der Epanechnikovkern
verwendet.
65
Mit Hilfe des Erwartungswerts und der Varianz können wir auch den Mean Squared Error
(MSE) von fˆh an der Stelle x berechnen. Zunächst erhalten wir für den Bias
Z
1
x−y
ˆ
ˆ
f (y) dy − f (x).
Bias(fh (x)) = E(fh (x)) − f (x) =
K
h
h
R
Damit folgt
MSE(fˆh (x)) = Var(fˆh (x)) + Bias2 (fˆh (x))
Z
1
1
2 x−y
=
f (y) dy − E(fˆh (x))2
K
2
nh
h
n
2
R
Z
1
x−y
f (y) dy − f (x) .
+
K
h
h
R
Bei den bisher betrachteten Größen handelt es sich ausschließlich um lokale Maße, d.h.
sie hängen von x ab. Ein globales Maß ist der sogenannte Mean Integrated Squared Error
(MISE). Der MISE ist definiert als
Z
MISE(fˆh ) = MSE(fˆh (x)) dx.
R
Im Gegensatz zum MSE hängt der MISE nur noch von der Bandweite h (und der unbekannten
Dichte) ab, jedoch nicht mehr von x. Damit erscheint der MISE als ein geeignetes Maß zur
Bestimmung einer möglichst optimalen Bandweite. Bevor wir jedoch zur Bestimmung einer
optimalen Bandweite kommen, beschäftigen wir uns im nächsten Abschnitt mit der Frage der
Konsistenz von fˆh (x).
Konsistenz des Kerndichteschätzers
Bekanntlich ist ein Schätzer dann MSE-konsistent, wenn der MSE gegen Null konvergiert.
Wir müssen also zeigen, dass fˆh asymptotisch erwartungstreu ist und die Varianz gegen Null
konvergiert.
Wir benötigen folgenden
Satz 7.3 (Satz von Parzen). Sei R(x), x ∈ R, eine (messbare) Funktion mit den Eigenschaften
1. sup |R(x)| < ∞ (d.h. R(x) ist beschränkt),
x∈R
Z
|R(x)| dx < ∞,
2.
R
3. |x|R(x) → 0 für |x| → ∞.
66
Sei weiterhin g(x), x ∈ R, eine (messbare) Funktion mit
R
|g(x)| dx < ∞. Betrachte die Folge
R
1
gn (x) =
hn
Z
R
x−y
hn
g(y) dy,
R
wobei hn eine Folge ist mit limn→∞ hn = 0. Dann gilt für jeden Stetigkeitspunkt x von g
Z
gn (x) → g(x) R(s) ds
R
falls n → ∞.
Beweis. Den vollständigen Beweis des Satzes findet man in Parzen (1962). Wenn man zusätzlich annimmt, dass g beschränkt ist, kann man den Beweis relativ leicht führen. Die Aussage
folgt dann aus dem Satz von der majorisierten Konvergenz (vergleiche zum Beispiel Gänssler
und Stute, 1977). Sei an eine Folge integrierbarer und beschränkter Funktionen mit integrierbarer Grenzfunktion. Dann kann man gemäß dem Satz von der majorisierten Konvergenz
Integration und Grenzwertbildung vertauschen, d.h.
Z
Z
lim
an (x) dx =
lim an (x) dx.
n→∞
n→∞
R
R
Unter Zuhilfenahme dieser Aussage erhalten wir
Z
1
x−y
lim gn (x) = lim
R
g(y) dy
n→∞
n→∞ hn
hn
Z R
= lim
R (s) g(x − shn ) ds
n→∞
Z
=
R
lim R (s) g(x − shn ) ds
n→∞
R
R
= g(x) R(s) ds.
R
Dabei haben wir in der zweiten Zeile die Substitution s = (x − y)/hn vorgenommen. Eine
Voraussetzung für die Anwendbarkeit des Satzes von der majorisierten Konvergenz ist die
Beschränktheit von R (s) g(x − shn ), was nach Voraussetzung erfüllt ist.
Mit Hilfe des Satzes von Parzen erhalten wir folgenden
Satz 7.4 (Konsistenz des Kerndichteschätzers). Sei f stetig. Dann gilt
E(fˆhn (x)) → f (x),
falls die Bandweite hn für n → ∞ gegen Null konvergiert. fˆhn (x) ist also asymptotisch erwartungstreu. Falls nhn → ∞ für n → ∞, dann gilt
Var(fˆhn (x)) → 0.
Damit ist fˆhn (x) konsistent.
67
Beweis. Zum Beweis der asymptotischen Erwartungstreue wenden wir Satz 7.3 an mit
R(x) = K(x) und
Z
1
x−y
ˆ
f (y) dy.
gn (x) = E(fhn (x)) =
K
hn
hn
R
Aufgrund des Satzes folgt
Z
gn (x) → f (x)
K(s) ds = f (x).
R
Zum Beweis der zweiten Aussage wenden wir wiederum Satz 7.3 an mit R(x) = K 2 (x) und
Z
1
2 x−y
f (y) dy.
gn (x) =
K
hn
hn
R
Es folgt
Z
gn (x) → f (x)
K 2 (s) ds.
R
Wegen
1
Var(fˆhn (x)) =
nh2n
Z
K
2
x−y
hn
f (y) dy −
1 ˆ
E(fhn (x))2
n
R
erhalten wir
1 1
0 ≤ Var(fˆhn (x)) ≤
nhn hn
Z
K
2
x−y
hn
f (y) dy =
1
gn (x) → 0.
nhn
R
Konvergenzordnung des MISE
Ein naheliegendes Optimalitätskriterium zur Wahl der Bandweite h beim Kerndichteschätzer
ist der Mean Integrated Squared Error MISE. Der MISE ist definiert als
Z
Z
Z
MISE(fˆh ) = MSE(fˆh (x)) dx = Var(fˆh (x)) dx + Bias2 (fˆh (x)) dx.
R
R
R
Zur Bestimmung der Konvergenzordnung des MISE benötigen wir zunächst die sogenannten
Landau-Symbole (bzw. die Notation Groß-O und Klein-o):
Definition 7.5 (Landau-Symbole). Gegeben seien die reellwertigen Folgen {an } und {bn }
mit n ∈ IN. Wir schreiben
an = O(bn ),
falls der Quotient
an bn 68
für n → ∞ beschränkt ist. (Sprechweise: an ist Groß-O von bn .) Die Folge {an } ist also
höchstens von derselben Größenordnung wie {bn }. Offenbar bedeutet an = O(1), dass an
beschränkt ist.
Wir schreiben
an = o(bn ),
falls der Quotient
an bn für n → ∞ gegen null konvergiert. (Sprechweise: an ist Klein-o von bn .) Die Folge {an } ist
also von geringerer Ordnung als {bn } (konvergiert schneller gegen Null). Offenbar bedeutet
an = o(1) nichts anderes als
lim an = 0.
n→∞
Nach diesen Vorbemerkungen kommen wir jetzt wieder zurück auf die Bestimmung der Konvergenzordnung des MISE.
Satz 7.6. Sei f mindestens zweimal stetig differenzierbar, f 00 beschränkt, f und f 00 quadratintegrierbar. Sei hRn eine Folge mit hn → 0 und Rnhn → ∞ für n → ∞. Unter Verwendung
der Abkürzungen g 2 (s) ds = ||g||22 und µ2 (g) = g(s)s2 ds für eine Funktion g gilt:
R
R
1
1
2
ˆ
1. Var(fhn (x)) =
||K||2 f (x) + o
nhn
nhn
Z
1
1
||K||22 + o
.
Var(fˆhn (x)) dx =
nhn
nhn
bzw.
R
2. Bias(fˆhn (x)) =
Z
hn 2
µ2 (K)f 00 (x) + o(hn 2 )
2
bzw.
hn 4 2
µ (K)||f 00 ||22 + o(hn 4 ).
Bias2 (fˆhn (x)) dx =
4 2
R
3. MISE(fˆhn ) =
1
1
hn 4 2
||K||22 +
µ2 (K)||f 00 ||22 + o
+ hn 4 .
nhn
4
nhn
Beweis. Siehe Pruscha (2000); für 3. verläuft der Beweis mit Hilfe einer Taylorentwicklung
um x, wobei y = x − shn wie im Beweis zu Satz 7.3. Verwende
Z
Z
sK(s)ds = 0 und
s2 K(s)ds =: µ2 (K) .
R
R
69
Aufgrund des Satzes stellen wir also Folgendes fest:
• Der Bias ist umso kleiner, je kleiner h gewählt wird. Andererseits wird die Varianz
kleiner, je größer h wird. Es gibt also einen Zielkonflikt zwischen der Reduzierung der
Varianz und des Bias (Bias-Varianz Trade-off).
• Der Bias hängt von f 00 (x) ab, was ein Maß für die Krümmung von f ist. Je stärker die
Krümmung, desto größer der Bias. Damit erhalten wir einen positiven Bias bei lokalen
Minima der Dichte und einen negativen Bias bei lokalen Maxima der Dichte, vergleiche
auch Abbildung 7.10.
• Bias und Varianz hängen auch vom gewählten Kern K ab, in der Regel verändern
andere Kerne den Bias aber nur unwesentlich.
Abbildung 7.10: Veranschaulichung des Bias in Abhängigkeit der Krümmung der Dichte.
Wir erhalten einen positiven Bias bei lokalen Minima und einen negativen Bias bei lokalen
Maxima der Dichte.
Zur Berechnung einer optimalen Bandweite minimieren wir den sogenannten AMISE (Asymptotic Mean Integrated Squared Error), der aus dem MISE durch Streichung der o-Terme
entsteht, d.h.
h4
1
AMISE(fˆh ) =
||K||22 + µ22 (K)||f 00 ||22 .
(7.4)
nh
4
Durch Differenzieren und Nullsetzen erhalten wir die AMISE-optimale Bandweite
h0 =
kKk22
kf 00 k22 µ22 (K)n
70
15
.
(7.5)
Offensichtlich besteht das Problem, dass die optimale Bandweite zur Schätzung von f von
Funktionalen von f abhängt. In der Praxis (zum Beispiel in STATA) setzt man daher eine
Referenzdichte ein. Nehmen wir zum Beispiel eine Normalverteilung an, dann können wir
kf 00 k22 schätzen (nachdem vorher die Varianz σ 2 durch den üblichen Schätzer σ̂ 2 geschätzt
wurde). Unter Verwendung des Normalkerns erhalten wir als “optimale” Bandweite
ĥ0 =
4σ̂ 5
3n
51
1
≈ 1.06 σ̂ n− 5 .
Ein weniger ausreißeranfälliger Schätzer für σ basiert auf dem sogenannten Interquartilsabstand R̂ = x(0.75n) − x(0.25n) . Damit erhalten wir als neue Faustregel für h0
1
ĥ0 = 0.79 R̂ n− 5 .
Man beachte, dass R̂ ≈ 1.34σ̂ (falls als Referenzdichte eine Normalverteilung zugrundegelegt
wird). Eine Kombination beider Regeln liefert
!
1
R̂
ĥ0 = 1.06 min σ̂,
n− 5 .
1.34
Unter Verwendung des Epanechnikov Kerns erhalten wir
!
1
R̂
ĥ0 = 0.9 min σ̂,
n− 5 .
1.34
Als “Nebenprodukt” der AMISE-optimalen Bandweitenwahl können wir die Konvergenzgeschwindigkeit bestimmen, mit welcher der AMISE gegen Null geht. Einsetzen von (7.5) in
den AMISE (7.4) liefert
4
4
2
5
AMISE(fˆh0 ) = kKk22 5 (µ2 (K) kf 00 k22 ) 5 n− 5 .
4
(7.6)
4
Für wachsendes n wird der AMISE mit der Rate n− 5 kleiner. Beim Histogramm wird der
2
AMISE nur mit einer Rate von n− 3 kleiner, d.h. Kerndichteschätzer haben eine höhere Konvergenzgeschwindigkeit als Histogramme.
Wir stellen fest, dass im Ausdruck (7.6) ein Faktor
4
2
F (K) = (||K||22 ) 5 µ2 (K) 5
vorkommt, der nur vom Kern K abhängt. Durch Minimierung dieses Faktors bezüglich K
können wir einen in gewissem Sinne optimalen Kern bestimmen. Man kann zeigen, dass der
Epanechnikov Kern den Faktor F (K) minimiert.
Für die Inferenz benötigt man Verteilungsaussagen über Schätzer.
71
Asymptotische Verteilung und Konfidenzintervalle
Zur asymptotischen Verteilung und Konfidenzintervallen existiert folgende Aussage:
Satz 7.7 (Asymptotische Verteilung). f 00 (x) existiere; es gelte hn = cn−1/5 . Dann ist der
Kern-Dichteschätzer fˆhn (x) asymptotisch normalverteilt,
c2
n
o
2
d
f 00 (x) µ2 (K), c−1 f (x)||K||22
n 5 fˆhn (x) − f (x) → N
{z
}
|2
{z
} |
bx
vx2
für n → ∞.
Im Vergleich zur parametrischen asymptotischen Verteilungstheorie im i.i.d. Fall, zum Beispiel
bei ML-Inferenz, wird also mit n2/5 statt n1/2 normiert. Dies ist nötig, um die Konvergenzgeschwindigkeit korrekt zu berücksichtigen.
Approximativ gilt also (mit h := cn−1/5 )
h2
1
a
fˆh (x) ∼ N f (x) + f 00 (x) µ2 (K),
f (x)||K||22 .
2
nh
Problem: f 00 (x) in bx , f (x) in vx2 unbekannt.
Konfidenzintervalle und Konfidenzbänder
Daraus folgt das approximative (1 − α)-Konfidenzintervall
"
r
h2 00
f (x)||K||22
ˆ
fh (x) − f (x) µ2 (K) − z1− α2
,
2
nh
#
r
2
2
f
(x)||K||
h
00
2
fˆh (x) − f (x) µ2 (K) + z1− α2
2
nh
für jedes x im Träger.
Falls h klein in Relation zu n−1/5 ist, können die zweiten Terme vernachlässigt werden.
Zusätzliches Ersetzen von f (x) durch fˆh (x) führt auf
s
s
"
#
2
ˆ
ˆ(x)||K||2
f
(x)||K||
f
2
2
fˆh (x) − z1− α2
, fˆh (x) + z1− α2
.
nh
nh
Dabei handelt es sich um separate“ Konfidenzintervalle für jedes x, also punktweise“
”
”
Konfidenzintervalle. Simultane Konfidenzbänder der Form
P L(x) ≤ f (x) ≤ U (x) für alle x ≈ 1 − α
sind nur unter restriktiven Annahmen erhältlich.
Anmerkung: Es ist unklar, wie gut die Asymptotik für endliches n greift. Auswege: Bootstrap
oder bayesanische Dichteschätzung.
72
Optimale Bandweite durch Kreuzvalidierung
Wir unterscheiden ML-Kreuzvalidierung (Härdle, 1999, Seite 92 ff.) und Least-Squares Kreuzvalidierung. Hier beschränken wir uns auf die Least-Squares Kreuzvalidierung. Betrachte als
Maß für den Unterschied zwischen fˆ und f den Integrated Squared Error (ISE)
Z
Z
Z
Z
ISE(h) = (fˆh (x) − f (x))2 dx = fˆh2 (x) dx − 2 fˆh (x)f (x) dx + f 2 (x) dx.
R
R
R
R
R
Wir versuchen im Folgenden, ISE(h) bzgl. h zu minimieren. Der erste Ausdruck R fˆh2 (x) dx
kann leicht berechnet werden, den letzten Ausdruck können wir weglassen, weil er nicht von
h abhängt. Für den mittleren Ausdruck gilt zunächst
Z
fˆh (x)f (x) dx = EX fˆh (X),
R
wobei der Erwartungswert bzgl. einer zusätzlichen und unabhängigen Beobachtung X gebildet
wird. Zur Schätzung dieses Erwartungwerts verwenden wir den sogenannten “leave one out”Schätzer :
n
1Xˆ
fh,i (xi ),
ÊX fˆh (X) =
n
i=1
wobei
fˆh,i (xi ) =
X
1
K
(n − 1)h
j6=i
xi − xj
h
der Kerndichteschätzer an der Stelle xi ist, bei dem xi nicht berücksichtigt wurde. Insgesamt
wird also die Kreuzvalidierungsfunktion
Z
CV(h) =
n
(fˆh2 (x))dx −
2Xˆ
fh,i (xi )
n
(7.7)
i=1
R
bzgl. h minimiert.
Das Integral in (7.7) kann analytisch berechnet werden. Dazu verwenden wir die Faltung
einer Funktion f , die definiert ist als
Z
(f ? f )(x) = f (x − y)f (y)dy.
R
73
Damit erhalten wir
Z
fˆh2 (x)dx
=
1
n2 h2
R
Z
R
=
n
X
K
i=1
!2
x − xi
h
dx
n
n Z
x − xj
1 XX
x − xi
K
dx
K
n2 h2
h
h
i=1 j=1 R
n
=
n
1 XX
n2 h
Z
n
Z
K (s) K
i=1 j=1 R
=
n
1 XX
n2 h
K (s) K
i=1 j=1 R
n
=
n
1 XX
(K ? K)
n2 h
i=1 j=1
xi − xj
+s
h
xj − xi
−s
h
xj − xi
h
ds
ds
.
Mit Hilfe der Formel für das Integral können wir schließlich CV (h) schreiben als
n
n
1 XX
CV(h) = 2
(K ? K)
n h
i=1 j=1
xj − xi
h
n
2Xˆ
−
fh,i (xi ).
n
i=1
Beispiel 7.5 (Mischung von Normalverteilungen). Abbildung 7.11 zeigt für den simulierten
Datensatz aus den Beispielen 7.2 und 7.4 die Kreuzvalidierungsfunktion. Als Kern wurde ein
Gaußkern verwendet. In diesem Fall gilt
1
(K ? K)(u) = √ exp(−u2 /4).
2 π
Das Minimum der Kreuzvalidierungsfunktion liegt ungefähr bei h = 0.6. Die Dichteschätzer
mit der CV-optimalen Bandweite findet man in Abbildung 7.12. Zum Vergleich ist die wahre
Dichte zusätzlich eingezeichnet (gestrichelte Linie).
Beispiel 7.6 (Mietspiegel). Abbildung 7.13 zeigt für die Mietspiegeldaten die Kreuzvalidierungsfunktion der Nettomiete. Wie in Beispiel 7.5 wurde ein Gaußkern verwendet. Die Abbildung zeigt ein typisches Phänomen der Kreuzvalidierung: Die Kreuzvalidierungsfunktion
besitzt kein eindeutiges Optimum.
7.2.5
Multivariate Kerndichteschätzer
Gegeben sei nun ein d-dimensionaler Zufallsvektor X
f (x1 , . . . , xd ) = f (x).
74
=
(X1 , . . . , Xd ) mit Dichte
Abbildung 7.11: Kreuzvalidierungsfunktion für die simulierten Daten aus Beispiel 7.2 (Mischung aus Normalverteilungen). Als Kern wurde ein Gaußkern verwendet. Die optimale
Bandweite ist h = 0.6.
Abbildung 7.12: Kerndichteschätzer für die simulierten Daten aus Beispiel 7.5, wobei die
CV-optimale Bandweite h = 0.6 verwendet wurde. Als Kern wurde ein Gaußkern verwendet.
Zum Vergleich ist die wahre Dichte zusätzlich eingezeichnet (gestrichelte Linie).
75
Abbildung 7.13: Kreuzvalidierungsfunktion für Nettomiete pro Quadratmeter aus dem Mietspiegeldatensatz. Die Abbildung zeigt ein typisches Phänomen der Kreuzvalidierung, die
Kreuzvalidierungsfunktion hat kein Optimum.
Weiterhin sei eine i.i.d. Stichprobe x1 , . . . , xn gegeben, die wir in der Matrix


x11 . . . x1d

.. 
..
X =  ...
.
. 
xn1 . . . xnd
zusammenfassen. Wir betrachten folgende multivariate Verallgemeinerungen von Kerndichteschätzern:
• Produktkerne:
fˆh (x) =
1
n h1 . . . hd
n
X

d
Y

i=1
K
j=1

xj − xij 
hj
mit h := (h1 , . . . , hd )0 .
• Multivariate Version univariater Kernfunktionen:
n
1 X
(x − xi )0 S −1 (x − xi )
ˆ
fh (x) =
.
K
h2
n hd
i=1
Beispiele für multivariate Kerne K(u) sind gegeben durch:
– Rechteckskern
K(u) =


für u0 S −1 u ≤ h2
1
1
hd |S| 2 c
0
0
sonst
76
mit
d
co =
π2
,
p
Γ( 2 + 1)
– Gaußkern
0 −1 uS u
K(u) =
−
.
1 exp
d
2h2
(2π) 2 hd |S| 2
1
Für die Wahl von S bestehen unter anderem folgende Möglichkeiten:
– S = I, d.h. gleiche Bandweiten in allen Dimensionen,
– S = diag(s21 , . . . , s2d ), wobei s21 , . . . , s2d die empirischen Varianzen sind,
– S = empirische Kovarianzmatrix (damit werden auch Abhängigkeiten berücksichtigt).
7.3
Bayesianische nichtparametrische Dichteschätzung
Wir betrachten die gleiche Situation wie im vorherigen Abschnitt: Sei X eine stetige Zufallsi.i.d
variable mit Dichte f = {f (x), x ∈ Träger}. Die Daten seien xi ∼ f (x), i = 1, . . . , n.
Für festes x ist f (x) skalarer, unbekannter Parameter, ähnlich wie θ bei der parametrischen
Inferenz. Dort wird für die Bayes–Inferenz die Priori p(θ) für θ benötigt, um die Posteriori f (θ|x1 , . . . , xn ) zu analysieren. Dementsprechend ist das Ziel der bayesianischen Dichteschätzung die Posteriori–Inferenz für
f (x|x1 , . . . , xn ),
die Prädiktor–Dichte für neues Xn+1 .
In der nichtparametrischen Dichteschätzung gilt nun: Für stetige Zufallsvariable X ist
f = {f (x), x ∈ Träger}
ein unendlich–dimensionaler Parameter“. Damit wird keine Priori–Wahrscheinlichkeitsver”
teilung auf Θ ⊆ Rp benötigt, sondern auf einem Funktionenraum F von zulässigen Dichten f
(bzw. von Verteilungsfunktionen F bzw. von Verteilungen PF ). Formal:
(Ω, A, P) → (F, σf , Pf )
ω 7→ f (ω) = {f (x, ω), x ∈ Träger}
(dabei ist σf eine σ–Algebra auf F und Pf Wahrscheinlichkeitsmaß auf dem Raum F aller
zulässigen Dichten f ).
Die bayesianische nichtparametrische Dichteschätzung steht im Bezug zur Theorie zufälliger
Dichten (bzw. zufälliger Wahrscheinlichkeitsmaße / Verteilungsfunktionen), engl. random
probability measures (RPM).
77
Bemerkung. Es besteht eine Analogie zu stochastischen Prozessen als zufälligen Funktio”
nen“ {X(t), t ∈ T }:
(Ω, A, P; {X(t), t ∈ T }) =
b (Ω, A, P; {f (x), x ∈ Träger})
X : (Ω, A, P) → (RT , σx , Px ) =
b f : (Ω, A, P) → (F, σf , Pf )
(Px : Bildmaß auf dem Funktionenraum RT ).
Forderungen an geeignete zufällige Verteilungen bzw. Dichten:
1. Träger von Pf auf F sollte möglichst groß sein.
2. Posteriori–Inferenz sollte analytisch (wohl selten) oder mit MCMC/Gibbs–Sampling
durchführbar sein.
⇒ Fokus auf Dirichlet–Prozessen (DP) oder Dirichlet–Prozess–Mischungen (DPM) als PrioriModelle. Weitere RPM findet man zum Beispiel in Ferguson (1974) und Müller und Quintana
(2004).
DP und DPM sind derzeit die populärsten Priori–Modelle für Dichten in der Bayes–Inferenz.
Dabei spielen sie nicht nur für die Dichte–Schätzung, sondern auch für die Dichten in der
Bayes–Inferenz eine Rolle:
Beispiel 7.7 (Linear Mixed Models).
>
yij = x>
ij β + uij γi + εij ,
i.i.d.
εij ∼ N (0, σ 2 )
i.i.d.
Bisher übliche Annahme: γi ∼ N (0, D).
Jetzt: γi i.i.d. mit Dichte f , DP(M) als Priori-Verteilung für f (γ).
7.3.1
Dirichlet–Verteilung
Sei π = (π1 , . . . , πm ) ein Punkt im (m − 1)–Simplex, d.h. 0 < πi < 1 und
α = (α1 , . . . , αm ) sei ein Parameter mit αi > 0.
• Dirichlet–Dichte:
P
Γ( m
αi ) α1 −1 α2 −1
αm −1
p(π|α) = Qm i=1
π1
π2
· · · πm
,
Γ(α
)
i
i=1
wobei πm = 1 −
Pm−1
k=1
πk .
Kurz:
π ∼ Diri(α1 , . . . , αm ) .
78
Pm
i=1 πi
= 1.
• Spezialfall m = 2: Beta–Verteilung, π = π1 , 1 − π = π2 , mit Dichte
p(π|α1 , α2 ) =
Γ(α1 + α2 ) α1 −1
π
(1 − π)α2 −1 .
Γ(α1 )Γ(α2 )
Kurz:
π ∼ Beta(α1 , α2 ) .
Es gilt mit α := α1 + . . . + αm :
E(πi ) =
E(πi2 ) =
E(πi πj ) =
αi
α
αi (αi + 1)
α(α + 1)
αi αj
α(α + 1)
i 6= j .
• Äquivalente Definitionen:
- Z1 , Z2 , . . . , Zm seien unabhängige Gamma(αi , 1)–verteilte Zufallsvariablen, αi > 0.
Dann gilt für π = (π1 , . . . , πm ) mit
Zi
πi = Pm
j=1 Zj
:
(7.8)
π ∼ Diri(α1 , α2 , . . . , αm ) .
Dieser Zusammenhang ist günstig, um Dirichlet-verteilte Zufallsvariablen zu generieren.
- Stick–Breaking–Repräsentation (vgl. Abschnitt 4.5.2).
• Eigenschaften:
- Aggregationseigenschaft:
π̃ = (π1 , . . . , πi + πi+1 , . . . , πm ) ∼ Diri(α1 , . . . , αi + αi+1 , . . . , αm )
(Der Beweis erfolgt über die Repräsentation durch normalisierte Gamma–Zufallsvariablen (7.8).)
Allgemein ist die Aggregation einer Teilmenge von Dirichlet–Komponenten Dirichletverteilt mit entsprechender Aggregation des Parameters. Zum Beispiel gilt
!
X
X
X
πik ∼ Beta
α ik , α −
α ik
k
für eine Teilmenge {ik }, mit α =
k
P
k
αi .
- Konjugierte Priori–Familie für Multinomialverteilung:
Sei Z = (Z1 , . . . , Zm ) multinomial verteilt, also Z ∼ M (1, π), mit P(Zk = 1) = πk .
79
Mit der Dirichlet–Priori p(π) ∼ Diri(α) gilt für die Posteriori
f (π|z) ∝ f (z|π)p(π)
zm
αm −1
)(π1α1 −1 · · · πm
)
∝ (π1z1 · · · πm
zm +αm −1
= π1z1 +α1 −1 · · · πm
,
d.h.
π|z ∼ Diri(z + α)
bzw.
π|z ∼ Diri(αpost )
mit
αkpost
(
αk + 1
=
αk
für zk = 1
sonst
(k = 1, . . . , m) .
Die Dirichlet–Verteilung ist grundlegend für den DP und für DPMs im nächsten
Abschnitt.
7.3.2
Dirichlet-Prozesse
Sei (Ω, A) ein messbarer Raum, zum Beispiel (Ω, A) = (R, B) oder (RP , B P ). G0 sei Wahrscheinlichkeitsmaß bzw. eine Verteilung(-sfunktion) auf (Ω, A); weiterhin sei α0 > 0.
def
Definition 7.8 (Dirichlet-Prozess). Ein Dirichlet-Prozess (DP) ist ein RPM G auf (Ω, A) :⇔
Für jede finite Partition (A1 , . . . , Am ) von Ω mit Aj ∈ A ist der Zufallsvektor
(G(A1 ), . . . , G(Am )) dirichletverteilt mit
(G(A1 ), . . . , G(Am )) ∼ Diri(α0 G0 (A1 ), . . . , α0 G0 (Am )),
kurz:
G ∼ DP(α0 , G0 ).
G0 heißt Basis-Verteilung (base measure), α0 heißt Präzisionsparameter und bestimmt die
Varianz um E(G).
Es gilt:
- E(G) = G0 .
- Je größer α0 , umso ähnlicher wird G (genauer: die Realisierungen von G) der Basisverteilung G0 .
80
Beispiel 7.8. Eine mögliche Basisverteilung G0 ist N (µ0 , Σ0 ) bzw. N (µ0 , σ02 ).
G0
G0 (A4 )
A1
A2
A3
A4
A5
(G0 (A1 ), . . . , G0 (A5 )) ∼ Diri(α0 G0 (A1 ), . . . , α0 G0 (A5 ))
Konjugiertheit des DP
i.i.d.
Sei G ∼ DP(α0 , G0 ) und θ1 , . . . , θn | G ∼ G. Das heißt: Zuerst wird eine Realisierung von
G ∼ DP gezogen, dann θ1 , . . . , θn aus der realisierten Verteilung G. Dann ist die Posteriori
G | θ1 , . . . , θn ∼ DP α0 + n,
n
α0
1 X G0 +
δθi .
α0 + n
α0 + n
i=1
|
{z
}
=: G
post
Dabei ist δθ (·) Punktmasse in θ:
•
1
0 sonst
-
θ
Somit ist G | θ1 , . . . , θn wieder ein Dirichlet-Prozess,
aber mit aufdatierten Parametern
P
αpost = α0 + n und Gpost = α01+n (α0 G0 + ni=1 δθi ). Gpost ist gemischt stetig-diskret, falls
G0 stetig.
81
α0
α0 +n G0
Dichte“:
”
•
•
•
1
α0 +n δθi
θ1
θn
θi
Verteilungsfunktion“:
”
6
...
Für MCMC-Inferenz ist entscheidend: Wie kann man Zufallszahlen aus einem DirichletProzess ziehen? Dazu sind andere (konstruktive) Repräsentationen des DP nützlich bzw.
notwendig, zum Beispiel
1. Stick-Breaking- (SB, Steckerlbruch-) Prozess
2. Polya-Urnen-Prozess
3. Chinese-Restaurant- (Chinaturm-) Prozess
Mit 2. und 3. kann man aus vollständig bedingten Verteilungen
θi | θ−i , · ,
i = 1, . . . , n,
ziehen. Als Probleme treten hierbei langsame Konvergenz bzw. langsames Mixing auf.
Mit 1. wird die Konstruktion eines (approximativen) Block-Gibbs-Samplers für
(θ1 , . . . , θn ) = θ | ·
möglich.
Steckerlbruch-Repräsentation eines DP
Nach Sethuraman (1994) können die Realisierungen G eines DP folgendermaßen repräsentiert
werden:
G(A) =
∞
X
πk δφk (A)
mit
k=1
82
i.i.d.
φ k ∼ G0
für beliebiges A ∈ A und
πk = βk
k−1
Y
(1 − βj )
mit
i.i.d
βk ∼ Beta(1, α0 ).
j=1
Dabei gilt
∞
P
πk = 1 sowie π1 = β1 .
k=1
Somit können Realisierungen eines DP als infinite Mischungen von Punktmassen repräsentiert
bzw. generiert werden. Die Lokationen φk der Punktmassen δφk (·) sind i.i.d.-Realisierungen
aus G0 ; die zufälligen Gewichte πk werden durch die SB-Prozedur erzeugt.
Visualisierung der Steckerlbruch-Prozedur:
0
1 − β1
β1
1
π2 = β2 (1 − β1 )
β1 = π1
πk
Die SBP-Repräsentation zeigt: Der DP definiert ein (fast sicher) diskretes RPM. Damit ist
der DP selbst noch nicht als RPM-Priori für stetige Verteilungen F geeignet. Wir gehen
deshalb später zu DP-Mischungen über.
Trunkierter Dirichlet-Prozess (TDP)
Für MCMC-basierte Posteriori-Inferenz wird der SBP nach endlich vielen Schritten abgebrochen:
T
T
−1
X
X
GT (·) =
πk δφk (·),
πT := 1 −
πk
k=1
k=1
Ishwaran und James zeigen, dass für T → ∞ gilt: GT (·) − G(·) konvergiert (in L1 -Norm)
exponentiell schnell gegen 0.
Polya-Urnen-Repräsentation eines DP
Literatur: Blackwell and MacQueen (1973)
Sei G ∼ DP(α0 , G0 ) und θ | G ∼ G(·). Dann ist
n−1
X
1
α0
θn | θ1 , . . . , θn−1 , α0 , G0 ∼
G0 +
δθj .
n − 1 + α0
n − 1 + α0
j=1
Dabei wurde bezüglich G marginalisiert, d.h. G herausintegriert:
P (θn | θ1 , . . . , θn−1 , α0 , G0 ) ∝
Z Y
n
j=1
83
P (θj | G) P (G | α0 , G0 ) dG.
(7.10)
Formel (7.10) zeigt einen Clustering (Klumpen)-Effekt:
α0
n−1+α0
nk
n−1−α0
+
Q
QQ
s
6 6
6
66
6
Θ
6
6
θj
Die Beobachtung φk := θk tritt nk mal auf (bei vorangehenden Ziehungen θ1 , . . . , θn−1 ).
Mit Wahrscheinlichkeit α0 /(n − 1 + α0 ) wird θn aus G0 gezogen; mit Wahrscheinlichkeit
nk /(n−1+α0 ) ist θn gleich einem θk = φk , das schon nk -mal auftrat. Je größer α0 , desto größer
ist die Wahrscheinlichkeit, aus G0 zu ziehen, und desto kleiner ist die Wahrscheinlichkeit,
θn gleich einem bereits vorhandenen θk zu setzen.
Clustering-Effekt
Es gilt gemäß dem Erwartungswert einer dirichletverteilten Zufallsvariable
α0 G0 (A) +
E (G(A) | θ1 , . . . , θn ) =
n
P
j=1
α0 + n
δθj (A)
α0 G0 (A) +
K
P
nk δφk (A)
k=1
=
α0 + n
,
wobei φ1 , . . . , φK die K verschiedenen Werte der θ1 , . . . , θn bezeichnen und nk , wie viele θj ’s
gleich φk sind Die Formel zeigt:
- Die marginale Wahrscheinlichkeit, ein φk bei einer weiteren Ziehung zu erhalten, ist
proportional zu nk .
- Die marginale Wahrscheinlichkeit, einen neuen φ−Wert zu erhalten, ist proportional
zu α0 .
Das ergibt das Polya-Urnen-Schema zum Ziehen aus DP.
Chinesisches-Restaurant-Repräsentation eines DP
Der DP lässt sich auch durch folgenden stochastischer Prozess repräsentieren: n Kunden
setzen sich sequentiell an eine (unendliche) Zahl von Tischen:
Kunde 1 setzt sich an Tisch 1.
..
.
Kunde m setzt sich an einen Tisch gemäß folgender Verteilung:
P (bereits besetzter Tisch k | θ1 , . . . , θm−1 ) ∝ nk
P (neuer unbesetzter Tisch | θ1 , . . . , θm−1 ) ∝ α0
|
{z
}
Fm−1
84
Dabei ist Fm−1 der Zustand des Restaurants, nachdem m − 1 Kunden ihre Plätze
eingenommen haben.
θ1
θ4
θ10
θ9
'$ '$ '$ '$ '$
θ5 φ1
θ11 φ2
θ2
φ5
φ4
φ3
&% &% &%
&% &%
θ8
θ3
θ6
θ7
Formal erfolgt das Ziehen gemäß des Chinese-Restaurant-Prozesses (CRP) wie folgt:
• Kunde 1 (θ1 ) betritt das Restaurant und setzt sich an Tisch 1. Dann ist θ1 = φ1 mit
θ1 ∼ G0 , K = 1, n = 1, n1 = 1.
• Für n = 2, 3, . . . gilt:
(
k
Kunde n setzt sich an Tisch
k+1
mit W’keit
mit W’keit
nk
n−1+α0
α0
n−1+α0
,
k = 1, . . . , K,
Falls ein neuer Tisch gewählt wird, erhöht sich K auf K + 1, es ist θK+1 ∼ G0 , und der
neue Tisch wird mit φK+1 gekennzeichnet.
Die resultierende bedingte Verteilung ist
K
θn | θ1 , . . . θn−1 , α0 , G0 ∼
X
α0
nk
G0 +
δφ .
n − 1 + α0
n − 1 + α0 k
k=1
DP-Mischungen (DPM)
Da der DP (fast sicher) ein diskretes RPM ist, eignet er sich selbst nicht als RPM-Priori für
stetige Verteilungen F . Das Konzept von DP-Mischungs-Modellen ist:
• θi ist latenter, mit Datenpunkt xi assoziierter Parameter, d.h θi wird nicht beobachtet.
• Der (trunkierte) DP wird benutzt, um eine Priori für die θi zu konstruieren, analog zu
finiten Mischungen von Normalverteilungen
f (xi ) =
d
X
k=1
πk φ xi | µk , σk2
| {z }
φk
(mit πk , µk , σk2 als deterministischen“unbekannten Parametern).
”
85
• Die Likelihood (gegeben die Parameter θi ) ist
n
Y
f (xi | θi ) .
i=1
• Formalisiert:
x i | θi
ind
θi | G
i.i.d
G
∼
f (xi | θi )
∼
G
∼
(T)DP(α0 , G0 )
für i = 1, . . . , n. Als Faltung geschrieben:
Z
f (x) = f (x | θ) dG(θ),
7.3.3
ind
(bzw. ∼ F (xi | θi ))
G ∼ (T)DP(α0 , G0 ).
Bayesianische Dichteschätzung mit DPM-Priori
• Klassische Sichtweise:
f = {f (x), x ∈ D ⊆ Rp } ist unbekannte, feste Dichtefunktion einer stetigen p-dimensionalen Zufallsvariable X. Speziell: Für p = 1 ist X skalare Zufallsvariable. Für
jedes (feste) x ist f (x) unbekannter, deterministischer Parameter, der aus den Daten
i.i.d.
x1 , . . . , xn ∼ f zu schätzen ist.
• Bayesianische Sichtweise:
f ist zufällige Dichtefunktion, für die eine RPM-Priori spezifiziert ist.
• Stochastische Prozesse-Sichtweise:
Für jedes (feste) x ist f (x) eine Zufallsvariable. {f (x), x ∈ D} = f ist eine Familie von
Zufallsvariablen auf (Ω, A, P) mit Parameterraum” D = Träger von X, das heißt f ist
”
stochastischer Prozess.
• Hier:
1. RPM-Priori wird als (T)-DPM-Priori in trunkierter SB-Darstellung gewählt.
2. Basisverteilung G0 als Normalverteilung.
3. Weitere Hyperparameter werden durch Priori-Verteilungen spezifiziert.
4. Block-Gibbs-Sampler von Ishwaran und James (2002) für Posteriori-Inferenz.
• Andere Gibbs-Sampler und MCMC-Algorithmen: Escobar und West (1995), MacEachern und Müller (1998), etc.
86
Zur Erinnerung: Klassisches finites Gauß-Mischverteilungsproblem
Sei
i.i.d.
• x = (x1 , . . . , xn ), xi ∼ f0 , f0 wahre Dichte,
P
• f0 (x) = dk=1 πk,0 φ(x | µk,0 , τk,0 ) finite Mischung von Normalverteilungen,
• φ(· | µ, τ )
Dichte der Normalverteilung mit Erwartungswert µ und Varianz τ > 0,
• θ = (µ(θ), τ (θ)) = (µ, τ ),
• d bekannt oder unbekannt mit d ≤ d0 .
Eine Likelihood-Schätzung von πk,0 , µk,0 und τk,0 , k = 1, . . . , d (d bekannt), lässt sich mit
dem EM-Algorithmus durchführen. Alternative: Bayes-Schätzung, siehe Frühwirth-Schnatter
(2005).
Das klassische Mischverteilungsmodell kann auch mit latenten Variablen Si , i = 1, . . . , n,
beschrieben werden:
Si
Xi | Si
i.i.d.
∼
ind
∼
Multinomial(1, π0 )
Multinomialverteilung für die d Klassen
N (µSi , τSi ),
das heißt
Xi | Si = k
⇔
f (xi | Si = k) = φ(xi | µk , τk )
für k = 1, . . . , d.
Bayes-Inferenz mit DPM-Priori: Konzept
• Allgemeines hierarchisches Modell:
x i | θi , δ
ind
θi | G(T )
i.i.d.
∼
f (xi | θi , δ) ,
i = 1, . . . , n,
∼
G(T )
δ
∼
p(δ)
G(T )
∼
(T )DP(α0 , G0 )
δ endlich-dimensionaler Parameter
Mögliche Erweiterungen bzw. Modifikationen:
– Hyperparameter in Priori p(δ)
– Hyperparameter in Basis-Verteilung G0
– statt DP anderes RPM
• Wahl von f : Modelle mit Mischung von Normalverteilungen
ind
1. xi | θi , δ ∼ N (µi , τ )
Dabei ist θi = µi , δ = τ , f (xi | θi , δ) = φ (xi | µi , τ ). Als Prioriverteilungen eignen
sich τ −1 ∼ Ga bzw. τ ∼ IG.
87
ind
2. xi | θi ∼ N (µi , τi ), θi = (µi , τi )
Hier θi = (µi , τi ), f (xi | θi , δ) = φ (xi | µi , τi ).
ind
3. xi | θi ∼ MVN(µi , Σ).
ind
4. xi | θi ∼ MVN(µi , Σi ).
Diese Modelle sind zum Beispiel im R-Paket DPpackage implementiert.
Bemerkung.
1. entspricht Kern-Dichteschätzung mit Gauß-Kern und globaler Bandweite h.
2. entspricht Kern-Dichteschätzung mit Gauß-Kern und lokal-adaptiver Bandweite hx .
3.,4. Multivariate Versionen.
• Repräsentation von (T)DP durch (T)SP:
GT (· ) =
T
X
πk δφk (·),
k=1
i.i.d.
φk ∼ G 0
Dabei ist π = (π1 , . . . , πT ) ein trunkierter SB-Prozess:
π1 = β1
πk = (1 − β1 )(1 − β2 ) · . . . · (1 − βk−1 )βk
πT
für k = 2, . . . , T − 1
= 1 − π1 − · · · − πT −1
und
i.i.d.
β1 , . . . , βT −1 ∼ Beta(1, α0 ).
Bemerkung. Für andere MCMC-Algorithmen ist keine SP-Repräsentation notwendig;
siehe z.B. Neal (2000), insbesondere Algorithmen 7 und 8. Dabei wird das hierarchische
Modell bezüglich G marginalisiert:
x i | θi , δ
ind
∼
f (xi | θi , δ)
θ1 , . . . , θ n
∼
p(θ1 , . . . , θn )
δ
∼
p(δ),
wobei p(θ1 , . . . , θn ) durch das Polya-Urnen-Schema definiert ist.
• Reformulierung des Modells mit Klassifikationsvariablen:
Latente Klassifikationsvariablen c = (c1 , . . . , cn ) stellen Verbindung zwischen
θ = (θ1 , . . . , θn ) und φ = (φ1 , . . . , φT ), T < n, her:
ci = k
⇔
88
θi = φ k ,
wobei φ1 , . . . , φT die verschiedenen Werte von θ1 , . . . , θn sind Für jedes i ist
ci ∈ {1, . . . , T }. Damit kann das allgemeine Modell reformuliert werden:
xi | φ, c, δ
ind
∼
f (xi | φci , δ) ,
T
X
ci | π
i.i.d.
(π, φ)
∼
p(π) × GT0 (φ)
δ
∼
p(δ)
∼
πk δk (·)
i = 1, . . . , n,
(d.h. P(ci = k) = πk )
k=1
mit GT0 (φ) =
T
Q
G0 (φk ) als Produkt-Wahrscheinlichkeitsmaß.
k=1
• Diese Reformulierung ist der Schlüssel für den Block-Gibbs-Sampler von Ishwaran und
James. Dabei wird iterativ aus den vollständig bedingten Dichten
(φ | c, δ, x)
(c | φ, π, δ, x)
(π | c)
(δ | φ, c, x)
gezogen. Jede Ziehung φ(b) , c(b) , π (b) , δ (b) generiert ein (zufälliges) Wahrscheinlichkeitsmaß
T
X
(b)
(b)
πk δφ(b)
GT =
k=1
k
als Realisierung des Posteriori-RPM (GT | x).
• Block-Gibbs-Algorithmus:
Sei g0 (φ) die Dichte der Basis-Verteilung G0 , und
c∗ = {c∗1 , . . . , c∗m }
die aktuelle Menge der m ≤ n voneinander verschiedenen Werte von c = (c1 , . . . , cn ).
1. (φ | · ): Ziehe
i.i.d.
φk ∼ g0 (φ)
für k ∈ c\c∗ .
φc∗j | c, δ, x
für j = 1, . . . , m
Ziehe
mit
p φc∗j | c, δ, x
∝
g0 (φc∗j )
Y
i : ci =c∗j
89
f xi | φc∗j , δ .
2. (c | · ): Ziehe ci gemäß
P(ci = k | φ, π, δ, x) = πk,i ,
ind
ci | φ, π, δ, x ∼
k = 1, . . . , T
T
X
k=1
für i = 1, . . . , n,
πk,i δk (·)
| {z }
Mult(1,πi =(π1,i ,...,πT,i ))
Multinomialverteilung für ci ∈{1,...,T }
wobei
p(π1,i , . . . , πT,i ) ∝ π1 f (xi | φ1 , δ) , . . . , πT f (xi | φT , δ) .
3. (π | ·): Ziehe (über SB-Repräsentation der Dirichlet-Verteilung)
π1 = β1∗ ,
∗
πk = (1 − β1∗ )(1 − β2∗ ) · . . . · (1 − βk−1
)βk∗
für k = 2, . . . , T − 1
mit
ind
βk∗ ∼
T
X
Beta 1 + rk , α0 +
!
rl
l=k+1
und rk gleich der Anzahl der ci mit ci = k.
4. (δ | ·): Ziehe aus
p (δ | φ, c, x) ∝ p(δ)
n
Y
f (xi | θi , δ) ,
i=1
wobei θi = φci .
Beweisskizze.
1. Folgt wegen
p (φ | c, δ, x) ∝
T
Y
g0 (φk )
n
Y
f (xi | φci , δ)
i=1
k=1

∝
Y
g0 (φk ) 

Y
g0 (c∗j )
f xi | φc∗j , δ  .
i : ci =c∗j
j∈c∗
k∈c\c∗

Y
2. Folgt aus
P (ci = k | φ, π, δ, x) = P(ci = k) f (xi | φk , δ) =: πk,i
⇔
ci | φ, π, δ, x ∼
T
X
πk,i · δk (·).
k=1
3. Man benutzt die Konjugiertheit von Multinomial-Verteilung und Dirichlet-Verteilung; somit ist π | · wieder dirichletverteilt mit aufdatierten Parametern. Anschließend SB-Präsentation der Dirichletverteilung benutzen.
4. Standardargument.
90
Dichteschätzung basierend auf Mischung von Normalverteilungen
Modell:
x i | θi
ind
θi | GT
i.i.d
∼
GT
N (µi , τi ),
θi = (µi , τi )
∼
GT
∼
TDP in SB-Darstellung
Basis-Verteilung G0 für φk = (µk , τk ), k = 1, . . . , T :
µk , τk
µk | µ0 , σ 2
τk−1 | a1 , b1
unabhängig
i.i.d
∼
N (µ0 , σ 2 ),
i.i.d.
Ga(a1 , b1 )
∼
σ 2 gegeben
Hyperprioris:
(α0 | a2 , b2 )
µ
i.i.d.
∼
Ga(a2 , b2 )
∼
N (0, A),
A groß, z.B. 1000.
Spezialfall: τ1 = · · · = τk =: τ0 , τ0−1 ∼ Ga(a0 , b0 ).
Wahl von a0 , b0 , a1 , b1 , a2 , b2 : schwach informativ, d.h.
τk ∼ IG(, ),
α0 ∼ Ga(, ).
Alternative für τk :
i.i.d.
∼
U (0, B),
σ
≈
4 · σ̂
(Schätzung aus Daten),
T
≈
50
(bei n ≈ 1000).
τk
B groß,
Block-Gibbs-Sampler
Ziehe iterativ aus folgenden vollständig bedingten Dichten (Full Conditionals):
(µ | τ , µ0 , x)
(τ | µ, c, x)
(c | π, µ, τ , x)
(π | c, α0 )
(α0 | π)
(µ0 | µ).
Nach Burn-in-Phase wird aus der Posteriori
(µ, τ , c, π, α0 , µ0 | x)
91
gezogen. Typisches Sample: (µ(b) , τ (b) , π (b) ). Damit ist
(b)
GT (·) =
T
X
(b)
πk δ(µ(b) ,τ (b) ) (·)
k
k=1
k
eine Ziehung aus der Posteriori GT | x und
T
X
(b)
(b)
(b)
πk φ(Xn+1 | µk , τk )
(7.11)
k=1
eine Ziehung aus der Prädiktiv-Verteilung f (Xn+1 | x). Daher kann f (Xn+1 | x) aus dem
Posteriori-Output geschätzt werden (betrachte f (xn+1 | x) für ein Gitter von x-Werten).
Block-Gibbs-Algorithmus
Seien {c∗1 , . . . , c∗m } die aktuellen, voneinander verschiedenen Werte der Klassenvariablen/
Klassenindikatoren c = {c1 , . . . , cn }.
1. (µ | ·): Ziehe für jedes j ∈ {c∗1 , . . . , c∗m }
ind
(µj | τ , c, µ0 , x) ∼ N (µ∗j , σj∗ )
mit
nj
1 −1
σj∗ =
,
+
τj
σ


X x i µ0
µ∗j = σj∗ 
+ ,
τj
σ
i : ci =j
nj = Anzahl der ci mit ci = c∗j .
Für j ∈ c \ {c∗1 , . . . , c∗m } ziehe
i.i.d.
µj ∼ N (µ0 , σ).
2. (τ | ·): Ziehe für jedes j ∈ {c∗1 , . . . , c∗m }

(τj−1

2
X
(xi − µj ) 
nj
ind
, b1 +
.
| µ, c, x) ∼ Ga a1 +
2
2
i : ci =j
Für j ∈ c \ {c∗1 , . . . , c∗m } ziehe
i.i.d.
τj−1 ∼ Ga(a1 , b1 ).
3. (c | ·): Ziehe
ind
(ci | π, µ, τ , x) ∼
T
X
πk,i δk (·),
i = 1, . . . , n,
k=1
p(π1,i , . . . , πT,i ) ∝
!
π1
1
πT
1
2
2
(xi − µ1 ) , . . . , √ exp − (xi − µT )
.
√ exp −
τ1
2τ1
τT
τT
92
4. (π | c, α0 ): Ziehe
π1 = β1∗ ,
∗
πk = (1 − β1∗ )(1 − β2∗ ) · · · · · (1 − βk−1
)βk∗ ,
k = 2, . . . , T − 1,
mit
ind
βk∗ ∼
T
X
Beta 1 + rk , α0 +
!
rl
k = 1, . . . , T − 1.
,
l=k+1
Dabei ist rk die Anzahl der ci mit ci = k.
5. (α0 | π): Ziehe
α0 | π ∼ Ga T + a2 − 1, b2 −
T
X
!
log(1 −
βk∗ )
k=1
mit βk∗ wie in 4.
6. (µ0 | ·): Ziehe
(µ0 | µ) ∼ N (µ∗0 , σ ∗ )
mit
∗
σ =
µ∗0 =
1
T
+
σµ A
−1
,
T
σ∗ X
µk .
σµ
k=1
Bemerkung. Für τ0 := τ1 = · · · = τT (gleiche Varianzen) wird 2. ersetzt durch
!
n
2
X
n
(x
−
µ
)
i
ci
(τ0−1 | µ, c, x) ∼ Ga a0 + , b0 +
.
2
2
i=1
7.3.4
Semiparametrische GLMM basierend auf DP(M)-Priori für zufällige
Effekte
Longitudinaldaten:


yi1


yi =  ...  ,
yini

x>
i1
 
Xi =  ...  ,
x>
in


>
zi1
 
Zi =  ...  ,
>
zin

i = 1, . . . , n
LMM:
yi = Xi β + Zi γi + εi ,
εi ∼ N (0, σ 2 Ini )
GLMM:
E(yi | ηi ) = h(ηi ) = µi ,
93
ηi = Xi β + Zi γi + εi
Logit-Mixed Model, nur mit Intercept“:
”
exp(ηij )
yij ∼ B(1, πij ), πij =
,
1 + exp(ηij )
i = 1, . . . , n, j = 1, . . . , n
Random-Intercept-Modell:
ηij = x>
ij β + γi
i.i.d.
Standardannahme: γi ∼ N (γ, τ 2 ) bzw. bei fixem Intercept in β
i.i.d.
γi ∼ N (0, τ 2 ).
Jetzt: Semiparametrisches Logit-Mixed Model mit
γi |G(T ) ∼ G(T ) ,
G(T ) ∼ (T)DP
oder
γi |θi ∼ N (µi , τi ),
θi = (µi , τi ) ∼ DP
mit Parametern
G0 ∼ N (µ0 , σ02 )
und α0 > 0.
Implementation für LMM und GLMM in R-Paket DPpackage von Jara (2007).
7.4
7.4.1
Glättung und semiparametrische Regression
Glättung von Zeitreihen: Straffunktion für Differenzen und IrrfahrtModelle
Ziel des Abschnitts ist die Darstellung der engen Beziehung zwischen klassischer Glättung (das
heißt Schätzung des Trends), basierend auf penalisierter KQ-Schätzung, und bayesianischer
Glättung, basierend auf Irrfahrt-Modellen (random walks) als Glattheits-Prioris (smoothness
priors).
Klassische Glättung durch penalisierte KQ-Schätzung
Die Zeitreihe y = (y1 , . . . , yt , . . . , yn )> mit äquidistanten Zeitpunkten t = 1, . . . , n wird in
Trend und zufälligen Fehler zerlegt:
yt = γt + εt
(t = 1, . . . , n) ,
wobei γ = (γ1 , . . . , γn )> glatter” Trend (γt := f (t)) und ε = (ε1 , . . . , εn )> irregulärer Fehler
”
(noise) mit E(εt ) = 0.
94
Ansatz von Whittaker (1923, ’method of graduation’): Schätze γ durch Minimierung des
penalisierten KQ-Kriteriums
PKQ(γ) =
n
X
(yt − γt )2 + λ
n
X
t=1
(γt − 2γt−1 + γt−2 )2
t=3
bezüglich γ. Die Minimierung von PKQ benötigt einen Kompromiss zwischen zwei Zielen:
guter Anpassung an die Daten gemessen durch das KQ-Kriterium des ersten Terms, und
Glattheit des Trends, gemessen durch die Straffunktion (roughness penalty)
pen(γ) =
n
X
(∆2 γt )2 ,
t=3
der Summe quadrierter zweiter Differenzen
∆2 γt = γt − 2γt−1 + γt−2 .
Der Glättungsparameter λ steuert den Kompromiss (trade-off ) zwischen beiden Zielen.
(Stillschweigende) Zusatzannahme: Fehler εt sind unabhängig, Var(εt ) = σ 2 für t = 1, . . . , n;
ansonsten ist der KQ-Term zu modifizieren.
Da für einen linearen Trend γt = a + bt gilt
pen(γ) = 0 ,
bestraft pen(γ) nur (lokale) Abweichungen von einem linearen Trend.
Allgemein können auch erste Differenzen
∆1 γt = γt − γt−1
und Differenzen d-ter Ordnung
∆d γt = ∆d−1 γt − ∆d−1 γt−1
für
pen(γ) =
n
X
(d = 2, 3, . . .)
(∆d γt )2
t=d+1
verwendet werden. Für d = 1 werden Abweichungen von der Horizontalen γt = a bestraft,
allgemein Abweichungen von einem globalen Polynom vom Grad d − 1.
Mit Differenzenmatrizen

−1
1

(n)
.
..
D1 = 
0
0

..

(n−1)×n
,
∈R
.
−1 1
(n)>
und Strafmatrizen Kd = Dd
(n)
Dd
(n)
Dd
(n−1)
∈ Rn×n gilt
pen(γ) = γ > Kd γ
95
(n)
= Dd−1 D1
(d = 1, 2, . . .) ,
∈ R(n−d)×n
zum Beispiel

1 −1
0
 −1
2 −1


.
.. ... ...
K1 = 


−1
2 −1
0
−1
1




 .


Es gilt: rg(Kd ) = n − d.
Damit:
PKQ(γ) = (y − γ)> (y − γ) + λγ > Kγ
∂PKQ(γ)
∂γ
= −2y + 2(I + λK)γ ,
und daraus folgt durch Nullsetzen
γ̂PKQ = (I + λK)−1 y .
Es gilt:
• E(γ̂PKQ ) = (I + λK)−1 γ, das heißt γ̂PKQ ist verzerrt,
• Cov(γ̂PKQ ) = (I + λK)−1 Cov(y)(I + λK)−1 = σ 2 (I + λK)−2 (mit Cov(ε) = σ 2 I).
Falls ε ∼ N (0, σ 2 I), ist γ̂PKQ normalverteilt mit diesem Erwartungswert und dieser Kovarianzmatrix.
Frage:
Wie lautet die asymptotische Verteilung von γ̂PKQ für n → ∞, falls die Fehler nicht
normalverteilt sind?
Bayesianische Glättung
Im entsprechenden bayesianischen Modell wird der Trend γ als Zufallsvektor aufgefasst. Die
Verteilungsannahme ist dann y|γ ∼ N (γ, σ 2 I). Als Priori für γ eignen sich die Irrfahrtmodelle (random walks)
i.i.d.
RW(1):
γt = γt−1 + ut ,
ut ∼ N (0, τ 2 ),
RW(2):
γt = 2γt−1 − γt−2 + ut ,
ut ∼ N (0, τ 2 ),
i.i.d.
t = 2, . . . , n,
t = 3, . . . , n.
Bemerkung. Mit yt = γt + εt ist das ein spezielles State-Space-Modell mit Kalman-Filter /
Smoother zum Schätzen von γ.
Schwach informative oder uneigentliche Prioris für die Startwerte sind
p(γ1 ) ∼ N (0, c1 ), p(γ2 ) ∼ N (0, c2 )
bzw.
96
p(γ1 ) ∝ const, p(γ2 ) ∝ const.
Für die uneigentliche Startverteilung ergibt sich als Priori für γ
1
p(γ) ∝ exp − 2 γ > Kγ ,
2τ
wobei K = Kd mit rg(K) = n − d wie die Strafmatrix im PKQ-Ansatz ist. K/τ 2 ist die
Präzisionsmatrix der teilweise uneigentlichen (partially improper ) Glattheits-Priori p(γ).
Wir nehmen bei uneigentlicher Startverteilung (zunächst) vereinfachend an, dass σ 2 und τ 2
bekannt sind. Dann ist die Posteriori
f (γ|y) =
f (y|γ)p(γ)
∝ f (y|γ)p(γ)
f (y)
normalverteilt und damit ist der Posteriori-Erwartungswert gleich dem Posteriori-Modus. Der
Posteriori-Modus maximiert
log f (y|γ) + log p(γ) .
bzw. minimiert
1
1
(y − γ)> (y − γ) + 2 γ > Kγ .
2
σ
τ
Mit dem Varianzverhältnis
σ2
τ2
als Glättungsparameter gilt damit (als Punktschätzung)
λ :=
E(γ|y) = Posteriori-Modus = γ̂PKQ .
Schätzung des Glättungsparameters und der Varianzen
• Frequentistisch: λ bzw. σ 2 , τ 2 unbekannt, fest; Schätzung zum Beispiel durch (generalisierte) Kreuzvalidierung, das heißt Minimierung von (G)CV.
• Empirische Bayes-Schätzung: λ bzw. σ 2 , τ 2 unbekannt, fest; Schätzung zum Beispiel
durch (RE)ML.
• Volle Bayes-Schätzung: σ 2 , τ 2 Zufallsvariablen mit Hyperprioris p(σ 2 ), p(τ 2 ), zum Beispiel
p(σ 2 ) ∼ IG(a, b) ,
2
p(τ ) ∼ IG(c, d) ,
a, b > 0 ,
c, d > 0 .
Glättung für nicht-normalverteilte Zeitreihen
Sei yt zum Beispiel binär, binomial, kategorial oder Zählvariable, d.h. die Zielvariable ist nicht
(approximativ) normalverteilt.
Wir betrachten Beobachtungsmodelle vom GLM-Typ:
yt |γt ∼ einfache Exponentialfamilie
µt = E(yt |γt ) = h(γt )
97
(t = 1, . . . , n) .
Beispiel 7.9.
1. Binäre bzw. binomiale Zeitreihe
yt ∼ Bin(nt , πt ) ,
etwa (Tokio-) Regenfall-Daten, Schlafdaten.
πt = h(γt )
(Logit- oder Probitmodell)
Ziele: Schätze glatten” Trend für π = (π1 , . . . , πn ) bzw. γ = (γ1 , . . . , γn ).
”
2. Zähldaten
yt |λt ∼ Poisson(λt ) oder yt |λt ∼ Poisson(nt λt ) ,
wobei nt eine Anzahl von Individuen unter Risiko” sei und
”
λt = exp(γt ) .
Ziel: Schätze glatte Rate λ = (λ1 , . . . , λn ).
Die frequentistische Herangehensweise für dieses Problem ist ein penalisierter (Log-) Likelihood-Ansatz.
Konzept: Ersetze das KQ-Kriterium bzw. die (Log-) Likelihood des Beobachtungsmodells
y ∼ N (γ, σ 2 I) durch die (Log-) Likelihood l(γ) gemäß der angenommenen (Exponentialfamilien-) Dichte der bedingt unabhängigen yt |µt (t = 1, . . . , n). Dies liefert das penalisierte
(Log-) Likelihood-Kriterium
lpen (γ) = l(γ) −
λ >
γ Kγ → max
γ
2
mit Differenzen-Straffunktion γ > Kγ wie für stetige bzw. normalverteilte yt .
Beispiel 7.10.
1. Für yt |γt ∼ N (γt , σ 2 ) gilt:
l(γ) = −
1
(y − γ)> (y − γ)
2σ 2
1
1
⇒ lpen (γ) = − 2 PKQ(γ)
mit Glättungsparameter 2
2σ
τ
⇒
lpen (γ) → max ⇔ PKQ(γ) → min .
γ
γ
2. yt |πt ∼ Bin(nt , πt ), Logit-Modell für πt = h(γt )
lpen (γ) =
n
X
(yt log πt + (nt − yt ) log(1 − πt )) −
t=1
98
λ >
γ Kγ
2
3. Analog für yt |λt ∼ Po(nt λt ).
Die Bestimmung von
γ̂pen = argmax lpen (γ)
γ
erfolgt numerisch, zum Beispiel durch (penalisiertes) Fisher-Scoring bzw. durch den (penalisierten) IWLS-Algorithmus.
a
(Offene?) Frage: γ̂pen ∼ N (?)(γ, ?).
Damit offen:
Konfidenzintervalle bzw. Konfidenzbänder, Tests, zum Beispiel linearer Trend
γt = a + bt gegen nichtlinearen glatten Trend, ...
Bei der bayesianischen Glättung verfahren wir analog zum Normalverteilungsfall, d.h. wir
nehmen
n
Y
f (y|γ) =
f (yt |γt ) gemäß Beobachtungsmodell
t=1
mit Random Walk- bzw. Gauß-Glattheits-Priori
1 >
p(γ) ∝ exp − 2 γ Kγ
2τ
wie bisher an. Aber:
f (γ|y) =
f (y|γ)p(γ)
∝ f (y|γ)p(γ)
f (y)
ist nicht normalverteilt und nicht in geschlossener, bekannter Form darstellbar.
Daraus folgt im Allgemeinen:
Posteriori-Erwartung E(γ|y) 6= Posteriori-Modus .
Der Posteriori-Modus maximiert (für gegebenes τ 2 )
log f (y|γ) + log p(γ) = l(γ) −
1 >
γ Kγ
2τ 2
= lpen (γ)
mit λ :=
1
(inverser Varianzparameter) ,
τ2
das heißt die penalisierte Likelihood-Schätzung entspricht der Posteriori-Modus-Schätzung.
Diese ist jedoch analytisch nicht explizit darstellbar, sondern muss durch iterative Algorithmen numerisch berechnet werden. Die asymptotische Verteilung ist ebenfalls nicht bekannt.
Volle Bayes-Inferenz basiert auf den vollständig bedingten Dichten f (γ|τ 2 , y) und f (τ 2 |γ, y)
mit p(τ 2 ) ∼ IG wie im Gauß-Fall.
Zeitreihen-Glättung als Glättung mit P-Splines nullter Ordnung
i.i.d.
Sei yt = f (t) + εt , εt ∼ N (0, σ 2 ), mit unbekannter glatter” Trendfunktion. Angenommen,
”
f (t) ist auf dem Gitter t = 1, . . . , n stückweise konstant mit Werten γt := f (t) und rechtsseitig
stetig.
99
g
g
g
n
2
g
j
1
t
1
2
j+1
j
n
Mit B-Splines nullter Ordnung
(0)
Bj (t)
=
1 für t ∈ [j, j + 1)
0 sonst
j+1
j
gilt dann f (t) =
(0)
j=1 γj Bj (t)
Pn
für t ∈ R+ .
P
Die Penalisierung von Rauheit durch die Differenzen-Penalty j (∆d γj )2 führt auf eine penalisierte B-Spline-Schätzung von f (t) wie in generalisierter Regression. Den ersten” P-Spline”
Ansatz gibt es also seit 1923!
7.4.2
Ziel:
(Bayesianische) P-Splines
Frequentistische und bayesianische Schätzung einer Regressionsfunktion, die durch eine
Spline-Funktion, genauer als Linearkombination von Spline-Basisfunktionen, approximiert wird. Wie in 7.4.1 werden Basiskoeffizienten durch Strafterme bzw. GlattheitsPrioris regularisiert (Literatur: Fahrmeir, Kneib, Lang (2007), Kapitel 7).
Definition 7.9 (Spline-Funktionen, Polynom-Splines). Eine Funktion f : [a, b] → R heißt
def
(Polynom-) Spline vom Grad l ≥ 0 zu den Knoten a ≤ κ0 < κ1 < . . . < κM −1 < κM ≤ b ⇔
1. f (x) ist (l − 1)-mal stetig differenzierbar,
2. f (x) ist ein Polynom vom Grad l für x ∈ [κm , κm+1 ) mit m = 0, . . . , M − 2 und für
x ∈ [κM −1 , κM ].
Bemerkung. Für l = 1 ist f (x) stetig, für l = 0 Treppenfunktion.
Der Raum aller Splines mit Grad l und Knoten κ0 , . . . , κM ist ein K = (M + l)-dimensionaler
Unterraum des Vektorraums aller (l − 1)-mal stetig differenzierbarer Funktionen. Damit lässt
sich f (x) durch
K
X
f (x) =
γk Bk (x)
k=1
100
mit Basisfunktionen Bk (x), k = 1, . . . , K, und Basiskoeffizienten γk darstellen. Die zwei
populärsten Basen sind die Trunkierte-Potenz-Basis (TP-Basis) und die B-Spline-Basis.
(l)
(l)
Definition 7.10 (Trunkierte-Potenz- (truncated power, TP-) Basis). B1 (x), . . . , BK (x)
def
ist TP-Basis vom Grad l ⇔
(l)
(l)
(l)
B1 (x) = 1, B2 (x) = x, . . . , Bl+1 (x) = xl
(l)
(l)
Bl+2 (x) = (x − κ1 )l+ , . . . , BK (x) = (x − κM −1 )l+
mit
(x −
κk )l+
=
(x − κk )l für x ≥ κk
0
sonst.
Die TP-Basis besteht aus zwei Komponenten:
1. einem globalen Polynom vom Grad l und
2. trunkierten Polynomtermen, die das Polynom an jedem Knoten geeignet modifizieren.
Numerisch stabiler ist die B-Spline-Basis.
Definition 7.11 (B-Spline-Basis).
(l)
def
(l)
B1 (x), . . . , BK (x) ist B-Spline-Basis vom Grad l ⇔
1. Jede Basisfunktion ist stückweises, (l − 1)-mal stetig differenzierbares, nichtnegatives
Polynom vom Grad l über l − 2 benachbarten Knotenpunkten, sonst ist Bk (x) = 0.
2. Die Basisfunktionen sind so normiert, dass
K
X
(l)
Bk (x) = 1
für alle x .
k=1
B-Spline-Basisfunktionen vom Grad l ≥ 1 lassen sich rekursiv berechnen durch
1 für κk ≤ x < κk+1
(0)
Bk (x) = I[κk ,κk+1 ) (x) =
0 sonst
und
(l)
Bk (x) =
κk+l+1 − x
x − κk
(l−1)
(l−1)
Bk
(x) +
Bk+1 (x).
κk+l − κk
κk+l+1 − κk+1
Für l ≤ 3 existieren auch explizite Formeln.
Der lokale Träger und die Normierung bewirken bessere numerische Stabilität der Approximation mit B-Splines.
101
Nonparametrische (Gauß-) Regression mit penalisierten (P-) Splines
Betrachte yi = f (xi )+εi mit unabhängigen εi ∼ N (0, σ 2 ), i = 1, . . . , n, mit f (x) approximiert
durch
K
X
f (x) =
γk Bk (x) , {Bk (x)} eine Spline-Basis .
k=1
Dabei ist x (quasi-) stetige Kovariable; sie ersetzt t aus 7.4.1. Dies führt zum linearen Modell
y = Zγ + ε , ε ∼ N (0, σ 2 I)
mit Designmatrix


BK (x1 )

..

.
BK (xn )
B1 (x1 ) · · ·

..
..
Z=
.
.
B1 (xn ) · · ·
und zum KQ-Schätzer γ̂ = (Z > Z)−1 Z > y.
Bemerkung. Bei B-Splines hat Z > Z Bandstruktur (numerischer Vorteil).
Problem:
Wahl der Anzahl und Lage von Knoten:
Anzahl klein ⇒ hoher Approximations-Bias
Anzahl groß ⇒ Overfitting, Multikollinearitätsprobleme
Lösung:
Anzahl moderat (30–50), dafür penalisierte KQ-Schätzung analog zu 7.4.1; Lage
äquidistant oder quantil-basiert.
Die Wahl der Penalisierung ist abhängig von der Basis:
• Bei TP-Basis: Verwende
pen(γ) =
K
X
γk2 = γ > Kγ
k=l+2
mit

0
0
..




K = diag(0l+1 , 1M −1 ) = 








,




.
0
1
..
0

.
1
d.h. Koeffizienten γ1 , . . . , γl+1 des globalen Polynoms werden nicht bestraft; dagegen
werden Koeffizienten zu trunkierten Potenzen wie bei der Ridge-Schätzung gegen 0
geschrumpft.
Der penalisierte KQ-Schätzer ergibt sich mit
PKQ(γ) = (y − Zγ)> (y − Zγ) + λγ > Kγ
102
als
γ̂ = argmin PKQ(γ) = (Z > Z + λK)−1 Z > y.
γ
Also: Wir erhalten dieselbe Lösung γ̂ wie in Abschnitt 7.4.1, nur sind Z und K hier
anders definiert.
• Bei B-Spline-Basis (Eilers und Marx, 1992, 1996): Wähle Penalisierung so, dass sich
benachbarte, gewichtete Basisfunktionen γk Bk (x) (im Modus) nicht zu stark unterscheiden (d.h. wie in Abschnitt 7.4.1):
pen(γ) =
K
X
(∆d γk )2 , d = 1 oder d = 2 ,
k=d+1
mit ∆1 γk = γk − γk−1 und ∆2 γk = γk − 2γk−1 + γk−2 . Dies führt zum penalisierten
KQ-Kriterium
PKQ(γ) = (y − Zγ)> (y − Zγ) + λγ > Kγ ,
mit Strafmatrix K wie in Abschnitt 7.4.1, Z wie oben zusammengesetzt aus B-Splines
und
γ̂ = (Z > Z + λK)−1 Z > y .
Der Erwartungswert und die Varianz des Schätzers ergeben sich wie in Abschnitt 7.4.1:
Bei y|f ∼ N (f, σ 2 I) gilt γ̂ ∼ N (E(γ̂), Cov(γ̂)).
Der Glättungsparameter λ wird standardmäßig durch Minimierung des generalisierten
Kreuzvalidierungskriteriums GCV(λ) gewählt.
Die Schätzung von f (x) erfolgt durch fˆ(x) = z > γ̂ mit z > = (B1 (z), . . . , Bk (z)) und
(approximativen) punktweisen Konfidenzintervallen.
Bayesianische P-Splines
Aus bayesianischer Sichtweise ist γ eine Zufallsvariable mit Prioriverteilung; als Datenverteilung nehmen wir y|γ ∼ N (Zγ, σ 2 I) an. Die gerade behandelten zwei Typen von Penalisierungen entsprechen bestimmten Prioriverteilungen:
• Bei TP-Basis: Für die globalen Polynomkoeffizienten werden flache oder schwach informative Prioris gewählt, für die trunkierten Polynome i.i.d. Normalverteilungen:
p(γk ) ∝ const (oder schwach informativ) , k = 1, . . . , l + 1,
γk ∼ N (0, τ 2 ) , k = l + 2, . . . , K .
• Bei B-Spline-Basis: Als Prioriverteilungen werden Random Walks erster oder zweiter
Ordnung, RW(1) bzw. RW(2), als stochastische Version der Strafterme mit quadrierten
Differenzen verwendet; vgl. Seite 96. Daraus ergibt sich
1 >
p(γ) ∝ exp − 2 γ Kγ ,
2τ
mit Strafmatrizen K1 = D1> D1 bzw. K2 = D2> D2 wie in Abschnitt 7.4.1.
103
In beiden Fällen lautet die Posteriori (bei zunächst bekanntem σ 2 und τ 2 )
1 >
1
>
f (γ|y) ∝ exp − 2 (y − Zγ) (y − Zγ) exp − 2 γ Kγ ,
2σ
2τ
d.h. γ|y ist (mit gleichen Argumenten wie in 7.4.1) normalverteilt; somit gilt auch
Posteriori-Modus = γ̂ = Posteriori-Erwartungswert .
Direktes Umformen der quadratischen Terme in der Exponentialfunktion zeigt
γ|y ∼ N (µγ , Σγ )
mit
µγ = E(γ|y) =
Z >Z +
σ2
K
τ2
−1
Z >y
−1
σ2
und Σγ = Cov(γ|y) = σ 2 Z > Z + 2 K
.
τ
Mit λ = σ 2 /τ 2 fallen also die (frequentistische) PKQ-Schätzung γ̂, der Posteriori-Modus und
der Erwartungswert µγ zusammen, jedoch sind die Varianzen Cov(γ̂) und Σγ verschieden.
Die Varianzen σ 2 , τ 2 bzw. der Glättungsparameter λ = σ 2 /τ 2 können wie folgt geschätzt
werden:
1. Empirische Bayes-Inferenz:
σ 2 , τ 2 fest”, unbekannt, werden mit (RE)ML geschätzt (geht mit (G)LMM Software).
”
2. Volle Bayes-Inferenz:
A priori seien σ 2 ∼ IG(a0 , b0 ) und τ 2 ∼ IG(a, b) mit a = b = ε, zum Beispiel ε = 0.01,
als Standardoption. Alternativ: p(τ ) ∝ const, d.h. a = −0.5, b = 0.
Gibbs-Sampling erfolgt dann durch Ziehen aus voll bedingten Dichten f (γ|σ 2 , τ 2 , y),
f (σ 2 |γ, τ 2 , y) und f (τ 2 |γ, σ 2 , y). Dabei ist zu beachten, dass K keinen vollen Rang
besitzt, das heißt
rg(K)/2
1 >
1
exp
−
γ
Kγ
.
p(γ|τ 2 ) ∝
τ2
2τ 2
Für die voll bedingten Dichten ergibt sich
γ|σ 2 , τ 2 , y ∼ N (µγ , Σγ )
mit
µγ =
1 >
1
Z Z+ 2
2
σ
τ
−1
1 >
Z y
σ2
und Σγ =
1 >
1
Z Z + 2K
2
σ
τ
−1
und
σ 2 |τ 2 , γ, y ∼ IG(a00 , b00 )
und τ 2 |σ 2 , γ, y ∼ IG(a0 , b0 )
mit
a00 = a0 + 0.5n
und
b00 = b0 + 0.5(y − Zγ)> (y − Zγ) ,
a0 = a + 0.5rg(K)
und
b0 = b + 0.5γ > Kγ .
104
P-Spline-Schätzung bei nicht-normalverteilten Zielvariablen
Sei y|f aus einer einfachen Exponentialfamilie wie beim GLM:
E(y|f (x)) = h(f (x)) ,
zum Beispiel y ∼ B(1, π(x)) mit π(x) =
exp(f (x))
1+exp(f (x))
und f (x) =
P
γk Bk (x) bzw. f = Zγ.
• Penalisierte (Log-) Likelihood-Schätzung:
γ̂ = argmax lpen (γ)
mit penalisierter (Log-) Likelihood
lpen (γ) = l(γ) −
λ >
γ Kγ.
2
Die Maximierung erfolgt mit (penalisiertem) Fisher-Scoring
!
spen (γ) = s(γ) − λKγ = 0
Fpen (γ) = F (γ) + λK.
?
a
Frage: γ̂ ∼ N (γ, ?)
Praxis-Lösung (ohne rigorose Asymptotik):
a
−1
γ̂ ∼ N (γ, Fpen
(γ̂))
in Analogie zu üblicher unpenalisierter ML-Schätzung mit dim(γ) = p fest (p << n)
und n → ∞.
• Bayesianische Inferenz: Das Beobachtungsmodell f (y|γ) ist durch den GLM-Typ definiert.
Bei empirischer Bayes-Inferenz und bekanntem bzw. geschätztem λ =
1
τ2
gilt
Posteriori-Modus = γ̂pen .
Bei voller Bayes-Inferenz wählt man a priori τ 2 ∼ IG(a, b) und wendet dann MCMC
mit voll bedingten Dichten f (γ|y, τ 2 ) und f (τ 2 |γ, y) an. Diese lauten
2
f (γ|τ , y) ∝
n
Y
i=1
exp
yi θi − b(θi )
φ
1 >
exp − 2 γ Kγ
2τ
und
1 rg(K)/2
1 >
f (τ |γ, y) ∝ p(τ )
exp − 2 γ Kγ
τ2
2τ
1
b
1 >
2 −rg(K)/2
∝
exp − 2 (τ )
exp − 2 γ Kγ .
(τ 2 )a+1
τ
2τ
2
2
105
mit θi = θ(f (xi )), f (xi ) = zi> γ und φ bekannt.
γ|τ 2 , y besitzt wie beim bayesianischen GLM (Kapitel 4) keine bekannte Dichte, aus
der direkt Zufallsvariablen gezogen werden können. Daher verwendet man hier einen
Metropolis-Hastings-Schritt mit IWLS-Vorschlagsdichte in Analogie zum GLM, algorithmisch analog zu Kapitel 4.
τ 2 |γ, y ist invers-gammaverteilt mit Parametern a + 0.5rg(K) und b + 0.5γ > Kγ.
Vorteile von bayesianischen P-Splines:
– Es sind keine asymptotischen (vermuteten) Approximationen für Inferenz notwendig.
– Mit dem Posteriori-Sample können interessierende Funktionale, zum Beispiel
π(x) = h(f (x)), inklusive Konfidenzintervall geschätzt werden; es ist keine Approximation durch die Delta-Methode notwendig.
– Die Wahl des Glättungsparameters λ = 0.5/τ 2 ist automatisch im Modell integriert.
– Leichte Erweiterbarkeit auf GAM etc. wegen der modularen Struktur von MCMCAlgorithmen.
Nachteil:
– Bei ineffizienter Implementierung lange Rechenzeiten (zum Beispiel in R); effiziente
Implementierung in BayesX.
7.4.3
Verwandte Penalisierungsansätze
Ziel dieses Abschnitts ist die Skizzierung von Penalisierungsansätzen mit gleicher Struktur
wie in 7.4.2, d.h. (letztendlich)
y = Zγ + ε ,
ε ∼ (N )(σ 2 I)
bzw.
y|γ ∼ Exponentialfamilie, E(y|γ) = µ = h(Zγ),
wobei Z aus Basisfunktion–Werten konstruiert wird, und
pen(γ) = γ > Kγ
mit geeignet definierter Strafmatrix K.
Die folgenden Ansätze sollen jeweils aus Likelihood– und Bayes– Perspektive betrachtet werden:
• Glättungs–Splines,
• Kriging (stationäre Gauß–Prozesse) und radiale Basisfunktionen.
106
Glättungs–Splines (Smoothing–Splines)
Wir betrachten das Beobachtungsmodell
yi = f (xi ) + εi
mit unabhängigen εi ∼ (0, σ 2 ).
Ziel: Finde fˆ ∈ F = C 2 [a, b] so, dass
fˆ = argmin PKQ(f )
f ∈C 2 [a,b]
mit
PKQ(f ) =
n
X
Z
2
(yi − f (xi )) + λ
(f 00 (x))2 dx.
i=1
Dabei ist
C 2 [a, b]
der Raum aller auf [a, b] zweimal stetig differenzierbaren Funktionen.
Lösung (zum Beispiel Green und Silverman, 1994): fˆ ist natürlicher kubischer Spline vom
Grad 3 mit Knoten an den (voneinander verschiedenen) x–Werten x1 < x2 < . . . < xn .
Zur Erinnerung: Eine Funktion f ist ein natürlicher (kubischer) Spline zu den Knoten
def
a < κ1 < . . . < κm < b ⇔
1. f (x) ist (kubischer) Polynom–Spline zur obigen Knotenmenge.
2. f (x) genügt f 00 (a) = f 00 (b) = 0, d.h. f (x) ist linear in den Intervallen [a, κ1 ] und [κm , b].
Bemerkung. Ein Spline (engl.) ist ein Kurvenlineal zum Zeichnen einer glatten Kurve; am
Rand ein echtes“ Lineal.
”
P
Damit betrachten wir f (x) = K
k=1 γk Bk (x) mit am Rand modifizierten Basisfunktionen und
y = Zγ + ε ,
Z
Z
K X
K
X
00
2
pen(γ) = (f (z)) dz =
γj γk Bj00 (z)Bk00 (z)dz = γ > Kγ
j=1 k=1
mit
Z
K = (Kjk )
und Kjk =
Bj00 (z)Bk00 (z)dz.
Bemerkung. Obiges pen(γ) wird statt der Differenzen–Strafterme von Wood (2006) für
P–Splines im R–Package mgcv verwendet.
Bayesianische Glättungs–Splines erhält man wie folgt:
1. Völlig analog zu bayesianischen P–Splines, nur für anderes Z und K. Die Prioris für
σ 2 und τ 2 sind wie in Abschnitt 7.4.2 und damit auch
1
p(γ|τ 2 ) ∝ exp − 2 γ > Kγ
2τ
(Hastie und Tibshirani, 2001, Bayesian Backfitting). Das Konzept bleibt auch für nicht–
normalverteilte Zielvariablen erhalten: Ersetze das KQ–Kriterium der (Log–) Likelihood, die durch das Beobachtungsmodell gegeben ist.
107
2. Direkter“ Zugang: Wähle als Priori für f (x) einen Gauß–Prozess (für kubische Splines)
”
Z x
− 21
W (u)du ,
f (x) = β1 + β2 x + λ
| 0 {z
}
Pfadweises“ Integral des
”
Standard–Wiener–Prozesses“
”
(mit Var(W (u)) = 1)
Es gilt (Wahba, 1990):
fˆ(x) = E(f (x)|y) = frequentistischer Smoothing–Spline
aber Cov(f (x)|y) 6= Cov(fˆ(x)).
Stationäre Gauß–Prozesse und radiale Basisfunktionen
Das sogenannte Kriging kommt aus der räumlichen Statistik und basiert auf stationären
(räumlichen) Gauß–Prozessen. Der auf eine Dimension (d = 1) reduzierte Fall zeitstetiger
Prozesse geht von folgendem Modell aus:
yt = γ0 + f (t) + εt ,
i.i.d.
εt ∼ N (0, σ 2 ) ,
Cov(εt , εs ) = 0 für t 6= s.
Dabei ist {f (t), t ≥ 0} ein stationärer Gauß–Prozess (vgl. auch Skript zu Stochastischen
Prozessen, Kapitel 2) mit E(f (t)) = 0, Var(f (t)) = τ 2 und Korrelationsfunktion
ρ(h|θ) = corr(f (t), f (t + h)) =
Cov(f (t), f (t + h))
τ2
mit unbekanntem Parameter θ. Die Korrelationsfunktion hängt somit nur von der Zeitdifferenz h zwischen den Argumenten von f (t) und f (t + h) ab, nicht aber von der Zeit t.
Gebräuchliche parametrische Korrelationsfunktionen sind (siehe auch Stochastische Prozesse,
Kapitel 2):
• Potenz–Exponential–Familie:
κ h
,
ρ(h; φ, κ) = exp −
φ
φ > 0 , 0 < κ ≤ 2.
Für κ = 2 ergibt sich als Spezialfall die Gauß–Korrelationsfunktion.
• Sphärische Korrelations–Familie:
(
1 − 23 (h/φ) + 21 (h/φ)3
ρ(h; φ) =
0
, 0≤h≤φ
, 0 < φ < h.
• Matérn–Familie (am populärsten): Allgemeine Darstellung nur mit Hilfe von sogenannten Besselfunktionen möglich, die sich nur numerisch auswerten, aber nicht explizit darstellen lassen. Für Parameter κ = 0.5, 1.5, 2.5, . . . lassen sich die Korrelationsfunktionen
108
direkt angeben:
ρ(h; φ, κ = 0.5) = exp(−|h/φ|),
ρ(h; φ, κ = 1.5) = exp(−|h/φ|)(1 + |h/φ|),
1
ρ(h; φ, κ = 2.5) = exp(−|h/φ|)(1 + |h/φ| + |h/φ|2 ),
3
1
2
ρ(h; φ, κ = 3.5) = exp(−|h/φ|)(1 + |h/φ| + |h/φ|2 + |h/φ|3 ).
5
15
Für κ = 0.5 entspricht die Matérn-Korrelationsfunktion also wieder der einfachen Exponential-Korrelationsfunktion.
Die Beobachtungen liegen zu im Allgemeinen nicht äquidistanten Zeitpunkten t1 < . . . < tn
vor. Mit
yi := yti , εi := εti
erhält man das Beobachtungsmodell
yi = γ0 + f (ti ) + εi ,
i.i.d.
εi ∼ N (0, σ 2 ) ,
i = 1, . . . , n,
bzw.
y = γ0 1 + f + ε ,
ε ∼ N (0, σ 2 I)
(mit den entsprechenden Spalten–Vektoren) sowie
f ∼ N (0, τ 2 Z) ,
Z = (Zij ) mit Zij = ρ(|ti − tj |; θ),
d.h. Z ist Korrelationsmatrix von f = (f (t1 ), . . . , f (tn ))> . Mit γ := Z −1 f folgt
y = γ0 1 + Zγ + ε
mit ε ∼ N (0, σ 2 I), γ ∼ N (0, τ 2 Z −1 ), also
1 >
p(γ) ∝ exp − 2 γ Kγ
2τ
Auch gilt
f (t) =
n
X
γi ρ(|t − ti |) ,
mit K = Z.
γ = (γ1 , . . . , γn )> ,
i=1
d.h. mit Bi (t) := ρ(|t − ti |) ist Kriging“ ein Basisfunktionen–Ansatz, allerdings ist die An”
zahl der Datenpunkte hier gleich dim(γ) = n. Die Dichte p(γ) ist Prioridichte mit Präzisionsmatrix Z im Sinne der Bayes–Inferenz. Mit p(γ0 ) ∝ const. oder γ0 ∼ N (0, cτ 2 ) und der
zusätzlichen Basisfunktion B0 (t) = 1 gilt
γ0
y = (1, Z)
+ ε = Z̃ γ̃ + ε
γ
mit
1
p(γ̃) ∝ exp − 2 γ̃ > K γ̃
2τ
109
und
K=
0
0
0
Z
oder K =
c−1
0
0
Z
.
Damit ist (wieder) volle Bayes–Inferenz, empirische Bayes–Inferenz (wie beim räumlichen
Kriging) und PKQ–Ansatz mit den Basisfunktionen {1, ρ(|t − ti |), i = 1, . . . , n} wie bei
P–Splines durchführbar (inklusive Bestimmung von σ 2 und τ 2 bzw. λ = σ 2 /τ 2 ).
Nachteil: Es gilt dim(Z) = dim(K) = n × n, was bei großen Datensätzen problematisch
ist. Deshalb sucht man mit dem Space Filling–Algorithmus nach wenigen repräsentativen
”
Knoten“ {κ1 , . . . , κm } ⊂ {t1 , . . . , tn }.
Bemerkung.
1. Beim PKQ–Ansatz könnte man mit Basisfunktionen
{1, Bi (t) = ρ(|t − ti |), i = 1, . . . , n}
und PKQ-Kriterium
PKQ(γ) = (y − γ0 1 − Zγ)> (y − γ0 1 − Zγ) + λγ > Zγ → min
γ0 ,γ
auch sofort frequentistisch“ starten. Dann ist Kriging ein Ansatz mit radialen Basis”
”
funktionen“ der Form
Bi (t) = B(|t − κi |)
mit Knoten κi auf der t–Achse. (Der Name t–Achse“ kommt aus der räumlichen
”
Glättung mit
Bi (||t − ti ||) ,
wobei ||t − ti || der euklidische Abstand von t ist.) Der Kriging–Ansatz lässt sich mit x
statt t direkt auf nonparametrische Regression
yi = f (xi ) + εi ,
i.i.d.
εi ∼ N (0, σ 2 )
anwenden.
2. Eine Erweiterung auf nicht–normalverteilte Zielvariablen ist in Analogie zu P–Splines
möglich.
3. Radiale Basisfunktionen sind auch im Machine–Learning–Bereich, zunächst ohne bayesianischen Hintergrund, populär (hier schreibt man x statt t), zum Beispiel:
• 1d- Thin–Plate“–Spline(1): {1, x, |x − κ1 |, . . . , |x − κk |}
”
• Quadratische radiale Basis: {1, x, (x − κ1 )2 , . . . , (x − κk )2 }
• Quasi–logarithmische Basis: {1, x, |x − κ1 | log |x − κ1 |, . . . , |x − κk | log |x − κk |}
• 1d- Thin–Plate“–Spline(2): {1, x, (x − κ1 )2 log |x − κ1 |, . . . , (x − κk )2 log |x − κk |}
”
Dabei sind κ1 , . . . , κk Knoten auf der x–Achse.
110
4. Statt stationärer Gauß–Prozesse sind auch instationäre Gauß–Prozesse mit (beliebiger)
Kovarianzfunktion
c(x, x0 ) = Cov(f (x), f (x0 ))
möglich. Dabei muss die spezifizierte Kovarianzfunktion c(x, x0 ) positiv (semi–)definit
sein:
m
X
c(xi , xj )ai aj > 0
(=)
i,j=1
für beliebiges n und x1 , . . . , xn , a1 , . . . , an . Somit definiert c(x, x0 ) mit (x, x0 ) ∈ R2 einen
sogenannten reproduzierenden Kern–Hilbert–Raum (RKHS) von Funktionen f .
( Literatur: zum Beispiel Hastie, Tibshirani, Friedman (2001); Wahba (1990); Diplomarbeit Martin Slawski.)
7.4.4
Andere Ansätze im Überblick
Lokale Regression basierend auf Kernschätzern
LO(W)ESS, lokale Regression:
• Literatur: Härdle et al. (2004, Kapitel 4); Fan, Gijbels (1996); Loader (1999).
• Asymptotischen Resultate zu M(I)SE, etc. in Analogie zu 7.2.
• Gehört zur Gruppe von Lokalisierungsverfahren.
Bayesianische nonparametrische Regression basierend auf Dirichlet–Prioris
Literatur: Müller und Quintana (2004); Dunson(2007).
Ansätze mit Selektion von Knoten bzw. Basisfunktionen
Approximation bzw. Darstellung von Regressionsfunktionen f (x) durch eine hochdimensionale (bzw. unendlich–dimensionale) Linearkombination von Basisfunktionen
f (x) =
J
X
γj Bj (x) ,
j=1
wobei J < ∞ oder J = ∞.
Konzept: Selektiere frequentistisch (Punkte 1. und 2.) oder bayesianisch (Punkte 3. und 4.)
diejenigien Basisfunktionen mit γj ≈ 0.
1. MARS (Friedman, 1991): J endlich, Basisfunktionen als lineare TP–Basis (bzw. leichte
Modifikation) inklusive Interaktionsterme mit üblicher“ Variablenselektion.
”
2. Wavelets (und Fourier–Darstellung): J = ∞, (Wavelet–) Shrinkage von Basisfunktionen, zum Beispiel mit LASSO (Tibshirani, 1996). (Zu Wavelets und Fourier-Darstellungen siehe Einschub auf Seite 112.)
111
3. Bayesianisches MARS : basierend auf Reversible Jump MCMC (siehe zum Beispiel Denison et al., 2001).
4. Bayesianische Variablenselektion mit binären Indikatorvariablen: Zu den Koeffizienten
γ1 , . . . , γJ werden latente binäre Indikatoren I1 , . . . , IJ definiert, so dass
γj = 0 ⇔ Ij = 0 ,
γj ∼ N (0, c) ⇔ Ij = 1 ,
wobei c endlich und (eher) groß ist. Man geht also von γj Bj (x) zu Ij γj Bj (x) über. Dazu
wird die Priori π(γ) zum Beispiel durch
π(γ) =
J
Y
p(γj )
mit p(γj ) = P(Ij = 1) = πj
j=1
bestimmt. Oft werden die γi i.i.d. mit P(Ij = 1) = π gewählt. Daraus erhält man eine
Mischverteilungs–Priori für γj :
γj ∼ (1 − π)δ0 (·) + πφ(·|0, c)
mit δ0 (·) Punktmasse auf 0:
•
1−π
πφ(·|0, c)
-
0
Die Parameter π und c werden datengesteuert bestimmt, zum Beispiel mit Hyper–
Prioris.
Anwendungen: Adaptive–Regression–Splines (Denison et al., 2000), radiale Basisfunktionen (Smith et al.), Wavelets und Fourier–Darstellungen.
Einschub: Fourier-Darstellungen und Wavelets
• Fourier–Darstellungen:
Die Basisfunktionen sind sin(f x) und cos(f x) mit wachsenden Frequenzen, x ∈ R.
sin(x) bzw. sin(2x)
6
-
Nachteil: Träger ist R bzw. [a, b] ⊆ R.
112
x
• Wavelets (aus Signalerkennung, Signal–Regression):
Literatur: zum Beispiel Denison et al. (2002) und Hastie, Tibshirani und Friedman
(2001).
Anwendung zum Beispiel in Spektrometrie (Proteomics) und Spektroskopie. Die Signale
sind hier sehr rau und mit ausgeprägten lokalen Spitzen, die zum Beispiel bestimmte
Proteine bzw. Moleküle identifizieren.
Wavelet–Entwicklung:
f (x) = γ0 +
n(j)
J−1
XX
γjk Bjk (x),
j=1 k=1
wobei J = log2 n, n(j) = n2j−J und n die Anzahl verschiedener beobachteter x–
Werte ist. Mit dieser Wahl von J und n(j) existiert ein sehr schneller Algorithmus
(”‘Pyramiden-Algorithmus”’) zum Auswerten der Basisfunktionen
j
Bjk (x) = 2− 2 ψ(2−j x − k).
ψ(x) heißt Mutter–Wavelet und wird so gewählt, dass
(
Z
1 , k = k 0 und j = j 0
Bjk (x)Bj 0 k0 (x)dx =
0 , sonst ,
d.h. {Bjk (x); j = 1, . . . , J; k = 1, . . . , n(j)} ist orthonormale Basis und die Basisfunktionen haben nur lokalen Träger.
Beispiel 7.11.
1. Haarwavelet–Basis:
ψ(x)
+1 6
0.5
- x
1
−1
Mit Translation wird ψ(x) nach k verschoben; mit wachsendem j werden Basisfunktionen zusammengestaucht (Dilatation; Mikroskalen–Analyse“).
”
2. Andere Wavelets (nach gewissen Optimalitätsgesichtspunkten):
– LA (least) asymmetric Wavelets (Daubechie)
– D–(Daubechie–)Wavelet–Familie
Die Basisfunktionenen sind nicht in geschlossener Form darstellbar, aber sehr
schnell berechenbar für die obigen Wahlen von J und j und äquidistante x–Werte.
Damit ist die Designmatrix Z (Matrix der Basis–Funktionswerte auf dem
x–Gitter) schnell berechenbar und es gilt wieder
y = Zγ + ε ,
113
ε ∼ (N )(0, σ 2 I) .
Frequentistischer Ansatz zum Schätzen von γ:
Wegen Z > Z = I (da die Basis orthonormal ist) folgt für den KQ–Schätzer
γ̂ = (Z > Z)−1 Z > y = Z > y ,
>
>
und wegen Z > y = Z
| {zZ} γ + Z ε gilt
I
γ̂ = γ + τ ,
τ = Z > ε ∼ (N )(0, σ 2 I) .
Dies wird Wavelet–Shrinkage genannt. Anschließend werden aus dem hochdimensionalen Vektor γ̂ die signifikanten“ γji selektiert und der Rest gegen 0 geschrumpft bzw.
”
gleich 0 gesetzt. Dazu werden folgende Schritte durchgeführt:
1. Wende die diskrete Wavelet–Transformation“ (DWT) auf y an:
”
γ̂ = Z > y.
2. Schrumpfe γ̂ zu γ̃ durch Hard– oder Soft–Thresholding, d.h. wende komponentenweise
tH (g, λ) = g I{|g|>λ}
und
tS (g, λ) = sgn(g)(|g| − λ)+
auf g = γ̂ij an, wobei λ > 0 Schwellenwert ist.
3. Wende inverse DWT auf γ̃ an:
fˆ = Z γ̃.
Bayesianischer Ansatz:
Variablenselektion mit Indikatorvariablen oder anderen bayesianischen Shrinkage–
Ansätzen wie zum Beispiel bayesianischem LASSO.
7.5
Strukturiert additive Regression
7.5.1
Generalisierte additive Modelle und Modelle mit variierenden Koeffizienten
In diesem Abschnitt seien die Daten yi , xi = (xi1 , . . . , xik )> und zi1 , . . . , ziq gegeben, wobei
y Zielvariable (stetig, binär, Zählvariable, kategorial wie in GLM),
x Vektor von üblichen“ Kovariablen mit linearen Effekten x> β,
”
z1 , . . . , zq Kovariablen mit (potentiell) nicht–linearen Effekten f1 (z1 ), . . . , fq (zq ).
114
Additive und generalisierte additive Modelle
Additive Modelle (AM)
Sei
yi = x0i β + f1 (zi1 ) + . . . + fq (ziq ) + εi = ηi + εi ,
i.i.d.
εi ∼ [N ](0, σ 2 ) ,
wobei ηi additiver (auch: semiparametrischer“) Prädiktor und f1 , . . . , fq glatte Funktionen
”
wie in den Abschnitten 7.4.2 und 7.4.3 sind.
Generalisierte additive Modelle(GAM)
ind
Hier sei yi |ηi ∼ Exponentialfamilie wie im GLM mit
E(yi |ηi ) = µi = h(ηi ).
(Wegen der Unabhängigkeitsannahme sind GAMs insbesondere für Querschnittsdaten geeignet.) Für Identifizierbarkeit fordert man (zum Beispiel):
n
X
x0 β = β0 + β1 xi1 + . . . βk xik ,
!
fj (zij ) = 0,
j = 1, . . . , q.
i=1
Modelle mit variierenden Koeffizienten (VCM)
Hier werden Interaktionen der Form g(z)> u einbezogen. Dabei ist z stetige Kovariable und
u besteht aus Komponenten aus x, d.h. u1 , u2 , . . . sind Kovariablen aus x. Dies führt zu
η VCM = η add + g1 (z1 )u1 + g2 (z2 )u2 + . . . .
Interpretation: Der Effekt von u variiert über z. In der Regel ist u1 , u2 binär.
Mit Basisfunktionen–Ansatz:
gj (zj )uj =
dj
X
δjl Bl (zj )uj .
l=1
Mit der Designmatrix ZjVCM ,
ZjVCM
il
:= Bl (zij )uij ,
und den Koeffizientenvektoren δj erhält man
η VCM = η add + Z1VCM δ1 + Z2VCM δ2 + . . .
= Xβ + Z1 γ1 + . . . + Zq γq + Z1VCM δ1 + Z2VCM δ2 + . . .
bzw. nach Umbenennung und Reindizierung
η VCM = Xβ + Z1 γ1 + . . . + Zq γq + Zq+1 γq+1 + . . . + Zm γm .
Fazit: Methodisch sind VCM wegen der gleichen Prädiktor–Struktur nur eine geringfügige
Erweiterung von GAM.
115
Beispiel 7.12 (Mietspiegel). Als Daten werden nur Wohnungen in normaler und besonderer
Lage betrachtet. Folgendes Modell berücksichtigt eine Interaktion zwischen Wohnfläche und
Lage:
mieteqm = β0 + β1 blage + f1 (flaeche) + f2 (flaeche)blage + f3 (bjahr) + ε.
Wir betrachten wie in 7.4 insbesondere GAM mit Basisfunktionen–Ansätzen:
fj (zj ) =
dj
X
γjl Bl (zj ).
l=1
Damit:
• AM:
y = Xβ + Z1 γ1 + . . . + Zq γq + ε ,
ε ∼ N (0, σ 2 I) ,
wobei X wie im LM und Z1 , . . . , Zq jeweils wie in 7.4,
Zj il = Bl (zij ) ,
d.h. durch Evaluation der Basisfunktionen konstruiert ist.
• GAM:
E(y) = h(η),
η = Xβ + Z1 γ1 + . . . + Zq γq
hochdimensionaler linearer Prädiktor.
Beispiel 7.13 (Mietspiegel). Betrachte
mieteqm = β0 + β1 glage + β2 blage + f1 (flaeche) + f2 (bjahr) + ε.
Dabei ist die Kovariable lage drei–kategorial mit normaler Lage ( nlage) als Referenzkategorie
und guter Lage ( glage) und besonderer Lage ( blage) dummykodiert.
Beispiel 7.14 (Zustand des Waldes). Die Variable y ist ordinal mit den Ausprägungen
1 : nicht geschädigt,
2 : leicht geschädigt,
3 : schwer geschädigt.
Daten: yit für i = 1, . . . , 83 Buchen zum Zeitpunkt t = 1983, . . . , 2004.
Ordinales Logit–Modell mit zwei Prädiktoren für die Kategorien 1 und 2:
(r)
ηit = β0r + x>
it β + f1 (alterit ) + f2 (hangi ) + f3 (schirmit ) + f4 (t) + f5 (hoehei ) ,
r = 1, 2,
mit Schwellenwerten β0r .
Beispiel 7.15 (Schadenshäufigkeiten bei Kfz–Versicherung). yi sei die Anzahl der Schäden
pro Jahr von Versicherungsteilnehmer i:
yi |ηi ∼ Po(λi ) ,
λi = exp(ηi ),
η = β0 + β1 geschl + . . . + f1 (alterv) + f2 (alterkfz) + f3 (bm) + g(alterv)geschl .
116
Erweiterungen dieser Modelle erfolgen durch Einbeziehen von
• Interaktionen f1,2 (z1 , z2 ) von stetigen Kovariablen z1 , z2 ,
• räumlich geographischen Effekten fgeo (s), wobei s diskret (Regionen) oder s = (s1 , s2 )
punktgenaue Lokation in R2 ist,
• cluster–spezifischen Effekte γg mit g ∈ {1, . . . , G}
• etc.
Dies führt auf strukturiert–additive Regression (STAR), siehe zum Beispiel Kapitel 8 in Fahrmeir, Kneib und Lang (2007).
Inferenz für GAM, VCM und STAR–Modelle mit Basisfunktionen ist möglich durch
• penalisierte KQ– bzw. Likelihood–Schätzung in Verbindung mit der Minimierung eines
Modellwahl–Kriteriums zur Schätzung der Glättungsparameter,
• empirische Bayes–Inferenz, basierend auf der Repräsentation als gemischtes Modell
(GLMM),
• volle Bayes–Inferenz, basierend auf MCMC.
Penalisierte KQ– bzw. Likelihood–Schätzung
Penalisiertes KQ–Kriterium für AM:
KQpen (β, γ1 , . . . , γq ) = KQ(β, γ1 , . . . , γq ) +
q
X
λj γj> Kj γj
j=1
mit
KQ(β, γ1 , . . . , γq ) = (y − Xβ − Z1 γ1 − . . . − Zq γq )> (y − Xβ − Z1 γ1 − . . . − Zq γq )
und (zunächst unbekannten) Glättungsparametern λj und Strafmatrizen Kj wie bei P–
Splines etc. in Kapitel 7.4.
Penalisiertes (Log–) Likelihood–Kriterium:
q
1X
lpen (β, γ1 , . . . , γq ) = l(β, γ1 , . . . , γq ) −
λj γj> Kj γj .
2
j=1
Penalisierte KQ– bzw. ML–Schätzung:
(β̂, γ̂1 , . . . , γ̂q ) = argmin KQpen ( · )
β,γ
bzw.
(β̂, γ̂1 , . . . , γ̂q ) = argmax lpen ( · ),
β,γ
117
dann wird konzeptionell weiter verfahren wie bei KQ– bzw. ML–Schätzung: erste Ableitungen
bilden, Nullsetzen, Auflösen“ des linearen bzw. nichtlinearen Gleichungssystems, Berechnen
”
von (penalisierten) Informationsmatrizen, . . . .
Bei penalisierter KQ–Schätzung im
 >
X X
X > Z1
>
>
 Z X Z Z1 + λ1 K1
1
 1

..

.
Zq> X
AM:
...
...
..
.
Zq> Z1
X > Zq
Z1> Zq

. . . Zq> Zq + λq Kq





β
γ1
..
.

 
 ! 
=
 
γq
X1> y
Z1> y
..
.
Zq> y



.

Die Lösung erhält man direkt (etwa bei P–Splines) oder, wenn (β, γ1 , . . . , γq ) hochdimensional ist (zum Beispiel bei Glättungs–Splines), iterativ mit Backfitting“ (das entspricht dem
”
Gauß–Seidel–Algorithmus aus der numerischen Mathematik).
Bei penalisierter Likelihood–Schätzung in GAM:
!
spen,β (β, γ1 , . . . , γq ) = sβ (β, γ1 , . . . , γq ) = 0,
!
spen,γj (β, γ1 , . . . , γq ) = sγj (β, γ1 , . . . , γq ) − λj Kj γj = 0.
Dabei sind sβ , sγj Score–Funktionen wie im GLM.
a
Fragen: (β, γ1 , . . . , γp ) ∼ N (·, ·)? Wie lautet der AMISE? Sind die Schätzer konsistent?
Für die Glättungsparameterwahl können verschiedene Kriterien verwendet werden: Wähle
λ1 , . . . , λq so, dass mit der Hatmatrix H
AIC = −2 lpen (β̂, γ̂) + 2 tr(H) → min ,
λ1 ,...,λq
bzw.
2
n 1X
yi − ηˆi
GCV =
→ min .
λ1 ,...,λq
n
1 − tr(H)/n
i=1
Dabei ist GCV das Standard–Kriterium. (In R ist dies für P–Splines im Paket mgcv von
S. Wood implementiert.)
Offen bleibt folgendes Testproblem:
H0 : fj (zj ) = a + bzj linear
vs.
H1 : fj (z) nichtlinear, glatt.
Dazu existieren Möglichkeiten bei empirischer bzw. voller Bayes–Inferenz.
Empirische Bayes–Inferenz
Die empirische Bayes–Inferenz basiert auf der Repräsentation als gemischtes Modell, das in
diesem Abschnitt exemplarisch für lineare Splines mit TP–Basis eingeführt wird, d.h.
f (z) = β0 + β1 z +
d
X
l=1
118
γl (z − κl )+
für typische Funktionen f (z). Dabei sind β0 , β1 und σ 2 feste (unbekannte) Parameter und
i.i.d.
γ1 , . . . , γl ∼ N (0, τ 2 ) zufällige Parameter.
Damit beim AM:
y = Xβ + Z1 γ1 + . . . + Zq γq + ε ,
ε ∼ N (0, σ 2 I) ,
wobei in X auch die Spalten (1, . . . , 1)> und z1 , . . . , zq mit zj = (zj1 , . . . , zjn )> , j = 1, . . . , q,
mitaufgenommen sind. Z1 , . . . , Zq sind aus den trunkierten Potenzen gebildete Designmatrizen,


(zj1 − κ1 )+ . . . (zj1 − κd )+


..
..


.
.



Zj =  (zji − κ1 )+ . . . (zji − κd )+ 
,


..
..


.
.
(zjn − κ1 )+ . . . (zjq − κd )+
und
γj ∼ N (0, τj2 I)
als Priori für die zufälligen Effekte (aus Bayes–Sichtweise) und
p(β) ∝ const
für die fixen“ Effekte. Die (deterministischen) Varianzparameter σ 2 , τ12 , . . . , τq2 werden mit
”
restringierter (RE)ML–Schätzung bestimmt. Bei gegebenen bzw. geschätzten Varianzparametern ist die Posteriori
2
f (β, γ1 , . . . , γq |y) ∝ f (y|β, γ1 , . . . , γq , σ )
q
Y
p(γj |τj2 )
j=1
wieder die Dichte einer Normalverteilung. Somit ist der Posteriori–Modus gleich dem Posteriori–
Erwartungswert E(β, γ|y). Logarithmieren zeigt
E(β, γ|y) = argmin KQpen (β, γ) = (β̂, γ̂)
β,γ
mit λj := σ 2 /τj2 .
Bemerkung. Bei GAMs gilt weiterhin
Posteriori-Modus(β, γ|y) 6= E(β, γ|y)
wie in Abschnitt 7.4.
Da das AM die Form eines LMM besitzt, kann zur Schätzung von σ 2 , τj2 und damit von
λj = σ 2 /τj2 Software zur (RE)ML–Schätzung verwendet werden.
Bemerkung. Dies geht analog für GAMs über GLMMs.
119
Der empirische Bayes–Ansatz ermöglicht das Testen von
H0 : f (z) = β0 + β1 z (linearer Effekt)
vs.
H1 : f (z) = β0 + β1 z +
d
X
γl (z − κl )+ .
l=1
Dies ist äquivalent zu
H0 : τ 2 = 0
vs. H1 : τ 2 > 0
(dann γ = (γ1 , . . . , γl , . . . , γd )> = 0) mit dem Likelihood–Quotienten–Test.
Problem: Die Fisher–Regularität ist verletzt, da τ 2 = 0 auf dem Rand des Parameterraums [0, ∞) liegt. Somit ist der Likelihood–Quotienten–Test nicht mehr asymptotisch χ2 –
verteilt, sondern gemischt χ2 –verteilt. Die Bestimmung der asymptotischen Verteilung ist
theoretisch und numerisch kompliziert, siehe insbesondere Dissertation von Sonja Greven
(2008) bzw. Literaturhinweise in Fahrmeir, Kneib und Lang (2007), Kapitel 8.
Für GAMs ist der Likelihood–Quotienten–Test ein offenes (unlösbares?) Problem.
Literatur zum empirischen Bayes–Ansatz: Ruppert, Wand, Carroll (2003), Fahrmeir, Kneib,
Lang (2007), Dissertation von Thomas Kneib (2005).
Volle Bayes-Inferenz mit MCMC
Im Folgenden gehen wir zunächst vom einfachsten Fall normalverteilter Zielgrößen aus, d.h.
y | γ1 , . . . , γq , β, σ 2 ∼ N (η, σ 2 I),
η = Xβ + Z1 γ1 + . . . + Zq γq .
Damit ist die Dichte des Beobachtungsmodells proportional zur Likelihood und gegeben durch
1
1
>
2
f (y | γ1 , . . . , γq , β, σ ) ∝
− 2 (y − η) (y − η) .
n exp
2σ
(σ 2 ) 2
Bayesianische Inferenz basiert auf
p(β) ∝ const
bzw.
1 >
p(β) ∝ exp − 2 β β
2c
(d.h. β ∼ N (0, c2 I) für c groß) und den Glattheits–Prioris
p(γj | τj2 ) ∝
1
τj2
!rg(Kj )/2
1
exp − 2 γj> Kj γj
2τj
!
für die Regressionskoeffizienten γj des j-ten Terms des strukturiert additiven Prädiktors. Die
spezifische Form der Strafmatrix Kj hängt vom speziellen Typ der gewählten Penalisierung
ab. Für die Varianzparameter τj2 wird eine inverse Gammaverteilung mit Hyperparametern
aj und bj , d.h.
τj2 ∼ IG(aj , bj ),
als Priori-Verteilung spezifiziert. Analog wird für die Varianz σ 2 des Störterms eine inverse
Gammaverteilung mit Hyperparametern a0 und b0 definiert. In der Praxis werden häufig
120
kleine Werte für aj und bj verwendet, etwa aj = 0.001 und bj = 0.001 oder aj = 0.0001
und bj = 0.0001.
Die Posterioriverteilung ist proportional zum Produkt aus Likelihood und Prioriverteilung
und ist damit gegeben durch
1
1
>
f (θ | y) ∝
− 2 (y − η) (y − η)
n exp
2σ
(σ 2 ) 2
! q
!
q
Y
Y
bj
1 >
1
2 −aj −1
(τj )
exp − 2
exp − 2 γj Kj γj
×
2 )rg(Kj )/2
2τ
τj
(τ
j
j
j=1
j=1
b0
× (σ 2 )−a0 −1 exp − 2 ,
σ
wobei θ hier der Vektor aller im Modell vorkommenden Parameter (inklusive der Varianzparameter) ist.
Zum Ziehen aus der Posterioriverteilung können wir einen Gibbs-Sampler verwenden: Hierzu
zerlegen wir den gesamten Parametervektor in die Blöcke γ1 , . . . , γq , β, τ12 , . . . , τq2 , σ 2 . Zur Anwendung eines Gibbs-Samplers müssen die vollständig bedingten Dichten der Blöcke bekannte
Verteilungen darstellen, aus denen leicht Zufallszahlen gezogen werden können.
Genauer gilt
γj | · ∼ N (µj , Σj )
mit Erwartungswert und Kovarianzmatrix
µj
Σj
= E(γj | ·) =
= Cov(γj | ·) =
1 >
1
Vj Vj + 2 Kj
2
σ
τj
!−1
1 >
1
V Vj + 2 Kj
σ2 j
τj
1 >
V (y − η−j ),
σ2 j
!−1
.
Bei dem Vektor η−j = η − Vj γj handelt es sich um den Prädiktor η ohne den j-ten Term.
Analog erhalten wir für den Vektor β eine multivariate Normalverteilung mit Erwartungswert
und Kovarianzmatrix
−1
µβ = E(β | ·) = X> X
X> (y − η−β ),
Σβ = Cov(β | ·) =
1
(X> X)−1 ,
σ2
wobei η−β = η − Xβ jetzt der Prädiktor η ohne die linearen Effekte ist. Für die Varianzparameter erhalten wir
τj2 | · ∼ IG(aj + 0.5rg(Kj ), bj + 0.5γj> Kj γj ),
σ 2 | · ∼ IG(a0 + 0.5n, b0 + 0.5(y − η)> (y − η)).
Damit lässt sich ohne weiteres ein Gibbs-Sampler initiieren, wobei darauf zu achten ist, dass
insbesondere aus den zum Teil hochdimensionalen Normalverteilungen effizient Zufallszahlen
gezogen werden. Hier kommen insbesondere numerische Verfahren für Bandmatrizen bzw.
121
dünn besetzte Matrizen zum Einsatz. Für Details siehe Rue (2005), Lang und Brezger (2004),
Rue (2001) und George und Liu (1981).
Wir beschäftigen uns nun mit dem Testen“ bzw. der Selektion von Funktionen fj mit
”
fj = Zj γj ,
j = 1, . . . , q.
Dazu führe (latente) binäre Indikatorvariablen Ij ein mit
γj = 0 ⇔ Ij = 0
γj 6= 0 ⇔ Ij = 1
und
und modifiziere die Gauß–Priori
1
p(γj |τj2 ) ∝ exp − 2 γj> Kj γj
2τj
!
zu
1
p(γj |τj2 , Ij = 1) ∝ exp − 2 γj> Kj γj
2τj
!
und
P(γj = 0|τj2 , Ij = 0) = 1.
Dabei gelte
ind
Ij ∼ P(Ij = 1) = πj
mit
X
πj = 1 ,
zum Beispiel P(Ij = 1) = p1 . In diesem Fall gilt
p(γj |τj2 ) ∝ (1 − πj ) δ0 (γj ) + πj φ(γj |0, τ 2 Kj−1 ).
Bei linearer TP–Spline–Basis mit
fj (zj ) = β0j + β1j zj +
dj
X
γjl (zj − κjl )+
l=1
ist
γj = 0 ⇔ H0 : fj (zj ) linear.
Bei einer B–Spline–Basis gilt:
γj = 0 ⇔ H0 : fj (zj ) nicht im Modell,
γj 6= 0 ⇔ H1 : fj (zj ) im Modell.
Dazu muss die Priori für βj so modifiziert werden, dass p(βj ) eine eigentliche echte (propere)
Priori wird; dann existiert Kj−1 als echte Inverse und Cov(γj ) = τj2 Kj−1 . Eine Möglichkeit
hierfür ist, die Anfangswerte γ−1,jl , γ0,jl oder den Anfangs– und Endwert mit einer informativen Priori, zum Beispiel N (0, c), zu versehen.
Das MCMC–Schema muss dann um die vollbedingte Dichte f (Ij |·) erweitert werden. Aus
dem MCMC-Sample kann die Posteriori–Wahrscheinlichkeit
P(Ij = 1|y) = Posteriori–Wahrscheinlichkeit von H1 richtig“
”
122
P
(b)
geschätzt werden. Dabei ist B die Länge der erdurch die relative Häufigkeit B1 B
j=1 Ij
zeugten Markov-Kette. Daraus erhält man P̂(Ij = 1). Falls P̂(Ij = 1) > k für einen Schwellenwert k ist, wird H0 abgelehnt.
Für Irrfahrt– (RW–) Modelle, d.h. bayesianische P–Splines vom Grad 0, und für Probit–
Modelle siehe Chib, Jeliazkov (2006). Für bayesianische P–Splines in AMs und andere Basisfunktionenansätze mit Gauß–Glattheits–Priori
!
1 >
p(γj ) ∝ exp − 2 γj Kj γj
2τj
sowie allgemeinere Art, wie p(γj ) zu einer properen Priori umgeformt wird, siehe Panapiotelis
und Smith (2008), basierend auf früheren Arbeiten von Mike Smith. Dies wird zum Beispiel
auch in Smith und Fahrmeir (2007) verwendet.
123
Kapitel 8
Modellselektion
In Kapitel 6 hatten wir bereits den Fall betrachtet, dass das wahre Modell” nicht in der von
”
uns betrachteten (parametrischen) Modellklasse enthalten ist; es handelt sich hierbei also
um eine Fehlspezifikation. Wir wollen diese Gedanken noch weiter spinnen”. Dazu folgende
”
Zitate:
• Burnham und Anderson (2002): The words ’true model’ represent an oxymoron”.
”
• De Lenum (1988): Truth is elusive”.
”
• Occam’s (Ockham’s) Razor (Prinzip der Sparsamkeit)
• Burnham und Anderson (2002): Parsimony lies between the evil of under- and over”
fitting.”
Grundsätzlich sind in der Modellwahl zwei Sichtweisen möglich:
@
@
R
@
Wahres Modell” bzw. Realität”:
”
”
∞ viele Parameter
↓
Grundsätzlich nur mehr oder weniger gute
Approximation durch endlich-dimensionale
Verfahren möglich.
↓
Erkennen von großen” Effekten (bereits mit
”
einfachen Verfahren) und mittelgroßen” Effekten
”
(mit guten” statistischen Verfahren). Kleine”
”
”
Effekte können praktisch nicht erkannt werden;
sie landen in der Fehlerstruktur.
↓
Nur relative Güteabschätzung
eines Modells möglich.
124
Realität”:
”
endlich viele Parameter
↓
Prinzipiell ist es möglich, das
wahre Modell” zu entdecken.
”
↓
Dies ist zum Beispiel Situation
in Computer-Simulationen.
↓
Absolute Güteabschätzung
eines Modells möglich.
Wir werden beide Sichtweisen benutzen.
Modellselektion kann mehrere Aspekte beinhalten:
• Variablenselektion im Regressionsmodell (ganz allgemein: univariat/multivariat, Panel,
Längsschnitt, geo(additiv)) ist auch Modellselektion (eventuell genestete” Situation,
”
aber nicht notwendigerweise, zum Beispiel log(x1 ), x21 ).
• Vergleich verschiedener Modellklassen, zum Beispiel Vergleich verschiedener Linkfunktionen ( non-nested”).
”
Modellselektion kann mittels verschiedener Ansätze durchgeführt werden:
• Folge von Tests (zum Beispiel forward/backward/stepwise); hat bewiesenermaßen Nachteile, insbesondere hat der Schätzer nach der Selektion eine andere Verteilung als ohne
Selektion. Das heißt, die üblichen Statistiken (p-Werte) stimmen nicht bzw. haben nicht
die gewünschte Verteilung. Stichwörter: post model selection inference”, model ave”
”
raging” (Hjart and Claeskens, 2003, 2007).
Aber: Die Vorwärts-Rückwärts-Schrittweise Selektion liefert gute Ergebnisse, wenn AIC
(siehe Abschnitt 8.2), BIC (Abschnitt 8.3), Cp (Abschnitt 8.1) oder CV verwendet
werden (Fahrmeir et al.). Auf keinen Fall sollte das Verfahren von Efroymson verwendet
werden (p- oder F-Werte für Einschluss/Ausschluss von Variablen).
Allerdings: Wenn sehr viele Variablen zur Auswahl stehen (p n), müssen in der Regel
Kompromisse gemacht werden. Neuere Methoden:
– Random Forests
– Boosting
– Bayes?
• Shrinkage-Ansätze bei Variablenselektion, zum Beispiel LASSO ( automatisches Null”
setzen” von bestimmten Parametern).
• Selektion auf der Basis von (geschätzten) Vorhersagefehlern, zum Beispiel Kreuzvalidierung (CV), verallgemeinerte Kreuzvalidierung (GCV); vgl. Kapitel 5.6.
• Selektion auf Basis von Informationskriterien, zum Beispiel AIC, BIC, HAIC, CAIC,
TIC, RIC, QAIC, MAIC3, MDL. In Artikeln werden oft sehr spezielle Modelle betrachtet, für die ein Kriterium entwickelt wird.
Bemerkung. Zum Vergleich genesteter” parametrischer Modelle kann natürlich die bekann”
te Likelihood-Quotienten-Statistik verwendet werden. Als allgemeines Verfahren ist sie nicht
geeignet (u. A. bei multiplem Testproblem bei mehr als zwei Modellen).
8.1
Mallows’ Cp -Kriterium im linearen Modell
Bei Mallows’ Cp -Kriterium wird Selektion auf der Basis von geschätzten Vorhersagefehlern
betrieben. Sei der datengenerierende Prozess (DGP)
y = Xβ + ε
, ε ∼ N (0, σ 2 I)
125
mit rg(X) = p ≤ n und µ = E(y) = (µ1 , . . . , µn )> = Xβ. Möglicherweise tragen einige der Kovariablen nicht sehr zur Erklärung der Zielvariablen bei. Wir unterteilen deshalb
die Kovarianzmatrix und den Koeffizientenvektor in X = (X1 , X2 ) und β = (β1 , β2 ) mit
rg(X1 ) = p1 < p und betrachten das Submodell
, ε1 ∼ N (0, σ12 I).
y = X 1 β1 + ε1
Anstelle der Schätzer
β̂ = (X > X)−1 X > y
und
µ̂ = X β̂
für das volle Modell betrachten wir also
β̂1 = (X1> X1 )−1 X1> y
und
µ̂1 = X1 β̂1 = P1 y
mit
P1 = X1 (X1> X1 )−1 X1> .
Es gilt
E(µ̂1 ) = P1 E(y) = P1 Xβ = P1 µ.
Betrachte Summe der erwarteten quadrierten Abweichungen (SMSE) (Fahrmeir et al.)
SMSE =
n
X
E(µ̂1i − µi )2 =
i=1
n
2
X
E µ̂1i − E(µ̂1i ) + E(µ̂1i ) − µi
i=1
n
n h
i2 X
X
E(µ̂1i ) − µi +
=
Var(µ̂1i )
|i=1
{z
}
(II)
|i=1 {z
(I)
}
(I) Wegen P1 P1> = P1 gilt
Cov(µ̂1 ) = Cov(P1 y) = P1 (σ 2 I)P1> = σ 2 P1 .
Daraus folgt
n
X
Var(µ̂1i ) = tr(σ 2 P1 ) = σ 2 tr(P1 ) = σ 2 p1 .
i=1
(II)
n h
P
E(µ̂1i ) − µi
i=1
i2
= ... =
n
P
E(yi − µ̂1i )2 − σ 2 ( n − p1 ).
| {z }
i=1
=tr(I−P1 )
Insgesamt:
SMSE =
n
X
E(yi − µ̂1i )2 − σ 2 (n − 2p1 ).
i=1
Schätze
σ2
durch
σ̂ 2
des vollen Modells. Aus
\ =
SMSE
n
X
(yi − µ̂1i )2 − σ̂ 2 (n − 2p1 )
i=1
126
folgt dann
Cp =
\
SMSE
=
σ̂ 2
Pn
i=1 (yi
− µ̂1i )2
σ̂ 2
− n + 2p1 =
SSE(p1 )
− n + 2p1 .
σ̂ 2
Es gilt: E(Cp ) = p1 .
8.2
Das Akaike Informationskriterium (AIC)
Literatur: Burnham und Anderson (2002).
Wir erinnern uns an die Definition der Kullback-Leibler-Distanz in Kapitel 6, Definition 6.1:
Z
g(X)
g(x)
log
D(g, fθ ) = Eg log
=
· g(x) dx.
f (X|θ)
f (x|θ)
R
Für die weiteren Überlegungen vertausche nun die Rollen:
f (x)
wahre Dichte, die die Daten generiert,
g(x|θ)
approximierende Modellklasse.
Das heißt, wir erwarten im Folgenden gar nicht, den wahren DGP beschreiben zu können.
Betrachte
x = (x1 , . . . , xn )> ∼ f
y = (y1 , . . . , yn )> ∼ f
truth”, zukünftige Beobachtungen,
”
truth”, Daten.
”
Die Idee ist, dass zukünftige Beobachtungen und Daten unabhängig voneinander sind.
Das beste approximierende Modell sei g(x|θ0 ), das heißt dieses Modell minimiert die KLDistanz (Information):
Z
f (x)
min D f, g(·|θ) = D f, g(·|θ0 ) =
log
· f (x) dx.
θ
g(x|θ0 )
R
Bis jetzt enthält D keine Daten; x wurde herausintegriert. Die Daten kommen ins Spiel, da
wir θ0 schätzen müssen, das heißt wir schätzen D(f, g(·|θ0 )) durch
Z
f (x)
D f, g ·|θ̂(y) =
log
f (x) dx.
g x|θ̂(y)
R
Dabei ist θ̂ ≡ θ̂(y) der ML-Schätzer.
Aber: Auch D(f, g ·|θ̂(y) ) ist nicht berechenbar, da f unbekannt ist. Das heißt, selbst wenn
f (x) = g(x|θ0 ) wäre (und damit D(f, g(·|θ0 )) = 0), gilt dies nicht für die Schätzung θ̂(y). Das
heißt, im Allgemeinen ist
D f, g ·|θ̂(y) > D f, g ·|θ0 .
127
Jetzt: Frequentistische Sichtweise, wiederhole Experiment der Generierung der Daten y, wobei yi ∼ f . Ziel ist es, den Erwartungswert EY (D(f, g(·|θ̂(Y )))) zu minimieren. Es gilt
Z
=
D f, g ·|θ̂(y) · f (y) dy
EY D f, g ·|θ̂(Y )
R
!
#
Z "Z
f (x)
=
log
· f (x) dx · f (y) dy
g(x|θ̂(y))
R
R
#
Z "Z
Z
log(f (x)) · f (x) dx − log g(x|θ̂(y)) · f (x) dx · f (y) dy
=
R
R
|R
{z
}
hängt nicht von y ab
Z "Z
Z
=
log(f (x)) · f (x) dx −
R
|
{z
}
Konstante
"Z
R
#
log g(x|θ̂(y)) · f (x) dx · f (y) dy
R
#
log g(x|θ̂(Y )) · f (x) dx
= Konstante − EY
R
"
= Konstante − EY EX
#
log g(X|θ̂(Y )) .
Man konzentriert sich darauf, diesen doppelten Erwartungswert” EY EX [log(g(X|θ̂(Y )))] zu
”
schätzen. Da die Konstante nicht berechnet werden kann, erhält man nur relative Werte für
EY (D(f, g(·|θ̂(Y )))).
Ziel ist also die Schätzung von
"
T = EY EX
Z "Z
=
R
log g(X|θ̂(Y ))
#
#
log g(x|θ̂(y)) f (x) dx · f (y) dy
R
"
#
=” Eθ̂ EX log(X|θ̂)
”
, wobei θ̂ = θ̂(y).
Bemerkung. Für x und y unabhängig besteht hier eine Nähe zur Kreuzvalidierung!
Wir führen nun eine Taylorentwicklung um den optimalen” Parameter θ0 durch:
”
i>
h ∂ log g(x|θ) log g(x|θ̂) ≈ log g(x|θ0 ) +
(θ̂ − θ0 )
∂θ
θ=θ0
∂ 2 log g(x|θ) 1
+ [θ̂ − θ0 ]>
[θ̂ − θ0 ].
2
∂θ ∂θ>
θ=θ0
128
(8.1)
Erwartungswertbildung bzgl. X ∼ f liefert
EX
h
#>
"
h
i
i
∂ log g(X|θ) log g(X|θ̂) ≈EX log g(X|θ0 ) + EX
(θ̂ − θ0 )
∂θ
θ=θ0
|
{z
}
(8.2)
(∗)
#
2 log g(X|θ) ∂
1
[θ̂ − θ0 ] ,
+ [θ̂ − θ0 ]> EX
2
∂θ ∂θ>
θ=θ0
|
{z
}
"
−(∗∗)
wobei
Z
(∗) =
R
∂ log g(x|θ) · f (x) dx = 0
∂θ
θ=θ0
(vgl. Kapitel 6; θ0 steht für das beste Modell) und
(
−(∗∗) = EX
)
∂ 2 log(g(X|θ)) −
:= I(θ0 ).
∂θ ∂θ>
θ=θ0
Bemerkung. Es ist
(
I(θ0 ) 6= I(θ0 ) = Eg
)
∂ 2 log(g(X|θ)) −
∂θ ∂θ>
θ=θ0
mit der Fisher-Information I(θ0 ), falls g das wahre Modell ist, das heißt wenn g = f , dann
Σ = E(θ̂ − θ0 )> (θ̂ − θ0 ) = I(θ0 )−1 .
Für den obigen Erwartungswert (8.2) gilt also:
i
h
h i
1
EX log g(X|θ̂) ≈ EX log g(X|θ0 ) − [θ̂ − θ0 ]> I(θ0 ) [θ̂ − θ0 ].
2
Der erste Summand hängt nicht von y bzw. θ ab. Der zweite ist identisch mit
1 − tr I(θ0 ) · [θ̂ − θ0 ][θ̂ − θ0 ]> .
2
Dabei hängt I(θ0 ) nicht von θ̂ ab. Betrachten wir nun wieder den doppelten Erwartungswert (8.1):
i
i
h
h
h
io
1 n
Eθ̂ EX log g(X|θ̂) ≈ EX log g(X|θ0 ) − tr I(θ0 ) · Eθ̂ [θ̂ − θ0 ][θ̂ − θ0 ]> .
2
|
{z
}
=Σ, da bzgl. f gebildet!
Damit gilt:
h
i 1 h
i
T ≈ EX log(g(X|θ0 )) − tr I(θ0 ) · Σ .
2
129
(8.3)
Als nächstes benötigen wir eine Beziehung zwischen dem doppelten Erwartungswert T und
EY [log(g(Y |θ̂(Y )))], also dem Erwartungswert der log-Likelihood, ausgewertet am
ML-Schätzer. Da es nur um die Erwartungswerte geht und x und y aus der gleichen Verteilung
stammen, können wir auch x als Daten auffassen. Wir suchen deshalb einen Zusammenhang
zwischen T und EX [log(g(X|θ̂(X)))].
Wir führen nun wieder eine Taylorententwicklung durch, diesmal um θ̂ = θ̂(x).
"
#>
∂ log g(x|θ) log g(x|θ0 ) ≈ log g(x|θ̂) +
(θ0 − θ̂)
∂θ
θ=θ̂
|
{z
}
=0
!
2
1
> ∂ log(g(x|θ)) [θ0 − θ̂].
+ [θ0 − θ̂]
2
∂θ ∂θ>
θ=θ̂
Durch Erwartungswertbildung erhalten wir, analog zu den vorherigen Rechnungen,
)
(
1
i
h
ˆ θ̂)(θ0 − θ̂)(θ0 − θ̂)> .
EX log g(X|θ0 ) ≈ EX log g(X|θ̂) − tr EX I(
2
ˆ θ̂) die (negative) Hessematrix der log-Likelihood, ausgewertet an θ̂. Approximieren
Dabei ist I(
ˆ θ̂) ≈ I(θ0 ), so erhalten wir
wir diese durch I(
i
h
ˆ θ̂)(θ0 − θ̂)(θ0 − θ̂)> ≈ I(θ0 )EX ((θ0 − θ̂)(θ0 − θ̂)> ) = I(θ0 ) · Σ
EX I(
und damit
EX log g(X|θ0 )
≈ EX
1 n
o
log g(X|θ̂) − tr I(θ0 ) · Σ .
2
Einsetzen in (8.3) liefert
"
T ≈ EX
(
)
#
1
log g(X|θ̂(X))
− 2 · tr I(θ0 ) · Σ .
2
Der Erwartungswert wird hier nur bzgl. einer Stichprobe” gebildet.
”
Alternativ : Definiere
∂ 2 log(g(X|θ)) I(θ0 ) = Ef −
∂θi ∂θj
θ=θ0
(
> )
∂
∂
J(θ0 ) = Ef
log g(X|θ)
log g(X|θ)
∂θ
∂θ
θ=θ0
>
Σ = Ef (θ0 − θ̂)(θ0 − θ̂)
Für n → ∞ gilt
−1
I(θ0 ) · Σ = J(θ0 ) I(θ0 )
130
und damit
Σ = I(θ0 )−1 J(θ0 ) I(θ0 )−1 .
Dies ist die asymptotische Kovarianzmatrix von θ̂ML , abgeleitet von Modell g, wenn f wahr
ist.
Damit folgt:
"
T ≈ EX
(
)
#
log g(X|θ̂(X))
− tr J(θ0 ) I(θ0 )−1 .
Fast unverzerrte” Schätzungen von T sind
”
b I(θ0 ) Σ
T̂ = log g(x|θ̂(x)) − tr
und
b J(θ0 ) I(θ0 )−1 .
T̂ = log g(x|θ̂(x)) − tr
Dabei sind I(θ0 ) und J(θ0 ) schätzbar, Σ aber nicht (außer zum Beispiel durch Bootstrap).
Das Akaike Informationskriterium ergibt sich nun als
b J(θ0 ) I(θ0 )−1 .
AIC ≈ −2 T̂ = −2 log g(x|θ̂(x)) + 2 tr
Ist g ein gutes Modell”, also eine gute Appproximation an f , dann gilt
”
I(θ0 ) ≈ I(θ0 ) ≈ J(θ0 ) ≈ Σ
und
tr J(θ0 ) I(θ0 )−1 ≈ tr(Ik ) = k,
wobei Ik die Einheitsmatrix mit k Zeilen bzw. Spalten bezeichnet. Insgesamt erhalten wir
das
AIC = −2 log g x|θ̂(x) + 2k.
Ein Modell mit kleinem AIC sollte nach diesem Kriterium einem Modell mit großem AIC
vorgezogen werden.
Einschub: Laplace-Approximation
Ziel der Laplace-Approximation ist die Bestimmung der Normalisierungskonstante
Z
NP = f (θ) dθ
Θ
der unnormalisierten Wahrscheinlichkeitsdichte f (θ), welche typischerweise durch
f (θ) ≡ fe(θ|x) = f (x|θ) · p(θ)
mit unnormalisierter Posteriori-Dichte fe(θ|x) gegeben ist.
131
Skalarer Parameter. Sei θ ∈ Θ zunächst eindimensional.
Annahme: f (θ) hat ein eindeutiges Maximum in θ0 .
Anstelle von f (θ) betrachten wir die logarithmierte (unnormalisierte) Dichte:
f (θ)
ln f (θ)
Für die erste Ableitung von ln f (θ) an der Stelle θ0 gilt:
∂
∂
1
ln f (θ)
·
f (θ)
= 0.
=
∂θ
f (θ0 )
∂θ
θ=θ0
θ=θ0
|
{z
}
0
Daher erhalten wir als Taylorentwicklung von ln f (θ) um θ0 :
!
1
∂2
d
ln f (θ) ≈ ln f (θ0 ) − · − 2 ln f (θ)
·(θ − θ0 )2 = ln f (θ0 ) − · (θ − θ0 )2 .
2
∂θ
2
θ=θ0
|
{z
}
=:d
132
f (θ) kann damit approximiert werden durch
d
d
2
2
f (θ) ≈ g(θ) = exp ln f (θ0 ) − (θ − θ0 )
= f (θ0 ) · exp − (θ − θ0 )
.
2
2
{z
}
|
Kern einer
N (θ0 , d1 )-Verteilung
R
Wir erhalten also eine Schätzung für die Normalisierungskonstante von Θ f (θ)dθ durch
Z
Z
Z
d
2
NP =
f (θ) dθ ≈
g(θ) dθ =
f (θ0 ) · exp − (θ − θ0 )
dθ
2
Θ
Θ
Θ
r
Z
2π
d
1
2
· exp − (θ − θ0 )
= f (θ0 )
· q
dθ
d
2
1
2π
·
d
Θ
|
{z
}
=1
r
2π
= f (θ0 )
.
d
Für θ0 kann dabei zum Beispiel die Posteriori-Modus-Schätzung verwendet werden.
Vektorieller Parameter. Wir betrachten nun die Verallgemeinerung auf den Fall, dass
θ ∈ Θ ein k-dimensionaler Vektor ist.
∂2
Statt d = − ∂θ
erhalten wir D = (dij ) 1 ≤ i ≤ k mit
2 ln f (θ)
θ=θ0
1≤j≤k
∂2
dij = −
ln f (θ)
.
∂θi ∂θj
θ=θ0
Damit lautet die Taylorentwicklung:
1
ln f (θ) ≈ ln f (θ0 ) − (θ − θ0 )> D(θ − θ0 )
2
1
>
⇒ f (θ) ≈ g(θ) = f (θ0 ) · exp − (θ − θ0 ) D(θ − θ0 )
2
|
{z
}
Kern einer
N (θ0 , D −1 )-Verteilung
Die Normierungskonstante kann dann durch
Z
Z
Z
1
>
g(θ) dθ =
f (θ0 ) · exp − (θ − θ0 ) D(θ − θ0 ) dθ
f (θ) dθ ≈
2
Θ
Θ
Θ
Z
(2π)k/2
1
1
>
= f (θ0 ) ·
·
· exp − (θ − θ0 ) D(θ − θ0 ) dθ
2
|D|1/2
(2π)k/2 · |D −1 |1/2
Θ
|
{z
}
=1
= f (θ0 ) ·
(2π)k/2
|D|1/2
133
geschätzt werden.
Wir betrachten nun zwei Spezialfälle:
1. Wir möchten die Normalisierungskonstante der Likelihood von θ schätzen, d.h. wir
betrachten die Dichte
f (θ) ≡ f (x|θ) =
n
Y
f (xi |θ) = L(θ),
i=1
welche im (eindeutigen) ML-Schätzer θ̂ML ein Maximum hat. Es gilt
1
>
L(θ) ≈ L(θ̂ML ) · exp − (θ − θ̂ML ) D(θ − θ̂ML )
2
1
= L(θ̂ML ) · exp − (θ − θ̂ML )> (nD̃)(θ − θ̂ML )
2
mit D̃ = D/n. Der zweite Faktor ist der Kern einer N (θ̂ML , (nD̃)−1 )-Verteilung. Wir
erhalten daher als Schätzer für die Normierungskonstante
Z
(2π)k/2
(2π)k/2
L(θ) dθ ≈ L(θ̂ML ) ·
= L(θ̂ML ) ·
.
|nD̃|1/2
nk/2 · |D̃|1/2
Θ
Alternativ kann man anstelle von D auch die geschätzte inverse Kovarianzmatrix
von θ̂ML , V (θ̂ML )−1 , mit V (θ̂ML )−1 = n · V1 (θ̂ML )−1 verwenden.
2. Wir möchten die Normalisierungskonstante der unnormalisierten Posteriori von θ schätzen, d.h. wir betrachten die Dichte
!
n
Y
f (θ) = fe(θ|x) = f (x|θ) · p(θ) =
f (xi |θ) · p(θ) ,
i=1
welche im Posteriori-Modus-Schätzer θ̂M ein Maximum hat. Definiere die Funktion q
so, dass
!#
"
n
n
X
X
1
log f (xi |θ) + log p(θ)
.
log fe(θ|x) =
log f (xi |θ) + log p(θ) = n ·
n
i=1
i=1
|
{z
}
=: log q(θ|x)
Entwicklung um θ̂M liefert
1
log fe(θ|x) ≈ log f (θ̂M |x) − (θ − θ̂M )> (nD)(θ − θ̂M )
2
2
mit D = (dij ) und dij = − ∂θ∂i θj log q(θ|x)
.
θ=θ̂M
Damit folgt
1
>
e
e
f (θ|x) ≈ f (θ̂M |x) · exp − (θ − θ̂M ) (nD)(θ − θ̂M )
2
134
und
Z
Z
fe(θ|x) dθ ≈ fe(θ̂M |x) ·
Θ
1
exp − (θ − θ̂M )> (nD)(θ − θ̂M )
2
dθ
Θ
(2π)k/2
= fe(θ̂M |x) · k/2
n · |D|1/2
Z
1
1
>
·
· exp − (θ − θ̂M ) (nD)(θ − θ̂M ) dθ
2
(2π)k/2 · |(nD)−1 |1/2
Θ
|
{z
}
=1
= fe(θ̂M |x) ·
wobei
(2π)k/2
nk/2 · |D|1/2
,
h
i−1/2
=
|(nD)−1 |1/2 = |nD|−1/2 = nk |D|
Also:
Z
fe(θ|x) dθ ≈ fe(θ̂M |x) ·
nk/2
1
.
· |D|1/2
(2π)k/2
.
nk/2 · |D|1/2
Θ
8.3
Das Bayessche Informationskriterium (BIC)
Die Abkürzung BIC steht für Bayesian Information Criterion, welches oft auch Schwarzsches
Informationskriterium (SIC) genannt wird. Dieses Kriterium ist (approximativ) äquivalent
zu auf der marginalen Likelihood
Z
f (x) = f (x|θ) · p(θ) dθ.
Θ
basierender Modellwahl.
Ableitung des BIC:
Verwende Spezialfall 2 auf Seite 134 als Laplace-Approximation:
Z
(2π)k/2
f (x) = fe(θ|x)dθ ≈ fe(θ̂M |x) · k/2
n · |D|1/2
Θ
=
n
Y
f (xi |θ̂M ) · p(θ̂M ) ·
i=1
(2π)k/2
nk/2 · |D|1/2
mit dem Posteriori-Modus-Schätzer θ̂M , also
log f (x) ≈
n
X
log f (xi |θ̂M ) + log p(θ̂M ) +
i=1
k
k
1
log(2π) − log(n) − log(|D|).
2
2
2
Nun werden folgende Modifikationen vorgenommen:
135
1. Für große n gilt:
(i) log p(θ̂M ) kann vernachlässigt werden −→ Term weglassen.
(ii) θ̂M konvergiert gegen θ̂ML −→ f (x|θ̂M ) durch f (x|θ̂ML ) ersetzen.
2.
k
2
log(2π) wird durch − k2 log(n) und die Log-Likelihood dominiert −→ Term weglassen.
3. |D| ist beschränkt −→ Term weglassen.
Damit:
k
log f (x) ≈ log f (x|θ̂ML ) − log(n).
|
{z
}
2
Log-Likelihood,
ausgewertet am
ML-Schätzer
Durch Multiplikation mit −2 ergibt sich das
BIC = −2 log f (x|θ̂ML ) + k · log(n) .
Ein Modell mit kleinem BIC sollte nach diesem Kriterium einem Modell mit großem BIC
vorgezogen werden.
8.4
Boosting
Generelles Konzept
Iterative Schätzung von (hoch-dimensionalen) Regressionsmodellen für verschiedene Typen
von Zielvariablen y und (strukturiert) additiven Prädiktoren (vgl. 7.4)
0
η(z) = β0 + x β +
| {z }
=:f0 (z0 )
p
X
fj (zj ) + Interaktionen f (z1 , z2 ) + räumliche Effekte.
j=1
Boosting lässt sich interpretieren als funktionale Gradientenabstiegsmethode (functional gradient descent, FGD) zur Lösung des Optimierungsproblems
η ∗ (z) = argmin E(ρ(y, η(z)))
η(z)
mit geeigneter Verlustfunktion ρ(·, ·), zum Beispiel
1
ρ(y, η) = (y − η)2
2
ρ(y, η) = − log f (y|η)
quadratische Verlustfunktion (L2 -Boosting),
negative Log-Likelihood.
Dabei werden die Verlustfunktionen durch das empirische Risiko
n
1X
ρ(yi , η(zi ))
n
i=1
ersetzt.
136
Allgemeiner Boosting-Algorithmus
Start: η̂ (0) , zum Beispiel η̂ (0) ≡ 0 oder η̂ (0) ≡ ȳ, . . ..
Für m = 1, 2, . . .:
1. Berechne die ”Arbeits-Beobachtungen” / ”Residuen”
ui = −
∂
ρ(yi , η) |η=η̂(m−1) (zi ) ,
∂η
i = 1, . . . , n.
2. Definiere Basis-Lerner (oder: Basis-Prozeduren)
gj (zj ),
j = 0, . . . , p,
zum Beispiel g0 (z0 ) = β0 + β1 z0 oder g1 (z1 ) = B-Spline(zj ).
3. Wähle den best-fittenden Basis-Lerner
ĵ = argmin
n
X
(ui − gj (zij ))2 ,
0≤j≤p i=1
das heißt wende KQ-Schätzer, (penalisierte) B-Splines auf die Arbeitsbeobachtungen ui
für i = 1, . . . , n an anstatt auf die yi und wähle die aktuell am besten gefittete Komponente ĵ.
4. Setze
(m)
(m−1)
fˆĵ (·) = fˆĵ
(·) + νgĵ (·),
mit der ”Schrittweite” ν ∈ [0, 1] und
(m)
(m−1)
fˆj (·) = fˆj
(·)
für j 6= ĵ.
Iteriere 2. bis 4. bis m = mstop .
L2 -Boosting in linearen und additiven Modellen
yi = η(zi ) + εi ,
i.i.d.
εi ∼ N (0, σ 2 )
(m)
(m−1)
= (yi − ηi ) |η̂(zi )(m−1) = ε̂i
1
(y − η)2 ,
ρ(y, η) =
2
1
E(ρ(y, η)) =
E(y − η)2 ,
2
η̂ = argmin E(y − η)2 = E(y|η(z))
ui
η
L2 -Boosting mit komponentweisen KQ-Schätzern
Die yi - und xij -Werte seien hier schon standardisiert oder zumindest zentriert (Intercept= 0).
137
Modell:
yi = β1 xi1 + . . . + βp xip + εi ,
i.i.d.
εi ∼ (0, σ 2 )
Basis-Prozedur: Lineare Einfachregression
gj (xi ) = βj xij ,
j = 1, . . . , p, (Basis-Lerner)
Pn
ui xij
base
base
ĝj (xi ) = β̂j xij , β̂j
= Pi=1
j = 1, . . . , p
n
2 ,
i=1 xij
ĵ = argmin
j
n
X
(8.4)
(ui − β̂j xij )2
i=1
L2 -Boosting-Algorithmus
Start: η̂ 0 (·) = ĝĵ (·) (mit yi statt ui ) oder η̂ (0) ≡ 0
Dann:
1. Berechne
ui = yi −
η̂ (m−1) (xi )
| {z }
aktueller Prädiktor
ui = yi − ηi = −
∂ 1
(yi − ηi )2
∂ηi |2 {z }
ρ(yi ,ηi )
2. Wähle die best-fittende lineare Einfachregression gemäß (8.4) oben.
3. Setze
(m)
= β̂ĵ
(m)
= β̂j
β̂ĵ
β̂j
(m−1)
(m−1)
+ ν β̂ĵbase
für j 6= ĵ.
4. Stoppe für m = mstop .
• Konsistenz von L2 -Boosting, wenn p schneller gegen unendlich geht als n:
p = C exp(kn1−ξ ),
0<ξ<1
(sowie Vergleich mit LASSO in Bühlmann, Annals of Statistics, 2006).
• Boosting in GAMs: Übersicht in Bühlmann und Hothorn (Statistical Science, 2007);
Bodyfat-Beispiel.
• Boosting in strukturiert additiven Regressionsmodellen: Kneib, Hothorn und Tutz (Biometrics, 2009; immer mit ρ(y, η) = 12 (y − η)2 bzw. ρ(y, η) = negative Log-Likelihood).
Problem: Wahl von Glättungsparametern für P-Splines und von mstop .
b
Derzeit: Für alle Funktionen f1 , . . . , fq , fgeo ist λbase so, dass df(λbase = df(=
1).
⇒ Alle Funktionen f1 , . . . , fq , fgeo müssen in etwa den gleichen Grad an Glattheit
besitzen.
Dann: mstop ist einziger Tuningparameter.
138
Kapitel 9
Asymptotische Statistik
Dieses Kapitel beschäftigt sich mit folgenden Problemstellungen:
1. Asymptotische Eigenschaften von Schätzern und Teststatistiken (sowie Modellwahlkriterien) in der frequentistischen parametrischen Inferenz, insbesondere für (Quasi–)
Likelihood–Ansätze und Schätzgleichungen.
2. Asymptotische Eigenschaften der Posteriori–Verteilung in der Bayes–Inferenz.
3. Asymptotische Eigenschaften von nichtparametrischen Schätzern und Teststatistiken.
4. Approximationen, die auf asymptotischen Eigenschaften beruhen, wie zum Beispiel die
Laplace–Approximation.
Zu Punkt 1. und 2. werden Konzepte, Ideen und typische Ergebnisse genannt, zu 3. und 4.
wird ein Ausblick gegeben.
Sei y = (y1 , . . . , yn ) unsere Stichprobe. In den folgenden drei Abschnitten betrachten wir die
Fälle
i.i.d.
• yi ∼ P bzw. f (yi ),
ind
• yi ∼ fi (yi ), y ∼
Q
i fi (yi )
und
• y ∼ f (y), wobei y1 , . . . , yn abhängig sind.
In der parametrischen Asymptotik betrachten wir Parameter θ = (θ1 , . . . , θp ) mit fester Dimension p = dim(θ) und wachsenden Stichprobenumfang n → ∞.
In der semiparametrischen Asymptotik ist die Dimension p des Parameters groß bzw. wachsend mit n, oder θ ist eine (unbekannte) Funktion wie zum Beispiel bei der Kerndichteschätzung.
139
9.1
Asymptotische Eigenschaften von ML–Schätzern
9.1.1
Unabhängige und identisch verteilte Beobachtungen
i.i.d
Seien yi ∼ f (y|θ), y ∈ R und θ ∈ Θ ⊂ Rp . Sei
θ̂n = argmax L(θ) = argmax
θ
θ
n
Y
f (yi |θ) = argmax l(θ) = argmax
θ
i=1
θ
n
X
log f (yi |θ).
i=1
Wir treffen die Grundannahme, dass ein wahrer“ Parameter θ0 existiert, so dass es ein wah”
”
res“ Wahrscheinlichkeitsmaß P ∈ {Pθ , θ ∈ Θ} gibt. Dabei ist Pθ das Wahrscheinlichkeitsmaß
zur Dichte“ f (y|θ). Zur Notationsvereinfachung schreiben wir oft θ statt θ0 .
”
Unter geeigneten Annahmen gelten folgende asymptotische Eigenschaften:
(E) Existenz: P(θ̂n existiert in Θ) → 1 für n → ∞.
(K) Konsistenz:
P
θ̂n → θ
θ̂n
f.s.
→θ
(schwache Konvergenz),
(starke Konvergenz).
(AN) Asymptotische Normalität:
√
n(θ̂n − θ) → N (0, I1 (θ)−1 ),
wobei
I1 (θ) = E(s1 (θ)s1 (θ)> ) = Cov(s1 (θ))
mit s1 (θ) =
∂
log f (y1 |θ).
∂θ
Dies ist die Informationsmatrix bzw. Score–Funktion einer typischen“ Variablen bzw.
”
Beobachtung y1 .
(AE) Asymptotische Effizienz: Für andere asymptotisch normalverteilte Schätzer θ̃n mit
√
n(θ̃n − θ) → N (0, V (θ))
gilt
V (θ) ≥ In (θ)−1 .
Alle Resultate bzw. Sätze im i.i.d. Fall setzen Fisher–Regularität voraus bzw. stellen Voraussetzungen, die diese implizieren (zum Beispiel Cramér, 1946). Ein typischer Satz ist der
folgende:
140
Satz 9.1 (Serfling, 1993). Die folgenden Annahmen seien erfüllt:
(i) Für i, j = 1, . . . , p:
(a) Die Ableitungen
∂f (y|θ)
∂θi
und
∂ 2 f (y|θ)
∂θi ∂θj
existieren fast sicher.
(b) Es gilt
2
∂f (y|θ) ∂ f (y|θ) ∂θi ≤ Hi (y) , ∂θi ∂θj ≤ Gij (y),
R
R
wobei Rp Hi (y)dy < ∞ und Rp Gij dy < ∞.
(ii) Für i, j = 1, . . . , q:
(a) Die Ableitungen
∂ 2 log f (y|θ)
∂ log f (y|θ)
und
∂θi
∂θi ∂θj
existieren fast sicher, wobei
I1 (θ) < ∞
und I1 positiv definit.
(b) Für δ → 0 gilt
(
Eθ
2
)
∂ log f (y|θ + h) ∂ 2 log f (y|θ) → 0.
sup −
∂θ∂θ >
∂θ∂θ > {h:khk≤δ}
Dann:
√
d
n(θ̂n − θ) → N (0, i1 (θ)−1 ) .
Bemerkung.
1. In (ii) ist (b) ist die Stetigkeitseigenschaft“ der beobachteten Information in einer
”
(sehr kleinen) Umgebung von θ.
2. Die Beweise differieren beim Konsistenznachweis: Manchmal wird Θ als kompakt oder
offen (passt meist besser, zum Beispiel −∞ < µ < ∞, 0 < σ 2 < ∞) angenommen. Alle
Beweise benutzen
∂l1 (θ)
E(s1 (θ)) = E
=0
∂θ
n
n
X
X
∂ log f (yi |θ)
, wobei si (θ) i.i.d. Zufallsvariablen
sn (θ) =
si (θ) =
∂θ
i=1
i=1
Cov(s1 (θ)) = I1 (θ)
und Taylorentwicklungen.
3. Die Konvergenzgeschwindigkeit ist n−1 , denn aus der
MSE(θ̂n ) ≤ C ·
141
1
.
n
√
n–Normierung folgt
9.1.2
Unabhängige aber nicht identisch verteilte Beobachtungen
Identisch verteilte aber nicht unabhängige (i.n.i.d.) Variablen y1 , . . . , yn liegen meist bei Regressionsproblemstellungen (für Querschnittsdaten) vor:
ind
yi ∼ f (yi |xi ; θ)
mit θ = β bzw. θ = (β; α). Dabei enthält α zusätzliche Verteilungsparameter für die Varianz
und die Form.
Exemplarisch für GLM (mit bekanntem Dispersionsparameter φ ≡ α):
yi |xi
ind
E(yi |xi )
=
L(β)
=
µi = h(x>
i β),
n
Y
f (yi |x>
i β),
l(β)
=
log(L(β)),
β
∈
Rp , d.h. offener Parameterraum.
∼
Exponentialfamilie,
i=1
Wir nehmen wieder an, dass ein θ0 existiert, so dass f (yi |xi ) = f (yi |xi , θ0 ).
Wir betrachten zwei Arten“ von Asymptotik:
”
√
1. Asymptotik mit n–Normierung; impliziert Konvergenzgeschwindigkeit 1/n. Dazu sind
Annahmen nötig, die typischerweise für Beobachtungsstudien“ passen:
”
(yi , xi )
i.i.d. wie
∼
(y, x),
d.h. yi , xi werden rein zufällig aus einer gemeinsamen Verteilung bzw. Dichte f (yi , xi )
gezogen. Dann
yi |xi
ind
∼
f (yi |xi )
| {z
}
= f (yi |xi ; θ),
bedingte Dichten
xi
i.i.d.
∼
f (x).
2. Asymptotik mit Matrixnormierung bzw. anderen Konvergenzraten umfasst Fall 1, ist
aber allgemeiner. Typischer Fall: Experimentelle Studien“ mit xi = Dosis“, die ge”
”
plant erhöht wird.
Ein typischer Satz mit
√
n–Normierung ist:
Satz 9.2 (Serfling, 1993). Gegeben sei ein GLM für (yi , xi ) mit ML-Schätzer β̂n .
In (β) = X > W (β)X sei die erwartete Fisherinformation zu y1 , . . . , yn ; x1 , . . . , xn . Es gelte:
lim
n→∞
1
In (β) = I(β) < ∞
n
und
I(β) > 0 (positiv definit)
und zusätzliche Bedingungen, die insbesondere
1
P
[In (β) − Jn (β + h)] → 0
n
142
für h → 0
(9.1)
garantieren (Jn (β) ist die beobachtete Informationsmatrix).
Dann gilt für den ML-Schätzer β̂n
√
bzw. (die Praxis“–Form)
”
d
n(β̂n − β) → N (0, I −1 (β))
1 −1
β̂n ∼ N β, I (β) .
n
a
Dabei ist n−1 I −1 (β) die approximative Kovarianzmatrix, und es gilt die Näherung
n−1 nIn (β)−1 ≈ (In (β))−1 .
Frage: Wieso sollte bei einem geplanten Experiment (9.1) gelten? Falls allerdings (wie bei
i.i.d.
Beobachtungsstudien) xi ∼ f (x) gilt, dann folgt nach dem Gesetz der großen Zahlen
n
1 >
1X
>
X W (β) X =
wi (β)xi x>
i → E(w(β)xx ) =: I(β).
| {z }
n
n
i=1
Diag.
Mit Matrixnormierung:
Satz 9.3. Seien
>
1
In2 (β)In2 (β) := In (β)
>
1
mit In2 := (In2 (β)> linke bzw. rechte Wurzeln von In (β) (zum Beispiel symmetrische Wurzel
oder auch Choleskey–Wurzel). Dann gilt (ohne (9.1) vorauszusetzen):
>
d
(In2 (β))−1 (β̂n − β) → N (0, I)
bzw.
>
d
(In21 (β̂n1 ))−1 (β̂n − β) → N (0, I).
Dabei sind als zusätzliche Bedingungen notwendig:
(D) Divergenz der Information:
λmin In (β) → ∞.
(S) Glattheit der Information: Für jedes δ > 0 gilt
P
−1
−>
2
2
sup In (β0 )Jn (β)In (β0 ) − I →0
β∈Nn (δ)
mit (gegen 0 schrumpfender) Umgebung
>
2
Nn (δ) = β : In (β0 )(β − β0 ) ≤ δ .
Dies ist eine Art Stetigkeitsforderung
In (β0 )
| {z }
erw. Information
≈
Jn (β)
| {z }
beob. Information
143
für β nahe bei β0 .
Beispiel 9.1 (Logit–Modell). Es lässt sich zeigen, dass die Vernachlässigbarkeitsbedingung
−1
x>
i In (β)xi → 0
(V)
zusammen mit (D) die Bedingung (S) impliziert.
Interpretation: Die Information in xi ist gegenüber der Gesamtinformation
vernachlässigbar.
P
wi (β)xi x>
i
Hinreichend für (V) ist
kxi k ≤ K(beschränkte Regressoren)
und
λmin X > X → ∞(Divergenz).
Wachsende Regressoren:
kxi k = o(log n)
sublogarithmisches Wachstum
und
λmin X > X ≥ cnα ,
α > 0, c > 0 .
Falls |Xn> β| > c log n, c > 1, dann divergiert In (β) und (D) ist verletzt!
In beiden Fällen ist keine Konvergenzannahme
1
In (β) → I(β)
n
sinnvoll oder notwendig.
Erweiterungen auf den allgemeinen Likelihood–Kontext (inkl. abhängiger Beobachtungen)
Literatur: zum Beispiel Fahrmeir (1987), Pruscha (1989).
Wir betrachten fi (yi |xi ; θ) bzw. fi (yi |Hi ; θ) mit Hi = {yi−1 , . . . , y1 ; xi }, zum Beispiel
µi = hi (ηi |ci ) = x>
β + yi−1 γi + . . . + yi−q γq
|i
{z
}
autoregressiver Prädiktor
n
Y
Ln (θ) = f (y1 , . . . , yn |θ) =
i=1
ln (θ) = log Ln (θ) =
sn (θ) =
∂
ln (θ) =
∂θ
n
X
i=1
n
X
f (y |c ; θ)
| i i{z i }
auf Vergangenheit
bedingte Dichten
log fi (yi |ci ; θ)
si (θ)
;
i=1
Für ci = φ sind die si (θ) identisch verteilt; für ci 6= φ sind si (θ) die Martingaldifferenzen.
144
Beweislinie für den Fall y1 , . . . , yn unabhängig:
P
1. Konsistenz: Betrachte die Log–Likelihood l(θ) = ni=1 li (θ). Aus der Fisher–Regularität
P
i (θ)
folgt für s(θ) = ni=1 si (θ), wobei si (θ) = ∂l∂θ
unabhängige Zufallsvariablen sind:
Eθ s(θ) =
n
X
Eθ si (θ) = 0.
i=1
Mit einem geeigneten Gesetz der großen Zahlen für i.i.d. bzw. i.n.i.d. verteilte Variablen
si (θ), i = 1, . . . , n kann man daraus
s(θ) P
→0
n
schließen. Für den ML–Schätzer θ̂n gilt
s(θ̂n )
=0
n
s(θˆn ) = 0 ⇔
”
”
s(θ̂n )−s(θ) P
→
n
P
θ̂n → θ
⇒“
⇒“
0
mit einem Stetigkeitsargument und Auflösen nach θ̂n . Dabei ist θ (= θ0 ) wahrer Parameter mit f (y) = f (y|θ0 ).
2. Asymptotische Normalität der Score–Funktion: Aus
E(s(θ)) = 0
und
Cov(s(θ)) = In (θ)
folgt mit dem Zentralen Grenzwertsatz
a
s(θ) ∼ N (0, In (θ))
−1
d
bzw. In 2 (θ)s(θ) → N (0, I).
3. Asymptotische Normalität von θ̂n : Taylorentwicklung von s(θ̂n ) = 0 um θ liefert
a
0 = s(θ̂n ) ∼ s(θ) − Jn (θ)(θ̂n − θ) + o(θ̂n − θ)
die beobachtete
plus Terme kθ̂n − θk2 und höherer Ordnung. Dabei ist Jn (θ) = − ∂s(θ)
∂θ >
Informationsmatrix. Ersetzen von Jn (θ) durch In (θ) = E(Jn (θ)) führt zu
a
s(θ) ∼ In (θ)(θ̂n − θ)
a
⇒ θ̂n − θ ∼ In−1 (θ)s(θ)
a
⇒ θ̂n − θ ∼ N (0, In−1 (θ)In (θ)In−1 (θ)) = N (0, In−1 (θ))
a
⇒ θ̂n − θ ∼ = N (0, In−1 (θ)).
Zugleich ist θ̂ asymptotisch effizient.
145
Bemerkung. Für Quasi–ML–Schätzer sind folgende Modifikationen notwendig:
1. Konsistenz: Im Allgemeinen gilt θ̂n → θ ∗ . Dabei minimiert θ ∗ die Kullback–Leibler–
Distanz zwischen f (y) und f (y|θ) für θ ∈ Θ. Falls (wie zum Beispiel in Quasi GLMs,
GEEs) der modellierte Parameter (wie µ = E(y)) richtig spezifiziert ist, ist weiter
θ ∗ = θ0 der wahre Parameter.
2. Asymptotische Normalität: Es gilt weiter für die Quasi–Score–Funktion
a
qs(θ) ∼ N (0, Iw ) ,
aber Iw = Covw (s(θ)) ist die wahre Kovarianzmatrix (bzgl. des wahren Modells f (y)).
2 qs(θ)
Im Allgemeinen gilt Iw 6= I(θ) mit I(θ) = E(J (θ)) = E(− ∂ ∂θ
)! Rest analog:
a
qs(θ) ∼ J (θ)(θˆn − θ)
a
a
θ̂n − θ ∼ J −1 (θ) qs(θ) ∼ N (0, J −1 (θ)Iw J −1 (θ)) ,
|
{z
}
| {z }
a
∼N (0,Iw )
”
Sandwich–Matrix“
wobei J (θ) Quasi“–Informationsmatrix ist.
”
9.2
Parametrische asymptotische Bayes–Inferenz
Sei p(θ) Prioridichte für θ und
f (y|θ) =
n
Y
f (yi |θ),
i=1
d.h. y1 , . . . , yn sind austauschbar. Für die Posterioriverteilung gilt
f (θ|y) ∝ exp (log p(θ) + log f (y|θ)) = exp (log p(θ) + l(θ)) .
Eine Taylorentwicklung der log–Terme um ihre Maxima m0 bzw. θ̂n = argmax l(θ) liefert
log p(θ) = log p(m0 ) −
1
(θ − m0 )> J0 (θ − m0 ) +R0
2
{z
}
|
=A
bzw.
1
log f (y|θ) = log f (y|θ̂n ) − (θ − θ̂n )> Jn (θ̂n )(θ − θ̂n ) +Rn
|2
{z
}
=B
mit
2
∂ log p(θ) J0 = −
∂θi ∂θj
θ=m0
und beobachteter Fisher-Information Jn (θ̂n ). Unter Regularitätsbedingungen, die
R0 ”→” 0
und
146
Rn ”→” 0
garantieren, gilt
1
>
f (θ|y) ∝ exp(−A − B) ∝ exp − (θ − mn ) Hn (θ − mn )
2
a
mit Hn = J0 + Jn (θ̂n ) und mn = Hn−1 (J0 m0 + Jn (θ̂n )θ̂n ). Also:
a
f (θ|y) ∼ N (mn , Hn ).
147
Herunterladen