Formelsammlung zur Vorlesung Schätzen und Testen II

Werbung
Schätzen und Testen II
Ludwig Fahrmeir, Christian Heumann, Christiane Dargatz
SS 2008
Formelsammlung zur Vorlesung
Schätzen und Testen II
5
Bootstrap
Einstichproben-Problem:
X = (X1 , . . . , Xn ) → T (X)
i.i.d.
mit Xi ∼
F , F unbekannt
Beobachtete Daten:
x = (x1 , x2 , . . . , xn ) → T (x)
Bootstrap-Stichprobe:
x∗ = (x∗1 , x∗2 , . . . , x∗n ) → T (x∗ )
Empirische Verteilungsfunktion:
n
F̂n (x) =
1X
I(xi ≤ x)
n i=1
Bootstrap-Algorithmus zur Schätzung des Standardfehlers
1. Erzeuge B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne θ̂∗ (b), b = 1, . . . , B.
3. Schätze den Standardfehler seF (θ̂) =
(
se
bB =
q
VarF (θ̂) durch
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
) 21
mit
b=1
B
1 X ∗
θ̂ (b).
θ̂ (·) =
B
∗
b=1
Standardfehler für die Schätzung des Korrelationskoeffizienten θ
(i) Vergleich mit der Formel für die bivariate Normalverteilung:
1 − θ̂2
se
b N2 (µ,Σ) (θ̂) = √
n−3
(ii) Vergleich nach Fisher-Transformation:
1
ξˆ = log
2
1 + θ̂
1 − θ̂
!
"
approx.
∼
1
N
log
2
1+θ
1−θ
2 #
1
, √
n−3
Formelsammlung zur Vorlesung Schätzen und Testen II
2
Zweistichproben-Problem für unabhängige Stichproben
Y1 , . . . , Yn
i.i.d.
∼ F
)
unabhängig
i.i.d.
Z1 , . . . , Z m ∼ G
Schätzung des Standardfehlers der Schätzung für die Differenz θ = µY − µZ :
y ∗b = (y1∗b , . . . , yn∗b ) zufällig mit Zurücklegen aus F̂n
∗b
z ∗b = (z1∗b , . . . , zm
) zufällig mit Zurücklegen aus Ĝm
(
∗
se
b F,G (θ̂) = seF̂n ,Ĝm (θ̂ ) ≈ se
bB =
B
i2
1 Xh ∗
θ̂ (b) − θ̂∗ (·)
B−1
) 21
b=1
mit
n
θ̂∗ (b) =
und
m
1 X ∗b
1 X ∗b
yi −
z
n i=1
m i=1 i
B
1 X ∗
θ̂ (b)
θ̂ (·) =
B
∗
b=1
Bootstrap im Linearen Modell
yi = x>
i β + εi ,
εi
i.i.d.
∼ F,
E(εi ) = 0
Nichtparametrischer Bootstrap
1. Schritt:
Berechne β̂ mit der KQ-Methode: β̂ = (X > X)−1 X > y.
2. Schritt:
Berechne die Residuen ε̂ = (I − X(X > X)−1 X > )y = y − X β̂.
3. Schritt:
Setze für die empirische Verteilung F̂n der Residuen eine Wahrscheinlichkeitsmasse
ε̂i , i = 1, . . . , n (ohne weitere Einschränkung seien alle Residuen verschieden).
4. Schritt:
•
Ziehe eine Stichprobe ε∗ = (ε∗1 , . . . , ε∗n ) mit Zurücklegen aus F̂n .
•
Berechne neue“ Bootstrap-Zielvariablen
”
∗
yi∗ = x>
i β̂ + εi
für i = 1, . . . , n, d.h.
y ∗ = X β̂ + ε∗ .
•
Berechne den Bootstrap-KQ-Schätzer
β̂ ∗ = (X > X)−1 X > y ∗ .
Parametrischer Bootstrap
1. Schritt:
Berechne β̂KQ und σ̂F2 .
2. Schritt:
∗
∗
2
Setze yi∗ = x>
i β̂KQ + εi , wobei εi ∼ N (0, σ̂F ).
Bias-Schätzung mittels Bootstrap
biasF (θ̂, θ) = EF (θ̂) − θ = EF (θ̂) − T (F )
d F (θ̂, θ) = bias (θ̂∗ , θ̂) = E [θ̂∗ ] − T (F̂n )
bias
F̂n
F̂n
Bias-Korrektur:
θ = 2θ̂ − θ̂∗ (·)
1
n
auf
Formelsammlung zur Vorlesung Schätzen und Testen II
3
Bootstrap-Konfidenzintervalle
Bootstrap-t-Intervall
1. Generiere B Bootstrap-Stichproben x∗1 , . . . , x∗B .
2. Berechne
Z ∗ (b) =
θ̂∗ (b) − θ̂
.
se
b ∗ (b)
Ordne die Z ∗ (b) aufsteigend der Größe nach.
3. Schätze die Quantile t̂(α) und t̂(1−α) als
# Z ∗ (b) ≤ t̂(α)
=α.
B
4. Das Bootstrap-t-Intervall zum Vertrauensgrad 1 − 2α lautet dann
h
i
θ̂ − t̂(1−α) · se,
b θ̂ − t̂(α) · se
b .
Bootstrap-Perzentil-Intervall
1. Ziehe
x∗1 , . . . , x∗B
B Bootstrap-Replikationen
↓
↓
θ̂∗ (1), . . . , θ̂∗ (B) mit θ̂∗ (b) = T (x∗b ).
∗
∗
, . . . , θ̂(B)
.
2. Ordne die θ̂∗ (b) der Größe nach: θ̂(1)
∗(α)
∗(1−α)
3. Berechne Bα und B(1 − α) und bezeichne mit θ̂B bzw. θ̂B
die Werte an den jeweiligen Positionen
in der sortierten Sequenz der Bootstrap-Schätzungen. Dann ist
h
i h
i
∗(α) ∗(1−α)
θ̂lower , θ̂upper = θ̂B , θ̂B
ein approximatives (1 − 2α)-Konfidenzintervall.
Bootstrap-BCa -Intervall
Ĝ−1
Φ ẑ0 +
B
mit
ẑ0 + z (α)
1 − â(ẑ0 + z (α) )
, Φ ẑ0 +
ẑ0 + z (1−α)
1 − â(ẑ0 + z (1−α) )
n
o
# θ̂∗ (b) < θ̂

ẑ0 = Φ−1 (ĜB (θ̂)) = Φ−1 
B

und
Pn
i=1 (θ̂(·)
â =
6
hP
n
i=1 (θ̂(.)
− θ̂(i) )3
− θ̂(i) )2
i 32
mit den Jackknife–Schätzungen
θ̂(i)
=
θ̂(·)
=
Schätzung basierend auf der Stichprobe ohne die i–te Beobachtung und
n
1X
θ̂(i)
n i=1
Formelsammlung zur Vorlesung Schätzen und Testen II
4
Kreuzvalidierung und Vorhersagefehler
k-fache Kreuzvalidierung:
n
CV =
2
1 X
−k(i)
yi − ŷi
n i=1
Vorhersagefehler:
err(x, F ) ≡ E0F (Q(Y0 , ηx (Z0 ))
Apparent error in sample:
n
err(x, F̂n ) = E0F̂n (Q(Y0 , ηx (Z0 )) =
1X
Q[yi , ηx (zi )]
n i=1
Plug–In–Schätzung:
n
err(x∗b , F̂n ) =
1X
Q[yi , ηx∗b (zi )]
n i=1
Durchschnittlicher Vorhersagefehler:
EF [err(x, F )]
Approximative Bootstrap-Schätzung:
ÊFˆn [err(x∗ , F̂n )] =
B
n
1 X1X
Q[yi , ηx∗b (zi )]
B
n i=1
b=1
In bootstrap-sample error:
ÊF̂n [err(x∗ , F̂n∗ )] =
B
n
1 X1X
Q[yi∗b , ηx∗b (zi∗b )]
B
n i=1
b=1
Average optimism:
w(F ) = EF (err(x, F )) − EF (err(x, F̂n ))
Approximative Bootstrap-Schätzung:
( B n
XX
1
ŵ(F̂n ) =
Bn
Q[yi , ηx∗b (zi )] −
b=1 i=1
)
B X
n
X
Q[yi∗b , ηx∗b (zi∗b )]
b=1 i=1
Schätzung des Vorhersagefehlers mit Bias-Korrektur:
n
err(x, F̂n ) + w(F̂n )
6
wird geschätzt durch
1X
Q[yi , ηx (zi )] + ŵ(F̂n )
n i=1
Fehlspezifikation, Quasi-Likelihood und Schätzgleichungen
ML-Schätzung bei Fehlspezifikation
Kullback-Leibler-Distanz von g und fθ für X stetig:
g(X)
D(g, fθ ) = Eg log
f (X|θ)
Entropie von g:
Z
−Eg log g(X) = −
g(x) log(g(x)) dx
Formelsammlung zur Vorlesung Schätzen und Testen II
5
Asymptotische Eigenschaften des ML-Schätzers bei Missspezifikation
1. Konsistenz: Sei θ0 ein (lokaler) Maximierer von
λ(θ) ≡ Eg log fθ (X|θ)
(bzw. ein Minimierer von D(g, fθ )). Unter Regularitätsannahmen (ähnlich wie bei Fisher-Regularität)
existiert eine Folge θ̂n von ( Quasi-”) ML-Schätzern, das heißt lokalen Maximierern von
”
n
1X
log f (xi |θ)
n i=1
mit
P
θ̂n −
→ θ0 .
2. Asymptotische Normalität: Es gilt
√
d
n(θ̂n − θ0 ) −
→N
0, J1−1 (θ0 ) I1 (θ0 ) J1−1 (θ0 )
mit
>
∂ log f (X|θ)
∂ log f (X|θ)
∂θ
∂θ
|
{z
}|
{z
}
I1 (θ) ≡ Eg
s1 (θ)
s1 (θ)>
und der (Quasi-)Fisher-Information
2
∂ log f (X|θ)
J1 (θ) = Eg −
.
∂θ ∂θ>
M-Schätzer in der robusten Statistik
Asymptotische Eigenschaften von M–Schätzern θ̂M
Unter Regularitätsvoraussetzungen, insbesondere
E0 qs(θ0 ) = 0,
gilt
a
θ̂M ∼ N (θ0 , V (θ̂M )) .
Dabei ist V (θ̂M ) definiert als
V (θ̂M ) = J −1 (θ̂M )I(θ̂M )J −1 (θ̂M )
mit der empirischen (Quasi–) Fisher–Matrix
I(θ̂M ) =
n
X
qsi (θ̂M )qs>
i (θ̂M )
i=1
und der (empirischen) beobachteten (Quasi–) Informationsmatrix
∂ qs(θ) J (θ̂M ) = −
.
∂θ > θ=θ̂M
Verallgemeinerte Schätzgleichungen (Generalized Estimating Equations)
U (β, α) =
>
N X
∂µi (β)
i=1
∂β
Vi (β, α, φ)−1 (Yi − µi (β)) = 0
Sei Ti die Anzahl der Beobachtungen an Individuum i und φ der Dispersionsparameter.
Formelsammlung zur Vorlesung Schätzen und Testen II
•
∂µi
∂β
T
6
ist eine p × Ti Matrix (GLM: p × 1 Vektor)
• Yi und µi sind Ti × 1 Vektoren (GLM: Skalare)
• Vi ist die Ti × Ti Arbeitskovarianzmatrix (GLM: Skalar)



Vi (β, α, φ) = 

···
···
..
.
ci1Ti (β, α, φ)
ci2Ti (β, α, φ)
..
.
ciTi 1 (β, α, φ) ciTi 2 (β, α, φ) · · ·
ciTi Ti (β, α, φ)
ci11 (β, α, φ)
ci21 (β, α, φ)
..
.
ci12 (β, α, φ)
ci22 (β, α, φ)
..
.
mit
citt0 (β, α, φ) =





0
t 6= t
0
t=t.
Cov(Yit , Yit0 ; β, α, φ), falls
Var(Yit ; β, φ),
falls
• Bei Verwendung einer ”Arbeitskorrelation” berechnet sich die ”Arbeitskovarianz” als
1
1
Vi (β, α, φ) = φAi (β) 2 Ri (α)Ai (β) 2
mit der Diagonalmatrix der Varianzfunktionen
Ai (β) = diag[v(µi1 (β)), v(µi2 (β)), . . . , v(µiTi (β))]
Varianzschätzung mittels Sandwich-Schätzer
Sei
>
N X
∂µi
∂µi
−1
F =
Vi
,
∂β
∂β
i=1
wobei Vi die modellbasierte Kovarianzmatrix ist, die sich aus den Annahmen über Varianz und Korrelation
ergibt, und
>
N X
∂µi
∂µi
G=
Vi−1 Cov(Yi )Vi−1
,
∂β
∂β
i=1
wobei Cov(Yi ) die wahre Kovarianzmatrix ist. Dann gilt:
b = Fb−1 G
d β)
b Fb−1
Cov(
b Fb und G
b sind die empirischen Matriist die empirirsche konsistente Schätzung der Kovarianzmatrix von β.
b
b
zen, die sich durch Einsetzen von β, α
b und φ ergeben. Cov(Yi ) wird konsistent geschätzt durch die Matrix
(yi − µi )(yi − µi )> . Im Idealfall gilt:
Cov(Yi ) = Vi .
Dann ist GEE effizient und man erhält
b = F −1
Cov(β)
bzw. die Schätzung
b = Fb−1 .
d β)
Cov(
Eigenschaften der GEE Schätzung
• Verwendet man als ”Arbeitskorrelation” die Unabhängigkeit, so spricht man vom IEE Schätzer (independence estimating equations). Man erhält
Vi (β, α, φ) = Vi (β, φ) = φAi (β)
und die Schätzgleichung reduziert sich dann auf
>
N X
∂µi (β)
U (β) =
Vi (β, φ)−1 (Yi − µi (β)) = 0.
∂β
i=1
Die IEE Schätzung βbI ist unter schwachen Voraussetzungen konsistent und asymptotisch normalverteilt,
wenn φ konsistent geschätzt wird und das Modell für den Erwartungswert korrekt spezifiziert ist.
• Wird als ”Arbeitskorrelation” nicht die Unabhängigkeit gewählt, so ist die GEE Schätzung βbG unter
1
schwachen Vorraussetzungen konsistent und asymptotisch normalverteilt, wenn φ und α N 2 -konsistent
geschätzt werden.
Formelsammlung zur Vorlesung Schätzen und Testen II
7
Quantilregression
Bedingte Quantilsfunktion:
Qτ (y|X = x) = FY−1
|X=x (τ |X = x) = yτ (x)
Qτ (y|X = x) = x> βτ
Modellformel:
yi = x>
i βτ + ετ i
mit unabhängigen, aber möglicherweise heteroskedastischen ετ i und
Z 0
Fετ i (0) =
f (ετ i ) dετ i = τ
−∞
Entscheidungstheoretischer Ansatz
Check-Funktion:
ρτ (u) = u · (τ − I(u < 0)) ,
τ ∈ (0, 1)
Zielfunktion:
argmin
n
X
βτ ∈Rp i=1
ρτ (yi − x>
i βτ )
Erwarteter Verlust:
EFY [ρτ (y − ŷ)]
Satz. Der erwartete Verlust wird minimiert durch ŷ = FY−1 (τ ).
Quasi-ML-Ansatz
Asymmetrische Laplace-Verteilung (ALD):
Y ∼ ALD(µ, σ, τ )
mit −∞ < y < ∞, µ ∈ R, σ > 0 und τ ∈ (0, 1). Die Dichtefunktion der ALD lautet
y−µ
τ (1 − τ )
· exp −ρτ
fY (y) =
σ
σ
Quasi-Likelihood:
( n
)
X yi − x> βτ 1
i
QL(β) ∝ exp −
ρτ
σ
σ
i=1
Eigenschaften der Quantilregression
• Äquivarianz:
β̂τ (ay, X) = aβ̂τ (y, X),
β̂τ (y, XA) = A−1 β̂τ (y, X)
• Asymptotische Verteilung:
√
n(β̂τ − βτ ) → N (0, τ (1 − τ )H−1 (τ )J(τ )H−1 (τ ))
mit
n
J(τ )
=
1X
xi x>
i ,
n→∞ n
i=1
H(τ )
=
1X
xi x>
i · fi (yiτ )
n→∞ n
i=1
lim
n
lim
Formelsammlung zur Vorlesung Schätzen und Testen II
7
8
Non- und Semiparametrische Inferenz
Kerndichteschätzung
Definition (Histogramm). Sei x1 , . . . , xn eine i.i.d. Stichprobe einer stetigen Zufallsvariable X mit Dichte f .
Dann heißt der Schätzer
n
1 XX
IBj (xi )IBj (x)
fˆh (x) =
nh i=1
j∈Z
Histogramm mit Klassenbreite (Bandweite) h > 0 und Ursprung x0 .
Definition (Kerndichteschätzer). Der Schätzer
n
1 X
fˆh (x) =
K
nh i=1
x − xi
h
n
=
1X
Kh (x − xi )
n i=1
mit
1 u
K
h
h
heißt Kerndichteschätzer mit Kern K (bzw. Kh ) und Bandweite h > 0.
Kh (u) :=
• Dreieckskern: K(u) = (1 − |u|)I[−1,1] (u),
• Epanechnikovkern: K(u) = 34 (1 − u2 )I[−1,1] (u),
• Normalkern: K(u) =
√1
2π
exp(− 12 u2 ).
Erwartungswert, Varianz, Bias, MSE und MISE des Kerndichteschätzers
E(fˆh (x)) =
1
h
Z
K
x−y
h
f (y) dy
R
1
Var(fˆh (x)) =
nh2
Z
K
2
x−y
h
f (y) dy −
1 ˆ
E(fh (x))2
n
R
1
bias(fˆh (x)) = E(fˆh (x)) − f (x) =
h
Z
K
x−y
h
f (y) dy − f (x)
R
MSE(fˆh (x)) =
1
nh2
Z
K2
x−y
h

f (y) dy −
1
1
E(fˆh (x))2 + 
n
h
R
Z
K
x−y
h
2
f (y) dy − f (x)
R
MISE(fˆh ) =
Z
MSE(fˆh (x)) dx.
R
Konsistenz des Kerndichteschätzers
Satz (Satz von Parzen). Sei R(x), x ∈ R, eine (messbare) Funktion mit den Eigenschaften
1. sup |R(x)| < ∞ (d.h. R(x) ist beschränkt),
x∈R
Z
|R(x)| dx < ∞,
2.
R
3. |x|R(x) → 0 für |x| → ∞.
Sei weiterhin g(x), x ∈ R, eine (messbare) Funktion mit
R
|g(x)| dx < ∞. Betrachte die Folge
R
1
gn (x) =
hn
Z
R
R
x−y
hn
g(y) dy,
Formelsammlung zur Vorlesung Schätzen und Testen II
9
wobei hn eine Folge ist mit limn→∞ hn = 0. Dann gilt für jeden Stetigkeitspunkt x von g
Z
gn (x) → g(x) R(s) ds
R
falls n → ∞.
Satz (Konsistenz des Kerndichteschätzers). Sei f stetig. Dann gilt
E(fˆhn (x)) → f (x),
falls die Bandweite hn für n → ∞ gegen Null konvergiert. fˆhn (x) ist also asymptotisch erwartungstreu. Falls
nhn → ∞ für n → ∞, dann gilt
Var(fˆhn (x)) → 0.
Damit ist fˆh (x) konsistent.
n
Konvergenzordnung des MISE
Satz. Sei f mindestens zweimal stetig differenzierbar, f 00 beschränkt, f und f 00 quadratintegrierbar.
Sei hn eine
R
Folge mit hn → 0 und nhn → ∞ für n → ∞. Unter Verwendung der Abkürzungen g 2 (s) ds = ||g||22 und
R
R
µ2 (g) = g(s)s2 ds für eine Funktion g gilt:
R
1
||K||22 f (x) + o
nhn
1. Var(fˆhn (x)) =
Z
Var(fˆhn (x)) dx =
1
||K||22 + o
nhn
1
nhn
bzw.
1
nhn
.
R
2. bias(fˆhn (x)) =
Z
hn 2
µ2 (K)f 00 (x) + o(hn 2 )
2
bzw.
hn 4 2
bias2 (fˆhn (x)) dx =
µ (K)||f 00 ||22 + o(hn 4 ).
4 2
R
3. MISE(fˆhn ) =
1
hn 4 2
1
||K||22 +
µ2 (K)||f 00 ||22 + o
+ hn 4 .
nhn
4
nhn
Asymptotische Verteilung und Konfidenzintervalle
Satz (Asymptotische Verteilung). f 00 (x) existiere; es gelte hn = cn−1/5 . Dann ist der Kern-Dichteschätzer fˆhn (x) asymptotisch normalverteilt,
n
o
c2
2
d
f 00 (x) µ2 (K), c−1 f (x)||K||22
n 5 fˆhn (x) − f (x) → N
{z
}
|2
{z
} |
2
vx
bx
für n → ∞.
Approximatives (1-α)- Konfidenzintervall
"
h2
fˆh (x) − f 00 (x) µ2 (K) − z1− α2
2
r
h2
f (x)||K||22 ˆ
, fh (x) − f 00 (x) µ2 (K) + z1− α2
nh
2
r
f (x)||K||22
nh
Integrated Squared Error (ISE)
Z
Z
Z
Z
2
2
ˆ
ˆ
ˆ
ISE(h) = (fh (x) − f (x)) dx = fh (x) dx − 2 fh (x)f (x) dx + f 2 (x) dx
R
R
R
R
Kreuzvalidierungsfunktion
n
CV(h) =
n
1 XX
(K ? K)
n2 h i=1 j=1
xj − xi
h
n
−
2Xˆ
fh,i (xi )
n i=1
#
Formelsammlung zur Vorlesung Schätzen und Testen II
10
Bayesianische nichtparametrische Dichteschätzung
Dirichlet-Verteilung
Dirichlet–Dichte:
wobei πm = 1 −
Pm
Γ(
αi ) α1 −1 α2 −1
αm −1
p(π|α) = Qm i=1
π1
π2
· · · πm
,
Γ(α
)
i
i=1
Pm−1
k=1
πk . Kurz:
π ∼ Diri(α1 , . . . , αm ) .
Es gilt mit α := α1 + . . . + αm :
E(πi )
=
E(πi2 )
=
E(πi πj )
=
αi
α
αi (αi + 1)
α(α + 1)
αi αj
α(α + 1)
i 6= j .
Äquivalente Definition: Z1 , Z2 , . . . , Zm seien unabhängige Gamma(αi , 1)–verteilte Zufallsvariablen, αi > 0.
Dann gilt für π = (π1 , . . . , πm ) mit
Zi
πi = Pm
:
j=1 Zj
π ∼ Diri(α1 , α2 , . . . , αm ) .
Dirichlet-Prozesse
def
Definition (Dirichlet-Prozess). Ein Dirichlet-Prozess (DP) ist ein RPM G auf (Ω, A) : ⇔
Für jede finite Partition (A1 , . . . , Am ) von Ω mit Aj ∈ A ist der Zufallsvektor (G(A1 ), . . . , G(Am )) dirichletverteilt mit
(G(A1 ), . . . , G(Am )) ∼ Diri(α0 G0 (A1 ), . . . , α0 G0 (Am )),
kurz:
G ∼ DP(α0 , G0 ).
G0 heißt Basis-Verteilung (base measure), α0 heißt Präzisionsparameter und bestimmt die Varianz um E(G).
Konjugiertheit des DP
i.i.d.
Sei G ∼ DP(α0 , G0 ) und θ1 , . . . , θn | G ∼ G. Dann ist die Posteriori
G | θ1 , . . . , θn ∼ DP α0 + n,
n
α0
1 X G0 +
δθ .
α0 + n
α0 + n i=1 i
Polya–Urnen–Repräsentation eines DP
Die a posteriori prädiktive Verteilung lautet
θn | θ1 , . . . , θn−1 , α0 , G0 ∼
n−1
X
α0
1
G0 +
δθ .
n − 1 + α0
n − 1 + α0 j=1 j
Steckerlbruch–Repräsentation eines DP
G(A) =
∞
X
πk δφk (A)
i.i.d.
mit
φk ∼ G0
mit
βj ∼ Beta(1, α0 ).
k=1
für beliebiges A ∈ A und
π k = βk
k−1
Y
(1 − βj )
j=1
i.i.d
Formelsammlung zur Vorlesung Schätzen und Testen II
Dabei gilt
∞
P
11
πk = 1 sowie π1 = β1
k=1
Trunkierter Dirichlet–Prozess (TDP)
GT (·) =
T
X
πT := 1 −
πk δφk (·),
k=1
T
−1
X
πk
k=1
DP–Mischungen (DPM)
• θi ist latenter, mit Datenpunkt xi assoziierter Parameter.
• Der (trunkierte) DP wird benutzt, um eine Priori für die θi zu konstruieren
f (xi ) =
d
X
k=1
πk φ xi | µk , σk2
| {z }
φk
• Formalisiert:
xi | θ i
ind
θi | G
i.i.d
G
∼
f (xi | θi )
ind
(bzw. ∼ F (xi | θi ))
∼
G
∼
(T)DP(α0 , G0 )
für i = 1, . . . , n
Bayes-Inferenz mit DPM-Priori
• Allgemeines hierarchisches Modell:
xi | θ i , δ
ind
θi | G(T )
i.i.d.
∼
f (xi | θi , δ) ,
∼
G(T )
δ
∼
p(δ)
G(T )
∼
(T )DP(α0 , G0 )
i = 1, . . . , n
δ endlich-dimensionaler Parameter
• Wahl von f :
ind
1. xi | θi , δ ∼ N (µi , τ )
ind
2. xi | θi ∼ N (µi , τi ), θi = (µi , τi )
ind
3. xi | θi ∼ MVN(µi , Σ)
ind
4. xi | θi ∼ MVN(µi , Σi )
• Repräsentation von (T)DP durch (T)SP:
GT (· ) =
T
X
πk δφk (·),
i.i.d.
φk ∼ G0
k=1
Dabei ist π = (π1 , . . . , πT ) ein trunkierter SB-Prozess:
π1
= β1
πk
=
(1 − β1 )(1 − β2 ) · · · · · (1 − βk−1 )βk
πT
=
1 − π1 − · · · − πT −1
und
i.i.d.
β1 , . . . , βT −1 ∼ Beta(1, α0 ).
für k = 2, . . . , T − 1
Formelsammlung zur Vorlesung Schätzen und Testen II
12
Glättung und semiparametrische Regression
Glättung für normalverteilte Zeitreihen
Betrachte die Zeitreihe y = (y1 , . . . , yt , . . . , yn )> mit glattem Trend γ = (γ1 , . . . , γn )> .
• Klassische Glättung
Modell:
yt = γt + εt ,
t = 1, . . . , n
Differenzen erster und d-ter Ordnung:
∆1 γt = γt − γt−1 ,
∆d γt = ∆d−1 γt − ∆d−1 γt−1 ,
d = 2, 3, . . .
Differenzenmatrizen:

(n)
D1
−1

=
1
..
.

0
..

(n−1)×n
,
∈R
.
−1
0
(n)
Dd
(n−1)
1
Strafmatrizen:
(n)>
K d = Dd
(n)
∈ Rn×n ,
Dd
Straffunktion:
pen(γ) =
n
X
rg(Kd ) = n − d
(∆d γt )2 = γ > Kd γ
t=d+1
Penalisiertes KQ-Kriterium:
PKQ(γ) = (y − γ)> (y − γ) + λγ > Kγ
Penalisierter KQ-Schätzer:
γ̂PKQ = (I + λK)−1 y
• Bayesianische Glättung
Likelihood:
f (y|γ) ∼ N (γ, σ 2 I)
Glattheits-Priori:
2 −rg(K)/2
p(γ) ∝ (τ )
1
exp − 2 γ > Kγ
2τ
Posteriori-Erwartungswert:
E(γ|y) = γ̂PKQ
mit λ :=
Glättung für nicht-normalverteilte Zeitreihen
Sei yt |γt ∼ einfache Exponentialfamilie.
• Klassische Glättung
Penalisierte log-Likelihood:
lpen (γ) = l(γ) −
λ >
γ Kγ
2
(n)
= Dd−1 D1
σ2
τ2
∈ R(n−d)×n
Formelsammlung zur Vorlesung Schätzen und Testen II
13
• Bayesianische Glättung
Likelihood:
f (y|γ) =
n
Y
f (yt |γt )
t=1
Glattheits-Priori:
1
p(γ) ∝ (τ 2 )−rg(K)/2 exp − 2 γ > Kγ
2τ
Posteriori-Modus:
1
argmax log f (y|γ) + log p(γ) = argmax l(γ) − 2 γ > Kγ = argmax lpen (γ)
2τ
γ
γ
γ
mit λ :=
1
τ2
P-Splines
Definition (Spline-Funktionen, Polynom-Splines). Eine Funktion f : [a, b] → R heißt (Polynom-) Spline vom
def
Grad l ≥ 0 zu den Knoten a ≤ κ0 < κ1 < . . . < κM −1 < κM ≤ b ⇔
1. f (x) ist (l − 1)-mal stetig differenzierbar,
2. f (x) ist ein Polynom vom Grad l für x ∈ [κm , κm+1 ), m = 0, . . . , M − 1.
(l)
(l)
Definition (Trunkierte-Potenz- (truncated power, TP-) Basis). B1 (x), . . . , BK (x) ist TP-Basis vom
def
Grad l ⇔
(l)
(l)
(l)
B1 (x) = 1, B2 (x) = x, . . . , Bl+1 (x) = xl
(l)
(l)
Bl+2 (x) = (x − κ1 )l+ , . . . , BK (x) = (x − κM −1 )l+
mit
(x − κk )l+ =
Definition (B-Spline-Basis).
(x − κk )l
0
für x ≥ κk
sonst.
(l)
def
(l)
B1 (x), . . . , BK (x) ist B-Spline-Basis vom Grad l ⇔
1. Jede Basisfunktion ist stückweises, (l − 1)-mal stetig differenzierbares, nichtnegatives Polynom vom Grad l
über l − 2 benachbarten Knotenpunkten, sonst ist Bk (x) = 0.
2. Die Basisfunktionen sind so normiert, dass
K
X
(l)
Bk (x) = 1
für alle x .
k=1
P-Spline-Schätzung bei normalverteilten Zielvariablen
Betrachte yi = f (xi ) + εi mit unabhängigen εi ∼ N (0, σ 2 ), i = 1, . . . , n, mit f (x) approximiert durch
f (x) =
K
X
γk Bk (x) , {Bk (x)} eine Spline-Basis .
k=1
Dies führt zum linearen Modell
y = Zγ + ε , ε ∼ N (0, σ 2 I)
mit Designmatrix

B1 (x1 ) · · ·

..
..
Z=
.
.
B1 (xn ) · · ·

BK (x1 )

..
.
.
BK (xn )
Formelsammlung zur Vorlesung Schätzen und Testen II
14
• Klassische Glättung
Wahl der Penalisierung:
– Bei TP-Basis:
pen(γ) =
K
X
γk2 = γ > K̃γ
k=l+2

0
0
..




K̃ = diag(0l+1 , 1M −1 ) = 













.
0
1
..
.
0

1
γ̂ = argmin PKQ(γ) = (Z > Z + λK̃)−1 Z > y
γ
– Bei B-Spline-Basis:
pen(γ) =
K
X
(∆d γk )2
k=d+1
γ̂ = (Z > Z + λK)−1 Z > y
• Bayesianische Glättung
Likelihood:
y|γ ∼ N (Zγ, σ 2 I)
Prioriverteilungen:
– Bei TP-Basis:
p(γk )
γk
∝
i.i.d.
∼
const (oder schwach informativ) , k = 1, . . . , l + 1,
N (0, τ 2 ) , k = l + 2, . . . , K
– Bei B-Spline-Basis:
1
p(γ) ∝ (τ 2 )−rg(K)/2 exp − 2 γ > Kγ
2τ
Posterioriverteilung:
γ|y ∼ N (µγ , Σγ )
µγ = E(γ|y) =
Z >Z +
σ2
K
τ2
−1
Z >y
−1
σ2
und Σγ = Cov(γ|y) = σ 2 Z > Z + 2 K
τ
P-Spline-Schätzung bei nicht-normalverteilten Zielvariablen
Sei y|f ∼ einfache Exponentialfamilie:
E(y|f (x)) = h(f (x))
X
f (x) =
γk Bk (x) bzw. f = Zγ
• Klassische Glättung
spen (γ)
λ >
γ Kγ
2
= s(γ) − λKγ
Fpen (γ)
= F (γ) + λK
lpen (γ)
=
l(γ) −
Formelsammlung zur Vorlesung Schätzen und Testen II
15
• Bayesianische Glättung
Das Beobachtungsmodell f (y|γ) ist durch den GLM-Typ definiert. Bei voller Bayes-Inferenz wählt man a
priori τ 2 ∼ IG(a, b) für λ = τ12 . Voll bedingte Dichten:
n
Y
1
exp − 2 γ > Kγ
2τ
i=1
rg(K)
1
IG a +
, b + γ > Kγ
2
2
f (γ|τ 2 , y) ∝
τ 2 |γ, y
∼
exp
yi θi − b(θi )
φ
Glättungs-Splines (Smoothing-Splines)
Definition (Natürliche Splines). Eine Funktion f ist ein natürlicher (kubischer) Spline zu den Knoten
def
a < κ1 < . . . < κm < b ⇔
1. f (x) ist (kubischer) Polynom–Spline zur obigen Knotenmenge.
2. f (x) genügt f 00 (a) = f 00 (b) = 0, d.h. f (x) ist linear in den Intervallen [a, κ1 ] und [κm , b].
Modell:
yi = f (xi ) + εi
mit unabhängigen
εi ∼ (0, σ 2 )
bzw.
y = Zγ + ε
Gesucht:
fˆ = argmin PKQ(f )
f ∈C 2
Penalisiertes KQ-Kriterium:
Z
n
X
2
PKQ(f ) =
(yi − f (xi )) + λ (f 00 (x))2 dx
i=1
Straffunktion:
Z
pen(γ) =
00
2
(f (z)) dz =
K
K X
X
Z
γj γk
Bj00 (z)Bk00 (z)dz = γ > Kγ
j=1 k=1
mit
Z
K = (Kjk )
und Kjk =
Bj00 (z)Bk00 (z)dz
Herunterladen