Statistik IV

Werbung
Statistik IV
Modul P8: Grundlagen der Statistik II
Vorlesung P8.1: Wahrscheinlichkeitstheorie
und Inferenz II
Prof. Dr. Torsten Hothorn
Institut für Statistik
Ludwig–Maximilians–Universität München
LATEX-Satz von Dipl.-Stat. Andreas Böck
Korrekturen von Dipl.-Math. Michael Kobl, MSc. und
den Hörern der Vorlesungen im SS 08, 09, 10 und 11.
20. März 2012
Inhaltsverzeichnis
1 Grundlagen des statistischen Schließens
1.1 Grundbegriffe und Problemstellung . . .
1.2 Schätzer und ihre Eigenschaften . . . . .
1.3 Exponentialfamilien . . . . . . . . . . . .
1.4 Invariante Verteilungsfamilien . . . . . .
1.5 Suffizienz . . . . . . . . . . . . . . . . .
1.6 Die Fisher-Information . . . . . . . . . .
.
.
.
.
.
.
2
2
5
10
19
21
24
2 Punktschätzungen
2.1 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . .
2.2 M-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
30
47
3 Inferenzkonzepte
3.1 Parametertests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Wald-, Likelihood-Quotienten- und Score-Test . . . . . . . . . . . . . . . .
3.3 Bayes-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
52
60
65
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 1
Grundlagen des statistischen
Schließens
1.1
Grundbegriffe und Problemstellung
Stochastik stellt Modelle für Experimente zur Verfügung
(Ω1 , F1 , P)
Wahrscheinlichkeitsraum
(Ω2 , F2 )
Meßraum
X1 : Ω1 → Ω2
Zufallsvariable
(F1 -F2 meßbar)
−1
PX1 = P X1 (A) ∀A ∈ F2 Verteilung von X1
Statistik sucht ein Modell für ein Experiment
 n
oder
Ω


 2n
R
oder
X = (X1 , ..., Xn ) : Ω1 → X =
∞
R
oder



...
PX = P (X −1 (A)) ∀A ∈ σ(X ) Verteilung
(X , σ(X ), PX )
Wahrscheinlichkeitsraum
Aber: PX ist in der Statistik nicht bekannt. Dafür aber Beobachtungen aus X( Daten“)
”
Grundproblem: Wie kann ich aus Daten auf PX schließen?
Diese Vorlesung basiert auf Material aus Rüger (1999); Lehmann (2001) und Held (2008).
Definition 1.1 (Beobachtung, Stichprobe)
Ist ω
b ∈ Ω1 ein beobachtetes Elementarereignis, so heißt x = X(b
ω ) = (X1 (b
ω ), . . . , Xn (b
ω )) eine Stichprobe vom Stichprobenumfang n mit Beobachtungen x1 = X1 (b
ω ), . . . , xn = Xn (b
ω ).
2
1.1. GRUNDBEGRIFFE UND PROBLEMSTELLUNG
3
Bemerkung. Xi und Ω2 selbst dürfen mehrdimensional sein!
Bemerkung. Sind X1 , . . . , Xn u.i.v. , so auch x1 , . . . , xn u.i.v.
Definition 1.2 (Verteilungsannahme)
Sei PX,I eine Menge von Verteilungen, die für die Zufallsvariable X im Prinzip in Betracht
kommen:
PX,I = {PX,i | i ∈ I} .
Dann heißt PX,I Verteilungsannahme.
Definition 1.3 (Parameter, Parameterraum)
Sei Θ ⊆ Rk und g : Θ → PX,I bijektiv mit PX,ϑ = g(ϑ) für ϑ ∈ Θ. Dann heißt ϑ
Parameter der Verteilung PX,ϑ , g heißt Parametrisierung von PX,I (=: PX,Θ ) und PX,Θ
heißt k-parametrige Verteilungsannahme mit Parameterraum Θ.
Bemerkung.
PX,Θ = {PX,ϑ | ϑ ∈ Θ}
Definition 1.4 (Stichprobenraum, statistischer Raum)
(X , σ(X ), PX,Θ ) heißt statistischer Raum, (X , σ(X )) heißt Stichprobenraum.
Beispiel 1.1 (Qualitätskontrolle)
N Glühbirnen im Lager, ϑ = P(Glühbirne defekt) ∈ [0, 1] unbekannt
Ω = {OK, defekt}N
F = P(Ω)
X : Ω1 → {0, 1}n
n<N
ω = (ω1 , . . . , ωN ) 7→ (Idefekt (ωi1 ), . . . , Idefekt (ωin )) =: x
Q
PX,Θ = { i B(1, ϑ) | ϑ ∈ Θ = [0, 1]}
({0, 1}n , P ({0, 1}n ) , PX,Θ )
statistischer Raum
x = (x1 , . . . , xn ) = X(ω̂) = X(b
ω1 , . . . , ω
b )
| {z N}
|
{z
}
Stichprobe vom
Umfang n<N
N -Tupel von
Glühbirnen
im Lager
Frage: Wie kann ich von x auf ϑ schließen?
Bemerkung. Für (Rn , B n , PX,Θ ) gilt einfacher PX,Θ = {FX (x; ϑ) | ϑ ∈ Θ} mit Verteilungsfunktionen FX (x; ϑ) bzw. PX,Θ = {fX (x; ϑ) | ϑ ∈ Θ} mit Dichten; (deren Existenz vorausgesetzt).
PX,Θ heißt stetig parametrisiert, wenn FX (x; ϑ) bzw. fX (x; ϑ) in ϑ ∈ Θ stetig sind. Ansonsten heißt PX,Θ nichtparametrisch.
1.1. GRUNDBEGRIFFE UND PROBLEMSTELLUNG
4
Beispiel 1.2 (Angeln)
Wie oft muß die Angel ausgeworfen werden, bis ein Fisch anbeißt?
Ω1 = {0, 1}∞
X : Ω1 → N
ω 7→ X(ω) = Stelle der ersten 1“ in ω.
”
PX,Θ = {f (x; ϑ) = ϑ(1 − ϑ)x−1 | ϑ ∈ [0, 1]}
Familie von geometrischen Verteilungen
E(X) = ϑ1
ein kleines ϑ spricht für wenig Fische im See.
Beispiel 1.3 (Augeninnendruck)
N = 10.000 gesunde Rekruten
Y ∼ N (µ, σ 2 ) beschreibt Augeninnendruck
für jeden der N Rekruten.
2 y−µ
1
1
2
fY (y; µ, σ ) = √2πσ exp − 2 σ
Stichprobe vom Umfang n < N
X = (X1 , . . . , Xn ) mit Xi = Y i = 1, . . . , n
ϑ = (µ, σ 2 ) ∈ Θ = R × R+ \ {0} Parameterraum
n
Y
fX (x; µ, σ 2 ) =
fY (xi ; µ, σ 2 )
i=1
=
1
√
2πσ
n
PX,Θ = {fX (x; µ, σ 2 ) | ϑ = (µ, σ 2 ) ∈ Θ}
Betrachte
n
1X
exp −
2 i=1
xi − µ
σ
2 !
Familie von Normalverteilungen.
n
x̄ =
1X
xi
n i=1
und
n
s
Es gilt:
1 X
(xi − x̄)2
=
n − 1 i=1
2
n
X
(xi − µ)2 = (n − 1)s2 + n(x̄ − µ)2
i=1
Damit:
2
fX (x; µ, σ ) =
1
√
2πσ
n
1
2
2
exp − 2 (n − 1)s + n(x̄ − µ)
2σ
hängt nun noch von s2 und x̄ , aber nicht mehr von x1 , . . . , xn ab!
1.2. SCHÄTZER UND IHRE EIGENSCHAFTEN
5
Bemerkung. Die zentralen Fragen des statistischen Schließens (statistische Inferenz) von
einer Stichprobe x auf die Verteilung PX,ϑ der zugehörigen Zufallsvariable X sind:
1. Welche Verteilungsannahme PX,Θ ist überhaupt angemessen?
2. Wie soll ein Verfahren aussehen, welches von den Realisierungen auf die unbekannte
Verteilung schließt?
3. Wie gut ist ein solches Verfahren?
4. Welches ist das beste Verfahren? (gibt es sowas überhaupt?)
1.2
Schätzer und ihre Eigenschaften
Definition 1.5 (Stichprobenfunktion, Statistik)
Eine meßbare Funktion t : X → Rk heißt Stichprobenfunktion oder Statistik.
Bemerkung. Üblicherweise X = Rn und k < n.
Beispiel 1.4 ˆ X ∼ Nn (µ, σ 2 In )
t : Rn → R2 

n
1 X

1 X

2
x 7→ t(x) = 
xi ,
(xi − x̄) 
|n {z } n − 1 i=1

|
{z
}
=:x̄
=:s2
ˆ X ∼ B(n, p)
t:R→R
x 7→ t(x) = x/n
Definition 1.6 (Schätzen, Schätzfunktion, Schätzwert)
Sei Θ ⊆ Rk und t : X → Rk eine Statistik. Dann heißt t Schätzer oder Schätzfunktion für
ϑ ∈ Θ und ϑb = t(x) heißt Schätzwert für ϑ ∈ Θ.
Bemerkung. t(x) ist eine Realisation der Zufallsvariable t ◦ X = t(X).
Beispiel 1.5
X ∼ Nn (µ, σ 2 In )
t : Rn → R
n
P
x 7→ t(x) = n1
xi
i=1
x̄ = t(x) ist Realisation von X̄ =
µ
b = t(x) = x̄.
1
n
P
Xi und (hoffentlich ein guter) Schätzer für µ, also
1.2. SCHÄTZER UND IHRE EIGENSCHAFTEN
6
Bemerkung. ϑb = t(x) muß nicht notwendigerweise Element von Θ ⊂ Rk sein; ϑb ∈
/ Θ ist
erlaubt!
Definition 1.7 (parametrische Funktion)
Eine Abbildung g : Θ → Rl heißt parametrische Funktion.
Definition 1.8
Sei Θ ⊆ Rk , g : Rk → Rl eine parametrische Funktion und t : X → Rl eine Statistik. Dann
d = t(x) dessen Schätzwert.
ist t ein Schätzer für g(ϑ) und g(ϑ)
Definition 1.9 (Erwartungstreue, Verzerrung)
Sei T = t ◦ X und t ein Schätzer für g(ϑ). Dann heißt
bg (ϑ) = Eϑ (T ) − g(ϑ)
R
die Verzerrung (engl. bias) von t, wobei Eϑ (T ) = t dPX,ϑ . Falls bg (ϑ) = 0, also Eϑ (T ) = g(ϑ),
so heißt t erwartungstreu oder unverzerrt (engl. unbiased) für g(ϑ).
Beispiel 1.6
X1 , . . . , Xn mit Xi ∼ N (µ, σ 2 ) u.i.v.
ˆ X̄ ist erwartungstreu für µ, denn
Eϑ (X̄) =
ˆ T1 =
1
n−1
n
P
1
nEµ (Xi ) = µ
n
(Xi − X̄)2 ist erwartungstreu für σ 2 , denn
i=1
n
P
(Xi − µ)2 = (n − 1)T1 + n(X̄ − µ)2
i=1
⇒
n · σ2
2
⇒ n · σ 2 − nσn
⇒
σ2
ˆ T2 =
1
n
P
= (n − 1)E(T1 ) + n ·
= (n − 1)E(T1 )
= E(T1 )
σ2
n
(Xi − X̄)2 ist verzerrt, denn
1
(n − 1) E
E(T2 ) =
n
|
=
n−1 2
σ
n
1 X
2
(Xi − X̄)
n−1
{z
}
E(T1 )=σ 2
1.2. SCHÄTZER UND IHRE EIGENSCHAFTEN
7
mit bias
n−1 2
σ − σ2
n
1
= − σ2
n
Eϑ (T2 ) − g(ϑ) =
Beispiel 1.7 (einfaktorielle Varianzanalyse)
Auf 2n Feldern wird Getreide angebaut, jeweils auf n Feldern mit Düngemittel A und
Düngemittel B.
Xi,j : Erträge auf Feld i = 1, . . . , n für Düngemittel j ∈ {A, B}
Verteilungsannahme für X = (X1,A , . . . , Xn,A , X1,B , . . . , Xn,B )
n
n
Q
Q
PX,Θ =
fXi,A (xi,A ; µA , σ 2 ) fXi,B (xi,B ; µB , σ 2 ) |
i=1
i=1
2
+
+
+
ϑ = (µA , µB , σ ) ∈ Θ = R × R × R
mit fX (x; µ, σ 2 ) Dichte von N (µ, σ 2 )
ϑ = (µA , µB , σ 2 ) selbst ist uninteressant. Wichtig ist g(ϑ) = µB − µA
(sog. Kontrast“)
”
Beispiel 1.8
X1 , . . . , X n
Xi ∼ G(p) u.i.v.
n
P
t(x) = n1
xi = x̄
i=1
E (t(X)) = n1 n · E(Xi ) = p1
Es folgt nicht: E X̄ −1 = p
Jedoch:
P
X̄ −→
1
p
(GdgZ) und mit Satz 9.7
P
X̄ −1 −→ p
Definition 1.10 (Schätzverfahren)
Für n ∈ N sei jeweils tn : Rn → Rl eine Schätzfunktion für g(ϑ). Dann heißt die Menge
{tn | n ∈ N} Schätzverfahren für g(ϑ).
Beispiel 1.9
n
P
tn = n1
xi
i=1
Definition 1.11 (asymptotisch erwartungstreu, Konsistenz)
Sei X n = (X1 , . . . , Xn ), eine Folge von Stichproben, PX n ,Θ die Verteilungsannahme, ϑ ∈ Θ
und g eine parametrische Funktion, sowie {tn | n ∈ N} ein Schätzverfahren. Dann heißt die
Folge von Zufallsvariablen Tn = tn ◦ X n , n ∈ N
1.2. SCHÄTZER UND IHRE EIGENSCHAFTEN
8
ˆ asymptotisch erwartungstreu für g(ϑ) :⇔
lim Eϑ (Tn ) = g(ϑ) ∀ϑ ∈ Θ
n→∞
ˆ schwach konsistent für g(ϑ) :⇔
P
Tn → g(ϑ)
ˆ stark konsistent für g(ϑ) :⇔
f.s.
Tn → g(ϑ)
Beispiel 1.10
X n = (X1 , . . . , Xn ) stu Xi ∼ B(1, p)
n
P
Xi = X̄n
tn (X1 , . . . Xn ) = n1
i=1
P
P
Tn = n1
Xi → p
(schwaches GdgZ)
und sogar
f.s.
Tn → p
(starkes GdgZ)
Also: Der Mittelwert ist ein stark konsistenter Schätzer für den Anteilswert p.
Beispiel 1.11
X n = (X1 , . . . , Xn ) stu E(Xi ) = µi , V(Xi ) = σi2
n
n
P
P
tn (x1 , . . . , xn ) =
wi xi mit
wi µi =: µ ∀n.
i=1
i=1
Ist Tn = tn ◦ X n konsistent für µ ?
n
n
P
P
E(Tn ) =
wi E(Xi ) =
w i µi = µ
i=1
i=1
V(Tn ) = E (Tn − E(Tn ))2 = E (Tn − µ)2
n
n
X
X
2
=
wi V(Xi ) =
wi2 σi2
i=1
Hinreichend:
i=1
V(Tn ) = E ((Tn − µ)2 ) → 0 für n → ∞
2
⇔ Tn → µ
P
⇒ Tn → µ
(9.2c)
Falls Xi ∼ N (µi , σi2 ) gilt:
P
Tn ∼ N (µ, τn2 ) mit τn2 = wi2 σi2
und dann ist obige Bedingung sogar notwendig (Beispiel 9.4).
Satz 1.12
Sei t : Rn → R ein Schätzer für ϑ ∈ Θ ⊂ R. Dann gilt:
Pϑ (|t(X) − ϑ| < ) ≥ 1 −
1
2
E
(t(X)
−
ϑ)
ϑ
2
1.2. SCHÄTZER UND IHRE EIGENSCHAFTEN
9
Der Ausdruck Eϑ ((t(X) − ϑ)2 ) := MSE(t, ϑ) heißt mittlerer quadratischer Fehler (mean
squared error).
Beweis. weiss
Satz 7.14 mit Y = t(X) − ϑ und n = 2, Gegenereignis.
Bemerkung. Pϑ (|t(X) − ϑ| < ) wird dann groß, wenn MSE(t, ϑ) klein wird.
Definition 1.13
Seien t1 : Rn → R und t2 : Rn → R Schätzer für ϑ ∈ Θ ⊂ R. Dann heißt t1 mindestens so
gut wie t2 , wenn gilt
MSE(t1 , ϑ) ≤ MSE(t2 , ϑ) ∀ϑ ∈ Θ
Satz 1.14 (Bias-Varianz-Zerlegung)
MSE(t, ϑ) = Vϑ (t(X)) + (Eϑ (t(X)) − ϑ)2
{z
}
|
bias b(t,ϑ)
Beweis. weiss
MSE(t, ϑ)
=
kreative 0
Eϑ (t(X) − ϑ)2
=
Eϑ (t(X) − Eϑ (t(X)) + Eϑ (t(X) − ϑ))2
Eϑ (t(X) − Eϑ (t(X)))2 + (Eϑ (t(X)) − ϑ)2
=
Vϑ (t(X)) + b(t, ϑ)2
=
Bemerkung. Für einen erwartungstreuen Schätzer gilt
MSE(t, ϑ) = Vϑ (t(X))
Das heißt, der beste erwartungstreue Schätzer ist derjenige mit der kleinsten Varianz. Dies
ist ein wichtiges Gütekriterium für die Beurteilung und den Vergleich von Schätzern.
1.3. EXPONENTIALFAMILIEN
10
Beispiel 1.12
X = (X1 , . . . , Xn ) u.i.v. Xi ∼ N (µ, σ02 ) , σ02 bekannt
t1 (X) = X̄ erwartungstreu mit mittlerem quadratischen Fehler MSE(t1 , µ) = Eµ (X̄ − µ)2 =
σ2
V(X̄) = n0
Sei t2 ein weiterer erwartungstreuer Schätzer für µ, also
n
P
t2 (X) =
wi Xi mit
i=1
Eµ (t2 (X)) = Eµ
X
w i Xi = µ
X
!
wi = µ
X
⇔
wi = 1
Dann gilt:
P
V(t2 (X)) = σ02 · wi2
Sei ∆i = wi − n1 mit
P
P
P1
∆i = wi −
=1−1=0
n
1
Dann wi = ∆i + n und
V(t2 (X)) = σ02
=
=
=
=
X
wi2
2
X
1
2
σ0
∆i +
n
X
1
2
2
2
σ0
∆i + ∆i + 2
n
n


1
X 2 2 X
σ02 
∆i +
∆i + 
n | {z } n
 =0

 1 X 2
∆
σ02  +
n | {z }i
≥0
≥
σ02
n
⇒ t2 ist nicht besser als t1 und somit ist t1 optimal (unter allen linearen erwartungstreuen
Schätzern).
1.3
Exponentialfamilien
Definition 1.15 (Exponentialfamilie)
Eine Verteilungsfamilie PX,Θ = {f (x; ϑ) | ϑ ∈ Θ} (d.h., die Dichten existieren) heißt
1.3. EXPONENTIALFAMILIEN
11
k-parametrige Exponentialfamilie, wenn sich die Dichten f (x; ϑ) bzgl. (des oder eines geeigneten dominierenden Maßes) ν auf die folgende Gestalt bringen lassen:
!
k
X
f (x, ϑ) = c(ϑ) b(x) exp
γj (ϑ) tj (x)
j=1
mit
tj : X → R t = (t1 , . . . , tk )
b : X → R+
)
meßbar
und
γj : Θ → R γ = (γ1 , . . . , γk )
c : Θ → R+
0
γ = γ(ϑ) heißt natürlicher Parameter dieser Exponentialfamilie mit natürlichem Parameterraum γ(Θ) = {γ(ϑ) | ϑ ∈ Θ} ⊆ Rk .
Satz 1.16
Folgende Verteilungsfamilien sind Exponentialfamilien:
a) {Exp(λ) | λ > 0}
Exponentialverteilung
b) {B(1, p) | p ∈ [0, 1]}
Bernoulliverteilung
c) {B(n, p) | p ∈ [0, 1]}
Binomialverteilung
d) {P (λ) | λ > 0}
Poissonverteilung
e) {N (µ, σ02 ) | µ ∈ R}
f) {N (µ0 , σ 2 ) | σ 2 > 0}
Normalverteilung
Normalverteilung
Beweis. weiss
a)
f (x; λ) = |{z}
λ exp(|{z}
−λ |{z}
x ) I(0,∞) (x)
| {z }
c(λ)
γ(λ)
t(x)
b(x)
1.3. EXPONENTIALFAMILIEN
12
b)
f (x; p) = px (1 − p)1−x I{0,1} (x)
p
= (1 − p) I{0,1} exp(|{z}
x log
)
| {z } | {z }
1−p
t(x) |
{z
}
c(p)
b(x)
γ(p)
c)
n x
f (x; p) =
p (1 − p)n−x I{0,1,...,n} (x)
x




n
p


= (1 − p)
I{0,1,...,n} (x) exp |{z}
x log

| {z } x
1−p 

t(x) |
|
{z
}
{z
}
c(p)
n
b(x)
γ(p)
x x
p
p
p
=
denn exp x log
= exp log
1−p
1−p
1−p
d)
f (x; λ) =
λx
exp(−λ) IN (x)
x!


1


= exp(−λ) IN (x) exp |{z}
x log(λ)
| {z } |x! {z }
| {z }
t(x)
c(λ)
γ(λ)
b(x)
e)
f (x; µ, σ02 )
1 (x − µ)2
1
exp −
=√
2 σ02
2πσ0
1
1
2
2
=√
exp − 2 (x − 2xµ + µ )
2σ0
2πσ0


 x

1
x2
µ2


exp − 2 exp − 2 exp  2 µ 
=√
|{z}
2σ
2σ
σ
 0

2πσ0
0
|{z} γ(µ)
|
{z
}|
{z 0 }
b(x)
f) HA.
c(µ)
t(x)
1.3. EXPONENTIALFAMILIEN
13
Bemerkung. b(x) ist der einzige Faktor, der unabhängig von ϑ Null werden kann → alle
PX,ϑ haben denselben Träger.
Satz 1.17
Sei PX,ϑ = f (·; ϑ) ν Maß mit Dichte f in Exponentialform bzgl. ν (in der Regel ν = λ
R
oder ν = µz ). Sei nun ν̃(B) := B b(x) dν(x) (B ⊆ X ) (also ν̃ = b ν) , dann gilt
PX,ϑ = f˜ ν̃
wobei
f˜(x, ϑ) = c(ϑ) exp(γ(ϑ)> t(x))
bzw. mit γ0 (ϑ) = log(c(ϑ))
f˜(x, ϑ) = exp(γ0 (ϑ) + γ(ϑ)> t(x))
Beweis. weiss
PX,ϑ = f ν
ν̃ = b ν
Z
⇒ PX,ϑ (B)
f dν
=
ZB
=
ZB
=
c(ϑ) b(x) exp(t(x)> γ(ϑ)) dν(x)
c(ϑ) exp(t(x)> γ(ϑ))b(x) dν(x)
B
Lemma
3.28
StatIII
=
Z
c(ϑ) exp(t(x)> γ(ϑ)) dν̃(x)
{z
}
B|
=:f˜(x,ϑ)
Definition 1.18
Eine Exponentialfamilie heißt strikt k-parametrig, wenn ihre Dichten in der Form von Def.
1.15 oder Satz 1.17 darstellbar sind, und zusätzlich die Funktionen t0 ≡ 1, t1 , . . . , tk sowie
γ0 ≡ 1, γ1 , . . . , γk linear unabhängig sind (außer auf Nullmengen).
1.3. EXPONENTIALFAMILIEN
14
Satz 1.19
Sei X1 : Ω1 → R und PX1 ,Θ eine k-parametrige Exponentialfamilie mit Funktionen c, b, γ
und t. Dann gilt: PX,Θ mit X = (X1 , . . . , Xn ) u.i.v. ist ebenfalls k-parametrige Exponentialfamilie mit Funktionen
cn (ϑ) = c(ϑ)n
bn (x1 , . . . , xn ) =
n
Y
b(xi )
i=1
γn (ϑ) = γ(ϑ)
tn (x1 , . . . , xn ) =
n
X
( t1 (xi ), . . . , tk (xi ) )
i=1
Beweis. weiss
fX (x, ϑ)
u.i.v.
=
n
Y
fXi (xi , ϑ)
i=1
=
n
Y
!
c(ϑ) b(xi )
exp
i=1
=
c(ϑ)n
n
X
!
γ(ϑ)> t(xi )
i=1
n
Y
!
b(xi )
exp γ(ϑ)> tn (x)
i=1
Beispiel 1.13
X = (X1 , . . . , Xn ) Xi ∼ N (µ, σ02 )
⇒ PX,Θ = {Nn (µ, σo2 I) | µ ∈ R}
ist eine einparametrige Exponentialfamilie mit


n
P
2
n
(x
−
µ)
 1 i=1 i

1

fX (x; µ, σ02 ) = √
exp 
−
2
 2

σ0
2πσ0

=
n
Y
|i=1

n
P x

1
x2i
µ2


i
√
exp − 2 exp − 2
exp  2 µ 
|{z}
2σ0
2σ
 σ0

2πσ0
| {z } γ(µ)
{z 0 }
{z
}|
bn (x)
cn (µ)
tn (x)
1.3. EXPONENTIALFAMILIEN
15
Beispiel 1.14
PX,Θ = {Nn (µ, σ 2 In ) | µ ∈ Rn , σ 2 ∈ R+ }
ϑ = (µ, σ 2 )

2
fX (x; µ, σ ) =
1
√
2πσ
n
 1
exp 
− 2
n
P
2

(xi − µ) 


σ2
i=1
n
1
1
2
2
exp − 2 (n(x̄ − µ) + (n − 1)s )
= √
2σ
2πσ
n
X
µ
1 X 2
n µ2
1
√
xi − 2
xi
exp − 2 exp
=
2σ
σ2
2σ
σ 2π
P P
mit γ(ϑ) = σµ2 , − 2σ1 2 und t(x) = ( xi , x2i )
Definition 1.20 (natürliche Parametrisierung)
Sei γ = γ(ϑ) und c̃(γ) derart, daß gilt:
c̃(γ) = c(ϑ).
Dann heißt die k-parametrige Exponentialfamilie in kanonischer Form dargestellt mit Dichte
f˜(x; γ) = c̃(γ) exp(γ > t(x))
bezüglich ν̃.
R
Bemerkung. Sei ω(γ) = exp(γ > t(x)) dν̃(x) < ∞. Dann kann f˜ zu einer ν̃-Dichte umgeschrieben werden mit c̃(γ) = ω(γ)−1 . Der natürliche Parameterraum Γ ⊆ Rk besteht aus
allen γ ∈ Rk , für die dies möglich ist.
Satz 1.21
Der natürliche Parameterraum ist konvex.
Beweis. weiss
Sei γ und γ ∗ ∈ Γ. z.z.: αγ+(1−α)γ ∗ ∈ Γ. Dies ist der Fall, wenn exp (αγ + (1 − α)γ ∗ )> t(x)
sich zu einer Dichte bzgl. ν̃ normieren läßt, also wenn das entsprechende Integral endlich
1.3. EXPONENTIALFAMILIEN
16
ist:
Z
exp (αγ + (1 − α)γ ∗ )> t(x) dν̃(x) =
Z
= exp αγ > t(x) exp (1 − α)γ ∗ > t(x) dν̃(x)
= exp αγ > t(x) exp (1 − α)γ ∗ > t(x) 1
Hölder >
∗>
≤ exp αγ t(x) p exp (1 − α)γ t(x) q
1
p= α
1
q= 1−α
=

Z
1−α
α Z
1
(1−α)· 1−α
α· α1
∗>
dν̃(x)
exp γ t(x)
dν̃(x)
exp γ t(x)
1−α
α 
>
Z



>
 exp γ t(x) dν̃(x)


|
{z
}
<∞
da γ∈Γ
<∞

Z


>
∗
 exp γ t(x) dν̃(x)


|
{z
}
<∞
da γ ∗ ∈Γ
⇒ αγ + (1 − α)γ ∗ ∈ Γ ⇔ Γ konvex
Bemerkung.
Z
Eϑ g(X)
=
γ=γ(ϑ)
=
Z
g dPX,ϑ =
Z
g(x)fX (x; ϑ) dν(x)
g(x)f˜X (x, γ) dν̃(x) = Eγ g(X)
und h(γ) = Eγ g(X) ist beliebig oft nach γ unter Vertauschung von Integration und Differentiation differenzierbar.
Satz 1.22
Sei PX,Θ eine k-parametrige Exponentialfamilie in γ und T = t(X). Dann bildet PT,Θ
ebenfalls eine k-parametrige Exponentialfamilie in γ und der Identität.
Beweis. weiss
1.3. EXPONENTIALFAMILIEN
17
PT,ϑ (A)
Bildmaß,
siehe Def.
5.1,5.2
PX,ϑ t−1 (A)
∀A ∈ B k
Z
f˜(x; ϑ) dν̃(x)
=
=
t−1 (A)
Z
c̃(γ) exp γ > t(x) dν̃(x)
=
t−1 (A)
Z
Subst.
c̃(γ) exp(γ > t) dν̃T (t)
{z
}
|
=
A
f˜(t,γ)
Dichte von PT,ϑ
mit ν̃T (A) = ν̃(t−1 (A)) ∀A ∈ B k (Bildmaß).
Satz 1.23
Sei PX,Θ eine k-parametrige Exponentialfamilie in γ und T = t(X). Dann besitzt die
Statistik T Momente beliebig hoher Ordnung, diese sind als Funktion von γ beliebig oft
nach γ differenzierbar; die Ableitungen dürfen durch Differentiation unter dem betreffenden
Integral gebildet werden.
Beweis. weiss
(Skizze)
MT (s) = Eγ exp(s> T )
k
X
exp
= Eγ
!!
sj Tj
j=1
k
X
Z
=
exp
!
sj Tj
f˜T (γ > T ) dν̃T
j=1
Z
= c̃(γ)
k
X
exp
(sj + γj )Tj
!
dν̃T
j=1
vgl. Bemerkung auf Seite 16 wegen Differentierbarkeit
c̃(γ)
=
c̃(γ + s)
Z
c̃(γ + s) exp
c̃(γ)
c̃(γ + s)
!
(sj + γj )Tj
dν̃T
j=1
|
=
k
X
{z
=1
}
1.3. EXPONENTIALFAMILIEN
18
Beispiel 1.15 (2-Stichprobenproblem)
X = (X1 , . . . , Xn )
2
Xi ∼ N (µX , σX
) u.i.v.
Y = (Y1 , . . . , Ym )
Yi ∼ N (µY , σY2 ) u.i.v.
Z = (X, Y ) stu
2
Fall A: µX = µY = µ und σX
= σY2 = σ 2
→ zweiparametrige Exponentialfamilie, siehe Beispiel 1.14.
2
Fall B: µX , µY beliebig, σX
= σY2 = σ 2
f (z; µX , µY , σ 2 ) = f (x, y; µX , µY , σ 2 )
!!
n+m
n
m
X
X
1
1
= √
(xi − µX )2 +
(yi − µY )2
exp − 2
2σ
2πσ
i=1
j=1
n+m
2
2
1
µX X
µY X
1 X 2 X 2
nµX + mµY
xi +
yj )
= √
exp
xi + 2
yj − 2 (
exp −
2σ 2
σ2
σ
2σ
2πσ
µX µY
1
γ(ϑ) =
,
,− 2
σ2 σ2
2σ
X X X
X 2
t(z) = t(x, y) =
xi ,
yi ,
xi +
yj2
→ Dreiparametrige Exponentialfamilie.
2
, σY2 beliebig
Fall C: µX = µY = µ und σX
2 X
2 !!
n m
m n yi − µ
1
1 X xi − µ
1
√
+
f (x, y; ϑ) = √
exp −
2 i=1
σX
σY
2πσX
2πσY
j=1
2
ϑ = (µ, σX
, σY2 )
n m
1
mµ2
1
nµ2
√
= √
exp − 2 − 2 ·
2σX
2σY
2πσX
2πσY
X
X
X
µ
µ
1
1 X 2
2
· exp
xi + 2
yj − 2
xi − 2
yj
2
σX
σY
2σX
2σY
µ µ
1
1
γ(ϑ) =
, 2 ,− 2 ,− 2
2
σX
σY
2σ
2σ
X X X Y X
X 2
t(z) = t(x, y) =
xi ,
yj ,
xi ,
yj2
Achtung: ϑ ∈ R3 und γ ∈ R4
Ursache für Behrens-Fisher-Problem“.
”
1.4. INVARIANTE VERTEILUNGSFAMILIEN
19
2
Fall D: µX , µY , σX
, σY2 beliebig
µX µY
1
1
wie unter Fall C mit γ(ϑ) = σ2 , σ2 , − 2σ2 , − 2σ2
X
1.4
Y
X
Y
Invariante Verteilungsfamilien
Beispiel 1.16
XF . . . Temperatur in Fahrenheit
XK . . . Temperatur in Kelvin
XC . . . Temperatur in Celsius
XF = 95 · XC + 32
XC = XK + 273.15
Sinnvoll: Ergebnis der Inferenz sollte nicht von der gewählten Skala abhängen.
Definition 1.24 (Invarianz)
Sei X = (X1 , . . . , Xn ) eine Stichprobe und PX,Θ = {PX,ϑ | ϑ ∈ Θ} die Familie von Verteilungen von X. Sei G eine Klasse von Transformationen des Stichprobenraumes
g : X → X,
wobei g bijektiv und g, g −1 meßbar sind. Dann ist die Verteilung der ZV g(X)
Pg(X),ϑ (B) = PX,ϑ (g −1 (B)) ∀ B ∈ σ(X )
und Pg(X),Θ die zugehörige Verteilungsannahme. Diese heißt invariant gegenüber der Klasse
G von Transformationen , falls
Pg(X),Θ = PX,Θ
∀ g ∈ G.
Beispiel 1.17 (Normalverteilung)
PX,(µ,σ2 ) = N (µ, σ 2 ) | (µ, σ 2 ) ∈ R × R+
ist nach Satz 8.15 invariant gegenüber linearen Transformationen.
Bemerkung. PX,Θ ist genau dann invariant bzgl. G, wenn es zu jedem g ∈ G und ϑ ∈ Θ
0
genau ein ϑ ∈ Θ gibt, so daß PX,ϑ = Pg(X),ϑ0 , d.h. zu jedem g : X → X gibt es ein
0
0
0
g : Θ → Θ , so daß ϑ = g (ϑ).
1.4. INVARIANTE VERTEILUNGSFAMILIEN
20
Beispiel 1.18 (Normalverteilung)
g(x) = bx + a
0
⇒ g (µ, σ 2 ) = (bµ + a, b2 σ 2 )
Beispiel 1.19 (Lokationsfamilie)
X = (X1 , . . . , Xn )
u.i.v. Xi ∼ H
( n
)
Y
PX,Θ =
H(xi , ϑ) | ϑ ∈ Θ
i=1
H(x, ϑ) = H0 (x − ϑ)
| {z }
bekannt
0
Dann ist PX,Θ invariant bzgl. g(x) = x + a. Es folgt: g (ϑ) = ϑ + a.
Beispiel 1.20 (Skalenfamilie)
H(x, ϑ) = H0 (x/ϑ)
PX,Θ invariant bzgl. g(x) = bx.
0
g (ϑ) = bϑ
Beispiel 1.21 (Lokations- Skalen- Familie)
H(x, ϑ) = H0
x−µ
σ
mit ϑ = (µ, σ)
PX,Θ invariant bgzl. g(x) = bx + a.
0
g (ϑ) = (bµ + a, bσ)
Beispiel 1.22 (Permutationsinvarianz, Vertauschbarkeit)
oW
Sei p ∈ Vn,n
; p = (p1 , . . . , pn ) und πp : X → X mit πp (x) = (xp1 , xp2 , . . . , xpn ) eine
Permutation von x.
Dann heißt PX permutationsinvariant bzw. X = (X1 , . . . , Xn ) vertauschbar, wenn gilt
oW
PX = Pπp (X) ∀ p ∈ Vn,n
.
Bemerkung. Vertauschbarkeit ⇐ Unabhängigkeit.
z.B. X = (X1 , . . . , Xn ) ∼ H(n, K, N )
P
X1 , . . . , Xn sind nicht unabhängig, aber vertauschbar, da Verteilung nur über k =
xi
von x abhängt.
1.5. SUFFIZIENZ
1.5
21
Suffizienz
Beispiel 1.23
X = (X1 , . . . , Xn ) u.i.v. Xi ∼ B(1, p)
t : Rn → R x 7→ t(x) = x̄
Welche Information über p enthält x̄ ?
P
Gesucht: Verteilung von X| Xi = k.
Dichtefunktion:
fX| P Xi =k (x1 , . . . , xn |
X
Xi = k)
X
= P(X1 = x1 , . . . , Xn = xn |
Xi = k)
P
P(Xi = xi ∀i = 1, . . . , n; Xi = k)
P
=
P( Xi = k)

P
0
xi 6= k
=
P
k
n−k
−1
 np (1−p)
= nk
xi = k
(k )pk (1−p)n−k
⇒ fX| P Xi =k ist unabhängig von p; d.h. nach der Beobachtung von X̄ ist in X keinerlei
Information über p mehr enthalten.
Definition 1.25 (Suffiziente Statistik)
Sei X = (X1 , . . . , Xn ) eine Stichprobe und PX,Θ = {PX,ϑ | ϑ ∈ Θ} eine Verteilungsannahme
sowie t : X → Rk eine Statistik. Dann heißt T = t ◦ X suffizient für PX,Θ (oder einfach für
ϑ), wenn die bedingte Verteilung
PX|T =t(x)
definiert durch
PX|T =t(x) (B) =
P(X −1 (B) ∩ (t ◦ X)−1 (t(x)))
P((t ◦ X)−1 (t(x)))
unabhängig von ϑ ist (deren Existenz vorausgesetzt; dies ist mit X = Rn aber der Fall).
Bemerkung. Es existieren im allgemeinen viele suffiziente Statistiken.
ˆ T = X ist suffizient, denn PX|T =t(x) = PX|X=x ist eine Einpunktverteilung mit
PX|X=x (x) = 1
ˆ T = X̄ und T =
P
Xi sind suffizient für p im einführenden Beispiel
1.5. SUFFIZIENZ
22
Definition 1.26 (bedingter Erwartungswert)
Seien X und Y Zufallsvariablen mit Randverteilungen PX = fX νX und PY = fY νY
sowie bedingte Verteilungen PX|Y =y = fX|Y =y νX . Dann ist der bedingte Erwartungswert
von g(X) gegeben Y = y als Funktion von y definiert durch
Z
E(g(X)|Y = y) =
g(x) dPX|Y =y (x)
Z
=
g(x)fX|Y =y (x|y) dνX (x)
Bemerkung. Für die meisten praktischen Fälle ist die Definition
fX|Y =y (x|y) :=
fX,Y (x, y)
fY (y)
der bedingten Dichte ausreichend.
Satz 1.27 (Satz vom iterierten Erwartungswert)
EY (EX|Y (X|Y )) = EX (X)
Beweis. weiss
Z
EY (EX|Y (X|Y ))
=
EY
x dPX|Y =y (x)
Z
=
x fX|Y =y (x|y) dνX (x)
EY
Z Z
=
x fX|Y (x|y) dνX (x) fY (y) dνY (y)
Fubini
Z Z
Fubini
Z
=
=
Z
x fX|Y (x|y) fY (y) dνX (x) dνY (y)
Z
x
fX,Y (x, y) dνY (y) dνX (x)
|
{z
}
=
x
=
EX (X)
fX (x) dνX (x)
1.5. SUFFIZIENZ
23
Satz 1.28 (Faktorisierungssatz von Fisher und Neyman)
Sei X = (X1 , . . . , Xn ) eine Stichprobe und PX,Θ = {f (x; ϑ) | ϑ ∈ Θ} eine Verteilungsannahme, so gilt für eine Statistik T = t ◦ X (t : Rn → Rk )
T ist suffizient für ϑ ⇔
g : Θ × Rk → R
∃
h:
Rn → R
)
meßbar
so daß
f (x; ϑ) = g(ϑ, t(x)) h(x).
Beweis. weiss
PX,ϑ = fX (x; ϑ) ν
PT,ϑ = fT (t; ϑ) νT
PX,T,ϑ = fX,T (x, t; ϑ) (ν ⊗ νT )
Dann gilt
fX,T (x, t; ϑ) = fX|T (x|t; ϑ) fT (t; ϑ)
aber auch
fX,T (x, t; ϑ) =

0
falls t 6= t(x)
fX (x; ϑ) falls t = t(x)
⇒ fX (x; ϑ) = fX|T (x|t(x), ϑ) fT (t(x); ϑ)
{z
} | {z }
|
=:g(ϑ,t(x))
=:h(x)
denn für eine suffiziente Statistik t ist fX|T (x|t(x), ϑ) nicht mehr von x abhängig.
Satz 1.29
Sei PX,Θ eine k-parametrige Exponentialfamilie mit Dichten
fX (x; ϑ) = c(ϑ) b(x) exp(γ(ϑ)> t(x))
⇒ t ◦ X ist suffizient für ϑ ∈ Θ.
Beweis. weiss
fX (x; ϑ) = c(ϑ) exp(γ(ϑ)> t(x)) b(x)
|
{z
} |{z}
=:g(ϑ,t(x))
=:h(x)
1.6. DIE FISHER-INFORMATION
1.6
24
Die Fisher-Information
Beispiel 1.24
X = (X1 , . . . , Xn ) Xi ∼ B(1, p) u.i.v.
1
t1 (X) = (X1 + Xn ) Schätzer für E(Xi ) = p
2
t2 (X) = X̄ Schätzer für E(Xi )
1
1
V(t1 (X)) = · 2 · V(X1 ) = V(X1 )
4
2
1
1
V(t2 (X)) = 2 · n · V(Xi ) = V(Xi )
n
n
t1 ist nicht suffizient, t2 schon und enthält daher die gesamte Information von X über
E(X). Aber wie groß ist die Information“ eigentlich?
”
Definition 1.30 (Fisher Regularität)
Sei PX,Θ = {f (x; ϑ) | ϑ ∈ Θ ⊆ R} mit den folgenden Regularitätseigenschaften
R1) Die Dichten f (x; ϑ) existieren (d.h. PX,ϑ = f ν).
R2) Θ ist offenes Intervall.
R3) Der Träger C := {x | f (x; ϑ) > 0} ist unabhängig von ϑ.
R4)
Z
∂f (x; ϑ)
dν(x) =
∂ϑ
Z 2
∂ f (x; ϑ)
dν(x) =
∂ 2ϑ
Z
∂
f (x; ϑ)dν(x) = 0
∂ϑ
Z
∂
∂f (x; ϑ)
dν(x) = 0
∂ϑ
∂ϑ
∀x ∈ C.
Dann heißt die Verteilungsfamilie PX,Θ Fisher-regulär.
Bemerkung. Eine Exponentialfamilie ist i.a. Fisher-regulär, vgl. Bemerkung auf Seite 16.
Definition 1.31 (Scorefunktion)
∂f (x;ϑ)
∂ log f (x; ϑ)
= ∂ϑ
∂ϑ
f (x; ϑ)
heißt Scorefunktion der Beobachtung x und die Zufallsvariable S(ϑ; X) heißt Scorefunktion
der Stichprobe X.
S(ϑ; x) =
1.6. DIE FISHER-INFORMATION
25
Beispiel 1.25
X1 ∼ P (λ)
f˜1 (x1 ; λ) = λx1 exp(−λ)
log f˜1 (x1 ; λ) = x1 log(λ) − λ
∂ log f˜1 (x1 ; λ)
x1
S(λ; x1 ) =
=
−1
∂λ
λ
log f˜1 (x1 ; λ) ist maximal, wenn S(λ; x1 ) = 0 ⇔ λ = x1 (und somit auch f˜1 (x1 ; λ) maximal)
X = (X1 , . . . , Xn ) Xi ∼ P (λ) u.i.v.
f˜(x; λ) =
n
Y
f˜1 (xi ; λ)
i=1
X = exp(−λ)n exp log(λ)
xi
X
log f˜(x; λ) = −nλ + log(λ)
xi
P
∂ log f˜(x; λ)
xi
S(λ; x) =
= −n +
∂λ
λ
P
1
also f˜(x; λ) maximal, wenn S(λ; x) = 0 ⇔ λ = n xi
Satz 1.32
Unter Fisher-Regularität gilt:
Eϑ S(ϑ; X) = 0
Vϑ S(ϑ; X) = −Eϑ
∂
S(ϑ; X)
∂ϑ
Beweis. weiss
Z
Eϑ S(ϑ; X) =
S(ϑ; x) f (x; ϑ) dν(x)
Z
=
∂ f (x, ϑ)
dν(x)
∂ϑ
R4
= 0
Vϑ S(ϑ; X) = Eϑ S(ϑ; X)2
!2
Z
∂ f (x;ϑ)
∂ϑ
=
f (x; ϑ) dν
f (x; ϑ)
Z
Z
∂2
∂2
=
f
(x;
ϑ)
dν
−
log f (x; ϑ) f (x; ϑ) dν
∂ 2ϑ
∂ 2ϑ
1.6. DIE FISHER-INFORMATION
26
∂ f (x;ϑ)
∂f (x;ϑ)
∂
∂
ϑ
(wegen Quotientenregel:
= ∂ϑ ∂ϑ −
∂ϑ f (x; ϑ)
f (x; ϑ)
∂2
=
∂ 2ϑ
Z
Z
f (x; ϑ) dν −
|
{z
}
∂ f (x;ϑ)
∂ϑ
f (x; ϑ)
!2
)
∂
S(ϑ; x)f (x; ϑ) dν
∂ϑ
1
= −Eϑ
∂S(ϑ; X)
∂ϑ
Definition 1.33 (Fisher-Information)
Sei PX,Θ = {f (x; ϑ) | ϑ ∈ Θ} Fisher-regulär und x ∈ C (dem Träger von f ). Dann heißt
I(ϑ; x) := −
∂
S(ϑ; x)
∂ϑ
die Fisher-Information der Beobachtung x über den Parameter ϑ. Der Erwartungswert der
Zufallsvariable I(ϑ; X) heißt Erwartete Fisher-Information IX (ϑ) der Stichprobe X:
IX (ϑ) = Eϑ I(ϑ; X)
∂
= Eϑ −
S(ϑ; X) = Vϑ S(ϑ; X)
∂ϑ
Bemerkung. IX (ϑ) hängt nur von der Verteilung PX,ϑ ab (kann also a priori berechnet
werden), I(ϑ, x) kann erst nach der Beobachtung von X = x betrachtet werden.
Beispiel 1.26
1.6. DIE FISHER-INFORMATION
27
X ∼ B(n, p)
n x
f (x, p) =
p (1 − p)n−x
x
∂
n
S(p; x) =
log
+ x log(p) + (n − x) log(1 − p)
∂p
x
x n−x
=
−
p
1−p
IX (p) = Vp (S(p; X))
X
n−X
= V
−
p
1−p
n
X
X
−
+
= V
p
1−p 1−p
1
1
n
= V X
+
−
p 1−p
1−p
X
= V
p(1 − p)
np(1 − p)
= 2
p (1 − p)2
n
=
p(1 − p)
Satz 1.34
Sei X = (X1 , . . . , Xn ) u.i.v. und IXi (ϑ) die erwartete Fisher-Information von Xi . Dann gilt:
IX (ϑ) =
n
X
IXi (ϑ)
i=1
Beweis. weiss
X1 , X2 u.i.v. ⇒ fX1 ,X2 = fX1 fX2
∂ log(fX1 ,X2 )
∂ϑ
∂ log fX1 ∂ log fX2
=
+
∂ϑ
∂ϑ
= S(ϑ; X1 ) + S(ϑ; X2 )
⇒ S(ϑ; (X1 , X2 )) =
⇒ V(S(ϑ; (X1 , X2 ))) = V(S(ϑ; X1 )) + V(S(ϑ;2 ))
{z
}
|
{z
} | {z }
|
IX1 ,X2 (ϑ)
IX1 (ϑ)
IX2 (ϑ)
1.6. DIE FISHER-INFORMATION
28
Satz 1.35 (Cramèr-Rao-Ungleichung)
Sei PX,Θ Fisher regulär und t : X → R ein erwartungstreuer Schätzer für ϑ ∈ Θ. Falls für
die ZV T = t ◦ X gilt
Cov(T, S(ϑ; X)) = 1
so folgt
Vϑ (T ) ≥
1
.
IX (ϑ)
Beweis. weiss
1
=
Covϑ (T, S(ϑ; X))2
=
Cov(T − ϑ, S(ϑ; X))2
=
Eϑ ((T − ϑ) · S(ϑ; X))2
Hölder mit
p=q=2
⇔
≤
Eϑ ((T − ϑ)2 ) · Eϑ (S(ϑ; X)2 )
=
Vϑ (T ) · IX (ϑ)
1
Vϑ (T ) ≥
IX (ϑ)
Bemerkung.
ˆ Ein unverzerrter Schätzer hat keine beliebig kleine Varianz.
ˆ Falls V(T ) =
Schätzern.
1
IX (ϑ)
, so ist T minimal varianter Schätzer unter allen erwartungstreuen
ˆ Allgemeiner gilt:
IT =t(X) (ϑ) = V(ST (ϑ, T )) ≤ IX (ϑ)
mit =“ genau dann, wenn T suffizient ist (vgl. Rüger, 1999, Seite 98ff).
”
Bemerkung. Für ϑ ∈ Θ ⊂ Rk , k > 1 gilt
∂
∂
ˆ S(ϑ; x) = ∂ϑ1 log f (x; ϑ), . . . , ∂ϑk log f (x; ϑ)
Scorevektor ( = Gradientenvektor)
1.6. DIE FISHER-INFORMATION
29
2
ˆ I(ϑ; x) = − ∂ϑ∂i ∂ϑj log f (x; ϑ)
i,j=1,...,k
Informationsmatrix“ ( = negative Hessematrix)
”
ˆ IX (ϑ) = Eϑ (I(ϑ; X)) heißt Fisher-Informationsmatrix für X bzw. IT (ϑ) für T = t(X).
ˆ IX (ϑ) − IT (ϑ) ≥ 0 (psd)
Löwner-Halbordnung
Beispiel 1.27
X = (X1 , . . . , Xn ) Xi ∼ N (µ, σ02 ) u.i.v.
n
1 X
1
2
exp − 2
(xi − µ)
f (x; µ) = √
2σ0
2πσ0
∂ log f (x; µ)
∂µ
2
√
∂
1 X xi − µ
=
− n log( 2πσ0 ) −
∂µ
2
σ0
X
1
n(x̄ − µ)
=
2(xi − µ) =
2
2σ0
σ02
S(µ; x) =
S(µ; X) =
V(S(µ; X)) =
=
=
=
n(X̄ − µ)
σ02
n2
V(X̄)
σ04
n2 1 X
V(Xi )
σ04 n2
1
n · σ02
σ04
n
σ02
= IX (µ)
und (da X̄ e-treu ist) gilt
V(X̄) =
σ02
1
1
=
= n
n
IX (µ)
σ2
0
⇒
X̄ ist minimalvarianter Schätzer für µ.
Kapitel 2
Punktschätzungen
2.1
Maximum-Likelihood-Schätzung
Beispiel 2.1
X = (X1 , . . . , Xn ) Xi ∼ P (λ) u.i.v
PX,Θ = {f (x; λ) | λ ∈ R+ } mit Dichte
f (x; λ) =
n
Y
λ xi
i=1
xi !
exp(−λ)
P
exp(−λn)λ
Qn
=
i=1 xi !
xi
Wahrscheinlichkeitstheorie x unbekannt, λ bekannt, also f (x; λ) Funktion von x ∈ Rn
Statistik x beobachtet ( Daten“), λ unbekannt, also kann f (x; λ) als Funktion von λ bei
”
festem x ∈ Rn betrachtet werden
Also: L(λ; x) := f (x; λ)
Da f (x; λ) = PX,λ (X = x) sprechen große Werte von f (x; λ) für eine hohe Wahrscheinlichkeit, bei gegebenem λ das Ergebnis X = x zu beobachten. Jetzt suchen wir das zum
beobachteten x passende“ λ. Also
”
b := argmax L(λ; x)
λ
λ∈R+
P
∂L(λ; x)
∂λ xi exp(−λn)
=
∂λ
∂λ
X
P
P
!
=
xi λ xi −1 exp(−λn) − nλ xi exp(−λn) = 0
30
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
31
P
P
x i P xi
λ
exp(−λn) = nλ xi exp(−λn)
Pλ
xi
⇔
=n
λ
X
b= 1
⇔ λ
xi
n
⇔
Definition 2.1 (Likelihood)
Sei X = (X1 , . . . , Xn ) mit Verteilungsannahme PX,Θ = {f (x; ϑ) | ϑ ∈ Θ} (d.h., die Dichten
existieren), dann heißt die Funktion
L : Θ × X → R+
ϑ 7→ L(ϑ; x) = f (x; ϑ)
die Likelihoodfunktion für ein festes x ∈ X (= Rn üblicherweise).
Definition 2.2 (Maximum- Likelihood- Schätzer)
Sei X = (X1 , . . . , Xn ) und PX,Θ die zugehörige Verteilungsannahme (siehe Def. 2.1). Dann
heißt der Schätzer
tML : Rn → Rk
x 7→ tML (x) = ϑbML := argmax L(ϑ; x)
ϑ∈Θ
der Maximum-Likelihood-Schätzer für ϑ ∈ Θ ⊆ Rk .
Bemerkung.
ϑbML = argmax L(ϑ; x) = argmax log L(ϑ; x)
ϑ∈Θ
ϑ∈Θ
Dieses Optimierungsproblem ist i.a. viel einfacher zu lösen!
Definition 2.3 (Log- Likelihood)
`(ϑ; x) = log L(ϑ; x) = log f (x; ϑ)
heißt Log- Likelihoodfunktion.
Beispiel 2.2 (Nichtexistenz von ϑbML )
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
32
X = (X1 , . . . , Xn ) Xi ∼ P (λ) u.i.v.
Yi = I(Xi > 0)
P(Yi = 0) = e−λ
P(Yi = 1) = 1 − e−λ
fYi (y; λ) = P(Yi = y)
fY (y; λ) =
n
Y
fYi (yi ; λ)
i=1
=
1 − e−λ
P yi
e−λ
P
(1−yi )
= L(λ; y)
X
X
`(λ; y) = log(L(λ; y)) =
yi log(1 − e−λ ) − λ
(1 − yi )
P
∂`(λ; y)
yi −λ X
!
=
e −
(1 − yi ) = 0
−λ
∂λ
1−e
yi e−λ X
=
(1 − yi )
1 − e−λ P
n
(1 − yi )
e−λ
P
=
= P −1
−λ
1−e
yi
yi
P
⇔
⇔
x
=a
1−x
a
x= a+1
−λ
Pn −
yi
Pn
yi
1
=1−
⇔
e
log
b = − log(1 − ȳ)
λ
⇔
=
1
Pn
yi
= 1 − ȳ
b existiert nicht, wenn ȳ = 1 ⇔ yi ≡ 1 ∀i weil L(λ; y) = 1 − e−λ
λ
n
monoton in λ.
Beispiel 2.3 (Lineare Regression)
Y = Xβ + mit

X ∈ Rn,p fest, bekannt 

⇒ Y ∼ Nn (Xβ, σ 2 In )
β ∈ Rp fest, unbekannt


∼ Nn (0, σ 2 In )
Gesucht: Schätzer für β (Satz 8.25)
n
1
1
>
L(β; Y, X) = √
exp − 2 (Y − Xβ) (Y − Xβ)
2σ
2πσ
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
33
L(β; Y, X) maximal ⇔ kY − Xβk2 minimal
⇔ βbML = X + Y
Rg(X) = p < n
=
Verteilung von βbML :
βbML ∼ N β, σ 2 (X > X)−1
(X > X)−1 X > Y
(i.w. Def. 8.23, Satz 8.24).
Beispiel 2.4 (Verallgemeinerte Lineare Regression)
∼ Nn (0, σ 2 V ), V ∈ Rn,n pd.
⇒ Y ∼ Nn (Xβ, σ 2 V ); also Beobachtungen Yi eben nicht unabhängig.
(Satz 8.25)
1
1
>
2
−1
p
L(β; Y, X) = p
exp − (Y − Xβ) (σ V ) (Y − Xβ)
2
(2π)n det(σ 2 V )
L(β; Y, X) maximal ⇔ (Y − Xβ)> (σ 2 V )−1 (Y − Xβ) minimal
Betrachte Y ∗ = R−1 Y
mit σ 2 V = RR>
= R−1 Xβ + R−1 Cholesky-Zerlegung
Cov(Y ∗ ) = R−1 Cov(Y )R−1
>
>
= R−1 RR> R−1 = I
(Y − Xβ)> (σ 2 V )−1 (Y − Xβ) minimal ⇔
(Y ∗ − R−1 Xβ)> (Y ∗ − R−1 Xβ) minimal ⇔
βbML =
=
−1 −1 > ∗
(R X) Y
(R−1 X)> (R−1 X)
!−1
>
−1
−1
X> R
| {zR } X
V −1
=
X > V −1 X
−1
>
X > R−1 ) R−1 Y
|
{z
}
V −1
X > V −1 Y
Beispiel 2.5 (Logistische Regression)
Yi ∼ B(1, pi )
i = 1, . . . , n u.v.
exp x>
1
i β
=
pi =
>
β
1 + exp xi β
1 + exp −x>
i
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
34
mit xi ∈ Rp fest, bekannt und β ∈ Rp unbekannt.
fY (y) =
n
Y
fYi (yi )
i=1
=
n
Y
pyi i (1 − pi )1−yi
i=1
=
n Y
i=1
1
1 + exp(−x>
i β)
yi 1
1−
1 + exp(−x>
i β)
1−yi
= L(β; Y, X)
`(β; Y, X) =
n
X
i=1
yi log
1
1 + exp(−x>
i β)
+ (1 − yi ) log 1 −
1
1 + exp(−x>
i β)
βbML ? Analytisch: Viel Spaß!
Einfacher: optim() in R. Diese Funktion sucht nach Minima, also −`(β; Y, X) (die negative
log-Likelihood) betrachten.
Bemerkung. Sei PX,Θ Fisher-regulär. Dann gilt:
S(ϑ; x) =
∂`(ϑ; x)
∂ϑ
Scorefunktion = Ableitung der log. Likelihoodfkt
ϑb = argmax L(ϑ, x)
⇔
S(ϑ̂; x) = 0
ϑ∈Θ
und
∂S(ϑ; x)
| ∂ϑ
{z }
<0
b
ϑ=ϑ
−I(ϑ;x)
negative Fisher-Information
und wenn L(ϑ; x) ein globales Maximum hat!
Deswegen re-definieren wir ϑb als Lösung von
b x) = 0 mit I(ϑ;
b x) > 0
S(ϑ;
wozu die folgenden Annahmen an PX,Θ gemacht werden
R1) R2) R3) und R4)
sowie
C1)
ϑ1 = ϑ2 ⇔ PX,ϑ1 = PX,ϑ2
C2)
Θ ⊂ R offen, also Θ = (ϑ, ϑ)
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
35
Wenn C1) gilt, heißt ϑ identifizierbar.
X ∼ N (µ, 1) und Y = |X|. Dann ist ϑ nicht identifizierbar, denn nach Beobachtung von
Y führen −ϑ und ϑ zum selben Ergebnis.
Satz 2.4 (Konsistenz des ML-Schätzers)
Sei X = (X1 , . . . , Xn ) u.i.v. mit R1-R4 und C1,C2. Dann existiert eine Folge von Statistiken
ϑbn = tML (X), definiert über S(ϑbn ; x = (x1 , . . . , xn )) = 0 und I(ϑbn , (x, . . . , xn )) > 0 (also
potentiell lokale Maxima der Likelihood) so daß gilt:
P
ϑbn → ϑ
(X ∼ PX,ϑ )
(ϑbn ist schwach konsistent).
Beweis. weiss
Es ist zu zeigen, daß für jedes > 0 die ZV ϑb im Intervall (ϑ − , ϑ + ) liegt. Wegen R4)
ist L(ϑ; X) stetig und diffbar, also langt es zu zeigen daß
n→∞
PX,ϑ (Ln (ϑ − ; X) < Ln (ϑ; X) > Ln (ϑ + ; X)) −→ 1
(Achtung: Ln (ϑ; X) = fX (X = (X1 , .., Xn ); ϑ) hängt von X ab!)
zunächst:
PX,ϑ (Ln (ϑ − ; X) < Ln (ϑ; X))
Ln (ϑ; X)
= PX,ϑ 1 <
Ln (ϑ − ; X)
Ln (ϑ; X)
= PX,ϑ 0 < log
Ln (ϑ − ; X)
Ln (ϑ; X)
1
= PX,ϑ 0 < log
n
Ln (ϑ − ; X)
Für die Folge von ZV
1
log
n
Ln (ϑ; X)
Ln (ϑ − ; X)
Qn
f (Xi ; ϑ)
1
i=1
=
log Qn
n
i=1 f (Xi ; ϑ − )
n
1X
f (Xi ; ϑ)
=
log
n i=1
f (Xi ; ϑ − )
gilt das schwache Gesetz der großen Zahlen, also
1X
f (Xi ; ϑ)
f (Xi ; ϑ)
P
log
→ E log
n
f (Xi ; ϑ − )
f (Xi ; ϑ − )
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
36
Weiterhin gilt:
E log
f (Xi ; ϑ)
f (Xi ; ϑ − )
f (Xi ; ϑ − )
= E − log
f (Xi ; ϑ)
Abschätzung durch Jensen’sche Ungl. wegen strikt log-konvex
f (Xi ; ϑ − )
> − log E
f (Xi ; ϑ)
Z
f (xi ; ϑ − )
= − log
f (xi ; ϑ) dν(xi )
f (xi ; ϑ)
Z
= − log f (xi ; ϑ − ) dν(xi )
|
{z
}
=1
=0
x (ϑ)
>0 →1
und damit PX,ϑ n1 log LLn (ϑ−)
Andere Richtung äquivalent. Damit folgt die Konsistenz.
Bemerkung. Satz 2.4 garantiert nicht die Existenz eines lokalen Maximums, weder für alle
x ∈ X noch n ∈ N.
Korollar 2.5
Es gelten die Annahmen von Satz 2.4; wenn S(ϑbn ; x) = 0 eindeutige Nullstelle ist, so gilt:
P
i) ϑbn → ϑ
f.s.
ii) ϑbn → ϑbML
(d.h. die Lösung der Scoregleichung führt zum Maximum-Likelihood-Schätzer mit
Wahrscheinlichkeit 1 für n → ∞).
Beweis. weiss
i) ⇐ Satz 2.4
ii) S(ϑbn ; x) = 0 kann für ein
a) lokales Maximum oder b) ein lokales Minimum der Likelihood sprechen. Ebenso
c) für einen Sattelpunkt.
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
37
b) und c): Es kann in diesen Fällen kein lokales Maximum geben, ohne die Eindeutigkeit
der Nullstelle zu verletzen. Die Wahrscheinlichkeit, daß kein lokales Maximum
existiert geht mit Satz 2.4 gegen 0.
a) ϑb ist lokales Maximum.
Falls ϑbn 6= ϑbML , dann gäbe es ja L(ϑbML ; x) > L(ϑbn ; x) und insbesondere ein
lokales Minimum im Intervall (ϑbML , ϑbn ), was im Widerspruch zur Eindeutigkeit
der Nullstelle der Scorefunktion steht. ⇒ ϑbn = ϑbML mit Wahrscheinlichkeit 1.
Beispiel 2.6
X = (X1 , . . . , Xn ) Xi ∼ N (µ, σ 2 )
u.i.v.
A) σ 2 = σ02 bekannt
`(µ; x) = log fX (x; µ)
n
Y
1
1
2
√
exp − 2 (xi − µ)
= log
2σ0
2πσ
i=1
√
1 X
= −n log 2π − n log σ0 − 2
(xi − µ)2
2σ0
∂`(µ; x)
∂µ
1 X
!
=
(xi − µ) = 0
2
σ
X0
⇔
(xi − µ) = 0
X
⇔
xi − nµ = 0
1X
1X
⇔
x=µ⇒µ
b=
xi
n
n
S(µ; x) =
Da L(µ; x) maximal wird wenn
X
X
(xi − µ)2 =
(xi − x̄)2 + n(x̄ − µ)2
minimal wird, ist µ
bML = x̄ = µ
b.
B) µ = µ0 bekannt
√
√
1 X
`(σ 2 ; x) = −n log( 2π) − n log σ 2 − 2
(xi − µ0 )2
2σ
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
38
n
1 X
(xi − µ0 )2
+
2
2σ
2σ 4
1
1 X
!
2
=
−n + 2
(xi − µ0 ) = 0
2
2σ
σ
X
1
⇔ 2
(xi − µ0 )2 = n
σ
1X
⇔ σb2 =
(xi − µ0 )2
n
S(σ 2 ; x) = −
eindeutige Lösung ⇒
Alternativ:
σb2 = σb2 ML
n
1 X
S(σ; x) = − + 3
(xi − µ0 )2 = 0
σ
σ
p
⇒ σ
b = σb2
Satz 2.6 (Invarianz des ML-Schätzers)
Seien die Bedingungen von Satz 2.4 erfüllt und g(ϑ) eine stetige parametrische Funktion.
d = g(ϑbn ) ist ein konsistenter Schätzer für g(ϑ).
Dann gilt: g(ϑ)
n
Beweis. weiss
P
P
Aus ϑbn → ϑ folgt mit Satz 9.7 auch g(ϑbn ) → g(ϑ)
d
Bemerkung. Ist g bijektiv (also eine streng monotone Transformation) so gilt g(ϑ)
ML =
b
g(ϑML ).
Bemerkung. Konsistenz ist nicht sehr hilfreich, Informationen über die Verteilung eines
ML-Schätzers sind sehr viel nützlicher.
Beispiel 2.7
X1 ∼ P (λ)
x
f (x; λ) = λx! exp(−λ)
∂ log(f (x;λ))
= λx − 1
∂λ
IX1 (λ) = V( Xλ ) = λ12 V(X) = λ12 λ = λ1
X = (X1 , . . . , Xn ) Xi ∼ P (λ) u.i.v.
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
39
bML = x̄ (Beispiel auf Seite 25) und IX (λ) = P IX (λ) =
λ
1
bML ) = V(X̄) =
V(λ
ZGWS
⇒
⇔
⇔
n
λ
1
λ
nλ = = IX (λ)−1
2
n
n
b −λ D
λ
qML
→ N (0, 1)
b
V(λML )
b −λ D
λ
q ML
→ N (0, 1)
1
−1
I
(λ)
n X1
√
D
bML − λ) →
n(λ
N (0, IX1 (λ)−1 ) = N (0, λ)
Das bedeutet:
ˆ der ML-Schätzer ist asymptotisch erwartungstreu
√
ˆ geeignet skaliert (mit n), sind die Abweichungen vom wahren Parameterwert normalverteilt mit Varianz = der inversen Fisher-Information des wahren Parameters.
Satz 2.7 (Verteilung der Scorefunktion)
Sei X = (X1 , . . . , Xn ) u.i.v. und S(ϑ; X) die zugehörige Scorefunktion. Dann gilt:
1
D
√ S(ϑ; X) → N (0, IX1 (ϑ))
n
Beweis. weiss
u.i.v.
IX1 (ϑ) = V(S(ϑ, X1 )) ⇒ IX (ϑ) = nIX1 (ϑ)
∂ log(fX (X; ϑ))
∂ϑ
n
∂ X
=
log(fXi (Xi ; ϑ))
∂ϑ i=1
S(ϑ, X) =
=
n
X
∂fXi (Xi ;ϑ)
∂ϑ
i=1
f (X ; ϑ)
| Xi {zi }
S(ϑ,Xi )
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
40
E(S(ϑ, Xi )) = 0 ∀ i Satz 1.32
V(S(ϑ, Xi )) = IX1 (ϑ)
1
1
1
V( S(ϑ, X)) = 2 n · IX1 (ϑ) = IX1 (ϑ)
n
n
n
1
S(ϑ,
X)
−
0
ZGWS
D
n
q
⇒
→ N (0, 1)
1
I (ϑ)
n X1
1
D
√ S(ϑ, X) → N (0, IX1 (ϑ))
n
⇔
Satz 2.8 (Quadratische Approximation der Log-Likelihood)
1
`(ϑ; x) ≈ `(ϑbML ; x) − I(ϑbML ; x)(ϑ − ϑbML )2
2
Beweis. weiss
`(ϑ; x)
Taylor
bML
um ϑ
≈
∂`(ϑ; x) b
`(ϑML ; x) +
(ϑ − ϑbML )
∂ϑ ϑ=ϑbML
|
{z
}
bML ,x)=0
S(ϑ
1 ∂ 2 `(ϑ; x) +
(ϑ − ϑbML )2
2
2
∂ ϑ
b
|
{z ϑ=ϑML}
bML ,x)
−I(ϑ
=
Beispiel 2.8
X ∼ B(n, p)
P
pbML = n1
Xi
n
I(p; x) = p(1−p) ;
S(p; x) = xp − n−x
1−p
und − ∂S(p;x)
=
∂p
x
p2
1
`(ϑbML ; x) − I(ϑbML ; x)(ϑ − ϑbML )
2
denn
(Beispiel 1.26)
+
n−x
(1−p)2
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
41
Einsetzen von pbML liefert
n−x
(1 − pbML )2
(1 − pbML )2 x + pb2ML (n − x)
=
pb2ML (1 − pbML )2
pML )
pbML
x
+
(n
−
x)
pbML (1 − pbML ) (1−b
pbML
1−b
pML
=
2
pbML (1 − pbML )2
I(b
pML ; x) =
=
x
pb2ML
+
1−b
pML
x
pbML
+
− x)
pbML (1 − pbML )
n−x+
=
pbML
(n
1−b
pML
x
n
n−x
n
(n − x)
pbML (1 − pbML )
n−x+x
=
pbML (1 − pbML )
n
=
pbML (1 − pbML )
Beachte
`(p; X) − `(b
pML ; X) ≈ −
1
n
(p − pbML )2
2 pbML (1 − pbML )
→ Abb.
Satz 2.9 (asymptotische Normalität des ML-Schätzers)
Sei X = (X1 , . . . , Xn ) u.i.v. mit Verteilungsannahme PX,Θ = {f (x; ϑ) | ϑ ∈ Θ} (Fisherregulär). Weiterhin gelte:
C1, C2 sowie
C3) ∀x ∈ C (Träger von f ) ist f (x; ϑ) mindestens dreimal stetig differenzierbar.
C4) Für den wahren Parameterwert ϑ0 existiert eine Funktion Mϑ0 (x) und eine Konstante
c(ϑ0 ) so daß
3
∂ `(ϑ; x) ∂ 3 ϑ ≤ Mϑ0 (x) ∀x ∈ C, (ϑ − ϑ0 ) < x(ϑ0 )
sowie
Eϑ0 (Mϑ (X)) < ∞.
Dann gilt für jede konsistente Folge von ZV ϑbn = tScore (X) (siehe Satz 2.4)
√
1
D
n(ϑbn − ϑ0 ) → N (0,
)
IX1 (ϑ0 )
wobei 0 < IX1 (ϑ0 ) < ∞
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
42
Beweis. weiss
S(ϑbn ; X)
Taylor
um ϑ0
∂S(ϑ;
X)
S(ϑ0 ; X) + (ϑbn − ϑ0 )
∂ϑ ϑ=ϑ0
2
1 b
2 ∂ S(ϑ; X) + (ϑn − ϑ0 )
2
∂ 2ϑ =
ϑ=ϑ0
Da nach Definition von ϑbn
S(ϑbn ; X) = 0 gilt:
!
2
∂S(ϑ;
X)
∂
S(ϑ;
X)
1
S(ϑ0 ; X) = (ϑbn − ϑ0 ) −
− (ϑbn − ϑ0 )
∂ϑ ϑ=ϑ0 2
∂ 2 ϑ ϑ=ϑ0
⇔ (ϑbn − ϑ0 ) =
− ∂S(ϑ;X)
∂ϑ ϑ=ϑ0
S(ϑ0 ; X)
− 1 (ϑbn − ϑ0 )
2
√
n √
⇔ n(ϑbn − ϑ0 ) =
Nach Satz 2.7 gilt
S(ϑ0 ;X) D
√
→
n
− n1 ∂S(ϑ;X)
∂ϑ ∂ 2 S(ϑ;X) ∂2ϑ √
S(ϑ0 ; X)/ n
− 1 (ϑbn − ϑ0 )
ϑ=ϑ0
2n
ϑ=ϑ0
∂ 2 S(ϑ;X) ∂2ϑ ϑ=ϑ0
N (0, IX1 (ϑ0 )).
1 ∂S(ϑ; X) −
n
∂ϑ ϑ=ϑ0
u.i.v
=
=
=
n
1 X ∂S(ϑ; Xi ) −
n i=1
∂ϑ
ϑ=ϑ0
∂f (xi ;ϑ) n
∂ϑ
1X ∂
ϑ=ϑ0
−
n i=1 ∂ϑ f (xi ; ϑ0 )
1
n
n
X
∂f (xi ;ϑ)
∂ϑ
i=1
f (xi ; ϑ0 )
!2
−
1
n
n
X
i=1
∂ 2 f (xi ;ϑ) ∂2ϑ
ϑ=ϑ0
f (xi ; ϑ0 )
E(S(ϑ0 ; Xi )2 ) = IX1 (ϑ0 ) (Satz 1.32 und Def. 1.33)
und daraus folgt (GdgZ)
1X
P
S(ϑ0 ; Xi )2 → IX1 (ϑ0 )
n
Für den zweiten Term gilt mit R4:
 2

∂ f (xi ;ϑ) Z 2
∂ f (xi ; ϑ)
 ∂ 2 ϑ ϑ=ϑ0 
E
dν(xi ) = 0 mit Xi ∼ PXi = f ν
=
f (xi ; ϑ0 )
∂ 2ϑ
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
43
zusammen folgt
1 ∂S(ϑ; X) P
−
→ IX1 (ϑ0 )
n
∂ϑ
ϑ=ϑ0
Der letzte Term
∂ 2 S(ϑ; X) 1 b
− (ϑn − ϑ0 )
2n
∂ 2 ϑ ϑ=ϑ0
P
∂ 2 S(ϑ;X) geht gegen Null, falls ∂ 2 ϑ beschränkt ist (wegen ϑbn → ϑ0 nach Voraussetzung).
ϑ=ϑ0
1 ∂ 2 S(ϑ; X) 1 X ∂ 3 log(f (xi ; ϑ)) =
n
∂ 2 ϑ ϑ=ϑ0
n
∂ 3ϑ
ϑ=ϑ0
Mit Annahme C4) gilt jedoch
X ∂ 3 log f (xi ; ϑ) ∂ϑ
ϑ=ϑ
X
<
Mϑ0 (xi )
∗
für alle ϑ∗ mit |ϑ∗ − ϑ0 | < c(ϑ0 ) , also insbesondere auch ϑbn .
Zusammen:
√
1
D N (0, IX1 (ϑ0 ))
n(ϑbn − ϑ0 ) →
= N (0,
)
IX1 (ϑ0 )
IX1 (ϑ0 )
Beispiel 2.9
X1 , . . . , Xn u.i.v.
Xi ∼ N (aσ, σ 2 ) , a bekannt.
1
1 X
2
L(σ; x) = √ n exp − 2
(xi − aσ)
2σ
2π σ n
√
1 X
2π + n log(σ) − 2
`(σ, x) = − log
(xi − aσ)2
2σ P
P 2
xi
a xi na2
=
b −n log(σ) −
−
+
2σ 2
σ
2
n
P 2
P
∂`(σ; x)
n
xi
a xi !
=− +
−
=0
3
2
∂σ
σ
σ
σ
P
P
1
x2i
a xi
⇔
−n +
−
=0
σ
σ2
σ
{z
}
|
!
=0
P
⇔
x2i
σ2
−
a
P
σ
xi
=n
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
mit γ :=
44
1
σ
X
x2i − γa
xi = n
P
xi
n
⇔ γ 2 − γa P 2 = P 2
xi
xi
⇔ γ2
X
Nullstellen:
γ =d±
mit d =
also
r
n
P 2 + d2
xi
P
a xi
P 2
2 xi
s
P
P
a2 ( xi )2
1
n
a xi
=γ
b= P 2+ P 2+
P 2
xi
σ
b
2 xi
4 ( x2i )
(andere Nullstelle negativ!)
∂S(σ, X1 )
IX1 (σ) = E −
∂σ


X2
1
∂ − σ1 + σ31 − aX
σ2

= E −
∂σ
1
3X12 2aX1
= E −
− 4 +
σ2
σ
σ3
1
3E(X12 ) 2aE(X1 )
= − 2+
−
σ
σ4
σ3
2
2 2
1
3(σ + a σ ) 2aaσ
= − 2+
− 3
σ
σ4
σ
1
σ 2 3 (1 + a2 ) 2a2
= − 2+
− 2
σ
σ4
σ
1
=
−1 + 3 + a2
σ2
1
2
2
+
a
=
σ2
√
σ2
Satz 2.9
D
⇒
n (b
σ − σ) → N 0,
2 + a2
Satz 2.10
Sei ϑbn Schätzer für ϑ und g eine diffbare parametrische Funktion. Dann gilt
!
2
√ ∂g(ϑ)
D
n g(ϑbn ) − g(ϑ) → N 0,
I−1
X1 (ϑ)
∂ϑ
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
45
Beweis. weiss
Satz 2.9 und Satz 9.16
Bemerkung. ϑ ∈ Rk ;
ϑbn ∈ Rk . Dann gilt (unter Regularitätsbedingungen)
√ D
b
n ϑn − ϑ → Nk 0, I−1
X1 (ϑ)
mit I−1
X1 (ϑ) inverse Fisher-Informationsmatrix, siehe letzte Bemerkung in Abschnitt 1.
Beispiel 2.10
X1 ∼ N (µ, σ 2 )
2
f (x; µ, σ ) =
`(µ, σ 2 ; x) =
∂`(µ, σ 2 ; x)
=
∂µ
∂`(µ, σ 2 ; x)
=
∂σ 2
2
1
1
2
√
exp − 2 (x − µ)
2σ
2πσ
√ 1
2π − log(σ) − 2 (x − µ)2
− log
2σ
1
(x − µ)
σ2
1
1
− 2 + 4 (x − µ)2
2σ
2σ
!
2
2
IX1 (µ, σ ) = E −
∂∂`(µ,σ ;X)
∂µ∂µ
∂∂`(µ,σ 2 ;X)
∂µ∂σ 2
∂∂`(µ,σ ;X)
∂µ∂σ 2
∂∂`(µ,σ 2 ;X)
∂σ 2 ∂σ 2
∂ σ12 (x − µ)
∂∂`(µ, σ 2 ; X)
1
=
=− 2
∂µ∂µ
∂µ
σ
1
2
∂ σ2 (x − µ)
∂∂`(µ, σ ; X)
1
=
= − 4 (x − µ)
2
2
∂µ∂σ
∂σ
σ
1
1
2
∂ − 2σ2 + σ4 (x − µ)2
∂∂`(µ, σ ; X)
=
∂σ 2 ∂σ 2
∂σ 2
1
1
=
− 6 (x − µ)2
4
2σ
σ
!
1
0
σ2
⇒ IX1 (µ, σ 2 ) =
0 2σ1 4
Jetzt X = (X1 , . . . , Xn ) Xi ∼ N (µ, σ 2 ) u.i.v.
`(µ, σ 2 ; x) = −n log σ −
1 X
(xi − µ)2
2σ 2
2.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNG
I
∂`(µ,σ 2 ;x)
∂µ
II
∂`(µ,σ 2 ;x)
∂σ
46
1 X
(xi − µ) = 0
σ2
n
1 X
=− + 3
(xi − µ)2 = 0
σ σ
=
Lösung des Gleichungssystems:
I ⇒ µ
b = x̄
P
in II ⇒ nσ = σ13 (xi − x̄)2
P
⇔ σ̂ 2 = n1 (xi − x̄)2
Achtung: nicht unverzerrt.
⇒
√
n
X̄ − µ
σ̂ 2 − σ 2
!
mit
2
Σ = I−1
X1 (µ, σ ) =
⇒
X̄ und
1
n
1
σ2
0
0
1
2σ 4
D
→ N (0, Σ)
!−1
=
σ2 0
0 2σ 4
!
P
(Xi − X̄)2 sind (asymptotisch) unabhängig.
P
Da σ̂ 2 → σ 2 gilt
und
√ (X̄ − µ) D
n √
→ N (0, 1)
σ̂ 2
(Slutsky)
√ (σ̂ 2 − σ 2 ) D
→ N (0, 1)
n √
2σ̂ 4
(Slutsky)
Satz 2.11
Unter den Annahmen von Satz 2.9 gilt ebenso
√ (ϑbn − ϑ) D
nq
→ N (0, 1)
b
IX1 (ϑn )
√ (ϑbn − ϑ) D
np
→ N (0, 1)
I(ϑ, X)
√ (ϑbn − ϑ)
D
nq
→ N (0, 1)
I(ϑbn , X)
Beweis. weiss
Es langt, die Konsistenz von IX1 (ϑbn ), I(ϑ, X) und I(ϑbn , X) gegen IX1 (ϑ) zu zeigen, die
obigen Behauptungen folgen dann aus Satz 9.7 (Inverse + Wurzel-trafo) und Satz 9.11
2.2. M-SCHÄTZUNG
47
(Slutsky). Bleibt zu zeigen
1
I(ϑ, X)
n
n
1X
I(ϑ, Xi )
n i=1
=
GdgZ
P
→
E (I(ϑ, Xi )) = IX1 (ϑ)
Bemerkung. IX1 (ϑbn ) (erwartete Fisher-Information an der Stelle des ML- Schätzers) und
I(ϑbn , X) (beobachtete Fisher-Information an der Stelle des ML-Schätzers) sind für Daten
X = x berechenbar und somit können die Ergebnisse aus Satz 2.11 direkt und praktisch
für die Approximation der Verteilung des ML-Schätzers angewendet werden.
2.2
M-Schätzung
Beispiel 2.11
√
n
√ −1 !
(X̄ − µ) σ̂ 2
D
√ −1
→
N
(σ̂ 2 − σ) 2σ̂ 4
0,
1 0
0 1
!!
nach Beispiel 2.10. Allerdings war X = (X1 , . . . , Xn ) mit Xi ∼ N (µ, σ 2 ) angenommen
worden. Zwei Fragen kommen auf
1. Ist das Ergebnis auch für andere Verteilungen valide?
2. Kann man die Schätzer X̄ und σ̂ 2 auch ohne genaue Spezifikationen der Normalverteilung herleiten?
Definition 2.12 (M-Schätzer)
Sei X = (X1 , . . . , Xn ) u.i.v. mit Xi ∼ F; Xi ∈ Rp . Sei ψ : Rp × Rk → R eine Funktion, so
daß für den wahren Parameter ϑ gilt:
Z
E ψ(X1 , ϑ) = ψ(x, ϑ) dF(x) = 0
Dann heißt ϑb mit
n
X
i=1
M-Schätzer.
b
ψ Xi , ϑ = 0
2.2. M-SCHÄTZUNG
48
Bemerkung. Die Lösung von E ψ(X1 , ϑ) = 0 ist gleichbedeutend mit dem Minimierungsproblem
Z
ρ(x, ϑ) dF(x) → min !
wobei dann ψ(x, ϑ) = c ·
∂ρ(x,ϑ)
.
∂ϑ
Beispiel 2.12 (Mittelwert)
ψ(x, ϑ) = x − ϑ ⇒ ρ(x, ϑ) = (x − ϑ)2
Z
(x − ϑ)2 dF(x) → min ! ⇔ ϑ = E(X)
denn
Z
Z
(x − ϑ) dF(x) =
!
x dF(x) −ϑ = 0 ⇔ E(X) = ϑ
| {z }
E(X)
Der M-Schätzer für ϑ ist dann gegeben durch die sog. Schätzgleichung
n
X
1X
xi
(xi − ϑ) = 0 ⇔ ϑb =
n
i=1
Achtung: Wir haben keine Annahmen über F gemacht, die Dichte ist nicht notwendig.
Beispiel 2.13 (Median)
ψ(x, ϑ) =




−1 x − ϑ < 0
0



1
x=ϑ
x−ϑ>0
ρ(x, ϑ) = |x − ϑ|
Z
E ρ(X1 , ϑ) =
|x − ϑ| dF(x) → min !
⇔ ϑ = Med(F)
und
n
X
ρ(xi , ϑ) =
X
|xi − ϑ| → min ⇔
i=1
ϑb = Med(x1 , . . . , xm )
2.2. M-SCHÄTZUNG
49
Beispiel 2.14 (ML-Schätzung)
Sei f Dichte von Fϑ und
−∂ log f (x; ϑ)
∂ϑ
(Achtung: ψ hängt von F über die Dichte ab)
ψ(x, ϑ) =
ρ(x, ϑ) = − log f (x; ϑ)
und ϑb ist gegeben durch die Minimierung von
n
X
ρ(xi , ϑ) = −
i=1
n
X
log (f (xi ; ϑ)) =
b log-Likelihood
i=1
bzw. die Lösung der Scoregleichungen
−
n
X
∂ log f (xi ; ϑ)
i=1
∂ϑ
!
= −S(X, ϑ) = 0
Satz 2.13
Sei X = (X1 , . . . , Xn ); ψ(x, ϑ) monoton in ϑ und in ϑ stetig. Dann gilt für die Lösung der
Schätzgleichung ϑbn :
n
X
!
ψ(Xi , ϑ) = 0
i=1
P
ϑbn → ϑ.
Beweis. weiss
Sei
Z
g(ϑ) =
ψ(x, ϑ) dF(x) und
n
gn (ϑ) =
GdgZ
1X
ψ(Xi , ϑ)
n i=1
P
⇒ gn (ϑ) → g(ϑ) ∀ ϑ
Sei > 0. Wenn ψ monoton steigend in ϑ ist und ϑ0 eine eindeutige Lösung von g(ϑ0 ) = 0
dann gilt:
g(ϑ0 − ) < 0 < g(ϑ0 + )
P
Da gn (ϑ0 ± ) → g(ϑ0 ± ) folgt das Ergebnis.
2.2. M-SCHÄTZUNG
50
Satz 2.14 (asymptotische Normalität des M-Schätzers)
√ D
n ϑbn − ϑ0 → N (0, V (ϑ0 ))
Beweis. weiss
(Skizze)
n
1X
ψ(Xi , ϑ)
gn (ϑ) :=
n i=1
Taylor
∂gn (ϑ) b
um ϑ0
b
(ϑn − ϑ0 ) + Rest
0 = gn (ϑn ) = gn (ϑ0 ) +
∂ϑ ϑ0
!−1
√ √
∂g
(ϑ)
n
⇔ n ϑbn − ϑ0 ∼
ngn (ϑ0 )
=−
∂ϑ ϑ0
0
∂ψ(x,ϑ)
der Gradient von ψ. Damit gilt:
,
.
.
.
,
Sei ψ (x, ϑ) = ∂ψ(x,ϑ)
∂ϑ1
∂ϑk
∂gn (ϑ) −
∂ϑ ϑ0
=
GdgZ
P
√
n
1 X 0
−ψ (Xi , ϑ0 )
n i=1
→
0
E −ψ (X1 , ϑ0 ) =: A(ϑ0 )
=
1 X
√
ψ(Xi , ϑ0 )
n i=1
n
ngn (ϑ0 )
ZGWS
D
→
N (0, B(ϑ0 ))
mit B(ϑ0 )
=
E ψ(X1 , ϑ0 ) ψ(X1 , ϑ0 )>
|
{z
}
√ ⇒
n ϑbn − ϑ0
D
Cov(ψ(X1 ,ϑ0 ))
Slutsky
→
=
√
A(ϑ0 )−1 ngn (ϑ0 )

>

Nk 0, A(ϑ0 )−1 B(ϑ0 )A(ϑ0 )−1 
|
{z
}
=:V (ϑ0 )
Bemerkung.
>
A(ϑ0 )−1 B(ϑ0 ) A(ϑ0 )−1 =
| {z } | {z } | {z }
Brot
Schinken

Brot
V (ϑ0 )
| {z }
Sandwich-Matrix
2.2. M-SCHÄTZUNG
51
Satz 2.15 (Sandwich Schätzer)
P
b ϑbn )−1 B(
b ϑbn )A(
b ϑbn )−1 > →
Vb (ϑbn ) = A(
V (ϑ0 )
mit
n
X
∂ψ(Xi , ϑbn )
b ϑbn ) = 1
−
A(
n i=1
∂ ϑbn
n
X
>
b ϑbn ) = 1
ψ(Xi , ϑbn )ψ(Xi , ϑbn )
B(
n i=1
Beweis. weiss
∂ψ(Xi , ϑ)
E −
= A(ϑ)
∂ϑ
n
X
∂ψ(Xi , ϑ) P
GdgZ 1
⇒
−
→ A(ϑ)
n i=1
∂ϑ
Satz 9.7
⇒
P
A(ϑbn ) → A(ϑ)
Bemerkung. Falls
∂ log f (x; ϑ)
(=
b ML-Schätzer)
∂ϑ
∂S(ϑ, X1 )
A(ϑ) = E
= −IX1 (ϑ)
∂ϑ
ψ(x; ϑ) = −
ist
und
B(ϑ) = E S(ϑ, X1 )2 = IX1 (ϑ)
und somit
V (ϑ) = IX1 (ϑ)−1
(vgl. Satz 2.9)
Kapitel 3
Inferenzkonzepte
3.1
Parametertests
Beispiel 3.1
X = (X1 , . . . , Xn ) u.i.v. Xi ∼ N (µ, σ 2 )
µ̂ = X̄
x = (1, 1.5, 0.5, 2.7, −0.3) ⇒ µ̂ = x̄ = 1.08
P (X̄ = µ) = 0 (stetige Verteilung)
Wie groß ist die wahrscheinliche Abweichung des wahren µ von µ̂? Können wir eine Entscheidung treffen, ob µ ≤ 0 oder µ > 0?
Definition 3.1 (Testproblem)
Sei ϑ ∈ Rk Parameter und Θ ⊂ Rk der zugehörige Parameterraum. Dann heißt
H0 : ϑ ∈ Θ0
vs. H1 : ϑ ∈ Θ1
mit Θ = Θ0 ∪ Θ1 , Θ0 ∩ Θ1 = ∅, Θ0 6= ∅, Θ1 6= ∅
Statistisches Testproblem. H0 heißt (Null)hypothese, H1 Alternative.
Beispiel 3.2 (einfaktorielle Varianzanalyse)
vgl. Beispiel 1.7
µ = g(ϑ) = µB − µA ∈ R = Θ
52
3.1. PARAMETERTESTS
53
H0 : µ ≤ 0
Θ0 = R \ R+
H1 : µ > 0
Θ1 = R+
)
Düngemittel B
ist besser als A
)
vs.
Düngemittel A
=
b ist besser als B
oder gleichgut
Testproblem
Schlußfolgerung
Entscheidung
=
b kaufe A
kaufe B
Handlung
Beispiel 3.3 (Lineare Regression)
Yi = β0 + β1 xi + i i ∼ N (0, σ 2 ) u.i.v.
H0 : β1 = 0
Θ0 = {0}
H1 : β1 6= 0
Θ1 = R \ {0}
vs.
=
b x wirkt nicht auf y
x wirkt auf y
(positiv oder negativ)
Definition 3.2 (einfache, einseitige und zweiseitige Hypothesen)
H0 : ϑ ∈ Θ0 vs. H1 : ϑ ∈ Θ1
|Θ0 | = 1 ⇔: einfache Hypothese“, sonst: zusammengesetzte Hypothese“
”
”
|Θ1 | = 1 ⇔: einfache Alternative“, sonst: zusammengesetze Alternative“
”
”
Bei skalaren Parametern unterscheidet man noch


 H0 : ϑ ≤ ϑ0 vs. H1 : ϑ > ϑ0 ”rechtsseitige

einseitiges 
Alternative“
Testproblem 
H0 : ϑ ≥ ϑ0 vs. H1 : ϑ < ϑ0
linksseitige


”

Altervative“
zweiseitiges
Testproblem
H0 : ϑ = ϑ0
vs.
H1 : ϑ 6= ϑ0
Definition 3.3 (statistischer Test)
φ : X → {0, 1} (meßbar)
heißt nichtrandomisierter Test. ( X Stichprobenraum)
φR : X → [0, 1] (meßbar)
heißt randomisierter Test.
3.1. PARAMETERTESTS
54
Bemerkung.
φ ◦ X ist wieder ZV.
φ(x) für Beobachtungen X = x meint:
φ(x) = 1 . . . ϑ ∈ Θ1 ( lehne H0 ab“)
”
φ(x) = 0 . . . ϑ ∈ Θ0 ( lehne H0 nicht ab“)
”
φR (x) = π meint: lehne H0 mit Wahrscheinlichkeit π ab, also
φ(x) ∼ B(1, φR (x))
Definition 3.4 (kritischer Bereich)
K := {x ∈ X | φ(x) = 1}
heißt kritischer Bereich oder Ablehnbereich.
K heißt Annahmebereich.
Bemerkung.

1 x ∈ K
φ(x) =
=
0 x ∈ K
IK (x)
Definition 3.5 (Fehlerarten)
ϑ ∈ Θ0 , φ(x) = 1 . . . Fehler erster Art
ϑ ∈ Θ1 , φ(x) = 0 . . . Fehler zweiter Art
Definition 3.6 (Gütefunktion)
βφ (ϑ) := PX,ϑ (φ(X) = 1)
Z
= Eϑ φ(X) = φ(x) dPX,ϑ (x)
heißt Gütefunktion des Tests φ. Diese Funktion beschreibt die Wahrscheinlichkeit, die Nullhypothese H0 : ϑ ∈ Θ0 abzulehnen für eine Stichprobe X = (X1 , . . . Xn ) aus der Verteilung
PX,ϑ .
Beispiel 3.4 (Erwartungswert einer Normalverteilung)
X ∼ N (µ, 1) ... nur eine Beobachtung
3.1. PARAMETERTESTS
H0 : µ ≤ 0
vs.
55
H1 : µ > 0

1 x > 1.645
φ(x) :=
0 x ≤ 1.645
⇔ K = (1.645, ∞)
βφ (µ) = Pµ (X > 1.645) = 1 − Pµ (X ≤ 1.645)
= 1 − Φµ (1.645)
→ Abb.
βφ (µ) ist monotone Funktion in µ und βφ (0) = 0.05 ist die Wahrscheinlichkeit, die Nullhypothese H0 : µ ≤ 0 zu verwerfen, obwohl sie (gerade noch) richtig ist =
b Wahrscheinlichkeit
für den Fehler erster Art.
Für µ > 0 ist βφ (µ) die Wahrscheinlichkeit, die Nullhypothese richtigerweise zu verwerfen
=
b 1− Wahrscheinlichkeit für den Fehler zweiter Art.
Definition 3.7 (Niveau-α-Test)
Ein Test φ mit der Eigenschaft
βφ (ϑ) ≤ α ∀ ϑ ∈ Θ0
heißt Niveau-α-Test. D.h., die Wahrscheinlichkeit für den Fehler erster Art ist maximal
α ∈ (0, 1).
Definition 3.8 (Macht, Power)
βφ (ϑ) ∀ ϑ ∈ Θ1
heißt Macht oder Powerfunktion des Tests.
Beispiel 3.5 (Binomialtest)
X = (X1 , . . . , Xn ) Xi ∼ B(1, p) u.i.v.
P
P
⇒ Xi ist suffizient für p und
Xi ∼ B(n, p)
H0 : p ≤ p0 vs. H1 : p > p0 (einseitiger TP)
Idee: Lehne ab, wenn
P
Xi zu groß ist, als daß p ≤ p0 plausibel wäre.
Nichtrandomisierter Test:
φ
X
xi

1 P x > k “zu groß“
i
=
P
0
xi ≤ k “zu klein“
3.1. PARAMETERTESTS
56
Wir hätten gern, daß
βφ (p) ≤ α für alle p ≤ p0
X X
Pp φ
Xi = 1 = Pp
Xi > k
Wegen der Monotonie in p muß also für einen Niveau-α-Test gelten:
X
X
Pp o
Xi > k = 1 − Pp 0
Xi ≤ k ≤ α
|
{z
}
FB(n,po ) (k)
P
Achtung: Das tatsächliche Niveau ist Ppo ( Xi > k), was in der Regel kleiner als α ist.
Randomisierter Test:
φR
X
xi =
X




1
γ



0
P
xi > k
P
xi = k
P
xi < k
>0
βφ (p) = Pp φR
Xi
X
X
!
= Pp
Xi > k + γPp
Xi = k = α
Konstruktion: Bestimme k wie für den nichtrandomisierten Test und dann aus obiger
Beziehung γ.
n = 15,
p0 = 41 ,
α = 0.1 ⇒
Xi > 6 = 0.0566 < α
X
P1/4
Xi > 5 = 0.148 > α
P
α − P1/4 ( Xi > 6)
P
γ=
= 0.4728
P1/4 ( Xi = 6)
k = 6, dann
P1/4
X
Beispiel 3.6 (einfacher Gauß-Test)
X = (X1 , . . . , Xn ) u.i.v. Xi ∼ N (µ, σ02 ) σ02 bekannt.
H0 : µ ≤ µ0
Idee:
P
vs. H1 : µ > µ0
Xi ist suffizient für µ, benutze Test der Form

1 x̄ > k
φ(x̄) =
0 x̄ ≤ k
3.1. PARAMETERTESTS
57
(Achtung: P(X̄ = k) = 0!)
βφ (µ) = Pµ X̄ > k


X̄ − µ
k−µ
= Pµ  q 2 > q 2 
σ0
n
σ0
n
√ k−µ
n
= 1−Φ
σ0
monoton wachsend in µ
Konstruktion Niveau-α-Test:
√
k − µ0
α=1−Φ
n
σ0
√ k − µ0
⇔ 1−α=Φ
n
σ0
−1
Φ (1 − α) · σ0
√
⇔
+ µ0 = k
n
Somit kann die Gütefunktion auch geschrieben werden als


Φ−1 (1−α)
√
σ 0 + µ0 − µ
√
n

βφ (µ) = 1 − Φ  n
σ0




√ µ0 − µ

−1

= 1 − Φ
n
+
Φ
(1
−
α)


|
{z
}
σ
0


| {z }
<0 für
µ>µ0 =H
b 1
|
|
konstant, >0 für
α<0.5 (sinvoll)
{z
wird klein für größere Differenzen
von µ − µ0 und für größere
Stichprobenumfänge n.
{z
wird groß, wenn µ − µ0 groß
wird und n wächst.
}
}
Definition 3.9 (Bester Test)
Seien φ und φ∗ Niveau-α-Test für das TP H0 vs. H1 . Dann heißt φ mindestens so gut wie
φ∗ wenn gilt:
βφ (ϑ) ≥ βφ∗ (ϑ) ∀ ϑ ∈ Θ1 .
Gilt diese Beziehung für alle beliebigen Niveau-α-Tests φ∗ , so heißt φ gleichmäßig bester
Test (uniformly most powerful, UMP).
Definition 3.10 (Unverfälschter Test)
Ein Niveau-α-Test φ heißt unverfälscht, wenn gilt
βφ (ϑ0 ) ≤ βφ (ϑ1 ) ∀ ϑ0 ∈ Θ0 und ϑ1 ∈ Θ1
3.1. PARAMETERTESTS
58
Ein Niveau-α-Test φ heißt gleichmäßig bester unverfälschter (auch: unverzerrter) Test,
wenn er gleichmäßig bester Test unter allen unverfälschten Niveau-α-Tests ist.
Beispiel 3.7 (Einstichproben t-Test)
X = (X1 , . . . , Xn ) u.i.v. Xi ∼ N (µ, σ 2 )
H0 : µ ≤ µ0 v.s. H1 : µ > µ0
n
n
P
P
1
Xi σ̂ 2 = n−1
(Xi − X̄)2
µ̂ = n1
i=1
i=1
Idee:

)
1 √n (µ̂−µ
√ 0 > t1−α
σ̂ 2
φ=
0 sonst
Gesucht: Verteilung von
T =
Exakt:
√ µ̂ − µ0
n √
σ̂ 2
D
(klar: → N (0, 1))
√
T =v
u
u 1
u n−1
t
0
n X̄−µ
∼ N (0, 1)
σ
n−1 1 X
·
(Xi − X̄)2
2 n−1
σ
{z
}
|
Zähler und Nenner stu
∼χ2n−1
P
n−1 2
(Xi − X̄)2
σ̂
=
2
σ2
P σ
(Xi − µ)2 − n(X̄ − µ)2
=
σ2
2 

=
2
X  Xi − µ 
√

 −  n X̄ − µ  ∼ χ2n−1



 σ 
| {z }
| {zσ }
∼N (0,1)
|
{z
∼N (0,1)
}
∼χ2n
|
{z
}
∼χ21
X̄ und σ̂ 2 sind stu
Betrachte

 
X1 − X̄
1−

 
..
Z = 
=
.
− n1
Xn − X̄


1


= In − · 1n 1>
nX
n{z
|
}
=:M
1
n
..
− n1


X
.
1−
1
n
3.1. PARAMETERTESTS
59
Z
X̄
Cov
Z
X̄
!
=
!
= σ2
1
n
M
1>
n
M
1 >
1
n n
!
X
!
In



= 


M
1 >
1
n n

M2
0 ···0
!>
0
.. 
. 


0 
1
n
⇔ Z und X̄ stu
1
Z > Z = σ̂ 2 und X̄ stu
⇒ n−1
8.38
⇒ T ∼ tn−1
D.h. t1−α ist das 1-α-Quantil der t-Verteilung mit n − 1 Freiheitsgraden.
Definition 3.11 (Teststatistik)
Für Tests der Form

1 T (X) > k
φ(X) =
0 T (X) ≤ k
heißt die Statistik T : X → R Teststatistik und deren Verteilung unter den Bedingungen
der Nullhypothese PΘ0 (T (X) ≤ k) Prüfverteilung.
Definition 3.12 (Konfidenzintervall)
Die Funktion C : X → R2 , x 7→ C(x) = [C(x), C(x)] heißt Konfidenzintervall für ϑ zum
Niveau 1 − α falls gilt
Pϑ (ϑ ∈ C(X)) = Pϑ (C(X) ≤ ϑ ≤ C(X)) ≥ 1 − α
∀ ϑ ∈ Θ.
Bemerkung. C(X) ist eine bivariate ZV, also ein zufälliges Intervall, welches den festen
wahren Parameterwert ϑ mit Wahrscheinlichkeit 1 − α überdeckt.
Definition 3.13 (Gütekriterien für Konfidenzintervalle)
Ein Konfidenzintervall C(X) heißt unverzerrt (unbiased), wenn gilt
Pϑ (ϑ∗ ∈ C(X)) ≤ Pϑ (ϑ ∈ C(X))
∀ϑ∗ 6= ϑ
Ein Konfidenzintervall C(X) ist besser als ein Konfidenzintervall C̃(X) (beide zum Niveau
1 − α) wenn
Eϑ (C(X) − C(X)) < Eϑ (C̃(X) − C̃(X))
d.h., wenn die erwartete Länge kleiner ist.
3.2. WALD-, LIKELIHOOD-QUOTIENTEN- UND SCORE-TEST
Beispiel 3.8
X = (X1 , . . . , Xn )
Xi ∼ N (µ, σ02 )
u.i.v.
√ X̄ − µ
∼ N (0, 1)
n
σ
0
√ X̄ − µ
Pµ
uα/2 ≤ n
≤
σ0
|{z}
⇒
⇔
60
=Φ−1 (α/2)
=−u1−α/2
u1−α/2
| {z }
=1−α
=Φ−1 (1−α/2)
−u1−α/2 σ0
u1−α/2 σ0
√
Pµ
=1−α
≤ X̄ − µ ≤ √
n
n
u1−α/2 σ0
u1−α/2 σ0
=1−α
Pµ X̄ − √
≤ µ ≤ X̄ + √
n
n
⇔
⇔
⇒
C(X) = X̄ ±
u1−α/2 σ0
√
n
ist Konfidenzintervall zum Niveau 1 − α.
u1−α/2 σ0
u1−α/2 σ0
E C(X) − C(X) = E X̄ + √
− X̄ − √
n
n
u1−α/2 σ0
= 2· √
n
Beispiel 3.9
X = (X1 , . . . , Xn ) u.i.v.
n
P
σ̂ 2 = n1 (Xi − µ0 )2
i=1
P
Xi −µ0 2
nσ̂ 2
=
∼ χ2n
2
σ
σ
Xi ∼ N (µ0 , σ 2 )
⇒ C(X) =
3.2
nσ̂ 2
χ2n,1−α/2
,
⇒
Pσ 2
⇔
Pσ 2
nσ̂ 2
χ2n,α/2
nσ̂ 2
2
≤ 2 ≤ χn,1−α/2 = 1 − α
σ
!
nσ̂ 2
nσ̂ 2
2
≤σ ≤ 2
=1−α
χ2n,1−α/2
χn,α/2
χ2n,α/2
ist 1 − α Konfidenzintervall für σ 2 .
Wald-, Likelihood-Quotienten- und Score-Test
Satz 3.14 (Wald-Test)
Sei X = (X1 , . . . , Xn ) u.i.v. und ϑbn ein Schätzer für ϑ mit der Eigenschaft
√ D
b
n ϑn − ϑ → N 0, I−1
X1 (ϑ)
3.2. WALD-, LIKELIHOOD-QUOTIENTEN- UND SCORE-TEST
Dann ist der Test
mit W (X) =
√
61

1 |W (X)| ≥ u
1−α/2
φW (X) =
0 sonst
n qϑn−1−ϑ0
b
IX (ϑ0 )
(Wald-Teststatistik) ein approximativer Niveau-α-Test für das
1
Testproblem
H0 : ϑ = ϑ0
vs. H1 : ϑ 6= ϑ0
Beweis. weiss
D
W → N (0, 1)
⇒ Pϑ (φW (X) = 1)
n→∞
≈
1 − Pϑ −u1−α/2 ≤ N (0, 1) ≤ u1−α/2
=
α
Bemerkung. Statt IX1 (ϑ0 ) kann, in Analogie zu Satz 2.11 auch IX1 (ϑbn ), I(ϑbn , X) etc. eingesetzt werden.
Bemerkung.
"
u1−α/2
u1−α/2
, ϑbn + p
ϑbn − p
nIX1 (ϑ0 )
nIX1 (ϑ0 )
#
ist ein approximatives Konfidenzintervall zum Niveau 1 − α.
Bemerkung. Für H0 : ϑ ≤ ϑ0 vs. H1 : ϑ > ϑ0 lautet der einseitige Wald-Test

1 W ≥ u
1−α
φ=
0 sonst
Definition 3.15 (Likelihood-Quotienten-Test)
Ein Test basierend auf der Teststatistik
LQ(X) =
L(ϑbn ; X)
max L(ϑ; X)
ϑ∈Θ0
heißt Likelihood-Quotienten-Test für
H0 ; ϑ ∈ Θ0
vs. H1 : ϑ ∈ Θ1
3.2. WALD-, LIKELIHOOD-QUOTIENTEN- UND SCORE-TEST
62
Satz 3.16 (Verteilung von LQ)
D
2 log (LQ(X)) → χ21
Beweis. weiss
(hier nur für H0 : ϑ = ϑ0 )
log (LQ(X)) =
2.8
∼
=
=
b
` ϑn , X − ` (ϑ0 , X)
2 1 b
b
b
b
` ϑn , X − ` ϑn , X − I ϑn , X ϑ0 − ϑn
2
2
1
I ϑbn , X ϑ0 − ϑbn
2
|
{z
}
2
D
q (ϑbn −ϑ0 )
→N (0,1)
∼χ21
−1 b
I (ϑn , X)
|
{z
}
=W (X)
D
⇒ 2 log LQ(X) → χ21
Bemerkung. W (X)2 und 2 log(LQ(X)) konvergieren gegen dieselbe Grenzverteilung, also
sind beide Tests asymptotisch äquivalent.
Beispiel 3.10
X1 , . . . , Xn u.i.v. Xi ∼ N (µ, 1)
H0 : µ = 0v.s.H1 : µ 6= 0 µ̂ML = X̄
n
√
1X
`(µ; X) = −
(xi − µ)2 − n log( 2π)
2 i=1
2 log(LQ(x)) = 2 (`(µ̂ML ; x) − `(µ0 ; x))
!
n
n
X
1X
1
= 2 −
(xi − x̄)2 +
x2
2 i=1
2 i=1 i
X
X
=
x2i −
(xi − x̄)2
= nx̄2

1 nx̄2 > χ2
1−α,1
φLQ (X) =
0 sonst
3.2. WALD-, LIKELIHOOD-QUOTIENTEN- UND SCORE-TEST
W (X) =
√
63
n|X̄| und somit

1 √n|x̄| > u
1−α/2
φW (x) =
0 sonst
(da IX1 (µ) = 1)
⇒ LQ ≡ W 2 in diesem speziellen Fall.
Definition 3.17 (Score-Test, LM-Test)
Ein Test basierend auf der Teststatistik
S(ϑ0 , X)
LM(X) = p
n · IX1 (ϑ0 )
heißt Score-Test oder Lagrange-Multiplier-Test für H0 : ϑ = ϑ0
Satz 3.18 (Verteilung von LM)
D
LM(X) → N (0, 1)
Beweis. weiss
1
D
√ S(ϑ0 , x) → N (0, IX1 (ϑ0 ))
n
(Satz 2.7)
S(ϑ0 , X) D
→ N (0, 1)
⇒ p
nIX1 (ϑ0 )
| {z }
=LM(X)
Beispiel 3.11 (Logistische Verteilung)
X1 , . . . , Xn u.i.v. mit Dichte
f (x; µ) =
Testproblem: H0 : µ = µ0
exp(µ − x)
(1 + exp(µ − x))2
vs. H1 : µ 6= µ0 .
vs.
H1 : ϑ 6= ϑ0 .
3.2. WALD-, LIKELIHOOD-QUOTIENTEN- UND SCORE-TEST
L(µ; X) =
n
Y
i=1
`(µ; X) =
n
X
64
exp(µ − xi )
(1 + exp(µ − xi ))2
(µ − xi ) − 2 log (1 + exp(µ − xi ))
i=1
S(µ; X) = n − 2
n
X
i=1
⇔
n
=
2
n
X
i=1
exp(µ − xi )
1 + exp(µ − xi )
exp(µ − xi )
(keine geschlossene Lösung)
1 + exp(µ − xi )
1
IX1 (ϑ) = (ohne Beweis) siehe Lehmann (2001)
3
!
r
n
X
3
exp(µ0 − xi )
LM(X) =
n−2
n
1 + exp(µ0 − xi )
i=1
Achtung: Der ML-Schätzer muß nicht explizit berechnet werden!
Satz 3.19 (asymptotische Äquivalenz von W und LM)
P
LM(X) − W (X) → 0
Beweis. weiss
√
n(ϑbn − ϑ0 ) =
− n1
∂S(ϑ;X) ∂ϑ √
S(ϑ0 ; X)/ n
− 1 (ϑbn − ϑ0 )
ϑ=ϑ0
2n
nach Satz 2.9 und damit
√
p
√
S(ϑ0 ; X)/ n P
n(ϑ − ϑ0 ) · IX1 (ϑ0 ) − p
→0
{z
}
|
IX1 (ϑ0 )
|
{z
}
=W (X)
=LM(X)
Beispiel 3.12
X ∼ B(n, 0.7), x ≡ 0.7 · n H0 : π = π0 = 0.5
Betrachte normierte Log-Likelihood
˜ x) = `(π; x) − `(π̂; x)
`(π;
= `(π; 0.7 · n) − `(0.7; 0.7 · n)
|
{z
}
konstant
∂ 2 S(ϑ;X) ∂2ϑ ϑ=ϑ0
3.3. BAYES-INFERENZ
65
⇒ 2 log(LQ(x)) = 2 (`(π̂; x) − `(π0 ; x))
˜
˜
= 2 `(π̂, x) − `(π0 , x)
= 2 (`(π̂; x) − `(π̂; x) − (`(π0 ; x) − `(π̂; x)))
= 2 (`(π̂; x) − `(π0 ; x))
→
Abb. LQ Test
Abb. Wald Test
Abb. LM Test
Bemerkung. Der LM-Test heißt LM-Test, da die unter H0 restringierte ML-Schätzung (H0 :
ϑ = ϑ0 ) die Maximierung der Funktion
`∗ (ϑ, x) = `(ϑ; x) − λ(ϑ − ϑ0 )
∂`∗ (ϑ; x)
!
= S(ϑ; x) − λ = 0
⇔
∂ϑ
⇔ S(ϑ; x) = λ
bedeutet und also die Teststatistik S(ϑ0 ; x) gleich dem Lagrange-Multiplikator λ ist.
3.3
Bayes-Inferenz
Definition 3.20 (Priori-Verteilung)
Sei ϑ ∼ Pϑ mit Dichte fϑ (ϑ) eine ZV. Pϑ heißt Priori-Verteilung.
Definition 3.21 (Posteriori-Verteilung)
Sei X ∼ PX|ϑ eine ZV mit auf ϑ = ϑ bedingter Verteilung und X = x eine Realisation von
X. Dann heißt die Dichte der bedingten Verteilung von ϑ gegeben X = x
fϑ|X=x (ϑ|X = x) = R
fX|ϑ (x|ϑ) · fϑ (ϑ)
fX|ϑ (x|ϑ)fϑ (ϑ) dν(ϑ)
Posteriori-Dichte und die bedingte Verteilung ϑ|X = x Posteriori-Verteilung.
Bemerkung.
Z
Z
fX|ϑ (x|ϑ) fϑ (ϑ) dν(ϑ) =
fX,ϑ (x, ϑ) dν(ϑ)
= fX (x)
Bemerkung.
fX|ϑ (x|ϑ) = L(ϑ; x)
3.3. BAYES-INFERENZ
66
Definition 3.22 (Posteriori-Punktschätzer)
Posteriori-Erwartungswert:
Z
E(ϑ|X = x) =
ϑ fϑ|X (ϑ|X = x) dν(ϑ)
Posteriori-Modus:
Mod(ϑ|X = x) = argmax fϑ|X (ϑ|X = x)
ϑ
Posteriori-Median
Median(ϑ|X = x)
Definition 3.23 (Kredibilitätsintervall)
Ein Intervall [b, b] mit
Z
fϑ|x (ϑ|x) dν(ϑ) = 1 − α
[b,b]
heißt (1 − α)-Kredibilitätsintervall. Gilt weiterhin
fϑ|X=x (ϑ|X = x) ≥ fϑ|X=x (ϑ∗ |X = x)
/ [b, b]
∀ϑ ∈ [b, b] und ϑ∗ ∈
so heißt [b, b]
highest posterior density interval“ HPD- Intervall.
”
Beispiel 3.13
X = (X1 , . . . , Xn )
µ ∼ N (ν, ρ2 )
u.i.v.
Xi ∼ N (µ, σ02 )
1
1
2
fµ (µ) = √
exp − 2 (µ − ν)
2ρ
2πρ
n
1 X
2
fX|µ (x|µ) =
exp − 2
(xi − µ)
2σ0
!
n
n
1
1 X
1
2
2
√
exp − 2
=
(xi − x̄) · exp − 2 n(x̄ − µ)
2σ0 i=1
2σ0
2πσ0
1
√
2πσ0
3.3. BAYES-INFERENZ
67
c(σ02 , x)
⇒ fµ|X=x (µ|x) =
| {z }
Normalisierungskonstante
1
n
exp − 2 (x̄ − µ)2 − 2 (µ − ν)2
2σ0
2ρ
2 !
2
2
2
2
x̄ρ
+
νσ
/n
ρ
+
σ
/n
0
µ− 2
⇒ fµ|X=x (µ|x) = c(σ02 , x) · exp − 2 20
2ρ σ0 /n
ρ + σ 2 /n
2
x̄ρ + νσ02 /n ρ2 σ02 /n
,
⇒ µ|X = x ∼ N
ρ2 + σ02 /n ρ2 + σ02 /n
σ02 /n
ρ2
x̄
+
ν
⇒ µ̂ = 2
ρ + σ02 /n
ρ2 + σ02 /n
ist Posteriori-Erwartungswert und Median
ρ2 groß gegenüber σ02 −→ µ̂ ≈ x̄
ρ2 → 0
−→ µ̂ ≈ ν
σ02
n
−→ µ̂ ≡ 12 (x̄ + ν)
s
s
#
"
ρ2 σ02 /n
ρ2 σ02 /n
, µ̂ + u1−α/2
µ̂ − u1−α/2
ρ2 + σ02 /n
ρ2 + σ02 /n
ρ2 ≈
ist (1 − α)-Kredibilitätsintervall.
Beispiel 3.14
X ∼ B(n, p)
p ∼ Be(α, β)
fp (p) =
1
pα−1 (1 − p)β−1 0 < p < 1
B(α, β)
n x
fX|p (x) =
p (1 − p)n−x
x
fp|X=x (p|X = x) = c(x, α, β) px (1 − p)n−x pα−1 (1 − p)β−1
= c(x, α, β) p(x+α−1) (1 − p)(β+n−x−1)
⇒ p|X = x ∼ Be(α + x, β + n − x)
E(p|X = x)
=
=
α+x
α+β+n
α+β
α
n
x
·
+
·
α + β + n α + β α + β + n |{z}
n
| {z }
E(p)
n→∞
→
x
n
p̂ML
3.3. BAYES-INFERENZ
68
⇒ fp (p) = 1 ⇔ p ∼ U [0, 1]
x+1
E(p|X = x) =
n+2
α + x − 1 α=β=1 x
=
= p̂ML
Mod(p|X = x) =
α+β+n−2
n
α=β=1
Satz 3.24
fϑ (ϑ) = const ⇒
Mod(ϑ|X = x) = ϑbML
Beweis. weiss
fϑ|X=x (ϑ|X = x) hängt nicht von ϑ ab, also
Mod(fϑ|X ) = Mod(fX|ϑ )
= ϑbML
Satz 3.25
Sei ϑ ∈ Θ, Θ höchstens abzählbar, also Θ = {ϑ1 , ϑ2 , . . .}. Sei ϑt der wahre Parameter (also
Xn ∼ PXn ,ϑt , wobei Xn die n-dimensionale Stichprobe ist). Dann gilt
lim f (ϑt | Xn = x) = 1 und
n→∞
lim f (ϑi | Xn = x) = 0 ∀i 6= t
n→∞
Beweis. weiss
Es gilt
f (Xn |ϑt )
E log
> 0 ∀i 6= t
f (Xn |ϑi )
|
{z
}
Kullback-Leibler-Distanz
3.3. BAYES-INFERENZ
69
weiterhin
f (ϑi |Xn = x)
=
f (ϑi )=pi
=
=
=
=
n
X
f (x|ϑi )f (ϑi )
f (x)
f (x|ϑi )pi
P
j f (x|ϑj )pj
p f (x|ϑi )/f (x|ϑt )
Pi
j pj f (x|ϑj )/f (x|ϑt )
Q
(xk |ϑi )
pi nk=1 ff (x
k |ϑt )
P
Qn f (xk |ϑj )
j pj
k=1 f (xk |ϑt )
exp(log(pi ) + Si )
P
j exp(log(pj ) + Sj )
f (xk |ϑj )
mit Sj =
log
f (xk |ϑt )
k=1


0
j=t
1
f (xk |ϑj )
P
Sj → E log
=
< 0 sonst
n
f (xk |ϑt )

0
j=t
⇒ lim Sj =
n→∞
−∞ sonst

1 i = t
⇒ lim f (ϑi |x) =
n→∞
0 sonst
unabhängig von der konkreten Wahl von pi !
Lizenz
Copyright (C) Torsten Hothorn, Institut für Statistik, LMU München, 2008,
2009, 2010, 2011
Es ist erlaubt, dieses Dokument zu vervielfältigen, zu verbreiten und/oder zu verändern
unter den Bedingungen der ”GNU Free Documentation License”, Version 1.2 oder jeder späteren Version, die von der Free Software Foundation veröffentlicht wird; es gibt keine unveränderlichen Abschnitte, keinen vorderen Umschlagtext und keinen hinteren Umschlagtext.
Eine Kopie der Lizenz ist unter http://www.gnu.org/copyleft/fdl.html oder (in der
deutschen Übersetzung) unter http://www.zeno.org/Zeno/-/GFDL+(deutsch) zu erhalten.
70
Literaturverzeichnis
Leonhard Held. Methoden der statistischen Inferenz. Likelihood und Bayes. Spektrum
Akademischer Verlag, Heidelberg, 2008.
Erich Lehmann. Elements of Large-Sample Theory. Springer, Berlin, 2001.
Bernhard Rüger. Test- und Schätztheorie (Band I: Grundlagen). Oldenbourg, München,
1999.
William F. Trench. Introduction to Real Analysis. William F. Trench, Free Edition
1.03 edition, 2010. ISBN 0-13-045786-8. URL http://ramanujan.math.trinity.edu/
wtrench/misc/index.shtml.
71
Herunterladen