Statistik III - Waldemar Miller

Werbung
Statistik III
WiSe 2013/2014
Statistik III
Schätzen und Testen
nach der Vorlesung von
Dr. Thorsten Ziebach
zuletzt bearbeitet am
15. Januar 2014
In LATEXgesetzt von
Waldemar Miller
Korrekturgelesen von
Carmen van Meegen
Hi,
Hier die geTEXte Mitschrift der Veranstaltung Statistik III. Leider habe ich es erst
bis Kapitel 3 geschafft, Kapitel 4 + 5 folgen in den nächsten Tagen/Wochen. Zwar wurde das Skript korrektur-überflogen, die meisten Fehler sind aber noch drin. Deswegen:
Keine Garantie auf Richtigkeit. Verbesserungen, Fehler melden, etc. per E-Mail an:
[email protected]
Viel Spaß bei der Lektüre und viel Erfolg beim Arbeiten damit.
Waldemar
Inhaltsverzeichnis
1 Motivation
4
2 Summe von unabhängigen Zufallsvariablen, bedingte Verteilung
7
3 Punktschätzung
21
3.1
Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2
Methoden zur Gewinnung brauchbarer Punktschätzer . . . . . . . . . .
24
3.2.1
Momentmethode . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.2.2
Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . .
27
3.2.3
Bayes-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Kriterien zur Beurteilung der Güte einer Schätzfunktion . . . . . . . .
36
3.3.1
Mean Square Error (MSE) . . . . . . . . . . . . . . . . . . . . .
39
3.3.2
Erwartungstreue und Verzerrung . . . . . . . . . . . . . . . . .
43
3.3.3
Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.3.4
Effizienz und Cramer-Rao-Ungleichung . . . . . . . . . . . . . .
48
3.3.5
Suffizienz und Satz von Rao-Blackwell . . . . . . . . . . . . . .
59
3.3.6
Vollständige Statistiken und Satz von Lehmann Scheffé . . . . .
67
3.3
3
1 Motivation
Beispiel 1.1 (Galtons Erbinnen). Ist die Wahrscheinlichkeit, dass ein Kind eine Tochter wird, von Familie zu Familie unterschiedlich?
Grund der Frage: Francis Galton (1822–1911) beobachtete ein Aussterben von Namen
reicher englischer Familien.
Vermutung: Reiche Söhne heirateten reiche Erbinnen. Diese stammen aus Familien, bei
denen die Wahrscheinlichkeit einer Mädchengeburt höher ist als bei anderen Familien
(ansonsten wären Brüder die Erbfolger).
Daten: Geschlecht der Kinder von 7745 Familien mit 4 Kindern.
Betrachte zunächst eine Familie: Mögliche Ergebnisse sind (T =Tochter, S =Sohn):
ω1 = SSSS
ω5 = T SSS
ω9 = ST T S
ω13 = T ST T
ω2 = SSST
ω6 = SST T
ω10 = T ST S
ω14 = T T ST
ω3 = SST S
ω7 = ST ST
ω11 = T T SS
ω15 = T T T S
ω4 = ST SS
ω8 = T SST
ω12 = ST T T
ω16 = T T T T
Ereignisraum Ω = {ω1 , . . . , ω16 } mit σ-Algebra A mit Ereignissen A ⊂ Ω, und es gibt
ein Wahrscheinlichkeitsmaß P auf (Ω, A) mit diskreter Dichte
pi := P ({ωi }),
wobei 0 ≤ pi ≤ 1 und
P16
i=1
1 ≤ i ≤ 16,
pi = 1 gilt.
Also: Es gibt nicht nur ein Wahrscheinlichkeitsmaß P , sondern eine Menge P von
Wahrscheinlichkeitsmaßen P.
Welches P ∈ P das wahre ist, ist für uns immer unbekannt.
Beispiel 1.2. Seien x1 , . . . , xn Beobachtungen unabhängiger Zufallsvariablen Xi , i =
1, . . . , n, alle mit der selben Verteilung Xi ∼ Bin(1, p), i = 1, . . . , n, mit p ∈ [0, 1]
unbekannt.
Zum Beispiel: Klinischer Versuch mit n unabhängigen Patienten. Erprobe ein neues
Medikament mit p =
b Erfolgswahrscheinlichkeit, Heilungschance
und interpretiere
xi = 1 =
b Medikament ist erfolgreich, xi = 0 =
b Medikament erfolglos.
4
Mögliche Fragestellungen:
(a) Punktschätzproblem
Wir geben eine Schäzung für das wahre p ∈ [0, 1] Aufgrund von x = (x1 , . . . , xn ), xi ∈
{0, 1}, i = 1, . . . , n
(b) Testproblem
Frage: Ist p ≤ p0 oder p ≥ p0 sinnvoll für z. B.p = bekannte Heilungswahrscheinlichkeit eines bereits vorhandenen Medikaments., z. B.
p0 = 21 , d.h. hat das Medikament überhaupt einen positiven Effekt.
(c) Intervallschï¿ 12 tzung
Finde zu x = (x1 , . . . , xn ) Zahlen pbu (x), pbo (x) mit pbu (x) ≤ pbo (x), sodass [pbu (x), pbo (x)]
das wahre (aber unbekannte) p ∈ [0, 1] enthält mit einer vorgegebenen (möglichst
großen) Wahrscheinlichkeit.
Beispiel 1.3 (Qualitätskontrolle). Betrachte Warensendung aus N Stücken, N bekannt, davon eine unbekannte Anzahl s sind defekt. Ziehe ohne Zurücklegen eine Stichprobe zufällig vom Umfang n N Beobachtungen, sind dann x = (x1 , . . . , xn ) ∈
{0, 1}n .
xi = 1 =
b das i-te Stück ist defekt.
xi = 0 =
b das i-te Stück ist o.k.
Situation ist eine andere als in Beispiel 1.1 bei der Schätzung der unbekannten Anzahl
s, denn für jedes s besitzt x die Zähldichte
fs (x) = fs (x1 , . . . , xn ) =
s
N −s
· n−Σx
Σxi
i
N
n
·
n
Σxi
Die Einzelbeobachtungen sind hier nicht stochastisch unabhängig. Die Randverteilungen (d.h. Verteilungen, die zum einmaligen Ziehen gehört) sind alle Bin(1, Ns )-verteilt
und ⊗Bin(1, Ns ) hat die Dichte
n
Y
s 1−xi
s Σxi
s n−Σxi
s xi
gs (x) =
· 1−
=
· 1−
N
N
N
N
i=1
und offensichtlich gilt fs (x) 6= gs (x) für alle s ∈ {0, 1, . . . , n}.
5
Alternativ: Betrachte statt der Einzelbeobachtungen nur die Gesamtzahl der defekten
Stücke in der Stichprobe:
T (x) =
n
X
xi
i=1
Jetzt: Das Bildmaß von P s unter der Abbildung T ist die hypergeometrische Verteilung
HypN,s,n mit der Zähldichte
hN,s,n (t) =
s
t
·
N −s
n−t
N
n
,
t ∈ {0, 1, . . . , n}
d. h. die Anzahl der möglichen Ergebnisse reduziert sich um die Permutationsmöglichkeiten.
Sind die unterstellten Modelle äquivalent, obwohl wir im letzten Fall Datenreduktion
P
(x1 , . . . , xn ) → ni=1 xi erfolgte?
Beispiel 1.4 (Hochrechnung zur Wahl). Es stehen k Parteien zur Wahl, 0 ≤ p1 ≤
· · · ≤ pk ≤ 1 seien die wahren, aber unbekannten Prozentanteile der Parteien mit
Pk
j=1 pj = 1.
Es liege eine Auswertung von n Stimmabgaben vor:
x = (x1 , . . . , n),
xi ∈ {0, 1, . . . , n},
k
X
xi = n.
i=1
Falls die Stichprobe repräsentativ ist, d. h. aufzufassen als zufällige Ziehung aus der
Gesamtheit aller Wähler (Anzahl N , N n) ergibt sich als Zähldichte von x:
fn,p1 ,...,pn (x) = fn,p1 ,...,pn (x1 , . . . , xn )
k
Y
n!
X
=
P j
x1 ! · · · · · xk ! j=1 j
Der Term ist offensichtlich nicht zusammengesetzt aus unabhängigen EinzelexperiPk
menten, denn
i=1 = n. Weiterhin ist f die Zähldichte einer M ulti(n, p1 , . . . , pk )Verteilung.
Wie kann man in diesem Fall die entsprechenden Wähleranteile auf Basis der Stichproben schätzen?
6
Ziel der Vorlesung:
In Beispiel 1.1 bis Beispiel 1.4 sind Stichproben gegeben. Versuche anhand des
Stichprobenergebnisses, unbekannte Parameter (z. B. Anteile, Lebensdauern, Durchschnittsgrößen, . . . ) zu schätzen.
• Wie findet man solche Schätzer ?
• Wie gut sind diese Schätzer ?
• Wie können wir unterschiedliche Arten von Schätzungen (Punkt- oder Bereichsschätzung) angeben?
• Wie können wir Entscheidungen finden bei Vorliegen einer Behauptung wie in
Beispiel 1.2
2 Summe von unabhängigen Zufallsvariablen,
bedingte Verteilung
Wiederholung aus Statistik II:
Beispiel (in Anlehnung an Beispiel 1.1).
Xn =
b Anzahl der Jungengeburten unter n Geburten
Xn ∼ Bin(n, p) mit p = Wahrscheinlichkeit, dass ein Junge geboren wird.
Schlage in statistischen Jahrbüchern nach:
Für großes n liegt der Anteil der Jungengeburten bei 0.51.
→ Es greift das schwache Gesetz der großen Zahlen, d. h. ∀ε > gilt:
X
n
n→∞
P − p −→ 0
n
Vielmehr kann man bei festem p die Grenzverteilung der Binomialverteilung angeben,
√
denn n · Xnn − p verhält sich für große n wie eine normalverteilte Zufallsvariable,
konkret:
Die Verteilungsfunktion Fn der Zufallsvariable Zn :=
7
√
n
Xn
n
−p · √
1
p·(1−p)
konvergiert
gegen Φ, der Verteilungsfunktion der N (0, 1)-Verteilung. Mit anderen Worten:
∀x ∈ R gilt:
lim Fn (x) = Φ(x)
n→∞
Wichtig z. B. zur Berechnung von P (a < Zn ≤ b)
n→∞
−→
Φ(b) − Φ(a).
Herleitung der Resultate
Bestimme zunächst die Momente von X̄:
Satz 2.1. Seien X1 , . . . , Xn unabhängig identisch verteilt (u.i.v.) mit E(Xi ) = µ und
P
V ar(Xi ) = σ 2 für i = 1, . . . , n. Für X̄ := n1 ni=1 Xi gilt:
σ2
E(¯(X)) = µ und V ar(X̄) =
−→
n
Beweis. Bekannt aus Statistik II.
Satz 2.2 (Schwaches Gesetzt der Groï¿ 12 en Zahlen). Seien (Xn )n∈N eine Folge von
unabhängig identisch verteilten Zufallsvariablen (d. h. fï¿ 12 r jedes n ∈ N sind X1 , . . . , Xn
u. i. v.) mit E(Xi2 ) < ∞,
i = 1, . . . , n.
P
Sei ferner für jedes n : X̂n := n1 ni=1 Xi . Dann gilt ∀ε > 0 :
lim P |X̂n − µ| > ε = 0,
n→∞
Beweis. Mit Satz 2.1 gilt: ∀n ∈ N : E(X̂n ) = µ,
⇒
0 ≤ P |X̂n − µ| > ε
Cherb.
≤
mit µ = E(Xi )
V ar(X̂n ) = σ 2 /n.
σ2
1
−→ 0 fï¿ r n → ∞
n
2
Aus Satz 2.2 folgt nicht, dass P |X̂n − µ| = 0 −→ 1 gilt.
n→∞
Hï¿ 12 ufig ist vielmehr P |X̂n − µ| = 0 −→ 0, z. B. beachte im diskreten Fall:
Beachte:
1
u.i.v.
X1 , . . . , Xn ∼ Bin(1, √ )
2
1
⇒ µ = E(Xi ) = √ 6∈ Q,
2
aber fï¿ 12 r jedes ω ∈ Ω ist
X1 (ω)+···+Xn (ω)
n
∈ Q, folglich ist
P |X̂n − µ| = 0 = 0 ∀n ∈ N.
8
Dieses schwache Gesetzt der groï¿ 12 en Zahlen lï¿ 12 sst uns fï¿ 21 r die Summen von u. i. v.
Zufallsvariablen interessieren:
Oftmals ist es jedoch schwierig, die Verteilung von Summen von u. i. v. Zufallsvariablen
zu berechnen. Zunï¿ 12 chst fï¿ 12 r diskrete Zufallsvariablen:
Satz 2.3 (Faltungssatz). Seien X1 , X2 stochastisch unabhï¿ 12 ngige Zufallsvariablen,
P Xi (die Verteilung von Xi ) diskret mit Zï¿ 12 hldichte fi und Trï¿ 21 ger Ti , i = 1, 2. Dann
ist auch P X1 +X2 diskret mit der Dichte
f1,2 (z) =
X
f1 (x) · f2 (z − x)
x∈T1
und dem Trï¿ 12 ger
T1,2 = {z ∈ R : ∃x ∈ T1 und ∃y ∈ T2 mit z = x + y}
Beweis. T1,2 ist hï¿ 12 chstens abzï¿ 21 hlbar, und es gilt
P X1 +X2 (T1,2 ) = P (X1 + X2 ∈ T1,2 )
= P (X1 ∈ T1 und X2 ∈ T2 )
= P {ω ∈ Ω : X1 (ω) ∈ T1 } ∩ {ω ∈ Ω : X2 = (ω) ∈ T2 }
unabh.
= P (X1 ∈ T1 ) · P (X2 ∈ T2 ) = 1 · 1 = 1
⇒ P X1 +X2 ist diskret und fï¿ 12 r die Dichte gilt:
f1,2 (z) = P (X1 + X2 = z) = P X1 ,X2 {(x y)t ∈ R2 : x + y = z}
{z
}
|
=:B
XX
=
g(x, y)
x
y
mit der Dichte g von P X1 ,X2 und T ist T = T1 × T2 .
Damit ist
f1,2 =
XX
g(x, y) =
x∈T1 y∈T2
y=z−x

g(x, z − x)
falls z − x ∈ T2 ,
0
sonst, also z − x 6∈ T2
Aber auch g(x, z − x) = f1 (x) · f2 (z − x) = 0, falls z − x 6∈ T2 .
⇒
f1,2 =
X
g(x, z − x) =
x∈T1
X
x∈T1
9
f1 (x) · f2 (z − x).
Beispiel 2.4. Seien X1 ∼ Bin(n, p) und X2 ∼ Bin(m, p), und X1 , X2 stochastisch
unabhï¿ 12 ngig.
⇒
P X1 +X2 ist diskrete Verteilung mit Trï¿ 21 ger T1,2 = {0, 1, . . . , n + m}
Berechnung der Dichte von X1 + X2 :
fX1 +X2
n X
m
n x
n−x
pz−x (1 − p)m−z+x
=
p (1 − p)
z
−
m
x
x=1
n X
n
m
2
n+m−z
= p · (1 − p)
x z−x
x=0
m
X
n
n
x z−x
2
n+m−z n + m
= p · (1 − p)
·
n+m
z
z
x=0
| {z
}
hypergeom.
{z
}
|
=1
n+m
=
· pz · (1 − p)n+m−z
z
Dichte der Bin(n + m, p) -Verteilung!
Mittels vollstï¿ 12 ndiger Induktion gilt daher:
Seien X1 , . . . , Xn u. i. v. mit P Xi = Bin(1, p), i = 1, . . . , n. Dann gilt:
P X1 +···+Xn = Bin(n, p).
Bemerkung. Sei X eine Zufallsvariable mit P X = Bin(n, p). Dann besitzt die Zufallsvariable n1 X die gleiche Verteilung wie der Mittelwert von n u. i. v. Zufallsvariablen
mit Verteilung Bin(1, p)
(2.2)
==⇒
P |
1
− p| > ε −−−→ 0.
n→∞
n
Betrachte nun stetige Zufallsvariablen
Satz 2.5 (Transformationssatz fï¿ 21 r Dichten). Seien X1 , . . . , Xn Zufallsvariablen, deren gemeinsame Verteilung P X1 ,...,Xn stetig ist mit einer Dichte f : Rn → [0, ∞). Sei
A eine konvexe Teilmenge des Rn mit P X1 ,...,Xn (A) = 1.
Sei ferner t : A → B eine bijektive Abbildung, mit weiterer konvexer Menge B ⊂ Rn
und der entsprechenden Umkehrabbildung t−1 : B → A, sodass t und t−1 stetig differenzierbar sind.
10
Die Zufallsvariablen Z1 , . . . , Zn mit Z1 := t1 (X1 , . . . , Xn ),
...
, Zn := tn (X1 , . . . , Xn )
haben die gemeinsame stetige Verteilung P Z1 ,...,Zn mit stetiger Dichte g : Rn → [0, ∞) ,
wobei
−1
· 1B (z1 , . . . , zn )
(z
,
.
.
.
,
z
)
·
J(z
,
.
.
.
,
z
)
g z1 , . . . , zn = f t−1
(z
,
.
.
.
,
z
),
.
.
.
,
t
1
n
1
n
1
n
n
1
und


J(z1 , . . . , zn ) = det 

|
{z
}
Jacobideterminante
∂t−1
1 (z1 ,...,zn )
∂z1
...
...
..
.
∂t−1
n (z1 ,...,zn )
∂z1
...
∂t−1
1 (z1 ,...,zn )
∂zn
..
.
∂t−1
n (z1 ,...,zn )
∂zn




Beweis. Folgt direkt aus der Substitutionsformel in der Integralrechnung.
Beispiel 2.6. Sei X1 ∼ Erlang(n, λ), d. h. P X1 hat die Dichte fX1 mit
fX1 (x) = λ · e−λx ·
(λx)n−1
· 1[0,∞) (x)
(n − 1)!
und sei X2 ∼ Exp(λ), d. h. P X2 hat die Dichte fX2 mit
fX2 (x) = λ · e−λx · 1[0,∞) (x).
Seien weiterhin X1 und X2 stochastisch unabhï¿ 12 ngig, dann hat die gemeinsame Verteilung von X1 und X2 die Dichte fX1 ,X2 mit
fX1 ,X2 (x, y) = fX1 (x) · fX2 (y)
= λ2 ·
(λx)n−1 −λ(x+y)
·e
· 1[0,∞) (x) · 1[0,∞) (y)
(n − 1)!
Bestimme nun die Verteilung von X1 + X2 :
Wï¿ 21 hle t : R2 → R2 mit:
z1 = t1 (x, y) = x
z2 = t2 (x, y) = x + y
Dann ist t bijektive Abbildung mit differenzierbarer Umkehrfunktion t−1 : R2 → R2
mit
t−1
1 (z1 , z2 ) = z1 ,
t−1
2 (z1 , z2 ) = z2 − z1 .
Die Jacobi-Determinante ist J(z1 , z2 ) = det
11
1
0
−1 1
!
=1
Mit Satz 2.5 haben Z1 = X1 und Z2 = X1 + X2 die gemeinsame stetige Dichte gZ1 ,Z2
mit
gZ1 ,Z2 (z1 , z2 ) = fX1 ,X2 (z1 , z2 − z1 ) · J(z1 , z2 ) · 1[0,∞) (z1 ) · 1[0,∞) (z2 − z1 )
= λ2 ·
Stat II
⇒
(λ z)n−1 −λ (z1 +z2 −z1 )
·e
· 1[0,∞) (z1 ) · 1[0,∞) (z2 − z1 )
(n − 1)!
P X1 +X2 = P Z2 hat die Dichte
Z
gz1 ,z2 (x, z) dx
gz2 =
R
Z
λ2 ·
=
R
2
=λ ·e
(λ x)n−1 −λx
·e
1[0,∞) (x) · 1[0,∞) (z − x) dx
(n − 1)!
|
{z
}
=1[0,∞) (z)·1[0,z] (x)
−λz
n−1
λ
·
· 1[0,∞) (z) ·
(n − 1)!
Z
z
xn−1 dx
| 0 {z }
1 n
z
n
λn n
· z · 1[0,∞) (z)
n!
Dichte der Erlang(1, λ)-Verteilung!
= λ · e−λz ·
Also ist die Verteilung P X1 +X2 = Erlang(n + 1, λ). Da die Dichte der Erlang(1, λ)Verteilung gleich der Dichte der Exp(λ)-Verteilung, folgt direkt fï¿ 21 r u. i. v. X1 , . . . , Xn
mit P Xi = Exp(λ), dass P X1 +···+Xn = Erlang(n, λ)
Ein Spezialfall von Satz 2.5
Satz 2.7. Seien X1 , . . . , Xn stochastisch unabhï¿ 12 ngig, P X, stetig mit Dichte f1 und
P X2 stetig mit Dichte f2 .
Dann ist auch P X1 +X2 stetig verteilt mit Dichte g, wobei
Z
∞
f1 (x) · f2 (z − x) dx.
g(z) =
−∞
Beweis. wie in Beispiel 2.6.
Wir werden nun die asymptotische Verteilung der Zufallsvariable
Pn
i=1
Xi betrachten,
da die Verteilung schwer zu bestimmen bzw. analytisch nicht zu ermitteln ist.
Was verstehen wir unter einer Grenzverteilung bzw. asymptotischen Verteilung, dazu
nun:
12
Definition 2.8. Sei (Xn )n∈N eine Folge von Zufallsvariablen. Sei Fn die Verteilungsfunktion von P Xn , n ∈ N und G die Verteilungsfunktion einer Verteilung Q.
W
Die Folge der Verteilungen P Xn , n ∈ N konvergiert schwach gegen Q (kurz P Xn −→ Q),
falls fï¿ 12 r jedes x ∈ R, fï¿ 12 r das G stetig ist in x, gilt:
lim Fn (x) = G(x)
n→∞
W
Bemerkung. Falls P Xn −→ Q, dann gilt ∀a < b:
T a < Xn ≤ b
= Fn (b) − Fn (a)
W
−→ G(b) − G(a)
= Q (a, b]
Beispiel 2.9. Huhu
(a) Seien P Xn diskret gleichverteilt auf { n1 , n2 , . . . , nn }
⇒ Fn (x) =


0



, x<
k
,
n



1
k
n
1
n
≤x<
k+1
n
∀ k = 1, . . . , n
, x≥1
Offensichtlich: Fn (x) ≥ x fï¿ 12 r x < 1
⇒ lim Fn (x) =
n→∞


0



k
n



1
,
x<0
,
0≤x<1
,
x≥1
⇒ G ist Verteilungsfunktion einer stetigen Rechteckverteilung R[0, 1], d. h. Q =
R[0, 1].
Also konvergiert die Folge der diskreten Gleichverteilungen auf { n1 , n2 , . . . , nn } schwach
gegen die R[0, 1]-Verteilung. In Formeln:
W
P Xn −→ Q
⇒
lim Fn (x) = G(x)
n→∞
(Grenzverteilung)
(VF der Grenzverteilung)
schwache Konvergenz
13
(b) Sei (Xn )n∈N eine Folge u. i. v. Zufallsvariablen mit E (Xi2 ) < ∞ , i = 1, . . . , n.
P
Bezeichne mit (X̄n )n∈N die Folge der Mittelwerte, d. h. X̄n = n1 ni=1 Xi . Mit
µ := E(Xi ) gilt nach dem schwachen Gesetz der groï¿ 12 en Zahlen:
∀ε > 0 : P X̄n − µ
n→∞
−→ 0.
Fï¿ 12 r Fn als Verteilungsfunktion von X̄n gilt:
∀x<µ
Fn (x) = P X̄n ≤ x
= P X̄n − µ ≤ x − µ
| {z }
<0
≤ P |X̄n − µ| ≥ µ − x
| {z }
=: 2ε
≤ P |X̄n − µ| > ε
1
SwGGZ
−→ 0 fï¿ r n → ∞.
2
∀x>µ
Fn (x) = P X̄n − µ ≤ x − µ
= 1 − P X̄n − µ > ε
|
{z
}
≤P (|X̄n −µ|>ε)
x=µ
keine Aussage ï¿ 12 ber Fn mï¿ 12 glich.
Also:
n→∞
∀x<µ
n→∞
∀y>µ
Fn (x) −→ 0
Fn (x) −→ 1
Sei Q die Einpunktverteilung in µ, d. h. Q hat die Verteilungsfunktion G mit

1 f alls x ≥ µ
G(x) =
0 f alls x < µ
Also konvergiert P X̄n schwach gegen die Einpunktverteilung in µ.
Diese Aussage ist zu grob fï¿ 12 r die Statistische Anwendung, versuche stattdessen die
14
Grenzverteilung fï¿ 21 r standardisiertes X̄n bzw.
Pn
i=1
Xi zu finden.
ACHTUNG HIER FEHLT EINE ZEICHNUNG
Beispiel 2.10. Sei (Xn )n∈N u. i. v. mit P Xi = Exp(λ). Dann ist nach Beispiel 2.6 fï¿ 12 r
P
ein beliebiges n ∈ N die Zufallsvariable Yn := ni=1 Xi Erlang(n, λ)-verteilt (sprich:
Erlang–n–verteilt mit Parameter λ).
E(Yn ) = nλ ,
Weiter gilt:
V ar(Yn ) =
n
.
λ2
Betrachte nun die standardisierte Zufallsvariable
√ Ȳn − λ1
n · X̄n − λ1
Yn − nλ
q
=
=
n· q
,
Zn = p
√
1
1
n/λ2
n · λ2
λ2
r
1
mit
=
b Standardabweichung.
λ2
Sei t : 12 R → R definiert durch t(g) = √g−n 2 , dann ist Zn = t(Yn ) und t ist bijektiv
n/λ
√
mit Umkehrabbildung t−1 : R → R mit t−1 (z) = λ1 ( n · z + n).
√
Es gilt J(z) =
n
.
λ
Aus dem Transformationssatz fï¿ 12 r Dichten (Satz 2.5) folgt, dass
P Zn die stetige Dichte
√
1 √
n
( n · z + n) ·
(fYn Dichte der Erlang-Verteilung)
gn (z) = fYn
n
λ
n−1
√
√
√
λ · λ1 ( n · z + n)
1 √
1
n
n·z+n
−λ·( λ
( n·z+n))
Also gn (z) = λ ·
·e
·
· 1[0,∞)
2
(n + 1)!
λ
λ
√
n−1
√
√
( n · z + n)
=
· n · e−( n·z+n) · 1[−√n,∞) (z)
(n − 1)!
|
{z
}
|
{z }
n→∞
−→ 1
2
√1 ·exp − z
2
2π
mit Stirlingformel
n→∞
−→
Fï¿ 12 r alle z ∈ R gilt
gn (z) −→ = ϕ(z) ,
n→∞
(Dichte der N (0, 1)-Verteilung)
d. h. fï¿ 21 r die Verteilungsfunktion Fn von Zn gilt limn→∞ Fn (z) = Φ(z).
√ X̄n −E(X1 )
X̄n −E(X̄n )
Damit konvergiert die Verteilungsfunktion von Zn = n √
=√
schwach
V ar(X1 )
V ar(Xn )
gegen Φ.
Dies gilt unter schwachen Forderungen fï¿ 12 r beliebige Verteilungen, nicht nur fï¿ 12 r die
Exp-Verteilung.
Satz 2.11 (Zentraler Grenzwertsatz nach Lindeberg-Levy). Sei (Xn )n∈N eine
Folge von u. i. v. Zufallsvariablen mit µ = E(Xi ), i ∈ N, σ 2 = V ar(X) ∈ [0, ∞)
15
Dann gilt fï¿ 12 r die Folge der standardisierten Mittelwerte Zn :=
√
n Xnσ−µ :
W
P Zn −→ N (0, 1)
Beweis. Statistik IV!
Folgender ZGWS (Zentraler Grenzwertsatz) fordert eine schï¿ 12 rfere Bedingung an die
Momente, jedoch ist nur die Unabhï¿ 12 ngigkeit der Zufallsvariablen (Xn )n∈N gefordert:
Satz 2.12 (Zentraler Grenzwertsatz nach Ljapunov). Seien (Xn )n∈N stochastisch unabhï¿ 12 ngige
2
Zufallsvariablen mit V ar(Xj ) = σj > 0, σj2 < ∞, j = 1, . . . , n.
Gibt es ein δ > 0, sodass
2+δ
|X
−
E(X
−
j)|
E
j
i=1
n→∞
−→ 0
2+δ
qP
n
2
j=1 σj
Pn
gilt, dann gilt:
Pn
(Xj − E(Xj )) W
qP
−→ N (0, 1).
2
n
σ
j=1 j
j=1
Beispiel 2.13. Sei Xn = Anzahl der Jungen bei n Geburten. Xn ∼ Bin(n, p),
p unbekannt, p ∈ (0, 1).
Wir kï¿ 21 nnen P ∈ P mit Parameter p charakterisieren. Bezeichne daher die Verteilungen bei gegebenen p mit PpXn .
Vermutung: p = p0 = 0.5 ist das wahre p.
In 2008 gab es in Deutschland 682 514 Geburten, davon 349 862 mï¿ 12 nnlich. Ist ein so
hoher Anteil mï¿ 21 nnlicher Kinder mit der Hypothese p =
Unter p = p0 =
1
2
1
2
vertrï¿ 12 glich?
gilt:
P0.5 (Xn ≥ x)
=
=
1 − P0.5 (Xn < x)
1 − P0.5
Xn
n
− p0
√
x − p0
√
!
p
n < p
n
p0 (1 − p0 )
p0 (1 − p0 )
Xn /n ist der Mittelwert von n stochastisch unabhï¿ 12 ngigen Bin(1, p0 )-verteilten Zup0 (1−p0 )
fallsvariablen mit Ep0 (Xn /n) = p0 und V arp0 (X!
n /n) =
n
Xn
−
p
√
0
einsetzen
=⇒ P0.5 (Xn ≥) ≈ 1 − Φ
np n
=
1 − Φ(22.83) < 0.001
p0 (1 − p0 )
16
Bedingte Verteilung und bedingter Erwartungswert
Betrachte zweidimensionale Zufallsvariable (X, Y ) im allgemeinen nicht unabhï¿ 12 ngig
voneinander. Sei z. B. fï¿ 12 r eine Population gegeben:
1
1 1
X = Kï¿ rpergrï¿ ï¿ e eines Mannes in cm
2
2 2
1
Y = Kï¿ rpergewicht eines Mannes in kg
2
Offensichtlich sind X und Y abhï¿ 12 ngig, denn z.B. P (Y > 100) hï¿ 21 ngt stark davon
ab, wie groï¿ 12 eine Person ist, d. h. die Frage „Wie groï¿ 12 ist die Wahrscheinlichkeit,
dass ein kleinwï¿ 12 chsiger Mann ( < 170 cm) mehr als 100 kg wiegt“, ist eine bedingte
Wahrscheinlichkeit.
Weiter: Kï¿ 21 rpergewichtsverteilung fï¿ 21 hrt zu bedingtem Verteilungsbegriff.
Definition 2.14. Sei (X, Y ) eine zweidimensionaler stetiger oder diskreter Zufallsvektor mit gemeinsamer Wahrscheinlichkeitsfunktion / –Dichte fX,Y gegeben. Fï¿ 12 r jedes
y ∈ R mit fy (y) > 0 heiï¿ 12 t
fX|Y (x|y) :=
fX,Y (x, y)
fy (y)
die bedingte Wahrscheinlichkeitsfunktion bzw. -Dichte von X gegeben Y = y.
Ebenso kï¿ 12 nnen wir fï¿ 12 r jedes x ∈ R mit fX (x) > 0 auch definieren:
fY |X (y|x) =
fX,Y (x, y)
fX (x)
Beispiel 2.15 (bedingte diskrete Verteilung). Gegeben: zweidimensionale Verteilung
von (X, Y ) mit folgender gegebener gemeinsamer Dichte fX,Y :
fX,Y (0, 10) = fX,Y (0, 20) = 2/18
fX,Y (1, 10) = fX,Y (1, 30) = 3/18
fX,Y (1, 20) = fX,Y (2, 30) = 4/18
17
Randverteilung von X:
fX (0) =P (X = 0) = P (X = 0, Y = 10) + P (X = 0, Y = 20) = 4/18
fX (1) = . . . = 10/18
fX (2) = . . . = 4/18
Somit sind die bedingten Verteilungen:
fY |X=0 (10|0) =
fY |X=0 (20|0) =
fY |X=1 (10|1) =
fY |X=1 (20|1) =
fY |X=1 (30|1) =
fY |X=2 (10|2) =
fX,Y (0, 10)
=
fx (0)
1
... =
2
3
... =
10
4
... =
10
3
... =
10
... = 1
2
18
4
18
=
1
2
In Analogie zur bedingten Verteilung lassen sich auch fï¿ 12 r beding Verteilungen die
Momente bestimmen. So berechnet sich der bedingte Erwartungswert von g(Y ):
Im diskreten Fall:
E(g(Y )|X = x) =
X
g(y) · fY |X (y|x)
y
Im stetigen Falle:
Z
∞
g(x) · fY |X (y|x) dy
E(g(Y )|X = x) =
−∞
Weiter mit Beispiel 2.15:
1
1
+ 20 · + 30 · 0 = 15
(hier g(y) = y)
2
2
3
3
3
E(Y |X = 1) = 10 ·
+ 20 ·
+ 30 ·
= 20
10
10
10
E(Y |X = 2) = 30 · 1 = 30
E(Y |X = 0) = 10 ·
Fasse somit E(Y |X = x) als Funktion der Werte x der Zufallsvariablen X auf. Fï¿ 12 r
jedes x ergibt E(Y |X = x) eine bestimmte Zahl. Andererseits ist diese Funktion selbst
wiederum eine Zufallsvariable, wï¿ 12 hle als Transformation g(Y ) = E(Y |X) und erhal-
18
te:
E (E(Y |X)) = 15 · P (E(Y |X) = 15)
+20 · P (E(Y |X) = 20)
+30 · P (E(Y |X) = 30)
10
4
380
1
4
+ 20 ·
+ 30 ·
=
= 21 +
= 15 ·
18
18
18
18
9
Betrachte:
E(Y ) = . . . = 21 + 91 . Ist das Zufall oder nicht? Antwort: Nein, nicht
zufï¿ 12 llig. Herleitung folgt nun:
Satz 2.16 (wichtige Rechenregeln fï¿ 12 r bedingte E-Werte). Gegeben sei ein zweidimensionaler Zufallsvektor (X, Y ), dann gilt:
E(X) = E (E(X|Y ))
Beweis. (fï¿ 12 r den stetigen Fall).
Z
∞
Es gilt:
Z
∞
x · fX,Y (x, y) dx dy
E(X) =
Z−∞
∞
Z−∞
∞
x · fX|Y (x, y) · fY (y) dx dy
=
x · fX|Y (x|y) dx ·fY (y) dy
−∞
−∞
|
{z
}
=
Z−∞
∞
−∞
Z ∞
=E(X|Y =y)
Beispiel 2.17. Ein Insekt lege eine Anzahl von Eiern, von denen jedes mit Wahrscheinlichkeit p ï¿ 12 berlebt. Unterstelle fï¿ 21 r
Y = Anzahl der gelegten Eier, dass Y ∼ P oi(λ), sowie fï¿ 12 r X = Anzahl ï¿ 12 berlebender
Eier, dass (X|Y = y) ∼ Bin(y, p). Wieviele Eier ï¿ 12 berleben im Durchschnitt? Suche
E(X)!
Mit E(X|Y = y) = y · p ist E(X|Y ) = Y · p und nach Satz 2.16 gilt:
E(X) = E (E(X|Y )) = E(Y · p) = p · E(Y )
=
Y ∼P oi(λ)
p · λ.
Abschlieï¿ 21 end zwei wichtige Rechenregeln fï¿ 12 r bedingte E-Werte:
Satz 2.18. Gegeben sei ein zweidimensionaler Zufallsvektor (X, Y ) und h1 , h2 zwei
messbare Funktionen, dann gilt:
19
(a)
E (h1 (X) + h2 (X)|Y = y) = E (h1 (X)|Y = y) + E (h2 (X)|Y = y)
(b)
E (h1 (X) · h2 (Y )|Y = y) = h2 (y) · E (h1 (X)|Y = y)
20
3 Punktschätzung
Anteil männlicher Geburten in 2008
X
n
=
Anzahl männlicher Geburten
Anzahl aller Geburten
=
349 862
682 514
= 0.513
Daher vernünftige Vermutung: der wahre Anteil liegt bei p = 0.513
Benutze also die Beobachtung x zu einer Schätzung p̂(x). Offensichtlich: p̂(X) =
X
n
ist
eine Realisation einer Zufallsvariable.
3.1 Grundbegriffe
Definition 3.1. (a) Seien (Ω, A) messbarer Raum, P eine Familie von Wahrscheinlichkeitsmaßen auf A. Dann heißt (Ω, A, P) statistischer Raum.
(b) Sei (X , C) ein messbarer Raum, X : Ω → X sei A − C-messbar und
P := {P X : P X (C) = P (X −1 (C)) ∀C ∈ C und ∀P ∈ P}
und wird eine Realisation von X beobachtet. Dann heißen
(X , C, P X ) ein Stichprobenraum,
X eine Stichprobe und
x eine Realisation der Stichprobe.
(c) Gilt (X , C, P X ) = (Rm , B, P)n mit Zufallsvariablen Xj := (Ω, A) → (Rm , B n )
und sei Xj ∼ P0 ∈ P ∀j ∈ {1, . . . , n}.
Dann heißt (X1 , . . . , Xn ) eine einfache Stichprobe vom Umfang n.
| {z }
=X
Beispiel 3.2. Eine Münze wird zweimal geworfen, notiere Adler (A) oder Zahl (Z).
Ω = {(A, A); (A, Z); (Z, A); (Z, Z)}
A = P(Ω) =
b Potenzmenge von Ω
Betrachte zwei Wahrscheinlichkeitsmaße
P1 :
P1 {ω}
P2 :
P2 {(A, A)}
=
1
4
∀ω ∈ Ω
=
1
,
81
8
P2 {(A, Z)} = P2 {(Z, A)} =
81
64
P2 {(Z, Z)} =
81
21
Sei P = {P1 , P2 }, und (Ω, A, P) ein statistischer Raum.
Definiere die Zufallsvariablen

1 falls A oben liegt
Xi =
∀ i ∈ {1, 2}
0 falls Z oben liegt
!
X1
X=
, X = R, C = B 2 , P = P X,P1 , P X,P2
X2
mit
1
= P X,P1
4
= P X,P1
= P X,P1
= P X,P1
X=
X=
X=
X=
1
!!
1
1
!!
0
0
!!
1
0
!!
0
und analog P X,P2 . . . und R2 , B 2 , P X als Stichprobenraum.
Definition 3.3. Sei Θ eine beliebige Teilmenge des Rk und g : Θ → P X eine bijektive
Abbildung. Dann heißen Θ eine Parametermenge für P X , θ ∈ Θ ein Parameter(vektor)
von P X , und g eine parametrische Funktion bzw. Parametrisierung von P X .
Notation:
g(θ) = P X|θ∈Θ
P X = P X|θ : θ ∈ Θ = PθX : θ ∈ Θ
Beispiel 3.4. Betrachte die sog. Cobb-Douglas-Produktionsfunktion
Yj = c · Kjα · Lβj · Uj ,
Dabei ist
Yj Produktionsmenge (in Periode j)
c
Kj
Kapitaleinsatz (in Periode j)
Uj
Lj
Arbeitsansatz (in Periode j)
α, β
22
j = 1, . . . , n
nichtkonstanter Faktor, techn. Fortschritt
Störfaktor (in Periode j)
Parameter (unbekannt, zu schätzen)
Durch Logarithmieren erhalten wir
ln Yj = ln c + α · ln Kj + β · ln Lj + ln Uj
Die Interpretation von ist dann:
d ln Yj
= β,
d ln Lj
d ln Yj
= α,
d ln Kj
α, β als Produktionselastizitäten
Aber auch α + β von Interesse, da Yj (λKj , λLj ) = λα+β Yj (Kj , Lj )
α + β heißen Skalenelastizitäten, gibt die prozentuale Erhöhung des Outputs
Nun:
an, wenn die Einsatzmengen (Kapital, Arbeit) jeweils um 1% erhöht werden. Falls
α+β =1
⇒
Yj (λKj , λLj ) = λ Yj (Kj , Lj )
α+β >1
⇒
positive Skaleneffekte (increasing returns)
α+β <1
⇒
negative Skaleneffekte (decreasing returns
Mit θ =
α
(linear homogen)
!
β
∈ R2 ist g(θ) = α + β parametrische Funktion.
Definition 3.5. Sei X , C, P X ein Stichprobenraum, so heißt die C − B l -messbare
Abbildung
t:
X −→ Rl
eine Stichprobenfunktion.
Bemerkung.
(a) t(X) = T (ω) ist ein Rl -Zufallsvektor.
(b) t ist völlig bekannt, insbesondere unabhängig von θ.
(c) Falls die Verteilung von T nicht von θ abhängt, so enthält T keine Information
über θ
Beispiel 3.6.
(a) X1 , . . . , Xn u. i. v. Zufallsvariablen mit P Xi = N (µ, σ 2 ) , i = 1, . . . , n , µ ∈ R,
σ 2 > 0 unbekannt.
X := (X1 , . . . , Xn )0 ist die Stichprobe,
x := (x1 , . . . , xn )0 die Realisation.
!
Pn
j=1 Xj
T = t (X1 , . . . , Xn ) =
ist eine höchst sinnvolle StichprobenfunktiPn
2
X
j
j=1
on.
23
Denn mit!Θ = R × R+ ⊂ R2 hängt die Verteilung von T offensichtlich von
a
θ :=
ab!
b
(b) Situation wie in (a), aber jetzt mit σ 2 = 1 bekannt. Dann gilt:
T := t(X1 , . . . , Xn ) =
n
X
Xj − X̄
2
j=1
Aus Statistik II bekannt:
2
P T = Xn−1
ist unabhängig von θ := µ.
Spezielle Bezeichnungen von t und T bei der Parameterschätzung:
Definition 3.7.
(a) Soll mit T = t(X) auf (X , C, P X ) der wahre Parameter θ der tatsächlichen Verteilung von X geschätzt werden, so heißt T ein Schätzer für θ, dabei ist t die
Schätzfunktion. Eine Realisation t(x) = t(x1 , . . . , xn ) = T (ω) = θ̂ heißt eine
Schätzung oder Schätzwert für θ.
(b) Soll mit T = t(X) die Funktion g(θ) geschätzt werden, so heißt T ein Schätzer für g(θ)
d
und t(x) = g(θ).
Bemerkung (Eine wirklich kleine Bemerkung). Meistens ist X = Rn oder X = Rn·m ,
wobei n der Stichprobenumfang ist. Daher verwenden wir die Borel’sche σ-Algebra,
d.h. C = B n bzw. B n·m , schreibe also Rn , B n , P X .
3.2 Methoden zur Gewinnung brauchbarer Punktschätzer
Älteste Methoder zur Findung von Punktschätzern:
3.2.1 Momentmethode
Beispiel 3.8. Seien X1 , . . . , Xn u. i v. Zufallsvariablen mit P Xi = Exp(λ), i = 1, . . . , n
und λ > 0. Suche einen geeigneten Schätzer für λ:
1. Variante
(nicht gut für uns)
Betrachte die Dichte und Verteilungsfunktion
f (x) = λ · e− λ x · 1[0,∞) (x)
Z ∞
F (x) = P (X ≤ x) =
λ · e−λ x = 1 − e−λ x · 1(0,∞) (x).
−∞
24
Nutze Eigenschaft der Verteilungsfunktion F (x̃0.5 ) = 0.5 und löse die Gleichung nach
λ auf:
F (x̃0.5 ) = 0.5
1 − e−λ x̃0.5 = 0.5
⇔
⇔
− ln(0.5)
λ
ln(2)
− ln(0.5)
=
λ=
x̃0.5
x̃0.5
x̃0.5 =
⇔
Ersetze nun das 50-Quantil x̃0.5 durch xmed = med {x1 , . . . , xn }, d.h. erhalte als Schätzer für λ.
λ̂1 =
2. Variante
ln(2)
med {x1 , . . . , xn }
über den Erwartungswert:
Mit
E (Xi ) =
1
1
⇔ λ=
λ
E (Xi )
ersetzte theoretisches Moment E(Xi ) durch empirisches Moment X̄ und erhalte offensichtliche Schätzung für λ:
λ̂2 =
1
X̄
.
Eigenschaften von λ̂1 äußerst schwierig herzuleiten, hinter der 2. Variante steht ein
altbewährtes Konzept, denn:
Definition und Satz 3.9. Sei (Xn )n∈N eine Folge von Zufallsvariablen. Falls a ∈ R
existiert, sodass ∀ ε > gilt:
lim = P (|Xn − a| > 0) = 0,
n→∞
dann konvergiert die Folge (Xn )n∈N stochastisch gegen a.
Im Falle u. i v. Zufallsvariablen und existierendem l-ten Moment, d.h. sei l ∈ R und
P ∈ P, sodass µ(l) := Ep Xil existiert, dann konvergiert die Folge der empirischen
l-ten Momente
n
Zn =
1X l
X
n i=1 i
stochastisch gegen µ(l) .
25
Beweis. Betrachte die Folge (Yn )n∈N mit Yi = Xil , dann ist
n
1X
Yi = Ȳi , wobei E(Yi ) = E(Xil ) = µ(l)
Zn =
n i=1
∀ i = 1, . . . , n
Die Behauptung folgt direkt aus dem schwachen Gesetz der großen Zahlen (Siehe 2.2)
Bemerkung. Die zusätzlichie Voraussetzung E(X 2l ) < ∞ wird nicht benötigt! Mehr
dazu in Stat V.
Definition 3.10 (Moment-Methode). Sei (Ω, A, P) statistischer Raum mit parametrischer Verteilungsfamilie P = {Pθ : θ ∈ Θ}, mit Θ ∈ Rk , θ unbekannt, Θ bekannt.
Sei g parametrische Funktion und l ∈ N, sowie (Xn )n∈N eine Folge von u. i. v. Zufallsvariablen. Eine Realisation (x1 , . . . , xn ) von (X1 , . . . , Xn ) sei beobachtbar, g(θ) soll
geschätzt werden.
Dann heißt das folgende Verfahren die Moment-Methode:
Beginne mit i = 1, wobei der i-te Schritt:
• Existiert Eθ (X1i ) HIER FEHLT WAS! HIIIILFE!!!
∀ θ ∈ Θ (mit X1 als Re-
präsentant wegen u. i. v.)
Wenn nein =⇒ Momenten-Methode versagt.
Falls ja =⇒ berechne Eθ (X1i ) =: µi (θ)
• Ist dann g(θ) durch die
g(θ) = h µ1 (θ), . . . , µi (θ)
∀θ ∈ Θ
bestimmt. Mit h ist stetige Funktion, dann wähle als Schätzer für g(θ):
n
n
n
1X
1X 2
1 X i
g(θ) = h
Xj ,
X , ... ,
X .
n j=i
n j=i j
n j=i j
Falls g(θ) nicht in Abhängigkeit von µ1 (θ), . . . , µi (θ) bestimmt ist, erhöhe i um 1,
d. h. nehme (i + 1)-ten Schritt. Ist die Lösung im i-ten Schritt nicht eindeutig, so
wähle denjenigen Schätzer für g(θ) mit besseren Schätzeigenschaften. Der so gewonnene
Schätzer für g(θ) heißt Momentenschätzer für g(θ).
Beispiel 3.11.
26
(a) Pθ = N (0, θ2 ), suche Schätzer für g(θ) = θ, θ > 0.
1. Schritt
Eθ (X1 ) = 0 ⇒ g(θ) ist nicht bestimmt.
2. Schritt Eθ (X12 ) = σ 2 ⇒ g(θ) ist bekannt.
ˆ = θˆ2 = 1 Pn X 2 = X̄ 2 (also h(a, b) = b)
g(θ)
j
n√ j=1
⇒ θ̂1,2 = ± X̄.
√
Da − X̄ 6∈ Θ, folgt:
1
θ̂ = X̄ 2 2
(b) Pθ = N (µ, σ 2 ),
0
θ = (µ, σ 2 ) ,
Θ = R × (0, ∞)
Suche Schätzer für g(θ) = θ:
1. Schritt:
⇒
g(θ) ist nicht bestimmt.
2. Schritt:
⇒
Eθ (X1 ) = µ =: µ1 (µ, σ 2 )
Eθ (X12 = σ 2 + µ2 =: µ2 (µ, σ 2 )
löse beide Gleichungen nach µ und σ 2 auf.
µ = µ1 (µ, σ 2 ) und σ 2 = µ2 (µ, σ 2 ), d. h. wähle
h(a, b) = a , b − a2
mit h : R2 → R2 , somit folgt dann
d = ..U N LESERLICHERM IST..
⇒ g(θ)
Weitere Bemerkungen (inkl. Eigenschaften) zum Momentenschätzer unter Abschnitt
3.3.
3.2.2 Maximum-Likelihood-Methode
Bekannte Methode, brauchbare Schätzer für unbekannte Parameter zu gewinnen, ist
das Maximum-Likelihood-Prinzip (Prinzip der maximalen Wahrscheinlichkeit).
Beispiel 3.12. Ein sechsseitiger Würfel besteht aus roten bzw. schwarzen Punkten
(auf jeder Seite). Werfe n = 5 mal, bei 3 Würfen zeigt der Würfel “Rot” an. Gesucht
ist eine Schätzung von θ, θ = Anzahl roter Seiten.
Offensichtlich ist Θ = {0, 1, . . . , 6}.
ML-Prinzip: Berechne für jedes θ ∈ Θ die Wahrscheinlichkeit dafür, dass bei n = 5
Würfen genau drei mal “Rot” zu beobachten ist, und wähle als ML-Schätzung dasjenige
θ, für welches diese Wahrscheinlichkeit am größten ist.
27
Formel: X1 , . . . , X5 sind u. i. v. Zufallsvariablen mit P
P
X1
= Bin(1, p) mit p = Wahr-
θ
.
6
scheinlichkeit “Rot” =
P
Pn
Xi
⇒
= Bin 5, 6θ .
i=1 Xi = Anzahl “rote Würfe” unter 5 mit P
3
2
P5
Somit ist P
= 53 · 6θ · 1 − 6θ .
i=1 Xi = 3
Erhalte als Ergebnis:
θ
P(
Pn
i=1
0
1
2
3
4
5
6
Xi = 3) 0.000 0.032 0.165 0.313 0.329 0.161 0.000
Achtung! Dies ist keine Wahrscheinlichkeitsfunktion, d.h. im Allgemeinen gilt
X
⇒
pi 6= 1.
für θ = 4 ist die Wahrscheinlichkeit für “3 Mal Rot unter 5 Würfen” am größten,
⇒ θ̂M L
5
X
!
Xi = 3
= 4.
i=1
Definition 3.13. Sei (Ω, A, P statistischer Raum mit P = {Pθ : θ ∈ Θ} und seien
X1 , . . . , Xn Zufallsvariablen. Es gelte:
Für alle θ ∈ Θ hat P X1 ,...,Xn die Dichte (diskret oder stetig)
fθ : Rn → [0, 1] bzw. [0, ∞) .
Sei x = (x1 , . . . , xn )0 , dann heißt LX : Θ → [0, ∞) mit
Lx (θ) := fθ (x)
die Likelihood-Funktion.
Die Funktion lX : Θ → R mit
lx (θ) := ln Lx (θ)
heißt Log-Likelihood-Funktion.
Ein Wert θ̂M L = θ̂M L (x1 , . . . , xn ) ∈ Θ, für den gilt:
LX X̂M L = max Lx (θ)
θ∈Θ
( bzw. θ̂M L = arg max LX (θ) )
θ∈Θ
heißt Schätzwert nach der Maximum-Likelihood-Methode für θ. Sei g : Θ → R eine parametrische Funktion, dann heißt ξˆM L := g θ̂M L die
ML-Schätzung für g(θ).
28
zu Definition 3.13
Die Schätzfunktion (Statistik) T mit
T (ω) = θ̂M L (X1 (ω), . . . , Xn (ω))
heißt ML-Schätzer für θ.
Die Statistik T̃ mit
T̃ (ω) = g (T (ω)) = g θ̂M L (X1 (ω), . . . , Xn (ω))
heißt ML-Schätzer für g(θ).
Beispiel 3.14.
(a) Sei X1 , . . . , Xn u. i. v. mit P Xi = N (µ, σ 2 ), µ ∈ R, σ 2 > 0, d.h. θ =
µ
!
σ2
mit
Xi
Θ = R × (0, ∞). Dann besitzt P(µ,σ
2 ) die stetige Dichte
(x − µ)2
f(µ,σ2 ) (x) = √
exp −
2σ 2
2πσ 2
1
!
Somit ergibt sich für die gemeinsame Dichte von X1 , . . . , Xn
n
Y
(xi − µ)2
√
exp −
f(µ,σ2 ) (x1 , . . . , xn ) =
2
2σ 2
2πσ
i=1
!
n
n
X
(xi − µ)2
1
exp −
= √
2σ 2
2πσ 2
i=1
1
= fµ,σ2 (x1 ) · . . . · fµ,σ2 (xn )
⇒ Likelihood-Funktion:
LX µ, σ
2
=
√
n
1
2πσ 2
exp −
n
X
(xi − µ)2
i=1
!
2σ 2
Zur Bestimmung eines möglichen Maximums verwende die Log-Likelihood-Funktion:
n
n
n
1 X
2
lX (µ, σ ) = ln LX (µ, σ ) = − ln(2π) − ln σ − 2
xi − µ 2
2
2
2σ i=1
2
2
29
mit den Ableitungen:
n
1 X
1
d ln (LX (µ, σ 2 ))
=− 2
2 (xi − µ) (−1) = 2
dµ
2σ i=1
σ
n
X
!
xi − nµ
i=1
n
d ln (LX (µ, σ 2 ))
n 1
1 X
(xi − µ)2
=
+ 4
2
2
dσ
2 σ
2σ i=1
Durch Nullsetzen der Ableitungen erhält man die Lösung
n
n
1X
µ=
xi = x̄ ,
n i=1
1X
σ =
(xi − x̄)2 ,
n i=1
2
Pn
(xi − x̄) 6= 0 gilt.
P
Beachte: Falls ni=1 (xi − x̄) = 0, und alle Beobachtungen sind identisch, dann
falls
i=1
existiert keine simultane Nullstelle mit σ 2 > 0.
Überprüfe die hinreichende Bedingung für ein Maximum, bestimme dazu die zweiten Ableitungen:
dLX (µ, σ 2 )
n
=− 2
2
dµ
σ
!
n
dLX (µ, σ 2 )
n X
=− 4
xi − nµ
dµ dσ 2
σ
i=1
n
= − 4 (x̄ − µ)
σ
n
2
dLX (µ, σ )
n
1X
=− 4 −
(xi − µ)2
2
dµ
2σ
σ i=1
Für die Hesse-Matrix an der Stelle µ̂ = x̄ und σ 2 =
H=
=
1
n
Pn
i=1
(xi − x̄)2 hat die Form
!
− σn2 (x̄ − µ)
P
− σn2 (x̄ − µ) 2σn4 − σ16 ni=1 (xi − µ)2
!
!
n
− σ̂n2
0
0
σ̂ 2
= −1 ·
1
2
0 − σ̂6 n σ̂
0 σ̂n4
|
{z
}
− σn2
positiv definit
Die Hesse-Matrix ist negativ definit (neg. def), und
n
θ̂M L = arg max lX (µ, σ 2 ) = arg max lX
| {z }
θ∈Θ
θ∈Θ
=θ
30
1X
x̄,
(xi − x̄)2
n i=1
!
Beachte: Falls
Pn
i=1
(xi − x̄)2 = 0 gilt, so existiert der ML-Schätzer nicht.
(b) HIER NICHT SICHER OB θ ODER ANDERER BUCHSTABE!!! Seien X1 , . . . , Xn
u. i. v. mit P Xi = Cauchy(θ), einer Verteilung mit viel Wahrscheinlichkeitsmasse
an den Rändern. P Xi besitzt die stetige Dichte
fθ (x) =
1
1
·
π 1 + (x − θ)2
mit θ=
ˆ Zentrum der Verteilung.
Momentmethode versagt bei der Cauchy-Verteilung, da keine endlichen Erwartungswerte.
Aber: θ = med (x).
Bestimme ML-Schätzer mit der Likelihoot-Funktion
2 Y
n
n
Y
1
1
1
1
LX (θ) =
·
.
2 =
π 1 + xi − θ
π
1 + (xi − θ)2
i=1
i=1
Betrachte die Log-Likelihood-Funktion lX (θ) = ln (LX (θ)).
n
dlx (θ) X 2(xi − θ)
=
⇒
dθ
1 + (xi − θ)2
i=1
und erhalte globales Maximum durch numerische Methoden, denn
dlX (θ)
dθ
= 0
bedeutet aufsuchen der Nullstellen eines Polynoms vom Grad 2n − 1.
Für n = 3 erhalte eindeutiges globales Maximum:
Mit x1 < x2 < x3 ist
θ̂M L =
x1 (x3 − x2 )2 + x2 (x3 − x1 )2 ) + x3 (x2 − x1 )2
(x3 − x2 )2 + (x3 − x1 )2 + (x2 − x1 )2
(s. Fergason (1978), JASA 73, 211-213, für n = 3, 4)
Interessantes Phänomen, führt zu Irritationen:
x1 = −1, x2 = 0 und x3 > 0 beliebig. Dann folgt
θ̂(−1,0,x3 )M L =
x3 (1 − x3 )
2(x23 + x3 + 1)
HIER FEHLT EINE GRAFIK
Falls x3 = 1, so ist θ̂(−1,0,1)M L = 0, für x3 > 1 folgt θ̂(−1,0,1)M L < 0, und
limx3 →∞ θ̂(−1,0,x3 )M L = − 12
31
Aber: ML-Schätzung fasst die Beobachtung x3 als Extremwert auf, sofern x3 nur
groß genug ist.
⇒ Zentrum der Verteilung wandert gegen das arithmetische Mittel von x1 und
x2 , also
x1 +x2
2
.
(c) Sei X1 , . . . , Xn u. i. v. mit P Xi = Bin(1, p), mit p ∈ [0, 1] und der Zähldichte
fp (x)

px · (1 − p)1−x
x ∈ {0, 1}
0
sonst
Schreibe x = (x1 , . . . , xn ). Es folgt die Likelihood-Funktion:
Q
 n px · (1 − p)1−x
i=1 i
LX (p) =
0
x ∈ {0, 1}n
sonst
Falls x1 = x2 = · · · = xn = 0:
θ̂M L = p̂M L
n
Y
= arg max
(1 − p) = arg max (1 − p)n = 0
p∈[0,1]
p∈[0,1]
i=1
Falls x1 = x2 = · · · = xn = 1:
θ̂M L = p̂M L = arg max
p∈[0,1]
Sei nun x ∈ {0, 1}n mit 0 <
lX (p) =
Pn
n
X
i=1
n
Y
p = arg max pn = 1
p∈[0,1]
i=1
xi < n, dann ist
!
xi
ln(p) +
n+
n
X
!
xi
ln(1 − p)
i=1
i=1
stetig in p ∈ (0, 1) mit
lim lX (p) = −∞
p→0
lim lx (p) = −∞ ,
und
p→1
somit hat lX (p) ein Maximum in (0, 1). Differenzieren und Nullsetzten ergibt:
dlX (p) !
= 0 ⇐⇒
dp
Pn
i=1
xi
p
Erhalte eine eindeutige Lösung: p̂M L =
Momentenmethode).
32
1
n
P
n − ni=1 xi
−
=0
1−p
Pn
i=1
xi = x̄ (ist auch Schätzer der
3.2.3 Bayes-Schätzer
Bisher: X1 , . . . , Xn Zufallsvariablen mit P Xi ∈ P = {Pθ : θ ∈ Θ} und θ ist unbekannt
aber fest, d. h. schätze die Verteilung aus den Realisationen x1 , . . . , xn durch θ̂.
Jetzt: Sehe den Parameter selbst als Zufallsvariable mit Verteilung Q (sogenannte
a-priori-Verteilung).
Definition 3.15. Sei Rm , B m , P X ein Stichprobenraum mit P X = PθX : θ ∈ Θ
und eindeutiger Parametrisierung. Auf Θ sei eine σ-Algebra ς gegeben.
Dann heißt ein Wahrscheinlichkeitsmaß Q auf (Θ, ς) eine a-priori-Verteilung auf Θ. Die
Menge aller a-priori-Verteilungen auf Θ sei mit Q bezeichnet.
Sei θ nun selber eine Zufallsvariable mit der sogenannten a-priori-Verteilung Q.
Beispiel 3.16.
(a) Ist etwa P X = {N (µ, 1) , µ ∈ R}, dann wäre eine sinnvolle a-priori-Verteilung
(oder auch Vorbewertung), für die etwa Q ( {µ||µ| > 50} ) “sehr klein” ist, z. B.
falls Xi : Wirtschaftswachstum in % im i-ten Jahr.
(b) Seien X1 , . . . , Xn u. i..̌ Zufallsvariablen mit P Xi = Bin(1, p), p ∈ [0, 1), z. B. p =
Heilungswahrscheinlichkeit eines Medikamentes (vergleiche Beispiel 1.2).
Eher unwahrscheinlich als a-priori-Verteilung: Q1 := R [0, 1]
(sozusagen: Ohne Vorbewertung)
Vorstellbar wären a-priori-Verteilungen der Form: Q2 := Dreieck-Verteilung.
A-Priori-Verteilungen werden völlig subjekiv gewählt, auf alle Fälle vor Einsichtnahme in die Datenlage.
Mit der Stichprobeninformation über θ wird diese a-priori-Verteilung aktualisiert
(korrigiert), und erhalte damit die sog. a-posteriori-Verteilung.
Genauer: Sei x = (x1 , . . . , xn )0 ∈ R2 beobachtet, so heißt die bedingte Verteilung von θ bei gegebenem x, d. h. P θ|X=x die a-posteriori-Verteilung über dem
Parameterraum Θ bei Beobachtung x zur a-priori-Verteilung Q.
Nach dem Satz von Bayes gilt:
f (θ|X = x) = R
hθ (x) · f (θ)
, dabei ist
h (x) · f (θ) dθ
Θ θ
f (θ|X = x) Dichte der a-posteriori-Verteilung
f (θ) Dichte der a-priori-Verteilung
hθ (x) Dichte von X
33
Verwende nun a-posteriori-Verteilung zur Schätzung von θ (bzw. g(θ)), in dem
Z
θ · f (θ|X = x) dθ
|
{z
}
θ̂Bayes =
Θ
Erwartungswert der a-posteriori-Verteilung
Hier nun eine Definition des Bayes-Schätzers. In der Entscheidungstheorie (Stat VI)
wird gezeigt, dass er unter gewissen Voraussetzungen diese Gestalt annimmt.
Definition 3.17. Sei (Ω, A, P) statistischer Raum mit P = {Pθ : θ ∈ Θ} und sei Q
eine Verteilung auf (Θ, |{z}
S ) mit Q ∈ Q, Q Menge aller a-priori-Verteilungen auf
σ-Algebra
Θ. Q besitzt die Dichte f .
Weiterhin seien X1 , . . . , Xn Zufallsvariablen und es gelte:
∀ θ ∈ Θ hat P X1 ,··· ,Xn die Dichte hθ : Rn → [0, ∞)oder[0, 1].
Sei g : : Θ → R parametrische Funktion, dann heißt
R
Θ
b =
g (θ)
g(θ) · hθ (x) · f (θ) dθ
R
h (x) · f (θ) dθ
Θ θ
der Bayes-Schätzer für g(θ) bezüglich der a-priori-Verteilung Q.
Beispiel 3.18. Suche Bayes-Schätzer für den Parameter p einer Binomialverteilung
mit a-priori-Verteilung Beta(α, β).
Seien X1 , . . . , Xn u. i. v. mit P X1 = Bin(1, p), p ∈ [0, 1].
Als a-priori-Verteilung Q des Parameters p sei die Beta-Verteilung mit Parametern
α, β > 0 vorgegeben, d. h. Q = Beta(α, β) besitzt die Dichte
1
pα−1 (1 − p)β−1 , p ∈ [0, 1]
B(α, β)
Z 1
=
pα−1 (1 − p)β−1 dp für die gilt:
fα,β (p) =
wobei
B(α, β)
| {z }
0
Beta−F unktion
B(α, β) =
Γ(α) Γ(β)
mit Γ = Gammafunktion .
Γ(α + β)
Γ(α) = (α − 1) · Γ(α − 1).
P
Betrachte nun Y = ni=1 Xi , d. h. Y ist die Anzahl der Erfolge n Versuchen mit P Y =
Beachte:
Bin(n, p)
Mit g(p) = p ergibt sich als Bayes-Schätzer für p bezüglich Q = Beta(α, β) durch:
R
g(p)Bayes = pBayes =
Θ
34
g(θ) · hp (y) · f (p) dp
R
,
h (y) · f (p) dp
Θ p
wobei hp (y) =
n
y
· py · (1 − p)n−y ·
1
Beta(α,β)
∀ y ∈ {0, 1, . . . , n}.
Berechne also:
R1
pBeta(α,β) =
n
1
py (1 − p)n−y B(α,β)
pα−1 (1 − p)β−1 dp
y
0
R 1 n
1
py (1 − p)n−y B(α,β)
pα−1 (1 − p)β−1 dp
0 y
Z 1
n
Γ(α + β)
α+y
n−y+β−1
p
·
·
p
(1 − p)
dp
y
Γ(α) Γ(β) 0
Z 1
n
Γ(α + β)
Nenner =
·
·
pα+y−1 (1 − p)n−y+β−1 dp
y
Γ(α) Γ(β) 0
R 1 α+y
p
(1 − p)n−y+β−1 dp
⇒ pBayes (y) = R 10
pα+y−1 (1 − p)n−y+β−1 dp
0
B(α + y + 1, n − y + β)
=
B(α + y, n − y + β)
Γ(α) Γ(β)
Γ(α + y + 1) Γ(n − y + β)
Γ(n + α + β)
B(α, β) =
→=
·
Γ(α + β)
Γ(n + α + β + 1)
Γ(α + y) · Γ(n − y + β)
α+y
Γ(α + 1) = α · Γ(α) → =
α+β+n
Zähler =
Also speziell für Beta(1, 1) = R[0, 1] ergibt sich
p̂Bayes =
Der ML-Schätzer p̂M L =
y
n
y+1
n+2
ergibt sich offenbar keine der a-priori-Verteilungen Beta(α, β).
Beispiel 3.19. Suche Bayes-Schätzer für den parameter µ einer Normalverteilung mit
a-priori-Normalverteilung.
Seien X1 , . . . , Xn u. i. v. mit P Xi = N (µ, σ02 ), µ ∈ R, σ02 > 0 gegeben.
Als a-priori-Verteilung Q des Parameters µ wähle eine Normalverteilung Q = N (0, κ2 ),
mit κ2 > 0, d.h. Q besitzt die Dichte
µ2
fκ (µ) = √
exp − 2 .
2κ
2πκ2
1
Die gemeinsame Dichte von P X1 ,...,Xn lautet:
hµ (x) =
1
p
!n
2πσ02
exp
Bestimme Bayes-Schätzer für g(µ) = µ:
35
n
1 X
− 2
(xi − µ)2
2σ0 i=1
!
.
Betrachte zunächst
!n
!
n
µ
1 X
p
exp − 2 − 2
(xi − µ)2
fκ (µ) · hµ (x) = √
2
2
2κ
2σ
2πκ
2πσ0
0
0 i=1
n
1 X 2
1 1
n
2
µ
+
nx
x̄
·
µ
−
=−
+
2
2
2 κ2 σ0
σ0
2σ02 i=1 i
−1
1
n
2
mit τ =
folgt
+
κ2 σ 2
!
!n
n
1
2nτ 2
1
1
1 X 2
2
p
x · exp − 2 µ − 2 x̄µ
=√
exp − 2
2σ0 i=1 i
2σ0
σ0
2πκ2
2πσ02
!
√
2
2τ 2
1
nτ 2
µ − 2 x̄
= c(κ, x) · √
· exp − p
σ0
2πκ2
2πσ02
!
!
√
n
n
nτ x2
2τ 2
1 X 2
1
p
x +
exp − 2
mit c(κ, x) = √
2σ0 i=1 i 2τ 2 σ06
2πκ2
2πσ02
1
1
Also ist fκ (µ) · hµ (x) = c(κ, x)
| {z }
die Dichte von N
unabh. von µ
nτ 2
2
x̄, τ .
σ02
Somit erhalten wir nun den Bayes-Schätzer für µ:
R
µ̂Bayes (x) =
Θ
R
µ · fκ (µ) · hµ (x) dµ
f (µ) · hµ (x) dµ
Θ κ
c(κ, x) · 1. Moment einer N
=
c(κ, x)
nτ
nx̂
=
= 2 x̄ =
σ0
σ02 κ12 + σ12
2
0
nτ 2
x̄, τ 2
σ02
nκ2
σ02 + nκ2
| {z }
x̄.
<1,d.h. x̄ wird geschrumpft
Für κ → ∞ erhalte µ̂Bayes (x) = x̄ = µ̂M L .
Mehr zu Bayes-Schätzer in Statik VI - Entscheidungstheorie. Weitere Konzepte zur
Findung von Schätzern: Punktschätzer, Lineare Modelle.
3.3 Kriterien zur Beurteilung der Güte einer Schätzfunktion
Ein Motivationsbeispiel zur Einführung
Beispiel 3.20. Sei Xi die Lebenszeit des i-ten Bauteils einer Charge mit P Xi =
Exp(λ), λ > 0, λ ist dabei die Ausfallrate.
36
Hier von Interesse: Halbwertszeit, d. h. die Zeit, die von der Hälfte überdauert wird.
Lieferant stellt zwei identisch aussehende Versionen her:
Kosten:
prog. HWZ:
Version A
billig
69.3 Tage
Version B
teuer
55.4 Tage
Der Kunde erhält Lieferung von Teilen (bezahlt als Version A), von denen sehr schnell
die ersten verwendeten Teile ausfallen.
Ziehe eine Stichprobe vom Umfang n = 99 und beobachte die Lebenszeiten Xi mit
1 ≤ i ≤ 99 in Tagen.
Ziel: Untersuche die Halbwertszeit (HWZ) der gelieferten Teile.
Mit P Xi = Exp(λ), nehme also an, dass es zwei Möglichkeiten für λ gibt, d. h.
λ ∈ {λ1 , λ2 } = Θ.
Zusammenhang zwischen Ausfallrate λ und Halbwertszeit h(λ):
1 !
= Pλ (X ≥ h(λ)) = 1 − Pλ (x ≤ h(λ))
2
= 1 − Fλ (h(x))
1
⇔ exp (−λ · h(λ)) =
2
⇔ −λ · h(λ) = − ln(2)
⇔ h(λ) =
ln(2)
ln(2)
bzw. λ =
λ
h(λ)
Also:
Version A
Version B
HWZ h(λ)
69.3
35.4
Ausfallrate
λ1 = ln(2)
≈ 0.01
69.3
ln(2)
λ2 = 35.4 ≈ 0.0125
Das Modell lautet daher:
X1 , . . . , Xn u. i. v. mit P Xi = {Exp(λ) : λ ∈ {0.01, 0.0125}}. Die Stichprobe liefert den
Beobachtungsvektor x ∈ R99 mit dem arithmetischen Mittel x̄ = 92.66 und dem Median
xmed = 63.2.
Zum Schätzen der Halbwertszeit betrachte 5 Möglichkeiten:
1. Momentschätzer Es gilt Eλ (Xi ) =
1
.
λ
Mit h(λ) =
ĥM om (x) = ln(2) · X̄ (im Bsp. XXXXX.XXXX)
37
ln(2)
λ
= ln(2) · E(Xi ) ist also
2. ML-Schätzer Die Dichte von PλXi ist
fλXi = λ · exp(−λ x) · 1[0,∞) (x).
Die gemeinsame Dichte fλX1 ,...,X99 von PλX1 ,...,X99 ist
fλX1 ,...,X99 (x1 , . . . , x99 ) = λ99 · exp −λ ·
99
X
!
xi
i=1
=: Lx (λ)
(falls xi > 0 für i = 1, . . . , 99).
Der ML-Schätzer wählt dasjenige λ ∈ Θ aus, für das Lx (λ) maximal ist, also
entweder λ1 oder λ2 :
Somit ist λ̂irgendwas (x) = λ1 ⇔ Lx (λ1 ) > Lx (λ2 )
!
!
n
n
X
X
⇔ λ99
xi > λ99
xi
1 · exp −λ1
2 · exp −λ2
i=1
99
X
⇔ 99 · ln(λ1 ) − λ1 ·
⇔ (λ1 − λ2 ) ·
| {z }
>0
i=1
99
X
i=1
xi > 99 · ln(λ2 ) − λ2 ·
99
X
xi
i=1
xi > 99 · (ln(λ2 ) − ln(λ1 ))
i=1
99
1 X
ln(λ2 ) − ln(λ1 )
⇔
xi >
99 i=1
λ2 − λ1
⇒ x̄ > IrGeN
|
{zdW as}
=89.26
Falls x̄ < 89.26, entscheide man sich für λ2 als ML-Schätzer. Falls x̄ = 89.26, also
Lx (λ1 ) = Lx (λ2 ), ist der ML-Schätzer nicht eindeutig, somit willkürliche Wahl
von λ.
ML-Schätzer der Halbwertszeit:
ĥM L = ln(2) ·
1
λ̂M L (x)
(Im Beispiel: Aus λ̂M L (x) = λ1 = 0.01 folgt ĥM L (x) = 69.3).
3. Empirische Halbwertszeit Die Hälfte der Bauteile bis zur Zeit xmed = 63.2 ausgefallen. Wähle daher als Schätzer
ĥmed (x) = xmed
38
(Im Beispiel: 63.2 = ĥmed (x))
4. Pessimistischer Schätzer Gehe immer – unabhängig von den Beobachtungen –
von einer Lieferung der Version B, d. h. der schlechteren, aus.
(Im Beispiel: ĥpess (x) = 55.4 ∀x ∈ R99 )
5. Optimistischer Schätzer Gehe immer von einer Lieferung der Version A, also der
besseren, aus.
(Im Beispiel: ĥopt (x) = 55.4 ∀x ∈ R99 )
Darstellung der Schätzfunktionen ĥM om , ĥM L , ĥpess und ĥopt :
...
...
. . . Hier fehlt
. . . eine Grafik
...
...
Der Schätzer ĥmed ist in diesem Bild nicht darstellbar, da der Median alle Einzelbeobachtungen benötigt und nicht x̄.
Es stellt sich die Frage: Welchen Schätzer soll man wählen?
3.3.1 Mean Square Error (MSE)
Wann ist ein Schätzer gut?
Beispiel 3.21 (Fortsetzung von Bsp. 3.20). Ein Schätzer ist immer dann gut, falls
2
A(x, λ1 ) = ĥ(x) − h(λ)
möglichst klein wird. Dieser Term hängt vom wahren Parameter λ und den Beobachtungen x ab.
1. Fall: Sei λ = λ1 = 0.01 und h(λ1 ) =: h1 = 69.3, d. h. der Kunde erhält tatsächlich
Version A. Dann ist
2
Aopt (x, λ1 ) = ĥopt (x) − h(λ) = 0 ∀ x ∈ R99 .
Vergleich von ĥopt , ĥM L und ĥpess :
39
Falls x̄ < 79.9:
AM om (x, λ1 ) > AM L (x, λ1 ) = Apess (x, λ1 )
x̄ ∈ (79.9, 89.26):
AM om (x, λ1 ) < AM L (x, λ1 ) = Apess (x, λ1 )
x̄ ∈ (89.26, 120.0):
AM L (x, λ1 ) < AM om (x, λ1 ) < Apess (x, λ1 )
| {z }
=0
x̄ > 120.0:
AM L (x, λ1 ) < Apess (x, λ) < AM om (x, λ)
2. Fall: λ = λ2 = 0.0125 und h2 (λ) = 55.4, d. h. der Kunde erhält Version B. Hier ist
Apess (x, λ2 ) = 0.
Vergleich von ĥopt , ĥM L und ĥopt : Analog zu Fall 1.
Fazit: Unter den vier Schätzern ist keiner für alle x ∈ R99 und jedes λ ∈ Θ der Beste.
A wird auch als Verlust bezeichnet, den wir bei der Wahl des Schätzers ĥ erleiden.
Aus Beispiel 3.21 ist sinnvoll:
Betrachte den durchschnittlichen oder erwarteten Verlust
2
Eλ ĥ(x) − h(λ) . (∗)
Wähle die Schätzfunktion ĥ so, dass (∗) minimal wird. Dazu die folgende Definition:
Definition 3.22. Sei (Ω, A, P) ein statistischer Raum mit P := {Pθ : θ ∈ Θ} und sei
g : Θ → R eine parametrische Funktion und X1 , . . . , Xn Zufallsvariablen.
Sei ĝ(θ) := T := t(X1 , . . . , Xn ) ein Schätzer für g(θ). Dann heißt
M SEθ (ĝ(θ)) := Eθ (ĝ(θ) − g(θ))2
der erwartete Verlust oder Mean Squared Error (MSE) von ĝ(θ) bei Vorliegen von θ.
Bemerkung 3.23.
(a) Im Allgemeinen hängt die Verteilung von ĝ(θ) − g(θ) von θ ab.
(b) Abgesehen von Ausnahmefällen gibt es keinen Schätzer, der verglichen mit jedem
anderen Schätzer für jedes θ ∈ Θ einen kleineren MSE hätte als z. B.
X1 , . . . , Xn u. i. v. mit P Xi besitzt fθ (x), θ ∈ R. θ sei zu schätzen, d. h. g(θ) = θ.
Suche θ̂∗ für θ, sodass
∗
Eθ θ̂ − θ
2
≤ Eθ θ̂ − θ
für jedes θ ∈ Θ und jeden Schätzer θ̂ gilt.
Betrachte den Schätzer θ̂(X1 , . . . , Xn ) = θ0 , θ0 fest,
40
2
2
⇒ Eθ0 θ̂(X1 , . . . , Xn ) − θ0
= Eθ0 (θ0 − θ0 )2 = 0. Konstruiere solchen Schätzer für beliebiges, aber festes θ0 , dann folgt für θ̂∗ mit obigen Eigenschaften:
∗
Eθ θ̂ − θ
2
= 0 ∀θ ∈ Θ.
Einen solche Schätzer gibt es im Allgemeinen aber nicht!
Beispiel 3.24 (Fortführung von Beispiel 3.21).
1. Fall Falls λ = λ1 = 0.01 bzw. h(λ1 ) =: h1 =: 69.3:
Momentenschätzer:
2
M SEλ1 (ĥM om ) = Eλ1 ĥM om (X1 , . . . , Xn ) − h(λ1 )
2
ln(2)
= Eλ1 X̄ · ln(2) −
λ1
2
= (ln(2))2 · Eλ1 X̄ − Eλ1 (X̄)
1
= (ln(2))2 · V arλ1 (X1 )
n
2
1
1
=
ln(2)
= 48.53
99
0.01
(erw. Verlust des Momentenschätzers für λ = λ1 = 0.01)
ML-Schätzer:
2
M SEλ1 (ĥM L ) = Eλ1 ĥM L (X1 , . . . , Xn ) − h(λ1 )
= (55.4 − 69.3)2 · Pλ1 (X̄ < 89.26) + (69.3 − 69.3)2 · Pλ1 (X̄ ≥ 89.26)
!
n
n
X
X
= 193.21 · Pλ1
Xi < 89.26 · n
(
Xi ist Erl(n, λ)-verteilt)
Z
i=1
89.26·n
= 193.21 ·
λ1
0
i=1
n−1
(λ1 · x)
e−λ·x dx
(n − 1)!
= 193.21 · 0.1410 = 27.25.
Alternative Berechnung: Sei
X̄ −
Z= q
1
λ1
1
λ1
41
·
√
n,
dann ist mit Satz 2.10
W
PλZ1 −→ Pλ1
X̄ −
1
λ1
1
λ1
89.26 −
√
· n<
1
1
λ1
·
√
!
n
λ1
89.26 − 100 √
= Pλ1 Z <
· 99
100
{z
}
|
≈−1.07
≈ 1 − Φ(1.07) ≈ 0.1423
Empirische Halbwertszeit:
Exakte Verteilung von ĥmed = med(x1 , . . . , xn ) ist schwierig zu bestimmen. Aber
für große n und unabhängig identisch verteilte X1 , . . . , Xn mit P Xi = Exp(λ) gilt
(vgl. Theorem 8.51 aus Arnold, Balakrishnan, Nagaraja: A first course in order
statistics):
P
med(X1 ,...,Xn ) approx
∼ N
1 1
ln(2) , 2
λ nλ
.
Somit ergibt sich
2
M SEλ1 (ĥmed ) = Eλ1 ĥmed (X1 , . . . , Xn ) − h(λ1 )
= V arλ1 ((med(X1 , . . . , Xn ))
1
1
=
= 101.11
≈
2
nλ1
99 · 0.012
Pessimistischer Schätzer:
2
M SEλ1 (ĥpess ) = Eλ1 ĥopt (X1 , . . . , Xn ) − h(λ)
= (55.4 − 69.3)2 = 193.21
Optimistischer Schärtzer:
M SEλ1 (ĥopt ) = Eλ1 ((X1 , . . . , Xn ) − h(λ1 ))2
= (69.3 − 69.3)2 = 0
42
2. Fall λ = λ2 = 0.0125 bzw. h(λ2 ) = 55.4. Analog zum ersten Fall erhalten wir:
M SEλ2 (ĥM om ) = 31.00
M SEλ2 (ĥM L ) = 23.19
M SEλ2 (ĥmed ) = 64.65
M SEλ2 (ĥpess ) = 0
M SEλ2 (ĥopt ) = 193.21
Keiner der fünf vorgestellten Schätzer minimiert für alle λ ∈ {λ1 , λ2 } den M SEλ !
Satz 3.25 (zur Berechnung des M SE). Unter der Definition 3.22 gilt:
M SEθ (ĝ(θ)) = V arθ (ĝ(θ)) + (Eθ (ĝ(θ)) − g(θ))2
Beweis.
2
M SEθ (ĝ(θ)) = Eθ
ĝ(θ)
|{z}
abh. von ZV.
− g(θ)
|{z}
fest
2
= Eθ ĝ(θ) − Eθ ĝ(θ) + Eθ ĝθ − g(θ)
{z
} |
{z
}
|
a
b
2
2
= Eθ ĝ(θ) − Eθ ĝ(θ)
+ Eθ ĝθ − g(θ)
· Eθ ĝ(θ) − g(θ)
− 2 · Eθ ĝ(θ) − Eθ ĝ(θ)
{z
}
|
=0
2
2 = Eθ ĝ(θ) − Eθ g(θ)
+ Eθ ĝ(θ) − g(θ)
2
= V ar ĝ(θ) + Eθ ĝ(θ) − g(θ)
Die Zerlegung des MSE motiviert weitere Gütekriterien:
3.3.2 Erwartungstreue und Verzerrung
Definition 3.26. Situation wie in (3.22)
43
(a) Eine Schätzfunktion T = t(X) heißt erwartungstreu oder unverzerrt, (unbiased)
für g(θ), falls Eθ (T ) = g(θ) gilt für alle θ ∈ Θ.
(b) T heißt verzerrt (unbiased), falls Eθ (T ) = g(θ) + b(θ), mit b(θ) = 0 für mindestens
ein θ ∈ Θ, und
(c) Gilt Eθ (Tn ) = Eθ (t(X1, . . . , Xn )) = g(θ)+bn (θ) und limn→∞ bn (θ) = 0, dann heißt
Tn asymptotisch erwartungstreu.
Bemerkung.
(a) Die Einschränkungen auf unverzerrte Schätzer befreit uns in (3.20) von den lokalen
Schätzern ĥpess und ĥopt , aber auch ML-Schätzer ĥM L (X1 , . . . , Xn ) fällt weg.
(b) Falls T erwartungstreu für g(θ), so folgt im Allgemeinen nicht, dass g(T ) erwartungstreu für g(θ) ist!
(c) Satz 3.25 besagt: M SE = V ar + Bias2
(d) Wünschenswert: T ist erwartungstreu und T besitzt kleine Varianz, jedoch oftmals
nicht beides vereinbar.
Illustration
...
...
...
...
...
...
Satz 3.27. Seien X1 , . . . , Xn Zufallsvariablen mit E(Xi ) = µ (für alle i ∈ 1, . . . , n),
P
µ ∈ R, σ 2 > 0. Dann ist T := µ̂ := X̄ = n1 ni=1 Xi erwartungstreu.
Beweis. Eµ (X̄) = Eµ
1
n
Pn
i=1
Xi =
1
n
Pn
i=1
Eµ (Xi ) =
1
n
Pn
i=1
µ = µ.
Nun zu Eigenschaften von Varianzschätzern:
Satz 3.28. Seien X1 , . . . , Xn stochastisch unabhängige Zufallsvariablen mit E(Xi ) = µ
und V ar(Xi ) = σ 2 , i ∈ {1, . . . , n}, µ ∈ R,σ 2 > 0. Dann folgt:
P
ˆ 21 := s2 = 1 n (Xi − X̄)2 ist asymptotisch erwartungstreu für σ 2 .
(a) T1 := sigma
i=1
n
44
(b) T2 := σ̂22 := σ̂ 2 =
1
n−1
Pn
i=1 (Xi
− X̄)2 ist erwartungstreu, falls n > 1.
Beweis. Sei θ = (µ, σ 2 )T ∈ R.
(a)
1
2
(Xi − µ + X̄ − µ)
Eθ (s ) = Eθ
n
!
n
1X
= Eθ
(Xi − µ)2 + Eθ (Xi − µ)2
n i=1
X
n
1
− 2 · Eθ
(Xi − µ) ·(Xi − µ)
n i=1
|
{z
}
2
=X̄−µ
X
n
1
2
= Eθ
(Xi − µ) − Eθ (X̄ − µ)2
n
i=1
n
1X
Eθ (Xi − µ)2 −V ar(X̄)
=
{z
}
n i=1 |
=V ar(Xi )
1
n−1
1 2
σ2
2
2
2
Daraus folgt Eθ (s ) = · n · σ − σ = σ −
=σ ·
.
n
n
n
2 n
σ
Für bn (s2 ) = −
als Verzerrung gilt: limn→∞ bn (s2 ) = 0, d. h. s2 ist asymn
ptotisch erwartungstreu für σ 2 .
2
(b) folgt direkt aus
(a), denn
n
n−1 2
n
n
2
2
·σ =
·
σ = σ2.
E(s2 ) =
Eθ (σ̂ ) = Eθ
n−1
n−1
n−1
n
Durchaus nützlich zur Findung erwartungstreuer Schätzer ist:
Satz 3.29. Sei T := t(X1 , . . . , Xn ) ein Schätzer und g(θ) parametrische Funktion mit
θ ∈ Θ und es gilt:
Eθ (t(X)) = Eθ (T ) = a + c · g(θ),
a, c ∈ R, c 6= 0 konstant.
T −a
erwartungstreu für g(θ).
c
1
T −a
1
Beweis. Es gilt: Eθ
=
Eθ (T ) − a =
a + c · g(θ) − a = g(θ).
b
c
c
Dann ist
45
Dieser Satz findet z. B. Anwendung bei:
X1 , . . . , Xn u. i. v. Zufallsvariablen mit P Xi = R[0, θ] (Rechteckverteilung), d. h. die
1
Verteilung der Xi besitzt die Dichte fθ (x) = 1[0,θ] (x).
θ
Mit Eθ (Xi ) = 21 θ ist Eθ (2X̄i ) = θ ein erwartungstreuer Schätzer für θ. (2X̄ ist Schätzer
nach der Momentenmethode)
3.3.3 Konsistenz
Fordere: Die Schätzfunktion θ̂ soll möglichst nahe bei dem zu schätzenden Parameter
θ liegen. Die Quantitative Präzision ist auf verschiedene Weisen möglich.
1. Parameter θ soll im Durchschnitt von der Schätzung θ̂ getroffen werden,
→ Erwartungstreue
2. Die Schätzung θ̂ wird mit steigendem Stichprobenumfang immer genauer und im
Grenzfall (n → ∞) verschwindet der Schätzfehler (θ̂ − θ),
→ Konsistenzbegriff
Definition 3.30. Sei (Ω, A, P) ein statistischer Raum, und X1 , . . . , Xn Zufallsvariablen
mit gemeinsamer VerteilungPθX1 ,...,Xn , θ ∈ Θ. Sei weiterhin g : Θ → R parametrische
Funktion.
Eine Stichprobenfunktion Tn = tn (X1 , . . . , Xn ) für g(θ) heißt:
(a) schwach konsistent für g(θ), falls
lim Pθ (|Tn − g(θ)| > ε) = 0 ∀ ε > 0, θ ∈ Θ.
n→∞
(b) stark konsistent für g(θ), falls
Pθ
lim Tn = g(θ) = 1 ∀ θ ∈ Θ.
n→∞
(c) konsistent im quadratischen Mittel für g(θ), wenn
2 n→∞
Eθ Tn − g(θ) −−−→ 0
(MSE gegen 0)
46
∀θ∈Θ
Bemerkung 3.31. (a) Konsistenzbegriffe stehen in direktem Zusammenhang zu den
Konvergenzbegriffen (Vergleiche (2.8): schwache Konvergenz). Beim schwächeren Konsistenzbegriff werden nicht spezielle Realisationen der Schätzfunktion betrachtet, sondern Wahrscheinlichkeiten für bestimmte Ereignisse.
(b) Es gilt:
Schwache Konvergenz
)
Konsistenz i. q. M.
=⇒ schwache Konsistenz
im Allg.
starke Konsistenz ⇐⇒ Konsistenz i. q. M.
(c) Ist θ̂ stark oder schwach konsistent und g stetige parametrische Funktion, dann
ist ĝ(θ) konsistent für g(θ) in dem entsprechenden Sinne.
n→∞
(d) Konsistenz i. q. M. ⇔ M SEθ (Tn ) −→ 0 und mit (3.25) ist
M SEθ (Tn ) = V arθ (Tn ) + b2n (Tn ), sodass

n→∞
V arθ (Tn )
−→ 0
n→∞
M SEθ (Tn ) −→ 0 ⇐⇒
Bias (T ) = b (T ) n→∞
−→ 0
θ
n
θ
n
(e) Überprüfe schwache Konsistenz mittels Tscherbyschev-Ungleichung, denn aus
Eθ (Tn ) = g(θ) ∀ θ ∈ Θ
folgt
Pθ (|Tn − g(θ)| > ε) ≤ V arθ
(Tn )
.
ε2
Für die starke Konvsistenz verwende die Kolmogoriv’sche Ungleichung, Nachweis
gestaltet sich häufig schwierig. (∗)
Satz 3.32. Der in (3.10) definierte Momentschätzer für g(θ) ist
n
Tn = ĝ(θ) = h
n
n
1X
1X 2
1X i
Xj ,
Xj , . . . ,
X
n j=1
n j=1
n j=1 j
!
,
ist schwach konsistent, wobei h eine stetige Funktion und g(θ) in Abhängigkeit von
µ1 (θ), . . . , µn (θ) bestimmt ist.
47
Beweis. Wegen (3.9) gilt für jedes r ∈ N, 1 ≤ r ≤ i: µ̂r :=
Pn
i=1
Xir konvergiert
stochastisch gegen das theoretische Moment µr (θ). (∗)
Mit der Stetigkeit von h gilt:
∀ θ > 0 ∃ ε > 0, sodass, falls |µ̂1 − µ1 | ≤ ε , . . . , |µ̂i − µi | ≤ ε, dann gilt:
|h (µ̂1 , . . . , µ̂i ) − h (µ1 (θ), . . . , µi (θ))| ≤ δ.
Also ist |h (µ̂1 , . . . , µ̂i ) − h (µ1 (θ), . . . , µi (θ))| > δ, falls mind. ein |µ̂i − µi (θ)| > δ.
Schließlich gilt:
0 ≤ Pθ (|h(µ̂1 , . . . .µ̂i ) − h (µ1 (θ), . . . , µi (θ))| > θ)
≤ Pθ ( min. ein |µ̂r − µr (θ)| > ε)
≤ Pθ (|µ̂1 − µ1 (θ)| > ε)) + · · · + Pθ (|µ̂i − µi (θ)| > ε))
|
{z
}
{z
}
|
→0 wegen (∗)
→0 wegen (∗)
→ 0,
da nur endlich viele Summanden i vorliegen.
3.3.4 Effizienz und Cramer-Rao-Ungleichung
In (3.25) hatten wir:
M SEθ ĝ (θ) = V arθ ĝ(θ) + Bias2 ,
Wobei Bias2 = 0 für alle erwartungstreuen Schätzer ĝ(θ), d.h. gemessen am MSE
wäre unter den erwartungstreuen Schätzern derjenige besser, der die kleinere Varianz
besitzt.
Definition 3.33.
(a) Seien T1 = t1 (X1 , . . . , Xn ) und T2 = t2 (X1 , . . . , Xn ) erwartungstreu für die parametrische Funktion g(θ). Dann heißt T1 effizienter als T2 zur Schätzung von g(θ),
falls
V arθ (T1 ) ≤ V arθ (T2 ) ∀ θ ∈ Θ
und V arθ (T1 ) ≤ V arθ (T2 ) für wenigstens ein θ ∈ Θ.
(b) Sei M die Menge aller erwartungstreuen Schätzer t(X1 , . . . , Xn ) für g(θ), so heißt
48
ein Schätzer t∗ (X1 , . . . , Xn ) effizient für g(θ), falls
t∗ (X1 , . . . , Xn ) ∈ M und
V arθ (t∗ (X1 , . . . , Xn )) ≤ V arθ (T2 ) ∀ θ ∈ Θ und ∀ t ∈ M
(c) Ist M∗ die Menge aller asymptotisch erwartungstreuen Schätzer für g(θ), so heißt
t∗n (X1 , . . . , Xn ) asymptotisch effizient, wenn
t∗n (X1 , . . . ,Xn ) ∈ M∗
und
lim V arθ (t∗ (X1 , . . . , Xn )) ≤ lim V arθ (t∗ (X1 , . . . , Xn ))
n→∞
n→∞
∀ θ ∈ Θ und tn ∈ M∗ .
Wie finden wir effiziente Schätzer?
Beispiel 3.34. Seien X1 , . . . , Xn u. i. v. Zufallsvariablen mit P Xi = {Bin(1, p) : p ∈ (0, 1)}.
Der Schätzer X̄ := t∗ (X1 , . . . , Xn ) ist erwartungstreu für p mit
V arp (X̄) =
n
1
1 X
· p · (1 − p).
V
ar
(X
)
=
p
i
n2 i=1
n
Betrachte einen beliebigen anderen erwartungstreuen Schätzer t(X1 , . . . , Xn ) für p. Ist
es möglich, dass t(X1 , . . . , Xn ) für irgendein p ∈ (0, 1) eine kleinere Varianz hat als X̄?
Da t(X1 , . . . , Xn ) erwartungstreu ist für p, gilt:
gem. Zähldichte
p = Ep (t(X1 , . . . , Xn )) =
X
x1
···
X
z
}|
{
X1 ,...,Xn
t(x1 , . . . , xn ) · fp
(x1 , . . . , xn )
xn
 P
P
p xi · (1 − p)n− x1 , falls xi ∈ {0, 1}
mit fpX1 ,...,Xn (x1 , . . . , xn ) =
0,
sonst.
49
Also gilt für p ∈ (0, 1):
p=
1
X
1
X
···
x1 =0
t(X1 , . . . , Xn ) · p
P
xi
· (1 − p)n−
P
xi
xn =0
{z
}
|
d
1=
(
∗
)
dp
X
X
X
P
P
1
1
xi −1
n− xi
xi ) ·
=
xi · p
· (1 − p)
·
xi · − (n −
p
1−p
X
X
P
P
1
1
xi −1
n− xi
=
xi · p
· (1 − p)
·
xi · − (1 − xi ) ·
p
1−p
|
{z
}
|
{z
}
X ,...,X
ableiten ⇒
fθ
d. h. 1 =
1
X
1
X
···
x1 =0
= Ep
n
1
=lp∗ (xi )
(x1 ,...,xn )
A(x1 , . . . , xn ) ·
n
X
xn =0
lp∗ (xi ) · fpX1 ,...,Xn (x1 , . . . , xn )
i=1
t(X1 , . . . , Xn ) ·
n
X
!
lp∗ (Xi )
i=1
Nun ist Ep
Pn
∗
i=1 lp (Xi )
Pn
=
i=1
X u.i.v.
Ep lp∗ (Xi ) i = n · Ep lp∗ (X1 ) mit X1 als Reprä-
sentant, und mit
Ep
lp∗ (X1 )
=
1
X
i=0
lp∗ (x) · f X1 (xi )
| {z }
Bernulli-Vert.
= lp∗ (0) · fpX1 (0) + lp∗ (1) · fpX1 (1)
1
1
= (0 − 1 ·
) · (1 − p) + (1 · − 0)
1−p
p
= −1 + 1 = 0
Erhalte daher:
1=
t(X1 , . . . , Xn ) ·
n
X
!
lp∗ (Xi )
i=1
= Covp
t(X1 , . . . , Xn ) ,
n
X
− Ep
|
t(X1 , . . . , Xn ) · Ep
{z
} |
=p n. Vor.
!
lp∗ (Xi )
i=1
v
u
q
u
≤ V arp (t(X1 , . . . , Xn )) · tV arp
n
X
i=1
50
!
lp∗ (Xi )
(+)
n
X
!
lp∗ (Xi )
i=1
{z
=0
}
Da X1 , . . . , Xn u. i. v. sind, gilt:
V arp
n
X
!
lp∗ (Xi )
=
i=1
n
X
V arp lp∗ (Xi ) = n · V arp lp∗ (X1 )
i=1
= n · Ep
d. h. V arp
n
X
2 lp∗ (Xi )
!
lp∗ (Xi )
= n · lp∗ (0)2 · fpXi (0) + lp∗ (1)2 · fpXi (1)
i=1
"
1
−
1−p
=n·
=n·
2
1
1
+
1−p p
2 #
1
· (1 − p) +
·p
p
=n·
1
p · (1 − p)
Durch einsetzen in (+) folgt:
⇒ V arp (t(X1 , . . . , Xn )) ≥
1
n·
1
p·(1−p)
=
p · (1 − p)
= V arp (X̂),
n
d. h. es gibt unter den erwartungstreuen Schätzern für p keinen effizienteren Schätzer
als X̄.
Das Ergebnis aus (3.34) lässt sich verallgemeinern, nämlich in der Klasse der regulärten
Verteilungsfamilien.
Definition 3.35. Sei (Ω, A, P) statistischer Raum mit P = {Pθ : θ ∈ Θ} und sei X
eine Zufallsvariable. Für jedes x ∈ R definiere die Likelihood LX (θ) : Θ → [0, ∞) mit
LX (θ) = fθ (x).Es gilt:(R1) Θ ist ein offenes Intervall in R.
(R2) Entweder gibt es ein abzählbares T ⊂ R, sodass für alle θ ∈ Θ PθX diskret ist mit
Zähldichte fθ und Träger T .
(R3) L0X (θ) existiert und ist stetig für alle θ ∈ Θ.
R 0
Pn
0
X
X
(R4)
i=1 LX (θ) = 0 falls Pθ diskret, und T LX (θ) dx = 0 falls Pθ stetig.
Unter den Regularitätsbedingungen (R1) – (R4) heißt P X reguläre Verteilungsfamilie.
Beispiel 3.36 (Fortführung von (3.34)). P X {Bin(1, p) : p ∈ (0, 1)} ist reguläre Familie, denn:
(R1) Θ = (0, 1) ist Teilmenge des R und offenes Intervall.
51
(R2) PpX hat die diskrete Dichte
fp (x) =

px · (1 − p)1−x
falls x ∈ {0, 1},
0
sonst.
(R3) Für x = 0 ist Lx (p) = fp (0) = (1 − p). Das ist differenzierbar und die Ableitung
L0x (p) = 1 für alle p ∈ (0, 1) ist stetig.
Für x = 1 ist Lx (p) = fp (1) = p für alle p ∈ (0, 1) differenzierbar und auch die
Ableitung L0x (p) ist stetig.
Für x 6∈ {0, 1} ist Lx (p) = 0. Somit ist Lx differenzierbar und L0x (p) = 0∀p ∈ Θ,
und L0x ist stetig.
(R4) Der Träger von PpX ist aber T = {0, 1} für alle p ∈ Θ. Damit gilt
1
X
L0x (p) = −1 + 1 = 0
i=0
Somit ist P X eine reguläre Familie.
Bemerkung 3.37. Bei diskretem PθX gilt ∀θ ∈ Θ:
X
1=
fθ (x) =
X
Lx (θ)
x∈T
x∈T
d X
⇒ 0=
Lx (θ)
dθ x∈T
Da L0x (θ) =
d
L(θ), ist (R4) äquivalent zu:
dθ
X d
d X
!
!
Lx (θ) = 0 =
Lx (θ).
dθ x∈T
dθ
x∈T
Bei endlichem Träger gilt also (R4) immer dann, wenn L0x (θ) für jedes x ∈ T existiert,
dies wird durch (R3) garantiert.
Zeige genauso bei stetigem PθX :
Z
∞
(R4) erfüllt ⇔
!
L0x (θ) dx =
−∞
d
dθ
Z
∞
Lx (θ) dx
−∞
Beispiel 3.38. P X = N (µ, σ 2 ), µ ∈ R, σ > 0 ist keine reguläre Familie, da Θ =
R × (0, ∞) kein Intervall im R1 ist.
52
Aber: P X = {N (µ, σ02 ) : µ ∈ R}, mit σ02 > 0 fest, ist eine reguläre Familie, denn
(R1) θ = R ist ein offenes Intervall.
(R2) Für alle µ ∈ R hat PµX die stetige Dichte fµ mit
1
1
1
2
· exp − 2 (x − µ)
Lx (µ) := fµ (x) = √ ·
2σ0
2π σ0
(R3)
L0x (µ)
1
1
1
1
2
=√ ·
· exp − 2 (x − µ) · 2 · 2 · (x − µ)
2σ0
2σ
2π σ0
}
|
} | 0 {z
{z
x−µ
σ2
| {z0 }
fµ (x) ·
Rest
=:lµ∗ (x)
und L0x ist stetig.
(R4)
Z
∞
L0x (µ)
∞
x−µ
· fµ (x) dx
2
−∞ σ0
X −µ
= Eµ
σ02
1
= 2 (Eµ (X) − µ) = 0
σ0
Z
dx =
−∞
Sind X1 , . . . , Xn unabhängige Zufallsvariablen, dann ist die Gesamtlikelihood
unabh.
Lx1 ,...,xn (θ) = Lx1 (θ) · · · · · Lxn (θ).
Für die Gesamt-Log-Likelihood gilt (falls Lx1 ,...,xn (θ) > 0), dass lx1 ,...,xn (θ) = lx1 , dabei
ist lx (θ) := ln Lx (θ), wenn Lx (θ) > 0.
In (3.34) ist übrigens für festes x ∈ R und falls Lx (θ) > 0:
lθ∗ (x) = lx0 (θ) =
d
L0 (θ)
(ln Lx (θ)) = x
dx
Lx (θ)
(
⇒ lθ x) · Lx (θ) = L0x (θ).
Das gilt auch, falls für ein θ0 ∈ Θ : Lx (θ0 ) = 0, da Lx an der Stelle θ0 ein Minimum
hat (Lx : Θ → [0, ∞)). Andererseits ist Lx nach Voraussetzung stetig differenzierbar
53
und Θ offen, sodass L0x (θ0 ) = 0.
Definition 3.39. Unter den Voraussetzungen und Bezeichnungen von (3.35) definiere
für festes θ ∈ Θ die messbare Abbildung lθ∗ : R → R durch

l0 (θ) falls Lx (θ) > 0,
x
lθ∗ (x) =
0
sonst.
Die Abbildung Inf : Θ → ∞ mit

V arθ (l∗ (x)) falls Eθ (l∗ (Xi )2 ) < ∞,
θ
θ
Inf(θ) :=
∞
sonst
die Fisher-Information von PθX .
Beispiel 3.40.
(a) Sei P X = {Bin(1, p) : p ∈ (0, 1)}. (Wie in (3.34)), dann ist wie dort gezeigt
lp∗ (xi ) = xi ·
1
1
− (1 − xi ) ·
,
p
1−p
und weiter ist die Fisher-Information
Inf(p) = Var L∗p (X) =
1
p · (1 − p)
(b) Für P X = {N (µ, σ02 ) : µ ∈ R} aus (3.38) ist
1
1
1
2
Lx (µ) = √ ·
· exp − 2 (x − µ) .
2σ0
2π σ0
Für alle µ ∈ R und x ∈ R ist lp∗ (x) = lx0 (µ) =
x−µ
.
σo2
Die Fisher-Information ist
⇒ Inf(µ) = V arµ lµ∗ (X)
2
= Eµ lµ∗ (X)2 − Eµ lµ∗ (X)
2
2 ! X −µ
X −µ
= Eµ
−
σ02
σ2
| {z0 }
=0
1
= 4 E(X − µ)2
σ0
1
1
= 4 V arµ (X) = 2
σ0
σ0
54
NUN FEHLEN NOCH EINIGE ZEICHNUNGEN.
Bemerkung. Falls P X eine reguläre Verteilung ist, gilt (R4):
(diskret) 0 =
!
X
=
X
L0x (θ) =
lθ∗ (x) · Lx (θ)
x∈T
x∈T
!
X
lθ∗ (x) · fθ (x) = Eθ (lθ (X))
x∈T
Z
∞
(stetig) 0 =
L0x (θ) dθ
Z
=
−∞
=
lθ∗ (x) · fθ (x) dx
R
Eθ (lθ∗ (x))
Nun ein zentraler Satz zur Bestimmung einer unteren Schranke für die Varianz eines
Schätzers:
Satz 3.41 (Cramer-Rao-Ungleichung, 1945; Frichet, 1943). Sei (Ω, A, P) ein Statistischer Raum mit P = {Pθ : θ ∈ Θ} sowie X1 , . . . , Xn u. i. v. Zufallsvariablen, sodass
P Xi eine reguläre Familie ist.
Ferner sei g : Θ → R eine differenzierbare parametrische Funktion mit existierender
Ableitung g 0 .
Sei T = t(X1 , . . . , Xn ) ein beliebiger erwartungstreuer Schätzer für g(θ) und für ein
festes θ0 ∈ Θ gelte Inf(θ0 ) > 0 und der Schätzer T erfülle folgende Regularitätsbedingung:
(R5)
Eθ0 T ·
Pn
∗
l
(X
)
= g 0 (θ0 ).
i
i=1 θ0
Dann gilt:
(g 0 (θ0 ))2
V arθ0 (T ) ≥
n · Inf(θ0 )
Beweis. Zunächst ist
Eθ0
n
X
i=1
!
lθ∗0 (Xi )
=
n
X
Eθ0 lθ∗0 (Xi )
i=1
(R4), Bem. vor 3.41
= n · Eθ0 lθ∗0 (X1 )
=
0 (∗)
55
Es gilt mit (R4):
|g 0 (θ0 )| = Eθ0 T
= Eθ0 T
= Covθ0
·
n
X
i=1
!
lθ∗0 (Xi ) n
X
X
·
lθ∗0 (Xi ) − Eθ0 (T ) · Eθ0
lθ∗0 (Xi ) |
{z
}
|
{z
}
i=1
=g(θ0 )<∞
=0 wegen (∗)
!
n
X
∗
T,
lθ0 (Xi ) i=1
v
!
u
n
X
u
p
(Cauchy,Schwarz)
≤ V arθ0 (T ) · tV arθ0
lθ∗0 (Xi )
!
i=1
(unabh., X1 Repräsentant)
= n · V arθ0 lθ∗0 (X1 )
p
p
= V arθ0 (T ) · n · Inf(θ0 )
Durch Quadrieren und Umstellen erhält man die Behauptung
V arθ0 (T ) ≥
(g 0 (θ0 ))2
.
n · Inf(θ)
Was besagt die Regularitätsbedingung (R5)?
Für diskretes PθXi hat die gemeinsame Dichte fθ von PθX1 ,...,Xn die Form
⇒
Mit
fθ (x1 , . . . , xn ) = fθX1 (x1 ) · · · · · fθXn (xn )
n Y
X
d
X
fθXi (xi ) · fθ j (xj ).
f (x1 , . . . , xn ) =
dθ
i=1 i6=j
d Xi
fθ (xi ) = L0Xi (θ) = fθXi (xi ) · lθ∗ (xi ) gilt:
dθ
n
XY X
d
fθ j (xj ) · fθXi (xi ) · lθ∗ (xi )
fθ (x1 , . . . , xn ) =
dθ
i=1 i6=j
=
n
X
lθ∗ (xi ) · fθ (x1 , . . . , xn )
i=1
56
Also gilt für die linke Seite von (R5):
Eθ
T·
n
X
!
lθ∗ (Xi )
=
X
···
X
x1
xn
=
X
···
X
=
X
i=1
x1
x1
T·
n
X
lθ∗ (xi ) · fθ (x1 , . . . , xn )
i=1
T·
xn
d
fθ (x1 , . . . , xn )
dθ
X d
···
T · fθ (x1 , . . . , xn )
dθ
x
n
und für die rechte Seite gilt:
d
Eθ (T )
dθ
X
X
=
···
T · fθ (x1 , . . . , xn )
g 0 (θ) =
x1
xn
Die Summe wird über alle (x1 , . . . , xn )0 ∈ Rn gebildet.
(R5) bedeutet daher: für den Erwartungswert von T dürfen die Ableitung und die
Summenbildung vertauscht werden.
Falls der Träger endlich ist, dann ist dies wegen (R3) immer erfüllt.
Analoges gilt für stetiges PθXi .
Allgemein: Jeder unverzerrte Schätzer T = t(x1 , . . . , xn ) für g(θ), der überall (R5)
erfüllt, heißt regulärer erwartungstreuer Schätzer für g(θ).
Bemerke: Die meisten erwartungstreuen Schätzer sind regulär, gehe daher – wenn nicht
explizit erwähnt – nicht weiter auf (R5) ein.
Beispiel 3.42 (Fortsetzung von (3.40)). Für P X = {N (µ, σ02 ) , σ02 bekannt, µ ∈ R} ist
der Schätzer X̄ erwartungstreu für µ. Weiter ist
V arµ (X̄) =
σ02
∀ µ ∈ R,
n
falls X1 , . . . , Xn u. i. v. sind.
1
Schließlich ist Inf(µ) = 2 > 0 und Cramer-Rao besagt, dass für beliebige µ ∈ R jeder
σ0
reguläre erwartungstreue Schätzer T für µ
V arµ (T ) ≥
σ02
1
1
=
=
= V arµ (X̄)
n · Inf(µ)
n
n · σ12
0
erfüllen muss.
Also besitzt der optimale Schätzer T ∗ = X̄ für jedes µ ∈ R unter allen regulären
erwartungstreuen Schätzern für µ minimale Varianz.
57
Definition 3.43. Sei (Ω, A, P) ein statistischer Raum mit P = {Pθ : θ ∈ Θ} mit
parametrischer Funktion g : Θ → R. Seien X1 , . . . , Xn Zufallsvariablen und T ∗ =
t∗ (x1 , . . . , xn ) ein erwartungstreuer Schätzer für g(θ).
Gilt für jeden beliebigen erwartungstreuen Schätzer T = t(x1 , . . . , xn ) für g(θ)
V arθ (T ) ≥ V arθ (T ∗ ) ∀ θ ∈ Θ,
dann heißt T gleichzeitig bester erwartungstreuer Schätzer für g(θ).
(UMVUE = uniformly minimum variance unbiased estimator)
In (3.34) haben wir gezeigt, dass X̄ UMVUE ist für p. In (3.42) haben wir nur gezeigt,
dass X̄ unter allen regulären erwartungstreuen Schätzern der gleichzeitig Beste für µ
ist.
Die Verletzung der Regularitätsbedingung für die Varianzschranke:
Beispiel 3.44. Betrachte die Situation aus Aufgabe 21, d. h. X1 , . . . , Xn u. i. v. mit
P Xi = {R(0, θ) , θ ∈ (0, ∞)}.
Tn = θ̂ML = max(X1 , . . . , Xn ) ist nicht erwartungstreu, aber der Schätzer
Tn∗ =
n+1
max(X1 , . . . , Xn )
n
ist erwartungstreu. Weiter besitzt mit Aufgabe (21)(a) die stetige Dichte fθ mit
xn−1
fθ (x) = n · n · 1[0,θ] (x)
θ
⇒ V arθ (Tn ) = Eθ (Tn2 ) − [Eθ (Tn )]2
2
Z θ
n
xn−1
2
θ
=
x · n n dx −
θ
n−1
0
n 2
n2
=
θ −
θ2
n+2
(n + 1)2
n
=
· θ2
2
(n + 2) · (n + 1)
Und daher ist
V arθ (Tn∗ ) =
(n + 1)2
n
1
·
θ2 −
θ2
2
2
n
(n + 2) · (n + 1)
n · (n + 2)
|
{z
}
beunruhigend klein!
Wäre P X1 eine reguläre Familie und Inf(θ) > 0, dann müsste mit (3.41) (Cramer-Rao)
58
gelten:
1
1
≤ V arθ (Tn∗ ) =
θ2
n · Inf(θ)
n · (n + 2)
⇒ ∀n ∈ N :
θ
1
≥
und das gilt für Inf(θ) ∈ R im Allgemeinen nicht!
n+2
Inf(θ)
Aber: P X1 ist keine reguläre Familie, d. h. die Supereffizienz von Tn∗ ist kein Widerspruch
zur Cramer-Rao-Ungleichung.
3.3.5 Suffizienz und Satz von Rao-Blackwell
Suche Abbildungen, die einen hochdimensionalen Datenvektor in eine einfachere Form
transformieren, ohne dabei wesentliche Informationen über die Wahrscheinlichkeitsverteilung zu verlieren.
Beispiel 3.45. Seien X1 , . . . , Xn u. i. v. Zufallsvariablen mit P Xi = {Poi(µ) , µ ∈ (0, 1)}
P
und T = t(X1 , . . . , Xn ) = ni=1 Xi .
Die Verteilung von T ist (siehe Übungsaufgabe) gleich der Poi(n · µ)-Verteilung.
Also hat die gemeinsame Verteilung von X1 und T die diskrete Dichte fX1 ,T .
Es gilt für z ≥ x:
Pµ (X1 = x , T = z) = Pµ (X1 = x , X2 + · · · + Xn = z − xn )
Dabei gilt
(a) X1 und X2 + · · · + Xn sind stochastisch unabhängig.
(b) X2 + · · · + Xn ist poissonverteilt , d. h. PµX2 +···+Xn = Poi ((n − 1) · µ).
Also ist
fX1 ,T (x, z) = Pµ (x1 = x) · Pµ (x2 + · · · + xn = z − x)
 x
2

 µ · e−µ · [(n − 1) · µ] · e−(n−1)·µ falls x, z ∈ N0
(z − x)!
= x!

0
sonst.
 z
z−x

 µ · z · (n − 1)
falls x, z ∈ N0
enµ
= z! x

0
sonst.
59
Die bedingte Dichte fX1 |T ( · |z) von P X1 |T =z ist dann
z−x −nµ
µz z
n
· n−1
·e
fX1 ,T (x, z)
z! x
fX1 |T (x|z) =
=
1/2
(n·µ)
fT (z)
· e−nµ
z!
z−x x
1
z
n−1
·
=
·
n
n
x
(falls fT (z) ≥ 0)
Dies ist die Dichte der Bin(z, n1 )-Verteilung (und diese Dichte hängt nicht mehr von µ
ab).
Die bedingte Erwartung Eµ (X1 |T ) = n1 T hängt ebenfalls nicht nicht von µ ab.
Durch die Tatsache, dass Eµ (X1 |T ) nicht von µ abhängt ist er auch ohne Kenntnis von
µ und
n
1
1X
Eµ (X1 |T ) = T =
Xi = X̄
n
n i=1
Definition 3.46. Sei (Ω, A, P) ein statistischer Raum mit P = {Pθ : θ ∈ Θ} und
X1 , . . . , Xn Zufallsvariablen.
Sei T = t(X1 , . . . , Xn ) ein Schätzer, sodass ∀ θ ∈ Θ die Verteilung PθT (stetige oder
diskrete) Dichte fθT hat.
Falls ein weiterer beliebiger Schätzer S mit T gemeinsame (stetige oder diskrete) Dichte
S|T
fθS,T besitzt, sodass die bedingte Dichte fθ ( · |z) ∀ θ ∈ Θ jeweils
o d. h.
n gleich ist,
S|T
∀ x, z ∈ R ist fθ nicht von θ abhängig, dann heißt T suffizient für PθX1 ,...,Xn .
Häufige Aussage: T suffizient für θ ∈ Θ.
Nachweis der Suffizienz gestaltet sich oftmals schwierig. Hilfreich:
Satz 3.47 (Faktorisierungssatz nach Neyman). Sei (Ω, A, P) ein statistischer Raum
mit P = {Pθ : θ ∈ Θ} und X1 , . . . , Xn Zufallsvariablen mit gemeinsamer Dichte
fθX1 ,...,Xn : R → [0, ∞).
Sei T = t(X1 , . . . , Xn ) ein Schätzer.Wenn sich die gemeinsame Dichte fθX1 ,...,Xn faktorisieren lässt zu
fθX1 ,...,Xn (x1 , . . . , xn ) = hθ (t(x1 , . . . , xn )) · g(x1 , . . . , xn ),
wobei g nicht von θ abhängt, dann ist T suffizient für θ.
60
Also: fθX1 ,...,Xn (x1 , . . . , xn ) = hθ (t(x1 , . . . , xn )) · g(x1 , . . . , xn )
⇒
T = t(X1 , . . . , Xn ) ist suffizient für θ ∈ Θ.
Beweis. Sei fθX1 ,...,Xn diskret. Sei S = s(X1 , . . . , Xn ) ein beliebiger Schätzer. Dann gilt
für die gemeinsame Dichte gθS,T von PθS,T , dass
gθS,T (a, b) = P (S = a, T = b)
= Pθ ({(x1 , . . . , xn ) ∈ Rn : s(x1 , . . . , xn ) = a, t(x1 , . . . , xn ) = b})
X
X X ,...,x
=
···
fθ 1 n (x1 , . . . , xn )
x1 ,...,xn ∈ Träger
Mit s(x1 , . . . , xn ) = a und t(x1 , . . . , xn ) = b = hθ (b) · g(x1 , . . . , xn ) nach Voraussetzung
gilt:
hθ (b) ·
X
···
X
|
g(x1 , . . . , xn )
{z
}
=: r(a,b) fest, und unabh. von θ
Für die Randdichte qθT von PθT gilt:
qθT (b) =
X
qθS,T (a, b) = hθ (b) ·
X
a
r(a, b)
a
Somit ist für alle b mit qθT (b) > 0 die bedingte Dichte:
S|T
qθ (a|b) =
qθS,T (a, b)
hθ (b) · r(a, b)
P
=
T
hθ (b) · b r(a, b)
qθ (b)
Dies hängt nicht von θ ab, und damit ist T suffizient für θ.
Beispiel 3.48.
(a) Fortführung von (3.45): Seien X1 , . . . , Xn u. i. v. Zufallsvariablen mit P Xi = Poi(λ).
Die gemeinsame Dichte ist
fµX1 ,...,Xn (x1 , . . . , xn ) =
µx1 −µ
µxn −µ
e · ··· ·
e
x1
xn
= µx1 +···+xn · e−nµ ·
⇒ T =
Pn
i=1
1
x1 ! · · · · · x n !
xi ist suffizient für µ.
(b) Seien X1 , . . . , Xn u. i. v. mit P Xi = {N (µ, σ 2 ), µ ∈ R, σ 2 > 0}, d. h. θ =
und Θ = R × (0, ∞). Finde nun eine suffiziente Statistik!
61
µ
σ2
!
Die gemeinsame Dichte ist
−n
2
fµX1 ,...,Xn (x1 , . . . , xn ) = (2π)
n
1 X
−n
(xi − µ)2
· σ · exp − 2
2σ i=1
n
!
1 X
n
= (2π) · σ −n · exp − 2
(xi − x̄)2 − 2 (x̄ − µ)2
2σ i=1
2σ
n−1 2
n
−n
2
−n
σ̂ − 2 (x̄ − µ)
= (2π) 2 · σ · exp −
| {z }
2σ 2
2σ
{z
}
g(x1 ,...,xn ) |
!
−n
2
hθ (x̄,σ̂ 2 )
⇒ (x̄, σ̂ 2 )0 ist suffizient für (µ, σ 2 ).
Bemerkung: Aus (x̄, σ̂ 2 ) suffizient für (µ, σ 2 ) folgt nicht im Allgemeinen, dass X̄
suffizient für µ und σ̂ 2 suffizient für σ 2 ist.
Weiter mit der Verbesserung für erwartungstreue Schätzer
Satz 3.49 (Satz von Rao-Blackwell). Sei (Ω, A, P) ein statistischer Raum mit P =
{Pθ : θ ∈ Θ} und X1 , . . . , Xn Zufallsvariablen. Sei T = t(x1 , . . . , xn ), und sei U =
u(x1 , . . . , xn ) ein erwartungstreuer Schätzer für g(θ) mit g parametrische Funktion.
Sei V = v(T ) definiert durch
v(b) := Eθ (U |T = b) ∀ b ∈ R,
dann gilt:
(i) V hängt nicht von θ ab, d.h.
V = v(T ) = Eθ (U |T ) ∀ θ ∈ Θ,
d. h. V kann aus den Beobachtungen x1 , . . . , xn berechnet werden und V ist ein
erwartungstreuer Schätzer für g(θ).
(ii)
V arθ (V ) ≤ V arθ (U )
für alle θ ∈ Θ mit Eθ (U 2 ) < ∞.
Beweis.
(i) T ist suffizient für Θ, somit ist P U |T unabhängig von θ.
Da Eθ (U |T = t) = E(U |T = t) für alle θ ∈ Θ gilt, so ist V = E(U |T ) ein Schätzer
und g(θ) = Eθ (U ) = Eθ (E(U |T )) = Eθ (V ).
62
(ii) mit Übung 29c ist




V arθ (U ) = V arθ (Eθ (U |T )) + Eθ  V arθ (U |T ) 
| {z }
| {z }
=V
>0 wegen A<q(n)
Die Konstruktion eines verbesserten Schätzers V aus U gemäß (3.49) heißt auch Rao-Blackwellisieren.
Falls es unter den Voraussetzungen von (3.49) einen gleichmäßig besten erwartungstreuen Schätzer U gibt, dann muss auch V = E(U |T ) UMVUE sein.
Mit anderen Worten gibt es einen gleichmäßig besten erwartungstreuen Schätzer, so
gibt es einen solchen Schätzer, der von den Beobachtungen (der suffizienten Statistik)
nur über T = t(X1 , . . . , Xn ) abhängt.
Beispiel 3.50. Betrache Würfel mit k Seiten, k unbekannt, die Seiten sind durchnummeriert. Erhalte aus vier Würfen folgendes Ergebnis:
9,
2,
9,
12.
Seien daher X1 , . . . , X4 u. i. v. Zufallsvariablen mit P Xi = GV ({1, . . . , k}), k unbekannt.
Die gemeinsame Dichte bei gegebenen k ist
4
1
fk (x1 , . . . , xn ) =
· 1{1,...,k} ( max xi ) · 1{1,...,k} ( min xi )
1≤i≤4
1≤i≤4
k
Weiter ist
k
1X
k+1
k · (k + 1) 1
· =
i=
Ek (Xi ) =
k i=1
2
k
2
Hieraus folgt direkt k̂Mom = 2X̄ − 1. (Im Beispiel: k̂Mom = 15)
ML-Schätzer: k̂ML = max(X1 , X2 , X3 , X4 ). (Im Beispiel: k̂ML = 12)
Suche ”guten” erwartungstreuen Schätzer (verallgemeinere dafür auf n Würfe). Mit
n
1
fk (x1 , . . . , xn ) =
1{1,...,k} ( max xi ) · 1{1,...,k} ( min xi )
1≤i≤n
1≤i≤n
k
{z
}
|
{z
} |
=g(x1 ,...,xn )
hk (max1≤i≤k xi )
n
o
ist T = t(X1 , . . . , Xn ) suffizient für PkX1 ,...,Xn : k ∈ N
63
(zu Aufg. 28c) Wähle einfachen erwartungstreuen Schätzer U mit
U = 2X1 − 1,
da Ek (X1 ) =
k+1
2
(ACHTUNG: Hier nicht sicher ob X1 oder Xi !!!)
Berechne nun die bedingte Erwartung Ek (U |T ):
Ek (U |T = t) = Ek (2X̄ − 1|T = b)
=
k
X
Xi |T
(2x − 1)fk
(x|b)
i=1
Bestimme nun die bedingte Dichte von X1 unter T = b:
(1) Randdichte fkT von PkT
fkT (b) = Pk (T = b) = Pk (T ≤ b) − Pk (T ≤ b − 1),
und mit
Pk (T ≤ b) = Pk
max Xi ≤ b
1≤i≤n
= Pk (X1 ≤ b, . . . , Xn ≤ b)
= Pk (X1 ≤ b) · · · · · Pk (Xn ≤ b)
= (Pk (X1 ) ≤ n)n
n
b
=
k
Somit ist
fkT (b)
(Xi unabh.)
(Xi id. vert.)
n n
b
b−1
=
−
k
k
(2) gemeinsame Dichte fkX1 ,T von PkX1 ,T
fkX,T (x, b)
= Pk X1 = x, max xi = b
1≤i≤n


P (X = x, max2≤i≤n = b) x < b


 k 1
= Pk (X1 = x, max2≤i≤n ≤ b) x = b



0
x>0
64


P (X = x) · Pk (max1≤i≤n Xi = b) x < b


 k 1
= Pk (X1 = b) · Pk (max1≤i≤n Xi = b) x = b



0
x>b

bn−1

1

· n−1
x, b ∈ {1, . . . , k} und x < b


 k kn−1
n−1
− (b − 1)
= 1·b
x, b ∈ {1, . . . , k} und x = b
k


k n−1


0
sonst
X1 |T
(3) bedingte Dichte fk
Für b ∈ {1, . . . , n} und für x ≤ b ist:

bn−1 − (b − 1)n−1


 n
X |T
b − (b − 1)n
fk 1 (x|b) =
bn−1


 n
b − bn−1
x<b
x=b
Erhalte also:
b−1
X
bn−1 − (b − 1)n−1
bn−1
(2x − 1)
Ek (U |T = b) =
+
(2b
−
1)
bn − (b − 1)n
bn − (b − 1)n
x=1
= ... =
bn+1 − (b − 1)n+1
bn − (b − 1)n
Somit ist
V := Ek (U |T ) =
T n+1 − (T − 1)n+1
T n − (T − 1)n
ein
erwartungstreuer Schätzer für k ∈ N.
125 − 115
Im Beispiel: max1≤i≤4 xi = 12, n = 4, also k̂ = 4
≈ 14
12 − 114
Zusammenhang zwischen Suffizient und ML-Schätzer:
Satz 3.51. Sei T = t(X1 , . . . , Xn ) suffizient für θ. Dann gilt:
Entweder:
Gibt es nur einen ML-Schätzer θ̂ML für θ, so hängt θ̂ML echt von T ab. (θ̂ML nicht
konstante Funktion von T ).
Oder:
Gibt es mehrere ML-Schätzer, so hängt wenigstens einer echt von T ab.
65
Beweis.
(3.47)
T suffizient ⇐⇒ fθX1 ,...,Xn (x1 , . . . , xn ) = hθ (t(x1 , . . . , xn )) · g(x1 , . . . , xn ),
(wobei g(x1 , . . . , xn ) nicht von θ abhängt, also bei festen x1 , . . . , xn eine bestimmte
reelle Zahl ist)
=⇒ θ̂ML = arg max fθX1 ,...,Xn (x1 , . . . , xn )
θ∈Θ
= arg max hθ (t(x1 , . . . , xn ))
θ∈Θ
Abschließend betrachte nun Asymptotik von ML-Schätzern unter Regularitätsbedingungen (Suffizienz ist nicht erforderlich!):
Satz 3.52. Sei (Ω, A, P) ein statistischer Raum mit P = {Pθ : θ ∈ Θ}. Sei (Xn )n∈N
eine Folge von u. i. v. Zufallsvariablen, sodass P X1 eine reguläre Familie ist und sei
Inf(θ) die Fisher-Information mit Inf(θ0 ) > 0 für θ0 ∈ Θ.
Sei θ̂ML,n = tn X1 , . . . , Xn ein ML-Schätzer für θ, n ∈ N. Unter zusätzlichen Regularitätsbedingungen (siehe z. B. Wasan, M. T. (1970): Parametric Estimation, McGrawHill, S. 158 ff.), dann gilt:
(a) θ̂ML,n ist konsistent für θ,
(b) θ̂ML,n ist asymptotisch normalverteilt mit
√ n→∞
n θ̂ML,n − θ0 ∼ N
1
0,
Inf(θ0 )
,
(c) θ̂ML,n ist asymptotisch effizient.
Beweis. siehe Wasan (1970).
Teil (c) ist offensichtlich, denn die Cramer-Rao-Schranke besagt:
Für jeden regulären erwartungstreuen Schätzer T für θ gilt, dass
V arθ (T ) ≥
1
.
Inf(θ0 )
Mit (b) ist θ̂ML,n asymptotisch erwartungstreu, so dass für n → ∞ eine Annäherung
an die untere Varianzschranke, d. h. asymptotisch effizient, gilt.
66
Zurück zur Findung von UMVUE:
Konkret: Ist V (verbesserter Schätzer nach Rao-Blackwellisieren) UMVUE?
Beantwortung fordert technisches Kriterium:
3.3.6 Vollständige Statistiken und Satz von Lehmann Scheffé
Wäre V = E(U |T ) (mit U erwartungstreu und T suffizient für θ) UMVUE für g(θ)
und E(θ̂|T ) = g(θ), d. h. weiterer erwartungstreue Schätzer für g(θ).
ˆ = g(θ) − g(θ) = 0 für alle θ ∈ Θ. Würde daraus nun auch folgen,
=⇒ Eθ (V − g(θ))
ˆ = 0 fast überall gilt,
dass V − g(θ)
ˆ .
=⇒ V arθ (V ) = V arθ (g(θ)
Das wäre erfüllt, wenn für jede Funktion h : R → R für die Eθ (h(T )) = 0 für alle
θ ∈ Θ folgt, dass h(t) = 0 für fast alle t.
Definition 3.53. Sei (Ω, A, P) ein statistischer Raum und X1 , . . . , Xn Zufallsvariablen.
Sei T = t(x1 , . . . , xn ) eine Statistik.
(a) Eine messbare Funktion h : R → R heißt P T -fast sicher, falls es eine Menge N
gibt, sodass
(i) für alle P ∈ P T ist P T (N ) = P (T ∈ N ) = 0 (also auf dem Träger immer 0,
und sonst ist es egal, wie die Funktion gewählt ist)
(ii) für alle x 6∈ N ist die Funktion h(x) = 0.
(b) Eine Familie P T = {P T : P ∈ P} heißt vollständig, wenn ∀ P ∈ P für eine
integrierbare Funktion h : R → R, für die EP (h(t)) = 0 folgen muss, dass h = 0
P T -fast sicher ist.
Sage auch: T ist vollständig.
Beispiel 3.54 (vgl. 3.50).
(a) Sei (Ω, A, P) ein statistischer Raum mit P = {Pk : k ∈ N} und X1 , . . . , Xn u. i. v.
mit PkX1 = GV({1, . . . , k}).
Sei h : R → R mit
h(x) =

0
∀ x ∈ N,
beliebig ∀ x 6∈ N.
Setzte N = {x ∈ R : x 6∈ N}, dann gilt:
67
(i) für jedes k ∈ N: Pk (N ) = 0
(ii) für jedes x 6∈ N gilt:
x ∈ N ⇒ h(x) = 0, d. h. h ist P X1 -fast sicher Null
(0).
Sei T = t(X1 , . . . , Xn ) = max Xi . Dann ist PkT nach (3.50) die diskrete
1≤i≤n
bn − (b − 1)n
Dichte fkT (b) =
mit Träger {1, . . . , k} und h ist auch P T -fast
kn
sicher Null.
(b) Zeige nun: P T = {PkT : k ∈ N} ist vollständig.
Sei h : R → R eine beliebige, messbare Funktion, so dass
∀k ∈ N
Ek (h(T )) = 0
Zeige (mit vollständiger Induktion): h(b) = 0 ∀ b ∈ N. (aus (a) folgt auch: h ist
P T -f. s. Null).
Induktionsvoraussetzung:
0 = Ek (h(T )) =
k
X
h(b) ·
b=1
bn − (b − 1)n
∀k ∈ N
kn
Zeige nun: h(1) = 0: Sei k = 1 ⇒ 0 = h(1) ·
1n − (1 − 1)n
= h(1)
1n
Induktionsschluss:
Sei K ∈ N und h(1) = h(2) = · · · = h(K) = 0, dann ist h(K + 1) = 0.
Sei K = k + 1, dann ist
0=
K
X
h(b) ·
b=1
= h(K) ·
bn − (b − 1)n
,
Kn
mit h(b) = 0 ∀ b ≤ k = K − 1
K n − (K − 1)n
n
K
|
{z
}
>0
⇒ 0 = h(K) = h(k + 1)
(c) Ebenso kann gezeigt werden, dass P X1 = {GV ({1, . . . , K})} vollständig ist.
(d) Dagegen ist P̃ T = {PKT : K ≥ 2} nicht mehr vollständig, denn:
Wähle h : R → R mit h(1) = 2n − 1, h(2) = −1, und h(x) = 0 sonst.
68
Es gilt:
EK (h(T )) =
K
X
h(b) ·
bn − (b − 1)n
Kn
h(b) ·
bn − (b − 1)n
Kn
i=1
=
2
X
b=1
1
1
· 1n + (−1) · 2 · (2n − 1)
2
K
K
∀ K ≥ 2.
= (2n − 1) ·
=0
Aber: h ist nicht P̃ T -f. s. Null.
Konsequenz der Vollständigkeit von T = max Xi .
1≤i≤n
n+1
n+1
T
(T − 1)
ein erwartungstreuer Schätzer für K, der von
n
T − (T − 1)n
den Beobachtungen nur noch über T = X abhängt.
Sei V = v(T ) =
1≤i≤ni
Sei h : R → R durch h(b) = v(b) − w(b) definiert, dann gilt für alle K ∈ N:
EK (h(T )) = EK (v(b) − w(b)) = EK (V ) − EK (W )
T vollst.
⇒
Rao−Bl.
=
0
h ist P T -f. s. Null
⇒ ∀ b ∈ N gilt: 0 = h(b) = v(b) − w(b) ⇔ v(b) = w(b).
Also ist für jede Beobachtung von max Xi = T , die möglich ist, V = W .
1≤i≤n
Somit:
1) Da T suffizient ist, lässt sich nach Rao-Blackwell zu jedem beliebigen erwartungstreuen Schätzer U ein mindestens genauso guter Schätzer V = EK (U |T ) herleiten;
dieser hängt nur von T ab.
2) Da T vollständig ist, gibt es nur einen einzigen erwartungstreuen Schätzer, der
nur von T abhängt, d. h. V − W ist bei allen möglichen Beobachtungen gleich
Null.
Insgesamt: V ist UMVUE für K.
Satz 3.55 (Lehmann-Scheffé). Sei (Ω, A, P) ein statistischer Raum mit P = {Pθ : θ ∈
Θ} und g : Θ → R eine parametrische Funktion. Seien X1 , . . . , Xn Zufallsvariablen
und T = t(X1 , . . . , Xn ) eine suffiziente und vollständige Statistik.
Ferner sei U = u(X1 , . . . , Xn ) ein beliebiger (möglichst einfach gewählter) erwartungstreuer Schätzer für g(θ), ∀ θ ∈ Θ.
69
Dann ist
V := Eθ (U |T )) = E(U |T )
PθT -f. s. eindeutig für alle θ ∈ Θ, und V ist effizient, d. h. V ist UMVUE.
Beweis. nur noch zu zeigen: V ist PθT -f. s. eindeutig ∀ θ ∈ Θ.
Seien V und W erwartungstreue Schätzer für g(θ), die beide nur noch über die suffiziente und vollständige Statistik T von θ abhähngen, dann
⇒ ∀ θ ∈ Θ gilt 0 = Eθ (V ) − Eθ (W ) = Eθ (v(T )) − Eθ (w(T ))
⇒ v − w ist P T -f. s. Null. (folgt aus der Vollständigkeit von T )
⇒ v(T ) und w(T ) haben fast sicher die gleiche Verteilung, d. h. insbesondere für alle
θ ∈ Θ, bei denen V arθ (V ) oder V arθ (W ) existieren, gilt: V arθ (V ) = V arθ (W ).
Klausurtipp:
Suche eines UMVUE-Schätzers für g(θ)
1. Suche erwartungstreuen Schätzer U = u(X1 , . . . , Xn ) für g(θ).
2. Suche suffiziente Statistik T (z. B.: mit Faktorisierungssatz) für θ.
3. Bestimme V := E(U |T ) mittels Rao-Blackwellisieren (V ist nicht schlechter als
U ).
4. Überprüfe, ob T vollständig ist (V ist UMVUE, falls T vollständig).
In Beispiel 3.54 (b) ist P̃ T = {PKT : K ≥ 2} nicht vollständig,
z. B. n = 3, K = 4, T = max{X1 , X2 , X3 }
P (T
P (T
P (T
P (T
2
1
1
= 1) =
=
4
64
3
2
7
2 −1
= 2) =
=
3
4
64
33 − 23
19
= 3) =
=
45
64
27
37
= 4) = 1 −
=
64
64
70
Somit ist für U = 2X1 − 1
x1 (1) = E(U |T = 1) = 1 · P (U = 1|T = 1)
=1·1=1
x2 (2) = E(U |T = 2)
= 1 · P (U = 1|T = 2) + 3 · P (U = 3|T = 2)
4
15
3
=1· +3· =
7
7
7
Wähle nun Zufallsvariable


U − 7, T = 1



W = U + 1, T = 2



U,
T ∈ {3, 4}
⇒
E(U |T = b) 6= E(W |T = b) für b ∈ {1, 2}, aber
|
{z
} |
{z
}
=V1
=V2
E(V1 ) = E (E(U |T = b))
= E(E(W |T = b)) = E(V2 )
E(E(W |T = b)) = E(V1 ) − 7 · P (T = 1) + 1 · P (T = 2)
7
1
+1·
= E(V1 )
= E(V1 ) − 7 ·
64
64
Nachweis der Vollständigkeit gestaltet sich häufig als schwierig, dazu gleich mehr, vorab
noch
Satz 3.56 (Satz von Basu). Sei T eine suffiziente und vollständige Statistik für P =
{Pθ : θ ∈ Θ} und V eine nutzlose Statistik für θ, d. h. die Verteilung von V hängt nicht
von θ ab, d. h. PθV = P V , ∀ θ ∈ Θ. Dann gilt:
V ist unabhängig von T .
Beweis. Ohne.
Beispiel 3.57. Seien X1 , . . . , Xn u. i. v. mit P X1 = N (µ, σ02 ), µ ∈ R, σ02 > 0 bekannt.
71
Dann ist X̄ =
1
n
Pn
i=1
Xi = T suffizient für µ, denn:
1
fµX1 ,...,Xn (x1 , . . . , xn ) =
2πσ0
{z
|
− n2
!
n
n
1 X
(xi − x̄)2 − 2 (x̄ − µ)2
· exp − 2
2σ0 i=1
2σ0
} |
{z
}
=g(x1 ,...,xn )
Ferner ist
(n − 1) ·
=hµ (x̄)
σ̂ 2
2
∼ Xn−1
2
σ
d. h. σ̂ 2 ist nutzlos für µ. Mit dem Satz von Basu und der Vollständigkeit von T folgt:
n
n
1X
1 X
⇒ X̄ =
Xi , σ̂ 2 =
(Xi − X̄)2
n i=1
n − 1 i=1
sind stochastisch unabhängig!
Vollständige Statistiken lassen sich in speziellen Verteilungsklassen leicht finden.
Definition 3.58. Sei (Ω, A, P) ein statistischer Raum mit P = {Pθ : θ ∈ Θ} und
X1 , . . . , Xn , n ≥ 1, Zufallsvariablen. Die n-dimensionale Verteilungsfamile P X1 ,...,Xn =
{PθX1 ,...,Xn : θ ∈ Θ} heißt einparametrige Exponentialfamile, falls folgendes gilt:
(i) Θ ⊂ R
(ii) Für alle θ ∈ Θ existiert die Dichte fθX1 ,...,Xn von PθX1 ,...,Xn .
Falls f diskret ist, so hat sie für alle θ ∈ Θ den gleichen Träger.
(iii) ∃ C : Θ → R, ∃ A : Θ → R, wobei A nicht konstant,
∃ g : Rn → R messbar, und
∃ t : Rn → R messbar, wobei t nicht konstant ist, sodass ∀ θ ∈ Θ und ∀ (x1 , . . . , xn )0 ∈
Rn gilt:
fθX1 ,...,Xn (x1 , . . . , xn ) = C(θ) · eA(θ)·t(x1 ,...,xn ) · g(x1 , . . . , xn ).
Beispiel 3.59. Folgende eindimensionale Verteilungsfamilien sind Exponentialfamilien:
(a) {Bin(n, p) : p ∈ (0, 1)}
72
n
fp (x) =
· px · (1 − p)n−1 · 1{0,...,n} (x)
p
x
n
p
n
=
· 1{0,...,n} (x) · (1 − p) ·
p
1−p
p
n
n
= (1 − p) ·exp ln
·x ·
· 1{0,...,n} (x)
| {z }
1−p
p
|
{z
} |
{z
}
=C(x)
=A(x)·f (x)
=g(x)
(b) {Poi(µ) : µ > 0}
1 −µ
· e · 1N0 (x)
x! 1
−µ
= |{z}
e ·exp ln(µ) · x · · 1N0 (x)
| {z }
|x! {z }
=C(µ)
=A(µ)·t(x)
fµ (x) = µx ·
g(x)
(c) {Exp(λ) : λ > 0}
fλ (x) = |{z}
λ ·exp
=C(λ)
−λ · x
| {z }
=A(λ)·t(x)
· 1[0,∞) (x)
| {z }
(Weitere Beispiele siehe Blatt 10.)
Bezeichnung: Ist x ∈ R und t(x) = x, dann liegt die Exponentialfamilie in kanonischer Form
vor und A(θ) wird natürlicher Parameter der Verteilung genannt.
Falls X1 , . . . , Xn u. i. v. mit P Xi einparametrige Exponentialfamile, dann ist
fθX1 ,...,Xn (x1 , . . . , xn ) =
n
Y
fθXi (xi )
i=1
=
n
Y
c̃(θ) · exp Ã(θ) · t̃(xi ) · g̃(xi )
i=1
n
= (c̃(θ)) · exp Ã(θ) ·
n
X
i=1
73
!
t̃(xi )
·
n
Y
i=1
g̃(xi )
d. h. also auch P X1 ,...,Xn ist einparametrige Exponentialfamilie mit
C(θ) = (c̃(θ))n
A(θ) = Ã(θ)
n
Y
g(x1 , . . . , xn ) =
g̃(xi )
und
i=1
t(x1 , . . . , xn ) =
n
X
t̃(xi )
i=1
Nachweis der Suffizienz und Vollständigkeit nun leicht durchzuführen.
Satz 3.60. Sei P X1 ,...,Xn eine einparametrige Exponentialfamile, dann ist unter den
obigen Bezeichnungen
T = t(X1 , . . . , Xn ) =
n
X
t̃(Xi )
i=1
suffizient für {PθX1 ,...,Xn : θ ∈ Θ}.
Falls {A(θ) : θ ∈ Θ} einen inneren Punkt hat, so ist T vollständig.
Beweis. Suffizient folgt direkt mit dem Faktorisierungssatz (3.47).
Vollständigkeit siehe z. B. Withing, H. (1985), Math Statistics 1, Satz 3.39
Bemerkung. Ein Punkt x ∈ M heißt innerer Punkt von M , wenn es eine offene Menge
U gibt mit U ⊂ M und x ∈ M .
Jede offene nichtleere Menge M besitzt daher mindestens einen inneren Punkt.
Beispiel 3.61.
(a) Aus Beispiel 3.59 (c) ist bekannt:
{Exp(λ) : λ ∈ (0, ∞)} ist einparametrige Exponentialfamile mit A(λ) = −λ und
t(x) = x.
Die Menge {A(λ) : λ ∈ (0, ∞)} hat inneren Punkt, da sie offen und nichtleer ist.
.

T = Pn t(Xi ) = Pn Xi
(3.60)
i=1
i=1
⇐⇒
T = Pn X
i=1
Außerdem: X̄ =
Pn
i=1
Xi =
i
1
T
n
ist suffizient
ist vollständig
ist erwartungstreu für
Beobachtungen nur über T ab.
Lehm.-Scheffé
=⇒
X̄ ist UMVUE für
74
1
.
λ
1
,
λ
und hängt von den
(b) Aus (3.59)(a) bekannt:
{Bin(1, p) : p ∈ (0, 1)} ist einparametrige Exponentialfamilie mit A(p) = ln
p
1−p
und t(x) = x.
(3.60)
=⇒ T =
n
X
t(Xi ) ist suffizient für p ∈ (0, 1)
i=1
Weiter ist
{A(p) : p ∈ (0, 1)} =
p
= R,
ln
1−p
| {z }
∈(0,1)
d. h. A hat inneren Punkt.
=⇒ T =
n
X
Xi ist vollständig
i=1
und X̄ =
1
T ist erwarungstreu für p.
n
Mit Lehmann-Scheffé folgt: X̄ = n1 T ist UMVUE für p ∈ (0, 1). (Bereits in 3.34
umständlich gezeigt.)
(c) Sei X1 , . . . , Xn u. i. v. mit P Xi = {N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}.
Suche gleichmäßig besten Schätzer für g(θ) = g(µ, σ 2 ).
Achtung! Hier liegt keine einparametrige Exponentialfamile vor.
(i) Sei σ 2 = σ02 > 0 beliebig, aber fest, d. . betrachte P̃ Xi = {N (µ, σ02 ) : µ ∈ R}.
µ
Mit Aufgabe 30(b) ist P̃ Xi einparametrige Exponentialfamilie mit A(µ) = 2
σ0
und t(x1 ) = x1 .
P
Mit (3.60) ist T =
Xi suffizient für P̃ X1 ,...,Xn und da
{A(µ) : µ ∈ R} =
µ
:µ∈R =R
σ02
einen inneren Punkt hat, ist T auch vollständig.
Der Schätzer X̄ = n1 T ist erwartungstreu für µ und hängt von den Beobachtungen nur über T ab.
Lehm.-Scheffé
=⇒
X̄ ist UMVUE für µ ∈ R, sofern σ02 fest ist.
(ii) Nun sei σ 2 beliebig, in (i) gezeigt: Sei Ũ ein beliebiger erwartungstreuer
75
Schätzer für µ bei festem σ02 , d. h. mit Eµ,σ02 (Ũ ) = µ folgt
⇒ Varµ,σ02 (Ũ ) ≥ Varµ,σ02 (X̄).
(∗)
Weiter sei für jedes µ, σ 2 : Eµ,σ2 (X̄) = µ.
Sei nun U beliebiger Schätzer für µ:
∀ µ ∈ R, ∀ σ 2 ∈ (0, 1) : Eµ,σ2 (X̄) = µ
insb.
=⇒ ∀ µ ∈ R : Eµ,σ2 (U ) = µ
(*)
=⇒ ∀ µ ∈ R : Varµ,σ2 (U ) ≥ Varµ,σ2 (X̄).
Da σ02 > 0 beliebig, gilt somit für alle σ 2 > 0 und ∀ µ ∈ R:
Varµ,σ2 (U ) ≥ Varµ,σ2 (X̄),
d. h. X̄ ist auch UMVUE für µ, falls σ 2 unbekannt.
76
Herunterladen