Mathematische Statistik Gliederung zur Vorlesung im

Werbung
Mathematische Statistik
Gliederung zur Vorlesung
im Sommersemester 2014
Markus Bibinger, editiertes Skript von Markus Reiÿ
Humboldt-Universität zu Berlin
VORLÄUFIGE FASSUNG: 19. Mai 2014
Inhaltsverzeichnis
1 Statistik im linearen Modell
1
1.1
Lineares Modell und kleinste Quadrate . . . . . . . . . . . . . . .
1
1.2
Der Satz von Gauÿ-Markov
3
1.3
Inferenz unter Normalverteilungsannahme
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
2 Grundprinzipien statistischer Entscheidungstheorie
. . . . . . . . . . . .
5
8
2.1
Formalisierung eines statistischen Problems
8
2.2
Optimale statistische Entscheidungen . . . . . . . . . . . . . . . .
10
2.2.1
Zulässigkeit . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2.2
Minimax-Ansatz
. . . . . . . . . . . . . . . . . . . . . . .
11
2.2.3
Bayes-Ansatz . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.3
Bayes-Methoden
. . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.4
Das Stein-Phänomen . . . . . . . . . . . . . . . . . . . . . . . . .
17
2.5
Ergänzungen
19
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Suzienz und Vollständigkeit
20
3.1
Dominierte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Exponentialfamilien
3.3
Suzienz
3.4
Vollständigkeit
3.5
Cramér-Rao-Ungleichung
20
. . . . . . . . . . . . . . . . . . . . . . . . .
21
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
I
27
29
1 Statistik im linearen Modell
1.1 Lineares Modell und kleinste Quadrate
1.1 Beispiel (lineare Regression).
Wir beobachten Realisierungen von
Yi = axi + b + εi ,
∈
unbekannte Parameter, (xi ) bekannte Werte
(εi ) iid (unabhängig und identisch verteilt) zen2
trierte Zufallsvariablen (d.h. E[εi ] = 0) sind mit Var(εi ) = σ > 0, die Messfehler
modellieren. Man denke z.B. an Messungen der Leitfähigkeit Yi eines Stoes in
Abhängigkeit der Temperatur xi .
Gesucht ist eine Regressionsgerade der Form y = ax+b, die die Beobachtunwobei
a, b
R, σ
>
i = 1, . . . , n,
0
(Versuchsplan, Design) sowie
gen möglichst gut erklärt. Nach der Methode der kleinsten Quadrate erhalten
wir Schätzer
â, b̂
durch Minimierung der Summe der quadratischen Abstände:
(â, b̂) := argmin(a,b)∈R2
n
X
(Yi − axi − b)2 .
i=1
Dierentiation ergibt, dass
â, b̂
Lösungen der Normalengleichungen sind:
n
X
(Yi − axi − b) = 0
und
i=1
n
X
xi (Yi − axi − b) = 0.
i=1
Pn
2 , b̂ = Ȳ − âx̄ mit x̄ = 1
â
=
c̄
/σ̄
xY
x
i=1 xi , Ȳ =
n
1 Pn
1 Pn
2
2
σ̄x = n−1 i=1 (xi − x̄) , c̄xY = n−1 i=1 (xi − x̄)(Yi − Ȳ ).
Explizit gilt
1.2
P Beispiel
(einfaktorielle Varianzanalyse, ANOVA)
p
i=1 ni Realisierungen
.
1
n
Pn
i=1 Yi ,
Man beobachtet
n =
Yij = µ + αi + ij , j = 1, . . . , ni , i = 1, . . . , p
mit iid zentrierten Fehlern mit Varianz
(Zielgröÿe abhängig von
p
σ2 > 0
aus
p
verschiedenen Gruppen
Faktoren) mit Gruppengröÿen
ni , i = 1, . . . , p.
Be-
zeichne mit
Ȳ••
p ni
ni
1 X
1 XX
=
Yij , Ȳi• =
Yij , i = 1, . . . , p,
n
ni
i=1 j=1
j=1
den Gesamtmittelwert und die Gruppenmittelwerte. Neben der Parameterschätzung mit der Methode der kleinsten Quadrate
µ̂ = Ȳ•• , α̂i = Ȳi• − Ȳ•• , i = 1, . . . , p,
interessiert vor allem auf unterschiedliche Einüsse der Faktoren zu testen:
H0 : α1 = α2 = . . . = αp = 0.
Hierzu bestimmt man Schätzer für
(a) die Varianz innerhalb der Gruppen,
1
(b) die Varianz zwischen den Gruppen,
(c) die Gesamtvarianz.
Je gröÿer dabei der Anteil der Varianz zwischen den Gruppen, desto eher wird
H0
abgelehnt.
1.3 Denition.
Ein lineares Modell mit
n
reellwertigen Beobachtungen
(Y1 , . . . , Yn )> und
Y =
p
p-dimensionalem Parameter β ∈ R , p 6 n, besteht aus einer
X ∈ Rn×p von vollem Rang p, der Designmatrix, und einem
>
Zufallsvektor ε = (ε1 , . . . , εn ) , den Fehler- oder Störgröÿen, mit E[εi ] = 0,
Cov(εi εj ) = Σij zur Kovarianzmatrix Σ > 0. Beobachtet wird eine Realisierung
reellen Matrix
von
Y = Xβ + ε.
Der (gewichtete) Kleinste-Quadrate-Schätzer
β̂ von β minimiert den gewichteten
Euklidischen Abstand zwischen Beobachtungen und Modellvorhersage:
|Σ−1/2 (X β̂ − Y )|2 = infp |Σ−1/2 (Xb − Y )|2 .
b∈R
Im gewöhnlichen Fall
σ > 0,
Σ = σ 2 En (En ∈ Rn×n :
Einheitsmatrix) mit Fehlerniveau
erhalten wir den gewöhnlichen Kleinste-Quadrate-Schätzer (OLS: ordi-
nary least squares), der unabhängig von der Kenntnis von
σ2
ist:
|X β̂ − Y |2 = infp |Xb − Y |2 .
b∈R
Bemerkung. Wir schreiben Σ > 0, falls Σ eine symmetrische, strikt positivdenite Matrix ist. Dann ist Σ diagonalisierbar mit Σ = T DT > , D =
diag(λ1 , . . . , λn ) Diagonalmatrix und T orthogonale Matrix, und wir setzen
−1/2
−1/2
Σ−1/2 = T D−1/2 T > mit D−1/2 = diag(λ1 , . . . , λn ). Wie erwartet, gilt
(Σ−1/2 )2 = Σ−1 und somit |Σ−1/2 v|2 = hΣ−1 v, vi.
1.4 Beispiele.
(a) Einfaches Shift-Modell: Wir beobachten
µ ∈ R unbekannt, was
X = (1, . . . , 1)> führt.
Yi = µ + εi , i = 1, . . . , n, mit
p = 1, β = µ und
auf ein lineares Modell mit
p = 2, β = (b, a)> , X = (Xij ) mit Xi,1 = 1, Xi,2 = xi .
hat, müssen mindestens zwei der (xi ) verschieden sein.
(b) Lineare Regression:
Damit
X
Rang 2
(c) Mehrfache lineare Regression: bei
xi = (xi,1 , . . . , xi,d )
a = (a1 , . . . , ad )> , i = 1, . . . , n.
p = d + 1, β = (a0 , a1 , . . . , ad )> sowie


1 x1,1 · · · x1,d

.
. 
.
. .
X =  ...
.
.
1 xn,1 · · · xn,d
X vollen Rang besitzt, ist gleichbedeutend damit, dass
1
d+1
, i = 1, . . . , n, den gesamten Raum R
aufspannen.
xi
Die Forderung, dass
die Punkte
Design mit Punkten
beobachtet man
Yi = a0 + ha, xi i + εi ,
Wir erhalten
d-dimensionalem
2
(d) Polynomiale Regression: wir beobachten
Yi = a0 + a1 xi + a2 x2i + · · · + ap−1 xp−1
+ εi ,
i
Damit ergibt sich als Parameter
i = 1, . . . , n.
β = (a0 , a1 , . . . , ap−1 )>
und eine Design-
matrix vom Vandermonde-Typ:

1 x1
1 x2

X = . .
 .. ..
x21
x22
.
.
.

· · · xp−1
1

· · · xp−1
2 
. .
. 
.
1 xn x2n · · · xp−1
n
Die Matrix
X
hat vollen Rang, sofern
p der Designpunkte (xi ) verschieden
sind.
(e) Einfaktorielle Varianzanalyse:
P
Pj
Yi = µj + i , i = j−1
l=1 nl + 1, . . . ,
l=1 nl , j = 1, . . . , p
β = (µ1 , . . . , µp ) ist X Blockdiagonalmatrix mit vollem Rang p.
Im Modell
und
1.2 Der Satz von Gauÿ-Markov
1.5 Lemma. Setze XΣ := Σ−1/2 X . Mit ΠXΣ werde die Orthogonalprojektion von Rn auf den Bildraum ran(XΣ ) bezeichnet. Dann gilt
ΠXΣ = XΣ (XΣ> XΣ )−1 XΣ> und für den Kleinste-Quadrate-Schätzer β̂ =
(X > Σ−1 X)−1 X > Σ−1 Y . Insbesondere existiert der Kleinste-Quadrate-Schätzer
und ist eindeutig.
Bemerkung.
(a) Im gewöhnlichen linearen Modell gilt β̂ = (X > X)−1 X > Y , da sich σ > 0
herauskürzt.
(b) XΣ+ := (XΣ> XΣ )−1 XΣ> heiÿt auch Moore-Penrose-Inverse von XΣ , so dass
β̂ = XΣ+ Σ−1/2 Y bzw. β̂ = X + Y im gewöhnlichen linearen Modell gilt.
Beweis. Zunächst beachte, dass XΣ> XΣ = X > Σ−1 X invertierbar ist wegen der
Invertierbarkeit von
Σ
und der Rangbedingung an
X:
X > Σ−1 Xv = 0 ⇒ v > X > Σ−1 Xv = 0 ⇒ |Σ−1/2 Xv| = 0 ⇒ |Xv| = 0 ⇒ v = 0.
PXΣ := XΣ (XΣ> XΣ )−1 XΣ> und w = PXΣ v für ein v ∈ Rn . Dann folgt
w ∈ ran(XΣ ) und im Fall v = XΣ u durch Einsetzen w = PXΣ XΣ u = v , so dass
PXΣ eine Projektion auf ran(XΣ ) ist. Da PXΣ selbstadjungiert (symmetrisch)
ist, handelt es sich um die Orthogonalprojektion ΠXΣ :
Setze
∀u ∈ Rn : hu − PXΣ u, wi = hu, wi − hu, PXΣ wi = 0.
β̂ = argminb |Σ−1/2 (Y − Xb)|2 folgt, dass β̂ die
−1/2 Y durch X b liefert. Diese ist durch
ste Approximation im R von Σ
Σ
−1/2 Y = X β̂ bestimmt. Es folgt
Orthogonalprojektionseigenschaft ΠXΣ Σ
Σ
Aus der Eigenschaft
n
XΣ> ΠXΣ Σ−1/2 Y = (XΣ> XΣ )β̂ ⇒ (X > Σ−1 X)−1 X > Σ−1 Y = β̂.
3
bedie
1.6 Satz. Im gewöhnlichen linearen Modell mit Fehlerniveau
folgenden Aussagen:
σ>0
gelten die
(a) Der Kleinste-Quadrate-Schätzer β̂ = (X > X)−1 X > Y ist erwartungstreuer
Schätzer von β (d.h. E[β̂] = β ).
(b) Satz von Gauÿ-Markov: ist der reelle Parameter γ = hβ, vi für ein v ∈ Rp
zu schätzen, so ist γ̂ = hβ̂, vi ein (in den Daten Y ) linearer erwartungstreuer Schätzer, der unter allen linearen erwartungstreuen Schätzern minimale Varianz besitzt, nämlich Var(γ̂) = σ2 |X(X > X)−1 v|2 .
(c) Bezeichnet R := Y − X β̂ den Vektor der Residuen, so ist die geeignet
normalisierte Stichprobenvarianz
σ̂ 2 :=
|R|2
|Y − X β̂|2
=
n−p
n−p
ein erwartungstreuer Schätzer von σ2 .
Beweis.
(a) Aus der Linearität des Erwartungswerts und
E[ε] = 0
folgt
E[β̂] = E[(X > X)−1 X > (Xβ + ε)] = β + 0 = β.
(b) Aus (a) folgt, dass
γ̂
alle
γ̃ = hY, wi
γ . Dies impliziert für
linear und erwartungstreu ist. Sei nun
ein beliebiger linearer erwartungstreuer Schätzer von
β ∈ Rp
E[hY, wi] = γ ⇒ hXβ, wi = hβ, vi ⇒ hX > w − v, βi = 0 ⇒ X > w = v.
Nach Pythagoras erhalten wir
Var(γ̃) = E[hε, wi2 ] = σ 2 |w|2 = σ 2 (|ΠX w|2 + |(En − ΠX )w|2 )
und somit
Var(γ̃) > σ 2 |ΠX w|2 = σ 2 |X(X > X)−1 v|2 = Var(γ̂).
E[|Y − X β̂|2 ] = E[|Y − ΠX Y |2 ] = E[|(En − ΠX )ε|2 ]. Ist
nun e1 , . . . , en−p eine Orthonormalbasis vom (n − p)-dimensionalen Bild
ran(En − ΠX ) ⊆ Rn , so folgt
(c) Einsetzen zeigt
E[|(En − ΠX )ε|2 ] =
n−p
X
E[hε, ei i2 ] = σ 2 (n − p),
i=1
was die Behauptung impliziert.
Bemerkung.
(a) Man sagt, dass der Schätzer γ̂ im Satz von Gauÿ-Markov bester linearer
erwartungstreuer Schätzer (BLUE: best linear unbiased estimator) ist.
4
(b) Oft interessiert auch der Vorhersagefehler |X β̂ − Xβ|2 (d.h. bei der Regression die quadrierte Dierenz der vorhergesagten und wahren Werte an
den Designpunkten), so prüft man leicht nach:
E[|X β̂ − Xβ|2 ] = E[|ΠX ε|2 ] = σ 2 p.
Insbesondere wächst dieser Fehler linear in der Dimension p des Parameterraums.
(c) Eine entsprechende Aussage des Satzes von Gauÿ-Markov gilt auch im
allgemeinen linearen Modell (Übung!).
(d) Falls X nicht vollen Rang hat gibt es unendlich viele Kleinste-QuadrateSchätzer. Jeder ist im gewöhnlichen Fall von der Form β̂ = (X > X)− X > Y
mit (X > X)− verallgemeinerte Inverse von X > X . Im Falle der einfaktoriellen Varianzanalyse mit Yij = µ + αi + ij und β = (µ, α1 , . . . , αp ) ∈ Rp+1
hat X nicht vollen Rang.
1.3 Inferenz unter Normalverteilungsannahme
1.7 Beispiel.
(εi ) ∼ N (0, σ 2 En ) gemeinsam normalverteilt,
2
>
−1 ) und γ̂ ∼ N (γ, σ 2 v > (X > X)−1 v). Ist weiterhin
so gilt β̂ ∼ N (β, σ (X X)
σ > 0 bekannt, so ist ein Kondenzintervall zum Niveau 95% für γ gegeben
Sind die Messfehler
durch
q
q
h
i
I0,95 (γ) := γ̂ − 1, 96σ v > (X > X)−1 v, γ̂ + 1, 96σ v > (X > X)−1 v .
q0,975 = 1, 96 gerade das 0, 975-Quantil bzw. 0, 025-Fraktil der
Standardnormalverteilung, d.h. Φ(1, 96) ≈ 0, 975. Analog wird der zweiseitige
Gauÿ-Test der Hypothese H0 : γ = γ0 gegen H1 : γ 6= γ0 zum Niveau α ∈ (0, 1)
p
v > (X > X)−1 v gilt mit
konstruiert: H0 wird akzeptiert, falls |γ̂ − γ0 | 6 q1−α/2 σ
dem (1 − α/2)-Quantil q1−α/2 von N (0, 1), sonst verworfen.
Dabei ist der Wert
Falls
σ
unbekannt ist, so ist eine Idee, einfach
σ
durch einen Schätzer
σ̂
in
obigen Formeln zu ersetzen. Allerdings wird dann das vorgegebene Niveau nur
noch asymptotisch erreicht für einen konsistenten Schätzer (Slutsky-Lemma!).
Im vorliegenden Fall können wir aber sogar die nicht-asymptotische Verteilung
exakt bestimmen.
1.8 Denition.
heitsgraden auf
Die t-Verteilung (oder Student-t-Verteilung) mit
(R, BR )
tn (x) =
Frei-
ist gegeben durch die Lebesguedichte
Γ((n + 1)/2) x2 −(n+1)/2
√
1+
,
n
Γ(n/2) πn
Die F-Verteilung (oder Fisher-Verteilung) mit
(R, BR )
n∈N
x ∈ R.
(m, n) ∈ N2
Freiheitsgraden auf
ist gegeben durch die Lebesguedichte
mm/2 nn/2
xm/2−1
1R (x), x ∈ R .
B(m/2, n/2) (mx + n)(m+n)/2 +
R∞
Γ(p) = 0 tp−1 e−t dt die Gamma-Funktion sowie B(p, q) =
fm,n (x) =
Dabei bezeichnet
Γ(p)Γ(q)
Γ(p+q) die Beta-Funktion.
5
1.9 Lemma. Es seien X1 , . . . , Xm , Y1 , . . . , Yn unabhängige N (0, 1)-verteilte Zufallsvariablen. Dann ist
X1
Tn := q P
n
1
n
2
j=1 Yj
gemäÿ einer t-Verteilung mit n Freiheitsgraden sowie
Fm,n :=
1 Pm
2
i=1 Xi
m
P
n
1
2
j=1 Yj
n
gemäÿ einer F -Verteilung mit (m, n) Freiheitsgraden verteilt.
Beweis.
Tn2 = F1,n gilt, so dass mittels Dichtetransformation f|Tn | (x) = fF1,n
x > 0, gilt. Da Tn symmetrisch (wie −Tn ) verteilt
2
ist, folgt fTn (x) = fF1,n (x )|x|, x ∈ R, und Einsetzen zeigt die Behauptung für
Tn , sofern F1,n F (1, n)-verteilt
Pn
Pist.
m
2 2
2 2
Dafür benutze, dass X :=
j=1 Yj χ (n)i=1 Xi χ (m)-verteilt und Y :=
verteilt sind. Wegen Unabhängigkeit von X und Y gilt für z > 0 (setze w = x/y )
Z Z
P(X/Y 6 z) =
1(x/y 6 z)fX (x)fY (y) dydx
Z
Z
= 1(w 6 z)
fX (wy)fY (y)y dy dw,
Beachte zunächst, dass
(x2 )2x,
so dass sich die Dichte wie folgt ergibt (setze
w = (x + 1)y )
Z
fX/Y (x) =
fX (xy)fY (y)y dy
Z ∞
2−(m+n)/2
=
(xy)m/2−1 y n/2 e−(xy+y)/2 dy
Γ(m/2)Γ(n/2) 0
Z ∞
2−(m+n)/2
=
(xw/(x + 1))m/2−1 (w/(x + 1))n/2 e−w/2 (x + 1)−1 dw
Γ(m/2)Γ(n/2) 0
Γ((m + n)/2) m/2−1
=
x
(x + 1)−(m+n)/2 , x > 0.
Γ(m/2)Γ(n/2)
Dichtetransformation
m
m
n fX/Y ( n x)
ergibt
damit
für
Fm,n
=
n
m (X/Y
)
die
Dichte
= fm,n (x).
Bemerkung. Für n = 1 ist die t(n)-Verteilung gerade die Cauchy-Verteilung
und für n → ∞ konvergiert sie schwach gegen die Standardnormalverteilung
(Slutsky-Lemma!). Für jedes n ∈ N besitzt t(n) endliche Momente nur bis zur
Ordnung p < n (sie ist heavy-tailed). Ähnliches gilt für die F-Verteilung, insbesondere konvergiert mF (m, n) für F (m, n)-verteilte Zufallsvariablen F (m, n)
und n → ∞ gegen die χ2 (m)-Verteilung.
1.10 Satz. Im gewöhnlichen linearen Modell unter Normalverteilungsannahme
εi ∼ N (0, σ 2 ) gelten folgende Kondenzaussagen für gegebenes α ∈ (0, 1) (Notation wie in Satz 1.6):
6
(a) Kondenzbereich für β : Ist qF (p,n−p);1−α das (1 − α)-Quantil der F (p, n −
p)-Verteilung, so ist
C := {β ∈ Rp | |X(β − β̂)|2 < pqF (p,n−p);1−α σ̂ 2 }
ein Kondenzellipsoid zum Niveau 1 − α für β .
(b) Kondenzbereich für γ = hβ, vi: Ist qt(n−p);1−α/2 das (1 − α/2)-Quantil
der t(n − p)-Verteilung, so ist
q
q
h
i
I := γ̂−σ̂ v > (X > X)−1 vqt(n−p);1−α/2 , γ̂+σ̂ v > (X > X)−1 vqt(n−p);1−α/2
ein Kondenzintervall zum Niveau 1 − α für γ .
Beweis des Satzes.
B
1−α
Allgemein müssen wir jeweils für einen Kondenzbereich
für den vom wahren Parameter
β
abgeleiteten Parameter
ϑβ
zum Niveau
nachweisen, dass gilt
∀β ∈ Rp : Pβ (ϑβ ∈ B) > 1 − α.
Im folgenden werden wir sogar Gleichheit erhalten.
(a)
−2
2
X(β̂ − β) = ΠX ε ist N (0, σ 2 ΠX Π>
X )-verteilt und somit ist σ |X(β̂ − β)|
2
2
|Y
−Π
Y
|
|ε−Π
ε|
X
X
χ2 (p)-verteilt. Weiterhin gilt ja σ̂ 2 =
=
n−p
n−p , so dass
X(β̂ − β)
und
σ̂ 2
unabhängig sind, weil
ΠX ε
und
(En − Πx )ε
unabhän-
gig sind (da unkorreliert und gemeinsam normalverteilt). Auÿerdem folgt,
n−p 2 2
σ̂ χ (n − p)-verteilt ist. Wie in Lemma 1.9 schlieÿen wir, dass
σ2
|X(β̂ − β)|2 /(pσ̂ 2 ) F (p, n − p)-verteilt ist. Damit ist C per Konstruktion
dass
ein entsprechender Kondenzbereich.
(b) Wie
in
(a)
sind
γ̂
und
σ̂
N (0, σ 2 v > (X > X)−1 v), so dass
unabhängig.
√
σ̂
Auÿerdem
gilt
γ̂ − γ ∼
t(n − p)-
γ̂−γ
wie in Lemma 1.9
v > (X > X)−1 v
verteilt ist und die Behauptung folgt.
1.11 Korollar. Im Shiftmodell Yi =
i.i.d. und µ ∈ R, σ > 0 unbekannt ist
µ + εi , i = 1, . . . , n,
mit εi ∼ N (0, σ2 )
I := [µ̂ − σ̂n−1/2 qt(n−1);1−α/2 , µ̂ + σ̂n−1/2 qt(n−1);1−α/2 ]
P
1 Pn
2
mit µ̂ = n1 ni=1 Yi , σ̂2 = n−1
i=1 (Yi − µ̂) ein Kondenzintervall zum Irrtumsniveau α für µ. Die Hypothese H0 : µ = µ0 kann gegen die Alternative µ 6= µ0 mit dem zweiseitigen t-Test zum Niveau α getestet werden: Falls
|µ̂ − µ0 | > σ̂n−1/2 qt(n−1);1−α/2 gilt, lehne die Hypothese H0 ab, sonst akzeptiere
sie.
Beweis.
Das Kondenzintervall folgt direkt aus Teil (b) des vorigen Satzes mit
dem linearen Modell, wo
p = 1, X = (1, . . . , 1)>
γ = β , v = 1 ist. Der
I , weil diese insbesondere
µ0 ∈
/ I ⇐⇒ |µ̂ − µ0 | > σ̂n−1/2 qt(n−1);1−α/2
und
Test folgt aus der Aussage für das Kondenzintervall
Pµ0 (µ0 ∈
/ I) 6 α
impliziert und
gilt.
7
1.12 Korollar. Im Modell der einfaktoriellen Varianzanalyse
Yij = µ + αi + ij , j = 1, . . . , ni , i = 1, . . . , p,
∼ N (0, σ 2 ) dass unter H0 : α1 = . . . =
gilt unter Normalverteilungsannahme ij iid
αp = 0
Pp
ni (Ȳi• − Ȳ•• )2 (n − p)
F̂ = Pp i=1Pni
∼ Fp−1,n−p .
2
j=1 (Yij − Ȳi• ) (p − 1)
i=1
Also lehnt man H0 ab falls F̂ > qF (p−1,n−p);1−α .
Bemerkung. Es gibt sogenannte verallgemeinerte lineare Modelle (GLM:
Generalized Linear Models), in denen statt der Normalverteilungsannahme eine
Verteilung aus den exponentiellen Familien zugrunde gelegt wird. Ein wichtiges
Beispiel ist die logistische Regression, wo Binomial-verteilte Yi ∼ Bin(ni , pi ) beobachtet werden mit der sogenannten logit-Linkfunktion log(pi /(1−pi ))i=1,...,n =
Xβ , so dass
Yi /ni = pi + εi =
1
+ εi ,
1 + exp(−(Xβ)i )
E[εi ] = 0.
Desweiteren gibt es nicht-lineare Regressionsmodelle, z.B. im Michaelis-MentonModell.
2 Grundprinzipien statistischer Entscheidungstheorie
2.1 Formalisierung eines statistischen Problems
Als Grundlage einer Entscheidung dient die Realisierung eines Zufallsexperimentes, die beobachteten Daten. Das Zufallsexperiment wird durch eine Zufallsvariable
X
mit Werten im Messraum
(X, F ) beschrieben. Die Verteilung von X ist
P = (Pϑ )ϑ∈Θ angenommen. Der
unbekannt und wird zugehörig zu der Familie
Parameter
ϑ
kann endlich- (parametrische) oder unendlich-dimensional (nicht-
parametrische Statistik) sein, sowie Störparameter (nuisance) beinhalten, welche für die Entscheidung nicht von Bedeutung sind. Ein bereits vertrautes Bei-
iid
Θ = {(µ, σ 2R)} = R × R+ , für (X1 , . . . , Xn ) ∼ N (µ, σ 2 ). Ebenso kann
Θ = {(µ, F ), µ ∈ R, xF (dx) = 0} sein ohne spezielle Verteilungsannahme.
spiel ist
Während ein nichtparametrischer Ansatz verteilungsfrei ist, also ohne starke Verteilungsannahme auskommt, erlaubt die parametrische Statistik starke
Aussagen über die Konstruktion und Eigenschaften von Lösungen statistischer
Entscheidungsprobleme (z.B. von Schätzern). Entscheidungen sind Elemente eines Aktionsraums
A,
z.B. A
= {0, 1}
bei einem Hypothesentest ohne Rando-
misierung oder bei einer Klassikation (z.B. SPAM-Filter), oder
A=R
bei der
Schätzung eines reellen Parameters.
2.1 Denition.
(X, F ) versehen mit einer Familie (Pϑ )ϑ∈Θ von
Θ 6= ∅ beliebige Parametermenge, heiÿt statistisches
Experiment oder statistisches Modell. X heiÿt Stichprobenraum. Jede (F , S )messbare Funktion Y : X → S mit Werten in (S, S ) heiÿt Beobachtung oder
Ein Messraum
Wahrscheinlichkeitsmaÿen,
8
Statistik und induziert das statistische Modell
(S, S , (PYϑ )ϑ∈Θ ).
Y1 , . . . , Yn für jedes Pϑ unabhängig und
Y1 , . . . , Yn eine mathematische Stichprobe.
achtungen
man
2.2 Denition.
Es sei
(X, F , (Pϑ )ϑ∈Θ )
Sind die Beob-
identisch verteilt, so nennt
ein statistisches Experiment. Eine
ρ : X → A, wobei der Messraum
(A, A ) der sogenannte Aktionsraum ist. Jede Funktion l : Θ × A → [0, ∞) =:
R+ , die messbar im zweiten Argument ist, heiÿt Verlustfunktion. Das Risiko
einer Entscheidungsregel ρ bei Vorliegen des Parameters ϑ ∈ Θ ist
Z
R(ϑ, ρ) := Eϑ [l(ϑ, ρ)] =
l(ϑ, ρ(x)) Pϑ (dx).
Entscheidungsregel ist eine messbare Abbildung
X
2.3 Beispiele.
(a) Beim gewöhnlichen linearen Modell wähle als Parameterraum
Rp × R+
mit Parametern
lichkeitsraum
(Ω, G , P),
0, E[εi εj ] = δi,j
ϑ = (β, σ) ∈ Θ.
Θ =
Nun wähle einen Wahrschein-
auf dem der Zufallsvektor
ε : Ω → Rn
E[ε] =
X = Rn
= Xβ + σε, so
mit
deniert ist. Versieht man den Stichprobenraum
F = BRn und setzt Yϑ = Yβ,σ
(Pϑ )ϑ∈Θ der Zufallsvariablen (Yϑ )ϑ∈Θ
mit seiner Borel-σ -Algebra
bilden die Verteilungen
die Familie
von Wahrscheinlichkeitsmaÿen auf dem Stichprobenraum.
Um den Kleinste-Quadrate-Schätzer
β̂
als Entscheidungsregel zu interpre-
A = Rp
und beispielsweise die quadratische Verlustfunktion l(ϑ, a) = l((β, σ), a) =
|β − a|2 . Beim Verlust ist σ irrelevant; da aber die Verteilung Pϑ von σ
tieren und seine Güte zu messen, betrachtet man den Aktionsraum
abhängt, spricht man von einem Störparameter.
Beachte,
dass
bei
obiger
Modellierung
eine
feste
Verteilung
von
ε
(z.B. Normalverteilung) angenommen wird. Ist realistischerweise auch
(Pϑ ) die RFamiy P(dy) ∈ ran(X), (y −
die Art der Verteilung unbekannt, sollte man statt
lie P = {P W-Maÿ auf F | EP [Y ] :=
EP [Y ])(y − EP [Y ])> P(dy) = σ 2 En } betrachten.
R
In dieser Betrachtungs-
weise bleibt von einem unendlich-dimensionalen Parameterraum maximal ein (p + 1)-dimensionaler interessierender Parameter ϑ übrig (beachte
β = X −1 (EP [Y ])).
(b) Bei einem Hypothesentest der Form
H1 : ϑ ∈ Θ{0
H0 : ϑ ∈ Θ0 gegen die Alternative
A = {0, 1}. Als Verlustfunktion
ohne Randomisierung ist
betrachtet man üblicherweise


`0
R(ϑ, ϕ) = `1


0
ϑ ∈ Θ0 , ϕ = 1, Fehler
ϑ ∈ Θ{0 , ϕ = 0, Fehler
sonst
.
1.Art,
2.Art,
Hierbei wird die Fehlerwahrscheinlichkeit erster Art mit
Art mit
`1
gewichtet mit Konstanten
`0 ,
die zweiter
`0 , `1 > 0.
Bsp.: Für einen Test auf Wirksamkeit eines neuen Medikaments werden 100 Versuchspersonen mit diesem behandelt. Unter der (vereinfachenden) Annahme, dass alle Personen identisch und unabhängig auf
9
das Medikament reagieren, wird in Abhängigkeit von der Anzahl
N
der
erfolgreichen Behandlungen entschieden, ob die Erfolgsquote höher ist
als diejenige einer klassischen Behandlung. Als Stichprobenraum wäh-
X = {0, 1, . . . , 100} mit der Potenzmenge als σ -Algebra und Pp =
Bin(100, p), p ∈ Θ = [0, 1], als mögliche Verteilungen. Die Nullhypothese
ist H0 : p 6 p0 für den unbekannten Parameter p. Als Aktionsraum dient
A = {0, 1} (H0 annehmen bzw. verwerfen), und wir wählen den Verlust
l(p, a) = `0 1{p6p0 , ϕ=1} + `1 1{p>p0 , ϕ=0} . Dies führt auf das Risiko
le
(
`0 Pp (ϕ = 1), p 6 p0
R(p, ϕ) =
.
`1 Pp (ϕ = 0), p > p0
Gute Verfahren sollen möglichst kleines Risiko aufweisen. Da
ϑ ∈ Θ
ver-
schiedene Werte annehmen kann, ist es möglich dass
R(ϑ1 , ρ1 ) < R(ϑ1 , ρ2 ),
für
ϑ1 6= ϑ2
jedoch
verschiedene Parameter aus
R(ϑ2 , ρ1 ) > R(ϑ2 , ρ2 )
Θ. Da ϑ ∈ Θ unbekannt ist die Auswahl
eines besten Verfahrens allgemein ein schwieriges Problem. In Beispiel 2.3 (b)
ist das Risiko direkt durch die Fehlerwahrscheinlichkeiten bestimmt. Man kann
Eϑ [ϕ] vergröÿern auf Kosten des Niveaus. Der einseitige Test
hat bei H0 : ϑ ∈ Θ0 = ϑ0 gegen H1 : ϑ > ϑ0 eine gröÿerer Güte auf {ϑ >
ϑ0 } als der zweiseitige Test, jedoch eine geringere auf {ϑ < ϑ0 }. Verschiedene
die Güte des Tests
Lösungen des Konikts zwischen dem Risiko auf unterschiedlichen Teilmengen
von
Θ
führen zu unterschiedlichen Optimalitätsbegrien. Im folgenden Kapitel
behandeln wird die wichtigsten.
2.2 Optimale statistische Entscheidungen
2.2.1 Zulässigkeit
2.4 Denition. Die Entscheidungsregel ρ heiÿt besser als eine Entscheidungs-
ρ0 , falls R(ϑ, ρ) 6 R(ϑ, ρ0 ) für alle ϑ ∈ Θ gilt und falls ein ϑ0 ∈ Θ mit
R(ϑ0 , ρ) < R(ϑ0 , ρ0 ) existiert. Eine Entscheidungsregel heiÿt zulässig, wenn es
regel
keine bessere Entscheidungsregel gibt.
Bemerkung. Häug wird für diese Denition die Menge der betrachteten Entscheidungsregeln eingeschränkt. So ist der Kleinste-Quadrate-Schätzer im linearen Modell nach dem Satz 1.6 von Gauÿ-Markov zulässig unter quadratischem
Verlust in der Klasse der erwartungstreuen und linearen Schätzern.
2.5 Beispiel.
Y1 , . . . , Yn eine N (ϑ, 1)-verteilte mathematische Stichprobe
mit ϑ ∈ R. Betrachte ϑ̂1 = Ȳ , ϑ̂2 = Ȳ + 0.5, ϑ̂3 = 6 unter quadratischem
2
Verlust l(ϑ, a) = (ϑ − a) . Wegen R(ϑ, ϑ̂1 ) = 1/n, R(ϑ, ϑ̂2 ) = 0.25 + 1/n ist
ϑ̂1 besser als ϑ̂2 , allerdings ist weder ϑ̂1 besser als ϑ̂3 noch umgekehrt. In der
Tat ist ϑ̂3 zulässig, weil R(ϑ, ϑ̂3 ) = 0 für ϑ = 6 gilt und jeder Schätzer mit
dieser Eigenschaft Lebesgue-fast überall mit ϑ̂3 übereinstimmt. Später werden
wir sehen, dass auch ϑ̂1 zulässig ist.
Es sei
10
Wie das vorangehende Beispiel aufzeigt gibt es im allgemeinen viele zulässige Verfahren, darunter auch triviale oder unbrauchbare. Auÿerdem wird sich
zeigen dass manche Standardmethoden nicht zulässig sind. Trotzdem ist die
Zulässigkeit ein nützlicher Begri zur Einordnung statistischer Lösungen von
Entscheidungsproblemen.
2.2.2 Minimax-Ansatz
2.6 Denition. Eine Entscheidungsregel ρ heiÿt minimax, falls
sup R(ϑ, ρ) = inf0 sup R(ϑ, ρ0 ),
ρ ϑ∈Θ
ϑ∈Θ
wobei sich das Inmum über alle Entscheidungsregeln
ρ0
erstreckt.
Nach dem Minimax-Prinzip wird also das Risiko im Worst Case Falle minimiert (pessimistischer Standpunkt).
2.7 Beispiel.
X ∼ N (ϑ, 1) mit A = R, Θ = R und
ρk (X) = kX, k ∈ R+ , mit quadratischer
Betrachte eine Stichprobe
die Klasse von Entscheidungsregeln
Verlustfunktion, so dass
R(ϑ, ρk ) = E (ϑ − kX)2 = ϑ2 (1 − k)2 + k 2 .
Für k = 1 ist R(ϑ, ρ1 ) = 1 konstant und ρ1 besser als ρk für alle k > 1. Alle
ρk , 0 6 k 6 1 sind zulässig, insbesondere ist R(0, ρ0 ) = 0. Vergleiche hierzu
Abbildung 1. Die Entscheidungsregel ρ1 ist minimax, da
(
1
,k = 1
sup R(ϑ, ρk ) =
.
∞ , k 6= 1
ϑ∈R
2.2.3 Bayes-Ansatz
2.8 Denition. Der Parameterraum
Θ trage die σ -Algebra FΘ , die Verlustϑ 7→ Pϑ (B) sei messbar für alle B ∈ F . Die
a-priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlichkeitsmaÿ auf (Θ, FΘ ) . Das zu π assoziierte Bayesrisiko einer Entscheidungsregel
ρ ist
Z
Z Z
Rπ (ρ) := Eπ [R(ϑ, ρ)] =
R(ϑ, ρ) π(dϑ) =
l(ϑ, ρ(x)) Pϑ (dx) π(dϑ).
funktion
l
sei produktmessbar und
Θ
ρ
Θ
heiÿt Bayesregel oder Bayes-optimal (bezüglich
X
π ),
falls
Rπ (ρ) = inf0 Rπ (ρ0 )
ρ
gilt, wobei sich das Inmum über alle Entscheidungsregeln
11
ρ0
erstreckt.
Abbildung 1: Risiko
R(ϑ, ρk )
gegen
ϑ
für verschiedene Werte von
k
in Beispiel
2.7.
Bemerkung. Während eine Minimaxregel den maximal zu erwartenden Verlust minimiert, kann das Bayesrisiko als ein (mittels π) gewichtetes Mittel der
zu erwartenden Verluste angesehen werden. Alternativ wird π als die subjektive Einschätzung der Verteilung des zugrundeliegenden Parameters interpretiert.
Daher wird das Bayesrisiko auch als insgesamt zu erwartender Verlust in folgendem Sinne verstanden: Deniere Ω := X × Θ und P̃ auf (Ω, F ⊗ FΘ ) gemäÿ
P̃(dx, dϑ) = Pϑ (dx)π(dϑ) (gemeinsame Verteilung von Beobachtung und Parameter). Bezeichne mit X und ϑ die Koordinatenprojektionen von Ω auf X bzw.
Θ. Dann gilt Rπ (ρ) = EP̃ [l(ϑ, ρ(X))].
2.3 Bayes-Methoden
2.9 Denition. Es sei X eine (S, S )-wertige Zufallsvariable auf (Ω, F , P). Eine
Abbildung
K : S × F → [0, 1]
X , falls
heiÿt reguläre bedingte Wahrscheinlichkeit oder
Markovkern bezüglich
(a)
A 7→ K(x, A)
ist Wahrscheinlichkeitsmaÿ für alle
(b)
x 7→ K(x, A)
ist messbar für alle
(c)
K(X, A) = P(A | X) := E[1A | X] P-f.s.
x ∈ S;
A ∈ F;
für alle
A ∈ F.
2.10 Satz. Es sei (Ω, d) ein vollständiger, separabler (= polnischer) Raum mit
Metrik d und Borel-σ-Algebra F . Für jede Zufallsvariable X auf (Ω, F , P) existiert eine reguläre bedingte Wahrscheinlichkeit K bezüglich X . K ist P-f.s. eindeutig bestimmt, d.h. für eine zweite solche reguläre bedingte Wahrscheinlichkeit
K 0 gilt P(∀A ∈ F : K(X, A) = K 0 (X, A)) = 1.
Beweis. Siehe z.B. Gänssler, Stute (1977): Wahrscheinlichkeitstheorie, Springer.
12
2.11 Denition.
scheinlichkeit
ϑ
Die Verteilung von
P̃(• | X = x) von P̃
X = x.
unter der regulären bedingten Wahr-
heiÿt a-posteriori-Verteilung des Parameters
gegeben die Beobachtung
Aus der Wahrscheinlichkeitstheorie hat man folgenden grundlegenden Satz
über bedingte Wahrscheinlichkeiten (vgl. Witting, S. 321).
2.12 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell sowie π eine a-prioriVerteilung auf (Θ, FΘ ), so dass Pϑ µ für alle ϑ ∈ Θ sowie π ν gilt mit
Maÿen µ und ν und Dichten fϑ bzw. g. Ist fϑ : X × Θ → R+ (F ⊗ FΘ )messbar, so besitzt die a-posteriori-Verteilung Pϑ | X=x des Parameters eine ν Dichte, nämlich
fϑ | X=x (ϑ) = R
2.13
Beispiel.
Für
fϑ (x)g(ϑ)
0
0
0
Θ fϑ (x)g(ϑ )ν(dϑ )
einen
(Bayes-Formel).
Bayestest
(oder
auch
ein
Bayes-
Θ = {0, 1}, A = {0, 1}, l(ϑ, a) = |ϑ − a|
(0-1-Verlust) und betrachte eine a-priori-Verteilung π mit π({0}) =: π0 ,
π({1}) =: π1 . Die Wahrscheinlichkeitsmaÿe P0 , P1 auf (X, F ) mögen die
Dichten p0 , p1 bezüglich einem Maÿ µ besitzen (z.B. µ = P0 + P1 ). Nach der
Bayes-Formel (mit Zählmaÿ ν ) erhalten wir die a-posteriori-Verteilung
Klassikationsproblem) setze
P̃(ϑ = i | X = x) =
πi pi (x)
,
π0 p0 (x) + π1 p1 (x)
i = 0, 1
(P̃
X
-f.ü.)
2.14 Satz. Eine Regel ρ ist Bayes-optimal, falls gilt
ρ(X) = argmina∈A EP̃ [l(ϑ, a) | X]
P̃-f.s.,
d.h. EP̃ [l(ϑ, ρ(x)) | X = x] 6 EP̃ [l(ϑ, a) | X = x] für alle a ∈ A und P̃ -fast alle
x ∈ X.
X
Beweis.
Für eine beliebige Entscheidungsregel
ρ0
gilt
Rπ (ρ0 ) = EP̃ [EP̃ [l(ϑ, ρ0 (X)) | X]] > EP̃ [EP̃ [l(ϑ, ρ(X)) | X]] = Rπ (ρ).
2.15 Korollar. Für Θ ⊆ R, A = R und quadratisches Risiko (d.h. l(ϑ, a) =
(a − ϑ)2 ) ist die bedingte Erwartung ϑ̂π := EP̃ [ϑ | X] Bayes-optimaler Schätzer
von ϑ bezüglich der a-priori-Verteilung π. Für den Absolutbetrag l(ϑ, a) = |ϑ−a|
hingegen ist jeder a-posteriori-Median ϑ̂π , d.h. P̃(ϑ 6 ϑ̂π | X) > 1/2 und P̃(ϑ >
ϑ̂π | X) > 1/2, Bayes-optimaler Schätzer (Annahme: a-posteriori-Verteilung existiert).
Beweis.
Dies folgt aus der
L2 -Projektionseigenschaft
1
bzw. der L -Minimierung des Medians.
13
der bedingten Erwartung
2.16 Beispiel.
(Fortsetzung) Nach Satz 2.14 nden wir einen Bayestest
ϕ(x)
als Minimalstelle von
a 7→ EP̃ [l(ϑ, a) | X = x] =
π0 p0 (x)
π1 p1 (x)
a+
(1 − a).
π0 p0 (x) + π1 p1 (x)
π0 p0 (x) + π1 p1 (x)
Daher ist ein Bayestest (Bayesklassizierer) gegeben durch


0,
ϕ(x) = 1,


π0 p0 (x) > π1 p1 (x)
π1 p1 (x) > π0 p0 (x)
beliebig, π0 p0 (x) = π1 p1 (x)
und
wir
entscheiden
uns
für
dasjenige
ϑ ∈ {0, 1},
dessen
a-posteriori-
Wahrscheinlichkeit am grössten ist ( MAP-estimator: maximum a posteriori
estimator). Für später sei bereits auf die Neyman-Pearson-Struktur von
Abhängigkeit von
p1 (x)/p0 (x)
ϕ
in
hingewiesen.
2.17 Satz. Es liege die Situation aus der vorangegangenen Denition vor.
(a) Für jede Entscheidungsregel ρ gilt
sup R(ϑ, ρ) = sup Rπ (ρ),
π
ϑ∈Θ
wobei sich das zweite Supremum über alle a-priori-Verteilungen π erstreckt. Insbesondere ist das Risiko einer Bayesregel stets kleiner oder
gleich dem Minimaxrisiko.
(b) Für eine Minimaxregel ρ gilt supπ Rπ (ρ) = inf ρ0 supπ Rπ (ρ0 ).
Beweis.
(a) Natürlich gilt
Rπ (ρ) =
R
Θ R(ϑ, ρ) π(dϑ) 6 supϑ∈Θ R(ϑ, ρ). Durch Betrachδϑ folgt daher die Behauptung.
tung der a-priori-Verteilungen
(b) Nach (a) muss
supϑ∈Θ R(ϑ, ρ) = inf ρ0 supϑ∈Θ R(ϑ, ρ0 )
gezeigt werden, was
gerade die Minimaxeigenschaft ist.
Bemerkung. Man kann diesen Satz insbesondere dazu verwenden, untere
Schranken für das Minimax-Risiko durch das Risiko von Bayesschätzern abzuschätzen.
2.18 Satz. Für jede Entscheidungsregel ρ gilt:
(a) Ist ρ minimax und eindeutig in dem Sinn, dass jede andere Minimax-Regel
die gleiche Risikofunktion besitzt, so ist ρ zulässig.
(b) Ist ρ zulässig mit konstanter Risikofunktion, so ist ρ minimax.
(c) Ist ρ eine Bayesregel (bzgl. π) und eindeutig in dem Sinn, dass jede andere
Bayesregel (bzgl. π) die gleiche Risikofunktion besitzt, so ist ρ zulässig.
14
(d) Die Parametermenge Θ bilde einen metrischen Raum mit Borel-σ-Algebra
FΘ . Ist ρ eine Bayesregel (bzgl. π ), so ist ρ zulässig, falls (i) Rπ (ρ) < ∞;
(ii) für jede nichtleere oene Menge U in Θ gilt π(U ) > 0; (iii) für jede
Regel ρ0 mit Rπ (ρ0 ) 6 Rπ (ρ) ist ϑ 7→ R(ϑ, ρ0 ) stetig.
Beweis.
Übung!
2.19 Satz. Es sei X1 , . . . , Xn eine N (µ, Ed )-verteilte d-dimensionale mathematische Stichprobe mit µ ∈ RdPunbekannt. Bezüglich quadratischem Risiko ist das
arithmetische Mittel X̄ = n1 ni=1 Xi minimax als Schätzer von µ.
Beweis.
π = N (0, σ 2 Ed ) für µ. Dann gilt mit
η1 , . . . , ηn ∼ N (0, Ed ) i.i.d., unabhängig von µ, die Darstellung Xi = µ + ηi , i =
1, . . . , n. Als lineare Abbildung von (µ, η1 , . . . , ηn ) ist (µ, X1 , . . . , Xn ) gemeinsam
normalverteilt und die bedingte Erwartung ist linear-an: E [µj | X1 , . . . , Xn ] =
P̃
Pn
> X +β , j = 1, . . . , d. Aus Symmetrie- und Unabhängigkeitsgründen gilt
α
i
j
i=1 ij
αij = αej = (0, . . . , 0, α, 0, . . . , 0)> für ein festes α ∈ RP
, und E[µj ] = 0 impliziert
βj = 0. Damit liefert die Orthogonalität E[Xi,j (µj − α nl=1 Xl,j )] = 0 den Wert
n
α = n+σ1 −2 . Der Bayes-optimale Schätzer ist daher µ̂σ,n = n+σ
−2 X (vektorwerBetrachte die a-priori-Verteilung
tige bedingte Erwartung), seine Risikofunktion ist
R(µ, µ̂σ,n ) =
nd+|µ|2 σ −4
.
(n+σ −2 )2
Somit können wir das Minimax-Risiko von unten abschätzen:
inf sup R(µ, ρ) = inf sup Rπ (ρ)
ρ
ρ
µ
π
> inf sup RN (0,σ2 Ed ) (ρ)
ρ σ>0
> sup inf RN (0,σ2 Ed ) (ρ)
σ>0 ρ
= sup EP̃
h nd + |µ|2 σ −4 i
(n + σ −2 )2
d
nd + dσ −2
= sup
= ,
−2 )2
(n
+
σ
n
σ>0
σ>0
wie behauptet, da
R(µ, X̄) =
d
n.
2.20 Satz. Es sei X1 , . . . , Xn eine N (µ, 1)-verteilte eindimensionale mathematische Stichprobe mit µ ∈ R P
unbekannt. Bezüglich quadratischem Risiko ist das
arithmetische Mittel X̄ = n1 ni=1 Xi zulässig als Schätzer von µ.
Beweis.
Gäbe es einen Schätzer
µ̂
mit
R(µ, µ̂) 6
1
n und
R(µ0 , µ̂) <
µ 7→ R(µ, µ̂)
1
n für
ein µ0 ∈ R, so wäre wegen Stetigkeit der Risikofunktion
sogar
R(µ, µ̂) 6 n1 − ε für alle |µ − µ0 | < δ mit ε, δ > 0 geeignet. Damit hätte µ̂
R µ0 +δ
1
1
ein Bayesrisiko RN (0,σ 2 ) (µ̂) 6
n − ε µ0 −δ ϕ0,σ 2 . Also wäre n − RN (0,σ 2 ) grö−1 für σ → ∞, während für den Bayesschätzer
ÿer als ein Vielfaches von σ
1
σ −2
−2 ist. Dies widerspricht der
n − Rσ (µ̂σ,n ) = n(n+σ −2 ) (s.o.) von der Ordnung σ
Optimalität des Bayesschätzers bei einer hinreichend groÿen Wahl von σ . Also
ist X̄ zulässig.
15
Bemerkung. Liegt eine andere Verteilung mit Erwartungswert µ und Varianz
eins vor als die Normalverteilung, so ist X̄ weder zulässig noch minimax (sofern
n > 3), vergleiche Lehmann/Casella, Seite 153. Für d = 2 ist X̄ weiterhin
zulässig unter Normalverteilungsannahme, allerdings gilt das für d > 3 nicht
mehr: Stein-Phänomen s.u.
2.21 Denition.
Eine
Verteilung
π
auf
(Θ, FΘ )
heiÿt
ungünstigste
a-priori-Verteilung zu einer gegebenen Verlustfunktion, falls
inf Rπ (ρ) = sup inf Rπ0 (ρ).
ρ
ρ
π0
2.22 Satz. Es sei eine a-priori-Verteilung π mit zugehöriger Bayesregel ρπ gegeben. Dann ist die Eigenschaft Rπ (ρπ ) = supϑ∈Θ R(ϑ, ρπ ) äquivalent zu folgender
Sattelpunktseigenschaft
∀π 0 ∀ρ0 : Rπ0 (ρπ ) 6 Rπ (ρπ ) 6 Rπ (ρ0 ).
Aus jeder dieser Eigenschaften folgt, dass ρπ minimax und π ungünstigste apriori-Verteilung ist.
Beweis.
Wegen supϑ R(ϑ, ρπ ) = supπ 0 Rπ 0 (ρπ ) folgt aus der SattelpunktseigenRπ (ρπ ) > supϑ R(ϑ, ρπ ). Da aus dem gleichen Grund stets '6' folgt, gilt
sogar Rπ (ρπ ) = supϑ R(ϑ, ρπ ).
Andererseits bedeutet die Eigenschaft von ρπ , Bayesschätzer zu sein, gerade
0
0
dass Rπ (ρπ ) 6 Rπ (ρ ) für alle ρ gilt. Mit Rπ (ρπ ) = supϑ∈Θ R(ϑ, ρπ ) schlieÿen
schaft
wir dann auch
Z
R(ϑ, ρπ ) π 0 (dϑ) 6
Rπ0 (ρπ ) =
Z
Θ
Rπ (ρπ ) π 0 (dϑ) = Rπ (ρπ ).
Θ
Aus der Sattelpunktseigenschaft folgt direkt die Minimaxeigenschaft:
sup R(ϑ, ρπ ) = sup Rπ0 (ρπ ) = inf0 Rπ (ρ0 ) 6 inf0 sup R(ϑ, ρ0 ).
ρ
π0
ϑ
Analog erhalten wir
ρ
ϑ
inf ρ0 Rπ (ρ0 ) = supπ0 Rπ0 (ρπ ) > supπ0 inf ρ Rπ0 (ρ),
so dass
π
ungünstigste a-priori-Verteilung ist.
2.23 Beispiel.
Es werde
X ∼ Bin(n, p)
mit
n > 1
bekannt und
p ∈ [0, 1]
p̂a,b von p unter quap ∼ B(a, b), wobei B(a, b) die
Beta-Verteilung mit Parametern a, b > 0 auf [0, 1] bezeichnet. Die a-posterioriVerteilung berechnet sich zu p ∼ B(a + X, b + n − X) und der Bayesa+X
2
schätzer als p̂a,b =
a+b+n (Übung!). Als Risiko ergibt sich Ep [(p̂a,b − p) ] =
√
√
(a−ap−bp)2 +np(1−p)
∗
∗
. Im Fall a = b =
n/2 erhält man das Risiko (2 n + 2)−2
(a+b+n)2
unbekannt beobachtet. Gesucht wird ein Bayesschätzer
dratischem Risiko für die a-priori-Verteilung
für
p̂a∗ ,b∗ =
√
X+ n/2
√
n+ n
=
X
n
−
X− n
√ 2
(unabhängig von
n( n+1)
p!),
woraus die Sattel-
punktseigenschaft folgt:
∀π ∀p̂ : Rπ (p̂a∗ ,b∗ ) 6 RB(a∗ ,b∗ ) (p̂a∗ ,b∗ ) 6 RB(a∗ ,b∗ ) (p̂).
16
B(a∗ , b∗ ) ungünstigste a-priori-Verteilung und p̂a∗ ,b∗ MinimaxSchätzer von p. Insbesondere ist der natürliche Schätzer p̂ = X/n mit Ep [(p̂ −
p)2 ] = p(1 − p)/n nicht minimax (er ist jedoch zulässig).
Damit
ist
Bemerkung. Erhalten wir bei Wahl einer Klasse von a-priori-Verteilungen für
ein statistisches Modell dieselbe Klasse (i.A. mit anderen Parametern) als aposteriori-Verteilungen zurück, so nennt man die entsprechenden Verteilungsklassen konjugiert. An den Beispielen sehen wir, dass die Beta-Verteilungen zur
Binomialverteilung konjugiert sind und die Normalverteilungen zu den Normalverteilungen (genauer müsste man spezizieren, dass für unbekannten Mittelwert
in der Normalverteilung a-priori-Normalverteilungen konjugiert sind). Konjugierte Verteilungen sind die Ausnahme, nicht die Regel, und für komplexere
Modelle werden häug computer-intensive Methoden wie MCMC (Markov Chain
Monte Carlo) verwendet, um die a-posteriori-Verteilung zu berechnen (Problem:
i.A. hochdimensionale Integration).
2.4 Das Stein-Phänomen
Wir betrachten folgendes grundlegendes Problem: Anhand einer mathemati-
X1 , . . . , Xn ∼ N (µ, Ed ) im Rd soll µ ∈ Rd möglichst gut
2
quadratischem Verlust l(µ, µ̂) = |µ̂ − µ| geschätzt werden. Intuitiv
schen Stichprobe
bezüglich
wegen Unabhängigkeit der Koordinaten ist das (koordinatenweise) arithmetische Mittel
X̄ .
Ein anderer, sogenannter empirischer Bayesansatz, beruht auf
µ ∼ N (0, σ 2 Ed ). In den zugehörigen Bayes2
allerdings statt σ die Schätzung
der Familie der a-priori-Verteilungen
schätzern setzen wir dann
σ̂ 2 =
|X̄|2
−1
d
(erwartungstreu wegen
ein und erhalten
µ̂ =
Xi ∼ N (0, (σ 2 + 1)Ed ))
n
d X̄.
X̄
=
1
−
n + σ̂ −2
n|X̄|2
Der Ansatz lässt vermuten, dass
µ̂
kleineres Risiko hat als
klein ist. Überraschenderweise gilt für Dimension
als
X̄ .
d>3
X̄ ,
wann immer
sogar, dass
µ̂
|µ|
besser ist
Das folgende Steinsche Lemma ist der Schlüssel für den Beweis.
2.24 Lemma (Stein). Es sei f : Rd → R eine Funktion, die Lebesgue-f.ü.
absolut stetig in jeder Koordinate ist. Dann gilt für Y ∼ N (µ, σ2 Ed ) mit µ ∈ Rd ,
σ > 0,
E[(µ − Y )f (Y )] = −σ 2 E[∇f (Y )],
∂f
sofern E[| ∂y
(Y )|] < ∞ für alle i = 1, . . . , d gilt.
i
Beweis.
sowie
Ohne Einschränkung der Allgemeinheit betrachte die Koordinate
µ = 0, σ = 1;
sonst setze
f˜(y) = f (σy + µ).
i=1
Es genügt dann,
∂f
(Y ) | Y2 = y2 , . . . , Yd = yd ]
E[Y1 f (Y ) | Y2 = y2 , . . . , Yd = yd ] = E[ ∂y
1
y2 , . . . , yd ∈ R, was Rwegen Unabhängig2
fy (u) := f (u, y2 , . . . , yd ) die Identität ufy (u)e−u /2 du =
zu zeigen für Lebesgue-fast alle
keit gerade für
17
2 /2
fy0 (u)e−u
R
du
ist. Dies folgt durch partielle Integration, sofern die Randter-
me verschwinden; ein geschickter Einsatz des Satzes von Fubini zeigt dies jedoch
ohne weitere Voraussetzungen:
Z
∞
−∞
2 /2
fy0 (u)e−u
∞
Z
du =
fy0 (u)
0
Z
=
∞
Z
ze−z
2 /2
Z
−∞
u
∞Z z
Z0 ∞
Z
2
fy0 ze−z /2 dz −
Z−∞
∞
=
0
−z 2 /2
Z
fy0 (u)
0
Z
−∞
0
ze
=
0
dzdu −
u
ze−z
2 /2
dzdu
−∞
2
fy0 ze−z /2 dz
z
(fy (z) − fy (0)) dz
fy (z)ze−z
2 /2
dz.
−∞
µ̂ = g(X̄)X̄ ,
i
|X̄ − µ|2 + |X̄ − µ̂|2 − 2hX̄ − µ, X̄ − µ̂i
Betrachten wir nun allgemeine Schätzer der Form
Eµ [|µ̂ − µ|2 ] = Eµ
=
Kann man nun auf
h
so gilt
d
+ Eµ [|(1 − g(X̄))X̄|2 ] − 2 Eµ [hX̄ − µ, (1 − g(X̄))X̄i].
n
f (x) = (1 − g(x))x : Rd → Rd
das Steinsche Lemma koor-
dinatenweise anwenden, so erhalten wir einen Ausdruck
W (X̄)
unabhängig von
µ:
d
d
Eµ [|µ̂ − µ| ] = + Eµ [W (X̄)],
n
2 X ∂fi (x)
W (x) := |f (x)| −
.
n
∂xi
2
Für
cx
,
|x|2
f (x) =
c > 0
2
i=1
eine Konstante, ist das Steinsche Lemma anwendbar.
Wir erhalten
div f (x) =
d
X
∂fi (x)
i=1
∂xi
=c
d
X
|x|2 − 2x2
i
i=1
|x|4
= c(d − 2)|x|−2
und
W (x) =
c2
2c(d − 2)
−
<0
|x|2
n|x|2
Der minimale Wert
falls
c ∈ (0, 2(d − 2)n−1 ), d > 3.
W (x) = −(d − 2)2 /(n2 |x|2 )
wird für
c = (d − 2)/n
erreicht,
und wir haben folgendes bemerkenswertes Resultat bewiesen.
2.25 Satz. Es sei d > 3 und X1 , . . . , Xn eine N (µ, Ed )-verteilte mathematische
Stichprobe mit µ ∈ Rd unbekannt. Dann gilt für den James-Stein-Schätzer
d−2
X̄
µ̂JS := 1 −
n|X̄|2
mit X̄ :=
1
n
Pn
i=1 Xi
, dass
Eµ [|µ̂JS − µ|2 ] =
h (d − 2)2 i d
d
− Eµ
< = Eµ [|X̄ − µ|2 ].
n
n
n2 |X̄|2
18
Insbesondere ist X̄ bei quadratischem Risiko kein zulässiger Schätzer von µ im
Fall d > 3!
2.26 Bemerkungen.
µ 7→ Eµ [|X̄|−2 ] ist monoton fallend in |µ| und erfüllt
E0
= n/(d − 2), E0 [|µ̂JS − µ|2 ] = 2/n. Daher ist µ̂JS nur für
µ nahe 0, groÿe Dimensionen d und kleine Stichprobenumfänge n eine
bedeutende Verbesserung von X̄ . Der James-Stein-Schätzer heiÿt auch
(a) Die Abbildung
[|X̄|−2 ]
Shrinkage-Schätzer, weil er die Beobachtungen zur Null hinzieht (wobei
auch jeder andere Wert möglich wäre). In aktuellen hochdimensionalen
Problemen ndet diese Idee breite Anwendung.
k -te Koordinate µ̂JS,k des James-Stein-Schätzers verwendet zur Schätµk auch die anderen Koordinaten Xi,l , l 6= k , obwohl diese unabhängig von Xi,k sind. Eine Erklärung für diese zunächst paradoxe SiPd
Pd
2
2
tuation ist, dass zwar
k=1 Eµ [(X̄k − µk ) ]
k=1 Eµ [(µ̂JS,k − µk ) ] <
gilt, jedoch im Allgemeinen eine Koordinate k0 existieren wird mit
Eµ [(µ̂JS,k0 − µk0 )2 ] > Eµ [(X̄k0 − µk0 )2 ]. Man beachte auch, dass der stochastische Fehler (die Varianz) von X̄ linear mit der Dimension d wächst,
(b) Die
zung von
so dass es sich auszahlt, diesen Fehler auf Kosten einer Verzerrung (Bias)
zu verringern.
(c) Selbst der James-Stein-Schätzer (sogar mit positivem Gewicht, s.u.) ist
unzulässig. Die Konstruktion eines zulässigen Minimax-Schätzers ist sehr
schwierig (gelöst für
d > 6,
vgl. Lehmann/Casella, S. 358).
2.27 Satz. Es sei d > 3 und X1 , . . . , Xn eine N (µ, Ed )-verteilte mathematische Stichprobe mit µ ∈ Rd unbekannt. Dann ist der James-Stein-Schätzer mit
positivem Gewicht
d−2
µ̂JS+ := 1 −
X̄,
n|X̄|2 +
a+ := max(a, 0),
bei quadratischem Risiko besser als der James-Stein-Schätzer µ̂JS .
2.5 Ergänzungen
2.28 Denition.
regel
ρ
Zu vorgegebener Verlustfunktion
l
heiÿt eine Entscheidungs-
unverzerrt, falls
∀ϑ, ϑ0 ∈ Θ : Eϑ [l(ϑ0 , ρ)] > Eϑ [l(ϑ, ρ)] =: R(ϑ, ρ).
2.29 Lemma. Es seien g : Θ → A ⊆ R und l(ϑ, ρ) = (ρ − g(ϑ))2 der quadratische Verlust. Dann ist eine Entscheidungsregel (ein Schätzer von g(ϑ))
ĝ : X → A mit Eϑ [ĝ 2 ] < ∞ und Eϑ [ĝ] ∈ g(Θ) für alle ϑ ∈ Θ genau dann
unverzerrt, wenn sie erwartungstreu ist, d.h. Eϑ [ĝ] = g(ϑ) für alle ϑ ∈ Θ gilt.
2.30 Lemma. Es sei
˙ 1 , A = [0, 1]. Für den Verlust l(ϑ, a) =
Θ = Θ0 ∪Θ
l0 a1Θ0 (ϑ) + l1 (1 − a)1Θ1 (ϑ) ist eine Entscheidungsregel ρ (ein randomisierter
19
Test von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 ) genau dann unverzerrt, wenn sie zum
Niveau α := l0 l+l1 1 unverfälscht ist, d.h.
∀ϑ ∈ Θ0 : Eϑ [ρ] 6 α,
∀ϑ ∈ Θ1 : Eϑ [ρ] > α.
Der Beweis erfolgt als Übungsaufgabe.
2.31
Denition.
Entscheidungsregel
(A, A ) mit
ρ(x, •) eine
onsraum
x
gemäÿ
Ein
Entscheidungskern
ρ : X × A → [0, 1]
oder
randomisierte
ist ein Markovkern auf dem Akti-
der Interpretation, dass bei Vorliegen der Beobachtung
Entscheidung zufällig ausgewählt wird. Das zugehörige
Risiko ist
R(ϑ, ρ) := Eϑ
hZ
i
Z Z
l(ϑ, a) ρ(da) =
X
A
2.32 Beispiel.
l(ϑ, a)ρ(x, da) Pϑ (dx).
A
˙ 1 , A = [0, 1] und der Verlust l(ϑ, a) =
Θ = Θ0 ∪Θ
l0 a1Θ0 (ϑ) + l1 (1 − a)1Θ1 (ϑ) vorgegeben. In diesem Rahmen kann eine Entschei0
dungsregel ρ als randomisierter Test (oder Entscheidungskern) ρ von H0 : ϑ ∈
Θ0 gegen H1 : ϑ ∈ Θ1 aufgefasst werden. Dazu setze A0 := {0, 1}, FA0 := P(A0 ),
0
benutze den gleichen Verlust l (eingeschränkt auf A ) und deniere die bedingten
0
0
0
Wahrscheinlichkeiten ρ (x, {1}) := ρ(x), ρ (x, {0}) := 1 − ρ (x, {1}). Dies bedeutet also, dass ρ(x) die Wahrscheinlichkeit angibt, mit der bei der Beobachtung
x die Hypothese abgelehnt wird.
Es sei
3 Suzienz und Vollständigkeit
3.1 Dominierte Modelle
3.1 Denition.
(X, F , (Pϑ )ϑ∈Θ ) heiÿt dominiert (von
µ), falls es ein σ -endliches Maÿ µ auf F gibt, so dass Pϑ absolutstetig bezüglich
µ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametrisierte Radon-NikodymEin statistisches Modell
Dichte
L(ϑ, x) :=
d Pϑ
(x),
dµ
ϑ ∈ Θ, x ∈ X,
heiÿt auch Likelihoodfunktion, wobei diese meist als durch
Funktion in
ϑ
x
parametrisierte
aufgefasst wird.
3.2 Beispiele.
(a)
X = R, F = BR , Pϑ ist gegeben durch eine Lebesguedichte fϑ ,
2
weise P(µ,σ) = N (µ, σ ) oder Pϑ = U ([0, ϑ]).
(b) Jedes statistische Modell auf dem Stichprobenraum
meiner auf einem abzählbaren Raum
(X, P(X))
(N, P(N))
beispiels-
oder allge-
ist vom Zählmaÿ domi-
niert.
(c) Ist
Θ = {ϑ1 , ϑ2 , . . .}
abzählbar, so ist
ein dominierendes Maÿ.
20
µ=
P
i ci Pϑi mit
ci > 0,
P
i ci
=1
(d)
X = R, F = BR , Pϑ = δϑ
ϑ ∈ Θ = R (δϑ ist Punktmaÿ in ϑ) ist
nicht dominiert. Ein dominierendes Maÿ µ müsste nämlich µ({ϑ}) > 0
für alle ϑ ∈ Θ und damit µ(A) = ∞ für jede überabzählbare Borelmenge
A ⊆ R erfüllen
(sonst folgte aus |{x ∈ A | µ({x}) > 1/n}| 6 nµ(A) < ∞,
S
dass A =
{x
∈ A | µ({x}) > 1/n} abzählbar ist). Damit kann µ nicht
n>1
σ -endlich sein.
für
3.3 Satz. Es sei (X, F, (Pϑ )ϑ∈Θ ) ein dominiertes
Modell. DannPgibt es ein WahrP∞
scheinlichkeitsmaÿ Q der Form Q = i=1 ci Pϑi mit ci > 0, i ci = 1, ϑi ∈ Θ,
so dass Pϑ Q für alle ϑ ∈ Θ gilt.
Ein
solches
Wahrscheinlichkeitsmaÿ
Q
heiÿt
auch
privilegiertes
dominierendes Maÿ.
Beweis.
µ endlich sowie
o
X
ci = 1 (konvexe Hülle
ϑi ∈ Θ, ci > 0,
Sei zunächst das dominierende Maÿ
P0 :=
nX
ci Pϑi
i
von
(Pϑ )),
i
n
A := A ∈ F ∃ P ∈ P0 : P(A) > 0
und
dP
> 0 µ-f.ü.
dµ
auf
o
A .
(An ) in A mit µ(An ) → supA∈A µ(A) < ∞. Setze A∞ :=
d Pn
Pn ein Element
in P0 mit Pn (An ) > 0,
dµ > 0 µ-f.ü. auf
P
P
An . Für beliebige cn > 0 mit n cn = 1 setze Q := n cn Pn ∈ P0 .
dQ
dQ
d Pn
Aus der Wahl von Pn folgt
dµ > cn dµ > 0 µ-f.ü. auf An und somit dµ > 0
µ-f.ü. auf A∞ und Q(A∞ ) > 0, so dass A∞ ebenfalls in A liegt.
Zeige: P Q für alle P ∈ P0 . Sonst gilt P(A) > 0 und Q(A) = 0 für ein P
dQ
und ein A ∈ F . Dies impliziert Q(A∩A∞ ) = 0 ⇒ µ(A∩A∞ ) = 0 (da
dµ > 0 auf
dP
A∞ ) und weiter P(A ∩ A∞ ) = 0 (da P µ). Für B := { dµ > 0} gilt P(B) = 1,
C
C
und wir erhalten P(A) = P(A∩A∞ ∩B) > 0. Aus P µ folgt µ(A∩A∞ ∩B) > 0
˙
und somit µ(A∞ ∪(A
∩ AC
∞ ∩ B)) > µ(A∞ ). Nun ist aber (P +Q)/2 ∈ P0 sowie
d(P +Q)
C
˙
˙
> 0 µ-f.ü. auf A∞ ∪(A
∩ AC
∞ ∩ B), was A∞ ∪(A ∩ A∞ ∩ B) ∈ A zeigt.
2dµ
Dies widerspricht aber der Eigenschaft µ(A∞ ) = supA∈A µ(A).
S
Ist µ σ -endlich, so zerlege X := ˙ m>1 Xm mit µ(Xm ) < ∞, deniere das Maÿ
Qm wie oben Q, wobei im Fall Pϑ (Xm ) = 0 für P
alle ϑ ∈ Θ einfach Qm = Pϑ für
−m Q das Gewünschte.
ein beliebiges ϑ ∈ Θ gesetzt wird. Dann leistet
m
m>1 2
Wähle nun eine Folge
S
n An
und bezeichne
3.2 Exponentialfamilien
3.4 Denition.
Es sei (X, F, (Pϑ )ϑ∈Θ ) ein von µ dominiertes Modell. Dann
(Pϑ )ϑ∈Θ Exponentialfamilie (in η(ϑ) und T ), wenn k ∈ N, η : Θ → Rk ,
C : Θ → R+ , T : X → Rk messbar und h : X → R+ messbar existieren, so dass
heiÿt
d Pϑ
(x) = C(ϑ)h(x) exp(hη(ϑ), T (x)iRk ),
dµ
T
wird natürliche suziente Statistik von
x ∈ X, ϑ ∈ Θ.
(Pϑ )ϑ∈Θ genannt. Sind η1 , . . . , ηk
ϑ ∈ Θ die Implikation
near unabhängige Funktionen und gilt für alle
λ0 + λ1 T1 + · · · + λk Tk = 0 Pϑ -f.s. ⇒ λ0 = λ1 = · · · = λk = 0
21
li-
(1, T1 , . . . , Tk sind
(strikt)
Pϑ -f.s.
linear unabhängig), so heiÿt die Exponentialfamilie
k -parametrisch.
Bemerkungen.
(a) C(ϑ) ist nur Normierungskonstante: C(ϑ) = ( h(x)ehη(ϑ),T (x)i µ(dx))−1 .
R
(b) Die Darstellung ist nicht eindeutig, mit einer invertierbaren Matrix A ∈
Rk×k erhält man beispielsweise eine Exponentialfamilie in η̃(ϑ) = Aη(ϑ)
und T̃ (x) = (A> )−1 T (x). Auÿerdem kann die Funktion h in das dominierende Maÿ absorbiert werden: µ̃(dx) := h(x)µ(dx).
(c) Aus der Identizierbarkeitsforderung Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 folgt die
Injektivität von η. Andererseits impliziert die Injektivität von η bei einer
k -parametrischen Exponentialfamilie die Identizierbarkeitsforderung.
3.5 Denition.
so heiÿt
Bildet
(Pϑ )ϑ∈Θ
eine Exponentialfamilie (mit obiger Notation),
Z
n
o
k Z := u ∈ R ehu,T (x)i h(x)µ(dx) ∈ (0, ∞)
X
ihr natürlicher Parameterraum. Die entsprechend mit
Familie wird natürliche Exponentialfamilie in
T
u ∈ Z
parametrisierte
genannt.
3.6 Beispiele.
(a)
(N (µ, σ 2 ))µ∈R,σ>0 ist zweiparametrische Exponentialfamilie in η(µ, σ) =
(µ/σ 2 , 1/(2σ 2 ))> und T (x) = (x, −x2 )> unter dem Lebesguemaÿ als do2
2 > ist natürminierendem Maÿ. Jedes u der Form u = (µ/σ , 1/(2σ ))
licher Parameter, und der natürliche Parameterraum ist gegeben durch
Z = R ×(0, ∞).
nentialfamilie in
(b)
(Bin(n, p))p∈(0,1)
Ist σ > 0 bekannt, so liegt eine
η(µ) = µ/σ 2 und T (x) = x vor.
{0, 1, . . . , n}.
η(p) = log(p/(1 − p))
µ
ist R. Beachte, dass für
bildet eine Exponentialfamilie in
(auch logit-Funktion genannt) und
auf
einparametrische Expo-
T (x) = x
bezüglich dem Zählmaÿ
Der natürliche Parameterraum
den Parameterbereich
p = [0, 1]
keine Exponentialfamilie vorliegt.
3.7 Lemma. Bildet (Pϑ )ϑ∈Θ eine (k-parametrische) Exponentialfamilie in η(ϑ)
und T (x), so bilden auch die Produktmaÿe
(P⊗n
ϑ )ϑ∈Θ eine (k -parametrische)
Pn
Exponentialfamilie in η(ϑ) und i=1 T (xi ) mit
n
Y
P
d P⊗n
n
ϑ
(x)
=
C(ϑ)
h(x
)
exp(hη(ϑ), ni=1 T (xi )iRk ),
i
⊗n
dµ
x ∈ Xn , ϑ ∈ Θ.
i=1
Beweis.
Dies folgt sofort aus der Produktformel
d P⊗n
ϑ
(x)
dµ⊗n
=
Qn
d Pϑ
i=1 dµ (xi ).
3.8 Satz. Es sei (Pϑ )ϑ∈Z eine Exponentialfamilie mit natürlichem Parameterraum Z ⊆ Rk und Darstellung
d Pϑ
(x) = C(ϑ)h(x) exp(hϑ, T (x)i) = h(x) exp(hϑ, T (x)i − A(ϑ)),
dµ
22
wobei A(ϑ) = log h(x) exp(hϑ, T (x)i)µ(dx) . Ist ϑ̃ ein innerer Punkt von Z ,
so ist die erzeugende Funktion ψϑ̃ (s) = Eϑ̃ [ehT,si ] in einer Umgebung der Null
wohldeniert und beliebig oft dierenzierbar. Es gilt ψϑ̃ (s) = exp(A(ϑ̃ + s) −
A(ϑ̃)) für alle s mit ϑ̃ + s ∈ Z .
2A
dA
Für i, j = 1, . . . , k folgt Eϑ̃ [Ti ] = dϑ
(ϑ̃) und Covϑ̃ (Ti , Tj ) = dϑdi dϑ
(ϑ̃).
i
j
R
Beweis.
Man setze
Z
µ̃(dx) = h(x) µ(dx).
Die Aussage folgt mit
exp hT, si exp hϑ, T i − A(ϑ) µ̃(dx)
Z
= exp hT, s + ϑi + A(ϑ + s) − A(ϑ + s) − A(ϑ) µ̃(dx)
Z
= exp A(ϑ + s) − A(ϑ)
exp hT, s + ϑi − A(ϑ + s) µ̃(dx)
|
{z
}
=1
3.9 Beispiele.
(b)
(a)
X ∼ N (µ, 1): A(µ) =
µ2
2
⇒ E[X] = µ, Var(X) = 1.
X ∼ Bin(n, p), p ∈ (0, 1) unbekannt. Mit
n k
n
p
n−k
+ n log (1 − p)
p (1 − p)
=
exp k log 1−p
k
k
folgt für
p
η(p) = log 1−p
,
E[X] = n
dass
A(p) = n log (1 + exp (η))
und hieraus
exp (η)
exp (η)
= np , Var(X) = n
= np(1 − p) .
exp (η) + 1
(exp (η) + 1)2
3.3 Suzienz
Es sei
X1 , . . . , Xn
eine gemäÿ der Lebesguedichte
fϑ : R → R+
verteilte ma-
thematische Stichprobe. Bei i.i.d. Beobachtungen (wie für unser einführendes
Beispiel der Messungen der Lichtgeschwindigkeit) scheint die Reihenfolge der
Beobachtungen irrelevant. Im Allgemeinen wir durch nichtumkehrbare Abbildungen
T : X → Y Information
T (X1 , . . . , Xn )
enthält hingegen
(über Parameter) verloren gehen. Manchmal
gleich viel Information wie die ursprüngliche
Beobachtung (kein Informationsverlust). Solche Statistiken nennt man suzient
oder erschöpfend/ausschöpfend. Liefern die Statistiken
im Allgemeinen Information über
Pϑ
und damit
ϑ,
X̄
max(X1 , . . . , Xn )
1({X3 < X7 }) oder
oder
sind
1({X1 = max(X1 , . . . , Xn )}) hingegen Statistiken, deren Verteilung nicht von
Pϑ abhängt (sofern die i.i.d.-Annahme gültig ist) und somit keinerlei Informationen über ϑ beinhalten (sogenannte ancillary statistics). Intuitiv ist dagegen
alle Information bereits in der Ordnungsstatistik X(1) , . . . , X(n) enthalten mit
X(1) = min{X1 , . . . , Xn }, X(k+1) := min{X1 , . . . , Xn } \ {X(1) , . . . , X(k) }. Diese
ist suzient.
23
3.10 Denition.
(S, S )-wertige Statistik T auf (X, F , (Pϑ )ϑ∈Θ ) heiÿt
suzient (für (Pϑ )ϑ∈Θ ), falls für jedes ϑ ∈ Θ die reguläre bedingte Wahrscheinlichkeit von Pϑ gegeben T (existiert und) nicht von ϑ abhängt, d.h.
Eine
∃k ∀ϑ ∈ Θ, B ∈ F : k(T, B) = Pϑ (B | T ) := Eϑ [1B | T ]
Statt
k(t, B)
P• (B | T = t)
schreiben wir
bzw.
Pϑ -f.s.
E• [1B | T = t].
3.11 Satz (Faktorisierungskriterium von Neyman). Es sei (X, F , (Pϑ )ϑ∈Θ ) ein
von µ dominiertes Modell mit Likelihoodfunktion L sowie T eine (S, S )-wertige
Statistik. Dann ist T genau dann suzient, wenn eine messbare Funktion h :
X → R+ existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion gϑ : S → R+
existiert mit
L(ϑ, x) = gϑ (T (x))h(x) für µ-f.a. x ∈ X.
3.12 Lemma. Es seien P und µ Wahrscheinlichkeitsmaÿe mit
eine messbare Abbildung auf (X, F ). Dann gilt für alle B ∈ F
EP [1B | T ] =
Beweis.
Eµ [1B ddµP | T ]
Eµ [ ddµP | T ]
Für jede beschränkte messbare Funktion
h Eµ [1B d P | T ]
EP
dµ
dP
Eµ [ dµ | T ]
Pµ
und T
P -f.s.
ϕ
erfüllt die rechte Seite
i
h Eµ [1B d P | T ]
i
dµ
dP
ϕ(T ) = Eµ
ϕ(T
)
dµ
Eµ [ ddµP | T ]
=
h Eµ [1B d P | T ]
dµ
Eµ [ ddµP | T ]
Eµ [1B ddµP ϕ(T )]
= Eµ
i
ϕ(T ) Eµ [ ddµP | T ]
= EP [1B ϕ(T )].
Zusammen mit der
σ(T )-Messbarkeit ist dies genau die Charakterisierung dafür,
EP [1B | T ] ist.
dass die rechte Seite eine Version der bedingten Erwartung
Bemerkung. Mit den üblichen Approximationsargumenten lässt sich dies zu
EP [f | T ] = Eµ [f ddµP | T ]/ Eµ [ ddµP | T ] für f ∈ L1 (P) verallgemeinern.
Beweis des Faktorisierungssatzes.
Ohne Einschränkung sei
µ
ein Wahrschein-
µ̃(dx) =
S
˙
X := m>1 Xm
lichkeitsmaÿ, sonst betrachte das äquivalente Wahrscheinlichkeitsmaÿ
P
−m µ(X )−1 1
m
Xm , wobei die Zerlegung
m>1 2
z(x)µ(dx) mit z =
mit µ(Xm ) < ∞ wegen
der
σ -Endlichkeit von µ existiert.
L(ϑ, x) folgt daher
Aus dem Lemma und der Form von
Pϑ (B | T ) =
gϑ (T ) Eµ [1B h | T ]
Eµ [1B h | T ]
=
gϑ (T ) Eµ [h | T ]
Eµ [h | T ]
Da die rechte Seite unabhängig von
Ist nun andererseits
T
ϑ
ist, ist
T
suzient, so setze
Für das privilegierte dominierende Maÿ
24
Q
Pϑ -f.s.
suzient.
k(T, B) := Pϑ (B | T ), ϑ ∈ Θ.
Q(B | T ) =
gilt dann ebenfalls
P
i ci Pϑi (B | T )
dem Teilraum
= k(T, B) Q-f.s.
(X, σ(T ))
Nach dem Satz von Radon-Nikodym gilt auf
d Pϑ |σ(T )
= fϑ .
d Q |σ(T )
∀ϑ ∃fϑ : X → R+ σ(T )-messbar :
Dann gibt es eine messbare Funktion
B∈F
gϑ ,
fϑ = gϑ ◦ T ,
so dass
und für beliebiges
erhalten wir
Pϑ (B) = Eϑ [Eϑ [1B | T ]] = EQ [EQ [1B | T ]gϑ (T )] = EQ [1B gϑ (T )],
so dass
gϑ ◦ T
auch die Radon-Nikodym-Dichte
d Pϑ d Q
d Q dµ erhalten wir den Ausdruck von
L(ϑ, x),
d Pϑ
d Q auf ganz
wobei
h(x) =
F
ist. Mit
d Pϑ
dµ
=
dQ
dµ (x).
3.13 Beispiele.
(a) Die Identität
formation
T
T (x) = x
und allgemein jede bijektive, bi-messbare Trans-
ist stets suzient.
(b) Die natürliche suziente Statistik
T
einer Exponentialfamilie ist in der
(N (µ, σ 2 )⊗n )µ∈R,σ>0 ist damit
Pn
Pn
T1 (x) = ( i=1 xi , − i=1 x2i )> suzient, aber durch Transformation auch
T2 (x)
= (x̄, x2 )> oder T3 (x) = (x̄, s̄2 )> mit der empirischen Varianz s̄2 =
P
n
1
2
⊗n )
p∈(0,1) ist T (x) =
i=1 (xi − x̄) . Bei einer Bernoullikette (Bin(1, p)
n−1
P
n
x
(die
Anzahl
der
Erfolge)
suzient.
i=1 i
Tat suzient. Im Normalverteilungsmodell
X1 , . . . , Xn eine mathematische Stichprobe, wobei Xi gemäÿ der Lefϑ : R → R+ verteilt ist, so ist die Ordnungsstatistik
(X(1) , . . . , X(n) ) suzient.
Die Likelihoodfunktion lässt sich nämlich in
Qn
f
(x(i) ) schreiben.
der Form L(ϑ, x) =
ϑ
i=1
(c) Ist
besguedichte
(Nt , t ∈ [0, T ]) eines Poissonprozesses zum unλ > 0 kontinuierlich auf [0, T ] beobachtet. Mit
Sk = inf{t > 0 | Nt = k} werden die Sprungzeiten bezeichnet. In der
(d) Es wird die Realisierung
bekannten Parameter
Wahrscheinlichkeitstheorie wird gezeigt, dass bedingt auf das Ereignis
{NT = n} die Sprungzeiten (S1 , . . . , Sn ) dieselbe Verteilung haben wie die
Ordnungsstatistik (X(1) , . . . , X(n) ) mit unabhängigen Xi ∼ U ([0, T ]). Da
sich die Beobachtung (Nt , t ∈ [0, T ]) eindeutig aus den Sk rekonstruieren
lässt, ist die Verteilung dieser Beobachtung gegeben {NT = n} unabhängig von λ, und NT ist somit eine suziente Statistik (z.B. die Kenntnis
der Gesamtzahl an gemessenen radioaktiven Zerfällen liefert bereits die
maximal mögliche Information über die Intensität
λ).
3.14 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und T eine suziente Statistik. Dann existiert zu jeder Entscheidungsregel ρ : X → A eine
randomisierte Entscheidungsregel ρ̃ basierend auf T (X), so dass ρ und ρ̃ das
gleiche Risiko haben.
25
Beweis.
Setze
ρ̃(t) = ρ(X ∗ )
X∗
wobei
gemäÿ
Pϑ [X ∈
• |T
= t]
mit Randomi-
sierung erzeugt wird.
R(ϑ, ρ̃) = Eϑ E l(ϑ, ρ(X ∗ ))|T = Eϑ Eϑ l(ϑ, ρ(X))|T = R(ϑ, ρ).
Sind Aktionsraum und Verlustfunktion konvex (z.B. Schätzprobleme) benötigt man keine Randomisierung.
3.15 Satz (Rao-Blackwell). Es seien (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell,
der Aktionsraum A ⊆ Rk konvex und die Verlustfunktion l(ϑ, a) im zweiten
Argument konvex. Ist T eine für (Pϑ )ϑ∈Θ suziente Statistik, so gilt für jede
Entscheidungsregel ρ und für ρ̃ := E• [ρ | T ] die Risikoabschätzung
∀ϑ ∈ Θ : R(ϑ, ρ̃) 6 R(ϑ, ρ).
Beweis.
Dies folgt aus der Jensenschen Ungleichung für bedingte Erwartungen:
R(ϑ, ρ̃) = Eϑ [l(ϑ, Eϑ [ρ | T ])] 6 Eϑ [Eϑ [l(ϑ, ρ) | T ]] = R(ϑ, ρ).
Ist
l
Pϑ (ρ̃ = ρ) < 1,
ρ̃ ist
sogar strikt konvex sowie
Ungleichung sogar die strikte Ungleichung und
3.16 Beispiel.
besser als
ρ.
U ([0, ϑ])-verteilte mathematische StichX̄ ein erwartungstreuer Schätzer des
ϑ
Erwartungswerts
2 , so dass ϑ̂ = 2X̄ ein plausibler Schätzer von ϑ ist mit
4ϑ2
quadratischem Risiko R(ϑ, ϑ̂) = 4 Varϑ (X̄) =
12n . Nun ist jedoch (bezüglich
n
Lebesguemaÿ auf (R+ ) ) die Likelihoodfunktion
probe mit
Es sei
ϑ > 0
X1 , . . . , Xn
so gilt in der Jensenschen
eine
unbekannt. Dann ist
L(ϑ, x) =
n
Y
ϑ−1 1[0,ϑ] (xi ) = ϑ−n 1[0,ϑ]
i=1
Demnach ist
X(n) = maxi=1,...,n Xi
max xi .
i=1,...,n
eine suziente Statistik, und wir bilden
n
ϑ̃ := E• [ϑ̂ | X(n) ] =
2X
E• [Xi | X(n) ].
n
i=1
E• [X1 | X(n) ] zu bestimmen. Als bedingte Ver= m} vermuten wir n1 δm + n−1
n U ([0, m]) wegen
Aus Symmetriegründen reicht es,
teilung von
X1
gegeben
{X(n)
(x ∧ (m + h))(m + h)n−1 − (x ∧ m)mn−1
(m + h)n − mn
n−1x∧m
h→0 1
−−−→ 1({m < x}) +
.
n
n
m
Pϑ (X1 6 x | X(n) ∈ [m, m + h]) =
26
In der Tat gilt für
x ∈ [0, ϑ]:
Z ϑ
1
n−1
X
δm +
U ([0, m]) ([0, x]) Pϑ (n) (dm)
n
n
0
Z ϑ
n − 1 x ∧ m n−1 −n
1
1[0,x] (m) +
nm
ϑ dm
=
n
n
m
0
1
n − 1
nx(ϑn−1 − xn−1 ) = (x/ϑ)n +
(x/ϑ)n +
n
n
(n − 1)ϑn
x
= = Pϑ (X1 6 x).
ϑ
X
(n)
n+1
n+1
E[X1 | X(n) ] = n1 X(n) + n−1
n
2 = 2n X(n) . Wir erhalten ϑ̃ = n X(n) .
Natürlich ist ϑ̃ auch erwartungstreu und als quadratisches Risiko ergibt eine
ϑ2
kurze Rechnung R(ϑ, ϑ̃) = 2
. Wir sehen, dass ϑ̃ bedeutend besser als ϑ̂ ist,
n +2n
−2 ) anstelle O(n−1 ). Es bleibt, die
für n → ∞ erhalten wir die Ordnung O(n
Frage zu klären, ob auch ϑ̃ noch weiter verbessert werden kann (s.u.).
Es folgt
3.4 Vollständigkeit
V ancillary, wenn ihre Verteilung nicht
ancillary erster Ordnung, falls Eϑ [V ] unabhängig von
Wie oben erwähnt, heiÿt eine Statistik
von
ϑ
abhängt. Sie heiÿt
ϑ ist. Falls jede Statistik der Form V = f (T ), die ancillary erster Ordnung ist,
Pϑ -f.s. konstant ist, so ist keine redundante Information mehr in T enthalten.
Eine solche suziente Statistik T reduziert die volle Information am eektivsten.
Man nennt T in dem Falle vollständig.
3.17 Denition.
Eine
(S, S )-wertige
T auf (X, F , (Pϑ )ϑ∈Θ )
f : S → R gilt
Statistik
vollständig, falls für alle messbaren Funktionen
∀ϑ ∈ Θ : Eϑ [f (T )] = 0 =⇒ ∀ϑ ∈ Θ : f (T ) = 0
heiÿt
Pϑ -f.s.
3.18 Satz (Lehmann-Scheé). Es seien (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und γ(ϑ) ∈ R, ϑ ∈ Θ, der jeweils interessierende Parameter. Es existiere ein
erwartungstreuer Schätzer γ̂ von γ(ϑ) mit endlicher Varianz. Ist T eine suziente und vollständige Statistik, so ist γ̃ = E• [γ̂ | T ] ein Schätzer von gleichmäÿig
kleinster Varianz in der Klasse aller erwartungstreuen Schätzer (UMVU: uniformly minimum variance unbiased).
Beweis.
γ̃
σ(T )-messbar ist, weil jeder andere
solche Schätzer γ̄ wegen Vollständigkeit E[γ̃ − γ̄] = 0 ⇒ γ̃ = γ̄ Pϑ -f.s. erfüllt.
Nach dem Satz von Rao-Blackwell besitzt γ̃ damit kleineres quadratisches Risiko
Zunächst ist klar, dass
γ̃
wiederum erwartungstreu ist. Auÿerdem ist
der f.s. einzige erwartungstreue Schätzer, der
als jeder andere erwartungstreue Schätzer. Nach der Bias-Varianz-Zerlegung ist
das quadratische Risiko bei erwartungstreuen Schätzern gleich der Varianz.
Beachte, dass die Aussage des Satzes von Lehmann-Scheé sogar für das
Risiko bei beliebigen im zweiten Argument konvexen Verlustfunktionen gilt,
wie sofort aus dem Satz von Rao-Blackwell folgt.
27
3.19 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) eine k-parametrische Exponentialfamilie in
T mit natürlichem Parameter ϑ ∈ Θ ⊆ Rk . Besitzt Θ ein nichtleeres Inneres,
so ist T suzient und vollständig.
Beweis.
Es bleibt, die Vollständigkeit zu beweisen. Ohne Einschränkung sei
[−a, a]k ⊆ Θ
a > 0 (sonst verschiebe entsprechend) sowie h(x) = 1
(sonst betrachte µ̃(dx) = h(x)µ(dx)). Es gelte Eϑ [f (T )] = 0 für alle ϑ ∈ Θ und
k
+ = max(f, 0), f − = max(−f, 0) sowie mit dem Bildmaÿ
ein f : R → R. Mit f
µT des dominierenden Maÿes µ unter T folgt
Z
Z
exp(hϑ, ti)f − (t)µT (dt).
exp(hϑ, ti)f + (t)µT (dt) =
∀ϑ ∈ [−a, a]k :
für ein
Rk
Rk
R −
f + (t)µT (dt) =
f (t)µT (dt) =: M , und P+ (dt) :=
−
−1
+
−1
−
M f (t)µT (dt), P (dt) := M f (t)µT (dt) denieren Wahrscheinlichkeitsk
maÿe auf (R , BRk ). Die obige Identität bedeutet gerade, dass die LaplaceR
±
±
Transformierten χ (ϑ) :=
Rk exp(hϑ, ti) P (dt) für ϑ ∈ [−a, a] übereinstim+
−
men. χ und χ sind darüberhinaus auf dem k -dimensionalen komplexen Streik
fen {ϑ ∈ C | |Re(ϑ)| < a} wohldeniert und analytisch. Der Eindeutigkeitssatz
k
+
−
für analytische Funktionen impliziert daher χ (iu) = χ (iu) für alle u ∈ R . Al+
−
+
−
so besitzen P und P dieselben charakteristischen Funktionen, so dass P = P
+
−
folgt (Eindeutigkeitssatz für char. Funktionen). Dies liefert f
= f µT -f.ü. und
somit f (T ) = 0 Pϑ -f.s. für alle ϑ ∈ Θ.
Insbesondere gilt
R
3.20 Beispiele.
Y = Xβ + σε, β ∈ Rp mit Gauÿschen Fehlern ε ∼
N (0, En ) bildet eine (p+1)-parametrische Exponentialfamilie in η(β, σ) =
σ −2 (β, −1/2)> ∈ Rp × R− und T (Y ) = (X > Y, |Y |2 )> ∈ Rp × R+ . Der nap
türliche Parameterbereich Z = R × R− besitzt ein nichtleeres Inneres in
p+1
R , so dass T suzient und vollständig ist. Durch bijektive Transforma>
−1 X > Y, |Y |2 ) = (β̂, |Π Y |2 +
tion ergibt sich, dass dies auch für ((X X)
X
(a) Das lineare Modell
(n − p)σ̂ 2 )
Wegen
mit dem Kleinste-Quadrate-Schätzer
ΠX Y = X β̂
(β̂, σ̂ 2 )
ist also auch
β̂
und
σ̂ 2 =
|Y −X β̂|2
gilt.
n−p
suzient und vollständig. Damit
besitzen beide Schätzer jeweils minimale Varianz in der Klasse aller (!)
erwartungstreuen Schätzer (von
β
bzw.
σ 2 ).
Beachte: hierfür ist die Normalverteilungsannahme essentiell.
X1 , . . . , Xn ∼ U ([0, ϑ]) eine mathematische Stichprobe mit ϑ > 0
L(x, ϑ) = ϑ−n 1{x(n) 6ϑ} für x ∈ (R+ )n der Likelihoodfunktion folgt, dass das Maximum X(n) der Beobachtungen suzient
ist (s.o.). Gilt für alle ϑ > 0
(b) Es sei
unbekannt. Aus der Form
ϑ
Z
Eϑ [f (X(n) )] =
f (t)nϑ−n tn−1 dt = 0,
0
so muss
von
X(n)
f = 0
Lebesgue-fast überall gelten, woraus die Vollständigkeit
Eϑ [X(n) ] =
folgt. Andererseits gilt
erwartungstreuer Schätzer von
ϑ
n
n+1 ϑ. Also ist
ϑ̂ =
n+1
n X(n)
mit gleichmäÿig kleinster Varianz.
28
3.5 Cramér-Rao-Ungleichung
3.21 Lemma (Chapman-Robbins-Ungleichung). Es seien (X, F , (Pϑ )ϑ∈Θ ) ein
statistisches Modell, ĝ ein erwartungstreuer Schätzer von g(ϑ) ∈ R und ϑ0 ∈ Θ.
Dann gilt für jedes ϑ ∈ Θ mit Pϑ 6= Pϑ0 , Pϑ Pϑ0 , ddPPϑϑ ∈ L2 (Pϑ0 )
0
Eϑ0 [(ĝ − g(ϑ0 ))2 ] >
(g(ϑ) − g(ϑ0 ))2
Varϑ0 ( ddPPϑϑ )
.
0
Beweis.
Dies folgt wegen
Eϑ0 [ ddPPϑϑ ] = 1
aus
0
g(ϑ) − g(ϑ0 ) = Eϑ [ĝ − g(ϑ0 )] − Eϑ0 [ĝ − g(ϑ0 )]
h
dP
i
ϑ
= Eϑ0 (ĝ − g(ϑ0 ))
−1
d Pϑ0
h d P
2 i1/2
1/2
ϑ
6 Eϑ0 [ ĝ − g(ϑ0 ))2
Eϑ0
−1
,
d Pϑ0
wobei zuletzt die Cauchy-Schwarz-Ungleichung angewendet wurde.
3.22 Beispiel.
X ∼ Exp(ϑ) mit ϑ > 0 unbekannt. Dann ist
d Pϑ
−(ϑ−ϑ0 )x , x > 0. Diese
durch
d Pϑ (x) = (ϑ/ϑ0 )e
Wir beobachten
die Likelihoodfunktion gegeben
0
ist in
L2 (Pϑ0 ) nur im Fall ϑ > ϑ0 /2 und besitzt dann die Varianz Varϑ0 ( ddPPϑϑ ) =
0
(ϑ−ϑ0 )2
ϑ0 (2ϑ−ϑ0 ) .
ĝ für g(ϑ) = ϑ ergibt die ChapmanEϑ0 [(ĝ − g(ϑ0 ))2 ] > supϑ>ϑ0 /2 ϑ0 (2ϑ − ϑ0 ) = ∞. Sofern wir
Werte ϑ zulassen, existiert kein erwartungstreuer Schätzer
Im Fall erwartungstreuer Schätzer
Robbins-Gleichung
also beliebig groÿe
von
ϑ
mit endlicher Varianz.
g(ϑ) = ϑ−1 hingegen liefert die Chapman-Robbins-Ungleichung
0
= ϑ−2
Eϑ0 [(ĝ − g(ϑ0 ))2 ] > supϑ>ϑ0 /2 2ϑ−ϑ
0 , und die Identität ĝ = X erreicht
ϑ2 ϑ0
Im Fall
auch diese Schranke.
3.23 Denition.
(X, F , (Pϑ )ϑ∈Θ ) mit Θ ⊆ Rk ein von µ dominiertes
Modell mit Likelihoodfunktion L. Mit `(ϑ, x) := log(L(ϑ, x)) (log 0 := −∞)
∂
2
wird die Loglikelihood-Funktion bezeichnet. Falls
∂ϑ `(ϑ, x) exisitiert in L (Pϑ )
Es sei
nennt man
I(ϑ) = Eϑ
Fisher-Informationsmatrix.
> ∂
.
∂ϑ `(ϑ, x)
∂
∂ϑ `(ϑ, x)
Man
ϑ
nennt
7→
˙
`(ϑ)
=
∂
∂ϑ `(ϑ, x)
auch
Score-Funktion.
Wir benötigen später die Regularitätsbedingung dass Integration und Dierentiation wie folgt vertauschen:
Z
Z
∂
∂ϑ L(ϑ, x)µ(dx)
∂2
L(ϑ, x)µ(dx)
∂ϑ2
=
=
∂
∂ϑ
∂
∂ϑ
Z
Z
29
L(ϑ, x)µ(dx) = 0 ,
∂
∂ϑ L(ϑ, x)µ(dx)
= 0.
Θ oen, für welche diese Ver{x|L(ϑ, x) > 0} unabhängig von ϑ ist nennt man
Eine Verteilungsfamilie mit existierenden Dichten,
tauschung gilt und für welche
auch Fisher-regulär.
Bemerkungen.
∂
(a) Die Forderung dass ∂ϑ
`(ϑ, x) exisitiert in L2 (Pϑ ) (und Fisher-Regularität)
ist in diesem Kapitel eine restriktive Vereinfachung. Im LaplaceVerteilungsmodell mit Likelihood L(ϑ, x) = 12 exp − |x − ϑ| ist die
Dierenzierbarkeit z.B. in ϑ = x nicht gewährleistet. Mit HellingerDierenzierbarkeit und Dierenzierbarkeit im quadratischen Mittel gibt
es sehr viel allgemeinere weniger restriktive Konzepte Informationsungleichungen herzuleiten (und die Fisher-Information zu denieren), vgl. hierzu
Übung und alternatives Kapitel 3.5.
(b) Nach Denition ist die Fisher-Informationsmatrix symmetrisch. Sie ist
auÿerdem stets positiv-semidenit.
3.24 Beispiel.
Es sei X1 , . . . , Xn eine mathematische Stichprobe gemäÿ der Le1 −|x−ϑ|/σ
fϑ (x) = 2σ
e
, x ∈ R, σ > 0 bekannt und ϑ ∈ R unbekannt.
beliebige ϑ0 , ϑ ∈ R gilt
besguedichte
Für
Lϑ0 (ϑ) = exp −
n
X
(|Xi − ϑ| − |Xi − ϑ0 |)/σ .
i=1
Es gilt
˙
`(ϑ)
=
n
X
(1(Xi − ϑ > 0) − 1(Xi − ϑ < 0))/σ.
i=1
Die Fisher-Information ist
I(ϑ) =
n
X
Varϑ (1(Xi − ϑ > 0) − 1(Xi − ϑ < 0))σ −2 = nσ −2 .
i=1
Beachte, dass der seltene Fall vorliegt, dass die Fisher-Information nicht vom
unbekannten Parameter abhängt.
3.25 Satz (Cramér-Rao-Ungleichung). Es seien (X, F , (Pϑ )ϑ∈Θ ) mit Θ ⊆ Rk
ein statistisches Modell, g : Θ → R dierenzierbar bei ϑ0 ∈ int(Θ) und ĝ ein
erwartungstreuer Schätzer von g(ϑ). Für alle ϑ in einer Umgebung von ϑ0 gelte
∂
`(ϑ, x) exisitiert in L2 (Pϑ0 ) (Likelihood bzgl. Pϑ0 ), sowie
Pϑ Pϑ0 sowie ∂ϑ
∂
∂ϑ
Z
Z
r(x)L(ϑ, x)µ(dx) =
r(x)
∂
L(ϑ, x)µ(dx), ϑ ∈ Θ,
∂ϑ
gilt für r(x) = 1 und r(x) = ĝ(x). Falls die Fisher-Informationsmatrix I(ϑ0 )
strikt positiv-denit ist, gibt die Cramér-Rao-Ungleichung eine untere Schranke
für das quadratische Risiko
Eϑ0 [(ĝ − g(ϑ0 ))2 ] = Varϑ0 (ĝ) > hI(ϑ0 )−1 ġ(ϑ0 ), ġ(ϑ0 )i.
30
Beweis.
Wir beschränken uns auf den eindimensionalen Fall,
k = 1.
Mit der
Cauchy-Schwarzschen Ungleichung unter der angenommenen Fisher-Regularität
reicht
Eϑ
2 ∂
`(ϑ,
X)
∂ϑ
= Var
∂
∂ϑ `(ϑ, x)
,
∂
ġ(ϑ) = Cov ĝ(X), ∂ϑ
`(ϑ, X) .
Bemerkung. Ist ĝ kein erwartungstreuer Schätzer von g(ϑ), so doch von
γ(ϑ) := Eϑ [ĝ] (so existent). Mit der Bias-Varianz-Zerlegung liefert die CramérRao-Ungleichung für diesen Fall
Eϑ0 [(ĝ − g(ϑ0 ))2 ] > (g(ϑ0 ) − γ(ϑ0 ))2 + hI(ϑ0 )−1 γ̇(ϑ0 ), γ̇(ϑ0 )i.
Beachte dazu auch, dass erwartungstreue Schätzer von g(ϑ) nicht existieren müssen bzw. oftmals keine weiteren erstrebenswerten Eigenschaften besitzen.
3.26 Lemma. Bildet (Pϑ ) eine Exponentialfamilie in T mit natürlichem Parameterbereich Θ, so ist die Fisher-Information I(ϑ) = Ä(ϑ) (Notation aus Satz
3.8).
Sofern I(ϑ) positiv-denit ist, erreicht Ti , i = 1, . . . , k, als erwartungstreuer Schätzer von gi (ϑ) = Eϑ [Ti ] die Cramér-Rao-Schranke (ist Cramer-Raoezient) im Innern von Θ.
Beweis.
Varϑ (T ) = Ä(ϑ) (Kovarianzmatrix). Andererseits ist die Loglikelihoodfunktion `(ϑ, T ) = (ϑ − ϑ0 )T −
˙
(A(ϑ) − A(ϑ0 )), so dass die Scorefunktion `(ϑ)
= T − Ȧ(ϑ) im klassischen Sinn
Nach Satz 3.8 gilt
g(ϑ) = Eϑ [T ] = Ȧ(ϑ)
und
existiert und
>
˙
˙
I(ϑ) = Eϑ [(`(ϑ))(
`(ϑ))
] = Varϑ (T ) = Ä(ϑ)
gilt. Wegen
ġi (ϑ) = (Äij (ϑ))j =: Äi•
ist die Cramér-Rao-Schranke gerade
hÄ(ϑ)−1 Äi• (ϑ), Äi• (ϑ)i = hei , Äi• (ϑ)i = Äii (ϑ),
was gleich der Varianz von
3.27 Beispiel.
Ti
ist.
N (µ, σ 2 )-verteilte mathematische Stichprobe mit µ ∈ R unbekannt und σ > 0 bekannt. Zur erwartungstreuen Schät2
zung von µ betrachte µ̂ = X̄ . Dann gilt Varµ (µ̂) = σ /n sowie für die Fisher2
nµ
2
2
Information I(µ) = n/σ (beachte A(µ) =
, Ä(µ) = n/σ ). Also ist µ̂ ezi2σ 2
2
ent im Sinne der Cramér-Rao-Ungleichung. Um nun µ zu schätzen, betrachte
2
2
c2 = (X̄) −σ /n. Es gilt Varµ (µ
c2 ) = 4µ2 σ2 + 2σ24 ,
den erwartungstreuen Schätzer µ
n
n
Es sei
X1 , . . . , Xn
eine
während die Cramér-Rao-Ungleichung die untere Schranke
ist
c2
µ
nicht Cramér-Rao-ezient. Allerdings ist
X̄
4µ2 σ 2
liefert. Damit
n
eine suziente und voll-
ständige Statistik, so dass der Satz von Lehmann-Scheé zeigt, dass
c2
µ
mini-
male Varianz unter allen erwartungstreuen Schätzern besitzt. Demnach ist die
Cramér-Rao-Schranke hier nicht scharf.
31
3.28 Bemerkung. In der Tat wird die Cramér-Rao-Schranke nur erreicht, wenn
(Pϑ )
eine Exponentialfamilie in
T
bildet und
g(ϑ) = Eϑ [T ]
oder eine linea-
re Funktion davon zu schätzen ist. Wegen der Vollständigkeit der Statistik
T
könnte man in diesen Fällen alternativ auch mit dem Satz von Lehmann-Scheé
argumentieren. Später werden wir sehen, dass in allgemeineren Modellen immerhin asymptotisch die Cramér-Rao-Schranke erreichbar ist.
3.29 Lemma. Seien unter den Annahmen wie in Satz 3.25 X1 , . . . , Xn Beobachtungen aus unabhängigen Modellen mit derselben Parametermenge Θ. Bezeichnet Ij die entsprechende Fisher-Information erzeugt von der Beobachtung
Xj , so ist im Produktmodell erzeugt von X1 , . . . , Xn die Fisher-Information
∀ϑ ∈ Θ : I(ϑ) =
n
X
Ij (ϑ) .
j=1
Beweis.
Aus der Denition
I(ϑ) = E
∂
∂ϑ `(ϑ, x)
> ∂
∂ϑ `(ϑ, x)
folgt dies da man für die gemeinsame Likelihood eine Produkt- und somit für
die Loglikelihood eine Summendarstellung hat. Die Erwartung der Kreuzterme
verschwindet unter der vorausgesetzten Fisher-Regularität.
32
Herunterladen