Satz 1.2.6 (Bayes-Entscheidungsfunktion) Seien die Annahmen 1

Werbung
Satz 1.2.6 (Bayes-Entscheidungsfunktion)
Seien die Annahmen 1 und 2 erfüllt, d.h.
1. sei für alle A ∈ A die Abbildung ϑ → Pϑ (A) meßbar,
2. es existiere für alle x ∈ X die reguläre bedingte Verteilung µx := Qπ1 |π2 =x auf (Θ, AΘ ),
und sei δ ∈ D, so daß δx = δ(x, ·) Minimumstelle von Qxµ für Qπ2 -fast alle x ∈ X . Dann ist δ
Bayes-Entscheidungsfunktion bzgl. µ.
Bemerkung:
a) Eine analoge Aussage läßt sich für nichtrandomisierte Bayes-Entscheidungsfunktionen formulieren: Mit Qxµ : ∆ → R+ ,
Z
x
Qµ (a) = L(ϑ, a)µx (dϑ)
Θ
ist das Bayes-Risiko
r(µ, d) =
d∗
Falls
∈ D ist, so daß
Entscheidungsfunktion.
d∗ (x)
Qπ2 -fast
Z
Qxµ (d(x))Qπ2 (dx).
X
sicher Minimumstelle von Qxµ ist, so ist d∗ D-Bayes-
e und die Abbildung X × Θ → R1 , (x, ϑ) →
b) Sei Pϑ ≪ ν, Pϑ = fϑ ν für alle ϑ ∈ Θ und sei µ ∈ Θ
fϑ (x) meßbar. Dann ist Annahme 1 erfüllt, d.h. die Abbildung
Z
ϑ → Pϑ (A) =
fϑ (x)dν(x)
A
ist für alle A meßbar und es gilt:
Qπ2 = f ν mit f (x) =
Z
fϑ (x)dµ(ϑ),
und Q = fϑ (x)(µ ⊗ ν). Es gilt für die a-posteriori-Verteilung: µx = Qπ1 |π2 =x = hx µ mit
hx ( ϑ ) =
(f
ϑ (x)
f (x)
f (x) > 0
1
f (x) = 0.
15
Anwendungen
A) Schätzproblem
Korollar 1.2.7
e seien
In einem Schätzproblem mit ∆ = R1 , g : Θ → R1 meßbar, Gaußschem Verlust und µ ∈ Θ
die Annahmen 1 und 2 erfüllt. Dann ist
Z
Z
∗
d (x) := g(ϑ) µx (dϑ) = g(ϑ) Qπ1 |π2 =x (dϑ)
definiert und meßbar. Es gilt:
a) d∗ ist nichtrandomisierter Bayes-Schätzer,
b) d∗ ist Qπ2 -fast sicher eindeutig.
Beweis:
Für a ∈ R1 gilt nach Bemerkung a)
Z
Z
Z
x
2
Qµ (a) = L(ϑ, a) µx (dϑ) = (a − g(ϑ)) µx (dϑ) = (a − s)2 µgx (ds).
Θ
Θ
R1
Für integrierbare Zufallsvariablen X gilt:
E(X − a)2 ≥ E(X − EX)2
∀a ∈ R
mit “=” ⇔ a = EX. Falls X nach µgx verteilt ist, ist der Erwartungswert
Z
Z
EX = s µgx (ds) = g(ϑ) µx (dϑ) = d∗ (x).
Θ
R1
Damit ist d∗ also eindeutiges Minimum des a-posteriori-Risikos. Mit Bemerkung a) folgt die
Behauptung.
✷
Bemerkung:
a) Ein einfaches Konvexitätsargument liefert, daß d∗ auch Bayes-Entscheidungsfunktion bzgl.
D ist: Für alle m ∈ M1 (∆, A∆ ) gilt analog dem Beweis von Korollar 1.2.7:
Z Z
x
2
Qµ (m) =
(g(ϑ) − a) m(da) µx (dϑ)
Θ
≥
Z g(ϑ) −
Θ
≥
Z
Z
a m(da)
2
µx (dϑ)
(g(ϑ) − d∗ (x))2 µx (dϑ).
Θ
16
b) Für Laplace-Verlust L(ϑ, a) = |g(ϑ) − a| definiere d∗ so daß
d∗ (x) ∈ med µgx .
Dann ist d∗ Bayes-Entscheidungsfunktion bzgl. µ.
c) Konjugierte a-priori-Verteilung:
Sei Pϑ = B(m, ϑ)(n) und zu τ = (a, b), µτ = Be(a, b) die Beta-Verteilung. Dann ist die
a-posteriori-Verteilung zu x
µτ,x = Be(a + nx̄, b + mn − nx̄)
wieder eine Beta-Verteilung.
Ähnliches gilt für Poisson- und Gamma-Verteilung: Ist Pϑ = Π(ϑ)(n) die Poisson-Verteilung,
und µτ = Γ(a, b) für τ = (a, b), so ist µτ,x = Γ(a + n, b + nx̄).
Beispiel 1.2.1 (Schätzproblem mit Gauß-Verlust)
a) Seien X = N0 , ν abzählendes Maß auf X , Θ = [0, 1], Pϑ = B(n, ϑ), g(ϑ) = ϑ für alle ϑ ∈ Θ
e die Rechteckverteilung auf Θ. Da die Rechteckund die a-priori-Verteilung µ = R[0, 1] ∈ Θ
verteilung ein Spezialfall der Beta-Verteilung ist, ist dies ein Beispiel für Bemerkung c). Man
erhält zu x ∈ X als a-posteriori-Dichte die Dichte der Be(x + 1, n − x + 1)-Verteilung:
n x
n−x
x ϑ (1 − ϑ)
.
hx ( ϑ ) = R 1 n x
n−x du
0 x u (1 − u)
Der Bayes-Schätzer bzgl. der Rechteckverteilung ist
d∗ (x) =
Z1
ϑ hx ( ϑ ) d ϑ =
x+1
n x
2 1
=
+
.
n+2
n+2 n n+2 2
0
Man erkennt an dieser Form, wie sich mit zunehmender Anzahl von Beobachtungen das
Gewicht zugunsten des Standard-Schätzers nx verschiebt, und der a-priori-Schätzer 21 immer
weniger Gewicht erhält. Das Risiko ist:
2
x+1
−ϑ
R(ϑ, d∗ ) = Eϑ
n+2
1
=
Eϑ (x + 1 − (n + 2)ϑ)2
(n + 2)2
{z
}
|
=
1
(n + 2)2
Damit folgt für das Bayes-Risiko:
r(µ, d∗ ) =
=
=
Z
Z
x−nϑ+(1−2ϑ)
nϑ(1 − ϑ) + (1 − 2ϑ)2 .
1
0
1
Eϑ (d∗ − ϑ)2 dϑ
R(ϑ, d∗ ) dϑ
0
1
.
6(n + 2)
17
e =
Ein Vergleich mit dem Standard-Schätzer d(x)
x
n
liefert:
1
R(ϑ, de) = ϑ(1 − ϑ)
n
Z 1
1
r(µ, de) =
R(ϑ, de) dϑ =
.
6n
0
Der Bayes-Schätzer bzgl. der Rechteckverteilung ist also geringfügig besser.
Dieser ist jedoch kein Minimax-Schätzer, da in diesem Beispiel die Gleichverteilung nicht
die ungünstigste a-priori-Verteilung ist. Da das Risiko für ϑ in der Nähe von 21 größer wird,
ordnet die ungünstigste a-priori-Verteilung diesem
größere Wahrscheinlichkeiten zu.
√Bereich
√ n
n
∗
Betrachtet man die a-priori-Verteilung µ = Be 2 , 2 (s. Ferguson), so erhält man den
Bayes-Schätzer
x
1
√ +
√
de∗ (x) = √
n(1 + n) 2(1 + n)
mit dem konstanten Risiko
1
√
für alle ϑ ∈ Θ.
R(ϑ, de∗ ) =
4(1 + n)2
Nach Satz 1.2.5 (Hodges-Lehmann) ist de∗ Minimax-Schätzer. Zum Vergleich: Es gilt
n
sup R(ϑ, d∗ ) =
4(n
+
2)2
ϑ
1
.
sup R(ϑ, de) =
4n
ϑ
N
b) Sei Pϑ = N (ϑ, 1)(n) = ni=1 N (ϑ, 1) mit ϑ ∈ Θ = R1 und g(ϑ) = ϑ. Zur a-priori-Verteilung
e erhält man für k ∈ N folgenden Bayes-Schätzer:
µk := N (0, k) ∈ Θ
R
P
2
u exp − 12 nj=1 (xj − u)2 − 12 uk du
nk
dk (x) = R
xn .
=
P
2
nk + 1
exp − 1 n (x − u)2 − 1 u du
2
j=1
j
2 k
Es ergibt sich folgendes Risiko:
2
nk
R(ϑ, dk ) = Eϑ
xn − ϑ
nk + 1
2
2
nk
nk
2
2
Eϑ (xn − ϑ) + ϑ
−1
=
nk + 1
nk + 1
2
nk 2
nk
2
=
+ϑ
−1 .
(nk + 1)2
nk + 1
Integration mit der N (0, k)-Dichte liefert das Bayes-Risiko bzgl. µk :
2
nk
nk 2
+k
−1
r(µk , dk ) =
(nk + 1)2
nk + 1
k
=
nk + 1
1
−→
(k → ∞).
n
18
Für das Risiko des arithmetischen Mittels gilt für alle ϑ ∈ Θ:
1
R(ϑ, xn ) = Eϑ (xn − ϑ)2 = = lim r(µk , dk ).
n k→∞
Nach Satz 1.2.5 (Hodges-Lehmann) ist xn also Minimax.
Analog:
Mit Pϑ = N (ϑ, σ 2 )(n) und wieder ϑ ∈ Θ = R1 erhält man als Bayes-Schätzer zur a-prioriVerteilung µ = N (a, τ 2 ):
d(x) =
σ2
=
aσ 2
nτ 2
xn + 2
2
+ nτ
σ + nτ 2
n
σ2
n
σ2
+
1
τ2
xn +
1
τ2
n
σ2
+
1
τ2
a.
Auch hier ist der Bayes-Schätzer also eine Mischung aus dem Standard-Schätzer xn und dem
a-priori-Schätzer a.
Damit folgt:
Für alle e
a ∈ (0, 1) und b ∈ R1 ist e
a xn + b eindeutiger Bayes-Schätzer, also zulässig. Solche
Schätzer werden als Shrinkage-Schätzer bezeichnet, da mit einem Faktor < 1 zur Null hin
gestaucht wird, und dann “geshiftet”.
Proposition 1.2.8
Sei d Schätzer für g(ϑ) = ϑ mit Eϑ d = ϑ und Varϑ (d) = σ 2 für alle ϑ ∈ Θ = R1. Dann ist
da,b := ad + b nicht zulässig bzgl. D, falls eine der folgenden Bedingungen erfüllt ist:
1. a > 1, oder
2. a < 0, oder
3. a = 1 und b 6= 0.
Beweis:
In allen 3 Fällen gilt:
R(ϑ, da,b ) = Eϑ (ad + b − ϑ)2
= Eϑ (a(d − ϑ) + (a − 1)ϑ + b)2
= a2 σ 2 + ((a − 1)ϑ + b)2 .
1. a > 1: Dann folgt: R(ϑ, da,b ) ≥ a2 σ 2 > σ 2 = R(ϑ, d1,0 ) . Das heißt d1,0 < da,b .
2. a < 0: Es gilt (a − 1)2 > 1 und damit:
R(ϑ, da,b ) ≥ ((a − 1)ϑ + b)2
2
b
2
= (a − 1) ϑ +
a−1
2
b
> ϑ+
a−1
= R ϑ, d0,− b .
a−1
Das heißt d0,−
b
a−1
< da,b .
3. a = 1, b 6= 0: Dann ist da,b = d + b. Da Eϑ d = ϑ folgt da,b > d.
19
✷
Im Folgenden werden wir uns mit dem Fall a = 1, b = 0 beschäftigen, d.h. mit dem
arithmetischen Mittel als Schätzer im Normalverteilungsfall.
Satz 1.2.9 (Zulässigkeit des arithmetischen Mittels)
Sei Pϑ = N (ϑ, σ 2 )(n) mit σ 2 > 0 und g(ϑ) = ϑ für alle ϑ ∈ Θ = R1 . Dann ist das arithmetische
Mittel xn zulässig für g.
Beweis: Limes-Bayes-Methode
Sei ohne Einschränkung σ = 1.
Angenommen xn wäre nicht zulässig. Dann existiert ein “besserer Schätzer” δ ∗ . Sei dieser ohne
Einschränkung nichtrandomisiert, d.h. es exisiert d∗ ∈ D, so daß δ ∗ = d∗ < xn . Damit existiert
ϑ0 ∈ Θ so daß
∀ϑ : R(ϑ, d∗ ) ≤
1
1
und R(ϑ0 , d∗ ) < .
n
n
Mit dem Satz über majorisierte Konvergenz zeigt man, daß R(·, d∗ ) stetig ist (s. Ferguson). Es
existieren also ε > 0 und eine Umgebung U (ϑ0 ) = (ϑ1 , ϑ2 ) ∋ ϑ0 , so daß für alle ϑ ∈ U (ϑ0 ) gilt:
1
−ε .
n
R(ϑ, d∗ ) <
Sei nun µτ := N (0, τ 2 ) für alle τ ∈ R+ . Dann ist r(µτ , d∗ ) <
dτ (x) =
1
n
und nach Beispiel 1.2.1 b) ist
n xσn2
n
σ2
+
1
τ2
Bayes-Schätzer bzgl. µτ . Das Bayes-Risiko ist wegen σ 2 = 1:
r(µτ , dτ ) =
n
σ2
1
+
1
τ2
=
τ2
.
1 + nτ 2
Damit ist:
1 ≥
z
1
n
1
n
>0
}|
{
− r(µτ , d∗ )
=
− r(µτ , dτ )
√ 1
2πτ 2
R
1
n
ϑ2
− R(ϑ, d∗ ) e− 2τ 2 dϑ
1
n
n(1 + nτ 2 )ε
√
≥
2πτ
→ ∞ (τ → ∞).
Aus diesem Widerspruch folgt die Behauptung.
20
−
τ2
1+nτ 2
Zϑ2
ϑ1
|
ϑ2
− 2
2τ
|e {z } dϑ
→1 (τ →∞)
{z
}
→ ϑ2 −ϑ1 > 0 (τ →∞)
✷
Bemerkung:
a) Es bleibt die Frage, wie man eine ungünstigste a-priori-Verteilung erhält.
Sei Θ ⊂ Rk offen und Pϑ = fϑ ν. Angenommen
∂
∂
Iij (ϑ) := Eϑ
ln fϑ
ln fϑ
∂ ϑi
∂ ϑj
∂2
ln fϑ
= −Eϑ
∂ ϑi ∂ ϑj
existiert für alle i, j ∈ {1, . . . , k} und ist endlich. Unter diesen Regularitätsannahmen läßt
sich die Informationsmatrix
I(ϑ) := (Iij (ϑ))
definieren. Es ist µ := hλ\k mit
h(ϑ) ∼ p
1
det I(ϑ)
ein guter Kandidat für eine ungünstigste a-priori-Verteilung. (s. Jeffrey, 1940)
b) empirischer Bayes-Schätzer
e eine Familie von a-priori-Verteilungen mit den Bayes-Schätzern dτ bzgl.
Sei {µτ ; τ ∈ T } ⊂ Θ
µτ . Dann empfiehlt sich folgende Vorgehensweise:
1. Schätze τ aus den Beobachtungen: τb = τb(x).
2. Verwende den Schätzer db der das empirische a posteriori Risiko minimiert, d.h.
Z
b
L(ϑ, d(x))
πτb(x),x (dϑ) = inf .
d
c) Das arithmetische Mittel in höherer Dimension.
Satz 1.2.9 gilt auch in Dimension k = 2, aber nicht mehr für Dimensionen k ≥ 3. Sei
Pϑ =
k
O
i=1
N (ϑi , 1) und g(ϑ) = ϑ für alle ϑ ∈ Θ = Rk .
D.h. wir beobachten einen k-dimensionalen Versuch und wollen k unabhängige Komponenten
schätzen. Mit quadratischem Verlust
L(ϑ, a) =
k
1X
1
(ϑi − ai )2 = k ϑ − a k2
k
k
i=1
gilt für:
1. k = 2: Der Schätzer d(x) := x ist zulässig. Analog ist für n Beobachtungen d(x) := xn
zulässig.
2. k ≥ 3: Überraschenderweise ist d(x) = x nicht mehr zulässig (s. Stein, 1956). Ein besserer
Schätzer ist z.B. der James-Stein-Schätzer (1961) d(x) := (d1 (x), . . . , dk (x)) mit:
k−2
di (x) := µi + 1 +
s
(xi − µi ), wobei s :=
21
k
X
j=1
(xj − µj )2 und µ ∈ Rk fest.
Für diesen ist das Risiko
k−2
k−2
R(ϑ, d) = 1 −
Eϑ
< 1 = R(ϑ, x).
k
s2
P
Es ist s2 ∼ χ2 (λ) mit λ = (ϑi − µi )2 . Falls ϑ = µ ist, gilt R(µ, d) = k2 .
B) Testproblem
Sei Θ0 , Θ1 eine meßbare Zerlegung von Θ, d.h. Θ1 , Θ2 ∈ AΘ , Θ0 + Θ1 = Θ und sei die a-priorie gegeben. Mit Neymann-Pearson-Verlustfunktion
Verteilung µ ∈ Θ
0 ϑ ∈ Θi
L(ϑ, ai ) :=
Li ϑ ∈ Θ i c
ist mit δ = δϕ für alle ϕ ∈ Φ das Bayes-Risiko
Z Z Z
r(µ, δ) =
L(ϑ, a) δ(x, da) µx (dϑ) Qπ2 (dx)
X
mit dem a-posteriori-Risiko
Θ ∆
|
{z
=Qx
µ (δx )
}
Qxµ (δx ) = L0 µx (Θ0 )ϕ(x) + L1 µx (Θ1 )(1 − ϕ(x))
= ϕ(x) (L0 µx (Θ0 ) − L1 µx (Θ1 )) + L1 µx (Θ1 ).
Damit ergibt sich aus Satz 1.2.6 folgender Satz:
Satz 1.2.10
e
Sei das Testproblem (Θ0 , Θ1 ) mit Neymann-Pearson-Verlust L und die a-priori-Verteilung µ ∈ Θ
gegeben. Sind L0 , L1 > 0, so gilt:
ϕ∗ ∈ Φ ist
( Bayes-Test bzgl. µ
1 falls L0 µx (Θ0 ) < L1 µx (Θ1 )
[Qπ2 ] .
⇔ ϕ∗ (x) =
0 falls L0 µx (Θ0 ) > L1 µx (Θ1 )
Auf dem “Randomisierungsbereich” {L0 µx (Θ0 ) = L1 µx (Θ1 )} ist ϕ∗ nicht eindeutig bestimmt.
Für das einfache Testproblem Θi = {ϑi }, i = 0, 1 gilt, falls Pϑi = fi ν:
µx ({ϑi }) = hx (ϑi )µ({ϑi }), wobei hx (ϑi ) =
Mit k =
L0 µ({ϑ0 })
L1 µ({ϑ1 })
ist also
∗
ϕ (x) =
falls 0 < k < ∞.
fi (x)
mit f (x) = µ({ϑ0 })f0 (x) + µ({ϑ1 })f1 (x).
f (x)
(
1 falls µ({ϑ0 })L0 f0 (x) < L1 f1 (x)µ({ϑ1 })
0 falls µ({ϑ0 })L0 f0 (x) > L1 f1 (x)µ({ϑ1 })

 1 falls f1 (x) > k
f0 (x)
[Qπ2 ] ,
= ϕ :=
k
 0 falls f1 (x) < k
f0 (x)
22
Herunterladen