Satz 1.2.6 (Bayes-Entscheidungsfunktion) Seien die Annahmen 1 und 2 erfüllt, d.h. 1. sei für alle A ∈ A die Abbildung ϑ → Pϑ (A) meßbar, 2. es existiere für alle x ∈ X die reguläre bedingte Verteilung µx := Qπ1 |π2 =x auf (Θ, AΘ ), und sei δ ∈ D, so daß δx = δ(x, ·) Minimumstelle von Qxµ für Qπ2 -fast alle x ∈ X . Dann ist δ Bayes-Entscheidungsfunktion bzgl. µ. Bemerkung: a) Eine analoge Aussage läßt sich für nichtrandomisierte Bayes-Entscheidungsfunktionen formulieren: Mit Qxµ : ∆ → R+ , Z x Qµ (a) = L(ϑ, a)µx (dϑ) Θ ist das Bayes-Risiko r(µ, d) = d∗ Falls ∈ D ist, so daß Entscheidungsfunktion. d∗ (x) Qπ2 -fast Z Qxµ (d(x))Qπ2 (dx). X sicher Minimumstelle von Qxµ ist, so ist d∗ D-Bayes- e und die Abbildung X × Θ → R1 , (x, ϑ) → b) Sei Pϑ ≪ ν, Pϑ = fϑ ν für alle ϑ ∈ Θ und sei µ ∈ Θ fϑ (x) meßbar. Dann ist Annahme 1 erfüllt, d.h. die Abbildung Z ϑ → Pϑ (A) = fϑ (x)dν(x) A ist für alle A meßbar und es gilt: Qπ2 = f ν mit f (x) = Z fϑ (x)dµ(ϑ), und Q = fϑ (x)(µ ⊗ ν). Es gilt für die a-posteriori-Verteilung: µx = Qπ1 |π2 =x = hx µ mit hx ( ϑ ) = (f ϑ (x) f (x) f (x) > 0 1 f (x) = 0. 15 Anwendungen A) Schätzproblem Korollar 1.2.7 e seien In einem Schätzproblem mit ∆ = R1 , g : Θ → R1 meßbar, Gaußschem Verlust und µ ∈ Θ die Annahmen 1 und 2 erfüllt. Dann ist Z Z ∗ d (x) := g(ϑ) µx (dϑ) = g(ϑ) Qπ1 |π2 =x (dϑ) definiert und meßbar. Es gilt: a) d∗ ist nichtrandomisierter Bayes-Schätzer, b) d∗ ist Qπ2 -fast sicher eindeutig. Beweis: Für a ∈ R1 gilt nach Bemerkung a) Z Z Z x 2 Qµ (a) = L(ϑ, a) µx (dϑ) = (a − g(ϑ)) µx (dϑ) = (a − s)2 µgx (ds). Θ Θ R1 Für integrierbare Zufallsvariablen X gilt: E(X − a)2 ≥ E(X − EX)2 ∀a ∈ R mit “=” ⇔ a = EX. Falls X nach µgx verteilt ist, ist der Erwartungswert Z Z EX = s µgx (ds) = g(ϑ) µx (dϑ) = d∗ (x). Θ R1 Damit ist d∗ also eindeutiges Minimum des a-posteriori-Risikos. Mit Bemerkung a) folgt die Behauptung. ✷ Bemerkung: a) Ein einfaches Konvexitätsargument liefert, daß d∗ auch Bayes-Entscheidungsfunktion bzgl. D ist: Für alle m ∈ M1 (∆, A∆ ) gilt analog dem Beweis von Korollar 1.2.7: Z Z x 2 Qµ (m) = (g(ϑ) − a) m(da) µx (dϑ) Θ ≥ Z g(ϑ) − Θ ≥ Z Z a m(da) 2 µx (dϑ) (g(ϑ) − d∗ (x))2 µx (dϑ). Θ 16 b) Für Laplace-Verlust L(ϑ, a) = |g(ϑ) − a| definiere d∗ so daß d∗ (x) ∈ med µgx . Dann ist d∗ Bayes-Entscheidungsfunktion bzgl. µ. c) Konjugierte a-priori-Verteilung: Sei Pϑ = B(m, ϑ)(n) und zu τ = (a, b), µτ = Be(a, b) die Beta-Verteilung. Dann ist die a-posteriori-Verteilung zu x µτ,x = Be(a + nx̄, b + mn − nx̄) wieder eine Beta-Verteilung. Ähnliches gilt für Poisson- und Gamma-Verteilung: Ist Pϑ = Π(ϑ)(n) die Poisson-Verteilung, und µτ = Γ(a, b) für τ = (a, b), so ist µτ,x = Γ(a + n, b + nx̄). Beispiel 1.2.1 (Schätzproblem mit Gauß-Verlust) a) Seien X = N0 , ν abzählendes Maß auf X , Θ = [0, 1], Pϑ = B(n, ϑ), g(ϑ) = ϑ für alle ϑ ∈ Θ e die Rechteckverteilung auf Θ. Da die Rechteckund die a-priori-Verteilung µ = R[0, 1] ∈ Θ verteilung ein Spezialfall der Beta-Verteilung ist, ist dies ein Beispiel für Bemerkung c). Man erhält zu x ∈ X als a-posteriori-Dichte die Dichte der Be(x + 1, n − x + 1)-Verteilung: n x n−x x ϑ (1 − ϑ) . hx ( ϑ ) = R 1 n x n−x du 0 x u (1 − u) Der Bayes-Schätzer bzgl. der Rechteckverteilung ist d∗ (x) = Z1 ϑ hx ( ϑ ) d ϑ = x+1 n x 2 1 = + . n+2 n+2 n n+2 2 0 Man erkennt an dieser Form, wie sich mit zunehmender Anzahl von Beobachtungen das Gewicht zugunsten des Standard-Schätzers nx verschiebt, und der a-priori-Schätzer 21 immer weniger Gewicht erhält. Das Risiko ist: 2 x+1 −ϑ R(ϑ, d∗ ) = Eϑ n+2 1 = Eϑ (x + 1 − (n + 2)ϑ)2 (n + 2)2 {z } | = 1 (n + 2)2 Damit folgt für das Bayes-Risiko: r(µ, d∗ ) = = = Z Z x−nϑ+(1−2ϑ) nϑ(1 − ϑ) + (1 − 2ϑ)2 . 1 0 1 Eϑ (d∗ − ϑ)2 dϑ R(ϑ, d∗ ) dϑ 0 1 . 6(n + 2) 17 e = Ein Vergleich mit dem Standard-Schätzer d(x) x n liefert: 1 R(ϑ, de) = ϑ(1 − ϑ) n Z 1 1 r(µ, de) = R(ϑ, de) dϑ = . 6n 0 Der Bayes-Schätzer bzgl. der Rechteckverteilung ist also geringfügig besser. Dieser ist jedoch kein Minimax-Schätzer, da in diesem Beispiel die Gleichverteilung nicht die ungünstigste a-priori-Verteilung ist. Da das Risiko für ϑ in der Nähe von 21 größer wird, ordnet die ungünstigste a-priori-Verteilung diesem größere Wahrscheinlichkeiten zu. √Bereich √ n n ∗ Betrachtet man die a-priori-Verteilung µ = Be 2 , 2 (s. Ferguson), so erhält man den Bayes-Schätzer x 1 √ + √ de∗ (x) = √ n(1 + n) 2(1 + n) mit dem konstanten Risiko 1 √ für alle ϑ ∈ Θ. R(ϑ, de∗ ) = 4(1 + n)2 Nach Satz 1.2.5 (Hodges-Lehmann) ist de∗ Minimax-Schätzer. Zum Vergleich: Es gilt n sup R(ϑ, d∗ ) = 4(n + 2)2 ϑ 1 . sup R(ϑ, de) = 4n ϑ N b) Sei Pϑ = N (ϑ, 1)(n) = ni=1 N (ϑ, 1) mit ϑ ∈ Θ = R1 und g(ϑ) = ϑ. Zur a-priori-Verteilung e erhält man für k ∈ N folgenden Bayes-Schätzer: µk := N (0, k) ∈ Θ R P 2 u exp − 12 nj=1 (xj − u)2 − 12 uk du nk dk (x) = R xn . = P 2 nk + 1 exp − 1 n (x − u)2 − 1 u du 2 j=1 j 2 k Es ergibt sich folgendes Risiko: 2 nk R(ϑ, dk ) = Eϑ xn − ϑ nk + 1 2 2 nk nk 2 2 Eϑ (xn − ϑ) + ϑ −1 = nk + 1 nk + 1 2 nk 2 nk 2 = +ϑ −1 . (nk + 1)2 nk + 1 Integration mit der N (0, k)-Dichte liefert das Bayes-Risiko bzgl. µk : 2 nk nk 2 +k −1 r(µk , dk ) = (nk + 1)2 nk + 1 k = nk + 1 1 −→ (k → ∞). n 18 Für das Risiko des arithmetischen Mittels gilt für alle ϑ ∈ Θ: 1 R(ϑ, xn ) = Eϑ (xn − ϑ)2 = = lim r(µk , dk ). n k→∞ Nach Satz 1.2.5 (Hodges-Lehmann) ist xn also Minimax. Analog: Mit Pϑ = N (ϑ, σ 2 )(n) und wieder ϑ ∈ Θ = R1 erhält man als Bayes-Schätzer zur a-prioriVerteilung µ = N (a, τ 2 ): d(x) = σ2 = aσ 2 nτ 2 xn + 2 2 + nτ σ + nτ 2 n σ2 n σ2 + 1 τ2 xn + 1 τ2 n σ2 + 1 τ2 a. Auch hier ist der Bayes-Schätzer also eine Mischung aus dem Standard-Schätzer xn und dem a-priori-Schätzer a. Damit folgt: Für alle e a ∈ (0, 1) und b ∈ R1 ist e a xn + b eindeutiger Bayes-Schätzer, also zulässig. Solche Schätzer werden als Shrinkage-Schätzer bezeichnet, da mit einem Faktor < 1 zur Null hin gestaucht wird, und dann “geshiftet”. Proposition 1.2.8 Sei d Schätzer für g(ϑ) = ϑ mit Eϑ d = ϑ und Varϑ (d) = σ 2 für alle ϑ ∈ Θ = R1. Dann ist da,b := ad + b nicht zulässig bzgl. D, falls eine der folgenden Bedingungen erfüllt ist: 1. a > 1, oder 2. a < 0, oder 3. a = 1 und b 6= 0. Beweis: In allen 3 Fällen gilt: R(ϑ, da,b ) = Eϑ (ad + b − ϑ)2 = Eϑ (a(d − ϑ) + (a − 1)ϑ + b)2 = a2 σ 2 + ((a − 1)ϑ + b)2 . 1. a > 1: Dann folgt: R(ϑ, da,b ) ≥ a2 σ 2 > σ 2 = R(ϑ, d1,0 ) . Das heißt d1,0 < da,b . 2. a < 0: Es gilt (a − 1)2 > 1 und damit: R(ϑ, da,b ) ≥ ((a − 1)ϑ + b)2 2 b 2 = (a − 1) ϑ + a−1 2 b > ϑ+ a−1 = R ϑ, d0,− b . a−1 Das heißt d0,− b a−1 < da,b . 3. a = 1, b 6= 0: Dann ist da,b = d + b. Da Eϑ d = ϑ folgt da,b > d. 19 ✷ Im Folgenden werden wir uns mit dem Fall a = 1, b = 0 beschäftigen, d.h. mit dem arithmetischen Mittel als Schätzer im Normalverteilungsfall. Satz 1.2.9 (Zulässigkeit des arithmetischen Mittels) Sei Pϑ = N (ϑ, σ 2 )(n) mit σ 2 > 0 und g(ϑ) = ϑ für alle ϑ ∈ Θ = R1 . Dann ist das arithmetische Mittel xn zulässig für g. Beweis: Limes-Bayes-Methode Sei ohne Einschränkung σ = 1. Angenommen xn wäre nicht zulässig. Dann existiert ein “besserer Schätzer” δ ∗ . Sei dieser ohne Einschränkung nichtrandomisiert, d.h. es exisiert d∗ ∈ D, so daß δ ∗ = d∗ < xn . Damit existiert ϑ0 ∈ Θ so daß ∀ϑ : R(ϑ, d∗ ) ≤ 1 1 und R(ϑ0 , d∗ ) < . n n Mit dem Satz über majorisierte Konvergenz zeigt man, daß R(·, d∗ ) stetig ist (s. Ferguson). Es existieren also ε > 0 und eine Umgebung U (ϑ0 ) = (ϑ1 , ϑ2 ) ∋ ϑ0 , so daß für alle ϑ ∈ U (ϑ0 ) gilt: 1 −ε . n R(ϑ, d∗ ) < Sei nun µτ := N (0, τ 2 ) für alle τ ∈ R+ . Dann ist r(µτ , d∗ ) < dτ (x) = 1 n und nach Beispiel 1.2.1 b) ist n xσn2 n σ2 + 1 τ2 Bayes-Schätzer bzgl. µτ . Das Bayes-Risiko ist wegen σ 2 = 1: r(µτ , dτ ) = n σ2 1 + 1 τ2 = τ2 . 1 + nτ 2 Damit ist: 1 ≥ z 1 n 1 n >0 }| { − r(µτ , d∗ ) = − r(µτ , dτ ) √ 1 2πτ 2 R 1 n ϑ2 − R(ϑ, d∗ ) e− 2τ 2 dϑ 1 n n(1 + nτ 2 )ε √ ≥ 2πτ → ∞ (τ → ∞). Aus diesem Widerspruch folgt die Behauptung. 20 − τ2 1+nτ 2 Zϑ2 ϑ1 | ϑ2 − 2 2τ |e {z } dϑ →1 (τ →∞) {z } → ϑ2 −ϑ1 > 0 (τ →∞) ✷ Bemerkung: a) Es bleibt die Frage, wie man eine ungünstigste a-priori-Verteilung erhält. Sei Θ ⊂ Rk offen und Pϑ = fϑ ν. Angenommen ∂ ∂ Iij (ϑ) := Eϑ ln fϑ ln fϑ ∂ ϑi ∂ ϑj ∂2 ln fϑ = −Eϑ ∂ ϑi ∂ ϑj existiert für alle i, j ∈ {1, . . . , k} und ist endlich. Unter diesen Regularitätsannahmen läßt sich die Informationsmatrix I(ϑ) := (Iij (ϑ)) definieren. Es ist µ := hλ\k mit h(ϑ) ∼ p 1 det I(ϑ) ein guter Kandidat für eine ungünstigste a-priori-Verteilung. (s. Jeffrey, 1940) b) empirischer Bayes-Schätzer e eine Familie von a-priori-Verteilungen mit den Bayes-Schätzern dτ bzgl. Sei {µτ ; τ ∈ T } ⊂ Θ µτ . Dann empfiehlt sich folgende Vorgehensweise: 1. Schätze τ aus den Beobachtungen: τb = τb(x). 2. Verwende den Schätzer db der das empirische a posteriori Risiko minimiert, d.h. Z b L(ϑ, d(x)) πτb(x),x (dϑ) = inf . d c) Das arithmetische Mittel in höherer Dimension. Satz 1.2.9 gilt auch in Dimension k = 2, aber nicht mehr für Dimensionen k ≥ 3. Sei Pϑ = k O i=1 N (ϑi , 1) und g(ϑ) = ϑ für alle ϑ ∈ Θ = Rk . D.h. wir beobachten einen k-dimensionalen Versuch und wollen k unabhängige Komponenten schätzen. Mit quadratischem Verlust L(ϑ, a) = k 1X 1 (ϑi − ai )2 = k ϑ − a k2 k k i=1 gilt für: 1. k = 2: Der Schätzer d(x) := x ist zulässig. Analog ist für n Beobachtungen d(x) := xn zulässig. 2. k ≥ 3: Überraschenderweise ist d(x) = x nicht mehr zulässig (s. Stein, 1956). Ein besserer Schätzer ist z.B. der James-Stein-Schätzer (1961) d(x) := (d1 (x), . . . , dk (x)) mit: k−2 di (x) := µi + 1 + s (xi − µi ), wobei s := 21 k X j=1 (xj − µj )2 und µ ∈ Rk fest. Für diesen ist das Risiko k−2 k−2 R(ϑ, d) = 1 − Eϑ < 1 = R(ϑ, x). k s2 P Es ist s2 ∼ χ2 (λ) mit λ = (ϑi − µi )2 . Falls ϑ = µ ist, gilt R(µ, d) = k2 . B) Testproblem Sei Θ0 , Θ1 eine meßbare Zerlegung von Θ, d.h. Θ1 , Θ2 ∈ AΘ , Θ0 + Θ1 = Θ und sei die a-priorie gegeben. Mit Neymann-Pearson-Verlustfunktion Verteilung µ ∈ Θ 0 ϑ ∈ Θi L(ϑ, ai ) := Li ϑ ∈ Θ i c ist mit δ = δϕ für alle ϕ ∈ Φ das Bayes-Risiko Z Z Z r(µ, δ) = L(ϑ, a) δ(x, da) µx (dϑ) Qπ2 (dx) X mit dem a-posteriori-Risiko Θ ∆ | {z =Qx µ (δx ) } Qxµ (δx ) = L0 µx (Θ0 )ϕ(x) + L1 µx (Θ1 )(1 − ϕ(x)) = ϕ(x) (L0 µx (Θ0 ) − L1 µx (Θ1 )) + L1 µx (Θ1 ). Damit ergibt sich aus Satz 1.2.6 folgender Satz: Satz 1.2.10 e Sei das Testproblem (Θ0 , Θ1 ) mit Neymann-Pearson-Verlust L und die a-priori-Verteilung µ ∈ Θ gegeben. Sind L0 , L1 > 0, so gilt: ϕ∗ ∈ Φ ist ( Bayes-Test bzgl. µ 1 falls L0 µx (Θ0 ) < L1 µx (Θ1 ) [Qπ2 ] . ⇔ ϕ∗ (x) = 0 falls L0 µx (Θ0 ) > L1 µx (Θ1 ) Auf dem “Randomisierungsbereich” {L0 µx (Θ0 ) = L1 µx (Θ1 )} ist ϕ∗ nicht eindeutig bestimmt. Für das einfache Testproblem Θi = {ϑi }, i = 0, 1 gilt, falls Pϑi = fi ν: µx ({ϑi }) = hx (ϑi )µ({ϑi }), wobei hx (ϑi ) = Mit k = L0 µ({ϑ0 }) L1 µ({ϑ1 }) ist also ∗ ϕ (x) = falls 0 < k < ∞. fi (x) mit f (x) = µ({ϑ0 })f0 (x) + µ({ϑ1 })f1 (x). f (x) ( 1 falls µ({ϑ0 })L0 f0 (x) < L1 f1 (x)µ({ϑ1 }) 0 falls µ({ϑ0 })L0 f0 (x) > L1 f1 (x)µ({ϑ1 }) 1 falls f1 (x) > k f0 (x) [Qπ2 ] , = ϕ := k 0 falls f1 (x) < k f0 (x) 22