Mathematische Statistik Gliederung zur Vorlesung im Sommersemester 2014 Markus Bibinger, editiertes Skript von Markus Reiÿ Humboldt-Universität zu Berlin VORLÄUFIGE FASSUNG: 19. Mai 2014 Inhaltsverzeichnis 1 Statistik im linearen Modell 1 1.1 Lineares Modell und kleinste Quadrate . . . . . . . . . . . . . . . 1 1.2 Der Satz von Gauÿ-Markov 3 1.3 Inferenz unter Normalverteilungsannahme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Grundprinzipien statistischer Entscheidungstheorie . . . . . . . . . . . . 5 8 2.1 Formalisierung eines statistischen Problems 8 2.2 Optimale statistische Entscheidungen . . . . . . . . . . . . . . . . 10 2.2.1 Zulässigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2 Minimax-Ansatz . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3 Bayes-Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Bayes-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4 Das Stein-Phänomen . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.5 Ergänzungen 19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Suzienz und Vollständigkeit 20 3.1 Dominierte Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Exponentialfamilien 3.3 Suzienz 3.4 Vollständigkeit 3.5 Cramér-Rao-Ungleichung 20 . . . . . . . . . . . . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I 27 29 1 Statistik im linearen Modell 1.1 Lineares Modell und kleinste Quadrate 1.1 Beispiel (lineare Regression). Wir beobachten Realisierungen von Yi = axi + b + εi , ∈ unbekannte Parameter, (xi ) bekannte Werte (εi ) iid (unabhängig und identisch verteilt) zen2 trierte Zufallsvariablen (d.h. E[εi ] = 0) sind mit Var(εi ) = σ > 0, die Messfehler modellieren. Man denke z.B. an Messungen der Leitfähigkeit Yi eines Stoes in Abhängigkeit der Temperatur xi . Gesucht ist eine Regressionsgerade der Form y = ax+b, die die Beobachtunwobei a, b R, σ > i = 1, . . . , n, 0 (Versuchsplan, Design) sowie gen möglichst gut erklärt. Nach der Methode der kleinsten Quadrate erhalten wir Schätzer â, b̂ durch Minimierung der Summe der quadratischen Abstände: (â, b̂) := argmin(a,b)∈R2 n X (Yi − axi − b)2 . i=1 Dierentiation ergibt, dass â, b̂ Lösungen der Normalengleichungen sind: n X (Yi − axi − b) = 0 und i=1 n X xi (Yi − axi − b) = 0. i=1 Pn 2 , b̂ = Ȳ − âx̄ mit x̄ = 1 â = c̄ /σ̄ xY x i=1 xi , Ȳ = n 1 Pn 1 Pn 2 2 σ̄x = n−1 i=1 (xi − x̄) , c̄xY = n−1 i=1 (xi − x̄)(Yi − Ȳ ). Explizit gilt 1.2 P Beispiel (einfaktorielle Varianzanalyse, ANOVA) p i=1 ni Realisierungen . 1 n Pn i=1 Yi , Man beobachtet n = Yij = µ + αi + ij , j = 1, . . . , ni , i = 1, . . . , p mit iid zentrierten Fehlern mit Varianz (Zielgröÿe abhängig von p σ2 > 0 aus p verschiedenen Gruppen Faktoren) mit Gruppengröÿen ni , i = 1, . . . , p. Be- zeichne mit Ȳ•• p ni ni 1 X 1 XX = Yij , Ȳi• = Yij , i = 1, . . . , p, n ni i=1 j=1 j=1 den Gesamtmittelwert und die Gruppenmittelwerte. Neben der Parameterschätzung mit der Methode der kleinsten Quadrate µ̂ = Ȳ•• , α̂i = Ȳi• − Ȳ•• , i = 1, . . . , p, interessiert vor allem auf unterschiedliche Einüsse der Faktoren zu testen: H0 : α1 = α2 = . . . = αp = 0. Hierzu bestimmt man Schätzer für (a) die Varianz innerhalb der Gruppen, 1 (b) die Varianz zwischen den Gruppen, (c) die Gesamtvarianz. Je gröÿer dabei der Anteil der Varianz zwischen den Gruppen, desto eher wird H0 abgelehnt. 1.3 Denition. Ein lineares Modell mit n reellwertigen Beobachtungen (Y1 , . . . , Yn )> und Y = p p-dimensionalem Parameter β ∈ R , p 6 n, besteht aus einer X ∈ Rn×p von vollem Rang p, der Designmatrix, und einem > Zufallsvektor ε = (ε1 , . . . , εn ) , den Fehler- oder Störgröÿen, mit E[εi ] = 0, Cov(εi εj ) = Σij zur Kovarianzmatrix Σ > 0. Beobachtet wird eine Realisierung reellen Matrix von Y = Xβ + ε. Der (gewichtete) Kleinste-Quadrate-Schätzer β̂ von β minimiert den gewichteten Euklidischen Abstand zwischen Beobachtungen und Modellvorhersage: |Σ−1/2 (X β̂ − Y )|2 = infp |Σ−1/2 (Xb − Y )|2 . b∈R Im gewöhnlichen Fall σ > 0, Σ = σ 2 En (En ∈ Rn×n : Einheitsmatrix) mit Fehlerniveau erhalten wir den gewöhnlichen Kleinste-Quadrate-Schätzer (OLS: ordi- nary least squares), der unabhängig von der Kenntnis von σ2 ist: |X β̂ − Y |2 = infp |Xb − Y |2 . b∈R Bemerkung. Wir schreiben Σ > 0, falls Σ eine symmetrische, strikt positivdenite Matrix ist. Dann ist Σ diagonalisierbar mit Σ = T DT > , D = diag(λ1 , . . . , λn ) Diagonalmatrix und T orthogonale Matrix, und wir setzen −1/2 −1/2 Σ−1/2 = T D−1/2 T > mit D−1/2 = diag(λ1 , . . . , λn ). Wie erwartet, gilt (Σ−1/2 )2 = Σ−1 und somit |Σ−1/2 v|2 = hΣ−1 v, vi. 1.4 Beispiele. (a) Einfaches Shift-Modell: Wir beobachten µ ∈ R unbekannt, was X = (1, . . . , 1)> führt. Yi = µ + εi , i = 1, . . . , n, mit p = 1, β = µ und auf ein lineares Modell mit p = 2, β = (b, a)> , X = (Xij ) mit Xi,1 = 1, Xi,2 = xi . hat, müssen mindestens zwei der (xi ) verschieden sein. (b) Lineare Regression: Damit X Rang 2 (c) Mehrfache lineare Regression: bei xi = (xi,1 , . . . , xi,d ) a = (a1 , . . . , ad )> , i = 1, . . . , n. p = d + 1, β = (a0 , a1 , . . . , ad )> sowie 1 x1,1 · · · x1,d . . . . . X = ... . . 1 xn,1 · · · xn,d X vollen Rang besitzt, ist gleichbedeutend damit, dass 1 d+1 , i = 1, . . . , n, den gesamten Raum R aufspannen. xi Die Forderung, dass die Punkte Design mit Punkten beobachtet man Yi = a0 + ha, xi i + εi , Wir erhalten d-dimensionalem 2 (d) Polynomiale Regression: wir beobachten Yi = a0 + a1 xi + a2 x2i + · · · + ap−1 xp−1 + εi , i Damit ergibt sich als Parameter i = 1, . . . , n. β = (a0 , a1 , . . . , ap−1 )> und eine Design- matrix vom Vandermonde-Typ: 1 x1 1 x2 X = . . .. .. x21 x22 . . . · · · xp−1 1 · · · xp−1 2 . . . . 1 xn x2n · · · xp−1 n Die Matrix X hat vollen Rang, sofern p der Designpunkte (xi ) verschieden sind. (e) Einfaktorielle Varianzanalyse: P Pj Yi = µj + i , i = j−1 l=1 nl + 1, . . . , l=1 nl , j = 1, . . . , p β = (µ1 , . . . , µp ) ist X Blockdiagonalmatrix mit vollem Rang p. Im Modell und 1.2 Der Satz von Gauÿ-Markov 1.5 Lemma. Setze XΣ := Σ−1/2 X . Mit ΠXΣ werde die Orthogonalprojektion von Rn auf den Bildraum ran(XΣ ) bezeichnet. Dann gilt ΠXΣ = XΣ (XΣ> XΣ )−1 XΣ> und für den Kleinste-Quadrate-Schätzer β̂ = (X > Σ−1 X)−1 X > Σ−1 Y . Insbesondere existiert der Kleinste-Quadrate-Schätzer und ist eindeutig. Bemerkung. (a) Im gewöhnlichen linearen Modell gilt β̂ = (X > X)−1 X > Y , da sich σ > 0 herauskürzt. (b) XΣ+ := (XΣ> XΣ )−1 XΣ> heiÿt auch Moore-Penrose-Inverse von XΣ , so dass β̂ = XΣ+ Σ−1/2 Y bzw. β̂ = X + Y im gewöhnlichen linearen Modell gilt. Beweis. Zunächst beachte, dass XΣ> XΣ = X > Σ−1 X invertierbar ist wegen der Invertierbarkeit von Σ und der Rangbedingung an X: X > Σ−1 Xv = 0 ⇒ v > X > Σ−1 Xv = 0 ⇒ |Σ−1/2 Xv| = 0 ⇒ |Xv| = 0 ⇒ v = 0. PXΣ := XΣ (XΣ> XΣ )−1 XΣ> und w = PXΣ v für ein v ∈ Rn . Dann folgt w ∈ ran(XΣ ) und im Fall v = XΣ u durch Einsetzen w = PXΣ XΣ u = v , so dass PXΣ eine Projektion auf ran(XΣ ) ist. Da PXΣ selbstadjungiert (symmetrisch) ist, handelt es sich um die Orthogonalprojektion ΠXΣ : Setze ∀u ∈ Rn : hu − PXΣ u, wi = hu, wi − hu, PXΣ wi = 0. β̂ = argminb |Σ−1/2 (Y − Xb)|2 folgt, dass β̂ die −1/2 Y durch X b liefert. Diese ist durch ste Approximation im R von Σ Σ −1/2 Y = X β̂ bestimmt. Es folgt Orthogonalprojektionseigenschaft ΠXΣ Σ Σ Aus der Eigenschaft n XΣ> ΠXΣ Σ−1/2 Y = (XΣ> XΣ )β̂ ⇒ (X > Σ−1 X)−1 X > Σ−1 Y = β̂. 3 bedie 1.6 Satz. Im gewöhnlichen linearen Modell mit Fehlerniveau folgenden Aussagen: σ>0 gelten die (a) Der Kleinste-Quadrate-Schätzer β̂ = (X > X)−1 X > Y ist erwartungstreuer Schätzer von β (d.h. E[β̂] = β ). (b) Satz von Gauÿ-Markov: ist der reelle Parameter γ = hβ, vi für ein v ∈ Rp zu schätzen, so ist γ̂ = hβ̂, vi ein (in den Daten Y ) linearer erwartungstreuer Schätzer, der unter allen linearen erwartungstreuen Schätzern minimale Varianz besitzt, nämlich Var(γ̂) = σ2 |X(X > X)−1 v|2 . (c) Bezeichnet R := Y − X β̂ den Vektor der Residuen, so ist die geeignet normalisierte Stichprobenvarianz σ̂ 2 := |R|2 |Y − X β̂|2 = n−p n−p ein erwartungstreuer Schätzer von σ2 . Beweis. (a) Aus der Linearität des Erwartungswerts und E[ε] = 0 folgt E[β̂] = E[(X > X)−1 X > (Xβ + ε)] = β + 0 = β. (b) Aus (a) folgt, dass γ̂ alle γ̃ = hY, wi γ . Dies impliziert für linear und erwartungstreu ist. Sei nun ein beliebiger linearer erwartungstreuer Schätzer von β ∈ Rp E[hY, wi] = γ ⇒ hXβ, wi = hβ, vi ⇒ hX > w − v, βi = 0 ⇒ X > w = v. Nach Pythagoras erhalten wir Var(γ̃) = E[hε, wi2 ] = σ 2 |w|2 = σ 2 (|ΠX w|2 + |(En − ΠX )w|2 ) und somit Var(γ̃) > σ 2 |ΠX w|2 = σ 2 |X(X > X)−1 v|2 = Var(γ̂). E[|Y − X β̂|2 ] = E[|Y − ΠX Y |2 ] = E[|(En − ΠX )ε|2 ]. Ist nun e1 , . . . , en−p eine Orthonormalbasis vom (n − p)-dimensionalen Bild ran(En − ΠX ) ⊆ Rn , so folgt (c) Einsetzen zeigt E[|(En − ΠX )ε|2 ] = n−p X E[hε, ei i2 ] = σ 2 (n − p), i=1 was die Behauptung impliziert. Bemerkung. (a) Man sagt, dass der Schätzer γ̂ im Satz von Gauÿ-Markov bester linearer erwartungstreuer Schätzer (BLUE: best linear unbiased estimator) ist. 4 (b) Oft interessiert auch der Vorhersagefehler |X β̂ − Xβ|2 (d.h. bei der Regression die quadrierte Dierenz der vorhergesagten und wahren Werte an den Designpunkten), so prüft man leicht nach: E[|X β̂ − Xβ|2 ] = E[|ΠX ε|2 ] = σ 2 p. Insbesondere wächst dieser Fehler linear in der Dimension p des Parameterraums. (c) Eine entsprechende Aussage des Satzes von Gauÿ-Markov gilt auch im allgemeinen linearen Modell (Übung!). (d) Falls X nicht vollen Rang hat gibt es unendlich viele Kleinste-QuadrateSchätzer. Jeder ist im gewöhnlichen Fall von der Form β̂ = (X > X)− X > Y mit (X > X)− verallgemeinerte Inverse von X > X . Im Falle der einfaktoriellen Varianzanalyse mit Yij = µ + αi + ij und β = (µ, α1 , . . . , αp ) ∈ Rp+1 hat X nicht vollen Rang. 1.3 Inferenz unter Normalverteilungsannahme 1.7 Beispiel. (εi ) ∼ N (0, σ 2 En ) gemeinsam normalverteilt, 2 > −1 ) und γ̂ ∼ N (γ, σ 2 v > (X > X)−1 v). Ist weiterhin so gilt β̂ ∼ N (β, σ (X X) σ > 0 bekannt, so ist ein Kondenzintervall zum Niveau 95% für γ gegeben Sind die Messfehler durch q q h i I0,95 (γ) := γ̂ − 1, 96σ v > (X > X)−1 v, γ̂ + 1, 96σ v > (X > X)−1 v . q0,975 = 1, 96 gerade das 0, 975-Quantil bzw. 0, 025-Fraktil der Standardnormalverteilung, d.h. Φ(1, 96) ≈ 0, 975. Analog wird der zweiseitige Gauÿ-Test der Hypothese H0 : γ = γ0 gegen H1 : γ 6= γ0 zum Niveau α ∈ (0, 1) p v > (X > X)−1 v gilt mit konstruiert: H0 wird akzeptiert, falls |γ̂ − γ0 | 6 q1−α/2 σ dem (1 − α/2)-Quantil q1−α/2 von N (0, 1), sonst verworfen. Dabei ist der Wert Falls σ unbekannt ist, so ist eine Idee, einfach σ durch einen Schätzer σ̂ in obigen Formeln zu ersetzen. Allerdings wird dann das vorgegebene Niveau nur noch asymptotisch erreicht für einen konsistenten Schätzer (Slutsky-Lemma!). Im vorliegenden Fall können wir aber sogar die nicht-asymptotische Verteilung exakt bestimmen. 1.8 Denition. heitsgraden auf Die t-Verteilung (oder Student-t-Verteilung) mit (R, BR ) tn (x) = Frei- ist gegeben durch die Lebesguedichte Γ((n + 1)/2) x2 −(n+1)/2 √ 1+ , n Γ(n/2) πn Die F-Verteilung (oder Fisher-Verteilung) mit (R, BR ) n∈N x ∈ R. (m, n) ∈ N2 Freiheitsgraden auf ist gegeben durch die Lebesguedichte mm/2 nn/2 xm/2−1 1R (x), x ∈ R . B(m/2, n/2) (mx + n)(m+n)/2 + R∞ Γ(p) = 0 tp−1 e−t dt die Gamma-Funktion sowie B(p, q) = fm,n (x) = Dabei bezeichnet Γ(p)Γ(q) Γ(p+q) die Beta-Funktion. 5 1.9 Lemma. Es seien X1 , . . . , Xm , Y1 , . . . , Yn unabhängige N (0, 1)-verteilte Zufallsvariablen. Dann ist X1 Tn := q P n 1 n 2 j=1 Yj gemäÿ einer t-Verteilung mit n Freiheitsgraden sowie Fm,n := 1 Pm 2 i=1 Xi m P n 1 2 j=1 Yj n gemäÿ einer F -Verteilung mit (m, n) Freiheitsgraden verteilt. Beweis. Tn2 = F1,n gilt, so dass mittels Dichtetransformation f|Tn | (x) = fF1,n x > 0, gilt. Da Tn symmetrisch (wie −Tn ) verteilt 2 ist, folgt fTn (x) = fF1,n (x )|x|, x ∈ R, und Einsetzen zeigt die Behauptung für Tn , sofern F1,n F (1, n)-verteilt Pn Pist. m 2 2 2 2 Dafür benutze, dass X := j=1 Yj χ (n)i=1 Xi χ (m)-verteilt und Y := verteilt sind. Wegen Unabhängigkeit von X und Y gilt für z > 0 (setze w = x/y ) Z Z P(X/Y 6 z) = 1(x/y 6 z)fX (x)fY (y) dydx Z Z = 1(w 6 z) fX (wy)fY (y)y dy dw, Beachte zunächst, dass (x2 )2x, so dass sich die Dichte wie folgt ergibt (setze w = (x + 1)y ) Z fX/Y (x) = fX (xy)fY (y)y dy Z ∞ 2−(m+n)/2 = (xy)m/2−1 y n/2 e−(xy+y)/2 dy Γ(m/2)Γ(n/2) 0 Z ∞ 2−(m+n)/2 = (xw/(x + 1))m/2−1 (w/(x + 1))n/2 e−w/2 (x + 1)−1 dw Γ(m/2)Γ(n/2) 0 Γ((m + n)/2) m/2−1 = x (x + 1)−(m+n)/2 , x > 0. Γ(m/2)Γ(n/2) Dichtetransformation m m n fX/Y ( n x) ergibt damit für Fm,n = n m (X/Y ) die Dichte = fm,n (x). Bemerkung. Für n = 1 ist die t(n)-Verteilung gerade die Cauchy-Verteilung und für n → ∞ konvergiert sie schwach gegen die Standardnormalverteilung (Slutsky-Lemma!). Für jedes n ∈ N besitzt t(n) endliche Momente nur bis zur Ordnung p < n (sie ist heavy-tailed). Ähnliches gilt für die F-Verteilung, insbesondere konvergiert mF (m, n) für F (m, n)-verteilte Zufallsvariablen F (m, n) und n → ∞ gegen die χ2 (m)-Verteilung. 1.10 Satz. Im gewöhnlichen linearen Modell unter Normalverteilungsannahme εi ∼ N (0, σ 2 ) gelten folgende Kondenzaussagen für gegebenes α ∈ (0, 1) (Notation wie in Satz 1.6): 6 (a) Kondenzbereich für β : Ist qF (p,n−p);1−α das (1 − α)-Quantil der F (p, n − p)-Verteilung, so ist C := {β ∈ Rp | |X(β − β̂)|2 < pqF (p,n−p);1−α σ̂ 2 } ein Kondenzellipsoid zum Niveau 1 − α für β . (b) Kondenzbereich für γ = hβ, vi: Ist qt(n−p);1−α/2 das (1 − α/2)-Quantil der t(n − p)-Verteilung, so ist q q h i I := γ̂−σ̂ v > (X > X)−1 vqt(n−p);1−α/2 , γ̂+σ̂ v > (X > X)−1 vqt(n−p);1−α/2 ein Kondenzintervall zum Niveau 1 − α für γ . Beweis des Satzes. B 1−α Allgemein müssen wir jeweils für einen Kondenzbereich für den vom wahren Parameter β abgeleiteten Parameter ϑβ zum Niveau nachweisen, dass gilt ∀β ∈ Rp : Pβ (ϑβ ∈ B) > 1 − α. Im folgenden werden wir sogar Gleichheit erhalten. (a) −2 2 X(β̂ − β) = ΠX ε ist N (0, σ 2 ΠX Π> X )-verteilt und somit ist σ |X(β̂ − β)| 2 2 |Y −Π Y | |ε−Π ε| X X χ2 (p)-verteilt. Weiterhin gilt ja σ̂ 2 = = n−p n−p , so dass X(β̂ − β) und σ̂ 2 unabhängig sind, weil ΠX ε und (En − Πx )ε unabhän- gig sind (da unkorreliert und gemeinsam normalverteilt). Auÿerdem folgt, n−p 2 2 σ̂ χ (n − p)-verteilt ist. Wie in Lemma 1.9 schlieÿen wir, dass σ2 |X(β̂ − β)|2 /(pσ̂ 2 ) F (p, n − p)-verteilt ist. Damit ist C per Konstruktion dass ein entsprechender Kondenzbereich. (b) Wie in (a) sind γ̂ und σ̂ N (0, σ 2 v > (X > X)−1 v), so dass unabhängig. √ σ̂ Auÿerdem gilt γ̂ − γ ∼ t(n − p)- γ̂−γ wie in Lemma 1.9 v > (X > X)−1 v verteilt ist und die Behauptung folgt. 1.11 Korollar. Im Shiftmodell Yi = i.i.d. und µ ∈ R, σ > 0 unbekannt ist µ + εi , i = 1, . . . , n, mit εi ∼ N (0, σ2 ) I := [µ̂ − σ̂n−1/2 qt(n−1);1−α/2 , µ̂ + σ̂n−1/2 qt(n−1);1−α/2 ] P 1 Pn 2 mit µ̂ = n1 ni=1 Yi , σ̂2 = n−1 i=1 (Yi − µ̂) ein Kondenzintervall zum Irrtumsniveau α für µ. Die Hypothese H0 : µ = µ0 kann gegen die Alternative µ 6= µ0 mit dem zweiseitigen t-Test zum Niveau α getestet werden: Falls |µ̂ − µ0 | > σ̂n−1/2 qt(n−1);1−α/2 gilt, lehne die Hypothese H0 ab, sonst akzeptiere sie. Beweis. Das Kondenzintervall folgt direkt aus Teil (b) des vorigen Satzes mit dem linearen Modell, wo p = 1, X = (1, . . . , 1)> γ = β , v = 1 ist. Der I , weil diese insbesondere µ0 ∈ / I ⇐⇒ |µ̂ − µ0 | > σ̂n−1/2 qt(n−1);1−α/2 und Test folgt aus der Aussage für das Kondenzintervall Pµ0 (µ0 ∈ / I) 6 α impliziert und gilt. 7 1.12 Korollar. Im Modell der einfaktoriellen Varianzanalyse Yij = µ + αi + ij , j = 1, . . . , ni , i = 1, . . . , p, ∼ N (0, σ 2 ) dass unter H0 : α1 = . . . = gilt unter Normalverteilungsannahme ij iid αp = 0 Pp ni (Ȳi• − Ȳ•• )2 (n − p) F̂ = Pp i=1Pni ∼ Fp−1,n−p . 2 j=1 (Yij − Ȳi• ) (p − 1) i=1 Also lehnt man H0 ab falls F̂ > qF (p−1,n−p);1−α . Bemerkung. Es gibt sogenannte verallgemeinerte lineare Modelle (GLM: Generalized Linear Models), in denen statt der Normalverteilungsannahme eine Verteilung aus den exponentiellen Familien zugrunde gelegt wird. Ein wichtiges Beispiel ist die logistische Regression, wo Binomial-verteilte Yi ∼ Bin(ni , pi ) beobachtet werden mit der sogenannten logit-Linkfunktion log(pi /(1−pi ))i=1,...,n = Xβ , so dass Yi /ni = pi + εi = 1 + εi , 1 + exp(−(Xβ)i ) E[εi ] = 0. Desweiteren gibt es nicht-lineare Regressionsmodelle, z.B. im Michaelis-MentonModell. 2 Grundprinzipien statistischer Entscheidungstheorie 2.1 Formalisierung eines statistischen Problems Als Grundlage einer Entscheidung dient die Realisierung eines Zufallsexperimentes, die beobachteten Daten. Das Zufallsexperiment wird durch eine Zufallsvariable X mit Werten im Messraum (X, F ) beschrieben. Die Verteilung von X ist P = (Pϑ )ϑ∈Θ angenommen. Der unbekannt und wird zugehörig zu der Familie Parameter ϑ kann endlich- (parametrische) oder unendlich-dimensional (nicht- parametrische Statistik) sein, sowie Störparameter (nuisance) beinhalten, welche für die Entscheidung nicht von Bedeutung sind. Ein bereits vertrautes Bei- iid Θ = {(µ, σ 2R)} = R × R+ , für (X1 , . . . , Xn ) ∼ N (µ, σ 2 ). Ebenso kann Θ = {(µ, F ), µ ∈ R, xF (dx) = 0} sein ohne spezielle Verteilungsannahme. spiel ist Während ein nichtparametrischer Ansatz verteilungsfrei ist, also ohne starke Verteilungsannahme auskommt, erlaubt die parametrische Statistik starke Aussagen über die Konstruktion und Eigenschaften von Lösungen statistischer Entscheidungsprobleme (z.B. von Schätzern). Entscheidungen sind Elemente eines Aktionsraums A, z.B. A = {0, 1} bei einem Hypothesentest ohne Rando- misierung oder bei einer Klassikation (z.B. SPAM-Filter), oder A=R bei der Schätzung eines reellen Parameters. 2.1 Denition. (X, F ) versehen mit einer Familie (Pϑ )ϑ∈Θ von Θ 6= ∅ beliebige Parametermenge, heiÿt statistisches Experiment oder statistisches Modell. X heiÿt Stichprobenraum. Jede (F , S )messbare Funktion Y : X → S mit Werten in (S, S ) heiÿt Beobachtung oder Ein Messraum Wahrscheinlichkeitsmaÿen, 8 Statistik und induziert das statistische Modell (S, S , (PYϑ )ϑ∈Θ ). Y1 , . . . , Yn für jedes Pϑ unabhängig und Y1 , . . . , Yn eine mathematische Stichprobe. achtungen man 2.2 Denition. Es sei (X, F , (Pϑ )ϑ∈Θ ) Sind die Beob- identisch verteilt, so nennt ein statistisches Experiment. Eine ρ : X → A, wobei der Messraum (A, A ) der sogenannte Aktionsraum ist. Jede Funktion l : Θ × A → [0, ∞) =: R+ , die messbar im zweiten Argument ist, heiÿt Verlustfunktion. Das Risiko einer Entscheidungsregel ρ bei Vorliegen des Parameters ϑ ∈ Θ ist Z R(ϑ, ρ) := Eϑ [l(ϑ, ρ)] = l(ϑ, ρ(x)) Pϑ (dx). Entscheidungsregel ist eine messbare Abbildung X 2.3 Beispiele. (a) Beim gewöhnlichen linearen Modell wähle als Parameterraum Rp × R+ mit Parametern lichkeitsraum (Ω, G , P), 0, E[εi εj ] = δi,j ϑ = (β, σ) ∈ Θ. Θ = Nun wähle einen Wahrschein- auf dem der Zufallsvektor ε : Ω → Rn E[ε] = X = Rn = Xβ + σε, so mit deniert ist. Versieht man den Stichprobenraum F = BRn und setzt Yϑ = Yβ,σ (Pϑ )ϑ∈Θ der Zufallsvariablen (Yϑ )ϑ∈Θ mit seiner Borel-σ -Algebra bilden die Verteilungen die Familie von Wahrscheinlichkeitsmaÿen auf dem Stichprobenraum. Um den Kleinste-Quadrate-Schätzer β̂ als Entscheidungsregel zu interpre- A = Rp und beispielsweise die quadratische Verlustfunktion l(ϑ, a) = l((β, σ), a) = |β − a|2 . Beim Verlust ist σ irrelevant; da aber die Verteilung Pϑ von σ tieren und seine Güte zu messen, betrachtet man den Aktionsraum abhängt, spricht man von einem Störparameter. Beachte, dass bei obiger Modellierung eine feste Verteilung von ε (z.B. Normalverteilung) angenommen wird. Ist realistischerweise auch (Pϑ ) die RFamiy P(dy) ∈ ran(X), (y − die Art der Verteilung unbekannt, sollte man statt lie P = {P W-Maÿ auf F | EP [Y ] := EP [Y ])(y − EP [Y ])> P(dy) = σ 2 En } betrachten. R In dieser Betrachtungs- weise bleibt von einem unendlich-dimensionalen Parameterraum maximal ein (p + 1)-dimensionaler interessierender Parameter ϑ übrig (beachte β = X −1 (EP [Y ])). (b) Bei einem Hypothesentest der Form H1 : ϑ ∈ Θ{0 H0 : ϑ ∈ Θ0 gegen die Alternative A = {0, 1}. Als Verlustfunktion ohne Randomisierung ist betrachtet man üblicherweise `0 R(ϑ, ϕ) = `1 0 ϑ ∈ Θ0 , ϕ = 1, Fehler ϑ ∈ Θ{0 , ϕ = 0, Fehler sonst . 1.Art, 2.Art, Hierbei wird die Fehlerwahrscheinlichkeit erster Art mit Art mit `1 gewichtet mit Konstanten `0 , die zweiter `0 , `1 > 0. Bsp.: Für einen Test auf Wirksamkeit eines neuen Medikaments werden 100 Versuchspersonen mit diesem behandelt. Unter der (vereinfachenden) Annahme, dass alle Personen identisch und unabhängig auf 9 das Medikament reagieren, wird in Abhängigkeit von der Anzahl N der erfolgreichen Behandlungen entschieden, ob die Erfolgsquote höher ist als diejenige einer klassischen Behandlung. Als Stichprobenraum wäh- X = {0, 1, . . . , 100} mit der Potenzmenge als σ -Algebra und Pp = Bin(100, p), p ∈ Θ = [0, 1], als mögliche Verteilungen. Die Nullhypothese ist H0 : p 6 p0 für den unbekannten Parameter p. Als Aktionsraum dient A = {0, 1} (H0 annehmen bzw. verwerfen), und wir wählen den Verlust l(p, a) = `0 1{p6p0 , ϕ=1} + `1 1{p>p0 , ϕ=0} . Dies führt auf das Risiko le ( `0 Pp (ϕ = 1), p 6 p0 R(p, ϕ) = . `1 Pp (ϕ = 0), p > p0 Gute Verfahren sollen möglichst kleines Risiko aufweisen. Da ϑ ∈ Θ ver- schiedene Werte annehmen kann, ist es möglich dass R(ϑ1 , ρ1 ) < R(ϑ1 , ρ2 ), für ϑ1 6= ϑ2 jedoch verschiedene Parameter aus R(ϑ2 , ρ1 ) > R(ϑ2 , ρ2 ) Θ. Da ϑ ∈ Θ unbekannt ist die Auswahl eines besten Verfahrens allgemein ein schwieriges Problem. In Beispiel 2.3 (b) ist das Risiko direkt durch die Fehlerwahrscheinlichkeiten bestimmt. Man kann Eϑ [ϕ] vergröÿern auf Kosten des Niveaus. Der einseitige Test hat bei H0 : ϑ ∈ Θ0 = ϑ0 gegen H1 : ϑ > ϑ0 eine gröÿerer Güte auf {ϑ > ϑ0 } als der zweiseitige Test, jedoch eine geringere auf {ϑ < ϑ0 }. Verschiedene die Güte des Tests Lösungen des Konikts zwischen dem Risiko auf unterschiedlichen Teilmengen von Θ führen zu unterschiedlichen Optimalitätsbegrien. Im folgenden Kapitel behandeln wird die wichtigsten. 2.2 Optimale statistische Entscheidungen 2.2.1 Zulässigkeit 2.4 Denition. Die Entscheidungsregel ρ heiÿt besser als eine Entscheidungs- ρ0 , falls R(ϑ, ρ) 6 R(ϑ, ρ0 ) für alle ϑ ∈ Θ gilt und falls ein ϑ0 ∈ Θ mit R(ϑ0 , ρ) < R(ϑ0 , ρ0 ) existiert. Eine Entscheidungsregel heiÿt zulässig, wenn es regel keine bessere Entscheidungsregel gibt. Bemerkung. Häug wird für diese Denition die Menge der betrachteten Entscheidungsregeln eingeschränkt. So ist der Kleinste-Quadrate-Schätzer im linearen Modell nach dem Satz 1.6 von Gauÿ-Markov zulässig unter quadratischem Verlust in der Klasse der erwartungstreuen und linearen Schätzern. 2.5 Beispiel. Y1 , . . . , Yn eine N (ϑ, 1)-verteilte mathematische Stichprobe mit ϑ ∈ R. Betrachte ϑ̂1 = Ȳ , ϑ̂2 = Ȳ + 0.5, ϑ̂3 = 6 unter quadratischem 2 Verlust l(ϑ, a) = (ϑ − a) . Wegen R(ϑ, ϑ̂1 ) = 1/n, R(ϑ, ϑ̂2 ) = 0.25 + 1/n ist ϑ̂1 besser als ϑ̂2 , allerdings ist weder ϑ̂1 besser als ϑ̂3 noch umgekehrt. In der Tat ist ϑ̂3 zulässig, weil R(ϑ, ϑ̂3 ) = 0 für ϑ = 6 gilt und jeder Schätzer mit dieser Eigenschaft Lebesgue-fast überall mit ϑ̂3 übereinstimmt. Später werden wir sehen, dass auch ϑ̂1 zulässig ist. Es sei 10 Wie das vorangehende Beispiel aufzeigt gibt es im allgemeinen viele zulässige Verfahren, darunter auch triviale oder unbrauchbare. Auÿerdem wird sich zeigen dass manche Standardmethoden nicht zulässig sind. Trotzdem ist die Zulässigkeit ein nützlicher Begri zur Einordnung statistischer Lösungen von Entscheidungsproblemen. 2.2.2 Minimax-Ansatz 2.6 Denition. Eine Entscheidungsregel ρ heiÿt minimax, falls sup R(ϑ, ρ) = inf0 sup R(ϑ, ρ0 ), ρ ϑ∈Θ ϑ∈Θ wobei sich das Inmum über alle Entscheidungsregeln ρ0 erstreckt. Nach dem Minimax-Prinzip wird also das Risiko im Worst Case Falle minimiert (pessimistischer Standpunkt). 2.7 Beispiel. X ∼ N (ϑ, 1) mit A = R, Θ = R und ρk (X) = kX, k ∈ R+ , mit quadratischer Betrachte eine Stichprobe die Klasse von Entscheidungsregeln Verlustfunktion, so dass R(ϑ, ρk ) = E (ϑ − kX)2 = ϑ2 (1 − k)2 + k 2 . Für k = 1 ist R(ϑ, ρ1 ) = 1 konstant und ρ1 besser als ρk für alle k > 1. Alle ρk , 0 6 k 6 1 sind zulässig, insbesondere ist R(0, ρ0 ) = 0. Vergleiche hierzu Abbildung 1. Die Entscheidungsregel ρ1 ist minimax, da ( 1 ,k = 1 sup R(ϑ, ρk ) = . ∞ , k 6= 1 ϑ∈R 2.2.3 Bayes-Ansatz 2.8 Denition. Der Parameterraum Θ trage die σ -Algebra FΘ , die Verlustϑ 7→ Pϑ (B) sei messbar für alle B ∈ F . Die a-priori-Verteilung π des Parameters ϑ ist gegeben durch ein Wahrscheinlichkeitsmaÿ auf (Θ, FΘ ) . Das zu π assoziierte Bayesrisiko einer Entscheidungsregel ρ ist Z Z Z Rπ (ρ) := Eπ [R(ϑ, ρ)] = R(ϑ, ρ) π(dϑ) = l(ϑ, ρ(x)) Pϑ (dx) π(dϑ). funktion l sei produktmessbar und Θ ρ Θ heiÿt Bayesregel oder Bayes-optimal (bezüglich X π ), falls Rπ (ρ) = inf0 Rπ (ρ0 ) ρ gilt, wobei sich das Inmum über alle Entscheidungsregeln 11 ρ0 erstreckt. Abbildung 1: Risiko R(ϑ, ρk ) gegen ϑ für verschiedene Werte von k in Beispiel 2.7. Bemerkung. Während eine Minimaxregel den maximal zu erwartenden Verlust minimiert, kann das Bayesrisiko als ein (mittels π) gewichtetes Mittel der zu erwartenden Verluste angesehen werden. Alternativ wird π als die subjektive Einschätzung der Verteilung des zugrundeliegenden Parameters interpretiert. Daher wird das Bayesrisiko auch als insgesamt zu erwartender Verlust in folgendem Sinne verstanden: Deniere Ω := X × Θ und P̃ auf (Ω, F ⊗ FΘ ) gemäÿ P̃(dx, dϑ) = Pϑ (dx)π(dϑ) (gemeinsame Verteilung von Beobachtung und Parameter). Bezeichne mit X und ϑ die Koordinatenprojektionen von Ω auf X bzw. Θ. Dann gilt Rπ (ρ) = EP̃ [l(ϑ, ρ(X))]. 2.3 Bayes-Methoden 2.9 Denition. Es sei X eine (S, S )-wertige Zufallsvariable auf (Ω, F , P). Eine Abbildung K : S × F → [0, 1] X , falls heiÿt reguläre bedingte Wahrscheinlichkeit oder Markovkern bezüglich (a) A 7→ K(x, A) ist Wahrscheinlichkeitsmaÿ für alle (b) x 7→ K(x, A) ist messbar für alle (c) K(X, A) = P(A | X) := E[1A | X] P-f.s. x ∈ S; A ∈ F; für alle A ∈ F. 2.10 Satz. Es sei (Ω, d) ein vollständiger, separabler (= polnischer) Raum mit Metrik d und Borel-σ-Algebra F . Für jede Zufallsvariable X auf (Ω, F , P) existiert eine reguläre bedingte Wahrscheinlichkeit K bezüglich X . K ist P-f.s. eindeutig bestimmt, d.h. für eine zweite solche reguläre bedingte Wahrscheinlichkeit K 0 gilt P(∀A ∈ F : K(X, A) = K 0 (X, A)) = 1. Beweis. Siehe z.B. Gänssler, Stute (1977): Wahrscheinlichkeitstheorie, Springer. 12 2.11 Denition. scheinlichkeit ϑ Die Verteilung von P̃(• | X = x) von P̃ X = x. unter der regulären bedingten Wahr- heiÿt a-posteriori-Verteilung des Parameters gegeben die Beobachtung Aus der Wahrscheinlichkeitstheorie hat man folgenden grundlegenden Satz über bedingte Wahrscheinlichkeiten (vgl. Witting, S. 321). 2.12 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell sowie π eine a-prioriVerteilung auf (Θ, FΘ ), so dass Pϑ µ für alle ϑ ∈ Θ sowie π ν gilt mit Maÿen µ und ν und Dichten fϑ bzw. g. Ist fϑ : X × Θ → R+ (F ⊗ FΘ )messbar, so besitzt die a-posteriori-Verteilung Pϑ | X=x des Parameters eine ν Dichte, nämlich fϑ | X=x (ϑ) = R 2.13 Beispiel. Für fϑ (x)g(ϑ) 0 0 0 Θ fϑ (x)g(ϑ )ν(dϑ ) einen (Bayes-Formel). Bayestest (oder auch ein Bayes- Θ = {0, 1}, A = {0, 1}, l(ϑ, a) = |ϑ − a| (0-1-Verlust) und betrachte eine a-priori-Verteilung π mit π({0}) =: π0 , π({1}) =: π1 . Die Wahrscheinlichkeitsmaÿe P0 , P1 auf (X, F ) mögen die Dichten p0 , p1 bezüglich einem Maÿ µ besitzen (z.B. µ = P0 + P1 ). Nach der Bayes-Formel (mit Zählmaÿ ν ) erhalten wir die a-posteriori-Verteilung Klassikationsproblem) setze P̃(ϑ = i | X = x) = πi pi (x) , π0 p0 (x) + π1 p1 (x) i = 0, 1 (P̃ X -f.ü.) 2.14 Satz. Eine Regel ρ ist Bayes-optimal, falls gilt ρ(X) = argmina∈A EP̃ [l(ϑ, a) | X] P̃-f.s., d.h. EP̃ [l(ϑ, ρ(x)) | X = x] 6 EP̃ [l(ϑ, a) | X = x] für alle a ∈ A und P̃ -fast alle x ∈ X. X Beweis. Für eine beliebige Entscheidungsregel ρ0 gilt Rπ (ρ0 ) = EP̃ [EP̃ [l(ϑ, ρ0 (X)) | X]] > EP̃ [EP̃ [l(ϑ, ρ(X)) | X]] = Rπ (ρ). 2.15 Korollar. Für Θ ⊆ R, A = R und quadratisches Risiko (d.h. l(ϑ, a) = (a − ϑ)2 ) ist die bedingte Erwartung ϑ̂π := EP̃ [ϑ | X] Bayes-optimaler Schätzer von ϑ bezüglich der a-priori-Verteilung π. Für den Absolutbetrag l(ϑ, a) = |ϑ−a| hingegen ist jeder a-posteriori-Median ϑ̂π , d.h. P̃(ϑ 6 ϑ̂π | X) > 1/2 und P̃(ϑ > ϑ̂π | X) > 1/2, Bayes-optimaler Schätzer (Annahme: a-posteriori-Verteilung existiert). Beweis. Dies folgt aus der L2 -Projektionseigenschaft 1 bzw. der L -Minimierung des Medians. 13 der bedingten Erwartung 2.16 Beispiel. (Fortsetzung) Nach Satz 2.14 nden wir einen Bayestest ϕ(x) als Minimalstelle von a 7→ EP̃ [l(ϑ, a) | X = x] = π0 p0 (x) π1 p1 (x) a+ (1 − a). π0 p0 (x) + π1 p1 (x) π0 p0 (x) + π1 p1 (x) Daher ist ein Bayestest (Bayesklassizierer) gegeben durch 0, ϕ(x) = 1, π0 p0 (x) > π1 p1 (x) π1 p1 (x) > π0 p0 (x) beliebig, π0 p0 (x) = π1 p1 (x) und wir entscheiden uns für dasjenige ϑ ∈ {0, 1}, dessen a-posteriori- Wahrscheinlichkeit am grössten ist ( MAP-estimator: maximum a posteriori estimator). Für später sei bereits auf die Neyman-Pearson-Struktur von Abhängigkeit von p1 (x)/p0 (x) ϕ in hingewiesen. 2.17 Satz. Es liege die Situation aus der vorangegangenen Denition vor. (a) Für jede Entscheidungsregel ρ gilt sup R(ϑ, ρ) = sup Rπ (ρ), π ϑ∈Θ wobei sich das zweite Supremum über alle a-priori-Verteilungen π erstreckt. Insbesondere ist das Risiko einer Bayesregel stets kleiner oder gleich dem Minimaxrisiko. (b) Für eine Minimaxregel ρ gilt supπ Rπ (ρ) = inf ρ0 supπ Rπ (ρ0 ). Beweis. (a) Natürlich gilt Rπ (ρ) = R Θ R(ϑ, ρ) π(dϑ) 6 supϑ∈Θ R(ϑ, ρ). Durch Betrachδϑ folgt daher die Behauptung. tung der a-priori-Verteilungen (b) Nach (a) muss supϑ∈Θ R(ϑ, ρ) = inf ρ0 supϑ∈Θ R(ϑ, ρ0 ) gezeigt werden, was gerade die Minimaxeigenschaft ist. Bemerkung. Man kann diesen Satz insbesondere dazu verwenden, untere Schranken für das Minimax-Risiko durch das Risiko von Bayesschätzern abzuschätzen. 2.18 Satz. Für jede Entscheidungsregel ρ gilt: (a) Ist ρ minimax und eindeutig in dem Sinn, dass jede andere Minimax-Regel die gleiche Risikofunktion besitzt, so ist ρ zulässig. (b) Ist ρ zulässig mit konstanter Risikofunktion, so ist ρ minimax. (c) Ist ρ eine Bayesregel (bzgl. π) und eindeutig in dem Sinn, dass jede andere Bayesregel (bzgl. π) die gleiche Risikofunktion besitzt, so ist ρ zulässig. 14 (d) Die Parametermenge Θ bilde einen metrischen Raum mit Borel-σ-Algebra FΘ . Ist ρ eine Bayesregel (bzgl. π ), so ist ρ zulässig, falls (i) Rπ (ρ) < ∞; (ii) für jede nichtleere oene Menge U in Θ gilt π(U ) > 0; (iii) für jede Regel ρ0 mit Rπ (ρ0 ) 6 Rπ (ρ) ist ϑ 7→ R(ϑ, ρ0 ) stetig. Beweis. Übung! 2.19 Satz. Es sei X1 , . . . , Xn eine N (µ, Ed )-verteilte d-dimensionale mathematische Stichprobe mit µ ∈ RdPunbekannt. Bezüglich quadratischem Risiko ist das arithmetische Mittel X̄ = n1 ni=1 Xi minimax als Schätzer von µ. Beweis. π = N (0, σ 2 Ed ) für µ. Dann gilt mit η1 , . . . , ηn ∼ N (0, Ed ) i.i.d., unabhängig von µ, die Darstellung Xi = µ + ηi , i = 1, . . . , n. Als lineare Abbildung von (µ, η1 , . . . , ηn ) ist (µ, X1 , . . . , Xn ) gemeinsam normalverteilt und die bedingte Erwartung ist linear-an: E [µj | X1 , . . . , Xn ] = P̃ Pn > X +β , j = 1, . . . , d. Aus Symmetrie- und Unabhängigkeitsgründen gilt α i j i=1 ij αij = αej = (0, . . . , 0, α, 0, . . . , 0)> für ein festes α ∈ RP , und E[µj ] = 0 impliziert βj = 0. Damit liefert die Orthogonalität E[Xi,j (µj − α nl=1 Xl,j )] = 0 den Wert n α = n+σ1 −2 . Der Bayes-optimale Schätzer ist daher µ̂σ,n = n+σ −2 X (vektorwerBetrachte die a-priori-Verteilung tige bedingte Erwartung), seine Risikofunktion ist R(µ, µ̂σ,n ) = nd+|µ|2 σ −4 . (n+σ −2 )2 Somit können wir das Minimax-Risiko von unten abschätzen: inf sup R(µ, ρ) = inf sup Rπ (ρ) ρ ρ µ π > inf sup RN (0,σ2 Ed ) (ρ) ρ σ>0 > sup inf RN (0,σ2 Ed ) (ρ) σ>0 ρ = sup EP̃ h nd + |µ|2 σ −4 i (n + σ −2 )2 d nd + dσ −2 = sup = , −2 )2 (n + σ n σ>0 σ>0 wie behauptet, da R(µ, X̄) = d n. 2.20 Satz. Es sei X1 , . . . , Xn eine N (µ, 1)-verteilte eindimensionale mathematische Stichprobe mit µ ∈ R P unbekannt. Bezüglich quadratischem Risiko ist das arithmetische Mittel X̄ = n1 ni=1 Xi zulässig als Schätzer von µ. Beweis. Gäbe es einen Schätzer µ̂ mit R(µ, µ̂) 6 1 n und R(µ0 , µ̂) < µ 7→ R(µ, µ̂) 1 n für ein µ0 ∈ R, so wäre wegen Stetigkeit der Risikofunktion sogar R(µ, µ̂) 6 n1 − ε für alle |µ − µ0 | < δ mit ε, δ > 0 geeignet. Damit hätte µ̂ R µ0 +δ 1 1 ein Bayesrisiko RN (0,σ 2 ) (µ̂) 6 n − ε µ0 −δ ϕ0,σ 2 . Also wäre n − RN (0,σ 2 ) grö−1 für σ → ∞, während für den Bayesschätzer ÿer als ein Vielfaches von σ 1 σ −2 −2 ist. Dies widerspricht der n − Rσ (µ̂σ,n ) = n(n+σ −2 ) (s.o.) von der Ordnung σ Optimalität des Bayesschätzers bei einer hinreichend groÿen Wahl von σ . Also ist X̄ zulässig. 15 Bemerkung. Liegt eine andere Verteilung mit Erwartungswert µ und Varianz eins vor als die Normalverteilung, so ist X̄ weder zulässig noch minimax (sofern n > 3), vergleiche Lehmann/Casella, Seite 153. Für d = 2 ist X̄ weiterhin zulässig unter Normalverteilungsannahme, allerdings gilt das für d > 3 nicht mehr: Stein-Phänomen s.u. 2.21 Denition. Eine Verteilung π auf (Θ, FΘ ) heiÿt ungünstigste a-priori-Verteilung zu einer gegebenen Verlustfunktion, falls inf Rπ (ρ) = sup inf Rπ0 (ρ). ρ ρ π0 2.22 Satz. Es sei eine a-priori-Verteilung π mit zugehöriger Bayesregel ρπ gegeben. Dann ist die Eigenschaft Rπ (ρπ ) = supϑ∈Θ R(ϑ, ρπ ) äquivalent zu folgender Sattelpunktseigenschaft ∀π 0 ∀ρ0 : Rπ0 (ρπ ) 6 Rπ (ρπ ) 6 Rπ (ρ0 ). Aus jeder dieser Eigenschaften folgt, dass ρπ minimax und π ungünstigste apriori-Verteilung ist. Beweis. Wegen supϑ R(ϑ, ρπ ) = supπ 0 Rπ 0 (ρπ ) folgt aus der SattelpunktseigenRπ (ρπ ) > supϑ R(ϑ, ρπ ). Da aus dem gleichen Grund stets '6' folgt, gilt sogar Rπ (ρπ ) = supϑ R(ϑ, ρπ ). Andererseits bedeutet die Eigenschaft von ρπ , Bayesschätzer zu sein, gerade 0 0 dass Rπ (ρπ ) 6 Rπ (ρ ) für alle ρ gilt. Mit Rπ (ρπ ) = supϑ∈Θ R(ϑ, ρπ ) schlieÿen schaft wir dann auch Z R(ϑ, ρπ ) π 0 (dϑ) 6 Rπ0 (ρπ ) = Z Θ Rπ (ρπ ) π 0 (dϑ) = Rπ (ρπ ). Θ Aus der Sattelpunktseigenschaft folgt direkt die Minimaxeigenschaft: sup R(ϑ, ρπ ) = sup Rπ0 (ρπ ) = inf0 Rπ (ρ0 ) 6 inf0 sup R(ϑ, ρ0 ). ρ π0 ϑ Analog erhalten wir ρ ϑ inf ρ0 Rπ (ρ0 ) = supπ0 Rπ0 (ρπ ) > supπ0 inf ρ Rπ0 (ρ), so dass π ungünstigste a-priori-Verteilung ist. 2.23 Beispiel. Es werde X ∼ Bin(n, p) mit n > 1 bekannt und p ∈ [0, 1] p̂a,b von p unter quap ∼ B(a, b), wobei B(a, b) die Beta-Verteilung mit Parametern a, b > 0 auf [0, 1] bezeichnet. Die a-posterioriVerteilung berechnet sich zu p ∼ B(a + X, b + n − X) und der Bayesa+X 2 schätzer als p̂a,b = a+b+n (Übung!). Als Risiko ergibt sich Ep [(p̂a,b − p) ] = √ √ (a−ap−bp)2 +np(1−p) ∗ ∗ . Im Fall a = b = n/2 erhält man das Risiko (2 n + 2)−2 (a+b+n)2 unbekannt beobachtet. Gesucht wird ein Bayesschätzer dratischem Risiko für die a-priori-Verteilung für p̂a∗ ,b∗ = √ X+ n/2 √ n+ n = X n − X− n √ 2 (unabhängig von n( n+1) p!), woraus die Sattel- punktseigenschaft folgt: ∀π ∀p̂ : Rπ (p̂a∗ ,b∗ ) 6 RB(a∗ ,b∗ ) (p̂a∗ ,b∗ ) 6 RB(a∗ ,b∗ ) (p̂). 16 B(a∗ , b∗ ) ungünstigste a-priori-Verteilung und p̂a∗ ,b∗ MinimaxSchätzer von p. Insbesondere ist der natürliche Schätzer p̂ = X/n mit Ep [(p̂ − p)2 ] = p(1 − p)/n nicht minimax (er ist jedoch zulässig). Damit ist Bemerkung. Erhalten wir bei Wahl einer Klasse von a-priori-Verteilungen für ein statistisches Modell dieselbe Klasse (i.A. mit anderen Parametern) als aposteriori-Verteilungen zurück, so nennt man die entsprechenden Verteilungsklassen konjugiert. An den Beispielen sehen wir, dass die Beta-Verteilungen zur Binomialverteilung konjugiert sind und die Normalverteilungen zu den Normalverteilungen (genauer müsste man spezizieren, dass für unbekannten Mittelwert in der Normalverteilung a-priori-Normalverteilungen konjugiert sind). Konjugierte Verteilungen sind die Ausnahme, nicht die Regel, und für komplexere Modelle werden häug computer-intensive Methoden wie MCMC (Markov Chain Monte Carlo) verwendet, um die a-posteriori-Verteilung zu berechnen (Problem: i.A. hochdimensionale Integration). 2.4 Das Stein-Phänomen Wir betrachten folgendes grundlegendes Problem: Anhand einer mathemati- X1 , . . . , Xn ∼ N (µ, Ed ) im Rd soll µ ∈ Rd möglichst gut 2 quadratischem Verlust l(µ, µ̂) = |µ̂ − µ| geschätzt werden. Intuitiv schen Stichprobe bezüglich wegen Unabhängigkeit der Koordinaten ist das (koordinatenweise) arithmetische Mittel X̄ . Ein anderer, sogenannter empirischer Bayesansatz, beruht auf µ ∼ N (0, σ 2 Ed ). In den zugehörigen Bayes2 allerdings statt σ die Schätzung der Familie der a-priori-Verteilungen schätzern setzen wir dann σ̂ 2 = |X̄|2 −1 d (erwartungstreu wegen ein und erhalten µ̂ = Xi ∼ N (0, (σ 2 + 1)Ed )) n d X̄. X̄ = 1 − n + σ̂ −2 n|X̄|2 Der Ansatz lässt vermuten, dass µ̂ kleineres Risiko hat als klein ist. Überraschenderweise gilt für Dimension als X̄ . d>3 X̄ , wann immer sogar, dass µ̂ |µ| besser ist Das folgende Steinsche Lemma ist der Schlüssel für den Beweis. 2.24 Lemma (Stein). Es sei f : Rd → R eine Funktion, die Lebesgue-f.ü. absolut stetig in jeder Koordinate ist. Dann gilt für Y ∼ N (µ, σ2 Ed ) mit µ ∈ Rd , σ > 0, E[(µ − Y )f (Y )] = −σ 2 E[∇f (Y )], ∂f sofern E[| ∂y (Y )|] < ∞ für alle i = 1, . . . , d gilt. i Beweis. sowie Ohne Einschränkung der Allgemeinheit betrachte die Koordinate µ = 0, σ = 1; sonst setze f˜(y) = f (σy + µ). i=1 Es genügt dann, ∂f (Y ) | Y2 = y2 , . . . , Yd = yd ] E[Y1 f (Y ) | Y2 = y2 , . . . , Yd = yd ] = E[ ∂y 1 y2 , . . . , yd ∈ R, was Rwegen Unabhängig2 fy (u) := f (u, y2 , . . . , yd ) die Identität ufy (u)e−u /2 du = zu zeigen für Lebesgue-fast alle keit gerade für 17 2 /2 fy0 (u)e−u R du ist. Dies folgt durch partielle Integration, sofern die Randter- me verschwinden; ein geschickter Einsatz des Satzes von Fubini zeigt dies jedoch ohne weitere Voraussetzungen: Z ∞ −∞ 2 /2 fy0 (u)e−u ∞ Z du = fy0 (u) 0 Z = ∞ Z ze−z 2 /2 Z −∞ u ∞Z z Z0 ∞ Z 2 fy0 ze−z /2 dz − Z−∞ ∞ = 0 −z 2 /2 Z fy0 (u) 0 Z −∞ 0 ze = 0 dzdu − u ze−z 2 /2 dzdu −∞ 2 fy0 ze−z /2 dz z (fy (z) − fy (0)) dz fy (z)ze−z 2 /2 dz. −∞ µ̂ = g(X̄)X̄ , i |X̄ − µ|2 + |X̄ − µ̂|2 − 2hX̄ − µ, X̄ − µ̂i Betrachten wir nun allgemeine Schätzer der Form Eµ [|µ̂ − µ|2 ] = Eµ = Kann man nun auf h so gilt d + Eµ [|(1 − g(X̄))X̄|2 ] − 2 Eµ [hX̄ − µ, (1 − g(X̄))X̄i]. n f (x) = (1 − g(x))x : Rd → Rd das Steinsche Lemma koor- dinatenweise anwenden, so erhalten wir einen Ausdruck W (X̄) unabhängig von µ: d d Eµ [|µ̂ − µ| ] = + Eµ [W (X̄)], n 2 X ∂fi (x) W (x) := |f (x)| − . n ∂xi 2 Für cx , |x|2 f (x) = c > 0 2 i=1 eine Konstante, ist das Steinsche Lemma anwendbar. Wir erhalten div f (x) = d X ∂fi (x) i=1 ∂xi =c d X |x|2 − 2x2 i i=1 |x|4 = c(d − 2)|x|−2 und W (x) = c2 2c(d − 2) − <0 |x|2 n|x|2 Der minimale Wert falls c ∈ (0, 2(d − 2)n−1 ), d > 3. W (x) = −(d − 2)2 /(n2 |x|2 ) wird für c = (d − 2)/n erreicht, und wir haben folgendes bemerkenswertes Resultat bewiesen. 2.25 Satz. Es sei d > 3 und X1 , . . . , Xn eine N (µ, Ed )-verteilte mathematische Stichprobe mit µ ∈ Rd unbekannt. Dann gilt für den James-Stein-Schätzer d−2 X̄ µ̂JS := 1 − n|X̄|2 mit X̄ := 1 n Pn i=1 Xi , dass Eµ [|µ̂JS − µ|2 ] = h (d − 2)2 i d d − Eµ < = Eµ [|X̄ − µ|2 ]. n n n2 |X̄|2 18 Insbesondere ist X̄ bei quadratischem Risiko kein zulässiger Schätzer von µ im Fall d > 3! 2.26 Bemerkungen. µ 7→ Eµ [|X̄|−2 ] ist monoton fallend in |µ| und erfüllt E0 = n/(d − 2), E0 [|µ̂JS − µ|2 ] = 2/n. Daher ist µ̂JS nur für µ nahe 0, groÿe Dimensionen d und kleine Stichprobenumfänge n eine bedeutende Verbesserung von X̄ . Der James-Stein-Schätzer heiÿt auch (a) Die Abbildung [|X̄|−2 ] Shrinkage-Schätzer, weil er die Beobachtungen zur Null hinzieht (wobei auch jeder andere Wert möglich wäre). In aktuellen hochdimensionalen Problemen ndet diese Idee breite Anwendung. k -te Koordinate µ̂JS,k des James-Stein-Schätzers verwendet zur Schätµk auch die anderen Koordinaten Xi,l , l 6= k , obwohl diese unabhängig von Xi,k sind. Eine Erklärung für diese zunächst paradoxe SiPd Pd 2 2 tuation ist, dass zwar k=1 Eµ [(X̄k − µk ) ] k=1 Eµ [(µ̂JS,k − µk ) ] < gilt, jedoch im Allgemeinen eine Koordinate k0 existieren wird mit Eµ [(µ̂JS,k0 − µk0 )2 ] > Eµ [(X̄k0 − µk0 )2 ]. Man beachte auch, dass der stochastische Fehler (die Varianz) von X̄ linear mit der Dimension d wächst, (b) Die zung von so dass es sich auszahlt, diesen Fehler auf Kosten einer Verzerrung (Bias) zu verringern. (c) Selbst der James-Stein-Schätzer (sogar mit positivem Gewicht, s.u.) ist unzulässig. Die Konstruktion eines zulässigen Minimax-Schätzers ist sehr schwierig (gelöst für d > 6, vgl. Lehmann/Casella, S. 358). 2.27 Satz. Es sei d > 3 und X1 , . . . , Xn eine N (µ, Ed )-verteilte mathematische Stichprobe mit µ ∈ Rd unbekannt. Dann ist der James-Stein-Schätzer mit positivem Gewicht d−2 µ̂JS+ := 1 − X̄, n|X̄|2 + a+ := max(a, 0), bei quadratischem Risiko besser als der James-Stein-Schätzer µ̂JS . 2.5 Ergänzungen 2.28 Denition. regel ρ Zu vorgegebener Verlustfunktion l heiÿt eine Entscheidungs- unverzerrt, falls ∀ϑ, ϑ0 ∈ Θ : Eϑ [l(ϑ0 , ρ)] > Eϑ [l(ϑ, ρ)] =: R(ϑ, ρ). 2.29 Lemma. Es seien g : Θ → A ⊆ R und l(ϑ, ρ) = (ρ − g(ϑ))2 der quadratische Verlust. Dann ist eine Entscheidungsregel (ein Schätzer von g(ϑ)) ĝ : X → A mit Eϑ [ĝ 2 ] < ∞ und Eϑ [ĝ] ∈ g(Θ) für alle ϑ ∈ Θ genau dann unverzerrt, wenn sie erwartungstreu ist, d.h. Eϑ [ĝ] = g(ϑ) für alle ϑ ∈ Θ gilt. 2.30 Lemma. Es sei ˙ 1 , A = [0, 1]. Für den Verlust l(ϑ, a) = Θ = Θ0 ∪Θ l0 a1Θ0 (ϑ) + l1 (1 − a)1Θ1 (ϑ) ist eine Entscheidungsregel ρ (ein randomisierter 19 Test von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 ) genau dann unverzerrt, wenn sie zum Niveau α := l0 l+l1 1 unverfälscht ist, d.h. ∀ϑ ∈ Θ0 : Eϑ [ρ] 6 α, ∀ϑ ∈ Θ1 : Eϑ [ρ] > α. Der Beweis erfolgt als Übungsaufgabe. 2.31 Denition. Entscheidungsregel (A, A ) mit ρ(x, •) eine onsraum x gemäÿ Ein Entscheidungskern ρ : X × A → [0, 1] oder randomisierte ist ein Markovkern auf dem Akti- der Interpretation, dass bei Vorliegen der Beobachtung Entscheidung zufällig ausgewählt wird. Das zugehörige Risiko ist R(ϑ, ρ) := Eϑ hZ i Z Z l(ϑ, a) ρ(da) = X A 2.32 Beispiel. l(ϑ, a)ρ(x, da) Pϑ (dx). A ˙ 1 , A = [0, 1] und der Verlust l(ϑ, a) = Θ = Θ0 ∪Θ l0 a1Θ0 (ϑ) + l1 (1 − a)1Θ1 (ϑ) vorgegeben. In diesem Rahmen kann eine Entschei0 dungsregel ρ als randomisierter Test (oder Entscheidungskern) ρ von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 aufgefasst werden. Dazu setze A0 := {0, 1}, FA0 := P(A0 ), 0 benutze den gleichen Verlust l (eingeschränkt auf A ) und deniere die bedingten 0 0 0 Wahrscheinlichkeiten ρ (x, {1}) := ρ(x), ρ (x, {0}) := 1 − ρ (x, {1}). Dies bedeutet also, dass ρ(x) die Wahrscheinlichkeit angibt, mit der bei der Beobachtung x die Hypothese abgelehnt wird. Es sei 3 Suzienz und Vollständigkeit 3.1 Dominierte Modelle 3.1 Denition. (X, F , (Pϑ )ϑ∈Θ ) heiÿt dominiert (von µ), falls es ein σ -endliches Maÿ µ auf F gibt, so dass Pϑ absolutstetig bezüglich µ ist (Pϑ µ) für alle ϑ ∈ Θ. Die durch ϑ parametrisierte Radon-NikodymEin statistisches Modell Dichte L(ϑ, x) := d Pϑ (x), dµ ϑ ∈ Θ, x ∈ X, heiÿt auch Likelihoodfunktion, wobei diese meist als durch Funktion in ϑ x parametrisierte aufgefasst wird. 3.2 Beispiele. (a) X = R, F = BR , Pϑ ist gegeben durch eine Lebesguedichte fϑ , 2 weise P(µ,σ) = N (µ, σ ) oder Pϑ = U ([0, ϑ]). (b) Jedes statistische Modell auf dem Stichprobenraum meiner auf einem abzählbaren Raum (X, P(X)) (N, P(N)) beispiels- oder allge- ist vom Zählmaÿ domi- niert. (c) Ist Θ = {ϑ1 , ϑ2 , . . .} abzählbar, so ist ein dominierendes Maÿ. 20 µ= P i ci Pϑi mit ci > 0, P i ci =1 (d) X = R, F = BR , Pϑ = δϑ ϑ ∈ Θ = R (δϑ ist Punktmaÿ in ϑ) ist nicht dominiert. Ein dominierendes Maÿ µ müsste nämlich µ({ϑ}) > 0 für alle ϑ ∈ Θ und damit µ(A) = ∞ für jede überabzählbare Borelmenge A ⊆ R erfüllen (sonst folgte aus |{x ∈ A | µ({x}) > 1/n}| 6 nµ(A) < ∞, S dass A = {x ∈ A | µ({x}) > 1/n} abzählbar ist). Damit kann µ nicht n>1 σ -endlich sein. für 3.3 Satz. Es sei (X, F, (Pϑ )ϑ∈Θ ) ein dominiertes Modell. DannPgibt es ein WahrP∞ scheinlichkeitsmaÿ Q der Form Q = i=1 ci Pϑi mit ci > 0, i ci = 1, ϑi ∈ Θ, so dass Pϑ Q für alle ϑ ∈ Θ gilt. Ein solches Wahrscheinlichkeitsmaÿ Q heiÿt auch privilegiertes dominierendes Maÿ. Beweis. µ endlich sowie o X ci = 1 (konvexe Hülle ϑi ∈ Θ, ci > 0, Sei zunächst das dominierende Maÿ P0 := nX ci Pϑi i von (Pϑ )), i n A := A ∈ F ∃ P ∈ P0 : P(A) > 0 und dP > 0 µ-f.ü. dµ auf o A . (An ) in A mit µ(An ) → supA∈A µ(A) < ∞. Setze A∞ := d Pn Pn ein Element in P0 mit Pn (An ) > 0, dµ > 0 µ-f.ü. auf P P An . Für beliebige cn > 0 mit n cn = 1 setze Q := n cn Pn ∈ P0 . dQ dQ d Pn Aus der Wahl von Pn folgt dµ > cn dµ > 0 µ-f.ü. auf An und somit dµ > 0 µ-f.ü. auf A∞ und Q(A∞ ) > 0, so dass A∞ ebenfalls in A liegt. Zeige: P Q für alle P ∈ P0 . Sonst gilt P(A) > 0 und Q(A) = 0 für ein P dQ und ein A ∈ F . Dies impliziert Q(A∩A∞ ) = 0 ⇒ µ(A∩A∞ ) = 0 (da dµ > 0 auf dP A∞ ) und weiter P(A ∩ A∞ ) = 0 (da P µ). Für B := { dµ > 0} gilt P(B) = 1, C C und wir erhalten P(A) = P(A∩A∞ ∩B) > 0. Aus P µ folgt µ(A∩A∞ ∩B) > 0 ˙ und somit µ(A∞ ∪(A ∩ AC ∞ ∩ B)) > µ(A∞ ). Nun ist aber (P +Q)/2 ∈ P0 sowie d(P +Q) C ˙ ˙ > 0 µ-f.ü. auf A∞ ∪(A ∩ AC ∞ ∩ B), was A∞ ∪(A ∩ A∞ ∩ B) ∈ A zeigt. 2dµ Dies widerspricht aber der Eigenschaft µ(A∞ ) = supA∈A µ(A). S Ist µ σ -endlich, so zerlege X := ˙ m>1 Xm mit µ(Xm ) < ∞, deniere das Maÿ Qm wie oben Q, wobei im Fall Pϑ (Xm ) = 0 für P alle ϑ ∈ Θ einfach Qm = Pϑ für −m Q das Gewünschte. ein beliebiges ϑ ∈ Θ gesetzt wird. Dann leistet m m>1 2 Wähle nun eine Folge S n An und bezeichne 3.2 Exponentialfamilien 3.4 Denition. Es sei (X, F, (Pϑ )ϑ∈Θ ) ein von µ dominiertes Modell. Dann (Pϑ )ϑ∈Θ Exponentialfamilie (in η(ϑ) und T ), wenn k ∈ N, η : Θ → Rk , C : Θ → R+ , T : X → Rk messbar und h : X → R+ messbar existieren, so dass heiÿt d Pϑ (x) = C(ϑ)h(x) exp(hη(ϑ), T (x)iRk ), dµ T wird natürliche suziente Statistik von x ∈ X, ϑ ∈ Θ. (Pϑ )ϑ∈Θ genannt. Sind η1 , . . . , ηk ϑ ∈ Θ die Implikation near unabhängige Funktionen und gilt für alle λ0 + λ1 T1 + · · · + λk Tk = 0 Pϑ -f.s. ⇒ λ0 = λ1 = · · · = λk = 0 21 li- (1, T1 , . . . , Tk sind (strikt) Pϑ -f.s. linear unabhängig), so heiÿt die Exponentialfamilie k -parametrisch. Bemerkungen. (a) C(ϑ) ist nur Normierungskonstante: C(ϑ) = ( h(x)ehη(ϑ),T (x)i µ(dx))−1 . R (b) Die Darstellung ist nicht eindeutig, mit einer invertierbaren Matrix A ∈ Rk×k erhält man beispielsweise eine Exponentialfamilie in η̃(ϑ) = Aη(ϑ) und T̃ (x) = (A> )−1 T (x). Auÿerdem kann die Funktion h in das dominierende Maÿ absorbiert werden: µ̃(dx) := h(x)µ(dx). (c) Aus der Identizierbarkeitsforderung Pϑ 6= Pϑ0 für alle ϑ 6= ϑ0 folgt die Injektivität von η. Andererseits impliziert die Injektivität von η bei einer k -parametrischen Exponentialfamilie die Identizierbarkeitsforderung. 3.5 Denition. so heiÿt Bildet (Pϑ )ϑ∈Θ eine Exponentialfamilie (mit obiger Notation), Z n o k Z := u ∈ R ehu,T (x)i h(x)µ(dx) ∈ (0, ∞) X ihr natürlicher Parameterraum. Die entsprechend mit Familie wird natürliche Exponentialfamilie in T u ∈ Z parametrisierte genannt. 3.6 Beispiele. (a) (N (µ, σ 2 ))µ∈R,σ>0 ist zweiparametrische Exponentialfamilie in η(µ, σ) = (µ/σ 2 , 1/(2σ 2 ))> und T (x) = (x, −x2 )> unter dem Lebesguemaÿ als do2 2 > ist natürminierendem Maÿ. Jedes u der Form u = (µ/σ , 1/(2σ )) licher Parameter, und der natürliche Parameterraum ist gegeben durch Z = R ×(0, ∞). nentialfamilie in (b) (Bin(n, p))p∈(0,1) Ist σ > 0 bekannt, so liegt eine η(µ) = µ/σ 2 und T (x) = x vor. {0, 1, . . . , n}. η(p) = log(p/(1 − p)) µ ist R. Beachte, dass für bildet eine Exponentialfamilie in (auch logit-Funktion genannt) und auf einparametrische Expo- T (x) = x bezüglich dem Zählmaÿ Der natürliche Parameterraum den Parameterbereich p = [0, 1] keine Exponentialfamilie vorliegt. 3.7 Lemma. Bildet (Pϑ )ϑ∈Θ eine (k-parametrische) Exponentialfamilie in η(ϑ) und T (x), so bilden auch die Produktmaÿe (P⊗n ϑ )ϑ∈Θ eine (k -parametrische) Pn Exponentialfamilie in η(ϑ) und i=1 T (xi ) mit n Y P d P⊗n n ϑ (x) = C(ϑ) h(x ) exp(hη(ϑ), ni=1 T (xi )iRk ), i ⊗n dµ x ∈ Xn , ϑ ∈ Θ. i=1 Beweis. Dies folgt sofort aus der Produktformel d P⊗n ϑ (x) dµ⊗n = Qn d Pϑ i=1 dµ (xi ). 3.8 Satz. Es sei (Pϑ )ϑ∈Z eine Exponentialfamilie mit natürlichem Parameterraum Z ⊆ Rk und Darstellung d Pϑ (x) = C(ϑ)h(x) exp(hϑ, T (x)i) = h(x) exp(hϑ, T (x)i − A(ϑ)), dµ 22 wobei A(ϑ) = log h(x) exp(hϑ, T (x)i)µ(dx) . Ist ϑ̃ ein innerer Punkt von Z , so ist die erzeugende Funktion ψϑ̃ (s) = Eϑ̃ [ehT,si ] in einer Umgebung der Null wohldeniert und beliebig oft dierenzierbar. Es gilt ψϑ̃ (s) = exp(A(ϑ̃ + s) − A(ϑ̃)) für alle s mit ϑ̃ + s ∈ Z . 2A dA Für i, j = 1, . . . , k folgt Eϑ̃ [Ti ] = dϑ (ϑ̃) und Covϑ̃ (Ti , Tj ) = dϑdi dϑ (ϑ̃). i j R Beweis. Man setze Z µ̃(dx) = h(x) µ(dx). Die Aussage folgt mit exp hT, si exp hϑ, T i − A(ϑ) µ̃(dx) Z = exp hT, s + ϑi + A(ϑ + s) − A(ϑ + s) − A(ϑ) µ̃(dx) Z = exp A(ϑ + s) − A(ϑ) exp hT, s + ϑi − A(ϑ + s) µ̃(dx) | {z } =1 3.9 Beispiele. (b) (a) X ∼ N (µ, 1): A(µ) = µ2 2 ⇒ E[X] = µ, Var(X) = 1. X ∼ Bin(n, p), p ∈ (0, 1) unbekannt. Mit n k n p n−k + n log (1 − p) p (1 − p) = exp k log 1−p k k folgt für p η(p) = log 1−p , E[X] = n dass A(p) = n log (1 + exp (η)) und hieraus exp (η) exp (η) = np , Var(X) = n = np(1 − p) . exp (η) + 1 (exp (η) + 1)2 3.3 Suzienz Es sei X1 , . . . , Xn eine gemäÿ der Lebesguedichte fϑ : R → R+ verteilte ma- thematische Stichprobe. Bei i.i.d. Beobachtungen (wie für unser einführendes Beispiel der Messungen der Lichtgeschwindigkeit) scheint die Reihenfolge der Beobachtungen irrelevant. Im Allgemeinen wir durch nichtumkehrbare Abbildungen T : X → Y Information T (X1 , . . . , Xn ) enthält hingegen (über Parameter) verloren gehen. Manchmal gleich viel Information wie die ursprüngliche Beobachtung (kein Informationsverlust). Solche Statistiken nennt man suzient oder erschöpfend/ausschöpfend. Liefern die Statistiken im Allgemeinen Information über Pϑ und damit ϑ, X̄ max(X1 , . . . , Xn ) 1({X3 < X7 }) oder oder sind 1({X1 = max(X1 , . . . , Xn )}) hingegen Statistiken, deren Verteilung nicht von Pϑ abhängt (sofern die i.i.d.-Annahme gültig ist) und somit keinerlei Informationen über ϑ beinhalten (sogenannte ancillary statistics). Intuitiv ist dagegen alle Information bereits in der Ordnungsstatistik X(1) , . . . , X(n) enthalten mit X(1) = min{X1 , . . . , Xn }, X(k+1) := min{X1 , . . . , Xn } \ {X(1) , . . . , X(k) }. Diese ist suzient. 23 3.10 Denition. (S, S )-wertige Statistik T auf (X, F , (Pϑ )ϑ∈Θ ) heiÿt suzient (für (Pϑ )ϑ∈Θ ), falls für jedes ϑ ∈ Θ die reguläre bedingte Wahrscheinlichkeit von Pϑ gegeben T (existiert und) nicht von ϑ abhängt, d.h. Eine ∃k ∀ϑ ∈ Θ, B ∈ F : k(T, B) = Pϑ (B | T ) := Eϑ [1B | T ] Statt k(t, B) P• (B | T = t) schreiben wir bzw. Pϑ -f.s. E• [1B | T = t]. 3.11 Satz (Faktorisierungskriterium von Neyman). Es sei (X, F , (Pϑ )ϑ∈Θ ) ein von µ dominiertes Modell mit Likelihoodfunktion L sowie T eine (S, S )-wertige Statistik. Dann ist T genau dann suzient, wenn eine messbare Funktion h : X → R+ existiert, so dass für alle ϑ ∈ Θ eine messbare Funktion gϑ : S → R+ existiert mit L(ϑ, x) = gϑ (T (x))h(x) für µ-f.a. x ∈ X. 3.12 Lemma. Es seien P und µ Wahrscheinlichkeitsmaÿe mit eine messbare Abbildung auf (X, F ). Dann gilt für alle B ∈ F EP [1B | T ] = Beweis. Eµ [1B ddµP | T ] Eµ [ ddµP | T ] Für jede beschränkte messbare Funktion h Eµ [1B d P | T ] EP dµ dP Eµ [ dµ | T ] Pµ und T P -f.s. ϕ erfüllt die rechte Seite i h Eµ [1B d P | T ] i dµ dP ϕ(T ) = Eµ ϕ(T ) dµ Eµ [ ddµP | T ] = h Eµ [1B d P | T ] dµ Eµ [ ddµP | T ] Eµ [1B ddµP ϕ(T )] = Eµ i ϕ(T ) Eµ [ ddµP | T ] = EP [1B ϕ(T )]. Zusammen mit der σ(T )-Messbarkeit ist dies genau die Charakterisierung dafür, EP [1B | T ] ist. dass die rechte Seite eine Version der bedingten Erwartung Bemerkung. Mit den üblichen Approximationsargumenten lässt sich dies zu EP [f | T ] = Eµ [f ddµP | T ]/ Eµ [ ddµP | T ] für f ∈ L1 (P) verallgemeinern. Beweis des Faktorisierungssatzes. Ohne Einschränkung sei µ ein Wahrschein- µ̃(dx) = S ˙ X := m>1 Xm lichkeitsmaÿ, sonst betrachte das äquivalente Wahrscheinlichkeitsmaÿ P −m µ(X )−1 1 m Xm , wobei die Zerlegung m>1 2 z(x)µ(dx) mit z = mit µ(Xm ) < ∞ wegen der σ -Endlichkeit von µ existiert. L(ϑ, x) folgt daher Aus dem Lemma und der Form von Pϑ (B | T ) = gϑ (T ) Eµ [1B h | T ] Eµ [1B h | T ] = gϑ (T ) Eµ [h | T ] Eµ [h | T ] Da die rechte Seite unabhängig von Ist nun andererseits T ϑ ist, ist T suzient, so setze Für das privilegierte dominierende Maÿ 24 Q Pϑ -f.s. suzient. k(T, B) := Pϑ (B | T ), ϑ ∈ Θ. Q(B | T ) = gilt dann ebenfalls P i ci Pϑi (B | T ) dem Teilraum = k(T, B) Q-f.s. (X, σ(T )) Nach dem Satz von Radon-Nikodym gilt auf d Pϑ |σ(T ) = fϑ . d Q |σ(T ) ∀ϑ ∃fϑ : X → R+ σ(T )-messbar : Dann gibt es eine messbare Funktion B∈F gϑ , fϑ = gϑ ◦ T , so dass und für beliebiges erhalten wir Pϑ (B) = Eϑ [Eϑ [1B | T ]] = EQ [EQ [1B | T ]gϑ (T )] = EQ [1B gϑ (T )], so dass gϑ ◦ T auch die Radon-Nikodym-Dichte d Pϑ d Q d Q dµ erhalten wir den Ausdruck von L(ϑ, x), d Pϑ d Q auf ganz wobei h(x) = F ist. Mit d Pϑ dµ = dQ dµ (x). 3.13 Beispiele. (a) Die Identität formation T T (x) = x und allgemein jede bijektive, bi-messbare Trans- ist stets suzient. (b) Die natürliche suziente Statistik T einer Exponentialfamilie ist in der (N (µ, σ 2 )⊗n )µ∈R,σ>0 ist damit Pn Pn T1 (x) = ( i=1 xi , − i=1 x2i )> suzient, aber durch Transformation auch T2 (x) = (x̄, x2 )> oder T3 (x) = (x̄, s̄2 )> mit der empirischen Varianz s̄2 = P n 1 2 ⊗n ) p∈(0,1) ist T (x) = i=1 (xi − x̄) . Bei einer Bernoullikette (Bin(1, p) n−1 P n x (die Anzahl der Erfolge) suzient. i=1 i Tat suzient. Im Normalverteilungsmodell X1 , . . . , Xn eine mathematische Stichprobe, wobei Xi gemäÿ der Lefϑ : R → R+ verteilt ist, so ist die Ordnungsstatistik (X(1) , . . . , X(n) ) suzient. Die Likelihoodfunktion lässt sich nämlich in Qn f (x(i) ) schreiben. der Form L(ϑ, x) = ϑ i=1 (c) Ist besguedichte (Nt , t ∈ [0, T ]) eines Poissonprozesses zum unλ > 0 kontinuierlich auf [0, T ] beobachtet. Mit Sk = inf{t > 0 | Nt = k} werden die Sprungzeiten bezeichnet. In der (d) Es wird die Realisierung bekannten Parameter Wahrscheinlichkeitstheorie wird gezeigt, dass bedingt auf das Ereignis {NT = n} die Sprungzeiten (S1 , . . . , Sn ) dieselbe Verteilung haben wie die Ordnungsstatistik (X(1) , . . . , X(n) ) mit unabhängigen Xi ∼ U ([0, T ]). Da sich die Beobachtung (Nt , t ∈ [0, T ]) eindeutig aus den Sk rekonstruieren lässt, ist die Verteilung dieser Beobachtung gegeben {NT = n} unabhängig von λ, und NT ist somit eine suziente Statistik (z.B. die Kenntnis der Gesamtzahl an gemessenen radioaktiven Zerfällen liefert bereits die maximal mögliche Information über die Intensität λ). 3.14 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und T eine suziente Statistik. Dann existiert zu jeder Entscheidungsregel ρ : X → A eine randomisierte Entscheidungsregel ρ̃ basierend auf T (X), so dass ρ und ρ̃ das gleiche Risiko haben. 25 Beweis. Setze ρ̃(t) = ρ(X ∗ ) X∗ wobei gemäÿ Pϑ [X ∈ • |T = t] mit Randomi- sierung erzeugt wird. R(ϑ, ρ̃) = Eϑ E l(ϑ, ρ(X ∗ ))|T = Eϑ Eϑ l(ϑ, ρ(X))|T = R(ϑ, ρ). Sind Aktionsraum und Verlustfunktion konvex (z.B. Schätzprobleme) benötigt man keine Randomisierung. 3.15 Satz (Rao-Blackwell). Es seien (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell, der Aktionsraum A ⊆ Rk konvex und die Verlustfunktion l(ϑ, a) im zweiten Argument konvex. Ist T eine für (Pϑ )ϑ∈Θ suziente Statistik, so gilt für jede Entscheidungsregel ρ und für ρ̃ := E• [ρ | T ] die Risikoabschätzung ∀ϑ ∈ Θ : R(ϑ, ρ̃) 6 R(ϑ, ρ). Beweis. Dies folgt aus der Jensenschen Ungleichung für bedingte Erwartungen: R(ϑ, ρ̃) = Eϑ [l(ϑ, Eϑ [ρ | T ])] 6 Eϑ [Eϑ [l(ϑ, ρ) | T ]] = R(ϑ, ρ). Ist l Pϑ (ρ̃ = ρ) < 1, ρ̃ ist sogar strikt konvex sowie Ungleichung sogar die strikte Ungleichung und 3.16 Beispiel. besser als ρ. U ([0, ϑ])-verteilte mathematische StichX̄ ein erwartungstreuer Schätzer des ϑ Erwartungswerts 2 , so dass ϑ̂ = 2X̄ ein plausibler Schätzer von ϑ ist mit 4ϑ2 quadratischem Risiko R(ϑ, ϑ̂) = 4 Varϑ (X̄) = 12n . Nun ist jedoch (bezüglich n Lebesguemaÿ auf (R+ ) ) die Likelihoodfunktion probe mit Es sei ϑ > 0 X1 , . . . , Xn so gilt in der Jensenschen eine unbekannt. Dann ist L(ϑ, x) = n Y ϑ−1 1[0,ϑ] (xi ) = ϑ−n 1[0,ϑ] i=1 Demnach ist X(n) = maxi=1,...,n Xi max xi . i=1,...,n eine suziente Statistik, und wir bilden n ϑ̃ := E• [ϑ̂ | X(n) ] = 2X E• [Xi | X(n) ]. n i=1 E• [X1 | X(n) ] zu bestimmen. Als bedingte Ver= m} vermuten wir n1 δm + n−1 n U ([0, m]) wegen Aus Symmetriegründen reicht es, teilung von X1 gegeben {X(n) (x ∧ (m + h))(m + h)n−1 − (x ∧ m)mn−1 (m + h)n − mn n−1x∧m h→0 1 −−−→ 1({m < x}) + . n n m Pϑ (X1 6 x | X(n) ∈ [m, m + h]) = 26 In der Tat gilt für x ∈ [0, ϑ]: Z ϑ 1 n−1 X δm + U ([0, m]) ([0, x]) Pϑ (n) (dm) n n 0 Z ϑ n − 1 x ∧ m n−1 −n 1 1[0,x] (m) + nm ϑ dm = n n m 0 1 n − 1 nx(ϑn−1 − xn−1 ) = (x/ϑ)n + (x/ϑ)n + n n (n − 1)ϑn x = = Pϑ (X1 6 x). ϑ X (n) n+1 n+1 E[X1 | X(n) ] = n1 X(n) + n−1 n 2 = 2n X(n) . Wir erhalten ϑ̃ = n X(n) . Natürlich ist ϑ̃ auch erwartungstreu und als quadratisches Risiko ergibt eine ϑ2 kurze Rechnung R(ϑ, ϑ̃) = 2 . Wir sehen, dass ϑ̃ bedeutend besser als ϑ̂ ist, n +2n −2 ) anstelle O(n−1 ). Es bleibt, die für n → ∞ erhalten wir die Ordnung O(n Frage zu klären, ob auch ϑ̃ noch weiter verbessert werden kann (s.u.). Es folgt 3.4 Vollständigkeit V ancillary, wenn ihre Verteilung nicht ancillary erster Ordnung, falls Eϑ [V ] unabhängig von Wie oben erwähnt, heiÿt eine Statistik von ϑ abhängt. Sie heiÿt ϑ ist. Falls jede Statistik der Form V = f (T ), die ancillary erster Ordnung ist, Pϑ -f.s. konstant ist, so ist keine redundante Information mehr in T enthalten. Eine solche suziente Statistik T reduziert die volle Information am eektivsten. Man nennt T in dem Falle vollständig. 3.17 Denition. Eine (S, S )-wertige T auf (X, F , (Pϑ )ϑ∈Θ ) f : S → R gilt Statistik vollständig, falls für alle messbaren Funktionen ∀ϑ ∈ Θ : Eϑ [f (T )] = 0 =⇒ ∀ϑ ∈ Θ : f (T ) = 0 heiÿt Pϑ -f.s. 3.18 Satz (Lehmann-Scheé). Es seien (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell und γ(ϑ) ∈ R, ϑ ∈ Θ, der jeweils interessierende Parameter. Es existiere ein erwartungstreuer Schätzer γ̂ von γ(ϑ) mit endlicher Varianz. Ist T eine suziente und vollständige Statistik, so ist γ̃ = E• [γ̂ | T ] ein Schätzer von gleichmäÿig kleinster Varianz in der Klasse aller erwartungstreuen Schätzer (UMVU: uniformly minimum variance unbiased). Beweis. γ̃ σ(T )-messbar ist, weil jeder andere solche Schätzer γ̄ wegen Vollständigkeit E[γ̃ − γ̄] = 0 ⇒ γ̃ = γ̄ Pϑ -f.s. erfüllt. Nach dem Satz von Rao-Blackwell besitzt γ̃ damit kleineres quadratisches Risiko Zunächst ist klar, dass γ̃ wiederum erwartungstreu ist. Auÿerdem ist der f.s. einzige erwartungstreue Schätzer, der als jeder andere erwartungstreue Schätzer. Nach der Bias-Varianz-Zerlegung ist das quadratische Risiko bei erwartungstreuen Schätzern gleich der Varianz. Beachte, dass die Aussage des Satzes von Lehmann-Scheé sogar für das Risiko bei beliebigen im zweiten Argument konvexen Verlustfunktionen gilt, wie sofort aus dem Satz von Rao-Blackwell folgt. 27 3.19 Satz. Es sei (X, F , (Pϑ )ϑ∈Θ ) eine k-parametrische Exponentialfamilie in T mit natürlichem Parameter ϑ ∈ Θ ⊆ Rk . Besitzt Θ ein nichtleeres Inneres, so ist T suzient und vollständig. Beweis. Es bleibt, die Vollständigkeit zu beweisen. Ohne Einschränkung sei [−a, a]k ⊆ Θ a > 0 (sonst verschiebe entsprechend) sowie h(x) = 1 (sonst betrachte µ̃(dx) = h(x)µ(dx)). Es gelte Eϑ [f (T )] = 0 für alle ϑ ∈ Θ und k + = max(f, 0), f − = max(−f, 0) sowie mit dem Bildmaÿ ein f : R → R. Mit f µT des dominierenden Maÿes µ unter T folgt Z Z exp(hϑ, ti)f − (t)µT (dt). exp(hϑ, ti)f + (t)µT (dt) = ∀ϑ ∈ [−a, a]k : für ein Rk Rk R − f + (t)µT (dt) = f (t)µT (dt) =: M , und P+ (dt) := − −1 + −1 − M f (t)µT (dt), P (dt) := M f (t)µT (dt) denieren Wahrscheinlichkeitsk maÿe auf (R , BRk ). Die obige Identität bedeutet gerade, dass die LaplaceR ± ± Transformierten χ (ϑ) := Rk exp(hϑ, ti) P (dt) für ϑ ∈ [−a, a] übereinstim+ − men. χ und χ sind darüberhinaus auf dem k -dimensionalen komplexen Streik fen {ϑ ∈ C | |Re(ϑ)| < a} wohldeniert und analytisch. Der Eindeutigkeitssatz k + − für analytische Funktionen impliziert daher χ (iu) = χ (iu) für alle u ∈ R . Al+ − + − so besitzen P und P dieselben charakteristischen Funktionen, so dass P = P + − folgt (Eindeutigkeitssatz für char. Funktionen). Dies liefert f = f µT -f.ü. und somit f (T ) = 0 Pϑ -f.s. für alle ϑ ∈ Θ. Insbesondere gilt R 3.20 Beispiele. Y = Xβ + σε, β ∈ Rp mit Gauÿschen Fehlern ε ∼ N (0, En ) bildet eine (p+1)-parametrische Exponentialfamilie in η(β, σ) = σ −2 (β, −1/2)> ∈ Rp × R− und T (Y ) = (X > Y, |Y |2 )> ∈ Rp × R+ . Der nap türliche Parameterbereich Z = R × R− besitzt ein nichtleeres Inneres in p+1 R , so dass T suzient und vollständig ist. Durch bijektive Transforma> −1 X > Y, |Y |2 ) = (β̂, |Π Y |2 + tion ergibt sich, dass dies auch für ((X X) X (a) Das lineare Modell (n − p)σ̂ 2 ) Wegen mit dem Kleinste-Quadrate-Schätzer ΠX Y = X β̂ (β̂, σ̂ 2 ) ist also auch β̂ und σ̂ 2 = |Y −X β̂|2 gilt. n−p suzient und vollständig. Damit besitzen beide Schätzer jeweils minimale Varianz in der Klasse aller (!) erwartungstreuen Schätzer (von β bzw. σ 2 ). Beachte: hierfür ist die Normalverteilungsannahme essentiell. X1 , . . . , Xn ∼ U ([0, ϑ]) eine mathematische Stichprobe mit ϑ > 0 L(x, ϑ) = ϑ−n 1{x(n) 6ϑ} für x ∈ (R+ )n der Likelihoodfunktion folgt, dass das Maximum X(n) der Beobachtungen suzient ist (s.o.). Gilt für alle ϑ > 0 (b) Es sei unbekannt. Aus der Form ϑ Z Eϑ [f (X(n) )] = f (t)nϑ−n tn−1 dt = 0, 0 so muss von X(n) f = 0 Lebesgue-fast überall gelten, woraus die Vollständigkeit Eϑ [X(n) ] = folgt. Andererseits gilt erwartungstreuer Schätzer von ϑ n n+1 ϑ. Also ist ϑ̂ = n+1 n X(n) mit gleichmäÿig kleinster Varianz. 28 3.5 Cramér-Rao-Ungleichung 3.21 Lemma (Chapman-Robbins-Ungleichung). Es seien (X, F , (Pϑ )ϑ∈Θ ) ein statistisches Modell, ĝ ein erwartungstreuer Schätzer von g(ϑ) ∈ R und ϑ0 ∈ Θ. Dann gilt für jedes ϑ ∈ Θ mit Pϑ 6= Pϑ0 , Pϑ Pϑ0 , ddPPϑϑ ∈ L2 (Pϑ0 ) 0 Eϑ0 [(ĝ − g(ϑ0 ))2 ] > (g(ϑ) − g(ϑ0 ))2 Varϑ0 ( ddPPϑϑ ) . 0 Beweis. Dies folgt wegen Eϑ0 [ ddPPϑϑ ] = 1 aus 0 g(ϑ) − g(ϑ0 ) = Eϑ [ĝ − g(ϑ0 )] − Eϑ0 [ĝ − g(ϑ0 )] h dP i ϑ = Eϑ0 (ĝ − g(ϑ0 )) −1 d Pϑ0 h d P 2 i1/2 1/2 ϑ 6 Eϑ0 [ ĝ − g(ϑ0 ))2 Eϑ0 −1 , d Pϑ0 wobei zuletzt die Cauchy-Schwarz-Ungleichung angewendet wurde. 3.22 Beispiel. X ∼ Exp(ϑ) mit ϑ > 0 unbekannt. Dann ist d Pϑ −(ϑ−ϑ0 )x , x > 0. Diese durch d Pϑ (x) = (ϑ/ϑ0 )e Wir beobachten die Likelihoodfunktion gegeben 0 ist in L2 (Pϑ0 ) nur im Fall ϑ > ϑ0 /2 und besitzt dann die Varianz Varϑ0 ( ddPPϑϑ ) = 0 (ϑ−ϑ0 )2 ϑ0 (2ϑ−ϑ0 ) . ĝ für g(ϑ) = ϑ ergibt die ChapmanEϑ0 [(ĝ − g(ϑ0 ))2 ] > supϑ>ϑ0 /2 ϑ0 (2ϑ − ϑ0 ) = ∞. Sofern wir Werte ϑ zulassen, existiert kein erwartungstreuer Schätzer Im Fall erwartungstreuer Schätzer Robbins-Gleichung also beliebig groÿe von ϑ mit endlicher Varianz. g(ϑ) = ϑ−1 hingegen liefert die Chapman-Robbins-Ungleichung 0 = ϑ−2 Eϑ0 [(ĝ − g(ϑ0 ))2 ] > supϑ>ϑ0 /2 2ϑ−ϑ 0 , und die Identität ĝ = X erreicht ϑ2 ϑ0 Im Fall auch diese Schranke. 3.23 Denition. (X, F , (Pϑ )ϑ∈Θ ) mit Θ ⊆ Rk ein von µ dominiertes Modell mit Likelihoodfunktion L. Mit `(ϑ, x) := log(L(ϑ, x)) (log 0 := −∞) ∂ 2 wird die Loglikelihood-Funktion bezeichnet. Falls ∂ϑ `(ϑ, x) exisitiert in L (Pϑ ) Es sei nennt man I(ϑ) = Eϑ Fisher-Informationsmatrix. > ∂ . ∂ϑ `(ϑ, x) ∂ ∂ϑ `(ϑ, x) Man ϑ nennt 7→ ˙ `(ϑ) = ∂ ∂ϑ `(ϑ, x) auch Score-Funktion. Wir benötigen später die Regularitätsbedingung dass Integration und Dierentiation wie folgt vertauschen: Z Z ∂ ∂ϑ L(ϑ, x)µ(dx) ∂2 L(ϑ, x)µ(dx) ∂ϑ2 = = ∂ ∂ϑ ∂ ∂ϑ Z Z 29 L(ϑ, x)µ(dx) = 0 , ∂ ∂ϑ L(ϑ, x)µ(dx) = 0. Θ oen, für welche diese Ver{x|L(ϑ, x) > 0} unabhängig von ϑ ist nennt man Eine Verteilungsfamilie mit existierenden Dichten, tauschung gilt und für welche auch Fisher-regulär. Bemerkungen. ∂ (a) Die Forderung dass ∂ϑ `(ϑ, x) exisitiert in L2 (Pϑ ) (und Fisher-Regularität) ist in diesem Kapitel eine restriktive Vereinfachung. Im LaplaceVerteilungsmodell mit Likelihood L(ϑ, x) = 12 exp − |x − ϑ| ist die Dierenzierbarkeit z.B. in ϑ = x nicht gewährleistet. Mit HellingerDierenzierbarkeit und Dierenzierbarkeit im quadratischen Mittel gibt es sehr viel allgemeinere weniger restriktive Konzepte Informationsungleichungen herzuleiten (und die Fisher-Information zu denieren), vgl. hierzu Übung und alternatives Kapitel 3.5. (b) Nach Denition ist die Fisher-Informationsmatrix symmetrisch. Sie ist auÿerdem stets positiv-semidenit. 3.24 Beispiel. Es sei X1 , . . . , Xn eine mathematische Stichprobe gemäÿ der Le1 −|x−ϑ|/σ fϑ (x) = 2σ e , x ∈ R, σ > 0 bekannt und ϑ ∈ R unbekannt. beliebige ϑ0 , ϑ ∈ R gilt besguedichte Für Lϑ0 (ϑ) = exp − n X (|Xi − ϑ| − |Xi − ϑ0 |)/σ . i=1 Es gilt ˙ `(ϑ) = n X (1(Xi − ϑ > 0) − 1(Xi − ϑ < 0))/σ. i=1 Die Fisher-Information ist I(ϑ) = n X Varϑ (1(Xi − ϑ > 0) − 1(Xi − ϑ < 0))σ −2 = nσ −2 . i=1 Beachte, dass der seltene Fall vorliegt, dass die Fisher-Information nicht vom unbekannten Parameter abhängt. 3.25 Satz (Cramér-Rao-Ungleichung). Es seien (X, F , (Pϑ )ϑ∈Θ ) mit Θ ⊆ Rk ein statistisches Modell, g : Θ → R dierenzierbar bei ϑ0 ∈ int(Θ) und ĝ ein erwartungstreuer Schätzer von g(ϑ). Für alle ϑ in einer Umgebung von ϑ0 gelte ∂ `(ϑ, x) exisitiert in L2 (Pϑ0 ) (Likelihood bzgl. Pϑ0 ), sowie Pϑ Pϑ0 sowie ∂ϑ ∂ ∂ϑ Z Z r(x)L(ϑ, x)µ(dx) = r(x) ∂ L(ϑ, x)µ(dx), ϑ ∈ Θ, ∂ϑ gilt für r(x) = 1 und r(x) = ĝ(x). Falls die Fisher-Informationsmatrix I(ϑ0 ) strikt positiv-denit ist, gibt die Cramér-Rao-Ungleichung eine untere Schranke für das quadratische Risiko Eϑ0 [(ĝ − g(ϑ0 ))2 ] = Varϑ0 (ĝ) > hI(ϑ0 )−1 ġ(ϑ0 ), ġ(ϑ0 )i. 30 Beweis. Wir beschränken uns auf den eindimensionalen Fall, k = 1. Mit der Cauchy-Schwarzschen Ungleichung unter der angenommenen Fisher-Regularität reicht Eϑ 2 ∂ `(ϑ, X) ∂ϑ = Var ∂ ∂ϑ `(ϑ, x) , ∂ ġ(ϑ) = Cov ĝ(X), ∂ϑ `(ϑ, X) . Bemerkung. Ist ĝ kein erwartungstreuer Schätzer von g(ϑ), so doch von γ(ϑ) := Eϑ [ĝ] (so existent). Mit der Bias-Varianz-Zerlegung liefert die CramérRao-Ungleichung für diesen Fall Eϑ0 [(ĝ − g(ϑ0 ))2 ] > (g(ϑ0 ) − γ(ϑ0 ))2 + hI(ϑ0 )−1 γ̇(ϑ0 ), γ̇(ϑ0 )i. Beachte dazu auch, dass erwartungstreue Schätzer von g(ϑ) nicht existieren müssen bzw. oftmals keine weiteren erstrebenswerten Eigenschaften besitzen. 3.26 Lemma. Bildet (Pϑ ) eine Exponentialfamilie in T mit natürlichem Parameterbereich Θ, so ist die Fisher-Information I(ϑ) = Ä(ϑ) (Notation aus Satz 3.8). Sofern I(ϑ) positiv-denit ist, erreicht Ti , i = 1, . . . , k, als erwartungstreuer Schätzer von gi (ϑ) = Eϑ [Ti ] die Cramér-Rao-Schranke (ist Cramer-Raoezient) im Innern von Θ. Beweis. Varϑ (T ) = Ä(ϑ) (Kovarianzmatrix). Andererseits ist die Loglikelihoodfunktion `(ϑ, T ) = (ϑ − ϑ0 )T − ˙ (A(ϑ) − A(ϑ0 )), so dass die Scorefunktion `(ϑ) = T − Ȧ(ϑ) im klassischen Sinn Nach Satz 3.8 gilt g(ϑ) = Eϑ [T ] = Ȧ(ϑ) und existiert und > ˙ ˙ I(ϑ) = Eϑ [(`(ϑ))( `(ϑ)) ] = Varϑ (T ) = Ä(ϑ) gilt. Wegen ġi (ϑ) = (Äij (ϑ))j =: Äi• ist die Cramér-Rao-Schranke gerade hÄ(ϑ)−1 Äi• (ϑ), Äi• (ϑ)i = hei , Äi• (ϑ)i = Äii (ϑ), was gleich der Varianz von 3.27 Beispiel. Ti ist. N (µ, σ 2 )-verteilte mathematische Stichprobe mit µ ∈ R unbekannt und σ > 0 bekannt. Zur erwartungstreuen Schät2 zung von µ betrachte µ̂ = X̄ . Dann gilt Varµ (µ̂) = σ /n sowie für die Fisher2 nµ 2 2 Information I(µ) = n/σ (beachte A(µ) = , Ä(µ) = n/σ ). Also ist µ̂ ezi2σ 2 2 ent im Sinne der Cramér-Rao-Ungleichung. Um nun µ zu schätzen, betrachte 2 2 c2 = (X̄) −σ /n. Es gilt Varµ (µ c2 ) = 4µ2 σ2 + 2σ24 , den erwartungstreuen Schätzer µ n n Es sei X1 , . . . , Xn eine während die Cramér-Rao-Ungleichung die untere Schranke ist c2 µ nicht Cramér-Rao-ezient. Allerdings ist X̄ 4µ2 σ 2 liefert. Damit n eine suziente und voll- ständige Statistik, so dass der Satz von Lehmann-Scheé zeigt, dass c2 µ mini- male Varianz unter allen erwartungstreuen Schätzern besitzt. Demnach ist die Cramér-Rao-Schranke hier nicht scharf. 31 3.28 Bemerkung. In der Tat wird die Cramér-Rao-Schranke nur erreicht, wenn (Pϑ ) eine Exponentialfamilie in T bildet und g(ϑ) = Eϑ [T ] oder eine linea- re Funktion davon zu schätzen ist. Wegen der Vollständigkeit der Statistik T könnte man in diesen Fällen alternativ auch mit dem Satz von Lehmann-Scheé argumentieren. Später werden wir sehen, dass in allgemeineren Modellen immerhin asymptotisch die Cramér-Rao-Schranke erreichbar ist. 3.29 Lemma. Seien unter den Annahmen wie in Satz 3.25 X1 , . . . , Xn Beobachtungen aus unabhängigen Modellen mit derselben Parametermenge Θ. Bezeichnet Ij die entsprechende Fisher-Information erzeugt von der Beobachtung Xj , so ist im Produktmodell erzeugt von X1 , . . . , Xn die Fisher-Information ∀ϑ ∈ Θ : I(ϑ) = n X Ij (ϑ) . j=1 Beweis. Aus der Denition I(ϑ) = E ∂ ∂ϑ `(ϑ, x) > ∂ ∂ϑ `(ϑ, x) folgt dies da man für die gemeinsame Likelihood eine Produkt- und somit für die Loglikelihood eine Summendarstellung hat. Die Erwartung der Kreuzterme verschwindet unter der vorausgesetzten Fisher-Regularität. 32