Formelsammlung für Inferenzstatistik June 23, 2015 Diese Formelsammlung enthält NICHT alle relevanten Formeln der Vorlesung Inferenzstatistik, aber viele wichtige! Diese Sammlung darf NICHT für die Prüfungen verwendet werden! 1 Part I Schätzen Einfaches Modell: • Population aus • Jedes Individuum hat bestimmten Wert ◦ • N ALLE Werte Individiuen, wi i = 1, ..., N wi , i = 1, ..., N sind verschieden! Zufallsstichprobe OHNE zurücklegen ◦ P (Xj = wi ) = N1 ∀j ◦ P (Xj = wi , Xj 0 = wi0 ) = 1 1 N N −1 X j , j = 1, ..., n f ür i 6= i0 Interessierende Gröÿen: N P 1 1. µ = wi N i=1 2. σ2 = 1 N N P (wi − µ)2 i=1 Punktschätzer: n P 1 1. µ̂ = xj n j=1 2. (a) E(µ̂) = µ (b) V ar(µ̂) = σ̂ 2 = 1 − (a) 1 N σ̂ 2 n 1 n−1 1− n P n−1 N −1 (xj − µ̂)2 j=1 E(σ̂ 2 ) = σ 2 Intervallschätzung: 1−α Kondenzintervall für wobei SE(µ̂) = i h −1 µ: µ̂ − Φ−1 α SE(µ̂), µ̂ + Φ α SE(µ̂) 1− 1− 2 √σ n 2 2 Modell mit Verteilungsannahme: jetzt nehmen wir an das unsere Daten einer gewissen Verteilung folgen, z.B. eben einer Binomialverteilung oder einer Exponentialverteilung usw.... Dies ist eine strengere Annahme also oben, ermöglicht aber auch andere Schätzer und Methoden zu verwenden. Momentenmethode: • Modell mit p Parametern • X sei Zufallsvariable mit Dichte • Gleichungssystem: θ1 , θ2 , . . . , θp f (x; θ1 , θ2 , . . . , θp ) E(X) = g1 (θ1 , θ2 , . . . , θp ) E(X 2 ) = g2 (θ1 , θ2 , . . . , θp ) ... E(X p ) = gp (θ1 , θ2 , . . . , θp ) • Ersetzen theoretische Momente durch empirische Momente E(X j ) = (z.B. 1 n n P i=1 E(X 3 ) = Xij 1 n n P i=1 Xi3 ) Maximum Likelihood Methode: • X sei Zufallsvariable mit Dichte f (x|θ0 ) oder Wahrscheinlichkeitsfunktion p(x|θ0 ) • Gegeben • Likelihood und log-Likelihood: X1 , X2 , ..., Xn iid verteilt ◦ L(θ) = Pθ (X1 = x1 , X2 = x2 , ..., Xn = xn ) = Pθ (X1 = x1 )Pθ (X2 = n Q x2 )...Pθ (Xn = xn ) = p(x1 |θ)p(x2 |θ)...p(xn |θ) = p(xi |θ) i=1 ◦ l(θ) = log (p(x1 |θ)p(x2 |θ)...p(xn |θ)) = log (p(x1 |θ)) + log (p(x2 |θ)) + n P ... + log (p(xn |θ)) = log (p(xi |θ)) i=1 • Dasselbe geht auch mit der Dichte statt der Wahrscheinlichkeitsfunktion (siehe Vo) • Maximum Likelihood Schätzer ist nun jener Paramaterwert Likelihood maximiert. 3 θ, welcher die • ML Schätzer (θ̂n ) sind (unter geeigneten Glattheitsbedingungen an ◦ f ) n→∞ ∀θ ∈ Θ, ∀ > 0 : Pθ (|θ̂n − θ| > ) −→ 0 √ n→∞ ◦ asymptotisch normal verteilt: ∀t ∈ R : Pθ n(θ̂n − θ) ≤ t −→ konsistent: ΦI(θ)−1 (t) (Verteilungsfunktion einer N 0, I(θ)−1 ) wichtige Sätze und Denitionen: Zentraler Grenzwertsatz: • X1 , X2 , ..., Xn iid mit endlichem E(Xi ) = µ und endlicher Varianz V ar(Xi ) = σ 2 . Dann gilt: ◦ ◦ √ w n X̄−µ → N (0, 1) σ (gleichbedeutend: Φ √ n→∞ ≤ t) → Φ(t) f ür jedes t ∈ R P ( n X̄−µ σ wobei die Verteilungsfunktion von N(0,1) ist) Delta Methode: • f : R → R dierenzierbar im Punkt x0 und es seien Sn , n ≥ 1 Zufallsvari √ w ablen, so dass n(Sn − x0 ) → N 0, σ 2 dann gilt: √ w =⇒ n(f (Sn ) − f (x0 )) → N 0, σ 2 (f 0 (x0 ))2 Fisher Information und Cramer Rao Schranke • f (x|θ0 ), θ0 ∈ ⊆ R i h h 2 2 i ∂ ∂ ◦ I(θ0 ) = Eθ0 ∂θ log f (x|θ0 ) = −Eθ0 ∂θ 2 log f (x|θ0 ) ... Zufallsvariable X mit Dichte Fisher Information (zweite Gleichung gilt NUR unter bestimmten Glattheitsbedingungen!) • iid Zufallsvariablen θ X1 , X2 , ..., Xn , für jeden unverzerrten Schätzer gilt (unter geeigneten Glattheitsbedingungen an die Dichte): −1 ◦ V arθ0 (θ̂) ≥ (n I(θ0 )) ... Cramer Rao Schranke 4 θ̂ für Part II Testen Gegeben 2 Hypothesen: • Nullhypothese: • Alternativhypothese: H0 (z.B. H1 H0 : f = f0 ; H0 : θ = θ0 (z.B. usw.) H1 : f = f1 ; H0 : θ < θ0 ; H0 : θ 6= θ0 usw.) Gegeben Test T , welcher H0 oder H1 verwerfen bzw. annehmen kann. Alle Möglichkeiten stehen in der nächsten Tabelle: H0 Test entscheidet für Test entscheidet für H0 H1 richtig Fehler 1. Art = • α = P (T H1 | H0 stimmt) • β = P (T H0 | H1 stimmt) • 1 − β = P (T • p − W ert H1 stimmt stimmt β 1−β Fehler 2. Art = α richtig: Power = (auch size genannt) H1 | H1 stimmt) ist die Wahrscheinlichkeit das beobachtete oder ein extremeres Testergebnis zu bekommen, gegeben die Nullhypothese stimmt (siehe Vo). Neyman Pearson Lemma Gegeben zwei simple/einfache Hypothesen: • H0 : X hat die Dichte f0 • H1 : X hat die Dichte f1 Ein Likelihood Ratio Test Signikanzniveau α ∈ (0, 1) f0 (x) f1 (x) (≤ c verwirft H0 ) hat unter allen Tests mit die gröÿtmögliche Power! (für simple Hypothe- sen!) Diverse Tests: X1 , X2 , ..., Xn seien im weiteren immer unabhängig identisch verteilt (iid) Z-Test X ∼ N (µ, σ 2 ) mit bekannter Varianz • H0 : µ = µ0 gegen H1 : µ 6= µ0 (oder √ 0 • T = n X̄−µ ∼ N (0, 1) unter H0 σ 5 einseitige Alternative) t-Test s X ∼ N (µ, σ 2 ) mit unbekannter Varianz (σ̂ • H0 : µ = µ0 gegen H1 : µ 6= µ0 √ 0 • T = n X̄−µ ∼ tn−1 unter H0 σ̂ = n P 1 n−1 (Xi − X)2 wird geschätzt) i=1 (oder einseitige Alternative) F-Test X (1) ∼ N (µ, σ12 ) (σ̂12 = Erste Stichprobe X (2) ∼ N (µ, σ22 ) Stichprobengröÿe n und m muss 1 n−1 n P (Xi − X)2 wird geschätzt), i=1 zweite Stichprobe • H0 : σ12 σ22 gegen = • F = σ̂12 σ̂22 ∼ Fn−1,m−1 H1 : σ12 unter nicht gleich groÿ sein! 6= σ22 (oder einseitige Alternative) H0 Likelihood Ratio Tests (allgemeines Setting) X iid mit Dichte fθ • H0 : θ ∈ Θ0 • Seien für θ ∈ Θ ⊆ Rp . H1 : θ ∈ / Θ0 gegen θ̂0 = argmaxL(θ) und Für eine Teilmenge (keine simplen Hypothesen mehr!) θ̂ = argmaxL(θ) θ∈Θ θ∈Θ0 • Λ= • L(θ̂0 ) L(θ̂) Wilks Theorem: Unter geeigneten Glattheitsbedingungen gilt χ2k−k0 • Θ0 ⊆ Θ: wobei k und k0 die freien Parameter in Bemerkung: in den einfachsten Fällen besteht H0 : θ ∈ Θ0 wäre dann Θ Θ0 und Θ0 w −2 log Λ −→ n→∞ sind. nur aus einem Element: H0 : θ = θ0 . Chi Quadrat-Test Gegeben m Kategorien (Häugkeiten) oder Zufallsvariablen Xi {1, ..., m} und Wahrscheinlichkeitsfunktion p(j) = P (Xi = j) • pκ mit Werten in ist eine ganze Familie von Wahrscheinlichkeitsfunktionen (siehe Vo) • Ej = erwartete ”Häuf igkeiten” • H0 : p = pκ • T = m P gegen und Oj = beobachtete ”Häuf igkeiten” H1 : p 6= pκ w (Ej −Oj )2 −→ Ej n→∞ j=1 χ2m−1−# f reier P arameter 6 unter H0