Formelsammlung für Inferenzstatistik

Werbung
Formelsammlung für Inferenzstatistik
June 23, 2015
Diese Formelsammlung enthält NICHT alle relevanten Formeln der Vorlesung Inferenzstatistik, aber viele wichtige! Diese Sammlung darf NICHT für
die Prüfungen verwendet werden!
1
Part I
Schätzen
Einfaches Modell:
•
Population aus
•
Jedes Individuum hat bestimmten Wert
◦
•
N
ALLE Werte
Individiuen,
wi
i = 1, ..., N
wi , i = 1, ..., N
sind verschieden!
Zufallsstichprobe OHNE zurücklegen
◦ P (Xj = wi ) = N1 ∀j
◦ P (Xj = wi , Xj 0 = wi0 ) =
1
1
N N −1
X j , j = 1, ..., n
f ür i 6= i0
Interessierende Gröÿen:
N
P
1
1. µ =
wi
N
i=1
2.
σ2 =
1
N
N
P
(wi − µ)2
i=1
Punktschätzer:
n
P
1
1. µ̂ =
xj
n
j=1
2.
(a)
E(µ̂) = µ
(b)
V ar(µ̂) =
σ̂ 2 = 1 −
(a)
1
N
σ̂ 2
n
1
n−1
1−
n
P
n−1
N −1
(xj − µ̂)2
j=1
E(σ̂ 2 ) = σ 2
Intervallschätzung:
1−α
Kondenzintervall für
wobei
SE(µ̂) =
i
h
−1
µ: µ̂ − Φ−1
α SE(µ̂), µ̂ + Φ
α SE(µ̂)
1−
1−
2
√σ
n
2
2
Modell mit Verteilungsannahme:
jetzt nehmen wir an das unsere Daten einer gewissen Verteilung folgen, z.B.
eben einer Binomialverteilung oder einer Exponentialverteilung usw....
Dies ist eine strengere Annahme also oben, ermöglicht aber auch andere Schätzer
und Methoden zu verwenden.
Momentenmethode:
•
Modell mit p Parametern
•
X sei Zufallsvariable mit Dichte
•
Gleichungssystem:
θ1 , θ2 , . . . , θp
f (x; θ1 , θ2 , . . . , θp )
E(X) = g1 (θ1 , θ2 , . . . , θp )
E(X 2 ) = g2 (θ1 , θ2 , . . . , θp )
...
E(X p ) = gp (θ1 , θ2 , . . . , θp )
•
Ersetzen theoretische Momente durch empirische Momente
E(X j ) =
(z.B.
1
n
n
P
i=1
E(X 3 ) =
Xij
1
n
n
P
i=1
Xi3 )
Maximum Likelihood Methode:
•
X sei Zufallsvariable mit Dichte
f (x|θ0 )
oder Wahrscheinlichkeitsfunktion
p(x|θ0 )
•
Gegeben
•
Likelihood und log-Likelihood:
X1 , X2 , ..., Xn
iid verteilt
◦ L(θ) = Pθ (X1 = x1 , X2 = x2 , ..., Xn = xn ) = Pθ (X1 = x1 )Pθ (X2 =
n
Q
x2 )...Pθ (Xn = xn ) = p(x1 |θ)p(x2 |θ)...p(xn |θ) =
p(xi |θ)
i=1
◦ l(θ) = log (p(x1 |θ)p(x2 |θ)...p(xn |θ)) = log (p(x1 |θ)) + log (p(x2 |θ)) +
n
P
... + log (p(xn |θ)) =
log (p(xi |θ))
i=1
•
Dasselbe geht auch mit der Dichte statt der Wahrscheinlichkeitsfunktion
(siehe Vo)
•
Maximum Likelihood Schätzer ist nun jener Paramaterwert
Likelihood maximiert.
3
θ,
welcher die
•
ML Schätzer (θ̂n ) sind (unter geeigneten Glattheitsbedingungen an
◦
f
)
n→∞
∀θ ∈ Θ, ∀ > 0 : Pθ (|θ̂n − θ| > ) −→ 0
√
n→∞
◦ asymptotisch normal verteilt: ∀t ∈ R : Pθ
n(θ̂n − θ) ≤ t −→
konsistent:
ΦI(θ)−1 (t)
(Verteilungsfunktion einer
N 0, I(θ)−1
)
wichtige Sätze und Denitionen:
Zentraler Grenzwertsatz:
• X1 , X2 , ..., Xn iid mit endlichem E(Xi ) = µ und endlicher Varianz V ar(Xi ) =
σ 2 . Dann gilt:
◦
◦
√
w
n X̄−µ
→ N (0, 1)
σ
(gleichbedeutend:
Φ
√
n→∞
≤ t) → Φ(t) f ür jedes t ∈ R
P ( n X̄−µ
σ
wobei
die Verteilungsfunktion von N(0,1) ist)
Delta Methode:
• f : R → R dierenzierbar
im Punkt x0 und es seien Sn , n ≥ 1 Zufallsvari
√
w
ablen, so dass
n(Sn − x0 ) → N 0, σ 2 dann gilt:
√
w
=⇒ n(f (Sn ) − f (x0 )) → N 0, σ 2 (f 0 (x0 ))2
Fisher Information und Cramer Rao Schranke
•
f (x|θ0 ), θ0 ∈ ⊆ R
i
h
h 2
2 i
∂
∂
◦ I(θ0 ) = Eθ0 ∂θ
log f (x|θ0 )
= −Eθ0 ∂θ
2 log f (x|θ0 ) ...
Zufallsvariable
X
mit Dichte
Fisher
Information
(zweite Gleichung gilt NUR unter bestimmten Glattheitsbedingungen!)
•
iid Zufallsvariablen
θ
X1 , X2 , ..., Xn ,
für jeden unverzerrten Schätzer
gilt (unter geeigneten Glattheitsbedingungen an die Dichte):
−1
◦ V arθ0 (θ̂) ≥ (n I(θ0 ))
... Cramer Rao Schranke
4
θ̂
für
Part II
Testen
Gegeben 2 Hypothesen:
•
Nullhypothese:
•
Alternativhypothese:
H0
(z.B.
H1
H0 : f = f0 ; H0 : θ = θ0
(z.B.
usw.)
H1 : f = f1 ; H0 : θ < θ0 ; H0 : θ 6= θ0
usw.)
Gegeben Test
T
, welcher
H0
oder
H1
verwerfen bzw.
annehmen kann.
Alle
Möglichkeiten stehen in der nächsten Tabelle:
H0
Test entscheidet für
Test entscheidet für
H0
H1
richtig
Fehler 1. Art =
• α = P (T
H1 | H0 stimmt)
• β = P (T
H0 | H1 stimmt)
• 1 − β = P (T
• p − W ert
H1
stimmt
stimmt
β
1−β
Fehler 2. Art =
α
richtig: Power =
(auch size genannt)
H1 | H1 stimmt)
ist die Wahrscheinlichkeit das beobachtete oder ein extremeres
Testergebnis zu bekommen, gegeben die Nullhypothese stimmt (siehe Vo).
Neyman Pearson Lemma
Gegeben zwei simple/einfache Hypothesen:
• H0 :
X hat die Dichte
f0
• H1 :
X hat die Dichte
f1
Ein Likelihood Ratio Test
Signikanzniveau
α ∈ (0, 1)
f0 (x)
f1 (x) (≤ c verwirft H0 ) hat unter allen Tests mit
die gröÿtmögliche Power! (für simple Hypothe-
sen!)
Diverse Tests:
X1 , X2 , ..., Xn
seien im weiteren immer unabhängig identisch verteilt (iid)
Z-Test
X ∼ N (µ, σ 2 )
mit bekannter Varianz
• H0 : µ = µ0 gegen H1 : µ 6= µ0 (oder
√
0
• T = n X̄−µ
∼ N (0, 1) unter H0
σ
5
einseitige Alternative)
t-Test
s
X ∼ N (µ, σ 2 )
mit unbekannter Varianz (σ̂
• H0 : µ = µ0 gegen H1 : µ 6= µ0
√
0
• T = n X̄−µ
∼ tn−1 unter H0
σ̂
=
n
P
1
n−1
(Xi − X)2 wird geschätzt)
i=1
(oder einseitige Alternative)
F-Test
X (1) ∼ N (µ, σ12 ) (σ̂12 =
Erste Stichprobe
X (2) ∼ N (µ, σ22 )
Stichprobengröÿe n und m muss
1
n−1
n
P
(Xi − X)2
wird geschätzt),
i=1
zweite Stichprobe
• H0 :
σ12
σ22 gegen
=
• F =
σ̂12
σ̂22
∼ Fn−1,m−1
H1 :
σ12
unter
nicht gleich groÿ sein!
6= σ22
(oder einseitige Alternative)
H0
Likelihood Ratio Tests (allgemeines Setting)
X
iid mit Dichte
fθ
• H0 : θ ∈ Θ0
•
Seien
für
θ ∈ Θ ⊆ Rp .
H1 : θ ∈
/ Θ0
gegen
θ̂0 = argmaxL(θ)
und
Für eine Teilmenge
(keine simplen Hypothesen mehr!)
θ̂ = argmaxL(θ)
θ∈Θ
θ∈Θ0
• Λ=
•
L(θ̂0 )
L(θ̂)
Wilks Theorem: Unter geeigneten Glattheitsbedingungen gilt
χ2k−k0
•
Θ0 ⊆ Θ:
wobei
k
und
k0
die freien Parameter in
Bemerkung: in den einfachsten Fällen besteht
H0 : θ ∈ Θ0
wäre dann
Θ
Θ0
und
Θ0
w
−2 log Λ −→
n→∞
sind.
nur aus einem Element:
H0 : θ = θ0 .
Chi Quadrat-Test
Gegeben m Kategorien (Häugkeiten) oder Zufallsvariablen Xi
{1, ..., m} und Wahrscheinlichkeitsfunktion p(j) = P (Xi = j)
• pκ
mit Werten in
ist eine ganze Familie von Wahrscheinlichkeitsfunktionen (siehe Vo)
• Ej = erwartete ”Häuf igkeiten”
• H0 : p = pκ
• T =
m
P
gegen
und
Oj = beobachtete ”Häuf igkeiten”
H1 : p 6= pκ
w
(Ej −Oj )2
−→
Ej
n→∞
j=1
χ2m−1−# f reier P arameter
6
unter
H0
Herunterladen