FORMELSAMMLUNG STATISTIK B

Werbung
FORMELSAMMLUNG
STATISTIK B
Somersemester 2012
Prof. Kneip / Dr. Scheer / Dr. Arns
Version vom April 2012
Inhaltsverzeichnis
1 Wahrscheinlichkeitsrechnung
2
2 Diskrete Zufallsvariablen
5
3 Stetige Zufallsvariablen
10
4 Mehrdimensionale Zufallsvariablen
15
5 Parameterschätzung
19
6 Konfidenzintervalle
21
7 Testen von Hypothesen
23
Die geometrische Reihe und Summenformel:
n
∑
1 − q n+1
q =
1−q
k=0
Statistik B@LS-Kneip
k
(falls q ̸= 1)
und für |q| < 1:
∞
∑
k=0
qk =
1
1−q
Formelsammlung zur Statistik B
1
Seite 2
Wahrscheinlichkeitsrechnung
Kombinatorik
Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:
ohne Zurücklegen
Reihenfolge wichtig
Reihenfolge nicht wichtig
Sortieren nicht erlaubt“
”
Sortieren erlaubt“
”
( )
N
n
(
) (
)
n+N −1
n+N −1
=
n
N −1
N · (N − 1) · · · (N − (n − 1))
Nn
mit Zurücklegen
Binomialkoeffizienten
• Definition:
( )
n
n · (n − 1) · · · (n − (k − 1))
n!
=
=
k
k · (k − 1) · · · 1
k!(n − k)!
• Rechenregeln:
( ) ( )
n
n
=
=1
0
n
( ) (
)
n
n
=
k
n−k
( ) (
)
n
n
=
=n
1
n−1
( ) (
) (
)
n
n−1
n−1
=
+
k
k
k−1
Rechenregeln für Mengen
• Kommutativgesetz:
A∩B =B∩A
A∪B =B∪A
• Assoziativgesetz:
(A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
• Distributivgesetz:
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
• De Morgansche Regeln:
(A ∪ B) = Ā ∩ B̄
(A ∩ B) = Ā ∪ B̄
• Aus A ⊂ B folgt B̄ ⊂ Ā
• Für die Differenzmenge A\B gilt:
A\B = A ∩ B̄
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 3
Wahrscheinlichkeiten und Axiome von Kolmogoroff
• Endlicher Wahrscheinlichkeitsraum (S, P(S), P )
– Grundraum
S = {ω1 , ω2 , . . . ωN }.
– Ereignisse
P(S) = Menge aller Teilmengen A ⊂ S
– Wahrscheinlichkeit P
P (A) = Wahrscheinlichkeit für das Eintreten von A
Die Wahrscheinlichkeitsverteilung P erfüllt die Axiome von Kolmogoroff:
(A1)
(A2)
(A3)
(Nichtnegativität) P (A) ≥ 0
(Normiertheit)
P (S) = 1
(Additivität)
P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅
• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt
durch das Axiom
∞
∞
∑
∪
P (Ak ) für Ai ∩ Aj = ∅, i ̸= j
(A3’) (σ−Additivität)
P ( Ak ) =
k=1
k=1
Rechenregeln für Wahrscheinlichkeiten
1. P (∅) = 0, P (S) = 1, 0 ≤ P (A) ≤ 1
2. A ⊆ B
⇒
P (A) ≤ P (B)
3. P (Ā) = 1 − P (A) mit Ā = S\A
4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5. P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ),
falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅
6. P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An )
7. Wenn die Elementarwahrscheinlichkeiten pi = P ({ωi }), i = 1, 2, . . . bekannt sind,
dann gilt für die Wahrscheinlichkeit eines Ereignisses A:
∑
∑
P (A) =
P ({ωi }) =
pi
Statistik B@LS-Kneip
i:ωi ∈A
i:ωi ∈A
Formelsammlung zur Statistik B
Seite 4
Laplace-Modell
1. Annahme: Endlicher Grundraum S = {ω1 , . . . , ωN }
2. Annahme: P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN })
Wahrscheinlichkeiten: P (A) =
Anzahl ωi in A
#A
#A
=
=
Anzahl ωi in S
#S
N
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit von A gegeben B
P (A|B) =
P (A ∩ B)
P (B)
für A, B ⊂ S mit P (B) > 0
Unabhängigkeit von Ereignissen
• Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn
P (A ∩ B) = P (A) · P (B)
• Ereignisse A1 , . . . , An heißen stochastisch unabhängig, wenn für jede Auswahl
Ai1 , . . . , Aik mit k ≤ n gilt: P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik )
Multiplikationssatz
• Für Ereignisse A1 , . . . , An gilt:
P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ . . . ∩ An−1 )
• Falls die Ereignisse A1 , . . . , An unabhängig sind, gilt:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An )
Totale Wahrscheinlichkeit und Satz von Bayes
Seien A1 , . . . , Ak Ereignisse, die eine Zerlegung von S bilden (d.h. S ist disjunkte Vereinigung
der Ai ; es gilt: Ai ̸= ∅, Ai ∩ Aj = ∅, i ̸= j, und A1 ∪ A2 ∪ . . . ∪ Ak = S).
B sei ein Ereignis mit P (B) > 0.
P (B|Aj ) · P (Aj ) = P (B ∩ Aj ) = P (Aj |B) · P (B)
k
∑
P (B ∩ Ai )
(totale Wahrscheinlichkeit)
P (B|Aj ) · P (Aj )
P (B|Aj ) · P (Aj )
= k
P (B)
∑
P (B|Ai ) · P (Ai )
(Satz von Bayes)
P (B) =
P (B|Ai ) · P (Ai ) =
i=1
P (Aj |B) =
Statistik B@LS-Kneip
k
∑
i=1
i=1
Formelsammlung zur Statistik B
2
Seite 5
Diskrete Zufallsvariablen
$
'
Es sei X eine diskrete Zufallsvariable mit Werten x1 , x2 , . . . , xk , . . .
• Wahrscheinlichkeitsverteilung von X:
P [X = xi ] = pi ,
i = 1, 2, . . . , k, . . .
• Wahrscheinlichkeitsfunktion von X:


P [X = x] für x ∈ {x1 , x2 , . . . , xk , . . .}
f (x) =


0
sonst
• Verteilungsfunktion von X:
F (x) = P [X ≤ x] =
∑
f (xi )
xi ≤x
• Erwartungswert von X:
E(X) = µX =
∑
xi p i =
i≥1
• Varianz von X:
2
Var(X) = σX
= E(X − µX )2 = E(X 2 ) − µ2X =
∑
xi f (xi )
i≥1
∑
(xi − µX )2 pi =
i≥1
• Standardabweichung: σX =
√
∑
x2i pi − µ2X
i≥1
Var(X)
• Transformationsregel für Erwartungswerte:
Sei g(x) eine reelle Funktion. Dann gilt für Y = g(X)
∑
∑
E(Y ) = E(g(X)) =
g(xi )pi =
g(xi )f (xi )
&
Statistik B@LS-Kneip
i≥1
i≥1
%
Formelsammlung zur Statistik B
Seite 6
Diskrete Gleichverteilung
• X diskret gleichverteilt (auf a1 < . . . < ak )
• Verteilung von X
X = a1 , a 2 , . . . , a k
mit P ({X = ai }) =
1
k
• Werte der Verteilungsfunktion
P ({X ≤ ai }) =
i
k
• Erwartungswert und Varianz
1∑
E(X) =
ai
k i=1
k
1∑
Var(X) =
(ai − E(X))2
k i=1
k
Bernoulli-Verteilung
• Notation: X ∼ B(1, p)
mit
0≤p≤1
• Verteilung von X
{
1
X=
0
mit P ({X = 1}) = p
mit P ({X = 0}) = 1 − p
• Erwartungswert und Varianz
Statistik B@LS-Kneip
E(X) = p
Var(X) = p · (1 − p)
Formelsammlung zur Statistik B
Seite 7
Geometrische Verteilung
• Notation: X ∼ Geo(p)
mit
0<p≤1
• Verteilung von X
X = 1, 2, 3 . . .
mit
P ({X = k}) = (1 − p)k−1 p
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
∑
P ({X = k})
k=0
• Erwartungswert und Varianz
1
p
E(X) =
Var(X) =
1−p
p2
• Rekursionsformel
P ({X = k + 1})
= (1 − p)
P ({X = k})
Binomialverteilung
• Notation: X ∼ B(n, p)
• Verteilung von X
X = 0, 1, . . . , n
mit
mit
0≤p≤1
( )
n k
P ({X = k}) =
p (1 − p)n−k
k
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
∑
P ({X = k})
k=0
• Erwartungswert und Varianz
E(X) = np
Var(X) = np(1 − p)
• Rekursionsformel
Statistik B@LS-Kneip
n−k
p
P ({X = k + 1})
=
·
P ({X = k})
k+1 1−p
Formelsammlung zur Statistik B
Seite 8
Hypergeometrische Verteilung
#
• Notation: X ∼ H(n, M, N )
mit
M ≤ N, n ≤ N
• Verteilung von X
(M )(N −M )
P ({X = k}) =
k
(Nn−k
)
n
wobei
{
0, 1, . . . , n
falls n ≤ min(M, N − M )
X=
max(0, n + M − N ), . . . , min(n, M ) sonst
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
∑
P ({X = k})
k=0
• Erwartungswert und Varianz
M
E(X) = n
N
M
Var(X) = n
N
(
M
1−
N
)
N −n
N −1
• Rekursionsformel
"
P ({X = k + 1})
n−k
M −k
=
·
P ({X = k})
k + 1 N − M − (n − k − 1)
Approximation der Hypergeometrischen Verteilung
durch eine Binomialverteilung
!
Für X ∼ H(n, M, N ) und n klein gegenüber N, M und N − M gilt approximativ:
X ∼ B (n, p) ,
Statistik B@LS-Kneip
M
p=
N
(M )(N −M )
d.h.
P ({X = k}) =
k
(Nn−k
)
n
( )
n k
≈
p (1 − p)n−k
k
Formelsammlung zur Statistik B
Seite 9
Poisson-Verteilung
• Notation: X ∼ Po(λ)
mit
λ>0
• Verteilung von X
X = 0, 1, 2, 3 . . .
mit
P ({X = k}) =
λk −λ
e
k!
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
∑
P ({X = k})
k=0
• Erwartungswert und Varianz
E(X) = λ
Var(X) = λ
• Rekursionsformel
P ({X = k + 1})
λ
=
P ({X = k})
k+1
Approximation der Binomialverteilung durch eine Poisson-Verteilung
Für X ∼ B(n, p) und großes n bei gleichzeitig kleiner Erfolgswahrscheinlichkeit“ p
”
(Faustregel: np < 5 oder n(1 − p) < 5) gilt approximativ:
X ∼ P o(λ),
Statistik B@LS-Kneip
λ=n·p
d.h.
( )
n k
(np)k −np
P ({X = k}) =
p (1 − p)n−k ≈
e
k
k!
Formelsammlung zur Statistik B
3
Seite 10
Stetige Zufallsvariablen
'
$
Es sei X stetige Zufallsvariable (mit Werten x ∈ R)
• (Wahrscheinlichkeits-) Dichte von X
Funktion f (x) ≥ 0, so dass für jedes Intervall [a, b]:
∫b
P [a ≤ X ≤ b] =
∫∞
f (x)dx;
es gilt:
f (x)dx = 1
−∞
a
• Verteilungsfunktion von X
∫x
F (x) = P [X ≤ x] =
f (x)dx
−∞
• Erwartungswert von X
∫∞
x · f (x)dx
E(X) = µX =
−∞
• Varianz von X
∫∞
2
Var(X) = σX
= E(X − µX )2 = E(X 2 ) − µ2X =
(x − µX )2 f (x)dx
−∞
• Standardabweichung von X
σX =
√
Var(X)
• Quantile Für 0 < p < 1 ist das p-Quantil xp der Wert, für den gilt:
&
Statistik B@LS-Kneip
F (xp ) = P [X ≤ xp ] = p und 1 − F (xp ) = P [X ≥ xp ] = 1 − p
%
Formelsammlung zur Statistik B
Seite 11
Exponentialverteilung, X ∼ Ex(λ), mit λ > 0
• Dichte- und Verteilungsfunktion
{
λe−λx für x ≥ 0
fEx (x) =
0
sonst
{
0
FEx (x) =
1 − e−λx
für x < 0
für x ≥ 0
• Erwartungswert und Varianz
E(X) =
1
λ
Var(X) =
1
λ2
Stetige Gleichverteilung, X ∼ U (a, b), mit a < b
• Dichte- und Verteilungsfunktion
{
fU (x) =
1
b−a
0


0
für a ≤ x ≤ b
sonst
FU (x) =
x−a
 b−a

1
für x < a
für a ≤ x ≤ b
für x > b
• Erwartungswert und Varianz
E(X) =
a+b
2
Var(X) =
(b − a)2
12
Standardnormalverteilung, X ∼ N (0, 1)
• Dichte- und Verteilungsfunktion
( 2)
1
x
φ(x) = √ exp −
2
2π
für x ∈ R
1
Φ(x) = √
2π
∫x
−∞
(
t2
exp −
2
)
dt
• Erwartungswert und Varianz
Statistik B@LS-Kneip
E(X) = 0
Var(X) = 1
Formelsammlung zur Statistik B
Seite 12
Normalverteilung (Gauß-Verteilung), X ∼ N (µ, σ 2 )
$
'
• Dichte- und Verteilungsfunktion (für x ∈ R)
(
)
1
(x − µ)2
fN (x) = √
exp −
2σ 2
2πσ
1
FN (x) = √
2πσ
∫x
−∞
(
(t − µ)2
exp −
2σ 2
)
dt
• Erwartungswert und Varianz
E(X) = µ
Var(X) = σ 2
• Lineare Transformation: (a, b beliebige Zahlen)
X ∼ N (µ, σ 2 ) und Y = a · X + b
⇒
Y ∼ N (a · µ + b, a2 · σ 2 )
• Linearkombination: Xi ∼ N (µi , σi2 ) und unabhängig, a1 , . . . , an beliebige Zahlen
⇒
Y = a1 · X1 + · · · + an · Xn ∼ N (a1 · µ1 + · · · + an · µn , a21 · σ12 + · · · + a2n · σn2 )
• Rückführung auf die Standardnormalverteilung
– Standardisierung
X ∼ N (µ, σ 2 ) ⇒ Z =
X −µ
∼ N (0, 1)
σ
– Verteilungsfunktion
(
X ∼ N (µ, σ )
2
⇒
P [X ≤ x] = FN (x) = Φ
x−µ
σ
)
– Quantile (Für 0 < p < 1)
&
xp p-Quantil von N (µ, σ 2 )
Statistik B@LS-Kneip
⇒ xp = µ + σzp
wobei zp p-Quantil von N (0, 1)
%
Formelsammlung zur Statistik B
Seite 13
χ2 -Verteilung
• Definition und Bezeichnung
X1 , . . . , Xn unabhängige und N (0, 1)-verteilte Zufallsvariablen. Die Verteilung von
χ2 = X12 + · · · + Xn2 heißt Chi-Quadrat-Verteilung“ mit n Freiheitsgraden, kurz
”
χ2 ∼ χ2 (n).
• Erwartungswert und Varianz
E(χ2 ) = n
Var(χ2 ) = 2n
• Approximation durch die Normalverteilung
√
1
für n > 30: χ2 (n) ≈ N (n, 2n) für Quantile χ2p;n ≈ (zp + 2n − 1)2
2
t-Verteilung, Student-Verteilung
• Definition und Bezeichnung
X ∼ N (0, 1) und Y ∼ χ2 (n) unabhängig. Die Verteilung von T = √X
Y /n
Verteilung“ mit n Freiheitsgraden, kurz T ∼ t(n).
heißt t”
• Erwartungswert und Varianz
E(T ) = 0
Var(T ) =
n
n−2
(n > 2)
• Approximation durch die Normalverteilung
für n > 100: t(n) ≈ N (0, 1) für Quantile tp;n ≈ zp
Fisher-Verteilung, F -Verteilung
• Definition und Bezeichnung
Seien X ∼ χ2 (m) und Y ∼ χ2 (n) unabhängig. Dann heißt die Verteilung von
F =
X/m
Y /n
Fisher- oder F -Verteilung mit den Freiheitsgraden m und n, kurz F ∼ F (m, n).
• Erwartungswert
E(F ) =
Statistik B@LS-Kneip
n
n−2
(n > 2)
Formelsammlung zur Statistik B
Seite 14
Ungleichung von Tschebyscheff
• Zufallsvariable X mit E(X) = µ und Var(X) = σ(X)2 .
• Ungleichung von Tschebyscheff
Für c > 0 gilt: P [{|X − µ| ≥ c}] ≤
Var(X)
c2
• Ungleichung von Tschebyscheff als untere Schranke
Für c > 0 gilt: P [{|X − µ| < c}] ≥ 1 −
Var(X)
c2
• Zentrale Schwankungsintervalle
Für κ = 2, 3, 4, ...
]E[X] − κσ(X), E[X] + κσ(X)[
Zentraler Grenzwertsatz
Seien X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit Mittelwert µ und
Varianz σ 2 . Dann gilt für großes n approximativ:
[
]
X̄ − µ
√ ≤ z ≈ Φ(z)
P
σ/ n
(
X̄ ∼ N
d.h.
σ2
µ,
n
)
bzw.
n
∑
Xi ∼ N (nµ, nσ 2 )
i=1
Approximation der Binomialverteilung durch eine Normalverteilung
Sei X ∼ B(n, p). Für großes n gilt approximativ
X − np
√
∼ N (0, 1)
np(1 − p)
Anwendung mit Stetigkeitskorrektur:
(
P [x1 ≤ X ≤ x2 ] ≈ Φ
Statistik B@LS-Kneip
x2 + 0, 5 − np
√
np(1 − p)
(
)
−Φ
x1 − 0, 5 − np
√
np(1 − p)
)
Formelsammlung zur Statistik B
4
Seite 15
Mehrdimensionale Zufallsvariablen
Zweidimensionale diskrete Zufallsvariablen
'
$
(X, Y ) sei eine bivariate diskrete Zufallsvariable mit k bzw. m Ausprägungen
• Gemeinsame Wahrscheinlichkeitsfunktion (gemeinsame Verteilung)
{
P [X = x, Y = y] für (x, y) = (x1 , y1 ), . . .
f (x, y) =
0
sonst
• Gemeinsame Verteilungsfunktion
F (x, y) = P [X ≤ x, Y ≤ y] =
∑∑
f (xi , yj )
xi ≤x yj ≤y
• Randverteilung von X
m
∑
fX (x) = P [X = x] =
f (x, yj )
j=1
• Randverteilung von Y
fY (y) = P [Y = y] =
k
∑
f (xi , y)
i=1
• Bedingte Wahrscheinlichkeitsfunktion (bedingte Verteilung)
– Bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y
fX (x|y) = P [X = x|Y = y] =
f (x, y)
fY (y)
(fX (x|y) = 0, falls fY (y) = 0.)
– Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x
fY (y|x) = P [Y = y|X = x] =
f (x, y)
fX (x)
(fY (y|x) = 0, falls fX (x) = 0.)
• Bedingter Erwartungswert von Y gegeben X = x
µY |X=x = E(Y |X = x) =
m
∑
yj fY (yj |x)
j=1
• Bedingter Erwartungswert von X gegeben Y = y
µX|Y =y = E(X|Y = y) =
&
Statistik B@LS-Kneip
k
∑
i=1
xi fX (xi |y)
%
Formelsammlung zur Statistik B
Seite 16
Zweidimensionale stetige Zufallsvariablen
'
(X, Y ) sei eine bivariate stetige Zufallsvariable (mit Werten (x, y) ∈ R2 )
• (Wahrscheinlichkeits-) Dichte von (X, Y )
2-dimensionale Funktion f (x, y) ≥ 0, so dass für jedes Rechteck [a, b] × [c, d]:
∫b ∫d
P [a ≤ X ≤ b, c ≤ Y ≤ d] =
∫∞ ∫∞
f (x, y) dx dy;
a
$
es gilt:
f (x, y) dx dy = 1
−∞ −∞
c
Das Doppelintegral entspricht dem von der Funktion f (x, y) eingeschlossenen Volumen
über der Grundfläche [a, b] × [c, d].
• Gemeinsame Verteilungsfunktion
∫x ∫y
F (x, y) = P [X ≤ x, Y ≤ y] =
f (s, t) ds dt
−∞ −∞
• Randdichten von X bzw. Y
∫∞
fX (x) =
∫∞
f (x, y) dy
bzw. fY (y) =
−∞
f (x, y) dx
−∞
• Bedingte Dichte von X gegeben Y = y bzw. von Y gegeben X = x
fX (x|y) =
f (x, y)
fY (y)
bzw.
fY (y|x) =
f (x, y)
fX (x)
• Bedingter Erwartungswert von Y gegeben X = x
∫∞
µY |X=x = E(Y |X = x) =
yfY (y|x) dy
−∞
• Bedingter Erwartungswert von X gegeben Y = y
∫∞
µX|Y =y = E(X|Y = y) =
&
Statistik B@LS-Kneip
xfX (x|y) dx
−∞
%
Formelsammlung zur Statistik B
Seite 17
Kovarianz und Korrelation
'
2
Zufallsvariablen X und Y , mit µX = E(X), µY = E(Y ), Var(X) = σX
, Var(Y ) = σY2
$
• Kovarianz von X und Y
σXY = Cov(X, Y ) = E ((X − µX )(Y − µY )) = E(X · Y ) − E(X) · E(Y )
• Erwartungswert E(X · Y )
∑ ∑

xi yj f (xi , yj )



 i j
E(X · Y ) = ∫∞ ∫∞


xy f (x, y)dx dy



X, Y diskret
X, Y stetig
−∞ −∞
• Symmetrie
Cov(X, Y ) = Cov(Y, X)
• Lineare Transformationen
Für X ∗ = aX + b und Y ∗ = cY + d
gilt
Cov(X ∗ , Y ∗ ) = a · c · Cov(X, Y )
• Korrelation zwischen X und Y
Cov(X, Y )
σXY
√
ρXY = √
=
σX · σY
Var(X) Var(Y )
• Varianz der Summe zweier Zufallsvariablen
Var(X + Y ) = Var(X) + Var(Y ) + 2 · Cov(X, Y )
Falls X, Y unkorreliert ⇒ Var(X + Y ) = Var(X) + Var(Y )
• Gewichtete Summe von Zufallsvariablen
Zufallsvariablen X1 , . . . , Xk , Zahlen a1 , . . . , ak ; für X = a1 · X1 + · · · + ak · Xk gilt:
E(X) = a1 · E(X1 ) + · · · + ak · E(Xk )
Var(X) =
&
Statistik B@LS-Kneip
k
∑
i=1
a2i · Xi + 2
∑
i<j
ai · aj · Cov(Xi , Xj )
%
Formelsammlung zur Statistik B
Seite 18
Unabhängigkeit von zwei Zufallsvariablen
• Definition: X und Y heißen unabhängig, falls
f (x, y) = fX (x) · fY (y)
bzw. P [X ≤ x, Y ≤ y] = P [X ≤ x] · P [Y ≤ y]
für alle x, y
für alle x, y
• Zusätzliche Rechenregeln: Falls X und Y unabhängig sind, gilt:
E(X · Y ) = E(X) · E(Y )
Var(X + Y ) = Var(X) + Var(Y )
fY (y|X = x) = fY (y) für alle x
E(Y |X = x) = E(Y ) für alle x
fX (x|Y = y) = fX (x) für alle y
E(X|Y = y) = E(X) für alle y
• Zwei diskrete Zufallsvariablen sind unabhängig, falls
P [X = x, Y = y] = P [X = x] · P [Y = y]
für alle x, y
Unabhängigkeit mehrerer Zufallsvariablen
• Defintion: Zufallsvariablen X1 , . . . , Xn heißen unabhängig, falls
P [X1 ≤ x1 , . . . , Xn ≤ xn ] = P [X1 ≤ x1 ] · · · P [Xn ≤ xn ]
bzw. f (x1 , . . . , xk ) = fX1 (x1 ) · · · fXn (xn )
für alle x1 , . . . , xn
für alle x1 , . . . , xn
f (x1 , . . . , xn ) bezeichnet die gemeinsame Dichte von X1 , . . . , Xn .
fXi (xi ) bezeichnet die Randdichte von Xi , 1 ≤ i ≤ n.
• Diskrete Zufallsvariablen X1 , . . . , Xn sind unabhängig, falls
P [X1 = x1 , . . . , Xn = xn ] = P [X1 = x1 ] · · · P [Xn = xn ]
Statistik B@LS-Kneip
für alle x1 , . . . , xn
Formelsammlung zur Statistik B
5
Seite 19
Parameterschätzung
$
'
• Statistisches Modell
– X1 , . . . , Xn Zufallsstichprobe
– Verteilung von X hängt von einem Parameter θ ab
– Beobachtete (realisierte) Werte: x1 , . . . , xn
• Schätzer für θ:
• Schätzwert für θ:
θ̂n = g(X1 , . . . , Xn )
θ̂n = g(x1 , . . . , xn )
(Zufallsvariable)
(reelle Zahl)
• Bias (Verzerrung, systematischer Schätzfehler von θ̂n ):
Bias(θ̂n ) = E(θ̂n ) − θ
• Varianz (zufallsbedingter Schätzfehler):
Var(θ̂n ) = E(θ̂n − E(θ̂n ))2
• Mittlerer quadratischer Schätzfehler (MSE, Mean Squared Error):
(
)
MSE(θ̂n ) = E (θ̂n − θ)2 = Var(θ̂n ) + Bias(θ̂n )2
• Schwache Konsistenz:
θ̂n ist schwach konsistent für θ, falls
für jedes c > 0 :
P (|θ̂n − θ| ≥ c) → 0 für n → ∞ gilt.
• MSE-Konsistenz:
θ̂ n ist MSE-konsistent für θ, falls
MSE(θ̂ n ) → 0
MSE-Konsistenz ⇒ schwache Konsistenz
&
Statistik B@LS-Kneip
für n → ∞ gilt.
%
Formelsammlung zur Statistik B
Seite 20
Maximum Likelihood–Schätzung
#
• Statistisches Modell
– X1 , . . . , Xn einfache Zufallsstichprobe, d.h. unabhängige Wiederholungen von X
– Verteilung von X hängt von einem Parameter θ ab
– Beobachtete (realisierte) Werte: x1 , . . . , xn
• Likelihood–Funktion L(θ)
L(θ) ≡ L(x1 , . . . , xn |θ) =
n
∏
f (xi |θ) = f (x1 |θ) · · · f (xn |θ)
i=1
f (x) ≡ f (x|θ) bezeichnet für diskretes X die Wahrscheinlichkeitsfunktion und für
stetiges X die Dichtefunktion.
• Maximum Likelihood–Schätzung von θ
– Schätzfunktion: θ̂ ⇔ arg max L(X1 , . . . , Xn |θ)
θ
– Schätzwert: θ̂ ⇔ arg max L(x1 , . . . , xn |θ)
θ
• Log-Likelihood-Funktion ln L(θ) (rechentechnisch oft günstiger)
ln L(θ) = ln L(x1 , . . . , xn |θ) =
"
Statistik B@LS-Kneip
n
∑
i=1
ln f (xi |θ)
!
Formelsammlung zur Statistik B
6
Seite 21
Konfidenzintervalle
#
• (1 − α)-Konfidenzintervall für θ
Stichprobenfunktionen Gu = gu (X1 , . . . , Xn ) und Go = go (X1 , . . . , Xn ), so dass (zu
vorgegebener Irrtumswahrscheinlichkeit α)
P [Gu ≤ Go ] = 1
und
P [θ ∈ [Gu , Go ]] = P [Gu ≤ θ ≤ Go ] = 1 − α
⇒ [Gu , Go ] = [gu (X1 , . . . , Xn ), go (X1 , . . . , Xn )] ist ein (1 − α)-Konfidenzintervall für θ.
• Konfidenzniveau (Überdeckungs- , Vertrauenswahrscheinlichkeit): 1 − α
• Realisiertes (1 − α)-Konfidenzintervall
Beobachtete Werte x1 , . . . , x2
⇒
[gu , go ] = [gu (x1 , . . . , xn ), go (x1 , . . . , xn )]
• Symmetrisches (1 − α)–Konfidenzintervall
erfüllt zusätzlich: P [θ < Gu ] = P [θ > Go ] =
α
2
• Einseitiges (1 − α)-Konfidenzintervall (mit unterer Schranke)
[Gu , ∞[ mit P [Gu ≤ θ] = 1 − α
• Einseitiges (1 − α)-Konfidenzintervall (mit oberer Schranke)
] − ∞, Go ] mit P [θ ≤ Go ] = 1 − α
"
Konfidenzintervall für einen Erwartungswert, bekannte Varianz
• Annahmen:
!
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
– Bekannte Varianz σ 2
• (1 − α)-Konfidenzintervall für µ und bekannter Varianz σ 2 :
[
]
σ
σ
X̄ − z1−α/2 √ , X̄ + z1−α/2 √
n
n
• Anmerkung:
Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes
(1 − α)-Konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen
aber großem Stichprobenumfang) um ein approximatives.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 22
Konfidenzintervall für einen Erwartungswert, unbekannte Varianz
'
• Annahmen:
$
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
– Unbekannte Varianz σ 2
• (1 − α)-Konfidenzintervall für µ:
[
]
S
S
X − t1−α/2;n−1 √ , X + t1−α/2;n−1 √
n
n
1 ∑
(Xi − X)2
n − 1 i=1
n
mit S 2 =
• Anmerkung:
Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes
(1 − α)-Konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen
aber großem Stichprobenumfang) um ein approximatives.
Konfidenzintervall für eine Varianz
• Annahmen:
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
• (1 − α)-Konfidenzintervall für σ 2 :
[
]
(n − 1)S 2 (n − 1)S 2
,
χ21−α/2;n−1 χ2α/2;n−1
1 ∑
mit S =
(Xi − X̄)2
n − 1 i=1
n
2
Approximatives Konfidenzintervall für einen Anteilswert
• Annahmen:
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ Bernoulli(p)
– Großer Stichprobenumfang; Faustregel: n > 30, np > 5
• Approximatives (1 − α)-Konfidenzintervall für p:
[
]
√
√
p̂(1 − p̂)
p̂(1 − p̂)
p̂ − z1− α2
, p̂ + z1− α2
n
n
&
Statistik B@LS-Kneip
mit p̂ = X
%
Formelsammlung zur Statistik B
7
Seite 23
Testen von Hypothesen
Allgemein gelten folgende Annahmen und Hypothesen:
• Annahmen:
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
– Bekannte Varianz σ 2
• Hypothesen:
(1) H0 : µ = µ0 gegen H1 : µ ̸= µ0
(2) H0 : µ = µ0 gegen H1 : µ > µ0
(3) H0 : µ = µ0 gegen H1 : µ < µ0
H0 : µ = µ 0
H1 : µ ̸= µ0
H0 : µ = µ0
H 1 : µ > µ0
H0 : µ = µ 0
H1 : µ < µ 0
Gauß
AB
p-Wert
|zbeob | > z1−α/2
2 · P [Z ≥ |zbeob |]
zbeob > z1−α
P [Z ≥ zbeob ]
zbeob < −z1−α
P [Z ≤ zbeob ]
t-test
AB
p-Wert
|tbeob | > t1−α/2;n−1
2 · P [T ≥ |tbeob |]
tbeob > t1−α;n−1
P [T ≥ tbeob ]
tbeob < −t1−α;n−1
P [T ≤ tbeob ]
approx.
Binomi
AB
p-Wert
|zbeob | > z1−α/2
2 · P [Z ≥ |zbeob |]
zbeob > z1−α
P [Z ≥ zbeob ]
zbeob < −z1−α
P [Z ≤ zbeob ]
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 24
Gauß-Test
• Teststatistik:
√
Z=
• Verteilung von Z unter H0 :
n(X̄ − µ0 )
σ
Z ∼ N (0, 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |zbeob | > z1−α/2
(2) zbeob > z1−α
(3) zbeob < −z1−α
• Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1)
(1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |]
(2) p-Wert = P [Z ≥ zbeob ]
(3) p-Wert = P [Z ≤ zbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für großen
Stichprobenumfang i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 25
t-Test (Ein-Stichproben-Fall, σ 2 unbekannt)
• Teststatistik:
√
T =
n(X̄ − µ0 )
S
• Verteilung von T unter H0 :
1 ∑
mit S =
(Xi − X̄)2
n − 1 i=1
n
2
T ∼ t(n − 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;n−1
(2) tbeob > t1−α;n−1
(3) tbeob < −t1−α;n−1
• Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen
Stichprobenumfang i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 26
Approximativer Binomialtest
• Teststatistik:
p̂ − p0
Z=√
p0 (1 − p0 )/n
mit p̂ = X
• Aproximative Verteilung von Z unter H0 :
Z ∼ N (0, 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |zbeob | > z1−α/2
(2) zbeob > z1−α
(3) zbeob < −z1−α
• Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1)
(1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |]
(2) p-Wert = P [Z ≥ zbeob ]
(3) p-Wert = P [Z ≤ zbeob ]
• Anmerkung:
Unter H0 gilt (exakt): np̂ ∼ B(n, p0 ). Mit den entsprechenden Quantilen der Binomialverteilung erhält man den sogenannten exakten Binomialtest.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 27
Vergleich der Erwartungswerte, σx2 , σy2 bekannt
• Teststatistik:
Z=√
• Verteilung von Z unter H0 :
X −Y
2
σ2
σX
+ Y
n
m
Z ∼ N (0, 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |zbeob | > z1−α/2
(2) zbeob > z1−α
(3) zbeob < −z1−α
• Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1)
(1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |]
(2) p-Wert = P [Z ≥ zbeob ]
(3) p-Wert = P [Z ≤ zbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für große
Stichprobenumfänge m, n i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 28
t-Test (Zwei-Stichproben-Fall), σi unbekannt, aber σx2 =σy2
• Teststatistik:
T =
S
√
X −Y
1/n + 1/m
mit S 2 =
2
(n − 1)SX
+ (m − 1)SY2
n+m−2
• Verteilung von T unter H0 :
T ∼ t(n + m − 2)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;n+m−2
(2) tbeob > t1−α;n+m−2
(3) tbeob < −t1−α;n+m−2
• Überschreitungswahrscheinlichkeit: Für T ∼ t(n + m − 2)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große
Stichprobenumfänge m, n i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 29
t-Test (Zwei-Stichproben-Fall), σi unbekannt, σx2 ̸= σy2
'
• Teststatistik:
T =√
$
X −Y
2
S2
SX
+ Y
n
m
• Verteilung von T unter H0 :
)2
2
SX
SY2
+
n
m
wobei k größte ganze Zahl mit k ≤
( 2 )2
( 2 )2
1
SX
1
SY
+
n−1 n
m−1 m
(
T ∼ t(k)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;k
(2) tbeob > t1−α;k
(3) tbeob < −t1−α;k
• Überschreitungswahrscheinlichkeit: Für T ∼ t(k)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große
Stichprobenumfänge m, n i.Allg. approximativ gültig.
&
%
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 30
t-Test (verbundene Stichproben)
• Teststatistik:
√
nD
T =
SD
1 ∑
=
(Di − D)2
n − 1 i=1
n
mit
2
SD
• Verteilung von T unter H0 :
Di = Xi − Yi
T ∼ t(n − 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;n−1
(2) tbeob > t1−α;n−1
(3) tbeob < −t1−α;n−1
• Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen
Stichprobenumfang i.Allg. approximativ gültig.
χ2 -Unabhängigkeitstest
• Teststatistik:
(
χ2 =
k ∑
m
∑
i=1 j=1
hi· h·j
hij −
n
hi· h·j
n
)2
• Approximative Verteilung von χ2 unter H0 :
χ2 ∼ χ2 ((k − 1)(m − 1))
falls
hi· h·j
≥ 5 für alle i, j
n
• Ablehnungsbereich (Test zum Niveau α):
χ2beob > χ21−α;(k−1)(m−1)
• Überschreitungswahrscheinlichkeit: Für χ2 ∼ χ2 ((k − 1)(m − 1))
p-Wert = P [χ2 ≥ χ2beob ]
Statistik B@LS-Kneip
Zugehörige Unterlagen
Herunterladen