FORMELSAMMLUNG STATISTIK B

Werbung
FORMELSAMMLUNG
STATISTIK B
Somersemester 2010
Dr. Scheer / J. Arns
Version vom April 2010
Inhaltsverzeichnis
1 Wahrscheinlichkeitsrechnung
2
2 Zufallsvariablen
5
3 Diskrete Verteilungsmodelle
7
4 Parameterschätzung
11
5 Kovarianz und Korrelation
13
6 Verteilungen bei 2 Zufallsvariablen
14
7 Unabhängige Zufallsvariablen
16
8 Stetige Zufallsvariablen
17
9 Zentraler Grenzwertsatz
21
10 Konfidenzintervalle
22
11 Testen von Hypothesen
24
Die geometrische Reihe und Summenformel:
n
X
1 − q n+1
q =
1−q
k=0
Statistik B@LS-Kneip
k
(falls q 6= 1)
und für |q| < 1:
∞
X
k=0
qk =
1
1−q
Formelsammlung zur Statistik B
1
Seite 2
Wahrscheinlichkeitsrechnung
Kombinatorik
Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:
ohne Zurücklegen
Reihenfolge wichtig
Reihenfolge nicht wichtig
Sortieren nicht erlaubt“
”
Sortieren erlaubt“
”
N
n
n+N −1
n+N −1
=
n
N −1
N · (N − 1) · · · (N − (n − 1))
Nn
mit Zurücklegen
Binomialkoeffizienten
• Definition:
n!
n
n · (n − 1) · · · (n − (k − 1))
=
=
k
k · (k − 1) · · · 1
k!(n − k)!
• Rechenregeln:
n
n
=
=1
0
n
n
n
=
k
n−k
n
n
=
=n
1
n−1
n
n−1
n−1
=
+
k
k
k−1
Rechenregeln für Mengen
• Kommutativgesetz:
A∩B =B∩A
A∪B =B∪A
• Assoziativgesetz:
(A ∩ B) ∩ C = A ∩ (B ∩ C)
(A ∪ B) ∪ C = A ∪ (B ∪ C)
• Distributivgesetz:
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
• De Morgansche Regeln:
(A ∪ B) = Ā ∩ B̄
(A ∩ B) = Ā ∪ B̄
• Aus A ⊂ B folgt B̄ ⊂ Ā
• Für die Differenzmenge A\B gilt:
A\B = A ∩ B̄
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 3
Wahrscheinlichkeiten und Axiome von Kolmogoroff
• Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P )
– Grundraum
Ω = {ω1 , ω2 , . . . ωN }.
– Ereignisse
P(Ω) = Menge aller Teilmengen A ⊂ Ω
– Wahrscheinlichkeit P
P (A) = Wahrscheinlichkeit für das Eintreten von A
Die Wahrscheinlichkeitsverteilung P erfüllt die Axiome von Kolmogoroff :
(A1)
(A2)
(A3)
(Nichtnegativität) P (A) ≥ 0
(Normiertheit)
P (Ω) = 1
(Additivität)
P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅
• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt
durch das Axiom
∞
∞
X
[
P (Ak ) für Ai ∩ Aj = ∅, i 6= j
(A3’) (σ−Additivität)
P ( Ak ) =
k=1
k=1
Rechenregeln für Wahrscheinlichkeiten
1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1
2. A ⊆ B
⇒
P (A) ≤ P (B)
3. P (Ā) = 1 − P (A) mit Ā = Ω\A
4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
5. P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ),
falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅
6. P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An )
7. Wenn die Elementarwahrscheinlichkeiten pi = P ({ωi }), i = 1, 2, . . . bekannt sind,
dann gilt für die Wahrscheinlichkeit eines Ereignisses A:
X
X
P (A) =
P ({ωi }) =
pi
Statistik B@LS-Kneip
i:ωi ∈A
i:ωi ∈A
Formelsammlung zur Statistik B
Seite 4
Laplace-Modell
1. Annahme: Endlicher Grundraum Ω = {ω1 , . . . , ωN }
2. Annahme: P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN })
Wahrscheinlichkeiten: P (A) =
Anzahl ωi in A
#A
#A
=
=
Anzahl ωi in Ω
#Ω
N
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit von A gegeben B
P (A|B) =
P (A ∩ B)
P (B)
für A, B ⊂ Ω mit P (B) > 0
Unabhängigkeit von Ereignissen
• Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn
P (A ∩ B) = P (A) · P (B)
• Ereignisse A1 , . . . , An heißen stochastisch unabhängig, wenn für jede Auswahl
Ai1 , . . . , Aik mit k ≤ n gilt: P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik )
Multiplikationssatz
• Für Ereignisse A1 , . . . , An gilt:
P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ . . . ∩ An−1 )
• Falls die Ereignisse A1 , . . . , An unabhängig sind, gilt:
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An )
Totale Wahrscheinlichkeit und Satz von Bayes
Seien A1 , . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte Vereinigung der Ai ; es gilt: Ai 6= ∅, Ai ∩ Aj = ∅, i 6= j, und A1 ∪ A2 ∪ . . . ∪ An = Ω).
B sei ein Ereignis mit P (B) > 0.
P (B|Ak ) · P (Ak ) = P (B ∩ Ak ) = P (Ak |B) · P (B)
n
n
X
X
P (B) =
P (B|Ai ) · P (Ai ) =
P (B ∩ Ai )
i=1
P (Ak |B) =
Statistik B@LS-Kneip
(totale Wahrscheinlichkeit)
i=1
P (B|Ak ) · P (Ak )
P (B|Ak ) · P (Ak )
= n
X
P (B)
P (B|Ai ) · P (Ai )
i=1
(Satz von Bayes)
Formelsammlung zur Statistik B
2
Seite 5
Zufallsvariablen
'
$
Daten (Statistik I und II)
Modell (Statistik II)
Beobachtungen x1 , x2 , . . . , xn eines
Merkmals X mit den Ausprägungen
a1 , a2 , . . . , ak
Relative Häufigkeiten
Zufallsvariable X mit Werten a1 , . . . , ak
f (ai ) = fi =
hi
n
i = 1, ..., k
Häufigkeitsverteilung
Stabdiagramm“ der rel. Häufigkeiten
”
Wahrscheinlichkeitsverteilung von X
P ({X = ai }) = pi ,
Wahrscheinlichkeitsfunktion
Stabdiagramm“ der Wahrscheinlichkeiten
”
pi = P ({X = ai })
fi = f (ai )
Empirische Verteilungsfunktion
X
X
F (x) =
fi =
f (ai )
i:ai ≤x
k
X
1X
xi
n i=1
E(X) =
k
X
ai · P ({x = ai }) =
i=1
ai · p i
i=1
k
X
Var(X) =
(ai − E(X))2 · pi
=
i=1
k
X
a2i pi − E(X)2
i=1
i=1
Empirische Standardabweichung
p
s˜x = s̃2x
Standardabweichung der ZVa X
p
σ(X) = Var(X)
&
Statistik B@LS-Kneip
k
X
Varianz der ZVa X
a2i fi − x̄2
Notation: E(X) = µX = µ,
P ({X = ai })
Erwartungswert der ZVa X
k
X
=
(ai − x̄)2 fi
i=1
k
X
X
i:ai ≤x
Empirische Varianz
=
FX (x) = P ({X ≤ x}) =
n
ai · f i =
i=1
s̃2x
Verteilungsfunktion
i:ai ≤x
Arithmetisches Mittel
x̄ =
i = 1, 2, . . . , k
%
2
Var(X) = σX
= σ2,
σ(X) = σX = σ
Formelsammlung zur Statistik B
Seite 6
Ungleichung von Tschebyscheff
• Zufallsvariable X mit E(X) = µ und Var(X) = σ(X)2 .
• Ungleichung von Tschebyscheff
Für c > 0 gilt: P [{|X − µ| ≥ c}] ≤
Var(X)
c2
• Ungleichung von Tschebyscheff als untere Schranke
Für c > 0 gilt: P [{|X − µ| < c}] ≥ 1 −
Var(X)
c2
• Zentrale Schwankungsintervalle
]E[X] − κσ(X), E[X] + κσ(X)[
Für κ = 2, 3, 4, ...
Standardisierung einer Zufallsvariablen
• Gegeben: ZVa X mit E(X) und Var(X) > 0
• Standardisierte ZVa X∗
X∗ =
• Eigenschaften:
Statistik B@LS-Kneip
X − E(X)
X −µ
=
σ(X)
σ
E(X ∗ ) = 0 und
Var(X ∗ ) = 1
Formelsammlung zur Statistik B
3
Seite 7
Diskrete Verteilungsmodelle
Bernoulli-Verteilung
• Notation: X ∼ B(1, p)
0≤p≤1
mit
• Verteilung von X
(
1
X=
0
mit P ({X = 1}) = p
mit P ({X = 0}) = 1 − p
• Erwartungswert und Varianz
E(X) = p
Var(X) = p · (1 − p)
Diskrete Gleichverteilung
• X diskret gleichverteilt (auf a1 < . . . < ak )
• Verteilung von X
X = a1 , a2 , . . . , ak
mit P ({X = ai }) =
1
k
• Werte der Verteilungsfunktion
P ({X ≤ ai }) =
i
k
• Erwartungswert und Varianz
k
Statistik B@LS-Kneip
1X
E(X) =
ai
k i=1
k
1X
Var(X) =
(ai − E(X))2
k i=1
Formelsammlung zur Statistik B
Seite 8
Hypergeometrische Verteilung
#
• Notation: X ∼ H(n, M, N )
mit
M ≤ N, n ≤ N
• Verteilung von X
P ({X = k}) =
M
k
N −M
n−k
N
n
wobei
(
0, 1, . . . , n
falls n ≤ min(M, N − M )
X=
max(0, n + M − N ), . . . , min(n, M ) sonst
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
X
P ({X = k})
k=0
• Erwartungswert und Varianz
M
E(X) = n
N
M
Var(X) = n
N
M N −n
1−
N N −1
• Rekursionsformel
"
Statistik B@LS-Kneip
n−k
M −k
P ({X = k + 1})
=
·
P ({X = k})
k + 1 N − M − (n − k − 1)
!
Formelsammlung zur Statistik B
Seite 9
Binomialverteilung
• Notation: X ∼ B(n, p)
mit
0≤p≤1
• Verteilung von X
X = 0, 1, . . . , n
mit
n k
P ({X = k}) =
p (1 − p)n−k
k
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
X
P ({X = k})
k=0
• Erwartungswert und Varianz
Var(X) = np(1 − p)
E(X) = np
• Rekursionsformel
P ({X = k + 1})
n−k
p
=
·
P ({X = k})
k+1 1−p
Geometrische Verteilung
• Notation: X ∼ Geo(p)
mit
0<p≤1
• Verteilung von X
X = 1, 2, 3 . . .
mit
P ({X = k}) = (1 − p)k−1 p
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
X
P ({X = k})
k=0
• Erwartungswert und Varianz
E(X) =
1
p
Var(X) =
1−p
p2
• Rekursionsformel
Statistik B@LS-Kneip
P ({X = k + 1})
= (1 − p)
P ({X = k})
Formelsammlung zur Statistik B
Seite 10
Poisson-Verteilung
• Notation: X ∼ Po(λ)
mit
λ>0
• Verteilung von X
X = 0, 1, 2, 3 . . .
mit
P ({X = k}) =
λk −λ
e
k!
• Werte der Verteilungsfunktion
P ({X ≤ i}) =
i
X
P ({X = k})
k=0
• Erwartungswert und Varianz
E(X) = λ
Var(X) = λ
• Rekursionsformel
λ
P ({X = k + 1})
=
P ({X = k})
k+1
Approximation der Hypergeometrischen Verteilung
durch eine Binomialverteilung
Für X ∼ H(n, M, N ) und n klein gegenüber N, M und N − M gilt approximativ:
X ∼ B (n, p) ,
M
p=
N
d.h.
P ({X = k}) =
M
k
N −M
n−k
N
n
n k
≈
p (1 − p)n−k
k
Approximation der Binomialverteilung durch eine Poisson-Verteilung
Für X ∼ B(n, p) und großes n bei gleichzeitig kleiner Erfolgswahrscheinlichkeit“ p
”
(Faustregel: np < 5 oder n(1 − p) < 5) gilt approximativ:
X ∼ P o(λ),
Statistik B@LS-Kneip
λ=n·p
d.h.
n k
(np)k −np
P ({X = k}) =
p (1 − p)n−k ≈
e
k
k!
Formelsammlung zur Statistik B
4
Seite 11
Parameterschätzung
Schätzung eines Anteilswertes
Allgemein
Parameter
p
θ
Modell
(Verteilung)
Xi ∼ B(1, p), bzw. Sn ∼ B(n, p)
Zufallsvariable Sn = Anzahl der
Merkmalsträger in Stichprobe vom
Umfang n
Xi hat Verteilung, die vom
Daten:
k Merkmalsträger aus n
x1 , ..., xn
Schätzer:
(Zufallsvariable)
1
1X
Rn = Sn =
Xi
n
n i=1
Parameter θ abhängt.
n
Schätzwert:
(reelle Zahl)
Statistik B@LS-Kneip
p̂n =
k
n
θ̂ n = g(X1 , . . . Xn )
θ̂n = g(x1 , . . . xn )
Formelsammlung zur Statistik B
Seite 12
'
$
• Statistisches Modell
– X1 , . . . , Xn einfache Zufallsstichprobe, d.h. unabhängige Wiederholungen von X
– Verteilung von X hängt von einem Parameter θ ab
– Beobachtete (realisierte) Werte: x1 , . . . , xn
• Schätzer für θ:
θ̂n = g(X1 , . . . , Xn )
• Schätzwert für θ:
θ̂n = g(x1 , . . . , xn )
(Zufallsvariable)
(reelle Zahl)
• Bias (Verzerrung, systematischer Schätzfehler von θ̂n ):
Bias(θ̂n ) = E(θ̂n ) − θ
• Erwartungstreue (kein systematischer Schätzfehler):
θ̂n heißt erwartungstreu, (unbiased, unverzerrt) für θ, falls
Bias(θ̂n ) = 0, bzw.
E(θ̂n ) = θ
• Varianz (zufallsbedingter Schätzfehler):
Var(θ̂n ) = E(θ̂n − E(θ̂n ))2
• Mittlerer quadratischer Schätzfehler (MSE, Mean Squared Error):
MSE(θ̂n ) = E (θ̂n − θ)2 = Var(θ̂n ) + Bias(θ̂n )2
θ̂n unbiased ⇒ MSE(θ̂n ) = Var(θ̂n )
• Schwache Konsistenz:
θ̂n ist schwach konsistent für θ, falls
für jedes c > 0 :
P (|θ̂n − θ| ≥ c) → 0 für n → ∞ gilt.
• MSE-Konsistenz:
θ̂ n ist MSE-konsistent für θ, falls
MSE(θ̂ n ) → 0
MSE-Konsistenz
&
Statistik B@LS-Kneip
⇒ schwache Konsistenz
für n → ∞ gilt.
%
Formelsammlung zur Statistik B
5
Seite 13
Kovarianz und Korrelation
'
$
Daten (Statistik I und II)
Modell (Statistik II)
Daten x1 , . . . xn und y1 , . . . yn von
zwei Merkmalen X und Y
Emp. Kovarianz (zw. X und Y )
Zwei Zufallsvariablen X und Y
Kovarianz (zwischen X und Y )
n
1X
=
(xi − x̄)(yi − ȳ)
n i=1
s̃xy
Cov(X, Y ) = E(X − E(X))(Y − E(Y ))
n
=
1X
xi yi − x̄ȳ
n i=1
Emp. Korrelationskoeffizient
rxy =
= E(X · Y ) − E(X)E(Y )
Korrelationskoeffizient
s̃xy
s̃x s̃y
X und Y empirisch unkorreliert
s̃xy ≈ 0 bzw. rxy ≈ 0
Symmetrie
rXY =
Cov(X, Y )
σ(X) · σ(Y )
X und Y unkorreliert
Cov(X, Y ) = 0 bzw. rXY = 0
Symmetrie
s̃xy = s̃yx
rxy = ryx
Lineare Transformation
Cov(X, Y ) = Cov(Y, X)
rXY = rY X
Lineare Transformation
x̃i = axi + b, ỹi = cyi + d
X̃ = aX + b, Ỹ = cY + d
s̃x̃ỹ = a · c · s̃xy
a·c
rx̃ỹ =
· rxy
|a| · |c|
Cov(X̃, Ỹ ) = a · c · Cov(X, Y )
a·c
· rXY
rX̃ Ỹ =
|a| · |c|
Zusammenhang zur Varianz
s̃2x+y = s̃2x + s̃2y + 2 · s̃xy
s̃xx =
&
Statistik B@LS-Kneip
s̃2x
Zusammenhang zur Varianz
Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )
Cov(X, X) = Var(X)
%
Formelsammlung zur Statistik B
6
Seite 14
Verteilungen bei 2 Zufallsvariablen
'
$
• Zufallsvariablen X und Y
– Zufallsvariable X mit Werten a1 , . . . ak
– Zufallsvariable Y mit Werten b1 , . . . bl
• Gemeinsame (Wahrscheinlichkeits-)verteilung von X und Y
fX,Y (ai , bj ) = P ({X = ai } ∩ {Y = bj })
und fX,Y (x, y) = 0 für alle anderen Werte von x und y
• Gemeinsame Verteilungsfunktion von X und Y
FX,Y (s, t) = P ({X ≤ s} ∩ {Y ≤ t}) =
X X
fX,Y (ai , bj )
i:ai ≤s j:bj ≤t
• Randverteilung von X
fX (ai ) =
l
X
fX,Y (ai , bj ) = P ({X = ai }) =
j=1
l
X
P ({X = ai } ∩ {Y = bj })
j=1
und fX (x) = 0 für alle anderen Werte von x
• Randverteilung von Y
fY (bj ) =
k
X
fX,Y (ai , bj ) = P ({Y = bj }) =
i=1
k
X
P ({X = ai } ∩ {Y = bj })
i=1
und fY (y) = 0 für alle anderen Werte von y
• Bedingte Verteilungen X|Y = bj
fX,Y (ai , bj )
fY (bj )
P ({X = ai } ∩ {Y = bj })
= P ({X = ai }|{Y = bj }) =
P ({Y = bj })
fX|Y =bj (ai ) = fX (ai |Y = bj ) =
• Bedingte Verteilungen Y |X = ai
fX,Y (ai , bj )
fX (ai )
P ({X = ai } ∩ {Y = bj })
= P ({Y = bj }|{X = ai }) =
P ({X = ai })
fY |X=ai (bj ) = fY (bj |X = ai ) =
&
Statistik B@LS-Kneip
%
Formelsammlung zur Statistik B
Seite 15
Zusammenhang zwischen den Verteilungen
P ({X = ai }|{Y = bj }) · P ({Y = bj })
=
P ({X = ai } ∩ {Y = bj })
=
P ({Y = bj }|{X = ai }) · P ({X = ai })
fX (ai |Y = bj ) · fY (bj )
=
fX,Y (ai , bj )
=
fY (bj |X = ai ) · fX (ai )
Rechenregeln für 2 Zufallsvariablen
E(X + Y ) = E(X) + E(Y )
E(c1 X + c2 Y ) = c1 E(X) + c2 E(Y )
Var(X + Y ) = Var(X) + Var(Y ) + 2 · Cov(X, Y )
Var(c1 X + c2 Y ) = c21 Var(X) + c22 Var(Y ) + 2 · c1 · c2 · Cov(X, Y )
X und Y UNKORRELIERT oder sogar UNABHÄNGIG
Cov(X, Y ) = 0,
E(X · Y ) = E(X) · E(Y )
Var(X + Y ) = Var(X) + Var(Y )
Var(c1 X + c2 Y ) = c21 Var(X) + c22 Var(Y )
Rechenregeln für n Zufallsvariablen
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn )
E(c1 X1 + · · · + cn Xn ) = c1 E(X1 ) + · · · + cn E(Xn )
Var(X1 + · · · + Xn ) =
n
X
Var(Xi ) + 2 ·
i=1
Var(c1 X1 + · · · + cn Xn ) =
Cov(Xi , Xj )
i=1 j=i+1
n
X
i=1
n X
n
X
c2i Var(Xi ) + 2 ·
n
n X
X
ci · cj · Cov(Xi , Xj )
i=1 j=i+1
X1 , . . . , Xn paarweise UNKORRELIERT oder sogar UNABHÄNGIG
Cov(Xi , Xj ) = 0 für alle i 6= j,
E(Xi · Xj ) = E(Xi ) · E(Xj ) für alle i 6= j
Var(X1 + X2 + · · · + Xn ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xn )
Var(c1 X1 + c2 X2 + · · · + cn Xn ) = c21 Var(X1 ) + c22 Var(X2 ) + · · · + c2n Var(Xn )
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
7
Seite 16
Unabhängige Zufallsvariablen
Unabhängigkeit bei 2 Zufallsvariablen
'
• Definition:
Zwei Zufallsvariablen X und Y (auf dem gleichen Ω) heißen
(stochastisch) unabhängig, falls
$
P ({X = ai } ∩ {Y = bj }) = P ({X = ai }) · P ({Y = bj })
für alle Werte von X und Y gilt.
• Alternative Definition: (bei stetigen Verteilungen)
Zwei Zufallsvariablen X und Y (auf dem gleichen Ω) heißen
(stochastisch) unabhängig, falls
P ({X ≤ ai } ∩ {Y ≤ bj }) = P ({X ≤ ai }) · P ({Y ≤ bj })
für alle Werte s, t gilt.
• Rechenregeln
Wenn die Zufallsvariablen X und Y unabhängig sind, dann gilt:
– Die gemeinsame Verteilung ist das Produkt der beiden Randverteilungen.
fX,Y (ai , bj ) = fX (ai ) · fY (bj )
– Die bedingten Verteilungen stimmen alle mit der jeweiligen Randverteilung
überein. (d.h. sie sind unabhängig von der Bedingung)
fX|Y =bj (ai ) = fX (ai ) und fY |X=ai (bj ) = fY (bj )
&
– Die gemeinsame Verteilungsfunktion ist das Produkt der Verteilungsfunktionen
der einzelnen Zufallsvariablen.
FX,Y (s, t) = FX (s) · FY (t)
Unabhängigkeit bei n Zufallsvariablen
• Definition: Die n Zufallsvariablen X1 , X2 , . . . , Xn heißen (stochastisch) unabhängig,
falls für alle Werte t1 , . . . , tn gilt:
%
P ({X1 ≤ t1 } ∩ {X2 ≤ t2 } ∩ · · · ∩ {Xn ≤ tn })
= P ({X1 ≤ t1 }) · P ({X2 ≤ t2 }) · · · P ({Xn ≤ tn })
• Rechenregeln: X1 , . . . , Xn unabhängig ⇒
– Gemeinsame Verteilungsfunktion = Produkt der einzelnen Verteilungsfunktionen
– Gemeinsame Verteilung als Produkt der Randverteilungen berechenbar
– Bedingte Verteilungen unabhängig von den Bedingungen
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
8
Seite 17
Stetige Zufallsvariablen
'
$
Es sei X stetige Zufallsvariable (mit Werten x ∈ R)
• (Wahrscheinlichkeits-) Dichte von X
Funktion f (x) ≥ 0, so dass für jedes Intervall [a, b]:
Z∞
Zb
P [a ≤ X ≤ b] =
f (x)dx;
es gilt:
f (x)dx = 1
−∞
a
• Verteilungsfunktion von X
Zx
F (x) = P [X ≤ x] =
f (x)dx
−∞
• Erwartungswert von X
Z∞
x · f (x)dx
E(X) = µX =
−∞
• Varianz von X
2
Var(X) = σX
= E(X − µX )2 = E(X 2 ) − µ2X =
Z∞
(x − µX )2 f (x)dx
−∞
• Standardabweichung von X
σX =
p
Var(X)
• Quantile Für 0 < p < 1 ist das p-Quantil xp der Wert, für den gilt:
&
Statistik B@LS-Kneip
F (xp ) = P [X ≤ xp ] = p und 1 − F (xp ) = P [X ≥ xp ] = 1 − p
%
Formelsammlung zur Statistik B
Seite 18
Normalverteilung (Gauß-Verteilung), X ∼ N (µ, σ 2 )
'
$
• Dichte- und Verteilungsfunktion (für x ∈ R)
1
(x − µ)2
fN (x) = √
exp −
2σ 2
2πσ
1
FN (x) = √
2πσ
Zx
(t − µ)2
exp −
dt
2σ 2
−∞
• Erwartungswert und Varianz
E(X) = µ
Var(X) = σ 2
• Lineare Transformation: (a, b beliebige Zahlen)
X ∼ N (µ, σ 2 ) und Y = a · X + b
⇒
Y ∼ N (a · µ + b, a2 · σ 2 )
• Linearkombination: Xi ∼ N (µi , σi2 ) und unabhängig, a1 , . . . , an beliebige Zahlen
⇒
Y = a1 · X1 + · · · + an · Xn ∼ N (a1 · µ1 + · · · + an · µn , a21 · σ12 + · · · + a2n · σn2 )
• Rückführung auf die Standardnormalverteilung
– Standardisierung
X ∼ N (µ, σ 2 ) ⇒ Z =
X −µ
∼ N (0, 1)
σ
– Verteilungsfunktion
2
X ∼ N (µ, σ )
⇒
P [X ≤ x] = FN (x) = Φ
x−µ
σ
– Quantile (Für 0 < p < 1)
&
xp p-Quantil von N (µ, σ 2 )
Statistik B@LS-Kneip
⇒ xp = µ + σzp
wobei zp p-Quantil von N (0, 1)
%
Formelsammlung zur Statistik B
Seite 19
Standardnormalverteilung, X ∼ N (0, 1)
• Dichte- und Verteilungsfunktion
2
1
x
ϕ(x) = √ exp −
2
2π
1
Φ(x) = √
2π
für x ∈ R
Zx
t2
exp −
2
dt
−∞
• Erwartungswert und Varianz
E(X) = 0
Var(X) = 1
χ2 -Verteilung
• Definition und Bezeichnung
X1 , . . . , Xn unabhängige und N (0, 1)-verteilte Zufallsvariablen. Die Verteilung von
χ2 = X12 + · · · + Xn2 heißt Chi-Quadrat-Verteilung“ mit n Freiheitsgraden, kurz
”
χ2 ∼ χ2 (n).
• Erwartungswert und Varianz
E(χ2 ) = n
Var(χ2 ) = 2n
• Approximation durch die Normalverteilung
√
1
für n > 30: χ2 (n) ≈ N (n, 2n) für Quantile χ2p;n ≈ (zp + 2n − 1)2
2
t-Verteilung, Student-Verteilung
• Definition und Bezeichnung
X ∼ N (0, 1) und Y ∼ χ2 (n) unabhängig. Die Verteilung von T = √X
Y /n
heißt t”
Verteilung“ mit n Freiheitsgraden, kurz T ∼ t(n).
• Erwartungswert und Varianz
E(T ) = 0
Var(T ) =
n
n−2
(n > 2)
• Approximation durch die Normalverteilung
Statistik B@LS-Kneip
für n > 100: t(n) ≈ N (0, 1) für Quantile tp;n ≈ zp
Formelsammlung zur Statistik B
Seite 20
Exponentialverteilung, X ∼ Ex(λ), mit λ > 0
• Dichte- und Verteilungsfunktion
(
λe−λx für x ≥ 0
fEx (x) =
0
sonst
(
0
FEx (x) =
1 − e−λx
für x < 0
für x ≥ 0
• Erwartungswert und Varianz
E(X) =
1
λ
Var(X) =
1
λ2
Stetige Gleichverteilung, X ∼ U (a, b), mit a < b
• Dichte- und Verteilungsfunktion
(
fU (x) =
1
b−a
0
für a ≤ x ≤ b
sonst
FU (x) =


0
x−a
 b−a

1
für x < a
für a ≤ x ≤ b
für x > b
• Erwartungswert und Varianz
Statistik B@LS-Kneip
E(X) =
a+b
2
Var(X) =
(b − a)2
12
Formelsammlung zur Statistik B
9
Seite 21
Zentraler Grenzwertsatz
Seien X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit Mittelwert µ und
Varianz σ 2 . Dann gilt für großes n approximativ:
X̄ − µ
√ ≤ z ≈ Φ(z)
P
σ/ n
Statistik B@LS-Kneip
d.h.
σ2
X̄ ∼ N µ,
n
bzw.
n
X
i=1
Xi ∼ N (nµ, nσ 2 )
Formelsammlung zur Statistik B
10
Seite 22
Konfidenzintervalle
#
• (1 − α)-Konfidenzintervall für θ
Stichprobenfunktionen Gu = gu (X1 , . . . , Xn ) und Go = go (X1 , . . . , Xn ), so dass (zu
vorgegebener Irrtumswahrscheinlichkeit α)
P [Gu ≤ Go ] = 1
und
P [θ ∈ [Gu , Go ]] = P [Gu ≤ θ ≤ Go ] = 1 − α
⇒ [Gu , Go ] = [gu (X1 , . . . , Xn ), go (X1 , . . . , Xn )] ist ein (1 − α)-Konfidenzintervall für θ.
• Konfidenzniveau (Überdeckungs- , Vertrauenswahrscheinlichkeit): 1 − α
• Realisiertes (1 − α)-Konfidenzintervall
Beobachtete Werte x1 , . . . , x2
⇒
[gu , go ] = [gu (x1 , . . . , xn ), go (x1 , . . . , xn )]
• Symmetrisches (1 − α)–Konfidenzintervall
erfüllt zusätzlich: P [θ < Gu ] = P [θ > Go ] =
α
2
• Einseitiges (1 − α)-Konfidenzintervall (mit unterer Schranke)
[Gu , ∞[ mit P [Gu ≤ θ] = 1 − α
• Einseitiges (1 − α)-Konfidenzintervall (mit oberer Schranke)
] − ∞, Go ] mit P [θ ≤ Go ] = 1 − α
"
Konfidenzintervall für einen Erwartungswert, bekannte Varianz
• Annahmen:
!
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
– Bekannte Varianz σ 2
• (1 − α)-Konfidenzintervall für µ und bekannter Varianz σ 2 :
σ
σ
X̄ − z1−α/2 √ , X̄ + z1−α/2 √
n
n
• Anmerkung:
Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes
(1 − α)-Konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen
aber großem Stichprobenumfang) um ein approximatives.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 23
Konfidenzintervall für einen Erwartungswert, unbekannte Varianz
'
• Annahmen:
$
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
– Unbekannte Varianz σ 2
• (1 − α)-Konfidenzintervall für µ:
S
S
X − t1−α/2;n−1 √ , X + t1−α/2;n−1 √
n
n
n
mit S 2 =
1 X
(Xi − X)2
n − 1 i=1
• Anmerkung:
Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes
(1 − α)-Konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen
aber großem Stichprobenumfang) um ein approximatives.
Konfidenzintervall für eine Varianz
• Annahmen:
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
• (1 − α)-Konfidenzintervall für σ 2 :
"
#
(n − 1)S 2 (n − 1)S 2
,
χ21−α/2;n−1 χ2α/2;n−1
n
1 X
mit S =
(Xi − X̄)2
n − 1 i=1
2
Approximatives Konfidenzintervall für einen Anteilswert
• Annahmen:
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ Bernoulli(p)
– Großer Stichprobenumfang; Faustregel: n > 30, np > 5
• Approximatives (1 − α)-Konfidenzintervall für p:
"
#
r
r
p̂(1 − p̂)
p̂(1 − p̂)
p̂ − z1− α2
, p̂ + z1− α2
n
n
&
Statistik B@LS-Kneip
mit p̂ = X
%
Formelsammlung zur Statistik B
11
Seite 24
Testen von Hypothesen
Allgemein gelten folgende Annahmen und Hypothesen:
• Annahmen:
– X1 , . . . , Xn unabhängig und identisch verteilt
– Xi ∼ N (µ, σ 2 )
– Bekannte Varianz σ 2
• Hypothesen:
(1) H0 : µ = µ0 gegen H1 : µ 6= µ0
(2) H0 : µ = µ0 gegen H1 : µ > µ0
(3) H0 : µ = µ0 gegen H1 : µ < µ0
H0 : µ = µ0
H1 : µ 6= µ0
H0 : µ = µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ < µ0
Gauß
AB
p-Wert
|zbeob | > z1−α/2
2 · P [Z ≥ |zbeob |]
zbeob > z1−α
P [Z ≥ zbeob
zbeob < −z1−α
P [Z ≤ zbeob ]
t-test
AB
p-Wert
|tbeob | > t1−α/2;n−1
2 · P [T ≥ |tbeob |]
tbeob > t1−α;n−1
P [T ≥ tbeob ]
tbeob < −t1−α;n−1
P [T ≤ tbeob ]
approx.
Binomi
AB
p-Wert
|zbeob | > z1−α/2
2 · P [Z ≥ |zbeob |]
zbeob > z1−α
P [Z ≥ zbeob
zbeob < −z1−α
P [Z ≤ zbeob ]
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 25
Gauß-Test
• Teststatistik:
√
Z=
n(X̄ − µ0 )
σ
• Verteilung von Z unter H0 :
Z ∼ N (0, 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |zbeob | > z1−α/2
(2) zbeob > z1−α
(3) zbeob < −z1−α
• Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1)
(1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |]
(2) p-Wert = P [Z ≥ zbeob ]
(3) p-Wert = P [Z ≤ zbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für großen
Stichprobenumfang i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 26
t-Test (Ein-Stichproben-Fall, σ 2 unbekannt)
• Teststatistik:
√
n(X̄ − µ0 )
T =
S
n
1 X
mit S =
(Xi − X̄)2
n − 1 i=1
2
• Verteilung von T unter H0 :
T ∼ t(n − 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;n−1
(2) tbeob > t1−α;n−1
(3) tbeob < −t1−α;n−1
• Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen
Stichprobenumfang i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 27
Approximativer Binomialtest
• Teststatistik:
p̂ − p0
Z=p
p0 (1 − p0 )/n
mit p̂ = X
• Aproximative Verteilung von Z unter H0 :
Z ∼ N (0, 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |zbeob | > z1−α/2
(2) zbeob > z1−α
(3) zbeob < −z1−α
• Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1)
(1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |]
(2) p-Wert = P [Z ≥ zbeob ]
(3) p-Wert = P [Z ≤ zbeob ]
• Anmerkung:
Unter H0 gilt (exakt): np̂ ∼ B(n, p0 ). Mit den entsprechenden Quantilen der Binomialverteilung erhält man den sogenannten exakten Binomialtest.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 28
Vergleich der Erwartungswerte, σx2 , σy2 bekannt
• Teststatistik:
Z=r
X −Y
2
σ2
σX
+ Y
n
m
• Verteilung von Z unter H0 :
Z ∼ N (0, 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |zbeob | > z1−α/2
(2) zbeob > z1−α
(3) zbeob < −z1−α
• Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1)
(1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |]
(2) p-Wert = P [Z ≥ zbeob ]
(3) p-Wert = P [Z ≤ zbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für große
Stichprobenumfänge m, n i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 29
t-Test (Zwei-Stichproben-Fall), σi unbekannt, aber σx2 =σy2
• Teststatistik:
T =
X −Y
p
S 1/n + 1/m
mit S 2 =
2
(n − 1)SX
+ (m − 1)SY2
n+m−2
• Verteilung von T unter H0 :
T ∼ t(n + m − 2)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;n+m−2
(2) tbeob > t1−α;n+m−2
(3) tbeob < −t1−α;n+m−2
• Überschreitungswahrscheinlichkeit: Für T ∼ t(n + m − 2)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große
Stichprobenumfänge m, n i.Allg. approximativ gültig.
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 30
t-Test (Zwei-Stichproben-Fall), σi unbekannt, σx2 6= σy2
'
• Teststatistik:
T =r
$
X −Y
2
S2
SX
+ Y
n
m
• Verteilung von T unter H0 :
2
2
SX
SY2
+
n
m
wobei k größte ganze Zahl mit k ≤
2 2
2 2
1
SX
SY
1
+
n−1 n
m−1 m
T ∼ t(k)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;k
(2) tbeob > t1−α;k
(3) tbeob < −t1−α;k
• Überschreitungswahrscheinlichkeit: Für T ∼ t(k)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große
Stichprobenumfänge m, n i.Allg. approximativ gültig.
&
%
Statistik B@LS-Kneip
Formelsammlung zur Statistik B
Seite 31
t-Test (verbundene Stichproben)
• Teststatistik:
√
nD
T =
SD
n
mit
2
SD
1 X
=
(Di − D)2
n − 1 i=1
Di = Xi − Yi
• Verteilung von T unter H0 :
T ∼ t(n − 1)
• Ablehnungsbereich (Test zum Niveau α):
(1) |tbeob | > t1−α/2;n−1
(2) tbeob > t1−α;n−1
(3) tbeob < −t1−α;n−1
• Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1)
(1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |]
(2) p-Wert = P [T ≥ tbeob ]
(3) p-Wert = P [T ≤ tbeob ]
• Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen
Stichprobenumfang i.Allg. approximativ gültig.
χ2 -Unabhängigkeitstest
• Teststatistik:
χ2 =
k X
m
X
i=1 j=1
hi· h·j
hij −
n
hi· h·j
n
2
• Approximative Verteilung von χ2 unter H0 :
χ2 ∼ χ2 ((k − 1)(m − 1))
falls
hi· h·j
≥ 5 für alle i, j
n
• Ablehnungsbereich (Test zum Niveau α):
χ2beob > χ21−α;(k−1)(m−1)
• Überschreitungswahrscheinlichkeit: Für χ2 ∼ χ2 ((k − 1)(m − 1))
p-Wert = P [χ2 ≥ χ2beob ]
Statistik B@LS-Kneip
Herunterladen