Merkzettel für Statistik

Werbung
Merkzettel für Statistik, Prof. Leitner
Seite 1
Merkzettel für Statistik
erstellt aus dem Vorlesungsskript
"Wahrscheinlichkeitstheorie & Statistik"
von Prof. Leitner
§0 Anmerkung:
Der Merkzettel liefert nur eine Auswahl der wichtigsten Definitionen und Sätze aus dem Skript der Statistik
Vorlesung des 4. Semesters, und erhebt keinen Anspruch auf Vollständigkeit.
§1 Einführung:
Definition
Sei (Ω, P ) ein Wahrscheinlichkeitsraum (W - Raum) mit Ω = {w1 , w2 ,..., wn }.
Wird jedem Elementereignis {wi } die gleiche Wahrscheinlichkeit zugeordnet, also
1
, so spricht man von einem Laplace-Experiment.
n
Anzahl der günstigen Ergebnisse
Für ein beliebiges A gilt : P( A) =
.
Anzahl aller Ergebnisse
P({wi }) =
§2 Kombinatorik
Satz (2.1)
Die Anzahl der k - Tupel aus einer n - elementigen Menge ist n k .
Satz (2.2)
Die Anzahl der Permutationen einer n - elementigen Menge ist n !
Satz (2.3)
Die Anzahl der k - Permutationen aus einer n - elementigen Menge ist
n!
; k≤n
(n − k )!
Satz (2.4)
Die Anzahl der k - Teilmengen aus einer n - elementigen Menge ist
 n
n!
=  
(n − k )!k!  k 
Satz (2.5)
In einer Urne mit N Kugeln seien S schwarze und N − S weisse Kugeln.
Sei X die Anzahl der gezogenen schwarzen Kugeln
a) Ziehen von n Kugeln ohne zurücklegen (n ≤ N )
S N − S

  ⋅ 
s   n − s 

P( X = s) =
N
 
n
b) Ziehen von n Kugeln mit Zurücklegen
s
 n  S 
S
P( X = s ) =   ⋅   (1 − ) n − s
N
 s  N 
Fachbereich Informatik, 4W FH-München
Merkzettel für Statistik, Prof. Leitner
§3 Die bedingte Wahrscheinlichkeit:
Definition
Sei (Ω, P) ein W - Raum, A ⊂ Ω, P( A) ≠ 0,
P ( A ∩ B)
dann heißt P( B | A) = PA ( B) =
P( A)
die bedingte Wahrscheinlichkeit von B unter der Bedingung A
Satz (3.1) Produktregel
P( A ∩ B) = P ( A) ⋅ P( B | A) = P( B) ⋅ P( A | B)
Satz (3.2) Formel von Bayes
Es gilt :
P( A | B) =
P( A) ⋅ P( B | A)
P( A) ⋅ P( B | A) + P( A) ⋅ P( B | A)
§4 Unabhängigkeit:
Definition
Zwei Ereignisse heißen unabhängig , wenn gilt
P( A ∩ B) = P ( A) ⋅ P ( B ).
Andernfalls heißen sie abhängig.
Satz (4.1)
Sind A, B unabhängig, so auch A, B und A, B und A, B.
§5 Zufallsgröße:
Definition
Zwei Zufallsgrößen X und Y heißen unabhängig, wenn gilt :
P( X = x und Y = y ) = P( X = x) ⋅ P(Y = y ) für alle x, y ∈ R
Fachbereich Informatik, 4W FH-München
Seite 2
Merkzettel für Statistik, Prof. Leitner
§6 Erwartungswert und Varianz:
Definition
Erwartungswert: Schwerpunkt der Wahrscheinlichkeitsverteilung
Sei X eine Zufallsgröße auf einen Wahrscheinlichkeitsraum (Ω, P).
Der Wert, wobei X die Werte x1 , x2 ,..., xn annimmt,
E ( X ) = EX = x1 ⋅ P( X = x1 ) + x2 ⋅ P( X = x2 ) + ... + xn ⋅ P ( X = xn )
heißt Erwartungswert von X .
Definition
Sei X eine Zufallsgröße mit den Werten x1 , x 2 ,..., xn mit dem Erwartungswert EX = µ
k
VarX =
∑(x
1
− µ ) 2 ⋅ P( X = xi ) = E (( X − µ ) 2 )
i =1
heißt Varianz von X .
Die Größe VarX heißt Standardabweichung, und wird auch mit σ oder σ (X) bezeichnet.
Also σ 2 = VarX .
Satz (6.1)
VarX = E ( X 2 ) − ( EX ) 2
Satz (6.2) Rechenregeln für Erwartungswerte
Seien X , Y Zufallsvariablen, dann gilt
(i) E ( X + Y ) = EX + EY
(ii) E (aX + b) = aEX + b
(iii) sind X und Y zusätzlich unabhängig, dann gilt : E ( XY ) = EX ⋅ EY
Satz (6.3) Rechenregeln für Varianz
Seien X , Y unabhängige Zufallsvariablen
(i) Var ( X + Y ) = VarX + VarY ,
insbesondere Var ( X + a) = VarX
(ii) Var (aX ) = a 2Var ( X )
Fachbereich Informatik, 4W FH-München
Seite 3
Merkzettel für Statistik, Prof. Leitner
§7 Die Ungleichung von Tschebischew:
Satz (7.1)
Sei X eine Zufallsgr öße und c > 0 , dann gilt :
VarX
(1) P ( X − µ ≥ c ) ≤
c2
VarX
(2) P ( X − µ > c ) <
c2
VarX
(3) P ( X − µ < c ) ≥ 1 −
c2
VarX
(4) P ( X − µ ≤ c ) > 1 −
c2
Satz (7.2) Arithmetische Mitte
EX = µ
σ2
n
σ
σ (X ) =
, ( n - Gesetz)
n
Var X =
Satz (7.3) Tschebischew Ungleichung für arithmetische Mitte
Es gilt :
σ2
nc 2
σ2
P( X − µ > c) < 2
nc
σ2
P( X − µ < c) ≥ 1 − 2
nc
σ2
P( X − µ ≤ c) > 1 − 2
nc
P( X − µ ≥ c) ≤
Satz (9.3) Ungleichung von Tschebischew für Bernoulli Ketten
Sei X nach B(n, p ) verteilt.
X
beschreibt die relative Häufigkeit eines Treffers, also
n
X 1
E = EX = p
n n
X
p⋅q
1
Var = 2 VarX =
, also
n n
n
X
p⋅q
P( − p ≥ ε ) ≤
, bzw.
n
n ⋅ε 2
P(
X
p⋅q
− p < ε ) ≥ 1−
n
n ⋅ε 2
X
p⋅q
− p > ε) <
n
n ⋅ε 2
X
p⋅q
P( − p ≤ ε ) > 1 −
n
n ⋅ε 2
P(
Wegen p ⋅ q = p(1 − q) = p − p 2 ≤
P(
1
kann man sogar eine von p unabhängige Abschätzung angeben :
4
X
1
− p ≥ ε) ≤
n
4n ⋅ ε 2
Fachbereich Informatik, 4W FH-München
Seite 4
Merkzettel für Statistik, Prof. Leitner
Seite 5
§9 Die Binomialverteilung:
Satz (9.1)
Ein Bernoulli Experiment habe die Trefferwahrscheinlichkeit p und die Nietenwahrscheinlichkeit 1 − p = q.
Dann gilt für die Bernoulli Kette der Länge n :
 n
B(n, p, k ) =   ⋅ p k q n−k
k 
Sei X 1 , X 2 ,..., X n Bernoulli Kette und X = X 1 + X 2 + ... + X n , dann ist
P( X = k ) = B (n, p, k )
Man sagt : X ist verteilt nach B (n, p )
Definition Wahrscheinlichkeitsverteilung
 n
B(n, p) : k   ⋅ p k q n− k
k
heißt Binomialverteilung B(n, p) mit Parameter n und p.
Satz (9.2)
Ist X verteilt nach B(n, p ), dann gilt
EX = n ⋅ p,
VarX = n ⋅ p ⋅ q,
σ (X ) = n ⋅ p ⋅ q
Definition
Die Verteilung
S N − S

  ⋅ 
s   n − s 

s
N
 
n
heißt hypergeometrische Verteilung H ( N , S , n)
Die hypergeometrische Verteilung ist aufwendig zu tabellieren.
Für n << N ist H ( N , S , n) gut durch B(n,
S
) approximierbar !
N
Satz (9.5) Poisson Verteilung
Für die Wahrscheinlichkeit B(n, p, k ) gilt die Poisson Näherung
B ( n, p , k ) ≈
µ k −µ
( µ = n ⋅ p),
e
k!
die brauchbare Werte liefert für
µ
<< 1, d.h. " p klein" und k << n.
n
Die Funktion
µ k −µ
e ; k ∈ N0
k!
ist eine Wahrscheinlichkeitsverteilung .
P( µ ) heißt Poisson Verteilung mit Parameter µ .
Für eine nach P( µ ) verteilte Zufallsvariable X gilt :
EX = µ
VarX = µ
P( µ ) : k Fachbereich Informatik, 4W FH-München
Merkzettel für Statistik, Prof. Leitner
Seite 6
§10 Die Normalverteilung:
Satz (10.2)
Sei X eine nach B(n, p) verteilte Zufallsgröße, so gilt
k 2 − µ + 0,5
)
σ
k − µ + 0,5
k − µ − 0,5
) − Φ( 2
),
P( X = k 2 ) ≈ Φ( 2
σ
σ
k − µ + 0,5
k − µ − 0,5
) − Φ( 1
),
P(k1 ≤ X ≤ k 2 ) ≈ Φ ( 2
σ
σ
für k1 , k 2 = 1,2,..., n
P( X ≤ k 2 ) ≈ Φ (
µ = n⋅ p
σ = n⋅ p⋅q
Satz (10.3)
Für große n gilt näherungsweise
 n
1 k−µ
B(n, p, k ) =   p k (1 − p) n−k ≈ ϕ 
=
k
σ
 σ 
 
 k − n⋅ p 

⋅ Φ
 n ⋅ p(1 − p) 
n ⋅ p ⋅ (1 − p)


1
Satz (10.4)
Für große n gilt :
 c + 0,5 
c
P ( X − µ ≤ c ) ≈ 2Φ 
 − 1 ≈≈ 2Φ  − 1
 σ 
σ 
µ = EX
σ = VarX
Aus den Übungsaufgaben:
P( X − µ ≤ c) = P (
X
c
c + 0,5
− p ≤ ) ≈ 2Φ (
) −1
σ
n
n
Fachbereich Informatik, 4W FH-München
⇒
P(
X
t ⋅ n + 0,5
− p ≤ t ) ≈ 2Φ (
) −1
σ
n
Merkzettel für Statistik, Prof. Leitner
Seite 7
Prüfen von Hypothesen:
I. Die Standardaufgabe, gesucht wird der (unbekannte) Mittelwert
1. Ermittlung des arithmetischen Mittels
X =
1
n
n
∑X
i
i =1
2. Ermittlung der erwartungstreuen Schätzers für σ , wenn σ nicht angegeben ist
S2 =
1
n −1
n
∑( X
i
− X ) 2 , dann σ = S 2
i =1
3. Entscheidung treffen
X − ξ0
≤ λ( n −1) P %
σ
n
⇒
Annahme der Hypothese
X − ξ0
> λ( n −1) P %
σ
n
⇒
Ablehnung der Hypothese
=> Tabelle Student-T Verteilung
Bei Test ξ = ξ0 gegen ξ ≠ ξ0
90% Sicherheitswahrscheinlichkeit
95% Sicherheitswahrscheinlichkeit
99% Sicherheitswahrscheinlichkeit
=
=
=
0,95
0,975
0,995
Bei Test ξ ≥ ξ0 gegen ξ < ξ0
90% Sicherheitswahrscheinlichkeit
95% Sicherheitswahrscheinlichkeit
99% Sicherheitswahrscheinlichkeit
=
=
=
0,90
0,95
0,99
II. Gesucht wird ein Intervall, in dem sich der Mittelwert mit P% Wahrscheinlichkeit befindet:
1. Ermittlung des arithmetischen Mittels (siehe oben)
2. Ermittlung der erwartungstreuen Schätzers für σ , wenn σ nicht angegeben ist (siehe oben)
3. Ermittlung des Intervalls
X −ξ
≤ λ( n−1) P %
σ
n
4. nach ξ auflösen
− λ( n −1) P % ≤
Fachbereich Informatik, 4W FH-München
Merkzettel für Statistik, Prof. Leitner
Seite 8
III. Standardaufgabe, gesucht wird die Standardabweichung (Streuung)
1. Ermittlung des arithmetischen Mittels (siehe oben)
2. Ermittlung der erwartungstreuen Schätzers (siehe oben)
3. Das Wert für die χ2 –Verteilung mit n-1 Freiheitsgraden ermitteln
=> Tabelle Chi-Quadrat Verteilung
Zweiseitiger Test:
Bei Hypothese σ = σ0 gegen σ ≠ σ0
χ2rechts, P%(n-1) <
χ2links, P%(n-1) ≤
(n − 1) S 2
σ 02
(n − 1) S 2
σ0
2
< χ2links, P%(n-1)
=> Ablehnung der Hypothese
≤ χ2rechts, P%(n-1)
=> Annahme der Hypothese
Beispiel:
Bei P% = 95% und 9 Freiheitsgraden
=> links:
0.025 / 9 FG = 2.70
=> rechts:
0.975 / 9 FG = 19.02
Einseitiger Test:
Bei Hypothese σ ≥ σ0 gegen σ < σ0
(n − 1) S 2
< χ2einseitig rechts, P%(n-1)
=> Ablehnung der Hypothese
σ 02
Beispiel:
Bei P% = 95% und 7 Freiheitsgraden
=> einseitig rechts:
0.05 / 7 FG = 2.17
Bei Hypothese σ ≤ σ0 gegen σ > σ0
(n − 1) S 2
> χ2einseitig links, P%(n-1)
=> Ablehnung der Hypothese
σ 02
Beispiel:
Bei P% = 95% und 7 Freiheitsgraden
=> einseitig links:
0.95 / 7 FG = 14.07
IV. Gesucht wird ein Intervall, in dem sich die gesuchte Standardabweichung mit P% Wahrscheinlichkeit
befindet:
1. Ermittlung des arithmetischen Mittels (siehe oben)
2. Ermittlung der erwartungstreuen Schätzers (siehe oben)
3. Ermittlung des Intervalls
χ2links, P%(n-1) ≤
(n − 1) S 2
≤ χ2rechts, P%(n-1)
σ2
4. Nach σ auflösen
Beispiel:
Bei P% = 90% und 8 Freiheitsgraden
=> links:
0.05 / 9 FG = 2.73
=> rechts:
0.95 / 9 FG = 15.51
Fachbereich Informatik, 4W FH-München
Merkzettel für Statistik, Prof. Leitner
Seite 9
V. Vergleich auf Gleichheit von zwei normalverteilten Grundgesamtheiten mit der selben unbek. Streuung σ
Vorgegeben:
H0: ξ = η bei einer Sicherheitswahrscheinlichkeit von P%
Stichproben Xn und Ym
1. Ermittle arithmetische Mittel x und y
2. berechne:
x−y
t=
n
m
1 1
1
+
( xi − x ) 2 +
( yi − y ) 2
n m n + m − 2 i =1
i =1
∑
∑
3. Entscheidung:
t > γ P % ( n−m+ 2)
t < γ P%
( n −m+ 2)
=> Hypothese wird abgelehnt
=> Hypothese wird angenommen
=> Tabelle Student-T Verteilung
Soll ξ - η = C ein konstanter Unterschied festgestellt werden, wird der Zähler ersetzt durch
x - y −C
Fachbereich Informatik, 4W FH-München
Merkzettel für Statistik, Prof. Leitner
Seite 10
Aufgabentypen:
Gegeben ist
- Wahrscheinlichkeit p für ein Experiment
- Sicherheitswahrscheinlichkeit P%
Frage: Wie viele Experimente, damit p mit Sicherheit P% eintrifft ?
Beispiel:
- Wahrscheinlichkeit 3%
- Sicherheitswahrscheinlichkeit 95%
Ansatz:
P(3%) = 1 − P(97%) = 1 − 0,97 n ≥ 0,95 ⇒ 0,97 n ≤ 0,05 ⇒ n ⋅ ln 0,97 ≤ ln 0,05 ⇒ n ≥
ln 0,05
= 98,35 ⇒ n ≥ 99
ln 0,97
Gegeben ist
- Wahrscheinlichkeit p für ein Experiment (ggf. umkehren)
- Anzahl der Versuche (<10)
oder
- Anzahl der Versuche (>10)
- Anzahl der Treffer
Frage: Wie groß ist die Wahrscheinlichkeit für dieses Experiment ?
Versuche <10:
 n
B(n, p) : k   ⋅ p k q n−k
k 
Versuche >10:
P( X ≤ k 2 ) ≈ Φ (
µ = n⋅ p
k 2 − µ + 0,5
)
σ
σ = n⋅ p⋅q
Gegeben:
- Zufallsexperiment X
Frage: Wie lautet der Erwartungswert (Durchschnitt), die Varianz oder die Standardabweichung von X ?
EX = µ
E ( X ) = EX = x1 ⋅ P ( X = x1 ) + x2 ⋅ P( X = x 2 ) + ... + xn ⋅ P ( X = x n )
VarX:
k
VarX =
∑(x
1
− µ ) 2 ⋅ P( X = xi ) = E (( X − µ ) 2 )
i =1
oder
VarX = E ( X 2 ) − ( EX ) 2
Standardabweichung:
Die Größe VarX heißt Standardabweichung, und wird auch mit σ oder σ (X) bezeichnet.
Kombinatorik:
Gegeben:
- Eine Menge Ω
- Eine Vorschrift A
Frage:
Wie groß ist die Wahrscheinlichkeit, daß A eintrifft ?
1. Ermittlung von Ω
2. Ermittlung von A
3. Wahrscheinlichkeit =
A
Ω
Fachbereich Informatik, 4W FH-München
Zugehörige Unterlagen
Herunterladen