Merkzettel für Statistik, Prof. Leitner Seite 1 Merkzettel für Statistik erstellt aus dem Vorlesungsskript "Wahrscheinlichkeitstheorie & Statistik" von Prof. Leitner §0 Anmerkung: Der Merkzettel liefert nur eine Auswahl der wichtigsten Definitionen und Sätze aus dem Skript der Statistik Vorlesung des 4. Semesters, und erhebt keinen Anspruch auf Vollständigkeit. §1 Einführung: Definition Sei (Ω, P ) ein Wahrscheinlichkeitsraum (W - Raum) mit Ω = {w1 , w2 ,..., wn }. Wird jedem Elementereignis {wi } die gleiche Wahrscheinlichkeit zugeordnet, also 1 , so spricht man von einem Laplace-Experiment. n Anzahl der günstigen Ergebnisse Für ein beliebiges A gilt : P( A) = . Anzahl aller Ergebnisse P({wi }) = §2 Kombinatorik Satz (2.1) Die Anzahl der k - Tupel aus einer n - elementigen Menge ist n k . Satz (2.2) Die Anzahl der Permutationen einer n - elementigen Menge ist n ! Satz (2.3) Die Anzahl der k - Permutationen aus einer n - elementigen Menge ist n! ; k≤n (n − k )! Satz (2.4) Die Anzahl der k - Teilmengen aus einer n - elementigen Menge ist n n! = (n − k )!k! k Satz (2.5) In einer Urne mit N Kugeln seien S schwarze und N − S weisse Kugeln. Sei X die Anzahl der gezogenen schwarzen Kugeln a) Ziehen von n Kugeln ohne zurücklegen (n ≤ N ) S N − S ⋅ s n − s P( X = s) = N n b) Ziehen von n Kugeln mit Zurücklegen s n S S P( X = s ) = ⋅ (1 − ) n − s N s N Fachbereich Informatik, 4W FH-München Merkzettel für Statistik, Prof. Leitner §3 Die bedingte Wahrscheinlichkeit: Definition Sei (Ω, P) ein W - Raum, A ⊂ Ω, P( A) ≠ 0, P ( A ∩ B) dann heißt P( B | A) = PA ( B) = P( A) die bedingte Wahrscheinlichkeit von B unter der Bedingung A Satz (3.1) Produktregel P( A ∩ B) = P ( A) ⋅ P( B | A) = P( B) ⋅ P( A | B) Satz (3.2) Formel von Bayes Es gilt : P( A | B) = P( A) ⋅ P( B | A) P( A) ⋅ P( B | A) + P( A) ⋅ P( B | A) §4 Unabhängigkeit: Definition Zwei Ereignisse heißen unabhängig , wenn gilt P( A ∩ B) = P ( A) ⋅ P ( B ). Andernfalls heißen sie abhängig. Satz (4.1) Sind A, B unabhängig, so auch A, B und A, B und A, B. §5 Zufallsgröße: Definition Zwei Zufallsgrößen X und Y heißen unabhängig, wenn gilt : P( X = x und Y = y ) = P( X = x) ⋅ P(Y = y ) für alle x, y ∈ R Fachbereich Informatik, 4W FH-München Seite 2 Merkzettel für Statistik, Prof. Leitner §6 Erwartungswert und Varianz: Definition Erwartungswert: Schwerpunkt der Wahrscheinlichkeitsverteilung Sei X eine Zufallsgröße auf einen Wahrscheinlichkeitsraum (Ω, P). Der Wert, wobei X die Werte x1 , x2 ,..., xn annimmt, E ( X ) = EX = x1 ⋅ P( X = x1 ) + x2 ⋅ P( X = x2 ) + ... + xn ⋅ P ( X = xn ) heißt Erwartungswert von X . Definition Sei X eine Zufallsgröße mit den Werten x1 , x 2 ,..., xn mit dem Erwartungswert EX = µ k VarX = ∑(x 1 − µ ) 2 ⋅ P( X = xi ) = E (( X − µ ) 2 ) i =1 heißt Varianz von X . Die Größe VarX heißt Standardabweichung, und wird auch mit σ oder σ (X) bezeichnet. Also σ 2 = VarX . Satz (6.1) VarX = E ( X 2 ) − ( EX ) 2 Satz (6.2) Rechenregeln für Erwartungswerte Seien X , Y Zufallsvariablen, dann gilt (i) E ( X + Y ) = EX + EY (ii) E (aX + b) = aEX + b (iii) sind X und Y zusätzlich unabhängig, dann gilt : E ( XY ) = EX ⋅ EY Satz (6.3) Rechenregeln für Varianz Seien X , Y unabhängige Zufallsvariablen (i) Var ( X + Y ) = VarX + VarY , insbesondere Var ( X + a) = VarX (ii) Var (aX ) = a 2Var ( X ) Fachbereich Informatik, 4W FH-München Seite 3 Merkzettel für Statistik, Prof. Leitner §7 Die Ungleichung von Tschebischew: Satz (7.1) Sei X eine Zufallsgr öße und c > 0 , dann gilt : VarX (1) P ( X − µ ≥ c ) ≤ c2 VarX (2) P ( X − µ > c ) < c2 VarX (3) P ( X − µ < c ) ≥ 1 − c2 VarX (4) P ( X − µ ≤ c ) > 1 − c2 Satz (7.2) Arithmetische Mitte EX = µ σ2 n σ σ (X ) = , ( n - Gesetz) n Var X = Satz (7.3) Tschebischew Ungleichung für arithmetische Mitte Es gilt : σ2 nc 2 σ2 P( X − µ > c) < 2 nc σ2 P( X − µ < c) ≥ 1 − 2 nc σ2 P( X − µ ≤ c) > 1 − 2 nc P( X − µ ≥ c) ≤ Satz (9.3) Ungleichung von Tschebischew für Bernoulli Ketten Sei X nach B(n, p ) verteilt. X beschreibt die relative Häufigkeit eines Treffers, also n X 1 E = EX = p n n X p⋅q 1 Var = 2 VarX = , also n n n X p⋅q P( − p ≥ ε ) ≤ , bzw. n n ⋅ε 2 P( X p⋅q − p < ε ) ≥ 1− n n ⋅ε 2 X p⋅q − p > ε) < n n ⋅ε 2 X p⋅q P( − p ≤ ε ) > 1 − n n ⋅ε 2 P( Wegen p ⋅ q = p(1 − q) = p − p 2 ≤ P( 1 kann man sogar eine von p unabhängige Abschätzung angeben : 4 X 1 − p ≥ ε) ≤ n 4n ⋅ ε 2 Fachbereich Informatik, 4W FH-München Seite 4 Merkzettel für Statistik, Prof. Leitner Seite 5 §9 Die Binomialverteilung: Satz (9.1) Ein Bernoulli Experiment habe die Trefferwahrscheinlichkeit p und die Nietenwahrscheinlichkeit 1 − p = q. Dann gilt für die Bernoulli Kette der Länge n : n B(n, p, k ) = ⋅ p k q n−k k Sei X 1 , X 2 ,..., X n Bernoulli Kette und X = X 1 + X 2 + ... + X n , dann ist P( X = k ) = B (n, p, k ) Man sagt : X ist verteilt nach B (n, p ) Definition Wahrscheinlichkeitsverteilung n B(n, p) : k ⋅ p k q n− k k heißt Binomialverteilung B(n, p) mit Parameter n und p. Satz (9.2) Ist X verteilt nach B(n, p ), dann gilt EX = n ⋅ p, VarX = n ⋅ p ⋅ q, σ (X ) = n ⋅ p ⋅ q Definition Die Verteilung S N − S ⋅ s n − s s N n heißt hypergeometrische Verteilung H ( N , S , n) Die hypergeometrische Verteilung ist aufwendig zu tabellieren. Für n << N ist H ( N , S , n) gut durch B(n, S ) approximierbar ! N Satz (9.5) Poisson Verteilung Für die Wahrscheinlichkeit B(n, p, k ) gilt die Poisson Näherung B ( n, p , k ) ≈ µ k −µ ( µ = n ⋅ p), e k! die brauchbare Werte liefert für µ << 1, d.h. " p klein" und k << n. n Die Funktion µ k −µ e ; k ∈ N0 k! ist eine Wahrscheinlichkeitsverteilung . P( µ ) heißt Poisson Verteilung mit Parameter µ . Für eine nach P( µ ) verteilte Zufallsvariable X gilt : EX = µ VarX = µ P( µ ) : k Fachbereich Informatik, 4W FH-München Merkzettel für Statistik, Prof. Leitner Seite 6 §10 Die Normalverteilung: Satz (10.2) Sei X eine nach B(n, p) verteilte Zufallsgröße, so gilt k 2 − µ + 0,5 ) σ k − µ + 0,5 k − µ − 0,5 ) − Φ( 2 ), P( X = k 2 ) ≈ Φ( 2 σ σ k − µ + 0,5 k − µ − 0,5 ) − Φ( 1 ), P(k1 ≤ X ≤ k 2 ) ≈ Φ ( 2 σ σ für k1 , k 2 = 1,2,..., n P( X ≤ k 2 ) ≈ Φ ( µ = n⋅ p σ = n⋅ p⋅q Satz (10.3) Für große n gilt näherungsweise n 1 k−µ B(n, p, k ) = p k (1 − p) n−k ≈ ϕ = k σ σ k − n⋅ p ⋅ Φ n ⋅ p(1 − p) n ⋅ p ⋅ (1 − p) 1 Satz (10.4) Für große n gilt : c + 0,5 c P ( X − µ ≤ c ) ≈ 2Φ − 1 ≈≈ 2Φ − 1 σ σ µ = EX σ = VarX Aus den Übungsaufgaben: P( X − µ ≤ c) = P ( X c c + 0,5 − p ≤ ) ≈ 2Φ ( ) −1 σ n n Fachbereich Informatik, 4W FH-München ⇒ P( X t ⋅ n + 0,5 − p ≤ t ) ≈ 2Φ ( ) −1 σ n Merkzettel für Statistik, Prof. Leitner Seite 7 Prüfen von Hypothesen: I. Die Standardaufgabe, gesucht wird der (unbekannte) Mittelwert 1. Ermittlung des arithmetischen Mittels X = 1 n n ∑X i i =1 2. Ermittlung der erwartungstreuen Schätzers für σ , wenn σ nicht angegeben ist S2 = 1 n −1 n ∑( X i − X ) 2 , dann σ = S 2 i =1 3. Entscheidung treffen X − ξ0 ≤ λ( n −1) P % σ n ⇒ Annahme der Hypothese X − ξ0 > λ( n −1) P % σ n ⇒ Ablehnung der Hypothese => Tabelle Student-T Verteilung Bei Test ξ = ξ0 gegen ξ ≠ ξ0 90% Sicherheitswahrscheinlichkeit 95% Sicherheitswahrscheinlichkeit 99% Sicherheitswahrscheinlichkeit = = = 0,95 0,975 0,995 Bei Test ξ ≥ ξ0 gegen ξ < ξ0 90% Sicherheitswahrscheinlichkeit 95% Sicherheitswahrscheinlichkeit 99% Sicherheitswahrscheinlichkeit = = = 0,90 0,95 0,99 II. Gesucht wird ein Intervall, in dem sich der Mittelwert mit P% Wahrscheinlichkeit befindet: 1. Ermittlung des arithmetischen Mittels (siehe oben) 2. Ermittlung der erwartungstreuen Schätzers für σ , wenn σ nicht angegeben ist (siehe oben) 3. Ermittlung des Intervalls X −ξ ≤ λ( n−1) P % σ n 4. nach ξ auflösen − λ( n −1) P % ≤ Fachbereich Informatik, 4W FH-München Merkzettel für Statistik, Prof. Leitner Seite 8 III. Standardaufgabe, gesucht wird die Standardabweichung (Streuung) 1. Ermittlung des arithmetischen Mittels (siehe oben) 2. Ermittlung der erwartungstreuen Schätzers (siehe oben) 3. Das Wert für die χ2 –Verteilung mit n-1 Freiheitsgraden ermitteln => Tabelle Chi-Quadrat Verteilung Zweiseitiger Test: Bei Hypothese σ = σ0 gegen σ ≠ σ0 χ2rechts, P%(n-1) < χ2links, P%(n-1) ≤ (n − 1) S 2 σ 02 (n − 1) S 2 σ0 2 < χ2links, P%(n-1) => Ablehnung der Hypothese ≤ χ2rechts, P%(n-1) => Annahme der Hypothese Beispiel: Bei P% = 95% und 9 Freiheitsgraden => links: 0.025 / 9 FG = 2.70 => rechts: 0.975 / 9 FG = 19.02 Einseitiger Test: Bei Hypothese σ ≥ σ0 gegen σ < σ0 (n − 1) S 2 < χ2einseitig rechts, P%(n-1) => Ablehnung der Hypothese σ 02 Beispiel: Bei P% = 95% und 7 Freiheitsgraden => einseitig rechts: 0.05 / 7 FG = 2.17 Bei Hypothese σ ≤ σ0 gegen σ > σ0 (n − 1) S 2 > χ2einseitig links, P%(n-1) => Ablehnung der Hypothese σ 02 Beispiel: Bei P% = 95% und 7 Freiheitsgraden => einseitig links: 0.95 / 7 FG = 14.07 IV. Gesucht wird ein Intervall, in dem sich die gesuchte Standardabweichung mit P% Wahrscheinlichkeit befindet: 1. Ermittlung des arithmetischen Mittels (siehe oben) 2. Ermittlung der erwartungstreuen Schätzers (siehe oben) 3. Ermittlung des Intervalls χ2links, P%(n-1) ≤ (n − 1) S 2 ≤ χ2rechts, P%(n-1) σ2 4. Nach σ auflösen Beispiel: Bei P% = 90% und 8 Freiheitsgraden => links: 0.05 / 9 FG = 2.73 => rechts: 0.95 / 9 FG = 15.51 Fachbereich Informatik, 4W FH-München Merkzettel für Statistik, Prof. Leitner Seite 9 V. Vergleich auf Gleichheit von zwei normalverteilten Grundgesamtheiten mit der selben unbek. Streuung σ Vorgegeben: H0: ξ = η bei einer Sicherheitswahrscheinlichkeit von P% Stichproben Xn und Ym 1. Ermittle arithmetische Mittel x und y 2. berechne: x−y t= n m 1 1 1 + ( xi − x ) 2 + ( yi − y ) 2 n m n + m − 2 i =1 i =1 ∑ ∑ 3. Entscheidung: t > γ P % ( n−m+ 2) t < γ P% ( n −m+ 2) => Hypothese wird abgelehnt => Hypothese wird angenommen => Tabelle Student-T Verteilung Soll ξ - η = C ein konstanter Unterschied festgestellt werden, wird der Zähler ersetzt durch x - y −C Fachbereich Informatik, 4W FH-München Merkzettel für Statistik, Prof. Leitner Seite 10 Aufgabentypen: Gegeben ist - Wahrscheinlichkeit p für ein Experiment - Sicherheitswahrscheinlichkeit P% Frage: Wie viele Experimente, damit p mit Sicherheit P% eintrifft ? Beispiel: - Wahrscheinlichkeit 3% - Sicherheitswahrscheinlichkeit 95% Ansatz: P(3%) = 1 − P(97%) = 1 − 0,97 n ≥ 0,95 ⇒ 0,97 n ≤ 0,05 ⇒ n ⋅ ln 0,97 ≤ ln 0,05 ⇒ n ≥ ln 0,05 = 98,35 ⇒ n ≥ 99 ln 0,97 Gegeben ist - Wahrscheinlichkeit p für ein Experiment (ggf. umkehren) - Anzahl der Versuche (<10) oder - Anzahl der Versuche (>10) - Anzahl der Treffer Frage: Wie groß ist die Wahrscheinlichkeit für dieses Experiment ? Versuche <10: n B(n, p) : k ⋅ p k q n−k k Versuche >10: P( X ≤ k 2 ) ≈ Φ ( µ = n⋅ p k 2 − µ + 0,5 ) σ σ = n⋅ p⋅q Gegeben: - Zufallsexperiment X Frage: Wie lautet der Erwartungswert (Durchschnitt), die Varianz oder die Standardabweichung von X ? EX = µ E ( X ) = EX = x1 ⋅ P ( X = x1 ) + x2 ⋅ P( X = x 2 ) + ... + xn ⋅ P ( X = x n ) VarX: k VarX = ∑(x 1 − µ ) 2 ⋅ P( X = xi ) = E (( X − µ ) 2 ) i =1 oder VarX = E ( X 2 ) − ( EX ) 2 Standardabweichung: Die Größe VarX heißt Standardabweichung, und wird auch mit σ oder σ (X) bezeichnet. Kombinatorik: Gegeben: - Eine Menge Ω - Eine Vorschrift A Frage: Wie groß ist die Wahrscheinlichkeit, daß A eintrifft ? 1. Ermittlung von Ω 2. Ermittlung von A 3. Wahrscheinlichkeit = A Ω Fachbereich Informatik, 4W FH-München