FORMELSAMMLUNG STATISTIK B Somersemester 2010 Dr. Scheer / J. Arns Version vom April 2010 Inhaltsverzeichnis 1 Wahrscheinlichkeitsrechnung 2 2 Zufallsvariablen 5 3 Diskrete Verteilungsmodelle 7 4 Parameterschätzung 11 5 Kovarianz und Korrelation 13 6 Verteilungen bei 2 Zufallsvariablen 14 7 Unabhängige Zufallsvariablen 16 8 Stetige Zufallsvariablen 17 9 Zentraler Grenzwertsatz 21 10 Konfidenzintervalle 22 11 Testen von Hypothesen 24 Die geometrische Reihe und Summenformel: n X 1 − q n+1 q = 1−q k=0 Statistik B@LS-Kneip k (falls q 6= 1) und für |q| < 1: ∞ X k=0 qk = 1 1−q Formelsammlung zur Statistik B 1 Seite 2 Wahrscheinlichkeitsrechnung Kombinatorik Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln: ohne Zurücklegen Reihenfolge wichtig Reihenfolge nicht wichtig Sortieren nicht erlaubt“ ” Sortieren erlaubt“ ” N n n+N −1 n+N −1 = n N −1 N · (N − 1) · · · (N − (n − 1)) Nn mit Zurücklegen Binomialkoeffizienten • Definition: n! n n · (n − 1) · · · (n − (k − 1)) = = k k · (k − 1) · · · 1 k!(n − k)! • Rechenregeln: n n = =1 0 n n n = k n−k n n = =n 1 n−1 n n−1 n−1 = + k k k−1 Rechenregeln für Mengen • Kommutativgesetz: A∩B =B∩A A∪B =B∪A • Assoziativgesetz: (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) • Distributivgesetz: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) • De Morgansche Regeln: (A ∪ B) = Ā ∩ B̄ (A ∩ B) = Ā ∪ B̄ • Aus A ⊂ B folgt B̄ ⊂ Ā • Für die Differenzmenge A\B gilt: A\B = A ∩ B̄ Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 3 Wahrscheinlichkeiten und Axiome von Kolmogoroff • Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P ) – Grundraum Ω = {ω1 , ω2 , . . . ωN }. – Ereignisse P(Ω) = Menge aller Teilmengen A ⊂ Ω – Wahrscheinlichkeit P P (A) = Wahrscheinlichkeit für das Eintreten von A Die Wahrscheinlichkeitsverteilung P erfüllt die Axiome von Kolmogoroff : (A1) (A2) (A3) (Nichtnegativität) P (A) ≥ 0 (Normiertheit) P (Ω) = 1 (Additivität) P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅ • Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt durch das Axiom ∞ ∞ X [ P (Ak ) für Ai ∩ Aj = ∅, i 6= j (A3’) (σ−Additivität) P ( Ak ) = k=1 k=1 Rechenregeln für Wahrscheinlichkeiten 1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1 2. A ⊆ B ⇒ P (A) ≤ P (B) 3. P (Ā) = 1 − P (A) mit Ā = Ω\A 4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 5. P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ), falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅ 6. P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An ) 7. Wenn die Elementarwahrscheinlichkeiten pi = P ({ωi }), i = 1, 2, . . . bekannt sind, dann gilt für die Wahrscheinlichkeit eines Ereignisses A: X X P (A) = P ({ωi }) = pi Statistik B@LS-Kneip i:ωi ∈A i:ωi ∈A Formelsammlung zur Statistik B Seite 4 Laplace-Modell 1. Annahme: Endlicher Grundraum Ω = {ω1 , . . . , ωN } 2. Annahme: P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN }) Wahrscheinlichkeiten: P (A) = Anzahl ωi in A #A #A = = Anzahl ωi in Ω #Ω N Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit von A gegeben B P (A|B) = P (A ∩ B) P (B) für A, B ⊂ Ω mit P (B) > 0 Unabhängigkeit von Ereignissen • Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn P (A ∩ B) = P (A) · P (B) • Ereignisse A1 , . . . , An heißen stochastisch unabhängig, wenn für jede Auswahl Ai1 , . . . , Aik mit k ≤ n gilt: P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik ) Multiplikationssatz • Für Ereignisse A1 , . . . , An gilt: P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · · · P (An |A1 ∩ . . . ∩ An−1 ) • Falls die Ereignisse A1 , . . . , An unabhängig sind, gilt: P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An ) Totale Wahrscheinlichkeit und Satz von Bayes Seien A1 , . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte Vereinigung der Ai ; es gilt: Ai 6= ∅, Ai ∩ Aj = ∅, i 6= j, und A1 ∪ A2 ∪ . . . ∪ An = Ω). B sei ein Ereignis mit P (B) > 0. P (B|Ak ) · P (Ak ) = P (B ∩ Ak ) = P (Ak |B) · P (B) n n X X P (B) = P (B|Ai ) · P (Ai ) = P (B ∩ Ai ) i=1 P (Ak |B) = Statistik B@LS-Kneip (totale Wahrscheinlichkeit) i=1 P (B|Ak ) · P (Ak ) P (B|Ak ) · P (Ak ) = n X P (B) P (B|Ai ) · P (Ai ) i=1 (Satz von Bayes) Formelsammlung zur Statistik B 2 Seite 5 Zufallsvariablen ' $ Daten (Statistik I und II) Modell (Statistik II) Beobachtungen x1 , x2 , . . . , xn eines Merkmals X mit den Ausprägungen a1 , a2 , . . . , ak Relative Häufigkeiten Zufallsvariable X mit Werten a1 , . . . , ak f (ai ) = fi = hi n i = 1, ..., k Häufigkeitsverteilung Stabdiagramm“ der rel. Häufigkeiten ” Wahrscheinlichkeitsverteilung von X P ({X = ai }) = pi , Wahrscheinlichkeitsfunktion Stabdiagramm“ der Wahrscheinlichkeiten ” pi = P ({X = ai }) fi = f (ai ) Empirische Verteilungsfunktion X X F (x) = fi = f (ai ) i:ai ≤x k X 1X xi n i=1 E(X) = k X ai · P ({x = ai }) = i=1 ai · p i i=1 k X Var(X) = (ai − E(X))2 · pi = i=1 k X a2i pi − E(X)2 i=1 i=1 Empirische Standardabweichung p s˜x = s̃2x Standardabweichung der ZVa X p σ(X) = Var(X) & Statistik B@LS-Kneip k X Varianz der ZVa X a2i fi − x̄2 Notation: E(X) = µX = µ, P ({X = ai }) Erwartungswert der ZVa X k X = (ai − x̄)2 fi i=1 k X X i:ai ≤x Empirische Varianz = FX (x) = P ({X ≤ x}) = n ai · f i = i=1 s̃2x Verteilungsfunktion i:ai ≤x Arithmetisches Mittel x̄ = i = 1, 2, . . . , k % 2 Var(X) = σX = σ2, σ(X) = σX = σ Formelsammlung zur Statistik B Seite 6 Ungleichung von Tschebyscheff • Zufallsvariable X mit E(X) = µ und Var(X) = σ(X)2 . • Ungleichung von Tschebyscheff Für c > 0 gilt: P [{|X − µ| ≥ c}] ≤ Var(X) c2 • Ungleichung von Tschebyscheff als untere Schranke Für c > 0 gilt: P [{|X − µ| < c}] ≥ 1 − Var(X) c2 • Zentrale Schwankungsintervalle ]E[X] − κσ(X), E[X] + κσ(X)[ Für κ = 2, 3, 4, ... Standardisierung einer Zufallsvariablen • Gegeben: ZVa X mit E(X) und Var(X) > 0 • Standardisierte ZVa X∗ X∗ = • Eigenschaften: Statistik B@LS-Kneip X − E(X) X −µ = σ(X) σ E(X ∗ ) = 0 und Var(X ∗ ) = 1 Formelsammlung zur Statistik B 3 Seite 7 Diskrete Verteilungsmodelle Bernoulli-Verteilung • Notation: X ∼ B(1, p) 0≤p≤1 mit • Verteilung von X ( 1 X= 0 mit P ({X = 1}) = p mit P ({X = 0}) = 1 − p • Erwartungswert und Varianz E(X) = p Var(X) = p · (1 − p) Diskrete Gleichverteilung • X diskret gleichverteilt (auf a1 < . . . < ak ) • Verteilung von X X = a1 , a2 , . . . , ak mit P ({X = ai }) = 1 k • Werte der Verteilungsfunktion P ({X ≤ ai }) = i k • Erwartungswert und Varianz k Statistik B@LS-Kneip 1X E(X) = ai k i=1 k 1X Var(X) = (ai − E(X))2 k i=1 Formelsammlung zur Statistik B Seite 8 Hypergeometrische Verteilung # • Notation: X ∼ H(n, M, N ) mit M ≤ N, n ≤ N • Verteilung von X P ({X = k}) = M k N −M n−k N n wobei ( 0, 1, . . . , n falls n ≤ min(M, N − M ) X= max(0, n + M − N ), . . . , min(n, M ) sonst • Werte der Verteilungsfunktion P ({X ≤ i}) = i X P ({X = k}) k=0 • Erwartungswert und Varianz M E(X) = n N M Var(X) = n N M N −n 1− N N −1 • Rekursionsformel " Statistik B@LS-Kneip n−k M −k P ({X = k + 1}) = · P ({X = k}) k + 1 N − M − (n − k − 1) ! Formelsammlung zur Statistik B Seite 9 Binomialverteilung • Notation: X ∼ B(n, p) mit 0≤p≤1 • Verteilung von X X = 0, 1, . . . , n mit n k P ({X = k}) = p (1 − p)n−k k • Werte der Verteilungsfunktion P ({X ≤ i}) = i X P ({X = k}) k=0 • Erwartungswert und Varianz Var(X) = np(1 − p) E(X) = np • Rekursionsformel P ({X = k + 1}) n−k p = · P ({X = k}) k+1 1−p Geometrische Verteilung • Notation: X ∼ Geo(p) mit 0<p≤1 • Verteilung von X X = 1, 2, 3 . . . mit P ({X = k}) = (1 − p)k−1 p • Werte der Verteilungsfunktion P ({X ≤ i}) = i X P ({X = k}) k=0 • Erwartungswert und Varianz E(X) = 1 p Var(X) = 1−p p2 • Rekursionsformel Statistik B@LS-Kneip P ({X = k + 1}) = (1 − p) P ({X = k}) Formelsammlung zur Statistik B Seite 10 Poisson-Verteilung • Notation: X ∼ Po(λ) mit λ>0 • Verteilung von X X = 0, 1, 2, 3 . . . mit P ({X = k}) = λk −λ e k! • Werte der Verteilungsfunktion P ({X ≤ i}) = i X P ({X = k}) k=0 • Erwartungswert und Varianz E(X) = λ Var(X) = λ • Rekursionsformel λ P ({X = k + 1}) = P ({X = k}) k+1 Approximation der Hypergeometrischen Verteilung durch eine Binomialverteilung Für X ∼ H(n, M, N ) und n klein gegenüber N, M und N − M gilt approximativ: X ∼ B (n, p) , M p= N d.h. P ({X = k}) = M k N −M n−k N n n k ≈ p (1 − p)n−k k Approximation der Binomialverteilung durch eine Poisson-Verteilung Für X ∼ B(n, p) und großes n bei gleichzeitig kleiner Erfolgswahrscheinlichkeit“ p ” (Faustregel: np < 5 oder n(1 − p) < 5) gilt approximativ: X ∼ P o(λ), Statistik B@LS-Kneip λ=n·p d.h. n k (np)k −np P ({X = k}) = p (1 − p)n−k ≈ e k k! Formelsammlung zur Statistik B 4 Seite 11 Parameterschätzung Schätzung eines Anteilswertes Allgemein Parameter p θ Modell (Verteilung) Xi ∼ B(1, p), bzw. Sn ∼ B(n, p) Zufallsvariable Sn = Anzahl der Merkmalsträger in Stichprobe vom Umfang n Xi hat Verteilung, die vom Daten: k Merkmalsträger aus n x1 , ..., xn Schätzer: (Zufallsvariable) 1 1X Rn = Sn = Xi n n i=1 Parameter θ abhängt. n Schätzwert: (reelle Zahl) Statistik B@LS-Kneip p̂n = k n θ̂ n = g(X1 , . . . Xn ) θ̂n = g(x1 , . . . xn ) Formelsammlung zur Statistik B Seite 12 ' $ • Statistisches Modell – X1 , . . . , Xn einfache Zufallsstichprobe, d.h. unabhängige Wiederholungen von X – Verteilung von X hängt von einem Parameter θ ab – Beobachtete (realisierte) Werte: x1 , . . . , xn • Schätzer für θ: θ̂n = g(X1 , . . . , Xn ) • Schätzwert für θ: θ̂n = g(x1 , . . . , xn ) (Zufallsvariable) (reelle Zahl) • Bias (Verzerrung, systematischer Schätzfehler von θ̂n ): Bias(θ̂n ) = E(θ̂n ) − θ • Erwartungstreue (kein systematischer Schätzfehler): θ̂n heißt erwartungstreu, (unbiased, unverzerrt) für θ, falls Bias(θ̂n ) = 0, bzw. E(θ̂n ) = θ • Varianz (zufallsbedingter Schätzfehler): Var(θ̂n ) = E(θ̂n − E(θ̂n ))2 • Mittlerer quadratischer Schätzfehler (MSE, Mean Squared Error): MSE(θ̂n ) = E (θ̂n − θ)2 = Var(θ̂n ) + Bias(θ̂n )2 θ̂n unbiased ⇒ MSE(θ̂n ) = Var(θ̂n ) • Schwache Konsistenz: θ̂n ist schwach konsistent für θ, falls für jedes c > 0 : P (|θ̂n − θ| ≥ c) → 0 für n → ∞ gilt. • MSE-Konsistenz: θ̂ n ist MSE-konsistent für θ, falls MSE(θ̂ n ) → 0 MSE-Konsistenz & Statistik B@LS-Kneip ⇒ schwache Konsistenz für n → ∞ gilt. % Formelsammlung zur Statistik B 5 Seite 13 Kovarianz und Korrelation ' $ Daten (Statistik I und II) Modell (Statistik II) Daten x1 , . . . xn und y1 , . . . yn von zwei Merkmalen X und Y Emp. Kovarianz (zw. X und Y ) Zwei Zufallsvariablen X und Y Kovarianz (zwischen X und Y ) n 1X = (xi − x̄)(yi − ȳ) n i=1 s̃xy Cov(X, Y ) = E(X − E(X))(Y − E(Y )) n = 1X xi yi − x̄ȳ n i=1 Emp. Korrelationskoeffizient rxy = = E(X · Y ) − E(X)E(Y ) Korrelationskoeffizient s̃xy s̃x s̃y X und Y empirisch unkorreliert s̃xy ≈ 0 bzw. rxy ≈ 0 Symmetrie rXY = Cov(X, Y ) σ(X) · σ(Y ) X und Y unkorreliert Cov(X, Y ) = 0 bzw. rXY = 0 Symmetrie s̃xy = s̃yx rxy = ryx Lineare Transformation Cov(X, Y ) = Cov(Y, X) rXY = rY X Lineare Transformation x̃i = axi + b, ỹi = cyi + d X̃ = aX + b, Ỹ = cY + d s̃x̃ỹ = a · c · s̃xy a·c rx̃ỹ = · rxy |a| · |c| Cov(X̃, Ỹ ) = a · c · Cov(X, Y ) a·c · rXY rX̃ Ỹ = |a| · |c| Zusammenhang zur Varianz s̃2x+y = s̃2x + s̃2y + 2 · s̃xy s̃xx = & Statistik B@LS-Kneip s̃2x Zusammenhang zur Varianz Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) Cov(X, X) = Var(X) % Formelsammlung zur Statistik B 6 Seite 14 Verteilungen bei 2 Zufallsvariablen ' $ • Zufallsvariablen X und Y – Zufallsvariable X mit Werten a1 , . . . ak – Zufallsvariable Y mit Werten b1 , . . . bl • Gemeinsame (Wahrscheinlichkeits-)verteilung von X und Y fX,Y (ai , bj ) = P ({X = ai } ∩ {Y = bj }) und fX,Y (x, y) = 0 für alle anderen Werte von x und y • Gemeinsame Verteilungsfunktion von X und Y FX,Y (s, t) = P ({X ≤ s} ∩ {Y ≤ t}) = X X fX,Y (ai , bj ) i:ai ≤s j:bj ≤t • Randverteilung von X fX (ai ) = l X fX,Y (ai , bj ) = P ({X = ai }) = j=1 l X P ({X = ai } ∩ {Y = bj }) j=1 und fX (x) = 0 für alle anderen Werte von x • Randverteilung von Y fY (bj ) = k X fX,Y (ai , bj ) = P ({Y = bj }) = i=1 k X P ({X = ai } ∩ {Y = bj }) i=1 und fY (y) = 0 für alle anderen Werte von y • Bedingte Verteilungen X|Y = bj fX,Y (ai , bj ) fY (bj ) P ({X = ai } ∩ {Y = bj }) = P ({X = ai }|{Y = bj }) = P ({Y = bj }) fX|Y =bj (ai ) = fX (ai |Y = bj ) = • Bedingte Verteilungen Y |X = ai fX,Y (ai , bj ) fX (ai ) P ({X = ai } ∩ {Y = bj }) = P ({Y = bj }|{X = ai }) = P ({X = ai }) fY |X=ai (bj ) = fY (bj |X = ai ) = & Statistik B@LS-Kneip % Formelsammlung zur Statistik B Seite 15 Zusammenhang zwischen den Verteilungen P ({X = ai }|{Y = bj }) · P ({Y = bj }) = P ({X = ai } ∩ {Y = bj }) = P ({Y = bj }|{X = ai }) · P ({X = ai }) fX (ai |Y = bj ) · fY (bj ) = fX,Y (ai , bj ) = fY (bj |X = ai ) · fX (ai ) Rechenregeln für 2 Zufallsvariablen E(X + Y ) = E(X) + E(Y ) E(c1 X + c2 Y ) = c1 E(X) + c2 E(Y ) Var(X + Y ) = Var(X) + Var(Y ) + 2 · Cov(X, Y ) Var(c1 X + c2 Y ) = c21 Var(X) + c22 Var(Y ) + 2 · c1 · c2 · Cov(X, Y ) X und Y UNKORRELIERT oder sogar UNABHÄNGIG Cov(X, Y ) = 0, E(X · Y ) = E(X) · E(Y ) Var(X + Y ) = Var(X) + Var(Y ) Var(c1 X + c2 Y ) = c21 Var(X) + c22 Var(Y ) Rechenregeln für n Zufallsvariablen E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) E(c1 X1 + · · · + cn Xn ) = c1 E(X1 ) + · · · + cn E(Xn ) Var(X1 + · · · + Xn ) = n X Var(Xi ) + 2 · i=1 Var(c1 X1 + · · · + cn Xn ) = Cov(Xi , Xj ) i=1 j=i+1 n X i=1 n X n X c2i Var(Xi ) + 2 · n n X X ci · cj · Cov(Xi , Xj ) i=1 j=i+1 X1 , . . . , Xn paarweise UNKORRELIERT oder sogar UNABHÄNGIG Cov(Xi , Xj ) = 0 für alle i 6= j, E(Xi · Xj ) = E(Xi ) · E(Xj ) für alle i 6= j Var(X1 + X2 + · · · + Xn ) = Var(X1 ) + Var(X2 ) + · · · + Var(Xn ) Var(c1 X1 + c2 X2 + · · · + cn Xn ) = c21 Var(X1 ) + c22 Var(X2 ) + · · · + c2n Var(Xn ) Statistik B@LS-Kneip Formelsammlung zur Statistik B 7 Seite 16 Unabhängige Zufallsvariablen Unabhängigkeit bei 2 Zufallsvariablen ' • Definition: Zwei Zufallsvariablen X und Y (auf dem gleichen Ω) heißen (stochastisch) unabhängig, falls $ P ({X = ai } ∩ {Y = bj }) = P ({X = ai }) · P ({Y = bj }) für alle Werte von X und Y gilt. • Alternative Definition: (bei stetigen Verteilungen) Zwei Zufallsvariablen X und Y (auf dem gleichen Ω) heißen (stochastisch) unabhängig, falls P ({X ≤ ai } ∩ {Y ≤ bj }) = P ({X ≤ ai }) · P ({Y ≤ bj }) für alle Werte s, t gilt. • Rechenregeln Wenn die Zufallsvariablen X und Y unabhängig sind, dann gilt: – Die gemeinsame Verteilung ist das Produkt der beiden Randverteilungen. fX,Y (ai , bj ) = fX (ai ) · fY (bj ) – Die bedingten Verteilungen stimmen alle mit der jeweiligen Randverteilung überein. (d.h. sie sind unabhängig von der Bedingung) fX|Y =bj (ai ) = fX (ai ) und fY |X=ai (bj ) = fY (bj ) & – Die gemeinsame Verteilungsfunktion ist das Produkt der Verteilungsfunktionen der einzelnen Zufallsvariablen. FX,Y (s, t) = FX (s) · FY (t) Unabhängigkeit bei n Zufallsvariablen • Definition: Die n Zufallsvariablen X1 , X2 , . . . , Xn heißen (stochastisch) unabhängig, falls für alle Werte t1 , . . . , tn gilt: % P ({X1 ≤ t1 } ∩ {X2 ≤ t2 } ∩ · · · ∩ {Xn ≤ tn }) = P ({X1 ≤ t1 }) · P ({X2 ≤ t2 }) · · · P ({Xn ≤ tn }) • Rechenregeln: X1 , . . . , Xn unabhängig ⇒ – Gemeinsame Verteilungsfunktion = Produkt der einzelnen Verteilungsfunktionen – Gemeinsame Verteilung als Produkt der Randverteilungen berechenbar – Bedingte Verteilungen unabhängig von den Bedingungen Statistik B@LS-Kneip Formelsammlung zur Statistik B 8 Seite 17 Stetige Zufallsvariablen ' $ Es sei X stetige Zufallsvariable (mit Werten x ∈ R) • (Wahrscheinlichkeits-) Dichte von X Funktion f (x) ≥ 0, so dass für jedes Intervall [a, b]: Z∞ Zb P [a ≤ X ≤ b] = f (x)dx; es gilt: f (x)dx = 1 −∞ a • Verteilungsfunktion von X Zx F (x) = P [X ≤ x] = f (x)dx −∞ • Erwartungswert von X Z∞ x · f (x)dx E(X) = µX = −∞ • Varianz von X 2 Var(X) = σX = E(X − µX )2 = E(X 2 ) − µ2X = Z∞ (x − µX )2 f (x)dx −∞ • Standardabweichung von X σX = p Var(X) • Quantile Für 0 < p < 1 ist das p-Quantil xp der Wert, für den gilt: & Statistik B@LS-Kneip F (xp ) = P [X ≤ xp ] = p und 1 − F (xp ) = P [X ≥ xp ] = 1 − p % Formelsammlung zur Statistik B Seite 18 Normalverteilung (Gauß-Verteilung), X ∼ N (µ, σ 2 ) ' $ • Dichte- und Verteilungsfunktion (für x ∈ R) 1 (x − µ)2 fN (x) = √ exp − 2σ 2 2πσ 1 FN (x) = √ 2πσ Zx (t − µ)2 exp − dt 2σ 2 −∞ • Erwartungswert und Varianz E(X) = µ Var(X) = σ 2 • Lineare Transformation: (a, b beliebige Zahlen) X ∼ N (µ, σ 2 ) und Y = a · X + b ⇒ Y ∼ N (a · µ + b, a2 · σ 2 ) • Linearkombination: Xi ∼ N (µi , σi2 ) und unabhängig, a1 , . . . , an beliebige Zahlen ⇒ Y = a1 · X1 + · · · + an · Xn ∼ N (a1 · µ1 + · · · + an · µn , a21 · σ12 + · · · + a2n · σn2 ) • Rückführung auf die Standardnormalverteilung – Standardisierung X ∼ N (µ, σ 2 ) ⇒ Z = X −µ ∼ N (0, 1) σ – Verteilungsfunktion 2 X ∼ N (µ, σ ) ⇒ P [X ≤ x] = FN (x) = Φ x−µ σ – Quantile (Für 0 < p < 1) & xp p-Quantil von N (µ, σ 2 ) Statistik B@LS-Kneip ⇒ xp = µ + σzp wobei zp p-Quantil von N (0, 1) % Formelsammlung zur Statistik B Seite 19 Standardnormalverteilung, X ∼ N (0, 1) • Dichte- und Verteilungsfunktion 2 1 x ϕ(x) = √ exp − 2 2π 1 Φ(x) = √ 2π für x ∈ R Zx t2 exp − 2 dt −∞ • Erwartungswert und Varianz E(X) = 0 Var(X) = 1 χ2 -Verteilung • Definition und Bezeichnung X1 , . . . , Xn unabhängige und N (0, 1)-verteilte Zufallsvariablen. Die Verteilung von χ2 = X12 + · · · + Xn2 heißt Chi-Quadrat-Verteilung“ mit n Freiheitsgraden, kurz ” χ2 ∼ χ2 (n). • Erwartungswert und Varianz E(χ2 ) = n Var(χ2 ) = 2n • Approximation durch die Normalverteilung √ 1 für n > 30: χ2 (n) ≈ N (n, 2n) für Quantile χ2p;n ≈ (zp + 2n − 1)2 2 t-Verteilung, Student-Verteilung • Definition und Bezeichnung X ∼ N (0, 1) und Y ∼ χ2 (n) unabhängig. Die Verteilung von T = √X Y /n heißt t” Verteilung“ mit n Freiheitsgraden, kurz T ∼ t(n). • Erwartungswert und Varianz E(T ) = 0 Var(T ) = n n−2 (n > 2) • Approximation durch die Normalverteilung Statistik B@LS-Kneip für n > 100: t(n) ≈ N (0, 1) für Quantile tp;n ≈ zp Formelsammlung zur Statistik B Seite 20 Exponentialverteilung, X ∼ Ex(λ), mit λ > 0 • Dichte- und Verteilungsfunktion ( λe−λx für x ≥ 0 fEx (x) = 0 sonst ( 0 FEx (x) = 1 − e−λx für x < 0 für x ≥ 0 • Erwartungswert und Varianz E(X) = 1 λ Var(X) = 1 λ2 Stetige Gleichverteilung, X ∼ U (a, b), mit a < b • Dichte- und Verteilungsfunktion ( fU (x) = 1 b−a 0 für a ≤ x ≤ b sonst FU (x) = 0 x−a b−a 1 für x < a für a ≤ x ≤ b für x > b • Erwartungswert und Varianz Statistik B@LS-Kneip E(X) = a+b 2 Var(X) = (b − a)2 12 Formelsammlung zur Statistik B 9 Seite 21 Zentraler Grenzwertsatz Seien X1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit Mittelwert µ und Varianz σ 2 . Dann gilt für großes n approximativ: X̄ − µ √ ≤ z ≈ Φ(z) P σ/ n Statistik B@LS-Kneip d.h. σ2 X̄ ∼ N µ, n bzw. n X i=1 Xi ∼ N (nµ, nσ 2 ) Formelsammlung zur Statistik B 10 Seite 22 Konfidenzintervalle # • (1 − α)-Konfidenzintervall für θ Stichprobenfunktionen Gu = gu (X1 , . . . , Xn ) und Go = go (X1 , . . . , Xn ), so dass (zu vorgegebener Irrtumswahrscheinlichkeit α) P [Gu ≤ Go ] = 1 und P [θ ∈ [Gu , Go ]] = P [Gu ≤ θ ≤ Go ] = 1 − α ⇒ [Gu , Go ] = [gu (X1 , . . . , Xn ), go (X1 , . . . , Xn )] ist ein (1 − α)-Konfidenzintervall für θ. • Konfidenzniveau (Überdeckungs- , Vertrauenswahrscheinlichkeit): 1 − α • Realisiertes (1 − α)-Konfidenzintervall Beobachtete Werte x1 , . . . , x2 ⇒ [gu , go ] = [gu (x1 , . . . , xn ), go (x1 , . . . , xn )] • Symmetrisches (1 − α)–Konfidenzintervall erfüllt zusätzlich: P [θ < Gu ] = P [θ > Go ] = α 2 • Einseitiges (1 − α)-Konfidenzintervall (mit unterer Schranke) [Gu , ∞[ mit P [Gu ≤ θ] = 1 − α • Einseitiges (1 − α)-Konfidenzintervall (mit oberer Schranke) ] − ∞, Go ] mit P [θ ≤ Go ] = 1 − α " Konfidenzintervall für einen Erwartungswert, bekannte Varianz • Annahmen: ! – X1 , . . . , Xn unabhängig und identisch verteilt – Xi ∼ N (µ, σ 2 ) – Bekannte Varianz σ 2 • (1 − α)-Konfidenzintervall für µ und bekannter Varianz σ 2 : σ σ X̄ − z1−α/2 √ , X̄ + z1−α/2 √ n n • Anmerkung: Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes (1 − α)-Konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen aber großem Stichprobenumfang) um ein approximatives. Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 23 Konfidenzintervall für einen Erwartungswert, unbekannte Varianz ' • Annahmen: $ – X1 , . . . , Xn unabhängig und identisch verteilt – Xi ∼ N (µ, σ 2 ) – Unbekannte Varianz σ 2 • (1 − α)-Konfidenzintervall für µ: S S X − t1−α/2;n−1 √ , X + t1−α/2;n−1 √ n n n mit S 2 = 1 X (Xi − X)2 n − 1 i=1 • Anmerkung: Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes (1 − α)-Konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen aber großem Stichprobenumfang) um ein approximatives. Konfidenzintervall für eine Varianz • Annahmen: – X1 , . . . , Xn unabhängig und identisch verteilt – Xi ∼ N (µ, σ 2 ) • (1 − α)-Konfidenzintervall für σ 2 : " # (n − 1)S 2 (n − 1)S 2 , χ21−α/2;n−1 χ2α/2;n−1 n 1 X mit S = (Xi − X̄)2 n − 1 i=1 2 Approximatives Konfidenzintervall für einen Anteilswert • Annahmen: – X1 , . . . , Xn unabhängig und identisch verteilt – Xi ∼ Bernoulli(p) – Großer Stichprobenumfang; Faustregel: n > 30, np > 5 • Approximatives (1 − α)-Konfidenzintervall für p: " # r r p̂(1 − p̂) p̂(1 − p̂) p̂ − z1− α2 , p̂ + z1− α2 n n & Statistik B@LS-Kneip mit p̂ = X % Formelsammlung zur Statistik B 11 Seite 24 Testen von Hypothesen Allgemein gelten folgende Annahmen und Hypothesen: • Annahmen: – X1 , . . . , Xn unabhängig und identisch verteilt – Xi ∼ N (µ, σ 2 ) – Bekannte Varianz σ 2 • Hypothesen: (1) H0 : µ = µ0 gegen H1 : µ 6= µ0 (2) H0 : µ = µ0 gegen H1 : µ > µ0 (3) H0 : µ = µ0 gegen H1 : µ < µ0 H0 : µ = µ0 H1 : µ 6= µ0 H0 : µ = µ0 H1 : µ > µ0 H0 : µ = µ0 H1 : µ < µ0 Gauß AB p-Wert |zbeob | > z1−α/2 2 · P [Z ≥ |zbeob |] zbeob > z1−α P [Z ≥ zbeob zbeob < −z1−α P [Z ≤ zbeob ] t-test AB p-Wert |tbeob | > t1−α/2;n−1 2 · P [T ≥ |tbeob |] tbeob > t1−α;n−1 P [T ≥ tbeob ] tbeob < −t1−α;n−1 P [T ≤ tbeob ] approx. Binomi AB p-Wert |zbeob | > z1−α/2 2 · P [Z ≥ |zbeob |] zbeob > z1−α P [Z ≥ zbeob zbeob < −z1−α P [Z ≤ zbeob ] Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 25 Gauß-Test • Teststatistik: √ Z= n(X̄ − µ0 ) σ • Verteilung von Z unter H0 : Z ∼ N (0, 1) • Ablehnungsbereich (Test zum Niveau α): (1) |zbeob | > z1−α/2 (2) zbeob > z1−α (3) zbeob < −z1−α • Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1) (1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] (2) p-Wert = P [Z ≥ zbeob ] (3) p-Wert = P [Z ≤ zbeob ] • Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für großen Stichprobenumfang i.Allg. approximativ gültig. Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 26 t-Test (Ein-Stichproben-Fall, σ 2 unbekannt) • Teststatistik: √ n(X̄ − µ0 ) T = S n 1 X mit S = (Xi − X̄)2 n − 1 i=1 2 • Verteilung von T unter H0 : T ∼ t(n − 1) • Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n−1 (2) tbeob > t1−α;n−1 (3) tbeob < −t1−α;n−1 • Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] • Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen Stichprobenumfang i.Allg. approximativ gültig. Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 27 Approximativer Binomialtest • Teststatistik: p̂ − p0 Z=p p0 (1 − p0 )/n mit p̂ = X • Aproximative Verteilung von Z unter H0 : Z ∼ N (0, 1) • Ablehnungsbereich (Test zum Niveau α): (1) |zbeob | > z1−α/2 (2) zbeob > z1−α (3) zbeob < −z1−α • Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1) (1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] (2) p-Wert = P [Z ≥ zbeob ] (3) p-Wert = P [Z ≤ zbeob ] • Anmerkung: Unter H0 gilt (exakt): np̂ ∼ B(n, p0 ). Mit den entsprechenden Quantilen der Binomialverteilung erhält man den sogenannten exakten Binomialtest. Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 28 Vergleich der Erwartungswerte, σx2 , σy2 bekannt • Teststatistik: Z=r X −Y 2 σ2 σX + Y n m • Verteilung von Z unter H0 : Z ∼ N (0, 1) • Ablehnungsbereich (Test zum Niveau α): (1) |zbeob | > z1−α/2 (2) zbeob > z1−α (3) zbeob < −z1−α • Überschreitungswahrscheinlichkeit: Für Z ∼ N (0, 1) (1) p-Wert = P [|Z| ≥ |zbeob |] = 2 · P [Z ≥ |zbeob |] (2) p-Wert = P [Z ≥ zbeob ] (3) p-Wert = P [Z ≤ zbeob ] • Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für große Stichprobenumfänge m, n i.Allg. approximativ gültig. Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 29 t-Test (Zwei-Stichproben-Fall), σi unbekannt, aber σx2 =σy2 • Teststatistik: T = X −Y p S 1/n + 1/m mit S 2 = 2 (n − 1)SX + (m − 1)SY2 n+m−2 • Verteilung von T unter H0 : T ∼ t(n + m − 2) • Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n+m−2 (2) tbeob > t1−α;n+m−2 (3) tbeob < −t1−α;n+m−2 • Überschreitungswahrscheinlichkeit: Für T ∼ t(n + m − 2) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] • Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große Stichprobenumfänge m, n i.Allg. approximativ gültig. Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 30 t-Test (Zwei-Stichproben-Fall), σi unbekannt, σx2 6= σy2 ' • Teststatistik: T =r $ X −Y 2 S2 SX + Y n m • Verteilung von T unter H0 : 2 2 SX SY2 + n m wobei k größte ganze Zahl mit k ≤ 2 2 2 2 1 SX SY 1 + n−1 n m−1 m T ∼ t(k) • Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;k (2) tbeob > t1−α;k (3) tbeob < −t1−α;k • Überschreitungswahrscheinlichkeit: Für T ∼ t(k) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] • Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große Stichprobenumfänge m, n i.Allg. approximativ gültig. & % Statistik B@LS-Kneip Formelsammlung zur Statistik B Seite 31 t-Test (verbundene Stichproben) • Teststatistik: √ nD T = SD n mit 2 SD 1 X = (Di − D)2 n − 1 i=1 Di = Xi − Yi • Verteilung von T unter H0 : T ∼ t(n − 1) • Ablehnungsbereich (Test zum Niveau α): (1) |tbeob | > t1−α/2;n−1 (2) tbeob > t1−α;n−1 (3) tbeob < −t1−α;n−1 • Überschreitungswahrscheinlichkeit: Für T ∼ t(n − 1) (1) p-Wert = P [|T | ≥ |tbeob |] = 2 · P [T ≥ |tbeob |] (2) p-Wert = P [T ≥ tbeob ] (3) p-Wert = P [T ≤ tbeob ] • Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen Stichprobenumfang i.Allg. approximativ gültig. χ2 -Unabhängigkeitstest • Teststatistik: χ2 = k X m X i=1 j=1 hi· h·j hij − n hi· h·j n 2 • Approximative Verteilung von χ2 unter H0 : χ2 ∼ χ2 ((k − 1)(m − 1)) falls hi· h·j ≥ 5 für alle i, j n • Ablehnungsbereich (Test zum Niveau α): χ2beob > χ21−α;(k−1)(m−1) • Überschreitungswahrscheinlichkeit: Für χ2 ∼ χ2 ((k − 1)(m − 1)) p-Wert = P [χ2 ≥ χ2beob ] Statistik B@LS-Kneip