STATISIK LV Nr.: 0021 WS 2005/06 25. Oktober 2005 1 Theoretische Verteilungen • Diskrete Verteilungen – – – – Binomialverteilung Hypergeometrische Verteilung Poissonverteilung ... • Stetige Verteilungen – – – – – – – Gleichverteilung Exponentialverteilung Normalverteilung Chi-Quadrat Verteilung t-Verteilung (Studentverteilung) F-Verteilung ... 2 Binomialverteilung • Wahrscheinlichkeiten für die Häufigkeit des Eintreffens bestimmter Ereignisse bei Bernoulli-Experimenten berechnen. • Bernoulli-Experiment: Folge von BernoulliVersuchen. Urnenmodell mit Zurücklegen – Es gibt nur 2 mögliche Ausgänge: A und Ā – Wahrscheinlichkeiten für Eintreten von A (θ) und Ā (1- θ) sind konstant – Versuche sind voneinander unabhängig. 3 Binomialverteilung • Bsp. Bernoulli-Experiment: – fünfmaliges Werfen einer Münze, Zufallsvariable X „Anzahl der Zahlen“, Realisation x = 0, 1, 2, 3, 4, 5 – Wahrscheinlichkeiten für Eintreten von A: W(X=x) = f(x) = ? 4 Binomialverteilung • Wahrscheinlichkeit des Auftretens einer bestimmten Realisation x: W(X=x) = f(x) • Wahrscheinlichkeitsfunktion der Binomialverteilung: n x θ (1 θ) n x f B (x; n, θ) x für x 0,1,..., n 0 sonst 5 Binomialverteilung • Bsp. Münzwurf (n=5), Wahrscheinlichkeit dass genau 2-mal Zahl geworfen wird: W(X=2) 5 2 f B (2;5,0.5) 0,5 (1 0,5)52 0,3125 2 6 Binomialverteilung • Wahrscheinlichkeit, dass die Zufallsvariable X höchstens den Wert x annimmt: Verteilungsfunktion FB(x;n,θ) n i n-i FB (x;n,θ) θ (1 θ) i 0 i x 7 Binomialverteilung • Bsp. Münzwurf (n=5), Wahrscheinlichkeit dass höchstens 2-mal Zahl geworfen wird: W(X 2) 5 i FB (2;5,0.5) 0,5 (1 0,5)5-i 0,5 i 0 i 2 8 Binomialverteilung • Erwartungswert der Binomialverteilung: E(X) = n·θ • Varianz der Binomialverteilung: Var(X) = n·θ·(1-θ) • Bsp. Münzwurf: – E(X) = 5·0,5 = 2,5 – Var(X) = 5·0,5·(1-0,5) = 1,25 9 Hypergeometrische Verteilung • Urnenmodell Ziehen ohne Zurücklegen: – Urne mit N Kugeln (M schwarze, N-M weiße) – Zufallsstichprobe: ziehe n Kugeln ohne Zurücklegen – Wahrscheinlichkeit, dass unter den n gezogenen Kugeln genau x schwarze zu finden sind? • Ziehen ohne Zurücklegen, keine Berücksichtigung der Reihenfolge. 10 Hypergeometrische Verteilung • Urnenmodell: – Aus M schwarzen Kugeln genau x auswählen: Anzahl der Kombinationen Mx – Aus N-M weißen Kugeln genau n-x auswählen: Anzahl N-M der Kombinationen n-x – Jede mögl. Stpr. „x schwarze aus M“ kann mit jeder mögl. Stpr. „n-x weiße aus N-M“ kombiniert werden. – Daher: Gesamtzahl der Möglichkeiten genau x N-M schwarze zu ziehen: Mx n-x – Gesamtzahl der Möglichkeiten aus N Kugeln n zu ziehen: Nn 11 Hypergeometrische Verteilung • Wahrscheinlichkeit genau x schwarz Kugeln M N-M zu ziehen: x n-x N n • Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung: M N-M x n-x f H (x;N,n,M)= für x=0,1,...,n N n 0 sonst 12 Hypergeometrische Verteilung • Verteilungsfunktion: Summation der Einzelwahrscheinlichkeiten • Liefert Wahrscheinlichkeit für „höchstens x schwarze Kugeln“ 13 Hypergeometrische Verteilung • Bsp. Sortiment von N=8 Dioden, es werden n=3 zufällig gezogen (ohne Zurücklegen), M=5 der Dioden sind defekt. • Ges: Wahrscheinlichkeit, dass genau 2 (=x) der 3 gezogenen Dioden defekt sind. M N-M 5 8-5 x n-x 2 3-2 10 3 P(X=x)= = = =0,5357 56 N 8 n 3 14 Hypergeometrische Verteilung • Erwartungswert: E(X) = n · M/N • Varianz Var(X) = n · M/N · (N-M)/N · (N-n)/(n-1) • Approximation durch Binomialverteilung: – Wenn N, M, N-M groß und n klein, Parameter der Binomialverteilung: θ = M/N – Faustregel: Approximation, wenn n/N < 0,05 15 Poissonverteilung • Verteilung seltener Ereignisse • Große Zahl von Versuchen n, Wahrscheinlichkeit θ für Auftreten eines Ereignisses sehr klein • Wahrscheinlichkeitsfunktion: μ x e-μ f P (x;μ)= x! für x=0,1,... 0sonst 16 Poissonverteilung • Erwartungswert: E(X) = μ • Varianz: Var(X) = μ • Approximation der Binomialverteilung durch die Poissonverteilung: – n groß und θ klein, Parameter μ = n·θ – Faustregel: n > 10 und θ < 0,05. • Approximation der Hypergeometrischen Vt. – M/N = θ klein, N im Vergleich zu n groß, Parameter μ = n · M/N – Faustregel: M/N < 0,05 und n/N < 0,05 17 Poissonverteilung • Bsp. Wahrscheinlichkeit bei einer Prüfung von n=2000 Buchungen genau 3 (=x) Fehlbuchungen zu finden, Anteil der Fehlbuchungen: θ=0,001. • Poissonverteilung: μ = n·θ = 2 μ x e-μ 23e-2 W(X=x)= = =0,1804 x! 3! 18 Gleichverteilung • Diskrete Zufallsvariable: • Jede der k möglichen Ausprägungen hat gleiche Wahrscheinlichkeit P(X=xi) = 1/k (i=1,…,k) • Bsp. Wahrscheinlichkeitsverteilung der Augenzahl eines idealen Würfels: P(X=xi) = 1/6 (i=1,…,6) 19 Gleichverteilung • Stetige Zufallsvariable: • Realisationen der stetigen Zufallsvariablen X liegen im Intervall [a;b] • Dichtefunktion: 1 für a x b f G (x;a,b)= b-a 0 sonst • P(x X x+Δx) = 1/(b-a) · Δx 20 Gleichverteilung Stetige Gleichverteilung 0,2 P(xXx+Δx) = 1 /(b -a ) · Δ x f(x;a,b) 1/(b-a) 0 0 a x x+Δx 14 b x 21 Gleichverteilung • Verteilungsfunktion (Integration der Dichte) für x<a 0 x-a FG (x;a,b)= für a x b b-a für x>b 1 22 Gleichverteilung Stetige Gleichverteilung 1,2 1 F(x;a,b) 0,8 0,6 0,4 0,2 0 0 a 14 b x 23 Gleichverteilung • Erwartungswert: E(X) = (a+b)/2 • Varianz: Var(X) = (b-a)² / 12 • Bsp. Wegzeit ist gleichverteilt im Intervall [30;40]. Ges. Wahrscheinlichkeit zw. 32 und 35 Min. zu benötigen. P(32 X 35) = 1/(b-a) · Δx = 1/(40-30) · (35-32) = 0,3 Durchschnittlich benötigte Zeit: E(X) = 35 24 Normalverteilung • Wichtigste theoretische Verteilung: • Normalverteilung: – – – – – – – stetige Verteilung symmetrische Dichtefunktion S-förmige Verteilungsfunktion Erwartungswert: E(X) = µ Varianz: Var(X) = σ² Maximum der Dichte bei x=µ Wendepunkte bei x=µσ 25 Normalverteilungen • Normalverteilung: • Dichtefunktion (für -∞<x<+∞ und σ>0) : 1 f n (x; μ, σ ) 2 2π 2 e 1 x μ 2 σ 2 • Verteilungsfunktion: x Fn (x; μ, σ ) 2 1 2 2 e 1 v μ 2 σ 2 dv 26 Normalverteilung • Normalverteilungen mit unterschiedlichen Parametern Normalverteilung 0,45 0,4 0,35 0,3 f(x) 0,25 0,2 0,15 0,1 0,05 0 -6 -4 -2 0 2 4 6 x N(4,3) N(0,1) 8 10 12 27 N(2,2) Normalverteilung • Verteilungsfunktion Verteilungsfunktion Normalverteilung 1 0,9 0,8 0,7 F(x) 0,6 0,5 0,4 0,3 0,2 0,1 0 -4 -3 µ-3σ -2 µ-2σ -1 0 1 µ-σ µ x µ+σ 2 µ+2σ 3 µ+3σ 4 28 Normalverteilung • Standardnormalverteilung: – Erwartungswert µ = 0 – Varianz σ² = 1 • Dichtefunktion: f n (z;0,1) 1 2π e 1 z2 2 29 Normalverteilung • Standardnormalverteilung Standardnormalverteilung 0,5 99,73% 0,45 95,45% 68,27% 0,4 0,35 f(z) 0,3 WP 0,25 WP 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 z 1 2 3 30 4 Normalverteilung • Approximation durch Normalverteilung: Mit wachsendem n nähern sich viele theoretische Vt. der Normalverteilung • Empirische Verteilungen lassen sich ebenfalls oft durch die N-Vt. annähern. 31 Normalverteilung • Reproduktionseigenschaft (od. Additivitätseigenschaft) der Normal-Vt. • Additionstheorem der Normalverteilung: – Die Summe (X) von n unabhängig normalverteilten Zufallvariablen X1,…,Xn ist ebenfalls normalverteilt. X = X1 + … + Xn – Der Erwartungswert von X ist die Summe der einzelnen Erwartungswerte μ1,…,μn E(X) = μ = μ1 + … + μn – Die Varianz von X ist die Summe der einzelnen Varianzen σ1²,…σn² Var(X) = σ² = σ1² + … + σn² 32 Stichproben • Arithmetische Mittel der Stichprobe: 1 n x xi n i 1 • Varianz der Stichprobe: n 1 2 2 s (x i x) n 1 i 1 • Anteilswert P einer Stichprobe: x p n 33 Stichprobenverteilung • Verteilung des arithmetischen Mittels der Stichprobe (Zufallsstichprobe): – Zufallsvariable X1,…,Xn – Konkrete Realisation: x1,…,xn • Arithmetische Mittel: 1 n X Xi n i 1 – Arithm. Mittel von ZV ist wieder eine ZV (Funktion von n ZV) 34 Stichprobenverteilung • Erwartungswert der Verteilung des arithmetischen Mittels: 1 n E( X) E X i μ n i 1 • Varianz der Verteilung des arithm. Mittels 1 n σ2 Var( X) Var X i n i 1 n • Standardabweichung od. Standardfehler σ σ X Var( X) n 35 Stichprobenverteilung • Erwartungswert u. Varianz bekannt • Verteilung des arithm. Mittels? • Annahme: Grundgesamtheit ist N(μ,σ²)-vt. – Reproduktionseigenschaft der N-Vt: Summe von n unabhängig normal-vt. ZV ist wieder n-vt – Daher ist auch das arithm. Mittel normalverteilt 36 Grenzwertsätze Verhalten des Mittelwert von n unabhängig identisch verteilten (i.i.d.) ZV X1,…,Xn, wenn n laufend erhöht wird (n→∞) • Gesetz der Großen Zahlen • Satz von Glivenko-Cantelli • Zentraler Grenzwertsatz 37 Grenzwertsätze • Gesetz der Großen Zahlen: • Beinhaltet die Aussage, dass sich der Mittelwert mit wachsendem n immer mehr um den gemeinsamen Erwartungswert µ der Xi konzentriert. 1 n W Xi μ ε n 0 für alle Werte ε 0 n i 1 W X n μ ε n 0 38 Grenzwertsätze • Gesetz der Großen Zahlen: • Beinhaltet die Aussage, dass der Wert der empirischen Verteilungsfunktion an der Stelle t mit wachsendem n gegen den entsprechenden Wert der Verteilungsfunktion von X konvergiert. W Sn (t)-FX (t) ε 0 für alle Werte ε>0 n 39 Grenzwertsätze • Satz von Glivenko-Cantelli: • Wert der empirischen Verteilungsfunktion konvergiert an der Stelle t mit wachsendem n gegen den entsprechenden Wert der Verteilungsfunktion von X. W sup Sn (t) FX (t) n 0 1 t 40 Grenzwertsätze • Zentraler Grenzwertsatz: • Aussage über die Form der Verteilung des Mittelwertes (standardisierte ZV Zn). Die Verteilungsfunktion von Zn konvergiert gegen die Standardnormalverteilung (Φ … Vt-Fkt. der N(0,1) Vt.) Xn μ Zn n mit E(Z n ) 0 und Var(Z n ) 1 σ W(Z n z) n Φ(z) 41 Grenzwertsätze • Aus dem Zentralen Grenzwertsatz folgt: Die Verteilung des arithm. Mittels von n unabhängig identisch verteilten Zufallsvariablen Xi (X1,…,Xn) strebt mit wachsendem Stichprobenumfang n gegen eine Normalverteilung mit dem Erwartungswert µ und Varianz σ²/n. • Gleichbedeutend: Das arithmetische Mittel ist „asymptotisch normalverteilt“. • Faustregel: n > 30, N-Vt. ist gute Näherung für die Vt. des arithmetischen Mittels der Stichprobe. 42 Stichprobenverteilung • Verteilung der Varianz S² der Stichprobe: • Annahme: Grundgesamtheit ist N(µ,σ²)-vt. Xi sind n unabhängige normal-vt. ZV mit E(Xi)=µ und Var(Xi)= σ² (i=1,…,n) • Stichprobenvarianz S² ist eine Funktion von n ZV Xi und somit wieder eine ZV. n 1 2 2 S (X i X) n 1 i 1 43 Stichprobenverteilung • Verteilung der Varianz S² der Stichprobe: • Chi-Quadrat Verteilung mit v=n-1 Freiheitsgraden, χ²n-1 • Es gilt: – Ist Z² = Xi² + … + Xn² (Summe von n quadrierten unabhängigen N(0,1)-verteilten ZV Xi), dann folgt Z² einer Chi-Quadrat Verteilung mit v Freiheitsgraden. Anzahl der unabhängigen ZV, die Z² bilden, nennt man Anzahl der Freiheitsgrade. 44 Stichprobenverteilung • χ²v Verteilung: – Erwartungswert: E(Z²)=v – Varianz: Var(Z²)=2v – Mit wachsendem v nähert sich die χ²v Vt. einer N-Vt. mit Parametern µ=v und σ²=2v. 45 Stichprobenverteilung • Anteilswert P einer Stichprobe (P=X/n) • 2 Modelle: – Ziehen mit Zurücklegen – Ziehen ohne Zurücklegen • Bsp. Urne, N Kugeln, M schwarz, (N-M) weiße, ziehe n Kugeln (mit bzw. ohne Zurücklegen der gezogenen Kugeln), θ ist die Wahrscheinlichkeit für das Ziehen einer schwarzen Kugel. 46 Stichprobenverteilung • Ziehen mit Zurücklegen – Exakte Verteilung: Binomialverteilung Wahrscheinlichkeitsfunktion der ZV X: n x f B (x; n, θ) θ (1 θ)n x x – Erwartungswert: E(X) = nθ – Varianz: Var(X) = nθ(1- θ) 47 Stichprobenverteilung • Ziehen mit Zurücklegen – Erwartungswert des Stichprobenanteilswertes P: E(P) = 1/n E(x) = θ – Varianz des Stichprobenanteilswertes P: Var(P) = 1/n² Var(X) = θ(1- θ) / n – Standardfehler des Anteilswertes: θ(1 θ) σP n 48 Stichprobenverteilung • Approximation durch Normalverteilung (Faustregel: nθ(1- θ) ≥ 9) • Erwartungswert: E(P) = µ = nθ • Varianz: Var(P) = σP² = nθ(1- θ) 49 Stichprobenverteilung • Ziehen ohne Zurücklegen – Exakte Verteilung: Hypergeometrische Vt. – Wahrscheinlichkeitsfunktion der ZV X: M N M x n x f H (x; N, n, M) N n – Erwartungswert: E(X) = n M/N – Varianz: Var(X) = nθ(1- θ) · (N-n)/(N-1) 50 Stichprobenverteilung • Ziehen ohne Zurücklegen: – Erwartungswert des Stichprobenanteilswertes: E(P) = 1/n E(X) = θ – Varianz des Stichprobenanteilswertes: Var(P) = 1/n² Var(X) = θ(1- θ)/n · (N-n)/(N-1) – Standardfehler des Anteilswertes: θ(1 θ) N n σP n N 1 – Endlichkeitskorrektur = 1 setzen, wenn n bzgl. N sehr klein ist (Faustregel: n/N < 0,05) 51 Stichprobenverteilung • Approximation durch Normalverteilung µ = E(P) = θ σ² = Var(P) = θ(1- θ)/n · (N-n)/(N-1) 52 Stichprobenverteilung • Die Stichprobenverteilungen des arithmetischen Mittels, der Varianz und des Anteilswertes können also durch die Normalverteilung approximiert werden. 53 Stichprobenverteilung • Differenz zweier arithmetischer Mittel: • Annahmen: – 2 unabhängige Stichproben – Beide Grundgesamtheiten sind annähernd N-vt • Stichprobenverteilung der Differenz: N-Vt – Erwartungswert: E(D) E( X1 X2 ) E( X1 ) E( X2 ) μ1 μ 2 – Varianz: σ12 σ 22 Var(D) Var( X1 X 2 ) Var( X1 ) Var( X 2 ) n1 n 2 54 Stichprobenverteilung • Differenz zweier Anteilswerte: • Annahmen: – 2 unabhängige Stichproben – P1, P2 annähernd n-vt. und N1, N2 so groß, dass Endlichkeitskorrektur vernachlässigbar ist. • Stichprobenverteilung: N-Vt – Erwartungswert: E(D) E(P1 P2 ) E(P1 ) E(P2 ) θ1 θ2 – Varianz: θ1 (1 θ1 ) θ 2 (1 θ 2 ) Var(D) Var(P1 P2 ) n1 n2 55 Stichprobenverteilung • Quotient zweier Varianzen: • Annahmen: – 2 unabhängige Stichproben (n1, n2) – σ1² und σ2² aus n-vt Grundgesamtheiten – Quotient: 2 1 2 2 2 1 2 2 S /σ F S /σ 56 Stichprobenverteilung • Stichprobenverteilung: F-Verteilung mit v1 und v2 Freiheitsgraden, Fv1,v2. Für v2 > 2 gilt: – Erwartungswert: E(F) = v2 / (v2-2) – Varianz: 2 2v 2 (v1 v 2 2) Var(F) 2 v1 (v 2 2) (v 2 4) 57