Verteilungen eindimensionaler diskreter Zufallsvariablen • Diskrete Verteilungen ¾Hypergeometrische Verteilung ¾Poissonverteilung • Approximationen • Typisierung der diskreten theoretischen Verteilungen Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 1 Zufallsvariablen III Bibliografie: ¾ Prof. Dr. Kück Universität Rostock Statistik, Vorlesungsskript, Abschnitt 5.2 ¾ Bleymüller / Gehlert Verlag Vahlen 2003 Statistische Formeln, Tabellen und Programme ¾ Bleymüller / Gehlert / Gülicher Verlag Vahlen 2004 Statistik für Wirtschaftswissenschaftler ¾ Hartung Oldenbourg Verlag 2002 Statistik Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 2 Zufallsvariablen III 1 Hypergeometrische Verteilung Grundmodell der hypergeometrischen Verteilung ist das Ziehen von Kugeln aus einer Urne mit schwarzen und weißen Kugeln ohne Zurücklegen. Die Urne enthalte N Kugeln, davon seien M Kugeln weiß. Der Urne werden n Kugeln entnommen, von denen x weiß sind. X ist die Zufallsgröße für die Anzahl der weißen Kugeln unter n gezogenen. Die Anzahl der Entnahmemöglichkeiten von Kugeln beträgt: ⎛N ⎞ ⎛M ⎞ ⎜⎜ ⎟⎟ für n Kugeln insgesamt, ⎜⎜ ⎟⎟ für x der M weißen ⎝ n ⎠ ⎛N − M ⎞ ⎝ x ⎠ und ⎜⎜ n − x ⎟⎟ für n-x der N-M schwarzen Kugeln. ⎝ ⎠ Die Wahrscheinlichkeit, unter den n gezogenen Kugeln x weiße zu haben, ist also: ⎛M⎞ ⎛N − M⎞ ⎛N⎞ ⎟⎟ / ⎜⎜ ⎟⎟ f H ( x ) = ⎜⎜ ⎟⎟ ⋅ ⎜⎜ x n − x ⎝ ⎠ ⎝ ⎠ ⎝n⎠ Prof. Kück / S. Winterfeldt Lehrstuhl Statistik für x = 0 ,..., n 3 Zufallsvariablen III Hypergeometrische Verteilung Verteilungsfunktion: 0 ⎧ ⎪⎪ j ⎛ M ⎞ ⎛ N − M ⎞ ⎛ N ⎞ ⎟⎟ / ⎜⎜ ⎟⎟ FH ( x ) = ⎨ ∑ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎪ ν=0 ⎝ ν ⎠ ⎝ n − ν ⎠ ⎝ n ⎠ 1 ⎩⎪ Erwartungswert: Varianz: Prof. Kück / S. Winterfeldt Lehrstuhl Statistik für x<0 für j ≤ x < j+1 für x≥n E( X ) = n ⋅ Var ( X ) = n ⋅ mit j = 0 ,..., n − 1 M N M (N − M ) (N − n) ⋅ ⋅ N N N −1 4 Zufallsvariablen III 2 Hypergeometrische Verteilung Beispiel: Ein Jahrgang eines ingenieurwissenschaftlichen Studiengangs, der aus 20 weiblichen und 80 männlichen Studenten besteht, wird zum Absolvieren eines Praktikums in 20 fünfköpfige Arbeitsgruppen aufgeteilt. Die Zufallsgröße X sei die Zahl der Studentinnen in einer beliebigen Arbeitsgruppe. Die Werte der Wahrscheinlichkeits- und Verteilungsfunktion enthält die folgende Tabelle: x fH(x) FH(x) 0 0,319309 0,319309 Erwartungswert: 1 0,420144 0,739453 2 0,207344 0,946797 E(X) 3 0,047849 0,994646 4 0,005148 0,999794 5 0,000206 1 Prof. Kück / S. Winterfeldt Lehrstuhl Statistik = 5·0,2 = 1 Varianz: Var(X)= 5·0,2·0,8·95/99 = 0,7677 5 Zufallsvariablen III Hypergeometrische Verteilung Grafische Darstellungen: Wahrscheinlichkeitsfunktion Verteilungsfunktion 1,2 0,5 f(X) F(x) 0,4 1 0,8 0,3 0,6 0,2 0,4 0,1 0,2 0 0 -1 0 1 2 3 4 5 6 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik -1 0 1 2 3 4 5 6 x 6 Zufallsvariablen III 3 Hypergeometrische Verteilung Die Berechnung der Funktionswerte der hypergeometrischen Verteilung ist recht aufwendig. Daher benutzt man zur näherungsweisen Bestimmung unter bestimmten Voraussetzungen die Formeln für die Binomialverteilung. Die Fehler, die man dabei macht, sind bei großen N, M und N-M bzw. bei n/N<0,05 klein. Das heißt: Ändert sich die Zusammensetzung der Grundgesamtheit durch das Entnehmen einzelner Elemente nur geringfügig, so lässt sich die hypergeometrische Verteilung durch die Binomialverteilung approximieren. Approximationsregel: Falls n/N<0,05, ist die Approximation mit M/N→θ erlaubt. Unser Beispiel mit den Arbeitsgruppen stellt mit n/N =5/100 =0,05 einen Grenzfall dar. In der nachfolgenden Tabelle werden deshalb die exakten und die approximierten Werte (mit θ =20/100 =0,2) der Wahrscheinlichkeits- und Verteilungsfunktion vergleichend gegenübergestellt sowie die Differenzen angegeben: Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 7 Zufallsvariablen III Hypergeometrische Verteilung x 0 1 2 3 4 5 fH (x) 0,31931 0,42014 0,20734 0,04785 0,00515 0,00021 fB (x) fH (x)-fB (x) 0,32768 -0,00837 0,40960 0,01054 0,20480 0,00254 0,05120 -0,00335 0,00640 -0,00125 0,00032 -0,00011 Die grafische Darstellung der beiden Verteilungsfunktionen zeigt kaum sichtbare Unterschiede: FH (x) 0,31931 0,73945 0,94680 0,99465 0,99979 1,00000 FB (x) FH (x)-FB (x) 0,32768 -0,00837 0,73728 0,00217 0,94208 0,00472 0,99328 0,00137 0,99968 0,00011 1,00000 0,00000 1,2 F(x) 1 0,8 0,6 0,4 Hy p ergeom. 0,2 Binomial 0 -1 0 1 2 3 4 5 6 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 8 Zufallsvariablen III 4 Hypergeometrische Verteilung Beispiel: Aus einer Urne mit N=6 Kugeln, von denen (N-M)=4 schwarz und M=2 weiß sind, werden zweimal je drei Kugeln entnommen. Die erste Ziehung erfolgt mit Zurücklegen (Binomialverteilung), die zweite Ziehung ohne Zurücklegen (hypergeometrische Verteilung). Die Zufallsvariable X sei die Zahl der gezogenen weißen Kugeln. Die beiden Verteilungen haben die gleichen Funktionsparameter: NB=NH=6, MH=MB=2, nB=nH=3, M/N=θ=1/3. Da n/N=0,5 > 0,05 ist, darf die hypergeometrische Verteilung nicht durch die Binomialverteilung approximiert werden. Für die beiden Ziehungen (Verteilungen) ergeben sich folgende Wahrscheinlichkeitsfunktionen, Verteilungsfunktionen, Erwartungswerte und Varianzen: Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 9 Zufallsvariablen III Hypergeometrische Verteilung x 0 1 2 3 E(X) Var(X) fH(x) 0,2000 0,6000 0,2000 0,0000 1,0000 0,4000 fB(x) fH(x)-fB(x) 0,2963 -0,0963 0,4444 0,1556 0,2222 -0,0222 0,0370 -0,0370 1,0000 0,6667 FH(x) 0,2000 0,8000 1,0000 1,0000 FB(x) FH(x)-FB(x) 0,2963 -0,0963 0,7407 0,0593 0,9630 0,0370 1,0000 0,0000 fH(3) liefert bei Eingabe in den Taschenrechner eine Fehlermeldung: ⎛2⎞ ⎛4 ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎝3⎠ ⎝0 ⎞ ⎟⎟ ⎠ ⎛6⎞ / ⎜⎜ ⎟⎟ ⎝3⎠ = nicht definiert! Aus inhaltlicher Überlegung ergibt sich aber, dass die Wahrscheinlichkeit, aus einer Urne mit 2 weißen Kugeln ohne Zurücklegen 3 weiße Kugeln zu ziehen, Null sein muss. Für gleiche Funktionsparameter gilt: •EH(X) = EB(X) (wegen: n·M/N = n·θ) •VarB(X) ≥ VarH(X) ≥ 0 (mit VarH(X)=VarB(X) für n=1 und mit VarH(X)=0 für n=N) Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 10 Zufallsvariablen III 5 Hypergeometrische Verteilung 1,2 F(x) 1 0,8 0,6 Binomialvert. 0,4 Hypergeom. 0,2 0 -1 0 1 2 3 4 Die beiden Verteilungsfunktionen FH(x) und FB(x) (als Treppe durchgezogen) weichen deutlich voneinander ab. x Eine Binomialverteilung und eine hypergeometrische Verteilung mit den gleichen Funktionsparametern (N, n und M/N=θ konstant) weisen in ihren Wahrscheinlichkeits- und Verteilungsfunktionen und ihrer Varianz Unterschiede auf, die nur unter bestimmten Bedingungen (=>Approximationsregeln) vernachlässigt werden können. Der Erwartungswert ist aber bei beiden Verteilungen identisch. [E(X) =n·M/N =n·θ =konstant] Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 11 Zufallsvariablen III Hypergeometrische Verteilung Beispiel: Der Fischbestand in einem See lässt sich folgendermaßen schätzen: Man fängt und markiert M Fische und setzt sie wieder aus. Dann fängt man n Fische und stellt fest, dass darunter m markierte Fische sind. Unter der Annahme, dass m die zu erwartende Anzahl markierter Fische ist, d.h., m = E(X) = n·M/N, erhält man N = M·n/m als Schätzwert für die Anzahl der Fische im See. Aus M=500, n=100, m=8 folgt N = 6250 als Schätzwert für den Fischbestand im See. Anmerkung: Beim Fangen der n Fische kann man entweder jeden Fisch sofort nach dem Angeln wieder freisetzen (=>Binomialverteilung) oder die gefangenen Fische am Ufer „sammeln“ (=>hypergeometrische Vert.). Aufgrund der identischen E(X) ist das Berechnungsverfahren (N=M·n/m) bei beiden Methoden gleich. Das „Sammeln“ der Fische ist trotzdem zu bevorzugen, da die hypergeometrische Verteilung eine kleinere Varianz hat, die Annahme m =E(X) somit eher zutrifft und das Sammel-Verfahren dadurch mit größerer Wahrscheinlichkeit ein richtiges Ergebnis liefert. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 12 Zufallsvariablen III 6 Poissonverteilung Betrachtet man die binomialverteilte Zufallsgröße X, wenn n über alle Grenzen wächst und dabei θ derart gegen Null strebt, dass n·θ gegen den endlichen Erwartungswert µ konvergiert, so ergibt sich bei diesem Grenzübergang für X folgende Wahrscheinlichkeitsfunktion: f P ( x) = µ x −µ ⋅e x! für x = 0,1,... mit e = 2,718...(Eulersche Zahl ) Verteilungsfunktion: 0 ⎧ ⎪ FP ( x ) = ⎨ j µ ν − µ ⋅e ⎪⎩ ∑ ν = 0 ν! Prof. Kück / S. Winterfeldt Lehrstuhl Statistik für für x<0 j ≤ x < j + 1 mit j = 0 ,1,... 13 Zufallsvariablen III Poissonverteilung Erwartungswert und Varianz: E(X) = Var(X) = µ Typische Anwendungsfälle der Poissonverteilung ergeben sich aus Warteschlangenmodellen: • Anzahl der Telefonate, die in einer Zeiteinheit eine Zentrale erreichen, • Anzahl der Anfragen an einem Netzserver pro Zeiteinheit, • Anzahl der Kunden an einem Bankschalter pro Zeiteinheit, • Anzahl der Kfz, die in einer Zeiteinheit einen Grenzübergang passieren wollen. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 14 Zufallsvariablen III 7 Poissonverteilung Folgende Bedingungen charakterisieren einen Poisson - Prozess: •Die Wahrscheinlichkeitsstruktur des Prozesses ändert sich nicht im Zeitverlauf (Zeitinvarianz). •Die Anzahl der Vorkommnisse in sich nicht überlappenden Zeitintervallen ist unabhängig. •Die Wahrscheinlichkeit, genau ein Vorkommnis in einem kleinen Zeitintervall zu beobachten, ist proportional zur Länge des Intervalls. •Die Wahrscheinlichkeit, mehr als ein Vorkommnis in einem kleinen Zeitintervall zu beobachten, ist annähernd Null. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 15 Zufallsvariablen III Poissonverteilung Beispiel: An einem Fahrkartenschalter erscheinen pro Minute durchschnittlich 3 neue Kunden. Wie groß ist die Wahrscheinlichkeit dafür, dass in einer beliebigen Minute a) kein Kunde ankommt, b) höchstens zwei Kunden ankommen. Lösung: Die Zufallsvariable X ist poissonverteilt mit µ=3 pro Minute zu erwartenden Kunden. a) W(X=0) = fP(0) = µx·e-µ/x! = 30·e-3/0! b) W(X≤2) = fP(0) + fP(1) + fP(2) = 30·e-3/0! + 31·e-3/1! + 32·e-3/2! = 0,0498 + 0,1494 + 0,2240 = 0,4232 Prof. Kück / S. Winterfeldt Lehrstuhl Statistik = 0,0498 16 Zufallsvariablen III 8 Poissonverteilung Grafische Darstellungen: Wahrscheinlichkeitsfunktion Verteilungsfunktion 0.25 1,2 f(x) 0.2 F(x) 1 0,8 0.15 0,6 0.1 0,4 0.05 0,2 0 0 -1 1 3 5 7 -1 0 1 2 3 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 4 5 6 7 8 x 17 Zufallsvariablen III Poissonverteilung • Die Binomialverteilung kann durch die Poissonverteilung approximiert werden, wenn bei genügend großem n der Parameter θ klein ist: • Faustregel: Falls n>10 und θ<0,05, ist die Approximation mit µ = n·θ erlaubt! • Die Poissonverteilung eignet sich auch zur Approximation der hypergeometrischen Verteilung, wenn M/N=θ klein und N im Vergleich zu n groß ist: • Faustregel: Falls M/N<0,05, n>10 und n/N<0,05, ist die Approximation mit µ = n·M/N erlaubt! • Für ausgewählte µ-Werte sind die Wahrscheinlichkeits- und die Verteilungsfunktion der Poisson-Verteilung tabelliert (Bleymüller/ Gehlert, Formelsammlung). Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 18 Zufallsvariablen III 9 Poissonverteilung Beispiel: Ein Betrieb produziert ein Werkstück mit einer Ausschuss-Quote von θ=0,002. Gesucht ist die Wahrscheinlichkeit dafür, dass bei der Entnahme einer Stichprobe von n=500 Werkstücken a) genau zwei b) mehr als zwei Ausschussteile gefunden werden. Lösung: Es handelt sich um eine Binomialverteilung, die wegen n=500>10 und θ=0,002<0,05 durch eine Poissonverteilung approximiert werden kann. In der Stichprobe ist µ = n·θ = 500·0,002 = 1 Ausschussteil zu erwarten. a) W(X=2) = fP(2) = µx/x!·e-µ = 12/2!·e-1 = 0,1839 b) W(X>2) = 1-fP(0)-fP(1)-fP(2) = 1-0,3679-0,3679-0,1839 = 0,0803 Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 19 Zufallsvariablen III Poissonverteilung Grafische Darstellungen: Wahrscheinlichkeitsfunktion 0.4 0.3679 Verteilungsfunktion 1,2 0.3679 f(x) F(X) 1 0.3 0,8 0.1839 0.2 0,6 0.0613 0.0153 0.0031 0.1 0.0 -1 0 1 2 3 4 5 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 0,4 0,2 0 -1 0 1 2 3 4 5 6 7 8 x 20 Zufallsvariablen III 10 Poissonverteilung Beispiel: Von 2500 an der WiSo-Fakultät eingeschriebenen Studenten stammen 50 aus dem Bundesland Niedersachsen. Wie groß ist die Wahrscheinlichkeit, dass bei einer Umfrage mit n=100 Teilnehmern a) genau zwei b) mehr als drei Befragte aus Niedersachsen kommen? Lösung: Es handelt sich um eine hypergeometrische Verteilung mit N=2500 und M=50, die wegen M/N=0,02<0,05, n/N=0,04<0,05 und n=100>10 durch eine Poissonverteilung mit µ = n·M/N = 2 approximiert werden kann. a) W(X=2) = fP(2) = µx·e-µ/x! = 22·e-2/2! = 0,2707 b) W(X>3) = 1- fP(0)- fP(1)- fP(2)- fP(3) = 1- 0,1353- 0,2707- 0,2707- 0,1804 = 0,1429 Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 21 Zufallsvariablen III Poissonverteilung Grafische Darstellungen: Verteilungsfunktion Wahrscheinlichkeitsfunktion f(x) 0.3 1,2 0.25 F(x) 1 0.2 0,8 0.15 0,6 0.1 0,4 0.05 0,2 0 0 -1 0 1 2 3 4 5 6 7 x Prof. Kück / S. Winterfeldt Lehrstuhl Statistik -1 0 1 2 3 4 5 6 7 8 x 22 Zufallsvariablen III 11 Poissonverteilung f(x) 0,25 0,35 0,6 f(x) µ = 0,7 0,5 f(x) 0,3 0,2 0,25 0,4 µ = 1,5 0,2 0,3 0,15 0,2 0,1 0,1 0,1 0,05 0,05 0 0 0 -1 0 1 2 3 4 5 6 x µ=4 0,15 -1 0 1 2 3 4 5 6 7 8 -1 0 1 2 3 4 5 6 7 x x Das Bild der Wahrscheinlichkeitsfunktion der Poissonverteilung hängt stark von µ ab. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 23 Zufallsvariablen III Poissonverteilung Die Darstellungen auf der vorigen Folie zeigen die Asymmetrie der Wahrscheinlichkeitsfunktion. Als Ausdruck der Asymmetrie wird der Parameter Schiefe (absolut oder relativ) verwendet. Die relative Schiefe einer Poissonverteilung ergibt sich zu: ( E (( X − E ( X )) 3 ) E (( X − E ( X )) 2 ) = µ ) ( µ) 3 3 = 1 µ (µ-1/2) ist positiv und signalisiert damit, dass die Verteilung linkssteil ( = rechtsschief) ist. Die Schiefe nimmt mit wachsendem µ ab und strebt gegen Null. Die Verteilung wird dadurch annähernd symmetrisch. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 24 Zufallsvariablen III 12 Approximationen FH(x) N ≥ 2·n und n·θ·(1- θ) ≥ 9 n/N < 0,05 n/N < 0,05, n > 10 und M/N < 0,05 FB(x) n·θ·(1-θ)≥9 Normalverteilung FN(x) n > 10 und θ < 0,05 µ≥9 FP(x) Auf die zu den stetigen Verteilungen gehörende Normalverteilung gehen wir in den kommenden Vorlesungen näher ein. Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 25 Zufallsvariablen III Typisierung der diskreten theoretischen Verteilungen Verteilung Parameter Gleichverteilung n = 1, 2, ... Erwartungswert [Varianz] n 1 n ⋅ ∑ xi i =1 ⎡⎛ n 2 ⎞ ⎛ n ⎞2 ⎤ ⎢⎜⎜ n1 ⋅ ∑xi ⎟⎟ − ⎜⎜ n1 ⋅ ∑xi ⎟⎟ ⎥ ⎣⎢⎝ i=1 ⎠ ⎝ i=1 ⎠ ⎦⎥ BernoulliVerteilung 0≤θ≤1 θ 0≤θ≤1 n·θ n = 1, 2, ... [n·θ·(1-θ)] Prof. Kück / S. Winterfeldt Lehrstuhl Statistik Ein Versuch mit n gleichwahrscheinlichen Resultaten xi, i = 1, 2, ..., n Anzahl der Versuche mit dem Resultat A, wenn ein Versuch mit zwei möglichen Resultaten A und Ā durchgeführt wird. [θ·(1-θ)] Binomialverteilung Grundmodell Anzahl der Versuche mit dem Resultat A, wenn n Versuche mit zwei möglichen Resultaten A und Ā durchgeführt werden mit W(A) = θ. Urnenmodell mit Zurücklegen. 26 Zufallsvariablen III 13 Typisierung der diskreten theoretischen Verteilungen Verteilung Parameter Erwartungswert [Varianz] Grundmodell Hypergeo- N = 1, 2, ... metrische M = 0, 1, ..., N Verteilung n = 1, 2, ..., N n·M/N Anzahl der Versuche mit dem Resultat A, wenn n Versuche mit zwei möglichen Resultaten A und Ā durchgeführt werden. Im ersten Versuch ist W(A) = M/N. Urnenmodell ohne Zurücklegen ⎡ M N− M N−n⎤ ⎢n⋅ N ⋅ N ⋅ N−1⎥ ⎣ ⎦ Poissonverteilung µ>0 µ Verteilung im Warteschlangenmodell, wenn die Zufallsvariable X Zählvariable für die Bestimmung der Anzahl der Abfertigungen ist. Grenzverteilung der Binomialverteilung mit n → ∞, θ → ∞ und n·θ → µ. [µ] Prof. Kück / S. Winterfeldt Lehrstuhl Statistik 27 Zufallsvariablen III 14