Hypergeometrische Verteilung

Werbung
Verteilungen eindimensionaler
diskreter Zufallsvariablen
• Diskrete Verteilungen
¾Hypergeometrische Verteilung
¾Poissonverteilung
• Approximationen
• Typisierung der diskreten
theoretischen Verteilungen
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
1
Zufallsvariablen III
Bibliografie:
¾ Prof. Dr. Kück
Universität Rostock
Statistik, Vorlesungsskript, Abschnitt 5.2
¾ Bleymüller / Gehlert
Verlag Vahlen 2003
Statistische Formeln, Tabellen und Programme
¾ Bleymüller / Gehlert / Gülicher
Verlag Vahlen 2004
Statistik für Wirtschaftswissenschaftler
¾ Hartung
Oldenbourg Verlag 2002
Statistik
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
2
Zufallsvariablen III
1
Hypergeometrische Verteilung
Grundmodell der hypergeometrischen Verteilung ist das
Ziehen von Kugeln aus einer Urne mit schwarzen und weißen
Kugeln ohne Zurücklegen. Die Urne enthalte N Kugeln, davon
seien M Kugeln weiß. Der Urne werden n Kugeln entnommen, von
denen x weiß sind. X ist die Zufallsgröße für die Anzahl der weißen
Kugeln unter n gezogenen. Die Anzahl der Entnahmemöglichkeiten von Kugeln beträgt:
⎛N ⎞
⎛M ⎞
⎜⎜
⎟⎟ für n Kugeln insgesamt,
⎜⎜
⎟⎟ für x der M weißen
⎝ n ⎠ ⎛N − M ⎞
⎝ x ⎠
und ⎜⎜ n − x ⎟⎟ für n-x der N-M schwarzen Kugeln.
⎝
⎠
Die Wahrscheinlichkeit, unter den n gezogenen Kugeln x weiße
zu haben, ist also:
⎛M⎞ ⎛N − M⎞ ⎛N⎞
⎟⎟ / ⎜⎜ ⎟⎟
f H ( x ) = ⎜⎜ ⎟⎟ ⋅ ⎜⎜
x
n
−
x
⎝ ⎠ ⎝
⎠ ⎝n⎠
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
für
x = 0 ,..., n
3
Zufallsvariablen III
Hypergeometrische Verteilung
Verteilungsfunktion:
0
⎧
⎪⎪ j ⎛ M ⎞ ⎛ N − M ⎞ ⎛ N ⎞
⎟⎟ / ⎜⎜ ⎟⎟
FH ( x ) = ⎨ ∑ ⎜⎜ ⎟⎟ ⋅ ⎜⎜
⎪ ν=0 ⎝ ν ⎠ ⎝ n − ν ⎠ ⎝ n ⎠
1
⎩⎪
Erwartungswert:
Varianz:
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
für
x<0
für
j ≤ x < j+1
für
x≥n
E( X ) = n ⋅
Var ( X ) = n ⋅
mit
j = 0 ,..., n − 1
M
N
M (N − M ) (N − n)
⋅
⋅
N
N
N −1
4
Zufallsvariablen III
2
Hypergeometrische Verteilung
Beispiel:
Ein Jahrgang eines ingenieurwissenschaftlichen Studiengangs, der
aus 20 weiblichen und 80 männlichen Studenten besteht, wird
zum Absolvieren eines Praktikums in 20 fünfköpfige Arbeitsgruppen aufgeteilt. Die Zufallsgröße X sei die Zahl der Studentinnen in
einer beliebigen Arbeitsgruppe. Die Werte der Wahrscheinlichkeits- und Verteilungsfunktion enthält die folgende Tabelle:
x
fH(x)
FH(x)
0
0,319309
0,319309
Erwartungswert:
1
0,420144
0,739453
2
0,207344
0,946797
E(X)
3
0,047849
0,994646
4
0,005148
0,999794
5
0,000206
1
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
= 5·0,2 = 1
Varianz:
Var(X)= 5·0,2·0,8·95/99
= 0,7677
5
Zufallsvariablen III
Hypergeometrische Verteilung
Grafische Darstellungen:
Wahrscheinlichkeitsfunktion
Verteilungsfunktion
1,2
0,5
f(X)
F(x)
0,4
1
0,8
0,3
0,6
0,2
0,4
0,1
0,2
0
0
-1
0
1
2
3
4
5
6
x
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
-1
0
1
2
3
4
5
6
x
6
Zufallsvariablen III
3
Hypergeometrische Verteilung
Die Berechnung der Funktionswerte der hypergeometrischen
Verteilung ist recht aufwendig. Daher benutzt man zur
näherungsweisen Bestimmung unter bestimmten
Voraussetzungen die Formeln für die Binomialverteilung. Die
Fehler, die man dabei macht, sind bei großen N, M und N-M bzw.
bei n/N<0,05 klein. Das heißt: Ändert sich die Zusammensetzung
der Grundgesamtheit durch das Entnehmen einzelner Elemente
nur geringfügig, so lässt sich die hypergeometrische Verteilung
durch die Binomialverteilung approximieren.
Approximationsregel:
Falls n/N<0,05, ist die Approximation mit M/N→θ erlaubt.
Unser Beispiel mit den Arbeitsgruppen stellt mit n/N =5/100
=0,05 einen Grenzfall dar. In der nachfolgenden Tabelle werden
deshalb die exakten und die approximierten Werte (mit θ =20/100
=0,2) der Wahrscheinlichkeits- und Verteilungsfunktion
vergleichend gegenübergestellt sowie die Differenzen angegeben:
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
7
Zufallsvariablen III
Hypergeometrische Verteilung
x
0
1
2
3
4
5
fH (x)
0,31931
0,42014
0,20734
0,04785
0,00515
0,00021
fB (x)
fH (x)-fB (x)
0,32768
-0,00837
0,40960
0,01054
0,20480
0,00254
0,05120
-0,00335
0,00640
-0,00125
0,00032
-0,00011
Die grafische
Darstellung der beiden
Verteilungsfunktionen
zeigt kaum sichtbare
Unterschiede:
FH (x)
0,31931
0,73945
0,94680
0,99465
0,99979
1,00000
FB (x)
FH (x)-FB (x)
0,32768
-0,00837
0,73728
0,00217
0,94208
0,00472
0,99328
0,00137
0,99968
0,00011
1,00000
0,00000
1,2
F(x)
1
0,8
0,6
0,4
Hy p ergeom.
0,2
Binomial
0
-1
0
1
2
3
4
5
6
x
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
8
Zufallsvariablen III
4
Hypergeometrische Verteilung
Beispiel:
Aus einer Urne mit N=6 Kugeln, von denen (N-M)=4 schwarz und
M=2 weiß sind, werden zweimal je drei Kugeln entnommen. Die
erste Ziehung erfolgt mit Zurücklegen (Binomialverteilung), die
zweite Ziehung ohne Zurücklegen (hypergeometrische
Verteilung). Die Zufallsvariable X sei die Zahl der gezogenen
weißen Kugeln.
Die beiden Verteilungen haben die gleichen Funktionsparameter: NB=NH=6, MH=MB=2, nB=nH=3, M/N=θ=1/3.
Da n/N=0,5 > 0,05 ist, darf die hypergeometrische Verteilung
nicht durch die Binomialverteilung approximiert werden.
Für die beiden Ziehungen (Verteilungen) ergeben sich folgende
Wahrscheinlichkeitsfunktionen, Verteilungsfunktionen,
Erwartungswerte und Varianzen:
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
9
Zufallsvariablen III
Hypergeometrische Verteilung
x
0
1
2
3
E(X)
Var(X)
fH(x)
0,2000
0,6000
0,2000
0,0000
1,0000
0,4000
fB(x)
fH(x)-fB(x)
0,2963
-0,0963
0,4444
0,1556
0,2222
-0,0222
0,0370
-0,0370
1,0000
0,6667
FH(x)
0,2000
0,8000
1,0000
1,0000
FB(x) FH(x)-FB(x)
0,2963
-0,0963
0,7407
0,0593
0,9630
0,0370
1,0000
0,0000
fH(3) liefert bei Eingabe in den Taschenrechner eine Fehlermeldung:
⎛2⎞ ⎛4
⎜⎜ ⎟⎟ ⋅ ⎜⎜
⎝3⎠ ⎝0
⎞
⎟⎟
⎠
⎛6⎞
/ ⎜⎜ ⎟⎟
⎝3⎠
= nicht definiert! Aus inhaltlicher Überlegung ergibt
sich aber, dass die Wahrscheinlichkeit, aus einer Urne mit 2 weißen
Kugeln ohne Zurücklegen 3 weiße Kugeln zu ziehen, Null sein muss.
Für gleiche Funktionsparameter gilt:
•EH(X) = EB(X)
(wegen: n·M/N = n·θ)
•VarB(X) ≥ VarH(X) ≥ 0
(mit VarH(X)=VarB(X) für n=1 und
mit VarH(X)=0 für n=N)
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
10
Zufallsvariablen III
5
Hypergeometrische Verteilung
1,2
F(x)
1
0,8
0,6
Binomialvert.
0,4
Hypergeom.
0,2
0
-1
0
1
2
3
4
Die beiden
Verteilungsfunktionen
FH(x) und FB(x)
(als Treppe durchgezogen) weichen deutlich
voneinander ab.
x
Eine Binomialverteilung und eine hypergeometrische Verteilung mit den
gleichen Funktionsparametern (N, n und M/N=θ konstant) weisen in
ihren Wahrscheinlichkeits- und Verteilungsfunktionen und ihrer
Varianz Unterschiede auf, die nur unter bestimmten Bedingungen
(=>Approximationsregeln) vernachlässigt werden können. Der
Erwartungswert ist aber bei beiden Verteilungen identisch.
[E(X) =n·M/N =n·θ =konstant]
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
11
Zufallsvariablen III
Hypergeometrische Verteilung
Beispiel:
Der Fischbestand in einem See lässt sich folgendermaßen schätzen:
Man fängt und markiert M Fische und setzt sie wieder aus. Dann
fängt man n Fische und stellt fest, dass darunter m markierte
Fische sind. Unter der Annahme, dass m die zu erwartende Anzahl
markierter Fische ist, d.h., m = E(X) = n·M/N, erhält man N =
M·n/m als Schätzwert für die Anzahl der Fische im See. Aus
M=500, n=100, m=8 folgt N = 6250 als Schätzwert für den
Fischbestand im See.
Anmerkung:
Beim Fangen der n Fische kann man entweder jeden Fisch sofort nach dem
Angeln wieder freisetzen (=>Binomialverteilung) oder die gefangenen
Fische am Ufer „sammeln“ (=>hypergeometrische Vert.). Aufgrund der
identischen E(X) ist das Berechnungsverfahren (N=M·n/m) bei beiden
Methoden gleich. Das „Sammeln“ der Fische ist trotzdem zu bevorzugen,
da die hypergeometrische Verteilung eine kleinere Varianz hat, die
Annahme m =E(X) somit eher zutrifft und das Sammel-Verfahren dadurch
mit größerer Wahrscheinlichkeit ein richtiges Ergebnis liefert.
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
12
Zufallsvariablen III
6
Poissonverteilung
Betrachtet man die binomialverteilte Zufallsgröße X,
wenn n über alle Grenzen wächst und dabei θ derart
gegen Null strebt, dass n·θ gegen den endlichen
Erwartungswert µ konvergiert, so ergibt sich bei diesem
Grenzübergang für X folgende
Wahrscheinlichkeitsfunktion:
f P ( x) =
µ x −µ
⋅e
x!
für
x = 0,1,... mit e = 2,718...(Eulersche Zahl )
Verteilungsfunktion:
0
⎧
⎪
FP ( x ) = ⎨ j µ ν − µ
⋅e
⎪⎩ ∑
ν = 0 ν!
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
für
für
x<0
j ≤ x < j + 1 mit
j = 0 ,1,...
13
Zufallsvariablen III
Poissonverteilung
Erwartungswert und Varianz:
E(X) = Var(X) = µ
Typische Anwendungsfälle der Poissonverteilung
ergeben sich aus Warteschlangenmodellen:
• Anzahl der Telefonate, die in einer Zeiteinheit eine
Zentrale erreichen,
• Anzahl der Anfragen an einem Netzserver pro
Zeiteinheit,
• Anzahl der Kunden an einem Bankschalter pro
Zeiteinheit,
• Anzahl der Kfz, die in einer Zeiteinheit einen
Grenzübergang passieren wollen.
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
14
Zufallsvariablen III
7
Poissonverteilung
Folgende Bedingungen charakterisieren einen
Poisson - Prozess:
•Die Wahrscheinlichkeitsstruktur des Prozesses ändert
sich nicht im Zeitverlauf (Zeitinvarianz).
•Die Anzahl der Vorkommnisse in sich nicht
überlappenden Zeitintervallen ist unabhängig.
•Die Wahrscheinlichkeit, genau ein Vorkommnis in
einem kleinen Zeitintervall zu beobachten, ist
proportional zur Länge des Intervalls.
•Die Wahrscheinlichkeit, mehr als ein Vorkommnis in
einem kleinen Zeitintervall zu beobachten, ist
annähernd Null.
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
15
Zufallsvariablen III
Poissonverteilung
Beispiel:
An einem Fahrkartenschalter erscheinen pro Minute
durchschnittlich 3 neue Kunden. Wie groß ist die
Wahrscheinlichkeit dafür, dass in einer beliebigen Minute
a)
kein Kunde ankommt,
b) höchstens zwei Kunden ankommen.
Lösung:
Die Zufallsvariable X ist poissonverteilt mit µ=3 pro Minute zu
erwartenden Kunden.
a) W(X=0)
= fP(0) = µx·e-µ/x! = 30·e-3/0!
b) W(X≤2)
= fP(0) + fP(1) + fP(2) = 30·e-3/0! + 31·e-3/1! + 32·e-3/2!
= 0,0498 + 0,1494 + 0,2240
= 0,4232
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
= 0,0498
16
Zufallsvariablen III
8
Poissonverteilung
Grafische Darstellungen:
Wahrscheinlichkeitsfunktion
Verteilungsfunktion
0.25
1,2
f(x) 0.2
F(x) 1
0,8
0.15
0,6
0.1
0,4
0.05
0,2
0
0
-1
1
3
5
7
-1 0 1 2 3
x
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
4 5 6
7 8
x
17
Zufallsvariablen III
Poissonverteilung
• Die Binomialverteilung kann durch die Poissonverteilung
approximiert werden, wenn bei genügend großem n der Parameter
θ klein ist:
• Faustregel: Falls n>10 und θ<0,05, ist die Approximation
mit µ = n·θ erlaubt!
• Die Poissonverteilung eignet sich auch zur Approximation der
hypergeometrischen Verteilung, wenn M/N=θ klein und N im
Vergleich zu n groß ist:
• Faustregel: Falls M/N<0,05, n>10 und n/N<0,05, ist die
Approximation mit µ = n·M/N erlaubt!
• Für ausgewählte µ-Werte sind die Wahrscheinlichkeits- und die
Verteilungsfunktion der Poisson-Verteilung tabelliert (Bleymüller/
Gehlert, Formelsammlung).
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
18
Zufallsvariablen III
9
Poissonverteilung
Beispiel:
Ein Betrieb produziert ein Werkstück mit einer Ausschuss-Quote
von θ=0,002. Gesucht ist die Wahrscheinlichkeit dafür, dass bei
der Entnahme einer Stichprobe von n=500 Werkstücken
a)
genau zwei
b) mehr als zwei
Ausschussteile gefunden werden.
Lösung:
Es handelt sich um eine Binomialverteilung, die wegen n=500>10
und θ=0,002<0,05 durch eine Poissonverteilung approximiert
werden kann. In der Stichprobe ist µ = n·θ = 500·0,002 = 1
Ausschussteil zu erwarten.
a) W(X=2) = fP(2) = µx/x!·e-µ = 12/2!·e-1 = 0,1839
b) W(X>2) = 1-fP(0)-fP(1)-fP(2) = 1-0,3679-0,3679-0,1839 = 0,0803
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
19
Zufallsvariablen III
Poissonverteilung
Grafische Darstellungen:
Wahrscheinlichkeitsfunktion
0.4
0.3679
Verteilungsfunktion
1,2
0.3679
f(x)
F(X) 1
0.3
0,8
0.1839
0.2
0,6
0.0613
0.0153
0.0031
0.1
0.0
-1
0
1
2
3
4
5
x
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
0,4
0,2
0
-1 0 1
2 3 4 5
6 7 8
x
20
Zufallsvariablen III
10
Poissonverteilung
Beispiel:
Von 2500 an der WiSo-Fakultät eingeschriebenen Studenten
stammen 50 aus dem Bundesland Niedersachsen. Wie groß ist
die Wahrscheinlichkeit, dass bei einer Umfrage mit n=100
Teilnehmern
a)
genau zwei
b) mehr als drei Befragte aus Niedersachsen kommen?
Lösung:
Es handelt sich um eine hypergeometrische Verteilung mit
N=2500 und M=50, die wegen M/N=0,02<0,05, n/N=0,04<0,05
und n=100>10 durch eine Poissonverteilung mit µ = n·M/N = 2
approximiert werden kann.
a) W(X=2) = fP(2) = µx·e-µ/x! = 22·e-2/2!
= 0,2707
b) W(X>3) = 1- fP(0)- fP(1)- fP(2)- fP(3)
= 1- 0,1353- 0,2707- 0,2707- 0,1804
= 0,1429
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
21
Zufallsvariablen III
Poissonverteilung
Grafische Darstellungen:
Verteilungsfunktion
Wahrscheinlichkeitsfunktion
f(x) 0.3
1,2
0.25
F(x) 1
0.2
0,8
0.15
0,6
0.1
0,4
0.05
0,2
0
0
-1
0
1
2
3
4
5
6
7
x
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
-1 0
1
2
3
4
5
6
7
8
x
22
Zufallsvariablen III
11
Poissonverteilung
f(x)
0,25
0,35
0,6
f(x)
µ = 0,7
0,5
f(x)
0,3
0,2
0,25
0,4
µ = 1,5
0,2
0,3
0,15
0,2
0,1
0,1
0,1
0,05
0,05
0
0
0
-1 0 1 2 3 4 5 6
x
µ=4
0,15
-1 0 1 2 3 4 5 6 7 8
-1 0 1 2 3 4 5 6 7
x
x
Das Bild der Wahrscheinlichkeitsfunktion der Poissonverteilung hängt stark von µ ab.
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
23
Zufallsvariablen III
Poissonverteilung
Die Darstellungen auf der vorigen Folie zeigen die
Asymmetrie der Wahrscheinlichkeitsfunktion. Als
Ausdruck der Asymmetrie wird der Parameter
Schiefe (absolut oder relativ) verwendet.
Die relative Schiefe einer Poissonverteilung ergibt sich zu:
(
E (( X − E ( X )) 3 )
E (( X − E ( X )) 2 )
=
µ
) ( µ)
3
3
=
1
µ
(µ-1/2) ist positiv und signalisiert damit, dass die
Verteilung linkssteil ( = rechtsschief) ist. Die
Schiefe nimmt mit wachsendem µ ab und strebt gegen
Null. Die Verteilung wird dadurch annähernd
symmetrisch.
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
24
Zufallsvariablen III
12
Approximationen
FH(x)
N ≥ 2·n und
n·θ·(1- θ) ≥ 9
n/N < 0,05
n/N < 0,05,
n > 10 und
M/N < 0,05
FB(x)
n·θ·(1-θ)≥9
Normalverteilung
FN(x)
n > 10 und
θ < 0,05
µ≥9
FP(x)
Auf die zu den stetigen Verteilungen gehörende Normalverteilung
gehen wir in den kommenden Vorlesungen näher ein.
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
25
Zufallsvariablen III
Typisierung der diskreten theoretischen
Verteilungen
Verteilung
Parameter
Gleichverteilung
n = 1, 2, ...
Erwartungswert
[Varianz]
n
1
n
⋅ ∑ xi
i =1
⎡⎛ n 2 ⎞ ⎛ n ⎞2 ⎤
⎢⎜⎜ n1 ⋅ ∑xi ⎟⎟ − ⎜⎜ n1 ⋅ ∑xi ⎟⎟ ⎥
⎣⎢⎝ i=1 ⎠ ⎝ i=1 ⎠ ⎦⎥
BernoulliVerteilung
0≤θ≤1
θ
0≤θ≤1
n·θ
n = 1, 2, ...
[n·θ·(1-θ)]
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
Ein Versuch mit n gleichwahrscheinlichen Resultaten xi,
i = 1, 2, ..., n
Anzahl der Versuche mit dem
Resultat A, wenn ein Versuch mit
zwei möglichen Resultaten A und Ā
durchgeführt wird.
[θ·(1-θ)]
Binomialverteilung
Grundmodell
Anzahl der Versuche mit dem
Resultat A, wenn n Versuche mit
zwei möglichen Resultaten A und Ā
durchgeführt werden mit W(A) = θ.
Urnenmodell mit Zurücklegen.
26
Zufallsvariablen III
13
Typisierung der diskreten theoretischen
Verteilungen
Verteilung Parameter
Erwartungswert
[Varianz]
Grundmodell
Hypergeo- N = 1, 2, ...
metrische M = 0, 1, ..., N
Verteilung n = 1, 2, ..., N
n·M/N
Anzahl der Versuche mit dem
Resultat A, wenn n Versuche
mit zwei möglichen Resultaten
A und Ā durchgeführt werden.
Im ersten Versuch ist W(A) =
M/N.
Urnenmodell ohne
Zurücklegen
⎡ M N− M N−n⎤
⎢n⋅ N ⋅ N ⋅ N−1⎥
⎣
⎦
Poissonverteilung
µ>0
µ
Verteilung im Warteschlangenmodell, wenn die Zufallsvariable X Zählvariable für die
Bestimmung der Anzahl der
Abfertigungen ist.
Grenzverteilung der Binomialverteilung mit n → ∞, θ → ∞
und n·θ → µ.
[µ]
Prof. Kück / S. Winterfeldt
Lehrstuhl Statistik
27
Zufallsvariablen III
14
Herunterladen