Wahrscheinlichkeitsverteilungen 1 Einige diskrete

PD Dr. Dirk Horstmann
SS 2005
Wahrscheinlichkeitsverteilungen
Anlage zur Vorlesung
“Mathematik II für Studierende der Biologie”
1
Einige diskrete Wahrscheinlichkeitsverteilungen
In diesem Abschnitt sind einige wichtige diskrete Wahrscheinlichkeitsverteilungen zusammengefaßt.
1.1
Diskrete Gleichverteilung
Es sei Ω = {ω1 , ....ωn } die Ergebnismenge eines Zufallsexperiments und die ωi , i ∈ {1, .., n}, seien n paarweise disjunkte
Ereignisse. Die Laplace-Wahrscheinlichkeit des Ereignisses ωi ist bekanntlich durch
P ({ωi }) =
gegeben, und es gilt P ({ω1 }) = .... = P ({ωn }) sowie 1 =
P (E) =
X
n
P
i=1
1
n
P ({ωi }). Dann gilt für E ⊂ Ω
P ({ωi }) =
ωi ∈E
|E|
.
n
Offensichtlich sind die Ereignisse ωi , i ∈ {1, ..., n}, “gleich wahrscheinlich”. Ordnet man den ωi nun die Variablenwerte
xi zu, so erhalten wir die diskrete Wahrscheinlichkeitsverteilung
f (xi ) = P ({ωi }) =
1
.
n
Aus offensichtlichen Gründen nennt man diese Wahrscheinlichkeitsverteilung die diskrete Gleichverteilung. Die
diskrete Gleichverteilung wird immer dann angewendet, wenn es keinen erkennbaren Grund dafür gibt, daß die
Elementarereignisse unterschiedliche Wahrscheinlichkeiten haben.
1.2
Die Binomialverteilung
Die einfachsten nichttrivialen Zufallsexperimente sind solche mit 2 möglichen Ausgängen wie zum Beispiel Münzwurf
(Kopf, Zahl), Geschlecht von Nachkommen (männlich, weiblich), Qualitätskontrolle (defekt, intakt) oder das Auftreten
von Mutationen (Mutation, keine Mutation). Solche Zufallsexperimente mit 2 Ausgängen bezeichnet man als Bernoulli
Experimente. Sie werden eindeutig durch
Ω1 = {E, E}, P (E) = p, q = 1 − P (E) = P (E)
beschrieben. Dabei ist also 0 ≤ p ≤ 1 die Wahrscheinlichkeit des Eintreffens des Ereignisses E. Führt man die
Zufallsvariable X so ein, daß X den Wert 1 oder 0 erhält, je nachdem ob E oder E eintritt, so nennt man die
Wahrscheinlichkeitsverteilung f (1) = P (X = 1) = p, f (0) = P (X = 0) = q mit p + q = 1 eine Zweipunktverteilung
mit dem Parameter p.
Aus einem einfachen Bernoulli Experiment lassen sich durch Wiederholungen schnell kompliziertere Wahrscheinlichkeitsmodelle bilden. Wir betrachten nun ein Zufallsexperiment, das aus n > 0 unabhängigen Wiederholungen
eines Versuches besteht, wobei jede Wiederholung entweder den Ausgang E (mit Wahrscheinlichkeit p) oder den Ausgang E (mit Wahrscheinlichkeit 1 − p = q) hat. Dies wird als ein n-stufiges Bernoulliexperiment bezeichnet.
Sei nun X die Anzahl der Wiederholungen mit dem Ausgang E. Die Wahrscheinlichkeit P (X = x) dafür, daß der
Ausgang E unter den n Wiederholungen insgesamt x-mal (x = 0, 1, ..., n) eintritt, ist dann durch
µ
¶
µ
¶
n
n
P (X = x) =
q n−x px =
(1 − p)n−x px
x
x
1
mit x = 0, 1, ..., n gegeben. Weiter gilt:
1 = (p + q)n =
n
X
P (X = x).
x=0
Die Wahrscheinlichkeitsfunktion f , die durch
µ
f (x) = P (X = x) =
n
x
¶
µ
q n−x px =
n
x
¶
(1 − p)n−x px
gegeben ist, wird Binomialverteilung genannt. Die Zufallsvariable X heißt binomial verteilt oder kurz Bn,p -verteilt.
Diese Binomialverteilung f wird kurz durch f (x) = Bn,p (x) bezeichnet. Sind alle Binomialwahrscheinlichkeiten zu
bestimmen, geht man zweckmäßigerweise so vor, daß man zuerst
µ
¶
n
Bn,p (0) =
q n−0 p0
0
berechnet und dann die Rekursionsformel
Bn,p (x + 1) = Bn,p (x)
(n − x)p
(x = 0, 1, ...n − 1)
(x + 1)(1 − p)
verwendet.
0.25
0.35
0.25
0.2
0.3
0.2
0.25
0.15
0.15
0.2
0.1
0.15
0.1
0.1
0.05
0.05
0.05
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
Figure 1: Die Binomialverteilung für n = 10 und p=0.125, p=0.25, p=0.5.
Beispiel 1.1 Die Wahrscheinlichkeit, daß eine bezüglich der Samenform mischerbige Erbse nach Selbstbestäubung
einen kantigen Samen ausbildet, ist nach der Mendelschen Spaltungsregel gleich 1/4. Die Wahrscheinlichkeit, daß ein
mischerbiger Samen entsteht, ist 1/2. Wir betrachten die Entwicklung von 10 Samen und fragen nach der Wahrscheinlichkeitsverteilung der Anzahl X der darunter befindlichen kantigen (Fall a) bzw. mischerbigen Samen (Fall b).
Im Fall a kann X als eine binomialverteilte Zufallsvariable mit den Parametern n = 10 und p = 0.25 angesehen
werden. Der Graph der dazugehörigen B10,0.25 -Verteilung ist in der Mitte der Abbildung 1 zu sehen.
Im Fall b folgt X einer B10,0.5 -Verteilung. Der dazugehörige Graph ist der rechte in Abbildung 1.
1.3
Die hypergeometrische Verteilung
Betrachten wir nun als Beispiel die Qualitätskontrolle, wie sie in der Industrie häufig durchgeführt wird. Gegeben
sind N Objekte (Schrauben, Transistoren, Tiere oder Pflanzen einer bestimmten Art). Von diesen sind a defekt, bzw.
weisen ein besonderes Merkmal auf. Der Anteil der abweichenden Teile ist dann p = Na . Wählen wir nun nacheinander
n Objekte aus, wobei jedes geprüfte Teil wieder zurück gelegt wird, so erhält man nach dem vorangegangenen Abschnitt
für die Wahrscheinlichkeit, daß x fehlerhafte Teile auftreten, gerade den Wert
µ
¶
n
(1 − p)n−x px .
x
2
Legt man die n Teile jedoch nicht zurück, so ist die Wahrscheinlichkeit, x-fehlerhafte Teile zu finden, durch
µ
¶µ
¶
a
N −a
x
n−x
µ
¶
P (X = x) =
N
n
gegeben. Abstrakt läßt sich das nun wie folgt zusammenfassen.
Es sei X die Anzahl der aus einer Menge M gezogenen Objekte vom Typ A bei der zufälligen Ziehung (ohne
Zurücklegen) von n-Kombinationen aus M . Die Gesamtheit aller n-Kombinationen aus M bildet das sichere Ereignis
Ω. Das Ereignis E = (X = x) umfaßt alle n-Kombinationen, in denen sich x Objekte vom Typ A und (n − x) Objekte
eines anderen Typs befinden. Insgesamt seien a Objekte vom Typ A und N −a Objekte eines anderen Typs vorhanden.
Die Wahrscheinlichkeit des Ereignisses E ist dann durch
µ
¶µ
¶
a
N −a
x
n−x
µ
¶
P (X = x) =
N
n
gegeben. Die Zufallsvariable X, die die Werte x = 0, 1, ..., a mit den oben gegebenen Wahrscheinlichkeiten annehmen
kann, heißt hypergeometrisch verteilt mit Parametern N , n und p = a/N . Für die Wahrscheinlichkeitsfunktion von
X schreiben wir kurz HN,n,p (x).
Aus praktischen Gründen ist es wichtig zu bemerken, daß die hypergeometrische Verteilung durch die Binomialverteilung ersetzt werden kann, wenn n im Vergleich zu N klein ist (etwa n/N < 0.1). Unter dieser “Kleinheitsbedingung” gilt näherungsweise
HN,n,p (x) ≈ Bn,p (x).
1.4
Die Poisson-Verteilung
Betrachten wir nun wieder ein n-stufiges Bernoulliexperiment. Für sehr kleines p, aber andererseits sehr großem n, wird
die Berechnung der Wahrscheinlichkeiten P (X = x) recht mühsam. In diesem Fall kann man die Binomialverteilung
durch eine “Grenzverteilung” approximieren. Dies basiert auf dem Poissonschen Grenzwertsatz:
Läßt man p gegen Null und gleichzeitig n so gegen unendlich streben, daß das Produkt λ = np konstant
bleibt, nähert sich die Binomialverteilung immer mehr der Poisson-Verteilung mit den durch die Formel
P (X = x) = Pλ (x) = e−λ
λx
(x = 0, 1, ....)
x!
gegebenen Wahrscheinlichkeiten.
0.6
0.5
0.4
0.35
0.14
0.3
0.12
0.25
0.1
0.2
0.08
0.15
0.06
0.1
0.04
0.05
0.02
0.3
0.2
0.1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Figure 2: Die Poisson-Verteilung für λ = 0.5, λ = 1 und λ = 7.
Die Approximation der Binomialverteilung durch die Poisson-Verteilung ist bereits für 10 ≤ n und p ≤ 0.1 recht gut.
3
1.5
Negative Binomialverteilung
Eine diskrete Zufallsvariable X heißt negativ binomialverteilt mit den Parametern k > 0 und P > 0, wenn ihre
Realisationen x mit den Wahrscheinlichkeiten
½
(1 + P )−k ,
für x = 0
P (X = x) =
k(k+1)(k+2)·.....·(k+x−1) x
−k−x
P (1 + P )
, für x = 1, 2, ....
x!
angenommen werden.
2
Einige stetige Wahrscheinlichkeitsverteilungen
Wenden wir uns nun den wichtigsten stetigen Verteilungen zu.
2.1
Die Standardnormalverteilung
Die wichtigste stetige Verteilung ist die sogenannte Normalverteilung. Als Realisation einer standardnormalverteilten Zufallsvariablen X können beliebige reelle Zahlen auftreten. Die Dichtekurve der Standardnormalverteilung hat
die Form einer symmetrisch zur vertikalen Achse verlaufenden “Glockenkurve”. Ihre Funktionsgleichung lautet:
2
1
f (x) = √ e−x /2 .
2π
Für eine standardnormalverteilte Zufallsvariable X gilt aus Symmetriegründen P (X ≤ −x) = P (X > x), woraus sich
Φ(−x) = P (X ≤ −x) = P (X > x) = 1 − P (X ≤ x) = 1 − Φ(x)
für die Verteilungsfunktion Φ der Standardnormalverteilung folgern läßt. Bei negativem x kann die Bestimmung von
Φ(x) also stets mit Hilfe der für positive x angegebenen Tabelle A.1 vorgenommen werden.
0.4
0.3
0.2
0.1
–4
–3
–2
–1
2
1
3
4
x
Figure 3: Die zur Standardnormalverteilung gehörende Dichtefunktion f (x) =
2.2
2
√1 e−x /2 .
2π
Die allgemeine Normalverteilung
Eine Zufallsvariable X heißt normalverteilt mit dem Mittelpunkt µ und der Varianz σ 2 , oder kurz
X ∼ N (µ, σ 2 ),
wenn ihre Dichtefunktion die Gestalt
f (x) =
2
2
1
√ e−(x−µ) /(2σ )
σ 2π
hat. Für ihre Verteilungsfunktion F gilt dann:
µ
F (x) = P (X ≤ x) = Φ
x−µ
σ
¶
,
d.h., der Wert der Verteilungsfunktion an der Stelle x läßt sich mittels der Verteilungsfunktion der Standardnormalverteilung bestimmen und stimmt mit dem Wert von Φ an der Stelle (x − µ)/σ überein.
4