2.3.4 Poisson

2 Wahrscheinlichkeitstheorie
Jedoch tritt auch {Y = 4} auf, wenn 4 Mal Zahl und 6 Mal Kopf in irgendeiner Reihenfolge
auftritt. Die Wahrscheinlichkeit
ist dabei jedes Mal p4 (1 − p)6 und wie wir in der Übung gelernt
10
haben, gibt es genau 4 = 210 verschiedene derartige Reihenfolgen.
Da eine Bin(n, p)-verteilte Zufallsvariable die Summe von n Bernoulli-Zufallsvariablen Xi , i =
1, . . . , n (mit P (Xi = 1) = p), ist, lässt sich der Erwartungswert durch (2.1) auf Seite 57
bestimmen:
!
n
X
(2.1)
E(Y ) = E
= E(X1 ) + . . . + E(Xn ) = p + . . . + p = n p.
Xi
i=1
Die Varianz lässt sich wegen Unabhängigkeit der Experimente durch (2.3) bestimmen:
Var(Y ) =
n
X
i=1
Var(Xi ) =
n
X
p(1 − p) = n p (1 − p).
i=1
Abbildung 2.5 zeigt auch, dass der Modalwert einer Y ∼ Bin(n, 12 ) Zufallsvariablen gleich
ist, falls n gerade ist. Ist n ungerade gilt
1
1
f
n−1
=f
n ,
2
2
1
2n
d.h. der Modalwert ist in diesem Fall nicht eindeutig definiert.
In R lässt sich die Wahrscheinlichkeitsfunktion f (y) einer Y ∼ Bin(n, p) Zufallsvariablen mit
der Funktion dbinom(y, n, p) bestimmen. Desweiteren liefert qbinom(y,n,p) die Verteilungsfunktion F(y) und qbinom(q,n,p) das 0 ≤ q ≤ 1 Quantil von Y . Als Beispiel wird hier n = 10
und p = 12 benutzt:
> dbinom(0:10, 10, 0.5)
R Output
[1] 0.0009766 0.0097656 0.0439453 0.1171875 0.2050781 0.2460938 0.2050781 0.1171875
[9] 0.0439453 0.0097656 0.0009766
> pbinom(0:10, 10, 0.5)
R Output
[1] 0.0009766 0.0107422 0.0546875 0.1718750 0.3769531 0.6230469 0.8281250 0.9453125
[9] 0.9892578 0.9990234 1.0000000
> qbinom(c(0.1, 0.5, 0.9), 10, 0.5)
R Output
[1] 3 5 7
2.3.4 Poisson-Verteilung
Die Poisson-Verteilung ist wie die Binomial-Verteilung eine diskrete Verteilung, um die Anzahl
der Beobachtungen eines bestimmten Ereignisses in einem bestimmten Zeitraum oder in einem
62
2.3 Zufallsvariablen
bestimmten Raum zu zählen. Wenn die Anzahl der Wiederholungen im Bernoulli-Versuch gegen
Unendlich strebt, erhält man mit ein paar zusätzlichen Annahmen (die wir nicht behandeln
wollen) die Poisson-Verteilung als Grenzverteilung.
Die Poisson-Verteilung dient somit als Modell für die Anzahl von Ereignissen pro Zeiteinheit in
einer Population, die nicht nach oben begrenzt ist. Sie wird auch häufig zur Beschreibung von
Verteilungsmustern von Pflanzen und Tieren im Raum verwendet.
Experiment 1. Man nimmt eine Population von Bakterien und Vektoren, die Plasmide in
diese Bakterien einschleusen. Wenn wir uns nun ein Bakterium herausfischen, ist die Zahl der
Plasmide in diesem Bakterium poissonverteilt.
Experiment 2. Man stellt im Wald eine Käferfalle auf und zählt, wieviele Käfer in diese Falle
geraten.
Experiment 3. Die Zahl der Todesfälle durch Hufschlag in Preußischen Reiterregimenten sind
poissonverteilt.
Sei X poissonverteilt, X ∼ Po(λ), wobei λ > 0 der Parameter der Poisson-Verteilung ist. Die
möglichen Realisationen von X sind 0, 1, 2, . . . und die Wahrscheinlichkeitsfunktion f (x) ist
 x

 λ e−λ falls x ∈ {0, 1, 2, . . .}
x!
f (x) = P (X = x) =


0
sonst
0.00
0.04
f(x)
0.08
0.12
Man kann zeigen, dass E(X) = λ und Var(X) = λ, d.h. Erwartungswert und Varianz sind bei
der Poisson-Verteilung gleich. Abbildung 2.6 zeigt f (x), wenn λ = 10.
0
5
10
15
20
x
Abbildung 2.6: Wahrscheinlichkeitsfunktion einer Po(10) Zufallsvariablen. Achtung: f (x) > 0
für x > 20, z.B. ist f (21) = 4.89 · 10−4 und f (100) = 4.86 · 10−63 .
Wir können die Poisson-Verteilung tatsächlich als Grenzübergang aus der Binomial-Verteilung
für n → ∞ und p → 0 erhalten, wobei wir
λ = pn
festhalten, d.h. für jedes n wird p = λ/n gewählt. Als Konsequenz kann für große n und kleine p die Bin(n, p)-Verteilung durch eine Po(λ)-Verteilung mit λ = np approximiert werden.
Abbildung 2.7 zeigt dies anhand eines Beispiels.
63
K!
2 Wahrscheinlichkeitstheorie
In R kann gibt es die entsprechenden Funktion dpois, ppois und qpois, um Wahrscheinlichkeitsfunktion, Verteilungsfunktion und Quantile zu berechnen.
0.00
0.04
f(x)
0.08
0.12
Bin(100,0.1)
Pois(10)
0
5
10
15
20
x
Abbildung 2.7: Approximation einer Bin(100, 0.1) Verteilung durch die Po(10) Verteilung illustriert anhand der Wahrscheinlichkeitsfunktion. Es wird nur der Bereich 0 ≤ x ≤
20 gezeigt.
64
2.3 Zufallsvariablen
2.3.5 Stetige Zufallsvariable
Wie schon in Kapitel 1 sprechen wir auch von Zufallsvariablen mit stetigen Skalenniveau. Das
heißt, für zwei mögliche Realisationen a < b ∈ R der stetigen Zufallsvariable X gilt, dass
auch jeder Zwischenwert x ∈ [a, b] mögliche Realisationen sind. Wichtigste Botschaft ist, dass
stetige Zufallsvariablen nicht mehr über eine Wahrscheinlichkeitsfunktion P (X = x) definiert
sind, sondern, dass wir uns für Wahrscheinlichkeiten von Mengen, genauer gesagt Intervallen,
interessieren: wie können wir die Wahrscheinlichkeit für Ereignisse der Form P (a ≤ X ≤ b) für
stetige Zufallsvariablen festlegen? Bei diskreten Zufallsvariablen wurde dies über die Summation
der Wahrscheinlichkeiten für alle mögliche Realisationen xi zwischen a und b gemacht. Bei
stetigen Zufallsvariablen gibt es jedoch überabzählbar viele solcher Realisationen, womit das
Aufsummieren nicht mehr praktisch handhaben kann.
Beispiel. Falls die Zufallsvariable X der Umfang eines Baumes in cm ist, dann ist die Frage
also nicht mehr: Wie wahrscheinlich ist es, dass der vermessene Baumumfang 30 cm beträgt,
sondern, z.B. Wie wahrscheinlich ist es, dass der Baumumfang zwischen 25 und 35 cm liegt?
Die Berechnung von P (a ≤ X ≤ b) gelingt hier wieder durch die unendliche Wiederholung eines
Versuchs, wobei X nun eine stetige Zufallsvariable ist, die das Ergebnis des Versuchs beschreibt.
Dazu geht man illustrativ von einer diskreten Zufallsvariablen Xd aus, die als Approximation
von X durch eine Klassenbildung von X entsteht. Stuft man den Wertebereich von Xd immer
feiner ab, gelangt man durch eine Grenzbetrachtung zu einer sinnvollen Definition für stetige
Zufallsvariablen.
Sei Xd eine diskrete Zufallsvariable, die durch Klassenbildung aus X mit einer Klassenlänge ∆x
entsteht. Die möglichen Realisationen von Xd seien die Klassenmitten xi der Intervalle (xi −
1
1
2 ∆x, xi + 2 ∆x). Im Wahrscheinlichkeitshistogramm einer diskreten Zufallsvariable Xd ist die
Rechtecksfläche über den Intervallen gleich P (Xd = xi ), d.h. die Wahrscheinlichkeit die Klasse xi
von Xd zu erhalten, ist gleich der Wahrscheinlichkeit P (xi − ∆x ≤ X ≤ xi + ∆x). Abbildung 2.8
zeigt das Wahrscheinlichkeitshistogramm für drei Xd , die mit einer unterschiedlichen Anzahl von
Klassen die gleiche stetige Zufallsfallsvariable approximieren. Anhand von Xd wird außerdem
eine Funktion fd (x) definiert, die jeweils die Midtpunkte der oberen Seite der Rechtecke im
Wahrscheinlichkeitshistogramm verbindet (siehe z.B. Abb. 2.8 oben links). Der Grenzübergang
∆x → 0 führt zur Definition der Dichte f (x) einer stetigen Zufallsvariablen.
Definition (Stetige Zufallsvariable )
Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt, sodass für jedes
Intervall [a, b] gilt
b
Z
P (a ≤ X ≤ b) =
f (x) dx
a
Die Funktion f (x) wird auch Dichte von X genannt.
Folgende Eigenschaften gelten für stetige Zufallsvariablen:
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
P (X = x) = 0
∀x ∈ R
Die letzte Eigenschaft mag zunächst verwunderlich erscheinen, da es bedeutet, dass X genau
den Wert x mit Wahrscheinlichkeit 0 annimmt. Die Dichte f (x) übernimmt bei stetigen Zufalls-
65
K!
2 Wahrscheinlichkeitstheorie
0.4
50 Intervalle
0.4
10 Intervalle
0.1
∆x
●
●
●
−2
−1
0 xi
1
2
●
−4
−2
0
2
Xd
100 Intervalle
fd(x) für ∆x → 0
4
Dichte f(x)
0.1
0.2
0.3
0.4
0.3
0.2
0.0
0.1
0.0
1
1
P(X ∈ (xi − ∆x,xi + ∆x)) ∆x
2
2
0.3
3
Xd
0.4
−3
●
0.2
●
0.1
●
0.0
0.2
0.3
1
1
P(X ∈ (xi − ∆x,xi + ∆x)) ∆x
2
2
●
●
0.0
1
1
P(X ∈ (xi − ∆x,xi + ∆x)) ∆x
2
2
●
−4
−2
0
Xd
2
4
−4
−2
0
2
4
x
Abbildung 2.8: Wahrscheinlichkeitshistogramm für die diskrete Approximation Xd einer stetigen
Zufallsvariable X mit 10, 50 und 100 Intervallen. Das Schaubild rechts unten
zeigt den Grenzübergang von fd (x) für ∆x → 0. Die resultierende Funktion ist
die Dichte von X.
66
0.0
0
−3
−2
0.2
−1
0.4
F(x)
F−1(x)
0.6
1
2
0.8
3
1.0
2.3 Zufallsvariablen
−4
−2
0
x0.5
2
4
0.0
0.2
0.4
0.6
0.8
1.0
q
Abbildung 2.9: (a) Verteilungsfunktion F (x) für die Dichte f (x) aus Abbildung 2.8 zusammen
mit der Bestimmung des Medians x0.5 = 0. (b) Die zu (a) gehörige Quantilsfunktion F −1 (q) für q ∈ (0, 1).
variablen die Rolle der Wahrscheinlichkeitsfunktion. Dabei ist es wichtig zu verstehen, dass f (x)
keine Wahrscheinlichkeiten angibt. Es gilt zwar Näherungsweise, dass
f (x)∆x ≈ P X ∈ (x − ∆x, x + ∆x) ,
aber es kann durchaus passieren, dass f (x) > 1.
K!
Die Verteilungsfunktion F (x) einer stetigen Zufallsvariablen lautet nun
Z x
F (x) = P (X ≤ x) =
f (x) dx.
−∞
Umgekehrt ist also
f (x) =
d
F (x).
dx
R∞
= 1. Außerdem gilt für
P (a ≤ X ≤ b) = F (b) − F (a),
(2.5)
P (X ≥ a) = 1 − F (a).
(2.6)
Damit F (∞) = 1 muss f (x) auch so normiert sein, dass
a < b ∈ R, dass
−∞ f (x) dx
Im Gegensatz zu der Verteilungsfunktion einer diskreten Zufallsvariablen ist die Verteilungsfunktion einer stetigen Zufallsvariablen keine Treppenfunktion mehr. Abbildung 2.9 zeigt F (x)
für die Dichte f (x) aus Abb. 2.8.
Wie schon für diskrete Zufallsvariablen lässt das q-Quantil von X sich aus der Verteilungsfunktion von X bestimmen. Dabei ist xq die Zahl auf der x-Achse für die gilt
F (xq ) = q.
67
2 Wahrscheinlichkeitstheorie
Dies entspricht der Umkehrfunktion von F , welche auch Quantilsfunktion genannt und mit F −1
bezeichnet wird. Zum Beispiel ist x0.5 = F −1 (0.5) = 0 in Abb. 2.9. Es gilt natürlich
F (F −1 (x)) = x.
Analog zu diskreten Zufallsvariablen können wieder Erwartungswert und Varianz einer stetigen
Zufallsvariablen definiert werden. Der wichtige Unterschied ist hierbei, dass jeweils die Summe
über alle mögliche Realisationen von X durch ein Integral von −∞ bis ∞ ersetzt wird.
Somit gilt:
Z
∞
xf (x) dx
E(X) =
−∞
Z
∞
(x − E(X))2 f (x) dx = E(X 2 ) − E(X)2 .
Var(X) =
−∞
Außerdem ist wie vorher der Erwartungswert irgendeiner Funktion g : R → R von X,
Z ∞
E(g(X)) =
g(x)f (x) dx,
−∞
Es gelten weiterhin die Eigenschaften, dass
E(aX + b) = aE(X) + b,
Var(aX + b) = a2 Var(X).
Unabhängigkeit wird für zwei stetige Zufallsvariablen X und Y über die Verteilungsfunktionen
FX (x) bzw. FY (y) definiert. Die Zufallsvariablen heißen unabhängig, wenn für alle x ∈ R und
y∈R
P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (X ≤ y) = FX (x) · FY (y).
2.3.6 Normalverteilung
Die bekannteste und wichtigste stetige Verteilung ist die Normalverteilung. Ein wichtiger Grund
dafür ist, dass, wenn immer die Verteilung einer Zufallsvariablen X durch die Summe einer
großen Anzahl von zufälligen unabhängigen Einflüssen entsteht, die Dichte von X sich sehr
gut durch eine Normalverteilung approximieren lässt. Die theoretische Begründung für diese
Approximation liefert der zentrale Grenzwertsatz.
Ein Beispiel ist das Gewicht eines Apfels, der von sehr vielen Faktoren wie Licht, Wasser, Bodenbeschaffenheit, Wärme, Schädlingsbefall, usw. abhängig ist. Ein anderes Beispiel ist die Binomialverteilung, die sich, wie wir gleich sehen werden, durch eine Normalverteilung approximieren
lässt.
Beispiele für normalverteilte Merkmale sind
• Ertrag einer Parzelle
• Größe männlicher, ausgewachsener Seehunde
• Biermenge pro Flasche bei Befüllung von Bierflaschen
68
K!