4 Diskrete Wahrscheinlichkeitsverteilungen

4
Diskrete Wahrscheinlichkeitsverteilungen
4.1
Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit
Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, p), wobei Ω eine
endliche oder abzählbar unendliche Menge von elementaren Ereignissen und p : Ω −→
[0, 1] eine Wahrscheinlichkeitsverteilung ist, die jedem
P ω ∈ Ω seine Wahrscheinlichkeit
p(ω) zuordnet. Außerdem wird gefordert, daß ω∈Ω p(ω) = 1 ist. Wenn Ω = n
endlich ist für alle ω ∈ Ω auch p(ω) = n1 gilt, dann wird p eine Gleichverteilung
genannt.
Beispiele:
1) Für einen (fairen) Würfel ist Ω = {1, 2, 3, 4, 5, 6} und p(1) = p(2) = . . . = p(6) = 16
eine Gleichverteilung.
2) Der diskrete Wahrscheinlichkeitsraum für einen Münzwurf besteht aus Ω = {0, 1}
mit p(0) = p(1) = 1/2 (Gleichverteilung), wobei 0 den Kopf und 1 die Zahl der Münze
bezeichnet.
3) Der diskrete Wahrscheinlichkeitsraum für zwei Münzwürfe besteht aus
Ω = {(0, 0), (0, 1), (1, 0), (1, 1)} mit der Gleichverteilung p(i, j) = 1/4. Dabei geht
man davon aus, daß die beiden Würfe voneinander unabhängig sind und entweder
hintereinander oder gleichzeitig mit zwei unterscheidbaren Münzen erfolgen.
4) Betrachtet man den gleichzeitigen Wurf von zwei ununterscheidbaren Münzen so
ist Ω = {{0, 0}, {0, 1}, {1, 1}}. In diesem Fall ist p (faire Münzen vorausgesetzt) keine
Gleichverteilung, denn p({0, 0}) = p({1, 1}) = 1/4 und p({0, 1}) = 1/2.
5) Definiert man eine Folge von Münzwürfen, bis das erste Mal Zahl (also 1) fällt,
als elementares Ereignis, dann gibt es offensichtlich für jedes n ∈ N+ ein elementares
n
Ereignis, nämlich die Folge ωn = 0, 0, . . . , 0, 1. Bei einer fairen Münze ist p(ωn ) = 12
| {z }
(n−1) mal
und damit ist auch für diesen unendlichen Raum die Summenbedingung erfüllt:
∞
X
n=1
p(ωn ) =
∞ n
X
1
n=1
2
=1
Definition: Eine
P beliebige Untermenge A ⊆ Ω wird Ereignis genannt, und man
definiert p(A) = ω∈A p(ω). Dadurch wird die Verteilungsfunktion zu einem Wahrscheinlichkeitsmaß über der Menge P(Ω) aller Ereignisse erweitert. Die Verwendung der
gleichen Bezeichnung p für die Verteilung und das Wahrscheinlichkeitsmaß ist eine
kleine technische Unsauberkeit, die aber in der Literatur weit verbreitet ist.
Beispiel: Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, ist gleich der Summe
der Wahrscheinlichkeiten, eine 2, 4 oder 6 zu würfeln, also 1/2.
Aus der Definition und dem kombinatorischen Basiswissen folgt:
1. p(Ω) = 1 und p(∅) = 0
33
2. A ⊆ B =⇒ p(A) ≤ p(B)
3. p(A ∪ B) = p(A) + p(B) − p(A ∩ B)
P
S
4. p(A) = ki=1 p(Ai ) für jede Partition A = ki=1 Ai
5. p(Ω \ A) = 1 − p(A)
S
P
6. p( ki=1 Ai ) ≤ ki=1 p(Ai ).
Oft taucht das Problem auf, die Wahrscheinlichkeit eines Ereignisses A unter der
zusätzlichen Voraussetzung zu bestimmen, daß ein anderes Ereignis B eingetreten ist.
So ist offensichlich unter der Vorausetzung, daß eine gerade Zahl gewürfelt wurde,
die Wahrscheinlichkeit der 1 gleich Null und die Wahrscheinlichkeit der 2 gleich 1/3.
Definition: Seien A und B Ereignisse und p(B) > 0. Dann ist die bedingte Wahrscheinlichkeit von A unter B definiert als
p(A|B) =
p(A ∩ B)
p(B)
Beispiel: Würfelt man mit zwei unabhängigen und unterscheidbaren Würfeln, dann
ist Ω = {(i, j) | 1 ≤ i, j ≤ 6} und p((i, j)) = 1/36 für jedes Paar (i, j) aus Ω.
Bezeichne A1 = {(i, j) ∈ Ω | i = 1} das Ereignis, daß der erste Würfel eine 1 zeigt und
der zweite beliebig ist. Analog kann man die Ereignisse A2 , . . . , A6 definieren. Ähnlich
können durch Festlegung der Augenzahl des zweiten Würfels Ereignisse B1 = {(i, j) ∈
Ω | j = 1}, B2 , . . . , B6 definiert werden. Offensichlich ist die Wahrscheinlichkeit
dieser Ereignisse jeweils 1/6 und Durchschnitte wie A1 ∩ B3 = {(1, 3)} haben die
Wahrscheinlichkeit 1/36. Folglich ist
p(A1 |B3 ) =
p(A1 ∩ B3 )
1/36
1
=
=
p(B3 )
1/6
6
und analog ist die bedingte Wahrscheinlichkeit von jedem Ai unter einem beliebigen
Bj gleich 1/6, also gleich der Wahrscheinlichkeit von Ai selbst. Diese Eigenschaft ist
durch die Unabhängikeit der beiden Würfel begründet.
Definition: Zwei Ereignisse A und B werden unabhängig genannt, falls p(A ∩ B) =
p(A)p(B).
Lemma: Sind A und B zwei unabhängige Ereignisse mit
p(A ∩ B) > 0, dann gilt p(A|B) = p(A) und p(B|A) = p(B).
Ereignisse mit positver Wahrscheinlichkeit, die einander ausschließen, wie zum Beispiel
A1 und A2 aus dem letzten Beispiel sind voneinander nicht unabhängig, also abhängig.
Ein Beispiel für abhängige Ereignisse beim Spiel mit einem Würfel ist der Wurf einer
geraden Zahl und der Wurf einer 2 oder auch der Wurf einer geraden Zahl und der
Wurf einer Zahl ≤ 3. Auch im folgenden Beispiel geht es um die Abhängigkeit von
Ereignissen.
34
Beispiel: Ein Krebstest fällt mit 96% Wahrscheinlichkeit positiv aus, wenn der Patient Krebs hat und mit 94% Wahrscheinlichkeit negativ, wenn der Patient keinen
Krebs hat. Bei einem Patienten in dessen Altersgruppe 0.5% aller Personen Krebs
haben, fällt der Test positiv aus. Wie wahrscheinlich ist es, dass er tatsächlich Krebs
hat?
Wir betrachten die folgenden Ereignisse
K zufälliger Patient hat Krebs
p(K) = 0.005
N zufälliger Patient hat keinen Krebs p(K) = 0.995
T
Test positiv bei zufälligen Patienten p(T ) =
)
Gesucht ist die bedingte Wahrscheinlichkeit p(K|T ) = p(K∩T
.
p(T )
)
Aus p(T |K) = p(K∩T
= 0.96 kann man p(K ∩ T ) = 0.005 · 0.96 ausrechnen.
p(K)
Dagegen ist p(T |N ) = 1 − p(T |N ) = 1 − 0.94 = 0.06. Zur Bestimmung von P (T )
überlegt man sich, dass das Ereignis T die disjunkte Vereinigung (T ∩K)∪(T ∩N ) ist
und sich die Wahrscheinlichkeiten der beiden Komponenten wieder durch bedingte
Wahrscheinlichkeiten ausdrücken lassen:
p(T ) = p(T |K) · p(K) + p(T |N ) · p(N ) = 0.96 · 0.005 + 0.06 · 0.995. Letzlich erhalten
wir
p(K ∩ T )
0.005 · 0.96
p(K|T ) =
=
= 0.0744 . . .
p(T )
0.96 · 0.005 + 0.06 · 0.995
Damit ist die Wahrscheinlichkeit, dass der Patient mit positiven Test wirklich Krebs
hat nur ca. 7.4%.
Definition: Sind (Ω1 , p1 ) und (Ω2 , p2 ) zwei Wahrscheinlichkeitsräume, dann ist der
Produktraum (Ω1 × Ω2 , p) definiert durch
p((ω1 , ω2 )) = p1 (ω1 )p2 (ω2 ).
Diese Definition impliziert Unabhägigkeiten der folgenden Form: für alle A ⊆ Ω1 und
B ⊆ Ω2 sind die Ereignisse A × Ω2 und Ω1 × B voneinander unabhängig. Ein Beispiel
dafür wurde bereits behandelt, denn der Wahrscheinlichkeitsraum für zwei Würfel ist
das Produkt des Raums eines Würfel mit sich selbst. Im folgenden werden endliche
Produkte des Münzwurfraums genauer analysiert:
• Sei eine faire Münze gegeben, die sechsmal geworfen wird. Der zugehörige
Wahrscheinlichkeitsraum besteht aus allen 0/1–Folgen der Länge 6, wobei die
Wahrscheinlichkeit jeder Folge gleich 216 ist. Wie groß ist die Wahrscheinlichkeit
des Ereignisses, daß genau zwei Einsen in der Folge auftreten? Die Anzahl
solcher Folgen stimmt offensichtlich mit der Anzahl der 2–Kombinationen
einer
6–Menge überein. Folglich hat das Ereignis die Wahrscheinlichkeit 62 /26 .
• Sei eine “unfaire” Münze gegeben, die mit Wahrscheinlichkeit q (0 < q < 1)
Zahl (d.h. 1) und mit Wahrscheinlichkeit 1 − q Kopf (d.h. 0) liefert. Betrachtet
man den Wahrscheinlichkeitsraum für n Münzwürfe, dann ist die Wahrscheinlichkeit einer festen Folge der Länge n mit genau k Einsen gleich q k (1 − q)n−k .
Die Wahrscheinlichkeit
des Ereignisses, daß eine Folge genau k Einsen enthält
ist nk q k (1 − q)n−k . Deshalb werden Verteilungen dieser Art auch Binomialverteilungen genannt.
35
4.2
Zufallsvariable und Erwartungswert
Definition: Sei (Ω, p) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable oderZufallsgröße ist eine Funktion X : Ω −→ R.
Im Fall eines Würfels oder eine zufällig gezogenen Zahl aus einer Urne fällt der Unterschied zwischem elementaren Ereignis und Zufallsvariable nicht auf, weil das Ereignis
selbst schon eine Zahl ist, d.h. man kann die identische Abbildung als eine Zufallsvariable ansehen. Die folgenden Beispiele zeigen, dass man viele Zufallsexperimente auf
sehr natürliche Weise mit Zufallsvariablen beschreiben kann.
Beispiele:
1) Der diskrete Wahrscheinlichkeitsraum Ω = {1, 2, . . . , 6} × {1, 2, . . . , 6} für zwei
Münzwürfe sind Zufallsvariablen für die Summe und die Differenz der beiden Werte
interessant: X(a, b) = a + b
Y (a, b) = |a − b|.
2) Auf dem Wahrscheinlichkeitsraum für n Münzwürfe Ω = {0, 1}n interessiert man
sich vor allen für die Zufallsvariablen, welche die Anhzahl der Zahl- bzw. Kopfergebnisse in einer solchen Serie Zählen, d.h.
X(a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 1}|
Y (a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 0}| = n − X(a1 , a2 , . . . , an )
Man nennt X und Y (auch im Fall einer unfaieren Münze) binomialverteilt.
3) Bei der Wiederholung von Münzwürfen bis zur ersten Zahl (oder bis zum ersten
Kopf) ist offensichtlich die Länge des Experiments eine interessante zufälige Größe:
X(0, 0, . . . , 0, 1) = n
| {z }
(n−1) mal
Definition:
Der Erwartungswert der Zufallsvariablen X ist definiert als E(X) =
P
ω∈Ω X(ω)p(ω).
Im ersten und dritten Beispiel kann man Erwartungswerte relativ leicht ausrechen:
70
;
1) E(X) = 7 und E(Y ) = 36
P∞
1
3) E(X) = n=1 n · 2n = 2 (ist etwas schwerer);
Im zweiten Beispiel wäre eine direkte Auswertung recht schwierig, aber der folgende
Fakt macht die Berechnung sehr einfach.
Lemma: Der Erwartungswert ist additiv, d.h. für beliebige Zufallsvariable X, Y :
Ω −→ R gilt E(X + Y ) = E(X) + E(Y ) wobei die neue Variable X + Y in naheliegender Weise durch (X + Y )(w) = X(w) + Y (w) definiert ist.
Anwendungen:
• Wir betrachten die binomialverteilte Zufallsvariable X aus Beispiel 2, die jedem
0/1–Tupel der Länge n die Anzahl seiner Einsen zuordnet. Um das Beispiel
noch etwas allgemeiner zu machen, betrachten wir eine unfaire Münze, die mit
Wahrscheinlichkeit q eine 1 (Zahl) und mit Wahrscheinlichkeit 1 − q eine 0
36
(Kopf) liefert. Gruppiert man die Folgen derart, daß alle
P Folgenmit genau k
Einsen einer Gruppe angehören, so erhält man E(X) = nk=0 k nk q k (1 − q)n−k
und es ist relativ aufwändig daraus E(X) = nq abzuleiten. Durch Nutzung der
Additivität der Erwartungswerte kann man diese Formel einfacher erhalten:
Offensichtlich ist X = X1 + X2 + . . . + Xn wobei die Variable Xi angewendet
auf eine Folge von Münzwurfergebnissen (a1 , . . . , an ) das Ergebnis des i-ten
Wurfs auswertet, also Xi ((a1 , . . . , an )) = ai . Da die Erwartungswerte dieser
Summanden jeweils q sind folgt E(X) = E(X1 ) + . . . + E(Xn ) = nq.
• 2) Eine Versicherung macht folgende Kalkulation: Jeder Versicherte zahlt 100
DM ein. Mit Wahrscheinlichkeit von 1/20 (also 5 %) muß eine Leistung von
1000 DM und mit Wahrscheinlichkeit 1/10 eine muß eine Leistung von 400
DM erbracht werden. Wie hoch ist der Erwartetungswert für den Gewinn (pro
Versicherungsnehmer)?
Der zu betrachtende Wahrscheinlichkeitsraum hat drei Elementarereignisse ω1 , ω2
und ω3 mit p(ω1 ) = 1/20, p(ω2 ) = 1/10 und p(ω3 ) = 1 − 1/20 − 1/10 = 17/20.
Die Zufallsvariable X beschreibt den Gewinn für die einzelnen Ereignisse: X(ω1 ) =
100 − 1000 = −900, X(ω2 ) = 100 − 400 = −300 und X(ω3 ) = 100. Nach Definition erhalten wir für den Erwartungswert
1
1
− 300 10
+ 100 17
=
E(X) = −900 20
20
−900−600+1700
20
= 10
Wichtige Anwendungen in der Informatik sind die Analyse der durchschnittlichen
Laufzeit eines Algorithmus (Ω besteht aus den Eingaben und X(ω) ist die Laufzeit
für die Eingabe ω) und die Analyse randomisierter Algorithmen (d.h. die Arbeit des
Algorithmus wird durch eingebaute Zufälle gesteuert).
37