Wahrscheinlichkeitsrechnung - Goethe

Werbung
Goethe-Oberschule Berlin
A. Mentzendorff
Juni 2009
Wahrscheinlichkeitsrechnung
Inhaltsverzeichnis
1 Mengen
1.1 Mengenbegriff, Teilmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Verknüpfung von Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 n-Tupel und direkte Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
3
4
2 Zufallsexperiment und Wahrscheinlichkeit
2.1 Zufallsexperimente, Ergebnisse, Ereignisse . . . . . . . . . . . .
2.2 Häufigkeiten und Wahrscheinlichkeit . . . . . . . . . . . . . . .
2.3 Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung
2.4 Laplace-Experimente . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Gegenereignis. Verknüpfung von Ereignissen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
8
11
12
3 Bedingte Wahrscheinlichkeiten
3.1 Der Begriff der bedingten Wahrscheinlichkeit
3.2 Baumdiagramme und Pfadregeln . . . . . . .
3.3 Der Satz von Bayes . . . . . . . . . . . . . . .
3.4 Unabhängige Ereignisse . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
16
19
21
4 Kombinatorik
4.1 Produktregel und Permutationen . . . . . . . .
4.2 Stichproben . . . . . . . . . . . . . . . . . . . .
4.3 Ungeordnete Stichproben. Binomialkoeffizienten
4.4 Hypergeometrische Verteilung . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
27
31
.
.
.
.
.
33
33
34
37
38
43
5 Zufallsgrößen und Binomialverteilung
5.1 Der Begriff der Zufallsgröße . . . . . .
5.2 Der Erwartungswert . . . . . . . . . .
5.3 Varianz und Standardabweichung . . .
5.4 Die Binomialverteilung . . . . . . . . .
5.5 Abweichungen vom Erwartungswert .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Mengen
1.1
Mengenbegriff, Teilmengen
Definition 1.1 a) Unter einer Menge im mathematischen Sinne versteht man jede Zu”
sammenfassung M von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder
unseres Denkens (welche Elemente von M genannt werden) zu einem Ganzen.“ 1
Wir schreiben x ∈ M , falls x Element von M ist, ansonsten x 6∈ M (auch: M 3 x, M 63 x).
Zwei Mengen sind genau dann gleich, wenn sie dieselben Elemente enthalten:
M =N
⇔
Für alle x gilt: (x ∈ M ⇔ x ∈ N ).
Ist E(x) eine Eigenschaft, die für bestimmte Objekte x zutreffen oder nicht zutreffen kann,
so setzen wir
M = {x|E(x)} ⇔ Für alle x gilt: (x ∈ M ⇔ E(x)).
M = {x|E(x)} ist die Menge aller x, für die gilt E(x)“.
”
b) M heißt endliche Menge in den folgenden Fällen:
ˆ Für alle x gilt x 6∈ M ; wir setzen dann M =: ∅ (leere Menge);
ˆ M = {a} := {x|x = a} für ein Objekt a (einelementige Menge);
ˆ M = {a1 , . . . , an } := {x|x = a1 oder . . . oder x = an } für gewisse Objekte a1 , . . . , an 2 .
Hierbei ist |M | mit |∅| := 0, |{a}| := 1, |{a1 , . . . , an }| := n (mit ai 6= aj für alle Indexzahlen
i, j) die Anzahl der Elemente von M .
c) Ist M keine endliche Menge, so ist M unendlich. M heißt abzählbar unendlich,
wenn es eine Folge a1 , a2 , a3 , . . . von Objekten gibt mit M = {a1 , a2 , a3 , . . . } := {x|Es gibt
ein i ∈ N∗ mit x = ai }.
Bemerkung 1.1 Mengen können auch andere Mengen als Elemente enthalten, etwa M =
{∅, {∅}}. Es darf aber keine unendliche absteigende Elementbeziehung geben, etwa M1 3
M2 3 M3 3 . . . Insbesondere kann eine Menge nicht sich selbst als Element enthalten.3
Beispiel 1.1 Für M1 := {2; 3; 5; 7}, M2 := {5; 3; 7; 2} und M3 := {3; 3; 5; 2; 7; 2; 2} gilt offenbar M1 = M2 und M1 = M3 (und natürlich M2 = M3 ), da alle diese Mengen genau die
Elemente 2, 3, 5 und 7 enthalten. Auf die Reihenfolge der Aufzählung und eine Mehrfachnennung von Elementen kommt es also nicht an. Offenbar gilt auch
M1 = {x|x ist Primzahl und x ≤ 10}.
Beispiel 1.2 Bekannt sind die Zahlenmengen:
ˆ N := {0; 1; 2; 3; . . . }
(Menge der natürlichen Zahlen),
1
Nach Georg Cantor (1845–1918), dem Begründer der Mengenlehre.
Bei Aufzählungen von Zahlen bevorzugen wir das Semikolon als Trennzeichen, um Verwechslungen mit
Dezimalbrüchen zu vermeiden.
3
Sonst würden sich Widersprüche wie die Russell’sche Antinomie“ ergeben: Für die Menge M :=
”
{X|X 6∈ X} ( Menge aller Mengen, die sich nicht selbst als Element enthalten“) würde aus M 6∈ M folgen
”
M ∈ M , daraus aber wiederum M 6∈ M , was einen Widerspruch ergibt.
2
2
ˆ N∗ := {1; 2; 3; . . . }
(Menge der positiven natürlichen Zahlen),
ˆ Z := {n|n ∈ N oder −n ∈ N}
∗
ˆ Q := { m
n |m ∈ Z, n ∈ N }
(Menge der ganzen Zahlen),
(Menge der rationalen Zahlen).
Die Menge der reellen Zahlen R, die schwieriger zu charakterisieren ist, setzen wir ebenfalls
als bekannt voraus. Näheres zu diesen Zahlenmengen im Skript Zahlenbereiche.
Die Mengen der natürlichen, ganzen und rationalen Zahlen sind abzählbar unendlich, die
der reellen Zahlen hingegen überabzählbar“.
”
Definition 1.2 Es seien M und N zwei Mengen. M heißt Teilmenge von N (M ⊆ N ),
wenn jedes Element von M auch Element von N ist, d. h. wenn gilt:
M ⊆N
⇔
Für alle x gilt: (x ∈ M ⇒ x ∈ N ).
Beispiel 1.3 Die Menge {1; 2; 3} besitzt genau die folgenden acht Teilmengen: ∅, {1}, {2},
{3}, {1; 2}, {1; 3}, {2; 3}, {1; 2; 3}.
Satz 1.1 Für Mengen M, N, P gilt:
a) ∅ ⊆ M , M ⊆ M ;
b) aus M ⊆ N und N ⊆ M folgt M = N
c) aus M ⊆ N und N ⊆ P folgt M ⊆ P
(Antisymmetrie);
(Transitivität).
Satz 1.2 a) Ist N endlich und M ⊆ N , so ist auch M endlich, und es ist |M | ≤ |N |.
b) Ist N endlich und gilt M ⊆ N , so folgt: |M | = |N | ⇔ M = N .
1.2
Verknüpfung von Mengen
Definition 1.3 Es seien M und N zwei Mengen. Dann heißen:
a) M ∩ N := {x|x ∈ M und x ∈ N } (M geschnitten mit N ) die Schnittmenge von M
und N ,
b) M ∪ N := {x|x ∈ M oder x ∈ N } (M vereinigt mit N ) die Vereinigungsmenge von
M und N ,
c) M \ N := {x|x ∈ M und x 6∈ N } (M vermindert um N oder M ohne N ) die Differenzmenge von M und N .
d) M und N heißen disjunkt, wenn ihre Schnittmenge leer ist (M ∩ N = ∅).
Beispiel 1.4 Für M := {1; 3; 4; 5} und N := {2; 5} gilt: M ∩N = {5}, M ∪N = {1; 2; 3; 4; 5},
M \ N = {1; 3; 4}, N \ M = {2}.
Für M , N und P := {3; 4} gilt: M ∩ P = P , M ∪ P = M , P \ M = ∅, N ∩ P = ∅ (d. h. N
und P sind disjunkt).
3
Satz 1.3 (Rechenregeln) Für Mengen M, N, P gilt:
a) M ∩ M = M,
M ∪M =M
b) M ∩ N = N ∩ M
und M \ M = ∅,
und M ∪ N = N ∪ M
c) (M ∩ N ) ∩ P = M ∩ (N ∩ P )
und
(M ∪ N ) ∪ P = M ∪ (N ∪ P )
d) M ∩ (N ∪ P ) = (M ∩ N ) ∪ (M ∩ P )
(Distributivität);
e) M \ (N ∩ P ) = (M \ N ) ∪ (M \ P )
(Kommutativität);
(Assoziativität);
und M ∪ (N ∩ P ) = (M ∪ N ) ∩ (M ∪ P )
und M \ (N ∪ P ) = (M \ N ) ∩ (M \ P );
f) M ⊆ N ⇔ M ∩ N = M ⇔ M ∪ N = N ⇔ M \ N = ∅.
Beweisskizze: Wir verzichten auf exakte Beweise und veranschaulichen uns die Sachverhalte durch Kreisdiagramme wie etwa:
'$
'$
2 3 N
M 1'$
5
4&%
6
&%
7
&%
P
Hier ist offenbar M = {1; 2; 4; 5} und N ∩ P = {5; 6}. Also ist M \ (N ∩ P ) = {1; 2; 4}.
Andererseits ist M \ N = {1; 4} und M \ P = {1; 2}, also (M \ N ) ∪ (M \ P ) = {1; 2; 4}. Damit
wäre die erste Gleichung von e) an diesem Beispiel gezeigt, das man durchaus auf beliebige
Mengen verallgemeinern kann. Auf diese Weise kann man sich auch die anderen Gleichungen
veranschaulichen.
1.3
n-Tupel und direkte Produkte
Definition 1.4 Für die Objekte a1 , a2 bezeichnen wir den Ausdruck (a1 , a2 ) als geordnetes
Paar4 und ferner
ˆ (a1 , a2 , a3 ) := ((a1 , a2 ), a3 ) als Tripel,
ˆ (a1 , a2 , a3 , a4 ) := ((a1 , a2 , a3 ), a4 ) als Quadrupel und
ˆ (a1 , . . . , an−1 , an ) := ((a1 , . . . , an−1 ), an ) (induktiv) als n-Tupel.
Die a1 , . . . , an heißen Komponenten des n-Tupels. Dabei gilt: Zwei n-Tupel sind genau dann
gleich, wenn sie in den jeweiligen Komponenten übereinstimmen:
(a1 , a2 , . . . , an ) = (b1 , b2 , . . . , bn )
⇔
a1 = b1 , a2 = b2 , . . . , an = bn .
Beispiel 1.5 Anders als bei Mengen gilt also (1; 2) 6= (2; 1) und erst recht (2; 4) 6= (4; 2; 2; 4).
4
Man kann etwa setzen (a1 , a2 ) := {a1 , {a1 , a2 }} und den Ausdruck so auf den bekannten Mengenbegiff
zurückführen. Für die Anwendung hat dies aber keine Bedeutung.
4
Definition 1.5 a) Es sei n ≥ 2, und M1 , M2 , . . . , Mn seien nichtleere Mengen. Dann ist das
direkte Produkt M1 × M2 × · · · × Mn definiert als die Menge aller n-Tupel, deren erste
Komponente Element von M1 , deren zweite Komponente Element von M2 usw., schließlich
deren n-te Komponente Element von Mn ist:
M1 × M2 × · · · × Mn := {(x1 , x2 , . . . , xn )| x1 ∈ M1 , x2 ∈ M2 , . . . , xn ∈ Mn }.
b) Für n ≥ 2 setzen wir M n := M
· · × M} .
| × ·{z
n-mal die Menge M
Beispiel 1.6 Es seien M = {1; 2; 3; 4; 5; 6} und N = {K; Z}. Dann gilt:
ˆ M × N = {(1, K), (1, Z), (2, K), (2, Z), (3, K), (3, Z), (4, K), (4, Z), (5, K), (5, Z), (6, K),
(6, Z)},
ˆ M 2 = M ×M = {(1; 1), (1; 2), (1; 3), (1; 4), (1; 5), (1; 6), (2; 1), . . . , (2; 6), (3; 1), . . . , (3; 6),
(4; 1), . . . , (4; 6), (5; 1), . . . , (5; 6), (6; 1), . . . , (6; 6)} (36 Elemente),
ˆ N 3 = {KKK, KKZ, KZK, KZZ, ZKK, ZKZ, ZZK, ZZZ} (wir schreiben kurz
KKK für (K, K, K) usw.).
Satz 1.4 (Rechenregeln) Für Mengen M, N, P, Q gilt:
a) M ⊆ P, N ⊆ Q ⇔ M × N ⊆ P × Q,
b) (M ∪ N ) × P = (M × P ) ∪ (N × P ) und (M ∩ N ) × P = (M × P ) ∩ (N × P ),
c) M × N = ∅ ⇔ M = ∅ oder N = ∅.
Beweis zu a): ⇒“: z ∈ M × N ⇒ z = (x; y) mit x ∈ M, y ∈ N ⇒ z = (x; y) mit
”
x ∈ P, y ∈ Q ⇒ z ∈ P × Q. Also ist M × N ⊆ P × Q.
⇐“: x ∈ M, y ∈ N ⇒ (x, y) ∈ M × N ⇒ (x, y) ∈ P × Q ⇒ x ∈ P, y ∈ Q. Also ist
”
M ⊆ P, N ⊆ Q.
Bemerkung 1.2 Ist M 6= N (und beide 6= ∅), so folgt M × N 6= N × M .
5
2
Zufallsexperiment und Wahrscheinlichkeit
2.1
Zufallsexperimente, Ergebnisse, Ereignisse
Definition 2.1 Versuche, deren Ausgang nicht vorhersehbar ist, deren mögliche Ausgänge
man aber in einer Menge zusammenfassen kann, nennt man Zufallsexperimente. Die möglichen Ausgänge eines Zufallsexperimentes werden auch als Ergebnisse bezeichnet. Die Menge
aller Ergebnisse wird als Ergebnisraum oder Ergebnismenge des Zufallsexperimentes bezeichnet und als Ω geschrieben.
Beispiel 2.1 a) Ein Würfel wird einmal geworfen: Ω = {1; 2; 3; 4; 5; 6}.
b) Ein Würfel wird zweimal geworfen. Das Ergebnis wird als geordnetes Paar angegeben.
(5, 3) bedeutet etwa: Der erste Wurf ergab 5, der zweite 3. Damit ist Ω = {1; 2; 3; 4; 5; 6}2 =
{(1; 1), (1; 2), (1; 3), (1; 4), (1; 5), (1; 6), (2; 1), (2; 2), . . . , (6; 5), (6; 6)}.
c) Eine Münze wird geworfen: Ω = {Kopf, Zahl}.
d) Eine Roulettekugel fällt in ein Feld der Rouletteschüssel: Ω = {0; 1; 2; . . . ; 36}.
e) Eine Reißzwecke wird einmal geworfen. Sie kann auf dem Kopf oder auf der Spitze
landen: Ω = {⊥; h}
f) Aus einer Trommel werden sechs von 49 nummerierten Kugeln gezogen, die dann nach
der Größe der Zahlen geordnet werden: Ω = {(n1 , n2 , n3 , n4 , n5 , n6 )|1 ≤ n1 < n2 < · · · <
n6 ≤ 49}.
g) Bei einem Fußballspiel interessiert man sich nicht für das Torverhältnis am Ende, sondern nur, ob die eigene Mannschaft gesiegt oder verloren hat oder ob es ein Unentschieden
gab: Ω = {Sieg; Niederlage; Unentschieden}.
h) Eine Oberstufenklausur wird geschrieben und benotet: Ω = {0; 1; 2; . . . ; 15}.
i) Ein Würfel wird so lange geworfen, bis eine Sechs fällt. Das Ergebnis ist die Anzahl der
Würfe. Diese Zahl ist theoretisch unbeschränkt, d. h. es ist Ω = N∗ .
j) Ein 1 Meter langer Draht wird an den beiden Enden A und B gezogen, bis er reißt.
Das Ergebnis ist der Abstand der Rissstelle vom Ende A in Metern. Damit gibt es eine
kontinuierliche Ergebnismenge, nämlich das Intervall [0; 1].
Definition 2.2 Die Teilmengen eines Ergebnisraumes nennt man Ereignisse5 . Ein Ereignis,
das nur ein einziges Ergebnis enthält, heißt Elementarereignis.
Beispiel 2.2 a) Ein Würfel wird einmal geworfen. E sei das Ereignis gerade Zahl geworfen“.
”
Dann ist E = {2; 4; 6}.
b) Beim Münzwurf (Ω = {K; Z}) gibt es die Ereignisse Ω, {K}, {Z}, ∅.
5
Bei bestimmten (unendlichen) Ergebnisräumen (etwa bei Beispiel 2.1 j)) können nur bestimmte Teilmengen
als Ereignisse betrachtet werden. Das spielt für uns aber keine Rolle, da wir nur Zufallsexperimente mit
endlichen Ergebnisräumen betrachten.
6
Definition 2.3 E1 , E2 ⊆ Ω seien Ereignisse eines Zufallsexperiments.
a) Das Ereignis E1 ∪ E2 : E1 oder E2 tritt ein“ heißt Vereinigung von E1 und E2 .
”
b) Das Ereignis E1 ∩ E2 : E1 und E2 treten ein“ heißt Schnitt oder Durchschnitt von
”
E1 und E2 .
c) E1 und E2 heißen unvereinbar, wenn gilt E1 ∩ E2 = ∅.
Beispiel 2.3 Beim zweifachen Werfen eines Würfels betrachten wir die Ereignisse:
ˆ E1 : Pasch geworfen, d. h. E1 = {(1; 1), (2; 2), (3; 3), (4; 4), (5; 5), (6; 6)}.
ˆ E2 : Augensumme 6 geworfen, d. h. E2 = {(1; 5), (2; 4), (3; 3), (4; 2), (5; 1)}.
Dann ist E1 ∩ E2 = {(3; 3)} (Pasch und Augensumme 6 geworfen) und
E1 ∪ E2 = {(1; 1), (2; 2), (3; 3), (4; 4), (5; 5), (6; 6), (1; 5), (2; 4), (4; 2), (5; 1)}
(Pasch oder Augensumme 6 geworfen).
2.2
Häufigkeiten und Wahrscheinlichkeit
Definition 2.4 Gegeben ist ein Zufallsexperiment, das n-mal unter gleichen Bedingungen
wiederholt wird. E sei ein Ereignis des Zufallsexperiments. Dann nennt man die Zahl an (E)
der Versuche, bei denen E eingetreten ist, die absolute Häufigkeit von E und den Quotienten
an (E)
rn (E) :=
n
die relative Häufigkeit von E.
Satz 2.1 Es sei Ω die Ergebnismenge des Zufallsexperiments, n die Zahl der Durchführungen
und E = {e1 , e2 , . . . , ek } ⊆ Ω sei ein Ereignis mit |E| = k. Dann gilt:
a) an (Ω) = n, an (∅) = 0,
0 ≤ an (E) ≤ n, an (E) = an (e1 ) + an (e2 ) + · · · + an (ek );
b) rn (Ω) = 1,
0 ≤ rn (E) ≤ 1, rn (E) = rn (e1 ) + rn (e2 ) + · · · + rn (ek ).
rn (∅) = 0,
Beispiel 2.4 10 Personen lassen je 50-mal eine Reißzwecke fallen und zählen, wie oft diese
auf den Kopf gefallen ist ( ⊥“). Die Häufigkeiten dieses Ereignisses werden in der folgenden
”
Tabelle dargestellt:
Zahl der Versuche
abs. Häufigkeit von ⊥“
”
rel. Häufigkeit von ⊥“
”
50
34
0,68
50
26
0,52
50
25
0,5
50
27
0,54
50
29
0,58
50
33
0,66
50
22
0,44
50
26
0,52
50
32
0,64
50
30
0,6
Die Häufigkeiten gehen noch weit auseinander (von 22 bis 34 bzw. 44 % bis 68 %). Zählen
wir nach jeder Versuchsreihe die Zahl der Kopf-Würfe zu der bisherigen Anzahl hinzu und
berechnen dann die relative Häufigkeit, so ändert sich diese am Ende nur noch geringfügig:
Zahl der Versuche
abs. Häufigkeit von ⊥“
”
rel. Häufigkeit von ⊥“
”
50
34
0,68
100
60
0,60
150
85
0,57
200
112
0,56
7
250
141
0,564
300
174
0,58
350
196
0,56
400
222
0,555
450
254
0,564
500
284
0,568
Von n = 450 auf n = 500 ist also nur noch eine Änderung der relativen Häufigkeit
von 0,004 festzustellen. Man kann daher annehmen, dass sich bei weiteren Versuchsreihen die
relative Häufigkeit für ⊥“ zwischen 56 und 57 % einpendeln“ wird. (Eine Wiederholung des
”
”
Versuchs bringt eine absolute Häufigkeit von 29+25+31+24+32+30+31+28+22+29 = 281,
also eine relative Häufigkeit von 56,2 %.)
Erhöht man die Zahl der Versuche auf etwa 10.000 oder 100.000, werden die Abweichungen
der relativen Häufigkeiten noch geringer. Die relative Häufigkeit, die bei hinreichend großer
Anzahl von Versuchen als stabiler Wert erreicht wird, nennt man dann die Wahrscheinlich”
keit“ für das Ereignis Die Reißzwecke landet auf dem Kopf“.
”
Bemerkung 2.1 Wir machen folgende Annahme: Ist E ein Ereignis eines beliebig oft wiederholbaren Zufallsexperiments, so ist die bei unendlicher“ Durchführung sich ergebende
”
Folge der relativen Häufigkeiten (rn (E))n∈N∗ gegen einen Wert p ∈ [0; 1] konvergent:
lim rn (E) = p.
n→∞
Dieser Sachverhalt wird als empirisches Gesetz der großen Zahlen6 bezeichnet. Dabei
handelt es sich nicht um einen mathematischen Satz, da die Folge (rn ) nicht mathematisch
definiert, sondern durch reelle Versuche gewonnen wird. Wie sich Münzen, Würfel oder Reißzwecken tatsächlich verhalten, ist nicht Gegenstand der Mathematik, sondern der Physik. ein
mathematischer Beweis ist daher nicht möglich. Allerdings wird in Kapitel 5.5 eine etwas
schwächere Aussage (Satz 5.10) auf der Grundlage der mathematischen Theorie bewiesen.
Der Wert p wird (empirische) Wahrscheinlichkeit des Ereignisses E genannt.
Schreibweise: P (E) := p.
Beispiel 2.5 Bei Wettervorhersagen werden zuweilen Wahrscheinlichkeitsaussagen gemacht,
etwa Die Wahrscheinlichkeit, dass es morgen regnet, beträgt 30 Prozent“. Damit ist nicht
”
gemeint, dass es an 30 % des Tageslaufs oder über 30 % des Gebietes, auf das sich die
Vorhersage bezieht, regnen wird. Vielmehr ist die Aussage so zu verstehen: Es regnet in 30 %
der Fälle, in denen am Vortag entsprechende meteorologische Bedingungen (Temperatur,
Luftdruck und -feuchtigkeit, Wind usw.) gegeben sind. Da man solche Bedingungen aber
nicht beliebig reproduzieren kann, sind derartige Aussagen allerdings kaum nachprüfbar.
Beispiel 2.6 Auch beim Würfeln kann man eine Versuchsreihe ähnlich wie bei Beispiel 2.4
(etwa zur näherungsweisen Bestimmung von P ({6}): Wahrscheinlichkeit, eine Sechs zu werfen) durchführen. Durch den symmetrischen Aufbau eines Würfels liegt jedoch die Annahme nahe, dass bei einer großen Zahl von Würfen jede Augenzahl annähernd gleich häufig
auftaucht und somit rund jeder sechste Wurf eine Sechs ergibt: rn ({6}) ≈ 16 . Wir gehen daher davon aus, dass jedes Ergebnis die gleiche Wahrscheinlichkeit hat und dass gilt
P ({1}) = P ({2}) = · · · = P ({6}) = 61 (s. u. Kapitel 2.4 über Laplace-Experimente).
2.3
Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung
Bemerkung 2.2 Die Bestimmung von Wahrscheinlichkeiten durch praktische Versuche
gehört nicht zur Wahrscheinlichkeitsrechnung, sondern zur Statistik, dem anderen Teilgebiet der Stochastik. In der Wahrscheinlichkeitsrechnung werden Modelle zur Bestimmung
von Wahrscheinlichkeiten von Ereignissen aufgrund bestimmter Annahmen aufgestellt, zum
Beispiel:
6
empirisch = durch Erfahrung gewonnen (griech.)
8
ˆ Wie groß ist die Wahrscheinlichkeit, beim dreimaligen Würfeln mindestens eine Drei zu
werfen, wenn man annimmt, dass die Wahrscheinlichkeit beim einmaligen Werfen für
jede Augenzahl gleich ist?
ˆ In einem Behälter ( Urne“) liegen zwei rote und zwei schwarze Kugeln. Nacheinander
”
werden zwei Kugeln ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit,
dass die roten Kugeln gezogen werden unter der Annahme, dass das Ziehen jeder Kugel
in der Urne gleich wahrscheinlich ist?
ˆ Die Wahrscheinlichkeit, dass ein an der Krankheit X erkrankter Patient durch die Einnahme von Medikament Y geheilt wird, beträgt 0,7 (70 %). Wie groß ist die Wahrscheinlichkeit, dass von fünf Patienten, die das Medikament einnehmen, alle geheilt
werden?
In allen diesen Fällen sind Grundwahrscheinlichkeiten“ gegeben, aus denen Wahrschein”
lichkeiten für kompliziertere Ereignisse“ berechnet werden sollen. Ob die Grundannahmen
”
(etwa die Annahme, dass der Würfel nicht gezinkt ist) tatsächlich mit der Realität übereinstimmt, ist keine Frage der Wahrscheinlichkeitsrechnung, sondern der Statistik.
Es sollen also Rechenregeln aufgestellt werden, mit denen Wahrscheinlichkeiten ermittelt werden. Hierzu ordnet zunächst die Wahrscheinlichkeitsfunktion“ jedem Ereignis eines
”
Zufallsexperiments eine Maßzahl zwischen 0 und 1 zu, wobei diese Zahl desto größer ist, je
wahrscheinlicher“ das Ereignis ist (somit soll 1 für das sichere Eintreten, 0 für die Unmöglich”
keit des Ereignisses stehen).
Definition 2.5 Es sei E die Menge der Ereignisse eines Zufallsexperiments (d. h. in den uns
betreffenden Fällen ist E = {E|E ⊆ Ω}). Eine Funktion P : E → R heißt Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsmaß, wenn gilt:
(K1) Für alle E ∈ E gilt P (E) ≥ 0,
(K2) P (Ω) = 1,
(K3) aus E1 ∩ E2 = ∅ folgt P (E1 ∪ E2 ) = P (E1 ) + P (E2 ).
P (E) wird Wahrscheinlichkeit des Ereignisses E genannt.
Bemerkung 2.3 Die Forderungen (K1) bis (K3), die an die Wahrscheinlichkeitsfunktion
gestellt werden, werden Kolmogorow-Axiome genannt7 .
Beispiel 2.7 Bezogen auf das Experiment einmal würfeln“ besagt (K2), dass mit Sicherheit
”
(mit Wahrscheinlichkeit 1) eine der Zahlen 1 bis 6 geworfen wird. (K3) besagt: Schließen zwei
Ereignisse sich aus (beispielsweise: E1 : gerade Zahl geworfen, E2 : 1 geworfen), so ist die
Wahrscheinlichkeit für deren Vereinigung (E1 ∪ E2 : gerade Zahl oder 1 geworfen) gleich der
Summe der Einzelwahrscheinlichkeiten (P (E1 ∪ E2 ) = 36 + 16 = 46 = 23 ).
Satz 2.2 (Rechenregeln) Für eine Wahrscheinlichkeitsfunktion P bezüglich eines Ereignisraumes Ω gilt:
a) P (∅) = 0,
b) E1 ⊆ E2 ⇒ P (E1 ) ≤ P (E2 ),
c) 0 ≤ P (E) ≤ 1.
7
Alexej Nikolajewitsch Kolmogorow, russischer Mathematiker (1903–1987).
9
Beweis: Zu a): ∅ ∩ Ω = ∅, ∅ ∪ Ω = Ω
(K3)
⇒ 1 = P (Ω) = P (∅ ∪ Ω) = P (∅) + P (Ω) = P (∅) + 1 ⇒ P (∅) = 0.
Zu b): Aus E1 ⊆ E2 folgt E2 = E1 ∪ (E2 \ E1 ) mit E1 ∩ (E2 \ E1 ) = ∅
(K3)
⇒ P (E2 ) = P (E1 ∪ (E2 \ E1 )) = P (E1 ) + P (E2 \ E1 )
P (E2 \ E1 ) ≥ 0
≥
P (E1 ).
b)
Zu c): 0 ≤ P (E) nach (K1). E ⊆ Ω ⇒ P (E) ≤ P (Ω) = 1.
Bemerkung 2.4 Ist Ω eine endliche Menge, so kann man jedem Elementarereignis eine
Wahrscheinlichkeit zuordnen, wobei die Summe dieser Einzelwahrscheinlichkeiten gleich 1
sein muss8 .
Beispiel 2.8 Wir betrachten das folgende Glücksrad:
'$
b
b4 1
3 bb
2
&%
Durch das Drehen des Rades wird eine Zahl ausgelost (Ω = {1; 2; 3; 4}). Da die Kreissektoren unterschiedlich groß sind, dürften die Ergebnisse verschieden häufig vorkommen, d. h.
die Wahrscheinlichkeiten der Ereignisse sind nicht gleich, sondern proportional zur Größe des
Kreisausschnitts. So kann man P (1) = 31 setzen, da der zugehörige Sektor einen Drittel der
Kreisfläche ausmacht und so fort, so dass wir erhalten
P (1) = 13 ,
P (2) = 14 ,
P (3) = 14 ,
P (4) = 16 .
Um die Wahrscheinlichkeit des Ereignisses E: gerade Zahl ausgelost“ zu ermitteln, sind die
”
Wahrscheinlichkeiten der zugehörigen Ergebnisse (E = {2; 4}) zu addieren, und wir erhalten
P (E) = P (2) + P (4) =
1
4
+
1
6
=
5
12 .
Wegen P (Ω) = 1 muss die Summer aller Einzelwahrscheinlichkeiten 1 ergeben, was auch der
Fall ist.
Definition 2.6 Gegeben ist ein Zufallsexperiment mit dem endlichen Ergebnisraum Ω =
{e1 , . . . , em }. Ferner sei P : Ω → R eine Funktion, die jedem Ergebnis ei eine Zahl P (Ei ) = pi
zuordnet, d. h. es gilt
P (e1 ) = p1 , . . . , P (em ) = pm .
P heißt (endliche) Wahrscheinlichkeitsverteilung, wenn gilt
(WV1) p1 ≥ 0, . . . , pm ≥ 0 und
(WV2) p1 + · · · + pm = 1.
8
Ω kann auch abzählbar unendlich“ sein, etwa Ω = N wie in Beispiel 2.1 h). Dann wäre 1 der Grenzwert der
”
konvergenten Reihe der Einzelwahrscheinlichkeiten. Diese Fälle werden aber im Folgenden nicht berücksichtigt,
da wir es nur mit endlichen Ergebnisräumen zu tun haben werden.
10
Satz 2.3 Gegeben sei ein Zufallsexperiment mit dem Ergebnisraum Ω = {e1 , . . . , em } und
der Wahrscheinlichkeitsverteilung P . Dann lässt sich P eindeutig auf eine Wahrscheinlichkeitsfunktion im Sinne von Definition 1 erweitern, nämlich, indem man für ein beliebiges
Ergebnis E ⊆ Ω setzt:
P

P (e), falls E 6= ∅,
P (E) = e∈E
0,
falls E = ∅.
Das bedeutet: Die Wahrscheinlichkeit eines Ereignisses E wird gleich der Summe der Wahrscheinlichkeiten der für E günstigen Ergebnisse gesetzt.
Beweis: Es ist zu zeigen, dass die Bedingungen (K1) bis (K3) erfüllt sind.
ˆ Zu (K1): Wegen (WV1) werden nichtnegative Zahlen addiert, also ist P (E) ≥ 0.
ˆ Zu (K2): P (Ω) = P (e1 ) + · · · + P (em )
(WV2)
=
1.
ˆ Zu (K3): Es sei E1 ∩E2 = ∅. Dann gilt für jedes Ergebnis
e ∈ EP
1 ∪E2 , dass es entweder in
P
E1 oder in E2 vorkommt. Damit ist P (E1 ∪E2 ) =
P (e)+
P (e) = P (E1 )+P (E2 ).
e∈E1
e∈E2
Andererseits folgt aus (K3) für ein zweielementiges Ereignis etwa P (e1 , e2 ) = P (e1 ) + P (e2 )
wegen {e1 }∩{e2 } = ∅. Man erkennt induktiv, dass eine andere Festlegung des P -Wertes eines
mehrelementigen Ereignisses als durch Summenbildung nicht möglich ist.
Bemerkung 2.5 Da man eine Wahrscheinlichkeitsverteilung P (mit einem Ergebnis e ∈ Ω
als Argument) auf diese Weise zu einer Wahrscheinlichkeitsfunktion P (mit einem Ereignis
E ⊆ Ω als Argument) erweitern kann, unterscheiden wir nicht streng zwischen einem Ergebnis
e und einem Elementarereignis {e}, d. h. wir setzen P (e) = P ({e}) und schreiben auch bei
mehrelementigen Mengen kurz P (e1 , . . . , ek ) für P ({e1 , . . . , ek }).
2.4
Laplace-Experimente
P steht im Folgenden für eine Wahrscheinlichkeitsfunktion.
Definition 2.7 Ein Zufallsexperiment mit einer endlichen Ergebnismenge heißt LaplaceExperiment9 , wenn alle Ergebnisse dieselbe Wahrscheinlichkeit besitzen.
Beispiel 2.9 Zu den Laplace-Experimenten zählen wir:
ˆ das Werfen eines (normalen) Würfels,
ˆ das Werfen einer Münze,
ˆ das Losen einer Zahl mit einer Roulette-Schüssel,
ˆ das Ziehen einer Skatkarte aus dem Kartenstapel,
ˆ das Entnehmen einer von mehreren unterscheidbaren Kugeln aus einer Urne,
ˆ das Drehen eines Glücksrades mit gleich großen Sektoren.
9
Pierre Simon de Laplace, französ. Mathematiker und Astronom, 1749–1827.
11
Beim Würfel und bei der Münze können wir von der Gleichwahrscheinlichkeit der Ergebnisse
ausgehen, da es sich um symmetrische Körper handelt. Bei der Rouletteschüssel sind alle Felder gleich groß, weshalb die Kugel in jedes Feld gleich häufig fallen wird. Fallen solche Symmetrieeigenschaften weg, kann man nicht mehr vom Vorliegen eines Laplace-Experimentes
ausgehen, etwa in folgenden Fällen:
ˆ Werfen eines gezinkten“ Würfels (Schwerpunkt liegt nicht in der Mitte, oder der Würfel
”
ist ist in Wirklichkeit nicht würfelförmig),
ˆ Werfen einer Reißzwecke (vgl. Beispiel 2.1 e)),
ˆ Drehen eines Glücksrades mit unterschiedlich großen Sektoren (vgl. Beispiel 2.8).
Satz 2.4 Für ein Laplace-Experiment mit Ergebnisraum Ω gilt:
a) P (e) =
b) P (E) =
1
|Ω|
|E|
|Ω|
für jedes Ergebnis e ∈ Ω.
=
Anzahl der für E günstigen Ergebnisse
Anzahl aller möglichen Ergebnisse
für jedes Ereignis E ⊆ Ω.
Beweis: Es sei Ω = {e1 , . . . , em } mit m = |Ω|. Wir setzen p = P (e1 ) = · · · = P (em ). Dann
ist
1 = P (e1 ) · · · + P (em ) = p + · · · + p = mp ⇒ p =
1
m.
Für E = {ei1 , . . . , eik } ∈ Ω mit k = |E| gilt nach Satz 1
P (E) = P (ei1 ) + · · · + P (eik ) =
1
m
+ ··· +
1
m
=
k
m.
Beispiel 2.10 Beim zweimaligen Werfen eines Würfels soll die Wahrscheinlichkeit für das
Ereignis E: Augensumme 6 geworfen“ bestimmt werden. Es ist |Ω| = 36 nach Beispiel 2.1
”
b). Wir suchen die für E günstigen Ergebnisse heraus und erhalten
E = {(1; 5), (2; 4), (3; 3), (4; 2), (5; 1)}.
Damit ist |E| = 5, es folgt also
P (E) =
|E|
5
= .
|Ω|
36
Bemerkung 2.6 Man beachte, dass Satz 2.4 nur für Laplace-Experimente zutrifft! Bei Beispiel 2.8 kann er beispielsweise nicht angewandt werden.
2.5
Gegenereignis. Verknüpfung von Ereignissen
Beispiel 2.11 Ein Würfel wird dreimal geworfen. Dabei ist Ω = {(1; 1; 1), (1; 1; 2),
. . . , (6; 6; 6)} und |Ω| = 63 = 216. Gesucht ist die Wahrscheinlichkeit für E: Die Augensumme
ist größer als 4.
Würde man alle für E günstigen Ergebnisse aufzählen ((1,1,3), (1,1,4), . . . ), so wäre dies
aufgrund der großen Zahl sehr umständlich. Wesentlich einfacher ist es, die Ergebnisse zu
zählen, die nicht zu E gehören. Wir fassen sie zu E: Augensumme ist kleiner oder gleich 4“
”
zusammen. Es gilt
E = {(1; 1; 1), (1; 1; 2), (1; 2; 1), (2; 1; 1)},
212
also |E| = 4. Damit ist |E| = 216 − 4 = 212, also P (E) = 216
= 53
54 , da es sich um ein
4
1
Laplace-Experiment handelt. Man kann auch rechnen: P (E) = 1 − 216 = 1 − 54
= 53
54 .
12
Definition 2.8 E (sprich E quer“) mit E := Ω \ E: E tritt nicht ein“ heißt das Gegen”
”
ereignis zu E.
Satz 2.5 a) E = E,
E ∩ E = ∅,
E ∪ E = Ω,
E \ E = E,
b) E1 \ E2 = E1 ∩ E2 ,
c) E1 ∩ E2 = E1 ∪ E2 , E1 ∪ E2 = E1 ∩ E2 .
Beweis zu c): Satz 1.3 e) mit M = Ω.
Satz 2.6 Ist E ein Ereignis eines Zufallexperimentes, so gilt P (E) = 1 − P (E).
Beweis: Es gilt E ∩ E = ∅, woraus nach (K3) folgt P (E) + P (E) = P (E ∪ E) = P (Ω) = 1.
Beispiel 2.12 Ein Würfel wird zweimal geworfen (|Ω| = 36). Es soll die Wahrscheinlichkeit
des Ereignisses E: Mindestens eine Sechs geworfen“ ermittelt werden. Wir tun dies auf drei
”
Arten:
a) Es ist |E| = |{(1; 6), (2; 6), (3; 6), (4; 6), (5; 6), (6; 1), (6; 2), (6; 3), (6; 4), (6; 5), (6; 6)}| =
11. Da es sich um ein Laplace-Experiment handelt, folgt P (E) = 11
36 .
b) Man kann die Aufgabe auch mithilfe des Gegenereignisses E: Keine 6 wird geworfen“
”
lösen. Das ist zwar umfangreicher als E selbst, aber wir brauchen die Ergebnisse nicht einzeln
zu zählen, sondern stellen folgende Überlegung an: Wenn keine 6 geworfen wird, dann werden
bei beiden Würfen nur Zahlen von 1 bis 5 geworfen. Das sind genau 52 = 25 Möglichkeiten
25
11
und es ist daher P (E) = 25
36 und damit P (E) = 1 − 36 = 36 .
c) E trifft genau dann ein, wenn beim ersten oder beim zweiten Mal eine 6 geworfen wird.
Setzen wir
E1 : 1. Wurf 6, E2 : 2. Wurf 6,
so ist E die Vereinigung von E1 und E2 (vgl. Definition 2.1). Offenbar ist
P (E1 ) =
{(6,1);(6,2);(6,3);(6,4);(6,5);(6,6)}
|Ω|
=
6
36
und P (E2 ) =
{(1,6);(2,6);(3,6);(4,6);(5,6);(6,6)}
|Ω|
=
6
36 .
12
Nun könnte man meinen, es müsste gelten P (E) = P (E1 )+P (E2 ) = 36
= 26 . Dies würde aber
nicht nur den Ergebnissen oben widersprechen, sondern – bei konsequenter Weiterführung –
zu einem Widerspruch führen: Würde man dreimal würfeln, wäre die Wahrscheinlichkeit für
mindestens eine 6 gleich 36 , bei viermaligem Würfeln gleich 46 , beim fünfmaligem Würfeln
gleich 56 und bei sechsmaligem würfeln gleich 66 = 1, die 6 wäre dann also sicher. Das kann
aber nicht sein, denn es sind auch Ergebnisse ohne 6 möglich. eine Wahrscheinlichkeit von 76
beim siebenmaligen Würfeln kann erst recht nicht stimmen.
Der Fehler bei der Rechnung liegt darin, dass das Ergebnis (6,6) sowohl zu E1 als auch zu
E2 gehört und daher bei der Summe P (E1 ) + P (E2 ) doppelt gezählt wurde. Die zugehörige
6
6
1
Wahrscheinlichkeit muss also noch abgezogen werden, und es ist P (E) = 36
+ 36
− 36
= 11
36 .
Satz 2.7 Für zwei Ereignisse E1 , E2 eines Zufallsexperiments gilt
P (E1 ∪ E2 ) = P (E1 ) + P (E2 ) − P (E1 ∩ E2 ).
13
'$
'$
A
B
&%
E
E2
1 &%
Beweis: Wir setzen
A := E1 \ E2
und B := E1 ∩ E2
(vgl. Kreisdiagramm). Dann folgt
A ∩ E2 = (E1 \ E2 ) ∩ E2 = E1 ∩ E2 ∩ E2 = ∅
(nach den Sätzen 2.5 a), b) und 1.3 c)). Ferner ist E1 ∪ E2 = A ∪ E2 . Damit ist
(K3)
P (E1 ∪ E2 ) = P (A ∪ E2 ) = P (A) + P (E2 ).
Ferner ist A ∩ B = (E1 ∩ E2 ) ∩ (E1 ∩ E2 ) = ∅ und damit
P (A) + P (B)
(K2)
=
P (A ∪ B) = P ((E1 ∩ E2 ) ∪ (E1 ∩ E2 ))
=
P (E1 ∪ Ω) = P (E1 ).
Satz 1.3 d)
=
P (E1 ∩ (E2 ∪ E2 ))
Es ist also P (A) = P (E1 ) − P (E1 ∩ E2 ). Setzt man dies für P (A) in die Gleichung oben ein,
so ergibt sich die Behauptung.
Beispiel 2.13 Eine Karte wird aus einem Skatspiel gezogen. Es sei
E1 :
Bildkarte (Bube, Dame, König) gezogen“
”
und E2 :
Herz-Karte gezogen“.
”
12
Dann ist P (E1 ) = 32
(da es zu jeder der vier Farben drei Bildkarten gibt), P (E2 ) =
|{Herz-Bube; Herz-Dame; Herz-König}|
3
P (E1 ∩ E2 ) =
= 32
. Damit gilt
32
P (E1 ∪ E2 ) =
12
8
3
7
+
−
= .
32 32 32
32
14
8
32
und
3
Bedingte Wahrscheinlichkeiten
3.1
Der Begriff der bedingten Wahrscheinlichkeit
Beispiel 3.1 Eine Familie zieht in eine frei gewordene Wohnung eines Mietshauses ein. Die
Nachbarn haben mitbekommen, dass sie zwei Kinder hat. Wir interessieren uns für das Ereignis E: Mindestens eins der Kinder ist ein Mädchen. Es gibt die vier Möglichkeiten:
Ω = {JJ, JM, M J, M M },
wobei etwa JM kurz für erstes Kind ist ein Junge, zweites Kind ist ein Mädchen“ steht.
”
Wenn wir von einem Laplace-Experiment ausgehen, erhalten wir für E die Wahrscheinlichkeit
P (E) =
|{JM, M J, M M }|
3
= .
|Ω|
4
Angenommen, ein Nachbar hätte erfahren, dass mindestens ein Kind ein Junge ist (Ereignis B1 ). Dann verändert sich für ihn die Wahrscheinlichkeit für E, denn die Menge der
möglichen Ergebnisse ist nicht mehr Ω, da M M nicht mehr möglich ist, sondern nur noch
B1 = {JJ, JM, M J}. M M fällt aber auch als ein für E günstiges Ergebnis aus, da es nicht
zu B1 gehört. Die Menge der günstigen Ergebnisse ist nun der Schnitt von E und B1 . Damit
gilt für die Wahrscheinlichkeit für E unter der Bedingung B1“:
”
|E ∩ B1 |
|{JM, M J}|
2
PB1 (E) =
=
= .
|B1 |
|{JJ, JM, M J}|
3
Ein anderer Nachbar hat erfahren, dass das erste Kind ein Sohn ist (B2 ), weiß aber nichts
über das zweite Kind. Für ihn sieht die Rechnung folgendermaßen aus:
PB2 (E) =
|E ∩ B2 |
|{JM }|
1
=
= .
|B2 |
|{JJ, JM }|
2
Die bedingte“ Wahrscheinlichkeit für E hängt erstaunlicherweise auch davon ab, ob man
”
weiß, dass das erste und nicht nur irgendeins der Kinder ein Junge ist.
Definition 3.1 Sind E und B Ereignisse eines Zufallsexperiments und ist P (B) > 0, so heißt
PB (E) :=
P (E ∩ B)
P (B)
die bedingte Wahrscheinlichkeit von E unter (der Bedingung) B 10 .
Bemerkung 3.1 Bei einem Laplace-Experiment gilt
|{E ∩ B}|
,
|{B}|
PB (E) =
denn nach Satz 2.5 b) ist
10
|{E∩B}|
|{B}|
=
|{E∩B}|
|{Ω}|
|{B}|
|{Ω}|
=
P (E∩B)
P (B) .
Statt PB (E) gibt es auch die Schreibweise P (E|B).
15
Satz 3.1 Ist B ein Ereignis eines Zufallsexperiments mit P (B) > 0, so gelten
(K1) PB (E) ≥ 0, (K2) PB (Ω) = 1, (K3) E1 ∩ E2 = ∅ ⇒ PB (E1 ∪ E2 ) = PB (E1 ) + PB (E2 ),
d. h. PB ist eine Wahrscheinlichkeitsfunktion im Sinne von Definition 2.5.
Beweis: (K1) ist klar. Zu (K2): PB (Ω) = P P(Ω∩B)
(B) =
so auch (E1 ∩ B) ∩ (E2 ∩ B) = ∅. Damit folgt:
PB (E1 ∪ E2 )
=
(K3) zu P
=
=
P (B)
P (B)
= 1. Zu (K3): Gilt E1 ∩ E2 = ∅,
P ((E1 ∪ E2 ) ∩ B) Satz 1.3 d) P ((E1 ∩ B) ∪ (E2 ∩ B))
=
P (B)
P (B)
P (E1 ∩ B) P (E2 ∩ B)
P (E1 ∩ B) + P (E2 ∩ B)
=
+
P (B)
P (B)
P (B)
PB (E1 ) + PB (E2 ).
Satz 3.2 Ist B ein Ereignis eines Zufallsexperiments mit P (B) > 0, so gelten
PB (∅) = 0,
E1 ⊆ E2 ⇒ PB (E1 ) ≤ PB (E2 ),
PB (E) = 1 − PB (E),
0 ≤ PB (E) ≤ 1,
PB (E1 ∪ E2 ) = PB (E1 ) + PB (E2 ) − PB (E1 ∩ E2 ).
Beweis: Da PB Wahrscheinlichkeitsfunktion ist, gelten hierfür Satz 2.2, Satz 2.6 und
Satz 2.7.
3.2
Baumdiagramme und Pfadregeln
Beispiel 3.2 In einer Urne liegen drei rote (Ra, Rb, Rc) und zwei schwarze (Sa, Sb) Kugeln.
Es werden zwei Kugeln ohne Zurücklegen gezogen, so dass nicht zweimal dieselbe Kugel
gezogen werden kann.
a) Wir betrachten das Ereignis
E : Es werden zwei rote Kugeln gezogen.
Damit ist
E = {(Ra, Rb), (Ra, Rc), (Rb, Ra), (Rb, Rc), (Rc, Ra), (Rc, Rb)}
und
E = {(Ra, Sa), (Ra, Sb), (Rb, Sa), (Rb, Sb), (Rc, Sa), (Rc, Sb),
(Sa, Ra), (Sa, Rb), (Sa, Rc), (Sa, Sb), (Sb, Ra), (Sb, Rb), (Sb, Rc), (Sb, Sa)}.
Damit ist |Ω| = |E| + |E| = 6 + 14 = 20. Da es sich um ein Laplace-Experiment handelt,
können wir die Wahrscheinlichkeit für E nach Satz 2.5 bestimmen:
P (E) =
3
6
= .
20
10
Dieses Vorgehen ist allerdings etwas umständlich und spätestens dann nicht mehr praktikabel,
wenn es um größere Zahlen von Kugeln geht. Daher unterscheiden wir nicht mehr zwischen
gleichfarbigen Kugeln und definieren die Ereignisse:
16
R1 : erste gezogene Kugel rot,
R2 : zweite gezogene Kugel rot,
S1 : erste gezogene Kugel schwarz,
S2 : zweite gezogene Kugel schwarz.
Zunächst ziehen wir nur eine Kugel. Es gibt zwei Möglichkeiten, die wir mit den zugehörigen
Wahrscheinlichkeiten (P (R1 ) = 35 , P (S1 ) = 25 ) wie folgt darstellen:
u
P
PP
PP 25
PP
3
5
PP
PP
P
R1
S1
Ziehen wir die zweite Kugel, so hängt die Wahrscheinlichkeit, ob diese rot oder schwarz
ist, von der ersten gezogenen Kugel ab. War diese rot, so sind noch zwei rote und zwei
schwarze Kugeln in der Urne. Damit gilt PR1 (R2 ) = 24 und PR1 (S2 ) = 24 . War die erste Kugel
schwarz, so ergibt sich PS1 (R2 ) = 34 und PS1 (S2 ) = 14 . Erweitern wir das Baumdiagramm“
”
entsprechend, so ergibt sich:
u
PP
2
PP
PP 5
P
PP
PP
P
3
5
R
2
2
P1P
4
PP4
S
3
P1P 1
4
4
PP
PP
R2
S2
PP
R2
S2
Damit E erfüllt ist, müssen die erste und die zweite gezogene Kugel rot sein (E = R1 ∩R2 ).
Günstig ist hierfür nur der etwas dicker gezeichnete Pfad“. Er besteht aus zwei Zweigen, die
”
mit den Wahrscheinlichkeiten 35 und 24 versehen sind. Wie unten gezeigt wird (Multiplikationssatz bzw. 1. Pfadregel), ist die Wahrscheinlichkeit für E gleich dem Produkt dieser
Zweigwahrscheinlichkeiten:
P (E) = P (R1 ∩ R2 ) =
3
5
·
2
4
3
5
=
·
1
2
=
3
10 ,
was auch dem Ergebnis von oben entspricht.
Bemerkung 3.2 Eine graphische Darstellung wie in Beispiel 1 wird Baumdiagramm genannt. Vom Ausgangspunkt, der Wurzel, gehen mehrere Zweige aus, die zu Knotenpunkten führen und mit Zweigwahrscheinlichkeiten versehen sind. Von den Knotenpunkten
können wiederum Zweige ausgehen. Die Knotenpunkte am Ende der von einem Punkt ausgehenden Zweige stehen für Ereignisse, die unvereinbar sind und in der Vereinigung den
Ergebnisraum abdecken, etwa:
u
PPP
PP P (E1 )
P (E1 )
PP
PP
PP
P
E1
E1
PE1 (E2
) PPPPE1 (E2 )
E2
PP PE (E2 )
PE1 (E
2 )
P 1
PP
P
E2
E2
PP
P
E2
Die Zweige, die von der Wurzel abwärts zu einem Endpunkt führen, bilden einen Pfad.
Ein Pfad steht für den Schnitt der Ereignisse, deren Knotenpunkte passiert werden. Die
17
Wahrscheinlichkeit für diesen Schnitt heißt Pfadwahrscheinlichkeit. Von einem vierstufigen
Baumdiagramm sei hier nur ein Pfad mit Zweigwahrscheinlichkeiten dargestellt:
u
PP
P (E1 ) PP
PP
E
E1
1
P
P
PE1 (E2 )
PP
PP
E
E2
2
P
PP
P
PE1 ∩E2 (E3
) PP
E3
PP
PE1 ∩E2 ∩E3 (E
4 )
P
E4
E3
PP
P
E4
Dabei ist PE1 ∩E2 ∩E3 (E4 ) etwa die Wahrscheinlichkeit für E4 , nachdem E1 , E2 und E3
bereits eingetreten sind.
Satz 3.3 (Multiplikationssatz) Es seien E1 , E2 , . . . , En Ereignisse eines Zufallsexperiments.
a) Ist P (E1 ) > 0, so gilt P (E1 ∩ E2 ) = P (E1 ) · PE1 (E2 ).
b) Ist P (E1 ∩ · · · ∩ En−1 ) > 0, so gilt
P (E1 ∩ · · · ∩ En ) = P (E1 ) · PE1 (E2 ) · PE1 ∩E2 (E3 ) · . . . · PE1 ∩···∩En−1 (En ).
Beweis: Zu a): Nach Definition der bedingten Wahrscheinlichkeit gilt PE1 (E2 ) =
Multiplikation der Gleichung mit P (E1 ) liefert die Behauptung.
P (E1 ∩E2 )
P (E1 ) .
Bemerkung 3.3 Drückt man diesen Satz mit den Begriffen des Baumdiagramms aus, so
wird diese Aussage 1. Pfadregel genannt: Die Wahrscheinlichkeit eines Ereignisses, das
durch einen Pfad repräsentiert wird, ist gleich dem Produkt der zugehörigen Zweigwahrscheinlichkeiten.
Beispiel 3.2 (Fortsetzung) b) Zum selben Zufallsexperiment wollen wir die Wahrscheinlichkeit P (R2 ) berechnen, dass die zweite gezogene Kugel rot ist. Wir betrachten noch einmal
das Baumdiagramm (s. oben unter Beispiel 1 a)). Außer dem dick gezeichneten Pfad ist noch
der Pfad Wurzel–S1 –R2 günstig. Nach der 1. Pfadregel gilt
P (R1 ∩ R2 ) =
3
5
·
2
4
=
3
10
und P (S1 ∩ R2 ) =
2
5
·
3
4
=
3
10 .
Nun ist R2 = (R1 ∩ R2 ) ∪ (S1 ∩ R2 ) und (R1 ∩ R2 ) ∩ (S1 ∩ R2 ) = ∅, also ist
P (R2 ) =
3
10
+
3
10
= 35 .
Das Ergebnis ist auch einleuchtend, da jede der drei roten und zwei blauen Kugeln dieselbe
Chance“ hat, als zweite gezogen zu werden.
”
Satz 3.4 (Satz von der totalen Wahrscheinlichkeit) a) Sind B und E Ereignisse eines
Zufallsexperiments und ist 0 < P (B) < 1, so folgt
P (E) = P (B) · PB (E) + P (B) · PB (E).
18
b) Sind B1 , . . . , Bn unvereinbare Ereignisse eines Zufallsexperiments mit B1 ∪ · · · ∪ Bn = Ω
und P (Bi ) > 0 (1 ≤ i ≤ n), so gilt für jedes Ereignis E:
P (E) = P (B1 ) · PB1 (E) + · · · + P (Bn ) · PBn (E).
Beweis: Zu a): Es ist (B ∩ E) ∩ (B ∩ E) ⊆ B ∩ B = ∅, und daher ist
P (B) · PB (E) + P (B) · PB (E)
Satz 3.3
=
Satz 1.3 d)
=
(K3)
P (B ∩ E) + P (B ∩ E) = P ((B ∩ E) ∪ (B ∩ E))
P ((B ∪ B) ∩ E) = P (Ω ∩ E) = P (E).
Bemerkung 3.4 In Verallgemeinerung von Satz 3.4 stellen wir die 2. Pfadregel auf: Die
Wahrscheinlichkeit eines Ereignisses, für das mehrere Pfade eines Baumdiagramms günstig
sind, ist gleich der Summe der zugehörigen Pfadwahrscheinlichkeiten.
Beispiel 3.2 (Fortsetzung) c) Wir betrachten das Ereignis F : Beide gezogenen Kugeln haben
dieselbe Farbe. Dann gilt:
P (F ) = P (R1 ∩ R2 ) + P (B1 ∩ B2 ) =
3.3
3
5
·
2
4
+
2
5
·
1
4
=
8
20
= 25 .
Der Satz von Bayes
Beispiel 3.3 Es werden drei Urnen gefüllt:
ˆ Urne A mit 1 weißen und 5 schwarzen Kugeln,
ˆ Urne B mit 3 weißen und 3 schwarzen Kugeln und
ˆ Urne C mit 5 weißen und 1 schwarzen Kugel.
Anschließend wird eine der drei Urnen, deren Kugeln nicht sichtbar sind, zufällig ausgewählt.
Aus der Urne wird eine Kugel gezogen. Sie ist schwarz (Ereignis S). Wie groß ist jeweils die
Wahrscheinlichkeit, dass Urne A, B bzw. C gewählt wurde, d. h. wie groß sind PS (A), PS (B)
und PS (C)?
Zunächst gilt P (A) = P (B) = P (C) = 13 , da die Auswahl einer Urne als LaplaceExperiment anzusehen ist. Man spricht hier von A-priori-Wahrscheinlichkeiten“ (lat. a priori:
”
von vornherein), da es die Wahrscheinlichkeiten vor dem Ziehen einer Kugel sind. Nach dem
Ziehen der schwarzen Kugel nehmen wir an, dass die Wahrscheinlichkeit für Urne A gestiegen
ist, weil bei dieser die Wahrscheinlichkeit, eine schwarze Kugel zu ziehen, am größten ist. Für
die genaue Berechnung von PS (A) benutzen wir die Definition der bedingten Wahrscheinlichkeit:
P (A ∩ S)
PS (A) =
.
P (S)
Wie man auch aus dem Baumdiagramm erkennen kann, ist nach dem Multiplikationssatz
(Satz 3.3)
5
P (A ∩ S) = P (A) · PA (S) = 13 · 56 = 18
und nach dem Satz von der totalen Wahrscheinlichkeit (Satz 3.4)
P (S) = P (A) · PA (S) + P (B) · PB (S) + P (C) · PC (S) =
19
1
3
· 56 + 13 · 36 + 13 · 16 =
5
18
3
1
+ 18
+ 18
= 12 .
Damit ist also
PS (A) =
5
18
1
2
5
= .
9
Das Ergebnis ist auch plausibel, da die Urne A genau 5 der 9 schwarzen Kugeln enthält. Für
die Wahrscheinlichkeit, dass Urne B bzw. C gewählt wurde, gilt entsprechend:
PS (B) =
P (B) · PB (S)
=
P (A) · PA (S) + P (B) · PB (S) + P (C) · PC (S)
1
3
PS (C) =
P (C) · PC (S)
=
P (A) · PA (S) + P (B) · PB (S) + P (C) · PC (S)
1
3
·
5
6
·
5
6
+
+
1
3
1
3
1
3
1
3
·
·
·
·
3
6
3
6
1
6
3
6
+
1
3
·
1
6
+
1
3
·
1
6
=
=
1
1
6
1 = 3,
2
1
1
18
1 = 9.
2
Der folgende Satz beinhaltet die Verallgemeinerung der hier angestellten Berechnungen.
Satz 3.5 (Bayes11 ) Es seien A1 , . . . , An paarweise unvereinbare Ereignisse eines Zufallsexperiments mit A1 ∪ · · · ∪ An = Ω sowie P (Ak ) > 0 für jedes k ∈ {1; . . . ; n}. Dann gilt für ein
Ereignis B mit P (B) > 0:
PB (Ak ) =
P (Ak ) · PAk (B)
.
P (A1 ) · PA1 (B) + P (A2 ) · PA2 (B) + · · · + P (An ) · PAn (B)
Für n = 2 ergibt sich mit A1 = A, A2 = A speziell:
PB (A) =
P (A) · PA (B)
.
P (A) · PA (B) + P (A) · PA (B)
k ∩B)
Beweis: Nach der Definition der bedingten Wahrscheinlichkeit ist PB (Ak ) = P (A
P (B) ; die
Anwendung des Multiplikationssatzes im Zähler und die des Satzes von der totalen Wahrscheinlichkeit im Nenner liefern die Behauptung.
Beispiel 3.4 (Krankheitstest) An einer Virusinfektion sind 0,01 % der Bevölkerung erkrankt. Zur Feststellung der Infektion gibt es einen Krankheitstest, der ziemlich sichere Ergebnisse liefert: Wenn jemand infiziert ist, dann hat der Test mit Wahrscheinlichkeit von 99,9
% ein positives Ergebnis (d. h. er zeigt die Krankheit an). Bei einem Gesunden beträgt die
Wahrscheinlichkeit sogar 99,99 %, dass der Test negativ ausfällt.
Ein Mann, bei dem ansonsten keine Anzeichen für eine Erkrankung vorliegen, macht einen
Krankheitstest. Dieser fällt positiv aus. Wie groß ist die Wahrscheinlichkeit, dass der Mann
tatsächlich infiziert ist?
Wir wenden den Satz von Bayes an und definieren die Ereignisse I: Patient ist infiziert“
”
und T : Test ist positiv“. Nach den Voraussetzungen gelten die Gleichungen: P (I) = 0,0001
”
(da 0,01 % erkrankt sind),
PI (T ) = 0,999,
PI (T ) = 1 − 0,9999 = 0,0001.
Gesucht ist die bedingte Wahrscheinlichkeit PT (I). Nach dem Satz von Bayes gilt:
PT (I) =
P (I) · PI (T )
0,0001 · 0,999
=
≈ 0,4998.
0,0001
·
0,999
+ 0,9999 · 0, 0001
P (I) · PI (T ) + P (I) · PI (T )
Trotz der großen Testgenauigkeit gibt es eine Wahrscheinlichkeit von 50 %, dass der Mann gar
nicht erkrankt ist. Das liegt daran, dass sich die geringe Fehlerquote mit der Seltenheit der
Krankheit ausgleicht“. Man kann sich das anschaulich klar machen, wenn man mit absoluten
”
Zahlen rechnet: Angenommen, unser Mann sei einer von hunderttausend, die sich dem Test
20
unterziehen. Von den hunderttausend sind 0,01 %, also zehn, mit dem Virus infiziert. Bei
praktisch allen zehn würde der Test positiv ausfallen (vgl. diesen Häufigkeitsbaum).
100.000
PPP
PP 0,9999
0,0001
PP
PP
PP
P
10
I
99.990
I
0,999 PPP0,001
P
10
T
0,0001PPP0,9999
PP
0
T
10
T
PP
P
999.980
T
Daneben gibt es 99.990 Gesunde, von denen 0,01 % ein falsch positives Testergebnis erhalten würden. Dies sind wiederum 10. Es gibt also ebenso viele richtig wie falsch positiv
Getestete. Daher beträgt die Quote 50 %.
3.4
Unabhängige Ereignisse
Beispiel 3.5 In einer Urne liegen drei rote und zwei schwarze Kugeln. Zwei Kugeln werden
gezogen. Wir betrachten die Ereignisse R1 : erste Kugel rot“ und R2 : zweite Kugel rot“
”
”
sowie deren Schnitt R1 ∩ R2 : beide gezogenen Kugeln sind rot“ (vgl. Beispiel 3.2). Nach dem
”
Multiplikationssatz gilt P (R1 ∩ R2 ) = P (R1 ) · PR1 (R2 ).
ˆ Wird mit Zurücklegen gezogen, so ändert sich die Wahrscheinlichkeit für R2 nicht durch
die erste Ziehung, d. h. die zweite Ziehung ist von der ersten unabhängig“, und es gilt
”
P (R2 ) = PR1 (R2 ). Damit ist auch P (R1 ∩ R2 ) = P (R1 ) · P (R2 ).
ˆ Wird ohne Zurücklegen gezogen, so ergibt sich je nach Ergebnis der ersten Ziehung eine
andere Ausgangslage für die zweite Ziehung, d. h. diese ist von der ersten abhängig“.
”
Es gilt PR1 (R2 ) = 12 (da noch zwei rote und zwei scharze Kugeln in der Urne liegen),
aber P (R2 ) = 35 (vgl. Fortsetzung von Beispiel 3.2). Damit ist auch P (R1 ∩ R2 ) 6=
P (R1 ) · P (R2 ).
Definition 3.2 Zwei Ereignisse E1 , E2 eines Zufallsexperiments heißen (stochastisch) unabhängig, wenn gilt
P (E1 ∩ E2 ) = P (E1 ) · P (E2 ),
ansonsten (stochastisch) abhängig.
Satz 3.6 Für P (E1 ) > 0 und P (E2 ) > 0 gilt
P (E1 ) = PE2 (E1 ) ⇔ P (E1 ∩ E2 ) = P (E1 ) · P (E2 ) ⇔ P (E2 ) = PE1 (E2 ).
Beweis: P (E1 ) = PE2 (E1 )
Def. 3.1
⇔
P (E1 ) =
P (E1 ∩E2 )
P (E2 )
⇔ P (E1 ) · P (E2 ) = P (E1 ∩ E2 ) ⇔ P (E2 ) =
21
| · P (E2 )
P (E1 ∩E2 ) Def. 3.1
⇔
P (E1 )
P (E2 ) = PE1 (E2 ).
Beispiel 3.6 Ein Würfel wird zweimal geworfen. Wir untersuchen die Ereignisse
E1 : erste Augenzahl gerade,
E2 : Augensumme gleich 7
auf stochastische Unabhängigkeit. Es gilt P (E1 ) = 12 ,
P (E2 ) =
|{(1;6),(2;5),(3;4),(4;3),(5;2),(6;1)}|
36
Offenbar ist P (E1 ∩ E2 ) =
1
2
·
1
6
=
1
6
und P (E1 ∩ E2 ) =
|{(2;5),(4;3),(6;1)}|
36
=
1
12 .
= P (E1 ) · P (E2 ). Damit sind E1 und E2 unabhängig.
Beispiel 3.7 Bei den Oberstufenschülern einer Schule betrachten wir die Merkmale
S : besucht die Schach-AG,
M : hat Mathematik als Leistungsfach.
Die Häufigkeiten dieser Merkmale sind durch die folgende Vierfeldertafel gegeben:
Schach-AG
8
24
Mathematik-LK
kein Mathematik-LK
keine Schach-AG
9
99
Ein Schüler wird zufällig herausgegriffen. Wir untersuchen, ob die Ereignisse S und M
unabhängig sind. Dazu ergänzen wir die Vierfeldertafel durch die Zeilen- und Spaltensummen:
Mathematik-LK
kein Mathematik-LK
Summe
Schach-AG
8
24
32
keine Schach-AG
9
99
108
Summe
17
123
140
Die Einträge sind die Anzahlen der Elemente der hier dargestellten Mengen:
Mathematik-LK
kein Mathematik-LK
Summe
Schach-AG
|S ∩ M |
|S ∩ M |
|S|
keine Schach-AG
|S ∩ M |
|S ∩ M |
|S|
Summe
|M |
|M |
|Ω|
(Ω ist dabei die Menge aller Oberstufenschüler.) Durch Einsetzen erhält man nun sofort
P (M ) · P (S) =
17 32
34
·
=
;
140 140
1225
P (M ∩ S) =
8
2
70
=
=
6= P (M ) · P (S).
140
35
1225
Die Ereignisse sind somit abhängig.
Beispiel 3.8 Zu den Ereignissen von Beispiel 3.7 ergänzen wir noch E3 : Die zweite Augenzahl ist gerade. E1 , E2 und entsprechend E2 , E3 sind unabhängig. Man berechnet auch leicht
die Unabhängigkeit von E1 und E3 (die auch anschaulich klar ist, da Würfe von Würfeln sich
nicht beeinflussen können). Andererseits ist P (E1 ∩ E2 ∩ E3 ) = 0, da die Augensumme nicht
gleich 7 sein kann, wenn beide Augenzahlen gerade sind. Damit ist
P (E1 ) · P (E2 ) · P (E3 ) =
1
2
·
1
6
22
·
1
2
6= 0 = P (E1 ∩ E2 ∩ E3 ).
Beispiel 3.9 Es gibt auch den umgekehrten Fall: Es sei
E1 : 1. Zahl gleich 3 oder 4,
E2 : 2. Zahl gerade,
E3 : Augensumme ungerade, falls die 1. Zahl eine 6 ist; sonst Augensumme gerade.
Dann ist
P (E1 ∩ E2 ∩ E3 ) =
|{(4;2),(4;4),(4;6)}|
36
=
1
12
=
1
3
·
1
2
·
1
2
= P (E1 ) · P (E2 ) · P (E3 ),
danach könnten E1 , E2 , E3 also unabhängig sein. Jedoch gilt
P (E2 ∩ E3 ) =
|{(2;2),(2,4),(2;6),(4;2),(4;4),(4;6)}|
36
=
1
6
6=
1
2
·
1
2
= P (E2 ) · P (E3 ).
Für die Unabhängigkeit von drei Ereignissen sollte aber auch gefordert werden, dass je zwei
von ihnen unabhängig sind. Damit sind E1 , E2 , E3 nicht unabhängig.
Definition 3.3 a) Drei Ereignisse E1 , E2 , E3 eines Zufallsexperimentes heißen (stochastisch)
unabhängig, wenn je zwei von ihnen unabhängig sind und außerdem gilt
P (E1 ∩ E2 ∩ E3 ) = P (E1 ) · P (E2 ) · P (E3 ).
b) n Ereignisse E1 , . . . , En eines Zufallsexperimentes heißen (stochastisch) unabhängig,
wenn für jede nichtleere Teilmenge {a1 , . . . , ak } ⊆ {1; . . . ; n} (ai 6= aj für i 6= j) gilt
P (Ea1 ∩ · · · ∩ Eak ) = P (Ea1 ) · . . . · P (Eak ).
23
4
Kombinatorik
4.1
Produktregel und Permutationen
Beispiel 4.1 Im Schreibwarenladen gibt es verschiedene Arten von Schulheften:
ˆ liniert, mit kleinen Karos, mit großen Karos und blanko;
ˆ DIN A 4, DIN A 5 und DIN A 6;
ˆ aus weißem Papier und aus Umweltpapier;
ˆ mit 16 oder 32 Seiten.
Angenommen, es wären Hefte mit jeder Kombination von Merkmalsausprägungen erhältlich,
wie viele verschiedene Hefte gibt es dann im Sortiment? Es gibt vier Arten von Linienmustern, und für jede Art gibt es drei Formate: das sind schon 12 verschiedene Hefte. Diese
gibt es wiederum aus zwei Sorten Papier, das macht 24. Berücksichtigt man noch die zwei
verschiedenen Heftdicken, so haben wir schließlich 4 · 3 · 2 · 2 = 48 verschiedene Hefte im
Sortiment.
Fasst man die Merkmalsausprägungen der Hefte jeweils in Mengen Ωi zusammen, so ist
etwa Ω1 = {liniert, kleine Karos, große Karos, blanko}, Ω2 = {4, 5, 6}, Ω3 = {weiß, Umwelt},
Ω4 = {16, 32}. Dann ist beispielsweise (blanko, 5, Umwelt, 16) ∈ Ω1 × Ω2 × Ω3 × Ω4 .
Satz 4.1 (Produktregel der Kombinatorik) Es gilt
|Ω1 × Ω2 × · · · × Ωn | = |Ω1 | · |Ω2 | · . . . · |Ωn |.
Bemerkung 4.1 Angewandt auf die Wahrscheinlichkeitsrechnung besagt der Satz: Ist ein kstufiges Zufallsexperiment gegeben, bei der es in der ersten Stufe n1 , in der zweiten Stufe n2 ,
. . . , in der k-ten Stufe nk Ergebnisse gibt, so hat das Zufallsexperiment insgesamt n1 ·n2 ·. . .·nk
Ergebnisse.
Beispiel 4.2 Wird zuerst ein Würfel zweimal und dann eine Münze einmal geworfen und
schließlich ein Glücksrad mit zehn Feldern gedreht, so hat dieses Zufallsexperiment genau
6 · 6 · 2 · 10 = 720 Ergebnisse.
Definition 4.1 Es sei M eine n-elementige Menge. Die Funktion p : M → M heißt Permutation von M , wenn M der Wertebereich von p ist.
Bemerkung 4.2 Eine Permutation bringt die Elemente einer endlichen Menge in eine bestimmte Reihenfolge. Da es auf die Elemente dieser Menge selbst nicht ankommt, genügt es,
Zahlenmengen der Gestalt M = {1; 2; . . . ; n} zu betrachten. Für die Permutation auf {1; 2; 3}
mit p(1) = 2, p(2) = 1 und p(3) = 3 schreiben wir kurz (2; 1; 3).
Beispiel 4.3 Ist Pn die Menge der Permutationen der Menge {1; 2; . . . ; n}, so erhalten wir:
ˆ P2 = {(1, 2), (2, 1)}, also |P2 | = 2;
ˆ P3 = {(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1)}, also |P3 | = 6;
ˆ P4 = {(1,2,3,4), (1,2,4,3), (1,3,2,4), (1,3,4,2), (1,4,2,3), (1,4,3,2), (2,1,3,4), (2,1,4,3),
(2,3,1,4), (2,3,4,1), (2,4,1,3), (2,4,3,1), (3,1,2,4), (3,1,4,2), (3,2,1,4), (3,2,4,1), (3,4,1,2),
(3,4,2,1), (4,1,2,3), (4,1,3,2), (4,2,1,3), (4,2,3,1), (4,3,1,2), (4,3,2,1)}, also |P4 | = 24.
24
Definition 4.2 Für n ∈ N ist n! (n Fakultät) definiert durch
0! := 0,
Beispiel 4.4 Es ist 1! = 1 · 0! = 1;
(n + 1)! := (n + 1) · n!.
2! = 2 · 1! = 2 · 1 = 2;
6! = 6 · 5! = 6 · 5 · 4 · 3 · 2 · 1 = 720.
Satz 4.2 Es sei n ∈ N∗ . Jede n-elementige Menge Ωn = {a1 , a2 , . . . , an } besitzt genau n!
Permutationen (d. h. ist Pn die Menge aller Permutationen von Ωn , so gilt |Pn | = n!).
Beweis (vollständige Induktion): Induktionsanfang: |P1 | = |{a1 }| = 1 = 1!.
Induktionsschritt: Für ein n gelte |Pn | = n!. Es sei (e1 , e2 , . . . , en ) ∈ Pn eine Permutation
von Ωn . Dann sind
(an+1 , e1 , e2 , . . . , en ), (e1 , an+1 , e2 , . . . , en ), . . . , (e1 , . . . , en−1 , an+1 , en ), (e1 , . . . , en , an+1 )
genau die Permutationen von Ωn+1 , in denen die Elemente a1 , a2 , . . . , an in der Reihenfolge
e1 , e2 , . . . , en vorkommen. Eine Permutation von Ωn+1 ist daher eine Kombination aus den
Eigenschaften:
ˆ dem n-Tupel, das sich aus dem Weglassen der Komponente an+1 ergibt (n! Möglichkeiten nach Induktionsvoraussetzung) und
ˆ der Stellung von n + 1 in der Permutation (n + 1 Möglichkeiten).
Nach der Produktregel (Satz 4.1) gibt es also genau n! · (n + 1) = (n + 1)! Möglichkeiten.
Beispiel 4.5 Will man zehn Bücher nebeneinander in einem Regal anordnen, so hat man
dafür genau 10! = 3.628.800 Möglichkeiten.
4.2
Stichproben
Definition 4.3 Es seien k, n ∈ N∗ . Gegeben ist die n-elementige Menge Ω = {e1 , . . . , en }.
a) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit n1 , . . . , nk ∈ {1; 2; . . . ; n} heißt geordnete
Stichprobe mit Wiederholung.
b) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit n1 , . . . , nk ∈ {1; 2; . . . ; n}, wobei die Indizes
n1 , . . . , nk alle verschieden sind (d. h. ni 6= nj für i 6= j), heißt geordnete Stichprobe ohne
Wiederholung (k ≤ n).
c) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit 1 ≤ n1 ≤ n2 ≤ · · · ≤ nk ≤ n heißt ungeordnete Stichprobe mit Wiederholung.
d) Ein k-Tupel (en1 , en2 , . . . , enk ) ∈ Ωk mit 1 ≤ n1 < n2 < · · · < nk ≤ n heißt ungeordnete Stichprobe ohne Wiederholung (k ≤ n).
Bemerkung 4.3 Diese verschiedenen Arten von Stichproben lassen sich mit dem Urnenmodell veranschaulichen: In einer Urne befinden sich n unterscheidbare (etwa nummerierte)
Kugeln, von denen k gezogen werden.
25
ˆ Bei den Stichproben mit Wiederholung wird jede Kugel nach dem Ziehen wieder zurückgelegt, so dass eine Kugel mehrmals gezogen werden kann. Bei der Stichprobe ohne
Wiederholung werden die gezogenen Kugeln nicht zurückgelegt.
ˆ Bei den geordneten Stichproben kommt es darauf an, welche Kugel als erste, als zweite
usw. gezogen wird. Bei den ungeordneten Stichproben kommt es nur darauf an, welche
Kugeln überhaupt (und ggf. wie oft) gezogen wurden, aber nicht auf die Reihenfolge
der Ziehung. Eine ungeordnete Stichprobe wird etwa durch eine geordnete Stichprobe
repräsentiert, bei der die gezogenen Nummern in aufsteigender Reihenfolge genannt
werden (so werden die Lottozahlen nicht in der Reihenfolge genannt, in der sie gezogen
wurden, sondern aufsteigend). Die Stichprobe (en1 , en2 , . . . , enk ) mit 1 ≤ n1 < n2 <
· · · < nk ≤ n (bzw. überall ≤“) steht somit stellvertretend für
”
{(enp(1) , enp(2) , . . . , enp(k) )| p ist Permutation von {1; . . . ; k}}.
Beispiel 4.6 In einer Urne befinden sich sechs Kugeln mit den Nummern 1 bis 6. Beim
einmaligen Ziehen einer Kugel ist damit Ω := {1; 2; 3; 4; 5; 6}. Wir ziehen zwei Kugeln und
bestimmen die zugehörigen Stichprobenmengen Sg,m , Sg,o , Su,m , Su,o .
a) Wir ziehen mit Zurücklegen und notieren das Ergebnis als geordnetes Paar. Als Ergebnisse kommen alle geordneten Paare aus Elementen von Ω in Frage, also ist
Sg,m = Ω2 = {(1, 1), . . . , (1, 6), (2, 1), . . . , (2, 6), . . . , (6, 1), . . . , (6, 6)}
(mit |Sg,m | = 36) die Menge der geordneten Stichproben mit Wiederholung.
b) Wird die erste Kugel nicht zurückgelegt, so kann nicht zweimal dieselbe Kugel gezogen
werden, und daher ist
Sg,o = Ω2 \ {(1, 1), . . . , (6, 6)}
(mit |Sg,o | = 30) die Menge der geordneten Stichproben ohne Wiederholung.
c) Wir ziehen wieder mit Zurücklegen, achten aber nicht auf die Reihenfolge der gezogenen
Kugeln, sondern notieren die Nummern und ordnen sie dann der Größe nach. Dadurch ergibt
sich
Su,m = {(1, 1), . . . , (1, 6), (2, 2), . . . , (2, 6), (3, 3), . . . , (3, 6),
(4, 4), (4, 5), (4, 6), (5, 5), (5, 6), (6, 6)}
(mit |Su,m | = 21) als Menge der ungeordneten Stichproben mit Wiederholung.
d) Wir gehen vor wie unter c), legen die erste Kugel aber nicht zurück. Dann ergibt sich
Su,m = {(1, 2), . . . , (1, 6), (2, 3), . . . , (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}
(mit |Su,o | = 15) als Menge der ungeordneten Stichproben ohne Wiederholung. Su,m hat
genau halb so viele Elemente wie Sg,m , da man je zwei Elemente aus Sg,m (etwa (1, 2) und
(2, 1)) zu einem aus Su,m (nämlich (1, 2)) zusammenfassen kann.
Beispiel 4.7 In der Urne befinden sich jetzt sieben nummerierte Kugeln, von denen wir drei
ziehen. Wir beschränken uns auf geordnete Stichproben. Deren Zahl ist nun zu groß, als dass
wir alle aufzählen könnten. Durch die Produktregel erhalten wir jedoch:
26
a) Ziehen wir mit Zurücklegen, so gibt es jedesmal sieben mögliche Ergebnisse, und damit
ist |Sg,m | = 7 · 7 · 7 = 343.
b) Ziehen wir ohne Zurücklegen, so ist nach jeder Ziehung eine Kugel weniger in der Urne,
und daher ist |Sg,o | = 7 · 6 · 5 = 210.
Satz 4.3 Für die geordneten Stichproben vom Umfang k aus einer n-elementigen Menge gilt:
a) Es gibt genau nk geordnete Stichproben mit Wiederholung.
b) Ist k ≤ n, so gibt es genau
n · (n − 1) · . . . · (n − k + 1) =
n!
(n − k)!
geordnete Stichproben ohne Wiederholung.
Beweis: Jeweils vollständige Induktion über k ≥ 1. Zu b) gilt noch:
n!
n · (n − 1) · . . . · (n − k + 1) · (n − k) · . . . · 1
=
= n · (n − 1) · . . . · (n − k + 1).
(n − k)!
(n − k) · . . . · 1
4.3
Ungeordnete Stichproben. Binomialkoeffizienten
Beispiel 4.8 Wir greifen auf das Beispiel 4.7 ( 3 aus 7“) zurück. Wie gezeigt wurde, gibt es
”
7 · 6 · 5 = 210 geordnete Stichproben ohne Zurücklegen. Darunter sind die sechs Stichproben
(1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1),
die genau die Permutationen der Menge {1; 2; 3} darstellen. Auch die anderen Stichproben
kann man entsprechend in Sechsergruppen zusammenfassen. So gibt es genau 210
6 = 35 Stichproben, die sich nicht nur durch die Reihenfolge der Elemente unterscheiden.
Satz 4.4 (ungeordnete Stichprobe ohne Wiederholung) Es sei 0 ≤ k ≤ n. Die Anzahl
der ungeordneten Stichproben ohne Wiederholung von k Elementen aus einer n-elementigen
Menge beträgt genau
n!
.
k!(n − k)!
Beweis: Es sei Sg,o die Menge der geordneten und Su,o die Menge der ungeordneten Stichproben ohne Wiederholung. Ist (en1 , en2 , . . . , enk ) (mit paarweise verschiedenen Komponenten) eine ungeordnete Stichprobe, so ist jede Permutation der Komponenten eine geordnete
Stichprobe. Nach Satz 4. 2 gilt daher
|Sg,o | = k! · |Su,o | ⇒ |Su,o | =
|Sg,o |
k!
Satz 4.3 b)
Definition 4.4 Es sei 0 ≤ k ≤ n. Der Ausdruck
n
n!
:=
k
k!(n − k)!
(gesprochen: n über k) heißt Binomialkoeffizient.
27
=
n!
.
k!(n − k)!
Beispiel 4.9
10 · 9 · 8 · 7· 6 6· 6 5· 6 4· 6 3· 6 2· 6 1
10 · 9 · 8 · 7
5040
10
10!
=
=
=
=
= 210.
4
4! · 6!
4 · 3 · 2 · 1· 6 6· 6 5· 6 4· 6 3· 6 2· 6 1
4·3·2·1
24
Beispiel 4.10 Beim Lotto 6 aus 49“ gibt es für eine Ziehung genau
”
49
49 · 48 · 47 · 46 · 45 · 44
=
= 13.983.816
6
6·5·4·3·2·1
mögliche Ergebnisse. Die Wahrscheinlichkeit für sechs Richtige bei einem Tipp beträgt somit
1
rund 14 Mill.
≈ 0,000007 %.
Satz 4.5 (Rechenregeln) Für 0 ≤ k ≤ n gilt:
a)
n
n
=
= 1;
0
n
n
= n;
1
n
n−k
=
n
;
k
b)
n+1
k+1
n
n
=
+
.
k
k+1
Beweis: Zu a): Die Gleichungen folgen unmittelbar aus der Definition, etwa
n
0
=
n!
0!·n!
= 1.
Zu b):
n
n
+
=
k
k+1
=
=
=
n!
n!
+
k!(n − k)! (k + 1)!(n − k − 1)!
n!(k + 1)
n!(n − k)
+
k!(k + 1)(n − k)! k!(k + 1)(n − k)!
n!(k + 1 + n − k)
n!(n + 1)
=
k!(k + 1)(n − k)!
k!(k + 1)(n − k)!
(n + 1)!
n+1
=
.
(k + 1)!((n + 1) − (k + 1))!
k+1
Bemerkung 4.4 Diese Regeln lassen sich auch leicht anschaulich mit dem Urnenmodell
begründen. Es gibt genau eine Möglichkeit, keine Kugel zu ziehen (oder alle Kugeln zu ziehen).
Es gibt ebenso viele Möglichkeiten, k Kugeln zu ziehen und n − k zurückzulassen wie n − k
zu ziehen und k zurückzulassen. Legt man zu n Kugeln noch eine hinzu,
so kann, wenn man
n
k + 1 Kugeln
zieht,
die
(n
+
1)-te
Kugel
mit
k
weiteren
dabei
sein
(
k Möglichkeiten) oder
n
nicht ( k+1 Möglichkeiten).
Bemerkung 4.5 Die Gleichung zu Satz 4.5 b) ist eine gute Rekursionsformel, mit der man
leicht Binomialkoeffizienten mit solchen aus niedrigeren n-Werten berechnen kann. Man stellt
dazu das Pascal’sche Dreieck12 auf, ein nach unten offenes Zahlenschema, das wie folgt
aussieht:
12
Blaise Pascal, französischer Mathematiker und Philosoph, 1623–1662.
28
1
3
4
0
5
0
0
5
1
2
0
4
1
0
3
1
5
2
0
0
2
1
4
2
1
1
3
2
5
3
2
2
4
3
3
3
5
4
4
4
5
5
Notiert man die Zahlenwerte, so ergibt sich:
1
1
1
1
1
1
3
4
5
1
2
1
3
6
10
1
4
10
1
5
1
Man erkennt, dass jede Zahl (außer der 1 an der Spitze) die Summe der rechts und links
darüber stehenden Zahlen ist (freie Plätze werden mit Nullen ergänzt): So ist etwa 10 = 53 =
4
4
2 + 3 = 6 + 4.
Beispiel 4.11 Bekanntlich ist (a + b)2 = a2 + 2ab + b2 ; man errechnet ferner leicht
(a + b)3 = (a + b)2 (a + b) = (a2 + 2b + b2 )(a + b) = a3 + 3a2 b + 3ab2 + b3 .
Zum Exponenten 4 machen wir den Ansatz
(a + b)4 = (a + b)(a + b)(a + b)(a + b) = k0 a4 + k1 a3 b + k2 a2 b2 + k3 a3 b + k4 b4 .
Um etwa den Wert von k2 zu bestimmen, muss geklärt werden, wie oft beim Auflösen aller
Klammern der Summand a2 b2 entsteht. Da alle Summanden in den verschiedenen Klammern
jeweils miteinander multipliziert werden, gibt es die Möglichkeiten aabb, abab, abba, baab,
baba und bbaa. deren Zahl entspricht genau der Anzahl der ungeordneten Stichproben 2 aus
”
4“, denn einer Stichprobe (e1 , e2 ) kann man eindeutig den Summanden zuordnen,
bei dem
an e1 -ter und e2 -ter Stelle ein b und ansonsten ein a steht. Es ist damit k2 = 42 = 6. Alle
Koeffizienten findet man in der fünften Zeile des Pascal’schen Dreiecks:
(a + b)4 = a4 + 4ab3 + 6a2 b2 + 4ab3 + b4 .
Man kann also mit Hilfe des Pascal’schen Dreiecks leicht Formeln zu (a+b)n finden. Allgemein
gilt der folgende Satz:
Satz 4.6 (Binomischer Satz) Für a, b ∈ R und n ∈ N gilt
n n
n n−1
n n−1 2
n
n n
n
n−1
(a + b) =
a +
a
b+
a
b + ··· +
ab
+
b
0
1
2
n−1
n
n X
n n−k k
=
a
n .
k
k=0
Beispiel 4.12 Beim Galton-Brett13 sind in der abgebildeten Anordnung Nägel angebracht,
so dass eine Kugel, die oben losgelassen wird, bei jedem Nagel mit Wahrscheinlichkeit von je
1
2 den linken oder rechten Weg nach unten einschlägt und schließlich in eines der Fächer 1
bis 6 fällt.
13
Sir Francis Galton, englischer Naturforscher, 1822–1911.
29
s
@
s
@s
@
@
s
@s
@s
@
@
@
s
@s
@s
@s
@
@
@
@
s
@s
@s
@s
@s
@
@
@
@
@
@
@
@
@
@
1
2
3
4
5
6
Um in Fach 1 zu landen, muss die Kugel jedesmal den linken Weg abrollen (LLLLL);
1
die Wahrscheinlichkeit hierzu beträgt nach dem Multiplikationssatz gleich ( 12 )5 = 32
. Für
Fach 2 muss die Kugel einmal nach rechts und sonst nach links rollen; hierfür gibt es die
1
Wege RLLLL, LRLLL, LLRLL; LLLRL und LLLLR, die jeweils die Wahrscheinlichkeit 32
besitzen. Die Wahrscheinlichkeit
für Fach 2 ist damit fünfmal so groß wie für Fach 1. Um in
Fach 3 zu fallen, gibt es 52 = 10 Wege usw. Die Wahrscheinlichkeiten für die Fächer 1 bis 6
1 5 10 10 5 1
lauten so nacheinander 32
, 32 , 32 , 32 , 32 , 32 . Die Zähler entsprechen genau den Zahlen in der
entsprechenden Zeile des Pascal’schen Dreiecks.
Sind die Wahrscheinlichkeiten für die linken und rechten Wege ungleich verteilt (etwa
durch Schiefhalten“ des Brettes), so erhält man ein Modell für die Binomialverteilung (s.
”
Kapitel 5.2).
Beispiel 4.13 Wir untersuchen die Zahl der ungeordneten Stichproben 3 aus 7“ mit Wie”
derholung. Hierzu zählen
ˆ die 35 Stichproben ohne Wiederholung (nach Beispiel 4.8),
ˆ Stichproben, bei denen eine Zahl doppelt vorkommt (7 Möglichkeiten für die doppelt
vorkommende Zahl, 6 für die andere Zahl, daher 7 · 6 = 42 Möglichkeiten),
ˆ Stichproben mit dreimal derselben Zahl (7 Möglichkeiten).
Insgesamt gibt es also 35 + 42 + 7 = 84 Möglichkeiten. Auf diese Anzahl kommt man auch
durch folgende Überlegung: Zunächst setzen wir senkrechte Striche zwischen die Zahlen der
Grundmenge: 1|2|3|4|5|6|7. Für eine gegebene Stichprobe lassen wir die Zahlen weg und notieren an die Stellen die Anzahl von Kreisen, mit der die Zahlen in der Stichprobe vorkommen:
Für (2; 3; 6) etwa | • | • ||| • | oder für (1, 1; 5) • • |||| • ||. Für jede Stichprobe gibt es damit
eine Zeichenkette, die genau sechs (allgemein: n − 1) Striche und drei (k) Kreise enthält. Jede
solche Zeichenkette steht für eine andere Stichprobe. Die Zahl der Stichproben ist somit die
Zahl der Möglichkeiten, wie
man
3 Kreise auf 3 + 6 Plätze in der Zeichenkette verteilen kann.
n−1+k
9
Sie beträgt somit
= 6 = 84.
k
Satz 4.7 (ungeordnete Stichprobe mit Wiederholung) Es sei k ≥ 0, n ≥ 1. Die
Anzahl der ungeordneten Stichproben mit Wiederholung von k Elementen aus einer nelementigen Menge beträgt genau
n+k−1
n+k−1
=
.
k
n−1
30
4.4
Hypergeometrische Verteilung
Beispiel 4.14 In einer Urne befinden sich 20 Kugeln, darunter 8 weiße und 12 schwarze. Es
werden 7 Kugeln ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass sich
unter den gezogenen Kugeln genau 3 weiße befinden?
Zunächst wird die Zahl der günstigen Ergebnisse ermittelt. Eine Stichprobe mit 3 weißen
Kugeln kann man in zwei Stichproben aufteilen: Einmal in die der 3 von 8 weißen
Kugeln
und in die der 4 von 12 schwarzen Kugeln. Für die erste Stichprobe gibt es 83 und für die
zweite Stichprobe 12
miteinander kombiniert werden, gibt es nach
4 Möglichkeiten. Da beide
der Produktregel der Kombinatorik genau 83 · 12
8-elementige Stichproben mit genau 3
4
20
weißen Kugeln. Da es insgesamt 7 8-elementige Stichproben gibt, ist
P ( Genau 3 weiße Kugeln gezogen“) =
”
8
3
·
20
7
12
4
=
56 · 495
≈ 35,8 %.
77.520
Satz 4.8 (hypergeometrische Verteilung) Es sei 0 ≤ k ≤ n ≤ N , k ≤ K, K − k ≤
N − n. Ω0 sei eine n-elementige Teilmenge der N -elementigen Menge Ω. Für eine ungeordnete
Stichprobe ohne Wiederholung von K Elementen aus Ω beträgt die Wahrscheinlichkeit, dass
(n)·(N −n)
sie genau k Elemente von Ω0 enthält, genau k NK−k .
(K )
N
Beweis: Insgesamt gibt es K
Spichproben. Günstig sind genau die, die k Elemente
aus
n
0
0
Ω und K − k Elemente aus Ω \ Ω enthalten. Für die erste Teilstichprobe gibt es k , für die
−n
zweite N
K−k Möglichkeiten. Nach Satz 2.4 (Laplace-Experimente) folgt die Behauptung.
Beispiel 4.15 Es wird untersucht, wie groß beim Lotto 6 aus 49“ die Wahrscheinlichkeit
”
ist, dass ein Tipp a) genau vier Richtige, b) mindestens vier Richtige erzielt.
Zu a): Es ist N = 49, n = 6 (die sechs getippten Zahlen), K = 6 (die sechs gezogenen
Kugeln), k = 4 (vier Richtige). Nach Satz 4.8 ist
6 43
6!
43!
6! · 43!
4
2 =
P ( 4 Richtige“) =
·
·
49
”
4! · 2! 2! · 41!
49!
6
6 · 5 43 · 42
6·5·4·3·2·1
645
=
·
·
=
≈ 0, 097 %.
2 · 1 2 · 1 49 · 48 · 47 · 46 · 45 · 44
665.896
Zu b) Es gibt die Möglichkeiten vier, fünf oder sechs Richtige. Es ist
6 43
6 43
6 · 43
1
5
1
6
P ( 5 Richtige“) = 49 = 49 ; P ( 6 Richtige“) = 490 = 49 .
”
”
6
6
6
6
Damit ist
P ( mindestens 4 Richtige“) = P ( 4 Richtige“) + P ( 5 Richtige“) + P ( 6 Richtige“)
”
”
”
”
15 · 903 + 6 · 43 + 1
13.840
=
=
≈
0,
099
%.
49
13.983.816
6
Beispiel 4.16 Ein Skatspiel besteht aus N = 32 Karten, darunter n = 4 Buben. Zu Beginn
erhält jeder Spieler K = 10 Karten. Wir bestimmen die Wahrscheinlichkeiten für die Ereignisse Bk (k = 0; 1; 2; 3; 4): Ein bestimmter Spieler bekommt genau einen, genau zwei, . . . , alle
31
vier Buben.
P (B0 ) =
P (B1 ) =
P (B2 ) =
P (B3 ) =
P (B4 ) =
4
0
28
10
32
10
4 28
1
9
32
10 4 28
2
8
32
10 4 28
3
7
32
10 4 28
4
6
32
10
=
1 · 13.123.110
≈ 20, 3 %,
64.512.240
=
4 · 6.906.900
≈ 42, 8 %,
64.512.240
=
6 · 3.108.105
≈ 28, 9 %,
64.512.240
=
4 · 1.184.040
≈ 7, 3 %,
64.512.240
=
1 · 376.740
≈ 0, 6 %.
64.512.240
Statistisch erhält jeder Spieler in jedem 14. Spiel genau drei Buben und nur in jedem 171.
Spiel alle vier Buben.
32
5
Zufallsgrößen und Binomialverteilung
5.1
Der Begriff der Zufallsgröße
Beispiel 5.1 Bei einem Glücksspiel mit drei Würfeln muss ein Spieler zunächst 1 Euro einsetzen. Wirft er dann drei Einsen, erhält er 10 Euro, bei drei Zweien 20 Euro und so fort;
bei drei Sechsen bekommt erschließlich 60 Euro Gewinn. Fällt kein Dreierpasch, gewinnt er
nichts.
Bei diesem Spiel geht es nicht allein um die Wahrscheinlichkeiten bestimmter Ereignisse,
sondern auch um bestimmte Wertigkeiten“, die den Ereignissen zugeordnet werden. In den
”
meisten Fällen ist dies ein Euro Verlust (−1), im günstigsten Fall ein Gewinn von 60 Euro
abzüglich des eingesetzten Euros (+59).
Definition 5.1 a) Gegeben ist ein Zufallsexperiment mit Ergebnismenge Ω. Eine Zuordnung
X : Ω → R heißt Zufallsgröße oder Zufallsvariable.
b) Es sei x0 ∈ R. Wir schreiben kurz:
X = x0
für das Ereignis: Das Ergebnis hat den Zufallsgrößenwert x0 ,
X ≤ x0
für das Ereignis: Das Ergebnis hat einen Zufallsgrößenwert kleiner gleich x0
usw., entsprechend: X ≥ x0 , X < x0 , X > x0 , X 6= x0 . Statt (X = x0 ) ∩ (Y = y0 ) usw.
schreiben wir X = x0 , Y = y0 usw.
Beispiel 5.2 a) Eine Münze wird zehnmal geworfen. Wir legen X fest als Zahl der Würfe,
bei denen Kopf“ gefallen ist.
”
b) Bei einem Wissenstest sind zehn Fragen zu beantworten. Wir legen X als Zahl der
richtigen Antworten eines Kandidaten fest.
Beispiel 5.3 Bei einem Brettspiel, das mit zwei Würfeln gespielt wird, interessieren bei
einem Wurf in der Regel nicht die Augenzahlen der einzelnen Würfel, sondern nur die Augensumme. Wir können daher die Zufallsvariable X definieren mit X(e1 , e2 ) := e1 + e2 , wobei
e1 und e2 die einzelnen Augenzahlen darstellen. Man kann X auch als Summe der beiden
Zufallsgrößen X1 (erster Wurf) und X2 (zweiter Wurf) darstellen. Wir erhalten
P (X = 2) =
1
36 ,
P (X = 3) =
2
36 ,
P (X = 4) =
3
36 ,
P (X = 5) =
4
36 ,
P (X = 6) =
5
36 ,
P (X = 7) =
6
36 ,
P (X = 8) =
5
36 ,
P (X = 9) =
4
36 ,
P (X = 10) =
3
36 ,
P (X = 11) =
2
36 ,
P (X = 12) =
1
36
(vgl. Beispiel 2.10). Selbstverständlich ist die Summe über alle diese Wahrscheinlichkeiten
gleich 1.
Satz 5.1 Ist X eine Zufallsgröße mit der Wertemenge {x1 , x2 , . . . , xm }, so gilt
1. P (X = x1 ) ≥ 0, . . . , P (X = xm ) ≥ 0 und
2. P (X = x1 ) + · · · + P (X = xm ) = 1.
Definition 5.2 Ist Ist X eine Zufallsgröße mit der Wertemenge W = {x1 , x2 , . . . , xm }, so
heißt die Funktion PX : W → R mit PX (xi ) := P (X = xi ) (1 ≤ i ≤ m) die Wahrscheinlichkeitsverteilung der Zufallsgröße X.
33
Beispiel 5.1 (Fortsetzung) Beim oben beschriebenen Spiel gibt es folgende Wahrscheinlich1
keitsverteilung: P (X = 59) = P ((6, 6, 6)) = 613 = 216
, entsprechend P (X = 49) = P (X =
1
35
39) = · · · = P (X = 9) = 216 . Schließlich ist P (X = −1) = 210
216 = 36 ≈ 97,2 %.
5.2
Der Erwartungswert
Beispiel 5.1 (Fortsetzung, vgl. Abschnitt 5.1): Man kann sich hier fragen, ob das Spiel
eigentlich fair“ ist, d. h. ob der Spieler auf lange Sicht gesehen“ ebenso viel gewinnen wie
”
”
verlieren wird. Wird das Spiel n-mal durchgeführt, so errechnet sich der Gesamtgewinn (oder
-verlust) xges als
xges = 59 · an (X = 59) + 49 · an (X = 49) + · · · + 9 · an (X = 9) + (−1) · an (X = −1)
= n · (59 · rn (X = 59) + 49 · rn (X = 49) + · · · + 9 · rn (X = 9) + (−1) · rn (X = −1)) ,
wobei an und rn für die absoluten und relativen Häufigkeiten der jeweiligen Ereignisse steht.
Für den durchschnittlichen Gewinn bei einem Spiel x gilt dementsprechend
xges
x=
= 59 · rn (X = 59) + 49 · rn (X = 49) + · · · + 9 · rn (X = 9) + (−1) · rn (X = −1).
n
Nach dem Gesetz der großen Zahlen (vgl. Abschnitt 2.2) haben bei großem n die relativen
Häufigkeiten etwa denselben Wert wie die Wahrscheinlichkeiten, es ist also
x ≈ 59 · P (X = 59) + 49 · P (X = 49) + · · · + 9 · P (X = 9) + (−1) · P (X = −1)
1
1
1
1
1
1
= 59 · 216
+ 49 · 216
+ 39 · 216
+ 29 · 216
+ 19 · 216
+ 9 · 216
+ (−1) ·
59 + 49 + 39 + 29 + 19 + 9 − 210
6
1
=
=−
= − ≈ −0, 028.
216
216
36
210
216
Es ist also langfristig mit einem Verlust von rund 2,8 Cent pro Spiel zu rechnen. Da es
sich um den zu erwartenden Verlust bei einem Spiel handelt, nennt man diesen Wert den
Erwartungswert“ dieser Zufallsgröße.
”
Definition 5.3 Es sei X eine Zufallsgröße mit der m-elementigen Wertemenge {x1 , . . . , xm }.
Dann heißt
E(X) := x1 · P (X = x1 ) + · · · + xm · P (X = xm )
der Erwartungswert von X.
Beispiel 5.4 Beim Roulette werden 100 Euro auf Rot“ gesetzt. Von den Zahlen 1 bis 36
”
sind 18 Zahlen rot“ und 18 schwarz“. Dazu gibt es noch die Null. In 18 günstigen Fällen
”
”
erhält der Spieler also seinen Einsatz zurück und 100 Euro dazu, in den übrigen 19 Fällen
verliert er seinen Einsatz. Da es sich um ein Laplace-Experiment handelt, gilt somit (für X:
Gewinn nach dem Spiel):
E(X) = 100 ·
19
100
18
+ (−100) ·
=−
≈ −2,70.
37
37
37
Ein anderer Spieler setzt 100 Euro auf eine Zahl. Im Gewinnfalle erhält er seinen Einsatz
zurück und das 35fache seines Einsatzes. Für ihn gilt:
E(X) = 3500 ·
1
36
100
+ (−100) ·
=−
≈ −2,70.
37
37
37
Beide haben also einen durchschnittlichen Verlust von rund 2,70 Euro zu erwarten. Dieser
negative Erwartungswert stellt sicher, dass die Spielbank auf lange Sicht Gewinne macht.
34
Beispiel 5.5 Ist X die Augenzahl beim einfachen Würfeln, so ist
E(X) = 1 ·
1
6
+2·
1
6
1
6
+3·
1
6
+4·
1
6
+5·
+6·
1
6
=
21
6
= 72 .
Beispiel 5.6 Beim zweimaligen Würfeln (vgl. Beispiel 5.3) erhalten wir
1
2
3
4
5
6
5
4
3
2
1
+3· 36
+4· 36
+5· 36
+6· 36
+7· 36
+8· 36
+9· 36
+10· 36
+11· 36
+12· 36
=
E(X) = 2· 36
252
36
= 7.
Ist X1 die Augenzahl beim ersten und X2 die Augenzahl beim zweiten Würfeln, so ist nicht
nur X = X1 + X2 , sondern auch
E(X1 ) + E(X2 )
Bsp. 5.5 7
=
2
7
2
+
= 7 = E(X) = E(X1 + X2 ).
Beispiel 5.7 An einem anderen Beispiel wollen wir nicht nur überprüfen, ob der Erwartungswert der Summe zweier Zufallsvariablen mit der Summe der einzelnen Erwartungswerte
übereinstimmt, sondern auch, ob der entsprechende Sachverhalt für das Produkt von Erwartungswerten gilt.
In einer Urne liegen drei Kugeln mit den Nummern 1, 2, 3. Zweimal wird eine Kugel
gezogen. X stehe für die Nummer der zuerst, Y für die der als zweites gezogenen Kugel.
a) Wird mit Zurücklegen gezogen, so hat der Ergebnisraum die Elemente (1, 1), (1, 2),
(1, 3), (2, 1) usw., wobei es folgende Summen und Produkte gibt:
+
1
2
3
1
2
3
4
2
3
4
5
·
1
2
3
3
4
5
6
1
1
2
3
2
2
4
6
3
3
6
9
Es ist E(X) = E(Y ) = 2 und
E(X + Y ) = 2 ·
E(XY ) = 1 ·
1
9
1
9
2
9
+3·
+2·
2
9
3
9
+4·
+3·
2
9
2
9
+5·
+4·
1
9
+6·
+6·
2
9
1
9
= 4 = 2 + 2 = E(X) + E(Y )
+9·
1
9
= 4 = 2 · 2 = E(X) · E(Y ).
Man kann also Bildung des Erwartungswertes und Rechenoperation (Addition bzw. Multiplikation) in diesem Fall vertauschen.
b) Wird ohne Zurücklegen gezogen, so fallen die Ergebnisse mit zweimal derselben Zahl
weg, so dass sich die Tabellen folgendermaßen reduzieren:
· 1 2 3
+ 1 2 3
1 − 2 3
1 − 3 4
2 2 − 6
2 3 − 5
3 3 6 −
3 4 5 −
Damit ist
E(X + Y ) = 3 ·
2
6
+4·
2
6
+5·
2
6
= 4 = 2 + 2 = E(X) + E(Y ),
jedoch
E(XY ) = 2 ·
2
6
+3·
2
6
+6·
2
6
=
11
3
6= 2 · 2 = E(X) · E(Y ).
Der Unterschied liegt darin, dass im zweiten Fall das Ergebnis der zweiten Ziehung von der
ersten Ziehung beeinflusst wird, da die gezogene Kugel nicht zurückgelegt wird. Im ersten Fall
sind die beiden Ziehungen unabhängige“ Zufallsexperimente (vgl. Kapitel 3.4). Wir dehnen
”
den Begriff der stochastischen Unabhängigkeit auf Zufallsgröen aus:
35
Definition 5.4 Die Zufallsgrößen X1 , . . . , Xk mit (endlichen) Wertemengen W1 , . . . Wk heißen (stochastisch) unabhängig, wenn für alle (x1 , . . . , xk ) ∈ W1 × · · · × Wk gilt
P (X1 = x1 , . . . , Xk = xk ) = P (X1 = x1 ) · . . . · P (Xk = yk ).
Satz 5.2 (Rechenregeln) a) Steht c für die konstante Zufallsgröße, die jedem Ergebnis den
Wert c ∈ R zuordnet, so gilt E(c) = c.
b) (Linearität) Für Zufallsgrößen X1 , X2 , . . . , Xn eines Zufallsexperiments gilt
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ).
c) Sind X und Y unabhängige (!) Zufallsgrößen, so folgt E(X · Y ) = E(X) · E(Y ).
Beweis: Wir beweisen b) und beschränken uns auf zwei Zufallsgrößen X und Y mit endlichen Wertemengen {x1 , . . . , xm } und {y1 , . . . , yn }.
E(X + Y ) = (x1 + y1 ) · P (X = x1 , Y = y1 ) + · · · + (x1 + yn ) · P (X = x1 , Y = yn ) +
+ (x2 + y1 ) · P (X = x2 , Y = y1 ) + · · · + (x2 + yn ) · P (X = x2 , Y = yn ) +
+··· +
+(xm + y1 ) · P (X = xm , Y = y1 ) + · · · + (xm + yn ) · P (X = xm , Y = yn )
= x1 · (P (X = x1 , Y = y1 ) + · · · + P (X = x1 , Y = yn )) +
{z
}
|
P (X = x1 )
+ · · · + xm · (P (X = xm , Y = y1 ) + · · · + P (X = xm , Y = yn )) +
|
{z
}
P (X = xm )
+y1 · (P (X = x1 , Y = y1 ) + · · · + P (X = xm , Y = y1 )) +
|
{z
}
P (Y = y1 )
+ · · · + yn · (P (X = x1 , Y = yn ) + · · · + P (X = xm , Y = yn ))
|
{z
}
P (Y = yn )
= x1 P (X = x1 ) + · · · + xm P (X = xm ) + y1 P (Y = y1 ) + · · · + ym P (Y = ym )
= E(X) + E(Y ).
Die geschweiften Klammern erklären sich folgendermaßen: Durch ggf. mehrfache Anwendung
des Kolmogorow-Axioms (K3) (vgl. Definition 2.5) folgt zunächst etwa
P (X = x1 , Y = y1 ) + · · · + P (X = x1 , Y = yn ) = P (X = x1 , (Y = y1 ) ∪ · · · ∪ (Y = yn ));
dies ist jedoch gleich P (X = x1 ), da Y stets genau einen der genannten Werte annimmt,
diese Vereinigung also gleich Ω ist.
Die Behauptung für n Zufallsgrößen wird durch vollständige Induktion über n bewiesen.
Aufgabe 5.1 Beweisen Sie Satz 5.2 c) für je zweielementige Wertemengen {x1 , x2 } und
{y1 , y2 }.
Beispiel 5.8 Bei einem Brettspiel wird jeweils einmal gewürfelt (Augenzahl X). Es werden
jedoch immer drei Felder mehr gezogen als der Würfel anzeigt. Der Erwartungswert für die
Zahl der gezogenen Felder ist nach Satz 5.2 a) und b) und Beispiel 5.5 dann E(X + 3) =
E(X) + E(3) = 27 + 3 = 13
3 .
36
5.3
Varianz und Standardabweichung
Beispiel 5.9 Wir betrachten X als Ergebnis eines Wurfs mit einem normalen Würfel und
Y als Ergebnis eines Wurfs mit einem Würfel, der nur die Augenzahlen Eins und Sechs
aufweist, die jeweils auf drei Seiten stehen. Es ist somit P (Y = 1) = P (Y = 6) = 12 und
E(Y ) = 21 · 1 + 12 · 6 = 72 , die Erwartungswerte von X und Y unterscheiden sich also nicht (vgl.
Beispiel 5.6). Dennoch unterscheiden sich die Verteilungen: Beim ersten Würfel treten auch
Werte auf, die nahe“ beim Erwartungswert liegen (3 und 4), beim zweiten Würfel treten nur
”
extreme“ Werte auf. Der mittlere Abstand der geworfenen Zahlen zum Erwartungswert“
”
”
scheint beim zweiten Würfel größer zu sein. Noch größer dürfte der Unterschied werden, wenn
wir diesen Abstand |X − E(X)| quadrieren zu (X − E(X))2 und hiervon den Erwartungswert
ermitteln:
E((X − E(X))2 ) =
=
1
7 2
1
7 2
1
7 2
1
7 2
6 · (1 − 2 ) + 6 · (2 − 2 ) + 6 · (3 − 2 ) + · · · + 6 · (6 − 2 )
1 5 2
3 2
1 2
1 2
3 2
5 2
35
6 (( 2 ) + ( 2 ) + ( 2 ) + ( 2 ) + ( 2 ) + ( 2 ) ) = 12 ≈ 2,92;
entsprechend für Y :
E((Y − E(Y ))2 ) =
1
2
· (1 − 72 )2 +
1
2
· (6 − 72 )2 = 12 (( 52 )2 + ( 52 )2 ) =
25
4
= 6,25.
Definition 5.5 Es sei X eine Zufallsgröße mit der Wertemenge {x1 , . . . , xm }.
a) V (X) := E((X − E(X))2 ) =
m
P
P (X = xk ) · (xk − E(X))2 heißt Varianz von X.
k=1
p
b) σ(X) := V (X) heißt Standardabweichung von X.
Beispiel 5.10 Wir betrachten ein Roulettespiel ohne Null, d. h. ein Laplace-Experiment mit
Ω = {1; 2; . . . ; 36}. Spieler 1 (Gewinn X1 ) setzt 10 Euro auf Rot, Spieler 2 (Gewinn X2 ) setzt
10 Euro auf die 13. Die Gewinnauszahlung soll wie in Beispiel 5.4 erfolgen. Wie man leicht
nachrechnet, sind die Erwartungswerte in beiden Fällen gleich 0. Jedoch gilt:
√
100
V (X1 ) = 12 · (−10 − 0)2 + 12 · (10 − 0)2 = 100
σ(X1 ) = 100 = 10;
2 + 2 = 100,
√
35
1
3502
V (X2 ) = 36
· (−10 − 0)2 + 36
· (350 − 0)2 = 3500
σ(X2 ) = 3500 ≈ 59,2.
36 + 36 = 3500,
Bei Spieler 1 ist die Abweichung vom Erwartungswert stets dieselbe (nämlich 10). Bei Spieler
2 ist diese Abweichung im Gewinnfalle erheblich größer, was zu der größeren Standardabweichung führt.
Satz 5.3 (Rechenregeln) a) Steht c für die konstante Zufallsgröße, die jedem Ergebnis den
Wert c ∈ R zuordnet, so gilt V (c) = 0.
b) Für c ∈ R gilt
V (X + c) = V (X),
V (c · X) = c2 · V (X),
σ(c · X) = |c| · σ(X).
c) Sind X und Y unabhängige (!) Zufallsgrößen, so folgt V (X + Y ) = V (X) + V (Y ). Für
unabhängige Zufallsgrößen X1 , . . . , Xn gilt V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ).
37
Beweis: Mit Definition 5.5 unter Berücksichtigung der Rechenregeln für den Erwartungswert (Satz 5.2). Zu c):
V (X + Y ) = E((X + Y − E(X + Y ))2 ) = E((X + Y − E(X) − E(Y ))2 )
= E(X 2 − 2XE(X) + (E(X))2 ) + E(Y 2 − 2Y E(Y ) + (E(Y ))2 ) +
|
{z
} |
{z
}
E((X−E(X))2 )
E((Y −E(Y ))2 )
+ E(2XY ) − E(2XE(Y )) − E(2Y E(X)) + E(2E(X)E(Y ))
| {z } |
{z
} |
{z
} |
{z
}
2E(XY )
2E(X)E(Y )
2E(X)E(Y )
2E(X)E(Y )
= V (X) + V (Y )
wegen E(XY ) = E(X)E(Y ) nach Satz 5.2 c).
5.4
Die Binomialverteilung
Beispiel 5.11 Bei einem Einstellungstest werden den Bewerbern Fragen vorgelegt, bei denen
jeweils vier Antworten zur Auswahl stehen, von denen nur eine richtig ist. Ein Teilnehmer,
der vom abgefragten Stoff keine Ahnung hat, kreuzt zu jeder Frage zufällig eine Antwort an.
Definition 5.6 a) Ein Zufallsexperiment heißt Bernoulli-Experiment14 , wenn das Experiment mehrfach unabhängig wiederholbar ist und dabei nur zwei mögliche Ereignisse, E
(Treffer) und E (Niete) betrachtet werden. Die Wahrscheinlichkeit p = P (E) heißt Trefferwahrscheinlichkeit.
b) Die n-fache unabhängige Durchführung eines Bernoulli-Experimentes heißt BernoulliKette der Länge n.
Beispiel 5.12 Das mehrfache Werfen eines Würfels ist eine Bernoulli-Kette, wenn dabei nur
beachtet wird, ob eine Sechs geworfen wird (E) oder nicht (E). Die Trefferwahrscheinlichkeit
beträgt p = 61 .
Beispiel 5.13 In einer Urne liegen 5 weiße und 5 schwarze Kugeln. Wir ziehen eine Kugel
und setzen E: weiße Kugel gezogen. Die mehrfache Durchführung des Experiments ist eine
5
Bernoulli-Kette (p = 10
= 12 ), sofern die gezogene Kugel zurückgelegt wird, Wird nicht
zurückgelegt, sind die Ereignisse bei der k-ten Ziehung weiß gezogen“ nicht unabhängig.
”
Beispiel 5.11 (Fortsetzung) Das zufällige Ankreuzen bei einer Frage ist ein BernoulliExperiment, da es nur auf die Ereignisse richtig“ (E) und falsch“ (E) ankommt. Da nur
”
”
eine von vier Antworten richtig ist, ist p = 14 . Das Ankreuzen von zehn Fragen stellt eine
Bernoulli-Kette der Länge 10 dar, sofern keine Fragen identisch sind oder logisch miteinander
zusammenhängen.
Angenommen, man müsste mindestens acht Fragen richtig beantworten, um den Test zu
bestehen. Wir groß ist die Wahrscheinlichkeit, dass ein ahnungsloser Teilnehmer dies zufällig
schafft?
Da es sich um ein mehrstufiges Zufallsexperiment handelt, kann eine solche Wahrscheinlichkeit prinzipiell mit den Pfadregeln berechnet werden. Bei 10 Stufen ist dies jedoch zu
kompliziert, da sich das Baumdiagramm zu sehr verästelt. Wir gehen daher zunächst von
drei gestellten Fragen aus:
14
Jakob Bernoulli (1654–1705), schweizerischer Mathematiker.
38
u
PPP
PP 34
PP
PP
PP
P
1
4
R
1
4
PP 3
P4P
PP
R
1
4
R
PP 3
P4P
PP
F
@
3
@4
@
F
R
@ 3
@4
@
1
4
F
1
4
R
1
4
F
F
@ 3
@4
@
R
F
1
4
@ 3
@4
@
R
F
Es sei X die Zahl der richtig beantworteten Fragen. Für X = 0 gibt es nur einen Pfad
(F F F ), für X = 1 drei Pfade (RF F, F RF, F F R) usw. Mit der 1. und 2. Pfadregel erhalten
wir
P (X = 0) =
P (X = 1) =
3
4
1
4
·
·
3
4
3
4
·
·
3
4
3
4
=
+
27
64 ,
3 1
4 · 4
·
3
4
+
3
4
·
3
4
·
1
4
= 3 · ( 14 )1 · ( 34 )2 =
27
64 .
Nach der 1. Pfadregel ist die Pfadwahrscheinlichkeit gleich dem Produkt der Wahrscheinlichkeiten der zugehörigen Zweige. Bei jedem Pfad für X = 1 gibt es genau einen 14 -Zweig (1
richtige Antwort) und zwei 43 -Zweige (2 falsche Antworten), daher haben die Pfade dieselbe
Wahrscheinlichkeit, und man kann diese mit der Zahl der Pfade multiplizieren. Es ergibt sich
allgemein
P (X = k) = (Zahl der Pfade) · (Trefferwahrscheinlichkeit)Trefferzahl
· (Gegenwahrscheinlichkeit)Zahl der Nieten .
Zu klären ist noch die Zahl der Pfade im allgemeinen Falle. Bei zwei von vier richtigen
Antworten gibt es die sechs Möglichkeiten RRF F, RF RF, RF F R, F RRF, F RF R, F F RR.
Offenbar handelt es sich um ungeordnete Stichproben
von 2 (richtig beantworteten) aus
(insgesamt) 4 Fragen, deren Anzahl gleich 42 = 6 beträgt. Mit dieser Erkenntnis erhält man
den folgenden Satz:
Satz 5.4 (Bernoulli) Es sei X die Zahl der Treffer bei einer Bernoulli-Kette aus n Experimenten mit Trefferwahrscheinlichkeit p ∈ [0; 1]. Für k ∈ {0; . . . ; n} gilt dann
n
P (X = k) =
· pk · (1 − p)n−k .
k
Beweis: Vollständige Induktion über n.
Induktionsanfang: Für n = 1 ist
1
· p1 (1 − p)0 ,
1
1
P (X = 0) = P ( kein Treffer“) = 1 − p =
· p0 (1 − p)1 .
”
0
P (X = 1) = P ( Treffer“) = p =
”
Induktionsschritt: Wir setzen
(
1 für Treffer beim j-ten Versuch“,
”
Xj :=
0 für kein Treffer beim j-ten Versuch“
”
39
(j ∈ {1; . . . ; n});
X (n) := X1 + · · · + Xn :
Zahl der Treffer bei n Versuchen.
Nach Induktionsvoraussetzung ist
P (X
(n)
n
= k) =
· pk · (1 − p)n−k .
k
Zunächst sei k = 0. Es ist
P (X (n+1) = 0)
=
Xj unabh.
=
P (X1 = 0, . . . , Xn+1 = 0)
P (X1 = 0) · . . . · P (Xn+1 = 0) = p
| {z }
|
{z
}
p
n+1
=
n + 1 n+1
p
(1 − p)0 .
0
p
Es sei jetzt k > 0. Dann ist
P (X (n+1) = k)
=
Xj unabh.
=
Ind.-Vor.
=
=
=
Satz 4.5 b)
=
P (X (n) = k, Xn+1 = 0) + P (X (n) = k − 1, Xn+1 = 1)
P (X (n) = k) · P (Xn+1 = 0) + P (X (n) = k − 1) · P (Xn+1 = 1)
n
n
k
n−k
· p (1 − p)
· (1 − p) +
· pk−1 (1 − p)n+1−k · p
k
k−1
n
n
k
n+1−k
· p (1 − p)
+
· pk (1 − p)n+1−k
k
k−1
n
n
+
· pk (1 − p)n+1−k
k
k−1
n+1
· pk (1 − p)n+1−k ,
k
was zu beweisen war.
Definition 5.7 Es sei n ∈ N∗ und 0 < p < 1. Die durch
n
P (X = k) = B(n, p, k) :=
· pk · (1 − p)n−k
k
(0 ≤ k ≤ n) gegebene Wahrscheinlichkeitsverteilung heißt (n, p)-Binomialverteilung oder
kurz B(n, p)-Verteilung.
Satz 5.5 Für die (n, p)-Binomialverteilung gilt
a)
n
P
B(n, p, k) = 1;
k=0
b) B(n, p, k) = B(n, 1 − p, n − k).
Bemerkung: Zu a): Die Summe über die Werte P (X = 0), . . . , P (X = n) muss natürlich
gleich 1 sein, da es sich um eine Wahrscheinlichkeitsverteilung handelt. Zu b): Bei einer
Bernoulli-Kette der Länge n treten genau dann k Treffer (jeweils mit Wahrscheinlichkeit
p) ein, wenn n − k Nieten (jeweils mit Wahrscheinlichkeit 1 − p) eintreffen, daher ist die
Wahrscheinlichkeit dieselbe.
Beweis: Zu a): Nach dem binomischen Satz (Satz 4.6) folgt
n
n X
X
n k
B(n, p, k) =
p (1 − p)n−k = (p + (1 − p))n = 1n = 1.
k
k=0
k=0
40
Zu b): Mit Satz 4.5 a) ist
n k
n
n−k
=
B(n, p, k) =
p (1 − p)
(1 − p)n−k (1 − (1 − p))n−(n−k) = B(n, 1 − p, n − k).
k
n−k
Beispiel 5.13 (Fortsetzung) Wir ermitteln nun die Wahrscheinlichkeit, dass der ahnungslose
Kandidat von zehn Fragen keine, genau eine, zwei usw. zufällig richtig ankreuzt, mit dem Satz
von Bernoulli. Es ist n = 10 (Zahl der Fragen) und p = 14 (jeweils eine von vier Antworten
ist richtig). X steht für die Zahl der richtig beantworteten Fragen. Dann gilt:
0 10
3
59.049
10
1
·
=1·1·
≈ 0,0563;
·
4
4
1.048.576
0
1 9
10
1
3
1 19.683
·
·
= 10 · ·
≈ 0,1877;
1
4
4
4 262.144
2 8
3
1
6561
10
1
·
= 45 ·
·
≈ 0,2816;
·
4
4
16 65.536
2
3 7
10
1
3
1
2187
·
·
= 120 ·
·
≈ 0,2503;
3
4
4
64 16.384
4 6
10
1
3
1
729
·
·
= 210 ·
·
≈ 0,1460;
4
4
4
256 4096
P (X = 0) =
P (X = 1) =
P (X = 2) =
P (X = 3) =
P (X = 4) =
die Wahrscheinlichkeit ist also für zwei oder drei richtige Lösungen am größten und nimmt
dann ab (die Werte für größere k siehe unten in der Tabelle bzw. die Graphik).
Bemerkung 5.1 Damit man sich diese aufwendigen Rechnungen sparen kann, gibt es Tabellen, in denen die Werte der Binomialverteilungen verzeichnet sind. Für n = 10 sieht eine
solche Tabelle etwa so aus:
k
0
1
2
3
4
5
6
7
8
9
10
0,02
8171
1667
0153
0008
0,1
3487
3874
1937
0574
0112
0015
0001
1
6
1615
3230
2907
1550
0543
0130
0022
0002
0,2
1074
2684
3020
2013
0881
0264
0055
0008
0001
p
0,25
0563
1877
2816
2503
1460
0584
0162
0031
0004
0,3
0282
1211
2335
2668
2001
1029
0368
0090
0014
0001
1
3
0173
0867
1951
2601
2276
1366
0569
0163
0030
0003
0,4
0060
0403
1209
2150
2508
2007
1115
0425
0106
0016
0001
0,5
0010
0098
0439
1172
2051
2461
2051
1172
0439
0098
0010
Aufgeführt sind die ersten vier Nachkommastellen der Dezimalbrüche, so erkennt man in
der Spalte p = 0,25 etwa P (X = 2) ≈ 0,2816 wie oben in Beispiel 5.12 berechnet.
In den freien Feldern ergeben sich so geringe Werte, dass die Rundung auf vier Nachkommastellen keinen positiven Wert mehr ergeben würde (etwa die Wahrscheinlichkeit für
8 Sechsen bei 10 Würfen wäre B(10; 61 ; 8) < 0,00005). Die Summen in einer Spalte müssen
aufgrund von Satz 5.5 a) jeweils 1 ergeben.
41
Es stehen zwar keine Werte zu 0,5 < p < 1 verzeichnet Jedoch kann man sich diese mit
Hilfe von Satz 5.5 b) erschließen: Um beispielsweise die Wahrscheinlichkeit zu ermitteln, bei
einer Trefferwahrscheinlichkeit von p = 0, 9 genau 8 Treffer (von 10 Versuchen) zu erzielen,
rechnet man:
B(10; 0,9; 8)
Satz 5.5 b)
=
Definition 5.8 F (n, p, k) :=
B(10; 1 − 0,9; 10 − 8) = B(10; 0,1; 2) ≈ 0,1937.
k
P
B(n, p, j) heißt kumulierte oder summierte Wahr-
j=0
scheinlichkeit bei der Binomialverteilung (kurz: kumulierte Binomialverteilung“).
”
Beispiel 5.14 Für die Wahrscheinlichkeit für bei zehnmaligem Würfeln höchstens dreimal
”
eine Sechs geworfen“ gilt nach der Tabelle15
P (X ≤ 3) = F (10, 16 , 3) = B(10, 16 , 0) + B(10, 16 , 1) + B(10, 16 , 2) + B(10, 16 , 3)
≈ 0,1615 + 0,3230 + 0,2907 + 0,1550 = 0, 9302.
Satz 5.6 Für eine (n, p)-binomialverteilte Zufallsgröße gilt:
a) P (X ≤ k) = F (n, p, k)
(0 ≤ k ≤ n), P (X ≥ k) = 1 − F (n, p, k − 1)
b) P (X = k) = F (n, p, k) − F (n, p, k − 1)
(1 ≤ k ≤ n),
P (k1 ≤ X ≤ k2 ) = F (n, p, k2 ) − F (n, p, k1 − 1)
c) F (n, p, k) = 1 − F (n, 1 − p, n − k − 1)
(1 ≤ k ≤ n);
(0 ≤ k1 < k2 ≤ n);
(0 ≤ k ≤ n).
Beweis: Zu c):
F (n, p, k)
=
B(n, p, 0) + · · · + B(n, p, k)
=
1 − (B(n, p, k + 1) + B(n, p, k + 2) · · · + B(n, p, n))
Satz 5.5b)
=
1 − (B(n, 1!p, n−k−1) + B(n, 1−p, n−k−2) + · · · + B(n, 1−p, 0)
=
1 − F (n, 1 − p, n − k − 1).
Bemerkung 5.2 Da man sich häufig dafür interessiert, mit welcher Wahrscheinlichkeit die
Zahl der Treffer in einer Bernoulli-Kette sich in einem bestimmten Intervall befindet und
hierfür die Werte der kumulierten Binomialverteilung hilfreich sind, sind auch diese in Tabellen zu finden. Die entsprechende Tabelle zu n = 10 ist:
k
0
1
2
3
4
5
6
7
8
9
0,02
8171
9838
9991
0,1
3487
7361
9298
9872
9984
9999
1
6
1615
4845
7752
9303
9845
9976
9997
0,2
1074
3758
6778
8791
9672
9936
9991
9999
p
0,25
0563
2440
5256
7759
9219
9803
9965
9996
15
0,3
0282
1493
3828
6496
8497
9527
9894
9984
9999
1
3
0173
1040
2991
5593
7869
9234
9803
9966
9996
0,4
0060
0464
6739
3823
6331
8338
9452
9877
9983
9999
0,5
0010
0107
0547
1719
3770
6230
8281
9453
9893
9990
Die Abweichung vom Wert 0,9303 in der Tabelle zu Bemerkung 5.2 kommt durch einen Rundungsfehler
bei der Addition zustande.
42
Leere Plätze sind hier mit 1 zu ergänzen. Die Zeile k = 10 kann fortfallen, da für jedes
p gilt P (X ≤ 10) = 1. Für p-Werte von mehr als 0,5 verwendet man Satz 5.6 c), wie das
Beispiel 5.15 zeigt.
Beispiel 5.15 Für die Wahrscheinlichkeit, dass bei zehnmaligem Münzwurf mindestens dreimal Zahl geworfen wird, gilt
P (X ≥ 3) = P (X > 2) = 1 − P (X ≤ 2) = 1 − F (10; 0,5; 2) ≈ 1 − 0,0547 = 0,9453 = 94,53 %.
Beispiel 5.16 einer Urne liegen sechs weiße und vier schwarze Kugeln. Es wird zehnmal mit Zurücklegen gezogen. X steht für die Zahl der Ziehungen einer weißen Kugel.
Die Wahrscheinlichkeit für höchstens fünfmal eine weiße Kugel gezogen“ ist dann gleich
”
P (X ≤ 5) = F (10; 0,6; 5). Da dieser Wert nicht in der Tabelle steht, schließt man mit Satz
5.6 c)
P (X ≤ 5) = 1 − F (10; 0,4; 4) ≈ 1 − 0,6631 = 0,3369.
Dabei kann F (10; 0,4; 4) auch als die Wahrscheinlichkeit des Gegenereignisses höchstens
”
viermal eine schwarze Kugel gezogen“ betrachtet werden.
Beispiel 5.17 Mit einer (hier nicht aufgeführten) Tabelle bestimmen wir die Wahrscheinlichkeit, dass bei 100 Würfelwürfen die Zahl der Sechsen mindestens 15 und höchstens 20
beträgt:
P (15 ≤ X ≤ 20)
Satz 5.6 b)
=
F (100, 61 , 20) − F (100, 16 , 14) ≈ 0,8481 − 0,2874 = 0,5607,
sie liegt also bei und 56 %.
5.5
Abweichungen vom Erwartungswert
Beispiel 5.18 Ein ahnungsloser Teilnehmer nimmt an einem Test mit 10 Fragen teil, bei
denen jeweils die richtige von fünf vorgegebenen Antworten angekreuzt werden muss. Wie
viele richtige Antworten sind zu erwarten? Intuitiv nimmt man an, dass es zwei sein müssen,
da nur jede fünfte Frage richtig beantwortet wird. Die Berechnung des Erwartungswertes mit
den Werten aus der Tabelle oben (p = 0,2) ergibt tatsächlich
E(X) ≈ 0 · 0,1074 + 1 · 0,2684 + 2 · 0,3020 + 3 · 0,2013 + 4 · 0,0881 + 5 · 0,0264 +
+ 6 · 0,0055 + 7 · 0,0008 + 8 · 0,0001 + 9 · 0 + 10 · 0 = 2,0001
(es ist exakt E(X) = 2, wie der Satz unten zeigt). Tatsächlich werden nur in rund 30 %
der Fälle genau zwei richtige Antworten erzielt. Als Maß dafür, wie stark die Ergebnisse im
Mittel vom Erwartungswert abweichen, wird die Varianz bestimmt:
V (X) ≈ (2 − 0)2 · 0,1074 + (2 − 1)2 · 0,2684 + (2 − 2)2 · 0,3020 + (2 − 3)2 · 0,2013 +
+ (2 − 4)2 · 0,0881 + (2 − 5)2 · 0,0264 + (2 − 6)2 · 0,0055 + (2 − 7)2 · 0,0008 +
+ (2 − 8)2 · 0,0001 + (2 − 9)2 · 0 + (2 − 10)2 · 0 = 1,6009.
Man kann Erwartungswert und Varianz auch viel einfacher mit den folgenden Formeln ausrechnen:
43
Satz 5.7 (Erwartungswert und Varianz der Binomialverteilung) Ist X die Anzahl
der Treffer in einer Bernoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p, so gilt
E(X) = np,
V (X) = np(1 − p),
σ(X) =
p
np(1 − p).
Beweis: Es sei zunächst n = 1. Nach Definition 5.4 ist
E(X) = 0 · P (X = 0) + 1 · P (X = 1) = 0 · (1 − p) + 1 · p = p
und damit
V (X) = (0 − p)2 · P (X = 0) + (1 − p)2 · P (X = 1)
= p2 (1 − p) + (1 − p)2 p = (1 − p)(p2 + (1 − p)p) = (1 − p)p.
Es sei jetzt n > 1. Wir definieren Xj wie im Beweis von Satz 5.4. Dann ist X = X1 +· · ·+Xn ,
also E(X)
Satz 5.2 b)
=
E(X1 ) + · · · + E(Xn ) = np.
Satz 5.3 b)
Entsprechend ist V (X)
=
V (X1 ) + · · ·p
+ V (Xn ) = np(1 − p), da die Zufallsgrößen
X1 , . . . , Xn unabhängig sind. Ferner ist σ(X) = V (X).
Beispiel 5.18 (Fortsetzung) Wir erhalten für die (10, 15 )-Binomialverteilung E(X) = 10· 15 =
2 und V (X) = 10 · 15 · 45 = 85 = 1,6, was die Rechnung oben bis auf Rundungsfehler bestätigt.
√
Außerdem ist σ(X) = 1,6 ≈ 1, 265.
Beispiel 5.19 Eine Münze wird 100-mal geworfen. X sei die Anzahl der Kopf“-Würfe. Für
”
Erwartungswert und Standardabweichung gilt:
q
µ := E(X) = 100 · 12 = 50; σ(X) = 100 · 12 · 12 = 5.
Wie man berechnen oder einer Tabelle entnehmen kann, ist die Wahrscheinlichkeit, dass bei
einer Durchführung des Bernoulli-Experiments tatsächlich der Wert X = 50 realisiert wird,
nur knapp 8 %. Interessant wäre die Frage, mit welcher Wahrscheinlichkeit der realisierte
Wert nur wenig“ vom Erwartungswert (im Folgenden µ genannt) abweicht, etwa höchstens
”
um den Wert der Standardabweichung σ:
P (|X − µ| ≤ σ)
=
Satz 5.6 b)
=
P (µ − σ ≤ X ≤ µ + σ) = P (45 ≤ X ≤ 55)
F (100, 21 , 55) − F (100, 12 , 44)
Tabelle
≈
0,8644 − 0,1356 = 0,7288.
Für die maximalen Abweichungen 2σ und 3σ lauten die Berechnungen entsprechend:
P (|X − µ| ≤ 2σ) = P (40 ≤ X ≤ 60) ≈ 0, 9824 − 0, 0176 = 0, 9648,
P (|X − µ| ≤ 3σ) = P (35 ≤ X ≤ 65) ≈ 0, 9991 − 0, 0009 = 0, 9982.
Das bedeutet: In 73 % der Experimente weicht die Anzahl der Kopf“-Würfe um höchstens
”
die Standardabweichung σ vom Erwartungswert ab. In 96,5 % beträgt diese Abweichung
höchstens das Doppelte, in über 99 % der Fälle höchstens das Dreifache der Standardabweichung.
Beispiel 5.20 Eine entsprechende Berechnung wird für den 80fachen Wurf eines Würfels
durchgeführt, wobei der Wurf einer 5 oder einer 6 als Treffer betrachtet wird (p = 13 ). Zunächst
gilt für Erwartungswert µ und Standardabweichung σ:
q
q
80
1 2
µ = 3 ≈ 26,667; σ = 80 · 3 · 3 = 160
9 ≈ 4,216.
44
Damit folgt nach der Tabelle:
P (|X − µ| ≤ σ) = P (22,5 ≤ X ≤ 30,9) = P (23 ≤ X ≤ 30) ≈ 0,8190 − 0,1616 = 0,6574;
P (|X − µ| ≤ 2σ) = P (18,2 ≤ X ≤ 35,1) = P (19 ≤ X ≤ 35) ≈ 0,9803 − 0,0237 = 0,9566;
P (|X − µ| ≤ 3σ) = P (14,02 ≤ X ≤ 39,3) = P (15 ≤ X ≤ 39) ≈ 0,9985 − 0,0012 = 0,9973.
Beispiel 5.21 Beim 1000-maligen Würfeln (Treffer: Sechs geworfen, also p = 61 ) ergibt sich
P (|X − µ| ≤ σ) = P (155 ≤ X ≤ 178) ≈ 0,692,
P (|X − µ| ≤ 2σ) = P (144 ≤ X ≤ 190) ≈ 0,954,
P (|X − µ| ≤ 3σ) = P (132 ≤ X ≤ 202) ≈ 0,997.
Bemerkung 5.3 Trotz unterschiedlicher Werte für n und p erhält man immer ähnliche
Wahrscheinlichkeiten für |X − µ| ≤ mσ (für m = 2 in den Beispielen rund 96,5 %, 95,9
% und 95,4 %). (1 ≤ m ≤ 3). Grundsätzlich gilt: Ist n hinreichend
groß und p nicht zu nahe
p
an 0 oder 1 (man überprüft die sog. Laplace-Bedingung σ = np(1 − p) > 3), so gilt
P (|X − µ| ≤ σ) ≈ 0,68;
P (|X − µ| ≤ 2σ) ≈ 0,955;
P (|X − µ| ≤ 3σ) ≈ 0,997.
Diese Näherungswerte kommen dadurch zustande, dass man die Werte für B(n, p, k) durch
eine Funktion (mit n und p als Parameter und k als Veränderlichen) approximieren kann:
(k−µ)2
1
B(n, p, k) ≈ √ e− 2σ2
σ 2π
p
(mit µ = np, σ = np(1 − p)). Die Wahrscheinlichkeit, dass die Trefferzahl in einem gegebenen Intervall liegt, wird durch Integration näherungsweise bestimmt:
Zk2
P (k1 ≤ X ≤ k2 ) ≈
(x−µ)2
1
√ e− 2σ2 dx.
σ 2π
k1
Eine Stammfunktion für die Integrationsfunktion lässt sich aus den bekannten Funktionen
nicht explizit darstellen. Für den Fall µ = 0 und σ = 1 erhält man jedoch die Gaußfunktion
x2
1
ϕ(x) := √ e− 2 ,
2π
für die die Stammfunktion Φ mit
Zx
Φ(x) :=
ϕ(t) dt
−∞
tabelliert ist. Wie man durch Ableiten leicht nachprüfen kann, ist
Z
(x−µ)2
1
√ e− 2σ2 dx = Φ( x−µ
σ ) + c.
σ 2π
Damit wäre etwa
µ+σ
Z
(x−µ)2
Tabelle
1
√ e− 2σ2 dx = Φ(1)−Φ(−1) ≈ 0,8413−0,1587 = 0, 6826.
P (µ−σ ≤ X ≤ µ+σ) =
σ 2π
µ−σ
Entsprechend ergibt sich für die Abweichungen 2σ und 3σ:
Φ(2) − Φ(−2) ≈ 0,9772 − 0,0228 = 0,9544;
Φ(3) − Φ(−3) ≈ 0,9987 − 0,0013 = 0,9974.
45
Beispiel 5.22 Wir verwenden die (verschobene und gestreckte) Gaußfunktion für das Beispiel n = 100, p = 21 . Deren Werte kommen den tatsächlichen Wahrscheinlichkeiten sehr
nahe, wie die Tabelle zeigt:
k
B(100, 12 , k)
35
0,0009
40
0,0108
45
0,0485
50
0,0796
55
0,0485
60
0,0108
65
0,0009
√1 e
5 2π
0,0009
0,0108
0,0484
0,0798
0,0484
0,0108
0,0009
(k−50)2
50
Es ist etwa
Z55
P (45 ≤ X ≤ 55) ≈
(k−50)2
s. o.
1
45−50
√ e 50 dx = Φ( 55−50
5 ) − Φ( 5 ) = Φ(1) − Φ(−1) ≈ 0, 6826.
5 2π
45
Der tatsächliche Wert (0,7288, vgl. Beispiel 5.18) ist etwas größer, da das Intervall beide
Grenzen einschließt.
Satz 5.8 (Tschebyscheff-Ungleichung) Es sei X eine Zufallsgröße mit Erwartungswert
E(X) = µ und Standardabweichung σ. Ferner sei c ∈ R 0 . Dann gilt:
P (|X − µ| ≥ c) ≤
σ2
c2
bzw.
P (|X − µ| < c) ≥ 1 −
σ2
.
c2
Beweis: Wir beweisen den Satz für den Fall, dass X eine endliche Wertemenge {x1 , . . . , xm }
besitzt. Wir setzen pk := P (X = xk ). Dann ist
σ 2 = V (X) =
m
X
pk (xk − µ)2 ≥
k=1
≥
m
X
k=1
|xk −µ|≥c
m
X
pk (xk − µ)2
k=1
|xk −µ|≥c
m
X
pk c2 = c2
pk = c2 · P (|X − µ| ≥ c).
k=1
|xk −µ|≥c
Division der Ungleichung mit c2 liefert die Behauptung.
Beispiel 5.23 Wir wenden die Tschebyscheff-Ungleichung auf den 100fachen Münzwurf mit
c = 3σ = 15 an (vgl. Beispiel 5.18). Es gilt danach
P (|X − µ| ≤ 3σ) ≥ 1 −
1
8
σ2
= 1 − = ≈ 0,8889.
(3σ)2
9
9
Das liegt deutlich unter dem berechneten Wert von 0,9982. Die Abschätzung ist also sehr
grob. Das wird auch deutlich, wenn wir den Beweis exemplarisch an diesem Fall zeigen (mit
pk = P (X = k) = B(m, p, k)):
σ 2 = (50 − 0)2 p0 + (50 − 1)2 p1 + · · · + (50 − 100)2 p100
≥ (50 − 0)2 p0 + · · · + (50 − 35)2 p35 + (50 − 65)2 p65 + · · · + (50 − 100)2 p100
(die mittleren Summanden mit |50 − k| < 15 werden schlicht weggelassen)
≥ 152 p0 + · · · + 152 p35 + 152 p65 + · · · + 152 p100
(für alle übrigen gilt (50 − k)2 ≥ 152 )
= 152 (p0 + · · · + p35 + p65 + · · · + p100 ) = 152 · P (|X − 50| ≥ 15).
Hier wurde einiges verschenkt, einmal durch Weglassen positiver Summanden und einmal
durch Ersetzen von bis zu 502 = 2500 durch 152 = 225.
46
Bemerkung 5.4 Im Folgenden soll gezeigt werden, dass die relative Häufigkeit des Eintretens eines Ereignisses in einem beliebig wiederholbaren Experiments tatsächlich gegen einen
festen Wert (nämlich p) strebt, wenn man n gegen unendlich gehen lässt. Wir wollen damit
auf Kapitel 2.2 zurückkommen und die Konvergenz der relativen Häufigkeit für n → ∞ untersuchen, denn die wiederholte Durchführung eines Zufallsexperiments stellt offenbar eine
Bernoulli-Kette dar.
Obwohl die Tschebyscheff-Ungleichung eine grobe Abschätzung darstellt, kann man sie für
eine solche Herleitung verwenden. Wir formulieren sie speziell für die relative Häufigkeit bei
Bernoulli-Ketten:
Satz 5.9 Ist X (n, p)-binomialverteilt und rn =
eines Treffers und ε > 0, so gilt
X
n
P (|rn − p| ≤ ε) ≥ 1 −
die relative Häufigkeit des Eintretens
p(1 − p)
.
nε2
Beweis: Nach der Tschebyscheff-Ungleichung mit c = nε ist
P (|rn − p| ≤ ε) = P (|X − pn| ≤ nε) = P (|X − µ| ≤ c)
σ2
np(1 − p)
p(1 − p)
≥ 1− 2 =1−
=1−
.
2
c
(nε)
nε2
Satz 5.10 (Bernoulli-Gesetz der großen Zahlen) Ist rn die relative Häufigkeit des Eintretens eines Treffers bei einer Benoulli-Kette der Länge n mit Trefferwahrscheinlichkeit p,
so gilt für jedes ε > 0:
lim P (|rn − p| ≤ ε) = 1.
n→∞
Beweis: Wegen P (|rn − p| ≤ ε) ≤ 1 gilt dies auch für den Limes. Andererseits ist
lim P (|rn − p| ≤ ε) ≥ 1 − lim
n→∞
n→∞
p(1 − p)
=1−0=1
nε2
nach Satz 5.9 (zu den verwendeten Rechenregeln vgl. Skript Folgen und Reihen“).
”
Bemerkung 5.5 Man sagt, rn konvergiert nach Wahrscheinlichkeit“ gegen p. Man beachte,
”
dass diese Aussage nicht identisch ist mit der des empirischen Gesetzes der großen Zahlen (s.
Bemerkung 2.1). Dennoch kann man hiermit begründen, dass rn für hinreichend große n als
Schätzwert für p verwendet werden kann.
47
Herunterladen