Zufall

Werbung
Kapitel 7
Zufall
Gott würfelt nicht!
Albert Einstein zur Würfelei“
”
in der Quantenmechanik
Stochastik beschäftigt sich mit der mathematischen Beschreibung und Analyse zufälliger
Vorgänge. Die beiden Hauptgebiete der Stochastik sind Wahrscheinlichkeitstheorie und Statistik. In diesem einführenden Kapitel über den Zufall stellen wir elementare Fragestellungen vor
und erläutern sie an Hand von interessanten Problemstellungen. Das Modellierungsinstrument
Markov–Ketten wäre eine willkommene Anwendung.
7.1
Laplace–Häufigkeiten
Wie reden wir über den Zufall? Wir wollen uns nicht lange dabei aufhalten. Mögliche Defini”
tionsschnipsel“:
Zufall ist das Eintreten unvorhergesehener und unbeabsichtigter Ereignisse.
Das, wobei unsere Rechnungen versagen, nennen wir Zufall (Albert Einstein).
Jemandem fällt etwas (unverdientermaßen) zu.
Die Spannung bei der Verwendung des Zufalls resultiert wesentlich aus der naturwissenschaftlichen Sicht vom Eintreten von Ereignissen: das Kausalitätsprinzip lässt nicht Determiniertes
nicht zu. Ein Ausweg ist, dass wir die Umstände (Anfangsbedingungen) des Greifens von naturwissenschaftlichen Gesetzen nicht vollständig kennen können.
Beispiele für das Wirken von Zufall“:
”
• Ergebnis beim Münzwurf
• Eintreten von Augenzahlen beim Würfeln
• Radioaktiver Zerfall
• Männlicher oder weiblicher Nachwuchs
Die Folge von Zahlen, die wir etwa beim Würfeln (mit einem fairen Würfel) erhalten, nennen
wir Zufallszahlen. Es drängt sich sofort die Problematik des Tests auf Zufälligkeit auf. Ist
1, 2, 2, 6, 5, 6, 6, 6, 3, 6, 6
Teil einer Folge von Würfelergebnissen? Klar, dass dies sein kann, aber als Basis für eine Simulation des Zufalls erscheint sie ungeeignet.
111
Nun gehen wir daran, das Nichtwissenkönnen des Ausgangs eines Zufallsexperiments zu quantifizieren: Jedem Ereignis soll eine Zahl aus [0, 1] zugeordnet werden, die uns gestattet, die Unsicherheit über den Ausgang anzugeben: 1 sollte für Sicherheit, 0 für vollständige Unsicherheit
stehen. Wir tun dies nun in einer einfachen Situation, nämlich in einer Situation, in der alle
Elementarereignisse, was die Unsicherheit über ihr Eintreten betrifft, gleichberechtigt sind. Dazu führen wir die Begriffe Laplace–Experiment und Laplace–Wahrscheinlichkeit ein. Der Begriff
der Laplace–Wahrscheinlichkeit hat den Vorteil, dass ihm die Vorstellung eines konstruktiven
Vorgehens zugrunde liegt, nämlich die Vorstellung von der rein zufälligen Wahl“. Wir stellen
”
uns hierunter vor, dass es gelingt, aus einer endlichen Menge Ω von Elementarereignissen ein Element so auszuwählen, dass jedes Element ω ∈ Ω diesselbe Chance hat, ausgewählt zu werden.
Einen Mechanismus, der eine solche Zufallswahl bewerkstelligt, nennen wir einen Laplace–
Mechanismus1 . Ein beliebtes Bild von einem Laplace–Mechanismus ist das Urnenmodell (ein
Gefäß, in dem Gegenstände versteckt“ werden, die man dann herausholen kann), eine weitere
”
Vorstellung von einem Laplace–Mechanismus ist der Würfelwurf.
Definition 7.1.1 Sei Ω eine endliche Menge. Für jede Teilmenge A von Ω ist die Laplace–
Wahrscheinlichkeit definiert durch
P (A) :=
#A
.
#Ω
Man nennt P (A) die Wahrscheinlichkeit, dass ein (rein zufällig ausgewähltes) Element ω ∈ Ω
in A liegt. Die Abbildung
P : P OT (Ω) ∋ A 7−→ P (A) ∈ R
heißt (auch) Laplace–Wahrscheinlichkeit.
Das Tripel (Ω, P OT (Ω), P ) nennen wir (in Anlehnung an den allgemeinen Fall in der Wahrscheinlichkeitstheorie) einen Laplace-Wahrscheinlichkeitsraum.
Ob die Laplace-Annahme für ein bestimmtes Experiment gerechtfertigt ist oder nicht, kann man
im Allgemeinen nicht mathematisch“ entscheiden.
”
Beispiel 7.1.2 Den Münzwurf betrachten wir als Laplace–Mechanismus. Hier ist
Ω = {K, Z} ; P ({K}) = P ({Z}) =
1
.
2
Beim Würfelexperiment, betrachtet als Laplace–Mechanismus, haben wir
Ω = {1, . . . , 6} ; P ({i}) =
1
, 1 ≤ i ≤ 6.
6
Für das zusammengesetzte“ Ereignis A := {1, 2, 3} errechnen wir P (A) = 21 .
”
Beim Würfeln mit zwei Würfeln, betrachtet als Laplace–Experiment, haben wir:
Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6} ; P ((i, j)) =
1
, 1 ≤ i, j ≤ 6 .
36
Daraus errechnet sich:
P (A) =
P (A) =
1
6
1
=
für A := {(i, j) ∈ Ω|i + j ≥ 10},
36
6
5
15
=
für A := {(i, j) ∈ Ω|i > j}.
36
12
P.S. Laplace (1749-1827); Arbeiten zur Wahrscheinlichkeitstheorie und Himmelsmechanik
112
Für das zusammengesetzte Ereignis
A := {(i, j) ∈ N × N|i = 1 oder (i ≥ 4 und j = 1) oder (i ≥ 4 und j ≥ 4)}
ist die Laplace–Wahrscheinlichkeit schon etwas mühsam auszurechnen. Sie ist
13
36 .
Es ist nun offensichtlich, dass bei der Berechnung von Laplace–Wahrscheinlichkeiten das Einmaleins der Kombinatorik, d.h. der Zählmethoden, die die Auswahlmöglichkeiten von Elementen
nach einem bestimmten Prinzip quantifiziert, äußerst hilfreich ist.
Bemerkung 7.1.3 Beachte, dass ein Laplace–Experiment ein Modell für eine konkrete reale
Situation ist. Unsere Definition der Laplace–Wahrscheinlichkeit ist innerhalb dieses Modells
gegeben und nicht für die reale Situation. Der Übergang von der Wirklichkeit zum Modell ist in
den hier exemplarisch betrachteten Fällen meist naheliegend, in allgemeineren Situationen ( Wie
”
wahrscheinlich ist ein Supergau in einem russischen Kernkraftwerk“/ Wie wahrscheinlich ist es,
”
dass auf einem Stern der Milchstraße Leben existiert“) ist dieser sicher sehr viel schwieriger zu
vollziehen.
In der Bemerkung 7.1.3 haben wir den Begriff Modell erwähnt. Nehmen wir hier die Gelegenheit wahr, den Begriff kurz beleuchten.
. . . Deshalb vertrete ich die Auffassung, die man als schlicht oder naiv bezeichnet hat, daß
eine physikalische Theorie nur ein mathematisches Modell ist, mit dessen Hilfe wir die Ergebnisse unserer Beobachtungen beschreiben. Eine Theorie ist eine gute Theorie, wenn sie
ein elegantes Modell ist, wenn sie eine umfassende Klasse von Beobachtungen beschreibt und
wenn sie die Ergebnisse weiterer Beobachtungen vorhersagt. Darüber hinaus hat es keinen
Sinn zu fragen, ob sie mit der Wirklichkeit übereinstimmt, weil wir nicht wissen, welche
Wirklichkeit gemeint ist.
. . . Es hat keinen Zweck, sich auf die Wirklichkeit zu berufen, weil wir kein modellunabhängiges Konzept der Wirklichkeit besitzen.2
Legen wir uns nun einige einfache Aussagen zurecht.
Folgerung 7.1.4 Sei Ω eine endliche Menge. Wir haben zur Laplace–Wahrscheinlichkeit
P : P OT (Ω) ∋ A 7−→
#A
∈R
#Ω
die folgenden Aussagen:
(a) P (A) ∈ [0, 1] ∩ Q für alle A ⊂ Ω.
(b) P ({x}) = 1 für alle x ∈ Ω.
#Ω
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) für alle A, B ∈ P OT (Ω).
(d) P (Ω\A) = 1 − P (A) für alle A ⊂ Ω.
(e) P (∅) = 0.
2
Aus: St. W. Hawkin, Einsteins Traum, Rowohlt, 1993
113
Beweis:
(a) und (b) sind trivial. Die Aussage (c) ist einfach einzusehen. Damit sind nun auch (d) und
(e) klar.
Die Wahrscheinlichkeit P (Ω\A) = 1 − P (A) heißt Gegenwahrscheinlichkeit von A .
In einer Urne liegen drei schwarze Kugeln und eine weiße Kugel. Auf gut Glück“ werden
”
zwei Kugeln der Urne entnommen. Welche Wahrscheinlichkeit ist größer, zwei schwarze Kugeln
oder eine weiße und eine schwarze Kugel herauszunehmen? Man ist auf Grund der Tatsache,
dass dreimal soviele schwarze wie weiße Kugeln in der Urne liegen zu vermuten, dass die erste
Möglichkeit wahrscheinlicher ist. Dem ist aber nicht so, denn es gibt drei Möglichkeiten, zwei
schwarze Kugeln herauszunehmen und drei Möglichkeiten eine schwarze und eine weiße Kugel
herauszunehmen. Es lässt sich das auch rechnerisch begründen:
Wahrscheinlichkeit für das Ziehen zweier schwarzer Kugeln = 34 · 23 = 12 ;
Wahrscheinlichkeit für das Ziehen einer weißen und einer schwarzer Kugel = 14 · 1 + 34 · 13 = 21 .
Betrachten wir ein Würfelexperiment und nennen wir es das Augensummenparadoxon.
G.W. Leibniz hat sich bei der Analyse dieses Experimentes einen kleinen Schnitzer erlaubt:
Es sei ihm unbegreiflich, wie ihm erfahrene Würfelspieler versicherten, warum bei zwei
”
Würfeln die Augensumme 9 wahrscheinlicher sei als die Augensumme 10, aber bei drei
Würfeln die Augensumme 10 wahrscheinlicher als die Augensumme 9. Denn schließlich könne
die Summe 9 wie die Summe 10 in beiden Fällen auf gleich viele Arten anfallen, also müssten
die Augensummen in beiden Fällen gleich wahrscheinlich sein.“.
Wir betrachten das Würfeln mit zwei Würfeln als Laplace–Experiment. Wir unterstellen
damit, dass die Würfel unterscheidbar sind und es einen ersten und einen zweiten Würfel gibt.
Wir haben
Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6},
und interessieren uns also für die Laplace–Wahrscheinlichkeiten der Ereignisse
A9 := {(i, j) ∈ Ω|i + j = 9} , A10 := {(i, j) ∈ Ω|i + j = 10} .
Wir haben dazu A9 , A10 abzuzählen. Es gilt
A9 = {(3, 6), (6, 3), (4, 5), (5, 4)} , A10 = {(4, 6), (6, 4), (5, 5)} .
und daher
4
1
3
1
= , P (A10 ) =
=
36
9
36
12
Bei drei Würfeln zeigt eine einfache Aufzählung (bei entsprechender Bezeichnung)
P (A9 ) =
P (A9 ) =
19
24
, P (A10 ) =
.
216
216
Leibniz hat übersehen, dass die Reihenfolge der Summanden hier wichtig ist. Modelliert man
das Experiment mit zwei ununterscheidbaren Würfeln, dann hat man statt 36 Möglichkeiten
nur noch 21 mögliche Ausgänge, aber kein Laplace–Experiment mehr, da etwa die Ausgänge
1–1 und 1–2 verschiedene Wahrscheinlichkeiten haben.
Der Fehler, der hier Leibniz unterlaufen ist, ist Basis für einen Jahrmarkttrick, der nach J.
Bertrand Bertrandsches Schachtelparadoxon genannt wird:
114
Drei nicht unterscheidbare Schachteln enthalten zwei Goldmünzen (1. Schachtel),
zwei Silbermünzen (2. Schachtel) und eine je eine Gold- und eine Silbermünze (3.
Schachtel). Jetzt entnimmt man einer Schachtel eine Münze. Der Veranstalter des
Spiels bietet nun eine Wette an: Die zweite Münze in der Schachtel ist aus demselben
Metall!
Man ist versucht, zu vermuten, dass die Wette fair ist, da man geneigt ist, zu vermuten, dass die
Beschaffenheit der zweiten Münze gleichwahrscheinlich ist. Dies ist nicht der Fall. Analysieren
wir die Situation, dass G(old) gezogen wurde. Wir vermuten richtig, dass nicht aus der Schachtel
mit den zwei Silbermünzen gezogen wurde und schließen daraus irrig, dass mit Wahrscheinlichkeit 12 beide Münzen in der Schachtel, aus der gezogen wurde, aus Gold sind. In Wahrheit sind
mit einer Wahrscheinlichkeit von 32 beide Münzen aus Gold, weil in zwei von 3 Fällen die beiden
Münzen in der Schachtel aus Gold sind; später kommen wir darauf zurück..
Betrachten wir nun das Geburtstags–Pardoxon. Für eine Gruppe von n Personen ist die
Wahrscheinlichkeit“ zu ermitteln, dass mindestens ein Paar unter diesen Personen existiert, das
”
am gleichen Jahrestag Geburtstag hat. Wir nehmen an:
• Das Jahr wird mit 365 Tagen angesetzt, wir sehen also vom Auftreten von Schaltjahren ab.
• Geburtstage sind über die Jahrestage gleichverteilt; wir haben alsdo keine Zwillinge unter
den Personen.
Damit liegt ein Laplace–Experiment vor und jede Person hat mit
einem bestimmten Jahrestag Geburtstag. Wir setzen
1
365
Wahrscheinlichkeit an
Ω := {(ω1 , . . . , ωn ) ∈ Nn |1 ≤ ωi ≤ 365, 1 ≤ i ≤ n}.
Das zu betrachtende Ereignis ist
A := {(ω1 , . . . , ωn ) ∈ Ω|ωi = ωj für mindestens ein Paar (i, j), i 6= j}
und die gesuchte Wahrscheinlichkeit ist
Pn∗ :=
#A
365n
Betrachten wir zunächst einige Spezialfälle.
n ≥ 365
n=2
Pn∗ = 1 .
Die erste Person hat freie Auswahl, für die zweite Person ist die Wahrscheinlichkeit, am gleichen Tag wie die erste Person Geburtstag zu ha1
. Also
ben, 365
1
Pn∗ =
365
n=3
Die erste Person hat freie Auswahl, die zweite Person hat einen ver364
schiedenen Geburtstag mit Wahrscheinlichkeit 365
, die dritte Person
wiederum einen von den beiden Tagen verschiedenen Geburtstag mit
Wahrscheinlichkeit 363
365 . Also gilt
Pn∗ = 1 −
365 364 363
·
·
≈ 0, 009
365 365 365
115
Am Beispiel n = 3 sehen wir zweierlei. Erstens wird das günstige Vorgehen deutlich: Statt
Pn∗ haben wir zunächst die Wahrscheinlichkeit angesetzt, dass das Ereignis nicht eintritt und
dann die Gegenwahrscheinlichkeit“ gebildet. Zweitens sehen wir einen multiplikativen Ansatz
”
für zusammengesetzte Ereignisse. Wir kommen darauf zurück.
Allgemein erhalten wir
365!
Pn∗ = 1 −
(365 − n)!365n
und damit die Ergebnisse aus Tabelle
Wir sehen also, dass bei einer Gruppengröße von 23 Personen die Wahrscheinlichkeit, dass darunter ein Paar
n
20
22
23
30
40
50
mit gleichem Geburtstag ist, bereits
Pn∗ 0,411 0,476 0,507 0,706 0,891 0,970
größer als 21 ist.
Die Annahme über das Schaltjahr
Abbildung 7.1: Zum Geburtstagsproblem
beeinflußt die obigen Ergebnisse nur unwesentlich, etwa bleibt es bei der Aussage bezüglich der Gruppengröße n = 23. Die Annahme über die Gleichverteilung der Geburtstage
ist auch kein Einwand zur Qualität der obigen Ergebnisse, denn die Wahrscheinlichkeiten werden
eher größer; man mache sich dies etwa daran klar, dass alle Personen an einem bestimmten Tag
Geburtstag haben.
Die Überraschung mit dem Ergebnis ist: ein Ereignis, dessen Eintreten für uns als Individuum
höchst unwahrscheinlich ist, ist für eine Gruppe bei weitem nicht mehr unwahrscheinlich. Der
Grund ist der, dass wir nicht auf einen bestimmten Geburtstagszwilling“ warten, sondern auf
”
irgendeinen.
7.2
Kombinatorische Überlegungen
Sei M eine Menge mit n Elementen. Wir wollen für den Sachverhalt
Wähle Elemente von M unter den Gesichtspunkten Anzahl und/oder Reihenfolge“
”
aus
die damit verbundenen Anzahlprobleme – auf wieviele Arten ist dies möglich? – studieren.
Definition 7.2.1 Eine r–Permutation (ohne Wiederholung) der Elemente einer n–elementigen Menge M ist eine injektive Abbildung von {1, . . . , r} nach M. Ist r = n, so sprechen
wir kurz von einer Permutation.
Im Spezialfall M = {1, . . . , n} kennen wir schon folgende Bezeichnung:
Sn := {σ : M −→ M |σ Permutation}
Sei M = {x1 , . . . , xn } mit #M = n. Aus der Definition 7.2.1 folgt sofort, dass r ≤ #M sein
muss, wenn es r−Permutationen geben soll, weil das Bild von {1, . . . , r} unter einer injektiven
Abbildung sicher r Elemente besitzt.
Ist σ eine r–Permutation, so entspricht dieser Abbildung σ das geordnete Tupel (xσ(1) , . . . , xσ(r) ) .
Umgekehrt, hat man eine Menge B := {xi1 , . . . , xir } mit #B = r, so gehört dazu die r–
Permutation σ : {1, . . . , r} ∋ j 7−→ xij ∈ M . Damit ist wohl klar, dass die Definition 7.2.1
unserer Anschauung von der Auswahl von r Elementen unter Berücksichtigung der Reihenfolge
entspricht.
116
Satz 7.2.2 Sei M eine Menge mit n Elementen. Die Anzahl P (n, r) der r–Permutationen ist
P (n, r) = n(n − 1) · · · (n − r + 1) =
n!
, 0 ≤ r ≤ n.
(n − r)!
Beweis:
Sei M := {x1 , . . . , xn } . Wie können wir eine r–Permutation σ hinschreiben? Für das Bild σ(1)
stehen n Elemente zur Verfügung. Sind die Bilder σ(1), . . . , σ(r − 1) festgelegt, so stehen für σ(r)
wegen der geforderten Injektivität nur die Elemente in M \{xσ(1) , . . . , xσ(r−1) } zur Verfügung,
also n − (r − 1) Elemente. Dies bedeutet nun:
P (n, 1) = n ; P (n, r) = P (n, r − 1) · (n − r + 1) .
Daraus folgt durch sukzessives Ausmultiplizieren oder induktiv P (n, r) = n(n − 1) · · · (n − r + 1) .
Das schnelle Anwachsen der Ziffernstellen bei den Fakultäten3 ist Grund für die große Komplexität für Aufgaben, bei denen etwa eine große Anzahl von Objekten nach einem bestimmten
Merkmal in eine Ordnung gebracht werden sollen; siehe Abschnitt 6.4.
Beispiel 7.2.3 Man bestimme die Anzahl m der vierziffrigen Zahlen, deren Ziffern alle verschieden sind; 0 darf als erste Ziffer nicht vorkommen.
Für die erste Ziffer gibt es 9 Möglichkeiten: 1, 2, . . . , 9 . Für die Besetzung der verbleibenden
drei Ziffern gibt es dann jeweils noch P (9, 3) Möglichkeiten. Also m = 9 · P (9, 3) = 4536 .
Für das eben diskutierte Objekt Permutation“ gibt es die Interpretation durch ein Urnenex”
periment:
In einer Urne befinden sich n Objekte, nämlich die n Elemente von M . Man nimmt
der Reihe nach jeweils ein Element aus der Urne, ohne es wieder zurückzulegen.
Dann bilden r gezogene Elemente in der Reihenfolge, in der sie gezogen wurden, eine
r−Permutation der Menge M .
Eine duale Interpretation als Schachtelexperiment ist:
Wir haben n Schachteln und jede Schachtel kann höchstens ein Objekt aufnehmen. Jede mögliche Verteilung der r Objekte auf die Schachteln ist dann eine rPermutation.
Definition 7.2.4 Eine r−Permutation mit Wiederholung einer Menge M ist eine Abbildung τ : {1, . . . , r} −→ M.
Die Anzahl W (n, r) der r−Permutationen mit Wiederholungen ist
W (n, r) = nr .
Der Beweis dafür ist leicht zu erbringen.
Die Interpretation der r−Permutationen mit Wiederholung als Urnenexperiment ist folgende:
Man nimmt der Reihe nach — die Reihenfolge spielt daher eine Rolle – jeweils ein Element aus
3
G.W. Leibniz liebte es, zahlenmäßige Zusammenhänge in Form von Tabellen und Tafeln darzustellen. Beispielsweise fügte er seiner Arbeit Dissertatio de Arte Combinatoria“aus dem Jahre 1666, in der mit seinem Titel
”
auch die Bezeichnung Kombinatorik vorprägte, eine Tabelle der Fakultäten 1! bis 24! = 620448401733239439360000
an.
117
der Urne, insgesamt r Elemente, legt sie aber jeweils nach dem Ziehen wieder in die Urne
zurück. Die duale Interpretation als Schachtelexperiment ist die Verteilung von r Objekten auf
n Schachteln, wobei jede Schachtel beliebig viele Elemente aufnehmen kann.
Bisher haben wir Auswahlen betrachtet, so dass die Reihenfolge der Elemente von Relevanz
war und verschiedene Reihenfolgen verschieden zu zählen waren. Wenn wir nun keine Rücksicht
auf die Anordnung nehmen, kommen wir zum Begriff der Kombination (der Elemente).
Definition 7.2.5 Eine r–Kombination von M ist die Auswahl einer Teilmenge von M, bestehend aus r Elementen.
Die Anzahl C(n, r) der r–Kombinationen einer Menge M mit n Elementen ist
C(n, r) =
n!
.
r!(n − r)!
Die Interpretation als Urnenexperiment kann man etwa so sehen: Man ziehe r Elemente ohne Zurücklegen und vergesse die Reihenfolge der gezogenen Elemente. Die Interpretation als
Schachtelexperiment ist so: Man verteile r Objekte auf n Schachteln, so dass in jeder Schachtel
höchstens ein Objekt liegt. Einordnungen heißen äquivalent (oder werden nicht unterschieden),
wenn sie durch eine Permutation der Objekte ineinander übergeführt werden können.
Wir nennen
n
n!
(n, r ∈ N, r ≤ n)
:=
r!(n − r)!
r
Binominalkoeffizienten. n
r kann interpretiert werden als die Anzahl der binären Wörter mit
r Einsen und n − r Nullen. Aus dieser Interpretation oder aus der Definition folgt sofort
n
n
n
n
n
n
=
=1,
=
=n,
=
(7.1)
0
n
1
n−1
r
n−r
Sortiert man die Teilmengen der n–elementigen
Menge M nach der Anzahl ihrer Elemente, so
liefert die Summenregel
n
n
n
+
+ ··· +
= 2n ,
(7.2)
0
1
n
1
1
1
1
1
1
3
4
5
1
2
1
3
6
10
1
4
10
1
5
1
da links und rechts der Identität die Anzahl
...
...
...
aller Teilmengen von
M steht.
Sortieren wir die nr Wörter der Länge n mit
r Einsen und n − r Nullen nach der 1. Ziffer:
Abbildung 7.2: Pascalsches Dreieck
n−1
Mit 1 beginnen r−1 Wörter der Länge n, mit
0 beginnen n−1
n−Wörter. Also
r
n
n−1
n−1
=
+
.
(7.3)
r
r−1
r
n
n
4
Zusammen mit der Randbedingung“
0 = n = 1, stellt man dies im Pascalschen Dreieck
”
n
dar. Die Bezeichnung von r als Binomialkoeffizient hängt zusammen mit dem folgenden Satz.
4
Diese Anordnung der Binomialkoeffizienten findet sich wohl erstmals bei B. Pascal.
118
Beispiel 7.2.6 Beim Bridge–Spiel
erhält ein Spieler 13 Karten aus einem Spiel aus 52 Karten.
12 Kartenzusammenstellungen möglich. Die Chance“ eine
Für einen Spieler sind also 52
≈
10
13
”
ganz bestimmte Hand“ zu erhalten, ist für einen Spieler also etwa 1 : 1012 .
”
Beispiel 7.2.7 Beim Lotto wird bei einer Ziehung aus der Menge {1, . . . , 49} eine 6–elementige
Teilmenge ausgewählt. Daher ist die Anzahl der möglichen Ziehungen
49
= 13983816 .
6
7.3
Mehrstufige Experimente und Pfadregel
Wir fassen den Wahrscheinlichkeitsbegriff etwas weiter, indem wir Abstand nehmen von der
Vorstellung, dass jedes Elementarereignis die gleiche Chance haben soll.
Definition 7.3.1 Sei Ω eine endliche Menge. Eine Abbildung
P : P OT (Ω) ∋ A 7−→ P (A) ∈ R
heißt Wahrscheinlichkeitsmaß, wenn gilt:
(a) 0 ≤ P (A) ≤ 1 für alle A ∈ P OT (Ω) ;
(b)
P (∅) = 0 , P (Ω) = 1 ;
(c)
P (A ∪ B) = P (A) + P (B) für alle A, B ∈ P OT (Ω) mit A ∩ B = ∅ .
Das Tripel (Ω, P OT (Ω), P ) nennen wir dann einen (endlichen) Wahrscheinlichkeitsraum.
Etwa ist zu erwarten, dass bei einem nicht fairen Würfel die Wahrscheinlichkeit für eine bestimmte Augenzahl nicht mehr der Laplace-Wahrscheinlichkeit entspricht, also anders festzulegen ist.
Bemerkung 7.3.2 Die Konzepte einer Wahrscheinlichkeitstheorie mit einem unendlichen Ereignisraum Ω wurden abschließend ausformuliert von Kolmogorov5 . Sie passen zu unserem Herangehen für einen endlichen Ereignisraum.
Ein geeignetes Instrument zur Berechnung von Wahrscheinlichkeiten bei mehrstufigen Experimenten ist das
Baumdiagramm. Als Ausgang eines Experiments betrachtet man bei einem n-stufigen Zufallsversuch dann
I
das n-Tupel (x1 , . . . , xn ), wobei xi der Ausgang des
i-ten Versuchs ist. Veranschaulichen kann man einen
II
solchen Zufallsversuch durch ein Baumdiagramm, die
nebenstehende Abbildung 7.3 beschreibt das dreimaIII
lige Werfen einer Münze; jedem Ausgang (x1 , . . . , xn )
eines mehrstufigen Versuchs entspricht ein Pfad im zuAbbildung 7.3: Würfelexperiment
gehörigen Baumdiagramm.
Jede Kante trägt dann auch noch ein Kantenge”
wicht“, nämlich die Wahrscheinlichkeit, mit der von einer Stufe zur nächsten entlang dieser
5
A.N. Kolmogorov, 1903-1987
119
Kante fortgeschritten wird. Im Beispiel 7.3 sollten wir jede Kante mit der Wahrscheinlichkeit 21
versehen, wenn die Münze als fair angesehen werden soll, jeder Ausgang des Experiments hat
also die Wahrscheinlichkeit 18 und da wir 8 Blätter (es sind die Endausgänge im Diagramm)
haben, summieren sie sich zu 1 auf. .
Machen wir ein nicht auf Anhieb zu durchschauendes Urnenexperiment.
1. Zug Ereignis Wahrscheinlichkeit
Eine Urne enthalte eine rote und drei
schwarze Kugeln. Es werden zufällig
eine Kugel gezogen, ihre Farbe notiert und anschließend diese sowie eine weitere Kugel der gleichen Farbe in
die Urne zurückgelegt. Nach gutem
”
Mischen“ wird wiederum eine Kugel
gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot?
rot
1
4
2. Zug Ereignis Wahrscheinlichkeit
rot
schwarz
2
5
3
5
1. Zug Ereignis Wahrscheinlichkeit
schwarz
3
4
2. Zug Ereignis Wahrscheinlichkeit
Jedes Ziehen wird als Laplace-Experiment be1
rot
5
trachtet. Symbolisieren wir das Ziehen einer ro4
schwarz
5
ten (schwarzen) Kugel mit 1“ (bzw. 0“), so ist
”
”
Ω := Ω1 × Ω2 mit Ω1 := Ω2 := {0, 1} ein geeigneter Grundraum für dieses zweistufiges ExperiAbbildung 7.4: Urnenexperiment
ment, wobei sich das interessierende Ereignis die
”
beim zweiten Mal gezogene Kugel ist rot“ formal
als
B := {(1, 1), (0, 1)}
darstellt. Die Wahrscheinlichkeit p eines Ereignisses (a1 , a2 ) ∈ Ω können wir uns aus dem Konzept der Laplace-Wahrscheinlichkeit entnehmen. Wir können also auf Grund der Tabelle 7.4
erwarten:
p((1, 1)) =
p((0, 1)) =
p((1, 0)) =
p((0, 0)) =
1
4
3
4
1
4
3
4
2
,
5
1
· ,
5
3
· ,
5
4
· .
5
·
(7.4)
(7.5)
(7.6)
(7.7)
Offenbar ist der Faktor 41 in (7.4) die Wahrscheinlichkeit dafür, dass das erste Teilexperiment
den Ausgang rot“ besitzt. Der zweite Faktor 25 in (7.4) ist die Wahrscheinlichkeit, welche wir
”
auf Grund der Kenntnis des Ausgangs des ersten Teilexperiments festlegen konnten. Da diese
Wahrscheinlichkeit etwas mit dem Übergang vom ersten zum zweiten Teilexperiment“ zu tun
”
hat, nennt man sie eine Übergangswahrscheinlichkeit; analog sind die anderen Fälle zu
betrachten. Im nächsten Abschnitt werden wir uns etwas systematischer damit befassen; das
Stichwort ist Bedingte Wahrscheinlichkeit“.
”
Das beigefügte Baumdiagramm 7.5 veranschaulicht die Situation. Die Wahrscheinlichkeit p∗
für das Eintreten des gewünschten Ereignisses B ist:
p∗ := p((1, 1)) + p((0, 1)) =
120
1
1 2 3 1
· + · = .
4 5 4 5
4
Dieses Ergebnis ist auf folgendem Wege auch einzusehen:
Nach dem ersten Zug sind in der Urne 1 rote und
4 schwarze Kugeln ( normale Kugeln“) und ei”
ne Zauberkugel“, von der wir – in Unkenntnis
”
der ersten Ziehung – nicht wissen, ob sie rot oder
schwarz ist; sie ist rot mit Wahrscheinlichkeit 14 .
Wenn wir nun den zweiten Zug ausführen, ziehen wir mit Wahrscheinlichkeit 14 eine rote Kugel,
wenn wir nur unter den normalen Kugeln ziehen,
mit 14 eine rote Zauberkugel; also in jedem Falle
mit Wahrscheinlichkeit 41 eine rote Kugel.
7.4
1/4
3/4
r
2/5
r
s
3/5
s
1/5
r
4/5
s
Abbildung 7.5: Urnen–Baumdiagramm
Bedingte Wahrscheinlichkeiten
Häufig steht, bevor der Ausgang eines Zufalls–Experiments bekannt ist, schon die Information
zur Verfügung, dass der Ausgang zu einer bestimmten (möglicherweise eingeforderten) Teilmenge
des Ereignisraumes gehört. Was lässt sich dann über Wahrscheinlichkeiten sagen? Diese Fragestellung wollen wir nun untersuchen.
Zur Motivation des folgenden greifen wir auf den Begriff der relativen Häufigkeiten zurück. Sei
V ein Zufallsexperiment mit zugehörigem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ). Seien A, B
Ereignisse in (Ω, P ). Der Versuch V werde nun n–mal (unabhängig) wiederholt. Die relativen
Häufigkeiten von A unter der Bedingung B sind dann definiert durch
hn (A|B) :=
n#{ Es tritt A ∩ B ein }
hn (A ∩ B)
#{ Es tritt A ∩ B ein }
=
=
, n ∈ N.
#{ Es tritt B ein }
n#{ Es tritt B ein }
hn (B)
Dabei haben wir hn (B) > 0, n ∈ N, unterstellt. Analog zu dieser Formel kommen wir nun zu
einer entsprechenden Begriffsbildung im Wahrscheinlichkeitsraum (Ω, P ) .
Definition 7.4.1 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum. Seien A, B ⊂
Ω mit P (B) > 0. Dann heißt
P (A ∩ B)
P (A|B) :=
P (B)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
Folgerung 7.4.2 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum. Sei B ⊂ Ω mit
P (B) > 0. Dann ist (Ω, P OT (Ω), PB ) mit
PB (A) := P (A|B) , A ⊂ Ω,
ein (endlicher) Wahrscheinlichkeitsraum.
Beweis:
Verifiziert man unmittelbar.
Satz 7.4.3 (Satz von der totalen Wahrscheinlichkeit) Sei (Ω, P OT (Ω), P ) ein endlicher
Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit
Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k .
121
Dann ist
P (A) =
k
X
i=1
P (Bi )P (A|Bi ) , A ⊂ Ω .
(7.8)
Beweis:
Ergibt sich aus der Additivität von P und der Tatsache, dass A disjunkte Vereinigung von
A ∩ B1 , . . . , A ∩ Bk ist.
Satz 7.4.4 (Satz von Bayes ) Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum.
Seien B1 , . . . , Bk ⊂ Ω mit
Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k .
Ist P (A) > 0, so gilt für j = 1, . . . , k :
k
X
P (Bi )P (A|Bi ))−1
P (Bj |A) = P (Bj )P (A|Bj )(
(7.9)
i=1
Beweis:
Folgt aus Satz 7.4.3 zusammen mit P (Bj ∩ A) = P (Bj )P (A|Bj ), 1 ≤ j ≤ k .
In beiden Fällen ist man mit der Forderung nicht verschwindender Wahrscheinlichkeiten
(P (Bi ) > 0, 1 ≤ i ≤ n) konfrontiert. In der Formel in (a) kann man dies aber überspielen, da
das Nennerproblem nun in der Definition bedingter Wahrscheinlichkeit angelegt ist.
Aus der bedingten Wahrscheinlichkeit leitet sich der Begriff der Unabhängigkeit ab, der
für die Bewertung von Beobachtungen von Zufallsexperimenten von überragender Bedeutung
ist. Wir lassen uns dabei davon leiten, dass in einem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P )
zwei Ereignisse A, B (nach Wahrscheinlichkeit) als unabhängig voneinander zu betrachten sind,
wenn P (A) mit der bedingten Wahrscheinlichkeit P (A|B) übereinstimmt. Dass P (A|B) nur für
P (B) > 0 erklärt ist, hat dabei keinen Einfluss mehr.
Definition 7.4.5 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zwei Ereignisse
A, B ⊂ Ω heißen unabhängig, wenn P (A ∩ B) = P (A)P (B) gilt.
Unabhängigkeit ist ein in A, B symmetrischer Begriff. Sind A, B ⊂ Ω unabhängig, dann sind
es auch A, Ω\B und Ω\A, B und Ω\A, Ω\B. Die Verallgemeinerung der Unabhängigkeit auf
mehr als zwei Ereignisse liegt auf der Hand:
Definition 7.4.6 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A1 , . . . , Ak
Ereignisse. Diese Ereignisse heißen unabhängig, wenn für jede Wahl 1 ≤ i1 < · · · < il ≤ k
gilt:
P (Ai1 ∩ · · · ∩ Ail ) = P (Ail ) · · · P (Ail ).
Beispiel 7.4.7 Betrachte im Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) mit
Ω = {ω1 , ω2 , ω3 , ω4 }, P ({ωi }) =
1
, i = 1, . . . , 4,
4
die Ereignisse
A = {ω1 , ω2 }, B = {ω2 , ω3 }, C = {ω1 , ω3 }.
122
Wir haben
P (A ∩ B) = P (A)P (B) , P (A ∩ C) = P (A)P (C) , P (B ∩ C) = P (B)P (C),
aber
1
P (A ∩ B ∩ C) = 0, P (A) · P (B) · P (C) = .
8
Dieses Beispiel beleuchtet die Definition 7.4.6.
7.5
Erwartungswerte
Zunächst zur Motivation des Begriffs Erwartungswert“, den wir nun einführen wollen.
”
Beispiel 7.5.1 Stellen wir uns ein Glücksrad mit den s Sektoren Ω := {w1 , . . . , ωs } vor; jedem
Sektor werde als Wahrscheinlichkeit dafür, dass der Zeiger beim Drehen im Sektor j stehen
bleibt die Zahl p(ωj ) zugeordnet. Ein Spieler gewinnt X(ωj ) Euro, wenn der Zeiger im Sektor
j stehen bleibt. Wieviel sollte man pro Spiel einsetzen, wenn man das Spiel wiederholt, etwa
n–mal spielen müßte. Offenbar erhält man dann
s
X
X(ωj )hj
j=1
Euro ausbezahlt, wenn der Zeiger im Sektor j hj –mal stehen geblieben ist. Also ergibt sich als
durchschnittliche Auszahlung
s
1X
X(ωj )hj
n
j=1
h
Euro. Da man empirisch erwartet, dass nj gegen die Wahrscheinlichkeit p(ωj ) strebt, müßte
E :=
s
X
X(ωj )p(ωj )
j=1
Euro auf lange Sicht die erwartete Auszahlung sein. Ein Einsatz pro Spiel, der kleiner als E ist,
sollte also auf lange Sicht zu einem Gewinn führen.
Definition 7.5.2 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum.
Jede Abbildung X : Ω −→ R heißt eine Zufallsgröße6 . Sind x1 , . . . , xr die Werte, die X
annimmt, dann heißt
P ({X = xj }) , j = 1, . . . , r,
die Verteilung der Zufallsgröße. Die Abbildung
FX : R ∋ x 7−→ P ({X ≤ x}) ∈ [0, 1]
heißt die Verteilungsfunktion von X .
Beachte, dass wir voraussetzen durften, dass nur endlich viele Werte angenommen werden, da
wir ja Ω als endliche Menge angenommen haben.
6
In der Literatur ist für eine Zufallsgröße auch der ältere Ausdruck Zufallsvariable“ gebräuchlich. Diese
”
Begriffsbildung verträgt sich nicht mehr gut mit der heutigen Auffassung von Abbildungen und Variablen.
123
Bemerkung 7.5.3 Die Existenz der Erwartungswerte ist in nicht endlichen Wahrscheinlichkeitsräumen keine Selbstverständlichkeit, da Integrierbarkeit bezüglich des Wahrscheinlichkeits”
maßes“ zu verifizieren ist.
Beispiel 7.5.4 Sei Ω := {K(opf ), Z(ahl)}, X(ω) := 1, falls ω = K, := 0, falls ω = Z, := 0 .
Also ist FX eine Treppenfunktion“ mit 2 Stufen:
”
x
FX (x)
x<0
0≤x<1
x≥1
0
1
2
1
Definition 7.5.5 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und X : Ω −→
R eine Zufallsgröße. Die Zahl
X
E(X) :=
X(ω)P ({ω})
ω∈Ω
heißt Erwartungswert von X .
Interpretieren wir die Zufallsgröße als Auszahlung eines Spiels, so können wir offenbar E(X) als
durchschnittliche Auszahlung pro Spiel auf lange Sicht ansehen (negative Werte sind als Einzahlungen zu interpretieren). Hierbei haben wir die Häufigkeitsinterpretation der Wahrscheinlichkeit
zu Grunde gelegt; siehe Beispiel 7.5.1.
Eine physikalische Interpretation des Erwartungswertes erhält man, wenn die möglichen Werte x1 , . . . , xr einer Zufallsgrößen X als Massepunkte“ mit den Massen P (X = xj ), j = 1, . . . , r,
”
auf der gewichtslosen Zahlengeraden“ gedeutet werden. Der Schwerpunkt (Massenmittelpunkt)
”
s des so entstehenden Körpers ergibt sich nämlich aus der Gleichgewichtsbedingung
r
X
(xj − s)P (X = xj ) = 0
j=1
zu
s=
r
X
xj P (X = xj ) = E(X) .
j=1
Laplace7 schreibt über den Erwartungswert:
Die Wahrscheinlichkeit der Ereignisse dient dazu, die Hoffnung oder Furcht der an ihrer
Existenz interessierten Personen zu bestimmen. Das Wort Hoffnung hat verschiedene Bedeutungen: es drückt allgemein den Vorteil desjenigen aus, der irgend ein Gut in Folge von
Voraussetzungen erwartet, die nur wahrscheinlich sind. Dieser Vorteil ist in der Theorie des
Zufalls das Produkt der erwarteten Summe mit der Wahrscheinlichkeit sie zu erlangen. . . .
Wir werden diesen Vorteil die mathematische Hoffnung“(esperánce (franz.) = Hoffnung)
”
nennen. . . . Man soll es im gewöhnlichen Leben immer so einrichten, dass das Produkt aus
dem Gute, das man erwartet, mit seiner Wahrscheinlichkeit dem gleichen Produkte bzgl. des
Verlustes mindestens gleichkommt. Aber um das zu erreichen, ist es notwendig, die Vorteile
und Verluste und ihre gegenseitigen Wahrscheinlichkeiten genau abzuschätzen. Dazu bedarf
es einer großen Exaktheit des Geistes, eines feinen Takts und einer bedeutenden sachlichen
Erfahrung; man muss sich vor Vorurteilen, vor den Täuschungen der Furcht und der Hoffnung, sowie vor den falschen Begriffen von Glücksgunst und wirklichem Glück, mit denen
die meisten Menschen ihre Eigenliebe einwiegen, in Acht nehmen.
7
Laplace, Pierre Simon de, (1749 – 1827)
124
Beispiel 7.5.6 Der Ereignisraum für einen fairen Würfelwurf ist Ω := {1, . . . , 6} und die Zufallsgröße, die die Augenzahl ausgibt, ist X : Ω ∋ i 7−→ i . Das passende Wahrscheinlichkeitmaß
ist die Gleichverteilung, d.h. P (X = j) = 16 , j = 1, . . . , 6 . Als Erwartungswert ergibt sich
E(X) =
6
X
1
7
j = .
6
2
j=1
Dies zeigt uns, dass bei fortgesetztem Werfen eines (fairen) Würfels der Wert 3.5 eine gute Prognose für den auf lange Sicht erhaltenen Durchschnitt (arithmetisches Mittel) aller geworfenen
Augenzahl sein sollte.
Beachte: Die Zufallsgröße realisiert den Wert E(X) nicht!
Seien X, Y Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) und sei a ∈ R .
Dann sind
aX : Ω ∋ ω 7−→ aX(ω) ∈ R ,
X +Y
X ·Y
: Ω ∋ ω 7−→ X(ω) + Y (ω) ∈ R ,
: Ω ∋ ω 7−→ X(ω) · Y (ω) ∈ R ,
|X| : Ω ∋ ω 7−→ |X(ω)| ∈ R
auch Zufallsgrößen auf (Ω, P OT (Ω), P ) . Für X · X schreiben wir auch oft kurz X 2 .
Besondere Bedeutung besitzen die Zufallsgrößen, die das Eintreten oder Nichteintreten von
Ereignissen beschreiben. Dies leistet die Indikatorfunktion eines Ereignisses: Ist A ⊂ Ω ein
Ereignis, so heißt die durch
(
1 ,ω ∈ A
χA (ω) :=
0 ,ω ∈
/A
definierte Zufallsgröße die Indikatorfunktion von A . Die einfachen Operationen mit Ereignissen spiegeln sich in der Indikatorfunktion folgendermaßen:
χA∩B = χA · χB , χ∁A = 1 − χA , χA = χA2 .
Will man wissen, wie viele Ereignisse A1 , . . . , An eingetreten sind, so hat man nur die Indikatorsumme
χ := χA1 + · · · + χAn
zu bilden. Sie dient also als Zählgröße.
Beispiel 7.5.7 Betrachte folgendes Spiel: Beim Werfen zweier idealer Würfel erhält der Spieler
Euro 10, wenn beide Würfel eine 6 zeigen, Euro 2, wenn genau ein Würfel eine 6 zeigt, Euro
0 sonst. Die Ereignismenge Ω sind die Paare (i, j) mit 1 ≤ i, j ≤ 6 , die Wahrscheinlichkeit für
1 . Damit ist angedeutet, dass die beiden Würfel unabhängig
jedes Elementarereignis (i, j) ist 36
voneinander geworfen werden. Wir bezeichnen mit X die Zufallsgröße, die den Gewinn eines
Spielers beschreibt. Von Interesse sind die Ereignisse
A2 := {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (5, 6), (4, 6), (3, 6), (2, 6), (1, 6)},
A10 := {(6, 6)} , A0 := Ω\(A10 ∪ A2 ) .
125
Die Werte von X erhalten wir durch folgende Zuordnung:

 2 , falls ω ∈ A2
Ω ∋ ω 7−→
10 , falls ω ∈ A10

0 , sonst
Daraus leiten wir
P ({X = 2}) =
10
25
1
, P ({X = 10}) =
, P ({X = 0}) =
36
36
36
ab. Als Erwartungswert ergibt sich
E(X) = 2 ·
10
25
5
1
+ 10 ·
+0·
=
36
36
36
6
Dieses Ergebnis lässt erwarten – siehe unten– , dass der Spieler im Mittel 65 Euro pro Spiel
gewinnt. Ein Einsatz des Spielers pro Spiel in Höhe von 1 Euro wäre also nicht vorteilhaft. Halten wir einige Rechenregeln für Erwartungswerte fest:
Regel 7.5.8 Seien X, Y : Ω −→ R Zufallsgrößen, a ∈ R, A ⊂ Ω, und g : R −→ R . Es gelten:
E(X + Y )
=
E(X) + E(Y )
(7.10)
E(aX)
=
aE(X)
(7.11)
E(χA )
=
(7.12)
E(g ◦ X)
=
X≤Y
=⇒
P (A)
X
g(xj )P (X = xj )
(7.13)
x1 ,...,xr ∈X(Ω)
E(X) ≤ E(Y )
(7.14)
Die Regeln sind sehr einfach zu beweisen.8 Wir beweisen nur (7.13).
Seien x1 , . . . , xr die Werte der Zufallsgrößen X, also {x1 , . . . , xr } = X(Ω) . Wir setzen Aj :=
{ω ∈ Ω|X(ω) = xj }, j = 1, . . . , r . Dann gilt Ω = A1 ∪ · · · ∪ Ar und somit
E(g ◦ X) =
=
X
g ◦ X(ω)P ({ω}) =
ω∈Ω
r X
X
g(xj )P ({ω}) =
=
j=1 ω∈Aj
r
X
j=1
j=1 ω∈Aj
r
X
r X
X
g ◦ X(ω)P ({ω})
g(xj )
X
P ({ω})
ω∈Aj
g(xj )P (X = xj )
j=1
Definition 7.5.9 Sind X, Y : Ω
y1 , . . . , ys , so heißt das System
−→
R zwei Zufallsgrößen mit Werten x1 , . . . , xr bzw.
P (X = xj , Y = yj ) := P ({X = xi } ∩ {Y = yj }) , i = 1, . . . , r, j = 1, . . . , s,
die gemeinsame Verteilung von X, Y .
(7.15)
8
Der Mathematiker fasst die Eigenschaften (7.10), (7.11) zusammen durch: Erwartungswertbildung ist eine
Linearform auf dem Vektorraum der Zufallsvariablen.
126
j
i
1
2
3
4
5
6
Σ
1
1
36
2
0
1
36
2
36
3
0
0
1
36
1
36
3
36
4
0
0
0
1
36
1
36
1
36
4
36
5
0
0
0
0
1
36
1
36
1
36
1
36
5
36
6
0
0
0
0
0
1
36
1
36
1
36
1
36
1
36
6
36
1
6
1
6
1
6
1
6
1
6
1
6
Σ
1
36
3
36
5
36
7
36
9
36
11
36
1
p(X = i)
p(Y = j)
Abbildung 7.6: Eine gemeinsame Verteilung
Fasst man das Paar Z := (X, Y ) als Abbildung
(X, Y ) : Ω ∋ ω 7−→ (X(ω), Y (ω)) ∈ R2
auf, so nennt man Z eine zweidimensionale Zufallsgröße; (7.15) ist ihre Verteilung (analog zu
Definition 7.5.2).
Beispiel 7.5.10 Betrachte wieder einen zweifachen Würfelwurf mit einem fairen Würfel (LaplaceExperiment). Sei Xi der Ausgang des i-ten Wurfes und sei Y := max(X1 , X2 ) die Zufallsgröße,
die die maximale Augensumme bei den beiden Würfen beschreibt. Die beigefügte Tabelle gibt die
gemeinsame Verteilung von X := X1 und Y an.
Folgerung 7.5.11 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße. Sei FX die zugehörige Verteilungsfunktion. Es gilt:
(a) P ({a < X ≤ b}) = FX (b) − FX (a) für a ≤ b .
(b) FX ist monoton nicht fallend.
(c) P ({X > a}) = 1 − FX (a) , P ({X < a}) = FX (a−) , a ∈ R, wobei FX (a−) der linkseitige
Grenzwert von FX an der Stelle a ist.
(d) P ({a ≤ X ≤ b}) = FX (b) − FX (a−) für a ≤ b .
(e)
lim FX (x) = 0 , lim FX (x) = 1 .
x→−∞
x→∞
Beweis:
Zu (a). FX (b) = P ({X ≤ a}) + P ({a < X ≤ b}) = FX (a) + P ({a < X ≤ b}) .
Zu (b). Folgt aus (a).
Zu (c). P ({X > a}) = 1 − FX (a) folgt aus den Definitionen von P und FX .
Die Existenz des angegebenen Grenzwerts folgt aus der Tatsache, dass die Funktion FX monoton
wachsend ist und ihr Bildbereich in [0, 1] enthalten ist, so: Zunächst existiert sicher eine Folge
(xn )n∈N mit xn < a für alle n ∈ N, lim xn = a und z := lim FX (xn ) existiert. Aus der Monotonie
n
n
127
folgt, daß z für jede solche Folge identisch ist. Also gilt z = lim FX (xn ) für jede Folge (xn )n∈N
n
mit xn < a für alle n ∈ N und lim xn = a , da (FX (xn ))n∈N eine konvergente Teilfolge enthält.
n
∞
X
P ({X < a}) = P ({X ≤ a − 1}) +
= FX (a − 1) + lim
n
= FX (a − 1) + lim
n
k=1
n
X
k=1
n
X
k=1
P ({a −
1
1
<X ≤a−
})
k
k+1
P ({a −
1
1
<X ≤a−
})
k
k+1
(FX (a −
1
1
) − FX (a − ))
k+1
k
= FX (a − 1) + lim FX (a −
n
1
) − FX (a − 1)
n+1
1
) = FX (a−)
= lim FX (a −
n
n+1
Zu (d).
P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) + P ({X = a})
= (FX (b) − FX (a)) + (FX (a) − FX (a−))
= FX (b) − FX (a−) .
Zu (e).
Die Existenz der angegebenen Grenzwerte folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist; siehe oben. Ferner haben wir
0 ≤ lim FX (x) ≤ lim FX (x) ≤ 1 . Es genügt also zu zeigen, dass
x→∞
x→−∞
lim FX (−n) = 0 , lim FX (n) = 1
n∈N
n∈N
gilt. Betrachte die Ereignisfolge (Ak )k∈Z mit Ak := {k − 1 < X ≤ k}, k ∈ Z . Damit haben wir
P (Ω) = P (∪k∈Z Ak ) und daher
1 = P (∪k∈Z Ak ) =
X
P (Ak ) = lim
n∈N
k∈Z
k=n
X
P (Ak ) = lim
n∈N
k=−n
k=n
X
k=−n
(FX (k) − FX (k − 1))
= lim (FX (n) − FX (−n)) = lim FX (n) − lim FX (−n)
n∈N
n∈N
n∈N
Daraus liest man die Tatsache lim FX (−n) = 0 und lim FX (n) = 1 ab.
n∈N
n∈N
Bemerkung 7.5.12 Man mag sich wundern über den obigen Beweis: er ist so aufgeschrieben,
als würde die Zufallsgröße unendlich viele Werte annehmen, wir haben dies aber ausgeschlossen. Damit verbunden ist aber der Hinweis, dass auch Zufallsgrößen behandelt werden können,
die abzählbar viele Werte annehmen können. Der wirklich große Schritt besteht darin, Zufallsgrößen zuzulassen, die überabzählbar viele Werte annehmen. Dann benötigt man zur Definition
eines Erwartungswertes einen passenden Integralbegriff. Daran schließt sich dann das Gebiet der
stochastischen Prozesse an, die in vielen Anwendungen eine überragende Rolle spielen.
7.6
Unabhängigkeit von Zufallsgrößen
Definition 7.6.1 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls
P ({X = x, Y = y}) = P ({X = x})P ({Y = y})
128
für alle x, y ∈ R gilt.
Folgerung 7.6.2 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen. Sind X, Y unabhängig, so gilt E(X · Y ) = E(X)E(Y ).
Beweis:
Seien {xi |i = 1, . . . , r}, {yj |j = 1, . . . , s} die Werte von X bzw. Y . Dann sind {xi yj |i =
1, . . . , r, j = 1, . . . , s} die Werte von X · Y und wir haben
r X
s
X
i=1 j=1
r X
s
X
xi yj P ({X · Y = xi yj }) =
i=1 j=1
s
r X
X
=
i=1 j=1
r
X
=
i=1
xi yj P ({X = xi , Y = yj })
xi yj P ({X = xi })P ({Y = yj })
xi P ({X = xi })
s
X
j=1
yj P ({Y = yj })
Beispiel 7.6.3 Betrachte ein Glücksrad, aufgeteilt in 4 gleiche Sektoren. Durch einen Innenkreis entstehen 4 gleiche innere Sektoren und vier gleiche äußere Sektoren. Die Sektoren werden
folgendermaßen beschriftet:
10
10
innen
innen
0
0
außen
außen
0
0
innen
innen
20
20
außen
außen
Damit ist eine äußere Zufallsvariable X und eine innere Zufallsvariable Y auf einem offensichtlichen Wahrscheinlichkeitsraum definiert. Wir erhalten:
E(X) = 10 , E(Y ) = 5 , E(X · Y ) = 0 .
Also sind wegen E(X · Y ) 6= E(X) · E(Y ) diese Zufallsgrößen nicht unabhängig; der Wert von X
bestimmt den von Y . Nimmt man stattdessen die Beschriftung
2
0
10
2
innen
innen
innen
innen
100
50
100
50
außen
außen
außen
außen
vor, dann sind diese Zufallsgrößen unabhängig; kennt man den Wert von X, so sagt dieser Wert
nichts über den Wert von Y . Es ist
E(X) = 75 , E(Y ) = 6 , E(X · Y ) = 450 = E(X) · E(Y ) .
Definition 7.6.4 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn
Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls
P ({X1 = x1 , . . . , Xn = xn }) = P ({X1 = x1 }) · · · P ({Xn = xn })
für alle x1 , . . . , xn ∈ R gilt.
Eine triviale Verallgemeinerung ist
129
Folgerung 7.6.5 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn
diskrete Zufallsgrößen. Sind X1 , . . . , Xn unabhängig, so gilt E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
Beispiel 7.6.6 Betrachten wir die folgenden Spiele:
Spiel 1: Würfeln mit drei idealen Würfeln. Das Produkt der Augenzahlen wird in Cents ausgezahlt.
Spiel 2: Würfeln mit drei idealen Würfeln. Das Fünffache der Augensumme wird in Cents
ausgezahlt.
Welches Spiel kann man bei einem Einsatz von 50 Cents pro Spiel spielen? Wir numerieren die
Würfel und bezeichnen mit X1 , X2 , X3 die Zufallsgrößen der jeweils geworfenen Augenzahlen.
Es gibt 63 = 216 verschiedene Elementarereignisse. Da wir ein Laplace–Experiment unterstellen,
gelten die Identitäten
P ({X1 = i, X2 = j, X3 = k}) =
1
, 1 ≤ i, j, k ≤ 6 ,
216
und
1
, 1 ≤ i, j, k ≤ 6 .
216
Die Zufallgrößen sind also unabhängig. Damit gilt nach Folgerung 7.6.5 für die Gewinnerwartung:
Spiel 1: E(X1 · X2 · X3 ) = E(X1 )E(X2 )E(X3 ) = ( 72 )3 .
Spiel 2: E(5(X1 + X2 + X3 )) = 5(E(X1 ) + E(X2 ) + E(X3 )) = 5 · 3 · 72 .
Die Gewinnerwartung liegt bei Spiel 1 unter, bei Spiel 2 über dem Einsatz. Daher kann man das
zweite Spiel mitmachen, das erste dagegen aber nicht.
P ({X1 = i})P ({X2 = j})P ({X3 = k}) =
7.7
Varianz
Wie wir wissen, lässt sich der Erwartungswert einer Zufallsgröße als eine Maßzahl für den Schwerpunkt deuten. Die nun einzuführende Varianz ist eine Maßzahl für die Abweichung von diesem
Schwerpunkt.
Definition 7.7.1 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und sei X eine
Zufallsgröße auf Ω mit Erwartungswert E(X) . Dann ist (X − E(X))2 eine Zufallsgröße mit
Erwartungswert
V(X) := E((X − E(X))2 )
p
V(X) heißt die Varianz von X und σX := V(X) die Streuung oder Standardabweichung
von X .
Bemerkung 7.7.2 Die Streuung σX einer Zufallsgröße ändert sich – dank der Wurzel, die wir
über die Varianz gestülpt haben – proportional, d.h. σλX = λσX (λ > 0). Dies würde auch für die
alternative Maßzahl σ̃X := E(|X − E(x)|) gelten. Vorteile von σX gegenüber σ̃X sind leichtere
Berechenbarkeit und stärkere Bewertung großer Abweichungen vom Erwartungswert.
In der Mathematik der Finanzinstrumente (Derivate, Optionen) ist mit dem Begriff der Volatilität der Aktienkurse die Streuung/Schwankung der Aktienkurse gemeint, wobei unterstellt
wird, dass sich Aktienkurse wie ein Zufallsgröße verhalten. Hier wird der Erwartungswert meist
mit µ (Drift) und mit σ (Volatilität) bezeichnet.
130
Lemma 7.7.3 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen auf Ω mit Erwartungswerten E(X), E(Y ) und Varianzen V(X), V(Y ) . Dann gilt:
(a) V(X) = E(X 2 ) − E(X)2
(b) V(X + Y ) = V(X) + V(Y ), falls X, Y unabhängig sind.
Beweis:
Es gilt
E((X − E(X))(Y − E(Y ))) = E(XY ) − E(XE(Y )) − E(Y E(X)) + E(E(X)E(Y ))
= E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
Nun folgt (a) durch Anwendung auf Y := X, (b) folgt ebenfalls daraus unter Zuhilfenahme von
Folgerung 7.6.2.
7.8
Zum Gesetz der großen Zahl
Wenn viele Leute gemeinsam auf das richtige Ergebnis kommen, dann nennen die Wissenschaftler
das die Intelligenz der Masse. Darauf gestoßen ist vor 100 Jahren der englische Gelehrte Francis
Galton und zwar als er eigentlich das Gegenteil beweisen wollte – nämlich, dass die Masse dumm
ist.9 Dem oben beschriebenem Sachverhalt wollen wir nun etwas auf den Grund gehen.
Aus den Eigenschaften der Varianz unabhängiger Zufallsgrößen, die einen Zufallsversuch be√
schreiben möge, folgt das so genannte n-Gesetz. Damit ist gemeint: Sei X eine Zufallsgröße.
Bei n-maliger unabhängiger Wiederholung des X zugrundeliegenden Zufallsversuchs beschreibe
Xi den i-ten Versuch. Für die Mittelwertgröße
n
X :=
1X
Xi
n
i=1
gilt dann
1
σ(X) = √ σ(X) ,
n
denn für die zugehörige Varianz gilt nämlich
n
1
1 X
V(X) = 2
V(Xi ) = 2 nV(X) .
n i=1
n
Die Varianz wird also durch Mittelwertbildung reduziert.
Satz 7.8.1 (Tschebyscheffsche Ungleichung) Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und sei X eine Zufallsgröße mit Erwartungswert E(X) und Varianz V(X) . Dann
gilt für jedes ǫ > 0 :
V(X)
(7.16)
P ({|X − E(X)| ≥ ǫ}) ≤
ǫ2
9
1906 besuchte Galton die westenglische Nutztiermesse in der Nähe von Plymouth. Dort gab es einen
Schätzwettbewerb: Für sechs Pence durfte man auf das Gewicht eines Ochsen wetten. Wer am nächsten dran
lag, konnte gewinnen. Nachdem Galton die Schätzungen ausgewertet hatte, muss er ziemlich verblüfft gewesen
sein: Der Mittelwert der 787 Einzelschätzungen wich nur um ein Pfund vom tatsächlichen Gewicht des Ochsen
ab. Und – was noch erstaunlicher war – kein Einzel-Tipp (auch nicht der eines Experten) war genauer als der
Mittelwert der großen Masse.
131
Beweis:
Sei ǫ > 0. Setze Z := X − E(X) und
Y (ω) :=
0,
ǫ2 ,
falls |Z(ω)| < ǫ
falls |Z(ω)| ≥ ǫ
(7.17)
Dann ist 0 ≤ Y ≤ Z 2 und daher
V(X) = E(Z 2 ) ≥ E(Y ) = ǫ2 P ({Y = ǫ2 }) = ǫ2 P ({|X − E(X)| ≥ ǫ}) .
Der Wert der Tschebyscheffschen Ungleichung liegt in ihrer Allgemeinheit, die Abschätzung
darin ist ziemlich grob.10
Satz 7.8.2 (Schwaches Gesetz der großen Zahl) Seien X1 , . . . , Xn unabhängige Zufallsgrößen
auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) . Es gelte
e := E(X1 ) = · · · = E(Xn ) , V(X1 ) = · · · = V(Xn ) ≤ M < ∞ .
Dann gilt für alle ǫ > 0
M
1
P ({| (X1 + · · · + Xn ) − e| ≥ ǫ}) ≤ 2
n
ǫ n
(7.18)
Beweis:
1 (X + · · · + X ). Dann ist E(X) = e und
Sei X := n
1
n
V(X) = n−2 V(X1 + · · · + Xn ) = n−2 (V(X1 ) + · · · + V(Xn )) ≤
M
.
n
Nun wende man die Tschebyscheffsche Ungleichung an.
√
Das n-Gesetz ist in mehrfacher Hinsicht wichtig für die Theorie des Messens. Bei einer
Meßreihe x1 , . . . , xn von unter denselben Bedingungen (Unabhängigkeit!) bestimmten Werten
geht man davon aus, dass die Fehler nur zufällig zustande kommen. Als besten Wert für die nun
zu messende Größe X nimmt man das arithmetische Mittel
n
1X
xi
x=
n
i=1
und als mittleren Fehler m die Standardabweichung
v
u n
X
1 u
t (x1 − x)2 .
√
m=
n i=1
In Anwendungen ist man oft mit dem Problem konfrontiert, dass bekannt bzw. vorausgesetzt
wird, dass eine Wahrscheinlichkeitsverteilung einer Zufallsgröße in einem Zufallsexperiment einer
bestimmtem Familie (siehe Anhang 7.10) angehört, aber die genaue Spezifikation nicht bekannt
10
Sie wurde erstmals von Bienaymé 1853 aufgestellt, unabhängig davon fand sie P. Tschebyscheff 1867 und verwendete sie erstmals zum Beweis des Gesetzes der großen Zahl. Eine erste Version dieses zentralen Grenzwertsatzes
hat A. de Moivre (1667 — 1754) bewiesen.
132
ist, z.B. Erwartungswert und Varianz. Durch wiederholte, unabhängige Realisierungen dieses
zufälligen Versuches möchte man Kenntnisse über diese Parameter erhalten.
Es seien X1 , . . . , Xn , . . . unabhängige (je zwei davon sind unabhängig), identisch verteilte
Zufallsgrößen, die X realisieren, mit E(X) = E(X1 ) = E(X2 ) = . . . . Es sind dann
n
S n :=
1X
Xi
n
i=1
n
Sn2 :=
1 X
(Xi − S n )2
n−1
i=1
gute Schätzer“ für E(X) bzw. V(X) .
”
7.9
Anhang: Das Ziegenproblem
Betrachten wir nun das sogenannte Ziegenproblem.11 In einer Spielshow wird ein Kandidat
vom Moderator vor drei geschlossene Türen geführt. Hinter diesen Türen sind ein Auto (Preis)
und jeweils eine Ziege (Niete) versteckt. Der Kandidat darf nun eine Tür bestimmen, die geöffnet
werden soll. Um die Spannung zu erhöhen, öffnet der Moderator aber vor der Öffnung dieser
Tür — zufällig, aber mit der Vorgabe, dass dahinter kein Auto ist — eine andere Tür; hinter
dieser Tür ist eine Ziege. Nun erlaubt der Moderator dem Kandidaten seine ursprügliche Wahl
zu überdenken und gegebenenfalls seine Entscheidung zu ändern. Wie soll er sich entscheiden?
Gibt es aus stochastischer Sicht berechtigte Gründe, die Tür zu wechseln?
Ja, er soll wechseln! Dies wollen wir mit bedingten Wahrscheinlichkeiten erklären. Bevor wir dies
tun, spielen wir die Situation mit 100 Türen, einem Auto und 99 Ziegen durch; sie vermeidet die
1
haben wir die Tür mit dem Auto
1 : 1 : 1 Situation bei drei Türen. Mit Wahrscheinlichkeit 100
99
gewählt und mit Wahrscheinlichkeit 100 ist das Auto hinter den verbleibenden Türen. Jetzt
öffnet der Moderator 98 der verbleibenden Türen, hinter jeder eine Ziege. Natürlich würde jeder
99
wechseln, denn mit Wahrscheinlichkeit 100
ist das Auto hinter der noch verschlossenen Tür.
Bevor wir ein mathematisches Modell betrachten, noch eine andere Argumentation, die den
Wechsel stützen kann. Der Standhafte gewinnt das Auto genau dann, wenn sich dieses hinter
der ursprünglich gewählten Tür befindet; die Wahrscheinlichkeit dafür ist 13 . Ein Wechselnder
gewinnt das Auto genau dann, wenn er zuerst auf eine der beiden Ziegentüren zeigt – die Wahrscheinlichkeit dafür ist 32 –. denn nach dem Öffnen der anderen Ziegentür durch den Moderator
führt die Wechselstrategie in diesem Fall automatisch zur Autotür.
Hier geben wir nun eine Erklärung für den Ratschlag Wechseln“ unter Nutzung elementarer
”
Wahrscheinlichkeiten.
Wir nehmen an, dass das Auto hinter Tür 1 steht. Wir können dies tun ohne Beschränkung
der Allgemeinheit: es ist ja nur ein Nummerierungsproblem. Der Kandidat hat drei Möglichkeiten
der Wahl, die er zufällig trifft, denn er hat ja keine zusätzliche Information. Der Moderator trifft
seine Wahl der Tür ebenfalls zufällig, sofern ihm auf Grund seiner Informationslage eine Wahl
bleibt. Dies führt zu folgender Tabelle für die Wahrscheinlichkeit der 4 möglichen Ereignisse vor
der Wechselmöglichkeit:
11
G.v. Randow: Das Ziegenproblem, Reinbek, 1992, und I. Stewart: Mathematische Unterhaltungen, Spektrum
11/91, 12 – 16 . Dieses Problem hat beträchtlichen Wirbel verursacht, da selbst “gestandene“ Mathematiker
falsche Schlüsse zogen. Das Problem ist auch als Monty-Hall-Dilemma“ bekannt (nach dem Moderator der US”
amerikanischen Spielshow Let’s make a deal.
133
Wahl des Kandidaten
Tür 1
Tür 1
Tür 2
Tür 3
Wahl des Moderators
Tür 2
Tür 3
Tür 3
Tür 2
p (Wahrscheinlichkeit)
1 1
1
6 = 3 · 2
1
1 1
6 = 3 · 2
1
1
3 = 3 ·1
1
1
3 = 3 ·1
Die folgende Tabelle listet nun die Gewinn/Verlust–Wahrscheinlichkeiten auf:
Wahl/Kandidat
Tür 1
Ohne Wechsel
Wahl/Moderator Wahl/Kandidat
Tür 2
Tür 1
Gewinn
JA
Tür 1
Tür 3
Tür 1
JA
Tür 2
Tür 3
Tür 2
NEIN
Tür 3
Tür 2
Tür 3
NEIN
Wahl/Kandidat
Tür 1
Mit Wechsel
Wahl/Moderator Wahl/Kandidat
Tür 2
Tür 3
Gewinn
NEIN
Tür 1
Tür 3
Tür 2
NEIN
Tür 2
Tür 3
Tür 1
JA
Tür 3
Tür 2
Tür 1
JA
p
1
6
1
6
1
3
1
3
p
1
6
1
6
1
3
1
3
Es ist nun klar, dass der Wechsel zu einer Gewinnwahrscheinlichkeit von 2/3 führt, während
kein Wechsel nur eine Gewinnwahrscheinlichkeit von 1/3 realisiert.
Nun zu einer Darstellung des Dreitüren–Problems, die mit bedingten Wahrscheinlichkeiten
arbeitet.
O.E. öffne der Kandidat die erste Tür. Sei
Ω := {(azz, 2), (azz, 3), (zaz, 3), (zza, 2)}.
Hierbei steht etwa (azz, 2) für: Auto hinter der 1. Tür, Ziegen hinter Tür 2 und Tür 3; 2
bezeichnet die Türwahl des Moderators.
Setze
A1 := {(azz, 2), (azz, 3)}, A2 := {(zaz, 3)}, A3 := {(zza, 2)}.
Wir haben als Wahrscheinlichkeiten
P (A1 ) = P (A2 ) = P (A3 ) =
1
,
3
und ferner
1
1
, P ({(azz, 3)}) = .
6
6
Wir analysieren etwa den Fall, dass der Moderator Tür 3 öffnet. Setze
P ({(azz, 2)}) =
B := {(azz, 3), (zaz, 3)}.
Wir haben dann P (B) = 12 und P (A1 ∩ B) = 16 , P (A2 ∩ B) = 31 , P (A3 ∩ B) = 0. Also P (B|A1 ) =
1
2 , P (B|A2 ) = 1, P (B|A3 ) = 0. Damit erhalten wir:
P (A1 |B) =
P (A1 )P (B|A1 )
1
= ,
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
3
2
P (A2 )P (B|A2 )
=
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
3
Nun liegt der Beleg für den Ratschlag Wechsel“ vor !
”
P (A2 |B) =
134
7.10
Anhang: Spezielle Verteilungen
Zunächst eine Bezeichnung: Ist S ⊂ T, so heißt die Abbildung χS : T −→ R mit
1 , falls x ∈ S
χS (x) :=
0 , sonst
die charakteristische Funktion von S.
Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ R eine diskrete Zufallsgröße mit Wertebereich WX . Wir unterscheiden:
Diskrete Verteilung
Bildbereich:
Parameter der Verteilung:
WX = {w1 , . . . , wn }
n = #WX
1 χ (x) , x ∈ R .
PX,x = P ({X = x}) = n
WX
Für den Spezialfall WX = {1, . . . , n} erhalten wir:
1
Erwartungswert:
E(X) = n +
2
2
−1
Varianz:
V(X) = n 12
Verteilung:
Der Beweis zu den Formeln für E(X) und V(X) ist einfach:12
n
E(X) =
1 n(n + 1)
n+1
1X
i=
=
n
n
2
2
i=1
V(X) =
n
n
1X
n+1 2
1X 2
n + 1 2 n2 − 1
(i −
) =
i −(
) =
n
2
n
2
12
i=1
i=1
Zu diesem Typ von Verteilung haben wir schon Beispiele kennengelernt.
Bernoulli–Verteilung
Bildbereich:
Parameter der Verteilung:
Verteilung:
Erwartungswert:
Varianz:
WX = {0, 1}
p ∈ [0, 1] (“Erfolgswahrscheinlichkeit“)
PX,x = P ({X = x}) = px (1 − p)1−x χWX (x) , x ∈ R .
E(X) = p
V(X) = p(1 − p)
Der Beweis zu den Formeln für E(X) und V(X) ist einfach:
E(X) = 1p + 0(1 − p) = p , V(X) = 12 p + 02 (1 − p) − p2 = p(1 − p) .
Jedes Bernoulli–Experiment beinhaltet die Bernoulli–Verteilung; der Münzwurf (p = 21 ) kann
als Beispiel dafür dienen.
Beispiel 7.10.1 Wir betrachten ein Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p ∈
[0, 1]. Wir wiederholen dieses Experiment n−mal unabhängig und setzen für ein Ereignis A ⊂ Ω
1 , falls ω ∈ A
Xi (ω) :=
,1 ≤ i ≤ n.
0 , sonst
12
Wir benutzen die bekannte Identität
Pn
i=1
i2 =
n(n+1)(2n+1)
6
135
.
Dann ist
1
E(Xi ) = p , V(Xi ) = p(1 − p) ≤ , 1 ≤ i ≤ n,
4
1 (X + · · · + X ) ist die relative Häufigkeit der Erfolge. Also ist
und hn := n
1
n
P ({|hn − p| ≥ ǫ} ≤
1
4ǫ2 n
Für großes n ist also die Wahrscheinlichkeit dafür, dass die relative Häufigkeit der Erfolge sich
mehr als ǫ von der Erfolgswahrscheinlichkeit p unterscheidet, sehr klein. Dies ist der Schlüssel
dafür, abwägen zu können, ob ein Glückspiel mit Einsatz und Auszahlung vorteilhaft ist.
Binomial–Verteilung
Bildbereich:
WX = {0, 1, . . . , n}
Parameter der Verteilung:
n, p
Verteilung:
x
n−x
PX,x = n
χWX (x) , x ∈ R .
x p (1 − p)
E(X) = np
Erwartungswert:
V(X) = np(1 − p)
Varianz:
Der Beweis zu den Formeln für E(X) und V(X) ist nun schon etwas “trickreich“:
n n X
X
n i
n i
n−i
i
p (1 − p)n−i
i
p (1 − p)
=
E(X) =
i
i
i=1
i=0
n n
X
X
n − 1 i−1
n−1 i
n−i
p (1 − p)(n−1)−(i−1)
n
p (1 − p)
= np
=
i−1
i−1
i=1
i=1
n−1 X
n−1 j
= np
p (1 − p)(n−1)−j = np(p + (1 − p))n−1 = np
j
j=0
Der Nachweis für die Formel für V(X) gelingt mit vergleichbaren Rechenschritten.
Beispiel 7.10.2 Ein Versuch bestehe aus der n–maligen Durchführung eines Bernoulli–Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0, 1] . Die Menge der Elementarereignisse wird dann
adäquat beschrieben durch Ω := {0, 1}n . Die Bernoulli–Experimente sollen unabhängig voneinander durchgeführt werden, das Wahrscheinlichkeitsmaß auf Ω ist also das Produktmaß. Die
erfolgreichen Ausgänge unter den n Experimenten werden gezählt durch die Zufallsgröße
X : Ω ∋ (ω1 , . . . , ωn ) 7−→ ω1 + · · · + ωn ∈ R .
Damit haben wir
P ({X = x}) =
n x
p (1 − p)n−x , x ∈ {0, . . . , n} ,
x
und X ist also binomialverteilt.
Wir haben das n-Periodenmodell zur Bestimmung des Aktienkurses über den Zeitraum
[0, T ] schon kennengelernt. dazu wird das Zeitintervall in die Zeitscheiben [0, T /n], [T /n, 2T /n],
. . . , [(n−1)T /n, T ] zerlegt und man nimmt an, dass der Aktienkurs in jeder Zeitscheibe entweder
um den Faktor u wächst oder um den Faktor d fällt; siehe Abbildung 1.2.
136
Wir fügen nun eine Wahrscheinlichkeitskomponente hinzu: Der Aktienkurs kann sich in jeder
Periode [i∆t, (i + 1)∆t], i = 0, . . . , n − 1, mit Wahrscheinlichkeit q um den Faktor u und mit
Wahrscheinlichkeit 1 − q um den Faktor d verändern. Dabei sind u, d Zahlen mit u > d > 0 .
Der Wert der Aktie S n,k zur Zeit T bei k u–Veränderungen und bei n − k d–Veränderungen ist
offenbar
S n,k = uk dn−k S0 .
Als Konsequenz haben wir, dass
n k
q (1 − q)n−k
k
gerade die Wahrscheinlichkeit ist, dass der Aktienkurs zur Zeit T den Wert uk dn−k S0 annimmt.
Der Erwartungswert der Auszahlung ist gegeben durch
n X
n k
V =
q (1 − q)n−k (S n,k − K)+ .
(7.19)
k
k=0
Der faire Preis C0 der Option soll nun dem diskontierten Wert der Auszahliung entsprechen:
n X
n k
−rT
C0 = e
q (1 − q)n−k (S n,k − K)+ .
(7.20)
k
k=0
Nun sollte aber die Wahrscheinlichkeit q eliminiert werden. Dies gelingt im Wesentlichen mit
Annahmen über den Markt. Man erhält:
n X
n k
−rT
N (m, p) mit N (m, s) :=
s (1 − s)n−k
(7.21)
C0 = S0 N (m, p) − Ke
k
k=m
p ist dabei die so genannte risikoneutrale Wahrscheinlichkeit, die sich aus u, d und ∆t errechnet.
Wir beschreinen einen anderen Weg, die Varianz einer Binomial–Verteilung zu berechnen:
Wir fassen die Zufallsgröße X als Summe von Zufallsgrößen X1 , . . . , Xn auf, die unabhängig
und einzeln nach Bernoulli verteilt sind. Also
V(X) = V(X1 ) + · · · + V(Xn ) = np(1 − p) .
Geometrische Verteilung
Bildbereich:
WX = N0
Parameter der Verteilung:
p ∈ (0, 1]
PX,x = P ({X = x}) = p(1 − p)x χWX (x) , x ∈ R .
p
E(X) = 1 −
p
V(X) = 1 −2 p
p
Verteilung:
Erwartungswert:
Varianz:
Der Nachweis für die Formeln für E(X) und V(X) gelingt bei Verwendung der Formeln
∞
X
j=0
jq j =
∞
X
q
q + q2
2 j
j
q
=
,
,
(1 − q)2
(1 − q)3
j=0
welche für q ∈ [0, 1) gültig sind, sehr leicht. Wir beweisen die erste der beiden Formeln: Für
N ∈ N gilt
N
X
jq j ) · (1 − q)2 = q − 2N q N +1 + N q N +2
(
j=0
137
und Grenzübergang liefert die Aussage, wenn wir noch beachten, daß die Folge (nq n )n∈N gegen
0 konvergiert,
wenn |q| < 1 ist. Dies sieht man nun so:
p
√
Es ist |q| < 1 . Wegen lim n n = 1 (siehe Lemma ??) gibt es N ∈ N mit
n∈N
1≤
√
n
Also gilt für alle n ≥ N
1
n ≤ p für alle n ≥ N .
|q|
p
√
1
|nq n | = | n nq|n ≤ ( p |q|)n = ( |q|)n .
|q|
p n
Die Aussage folgt nun aus der Tatsache, daß lim |q| = 0 gilt.
n∈N
Interessiert man sich für die Anzahl der Versuche, bis bei einer mehrfachen Wiederholung
eines Bernoulli–Experiments mit Erfolgswahrscheinlichkeit p ∈ (0, 1] zum ersten Mal ein Erfolg
eintritt, dann beschreibt die Zufallsgröße X mit der Verteilung
PX,x = P ({X = x}) = p(1 − p)x χN0 (x) , x ∈ R ,
die Anzahl der Abbrüche bis zur ersten erfolgreichen Durchführung.
Hypergeometrische Verteilung
Bildbereich:
Parameter der Verteilung:
Verteilung:
Erwartungswert:
Varianz:
WX = {0, 1, . . . , n}
n<N.
n, M, N, p := M
N mit M< N,
M
N −M
x n− x
PX,x = P ({X = x}) =
χWX (x) , x ∈ R .
N
n
(Konvention ji = 0 für j < 0 oder j > i )
E(X) = np
−n
V(X) = np(1 − p) N
N −1
Zur Berechnung von E(X) eine Vorbemerkung. Man beweist für (zulässige) p, q, r ∈ N die Formel
r X
p
q
p+q
=
(7.22)
k
r−k
r
k=0
Damit gelingt nun die Berechnung des Erwartungswertes wie folgt:
−1 X
−1 X
n
n
M
N
N −M
N
M
N −M
x
E(X) =
=
k
x
n
n−x
n
k
n−k
x=0
k=1
−1 X
−1 X
n
n−1 N
M −1 N −M
N
M −1
N −M
=
M
=M
n
k−1
n−k
n
j
n−1−j
j=0
k=1
−1 N
M −1+N −M
M
n.
= M
=
N
n
n−1
Die Berechnung der Formel für V(X) erfolgt auf ähnlichem Wege.
138
Beispiel 7.10.3 Zur Herleitung einer Zufallsgröße, die hypergeometrisch verteilt ist, gehen wir
von einer für diese Verteilung typischen Situation (Qualitätskontrolle) aus:
Ein Warenposten umfasst N Teile, unter denen sich M Ausschussteile befinden. Wir
entnehmen diesem Warenposten nacheinander und ohne Zurücklegen – es möge etwa
eine Beschädigung“ durch die Entnahme nicht auszuschließen sein – n Teile und
”
interessieren uns für die Wahrscheinlichkeitsverteilung derjenigen Zufallsgröße X,
die die Anzahl der Ausschussteile in einer solchen Stichprobe angibt.
Es sei X die Anzahl der defekten Teile, die beim Versuch gezogen werden. Ein Elementarereignis dieses Versuches besteht aus einer n–Teilmenge aller Teile des Warenpostens.
Jedes EleN
mentarereignis ist gleichwahrscheinlich und hat daher die Wahrscheinlichkeit n . Das Ereignis
{X = x} tritt ein, wenn man x–mal eindefektes Teil und (N − x)–mal ein fehlerfreies Teil
N −M
entnimmt. Für die erste Wahl gibt es M
Möglichkeiten.
x , für die zweite Wahl gibt es
n−x
Damit wird
M
N −M
x
n−x
,
P ({X = x}) =
N
n
falls x zum Wertebereich der Zufallsgröße gehört. Die Zufallsgröße hat also eine hypergeometrische Verteilung.
Poisson–Verteilung
Bildbereich:
WX = N0
Parameter der Verteilung:
λ
Verteilung:
PX,x = P ({X = x}) =
Erwartungswert:
E(X) = λ
Varianz:
V(X) = λ
exp(−λ)λx
χWX (x) , x ∈ R .
x!
Der Nachweis der Formel für den Erwartungswert ist einfach:
E(X) =
∞
X
∞
k exp(−λ)
k=1
k=0
= λ exp(−λ)
X λk
λk
= exp(−λ)
k!
(k − 1)!
∞
X
k=0
λk
k!
= λ exp(−λ) exp(λ) = λ .
Der Nachweis der Formel für die Varianz erfolgt mit ähnlichen Rechenschritten.
Die Verteilung geht auf S.D. Poisson13 zurück. Stichworte können sein: Anzahl der Telefonanrufe pro Zeiteinheit in der Telefonzentrale einer Firma, Anzahl der von einer radioaktiven
Probe ausgestrahlten Partikel pro Zeiteinheit, Anzahl von Jobs, die pro Zeiteinheit an einem
Rechnerserver eintreffen, . . . . Beachte, dass es keine Verteilung im Rahmen unserer Darstellung
ist, da sie abzählbar viele Werte annimmt. Wir begründen ihre Wichtigkeit noch als Grenzwert
der Binomialverteilung.
Beispiel 7.10.4 Die Wahrscheinlichkeit, dass eine mit einem bestimmten Serum geimpfte Person die Impfung nicht verträgt, sei p := 10−3 . Insgesamt werden 2 000 Personen mit diesem
13
Poisson, Simeon D. (1781 — 1840)
139
Serum geimpft. Die binomialverteilte Zufallsvariable X beschreibe dabei die Anzahl derjenigen
geimpften Personen, die die Impfung nicht vertragen. Dabei ist n = 2 000 sehr groß und der
Parameter p = 10−3 sehr klein.
Bemerkung 7.10.5 In der Statistik begegnet man der Aufgabe, aus Daten auf die Art der Verteilung zu schließen. Hier deuten wir dies an folgendem Beispiel an.14 Die Spalte der errechneten
Werte kommt so zustande:
Aus den Beobachtungen errechnet sich ein Mittelwert“
”
(0 · 109 + 1 · 65 + 2 · 22 + 3 · 3 + 4 · 1)
= 0.61
x̄ =
200
Nimmt man λ = x̄ – beachte, dass der Erwartungswert einer hypergeometrischen Verteilung mit
Verteilungsparameter λ sich als λ ergibt – in der hypergeometrischen Verteilung, dann erhält
man die Spalte der errechneten Werte (gerundet). Die Annahme, dass eine hypergeometrische
Verteilung den Daten zugrundeliegt, scheint also gerechtfertigt.
Von den gängigen und wichtigen Verteilungen fehlt uns noch die Normalverteilung.
Sie ist allerdings eine Verteilung, die mit einer
Zufallsgröße X, die nicht diskret ist, zusammenhängt.
Tabelle: Tote durch Hufschlag in 10 preußischen Kavallerieregimentern während 20 Jahren
Anzahl von Jahren mit x Toten
pro Regiment pro Jahr
Wir haben die Binominalverteilung kennengelernt. Ihre Verteilung enthält die Parameter p und n. Wir haben auch schon gesehen, dass man bei einem Grenzübergang
n → ∞, p → 0, pn = λ , die Poissonverteilung
erhält. Macht man nun den Grenzübergang
n → ∞ bei festem p, so erhält man als Näherung für die Binominalverteilung die Normalverteilung in folgendem Sinne:
P ({X = k}) ≈ p
1
2πnp(1 − p)
exp(−
x
(k − np2 )
)
2np(1 − p)
0
1
2
3
4
≥5
Beobachtet
Errechnet
109
65
22
3
1
0
109
66
20
4
1
0
Diese Näherung ist schlecht, wenn p nahe 0 oder 1 liegt oder wenn n klein ist. In der Praxis
betrachtet man die Näherung als brauchbar, wenn etwa np(1 − p) ≥ 10 gilt.
7.11
Übungen
1.)
Wie viele Möglichkeiten gibt es, mn Gegenstände so auf m Fächer zu verteilen, dass in
jedem Fach n Gegenstände sind?
2.)
Wir werfen achtmal einen (fairen) Würfel.
(a)
Wie groß ist die Wahrscheinlichkeit, dass jede Augenzahl 1,2,3,4,5,6 mindestens
einmal erscheint?
(b) Wie groß ist die Wahrscheinlichkeit, dass man genau zweimal eine sechs würfelt?
14
Entnommen aus: E. Kreyszig [11].
140
3.)
Eine Urne enthalte zwei rote, zwei schwarze und zwei blaue Kugeln. Es werden zufällig
zwei Kugel mit einem Griff entnommen. Danach wird zufällig aus den restlichen Kugeln
eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot?
4.)
Eine Urne enthalte zwei rote und drei schwarze Kugeln. Eine Kugel wird zufällig entnommen und durch eine Kugel der anderen Farbe ersetzt. Dieser Vorgang wird noch einmal
wiederholt. Mit welcher Wahrscheinlichkeit ist eine danach entnommene Kugel rot?
5.)
Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen
Augenzahlen, also
Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} .
1≤j≤n
Zeige: limn E(xn ) = 6 .
6.)
Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige:
E(X) =
n
X
j=0
p(X ≥ j) .
7.)
Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der
Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5
(S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her.
8.)
Nach einer Umfrage beträgt die Wahrscheinlichkeit, die Führerscheinprüfung beim ersten
Versuch zu bestehen, p = 0.6 . Die Wahrscheinlichkeit dafür, dass ein Kandidat beim
zweiten Versuch besteht, wenn er beim ersten Versuch durchgefallen ist, ist q = 0.9 .
(a)
Man gebe die Wahrscheinlichkeit für das Ereignis E: Erfolg beim zweiten Versuch,
”
wenn der erste Versuch nicht erfolgreich war“ an.
(b) Mit welcher Wahrscheinlichkeit sind mehr als zwei Versuche nötig, um die Prüfung
zu bestehen?
(c)
9.)
Mit welcher Wahrscheinlichkeit besteht ein Kandidat in einem der beiden ersten
Versuche.
Nach einer Statistik“ beträgt die Wahrscheinlichkeit für einen Slalomfahrer, im ersten
”
Durchgang nicht auszuscheiden, p = 0.8 . Die Wahrscheinlichkeit dafür, dass ein Fahrer
beim zweiten Durchgang durchkommt, wenn er im ersten Durchgang nicht ausgeschieden
ist, ist q = 0.9 .
(a)
Man gebe die Wahrscheinlichkeit für das Ereignis E: Erfolg beim zweiten Durch”
gang, wenn der erste Durchgang erfolgreich absolviert wurde“ an.
(b) Mit welcher Wahrscheinlichkeit absolviert ein Fahrer beide Durchgänge erfolgreich?
(c)
3 Fahrer treten zum ersten Durchgang an, Mit welcher Wahrscheinlichkeit scheidet
keiner aus?
141
Herunterladen