Statistik

Statistik
Doz. Dr. Norbert Kusolitsch
Institut für Statistik und Wahrscheinlichkeitstheorie
Abt: Wahrscheinlichkeitstheorie und Theorie stochastischer Prozesse1
25. Oktober 2013
1
c Alle Rechte, auch die der Übersetzung, des auszugsweisen Nachdrucks und der foto
mechanischen Wiedergabe vorbehalten.
2
Inhaltsverzeichnis
1 Einführung – grundlegende Begriffe
5
2 Die bedingte Wahrscheinlichkeit
21
3 Zufallsvariable und Verteilungsfunktionen
3.1 Eindimensionale Verteilungsfunktionen . . .
3.2 Mehrdimensionale Zufallsvariable . . . . . .
3.3 Transformation von Zufallsvariablen . . . .
3.4 Die Faltung . . . . . . . . . . . . . . . . . .
.
.
.
.
29
29
38
53
56
.
.
.
.
61
61
65
70
78
.
.
.
.
.
.
.
.
4 Erwartungswert und andere Lageparameter
4.1 Erwartungswert einer diskreten Zufallsvariablen
4.2 Allgemeine Definition des Erwartungswertes . .
4.3 Weitere Eigenschaften des Erwartungswertes .
4.4 Andere Lageparameter . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Streuungsparameter
83
6 Das schwache Gesetz der großen Zahlen
91
7 Das
7.1
7.2
7.3
7.4
starke Gesetz der großen Zahlen
Die Lemmata von Borel-Cantelli . .
Fast sichere Konvergenz . . . . . . .
Andere Konvergenzarten . . . . . . .
Der Satz von Glivenko-Cantelli . . .
8 Der
8.1
8.2
8.3
zentrale Grenzverteilungssatz
115
Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . 115
Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Der zentrale Grenzverteilungssatz . . . . . . . . . . . . . . . . . . . . 122
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
. 99
. 106
. 110
. 111
4
INHALTSVERZEICHNIS
Kapitel 1
Einführung – grundlegende
Begriffe
Anstatt philosophische Betrachtungen über die Begriffe Wahrscheinlichkeit und Zufall anzustellen, wollen wir zunächst einige Beispiele anführen, bei denen statistische
Fragestellungen auftreten.
1. Volkszählungen: Bereits in der Bibel werden Volkszählungen erwähnt; sie
dienten der Steuereintreibung und Aushebung von Heeren.Volkszählungen werden heutzutage alle 10 Jahre durchgeführt.
2. Stichprobenerhebungen: (Mikrozensus) zur Analyse des Konsumverhaltens; weiters werden Stichprobenerhebungen bei der Erstellung von Wahlprognosen verwendet.
3. Schätzung des Gesamtbestandes einer Population: etwa eine vom Aussterben bedrohte Tierart. Da genaue Zählungen unmöglich sind, muß auf statistische Schätzverfahren zurückgegriffen werden.
4. statistische Untersuchung über Wirkungen und Nebenwirkungen
von Medikamenten: 1953 wurde der Polio–Impfstoff an 5 Mio. Testpersonen
erprobt. Es handelte sich um einen doppelten Blindversuch, d.h. um subjektive Verfälschungen auszuschalten, wußten weder Arzt noch Patient, ob das
Medikament oder eine wirkungslose Substanz verabreicht wurde.
5. telegraphische Datenübermittlung: Das Telegraphenalphabet besteht aus
den Zeichen ., –, “kurzer Zwischenraum”, “langer Zwischenraum”. Jeder Buchstabe muß durch eine Zeichenfolge codiert werden. Damit die verschlüsselten
Nachrichten möglichst kurz werden, müssen häufige Buchstaben mit kurzen
Zeichenfolgen, seltene mit langen Folgen verschlüsselt werden. Die Erstellung
optimaler Codes ist ein statistisches Problem. Der optimale Code hängt im
wesentlichen von den Buchstabenhäufigkeiten ab.
5
6
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
6. Suchprobleme: Um Kosten zu sparen wurde während des II. Weltkrieges der
Wassermann-Test zur Erkennung von Syphilis-Erkrankungen nicht auf einzelne Personen, sondern auf ganze Personengruppen angewendet, indem man die
Blutproben aller Personen einer Gruppe zusammenmischte. War der Test negativ, so waren alle Personen dieser Gruppe gesund, und eine Untersuchung der
einzelnen Personen erübrigte sich. Natürlich hängt die optimale Gruppengröße
bei dieser Vorgangsweise eng mit der Häufigkeit der Erkrankung zusammen.
7. Spiel: 2 Spieler A und B nehmen jeder 1 oder 2 Kugeln; bei gerader Anzahl
gewinnt A – sonst B. Ist das Spiel fair?
8. Black Jack – Roulette: Gücksspiele bilden den historischen Ausgangspunkt
von wahrscheinlichkeitstheoretischen Überlegungen.
Grundlegende Begriffe:
Wir betrachten folgende 3 Versuche:
Beispiel 1.1 Werfen einer Münze
Beispiel 1.2 Würfeln
Beispiel 1.3 Roulette
Allen 3 Versuchen ist gemeinsam, daß sie auf eine genaue Anzahl von möglichen – einander ausschließenden – Versuchsausgängen ausgehen können. Diese Ausgänge sind
zufällig, d.h. es kann nicht vorhergesagt werden, welcher Ausgang tatsächlich eintritt.
Für die Beschreibung eines Versuchs ist zunächst die Menge der möglichen Versuchsausgänge von Bedeutung– auch Raum der möglichen Versuchsausgänge genannt,
und im folgenden meist mit Ω bezeichnet. Die einzelnen Ausgänge werden oft auch
Elementarereignisse genannt (z.B.: Elementarereignisse beim Würfeln: 1, 2, 3, 4, 5, 6).
Weiters muß der im Versuch wirkende “Zufallsmechanismus” beschrieben werden. In
den obigen drei Beispielen erscheint es sinnvoll, jedes Elementarereignis als “gleichwahrscheinlich” anzugeben, also :
in Beispiel 1.1: P (“A”) = P (“K”) = 21
(“A” . . . Adler wird geworfen; “K” . . . Kopf wird geworfen)
in Beispiel 1.2: P (“i”) =
1
6
in Beispiel 1.3: P (“i”) =
1
37
(i = 1, . . . , 6)
(i = 0, . . . , 36)
Aber bereits bei folgendem Versuch sind nicht alle Ausgänge gleichwahrscheinlich:
7
Beispiel 1.4 Man werfe 2 Würfel; Gesucht ist die Summe der Augenzahlen.
Ω = {2, 3 . . . , 12}
P (“2”) =
1
36
aber: P (“3”) =
2
1
=
36
18
Nicht nur den Elementarereignissen wird durch einen Zufallsmechanismus eine Wahrscheinlichkeit zugeordnet: Betrachten wir etwa Beispiel 1.2. – Klarerweise wird man
dort dem Ereignis “eine gerade Augenzahl wird geworfen” die Wahrscheinlichkeit 21
zuordnen, dem Ereignis “Augenzahl größer als 4” die Wahrscheinlichkeit 13 .
Wir wollen im folgenden stets Ereignisse durch Teilmengen A(⊆ Ω) des Raums
der möglichen Versuchsausgänge charakterisieren. Dabei bedeutet A das Ereignis:
“ein Ausgang ω ∈ A ist eingetreten.” Dieser Zugang erlaubt, verschiedene Operationen für Ereignisse durch mengentheoretische Operationen zu definieren – so
bedeutet etwa:
A∪B
A∩B
A\B
A △ B = (A \ B) ∪ (B \ A)
A⊆B
“ein Ausgang aus A oder ein
Ausgang aus B tritt ein”
“ein Ausgang ω tritt ein, der
sowohl in A als auch in B liegt”
“der Ausgang liegt in A, aber nicht in B”
“der Ausgang liegt nur in A
oder nur in B”
“ist ω ∈ A eingetreten,
dann ist auch B eingetreten”
– man kann auch sagen:
“A hat B zur Folge.”
Ist A ⊂ Ω, so nennt man Ac = Ω \ A das zu A komplementäre Ereignis.
In den vorhin betrachteten Versuchen ist es sinnvoll, durch Angabe der Wahrscheinlichkeiten der Elementarereignisse die Wahrscheinlichkeiten sämtlicher Ereignisse A ⊆ Ω zu definieren – und zwar durch:
X
P (A) :=
P (ω)
ω∈A
etwa in Beispiel 1.2:
P (“gerade Augenzahl”) = P (“2”) + P (“4”) + P (“6”).
Mit dieser Festlegung haben die Wahrscheinlichkeiten aller Ereignisse A folgende
Eigenschaften:
0 ≤ P (A)
A ⊆ B ⇒ P (A) ≤ P (B)
A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
8
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Man denkt sich die Wahrscheinlichkeiten als idealisierte relative Häufigkeiten
der einzelnen Ausgänge – man nimmt also z.B. an, daß in einer langen Folge von
Würfen mit einem Würfel ungefähr 1/6 aller Ausgänge die Augenzahl “3” hat. Da
sich die relativen Häufigkeiten aller möglichen Ausgänge zu 1 summieren, werden
wir stets P (Ω) = 1 setzen. Im allgemeinen genügt es nicht, die Wahrscheinlichkeit
der Elementarereignisse alleine anzugeben. Betrachten wir etwa folgende Situation:
Beispiel 1.5 Ein Kreisel mit Umfang 1 rotiere um seinen Mittelpunkt. Auf dem
Kreisel sei eine Markierung angebracht, und außerhalb des Kreisels befinde sich eine
Skala (siehe Abb. 1.1).
Man wird natürlich annehmen, daß gilt:
1.0
0.1
0.9 ✬✩
b
★✥
✛✘
✗✔
✓✏
✎☞
❡
❥
❣
✍✌
✒✑
✖✕
✚✙
✧✦
✫✪
a
0.5
Abbildung 1.1: rotierender Kreisel
P (“Markierung zwischen i/N und (i + 1)/N ”) = 1/N
i = 0, . . . , N − 1.
Daraus ersieht man :
N −→ ∞ ⇒ P (ω) = 0
∀ω ∈ [0, 1].
Aber trotzdem ist es sinnvoll, die Wahrscheinlichkeit etwa des Ereignisses “die Markierung zeigt auf einen Punkt zwischen a und b” durch:
P ([a, b]) = b − a
anzugeben 1 . Aber auch in diesem Fall gilt für die Wahrscheinlichkeiten von Ereignissen:
1. 0 ≤ P (A) ≤ 1
2. A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
3. A ⊂ B ⇒ P (A) ≤ P (B)
1
Man beachte: Der Ausdruck
P
ω∈[a,b]
Terme nicht aufsummiert werden kann.
P (ω) = 0 ergibt keinen Sinn, da über überabzählbar viele
9
Statt Eigenschaft 2 wird meist eine etwas strengere Anforderung gestellt.
Dazu ein Beispiel:
Beispiel 1.6 Man werfe eine Münze, bis erstmals ein “Adler” geworfen wird.
Ω=N
P (i) =
1
2i
U = “erster Adler erscheint bei ungerader Wurfzahl”
P (U ) =
∞
X
i=1
P (2i − 1) =
∞
X
i=1
1
22i−1
=
1 1
1
2
+ +
+ ··· =
2 8 32
3
Hier wird statt 2 die folgende Eigenschaft verwendet.
2’. (σ-Additivität)
[
X
(An ) Ereignisse: Ai ∩ Aj = ∅ ∀i 6= j ⇒ P ( An ) =
P (An )
N
N
Definition 1.1 Im folgenden wollen wir unter einer Wahrscheinlichkeitsverteilung
stets eine Funktion auf einem “gewissen System” von Ereignissen verstehen, welche
den Bedingungen 1 und 2’ genügt. Diese beiden Bedingungen werden Kolmogoroffsches Axiomensystem genannt.
In Beispiel 1.5 haben wir sehr leicht für bestimmte “einfache” Ereignisse – nämlich
für die Intervalle [a, b] – die Wahrscheinlichkeiten angeben können. Es erhebt sich nun
die Frage, ob aus der Kenntnis dieser Wahrscheinlichkeiten die Wahrscheinlichkeiten
anderer Ereignisse – zumindest theoretisch – bestimmt werden können. So kann
etwa aus P ([a, b]) = b − a und der Monotonie der Wahrscheinlichkeit auf P (ω) =
0 ∀ω ∈ [0, 1) geschlossen werden. Umgekehrt kann man mit Hilfe der Kenntnis von
P (ω) ∀ω ∈ [0, 1) P ([a, b]) nicht bestimmen.
Im allgemeinen kann auch aus der Wahrscheinlichkeit P ([a, b]) nicht für jede
Teilmenge A von [0, 1] eine Wahrscheinlichkeit berechnet werden, ja man kann sogar
zeigen, daß es auf P([0, 1]) 2 keine Wahrscheinlichkeit geben kann, die die Bedingung P ([a, b]) = b − a erfüllt. Man muß deshalb auf ein spezielles Mengensystem
einschränken. Hat jedoch das System T der “einfachen” Ereignisse die Eigenschaft,
daß mit je 2 Mengen A, B aus diesem System auch deren Durchschnitt im System
liegt, und daß aus
A ⊆ B und A, B ∈ T
folgt:
∃C1 . . . Cn ∈ T : B \ A =
2
n
[
Ci
i=1
P([0, 1]) ist die Potenzmenge von [0, 1]
10
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
(Ein derartiges System ist z.B. das System der halboffenen Intervalle. Falls a ≤ c <
d ≤ b, so gilt [a, b] \ [c, d) = [a, c) ∪ [d, b).), dann sind durch die Wahrscheinlichkeiten
dieser “einfachen” Mengen auch die Wahrscheinlichkeiten aller Teilmengen eines
Systems S festgelegt, das mit T folgendermaßen zusammenhängt: S ist das kleinste
Mengensystem, das T enthält und für das gilt:
A ∈ S ⇒ Ac ∈ S
An ∈ S ∀n ⇒
[
N
An ∈ S,
\
N
An ∈ S
(Da P (Ω) = 1 stets festgelegt ist, kann auch Ω ∈ T ⊆ S angenommen werden.)
Ein derartiges System S heißt σ-Algebra oder Ereignisfeld.
Wir definieren nun:
Definition 1.2 Unter einem Wahrscheinlichkeitsraum versteht man ein Tripel
(Ω, S, P ), wobei Ω der Raum der möglichen Versuchsausgänge, S eine σ-Algebra
auf Ω und P eine Wahrscheinlichkeit auf S ist.
Wir wollen uns jedoch mit der Problematik der geeigneten σ-Algebra nicht weiter
befassen, sondern im folgenden stets annehmen, daß wir bei höchstens abzählbar
vielen Versuchsausgängen die Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten der Elementarereignisse festlegen können (S stimmt in diesem Fall mit
P(Ω) überein), und daß dann, wenn als Ausgänge alle Elemente eines Intervalls der
Zahlengerade in Betracht kommen (etwa bei einer Messung), die Wahrscheinlichkeitsverteilung durch die Angabe der Wahrscheinlichkeiten der Intervalle [a, b] :=
“der Ausgang liegt zwischen a und b” festgelegt wird.(S ist in diesem Fall ein von
P(Ω) verschiedenes System – das System der Borelmengen, das jedoch alle Mengen
enthält, die von praktischer Bedeutung sind.)
Bevor wir auf die grundlegenden Eigenschaften der Wahrscheinlichkeiten eingehen, noch ein paar Bemerkungen über den Zusammenhang von Modell und Wirklichkeit: Ein und dasselbe Modell kann viele verschiedene Versuche beschreiben:
Beispiel 1.7 Sei Ω = {1, 2, 3, 4, 5, 6}, S = P(Ω), P (i) =
Zu (Ω, S, P ) passen folgende Versuche:
1
6
1. Würfeln
2. Eine Urne enthält 6 Lose mit den Nummern 1–6. Ein Los wird gezogen.
3. Eine Urne hat 3 Lose. Die 3 Lose werden ohne Zurücklegen gezogen. Die möglichen Ausgänge werden durchnumeriert:
“1” = (1, 2, 3)
11
“2” = (1, 3, 2)
“3” = (2, 1, 3)
“4” = (2, 3, 1)
“5” = (3, 1, 2)
“6” = (3, 2, 1)
Umgekehrt kann ein Versuch durch mehrere Modelle adäquat beschrieben werden.
Beispiel 1.8 Man werfe eine Münze 2-mal. Gefragt ist die Anzahl der “Köpfe” bei
den beiden Würfen.
2 verschiedene Modelle:
1.
Ω = {0, 1, 2}
2.
Ω = {(K, K), (K, A), (A, K), (A, A)}
S = P(Ω)
“0” = {(A, A)}
P (0) = P (2) =
1
4
P (1) =
P ((x, y)) =
“1” = {(K, A), (A, K)}
1
2
1
4
“2” = {(K, K)}
Beispiel 1.9 Man würfle bis zur ersten Sechs. Gefragt ist die Anzahl der Würfe.
2 verschiedene Modelle:
1.
Ω = N S = P(Ω) P (n) = 5n−1 /6n
2.
Ω = {(x1 , . . . , xn ) : x1 = . . . = xn−1 = 0, xn = 1}
P ((x1 , . . . , xn )) =
5n−1
6n
Welches Modell verwendet wird, hängt von den näheren Umständen, persönlichen
Vorlieben und ähnlichem ab; für die Mathematik ist es bedeutungslos.
Als nächstes wollen wir einige grundlegende Eigenschaften von Wahrscheinlichkeitsverteilungen zusammenstellen.
Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum (Ω eine beliebige Menge), S eine σAlgebra und P eine Wahrscheinlichkeitsverteilung auf S.
Satz 1.1 Bezeichnet man das unmögliche Ereignis mit ∅ , so gilt
P (∅) = 0.
Beweis.
2′ ⇒ P (∅) = P (∅ ∪ ∅ ∪ . . .) =
X
N
P (∅) ≤ 1 ⇒ P (∅) = 0
12
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Satz 1.2
Ai ∩ Aj = ∅ ∀i 6= j 1 ≤ i, j ≤ n ⇒ P (
n
[
Ai ) =
n
X
P (Ai )
i=1
i=1
Beweis. Sei An+1 := An+2 := · · · = ∅ ⇒
P(
n
[
i=1
[
X
Ai ) = P ( Ai ) =
P (Ai )
N
n
X
=
i=1
N
P (Ai ) + 0 + 0 + · · · =
n
X
P (Ai )
i=1
Satz 1.3
A ⊆ B ⇒ P (B \ A) = P (B) − P (A),
P (B) ≥ P (A)
Beweis.
B = A ∪ (B \ A) ⇒ P (B) = P (A) + P (B \ A) ⇒ P (B) ≥ P (A)
Satz 1.4
P (Ac ) = 1 − P (A)
Beweis. Der Beweis folgt aus Satz 1.3 mit B = Ω.
Satz 1.5
P(
n
[
i=1
Ai ) ≤
n
X
P (Ai )
i=1
∀n ∈ N
Beweis.
Bi := Ai \
i−1
[
Aj
j=1
Somit
P(
n
[
i=1
Ai ) = P (
n
[
i=1

∀i = 1, . . . , n
 Bi ⊆ Ai
⇒
B ∩ Bj = ∅
∀i =
6 j
Sn
 Sin
A
=
B
i=1 i
i=1 i
Bi ) =
n
X
i=1
P (Bi ) ≤
n
X
i=1
P (Ai )
13
Beispiel 1.10 Man würfle 5-mal. Gesucht ist die Wahrscheinlichkeitsverteilung der
größten gewürfelten Augenzahl unter den 5 Würfen.
Ω = {(x1 , . . . , x5 ); xi ∈ {1, . . . , 6}}, S = P(Ω), P ((x1 , . . . , x5 )) =
1
65
Ai := {(x1 , . . . , x5 ); xj ≤ i, ∃j : xj = i} . . . “größte Augenzahl = i”
Bi := {(x1 , . . . , x5 ); xj ≤ i ∀j} . . . “größte Augenzahl ≤ i”
A1 = B1 ⊆ B2 ⊆ . . . ⊆ B6 = Ω
5
1
P (B1 ) =
6
5
2
P (B2 ) =
6
..
.
5
i
P (Bi ) =
6
P (A1 ) = P (B1 ) =
1
65
P (A2 ) = P (B2 ) − P (B1 ) =
25 − 1
65
..
.
P (Ai ) = P (Bi ) − P (Bi−1 ) =
i5 − (i − 1)5
65
Den obigen Versuch könnte man daher auch durch folgendes Modell beschreiben:
Ω′ = {1, . . . , 6}
S = P(Ω′ )
i5 − (i − 1)5
P (“i”) =
65
Definition 1.3 Sei Ω eine endliche Menge (Ω = {ω1 , . . . , ωn }, S = P(Ω)). Wenn
P (ωi ) = const =
1
n
∀i = 1, . . . , n,
dann nennt man P eine diskrete Gleichverteilung auf Ω.
14
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Satz 1.6 (klassische Wahrscheinlichkeitsdefinition nach Laplace)
Ist (Ω, S, P ) ein diskreter Wahrscheinlichkeitsraum mit Gleichverteilung, so gilt:
∀A ⊆ Ω :
P (A) =
X 1
|A|
|A|
=
=
n
n
|Ω|
ω∈A
Wenn A ∩ B = ∅, dann wissen wir:
P (A ∪ B) = P (A) + P (B).
Wir wollen nun P (A ∪ B) für den Fall A ∩ B 6= ∅ bestimmen.
Satz 1.7 (Additionstheorem)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis.
A ∪ B = (A ∩ B) ∪ (B \ A) ∪ (A \ B)
= (A ∩ B) ∪ (B \ (A ∩ B)) ∪ (A \ (A ∩ B)) ⇒
P (A ∪ B) = P (A ∩ B) + P (B) − P (A ∩ B) + P (A) − P (A ∩ B) ⇒
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beispiel 1.11 (Montmortsches Problem)
Ein Wählerverzeichnis enthalte n Wahlberechtigte; jeder Wähler hat eine Nummer
im Wählerverzeichnis und bekommt eine fortlaufende Nummer bei der Wahl. Ai
bezeichne das Ereignis, daß der Wähler i im Wählerverzeichnis als i-ter Wähler
zur Wahl kommt und daher die fortlaufende Nummer i erhält. Man bestimme die
Wahrscheinlichkeit P (Ai ) von Ai .
Ω = {(x1 , . . . , xn ); xi ∈ {1, . . . , n}; xi 6= xj ∀i 6= j}
= {Menge der Permutationen} ⇒ |Ω| = n!
P (x1 , . . . , xn ) =
1
n!
Ai = {(x1 , . . . , xi−1 , i, xi+1 , . . . , xn );
xj ∈ {1, . . . , n}; xj 6= xk ∀j 6= k; xj 6= i ∀j 6= i}
⇒ P (Ai ) =
1
n
|Ai | = (n − 1)!
Als nächstes wollen wir die Wahrscheinlichkeit P (Ai ∪ Aj ) berechnen.
P (Ai ∩ Aj ) =
(n − 2)!
1
=
⇒
n!
n(n − 1)
P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ) =
1
2
−
n n(n − 1)
15
Bevor wir uns mit der Frage beschäftigen, mit welcher Wahrscheinlichkeit bei mindestens einem Wähler die fortlaufende Nummer mit der Nummer im Wählerverzeichnis
übereinstimmt, wollen wir kurz die wichtigsten Eigenschaften der Binomialkoeffizienten wiederholen und das Additionstheorem verallgemeinern.
Sei Ckn die Anzahl der Möglichkeiten, aus n Elementen k Elemente auszuwählen.
Klarerweise gilt:
Def.: C00 := 1
C01 = C11 = 1
Man kann Ckn leicht rekursiv berechnen. Angenommen Ckn ist bekannt, sei ohne
Einschränkung der Allgemeinheit M = {1, . . . , n + 1}. Man kann eine Teilmenge
mit k Elementen auswählen, indem man n + 1 auswählt und k − 1 Elemente aus
{1, . . . , n} hinzugibt, oder indem man k Elemente aus {1, . . . , n} wählt und n + 1
nicht nimmt. Daraus folgt
n
Ckn+1 = Ckn + Ck−1
Damit erhält man folgendes Rekursionsschema, das als Pascalsches Dreieck bekannt
ist.
1
C00
11
/\
121
C01 C11
1331
/\/\
14641
C02 C12 C22
1 5 10 10 5 1 / \ / \ / \
Ein zweiter Weg, der zur obigen Rekursionsformel führt, ist folgender:
Sei Kkn der Koeffizient von ak bn−k in der Binomialentwicklung von (a + b)n – also:
(a + b)n =
n
X
Kkn ak bn−k
k=0
es gilt:
(a + b)n+1 = (a + b)n (a + b)
!
n
X
n k n−k
(a + b)
Kk a b
=
k=0
=
n
X
Kkn ak+1 bn−k +
=
=
k=1
n+1
X
k=0
Kkn ak bn+1−k
k=0
k=0
n
X
n
X
n
n
+ Kk ak bn+1−k + Knn an+1 + K0n bn+1
Kk−1
Kkn+1 ak bn+1−k
16
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
n+1
wegen K0n = K0n+1 = Knn = Kn+1
= 1 ∀n ∈ N ⇒
n
Kkn+1 = Kkn + Kk−1
Die Kkn heißen Binomialkoeffizienten.
Wegen K01 = C01 = 1 und K11 = C11 = 1 muß allgemein gelten:
Kkn = Ckn
Die explizite Gestalt von Ckn : Man betrachte die Permutationen von {1, . . . , n}; die
Anzahl der Permutationen ist n!
Sei {x1 , . . . , xn } eine Permutation, setze xi := 0, wenn xi ∈ {1, . . . , k}. Dadurch
erhält man ein n-Tupel (y1 , . . . , yn ) yi1 = · · · = yik = 0, yj ∈ {k + 1, . . . , n} wenn
j 6∈ {i1 , . . . , ik }. Zu jedem derartigen n-Tupel gehören genau k! Permutationen, aus
denen (y1 , . . . , yn ) gebildet werden kann. Somit gibt es n!/k! Tupel (y1 , . . . , yn ) obiger
Gestalt.
Setzt man yj = 1 wenn yj 6= 0, so erhält man ein n-Tupel (z1 , . . . , zn ) mit zi ∈ {0, 1}.
Klarerweise gehören zu jedem n-Tupel (z1 , . . . , zn ) (n − k)! Tupel (y1 , . . . , yn ), aus
denen (z1 , . . . , zn ) gebildet werden kann
n
n!
=
⇒ Anzahl der Tupel (z1 , . . . , zn ) =
k!(n − k)!
k
Interpretiert man zi = 1 in dem Sinn, daß ein Element i ∈ {1, . . . , n} für eine
Teilmenge ausgewählt wird, so entspricht jeder Teilmenge von {1, . . . , n} genau ein
n-Tupel (z1 , . . . , zn ) mit zi ∈ {0, 1}.
⇒ | (z1 , . . . , zn ); zi ∈ {0, 1}; ∃zi1 = · · · = zik = 1; zj = 0 sonst | = Ckn
⇒ Ckn = nk
Tatsächlich läßt sich leicht nachrechnen:
n+1
n
n
=
+
k
k
k−1
Seien nun 3 Mengen A, B, C gegeben. Dann gilt
P (A ∪ B ∪ C)
= P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C)
− P (B ∩ C) + P (A ∩ B ∩ C)
(der Beweis bleibt dem Leser überlassen)
17
Satz 1.8 (Allgemeines Additionstheorem)
Gegeben seien die Ereignisse
A1 , . . . , An , dann gilt:
P(
n
[
Ai ) =
i=1
n
X
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=1 1≤i1 <i2 <···<ik ≤n
Beweis.Durch vollständige Induktion: für n = 2 bereits bewiesen.
Angenommen das Theorem sei für n richtig, dann betrachten wir n + 1:
n+1
[
P(
Ai ) = P (
n
[
i=1
i=1
= P (An+1 ) +
+
Ai ) + P (An+1 ) − P (
i=1
n
X
X
k=1 1≤i1 <i2 <···<ik ≤n
n
X
X
= P (An+1 ) +
+
k=1 1≤i1 <i2 <···<ik ≤n
X
= P (An+1 ) +
+
Ci
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
(−1)k+2 P (Ai1 ∩ · · · ∩ Aik ∩ An+1 )
k=1 1≤i1 <i2 <···<ik ≤n
n
X
X
n+1
X
(A ∩ A
))
| i {z n+1}
(−1)k P (Ci1 ∩ · · · ∩ Cik )
k=1 1≤i1 <i2 <···<ik ≤n
n
X
X
n
X
n
[
k=1 1≤i1 <i2 <···<ik ≤n
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
(−1)(k+1)+1 P (Ai1 ∩ · · · ∩ Aik+1 )
k+1=2 1≤i1 <···<ik <ik+1 =n+1
=
n+1
X
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=1 1≤i1 <i2 <···<ik ≤n+1
Satz 1.9 (Ungleichungen von Bonferroni)
Gegeben seien die Ereignisse A1 , . . . , An , dann gilt
2r
X
X
k=1 1≤i1 <···<ik ≤n
k+1
(−1)
P (Ai1 ∩ · · · ∩ Aik ) ≤ P (
n
[
i=1
Ai )
n
r = 1, . . . , ⌊ ⌋
2
und
3
⌊x⌋ = die größte ganze Zahl ≤ x (vgl. die FORTRAN-Funktion INT(x))
3
18
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
P(
n
[
i=1
Ai ) ≤
2r−1
X
X
k=1 1≤i1 <···<ik ≤n
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
n
r = 1, . . . , ⌈ ⌉ 4 .
2
Beweis.Wir zeigen zunächst mit vollständiger Induktion nach n, daß gilt
(−1)h+1
n
X
X
k=h 1≤i1 <···<ik ≤n
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) ≥ 0 ∀h = 1, . . . , n.
Sei n = 1: P (A1 ) ≥ 0
Sei n = 2: Für h = 1 gilt
P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) = P (A1 ∪ A2 ) ≥ 0.
Für h = 2 erhält man
−(−P (A1 ∩ A2 )) ≥ 0.
Sei Bi := Ai ∩ An+1
n+1
X
∀i = 1, . . . , n, dann gilt
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=h 1≤i1 <···<ik ≤n+1
n
X
X
=
k=h 1≤i1 <···<ik ≤n
|
−
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
{z
}
S1
n
X
X
k=h−1 1≤i1 <···<ik ≤n
|
(−1)k+1 P (Bi1 ∩ · · · ∩ Bik ) .
{z
}
S2
Für h = 2r − 1 gilt nach Induktionsvoraussetzung S1 ≥ 0 und S2 ≤ 0. Somit
S1 − S2 ≥ 0.
Für h = 2r gilt dagegen S1 ≤ 0 und S2 ≥ 0. Somit S1 − S2 ≤ 0.
Nun gilt aber
P(
n
[
i=1
Ai ) =
h
X
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=1 1≤i1 <···<ik ≤n
n
X
X
+
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik ).
k=h+1 1≤i1 <···<ik ≤n
Die zweite Summe auf der rechten Seite der obigen Gleichung ist wegen der zuvor
bewiesenen Ungleichung ≤ 0 für ungerades h und ≥ 0 für gerades h. Daraus folgt
die Aussage des Satzes unmittelbar.
4
⌈x⌉ = min{x ∈ Z : z ≥ x}
19
Beispiel 1.12 (Montmortsches Problem – Fortsetzung)
A := {(x1 , . . . , xn ) : ∃i | xi = i} . . . bei mindestens einem Wähler stimmt die Nummer im Wählerverzeichnis mit der fortlaufenden Nummer überein. Man berechne
P (A).
A=
n
S
i=1
Ai
P (Ai1 ∩ · · · ∩ Aik ) =
(n−k)!
n!
Es gibt nk verschiedene Möglichkeiten, k von insgesamt n Indizes auszuwählen und
damit Durchschnitte zu bilden.
P
1
P (Ai1 ∩ · · · ∩ Aik ) = nk (n−k)!
= k!
⇒
n!
1≤i1 <i2 <···<ik ≤n
P (A) = P (
n
S
i=1
Ai ) =
n
P
n→∞
1
(−1)k+1 k!
−→ 1 −
k=1
1
e
Satz 1.10 (Stetigkeitseigenschaft der Wahrscheinlichkeit)
1. Ist (An ) eine gegen A monoton wachsende (genauer monoton nicht fallende)
Folge (im Zeichen: An ր A), so gilt:
lim P (An ) = P (A)
n→∞
2. Ist (An ) eine gegen A monoton fallende (genauer monoton nicht wachsende)
Folge (im Zeichen: An ց A), so gilt:
lim P (An ) = P (A)
n→∞
Beweis.
A0 := ∅, An ր A ⇒ A =
[
N
An =
[
N
(An \ An−1 )
Die An \ An−1 sind paarweise disjunkt ⇒
X
P (A) =
P (An \ An−1 )
N
= lim
N
N
X
n=1
P (An ) − P (An−1 ) = lim P (AN )
N
An ց A ⇒ Acn ր Ac ⇒ P (Ac ) = lim P (Acn )
n→∞
d.h.:
1 − P (A) = lim(1 − P (An )) ⇒ P (A) = lim P (An ).
20
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Beispiel 1.13 Ein Versuch habe m Ausgänge {ω1 , . . . , ωm } mit Wahrscheinlichkeiten p1 , . . . , pm mit (p1 > p2 ≥ · · · ≥ pm ) p2 > 0. (sei etwa P (0) = P (2) = 1/4 und
P (1) = 1/2)
Ein Spieler setze immer sein gesamtes Kapital auf ω1 . Das Spiel sei zu Ende, wenn
unser Spieler kein Kapital mehr hat.
Gn . . . “Spieler hat n Runden siegreich überstanden”
P (Gn ) = pn1
Vn = Gcn “Spieler verliert spätestens in Runde n”
V . . . “Spieler verliert irgendwann”
S
V = Vn Vn ր V
P (V ) = lim P (Vn ) = lim(1 − pn1 ) = 1 ⇒
Die Hasardstrategie ist sinnlos.
Kapitel 2
Die bedingte Wahrscheinlichkeit
Wir wollen diesen Abschnitt mit einem Beispiel beginnen:
Beispiel 2.1 Bei einer Untersuchung über die Vererblichkeit der Haarfarbe von
Vätern auf Söhne wurden bei 1000 Testpaaren die unten aufgelisteten Ergebnisse
beobachtet.
Tabelle 2.1:
471
151
Vater
dunkelhaarig
148
230
619
381
622
378
1000
blond
Sohn
blond
dunkelhaarig
Σ
Σ
VB . . . Vater ist blond
VD . . . Vater ist dunkelhaarig
SB . . . Sohn ist blond
SD . . . Sohn ist dunkelhaarig
Die relative Häufigkeit von VB und SB ist daher:
hr (VB ) = 0.622
hr (SB ) = 0.619
Wie groß ist die relative Häufigkeit von SB , wenn man weiß, daß VB eingetreten ist
(d.h., daß der Vater blond ist)?
Man betrachtet nun nur Testpaare mit blonden Vätern – das sind insgesamt 622 –
21
22
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
darunter sind 471 mit blonden Söhnen. Bezeichnet man die relative Häufigkeit für
SB unter der Voraussetzung VB mit hr (SB | VB ), so gilt:
hr (SB | VB ) =
471
hr (SB ∩ VB )
=
= 0.757 > hr (SB )
hr (VB )
622
Da die Wahrscheinlichkeit eines Ereignisses als idealisierte relative Häufigkeit interpretiert werden kann, gibt Beispiel 2.1 Anlaß zu folgender Definition:
Definition 2.1 Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum, A und B 2 Ereignisse
und sei P (A) > 0, dann heißt
P (B | A) =
P (A ∩ B)
P (A)
die durch A bedingte Wahrscheinlichkeit von B.
Die Definition stimmt mit unserer Intuition überein. Man sagt:
A begünstigt B, wenn P (B | A) > P (B)
A behindert B, wenn P (B | A) < P (B)
A und B sind unabhängig, wenn P (B | A) = P (B)
Um den Begriff der Unabhängigkeit nicht auf Ereignisse mit positiver Wahrscheinlichkeit einschränken zu müssen, definiert man:
Definition 2.2 Zwei Ereignisse A, B heißen unabhängig, wenn
P (A ∩ B) = P (A)P (B) (im Zeichen A, B ua).
Falls P (A) > 0, so ist dies natürlich äquivalent zu
P (B | A) = P (B).
Aus der obigen Definition ist auch sofort zu ersehen, daß der Begriff der Unabhängigkeit symmetrisch in A und B ist. Deshalb sagt man nicht “B ist von A unabhängig”.
Satz 2.1
A, B unabhängig ⇒ Ac , B;
A, B c ;
Ac , B c sind auch unabhängig.
Beweis.
P (Ac ∩ B) = P (B) − P (A ∩ B)
= P (B) − P (A)P (B) = P (B)(1 − P (A))
= P (Ac )P (B)
Wendet man die obige Folgerung auf B, Ac an, so sieht man, daß auch Ac , B c ua
sind.
23
Beispiel 2.2 Jemand würfelt. Ein zweiter Spieler soll erraten, ob eine gerade oder
ungerade Augenzahl gewürfelt wurde.
G . . . gerade Augenzahl
U . . . ungerade Augenzahl
P (G) = P (U ) =
1
2
Nun wird dem zweiten Spieler vor seinem Rateversuch gesagt, ob die Augenzahl ≤ 3
oder > 3 war.
N = {1, 2, 3}
H = {4, 5, 6}
Man sieht sofort, daß
P (G | N ) =
1
3
P (U | N ) =
2
3
P (G | H) =
2
3
1
P (U | H) = .
3
Der zweite Spieler wird seine Erfolgsquote erhöhen, wenn er auf G tippt, falls H
eingetreten ist, und auf U , falls N eingetreten ist. Nun möge der zweite Spieler
erfahren, ob N ′ , M ′ , H ′ eingetreten ist mit:
N ′ = {1, 2}, M ′ = {3, 4}, H ′ = {5, 6}
Man sieht:
1
= P (G)
2
1
P (U | N ′ ) = P (U | M ′ ) = P (U | H ′ ) = = P (U )
2
P (G | N ′ ) = P (G | M ′ ) = P (G | H ′ ) =
Die Ereignisse sind ua. Der Spieler kann in diesem Fall seine Position nicht verbessern.
Aus der Definition der bedingten Wahrscheinlichkeit folgt unmittelbar:
Satz 2.2 (Multiplikationsregel)
P (A ∩ B) = P (A)P (B | A) = P (B)P (A | B)
(P (A) > 0, P (B) > 0)
Eine 2-malige Anwendung ergibt:
P (A ∩ B ∩ C) = P ((A ∩ B) ∩ C)
= P (A ∩ B)P (C | A ∩ B)
= P (A)P (B | A)P (C | A ∩ B)
Vollständige Induktion führt auf folgenden Satz:
24
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
Satz 2.3 (allgemeine Multiplikationsregel)
n
Y
P (Ai | A1 ∩ · · · ∩ Ai−1 )
P (A1 ∩ · · · ∩ An ) = P (A1 ) ·
i=2
Beispiel 2.3 Man würfle bis zur ersten “6”. Gesucht ist die Wahrscheinlichkeitsverteilung für die dazu notwendige Anzahl von Würfen.
Bi . . . beim i-ten Wurf wird eine “6” geworfen
Ai . . . die erste “6” wird beim i-ten Wurf geworfen
P (B1 ) = P (A1 ) = 61 ,
P (A2 ) = P (B1c ∩ B2 ) = P (B1c )P (B2 | B1c ) = P (B1c )P (B2 ) =
5
62
..
.
c
∩ Bn ) = P (B1c )P (B2c | B1c ) . . .
P (An ) = P (B1c ∩ · · · ∩ Bn−1
n−1
c
c
c
) = 5 6n
)P (Bn | B1c ∩ · · · ∩ Bn−1
| B1c ∩ · · · ∩ Bn−2
. . . P (Bn−1
Man kann die Problemstellung in obigem Beispiel allgemeiner formulieren: Führt
man unabhängige Versuche durch, bei denen jedesmal ein Ereignis A mit einer Wahrscheinlichkeit p eintreten kann, so gilt für die Wahrscheinlichkeit des Ereignisses Ai ,
daß A beim i-ten Versuch erstmals eintritt:
P (Ai ) = (1 − p)i−1 p
Mögliche Versuchsausgänge für das erstmalige Eintreten von A sind alle natürlichen
Zahlen N.
Definition 2.3 Die auf N durch
P ({i}) = (1 − p)i−1 p
∀i ∈ N 0 < p < 1
definierte Wahrscheinlichkeitsverteilung wird geometrische Verteilung genannt.
Manchmal ist die Wahrscheinlichkeit eines Ereignisses nicht unmittelbar zu erkennen, obwohl sie unter bestimmten Bedingungen leicht berechnet werden kann.
– Dazu ein Beispiel:
Beispiel 2.4 Man würfle zunächst, und werfe danach eine Münze sooft, wie es der
25
Augenzahl des Würfels entspricht.
Wi . . . Würfel fällt auf i
A . . . Es wird genau 2-mal “Kopf” geworfen
P (A | W1 ) = 0
P (A | W2 ) =
1
4
P (A | W3 ) = P ((K, K, A), (K, A, K), (A, K, K)) =
P (A | Wi ) = 2i 2−i
3
8
Hilft uns dieses Wissen bei der Berechnung weiter? Wie wir gleich sehen werden –
ja, es gilt nämlich:
Satz 2.4 (Satz von der vollständigen Wahrscheinlichkeit)
S
Seien H1 , . . . , Hn paarweise disjunkte Ereignisse mit ni=1 Hi = Ω (man nennt
{H1 , . . . , Hn } ein vollständiges System von Ereignissen), so gilt für jedes Ereignis
A:
P (A) =
n
X
i=1
P (Hi ) · P (A | Hi )
(Def.: P (Hi ) · P (A | Hi ) = 0, wenn P (Hi ) = 0)
Beweis.
P (A) = P (A ∩ Ω) = P (A ∩
=
n
X
i=1
P (A ∩ Hi ) =
n
[
Hi )
i=1
n
X
i=1
P (Hi ) · P (A | Hi )
Fortsetzung von Beispiel 2.4: Aus P (Wi ) = 1/6 und P (A | Wi ) =
demnach:
1 1
3
5
15
33
99
P (A) =
+2· +
+
=
≈ 0.257
=
6 4
8 16 64
6 · 64
128
i −i
2 2
folgt
Wir wollen wissen, wie groß P (W3 | A) ist. Die Antwort kann mit Hilfe des folgenden
Satzes gegeben werden.
Satz 2.5 (Bayessches Theorem)
Mit den Voraussetzungen und Bezeichnungen des vorigen Satzes gilt:
P (Hi | A) =
P (Hi ) · P (A | Hi )
n
P
P (Hj ) · P (A | Hj )
j=1
26
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
Beweis.Aus der Definition der bedingten Wahrscheinlichkeit und der Multiplikationsregel folgt
P (A | Hi )P (Hi )
P (A ∩ Hi )
=
P (A)
P (A)
P (A | Hi )P (Hi )
Pn
j=1 P (Hj ) · P (A | Hj )
P (Hi | A) =
=
Fortsetzung von Beispiel 2.4:
P (W3 | A) =
1
6
1
4
+2
1 3
6 · 8
5
· 38 + 16
+
15
64
=
8
≈ 0.242
33
Beispiel 2.5 Der Ruin eines Spielers:
Spieler I habe ein Kapital von x Schilling und Spieler II eines von C − x Schilling.
Eine Münze wird geworfen – bei “Kopf” bekommt Spieler I von II einen Schilling
– bei “Adler” umgekehrt II von I. Das Spiel endet bei Bankrott eines Spielers.
A . . . Spieler I geht bankrott – Man berechne P (A).
Sei S1 das Ereignis, daß Spieler I das erste Spiel gewinnt, und bezeichne px := Px (A)
die Wahrscheinlichkeit, daß Spieler I verliert, wenn er mit x Schilling zu spielen
begonnen hat (siehe Abb. 2.1). Dann gilt:
S
x
0
C −x
Abbildung 2.1: Kapitalstand der Spieler
Px (A) = Px (S1 )Px (A | S1 ) + Px (A | S1c )Px (S1c )
Klarerweise ist Px (S1 ) vom Anfangskapital x unabhängig, und es gilt:
Px (S1 ) =
1
2
Gewinnt I das erste Spiel, so liegt dem weiteren Spielverlauf dieselbe Situation
zugrunde, wie wenn I mit x + 1 Schilling und II mit C − x − 1 Schilling zu spielen
27
begonnen hätte. Daraus folgt:
Px (A) =
1
2
Px+1 (A) + Px−1 (A)
⇒ px+1 − px = px − px−1 ⇒
△ := px − px−1
p0 = 1,
ist von x unabhängig
pC = 0
px = p0 + (p1 − p0 ) + · · · + (px − px−1 ) = p0 + x△ = 1 + x△ ⇒
pC = 1 + C△ = 0 ⇒ △ = − C1
⇒ px = 1 −
x
C.
Beispiel 2.6 An einem Tennisturnier nehmen 2n Spieler teil. Es wird im k.o.System gespielt (siehe Abb. 2.2). Die Spieler sind entsprechend ihrer Spielstärke
gereiht. Wie groß ist die Wahrscheinlichkeit, daß der zweitstärkste Spieler auch bei
diesem Turnier den zweiten Platz belegt unter der Voraussetzung, daß in jedem Spiel
der gemäß Liste stärkere Spieler siegt?
28
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
A
Sieger
B
Abbildung 2.2:
SA . . . der stärkste Spieler ist unter den Spielern der Gruppe A
ZA . . . der zweitstärkste Spieler ist unter den Spielern der Gruppe A
SB . . . der stärkste Spieler ist unter den Spielern der Gruppe B
ZB . . . der zweitstärkste Spieler ist unter den Spielern der Gruppe B
ZW . . . der zweitstärkste wird Turnierzweiter
P (ZW ) = P (ZW | SA ∩ ZA )P (SA ∩ ZA )
+ P (ZW | SB ∩ ZA )P (SB ∩ ZA )
+ P (ZW | SA ∩ ZB )P (SA ∩ ZB )
+ P (ZW | SB ∩ ZB )P (SB ∩ ZB )
= P (ZW | SA ∩ ZA )P (SA )P (ZA | SA )
+ P (ZW | SB ∩ ZA )P (SB )P (ZA | SB )
+ P (ZW | SA ∩ ZB )P (SA )P (ZB | SA )
+ P (ZW | SB ∩ ZB )P (SB )|P (ZB | SB )
1 (2n−1 − 1)
1 2n−1
= 0· ·
+
1
·
·
2
2n − 1
2 2n − 1
1 2n−1
1 (2n−1 − 1)
+1 · · n
+0· ·
2 2 −1
2
2n − 1
n−1
2
=
2n − 1
Kapitel 3
Zufallsvariable und
Verteilungsfunktionen
3.1
Eindimensionale Verteilungsfunktionen
Bei der Durchführung eines Versuches interessieren oft nicht alle Charakteristika des
Versuchsausganges, sondern nur ein bestimmtes Merkmal. Die Abhängigkeit eines
Merkmals vom Versuchsausgang kann durch eine Funktion X auf Ω beschrieben
werden.
Beispiel 3.1 Man würfle 5-mal. Das uns interessierende Merkmal ist die größte Augenzahl unter den 5 Würfen. Wir wissen bereits, daß (Ω, S, P ) mit
Ω = {(x1 , . . . , x5 ) xi ∈ {1, . . . , 6}} , S = P(Ω), P (x1 , . . . , x5 ) = 615 ein diesem Versuch adäquates Wahrscheinlichkeitsmodell darstellt. Die größte Augenzahl unter den
5 Würfen wird durch X ((x1 , . . . , x5 )) := max xi beschrieben.
i=1,...,5
Betrachtet man anstelle des ursprünglichen Wahrscheinlichkeitsraums (Ω, S, P ) die
Menge der möglichen Werte des uns interessierenden Merkmals Ω′ = {X(ω) : ω ∈ Ω},
und definiert man auf S′ := A ⊆ Ω′ : X −1 (A) := {ω : X(ω) ∈ A} ∈ S eine Wahr
scheinlichkeit PX durch: PX (A) = P X −1 (A) , so erhält man einen Wahrscheinlichkeitsraum (Ω′ , S′ , PX ), der den Versuch in bezug auf das Merkmal genauso
adäquat beschreibt wie der ursprüngliche Wahrscheinlichkeitsraum, wobei aber der
neue Raum weniger komplex als der ursprüngliche ist.
Definition 3.1 Der Bildraum (Ω′ , S′ , PX ) heißt der durch X induzierte Wahrscheinlichkeitsraum, PX heißt die durch X induzierte Wahrscheinlichkeitsverteilung.
Beim Übergang vom ursprünglichen Raum zum induzierten Raum reduziert man das
bei einem Versuch anfallende – oft äußerst vielschichtige – Datenmaterial auf die für
eine bestimmte Untersuchung wesentlichen Inhalte und betrachtet in der Folge nur
29
30
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
mehr diese. Meistens können die von einem Versuchsausgang abhängigen Merkmale zahlenmäßig erfaßt werden; wir werden daher im folgenden stets annehmen, daß
Ω′ ⊆ R (Ω′ ⊆ Rn ) ist. Natürlich kann Ω′ überabzählbar viele Werte annehmen,
etwa wenn man als relevantes Merkmal die Lebensdauer einer Maschine betrachtet.
Wir haben in Kapitel 1 erwähnt, daß in diesem Fall eine Wahrscheinlichkeitsverteilung durch Angabe der Wahrscheinlichkeiten der Intervalle (a, b] a, b ∈ R festgelegt
wird.
PX ((a, b]) kann aber nur dann sinnvoll definiert werden, wenn
X −1 ((a, b]) = {ω : X(ω) ∈ (a, b]} ∈ S gilt, das heißt, wenn das Urbild eines jeden halboffenen Intervalls ein Ereignis ist. Statt X −1 (A) werden wir oft auch die
Schreibweise [X ∈ A] verwenden, d.h. X −1 (A) = [X ∈ A] = {ω : X(ω) ∈ A}.
Weiters werden wir auch oft statt P ([X ∈ A]) kürzer P (X ∈ A) schreiben. Wir
definieren:
Definition 3.2 Unter einer Zufallsvariablen versteht man eine Funktion
X : Ω → R, für welche gilt:
X −1 ((a, b]) ∈ S
∀a, b ∈ R.
Bemerkung.Wenn S = P(Ω) ist, so ist jede Funktion X : Ω → R eine Zufallsvariable. Im allgemeinen gilt dies nicht, wie das folgende Beispiel zeigt.
Beispiel 3.2 Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum mit:
Ω = {(0, 0), (0, 1), (1, 0), (1, 1)}
S = {∅, Ω, {(0, 0)} , {(0, 1), (1, 0)} , {(1, 1)} , {(0, 0), (1, 1)} ,
{(0, 0), (0, 1), (1, 0)} , {(0, 1), (1, 0), (1, 1)}}
d.h. als Ereignisse mögen nur Mengen gelten, die folgendermaßen dargestellt werden
können:
(=)
A = {(x1 , x2 ) : x1 + x2
≤
c}
(≥)
(6=)
P (A) =
|A|
4
X(x1 , x2 ) := x1 ist dann keine Zufallsvariable, denn:
1
−1
= {(1, 0), (1, 1)} 6∈ S
X
1 − ,1
n
31
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
Wir werden uns jedoch im weiteren nicht mehr mit der Frage auseinandersetzen,
wann eine Funktion bei gegebenem Wahrscheinlichkeitsraum eine Zufallsvariable ist,
da dies eine umfassende Kenntnis der Maß- und Integrationstheorie voraussetzen
würde. Wir werden stattdessen von nun an stets voraussetzen, daß die von uns
betrachteten Funktionen auf Ω tatsächlich Zufallsvariable sind.
Als nächstes wollen wir einige wichtige Arten von Zufallsvariablen vorstellen:
Beispiel 3.3 (alternativverteilte Zufallsvariable)
Wird auch Bernoulli-verteilte Zufallsvariable genannt. Münzwurf.
(Ω, S, P ) = {“K”, “A”}, P ({K, A}) , P (K) = P (A) =
1
2
X(K) = 0, X(A) = 1, PX (0) = P ([X = 0]) = PX (1) = P ([X = 1]) =
Allgemein: sei A irgendein Ereignis, das mit der Wahrscheinlichkeit p
eintrete, sei
0, wenn ω 6∈ A
X(ω) :=
1, wenn ω ∈ A
1
2
(0 < p < 1)
Dann gilt:
PX (1) = P ([X = 1]) = P (A) = p, PX (0) = P ([X = 0]) = P (Ac ) = 1 − p
oder
PX (x) = px (1 − p)1−x mit x ∈ {0, 1}
eine derartige Zufallsvariable heißt alternativ- oder bernoulliverteilt
(im Zeichen: X ∼ Bp )
Beispiel 3.4 (binomialverteilte Zufallsvariable)
Verteilung bei Ziehungen mit Zurücklegen. Eine Produktion enthalte p · 100% an
fehlerhaften Stücken; es mögen n Stücke mit Zurücklegen gezogen werden. Gesucht
sei die Wahrscheinlichkeit, daß genau k Stücke fehlerhaft sind. Als möglicher Wahrscheinlichkeitsraum kommt in Betracht:
Ω = {(x1 , . . . , xn ); xi ∈ {0, 1}; xi = 0 . . . “gut”; xi = 1 . . . “fehlerhaft”}
P ((x1 , . . . , xn )) = pk (1 − p)n−k ,
wenn ∃{i1 , . . . , ik } : xij = 1, xj = 0 ∀j 6∈ {i1 , . . . , ik }
Dann gilt aber
k=
n
X
i=1
xi .
32
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Somit ist
P ((x1 , . . . , xn )) = p
X(x1 , . . . , xn ) =
Pn
i=1
n
P
i=1
xi
(1 − p)n−
Pn
i=1
xi
xi
[X = k] := {ω : X(ω) = k} = {ω = (x1 , . . . , xn ) :
o
∃{i1 , . . . , ik } ⊆ {1, . . . , n} : xij = 1, xj = 0 ∀j 6∈ {i1 , . . . , ik }
Man sieht sofort: |[X = k]| = nk
⇒ PX (k) = P (X = k) = nk pk (1 − p)n−k
Die Zufallsvariable heißt binomialverteilt Bn,p , wenn X : Ω → {0, . . . , n} und
n k
PX (k) = P ([X = k]) =
p (1 − p)n−k
k
0 ≤ p ≤ 1 (im Zeichen: X ∼ Bn,p )
Bemerkung.Bezeichnet man das Ergebnis der i-ten Ziehung mit Xi , so gilt: X =
Pn
i=1 Xi . Da die Xi vt Bp ∀i = 1, . . . , n sind, kann jede binomialverteilte Zufallsvariable als Summe von alternativverteilten Zufallsvariablen angeschrieben werden.
Beispiel 3.5 (hypergeometrischverteilte Zufallsvariable)
Verteilung bei Ziehungen ohne Zurücklegen. Eine Population von N Elementen enthalte A “ausgezeichnete” Stücke. Es werde eine Stichprobe vom Umfang n gezogen, wobei jede Teilmenge der N Elemente, die n Elemente enthält, mit gleicher
Wahrscheinlichkeit ausgewählt werden kann. Gesucht ist die Wahrscheinlichkeit,
daß die Stichprobe genau a “ausgezeichnete” Elemente enthalte. Sei o.E.d.A. angenommen, daß die Zahlen 1, . . . , A die “ausgezeichneten” Elemente bezeichnen und
A + 1, . . . , N die restlichen Stücke der Population. Ein möglicher Wahrscheinlichkeitsraum ist dann etwa
Ω := {{i1 , . . . , in } ⊆ {1, . . . , A, A + 1, . . . , N }}
N
P ({i1 , . . . , in }) = 1/
n
X ({i1 , . . . , in }) :=
ij : ij ∈ {1, . . . , A}; 1 ≤ j ≤ n Klarerweise gilt:
0 ≤ X(ω) ≤ A ∀ω ∈ Ω
X(ω) ≤ n
∀ω ∈ Ω
n − X(ω) ≤ N − A ⇒ n − (N − A) ≤ X(ω)
∀ω ∈ Ω.
33
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
Damit erhält man:
Ω′ = {X(ω) : ω ∈ Ω} = {max{0, n − (N − A)}, . . . , min{n, A}}
[X = a] = {i1 , . . . , in } : ∃{j1 , . . . , ja } : ijk ∈ {1, . . . , A} ∀k ∈ {1, . . . , a}
und il ∈ {A + 1, . . . , N } ∀l 6∈ {j1 , . . . , ja }}
N −A
⇒ |[X = a]| = A
a
n−a ⇒
(klassische Wahrscheinlichkeitsdefinition) ⇒
PX (a) = P ([X = a]) =
(i.Z.: X ∼ HN,A,n )
 A N−A
( a )( n−a )




(Nn )







 0
für max{0, n − (N − A)}
≤ a ≤ min{n, A}
sonst
Beispiel 3.6 (geometrische Verteilung)
In Kapitel 2 haben wir bereits die geometrische Verteilung kennengelernt. Wir nennen eine Zufallsvariable X geometrisch verteilt, wenn gilt:
X : Ω → N, PX (k) = P ([X = k]) = (1 − p)k−1 p (0 ≤ p ≤ 1)
(i.Z.: X ∼ Gp )
k∈N
Beispiel 3.7 (stetig gleichverteilte Zufallsvariable auf [a, b])
Wir kennen auch schon die stetige Gleichverteilung auf [0, 1]; eine Zufallsvariable
X : Ω → [a, b] heißt stetig gleichverteilt auf [a, b], wenn für jedes Intervall [c, d] ⊆
[a, b] gilt (c ≤ d):
PX ([c, d]) = P ([X ∈ [c, d]]) =
d−c
b−a
(i.Z.: X ∼ Ua,b )
Beispiel 3.8 (exponentialverteilte Zufallsvariable mit Parameter λ)
Auch die im folgenden besprochene Zufallsvariable kann überabzählbar viele Werte
annehmen. Gegeben sei eine Maschine, und sei T die Lebensdauer dieser Maschine.
T kann jeden Wert aus [0, ∞) annehmen. Weiters möge T der folgenden Bedingung
genügen:
P ([T > t + s] | [T > s]) = P ([T > t])
∀s, t ∈ [0, ∞),
d.h. die Wahrscheinlichkeit, daß die Maschine mindestens bis zum Zeitpunkt t + s
funktioniert, wenn man bereits weiß, daß sie bis zum Zeitpunkt s funktioniert hat, ist
gleich der Wahrscheinlichkeit, daß sie mindestens bis zum Zeitpunkt t funktioniert –
oder anders ausgedrückt: die zukünftige Lebensdauer der Maschine hängt nicht von
34
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
der bisherigen Lebensdauer ab. Obwohl eine derartige Annahme für die Lebensdauer
biologischer Systeme sehr unrealistisch ist, ist das Modell sehr brauchbar bei der
Beschreibung gewisser physikalischer Phänomene, wie etwa der Zeitspanne bis zum
Zerfall eines radioaktiven Teilchens. Aus der obigen Voraussetzung folgt:
P ([T > 2t]) = P ([T > t]) · P ([T > 2t] | [T > t]) = P ([T > t])2
und allgemeiner:
P ([T > nt]) = P ([T > t])n
∀n ∈ N.
Umgekehrt gilt auch:
P ([T > t]) = P
P
t n
t
[T > n ] = P [T > ]
n
n
1
t
[T > ] = P ([T > t]) n
n
∀n ∈ N ⇒
∀n ∈ N
Aus den obigen beiden Gleichungen folgt aber unmittelbar, daß für alle rationalen
Zahlen q ∈ Q (q ≥ 0) gilt:
P ([T > qt]) = P ([T > t])q
Da P ([T > rt]) mit steigendem r monoton fallen muß, gilt dann aber auch für
r ∈ [0, ∞):
P ([T > rt]) = P ([T > t])r = er ln P ([T >t]) .
Mit der Bezeichnung λ := − ln P ([T > 1]) ergibt das:
P ([T > t]) = e−λt
∀t ∈ [0, ∞).
Daraus folgt für s, t ∈ [0, ∞), s ≤ t wegen [T > s] ⊇ [T > t]:
P ([T ∈ (s, t]]) = P ([T ≤ t] \ [T ≤ s])
= P ([T ≤ t]) − P ([T ≤ s])
= 1 − e−λt − (1 − e−λs )
= e−λs − e−λt
Die dadurch auf [0, ∞) festgelegte Wahrscheinlichkeitsverteilung PT heißt Exponentialverteilung mit dem Parameter λ und T ist eine exponentialverteilte Zufallsvariable
(im Zeichen: T ∼ Exλ ). Zum Abschluß wollen wir noch eine kurze Bemerkung über
die physikalische Interpretation von λ machen:
Sei t0 jene Zeitspanne, für die die Wahrscheinlichkeit, daß die Lebensdauer sie übersteigt, genau 1/2 ist, d.h.
PT (t0 ) = P ([T > t0 ]) =
1
2
35
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
(t0 wird Halbwertszeit genannt.) Wegen
P ([T > t0 ]) = e−λt0 =
1
2
besteht zwischen der Halbwertszeit und λ folgender Zusammenhang:
λ=
ln 2
.
t0
Wir haben schon in Kapitel 1 erwähnt, daß die Wahrscheinlichkeitsverteilungen
entweder durch Angabe der Wahrscheinlichkeiten der Elementarereignisse festgelegt
werden können, wenn |Ω| ≤ ℵ0 1 , oder aber durch die Wahrscheinlichkeiten der
Intervalle (c, d], wenn Ω = [a, b] ⊆ R. Haben wir nun eine Zufallsvariable X auf
einem Raum (Ω, S, P ) gegeben, so können wir sowohl für |Ω′ | ≤ ℵ0 als auch für
Ω′ = [a, b] ⊆ R die folgenden Wahrscheinlichkeiten bestimmen:
F (x) := PX ((−∞, x])
=
P (X ∈ (−∞, x]) =
 P
P (X = y)


 y≤x



im 1-tenFall
lim P ([X ∈ (y, x]]) im 2-tenFall
y→−∞
Umgekehrt legen aber auch die Werte F (x),
lung in eindeutiger Weise fest.
Falls |Ω| ≤ ℵ0 , so gilt:
x ∈ R die Wahrscheinlichkeitsvertei-
PX (x) = P ([X = x]) = F (x) − lim F (y) = F (x) − F− (x)
y↑x
mit F− (x) := lim F (y)
y↑x
Beweis.Für y ր x gilt (y, x] ↓ {x}. Aus der Stetigkeit von PX folgt:
PX ((y, x]) → PX ({x}).
Weiters gilt wegen
PX ((a, b]) = PX ((−∞, b] \ (−∞, a]) = F (b) − F (a)
stets
PX ((a, b]) = F (b) − F (a)
∀a, b ∈ R.
Damit ist die Wahrscheinlichkeit PX auch im Fall eines überabzählbaren Bildraums
festgelegt.
1
Die Bezeichnung |Ω| ≤ ℵ0 bedeutet, daß Ω höchstens abzählbar ist.
36
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Definition 3.3 Ist X : Ω → R eine Zufallsvariable mit dem induzierten Bildraum
(Ω′ , S′ , PX ), so nennt man die durch F (x) := PX ((−∞, x]) definierte Funktion
F : R → R die zu X (zu PX ) gehörige Verteilungsfunktion. (Wenn der Bezug zur
Zufallsvariablen X betont werden soll, schreibt man manchmal auch FX .)
Bemerkung.
1. Der ursprüngliche Raum kann selbst als Bildraum, und zwar induziert durch
die identische Abbildung, aufgefaßt werden.
2. Umgekehrt können aber auch die Werte einer Zufallsvariablen selbst wieder
als Ausgänge eines Versuchs angesehen werden. Wir werden daher oft auch
die induzierte Verteilung PX kurz mit P bezeichnen, insbesondere, wenn nicht
ausdrücklich auf die zugrundeliegende Zufallsvariable X hingewiesen werden
muß.
Definition 3.4 Die Zufallsvariable X heißt diskret, wenn |Ω′ | ≤ ℵ0 .
In den beiden von uns betrachteten Beispielen von Zufallsvariablen mit überabzählbar vielen möglichen Werten kann man PX ((c, d]) als Integral darstellen:
1.
2.
X vt Sa,b
d−c
: PX ((c, d]) =
=
b−a
−λc
X vt Eλ : PT ((c, d]) = e
Zd
c
−λd
−e
1
dt
b−a
=
Zd
c
a≤c≤d≤b
λe−λt dt
0≤c≤d<∞
Definition 3.5 Die Zufallsvariable X heißt stetig, wenn es eine integrierbare Funktion f (t) auf R in R gibt, sodaß
PX ((c, d]) =
Zd
c
f (t)dt
∀c, d ∈ R
gilt. f heißt dann die zu X (zu PX ) gehörige Dichtefunktion. (Manchmal schreibt
man auch fX .)
Bemerkung.Es gibt Zufallsvariable, die weder stetig noch diskret sind, wie z.B.: X
mit P (X = 0) = 21 , P (X ∈ (c, d)) = d−c
∀ 0 ≤ c ≤ d ≤ 1. Wir werden uns aber in
2
diesem Skriptum nur mit stetigen und diskreten Zufallsvariablen beschäftigen.
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
37
Satz 3.1 (Eigenschaften der Verteilungsfunktionen)
1.
F (−∞) = lim F (x) = 0
x→−∞
2.
F (∞) = lim F (x) = 1
x→∞
3. aus x ≤ y folgt F (x) ≤ F (y) d.h.: F ist monoton
4. aus xn ↓ x folgt F (xn ) ↓ F (x) d.h.: F ist rechtsstetig
Beweis.Aus (−∞, x] ↓ ∅ mit x → −∞ und der Stetigkeit der Wahrscheinlichkeitsverteilung folgt:
F (−∞) = lim F (x) = 0
x→−∞
Aus (−∞, x] ↑ R mit x → ∞ folgt:
F (∞) := lim F (x) = 1
x→∞
Wegen (−∞, x] ⊆ (−∞, y] für x ≤ y gilt:
F (x) ≤ F (y)
∀x ≤ y
Aus hn ≥ 0, hn ↓ 0 und (−∞, x + hn ] ↓ (−∞, x] folgt:
F (x + 0) = lim F (x + hn ) = F (x)
hn ↓0
Bemerkung.F ist im allgemeinen nicht linksstetig, da (−∞, x − hn ] ↑ (−∞, x)
konvergiert und nicht (−∞, x − hn ] ↑ (−∞, x]. Ist aber F die Verteilungsfunktion
einer stetigen Zufallsvariablen X , so ist wegen:
0 = P (X = x) = F (x) − F− (x)
die Verteilungsfunktion auch linksstetig.
Beispiel 3.9 Sei F die Verteilungsfunktion einer diskreten Zufallsvariablen X.
X : Ω → Ω′ = {xn , n ∈ N} ⊆ R
PX (xn ) = P (X = xn ) = pn
∀n ∈ N
dann gilt:
F (x) =
X
pn
xn ≤x
d.h.: F ist eine Treppenfunktion mit Sprüngen der Höhe pn in den Punkten xn .
38
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Satz 3.2 Ist X eine stetige Zufallsvariable mit der Dichtefunktion f , so gilt:
1.
Z∞
f (t)dt = 1
−∞
2.
f (x) = F ′ (x)
Beweis.ad 1)
F (x) =
Zx
f (t)dt
−∞
F (∞) = 1 ⇒
Z∞
f (t)dt = 1
−∞
ad 2)
F (x + h) − F (x)
=
h
R x+h
x
f (t)dt
f (x0 )h
=
= f (x0 ) mit x0 ∈ (x, x + h)
h
h
⇒ F ′ (x) = f (x) d.h.: die Dichtefunktion ist eine Ableitung der Verteilungsfunktion.
Bemerkung.Im obigen Beweis haben wir stillschweigend vorausgesetzt, daß f stetig
ist und deshalb der Mittelwertsatz der Integralrechnung angewendet werden kann.
Die Beziehung F ′ (x) = f (x) gilt aber für jede Verteilungsfunktion F , die als unbeRx
stimmtes Integral F (x) = −∞ f (t)dt dargestellt werden kann – auch dann, wenn f
nicht stetig ist. Allerdings ist der Beweis dann wesentlich schwieriger. (Theorie der
absolut stetigen Funktionen)
3.2
Mehrdimensionale Zufallsvariable
Es kann vorkommen, daß – mit einem Versuch zusammenhängend – zwei oder mehrere Merkmale interessieren. Man betrachtet dann nicht eine einzelne Zufallsvariable
X, sondern ein Tupel von Zufallsvariablen (X, Y ) oder einen Zufallsvektor
(X1 , X2 , . . . , Xk ). Man nennt (X1 , . . . , Xk ) auch eine k-dimensionale Zufallsvariable.
Der Bildraum Ω′ ist dann eine Teilmenge in R2 oder in Rk . So könnte etwa in Beispiel 3.1 nicht nur die größte Augenzahl unter den 5 Würfen, sondern z.B. die größte
und kleinste Augenzahl von Bedeutung sein. Ähnlich, wie im eindimensionalen Fall,
ist die Wahrscheinlichkeitsverteilung PX1 ,...,Xk auf Ω′ durch die Wahrscheinlichkeiten
der Elementarereignisse festgelegt:
PX1 ,...,Xk ((x1 , . . . , xk )) = P ([X1 = x1 , . . . , Xk = xk ]),
wenn Ω′ nur abzählbar viele Elemente enthält, oder durch die Wahrscheinlichkeiten
der Ereignisse:
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = P ([a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ])
39
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
mit ai , bi ∈ R ∀i = 1, . . . , k.
Die Wahrscheinlichkeitsverteilung PX1 ,...,Xk nennt man die gemeinsame Verteilung
von X1 , . . . , Xk .
Definition 3.6 Wenn es eine mehrdimensionale Dichtefunktion f : Rk → R gibt
mit:
Zb1 Zbk
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = · · · f (t1 , . . . , tk ) dt1 . . . dtk
a1
ak
so nennt man (X1 , . . . , Xk ) stetig verteilt.
Wenn Ω′ überabzählbar ist, wollen wir wieder nur den stetigen Fall betrachten.
Beispiel 3.10
1. Werfe eine S 1-Münze 3-mal und eine S 10-Münze 3-mal.
X. . . Anzahl der “Köpfe” bei der S 1-Münze
Y . . . Anzahl der “Adler” bei der S 10-Münze
Die gemeinsame Verteilung von (X, Y ) ergibt sich, wie man leicht sieht, aus
Tabelle 3.1:
Tabelle 3.1:
Y
0
1
2
3
X
0
1
2
3
1
64
3
64
3
64
1
64
3
64
9
64
9
64
3
64
3
64
9
64
9
64
3
64
1
64
3
64
3
64
1
64
2. Werfe eine Münze 3-mal.
X. . . Anzahl der “Köpfe”
Y . . . Anzahl der “Adler”
Es interessiert uns die Anzahl der “Adler” bei den 3 Würfen. Klarerweise gilt
nun Y = 3 − X, d.h.
P (X = i, Y = j) = 0, wenn j 6= 3 − i
und
3 −3
P (X = i, Y = 3 − i) = P (X = i) =
2
i
(siehe Tabelle 3.2)
i = 0, . . . , 3
40
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Tabelle 3.2:
Y
X
0
1
2
3
0
1
2
3
0
0
0
0
0
0
1
8
1
8
3
8
0
0
0
3
8
0
0
0
3. Werfe eine S 1-Münze 2-mal, eine S 5-Münze 1-mal und eine S 10-Münze 2mal.
X. . . Anzahl der “Köpfe” bei den 3 Würfen mit der S 1- und der S 5-Münze
Y . . . Anzahl der “Adler” bei den Würfen mit der S 10- und der S 5-Münze.
Sei Xi (Yi ) die Anzahl der “Köpfe” (“Adler”) bei den Würfen mit der S iMünze.
Die gemeinsame Verteilung ergibt sich folgendermaßen:
[X = 0, Y = 0] = [X1 = 0, X5 = 0, Y5 = 0, Y10 = 0] = ∅
⇒ P (X = 0, Y = 0) = 0
[X = 0, Y = 1] = [X1 = 0, X5 = 0, Y10 = 0]
⇒ P (X = 0, Y = 1) =
1
4
·
1
2
·
1
4
[X = 0, Y = 2] = [X1 = 0, X5 = 0, Y10 = 1]
⇒ P (X = 0, Y = 2) =
1
4
·
1
2
·
1
2
[X = 0, Y = 3] = [X1 = 0, Y5 = 1, Y10 = 2]
⇒ P (X = 0, Y = 3) =
1
4
·
1
2
·
1
4
[X = 1, Y = 1] = [X1 = 0, X5 = 1, Y10 = 1] ∪ [X1 = 1, X5 = 0, Y10 = 0]
⇒ P (X = 1, Y = 1) =
1
4
·
1
2
·
1
2
+
1
2
·
1
2
·
1
4
=
1
8
[X = 1, Y = 2] = [X1 = 1, X5 = 0, Y10 = 1] ∪ [X1 = 0, X5 = 1, Y10 = 2]
⇒ P (X = 1, Y = 2) =
1
2
·
1
2
·
1
2
+
1
4
·
1
2
·
1
4
=
5
32
und die übrigen Wahrscheinlichkeiten ergeben sich aus Symmetrieüberlegungen (siehe Tabelle 3.3).
41
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
Tabelle 3.3:
Y
0
1
2
3
X
0
1
2
3
0
1
32
1
8
5
32
1
16
1
16
5
32
1
8
1
32
1
32
1
16
1
32
1
32
1
16
1
32
0
Hat man im Verlauf eines Versuches 2 oder mehrere Merkmale beobachtet, interessiert aber in späteren Untersuchungen nur das Verhalten einer Zufallsvariablen,
so kann die Verteilung dieser Zufallsvariablen aus der gemeinsamen Verteilung leicht
bestimmt werden. So gilt im diskreten Fall:
PXi (x̂i ) := P (Xi = x̂i )
= P (X1 ∈ R, . . . , Xi−1 ∈ R, Xi = x̂i , Xi+1 ∈ R, . . . , Xk ∈ R)
X
=
PX1 ,...,Xk (x1 , . . . , xi−1 , x̂i , xi+1 , . . . , xk )
(x1 ,...,xi−1 ,xi+1 ,...,xk )
(x̂i wird festgehalten, während alle anderen xj
j 6= i variabel sind)
ansonsten:
PXi ((ai , bi ]) = P X1 ∈ R, . . . , Xi−1 ∈ R, Xi ∈ (ai , bi ], Xi+1 ∈ R, . . . , Xk ∈ R
Satz 3.3 Wenn (X1 , . . . , Xk ) stetig verteilt ist, so sind auch die einzelnen Zufallsvariablen Xi stetig.
Beweis.
PXi ((ai , bi ])
= P X1 ∈ R, . . . , Xi−1 ∈ R, Xi ∈ (ai , bi ], Xi+1 ∈ R, . . . , Xk ∈ R



Z
ZbiZ




=
 · · · f (t1 , . . . , ti−1 , ti , ti+1 , . . . , tk ) dt1 · · · dti−1 dti+1 · · · dtk  dti .
R
R
|
{z
}
a
i
=fXi (ti )
Definition 3.7 fXi (ti ) im obigen Satz heißt die Randdichte von Xi . Die Verteilung
PXi wird Randverteilung der Zufallsvariablen Xi genannt.
42
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Beispiel 3.11 Man sieht leicht, daß die Randverteilung von X bzw. Y in Beispiel 3.10 stets bestimmt ist durch:
3 −3
P (X = i) =
2
i
3 −3
P (Y = i) =
2
i
Das bedeutet, daß aus der Kenntnis der Randverteilungen im allgemeinen die gemeinsame Verteilung nicht bestimmt werden kann.
Bemerkung.Das Beispiel 3.10.1 nimmt insoferne eine Sonderstellung ein, als bei
diesem Versuch X und Y einander nicht beeinflussen. Es gilt bei dieser Versuchsanordnung:
P (X = i, Y = j) = P (X = i)P (Y = j)
∀i, j ∈ {0, . . . , 3}
Wir sagen daher: X und Y sind unabhängig.
Definition 3.8 Die Zufallsvariablen X1 , . . . , Xk heißen unabhängig voneinander,
wenn gilt:
P (X1 ∈ (a1 , b1 ], . . . Xk ∈ (ak , bk ]) =
k
Y
i=1
P (Xi ∈ (ai , bi ])
∀ai , bi ∈ R
Im diskreten Fall kann man das durch die einfachere Bedingung
P (X1 = x1 , . . . , Xk = xk ) =
k
Y
P (Xi = xi )
i=1
= P (X1 = x1 ) · · · P (Xk = xk ) ∀(x1 , . . . , xk )
ersetzen.
Beispiel 3.12 (Shannons Ratespiel)
1. Man lese aus dem untenstehenden Text bis zum Strich vor und lasse die folgenden Buchstaben durch eine Versuchsperson erraten.
"A.N.KOLMOGOROV_LEGTE_SC|HLIESSLICH_1933_IN_EINER_ENTSCHEID
ENDEN_ARBEIT_DEN_GRUNDSTEIN_FUER_DIE_HEUTIGE_MODERNE_WAHR
SCHEINLICHKEITSRECHNUNG."
(aus Storm [10] Seite 15)
2. Man nehme nun nur jeden 10. Buchstaben aus dem folgenden Text und lasse
diese Buchstaben erraten.
Basistext:
43
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
‘‘ZAHLREICHE_BEI_GLUECKSSPIELEN_INTERESSIERENDE_FRAGEN_WAREN_
DER_ANLASS_DAFUER_DASS_SICH_BEDEUTENDE_FORSCHER_WIE_Z_B_P_
FERMAT_B_PASCAL_UND_JAKOB_BERNOULLI_IN_DER_MITTE_DES_SIEB
ZEHNTEN_JAHRHUNDERTS_MIT_BEGRIFFEN_WIE_ZUFALLSERSCHEINUNG_
EREIGNIS_WAHRSCHEINLICHKEIT_UND_MATHEMATISCHE_ERWARTUNG_
AUSEINANDERSETZTEN_UND_DIE_AUFGABEN_MIT_HILFE_ELEMENTARER_
METHODEN_DER_KOMBINATORIK_ZU_LOESEN_VERSUCHTEN’’
Das ergibt folgende Buchstabenfolge:
E,C,_,E,G,D,_,S,D,O,E,R,C,K,L,_,_,E,D,B,W,S,N,S,I,_,M,R,U,S,
D,A,I,N,H,K,I,E,T
Die Buchstabenhäufigkeit der deutschen Sprache:
(siehe Tabelle 3.4 in % aus [3])
Tabelle 3.4:
A
5
B
2.5
C
1.5
D
5
E
18.5
F
1.5
G
4
H
4
I
8
J
0
K
1
L
3
M
2.5
N
11.5
O
3.5
P
0.5
Q
0
R
7
S
7
T
5
U
5
V
1
W
1.5
X
0
Y
0
Z
1.5
Ist es z.B. sinnvoll, in Aufgabe 1 nach SC auf H zu tippen (oder nach Q auf U)?
Was ist vernünftiger: nach S auf T oder auf E zu raten? Die relative Häufigkeit
von ST in einem sinnvollen deutschen Text ist ≈ 0.012. Die relative Häufigkeit
von ST in Aufgabe 2 ist das Produkt aus der relativen Häufigkeit von S und
der relativen Häufigkeit von T, das ist 0.07 · 0.05 = 0.0035 ≪ 0.012. Man sieht
sofort, daß sich im 1. Fall die relativen Häufigkeiten von Buchstabentupeln
nicht als Produkt der relativen Häufigkeiten der einzelnen Buchstaben ergeben,
im 2. Fall jedoch sehr wohl, d.h. im ersten Fall betrachtet man eine abhängige
Folge X1 , X2 , . . . von Zufallsvariablen – im 2. Fall aber eine unabhängige Folge.
Beispiel 3.13 Zwei Personen A und B kommen zufällig zwischen 17h und 18h an
einen bestimmten Ort. Sie verweilen dort jeweils 10 Minuten. Wie groß ist die Wahrscheinlichkeit, daß sie einander treffen?
X. . . Ankunftszeit von A
44
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Y . . . Ankunftszeit von B
X, Y vt S17,18 , und unabhängig
2
11
5
=
≈ 0.306
P (A trifft B) = P (|X − Y | ≤ 10min.) = 1 −
6
36
(siehe Abb. 3.1).
Y
✻
5
6
1
6
✲
1
6
5
6
X
Abbildung 3.1:
Definition 3.9 Sei (X1 , . . . , Xk ) eine k-dimensionale Zufallsvariable, dann ist die
gemeinsame Verteilungsfunktion von (X1 , . . . , Xk ) definiert durch:
F (x1 , . . . , xk ) = P (X1 ∈ (−∞, x1 ], . . . , Xk ∈ (−∞, xk ])
Auch im mehrdimensionalen Fall ist die Wahrscheinlichkeitsverteilung eindeutig
durch die Verteilungsfunktion bestimmt. Wir betrachten zunächst k = 2:
Satz 3.4 Ist (X1 , X2 ) eine 2-dimensionale Zufallsvariable mit der Verteilungsfunktion FX1 ,X2 , so gilt:
P (X1 ∈ (a1 , b1 ], X2 ∈ (a2 , b2 ])
= F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
∀ai , bi ∈ R.
Beweis. Sei
Ai := [Xi ≤ ai ] ∩ ([X1 ≤ b1 , X2 ≤ b2 ])
i = 1, 2
[a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ] = [X1 ≤ b1 , X2 ≤ b2 ] \ (A1 ∪ A2 ) ⇒
P (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ) = P (X1 ≤ b1 , X2 ≤ b2 ) − P (A1 ∪ A2 )
= F (b1 , b2 ) − P (A1 ) − P (A2 ) + P (A1 ∩ A2 ).
45
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
y
✻
b2
(a1 , b2 )
(b1 , b2 )
(a1 , a2 )
(b1 , a2 )
A1
a2
✲
a1
A2
b1
x
Abbildung 3.2:
Nun gilt
P (A1 ) = P (X1 ≤ a1 , X2 ≤ b2 ) = F (a1 , b2 )
P (A2 ) = P (X1 ≤ b1 , X2 ≤ a2 ) = F (b1 , a2 )
P (A1 ∩ A2 ) = P (X1 ≤ a1 , X2 ≤ a2 ) = F (a1 , a2 )
Setzt man ein, so erhält man die Behauptung
PX1 ,X2 ((a1 , b1 ] × (a2 , b2 ]) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
Allgemein gilt:
Satz 3.5 Ist (X1 , . . . , Xk ) eine k-dimensionale Zufallsvariable mit Verteilungsfunktion F , so gilt
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ])
=
1
X
ǫ1 =0
···
Beweis.Sei B :=
1
X
ǫk =0
Tk
Pk
(−1)
i=1 [Xi
Ai := [Xi ≤ ai ] ∩ B
i=1 ǫi
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) .
≤ bi ], und weiters sei
i = 1, . . . , k.
Dann gilt:
P (B) = P (X1 ≤ b1 , . . . , Xk ≤ bk ) = F (b1 , . . . , bk )
P (Ai ) = P (X1 ≤ b1 , . . . , Xi−1 ≤ bi−1 , Xi ≤ ai , Xi+1 ≤ bi+1 , . . . , Xk ≤ bk )
= F (b1 , . . . , bi−1 , ai , bi+1 , . . . , bk ).
46
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Sei 1 ≤ i1 < i2 < · · · < ih ≤ k und sei
1 l ∈ {i1 , . . . , ih }
ǫl :=
0 l ∈ {1, . . . , k} \ {i1 , . . . , ih }
Dann gilt:
P (Ai1 ∩ · · · ∩ Aih ) = P (Xij ≤ aij
j = 1, . . . , h,
Xl ≤ bl
l 6∈ {i1 , . . . , ih })
= F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) .
Aus
[ai < Xi ≤ bi
= B\
= B\
∀i = 1, . . . , k] = B ∩
k
[
!
i=1
[Xi ≤ ai ]c
i=1
[Xi ≤ ai ]
i=1
k
[
k
\
([Xi ≤ ai ] ∩ B) = B \
k
[
Ai
i=1
folgt
P (a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ) = F (b1 , . . . , bk ) − P
k
[
i=1
Ai
!
.
Eine Anwendung des verallgemeinerten Additionstheorems ergibt
!
k
k
X
X
[
Ai =
(−1)h+1
P
P (Ai1 ∩ · · · ∩ Aih ).
i=1
h=1
1≤i1 <···<ih ≤k
Daraus folgt
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = F (b1 , . . . , bk )
+
k
X
(−1)h
h=1
=
X
X
1≤i1 <···<ih ≤k
Pk
i=1 ǫi
(−1)
(ǫ1 ,...,ǫk )∈{0,1}k
P (Ai1 ∩ · · · ∩ Aih )
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) .
Mehrdimensionale Verteilungsfunktionen haben folgende Eigenschaften:
Satz 3.6 Ist F eine k-dimensionale Verteilungsfunktion, so gilt
1.
2.
0 ≤ F (x1 , . . . , xk ) ≤ 1
∀(x1 , . . . , xk ) ∈ Rk
lim F (x1 , . . . , xi , xi+1 , . . . , xk ) = 0
xi →−∞
47
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
3.
lim
min1≤i≤k xi →∞
F (x1 , . . . , xk ) = 1
4. F ist in jeder Argumentvariablen monoton, d.h.
xi ≤ yi ⇒ F (x1 , . . . , xi , . . . , xk ) ≤ F (x1 , . . . , xi−1 , yi , xi+1 , . . . , xk )
5. F ist in jeder Argumentvariablen rechtsstetig, d.h.
lim F (x1 , . . . , xi + hn , . . . , xk ) = F (x1 , . . . , xi , . . . , xk )
hn ↓0
6.
X
Pk
(−1)
(ǫ1 ,...,ǫk )∈{0,1}k
∀ai ≤ bi
i=1 ǫi
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) ≥ 0
i = 1, . . . , k
Beweis.Die Beweise für 1)–5) gehen genauso wie im eindimensionalen Fall.
6) folgt unmittelbar aus dem vorigen Satz.
Wenn die (X1 , . . . , Xk ) ua sind, so gilt:
FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ∈ (−∞, x1 ], . . . , Xk ∈ (−∞, xk ]) =
k
Y
FXi (xi )
i=1
d.h. die gemeinsame Verteilungsfunktion ist das Produkt der Verteilungsfunktionen
der einzelnen Zufallsvariablen. Aber es gilt auch die Umkehrung.
Satz 3.7 Die Zufallsvariablen (X1 , . . . , Xk ) sind genau dann unabhängig, wenn gilt:
FX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
FXi (xi ).
i=1
Beweis.Die eine Richtung ist klar. Die andere beweisen wir durch vollständige Induktion.
Sei k = 2:
P (X1 ∈ (a1 , b1 ], X2 ∈ (a2 , b2 ])
= F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
= F1 (b1 )F2 (b2 ) − F1 (a1 )F2 (b2 ) − F1 (b1 )F2 (a2 ) + F1 (a1 )F2 (a2 )
= [F1 (b1 ) − F1 (a1 )] [F2 (b2 ) − F2 (a2 )]
= P (X1 ∈ (a1 , b1 ]) P (X2 ∈ (a2 , b2 ])
∀ai ≤ bi
48
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Angenommen für h = 1, . . . , k − 1 sei gezeigt, daß aus
h
Y
FX1 ,...,Xh (x1 , . . . , xh ) =
FXi (xi )
i=1
folgt
PX1 ,...,Xh ((a1 , b1 ] × · · · × (ah , bh ])
=
1
X
ǫ1 =0
=
h
Y
···
1
X
h
Y
Ph
i=1 ǫi
(−1)
ǫh =0
FXi (ǫi ai + (1 − ǫi )bi )
i=1
PXi ((ai , bi ]) ,
i=1
dann gilt:
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ])
=
1
X
ǫ1 =0
=
1
X
ǫ1 =0
···
···
1
1
X
X
ǫk−1 =0 ǫk =0
1
1
X
X
= F (bk ) 
1
X
ǫ1 =0

− F (ak ) 
···
1
X
ǫ1 =0
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk )
Pk
k−1
Y
(−1)
ǫk−1 =0 ǫk =0

Pk
(−1)
1
X
i=1 ǫi
i=1 ǫi
Pk−1
(−1)
ǫk−1 =0
···
i=1
1
X
i=1
k−1
Y
i=1
Pk−1
(−1)
ǫk−1 =0
ǫi
FXi (ǫi ai + (1 − ǫi )bi ) · F (ǫk ak + (1 − ǫk )bk )
i=1
ǫi

FXi (ǫi ai + (1 − ǫi )bi )
k−1
Y
i=1

FXi (ǫi ai + (1 − ǫi )bi )
= F (bk )PX1 ,...,Xk−1 (a1 , b1 ] × · · · × (ak−1 , bk−1 ]
− F (ak )PX1 ,...,Xk−1 (a1 , b1 ] × · · · × (ak−1 , bk−1 ]
= P (Xk ∈ (ak , bk ]) ·
k−1
Y
i=1
P (ai < Xi ≤ bi ).
Satz 3.8 Hat (X1 , . . . , Xk ) eine stetige gemeinsame Verteilung mit der Dichte
fX1 ,...,Xk (x1 , . . . , xk ), und bezeichnet man die Randdichten von Xi mit fXi , so gilt:
(X1 , . . . , Xk ) sind genau dann unabhängig, wenn
fX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
i=1
fXi (xi )
∀(x1 , . . . , xk ) ∈ Rk
49
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
Beweis.Sei
f (x1 , . . . , xk ) = fX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
i=1
FX1 ,...,Xk (x1 , . . . , xk ) =
Zx1
−∞
=
Zx1
−∞
···
···
Zxk
−∞
fX1 (t1 ) · · · fXk (tk ) dt1 · · · dtk


 x

Zk




fXk (tk ) dtk 
fX1 (t1 ) · · · fXk−1 (tk−1 ) 
 dt1 · · · dtk−1


−∞
|
{z
}
xZk−1
−∞
fXi (xi ) ⇒
FXk (xk )
= FXk (xk )
Zx1
−∞
···
xZk−1
−∞
fX1 (t1 ) · · · fXk−1 (tk−1 ) dt1 · · · dtk−1
= · · · = FXk (xk ) · · · FX1 (x1 ).
Daraus folgt aber, daß die (X1 , . . . , Xk ) unabhängig sind.
Aus der Unabhängigkeit von (X1 , . . . , Xk ) folgt umgekehrt:
F (x1 , . . . , xk ) =
k
Y
FXi (xi )
i=1
=
=
k Zxi
Y
i=1−∞
Zx1
−∞
···
fXi (ti ) dti =
Zxk Y
k
−∞ i=1
Zx1
−∞
fX1 (t1 ) dt1 · · ·
Zxk
fXk (tk ) dtk
−∞
fXi (ti ) dt1 · · · dtk .
Daraus folgt:
P (a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ) =
Daher ist die Funktion
lung von (X1 , . . . , Xk ).
Qk
i=1 fXi (ti )
Zb1
a1
···
Zbk Y
k
ak
i=1
fXi (ti ) dt1 · · · dtk .
eine Dichtefunktion für die gemeinsame Vertei-
Den Zusammenhang zwischen verschiedenen Zufallsvariablen kann man mit Hilfe
der bedingten Wahrscheinlichkeitsverteilung charakterisieren. Sind die Zufallsvariablen X, Y diskret, so gilt:
P (X = x | Y = y) =
P (X = x, Y = y)
P (Y = y)
(wenn P (Y = y) > 0)
50
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Wir nennen dann P (X = x | Y = y) die durch Y = y bedingte Wahrscheinlichkeitsverteilung von X.
51
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
Beispiel 3.14 (Fortsetzung von Bsp. 3.10)
ad 1:
P (X = x | Y = y) =
P (X = x)P (Y = y)
= P (X = x)
P (Y = y)
P (X = x | Y = y) =
ad 2:
0 für x 6= 3 − y
1 für x = 3 − y
ad 3: die bedingte Wahrscheinlichkeitsverteilung von X ändert sich für jeden Wert
von Y beispielsweise:
P (X = x | Y = 0) ergibt sich zu:
P (X = x | Y = 1) ergibt sich zu:
(0, 321 , 161 , 321 )
P (Y
=0)= 18
( 321 , 81 , 325 , 161 )
P (Y =1)= 38
..
.
= 0, 14 , 12 , 14
=
1 1 5 1
12 , 3 , 12 , 6
2
2
Komplizierter ist die Definition einer bedingten Wahrscheinlichkeit im stetigen Fall,
da ja die Ereignisse [Y = y] dann die Wahrscheinlichkeit 0 haben. Wir können jedoch
folgende bedingte Wahrscheinlichkeiten betrachten:
R x R y+∆y
f (u, v) du dv
−∞ y
P (X ≤ x | y ≤ Y ≤ y + ∆y) =
R y+∆y
fY (v) dv
y
Sei angenommen, daß der lim P (X ≤ x | y ≤ Y ≤ y + ∆y) existiere, und daß
∆y→0
der Limes und die Integralzeichen vertauschbar seien. (Dies ist etwa der Fall, wenn
(X, Y ) nur Werte aus einem abgeschlossenen Rechteck [a, b] × [c, d] annehmen kann.)
Dann gilt:
R y+∆y
f (u, v) dv
y
F (u, ∆y) := R y+∆y
fY (v) dv
y
ist als stetige Funktion gleichmäßig stetig und konvergiert mit ∆y → 0 gegen ff(u,y)
.
Y (y)
(Dies gilt wegen des Mittelwertsatzes der Integralrechnung, wenn f stetig ist.) Dann
erhält man:
Zx R y+∆y f (u, v) dv
y
lim P (X ≤ x | y ≤ Y ≤ y + ∆y) = lim
du
R y+∆y
∆y→0
∆y→0
f
(v)
dv
Y
y
−∞
2
Man beachte, daß die Summen der einzelnen Wahrscheinlichkeiten (wie z.B.:
natürlich gleich 1 sein müssen.
0, 41 , 21 ,
1
4
)
52
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
=
=
=
Zx
−∞
Zx
−∞
Zx
−∞
R y+∆y
y
lim R y+∆y
∆y→0
f (u, v) dv
y
fY (v) dv
!
du
f (u, ỹ)∆y
du
˜
∆y→0 f (ỹ)∆y
Y
lim
f (u, y)
du
fY (y)
(ỹ, ỹ˜ ∈ [y, y + ∆y])
Definition 3.10
fX,Y (x, y)
fY (y)
fX|Y (x | y) :=
heißt die durch Y = y bedingte Dichte von X.
Klarerweise gilt:
f (x, y) = fY (y) · fX|Y (x | y).
Beispiel 3.15 Sei (X, Y ) gleichverteilt auf dem Kreis mit dem Radius 1
f (x, y) =


1
π
 0
sonst
√
2
Z1−y
1
fY (y) =
π √
−
für x2 + y 2 ≤ 1
1−y 2
√
2 1 − x2
fX (x) =
π
p
2 1 − y2
du =
π
für − 1 ≤ y ≤ 1
für − 1 ≤ x ≤ 1
f (x, y) 6= fX (x) · fY (y) ⇒ (X, Y ) sind voneinander abhängig.
fX|Y (x | y) =

1

 2√1−y2

 0
für −
sonst
p
1 − y2 ≤ x ≤
p
1 − y2
i
h p
p
d.h. fX|Y beschreibt eine Gleichverteilung auf − 1 − y 2 , 1 − y 2 .
3.3. TRANSFORMATION VON ZUFALLSVARIABLEN
3.3
53
Transformation von Zufallsvariablen
Sei X eine Zufallsvariable mit dem induzierten Raum (Ω′ , S′ , PX ), und sei ϕ eine
zweite Abbildung von Ω′ in einen Raum Ω′′ (∈ R) mit ϕ−1 ((a, b]) ∈ S′ (ϕ ist also
auch eine Zufallsvariable, die den Bildraum in einen weiteren Bildraum abbildet),
so bildet die Zusammensetzung der beiden Funktionen ϕ ◦ X den ursprünglichen
Raum Ω in Ω′′ ab. (Auch hier kümmern wir uns nicht um das Problem, welche
Funktionen Zufallsvariable sind, da alle für uns wichtigen Funktionen, etwa stetige
Funktionen oder monotone Funktionen, Zufallsvariable sind.) Es erhebt sich nun
die Frage, welche Verteilung durch ϕ ◦ X induziert wird. Wenn ϕ und X einige
verhältnismäßig schwache Bedingungen erfüllen, kann die Frage ziemlich einfach
beantwortet werden.
Satz 3.9 (Transformationssatz)
Sei X eine stetige Zufallsvariable mit der Dichtefunktion f und sei ϕ eine strikt
monotone Funktion, die auf dem Wertebereich von X eine stetige, nichtverschwindende Ableitung besitzen möge, dann gibt es zu y = ϕ(x) eine Umkehrabbildung
x = Ψ(y) = ϕ−1 (y), und Y = ϕ ◦ X hat dann die folgende Dichte:
dΨ(y) fY (y) = f (Ψ(y)) dy Beweis.Falls ϕ monoton nichtfallend ist, gilt
FY (y) = P (ϕ ◦ X ≤ y)
= P X ≤ ϕ−1 (y) =
Für ϕ ց erhält man
FY (y) = P (ϕ ◦ X ≤ y)
−1
= P X>ϕ
=
(y) =
−1 (y)
ϕZ
f (u) du =
−∞
−∞
+∞
Z
Zy
′
f ϕ−1 (v) ϕ−1 (v) dv.
f (u) du
ϕ−1 (y)
−∞
Zy
Z
−1′
′
−1
f ϕ−1 (v) ϕ−1 (v) dv.
f ϕ (v) ϕ (v) dv =
y
−∞
′
(Die letzte Gleichung folgt aus der Substitutionsregel mit v = ϕ(u), du
dv = Ψ (v)).
Bemerkung.Der obige Transformationssatz gilt auch dann, wenn R in disjunkte
Intervalle Ij mit j = 1, . . . , k zerlegt werden kann, auf welchen ϕ strikt monoton ist.
Y hat dann die folgende Dichte:
k
dϕ−1 (v) X
j
f ϕ−1
fY (v) =
j (v) dv j=1
54
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
wobei ϕ−1
j die Umkehrabbildung von ϕ : Ij → R ist.
Beispiel 3.16 Sei
X vt S−1/2,1/2 , y = ϕ(x) = x2 , I1 = [0, ∞), I2 = (−∞, 0)
x = Ψ1 (y) =
√
y
√
x = Ψ2 (y) = − y
fY (y) =



dΨ1
dy
=
dΨ2
dy
1

= − 2√
y 
1
√
2 y
 √
√
1 1 
−
+
 2 y 2 y =

 0
√1
y
⇒
für 0 ≤ y ≤
1
4
sonst
Bemerkung.Der Transformationssatz kann auch auf mehrdimensionale Zufallsvariable ausgedehnt werden. Wir führen diese Erweiterung ohne Beweis an.
Satz 3.10 (k-dimensionaler Transformationssatz)
~ = (X1 , . . . , Xk ) ein k-dimensionaler stetiger Zufallsvektor mit der Dichte
Sei X
f (x1 , . . . , xk ) und A eine offene Teilmenge von Rk , in der die yi = ϕi (x1 , . . . , xk )
eindeutig bestimmte Umkehrfunktionen xi = ϕ−1
i (y1 , . . . , yk ) mit i = 1, . . . , k besitzen mögen. Weiters seien die ϕi auf A stetig differenzierbar und die Jacobische
Determinante
−1 ∂ϕ |J| := i ∂yj
~ =
möge überall in A von 0 verschieden sein, dann ist Y
Zufallsvektor mit der Dichte
y ) |J|
y ), . . . , ϕ−1
fY~ (y1 , . . . , yk ) = f ϕ−1
1 (~
k (~
~ . . . , ϕ (X)
~
ϕ1 (X),
ein
k
∀~y = (y1 , . . . , yk ) : ∃~x = (x1 , . . . , xk ) : ~y = (ϕ1 (~x), . . . , ϕk (~x)) , ~x ∈ A
Beispiel 3.17 (Faltung)
Seien X1 , X2 unabhängige Zufallsvariable mit den Dichten fX1 und fX2 . Man bestimme die Verteilung der Summe Y1 = X1 + X2 .
y1 = ϕ1 (x1 , x2 ) = x1 + x2
y2 = ϕ2 (x1 , x2 ) = x2
1 −1 =1
|J| = 0
1 x = Ψ1 (y1 , y2 ) = y1 − y2
⇒ 1
x2 = Ψ2 (y2 ) = y2
⇒
3.3. TRANSFORMATION VON ZUFALLSVARIABLEN
Y = (ϕ1 (X1 , X2 ), ϕ2 (X1 , X2 )) ;
55
Y1 = ϕ1 (X1 , X2 ) = X1 + X2 , Y2 = ϕ2 (X1 , X2 ) = X2
fY (y1 , y2 ) = fX1 (y1 − y2 ) · fX2 (y2 ) · 1 ⇒
R
R
fY1 (y1 ) = fY (y1 , y2 ) dy2 = fX1 (y1 − y2 ) · fX2 (y2 ) dy2 .
Man nennt fY1 die Faltung der Dichten fX1 und fX2 und schreibt dafür oft auch
f X1 ∗ f X2 .
Im folgenden Beispiel wird ein für die Praxis wichtiges Problem behandelt, nämlich
die Erzeugung von Zufallszahlen, die einer bestimmten Verteilung genügen, durch
geeignete Transformation von gleichverteilten Zufallszahlen.
Beispiel 3.18 Auf einem Computer sei eine Prozedur RANDOM implementiert, die
auf [0, 1] gleichverteilte Zufallszahlen erzeugt. Um die Lebensdauer einer Maschine
zu simulieren, benötigt man aber Zufallszahlen, die Eλ -verteilt sind. Kann man sich
mit Hilfe der gleichverteilten Zufallszahlen auch exponentialverteilte Zufallszahlen
generieren?
Sei X die durch RANDOM erzeugte Zufallszahl. Da X vt S[0,1] und
F (x) := 1 − e−λx ∈ [0, 1)
∀x ≥ 0,
gilt:
P (X ≤ F (x)) = F (x)
Nun ist die Aussage X ≤ F (x) äquivalent zu F −1 (X) ≤ x (da F streng monoton
wächst, gibt es eine Umkehrabbildung F −1 : [0, 1) → [0, ∞)). Somit gilt:
P (F −1 ◦ X ≤ x) = F (x)
d.h.: F −1 ◦ X ist vt Eλ . Wegen
y = F (x) = 1 − e−λx
gilt:
x = F −1 (y) = −
ln(1 − y)
.
λ
Somit ist
ln(1 − X)
λ
vt Eλ , wenn X vt S[0,1) .
Dies bedeutet F −1 ◦ X ist eine Transformation von X, die Eλ verteilt ist.
Y := −
Umgekehrt können aus Zufallszahlen, welche gemäß einer Verteilung mit Verteilungsfunktion F gebildet wurden, gleichverteilte Zufallszahlen erzeugt werden.
56
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Beispiel 3.19 Sei X eine Zufallsvariable mit Verteilungsfunktion F , und sei F stetig und streng monoton, sodaß die Umkehrabbildung F −1 existiere. Dann ist F ◦ X
eine Transformation von X, welche wegen 0 ≤ F ≤ 1 in [0, 1] abbildet.
FF ◦X (x) = P (F ◦ X ≤ x) = P (X ≤ F −1 (x)).
Da X vt mit Verteilungfunktion F ist, gilt
P (X ≤ a) = F (a).
Mit a = F −1 (x) erhält man daraus
P (X ≤ F −1 (x)) = F (F −1 (x)) = x.
Somit
P (a ≤ F ◦ X ≤ b) = b − a
∀0 ≤ a, b ≤ 1.
Also ist F ◦ X vt S[0,1] .
3.4
Die Faltung
Bereits im vorigen Kapitel wurde die Dichte der Summe von zwei ua stetigen Zufallsvariablen bestimmt. Diese Dichte kann auch durch die folgenden Überlegungen
hergeleitet werden:
Seien X, Y stetig: sei fϕ,Y die Dichte von (ϕ, Y ) mit ϕ := X + Y – dann gilt:
Z
fϕ (z) = fϕ|Y (z | v)fY (v)dv.
Da ϕ = z unter der Bedingung, daß Y = v, genau dann gilt, wenn X = z − v, muß
ϕ unter der Bedingung Y = v verteilt sein wie X + v. Daher müssen die bedingten
Dichten von ϕ und X + v unter der Bedingung Y = v übereinstimmen, also
fϕ|Y (z | v) = fX+v|Y (z | v)
Nun sind aber X und Y und damit auch X + v und Y unabhängig voneinander.
Somit gilt:
fX+v|Y (z | v) = fX+v (z)
Wegen
P (X + v ≤ z) = P (X ≤ z − v)
muß auch gelten
fX+v (z) = fX (z − v)
∀z ∈ R
57
3.4. DIE FALTUNG
Setzt man in die Gleichung für fϕ (z) ein, so erhält man:
Z
fϕ (z) = fX (z − v)fY (v) dv
Seien (X, Y ) nun zwei unabhängige, diskrete Zufallsvariable. In diesem Fall ist die
Verteilung von ϕ leicht zu bestimmen: Sei Ω′X ∪ Ω′Y := {z1 , . . . , zk }. Aus dem Satz
über die vollständige Wahrscheinlichkeit folgt:
P (ϕ = z)
=
=
k
X
i=1
k
X
i=1
P (Y = zi )P (X = z − zi | Y = zi )
P (X = z − zi )P (Y = zi )
(def.: P (X = x | Y = z) · P (Y = z) = 0, wenn P (Y = z) = 0)
Beispiel 3.20 X sei Bn,p -verteilt und Y sei Ap -verteilt; X und Y seien unabhängig.
Gesucht ist die Verteilung von ϕ = X +Y . Da X als Anzahl der “Erfolge” im Verlauf
von n unabhängigen Versuchen und Y als “Erfolg” oder “Mißerfolg” im n + 1-ten
Versuch gedeutet werden kann, so kann ϕ als die Anzahl der “Erfolge” in n + 1
unabhängigen Versuchen angesehen werden. Man wird daher erwarten, daß ϕ vt
Bn+1,p . Tatsächlich gilt:
P (ϕ = k) = P (Y = 0)P (X = k) + P (Y = 1)P (X = k − 1)
n k
n
n+1−k
=
p (1 − p)
+
pk (1 − p)n−(k−1)
k
k−1
n+1 k
=
p (1 − p)n+1−k
k
Beispiel 3.21 Sei X vt Bm,p , Y vt Bn,p . Gesucht ist die Verteilung von ϕ = X + Y ,
wenn X und Y unabhängig sind. Auf Grund des obigen Beispiels wird man erwarten,
daß ϕ Bm+n,p -verteilt ist. Tatsächlich gilt:
X
m i
n
m−i
P (X + Y = k) =
p (1 − p)
pk−i (1 − p)n−k+i
i
k−i
0≤i≤min{k,m}
X
m
n
k
n+m−k
= p (1 − p)
.
i
k−i
0≤i≤min{k,m}
Wegen
(1 + x)m (1 + x)n = (1 + x)m+n
58
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
und unter Zuhilfenahme des Binomischen Lehrsatzes erhält man:
!  n  m+n m X
m i X n j  X m + n k
x
x
=
x
i
j
k
i=0
j=0
k=0
Die linke Seite stimmt überein mit:


min{k,m} m+n
X
X
m
n 
xk 
i
k−i
k=0
i=0
ein Koeffizientenvergleich ergibt:
min{k,m} X
m
n
m+n
=
.
i
k−i
k
i=0
Damit erhält man:
P (X + Y = k) =
m+n k
p (1 − p)m+n−k
k
Einfacher läßt sich die Verteilung von X + Y jedoch durch folgende Überlegung bestimmen:
Jede binomialverteilte Zufallsvariable ist – wie schon früher erwähnt – die Summe
P
von ua alternativverteilten Zufallsvariablen, d.h. Y = m
i=1 Yi mit Yi vt Ap ∀i und
Pm−1
die Yi sind ua, somit ist Ỹ := i=1 Yi vt Bm−1,p . Angenommen wir wissen bereits,
daß für X vt Bn,p , Y vt Bk,p mit k ≤ m − 1, X, Y ua gilt X + Y vt Bn+k,p , dann
kann mit vollständiger Induktion gezeigt werden, daß stets gilt
X + Y vt Bn+m,p
∀n, m ∈ N.
Es gilt nämlich
X +Y =X +
m−1
X
Yi + Ym = (X + Ỹ ) + Ym .
i=1
Nun gilt nach Induktionsannahme X + Ỹ vt Bn+m−1,p , Ym vt Ap , X + Ỹ und Ym
sind ua.
Daraus folgt
(X + Ỹ ) + Ym vt Bm+n,p .
Beispiel 3.22 X, Y seien S(0,1) -verteilt und unabhängig. Wie ist ϕ = X + Y verteilt? (siehe Abb. 3.3). Klarerweise gilt: fϕ (z) = 0 für z 6∈ (0, 2).

1 für 0 ≤ z − y ≤ 1 


fX (z − y) =

0 sonst
⇒

1 für 0 ≤ y ≤ 1


fY (y) =

0 sonst
59
3.4. DIE FALTUNG
f (ϕ)
1
0
1
2
z
Abbildung 3.3:
fX (z − y)fY (y) =
fϕ (z) =
 Rz


1dy


 0
1 für max{0, z − 1} ≤ y ≤ min{1, z}
0 sonst


für 0 ≤ z ≤ 1 



R1


1dy für 1 ≤ z ≤ 2


 z−1


0



z
fϕ (z) =

2
−z


 0
für
für
für
für
z≤0
0<z≤1
1<z≤2
z>2














⇒
⇒
60
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Kapitel 4
Erwartungswert und andere
Lageparameter
4.1
Erwartungswert einer diskreten Zufallsvariablen
Wir beginnen mit einem Beispiel.
Beispiel 4.1 Eine Urne enthalte 30 Lose, davon seien 20 leer, auf 4 Losen stehe
die Zahl 2, auf 3 Losen die Zahl 3, auf 2 Losen die Zahl 4 und auf einem Los stehe
5. Für einen bestimmten Einsatz darf ein Spieler ein Los ziehen. Die Zahl, die auf
dem gezogenen Los steht, wird als Gewinn ausbezahlt. Nach jeder Ziehung wird
das ausgewählte Los durch ein gleichartiges ersetzt und die Urne neu gemischt. Eine
Computersimulation mit 100 Ziehungen ergab die in der folgenden Tabelle stehenden
Häufigkeiten.
Tabelle 4.1:
Losnummer:
Häufigkeit:
5
5
4
7
3
12
2
16
0
60
Die Bank hätte daher bei diesen 100 Ziehungen im Schnitt pro Spiel folgenden
Betrag ausbezahlen müssen.
5
7
12
16
5·
+4·
+3·
+2·
= 1.21 S
100
100
100
100
Konnte mit einem derartigen Ergebnis gerechnet werden? – Man wird intuitiv annehmen, daß sich bei vielen Versuchsdurchführungen die relativen Häufigkeiten der einzelnen Versuchsausgänge an die theoretischen Wahrscheinlichkeiten annähern. Diese
Wahrscheinlichkeiten sind in unserem Beispiel gegeben durch:
61
62
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Tabelle 4.2:
Losnummer:
Häufigkeit:
5·
5
4
3
2
0
1
30
1
15
1
10
2
15
2
3
1
1
1
2
+4·
+3·
+2·
=1S
30
15
10
15
Daher wird man “erwarten”, daß ein Gewinn von S 1 im Durchschnitt pro Spiel auszubezahlen sein wird. Eine Computersimulation mit 1000 Ziehungen hat beispielsweise folgendes Ergebnis erbracht (siehe Tabelle 4.3):
Tabelle 4.3:
Losnummer:
Häufigkeit:
5
30
4
75
3
98
2
140
0
657
Dies ergibt einen durchschnittlichen Gewinn von S 1,024 pro Spiel.
Wir definieren daher:
Definition 4.1 Ist X eine nichtnegative diskrete Zufallsvariable mit den möglichen
Werten Ω′ = {xn , n ∈ N}, und ist die Wahrscheinlichkeit PX von X festgelegt durch:
PX (xn ) = pn ,
P
so bezeichnet man die Summe ∞
n=1 xn pn als den Erwartungswert (Mittelwert) von
P∞
X (im Zeichen EX := n=1 xn pn ).
Diese Summe kann auch ∞ sein. Ist X eine beliebige diskrete Zufallsvariable, so
betrachtet man die Summen:
X
S+ =
xn p n
xn ≥0
und
S− =
X
(−xn )pn
xn <0
und man definiert den Erwartungswert von X als EX = S+ − S− , wenn zumindest
eine dieser Summen endlich ist. Man sagt der Erwartungswert von X existiert nicht,
wenn sowohl S+ als auch S− unendlich ist.
4.1. ERWARTUNGSWERT EINER DISKRETEN ZUFALLSVARIABLEN
63
Beispiel 4.2 Sei X vt Ap : Dann gilt
PX (1) = 1 − PX (0) = p.
Daher:
EX = 1 · p + 0 · (1 − p) = p
Beispiel 4.3 Sei X vt Gp mit 0 < p < 1; q := 1 − p
EX =
∞
X
ipq
i−1
=p·
i=1
= p·
∞
X
q
i=0
i
!′
∞
X
iq i−1
i=1
=p·
1
1−q
′
=p·
1
1
=
(1 − q)2
p
Für p = 1/2 gilt also EX = 2.
Die folgenden bekannten Beispiele zeigen, daß man die Rahmenbedingungen eines
Versuchs (etwa eines Gücksspiels) sehr kritisch betrachten sollte, bevor Entscheidungen auf der Grundlage des Erwartungswertes getroffen werden.
Beispiel 4.4 (Petersburger Paradoxon)
Eine Münze wird sooft geworfen, bis sie erstmals auf “Kopf” fällt. Der Spieler bekommt 2n S , wenn dies beim n-ten Wurf der Fall ist. Wie groß ist der durchschnittliche Gewinn pro Spiel? Sei X der Gewinn des Spielers, dann gilt:
EX =
∞
X
2n
n=1
2n
=∞
Ist dieses Spiel tatsächlich jeden beliebig hohen Einsatz wert? Wie groß ist der durchschnittliche Gewinn pro Spiel, wenn pro Spiel höchstens 2N S ausbezahlt werden?
In diesem Fall gilt:
EX =
N
X
2n
n=1
2n
N
+2
1
2N +1
+
1
2N +2
+ ···
=N +1
Das bedeutet z.B., daß das Spiel nur 33 S wert ist, wenn die “Bank” maximal
4.294.967.296 Schilling ausbezahlen würde.
Beispiel 4.5 (Verdoppelungsstrategie)
Eine Münze wird geworfen – fällt sie auf “Kopf”, so bekommt der Spieler das Doppelte seines Einsatzes, fällt sie auf “Adler”, so geht der Einsatz verloren. Ein Spieler
beschließt nun solange zu spielen, bis er das erste Mal gewinnt, und dabei von Spiel
zu Spiel seinen Einsatz jeweils zu verdoppeln. Ist diese Strategie zweckmäßig?
Sei X der Nettogewinn unseres Spielers. Beginnt er mit einem Einsatz von 1 S
64
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
beim ersten Spiel, und gewinnt er erstmals beim n-ten Spiel, so hat er insgesamt
1 + 2 + 4 + .... + 2n−1 = 2n − 1 Schilling eingesetzt und bekommt 2n ausbezahlt. Der
Nettogewinn ist daher stets 2n − (2n − 1) = 1. Daher gilt:
EX =
∞
X
1
=1
2n
n=1
Es scheint also sinnvoll zu sein, der obigen Strategie zu folgen, wenngleich der Nettogewinn bescheiden ist. Wie aber sieht die Situation aus, wenn der Spieler maximal
2N S verspielen kann?
Dann gilt
!
N
−1
∞
X
X
1
1
EX =
+
· −1 − 2 · · · − 2N −1
n
N
+i
2
2
n=1
i=0
1 − 2N
= −1
2N −1
2N −1
Unter der realistischen Annahme beschränkter Mittel kann man also auf Dauer nur
verlieren.
= 1−
1
+
Häufig interessiert man sich nicht für den Erwartungswert einer Zufallsvariablen, sondern für den Erwartungswert einer Transformation dieser Zufallsvariablen.
Bezeichnet etwa X die Losnummer in Beispiel 4.1, und bekommt der Spieler das
10-fache dieser Nummer bei einem Einsatz von 15 S pro Spiel, so wird ihn der Erwartungswert seines Nettogewinns (-verlustes) Y = ϕ(X) = 10X − 15 interessieren.
~ = (X , . . . , X ) ein diskreter Zufallsvektor und ϕ : Rk → R eine FunkIst etwa X
1
k
tion, die höchstens abzählbar viele Werte {yn ; n ∈ N} annehmen kann, so ist
ϕ(X1 , . . . , Xk ) eine diskrete Zufallsvariable. Aufgrund der Definition für den Erwartungswert gilt daher:
X
Eϕ(X1 , . . . , Xk ) =
yn · P (ϕ(X1 , . . . , Xk ) = yn )
N
=
=
X
yn
X
PX1 ,...,Xk (x1 , . . . , xk )
n
x1 ,...,xk :ϕ(x1 ,...,xk )=yn
X
ϕ(x1 , . . . , xk ) · P ((X1 , . . . , Xk ) = (x1 , . . . , xk )) ,
x1 ,...,xk
sofern diese Summe wohldefiniert ist.
In Beispiel 4.1 erhält man dann:
EY =
35
1
1
2
2
+ 25 ·
+ 15 ·
+5·
− 15 · = −5 S
30
15
10
15
3
~ oder
Der Erwartungswert kann also entweder mit Hilfe der Verteilung von ϕ ◦ X
~ selbst berechnet werden. Damit können einige wichtige Eigenschaften des
von X
Erwartungswertes hergeleitet werden.
4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES
65
1. Falls ϕ ◦ X = c konstant ist, so gilt
Eϕ ◦ X = Ec = cP ({ω : ϕ ◦ X(ω) = c}) = cP (Ω) = c
2. Homogenität:
EαX =
X
αxn pn = α
X
xn pn = αEX
3. Additivität: Von besonderem Interesse ist der Fall ϕ(X1 , X2 ) = X1 + X2 . Sei
X1 eine Zufallsvariable mit den möglichen Werten {xn : n ∈ N} und X2 die
Zufallsvariable mit dem Wertebereich {ym : m ∈ N}.
E(X1 + X2 ) =
X
n,m
=
X
n
+
(xn + ym ) · P (X1 = xn , X2 = ym )
xn ·
X
m
=
X
n
X
P (X1 = xn , X2 = ym )
m
ym ·
X
P (X1 = xn , X2 = ym )
n
xn · P (X1 = xn ) +
= EX1 + EX2
X
m
ym · P (X2 = ym )
Man beachte, daß diese Gleichung sowohl für unabhängige als auch für abhängige Zufallsvariable gilt. So ist etwa leicht zu sehen, daß im Beispiel 3.10 des
Kapitels 3 stets gilt: E(X + Y ) = 3, obwohl die gemeinsame Verteilung von X
und Y in allen 3 Modifikationen anders aussieht.
4. Monotonie:
X1 ≤ X2 ⇒ EX1 ≤ EX2
(X1 , X2 . . . diskret)
(der Beweis hierzu ist trivial)
Daraus folgt wegen −|X| ≤ X ≤ |X| auch −E|X| ≤ EX ≤ E|X| und damit
|EX| ≤ E|X|
4.2
Allgemeine Definition des Erwartungswertes
Es erhebt sich als nächstes die Frage, ob der Begriff des Erwartungswerts auch für
beliebige Zufallsvariable sinnvoll definiert werden kann – dazu ein Beispiel:
66
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Beispiel 4.6 Ein Zufallszahlengenerator X erzeuge auf [0, 1] stetig gleichverteilte
Zufallszahlen. Sei weiters angenommen, daß nur Zahlen x, y unterschieden werden
können mit |x − y| ≥ n1 , und sei weiters angenommen, daß X durch ni approximiert wird, wenn ni ≤ X < i+1
n . Dann erhält man anstelle von X eine diskrete
Zufallsvariable Xn mit:
EXn =
n−1
n−1
X
i 1
n2 − n
1 X
1
1
i=
· = 2
= −
2
n n
n
2n
2 2n
i=0
i=0
Mit zunehmender Genauigkeit (d.h. n → ∞) konvergieren diese Erwartungswerte
gegen 21 . Es wird daher sinnvoll sein, 21 als Erwartungswert von X anzusehen.
Allgemein kann man so vorgehen: Ist X eine nichtnegative Zufallsvariable, so bildet
man eine Folge diskreter Zufallsvariabler Xn durch
i−1
i
i−1
, für
≤X< .
n
n
n
Xn :=
Xn kann auch folgendermaßen angeschrieben werden:
Xn =
Xi−1
i∈N
n
1[X∈ [ i−1 , i ) ]
n
1
n
Klarerweise gilt |Xn − X| < 1/n.
Diese diskreten Zufallsvariablen Xn sind klarerweise nichtnegativ und besitzen daher
einen Erwartungswert EXn . Wenn EXn = ∞ ∀n ∈ N, so wird man EX durch
EX = ∞ festsetzen.
Gilt hingegen für ein n ∈ N EXn < ∞, so folgt aus
|Xm − Xn | ≤ |Xm − X| + |X − Xn | ≤
1
1
+
n m
und wegen
EXm = E|Xm − Xn + Xn | ≤ E(|Xm − Xn | + |Xn |) = E|Xm − Xn | + E|Xn |,
daß auch gilt:
EXm < ∞
∀m ∈ N.
Weiters gilt:
|EXm − EXn | ≤ E|Xm − Xn | ≤
1
1A ist die Indikatorfunktion von A, d.h.
0 für ω 6∈ A
1A (ω) =
1 für ω ∈ A
1
1
+
n m
4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES
67
Die EXn bilden also eine Cauchyfolge, und deshalb existiert der Grenzwert EX :=
lim EXn , den man Erwartungswert von X nennt.
n
Ist X eine beliebige Zufallsvariable, so bildet man X + := max{X, 0} und X − :=
− min{X, 0}. Man nennt X + den Positivteil von X, X − heißt Negativteil. X +
und X − sind nichtnegative Zufallsvariable, deren Erwartungswerte gebildet werden können. Wenn EX + = EX − = ∞ ist, so sagt man: der Erwartungswert von X
existiert nicht – ansonsten bezeichnet man EX = EX + − EX − als den Erwartungswert von X.
Wir fassen die obige Diskussion zusammen und definieren:
Definition 4.2 Ist X eine nichtnegative Zufallsvariable und ist der Erwartungswert
aller Diskretisierungen Xn von X unendlich, so definiert man
EX = ∞.
Falls aber mindestens eine Diskretisierung Xn einen endlichen Erwartungswert hat,
so existiert der Grenzwert limn EXn und man definiert
EX := lim EXn .
n
Ist X eine beliebige Zufallsvariable, so definiert man
EX := EX + − EX − ,
wenn min{EX + , EX − } < ∞. Ansonsten sagt man: der Erwartungswert von X existiert nicht.
Da die Eigenschaften 1)–4) bei der Limesbildung erhalten bleiben, können wir folgenden Satz formulieren:
Satz 4.1 (Eigenschaften des Erwartungswerts)
1. Homogenität: Ist X eine Zufallsvariable und α ∈ R, so gilt EαX = αEX.
2. Additivität: Sind X, Y Zufallsvariable, so gilt E(X + Y ) = EX + EY .
3. Monotonie: X ≤ Y ⇒ EX ≤ EY
4. |EX| ≤ E|X|
Bemerkung.Bei den Gleichungen und Ungleichungen des obigen Satzes wird immer
vorausgesetzt, daß die entsprechenden Erwartungswerte existieren und die Summen
wohldefiniert sind.
Der obige Grenzübergang wird in der Praxis im allgemeinen nur schwer nachzuvollziehen sein. Ist X aber stetig, so kann man EX durch eine einfache Formel berechnen:
68
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Sei f die Dichte von X, dann gilt:
EX + = lim EXn+
n
= lim
n
∞
X
i−1
n
i=2
= lim
n
P
i
Zn
∞
X
i−1
f (u) du
n
i=2
i−1
i
≤X<
n
n
i−1
n
Aufgrund des Mittelwertsatzes der Integralrechnung gilt:
i
Zn
f (ũi )
f (u) du =
n
i−1 i
mit ũi ∈
,
n n
i−1
n
Wir erhalten daher:
EX + = lim
n
∞
X
i − 1 f (ũi )
n
n
mit ũi ∈
i=2
i−1 i
,
n n
Obiger Grenzwert ist aber nichts anderes als das Integral
Z∞
xf (x) dx.
0
Analog zeigt man
EX
−
=
Z0
(−x)f (x) dx.
−∞
Wenn eines der beiden Integrale endlich ist, dann gilt:
+
−
EX = EX − EX =
Z∞
xf (x) dx.
−∞
Beispiel 4.7 Sei X vt S(a,b) . Dann gilt
EX =
EX =
Zb
a
x
dx =
b−a
b+a
2
b2 − a 2
b+a
=
2(b − a)
2
69
4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES
Beispiel 4.8 Sei X vt Eλ . Dann gilt
1
λ
EX =
EX =
Z∞
1
λ
λxe−λx dx =
Z∞
ye−y dy =
0
0

1
−ye−y |∞
0 +
λ
Z∞
0

e−y dy  =
1
λ
~ = (X , . . . , X ) ein stetiger Zufallsvektor mit der Dichte f ~ (x , . . . , x ), so
Ist X
k
1
k
X 1
kann man analog zur obigen Formel zeigen, daß gilt
Eϕ(X1 , . . . , Xk ) =
Z∞
−∞
···
Z∞
−∞
ϕ(x1 , . . . , xk )fX~ (x1 , . . . , xk ) dx1 · · · dxk
Für k = 1 ergibt das
Eϕ ◦ X =
Z∞
ϕ(x)f (x) dx
−∞
Wenn ϕ strikt monoton mit nichtverschwindender Ableitung ist, so kann man y =
ϕ(x) substituieren, und man erhält:
Eϕ ◦ X =
Z∞
−1
yf ϕ
−∞
Z∞
dϕ−1 (y) (y) yfϕ◦X (y) dy
dy =
dy −∞
Beispiel 4.9 X sei Eλ -verteilt mit
λ > 1; y = ϕ(x) = ex ; Eϕ ◦ X =?
R∞
Eϕ ◦ X =
ex λe−λx dx =
0
R∞
λe−(λ−1)x dx =
0
λ
λ−1
R∞
(λ − 1)e−(λ−1)x dx =
0
Eϕ ◦ X kann aber auch so berechnet werden:
fϕ◦X (y) =
Eϕ ◦ X =
λe−λ ln y
= λy −λ−1
y
Z∞
1
λyy
−λ−1
dy =
Z∞
1
∀1 ≤ y < ∞
λy
−λ
∞
λ
λy −λ+1 =
dy =
−λ + 1 1
λ−1
λ
λ−1
70
4.3
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Weitere Eigenschaften des Erwartungswertes
Durch vollständige Induktion kann die Additivität des Erwartungswertes auf n Summanden ausgedehnt werden.
Satz 4.2 Falls alle Erwartungswerte der Zufallsvariablen X1 , . . . , Xn und
P
existieren und falls die Summe ni=1 EXi wohldefiniert ist, so gilt
Pn
i=1 Xi
E(X1 + · · · + Xn ) = EX1 + EX2 + · · · + EXn
Damit kann auf sehr einfache Weise der Erwartungswert einer binomialverteilten
Zufallsvariablen bestimmt werden.
Beispiel 4.10 Sind X1 , . . . , Xn unabhängige identisch nach Ap verteilte Zufallsvarian
P
ble, so wissen wir bereits, daß X :=
Xi nach Bn,p verteilt ist.
i=1
EX = E
n
X
i=1
Xi =
n
X
EXi = np
i=1
Aus der Additivität des Erwartungswertes folgt auch die nächste Aussage:
Satz 4.3 Ist X eine Zufallsvariable mit endlichem Erwartungswert µ = EX, so gilt:
E|X − µ|1[X≤µ] = E|X − µ|1[X≥µ]
Beweis.
X = X1[X<µ] + X1[X≥µ] ⇒
µ = EX = EX1[X<µ] + EX1[X≥µ] ⇒
µ [P (X < µ) + P (X ≥ µ)]
= EX1[X<µ] + EX1[X≥µ] ⇒
µP (X < µ) − EX1[X<µ] = EX1[X≥µ] − µP (X ≥ µ) ⇒
E(µ − X)1[X<µ] = E(X − µ)1[X≥µ] ⇒
E|X − µ|1[X<µ] = E|X − µ|1[X≥µ] ⇒
E|X − µ|1[X≤µ] = E|X − µ|1[X≥µ]
Bemerkung.Ist X stetig mit der Dichte f , so reduziert sich obige Gleichung auf:
Zµ
−∞
|x − µ|f (x) dx =
Z∞
µ
|x − µ|f (x) dx.
71
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
Ist X diskret und nimmt es die Werte {xn , n ∈ N} mit den Wahrscheinlichkeiten
P (X = xn ) = pn an, so erhält man:
X
X
|xn − µ| pn =
|xn − µ| pn
xn ≤µ
xn ≥µ
Das heißt: die gewichtete Summe der Abstände der Werte, die links von µ liegen, ist
gleich der Summe der Abstände rechts von µ. Dazu ein Beispiel:
Beispiel 4.11 An einer Straße stehen 9 Häuser. Die Anzahl der Bewohner und die
Lage der Häuser ist der Skizze 4.1 zu entnehmen. In der Straße soll eine Bushal1
0
2
10 20
3
3
2
40 50 60
2
110
5
1
2
130 140 150
✲
m
Abbildung 4.1:
testelle so errichtet werden, daß die Bewohner, die links der Haltestelle wohnen,
in Summe eine genauso lange Wegstrecke zur Haltestelle haben, wie die Bewohner
rechts der Haltestelle. Alle Bewohner benutzen den Bus etwa gleich häufig. Wo ist
die Haltestelle zu errichten?
Lösung: Bezeichnet X den Ausgangspunkt eines Straßenanrainers, so nimmt X die
Werte Xi = 10, 20, 40, 50, 60, 110, 130, 140 und 150 mit den Wahrscheinlichkeiten
pi = 1/21, 2/21, 3/21, 3/21, 2/21, 2/21, 5/21, 1/21, 2/21 an. Die Haltestelle soll an
einer Stelle µ errichtet werden, für welche gilt:
X
X
|xi − µ|pi =
|xi − µ|pi
xi ≤µ
xi ≥µ
Bildet man den Erwartungswert von X, so erhält man:
µ = EX
10 + 2 · 20 + 3 · 40 + 3 · 50 + 2 · 60 + 2 · 110 + 5 · 130 + 140 + 2 · 150
=
21
1750
= 83.3̇
=
21
Manchmal kann die Linearität des Erwartungswertes dazu verwendet werden, das
Mittel einer Zufallsvariablen zu bestimmen, ohne deren Verteilung zu kennen. Dazu
ein Beispiel:
Beispiel 4.12 Eine Urne enthält 8 schwarze und 2 weiße Kugeln. Ein Spieler A zieht
solange ohne Zurücklegen, bis er eine weiße Kugel erwischt. Danach zieht Spieler B
ebenfalls, bis er eine weiße Kugel erhält. Jeder Spieler hat seinem Gegner für jede
72
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Ziehung, die er benötigt, 1 S zu bezahlen. Ist das Spiel fair?
Sei X1 (X2 ) die Anzahl der von Spieler A (B) benötigten Ziehungen. Y sei die
Anzahl der in der Urne verbleibenden Kugeln. Dann gilt mit X3 := Y + 1:
X1 + X2 + Y = 10 ⇒ E(X1 + X2 + X3 ) = EX1 + EX2 + EX3 = 11
Die Zufallsvariablen X1 , X2 , X3 haben alle die gleiche Verteilung. Das sieht man so:
Man ordne die Kugeln in der Reihenfolge der Ziehungen kreisförmig im Uhrzeigersinn
an (siehe Abb. 4.2). Um den Beginn der Ziehungen zu kennzeichnen, setze man eine
besonders gekennzeichnete zusätzliche Kugel – etwa eine durch ein Kreuz gekennzeichnete Kugel – zwischen die erste und die letzte Kugel. Man sieht sofort, daß X1
zu X3 wird, wenn man die markierte und die im Uhrzeigersinn erste weiße Kugel
vertauscht. X2 wird dann zu X1 und X3 zu X2 . Da alle Anordnungen der Kugeln am
Kreis gleichwahrscheinlich sind, ändert eine derartige Vertauschung nichts an den
Verteilungen der Xi . Daher muß X3 wie X1 und X1 wie X2 verteilt sein.
⑤
⑤
⑤
❧
⑤
✎☞
✍✌⑦
❩
⑦
❩
⑤
⑤
❧
⑤
❧
Abbildung 4.2:
Daraus folgt:
11 = X1 + X2 + X3 = E(X1 + X2 + X3 ) = EX1 + EX2 + EX3 = 3EX1 ⇒
11
EX1 = EX2 =
3
Beispiel 4.13 Sei X1 , X2 , . . . eine Folge unabhängiger identisch nach Ap verteilter
Zufallsvariabler mit
P (Xi = 1) = 1 − P (Xi = 0) = p.
Q
Sei λk := max{i : ij=0 Xk+j = 1}, d.h. λk ist die Länge einer Serie von Versuchen,
die von k beginnend alle auf 1 enden. Gesucht ist Eλk . Sei
ϕ1 = Xk
ϕ2 = Xk Xk+1
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
73
..
.
ϕi = Xk Xk+1 · · · Xk+i−1
Somit gilt
ϕi = 1 ⇔ Xk = Xk+1 = · · · = Xk+i−1 = 1
und
λk = ϕ1 + ϕ2 + · · · =
P
Eϕn
Eλk =
P
N
ϕn ⇒
N
Aus
P (ϕn = 1) = P (Xk = Xk+1 = · · · = Xk+n−1 = 1) = pn
folgt:
Eϕn = pn
Dies wiederum impliziert:
X
p
pn =
Eλk =
1−p
N
Sei nun λ die Länge einer ununterbrochenen Serie von Einsen. Gesucht ist Eλ. Eine
Serie beginnt irgendwo mit einem Versuch, der auf 1 endet. Sei daher ϕ̄0 = 1. Setze
nun ϕ̄1 = 1 genau dann, wenn auch der folgende Versuch auf 1 endet, ϕ̄2 = 1, wenn
die beiden folgenden Versuche auf 1 enden, usw. Daraus folgt sofort:
P (ϕ̄n = 1) = pn ⇒ Eϕ̄n = pn
Wegen
λ = ϕ̄0 + ϕ̄1 + ϕ̄2 + · · · = 1 +
X
ϕ̄n
N
gilt:
Eλ = 1 +
X
pn =
1
1−p
Das folgende Beispiel ist eine stetige Version von Beispiel 4.12:
Beispiel 4.14 Seien X1 , . . . , Xn n unabhängige nach S0,1 identisch verteilte Zufallsvariable. Ordnet man die X1 , . . . , Xn nach wachsender Größe, so erhält man
eine Permutation X(1) , . . . , X(n) der ursprünglichen Folge. (X(1) = min Xi , X(2)
1≤i≤n
das 2-kleinste Xi , etc. ) X(i) nennt man die i-te Ordnungsstatistik. Gesucht sei:
74
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
EX(i) mit i = 1, . . . , n.
Wir betrachten zunächst die Differenzen:
Y1 := X(1) − 0; Y2 := X(2) − X(1) ; . . . ; Yn := X(n) − X(n−1) ; Yn+1 := 1 − X(n)
Offensichtlich gilt also:
n+1
X
Yi = 1
i=1
Daraus folgt:
1=E
n+1
X
Yi =
n+1
X
EYi
i=1
i=1
Kann man nun zeigen, daß alle Yi der gleichen Verteilung genügen, so folgt daraus:
EY1 = EYi =
1
n+1
∀i = 1, . . . , n + 1
Dann müßte aber auch gelten:
EX(i) = E
i
X
Yj =
i
X
j=1
j=1
EYj =
i
n+1
Um zu zeigen, daß alle Yi identisch verteilt sind, denke man sich das Intervall zu einem Kreis vom Umfang 1 gebogen. Auf dem Kreis wählen wir zufällig einen Punkt x0
als Ausgangspunkt aus. Danach wählen wir n Punkte x1 , x2 , . . . , xn . Ordnet man nun
die Punkte von x0 weg im Uhrzeigersinn, so erhält man die Folge x(0) , x(1) , . . . , x(n) .
Da die Punkte x0 , x1 , . . . , xn voneinander unabhängig und identisch verteilt sind,
müssen auch die Längen der Kreisbögen zwischen benachbarten Punkten x(i) −x(i−1)
identisch verteilt sein. Diese Differenzen entsprechen aber genau den Yi . Damit ist
der Beweis fertig.
Man beachte aber, daß folgendes gilt:
EXi =
Z1
0
x dx =
1
2
∀i = 1, . . . , n
Definition 4.3 Eine Zufallsvariable heißt symmetrisch um das Zentrum a verteilt,
wenn gilt:
P (X ≤ a − x) = P (X ≥ a + x)
∀x ∈ R
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
75
Äquivalent zu obiger Definition ist die Bedingung:
F (a − x) = 1 − F (a + x − 0)
∀x ∈ R
Dies kann durch:
f (a − x) = −F ′ (a − x) = f (a + x) = (F (a + x) − 1)′
∀x ∈ R
ersetzt werden, wenn X stetig mit der Dichte f verteilt ist. Eine diskrete Zufallsvariable ist klarerweise genau dann symmetrisch um a verteilt, wenn
P (X = a − x) = P (X = a + x)
∀x ∈ R
gilt.
Für symmetrische Zufallsvariable gilt folgender Satz:
Satz 4.4 Ist X eine um a ∈ R symmetrisch verteilte Zufallsvariable, deren Erwartungswert endlich ist, so gilt:
EX = a
Beweis.Wir beweisen den Satz nur für stetige Zufallsvariable (für diskrete Zufallsvariable ist der Beweis trivial).
EX =
Za
xf (x) dx +
Z∞
xf (x) dx
a
−∞
(substituiere: x = a − y bzw. x = a + y)
Z∞
Z∞
=
(a − y)f (a − y) dy + (a + y)f (a + y) dy
0

= a
= a
0
Z∞
0
Za
−∞
Z∞
= a
f (a − y) dy +
f (x) dx + a
Z∞
Z∞
0

f (a + y) dy 
f (x) dx
a
f (x) dx = a
−∞
Bemerkung.Der Beweis für beliebige Zufallsvariable kann aus der Gültigkeit der
Aussage für diskrete Zufallsvariable unter Zuhilfenahme der Definition des Erwartungswertes einer beliebigen Zufallsvariablen hergeleitet werden und wird dem Leser
überlassen.
76
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
R 1
Beispiel 4.15 Aus der Analysis ist bekannt, daß 1+x
2 dx = arctan x + c gilt,
1
eine
Dichte.
Zufallsvariable
mit
dieser Dichte nennt man
daher ist f (x) = π(1+x
2)
cauchyverteilt. Offensichtlich ist f symmetrisch um 0 verteilt. Aber aus
ZM
0
folgt:
Z∞
M
x
1
2 dx =
ln(1 + x )
2
π(1 + x )
2π
0
x
dx =
π(1 + x2 )
0
Z0
−∞
−x
dx = ∞
π(1 + x2 )
Daher hat eine cauchyverteilte Zufallsvariable keinen Erwartungswert, und der obige
Satz ist nicht anwendbar.
Sind X und Y zwei unabhängige diskrete Zufallsvariable mit den Werten {xn : n ∈
N} bzw. {ym : m ∈ N}, so gilt:
X
EXY =
xn ym P (X = xn , Y = ym )
n,m
=
X
xn ym P (X = xn )P (Y = ym )
n,m
=
X
xn P (X = xn )
n
X
ym P (Y = ym )
m
= EXEY
Für beliebige unabhängige Zufallsvariable X, Y kann man die Formel wieder durch
Diskretisierung und Grenzübergang beweisen. Aber für stetige Zufallsvariable X, Y
mit der Dichte f (x, y) ist die Herleitung genauso einfach, wie im diskreten Fall: Da
(X, Y ) unabhängig sind, gilt:
f (x, y) = fX (x)fY (y)
Daraus folgt:
EXY
=
=
=
ZZ
xyf (x, y) dx dy
ZZ
Z
xfX (x)yfY (y) dx dy
Z
xfX (x) dx yfY (y) dy
= EXEY
Wir können daher folgenden Satz formulieren:
77
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
Satz 4.5 Sind X, Y zwei unabhängige Zufallsvariable, deren Erwartungswerte endlich sind, so gilt
EXY = EXEY.
Auch bei manchen spieltheoretischen Problemen ist es nützlich, die entsprechenden Erwartungswerte zu betrachten.
Beispiel 4.16 Ist das folgende Spiel fair? 2 Spieler A und B haben je 2 Lose, eines,
das mit “1”, und eines, das mit “2” numeriert ist. Jeder Spieler wählt ein Los ohne zu
wissen, was der andere zieht. Ist die Gesamtsumme der Zahlen auf den ausgewählten
Losen gerade, so gewinnt A einen Betrag in der Höhe dieser Summe von B; ist die
Gesamtsumme jedoch ungerade, so hat er diese Summe an B zu zahlen.
Die obengestellte Frage ist nicht unmittelbar zu beantworten, denn es kommt auf
die Spielstrategie von A und B an – oder mit anderen Worten auf die Wahrscheinlichkeiten, mit der die Spieler ihre Lose wählen. Sei X die Wahl von A und Y die
Wahl von B. Sei weiters angenommen, daß P (X = 1) = α, P (X = 2) = 1 − α und
P (Y = 1) = β, P (Y = 2) = 1 − β. Da kein Spieler weiß, welches Los der Gegner
wählt, wird man X und Y als unabhängig annehmen. Bezeichnen wir den Gewinn
von A mit ϕ, so ist ϕ zweifellos eine Funktion von X und Y , die sich aus Tabelle 4.4
ergibt. Für Eϕ erhält man daher:
Tabelle 4.4:
Y
1
2
X
1
2
2
-3
-3
4
Eα,β ϕ = 2P (X = 1, Y = 1) + 4P (X = 2, Y = 2)
− 3(P (X = 1, Y = 2) + P (X = 2, Y = 1))
= 2αβ + 4(1 − α)(1 − β) − 3α(1 − β) − 3(1 − α)β
= β(12α − 7) − 7α + 4
= α(12β − 7) − 7β + 4
1
7
, so gilt stets: Eα,β ϕ = − 12
, egal welche Wahrscheinlichkeit
Wählt nun B sein β = 12
1
α A wählt. Das heißt: max Eα, 7 ϕ = − 12 . Daher gilt erst recht: min max Eα,β ϕ ≤
α
12
β
α
1
. Das bedeutet, daß bei optimaler Spielweise beider Spieler die Gewinnerwartung
− 12
von A negativ ist. Das Spiel bevorzugt also B.
78
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Beispiel 4.17 Eine Urne enthalte 1 Los mit der Zahl 5, 2 Lose mit 4, 3 Lose mit 3
und 4 Lose mit der Nummer 2. Der Spieler muß vor jeder Ziehung die Losnummer
raten. Tippt er richtig, so erhält er die Losnummer als Gewinn ausbezahlt – ansonsten geht er leer aus. Ähnlich wie in Beispiel 4.16 benötigen wir eine Zufallsvariable
Y , welche die Entscheidung des Spielers beschreibt. Bezeichnet X die Nummer des
gezogenen Loses, so gilt für den Gewinn:
i wenn X = Y = i i = 2, 3, 4, 5
ϕ=
0 sonst
und:
EY ϕ =
5
X
i=2
iP (X = i, Y = i) =
5
X
iP (X = i)P (Y = i)
i=2
Sei qi := P (Y = i) i = 2, 3, 4, 5. Wählt der Spieler jede der Nummern 2 bis 5 mit
der gleichen Wahrscheinlichkeit aus – also qi = 14 i = 2, 3, 4, 5, so erhält man:
5
4·2 3·3 2·4
3
1
EY ϕ =
+
+
+
· =
10
10
10
10
4
4
Allgemein gilt:
EY ϕ =
1
[5q5 + 8q4 + 9q3 + 8q2 ]
10
q5 + q4 + q3 + q2 = 1
Dieser Ausdruck wird maximal für q3 = 1, qi = 0 sonst – d.h.: max Eq ϕ =
q
9
10 .
Aber
ein Spieler, der sein gesamtes Kapital stets auf ’3’ setzt, wird nach n Runden mit
3 n
verloren haben. (Das ist nach 2 Runden bereits
der Wahrscheinlichkeit 1 − 10
eine Wahrscheinlichkeit von 0.91 – nach 3 Runden eine von 0.97.)
4.4
Andere Lageparameter
Aber nicht immer ist es sinnvoll, den Erwartungswert als Entscheidungsgrundlage
zu nehmen, wie die folgenden Beispiele zeigen werden:
Beispiel 4.18 Ein Würfel wird sooft geworfen, bis er das erste Mal auf “6” fällt.
Ein Spieler erhält einen Gewinn von K Schilling, wenn er die notwendige Anzahl
von Würfen errät – ansonsten geht er leer aus. Worauf soll er tippen?
Ist X die Anzahl der Würfe bis zur ersten “6”, so wissen wir, daß X nach G 1 verteilt
5
6
ist und daher EX = 6 gilt (siehe Beispiel 4.3). Aber P (X = 6) = 656 = 0.067 ≪
P (X = 1) = 16 = 0.167. Der sinnvollste Tip n wird also der sein, für den gilt:
P (X = n) = max P (X = i) = P (X = 1).
i
Wir definieren:
4.4. ANDERE LAGEPARAMETER
79
Definition 4.4 Ist X eine diskrete Zufallsvariable mit den Werten {xn : n ∈ N},
so nennt man jenen Wert xm den Modus (im Zeichen: mod(X)), für den gilt:
P (X = xm ) = max P (xn )
n
Gibt es mehrere derartige Werte, so wird jeder davon Modus genannt.
Ist X stetig mit der Dichte f , so nennt man einen Wert x0 den Modus, wenn
f (x0 ) = max f (x)
x
(im stetigen Fall muß der Modus nicht existieren).
Erwartungswert und Modus werden Lageparameter genannt, da sie dazu dienen, die
Lage der möglichen Werte einer Zufallsvariablen (der möglichen Versuchsausgänge)
auf der Zahlengeraden zu charakterisieren. Ein weiterer wichtiger Lageparameter ist
der Median:
Definition 4.5 Ist X eine Zufallsvariable mit der Verteilungsfunktion F , so nennt
man jenen Wert m den Median (im Zeichen: med(X)), für den gilt:
1
≤ F (m)
2
Allgemeiner heißt ein Wert xp ein p-Fraktile der Verteilung F , wenn:
F (m − 0) ≤
F (xp − 0) ≤ p ≤ F (xp ) 0 ≤ p ≤ 1
(Statt p-Fraktile sagt man oft auch p-Quantile.)
Ein Vorteil, der den Median gegenüber dem Modus und Erwartungswert auszeichnet, ist die Tatsache, daß er für jede Verteilung existiert; er muß aber nicht immer
eindeutig bestimmt sein. So ist etwa jeder Wert aus [0, 1] Median der Verteilung mit
der Verteilungsfunktion
1
1
+ 1[1,∞) (siehe Abb 4.3).
2 [0,1)
Der Median hat folgende wichtige Eigenschaft:
F (x) =
Satz 4.6 Ist X eine Zufallsvariable mit dem Median m, so gilt:
E|X − m| = min E|X − a|
a∈R
Beweis.Wenn E|X| = ∞ gilt, so folgt aus |X| ≤ |X − a| + |a| auch:
E|X − a| = ∞
∀a ∈ R
und die obige Gleichung gilt.
Sei nun E|X| < ∞. Aus |X − a| ≤ |X| + |a| folgt auch:
E|X − a| < ∞
∀a ∈ R
80
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
1
F (x)
0.5
0
-1
0
1
x
2
Abbildung 4.3:
Es gelte ohne Einschränkung der Allgemeinheit:
m<a
Wegen
gilt:

für X > a
 m−a
|X − a| − |X − m| =
a + m − 2X für m < X ≤ a

a−m
für X ≤ m
|X − a| − |X − m| ≥
m − a für X > m
a − m für X ≤ m
Daraus folgt:
E|X − a| − E|X − m|
= E (|X − a| − |X − m|) ≥ E(a − m) 1[X≤m] − 1[X>m]
= (a − m) (P (X ≤ m) − P (X > m)) = (a − m) (2F (m) − 1)
1
≥ (a − m) 2 − 1 ≥ 0
2
Analog dazu zeigt man, daß auch für a < m gilt:
E|X − m| ≤ E|X − a|
Wir kehren nun zurück zu Beispiel 4.11:
3
81
4.4. ANDERE LAGEPARAMETER
Beispiel 4.19 (Fortsetzung von Beispiel 4.11)
Wo muß die Bushaltestelle in Beispiel 4.11 errichtet werden, wenn die Summe der
Wegstrecken aller Bewohner minimiert werden soll? Nach dem oben Gesagten ist
klar, daß der gesuchte Punkt gleich dem Median der durch pi gebildeten WahrP
9
< 12 ≤ F (60) =
scheinlichkeitsverteilung ist. Man sieht sofort, daß
pi = 21
xi <60
P
gilt.
Daher
ist
m
=
60
der
Median
und
somit der optimale Punkt für
pi = 11
21
xi ≤60
die Bushaltestelle.
Man beachte, daß dies auch dann der optimale Ort ist, wenn die Häuser wie in
Abb. 4.4 liegen. Eine Verschiebung der rechts liegenden Häuser um z.B. 800 m nach
rechts ändert somit nichts an der Lage der Haltestelle! Kann man angesichts dieser
Tatsache das obige Optimalitätskriterium bedenkenlos übernehmen?
1
0
2
10 20
3
3
2
40 50 60
2
910
5
1
2
930 940 950
✲
m
Abbildung 4.4:
Aus obigem Beispiel ist unschwer zu erkennen, daß der Median unempfindlich gegenüber Änderungen in der Größenordnung der Werte einer Zufallsvariablen ist. Für
seine Ermittlung haben nur die relative Lage der Werte zueinander und ihre Wahrscheinlichkeiten eine Bedeutung. Es wird demnach bei allen Problemen, bei denen
die Größe der Werte einer Zufallsvariablen eine wesentliche Rolle spielt, wenig angebracht sein, dem Median eine allzu große Aussagekraft beizumessen.
Aufgabe: Auf welchen Ausgang sollte ein Spieler setzen, wenn man das Spiel
in Beispiel 4.18 dahingehend modifiziert, daß der Spieler zwar stets einen gewissen
Gewinn K erhält – aber bei jedem Spiel einen Einsatz zu zahlen hat, der dem
Abstand seines Tips vom richtigen Ergebnis entspricht?
(Lösung: m = 4, P (X ≤ 3) = 0.423 P (X ≤ 4) = 0.518)
Wir wissen bereits, daß eine lineare Transformation einer Zufallsvariablen auch
zu einer linearen Transformation des Erwartungswertes führt – d.h.
E(αX + β) = αEX + β
∀α, β ∈ R
Diese Eigenschaft trifft auch auf die beiden anderen Lageparameter zu.
Es gilt:
mod(αX + β) = αmod(X) + β
med(αX + β) = αmed(X) + β
82
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Der Beweis für diese Behauptung ergibt sich unmittelbar aus den Definitionen von
Modus und Median.
Kapitel 5
Streuungsparameter
So wichtig die Kenntnis der Lageparameter einer Zufallsvariablen auch sein mag, im
allgemeinen wird sie nicht ausreichen um das Verhalten der Zufallsvariablen angemessen zu beschreiben, wie das folgende Beispiel zeigt:
Beispiel 5.1
1. Ein Spieler soll vorhersagen, auf welche Augenzahl ein Würfel
fällt. Bei richtigem Tip bekommt er eine fixe Summe K ausbezahlt.
2. Nun soll der Spieler vorhersagen, wie oft eine Münze im Verlauf von 7 Würfen
auf “Adler” fällt. Wieder wird nur der richtige Tip honoriert.
3. In einer Urne befinden sich gleichviele mit “3” bzw. mit “4” gekennzeichnete
Lose. Der Spieler soll die Nummer des gezogenen Loses erraten. Auch diesmal
wird nur der richtige Tip honoriert.
Man sieht leicht, daß in allen 3 Fällen der Erwartungswert 3.5 und der Median
jeder Wert zwischen 3 und 4 ist. 3 und 4 sind überdies in allen 3 Fällen Modalwerte. In Beispiel 1 ist jeder Wert Modus. Dennoch ist klar, daß der Spieler am
ehesten bei der Variante 3 gewinnt und am schwierigsten bei Variante 1, da die
möglichen Ausgänge in diesem Fall wesentlich stärker “streuen”, als bei den beiden
anderen Spielvarianten. Wir wollen daher versuchen, dieses Streuverhalten der Zufallsvariablen durch eine Kennzahl – den Streuungsparameter – zu charakterisieren.
Die einfachste Möglichkeit besteht darin, die Differenz zwischen dem größten und
dem kleinsten möglichen Wert – die sogenannte Spannweite – anzugeben. Dies ist
jedoch dann problematisch, wenn die Extremwerte der Zufallsvariablen nur mit sehr
geringen Wahrscheinlichkeiten auftreten und weit entfernt vom Zentrum der Verteilung sind, während der Großteil der anderen Werte sehr wenig streut. In diesem Fall
täuscht die große Spannweite eine große Streuung vor, die in Wahrheit gar nicht vorhanden ist. Gänzlich unbrauchbar ist die Spannweite, wenn die Zufallsvariable Werte
aus einem unendlichen Intervall der Zahlengeraden annehmen kann, etwa bei exponentialverteilten Zufallsvariablen oder bei geometrisch verteilten Zufallsvariablen.
83
84
KAPITEL 5. STREUUNGSPARAMETER
Diese Schwierigkeiten lassen sich vermeiden, indem man anstelle der Spannweiten
den Fraktil-(Quartil-) abstand Q = x0.75 − x0.25 verwendet. In Beispiel 5.1 erhält
man folgende Quartilabstände:
1. Q = 5 − 2 = 3
2. Q = 4 − 3 = 1
3. Q = 4 − 3 = 1
Man sieht, daß zwischen 2 und 3 trotz des unterschiedlichen Streuverhaltens mit
dem Quartilabstand nicht unterschieden werden kann.
Eine andere Art von Streuungsparameter erhält man, wenn man die Abstände der
Werte der Zufallsvariablen um einen Punkt a mittelt.
Definition 5.1 Ist X eine Zufallsvariable, so nennt man
Da := E|X − a|
die mittlere absolute Abweichung von a.
Wir wissen bereits, daß für den Median m gilt:
E|X − m| = min E|X − a|
a∈R
Daher wird die mittlere absolute Abweichung von m von besonderem Interesse sein.
(Manchesmal betrachtet man auch die mittlere absolute Abweichung vom Erwartungswert.) In Beispiel 5.1 erhält man folgende Absolutabweichungen vom Median:
1.
1
6
2.
1
128
3.
1
2
· (2 + 1 + 0 + 1 + 2 + 3) =
3
2
· (3 + 2 · 7 + 1 · 21 + 0 + 1 · 35 + 2 · 21 + 3 · 7 + 4) =
· (0 + 1) =
35
32
1
2
Der wichtigste Streuungsparameter ist jedoch die Varianz.
Definition 5.2 Unter Varianz versteht man das Mittel der quadratischen Abweichungen vom Erwartungswert – also
var X = σ 2 := E(X − EX)2
Anstelle der Varianz kann auch die mittlere quadratische Abweichung von einem
beliebigen Punkt a ∈ R betrachtet werden, doch gilt:
85
Satz 5.1 Ist X eine Zufallsvariable mit dem Erwartungswert µ = EX ∈ R, so gilt:
1.
E(X − a)2 = E(X − µ)2 + (µ − a)2
2.
E(X − µ)2 := min E(X − a)2
a∈R
Beweis.
1.
E(X − a)2
= E ((X − µ) + (µ − a))2
= E(X − µ)2 + E(µ − a)2 + 2E(µ − a)(X − µ)
= E(X − µ)2 + (µ − a)2 + 2(µ − a)(EX − µ)
= E(X − µ)2 + (µ − a)2
2. Der obige Ausdruck wird offensichtlich minimal für a = µ.
Bemerkung.Für a = 0 erhält man:
σ 2 = EX 2 − µ2
Diese Formel wird Steinerscher Verschiebungssatz genannt.
Wir wollen wieder für Beispiel 5.1 die Werte der Varianzen bestimmen. Man erhält
in Bsp. 5.1 (1)
6
σ2 =
1X 2
i − 3.52 = 2.916̇
6
i=1
in Bsp. 5.1 (2)
σ2 =
7
4
in Bsp. 5.1 (3)
σ2 =
1
4
Da die mittlere quadratische Abweichung in der Größenordnung der Quadrate der
Abstände liegt, die mittlere absolute Abweichung jedoch in der Größenordnung der
Abstände selbst, ist es schwer die beiden Streuungsparameter
p zu vergleichen. Statt
der Varianz betrachtet man daher oft die Wurzel σ =
E(X − µ)2 . Diese wird
Streuung genannt.
86
KAPITEL 5. STREUUNGSPARAMETER
Satz 5.2 (Ungleichung von Schwarz)
Seien X und Y zwei Zufallsvariable mit EX 2 , EY 2 < ∞, dann gilt
√
√
E|XY | ≤ EX 2 · EY 2
Beweis.Sei EX 2 = EY 2 = 1; X ≥ 0, Y ≥ 0. Dann erhält man:
X
Y 2 EX 2 EY 2
0≤E √ −√
+
− EXY ⇒ EXY ≤ 1
=
2
2
2
2
Sind nun X und Y beliebig, so bildet man:
|Y |
|X|
X̃ := √ , Ỹ := √
X2
Y2
Wegen X̃ ≥ 0, Ỹ ≥ 0 und EX̃ 2 = EỸ 2 = 1 muß folgendes gelten:
√
E|XY |
√
≤1
EX 2 EY 2
Bemerkung.Eine unmittelbare Folgerung der Schwarzschen Ungleichung ist die
folgende Aussage:
Korollar 5.3 Sei X eine Zufallsvariable mit EX 2 < ∞, dann gilt auch E|X| < ∞
und somit EX ∈ R.
Korollar 5.4 Ist X eine Zufallsvariable mit dem Mittelwert µ und dem Median m,
so gilt:
p
Dm ≤ Dµ ≤ σ ≤ E(X − m)2
Beweis.Die erste und die dritte Ungleichung ergeben sich aus den Minimalitätseigenschaften von Median und Erwartungswert. Es bleibt also nur die mittlere Ungleichung zu zeigen. Aus der Schwarzschen Ungleichung folgt nun:
√
p
p
E|X − µ||1| ≤ E(X − µ)2 E12 = E(X − µ)2
Weitere Eigenschaften der Varianz sind:
Satz 5.5 Sind X, Y Zufallsvariable und a, b ∈ R, so gilt:
1.
var(aX + b) = a2 var(X)
2.
var(X + Y ) = var(X) + var(Y ) + 2E(X − EX)(Y − EY )
3. X, Y seien unabhängig ⇒ var(X + Y ) = var(X) + var(Y )
allgemein: X1 , . . . , Xn seien unabhängig
⇒ var(X1 + · · · + Xn ) =
n
X
i=1
var(Xi )
87
Bemerkung.E(X − EX)(Y − EY ) heißt Kovarianz von X und Y . (im Zeichen:
cov(X, Y ) = E(X − EX).(Y − EY ))
Beweis.
1.
2
E [aX + b − E(aX + b)]2 = Ea2 (X − EX)2 = a2 σX
2.
E(X + Y − EX − EY )2 = E [(X − EX) + (Y − EY )]2
2
= σX
+ σY2 + 2E(X + EX)(Y − EY )
3. Falls X, Y unabhängig sind, so gilt:
E(X − EX)(Y − EY ) = E(X − EX)E(Y − EY ) = 0
d.h.: die Kovarianz unabhängiger Zufallsvariabler ist 0. Die Verallgemeinerung
ergibt sich durch vollständige Induktion.
Wir wollen als nächstes die Varianz für einige spezielle Zufallsvariable bestimmen:
1. X sei vt Ap
σ 2 = EX 2 − p2 = p · 12 + (1 − p) · 0 − p2 = p(1 − p)
2. X sei vt Bn,p . Wir wissen, daß die Summe von n unabhängigen alternativverteilten Zufallsvariablen Y1 , . . . , Yn nach Bn,p verteilt ist. Daraus folgt:
2
σX
2
=σ =
n
X
i=1
σY2 i = np(1 − p)
3. X sei vt Gp
EX(X − 1)
∞
X
i(i − 1)(1 − p)i−1 p
=
=
i=2
∞
X
i=0
=
i
(1 − p)
!′′
p(1 − p) = p(1 − p)(p−1 )′′
2(1 − p)
2(1 − p) 1
1
1−p
2p(1 − p)
2
=
⇒ σX
=
+ − 2 =
3
2
2
p
p
p
p p
p2
88
KAPITEL 5. STREUUNGSPARAMETER
4. X sei vt HN,A,n
X kann wieder als Summe von n Zufallsvariablen Yi , die nach AA/N verteilt
sind, dargestellt werden. Diese Zufallsvariablen sind aber nicht unabhängig.
A
EX = EY1 + · · · + EYn = n N
n 2 n 2
P
P
2 =E
Yi − E
σX
Yi
i=1
E
n
P
i=1
Yi
2
= nEY12 +
i=1
P
i6=j
EYi Yj
Nun gilt:
EY12 = 1
A
+0
N
EYi Yj =
A A−1
⇒
N N −1
und
2
σX
=
=
=
=
=
=
A
n
N
A
n
N
A
n
N
A
n
N
A
n
N
A
n
N
A A−1
A 2
+ n(n − 1)
− n
N N −1
N
nA
n−1
(A − 1) −
1+
N −1
N
2
N − AN − nN + nA
N (N − 1)
N −A N
N −A n
−
N N −1
N N −1
N −n
A
1−
N
N −1
A
n−1
1−
1−
N
N −1
5. X sei gleichverteilt auf {1, . . . , n}
n
1 X 2 n(n + 1)(2n + 1)
i =
EX =
n
6n
2
i=1
⇒ σ2 =
(n + 1)(2n + 1) (n + 1)2
n2 − 1
−
=
6
4
12
89
6. X sei vt Sa,b
σ
2
=
Zb
a
=
=
x2
dx −
b−a
a+b
2
2
b3 − a 3
a2 + b2 + 2ab
b3 − a3 + 3a2 b − 3ab2
−
=
3(b − a)
4
12(b − a)
2
2
(b + ab + a )(b − a) − 3ab(b − a)
(b − a)2
=
12(b − a)
12
7. X sei vt Eλ
EX =
Z∞
xλe−λx dx =
1
λ
0
EX
2
=
Z∞
2
x λe
0
=
2
λ
−λx
Z∞
dx = −x e
xλe−λx dx =
0
var(X) =
1
1
2
−
= 2
λ2 λ2
λ
Z∞
∞
+ 2 xe−λx dx
2 −λx 2
⇒
λ2
0
0
90
KAPITEL 5. STREUUNGSPARAMETER
Kapitel 6
Das schwache Gesetz der großen
Zahlen
Für den Median m gilt per definitionem P (X < m) ≤ 1/2. Für den Erwartungswert
kann jedoch keine derartige Abschätzung gefunden werden, wie das folgende Beispiel
zeigt:
Beispiel 6.1 Sei
Ω = {0, 1}, PX (0) = 1 − ǫ,
EX = ǫ
P (X < ǫ) = 1 − ǫ
PX (1) = ǫ
Umgekehrt gilt für X̃ mit
PX̃ (0) = ǫ, PX̃ (1) = 1 − ǫ ⇒
P (X̃ < 1 − ǫ) = ǫ
Ist jedoch X ≥ 0 und C > µ := EX eine Konstante, so gilt der folgende Satz.
Satz 6.1 (Markoffsche Ungleichung)
Sei X ≥ 0 und C > EX = µ, dann gilt
P (X ≥ C) ≤
µ
.
C
Beweis.Aus
C1[X≥C] ≤ X1[X≥C] ≤ X
folgt:
CP (X ≥ C) = EC1[X≥C] ≤ EX ⇒ P (X ≥ C) ≤
91
EX
.
C
92
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
Ist nun X eine beliebige Zufallsvariable mit EX = µ und E(X − µ)2 = σ 2 , so gilt:
Y := (X − µ)2 ≥ 0 und daher folgt aus der Markoffschen Ungleichung mit C = λσ 2
und λ > 1:
E(X − µ)2
1
EY
=
=
P (Y ≥ C) = P (X − µ)2 ≥ λσ 2 ≤
2
2
λσ
λσ
λ
√
Da (X − µ)2 ≥ λσ 2 äquivalent zu |X − µ| ≥ λσ ist, erhält man:
√
1
P (|X − µ| ≥ λσ) ≤
λ
Daher gilt folgender Satz:
Satz 6.2 (Tschebyscheffsche Ungleichung)
Sei X eine Zufallsvariable mit σ 2 = var(X) < ∞ und µ = E(X), dann gilt
√
1
∀λ > 1.
λ
√
Bemerkung.Ersetzt man λσ durch ǫ, so erhält die Tschebyscheffsche Ungleichung
untenstehende Form:
P (|X − µ| ≥
λσ) ≤
σ2
ǫ2
Die Wichtigkeit der Varianz erklärt sich vor allem aus dieser Ungleichung – so folgt
daraus etwa, daß die Werte einer Zufallsvariablen mit einer Wahrscheinlichkeit von
mindestens 8/9 im Intervall (µ − 3σ, µ + 3σ) liegen.
Ähnlich wie die Tschebyscheffsche Ungleichung läßt sich folgende Aussage beweisen:
P (|X − µ| ≥ ǫ) ≤
P [|X − m| ≥ λDm ] ≤ 1/λ
Wir haben in der Einleitung Wahrscheinlichkeiten als idealisierte relative Häufigkeiten bezeichnet. Dem liegt die Vorstellung zugrunde, daß in einer langen Reihe von
Versuchen die relative Häufigkeit eines Ausgangs gegen einen Grenzwert konvergiert,
den man dann die Wahrscheinlichkeit des jeweiligen Ausgangs nennt. Mit Hilfe der
Tschebyscheffschen Ungleichung läßt sich diese vage Vorstellung präzisieren:
Definition 6.1 Seien X1 , . . . , Xn Zufallsvariable, das arithmetische Mittel der Xi
P
X̄n = n1 ni=1 Xi wird Stichprobenmittel genannt. (Dieses Stichprobenmittel ist als
Transformation der Zufallsvariablen X1 , . . . , Xn natürlich auch eine Zufallsvariable.)
Sei X1 , . . . , Xn eine Folge unabhängiger identisch verteilter Zufallsvariablen mit:
σ 2 = E(Xi − µ)2
µ := EXi ;
und sei
n
X̄n :=
1X
Xi ,
n
i=1
93
dann gilt:
EX̄n = µ,
n
X
1
Xi
var X̄n = 2 var
n
i=1
!
=
n
1 X
nσ 2
σ2
var
X
=
=
i
n2
n2
n
i=1
Somit folgt aus der Tschebyscheffschen Ungleichung:
√ σ
1
≤
P X̄n − µ ≥ λ √
n
λ
√
Mit λ = n ergibt das:
σ
1
√
P X̄n − µ ≥ 4
≤ √ ⇒ lim P X̄n − µ ≥ ǫ = 0
n
n
n
∀ǫ > 0
Wir formulieren die obige Aussage als Satz.
Satz 6.3 (schwaches Gesetz der großen Zahlen – kurz GGZ)
Ist (Xn ) eine Folge unabhängiger Zufallsvariabler mit endlicher Varianz, so gilt
lim P X̄n − µ ≥ ǫ = 0
n
∀ǫ > 0.
Macht man nun n unabhängige Durchführungen eines Versuchs, und setzt man ϕi =
1, wenn bei der i-ten Durchführung ein bestimmtes Ereignis A mit p = P (A) eintritt,
und ϕi = 0 sonst, so erhält man eine Folge unabhängiger nach Ap identisch verteilter
P
Zufallsvariabler. ϕ̄n = 1/n ni=1 ϕi ist dann die relative Häufigkeit des Ereignisses
A im Verlauf von n Versuchen. Aufgrund des schwachen Gesetzes der großen Zahlen
gilt aber:
"
#
p
p(1 − p)
1
√
P |ϕ̄n − p| ≥
≤√
4
n
n
Dies bedeutet, daß sich die relative Häufigkeit ϕ̄n mit wachsender Versuchsanzahl
mit immer größerer Wahrscheinlichkeit immer weniger von der Wahrscheinlichkeit p
unterscheiden wird. Ist p unbekannt, so kann es demnach durch das aus den konkreten Versuchsdurchführungen gewonnene ϕ̄n ersetzt werden. Die Tschebyscheffsche
Ungleichung liefert auch eine Abschätzung für die Zuverlässigkeit dieser Ersetzung.
Dazu ein Beispiel:
Beispiel 6.2 Bei einer Wahl kandidieren 2 Parteien A und B. Ein Meinungsforschungsinstitut möchte wissen, wie groß der Bevölkerungsanteil p mit einer Präferenz
für Partei A ist. Wie viele Personen müssen befragt werden, damit p mit einer Genauigkeit von ±0.01 vorhergesagt werden kann und das Ergebnis der Untersuchung
nur mit einer Wahrscheinlichkeit von höchstens 0.01 fehlerhaft ist? Sei ǫ = 0.01 die
94
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
obere Schranke für die Wahrscheinlichkeit, daß der in der Umfrage ermittelte Wert
um mehr als δ := 0.01 von p abweicht. Es gilt:
#
"
√ p
λ p(1 − p)
1
√
≤ ≤ǫ
P |ϕ̄n − p| ≥
n
λ
√ p
√
Dabei soll λ p(1 − p)/ n ≤ δ gelten. Wegen
λp(1 − p)
λ 1
1
λ
≤ ·
1−
=
n
n 2
2
4n
gilt dies auf jeden Fall für
λ
1
1
106
≥
=
=
= 250, 000.
4δ2
4ǫδ2
4 · 10−6
4
Ersetzt man den unbekannten Erwartungswert µ einer Zufallsvariablen durch das aus
Versuchsdurchführungen
gewonnene ϕ̄n , so sagt
man µ wird durch ϕ̄n geschätzt.
h
√
√
√
√ i
Das Intervall ϕ̄n − λσ/ n, ϕ̄n + λσ/ n wird Vertrauensbereich oder Konfi
h
√
√
√
√ i
denzintervall genannt. P µ 6∈ ϕ̄n − λσ/ n, ϕ̄n + λσ/ n nennt man die Fehlerwahrscheinlichkeit
des Konfidenzintervalls. Vergleicht man das Konfidenzintervall
√
√
[X − λσ, X + λσ] mit dem Intervall [X − λDµ , X + λDµ ], so sieht man, daß das
zweite Intervall nur für 1 < λ ≤ σ 2 /Dµ2 kürzer als das erste ist. (Für λ ≤ 1 ergibt die
Tschebyscheffsche Ungleichung die triviale Beziehung: P (|X − µ| ≥ λσ) ≤ 1.) Da
zwar Dµ ≤ σ gilt,
√ sich Dµ√aber von σ meist nicht allzu sehr unterscheidet, wird das
Intervall [X − λσ, X + λσ] zumeist kürzer sein und daher für Vorhersagezwecke
bevorzugt werden. Dies ist mit eine Erklärung für die Wichtigkeit der Varianz.
Aus der Tschebyscheffschen Ungleichung folgt auch sofort die untenstehende Aussage: Wenn var(X) = 0 ist, so gilt P (|X − EX| > ǫ) = 0 ∀ǫ > 0. Das ist aber
äquivalent zu P (X = µ) = 1. Daher ist jede Zufallsvariable, deren Varianz verschwindet, konstant.
Im folgenden Beispiel wollen wir das Gesetz der großen Zahlen zur numerischen
Berechnung eines Integrals verwenden:
n≥
Beispiel 6.3 Gesucht ist der Wert des Integrals
I(x) :=
Zx
t2
e− 2 dt.
0
Lösung: 1/xI(x) kann aufgefaßt werden als Erwartungswert Eϕ(X) mit ϕ(X) =
Xi2
X2
e− 2 und X gleichverteilt auf [0, x]. Sei Yi = ϕ(Xi ) = e− 2 ∀i ∈ N und seien die
X1 , X2 , . . . , Xn unabhängig identisch nach S0,x verteilt, dann gilt:
!
n
1 X
σ2
1
Yi − I(x) ≥ ǫ ≤ Y21
P n
x
nǫ
i=1
95
Da
2
X2
Rx −v2
2
− 21
= Ee−X1 = e x dv ≤
≤E e
σY2 1
≤
0
1
x
1
R
0
1 dv +
Rx
1
e−v dv ≤
1+e−1
x
< ∞,
muß die obige Wahrscheinlichkeit mit wachsendem n gegen 0 gehen. Daher kann
P
I(x) durch nx ni=1 Yi approximiert werden. Man beachte, daß die Y1 , . . . , Yn aus den
Zufallszahlen X1 , . . . , Xn gebildet werden. Derartige Verfahren, bei denen Probleme
mit Hilfe von Zufallszahlen gelöst werden, nennt man Monte Carlo-Methoden. Die
Tschebyscheffsche Ungleichung erlaubt aber auch eine Aussage über die Güte der
Approximation:
Sei x = 2 und sei weiters angenommen, daß unser Näherungswert mit der Wahrscheinlichkeit δ = 0.9 um höchstens ǫ̂ = 0.1 vom wahren Wert I(2) abweichen soll,
dann gilt:
I(x)
≥ ǫ̂
P xȲn − I(x) ≥ ǫ̂ = P Ȳn −
x x
σY2 1 x2
x2 (1 + e−1 )
<
≤1−δ
≤
nǫ̂2
xnǫ̂2
somit
n≥
(1 + e−1 )x
2(1 + e−1 )
=
≈ 2736
(1 − δ)ǫ̂2
0.1 · 0.12
das bedeutet: bei 2736 Beobachtungswerten stimmt das experimentell gewonnene
Ergebnis bis auf ±0.1 mit der Wahrscheinlichkeit 0.9 mit dem wahren Wert überein.
Man beachte, daß aufgrund des Gesetzes der großen Zahlen wohl die StichprobenmitP
tel konvergieren, nicht jedoch die Summen Sn := ni=1 Xi , wie das folgende Beispiel
zeigt:
Beispiel 6.4 Eine Münze wird n-mal geworfen
1 der i-te Wurf endet auf “Zahl”
Xi :=
0 der i-te Wurf endet auf “Wappen”
Wir wissen bereits, daß:
1
P X̄n − ≥ ǫ → 0 ∀ǫ > 0
2
P
P
Was aber kann über δn := | ni=1 Xi − ni=1 (1 − Xi )| = die absolute Differenz der
Anzahl der Würfe, die auf “Zahl”, und der Anzahl der Würfe, die auf “Wappen”
96
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
enden, gesagt werden? Gilt Eδn = 0?
für n = 2 gilt:
P (δ2 = 0) = P (δ2 = 2) =
1
⇒ Eδ2 = 1 6= 0
2
für n = 4 gilt:
δ4 = 0 ⇔
4
X
i=1
Xi = 2 ⇒ P (δ4 = 0) = P (S4 = 2) =
δ4 = 2 ⇔ |n − 2S4 | = 2 ⇔ S4 = 1 ∨ S4 = 3 ⇒
P (δ4 = 2) = P (S4 = 1) + P (S4 = 3) =
4
2
24
4
1
23
δ4 = 4 ⇔ |n − 2S4 | = 4 ⇔ S4 = 0 ∨ S4 = 4 ⇒
P (δ4 = 4) = P (S4 = 0) + P (S4 = 4) =
P (δ4 = 2k − 1) = 0
∀k ⇒ Eδ4 =
3
2
(40)
23
⇒
für n = 6 gilt:
δ6 = 0 ⇔ S6 = 3,
δ6 = 2 ⇔ S6 = 2 ∨ S6 = 4,
δ6 = 4 ⇔ S6 = 1 ∨ S6 = 5,
δ6 = 6 ⇔ S6 = 0 ∨ S6 = 6,
und somit gilt:
P (δ6 = 0) =
P (δ6 = 2) =
P (δ6 = 4) =
P (δ6 = 6) =
6 −6
2 ,
3
6 −5
2 ,
2
6 −5
2 ,
1
6 −5
15
2 ⇒ Eδ6 =
0
8
Allgemein gilt bei m = 2n Würfen:
δ2n = 2k ⇔ |2n − 2S2n | = 2k
⇒ P (δ2n
⇔ S2n = n + k ∨ S2n = n − k für k = 0, 1, . . . , n

2n  2 · n−k · 2−2n für k = 1, 2, . . . , n
−2n
= 2k) =
 2n
für k = 0
n ·2
97
P (δ2n = 2k − 1) = 0
∀k
Daher gilt
Eδ2n
n
X
2n
2 · 2k ·
· 2−2n
=
n−k
k=1
n
X
2n
= 2−2n+2 ·
k·
n−k
k=1
n
2n
4 X
·
k·
.
=
22n
n−k
k=1
n
X
k=1
2n
k·
n−k
n−1
X
2n
=
(n − k) ·
k
k=0
n−1
n−1
X 2n X
2n
= n·
−
k·
k
k
k=0
k=0
!
n−1
X 2n
22n − 2n
n
k·
−
= n·
k
2
k=0
Wegen
n−1
X
k=0
2n
k·
k
n−1
X
2n(2n − 1)!
(k − 1)!(2n − 1 − k + 1)!
k=1
n−2
X 2n − 1
= 2n ·
k
k=0
!
22n−1 − 2 · 2n−1
n−1
= 2n ·
2
=
erhält man:
Eδ2n
− 22n + 4 2n−1
n−1
= 2n ·
2n
2 2n
2n − 1
2n − 1
2n
−
+2·
+
=
22n
n
n−1
n
2n
2n
2n
=
−
+2·
2n
2
n
n
22n −
2n
n
98
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
=
2n 2n
22n n
Unter Zuhilfenahme der Stirling’schen Formel
√
Θn
n! = nn e−n 2πne 12n mit 0 < Θn < 1
ergibt sich daraus:
2n 2n −2n
√
√
Θ̂n
2π 2n 12n
e
=
Eδ2n = 2n2 22nnn2ne e−2n 2πn
√
√
⇒ n ≤ Eδ2n ≤ 2n − 1
√
2√ n Θ̂n
e 12n
π
mit 0 < Θ̂n < 3
Bemerkung.Diese Beziehung kann auch mittels vollständiger Induktion gezeigt
√
√
√
1 ≤1≤ 1 = 2·1−1
werden: n = 1 :
Eδ2(n+1) = Eδ2n · 2n+1
2n ⇒
√
√ =
n = 2n+1
Eδ2(n+1) ≥ 2n+1
2n
2 n
n+(n+1)
√2
n
≥
√
n(n+1)
√
n
=
√
n+1
Die vorletzte
Ungleichung in obiger Zeile ist eine Folgerung aus der Mittelunglei√
chung: ab ≤ (a + b)/2.
2n + 1 √
2n − 1
2n
r
√
(2n + 1)(2n − 1)
=
2n + 1
4n2
r
√
4n2 − 1 √
2n + 1
=
≤ 2n + 1.
4n2
Eδ2(n+1) ≤
Kapitel 7
Das starke Gesetz der großen
Zahlen
7.1
Die Lemmata von Borel-Cantelli
Manchmal will man wissen, mit welcher Wahrscheinlichkeit ein Ereignis in einer
unendlichen Versuchsfolge immer und immer wieder auftritt, oder aber man möchte
die Wahrscheinlichkeit bestimmen, daß das Ereignis in der Versuchsserie fast immer,
d.h. immer bis auf endlich viele Ausnahmen, auftritt. Es könnte etwa folgende Frage
gestellt werden:
Beispiel 7.1 Wie groß ist die Wahrscheinlichkeit, daß die “6” unendlich oft wiederkehrt, wenn man unaufhörlich würfelt.
Intuitiv wird man annehmen, daß dies mit Wahrscheinlichkeit 1 passiert. Wie aber
kann man dieses Ergebnis herleiten?
Wir betrachten die Menge Ω aller unendlichen Folgen von Würfen:
Ω = {ω = (xn )n∈N : xn ∈ {1, . . . , 6}
∀n ∈ N}
Die “6” tritt bei einer konkreten Folge ω von Würfen genau dann unendlich oft auf,
wenn es eine Teilfolge (ik (ω)) von Versuchen gibt, für die gilt: xik = 6 ∀k ∈ N.
(Diese Teilfolge wird natürlich von ω zu ω variieren.)
Damit existiert aber zu jedem n ∈ N ein in ≥ n mit xin = 6.
Sei nun A die Menge aller Folgen ω, bei denen die “6” unendlich oft auftritt und
An das Ereignis, daß beim n-ten Wurf eine “6” geworfen wird, so kann die obige
Argumentation folgendermaßen angeschrieben werden:
ω ∈ A ⇒ ∀n ∈ N
∃in ≥ n : ω ∈ Ain
Dies ist gleichbedeutend mit:
\ [
ω∈A⇒ω∈
Ai
n∈N i≥n
99
100
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Somit
A⊆
\ [
Ai .
n∈N i≥n
T
S
Sei umgekehrt ω ∈ n∈N i≥n Ai . Dann gibt es zu n1 = 1 ein i1 ≥ 1 : ω ∈ Ai1 , zu
n2 = max{2, i1 + 1} existiert ein i2 ≥ n2 : ω ∈ Ai2 , usw.
Allgemein: zu nk = max{k, ik−1 + 1} existiert ein ik ≥ nk : ω ∈ Aik .
Wir haben also eine Teilfolge (ik ) = (ik (ω)) konstruiert, für die gilt xik = 6. Damit
tritt aber auch in dieser Folge ω die 6 unendlich oft auf. Somit gilt
\ [
ω∈
Ai ⇒ ω ∈ A.
n∈N i≥n
d.h.:
\ [
n∈N i≥n
Ai ⊆ A.
Zusammenfassend gilt somit
\ [
A=
Ai .
n∈N i≥n
Wegen der de Morgan’schen Regeln folgt daraus
[ \
Ac =
Aci .
n∈N i≥n
T
Sei nun m ≥ n und Bn,m := n≤i≤m Aci das Ereignis, daß zwischen dem n-ten und
m-ten Versuch keine “6” gewürfelt wird. Klarerweise gilt:
m−n+1
5
P (Bn,m ) =
6
Für festes n ∈ N und m → ∞ bilden die Bn,m eine monoton fallende Folge mit
T
Bn,m ց i≥n Aci . Daraus folgt wegen der Stetigkeitseigenschaft der Wahrscheinlichkeitsverteilung
\
P(
Aci ) = lim P (Bn,m ) = 0 ∀n ∈ N.
i≥n
m→∞
Damit gilt aber auch
T
P
P ( i≥n Aci ) = 0 ⇒
0 ≤ P (Ac ) ≤
n∈N
P (A) = 1.
Würfelt man also fortwährend, so tritt mit Wahrscheinlichkeit 1 immer wieder eine
“6” auf.
7.1. DIE LEMMATA VON BOREL-CANTELLI
101
Wir haben im obigen Beispiel die Menge A aller ω betrachtet, die in unendlich vielen
der Ereignisse An liegen. Wir definieren:
Definition 7.1 Ist Ω eine beliebige Menge von möglichen Versuchsausgängen und
ist (An ) eine Folge von Ereignissen aus Ω, so nennt man die Menge Ā mit
Ā = {ω ∈ Ω : ω ∈ An
für unendlich viele n ∈ N}
den Limes superior der Mengenfolge (An ) (im Zeichen: Ā = lim sup An ).
Wir haben im vorigen Beispiel schon die folgende Aussage bewiesen.
Satz 7.1 Sei (An ) eine beliebige Mengenfolge aus Ω, dann gilt:
\ [
lim sup An =
Ai .
n∈N i≥n
Ein Versuchsausgang ω liegt genau dann in Āc , wenn ω ∈ An höchstens für endlich
viele n ∈ N. Dies ist gleichbedeutend damit, daß ω ∈ Acn für fast alle n ∈ N.
Definition 7.2 Ist (An ) eine Folge von Ereignissen, so nennt man die Menge
A = {ω ∈ Ω : ω ∈ An
für fast alle n}
den Limes inferior der Mengenfolge (im Zeichen: A = lim inf An ).
Das Komplement des Limes superiors ist also der Limes inferior der Folge (Acn ) und
umgekehrt.
Aus Satz 7.1 und den de Morgan’schen Regeln folgt sofort
Satz 7.2 Ist (An ) eine beliebige Ereignisfolge, so gilt
[ \
lim inf An =
Ai .
n∈N i≥n
Mit Hilfe der beiden folgenden Sätze kann die Wahrscheinlichkeit von lim sup An
unter gewissen Voraussetzungen bestimmt werden.
Satz 7.3 (1-tes Lemma von BOREL-CANTELLI)
Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (An ) eine Folge von Mengen aus S,
dann gilt:
X
P (An ) < ∞ ⇒ P (lim sup An ) = 0
N
102
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Beweis.
P (lim sup An ) = P (
\ [
Ak )
n∈N k≥n
Sei
T S
S
T
Bn =
Ak ⇒
Bn :=
Ak ⇒
n∈N k≥n
n∈N
T k≥n
S
P
S
P(
Ak ) = lim P (Bn ) = lim P (
Ak ) ≤ lim k≥n P (Ak ) = 0
n
n∈N k≥n
wegen
X
N
n
k≥n
n
P (An ) < ∞
Falls die Ereignisse An unabhängig sind, so gibt es eine Umkehrung des 1. Lemmas
von Borel-Cantelli.
Satz 7.4 (2-tes Lemma von BOREL-CANTELLI)
Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (An ) eine Folge von unabhängigen
Mengen aus S, dann gilt:
X
P (An ) = ∞ ⇒ P (lim sup An ) = 1
N
Beweis.
P ((lim sup An )c ) = P (
[ \
Ack )
n∈N k≥n
Wegen der Stetigkeit der Wahrscheinlichkeit gilt:
[ \
\
P(
Ack ) = lim P (
Ack )
n
n∈N k≥n
= lim
n
Nun gilt:
Y
k≥n
k≥n
P (Ack )
k≥n
= lim
n
Y
Y
(1 − P (Ak ))
k≥n
(1 − P (Ak ))
= elog(
P
= e
Q
)
k≥n (1−P (Ak ))
k≥n
log(1−P (Ak ))
7.1. DIE LEMMATA VON BOREL-CANTELLI
103
wegen log(1 + x) ≤ x ∀x > −1 erhält man:
Y
(1 − P (Ak ))
k≥n
≤ e−
P
k≥n
P (Ak )
= e−∞ = 0 ∀n ⇒
P ((lim sup An )c ) = 0 ⇒ P (lim sup An ) = 1.
Man sieht, daß Beispiel 7.1 ein Spezialfall des 2-ten Lemmas von Borel-Cantelli
ist. Auch die folgenden Beispiele dienen der Illustration der beiden Lemmata.
Beispiel 7.2 Sei X1 , X2 , . . . eine Folge ua, identisch verteilter Zufallsvariabler mit
Xn vt A1/2 ∀n ∈ N, und sei νn := max{k : Xn = Xn−1 = · · · = Xn−k+1 = 1} die
Länge der längsten Serie aufeinanderfolgender Einsen, endend beim n-ten Versuch.
Wir werden zeigen, daß mit Wahrscheinlichkeit 1 und beliebiges ǫ > 0 gilt:
νn < (1 + ǫ) log2 n für fast alle n.
Sei An := [Xn = Xn−1 = · · · = Xn−⌈(1+ ǫ ) log2 n⌉ = 1]. Wegen P (An ) < 1/(n1+ǫ/2 )
2
P
gilt natürlich
P (An ) < ∞ und damit
P (lim sup An ) = 0.
Somit gilt: P (lim inf Acn ) = 1, was unsere Behauptung beweist.
Sei nun
λn := max νi .
1≤i≤n
λn ist die Länge der längsten Serie aufeinanderfolgender Einsen im Verlauf der ersten
n Versuche. Eine derartige Serie wird “Lauf” genannt.
Sei ω ∈ lim inf Acn . Dann gibt es ein
l
m
ǫ
n0 (ω) : ∀n ≥ n0 (ω) : νn < 1 +
log2 n < (1 + ǫ) log2 n.
2
Sei n ≥ 2n0 , dann gilt:
für 1 ≤ i ≤ n0 : νi ≤ i ≤ n0 ≤ log2 n ≤ (1 + ǫ) log2 n,
für n0 ≤ i ≤ n : νi ≤ (1 + ǫ) log2 i ≤ (1 + ǫ) log2 n.
Daher folgt λn = max1≤i≤n νi ≤ (1 + ǫ) log2 n ∀n ≥ 2n0 und ω ∈ lim inf Acn .
Mit Wahrscheinlichkeit 1 gilt demnach für fast alle n
λn < (1 + ǫ) log2 n,
oder anders ausgedrückt:
λn
<1+ǫ =1
P lim sup
log2 n
Aber es gilt auch die Umkehrung.
∀ǫ > 0.
104
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Beispiel 7.3 Mit den Voraussetzungen und Bezeichnungen des vorigen Beispiels
gilt
λn
>1−ǫ
= 1 ∀ǫ > 0.
P lim inf
log2 n
Sei
Aki := [Xi+1 = · · · = Xi+k = 1] ⇒ P (Aki ) = 2−k
[λn < k] =
n−k
T
i=0
c
Aki
≤
]
[ n−k
k
T
j=0
c
Akjk
Da die Ereignisse Ak0 , Akk , Ak2k , . . . voneinander unabhängig sind, gilt
P ([λn < k]) ≤ (1 − 2−k )
n−k
k
Für k = ⌊(1 − ǫ) log2 n⌋ ergibt das:
P ([λn < k]) ≤ e−nǫ/2 ⇒
X
λn
<1−ǫ
< ∞⇒
P
log2 n
n
λn
<1−ǫ
= 0
P lim sup
log2 n
Dies bedeutet, daß mit Wahrscheinlichkeit 1 nur höchstens endlich viele λn / log2 n <
1 − ǫ sind, und somit gilt mit Wahrscheinlichkeit 1 auch
lim inf
λn
≥ 1 − ǫ.
log2 n
Beispiel 7.4 Sei (Xn ) eine Folge unabhängiger identisch verteilter Zufallsvariabler
mit
P (X1 = +1) = P (X1 = −1) =
1
2
sei
S0 := 0, Sn :=
n
X
i=1
Xi
∀n ∈ N.
Sn beschreibt die Irrfahrt eines Punktes auf der Zahlengeraden, wenn man im Nullpunkt startet und im n-ten Schritt eine Position nach rechts wandert, wenn Xn = 1
und um eine Position nach links bei Xn = −1. Wir wollen nun wissen, ob unser
Punkt auf seiner Irrfahrt unendlich oft durch den Ursprung wandert, oder anders
7.1. DIE LEMMATA VON BOREL-CANTELLI
105
gesagt: wir wollen P (lim sup[Sn = 0]) berechnen. Wir haben im vorigen Kapitel
gezeigt (siehe Kapitel 6, Beispiel 6.4), daß gilt:
P (S2n−1 = 0) = 0
2n
1
P (S2n = 0) =
· 2−2n ≈ √
n
πn
(Die Näherung läßt sich leicht mit Hilfe der Stirlingschen Formel herleiten). Daraus
P
folgt, daß N P (S2n = 0) = ∞. Da aber die Ereignisse [S2n = 0] nicht unabhängig
sind, kann man das 2-te Lemma von Borel-Cantelli nicht unmittelbar anwenden.
Dies läßt sich folgendermaßen umgehen: Aus

n 
· 2−n für j + n ≡ 0 mod 2
 j+n
2
P ([Sn = j]) =

sonst
 0
folgt:
P (S2n = j) → 0
∀j
Daher gilt für jedes feste k:
lim P (|Sn | < k) = 0
Daraus folgt aber für jedes k die Existenz eines n(k), sodaß
P (|Sn(k) | < k) ≤ p
(0 < p < 1, p ist fix).
Wir bilden nun eine Teilfolge i1 , i2 , . . . folgendermaßen:
i1 := 1
i2 := i1 + n(i1 )
i3 := i2 + n(i2 )
..
.
ik := ik−1 + n(ik−1 )
Dafür gilt:
P (Xik−1 +1 + · + Xik < −ik−1 ) = P (X1 + · + Xn(ik−1 ) < −ik−1 ) ≥
und:
1
P (Xik +1 + · + Xik+1 > ik ) = P (X1 + · + Xn(ik ) > ik ) ≥ (1 − p)
2
1
(1 − p)
2
106
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Daher gilt für die Ereignisse:
Bk = [Xi2k−1 +1 + · + Xi2k < −i2k−1 ] ∩ [Xi2k +1 + · + Xi2k+1 > i2k ]
P (Bk ) ≥ 14 (1 − p)2 ∀k
P
⇒ P (Bk ) = ∞ ⇒ P (lim sup Bk ) = 1
Aus ω ∈ Bk folgt aber:
Xi2k−1 +1 + · + Xi2k < −i2k−1
Andererseits gilt stets:
X1 + · + Xi2k−1 ≤ i2k−1 ⇒ Si2k (ω) < 0
Weiters folgt aber auch
Xi2k +1 + · + Xi2k+1 > i2k .
Zusammen mit
X1 + · + Xi2k > −i2k
ergibt das Si2k+1 (ω) > 0. Somit gibt es ein n ∈ {i2k + 1, . . . , i2k+1 } mit Sn = 0, das
heißt:
Bk ⊆
i2k+1
S
[Sn = 0] ⇒
n=i2k +1
lim sup Bk ⊆ lim sup[Sn = 0] ⇒
P (lim sup[Sn = 0]) = 1
7.2
Fast sichere Konvergenz
Aus der Analysis ist die folgende Definition bekannt.
Definition 7.3 Sind fn , n ∈ N und f Funktionen auf einer beliebigen Menge Ω,
so sagt man die Funktionenfolge (fn )n∈N konvergiert punktweise gegen f , wenn für
alle ω ∈ Ω und für alle ǫ > 0 ein n0 = n0 (ǫ, ω) existiert, sodaß ∀n ≥ n0 gilt
|fn (ω) − f (ω)| < ǫ.
Man kann die obige Definition auch so ausdrücken:
lim inf{ω : |fn (ω) − f (ω)| < ǫ} = Ω ∀ǫ > 0
oder
lim sup{ω : |fn (ω) − f (ω)| > ǫ} = ∅ ∀ǫ > 0.
107
7.2. FAST SICHERE KONVERGENZ
Ist nun (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind Xn , n ∈ N sowie X Zufallsvariable auf Ω, so wird diese Art der Konvergenz oft insoferne abgeschwächt,
als die Konvergenz nicht mehr für alle Punkte ω ∈ Ω gelten muß, sondern daß nur
mehr verlangt wird, daß die Wahrscheinlichkeit aller Versuchsausgänge ω, für die
gilt lim Xn (ω) = X(ω), gleich 1 ist. Wir definieren:
Definition 7.4 Eine Folge von Zufallsvariablen (Xn ) konvergiert fast sicher gegen
eine Zufallsvariable X, wenn:
P ({ω : lim Xn (ω) = X(ω)}) = 1 (i.Z.: Xn → X fs, lim Xn = X fs)
Die obige Definition ist äquivalent zu folgenden Aussagen:
P (lim inf[|Xn − X| < ǫ]) = 1
∀ǫ > 0
bzw.
P (lim sup[|Xn − X| > ǫ]) = 0 ∀ǫ > 0.
Damit ist klar, daß man die fast sichere Konvergenz häufig mit Hilfe der Lemmata
von Borel-Cantelli nachweisen kann, etwa indem man zeigt, daß gilt
P
n P (|Xn − X| > ǫ) < ∞ ∀ǫ > 0.
Häufig benötigt man für Folgen von Zufallsvariablen auch folgende Konvergenzdefinition.
Definition 7.5 Eine Folge von Zufallsvariablen (Xn ) konvergiert in WahrscheinP
lichkeit gegen eine Zufallsvariable X (Xn → X), wenn:
lim P (|Xn − X| > ǫ) = 0
∀ǫ > 0
Wir haben im vorigen Kapitel das schwache Gesetz der großen Zahlen bewiesen,
P
d.h.: für X̄n := n1 ni=1 Xi gilt:
lim P |X̄n − EX1 | > ǫ = 0 ∀ǫ > 0,
n
wenn X1 , X2 , . . . eine unabhängige identisch verteilte Folge von Zufallsvariablen mit
endlichem Erwartungswert ist. Das bedeutet, daß in jedem Zeitpunkt n die Wahrscheinlichkeit, daß X̄n um mehr als ǫ von EX1 abweicht, mit wachsendem n immer
kleiner wird. Mit der obigen Definition lautet die Aussage des schwachen Gesetzes
der großen Zahlen:
P
X̄n → EX1 .
Nun wollen wir die Frage untersuchen, ob die Zeitreihe (X̄n ) in unendlich vielen Zeitpunkten um mehr als ±ǫ von EX1 abweicht, d.h. wir suchen die Wahrscheinlichkeit
von lim sup[|X¯n − EX1 | > ǫ]. Wir werden zeigen, daß gilt:
P (lim sup[|X̄n − EX1 | > ǫ]) = 0 ∀ǫ > 0
108
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
oder anders ausgedrückt:
lim X̄n = EX1
fs.
Die Tschebyscheffsche Ungleichung liefert:
σ2
P |X̄n − EX1 | > ǫ ≤ 2
nǫ
P 1
Daraus kann wegen N n = ∞ nicht auf P (lim sup[|X̄n −EX1 | > ǫ]) = 0 geschlossen
werden. Aber es gilt:
X
X σ2
<∞⇒
P |X̄n2 − EX1 | > ǫ ≤
n 2 ǫ2
n
N
P lim sup[|X̄n2 − EX1 | > ǫ] = 0 ∀ǫ > 0
Wir nehmen nun ohne Einschränkung der Allgemeinheit an, daß EX1 = 0. Sei
m ∈ N ⇒ ∃n : n2 < m ≤ (n + 1)2 ⇒
X1 + · · · + Xn2 + Xn2 +1 + · · · + Xm |X̄m | = m
X1 + · · · + Xn2 Xn2 +1 + · · · + Xm +
≤ n2
n2
Pm
X1 + · · · + Xn2 i=n2 +1 Xi .
≤ max
+ n2 <m<(n+1)
2
n2
n2
Wir betrachten nun die Ereignisse
Pm
i=n2 +1 Xi > ǫ]
An := [
max
n2
n2 <m<(n+1)2
(n+1)2 −1 Pm
[
i=n2 +1 Xi =
>ǫ .
n2
2
m=n +1
Aus der Tschebyscheffschen Ungleichung folgt:
Pm
i=n2 +1 Xi (m − n2 )σ 2
(2n + 1)σ 2
>ǫ
≤
≤
⇒
P n2
n 4 ǫ2
n 4 ǫ2
(2n + 1)2 σ 2
C
P (An ) ≤
≤ 2,
4
2
n ǫ
n
wobei C ∈ R eine Konstante ist.
Somit folgt aus dem 1-ten Lemma von Borel-Cantelli
P (lim sup An ) = 0
Mit Wahrscheinlichkeit 1 gilt also für fast alle n:
P 2
n X i=1 i <ǫ
n2 109
7.2. FAST SICHERE KONVERGENZ
aber auch
Pm
i=n2 +1 Xi < ǫ.
max
n2
n2 <m<(n+1)2
Damit muß aber auch mit Wahrscheinlichkeit 1 für fast alle n ∈ N gelten
|X̄m | < 2ǫ
∀ǫ > 0.
Wir haben somit gezeigt, daß lim X̄n = EX1 fast sicher gilt.
P
Wir haben also im vorigen Abschnitt bewiesen, daß X¯n → EX1 gilt, und in
diesem Abschnitt wurde gezeigt, daß auch lim X̄n = EX1 fast sicher gilt. Diese
Aussage gilt auch dann, wenn die Varianz von X1 unendlich ist – der Beweis ist in
diesem Fall jedoch komplizierter. Wir formulieren daher:
Satz 7.5 (Starkes Gesetz der großen Zahlen)
Ist (Xn ) eine Folge unabhängig identisch verteilter Zufallsvariabler mit endlichem
P
Erwartungswert, so gilt mit X̄n := n1 ni=1 Xi :
P {ω : lim X̄n (ω) = EX1 (ω)} = 1
Die Bezeichnung “starkes Gesetz” bzw. “schwaches Gesetz der großen Zahlen” rührt
daher, daß aus der fast sicheren Konvergenz die Konvergenz in Wahrscheinlichkeit
folgt – nicht jedoch umgekehrt, sodaß das schwache Gesetz der großen Zahlen eine
Folgerung des starken Gesetzes ist.
P
Satz 7.6 aus lim Xn = X fast sicher folgt Xn → X.
Beweis.Aus lim Xn (ω) = X(ω) folgt:
∀ǫ > 0 ∃n0 := n0 (ǫ, ω) : ∀n ≥ n0 : |Xn (ω) − X(ω)| < ǫ
Das impliziert: lim Xn (ω) 6= X(ω) genau dann, wenn es ein ǫ > 0 gibt, sodaß für alle
n0 ein n ≥ n0 existiert mit: |Xn (ω) − X(ω)| > ǫ ⇒
[\ [
[|Xn (ω) − X(ω)| > ǫ]
[lim Xn 6= X] =
ǫ>0 n0 n≥n0
1
=
|Xn (ω) − X(ω)| >
k
k∈N n0 n≥n0


[ 1 
0 = P ([lim Xn 6= X]) ≥ lim P 
|Xn (ω) − X(ω)| >
n0
k
n≥n0
1
≥ lim P
|Xn0 − X| >
≥ 0 ∀k ∈ N
n0
k
[\ [ Daher gilt auch:
lim P [|Xn0 − X| > ǫ] = 0
n0
∀ǫ > 0
Daß die Umkehrung nicht gilt, zeigt das folgende Gegenbeispiel:
110
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Beispiel 7.5 Sei (Ω, S, P ) = [0, 1), B, S(0,1) .
X1 := 1[0,1)
X2 := 1[0,1/2)
X3 := 1[1/2,1)
X4 := 1[0,1/4)
X5 := 1[1/4,1/2)
X6 := 1[1/2,3/4)
X7 := 1[3/4,1)
X8 := 1[0,1/8)
..
.
X2n
:= 1[0,1/2n )
..
.
X2n +i := 1[i/2n ,(i+1)/2n )
..
.
X2n +2n −1 := 1[(2n −1)/2n ,1)
..
.
Zweifellos gilt für diese Folge:
P (|Xn | > ǫ) =
1
2⌊log n⌋
→ 0 ∀ǫ ∈ (0, 1)
Aber für jedes ω ∈ [0, 1) gibt es eine Teilfolge:
(nk ) = (nk (ω)) mit Xnk (ω) = 1 ⇒ [lim Xn 6= 0] = [0, 1) ⇒ P (lim Xn = 0) = 0
7.3
Andere Konvergenzarten
Neben der Konvergenz in Wahrscheinlichkeit und der fast sicheren Konvergenz gibt
es noch andere Konvergenzarten – etwa die Konvergenz im Mittel oder die Konvergenz im quadratischen Mittel:
Definition 7.6 Eine Folge von Zufallsvariablen (Xn ) mit E|Xn | < ∞ konvergiert
im Mittel gegen die Zufallsvariable X (E|X| < ∞), wenn
lim E|Xn − X| = 0
n
7.4. DER SATZ VON GLIVENKO-CANTELLI
111
Definition 7.7 Eine Folge von Zufallsvariablen (Xn ) mit E(Xn )2 < ∞ konvergiert
im quadratischen Mittel gegen die Zufallsvariable X (EX 2 < ∞), wenn
lim E(Xn − X)2 = 0
n
Diese beiden Konvergenzarten spielen eine bedeutende Rolle in der Theorie stochastischer Prozesse. Wir werden nicht näher auf sie eingehen, sondern werden zum
Abschluß dieses Kapitels nur einige Bemerkungen über den Zusammenhang zwischen den verschiedenen Konvergenzarten machen. Aus der Schwarzschen Ungleichung folgt:
√
p
p
E|(Xn − X) · 1| ≤ E(Xn − X)2 · E12 = E(Xn − X)2
D.h. die Konvergenz im quadratischen Mittel impliziert die Konvergenz im Mittel.
Wegen der Tschebyscheffschen Ungleichung impliziert sie auch die Konvergenz in
Wahrscheinlichkeit:
P (|Xn − X| > ǫ) ≤
var(Xn − X)2
E(Xn − X)2
≤
ǫ2
ǫ2
Hingegen gibt es Folgen von Zufallsvariablen, die zwar im quadratischen Mittel –
nicht aber fast sicher konvergieren (siehe Beispiel 7.5), und umgekehrt Folgen, die
fast sicher – jedoch nicht im quadratischen Mittel konvergieren – wie etwa die Folge:
Xn := n1[0,1/n] auf ([0, 1], B, S(0,1) )
7.4
Der Satz von Glivenko-Cantelli
Zum Abschluß wollen wir den Satz von Glivenko-Cantelli formulieren und beweisen.
Dazu eine Definition:
Definition 7.8 Ist X1 , X2 , . . . eine Folge von unabhängigen identisch verteilten Zufallsvariablen, so nennt man die Funktionen
n
Fn (x) := Fn (x, ω) :=
1X
1(−∞,x] (Xi (ω)) mit n ∈ N
n
i=1
empirische Verteilungsfunktionen der Verteilung F (x) := P (X1 ≤ x).
Bemerkung.Führt man einen Versuch n-mal unabhängig voneinander durch, so
gibt Fn (x, ω) die relative Häufigkeit jener Versuchsausgänge Xi (ω) an, die kleiner
oder gleich x sind. Sei etwa X1 (ω) = 2.5, X2 (ω) = 0, X3 (ω) = 4, X4 (ω) = 1, dann
sieht F4 (·, ω) so aus:
Die Funktionen Fn haben offensichtlich alle Eigenschaften einer Verteilungsfunktion.
Der Name wird jedoch vor allem durch den folgenden Satz gerechtfertigt:
112
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
✻
1
3
4
1
2
1
4
0
✲
1
2.5
4
Abbildung 7.1:
Satz 7.7 (Glivenko–Cantelli)
Ist X1 , X2 , . . . eine Folge von unabhängig verteilten Zufallsvariablen mit der Verteilungsfunktion F , und ist Fn die Folge der zugehörigen empirischen Verteilungsfunktionen, so gilt:
P lim sup |Fn (x) − F (x)| = 0 = 1
n→∞ x∈R
D.h. die empirischen Verteilungsfunktionen konvergieren fast sicher gleichmäßig gegen die Verteilungsfunktion F .
Beweis.Sei N ∈ N beliebig, und sei xp ,
für k = 0, . . . , N :
k
F xk −0 ≤
≤F xk
N
N
N
und für x ∈ x k−1 , x k gilt:
N
N
F x k−1 ≤ F (x − 0) ≤ F (x) ≤ F x k − 0 ≤ F x k
N
N
bzw.:
p ∈ [0, 1] das p-Fraktile von F . Dann gilt
N
Fn x k−1 ≤ Fn (x − 0) ≤ Fn (x) ≤ Fn x k − 0 ≤ Fn x k
N
N
N
Daraus folgt für x ∈ x k−1 , x k und F (x) ≥ Fn (x):
N
N
F (x) − Fn (x) ≤ F x k − 0 − Fn x k−1
N
N ≤ F x k − 0 − F x k−1 + F x k−1 − Fn x k−1
N
N
N
N
113
7.4. DER SATZ VON GLIVENKO-CANTELLI
k − 1 k
−
+ F x k−1 − Fn x k−1 N
N
N
N
1
≤
+ max F x k − Fn x k N
N
N 0≤k≤N
Für x ∈ x k−1 , x k und F (x) < Fn (x) gilt:
≤
N
N
Fn (x) − F (x) ≤ Fn x k − 0 − F x k−1
N
N
≤ Fn x k − 0 − F x k − 0 + F x k − 0 − F x k−1
N
N
N
N
1
≤ max F x k − 0 − Fn x k − 0 +
N
N
0≤k≤N
N
Aus den obigen beiden Ungleichungen folgt unmittelbar:
|F (x) − Fn (x)|
≤ max max F x k − Fn x k ,
0≤k≤N
N
N
1
max F x k − 0 − Fn x k − 0 +
N
N
0≤k≤N
N
∀x ∈ x k−1 , x k
N
N
Diese Ungleichung gilt aber auch für x = x k . Somit gilt:
N
sup |F (x) − Fn (x)|
x∈R
≤ max max F x k − Fn x k ,
0≤k≤N
N
N
1
max F x k − 0 − Fn x k − 0 +
N
N
0≤k≤N
N
Nun sind aber die Zufallsvariablen 1(−∞,x] (Xi ) i = 1, . . . , n unabhängig nach Ap
P
verteilt mit p = P (Xi ≤ x) = P (X1 ≤ x). Da Fn (x) = n1 ni=1 1(−∞,x] (Xi ) das
Stichprobenmittel der unabhängigen Zufallsvariablen 1(−∞,x] (Xi ) ist, impliziert das
Gesetz der großen Zahlen:
lim Fn (x) = E1(−∞,x] (Xi ) = P (X1 ≤ x) = F (x)
n
Ähnlich zeigt man:
lim Fn (x − 0)
n
n
1X
1(−∞,x) (Xi ) = E1(−∞,x) (X1 )
= lim
n
i=1
= P (X1 < x) = F− (x) fast sicher
fast sicher
114
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Damit gilt aber auch:
1
= 1 ∀N ∈ N
P lim sup |F (x) − Fn (x)| ≤
n
N
x
Daraus folgt:
P lim sup |F (x) − Fn (x)| = 0
= 1.
n
x
Der Satz von Glivenko-Cantelli besagt also, daß die Verteilungsfunktion durch die
empirischen Verteilungsfunktionen approximiert werden kann, welche mit den empirisch gewonnenen Beobachtungsdaten gebildet werden. Man nennt ihn deshalb auch
oft den Fundamentalsatz der Statistik.
Kapitel 8
Der zentrale
Grenzverteilungssatz
8.1
Der Satz von de Moivre-Laplace
Wir haben im Kapitel 6 Beispiel 6.4 gezeigt, daß bei n Münzwürfen die Anzahl der
√
Würfe, welche auf “Kopf” enden, etwa in der Größenordnung n von n/2 abweicht.
Wir wollen daher etwas allgemeiner versuchen, für unabhängige nach Ap verteilte
Zufallsvariable Xi die Wahrscheinlichkeit auszurechnen, daß sich die Anzahl der “1”
√
im Verlauf von n Versuchen um höchstens ǫ n(ǫ > 0) von np unterscheidet. Die
Tschebyscheffsche Ungleichung liefert:
n
!
X
√
np(1 − p)
p(1 − p)
Xi − np > ǫ n ≤
P =
nǫ2
ǫ2
i=1
Ist ǫ hinreichend klein, so reduziert sich das auf die triviale Ungleichung:
!
n
X
√
P Xi − np > ǫ n ≤ 1
i=1
Wir müssen daher versuchen,
!
n
X
√
P Xi − np > ǫ n =
i=1
X
√
√
np−ǫ n≤k≤np+ǫ n
n k
p (1 − p)n−k
k
genauer abzuschätzen. Dazu betrachten wir:
!
P
| ni=1 Xi − np|
P a≤ p
≤b
np(1 − p)
X
n k
p (1 − p)n−k
=
k
√
√
np+a
np(1−p)≤k≤np+b
np(1−p)
115
a, b ∈ R
116
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Aus der Stirlingschen Formel folgt:
√ √
n
nn e−n n 2π
n!
√ √
√ eΘn,k
=
=
√
k!(n − k)!
k
kk e−k k 2π(n − k)n−k e−(n−k) n − k 2π
wobei gilt: limn,k→0 Θn,k = 0, das heißt:
s
1
n
n2
nn
√
eΘn,k
= k
n−k
k (n − k)
k(n − k) 2πn
k
√
√
Sei q := 1 − p. Da k zwischen np + a npq und np + b npq liegt, strebt mit n auch
k gegen Unendlich und weiters gelten die folgenden Beziehungen:
k
n
n−k
lim
n
n
lim
= p
n
= q
Daraus folgt:
s
lim
n
1
n2
=√
k(n − k)
pq
Überdies gilt:
np k nq n−k
k
nn
−(n−k) ln n−k
−k ln np
k n−k
nq
e
=e
p q
=
k
n−k
k (n − k)
k
n−k
√
√
Die Substitution xk = (k − np)/ npq führt auf n − k = nq − xk npq. Approximiert
man dann noch ln(1 + x) durch x − x2 /2, so erhält man:
q
x2
√
q
−(np+xk npq) xk np
− 2k
np k
=e
n−k
k
bzw.:
nq
n−k
q
np
· (1 + o(1))
q
x2
√
p
− 2k
−(nq−xk npq) −xk nq
=e
p
nq
· (1 + o(1))
daraus ergibt sich:
np k nq n−k
k
n−k
2
√
√ x3 q q
x3 p p
x2
x
(1 + o(1))
= exp − − k q + x2k q − k √ − k p + x2k p + k √
2
2 np
2
2 nq
−
= e
x2
k
2
x2
− 2k
= e
−
e
Cx3
√k
n
(1 + o(1))
(1 + o(1))
8.1. DER SATZ VON DE MOIVRE-LAPLACE
Daraus folgt dann:
X
√
√
np+a npq≤k≤np+b npq
117
n k
p (1 − p)n−k
k
1
1
2
√ √
e−xk /2 (1 + o(1))
2π npq
a≤xk ≤b
X
1
2
√ e−xk /2 (xk − xk−1 )(1 + o(1))
=
2π
a≤xk ≤b
√
Mit ∆xk := xk − xx−1 = 1/ npq → 0 strebt obige Summe gegen
X
=
Zb
a
x2
1
√ e− 2 dx.
2π
Wir können daher den folgenden Satz formulieren:
Satz 8.1 (Grenzverteilungssatz von de Moivre-Laplace)
Ist (Xn ) eine Folge unabhängiger nach Ap , (0 < p < 1) verteilter Zufallsvariabler,
so gilt für jedes a, b ∈ R:
lim P
a≤
Pn
− np
≤b
√
npq
i=1 Xi
=
Zb
a
x2
1
√ e− 2 dx
2π
Das folgende Beispiel illustriert die praktische Bedeutung der soeben hergeleiteten
Approximation.
Beispiel 8.1 Bei der Fertigung elektronischer Bauteile falle ein Ausschußanteil von
p = 0.1 an. Wie groß ist die Wahrscheinlichkeit, daß in einer aus 1000 Einheiten
bestehenden Lieferung höchstens 80 fehlerhafte Stücke sind?
Sei n = 1000, x = 80 und sei
Zx
u2
1
√ e− 2 du
Φ(x) =
2π
−∞
P
n
X
i=1
!
Xi ≤ 80
Pn
− np
x − np
≤ √
√
npq
npq
x − np
≈ Φ √
npq
≈ Φ(−1.054) ≈ 0.1459
= P
i=1 Xi
(Tabellen für die Werte der Funktion Φ finden sich in fast jedem Statistik-Buch.)
118
8.2
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Die Normalverteilung
Satz 8.2
Z∞
e−
u2
2
du =
√
2π
−∞
Beweis.
 ∞
2
Z
2
u

e− 2 du
−∞
=
Z∞ Z∞
e−
−∞ −∞
u2 +v 2
2
du dv =
∂u
∂r
∂u
∂ϕ
∂v
∂r
∂v
∂ϕ
Z2π Z∞
e−
=
Z2π Z∞
e− 2 r dr dϕ
0
0
=
Z2π
1 dϕ = 2π
=
r2
2
0
0
r2
u = r cos ϕ
v = r sin ϕ
dr dϕ
0
Wegen des obigen Satzes kann durch
Φ(x) =
Zx
−∞
t2
1
√ e− 2 dt
2π
eine Verteilungsfunktion definiert werden.
Definition 8.1 Die zu der Verteilungsfunktion Φ gehörige Verteilung heißt Normalverteilung (genauer Standardnormalverteilung). Ist eine Zufallsvariable X gemäß
dieser Verteilung verteilt, so schreibt man: X vt N (0, 1).
Transformiert man auf (0, 1) stetig gleichverteilte Zufallsvariable in geeigneter Weise,
so erhält man normalverteilte Zufallsvariable, wie der folgende Satz zeigt.
Satz 8.3 Seien X1 , X2 vt S(0,1) und unabhängig, dann sind die transformierten Zufallsvariablen Y1 , Y2 mit
p
p
Y1 := −2 ln X1 cos 2πX2 , Y2 := −2 ln X1 sin 2πX2
standardnormalverteilt und ebenfalls unabhängig.
119
8.2. DIE NORMALVERTEILUNG
Beweis.Wir wenden den 2-dimensionalen Transformationssatz auf die Transformation
p
y1 = G1 (x1 , x2 ) = −2 ln x1 cos 2πx2
p
y2 = G2 (x1 , x2 ) = −2 ln x1 sin 2πx2
−1 ∂G an. Dazu müssen wir die Jacobi-Determinante ∂yij berechnen. Wegen
i,j
∂G−1
1
i
= ∂G ,
i
∂yj
∂x
j
erhält man
√ 2πx2
−1 − cos
∂Gi x1 −2 ln x1
∂y = − sin
√ 2πx2
j
x1 −2 ln x1
Weiters gilt
p
−2π −2 ln x1 sin 2πx2
p
2π −2 ln x1 cos 2πx2
−1
2π −1
x
= − = 1 .
x1
2π
y12 + y22 = 2 ln x1 (cos2 2πx2 + sin2 2πx2 ) = 2 ln x1 ⇒
x1 = e−
2 +y 2
y1
2
2
.
Somit
y 2 +y 2
−1 ∂Gi e− 1 2 2
.
∂y =
2π
j
Damit erhält man für (Y1 , Y2 ) folgende Dichte:
y 2 +y 2
−1 ∂Gi e− 1 2 2
1 − y12
1 − y22
2
2
√
√
fY1 ,Y2 (y1 , y2 ) = 1 · =
e
e
=
.
∂yj 2π
2π
2π
Daraus ergibt sich sofort die Behauptung des Satzes.
Bemerkung.Mit Hilfe des obigen Satzes lassen sich sehr leicht normalverteilte Zufallszahlen erzeugen:
Man generiere zunächst eine Folge von auf (0, 1) stetig gleichverteilten Zufallszahlen
x1 , x2 , . . . , x2n−1 , x2n . Dann transformiere man (x2i−1 , x2i ) ∀i = 1, . . . , n durch
q
q
y2i−1 = −2 ln x2i−1 cos 2πx2i , y2i = −2 ln x2i−1 sin 2πx2i .
Die so entstandenen Zufallszahlen y1 , y2 , . . . , y2n−1 , y2n sind unabhängig und normalverteilt.
Als nächstes wollen wir uns mit den Eigenschaften normalverteilter Zufallsvariablen
beschäftigen:
120
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Satz 8.4 Sei X vt N (0, 1); dann gilt:
EX = 0
var X = 1
Beweis.Wegen
1
√
2π
Z∞
2 ∞
1
− t2 =0
dt = √ e
2π
−∞
2
− t2
te
−∞
gilt:
EX = 0.
Aus:
1
√
2π
Z∞
2
2 − t2
t e
−∞
t
dt = √
2π
folgt:
2
− t2
−e
∞
Z∞
2
1
− t2
√
e
dt = 0 + 1
+
2π
−∞
−∞
var X = 1.
Transformiert man X durch eine lineare Abbildung, etwa in der Form Y := σX + µ,
so erhält man eine Zufallsvariable Y , deren Dichte aufgrund des Transformationssatzes folgendermaßen aussieht:
fY (y) = √
(y−µ)2
1
e− 2σ2
2πσ
und für welche klarerweise gilt:
EY = µ, σY2 = σ 2
(y−µ)2
√
Definition 8.2 Eine Zufallsvariable Y mit der Dichte fY (y) = 1/( 2πσ)e− 2σ2
wird normalverteilt mit dem Mittel µ und der Varianz σ 2 (Y ist N (µ, σ 2 )-verteilt)
genannt.
Bemerkung.Die Verteilungsfunktion einer N (µ, σ 2 )-verteilten Zufallsvariablen Y
kann leicht aus der Verteilungsfunktion Φ der Standardnormalverteilung bestimmt
werden. Es ist nämlich X = (Y − µ)/σ nach N (0, 1) verteilt und daher:
Y −µ
y−µ
y−µ
FY (y) = P (Y ≤ y) = P
≤
=Φ
σ
σ
σ
Weiters gilt:
121
8.2. DIE NORMALVERTEILUNG
Satz 8.5 Sind X1 , . . . , Xn unabhängige nach N (µi , σi2 )-verteilte Zufallsvariable, so
P
P
P
ist Sn = ni=1 Xi nach N ( ni=1 µi , ni=1 σi2 )-verteilt.
Beweis.Wir beweisen zunächst, daß gilt

X1
vt N (0, 1) 
⇒ X1 + X2 vt N (0, 1 + σ 2 )
X2
vt N (0, σ 2 )

X1 , X2 ua
Es gilt
fX1 +X2 (z) =
Z∞
−∞
1 − (z−t)2 − t22
2
e
e 2σ dt.
2πσ
(z − t)2 + t2 /σ 2 kann folgendermaßen umgeformt werden:
2
t2
2
2 σ +1
(z − t) + 2 = t
− 2zt + z 2
σ
σ2
!2
√
σ
σ2 + 1
σ2
t− √
z2 + z2
=
z − 2
2
σ
σ
+
1
σ +1
Somit gilt
fY (z) = √
2
− z2
1
e
2πσ
1
σ 2 +1
Z∞
−∞
− 21
1
√ e
2π
√
σ 2 +1
t− √ σ2 z
σ
σ +1
2
dt
√
√
Mit der Substitution v = σ 2 + 1t/σ − σz/ σ 2 + 1 erhält man daraus:
fY (z) =
=
Daraus folgt
2
1
σ
− z
√
√
e 2(σ2 +1)
2πσ σ 2 + 1
1
p
2π(σ 2 + 1)
2
− z2
2(σ +1)
e
Z∞
−∞
v2
1
√ e− 2 dv
2π
.
X1 + X2 vt N (0, 1 + σ 2 ).
Sei nun X1 vt N (µ1 , σ12 ), X2 vt N (µ2 , σ22 ), X1 , X2 ua, so gilt Y1 = (X1 − µ1 )/σ1 vt
N (0, 1), Y2 = (X2 −µ2 )/σ1 vt N (0, σ22 /σ12 ). Daraus folgt Y1 +Y2 vt N (0, 1+σ22 /σ12 ) =
N (0, (σ12 + σ22 )/σ12 ). Damit erhält man aber sofort:
X1 + X2 − µ1 − µ2 vt N (0, σ12 + σ22 ) ⇒
X1 + X2 vt N (µ1 + µ2 , σ12 + σ22 ).
Der Rest des Beweises ergibt sich durch vollständige Induktion.
Bemerkung.Sind Y1 , Y2 , . . . , Yn ua vt N (0, 1), so ist auf Grund obigen Satzes auch
√
(Y1 + · · · + Yn )/ n vt N (0, 1).
122
8.3
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Der zentrale Grenzverteilungssatz
Wir haben gesehen, daß bei unabhängig durchgeführten alternativverteilten VersuP
√
chen ( ni=1 Xi − np)/ npq näherungsweise N (0, 1)-verteilt ist. Es erhebt sich die
Frage, ob ähnliche Aussagen auch für unabhängige Zufallsvariable mit beliebiger
Verteilung getroffen werden können. Tatsächlich gilt:
Satz 8.6 (zentraler Grenzwertsatz für u.a. identisch verteilte Zufallsvariable)
Ist (Xn ) eine Folge von unabhängig identisch verteilten Zufallsvariablen mit EXi :=
µ und var(Xi ) = E(Xi − µ)2 = σ 2 < ∞, so gilt:
Pn
i=1√Xi − nµ
lim P a ≤
≤ b = Φ(b) − Φ(a)
n→∞
nσ
Beweis.Wir beweisen diesen Satz unter der zusätzlichen Voraussetzung, daß E|Xi |3 <
∞ ist (Ljapunows Form des zentralen Grenzverteilungssatzes) und folgen der von
LeCam in [5] vorgestellten Beweisidee. Sei ϕ eine 3-fach stetig differenzierbare, beschränkte Funktion auf R, deren Ableitungen 1-ter, 2-ter und 3-ter Ordnung ebenfalls
beschränkt sind. Sei weiters ohne Einschränkung der Allgemeinheit angenommen,
daß EXi = 0, σ 2 = 1, und seien Y1 , Y2 , . . . unabhängige, nach N (0, 1) identisch verteilte Zufallsvariable. Dann gilt:
Eϕ(X1 + · · · + Xn ) − Eϕ(Y1 + · · · + Yn )
= E ϕ(X1 + · · · + Xn ) − ϕ(X1 + · · · + Xn−1 + Yn )
+ ϕ(X1 + · · · + Xn−1 + Yn ) − ϕ(X1 + · · · + Xn−2 + Yn−1 + Yn )
+ ϕ(X1 + · · · + Xn−2 + Yn−1 + Yn ) − · · ·
− ϕ(X1 + Y2 · · · + Yn ) + ϕ(X1 + Y2 · · · + Yn ) − ϕ(Y1 + · · · + Yn ))
n
X
Eϕ(X1 + · · · + Xk−1 + Yk+1 + · · · + Yn + Xk )
=
k=1
− Eϕ(X1 + · · · + Xk−1 + Yk+1 + · · · + Yn + Yk )
Sei ϑk := X1 + · · · + Xk−1 + Yk+1 + · · · + Yn , dann gilt:
· · · + Xn
Y1 + · · · + Yn Eϕ X1 + √
√
− Eϕ
n
n
n
X
ϑk + Yk + Xk
Eϕ ϑk √
√
− Eϕ
≤
n
n
k=1
Da ϕ 3-fach differenzierbar ist, gilt:
ϕ(x + y) = ϕ(x) + yϕ′ (x) +
y3
y 2 ′′
ϕ (x) + ϕ′′′ (ỹ) mit ỹ ∈ [x, x + y]
2
6
8.3. DER ZENTRALE GRENZVERTEILUNGSSATZ
123
Wendet man dies auf ϕ(ϑk + Xk ) bzw. auf ϕ(ϑk + Yk ) an, und berücksichtigt man
ferner, daß Xk und ϑk bzw. Yk und ϑk voneinander unabhängig sind, so erhält man:
Eϕ(ϑk + Xk ) = Eϕ(ϑk ) + EXk Eϕ′ (ϑk ) +
= Eϕ(ϑk ) +
EXk3 ′′′
EXk2 ′′
Eϕ (ϑk ) +
Eϕ (ϑ̃k )
2
6
Eϕ′′ (ϑk ) EXk3 ′′′
+
Eϕ (ϑ̃k )
2
6
Einen analogen Ausdruck erhält man für Eϕ(ϑk + Yk ). Daraus ergibt sich dann:
· · · + Xn
Y1 + · · · + Yn Eϕ X1 + √
√
− Eϕ
n
n
!
!
n
˜
X
ϑ̃k E|Xk |3 + E|Yk |3 ′′′ ϑ̃k
′′′
√
√ +ϕ
≤
E ϕ
n
n 6n3/2
k=1
≤
nC
C̃
3
3
E|X
|
+
E|Y
|
≤√ ,
1
1
n
n3/2
wobei C, C̃, geeignete Konstante sind.
Kann man diese Aussage auch für Sprungfunktionen Ψx (y) = 1(−∞,x] (y) beweisen,
so ist der Beweis fertig, denn es gilt:
X1 + · · · + Xn
X1 + · · · + Xn
√
√
EΨx
≤x
=P
n
n
und
Y1 + · · · + Yn
Y1 + · · · + Yn
√
√
≤ x = Φ(x)
=P
n
n
√
(da (Y1 + · · · + Yn )/ n nach N (0, 1) verteilt ist).
Sei also ǫ > 0 und definiere:

1
für y ≤ x



 h
i

4 4
für x ≤ y ≤ x + ǫ
1 − y−x
Ψx,ǫ (y) :=
ǫ




 0
sonst
EΨx
dann ist Ψx,ǫ 3-fach differenzierbar und beschränkt, und alle 3 Ableitungen sind
beschränkt. Außerdem gilt:
Ψx−ǫ ≤ Ψx−ǫ,ǫ ≤ Ψx ≤ Ψx,ǫ ≤ Ψx+ǫ
Daraus folgt:
Φ(x + ǫ) = EΨx+ǫ
Y1 + · · · + Yn
√
n
124
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Y1 + · · · + Yn
√
≥ EΨx,ǫ
n
Y1 + · · · + Yn
√
= Φ(x)
≥ EΨx
n
Y1 + · · · + Yn
√
≥ EΨx−ǫ,ǫ
= Φ(x − ǫ)
n
und
P
X1 + · · · + Xn
√
≤x+ǫ
n
X1 + · · · + Xn
X1 + · · · + Xn
√
√
≥ EΨx,ǫ
≤x
≥P
n
n
X1 + · · · + Xn
X1 + · · · + Xn
√
√
≥ EΨx−ǫ,ǫ
≤x−ǫ
≥P
n
n
Das impliziert aber:
X1 + · · · + Xn
X1 + · · · + Xn
√
√
≤ x ≤ lim sup EΨx,ǫ
lim sup P
n
n
Y1 + · · · + Yn
√
= lim sup EΨx,ǫ
≤ Φ(x + ǫ)
n
und
lim inf P
X1 + · · · + Xn
√
≤x
n
≥ lim inf EΨx−ǫ,ǫ
Y1 + · · · + Yn
√
n
≥ Φ(x − ǫ)
Somit erhält man letztlich ∀ǫ > 0:
X1 + · · · + Xn
√
≤x
Φ(x − ǫ) ≤ lim inf P
n
X1 + · · · + Xn
√
≤ lim sup P
≤ x ≤ Φ(x + ǫ)
n
und es gilt daher:
X1 + · · · + Xn
√
≤ x = Φ(x).
lim P
n
n
Falls der zentrale Grenzwertsatz Gültigkeit besitzt, liefert er im allgemeinen wesentlich bessere Abschätzungen, als die Tschebyscheffsche Ungleichung.
Beispiel 8.2 Wir kehren zurück zu Beispiel 6.2 aus Kapitel 6. In diesem Beispiel
sollte der Wähleranteil einer Partei mit einer Wahrscheinlichkeit von 0.99 auf ǫ =
±0.01 genau vorhergesagt werden. Mit Hilfe der Tschebyscheffschen Ungleichung
8.3. DER ZENTRALE GRENZVERTEILUNGSSATZ
125
konnten wir zeigen, daß dafür ein Stichprobenumfang von n ≈ 250000 ausreicht.
√ √
Unter Verwendung des Zentralen Grenzwertsatzes bekommt man mit ǫ̃ := ǫ n/ pq:
#
" n
#
" n
1 X
X X − np ǫ√n
i
P Xi − p ≤ ǫ = P ≤ √
√
n
npq pq
i=1
i=1
≈ Φ(ǫ̃) − Φ(−ǫ̃) = 2Φ(ǫ̃) − 1 ≥ 0.99
n=
pq
ǫ2
√
ǫ n
√
pq
= Φ−1 (0.995) ⇒
4
2
Φ−1 (0.995) ≥ 104 · 2.57582 ≈ 16587
Φ(ǫ̃) = 0.995 ⇒
Man benötigt also nur knapp 7% des ursprünglichen Stichprobenumfangs.
Zum Abschluß sei noch darauf hingewiesen, daß der Zentrale Grenzwertsatz unter
gewissen Voraussetzungen auch bei nicht identisch verteilten Zufallsvariablen gültig
ist, und daß auch die Unabhängigkeitsannahme gemildert und durch bestimmte Formen von Abhängigkeiten zwischen den Zufallsvariablen ersetzt werden kann. Über
diese Verallgemeinerungen existiert eine umfangreiche Literatur.
126
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Literaturverzeichnis
[1] Feller, W. (1966). An Introduction to Probability Theory and Its Applications.
Wiley, New York.
[2] Fisz, M. (1989). Wahrscheinlichkeitsrechnung und mathematische Statistik.
VEB Deutscher Verlag d. Wissenschaften, Berlin.
[3] Fouché, H. (1956). Gaines Cryptoanalysis. Dover, New York.
[4] Gnedenko, B. (1976). The Theory of Probability. MIR-Publishers, Moskau.
[5] LeCam, L. (1986). The Central Limit Theorem around 1935. Statistical Science,
1986, Vol. 1, No. 1, pp 78–96 (article).
[6] Mosteller, F. (1965). Challenging Problems in Probability. Dover, New York.
[7] Renyi, A. (1969). Briefe über Wahrscheinlichkeit. Akadémiai Kiadó, Budapest.
[8] Renyi, A. (1970). Probability Theory. Akadémiai Kiadó, Budapest.
[9] Rosanow, J. (1975). Stochastische Prozesse. Akademie, Berlin.
[10] Storm, R. (1979). Wahrscheinlichkeitsrechnung, Mathematische Statistik, Statistische Qualitätskontrolle. VEB Fachbuchverlag, Leipzig.
[11] Székely G. (1986). Paradoxes in Probability Theory and Mathematical Statistics.
Akadémiai Kiadó, Budapest.
[12] Weaver, W. (1963). Lady Luck – The Theory of Probability. Dover, New York.
127