Statistik

Werbung
Statistik
Doz. Dr. Norbert Kusolitsch
Institut für Statistik und Wahrscheinlichkeitstheorie
Abt: Wahrscheinlichkeitstheorie und Theorie stochastischer Prozesse1
25. Oktober 2013
1
c Alle Rechte, auch die der Übersetzung, des auszugsweisen Nachdrucks und der foto
mechanischen Wiedergabe vorbehalten.
2
Inhaltsverzeichnis
1 Einführung – grundlegende Begriffe
5
2 Die bedingte Wahrscheinlichkeit
21
3 Zufallsvariable und Verteilungsfunktionen
3.1 Eindimensionale Verteilungsfunktionen . . .
3.2 Mehrdimensionale Zufallsvariable . . . . . .
3.3 Transformation von Zufallsvariablen . . . .
3.4 Die Faltung . . . . . . . . . . . . . . . . . .
.
.
.
.
29
29
38
53
56
.
.
.
.
61
61
65
70
78
.
.
.
.
.
.
.
.
4 Erwartungswert und andere Lageparameter
4.1 Erwartungswert einer diskreten Zufallsvariablen
4.2 Allgemeine Definition des Erwartungswertes . .
4.3 Weitere Eigenschaften des Erwartungswertes .
4.4 Andere Lageparameter . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Streuungsparameter
83
6 Das schwache Gesetz der großen Zahlen
91
7 Das
7.1
7.2
7.3
7.4
starke Gesetz der großen Zahlen
Die Lemmata von Borel-Cantelli . .
Fast sichere Konvergenz . . . . . . .
Andere Konvergenzarten . . . . . . .
Der Satz von Glivenko-Cantelli . . .
8 Der
8.1
8.2
8.3
zentrale Grenzverteilungssatz
115
Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . 115
Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Der zentrale Grenzverteilungssatz . . . . . . . . . . . . . . . . . . . . 122
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
. 99
. 106
. 110
. 111
4
INHALTSVERZEICHNIS
Kapitel 1
Einführung – grundlegende
Begriffe
Anstatt philosophische Betrachtungen über die Begriffe Wahrscheinlichkeit und Zufall anzustellen, wollen wir zunächst einige Beispiele anführen, bei denen statistische
Fragestellungen auftreten.
1. Volkszählungen: Bereits in der Bibel werden Volkszählungen erwähnt; sie
dienten der Steuereintreibung und Aushebung von Heeren.Volkszählungen werden heutzutage alle 10 Jahre durchgeführt.
2. Stichprobenerhebungen: (Mikrozensus) zur Analyse des Konsumverhaltens; weiters werden Stichprobenerhebungen bei der Erstellung von Wahlprognosen verwendet.
3. Schätzung des Gesamtbestandes einer Population: etwa eine vom Aussterben bedrohte Tierart. Da genaue Zählungen unmöglich sind, muß auf statistische Schätzverfahren zurückgegriffen werden.
4. statistische Untersuchung über Wirkungen und Nebenwirkungen
von Medikamenten: 1953 wurde der Polio–Impfstoff an 5 Mio. Testpersonen
erprobt. Es handelte sich um einen doppelten Blindversuch, d.h. um subjektive Verfälschungen auszuschalten, wußten weder Arzt noch Patient, ob das
Medikament oder eine wirkungslose Substanz verabreicht wurde.
5. telegraphische Datenübermittlung: Das Telegraphenalphabet besteht aus
den Zeichen ., –, “kurzer Zwischenraum”, “langer Zwischenraum”. Jeder Buchstabe muß durch eine Zeichenfolge codiert werden. Damit die verschlüsselten
Nachrichten möglichst kurz werden, müssen häufige Buchstaben mit kurzen
Zeichenfolgen, seltene mit langen Folgen verschlüsselt werden. Die Erstellung
optimaler Codes ist ein statistisches Problem. Der optimale Code hängt im
wesentlichen von den Buchstabenhäufigkeiten ab.
5
6
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
6. Suchprobleme: Um Kosten zu sparen wurde während des II. Weltkrieges der
Wassermann-Test zur Erkennung von Syphilis-Erkrankungen nicht auf einzelne Personen, sondern auf ganze Personengruppen angewendet, indem man die
Blutproben aller Personen einer Gruppe zusammenmischte. War der Test negativ, so waren alle Personen dieser Gruppe gesund, und eine Untersuchung der
einzelnen Personen erübrigte sich. Natürlich hängt die optimale Gruppengröße
bei dieser Vorgangsweise eng mit der Häufigkeit der Erkrankung zusammen.
7. Spiel: 2 Spieler A und B nehmen jeder 1 oder 2 Kugeln; bei gerader Anzahl
gewinnt A – sonst B. Ist das Spiel fair?
8. Black Jack – Roulette: Gücksspiele bilden den historischen Ausgangspunkt
von wahrscheinlichkeitstheoretischen Überlegungen.
Grundlegende Begriffe:
Wir betrachten folgende 3 Versuche:
Beispiel 1.1 Werfen einer Münze
Beispiel 1.2 Würfeln
Beispiel 1.3 Roulette
Allen 3 Versuchen ist gemeinsam, daß sie auf eine genaue Anzahl von möglichen – einander ausschließenden – Versuchsausgängen ausgehen können. Diese Ausgänge sind
zufällig, d.h. es kann nicht vorhergesagt werden, welcher Ausgang tatsächlich eintritt.
Für die Beschreibung eines Versuchs ist zunächst die Menge der möglichen Versuchsausgänge von Bedeutung– auch Raum der möglichen Versuchsausgänge genannt,
und im folgenden meist mit Ω bezeichnet. Die einzelnen Ausgänge werden oft auch
Elementarereignisse genannt (z.B.: Elementarereignisse beim Würfeln: 1, 2, 3, 4, 5, 6).
Weiters muß der im Versuch wirkende “Zufallsmechanismus” beschrieben werden. In
den obigen drei Beispielen erscheint es sinnvoll, jedes Elementarereignis als “gleichwahrscheinlich” anzugeben, also :
in Beispiel 1.1: P (“A”) = P (“K”) = 21
(“A” . . . Adler wird geworfen; “K” . . . Kopf wird geworfen)
in Beispiel 1.2: P (“i”) =
1
6
in Beispiel 1.3: P (“i”) =
1
37
(i = 1, . . . , 6)
(i = 0, . . . , 36)
Aber bereits bei folgendem Versuch sind nicht alle Ausgänge gleichwahrscheinlich:
7
Beispiel 1.4 Man werfe 2 Würfel; Gesucht ist die Summe der Augenzahlen.
Ω = {2, 3 . . . , 12}
P (“2”) =
1
36
aber: P (“3”) =
2
1
=
36
18
Nicht nur den Elementarereignissen wird durch einen Zufallsmechanismus eine Wahrscheinlichkeit zugeordnet: Betrachten wir etwa Beispiel 1.2. – Klarerweise wird man
dort dem Ereignis “eine gerade Augenzahl wird geworfen” die Wahrscheinlichkeit 21
zuordnen, dem Ereignis “Augenzahl größer als 4” die Wahrscheinlichkeit 13 .
Wir wollen im folgenden stets Ereignisse durch Teilmengen A(⊆ Ω) des Raums
der möglichen Versuchsausgänge charakterisieren. Dabei bedeutet A das Ereignis:
“ein Ausgang ω ∈ A ist eingetreten.” Dieser Zugang erlaubt, verschiedene Operationen für Ereignisse durch mengentheoretische Operationen zu definieren – so
bedeutet etwa:
A∪B
A∩B
A\B
A △ B = (A \ B) ∪ (B \ A)
A⊆B
“ein Ausgang aus A oder ein
Ausgang aus B tritt ein”
“ein Ausgang ω tritt ein, der
sowohl in A als auch in B liegt”
“der Ausgang liegt in A, aber nicht in B”
“der Ausgang liegt nur in A
oder nur in B”
“ist ω ∈ A eingetreten,
dann ist auch B eingetreten”
– man kann auch sagen:
“A hat B zur Folge.”
Ist A ⊂ Ω, so nennt man Ac = Ω \ A das zu A komplementäre Ereignis.
In den vorhin betrachteten Versuchen ist es sinnvoll, durch Angabe der Wahrscheinlichkeiten der Elementarereignisse die Wahrscheinlichkeiten sämtlicher Ereignisse A ⊆ Ω zu definieren – und zwar durch:
X
P (A) :=
P (ω)
ω∈A
etwa in Beispiel 1.2:
P (“gerade Augenzahl”) = P (“2”) + P (“4”) + P (“6”).
Mit dieser Festlegung haben die Wahrscheinlichkeiten aller Ereignisse A folgende
Eigenschaften:
0 ≤ P (A)
A ⊆ B ⇒ P (A) ≤ P (B)
A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
8
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Man denkt sich die Wahrscheinlichkeiten als idealisierte relative Häufigkeiten
der einzelnen Ausgänge – man nimmt also z.B. an, daß in einer langen Folge von
Würfen mit einem Würfel ungefähr 1/6 aller Ausgänge die Augenzahl “3” hat. Da
sich die relativen Häufigkeiten aller möglichen Ausgänge zu 1 summieren, werden
wir stets P (Ω) = 1 setzen. Im allgemeinen genügt es nicht, die Wahrscheinlichkeit
der Elementarereignisse alleine anzugeben. Betrachten wir etwa folgende Situation:
Beispiel 1.5 Ein Kreisel mit Umfang 1 rotiere um seinen Mittelpunkt. Auf dem
Kreisel sei eine Markierung angebracht, und außerhalb des Kreisels befinde sich eine
Skala (siehe Abb. 1.1).
Man wird natürlich annehmen, daß gilt:
1.0
0.1
0.9 ✬✩
b
★✥
✛✘
✗✔
✓✏
✎☞
❡
❥
❣
✍✌
✒✑
✖✕
✚✙
✧✦
✫✪
a
0.5
Abbildung 1.1: rotierender Kreisel
P (“Markierung zwischen i/N und (i + 1)/N ”) = 1/N
i = 0, . . . , N − 1.
Daraus ersieht man :
N −→ ∞ ⇒ P (ω) = 0
∀ω ∈ [0, 1].
Aber trotzdem ist es sinnvoll, die Wahrscheinlichkeit etwa des Ereignisses “die Markierung zeigt auf einen Punkt zwischen a und b” durch:
P ([a, b]) = b − a
anzugeben 1 . Aber auch in diesem Fall gilt für die Wahrscheinlichkeiten von Ereignissen:
1. 0 ≤ P (A) ≤ 1
2. A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
3. A ⊂ B ⇒ P (A) ≤ P (B)
1
Man beachte: Der Ausdruck
P
ω∈[a,b]
Terme nicht aufsummiert werden kann.
P (ω) = 0 ergibt keinen Sinn, da über überabzählbar viele
9
Statt Eigenschaft 2 wird meist eine etwas strengere Anforderung gestellt.
Dazu ein Beispiel:
Beispiel 1.6 Man werfe eine Münze, bis erstmals ein “Adler” geworfen wird.
Ω=N
P (i) =
1
2i
U = “erster Adler erscheint bei ungerader Wurfzahl”
P (U ) =
∞
X
i=1
P (2i − 1) =
∞
X
i=1
1
22i−1
=
1 1
1
2
+ +
+ ··· =
2 8 32
3
Hier wird statt 2 die folgende Eigenschaft verwendet.
2’. (σ-Additivität)
[
X
(An ) Ereignisse: Ai ∩ Aj = ∅ ∀i 6= j ⇒ P ( An ) =
P (An )
N
N
Definition 1.1 Im folgenden wollen wir unter einer Wahrscheinlichkeitsverteilung
stets eine Funktion auf einem “gewissen System” von Ereignissen verstehen, welche
den Bedingungen 1 und 2’ genügt. Diese beiden Bedingungen werden Kolmogoroffsches Axiomensystem genannt.
In Beispiel 1.5 haben wir sehr leicht für bestimmte “einfache” Ereignisse – nämlich
für die Intervalle [a, b] – die Wahrscheinlichkeiten angeben können. Es erhebt sich nun
die Frage, ob aus der Kenntnis dieser Wahrscheinlichkeiten die Wahrscheinlichkeiten
anderer Ereignisse – zumindest theoretisch – bestimmt werden können. So kann
etwa aus P ([a, b]) = b − a und der Monotonie der Wahrscheinlichkeit auf P (ω) =
0 ∀ω ∈ [0, 1) geschlossen werden. Umgekehrt kann man mit Hilfe der Kenntnis von
P (ω) ∀ω ∈ [0, 1) P ([a, b]) nicht bestimmen.
Im allgemeinen kann auch aus der Wahrscheinlichkeit P ([a, b]) nicht für jede
Teilmenge A von [0, 1] eine Wahrscheinlichkeit berechnet werden, ja man kann sogar
zeigen, daß es auf P([0, 1]) 2 keine Wahrscheinlichkeit geben kann, die die Bedingung P ([a, b]) = b − a erfüllt. Man muß deshalb auf ein spezielles Mengensystem
einschränken. Hat jedoch das System T der “einfachen” Ereignisse die Eigenschaft,
daß mit je 2 Mengen A, B aus diesem System auch deren Durchschnitt im System
liegt, und daß aus
A ⊆ B und A, B ∈ T
folgt:
∃C1 . . . Cn ∈ T : B \ A =
2
n
[
Ci
i=1
P([0, 1]) ist die Potenzmenge von [0, 1]
10
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
(Ein derartiges System ist z.B. das System der halboffenen Intervalle. Falls a ≤ c <
d ≤ b, so gilt [a, b] \ [c, d) = [a, c) ∪ [d, b).), dann sind durch die Wahrscheinlichkeiten
dieser “einfachen” Mengen auch die Wahrscheinlichkeiten aller Teilmengen eines
Systems S festgelegt, das mit T folgendermaßen zusammenhängt: S ist das kleinste
Mengensystem, das T enthält und für das gilt:
A ∈ S ⇒ Ac ∈ S
An ∈ S ∀n ⇒
[
N
An ∈ S,
\
N
An ∈ S
(Da P (Ω) = 1 stets festgelegt ist, kann auch Ω ∈ T ⊆ S angenommen werden.)
Ein derartiges System S heißt σ-Algebra oder Ereignisfeld.
Wir definieren nun:
Definition 1.2 Unter einem Wahrscheinlichkeitsraum versteht man ein Tripel
(Ω, S, P ), wobei Ω der Raum der möglichen Versuchsausgänge, S eine σ-Algebra
auf Ω und P eine Wahrscheinlichkeit auf S ist.
Wir wollen uns jedoch mit der Problematik der geeigneten σ-Algebra nicht weiter
befassen, sondern im folgenden stets annehmen, daß wir bei höchstens abzählbar
vielen Versuchsausgängen die Wahrscheinlichkeitsverteilung durch die Wahrscheinlichkeiten der Elementarereignisse festlegen können (S stimmt in diesem Fall mit
P(Ω) überein), und daß dann, wenn als Ausgänge alle Elemente eines Intervalls der
Zahlengerade in Betracht kommen (etwa bei einer Messung), die Wahrscheinlichkeitsverteilung durch die Angabe der Wahrscheinlichkeiten der Intervalle [a, b] :=
“der Ausgang liegt zwischen a und b” festgelegt wird.(S ist in diesem Fall ein von
P(Ω) verschiedenes System – das System der Borelmengen, das jedoch alle Mengen
enthält, die von praktischer Bedeutung sind.)
Bevor wir auf die grundlegenden Eigenschaften der Wahrscheinlichkeiten eingehen, noch ein paar Bemerkungen über den Zusammenhang von Modell und Wirklichkeit: Ein und dasselbe Modell kann viele verschiedene Versuche beschreiben:
Beispiel 1.7 Sei Ω = {1, 2, 3, 4, 5, 6}, S = P(Ω), P (i) =
Zu (Ω, S, P ) passen folgende Versuche:
1
6
1. Würfeln
2. Eine Urne enthält 6 Lose mit den Nummern 1–6. Ein Los wird gezogen.
3. Eine Urne hat 3 Lose. Die 3 Lose werden ohne Zurücklegen gezogen. Die möglichen Ausgänge werden durchnumeriert:
“1” = (1, 2, 3)
11
“2” = (1, 3, 2)
“3” = (2, 1, 3)
“4” = (2, 3, 1)
“5” = (3, 1, 2)
“6” = (3, 2, 1)
Umgekehrt kann ein Versuch durch mehrere Modelle adäquat beschrieben werden.
Beispiel 1.8 Man werfe eine Münze 2-mal. Gefragt ist die Anzahl der “Köpfe” bei
den beiden Würfen.
2 verschiedene Modelle:
1.
Ω = {0, 1, 2}
2.
Ω = {(K, K), (K, A), (A, K), (A, A)}
S = P(Ω)
“0” = {(A, A)}
P (0) = P (2) =
1
4
P (1) =
P ((x, y)) =
“1” = {(K, A), (A, K)}
1
2
1
4
“2” = {(K, K)}
Beispiel 1.9 Man würfle bis zur ersten Sechs. Gefragt ist die Anzahl der Würfe.
2 verschiedene Modelle:
1.
Ω = N S = P(Ω) P (n) = 5n−1 /6n
2.
Ω = {(x1 , . . . , xn ) : x1 = . . . = xn−1 = 0, xn = 1}
P ((x1 , . . . , xn )) =
5n−1
6n
Welches Modell verwendet wird, hängt von den näheren Umständen, persönlichen
Vorlieben und ähnlichem ab; für die Mathematik ist es bedeutungslos.
Als nächstes wollen wir einige grundlegende Eigenschaften von Wahrscheinlichkeitsverteilungen zusammenstellen.
Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum (Ω eine beliebige Menge), S eine σAlgebra und P eine Wahrscheinlichkeitsverteilung auf S.
Satz 1.1 Bezeichnet man das unmögliche Ereignis mit ∅ , so gilt
P (∅) = 0.
Beweis.
2′ ⇒ P (∅) = P (∅ ∪ ∅ ∪ . . .) =
X
N
P (∅) ≤ 1 ⇒ P (∅) = 0
12
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Satz 1.2
Ai ∩ Aj = ∅ ∀i 6= j 1 ≤ i, j ≤ n ⇒ P (
n
[
Ai ) =
n
X
P (Ai )
i=1
i=1
Beweis. Sei An+1 := An+2 := · · · = ∅ ⇒
P(
n
[
i=1
[
X
Ai ) = P ( Ai ) =
P (Ai )
N
n
X
=
i=1
N
P (Ai ) + 0 + 0 + · · · =
n
X
P (Ai )
i=1
Satz 1.3
A ⊆ B ⇒ P (B \ A) = P (B) − P (A),
P (B) ≥ P (A)
Beweis.
B = A ∪ (B \ A) ⇒ P (B) = P (A) + P (B \ A) ⇒ P (B) ≥ P (A)
Satz 1.4
P (Ac ) = 1 − P (A)
Beweis. Der Beweis folgt aus Satz 1.3 mit B = Ω.
Satz 1.5
P(
n
[
i=1
Ai ) ≤
n
X
P (Ai )
i=1
∀n ∈ N
Beweis.
Bi := Ai \
i−1
[
Aj
j=1
Somit
P(
n
[
i=1
Ai ) = P (
n
[
i=1

∀i = 1, . . . , n
 Bi ⊆ Ai
⇒
B ∩ Bj = ∅
∀i =
6 j
Sn
 Sin
A
=
B
i=1 i
i=1 i
Bi ) =
n
X
i=1
P (Bi ) ≤
n
X
i=1
P (Ai )
13
Beispiel 1.10 Man würfle 5-mal. Gesucht ist die Wahrscheinlichkeitsverteilung der
größten gewürfelten Augenzahl unter den 5 Würfen.
Ω = {(x1 , . . . , x5 ); xi ∈ {1, . . . , 6}}, S = P(Ω), P ((x1 , . . . , x5 )) =
1
65
Ai := {(x1 , . . . , x5 ); xj ≤ i, ∃j : xj = i} . . . “größte Augenzahl = i”
Bi := {(x1 , . . . , x5 ); xj ≤ i ∀j} . . . “größte Augenzahl ≤ i”
A1 = B1 ⊆ B2 ⊆ . . . ⊆ B6 = Ω
5
1
P (B1 ) =
6
5
2
P (B2 ) =
6
..
.
5
i
P (Bi ) =
6
P (A1 ) = P (B1 ) =
1
65
P (A2 ) = P (B2 ) − P (B1 ) =
25 − 1
65
..
.
P (Ai ) = P (Bi ) − P (Bi−1 ) =
i5 − (i − 1)5
65
Den obigen Versuch könnte man daher auch durch folgendes Modell beschreiben:
Ω′ = {1, . . . , 6}
S = P(Ω′ )
i5 − (i − 1)5
P (“i”) =
65
Definition 1.3 Sei Ω eine endliche Menge (Ω = {ω1 , . . . , ωn }, S = P(Ω)). Wenn
P (ωi ) = const =
1
n
∀i = 1, . . . , n,
dann nennt man P eine diskrete Gleichverteilung auf Ω.
14
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Satz 1.6 (klassische Wahrscheinlichkeitsdefinition nach Laplace)
Ist (Ω, S, P ) ein diskreter Wahrscheinlichkeitsraum mit Gleichverteilung, so gilt:
∀A ⊆ Ω :
P (A) =
X 1
|A|
|A|
=
=
n
n
|Ω|
ω∈A
Wenn A ∩ B = ∅, dann wissen wir:
P (A ∪ B) = P (A) + P (B).
Wir wollen nun P (A ∪ B) für den Fall A ∩ B 6= ∅ bestimmen.
Satz 1.7 (Additionstheorem)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis.
A ∪ B = (A ∩ B) ∪ (B \ A) ∪ (A \ B)
= (A ∩ B) ∪ (B \ (A ∩ B)) ∪ (A \ (A ∩ B)) ⇒
P (A ∪ B) = P (A ∩ B) + P (B) − P (A ∩ B) + P (A) − P (A ∩ B) ⇒
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beispiel 1.11 (Montmortsches Problem)
Ein Wählerverzeichnis enthalte n Wahlberechtigte; jeder Wähler hat eine Nummer
im Wählerverzeichnis und bekommt eine fortlaufende Nummer bei der Wahl. Ai
bezeichne das Ereignis, daß der Wähler i im Wählerverzeichnis als i-ter Wähler
zur Wahl kommt und daher die fortlaufende Nummer i erhält. Man bestimme die
Wahrscheinlichkeit P (Ai ) von Ai .
Ω = {(x1 , . . . , xn ); xi ∈ {1, . . . , n}; xi 6= xj ∀i 6= j}
= {Menge der Permutationen} ⇒ |Ω| = n!
P (x1 , . . . , xn ) =
1
n!
Ai = {(x1 , . . . , xi−1 , i, xi+1 , . . . , xn );
xj ∈ {1, . . . , n}; xj 6= xk ∀j 6= k; xj 6= i ∀j 6= i}
⇒ P (Ai ) =
1
n
|Ai | = (n − 1)!
Als nächstes wollen wir die Wahrscheinlichkeit P (Ai ∪ Aj ) berechnen.
P (Ai ∩ Aj ) =
(n − 2)!
1
=
⇒
n!
n(n − 1)
P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ) =
1
2
−
n n(n − 1)
15
Bevor wir uns mit der Frage beschäftigen, mit welcher Wahrscheinlichkeit bei mindestens einem Wähler die fortlaufende Nummer mit der Nummer im Wählerverzeichnis
übereinstimmt, wollen wir kurz die wichtigsten Eigenschaften der Binomialkoeffizienten wiederholen und das Additionstheorem verallgemeinern.
Sei Ckn die Anzahl der Möglichkeiten, aus n Elementen k Elemente auszuwählen.
Klarerweise gilt:
Def.: C00 := 1
C01 = C11 = 1
Man kann Ckn leicht rekursiv berechnen. Angenommen Ckn ist bekannt, sei ohne
Einschränkung der Allgemeinheit M = {1, . . . , n + 1}. Man kann eine Teilmenge
mit k Elementen auswählen, indem man n + 1 auswählt und k − 1 Elemente aus
{1, . . . , n} hinzugibt, oder indem man k Elemente aus {1, . . . , n} wählt und n + 1
nicht nimmt. Daraus folgt
n
Ckn+1 = Ckn + Ck−1
Damit erhält man folgendes Rekursionsschema, das als Pascalsches Dreieck bekannt
ist.
1
C00
11
/\
121
C01 C11
1331
/\/\
14641
C02 C12 C22
1 5 10 10 5 1 / \ / \ / \
Ein zweiter Weg, der zur obigen Rekursionsformel führt, ist folgender:
Sei Kkn der Koeffizient von ak bn−k in der Binomialentwicklung von (a + b)n – also:
(a + b)n =
n
X
Kkn ak bn−k
k=0
es gilt:
(a + b)n+1 = (a + b)n (a + b)
!
n
X
n k n−k
(a + b)
Kk a b
=
k=0
=
n
X
Kkn ak+1 bn−k +
=
=
k=1
n+1
X
k=0
Kkn ak bn+1−k
k=0
k=0
n
X
n
X
n
n
+ Kk ak bn+1−k + Knn an+1 + K0n bn+1
Kk−1
Kkn+1 ak bn+1−k
16
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
n+1
wegen K0n = K0n+1 = Knn = Kn+1
= 1 ∀n ∈ N ⇒
n
Kkn+1 = Kkn + Kk−1
Die Kkn heißen Binomialkoeffizienten.
Wegen K01 = C01 = 1 und K11 = C11 = 1 muß allgemein gelten:
Kkn = Ckn
Die explizite Gestalt von Ckn : Man betrachte die Permutationen von {1, . . . , n}; die
Anzahl der Permutationen ist n!
Sei {x1 , . . . , xn } eine Permutation, setze xi := 0, wenn xi ∈ {1, . . . , k}. Dadurch
erhält man ein n-Tupel (y1 , . . . , yn ) yi1 = · · · = yik = 0, yj ∈ {k + 1, . . . , n} wenn
j 6∈ {i1 , . . . , ik }. Zu jedem derartigen n-Tupel gehören genau k! Permutationen, aus
denen (y1 , . . . , yn ) gebildet werden kann. Somit gibt es n!/k! Tupel (y1 , . . . , yn ) obiger
Gestalt.
Setzt man yj = 1 wenn yj 6= 0, so erhält man ein n-Tupel (z1 , . . . , zn ) mit zi ∈ {0, 1}.
Klarerweise gehören zu jedem n-Tupel (z1 , . . . , zn ) (n − k)! Tupel (y1 , . . . , yn ), aus
denen (z1 , . . . , zn ) gebildet werden kann
n
n!
=
⇒ Anzahl der Tupel (z1 , . . . , zn ) =
k!(n − k)!
k
Interpretiert man zi = 1 in dem Sinn, daß ein Element i ∈ {1, . . . , n} für eine
Teilmenge ausgewählt wird, so entspricht jeder Teilmenge von {1, . . . , n} genau ein
n-Tupel (z1 , . . . , zn ) mit zi ∈ {0, 1}.
⇒ | (z1 , . . . , zn ); zi ∈ {0, 1}; ∃zi1 = · · · = zik = 1; zj = 0 sonst | = Ckn
⇒ Ckn = nk
Tatsächlich läßt sich leicht nachrechnen:
n+1
n
n
=
+
k
k
k−1
Seien nun 3 Mengen A, B, C gegeben. Dann gilt
P (A ∪ B ∪ C)
= P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C)
− P (B ∩ C) + P (A ∩ B ∩ C)
(der Beweis bleibt dem Leser überlassen)
17
Satz 1.8 (Allgemeines Additionstheorem)
Gegeben seien die Ereignisse
A1 , . . . , An , dann gilt:
P(
n
[
Ai ) =
i=1
n
X
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=1 1≤i1 <i2 <···<ik ≤n
Beweis.Durch vollständige Induktion: für n = 2 bereits bewiesen.
Angenommen das Theorem sei für n richtig, dann betrachten wir n + 1:
n+1
[
P(
Ai ) = P (
n
[
i=1
i=1
= P (An+1 ) +
+
Ai ) + P (An+1 ) − P (
i=1
n
X
X
k=1 1≤i1 <i2 <···<ik ≤n
n
X
X
= P (An+1 ) +
+
k=1 1≤i1 <i2 <···<ik ≤n
X
= P (An+1 ) +
+
Ci
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
(−1)k+2 P (Ai1 ∩ · · · ∩ Aik ∩ An+1 )
k=1 1≤i1 <i2 <···<ik ≤n
n
X
X
n+1
X
(A ∩ A
))
| i {z n+1}
(−1)k P (Ci1 ∩ · · · ∩ Cik )
k=1 1≤i1 <i2 <···<ik ≤n
n
X
X
n
X
n
[
k=1 1≤i1 <i2 <···<ik ≤n
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
(−1)(k+1)+1 P (Ai1 ∩ · · · ∩ Aik+1 )
k+1=2 1≤i1 <···<ik <ik+1 =n+1
=
n+1
X
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=1 1≤i1 <i2 <···<ik ≤n+1
Satz 1.9 (Ungleichungen von Bonferroni)
Gegeben seien die Ereignisse A1 , . . . , An , dann gilt
2r
X
X
k=1 1≤i1 <···<ik ≤n
k+1
(−1)
P (Ai1 ∩ · · · ∩ Aik ) ≤ P (
n
[
i=1
Ai )
n
r = 1, . . . , ⌊ ⌋
2
und
3
⌊x⌋ = die größte ganze Zahl ≤ x (vgl. die FORTRAN-Funktion INT(x))
3
18
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
P(
n
[
i=1
Ai ) ≤
2r−1
X
X
k=1 1≤i1 <···<ik ≤n
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
n
r = 1, . . . , ⌈ ⌉ 4 .
2
Beweis.Wir zeigen zunächst mit vollständiger Induktion nach n, daß gilt
(−1)h+1
n
X
X
k=h 1≤i1 <···<ik ≤n
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) ≥ 0 ∀h = 1, . . . , n.
Sei n = 1: P (A1 ) ≥ 0
Sei n = 2: Für h = 1 gilt
P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) = P (A1 ∪ A2 ) ≥ 0.
Für h = 2 erhält man
−(−P (A1 ∩ A2 )) ≥ 0.
Sei Bi := Ai ∩ An+1
n+1
X
∀i = 1, . . . , n, dann gilt
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=h 1≤i1 <···<ik ≤n+1
n
X
X
=
k=h 1≤i1 <···<ik ≤n
|
−
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
{z
}
S1
n
X
X
k=h−1 1≤i1 <···<ik ≤n
|
(−1)k+1 P (Bi1 ∩ · · · ∩ Bik ) .
{z
}
S2
Für h = 2r − 1 gilt nach Induktionsvoraussetzung S1 ≥ 0 und S2 ≤ 0. Somit
S1 − S2 ≥ 0.
Für h = 2r gilt dagegen S1 ≤ 0 und S2 ≥ 0. Somit S1 − S2 ≤ 0.
Nun gilt aber
P(
n
[
i=1
Ai ) =
h
X
X
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
k=1 1≤i1 <···<ik ≤n
n
X
X
+
(−1)k+1 P (Ai1 ∩ · · · ∩ Aik ).
k=h+1 1≤i1 <···<ik ≤n
Die zweite Summe auf der rechten Seite der obigen Gleichung ist wegen der zuvor
bewiesenen Ungleichung ≤ 0 für ungerades h und ≥ 0 für gerades h. Daraus folgt
die Aussage des Satzes unmittelbar.
4
⌈x⌉ = min{x ∈ Z : z ≥ x}
19
Beispiel 1.12 (Montmortsches Problem – Fortsetzung)
A := {(x1 , . . . , xn ) : ∃i | xi = i} . . . bei mindestens einem Wähler stimmt die Nummer im Wählerverzeichnis mit der fortlaufenden Nummer überein. Man berechne
P (A).
A=
n
S
i=1
Ai
P (Ai1 ∩ · · · ∩ Aik ) =
(n−k)!
n!
Es gibt nk verschiedene Möglichkeiten, k von insgesamt n Indizes auszuwählen und
damit Durchschnitte zu bilden.
P
1
P (Ai1 ∩ · · · ∩ Aik ) = nk (n−k)!
= k!
⇒
n!
1≤i1 <i2 <···<ik ≤n
P (A) = P (
n
S
i=1
Ai ) =
n
P
n→∞
1
(−1)k+1 k!
−→ 1 −
k=1
1
e
Satz 1.10 (Stetigkeitseigenschaft der Wahrscheinlichkeit)
1. Ist (An ) eine gegen A monoton wachsende (genauer monoton nicht fallende)
Folge (im Zeichen: An ր A), so gilt:
lim P (An ) = P (A)
n→∞
2. Ist (An ) eine gegen A monoton fallende (genauer monoton nicht wachsende)
Folge (im Zeichen: An ց A), so gilt:
lim P (An ) = P (A)
n→∞
Beweis.
A0 := ∅, An ր A ⇒ A =
[
N
An =
[
N
(An \ An−1 )
Die An \ An−1 sind paarweise disjunkt ⇒
X
P (A) =
P (An \ An−1 )
N
= lim
N
N
X
n=1
P (An ) − P (An−1 ) = lim P (AN )
N
An ց A ⇒ Acn ր Ac ⇒ P (Ac ) = lim P (Acn )
n→∞
d.h.:
1 − P (A) = lim(1 − P (An )) ⇒ P (A) = lim P (An ).
20
KAPITEL 1. EINFÜHRUNG – GRUNDLEGENDE BEGRIFFE
Beispiel 1.13 Ein Versuch habe m Ausgänge {ω1 , . . . , ωm } mit Wahrscheinlichkeiten p1 , . . . , pm mit (p1 > p2 ≥ · · · ≥ pm ) p2 > 0. (sei etwa P (0) = P (2) = 1/4 und
P (1) = 1/2)
Ein Spieler setze immer sein gesamtes Kapital auf ω1 . Das Spiel sei zu Ende, wenn
unser Spieler kein Kapital mehr hat.
Gn . . . “Spieler hat n Runden siegreich überstanden”
P (Gn ) = pn1
Vn = Gcn “Spieler verliert spätestens in Runde n”
V . . . “Spieler verliert irgendwann”
S
V = Vn Vn ր V
P (V ) = lim P (Vn ) = lim(1 − pn1 ) = 1 ⇒
Die Hasardstrategie ist sinnlos.
Kapitel 2
Die bedingte Wahrscheinlichkeit
Wir wollen diesen Abschnitt mit einem Beispiel beginnen:
Beispiel 2.1 Bei einer Untersuchung über die Vererblichkeit der Haarfarbe von
Vätern auf Söhne wurden bei 1000 Testpaaren die unten aufgelisteten Ergebnisse
beobachtet.
Tabelle 2.1:
471
151
Vater
dunkelhaarig
148
230
619
381
622
378
1000
blond
Sohn
blond
dunkelhaarig
Σ
Σ
VB . . . Vater ist blond
VD . . . Vater ist dunkelhaarig
SB . . . Sohn ist blond
SD . . . Sohn ist dunkelhaarig
Die relative Häufigkeit von VB und SB ist daher:
hr (VB ) = 0.622
hr (SB ) = 0.619
Wie groß ist die relative Häufigkeit von SB , wenn man weiß, daß VB eingetreten ist
(d.h., daß der Vater blond ist)?
Man betrachtet nun nur Testpaare mit blonden Vätern – das sind insgesamt 622 –
21
22
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
darunter sind 471 mit blonden Söhnen. Bezeichnet man die relative Häufigkeit für
SB unter der Voraussetzung VB mit hr (SB | VB ), so gilt:
hr (SB | VB ) =
471
hr (SB ∩ VB )
=
= 0.757 > hr (SB )
hr (VB )
622
Da die Wahrscheinlichkeit eines Ereignisses als idealisierte relative Häufigkeit interpretiert werden kann, gibt Beispiel 2.1 Anlaß zu folgender Definition:
Definition 2.1 Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum, A und B 2 Ereignisse
und sei P (A) > 0, dann heißt
P (B | A) =
P (A ∩ B)
P (A)
die durch A bedingte Wahrscheinlichkeit von B.
Die Definition stimmt mit unserer Intuition überein. Man sagt:
A begünstigt B, wenn P (B | A) > P (B)
A behindert B, wenn P (B | A) < P (B)
A und B sind unabhängig, wenn P (B | A) = P (B)
Um den Begriff der Unabhängigkeit nicht auf Ereignisse mit positiver Wahrscheinlichkeit einschränken zu müssen, definiert man:
Definition 2.2 Zwei Ereignisse A, B heißen unabhängig, wenn
P (A ∩ B) = P (A)P (B) (im Zeichen A, B ua).
Falls P (A) > 0, so ist dies natürlich äquivalent zu
P (B | A) = P (B).
Aus der obigen Definition ist auch sofort zu ersehen, daß der Begriff der Unabhängigkeit symmetrisch in A und B ist. Deshalb sagt man nicht “B ist von A unabhängig”.
Satz 2.1
A, B unabhängig ⇒ Ac , B;
A, B c ;
Ac , B c sind auch unabhängig.
Beweis.
P (Ac ∩ B) = P (B) − P (A ∩ B)
= P (B) − P (A)P (B) = P (B)(1 − P (A))
= P (Ac )P (B)
Wendet man die obige Folgerung auf B, Ac an, so sieht man, daß auch Ac , B c ua
sind.
23
Beispiel 2.2 Jemand würfelt. Ein zweiter Spieler soll erraten, ob eine gerade oder
ungerade Augenzahl gewürfelt wurde.
G . . . gerade Augenzahl
U . . . ungerade Augenzahl
P (G) = P (U ) =
1
2
Nun wird dem zweiten Spieler vor seinem Rateversuch gesagt, ob die Augenzahl ≤ 3
oder > 3 war.
N = {1, 2, 3}
H = {4, 5, 6}
Man sieht sofort, daß
P (G | N ) =
1
3
P (U | N ) =
2
3
P (G | H) =
2
3
1
P (U | H) = .
3
Der zweite Spieler wird seine Erfolgsquote erhöhen, wenn er auf G tippt, falls H
eingetreten ist, und auf U , falls N eingetreten ist. Nun möge der zweite Spieler
erfahren, ob N ′ , M ′ , H ′ eingetreten ist mit:
N ′ = {1, 2}, M ′ = {3, 4}, H ′ = {5, 6}
Man sieht:
1
= P (G)
2
1
P (U | N ′ ) = P (U | M ′ ) = P (U | H ′ ) = = P (U )
2
P (G | N ′ ) = P (G | M ′ ) = P (G | H ′ ) =
Die Ereignisse sind ua. Der Spieler kann in diesem Fall seine Position nicht verbessern.
Aus der Definition der bedingten Wahrscheinlichkeit folgt unmittelbar:
Satz 2.2 (Multiplikationsregel)
P (A ∩ B) = P (A)P (B | A) = P (B)P (A | B)
(P (A) > 0, P (B) > 0)
Eine 2-malige Anwendung ergibt:
P (A ∩ B ∩ C) = P ((A ∩ B) ∩ C)
= P (A ∩ B)P (C | A ∩ B)
= P (A)P (B | A)P (C | A ∩ B)
Vollständige Induktion führt auf folgenden Satz:
24
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
Satz 2.3 (allgemeine Multiplikationsregel)
n
Y
P (Ai | A1 ∩ · · · ∩ Ai−1 )
P (A1 ∩ · · · ∩ An ) = P (A1 ) ·
i=2
Beispiel 2.3 Man würfle bis zur ersten “6”. Gesucht ist die Wahrscheinlichkeitsverteilung für die dazu notwendige Anzahl von Würfen.
Bi . . . beim i-ten Wurf wird eine “6” geworfen
Ai . . . die erste “6” wird beim i-ten Wurf geworfen
P (B1 ) = P (A1 ) = 61 ,
P (A2 ) = P (B1c ∩ B2 ) = P (B1c )P (B2 | B1c ) = P (B1c )P (B2 ) =
5
62
..
.
c
∩ Bn ) = P (B1c )P (B2c | B1c ) . . .
P (An ) = P (B1c ∩ · · · ∩ Bn−1
n−1
c
c
c
) = 5 6n
)P (Bn | B1c ∩ · · · ∩ Bn−1
| B1c ∩ · · · ∩ Bn−2
. . . P (Bn−1
Man kann die Problemstellung in obigem Beispiel allgemeiner formulieren: Führt
man unabhängige Versuche durch, bei denen jedesmal ein Ereignis A mit einer Wahrscheinlichkeit p eintreten kann, so gilt für die Wahrscheinlichkeit des Ereignisses Ai ,
daß A beim i-ten Versuch erstmals eintritt:
P (Ai ) = (1 − p)i−1 p
Mögliche Versuchsausgänge für das erstmalige Eintreten von A sind alle natürlichen
Zahlen N.
Definition 2.3 Die auf N durch
P ({i}) = (1 − p)i−1 p
∀i ∈ N 0 < p < 1
definierte Wahrscheinlichkeitsverteilung wird geometrische Verteilung genannt.
Manchmal ist die Wahrscheinlichkeit eines Ereignisses nicht unmittelbar zu erkennen, obwohl sie unter bestimmten Bedingungen leicht berechnet werden kann.
– Dazu ein Beispiel:
Beispiel 2.4 Man würfle zunächst, und werfe danach eine Münze sooft, wie es der
25
Augenzahl des Würfels entspricht.
Wi . . . Würfel fällt auf i
A . . . Es wird genau 2-mal “Kopf” geworfen
P (A | W1 ) = 0
P (A | W2 ) =
1
4
P (A | W3 ) = P ((K, K, A), (K, A, K), (A, K, K)) =
P (A | Wi ) = 2i 2−i
3
8
Hilft uns dieses Wissen bei der Berechnung weiter? Wie wir gleich sehen werden –
ja, es gilt nämlich:
Satz 2.4 (Satz von der vollständigen Wahrscheinlichkeit)
S
Seien H1 , . . . , Hn paarweise disjunkte Ereignisse mit ni=1 Hi = Ω (man nennt
{H1 , . . . , Hn } ein vollständiges System von Ereignissen), so gilt für jedes Ereignis
A:
P (A) =
n
X
i=1
P (Hi ) · P (A | Hi )
(Def.: P (Hi ) · P (A | Hi ) = 0, wenn P (Hi ) = 0)
Beweis.
P (A) = P (A ∩ Ω) = P (A ∩
=
n
X
i=1
P (A ∩ Hi ) =
n
[
Hi )
i=1
n
X
i=1
P (Hi ) · P (A | Hi )
Fortsetzung von Beispiel 2.4: Aus P (Wi ) = 1/6 und P (A | Wi ) =
demnach:
1 1
3
5
15
33
99
P (A) =
+2· +
+
=
≈ 0.257
=
6 4
8 16 64
6 · 64
128
i −i
2 2
folgt
Wir wollen wissen, wie groß P (W3 | A) ist. Die Antwort kann mit Hilfe des folgenden
Satzes gegeben werden.
Satz 2.5 (Bayessches Theorem)
Mit den Voraussetzungen und Bezeichnungen des vorigen Satzes gilt:
P (Hi | A) =
P (Hi ) · P (A | Hi )
n
P
P (Hj ) · P (A | Hj )
j=1
26
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
Beweis.Aus der Definition der bedingten Wahrscheinlichkeit und der Multiplikationsregel folgt
P (A | Hi )P (Hi )
P (A ∩ Hi )
=
P (A)
P (A)
P (A | Hi )P (Hi )
Pn
j=1 P (Hj ) · P (A | Hj )
P (Hi | A) =
=
Fortsetzung von Beispiel 2.4:
P (W3 | A) =
1
6
1
4
+2
1 3
6 · 8
5
· 38 + 16
+
15
64
=
8
≈ 0.242
33
Beispiel 2.5 Der Ruin eines Spielers:
Spieler I habe ein Kapital von x Schilling und Spieler II eines von C − x Schilling.
Eine Münze wird geworfen – bei “Kopf” bekommt Spieler I von II einen Schilling
– bei “Adler” umgekehrt II von I. Das Spiel endet bei Bankrott eines Spielers.
A . . . Spieler I geht bankrott – Man berechne P (A).
Sei S1 das Ereignis, daß Spieler I das erste Spiel gewinnt, und bezeichne px := Px (A)
die Wahrscheinlichkeit, daß Spieler I verliert, wenn er mit x Schilling zu spielen
begonnen hat (siehe Abb. 2.1). Dann gilt:
S
x
0
C −x
Abbildung 2.1: Kapitalstand der Spieler
Px (A) = Px (S1 )Px (A | S1 ) + Px (A | S1c )Px (S1c )
Klarerweise ist Px (S1 ) vom Anfangskapital x unabhängig, und es gilt:
Px (S1 ) =
1
2
Gewinnt I das erste Spiel, so liegt dem weiteren Spielverlauf dieselbe Situation
zugrunde, wie wenn I mit x + 1 Schilling und II mit C − x − 1 Schilling zu spielen
27
begonnen hätte. Daraus folgt:
Px (A) =
1
2
Px+1 (A) + Px−1 (A)
⇒ px+1 − px = px − px−1 ⇒
△ := px − px−1
p0 = 1,
ist von x unabhängig
pC = 0
px = p0 + (p1 − p0 ) + · · · + (px − px−1 ) = p0 + x△ = 1 + x△ ⇒
pC = 1 + C△ = 0 ⇒ △ = − C1
⇒ px = 1 −
x
C.
Beispiel 2.6 An einem Tennisturnier nehmen 2n Spieler teil. Es wird im k.o.System gespielt (siehe Abb. 2.2). Die Spieler sind entsprechend ihrer Spielstärke
gereiht. Wie groß ist die Wahrscheinlichkeit, daß der zweitstärkste Spieler auch bei
diesem Turnier den zweiten Platz belegt unter der Voraussetzung, daß in jedem Spiel
der gemäß Liste stärkere Spieler siegt?
28
KAPITEL 2. DIE BEDINGTE WAHRSCHEINLICHKEIT
A
Sieger
B
Abbildung 2.2:
SA . . . der stärkste Spieler ist unter den Spielern der Gruppe A
ZA . . . der zweitstärkste Spieler ist unter den Spielern der Gruppe A
SB . . . der stärkste Spieler ist unter den Spielern der Gruppe B
ZB . . . der zweitstärkste Spieler ist unter den Spielern der Gruppe B
ZW . . . der zweitstärkste wird Turnierzweiter
P (ZW ) = P (ZW | SA ∩ ZA )P (SA ∩ ZA )
+ P (ZW | SB ∩ ZA )P (SB ∩ ZA )
+ P (ZW | SA ∩ ZB )P (SA ∩ ZB )
+ P (ZW | SB ∩ ZB )P (SB ∩ ZB )
= P (ZW | SA ∩ ZA )P (SA )P (ZA | SA )
+ P (ZW | SB ∩ ZA )P (SB )P (ZA | SB )
+ P (ZW | SA ∩ ZB )P (SA )P (ZB | SA )
+ P (ZW | SB ∩ ZB )P (SB )|P (ZB | SB )
1 (2n−1 − 1)
1 2n−1
= 0· ·
+
1
·
·
2
2n − 1
2 2n − 1
1 2n−1
1 (2n−1 − 1)
+1 · · n
+0· ·
2 2 −1
2
2n − 1
n−1
2
=
2n − 1
Kapitel 3
Zufallsvariable und
Verteilungsfunktionen
3.1
Eindimensionale Verteilungsfunktionen
Bei der Durchführung eines Versuches interessieren oft nicht alle Charakteristika des
Versuchsausganges, sondern nur ein bestimmtes Merkmal. Die Abhängigkeit eines
Merkmals vom Versuchsausgang kann durch eine Funktion X auf Ω beschrieben
werden.
Beispiel 3.1 Man würfle 5-mal. Das uns interessierende Merkmal ist die größte Augenzahl unter den 5 Würfen. Wir wissen bereits, daß (Ω, S, P ) mit
Ω = {(x1 , . . . , x5 ) xi ∈ {1, . . . , 6}} , S = P(Ω), P (x1 , . . . , x5 ) = 615 ein diesem Versuch adäquates Wahrscheinlichkeitsmodell darstellt. Die größte Augenzahl unter den
5 Würfen wird durch X ((x1 , . . . , x5 )) := max xi beschrieben.
i=1,...,5
Betrachtet man anstelle des ursprünglichen Wahrscheinlichkeitsraums (Ω, S, P ) die
Menge der möglichen Werte des uns interessierenden Merkmals Ω′ = {X(ω) : ω ∈ Ω},
und definiert man auf S′ := A ⊆ Ω′ : X −1 (A) := {ω : X(ω) ∈ A} ∈ S eine Wahr
scheinlichkeit PX durch: PX (A) = P X −1 (A) , so erhält man einen Wahrscheinlichkeitsraum (Ω′ , S′ , PX ), der den Versuch in bezug auf das Merkmal genauso
adäquat beschreibt wie der ursprüngliche Wahrscheinlichkeitsraum, wobei aber der
neue Raum weniger komplex als der ursprüngliche ist.
Definition 3.1 Der Bildraum (Ω′ , S′ , PX ) heißt der durch X induzierte Wahrscheinlichkeitsraum, PX heißt die durch X induzierte Wahrscheinlichkeitsverteilung.
Beim Übergang vom ursprünglichen Raum zum induzierten Raum reduziert man das
bei einem Versuch anfallende – oft äußerst vielschichtige – Datenmaterial auf die für
eine bestimmte Untersuchung wesentlichen Inhalte und betrachtet in der Folge nur
29
30
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
mehr diese. Meistens können die von einem Versuchsausgang abhängigen Merkmale zahlenmäßig erfaßt werden; wir werden daher im folgenden stets annehmen, daß
Ω′ ⊆ R (Ω′ ⊆ Rn ) ist. Natürlich kann Ω′ überabzählbar viele Werte annehmen,
etwa wenn man als relevantes Merkmal die Lebensdauer einer Maschine betrachtet.
Wir haben in Kapitel 1 erwähnt, daß in diesem Fall eine Wahrscheinlichkeitsverteilung durch Angabe der Wahrscheinlichkeiten der Intervalle (a, b] a, b ∈ R festgelegt
wird.
PX ((a, b]) kann aber nur dann sinnvoll definiert werden, wenn
X −1 ((a, b]) = {ω : X(ω) ∈ (a, b]} ∈ S gilt, das heißt, wenn das Urbild eines jeden halboffenen Intervalls ein Ereignis ist. Statt X −1 (A) werden wir oft auch die
Schreibweise [X ∈ A] verwenden, d.h. X −1 (A) = [X ∈ A] = {ω : X(ω) ∈ A}.
Weiters werden wir auch oft statt P ([X ∈ A]) kürzer P (X ∈ A) schreiben. Wir
definieren:
Definition 3.2 Unter einer Zufallsvariablen versteht man eine Funktion
X : Ω → R, für welche gilt:
X −1 ((a, b]) ∈ S
∀a, b ∈ R.
Bemerkung.Wenn S = P(Ω) ist, so ist jede Funktion X : Ω → R eine Zufallsvariable. Im allgemeinen gilt dies nicht, wie das folgende Beispiel zeigt.
Beispiel 3.2 Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum mit:
Ω = {(0, 0), (0, 1), (1, 0), (1, 1)}
S = {∅, Ω, {(0, 0)} , {(0, 1), (1, 0)} , {(1, 1)} , {(0, 0), (1, 1)} ,
{(0, 0), (0, 1), (1, 0)} , {(0, 1), (1, 0), (1, 1)}}
d.h. als Ereignisse mögen nur Mengen gelten, die folgendermaßen dargestellt werden
können:
(=)
A = {(x1 , x2 ) : x1 + x2
≤
c}
(≥)
(6=)
P (A) =
|A|
4
X(x1 , x2 ) := x1 ist dann keine Zufallsvariable, denn:
1
−1
= {(1, 0), (1, 1)} 6∈ S
X
1 − ,1
n
31
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
Wir werden uns jedoch im weiteren nicht mehr mit der Frage auseinandersetzen,
wann eine Funktion bei gegebenem Wahrscheinlichkeitsraum eine Zufallsvariable ist,
da dies eine umfassende Kenntnis der Maß- und Integrationstheorie voraussetzen
würde. Wir werden stattdessen von nun an stets voraussetzen, daß die von uns
betrachteten Funktionen auf Ω tatsächlich Zufallsvariable sind.
Als nächstes wollen wir einige wichtige Arten von Zufallsvariablen vorstellen:
Beispiel 3.3 (alternativverteilte Zufallsvariable)
Wird auch Bernoulli-verteilte Zufallsvariable genannt. Münzwurf.
(Ω, S, P ) = {“K”, “A”}, P ({K, A}) , P (K) = P (A) =
1
2
X(K) = 0, X(A) = 1, PX (0) = P ([X = 0]) = PX (1) = P ([X = 1]) =
Allgemein: sei A irgendein Ereignis, das mit der Wahrscheinlichkeit p
eintrete, sei
0, wenn ω 6∈ A
X(ω) :=
1, wenn ω ∈ A
1
2
(0 < p < 1)
Dann gilt:
PX (1) = P ([X = 1]) = P (A) = p, PX (0) = P ([X = 0]) = P (Ac ) = 1 − p
oder
PX (x) = px (1 − p)1−x mit x ∈ {0, 1}
eine derartige Zufallsvariable heißt alternativ- oder bernoulliverteilt
(im Zeichen: X ∼ Bp )
Beispiel 3.4 (binomialverteilte Zufallsvariable)
Verteilung bei Ziehungen mit Zurücklegen. Eine Produktion enthalte p · 100% an
fehlerhaften Stücken; es mögen n Stücke mit Zurücklegen gezogen werden. Gesucht
sei die Wahrscheinlichkeit, daß genau k Stücke fehlerhaft sind. Als möglicher Wahrscheinlichkeitsraum kommt in Betracht:
Ω = {(x1 , . . . , xn ); xi ∈ {0, 1}; xi = 0 . . . “gut”; xi = 1 . . . “fehlerhaft”}
P ((x1 , . . . , xn )) = pk (1 − p)n−k ,
wenn ∃{i1 , . . . , ik } : xij = 1, xj = 0 ∀j 6∈ {i1 , . . . , ik }
Dann gilt aber
k=
n
X
i=1
xi .
32
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Somit ist
P ((x1 , . . . , xn )) = p
X(x1 , . . . , xn ) =
Pn
i=1
n
P
i=1
xi
(1 − p)n−
Pn
i=1
xi
xi
[X = k] := {ω : X(ω) = k} = {ω = (x1 , . . . , xn ) :
o
∃{i1 , . . . , ik } ⊆ {1, . . . , n} : xij = 1, xj = 0 ∀j 6∈ {i1 , . . . , ik }
Man sieht sofort: |[X = k]| = nk
⇒ PX (k) = P (X = k) = nk pk (1 − p)n−k
Die Zufallsvariable heißt binomialverteilt Bn,p , wenn X : Ω → {0, . . . , n} und
n k
PX (k) = P ([X = k]) =
p (1 − p)n−k
k
0 ≤ p ≤ 1 (im Zeichen: X ∼ Bn,p )
Bemerkung.Bezeichnet man das Ergebnis der i-ten Ziehung mit Xi , so gilt: X =
Pn
i=1 Xi . Da die Xi vt Bp ∀i = 1, . . . , n sind, kann jede binomialverteilte Zufallsvariable als Summe von alternativverteilten Zufallsvariablen angeschrieben werden.
Beispiel 3.5 (hypergeometrischverteilte Zufallsvariable)
Verteilung bei Ziehungen ohne Zurücklegen. Eine Population von N Elementen enthalte A “ausgezeichnete” Stücke. Es werde eine Stichprobe vom Umfang n gezogen, wobei jede Teilmenge der N Elemente, die n Elemente enthält, mit gleicher
Wahrscheinlichkeit ausgewählt werden kann. Gesucht ist die Wahrscheinlichkeit,
daß die Stichprobe genau a “ausgezeichnete” Elemente enthalte. Sei o.E.d.A. angenommen, daß die Zahlen 1, . . . , A die “ausgezeichneten” Elemente bezeichnen und
A + 1, . . . , N die restlichen Stücke der Population. Ein möglicher Wahrscheinlichkeitsraum ist dann etwa
Ω := {{i1 , . . . , in } ⊆ {1, . . . , A, A + 1, . . . , N }}
N
P ({i1 , . . . , in }) = 1/
n
X ({i1 , . . . , in }) :=
ij : ij ∈ {1, . . . , A}; 1 ≤ j ≤ n Klarerweise gilt:
0 ≤ X(ω) ≤ A ∀ω ∈ Ω
X(ω) ≤ n
∀ω ∈ Ω
n − X(ω) ≤ N − A ⇒ n − (N − A) ≤ X(ω)
∀ω ∈ Ω.
33
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
Damit erhält man:
Ω′ = {X(ω) : ω ∈ Ω} = {max{0, n − (N − A)}, . . . , min{n, A}}
[X = a] = {i1 , . . . , in } : ∃{j1 , . . . , ja } : ijk ∈ {1, . . . , A} ∀k ∈ {1, . . . , a}
und il ∈ {A + 1, . . . , N } ∀l 6∈ {j1 , . . . , ja }}
N −A
⇒ |[X = a]| = A
a
n−a ⇒
(klassische Wahrscheinlichkeitsdefinition) ⇒
PX (a) = P ([X = a]) =
(i.Z.: X ∼ HN,A,n )
 A N−A
( a )( n−a )




(Nn )







 0
für max{0, n − (N − A)}
≤ a ≤ min{n, A}
sonst
Beispiel 3.6 (geometrische Verteilung)
In Kapitel 2 haben wir bereits die geometrische Verteilung kennengelernt. Wir nennen eine Zufallsvariable X geometrisch verteilt, wenn gilt:
X : Ω → N, PX (k) = P ([X = k]) = (1 − p)k−1 p (0 ≤ p ≤ 1)
(i.Z.: X ∼ Gp )
k∈N
Beispiel 3.7 (stetig gleichverteilte Zufallsvariable auf [a, b])
Wir kennen auch schon die stetige Gleichverteilung auf [0, 1]; eine Zufallsvariable
X : Ω → [a, b] heißt stetig gleichverteilt auf [a, b], wenn für jedes Intervall [c, d] ⊆
[a, b] gilt (c ≤ d):
PX ([c, d]) = P ([X ∈ [c, d]]) =
d−c
b−a
(i.Z.: X ∼ Ua,b )
Beispiel 3.8 (exponentialverteilte Zufallsvariable mit Parameter λ)
Auch die im folgenden besprochene Zufallsvariable kann überabzählbar viele Werte
annehmen. Gegeben sei eine Maschine, und sei T die Lebensdauer dieser Maschine.
T kann jeden Wert aus [0, ∞) annehmen. Weiters möge T der folgenden Bedingung
genügen:
P ([T > t + s] | [T > s]) = P ([T > t])
∀s, t ∈ [0, ∞),
d.h. die Wahrscheinlichkeit, daß die Maschine mindestens bis zum Zeitpunkt t + s
funktioniert, wenn man bereits weiß, daß sie bis zum Zeitpunkt s funktioniert hat, ist
gleich der Wahrscheinlichkeit, daß sie mindestens bis zum Zeitpunkt t funktioniert –
oder anders ausgedrückt: die zukünftige Lebensdauer der Maschine hängt nicht von
34
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
der bisherigen Lebensdauer ab. Obwohl eine derartige Annahme für die Lebensdauer
biologischer Systeme sehr unrealistisch ist, ist das Modell sehr brauchbar bei der
Beschreibung gewisser physikalischer Phänomene, wie etwa der Zeitspanne bis zum
Zerfall eines radioaktiven Teilchens. Aus der obigen Voraussetzung folgt:
P ([T > 2t]) = P ([T > t]) · P ([T > 2t] | [T > t]) = P ([T > t])2
und allgemeiner:
P ([T > nt]) = P ([T > t])n
∀n ∈ N.
Umgekehrt gilt auch:
P ([T > t]) = P
P
t n
t
[T > n ] = P [T > ]
n
n
1
t
[T > ] = P ([T > t]) n
n
∀n ∈ N ⇒
∀n ∈ N
Aus den obigen beiden Gleichungen folgt aber unmittelbar, daß für alle rationalen
Zahlen q ∈ Q (q ≥ 0) gilt:
P ([T > qt]) = P ([T > t])q
Da P ([T > rt]) mit steigendem r monoton fallen muß, gilt dann aber auch für
r ∈ [0, ∞):
P ([T > rt]) = P ([T > t])r = er ln P ([T >t]) .
Mit der Bezeichnung λ := − ln P ([T > 1]) ergibt das:
P ([T > t]) = e−λt
∀t ∈ [0, ∞).
Daraus folgt für s, t ∈ [0, ∞), s ≤ t wegen [T > s] ⊇ [T > t]:
P ([T ∈ (s, t]]) = P ([T ≤ t] \ [T ≤ s])
= P ([T ≤ t]) − P ([T ≤ s])
= 1 − e−λt − (1 − e−λs )
= e−λs − e−λt
Die dadurch auf [0, ∞) festgelegte Wahrscheinlichkeitsverteilung PT heißt Exponentialverteilung mit dem Parameter λ und T ist eine exponentialverteilte Zufallsvariable
(im Zeichen: T ∼ Exλ ). Zum Abschluß wollen wir noch eine kurze Bemerkung über
die physikalische Interpretation von λ machen:
Sei t0 jene Zeitspanne, für die die Wahrscheinlichkeit, daß die Lebensdauer sie übersteigt, genau 1/2 ist, d.h.
PT (t0 ) = P ([T > t0 ]) =
1
2
35
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
(t0 wird Halbwertszeit genannt.) Wegen
P ([T > t0 ]) = e−λt0 =
1
2
besteht zwischen der Halbwertszeit und λ folgender Zusammenhang:
λ=
ln 2
.
t0
Wir haben schon in Kapitel 1 erwähnt, daß die Wahrscheinlichkeitsverteilungen
entweder durch Angabe der Wahrscheinlichkeiten der Elementarereignisse festgelegt
werden können, wenn |Ω| ≤ ℵ0 1 , oder aber durch die Wahrscheinlichkeiten der
Intervalle (c, d], wenn Ω = [a, b] ⊆ R. Haben wir nun eine Zufallsvariable X auf
einem Raum (Ω, S, P ) gegeben, so können wir sowohl für |Ω′ | ≤ ℵ0 als auch für
Ω′ = [a, b] ⊆ R die folgenden Wahrscheinlichkeiten bestimmen:
F (x) := PX ((−∞, x])
=
P (X ∈ (−∞, x]) =
 P
P (X = y)


 y≤x



im 1-tenFall
lim P ([X ∈ (y, x]]) im 2-tenFall
y→−∞
Umgekehrt legen aber auch die Werte F (x),
lung in eindeutiger Weise fest.
Falls |Ω| ≤ ℵ0 , so gilt:
x ∈ R die Wahrscheinlichkeitsvertei-
PX (x) = P ([X = x]) = F (x) − lim F (y) = F (x) − F− (x)
y↑x
mit F− (x) := lim F (y)
y↑x
Beweis.Für y ր x gilt (y, x] ↓ {x}. Aus der Stetigkeit von PX folgt:
PX ((y, x]) → PX ({x}).
Weiters gilt wegen
PX ((a, b]) = PX ((−∞, b] \ (−∞, a]) = F (b) − F (a)
stets
PX ((a, b]) = F (b) − F (a)
∀a, b ∈ R.
Damit ist die Wahrscheinlichkeit PX auch im Fall eines überabzählbaren Bildraums
festgelegt.
1
Die Bezeichnung |Ω| ≤ ℵ0 bedeutet, daß Ω höchstens abzählbar ist.
36
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Definition 3.3 Ist X : Ω → R eine Zufallsvariable mit dem induzierten Bildraum
(Ω′ , S′ , PX ), so nennt man die durch F (x) := PX ((−∞, x]) definierte Funktion
F : R → R die zu X (zu PX ) gehörige Verteilungsfunktion. (Wenn der Bezug zur
Zufallsvariablen X betont werden soll, schreibt man manchmal auch FX .)
Bemerkung.
1. Der ursprüngliche Raum kann selbst als Bildraum, und zwar induziert durch
die identische Abbildung, aufgefaßt werden.
2. Umgekehrt können aber auch die Werte einer Zufallsvariablen selbst wieder
als Ausgänge eines Versuchs angesehen werden. Wir werden daher oft auch
die induzierte Verteilung PX kurz mit P bezeichnen, insbesondere, wenn nicht
ausdrücklich auf die zugrundeliegende Zufallsvariable X hingewiesen werden
muß.
Definition 3.4 Die Zufallsvariable X heißt diskret, wenn |Ω′ | ≤ ℵ0 .
In den beiden von uns betrachteten Beispielen von Zufallsvariablen mit überabzählbar vielen möglichen Werten kann man PX ((c, d]) als Integral darstellen:
1.
2.
X vt Sa,b
d−c
: PX ((c, d]) =
=
b−a
−λc
X vt Eλ : PT ((c, d]) = e
Zd
c
−λd
−e
1
dt
b−a
=
Zd
c
a≤c≤d≤b
λe−λt dt
0≤c≤d<∞
Definition 3.5 Die Zufallsvariable X heißt stetig, wenn es eine integrierbare Funktion f (t) auf R in R gibt, sodaß
PX ((c, d]) =
Zd
c
f (t)dt
∀c, d ∈ R
gilt. f heißt dann die zu X (zu PX ) gehörige Dichtefunktion. (Manchmal schreibt
man auch fX .)
Bemerkung.Es gibt Zufallsvariable, die weder stetig noch diskret sind, wie z.B.: X
mit P (X = 0) = 21 , P (X ∈ (c, d)) = d−c
∀ 0 ≤ c ≤ d ≤ 1. Wir werden uns aber in
2
diesem Skriptum nur mit stetigen und diskreten Zufallsvariablen beschäftigen.
3.1. EINDIMENSIONALE VERTEILUNGSFUNKTIONEN
37
Satz 3.1 (Eigenschaften der Verteilungsfunktionen)
1.
F (−∞) = lim F (x) = 0
x→−∞
2.
F (∞) = lim F (x) = 1
x→∞
3. aus x ≤ y folgt F (x) ≤ F (y) d.h.: F ist monoton
4. aus xn ↓ x folgt F (xn ) ↓ F (x) d.h.: F ist rechtsstetig
Beweis.Aus (−∞, x] ↓ ∅ mit x → −∞ und der Stetigkeit der Wahrscheinlichkeitsverteilung folgt:
F (−∞) = lim F (x) = 0
x→−∞
Aus (−∞, x] ↑ R mit x → ∞ folgt:
F (∞) := lim F (x) = 1
x→∞
Wegen (−∞, x] ⊆ (−∞, y] für x ≤ y gilt:
F (x) ≤ F (y)
∀x ≤ y
Aus hn ≥ 0, hn ↓ 0 und (−∞, x + hn ] ↓ (−∞, x] folgt:
F (x + 0) = lim F (x + hn ) = F (x)
hn ↓0
Bemerkung.F ist im allgemeinen nicht linksstetig, da (−∞, x − hn ] ↑ (−∞, x)
konvergiert und nicht (−∞, x − hn ] ↑ (−∞, x]. Ist aber F die Verteilungsfunktion
einer stetigen Zufallsvariablen X , so ist wegen:
0 = P (X = x) = F (x) − F− (x)
die Verteilungsfunktion auch linksstetig.
Beispiel 3.9 Sei F die Verteilungsfunktion einer diskreten Zufallsvariablen X.
X : Ω → Ω′ = {xn , n ∈ N} ⊆ R
PX (xn ) = P (X = xn ) = pn
∀n ∈ N
dann gilt:
F (x) =
X
pn
xn ≤x
d.h.: F ist eine Treppenfunktion mit Sprüngen der Höhe pn in den Punkten xn .
38
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Satz 3.2 Ist X eine stetige Zufallsvariable mit der Dichtefunktion f , so gilt:
1.
Z∞
f (t)dt = 1
−∞
2.
f (x) = F ′ (x)
Beweis.ad 1)
F (x) =
Zx
f (t)dt
−∞
F (∞) = 1 ⇒
Z∞
f (t)dt = 1
−∞
ad 2)
F (x + h) − F (x)
=
h
R x+h
x
f (t)dt
f (x0 )h
=
= f (x0 ) mit x0 ∈ (x, x + h)
h
h
⇒ F ′ (x) = f (x) d.h.: die Dichtefunktion ist eine Ableitung der Verteilungsfunktion.
Bemerkung.Im obigen Beweis haben wir stillschweigend vorausgesetzt, daß f stetig
ist und deshalb der Mittelwertsatz der Integralrechnung angewendet werden kann.
Die Beziehung F ′ (x) = f (x) gilt aber für jede Verteilungsfunktion F , die als unbeRx
stimmtes Integral F (x) = −∞ f (t)dt dargestellt werden kann – auch dann, wenn f
nicht stetig ist. Allerdings ist der Beweis dann wesentlich schwieriger. (Theorie der
absolut stetigen Funktionen)
3.2
Mehrdimensionale Zufallsvariable
Es kann vorkommen, daß – mit einem Versuch zusammenhängend – zwei oder mehrere Merkmale interessieren. Man betrachtet dann nicht eine einzelne Zufallsvariable
X, sondern ein Tupel von Zufallsvariablen (X, Y ) oder einen Zufallsvektor
(X1 , X2 , . . . , Xk ). Man nennt (X1 , . . . , Xk ) auch eine k-dimensionale Zufallsvariable.
Der Bildraum Ω′ ist dann eine Teilmenge in R2 oder in Rk . So könnte etwa in Beispiel 3.1 nicht nur die größte Augenzahl unter den 5 Würfen, sondern z.B. die größte
und kleinste Augenzahl von Bedeutung sein. Ähnlich, wie im eindimensionalen Fall,
ist die Wahrscheinlichkeitsverteilung PX1 ,...,Xk auf Ω′ durch die Wahrscheinlichkeiten
der Elementarereignisse festgelegt:
PX1 ,...,Xk ((x1 , . . . , xk )) = P ([X1 = x1 , . . . , Xk = xk ]),
wenn Ω′ nur abzählbar viele Elemente enthält, oder durch die Wahrscheinlichkeiten
der Ereignisse:
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = P ([a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ])
39
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
mit ai , bi ∈ R ∀i = 1, . . . , k.
Die Wahrscheinlichkeitsverteilung PX1 ,...,Xk nennt man die gemeinsame Verteilung
von X1 , . . . , Xk .
Definition 3.6 Wenn es eine mehrdimensionale Dichtefunktion f : Rk → R gibt
mit:
Zb1 Zbk
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = · · · f (t1 , . . . , tk ) dt1 . . . dtk
a1
ak
so nennt man (X1 , . . . , Xk ) stetig verteilt.
Wenn Ω′ überabzählbar ist, wollen wir wieder nur den stetigen Fall betrachten.
Beispiel 3.10
1. Werfe eine S 1-Münze 3-mal und eine S 10-Münze 3-mal.
X. . . Anzahl der “Köpfe” bei der S 1-Münze
Y . . . Anzahl der “Adler” bei der S 10-Münze
Die gemeinsame Verteilung von (X, Y ) ergibt sich, wie man leicht sieht, aus
Tabelle 3.1:
Tabelle 3.1:
Y
0
1
2
3
X
0
1
2
3
1
64
3
64
3
64
1
64
3
64
9
64
9
64
3
64
3
64
9
64
9
64
3
64
1
64
3
64
3
64
1
64
2. Werfe eine Münze 3-mal.
X. . . Anzahl der “Köpfe”
Y . . . Anzahl der “Adler”
Es interessiert uns die Anzahl der “Adler” bei den 3 Würfen. Klarerweise gilt
nun Y = 3 − X, d.h.
P (X = i, Y = j) = 0, wenn j 6= 3 − i
und
3 −3
P (X = i, Y = 3 − i) = P (X = i) =
2
i
(siehe Tabelle 3.2)
i = 0, . . . , 3
40
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Tabelle 3.2:
Y
X
0
1
2
3
0
1
2
3
0
0
0
0
0
0
1
8
1
8
3
8
0
0
0
3
8
0
0
0
3. Werfe eine S 1-Münze 2-mal, eine S 5-Münze 1-mal und eine S 10-Münze 2mal.
X. . . Anzahl der “Köpfe” bei den 3 Würfen mit der S 1- und der S 5-Münze
Y . . . Anzahl der “Adler” bei den Würfen mit der S 10- und der S 5-Münze.
Sei Xi (Yi ) die Anzahl der “Köpfe” (“Adler”) bei den Würfen mit der S iMünze.
Die gemeinsame Verteilung ergibt sich folgendermaßen:
[X = 0, Y = 0] = [X1 = 0, X5 = 0, Y5 = 0, Y10 = 0] = ∅
⇒ P (X = 0, Y = 0) = 0
[X = 0, Y = 1] = [X1 = 0, X5 = 0, Y10 = 0]
⇒ P (X = 0, Y = 1) =
1
4
·
1
2
·
1
4
[X = 0, Y = 2] = [X1 = 0, X5 = 0, Y10 = 1]
⇒ P (X = 0, Y = 2) =
1
4
·
1
2
·
1
2
[X = 0, Y = 3] = [X1 = 0, Y5 = 1, Y10 = 2]
⇒ P (X = 0, Y = 3) =
1
4
·
1
2
·
1
4
[X = 1, Y = 1] = [X1 = 0, X5 = 1, Y10 = 1] ∪ [X1 = 1, X5 = 0, Y10 = 0]
⇒ P (X = 1, Y = 1) =
1
4
·
1
2
·
1
2
+
1
2
·
1
2
·
1
4
=
1
8
[X = 1, Y = 2] = [X1 = 1, X5 = 0, Y10 = 1] ∪ [X1 = 0, X5 = 1, Y10 = 2]
⇒ P (X = 1, Y = 2) =
1
2
·
1
2
·
1
2
+
1
4
·
1
2
·
1
4
=
5
32
und die übrigen Wahrscheinlichkeiten ergeben sich aus Symmetrieüberlegungen (siehe Tabelle 3.3).
41
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
Tabelle 3.3:
Y
0
1
2
3
X
0
1
2
3
0
1
32
1
8
5
32
1
16
1
16
5
32
1
8
1
32
1
32
1
16
1
32
1
32
1
16
1
32
0
Hat man im Verlauf eines Versuches 2 oder mehrere Merkmale beobachtet, interessiert aber in späteren Untersuchungen nur das Verhalten einer Zufallsvariablen,
so kann die Verteilung dieser Zufallsvariablen aus der gemeinsamen Verteilung leicht
bestimmt werden. So gilt im diskreten Fall:
PXi (x̂i ) := P (Xi = x̂i )
= P (X1 ∈ R, . . . , Xi−1 ∈ R, Xi = x̂i , Xi+1 ∈ R, . . . , Xk ∈ R)
X
=
PX1 ,...,Xk (x1 , . . . , xi−1 , x̂i , xi+1 , . . . , xk )
(x1 ,...,xi−1 ,xi+1 ,...,xk )
(x̂i wird festgehalten, während alle anderen xj
j 6= i variabel sind)
ansonsten:
PXi ((ai , bi ]) = P X1 ∈ R, . . . , Xi−1 ∈ R, Xi ∈ (ai , bi ], Xi+1 ∈ R, . . . , Xk ∈ R
Satz 3.3 Wenn (X1 , . . . , Xk ) stetig verteilt ist, so sind auch die einzelnen Zufallsvariablen Xi stetig.
Beweis.
PXi ((ai , bi ])
= P X1 ∈ R, . . . , Xi−1 ∈ R, Xi ∈ (ai , bi ], Xi+1 ∈ R, . . . , Xk ∈ R



Z
ZbiZ




=
 · · · f (t1 , . . . , ti−1 , ti , ti+1 , . . . , tk ) dt1 · · · dti−1 dti+1 · · · dtk  dti .
R
R
|
{z
}
a
i
=fXi (ti )
Definition 3.7 fXi (ti ) im obigen Satz heißt die Randdichte von Xi . Die Verteilung
PXi wird Randverteilung der Zufallsvariablen Xi genannt.
42
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Beispiel 3.11 Man sieht leicht, daß die Randverteilung von X bzw. Y in Beispiel 3.10 stets bestimmt ist durch:
3 −3
P (X = i) =
2
i
3 −3
P (Y = i) =
2
i
Das bedeutet, daß aus der Kenntnis der Randverteilungen im allgemeinen die gemeinsame Verteilung nicht bestimmt werden kann.
Bemerkung.Das Beispiel 3.10.1 nimmt insoferne eine Sonderstellung ein, als bei
diesem Versuch X und Y einander nicht beeinflussen. Es gilt bei dieser Versuchsanordnung:
P (X = i, Y = j) = P (X = i)P (Y = j)
∀i, j ∈ {0, . . . , 3}
Wir sagen daher: X und Y sind unabhängig.
Definition 3.8 Die Zufallsvariablen X1 , . . . , Xk heißen unabhängig voneinander,
wenn gilt:
P (X1 ∈ (a1 , b1 ], . . . Xk ∈ (ak , bk ]) =
k
Y
i=1
P (Xi ∈ (ai , bi ])
∀ai , bi ∈ R
Im diskreten Fall kann man das durch die einfachere Bedingung
P (X1 = x1 , . . . , Xk = xk ) =
k
Y
P (Xi = xi )
i=1
= P (X1 = x1 ) · · · P (Xk = xk ) ∀(x1 , . . . , xk )
ersetzen.
Beispiel 3.12 (Shannons Ratespiel)
1. Man lese aus dem untenstehenden Text bis zum Strich vor und lasse die folgenden Buchstaben durch eine Versuchsperson erraten.
"A.N.KOLMOGOROV_LEGTE_SC|HLIESSLICH_1933_IN_EINER_ENTSCHEID
ENDEN_ARBEIT_DEN_GRUNDSTEIN_FUER_DIE_HEUTIGE_MODERNE_WAHR
SCHEINLICHKEITSRECHNUNG."
(aus Storm [10] Seite 15)
2. Man nehme nun nur jeden 10. Buchstaben aus dem folgenden Text und lasse
diese Buchstaben erraten.
Basistext:
43
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
‘‘ZAHLREICHE_BEI_GLUECKSSPIELEN_INTERESSIERENDE_FRAGEN_WAREN_
DER_ANLASS_DAFUER_DASS_SICH_BEDEUTENDE_FORSCHER_WIE_Z_B_P_
FERMAT_B_PASCAL_UND_JAKOB_BERNOULLI_IN_DER_MITTE_DES_SIEB
ZEHNTEN_JAHRHUNDERTS_MIT_BEGRIFFEN_WIE_ZUFALLSERSCHEINUNG_
EREIGNIS_WAHRSCHEINLICHKEIT_UND_MATHEMATISCHE_ERWARTUNG_
AUSEINANDERSETZTEN_UND_DIE_AUFGABEN_MIT_HILFE_ELEMENTARER_
METHODEN_DER_KOMBINATORIK_ZU_LOESEN_VERSUCHTEN’’
Das ergibt folgende Buchstabenfolge:
E,C,_,E,G,D,_,S,D,O,E,R,C,K,L,_,_,E,D,B,W,S,N,S,I,_,M,R,U,S,
D,A,I,N,H,K,I,E,T
Die Buchstabenhäufigkeit der deutschen Sprache:
(siehe Tabelle 3.4 in % aus [3])
Tabelle 3.4:
A
5
B
2.5
C
1.5
D
5
E
18.5
F
1.5
G
4
H
4
I
8
J
0
K
1
L
3
M
2.5
N
11.5
O
3.5
P
0.5
Q
0
R
7
S
7
T
5
U
5
V
1
W
1.5
X
0
Y
0
Z
1.5
Ist es z.B. sinnvoll, in Aufgabe 1 nach SC auf H zu tippen (oder nach Q auf U)?
Was ist vernünftiger: nach S auf T oder auf E zu raten? Die relative Häufigkeit
von ST in einem sinnvollen deutschen Text ist ≈ 0.012. Die relative Häufigkeit
von ST in Aufgabe 2 ist das Produkt aus der relativen Häufigkeit von S und
der relativen Häufigkeit von T, das ist 0.07 · 0.05 = 0.0035 ≪ 0.012. Man sieht
sofort, daß sich im 1. Fall die relativen Häufigkeiten von Buchstabentupeln
nicht als Produkt der relativen Häufigkeiten der einzelnen Buchstaben ergeben,
im 2. Fall jedoch sehr wohl, d.h. im ersten Fall betrachtet man eine abhängige
Folge X1 , X2 , . . . von Zufallsvariablen – im 2. Fall aber eine unabhängige Folge.
Beispiel 3.13 Zwei Personen A und B kommen zufällig zwischen 17h und 18h an
einen bestimmten Ort. Sie verweilen dort jeweils 10 Minuten. Wie groß ist die Wahrscheinlichkeit, daß sie einander treffen?
X. . . Ankunftszeit von A
44
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Y . . . Ankunftszeit von B
X, Y vt S17,18 , und unabhängig
2
11
5
=
≈ 0.306
P (A trifft B) = P (|X − Y | ≤ 10min.) = 1 −
6
36
(siehe Abb. 3.1).
Y
✻
5
6
1
6
✲
1
6
5
6
X
Abbildung 3.1:
Definition 3.9 Sei (X1 , . . . , Xk ) eine k-dimensionale Zufallsvariable, dann ist die
gemeinsame Verteilungsfunktion von (X1 , . . . , Xk ) definiert durch:
F (x1 , . . . , xk ) = P (X1 ∈ (−∞, x1 ], . . . , Xk ∈ (−∞, xk ])
Auch im mehrdimensionalen Fall ist die Wahrscheinlichkeitsverteilung eindeutig
durch die Verteilungsfunktion bestimmt. Wir betrachten zunächst k = 2:
Satz 3.4 Ist (X1 , X2 ) eine 2-dimensionale Zufallsvariable mit der Verteilungsfunktion FX1 ,X2 , so gilt:
P (X1 ∈ (a1 , b1 ], X2 ∈ (a2 , b2 ])
= F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
∀ai , bi ∈ R.
Beweis. Sei
Ai := [Xi ≤ ai ] ∩ ([X1 ≤ b1 , X2 ≤ b2 ])
i = 1, 2
[a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ] = [X1 ≤ b1 , X2 ≤ b2 ] \ (A1 ∪ A2 ) ⇒
P (a1 < X1 ≤ b1 , a2 < X2 ≤ b2 ) = P (X1 ≤ b1 , X2 ≤ b2 ) − P (A1 ∪ A2 )
= F (b1 , b2 ) − P (A1 ) − P (A2 ) + P (A1 ∩ A2 ).
45
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
y
✻
b2
(a1 , b2 )
(b1 , b2 )
(a1 , a2 )
(b1 , a2 )
A1
a2
✲
a1
A2
b1
x
Abbildung 3.2:
Nun gilt
P (A1 ) = P (X1 ≤ a1 , X2 ≤ b2 ) = F (a1 , b2 )
P (A2 ) = P (X1 ≤ b1 , X2 ≤ a2 ) = F (b1 , a2 )
P (A1 ∩ A2 ) = P (X1 ≤ a1 , X2 ≤ a2 ) = F (a1 , a2 )
Setzt man ein, so erhält man die Behauptung
PX1 ,X2 ((a1 , b1 ] × (a2 , b2 ]) = F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
Allgemein gilt:
Satz 3.5 Ist (X1 , . . . , Xk ) eine k-dimensionale Zufallsvariable mit Verteilungsfunktion F , so gilt
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ])
=
1
X
ǫ1 =0
···
Beweis.Sei B :=
1
X
ǫk =0
Tk
Pk
(−1)
i=1 [Xi
Ai := [Xi ≤ ai ] ∩ B
i=1 ǫi
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) .
≤ bi ], und weiters sei
i = 1, . . . , k.
Dann gilt:
P (B) = P (X1 ≤ b1 , . . . , Xk ≤ bk ) = F (b1 , . . . , bk )
P (Ai ) = P (X1 ≤ b1 , . . . , Xi−1 ≤ bi−1 , Xi ≤ ai , Xi+1 ≤ bi+1 , . . . , Xk ≤ bk )
= F (b1 , . . . , bi−1 , ai , bi+1 , . . . , bk ).
46
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Sei 1 ≤ i1 < i2 < · · · < ih ≤ k und sei
1 l ∈ {i1 , . . . , ih }
ǫl :=
0 l ∈ {1, . . . , k} \ {i1 , . . . , ih }
Dann gilt:
P (Ai1 ∩ · · · ∩ Aih ) = P (Xij ≤ aij
j = 1, . . . , h,
Xl ≤ bl
l 6∈ {i1 , . . . , ih })
= F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) .
Aus
[ai < Xi ≤ bi
= B\
= B\
∀i = 1, . . . , k] = B ∩
k
[
!
i=1
[Xi ≤ ai ]c
i=1
[Xi ≤ ai ]
i=1
k
[
k
\
([Xi ≤ ai ] ∩ B) = B \
k
[
Ai
i=1
folgt
P (a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ) = F (b1 , . . . , bk ) − P
k
[
i=1
Ai
!
.
Eine Anwendung des verallgemeinerten Additionstheorems ergibt
!
k
k
X
X
[
Ai =
(−1)h+1
P
P (Ai1 ∩ · · · ∩ Aih ).
i=1
h=1
1≤i1 <···<ih ≤k
Daraus folgt
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ]) = F (b1 , . . . , bk )
+
k
X
(−1)h
h=1
=
X
X
1≤i1 <···<ih ≤k
Pk
i=1 ǫi
(−1)
(ǫ1 ,...,ǫk )∈{0,1}k
P (Ai1 ∩ · · · ∩ Aih )
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) .
Mehrdimensionale Verteilungsfunktionen haben folgende Eigenschaften:
Satz 3.6 Ist F eine k-dimensionale Verteilungsfunktion, so gilt
1.
2.
0 ≤ F (x1 , . . . , xk ) ≤ 1
∀(x1 , . . . , xk ) ∈ Rk
lim F (x1 , . . . , xi , xi+1 , . . . , xk ) = 0
xi →−∞
47
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
3.
lim
min1≤i≤k xi →∞
F (x1 , . . . , xk ) = 1
4. F ist in jeder Argumentvariablen monoton, d.h.
xi ≤ yi ⇒ F (x1 , . . . , xi , . . . , xk ) ≤ F (x1 , . . . , xi−1 , yi , xi+1 , . . . , xk )
5. F ist in jeder Argumentvariablen rechtsstetig, d.h.
lim F (x1 , . . . , xi + hn , . . . , xk ) = F (x1 , . . . , xi , . . . , xk )
hn ↓0
6.
X
Pk
(−1)
(ǫ1 ,...,ǫk )∈{0,1}k
∀ai ≤ bi
i=1 ǫi
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk ) ≥ 0
i = 1, . . . , k
Beweis.Die Beweise für 1)–5) gehen genauso wie im eindimensionalen Fall.
6) folgt unmittelbar aus dem vorigen Satz.
Wenn die (X1 , . . . , Xk ) ua sind, so gilt:
FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ∈ (−∞, x1 ], . . . , Xk ∈ (−∞, xk ]) =
k
Y
FXi (xi )
i=1
d.h. die gemeinsame Verteilungsfunktion ist das Produkt der Verteilungsfunktionen
der einzelnen Zufallsvariablen. Aber es gilt auch die Umkehrung.
Satz 3.7 Die Zufallsvariablen (X1 , . . . , Xk ) sind genau dann unabhängig, wenn gilt:
FX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
FXi (xi ).
i=1
Beweis.Die eine Richtung ist klar. Die andere beweisen wir durch vollständige Induktion.
Sei k = 2:
P (X1 ∈ (a1 , b1 ], X2 ∈ (a2 , b2 ])
= F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 )
= F1 (b1 )F2 (b2 ) − F1 (a1 )F2 (b2 ) − F1 (b1 )F2 (a2 ) + F1 (a1 )F2 (a2 )
= [F1 (b1 ) − F1 (a1 )] [F2 (b2 ) − F2 (a2 )]
= P (X1 ∈ (a1 , b1 ]) P (X2 ∈ (a2 , b2 ])
∀ai ≤ bi
48
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Angenommen für h = 1, . . . , k − 1 sei gezeigt, daß aus
h
Y
FX1 ,...,Xh (x1 , . . . , xh ) =
FXi (xi )
i=1
folgt
PX1 ,...,Xh ((a1 , b1 ] × · · · × (ah , bh ])
=
1
X
ǫ1 =0
=
h
Y
···
1
X
h
Y
Ph
i=1 ǫi
(−1)
ǫh =0
FXi (ǫi ai + (1 − ǫi )bi )
i=1
PXi ((ai , bi ]) ,
i=1
dann gilt:
PX1 ,...,Xk ((a1 , b1 ] × · · · × (ak , bk ])
=
1
X
ǫ1 =0
=
1
X
ǫ1 =0
···
···
1
1
X
X
ǫk−1 =0 ǫk =0
1
1
X
X
= F (bk ) 
1
X
ǫ1 =0

− F (ak ) 
···
1
X
ǫ1 =0
F (ǫ1 a1 + (1 − ǫ1 )b1 , . . . , ǫk ak + (1 − ǫk )bk )
Pk
k−1
Y
(−1)
ǫk−1 =0 ǫk =0

Pk
(−1)
1
X
i=1 ǫi
i=1 ǫi
Pk−1
(−1)
ǫk−1 =0
···
i=1
1
X
i=1
k−1
Y
i=1
Pk−1
(−1)
ǫk−1 =0
ǫi
FXi (ǫi ai + (1 − ǫi )bi ) · F (ǫk ak + (1 − ǫk )bk )
i=1
ǫi

FXi (ǫi ai + (1 − ǫi )bi )
k−1
Y
i=1

FXi (ǫi ai + (1 − ǫi )bi )
= F (bk )PX1 ,...,Xk−1 (a1 , b1 ] × · · · × (ak−1 , bk−1 ]
− F (ak )PX1 ,...,Xk−1 (a1 , b1 ] × · · · × (ak−1 , bk−1 ]
= P (Xk ∈ (ak , bk ]) ·
k−1
Y
i=1
P (ai < Xi ≤ bi ).
Satz 3.8 Hat (X1 , . . . , Xk ) eine stetige gemeinsame Verteilung mit der Dichte
fX1 ,...,Xk (x1 , . . . , xk ), und bezeichnet man die Randdichten von Xi mit fXi , so gilt:
(X1 , . . . , Xk ) sind genau dann unabhängig, wenn
fX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
i=1
fXi (xi )
∀(x1 , . . . , xk ) ∈ Rk
49
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
Beweis.Sei
f (x1 , . . . , xk ) = fX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
i=1
FX1 ,...,Xk (x1 , . . . , xk ) =
Zx1
−∞
=
Zx1
−∞
···
···
Zxk
−∞
fX1 (t1 ) · · · fXk (tk ) dt1 · · · dtk


 x

Zk




fXk (tk ) dtk 
fX1 (t1 ) · · · fXk−1 (tk−1 ) 
 dt1 · · · dtk−1


−∞
|
{z
}
xZk−1
−∞
fXi (xi ) ⇒
FXk (xk )
= FXk (xk )
Zx1
−∞
···
xZk−1
−∞
fX1 (t1 ) · · · fXk−1 (tk−1 ) dt1 · · · dtk−1
= · · · = FXk (xk ) · · · FX1 (x1 ).
Daraus folgt aber, daß die (X1 , . . . , Xk ) unabhängig sind.
Aus der Unabhängigkeit von (X1 , . . . , Xk ) folgt umgekehrt:
F (x1 , . . . , xk ) =
k
Y
FXi (xi )
i=1
=
=
k Zxi
Y
i=1−∞
Zx1
−∞
···
fXi (ti ) dti =
Zxk Y
k
−∞ i=1
Zx1
−∞
fX1 (t1 ) dt1 · · ·
Zxk
fXk (tk ) dtk
−∞
fXi (ti ) dt1 · · · dtk .
Daraus folgt:
P (a1 < X1 ≤ b1 , . . . , ak < Xk ≤ bk ) =
Daher ist die Funktion
lung von (X1 , . . . , Xk ).
Qk
i=1 fXi (ti )
Zb1
a1
···
Zbk Y
k
ak
i=1
fXi (ti ) dt1 · · · dtk .
eine Dichtefunktion für die gemeinsame Vertei-
Den Zusammenhang zwischen verschiedenen Zufallsvariablen kann man mit Hilfe
der bedingten Wahrscheinlichkeitsverteilung charakterisieren. Sind die Zufallsvariablen X, Y diskret, so gilt:
P (X = x | Y = y) =
P (X = x, Y = y)
P (Y = y)
(wenn P (Y = y) > 0)
50
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Wir nennen dann P (X = x | Y = y) die durch Y = y bedingte Wahrscheinlichkeitsverteilung von X.
51
3.2. MEHRDIMENSIONALE ZUFALLSVARIABLE
Beispiel 3.14 (Fortsetzung von Bsp. 3.10)
ad 1:
P (X = x | Y = y) =
P (X = x)P (Y = y)
= P (X = x)
P (Y = y)
P (X = x | Y = y) =
ad 2:
0 für x 6= 3 − y
1 für x = 3 − y
ad 3: die bedingte Wahrscheinlichkeitsverteilung von X ändert sich für jeden Wert
von Y beispielsweise:
P (X = x | Y = 0) ergibt sich zu:
P (X = x | Y = 1) ergibt sich zu:
(0, 321 , 161 , 321 )
P (Y
=0)= 18
( 321 , 81 , 325 , 161 )
P (Y =1)= 38
..
.
= 0, 14 , 12 , 14
=
1 1 5 1
12 , 3 , 12 , 6
2
2
Komplizierter ist die Definition einer bedingten Wahrscheinlichkeit im stetigen Fall,
da ja die Ereignisse [Y = y] dann die Wahrscheinlichkeit 0 haben. Wir können jedoch
folgende bedingte Wahrscheinlichkeiten betrachten:
R x R y+∆y
f (u, v) du dv
−∞ y
P (X ≤ x | y ≤ Y ≤ y + ∆y) =
R y+∆y
fY (v) dv
y
Sei angenommen, daß der lim P (X ≤ x | y ≤ Y ≤ y + ∆y) existiere, und daß
∆y→0
der Limes und die Integralzeichen vertauschbar seien. (Dies ist etwa der Fall, wenn
(X, Y ) nur Werte aus einem abgeschlossenen Rechteck [a, b] × [c, d] annehmen kann.)
Dann gilt:
R y+∆y
f (u, v) dv
y
F (u, ∆y) := R y+∆y
fY (v) dv
y
ist als stetige Funktion gleichmäßig stetig und konvergiert mit ∆y → 0 gegen ff(u,y)
.
Y (y)
(Dies gilt wegen des Mittelwertsatzes der Integralrechnung, wenn f stetig ist.) Dann
erhält man:
Zx R y+∆y f (u, v) dv
y
lim P (X ≤ x | y ≤ Y ≤ y + ∆y) = lim
du
R y+∆y
∆y→0
∆y→0
f
(v)
dv
Y
y
−∞
2
Man beachte, daß die Summen der einzelnen Wahrscheinlichkeiten (wie z.B.:
natürlich gleich 1 sein müssen.
0, 41 , 21 ,
1
4
)
52
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
=
=
=
Zx
−∞
Zx
−∞
Zx
−∞
R y+∆y
y
lim R y+∆y
∆y→0
f (u, v) dv
y
fY (v) dv
!
du
f (u, ỹ)∆y
du
˜
∆y→0 f (ỹ)∆y
Y
lim
f (u, y)
du
fY (y)
(ỹ, ỹ˜ ∈ [y, y + ∆y])
Definition 3.10
fX,Y (x, y)
fY (y)
fX|Y (x | y) :=
heißt die durch Y = y bedingte Dichte von X.
Klarerweise gilt:
f (x, y) = fY (y) · fX|Y (x | y).
Beispiel 3.15 Sei (X, Y ) gleichverteilt auf dem Kreis mit dem Radius 1
f (x, y) =


1
π
 0
sonst
√
2
Z1−y
1
fY (y) =
π √
−
für x2 + y 2 ≤ 1
1−y 2
√
2 1 − x2
fX (x) =
π
p
2 1 − y2
du =
π
für − 1 ≤ y ≤ 1
für − 1 ≤ x ≤ 1
f (x, y) 6= fX (x) · fY (y) ⇒ (X, Y ) sind voneinander abhängig.
fX|Y (x | y) =

1

 2√1−y2

 0
für −
sonst
p
1 − y2 ≤ x ≤
p
1 − y2
i
h p
p
d.h. fX|Y beschreibt eine Gleichverteilung auf − 1 − y 2 , 1 − y 2 .
3.3. TRANSFORMATION VON ZUFALLSVARIABLEN
3.3
53
Transformation von Zufallsvariablen
Sei X eine Zufallsvariable mit dem induzierten Raum (Ω′ , S′ , PX ), und sei ϕ eine
zweite Abbildung von Ω′ in einen Raum Ω′′ (∈ R) mit ϕ−1 ((a, b]) ∈ S′ (ϕ ist also
auch eine Zufallsvariable, die den Bildraum in einen weiteren Bildraum abbildet),
so bildet die Zusammensetzung der beiden Funktionen ϕ ◦ X den ursprünglichen
Raum Ω in Ω′′ ab. (Auch hier kümmern wir uns nicht um das Problem, welche
Funktionen Zufallsvariable sind, da alle für uns wichtigen Funktionen, etwa stetige
Funktionen oder monotone Funktionen, Zufallsvariable sind.) Es erhebt sich nun
die Frage, welche Verteilung durch ϕ ◦ X induziert wird. Wenn ϕ und X einige
verhältnismäßig schwache Bedingungen erfüllen, kann die Frage ziemlich einfach
beantwortet werden.
Satz 3.9 (Transformationssatz)
Sei X eine stetige Zufallsvariable mit der Dichtefunktion f und sei ϕ eine strikt
monotone Funktion, die auf dem Wertebereich von X eine stetige, nichtverschwindende Ableitung besitzen möge, dann gibt es zu y = ϕ(x) eine Umkehrabbildung
x = Ψ(y) = ϕ−1 (y), und Y = ϕ ◦ X hat dann die folgende Dichte:
dΨ(y) fY (y) = f (Ψ(y)) dy Beweis.Falls ϕ monoton nichtfallend ist, gilt
FY (y) = P (ϕ ◦ X ≤ y)
= P X ≤ ϕ−1 (y) =
Für ϕ ց erhält man
FY (y) = P (ϕ ◦ X ≤ y)
−1
= P X>ϕ
=
(y) =
−1 (y)
ϕZ
f (u) du =
−∞
−∞
+∞
Z
Zy
′
f ϕ−1 (v) ϕ−1 (v) dv.
f (u) du
ϕ−1 (y)
−∞
Zy
Z
−1′
′
−1
f ϕ−1 (v) ϕ−1 (v) dv.
f ϕ (v) ϕ (v) dv =
y
−∞
′
(Die letzte Gleichung folgt aus der Substitutionsregel mit v = ϕ(u), du
dv = Ψ (v)).
Bemerkung.Der obige Transformationssatz gilt auch dann, wenn R in disjunkte
Intervalle Ij mit j = 1, . . . , k zerlegt werden kann, auf welchen ϕ strikt monoton ist.
Y hat dann die folgende Dichte:
k
dϕ−1 (v) X
j
f ϕ−1
fY (v) =
j (v) dv j=1
54
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
wobei ϕ−1
j die Umkehrabbildung von ϕ : Ij → R ist.
Beispiel 3.16 Sei
X vt S−1/2,1/2 , y = ϕ(x) = x2 , I1 = [0, ∞), I2 = (−∞, 0)
x = Ψ1 (y) =
√
y
√
x = Ψ2 (y) = − y
fY (y) =



dΨ1
dy
=
dΨ2
dy
1

= − 2√
y 
1
√
2 y
 √
√
1 1 
−
+
 2 y 2 y =

 0
√1
y
⇒
für 0 ≤ y ≤
1
4
sonst
Bemerkung.Der Transformationssatz kann auch auf mehrdimensionale Zufallsvariable ausgedehnt werden. Wir führen diese Erweiterung ohne Beweis an.
Satz 3.10 (k-dimensionaler Transformationssatz)
~ = (X1 , . . . , Xk ) ein k-dimensionaler stetiger Zufallsvektor mit der Dichte
Sei X
f (x1 , . . . , xk ) und A eine offene Teilmenge von Rk , in der die yi = ϕi (x1 , . . . , xk )
eindeutig bestimmte Umkehrfunktionen xi = ϕ−1
i (y1 , . . . , yk ) mit i = 1, . . . , k besitzen mögen. Weiters seien die ϕi auf A stetig differenzierbar und die Jacobische
Determinante
−1 ∂ϕ |J| := i ∂yj
~ =
möge überall in A von 0 verschieden sein, dann ist Y
Zufallsvektor mit der Dichte
y ) |J|
y ), . . . , ϕ−1
fY~ (y1 , . . . , yk ) = f ϕ−1
1 (~
k (~
~ . . . , ϕ (X)
~
ϕ1 (X),
ein
k
∀~y = (y1 , . . . , yk ) : ∃~x = (x1 , . . . , xk ) : ~y = (ϕ1 (~x), . . . , ϕk (~x)) , ~x ∈ A
Beispiel 3.17 (Faltung)
Seien X1 , X2 unabhängige Zufallsvariable mit den Dichten fX1 und fX2 . Man bestimme die Verteilung der Summe Y1 = X1 + X2 .
y1 = ϕ1 (x1 , x2 ) = x1 + x2
y2 = ϕ2 (x1 , x2 ) = x2
1 −1 =1
|J| = 0
1 x = Ψ1 (y1 , y2 ) = y1 − y2
⇒ 1
x2 = Ψ2 (y2 ) = y2
⇒
3.3. TRANSFORMATION VON ZUFALLSVARIABLEN
Y = (ϕ1 (X1 , X2 ), ϕ2 (X1 , X2 )) ;
55
Y1 = ϕ1 (X1 , X2 ) = X1 + X2 , Y2 = ϕ2 (X1 , X2 ) = X2
fY (y1 , y2 ) = fX1 (y1 − y2 ) · fX2 (y2 ) · 1 ⇒
R
R
fY1 (y1 ) = fY (y1 , y2 ) dy2 = fX1 (y1 − y2 ) · fX2 (y2 ) dy2 .
Man nennt fY1 die Faltung der Dichten fX1 und fX2 und schreibt dafür oft auch
f X1 ∗ f X2 .
Im folgenden Beispiel wird ein für die Praxis wichtiges Problem behandelt, nämlich
die Erzeugung von Zufallszahlen, die einer bestimmten Verteilung genügen, durch
geeignete Transformation von gleichverteilten Zufallszahlen.
Beispiel 3.18 Auf einem Computer sei eine Prozedur RANDOM implementiert, die
auf [0, 1] gleichverteilte Zufallszahlen erzeugt. Um die Lebensdauer einer Maschine
zu simulieren, benötigt man aber Zufallszahlen, die Eλ -verteilt sind. Kann man sich
mit Hilfe der gleichverteilten Zufallszahlen auch exponentialverteilte Zufallszahlen
generieren?
Sei X die durch RANDOM erzeugte Zufallszahl. Da X vt S[0,1] und
F (x) := 1 − e−λx ∈ [0, 1)
∀x ≥ 0,
gilt:
P (X ≤ F (x)) = F (x)
Nun ist die Aussage X ≤ F (x) äquivalent zu F −1 (X) ≤ x (da F streng monoton
wächst, gibt es eine Umkehrabbildung F −1 : [0, 1) → [0, ∞)). Somit gilt:
P (F −1 ◦ X ≤ x) = F (x)
d.h.: F −1 ◦ X ist vt Eλ . Wegen
y = F (x) = 1 − e−λx
gilt:
x = F −1 (y) = −
ln(1 − y)
.
λ
Somit ist
ln(1 − X)
λ
vt Eλ , wenn X vt S[0,1) .
Dies bedeutet F −1 ◦ X ist eine Transformation von X, die Eλ verteilt ist.
Y := −
Umgekehrt können aus Zufallszahlen, welche gemäß einer Verteilung mit Verteilungsfunktion F gebildet wurden, gleichverteilte Zufallszahlen erzeugt werden.
56
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Beispiel 3.19 Sei X eine Zufallsvariable mit Verteilungsfunktion F , und sei F stetig und streng monoton, sodaß die Umkehrabbildung F −1 existiere. Dann ist F ◦ X
eine Transformation von X, welche wegen 0 ≤ F ≤ 1 in [0, 1] abbildet.
FF ◦X (x) = P (F ◦ X ≤ x) = P (X ≤ F −1 (x)).
Da X vt mit Verteilungfunktion F ist, gilt
P (X ≤ a) = F (a).
Mit a = F −1 (x) erhält man daraus
P (X ≤ F −1 (x)) = F (F −1 (x)) = x.
Somit
P (a ≤ F ◦ X ≤ b) = b − a
∀0 ≤ a, b ≤ 1.
Also ist F ◦ X vt S[0,1] .
3.4
Die Faltung
Bereits im vorigen Kapitel wurde die Dichte der Summe von zwei ua stetigen Zufallsvariablen bestimmt. Diese Dichte kann auch durch die folgenden Überlegungen
hergeleitet werden:
Seien X, Y stetig: sei fϕ,Y die Dichte von (ϕ, Y ) mit ϕ := X + Y – dann gilt:
Z
fϕ (z) = fϕ|Y (z | v)fY (v)dv.
Da ϕ = z unter der Bedingung, daß Y = v, genau dann gilt, wenn X = z − v, muß
ϕ unter der Bedingung Y = v verteilt sein wie X + v. Daher müssen die bedingten
Dichten von ϕ und X + v unter der Bedingung Y = v übereinstimmen, also
fϕ|Y (z | v) = fX+v|Y (z | v)
Nun sind aber X und Y und damit auch X + v und Y unabhängig voneinander.
Somit gilt:
fX+v|Y (z | v) = fX+v (z)
Wegen
P (X + v ≤ z) = P (X ≤ z − v)
muß auch gelten
fX+v (z) = fX (z − v)
∀z ∈ R
57
3.4. DIE FALTUNG
Setzt man in die Gleichung für fϕ (z) ein, so erhält man:
Z
fϕ (z) = fX (z − v)fY (v) dv
Seien (X, Y ) nun zwei unabhängige, diskrete Zufallsvariable. In diesem Fall ist die
Verteilung von ϕ leicht zu bestimmen: Sei Ω′X ∪ Ω′Y := {z1 , . . . , zk }. Aus dem Satz
über die vollständige Wahrscheinlichkeit folgt:
P (ϕ = z)
=
=
k
X
i=1
k
X
i=1
P (Y = zi )P (X = z − zi | Y = zi )
P (X = z − zi )P (Y = zi )
(def.: P (X = x | Y = z) · P (Y = z) = 0, wenn P (Y = z) = 0)
Beispiel 3.20 X sei Bn,p -verteilt und Y sei Ap -verteilt; X und Y seien unabhängig.
Gesucht ist die Verteilung von ϕ = X +Y . Da X als Anzahl der “Erfolge” im Verlauf
von n unabhängigen Versuchen und Y als “Erfolg” oder “Mißerfolg” im n + 1-ten
Versuch gedeutet werden kann, so kann ϕ als die Anzahl der “Erfolge” in n + 1
unabhängigen Versuchen angesehen werden. Man wird daher erwarten, daß ϕ vt
Bn+1,p . Tatsächlich gilt:
P (ϕ = k) = P (Y = 0)P (X = k) + P (Y = 1)P (X = k − 1)
n k
n
n+1−k
=
p (1 − p)
+
pk (1 − p)n−(k−1)
k
k−1
n+1 k
=
p (1 − p)n+1−k
k
Beispiel 3.21 Sei X vt Bm,p , Y vt Bn,p . Gesucht ist die Verteilung von ϕ = X + Y ,
wenn X und Y unabhängig sind. Auf Grund des obigen Beispiels wird man erwarten,
daß ϕ Bm+n,p -verteilt ist. Tatsächlich gilt:
X
m i
n
m−i
P (X + Y = k) =
p (1 − p)
pk−i (1 − p)n−k+i
i
k−i
0≤i≤min{k,m}
X
m
n
k
n+m−k
= p (1 − p)
.
i
k−i
0≤i≤min{k,m}
Wegen
(1 + x)m (1 + x)n = (1 + x)m+n
58
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
und unter Zuhilfenahme des Binomischen Lehrsatzes erhält man:
!  n  m+n m X
m i X n j  X m + n k
x
x
=
x
i
j
k
i=0
j=0
k=0
Die linke Seite stimmt überein mit:


min{k,m} m+n
X
X
m
n 
xk 
i
k−i
k=0
i=0
ein Koeffizientenvergleich ergibt:
min{k,m} X
m
n
m+n
=
.
i
k−i
k
i=0
Damit erhält man:
P (X + Y = k) =
m+n k
p (1 − p)m+n−k
k
Einfacher läßt sich die Verteilung von X + Y jedoch durch folgende Überlegung bestimmen:
Jede binomialverteilte Zufallsvariable ist – wie schon früher erwähnt – die Summe
P
von ua alternativverteilten Zufallsvariablen, d.h. Y = m
i=1 Yi mit Yi vt Ap ∀i und
Pm−1
die Yi sind ua, somit ist Ỹ := i=1 Yi vt Bm−1,p . Angenommen wir wissen bereits,
daß für X vt Bn,p , Y vt Bk,p mit k ≤ m − 1, X, Y ua gilt X + Y vt Bn+k,p , dann
kann mit vollständiger Induktion gezeigt werden, daß stets gilt
X + Y vt Bn+m,p
∀n, m ∈ N.
Es gilt nämlich
X +Y =X +
m−1
X
Yi + Ym = (X + Ỹ ) + Ym .
i=1
Nun gilt nach Induktionsannahme X + Ỹ vt Bn+m−1,p , Ym vt Ap , X + Ỹ und Ym
sind ua.
Daraus folgt
(X + Ỹ ) + Ym vt Bm+n,p .
Beispiel 3.22 X, Y seien S(0,1) -verteilt und unabhängig. Wie ist ϕ = X + Y verteilt? (siehe Abb. 3.3). Klarerweise gilt: fϕ (z) = 0 für z 6∈ (0, 2).

1 für 0 ≤ z − y ≤ 1 


fX (z − y) =

0 sonst
⇒

1 für 0 ≤ y ≤ 1


fY (y) =

0 sonst
59
3.4. DIE FALTUNG
f (ϕ)
1
0
1
2
z
Abbildung 3.3:
fX (z − y)fY (y) =
fϕ (z) =
 Rz


1dy


 0
1 für max{0, z − 1} ≤ y ≤ min{1, z}
0 sonst


für 0 ≤ z ≤ 1 



R1


1dy für 1 ≤ z ≤ 2


 z−1


0



z
fϕ (z) =

2
−z


 0
für
für
für
für
z≤0
0<z≤1
1<z≤2
z>2














⇒
⇒
60
KAPITEL 3. ZUFALLSVARIABLE UND VERTEILUNGSFUNKTIONEN
Kapitel 4
Erwartungswert und andere
Lageparameter
4.1
Erwartungswert einer diskreten Zufallsvariablen
Wir beginnen mit einem Beispiel.
Beispiel 4.1 Eine Urne enthalte 30 Lose, davon seien 20 leer, auf 4 Losen stehe
die Zahl 2, auf 3 Losen die Zahl 3, auf 2 Losen die Zahl 4 und auf einem Los stehe
5. Für einen bestimmten Einsatz darf ein Spieler ein Los ziehen. Die Zahl, die auf
dem gezogenen Los steht, wird als Gewinn ausbezahlt. Nach jeder Ziehung wird
das ausgewählte Los durch ein gleichartiges ersetzt und die Urne neu gemischt. Eine
Computersimulation mit 100 Ziehungen ergab die in der folgenden Tabelle stehenden
Häufigkeiten.
Tabelle 4.1:
Losnummer:
Häufigkeit:
5
5
4
7
3
12
2
16
0
60
Die Bank hätte daher bei diesen 100 Ziehungen im Schnitt pro Spiel folgenden
Betrag ausbezahlen müssen.
5
7
12
16
5·
+4·
+3·
+2·
= 1.21 S
100
100
100
100
Konnte mit einem derartigen Ergebnis gerechnet werden? – Man wird intuitiv annehmen, daß sich bei vielen Versuchsdurchführungen die relativen Häufigkeiten der einzelnen Versuchsausgänge an die theoretischen Wahrscheinlichkeiten annähern. Diese
Wahrscheinlichkeiten sind in unserem Beispiel gegeben durch:
61
62
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Tabelle 4.2:
Losnummer:
Häufigkeit:
5·
5
4
3
2
0
1
30
1
15
1
10
2
15
2
3
1
1
1
2
+4·
+3·
+2·
=1S
30
15
10
15
Daher wird man “erwarten”, daß ein Gewinn von S 1 im Durchschnitt pro Spiel auszubezahlen sein wird. Eine Computersimulation mit 1000 Ziehungen hat beispielsweise folgendes Ergebnis erbracht (siehe Tabelle 4.3):
Tabelle 4.3:
Losnummer:
Häufigkeit:
5
30
4
75
3
98
2
140
0
657
Dies ergibt einen durchschnittlichen Gewinn von S 1,024 pro Spiel.
Wir definieren daher:
Definition 4.1 Ist X eine nichtnegative diskrete Zufallsvariable mit den möglichen
Werten Ω′ = {xn , n ∈ N}, und ist die Wahrscheinlichkeit PX von X festgelegt durch:
PX (xn ) = pn ,
P
so bezeichnet man die Summe ∞
n=1 xn pn als den Erwartungswert (Mittelwert) von
P∞
X (im Zeichen EX := n=1 xn pn ).
Diese Summe kann auch ∞ sein. Ist X eine beliebige diskrete Zufallsvariable, so
betrachtet man die Summen:
X
S+ =
xn p n
xn ≥0
und
S− =
X
(−xn )pn
xn <0
und man definiert den Erwartungswert von X als EX = S+ − S− , wenn zumindest
eine dieser Summen endlich ist. Man sagt der Erwartungswert von X existiert nicht,
wenn sowohl S+ als auch S− unendlich ist.
4.1. ERWARTUNGSWERT EINER DISKRETEN ZUFALLSVARIABLEN
63
Beispiel 4.2 Sei X vt Ap : Dann gilt
PX (1) = 1 − PX (0) = p.
Daher:
EX = 1 · p + 0 · (1 − p) = p
Beispiel 4.3 Sei X vt Gp mit 0 < p < 1; q := 1 − p
EX =
∞
X
ipq
i−1
=p·
i=1
= p·
∞
X
q
i=0
i
!′
∞
X
iq i−1
i=1
=p·
1
1−q
′
=p·
1
1
=
(1 − q)2
p
Für p = 1/2 gilt also EX = 2.
Die folgenden bekannten Beispiele zeigen, daß man die Rahmenbedingungen eines
Versuchs (etwa eines Gücksspiels) sehr kritisch betrachten sollte, bevor Entscheidungen auf der Grundlage des Erwartungswertes getroffen werden.
Beispiel 4.4 (Petersburger Paradoxon)
Eine Münze wird sooft geworfen, bis sie erstmals auf “Kopf” fällt. Der Spieler bekommt 2n S , wenn dies beim n-ten Wurf der Fall ist. Wie groß ist der durchschnittliche Gewinn pro Spiel? Sei X der Gewinn des Spielers, dann gilt:
EX =
∞
X
2n
n=1
2n
=∞
Ist dieses Spiel tatsächlich jeden beliebig hohen Einsatz wert? Wie groß ist der durchschnittliche Gewinn pro Spiel, wenn pro Spiel höchstens 2N S ausbezahlt werden?
In diesem Fall gilt:
EX =
N
X
2n
n=1
2n
N
+2
1
2N +1
+
1
2N +2
+ ···
=N +1
Das bedeutet z.B., daß das Spiel nur 33 S wert ist, wenn die “Bank” maximal
4.294.967.296 Schilling ausbezahlen würde.
Beispiel 4.5 (Verdoppelungsstrategie)
Eine Münze wird geworfen – fällt sie auf “Kopf”, so bekommt der Spieler das Doppelte seines Einsatzes, fällt sie auf “Adler”, so geht der Einsatz verloren. Ein Spieler
beschließt nun solange zu spielen, bis er das erste Mal gewinnt, und dabei von Spiel
zu Spiel seinen Einsatz jeweils zu verdoppeln. Ist diese Strategie zweckmäßig?
Sei X der Nettogewinn unseres Spielers. Beginnt er mit einem Einsatz von 1 S
64
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
beim ersten Spiel, und gewinnt er erstmals beim n-ten Spiel, so hat er insgesamt
1 + 2 + 4 + .... + 2n−1 = 2n − 1 Schilling eingesetzt und bekommt 2n ausbezahlt. Der
Nettogewinn ist daher stets 2n − (2n − 1) = 1. Daher gilt:
EX =
∞
X
1
=1
2n
n=1
Es scheint also sinnvoll zu sein, der obigen Strategie zu folgen, wenngleich der Nettogewinn bescheiden ist. Wie aber sieht die Situation aus, wenn der Spieler maximal
2N S verspielen kann?
Dann gilt
!
N
−1
∞
X
X
1
1
EX =
+
· −1 − 2 · · · − 2N −1
n
N
+i
2
2
n=1
i=0
1 − 2N
= −1
2N −1
2N −1
Unter der realistischen Annahme beschränkter Mittel kann man also auf Dauer nur
verlieren.
= 1−
1
+
Häufig interessiert man sich nicht für den Erwartungswert einer Zufallsvariablen, sondern für den Erwartungswert einer Transformation dieser Zufallsvariablen.
Bezeichnet etwa X die Losnummer in Beispiel 4.1, und bekommt der Spieler das
10-fache dieser Nummer bei einem Einsatz von 15 S pro Spiel, so wird ihn der Erwartungswert seines Nettogewinns (-verlustes) Y = ϕ(X) = 10X − 15 interessieren.
~ = (X , . . . , X ) ein diskreter Zufallsvektor und ϕ : Rk → R eine FunkIst etwa X
1
k
tion, die höchstens abzählbar viele Werte {yn ; n ∈ N} annehmen kann, so ist
ϕ(X1 , . . . , Xk ) eine diskrete Zufallsvariable. Aufgrund der Definition für den Erwartungswert gilt daher:
X
Eϕ(X1 , . . . , Xk ) =
yn · P (ϕ(X1 , . . . , Xk ) = yn )
N
=
=
X
yn
X
PX1 ,...,Xk (x1 , . . . , xk )
n
x1 ,...,xk :ϕ(x1 ,...,xk )=yn
X
ϕ(x1 , . . . , xk ) · P ((X1 , . . . , Xk ) = (x1 , . . . , xk )) ,
x1 ,...,xk
sofern diese Summe wohldefiniert ist.
In Beispiel 4.1 erhält man dann:
EY =
35
1
1
2
2
+ 25 ·
+ 15 ·
+5·
− 15 · = −5 S
30
15
10
15
3
~ oder
Der Erwartungswert kann also entweder mit Hilfe der Verteilung von ϕ ◦ X
~ selbst berechnet werden. Damit können einige wichtige Eigenschaften des
von X
Erwartungswertes hergeleitet werden.
4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES
65
1. Falls ϕ ◦ X = c konstant ist, so gilt
Eϕ ◦ X = Ec = cP ({ω : ϕ ◦ X(ω) = c}) = cP (Ω) = c
2. Homogenität:
EαX =
X
αxn pn = α
X
xn pn = αEX
3. Additivität: Von besonderem Interesse ist der Fall ϕ(X1 , X2 ) = X1 + X2 . Sei
X1 eine Zufallsvariable mit den möglichen Werten {xn : n ∈ N} und X2 die
Zufallsvariable mit dem Wertebereich {ym : m ∈ N}.
E(X1 + X2 ) =
X
n,m
=
X
n
+
(xn + ym ) · P (X1 = xn , X2 = ym )
xn ·
X
m
=
X
n
X
P (X1 = xn , X2 = ym )
m
ym ·
X
P (X1 = xn , X2 = ym )
n
xn · P (X1 = xn ) +
= EX1 + EX2
X
m
ym · P (X2 = ym )
Man beachte, daß diese Gleichung sowohl für unabhängige als auch für abhängige Zufallsvariable gilt. So ist etwa leicht zu sehen, daß im Beispiel 3.10 des
Kapitels 3 stets gilt: E(X + Y ) = 3, obwohl die gemeinsame Verteilung von X
und Y in allen 3 Modifikationen anders aussieht.
4. Monotonie:
X1 ≤ X2 ⇒ EX1 ≤ EX2
(X1 , X2 . . . diskret)
(der Beweis hierzu ist trivial)
Daraus folgt wegen −|X| ≤ X ≤ |X| auch −E|X| ≤ EX ≤ E|X| und damit
|EX| ≤ E|X|
4.2
Allgemeine Definition des Erwartungswertes
Es erhebt sich als nächstes die Frage, ob der Begriff des Erwartungswerts auch für
beliebige Zufallsvariable sinnvoll definiert werden kann – dazu ein Beispiel:
66
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Beispiel 4.6 Ein Zufallszahlengenerator X erzeuge auf [0, 1] stetig gleichverteilte
Zufallszahlen. Sei weiters angenommen, daß nur Zahlen x, y unterschieden werden
können mit |x − y| ≥ n1 , und sei weiters angenommen, daß X durch ni approximiert wird, wenn ni ≤ X < i+1
n . Dann erhält man anstelle von X eine diskrete
Zufallsvariable Xn mit:
EXn =
n−1
n−1
X
i 1
n2 − n
1 X
1
1
i=
· = 2
= −
2
n n
n
2n
2 2n
i=0
i=0
Mit zunehmender Genauigkeit (d.h. n → ∞) konvergieren diese Erwartungswerte
gegen 21 . Es wird daher sinnvoll sein, 21 als Erwartungswert von X anzusehen.
Allgemein kann man so vorgehen: Ist X eine nichtnegative Zufallsvariable, so bildet
man eine Folge diskreter Zufallsvariabler Xn durch
i−1
i
i−1
, für
≤X< .
n
n
n
Xn :=
Xn kann auch folgendermaßen angeschrieben werden:
Xn =
Xi−1
i∈N
n
1[X∈ [ i−1 , i ) ]
n
1
n
Klarerweise gilt |Xn − X| < 1/n.
Diese diskreten Zufallsvariablen Xn sind klarerweise nichtnegativ und besitzen daher
einen Erwartungswert EXn . Wenn EXn = ∞ ∀n ∈ N, so wird man EX durch
EX = ∞ festsetzen.
Gilt hingegen für ein n ∈ N EXn < ∞, so folgt aus
|Xm − Xn | ≤ |Xm − X| + |X − Xn | ≤
1
1
+
n m
und wegen
EXm = E|Xm − Xn + Xn | ≤ E(|Xm − Xn | + |Xn |) = E|Xm − Xn | + E|Xn |,
daß auch gilt:
EXm < ∞
∀m ∈ N.
Weiters gilt:
|EXm − EXn | ≤ E|Xm − Xn | ≤
1
1A ist die Indikatorfunktion von A, d.h.
0 für ω 6∈ A
1A (ω) =
1 für ω ∈ A
1
1
+
n m
4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES
67
Die EXn bilden also eine Cauchyfolge, und deshalb existiert der Grenzwert EX :=
lim EXn , den man Erwartungswert von X nennt.
n
Ist X eine beliebige Zufallsvariable, so bildet man X + := max{X, 0} und X − :=
− min{X, 0}. Man nennt X + den Positivteil von X, X − heißt Negativteil. X +
und X − sind nichtnegative Zufallsvariable, deren Erwartungswerte gebildet werden können. Wenn EX + = EX − = ∞ ist, so sagt man: der Erwartungswert von X
existiert nicht – ansonsten bezeichnet man EX = EX + − EX − als den Erwartungswert von X.
Wir fassen die obige Diskussion zusammen und definieren:
Definition 4.2 Ist X eine nichtnegative Zufallsvariable und ist der Erwartungswert
aller Diskretisierungen Xn von X unendlich, so definiert man
EX = ∞.
Falls aber mindestens eine Diskretisierung Xn einen endlichen Erwartungswert hat,
so existiert der Grenzwert limn EXn und man definiert
EX := lim EXn .
n
Ist X eine beliebige Zufallsvariable, so definiert man
EX := EX + − EX − ,
wenn min{EX + , EX − } < ∞. Ansonsten sagt man: der Erwartungswert von X existiert nicht.
Da die Eigenschaften 1)–4) bei der Limesbildung erhalten bleiben, können wir folgenden Satz formulieren:
Satz 4.1 (Eigenschaften des Erwartungswerts)
1. Homogenität: Ist X eine Zufallsvariable und α ∈ R, so gilt EαX = αEX.
2. Additivität: Sind X, Y Zufallsvariable, so gilt E(X + Y ) = EX + EY .
3. Monotonie: X ≤ Y ⇒ EX ≤ EY
4. |EX| ≤ E|X|
Bemerkung.Bei den Gleichungen und Ungleichungen des obigen Satzes wird immer
vorausgesetzt, daß die entsprechenden Erwartungswerte existieren und die Summen
wohldefiniert sind.
Der obige Grenzübergang wird in der Praxis im allgemeinen nur schwer nachzuvollziehen sein. Ist X aber stetig, so kann man EX durch eine einfache Formel berechnen:
68
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Sei f die Dichte von X, dann gilt:
EX + = lim EXn+
n
= lim
n
∞
X
i−1
n
i=2
= lim
n
P
i
Zn
∞
X
i−1
f (u) du
n
i=2
i−1
i
≤X<
n
n
i−1
n
Aufgrund des Mittelwertsatzes der Integralrechnung gilt:
i
Zn
f (ũi )
f (u) du =
n
i−1 i
mit ũi ∈
,
n n
i−1
n
Wir erhalten daher:
EX + = lim
n
∞
X
i − 1 f (ũi )
n
n
mit ũi ∈
i=2
i−1 i
,
n n
Obiger Grenzwert ist aber nichts anderes als das Integral
Z∞
xf (x) dx.
0
Analog zeigt man
EX
−
=
Z0
(−x)f (x) dx.
−∞
Wenn eines der beiden Integrale endlich ist, dann gilt:
+
−
EX = EX − EX =
Z∞
xf (x) dx.
−∞
Beispiel 4.7 Sei X vt S(a,b) . Dann gilt
EX =
EX =
Zb
a
x
dx =
b−a
b+a
2
b2 − a 2
b+a
=
2(b − a)
2
69
4.2. ALLGEMEINE DEFINITION DES ERWARTUNGSWERTES
Beispiel 4.8 Sei X vt Eλ . Dann gilt
1
λ
EX =
EX =
Z∞
1
λ
λxe−λx dx =
Z∞
ye−y dy =
0
0

1
−ye−y |∞
0 +
λ
Z∞
0

e−y dy  =
1
λ
~ = (X , . . . , X ) ein stetiger Zufallsvektor mit der Dichte f ~ (x , . . . , x ), so
Ist X
k
1
k
X 1
kann man analog zur obigen Formel zeigen, daß gilt
Eϕ(X1 , . . . , Xk ) =
Z∞
−∞
···
Z∞
−∞
ϕ(x1 , . . . , xk )fX~ (x1 , . . . , xk ) dx1 · · · dxk
Für k = 1 ergibt das
Eϕ ◦ X =
Z∞
ϕ(x)f (x) dx
−∞
Wenn ϕ strikt monoton mit nichtverschwindender Ableitung ist, so kann man y =
ϕ(x) substituieren, und man erhält:
Eϕ ◦ X =
Z∞
−1
yf ϕ
−∞
Z∞
dϕ−1 (y) (y) yfϕ◦X (y) dy
dy =
dy −∞
Beispiel 4.9 X sei Eλ -verteilt mit
λ > 1; y = ϕ(x) = ex ; Eϕ ◦ X =?
R∞
Eϕ ◦ X =
ex λe−λx dx =
0
R∞
λe−(λ−1)x dx =
0
λ
λ−1
R∞
(λ − 1)e−(λ−1)x dx =
0
Eϕ ◦ X kann aber auch so berechnet werden:
fϕ◦X (y) =
Eϕ ◦ X =
λe−λ ln y
= λy −λ−1
y
Z∞
1
λyy
−λ−1
dy =
Z∞
1
∀1 ≤ y < ∞
λy
−λ
∞
λ
λy −λ+1 =
dy =
−λ + 1 1
λ−1
λ
λ−1
70
4.3
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Weitere Eigenschaften des Erwartungswertes
Durch vollständige Induktion kann die Additivität des Erwartungswertes auf n Summanden ausgedehnt werden.
Satz 4.2 Falls alle Erwartungswerte der Zufallsvariablen X1 , . . . , Xn und
P
existieren und falls die Summe ni=1 EXi wohldefiniert ist, so gilt
Pn
i=1 Xi
E(X1 + · · · + Xn ) = EX1 + EX2 + · · · + EXn
Damit kann auf sehr einfache Weise der Erwartungswert einer binomialverteilten
Zufallsvariablen bestimmt werden.
Beispiel 4.10 Sind X1 , . . . , Xn unabhängige identisch nach Ap verteilte Zufallsvarian
P
ble, so wissen wir bereits, daß X :=
Xi nach Bn,p verteilt ist.
i=1
EX = E
n
X
i=1
Xi =
n
X
EXi = np
i=1
Aus der Additivität des Erwartungswertes folgt auch die nächste Aussage:
Satz 4.3 Ist X eine Zufallsvariable mit endlichem Erwartungswert µ = EX, so gilt:
E|X − µ|1[X≤µ] = E|X − µ|1[X≥µ]
Beweis.
X = X1[X<µ] + X1[X≥µ] ⇒
µ = EX = EX1[X<µ] + EX1[X≥µ] ⇒
µ [P (X < µ) + P (X ≥ µ)]
= EX1[X<µ] + EX1[X≥µ] ⇒
µP (X < µ) − EX1[X<µ] = EX1[X≥µ] − µP (X ≥ µ) ⇒
E(µ − X)1[X<µ] = E(X − µ)1[X≥µ] ⇒
E|X − µ|1[X<µ] = E|X − µ|1[X≥µ] ⇒
E|X − µ|1[X≤µ] = E|X − µ|1[X≥µ]
Bemerkung.Ist X stetig mit der Dichte f , so reduziert sich obige Gleichung auf:
Zµ
−∞
|x − µ|f (x) dx =
Z∞
µ
|x − µ|f (x) dx.
71
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
Ist X diskret und nimmt es die Werte {xn , n ∈ N} mit den Wahrscheinlichkeiten
P (X = xn ) = pn an, so erhält man:
X
X
|xn − µ| pn =
|xn − µ| pn
xn ≤µ
xn ≥µ
Das heißt: die gewichtete Summe der Abstände der Werte, die links von µ liegen, ist
gleich der Summe der Abstände rechts von µ. Dazu ein Beispiel:
Beispiel 4.11 An einer Straße stehen 9 Häuser. Die Anzahl der Bewohner und die
Lage der Häuser ist der Skizze 4.1 zu entnehmen. In der Straße soll eine Bushal1
0
2
10 20
3
3
2
40 50 60
2
110
5
1
2
130 140 150
✲
m
Abbildung 4.1:
testelle so errichtet werden, daß die Bewohner, die links der Haltestelle wohnen,
in Summe eine genauso lange Wegstrecke zur Haltestelle haben, wie die Bewohner
rechts der Haltestelle. Alle Bewohner benutzen den Bus etwa gleich häufig. Wo ist
die Haltestelle zu errichten?
Lösung: Bezeichnet X den Ausgangspunkt eines Straßenanrainers, so nimmt X die
Werte Xi = 10, 20, 40, 50, 60, 110, 130, 140 und 150 mit den Wahrscheinlichkeiten
pi = 1/21, 2/21, 3/21, 3/21, 2/21, 2/21, 5/21, 1/21, 2/21 an. Die Haltestelle soll an
einer Stelle µ errichtet werden, für welche gilt:
X
X
|xi − µ|pi =
|xi − µ|pi
xi ≤µ
xi ≥µ
Bildet man den Erwartungswert von X, so erhält man:
µ = EX
10 + 2 · 20 + 3 · 40 + 3 · 50 + 2 · 60 + 2 · 110 + 5 · 130 + 140 + 2 · 150
=
21
1750
= 83.3̇
=
21
Manchmal kann die Linearität des Erwartungswertes dazu verwendet werden, das
Mittel einer Zufallsvariablen zu bestimmen, ohne deren Verteilung zu kennen. Dazu
ein Beispiel:
Beispiel 4.12 Eine Urne enthält 8 schwarze und 2 weiße Kugeln. Ein Spieler A zieht
solange ohne Zurücklegen, bis er eine weiße Kugel erwischt. Danach zieht Spieler B
ebenfalls, bis er eine weiße Kugel erhält. Jeder Spieler hat seinem Gegner für jede
72
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Ziehung, die er benötigt, 1 S zu bezahlen. Ist das Spiel fair?
Sei X1 (X2 ) die Anzahl der von Spieler A (B) benötigten Ziehungen. Y sei die
Anzahl der in der Urne verbleibenden Kugeln. Dann gilt mit X3 := Y + 1:
X1 + X2 + Y = 10 ⇒ E(X1 + X2 + X3 ) = EX1 + EX2 + EX3 = 11
Die Zufallsvariablen X1 , X2 , X3 haben alle die gleiche Verteilung. Das sieht man so:
Man ordne die Kugeln in der Reihenfolge der Ziehungen kreisförmig im Uhrzeigersinn
an (siehe Abb. 4.2). Um den Beginn der Ziehungen zu kennzeichnen, setze man eine
besonders gekennzeichnete zusätzliche Kugel – etwa eine durch ein Kreuz gekennzeichnete Kugel – zwischen die erste und die letzte Kugel. Man sieht sofort, daß X1
zu X3 wird, wenn man die markierte und die im Uhrzeigersinn erste weiße Kugel
vertauscht. X2 wird dann zu X1 und X3 zu X2 . Da alle Anordnungen der Kugeln am
Kreis gleichwahrscheinlich sind, ändert eine derartige Vertauschung nichts an den
Verteilungen der Xi . Daher muß X3 wie X1 und X1 wie X2 verteilt sein.
⑤
⑤
⑤
❧
⑤
✎☞
✍✌⑦
❩
⑦
❩
⑤
⑤
❧
⑤
❧
Abbildung 4.2:
Daraus folgt:
11 = X1 + X2 + X3 = E(X1 + X2 + X3 ) = EX1 + EX2 + EX3 = 3EX1 ⇒
11
EX1 = EX2 =
3
Beispiel 4.13 Sei X1 , X2 , . . . eine Folge unabhängiger identisch nach Ap verteilter
Zufallsvariabler mit
P (Xi = 1) = 1 − P (Xi = 0) = p.
Q
Sei λk := max{i : ij=0 Xk+j = 1}, d.h. λk ist die Länge einer Serie von Versuchen,
die von k beginnend alle auf 1 enden. Gesucht ist Eλk . Sei
ϕ1 = Xk
ϕ2 = Xk Xk+1
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
73
..
.
ϕi = Xk Xk+1 · · · Xk+i−1
Somit gilt
ϕi = 1 ⇔ Xk = Xk+1 = · · · = Xk+i−1 = 1
und
λk = ϕ1 + ϕ2 + · · · =
P
Eϕn
Eλk =
P
N
ϕn ⇒
N
Aus
P (ϕn = 1) = P (Xk = Xk+1 = · · · = Xk+n−1 = 1) = pn
folgt:
Eϕn = pn
Dies wiederum impliziert:
X
p
pn =
Eλk =
1−p
N
Sei nun λ die Länge einer ununterbrochenen Serie von Einsen. Gesucht ist Eλ. Eine
Serie beginnt irgendwo mit einem Versuch, der auf 1 endet. Sei daher ϕ̄0 = 1. Setze
nun ϕ̄1 = 1 genau dann, wenn auch der folgende Versuch auf 1 endet, ϕ̄2 = 1, wenn
die beiden folgenden Versuche auf 1 enden, usw. Daraus folgt sofort:
P (ϕ̄n = 1) = pn ⇒ Eϕ̄n = pn
Wegen
λ = ϕ̄0 + ϕ̄1 + ϕ̄2 + · · · = 1 +
X
ϕ̄n
N
gilt:
Eλ = 1 +
X
pn =
1
1−p
Das folgende Beispiel ist eine stetige Version von Beispiel 4.12:
Beispiel 4.14 Seien X1 , . . . , Xn n unabhängige nach S0,1 identisch verteilte Zufallsvariable. Ordnet man die X1 , . . . , Xn nach wachsender Größe, so erhält man
eine Permutation X(1) , . . . , X(n) der ursprünglichen Folge. (X(1) = min Xi , X(2)
1≤i≤n
das 2-kleinste Xi , etc. ) X(i) nennt man die i-te Ordnungsstatistik. Gesucht sei:
74
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
EX(i) mit i = 1, . . . , n.
Wir betrachten zunächst die Differenzen:
Y1 := X(1) − 0; Y2 := X(2) − X(1) ; . . . ; Yn := X(n) − X(n−1) ; Yn+1 := 1 − X(n)
Offensichtlich gilt also:
n+1
X
Yi = 1
i=1
Daraus folgt:
1=E
n+1
X
Yi =
n+1
X
EYi
i=1
i=1
Kann man nun zeigen, daß alle Yi der gleichen Verteilung genügen, so folgt daraus:
EY1 = EYi =
1
n+1
∀i = 1, . . . , n + 1
Dann müßte aber auch gelten:
EX(i) = E
i
X
Yj =
i
X
j=1
j=1
EYj =
i
n+1
Um zu zeigen, daß alle Yi identisch verteilt sind, denke man sich das Intervall zu einem Kreis vom Umfang 1 gebogen. Auf dem Kreis wählen wir zufällig einen Punkt x0
als Ausgangspunkt aus. Danach wählen wir n Punkte x1 , x2 , . . . , xn . Ordnet man nun
die Punkte von x0 weg im Uhrzeigersinn, so erhält man die Folge x(0) , x(1) , . . . , x(n) .
Da die Punkte x0 , x1 , . . . , xn voneinander unabhängig und identisch verteilt sind,
müssen auch die Längen der Kreisbögen zwischen benachbarten Punkten x(i) −x(i−1)
identisch verteilt sein. Diese Differenzen entsprechen aber genau den Yi . Damit ist
der Beweis fertig.
Man beachte aber, daß folgendes gilt:
EXi =
Z1
0
x dx =
1
2
∀i = 1, . . . , n
Definition 4.3 Eine Zufallsvariable heißt symmetrisch um das Zentrum a verteilt,
wenn gilt:
P (X ≤ a − x) = P (X ≥ a + x)
∀x ∈ R
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
75
Äquivalent zu obiger Definition ist die Bedingung:
F (a − x) = 1 − F (a + x − 0)
∀x ∈ R
Dies kann durch:
f (a − x) = −F ′ (a − x) = f (a + x) = (F (a + x) − 1)′
∀x ∈ R
ersetzt werden, wenn X stetig mit der Dichte f verteilt ist. Eine diskrete Zufallsvariable ist klarerweise genau dann symmetrisch um a verteilt, wenn
P (X = a − x) = P (X = a + x)
∀x ∈ R
gilt.
Für symmetrische Zufallsvariable gilt folgender Satz:
Satz 4.4 Ist X eine um a ∈ R symmetrisch verteilte Zufallsvariable, deren Erwartungswert endlich ist, so gilt:
EX = a
Beweis.Wir beweisen den Satz nur für stetige Zufallsvariable (für diskrete Zufallsvariable ist der Beweis trivial).
EX =
Za
xf (x) dx +
Z∞
xf (x) dx
a
−∞
(substituiere: x = a − y bzw. x = a + y)
Z∞
Z∞
=
(a − y)f (a − y) dy + (a + y)f (a + y) dy
0

= a
= a
0
Z∞
0
Za
−∞
Z∞
= a
f (a − y) dy +
f (x) dx + a
Z∞
Z∞
0

f (a + y) dy 
f (x) dx
a
f (x) dx = a
−∞
Bemerkung.Der Beweis für beliebige Zufallsvariable kann aus der Gültigkeit der
Aussage für diskrete Zufallsvariable unter Zuhilfenahme der Definition des Erwartungswertes einer beliebigen Zufallsvariablen hergeleitet werden und wird dem Leser
überlassen.
76
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
R 1
Beispiel 4.15 Aus der Analysis ist bekannt, daß 1+x
2 dx = arctan x + c gilt,
1
eine
Dichte.
Zufallsvariable
mit
dieser Dichte nennt man
daher ist f (x) = π(1+x
2)
cauchyverteilt. Offensichtlich ist f symmetrisch um 0 verteilt. Aber aus
ZM
0
folgt:
Z∞
M
x
1
2 dx =
ln(1 + x )
2
π(1 + x )
2π
0
x
dx =
π(1 + x2 )
0
Z0
−∞
−x
dx = ∞
π(1 + x2 )
Daher hat eine cauchyverteilte Zufallsvariable keinen Erwartungswert, und der obige
Satz ist nicht anwendbar.
Sind X und Y zwei unabhängige diskrete Zufallsvariable mit den Werten {xn : n ∈
N} bzw. {ym : m ∈ N}, so gilt:
X
EXY =
xn ym P (X = xn , Y = ym )
n,m
=
X
xn ym P (X = xn )P (Y = ym )
n,m
=
X
xn P (X = xn )
n
X
ym P (Y = ym )
m
= EXEY
Für beliebige unabhängige Zufallsvariable X, Y kann man die Formel wieder durch
Diskretisierung und Grenzübergang beweisen. Aber für stetige Zufallsvariable X, Y
mit der Dichte f (x, y) ist die Herleitung genauso einfach, wie im diskreten Fall: Da
(X, Y ) unabhängig sind, gilt:
f (x, y) = fX (x)fY (y)
Daraus folgt:
EXY
=
=
=
ZZ
xyf (x, y) dx dy
ZZ
Z
xfX (x)yfY (y) dx dy
Z
xfX (x) dx yfY (y) dy
= EXEY
Wir können daher folgenden Satz formulieren:
77
4.3. WEITERE EIGENSCHAFTEN DES ERWARTUNGSWERTES
Satz 4.5 Sind X, Y zwei unabhängige Zufallsvariable, deren Erwartungswerte endlich sind, so gilt
EXY = EXEY.
Auch bei manchen spieltheoretischen Problemen ist es nützlich, die entsprechenden Erwartungswerte zu betrachten.
Beispiel 4.16 Ist das folgende Spiel fair? 2 Spieler A und B haben je 2 Lose, eines,
das mit “1”, und eines, das mit “2” numeriert ist. Jeder Spieler wählt ein Los ohne zu
wissen, was der andere zieht. Ist die Gesamtsumme der Zahlen auf den ausgewählten
Losen gerade, so gewinnt A einen Betrag in der Höhe dieser Summe von B; ist die
Gesamtsumme jedoch ungerade, so hat er diese Summe an B zu zahlen.
Die obengestellte Frage ist nicht unmittelbar zu beantworten, denn es kommt auf
die Spielstrategie von A und B an – oder mit anderen Worten auf die Wahrscheinlichkeiten, mit der die Spieler ihre Lose wählen. Sei X die Wahl von A und Y die
Wahl von B. Sei weiters angenommen, daß P (X = 1) = α, P (X = 2) = 1 − α und
P (Y = 1) = β, P (Y = 2) = 1 − β. Da kein Spieler weiß, welches Los der Gegner
wählt, wird man X und Y als unabhängig annehmen. Bezeichnen wir den Gewinn
von A mit ϕ, so ist ϕ zweifellos eine Funktion von X und Y , die sich aus Tabelle 4.4
ergibt. Für Eϕ erhält man daher:
Tabelle 4.4:
Y
1
2
X
1
2
2
-3
-3
4
Eα,β ϕ = 2P (X = 1, Y = 1) + 4P (X = 2, Y = 2)
− 3(P (X = 1, Y = 2) + P (X = 2, Y = 1))
= 2αβ + 4(1 − α)(1 − β) − 3α(1 − β) − 3(1 − α)β
= β(12α − 7) − 7α + 4
= α(12β − 7) − 7β + 4
1
7
, so gilt stets: Eα,β ϕ = − 12
, egal welche Wahrscheinlichkeit
Wählt nun B sein β = 12
1
α A wählt. Das heißt: max Eα, 7 ϕ = − 12 . Daher gilt erst recht: min max Eα,β ϕ ≤
α
12
β
α
1
. Das bedeutet, daß bei optimaler Spielweise beider Spieler die Gewinnerwartung
− 12
von A negativ ist. Das Spiel bevorzugt also B.
78
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Beispiel 4.17 Eine Urne enthalte 1 Los mit der Zahl 5, 2 Lose mit 4, 3 Lose mit 3
und 4 Lose mit der Nummer 2. Der Spieler muß vor jeder Ziehung die Losnummer
raten. Tippt er richtig, so erhält er die Losnummer als Gewinn ausbezahlt – ansonsten geht er leer aus. Ähnlich wie in Beispiel 4.16 benötigen wir eine Zufallsvariable
Y , welche die Entscheidung des Spielers beschreibt. Bezeichnet X die Nummer des
gezogenen Loses, so gilt für den Gewinn:
i wenn X = Y = i i = 2, 3, 4, 5
ϕ=
0 sonst
und:
EY ϕ =
5
X
i=2
iP (X = i, Y = i) =
5
X
iP (X = i)P (Y = i)
i=2
Sei qi := P (Y = i) i = 2, 3, 4, 5. Wählt der Spieler jede der Nummern 2 bis 5 mit
der gleichen Wahrscheinlichkeit aus – also qi = 14 i = 2, 3, 4, 5, so erhält man:
5
4·2 3·3 2·4
3
1
EY ϕ =
+
+
+
· =
10
10
10
10
4
4
Allgemein gilt:
EY ϕ =
1
[5q5 + 8q4 + 9q3 + 8q2 ]
10
q5 + q4 + q3 + q2 = 1
Dieser Ausdruck wird maximal für q3 = 1, qi = 0 sonst – d.h.: max Eq ϕ =
q
9
10 .
Aber
ein Spieler, der sein gesamtes Kapital stets auf ’3’ setzt, wird nach n Runden mit
3 n
verloren haben. (Das ist nach 2 Runden bereits
der Wahrscheinlichkeit 1 − 10
eine Wahrscheinlichkeit von 0.91 – nach 3 Runden eine von 0.97.)
4.4
Andere Lageparameter
Aber nicht immer ist es sinnvoll, den Erwartungswert als Entscheidungsgrundlage
zu nehmen, wie die folgenden Beispiele zeigen werden:
Beispiel 4.18 Ein Würfel wird sooft geworfen, bis er das erste Mal auf “6” fällt.
Ein Spieler erhält einen Gewinn von K Schilling, wenn er die notwendige Anzahl
von Würfen errät – ansonsten geht er leer aus. Worauf soll er tippen?
Ist X die Anzahl der Würfe bis zur ersten “6”, so wissen wir, daß X nach G 1 verteilt
5
6
ist und daher EX = 6 gilt (siehe Beispiel 4.3). Aber P (X = 6) = 656 = 0.067 ≪
P (X = 1) = 16 = 0.167. Der sinnvollste Tip n wird also der sein, für den gilt:
P (X = n) = max P (X = i) = P (X = 1).
i
Wir definieren:
4.4. ANDERE LAGEPARAMETER
79
Definition 4.4 Ist X eine diskrete Zufallsvariable mit den Werten {xn : n ∈ N},
so nennt man jenen Wert xm den Modus (im Zeichen: mod(X)), für den gilt:
P (X = xm ) = max P (xn )
n
Gibt es mehrere derartige Werte, so wird jeder davon Modus genannt.
Ist X stetig mit der Dichte f , so nennt man einen Wert x0 den Modus, wenn
f (x0 ) = max f (x)
x
(im stetigen Fall muß der Modus nicht existieren).
Erwartungswert und Modus werden Lageparameter genannt, da sie dazu dienen, die
Lage der möglichen Werte einer Zufallsvariablen (der möglichen Versuchsausgänge)
auf der Zahlengeraden zu charakterisieren. Ein weiterer wichtiger Lageparameter ist
der Median:
Definition 4.5 Ist X eine Zufallsvariable mit der Verteilungsfunktion F , so nennt
man jenen Wert m den Median (im Zeichen: med(X)), für den gilt:
1
≤ F (m)
2
Allgemeiner heißt ein Wert xp ein p-Fraktile der Verteilung F , wenn:
F (m − 0) ≤
F (xp − 0) ≤ p ≤ F (xp ) 0 ≤ p ≤ 1
(Statt p-Fraktile sagt man oft auch p-Quantile.)
Ein Vorteil, der den Median gegenüber dem Modus und Erwartungswert auszeichnet, ist die Tatsache, daß er für jede Verteilung existiert; er muß aber nicht immer
eindeutig bestimmt sein. So ist etwa jeder Wert aus [0, 1] Median der Verteilung mit
der Verteilungsfunktion
1
1
+ 1[1,∞) (siehe Abb 4.3).
2 [0,1)
Der Median hat folgende wichtige Eigenschaft:
F (x) =
Satz 4.6 Ist X eine Zufallsvariable mit dem Median m, so gilt:
E|X − m| = min E|X − a|
a∈R
Beweis.Wenn E|X| = ∞ gilt, so folgt aus |X| ≤ |X − a| + |a| auch:
E|X − a| = ∞
∀a ∈ R
und die obige Gleichung gilt.
Sei nun E|X| < ∞. Aus |X − a| ≤ |X| + |a| folgt auch:
E|X − a| < ∞
∀a ∈ R
80
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
1
F (x)
0.5
0
-1
0
1
x
2
Abbildung 4.3:
Es gelte ohne Einschränkung der Allgemeinheit:
m<a
Wegen
gilt:

für X > a
 m−a
|X − a| − |X − m| =
a + m − 2X für m < X ≤ a

a−m
für X ≤ m
|X − a| − |X − m| ≥
m − a für X > m
a − m für X ≤ m
Daraus folgt:
E|X − a| − E|X − m|
= E (|X − a| − |X − m|) ≥ E(a − m) 1[X≤m] − 1[X>m]
= (a − m) (P (X ≤ m) − P (X > m)) = (a − m) (2F (m) − 1)
1
≥ (a − m) 2 − 1 ≥ 0
2
Analog dazu zeigt man, daß auch für a < m gilt:
E|X − m| ≤ E|X − a|
Wir kehren nun zurück zu Beispiel 4.11:
3
81
4.4. ANDERE LAGEPARAMETER
Beispiel 4.19 (Fortsetzung von Beispiel 4.11)
Wo muß die Bushaltestelle in Beispiel 4.11 errichtet werden, wenn die Summe der
Wegstrecken aller Bewohner minimiert werden soll? Nach dem oben Gesagten ist
klar, daß der gesuchte Punkt gleich dem Median der durch pi gebildeten WahrP
9
< 12 ≤ F (60) =
scheinlichkeitsverteilung ist. Man sieht sofort, daß
pi = 21
xi <60
P
gilt.
Daher
ist
m
=
60
der
Median
und
somit der optimale Punkt für
pi = 11
21
xi ≤60
die Bushaltestelle.
Man beachte, daß dies auch dann der optimale Ort ist, wenn die Häuser wie in
Abb. 4.4 liegen. Eine Verschiebung der rechts liegenden Häuser um z.B. 800 m nach
rechts ändert somit nichts an der Lage der Haltestelle! Kann man angesichts dieser
Tatsache das obige Optimalitätskriterium bedenkenlos übernehmen?
1
0
2
10 20
3
3
2
40 50 60
2
910
5
1
2
930 940 950
✲
m
Abbildung 4.4:
Aus obigem Beispiel ist unschwer zu erkennen, daß der Median unempfindlich gegenüber Änderungen in der Größenordnung der Werte einer Zufallsvariablen ist. Für
seine Ermittlung haben nur die relative Lage der Werte zueinander und ihre Wahrscheinlichkeiten eine Bedeutung. Es wird demnach bei allen Problemen, bei denen
die Größe der Werte einer Zufallsvariablen eine wesentliche Rolle spielt, wenig angebracht sein, dem Median eine allzu große Aussagekraft beizumessen.
Aufgabe: Auf welchen Ausgang sollte ein Spieler setzen, wenn man das Spiel
in Beispiel 4.18 dahingehend modifiziert, daß der Spieler zwar stets einen gewissen
Gewinn K erhält – aber bei jedem Spiel einen Einsatz zu zahlen hat, der dem
Abstand seines Tips vom richtigen Ergebnis entspricht?
(Lösung: m = 4, P (X ≤ 3) = 0.423 P (X ≤ 4) = 0.518)
Wir wissen bereits, daß eine lineare Transformation einer Zufallsvariablen auch
zu einer linearen Transformation des Erwartungswertes führt – d.h.
E(αX + β) = αEX + β
∀α, β ∈ R
Diese Eigenschaft trifft auch auf die beiden anderen Lageparameter zu.
Es gilt:
mod(αX + β) = αmod(X) + β
med(αX + β) = αmed(X) + β
82
KAPITEL 4. ERWARTUNGSWERT UND ANDERE LAGEPARAMETER
Der Beweis für diese Behauptung ergibt sich unmittelbar aus den Definitionen von
Modus und Median.
Kapitel 5
Streuungsparameter
So wichtig die Kenntnis der Lageparameter einer Zufallsvariablen auch sein mag, im
allgemeinen wird sie nicht ausreichen um das Verhalten der Zufallsvariablen angemessen zu beschreiben, wie das folgende Beispiel zeigt:
Beispiel 5.1
1. Ein Spieler soll vorhersagen, auf welche Augenzahl ein Würfel
fällt. Bei richtigem Tip bekommt er eine fixe Summe K ausbezahlt.
2. Nun soll der Spieler vorhersagen, wie oft eine Münze im Verlauf von 7 Würfen
auf “Adler” fällt. Wieder wird nur der richtige Tip honoriert.
3. In einer Urne befinden sich gleichviele mit “3” bzw. mit “4” gekennzeichnete
Lose. Der Spieler soll die Nummer des gezogenen Loses erraten. Auch diesmal
wird nur der richtige Tip honoriert.
Man sieht leicht, daß in allen 3 Fällen der Erwartungswert 3.5 und der Median
jeder Wert zwischen 3 und 4 ist. 3 und 4 sind überdies in allen 3 Fällen Modalwerte. In Beispiel 1 ist jeder Wert Modus. Dennoch ist klar, daß der Spieler am
ehesten bei der Variante 3 gewinnt und am schwierigsten bei Variante 1, da die
möglichen Ausgänge in diesem Fall wesentlich stärker “streuen”, als bei den beiden
anderen Spielvarianten. Wir wollen daher versuchen, dieses Streuverhalten der Zufallsvariablen durch eine Kennzahl – den Streuungsparameter – zu charakterisieren.
Die einfachste Möglichkeit besteht darin, die Differenz zwischen dem größten und
dem kleinsten möglichen Wert – die sogenannte Spannweite – anzugeben. Dies ist
jedoch dann problematisch, wenn die Extremwerte der Zufallsvariablen nur mit sehr
geringen Wahrscheinlichkeiten auftreten und weit entfernt vom Zentrum der Verteilung sind, während der Großteil der anderen Werte sehr wenig streut. In diesem Fall
täuscht die große Spannweite eine große Streuung vor, die in Wahrheit gar nicht vorhanden ist. Gänzlich unbrauchbar ist die Spannweite, wenn die Zufallsvariable Werte
aus einem unendlichen Intervall der Zahlengeraden annehmen kann, etwa bei exponentialverteilten Zufallsvariablen oder bei geometrisch verteilten Zufallsvariablen.
83
84
KAPITEL 5. STREUUNGSPARAMETER
Diese Schwierigkeiten lassen sich vermeiden, indem man anstelle der Spannweiten
den Fraktil-(Quartil-) abstand Q = x0.75 − x0.25 verwendet. In Beispiel 5.1 erhält
man folgende Quartilabstände:
1. Q = 5 − 2 = 3
2. Q = 4 − 3 = 1
3. Q = 4 − 3 = 1
Man sieht, daß zwischen 2 und 3 trotz des unterschiedlichen Streuverhaltens mit
dem Quartilabstand nicht unterschieden werden kann.
Eine andere Art von Streuungsparameter erhält man, wenn man die Abstände der
Werte der Zufallsvariablen um einen Punkt a mittelt.
Definition 5.1 Ist X eine Zufallsvariable, so nennt man
Da := E|X − a|
die mittlere absolute Abweichung von a.
Wir wissen bereits, daß für den Median m gilt:
E|X − m| = min E|X − a|
a∈R
Daher wird die mittlere absolute Abweichung von m von besonderem Interesse sein.
(Manchesmal betrachtet man auch die mittlere absolute Abweichung vom Erwartungswert.) In Beispiel 5.1 erhält man folgende Absolutabweichungen vom Median:
1.
1
6
2.
1
128
3.
1
2
· (2 + 1 + 0 + 1 + 2 + 3) =
3
2
· (3 + 2 · 7 + 1 · 21 + 0 + 1 · 35 + 2 · 21 + 3 · 7 + 4) =
· (0 + 1) =
35
32
1
2
Der wichtigste Streuungsparameter ist jedoch die Varianz.
Definition 5.2 Unter Varianz versteht man das Mittel der quadratischen Abweichungen vom Erwartungswert – also
var X = σ 2 := E(X − EX)2
Anstelle der Varianz kann auch die mittlere quadratische Abweichung von einem
beliebigen Punkt a ∈ R betrachtet werden, doch gilt:
85
Satz 5.1 Ist X eine Zufallsvariable mit dem Erwartungswert µ = EX ∈ R, so gilt:
1.
E(X − a)2 = E(X − µ)2 + (µ − a)2
2.
E(X − µ)2 := min E(X − a)2
a∈R
Beweis.
1.
E(X − a)2
= E ((X − µ) + (µ − a))2
= E(X − µ)2 + E(µ − a)2 + 2E(µ − a)(X − µ)
= E(X − µ)2 + (µ − a)2 + 2(µ − a)(EX − µ)
= E(X − µ)2 + (µ − a)2
2. Der obige Ausdruck wird offensichtlich minimal für a = µ.
Bemerkung.Für a = 0 erhält man:
σ 2 = EX 2 − µ2
Diese Formel wird Steinerscher Verschiebungssatz genannt.
Wir wollen wieder für Beispiel 5.1 die Werte der Varianzen bestimmen. Man erhält
in Bsp. 5.1 (1)
6
σ2 =
1X 2
i − 3.52 = 2.916̇
6
i=1
in Bsp. 5.1 (2)
σ2 =
7
4
in Bsp. 5.1 (3)
σ2 =
1
4
Da die mittlere quadratische Abweichung in der Größenordnung der Quadrate der
Abstände liegt, die mittlere absolute Abweichung jedoch in der Größenordnung der
Abstände selbst, ist es schwer die beiden Streuungsparameter
p zu vergleichen. Statt
der Varianz betrachtet man daher oft die Wurzel σ =
E(X − µ)2 . Diese wird
Streuung genannt.
86
KAPITEL 5. STREUUNGSPARAMETER
Satz 5.2 (Ungleichung von Schwarz)
Seien X und Y zwei Zufallsvariable mit EX 2 , EY 2 < ∞, dann gilt
√
√
E|XY | ≤ EX 2 · EY 2
Beweis.Sei EX 2 = EY 2 = 1; X ≥ 0, Y ≥ 0. Dann erhält man:
X
Y 2 EX 2 EY 2
0≤E √ −√
+
− EXY ⇒ EXY ≤ 1
=
2
2
2
2
Sind nun X und Y beliebig, so bildet man:
|Y |
|X|
X̃ := √ , Ỹ := √
X2
Y2
Wegen X̃ ≥ 0, Ỹ ≥ 0 und EX̃ 2 = EỸ 2 = 1 muß folgendes gelten:
√
E|XY |
√
≤1
EX 2 EY 2
Bemerkung.Eine unmittelbare Folgerung der Schwarzschen Ungleichung ist die
folgende Aussage:
Korollar 5.3 Sei X eine Zufallsvariable mit EX 2 < ∞, dann gilt auch E|X| < ∞
und somit EX ∈ R.
Korollar 5.4 Ist X eine Zufallsvariable mit dem Mittelwert µ und dem Median m,
so gilt:
p
Dm ≤ Dµ ≤ σ ≤ E(X − m)2
Beweis.Die erste und die dritte Ungleichung ergeben sich aus den Minimalitätseigenschaften von Median und Erwartungswert. Es bleibt also nur die mittlere Ungleichung zu zeigen. Aus der Schwarzschen Ungleichung folgt nun:
√
p
p
E|X − µ||1| ≤ E(X − µ)2 E12 = E(X − µ)2
Weitere Eigenschaften der Varianz sind:
Satz 5.5 Sind X, Y Zufallsvariable und a, b ∈ R, so gilt:
1.
var(aX + b) = a2 var(X)
2.
var(X + Y ) = var(X) + var(Y ) + 2E(X − EX)(Y − EY )
3. X, Y seien unabhängig ⇒ var(X + Y ) = var(X) + var(Y )
allgemein: X1 , . . . , Xn seien unabhängig
⇒ var(X1 + · · · + Xn ) =
n
X
i=1
var(Xi )
87
Bemerkung.E(X − EX)(Y − EY ) heißt Kovarianz von X und Y . (im Zeichen:
cov(X, Y ) = E(X − EX).(Y − EY ))
Beweis.
1.
2
E [aX + b − E(aX + b)]2 = Ea2 (X − EX)2 = a2 σX
2.
E(X + Y − EX − EY )2 = E [(X − EX) + (Y − EY )]2
2
= σX
+ σY2 + 2E(X + EX)(Y − EY )
3. Falls X, Y unabhängig sind, so gilt:
E(X − EX)(Y − EY ) = E(X − EX)E(Y − EY ) = 0
d.h.: die Kovarianz unabhängiger Zufallsvariabler ist 0. Die Verallgemeinerung
ergibt sich durch vollständige Induktion.
Wir wollen als nächstes die Varianz für einige spezielle Zufallsvariable bestimmen:
1. X sei vt Ap
σ 2 = EX 2 − p2 = p · 12 + (1 − p) · 0 − p2 = p(1 − p)
2. X sei vt Bn,p . Wir wissen, daß die Summe von n unabhängigen alternativverteilten Zufallsvariablen Y1 , . . . , Yn nach Bn,p verteilt ist. Daraus folgt:
2
σX
2
=σ =
n
X
i=1
σY2 i = np(1 − p)
3. X sei vt Gp
EX(X − 1)
∞
X
i(i − 1)(1 − p)i−1 p
=
=
i=2
∞
X
i=0
=
i
(1 − p)
!′′
p(1 − p) = p(1 − p)(p−1 )′′
2(1 − p)
2(1 − p) 1
1
1−p
2p(1 − p)
2
=
⇒ σX
=
+ − 2 =
3
2
2
p
p
p
p p
p2
88
KAPITEL 5. STREUUNGSPARAMETER
4. X sei vt HN,A,n
X kann wieder als Summe von n Zufallsvariablen Yi , die nach AA/N verteilt
sind, dargestellt werden. Diese Zufallsvariablen sind aber nicht unabhängig.
A
EX = EY1 + · · · + EYn = n N
n 2 n 2
P
P
2 =E
Yi − E
σX
Yi
i=1
E
n
P
i=1
Yi
2
= nEY12 +
i=1
P
i6=j
EYi Yj
Nun gilt:
EY12 = 1
A
+0
N
EYi Yj =
A A−1
⇒
N N −1
und
2
σX
=
=
=
=
=
=
A
n
N
A
n
N
A
n
N
A
n
N
A
n
N
A
n
N
A A−1
A 2
+ n(n − 1)
− n
N N −1
N
nA
n−1
(A − 1) −
1+
N −1
N
2
N − AN − nN + nA
N (N − 1)
N −A N
N −A n
−
N N −1
N N −1
N −n
A
1−
N
N −1
A
n−1
1−
1−
N
N −1
5. X sei gleichverteilt auf {1, . . . , n}
n
1 X 2 n(n + 1)(2n + 1)
i =
EX =
n
6n
2
i=1
⇒ σ2 =
(n + 1)(2n + 1) (n + 1)2
n2 − 1
−
=
6
4
12
89
6. X sei vt Sa,b
σ
2
=
Zb
a
=
=
x2
dx −
b−a
a+b
2
2
b3 − a 3
a2 + b2 + 2ab
b3 − a3 + 3a2 b − 3ab2
−
=
3(b − a)
4
12(b − a)
2
2
(b + ab + a )(b − a) − 3ab(b − a)
(b − a)2
=
12(b − a)
12
7. X sei vt Eλ
EX =
Z∞
xλe−λx dx =
1
λ
0
EX
2
=
Z∞
2
x λe
0
=
2
λ
−λx
Z∞
dx = −x e
xλe−λx dx =
0
var(X) =
1
1
2
−
= 2
λ2 λ2
λ
Z∞
∞
+ 2 xe−λx dx
2 −λx 2
⇒
λ2
0
0
90
KAPITEL 5. STREUUNGSPARAMETER
Kapitel 6
Das schwache Gesetz der großen
Zahlen
Für den Median m gilt per definitionem P (X < m) ≤ 1/2. Für den Erwartungswert
kann jedoch keine derartige Abschätzung gefunden werden, wie das folgende Beispiel
zeigt:
Beispiel 6.1 Sei
Ω = {0, 1}, PX (0) = 1 − ǫ,
EX = ǫ
P (X < ǫ) = 1 − ǫ
PX (1) = ǫ
Umgekehrt gilt für X̃ mit
PX̃ (0) = ǫ, PX̃ (1) = 1 − ǫ ⇒
P (X̃ < 1 − ǫ) = ǫ
Ist jedoch X ≥ 0 und C > µ := EX eine Konstante, so gilt der folgende Satz.
Satz 6.1 (Markoffsche Ungleichung)
Sei X ≥ 0 und C > EX = µ, dann gilt
P (X ≥ C) ≤
µ
.
C
Beweis.Aus
C1[X≥C] ≤ X1[X≥C] ≤ X
folgt:
CP (X ≥ C) = EC1[X≥C] ≤ EX ⇒ P (X ≥ C) ≤
91
EX
.
C
92
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
Ist nun X eine beliebige Zufallsvariable mit EX = µ und E(X − µ)2 = σ 2 , so gilt:
Y := (X − µ)2 ≥ 0 und daher folgt aus der Markoffschen Ungleichung mit C = λσ 2
und λ > 1:
E(X − µ)2
1
EY
=
=
P (Y ≥ C) = P (X − µ)2 ≥ λσ 2 ≤
2
2
λσ
λσ
λ
√
Da (X − µ)2 ≥ λσ 2 äquivalent zu |X − µ| ≥ λσ ist, erhält man:
√
1
P (|X − µ| ≥ λσ) ≤
λ
Daher gilt folgender Satz:
Satz 6.2 (Tschebyscheffsche Ungleichung)
Sei X eine Zufallsvariable mit σ 2 = var(X) < ∞ und µ = E(X), dann gilt
√
1
∀λ > 1.
λ
√
Bemerkung.Ersetzt man λσ durch ǫ, so erhält die Tschebyscheffsche Ungleichung
untenstehende Form:
P (|X − µ| ≥
λσ) ≤
σ2
ǫ2
Die Wichtigkeit der Varianz erklärt sich vor allem aus dieser Ungleichung – so folgt
daraus etwa, daß die Werte einer Zufallsvariablen mit einer Wahrscheinlichkeit von
mindestens 8/9 im Intervall (µ − 3σ, µ + 3σ) liegen.
Ähnlich wie die Tschebyscheffsche Ungleichung läßt sich folgende Aussage beweisen:
P (|X − µ| ≥ ǫ) ≤
P [|X − m| ≥ λDm ] ≤ 1/λ
Wir haben in der Einleitung Wahrscheinlichkeiten als idealisierte relative Häufigkeiten bezeichnet. Dem liegt die Vorstellung zugrunde, daß in einer langen Reihe von
Versuchen die relative Häufigkeit eines Ausgangs gegen einen Grenzwert konvergiert,
den man dann die Wahrscheinlichkeit des jeweiligen Ausgangs nennt. Mit Hilfe der
Tschebyscheffschen Ungleichung läßt sich diese vage Vorstellung präzisieren:
Definition 6.1 Seien X1 , . . . , Xn Zufallsvariable, das arithmetische Mittel der Xi
P
X̄n = n1 ni=1 Xi wird Stichprobenmittel genannt. (Dieses Stichprobenmittel ist als
Transformation der Zufallsvariablen X1 , . . . , Xn natürlich auch eine Zufallsvariable.)
Sei X1 , . . . , Xn eine Folge unabhängiger identisch verteilter Zufallsvariablen mit:
σ 2 = E(Xi − µ)2
µ := EXi ;
und sei
n
X̄n :=
1X
Xi ,
n
i=1
93
dann gilt:
EX̄n = µ,
n
X
1
Xi
var X̄n = 2 var
n
i=1
!
=
n
1 X
nσ 2
σ2
var
X
=
=
i
n2
n2
n
i=1
Somit folgt aus der Tschebyscheffschen Ungleichung:
√ σ
1
≤
P X̄n − µ ≥ λ √
n
λ
√
Mit λ = n ergibt das:
σ
1
√
P X̄n − µ ≥ 4
≤ √ ⇒ lim P X̄n − µ ≥ ǫ = 0
n
n
n
∀ǫ > 0
Wir formulieren die obige Aussage als Satz.
Satz 6.3 (schwaches Gesetz der großen Zahlen – kurz GGZ)
Ist (Xn ) eine Folge unabhängiger Zufallsvariabler mit endlicher Varianz, so gilt
lim P X̄n − µ ≥ ǫ = 0
n
∀ǫ > 0.
Macht man nun n unabhängige Durchführungen eines Versuchs, und setzt man ϕi =
1, wenn bei der i-ten Durchführung ein bestimmtes Ereignis A mit p = P (A) eintritt,
und ϕi = 0 sonst, so erhält man eine Folge unabhängiger nach Ap identisch verteilter
P
Zufallsvariabler. ϕ̄n = 1/n ni=1 ϕi ist dann die relative Häufigkeit des Ereignisses
A im Verlauf von n Versuchen. Aufgrund des schwachen Gesetzes der großen Zahlen
gilt aber:
"
#
p
p(1 − p)
1
√
P |ϕ̄n − p| ≥
≤√
4
n
n
Dies bedeutet, daß sich die relative Häufigkeit ϕ̄n mit wachsender Versuchsanzahl
mit immer größerer Wahrscheinlichkeit immer weniger von der Wahrscheinlichkeit p
unterscheiden wird. Ist p unbekannt, so kann es demnach durch das aus den konkreten Versuchsdurchführungen gewonnene ϕ̄n ersetzt werden. Die Tschebyscheffsche
Ungleichung liefert auch eine Abschätzung für die Zuverlässigkeit dieser Ersetzung.
Dazu ein Beispiel:
Beispiel 6.2 Bei einer Wahl kandidieren 2 Parteien A und B. Ein Meinungsforschungsinstitut möchte wissen, wie groß der Bevölkerungsanteil p mit einer Präferenz
für Partei A ist. Wie viele Personen müssen befragt werden, damit p mit einer Genauigkeit von ±0.01 vorhergesagt werden kann und das Ergebnis der Untersuchung
nur mit einer Wahrscheinlichkeit von höchstens 0.01 fehlerhaft ist? Sei ǫ = 0.01 die
94
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
obere Schranke für die Wahrscheinlichkeit, daß der in der Umfrage ermittelte Wert
um mehr als δ := 0.01 von p abweicht. Es gilt:
#
"
√ p
λ p(1 − p)
1
√
≤ ≤ǫ
P |ϕ̄n − p| ≥
n
λ
√ p
√
Dabei soll λ p(1 − p)/ n ≤ δ gelten. Wegen
λp(1 − p)
λ 1
1
λ
≤ ·
1−
=
n
n 2
2
4n
gilt dies auf jeden Fall für
λ
1
1
106
≥
=
=
= 250, 000.
4δ2
4ǫδ2
4 · 10−6
4
Ersetzt man den unbekannten Erwartungswert µ einer Zufallsvariablen durch das aus
Versuchsdurchführungen
gewonnene ϕ̄n , so sagt
man µ wird durch ϕ̄n geschätzt.
h
√
√
√
√ i
Das Intervall ϕ̄n − λσ/ n, ϕ̄n + λσ/ n wird Vertrauensbereich oder Konfi
h
√
√
√
√ i
denzintervall genannt. P µ 6∈ ϕ̄n − λσ/ n, ϕ̄n + λσ/ n nennt man die Fehlerwahrscheinlichkeit
des Konfidenzintervalls. Vergleicht man das Konfidenzintervall
√
√
[X − λσ, X + λσ] mit dem Intervall [X − λDµ , X + λDµ ], so sieht man, daß das
zweite Intervall nur für 1 < λ ≤ σ 2 /Dµ2 kürzer als das erste ist. (Für λ ≤ 1 ergibt die
Tschebyscheffsche Ungleichung die triviale Beziehung: P (|X − µ| ≥ λσ) ≤ 1.) Da
zwar Dµ ≤ σ gilt,
√ sich Dµ√aber von σ meist nicht allzu sehr unterscheidet, wird das
Intervall [X − λσ, X + λσ] zumeist kürzer sein und daher für Vorhersagezwecke
bevorzugt werden. Dies ist mit eine Erklärung für die Wichtigkeit der Varianz.
Aus der Tschebyscheffschen Ungleichung folgt auch sofort die untenstehende Aussage: Wenn var(X) = 0 ist, so gilt P (|X − EX| > ǫ) = 0 ∀ǫ > 0. Das ist aber
äquivalent zu P (X = µ) = 1. Daher ist jede Zufallsvariable, deren Varianz verschwindet, konstant.
Im folgenden Beispiel wollen wir das Gesetz der großen Zahlen zur numerischen
Berechnung eines Integrals verwenden:
n≥
Beispiel 6.3 Gesucht ist der Wert des Integrals
I(x) :=
Zx
t2
e− 2 dt.
0
Lösung: 1/xI(x) kann aufgefaßt werden als Erwartungswert Eϕ(X) mit ϕ(X) =
Xi2
X2
e− 2 und X gleichverteilt auf [0, x]. Sei Yi = ϕ(Xi ) = e− 2 ∀i ∈ N und seien die
X1 , X2 , . . . , Xn unabhängig identisch nach S0,x verteilt, dann gilt:
!
n
1 X
σ2
1
Yi − I(x) ≥ ǫ ≤ Y21
P n
x
nǫ
i=1
95
Da
2
X2
Rx −v2
2
− 21
= Ee−X1 = e x dv ≤
≤E e
σY2 1
≤
0
1
x
1
R
0
1 dv +
Rx
1
e−v dv ≤
1+e−1
x
< ∞,
muß die obige Wahrscheinlichkeit mit wachsendem n gegen 0 gehen. Daher kann
P
I(x) durch nx ni=1 Yi approximiert werden. Man beachte, daß die Y1 , . . . , Yn aus den
Zufallszahlen X1 , . . . , Xn gebildet werden. Derartige Verfahren, bei denen Probleme
mit Hilfe von Zufallszahlen gelöst werden, nennt man Monte Carlo-Methoden. Die
Tschebyscheffsche Ungleichung erlaubt aber auch eine Aussage über die Güte der
Approximation:
Sei x = 2 und sei weiters angenommen, daß unser Näherungswert mit der Wahrscheinlichkeit δ = 0.9 um höchstens ǫ̂ = 0.1 vom wahren Wert I(2) abweichen soll,
dann gilt:
I(x)
≥ ǫ̂
P xȲn − I(x) ≥ ǫ̂ = P Ȳn −
x x
σY2 1 x2
x2 (1 + e−1 )
<
≤1−δ
≤
nǫ̂2
xnǫ̂2
somit
n≥
(1 + e−1 )x
2(1 + e−1 )
=
≈ 2736
(1 − δ)ǫ̂2
0.1 · 0.12
das bedeutet: bei 2736 Beobachtungswerten stimmt das experimentell gewonnene
Ergebnis bis auf ±0.1 mit der Wahrscheinlichkeit 0.9 mit dem wahren Wert überein.
Man beachte, daß aufgrund des Gesetzes der großen Zahlen wohl die StichprobenmitP
tel konvergieren, nicht jedoch die Summen Sn := ni=1 Xi , wie das folgende Beispiel
zeigt:
Beispiel 6.4 Eine Münze wird n-mal geworfen
1 der i-te Wurf endet auf “Zahl”
Xi :=
0 der i-te Wurf endet auf “Wappen”
Wir wissen bereits, daß:
1
P X̄n − ≥ ǫ → 0 ∀ǫ > 0
2
P
P
Was aber kann über δn := | ni=1 Xi − ni=1 (1 − Xi )| = die absolute Differenz der
Anzahl der Würfe, die auf “Zahl”, und der Anzahl der Würfe, die auf “Wappen”
96
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
enden, gesagt werden? Gilt Eδn = 0?
für n = 2 gilt:
P (δ2 = 0) = P (δ2 = 2) =
1
⇒ Eδ2 = 1 6= 0
2
für n = 4 gilt:
δ4 = 0 ⇔
4
X
i=1
Xi = 2 ⇒ P (δ4 = 0) = P (S4 = 2) =
δ4 = 2 ⇔ |n − 2S4 | = 2 ⇔ S4 = 1 ∨ S4 = 3 ⇒
P (δ4 = 2) = P (S4 = 1) + P (S4 = 3) =
4
2
24
4
1
23
δ4 = 4 ⇔ |n − 2S4 | = 4 ⇔ S4 = 0 ∨ S4 = 4 ⇒
P (δ4 = 4) = P (S4 = 0) + P (S4 = 4) =
P (δ4 = 2k − 1) = 0
∀k ⇒ Eδ4 =
3
2
(40)
23
⇒
für n = 6 gilt:
δ6 = 0 ⇔ S6 = 3,
δ6 = 2 ⇔ S6 = 2 ∨ S6 = 4,
δ6 = 4 ⇔ S6 = 1 ∨ S6 = 5,
δ6 = 6 ⇔ S6 = 0 ∨ S6 = 6,
und somit gilt:
P (δ6 = 0) =
P (δ6 = 2) =
P (δ6 = 4) =
P (δ6 = 6) =
6 −6
2 ,
3
6 −5
2 ,
2
6 −5
2 ,
1
6 −5
15
2 ⇒ Eδ6 =
0
8
Allgemein gilt bei m = 2n Würfen:
δ2n = 2k ⇔ |2n − 2S2n | = 2k
⇒ P (δ2n
⇔ S2n = n + k ∨ S2n = n − k für k = 0, 1, . . . , n

2n  2 · n−k · 2−2n für k = 1, 2, . . . , n
−2n
= 2k) =
 2n
für k = 0
n ·2
97
P (δ2n = 2k − 1) = 0
∀k
Daher gilt
Eδ2n
n
X
2n
2 · 2k ·
· 2−2n
=
n−k
k=1
n
X
2n
= 2−2n+2 ·
k·
n−k
k=1
n
2n
4 X
·
k·
.
=
22n
n−k
k=1
n
X
k=1
2n
k·
n−k
n−1
X
2n
=
(n − k) ·
k
k=0
n−1
n−1
X 2n X
2n
= n·
−
k·
k
k
k=0
k=0
!
n−1
X 2n
22n − 2n
n
k·
−
= n·
k
2
k=0
Wegen
n−1
X
k=0
2n
k·
k
n−1
X
2n(2n − 1)!
(k − 1)!(2n − 1 − k + 1)!
k=1
n−2
X 2n − 1
= 2n ·
k
k=0
!
22n−1 − 2 · 2n−1
n−1
= 2n ·
2
=
erhält man:
Eδ2n
− 22n + 4 2n−1
n−1
= 2n ·
2n
2 2n
2n − 1
2n − 1
2n
−
+2·
+
=
22n
n
n−1
n
2n
2n
2n
=
−
+2·
2n
2
n
n
22n −
2n
n
98
KAPITEL 6. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
=
2n 2n
22n n
Unter Zuhilfenahme der Stirling’schen Formel
√
Θn
n! = nn e−n 2πne 12n mit 0 < Θn < 1
ergibt sich daraus:
2n 2n −2n
√
√
Θ̂n
2π 2n 12n
e
=
Eδ2n = 2n2 22nnn2ne e−2n 2πn
√
√
⇒ n ≤ Eδ2n ≤ 2n − 1
√
2√ n Θ̂n
e 12n
π
mit 0 < Θ̂n < 3
Bemerkung.Diese Beziehung kann auch mittels vollständiger Induktion gezeigt
√
√
√
1 ≤1≤ 1 = 2·1−1
werden: n = 1 :
Eδ2(n+1) = Eδ2n · 2n+1
2n ⇒
√
√ =
n = 2n+1
Eδ2(n+1) ≥ 2n+1
2n
2 n
n+(n+1)
√2
n
≥
√
n(n+1)
√
n
=
√
n+1
Die vorletzte
Ungleichung in obiger Zeile ist eine Folgerung aus der Mittelunglei√
chung: ab ≤ (a + b)/2.
2n + 1 √
2n − 1
2n
r
√
(2n + 1)(2n − 1)
=
2n + 1
4n2
r
√
4n2 − 1 √
2n + 1
=
≤ 2n + 1.
4n2
Eδ2(n+1) ≤
Kapitel 7
Das starke Gesetz der großen
Zahlen
7.1
Die Lemmata von Borel-Cantelli
Manchmal will man wissen, mit welcher Wahrscheinlichkeit ein Ereignis in einer
unendlichen Versuchsfolge immer und immer wieder auftritt, oder aber man möchte
die Wahrscheinlichkeit bestimmen, daß das Ereignis in der Versuchsserie fast immer,
d.h. immer bis auf endlich viele Ausnahmen, auftritt. Es könnte etwa folgende Frage
gestellt werden:
Beispiel 7.1 Wie groß ist die Wahrscheinlichkeit, daß die “6” unendlich oft wiederkehrt, wenn man unaufhörlich würfelt.
Intuitiv wird man annehmen, daß dies mit Wahrscheinlichkeit 1 passiert. Wie aber
kann man dieses Ergebnis herleiten?
Wir betrachten die Menge Ω aller unendlichen Folgen von Würfen:
Ω = {ω = (xn )n∈N : xn ∈ {1, . . . , 6}
∀n ∈ N}
Die “6” tritt bei einer konkreten Folge ω von Würfen genau dann unendlich oft auf,
wenn es eine Teilfolge (ik (ω)) von Versuchen gibt, für die gilt: xik = 6 ∀k ∈ N.
(Diese Teilfolge wird natürlich von ω zu ω variieren.)
Damit existiert aber zu jedem n ∈ N ein in ≥ n mit xin = 6.
Sei nun A die Menge aller Folgen ω, bei denen die “6” unendlich oft auftritt und
An das Ereignis, daß beim n-ten Wurf eine “6” geworfen wird, so kann die obige
Argumentation folgendermaßen angeschrieben werden:
ω ∈ A ⇒ ∀n ∈ N
∃in ≥ n : ω ∈ Ain
Dies ist gleichbedeutend mit:
\ [
ω∈A⇒ω∈
Ai
n∈N i≥n
99
100
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Somit
A⊆
\ [
Ai .
n∈N i≥n
T
S
Sei umgekehrt ω ∈ n∈N i≥n Ai . Dann gibt es zu n1 = 1 ein i1 ≥ 1 : ω ∈ Ai1 , zu
n2 = max{2, i1 + 1} existiert ein i2 ≥ n2 : ω ∈ Ai2 , usw.
Allgemein: zu nk = max{k, ik−1 + 1} existiert ein ik ≥ nk : ω ∈ Aik .
Wir haben also eine Teilfolge (ik ) = (ik (ω)) konstruiert, für die gilt xik = 6. Damit
tritt aber auch in dieser Folge ω die 6 unendlich oft auf. Somit gilt
\ [
ω∈
Ai ⇒ ω ∈ A.
n∈N i≥n
d.h.:
\ [
n∈N i≥n
Ai ⊆ A.
Zusammenfassend gilt somit
\ [
A=
Ai .
n∈N i≥n
Wegen der de Morgan’schen Regeln folgt daraus
[ \
Ac =
Aci .
n∈N i≥n
T
Sei nun m ≥ n und Bn,m := n≤i≤m Aci das Ereignis, daß zwischen dem n-ten und
m-ten Versuch keine “6” gewürfelt wird. Klarerweise gilt:
m−n+1
5
P (Bn,m ) =
6
Für festes n ∈ N und m → ∞ bilden die Bn,m eine monoton fallende Folge mit
T
Bn,m ց i≥n Aci . Daraus folgt wegen der Stetigkeitseigenschaft der Wahrscheinlichkeitsverteilung
\
P(
Aci ) = lim P (Bn,m ) = 0 ∀n ∈ N.
i≥n
m→∞
Damit gilt aber auch
T
P
P ( i≥n Aci ) = 0 ⇒
0 ≤ P (Ac ) ≤
n∈N
P (A) = 1.
Würfelt man also fortwährend, so tritt mit Wahrscheinlichkeit 1 immer wieder eine
“6” auf.
7.1. DIE LEMMATA VON BOREL-CANTELLI
101
Wir haben im obigen Beispiel die Menge A aller ω betrachtet, die in unendlich vielen
der Ereignisse An liegen. Wir definieren:
Definition 7.1 Ist Ω eine beliebige Menge von möglichen Versuchsausgängen und
ist (An ) eine Folge von Ereignissen aus Ω, so nennt man die Menge Ā mit
Ā = {ω ∈ Ω : ω ∈ An
für unendlich viele n ∈ N}
den Limes superior der Mengenfolge (An ) (im Zeichen: Ā = lim sup An ).
Wir haben im vorigen Beispiel schon die folgende Aussage bewiesen.
Satz 7.1 Sei (An ) eine beliebige Mengenfolge aus Ω, dann gilt:
\ [
lim sup An =
Ai .
n∈N i≥n
Ein Versuchsausgang ω liegt genau dann in Āc , wenn ω ∈ An höchstens für endlich
viele n ∈ N. Dies ist gleichbedeutend damit, daß ω ∈ Acn für fast alle n ∈ N.
Definition 7.2 Ist (An ) eine Folge von Ereignissen, so nennt man die Menge
A = {ω ∈ Ω : ω ∈ An
für fast alle n}
den Limes inferior der Mengenfolge (im Zeichen: A = lim inf An ).
Das Komplement des Limes superiors ist also der Limes inferior der Folge (Acn ) und
umgekehrt.
Aus Satz 7.1 und den de Morgan’schen Regeln folgt sofort
Satz 7.2 Ist (An ) eine beliebige Ereignisfolge, so gilt
[ \
lim inf An =
Ai .
n∈N i≥n
Mit Hilfe der beiden folgenden Sätze kann die Wahrscheinlichkeit von lim sup An
unter gewissen Voraussetzungen bestimmt werden.
Satz 7.3 (1-tes Lemma von BOREL-CANTELLI)
Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (An ) eine Folge von Mengen aus S,
dann gilt:
X
P (An ) < ∞ ⇒ P (lim sup An ) = 0
N
102
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Beweis.
P (lim sup An ) = P (
\ [
Ak )
n∈N k≥n
Sei
T S
S
T
Bn =
Ak ⇒
Bn :=
Ak ⇒
n∈N k≥n
n∈N
T k≥n
S
P
S
P(
Ak ) = lim P (Bn ) = lim P (
Ak ) ≤ lim k≥n P (Ak ) = 0
n
n∈N k≥n
wegen
X
N
n
k≥n
n
P (An ) < ∞
Falls die Ereignisse An unabhängig sind, so gibt es eine Umkehrung des 1. Lemmas
von Borel-Cantelli.
Satz 7.4 (2-tes Lemma von BOREL-CANTELLI)
Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (An ) eine Folge von unabhängigen
Mengen aus S, dann gilt:
X
P (An ) = ∞ ⇒ P (lim sup An ) = 1
N
Beweis.
P ((lim sup An )c ) = P (
[ \
Ack )
n∈N k≥n
Wegen der Stetigkeit der Wahrscheinlichkeit gilt:
[ \
\
P(
Ack ) = lim P (
Ack )
n
n∈N k≥n
= lim
n
Nun gilt:
Y
k≥n
k≥n
P (Ack )
k≥n
= lim
n
Y
Y
(1 − P (Ak ))
k≥n
(1 − P (Ak ))
= elog(
P
= e
Q
)
k≥n (1−P (Ak ))
k≥n
log(1−P (Ak ))
7.1. DIE LEMMATA VON BOREL-CANTELLI
103
wegen log(1 + x) ≤ x ∀x > −1 erhält man:
Y
(1 − P (Ak ))
k≥n
≤ e−
P
k≥n
P (Ak )
= e−∞ = 0 ∀n ⇒
P ((lim sup An )c ) = 0 ⇒ P (lim sup An ) = 1.
Man sieht, daß Beispiel 7.1 ein Spezialfall des 2-ten Lemmas von Borel-Cantelli
ist. Auch die folgenden Beispiele dienen der Illustration der beiden Lemmata.
Beispiel 7.2 Sei X1 , X2 , . . . eine Folge ua, identisch verteilter Zufallsvariabler mit
Xn vt A1/2 ∀n ∈ N, und sei νn := max{k : Xn = Xn−1 = · · · = Xn−k+1 = 1} die
Länge der längsten Serie aufeinanderfolgender Einsen, endend beim n-ten Versuch.
Wir werden zeigen, daß mit Wahrscheinlichkeit 1 und beliebiges ǫ > 0 gilt:
νn < (1 + ǫ) log2 n für fast alle n.
Sei An := [Xn = Xn−1 = · · · = Xn−⌈(1+ ǫ ) log2 n⌉ = 1]. Wegen P (An ) < 1/(n1+ǫ/2 )
2
P
gilt natürlich
P (An ) < ∞ und damit
P (lim sup An ) = 0.
Somit gilt: P (lim inf Acn ) = 1, was unsere Behauptung beweist.
Sei nun
λn := max νi .
1≤i≤n
λn ist die Länge der längsten Serie aufeinanderfolgender Einsen im Verlauf der ersten
n Versuche. Eine derartige Serie wird “Lauf” genannt.
Sei ω ∈ lim inf Acn . Dann gibt es ein
l
m
ǫ
n0 (ω) : ∀n ≥ n0 (ω) : νn < 1 +
log2 n < (1 + ǫ) log2 n.
2
Sei n ≥ 2n0 , dann gilt:
für 1 ≤ i ≤ n0 : νi ≤ i ≤ n0 ≤ log2 n ≤ (1 + ǫ) log2 n,
für n0 ≤ i ≤ n : νi ≤ (1 + ǫ) log2 i ≤ (1 + ǫ) log2 n.
Daher folgt λn = max1≤i≤n νi ≤ (1 + ǫ) log2 n ∀n ≥ 2n0 und ω ∈ lim inf Acn .
Mit Wahrscheinlichkeit 1 gilt demnach für fast alle n
λn < (1 + ǫ) log2 n,
oder anders ausgedrückt:
λn
<1+ǫ =1
P lim sup
log2 n
Aber es gilt auch die Umkehrung.
∀ǫ > 0.
104
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Beispiel 7.3 Mit den Voraussetzungen und Bezeichnungen des vorigen Beispiels
gilt
λn
>1−ǫ
= 1 ∀ǫ > 0.
P lim inf
log2 n
Sei
Aki := [Xi+1 = · · · = Xi+k = 1] ⇒ P (Aki ) = 2−k
[λn < k] =
n−k
T
i=0
c
Aki
≤
]
[ n−k
k
T
j=0
c
Akjk
Da die Ereignisse Ak0 , Akk , Ak2k , . . . voneinander unabhängig sind, gilt
P ([λn < k]) ≤ (1 − 2−k )
n−k
k
Für k = ⌊(1 − ǫ) log2 n⌋ ergibt das:
P ([λn < k]) ≤ e−nǫ/2 ⇒
X
λn
<1−ǫ
< ∞⇒
P
log2 n
n
λn
<1−ǫ
= 0
P lim sup
log2 n
Dies bedeutet, daß mit Wahrscheinlichkeit 1 nur höchstens endlich viele λn / log2 n <
1 − ǫ sind, und somit gilt mit Wahrscheinlichkeit 1 auch
lim inf
λn
≥ 1 − ǫ.
log2 n
Beispiel 7.4 Sei (Xn ) eine Folge unabhängiger identisch verteilter Zufallsvariabler
mit
P (X1 = +1) = P (X1 = −1) =
1
2
sei
S0 := 0, Sn :=
n
X
i=1
Xi
∀n ∈ N.
Sn beschreibt die Irrfahrt eines Punktes auf der Zahlengeraden, wenn man im Nullpunkt startet und im n-ten Schritt eine Position nach rechts wandert, wenn Xn = 1
und um eine Position nach links bei Xn = −1. Wir wollen nun wissen, ob unser
Punkt auf seiner Irrfahrt unendlich oft durch den Ursprung wandert, oder anders
7.1. DIE LEMMATA VON BOREL-CANTELLI
105
gesagt: wir wollen P (lim sup[Sn = 0]) berechnen. Wir haben im vorigen Kapitel
gezeigt (siehe Kapitel 6, Beispiel 6.4), daß gilt:
P (S2n−1 = 0) = 0
2n
1
P (S2n = 0) =
· 2−2n ≈ √
n
πn
(Die Näherung läßt sich leicht mit Hilfe der Stirlingschen Formel herleiten). Daraus
P
folgt, daß N P (S2n = 0) = ∞. Da aber die Ereignisse [S2n = 0] nicht unabhängig
sind, kann man das 2-te Lemma von Borel-Cantelli nicht unmittelbar anwenden.
Dies läßt sich folgendermaßen umgehen: Aus

n 
· 2−n für j + n ≡ 0 mod 2
 j+n
2
P ([Sn = j]) =

sonst
 0
folgt:
P (S2n = j) → 0
∀j
Daher gilt für jedes feste k:
lim P (|Sn | < k) = 0
Daraus folgt aber für jedes k die Existenz eines n(k), sodaß
P (|Sn(k) | < k) ≤ p
(0 < p < 1, p ist fix).
Wir bilden nun eine Teilfolge i1 , i2 , . . . folgendermaßen:
i1 := 1
i2 := i1 + n(i1 )
i3 := i2 + n(i2 )
..
.
ik := ik−1 + n(ik−1 )
Dafür gilt:
P (Xik−1 +1 + · + Xik < −ik−1 ) = P (X1 + · + Xn(ik−1 ) < −ik−1 ) ≥
und:
1
P (Xik +1 + · + Xik+1 > ik ) = P (X1 + · + Xn(ik ) > ik ) ≥ (1 − p)
2
1
(1 − p)
2
106
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Daher gilt für die Ereignisse:
Bk = [Xi2k−1 +1 + · + Xi2k < −i2k−1 ] ∩ [Xi2k +1 + · + Xi2k+1 > i2k ]
P (Bk ) ≥ 14 (1 − p)2 ∀k
P
⇒ P (Bk ) = ∞ ⇒ P (lim sup Bk ) = 1
Aus ω ∈ Bk folgt aber:
Xi2k−1 +1 + · + Xi2k < −i2k−1
Andererseits gilt stets:
X1 + · + Xi2k−1 ≤ i2k−1 ⇒ Si2k (ω) < 0
Weiters folgt aber auch
Xi2k +1 + · + Xi2k+1 > i2k .
Zusammen mit
X1 + · + Xi2k > −i2k
ergibt das Si2k+1 (ω) > 0. Somit gibt es ein n ∈ {i2k + 1, . . . , i2k+1 } mit Sn = 0, das
heißt:
Bk ⊆
i2k+1
S
[Sn = 0] ⇒
n=i2k +1
lim sup Bk ⊆ lim sup[Sn = 0] ⇒
P (lim sup[Sn = 0]) = 1
7.2
Fast sichere Konvergenz
Aus der Analysis ist die folgende Definition bekannt.
Definition 7.3 Sind fn , n ∈ N und f Funktionen auf einer beliebigen Menge Ω,
so sagt man die Funktionenfolge (fn )n∈N konvergiert punktweise gegen f , wenn für
alle ω ∈ Ω und für alle ǫ > 0 ein n0 = n0 (ǫ, ω) existiert, sodaß ∀n ≥ n0 gilt
|fn (ω) − f (ω)| < ǫ.
Man kann die obige Definition auch so ausdrücken:
lim inf{ω : |fn (ω) − f (ω)| < ǫ} = Ω ∀ǫ > 0
oder
lim sup{ω : |fn (ω) − f (ω)| > ǫ} = ∅ ∀ǫ > 0.
107
7.2. FAST SICHERE KONVERGENZ
Ist nun (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind Xn , n ∈ N sowie X Zufallsvariable auf Ω, so wird diese Art der Konvergenz oft insoferne abgeschwächt,
als die Konvergenz nicht mehr für alle Punkte ω ∈ Ω gelten muß, sondern daß nur
mehr verlangt wird, daß die Wahrscheinlichkeit aller Versuchsausgänge ω, für die
gilt lim Xn (ω) = X(ω), gleich 1 ist. Wir definieren:
Definition 7.4 Eine Folge von Zufallsvariablen (Xn ) konvergiert fast sicher gegen
eine Zufallsvariable X, wenn:
P ({ω : lim Xn (ω) = X(ω)}) = 1 (i.Z.: Xn → X fs, lim Xn = X fs)
Die obige Definition ist äquivalent zu folgenden Aussagen:
P (lim inf[|Xn − X| < ǫ]) = 1
∀ǫ > 0
bzw.
P (lim sup[|Xn − X| > ǫ]) = 0 ∀ǫ > 0.
Damit ist klar, daß man die fast sichere Konvergenz häufig mit Hilfe der Lemmata
von Borel-Cantelli nachweisen kann, etwa indem man zeigt, daß gilt
P
n P (|Xn − X| > ǫ) < ∞ ∀ǫ > 0.
Häufig benötigt man für Folgen von Zufallsvariablen auch folgende Konvergenzdefinition.
Definition 7.5 Eine Folge von Zufallsvariablen (Xn ) konvergiert in WahrscheinP
lichkeit gegen eine Zufallsvariable X (Xn → X), wenn:
lim P (|Xn − X| > ǫ) = 0
∀ǫ > 0
Wir haben im vorigen Kapitel das schwache Gesetz der großen Zahlen bewiesen,
P
d.h.: für X̄n := n1 ni=1 Xi gilt:
lim P |X̄n − EX1 | > ǫ = 0 ∀ǫ > 0,
n
wenn X1 , X2 , . . . eine unabhängige identisch verteilte Folge von Zufallsvariablen mit
endlichem Erwartungswert ist. Das bedeutet, daß in jedem Zeitpunkt n die Wahrscheinlichkeit, daß X̄n um mehr als ǫ von EX1 abweicht, mit wachsendem n immer
kleiner wird. Mit der obigen Definition lautet die Aussage des schwachen Gesetzes
der großen Zahlen:
P
X̄n → EX1 .
Nun wollen wir die Frage untersuchen, ob die Zeitreihe (X̄n ) in unendlich vielen Zeitpunkten um mehr als ±ǫ von EX1 abweicht, d.h. wir suchen die Wahrscheinlichkeit
von lim sup[|X¯n − EX1 | > ǫ]. Wir werden zeigen, daß gilt:
P (lim sup[|X̄n − EX1 | > ǫ]) = 0 ∀ǫ > 0
108
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
oder anders ausgedrückt:
lim X̄n = EX1
fs.
Die Tschebyscheffsche Ungleichung liefert:
σ2
P |X̄n − EX1 | > ǫ ≤ 2
nǫ
P 1
Daraus kann wegen N n = ∞ nicht auf P (lim sup[|X̄n −EX1 | > ǫ]) = 0 geschlossen
werden. Aber es gilt:
X
X σ2
<∞⇒
P |X̄n2 − EX1 | > ǫ ≤
n 2 ǫ2
n
N
P lim sup[|X̄n2 − EX1 | > ǫ] = 0 ∀ǫ > 0
Wir nehmen nun ohne Einschränkung der Allgemeinheit an, daß EX1 = 0. Sei
m ∈ N ⇒ ∃n : n2 < m ≤ (n + 1)2 ⇒
X1 + · · · + Xn2 + Xn2 +1 + · · · + Xm |X̄m | = m
X1 + · · · + Xn2 Xn2 +1 + · · · + Xm +
≤ n2
n2
Pm
X1 + · · · + Xn2 i=n2 +1 Xi .
≤ max
+ n2 <m<(n+1)
2
n2
n2
Wir betrachten nun die Ereignisse
Pm
i=n2 +1 Xi > ǫ]
An := [
max
n2
n2 <m<(n+1)2
(n+1)2 −1 Pm
[
i=n2 +1 Xi =
>ǫ .
n2
2
m=n +1
Aus der Tschebyscheffschen Ungleichung folgt:
Pm
i=n2 +1 Xi (m − n2 )σ 2
(2n + 1)σ 2
>ǫ
≤
≤
⇒
P n2
n 4 ǫ2
n 4 ǫ2
(2n + 1)2 σ 2
C
P (An ) ≤
≤ 2,
4
2
n ǫ
n
wobei C ∈ R eine Konstante ist.
Somit folgt aus dem 1-ten Lemma von Borel-Cantelli
P (lim sup An ) = 0
Mit Wahrscheinlichkeit 1 gilt also für fast alle n:
P 2
n X i=1 i <ǫ
n2 109
7.2. FAST SICHERE KONVERGENZ
aber auch
Pm
i=n2 +1 Xi < ǫ.
max
n2
n2 <m<(n+1)2
Damit muß aber auch mit Wahrscheinlichkeit 1 für fast alle n ∈ N gelten
|X̄m | < 2ǫ
∀ǫ > 0.
Wir haben somit gezeigt, daß lim X̄n = EX1 fast sicher gilt.
P
Wir haben also im vorigen Abschnitt bewiesen, daß X¯n → EX1 gilt, und in
diesem Abschnitt wurde gezeigt, daß auch lim X̄n = EX1 fast sicher gilt. Diese
Aussage gilt auch dann, wenn die Varianz von X1 unendlich ist – der Beweis ist in
diesem Fall jedoch komplizierter. Wir formulieren daher:
Satz 7.5 (Starkes Gesetz der großen Zahlen)
Ist (Xn ) eine Folge unabhängig identisch verteilter Zufallsvariabler mit endlichem
P
Erwartungswert, so gilt mit X̄n := n1 ni=1 Xi :
P {ω : lim X̄n (ω) = EX1 (ω)} = 1
Die Bezeichnung “starkes Gesetz” bzw. “schwaches Gesetz der großen Zahlen” rührt
daher, daß aus der fast sicheren Konvergenz die Konvergenz in Wahrscheinlichkeit
folgt – nicht jedoch umgekehrt, sodaß das schwache Gesetz der großen Zahlen eine
Folgerung des starken Gesetzes ist.
P
Satz 7.6 aus lim Xn = X fast sicher folgt Xn → X.
Beweis.Aus lim Xn (ω) = X(ω) folgt:
∀ǫ > 0 ∃n0 := n0 (ǫ, ω) : ∀n ≥ n0 : |Xn (ω) − X(ω)| < ǫ
Das impliziert: lim Xn (ω) 6= X(ω) genau dann, wenn es ein ǫ > 0 gibt, sodaß für alle
n0 ein n ≥ n0 existiert mit: |Xn (ω) − X(ω)| > ǫ ⇒
[\ [
[|Xn (ω) − X(ω)| > ǫ]
[lim Xn 6= X] =
ǫ>0 n0 n≥n0
1
=
|Xn (ω) − X(ω)| >
k
k∈N n0 n≥n0


[ 1 
0 = P ([lim Xn 6= X]) ≥ lim P 
|Xn (ω) − X(ω)| >
n0
k
n≥n0
1
≥ lim P
|Xn0 − X| >
≥ 0 ∀k ∈ N
n0
k
[\ [ Daher gilt auch:
lim P [|Xn0 − X| > ǫ] = 0
n0
∀ǫ > 0
Daß die Umkehrung nicht gilt, zeigt das folgende Gegenbeispiel:
110
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Beispiel 7.5 Sei (Ω, S, P ) = [0, 1), B, S(0,1) .
X1 := 1[0,1)
X2 := 1[0,1/2)
X3 := 1[1/2,1)
X4 := 1[0,1/4)
X5 := 1[1/4,1/2)
X6 := 1[1/2,3/4)
X7 := 1[3/4,1)
X8 := 1[0,1/8)
..
.
X2n
:= 1[0,1/2n )
..
.
X2n +i := 1[i/2n ,(i+1)/2n )
..
.
X2n +2n −1 := 1[(2n −1)/2n ,1)
..
.
Zweifellos gilt für diese Folge:
P (|Xn | > ǫ) =
1
2⌊log n⌋
→ 0 ∀ǫ ∈ (0, 1)
Aber für jedes ω ∈ [0, 1) gibt es eine Teilfolge:
(nk ) = (nk (ω)) mit Xnk (ω) = 1 ⇒ [lim Xn 6= 0] = [0, 1) ⇒ P (lim Xn = 0) = 0
7.3
Andere Konvergenzarten
Neben der Konvergenz in Wahrscheinlichkeit und der fast sicheren Konvergenz gibt
es noch andere Konvergenzarten – etwa die Konvergenz im Mittel oder die Konvergenz im quadratischen Mittel:
Definition 7.6 Eine Folge von Zufallsvariablen (Xn ) mit E|Xn | < ∞ konvergiert
im Mittel gegen die Zufallsvariable X (E|X| < ∞), wenn
lim E|Xn − X| = 0
n
7.4. DER SATZ VON GLIVENKO-CANTELLI
111
Definition 7.7 Eine Folge von Zufallsvariablen (Xn ) mit E(Xn )2 < ∞ konvergiert
im quadratischen Mittel gegen die Zufallsvariable X (EX 2 < ∞), wenn
lim E(Xn − X)2 = 0
n
Diese beiden Konvergenzarten spielen eine bedeutende Rolle in der Theorie stochastischer Prozesse. Wir werden nicht näher auf sie eingehen, sondern werden zum
Abschluß dieses Kapitels nur einige Bemerkungen über den Zusammenhang zwischen den verschiedenen Konvergenzarten machen. Aus der Schwarzschen Ungleichung folgt:
√
p
p
E|(Xn − X) · 1| ≤ E(Xn − X)2 · E12 = E(Xn − X)2
D.h. die Konvergenz im quadratischen Mittel impliziert die Konvergenz im Mittel.
Wegen der Tschebyscheffschen Ungleichung impliziert sie auch die Konvergenz in
Wahrscheinlichkeit:
P (|Xn − X| > ǫ) ≤
var(Xn − X)2
E(Xn − X)2
≤
ǫ2
ǫ2
Hingegen gibt es Folgen von Zufallsvariablen, die zwar im quadratischen Mittel –
nicht aber fast sicher konvergieren (siehe Beispiel 7.5), und umgekehrt Folgen, die
fast sicher – jedoch nicht im quadratischen Mittel konvergieren – wie etwa die Folge:
Xn := n1[0,1/n] auf ([0, 1], B, S(0,1) )
7.4
Der Satz von Glivenko-Cantelli
Zum Abschluß wollen wir den Satz von Glivenko-Cantelli formulieren und beweisen.
Dazu eine Definition:
Definition 7.8 Ist X1 , X2 , . . . eine Folge von unabhängigen identisch verteilten Zufallsvariablen, so nennt man die Funktionen
n
Fn (x) := Fn (x, ω) :=
1X
1(−∞,x] (Xi (ω)) mit n ∈ N
n
i=1
empirische Verteilungsfunktionen der Verteilung F (x) := P (X1 ≤ x).
Bemerkung.Führt man einen Versuch n-mal unabhängig voneinander durch, so
gibt Fn (x, ω) die relative Häufigkeit jener Versuchsausgänge Xi (ω) an, die kleiner
oder gleich x sind. Sei etwa X1 (ω) = 2.5, X2 (ω) = 0, X3 (ω) = 4, X4 (ω) = 1, dann
sieht F4 (·, ω) so aus:
Die Funktionen Fn haben offensichtlich alle Eigenschaften einer Verteilungsfunktion.
Der Name wird jedoch vor allem durch den folgenden Satz gerechtfertigt:
112
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
✻
1
3
4
1
2
1
4
0
✲
1
2.5
4
Abbildung 7.1:
Satz 7.7 (Glivenko–Cantelli)
Ist X1 , X2 , . . . eine Folge von unabhängig verteilten Zufallsvariablen mit der Verteilungsfunktion F , und ist Fn die Folge der zugehörigen empirischen Verteilungsfunktionen, so gilt:
P lim sup |Fn (x) − F (x)| = 0 = 1
n→∞ x∈R
D.h. die empirischen Verteilungsfunktionen konvergieren fast sicher gleichmäßig gegen die Verteilungsfunktion F .
Beweis.Sei N ∈ N beliebig, und sei xp ,
für k = 0, . . . , N :
k
F xk −0 ≤
≤F xk
N
N
N
und für x ∈ x k−1 , x k gilt:
N
N
F x k−1 ≤ F (x − 0) ≤ F (x) ≤ F x k − 0 ≤ F x k
N
N
bzw.:
p ∈ [0, 1] das p-Fraktile von F . Dann gilt
N
Fn x k−1 ≤ Fn (x − 0) ≤ Fn (x) ≤ Fn x k − 0 ≤ Fn x k
N
N
N
Daraus folgt für x ∈ x k−1 , x k und F (x) ≥ Fn (x):
N
N
F (x) − Fn (x) ≤ F x k − 0 − Fn x k−1
N
N ≤ F x k − 0 − F x k−1 + F x k−1 − Fn x k−1
N
N
N
N
113
7.4. DER SATZ VON GLIVENKO-CANTELLI
k − 1 k
−
+ F x k−1 − Fn x k−1 N
N
N
N
1
≤
+ max F x k − Fn x k N
N
N 0≤k≤N
Für x ∈ x k−1 , x k und F (x) < Fn (x) gilt:
≤
N
N
Fn (x) − F (x) ≤ Fn x k − 0 − F x k−1
N
N
≤ Fn x k − 0 − F x k − 0 + F x k − 0 − F x k−1
N
N
N
N
1
≤ max F x k − 0 − Fn x k − 0 +
N
N
0≤k≤N
N
Aus den obigen beiden Ungleichungen folgt unmittelbar:
|F (x) − Fn (x)|
≤ max max F x k − Fn x k ,
0≤k≤N
N
N
1
max F x k − 0 − Fn x k − 0 +
N
N
0≤k≤N
N
∀x ∈ x k−1 , x k
N
N
Diese Ungleichung gilt aber auch für x = x k . Somit gilt:
N
sup |F (x) − Fn (x)|
x∈R
≤ max max F x k − Fn x k ,
0≤k≤N
N
N
1
max F x k − 0 − Fn x k − 0 +
N
N
0≤k≤N
N
Nun sind aber die Zufallsvariablen 1(−∞,x] (Xi ) i = 1, . . . , n unabhängig nach Ap
P
verteilt mit p = P (Xi ≤ x) = P (X1 ≤ x). Da Fn (x) = n1 ni=1 1(−∞,x] (Xi ) das
Stichprobenmittel der unabhängigen Zufallsvariablen 1(−∞,x] (Xi ) ist, impliziert das
Gesetz der großen Zahlen:
lim Fn (x) = E1(−∞,x] (Xi ) = P (X1 ≤ x) = F (x)
n
Ähnlich zeigt man:
lim Fn (x − 0)
n
n
1X
1(−∞,x) (Xi ) = E1(−∞,x) (X1 )
= lim
n
i=1
= P (X1 < x) = F− (x) fast sicher
fast sicher
114
KAPITEL 7. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Damit gilt aber auch:
1
= 1 ∀N ∈ N
P lim sup |F (x) − Fn (x)| ≤
n
N
x
Daraus folgt:
P lim sup |F (x) − Fn (x)| = 0
= 1.
n
x
Der Satz von Glivenko-Cantelli besagt also, daß die Verteilungsfunktion durch die
empirischen Verteilungsfunktionen approximiert werden kann, welche mit den empirisch gewonnenen Beobachtungsdaten gebildet werden. Man nennt ihn deshalb auch
oft den Fundamentalsatz der Statistik.
Kapitel 8
Der zentrale
Grenzverteilungssatz
8.1
Der Satz von de Moivre-Laplace
Wir haben im Kapitel 6 Beispiel 6.4 gezeigt, daß bei n Münzwürfen die Anzahl der
√
Würfe, welche auf “Kopf” enden, etwa in der Größenordnung n von n/2 abweicht.
Wir wollen daher etwas allgemeiner versuchen, für unabhängige nach Ap verteilte
Zufallsvariable Xi die Wahrscheinlichkeit auszurechnen, daß sich die Anzahl der “1”
√
im Verlauf von n Versuchen um höchstens ǫ n(ǫ > 0) von np unterscheidet. Die
Tschebyscheffsche Ungleichung liefert:
n
!
X
√
np(1 − p)
p(1 − p)
Xi − np > ǫ n ≤
P =
nǫ2
ǫ2
i=1
Ist ǫ hinreichend klein, so reduziert sich das auf die triviale Ungleichung:
!
n
X
√
P Xi − np > ǫ n ≤ 1
i=1
Wir müssen daher versuchen,
!
n
X
√
P Xi − np > ǫ n =
i=1
X
√
√
np−ǫ n≤k≤np+ǫ n
n k
p (1 − p)n−k
k
genauer abzuschätzen. Dazu betrachten wir:
!
P
| ni=1 Xi − np|
P a≤ p
≤b
np(1 − p)
X
n k
p (1 − p)n−k
=
k
√
√
np+a
np(1−p)≤k≤np+b
np(1−p)
115
a, b ∈ R
116
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Aus der Stirlingschen Formel folgt:
√ √
n
nn e−n n 2π
n!
√ √
√ eΘn,k
=
=
√
k!(n − k)!
k
kk e−k k 2π(n − k)n−k e−(n−k) n − k 2π
wobei gilt: limn,k→0 Θn,k = 0, das heißt:
s
1
n
n2
nn
√
eΘn,k
= k
n−k
k (n − k)
k(n − k) 2πn
k
√
√
Sei q := 1 − p. Da k zwischen np + a npq und np + b npq liegt, strebt mit n auch
k gegen Unendlich und weiters gelten die folgenden Beziehungen:
k
n
n−k
lim
n
n
lim
= p
n
= q
Daraus folgt:
s
lim
n
1
n2
=√
k(n − k)
pq
Überdies gilt:
np k nq n−k
k
nn
−(n−k) ln n−k
−k ln np
k n−k
nq
e
=e
p q
=
k
n−k
k (n − k)
k
n−k
√
√
Die Substitution xk = (k − np)/ npq führt auf n − k = nq − xk npq. Approximiert
man dann noch ln(1 + x) durch x − x2 /2, so erhält man:
q
x2
√
q
−(np+xk npq) xk np
− 2k
np k
=e
n−k
k
bzw.:
nq
n−k
q
np
· (1 + o(1))
q
x2
√
p
− 2k
−(nq−xk npq) −xk nq
=e
p
nq
· (1 + o(1))
daraus ergibt sich:
np k nq n−k
k
n−k
2
√
√ x3 q q
x3 p p
x2
x
(1 + o(1))
= exp − − k q + x2k q − k √ − k p + x2k p + k √
2
2 np
2
2 nq
−
= e
x2
k
2
x2
− 2k
= e
−
e
Cx3
√k
n
(1 + o(1))
(1 + o(1))
8.1. DER SATZ VON DE MOIVRE-LAPLACE
Daraus folgt dann:
X
√
√
np+a npq≤k≤np+b npq
117
n k
p (1 − p)n−k
k
1
1
2
√ √
e−xk /2 (1 + o(1))
2π npq
a≤xk ≤b
X
1
2
√ e−xk /2 (xk − xk−1 )(1 + o(1))
=
2π
a≤xk ≤b
√
Mit ∆xk := xk − xx−1 = 1/ npq → 0 strebt obige Summe gegen
X
=
Zb
a
x2
1
√ e− 2 dx.
2π
Wir können daher den folgenden Satz formulieren:
Satz 8.1 (Grenzverteilungssatz von de Moivre-Laplace)
Ist (Xn ) eine Folge unabhängiger nach Ap , (0 < p < 1) verteilter Zufallsvariabler,
so gilt für jedes a, b ∈ R:
lim P
a≤
Pn
− np
≤b
√
npq
i=1 Xi
=
Zb
a
x2
1
√ e− 2 dx
2π
Das folgende Beispiel illustriert die praktische Bedeutung der soeben hergeleiteten
Approximation.
Beispiel 8.1 Bei der Fertigung elektronischer Bauteile falle ein Ausschußanteil von
p = 0.1 an. Wie groß ist die Wahrscheinlichkeit, daß in einer aus 1000 Einheiten
bestehenden Lieferung höchstens 80 fehlerhafte Stücke sind?
Sei n = 1000, x = 80 und sei
Zx
u2
1
√ e− 2 du
Φ(x) =
2π
−∞
P
n
X
i=1
!
Xi ≤ 80
Pn
− np
x − np
≤ √
√
npq
npq
x − np
≈ Φ √
npq
≈ Φ(−1.054) ≈ 0.1459
= P
i=1 Xi
(Tabellen für die Werte der Funktion Φ finden sich in fast jedem Statistik-Buch.)
118
8.2
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Die Normalverteilung
Satz 8.2
Z∞
e−
u2
2
du =
√
2π
−∞
Beweis.
 ∞
2
Z
2
u

e− 2 du
−∞
=
Z∞ Z∞
e−
−∞ −∞
u2 +v 2
2
du dv =
∂u
∂r
∂u
∂ϕ
∂v
∂r
∂v
∂ϕ
Z2π Z∞
e−
=
Z2π Z∞
e− 2 r dr dϕ
0
0
=
Z2π
1 dϕ = 2π
=
r2
2
0
0
r2
u = r cos ϕ
v = r sin ϕ
dr dϕ
0
Wegen des obigen Satzes kann durch
Φ(x) =
Zx
−∞
t2
1
√ e− 2 dt
2π
eine Verteilungsfunktion definiert werden.
Definition 8.1 Die zu der Verteilungsfunktion Φ gehörige Verteilung heißt Normalverteilung (genauer Standardnormalverteilung). Ist eine Zufallsvariable X gemäß
dieser Verteilung verteilt, so schreibt man: X vt N (0, 1).
Transformiert man auf (0, 1) stetig gleichverteilte Zufallsvariable in geeigneter Weise,
so erhält man normalverteilte Zufallsvariable, wie der folgende Satz zeigt.
Satz 8.3 Seien X1 , X2 vt S(0,1) und unabhängig, dann sind die transformierten Zufallsvariablen Y1 , Y2 mit
p
p
Y1 := −2 ln X1 cos 2πX2 , Y2 := −2 ln X1 sin 2πX2
standardnormalverteilt und ebenfalls unabhängig.
119
8.2. DIE NORMALVERTEILUNG
Beweis.Wir wenden den 2-dimensionalen Transformationssatz auf die Transformation
p
y1 = G1 (x1 , x2 ) = −2 ln x1 cos 2πx2
p
y2 = G2 (x1 , x2 ) = −2 ln x1 sin 2πx2
−1 ∂G an. Dazu müssen wir die Jacobi-Determinante ∂yij berechnen. Wegen
i,j
∂G−1
1
i
= ∂G ,
i
∂yj
∂x
j
erhält man
√ 2πx2
−1 − cos
∂Gi x1 −2 ln x1
∂y = − sin
√ 2πx2
j
x1 −2 ln x1
Weiters gilt
p
−2π −2 ln x1 sin 2πx2
p
2π −2 ln x1 cos 2πx2
−1
2π −1
x
= − = 1 .
x1
2π
y12 + y22 = 2 ln x1 (cos2 2πx2 + sin2 2πx2 ) = 2 ln x1 ⇒
x1 = e−
2 +y 2
y1
2
2
.
Somit
y 2 +y 2
−1 ∂Gi e− 1 2 2
.
∂y =
2π
j
Damit erhält man für (Y1 , Y2 ) folgende Dichte:
y 2 +y 2
−1 ∂Gi e− 1 2 2
1 − y12
1 − y22
2
2
√
√
fY1 ,Y2 (y1 , y2 ) = 1 · =
e
e
=
.
∂yj 2π
2π
2π
Daraus ergibt sich sofort die Behauptung des Satzes.
Bemerkung.Mit Hilfe des obigen Satzes lassen sich sehr leicht normalverteilte Zufallszahlen erzeugen:
Man generiere zunächst eine Folge von auf (0, 1) stetig gleichverteilten Zufallszahlen
x1 , x2 , . . . , x2n−1 , x2n . Dann transformiere man (x2i−1 , x2i ) ∀i = 1, . . . , n durch
q
q
y2i−1 = −2 ln x2i−1 cos 2πx2i , y2i = −2 ln x2i−1 sin 2πx2i .
Die so entstandenen Zufallszahlen y1 , y2 , . . . , y2n−1 , y2n sind unabhängig und normalverteilt.
Als nächstes wollen wir uns mit den Eigenschaften normalverteilter Zufallsvariablen
beschäftigen:
120
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Satz 8.4 Sei X vt N (0, 1); dann gilt:
EX = 0
var X = 1
Beweis.Wegen
1
√
2π
Z∞
2 ∞
1
− t2 =0
dt = √ e
2π
−∞
2
− t2
te
−∞
gilt:
EX = 0.
Aus:
1
√
2π
Z∞
2
2 − t2
t e
−∞
t
dt = √
2π
folgt:
2
− t2
−e
∞
Z∞
2
1
− t2
√
e
dt = 0 + 1
+
2π
−∞
−∞
var X = 1.
Transformiert man X durch eine lineare Abbildung, etwa in der Form Y := σX + µ,
so erhält man eine Zufallsvariable Y , deren Dichte aufgrund des Transformationssatzes folgendermaßen aussieht:
fY (y) = √
(y−µ)2
1
e− 2σ2
2πσ
und für welche klarerweise gilt:
EY = µ, σY2 = σ 2
(y−µ)2
√
Definition 8.2 Eine Zufallsvariable Y mit der Dichte fY (y) = 1/( 2πσ)e− 2σ2
wird normalverteilt mit dem Mittel µ und der Varianz σ 2 (Y ist N (µ, σ 2 )-verteilt)
genannt.
Bemerkung.Die Verteilungsfunktion einer N (µ, σ 2 )-verteilten Zufallsvariablen Y
kann leicht aus der Verteilungsfunktion Φ der Standardnormalverteilung bestimmt
werden. Es ist nämlich X = (Y − µ)/σ nach N (0, 1) verteilt und daher:
Y −µ
y−µ
y−µ
FY (y) = P (Y ≤ y) = P
≤
=Φ
σ
σ
σ
Weiters gilt:
121
8.2. DIE NORMALVERTEILUNG
Satz 8.5 Sind X1 , . . . , Xn unabhängige nach N (µi , σi2 )-verteilte Zufallsvariable, so
P
P
P
ist Sn = ni=1 Xi nach N ( ni=1 µi , ni=1 σi2 )-verteilt.
Beweis.Wir beweisen zunächst, daß gilt

X1
vt N (0, 1) 
⇒ X1 + X2 vt N (0, 1 + σ 2 )
X2
vt N (0, σ 2 )

X1 , X2 ua
Es gilt
fX1 +X2 (z) =
Z∞
−∞
1 − (z−t)2 − t22
2
e
e 2σ dt.
2πσ
(z − t)2 + t2 /σ 2 kann folgendermaßen umgeformt werden:
2
t2
2
2 σ +1
(z − t) + 2 = t
− 2zt + z 2
σ
σ2
!2
√
σ
σ2 + 1
σ2
t− √
z2 + z2
=
z − 2
2
σ
σ
+
1
σ +1
Somit gilt
fY (z) = √
2
− z2
1
e
2πσ
1
σ 2 +1
Z∞
−∞
− 21
1
√ e
2π
√
σ 2 +1
t− √ σ2 z
σ
σ +1
2
dt
√
√
Mit der Substitution v = σ 2 + 1t/σ − σz/ σ 2 + 1 erhält man daraus:
fY (z) =
=
Daraus folgt
2
1
σ
− z
√
√
e 2(σ2 +1)
2πσ σ 2 + 1
1
p
2π(σ 2 + 1)
2
− z2
2(σ +1)
e
Z∞
−∞
v2
1
√ e− 2 dv
2π
.
X1 + X2 vt N (0, 1 + σ 2 ).
Sei nun X1 vt N (µ1 , σ12 ), X2 vt N (µ2 , σ22 ), X1 , X2 ua, so gilt Y1 = (X1 − µ1 )/σ1 vt
N (0, 1), Y2 = (X2 −µ2 )/σ1 vt N (0, σ22 /σ12 ). Daraus folgt Y1 +Y2 vt N (0, 1+σ22 /σ12 ) =
N (0, (σ12 + σ22 )/σ12 ). Damit erhält man aber sofort:
X1 + X2 − µ1 − µ2 vt N (0, σ12 + σ22 ) ⇒
X1 + X2 vt N (µ1 + µ2 , σ12 + σ22 ).
Der Rest des Beweises ergibt sich durch vollständige Induktion.
Bemerkung.Sind Y1 , Y2 , . . . , Yn ua vt N (0, 1), so ist auf Grund obigen Satzes auch
√
(Y1 + · · · + Yn )/ n vt N (0, 1).
122
8.3
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Der zentrale Grenzverteilungssatz
Wir haben gesehen, daß bei unabhängig durchgeführten alternativverteilten VersuP
√
chen ( ni=1 Xi − np)/ npq näherungsweise N (0, 1)-verteilt ist. Es erhebt sich die
Frage, ob ähnliche Aussagen auch für unabhängige Zufallsvariable mit beliebiger
Verteilung getroffen werden können. Tatsächlich gilt:
Satz 8.6 (zentraler Grenzwertsatz für u.a. identisch verteilte Zufallsvariable)
Ist (Xn ) eine Folge von unabhängig identisch verteilten Zufallsvariablen mit EXi :=
µ und var(Xi ) = E(Xi − µ)2 = σ 2 < ∞, so gilt:
Pn
i=1√Xi − nµ
lim P a ≤
≤ b = Φ(b) − Φ(a)
n→∞
nσ
Beweis.Wir beweisen diesen Satz unter der zusätzlichen Voraussetzung, daß E|Xi |3 <
∞ ist (Ljapunows Form des zentralen Grenzverteilungssatzes) und folgen der von
LeCam in [5] vorgestellten Beweisidee. Sei ϕ eine 3-fach stetig differenzierbare, beschränkte Funktion auf R, deren Ableitungen 1-ter, 2-ter und 3-ter Ordnung ebenfalls
beschränkt sind. Sei weiters ohne Einschränkung der Allgemeinheit angenommen,
daß EXi = 0, σ 2 = 1, und seien Y1 , Y2 , . . . unabhängige, nach N (0, 1) identisch verteilte Zufallsvariable. Dann gilt:
Eϕ(X1 + · · · + Xn ) − Eϕ(Y1 + · · · + Yn )
= E ϕ(X1 + · · · + Xn ) − ϕ(X1 + · · · + Xn−1 + Yn )
+ ϕ(X1 + · · · + Xn−1 + Yn ) − ϕ(X1 + · · · + Xn−2 + Yn−1 + Yn )
+ ϕ(X1 + · · · + Xn−2 + Yn−1 + Yn ) − · · ·
− ϕ(X1 + Y2 · · · + Yn ) + ϕ(X1 + Y2 · · · + Yn ) − ϕ(Y1 + · · · + Yn ))
n
X
Eϕ(X1 + · · · + Xk−1 + Yk+1 + · · · + Yn + Xk )
=
k=1
− Eϕ(X1 + · · · + Xk−1 + Yk+1 + · · · + Yn + Yk )
Sei ϑk := X1 + · · · + Xk−1 + Yk+1 + · · · + Yn , dann gilt:
· · · + Xn
Y1 + · · · + Yn Eϕ X1 + √
√
− Eϕ
n
n
n
X
ϑk + Yk + Xk
Eϕ ϑk √
√
− Eϕ
≤
n
n
k=1
Da ϕ 3-fach differenzierbar ist, gilt:
ϕ(x + y) = ϕ(x) + yϕ′ (x) +
y3
y 2 ′′
ϕ (x) + ϕ′′′ (ỹ) mit ỹ ∈ [x, x + y]
2
6
8.3. DER ZENTRALE GRENZVERTEILUNGSSATZ
123
Wendet man dies auf ϕ(ϑk + Xk ) bzw. auf ϕ(ϑk + Yk ) an, und berücksichtigt man
ferner, daß Xk und ϑk bzw. Yk und ϑk voneinander unabhängig sind, so erhält man:
Eϕ(ϑk + Xk ) = Eϕ(ϑk ) + EXk Eϕ′ (ϑk ) +
= Eϕ(ϑk ) +
EXk3 ′′′
EXk2 ′′
Eϕ (ϑk ) +
Eϕ (ϑ̃k )
2
6
Eϕ′′ (ϑk ) EXk3 ′′′
+
Eϕ (ϑ̃k )
2
6
Einen analogen Ausdruck erhält man für Eϕ(ϑk + Yk ). Daraus ergibt sich dann:
· · · + Xn
Y1 + · · · + Yn Eϕ X1 + √
√
− Eϕ
n
n
!
!
n
˜
X
ϑ̃k E|Xk |3 + E|Yk |3 ′′′ ϑ̃k
′′′
√
√ +ϕ
≤
E ϕ
n
n 6n3/2
k=1
≤
nC
C̃
3
3
E|X
|
+
E|Y
|
≤√ ,
1
1
n
n3/2
wobei C, C̃, geeignete Konstante sind.
Kann man diese Aussage auch für Sprungfunktionen Ψx (y) = 1(−∞,x] (y) beweisen,
so ist der Beweis fertig, denn es gilt:
X1 + · · · + Xn
X1 + · · · + Xn
√
√
EΨx
≤x
=P
n
n
und
Y1 + · · · + Yn
Y1 + · · · + Yn
√
√
≤ x = Φ(x)
=P
n
n
√
(da (Y1 + · · · + Yn )/ n nach N (0, 1) verteilt ist).
Sei also ǫ > 0 und definiere:

1
für y ≤ x



 h
i

4 4
für x ≤ y ≤ x + ǫ
1 − y−x
Ψx,ǫ (y) :=
ǫ




 0
sonst
EΨx
dann ist Ψx,ǫ 3-fach differenzierbar und beschränkt, und alle 3 Ableitungen sind
beschränkt. Außerdem gilt:
Ψx−ǫ ≤ Ψx−ǫ,ǫ ≤ Ψx ≤ Ψx,ǫ ≤ Ψx+ǫ
Daraus folgt:
Φ(x + ǫ) = EΨx+ǫ
Y1 + · · · + Yn
√
n
124
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Y1 + · · · + Yn
√
≥ EΨx,ǫ
n
Y1 + · · · + Yn
√
= Φ(x)
≥ EΨx
n
Y1 + · · · + Yn
√
≥ EΨx−ǫ,ǫ
= Φ(x − ǫ)
n
und
P
X1 + · · · + Xn
√
≤x+ǫ
n
X1 + · · · + Xn
X1 + · · · + Xn
√
√
≥ EΨx,ǫ
≤x
≥P
n
n
X1 + · · · + Xn
X1 + · · · + Xn
√
√
≥ EΨx−ǫ,ǫ
≤x−ǫ
≥P
n
n
Das impliziert aber:
X1 + · · · + Xn
X1 + · · · + Xn
√
√
≤ x ≤ lim sup EΨx,ǫ
lim sup P
n
n
Y1 + · · · + Yn
√
= lim sup EΨx,ǫ
≤ Φ(x + ǫ)
n
und
lim inf P
X1 + · · · + Xn
√
≤x
n
≥ lim inf EΨx−ǫ,ǫ
Y1 + · · · + Yn
√
n
≥ Φ(x − ǫ)
Somit erhält man letztlich ∀ǫ > 0:
X1 + · · · + Xn
√
≤x
Φ(x − ǫ) ≤ lim inf P
n
X1 + · · · + Xn
√
≤ lim sup P
≤ x ≤ Φ(x + ǫ)
n
und es gilt daher:
X1 + · · · + Xn
√
≤ x = Φ(x).
lim P
n
n
Falls der zentrale Grenzwertsatz Gültigkeit besitzt, liefert er im allgemeinen wesentlich bessere Abschätzungen, als die Tschebyscheffsche Ungleichung.
Beispiel 8.2 Wir kehren zurück zu Beispiel 6.2 aus Kapitel 6. In diesem Beispiel
sollte der Wähleranteil einer Partei mit einer Wahrscheinlichkeit von 0.99 auf ǫ =
±0.01 genau vorhergesagt werden. Mit Hilfe der Tschebyscheffschen Ungleichung
8.3. DER ZENTRALE GRENZVERTEILUNGSSATZ
125
konnten wir zeigen, daß dafür ein Stichprobenumfang von n ≈ 250000 ausreicht.
√ √
Unter Verwendung des Zentralen Grenzwertsatzes bekommt man mit ǫ̃ := ǫ n/ pq:
#
" n
#
" n
1 X
X X − np ǫ√n
i
P Xi − p ≤ ǫ = P ≤ √
√
n
npq pq
i=1
i=1
≈ Φ(ǫ̃) − Φ(−ǫ̃) = 2Φ(ǫ̃) − 1 ≥ 0.99
n=
pq
ǫ2
√
ǫ n
√
pq
= Φ−1 (0.995) ⇒
4
2
Φ−1 (0.995) ≥ 104 · 2.57582 ≈ 16587
Φ(ǫ̃) = 0.995 ⇒
Man benötigt also nur knapp 7% des ursprünglichen Stichprobenumfangs.
Zum Abschluß sei noch darauf hingewiesen, daß der Zentrale Grenzwertsatz unter
gewissen Voraussetzungen auch bei nicht identisch verteilten Zufallsvariablen gültig
ist, und daß auch die Unabhängigkeitsannahme gemildert und durch bestimmte Formen von Abhängigkeiten zwischen den Zufallsvariablen ersetzt werden kann. Über
diese Verallgemeinerungen existiert eine umfangreiche Literatur.
126
KAPITEL 8. DER ZENTRALE GRENZVERTEILUNGSSATZ
Literaturverzeichnis
[1] Feller, W. (1966). An Introduction to Probability Theory and Its Applications.
Wiley, New York.
[2] Fisz, M. (1989). Wahrscheinlichkeitsrechnung und mathematische Statistik.
VEB Deutscher Verlag d. Wissenschaften, Berlin.
[3] Fouché, H. (1956). Gaines Cryptoanalysis. Dover, New York.
[4] Gnedenko, B. (1976). The Theory of Probability. MIR-Publishers, Moskau.
[5] LeCam, L. (1986). The Central Limit Theorem around 1935. Statistical Science,
1986, Vol. 1, No. 1, pp 78–96 (article).
[6] Mosteller, F. (1965). Challenging Problems in Probability. Dover, New York.
[7] Renyi, A. (1969). Briefe über Wahrscheinlichkeit. Akadémiai Kiadó, Budapest.
[8] Renyi, A. (1970). Probability Theory. Akadémiai Kiadó, Budapest.
[9] Rosanow, J. (1975). Stochastische Prozesse. Akademie, Berlin.
[10] Storm, R. (1979). Wahrscheinlichkeitsrechnung, Mathematische Statistik, Statistische Qualitätskontrolle. VEB Fachbuchverlag, Leipzig.
[11] Székely G. (1986). Paradoxes in Probability Theory and Mathematical Statistics.
Akadémiai Kiadó, Budapest.
[12] Weaver, W. (1963). Lady Luck – The Theory of Probability. Dover, New York.
127
Herunterladen