Vorlesung Einführung in die Wahrscheinlichkeit

Werbung
Vorlesung
Einführung in die Wahrscheinlichkeit
Prof. C. Mazza
Wintersemester 2007/2008
Literatur
W. Feller, An introduction to probability theory and some of its applications I
(Wiley 1968).
K.L. Chung, Elementary probability theory with stochastic processes (Springer
1974).
J-Y. Ouvrard, Probabilités 1, Capes et Agrégation (Cassini 1998)
Contents
1 Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsräume, Beispiele
3
1.1
Verschiedene Wahrscheinlichkeitsbegriffe . . . . . . . . . . . . . . . . . . . .
3
1.2
Zufallsexperimente, Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . .
4
1.3
Abzählbare Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . .
4
1.4
Allgemeine Wahrscheinlichkeitsräume
7
. . . . . . . . . . . . . . . . . . . . . .
2 Bedingte Wahrscheinlichkeiten, unabhängige Ereignisse
8
2.1
Die bedingte relative Häufigkeit: . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2
Bedingte Wahrscheinlichkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.3
Unabhängigkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3 Diskrete Zufallsgrössen
12
3.1
Die Verteilung einer Zufallsgrösse . . . . . . . . . . . . . . . . . . . . . . . . .
12
3.2
Einige Eigenschaften der Erwartung . . . . . . . . . . . . . . . . . . . . . . .
13
3.3
Unabhängige reelle Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . .
14
3.4
Moment, Varianz aund Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.5
Die Faltung von Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . .
17
1
3.6
Liste einiger wichtigen (diskreten) Verteilungen . . . . . . . . . . . . . . . . .
18
3.7
Die Verteilungsfunktion einer Zufallsgrösse . . . . . . . . . . . . . . . . . . . .
20
3.8
Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.9
Beispiele von abhängigen Zufallsgrössen . . . . . . . . . . . . . . . . . . . . .
20
4 Zufallsgrössen mit Dichten
23
4.1
Unabhängige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.2
Die Verteilungsfunktion einer Zufallsgrösse . . . . . . . . . . . . . . . . . . . .
27
4.3
Die Faltung von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.4
Lineare Abbildungen von Zufallsvektoren . . . . . . . . . . . . . . . . . . . .
29
4.5
Funktionen von reellen Zufallsgrössen
. . . . . . . . . . . . . . . . . . . . . .
30
4.6
Zwei weitere wichtige Dichten: Die Student und die Exponential Verteilungen
30
5 Die Gesetze der grossen Zahlen
32
5.1
Die Ungleichung von Tschebyscheff . . . . . . . . . . . . . . . . . . . . . . . .
33
5.2
Das schwache Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . .
34
5.3
Das starke Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . . . . . . . .
34
5.4
Anwendung der Gesetze der grossen Zahlen . . . . . . . . . . . . . . . . . . .
34
5.5
Markovsche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
6 Der zentrale Grenzwertsatz
36
Vorbemerkungen
Wahrscheinlichkeit und Statistik haben zwei gemeinsame Wurzeln, die früh zusammengewachsen sind:
1. Glücksspiele
2. Elementare beschreibende Statistik (Statistik = “Zusammenstellung von numerischen
Daten für die Zwecke des Staates”)
Heutige Unterscheidung:
Wahrscheinlichkeitsmodell
Wahrscheinlichkeitstheorie
↓
↑
Statistik
Beobachtungen
2
Ohne wahrscheinlichkeitstheoretische Grundlegung kann man die heutige Statistik nicht verstehen. Deshalb wird die Statistik im Sommersemester behandelt.
1
Der Begriff der Wahrscheinlichkeit, Wahrscheinlichkeitsräume,
Beispiele
1.1
Verschiedene Wahrscheinlichkeitsbegriffe
Schwierigkeit: es gibt mindestens vier, nur teilweise miteinander verträgliche Wahrscheinlichkeitsbegriffe:
a) Wahrscheinlichkeit = Mass des persönlichen Glaubens.
Das entspricht dem umgangssprachlichen Wahrscheinlichkeitsbegriff; mathematisch
formalisiert von L.J. Savage (Foundations of Statistics, Wiley, 1954). Kritik: die
Wahrscheinlichkeitstheorie wird damit zu einer psychologischen Theorie (wie verknüpfen
wir unseren a priori Glauben mit den Beobachtungen zu einem a posteriori Glauben),
und unser Geist scheint diese Verknüpfung nicht nach der sogenannten Bayes’schen
Formel (s. Kapitel II) vorzunehmen, wie es die Subjektivisten von einer “idealen”
Person fordern.
Anzahl günstige Fälle
b) Wahrscheinlichkeit =
.
Anzahl mögliche Fälle
Das ist die klassische Definition; die Wahrscheinlichkeit wird hier durch eine Symmetriebetrachtung gefunden.
Bemerkung die Wahrscheinlichkeit in 4 Würfen mit einem Würfel mindestens einmal eine Sechs zu werfen, ist
ungünstige Fälle
54
günstige Fälle
=1−
=1− 4 .
mögliche Fälle
mögliche Fälle
6
Empirischer Hintergrund: das Resultat eines einzelnen Wurfes ist zwar nicht vorhersagbar, auf die Länge treten aber alle sechs Möglichkeiten etwa gleichhäufig auf. Nachträglich
versucht man das durch eine Symmetriebetrachtung zu begründen.
Beispiel n Würfe einer symmetrischen Münze. Gesucht ist die Wahrscheinlichkeit
pk , dass man k–mal “Kopf” erhält. Man hat
n 1 n
pk =
, k = 0, 1, . . . , n.
k
2
n!
Es gibt 2n mögliche Ausgänge und nk := k!(n−k)!
günstige Fälle!
Kritik: die klassische Definition erleidet Schiffbruch, sobald man gefälschte Würfel oder
Münzen betrachtet.
c) Wahrscheinlichkeit = Grenzwert der relativen Häufigkeit.
Diese Definition wird durch die bereits erwähnte beachtliche Stabilität der relativen
Häufigkeit suggeriert. Es ist schwierig, daraus eine mathematische Definition zu machen:
3
wie ist eine “zufällige” Folge ins Unendliche fortzusetzen? Der Ansatz von von Mises
(Wahrscheinlichkeit, Statistik und Wahrheit, Springer, Wien, 1936) ist nicht ganz
adäquat, wurde aber vor wenigen Jahren in Ordnung gebracht (P. Martin Löf: Definition of random sequences. Information and Control 6 (1966), 602–619).
d) Wahrscheinlichkeit = implizit durch ein Axiomensystem definiert.
Dieser Ansatz ist sehr handlich und hat sich allgemein eingebürgert, erschöpft aber
nicht alle Aspekte des Wahrscheinlichkeitsbegriffes (z.B. kann er nicht zwischen zufälligen und unzufälligen Folgen von 0 und 1 unterscheiden!).
In dieser Vorlesung werden wir die Wahrscheinlichkeit durch ein Axiomensystem definieren.
1.2
Zufallsexperimente, Wahrscheinlichkeitsräume
Empirische Tatsache: es gibt Experimente (z.B. viermaliges Werfen eines Würfels), welche
unter den gleichen Bedingungen mehrfach wiederholt werden können, aber nicht immer das
gleiche Resultat liefern. Bei oftmaliger Wiederholung stabilisiert sich jedoch die relative
Häufigkeit der verschiedenen möglichen Ergebnisse ω1 , ω2 , . . . , ωN : wenn ωi bei n–maliger
Wiederholung ni –mal aufgetreten ist, scheint nni für n → ∞ einem Grenzwert pi zuzustreben.
Wir werden das folgende Zufallsexperiment später genauer analysieren.
Zufallsexperiment: n–maliges Werfen einer Münze.
Mögliche, unterscheidbare Ergebnisse (“Elementarereignisse”): jede Folge ωi der Länge n
von “Kopf” (0) und “Zahl” (1) ist ein mögliches Ereignis, es gibt also N = 2n mögliche
Ergebnisse.
Wahrscheinlichkeiten: bei einer “idealen” Münze hat jedes mögliche Ergebnis ω (nach der
klassischen Definition) die gleiche Wahrscheinlichkeit 2−n ; bei einer “gefälschten” Münze
werden die Wahrscheinlichkeiten verschieden sein.
Beachte: dieses Zufallsexperiment kann auch als n–malige Wiederholung eines Zufallsexperimentes mit nur zwei möglichen Ergebnissen aufgefasst werden.
Ein anderes Beispiel eines Zufallsexperimentes: Man wirft eine “ideale” Münze so lange
bis man “Zahl” bekommt.
Mögliche Ergebnisse: alle Folgen ωi der Form (0, 0, . . . , 0, 1), i = 1, 2, . . . .
| {z }
(i−1)−mal
Die Menge aller möglichen Ausgänge ist hier unendlich, aber abzählbar.
i
Wahrscheinlichkeiten: pi := Wahrscheinlichkeit von ωi = 21 , i = 1, 2, . . . .
Beachte:
∞
P
pi = 1.
i=1
1.3
Abzählbare Wahrscheinlichkeitsräume
Ein abzählbarer Wahrscheinlichkeitsraum besteht aus einer abzählbaren Menge Ω = {ω1 , ω2 , . . . };
jedem Element (“Elementarereignis”) ωi ist eine reelle Zahl pi ≥ 0 zugeordnet (die “Wahrschein4
lichkeit” von ωi ), derart dass
∞
P
pi = 1.
i=1
Die Teilmengen A ⊆ Ω heissen zusammengesetzte Ereignisse oder kurz
P Ereignisse; die
Wahrscheinlichkeit P (A) eines Ereignisses ist definiert durch P (A) =
pi .
i:ωi ∈A
Es gilt:
1) P (∅) = 0,
2) P (Ω) = 1,
3) P (
∞
S
Ai ) =
i=1
∞
P
P (Ai ) falls Ai ∩ Aj = ∅ für i 6= j. (∪ ist die Vereinigung, ∩ der
i=1
Durchschnitt)
Eine auf der Menge A aller Teilmengen von Ω definierte Funktion P , die die Eigenschaften
1), 2), 3) besitzt, wird Wahrscheinlichkeitsmass, Wahrscheinlichkeitsverteilung oder kurz
Wahrscheinlichkeit genannt; das Tripel (Ω, A, P ) heisst abzählbarer Wahrscheinlichkeitsraum.
Wir stellen uns auf den axiomatischen Standpunkt: die pk sind beliebige vorgegebene
Zahlen.
Beabsichtigte Interpretation
i) Bei oftmaliger Wiederholung des Experimentes tritt das Ereignis A mit einer relativen
Häufigkeit nahe bei P (A) auf.
ii) Wenn P (A) nahe bei 1 (resp. bei 0) liegt, trifft A bei einmaliger Durchführung des
Experimentes praktisch sicher ein (resp. nicht ein).
Die Wahrscheinlichkeit wird also auch in dieser sogenannten “Häufigkeitsinterpretation” letzten Endes durch den subjektiven Glauben interpretiert, aber nur qualitativ, nicht quantitativ.
Sei (Ω, A, P) ein abzählbarer Wahrscheinlichkeitsraum.
Die Folge A1 , A2 , . . . von Ereignissen heisst monoton wachsend (resp. fallend), falls
Ai ⊆ Ai+1 , ∀i (Ai+1 ⊆ Ai , ∀i ) gilt.
Satz 1.1. A1 , A2 , . . . sei eine Folge von Ereignissen.
Behauptungen
1. P (Ac1 ) = 1 − P (A1 )
(Ac1 bedeutet das Komplement von A)
2. P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
5
3. P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 )
−P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 )
4.
P(
n
S
Ai ) =
i=1
n
P
P
P (Ai1 ∩ Ai2 )+
P (Ai ) −
i=1P
i1 <i2
P (Ai1 ∩ Ai2 ∩ Ai3 ) − · · · + (−1)n+1 P (A1 ∩ A2 ∩ · · · ∩ An )
i1 <i2 <i3
5. Ai ↑
=⇒
Ai ↓
lim P (Ai ) = P (
i→∞
=⇒
∞
S
i=1
∞
T
lim P (Ai ) = P (
i→∞
Ai ),
Ai ).
i=1
Beweis.
1. Man hat A1 ∪ Ac1 = Ω und somit P (A1 ) + P (Ac1 ) = P (Ω) = 1.
2. Wegen A1 ∪ A2 = A1 − (A1 ∩ A2 ) ∪ A2 − (A1 ∩ A2 ) ∪ (A1 ∩ A2 ) gilt
P (A1 ∪ A2 ) = P (A1 ) − P (A1 ∩ A2 ) + P (A2 ) − P (A1 ∩ A2 ) + P (A1 ∩ A2 )
= P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
(A − B := A ∩ B c )
3. siehe 4.
4. Der Beweis geschieht durch Induktion über n. Die Behauptung ist richtig für n = 2.
Nehmen wir an, sie sei bis n − 1 bewiesen. Dann ist
n−1
[
P (A1 ∪ A2 · · · ∪ An ) = P (
n−1
n−1
[
[
2.
Ai ) ∪ An = P (
Ai ) + P (An ) − P (
Ai ) ∩ An .
i=1
i=1
i=1
Nach Voraussetzung gilt
n−1
[
P(
Ai ) =
i=1
n−1
X
P (Ai ) −
i=1
n−1
X
P (Ai1 ∩ Ai2 ) + · · · + (−1)n P (A1 ∩ · · · ∩ An−1 )
i1 ,i2 =1
i1 <i2
und
n−1
S
P (
Ai ∩ An ) = P
n−1
S
i=1
n−1
P
(Ai ∩ An ) =
i=1
n−1
P
P (Ai ∩ An ) −
i=1
P (Ai1 ∩ Ai2 ∩ An ) + · · · + (−1)n P (A1 ∩ A2 · · · ∩ An ).
i1 ,i2 =1
i1 <i2
Daraus folgt
P(
n
[
i=1
Ai ) =
n
X
i=1
P (Ai ) −
n
X
P (Ai1 ∩ Ai2 ) + · · · + (−1)n+1 P (
n
\
i=1
i1 ,i2 =1
i1 <i2
6
Ai ).
5. Setzen wir (im Falle, wo Ai ↑) A0i := Ai − Ai−1 , i = 2, 3, . . . , A01 := A1 . Dann gilt
∞
∞
S
S
Ai =
A0i und somit
i=1
i=1
P(
∞
[
Ai ) = P (
i=1
∞
[
A0i ) =
i=1
∞
X
P (A0i ),
i=1
denn die Ereignisse {A0j } sind paarweise disjunkt. Ferner gilt
∞
P
i=1
P (A0i )
n
P
P (A0i ) = lim {P (A01 ) + · · · + P (A0n )}
n
n→∞
o
= lim P (A1 ) + P (A2 ) − P (A1 ) + · · · + P (An ) − P (An−1 )
= lim
n→∞ i=1
n→∞
= lim P (An ).
n→∞
Im Falle, wo Ai ↓ hat man Aci ↑. Deswegen ist
∞
[
\
P ( Aci ) = 1 − P ( Ai ) = lim P (Acn ) = lim 1 − P (An )
n→∞
i=1
und somit
P(
∞
\
Ai ) = lim P (An ).
n→∞
i=1
1.4
n→∞
Allgemeine Wahrscheinlichkeitsräume
Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A, P ), bestehend aus einer beliebigen Menge
Ω, einer Menge A von Teilmengen (“Ereignisse”) von Ω und einer reellwertigen Funktion P
auf A, derart dass
A0
1. Ω ∈ A,
2. A ∈ A
=⇒
Ac ∈ A,
3. Ai ∈ A, i = 1, 2, . . .
=⇒
∞
S
Ai ∈ A.
i=1
(Eine solche Menge A heisst σ–Algebra von Teilmengen.)
A1
1. 0 ≤ P (A) ≤ 1, P (Ω) = 1,
∞
∞
S
P
2. P ( Ai ) =
P (Ai ) falls Ai ∩ Aj = ∅ für i 6= j.
i=1
i=1
(Axiome von Kolmogoroff)
Es ist einfach zu sehen, dass der vorher bewiesene Satz auch im allgemeinen Fall gültig
ist.
Bemerkung
Betrachten wir das folgende Experiment: Ein Punkt wird im Intervall [0, 1]
“zufällig” ausgewählt.
Mögliche Ergebnisse: Ω := [0, 1].
7
Wahrscheinlichkeiten: Hier muss man P ({ω}) = 0 setzen (warum?), und es ist nicht mehr
möglich, die Wahrscheinlichkeit irgendwelcher Teilmengen A von Ω als die Summe der
Wahrscheinlichkeiten ihrer Elemente zu definieren. Man kann aber zeigen, dass es eine
einzige Funktion P auf der kleinsten σ–Algebra gibt, welche die Intervalle I enthält, so dass
(A1 ) 1, 2 mit P (I) = Länge von I für alle Intervalle I erfüllt sind.
Beispiele von Wahrscheinlichkeiten, die durch Symmetriebetrachtungen ausgerechnet
werden
Beispiel 3
Aus einem Kartenspiel (36 Karten) greift man auf gut Glück 3 Karten heraus.
Gesucht ist die Wahrscheinlichkeit P dafür, dass sich unter ihnen genau ein As befindet.
Wir haben
günstige Fälle
=
P =
mögliche Fälle
4
1
32
2
36
3
=
496
≈ 0, 2778 .
1785
Beispiel 4
Wir betrachten dasselbe Zufallsexperiment wie im dritten Beispiel. Gesucht
ist die Wahrscheinlichkeit Q dafür, dass unter ihnen wenigstens ein As vorkommt (Ereignis
A).
Wir haben
32
3
36
3
P (A) = 1 − P (Ac ) = 1 −
≈ 0, 3053.
Bemerkung: “auf gut Glück” bedeutet, dass alle möglichen Ausgänge gleichwahrscheinlich
sind.
Beispiel 5
Eine Urne enthält n weisse und n rote Kugeln. Der Reihe nach zieht man
zufällig eine Kugel und dies ohne Zurücklegen. Wie gross ist die Wahrscheinlichkeit P , dass
im Laufe der Ziehung nie mehr rote Kugeln als weisse Kugel gezogen worden sind?
Antwort: P =
2
2.1
1
n+1 ;
der Beweis wird in der Vorlesung durchgeführt.
Bedingte Wahrscheinlichkeiten, unabhängige Ereignisse
Die bedingte relative Häufigkeit:
Wir betrachten ein Zufallsexperiment (z.B. einen Wurf mit einem symmetrischen Würfel).
A und B seien zwei Ereignisse. Tritt bei n Wiederholungen des Experimentes genau nB –mal
das Ereignis B ein, und findet bei diesen nB Versuchen nA∩B –mal zusammen mit B auch
das Ereignis A statt, so wollen wir den Quotienten
!
nA∩B . nB
nA∩B
die bedingte relative Häufigkeit nennen.
=
hA|B =
nB
n
n
8
Die bedingte relative Häufigkeit des Ereignisses A unter der Bedingung B in einer Versuchsfolge ist also gleich der relativen Häufigkeit von A in einer Teilfolge dieser Versuchsfolge,
die aus denjenigen Versuchen der ursprünglichen Folge besteht, bei welchen B stattgefunden
hat.
2.2
Bedingte Wahrscheinlichkeit:
Interpretiert man die Wahrscheinlichkeit eines Ereignisses als relative Häufigkeit, ist es
dann sinnvoll, die bedingte Wahrscheinlichkeit P (A|B) von A, gegeben B, wie folgt
zu definieren
P (A ∩ B)
falls P (B) > 0 ist.
P (A|B) :=
P (B)
(Hier wird vorausgesetzt, dass ein allgemeiner Wahrscheinlichkeitsraum vorgegeben ist.)
2.3
Unabhängigkeit:
Zwei Ereignisse A, B heissen unabhängig, wenn
P (A ∩ B) = P (A)P (B)
gilt.
Bemerkung: Im Falle, wo P (B) > 0 ist, sind A und B unabhängig dann und nur dann, wenn
P (A|B) = P (A) ist.
Beachte: Die Definition von Unabhängigkeit ist symmetrisch. Die Frage, ob die kausale
Unabhängigkeit durch stochastische Unabhängigkeit (wie oben definiert) formalisiert werden
kann, kann nur empirisch entschieden werden.
Satz 2.1 (Der “Satz von der totalen Wahrscheinlichkeit” und die Formel von Bayes ).
(Ω, A, P ) sei ein Wahrscheinlichkeitsraum.
Seien B1 , · · · , Bk , A beliebige Ereignisse mit
a) P (Bi ) > 0, ∀i und P (A) > 0,
b) Bi ∩ Bj = ∅ für i 6= j und
c)
k
S
Bi = Ω.
i=1
Dann gilt
— P (A) =
k
P
P (A|Bj )P (Bj ) (“Satz von der totalen Wahrscheinlichkeit”).
j=1
— Die unmittelbar daraus folgende Beziehung
P (Bi |A) =
P (Bi ∩ A)
P (A|Bi )P (Bi )
= k
P
P (A)
P (A|Bj )P (Bj )
j=1
wird Formel von Bayes genannt.
9
Diese Formel hat eine fundamentale Bedeutung in der subjektiven Wahrscheinlichkeitsauffassung: sei P (Bi ) das Mass unseres a priori Glaubens an die Richtigkeit der Hypothese Bi ;
wir kennen ausserdem die bedingten Wahrscheinlichkeiten P (A|Bi ) für das Eintreffen von
A unter den verschiedenen Hypothesen. Wenn nun das Experiment tatsächlich das Resultat A ergeben hat, modifiziert eine “ideale” Person ihren a priori Glauben zum a posteriori
Glauben P (Bi |A) gemäss der Bayes’schen Formel.
Beispiel 1 (vgl. Kapitel I, Beispiel 2)
Zufallsexperiment: n Würfe mit einer idealen Münze.
Ak : der k–te Wurf ergibt “Zahl”. Man hat
P (Ak ) =
2n−1
1
= ,
2n
2
P (Ak ∩ A` ) =
2n−2
1
=
2n
4
für k 6= `
=⇒ für k 6= ` sind Ak und A` unabhängig.
Beispiel 2
Ich habe einen Sack voll Münzen. Die Hälfte davon fällt mit Wahrscheinlichkeit p = 0, 9
“Kopf”, die andere Hälfte mit Wahrscheinlichkeit p = 0, 1. Ich ziehe auf Geratewohl eine
Münze aus dem Sack und werfe sie zweimal. Sei Ki das Ereignis: “Kopf” im i–ten Wurf.
Dann gilt:
P (K1 ) = P (K1 |p = 0.9) P (p = 0.9) + P (K1 |p = 0.1) P (p = 0.1) = 0.5
|
{z
} | {z } |
{z
} | {z }
0.9
0.5
0.1
0.5
P (K2 ) = 0, 5,
P (K1 ∩ K2 ) = (0.9)2 · 0.5 + (0.1)2 · 0.5 = 0.41,
P (K2 |K1 ) = 0.41
0.5 = 0.82 .
Angenommen, ich habe zweimal “Kopf” geworfen. Wie gross ist die Wahrscheinlichkeit, dass
meine Münze zur Klasse p = 0.9 gehört? (a posteriori Glauben!)
P (“p = 0.9”|K1 ∩ K2 ) =
P (“p = 0.9” ∩ (K1 ∩ K2 ))
0.5 · 0.9 · 0.9
=
= 0.988
P (K1 ∩ K2 )
0, 41
(Formel von Bayes mit A = K1 ∩ K2 , B1 ∼ “p = 0.1” und B2 ∼ “p = 0.9” )
10
Unabhängige Ereignisse
Definition
Eine Familie A1 , A2 , · · · , An heisst unabhängig, falls
\
Y
P(
Aj ) =
P (Aj ) für alle Teilmengen J von {1, 2, · · · , n}.
j∈J
j∈J
Zum Beispiel, die Familie A1 , A2 , A3 ist unabhängig, falls P (A1 ∩A2 ) = P (A1 )P (A2 ), P (A2 ∩
A3 ) = P (A2 )P (A3 ), P (A1 ∩ A3 ) = P (A1 )P (A3 ) und P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )
gilt.
Definition
Die Ereignisse A1 , A2 , · · · , An heissen paarweise unabhängig, falls P (Ai ∩
Aj ) = P (Ai )P (Aj ) für i 6= j gilt.
Beachte: paarweise Unabhängigkeit impliziert nicht die Unabhängigkeit der Familie.
Beispiel: Wir betrachten 2 Würfe mit einem Würfel und definieren drei Ereignisse wie folgt
A1 ∼ 1. Wurf zeigt gerade Augenzahl,
A2 ∼ 2. Wurf zeigt gerade Augenzahl,
A3 ∼ beide Würfe haben die gleiche Parität.
In diesem Falle sind die Ereignisse A1 , A2 , A3 paarweise unabhängig, aber die Familie ist
nicht unabhängig.
Beispiel 3
Rotgrün-Blindheit (R): Eine meist angeborene Störung des Farbensinnes;
Farben zwischen Rot und Grün erscheinen als verschieden helles Gelb.
Untersuchungen haben ergeben: Bei den Männern (M ) tritt R viel häufiger auf als bei den
Frauen (F ). Man kann nämlich annehmen, dass P (R|M ) = 8 % und P (R|F ) = 0, 4 % gilt.
Wir wollen jetzt die bedingte Wahrscheinlichkeit P (M |R) des “Ereignisses” M , gegeben R
ausrechnen. Um die Sache zu vereinfachen, setzen wir P (M ) = P (F ) = 1/2. Nach dem
“Satz von der totalen Wahrscheinlichkeit” und der Formel von Bayes erhalten wir
P (R) = P (R|M )P (M ) + P (R|F )P (F ) = 0, 08 · 0, 5 + 0, 004 · 0, 5 = 0, 042
und somit
P (M |R) =
P (R|M ) · P (M )
0, 08 · 0, 5
=
= 0, 95 .
P (R)
0, 042
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum.
Die Mengensysteme A1 , · · · , Ak sind (stochastisch) unabhängig, falls für alle
k
Q
k–Tupel A1 ∈ A1 , . . . , Ak ∈ Ak , P (A1 ∩ A2 ∩ · · · ∩ Ak ) =
P (Ai ).
Definition
i=1
Definition Eine Familie (At )t∈T von Mengensystemen heisst unabhängig, falls die Mengensysteme (At )t∈J , für alle endlichen Teilmengen J von T , unabhängig sind.
11
3
Diskrete Zufallsgrössen
(Ω, A, P ) sei ein Wahrscheinlichkeitsraum und E eine abzählbare Menge.
Definition
E, so dass
Eine diskrete Zufallsgrösse mit Werten in E ist eine Abbildung X von Ω in
X −1 ({e}) := {ω ∈ Ω : X(ω) = e} ∈ A, ∀ e ∈ E.
X ist eine reelle Zufallsgrösse, falls E ⊆ R und ein Zufallsvektor im Falle, wo E ⊆ Rk (k > 1).
Beispiel 1
(n–maliges Werfen einer symmetrischen Münze)
Ω = {ω = (ω1 , ω2 , · · · , ωn ) : ωi ∈ {0, 1}, ∀i },
A = P(Ω),
X(ω) :=
n
P
P ({ω}) =
1
2n ∀ ω
∈ Ω.
ωi
i=1
In diesem Fall ist E = {0, 1, 2, · · · , n} und P X −1 (k) =
(siehe Beispiel 2, I, § 1).
Beispiel 2
n 1
k 2n ,
k = 0, · · · , n
(n–maliges Werfen einer Münze: die Binomial verteilung B(n, p))
Ai sei das Ereignis “Zahl” beim i–ten Wurf. Wir setzen voraus, dass die Familie A1 , A2 , · · · , An
unabhängig
sei wie im Beispiel 1 definiert. Da die Münze nicht unbedingt symmetrisch
ist. X −1
ist, gilt P X (k) = nk pk (1 − p)n−k , wobei p = P (Ai ) mit 0 < p < 1.
3.1
Die Verteilung einer Zufallsgrösse
−1
Falls X Werte in E = {e1 , e2 , . . . } annimmt, definiert man PX ({e
})
:=
P
X
(e
)
für
i
i
P
i = 1, 2, . . . . Für eine Teilmenge A von E setzt man PX (A) :=
PX ({ei }). Die von X
ei :ei ∈A
induzierte Wahrscheinlichkeit PX ist die Verteilung der Zufallsgrösse.
Im Beispiel 2 hat man PX ({k}) = nk pk (1−p)n−k mit E = {0, 1, 2, . . . , n}. Diese Verteilung,
die von zwei Parametern abhängt, spielt eine wichtige Rolle in der Wahrscheinlichkeitstheorie. Sie heisst Binomialverteilung B(n, p) .
Die Erwartung
Sei X eine reelle Zufallsgrösse mit Werten in E = {x1 , x2 , . . . } (⊆ R).
Die Erwartung von X ist definiert als
E(X) =
∞
X
∞
X
xi P X −1 (xi ) =
xi PX ({xi }),
i=1
falls
∞
P
i=1
|xi |PX ({xi }) < ∞.
i=1
12
Figure 1: Die Binomialverteilung
Beispiel: Falls X eine B(n, p)–Verteilung besitzt, gilt E(X) = np:
Nach Definition ist
E(X)
=
n
P
=
k=0
n
P
k=1
k
n
k
n!
k k!(n−k)!
pk (1 − p)n−k =
=p·n
n−1
P
k=0
3.2
pk (1 − p)n−k (E = {0, 1, 2, . . . , n})
n−1
k
n
P
pn ·
k=1
(n−1)!
k−1
(1
(k−1)!(n−1−(k−1))! p
− p)(n−1−(k−1))
pk (1 − p)(n−1−k) = n · p .
Einige Eigenschaften der Erwartung
Satz 3.1. X, Y seien reelle Zufallsgrössen, so dass E(X) und E(Y ) definiert sind. Dann
gilt:
1. X ≥ 0 =⇒ E(X) ≥ 0,
2. E(cX) = c E(X), ∀ c ∈ R,
3. X ≡ 1 =⇒ E(X) = 1,
4. E(X + Y ) = E(X) + E(Y ).
Beweis
Die Behauptungen 1., 2. und 3. folgen unmittelbar aus der Definition der Erwartung. Um 4.
zu beweisen, zeigt man zunächst, dass E(X + Y ) wohl definiert ist: E = {x1 , x2 , . . . } (F =
{y1 , y2 , . . . }) sei der Wertebereich von X (Y ). Dann nimmt die Zufallsgrösse Z := X + Y
13
Werte in G = {xi + yj : i, j = 1, 2, . . . } an. Also gilt
P
|xi + yj |P X −1 (xi ) ∩ Y −1 (yj )
i,j
P
P
≤ |xi |P X −1 (xi ) ∩ Y −1 (yj ) + |yj |P X −1 (xi ) ∩ Y −1 (yj )
i,j
i,j
P
∞
∞
∞
∞
P
P
P
|xi |
P X −1 (xi ) ∩ Y −1 (yj ) +
|yj |
P X −1 (xi ) ∩ Y −1 (yj )
=
i=1
j=1
j=1
P
i=1
∞
∞
P
−1
−1
=
|xi |P X (xi ) +
|yj |P Y (yj ) < ∞
i=1
j=1
und somit existiert die Erwartung von X + Y .
Lässt man nun in den oberen Zeilen überall den Absolutbetrag weg, sieht man sofort, dass
E(X + Y ) = E(X) + E(Y ).
Bemerkung 1 Im Beweis hat man natürlich vorausgesetzt, dass xi 6= xj und yi 6= yj für
i 6= j. Für die Zahlen {xi + yj } braucht es nicht der Fall zu sein!
Bemerkung 2 Aus 4. folgt: Falls E(Xi ) für i = 1, 2, . . . , n, existiert, dann existiert E(X1 +
X2 + · · · + Xn ) und
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ).
Mit Hilfe der Linearität der Erwartung lässt sich die letztere für die Binomialverteilung
n
P
einfach ausrechnen: X (wie im Beispiel 2) kann man als Summe schreiben: X =
Yi , wobei
i=1
Yi die Werte 1 (mit Wahrscheinlichkeit p) und 0 (mit Wahrscheinlichkeit 1 − p) annimmt.
E(Yi ) = 1 · p + 0 · p = p =⇒ E(X) = np.
3.3
Unabhängige reelle Zufallsgrössen
Sei X eine Zufallsgrösse mit Werten in E = {x1 , x2 , . . . } ⊆ R und AX ⊆ A das System aller
Teilmengen von Ω, die mit Hilfe von X beschrieben werden können, d.h. alle Ereignisse der
Form X −1 (B) mit B ⊆ E.
Definition
Die Zufallsgrössen X1 , . . . , Xk heissen (stochastisch) unabhängig, wenn die
Mengensysteme AX1 , . . . , AXk unabhängig sind.
Beispiel:
2 Würfe mit einem Würfel.
Betrachten wir die Zufallsgrössen
1 falls beim i–ten Wurf die Augenzahl gerade ist
Xi :=
0 sonst
i = 1, 2. Die Zufallsgrössen X1 , X2 sind unabhängig.
Satz 3.2. Seien X, Y unabhängig. Falls E(X), E(Y ) existieren, gilt
E(XY ) = E(X) E(Y ).
14
Beweis Seien x1 , x2 , . . . und y1 , y2 , . . . die Werte von X und Y . Dann ist
X
X
|xi yj |P X −1 (xi ) ∩ Y −1 (yj ) =
|xi | |yj |P X −1 (xi ) · P Y −1 (yj )
i,j
i,j
wegen der Unabhängigkeit. Somit ist die summe endlich, d.h. die Erwartung von X · Y
existiert. Weiter gilt
P
E(X · Y ) = xi yj P X −1 (xi ) ∩ Y −1 (yj )
i,j
P
P
= xi P X −1 (xi ) · yj P Y −1 (yj ) = E(X) · E(Y ).
i
3.4
j
Moment, Varianz aund Kovarianz
Sei X eine Zufallsgrösse und g eine reelle Funktion, die (mindestens) auf dem Wertebereich
von X definiert
ist g(X) auch eine Zufallsgrösse. Falls g(x) = xk , ∀ x ∈ R, dann
ist. Dann
k
heisst E g(X) = E(X ) das k–te Moment
von X (vorausgesetzt, dass E(|X|k ) < ∞) und
k
E g(X − E(X) = E (X − E(X)) das k–te zentrale Moment.
Beachte: Wenn k ≤ m und E(|X|m ) < ∞, dann ist auch E(|X|k ) endlich.
Beweis: Für k ≤ m ist |X|k ≤ 1 + |X|m . Nach Satz 3.1 gilt dann
E(|X|k ) ≤ E(1) + E(|X|m ) < ∞.
Wichtig ist das zweite zentrale Moment, die Varianz
σ 2 (X) = Var(X) = E (X − E(X))2 .
Beachte: Für alle reellen Zahlen a, b gilt
σ 2 (aX + b) = a2 σ 2 (X).
σ(X) heisst die Streuung von X.
Interpretationen: Die Erwartung sagt etwas über die “Lage” der Zufallsgrösse, während
die Streuung (Varianz) dazu dient, die Abweichung von der Erwartung zu charakterisieren.
Satz 3.3.
(Schwarz’sche Ungleichung)
X, Y seien zwei reelle Zufallsgrössen.
Behauptung
E(|XY |) ≤
1/2
E(X 2 ) · E(Y 2 )
.
Beweis: ∀ λ ∈ R, gilt E(|X| + λ|Y |)2 ≥ 0. Durch Satz 3.1 hat man aber
P (λ) := E(|X| + λ|Y |)2 = E(X 2 ) + λ2 E(Y 2 ) + 2λ E(|XY |)
und somit E(|XY |)2 ≤ E(X 2 ) E(Y 2 ).
X und Y seien zwei reelle Zufallsgrössen mit E(X 2 ) < ∞, E(Y 2 ) < ∞ und Var(X) > 0,
Var(Y ) > 0.
15
Definitionen
als
Die Kovarianz und die Korrelation zwischen X und Y sind definiert
1. Cov(X, Y ) := E (X − E(X))(Y − E(Y )) ,
2. ρ(X, Y ) :=
Cov(X,Y )
σ(X)·σ(Y ) .
Bemerkung
Falls X und Y unabhängig sind, gilt Cov(X, Y ) = ρ(X, Y ) = 0. Aus der
Linearität der Erwartung folgt, dass Cov(X, Y ) = E(XY ) − E(X) E(Y ). Nach Satz 3.2 ist
E(XY ) = E(X) E(Y ) und deswegen Cov(X, Y ) = 0.
f.s.
Definition
Zwei Zufallsgrössen X und Y sind fast sicher gleich (X = Y ), falls P {ω :
X(w) 6= Y (ω)} = 0.
Satz 3.4. X, Y seien zwei Zufallsgrössen mit E(X 2 ) < ∞, E(Y 2 ) < ∞, σ(X) > 0, σ(Y ) >
0.
Behauptungen
1. ρ2 (X, Y ) ≤ 1,
f.s
2. ρ(X, Y ) = 1 ⇐⇒ ∃a > 0, b ∈ R, so dass Y = aX + b,
f.s
3. ρ(X, Y ) = −1 ⇐⇒ ∃a < 0, b ∈ R, so dass Y = aX + b.
Beweis
1. Die Ungleichung ist nichts anderes als die Ungleichung von Schwarz (Satz 3.3, wenn man
in der letzteren X durch X − E(X) und Y durch Y − E(Y ) ersetzt.
2.
“⇐=” : σ 2 (aX + b) = a2 σ 2 (X) und Cov(X, aX + b) = aσ 2 (X). Also gilt
aσ 2 (X)
ρ(X, Y ) = p
= 1.
2
a σ 2 (X)σ 2 (X)
−E(Y )
2. “=⇒” : Man definiert X 0 := X−E(X)
und Y 0 := Y σ(Y
σ(X)
) . Die Korrelation lässt sich
0
0
dann schreiben als ρ(X, Y ) = E(X · Y ). Nach Voraussetzung gilt also E(Y 0 − X 0 )2 =
f.s.
E(Y 0 )2 + E(X 0 )2 − 2 E(X 0 · Y 0 ) = 0 und deswegen ist Y 0 − X 0 = 0, d.h.
(X − E(X))
f.s.
Y = E(Y ) + σ(Y )
= aX + b
σ(X)
mit a =
3.
σ(Y )
σ(X)
und b = E(Y ) −
σ(Y )
σ(X)
· E(X).
aσ 2 (X)
“⇐=” : Wie oben zeigt man, dass ρ(X, Y ) = p
. Also gilt
a2 σ 4 (X)
ρ(X, Y ) =
a
= −1.
|a|
16
3. “=⇒” : Selbe Überlegung wie oben. Man arbeitet aber mit der Summe Y 0 + X 0 und
zeigt, dass in diesem Falle
f.s.
Y 0 + X 0 = 0.
Satz 3.5. X1 , X2 , . . . , Xn seien unabhängige Zufallsgrössen mit E(Xi2 ) < ∞, i = 1, 2, . . . , n.
P
P
n
n
Var
Xi =
Var(Xi ).
Behauptung
i=1
Beweis: Var(
n
P
Xi ) = E
i=1
n
P
Var(Xi ) +
i=1
i=1
n
P
Xi − E(Xi )
2
= E
i=1
n
P
h P
n
i
Xi − E(Xi ) (Xj − E(Xj ) =
i,j=1
Cov(Xi , Xj ). Wegen der Unabhängigkeit ist aber die Kovarianz zwis-
i,j=1;i6=j
chen Xi und Xj (i 6= j) null.
Mit Hilfe von Satz 3.5 lässt sich z.B. die Varianz der Binomialverteilung leicht ausrechnen:
Sei X B(n, p)-verteilt. Dann gilt X =
n
P
Yi , wobei Y1 , . . . , Yn unabhängig und identisch
i=1
verteilt sind (siehe Satz 3.1, Bemerkung 2).
2
Var(Yi ) = E(Yi2 ) − E(Yi ) = p − p2 = p(1 − p) und deswegen ist Var(X) = np(1 − p).
3.5
Die Faltung von Wahrscheinlichkeiten
Frage: Gegeben n unabhängige reelle Zufallsgrössen X1 , X2 , . . . Xn mit bekannten Verteilunn
P
gen PX1 , PX2 . . . , PXn . Wie sieht die Verteilung PX der Summe X =
Xi , die sogenannte
i=1
Faltung von PX1 , PX2 . . . , PXn aus?
Im allgemeinen (n beliebig) ist es unmöglich, die Faltung PX auf einfache Weise auszudrücken.
Deshalb betrachten wir zunächst den Spezialfall n = 2.
Satz 3.6.
X, Y seien zwei reelle unabhängige Zufallsgrössen mit Verteilungen PX , PY
und Wertebereichen E1 := {x1 , x2 , . . . } und E2 := {y1 , y2 , . . . }.
Sei E := {z1 , z2 , . . . } der Wertebereich von Z := X + Y . (Beachte, dass E = {x + y : x ∈
E1 , y ∈ E2 }.)
Behauptung
PZ ({zi }) =
∞
X
PY ({zi − xj })PX ({xj }) =
j=1
∞
X
j=1
17
PX ({zi − yj })PY ({yj }).
Beweis
PZ ({zi })
= P ({ω : Z(ω) = zi }) =
=
∞
P
=
j=1
∞
P
=
j=1
∞
P
∞
P
P ({ω : Z(ω) = zi } ∩ {ω : X(ω) = xj })
j=1
P ({Z = zi } ∩ {X = xj }) =
∞
P
P ({Z = zi } | {X = xj })P ({X = xj })
j=1
P ({Y = zi − xj } | {X = xj })PX ({xj })
P ({Y = zi − xj })PX ({xj })
wegen der Unabhängigkeit.
j=1
Also gilt
PZ ({zi }) =
∞
X
PY ({zi − xj })PX ({xj }).
j=1
3.6
Liste einiger wichtigen (diskreten) Verteilungen
X sei eine reelle Zufallsgrösse.
1. X besitzt eine Binomialverteilung (B(n, p)), falls
(a) X nimmt Werte in E := {0, 1, 2, . . . , n} an,
(b) PX ({i}) = ni pi (1 − p)n−i , i ∈ E.
(siehe III, § 1, Beispiel 2)
2. M , N , n seien positive ganze Zahlen mit n ≤ N , M < N . X besitzt eine hypergeometrische Verteilung mit Parametern M , N , n, falls
(a) X nimmt Werte in E := {k : k ∈ N, k ≤ M, n − k ≤ N − M } an,
(M )(N −M )
(b) PX ({k}) = k Nn−k , k ∈ E.
(n)
3. Die Poisson Verteilung mit Parameter λ(> 0).
X besitzt eine Poisson Verteilung P(λ), falls
(a) X Werte in E := {0, 1, 2, 3, . . . } annimmt,
(b) PX ({k}) = e−λ
λk
, k ∈ E.
k!
Herleitung der Poisson Verteilung als Grenzwert von Binomialverteilungen
Wir betrachten eine gewisse Menge eines radioaktiven Elementes und ein Zeitintervall
[0, T ].
X sei die Anzahl der radioaktiven Zerfälle im Intervall [0, T ]. X ist eine Zufallsgrösse
(empirische Tatsache) und gesucht ist eine Approximation für die Verteilung von X:
T
Wir dividieren das Intervall [0, T ] in n Teilintervalle {∆i } der gleichen Länge . Für
n
grosse Werte von n darf man annehmen, dass in jedem Intervall ∆i (i = 1, . . . , n)
höchstens ein Zerfall stattfindet. Ferner machen wir die folgenden Voraussetzungen:
18
1. Bezeichnet Ak das Ereignis, dass im Zeitintervall ∆k ein Zerfall stattfindet, so ist
die Familie A1 , A2 , . . . , An unabhängig.
2. ∃ eine Konstante λ (die von der Substanz abhängt), so dass
P (Ai ) = λ · Länge von ∆i = λ ·
T
, i = 1, 2, . . . , n.
n
Unter diesen Voraussetzungen gilt:
T n−k
n
T k 1−λ
P (X = k) = PX ({k}) =
λ
, , k = 0, 1, . . . , n ,
k
n
n
d.h. X besitzt eine B(n, λ Tn )-Verteilung.
Für ein festes k lassen wir nun n gegen ∞ streben. Wir bekommen dann
(λT )k
.
n→∞
n→∞
k!
Die Grenzverteilung ist also eine Poisson Verteilung mit Parameter λT .
lim P (X = k) = lim PX ({k}) = e−λT
Bemerkung: X sei P(λ)-verteilt. Dann gilt E(X) = λ: Nach Definition der Erwartung
ist
∞
∞
∞
X
X
X
λk
λk−1
λk
=
e−λ
= e−λ λ
= λe−λ · eλ = λ.
E(X) =
ke−λ
k!
(k − 1)!
(k − 1)!
k=0
k=1
k=1
4. Die Multinomialverteilung mit Parametern n, p1 , p2 , . . . , pk .
Diese Verteilung ist eine natürliche Verallgemeinerung der Binomialverteilung: Ein
zufälliges Experiment mit mehreren möglichen Resultaten A1 , . . . , Ak wird n-mal unabhängig wiederholt. Die Wahrscheinlichkeiten P (Aj ) =: pj (j = 1, . . . , k) der möglichen
Resultate genügen dann der Bedingung p1 + p2 · · · + pk = 1. Wiederholt man den Versuch n-mal und bedeutet Bn1 ,n2 ,...,nk das Ereignis, dass unter den n Ergebnissen n1 -mal
A1 , n2 -mal A2 , . . . nk -mal Ak auftreten, wobei n1 + n2 + · · · + nk = n gilt, so ist
n!
P (Bn1 ,n2 ,...,nk ) =
pn1 pn2 . . . pnk k .
n1 !n2 ! . . . nk ! 1 2
Beispiel: n-maliges Werfen eines (nicht unbedingt symmetrischen) Würfels:
n!
pn1 . . . pn6 6 , wobei pi := P ({i}), i = 1, . . . , 6.
n1 ! . . . n 6 ! 1
P (Bn1 ,n2 ,...,n6 ) =
Satz 3.7.
P(λ2 ).
X, Y seien zwei unabhängige Zufallsgrössen mit Verteilungen P(λ1 ),
Behauptung
Die Verteilung der Summe Z := X + Y , d.h. die Faltung von P(λ1 )
und P(λ2 ) ist die Poisson Verteilung P(λ1 + λ2 ).
Beweis. Nach Satz 3.6 gilt
PZ ({k})
=
∞
X
PY ({k − j})PX ({j}) =
j=0
=
k
X
j=0
=
k
X
PY ({k − j})PX ({j})
j=0
−λ2
e
k
1 −(λ1 +λ2 ) X
k!
λ2k−j −λ1 λj1
e
= e
λj1 λk−j
2
(k − j)!
j!
k!
(k
−
j)!j!
j=0
k 1 −(λ1 +λ2 ) X k j k−j
e−(λ1 +λ2 )
e
· (λ1 + λ2 )k .
λ1 λ2 =
k!
j
k!
j=0
19
3.7
Die Verteilungsfunktion einer Zufallsgrösse
X sei eine Zufallsgrösse. Die Verteilungsfunktion von X ist definiert als F (u) := P (X ≤ u).
F erfüllt:
1) F ist monoton wachsend,
2)
lim F (x) = 0, lim F (x) = 1,
x→−∞
x→∞
3) F ist von rechts stetig, d.h. F (u + 0) :=
lim
un →arrowu
F (un ) = F (u), denn
F (un ) = P (X ≤ un ) = PX (−∞, un ] −→ PX (−∞, u] = F (u),
da (−∞, un ] −→ (−∞, u].
Beachte: X nimmt höchstens abzählbar viele Werte x1 , x2 , . . . an. Deswegen ist in diesem
Falle F stückweise konstant mit höchstens abzählbar vielen Sprüngen der Höhe F (xk ) −
F (xk − 0) an den Stellen xk , k = 1, 2, . . . . Bemerkung: Jeder Verteilung entspricht eine
Verteilungsfunktion
3.8
Erzeugende Funktionen
Z sei eine Zufallsgrösse mit Werten in Z+ := {0, 1, 2, . . . }. Setzt man pk := P (Z = k),
∞
P
k = 1, 2, . . . , so ist die erzeugende Funktion g (oder gZ ) von Z definiert als g(t) =
pn t n =
Z
E(t ). Da
∞
P
n=0
pn = 1 ist, konvergiert die Reihe mindestens für alle t mit |t| ≤ 1.
n=0
1. pn =
g (n) (0)
n! ,
wobei g (n) (t) die n–te Ableitung von g an der Stelle t ist.
2. Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex und es ist
g(0) = p0
g(1) = 1.
3. E Z(Z − 1) . . . (Z − k + 1) = g (k) (1−), wobei g (k) (1−) = lim g (k) (t).
t↑1
Mittels 3 lassen sich Momente von Z oft leichter berechnen als direkt aus der Verteilung.
Man geht rekursiv vor:
E(Z) = g (1) (1−), E(Z 2 ) = E Z(Z − 1) + E(Z) = g (2) (1−) + g (1) (1−), usw..
3.9
Beispiele von abhängigen Zufallsgrössen
Bei Folgen von Zufallsgrössen war bis jetzt immer die Unabhängigkeit vorausgesetzt. Z.B.
war das der Fall in den Kapiteln IV und V. Nachstehend sind drei Beispiele angegeben, wo
diese Voraussetzung nicht erfüllt ist. Das dritte Beispiel wird am Ende dieses Kapitels näher
untersucht.
20
Beispiel 1
Sei X1 , X2 , . . . eine Folge unabhängiger und identisch verteilter Zufallsgrössen.
n
P
Definiert man Zn :=
Xi für n = 1, 2, . . . , so sind die Zufallsgrössen {Zn } nicht mehr
i=1
unabhängig. Die schwachen Gesetze der grossen Zahlen und insbesondere der Zentralgrenzwetsatz geben uns Informationen über das Verhalten von Zn im Falle, wo n gegen unendlich
strebt.
Beispiel 2
(einfaches Warteschlangen-Modell)
Seien 0, 1, 2, . . . die Zeitpunkte, an denen ein Skilift, der pro Zeiteinheit eine Person befördern
kann, abfährt. Zwischen den Zeitpunkten n und n + 1 kommen Yn neue Skifahrer an. Die
Yn seien unabhängig. Die Länge Zn der Warteschlange unmittelbar vor der Abfahrt zur Zeit
n bestimmt sich rekursiv durch
Zn = max(0, Zn−1 − 1) + Yn−1
(n ≥ 1).
Z0 = i0 sei eine bekannte Zahl.
Beispiel 3
Galton studierte 1873 das Phänomen des Aussterbens berühmter Familiennamen. Es stellte sich die Frage nach der Wahrscheinlichkeit des Aussterbens der männlichen
Linie der Nachkommenschaft eines Mannes, wenn dieser und jeder seiner Söhne, Enkel usw.
unabhängig voneinander mit Wahrscheinlichkeit pk genau k Söhne hat: Sei Z0 = 1. Ist
Zn die Anzahl der männlichen Nachkommen (in männlicher Linie) in der n–ten NachkomZn
P
(j)
(j)
mensgeneration, und hat der j–te dieser Nachkommen Xn+1 Söhne, so ist Zn+1 =
Xn+1 .
j=1
Diese Familie {Zn } ist ein sogenannter Verzweigungsprozess.
Beachte: in diesem Falle sind die Zufallsgrössen Z0 , Z1 , Z2 , . . . nicht unabhängig.
Um die Frage von Galton zu beantworten, müssen wir die Folge qn := P (Zn = 0), n =
1, 2, . . . untersuchen, denn q := lim qn ist die gesuchte Aussterbewahrscheinlichkeit.
n→∞
Heute interessiert man sich für Verzweigungsprozesse, von denen die obigen Prozesse den
einfachsten Fall darstellen; natürlich nicht wegen der Familiennamen, sondern weil ähnliche
Verzweigungen auch in anderen Situationen auftreten. Z.B. macht ein Neutron bei der
Kernspaltung eine zufällige Zahl weiterer Neutronen frei.
In den obigen Beispielen nehmen die Zufallsgrössen {Zn } Werte in Z+ := {0, 1, 2, . . . } an.
Alle Prozesse haben eine gemeinsame Eigenschaft, nämlich: für alle n und alle i0 , i1 , . . . , in ∈
E gilt
P (Zn = in | Zn−1 = in−1 , . . . , Z0 = i) = P (Zn = in | Zn−1 = in−1 ).
Dies ist die sogenannte Markoffsche Eigenschaft. Die Prozesse sind dann Markoffsche Ketten
(siehe z.B. Karlin: A first course in stochastic processes, Academic Press (1969); KarlinTaylor: A second course in stochastic processes, Academic Press (1981)).
Gesucht ist die Aussterbewahrscheinlichkeit q. Da Zn = 0, Zm = 0 für alle m ≥ n im(j)
pliziert, gilt q = lim P (Zn = 0) = lim qn . Die Zufallsgrössen {Xn } haben alle die gleiche
n→∞
n→∞
Verteilung, also auch die gleiche erzeugende Funktion
g(t) =
∞
X
k=0
21
pk t k .
Bezeichnet hn die erzeugende Funktion von Zn , so ist wegen P (Z0 = 1) = 1 natürlich
h0 (t) = t. Ausserdem gilt
hn+1 (t)
∞
∞
∞ X
X
X
P (Zn+1 = j, Zn = m)tj
= hn g(t) : hn+1 (t) =
P (Zn+1 = j)tj =
j=0 m=0
j=0
=
∞ X
∞
X
j=0 m=0
m
∞ X
∞
m
X
X
X
(`)
(`)
P(
Xn+1 = j, Zn = m)tj =
P(
Xn+1 = j) · P (Zn = m)tj
j=0 m=0
`=1
`=1
(1)
(m)
{Xn+1 , . . . , Xn+1 })
(wegen der Unabhängigkeit von Zn und
∞
m
∞
X
X
X
(`)
P(
Xn+1 = j)tj
=
P (Zn = m)
=
m=0
j=0
∞
X
m=0
m
P
P (Zn = m)E t`=1
`=1
(`)
Xn+1 =
∞
X
m=0
P (Zn = m)
m
Y
(`)
E(tXn+1 )
`=1
(1)
(m)
Xn+1 , . . . , Xn+1 )
(wegen der Unabhängigkeit der Zufallsgrössen
∞
X
m
(1)
(m)
=
P (Zn = m) g(t)
(die Zufallsgrössen Xn+1 , . . . , Xn+1
m=0
sind identisch verteilt mit erzeugender Funktion g!)
= hn g(t) .
Also ist h1 (t) = g(t), h2 (t) = (g ◦ g)(t) und allgemein hn (t) = (g ◦ g ◦ · · · ◦ g)(t) die Funktion,
die man durch n–fache iterierte Anwendung der Abbildung g erhält. Da qn = P (Zn =
0) = hn (0), gilt also q = lim hn (0). Damit haben wir bei gegebenem g nur noch ein rein
n→∞
analytisches Problem zu lösen.
22
Satz 3.8. Die Aussterbewahrscheinlichkeit q ist die kleinste nicht-negative Lösung der Gleichung
g(t) = t.
Ist g (1) (1) ≤ 1 und p1 < 1, so ist q = 1; ist g (1) (1) > 1, so ist q < 1.
(g (1) (1) ist die erwartete Zahl der männlichen Nachkommen jedes Mitgliedes der Nachkommenschaft. Der Prozess stirbt also — abgesehen vom Fall p1 = 1 — mit Wahrscheinlichkeit
1 aus, wenn im Mittel höchstens 1 männlicher Nachkomme geboren wird, und sonst nur mit
Wahrscheinlichkeit < 1.)
Beweis Es gilt, wegen der Stetigkeit von g,
g(q) = g lim hn (0) = lim g hn (0) = lim hn+1 (0) = q.
q ist demnach Lösung der Gleichung g(t) = t. Ist u ≥ 0 eine weitere Lösung, so ist u = g(u) ≥
g(0) = h1 (0), und durch Induktion folgt aus u ≥ hn (0) dann u = g(u) ≥ g hn (0) = hn+1 (0).
Durch den Grenzübergang n → ∞ ergibt sich u ≥ q. Damit ist die erste Teilaussage
bewiesen.
Ist p0 +p1 = 1, so kann in jeder Generation maximal ein männlicher Nachfahre existieren. Aus
(1)
P (Zn+1 = 1) = P (Zn = 1) P (Xn+1 = 1) = p1 P (Zn = 1) folgt induktiv P (Zn = 1) = pn1 .
n
Damit gilt q = lim(1 − p1 ). In diesem Fall ist g (1) (1) = p1 ≤ 1. Ist p1 < 1, so ist q = 1.
Sei
nun p0 + p1 < 1. Dann ist mindestens eines der pk mit k ≥ 2 positiv. g (1) (t) =
P also k−1
kpk t
ist dann auf [0, 1) strikt monoton und g(t) dort strikt konvex. Wir betrachten
k=1
zwei Fälle:
a) Ist g (1) ≤ 1, so ist g 0 (t) < 1 für 0 ≤ t < 1. Nach dem Mittelwertsatz muss g(t) > t für
t ∈ (0, 1) sin. Also ist 1 die einzige Lösung von g(t) = t und damit q = 1.
b) Ist g (1) (1) > 1, so ist g (1) (t) > 1 für hinreichend nahe bei 1 liegende t < 1. In diesem
Bereich ist g(t) < t. Da q die kleinste Lösung ist, gilt dann 0 < q < 1, falls p0 > 0. Ist
p0 = 0, so ist g(0) = 0 und also q = 0.
Numerisches Beispiel : Hier kann die zufällige Anzahl der Kinder die Werten 0, 1, und
2 mit Wahrscheinlichkeiten 0.25, 0.25 beziehungsweise 0.5 annehmen. Dann ist g durch
1
1 1
+ t + t2 ,
4 4
2
gegeben und die Lösung der Gleichung t = g(t) ist t = 0.5, die Aussterbewahrscheinlichkeit
der Bevölkerung ist somit 0.5 !
g(t) =
4
Zufallsgrössen mit Dichten
Definition
(Dichte)
Eine reellwertige Funktion f heisst Dichte auf Rk , falls
a) f ≥ 0 und
R
b)
f dx = 1.
Rk
23
Definition
(Zufallsgrössen mit Dichten)
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Abbildung X von Ω in Rk ist eine Zufallsgrösse (Zufallsvektor) mit Dichte f , falls
a) X −1 (I1 × I2 × · · · × Ik ) ∈ A für jede mögliche Wahl von Intervallen I1 , . . . , Ik und
R
b) P (X ∈ I1 × I2 × · · · × Ik ) = PX (I1 × · · · × Ik ) =
f (x)dx für alle “Rechtecke”
I1 ×···×Ik
I1 × I2 × · · · × Ik .
Beispiel 1
(Die gleichförmige Verteilung auf dem Intervall [0, 1])
Die reelle Zufallsgrösse
X besitzt eine gleichförmige Verteilung auf [0, 1], falls seine Dichte f
1 für x ∈ [0, 1],
durch f (x) :=
definiert ist.
0 sonst
Beispiel 2
(Die Normalverteilung N (µ, σ 2 ))
Die reelle Zufallsgrösse X besitzt eine Normalverteilung N (µ, σ 2 )), σ > 0, µ ∈ R, falls ihre
Dichte ϕµ,σ2 durch
(x−µ)2
1
ϕµ,σ2 (x) := √ e− 2σ2 ,
σ 2π
x ∈ R definiert ist. Die Standard-Normalverteilung ist definiert durch die Dichte ϕ :=
ϕ0,1 .
Sei X eine N (0, 1) Zufallsgrösse. Die reelle Zufallsgrösse
Y = µ + σX, µ ∈ R, σ > 0,
besitzt eine Normalverteilung N (µ, σ 2 ).
Beachte: ϕ0,1 ist eine Dichte, denn
Z
Z
Z
Z
2
y2
x2
1 − (x2 +y2 )
1
1
2
√ e− 2 dx ·
√ e− 2 dy =
e
dx dy
ϕ(x)dx
=
2π
2π
2π
R2
=
1
2π
Z∞ Z2π
0
2
− r2
e
Z∞
r2
rdϕ) dr (Polarkoordinaten) = e− 2 rdr = 1.
0
0
Definition
(Erwartung)
X
sei
eine
reelle
R
RZufallsgrösse mit Dichte f . Die Erwartung von X ist definiert als E(X) :=
xf (x)dx, falls |x|f (x)dx < ∞.
R
Definition XRsei wie oben und g Rsei eine auf R definierte reelle Funktion. Dann definiert
man E g(X) := g(x)f (x)dx, falls |g(x)|f (x)dx < ∞.
R
R
Beachte: Damit die letzte Definition einen Sinn hat, sollte man die folgende Eigenschaft
beweisen:
24
Figure 2: Normale Dichten
Figure 3: Gausssche Verteilingsfunktionen
Figure 4: Die Normal N (µ, σ 2 ) Dichte
25
Besitzt g(X) eine Dichte h, dann gilt
Z
Z
x h(x)dx = g(x)f (x)dx.
R
(Ein Beweis (in einem Spezialfall) wird später angegeben.)
Definition
(Varianz)
X sei eine reelle Zufallsgrösse mit Dichte f , so dass E(X 2 ) < ∞. Die Varianz ist definiert
als
Z
2
2
Var(X) :=
x − E(X) f (x)dx = E(X 2 ) − E(X) .
Die Streuung or Standard-Abweichung von X ist definiert als
p
σ(X) = Var(x).
Beispiel. Es ist sehr einfach zu verifizieren, dass
i) im Beispiel 1 (oben), E(X) = 12 , Var(X) =
1
12
und
, E(X) = µ, Var(X) = σ 2 .
ii) im Beispiel 2
Definition
(Kovarianz, Korrelation)
Der Zufallsvektor X = (X1 , X2 ) mit Werten in R2 besitze die Dichte f . Die Kovarianz
zwischen X1 und X2 ist definiert als
Z
Cov(X1 , X2 ) :=
x1 − E(X1 ) x2 − E(X2 ) f (x1 , x2 )dx1 dx2
R2
und die Korrelation als
Cov(X1 , X2 )
ρ(X1 , X2 ) := p
.
Var(X1 ) · Var(X2 )
Beachte: Die Kovarianz ist nur dann definiert, wenn E(X12 ) < ∞ und E(X22 ) < ∞. Für die
Korrelation braucht man die zusätzlichen Bedingungen Var(X1 ) > 0, Var(X2 ) > 0.
4.1
Unabhängige Zufallsgrössen
X1 , X2 , . . . , Xn seien n reelle Zufallsgrössen.
Definition
Die Zufallsgrössen sind unabhängig, falls
n
Y
P X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In =
P (Xi ∈ Ii )
i=1
für jede mögliche Wahl von Intervallen I1 , I2 , . . . , In .
26
Satz 4.1.
Sind X1 , X2 , . . . , Xn unabhängige reelle Zufallsgrössen mit Dichten fi , i =
1, . . . , n, dann besitzt der Zufallsvektor X := (X1 , X2 , . . . , Xn ) die Dichte f (x1 , x2 , . . . , xn ) =
n
Q
fi (xi ).
i=1
Beweis.
P (X ∈ I1 × I2 × · · · × In )
n
Y
=
P (Xi ∈ Ii ) =
i=1
n Z
Y
i=1 I
Z
=
I1 ×I2 ×···×In
n
Y
f (xi )dxi
i
fi (xi ) dx1 dx2 . . . dxn .
i=1
Dies gilt für alle “Recktecke” I1 × I2 × · · · × In . Also ist
n
Q
fi (xi ) die Dichte von X.
i=1
Bemerkung
Die Sätze 1, 2, 3, 4, 5 vom Abschnitt 1 (Diskreter Fall) sind auch für
Zufallsgrössen mit Dichten gültig.
4.2
Die Verteilungsfunktion einer Zufallsgrösse
X sei eine reelle Zufallsgrösse mit Dichte f . Die Verteilungsfunktion von X ist definiert als
Ru
F (u) := P (X ≤ u) =
f (v)dv.
−∞
Die Funktion F besitzt dieselben Eigenschaften wie im diskreten Fall.
Beachte: Falls die Dichte f im Punkte u stetig ist, dann gilt F 0 (u) = f (u).
Beispiel
X1 , X2 , X3 , . . . , Xn seien unabhängige Zufallsgrössen mit gleichförmiger Verteilung
auf dem Intervall [0, 1].
Wie sieht die Dichte von Y := max{X1 , X2 , . . . , Xn } aus?
Wir berechnen zunächst die Verteilungsfunktion F von Y :
F (u) = P (Y ≤ u) = P (X1 ≤ u, X2 ≤ u, . . . , Xn ≤ u) =
n
Y
P (Xi ≤ u)
i=1
wegen der Unabhängigkeit. Also gilt F (u) = 0 für u ≤ 0, F (u) = 1 für u ≥ 1 und F (u) = un
für 0 < u < 1. Die Dichte f von Y erhalten wir, indem man F ableitet. Also ist f (u) = nun−1
für 0 ≤ u ≤ 1 und f (u) = 0 sonst. Wir sind jetzt in der Lage, E(Y ) und Var(Y ) auszurechnen:
Z1
E(Y ) =
unu
0
n−1
Z1
du =
nun du =
0
27
1
n
n
un+1 =
,
n+1
n
+
1
0
Var(Y )
n 2 Z1
n 2
= E(Y ) −
= u2 nun−1 du −
n+1
n+1
2
0
Z1
= n
un+1 du −
0
4.3
n 2
n 2
1
n 2
n
n
=
un+2 −
=
−
.
n+1
n+2
n+1
n+2
n+1
0
Die Faltung von Dichten
X, Y seien zwei reelle unabhängige Zufallsgrössen mit Dichten f , g.
Definition
(Faltung)
Die Faltung der dichten f und g ist die Dichte h der Summe Z := X + Y .
Satz 4.2.
Die Faltung h der Dichten f und g ist gegeben durch
Z∞
Z∞
f (z − x)g(x)dx =
h(z) =
−∞
g(z − x)f (x)dx, ∀ z ∈ R.
−∞
Beweis. Sei Z = X + Y . Dann gilt
Z Z
P (Z ≤ z) = P (X + Y ≤ z) =
f (x)g(y)dx dy.
x+y≤z
(Nach Satz 4.1 besitzt der Zufallsvektor (X, Y ) die Dichte f (x)g(y).)
Das letzte Integral kann man schreiben als
Z∞ z−x
Z
g(y)dy f (x)dx
−∞
Z∞ Zz
=
−∞
Fubini
−∞
Zz
=
−∞
Also gilt P (Z ≤ z) =
Rz
−∞
Z∞
g(v − x)dv f (x)dx
Zz
g(v − x)f (x)dx dv =
h(v)dv.
−∞
−∞
h(v)dv, ∀ z ∈ R und somit ist h die Dichte der Summe.
−∞
Definition
(Chi-Quadrat Verteilung)
X1 , X2 , . . . , Xn seien unabhängige Zufallsgrössen mit Standard Normal N (0, 1) Dichte ϕ.
Die Chi-Quadrat Verteilung mit n Freiheitsgraden ist die Verteilung der Summe
Yn :=
n
X
i=1
28
Xi2 .
Satz 4.3.
Die Zufallsgrösse Yn besitzt die Dichte
fn (y) =
wobei Γ(p) :=
R∞
1
y
2n/2 Γ( n2 )
y n/2−1 e− 2
für
y>0
(n = 1, 2, . . . ),
z p−1 e−z dz (p > 0).
0
Ein Beweis kann mit Hilfe von Satz 4.2 durch Induktion geführt werden.
Die Behauptung kann auch bewiesen werden, indem man mit Polarkoordinaten arbeitet:
Z
Fn (y) := P (Yn ≤ y) =
ϕ(x1 )ϕ(x2 ) . . . ϕ(xn )dx1 dx2 . . . dxn
x21 +x22 +···+s2n ≤y
Z
−
=
e
n
P
i=1
Xi2
2
√
Z
dx1 dx2 . . . dxn = C
x21 +x22 +···+x2n ≤y
y
e−
r2
2
rn−1 dr ,
0
wobei C so gewählt wird, dass P (Yn < ∞) = 1. Differenziert man die Verteilungsfunktion
Fn , erhält man
√ n−1
y
y
n
1
1
fn (y) = C e− 2
y
· √ = C e− 2 y 2 −1 .
2 y
2
Es muss gelten:
Z ∞
n
n
1
C
dy = 1 = C
e y
e−z 2 2 −1 z 2 −1 dz
2
0
0
y
n
1
1
d.h. C =
und somit fn (y) =
e− 2 y 2 −1 .
Γ( n2 )2n/2−1
Γ( n2 )2n/2
Z
∞
− y2
n
2 −1
Summe von unhabhägige Normale Zuffalsgrösse Seien X und Y zwei unhabhängige
normale Zuffalsgrösse N (µ1 , σ12 ), resp. N (µ2 , σ22 ). Dann besitzt die Zuffalsgrösse Z = X + Y
eine normale Dichte N (µ1 + µ2 , σ12 + σ22 ).
4.4
Lineare Abbildungen von Zufallsvektoren
X := (X1 , . . . , Xn )T sei ein Zufallsvektor mit Dichte f (x1 , . . . , xn ).
Wenn A eine reguläre (n × n)–Matrix ist, dann besitzt der Vektor Y := AX
1
die Dichte g(y) = f A−1 y
y := (y1 , y2 , . . . , yn )T .
| det(A)|
Satz 4.4.
Beweis. Sei R = I1 × I2 × · · · × In ein “Rechteck” in Rn . Dann gilt:
Z
Z
x=:A−1 y
P (Y ∈ R) = P (AX ∈ R) = P (X ∈ A−1 R) =
f (x)dx =
f A−1 (y) | det(A−1 | dy
A−1 R
und somit ist f A−1 (y)
R
1
die Dichte von Y .
| det(A)|
Spezialfall: Sind die Zufallsgrössen X1 , . . . , Xn unabhängig mit Dichte ϕ und ist die Matrix
A orthogonal, so sind die Zufallsgrössen Y1 , Y2 , . . . , Yn auch unabhängig mit der gleichen
Dichte ϕ.
29
4.5
Funktionen von reellen Zufallsgrössen
Satz 4.5.
Sei X eine reelle Zufallsgrösse mit Werten in einem offenen Intervall I und
Dichte f > 0 auf I. Sei g eine eineindeutige stetig differenzierbare Funktion, die auf I
definiert ist.
Behauptung
Dichte
Falls g 0 (x) 6= 0, ∀ x ∈ I, dann besitzt die Zufallsgrösse Y := g(X) die
h(y) = f g −1 (y)
1
.
|g 0 g −1 (y) |
Beweis. Sei J ein Intervall in g(I). Dann gilt:
P (Y ∈ J) = P g(X) ∈ J = P X ∈ g −1 (J)
Z
Z
y:=g(x)
=
f (x)dx =
f g −1 (y)
g −1 (J)
Korollar
1
|g 0 (g −1 (y))|
dy
J
Wenn die Voraussetzungen von Satz 4.5 erfüllt sind, dann folgt unmittelbar
Z
Z
E g(X) := g(x)f (x)dx =
y h(y)dy =: E(Y ).
I
g(I)
Beispiel Sei X gleichförmig verteilt auf dem Intervall (0, 1). Wir betrachten die Funktion
Y := X 2 . Nach Satz 4.5 ist dann die Dichte h von Y :
1
h(y) = √
2 y
für
0<y<1
und
0
sonst.
Bemerkung. Für das erwähnte Beispiel ist Satz 4.5 nicht direkt
anwendbar. Man mann aber
den Wertebereich von X so zerlegen R = (−∞, 0) ∪ (0, ∞) , dass auf beiden Teilmengen
die Voraussetzungen des Satzes erfüllt sind.
4.6
Zwei weitere wichtige Dichten: Die Student und die Exponential Verteilungen
(Die Student-Verteilung und die Exponentialverteilung)
1. Die Student-Verteilung
Definition
Die Student-Verteilung mit n Freiheitsgraden ist die Verteilung von Un :=
X0
s
wobei die Zufallsgrössen X0 , X1 , . . . , Xn unabhängig Normal N (0, 1) sind.
n
P
1
2
Xi
n
i=1
30
Satz 4.6. ??
Die Zufallsgrösse Un besitzt die Dichte
hn (z) = √
s
Beweis.
n
P
i=1
Γ( n+1
1
1
2 )
√
.
n
z
π · n Γ( 2 ) (1 + 2 ) n+1
2
n
Xi2 besitzt die Dichte
kn (z) = 2z fn (z 2 ) =
z z 2 n/2−1 − z2
e 2 , z > 0.
Γ( n2 ) 2
(fn ist die Dichte der Chi-Quadrat Verteilung mit n Freiheitsgraden.) Der Quotient Qn :=
X
s 0
besitzt dann die Dichte
n
P
2
Xi
i=1
Z∞
rn (u) =
0
Γ( n+1 )
1
z kn (z)ϕ(uz)dz = √ 2 n
,
2
πΓ( 2 ) (1 + u )(n+1)/2
(wenn man die Variablentransformation
und somit folgt die Behauptung.
z2
2 (1
+ u2 ) = v benützt.) Un ist aber gleich
√
nQn
Bemerkung
Die Student-Verteilung mit einem Freiheitsgrad besitzt die Dichte h1 (z) =
1
1
√
. Dies ist die sogenannte Cauchy Verteilung. Beachte:
π (1 + z 2 )
Z
|z|h1 (z)dz = ∞ .
2. Die Exponentialverteilung
Definition
Eine reelle Zufallsgrösse X hat eine Exponentialverteilung mit Parameter λ
(λ > 0), falls X die Dichte
f (x) = λe−λx , x > 0
besitzt.
Herleitung der Exponentialverteilung mit Hilfe eines Beispieles aus der Physik:
Die Atome eines radioaktiven Elementes zerfallen in zufälligen Zeitpunkten. Wie die Erfahrung zeigt, hängt die Wahrscheinlichkeit dafür, dass ein zu einem gewissen Zeitpunkt t0
noch nicht zerfallenes Atom während des folgenden Zeitinvervalls der Länge t zerfällt, nur
von der Länge t dieses Zeitinvervalls ab, aber nicht vom Zeitpunkt t0 . Wir bezeichnen mit
X die Lebensdauer eines Atoms und F sei ihre Verteilungsfunktion. Wenn G(t) := 1 − F (t),
wissen wir, dass diese Funktion monoton abnimmt und dass G(0) = 1.
Ferner gilt:
P (X ≥ t + s | X ≥ s) = P (X ≥ t)
31
für alle
t, s ≥ 0,
d.h. G(s + t) = G(s)G(t), ∀ t, s ≥ 0. Damit haben wir für die Funktion G(t) eine Funktionalgleichung erhalten, aus der wir diese bestimmen können. Um die Sache zu vereinfachen, nehmen wir zunächst an, dass G im Nullpunkt differenzierbar ist. Wenn wir in
G(s + t) = G(s)G(t), s durch ∆t(> 0) ersetzen, bekommen wir
G(∆t) − 1
G(t + ∆t) − G(t)
= G(t)
.
∆t
∆t
Lässt man nun ∆t gegen Null streben, so folgt
G0 (t) = G0 (0)G(t).
G0 (0) muss negativ sein, denn G0 (0) ≤ 0 (G ist monoton abnehmend). Aus G0 (0) = 0 und
G(0) = 1 würde G(t) ≡ 1 folgen; es würde also kein radioaktiver Zerfall stattfinden. Man
darf daher G0 (0) = −λ mit λ > 0 setzen und als Lösung erhält man, wegen G(0) = 1,
G(t) = e−λt ,
d.h. F (t) = 1 − e−λt
und somit
f (t) := F 0 (t) = λe−λt .
Wir werden in der Vorlesung zeigen, dass man ohne die Voraussetzung der Differenzierbarkeit
von G im Nullpunkt dasselbe Ergebnis erhält.
5
Die Gesetze der grossen Zahlen
Sei X1 , X2 , X3 , . . . eine Folge von reellen Zufallsgrössen, die auf einem Wahrscheinlichkeitsraum (Ω, A, P ) definiert sind. Sei c eine Konstante.
Die Folge {Xn } konvergiert in Wahrscheinlichkeit gegen c
Definition 1
falls:
P
Xn −→ c ,
∀ ε > 0, lim P (|Xn − c| > ε) = 0.
n→∞
f.s.
Die Folge {Xn } konvergiert fast sicher gegen c Xn −→ c , falls
Definition 2
n→∞
P ({ω : lim Xn (ω) = c}) = 1.
n→∞
Satz 5.1.
Die beiden folgenden Aussagen sind äquivalent:
f.s.
1. xn −→ c
n→∞
2. ∀ ε > 0, lim P (
n→∞
∞
S
{|Xj − c| > ε}) = 0.
j=n
32
n→∞
∞
S
Beweis. Setzen wir An :=
∞ S
∞
T
{|Xj − c| > ε}. Da An ↓ A :=
{|Xj − c| > ε}, gilt
n=1 j=n
j=n
(nach dem Satz) P (A) = lim P (An ) = 0. Wir haben also
n→∞
S
∞ 1
k
−→ 0, ∀ k ∈ {1, 2, 3, . . . } ⇐⇒
P
= 0, ∀ k ∈ {1, 2, 3, . . .} ⇐⇒
|Xj − c| > k1
j=n
n=1
∞ T
∞ S
∞ S
= 0 ⇐⇒
P
|Xj − c| > k1
n=1 j=n
k=1
∞ S
∞ T
∞ T
f.s.
P
= 1 ⇐⇒ Xn −→ c.
|Xj − c| ≤ k1
P
|Xj − c| >
j=n
∞ S
∞ T
n→∞
n→∞
k=1 n=1 j=n
f.s.
Wenn Xn −→ c, konvergiert die Folge in Wahrscheinlichkeit gegen c.
Korollar
n→∞
S
∞
Beweis. ε > 0 sei vorgegeben. Nach Satz 5.1, lim P
{|Xj − c| > ε} = 0.
n→∞
j=n
S
∞
Da P (|Xn − c| > ε) ≤ P
{|Xj − c| > ε} , folgt die Behauptung.
j=n
5.1
Die Ungleichung von Tschebyscheff
Satz 5.2. Sei X eine reelle Zufallsgrösse. Dann gilt:
∀ ε > 0,
P ({ω : |X(ω)| ≥ ε}) = P (|X| ≥ ε) ≤
E(X 2 )
.
ε2
Beweis: Für A ⊆ Ω definiert man die Indikatorfunktion von A als 1A (ω) = 1, falls ω ∈ A
und = 0 sonst.
Da 1{|X|≥ε} · ε2 ≤ X 2 , bekommt man die Tschebyscheff’sche Ungleichung, indem man auf
beiden Seiten die Erwartung nimmt.
Bemerkung 1
Falls E(X 2 ) < ∞, existiert die Erwartung von X. Wenn man in der
Ungleichung von Tschebyscheff X durch X − E(X) ersetzt, bekommt man
P (|X − E(X)| ≥ ε) ≤
Var(X)
.
ε2
Interpretation: Je kleiner die Varianz von X ist, desto “kleiner” ist die Abweichung von der
Erwartung.
Bemerkung 2
X sei B(n, p)-verteilt. Dann ist
P (|X − np| ≥ nε) = P (|
d.h.
n
P
k
k=0; k:| n
−p|≥ε
n
k
Var(X)
np(1 − p)
p(1 − p)
1
X
− p| ≥ ε) ≤
=
= 2
≤ 2 ,
n
ε 2 n2
ε2 n2
ε ·n
4ε n
pk (1 − p)n−k ≤
1
4ε2 n .
33
5.2
Das schwache Gesetz der grossen Zahlen
Satz 5.3.
X1 , X2 , . . . sei eine Folge unabhängiger und identisch verteilter Zufallsgrössen.
Falls E(|X1 |) < ∞, dann gilt
Behauptung
Sn P
−→ E(X1 ),
n n→∞
wobei
Sn :=
n
X
Xi .
i=1
Beweis:
Diesen Satz beweisen wir unter der stärkeren Bedingung E(X12 ) < ∞. (Der
allgemeine Fall ist zu kompliziert für eine Einführungsvorlesung!)
Nach der Ungleichung von Tschebyscheff hat man
Sn
Var Snn
Sn − E( ) > ε ≤
P n
n
ε2
∀ ε > 0.
Weiter gilt
Sn
Sn
1
1
) = E(X1 ) und Var( ) = 2 Var(Sn ) = Var(X1 )
n
n
n
n
und somit folgt die Behauptung.
E(
5.3
Das starke Gesetz der grossen Zahlen
Satz 5.4.
(ohne Beweis)
X1 , X2 , . . . , sei eine Folge von unabhängigen identisch verteilten Zufallsgrössen. Sn sei wie
im Satz 5.3 definiert.
Behauptung
Falls E(|X1 |) < ∞, dann gilt
Sn f.s.
−→ E(X1 ).
n n→∞
5.4
Anwendung der Gesetze der grossen Zahlen
1. Als Zufallsexperiment betrachten wir das n–malige Werfen einer symmetrischen Münze,
wobei n gross ist. Sn bezeichne die Anzahl von “Kopf”. Sn lässt sich schreiben als
n
P
Sn =
Xi , wobei die Zufallsgrössen {Xj } i.i.d. sind, mit Xi = 1 (“Kopf” beim i–ten
i=1
Wurf) mit Wahrscheinlichkeit 21 und Xi = 0 mit Wahrscheinlichkeit 12 . Nach dem
starken Gesetz der grossen Zahlen ist Snn ungefähr gleich E(Xi ) = 12 . Diese Aussage
entspricht unserer Idee von der Stabilisierung der relativen Häufigkeit.
2. Wir betrachten eine gewisse Menge eines radioaktiven Elementes. Wir haben gesehen, dass die Lebensdauer X eines Atoms eine Zufallsgrösse ist, die eine exponentielle
Verteilung besitzt, d.h. ihre Verteilungsfunktion F lässt sich schreiben als F (t) =
1 − e−λt , t ≥ 0, wobei λ eine positive Konstante ist (die sogenannte Zerfallskonstante). Nach Definition ist die Halbwertszeit T des radioaktiven Elementes diejenige
34
Zeitdauer, während der ein Atom mit der Wahrscheinlichkeit 12 zerfällt. Es muss also
gelten F (t) = 12 , also e−λT = 12 oder T = lnλ2 = ln 2 · E(X). Die Halbwertszeit ist
somit proportional zur Erwartung der Lebensdauer E(X) = λ1 ! .
Im Zeitpunkt t = 0 seien N Atome vorhanden. St sei die Anzahl der im Zeitpunkt
t > 0 zerfallenen Atome. Wegen der Gesetze der grossen Zahlen, d.h. wegen des
Zusammenhangs zwischen relativer Häufigkeit und Wahrscheinlichkeit, ist die relative
Anzahl der Zerfälle bis zur Zeit t ungefähr gleich 1 − e−λt (N 1). Man sieht also,
dass die Halbwertszeit diejenige Zeit ist, während der ungefähr die Hälfte der Masse
eines radioaktiven Elementes zerfällt.
5.5
Die Markovsche Ungleichung
Satz 5.5. Sei f : R −→ [0, ∞). Sei X eine Zufallsvariable mit E(f (X)) < ∞. Es gilt
P (f (X) > ε) ≤
E(f (X)))
, ∀ε > 0.
ε
Beweis: Für A ⊆ Ω definiert man die Indikatorfunktion von A als 1A (ω) = 1, falls ω ∈ A
und = 0 sonst. Da f (X) ≥ ε1f (X)≥ε , bekommt man die Ungleichung
E(f (X)) ≥ E(ε1f (X)≥ε ) = εP (f (X) ≥ ε).
Bemerkung
Wenn man f (x) = x2 einsetzt kriegt man wieder die Ungleichung von
Tschebyscheff, da
= E(X 2 ) ≥ εP (X 2 ≥ ε)
√
= εP (|X| ≥ ε).
E(f (X))
Pn
Beispiel: Sei Sn = i=1 Xi , mit Xi unabhängige Bernoulli Zufallsvariablen mit Parameter
p = 1/2. Die Ungleichung von Tschebyscheff angewandt auf Sn − n/2 besagt
P (|
Sn
1
1
− | > ε) ≤
.
n
2
4nε2
(5.1)
Wenn n = 1000 und ε = 1/10 ergibt das
P (S1000 6∈ [400, 600]) ≤
1
.
40
(5.2)
Wir werden sehen, dass die von der Ungleichung (5.1) gegebene Schätzung nicht gut ist. Sei
f (x) = exp(tx).
Mit der Markovschen Ungleichung gilt
P(
Sn
1
− ≥ ε)
n
2
n
≥ nε)
2
n
= P (exp(t(Sn − )) ≥ exp(tnε))
2
1
n
≤
E(exp(t(Sn − ))),
exp(tnε)
2
= P (Sn −
35
und somit
E(exp(t(Sn − n2 )))
n
≥ nε) ≤ inf
.
t≥0
2
exp(tnε)
P (Sn −
Wir benutzen die Unabhängigkeit der beteiligten Zufallsvariablen, um zu zeigen dass, mit
q = 1 − p,
E((exp(t(Sn −
n
))
2
=
n
Y
1
E(exp(t(Xi − ))
2
i=1
1
= E(exp(t(X − ))n
2
= (p exp(t/2) + q exp(−t/2))n
= cosh(t/2)n .
Daraus schliesst man
P (Sn −
n
≥ nε) ≤ inf exp(n(ln(cosh(t/2)) − tε)).
t≥0
2
Wir wollen jetzt diese Ungleichung optimisieren, das heisst wir suchen das Minimum der
Funktion h(t) = ln(cosh(t/2)) − tε. Es kann leicht nachgeprüft werden, dass dieses Minimum
im Punkte tε erreicht wird, wobei
tε = ln(
1 + 2ε
).
1 − 2ε
Wir betrachten die Entropiefunktion
I(ε)
= −h(tε )
1
1
=
(1 + 2ε) ln(1 + 2ε) + (1 − 2ε) ln(1 − 2ε).
2
2
Man kann schreiben
Sn
1
− ≥ ε) ≤ exp(−nI(ε)).
n
2
Wir machen dasselbe für die Wahrscheinlichkeit P (Sn /n − 1/2 ≤ −ε), so dass
P(
P (|
Sn
1
− | > ε) < 2 exp(−nI(ε)).
n
2
(5.3)
(5.4)
Wenn n = 1000 und ε = 1/10, I(ε) ≈ 0.02, und (5.4) ergibt
P (S1000 6∈ [400, 600]) ≤ 3.6 10−9 !
(siehe (5.2))
6
Der zentrale Grenzwertsatz
Die wichtigsten zentralen Grenzwertsätze drücken die Tatsache aus, dass die Summe einer
grossen Anzahl von unabhängigen Zufallsgrössen unter allgemeinen Bedingungen angenähert
normal verteilt ist: “Sei S die Summe von vielen unabhängigen kleinen Summanden und seien
S−µ
µ := E(S) und σ 2 := Var(S). Dann ist
genähert N (0, 1) verteilt”. Diese Sätze decken
σ
36
die Gründe dafür auf, dass man in vielen Anwendungsgebieten sehr oft normalen oder fast
normalen Verteilungen begegnet. Ein typisches Beispiel hierfür sind die Ungenauigkeiten
bei Messungen; der gesamte Messfehler setzt sich aus vielen verschiedenen kleinen Fehlern
zusammen. Durch die zentralen Grenzwertsätze wird also die Annahme gerechtfertigt, dass
die Messfehler normal verteilt sind.
Satz 6.1.
(Satz von de Moivre-Laplace)
X1 , X2 , . . . sei eine Folge von i.i.d. Zufallsgrössen, wobei Xi = 1 mit Wahrscheinlichkeit p
n
P
(0 < p < 1) und Xi = 0 mit Wahrscheinlichkeit 1 − p. Sn sei als Sn =
Xi definiert.
i=1
Für alle a, b, a ≤ b, gilt
!
!
Sn − np
Sn − E(Sn )
< b = lim P a < p
<b
lim P a < p
n→∞
n→∞
Var(Sn )
np(1 − p)
Z b
Z b
Z u
x2
1
√ e− 2 dx =
=
ϕ(x)dx = Φ(b) − Φ(a), wobei Φ(u) :=
ϕ(x)dx.
2π
a
a
−∞
Behauptung
Satz 6.2.
(Der klassische zentrale Grenzwertsatz)
X1 , X2 , . . . sei eine Folge von i.i.d. Zufallsgrössen mit E(Xi2 ) < ∞. Wir setzen µ := E(Xi )
und σ 2 := Var(Xi ).
Behauptung
lim P
n→∞
Für alle a, b, a ≤ b gilt
!
Z b
Sn − nµ
Sn − E(Sn )
<b =
ϕ(x)dx.
< b = lim P a < √
a< p
n→∞
Var(Sn )
nσ 2
a
Diese Sätze beweist man normalerweise mit Hilfe von Fouriertransformationen: sei X eine
reelle Zufallsgrösse, dann ist die charakteristische Funktion Ψ von X definiert durch
Ψ(t) = E(eitX ) := E cos(tX) + iE sin(tX) .
Die charakteristische Funktion der Summe von unabhängigen Zufallsgrössen ist gleich dem
Produkt der charakteristischen Funktionen:
E eit(X+Y ) = E eitX · eitY = E eitX · E eitY .
In dieser Vorlesung wollen wir aber eine andere “elementare” Methode benützen. Mit dieser
Methode beweisen wir den
Satz 6.3.
(Satz von Ljapunoff )
Voraussetzungen Für jedes n seien Xn1 , . . . , Xnn unabhängige Zufallsgrössen mit Erwartung
0 und E |Xni |3 < ∞, ∀ i.
Setze
Sn := Xn1 + Xn2 + · · · + Xnn ,
2
2
σni
:= E(Xni
) = Var(Xni ), i = 1, 2, . . . , n,
n
P
2
σn2 := E(Sn2 ) = Var(Sn ) =
σni
.
i=1
37
n
P
Behauptung
Bemerkung
Sn .
Beispiel
Dann gilt
E(|Xni |3 )
i=1
→ 0 für n → ∞, dann gilt
σn3
Z x
u2
Sn
1
P
e 2 du, ∀ x.
< x −→ Φ(x) = √
n→∞
σn
2π −∞
Wenn
Die Prämisse der Behauptung sorgt dafür, dass die Xni “klein” sind gegenüber
2
Die Xni haben alle die gleiche Verteilung mit E(Xni
) = σ 2 , E(|Xni |3 ) = γ.
n
P
E(|Xni |3 )
i=1
σn3
=
nγ
γ
= 3 √ −→ 0.
σ · n n→∞
(nσ 2 )3/2
Satz 6.1 ist also ein Korollar von Satz 3.
Satz 6.2 ist unter der stärkeren Voraussetzung E(|Xi |3 ) < ∞ auch ein Korollar von Satz 3.
Beweis von Satz 6.3 Ohne Beschränkung der Allgemeinheit nehmen wir σn = 1 an.
Xni
(Falls das nicht der Fallist, ersetzt man Xni durch
, i = 1, . . . , n.) Die Beweisidee besteht
σn
darin, die Xni durch unter sich und von den Xni unabhängige normalverteilte Zufallsgrössen
2
Yni mit den gleichen Erwartungswerten und den gleichen Varianzen σni
zu ersetzen und
n
P
zu zeigen, dass sich die Verteilung von Sn nur wenig von der Verteilung von Tn :=
Yni
i=1
unterscheidet, welche normal N (0, 1) ist.
Beachte: die Zufallsgrösse Z ist N (µ, σ 2 ) verteilt, falls Z dieselbe Verteilung hat wie σX + µ,
wobei X N (0, 1) verteilt ist.
Sei f eine dreimal stetig differenzierbare Funktion mit |f 000 (x)| ≤ M, ∀ x. Dann ist mit
U := Xn1 + · · · + Xn(n−1)
f (Xn1 + · · · + Xn(n−1) + Xnn ) = f (U ) + f 0 (U )Xnn + f 00 (U ) ·
2
Xnn
+ r(U, Xnn ).
2
X3
M
Das Restglied r(U, Xnn ) = f 000 (U +ηXnn ) nn ist beschränkt durch |r(U, Xnn )| ≤
|Xnn |3 .
6
6
Also gilt
2
Xnn
0
00
E (f (U + Xnn )) = E f (U ) + E (f (U )Xnn ) + E f (U )
+ E r(U, Xnn )
2
und
2
Ynn
0
00
E (f (U + Ynn )) = E f (U ) + E (f (U )Ynn ) + E f (U )
+ E r(U, Ynn )
2
und somit
|E (f (U + Xnn )) − E (f (U + Ynn )| ≤
38
M
E(|Xnn |3 ) + E|Ynn |3 ,
6
denn
E (f 0 (U )Xnn ) = E (f 0 (U )) E(Xnn ) = 0 = E (f 0 (U )Ynn )
und
2
2
2
f 00 (U )Xnn
σnn
Ynn
00
00
E
= E (f (U ))
= E f (U )
,
2
2
2
unabhängig sind.
weil U , Xnn , Ynn
Wir fahren fort und erhalten
E f (Xn1 + · · · + Xn(n−1) + Xnn ) − E f (Xn1 + · · · + Xn(n−1) + Ynn ) ≤
M
6
E(|Xnn |3 ) + E(|Ynn |3 ) ,
E f (Xn1 + · · · + Xn(n−1) + Ynn ) − E f (Xn1 + · · · + Xn(n−2) ) + Yn(n−1) + Ynn ) ≤
M
6
E(|Xn(n−1) |3 ) + E(|Yn(n−1) |3 ) ,
..
.
|E (f (Xn1 + Yn2 + · · · + Ynn )) − E (f (Yn1 + · · · + Ynn ))|
≤
M
6
E(|Xn1 |3 ) + E(|Yn1 |3 ) .
Addieren ergibt (mit Hilfe der Dreiecksungleichung)
n
X
M
|E (f (Sn )) − E (f (Tn ))| ≤
6
3
E(|Xni | ) +
i=1
n
X
!
3
E(|Yni | ) .
i=1
Es gilt
r
3
E(|Yni | ) =
8 3
σ ≤
π ni
r
8
E(|Xni |3 ).
π
(Beweis siehe unten) und somit
r ! n
8 X
1+
E(|Xni |3 ) =: εn .
π i=1
M
|E (f (Sn )) − E (f (Tn ))| ≤
6
Die rechte Seite εn strebt mit wachsendem n nach Voraussetzungen gegen 0.
x0 und δ > 0 seien vorgegeben, aber beliebig.
a) Wähle für f eine Funktion mit
f (x) = 1
für x ≤ x0 − δ,
f (x) = 0
für x ≥ x0 ,
0 ≤ f (x) ≤ 1 ∀ x,
|f 000 (x)| ≤ M
∀ x.
Dann gilt
Φ(x0 − δ)
= P (Tn < x0 − δ) ≤ E f (Tn ) = E f (Sn ) + εn
≤ P Sn < x0 + εn , ∀ n.
39
Daraus folgt
(∗)
Φ(x0 − δ) ≤ lim inf P (Sn < x0 ).
n→∞
b) Wähle für f eine Funktion mit
f (x) = 1
für x ≤ x0 ,
f (x) = 0
für x ≥ xo + δ ,
|f 000 (x)| ≤ M
0 ≤ f (x) ≤ 1 ∀ x,
∀ x.
Dann gilt
P (Sn < x0 ) ≤ E f (Sn ) = E f (Tn ) + εn
≤ P Tn < x0 + δ + εn = Φ(x0 + δ) + εn , ∀ n.
Daraus folgt
(∗∗) lim sup P (Sn < x0 ) ≤ Φ(x0 + δ).
n→∞
c) (∗) und (∗∗) zusammen ergeben
Φ(x0 − δ) ≤ lim inf P (Sn < x0 ) ≤ lim sup P (Sn < x0 ) ≤ Φ(x0 + δ), ∀ δ > 0.
n→∞
n→∞
Da Φ stetig ist, erhält man dann
lim P (Sn < x0 ) = Φ(x0 ),
n→∞
Um den Beweis zu vervollständigen, müssen wir noch zwei Details erledigen.
a) Wenn Y N (0, 1) verteilt ist, gilt E(|Y |3 ) =
q
8
π
,
b) wenn Ψ eine konvexe Funktion ist und wenn E(|X|) < ∞, gilt Ψ E(X) ≤ E Ψ(X)
(Ungleichung von Jensen).
Beweis von a):
einfache Rechnung.
Beweis von b): eine Funktion Ψ ist konvex, wenn sie in jedem Punkt x eine Stützgerade
besitzt, d.h. es gibt eine lineare Funktion ` ≤ Ψ mit `(x) = Ψ(x). Somit, für x := E(X),
Ψ E(X) = ` E(X) = E `(X) ≤ E Ψ(X) .
Spezialfälle:
(i) Ψ(x) = x2
2
=⇒ E(X) ≤ E(X 2 )
3/2
(ii) Ψ(x) = |x|3/2 =⇒ E(|X|2 )
≤ E(|X|3 )
Im Beweis von Satz 3 haben wir den Fall (ii) benützt.
40
Eine Anwendung des Satzes von de Moivre-Laplace.
Gesucht ist die Wahrscheinlichkeit, bei 600 Würfen mit einem symmetrischen Würfel mindestens 90 und höchstens 100 Sechsen zu erhalten.
S bezeichne die Anzahl von Sechsen. Gesucht ist also P (90 ≤ S ≤ 100).
1. Genaue Lösung: Wir wissen, dass S, B(600, 61 ) verteilt ist. Also gilt
P (90 ≤ S ≤ 100)
= P (S = 90) + P (S = 91) + · · · + P (S = 100)
=
100 X
600 1 k 5 100−k
( ) ( )
.
k
6
6
k=90
2. Eine gute Schätzung für die gesuchte Wahrscheinlichkeit: Nach Satz 1, mit n = 600
und p = 61 , wissen wir, dass


!
1
S
−
600
·
S − E(S)
6
≤ b = P a ≤ q
≤ b
P a≤ p
1 5
Var(S)
600 · 6 · 6
Z u
x2
1
S − 100
√ e− 2 dx.
≤ b ≈ Φ(b) − Φ(a), wobei Φ(u) :=
≈P a≤
9, 13
2π
−∞
Somit gilt
90 − 100
S − 100
100 − 100
P (90 ≤ S ≤ 100) = P
≤
≤
9, 13
9, 13
9, 13
≈ Φ(0) − Φ(−1, 095) = 0, 5 − 1 − Φ(1, 095) ≈ 0, 36 ,
wobei der Wert Φ(1, 095) ∼
= 0, 86 der in der Vorlesung verteilten Tafel entnommen
wurde. (Wir haben die Tatsache benützt, dass Φ(−x) = 1 − Φ(x).)
41
Herunterladen