Konzepte und diskrete Wahrscheinlichkeitstheorie

Werbung
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Kapitel 1
Konzepte und diskrete
Wahrscheinlichkeitstheorie
1.1
Einführung und Motivation
Wahrscheinlichkeiten werden im täglichen Sprachgebrauch verwendet und intuitiv verstanden.
Hieraus entwickeln wir dann in mehreren Schritten das gängige Konzept der Wahrscheinlichkeitstheorie,
die Axiomatik von Kolmogoroff.
1.1.1
Laplaceräume
Beispiel 1.1.1 Wir würfeln einen normalen Würfel. Die Ergebnisse sind eine Zahl aus 1 bis 6.
Die Wahrscheinlichkeit (W-keit), dass die Zahl 6 erscheint ist 61 . Aus Symmetriegründen ist die
Wahrscheinlichkeit für das Erscheinen der Zahl 1 genauso gross. Für jede Zahl i von 1 bis 6 gilt:
Wahr(Die Zahl i erscheint) =
1
.
6
Die Wahrscheinlichkeit (W-keit) für das Würfeln einer geraden Zahl ist
Wahr(Eine gerade Zahl erscheint) = Wahr(2) + Wahr(4) + Wahr(6) =
1
.
2
Ebenso lassen sich andere W-keiten für Teilmengen A der Ergebnismenge {1, 2, . . . , 6} leicht
berechnen,
1
Wahr(A) = |A|.
6
Würfeln ist ein einfaches Beispiel eines Zufallsexperiments. Die Ergebnisse heis̈en auch Realisierungen
des Zufallsexperiments. Der Raum aller Realisierungen heis̈t Stichprobenraum und wird konventionell
mit Ω bezeichnet. Ein Element ω des Stichprobenraumes heißt Realisierung oder Stichprobe. Die
Potenzmenge Pot(Ω) des Stichprobenraumes heis̈t Ereignisraum, eine Teilmenge des Stichprobenraumes
Ereignis. Ein Wahrscheinlichkeitsmas̈ (W-mas̈) ordnet jedem Ereignis einen Wert aus dem Einheitsintervall
[0, 1] zu. Konventionell wird diese Abbildung
P : Pot(Ω) → [0, 1]
mit P als Abkürzung fürs englische probability bezeichnet.
Definition 1.1.2 (Laplaceraum) Ein Laplaceraum ist ein Tupel (Ω, P ). Hierbei ist Ω eine
nichtleeren endliche Menge und P die Abbildung auf der Potenzmenge Pot(Ω) ins Einheitsinvall
gegeben durch
|A|
P (A) =
.
|Ω|
1
Uwe Rösler
Merkregel:
die
SS98
1.1
Einführung und Motivation
Einprägsamer ausgedrückt: für Laplaceräume ist die Wahrscheinlichkeit eines Ereignisses
Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle.
Jedes Elementarereignis {ω} hat die W-keit
W-keit eines Ereignisses berechnet sich zu
1
|Ω| .
P (A) =
Elementarereignisse haben die gleiche W-keit. Die
X
P ({ω}).
ω∈Ω
Die Bestimmung von W-keiten reduziert sich zu reinem abzählen.
Beispiel 1.1.3 (Lotto) Aus 49 durchlaufend numerierten Kugeln werden 6 Kugeln zufällig gezogen.
Ein Ergebnis ist die Menge der sechs gezogenen zahlen, üblicherweise geschrieben als 6-Tupel
(x1 , . . . , x6 ) mit 1 ≤ x1 < x2 < . . . < x6 ≤ 49. Dies sind die Stichproben. Jede Stichprobe hat
dieselbe W-keit. (Dazu stelle man sich die Kugeln umnummeriert vor. Die Umnummerierung hat
keinen Einflus̈ auf das Ziehen der Kugeln. Daher sollte mögliche Zahlenkombination dieselbe Wkeit besitzen.) Wir haben einen Laplaceraum vorliegen. Die W-keit 6 richtige mit dem Tip y zu
haben ist
1
1
1
= ¡49¢ =
P ({y}) =
|Ω|
13.983.816
6
Lemma 1.1.4 Eine n-elementige Menge hat
n
k
k-elementige Teilmengen.
¡ ¢
n!
Notation nk := k!(n−k)!
= n(n−1)(n−2)...(n−k+1)
wird n über k gelesen. Das Symbol n! = n(n −
k(k−1)...1
1)(n − 2) . . . 1 wird n-Fakultät
¡ ¢ gelesen.
Konvention 0! = 1 und n0 = 1
Beispiel 1.1.5 Wir betrachten n-maliges Würfeln eines Würfels. Eine Realisierung wird durch ein
Element ω = (ω1 , . . . , ωn ) aus {1, 2, . . . , 6}n beschrieben. Jede Realisierung sollte gleichwahrscheinlich
sein. Es ergibt sich der Laplaceraum (Ω = {1, . . . , 6}n , P ).
Auch auf Laplaceräumen gibt es interessante Zufallsgrös̈en. Sei z.B. X(ω) = |{i ≤ n | ωi = 1}|
die Anzahl der aufgetretenen Einsen. Dann hat X eine Binomialverteilung Bin(n, 1/6), d.h.
|{ω | X(ω) = k}|
P ({ω | X(ω) = k}) =
=
6n
1.1.2
µ ¶ µ ¶k µ ¶n−k
n
5
1
.
6
6
k
Diskrete Wahrscheinlichkeitsräume
Laplaceräume sind die einfachsten Wahrscheinlichkeitsräume. Unser nächstes Beispiel zeigt einen
W-Raum, der kein Laplaceraum ist.
Beispiel 1.1.6 Wir werfen eine Münze solange bis Adler erscheint. Das Ergebnis dieses Zufallsexperiments
sei die Anzahl der Würfe. Der Stichprobenraum sind die natürlichen Zahlen IN. Die W-keit für
einmaliges werfen ist 12 , für zweimaliges werfen 14 für dreimaliges 18 usw
P ({n}) = 2−n .
Die W-keit eines Ereignisses A berechnet sich zu
P (A) =
X
ω∈A
2
P ({ω}).
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Definition 1.1.7 (Diskreter Wahrscheinlichkeitsraum) Ein diskreter W-raum ist ein Tupel
(Ω, P ). Hierbei ist Ω eine endliche oder abzählbare nichtleere Menge und die Abbildung P :
Pot(Ω) → [0, 1] erfüllt die Eigenschaften
X
P ({ω})
∀A ⊂ Ω
P (A) =
ω∈A
P (Ω) = 1.
Proposition 1.1.8 Sei Ω eine endliche oder abzählbare nichtleere
PMenge. Es gibt eine Bijektion
zwischen W-mas̈en P auf Ω und positiven Funktionen f auf Ω mit ω∈Ω f (ω) = 1. Diese Bijektion
kann durch
P ({ω}) = f (ω)
gegeben werden.
Der Beweis ist einfach.
W-mas̈e eines diskreten W-raumes werden eindeutig beschrieben durch die Dichtefunktion f.
Ist ω1 , ω2 , . . . eine Aufzählung von Ω, so spricht man auch von dem Wahrscheinlichkeitsvektor
(f (ω1 ), f (ω2 ), . . .).
Die Wahrscheinlichkeit eines Ereignisses A berechnet sich zu
X
P (A) =
f (ω).
ω∈A
Die Dichtefunktion f kann den Wert 0 annehmen.
Beispiel 1.1.9 (Ereignisraum eines rot-grün Blinden) Wir würfeln zwei ununterscheidbare
Würfel gleichzeitig. Als Ergebnis dieses Experiments erhalten wir ein Tupel (i, j), i ≤ j der gewürfelten
Zahlen. Das Tupel haben wir der Grös̈e nach geordnet, die kleinere Zahl steht zuerst. Da die Würfel
ununterscheidbar sind, können wir die Zahlen nicht einem Würfel zuordnen. Das W-mas̈ P auf
dem Stichprobenraum beschreiben wir durch die Dichtefunktion f
½ 1
f alls i = j
36
f (i, j) =
2
f alls i < j
36
Wie haben wir die W-keiten gefunden? Betrachten wir dazu das Experiment des würfelns mit
zwei unterscheidbaren Würfeln, z.B. roter und grüner Würfel. Als Ergebnis notieren wir das Tupel
(i, j), i das Ergebnis des roten Würfel und j des grünen. Sei (Ω, P ) der zu diesem Experiment
gehörige Laplaceraum.
Ein rot-grün blinder Mensch kann die Würfel nicht unterscheiden und notiert die gewürfelten
Zahlen als Tupel (i, j), i ≤ j der Grös̈e nach geordnet. Der Farbblinde benutzt den diskreten Wraum (Ω0 , P 0 ) aus Beispiel 1.1.9. Jedem beobachtbaren Ereignis des Farbblinden ordnen wir ein
entsprechenden Ereignis mit unterscheidbaren Würfeln zu. Dazu betrachten wir die Abbildung
X : Ω → Ω0
Ω 3 (i, j) 7→ X(i, j) = (min i, j, max i, j) ∈ Ω0 .
Diese Abbildung ist wohldefiniert und surjektiv. Ein Ereignis A0 des Farbblinden entspricht dem
Ereignis X −1 (A0 ) des Normalsichtigen. Daher definiert
P 0 (A0 ) := P (X −1 (A0 ))
das richtige W-mas̈ P 0 für den Farbblinden. P 0 heis̈t auch transportiertes Mas̈s.
Bemerkung: Im obigen Beispiel haben wir eine Äquivalenzrelation auf Ω gebildet (ω ∼ ω ↔
X(ω) = X(ω)) und Ω0 entspricht den Äquivalenzklassen. Auf Ω selbst bezogen hat der Farbblinde
einen echt kleineren Ereignisraum (X −1 (Pot(Ω0 )) als der Normalsichtige.
3
Uwe Rösler
1.1.3
SS98
1.1
Einführung und Motivation
Kolmogoroff Axiomatik
Wir kommen jetzt zum allgemeinen Konzept der Wahrscheinlichkeitstheorie. Das Beispiel des
Farbblinden zeigt bereits die Notwendigkeit kleinere Ereignisräume als die volle Potenzmenge
zuzulassen. Wir benötigen strukturelle Forderungen an die Ereignisraum, wie z.B. die Vereinigung
von Ereignissen ist ein Ereignis.
Die folgende Axiomatik von Kolmogoroff hat sich als sehr erfolgreich erwiesen.
Definition 1.1.10 Ein Wahrscheinlichkeitsraum ist ein Tupel (Ω, A, P ). Der Stichprobenraum
Ω ist eine nichtleere Menge, der Ereignisraum A ⊂ Pot(Ω) ist eine σ-Algebra und P : A → [0, 1]
ist ein Wahrscheinlichkeitsmas̈.
Definition 1.1.11 Eine σ-Algebra A über einer Menge Ω ist eine Teilmenge der Potenzmenge
von Ω mit den folgenden Eigenschaften
i) A ist nicht leer.
ii) A ist komplementabgeschlossen.
iii) A ist abgeschlossen bzgl. abzählbarer Vereinigung.
In mathematischerer Schreibweise
i) A 6= ∅
ii) ∀ A ∈ A : Ac ∈ A
iii) ∀ An ∈ A, n ∈ IN : ∪n∈IN An ∈ A
Ein mes̈barer Raum (Ω, A) besteht aus einer nicht leeren Menge Ω und einer σ-Algebra darüber.
Bemerkung: Die Forderung A nicht leer können wir durch A enthält die leere Menge ersetzen.
Not. R := IR ∪ {−∞, ∞} bezeichne die erweiterten reellen Zahlen.
Definition 1.1.12 Ein Mas̈ auf einem mes̈baren Raum (Ω, A) ist eine Abbildung µ : A → R mit
folgenden Eigenschaften
i) µ(∅) = 0
ii) µ(A)
S ≥ 0 für jedes
P Element A der σ-Algebra A
iii) µ( ◦ n∈IN An ) = n∈IN µ(An ) für jede paarweise disjunkte Folge An , n ∈ IN aus A.
S
Not: Das Symbol ◦ i Ai steht für die Vereinigung paarweiser disjunkter Mengen Ai , i aus einer
Indexmenge.
Definition 1.1.13 Ein Wahrscheinlichkeitsmas̈(W-mas̈) ist ein Mas̈ µ mit der zusätzlichen
Normierung
µ(Ω) = 1.
Kon W-mas̈e werden üblicherweise mit P bezeichnet.
Definition 1.1.14 Ein Mas̈raum ist ein Tupel (Ω, A, µ) bestehend aus einem mes̈baren Raum
(Ω, A) und einem Mas̈ µ darauf. Ein W-raum ist ein Mas̈raum (Ω, A, P ) mit einem W-mas̈ P.
Beispiele: Laplaceräume und diskrete W-rüame sind W-räume. Jeder W-raum mit endlichem
Stichprobenraum Ω, der Potenzmenge als σ-Algebra und gleicher W-keit aller Stichproben ist ein
Laplaceraum. Jeder W-raum mit höchstens abzählbarem Stichprobenraum Ω und der Potenzmenge
als σ-Algebra ist ein diskreter W-raum.
1.1.4
Zufallsgrös̈en:
W-Räume sind die neuen Objekte, die wir betrachten wollen. Zu einer tieferen Theorie benötigen
wir strukturerhaltende Abbildungen zwischen W-räumen.
Definition 1.1.15 Eine Abbildung X von einem mes̈baren Raum (Ω, A) in einen anderen mes̈baren
Raum (Ω0 , A0 ) heis̈t mes̈bar, falls X −1 (A0 ) ∈ A für jedes Ereignis A0 ∈ A0 . Eine Zufallsgrös̈e
(Zg) ist eine mes̈bare Abbildung X : Ω → Ω0 .
4
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Not Zgn werden mit gros̈en Buchstaben gekennzeichnet, X, Y, Z. Realisierungen werden vorzugsweise
mit kleinen Buchstaben bezeichnet.
Bemerkung Den Begriff Mes̈barkeit benötigen wir nur, falls wir Ereignisräume betrachten, die
kleiner als die Potenzmenge sind. Im Setting diskreter W-räume ist jede Funktion bereits mes̈bar.
1.1.5
Transportierte Maße
Proposition 1.1.16 Sei X : Ω → Ω0 eine Abbildung von einem Mas̈raum (Ω, A, µ) in einen
mes̈baren Raum (Ω0 , A0 ). Dann ist die Abbildung µ0 : A0 → IR
µ0 (A0 ) := µ(X −1 (A0 ))
ein Mas̈.
Beweis: Nachrechnen der Eigenschaften. (Übung)
Definition 1.1.17 Das Mas̈ µ0 wie oben heis̈t transportiertes Mas̈. Ist X eine Zg und µ ein
W-mas̈, so heis̈t µ0 die Verteilung von X.
Not Folgende Notationen sind gebräuchlich, µX , µX und µX −1 . Ich benutze vorzugsweise P X für
die Vereteilung von X.
Not Das ω wird gerne unterdrückt. Wir schreiben X ∈ A0 für das Ereignis {ω ∈ Ω | X(ω) ∈ A} =
X −1 (A0 ). Typisch ist P (X ∈ A0 ) anstelle P ({ω ∈ Ω | X(ω) ∈ A}).
Not Mengenklammern werden gerne unterdrückt. Wir schreiben z.B. P (ω) anstelle von P ({ω}).
1.1.6
Verteilungen
Konvention: Im folgenden betrachten wir nur diskrete W-räume mit der Potenzmenge als
Ereignisraum. Einige W-räume, mehr noch die zugehörigen W-maße, auch Verteilungen genannt,
sind besonders wichtig.
• Bernoulliverteilung: Dies ist ein diskretes W-maß P auf dem Stichprobenraum {0, 1} mit
P (1) = p und q := P (0) = 1 − p. Das Standardbeispiel ist der Münzwurf. Das Ergebnis des
Münzwurfs ist 1 (für Kopf) mit Wahrsch. p und 0 (für Zahl) mit Wahrsch. q.
• Binomialverteilung: Die Binomialverteilung Bin(n, p) zum Parameter (n, p), 0 ≤ n, 0 ≤
p ≤ 1, ist ein W-Maß P auf dem Stichprobenraum Ω = {0, . . . , n} mit
µ ¶
n k
P ({k}) =
p (1 − p)n−k .
k
Werfen wir n mal eine gefälschte Münze, p sei die Wahrsch. für Kopf (1), so ist die Gesamtanzahl
S der Kopfwürfe P ({ω | S(ω) = k}) = P ({k}) binomialverteilt Bin(n, p).
• Geometrische Verteilung: Die geometrische Verteilung Geo(p) zum Parameter p ∈ [0, 1)
ist ein W-Maß P auf den natürlichen Zahlen als Stichprobenraum mit
P ({k}) = (1 − p)pk−1 .
Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (= 1). Sei X die Anzahl der
Kopfwürfe vor dem ersten Zahlwurf. Das Ereignis,der k-te Wurf ist der erste Zahlwurf, hat
die Wahrsch. P ({ω | X(ω) = k}) = (1 − p)pk−1 .
• Poissonverteilung: Die Poissonverteilung Poi(λ) zum Parameter λ ∈ (0, ∞) ist ein W-Maß
P auf dem Stichprobenraum ZZ + mit
P ({k}) = exp(−λ)λk /k!.
Beachte
P
k
P ({k}) = 1 wegen der Taylor Entwicklung exp(x) =
5
P∞
xn
n=0 n! .
Uwe Rösler
SS98
1.1
Einführung und Motivation
• Negative Binomialverteilung: Die negative Binomialverteilung zum Parameter (n, p), n ∈
IN, 0 ≤ p < 1, ist ein W-Maß P auf dem Stichprobenraum IN0 mit
¶
µ
k+n−1 n k
q p ,
P ({k}) =
k
P
P ¡k+n−1¢ k
1
q = 1 − p. Beachte k P ({k}) = 1 wegen der Taylor Entwicklung (1−x)
x .
n =
k
k
6
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.2
SS98
Kombinatorische Wahrscheinlichkeitstheorie
Uwe Rösler
In diesem Abschnitt betrachten wir nur endlichen Stichprobenräume versehen mit der Potenzmenge
als σ-Algebra. Das Wahrscheinlichkeitsmaß P schreibt sich als additive Funktion,
X
P ({ω}).
P (A) =
ω∈A
Notation: P (ω) = P ({ω}).
Durch gute Wahl des w-theoretischen Modells reduzieren sich viele W-theoretische Argumente auf
Kombinatorik und geschicktes Abzählen. Die Betonung liegt auf geschicktes, denn eine häufige
Schwierigkeit ist die Wahl der “richtigen” Anschauung und Darstellung des Stichprobenraumes.
Mit der richtigen Betrachtungsweise wird das Abzählen meist einfach.
Besonders geeignete Kandidaten sind die Laplaceräume, da die W-keiten sich als Quotient erweisen,
Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle.
1.2.1
Laplaceraum
Definition 1.2.1 Ein Laplaceraum ist eine endliche Menge Ω versehen mit der Potenzmenge
als σ-Algebra und dem W-maß
|A|
P (A) =
|Ω|
auf den Ereignissen.
Proposition 1.2.2 Ein W-raum (Ω, P(Ω), P ) mit endlichem Stichprobenraum ist genau dann ein
Laplaceraum, wenn alle Stichproben gleichwahrscheinlich sind.
P
1
Bew: Die Hinrichtung folgt aus P (ω) = |Ω|
und die Rückrichtung, beachte 1 = P (Ω) = ω∈Ω P ({ω})
aus
X
|A|
.
P (A) =
P ({ω}) =
|Ω|
ω∈A
q.e.d.
Die Standardvorstellung zu einem Laplace-Experiment ist das Modell einer Urne mit n numerierten
Kugeln, aus der wir einmal ziehen. Überhaupt bilden Urnenmodelle eine geeignete Vorstellung für
alle w-theoretischen Fragestellungen bei endlichem Stichprobenraum. Daher eine kleine Übersicht
der wichtigsten Urnenmodelle.
1.2.2
Urnenmodelle
13j
12j
11j 10j8j 9j 14j
6j 7j 5j 1j 4j 2j 3j %
&
Gegeben sei eine Urne mit n numerierten Kugeln, aus der wir insgesamt k-mal ziehen wollen. Die
Kugeln seien durchgehend numeriert von 1 bis n. Wir ziehen zufällig (jede Kugel hat dieselbe
W-keit) eine Kugel heraus und sehen uns das Ergebnis an. Abhängig vom Urnenmodell legen wir
die Kugel zurück oder nicht. Dann wird zum zweitenmal zufällig gezogen usw., insgesamt k-mal.
Als Gesamtergebnis notieren wir die Nummern der gezogenen Kugeln in zeitlicher Reihenfolge der
Ziehung oder, falls uns die zeitliche Reihenfolge vorenthalten wird, in lexikographischer Ordnung.
(i) Ziehen in Reihenfolge und mit Zurücklegen
Eine Realisierung ist ein Tupel ω = (ω1 , ω2 , . . . , ωk ), wobei ωj die Nummer der j-ten gezogenen Kugel angibt. Jede solche Realisierung ist gleich wahrscheinlich (Symmetrieüberlegungen
und eventuelle Umnummerierung der Kugeln). Der zugehörige Stichprobenraum
ΩRZ := {1, 2, . . . , n}k
7
Uwe Rösler
SS98
1.2 Kombinatorische Wahrscheinlichkeitstheorie
hat
Elemente und ist ein Laplaceraum.
|ΩRZ | = nk
(ii) Ziehen in Reihenfolge und ohne Zurücklegen
Wir notieren die Folge der gezogenen Zahlen. Eine Realisierung wird beschrieben durch ein
k−Tupel (ω1 , ω2 , . . . , ωk ) verschiedener Zahlen von 1 bis n. Der Stichprobenraum
ΩR∼Z := {ω ∈ {1, 2, . . . , n}k | ωi 6= ωj for 1 ≤ i 6= j ≤ k}.
hat
|ΩR∼Z | = (n)k := n(n − 1) . . . (n − k + 1) =
n!
(n − k)!
Elemente und ist ein Laplaceraum. (Für die Auswahl des ersten Elements ω1 haben wir n
Möglichkeiten, für die zweite Kugelzahl nur noch n − 1 Möglichkeiten, dann n − 2 usw.)
Für n = k erhalten wir alle Permutationen der Zahlen 1 bis n, d.h. alle bijektiven Abbildungen von {1, 2, . . . , n} auf sich selbst.
(iii) Ziehen ohne Reihenfolge und ohne Zurücklegen
Als Gesamtergebnis der Ziehung bekommen wir nur mitgeteilt, welche Kugeln gezogen
wurden und wie oft diese gezogen wurden. Wir kennen nicht die zeitliche Reihenfolge der
Ziehung. Der Übersichtlichkeit halber ordnen wir die gezogenen Zahlen in lexikographischer
(=natürlicher) Ordnung. Wir verwenden den Stichprobenraum
Ω∼R∼Z := {ω ∈ {1, 2, . . . , n}k | ω1 < ω2 < . . . < ωk },
oder auch alternativ den Stichprobenraum
Ω0∼R∼Z := {A ⊂ {1, 2, . . . , n} | |A| = k}.
Die Abbildung (ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk } ist eine Bijektion von Ω∼R∼Z nach Ω0∼R∼Z .
Beide Stichprobenräume haben
µ ¶
n
= |ΩR∼Z |/k!
|Ω∼R∼Z | =
k
Elemente und sind Laplaceräume.
(Zum Beweis betrachten wir die obige Abbildung jetzt von ΩR∼Z nach Ω∼R∼Z zuordnet.
Jedes Urbild f −1 (y) := {ω | f (ω) = y} von y ∈ Ω∼R∼Z hat genau k! Elemente. Damit
erhalten wir obige Formel.)
Die häufigste Verwendung dieses Urnenmodells ist enthalten in der folgenden Merkregel:
Die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist
(iv) Ziehen ohne Reihenfolge und mit Zurücklegen
¡n ¢
k
.
Als praktische Durchführung denken wir uns ein Ziehen mit Reihenfolge und mit Zurücklegen. Genannt werden nur die Nummern der gezogenen Kugeln, eventuell mit Mehrfachnennungen.
Eine Realisierung beschreiben wir durch das k-Tupel ω der aufsteigend geordneten Kugelnummern. Der Stichprobenraum zu diesem Urnenmodell ist
Ω∼RZ := {ω ∈ {1, 2, . . . , n}k | ω1 ≤ ω2 ≤ . . . ≤ ωk }.
Die Wahrscheinlichkeit eines Ereignisses ω berechnet sich als Summe der Wahrscheinlichkeiten aller ω 0 beim Ziehen mit Reihenfolge und mit Zurücklegen, die zu einer Nennung ω
führen.
8
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Sei ϕ : ΩRZ 7→ Ω∼RZ die Abbildung, die jedem ω 0 ∈ ΩRZ das geordnete Tupel zuordnet.
Das W-maß P∼RZ : ¶(Ω∼RZ ) → IR ist das durch ϕ transportierte Maß
P∼RZ (A) = PRZ (ϕ−1 (A)) =
|ϕ−1 (A)|
.
|ΩRZ |
Der W-raum (Ω∼RZ , ¶(Ω∼RZ ), P∼RZ ) ist der gesucht Wahrscheinlichkeitsraum. Dies ist kein
Laplaceraum. Z.B. hat in unserer Versuchsanordnung für n = 4, k = 4 die Realisierung
(1, 1, 1, 1) die Wahrscheinlichkeit 1/(44 ), die Realisierung (1, 2, 3, 4) aber eine Wahrscheinlichkeit
von 4!/44 . Verschiedene Realisierungen beim Ziehen mit Reihenfolge und mit Zurücklegen
ergeben dieselbe Nennung (ohne Reihenfolge.) Die Ziehungen in der zeitlichen Reihenfolge
4, 2, 1, 3 und 4, 3, 2, 1 ergeben als geordnetes Tupel beide (1, 2, 3, 4). Es gibt 4! verschiedener
Anordnungen von 1, 2, 3, 4, die als geordnetes Tupel (1, 2, 3, 4) ergeben, aber nur eine von
1, 1, 1, 1, die (1, 1, 1, 1) ergibt.
¢
¡
Elemente.
(Der Raum Ω∼RZ hat n+k−1
k
ϕ
Zum Beweis betrachten wir die Abbildung (ω1 , ω2 , . . . , ωk ) 7→ (ω1 , ω2 + 1, . . . , ωk + k −
1). Dies ist eine bijektive Abbildung von Ω∼RZ nach dem Stichprobenraum Ω∼R∼Z eines
Urnenmodell, aus n + k − 1 numerierten Kugeln ¡k Kugeln
¢ zu ziehen, ohne Zurücklegen und
verschiedene Möglichkeiten.)
ohne Reihenfolge. (Nachrechnen.) Dafür gibt es n+k−1
k
Satz 1.2.3 Die Ergebnisse sind im Vorgriff in der folgenden Tabelle zusammengefaßt.
k-mal ziehen
mit
ohne
aus n Kugeln
Zurücklegen
Zurücklegen
mit
Laplaceraum
Laplaceraum
unterscheidbare
Reihenfolge
|ΩRZ | = nk
|ΩR∼Z | = (n)k
Kugeln
ohne
Kein Laplaceraum
Laplaceraum
¡ ¢
|Ω∼R∼Z | = nk
ununterscheidbare
mit
ohne
k Kugeln verteilen
Mehrfachbelegung
Mehrfachbelegung
auf n Urnen
Reihenfolge
Kugeln
Die offensichtlichen Vorzüge der Modellierung durch Laplaceräume führt zu folgender Merkregel:
Modelliere Urnenmodelle stets mit Reihenfolge.
Beispiele
• Pasch: Berechne die W-keit bei dreimaligem Würfeln jeweils dieselbe Augenzahl zu würfeln.
Hier verwenden wir das erste Urnenmodell, mit Zurücklegen und mit Reihenfolge. Wir
haben einen Laplaceraum mit insgesamt 63 verschiedenen Möglichkeiten. Genau die sechs
9
Uwe Rösler
SS98
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Würfelergebnisse (1, 1, 1), (2, 2, 2) bis (6, 6, 6) sind die “günstigen” Fälle. Damit ist die gesuchte
Wahrsch. für einen Pasch 6/63 = 1/36.
Wir werfen jetzt drei identisch aussehende Würfel gleichzeitig. Wie groß ist die Wahrsch. für
einen Pasch? Wir denken uns die Würfel (durch Farben) gekennzeichnet, und argumentieren
dann wie oben, mit demselben Resultat.
Es wäre möglich, aber ungeschickt und dies ist eine häufige Fehlerquelle, ein Urnenmodell
mit Zurücklegen und ohne Reihenfolge anzusetzen. Dies ist kein Laplaceraum.
• Zahlenlotto: Wie groß ist die W-keit für exakt 5 Richtige im Lotto (6 aus 49)? Unser
Grundraum ist ein Urnenmodell mit n = 49 Kugeln und k =
Ziehen, ohne
¡ 6-maligem
¢
Zurücklegen und ohne Reihenfolge. Der Laplaceraum Ω∼R∼Z hat 49
=
13.983.816
Elemente.
6
Wir haben genau 5 Richtige, falls aus den¡ sechs
Gewinnzahlen
genau
5
vorliegen
und aus
¢¡ ¢
verschiedene
Realisierungen.
Die
gesuchte
den restlichen 43 genau eine. Dafür gibt es 65 43
1
Wahrsch. 43/(49 · 47 · 46 · 22) liegt in der Größenordnung 1/50000.
• Geburtstag-Paradoxon: Selbst in kleinen Gruppen haben relativ häufig zwei Personen
an demselben Tag Geburtstag. Wir wollen dies “erklären”. Als Modell wählen wir ein
Urnenmodell mit Reihenfolge und mit Zurücklegen und mit nk Elementen. Die Geburtstage
der k Personen entsprechen dem Ergebnis zufälligen Ziehens eines Tages aus dem Jahr.
Das Ereignis Ek , kein Geburtstag ist doppelt, entspricht den Elementen von ΩR∼Z , allen kelementigen Teilmengen von {1, . . . , n} unter Berücksichtigung der Reihenfolge. Wir erhalten
P (Ek ) =
k−1
k−1
X
X i
n−i
k(k − 1)
(n)k
ln(
=
exp(
))
≈
exp(−
) = exp(−
).
nk
n
n
2n
i=0
i=0
Hierbei nutzen wir die Taylor Approximation ln(1 + x) ≈ x für x dicht bei 0.
Für welche Gruppengröße wird die Wahrsch. ungefähr 1/2? Ein wenig Rechnung liefert uns
P (E22 ) = 0, 5243 > 1/2 und P (E23 ) = 0, 4927 < 1/2. Bereits bei 23 Personen ist die Chance
für den Zusammenfall von zwei Geburtstagen ungefähr fifty-fifty.
In der Informatik kommt die Problemstellung vor bei zufälligem Abspeichern von Daten,
siehe dort unter Hashing.
• Olympialotterie: In einer Lotterie sind alle gleichteuren Lose auch gleich gewinnträchtig,
zumindest ist dies eine weitverbreitete Meinung. Alle Lose sind gleich, aber manchmal sind
einige Lose “gleicher”. Für die Glücksspirale der Olympialotterie 1971 wurden 10 Millionen
Lose mit siebenstelligen Zahlen angeboten, von Nummer 0000000 bis hin zu 9999999. Die
Auslosung geschah durch siebenmaliges Ziehen ohne Zurücklegen der numerierten Kugeln
aus einer Trommel. Die gezogenen Ziffern, in zeitlicher Reihenfolge aufgeschrieben, ergab die
Gewinnzahl. In der Trommel waren insgesamt 70 Kugeln, jeweils 7 Kugeln der Ziffern 0 bis
9.
Die Losnummer 0000000 hat eine Gewinnwahrsch. von
7 6
1
...
= 7!/(70)7 ≈ 8, 3 · 10−10 .
70 69
64
Die Losnummer 0123456 hat eine wesentlich höhere Gewinnwahrsch. von
7 7
7
...
= 77 /(70)7 ≈ 1, 3 · 10−7 .
70 69
64
(Weshalb?) Dies sind gleichzeitig die extremen Elementarwahrscheinlichkeiten.
10
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.2.3
Urnenmodelle revisited*
SS98
Uwe Rösler
[ [ [ [ [[ [ [ [ [ [ [ [ [ [ [
◦ ◦
◦
◦
Der Versuchsaufbau besteht jetzt aus n Urnen, numeriert durch 1 bis n, und k Kugeln, die darauf
zufällig verteilt werden sollen. Unterschieden wird, ob Mehrfachbelegung der Urnen möglich ist
und ob die Kugeln unterscheidbar (=numeriert) sind. Zufällig bedeuted, jede der für eine Belegung
möglichen Urnen wird gleich behandelt.
Wir stellen uns zufälliges Ziehen der Urnen vor, wobei die gezogenen Urne in i-ter Runde durch
hineinlagen der Kugel i gekennzeichnet wird. Damit ist das Experiment wie Ziehen numerierter
Kugeln (mit/ohne Zurücklegen und mit/ohne Reihenfolge) aus einer Urne äquivalent zu einem
Verteilen von Kugeln (numeriert/ununterscheidbar) auf numerierte Urnen (mit/ohne Mehrfachbelegung). Im Detail:
(i) Verteilung unterscheidbarer Kugeln und mit Mehrfachbelegung
Eine Realisierung besteht in der Angabe der Kugeln in der j-ten Box nach der Verteilung.
Der Stichprobenraum
[
ΩU M := {(A1 , A2 , . . . , An ) | ∀ 1 ≤ i ≤ n : Ai ⊂ {1, 2, . . . , k}, ◦ Aj = {1, 2, . . . , k}}
j
ist bijektiv zum Stichprobenraum ΩRZ des ersten Urnenmodells.
Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ (ω1 , . . . , ωk ) mit i ∈ Aωi . In Worten,
i ∈ Aj entspricht in der i-ten Ziehung (Urnenmodell mit Zurücklegen und mit Reihenfolge)
wird die Kugel mit der Zahl j gezogen.
(ii) Verteilung unterscheidbarer Kugeln und ohne Mehrfachbelegung
Eine Realisierung beschreiben wir durch die Angabe der Kugelnummer in der i-ten Urne,
bzw. durch die leere Menge, falls die Urne leer ist. Formal ist der Stichprobenraum
ΩU ∼M := {(A1 , . . . , An ) ∈ ΩI | ∀1 ≤ i ≤ n |Ai | ≤ 1}.
Diese Menge hat ebensoviele Elemente wie ΩR∼Z . Dazu betrachten wir die Bijektion
(A1 , . . . , An ) 7→ ω, eine Kugel j ∈ Ai in Urne i entspricht dem Ziehen der Kugelzahl i
in der j-ten Ziehung.
(iii) Verteilung ununterscheidbarer Kugeln und ohne Mehrfachbelegung
Eine Realisierung beschreiben wir durch eine 0-1 Folge der Länge n. Eine 0 bzw. 1 an
der i-ten Stelle entspricht einer leeren bzw. besetzten i-ten Box. Formal ergibt dies den
Stichprobenraum
n
X
ji = k}.
Ω∼U ∼M := {j ∈ {0, 1}n |
i=1
Dieser hat ebenso viele Elemente wie der Stichprobenraum Ω∼R∼Z . Jeder 0-1 Folge j ordnen
wir eine Menge A aus den Zahlen 1 bis n zu. Eine Zahl i sei Element von A genau dann, falls
die i-te Koordinate ji von j eine 1 ist. Dies ergibt eine Bijektion von Ω∼U ∼M auf Ω∼R∼Z .
(iv) Verteilung ununterscheidbarer Kugeln und mit Mehrfachbelegung
Eine Realisierung beschreiben wir durch durch die Angabe ji der jeweiligen Kugelanzahl in
der i-ten Urne. Der zugehörige Stichprobenraum
X
Ω∼U M := {j ∈ {0, 1, . . . , k}n |
ji = k}
i
ist gleichmächtig wie Ω∼RZ . Die Abbildung j 7→ ω, ji die Häufigkeit |{l | ωl = i}| mit der
die Kugel i aus der Urne gezogen wird, ist bijektiv.
Die Beschreibungen eines Experiments durch die Ziehen aus Urnen oder durch Verteilen auf Urnen
sind äquivalent.
11
Uwe Rösler
SS98
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Urnenmodelle in der Physik: Das Modell ΩU M heißt in der Physik die Maxwell-Boltzman
Statistik. Die Urnen entsprechen räumlich gleichgroßen Quadern, die Kugeln nicht-wechselwirkenden Teilchen. Keine Teilchen gehorchen diesen Gesetzen.
Das Modell ΩU ∼M heißt in der Physik Fermi-Dirac Statistik. Die Teilchen, die diesem Modell
gehorchen, heißen Fermionen [?].
Bei der Untersuchung des Aufbaus der Elektronenhülle des Atoms fand Pauli das Gesetz, daß
zwei Elektronen nicht in allen vier, ihren Zustand beschreibenden Quantenzahlen übereinstimen
dürfen. In anderen Worten, nicht mehr als ein Elektron darf den seinem Zustand beschreibenden
Phasenraumvolumen besetzen.
Jedem Elementarteilchen ordnet man einen “abstrakten” Eigendrehimpuls zu, den sogenannten
Spin. Dieser kann die Werte nh/(4π) oder −nh/(4π) annehmen (n ∈ IN, h = Planck’sches
Wirkungsquantum). Die Teilchen mit ganzzahligem Spin (ungerade) sind die Bosonen, die mit
halbzahligem Spin (n ungerade) die Fermionen.
1.2.4
Weitere Urnenmodelle
(v) Hypergeometrische Verteilung
Die hypergeometrische Verteilung zum Parameter (W, S, n) ∈ ZZ + ×ZZ + ×{1, . . . , S +W }
ist ein W-maß P auf dem Stichprobenraum {0, 1, . . . , n}
P ({k}) =
¡S ¢¡
W
n−k
¡S+W
¢
n
k
¢
.
Aus einer Urne mit S schwarzen und W weißen Kugeln ziehen wir n−mal zufällig ohne
Zurücklegen und ohne Reihenfolge. Die Wahrsch., genau s schwarze und w weiße in n = s+w
Ziehungen zu ziehen, ist
¡S ¢¡W ¢
¡sS+Ww¢ .
s+w
Diese Wahrsch. als Funktion von s mit Parametern S, S +W, s+w, ist die hypergeometrische
Verteilung.
¢
¡
Elemente. Wir denken uns die
Unser gewählte Laplace Grundraum Ω∼R∼Z hat S+W
s+w
¡ ¢
numerierten Kugeln 1, 2, . . . , S als schwarz, die anderen W Kugeln als weiß. Es gibt Ss
verschiedene Möglichkeiten daraus s¡schwarze
(und numerierte) Kugeln (ohne Reihenfolge)
¢
auszuwählen. Entsprechend gibt es W
verschieden
Kombinationen für die weißen. Jedes
w
“günstige” Ereignis wird eindeutig durch die numerierte Menge der schwarzen, bzw. der
weißen Bälle beschrieben.
Beispiele
• Skat: Wie groß ist die Wahrsch., daß beim Skatspiel Vorhand drei Buben ausgeteilt bekommt?
Wir benutzen ein Urnenmodell mit 32 Kugeln und 10-maligem Ziehen ohne
Zurücklegen
und
¢
¡ ¢¡
.
Damit
hat
ohne Reihenfolge. Die Anzahl der günstigen Verteilungen für Vorhand ist 43 28
7
¡ ¢¡ ¢ ¡32¢
drei
Buben.
/
Vorhand mit Wahrsch. 43 28
10
7
• Fischezählung: Wie lassen sich Fische in einem Teich zählen? Wir fangen S Fische heraus
und markieren diese. Danach setzen wir diese zurück, “mischen” kräftig durch und fischen
zufällig k Fische heraus. Darunter seien s > 0 markierte. Naiv erwarten wir ein ähnliches
Zahlenverhältnis der wiedergefangenen markierten Fische zu den gefangenen wie das der
gefangenen zu allen. Dies ergibt heuristisch einen Schätzer N̂ = kS/s der Gesamtanzahl N,
(der auch praktisch benutzt wird).
12
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Hier ein anderes Argument, beruhend auf einem mathematischen Prinzip (Maximum-Likelihood
Schätzer). Die hypergeometrische Verteilung ordnet dem Ereignis, s markierte Fische wiederzu(S)(W )
fangen, eine Wahrsch. von p(s) = sS+Ww zu.
( s+w )
Für eine gegebene Gesamtanzahl N = S+W wird die Anzahl der wiedergefangenen markierten
Fische s häufig einen relativ großen Wert von p(s) liefern. Umgekehrt, wenn wir die Anzahl
der wiedergefangenen markierten Fische s kennen, aber nicht die Gesamtanzahl N, so werden
wir eine Gesamtanzahl N erwarten, sodaß die obige Wahrsch. groß wird. Als Schätzer wählen
wir denjenigen Wert N, der obige Wahrsch., jetzt für festes s, maximiert. Die Lösung dieser
nun mathematischen Aufgabe ist N̂ = kS
s .
¡ ¢
Multinomialkoeffizienten: Die Binomialkoeffizienten nk beschreiben die Anzahl der verschiedenen Teilungen einer n-elementige Menge in zwei Gruppen, wobei die erste Gruppe genau k
Elemente haben soll.
r
Seien n, r natürliche Zahlen und k = (k1 , . . . , kr ) ∈ ZZ≥
ein Vektor mit k1 + k2 + . . . + kr = n. Die
Multinomialkoeffizienten sind definiert durch
µ ¶
n
n!
.
:=
k
k1 !k2 ! . . . kr !
¡ ¢
Die Multinomialkoeffizienten nk geben die Anzahl der möglichen Teilungen von n numerierten
Kugeln in r numerierte Gruppen an,¡ wobei
die i−te Gruppe ki Elemente haben
soll.
¢
¡
¢ Für die
1
Auswahl der ersten Gruppe haben wir kn1 Möglichkeiten, für die zweite nur noch n−k
Möglichkeik2
¡n−k1 −k2 ¢
usw. Dies ergibt die Formel.
ten, dann
k3
Die hier betrachteten Gruppen sind numeriert, d.h. die Einteilung ist auch abhängig von der
Reihenfolge der Gruppenstärken k1 , k2 , . . . , kr . Das folgende Beispiel verdeutlicht die Wichtigkeit
dieser Unterscheidung.
Beispiel Mannschaftseinteilung: 26 Schulkinder wollen Fußball und Tennis spielen. Dazu
bilden sie zwei Mannschaften
B zu
¡ A,
¢ je 11 Spielern für Fußball und zwei Mannschaften C, D für
26
das Tennisdoppel. Es gibt (11,11,2,2)
Möglichkeiten der verschiedenen Mannschaftaufteilungen in
¡ 26 ¢ 1
A, B, C, D. Die Anzahl der verschiedenen Spielkombinationen (Paarungen) 11,11,2,2
4 ist kleiner.
Trotz verschiedener Mannschaftsaufstellung, z.B. A = {1, 2, . . . , 11}, B = {12, . . . , 22}, C =
{23, 24}, D = {25, 26} und A = {12, . . . , 22}, B = {1, . . . , 11}, C = {25, 26}, D = {23, 24},
spielen eventuell dieselben Mannschaften gegeneinander.
(vi) Multinomialverteilung Seien n, r natürliche Zahlen, p ein W-maß auf {1, . . . , r}, geschrieben als Vektor
X
p = (p1 , . . . , pr ),
pj = 1.
j
Die Multinomialverteilung zum
P Parameter (n, r, p) ist ein W-maß P auf dem Stichprobenraum {k = (k1 , . . . , kr ) ∈ IN0r | i ki = n} mit
µ ¶
n k
P (k) =
p .
k
Hierbei ist pk = pk11 pk22 . . . pknn die Multiindexschreibweise. Das Standardbeispiel ist es, n
Kugeln auf r Urnen zu verteilen. Die erste Kugel wird mit der W-verteilung p in eine Urne
gelegt, dann die zweite (unabhängig von der ersten) usw.
13
Uwe Rösler
1.3
SS98
1.3
Bedingte Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit
Heuristik: Wir betrachten nur W-räume mit endlichem oder abzählbarem Stichprobenraum.
Die W-keit eine 6 gewürfeln zu haben, wenn bereits bekannt ist, dass der Wurf 4 oder 5 oder 6
zeigt, ist 1/3. Abstrakter, wenn wir im Venn-Diagramm wie unten die Flächen der Mengen als
W-keit interpretieren, dann sollte die W-keit eines Ereignisses A unter B die gemeinsame Fläche
A ∩ B dividiert durch die Fläche des bekannten Ereignissses B sein.
$$
''
A
A∩B
B
&&
%%
Definition 1.3.1 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter dem Ereignis B
mit P (B) > 0 ist
P (A ∩ B)
.
P (A | B) =
P (B)
Sprachgebrauch: W-keit von A unter (oder gegeben) B.
Konvention: Die Verwendung des Symbols P (A | B) beinhaltet bereits die strikte Positivität der
Wahrsch. des Ereignisses B.
Rechenregeln ergeben sich aus der einfachen Feststellung, dass die Abbildung P (· | B) vom
Ereignisraum in die reellen Zahlen ein W-maß ist, das Tripel (Ω, A, P (. | B)), ist ein Wahrscheinlichkeitsraum. Ebenso ist das auf B beschränkte Tupel
(Ω>B , A|B , P|B ) = (B, {A ∩ B | A ∈ A}, PB = P (. | B))
ein W-Raum, genannt der induzierte oder auch eingeschränkte W-Raum. Ist der zugrundeliegende
W-Raum ein Laplaceraum, so auch der eingeschränkte.
Lemma 1.3.2 (Bedingte Rekursionsformel)
Für Ereignisse A, B, C mit P (B ∩ C) > 0 gilt
P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B).
Beweis: Nachrechnen.
Induktiv ergibt sich für Ereignisse A1 , . . . , An
q.e.d.
n−1
Ai ).
P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 | A1 ) . . . P (An | ∩i=1
Bsp: Lotto revisited: Wir betrachten Lottoziehen life am Fernseher. Die Zg Xi stehe für die i-te
gezogenen Zahl. Sei x1 , . . . , x6 mein Tipp bestehend aus 6 verschiedenen Zahlen aus {1, . . . , 49}.
Sei Ai das Ereignis {ω | Xi (ω) = xi }. (Wir verwenden als Kurzschreibweise hierfür Xi = xi .)
Dann werden unsere Zahlen x1 , . . . , x6 in dieser Reihenfolge gezogen mit W-keit
= P (A1 )P (A2 | A1 )P (A3 ∩ A2 ∩ A1 ) . . . P (A6 | ∩5i=1 Ai )
1 1
1
=
... .
49 48
44
Nach der i-ten Ziehung sind 49 − i Kugeln in der Urne und davon soll ich genau die vorgegebene
Kugel mit der Zahl xi+1 (Laplaceraum) ziehen.
Ist unser Tipp {x1 , . . . , x6 } ein Haupttreffer? Da es auf die Reihenfolge nicht ankommt gilt,
summieren wir über alle Permutationen π der Zahlen 1 bis 6,
X
P (Xi = xπ(i) für i = 1, . . . , 6)
P ({X1 , . . . , X6 } = {x1 , . . . , x6 }) =
P (∩6i=1 Ai )
π
=
14
k!
1
= ¡49¢
(49)6
6
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Wir erhalten jeder Tipp ist gleichwahrscheinlich.
Bsp: Bridge: Gefragt ist nach der W-keit, daß in einer Bridgehand, 52 Karten werden gleichmäßig
und zufällig auf 4 Spieler verteilt, jeder Spieler genau ein Ass erhält. Entspreche Ai dem Ereignis,
der Spieler i hält genau ein Ass in seinen 13 Karten, so folgt mit Hilfe der hypergeometrischen
Verteilung
¡ ¢¡ ¢
¡ ¢¡ ¢
P (A1 ) =
4
1
48
¢
¡5212
13
P (A3 | A1 ∩ A2 ) =
3
1
¡2¢¡24¢
¡2612
¢
1
36
¢
¡3912
P (A2 | A1 ) =
13
P (A4 | A1 ∩ A2 ∩ A3 ) = 1.
13
Unsere gesuchte W-keit ist das Produkt dieser vier Wahrsch..
1.3.1
Bayes Formel
Satz 1.3.3 (Bayes Formel) Sei der Stichprobenraum in paarweise disjunkte Ereignisse B1 , B2 , . . . ,
zerlegt, endlich oder abzählbar viele. Jedes dieser Ereignissse habe strikt positive W-keit.
Die Formel von der totalen Wahrscheinlichkeit lautet für ein Ereignis A :
X
P (Bi )P (A | Bi ).
P (A) =
i
Im Falle strikt positiver Wahrscheinlichkeit des Ereignisses A gilt die Bayes Formel
P (B1 )P (A | B1 )
P (B1 | A) = P
.
i P (Bi )P (A | Bi )
Beweis: Die erste Identität folgt aus der σ-Additivität des Wahrscheinlichkeitsmaßes
[
X
X
P (A) = P ( ◦ (A ∩ Bi )) =
P (A ∩ Bi ) =
P (Bi )P (A | Bi ).
i
i
i
Die Bayes Formel (Bayes 1763) folgt aus der Identität P (B1 | A) = P (B1 )P (A | B1 )/P (A) mit
Einsetzen von P (A) aus der Formel von der totalen Wahrscheinlichkeit.
q.e.d.
Bsp: Urnenwahl. Seien n Urnen gegeben. Die i-te Urne enthalte Si schwarze Kugeln und Wi
weiße. Zufällig wird eine Urne i mit W-keit pi ausgewählt und aus dieser eine Kugel gezogen.
Gesucht ist die W-keit für das Ereignis A, eine schwarze Kugel zu ziehen. (Präsisieren Sei Bi das
Ereignis die i-te Urne auszuwählen. Der Satz von der totalen Wahrsch. liefert
P (A) =
n
X
pi
i=1
Si
.
S i + Wi
Bsp: Reihenuntersuchung. Bereits 0,5% der Bevölkerung leidet an der Krankheit ’Ghost’. Bei
einer Reihenuntersuchung zeigen durchschnittlich 99% der Kranken eine positive Testreaktion.
Von den Gesunden zeigen rund 2% eine positive Testreaktion. Wie beunruhigend ist mein positives
Testergebnis wirklich?
Als erstes müssen wir die gegebenen Informationen sauber in ein Modell einbetten. Eine Realisierung sei ein 0 − 1 Tupel in dem Produktraum Ω := {0, 1}2 und X1 , X2 seien die Projektion auf
die erste, bzw. 2. Koordinate. Die erste Koordinate X1 = 1 bzw. 0 entspreche krank bzw. gesund
und die zweite Koordinate X2 = 1 bzw. 0 entspreche positivem bzw. negativem Testergebnis.
Obigen Angaben entsprechen präzise den Aussagen P (X1 = 1) = 0, 005, P (X2 = 1 | X1 = 1) =
0, 99, P (X2 = 1 | X1 = 0) = 0, 02. (Es gibt genau ein W-maß zu diesen Werten.) Mit Hilfe der
Bayes Formel erhalten wir das uns interessierende Resultat
P (X1 = 1)P (X2 = 1 | X1 = 1)
P (X1 = 1)P (X2 = 1 | X1 = 1) + P (X1 = 0)P (X2 = 1 | X1 = 0)
495
=
≈ 0, 2.
2485
Wie beunruhigend dies für mich wirklich ist, bleibt eine Interpretations- und Persönlichkeitsfrage.
P (X1 = 1 | X2 = 1)
=
15
Uwe Rösler
SS98
1.3
Bedingte Wahrscheinlichkeit
Unsauberes Denken
Der Umgang mit bedingten Wahrsch. im realen Leben führt durch unsauberes Denken und unzureichende Information häufig zu fehlerhaften Schlüssen. Hier zwei Beispiele:
Bsp: Diskriminierung. Folgende Zahlen deuteten auf eine sexuelle Diskriminierung weiblicher
Bewerber hin. An der Universität Berkeley wurden im Herbst 1973 von den 8442 männlichen
Bewerbern für ein Studium 44% (=3738) zugelassen. Von den 4321 weiblichen Bewerbern erhielten
nur 35% (=1494) einen Studienplatz. Dieser Unterschied erweist sich auch wissenschaftlich als
signifikant, er kann nicht allein durch Zufall ’erklärt’ werden. Da wir apriori davon ausgehen, daß
die Damen gleich qualifiziert und leistungsfähig sind, liegt nur der Schluß einer sexuellen negativen
Diskriminierung nahe.
Um die Hauptquelle der negativen Diskriminierung ausfindig zu machen, sehen wir uns die Daten
nach Fächern aufgelistet an. In den hundert Fächern gibt es bei einigen eine leichte Bevorzugung
der Männer, bei anderen eine leichte Bevorzugung der Frauen. Insgesamt aber eher eine Bevorzugung
der Frauen. Die folgende Liste der sechs Fächer mit den meisten Bewerbern gibt diese Tendenz
gut wieder.
Fach
1
2
3
4
5
6
Studienzulasssungszahlen
männlich
weiblich
Bewerbungen % Zulassungen Bewerbungen % Zulassungen
825
62
108
82
560
63
25
68
325
37
593
34
417
33
375
35
191
28
393
24
373
6
341
7
Auch bei Zugrundelegung dieser Liste ist der Anteil der akzeptierten männlichen mit 44,5%
signifikant höher als der der weiblichen mit 32%. Wo liegt die Erklärung?
Die ersten beiden Fächer haben relativ hohe Zulassungsraten. Hier gibt es einen hohen Anteil an
männlichen Bewerbern, jedoch nur einen niedrigen an weiblichen. In den nächsten drei Fächern
war die Zulassungsquote eher klein, der weibliche Anteil aber überproportinal groß.
Selbst wenn in jedem Fach die Frauen deutlich bevorteilt werden, kann insgesamt der prozentual
zugelassene Anteil der Männer wesentlich höher sein. Wir wollen uns dies am Beispiel zweier
Fächer A und B verdeutlichen. Sei Z die Menge der zugelassenen Personen und M (F ) die Menge
der sich bewerbenden Männern (Frauen) M (F ). Wir wollen strikte Bevorzugung der Frauen in
jedem Fach annehmen,
P (Z ∩ M | A ∩ M ) < P (Z ∩ F | A ∩ F )
P (Z ∩ M ∩ | B ∩ M ) < P (Z ∩ F | B ∩ F ).
Die geschlechterspezifischen Gesamtzahlen der Zulassung ergeben sich mit Hilfe der totalen Wahrscheinlichkeiten,
P (Z ∩ M | M ) = P (A | M )P (Z ∩ M | M ∩ A) + P (B | M )P (Z ∩ M | M ∩ B)
P (Z ∩ F | F ) = P (A | F )P (Z ∩ F | F ∩ A) + P (B | F )P (Z ∩ F | F ∩ B).
Wir betrachten den Extremfall, die einzige weibliche Bewerberin für das Fach A erhält einen
Studienplatz, der einzige männliche Bewerber für das Fach B erhält keinen. In jedem Fach werden
die Frauen bevorzugt (und damit diskriminiert, wenn auch positiv.) Durch Wahl der Zulassungsraten
für die Fächer ergäben sich beliebig große ’Diskriminationen’ für die Frauen
P (Z ∩ M | M ) =
P (Z ∩ F | F ) =
|M | − 1
P (Z ∩ M | M ∩ A)
|M |
1
|F | − 1
+
P (Z ∩ F | F ∩ B).
|F |
|F |
Die Beobachtung, Frauen haben eine Tendenz sich für Fächer mit geringerer Zulassungsquote zu
bewerben, ist eine plausible ’Erklärung.’ Jeder Leser wird zu dieser Aussage eigene Erfahrungen
16
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
und ’Erklärungen’ haben, vielleicht auch Analogien sehen. Dies führt uns jedoch zu weit in die
reale Welt.
Bsp: Von Autos und Ziegen: Der Sieger einer Quizshow gewinnt den hinter einer Tür versteckten
Preis. Hinter einer der drei Türen ist ein Auto, hinter den anderen sind Ziegen. Der Sieger darf
eine Tür wählen und soll das dahinter versteckte Objekt erhalten. Nach der Wahl des Kandidaten
öffnet der Moderator jedoch erst eine der nichtgewählten Türen, hinter der eine Ziege erscheint. Der
Moderator bietet dem Kandidaten einen Wechsel seiner Türwahl an. Wie wäre Ihre Entscheidung?
Wenn wir davon ausgehen, daß der Showmaster stets eine Ziege präsentiert, sei es gezwunge-nermaßen oder aus Sympathiegründen, sollte der Kandidat seine Wahl ändern. Die anfangs gewählte
Tür zu öffnen behält die Wahrsch. von 1/3 das Auto zu verdecken bei. Das Auto steht hinter der
verbliebenen Tür mit Wahrsch. 2/3.
Mathematisches Modell: Das mathematische Modell ist aus der Sicht des Kandidaten zum
Zeitpunkt seiner zweiten Entscheidung. Als geeigneten (=hinreichend großen) Grundraum wählen
wir Ω = {1, 2, 3}3 mit der Potenzmenge als σ-Algebra. Die erste Koordinate X1 gibt die Tür an,
hinter der das Auto steht. Die zweite Koordinate X2 gibt die Wahl des Kandidaten an. Die dritte
Koordinate gibt die vom Quizmaster geöffnete Tür an. Wir benutzen Xi = j für das Ereignis aller
ω mit Xi (ω) = j.
Jetzt müssen wir ein (das) geeignetes W-maß P angeben, aus Sicht des Kandidaten. Der Kandidat
möchte seine Entscheidung X2 so wählen, daß P (X1 = X2 ) möglichst groß wird. Der Kandidat hat zum Zeitpunkt seiner ersten Wahl keine Vorinformation (und ist kein Prophet), welche
Tür das Auto verdeckt. Jede Prozedur, eine Tür zu wählen oder das Auto zu verstecken, ist
gleichgut mit einer, bei der die Türen permutiert sind. Durch Mittelung, erst eine Permutation
und dann nach vorgegebener Prozedur eine Tür zu wählen, ebenso gut. Dies führt auf den Ansatz
der Gleichverteilung von X1 und X2 . Ferner modellieren wir mit Unabhängigkeit, d.h. P (X1 =
i, X2 = j) = P (X1 = i)P (X2 = j).
Zur weiteren Bestimmung des W-maßes P benötigen wir einige Modellannahmen zum Verhalten
des Moderators. Die ’natürlichen’ Annahmen wären: Der Moderator kennt die Tür X1 mit dem
Auto und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen
2 Türen hat, so wählt er zufällig mit Gleichverteilung eine der Türen, z.B. durch Münzwurf.
Damit sind alle W-keiten P (X3 = k | X1 = i, X2 = j) jetzt wohlbestimmt und das W-maß P
eindeutig gegeben,
P ((i, j, k)) = P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | (X1 = i, X2 = j).
Zum Zeitpunkt der zweiten Wahl sind X2 und X3 bekannt. Der Einfachheit halber sei X2 = 1 und
X3 = 2, die anderen Fälle liefern aus Symmetriegründen das gleiche Resultat.
P (X1 = X2 | X2 = 1, X3 = 2)
=
=
=
P (X1 6= X2 | X2 = 1, X3 = 2)
P ((1, 1, 2))
P (X2 = 1, X3 = 2)
P (X1 = 1)P (X2 = 1 | X1 = 1)P (X3 = 2 | X1 = 1, X2 = 1)
P ((1, 1, 2)) + P ((2, 1, 2)) + P ((3, 1, 2))
111
332
111
332
+0+
11
3 31
=
1
3
= 1 − P (X1 = X2 | X2 = 1, X3 = 2) =
2
.
3
Der Kandidat sollte eindeutig seine Entscheidung ändern.
Wie ändern sich die Wahrscheinlichkeiten, wenn die Annahmen den Moderator betreffend nicht
zutreffen.
Annahme 1: Der Moderator kennt die Tür mit dem Auto dahinter und öffnet immer(!) eine
nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er stets
diejenige mit der kleinsten Nummer mit einer Wahrscheinlichkeit p.
Annahme 2: Der Moderator kennt nicht die Tür mit dem Auto dahinter und öffnet zufällig eine
der verbleibenden Türen. Dahinter erscheint eine Ziege.
17
Uwe Rösler
SS98
1.3
Bedingte Wahrscheinlichkeit
Annahme 3: Der Moderator kennt die Tür mit dem Auto dahinter. Er gönnt dem Kandidaten nicht
das Auto. Der Moderator öffnet nur eine Tür, hinter der eine Ziege erscheint, wenn der Kandidat
zuerst die Tür mit Auto gewählt hatte. (Zonk)
Annahme 4: Der Knadidat wählt für X2 nicht die Gleichverteilung.
(Auflösung: In den Fällen 1 und 2 sollte der Kandidat wechseln. Im Fall 3 nicht. Argument? Die
Wahl von 4 ändert nichts an der Argumentation, solange....)
Bsp: Die drei Todeskandidaten:
Die Originalvorlage ist meines Wissens nach von Martin Gardner. Drei Gefangene sitzen in einer
Todeszelle. Genau einer der Kandidaten soll morgen hingerichtet werden. Keiner der Gefangenen
weiß, wer es ist. Der Gefangene A fragt den Wärter, wer morgen hingerichtet wird. Der Gefängniswärter,
der den Namen kennt, sagt stets die Wahrheit. Er antwortet: Ich darf den Namen nicht verraten.
”
Aber ich darf versichern, daß es nicht der Gefangene B ist.“Wie groß ist jetzt die W-keit, daß
morgen A hingerichtet wird? Tippen Sie auf 1/3 oder auf 1/2? Welche Argumente würden Sie
anführen?
Informationsbegriff: Es erhebt sich die grundsätzliche Frage, wieviel ’Information’ in der Antwort
des Wärters enthalten ist.
Noch weitergehend, durch geschickte Auswahl von objektiv richtiger Information kann der Wärter
die subjektiven W-keiten des Todeskanditen bewußt beeinflussen. Überlegen Sie sich mögliche
Auswirkungen und Informationsstrategien in Gerichtsprozessen oder den Einfluß gezielter (wahrer) Informationsweitergabe auf Aktienkurse.
1.3.2
Konstruktion von W-Räumen
1.3.3
Wahrscheinlichkeitsbäume
Alle obigen Beispiele haben das gleiche Bildungsschema via Wahrscheinlichkeitsbäumen bzw.
Familienbäumen.
Sei V = supn∈IN S n die Menge aller echten endlichen Folgen mit Werten in S, S endlich oder
abzählbar. (Konvention S 0 = {∅}.) Wir schreiben v = (v1 , v2 , . . . , vn ) oder einfacher v = v1 v2 . . . vn .
Wir verwenden einen familiennahen Sprachgebrauch, wie vi ist das i-te Kind von v und v das
Eltern von vi, vw ist ein Nachkomme von v und v ist ein Vorfahre von vw. Die Generation von v
entspricht der Länge |v| = n des Tupels. Die Einschränkung von v auf die ersten m−Generationen
ist v|m = v1 . . . vm .
Ein Element von V wird Knoten oder Individuum, im Englischen vertex, genannt. Ein Baum
ist eine nichtleere Teilmenge W von V, sodass jedes Individuum aus W auch alle seine Vorfahren
in W hat. Ein Element w ∈ W ohne Nachkommen in W heis̈t Blatt.
Ein Wahrscheinlichkeitsbaum ist ein Baum W versehen mit Kantengewichten p(w, wi) auf den
Kanten (w, wi) ∈ W 2 im Baum, mit
– p(w,
P wi) ≥ 0,
– wi∈W p(w, wi) = 1 falls w aus dem Baum und kein Blatt ist.
Definiere dazu die Pfadgewichte L : W → IR durch L(∅) = 1 und rekursiv
L(wi) = L(w)p(w, wi).
Diese heißen Pfadgewichte, da Pfade von der Wurzel ∅ nach w mit w identifiziert werden. L(w)
ist das Produkt der Kantengewichte längs des Pfades von der Wurzel nach w.
Proposition 1.3.4 Sei W ein Wahrscheinlichkeitsbaum. Die Menge Ω der Blätter (Namen) versehen
mit den W-keiten
P ({v}) = L(v)
P
und P (A) = v∈Ω L(v) bildet eine W-raum.
Bew: Es reicht zu zeigen P (Ω) = 0. Dies geschieht durch Induktion. (Übung).
q.e.d.
Ein Ereignisbaum ist ein Baum W versehen mit einem Ereignisvektor A : W → Ω, sodass gilt
– A(∅) = Ω,
S
– A(w) = ◦ wi∈W A(wi) falls w aus dem Baum und kein Blatt ist.
18
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Proposition 1.3.5 Jeder Ereignisbaum liefert einen W-baum, indem wir p(v, vi) = P (A(vi) |
A(v)) setzen. Es ergeben sich die Pfadgewichte L(v) = P (A(v)).
Umgekehrt, zu jedem W-baum können wir einen Ereignisbaum auf einem geeigneten W-raum
konstruieren.
Bew: Der erste Teil folgt durch nachrechnen.
Für den zweiten wähle als Stichprobenraum Ω alle Blätter des Baumes, als Ereignisraum A
die Potenzmenge und das W-mass eines Blattes w wird eindeutig durch das Pfadgewicht L(w)
bestimmt. Die Ereignisse A(w) sind die Menge der Blätter, die Nachfahre des Individuums w sind.
q.e.d.
Die Modellierung bzw. Konstruktion von W-bäumen geschieht von der Wurzel her via einem
Ereignisbaum und Bestimmung der bedingten W-keiten P (A(vi) | A(v)).
³
³³
³³
)³
³
0u
¡@
¡
@
ª
¡
Ru01
@
00 u
¢A
¢A
¢ A
¢ A
u
u
¢®
Uu
A
¢®
UAu
u
³³ PPP
PP
PP
qu1
¡@
¡
@
ª
¡
Ru11
@
10 u
¢A
¢A
¢ A
¢ A
u
¢®
AUu101 u
AUu
¢®
PP
Polya’s Urnenmodell: In einer Urne befinden sich S schwarze und W weiße Kugeln. Nach
jeder der k zufälligen Ziehungen werden c + 1 ∈ IN Kugeln der gleichen Farbe zurückgelegt. Der
Fall c = −1 entspricht einem Urnenmodell ohne Zurücklegen und c = 0 einem mit Zurücklegen.
(Meine mathematischen Bäume wachsen nach unten.)
Wir betrachten einen binären Baum der Tiefe k. An jeder Verzweigung steht der linke Ast für
das Ziehen einer weißen Kugel (0 für weiß), der rechte Ast für eine schwarze (1). Dies liefert die
Namen der Knoten. Der zugehörige Ereignisbaum ordnet jedem Namen v das Ereignis A(v) zu,
in der Reihenfolge v1 , v2 , . . . , v|v| weiße bzw. schwarze zu ziehen. Mathematisch modellieren wir
durch die Menge {0, 1}k der Blätter und setzen A(v) als die Menge der Blätter, die Nachfahre
von v sind. Dies ist der Ereignisbaum. Die Kantengewichte p(v, vi) = P (A(vi) | A(v)) erhalten
wir durch das Ziehen einer i-farbigen Kugel aus einer Urnen mit zur Vorgeschichte v entsprechend
P|v|
farbigen Kugeln (S + c i=1 (vi ) schwarze von S + W + c|v| Kugeln). Die Kantengewichte sind
bedingte W-keiten. Dies liefert den W-baum.
Proposition 1.3.6 Für das Polyasche Urnenmodell ist das W-maß P auf Ω := {0, 1}k gegeben
durch
Qs−1
Qk−s−1
(W + jc)
i=0 (S + ic)
j=0
.
P ({(ω1 , ω2 , . . . , ωk )}) =
Qk−1
l=0 (S + W + lc)
Pk
Hierbei ist s := i=1 ωi die Gesamtzahl der gezogenen schwarzen Kugeln. P (ω) ist permutationsinvariant.
Beweis: Sei die Realisierung (v1 , v2 , . . . , vk ). Definiere die Ereignisse Ai := {j1 } × {j2 } × . . . ×
{ji } × {0, 1} × . . . × {0, 1} ⊂ Ω durch Festlegen der ersten i Koordinaten. Die Wahrsch. von Ai+1 ,
gegeben
PiA1 , . . . , Ai entspricht der Wahrsch. aus einer Urne mit S + W + ic Kugeln, davon sind
S + c l=1 vl Kugeln schwarz, eine Kugel mit der Farbe vi+1 zu ziehen. In Formeln ausgedrückt
ergibt dies im Fall vi+1 = 1,
Pi
S + c l=1 vl
.
P (Ai+1 | A1 ∩ . . . ∩ Ai ) =
S + W + ic
Der Durchschnitt aller dieser Ereignisse enthält genau die gewählte Realisierung. Das Lemma 1.3.2
ergibt die Behauptung.
Die Modellkonstruktion des Ziegenproblems ist von Baumgestalt.
19
Uwe Rösler
SS98
1.3
Bedingte Wahrscheinlichkeit
Beispiel 1.3.7 (Ziegenproblem revisited) Der Baum W besteht aus allen Folgen der Zahlen
1, 2, 3 mit Länge höchstens 3. (Die leere Folge entspricht ∅.) Die Blätter sind die Folgen aus
W mit Länge 3. Der Stichprobenraum ist {1, 2, 3}3 . A(i) entspricht dem Ereignis hinter der iten Tür ist das Auto. A(i, j) entspricht dem Ereignis hinter der i-ten Tür ist das Auto und der
Kandidat wählt die j-te Tür. A(i, j, k) entspricht A(i, j) und zusätzlich öffnet der Moderator die
k-te Tür. Die Zuordnung der Wahrscheinlichkeiten geschieht nun von der Wurzel her. Jede der
Mengen A(i) erhält die W-keit 1/3. Gegeben A(i) erhält A(i, j) die W-keit 1/3. Für die W-keiten
P (A(i, j, k) | A(i, j)) haben wir eventuelle Freiheiten, wie in den Fallunterscheidungen angegeben.
Beispiel Duell: In einigen Spielen, gerade den neueren Spielen für Erwachsene, hat der technisch
beste Spieler die schlechtesten Chancen zu gewinnen. Drei Spieler A,B und C wollen sich mit
Pistolen duellieren. Es soll jeweils reihum ein Schuß in der zyklischen Reihenfolge A,B,C abgegeben
werden bei freier Zielwahl. Es wird solange geschossen, bis ein befriedigter Sieger feststeht (oder
nach 3 Runden beendet.)
Der schlechteste Schütze A trifft in rund 50% aller Fälle, der Spieler B hat Trefferquote von 80%
und Spieler C trifft immer. Spieler A beginnt. Die Spieler B und C versuchen stets den verbliebenen
Spieler mit der größten Trefferw-keit zu erschiessen.
Welche Strategie sollte A verwenden und wie sind die Überlebenswahrscheinlichkeiten der Duellanten.
(Erstelle einen W-baum mit den bedingten W-keiten als Übergangskerne. Was passiert, wenn das
Schlitzohr A als erstes in die Luft schießt?)
Die Idee der W-bäme läs̈t sich leicht auch für nichtendliche Bäume ausdehnen.
1.3.4
Produkträume
Ein weiteres Beispiel mit eigenständiger Bedeutung von W-keitsbäumen sind die Produkträume.
Produktraum: Seien (Ω1 , Pot(Ω1 ), P1 ), . . . , (Ωn , Pot(Ωn ), Pn ) diskrete W-Räume. Auf dem Produktraum Ω := Ω1 × Ω2 × . . . × Ωn definieren wir das Produktmaß P durch
P ({(ω1 , . . . , ωn )}) =
n
Y
i=1
Pi ({ωi }).
Der W-Raum (Ω, ¶(Ω), P ) heißt Produktraum, oder auch Produktwahrscheinlichkeitsraum.
. (Übung: Gebe einen zugehörigen W-baum und W-ereignisbaum an.)
Proposition 1.3.8 Für Ai ∈ Pot(Ωi , i = 1, . . . , n gilt
P (A1 × A2 × . . . × An ) =
Y
Pi (Ai ).
i
P
P
q.e.d.
Beweis: Beide Seiten sind gleich ω1 ∈A1 . . . ωn ∈An P1 ({ω1 }) . . . Pn ({ωn }).
Bsp: Wright-Fisher. DNS wird durch Vererbung weitergegeben. Gegeben sei eine feste Bevölkerungsgröße
von Individuen. Jedes Individuum der neuen Generation ’sucht’ sich ein Individuum aus der
vorhergehenden Generation als Eltern aus (und übernimmt dessen Meinung, DNS,...). Das WrightFisher modelliert durch Gleichverteilung (Sodom und Gomorrha) auf den Individuen der vorhergehenden
Generation. Frage, gibt es einen gemeinsamen ersten Vorfahren.
13j
12j j j j
j
11
10 8 9
14j
j
j
j
j
j
j
j
6 7 5 1 4 2 3
Mathem. Modell: Sei S die endliche Menge der Individuen und oEdA {1, . . . , N }. Sei F die
Menge der Funktionen von S in sich. Zu vorgegebener
Verteilung (Gleichverteilung im WrightQn
Fisher Modell) ν auf F sei (Ω = F n , P(F n ), i=1 ν) der Produktraum und Xi sei die i-te
20
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Projektion. (Wir betrachten maximal n Generationen rückwärts.) Das Hauptobjekt ist der Prozess
Yi = Xi ◦ Xi−1 . . . X1 . (Formal definiert als Abbildung ω 7→= (Xi (ω))((Xi−1 (ω))(. . .)(X1 (ω)) . . .))
und unterdrücke in der Schreibweise das ω ∈ Ω.) Für festes s hat (Yi (s))i , 1 ≤≤ n (formal
definiert als Abbildung ω 7→ (Yi (ω))(s) ∈ S und dann das ω unterdrückt) die Interpretation
als i-ter Ahne von s aus der jetzigen Generation. (Mathematisch heißt die Folge Yn ein iteriertes
Funktionensystem, IFS.)
Im Wright-Fisher Modell haben alle Individuen, falls wir weit genug in die Vergangenheit blicken
können, einen ersten gemeinsamen Vorfahren. Auf DNS bezogen, sind alle Kopien voneinander.
Interessant wird das Modell durch die Erweiterung, wobei von dem Eltern die DNS mit zufälligen
Änderungen (=Mutationen) übernommen werden. Falls wir die Anzahl der Änderungen schätzen
können, lassen sich Fragestellungen nach Verwandtschaftsgraden und Stammbäumen von verschiedenen
Arten beantworten.
Übergangskerne*
Die zugrundeliegende Idee der W-bäume und auch der Produkträume sind Übergangskerne. Wir
wollen dies formalisieren.
Seien Ω, Ω0 zwei endliche oder abzählbare Mengen. Ein Übergangskern K, oder auch Wahrscheinlichkeitskern von Ω nach Ω0 ist eine Abbildung K : Ω × P(⊗0 ) 7→ IR+ , mit K(ω, ·) ist ein W-maß
auf Ω0 für alle ω ∈ Ω.
Das Standardbeispiel eines Übergangskerns ist zweimaliges Würfeln. Sei Ω = Ω0 = {1, 2, . . . , 6}
und K(i, {j}) die bedingte
P Wahrscheinlichkeit, daß der zweite Wurf zeigt j gegeben der erste Wurf
zeigt i. Mit K(i, A0 ) = j∈A0 K(i, {j}) erhalten wir einen Übergangskern.
Übergangskerne spielen bei der Konstruktion von W-Räumen die Rolle von bedingten Wahrscheinlichkeiten.
Sei (Ω1 , Pot(Ω1 ), P1 ) ein diskreter W-raum und K ein Übergangskern von Ω1 nach Ω2 versehen
mit der Potenzmenge. Auf dem Stichprobenraum Ω = Ω1 × Ω2 versehen mit der Potenzmenge als
Ereignisraum definieren wir das W-mas̈ P durch
= P1 ({ω1 })K(ω1 , {ω2 })
X
P ({a}).
P (A) =
P ({(ω1 , ω2 )})
a∈A
(Übung: P ist ein W-mas̈.)
Diese Konstruktion läs̈t sich durch weitere Übergangskerne erweitern.
Proposition 1.3.9 Gegeben seien endliche oder abzählbare Mengen Ω1 , . . . , Ωn ein W-maß P1
auf Ω1 und Übergangskerne
i−1
Y
Ωj ) × Ωi → IR
Ki : (
j=1
für 2 ≤ i ≤ n. Dann ist Ω =
Qn
i=1
Ωi versehen mit
P ({(ω1 , . . . , ωn }) = P1 ({ω1 })
n
Y
i=2
K((ω1 , . . . , ωi−1 ), {ωi })
ein W-raum.
Qi
Bew: Konstruiere rekursiv Pi auf j=1 Ωj durch Pi−1 und den Übergangskern Ki .
(Übung: Modelliere Polyas Urnenmodell durch Übergangskerne.)
1.3.5
Markoffketten
Sei S endlich oder abzählbar.
21
q.e.d.
Uwe Rösler
SS98
1.3
Bedingte Wahrscheinlichkeit
Definition 1.3.10 Eine stochastische Matrix auf S ist eine Matrix P = (pi,j )i,j∈S mit positiven
Einträgen und die Summe jeder Zeile ist 1,
X
pi,j = 1
j∈S
für alle i ∈ S.
Eine stochastische Matrix liefert einen Übergangskern via
K(i, {j}) = pi,j
und umgekehrt.
Zu vorgegebenem W-maß µ auf S definiere ein W-maß Pµ auf dem Stichprobenraum S N durch
Pµ ((i1 , i2 , . . . , iN )) = µ({i1 })pi1 ,i2 pi2 ,i3 . . . piN −1 ,iN .
P
(Dies liefert mit P (A) = i∈A P ({i}) ein W-maß.) Sei Xn : S N → S die n-te Projektion.
Not: X = i ist eine Kurzschreibweise für die Menge X −1 (i) = {ω | X(ω) = i}. Die Trennung durch
Kommata steht für den Durchschnitt bzw. ein logisches und bei der Interpretation als Aussagen.
Proposition 1.3.11 Im obigen Modell gilt
P (X1 = i1 , X2 = i2 , . . . , Xn = in ) = µ({i1 })pi1 ,i2 pi2 ,i3 . . . pin−1 ,in
P (Xn = i, Xn+1 = j) = P (Xn = i)pi,j
P (Xn+1 = j | Xn = i) = pi,j
Bew:
P (X1 = i1 , X2 = i2 , . . . , Xn = in )
=
X
P (X1 = i1 , X2 = i2 , . . . , Xn = in , Xn+1 = in+1 . . . XN = iN )
in+1 ,...,iN ∈S
=
X
in+1 ,...,iN ∈S
=
µ({i1 })
µ({i1 })
X
µ({i1 })
X
µ({i1 })
in+1 ,...,iN −1 ∈S
=
in+1 ,...,iN −2 ∈S
...
= µ(i1 )
n−1
Y
pij ,ij+1
j=2
X
in+1 ,...,iN −1 ∈S
=
N
−1
Y
N
−2
Y
pij ,ij+1 )(
j=2
N
−2
Y
X
iN ∈S
piN −1 ,iN )
pij ,ij+1
j=2
N
−3
Y
pij ,ij+1
j=2
pij ,ij+1
j=2
P (Xn = in , Xn+1 = in+1 )
=
X
P (X1 = i1 , X2 = i2 , . . . , Xn = in , Xn+1 = in+1 )
i1 ,...,in−1 ∈S
=
X
i1 ,...,in−1 ∈S
=
pin ,in+1
µ({i1 })
X
i1 ,...,in−1 ∈S
=
P (Xn+1 = j | Xn = i)
=
n
Y
pij ,ij+1
j=2
µ({i1 })
n−1
Y
j=2
pin ,in+1 P (Xn = in )
P (Xn+1 = j, Xn = i)
= pi,j .
P (Xn = i)
22
pij ,ij+1
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
q.e.d.
Definition 1.3.12 Eine Markoffkette mit Zustandsraum S ist eine Folge von Funktionen Xn :
Ω → S, n ≤ N auf einem W-raum mit der Markoffeigenschaft
P (Xn+1 = j | Xn = i) = P (Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X1 = i1 )
für alle n < N, i, j, i1 , . . . , in−1 ∈ S.
Der obige Prozess zu vorgegebener stochastischer Matrix P und Anfangsverteilung µ ist eine
Markoffkette. Umgekehrt, ist X = (Xn )n eine Markoffkette, so können wir die stochastische Matrix
pi,j = P (Xn+1 = j | Xn = i) und das Anfangsmaß µ({i}) = P (X1 = i) wiedergewinnen.
(Eventuell muß die erhaltene Matrix ergänzt werden.) Gilt Ω = S N , so sprechen wir von dem
kanonischen W-raum.
Eine stochastische Matrix wird gerne als ein gewichteter Graph (V, E) dargestellt. Dabei sind
die Knoten die Zustände (V = S) und die Kanten sind diejenigen Tupel (i, j) mit pi,j > 0. Ein
Markoffgraph ist der obige Graph mit den Kantengewichten E 3 (i, j) 7→ pi,j . Bildlich malen
wir einen Pfeil von i nach j und schreiben den Wert pi,j daran.
Bsp: Markoffgraph. S = {1, 2, 3, 4} mit


1/2 1/2
0
0
¾» ¾» ¾» ¾»
 1/2 1/2
0
0 

P =
 0
1/4 1/2 1/4 
6
6
6
6
u¾
u¾
u
u
½¼
½¼
½¼
½¼
0
0
0
1
Bsp: Peter und Paul. Peter und Paul werfen die Münze. Der Gewinner bekommt eine Einheit
von dem anderen. Jeder fängt mit einem Startkapital an und darf solange spielen, bis er pleite ist
oder N Teilspiele gespielt sind.
Mathem. Modell: Sei x0 das Anfangskapital von Paul und K das Gesamtkapital beider. Wir
modellieren das Kapital Xn von Paul nach dem n-ten Spiel durch eine Markoffkette zu der
stochastischen Matrix pi,i+1 = 1/2 = pi,i−1 für i = 1, . . . , K − 1 und p0,0 = 1 = pK,K . Das
Anfangsmaß ist das Punktmaß δx0 , δx0 (A) = 11x0 ∈A auf x0 .
(Übung: Wie sieht der Graph der Markoffkette aus?)
Bsp: Polyas Urnenmodell. Um Polyas Urnenmodell als Markoffkette zu simulieren, setzen wir
+S+sc
S = ∪ki=1 {0, 1}i als Stichprobenraum, µ({0}) = WW+S = 1 − µ({1}), px,x1 = WW+S+|x|c
mit |x| < k
P|
die Länge von x und s = i=1 x|xi und px,x = 1 für |x| = k.
(Übung: Wie sieht der Graph der Markoffkette aus.)
Bsp: Wright-Fisher. Im Wright-Fisher Modell ist die Ahnenreihe Yn (s) eine Markoffkette. Der
Zustandsraum ist S und die Übergangsmatrix ist
pi,j = P ({ω | (X(ω))(i) = j}) = ν({f ∈ F | f (i) = j}).
23
Uwe Rösler
1.4
1.4.1
SS98
1.4
Diverses
Diverses
Die Einschluß-Auschluß Formel
Satz 1.4.1 (Einschluß-Ausschluß Formel) Seien Ai , i ∈ I, endlich viele Ereignisse. Es gilt
die Einschluß-Ausschluß Formel
\
X
[
(1.1)
(−1)1+|J| P ( Ai ).
P ( Ai ) =
i∈J
J⊂I
i∈I
Beweis: Wir führen einen Induktionsbeweis nach der Anzahl n der Elemente in der Indexmenge
I. Die Aussage gilt für n = 1 und für n = 2,
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).
Im Induktionsschritt zeigen wir die Aussage für n + 1, vorausgesetzt für n ist die Aussage richtig.
n+1
[
P(
Ai ) = P (
n
[
i=1
i=1
=
Ai ) + P (An+1 ) − P ((
X
i=1
(−1)1+|J| P (
X
\
Ai ) ∩ An+1 )
Aj ) + P (An+1 ) −
j∈J
J⊂{1,...,n}
=
n
[
(−1)1+|K| P (
\
X
J⊂{1,...,n}
(−1)1+|J| P (
\
j∈J
(Aj ∩ An+1 ))
Ak ).
k∈K
K⊂{1,...,n+1}
Die letzte Summe wird aufgeteilt in die drei Summen über diejenigen K mit K ⊂ {1, . . . , n}, mit
K = {n + 1} und K enthält {n + 1} ist aber ungleich.
T
Bemerkung In vielen Anwendungen ist P ( i∈J Ai ) nur von der Mächtigkeit |J| von J abhängig.
Die Einschluß-Ausschluß Formel vereinfacht sich zu
µ ¶
n
n
[
X
n
P ( Ai ) =
(−1)1+k
ak
(1.2)
k
i=1
k=1
Tk
mit ak := P ( i=1 Ai ).
Beispiel
Tanzparty: Bei einer Tanzparty mit n Ehepaaren werden die Tanzpartnerinnen zufällig zugelost.
Mit welcher Wahrsch. werden zwei Ehepartner zusammengelost?
Wenn wir die Ehepaare numerieren, so ist eine Auslosung eine zufällige Permutation π der Zahlen
1 bis N, der Herr k tanzt mit der Dame π(k). Der Stichprobenraum der Permutationen ist
ein Laplaceraum, alle Permutationen sind gleichwahrsch. Gefragt ist nach der Wahrsch. eine
Permutation π mit einem Fixpunkt π(x) = x zu wählen.
Die Ereignisse Ak , der Herr k tanzt mit Dame k, sind die Permutationen π auf I := {1, 2, . . . , N }
mit Fixpunkt k. Insgesamt gibt es (n! verschiedene Permutationen. Die Wahrsch. der Permutationen
mit vorgeschrieben Fixpunkten J ⊂ I ist
P(
\
Aj ) =
j∈J
(n − |J|)!
.
n!
Die Einschluß-Ausschluß Formel liefert
P(
[
i∈I
Ai ) =
n
X
(−1)1+k
k=1
24
k!
.
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Die Wahrsch. der Auslosung einer Tanzpaarung, in der kein Ehepaar miteinander tanzt ist
P(
\
Aci )
i∈I
= 1 − P(
[
i∈I
Im Grenzwert n → ∞, beachte e−x =
gegen den Wert 1e echt größer Null.
P∞
xn
n=0 n! ,
Ai ) = 1 −
n
X
(−1)1+k
k!
k=1
.
strebt diese Wahrscheinlichkeit (überraschenderweise)
Es gibt viele Varianten der obigen Problemstellung. Zum Beispiel zur Weihnachtsfeier bringt jeder
Teilnehmer ein Geschenk mit, das später unter den Teilnehmern ausgelost wird. Die ursprüngliche
Problemstellung von de Montmort (1713) behandelt die Zulosung von n Karten zu n Spielern.
Lemma 1.4.2 (Bonferoni Ungleichung) Seien An , n ∈ IN Ereignisse. Es gilt
X
X
X
P (An ) −
P (Am ∩ An ) ≤ P (∪n An ) ≤
P (An ).
n
m<n
n
Allgemeiner, für 1 ≤ k ≤ n
[
(−1)k (P ( An ) −
n
X
(−1)1+|J| P (
\
j∈J
J⊂I, |J|≤k
Aj )) ≤ 0.
Beweis:
Betrachte
Bn := An \(A1 ∩ . . . ∩ An−1 ). Die Ereignisse Bn sind paarweise disjunkt,
S
S
i≤n Ai = ◦ i≤n Bi und Bn ⊂ An . Damit
[
[
X
P ( An ) = P ( ◦ Bn ) =
P (Bn ).
n
n
n
Die zweite Ungleichung in der ersten Zeile folgt aus der Monotonie P (Bn ) ≤ P (An ). Für die erste
argumentiere
n−1
[
P (Bn ) = P (An ) − P (
i=1
(Ai ∩ An )) ≤ P (An ) −
n−1
X
i=1
P (Ai ∩ An ).
q.e.d.
Bemerkung 1.4.3 Obige Bonferoni-Ungleichung ist nur der einfachste Fall der allgemeineren
Ungleichung
\
X
[
Aj )) ≤ 0
(−1)1+|J| P (
(−1)k (P ( An ) −
n
J⊂I, |J|≤k
j∈J
für 1 ≤ k ≤ n.
1.4.2
Besondere Aufgaben
In einem Duell ist die Wahl der Waffen vorteilhaft. In vielen Spielsituationen ist die erste Wahl
oder der erste Zug vorteilhaft. Dies ist nicht immer so.
Beispiel
Der Beste: Auf dem Tisch liegen drei Würfel, beschriftet mit den Zahlen (6, 6, 3, 3, 3, 3), (5, 5, 5, 2, 2, 2)
und (4, 4, 4, 4, 4, 1). Spieler A läs̈t Spieler B die erste Wahl eines Würfels und wählt anschlies̈end
einen verbleibenden. Dann wird gewürfelt und der Spieler mit der höheren Augenzahl gewinnt.
Wer ist im Vorteil? Welche Seite nehmen Sie, A oder B.?
Auflösung: Im direkten Vergleich gewinnt der erste Würfel gegen den zweiten mit Wahrsch. 24/36,
der zweite gegen den dritten mit Wahrsch. 21/36 und der dritte gegen den ersten mit Wahrsch.
20/36. Es ist ein Nachteil als Erster einen Würfel zu wählen. In diesem Beispiel gibt es keinen
absolut besten Würfel.
25
Uwe Rösler
1.5
SS98
1.5
Konzept: Unabhängigkeit
Konzept: Unabhängigkeit
Der Konzept der stochastischen Unabhängigkeit ist ein ganz wesentlicher Bestandteil der Stochastik.
Dieses Konzept ermöglicht erst in seinen Konsequenzen den Aufbau einer Wahrscheinlichkeitstheorie.
Geschichtlich gesehen wurde eine präzise mathematische Formulierung der Unabhängigkeit recht
spät gegeben, erst im 20-ten Jahrhundert.
Heuristik: Zwei Ereignisse A, B sind unabhängig, falls die Wahrsch. für das Eintreten von A
nicht von der Kenntnis des Eintretens oder Nichteintretens des Ereignisses B abhängt. Diese
Überlegung führt auf den Ansatz P (A | B) = P (A) bzw. P (B | A) = P (B).
Definition 1.5.1 (unabhängig) Zwei Ereignisse A und B heißen paarweise unabhängig , falls
die W-keit für den Eintritt beider gleich dem Produkt der Einzelw-keiten ist,
P (A ∩ B) = P (A)P (B).
Sind A und B unabhängig, so auch B, A und A, B c usw. Gilt P (A), P (B) > 0, so sind A, B
unabhängig genau dann, wenn die Wahrsch. von A bedingt auf B gleich der Wahrsch. von A
selbst ist.
Bsp: Gefälschte Münze. Wir werfen zweimal mit einer eventuell gefälschten Münze. Sei p ∈
(0, 1) die W-keit für Kopf, identifiziert mit der 1. Wir betrachten die Ereignisse A, der erste Wurf
zeigt ’Kopf’ und B, genau ein ’Kopf’ erscheint. Dies Experiment modellieren wir durch Ω := {0, 1}2
mit dem W-maß P ({(i, j)}) = pi+j q 2−i−j . Die Koordinatenabbildungen Xi : Ω → {0, 1} geben
das Ergebnis im i-ten Wurf an. Die Ergebnisse des ersten Wurfes und des zweiten Wurfes sind
unabhängig,
P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j).
Die Ereignisse A := {X1 = 1} = {(1, 0), (1, 1)} und B := {X1 + X2 = 1} = {(0, 1), (1, 0)} haben
die W-keiten P (A) = p, P (B) = P ({(0, 1)}) + P ({(1, 0)}) = 2p(1 − p), P (A ∩ B) = p(1 − p). Die
beiden Ereignisse A, B sind genau dann paarweise unabhängig, falls p = 1/2 gilt.
Jetzt zur allgemeinen formalen Definition der Unabhängigkeit.
Definition 1.5.2 (unabhängig) Eine Familie Ai ∈ A, i ∈ I, von Ereignissen zu beliebiger
Indexmenge I heißt (stochastisch) unabhängig, falls für jede endliche Auswahl von Ereignissen
die W-keit des Durchschnitts gleich dem Produkt der Wahrsch. ist,
Y
\
P (Aj ).
Aj ) =
∀J ⊂ I, |J| < ∞
P(
j∈J
j∈J
Eine Familie Ai ⊂ A, i ∈ I, von Untermengen der Ereignismenge zu beliebiger Indexmenge I heißt
unabhängig , falls jedes Repräsentantensystem Ai ∈ Ai , i ∈ I, eine Familie von unabhängigen
Ereignissen bildet.
Die drei Definitionen sind in aufsteigender Reihenfolge der Allgemeinheit, die dritte enthält die
zweite und diese die erste als Spezialfall.
Lemma 1.5.3 Die Ereignisse Ai , i ∈ I, sind genau dann unabhängig wenn die Mengensysteme
{∅, Ai , Aci , Ω}, i ∈ I, unabhängig sind.
Seien die Mengensysteme Ai ⊂ A, i ∈ I, stochastisch unabhängig. Sind IkS, k ∈ K, paarweise
disjunkte Teilmengen der Indexmenge I, so sind die Mengensysteme Bk := i∈Ik Ai , k ∈ K der
Vereiningung unabhängig.
Bew: Die Rückrichtung der ersten Aussage ist einfach. Für die Hinrichtung beschränken wir uns
oEdA auf endliche Indexmenge I. Wir werden zeigen: Sind die Ereignisse Ai , i ∈ I unabhängig, so
auch Aci0 , Ai , i ∈ I\{i0 } für jedes i0 ∈ I.
26
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Sei J ⊂ I.
\
\
\
Y
Y
Y
P (Aci0 ∩
Aj ) = P (
Aj )−P (
Aj ) =
P (Aj )−
P (Aj ) = P (Aci0 )
P (Aj )
i0 6=j∈J
i0 6=j∈J
j∈J
i0 6=j∈J
j∈J
i0 6=j∈J
Eine sukzessive Anwendung liefert die Hinrichtung.
Die zweite Aussage folgt direkt aus der Definition.
q.e.d.
Definition 1.5.4 Eine Familie von Zufallsgrößen Xi : Ω → Ωi , i ∈ I heißt unabhängig, falls die
σ-Algebren X −1 (Ai ) = {X −1 (A) | A ∈ Ai }, i ∈ I unabhängig sind.
Bemerkung: Seien Ei , i ∈ I durchschnittstabile Erzeuger der σ-Algebren Ai , i ∈ I. (Eine Teilmenge
E des Ereignisraumes A heißt Erzeuger, falls A die kleinste, E enthaltende σ-Algebra ist. Er ist
durchschnittsstabil, falls er abgeschlossen ist bzgl. endlichem Durchschnitt.) Dann reicht es und
ist einfacher nachzuweisen, das̈ die Familie Xi−1 (Ei ), i ∈ I unabhängig ist.
Das einfachste Beipiel für unabhängige Zgn ist mehrfaches Würfeln. Die Augenzahlen Xi des i-ten
Wurfes, 1 ≤ i ≤ n sind unabhängig.
In diesem Beispiel ist der W-raum ein Produktraum. Allgemeiner fomuliert,
Q
Bsp: Produktraum.
Seien (Ωi , Pot(Ωi ), Pi ) diskrete W-räume. Sei Ω := i Ωi die Produktmenge
Q
und P = i Pi das Produktmaß. Die Koordinatenabbildungen X1 , . . . , Xn sind unabhängig 1.3.8.
Zum Schluss eine Fallgrube, die wir umschifft haben.
Paarweise Unabhängigkeit Ereignisse Ai , i ∈ I, heißen paarweise unabhängig , falls je zwei
Ereignisse Ai , Aj , i 6= j unabhängig sind. Unabhängigkeit impliziert paarweise Unabhängigkeit.
Die Umkehrung gilt nicht. Warnung: Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit.
Ebenso impliziert Tripelunabhängigkeit P (A ∩ B ∩ C) = P (A)P (B)P (C) nicht Unabhängigkeit.
Bsp: Paarweise unabhängig. Bei zweimaligem Münzwurf wie oben mit p = 1/2 betrachten
wir zusätzlich das Ereignis C, der zweite Wurf zeigt ’Kopf’. Diese Ereignisse sind paarweise
unabhängig, aber nicht unabhängig, (A ∩ B ∩ C = ∅). Nachrechnen.
27
Uwe Rösler
1.6
SS98
1.6
Zufallsgrößen und Verteilungen
Zufallsgrößen und Verteilungen
Unsere mathematischen Objekte sind die diskreten Wahrscheinlichkeitsräume. Wir betrachten nun
die Morphismen, d.h. Abbildungen unter den Objekten, die die Struktur erhalten. Dies sind die
Zufallsgrößen, (meßbare) Abbildungen von einem Stichprobenraum in einen anderen.
Heuristik: Häufig interessieren uns nur gewisse Teilaspekte einer Person, wie Augenfarbe, Religion,
Alter usw. Dies geht so weit, daß wir (der Staat) eine Person ω, die tatsächliche Realisierung als
Menschen, nur noch durch qualitative und quantitative Größen X(ω) wahrnehmen. In der Tat
können wir nie den ’wahren’ Menschen, so es diesen gibt, erfahren, sondern nur mit unseren
Sinnen erfaßbare Größen.
In Zufallsexperimenten interessiert weniger die tatsächlich zugrundeliegende Realisierung ω des
Experiments, als vielmehr ein gewisser Teilaspekt X(ω). Dieser Teilaspekt ist eine Abbildung X
des Stichprobenraumes Ω in einen anderen Raum Ω0 . Jede derartige Funktion heißt Zufallsgröße
oder Zufallsvariable .
Die Verwendung des Namens Zufallsvariable für eine Funktion ist etwas unglücklich. An der
Abbildung X ist nichts zufällig oder variabel. Zufällig erscheinen die konkret beobachteten Realisierungen
X(ω). Diese variieren mit der Realisierung und sind in diesem Sinne zufällig. Besser ist der ältere
deutsche Begriff Zufallsgröße.
Für Zufallsgrößen verwenden wir stets einen großen Buchstaben, z.B. X, Y, Z. Für das beobachtete
Ergebnis eines tatsächlichen Experiments verwenden wir kleine Buchstaben, z.B. x, y, z. Verschieden
Realisierungen ω können dieselbe Beobachtung X(ω) = x im Experiment liefern. Die Wahrsch. von
x ist die Wahrsch. aller Realisierungen ω mit der Ausprägung X(ω) = x. Eine strikte Einhaltung
dieser formalen Unterscheidung vereinfacht das Denken.
Mathematische Präzisierung: Eine Zufallsgröße ist eine meßbare Abbildung X : Ω 7→ Ω0
von einem meßbaren Raum (Ω, A) in einen anderen meßbaren Raum (Ω0 , A0 ). (Jedes Urbild
X −1 (A0 ) einer meßbaren Menge A0 ∈ A0 muß meßbar (∈ A) sein.) Im Falle diskreter Stichprobenräume
mit der Potenzmenge als Ereignisraum ist jede Abbildung meßbar.
Das Default setting einer Zufallsgröße ist eine reellwertige Abbildung X : Ω 7→ IR. In diesem Fall
versehen wir die reellen Zahlen IR mit der Borel σ−Algebra, der kleinsten σ−Algebra bezüglich
der alle offenen Mengen meßbar sind. Alternativ betrachten wir die Abbildung X : Ω 7→ X(Ω). Für
diskrete W-räume ist der Bildraum X(Ω) abzählbar und diesen versehen wir mit der Potenzmenge
als Ereignisraum.
Notation: Anstelle der aufwendigen Schreibweise X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} benutzen wir
die kurze Form {X ∈ A} oder X ∈ A. Auch die Menge X ≤ x sollte jetzt verständlich sein. Die
Mengenklammern und ω werden nach Möglichkeit weggelassen, z.B. bei der Wahrsch. P (X ∈ A).
Definition 1.6.1 (Verteilung) Sei (Ω, A, P ) ein W-raum und (Ω0 , A0 ) ein meßbarer Raum. Das
W-maß Q : A0 → IR definiert durch
Q(A0 ) := P (X −1 (A0 ))
heißt das durch X transportierte oder induzierte W-Maß. (Übung: Q ist W-maß.) Die Verteilung
einer Zufallsgröße X : Ω 7→ Ω0 ist das durch X transportierte W-Maß. Für die Verteilung Q
von X schreiben wir P X −1 oder XP oder PX oder P X oder auch einfach P . Hat die Verteilung
einen besonderen Namen, so bekommt auch die Zg den sinngemäßen Namen, wie Bernoullizufallsgröße
oder Poissonzufallsgröße usw.
Für diskrete W-räume (Ω, ¶(Ω), P ) ist (Ω0 , ¶(Ω0 ), P X ) ein diskreter W-raum. Die Wahrsch. eines
Ereignisses A0 ∈ A0 läßt sich als eine Summe schreiben,
X
X
PX (A0 ) =
PX (x) =
P ({ω}).
x∈A0
ω∈X −1 (A0 )
28
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Die Summation ist über höchstens abzählbar viele Terme ungleich Null, da die Menge {ω 0 ∈ Ω0 |
P (X = ω 0 ) > 0} höchstens abzählbar ist.
d-dimensionale Zgn: Andere wichtige Zufallsvariablen X sind IRd -wertige Zufallsvariablen.
Der Bildraum ist der d-dimensionale reelle Raum IRd mit der Borel σ−Algebra. (Auch die Potenzmenge
als σ-Algebra würde es für diskrete W-räume tun.) Wir schreiben auch X = (X1 , X2 , . . . , Xd ) mit
Xi die i−te Projektion. Die Verteilung von X = (X1 , X2 , . . . , Xn ) heißt auch die gemeinsame
Verteilung der Zufallsvariablen X1 , . . . , Xn . Sie ist durch die Angabe aller Wahrsch. P (X1 ∈
A1 , . . . , Xn ∈ An ) bestimmt. Die Verteilung von Xi , bzw. von (Xi1 , Xi2 , . . . , Xik ) mit verschiedenen
Indizes ij , heißt i−te Marginalverteilung bzw. Marginalverteilung zu {i1 , . . . , ik }.
Philosophie: Die reale Welt können wir nur über unsere 5 Sinne erfahren. Jede Frage nach dem
wirklichen Sein ergibt keinen Sinn. Ebenso können wir vom zugrundeliegenden W-raum nur über
Zgn Information erlangen. Der zugrundeliegende W-raum ist meistens relativ unwichtig, und muß
nur existieren. Zunehmend wichtig sind die Zgn und deren transportierter W-raum.
1.6.1
Verteilung
Einige Verteilungen kommen besonders häufig vor.
• Bernoulliverteilung: Ber(p) zum Parameter p ∈ [0, 1]. Die Zg nimmt nur die Werte 1 oder
0 mit Wahrsch. p bzw. q = 1 − p an,
P (X = 1) = p.
Das transportierte Maß ist das Bernoullimaß. Das Standardbeispiel ist der Münzwurf mit
der Zg X als Wert 1 für Kopf oder 0 für Zahl.
• Binomialverteilung: Bin(n, p) zum Parameter (n, p)(n, p) ∈ IN × [0, 1]. Die Zg nimmt nur
die Werte {0, . . . , n} an. Das Bildmaß P X −1 ist die Binomialverteilung Bin(n, p) falls
µ ¶
n k
P (X = k) =
p (1 − p)n−k .
k
Das Standardbeispiel ist n-maliges werfen einer gefälschten Münze, p sei die Wahrsch. für
Kopf (1) und X bezeichne die Gesamtanzahl der Kopfwürfe.
• Geometrische Verteilung: Geo(p) zum Parameter p ∈ [0, 1) Die Zg nimmt nur natürliche
Zahlen an. Die Verteilung der Zg ist die geometrische Verteilung Geo(p) falls
P (X = n) = (1 − p)pn
. Standardbsp. Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (1). Die Anzahl
X der Kopfwürfe vor dem ersten Zahlwurf ist eine geometrisch verteilte Zg zum Parameter
p.
• Poissonverteilung: Poi(λ) zu dem Parameter λ ∈ (0, ∞). Die Zg X nimmt ganze positive
Zahlen an und ist Poissonverteilt Poi(λ) verteilt falls
P (X = n) = exp(−λ)λn /n!
für alle n = 0, 1, 2 . . . gilt.
• Multinomialverteilung: zu den Parameter (n, r, p) ∈ IN × IN × [0, 1]n ,
nimmt Werte k = (k1 , . . . , kn ) ∈ (ZZ + )n an mit k1 + k2 + . . . + kn = r
µ ¶
n k
P (X = k) =
p .
k
P
i
pi = 1. Die Zg
Das Standardbeispiel ist das unabhängige Verteilen von n Kugeln auf r Urnen, wobei pi die
Wahrsch. ist, die Kugel in die i−te Urne zu legen.
29
Uwe Rösler
1.7
SS98
1.7
Unabhängigkeit
Unabhängigkeit
Eine Familie von Zufallsgrößen Xi : Ω 7→ Ωi , i ∈ I, heißt unabhängig, falls die Mengensysteme
Xi−1 (Ai ) unabhängig sind.
Gleichbedeutend mit obiger Definition ist,
P(
\
i∈J
{Xi ∈ Ai }) =
Y
i∈J
P (Xi ∈ Ai )
für alle endlichen Teilmengen J aus der Indexmenge und alle Ereignisse Aj ∈ Aj , j ∈ J.
Satz 1.7.1 Seien die Zufallsgrößen Xi : Ω 7→ Ωi , i ∈ I unabhängig und Yi : Ωi 7→ · weitere Zgn.
Dann sind die Zufallsgrößen Yi ◦ Xi , i ∈ I, unabhängig.
Beweis:
\
\
Y
Y
P ( {Yj (Xj ) ∈ Aj }) = P ( {Xj ∈ Yj−1 (Aj )}) =
P (Xj ∈ Yj−1 (Aj )) =
P (Yj (Xj ) ∈ Aj ).
j∈J
j∈J
j∈J
j∈J
q.e.d.
Bemerkung: Sind die Xi unabhängig, so auch f (X1 , X2 , . . . , Xn ) und g(Xn+1 , . . . , Xn+m ), mit
f, g Funktionen in mehreren Variablen. Allgemeiner:
Sei Ik , k ∈ K, eine Partition (=disjunkte
Q
Zerlegung) der Indexmenge I und seien Zk : i∈Ik Ωi → · Zgn. Dann sind die Zgn Zk (Xi , i ∈ Ik ) :
Ω 7→ ·, unabhängig.
Hintergrund ist das Lemma 1.5.3, die Familie (Xi )i∈Ik , k ∈ K, bzw. die von diesen erzeugte
σ−Algebren, sind unabhängig.
Existenz unabhängiger Zgn: Wir können uns stets unabhängige Zufallsvariablen X1 , . . . , Xn
i = 1, . . . , n
zu endlich vielen vorgegebenen eindimensionalen Marginalverteilungen
Pi = P Xi , Q
Qn
n
verschaffen. Seien (Ωi , Ai , Pi ), 1 ≤ i ≤ n W-Räume, (Ω := i=1 Ωi , A = ¶(Ω), P := i=1 Pi ) der
Produktraum und Xi : Ω 7→ Ωi die i-te Koordinatenabbildung. Dann sind Pi die Marginalverteilungen
P Xi der unabhängigen Zufallsvariablen X1 , . . . , Xn . Nach Definition gilt
Pi (Ai ) = P (Ω1 . . . × Ωi−1 × Ai × Ωi+1 . . . Ωn ) = P (Xi−1 (Ai )),
\
Y
P ( Xi−1 (Ai )) = P (A1 × . . . × An ) = P (A1 ) · . . . · P (An ) =
P (Xi−1 (Ai )).
i
i
Warnung: Diese Konstruktion funktioniert nur für endlich viele Koordinaten problemlos. Bereits
zur Konstruktion abzählbarer Produktwahrscheinlichkeitsräume benötigen wir den tieferen Satz
von Caratheodory über Maßerweiterungen aus der Maßtheorie. Allein die Existenz einer von
abzählbar vielen unabhängigen Zufallsvariablen, wie sie beim Münzwurf auftreten, ist nicht offensichtlich.
Wir setzen, falls notwendig, die Existenz voraus.
Bernoulli Experimente: Eine gefälschte Münze wird n mal unabhängig geworfen, p sei die
Wahrsch. für Kopf. Die Zg Xi sei 1, falls der i-te Wurf Kopf war, und anderenfalls 0. Dies sind
unabhängig, Bernoulli verteilte Zgn. Die Summe dieser ist binomial Bin(n, p) verteilt. Als W-Raum
würde sich der Produktraum Ω := {0, 1}n mit der Potenzmenge anbieten. Die Zufallsvariablen Xi
sind genau die Projektionen auf die i-ten Koordinaten.
Proposition 1.7.2 Die Summe von n unabhängigen, identisch Bernoulli Ber(p) zum Parameter
p verteilten Zufallsvariablen ist binomialverteilt Bin(n, p).
30
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Pn
Beweis: Seien Xi die unabhängigen Bernoulli Zg und Sn = i=1 Xi die n−te Partialsumme. Wir
zeigen den Induktionsschritt von n nach n + 1.
P (Sn+1 = k) = P (Sn = k, Xn+1 = 0) + P (Sn = k − 1, Xn+1 = 1)
= P (Sn = k)P (Xn+1 = 0) + P (Sn = k − 1)P (Xn+1 = 1)
µ ¶
µ
¶
µ
¶
n k n−k
n
n + 1 k n+1−k
k−1 n−k+1
=
p q
q+
p
q
p = ... =
p q
k
k−1
k
31
Uwe Rösler
1.8
SS98
1.8
Erwartungswerte
Erwartungswerte
Wir führen den Erwartungswert zuerst nur für Zgn X ein, die höchstens abzählbar viele verschiedene
Werte annehmen können.
Definition 1.8.1 (Erwartungswert) Der Erwartungswert E(X) einer positiven Zufallsgröße
X : Ω 7→ IR mit abzählbar vielen Werten ist
X
X(ω)P ({ω}).
E(X) :=
ω∈Ω
Der Erwartungswert E(X) einer Zufallsgröße X mit E(X + ) < ∞ oder E(X − ) < ∞ ist
E(X) := E(X + ) − E(X − ).
Wir haben hier die Zerlegung einer Funktion f = f + − f − in den Positivteil f + := f ∨ 0 und den
Negativteil f − := (−f ) ∨ 0 benutzt.
Eine Zg X heißt integrierbar, falls E(|X|) < ∞ gilt.
Sprachgebrauch: Der Erwartungswert E(X) heißt auch erstes Moment von X oder durchschnittlicher
Wert von X. E|X| ist das erste absolute Moment.
Notation: EX = E(X), EX 2 = E(X 2 ) und E 2 X = (E(X))2 .
Bemerkung Die Verwendung desPErwartungswertes impliziert stets dessen Wohldefiniertheit.
Dazu benötigen wir, daß die Summe ω X(ω)P (ω) existiert und unabhängig ist von der Reihenfolge
der Summation. Dies wird (genau) durch die Voraussetzung EX + oder EX − endlich gegeben. Der
Regelfall ist eine integrierbare Zg. (Beachte: E|X| < ∞ ⇔ EX + < ∞, EX − < ∞.)
Der Erwartungswert kann die Werte +∞ und −∞ annehmen, ist für integrierbare Zgn aber stets
endlich.
Durch entsprechende Umordnung erhalten wir
X
X
E(X) =
X(ω)P ({ω}) =
xP (X = x).
ω∈Ω
x∈IR
Zur Summation tragen nur abzählbar viele Punkte x bei. Der Erwartungswert einer Zg hängt nur
von der Verteilung der Zg ab, nicht aber vom zugrundeliegenden W-raum.
Binomialverteilung: Der Erwartungswert einer Zg X mit Binomialverteilung zu den Parametern
n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen. Eleganter ist die Argumentation:
Die Summe Sn von n unabhängigen Bin(p) verteilten Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit
ESn =
n
X
k=0
X µn¶
pk q n−k = ... = np
kP (X = k) =
k
k
k
mit q = 1 − p.
Hier einige Rechenregeln für Erwartungswerte.
Lemma 1.8.2 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert.
(i) E(aX) = aE(X)
Skalarität
(ii) E(X + Y ) = EX + EY
Linearität
(iii) 0 ≤ X ⇒ 0 ≤ EX
Positivität
(iv) X ≤ Y ⇒ EX ≤ EY
Ordnungserhaltung
(v) E|X + Y | ≤ E|X| + E|Y |
Dreiecksungleichung
32
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
(vi) E(a) = a
SS98
Uwe Rösler
(vii) |EaX| ≤ |a|E|X|
(viii) E|X| = 0 ⇔ P (X = 0) = 1
(ix) E(supi Xi ) ≥ supi EXi
(x) E(inf i Xi ) ≤ inf i EXi
Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen. Die wesentlichen
Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den Erwartungswert
als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die reellen Zahlen via
X 7→ EX.
Merkregel: Der Erwartungswert ist eine positive lineare Abbildung (auf dem Vektorraum der
Zufallsvariablen mit endlichem ersten absoluten Moment).
Binomialverteilung: Der Erwartungswert einer binomialverteilten Zg S zu den Parametern
n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen
n
X
X µn¶
ES =
kP (S = k) =
k
pk q n−k = ... = np
k
k=0
k
mit q = 1−p. Eleganter ist die Argumentation: Die Summe S von n unabhängigen Bin(p) verteilten
Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit
ES =
n
X
EXi = nEX1 = np.
i=1
Satz 1.8.3 (Transformationssatz) Seien X : Ω 7→ IR und Y : IR 7→ IR Zgn. Es gilt
EP (Y ◦ X) = EP X (Y )
sofern eine der beiden Seiten existiert.
Beweis:
EP (Y ◦ X) =
X
Y (X(ω))P (ω) =
ω
X
Y (x)P (X = x) =
x
X
yP (Y (X) = y) = EPX (Y ).
y
Besonders wichtig ist der Multiplikationssatz, der neben der linearen Struktur die Produktstruktur
aufzeugt.
Satz 1.8.4 (Multiplikationssatz) Für unabhängige integrierbare Zgn X1 , . . . , Xn ist der Erwartungswert
des Produktes gleich dem Produkt der Erwartungswerte.
Y
Y
E( Xi ) =
E(Xi ).
i
i
Beweis:
Y
X
E( Xi ) =
ω
i
=
X
Ã
n
Y
i=1
!
Xi (ω) P (ω)
x1 . . . xn P (X1 = x1 , . . . , Xn = xn )
x1 ...,xn
=
X
x1 . . . xn P (X1 = x1 ) . . . P (Xn = xn ) =
x1 ,...,xn
Y
i
33
E(Xi ).
Uwe Rösler
SS98
1.8
Erwartungswerte
Beispiel: Sie werfen eine gefälschte Münze und gewinnen bei Kopf, verlieren bei Zahl. Ihr Einsatz
ist Ihr gesamtes Kapital, welches entweder verdoppelt wird oder Sie sind pleite. Wie groß ist der
erwartete Gewinn nach n Runden?
Üblicherweise läßt sich der Erwartungswert direkt aus der Definition berechnen. Hier ein anderes,
nicht triviales Beispiel zur Berechnung des Erwartungwertes.
Quicksort: Quicksort ist ein 1961 von Hoare vorgestellter Sortieralgorithmus. Wir beschreiben
die Originalversion des zufälligen Algorithmus. Sei Ln eine zu sortierende Menge oder Liste von
n verschiedenen Zahlen.
• Wähle zufällig aus der Menge (Urne) mit Gleichverteilung ein Element,
• vergleiche alle anderen damit und
• bilde die Menge der strikt kleineren und die Menge der strikt größeren Zahlen.
• Für jede dieser Mengen rufe rekursiv den Algorithmus auf.
Dieser Algorithmus terminiert. Schematisch erhalten wir
x
x
x
x
x x x
x
x
x
x
s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s
Die Laufzeit des Algorithmus ist zufällig. Diese Zeit ist im wesentlichen proportional zur benötigten
Anzahl Qn der Vergleiche. Die benötigte Vergleichsanzahl für eine Liste der Länge n sind n − 1
Vergleiche zur Bildung der Teillisten und dann die benötigten Vergleichen zur Sortierung der Liste
der kleineren und der Liste der größeren Elemente. Wir erhalten die mathematische rekursive
Beziehung
D
Qn = n − 1 + QUn −1 + Qn−Un ,
n ∈ IN . Hierbei sind Q. , Q. , Un unabhängige Zgn. Die Zg Un hat eine gleichmäßige Verteilung auf
D
{1, . . . , n}. Die Verteilung von Qm , Qm sind jeweils gleich und rekursiv bestimmt. Das Symbol =
steht für Gleichheit in Verteilung. Hier interessiert uns nur die erwartete Anzahl an := EQn der
Vergleiche. Die obige rekursive Beziehung ergibt
an = n − 1 + EaUn + Ean−Un ,
n ∈ IN, a0 = 0 = a1 . Diese rekursive Gleichung ergibt
an
an−1
2
=
+ .
n
n−1 n
Hieraus ergibt sich sofort
an = 2n
n
X
1
i=2
i
34
≡ 2n ln n.
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.8.1
SS98
Unabhängigkeit
Uwe Rösler
Proposition 1.8.5 Seien Xi , i = 1, 2, . . . , n unabhängig. Dann gilt der Erwartungswert des Produktes
gleich dem Produkt der Erwartungswerte. In Formeln, alles wohldefiniert vorausgesetzt,
E(
n
Y
Xi ) =
n
Y
E(Xi ).
i=1
i=1
Beweis: Es reicht den Beweis nur für zwei unabhängige Zgn zu führen.
X
X
XX
E(XY ) =
P (XY = z) =
xyP (X = x, Y = y) =
xP (X = x)yP (Y = y) = E(X)E(Y ).
z∈IR
1.8.2
x
x,y∈IR
y
Momente
Den Erwartungswert E(X) nennt man auch Moment oder genauer erstes Moment. Das absolute
erste Moment ist E(|X|). Das p-te Moment ist E(X p ), (Mit der Konvention xp := |x|p signx
und vorausgesetzt E(X p ) ergibt Sinn.) Ebenso spricht man vom p-ten absoluten Moment
E(|X|p ), vom exponentiellen Moment E(exp(X)), logarithmischen, usw. Ein zentriertes
Moment einer Zufallsvariable X ist der Erwartungswert der zentrierten Zufallsvariable X − EX.
Der Leser wird nach diesem Schema selbst neue Sprachkombinationen erfinden können (die ich ad
hoc verstehe).
Das zweite zentrierte Moment einer Zufallsvariablen X heißtpVarianz der Zufallsvariablen X.
2
Notation: Var(X) = E(X − EX)2 := σX
.Die Wurzel σX := Var(X) der Varianz von X heißt
Streuung.
Die Covarianz Cov(X, Y ) von zwei Zufallsvariablen X, Y ist der Erwartungswert E((X−EX)(Y −
EY )) des Produkts der zentrierten Zufallsvariablen. Der Korrelationskoeffizient
ρ := ρ(X, Y ) =
Cov(X, Y )
σX σY
zweier Zgn X, Y ist die Kovarianz dividiert durch das Produkt der Streuungen.
1.8.3
Varianz
Proposition 1.8.6 Seien X, Y Zufallsgrößen mit endlichem zweiten Moment. Es gelten die Rechenregeln
(i) Var(aX + b) = a2 Var(X),
a, b ∈ IR.
(ii) Var(X) = E(X 2 ) − E 2 (X)
(iii) Var(X) = 0 ⇔ P (X 6= EX) = 0
Beweis:
Var(X)
=
X
ω
=
X
(X(ω) − EX)2 P (ω)
(X(ω)2 − 2X(ω)E(X) + (E(X))2 P (ω) = E(X 2 ) − E 2 (X)
Var(aX + b) = E(aX + b − E(aX + b))2 = a2 Var(X)
Die nächste Behauptung folgt aus Lemma 1.8.28.
q.e.d.
P
P
Lemma 1.8.7 Für unabhängige Zgn X1 , . . . , Xn ist die Varianz linear (Var i Xi = i VarXi ).
P
P
P
P
Beweis: Var( i Xi ) = Var( i (Xi − EXi )) = i,j E((Xi − EXi )(Xj − EXj )) = i E(Xi −
P
EXi )2 = i VarXi .
35
Uwe Rösler
SS98
1.8
Erwartungswerte
Satz 1.8.8 (Cauchy-Schwarz Ungleichung) Für zwei Zgn X, Y mit endlichem zweiten Moment
gilt die Ungleichung
E 2 (XY ) ≤ E(X 2 )E(Y 2 ).
Gleichheit gilt genau dann, wenn eine Zg mit Wahrsch. 1 ein Vielfaches der anderen ist (∃a, b ∈
IR, ab 6= 0 : P (aX = bY ) = 1).
Beweis:O.E.d.A sei E(Y 2 ) > 0. Betrachte das Minimum der Funktion 0 ≤ E(X + aY )2 =
EX 2 + 2aE(XY ) + a2 EY 2 in der reellen Variablen a ∈ IR. Das Minimum wird im Wert a =
−E(XY )/EY 2 angenommen. Diesen a Wert eingesetzt ergibt die Behauptung. Gleichheit gilt
genau für E(X + aY )2 = 0, welches äquivalent zu P (X + aY = 0) = 1 ist.
q.e.d.
Beispiel: Die Korrelationskoeffizienten erfüllen −1 ≤ ρ(X, Y ) ≤ 1. Dies folgt aus der CauchySchwarz Ungleichung
Cov2 (X, Y ) ≤ Var(X)Var(Y ).
Übung: Der Erwartungswert EX minimiert die Funktion E(X − a)2 in a ∈ IR.
1.8.4
Kovarianz
Proposition 1.8.9 Seien a, b reelle Zahlen und X, Y Zufallsvariablen mit endlichem zweiten
Moment. Es gelten die Rechenregeln
(i) Cov(X, X) = Var(X)
(ii) Cov(X, Y ) = Cov(Y, X)
(iii) Cov(X, Y ) = E(XY ) − EXEY
(iv) Cov(aX + b, Y ) = aCov(X, Y )
(v) Cov2 (X, Y ) ≤ Var(X)Var(Y )
P
P
P
(vi) Var( i Xi ) = i Var(Xi ) + i6=j Cov(Xi , Xj )
(vii) X, Y unabhängig ⇒ Cov(X, Y ) = 0
Beweis: Die fünfte Ausage folgt aus der Cauchy-Schwarz Ungleichung. Für die sechste nehmen
wir o.E.d.A. zentrierte Zufallsvariablen X1 , . . . , Xn an. Aus
X
X
X
EXi Xj
EXi2 +
E(Xi Xj ) =
Var(X1 + . . . + Xn ) =
i
1≤i,j≤n
folgt die Aussage. Der letzte Teil folgt aus 1.8.4
i6=j
q.e.d.
Definition 1.8.10 (unkorreliert) Zwei Zgn X, Y heißen unkorreliert, falls Cov(X, Y ) = 0
gilt. Dies ist äquivalent zu E(XY ) = EXEY. Unabhängigkeit impliziert Unkorreliertheit, aber im
allgemeinen gilt nicht die Umkehrung.
Beispiel: Die Zg X nehme die Werte −2, −1, 1, 2 an mit jeweils derselben Wahrsch. 1/4. Dann
sind die Zgn X, X 2 unkorreliert, aber nicht unabhängig, (EX 3 = 0 = EXEX 2 , 1/4 = P (X =
2, X 2 = 4) 6= P (X = 2)P (X 2 = 4) = 1/8.)
Merkregel: Die Covarianz ist eine symmetrische Bilinearform auf dem Raum der Zufallsvariablen
mit zweitem endlichen Moment.
36
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
Interpretation
SS98
Uwe Rösler
Der Erwartungswert gibt die durchschnittliche Größe einer Zufallsvariablen an (siehe auch den
Abschnitt über das schwache Gesetz der großen Zahl). Der Erwartungswert ist physikalisch der
Schwerpunkt einer Masseverteilung. Legen wir auf jede reelle Zahl x die physikalische Masse P ({x})
eines W-Maße P, so ist der Erwartungswert exakt der Schwerpunkt aller dieser Massen, d.h.
wir können die gewichtete Zahlengerade genau in diesem Punkt auf eine Spitze stellen, und die
gewichtete Zahlengerade bleibt im Gleichgewicht.
Die Varianz ist eine Kenngröße für die Streuung des W-maßes (Masse). Je größer die Varianz,
desto mehr Streuung. Der Extremfall Var(X) = 0 von Varianz Null entspricht keiner Streuung,
die Zufallsvariable X nimmt nur einen einzigen Wert X ≡ EX an. Mit wachsender Varianz
streuen die Realisierungen immer stärker um den Erwartungswert. Die Kovarianz Cov(X, Y ) zweier
Zufallsvariabler ist eine Kenngröße für lineare Abhängigkeit der Zgn X und Y . Üblicherweise wird
der Korrelationskoeffizient
Cov(X, Y )
∈ [−1, 1],
ρX,Y =
σX σY
p
p
die Kovarianz bereinigt um die Streuungen σX = Var(X),σY = Var(Y ), bevorzugt. Positive
Korrelation zeigt eine Tendenz zu gleichen Vorzeichen für die zentrierten Zgn X, Y, negative
Korrelation zeigt eine Tendenz zu ungleichenVorzeichen. Die Extremfälle sind ρ = 1 falls X−EX =
a(Y − EY ) für ein a > 0 und ρ = −1 falls a < 0.
Y
r
Y
Y
r
r
r
6
6
6
r
r
r
r
r
r
r
r
r
r
r
r
X
X
X
r
r
r
r
r
Die Bilder zeigen positive Korrelation, keine Korrelation und negative Korrelation. Die Extremwerte
des Korrelatioskoeffizienten ρ sind ρ = 1 und ρ = −1. Diese Fälle entsprechen X−EX = a(Y −EY )
für ein a > 0 bzw. a < 0. Dies ist eine Konsequenz aus der Cauchy-Schwarz Ungleichung.
1.8.5
Konvergenzsätze
Eine Zg mit Wertebereich IR = IR ∪ {−∞, ∞} heißt erweitert.
Satz 1.8.11 (Monotone Konvergenz) Sei Xn , n ∈ IN, eine steigende (fallende) Folge von
erweiterten Zgn und sei EX1 > −∞ (EX1 < ∞.) Dann gilt
E lim Xn = lim EXn .
n
n
Beweis: Sei X = limn Xn . Die Aussage folgt (Übung) aus
P
ω (X(ω)
− Xn (ω))P (ω) → 0.
Bemerkung: Ein Spezialfall ist: Sei An eine gegen A aufsteigende (oder absteigende) Folge von
Ereignissen. Dann gilt
P (An ) % P (A).
Beachte E11B = P (B).
Lemma 1.8.12 (Lemma von Fatou) Sei Xn , n ∈ IN, eine Folge erweiterter Zgn. Sind die Xn
gleichmäßig nach unten beschränkt durch eine integrierbare Funktion, so gilt
lim inf EXn ≥ E lim inf Xn .
Sind die Xn gleichmäßig nach oben beschränkt durch eine integrierbare Zg, so gilt
lim sup EXn ≤ E lim sup Xn .
37
Uwe Rösler
SS98
1.9
Integrationstheorie
Beweis:Definiere Yn := inf i≥n Xi . Die Folge Yn , n ∈ IN, konvergiert aufsteigend gegen lim inf n Xn .
Mit dem Satz von der monotonen Konvergenz erhalten wir
EXn ≥ EYn %n E lim inf Xn .
n
Für die zweite Aussage betrachte die Folge −Xn und beachte lim inf(−Xn ) = − lim sup Xn .q.e.d.
Satz 1.8.13 (Dominierte Konvergenz) Sei Xn , n ∈ IN, eine konvergente Folge von erweiterten
Zgn. Weiterhin gebe es ein Y mit E|Y | < ∞ und |Xn | ≤ Y für alle n ∈ IN . Dann gilt
lim EXn = E lim Xn .
n
Beweis: Dies ist eine Folgerung aus dem Lemma von Fatou. Sei X der Grenzwert der Folge (Xn )n .
Sei Un := inf k≥n Xn und Vn := supk≥n Xn . Die Folge Un ist punktweise aufsteigend gegen X und
die Folge Vn (punktweise) absteigend dagegen. Der Satz von der monotonen Konvergenz liefert
limn EUn = EX = limn EVn . Damit
EX = lim inf EUn ≤ lim inf EXn ≤ lim sup EXn ≤ lim sup EVn = EX.
n
n
n
n
q.e.d.
Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = IN versehen mit dem
W-maß P (i) = c/i2 mit c geeignet. Sei fn (i) := i11i≥n . Es gilt limn fn =≡ 0,
lim
Z
fn dP = ∞ >
Z
lim fn dP = 0.
n
Der Satz über monotone Konvergenz ist nicht anwendbar.
1.9
Integrationstheorie
Wir wollen den Erwartungswert allgemeiner Zgn definieren. Mathematisch führt dies auf eine
ordnungserhaltende, lineare und σ-stetige Fortsetzung I des W-maßes µ auf Funktionen.
Ein Maß µ fassen wir als eine Abbildung auf Indikatorfunktionen 11A auf, µ(11A ) = µ(A). Diese
Abbildung
setzen wir linear fort zu einer Abbildung µ̃ auf der Menge T der Treppenfunktionen
Pn
i=1 ai 11Ai via
X
X
µ̃(
ai 11Ai ) =
ai µ(Ai ).
i
i
Damit ist die algebraische Erweiterung beendet.
Wir erweitern die Abbildung µ̃ zu I durch einen geeigneten Konvergenzbegriff via
I(f ) = lim I(fn )
n
mit fn konvergiert gegen f. Als Konvergenzbegriff benutzen wir Ordnungskonvergenz oder topologische
Konvergenz.
Ordnungsstruktur Ein geeigneter Konvergenzbegriff auf den reellen Zahlen wird durch die
Ordnungsstruktur geliefert, fn konvergiert aufsteigend punktweise gegen f .
Vektorraumstruktur Ein anderer gern gewählter Zugang ist es, T als Vektorraum zu betrachten,
mit einer Norm zu versehen, bezüglich dieser Norm abzuschließen und dann das Funktional I auf
den Abschluß von T stetig zu erweitern.
38
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.9.1
SS98
Algebraische Erweiterung
Uwe Rösler
Eine Treppenfunktion ist eine meßbare Abbildung f : Ω 7→ IR mit endlich vielen Werten. Eine
Treppenfunktion f ist stets eindeutig darstellbar in der Standarddarstellung als Treppenfunktion
N
X
an 11f −1 (an ) .
n=1
Hierbei sind a1 , ..., aN ∈ IR die angenommenen Werte.
Sei T = T (Ω, IR) die Menge der Treppenfunktionen. Dies ist ein Vektorraum. (Nachrechnen).
Dieser Vektorraum wird linear aufgespannt von den Indikatorfunktionen 11A , A ∈ A.
Wir betrachten den positiven Kegel T + = T (Ω, IR+ ).
Proposition 1.9.1 Die Funktion I : T + 7→ IR definiert durch
I(f ) :=
N
X
an µ(f −1 (an ))
(1.3)
n=1
ist eine additive, skalare und isotone Funktion mit I(0) = 0.
Beweis: I ist wohldefiniert, da die Standarddarstellung eindeutig ist.
• Additivität.
Seien αi , βj die möglichen Werte von f bzw. g.
X X
X
11αi +βj =an µ(f −1 (αi ) ∩ g −1 (βj ))
an
an µ((f + g)−1 (an )) =
I(f + g) =
n
n
=
X
(αi + βj )µ(f
i,j
=
XX
i
j
−1
(αi ) ∩ g
−1
i,j
(βj ))
αi µ(f −1 (αi )) ∩ g −1 (βj )) +
XX
i
j
βj µ(f −1 (αi )) ∩ g −1 (βj )) = I(f ) + I(g)
Die Skalarität und Isotonie sind einfach.
q.e.d.
Hintergrund Ordnungsstruktur
Sei A eine Menge. Eine Relation ist eine Teilmenge R von A × A. Die Komposition oder
Verknüpfung zweier Relationen R, Q ist gegeben durch
R ◦ Q =: {(a, c) | ∃b ∈ A : (a, b) ∈ R, (b, c) ∈ Q}.
Das Inverse einer Relation ist R−1 := {(b, a) | (a, b) ∈ R}. Eine Relation heißt reflexiv, falls
die Relation die Diagonale {(a, a) | a ∈ A} enthält. Eine Relation heißt symmetrisch, falls die
Relation gleich ihrer Inversen ist. Eine Relation heißt antisymmetrisch, falls der Durchschnitt
der Relation mit der Inversen genau die Diagonale ist. Eine Relation heißt transitiv, falls die
Relation unter Komposition abgeschlossen ist (R ◦ R ⊂ R).
Eine Teilordnung oder partielle Ordnung oder Ordnung auf einer Menge A ist eine reflexive,
antisymmetrische und transitive Relation. Wir schreiben a ¹ b für (a, b) ∈ R und sprechen von b
dominiert oder majorisiert a oder auch b ist größer als a. Analog benutzen wir Minorante
und kleiner. Ein Tupel (A, ¹) heißt geordnete Menge .
Sei (A, ¹) eine partielle Ordnung. Ein Element a ∈ A heißt obere Schranke von B ⊂ A falls
b ≤ a für alle b ∈ B gilt. Eine Menge B ⊂ A heißt nach oben (unten) beschränkt, falls es eine
obere (untere) Schranke von A gibt. Wir sprechen von einer kleinsten oberen Schranke a von
B falls a eine obere Schranke
W ist und für alle anderen oberen Schranken x gilt a ≤ x.
Notation: a = supb∈B b = b∈B b.
Eine kleinste obere Schranke a heißt Maximum von B, falls zusätzlich a ∈ B gilt.
39
Uwe Rösler
SS98
1.9
Integrationstheorie
Notation: x = maxb∈B b.
V
Analog verwenden wir das Infimum inf b∈B = b∈B b und Minimum.
Notation: a ∨ b := sup{a, b}
a ∧ b := inf{a, b}.
Ein Verband ist eine geordnete Menge abgeschlossen bzgl. endlichem Supremum und endlichem
Infimum. Wir schreiben (A, ≺, ∧, ∨) in der Notation wie oben. Ein Verband heißt von oben
(unten) vollständig falls jede nach oben (unten) beschränkte Teilmenge ein Supremum (Infimum)
besitzt. Er heißt vollständig, falls er von unten und oben vollständig ist. Analog verwenden wir
σ-vollständig falls jede beschränkte abzählbare Menge ein Supremum und Infimum besitzt.
Eine isotone Funktion ist eine ordnungserhaltende Funktion. Eine isotone Funktion f heißt von
unten σ-stetig, falls für jede aufsteigende abzählbare Folge an ∈ M mit supn an ∈ M gilt
∨n f (an ) = f (∨n an ). Analog verwenden wir von oben σ-stetig und σ-stetig für beides.
Bemerkung: Jeder Verband läßt sich σ-vervollständigen, (von unten, von oben, vervollständigen).
Darunter verstehen wir eine kleinste, ordnungserhaltende und injektive Einbettung des Verbandes
in einen σ-vollständigen (von unten, von oben, vollständigen) Verband. Bis auf Isomorphie (ordnungserhaltende
Bijektion) ist diese eindeutig. (Keine Übung: Dies ist eine mathematische Standardkonstruktion.
Z.B. lassen sich so die reellen Zahlen aus den rationalen Zahlen konstruieren.) Weiterhin: jede
isotone, von unten σ-stetige Abbildung I : V 7→ IR ∪ {∞} läßt sich eindeutig von unten σ-stetig
fortsetzen auf die σ-Vervollständigung des Verbandes durch
˜ = lim I(vn ).
I(v)
n
Hierbei ist vn ∈ M, n ∈ IN, eine Folge mit vn %n v. Dies bildet den abstrakten Hintergrund
unserer folgenden Argumentation.
Bemerkung: Eine σ-Algebra ist ein Verband mit der Ordnung induziert durch Enthalten, A ≺
B ⇔ A ⊂ B, A∨B = A∪B, A∧B = A∩B. Dieser Verband ist vollständig. Ein Maß ist von unten σstetig, eine endliches Maß sogar σ-stetig. Der Satz von Caratheodory ist die σ-stetige Erweiterung
einer σ-stetigen, additiven und isotonen Abbildung auf einem Verband. Der Ring (=Verband) wird
erweitert zur σ-Algebra (Verbandsvervollständigung) und das Prämaß zum Maß.
Integrale über Ordnungsstruktur
Der Raum der reellwertigen, positiven, erweiterten Treppenfunktionen T + = T (IR+ ) versehen mit
der punktweisen Ordnung ist ein Verband. Die Vervollständigung von T + bzgl. σ-Stetigkeit von
unten ist der Raum F(IR+ ) der erweiterten reellwertigen, meßbaren und positiven Funktionen. Zu
+
gegebener Funktion f ∈ F konvergieren die Treppenfunktionen fn
n
fn (x) :=
n2
X
i
i+1
11 i
n 2n ≤f (x)< 2n
2
i=0
von unten gegen f.
Proposition 1.9.2 Die Funktion I : T + 7→ IR+ definiert durch (1.3) ist eine lineare, skalare,
isotone, von unten σ-stetige Funktion. Die Abbildung I eingeschränkt auf I −1 (IR) ist σ-stetig.
Beweis: Die Wohldefiniertheit, Linearität, Skalarität, Isotonie wurde in Proposition 1.9.1 gezeigt.
Für die σ-Stetigkeit von unten betrachte eine aufsteigende Folge fn % f aus T + . Seien 0 = a1 <
a2 < ... < an die Werte von f und Ai = f −1 (ai ).
• I(fn 11Ai ) % I(f 11Ai ) für alle i = 1..n.
Dies fogt aus der σ-Stetigkeit des Maßes,
ai µ(Ai ) ≥ I(fn 11Ai ) ≥ (a − ²)µ(Ai ∩ {fn ≥ a − ²}) →n (ai − ²)µ(Ai )
mit geeignetem ². Mit ² →n 0 erhalten wir die Teilbehauptung.
40
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
• σ-Stetigkeit von unten.
Zu zeigen ist I(fn ) % I(f ).
X
X
I(f 11Ai ) = I(f ).
I(fn 11Ai ) %
I(fn ) =
Uwe Rösler
i
i
• I eingeschränkt auf I −1 (IR) ist σ-stetig.
Für eine Folge fn & f ∈ T + betrachte f1 − fn % f1 − f und argumentiere wie oben.
q.e.d.
Satz 1.9.3 Die additive und von unten σ-stetige Fortsetzung I eines Maßes auf F(IR+ ) wird
gegeben durch I˜ : F(IR+ ) 7→ IR+
˜ ) = lim I(fn ).
I(f
+
T 3fn %f
Die Fortsetzung ist eindeutig, additiv, skalar, isoton und σ-stetig von unten. Die Fortsetzung I˜
eingeschränkt auf I˜−1 (IR) ist σ-stetig.
Beweis: Das Maß setzt sich linear auf den Raum T + der positiven Treppenfunktionen fort (1.3).
Diese ist eindeutig. T + ist ein Verband und die Fortsetzung I ist σ-stetig von unten, Proposition
1.9.2. Der Abschluß von T + bzgl. σ-Vollständigkeit von unten ist F(IR+ ).
• I˜ ist wohldefiniert.
Seien fn und gm zwei monoton gegen f aufsteigende Folgen von Treppenfunktionen. Dann gilt
lim I(fn ) ≥ lim I(fn ∧ gm ) ≥ lim I(gm ).
n
n
m
Die rechte Seite ist aus Symmetriegründen ≥ limn I(fn ). Die Sandwichposition ergibt limn I(fn ) =
limm I(gm ).
• I˜ ist σ-stetig.
+
+
Sei
W F 3 fn % f. Seien T 3 fi,n %i fn . Dann konvergieren die Treppenfunktionen gn :=
i≤n fi,n ≤ fn isoton gegen f. Aus der Sandwichposition
I(f ) = lim I(gn ) ≤ lim I(fn ) ≤ I(f ).
n
ergibt sich die Behauptung.
• Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig.
Verwende σ-Stetigkeit von unten und fn & f ⇔ f1 − fn % f1 − f.
Zu zeigen bleiben die Eindeutigkeit der Fortsetzung und die algebraischen Eigenschaften Additivität
und Skalarität. Dies ist einfach.
q.e.d.
Jede Funktion f : Ω 7→ IR hat eine eindeutige Zerlegung f = f + −f − mit f + := f ∨0, f − = (−f )+ .
˜ + ) oder I(f
˜ − ) endlich. Erweitere
Sei Fe der Raum alle meßbaren erweiterten Funktionen f mit I(f
˜
I auf Fe durch
˜˜ ) := I(f + ) − I(f − ).
I(f
Dies Objekt nennen wir Integral bzw. genauer Lebesgueintegral.
Dies ist (fast) der allgemeinste Integralbegriff.
Gebräuchliche Notationen für das Integral I˜˜ sind
Z
Z
Z
Z
˜˜ ) =: µ(f ) =: f (ω)dµ(ω) =:
I(f
f (ω)µ(dω) =: f dµ =: f.
Ω
Weitere Notationen sind
Z
A
f dµ :=
Z
41
f 11A dµ.
Uwe Rösler
SS98
Speziell auf IR verwenden wir
Z
b
f dµ :=
Z
1.9
Integrationstheorie
f dµ.
(a,b]
a
Hat µ keine Punktmaße (µ(x) = 0∀x ∈ IR), so benutzen wir auch
Z b
Z a
Z
f dµ =: −
f dµ :=
f dµ.
[a,b]
a
b
Ist µ das Lebesguemaß λ auf IR so schreiben wir
Z
Z
f (x)λ(dx) = f (x)dx.
R
Eine integrierbare Funktion f ist eine meßbare Funktion mit endlichem Wert |f |dµ < ∞. Der
Raum L1 der integrierbaren Funktionen ist ein Vektorraum.
R
Korollar 1.9.4 Das Integral : L1 7→ IR ist linear, skalar, isoton und σ-stetig.
Beispiel: Sei µ ein Maß und g ≥ 0 eine meßbare Funktion. Dann ist die Mengenfunktion ν : A 7→
IR, definiert durch
Z
ν(A) :=
g dµ,
A
ein Maß.
Notation dν = gdµ oder auch ν = gµ.
Beispiel: Wir betrachten ein W-Maß µ auf (IR, B). Die zugehörige Verteilungsfunktion F sei stetig
differenzierbar. Die Behauptung ist
Z
Z
dF
(x)dx
g(x)dµ(x) = g(x)
dx
für alle integrierbaren Funktionen g. Die Behauptung ist richtig für eine Treppe 11A . Da beide
Seiten additiv und σ-stetig sind, gilt Gleichheit für alle positiven meßbaren Funktionen. Dann
aber auch für alle integrierbaren Funktionen.
1.9.2
Konvergenzsätze
R
RSei E Rbzw. das oben definierte Integral für einen beliebigen Maßraum (Ω, A, µ). Wir benutzen
f = f dµ. Es gilt der Satz von der monotonen Konvergenz. Dies ist genau die σ-Stetigkeit des
Integrals. Als Folgerungen erhalten wir den Satz von Fatou und den Satz von der dominierten
Konvergenz.
Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = (0, 1] versehen mit
der Borel σ-Algebra und dem Borelmaß λ. Sei fn := n11(0,1/n] . Es gilt limn fn =≡ 0,
Z
Z
lim fn dλ = 1 > lim fn dλ = 0.
n
Der Satz über dominierte Konvergenz ist nicht anwendbar.
1.9.3
Transformationssatz
Satz 1.9.5 (Transformationssatz) Sei (Ω, A, µ) ein Maßraum und (Ω0 , A0 ) ein meßbarer Raum.
Sei T : Ω 7→ Ω0 eine meßbare Abbildung. Dann gilt für meßbare Funktionen f 0 : Ω0 7→ IR, sofern
eine Seite wohldefiniert ist,
Z
Z
f 0 dT µ =
Ω0
Ω
42
f 0 ◦ T dµ.
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Beweis: Die Aussage ist leicht nachzurechnen für f 0 = 11A0 , A0 ∈ A0 . (Übung). Beide Seiten sind
lineare, σ-stetige Fortsetzungen (einer Mengenfunktion). Diese sind eindeutig.
q.e.d.
Beispiel: Sei T eine stetig differenzierbare Funktion mit strikt positiver Ableitung T 0 , T µ das
Lebesguemaß und f 0 = g. Es gilt die Transformationsformel mit y = T (x), g integrierbar,
Z
Z
g(y)
dy
=
g(T (x))dx.
T 0 (T −1 (y))
Hierbei ist das Maß µ gegeben durch
(µ)(A) =
Z
T 0 (T −1 (y))dy.
A
Für genauere Rechenregeln siehe Lehrbücher über Differential und Integralrechnung.
Fubini
0
0
Seien (Ω, A)
Ω×Ω0 sei versehen mit der Produkt σNund0 (Ω , A ) meßbare Räume. Der Produktraum
0
Algebra A A , erzeugt von den Rechteckmengen A×A . Der Schnitt Aω einer Menge A ⊂ Ω×Ω0
'
Ax
x
ist die Menge {ω 0 ∈ Ω0 | (ω, ω 0 ) ∈ A}.
$
A
&
%
Analog benutzen wir Aω0 (obwohl dies ein Notationsmißbrauch ist.) Jeder Schnitt einer meßbaren
Menge ist wieder meßbar (Übung).
N
Proposition 1.9.6 Sei µ0 ein σ-endliches Maß auf (Ω0 , A0 ) und A ∈ A A0 . Die Abbildung
ϕA : Ω 7→ IR
ω 7→ µ0 (Aω )
N 0
ist meßbar für alle A A meßbaren Mengen A.
Beweis: Sei µ0 ein endliches Maß. Betrachte
D := {A ∈ A × A0 | ϕA meßbar}.
Es gilt D = A0 . D ist ein Dynkinsystem. Beachte ϕA\B = ϕA − ϕB und ϕS
◦
n
An
=
P
n
ϕA n .
Weiterhin enthält D den durchschnittstabilen Erzeuger aller Produktmengen.
Sei µ0 ein σ-endliches Maß. Dann gibt es eine gegen Ω0 aufsteigende Folge Kn ∈ A0 mit µ0 (Kn ) < ∞.
q.e.d.
Dann argumentiere ϕA = limn ϕA∩Kn .
0
Proposition 1.9.7 Seien
N µ 0und µ σ-endliche Maße. Dann gibt es genau ein Maß ν auf dem
0
Produktraum (Ω × Ω , A A ) mit
ν(A × A0 ) = µ(A)µ0 (A0 ).
Dies wird gegeben durch
ν(A) =
Z
0
µ (Aω )dµ(ω) =
43
Z
µ(Aω0 )dµ0 (ω 0 ).
Uwe Rösler
SS98
1.9
Integrationstheorie
Beweis: Beide Integrale sind wohldefiniert, sind Maße und erfüllen die geforderte Eigenschaft.
Für µ, µ0 endliche Maße stimmen beide Integrale überein, für σ-stetige folgt die Gleichheit durch
Approximation.
q.e.d.
Notation: Wir bezeichnen das Produktmaß ν mit µ × µ0 .
Sei f : Ω × Ω0 7→ IR eine Produkt meßbare Funktion. Dann sind die Schnitte f (ω, .) : Ω0 7→ IR
für alle ω ∈ Ω und f (., ω 0 ) : Ω 7→ IR meßbar. Beachte, der Schnitt zieht sich durch, (f −1 (B))ω =
f (ω, .)−1 (Bω ).
q.e.d.
Satz 1.9.8 (Fubini) Seien µ, µ0 σ-endliche Maße. Dann gilt
Z
Z Z
f (ω, ω 0 )d(µ × µ0 )(ω, ω) = (
f (ω, ω 0 )dµ0 (ω 0 ))dµ(ω).
Ω×Ω0
Ω
Ω0
Beweis: Wir betrachten f ≥ 0. Der Satz gilt für eine Treppe a11A , für eine Treppenfunktion
und dann per monotoner Konvergenz für meßbare Funktionen. Die Ausdehnungen sind jeweils
eindeutig.
q.e.d.
Die σ-Endlichkeit ist wichtig. Als Beispiel betrachten wir µ das Lebesguemaß und µ0 das Zählmaß
auf dem Einheitsintervall. Die Funktion f (x, y) = 11x=y ist meßbar. Es gilt
Z Z
Z Z
( f (x, y)dµ(x))dµ0 (y) = 0
( f (x, y)dµ0 (y))dµ(x) = 1.
Es gibt Möglichkeiten das Produktmaß auch für nicht σ-endliche Maße zu definieren. Jedoch
verliert man dann die Eindeutigkeit und die Vertauschbarkeit, vgl. Halmos [?] page 145, HahnRosenthal SET FUCTIONS 1948 chap IV,§16[?].
44
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.10
SS98
Ungleichungen
Uwe Rösler
Für Ungleichungen in der W-theorie gibt es im wesentlichen zwei Quellen, über monotone und
über konvexe Funktionen. Die erste Gruppe bilden Markoff Ungleichungen und die zweite beruhen
auf der Jensen Ungleichung.
Röslers Metatheorem:
Alle guten Integralungleichungen beruhen auf Monotonie oder Konvexität.
1.10.1
Tschebycheff-Markoff
Die folgenden Ungleichungen beruhen auf Monotonie.
Satz 1.10.1 (Tschebycheff-Markoff Ungleichung) Für jede Zg X und jede monoton steigende,
positive Funktion ϕ auf den reellen Zahlen gilt
ϕ(a)P (X ≥ a) ≤ E(ϕ(X))
für alle reellen Zahlen a.
Beweis: Es gilt
inf ϕ(X) ≥
Z
ϕ(a)11X≥a ) ≥ ϕ(a)
Z
11X≥a = ϕ(a)P (X ≥ a).
Spezialfälle
Eine beliebte Variation in der W-theorie ist eine monoton steigende positive
Funktion ϕ auf den positiven Zahlen und die Abschätzung, a ≥ 0
P (X ≥ a) ≤ P (|X| ≥ a) ≤
Eϕ(|X|)
.
ϕ(a)
Der Grundfall ist die Markoff Ungleichung , IR+ 3 x 7→ ϕ(x) = x,
E|X|
.
a
Diese Ungleichung verbessert sich in der Regel durch höhere Momente
P (X ≥ a) ≤ P (|X| ≥ a) ≤
P (X ≥ a) ≤≤
(1.4)
E|X|p
ap
p ≥ 1 und durch zentrieren
P (X ≥ a) ≤ P (|X − EX| ≥ a − EX)
für a ≥ EX. Die Tschebycheff Ungleichung lautet
Var(X)
.
a2
Ferner wird gerne das exponentielle Moment benutzt, ϕ(x) = etx , t > 0
P (|X − EX| ≥ a) ≤
(1.5)
EetX
.
eta
Der positive Parameter t, der nur auf der rechten Seite erscheint, wird eventuell geeignet (als
Minimum) gewählt.
Bemerkung: – Es gilt für a > 0, X ≥ 0
P (X ≥ a) ≤
EX p
≤ inf Ees(X−a) .
s>0
p>0 ap
inf
(Übung)
– Als Faustregel steigt die Güte der Ungleichung für kleine W-keiten mit der Höhe des (zentrierten)
Momentes und die exponentielle Abschätzung gibt zumindest asymptotisch die richtige Grös̈enordnung.
Die Tschebycheff-Markoff Ungleichungen haben zahlreiche Anwendungen.
45
Uwe Rösler
SS98
1.10
Ungleichungen
Beispiel
Bsp: Würfeln. Wie groß ist die W-keit bei tausendmaligem Würfeln eine Gesamtaugensumme
von mindestens 4000 zu erreichen.
Sei Xi die Augenzahl
des i-ten Wurfs. Diese Zgn sind unabhängig identisch verteilt. Wir schätzen
P1000
die Summe S := i=1 Xi auf verschiedene Weisen ab.
Die Tschebycheff Ungleichung ergibt
P (S ≥ 4000) ≤ P (S − ES ≥ 500) ≤
VarS
VarX
35/12
7
=
=
=
≈ 0, 0117.
2
500
250
250
600
Mit dem vierten zentrierten Moment ergibt sich
P (S ≥ 4000) ≤
18
E(S − ES)4
≤
≈ 0, 0003.
5004
62500
Zur Berechnung des 4-ten Momentes beachte
XXXX
(Xi − EXi )(Xj − EXj )(Xk − EXk )(Xl − EXl )
E(S − ES)4 = E
i
=
X
i
j
k
l
E(Xi − EXi )4 +
µ ¶X
4
E 2 (Xi − EXi )2 ≤ 18 · 106 .
2
i6=j
Noch höhere Momente bringen etwas bessere Abschätzungen. Eine wesentlich bessere Abschätzung
liefert die exponentielle Ungleichung, allerdings richtig angewendet 1.10.2.
Bsp: Quicksort. Per Induktion lassen sich die exponentiellen Momente von Qn für Quicksort
abschätzen,
t(Qn −EQn )
2
n
Ee
≤ et K
für alle |t| ≤ L und K = K(L) ∈ IR [?]. Die exponentielle Abschätzung liefert
P (Qn − EQn ≥ E|Qn |) ≤
const(t)
n2t
für jedes t und n. Daher ist Quicksort zuverlässig. Mit hoher Wahrscheinlichkeit ist die Laufzeit
von Quicksort in der Größenordnung des Erwartungswertes.
Bsp: Weierstraß Approximationssatz. Der Approximationssatz von Weierstraß besagt, jede
stetige Funktion f auf dem abgeschlossenen Einheitsintervall [0, 1] läßt sich gleichmäßig beliebig
gut durch Polynome approximieren (∀²∃g Polynom : supx |f (x) − g(x)| < ²).
Die Bernstein Polynome g
µ ¶
n
X
i n i
p (1 − p)n−i
f( )
g(p) :=
i
n
i=0
auf dem abgeschlossenen Einheitsintervall approximieren f .
Die Eigenschaft wird leichter ersichtlich aus der Darstellung g(p) = E(f ( B(p)
n )) mit B(p) eine
Binomialverteilung Bin(n, p) zu den Parametern n und p.
Sei aδ := sup{|f (x) − f (y)| | x, y ∈ [0, 1], |x − y| < δ} der Stetigkeitsmodul. aδ konvergiert mit
δ → 0 gegen 0. (Gleichmäßige Stetigkeit einer stetigen Funktion auf einem Kompaktum.) Zu
a1
²
vorgegebenem ² wähle ein δ mit aδ < ²/2 und ein n mit 4nδ
2 < 2 . Dann gilt
|f (p) − g(p)|
B(p)
B(p)
)| ≤ E|f (p) − f (
)|
n
n
B(p)
= E(|f (p) − f (
)|(11| B(p) −p|<δ + 11| B(p) −p|≥δ ))
n
n
n
a1 Var( B(p)
²
B(p)
n )
− p| ≥ δ) ≤ +
< ².
≤ aδ + a1 P (|
2
n
2
δ
= |E(f (p) − f (
Dies ist die behauptete gleichmäßige Konvergenz.
46
q.e.d.
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.10.2
SS98
Exponentielle oder Hoeffding Ungleichung
Uwe Rösler
Große Abweichungen:
Ziel des Gebietes großer Abweichungen ist die W-keit für großes Abweichen einer Zg von ihrem
Erwartungswert.
Wir betrachten hier P (S − ES ≥ c) ≤? für die n-te Partialsumme S = Sn =
Pn
i=1 Xi von uiv Zgn Xi .
Sei µ̂(t) := E(etX ), t ∈ IR, die Laplacetransformierte der Zg X mit Verteilung µ. Der Einfachheit halber sei µ̂(t) stets endlich und X keine Konstante. (Dies impliziert u.a. Dt µ̂(t) = E(XetX )
und Dt Dt µ̂(t) = E(X 2 etX ).)
Definiere die Cramér Transformierte Iµ : IR 7→ [0, ∞],
Iµ (x) := inf (ln µ̂(t) − tx).
t≥0
Iµ (x) ist wohldefiniert, da der rechte Term 0 wird für t = 0. Das Infimum in t wird angenommen
für ein t ≥ 0. Hierzu zeigen wir zuerst: Die Funktion t 7→ ln µ̂ ist eine konvexe Funktion. Die zweite
Ableitung
EXetX
)
µ̂(t)
E(X 2 etX ) E 2 (X 2 etX )
−
µ̂(t)
µ̂2 (t)
1
(E(eXt )E(X 2 etX ) − E 2 (XetX ) ≥ 0
2
µ̂ (t)
Dt Dt ln µ̂(t) = Dt (
=
=
ist positiv wegen der Cauchy-Schwarz Ungleichung ??. Daher ist die Funktion t 7→ ln µ̂(t) − xt
konvex für feste x. Die Ableitung in t = 0 ist
¯
EXetX ¯¯
Dt (ln µ̂(t) − tx)¯t=0 =
− x = EX − x.
µ̂(t) t=0
Das Infimum in t wird angenommen in t = 0 für EX − x ≥ 0 und für ein striktes t > 0 im Fall
EX − x < 0.
Satz 1.10.2 (Große Abweichungen) Seien Xn , n ∈ IN , unabhängige Zgn mit Verteilung µ.
Dann gilt für reelle c
P (Sn ≥ cn) ≤ enIµ (c) .
Beweis: Mit der exponentiellen Markoff Ungleichung erhalten wir für alle t ≥ 0
ln P (Sn ≥ na)
EetSn
etnc
= ln E n etX − ntc = n(ln µ̂(t) − tc).
= ln
Durch Infimumsbildung über alle t folgt die Aussage.
q.e.d.
Bem: Nur der Fall c ≥ EX ist interessant.
Eine ähnliche Ungleichung erhalten wir für P (Sn ≤ nc) durch Übergang von X → −X.
Die Crámer Transformierte ist in der Regel schwer zu berechnen. Daher die gröbere, aber handlichere
Abschätzung von Hoeffding.
Lemma 1.10.3 Sei a ≤ X ≤ b eine zentrierte Zg. Dann gilt für alle reellen Zahlen t ∈ IR
EetX ≤ e
t2 (b−a)2
8
Beweis: Sei OEdA t ≥ 0. Beachte a ≤ 0 ≤ b.
47
.
Uwe Rösler
SS98
1.10
Ungleichungen
−a
b
• EetX ≤ petb + qeta mit p := b−a
, q := 1 − p = b−a
.
Sei a ≤ x ≤ b. Aus der Konvexität der exponentiellen Funktion folgt
etx ≤
x − a tb b − x ta
e +
e .
b−a
b−a
Setze für x die Zg X ein und integriere.
u2
• petb + qeta = (q + peu )e−pu ≤ e 8 mit u := t(b − a).
Die erste Gleichung rechnen wir nach. Für die Ungleichung zeigen wir für die Funktion
2
f (u) := u8 −pu+ln(q +peu ) die hinreichenden Eigenschaften f (0) = 0, f 0 (0) = 0, f 00 (u) ≥ 0.
peu
Es gilt f 0 (u) = u4 − p + q+pe
u und
f 00 (u) =
pqeu
(p + qeu )2 − 4pqeu
1
−
=
≥ 0.
4 (q + peu )2
4(p + qeu )2
Die Eigenschaften sind erfüllt.
q.e.d.
Satz 1.10.4 (Hoeffding) Seien die unabhängigen ZufallsvariablenPX1 , . . . , Xn zentriert und beschränkt ai ≤ Xi ≤ bi , 1 ≤ i ≤ n. Dann gilt für die Summe S := i Xi und jede positive reelle
Zahl c > 0
2c2
).
P (S ≥ c) ≤ exp(− P
2
i (bi − ai )
Beweis: Die exponentielle Ungleichung für ein positives t ergibt
Y
EetS
= e−tc
EetXi
tc
e
i
Y t2 (bi −ai )2
t2 d
−tc
8
e
≤ e
= e 8 −tc
P (S ≥ c) ≤
i
P
mit d := i (bi − ai )2 . Die linke Seite ist unabhängig von t. Die rechte Seite als Funktion in t wird
minimiert für t = 4c/d ≥ 0. Mit diesem Wert erhalten wir die Abschätzung.
q.e.d.
Aus Symmetriegründen erhalten wir die Abschätzung
−P
P (S ≤ −c) ≤ e
und für den Betrag der Summe
−P
P (|S| ≥ c) ≤ 2e
2c2
i
(bi −ai )2
i
(bi −ai )2
2c2
.
Beispiel
Würfeln: Die Hoeffding Ungleichung auf obige Fragestellung “Wie groß ist die W-keit bei tausendmaligem
Würfeln eine Augensumme von mindestens 4000 zu erreichen” angewandt, ergibt
2·5002
P (S1000 ≥ 4000) = P (S1000 − ES1000 ≥ 500) ≤ e− 1000·25 = e−20 ≈ 2 · 10−9 .
Diese Abschätzung mit der Hoeffding Ungleichung ist wesentlich besser als diejenigen mit der
Markoff oder Tschebycheff Ungleichung.
48
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.10.3
Jensen Ungleichung
SS98
Uwe Rösler
Definition 1.10.5 (konvex) Eine reellwertige Funktion ϕ auf einem Intervall heißt konvex,
falls für alle x 6= y aus dem Intervall und alle t ∈ (0, 1) gilt
ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y).
ϕ heißt strikt konvex, falls in obiger Ungleichung stets strikt kleiner gilt.
Satz 1.10.6 (Jensen Ungleichung) Für jede konvexe reellwertige Funktion ϕ : IR 7→ IR und
jede reellwertige Zg X gilt
E(ϕ(X)) ≥ ϕ(E(X)),
vorausgesetzt die Erwartungen sind wohldefiniert. Ist ϕ strikt konvex, X keine Konstante mit
Wahrscheinlichkeit 1 und die |Eϕ(X)| endlich, so gilt strikt größer in der Ungleichung.
Beweis: Sei l eine lineare Funktion mit l ≤ ϕ und l(x0 ) = ϕ(x0 ) für x0 = EX. (Für eine
differenzierbare Funktion ϕ nehme l(x) = ϕ0 (x0 )(x − x0 ) + ϕ(x0 ) ≤ ϕ(x).) Argumentiere
E(ϕ(X)) ≥ E(l(X)) = l(E(X)) = ϕ(E(X)).
Ist ϕ strikt konvex, so gilt l(x) < ϕ(x) für alle x 6= x0 .
q.e.d.
Merkregel:
Falscher Effee
Bsp: Momentenabschätzung. Die Funktion ϕ(x) = |x|p ist konvex für p ≥ 1. Die Jensen
Ungleichung ergibt E|X|p ≥ E p |X|.
Die Ungleichungen gelten mit umgekehrter Richtung für konkave Funktionen. Eine Funktion ϕ ist
konkav genau dann, wenn −ϕ konvex ist.
Bsp: Entropie. Die Entropie eines diskreten W-mas̈es P auf einem endlichen Stichprobenraum
Ω wird definiert durch
X
1
.
P (ω) ln
H(P ) :=
P (ω)
ω∈Ω
Die Entropie ist stets positiv und die Entropie eines Punktmaßes ist 0.
Proposition 1.10.7 Die gleichmäßige Verteilung auf einem endlichen Stichprobenraum hat die
größte Entropie unter allen W-maßen darauf.
Beweis: Der Stichprobenraum habe n Elemente. Sei P die Gleichverteilung und Q irgendeine
andere Verteilung.
X1
X
X
X
1
1
1
P (ω) ln
P (ω)
P (ω) ln
−
ln n =
≤ ln(
= ln 1 = 0.
H(Q)−H(P ) =
P
(ω)
n
nP
(ω)
nP
(ω)
ω
ω
ω
ω
q.e.d.
Bem: Die Entropie einer Verteilung hat die Interpretation eines Informationsgehalts, den eine
Zg zu dieser Verteilung besitzt. Für Punktmaße ist die Ungewissheit 0, denn ein Zg mit dieser
Verteilung liefert die genaue Verteilung. Die grös̈te Ungewissheit besteht, falls die Gleichverteilung
vorliegt. Wenn wir nichts wissen, sprechen wir von einer fifty-fifty Chance. Dies ist die größte
vorstellbare Ungewissheit.
Bem: Die Jensen Ungleichung gilt für W-maße, aber nicht für Maße allgemein.
Mehrere interessante Ungleichungen folgen aus der Jensen Ungleichung in folgender verallgemeinerter
Form:
Korollar 1.10.8 (Jensen) Sei ϕ : I 7→ IR eine konvexe Funktion, µ ein
R Maß auf den reellen
Zahlen und µ(I c ) = 0. Seien f, g meßbare Funktionen und sei g ≥ 0, 0 < gdµ < ∞. Dann gilt,
Wohldefiniertheit vorausgesetzt,
R
R
f
gϕ(f /g)
R
ϕ( R ) ≤
.
g
g
49
Uwe Rösler
SS98
Beweis: Durch ν(A) :=
Jensenungleichung ergibt
1
a
R
A
1.10
gdµ, A ∈ A, und a :=
linke Seite = ϕ
Z
f
dν ≤
g
Z
R
Ungleichungen
gdµ wird ein W-maß ν definiert. Die
f
ϕ( )dν = rechte Seite
g
Normungleichungen
Definition 1.10.9 (Norm) Die Abbildungen k · kp , 1 ≤ p ≤ ∞,
kXkp := (E(|X|p ))1/p ,
1≤p<∞
kXk∞ := inf{a ∈ IR | P (|X| > a) = 0}
von Zgn in die erweiterten rellen Zahlen heißen Lp -Norm. Beachte für diskrete W-räume
kXk∞ = sup{|X(ω)| | P (ω) > 0}.
Satz 1.10.10 (Hölder Ungleichung) Für Zgn X, Y und reelle Zahlen 1 ≤ r, p, q ≤ ∞ mit
1
1
1
r = p + q gilt die Ungleichung
kXY kr ≤ kXkp kY kq .
Im Falle 1 < p, q < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder |X|p kY kqq =
|Y |q kXkpp mit Wahrsch. 1 gilt.
Beweis: Den Wert 1/∞ interpretieren wir konventionell als 0.
• Der Satz gilt für kXkp = 0 oder kY kq = 0.
Die Bedingungen implizieren X ≡ 0 oder Y ≡ 0 mit Wahrsch. 1. Damit ist XY = 0 mit W.
1.
• Der Satz ist ebenfalls einfach für p = ∞ oder q = ∞.
Aus Symmetriegründen sei p = ∞. Es folgt q = r.
kXY krr = E|XY |r ≤ sup{|X(ω)|r | P (ω) > 0}E|Y |r = kXkr∞ kY kqq .
• Sei also 1 ≤ p, q < ∞. Die exponentielle Funktion ist konvex, d.h. ∀x, y ∈ IR, t ∈ [0, 1]:
etx+(1−t)y ≤ tex + (1 − t)ey .
|Y (ω)|
Das Einsetzen der speziellen Werte t := pr , 1 − t = rq , x = p ln |X(ω)|
kXkp , y = q ln kY kq ergibt
µ
|X(ω)Y (ω)|
kXkpp kY kqq
¶r
r
≤
p
µ
|X(ω)|
kXkp
¶p
r
+
q
µ
|Y (ω)|
kY kq
¶q
für jede Realisierung ω. Durch Übergang zum Erwartungswert auf beiden Seiten erhalten
wir die Aussage
µ
¶r
|X(ω)Y (ω)|
r
r
E
≤ + .
kXkpp kY kqq
p q
Gleichheit gilt, falls für alle Realisationen ω von strikt positiver Wahrsch. die obige Ungleichung
eine Gleichung ist. Dies ist äquivalent (die exponentielle Funktion ist strikt konvex) zu x = y
oder t = 0 bzw. t = 1. Hiervon verbleibt in diesem Fall nur x = y, was zu
|X(ω)|p
|Y (ω)|q
p =
kXkp
kY kqq
führt.
q.e.d.
50
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Satz 1.10.11 (Minkowski Ungleichung) Es gilt für 1 ≤ p ≤ ∞
Uwe Rösler
kX + Y kp ≤ kXkp + kY kp .
Im Falle 1 ≤ p < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder X und Y
positive Vielfache mit Wahrsch. 1 voneinander sind.
Beweis: Sei oEdA kX + Y kp > 0.
• Der Fall p = ∞ ist einfach,
kX + Y k∞ = sup |X(ω) + Y (ω)| ≤ sup |X(ω)| + sup |Y (ω)| = kXk∞ + kY k∞ .
P (ω)>0
• Für 1 ≤ p < ∞ erhalten wir aus der Hölder Ungleichung, 1 = 1/p + 1/q gesetzt,
kX + Y kpp
= k|X + Y ||X + Y |p−1 k1 ≤ k|X||X + Y |p−1 k1 + k|Y ||X + Y |p−1 k1
≤ kXkp k|X + Y |p−1 kq + kY kp k|X + Y |p−1 kq = (kXkp + kY kp )k|X + Y |kpp−1 .
• Für die Gleichheit betrachten wir der Einfachheit halber nur 0 < kXkp , kY kp < ∞ und
P (ω) > 0. Die Gleichheit von |X(ω) + Y (ω)| = |X(ω)| + |Y (ω)| liefert dasselbe Vorzeichen
von X und Y . Aus Gleichheit in der angewandten Hölder Ungleichung folgt |X|p und |X +Y |q
und auch |Y |p und |X + Y |q sind positive Vielfache voneinander. Damit auch sind auch X
und Y positive Vielfache voneinander.
q.e.d.
Bem: Die Hölder Ungleichung und die Minkowski Ungleichung als Folgerung gilt allgemein für
Maße anstelle von W-maßen.
Bsp: – Die Cauchy-Schwarz Ungleichung ist ein Spezialfall der Hölder Ungleichung mit r = 1, p =
2 = q.
– Die Tchebycheff-Cantelli Ungleichung
P (X − EX ≥ a) ≤
VarX
VarX + a2
für a ≥ 0 ist etwas stärker als die Markoffungleichung. Diese folgt aus, oEdA sei X zentriert,
a2 ≤ E 2 (a − X)11X<a ≤ (E(a − X)2 )E11X<a = (V arX + a2 )P (X < a).
Vektoräume von Zgn∗
Der Raum Lp (Ω) = Lp , 1 ≤ p ≤ ∞ aller Zufallsvariablen X : Ω 7→ IR mit kXkp < ∞ ist ein
Vektorraum. (Beachte: Lp ist abgeschlossen bezüglich der Addition von Funktionen aufgrund der
Minkowski Ungleichung.)
Die Abbildung k · kp : Lp 7→ IR ist eine Pseudonorm auf dem Raum Lp . (Eine Pseudonorm k.k ist
eine Norm bis auf die Eigenschaft kvk = 0 ⇒ v = 0.) Die Abbildung k · kp ist eine Norm genau
dann, wenn P (ω) > 0 gilt für alle ω ∈ Ω. (Nachrechnen).
Durch Äquivalenzbildung erhalten wir einen normierten Vektorraum. Definiere die Äquivalenzrelation
X ∼ Y ⇔ kX − Y kp = 0 für X, Y ∈ Lp , 1 ≤ p ≤ ∞.
Der Raum
Lp := {[X] | X ∈ Lp }
der Äquivalenzklassen [X] := {Y ∈ Lp | X ∼ Y } mit den Verknüpfungen + und · definiert durch
[X] + [Y ] := [X + Y ], a · [X] := [aX], a ∈ IR, ist ein Vektorraum. Die Abbildung k · kp : Lp 7→
IR definiert durch k[X]kp := kXkp ist eine Norm auf Lp . (Zu zeigen ist die Wohldefiniertheit,
d.h. die getroffenen Definitionen sind unabhängig von der Auswahl der Repräsentanten bzw. der
Darstellung [X] = [Y ].)
51
Uwe Rösler
SS98
1.10
Ungleichungen
Notation: Wir unterscheiden in Zukunft nur im Falle möglicher Mißverständnisse zwischen Zgn
und den zugehörigen Äquivalenzklassen.
In unserem Setup diskreter W-räume gibt es einen anschaulicheren Vektorraum Lp (Ω0 ) isomorph
zu Lp . Betrachte den Teilraum Ω0 aller ω mit strikt positiver Wahrsch. Dann ist (Lp (Ω0 ), k · kp ) ein
normierter Vektorraum isomorph zu (Lp , k · kp ). Beachte X ∼ Y genau dann, falls X und Y auf
Ω0 übereinstimmen. Einer Äquivalenzklasse [X] ordnen wir bijektiv die Abbildung X : Ω0 7→ IR
zu.
Lemma 1.10.12 Für 1 ≤ p ≤ q gilt Lp ⊃ Lq und die Normabschätzung
kXkp ≤ kXkq .
Beweis: Aus der Jensen Ungleichung folgt E|X|q = E(|X|q/p )p ≥ (E|X|q/p )p .
Definition 1.10.13 (Banachraum) Ein vollständiger normierter Vektorraum (V, k · k) heißt
Banachraum. Äquivalent ist, daß jede Cauchyfolge (vn ∈ V, n ∈ IN , mit ∀² > 0∃n0 ∀m, n > 0 :
kvn − xm k < ²) konvergiert (∃v ∈ V ∀² > 0∃n0 ∀n > n0 : kvn − vk < ²).
Satz 1.10.14 (Fischer-Riesz) Der Raum (Lp , k · kp ), 1 ≤ p ≤ ∞, ist ein Banachraum.
Beweis: Sei Xn eine Cauchyfolge in dem normierten Vektorraum (Lp , k · kp ), 1 ≤ p ≤ ∞. Wähle
eine Teilfolge Xni mit ni →i ∞ aufsteigend und
X
kXni+1 − Xni kp < ∞.
i
Für jede Realisation ω von strikt positiver Wahrsch. ist die Folge Xni (ω) eine Cauchyfolge in den
reellen Zahlen. Diese haben einen Grenzwert, genannt X(ω). Diese Zg X tuts.
P
•
i |Xni+1 (ω)
P − Xni (ω)| < ∞ (falls P (ω) > 0.)
Sei YN := i≤N |Xni+1 (ω) − Xni (ω)|, N ∈ IN ∪ {∞}.
Es gilt
kY∞ kp -N kYN kp ≤
• X(ω) := Xni +
Lp
P
X
i≤N
j≥i (Xnj+1 (ω)
kXni+1 − Xni kp %N
X
i∈IN
kXni+1 − Xni kp < ∞.
− Xnj (ω)) wohldefiniert für ω mit P (ω) > 0. Klar
• Xni →i X.
P
P
kXni − Xkp ≤ k j≥i |Xnj+1 − Xnj |kp ≤ j≥i kXnj+1 − Xnj kp →i 0.
Lp
• Xn →i X.
kXn − Xkp ≤ kXn − Xni kp + kXni − Xkp →n,ni 0.
• X ∈ Lp
kXkp ≤ kX − Xn kp + kXn kp < ∞.
q.e.d.
Satz 1.10.15 Der Raum (L2 , k · k2 ) ist ein Hilbertraum. Die Bilinearform < ., . >: L2 × L2 7→ IR
gegeben durch
< X, Y >= EXY
√
erzeugt die Norm kXk2 := < X, X >.
Der Covarianzoperator Cov : L2 × L2 7→ IR ist eine positiv definite Bilinearform.
Beweis: Der Vektorraum L2 der Äquivalenzklassen ist ein Banachraum Theorem 1.10.14. Der
Rest ist einfach.
Beachte: Unabhängigkeit ist mehr als Unkorreliertheit von Zgn.
Unkorrelierte zentrierte Zgn sind orthogonal im Hilbertraum.
52
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Allgemeinwissen:
Hilberträume mit gleicher Kardinalität einer Basis sind isomorph.
Die L2 -Räume diskreter W-räume haben endliche oder abzählbare Basis. Die Dimension des
Hilbertraumes L2 (Ω) ist die Anzahl der ω ∈ Ω mit P (ω) > 0.
53
Uwe Rösler
1.11
SS98
1.11
Gesetze der Großen Zahl
Gesetze der Großen Zahl
Es gibt ein schwaches Gesetz der Großen Zahl (GGZ) und ein starkes.
Im folgenden verwenden wir abzählbare Folgen von Zgn auf einem gemeinsamen W-raum. Die
Existenz solcher W-räume ist nicht trivial und der W-raum in der Regel kein diskreter Wraum mehr. Die Verwendung eines gemeinsamen W-raumes geschieht aus rein schreibtechnischen
Gründen der Eleganz. Alle folgenden Aussagen lassen sich sinngemäß umformen unter ausschließlicher
Verwendung diskreter W-räume und endlich vieler Zgn.
P
X
wie bisher eine
Wir benutzen EX weiterhin in dem Sinne EX =
x xP (X = x), wobei P
diskrete Verteilung ist.
1.11.1
Schwache GGZ
Definition 1.11.1 (stochastische Konvergenz) Eine Folge von Zgn Xn konvergiert stochastisch
oder in Wahrscheinlichkeit gegen eine Zg X, falls P (|Xn − X| > ²) →n 0 für alle ² > 0 gilt.
Notation:
s
P
Xn →n X oder auch Xn →n X.
Definition 1.11.2 (schwache
Pn GGZ) Eine Folge Xn , n ∈ IN , genügt dem schwachen Gesetz
der Großen Zahl, falls n1 i=1 (Xi − EXi ) stochastisch gegen 0 konvergiert,
n
1X
s
(Xi − EXi ) →n 0.
n i=1
Definition 1.11.3 (identisch verteilt) Eine Folge von Zgn Xn , n ∈ IN , heißt identisch verteilt,
falls alle Xn dieselbe Verteilung besitzen.
Satz 1.11.4 (Schwache Gesetz der Großen Zahl) Eine Folge von unabhängig, identisch verteilten
Zgn mit endlichem zweiten Moment genügt dem schwachen Gesetz der Großen Zahl.
s
Memokürzel : Snn →n EX.
Beweis: Wir verwenden die Tschebycheff Ungleichung 1.5
¢
¡ Sn − ESn
¢ VarSn
¡ Sn
VarX1
− EX| > ² = P |
|>² ≤ 2 2 =
→n 0.
P |
n
n
n ²
n²2
Die grundlegende Bedeutung des schwachen Gesetzes der Großen Zahl rechtfertigt den Namen
Erster Hauptsatz der Wahrscheinlichkeitstheorie.
Bsp: Würfeln. Die Zgn Xn , n ∈ IN , für die jeweilig erwürfelte n-te Augenzahl sind unabhängig
identisch verteilt. Die durchschnittliche Augenzahl Snn in n Würfen
Pnkonvergiert in Wahrsch. gegen
den Erwartungswert 3, 5. Die relative Häufigkeit der Sechsen 1/n i=1 11Xi =6 konvergiert schwach
gegen einsechstel 1/6.
Bsp: Spieler. Seien Xn , n ∈ IN , uiv Zgn und Sn die n−te Partialsumme. Die Zg Xn interpretieren
wir als Auszahlung bei dem n-ten Spiel für den Spieler. Diese kann positiv und negativ (Einsatz)
sein. Den Wert Sn interpretieren wir als das Spielkapital des Spielers nach dem n−ten Spiel.
s
Das schwache Gesetz der Großen Zahl besagt Snn →n EX. Ist EX > 0, so ist es auf lange Sicht
vorteilhaft für den Spieler zu spielen. Auf lange Sicht gewinnt der Spieler mit beliebig hoher
Wahrscheinlichkeit.
Trotzdem könnte Snn , jetzt als Funktion in n betrachtet, immer mal wieder weit weg von EX sein.
(Dies ist nicht der Fall.)
Beachte, der Satz besagt nicht limn Snn = EX punktweise.
Bsp: Falschspieler. Eine gegebene Münze ist eventuell gefälscht. Falls sie gefälscht ist, so ist
die Wahrsch. p für einen Kopfwurf, identifiziert mit 1, einviertel, p = 1/4. Die relative Häufigkeit
54
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Sn /n der Kopfwürfe wird gegen den Wert p konvergieren. Dieser ist 1/4 oder 1/2. Damit können
wir mit beliebig großer Sicherheit, aber nie absoluter, eine eventuelle Fälschung erkennen.
Bsp: Statistik. Das Grundproblem jeglicher Statistik ist eine Entscheidung, ob eine Verteilung
P oder Q vorliegt. Dabei seien der Einfachheit halber P und Q bekannt. Falls wir unabhängige
Experimente machen können, erhalten wir uiv Zgn X1 , X2 , P
. . . mit der Verteilung P bzw. Q. Wähle
n
eine Menge A mit P (A) 6= Q(A). Die relative Häufigkeit n1 i=1 11Xi ∈A konvergiert schwach gegen
den Grenzwert E(X1 ) = P (A) unter P und gegen E(X1 ) = Q(A) unter Q. Mit großer Wahrsch.
läßt sich die wahre Verteilung P oder Q bestimmen.
Bsp: Schreibender Affe. Ein Affe tippt zufällig eine unendliche Folge von Buchstaben in den
Komputer. Jeder Buchstabe ist gleichberechtigt. Wie häufig kommt durchschnittlich das Wort
Bahnhof in dieser Folge vor?
Mathematisches Modell : Seien Xn , n ∈ IN , unabhängige Zgn mit der Gleichverteilung auf den
Buchstaben A,B,...,Z. Definiere
Yn := 11(Xn ,...,Xn+6 )=(B,A,H,N,H,O,F ) .
Pn
Sei Sn := i=1 Yi die relative Häufigkeit des Wortes ’BAHNHOF’ in der Folge (X1 , . . . , Xn+6 ).
Dann konvergiert Snn stochastisch gegen den Erwartungswert EY1 .
P (|
Var(Sn )
Sn − ESn
| ≥ ²) ≤
.
n
n2 ²2
Zur Berechnung der Varianz beachte E((Yi − EYi )(Yj − EYj )) = 0 für |i − j| > 7.
Var(Sn ) = E
n
n X
X
i=1 j=1
(Yi − EYi )(Yj − EYj ) ≤ cn
mit c eine Konstante.
Variationen
Satz 1.11.5 Eine Folge Xn , n ∈ IN , quadratintegrierbarer, unkorrelierter Zgn mit
Pn
i=1 Var(Xi )
→n 0
n2
genügt dem schwachen GGZ.
Beweis: OBdA seien die Zgn zentriert. Beachte EXi Xj = 0 für i 6= j.
Aus
n X
n
n
n
X
X
X
VarSn = E
Xi Xj =
EXi2 =
VarXi
i=1 j=1
i=1
i=1
mit Anwendung der Tschebycheff Ungleichung ergibt sich
P (|
VarSn
Sn
| > ²) ≤ 2 2 →n 0.
n
n ²
q.e.d.
Strukturell folgert der obige Satz aus der L2 −Konvergenz die stochastische Konvergenz.
Proposition 1.11.6 Lp Konvergenz für ein p ∈ [1, ∞] impliziert stochastische Konvergenz.
Beweis: Der Fall p = ∞ ist einfach. Für 1 ≤ p < ∞ argumentiere
P (|Xn | > ²) ≤
E|Xn |p
→n 0.
²p
In dem folgenden Satz benutzen wir (exemplarisch) die Abschneidetechnik.
55
Uwe Rösler
SS98
1.11
Gesetze der Großen Zahl
Satz 1.11.7 (Khintschin) Eine Folge unabhängiger, identisch verteilter und integrierbarer Zgn
erfüllt das schwache GGZ.
Beweis: Seien Xn , n ∈ IN , die uiv Zgn.
Zu vorgegebenem
Pn² > 0 wähle ein a mit E|Xi −Yi | < δ wobei Yi die abgeschnittenen Zgn Xi 11|Xi |≤a
sind. Sei Tn := i=1 Yi die n−te Partialsumme der Y 0 s.
Sn − Tn
Tn
Sn
− EX1 | > ²) ≤ P (|
| > ²/3) + P (|
− EY1 | > ²/3) + P (|EY1 − EX1 | > ²/3).
n
n
n
Alle Terme sind klein.
P (|
• Für den ersten verwende
≤
E|Sn − Tn |
nδ
3δ
≤
= .
n²/3
n²/3
²
• Für den zweiten verwende das schwache GGZ.
• Der dritte Term ist 0 für δ hinreichend klein.
q.e.d.
Das schwache GGZ als Verteilungskonvergenz ∗
Das GGZ läßt sich ausschließlich durch Maße ohne Zuhilfenahme von Zgn formulieren.
Definition 1.11.8 (Faltung) Die Faltung von Maßen ist eine Abbildung ∗ : M × M 7→ M mit
M die Menge aller (diskreter) Maße auf den reellen Zahlen, B ⊂ IR
X
µ(x)ν(y).
µ ∗ ν(B) :=
x+y∈B
Für W-maße P und Q ergibt sich P ∗ Q als Verteilung von zwei unabhängigen Zgn X und Y
mit Verteilung P bzw. Q. ‘ Für a ∈ IR\{0} definiere Ta : M 7→ M via Ta (µ)(B) = µ(aB),
aB := {ab | b ∈ B}. Sei µ die Verteilung einer Zg X, so ist X/a verteilt nach Ta (µ).
Definition 1.11.9 (Konvergenz dem Maße nach) Eine Folge νn , n ∈ IN , von W-maßem auf
den reellen Zahlen konvergiert dem Maße nach gegen das Punktmaß δa auf a ∈ IR, falls gilt:
X |x − a|
νn (x) →n 0.
1 + |x − a|
x
Beachte: Xn konvergiert stochastisch gegen X genau dann, wenn die Verteilung von Xn − X dem
Maße nach gegen 0 strebt.
Proposition 1.11.10
s
X n →n 0 ⇔ E
Beweis: • “⇒”
E
|Xn |
→n 0.
1 + |Xn |
|Xn |
|Xn |
|Xn |
=E
11|Xn |≤² + E
11|Xn |>² .
1 + |Xn |
1 + |Xn |
1 + |Xn |
²
Den ersten Term schätzen wir durch 1+²
≤ ² ab, der zweite konvergiert in n gegen 0.
• “⇐”
|Xn |
|Xn |
²
|Xn |
=E
11|Xn |≤² + E
11|Xn |>² ≥ 0 +
P (|Xn | > ²).
0 ←n E
1 + |Xn |
1 + |Xn |
1 + |Xn |
1+²
q.e.d.
Der folgende Satz ist eine Umformulierung des schwachen GGZ.
P
Satz 1.11.11 (Schwache GGZ) Sei µ ein W-maß mit x∈IR x2 µ(x) <P∞ und µn die n−fache
Faltung. Dann konvergiert Tn (µn ) stochastisch gegen das Punktmaß auf x xµ(x).
56
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.11.2
Starke GGZ
SS98
Uwe Rösler
Das schwache Gesetz der Großen Zahl ist eigentlich eine Verteilungskonvergenzaussage für Zgn und
damit unbeeinflußt vom zugrunde gelegten W-raum. Das starke GGZ ist eine Konvergenzaussage
für Zufallsgrößen als Funktionen auf einem W-raum. Für diskrete Zgn fallen beide Begriffe zusammen.
Definition 1.11.12 (fast sichere Konvergenz) Eine Folge von Xn konvergiert fast sicher
gegen eine Zg X, falls Xn gegen X punktweise konvergiert mit Wahrsch. 1, P ({ω | limn Xn (ω) =
X(ω)) = 1.
f.s.
Notation: Wir schreiben Xn = X.
Im allgemeinen sind die stochastische Konvergenz und die fast sichere Konvergenz verschiedene
Konvergenzarten. Für diskrete Zgn sind sie identisch.
Proposition 1.11.13 Sei (Ω, A, P ) ein diskreter W-raum.
Dann sind stochastische Konvergenz und fast sichere Konvergenz dasselbe.
f.s.
s
Beweis: • Xn →n X ⇒ Xn →n X
Sei An := {ω | ∃i ≥ n |Xi (ω) − X(ω)| > ²}. An ist fallend gegen die leere Menge (fast sicher) und
es folgt P (An ) &n P (∅) = 0. Dies gilt für alle ² > 0.
s
f.s.
• X n →n X ⇒ X n →n X
Wesentlich ist die spezielle Eigenschaft P ({ω | P (ω) > 0}) = 1 für diskrete W-räume. Sei
B² := {ω | P (ω) > ²}). Für alle ω ∈ B² gilt limn Xn (ω) = X(ω). (Übung). Dann argumentiere
P (B² ) →²→0 P ({ω | P (ω) > 0}) = 1.
q.e.d.
Proposition 1.11.14 Eine Folge Xn , n ∈ IN , genügt dem starken Gesetz der Großen Zahl,
n
falls Sn −ES
fastP
sicher gegen 0 konvergiert.
n
n
Hierbei ist Sn = i=1 Xi die n−te Partialsumme.
57
Uwe Rösler
1.12
SS98
1.12
Poissonapproximation
Poissonapproximation
Wir behandeln die Poissonapproximation der Binomialverteilung für seltene Ereignisse. Die Summe
vieler unabhängiger Bernoulli Zgn mit kleiner Erfolgsw-keit ist ungefähr Poissonverteilt.
Satz 1.12.1 Sei (pn )n∈IN eine Folge reeller Zahlen mit Werten in [0, 1] und npn konvergiere gegen
eine reelle Zahl λ > 0.
Dann konvergiert für jedes k die Binomialwahrsch. von k gegen die Poisssonwahrsch. von k,
µ ¶
λk
n k
Bin(n, pn )(k) =
pn (1 − pn )n−k →n Poi(λ)(k) = exp(−λ) .
k!
k
Beweis: In der Zerlegung
Bin(n, pn )(k) =
n−k+1 1
1
nn−1
...
(npn )k (1 − pn )n−k →n λk e−λ
{z
}
n } k! | {z } |
k!
|n n
{z
II
I
III
benötigen wir die Konvergenz der Faktoren I →n 1, II →n λk und III →n e−λ .
Dies ist erfüllt. (Die letzte Konvergenz folgt aus
−
x2
x
≤ ln(1 − x) ≤ −x −
1−x
2
(1.6)
für x ∈ (0, 1) aus dem Einheitsintervall. (Übung.)
q.e.d.
Die obige Aussage ist eine lokale Aussage, die Wahrsch. eines Punktes k betreffend. Es ist eine
reine Konvergenzaussage, sie gibt keine Abschätzung über die Abweichung. Jetzt eine stärkere,
globale Konvergenzaussage, die gesamte Verteilung betreffend.
Totalvariation:
Als Abstandsbegriff für W-Maße P, Q wählen wir den Totalvariationsabstand
d(P, Q) = sup |P (A) − Q(A)|.
A∈A
Dies ist eine Metrik auf dem Raum aller W-Maße (zu einem meßbaren Raum). (Nachrechnen.)
Das Supremum wird angenommen durch das Ereignis A aller Realisationen ω mit strikt größerem
P-Maß als Q-Maß, P (ω) > Q(ω). Die Beziehung d(P, Q) = P (A) − Q(A) = Q(Ac ) − P (Ac ) führt
uns für diskrete W-räume zu der Formel
1X
d(P, Q) =
|P (ω) − Q(ω)|
(1.7)
2 ω
zur Berechnung der Totalvariation. (Übung)
Notation:
Für Zgn benutzen wir d(X, Y ) = d(P X , P Y ).
Lemma 1.12.2 Die Summe von unabhängigen Zgn mit Poissonverteilung ist wieder poissonverteilt
mit der Summe der Einzelparameter als Parameter.
Beweis: Es reicht die Behauptung für zwei Zgn zu beweisen.
Seien X, Y die unabhängigen Zgn mit Verteilung Poi(λ1 ) und Poi(λ2 ).
P (X + Y = k) =
X
P (X = i)P (Y = j) =
i=0
{i,j|i+j=k}
= eλ1 +λ2
k µ
X
i=0
k
X
k
i
¶
λi1 λ2k−i
k!
= eλ1 +λ2
eλ1 +λ2
λi1 λ2k−i
i!(k − i)!
(λ1 + λ2 )k
.
k!
q.e.d.
58
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Wir beweisen die Poissonapproximation jetzt durch Konstruktion von speziellen gekoppelten Zgn.
Diese Technik wird coupling genannt.
Satz 1.12.3 Seien X1 , . . . , Xn unabhängige Bernoulli verteilte Zgn zum Parameter P (Xi = 1) =
pi . Sei S = X1 + . . . + Xn die Summe dieser und sei T eine poissonverteilte Zg zum Parameter
p1 + . . . + pn . Dann gilt
n
n
d(S, T ) =
X
1X
p2i .
|P (S = k) − P (T = k)| ≤
2
i=1
k=0
Beweis: Dieser Satz sagt etwas über die Verteilungen der Zgn aus. Der zugrundeliegende W-raum
spielt hierbei keine Rolle.
Wir konstruieren auf einem geeigneten W-raum folgende Zgn.
Seien Zi , i = 1, . . . , n unabhängige Zgn mit Werten −1, 0, 1, . . . und der Verteilung

k = −1
 1 − pi
e−pi − 1 + pi
k=0
P (Zi = k) =
 −pi k
k = 1, 2, 3 . . .
e pi /k!
Wir betrachten die Zgn Xi := 11Zi ≥0 und Yi := Zi ∨ 0.
• Die Zgn Xi , i ∈ IN , sind unabhängige Zgn und Xi hat Bernoulli Verteilung zum Parameter pi .
• Die Zgn Yi , i ∈ IN , sind unabhängige Zgn und Yi hat Poisson Verteilung zum Parameter pi .
Wesentlich ist die Abschätzung
P (Xi 6= Yi ) = P (Zi ≥ 2, Zi = 0) = 1 − P (Zi = −1) − P (Zi = 1) = pi (1 − e−pi ) ≤ p2i .
Die Summe T :=
Wir schätzen ab
P
2d(S, T )
=
i
Yi ist Poisson verteilt zum Parameter
X
k
|P (S = k) − P (T = k)| =
≤ 2P (S 6= T ) ≤
X
i
X
k
P (Xi 6= Yi ) ≤ 2
P
i
pi .
|P (S = k 6= T ) − P (T = k 6= S)|
X
p2i .
i
q.e.d.
Bemerkung: Die Summe von n unabhängigen Bernoulli Zgn zum Parameter p ist binomialmialverteilt
zum Parameter n, p. In dieser Form wird der Satz meistens angewandt. Das n sollte groß sein, das
p klein.
Bsp: Geburtstage. In einem Hörsaal sind 100 Studenten. Wieviele haben heute Geburtstag?
Sei Xi die Bernoulli Zg der i-te Student hat Geburtstag. Wir nehmen an, diese Zgn sind unabhängig
identisch Bernoulli verteilt zum Parameter 1/365. (Die Aufgabe stammt aus einer Zeit, als Sonntagsarbeit
in Krankenhäusern noch üblich war.) Die Anzahl S100 der Geburtstage ist Binomial Bin(100, 1/365)
verteilt. Die Poissonapproximation liefert
P (S100 = 0) ≈ exp(−100/365) ≈ .76
200
1
Der Fehler |P (S100 = 0) − exp(−100/365)| dieser Approximation ist beschränkt durch 365
2 ≈ 800 .
Bsp: Warendefekte. Bei einer Massenware sind einzelne Exemplare bereits bei der Produktion
mit einer kleinen Wahrsch. p defekt. Ein Kunde bestellt k intakte Exemplare. Um die Wünsche des
Kunden zu erfüllen und den Kunden zufriedenzustellen, wird der Lieferant vorsichtshalber einige
Exemplare mehr liefern. Auch dann hat er keine absolute Sicherheit, aber eine hohe.
Wieviel Exemplare n muß eine Sendung enthalten, damit der Kunde mit Wahrsch. α mindestens
k intakte erhält?
59
Uwe Rösler
SS98
1.12
Poissonapproximation
Mathematisches Modell: Seien X1 , . . . , Xn unabhängige Zgn mit Bernoulliverteilung Ber(p). Xi = 1
bezeichne ein defektes i−tes Exemplar. Das Problem reduziert sich auf das Finden der kleinsten
Zahl n mit
n−k
X
Poi(np)(i).
α ≤ P (k ≤ n − Sn ) ≈ Poi(np)({0, 1, . . . , n − k}) =
i=0
Dies ist auch mit einem Taschenrechner möglich.
Bsp: Telefonzentrale. Mehrere n interne Telefone sind an einer Zentrale angeschlossen. Wieviele
k Außenleitungen müssen bereitgestellt werden, damit zu vorgegebener Wahrsch. α alle anrufenden
Teilnehmer eine freie Leitung haben? Einerseits soll k aus Kostengründen klein sein und andererseits
groß, um die Kunden zufriedenzustellen. Wir betrachten die Anzahl der Anrufe zu einem festen,
aber beliebigen Zeitpunkt.
Mathematisches Modell: Seien X1 , . . . , Xn uiv Zgn mit Bernoulliverteilung Ber(p). Xi = 1 steht für
das Ereignis der i−te Teilnehmer telefoniert. Die Gesamtzahl Sn der tefonierenden Teilnehmer ist
ungefähr Poisson Poi(np) verteilt. Die Lösung ergibt sich aus der Bedingung Poi(np)([0, k]) ≥ α.
60
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.13
SS98
Der Zentrale Grenzwertsatz
Uwe Rösler
Der Zentrale Grenzwertsatz ist eine Grenzwertaussage für die Summe von unabhängigen Zgn,
wobei jeder Summand relativ zur Summe nur einen verschwindend kleinen Beitrag liefert. Im
Gegensatz bestand die Summe bei der Poissonapproximation aus wenigen Summanden, die verglichen
mit der Summe relativ groß waren.
Der Zentrale Grenzwertsatz (ZGS) läßt sich als ein allgemeines Naturgesetz verstehen und auch
beobachten. Wenn immer eine Summe aus vielen kleinen unabhängigen Zgn gebildet wird, gilt der
ZGS. Die Bedeutung des Zentralen Grenzwertsatzes (ZGS) rechtfertigt das Statement:
Der Zentrale Grenzwertsatz ist der zweite Hauptsatz der W-theorie.
Wir formulieren zuerst den ZGS in der einfachsten Form, geben einen Beweis und diskutieren dann
Folgerungen und Ausweitungen.
Definition 1.13.1 (standardisierte Normalverteilung) Die Funktion Φ : IR 7→ IR,
Z x
ϕ(y)dy
Φ(x) :=
−∞
mit
y2
1
ϕ(y) := √ e− 2
2π
heißt standardisierte Normalverteilungsfunktion oder Gaussverteilung . Der Integrand ϕ
heis̈t Dichte der Gaussdichte bzw. Dichte der Normalverteilung.
Die Funktion Φ ist eine Verteilungsfunktion und ϕ die Dichte dazu. Die numerischen Werte der
Gauß Funktion Φ sind tabelliert bzw. können mathematischen Komputerprogrammen wie Maple
oder Mathematica entnommen werden. (Übung, beachte Φ(x) = 1 − Φ(−x).)
Definition 1.13.2 (Zentraler Grenzwertsatz) Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem
Zentralen Grenzwertsatz,
Pn (ZGS) falls es eine Folge reeller Zahlen cn , dn gibt, sodaß für die
n-te Partialsumme Sn := i=1 Xi und für alle reellen a < b gilt
P
µ
Sn − cn
a≤
≤b
dn
¶
→n Φ(b) − Φ(a).
Definition 1.13.3 (Standardnormierung) Die Standardnormierung einer Zg X ist, sofern
wohldefiniert, gegeben durch
X − EX
.
X ∗ := √
VarX
Die obige Folge cn , dn entspricht
im √
Regelfall der Standardnormierung der Summe Sn durch cn =
√
ESn = nEX1 und dn = VarSn = nEX1 .
Die Grundform des ZGS lautet
Satz 1.13.4 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit
endlicher Varianz ungleich 0 gehorcht dem ZGS mit der Standardnormalisierung.
1.13.1
Moivre-Laplace
Die einfachste Form des ZGS ist der Satz von Moivre-Laplace.
Satz 1.13.5 (De Moivre-Laplace) Eine Folge unabhängiger identisch verteilter Zgn mit einer
Bernoulliverteilung zum Parameter p ∈ (0, 1) genügt dem ZGS.
61
Uwe Rösler
SS98
1.13
Der Zentrale Grenzwertsatz
Die Beweisidee besteht in brutalem Abzählen. Sei Sn die n-te Partialsumme von unabhängigen,
Bernoulli verteilten Zgn zum Parameter p. (Münzwurf.) Die Wahrscheinlichkeit P (Sn = k) stellen
wir in einem Säulendiagramm dar. Die Wahrscheinlichkeit P (a − 21 ≤ Sn ≤ b + 12 ) mit a, b ∈ Z
entspricht der Fläche über dem Intervall [a − 12 , b + 12 ]. Wir approximieren P (Sn = k) als Funktion
in k und integrieren diese Funktion auf. (Übung: Verdeutlichen Sie sich die Herangehensweise in
einem Bild.)
Zur Vorbereitung benötigen technische Resultate. Auch von allgemeinem Interesse ist die Stirling
Formel [?][?], die wir ohne Beweis angeben.
Lemma 1.13.6 (Stirling Formel) Für jede natürliche Zahl n gilt
1
1
n!
< e 12n
e 12n+1 < √
2nπ( ne )n
Sei ϕm,σ2 die Funktion
ϕm, σ 2 (x) :=
(1.8)
(x−m)2
1
2σ 2
e
.
2πσ 2
Lemma 1.13.7 Sei Sn Binomial Bin(n, p), 0 < p = 1 − q < 1, verteilt. Sei αn , n ∈ IN , eine
positive Folge mit limn n1/3 αn = 0 und Kn die Menge der ganzen ZAhlen k mit | nk − p| ≤ αn .
Dann gilt
P (Sn = k)
→n 1.
sup
k∈Kn ϕnp,np(1−p) (k)
Beweis: Den obigen Quotienten schreiben wir als Produkt von fünf Faktoren.
√
n!pk q n−k 2npqπ
P (Sn = k)
=
(k−np)2
ϕnp,npq (k)
k!(n − k)!e− 2npq
p
√
√
(k−np)2
√
n−k k n−k
2kπ( ke )k 2(n − k)π( n−k
n!
2nπ 2npqπ
p q
e 2npq
e )
p
√
= √
n−k
k! }
(n − k)!
( k )k ( n−k
2nπ( ne )n | {z
2kπ 2(n − k)π
n )
|
{z
}| n
{z
}|
{z
}
|
{z
}
F
F3
2
F1
F4
• F1 →n 1 gleichmäs̈ig für k ∈ Kn .
Dies folgt aus der Stirling Formel 1.8,
1
sup |F1 − 1| = F1 − 1 ≤ e 12n − 1 →n 0.
k∈Kn
• F2 →n 1 gleichmäs̈ig für k ∈ Kn .
sup |F2 − 1|
=
k∈Kn
=
1
12k
1
1
→n 0.
sup
≤
k
12np − 12nαn
12n( n − p) + 12np
1
sup(1 − F2 ) ≤ 1 − e− 12k ≤ sup
• F3 →n 1 gleichmäs̈ig für k ∈ Kn .
Analog zum vorherigen.
• F5 →n 1 gleichmäs̈ig für k ∈ Kn .
F5 schreibt sich in der Form
√
pq
q
F5 = q
.
p + ( nk − p) 1 − p − ( nk − p)
Jetzt wird | nk − p| durch αn abgeschätzt und αn konvergiert in n gegen 0.
• F4 →n 1 gleichmäs̈ig für k ∈ Kn .
62
F5
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
Eine einfache, längliche Rechnung mit u =
ln F4
= u2
k
n
SS98
− p zeigt
Uwe Rösler
n
u
u
− n(u + p) ln(1 + ) − n(q − u) ln(1 − ).
2p(1 − p)
p
q
Mit der Taylor Entwicklung ln(1 − x) = −x − x2 /2 + x3 rest(x) für |x| < 1 mit rest(x) →x→0 1
erhalten wir
ln F4 = nu3 a.
Der Term a := 2p12 − (u + p) rest( up ) − (q − u) rest( uq ) −
k. Der Term |nu3 | ≤ nαn3 konvergiert gegen 0.
Beweis von Moivre-Laplace: Sei Sn∗
1
2q 2
ist beschränkt gleichmäßig in n und
q.e.d.
Sn − ESn
Sn − np
Sn∗ := √
= √
npq
VarSn
die standardisierte n-te Partialsumme, q = 1 − p. Definiere die Abbildung k → kn∗ :=
Seien reelle Zahlen a∗ ≤ b∗ vorgegeben und definiere Kn := {k ∈ IN | a∗ ≤ kn∗ ≤ b∗ }
rk := P (Sn = k),
sk := ϕnp,npq (k),
tk :=
Z
k−np
√
npq .
k+1/2
ϕnp,npq (x)dx.
k−1/2
P
• P (a∗ ≤ Sn∗ ≤ b∗ ) = k∈Kn rk .
Trivial.
• supk∈Kn |1 − srkk | →n 0.
∗
∗
|∨|b |
Verwende das letzte Lemma mit αn := |a √
.
n
P
•P
| k∈Kn (rk − sk )| →n 0
P
| k∈Kn (rk − sk )| ≤ supl∈Kn |1 − srll | k rk →n 0.
P
• | k∈Kn (sk − tk )| →n 0.
|
X
k∈Kn
(sk − tk )|
≤
=
XZ
k+1/2
k−1/2
k
XZ
k+1/2
√
k−1/2
k
≤ sup
k
1
√
2πnpq
sup
− 12 ≤y≤ 21
¯
¯
¯ − (k−np)2
(x−np)2 ¯
¯e 2npq − e− 2npq ¯ dx
¯
¯
¯
¯
¯
(k−np)2 −(x−k+k−np)2
(x−np)2 ¯
1
− 2npq ¯ −
2npq
e
− 1¯¯ dx
e
¯
2πnpq
{z
}
|
|e
y 2 +2y(k−np)
2npq
y2
− 1|
Z
|e
(x−k)2 +2(x−k)(k−np)
2npq
−1|
ϕnp,npq (x)dx
k
≤ sup sup |e 2npq +2y( n −p) − 1| →n 0
y
k
R b∗
P
• | k∈Kn tk − a∗ ϕ(x)dx| →n 0.
Sei an := inf Kn√
, bn := sup Kn .
Es gilt an =
da∗
(npq)+1/2+npe−np−1/2
√
npq
und bn =
Wir verwenden nun die Transformation y :=
X
k∈Kn
tk =
Z
bb∗
x−np
√
npq .
√
(npq)+1/2+npc−np+1/2
√
.
npq
Die Summe
bn +1/2
ϕnp,npq (x)dx =
an −1/2
Z
P
k∈Kn tk
bn +1/2−np
√
npq
an −1/2−np
√
npq
läßt sich schreiben als
ϕ(x)dx.
Die untere Grenze des rechten Integrals konvergiert gegen a∗ , die obere gegen b∗ . Dies reicht. q.e.d.
63
Uwe Rösler
SS98
1.13
Der Zentrale Grenzwertsatz
Bemerkung: Im obigen Satz ist es unerheblich, ob wir asymptotisch die W-keit der standardisierten
Summe Sn∗ im abgeschlossenen Intervall [a∗ , b∗ ] oder im offenen Intervall (a∗ , b∗ ) oder in einem
halboffenen Intervall (a∗ , b∗ ], [a∗ , b∗ ) betrachten.
Bemerkung:
Für ganze Zahlen a, b ist
P (a ≤ Sn ≤ b) = P (a − 1/2 ≤ Sn ≤ b + 1/2) ≈ Φ
µ
b + 1/2 − np
√
npq
¶
−Φ
µ
a − 1/2 − np
√
npq
¶
(1.9)
+
eine etwas bessere Abschätzung als ohne den Korrekturterm von − 21 .
Beispiel Würfeln: Gesucht ist die W-keit bei sechstausendmaligem Würfeln zwischen 980 und
1020 mal die Sechs zu erhalten.
Die Zgn Xi , 1 ≤ i ≤ 6000, seien 1, wenn im i-ten Wurf eine 6 erscheint und ansonsten Null.
Z b∗
P (980 ≤ Sn ≤ 1020) = P (a∗ ≤ Sn∗ ≤ b∗ ) ≈
ϕ(x)dx = Φ(b∗ ) − Φ(a∗ ) ≈ 0, 51
a∗
mit a∗ := √ −20 und
5000/6
a∗ := √−20,5 und b∗ :=
5000/6
b∗ :=
√ 20 .
5000/6
√ 20,5
liefert
5000/6
Die besere Abschätzung nach der Bemerkung 1.9 mit
P (979, 5 ≤ Sn ≤ 1020, 5) ≈ 0, 52.
1.13.2
Gleichmäßige Konvergenz
Die Grundformulierung 1.13.4 hat verschiedene Defizite. Einer ist, daß die Konvergenz gegen die
Normalverteilung nur für festes a und b formuliert wurde. Das macht uns unflexibel in Anwendungen,
in denen wir a und b als abhängig von n betrachten wollen. Mathematisch fragen wir nach einer
gleichmäßigen Konvergenz.
Lemma 1.13.8 Eine Folge von Verteilungsfunktionen, die punktweise gegen eine stetige Verteilungsfunktion
konvergiert, konvergiert gleichmäs̈ig.
Beweis: Die Folge Fn , n ∈ IN von Verteilungsfunktionen konvergiere punktweise gegen die stetige
Verteilungsfunktion F. Wir benutzen die stetige Erweiterung Fn (−∞) = 0 = F (−∞) und Fn (∞) =
1 = F (∞). Zu zeigen ist supx |Fn (x) − F (x)| →n 0.
Zu vorgegebenem ² > 0 gibt es eine endliche Folge −∞ = d0 < d1 < . . . < dm < dm+1 = ∞ in
den erweiterten reellen Zahlen IR mit |F (di ) − F (di+1 )| < ² für i = 0, . . . , m.
• sup0≤i≤m+1 |Fn (di ) − F (di )| →n 0.
Leicht.
• kFn − F k∞ →n 0.
Sei x ∈ IR. Wähle das eindeutige i mit di ≤ x < di+1 wie oben.
|Fn (x) − F (x)|
≤ 11Fn (x)>F (x) (Fn (x) − F (x)) + 11Fn (x)≤F (x) (F (x) − Fn (x))
≤ 11Fn (x)>F (x) (Fn (di+1 ) − F (di )) + 11Fn (x)≤F (x) (F (di+1 ) − Fn (di ))
≤ sup |Fn (dj ) − F (dj )| + sup |F (dj ) − F (dj+1 )|
j
j
Der zweite Term auf der rechten Seite ist klein in ². Der zweite ist klein für n hinreichend gros̈.
Diese Abschätzung ist gleichmäßig in x.
q.e.d.
Korollar 1.13.9 (Glivenko-Cantelli) Sei Xn eine Folge von Zgn. Äquivalent sind
(i) Für alle reellen Zahlen b gilt P (Xn ≤ b) →n Φ(b).
(ii) supb∈IR |P (Xn ≤ b) − Φ(b)| →n 0.
(iii) supa,b∈IR |P (a ≤ Xn ≤ b) − Φ(b) + Φ(a)| →n 0.
Der Beweis ergibt sich aus dem obigen Lemma.
64
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
1.13.3
SS98
Allgemeiner Zentraler Grenzwertsatz
Uwe Rösler
Wir geben nun den Beweis des Zentralen Grenzwertsatzes 1.13.4,
Lemma 1.13.10 Seien Xn , Yn , n ∈ IN unabhängige Zgn mit endlicher Varianz, wobei die (Xn )
identisch verteilt sind und die (Yn ) auch. Seien Sn∗ und Tn∗ die Standardisierungen der Partialsummen
Sn = X1 + . . . + Xn und Tn = Y1 + . . . + Yn . Dann gilt
|E(f (Sn∗ )) − E(f (Tn∗ ))| →n 0
(1.10)
für alle dreimal stetig differenzierbaren Funktionen mit einer beschränkten dritten beschränkten
Ableitung kf 000 k∞ < ∞.
Beweis:
Wir nehmen
PnoEdA.Xndie Zgn X, Y mit Erwartungswert Null und Varianz Eins an. Sei
Pi−1
Yi
+ k=i+1 √
). Eine Teleskopsummendarstellung
ci := ( j=1 sqrtn
n
f (Sn∗ ) − f (Tn∗ ) =
X
i
Yi
Xi
(f (ci + √ ) − f (ci + √ )
n
n
ergibt
|E(f (Sn∗ ) − f (Tn∗ ))|
≤
=
n
X
Xi
Yi
|E(f (ci + √ ) − f (ci + √ )|
n
n
i=1
X
:
Ai
i
Pn
Pi−1 Yi
Xn
+ k=i+1 √
mit ci := ( j=1 sqrtn
.
n
Wir verwenden die Taylor Approximation
f (x) = f (x0 ) + (x − x0 )f 0 (x0 ) +
(x − x0 )3 000
(x − x0 )2 00
f (x0 ) +
f (ξ)
2!
3!
mit einem geeigneten Zwischenwert ξ (bzw. η) zwischen x und x0 jeweils angewandt auf den i-ten
Term in obiger Summe entwickelt um ci .
Ai
= |E(f 0 (ci )
Xi − Yi
Xi3
Yi3
X 2 − Yi2
√
+ f 000 (ξi ) 3/2
+ f 000 (ηi ) 3/2
|
+ f 00 (ci ) i
2n
n
6n
6n
Die Unabhängigkeit von ci und (Xi , Yi ) ergibt
E(
Xi − Yi 0
Xi − Yi
√
f (ci )) = E( √
)E(f 0 (ci )) = 0
n
n
X 2 − Yi2
Xi2 − Yi2 00
f (ci )) = E( i
)E(f 00 (ci )) = 0
2n
2n
Damit sind die ersten beiden Terme 0. Die Abschätzung wird nun fortgeführt,
E(
Ai
≤ E|f 000 (ξi )
≤
Yi3
Xi3
| + E|f 000 (ηi ) 3/2
|
3/2
6n
6n
1
kf 000 k∞ (E|Xi |3 + E|Yi |3 )
6n3/2
q.e.d.
Hieraus erhalten wir A ≤ const √1n →n 0.
Bemerkung: Mit ein klein wenig mehr Aufwand läs̈t sich das Lemma auch ohne endliches 3. Moment
zeigen.
65
Uwe Rösler
SS98
1.13
Der Zentrale Grenzwertsatz
Satz 1.13.11 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn
mit endlicher Varianz ungleich 0 gehorcht dem ZGS.
Beweis: Sei Sn∗ die standardisierte Summe und Tn∗ eine unabhängige, standardisierte Summe von
Bernoulli Zgn zum Parameter 21 . Zu vorgegebenem ² > 0 und reelllen Zahlen a < b wähle dreimal
stetig differenzierbare Funktionen f, g mit beschränkter dritter Ableitung und die
11[a+²,b−²] ≤ f ≤ 11[a,b] ≤ g11[a−²,b+²]
erfüllen. Solche Funktionen existieren. Dann folgt aus Monotonie des Integrals
P (a+² ≤ Tn∗ ≤ b−²)+an ≤ Ef Tn∗ ≤ Ef Sn∗ +an ≤ P (a ≤ Sn∗ ≤ b) ≤ EgSn∗ ≤ Ef Tn∗ +bn ≤ P (a−² ≤ Tn∗ ≤ b+²)+bn
mit an = Ef Tn∗ − Ef Sn∗ und bn = EgSn∗ − Ef Tn∗ . Beide Terme konvergieren in n → ∞ gegen 0.
Mit dem Grenzübergang n → ∞ folgt
Φ(b − ²) − Φ(a + ²) ≤ lim inf P (a ≤ Sn∗ ≤ b) ≤ lim sup P (a ≤ Sn∗ ≤ b) ≤ Φ(b + ²) − Φ(a − ²).
n
n
Mit ² → 0 erhalten wir das behauptete Resultat.
q.e.d.
Beispiel
Gauß als Geodäter: Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit
einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten
Daten die wahre Streckenlänge c approximativ bestimmen.
Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn. mit unbekannter Verteilung und endlicher
Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein guter
Schätzer für c ist
n
1X
Sn
=
Xi .
ĉ =
n
n i=1
p
Die Verteilung des Abstands σn2 (ĉ−c) ist approximativ Φ. Grob gesagt,
der Fehler bei Benutzung
√
von ĉ anstelle des wahren Wertes c ist von der Größenordnung 1/ n.
Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung
war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren Streckenlänge.
Güte der Approximation:
Wie gut ist die Normalapproximation?
Die Approximationsgüte, d.h. Aussagen über die Konvergenzgeschwindigkeit des maximalen Abstands
supb |P (Sn∗ ≤ b) − Φ(b)| für uiv Zgn gibt der Satz von Berry-Esseen.
Satz 1.13.12 (Berry-Esseen) Sei Sn∗ die standardisierte Summe von n unabhängig identisch
verteilten Zgn X1 , . . . , Xn mit Varianz σ 2 und endlichem zentrierten dritten absoluten Moment
0 < γ := E|X − EX|3 < ∞. Dann gilt
sup |P (Sn∗ ≤ b) − Φ(b)| ≤
b
0, 8γ
√ .
σ3 n
Literatur: Sozanov [?].
Beispiel
Würfeln: Wir betrachten die Anzahl der Sechsen bei tausendmaligem Würfeln. Der Fehler in der
Approximation ist beschränkt durch
2 ∗ 0, 8 ∗ 130/64
√
≈ 0, 098.
(5/36)3/2 1000
66
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
W-theoretische Formulierung des ZGS
Uwe Rösler
Die reellwertige Funktion ϕm,σ2 : IR 7→ IR
ϕm,σ2 (x) := √
1
2πσ 2
e−
(x−m)2
2σ 2
zu den Parametern m ∈ IR und 0 < σ 2 < ∞ wird wegen Ihrer Glockenform nach Ihrem
“Entdecker” Carl Friedrich Gauß die Gauß Glockenkurve genannt. Sie heißt auch Dichte der
Normalverteilung zu den Parametern m, σ 2 .
Die Funktion Φm,σ2 : IR 7→ IR
Z x
ϕm,σ2 (y)dy
Φm,σ2 (x) :=
−∞
zu den Parametern m ∈ IR, σ 2 ∈ (0, ∞) heißt Gauß Verteilungsfunktion oder auch Verteilungsfunktion
der Normalverteilung .
Die Standardnormalverteilung ist die Funktion Φ := Φ0,1 mit der standardisierten Gauß
Glockenkurve bzw. Dichte der Standardnormalverteilung φ := φ0,1 .
Die Gauss Verteilungsfunktion ist eine Verteilungsfunktion
ist eine
R und die Gauss Glockenkurve
R
2
2
2
Dichtefunktion. Die
Parameter
haben
die
Bedeutung
m
=
yϕ
(y)dy
und
σ
=
(y−m)
ϕm,σ2 (y)dy.
m,σ
R
(Übung, bis auf ϕ(y)dy = 1. Dies zeigt man durch unter Verwendung von Polarkoordinaten
p
y
(r, ψ) = ( x2 + y 2 , arcsin ),
dxdy = rd(r, ψ)
x
Z 2π Z ∞
Z
Z Z
r2
1
e− 2 rdrdψ = 1.
( ϕ(x)dx)2 =
ϕ(x)ϕ(y)dxdy =
2π 0
0
Die Gaussverteilung oder Normalverteilung ist das zugehörige W-mas̈ zu der Gauss Verteilungsfunktion.
Zu diesem W-mas̈ gibt es (auf einem geeignetem W-raum, z.B. die reellen Zahlen versehen mit
der Borel σ-Algebra, dem Gaussmas̈ und der Identität als Zg.) eine Zg mit dieser Verteilung.
Man spricht von einer normalverteilten Zg zu den Parametern m, σ 2 . Die Parameter haben die
Interpretation als Erwartungswert m und Varianz σ 2 .
Not: Wir verwenden N (m, σ 2 ) für die Verteilung und das W-mas̈ einer Normalverteilung zu den
Parametern m, σ 2 .
Die Normalverteilung hat mehrere besondere Eigenschaften, die sie von anderen Verteilungen
unterscheidet.
Proposition 1.13.13 Die Summe von unabhängigen normalverteilten Zgn ist wieder normalverteilt
mit Addition der Parameter.
Ist die Zg X N (m, σ 2 ) verteilt und a 6= 0, so ist aX + b N (m + am, a2 σ 2 ) verteilt.
Beweis: Der zweite Teil ist einfaches Nachrechnen. Für den ersten Teil reicht zwei Zgn zu nehmen.
Die Summe zweier unabhängiger Zg mit Dichte f und g hat eine Dichte h, die sich berechnet aus
Z
h(x) = f (x − y)g(y)dy.
Der rest ist Schreibarbeit.
q.e.d.
Definition 1.13.14 (Konvergenz bzgl. Funktionenklasse) Sei F eine Menge von Funktionen.
Eine Folge µn von W-maßen konvergiert gegen ein RW-maß µ bezüglich
der Funktionenklasse
R
F, falls für alle Funktionen f der Funktionenmenge f dµn →n f dµ gilt.
F
Not: µn →n µ ⇔ µn (f ) →n µ(f )
∀f ∈ F.
67
Uwe Rösler
SS98
1.13
Der Zentrale Grenzwertsatz
Die F-Konvergenz mit F := {11A | A ∈ A ist die punktweise
Z
∀f ∈ F gilt inf f dµn →n f dµ ⇔ ∀A ∈ Aµn (A) →n µ(A).
Punktweise Konvergenz:
Konvergenz.
Schwache Konvergenz: Sei Cb die Menge der reellwertigen, stetigen und beschränkten Funktionen.
Die Konvergenz bzg. Cb heißt schwache Konvergenz.
C
d
Not: µn →n µ ⇔ µn →bn µ. Hierbei steht d für distribution. Es wird auch w verwendet für weak.
d
Für Zg benutzen wir dieselbe Notation Xn → X falls die Verteilungen schwach konvergieren.
Satz 1.13.15 (Zentrale Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von uiv Zg mit endlicher
Varianz nicht Null. Dann konvergiert Sn∗ in Verteilung gegen die Standardnormalverteilung.
Beweis: Wir verwenden das Lemma von Trotter, eventuell mit der Bemerkung. Seien die Y
Zgn alle normalveteilt. Dann ist Tn∗ standardnormalverteilt für alle n. Folglich haben wir die
Konvergenz von Sn∗ gegen die Standardnormalverteilung für die Funktionenklasse F der dreimal
stetig differenzierbaren Funktionen mit beschränkter stetiger Ableitung. Jede stetige beschränkte
Funktion g mit endlichem Träger {x | g(x) 6= 0} läs̈t sich gleichmäßig durch eine Funktion f aus
F beliebig gut approximieren. Dann gilt
Eg(Sn∗ ) − Eg(Tn∗ ) = (Eg(Sn∗ ) − Ef (Sn∗ )) + (Ef (Sn∗ ) − Ef (Tn∗ )) + (Ef (Tn∗ ) − Eg(Tn∗ )) →n 0.
Und was macht man, falls der Träger nicht endlich ist? (Übung in Abschneidetechnik)
q.e.d.
ZGS für Schemata *
Wann konvergieren Summen von unabhängigen Zgn gegen eine Normalverteilung? Wir geben eine
Gleichmäßigkeitsaussage an.
Definition 1.13.16 (Schema von Zufallsgrößen) Ein Schema von Zgn ist eine Familie von
Zgn Xn,k , n ∈ IN, 1 ≤ k ≤ kn ∈ IN . Wir schreiben diese in der Form
X1,1 , X1,2 , . . . , X1,k1
X2,1 , X2,2 , . . . , X2,k2
X3,1 , X3,2 , X3,3 , . . . , X3,k3
......................
Wir betrachten insbesonders die Summe der n-ten Reihe eines Schemas,
Sn =
kn
X
Xn,k .
k=1
Definition 1.13.17 (unabhängig, standardisiert) Ein Schema heißt unabhängig, falls die
Zgn (Xn,k )k in jeder Reihe n unabhängig sind. Ein Schema heißt standardisiert, falls die Zgn
zentriert sind und die Varianz s2n := VarSn = 1 jeder Reihensumme stets 1 ist.
Jedes Schema mit endlicher Reihenvarianz s2n ungleich 0 läßt sich durch Übergang zu den Zgn
X
−EX
Yn,k := n,k sn n,k standardisieren.
Definition 1.13.18 (asymptotisch vernachlässigbar) Ein Schema (Xn,k )n,k heißt asymptotisch vernachlässigbar, falls für alle ² > 0 gilt
sup P (|Xn,k − EXn,k | > ²) →n 0.
k
Definiere für ein standardisiertes Schema
Ln (²) :=
X
k
2
E(Xn,k
11|Xn,k |≥² ).
68
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Satz 1.13.19 (Lindeberg) Sei (Xn,k )n,k ein unabhängiges und standardisiertes Schema.
Dann sind äquivalent
(i) (Xn,k )n,k ist asymptotisch vernachlässigbar und es gilt der ZGS
∀x ∈ IR P (Sn ≤ x) →n Φ(x)
(ii) Die Lindebergbedingung gilt, d.h. für alle ² > 0 gilt
Ln (²) →n 0.
Beweis: Die Rückrichtung ließe sich analog zu Lemma 1.13.10 zeigen.
Für die Hinrichtung siehe Feller [?]. Weiter- und tieferliegende Literatur ist Petrov [?] und Gnedenko-Kolmogoroff [?].
ZGS für uiv Zg: Sei Xn , n ∈ IN , eine Folge uiv Zg mit EX1 = m und endlicher Varianz σ 2
ungleich 0. Diese Folge bildet in natürlicher Weise ein Schema via Xn,k = Xk , 1 ≤ k ≤ kn = n
und
X1 − m
√
,
σ2
X1 − m X2 − m
√
, √
2σ 2
2σ 2
..........
¶n
µ
Xk − m
√
.
nσ 2 k=1
X1
X 1 , X2
............
X1 , . . . , Xn
−m
, 1 ≤ k ≤ n ∈ IN . Das standardisierte Schema ist
Das zugehörige standardisierte Schema ist X√knσ
2
unabhängig. Es erfüllt die Lindebergbedingung
Ln (²) :=
n
X
k=1
E
µ
(Xk − m)2
11|Xk −m|≥√nσ2 ²
nσ 2
¶
=E
µ
(X1 − m)2
11|X1 −m|≥√nσ2 ²
σ2
¶
→n 0.
Daher gilt der ZGS und die einzelnen Beiträge der Zg zur Summe sind asymptotisch vernachlässigbar.
Beispiel
Mergesort: Eine direkte Anwendung ist die asymptotische Analyse von Mergesort (siehe dort).
69
Uwe Rösler
1.14
SS98
1.14
Zgn mit Werten in Rd ∗
Zgn mit Werten in Rd ∗
Im Text schreiben wir einen Vektor in der Form x = (x1 , . . . , xd ). In Formeln benutzen wir den
Vektor als Spaltenvektor. Der Reihenvektor wäre xt . Fürq
eine Matrix A benutzen wir At für die
Pd
2
transponierte. Wir benutzen die euklidische Norm kxk =
i=1 xi .
d
Im folgenden betrachten wir Zgn X mit Werten in IR .
Diese schreiben wir in der Form X = (X1 , . . . , Xd ) : Ω 7→ IRd ,
X(ω) = (X1 (ω), . . . , Xd (Ω)).
Definition 1.14.1 (Erwartungswert) Der Erwartungswert einer Rd -wertigen Zg X ist
definiert durch
EX = (EX1 , . . . , EXd ).
Definition 1.14.2 (Covarianz) Die Covarianzmatrix Cov(X, Y ) : {1, . . . , d}2 7→ IR zweier
IRd −wertiger Zgn X, Y ist gegeben durch
Cov(X, Y )i,j := Cov(Xi , Yi ) = E((Xi − EXi )(Yj − EYj )).
Prägnanter:
Cov(X, Y ) = E((X − EX)(Y − EY )t ).
Es gilt für Matrizen A, B ∈ IRd×d und Vektoren a, b ∈ IRd
Cov(AX + a, BY + b) = ACov(X, Y )B t .
Die Covarianzmatrix einer Zgn X ist die Matrix Cov(X, X) =: Cov(X).
Definition 1.14.3 (positiv definit) Eine Matrix A heißt positiv definit, falls v t Av ≥ 0 für
alle v ∈ IRd gilt.
Proposition 1.14.4 Die Covarianzmatrizen Cov(X) sind genau die positiv definiten Matrizen.
Beweis:
“⇒” Sei v ∈ IRd . Dann gilt
v t Cov(X, X)v
= v t E((X − EX)(X − EX)t ))v
= E(((X − EX)t v)t ((X − EX))t v)
≥ E(((X − EX)t v)2 ) ≥ 0.
“⇐” Sei X = (Xi )1≤i≤d eine IRd −wertige Zg mit der Einheitsmatrix als Covarianzmatrix. (Dies
ist möglich, (Xi )i unabhängig mit EXi = 0 und VarXi = 1.) Dann tuts C 1/2
pX. (Für
diagonale Matrizen D = (di,j )i,j mit positiven Einträgen ist D1/2 definiert durch ( di,j )i,j .)
Sei jetzt C eine positiv definite d × d Matrix. Dann existiert eine orthogonale (Ot = O−1 )
Rotation O mit OCOt = D hat Diagonalgestalt. Definiere C 1/2 = Ot D1/2 O.
q.e.d.
GGZ:
Es gilt das sinngemäße Gesetz der Großen Zahl.
Satz 1.14.5 (GGZ) Eine Folge uiv Rd −wertiger Zgn. mit endlichem ersten Moment erfüllt das
schwache Gesetz der Großen Zahl.
Beweis: Sei Xn die Rd −wertige Folge uiv Zgn, oEdA zentriert, Sn die n−te Partialsumme.
µ
¶ X
µ
¶
d
¯ Sn,i ¯
° Sn °
²
¯
°
°
¯
P
>² ≤
>
P
→n 0.
n
n
d
i=1
Pn
Hierbei haben wir das GGZ verwandt für Sn,i := j=1 Xj,i , Xj = (Xj,1 , . . . , Xj,d ).
q.e.d.
70
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
ZGS:
SS98
Uwe Rösler
Die d−dimensionale Glockenkurve bzw. d−dimensionale Dichte der Normalverteilung
ist die Funktion ϕm,C : IRd 7→ IR
ϕm,C (x) = p
1
(2π)d det(C)
e−
(x−m)t C −1 (x−m)
2
mit m ∈ IRd und C ∈ IRd×d eine positiv definit und invertierbar Matrix.
Wir benutzen ϕ = ϕ0,I mit I die Einheitsmatrix.
Einige Eigenschaften der Gauß Glockenkurve sind.
Lemma 1.14.6
(i) ϕm,C ist stetig, strikt positiv und symmetrisch um m, (∀x ∈ IRd ϕm,C (x − m) = ϕm,C (−x −
m)).
R
(ii) ϕm,C (x)dx = 1.
R
(iii) xϕm,C (x)dx = m.
R
(iv) (x − m)(x − m)t ϕm,C (x)dx = C.
R
(v) ϕm1 ,C1 (x − y)ϕm2 ,C2 (y)dy = ϕm1 +m2 ,C1 +C2 (x).
Beweis: Alle Aussagen sind einfach und straight forward.
Notation:
ϕ = ϕ0,I mit I die Einheitsmatrix.
Definiere die Gauß Verteilungsfunktion
Φ(x) :=
Z
ϕ(y)dy.
y≤x
d
Hierbei benutzen wir
R die koordinatenweise Ordnung in IR , u ≤d v ⇒ ui ≤ vi
benutzen Φ(f ) := f (x)ϕ(x)dx für geeignete Funktionen f : IR 7→ IR.
1 ≤ i ≤ d. Wir
Definition 1.14.7 (Standardnormierung) Die Standardnormierung einer Zg X ist, falls
wohldefiniert,
X ∗ = Cov−1/2 (X)(X − EX).
Hierbei ist Cov−1/2 (X) das Inverse von Cov1/2 (X) wie oben erklärt.
Satz 1.14.8 (Der d−dimensionale ZGS) Eine Folge uiv Rd −wertiger Zgn mit endlicher Covarianzmatrix
von vollem Rang erfüllt den Zentralen Grenzwertsatz
P (Sn∗ ≤ b) →n Φ(b)
für alle b ∈ IRd . Äquivalent ist
Ef (Sn∗ ) → Φ(f )
für alle stetigen beschränkten Funktionen f .
Beweis: Ein Beweis analog zum eindimensionalen Fall ist möglich. Wir führen dies nicht aus.
71
Uwe Rösler
1.15
SS98
1.15
Sortieralgorithmen
Sortieralgorithmen
Wir führen eine Laufzeitanalyse von den Sortieralgorithmen Mergesort und Quicksort durch.
1.15.1
Laufzeitanalyse:
Gegeben sei ein Algorithmus A. Dieser Algorithmus benötigt die Zeit An zum Lösen einer Aufgabe
der “Größe n”. Diese Laufzeit ist eine Funktion vom Input und hängt eventuell weiterhin vom
Zufall ab. Dabei unterscheiden wir internen und externen Zufall.
– Der interne Zufall ist im Programm selbst, zum Beispiel durch Wahl von Zufallszahlen.
– Der externe Zufall kommt von außen, der Input kann zufällig sein oder beinhaltet zufällige
Komponenten wie Zufallszahlen.
Eine wahrscheinlichkeitstheoretische Analyse umfaßt folgende Punkte.
• Worst case: Hierbei handelt es sich um eine obere Schranke von An . Diese ist meistens
asymptotisch in n.
• Average case: Die Laufzeit vieler Algorithmen ist eine Zg, mit internem oder externem
Zufall. In der average case Analyse wird der Erwartungswert der Laufzeit bestimmt. Die
Idee ist An ≈ EAn . Hierhin gehören auch Abschätzungen von P (An − EAn ≥ cn ), wie sie
z.B. mit Hilfe der Tschebycheff-Markov Ungleichungen möglich sind.
• Verteilungsanalyse: Hier wird die asymptotische Verteilung von An bestimmt. Mit einer
n
, konvergiert
geeigneten Normierung von An , meistens eine affine von der Form A∗n = Anb−a
n
P (a ≤ A∗n ≤ b) gegen einen nicht trivialen Grenzwert für alle a, b ∈ IR.
• Große Abweichungen: Ziel sind Abschätzungen der Wahrsch. P (An −EAn ≥ cn ) für cn in
der Regel sehr groß. Diese Wahrscheinlichkeit geht exponentiell schnell in n gegen 0. Diese
Abschätzungen beruhen in der Regel auf exponentiellen Abschätzungen, wie die Cramer
Transformierte oder der Hoeffding Ungleichung.
Übung: Analysiere den Sortieralgorithmus Bubble down.
Bubble down sortiert rekursiv in eine bereits geordnete Liste ein neues Element x ein. x wird mit
dem größten Element der Liste verglichen, dann mit dem zweitgrößten usw., bis wir den richtigen
Platz für x gefunden haben. (Das folgende Mergesort kann als Vorlage dienen.)
1.15.2
Mergesort
Der Algorithmus Mergesort sortiert eine Menge von Objekten mit einer Ordnungstruktur. Wir
betrachten hier eine Menge von n verschiedene Zahlen und benutzen die natürliche Ordnung. Der
Einfachheit halber sei n eine Zweierpotenz. (Für allgemeines n siehe [?].)
Mergesort:
Die Zahlen stellen wir uns als Folge (Liste) vor, siehe Bild. n sei eine Potenz von 2.
(i) Teile die Liste in zwei gleich große Listen auf.
(ii) Sortiere jede dieser Listen durch rekursiven Aufruf.
(iii) Merge die beiden sortierten Listen.
Das Ineinandersortieren (=merge) von zwei Listen geschieht nach folgendem Verfahren.
72
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
Merge:
SS98
Uwe Rösler
(i) Vergleiche die jeweils kleinsten Zahlen der Listen.
(ii) Die kleinere entferne aus der Liste und speichere sie in einer Zielliste (geordnet) ab.
(iii) Benutze rekursiv Merge bis eine der Listen leer ist.
Der Algorithmus terminiert mit der Ausgabe einer geordneten Liste. Die Programmierung dieses
Algorithmus ist nach diesem Bild, via Dualdarstellung der Indexzahlen 1, 2, . . . , n, einfach.
r
r
r
r
r
r
r
r
r
(1)
(2)
(3)
6
6
Z6
Z6
1,1 6 Z1,1
1,1 6
(1)
(2)
Z2,2
Z2,2
6
(1)
Z4,4
r
6
r
6
r
r
6
r
6
6
r
6
r
6
6
(1)
Z8,8
Die Laufzeit des Algorithmus wird im wesentlichen bestimmt durch die Anzahl Mn der benötigten
Abfragen, um einen Input von n verschiedenen Zahlen zu sortieren.
Sei Zs,t die Anzahl der benötigten Abfragen zum Ineinandersortieren von zwei gegebenen Listen
der Länge s und t.
Mit einer entsprechenden Indizierung in dem obigen Bild (welche?) erhalten wir
(1)
M2
= Z1,1
M 22
=
(1)
Z2,2
=
(1)
Z22 ,22
M 23
(1.11)
+
(1)
Z1,1
+
+
(1)
Z2,2
(2)
Z1,1
+
(2)
Z2,2
(1.12)
+
(1)
Z1,1
+
(2)
Z1,1
+
(3)
Z1,1
+
(4)
Z1,1
...
(1.13)
(1.14)
j−1
M 2m
=
m 2X
X
(i)
Z2m−j ,2m−j .
(1.15)
j=1 i=1
Die Anzahl Mn der Abfragen ist eine Funktion des Inputs. Im günstigsten Fall geschieht das
Ineinandersortieren Zs,t zweier Listen der Länge s und t mit s ∧ t Abfragen, und im ungünstigsten
Fall mit s + t − 1 Abfragen.
Worst case analysis:
Zum Ineinandersortieren von zwei Listen der Längen s, t benötigen wir im ungünstigsten Fall
s + t − 1 Vergleiche. Damit ergibt sich eine obere Abschätzung, n = 2m ,
j−1
Mn ≤
m 2X
X
j=1 i=1
(2m−j 2 − 1) =
m
X
j=1
(2m − 2j−1 ) = m2m − 2m + 1 = n ln2 n − n + 1.
Best case analysis:
Im besten Fall benötigen wir zum Ineinandersortieren zweier Listen der Länge s, t mindestens s ∧ t
Vergleiche. Damit ergibt sich
j−1
Mn ≥
m 2X
X
2m−j = m2m−1 =
j=1 i=1
73
n
ln2 n.
2
Uwe Rösler
SS98
1.15
Sortieralgorithmen
Average Case:
Wir denken uns eine Menge von n verschiedenen Zahlen vorgegeben. Diese Zahlen werden zufällig
als Folge geschrieben. Dies entspricht dem Ziehen aus einer Urne mit Reihenfolge und ohne
Zurücklegen. Sei Xi das Ergebnis der i−ten Ziehung. Sei Ri der relative Rang von Xi in der
Stichprobe X1 , . . . , Xn ,
n
X
11Xj ≤Xi .
Ri :=
j=1
Da die wirklichen Werte der X-Zgn keine weitere Rolle spielen, sondern nur die relativen Größe
zueinander, können wir zu den Rängen übergehen. Der Rangvektor R = (R1 , . . . , Rn ) ist eine
Permutation und jede Permutation sollte gleichwahrsch. sein. Daher wählen wir als W-raum den
Raum Πn der Permutation von {1, . . . , n} als Laplaceraum.
Sei Zs,t die Anzahl der Abfragen, um zwei Listen der Länge s, t mit ’merge’ ineinander zu sortieren.
Dies ist eine Zg.
Proposition 1.15.1
P (Zs,t = z) =
EZs,s
11s∧t≤z≤s+t−1
¡z−1¢
t−1
+
¡z−1¢
¡s+t¢s−1
s
2s2
s+1
2s2 (s − 1)
<2
(s + 1)2 (s + 2)
=
Var(Zs,s ) =
Beweis: Wir betrachten eine Urne mit s+t Kugeln. Hieraus ziehen wir s+t mal, ohne Zurücklegen
und mit Reihenfolge. Die ersten s Kugeln entsprechen der ersten Liste, die restlichen der zweiten.
Das Ereignis, Zs,t ist kleiner oder gleich s + t − r, ist gleich dem Ereignis, daß die erste oder die
zweite Liste mindestens die r größten Zahlen enthält. Wir erhalten durch Abzählen
à ¡s+t−r¢ ¡
¢!
s+t−r
P (Zs,t ≤ s + t − r) = 111≤r≤s+t−s∧t
Der Rest ist nachrechnen. (Hinweis:
P
z
s
¡s−r
¢ + ¡s+t
¢
s+t
s
P (Zs,t = z) = 1.)
.
s
q.e.d.
Damit läßt sich der Erwartungswert von Mn berechnen,
EMn
=
m
X
(1)
2j−1 EZ2m−j ,2m−j =
j=1
=
m
X
j=1
2m −
m
X
j=1
m
X
22m−j
2m−j + 1
j=1
m−1
X
1
2m
≤
n
ln
n
−
n
2
2m−j + 1
2k + 1
k=0
Hieraus ergeben sich gute Abschätzungen für EMn .
P∞
Zum Beispiel erhalten wir EMn = n ln2 n − cn + o(n) mit c := i=0
1
2i +1 .
Bemerkung: Der Abschnitt über Anfänge der Informationstheorie liefert eine untere theoretische
Schranke für die erwartete Laufzeit für jeden Sortieralgorithmus. Diese Schranke ist ln2 n! =
n ln2 n − n ln2 e + o(n). Mergesort liegt sehr dicht bei dieser Schranke.
Die Varianz läßt sich ebenfalls berechnen. Beachte, daß alle Z−Zgn unabhängig sind (Nachrechnen).
VarMn =
m
m
X
X
n
23j (2j − 1)
(i)
VarZ
=
i ,2i
2
i
j
2
(2 + 1)2 (2j + 2)
j=1
j=1
74
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Dies ist von der Größenordnung cn + o(n) mit c eine Konstante.
Hieraus ergeben sich die Abschätzungen
P (Mn − EMn ≥ a) ≤
Uwe Rösler
VarMn
cn + o(n)
=
.
2
a
a2
Asymptotische Verteilung:
Satz 1.15.2 Die asymptotische Verteilung von standardisiertem Mergesort ist die Normalverteilung,
Mn − EMn
→n Φ.
Mn∗ := √
VarMn
Anders formuliert P (a ≤ Mn∗ ≤ b) → Φ(b) − Φ(a) oder auch als gleichmäßige Aussage
sup |P (a ≤ Mn∗ ≤ b) − Φ(b) + Φ(a)| →n 0.
a,b
Beweis: M2m , wie in 1.11 angegeben, ist die Zeilensumme von einem Schema von Zgn, siehe oben.
Dieses Schema ist unabhängig. Dieses Schema standardisieren wir
Z2∗im−j ,2m−j :=
Z2i m−j ,2m−j − EZ2i m−j ,2m−j
√
.
VarM2m
Dann ist die Lindeberg-Bedingung nachzurechnen, Lm (²) →m 0.
j−1
Lm (²)
=
m 2X
X
j=1 i=1
=
m
X
j=1
E((Z2∗im−j ,2m−j )2 11|Z ∗im−j
2
,2m−j
2j−1 E((Z2∗m−j ,2m−j )2 11|Z ∗m−j
2
,2
|>² )
|>² )
m−j
=
m−m
X0
j=1
... +
m
X
....
j=m−m0 +1
Den ersten Term schätzen wir ab durch
≤
m−m
X0
j=1
j−1 VarZ2m−j ,2m−j
2
VarM2m
≤
m−m
X0
j=1
2j−1
2m−m0 +1
2
= const 2−m0 +1 .
≤ const
VarM2m
2m
Dieser Term wird klein für m0 groß.
Der zweite Term wird 0 für m hinreichend groß, da die entsprechenden Z-Zgn beschränkt sind
und VarMm mit m → ∞ beliebig groß wird.
Mit dem Satz 1.13.19 folgt die Konvergenz gegen die Normalverteilung.
q.e.d.
Bemerkung: Ist n keine Zweierpotenz, so bleiben alle Argumente grundsätzlich bestehen, die
Rechnungen werden unschön.
Z.B. das Varianzverhalten wird folgendermaßen beschrieben: Es gibt eine gleichmäßig stetige
Funktion f : [1, 2] → IR mit
¯
¯ VarMn
n
¯
− f ( bln nc )¯ →n 0.
2
n
2
f ist minimal genau an den Stellen 1 und 2. (dies entspricht einer 2-er Potenz von n. Siehe [?].)
Die Konvergenz gegen die Normalverteilung bleibt bestehen.
75
Uwe Rösler
SS98
1.15
Sortieralgorithmen
Große Abweichungen:
Satz 1.15.3 Sei n eine 2-er Potenz. Für Mergesort gilt
2a2
P (|Mn − EMn | ≥ a) ≤ 2e− n2 .
Beweis: Sei n = 2m . Die Proposition 1.10.3 liefert
j−1
Eeλ(Mn −EMn )
=
m 2Y
Y
λ(Z
Ee
(i)
2m−j ,2m−j
−EZ
(i)
2m−j ,2m−j
)
j=1 i=1
j−1
≤
m 2Y
Y
e
λ2 (2m−j −1)2
8
j=1 i=1
≤e
λ2 n 2
8
Damit erhalten wir
P (Mn − EMn ≥ a) ≤
2 n2
Eeλ(Mn −EMn )
≤ eλ 8 −λa
λa
e
für alle λ ≥ 0. Das beste λ erfüllt λn2 = 4a. Es folgt
2a2
P (Mn − EMn ≥ a) ≤ e− n2 .
q.e.d.
Rekursive Darstellung
Die Verteilung der Mn erfüllt folgende rekursive Gleichung:
d
Mn = Mb n2 c + M d n2 e + Zb n2 c,d n2 e .
(1.16)
Hierbei sind Mb n2 c , M d n2 e , Zb n2 c,d n2 e unabhängige Zgn. Die Verteilung von Zb n2 c,d n2 e ist wie oben
gegegeben. Die Verteilung von Mb n2 c und M d n2 e wird rekursiv gegeben. Siehe hierzu das Bild bzw.
die Algorithmenbeschreibung.
Eigentlich könnten wir auch das Gleichheitszeichen in 1.16 verwenden. Da aber nur die Verteilung
d
der Zgn wichtig ist, haben wir das Symbol = für Gleichheit in Verteilung gewählt.
Die gesammte Analysis des Algorithmus beruht auf einer Analysis dieser Gleichung. Besonders
einfach wird die rekursive Struktur für n eine Zweierpotenz. Mit der Notation Xm = M2m , Cm =
Z2m ,2m erhalten wir
d
Xm = Xm−1 + X m−1 + Cm−1 .
Dies ist eine rekursive Gleichung für die Verteilung von Xn .
Der Erwartungswert an = EXm erfüllt
am = 2am−1 +
22m−1
2m−1 + 1
und läßt sich daraus rekursiv bestimmen.
1.15.3
Andere Algorithmen
In dieser Sektion werden zwei weitere Algorithmen als Beispiel analysiert.
76
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
Algorithmus MAX:
SS98
Uwe Rösler
Der Algorithmus MAX findet die größte Zahl in einer Menge {x1 , . . . , xn } von n verschiedenen
Zahlen. Nacheinander werden die Daten xk eingelesen und das Maximum der bisherigen Daten
genommen. Wir sind interessiert an der Anzahl der neuen Rekorde.
Der Wert rk = 11sup1≤i≤k−1 xi <xk ist eins, falls xk ein neuer Rekord ist. Wir zählen x1 als Rekord.
Pn
Die Anzahl der Rekorde ist an =: k=1 rk . Die rekursive Gleichung lautet
ak = ak−1 + rk .
Average. Als mathematisches Modell betrachten wir das Ziehen aus einer Urne ohne Zurücklegen und
mit Reihenfolge.
Sei Xi die i−te gezogenen Zahl. Seien Rk , Mk die entsprechenden Zgn zu X1 , . . . , Xn .
Ohne Beweis fügen wir an: R1 , . . . , Rn sind unabhängige Zgn. Die Zg Rk ist Bernoulli verteilt
zum Parameter k1 .
Pn
Damit folgt EAn = i=1 1i =: Hn ≈ ln n.
Die Varianz berechnet sich zu
VarAn =
n
X
VarRi =
n
X
i−1
i2
i=1
i=1
Hn (2) =
= Hn − Hn (2),
n
X
1
π2
⇒
ζ(2)
=
.
n
i2
6
i=1
Mit der Tschebycheff Ungleichung erhalten wir
P (|An − Hn | ≥ cn ) ≤
VarAn
ln n
≈ 2 .
2
cn
cn
Verteilung. Proposition 1.15.4
An − EAn
d
A∗n = √
→n→∞ Φ.
VarAn
Beweis: SeienPRi , i ∈ IN , unabhängige Zgn und Ri sei Bernoulli verteilt zum Parameter
n
pi = 1i . An = i=1 Ri ist die Zeilensumme von dem Schema Xn,k = Rk , k = 1, . . . , n.
Dieses Schema ist unabhängig. Wir standardisieren dies und prüfen die Lindebergbedingung
nach.
µ
¶
n
X
¡ Rk − ERk ¢2
√
11| R√k −ERk |>² →n 0.
E
Ln (²) =
VarAn
VarAn
k=1
Ab gewissem n gilt Ln (²) = 0, da die R durch 1 beschränkt sind und die Varianz von An
gegen ∞ strebt.
Große Abweichungen. Das Tailverhalten der Verteilung ergibt sich durch
Proposition 1.15.5
c
P (An − EAn ≥ c) ≤ ec−(EAn +c) ln(1+ EAn ) .
Beweis: Eine einfache Rechnung ergibt EeλRi = 1 +
P (An − EAn ≥ c)
≤
eλ −1
i .
Damit folgt
n
Y
eλ − 1
eλ(An −EAn )
−λc −λEAn
(1 +
=
e
e
)
λc
e
i
i=1
≤ e−λc−λEAn
n
Y
e
eλ −1
i
= e−λc−λEAn +(e
−1)EAn
i=1
Dies gilt für alle λ. Der Ausdruck wird minimiert für λ mit eλ =
Behauptung.
77
λ
c+EAn
EAn .
Dies ergibt die
q.e.d.
Uwe Rösler
SS98
1.15
Sortieralgorithmen
Insertionsort:
Der Algorithmus Insertionsort bzw. Bubble up ist ein Sortieralgorithmus.
Algorithmus Insertionsort: Wir beschreiben nur den Rekursionsschritt.
Im k + 1-ten Schritt seien die ersten k Daten bereits geordnet zu a1 ≤ a2 ≤ . . . ≤ ak . Die Date
xk+1 wird jetzt eingeordnet. Dies geschieht durch Vergleich mit ak , ak−1 , ak−2 usw., bis der richtige
Platz gefunden ist. Gefragt ist nach der Anzahl der notwendigen Vergleiche.
Sei In die Anzahl der von Insertionsort durchgeführten Vergleiche zum Ordnen einer Liste der
Länge n. Sei Zn die Anzahl der benötigten Vergleiche zum Einordnen von xn .
Es gilt die rekursive Gleichung
In = In−1 + Zn .
(1.17)
Bounds: Aus 1 ≤ Zn ≤ n − 1 für n ≥ 2 erhalten wir
n − 1 ≤ In ≤
n
X
i=2
(n − 1) =
n(n − 1)
.
2
Average: Als Grundraum wählen wir die Menge der Permutationen von {1, . . . , n} als Laplaceraum.
Es gilt (ohne Beweis)
• Z2 , Z3 , . . . , Zn sind unabhängige Zgn. Die Verteilung ist gegeben durch
1
j−1
P (Zj = i) =
falls 1 ≤ i ≤ j − 2
falls
falls i = j − 1
2
j−1
Eine einfache Rechnung zeigt
EIn =
n
X
j=2
n
EZj =
n(n + 3) X 1
−
.
4
j
j=1
Höhere Momente lassen sich ebenfalls einfach berechnen.
Die Verteilungsaussagen und Große Abweichungen laufen nach dem wohlbekannten Schema, Lindeberg
und Hoeffding.
1.15.4
Quicksort
Wir führen eine ausführliche Analyse des Sortieralgorithmus Quicksort durch. Dieser wurde
1961 von Hoare [?] veröffentlicht. Zur Bedeutung sei angeführt, daß das Betriebssystem UNIX
Quicksort implementiert hat (in der Version, für den Vergleich den Median der drei Zahlen auf
den Listenplätzen, erster, letzter und mittlerer, zu nehmen).
Quicksort: Ohne Einschränkung der Allgemeinheit sortieren wir eine Menge (Liste) mit n
verschiedenen Zahlen.
(i) Wähle zufällig mit Gleichverteilung eine dieser Zahlen aus.
(ii) Bilde die Menge der Zahlen kleiner als die zufällig gezogenen und die Menge der größeren.
(iii) Rufe rekursiv den Algorithmus für die Teilmengen mit mehr als einem Element auf.
Das Ergebnis ist eine geordnete Liste. Da die Kardinalität der Mengen stets echt kleiner wird,
endet dieser Algorithmus in endlicher Zeit.
Algorithm 64 für schnelles Sortieren von Hoare 1961
78
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008 70
37
10
77
3873
-55
10
12
7
-55
19
-55
7
10
12
19
-55
7
10
12
19
19
3873
37
37
SS98
93518
93518
77
77
u
u
u
u u u
u
7
77
93518
3873
u
12
1070
1070
93518
u
u
10
37
3873
1070
Uwe Rösler
zufällige Zahl
19
7 7
10 37 93518
u
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
Das letzte Bild zeigt die Durchführung abstrakt als Prinzip.
In der praktischen Durchführung geschieht die Umordnung innerhalb der Liste selbst. Nach der
Auswahl des zufälligen Elementes suchen wir von links startend das erste Element echt größer als
das zufällige. Von rechts startend suchen wir das erste echt kleinere.
Dann vertauschen wir diese beiden und fahren mit der Suche fort.
Wenn sich beide Suchzeiger treffen, wird das zufällige zwischen die Liste der kleineren und die
Liste der größeren Zahlen gespeichert.
In einer weiteren Liste werden die Adressen der Listenanfänge gespeichert. Der benötigte zusätzliche
Speicherraum ist von der Größenordnung O(ln n).
¾¶
?
?
6
»
³
??
6
Problemstellung: Wir sind an der zufälligen Laufzeit des Algorithmus Quicksort interessiert.
Die Laufzeit ist proportional zu der Anzahl der vollzogenen Operationen. In unserem Fall ist die
Laufzeit hauptsächlich bestimmt durch die Anzahl Qn der benötigten Vergleiche zur Sortierung
der Liste n, zumindest proportional dazu.
Mathematisches Modell Für die Analyse des Algorithmus benutzen wir ausschließlich folgende
rekursive Formel, genannt die Schlüsselgleichung,
d
Qn = n − 1 + QZn −1 + Qn−Zn
(1.18)
n ∈ IN . Hierbei benutzen wir nur die Gleichheit in Verteilung.
Die Zgn Q. , Q. , Z. sind unabhängig. Die Verteilung von Zn ist eine gleichmäßige Verteilung auf
den Zahlen 1 bis n. Die Verteilung der Q. ist rekursiv durch (1.18) gegeben mit Qi ∼ Qi mit dem
Anfangswerten Q0 ≡ 0.
Die obige Gleichung ist nur eine Gleichung für die Verteilung. Wir benötigen n−1 Vergleiche für die
Aufspaltung, und dann noch die Vergleiche zur Sortierung der beiden Listen. Das Sortieren der
beiden Listen geschieht unabhängig voneinander. Die Teillistenlänge wird durch die endgültige
Position Zn des zufällig gewählten Vergleichelementes nach den Vergleichen bestimmt. (Dies
Element ist das Zn -kleinste in der Ausgangsliste.) Zn hat eine gleichförmige Verteilung auf den
Zahlen 1 bis n.
Die Verteilung von Qn hängt nur von der Listenlänge ab, (Induktion), nicht von der eingegebenen
Liste. Durch die zufällige Auswahl des Vergleichselementes mit Gleichverteilung spielt die aktuelle
Anordnung der Zahlen in der Anfangsliste keine Rolle.
Der Wert der Zgn Qn für gegebene Listenlänge n ist beschränkt durch die folgenden zwei Extremwerte.
79
Uwe Rösler
SS98
1.15
Sortieralgorithmen
Worst Case:
Im ungünstigsten Fall ist die zufällig gewählte Vergleichszahl stets die kleinste (oder größte). Dann
haben wir trotz der Abfragen nur wenig weitere Information gesammelt. Zum Abstieg vom ersten
Level zu dem zweiten benötigen wir n − 1 Vergleiche, vom zweiten zum dritten n − 2, dann n − 3
usw.
Insgesamt ergeben sich n(n − 1)/2 benötigte Vergleiche. Dieses ist tatsächlich der ungünstigste
Fall. (Der formale Beweis wird durch Induktion mit der Schlüsselgleichung erbracht.)
r
rr
rrr
n−1
n−2
n−3
Best Case:
Am günstigsten ist es, wenn die Liste in zwei gleich lange Listen aufgeteilt wird. Nehmen wir an,
wir teilen zufällig die Listen stets in (fast) gleich lange Teillisten. Dann benötigen wir ungefähr
ln2 n Level, und auf jedem Level haben wir rund n Abfragen.
n − 21 + 1
r
n − 22 + 1
r
r
r
n − 23 + 1
r
r
r
r
r
r
r
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
Genauer ergeben sich ndln2 ne − 2dln2 ne + dln2 ne ≈ n ln2 n Abfragen. (Wir haben hier den
günstigsten Fall beschrieben. Der Nachweis dieser Behauptung wird durch Induktion mit der
Schlüsselgleichung gezeigt.)
Insgesamt ergeben sich die Grenzen n ln2 n − n ≤ QL ≤ n2 /2 für eine Liste der Länge n. Eine
Laufzeit von n2 /2 ist sehr schlecht und unakzeptabel. Wir werden zeigen, daß diese nur sehr selten
eintritt.
Average case:
Sei an := EQn der Erwartungswert, eine Liste der Länge n mit Quicksort zu sortieren. Es gilt
die Rekursionsformel a0 = 0, a1 = 0
an = n − 1 +
n
X
1
(ai−1 + an−i ).
n
i=1
Hieraus erhalten wir durch eine Variablentransformation an = n − 1 +
Rechnung die Rekursionsformel
2
n
Pn−1
i=0
ai und nach etwas
an
an−1
2(n − 1)
=
+
.
n+1
n
n(n + 1)
Durch rekursive Anwendung dieser Formel erhalten wir
an = 2
n+1
X
i=1
1
2
+
− 4.
i
n+1
Daher ist der Erwartungswert der Quicksortlaufzeit an = E(Qn ) approximative
E(Qn ) = 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n)
80
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
mit γ = 0.57721 . . . die Euler Konstante, siehe Knuth [?].
Für jeden Sortieralgorithmus ist der erwartete Wert der Vergleiche, unter Annahme einer Gleichverteilung
auf dem Raum der Listen (Permutationen), nach unten beschränkt durch ln2 n! ≈ ln2 n − n + o(n),
siehe Abschnitt 1.16.
Heapsort, der größte Konkurrent von Quicksort neben Mergesort, benötigt höchstens 4n ln n
Abfragen. Trotzdem ist Quicksort vorzuziehen, da Simulationen die in der Regel schnellere
Laufzeit von Quicksort zeigen. Dies liegt an der einfachen rekursiven Struktur von Quicksort.
Im Erwartungswert benötigt Quicksort approximativ 2n ln n Vergleiche. Dies ist das normale
Laufverhalten. Wir werden zeigen, ein schlechtes Laufverhalten von Quicksort ist sehr selten.
Hierbei definieren wir schlecht als mehr benötigte Abfragen als die obere Grenze 4n ln2 n von
Heapsort. Ziel ist es zu zeigen, daß P (Qn ≥ 4n ln n) klein ist für große n.
Die Tchebycheff Ungleichung liefert
P (Qn − an ≥ ²an ) ≤
VarQn
const
≈
→n 0.
²2 a2n
ln2 n
Verteilungsanalyse:
Heuristik:
Definiere
Rn := (Qn − E(Qn ))/n.
Die Quicksortrekursionsgleichung (1.18) schreibt sich um zu
D
Rn = RZn −1
n ≥ 2 mit
Cn (i) =
Zn − 1
n − Zn
+ Rn−Zn
+ Cn (Zn )
n
n
n−1
1
+ (E(Qi−1 ) + E(Qn−i ) − E(Qn )) .
n
n
(1.19)
(1.20)
Lassen wir jetzt n gegen unendlich laufen. Es läßt sich zeigen, und sei vorausgesetzt,
• Zn /n konvergiert schwach gegen ein gleichförmige verteilte Zg U auf dem Einheitsintervall.
• Cn (n · Zn /n) konvergiert geeignet gegen C(U ) mit
C(x) := 2x ln x + 2(1 − x) ln(1 − x) + 1,
x ∈ [0, 1]
• Rn konvergiert schwach gegen eine Zg R
Unter diesen Voraussetzungen erwarten wir für R eine Gleichung der Form
D
R = RU + R(1 − U ) + C(U ),
(1.21)
D
mit U, R, R unabhängig, R = R.
Wir zeigen jetzt mit einem Fixpunktargument, daß es eine Verteilung bzw. Zg R gibt, die (1.21)
erfüllt.
Kontraktionsmethode:
(Dieser Abschnitt benutzt nichtdiskrete Maße.)
R
Auf dem Raum M der W-Maße auf IR mit endlichem zweiten Moment |x|2 µ(dx) sei d die
Mallows d2 -Metrik,
d(µ, ν) = inf kX − Y k2 .
Das Infimum ist über alle Zgn X, Y mit Verteilung µ, ν.
81
Uwe Rösler
SS98
1.15
Sortieralgorithmen
Bemerkung: Der Raum (M, d) ist ein vollständiger, separabler metrischer Raum [?]. Das
Infimum wir angenommen durch X = Fµ−1 (U ), Y = Fν−1 (U ), mit U eine gleichmäßige Verteilung
und Fµ , Fν die Verteilungsfunktionen
R von µ, ν..
Sei M0 die Menge aller µ ∈ M mit xµ(dx) = 0. Wir betrachten die Abbildung K : M0 7→ M0 ,
D
K(µ) := U X + (1 − U )X + C(U ).
(1.22)
Hierbei sind X, X, U unabhängige Zgn auf einem beliebigen W-Raum. U ist gleichmäßig auf dem
Einheitsintervall verteilt. Die Verteilung von X und X ist µ. Die Abbildung K ist wohldefiniert.
Sie ist unabhängig
von der Wahl des W-Raumes und der Wahl der Zgn. Weiterhin gilt K(µ) ∈ M0
R
wegen xK(µ)(dx) = 0 und
µZ
¶1/2
= kU X + (1 − U )X + C(U )k2 ≤ 2kXk2 + kC(U )k2 < ∞.
x K(µ)(dx)
2
Lemma 1.15.6
Seien µ, ν ∈ M quadratintegrierbar und besitzen dasselbe
R (Kontraktionslemma)
R
erste Moment xdµ(x) = xdν(x). Dann gilt
r
2
d(µ, ν).
d(K(µ), K(ν)) ≤
3
Beweis: Wir wählen die Zg U X + (1 − U )X + C(U ) für die Verteilungen K(µ) und U Y + (1 −
U )Y + C(U ) für die Verteilung K(ν). Hierbei sind U, (X, Y ), (X, Y ) unabhängige Zgn.
Die Zg U hat eine gleichmäßige Verteilung auf dem Einheitsintervall. Die Verteilung von X und
d
d
X ist µ, X = µ = X.
Ferner gilt d( µ, ν) = kX − Y k2 = kX − Y k2 . Dies ist möglich. (Weshalb?) Dann gilt
d2 (K(µ), K(ν))
≤ kU X + (1 − U )X + C(U ) − U Y − (1 − U )Y − C(U )k22
= kU (X − Y ) + (1 − U )(X − Y )k22
= EU 2 E(X − Y )2 + E(1 − U )2 E(X − Y )2
= 32 d2 (µ, ν)
Theorem 1.15.7 Jede Folge M0 3 µ, K(µ), K(K(µ)) = K 2 (µ), K 3 (µ) . . . für quadratintegrierbare
W-Maße µ ∈ M2 konvergiert exponentiell schnell gegen einen Fixpunkt. Der Fixpunkte von K ist
eindeutig.
R
R
Beweis:
Die Folge K n (µ) ist eine Cauchyfolge. Die Erwartungswerte xµ(dx) = xK(µ)(dx) =
R
xK n (µ)(dx) sind alle gleich. Eine Anwendung des vorhergehenden Lemmas ergibt für m ≤ n,
d(K m (µ), K n (µ))
Pn−1
j
j+1
(µ))
j=m d(K (µ), KK
¡ ¢m/2
Pn−1 ¡ 2 ¢j/2
d(µ, K(µ)) ≤ 3 23
d(µ, K(µ)) →m 0
≤ j=m 3
≤
Die Cauchyfolge K n (µ) konvergiert exponentiell
schnell inR d-Metrik gegen einen Grenzwert µ∞ .
R
Dies W-Maß hat denselben Erwartungswert xµ∞ (dx) = xµ(dx) wie das Ausgangsmaß µ.
Das Grenzmaß µ∞ ist ein Fixpunkt µ = K(µ),
d(µ∞ , K(µ∞ )) = d(µ∞ , K n (µ)) + d(K n (µ), K(µ∞ )) →n 0.
• Eindeutigkeit
R
R
Seien ν, ρ zwei Fixpunkte mit demselben Erwartungswert xdν = xdρ.
Es gilt
d(ν, ρ)) = d(K(ν), K(ρ)) < d(ν, ρ).
Nachdem wir den Fixpunkt kennen, bestätigen wir unsere Heuristik durch Rechnerei.
82
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Uwe Rösler
Theorem 1.15.8 Die Verteilung von Rn konvergiert in der Mallows d-Metrik gegen den eindeutigen
Fixpunkt µ∞ von K.
Siehe [?].
Eine Konsequenz des obigen Satzes ist die Markoffabschätzung
P (|Qn − EQn | ≥ EQn ) ≤ n2
VarR
VarRn
.
≈
2
E Qn
4 ln2 n
Die Varianz von Rn konvergiert gegen die Varianz von R, die sich aus der Fixpunktgleichung (1.21)
berechnet,
Z
1
Var(R) = 3
0
C(x)2 dx = 7 − 2/3π 2 .
Große Abweichungen:
Bemerkung:
Die tatsächliche W-keit schlechten Laufverhaltens ist wesentlich kleiner, mindestens
P (|Qn − EQn | ≥ EQn ) ≤
für jedes a ≥ 0.
83
const(a)
na
Uwe Rösler
1.16
SS98
1.16
Anfänge der Informationstheorie
Anfänge der Informationstheorie
Quellenkodierung
Definition 1.16.1 (binärer Kode) Sei A eine endliche Menge, im folgenden Alphabet genannt.
Die Elemente des Alphabets sind die Buchstaben.
Ein binärer Kode für das Alphabet A ist eine injektive Abbildung ϕ : A 7→ {0, 1}∗ = ∪n∈IN {0, 1}n
des Alphabets A in die endlichen 0-1 Folgen.
Die Bilder ϕ(a) heißen kodierte Buchstaben Kodebuchstaben. Ein kodierte Nachricht ist
eine Folge ϕ(a1 )ϕ(a2 ) . . . ϕ(an ) von Kodebuchstaben. Ein Kodebuchstabe ist demgemäß auch eine
kodierte Nachricht. (Es wäre natürlich, für kodierte Nachricht auch Kodewort zu benutzten. Leider
hat Kodewort bereits in deutscher Sprache den Sinn eines Kodeschlüssels.)
Eine kodierte Nachricht ist eine 0-1 Folge. Wären die Kodebuchstaben voneinander getrennt, so
kann aus der Injektivität des Kodes die Buchstabenfolge entschlüsselt werden. Ansonsten eventuell
nicht. Sei z.B. a kodiert durch 1 und b durch 11. Dann kann die kodierte Nachricht 111 herrühren
ab oder von ba.
Ein binärer präfixfreier Kode ist ein Kode, sodaß kein Kodebuchstabe ein Anfangsstück eines
anderen Kodebuchstabens ist. Formal, sei v = (v1 , v2 , . . . , vm ) ∈ Am und w = (v1 , v2 , . . . , vn ) ∈ An .
v ist Anfangsstück von w falls m ≤ n gilt und v = w|m := (w − 1, . . . , wm ).
Die Länge von v ∈ Am ist m. Notation |v| = m. Die Länge |ϕ(a)| eines Kodebuchstabens ist die
Anzahl der Nullen und Einsen.
Die präfixfreie Eigenschaft garantiert eine kodierte Nachricht, bestehend aus einem String von
kodierten Buchstaben, von links nach rechts sukzessive dekodieren zu können.
Betrachten wir einen Kodebaum:
³
³³
³³
u
0
)³
³
´Q
´
Q
´
Q
´
Q
+́
su01
Q
u
00
¢A
¢A
¢ A
¢ A
u
u
¢®
Uu
A
¢®
AUu
u
³³ PPP
PP
PP
qu1
¡@
¡
@
u
ª
¡
Ru
@
¢A
¢A
¢ A
¢ A
u
u
¢®
AUu
AUu
¢®
PP
Die Knoten tragen die natürliche Indizierung durch diejenige 0-1 Folge, die dem Pfad zur Wurzel
entspricht. Eine Abzweigung nach links entspricht der 0 und eine nach rechts einer 1. Die Länge
dieses Pfades ist die Anzahl der Nullen und Einsen. Jeder Knoten repräsentiert unter einem Kode
maximal einen Buchstaben.
Ein präfixfreier Kode hat Buchstaben lediglich an den Enden des Baumes, nicht unbedingt alle auf
gleicher Höhe. Die Knoten 00, 01, 1 könnten als Kodierungsbuchstaben eines Präfixkodes dienen.
Lemma 1.16.2 (Kraft) Die Kodebuchstabenlängen eines binären Präfixkodes ϕ erfüllen
X
2−|ϕ(b)| ≤ 1.
(1.23)
b∈B
P
Umgekehrt, geben wir natürliche Zahlen lb für jeden Buchstaben b vor und gilt b∈B 2−lb ≤ 1,
dann gibt es einen binären Präfixkode ψ mit Kodebuchstabenlängen gleich den vorgegeben Zahlen.
Beweis: Wir beweisen das Lemma von Kraft durch Induktion nach der Alphabetlänge |B| = n.
• Kraftungleichung
Für den Induktionsschritt zu (1.23) n → n + 1 seien B0 bzw. B1 die Menge aller Buchstaben b,
deren Kodierung ϕ(b) mit 0 bzw. 1 beginnt. Definiere die binären Präfixkodes ψ0 für B0 und ψ1 für
B1 durch (i, ψx (b)) = ϕ(b), i ∈ {0, 1}, b ∈ B, entstanden durch Weglassen der ersten Koordinate.
84
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
SS98
Sind B0 und B1 beide nicht leer, so folgt nach Induktionsvoraussetzung
X
X
X
2−|ϕ(b)| =
2−|ψ0 (b)|−1 +
2−|ψ1 (b)|−1 ≤ 1.
b∈B
b∈B0
Uwe Rösler
b∈B1
Sind B0 oder B1 leer, so wiederhole den Aufteilungsschritt.
• Umkehrung
Pi
Ordne lb , b ∈ B, der Größe nach, etwa lb1 ≤ lb2 ≤ . . . ≤ lbn+1 . Definiere i0 = sup{i | j=1 2−lbj ≤
1/2} und B0 := {bj ∈ B | j ≤ i0 } und B1 = B\B0 .
Es gilt
X
X
2−lb ≤ 1/2 und
2−lb ≤ 1/2.
b∈B0
b∈B1
(Übung.)
Sind B0 und BP
1 nicht leer, so gibt es nach Induktionsvoraussetzung binäre Präfixkodes ψi für
Bi , i = 0, 1 mit b∈Bi 2−ψi (b) ≤ 1/2. Der zusammengesetzte Kode ϕ mit ϕ(bi ) := (i, ψi ) tuts.
Sind B0 oder B1 leer, so wiederhole den Aufteilungsschritt.
q.e.d.
Definition 1.16.3 (Entropie) Die Entropie I(µ) eines W-maßes µ auf B ist der Wert
X
1
.
I(µ) :=
µ(b) log2
µ(b)
b∈B
Wir benutzen den Logarithmus zur Basis 2 und die stetige Erweiterung von x 7→ x log2 x1 in
x = 0, ∞. Analog benutzen wir Entropie einer Zg X mit Werten in den Buchstaben als Entropie
der Verteilung der Zg.
Proposition 1.16.4 Für W-maße auf B gilt
0 ≤ I(µ) ≤ ln2 |B|.
Die untere Grenze wird angenommen durch ein Punktmaß, die obere durch die Gleichverteilung.
Beweis:
0 ≤ I(µ) =
X
µ(b) log2
b∈B
1
µ(b)
Jensen
≤
log2 (
Der zweite Teil der Behauptung wird nachgerechnet.
X
µ(b)
b∈B
1
) = ln2 |B|.
µ(b)
q.e.d.
Satz 1.16.5 (Quellenkodierung) Sei X eine Zg auf B.
Die erwartete Länge jeden binären Präfixkode ϕ ist nach unten beschränkt durch die Entropie von
X,
I(X) ≤ E|ϕ(X)|.
Weiterhin gibt es stets einen binären Präfixkode ψ mit
E|ψ(X)| < I(X) + 1.
Beweis:
(i) Sei µ(b) := P (X = b).
Mit der Jensen und Kraft Ungleichung folgt
I(X) − E|ϕ(X)| =
X
b
(log2
X
Jensen
2−|ϕ(b)|
2−|ϕ(b)|
)µ(b) ≤ log2 (
) ≤ log2 1 = 0.
µ(b)
µ(b)
µ(b)
b
(ii) Definiere natürliche Zahlen lb durch 2−lb ≤ µ(b) < 2−lb +1 .
P
P
Wegen b 2−lb ≤ b µ(b) = 1 existiert nach dem Lemma von Kraft ein binärer Präfixkode
ψ mit diesenPKodewortlängen
|ψ(b)| = lb . Dieser tut’s:
P
q.e.d.
E|ψ(X)| = b µ(b)lb < b µ(b)(− log2 µ(b) + 1) = I(X) + 1.
85
Uwe Rösler
SS98
1.16
Anfänge der Informationstheorie
Sortieralgorithmen:
Für einen Sortieralgorithmus wollen wir nur die Zahl der benötigten Vergleiche zur Sortierung
betrachten. Alle anderen Operationen, die auch Zeit benötigen, wollen wir vernachlässigen.
Wir interpretieren den Sortieralgorithmus als eine Folge von genauen, fest vorgegebenen Vorschriften,
jeweils zwei Elemente der vorliegenden Liste in Abhängigkeit vorhergehender Vergleichsergebnisse
auszuwählen und zu vergleichen.
Das Ergebnis dieser Vergleiche speichern wir in zeitlicher Reihenfolge als eine 0 − 1 Folge gewisser
Länge ab. Der Vergleichsprozeß ist beendet, wenn wir an Hand der Vergleiche sicher die Liste
ordnen können bzw. geordnet haben.
Betrachten wir nun nur Listen vorgegebener Länge n, interpretiert als Buchstaben des Alphabets.
Da es nicht auf die Absolutgröße der Elemente ankommt, sondern nur die relative, interpretieren
wir jede Liste als eine Permutation der Zahlen 1, . . . , n.
Die Ausführung des Sortieralgorithmus entspricht einer Kodierung unserer Listen. Vom gegebenen
Kode, (einschließlich der Angabe, welche verglichen wurden, vgl. Quicksort,) können wir eindeutig
die Ausgangsliste rekonstruieren.
Dieser Kode ist ein Präfixkode, da wir an Hand der durchgeführten Vergleiche genau wissen, wann
die Liste geordnet ist (werden kann).
Mathematisches Modell: Sei Πn die Menge aller Permutationen π auf 1, ..., n und P ein W-maß
darauf.
Der Quellenkodierungssatz liefert für jeden binären Präfixkode I(P ) ≤ E|ϕ|.
Allgemein gilt I(P ) ≤ I(Gleichverteilung) = log2 n!. Der schlechteste Fall ist die Gleichverteilung,
was mit der Intuition übereinstimmt.
Lemma 1.16.6 Die erwartete Anzahl der Abfragen für jeden Sortieralgorithmus, um eine Liste
der Länge n zu sortieren, ist mindestens log2 n! unter Gleichverteilungsannahme der Listen.
Beweis: Jeder Sortieralgorithmus entspricht einem binärem Präfixkode. Der Quellenkodierungssatz
liefert das Resultat.
q.e.d.
Der “beste” bekannte Sortieralgorithmus ist Mergesort.
Wir erhalten mit der Stirlingschen Formel ln n! = n ln n − n + o(n) und genauer als globale untere
Schranke
√
ln2 e
.
log2 n! ≥ n log2 n − n log2 e + log 2πn +
12n + 1
Sortierspiel:
halber) fest.
Wir betrachten “sortieren” jetzt als Spiel zweier Kontrahenten. Sei n (der Einfachheit
(i) Der Spieler I wählt verdeckt den Sortieralgorithmus A.
(ii) Der Spieler II wählt verdeckt eine Permutation π (entspricht einer Liste) zu dem gegebenen
n.
(iii) Die Werte A und π werden aufgedeckt und die Anzahl der Vergleiche A(π) des Algorithmus
zur Sortierung ermittelt.
(iv) Der Spieler I zahlt an Spieler II den Betrag A(π) − C. C ist ein vorher vereinbarter Betrag.
(Hier haben wir den Algorithmus A als Funktion auf den Permutationen aufgefaßt.)
Der Spieler I wählt den Algorithmus nach einer Verteilung µ und der Spieler II wählt die Permutation
(=zu sortierende Liste) nach einer Verteilung ν. Die durchschnittliche Auszahlung beträgt dann
X
EA(π) =
µ(A)ν(π)A(π) =:< µ, ν > .
A,π
Spieler I möchte die Anzahl der Abfragen möglichst klein machen, Spieler II möglichst groß. Dies
sind gegensätzliche Ziele.
86
Elementare Wahrscheinlichkeitstheorie
Vorlesungsmitschrift
SS 2008
Spieler I kann aus eigener Kraft mindestens
SS98
Uwe Rösler
inf sup < µ, ν >
µ
ν
sicherstellen für jede Wahl des Spielers II tut.
Spieler II kann mindestens (aus eigener Kraft)
sup inf < µ, ν >
ν
µ
sicherstellen, unabhängig von der Wahl des Spielers I.
Ohne Beweis sei angeführt:
inf sup < µ, ν >= sup inf < µ, ν >=: V.
µ
ν
ν
µ
Dieser Wert V heißt der Spielwert.
Wird als Grundgröße C der Spielwert V gewählt, so ist das Spiel fair, d.h. im Erwartungswert ist
kein Spieler bevorteilt.
Obiges Lemma 1.16.6 gibt eine untere Schranke für V ,
I(Gleichverteilung) = log2 n! ≤ V.
Obere Schranken ergeben sich durch die bekannten Sortieralgorithmen, z.B. Mergesort. Bessere
Schranken sind mir nicht bekannt und auch der Spielwert V ist unbekannt.
Spielstrategien: Die optimale Strategie für Spieler II besteht in zufälliger Wahl der Permutation
mit Gleichverteilung. Intuitiv ist dies naheliegend, da dann Spieler I am wenigsten Information
(=maximale Entropie) für die Wahl seines Algorithmus hat.
Mathematisch formal folgt dies folgendermaßen:
(ii) Spieler II will ein ν finden, welches ϕ(ν) = inf µ < µ, ν > maximiert.
Sei e ∈ Π
Peine Permutation und νe das W-maß auf den Permutationen mit νe (π) := ν(eπ). Sei
1
ν = |Π|
e∈Π νe . Für einen Algorithmus A sei Ae derjenige Algorithmus mit Ae (π) = A(eπ)
für alle π. Analog verwenden wir µe für die Verteilung von Ae , wenn A verteilt ist nach µ.
Beachte < µ, ν >=< µe−1 , νe > for alle e ∈ Π.
• ϕ(ν) ≤ ϕ(ν).
Zu gegebenem ν sei µ̃ ein W-maß, welches das Infimum inf µ < µ, ν > fast annimmt und
< µ̃, ν >≤< µ̃e , ν > erfüllt für alle e ∈ Π. Es gilt
1 X
ϕ(ν) ≤ < µ̃, ν >≤
< µ̃e , ν >
|π|
e∈Π
1 X
=
< µ̃, νe− 1 >
|π|
e∈Π
= < µ̃, ν >= ϕ(ν)
Spieler II sollte daher die Gleichverteilung wählen.
(i) Nun zur Sicht des Spielers
I. Er sollte, ganz analog zu obigem aus Symmetriegründen, nur
P
1
µ
Mittelungen µ = |π|
e∈Π e wählen. Dies kann er durch einen Zufall intern im Algorithmus
verwirklichen. (Siehe auch Quicksort.)
Die einfachste Vorstellung ist allerdings ein Algorithmus, der zuerst die eingegebenen Daten
gut mischt bevor er sortiert. Damit erreicht der Spieler, daß die Performance des Algorithmus
unabhängig von der Originalliste ist. Intuitiv ist dies gut nach dem Spielprinzip, dem Gegner
möglichst wenig Einflußnahme auf das Spiel zu belassen. Mathematisch formal argumentiere
(analog wie oben):
87
Herunterladen