Konzepte und diskrete Wahrscheinlichkeitstheorie

Werbung
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Kapitel 1
Konzepte und diskrete
Wahrscheinlichkeitstheorie
1.1
Einführung und Motivation
Wahrscheinlichkeiten werden im täglichen Sprachgebrauch verwendet und intuitiv verstanden.
Hieraus entwickeln wir dann in mehreren Schritten das gängige Konzept der Wahrscheinlichkeitstheorie, die Axiomatik von Kolmogoroff.
1.1.1
Laplaceräume
Beispiel 1.1.1 Wir würfeln einen normalen Würfel. Die Ergebnisse sind eine Zahl aus 1 bis 6.
Die Wahrscheinlichkeit (W-keit), dass die Zahl 6 erscheint ist 16 . Aus Symmetriegründen ist die
Wahrscheinlichkeit für das Erscheinen der Zahl 1 genauso gross. Für jede Zahl i von 1 bis 6 gilt:
Wahr(Die Zahl i erscheint) =
1
.
6
Die Wahrscheinlichkeit (W-keit) für das Würfeln einer geraden Zahl ist
Wahr(Eine gerade Zahl erscheint) = Wahr(2) + Wahr(4) + Wahr(6) =
1
.
2
Ebenso lassen sich andere W-keiten für Teilmengen A der Ergebnismenge {1, 2, . . . , 6} leicht berechnen,
1
Wahr(A) = |A|.
6
Würfeln ist ein einfaches Beispiel eines Zufallsexperiments. Die Ergebnisse heis̈en auch Realisierungen des Zufallsexperiments. Der Raum aller Realisierungen heis̈t Stichprobenraum und
wird konventionell mit Ω bezeichnet. Ein Element ω des Stichprobenraumes heißt Realisierung oder
Stichprobe. Die Potenzmenge P(Ω) des Stichprobenraumes heis̈t Ereignisraum, eine Teilmenge
des Stichprobenraumes Ereignis. Ein Wahrscheinlichkeitsmas̈ (W-mas̈) ordnet jedem Ereignis einen
Wert aus dem Einheitsintervall [0, 1] zu. Konventionell wird diese Abbildung
P : P(Ω) → [0, 1]
mit P als Abkürzung fürs englische probability bezeichnet.
Definition 1.1.2 (Laplaceraum) Ein Laplaceraum ist ein Tupel (Ω, P(Ω), P ). Hierbei ist Ω
eine nichtleere endliche Menge und P die Abbildung auf der Potenzmenge P(Ω) ins Einheitsinvall
gegeben durch
|A|
P (A) =
.
|Ω|
1
Uwe Rösler
Merkregel:
nisses die
SS12
1.1
Einführung und Motivation
Einprägsamer ausgedrückt: für Laplaceräume ist die Wahrscheinlichkeit eines Ereig-
Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle.
Jedes Elementarereignis {ω} hat die W-keit
W-keit eines Ereignisses berechnet sich zu
1
|Ω| .
P (A) =
Elementarereignisse haben die gleiche W-keit. Die
X
P ({ω}).
ω∈Ω
Die Bestimmung von W-keiten reduziert sich zu reinem Abzählen.
Beispiel 1.1.3 (Lotto) Aus 49 durchlaufend numerierten Kugeln werden 6 Kugeln zufällig gezogen. Ein Ergebnis ist die Menge der sechs gezogenen Zahlen, üblicherweise geschrieben als 6-Tupel
(x1 , . . . , x6 ) mit 1 ≤ x1 < x2 < . . . < x6 ≤ 49. Dies sind die Stichproben. Jede Stichprobe hat
dieselbe W-keit. (Dazu stelle man sich die Kugeln umnummeriert vor. Die Umnummerierung hat
keinen Einflus̈ auf das Ziehen der Kugeln. Daher sollte mögliche Zahlenkombination dieselbe Wkeit besitzen.) Wir haben einen Laplaceraum vorliegen. Die W-keit 6 richtige mit dem Tip y zu
haben ist
1
1
1
= 49 =
P ({y}) =
|Ω|
13.983.816
6
Lemma 1.1.4 Eine n-elementige Menge hat
n
k
k-elementige Teilmengen.
n!
Notation nk := k!(n−k)!
= n(n−1)(n−2)...(n−k+1)
wird n über k gelesen. Das Symbol n! = n(n −
k(k−1)...1
1)(n − 2) . . . 1 wird n-Fakultät
gelesen.
Konvention 0! = 1 und n0 = 1
Auch auf Laplaceräumen gibt es interessante Ereignisse zu betrachten.
Beispiel 1.1.5 Wir betrachten n-maliges Würfeln eines Würfels. Eine Realisierung wird durch
ein Element ω = (ω1 , . . . , ωn ) aus {1, 2, . . . , 6}n beschrieben. Jede Realisierung sollte gleichwahrscheinlich sein. Es ergibt sich der Laplaceraum (Ω = {1, . . . , 6}n , P ).
Sei z.B. X(ω) = |{i ≤ n | ωi = 1}| die Anzahl der aufgetretenen
Einsen. Zu jedem ω betrachten wir
die Menge der Koordinaten belegt mit einer 1. Es gibt nk k-elementige Teilmengen. Das Urbild
einer k-elemtigen Menge hat die Kardinalität 5n−k .
n−k
n 5
|{ω | X(ω) = k}|
P ({ω | X(ω) = k}) =
=
.
6n
k 6n
1.1.2
Diskrete Wahrscheinlichkeitsräume
Laplaceräume sind die einfachsten Wahrscheinlichkeitsräume. Unser nächstes Beispiel zeigt einen
W-Raum, der kein Laplaceraum ist.
Beispiel 1.1.6 Wir werfen eine Münze solange bis Adler erscheint. Das Ergebnis dieses Zufallsexperiments sei die Anzahl der Würfe. Der Stichprobenraum sind die natürlichen Zahlen IN. Die
W-keit für einmaliges werfen ist 12 , für zweimaliges werfen 14 für dreimaliges 81 usw
P ({n}) = 2−n .
Die W-keit eines Ereignisses A berechnet sich zu
X
P (A) =
P ({ω}).
ω∈A
2
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Definition 1.1.7 (Diskreter Wahrscheinlichkeitsraum) Ein diskreter W-raum ist ein Tupel (Ω, P(Ω), P ). Hierbei ist Ω eine endliche oder abzählbare nichtleere Menge und die Abbildung
P : P(Ω) → [0, 1] erfüllt die Eigenschaften
X
∀A ⊂ Ω
P (A) =
P ({ω})
ω∈A
P (Ω) = 1.
Proposition 1.1.8 Sei Ω eine endliche oder abzählbare nichtleere Menge. Es gibt eine Bijektion
P zwischen W-mas̈en P auf der Potenzmenge von Ω und positiven Funktionen f auf Ω mit
ω∈Ω f (ω) = 1. Diese Bijektion kann durch
P ({ω}) = f (ω)
gegeben werden.
Der Beweis ist einfach.
W-mas̈e eines diskreten W-raumes werden eindeutig beschrieben durch die Dichtefunktion f.
Ist ω1 , ω2 , . . . eine Aufzählung von Ω, so spricht man auch von dem Wahrscheinlichkeitsvektor
(f (ω1 ), f (ω2 ), . . .).
Die Wahrscheinlichkeit eines Ereignisses A berechnet sich zu
X
P (A) =
f (ω).
ω∈A
Die Dichtefunktion f kann den Wert 0 annehmen.
Beispiel 1.1.9 (Ereignisraum eines rot-grün Blinden) Wir würfeln zwei ununterscheidbare
Würfel gleichzeitig. Als Ergebnis dieses Experiments erhalten wir ein Tupel (i, j), i ≤ j der gewürfelten Zahlen. Das Tupel haben wir der Grös̈e nach geordnet, die kleinere Zahl steht zuerst. Da die
Würfel ununterscheidbar sind, können wir die Zahlen nicht einem Würfel zuordnen. Das W-mas̈
P auf dem Stichprobenraum beschreiben wir durch die Dichtefunktion f
1
f alls i = j
36
f (i, j) =
2
f alls i < j
36
Wie haben wir die W-keiten gefunden? Betrachten wir dazu das Experiment des würfelns mit
zwei unterscheidbaren Würfeln, z.B. roter und grüner Würfel. Als Ergebnis notieren wir das Tupel
(i, j), i das Ergebnis des roten Würfel und j des grünen. Sei (Ω, P ) der zu diesem Experiment
gehörige Laplaceraum.
Ein rot-grün blinder Mensch kann die Würfel nicht unterscheiden und notiert die gewürfelten
Zahlen als Tupel (i, j), i ≤ j der Grös̈e nach geordnet. Der Farbblinde benutzt den diskreten Wraum (Ω0 , P 0 ) aus Beispiel 1.1.9. Jedem beobachtbaren Ereignis des Farbblinden ordnen wir ein
entsprechenden Ereignis mit unterscheidbaren Würfeln zu. Dazu betrachten wir die Abbildung
X : Ω → Ω0
Ω 3 (i, j) 7→ X(i, j) = (min i, j, max i, j) ∈ Ω0 .
Diese Abbildung ist wohldefiniert und surjektiv. Ein Ereignis A0 des Farbblinden entspricht dem
Ereignis X −1 (A0 ) des Normalsichtigen. Daher definiert
P 0 (A0 ) := P (X −1 (A0 ))
das richtige W-mas̈ P 0 für den Farbblinden. P 0 heis̈t auch transportiertes Mas̈s.
Bemerkung: Im obigen Beispiel haben wir eine Äquivalenzrelation auf Ω gebildet (ω ∼ ω ↔
X(ω) = X(ω)) und Ω0 entspricht den Äquivalenzklassen. Auf Ω selbst bezogen hat der Farbblinde
einen echt kleineren Ereignisraum (X −1 (Pot(Ω0 )) als der Normalsichtige.
3
Uwe Rösler
1.1.3
SS12
1.1
Einführung und Motivation
Kolmogoroff Axiomatik
Wir kommen jetzt zum allgemeinen Konzept der Wahrscheinlichkeitstheorie. Das Beispiel des
Farbblinden zeigt bereits die Notwendigkeit kleinere Ereignisräume als die volle Potenzmenge
zuzulassen. Wir benötigen strukturelle Forderungen an die Ereignisraum, wie z.B. die Vereinigung
von Ereignissen ist ein Ereignis.
Die folgende Axiomatik von Kolmogoroff, 1933 Grundbegriffe der Wahrscheinlichkeitstheorie, hat
sich als sehr erfolgreich erwiesen.
Definition 1.1.10 Ein Wahrscheinlichkeitsraum ist ein Tupel (Ω, A, P ). Der Stichprobenraum Ω ist eine nichtleere Menge, der Ereignisraum A ⊂ P(Ω) ist eine σ-Algebra und P : A →
[0, 1] ist ein Wahrscheinlichkeitsmas̈.
Definition 1.1.11 Eine σ-Algebra A über einer Menge Ω ist eine Teilmenge der Potenzmenge
von Ω mit den folgenden Eigenschaften
i) A ist nicht leer.
ii) A ist komplementabgeschlossen.
iii) A ist abgeschlossen bzgl. abzählbarer Vereinigung.
In mathematischerer Schreibweise
i) A =
6 ∅
ii) ∀ A ∈ A : Ac ∈ A
iii) ∀ An ∈ A, n ∈ IN : ∪n∈IN An ∈ A
Ein meßbarer Raum (Ω, A) besteht aus einer nicht leeren Menge Ω und einer σ-Algebra darüber.
Bemerkung: Die Forderung A nicht leer können wir durch A enthält die leere Menge ersetzen.
Not: R := IR ∪ {−∞, ∞} bezeichne die erweiterten reellen Zahlen.
Definition 1.1.12 Ein Maß auf einem mes̈baren Raum (Ω, A) ist eine Abbildung µ : A → IR mit
folgenden Eigenschaften
i) µ(∅) = 0
ii) µ(A) ≥ 0 für jedes Element A der σ-Algebra A
S
P
iii) µ( ◦ n∈IN An ) = n∈IN µ(An ) für jede paarweise disjunkte Folge An , n ∈ IN aus A.
S
Not: Das Symbol ◦ i Ai steht für die Vereinigung paarweiser disjunkter Mengen Ai , i aus einer
Indexmenge.
Definition 1.1.13 Ein Wahrscheinlichkeitsmaß(W-maß) ist ein Maß µ mit der zusätzlichen
Normierung
µ(Ω) = 1.
Kon: W-mas̈e werden üblicherweise mit P bezeichnet.
Definition 1.1.14 Ein Maßraum ist ein Tupel (Ω, A, µ) bestehend aus einem meßbaren Raum
(Ω, A) und einem Maß µ darauf. Ein W-raum ist ein Maßraum (Ω, A, P ) mit einem W-maß P.
Beispiele: Laplaceräume und diskrete W-räume sind W-räume. Jeder W-raum mit endlichem Stichprobenraum Ω, der Potenzmenge als σ-Algebra und gleicher W-keit aller Stichproben ist ein Laplaceraum. Jeder W-raum mit höchstens abzählbarem Stichprobenraum Ω und der Potenzmenge
als σ-Algebra ist ein diskreter W-raum.
Der Ereignisraum A ist im allgemeinen kleiner als die Potenzmenge. (Es gibt viele Mas̈e kleineren
σ-Algebren, die nicht auf die Potenzmenge fortgesetzt werden können.)
4
Elementare Wahrscheinlichkeitstheorie
1.1.4
SS12
Uwe Rösler
Zufallsgrößen:
W-Räume sind die neuen mathematischen Objekte, die wir betrachten wollen. Zu einer tieferen
Theorie benötigen wir Morphismen, d.h. strukturerhaltende Abbildungen zwischen den Objekten.
Definition 1.1.15 Eine Abbildung X von einem meßbaren Raum (Ω, A) in einen anderen mes̈baren Raum (Ω0 , A0 ) heis̈t mes̈bar, falls X −1 (A0 ) ∈ A für jedes Ereignis A0 ∈ A0 . Eine Zufallsgröße (Zg) ist eine mes̈bare Abbildung X : Ω → Ω0 .
Not: Zgn werden mit gros̈en Buchstaben gekennzeichnet, X, Y, Z. Realisierungen werden vorzugsweise mit kleinen Buchstaben bezeichnet.
Der Begriff Zufallsgrös̈e wird ins Englischen durch random variable übersetzt. Eine Rückübersetzung liefert den Begriff Zufallsvariable, der synonym zu Zufallsgrös̈e benutzt wird.
Bemerkung Den Begriff Meßbarkeit benötigen wir nur, falls wir Ereignisräume betrachten, die
kleiner als die Potenzmenge sind. Im Setting diskreter W-räume ist jede Funktion bereits meßbar.
1.1.5
Transportierte Maße
Proposition 1.1.16 Sei X : Ω → Ω0 eine Abbildung von einem Maßraum (Ω, A, µ) in einen
meßbaren Raum (Ω0 , A0 ). Dann ist die Abbildung µ0 : A0 → IR
µ0 (A0 ) := µ(X −1 (A0 ))
ein Mas̈.
Beweis: Nachrechnen der Eigenschaften. (Übung)
Definition 1.1.17 Das Maß µ0 wie oben heis̈t transportiertes Maß. Ist X eine Zg und µ = P
ein W-maß, so heis̈t µ0 = P 0 die Verteilung von X.
Not: Folgende Notationen sind gebräuchlich, P X , PX und P X −1 . Ich benutze vorzugsweise P X
für die Verteilung von X.
Not: Das ω wird gerne unterdrückt. Wir schreiben X ∈ A0 oder auch {X ∈ A0 } für das Ereignis
{ω ∈ Ω | X(ω) ∈ A0 } = X −1 (A0 ). Typisch ist P (X ∈ A0 ) anstelle P ({ω ∈ Ω | X(ω) ∈ A}).
Not: Mengenklammern werden gerne unterdrückt. Wir schreiben z.B. P (ω) anstelle von P ({ω}).
1.1.6
Verteilungen
Im folgenden betrachten wir nur diskrete W-räume mit der Potenzmenge als Ereignisraum. Einige W-räume, mehr noch die zugehörigen W-maße, auch Verteilungen genannt, sind besonders
wichtig.
• Bernoulliverteilung: Dies ist ein diskretes W-maß P auf dem Stichprobenraum {0, 1} mit
P (1) = p und q := P (0) = 1 − p. Das Standardbeispiel ist der Münzwurf. Das Ergebnis des
Münzwurfs ist 1 (für Kopf) mit Wahrsch. p und 0 (für Zahl) mit Wahrsch. q.
• Binomialverteilung: Die Binomialverteilung Bin(n, p) zum Parameter (n, p), 0 ≤ n, 0 ≤
p ≤ 1, ist ein W-Maß P auf dem Stichprobenraum Ω = {0, . . . , n} mit
n k
P ({k}) =
p (1 − p)n−k .
k
Werfen wir n mal eine gefälschte Münze, p sei die Wahrsch. für Kopf (1), so ist die Gesamtanzahl S der Kopfwürfe P ({ω | S(ω) = k}) = P ({k}) binomialverteilt Bin(n, p).
5
Uwe Rösler
SS12
1.1
Einführung und Motivation
• Geometrische Verteilung: Die geometrische Verteilung Geo(p) zum Parameter p ∈ [0, 1)
ist ein W-Maß P auf den natürlichen Zahlen als Stichprobenraum mit
P ({k}) = (1 − p)pk−1 .
Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (= 1). Sei X die Anzahl der
Kopfwürfe vor dem ersten Zahlwurf. Das Ereignis,der k-te Wurf ist der erste Zahlwurf, hat
die Wahrsch. P ({ω | X(ω) = k}) = (1 − p)pk−1 .
• Poissonverteilung: Die Poissonverteilung Poi(λ) zum Parameter λ ∈ (0, ∞) ist ein W-Maß
P auf dem Stichprobenraum IN0 mit
P ({k}) = exp(−λ)λk /k!.
Beachte
P
k
P ({k}) = 1 wegen der Taylor Entwicklung exp(x) =
xn
n=0 n! .
P∞
• Negative Binomialverteilung: Die negative Binomialverteilung zum Parameter (n, p),
n ∈ IN, 0 ≤ p < 1, ist ein W-Maß P auf dem Stichprobenraum IN0 mit
k+n−1 n k
P ({k}) =
q p ,
k
P
P k+n−1 k
1
q = 1 − p. Beachte k P ({k}) = 1 wegen der Taylor Entwicklung (1−x)
x .
n =
k
k
6
Elementare Wahrscheinlichkeitstheorie
1.2
SS12
Uwe Rösler
Kombinatorische Wahrscheinlichkeitstheorie
In diesem Abschnitt betrachten wir nur endlichen Stichprobenräume versehen mit der Potenzmenge als σ-Algebra. Das Wahrscheinlichkeitsmaß P schreibt sich als additive Funktion,
X
P (A) =
P ({ω}).
ω∈A
Notation: P (ω) = P ({ω}).
Durch gute Wahl des w-theoretischen Modells reduzieren sich viele W-theoretische Argumente auf
Kombinatorik und geschicktes Abzählen. Die Betonung liegt auf geschicktes, denn eine häufige
Schwierigkeit ist die Wahl der “richtigen” Anschauung und Darstellung des Stichprobenraumes.
Mit der richtigen Betrachtungsweise wird das Abzählen meist einfach.
Besonders geeignete Kandidaten sind die Laplaceräume, da die W-keiten sich als Quotient erweisen,
Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle.
1.2.1
Laplaceraum
Definition 1.2.1 Ein Laplaceraum ist eine endliche Menge Ω versehen mit der Potenzmenge
als σ-Algebra und dem W-maß
|A|
P (A) =
|Ω|
auf den Ereignissen.
Proposition 1.2.2 Ein W-raum (Ω, P(Ω), P ) mit endlichem Stichprobenraum ist genau dann ein
Laplaceraum, wenn alle Stichproben gleichwahrscheinlich sind.
Bew: Die Hinrichtung folgt aus P (ω) =
aus
1
|Ω|
und die Rückrichtung, beachte 1 = P (Ω) =
P (A) =
X
P ({ω}) =
ω∈A
P
ω∈Ω
P ({ω})
|A|
.
|Ω|
q.e.d.
Die Standardvorstellung zu einem Laplace-Experiment ist das Modell einer Urne mit n numerierten
Kugeln, aus der wir einmal ziehen. Überhaupt bilden Urnenmodelle eine geeignete Vorstellung für
alle w-theoretischen Fragestellungen bei endlichem Stichprobenraum. Daher eine kleine Übersicht
der wichtigsten Urnenmodelle.
1.2.2
Urnenmodelle
13j
12j
11j 10j8j 9j 14j
6j 7j 5j 1j 4j 2j 3j %
&
Gegeben sei eine Urne mit n numerierten Kugeln, aus der wir insgesamt k-mal ziehen wollen. Die
Kugeln seien durchgehend numeriert von 1 bis n. Wir ziehen zufällig (jede Kugel hat dieselbe
W-keit) eine Kugel heraus und sehen uns das Ergebnis an. Abhängig vom Urnenmodell legen wir
die Kugel zurück oder nicht. Dann wird zum zweitenmal zufällig gezogen usw., insgesamt k-mal.
Als Gesamtergebnis notieren wir die Nummern der gezogenen Kugeln in zeitlicher Reihenfolge der
Ziehung oder, falls uns die zeitliche Reihenfolge vorenthalten wird, in lexikographischer Ordnung.
(i) Ziehen in Reihenfolge und mit Zurücklegen
7
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Eine Realisierung ist ein Tupel ω = (ω1 , ω2 , . . . , ωk ), wobei ωj die Nummer der j-ten gezogenen Kugel angibt. Jede solche Realisierung ist gleich wahrscheinlich (Symmetrieüberlegungen
und eventuelle Umnummerierung der Kugeln). Der zugehörige Stichprobenraum
ΩRZ := {1, 2, . . . , n}k
hat
|ΩRZ | = nk
Elemente und ist ein Laplaceraum.
(ii) Ziehen in Reihenfolge und ohne Zurücklegen
Wir notieren die Folge der gezogenen Zahlen. Eine Realisierung wird beschrieben durch ein
k−Tupel (ω1 , ω2 , . . . , ωk ) verschiedener Zahlen von 1 bis n. Der Stichprobenraum
ΩR∼Z := {ω ∈ {1, 2, . . . , n}k | ωi 6= ωj for 1 ≤ i 6= j ≤ k}.
hat
|ΩR∼Z | = (n)k := n(n − 1) . . . (n − k + 1) =
n!
(n − k)!
Elemente und ist ein Laplaceraum. (Für die Auswahl des ersten Elements ω1 haben wir n
Möglichkeiten, für die zweite Kugelzahl nur noch n − 1 Möglichkeiten, dann n − 2 usw.)
Für n = k erhalten wir alle Permutationen der Zahlen 1 bis n, d.h. alle bijektiven Abbildungen von {1, 2, . . . , n} auf sich selbst.
(iii) Ziehen ohne Reihenfolge und ohne Zurücklegen
Als Gesamtergebnis der Ziehung bekommen wir nur mitgeteilt, welche Kugeln gezogen wurden und wie oft diese gezogen wurden. Wir kennen nicht die zeitliche Reihenfolge der Ziehung. Der Übersichtlichkeit halber ordnen wir die gezogenen Zahlen in lexikographischer
(=natürlicher) Ordnung. Wir verwenden den Stichprobenraum
Ω∼R∼Z := {ω ∈ {1, 2, . . . , n}k | ω1 < ω2 < . . . < ωk },
oder auch alternativ den Stichprobenraum
Ω0∼R∼Z := {A ⊂ {1, 2, . . . , n} | |A| = k}.
Die Abbildung (ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk } ist eine Bijektion von Ω∼R∼Z nach Ω0∼R∼Z .
Beide Stichprobenräume haben
n
|Ω∼R∼Z | =
= |ΩR∼Z |/k!
k
Elemente und sind Laplaceräume.
(Zum Beweis betrachten wir die obige Abbildung jetzt von ΩR∼Z nach Ω∼R∼Z zuordnet.
Jedes Urbild f −1 (y) := {ω | f (ω) = y} von y ∈ Ω∼R∼Z hat genau k! Elemente. Damit
erhalten wir obige Formel.)
Die häufigste Verwendung dieses Urnenmodells ist enthalten in der folgenden Merkregel:
Die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist
(iv) Ziehen ohne Reihenfolge und mit Zurücklegen
8
n
k
.
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Als praktische Durchführung denken wir uns ein Ziehen mit Reihenfolge und mit Zurücklegen. Genannt werden nur die Nummern der gezogenen Kugeln, eventuell mit Mehrfachnennungen. Eine Realisierung beschreiben wir durch das k-Tupel ω der aufsteigend geordneten
Kugelnummern. Der Stichprobenraum zu diesem Urnenmodell ist
Ω∼RZ := {ω ∈ {1, 2, . . . , n}k | ω1 ≤ ω2 ≤ . . . ≤ ωk }.
Die Wahrscheinlichkeit eines Ereignisses ω berechnet sich als Summe der Wahrscheinlichkeiten aller ω 0 beim Ziehen mit Reihenfolge und mit Zurücklegen, die zu einer Nennung ω
führen.
Sei ϕ : ΩRZ 7→ Ω∼RZ die Abbildung, die jedem ω 0 ∈ ΩRZ das geordnete Tupel zuordnet.
Das W-maß P∼RZ : ¶(Ω∼RZ ) → IR ist das durch ϕ transportierte Maß
P∼RZ (A) = PRZ (ϕ−1 (A)) =
|ϕ−1 (A)|
.
|ΩRZ |
Der W-raum (Ω∼RZ , ¶(Ω∼RZ ), P∼RZ ) ist der gesucht Wahrscheinlichkeitsraum. Dies ist kein
Laplaceraum. Z.B. hat in unserer Versuchsanordnung für n = 4, k = 4 die Realisierung
(1, 1, 1, 1) die W-keit 1/(44 ), die Realisierung (1, 2, 3, 4) aber eine W-keit von 4!/44 . Verschiedene Realisierungen beim Ziehen mit Reihenfolge und mit Zurücklegen ergeben dieselbe Nennung (ohne Reihenfolge.) Die Ziehungen in der zeitlichen Reihenfolge 4, 2, 1, 3 und
4, 3, 2, 1 ergeben als geordnetes Tupel beide (1, 2, 3, 4). Es gibt 4! verschiedener Anordnungen von 1, 2, 3, 4, die als geordnetes Tupel (1, 2, 3, 4) ergeben, aber nur eine von 1, 1, 1, 1, die
(1, 1, 1, 1) ergibt.
(Der Raum Ω∼RZ hat n+k−1
Elemente.
k
ϕ
Zum Beweis betrachten wir die Abbildung (ω1 , ω2 , . . . , ωk ) 7→ (ω1 , ω2 + 1, . . . , ωk + k −
1). Dies ist eine bijektive Abbildung von Ω∼RZ nach dem Stichprobenraum Ω∼R∼Z eines
Urnenmodell, aus n + k − 1 numerierten Kugeln k Kugeln
zu ziehen, ohne Zurücklegen und
ohne Reihenfolge. (Nachrechnen.) Dafür gibt es n+k−1
verschiedene Möglichkeiten.)
k
Satz 1.2.3 Die Ergebnisse sind im Vorgriff in der folgenden Tabelle zusammengefaßt.
k-mal ziehen
mit
ohne
aus n Kugeln
Zurücklegen
Zurücklegen
mit
Laplaceraum
Laplaceraum
unterscheidbare
Reihenfolge
|ΩRZ | = nk
|ΩR∼Z | = (n)k
Kugeln
ohne
Kein Laplaceraum
Laplaceraum
|Ω∼R∼Z | = nk
ununterscheidbare
mit
ohne
k Kugeln verteilen
Mehrfachbelegung
Mehrfachbelegung
auf n Urnen
Reihenfolge
9
Kugeln
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Die offensichtlichen Vorzüge der Modellierung durch Laplaceräume führt zu folgender Merkregel:
Modelliere Urnenmodelle stets mit Reihenfolge.
Beispiele
• Pasch: Berechne die W-keit bei dreimaligem Würfeln jeweils dieselbe Augenzahl zu würfeln.
Hier verwenden wir das erste Urnenmodell, mit Zurücklegen und mit Reihenfolge. Wir haben
einen Laplaceraum mit insgesamt 63 verschiedenen Möglichkeiten. Genau die sechs Würfelergebnisse (1, 1, 1), (2, 2, 2) bis (6, 6, 6) sind die “günstigen” Fälle. Damit ist die gesuchte
Wahrsch. für einen Pasch 6/63 = 1/36.
Wir werfen jetzt drei identisch aussehende Würfel gleichzeitig. Wie groß ist die Wahrsch. für
einen Pasch? Wir denken uns die Würfel (durch Farben) gekennzeichnet, und argumentieren
dann wie oben, mit demselben Resultat.
Es wäre möglich, aber ungeschickt und dies ist eine häufige Fehlerquelle, ein Urnenmodell
mit Zurücklegen und ohne Reihenfolge anzusetzen. Dies ist kein Laplaceraum.
• Zahlenlotto: Wie groß ist die W-keit für exakt 5 Richtige im Lotto (6 aus 49)? Unser
Grundraum ist ein Urnenmodell mit n = 49 Kugeln und k = 6-maligem
Ziehen, ohne
Zurücklegen und ohne Reihenfolge. Der Laplaceraum Ω∼R∼Z hat 49
=
13.983.816
Elemen6
te. Wir haben genau 5 Richtige, falls aus densechs
Gewinnzahlen
genau
5
vorliegen
und aus
den restlichen 43 genau eine. Dafür gibt es 65 43
verschiedene
Realisierungen.
Die
gesuchte
1
Wahrsch. 43/(49 · 47 · 46 · 22) liegt in der Größenordnung 1/50000.
• Geburtstag-Paradoxon: Selbst in kleinen Gruppen haben relativ häufig zwei Personen an
demselben Tag Geburtstag. Wir wollen dies “erklären”. Als Modell wählen wir ein Urnenmodell mit Reihenfolge und mit Zurücklegen und mit nk Elementen. Die Geburtstage der k
Personen entsprechen dem Ergebnis zufälligen Ziehens eines Tages aus dem Jahr. Das Ereignis Ek , kein Geburtstag ist doppelt, entspricht den Elementen von ΩR∼Z , allen k-elementigen
Teilmengen von {1, . . . , n} unter Berücksichtigung der Reihenfolge. Wir erhalten
P (Ek ) =
k−1
k−1
X
X i
n−i
k(k − 1)
(n)k
=
exp(
ln(
))
≈
exp(−
) = exp(−
).
k
n
n
n
2n
i=0
i=0
Hierbei nutzen wir die Taylor Approximation ln(1 + x) ≈ x für x dicht bei 0.
Für welche Gruppengröße wird die Wahrsch. ungefähr 1/2? Ein wenig Rechnung liefert uns
P (E22 ) = 0, 5243 > 1/2 und P (E23 ) = 0, 4927 < 1/2. Bereits bei 23 Personen ist die Chance
für den Zusammenfall von zwei Geburtstagen ungefähr fifty-fifty.
In der Informatik kommt die Problemstellung vor bei zufälligem Abspeichern von Daten,
siehe dort unter Hashing.
• Olympialotterie: In einer Lotterie sind alle gleichteuren Lose auch gleich gewinnträchtig,
zumindest ist dies eine weitverbreitete Meinung. Alle Lose sind gleich, aber manchmal sind
einige Lose “gleicher”. Für die Glücksspirale der Olympialotterie 1971 wurden 10 Millionen
Lose mit siebenstelligen Zahlen angeboten, von Nummer 0000000 bis hin zu 9999999. Die
Auslosung geschah durch siebenmaliges Ziehen ohne Zurücklegen der numerierten Kugeln
aus einer Trommel. Die gezogenen Ziffern, in zeitlicher Reihenfolge aufgeschrieben, ergab die
Gewinnzahl. In der Trommel waren insgesamt 70 Kugeln, jeweils 7 Kugeln der Ziffern 0 bis
9.
Die Losnummer 0000000 hat eine Gewinnwahrsch. von
1
7 6
...
= 7!/(70)7 ≈ 8, 3 · 10−10 .
70 69
64
10
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Die Losnummer 0123456 hat eine wesentlich höhere Gewinnwahrsch. von
7 7
7
...
= 77 /(70)7 ≈ 1, 3 · 10−7 .
70 69
64
(Weshalb?) Dies sind gleichzeitig die extremen Elementarwahrscheinlichkeiten.
1.2.3
Urnenmodelle revisited*
[ [ [ [ [[ [ [ [ [ [ [ [ [ [ [
◦ ◦
◦
◦
Der Versuchsaufbau besteht jetzt aus n Urnen, numeriert durch 1 bis n, und k Kugeln, die darauf
zufällig verteilt werden sollen. Unterschieden wird, ob Mehrfachbelegung der Urnen möglich ist
und ob die Kugeln unterscheidbar (=numeriert) sind. Zufällig bedeuted, jede der für eine Belegung
möglichen Urnen wird gleich behandelt.
Wir stellen uns zufälliges Ziehen der Urnen vor, wobei die gezogenen Urne in i-ter Runde durch
hineinlagen der Kugel i gekennzeichnet wird. Damit ist das Experiment wie Ziehen numerierter
Kugeln (mit/ohne Zurücklegen und mit/ohne Reihenfolge) aus einer Urne äquivalent zu einem
Verteilen von Kugeln (numeriert/ununterscheidbar) auf numerierte Urnen (mit/ohne Mehrfachbelegung). Im Detail:
(i) Verteilung unterscheidbarer Kugeln und mit Mehrfachbelegung
Eine Realisierung besteht in der Angabe der Kugeln in der j-ten Box nach der Verteilung.
Der Stichprobenraum
[
ΩU M := {(A1 , A2 , . . . , An ) | ∀ 1 ≤ i ≤ n : Ai ⊂ {1, 2, . . . , k}, ◦ Aj = {1, 2, . . . , k}}
j
ist bijektiv zum Stichprobenraum ΩRZ des ersten Urnenmodells.
Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ (ω1 , . . . , ωk ) mit i ∈ Aωi . In Worten,
i ∈ Aj entspricht in der i-ten Ziehung (Urnenmodell mit Zurücklegen und mit Reihenfolge)
wird die Kugel mit der Zahl j gezogen.
(ii) Verteilung unterscheidbarer Kugeln und ohne Mehrfachbelegung
Eine Realisierung beschreiben wir durch die Angabe der Kugelnummer in der i-ten Urne,
bzw. durch die leere Menge, falls die Urne leer ist. Formal ist der Stichprobenraum
ΩU ∼M := {(A1 , . . . , An ) ∈ ΩI | ∀1 ≤ i ≤ n |Ai | ≤ 1}.
Diese Menge hat ebensoviele Elemente wie ΩR∼Z . Dazu betrachten wir die Bijektion
(A1 , . . . , An ) 7→ ω, eine Kugel j ∈ Ai in Urne i entspricht dem Ziehen der Kugelzahl i
in der j-ten Ziehung.
(iii) Verteilung ununterscheidbarer Kugeln und ohne Mehrfachbelegung
Eine Realisierung beschreiben wir durch eine 0-1 Folge der Länge n. Eine 0 bzw. 1 an
der i-ten Stelle entspricht einer leeren bzw. besetzten i-ten Box. Formal ergibt dies den
Stichprobenraum
n
X
Ω∼U ∼M := {j ∈ {0, 1}n |
ji = k}.
i=1
Dieser hat ebenso viele Elemente wie der Stichprobenraum Ω∼R∼Z . Jeder 0-1 Folge j ordnen
wir eine Menge A aus den Zahlen 1 bis n zu. Eine Zahl i sei Element von A genau dann, falls
die i-te Koordinate ji von j eine 1 ist. Dies ergibt eine Bijektion von Ω∼U ∼M auf Ω∼R∼Z .
11
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
(iv) Verteilung ununterscheidbarer Kugeln und mit Mehrfachbelegung
Eine Realisierung beschreiben wir durch durch die Angabe ji der jeweiligen Kugelanzahl in
der i-ten Urne. Der zugehörige Stichprobenraum
Ω∼U M := {j ∈ {0, 1, . . . , k}n |
X
ji = k}
i
ist gleichmächtig wie Ω∼RZ . Die Abbildung j 7→ ω, ji die Häufigkeit |{l | ωl = i}| mit der
die Kugel i aus der Urne gezogen wird, ist bijektiv.
Die Beschreibungen eines Experiments durch die Ziehen aus Urnen oder durch Verteilen auf Urnen
sind äquivalent.
Urnenmodelle in der Physik: Das Modell ΩU M heißt in der Physik die Maxwell-Boltzman
Statistik. Die Urnen entsprechen räumlich gleichgroßen Quadern, die Kugeln nicht-wechselwirkenden Teilchen. Keine Teilchen gehorchen diesen Gesetzen.
Das Modell ΩU ∼M heißt in der Physik Fermi-Dirac Statistik. Die Teilchen, die diesem Modell
gehorchen, heißen Fermionen [5].
Bei der Untersuchung des Aufbaus der Elektronenhülle des Atoms fand Pauli das Gesetz, daß
zwei Elektronen nicht in allen vier, ihren Zustand beschreibenden Quantenzahlen übereinstimen
dürfen. In anderen Worten, nicht mehr als ein Elektron darf den seinem Zustand beschreibenden
Phasenraumvolumen besetzen.
Jedem Elementarteilchen ordnet man einen “abstrakten” Eigendrehimpuls zu, den sogenannten
Spin. Dieser kann die Werte nh/(4π) oder −nh/(4π) annehmen (n ∈ IN, h = Planck’sches Wirkungsquantum). Die Teilchen mit ganzzahligem Spin (ungerade) sind die Bosonen, die mit halbzahligem Spin (n ungerade) die Fermionen.
1.2.4
Weitere Urnenmodelle
(v) Hypergeometrische Verteilung
Die hypergeometrische Verteilung zum Parameter (W, S, n) ∈ ZZ + ×ZZ + ×{1, . . . , S +W }
ist ein W-maß P auf dem Stichprobenraum {0, 1, . . . , n}
P ({k}) =
S
k
W
n−k
S+W
n
.
Aus einer Urne mit S schwarzen und W weißen Kugeln ziehen wir n−mal zufällig ohne
Zurücklegen und ohne Reihenfolge. Die Wahrsch., genau s schwarze und w weiße in n = s+w
Ziehungen zu ziehen, ist
S W
s
w
S+W
s+w
.
Diese Wahrsch. als Funktion von s mit Parametern S, S +W, s+w, ist die hypergeometrische
Verteilung.
Unser gewählte Laplace Grundraum Ω∼R∼Z hat S+W
Elemente. Wir denken uns die
s+w
numerierten Kugeln 1, 2, . . . , S als schwarz, die anderen W Kugeln als weiß. Es gibt Ss
verschiedene Möglichkeiten daraus s schwarze
(und numerierte) Kugeln (ohne Reihenfolge)
auszuwählen. Entsprechend gibt es W
verschieden
Kombinationen für die weißen. Jedes
w
“günstige” Ereignis wird eindeutig durch die numerierte Menge der schwarzen, bzw. der
weißen Bälle beschrieben.
12
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Beispiele
• Skat: Wie groß ist die Wahrsch., daß beim Skatspiel Vorhand drei Buben ausgeteilt bekommt? Wir benutzen ein Urnenmodell mit 32 Kugeln und 10-maligem Ziehen ohne Zurück legen und ohne Reihenfolge. Die Anzahl der günstigen Verteilungen für Vorhand ist 43 28
7 .
32
Damit hat Vorhand mit Wahrsch. 43 28
/
drei
Buben.
7
10
• Fischezählung: Wie lassen sich Fische in einem Teich zählen? Wir fangen S Fische heraus
und markieren diese. Danach setzen wir diese zurück, “mischen” kräftig durch und fischen
zufällig k Fische heraus. Darunter seien s > 0 markierte. Naiv erwarten wir ein ähnliches
Zahlenverhältnis der wiedergefangenen markierten Fische zu den gefangenen wie das der
gefangenen zu allen. Dies ergibt heuristisch einen Schätzer N̂ = kS/s der Gesamtanzahl N,
(der auch praktisch benutzt wird).
Hier ein anderes Argument, beruhend auf einem mathematischen Prinzip (Maximum-Likelihood Schätzer). Die hypergeometrische Verteilung ordnet dem Ereignis, s markierte Fische
(S)(W )
wiederzufangen, eine Wahrsch. von p(s) = sS+Ww zu.
( s+w )
Für eine gegebene Gesamtanzahl N = S + W wird die Anzahl der wiedergefangenen markierten Fische s häufig einen relativ großen Wert von p(s) liefern. Umgekehrt, wenn wir
die Anzahl der wiedergefangenen markierten Fische s kennen, aber nicht die Gesamtanzahl
N, so werden wir eine Gesamtanzahl N erwarten, sodaß die obige Wahrsch. groß wird. Als
Schätzer wählen wir denjenigen Wert N, der obige Wahrsch., jetzt für festes s, maximiert.
Die Lösung dieser nun mathematischen Aufgabe ist N̂ = kS
s .
Multinomialkoeffizienten: Die Binomialkoeffizienten nk beschreiben die Anzahl der verschiedenen Teilungen einer n-elementige Menge in zwei Gruppen, wobei die erste Gruppe genau k
Elemente haben soll.
r
Seien n, r natürliche Zahlen und k = (k1 , . . . , kr ) ∈ ZZ≥
ein Vektor mit k1 + k2 + . . . + kr = n. Die
Multinomialkoeffizienten sind definiert durch
n
n!
.
:=
k
k1 !k2 ! . . . kr !
Die Multinomialkoeffizienten nk geben die Anzahl der möglichen Teilungen von n numerierten
Kugeln in r numerierte Gruppen an, wobei
die i−te Gruppe ki Elemente haben soll.
Für die
1
Auswahl der ersten Gruppe haben wir kn1 Möglichkeiten, für die zweite nur noch n−k
Möglichk2
n−k1 −k2
keiten, dann
usw. Dies ergibt die Formel.
k3
Die hier betrachteten Gruppen sind numeriert, d.h. die Einteilung ist auch abhängig von der
Reihenfolge der Gruppenstärken k1 , k2 , . . . , kr . Das folgende Beispiel verdeutlicht die Wichtigkeit
dieser Unterscheidung.
Beispiel Mannschaftseinteilung: 26 Schulkinder wollen Fußball und Tennis spielen. Dazu
bilden sie zwei Mannschaften A, B zu je 11 Spielern für Fußball und zwei Mannschaften C, D
26
für das Tennisdoppel. Es gibt (11,11,2,2)
Möglichkeiten der verschiedenen Mannschaftaufteilun1
26
gen in A, B, C, D. Die Anzahl der verschiedenen Spielkombinationen (Paarungen) 11,11,2,2
4 ist
kleiner. Trotz verschiedener Mannschaftsaufstellung, z.B. A = {1, 2, . . . , 11}, B = {12, . . . , 22},
C = {23, 24}, D = {25, 26} und A = {12, . . . , 22}, B = {1, . . . , 11}, C = {25, 26}, D = {23, 24},
spielen eventuell dieselben Mannschaften gegeneinander.
(vi) Multinomialverteilung Seien n, r natürliche Zahlen, p ein W-maß auf {1, . . . , r}, geschrieben als Vektor
X
p = (p1 , . . . , pr ),
pj = 1.
j
13
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Die Multinomialverteilung zum
P Parameter (n, r, p) ist ein W-maß P auf dem Stichprobenraum {k = (k1 , . . . , kr ) ∈ IN0r | i ki = n} mit
n k
p .
P (k) =
k
Hierbei ist pk = pk11 pk22 . . . pknn die Multiindexschreibweise. Das Standardbeispiel ist es, n
Kugeln auf r Urnen zu verteilen. Die erste Kugel wird mit der W-verteilung p in eine Urne
gelegt, dann die zweite (unabhängig von der ersten) usw.
14
Elementare Wahrscheinlichkeitstheorie
1.3
SS12
Uwe Rösler
Bedingte Wahrscheinlichkeit
Heuristik: Wir betrachten nur W-räume mit endlichem oder abzählbarem Stichprobenraum.
Die W-keit eine 6 gewürfeln zu haben, wenn bereits bekannt ist, dass der Wurf 4 oder 5 oder 6
zeigt, ist 1/3. Abstrakter, wenn wir im Venn-Diagramm wie unten die Flächen der Mengen als
W-keit interpretieren, dann sollte die W-keit eines Ereignisses A unter B die gemeinsame Fläche
A ∩ B dividiert durch die Fläche des bekannten Ereignissses B sein.
$$
''
A
A∩B
B
&&
%%
Definition 1.3.1 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter dem Ereignis B
mit P (B) > 0 ist
P (A ∩ B)
P (A | B) =
.
P (B)
Sprachgebrauch: W-keit von A unter (oder gegeben) B.
Konvention: Die Verwendung des Symbols P (A | B) beinhaltet bereits die strikte Positivität der
Wahrsch. des Ereignisses B.
Rechenregeln ergeben sich aus der einfachen Feststellung, dass die Abbildung P (· | B) vom Ereignisraum in die reellen Zahlen ein W-maß ist, das Tripel (Ω, A, P (. | B)), ist ein Wahrscheinlichkeitsraum. Ebenso ist das auf B beschränkte Tupel
(Ω|B , A|B , P|B ) = (B, {A ∩ B | A ∈ A}, P (· | B))
ein W-Raum, genannt der bedingte W-Raum. Ist der zugrundeliegende W-Raum ein Laplaceraum,
so auch der bedingte.
Lemma 1.3.2 (Bedingte Rekursionsformel)
Für Ereignisse A, B, C mit P (A ∩ B) > 0 gilt
P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B).
Beweis: Nachrechnen.
Induktiv ergibt sich für Ereignisse A1 , . . . , An
q.e.d.
P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) . . . P (An | ∩i<n Ai ).
Bsp: Lotto revisited: Wir betrachten Lottozahlenziehen live am Fernseher. Sei x1 < . . . < x6
mein Tipp bestehend aus 6 verschiedenen Zahlen aus {1, . . . , 49} in aufsteigender Reihenfolge. Sei
Ω = ΩR∼Z (49, 6) unser Laplace-raum. Sei Ai das Ereignis, in der i-ten Ziehung wird xi -te gezogen,
formal Ai = {ω ∈ Ω | ωi = xi }. Es gilt
P (∩6i=1 Ai )
=
=
P (A1 )P (A2 | A1 )P (A3 ∩ A2 ∩ A1 ) . . . P (A6 | ∩5i=1 Ai )
1 1
1
... .
49 48
44
Die bedingten W-keiten ergeben sich aus der Vorstellung, nach der i-ten Ziehung sind 49−i Kugeln
in der Urne und davon soll ich genau die vorgegebene Kugel mit der Zahl xi+1 (Laplaceraum)
ziehen.
15
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Ist unser Tipp {x1 , . . . , x6 } ein Haupttreffer? Da es auf die Reihenfolge dieser Zahlen nicht ankommt gilt, summieren wir über alle Permutationen π der Zahlen x1 bis x6 . Mit xπ = (xπ(1) , . . . , xπ(6) )
erhalten wir
X
W (Hauptgewinn) = P (∃π : ω = xπ ) =
P (ω = xπ )
π
=
k!
=
(49)6
1
49
6
Wir erhalten jeder Tipp ist gleichwahrscheinlich.
Bsp: Bridge: Gefragt ist nach der W-keit, daß in einer Bridgehand, 52 Karten werden gleichmäßig
und zufällig auf 4 Spieler verteilt, jeder Spieler genau ein Ass erhält. Modell Ω = ΩR∼Z (52, 52).
Die Kugeln mit Nummer 1,2,3,4 werden als Ass interpretiert. Der Spieler 1 bekommt die ersten 13
Karten, der zweite die naechsten 13 usw. Entspreche Ai dem Ereignis, der Spieler i hält genau ein
Ass in seinen 13 Karten, formal Ai = {ω ∈ Ω | |{ω1+13(i−1) , ω2+13(i−1) , . . . , ω13i }∩{1, 2, 3, 4}| = 1},
so folgt mit Hilfe der hypergeometrischen Verteilung (oder langsamer durch Abzählen im gegebenen
W-raum)
P (A1 ) =
4
1
P (A3 | A1 ∩ A2 ) =
48
12
52
13
2 24
1 12
26
13
3
1
P (A2 | A1 ) =
36
12
39
13
P (A4 | A1 ∩ A2 ∩ A3 ) = 1.
Unsere gesuchte W-keit ist das Produkt dieser vier Wahrsch..
1.3.1
Bayes Formel
Eine Zerlegung oder Partition von Ω ist eine Familie von paarweise disjunkten Teilmengen aus Ω,
deren Vereinigung ganz Ω ist.
Satz 1.3.3 (Bayes Formel) Sei Bi , i ∈ I eine Partition und I endlich oder abzählbar. Jedes
dieser Ereignissse Bi habe strikt positive W-keit.
Die Formel von der totalen Wahrscheinlichkeit lautet für ein Ereignis A :
X
P (A) =
P (Bi )P (A | Bi ).
i
Im Falle strikt positiver Wahrscheinlichkeit des Ereignisses A gilt die Bayes Formel
P (B1 )P (A | B1 )
P (B1 | A) = P
.
i P (Bi )P (A | Bi )
Beweis: Die erste Identität folgt aus der σ-Additivität des Wahrscheinlichkeitsmaßes
[
X
X
P (A) = P ( ◦ (A ∩ Bi )) =
P (A ∩ Bi ) =
P (Bi )P (A | Bi ).
i
i
i
Die Bayes Formel (Bayes 1763) folgt aus der Identität P (B1 | A) = P (B1 )P (A | B1 )/P (A) mit
Einsetzen von P (A) aus der Formel von der totalen Wahrscheinlichkeit.
q.e.d.
Bsp: Urnenwahl. Seien n Urnen gegeben. Die i-te Urne enthalte Si schwarze Kugeln und Wi
weiße. Zufällig wird eine Urne i mit W-keit pi ausgewählt und aus dieser eine Kugel gezogen.
Gesucht ist die W-keit für das Ereignis A, eine schwarze Kugel zu ziehen. (Präzisieren: Sei Bi das
Ereignis die i-te Urne auszuwählen im Modell
Si
)
Ω = {1, 2, . . . , n} × {0, 1}, P ({(i, 1)} = pi Si +W
i
Der Satz von der totalen Wahrsch. liefert
P (A) =
n
X
pi
i=1
16
Si
.
Si + Wi
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bsp: Reihenuntersuchung. Bereits 0,5% der Bevölkerung leidet an der Krankheit ’Ghost’. Bei
einer Reihenuntersuchung zeigen durchschnittlich 99% der Kranken eine positive Testreaktion.
Von den Gesunden zeigen rund 2% eine positive Testreaktion. Wie beunruhigend ist mein positives
Testergebnis wirklich?
Als erstes müssen wir die gegebenen Informationen sauber in ein Modell einbetten. Eine Realisierung sei ein 0 − 1 Tupel in dem Produktraum Ω := {0, 1}2 und X1 , X2 seien die Projektion auf
die erste, bzw. 2. Koordinate. Die erste Koordinate X1 = 1 bzw. 0 entspreche krank bzw. gesund
und die zweite Koordinate X2 = 1 bzw. 0 entspreche positivem bzw. negativem Testergebnis. Sei
K = {ω | X1 (ω) = 1} und R = {ω | X2 (ω) = 1}. Gibt es ein W-maß verträglich mich obigen
Angaben: P (K) = 0, 005, P (R | K) = 0, 99, P (R | K c ) = 0, 02? (Es gibt genau ein W-maß zu
diesen Werten.) Mit Hilfe der Bayes Formel erhalten wir das uns interessierende Resultat
P (K | R) =
495
P (K)P (R | K)
=
≈ 0, 2.
c
c
P (K)P (R | K) + P (K )P (R | K )
2485
Wie beunruhigend dies für mich wirklich ist, bleibt eine Interpretations- und Persönlichkeitsfrage.
Unsauberes Denken
Der Umgang mit bedingten Wahrsch. im realen Leben führt durch unsauberes Denken und unzureichende Information häufig zu fehlerhaften Schlüssen. Hier zwei Beispiele:
Bsp: Diskriminierung. Folgende Zahlen deuteten auf eine sexuelle Diskriminierung weiblicher
Bewerber hin. An der Universität Berkeley wurden im Herbst 1973 von den 8442 männlichen
Bewerbern für ein Studium 44% (=3738) zugelassen. Von den 4321 weiblichen Bewerbern erhielten
nur 35% (=1494) einen Studienplatz. Dieser Unterschied erweist sich auch wissenschaftlich als
signifikant, er kann nicht allein durch Zufall ’erklärt’ werden. Da wir apriori davon ausgehen, daß
die Damen gleich qualifiziert und leistungsfähig sind, liegt nur der Schluß einer sexuellen negativen
Diskriminierung nahe.
Um die Hauptquelle der negativen Diskriminierung ausfindig zu machen, sehen wir uns die Daten
nach Fächern aufgelistet an. In den hundert Fächern gibt es bei einigen eine leichte Bevorzugung der Männer, bei anderen eine leichte Bevorzugung der Frauen. Insgesamt aber eher eine
Bevorzugung der Frauen. Die folgende Liste der sechs Fächer mit den meisten Bewerbern gibt
diese Tendenz gut wieder.
Fach
1
2
3
4
5
6
Studienzulasssungszahlen
männlich
weiblich
Bewerbungen % Zulassungen Bewerbungen % Zulassungen
825
62
108
82
560
63
25
68
325
37
593
34
417
33
375
35
191
28
393
24
373
6
341
7
Auch bei Zugrundelegung dieser Liste ist der Anteil der akzeptierten männlichen mit 44,5% signifikant höher als der der weiblichen mit 32%. Wo liegt die Erklärung?
Die ersten beiden Fächer haben relativ hohe Zulassungsraten. Hier gibt es einen hohen Anteil an
männlichen Bewerbern, jedoch nur einen niedrigen an weiblichen. In den nächsten drei Fächern
war die Zulassungsquote eher klein, der weibliche Anteil aber überproportinal groß.
Selbst wenn in jedem Fach die Frauen deutlich bevorteilt werden, kann insgesamt der prozentual
zugelassene Anteil der Männer wesentlich höher sein. Wir wollen uns dies am Beispiel zweier
Fächer A und B verdeutlichen. Sei Z die Menge der zugelassenen Personen und M (F ) die Menge
der sich bewerbenden Männern (Frauen) M (F ). Wir wollen strikte Bevorzugung der Frauen in
jedem Fach annehmen,
P (Z ∩ M | A ∩ M ) < P (Z ∩ F | A ∩ F )
P (Z ∩ M ∩ | B ∩ M ) < P (Z ∩ F | B ∩ F ).
17
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Die geschlechterspezifischen Gesamtzahlen der Zulassung ergeben sich mit Hilfe der totalen Wahrscheinlichkeiten,
P (Z ∩ M | M )
P (Z ∩ F | F )
= P (A | M )P (Z ∩ M | M ∩ A) + P (B | M )P (Z ∩ M | M ∩ B)
= P (A | F )P (Z ∩ F | F ∩ A) + P (B | F )P (Z ∩ F | F ∩ B).
Wir betrachten den Extremfall, die einzige weibliche Bewerberin für das Fach A erhält einen
Studienplatz, der einzige männliche Bewerber für das Fach B erhält keinen. In jedem Fach werden
die Frauen bevorzugt (und damit diskriminiert, wenn auch positiv.) Durch Wahl der Zulassungsraten für die Fächer ergäben sich beliebig große ’Diskriminationen’ für die Frauen
P (Z ∩ M | M )
=
P (Z ∩ F | F )
=
|M | − 1
P (Z ∩ M | M ∩ A)
|M |
|F | − 1
1
+
P (Z ∩ F | F ∩ B).
|F |
|F |
Die Beobachtung, Frauen haben eine Tendenz sich für Fächer mit geringerer Zulassungsquote zu
bewerben, ist eine plausible ’Erklärung.’ Jeder Leser wird zu dieser Aussage eigene Erfahrungen
und ’Erklärungen’ haben, vielleicht auch Analogien sehen. Dies führt uns jedoch zu weit in die
reale Welt.
Bsp: Von Autos und Ziegen: Der Sieger einer Quizshow soll einen Preis erhalten. Hinter einer
von drei Türen ist ein Auto, hinter den anderen sind Ziegen. Der Sieger darf eine Tür wählen und
soll das dahinter versteckte Objekt erhalten. Nach der Wahl des Kandidaten öffnet der Moderator
jedoch erst eine der nichtgewählten Türen, hinter der eine Ziege erscheint. Der Moderator bietet
dem Kandidaten einen Wechsel seiner Türwahl an. Wie wäre Ihre Entscheidung?
Wenn wir davon ausgehen, daß der Showmaster stets eine Ziege präsentiert, sei es gezwunge-nermaßen oder aus Sympathiegründen, sollte der Kandidat seine Wahl ändern. Die anfangs gewählte
Tür zu öffnen behält die Wahrsch. von 1/3 das Auto zu verdecken bei. Das Auto steht hinter der
verbliebenen Tür mit Wahrsch. 2/3.
Mathematisches Modell: Das mathematische Modell ist aus der Sicht des Kandidaten zum
Zeitpunkt seiner zweiten Entscheidung. Die Realisationen sind die wesentlichen Vorgänge (=Informationen) bis zu diesem Zeitpunkt. Als geeigneten (=hinreichend großen) Grundraum wählen wir
Ω = {1, 2, 3}3 mit der Potenzmenge als σ-Algebra. Die Koordinatenabbildungen sind X1 , X2 , X3 .
Die erste Koordinate X1 (bzw. X1 (ω)) bezeichnet die Tür mit dem Auto dahinter. Die zweite
Koordinate X2 gibt die Wahl des Kandidaten an. Die dritte Koordinate gibt die vom Quizmaster
geöffnete Tür an. Wir benutzen die Kurzschreibweise Xi = j für die Menge {ω ∈ Ω | Xi (ω) = j}.
Jetzt müssen wir ein (das) geeignetes W-maß P angeben. Jemand hat das Auto nach einer uns
unbekannten Prozedur hinter einer Tür versteckt. Wir modellieren (aus Sicht des Kandidaten) dies
mit einer Gleichverteilung. Der Kandidat möchte seine Entscheidung X2 (ω) = ω2 so wählen, daß
P (X1 = X2 ) möglichst groß wird. Da er zum Zeitpunkt seiner ersten Wahl keine Vorinformation
(er ist kein Prophet) zu X1 hat, ist aus seiner Sicht jede Wahl gleich gut. Jede Prozedur, eine Tür
auszuwählen ist gleichgut mit einer, bei der die Türen permutiert sind. Durch Mittelung, erst eine
Permutation und dann nach vorgegebener Prozedur eine Tür zu wählen, ist ebenso gut. Dies führt
auf den Ansatz der Gleichverteilung für die Türwahl. Ferner modellieren wir mit Unabhängigkeit
”
“, d.h. P (X2 = j | X1 = i) = P (X2 = j) = 31 .
Zur weiteren Bestimmung des W-maßes P benötigen wir einige Modellannahmen zum Verhalten
des Moderators. Die ’natürlichen’ Annahmen wären: Der Moderator kennt die Tür X1 mit dem
Auto und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2
Türen hat, so wählt er zufällig mit Gleichverteilung eine der Türen, z.B. durch Münzwurf. Damit
sind alle W-keiten P (X3 = k | X1 = i, X2 = j) jetzt wohlbestimmt und dadurch das W-maß P
eindeutig gegeben,
P ({(i, j, k)}) = P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | (X1 = i, X2 = j).
Nun zur erneuten Wahl des Kandidaten. Zu dem Zeitpunkt sind die Realisierungen X2 (ω) = j und
X3 (ω) = k bekannt. Es gilt j 6= k. Die gesuchte W-keit, das hinter der vom Kandidaten gewählten
18
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Tür das Auto steht, berechnet sich zu
P (X1 = X2 | X2 = j, X3 = k)
P (X1 = X2 = j, X3 = k)
P (X2 = j, X3 = k)
=
P (X1 = X2 = j, X3 = k)
1
= ... =
P (X2 = j, X3 = k)
3
111
= P (X1 = j)P (X2 = j | X1 = j)P (X3 = k | X1 = j = X2 ) =
3
32
X
=
P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | X1 = i, X2 = j)
i6=k
=
111 11
11
+
=
332 33
32
Der Kandidat sollte seine Entscheidung ändern.
Wie ändern sich die Wahrscheinlichkeiten, wenn die Annahmen den Moderator betreffend nicht
zutreffen.
Annahme 1: Der Moderator kennt die Tür mit dem Auto dahinter und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er stets diejenige
mit der kleinsten Nummer mit einer Wahrscheinlichkeit p. Betrachte p = 1.
Annahme 2: Der Moderator kennt nicht die Tür mit dem Auto dahinter und öffnet zufällig eine
der verbleibenden Türen. Dahinter erscheint (diesmal) eine Ziege.
Annahme 3: Der Moderator kennt die Tür mit dem Auto dahinter. Er gönnt dem Kandidaten nicht
das Auto. Der Moderator öffnet nur eine Tür, hinter der eine Ziege erscheint, wenn der Kandidat
zuerst die Tür mit Auto gewählt hatte. (Zonk)
Annahme 4: Der Kandidat modelliert mit X1 hat nicht die Gleichverteilung.
(Auflösung: Im Fall 1 sollte der Kandidat wechseln, im Fall 2 ist es egal und im Fall 3 sollte er
nicht wechseln. Die Verteilung von X1 ändert nichts an der Argumentation, solange....)
Bsp: Die drei Todeskandidaten:
Die Originalvorlage ist meines Wissens nach von Martin Gardner. Drei Gefangene sitzen in einer
Todeszelle. Genau einer der Kandidaten soll morgen hingerichtet werden. Keiner der Gefangenen
weiß, wer es ist. Der Gefangene A fragt den Wärter, wer morgen hingerichtet wird. Der Gefängniswärter, der den Namen kennt, sagt stets die Wahrheit. Er antwortet: Ich darf den Namen nicht
”
verraten. Aber ich darf versichern, daß es nicht der Gefangene B ist.“Wie groß ist jetzt die W-keit,
daß morgen A hingerichtet wird? Tippen Sie auf 1/3 oder auf 1/2? Welche Argumente würden Sie
anführen?
Informationsbegriff: Es erhebt sich die grundsätzliche Frage, wieviel ’Information’ in der Antwort des Wärters enthalten ist.
Noch weitergehend, durch geschickte Auswahl von objektiv richtiger Information kann der Wärter
die subjektiven W-keiten des Todeskanditen bewußt beeinflussen. Überlegen Sie sich mögliche
Auswirkungen und Informationsstrategien in Gerichtsprozessen oder den Einfluß gezielter (wahrer) Informationsweitergabe auf Aktienkurse.
1.3.2
Konstruktion von W-Räumen
1.3.3
Wahrscheinlichkeitsbäume
Bedingte Wahrscheinlichkeiten schaffen reichhaltige Möglichkeiten zur Modellierung durch Wahrscheinlichkeitsräume. Alle obigen Beispiele haben das gleiche Bildungsschema via Wahrscheinlichkeitsbäumen.
Sei V = supn≤N0 IN n die Menge aller endlichen Folgen natürlicher Zahlen einschließlich der leeren
Folge ∅. (Konventionell gilt IN 0 = {∅}.) Wir schreiben v = (v1 , v2 , . . . , vn ) oder einfacher v =
v1 v2 . . . vn für nichtleere Folgen. Wir verwenden einen familiennahen Sprachgebrauch, wie vi ist
das i-te Kind von v und v das Eltern von vi, vw ist ein Nachkomme von v und v ist ein Vorfahre
von vw. Die Generation von v entspricht der Länge |v| = n des Tupels. Die Einschränkung von
v auf die ersten m−Generationen ist v|m = v1 . . . vm .
19
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Ein Element von v ∈ V wird Knoten oder Individuum, im Englischen vertex, genannt. v ist der
Name des Knotens in Ulam-Harris Notation. Eine Kante ist ein Tupel (v, vi) mit v ∈ V, i ∈ IN.
Auf V benutzen wir die genealogische Ordnung (Interpretation!) bzw. Präfixordnung
v w ⇔ |v| ≤ |w|, vi = wi for i = 1, . . . , |v|.
Wir benutzen v ≺ w für v w und v 6= w. Eine Menge W ⊂ V heis̈t präfixstabil, falls mit
w ∈ W und v ≤ w auch v in W liegt.
Ein Baum T (=tree) ist eine präfixstabile Teilmenge des Baumes V. Ein Baum heis̈t endlich, falls
er endlich viele Knoten hat. Die Höhe h(T ) eines Baumes T ist die maximale Länge (Generation)
eines Baumknotens. Ein Element v ∈ T ohne Nachkommen in T heis̈t (inneres) Blatt. Mit δT
bezeichnen wir die Menge aller (inneren) Blätter des Baumes T.
Ein Wahrscheinlichkeitsbaum ist ein Baum T endlicher Höhe versehen mit einer Kantengewichtsfunktion T 2 3 (v, vi) 7→ pv,vi ∈ [0, 1] mit der Eigenschaft
X
pv,vi = 1
vi∈B
für alle v ∈ T \δT. Die Grös̈en pv,vi heis̈en Kantengewicht auf den Kanten (v, vi) ∈ T 2 des
Baumes T.
Zu gegebenem Wahrscheinlichkeitsbaum T definiere die Pfadgewichte Lv , v ∈ T durch L∅ = 1
und rekursiv
Lvi = Lv pv,vi .
Lv ist das Produkt der Kantengewichte längs des Pfades von der Wurzel nach v ∈ T
Lv =
|v|
Y
pv|i−1 ,v|i
i=1
Beachte
Lv =
X
Lvi
vi∈T
für Baumknoten v, die keine Blätte sind.
Gegeben sei ein W-baum T . Ordne jedem Knoten v ∈ T die Menge Av der Blätter b ∈ δT mit
v b zu. Beachte Av = {v} für ein Blatt v und
[
Av = ◦
Avi
vi∈T
für Baumknoten v, die keine Blätter sind.
Proposition 1.3.4 Sei T ein Wahrscheinlichkeitsbaum. Dann gibt es auf der Menge Ω = δT der
Blätter versehen mit der Potenzmenge A genau ein W-maß P : A → IR mit
P (Av ) = Lv
für alle Baumknoten v ∈ T. Diese W-maß wird gegeben durch P ({v}) = Lv für v ∈ Ω.
Bew: Die Abbildung P ist wohldefiniert durch die P ({v}) = Lv für Blätter v und P (A) =
P
v∈A P ({v}) für A ⊂ Ω. Sei M die Menge der v ∈ T mit P (Av ) = Lv .
• M = T. M enthält alle Blätter v ∈ δT nach Definition. Annahme: M 6= T. Dann gibt es einen
Baumknoten v, der kein Blatt ist, derart, dass alle Baumknoten w ∈ T strikt größer als v in
genealogischer Ordnung in M sind. Aber dann muss auch v ∈ M sein, da gilt
[
X
X
X
P (Av ) = P ( ◦
Avi ) =
P (Avi ) =
Lvi =
Lv pv,vi = Lv .
vi∈T
vi∈T
vi∈T
20
vi∈T
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Dies ist ein Widerspruch.
P ist ein W-mas, da A∅ = Ω gilt und damit P (Ω) = L∅ = 1.
q.e.d.
Aus einem W-baum erhalten wir durch obige Zuordnung eindeutig einen W-raum. Rein praktisch in
der Modellierung versucht man einen W-baum zu konstruieren, indem man den Knoten v geeignete
Ereignisse Ev der realen Welt zuordnet. Die Konstruktion geschieht von der Wurzel abwärts, E∅
ist der volle Ereignisraum. Jedes Ereignis Ev zum Knoten v kann weiter aufgeteilt werden in die
Vereinigung paarweise disjunkter Ereignisse Evi . Den Kanten (v, vi) wird die bedingte W-keiten
W (Evi | Ev ) zugeordnet, entnommen der Vorstellung. Diese Aufteilung macht man solange wie
nötig für die vorgegebe Problemstellung.
Hat man diesen W-baum mit realen Ereignisse konstruiert, so geht man über zu dem mathematischen Modell wie oben beschrieben. Jedes Ereignis Ev identifiziert man mit der Menge der Blatter
größer als v in genealogischer Ordnung.
u
u
u
u
A
K
K
A
A A 00Au
Au01
I
@
@
0P
@
u
i
PP
PP
PP
PP
u ∅
u
u101 u
u
KA
AK
A A 10Au
Au
11
I
@
@
@
1u1
Dies zeigt einen Baum mit der Ulam-Harris Notation der Knotennamen.
Beispiel 1.3.5 (Ziegenproblem revisited) Hier ist der kopfstehende Wahrscheinlichkeitsbaum
für das Auto-Ziege Problem.
Wahrscheinlichkeitsbaum für das Auto-Ziege Problem.
u
((((hhhhhhh
(
(
(
hhhh
((
hhu
((((
u
u
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qu
Qu
Qu
u
u
u
u
u
u
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
u Au u u Au u u Au u u Au u u Au u u Au u u Au u
u Au u
u Au
u
Der Baum T besteht aus allen Folgen der Zahlen 1, 2, 3 mit Länge höchstens 3. (Die leere Folge entspricht ∅.) Die Blätter sind die Folgen aus B mit Länge 3. Der Stichprobenraum Ω = {1, 2, 3}3 ist
der Blätterraum. Ei entspricht dem Ereignis hinter der i-ten Tür ist das Auto. Ei,j entspricht dem
Ereignis hinter der i-ten Tür ist das Auto und der Kandidat wählt die j-te Tür. Ei,j,k entspricht
Ei,j und zusätzlich öffnet der Moderator die k-te Tür. Die Zuordnung der Wahrscheinlichkeiten
geschieht nun von der Wurzel her. Jede der Mengen Ei erhält die W-keit p∅,i = 1/3. Gegeben Ei
erhält Ei,j die W-keit pi,ij = 1/3. Für die W-keiten pij,ijk von Ei,j,k gegeben Ei,j haben wir eventuelle Freiheiten, wie in den Fallunterscheidungen angegeben. Zuletzt identifizieren wir Ei , Ei,j , Ei,j,k
mit den Mengen Ai = {X1 = i}, Ai,j = {X1 = i, X2 = j}, Ai,j,k = {X1 = i, X2 = j, X3 = k}.
21
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Beispiel Duell: In einigen Spielen, gerade den neueren Spielen für Erwachsene, hat der technisch
beste Spieler die schlechtesten Chancen zu gewinnen. Drei Spieler A,B und C wollen sich mit
Pistolen duellieren. Es soll jeweils reihum ein Schuß in der zyklischen Reihenfolge A,B,C abgegeben
werden bei freier Zielwahl. Es wird solange geschossen, bis ein befriedigter Sieger feststeht (oder
nach 3 Runden beendet.)
Der schlechteste Schütze A trifft in rund 50% aller Fälle, der Spieler B hat Trefferquote von 80%
und Spieler C trifft immer. Spieler A beginnt. Die Spieler B und C versuchen stets den verbliebenen
Spieler mit der größten Trefferw-keit zu erschiessen.
Welche Strategie sollte A verwenden und wie sind die Überlebenswahrscheinlichkeiten der Duellanten. (Erstelle einen W-baum mit den bedingten W-keiten als Übergangskerne. Was passiert,
wenn das Schlitzohr A als erstes in die Luft schießt?)
Die Idee der W-bäume läs̈t sich leicht auch auf nichtendliche Bäume ausdehnen.
Polya’s Urnenmodell: In einer Urne befinden sich S schwarze und W weiße Kugeln. Nach jeder
der k zufälligen Ziehungen werden c + 1 ∈ IN0 Kugeln der gleichen Farbe zurückgelegt. Der Fall
c = −1 entspricht einem Urnenmodell ohne Zurücklegen und c = 0 einem mit Zurücklegen.
Wir betrachten einen binären Baum T = ∪kn=0 {0, 1}k der Tiefe k. An jeder Verzweigung steht der
linke Ast für das Ziehen einer weißen Kugel (1 für weiß), der rechte Ast für eine schwarze (2). Die
Folge der Kugelfarben liefert die Namen der Knoten, Ulam-Harris. Der zugehörige Ereignisbaum
ordnet jedem Knoten v das Ereignis Av zu, in der Reihenfolge v1 , v2 , . . . , v|v| weiße bzw. schwarze
Kugeln zu ziehen. Mathematisch modellieren wir durch die Menge {1, 2}k der Blätter und setzen Av
als die Menge der Blätter, die Nachfahre von v sind. Dies ist der Ereignisbaum. Die Kantengewichte
pv,vi = W (Avi | Av ) erhalten wir durch das Ziehen einer i-farbigen Kugel aus einer Urnen mit zur
P|v|
Vorgeschichte v entsprechend vielen farbigen Kugeln (S + c i=1 (vi − 1) schwarze von S + W + c|v|
Kugeln). Die Kantengewichte sind bedingte W-keiten. Dies liefert den W-baum.
Sei Ω = {0, 1}k und Xi die Projektion auf die i-te Koordinate.
Proposition 1.3.6 Für das Polyasche Urnenmodell ist das W-maß P auf Ω := {0, 1}k gegeben
durch
Qs−1
Qk−s−1
(W + jc)
i=0 (S + ic)
j=0
.
P (X1 = v1 , . . . , Xk = vk ) =
Qk−1
l=0 (S + W + lc)
Pk
Hierbei ist s :=
i=1 (vi − 1) die Gesamtzahl der gezogenen schwarzen Kugeln. Die W-keit
P ((Xi )i = v) ist permutationsinvariant in dem Sinne in der Reihenfolge der gezogenen Kugeln.
S
Es gilt P (Xi = 1) = P (X1 = 1) = S+W
für i = 1, . . . , k.
Beweis: Sei T = ∪kn=0 {1, 2}n . Auf δT = Ω = {1, 2}k definiere die Ereignisse Av = {w ∈ δT | v w}
durch Festlegen der ersten |v| Koordinaten. Die Wahrsch. von Avi , gegeben Av entspricht der
Pi
Wahrsch. aus einer Urne mit S + W + |v|c Kugeln, davon sind S + c l=1 (vl − 1) Kugeln schwarz,
eine Kugel mit der Farbe i zu ziehen. In Formeln ausgedrückt ergibt dies,
pv,vi = P (Avi
P|v|
S + c l=1 (vl − 1)
| Av ) =
.
S + W + |v|c
Das Lemma 1.3.2 ergibt die Behauptung (Induktion).
q.e.d.
Beachte, da die Formel nur von der Gesamtanzahl der weissen bzw. schwarzen abhaengt, ist die
W-keit konstant unter Permutationen der Koordinaten von v.
1.3.4
Produkträume
Ein weiteres Beispiel mit eigenständiger Bedeutung von W-keitsbäumen sind die Produkträume.
22
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Produktraum: Seien (Ω1 , Pot(Ω1 ), P1 ), . . . , (ΩN , Pot(ΩN ), PN ) diskrete W-Räume. Auf dem
QN
Produktraum Ω := Ω1 × Ω2 × . . . × ΩN = n=1 Ωn definieren wir das Produktmaß P durch
N
Y
P ({(ω1 , . . . , ωN )}) =
Pn ({ωn }).
n=1
NN
Notation: n=1 Pi . Der W-Raum (Ω, P(Ω), P ) heißt Produktraum, oder auch Produktwahrscheinlichkeitsraum. .
Lemma 1.3.7 Der Produktw-raum ist ein W-raum.
Bew: Es ist P (Ω) = 1 zu zeigen. Übung.
(Übung: Gebe einen zugehörigen W-baum und W-ereignisbaum an.)
q.e.d.
Proposition 1.3.8 Für Ai ∈ Pot(Ωi ), i = 1, . . . , n gilt
P (A1 × A2 × . . . × An ) =
Y
Pi (Ai ).
i
Der Produktraum von Laplaceräumen ist ein Laplaceraum.
P
P
Beweis: Beide Seiten sind gleich ω1 ∈A1 . . . ωn ∈An P1 ({ω1 }) . . . Pn ({ωn }).
Die laplaceeigneschaft wird nachgerechnet.
q.e.d.
Bsp: Würfeln. Wir würfeln k-mal hintereinander reale Würfel. Sei Xi das Ergebnis des i-ten
Wurfes. Dies modellieren wir durch den Produktraum Ω = {1, . . .}k und das Produktmaß. Jede
1
Realisierung (ω = (xi )ki=1 ) hat die W-keit 6k
. Wir haben einen Laplaceraum.
Übung: Modelliere mit einem Ereignisbaum.
Iterierte Funktionensysteme
Sei S eine endliche Menge und ν ein Maß auf F = S S versehen mit der Potenzmenge als σ-Algebra
und sei νN das Produktmaß bzgl. ν auf F N . Xn seien die Projektionen auf die n-te Koordinate
mit Werten in Funktionen.
Ein iteriertes Funktionensystem (IFS) ist eine Folge Yn , n ≤ N
Yn = Xn ◦ Xn−1 ◦ . . . X1
mit Xi wie oben.
Bsp: Wright-Fisher. Ds Wright-Fisher Modell entstammt der Populationsgenetik bezüglich der
Vererbung von DNS. Gegeben sei eine feste Bevölkerungsgröße M von Individuen. Jedes Individuum einer Generation ’sucht’ sich ein Individuum aus der vorhergehenden Generation als Eltern aus
(und übernimmt dessen Meinung, DNS,...). Das Wright-Fisher modelliert durch Gleichverteilung
(Sodom und Gomorrha) auf den Individuen der vorhergehenden Generation. Frage, gibt es einen
ersten gemeinsamen Vorfahren (most common recent ancestor).
13j
12j j j j
j
11
10 8 9
14j
j
j
j
j
j
j
6 7 5 1 4 2 3j
Mathem. Modell: Wir modellieren durch ein IFS. Sei S = {1, . . . , M } mit M die Bevölkerungsgröße und F die Menge der Funktionen von
S in sich. Sei ν die Gleichverteilung auf F versehen mit
NN
der Potenzmenge. Sei (Ω = F N , P(F N ), n=1 ν) der Produktraum und Xn sei die n-te Projektion. (Wir betrachten maximal N Generationen rückwärts.) Sei Yn = Xn ◦ Xn−1 . . . X1 . Interessiert
sind wir an dem Ereignis Yn ist eine konstante Funktion und an dem kleinsten n0 mit dieser
Eigenschaft.
23
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Interpretation: Yn (i) gibt den n-ten Vorfahren von Individuum i der 0-ten Generation an. Yn tut
dies gleichzeitig für alle Individuen. Im Wright-Fisher Modell haben alle Individuen, falls wir weit
genug in die Vergangenheit blicken können, einen ersten gemeinsamen Vorfahren. Dieser ist Yn0 (1)
in der n0 -ten rückwärtigen Generation.
Wenn die DNS 100% genau an die Nachkommen übergeben werden, so müsste die jetzige Generation alle die gleiche DNS besitzen. Interessant wird das Modell durch neutrale Mutationen, d.h.
Fehler bei der Kopierung der DNS von Eltern auf Kind, wobei die Mutation keine weiteren Auswirkungen haben. Diese Mutationen treten rein zufällig auf und jedesmal mit derselben W-keit.
Betrachten wir jetzt zwei Individuen, deren DNS sich durch eine gemessene Anzahl von Mutationen unterscheidet. Dann können wir von Verwandtschaftsgraden sprechen und die vergangene Zeit
bis zum ersten gemeinsamen Vorfahren schätzen. Hiermit lassen sich Stammbäumen von verschiedenen Arten konstruieren. Zum Beispiel ließe sich die Fragestellung beantworten, wann gab es den
ersten gemeinsamen Vorfahren von Schimpansen und Menschen. (Benötigt genaueres Modell.)
Übergangskerne*
Die zugrundeliegende Idee der W-bäume und auch der Produkträume sind Übergangskerne. Wir
wollen dies formalisieren.
Ein diskreter Übergangskern K, oder auch Wahrscheinlichkeitskern von Ω nach Ω0 ist eine
Abbildung K : Ω × P(Ω0 ) 7→ IR+ , mit ω, Ω0 höchstens abzählbar und K(ω, ·) ist ein W-maß auf
Ω0 für alle ω ∈ Ω.
Eine stochastische Matrix ist eine Matrix mit positiven Einträgen und jede Zeilensumme ist
1. Formal: Eine Matrix M = (mx,yP
)x∈E,y∈F auf höchstens abzählbaren Mengen E, F und ∀x ∈
E, y ∈ F : mx,y ≥ 0 und ∀x ∈ E :
y∈F mx,y = 1.
Ein diskreter Übergangskern K liefert eine stochastische Matrix M und umgekehrt via
K(x, {y}) = mx,y
Bsp: Würfeln. Betrachte zweimaliges Würfeln. Die Verteilung des ersten Wurfes X1 und des
zweiten X2 ist eine gleichmäßige auf Ω1 = {1, . . . , 6}. Die bedingte W-keit P (X2 = j | X1 = i) =
K(i, {j}) = 61 liefert uns einen Übergangskern K von Ω1 nach Ω2 . Dieser ist ausgeartet von Ω1
icht abhängig.
Übergangskerne spielen bei der Konstruktion von W-Räumen die Rolle von bedingten Wahrscheinlichkeiten.
Sei (Ω1 , P(Ω1 ), P1 ) ein diskreter W-raum und K ein Übergangskern von Ω1 nach Ω2 versehen mit
der Potenzmenge. Auf dem Stichprobenraum Ω = Ω1 × Ω2 versehen mit der Potenzmenge als
Ereignisraum definieren wir das W-mas̈ P durch
P ({(ω1 , ω2 )})
=
P (A)
=
P1 ({ω1 })K(ω1 , {ω2 })
X
P ({ω}).
ω∈A
(Übung: P ist ein W-mas̈.)
Diese Konstruktion läs̈t sich durch weitere Übergangskerne erweitern.
Lemma 1.3.9 Gegeben seien endliche oder abzählbare Mengen Ω1 , . . . , ΩN ein W-maß µ auf Ω1
und Übergangskerne
n
Y
Kn : ( Ωi ) × Ωn+1 → IR
i=1
für 1 ≤ n ≤ N − 1. Dann ist der Produktraum Ω =
P ({(ω1 , . . . , ωn }) = µ({ω1 })
QN
n−1
Y
i=1
ein diskreter W-raum.
24
n=1
Ωn versehen mit dem dem W-mas̈
Ki ((ω1 , . . . , ωi ), {ωi+1 })
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bew: Der Beweis geschieht durch Induktion. Den Induktionsanfang
haben wir oben gemacht.
Qn+1
Für den Induktionsschritt von n auf n + 1 konstruiere Pn+1 auf i=1 Ωi durch Pn und den
Übergangskern Kn .
q.e.d.
(Übung: Modelliere Polyas Urnenmodell durch Übergangskerne.)
1.3.5
Markoffketten
Sei S endlich oder abzählbar, µ ein W-mas̈ auf S und M eine stochastische Matrix auf S ×
S. Sei Pµ das in Lemma 1.3.9 definierte W-mas̈ auf dem Produktraum S N zu den Kernen
Kn ((x1 , . . . , xn ), {xn+1 ) = mxn ,sx+1 .
Pµ ({(x1 , x2 , . . . , xN )}) = µ({x1 })mx1 ,x2 mx2 ,x3 . . . mxN −1 ,xN .
Sei Xn : S N → S die n-te Projektion.
Not: X = i ist eine Kurzschreibweise für die Menge X −1 (i) = {ω | X(ω) = i}. Die Trennung durch
Kommata steht für den Durchschnitt bzw. ein logisches und bei der Interpretation als Aussagen.
Proposition 1.3.10 Im obigen Modell gilt, falls wohldefiniert,
P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = µ({x1 })mx1 ,x2 mx2 ,x3 . . . mxn−1 ,xn
P (Xn = x, Xn+1 = y) = P (Xn = x)mx,y
P (Xn+1 = y | Xn = x) = px,y
Bew: Sei alles wohldefiniert.
P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
=
X
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , XN = xN
xn+1 ,...,xN ∈S
=
X
µ({x1 })
N
−1
Y
xn+1 ,...,xN ∈S
=
X
µ({x1 })
xn+1 ,...,xN −1 ∈S
=
=
X
N
−2
Y
µ({x1 })
N
−2
Y
xn+1 ,...,xN −1 ∈S
j=2
X
N
−3
Y
= µ(x1 )
µ({x1 })
n−1
Y
mxj ,xj+1 )(
X
mxN −1 ,xN )
xN ∈S
x=2
xn+1 ,...,xN −2 ∈S
...
mxj ,xj+1
j=2
mxj ,xj+1
mxj ,xj+1
j=2
mxj ,xj+1
j=2
P (Xn = xn , Xn+1 = xn+1 )
=
X
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , Xn+1 = xn+1 )
x1 ,...,xn−1 ∈S
=
X
µ({x1 })
x1 ,...,xn−1 ∈S
=
mxn ,xn+1
n
Y
X
x1 ,...,xn−1 ∈S
=
P (Xn+1 = y | Xn = x)
=
mxj ,xj+1
j=2
µ({x1 })
n−1
Y
mxj ,xj+1
j=2
mxn ,xn+1 P (Xn = xn )
P (Xn+1 = y, Xn = x)
= mx,y .
P (Xn = x)
q.e.d.
25
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Definition 1.3.11 Eine Markoffkette (Mk) mit Zustandsraum S ist eine Folge von Zgn Xn :
Ω → S, n ≤ N auf einem W-raum mit der Markoffeigenschaft
P (Xn+1 = y | Xn = x) = P (Xn+1 = y | Xn = x, Xn−1 = xn−1 , . . . , X1 = x1 )
für alle n < N, x, y, x1 , . . . , xn−1 ∈ S.
Interpretation: Der Parameter n wird als Zeit interpretiert. Die Markoffeigenschaft besagt, die
W-keit von Ereignissen aus der Zukunft, gegeben die gesamte Vergangenheit und Gegenwart, wird
nur durch die Gegenwart bestimmt.
Die intuitive Vorstellung einer Mk auf dem Zustandsraum S ist ein Irrgarten mit den Kreuzungspunkten S und einem Würfel an jedem Punkt. Am Startpunkt würfeln wir mit dem dortigen
Würfel einen neuen Punkt aus und gehen dahin. Angekommen würfeln wir mit dem dortigen
Würfel einen neuen Punkt aus und gehen dorthin, u.s.w.. Unser zufälliger Pfad xn = Xn (ω)
besteht aus der durchlaufenden Folge der Kreuzungspunkte.
Satz 1.3.12 Jedes Tupel von einem W-mas̈ µ auf S und einer stochastischen Matrix M auf S
liefert via obiger Konstruktion ein W-maß Pµ auf S N und damit die Mk Xn , n ≤ N der Projektionen. Umgekehrt, zu vorgegebener Mk Yn , n ∈ N auf S gibt es ein Tupel (µ, M ) mit (Xn )n unter
Pµ hat dieselbe Verteilung wie (Yn )n . Es gilt
P (Y1 ∈ ·) = µ
P (Yn+1 = y | Yn = x) = mx,y .
Bew: Sei µ, M gegeben und N ∈ IN fest. Definiere Ki : S i × S → IR durch
Ki ((x1 , . . . , xi ), {xi+1 }) = mxi ,xi+1 .
Sei P das nach Lemma 1.3.9 definierte W-maß und Xn die Koordinatenprojektionen. Dann ist
Xn , n ≤ N eine Markoffkette. Die Markoffeigenschaft rechnen wir nach:
P (Xn+1 = y | Xn = x, Xn−1 = xn−1 , . . . , X1 = x1 ) =
µ(x1 )mx1 ,x2 . . . mxn−1 ,x mx,y
= px,y
µ(x1 )mx1 ,x2 . . . mxn−1 ,x
Umgekehrt, ist eine Mk gegeben, so ist die Verteilung der Mk eindeutig durch das Anfangsmaß
und die Übergangsw-keiten P (Yn+1 = y | Yn = x) falls P (Xn = x) > 0 bestimmt. Eventuell ist M
eine Übergangsmatrix auf einem Teilraum von S.
q.e.d.
Bemerkung: In allem gesagten in diesem Abschnitt können wir N = ∞ nehmen.
Eine stochastische Matrix wird gerne als ein gewichteter Graph (V, E) dargestellt. Dabei sind die
Knoten die Zustände (V = S) und die Kanten sind diejenigen Tupel (x, y) mit mx,y > 0. Ein
Markoffgraph ist der obige Graph mit den Kantengewichten E 3 (x, y) 7→ mx,y . Bildlich malen
wir einen Pfeil von x nach y und schreiben eventuell den Wert mx,y daran.
Bsp: Markoffgraph. S = {1, 2, 3, 4} mit


1/2 1/2
0
0
 1/2 1/2
0
0 

P =
 0
1/4 1/2 1/4 
6
6
6
6
u
u
u
u
0
0
0
1
Bsp: Peter und Paul. Peter und Paul werfen die Münze. Der Gewinner bekommt eine Einheit
von dem anderen. Jeder fängt mit einem Startkapital an und darf solange spielen, bis er pleite ist
oder N Teilspiele gespielt sind.
Mathem. Modell: Sei x0 das Anfangskapital von Paul und K das Gesamtkapital beider. Wir
modellieren das Kapital Xn von Paul nach dem n-ten Spiel durch eine Markoffkette zu der stochastischen Matrix mi,i+1 = 1/2 = mi,i−1 für i = 1, . . . , K − 1 und m0,0 = 1 = mK,K . Das
Anfangsmaß ist das Punktmaß δx0 , δx0 (A) = 11x0 ∈A auf x0 .
(Übung: Wie sieht der Graph der Markoffkette aus?)
26
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bsp: Polyas Urnenmodell. Um Polyas Urnenmodell als Markoffkette zu simulieren, nehmen
+S+sc
mit |x| < k die Länge von x
wir den Zustandsraum B = ∪ki=0 {0, 1}i , µ(∅) = 1, mx,x1 = WW+S+|x|c
P|
und s = i=1 x|xi und mx,x0 = 1 − mx,x1 . (Vergleiche dieses Modell mit dem Baummodell!)
(Übung: Wie sieht der Graph der Markoffkette aus.)
Kommen wir zurück zur Intuition einer Mk als Irrgarten. Die Folge der durchlaufenen Zustände
ist eine Realisierung einer Mk. Die Mk liefert keine Information über eine andere Person, die
einen anderen Startpunkt macht, bis wir und treffen. Danach gehen wir gemeinsam. Dies ist der
Unterschied zwischen eine Mk auf S und einem IFS auf S S .
Bsp: Wright-Fisher. Sei
Yn = Xn ◦ Xn−1 ◦ . . . X1
das IFS mit Xi Zg mit Werten in F = S S und Verteilung ν.
Yn selbst ist eine Markoffkette auf F mit den Übergängen mf,g = ν({g}), f, g ∈ F und das
Punktmaß auf der Identität als Startverteilung.
Für festes s ∈ S ist die Folge Yn (s), n ≤ N eine Markoffkette auf S mit den Übergangswahrscheinlichkeiten mx,y = ν({f ∈ F | f (x) = y}.
27
Uwe Rösler
1.4
1.4.1
SS12
1.4
Diverses
Diverses
Die Einschluß-Auschluß Formel
Satz 1.4.1 (Einschluß-Ausschluß Formel) Seien Ai , i ∈ I, endlich viele Ereignisse. Es gilt
die Einschluß-Ausschluß Formel
[
X
\
P ( Ai ) =
(−1)1+|J| P ( Ai ).
(1.1)
i∈I
J⊂I
i∈J
Beweis: Wir führen einen Induktionsbeweis nach der Anzahl n der Elemente in der Indexmenge
I. Die Aussage gilt für n = 1 und für n = 2,
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).
Im Induktionsschritt zeigen wir die Aussage für n + 1, vorausgesetzt für n ist die Aussage richtig.
n+1
[
P(
Ai )
=
P(
i=1
n
[
Ai ) + P (An+1 ) − P ((
i=1
X
=
Ai ) ∩ An+1 )
i=1
(−1)1+|J| P (
J⊂{1,...,n}
X
=
n
[
\
X
Aj ) + P (An+1 ) −
j∈J
(−1)1+|J| P (
J⊂{1,...,n}
(−1)1+|K| P (
\
\
(Aj ∩ An+1 ))
j∈J
Ak ).
k∈K
K⊂{1,...,n+1}
Die letzte Summe wird aufgeteilt in die drei Summen über diejenigen K mit K ⊂ {1, . . . , n}, mit
K = {n + 1} und K enthält {n + 1} ist aber ungleich.
T
Bemerkung In vielen Anwendungen ist P ( i∈J Ai ) nur von der Mächtigkeit |J| von J abhängig.
Die Einschluß-Ausschluß Formel vereinfacht sich zu
n
n
[
X
n
P ( Ai ) =
(−1)1+k
ak
(1.2)
k
i=1
k=1
mit ak := P (
Tk
i=1
Ai ).
Beispiel
Tanzparty: Bei einer Tanzparty mit n Ehepaaren werden die Tanzpartnerinnen zufällig zugelost.
Mit welcher Wahrsch. werden zwei Ehepartner zusammengelost?
Wenn wir die Ehepaare numerieren, so ist eine Auslosung eine zufällige Permutation π der Zahlen
1 bis N, der Herr k tanzt mit der Dame π(k). Der Stichprobenraum der Permutationen ist ein Laplaceraum, alle Permutationen sind gleichwahrsch. Gefragt ist nach der Wahrsch. eine Permutation
π mit einem Fixpunkt π(x) = x zu wählen.
Die Ereignisse Ak , der Herr k tanzt mit Dame k, sind die Permutationen π auf I := {1, 2, . . . , N }
mit Fixpunkt k. Insgesamt gibt es (n! verschiedene Permutationen. Die Wahrsch. der Permutationen mit vorgeschriebenen Fixpunkten J ⊂ I ist
P(
\
Aj ) =
j∈J
(n − |J|)!
.
n!
Die Einschluß-Ausschluß Formel liefert
P(
[
i∈I
Ai ) =
n
X
(−1)1+k
k=1
28
k!
.
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Die Wahrsch. der Auslosung einer Tanzpaarung, in der kein Ehepaar miteinander tanzt ist
P(
\
Aci ) = 1 − P (
i∈I
[
Ai ) = 1 −
i∈I
P∞
Im Grenzwert n → ∞, beachte e−x = n=0
weise) gegen den Wert 1e echt größer Null.
xn
n! ,
n
X
(−1)1+k
k!
k=1
.
strebt diese Wahrscheinlichkeit (überraschender-
Es gibt viele Varianten der obigen Problemstellung. Zum Beispiel zur Weihnachtsfeier bringt jeder
Teilnehmer ein Geschenk mit, das später unter den Teilnehmern ausgelost wird. Die ursprüngliche
Problemstellung von de Montmort (1713) behandelt die Zulosung von n Karten zu n Spielern.
Lemma 1.4.2 (Bonferoni Ungleichung) Seien An , n ∈ IN Ereignisse. Es gilt
X
X
X
P (An ) −
P (Am ∩ An ) ≤ P (∪n An ) ≤
P (An ).
n
m<n
(1.3)
n
Allgemeiner, für 1 ≤ k ≤ n
(−1)k (P (
[
X
An ) −
n
(−1)1+|J| P (
\
Aj )) ≤ 0.
j∈J
J⊂I, |J|≤k
Beweis: Betrachte
Bn := An \(A1 ∩ . . . ∩ An−1 ). Die Ereignisse Bn sind paarweise disjunkt,
S
S
A
=
◦
B
i≤n i
i≤n i und Bn ⊂ An . Damit
P(
[
[
X
An ) = P ( ◦ B n ) =
P (Bn ).
n
n
n
Die zweite Ungleichung in der ersten Zeile folgt aus der Monotonie P (Bn ) ≤ P (An ). Für die erste
argumentiere
n−1
[
n−1
X
i=1
i=1
P (Bn ) = P (An ) − P (
(Ai ∩ An )) ≥ P (An ) −
Den allgemeinen Fall behandeln wir später (refBinomialformal).
1.4.2
P (Ai ∩ An ).
q.e.d.
Besondere Aufgaben
In einem Duell ist die Wahl der Waffen vorteilhaft. In vielen Spielsituationen ist die erste Wahl
oder der erste Zug vorteilhaft. Dies ist nicht immer so.
Beispiel
Der Beste: Auf dem Tisch liegen drei Würfel, beschriftet mit den Zahlen (6, 6, 3, 3, 3, 3), (5, 5, 5, 2, 2, 2)
und (4, 4, 4, 4, 4, 1). Spieler A läs̈t Spieler B die erste Wahl eines Würfels und wählt anschlies̈end
einen verbleibenden. Dann wird gewürfelt und der Spieler mit der höheren Augenzahl gewinnt.
Wer ist im Vorteil? Welche Seite nehmen Sie, A oder B.?
Auflösung: Im direkten Vergleich gewinnt der erste Würfel gegen den zweiten mit Wahrsch. 24/36,
der zweite gegen den dritten mit Wahrsch. 21/36 und der dritte gegen den ersten mit Wahrsch.
20/36. Es ist ein Nachteil als Erster einen Würfel zu wählen. In diesem Beispiel gibt es keinen
absolut besten Würfel.
Bierdeckelzahlen: Peter schreibt verdeckt auf zwei Bierdeckel je eine reelle Zahl. Beide Zahlen
sind verschieden. Anschließend darf Paul einen der Bierdeckel nach seiner Wahl umdrehen und
sich die Zahl ansehen. Er darf dann entscheiden, ob er diese Zahl behält oder die Zahl des anderen Bierdeckels wählt. Paul hat gewonnen, wenn er die größere gewählt hat. Frage: Gibt es eine
Strategie für Paul, so dass er mit eine W-keit strikt grøßer als 21 gewinnt? Hinweis: Es gibt eine
29
Uwe Rösler
SS12
1.4
Diverses
Verteilung auf den reellen Zahlen, die jedem offenen Intervall ein strikt positives Maß zuordnet.
(Übung)
Hutfarbe zum ersten: Drei Personen bekommen jeweils einen weißen oder schwarzen Hut aufgesetzt. Die Farbe des Hutes wird jeweils durch einen zufälligen fairen Münzwurf bestimmt. Die
Personen sehen die Hutfarben der anderen, aber nicht die eigene. Jegliche Art von Kommunikation
ist unmöglich. Anschließend werden die Personen in hermetisch abgeschlossene Räume geführt und
nach ihrer Hutfrage gefragt. Jede Person darf die Antwort verweigern oder eine Aussage treffen.
Die gesamte Gruppe hat genau dann gewonnen, wenn mindestens einer eine Aussage macht und
alle gemachten Aussagen müssen wahr sein. Die Dreiergruppe darf sich vor dem Spiel beraten und
eine Strategie vereinbaren. Mit welcher W-keit strikt größer als 21 kann die Gruppe mindestens
gewinnen?
Hutfarbe zum zweiten: Jede der n ≥ 3 Personen hat eine ganze Folge von Hüten auf, deren
Farben weiß oder schwarz durch unabhängigen M ünzwurf einer fairen Münzw ermittelt wurde.
Jede Person sieht die Hüte der anderen, aber nicht seine eigenen. Jegliche Kommunikation ist
untersagt und unmöglich. Anschließend werden die Personen in hermetisch abgeschlossene Räume
geführt und jede Person wird nach der Koordinate eines eigenen schwarzen Hutes gefragt. Eine
Person (und dann die Gruppe) hat genau dann gewonnen, wenn alle einen schwarzen Hut korrekt
angegeben haben. Die Personen dürfen sich vor dem Spiel beraten und eine Strategie vereinbaren.
Mit welcher W-keit strikt größer als 21n kann die Gruppe mindestens gewinnen? Kommen Sie auf
1
n+1 ?
Duell von Mathematikern. Drei Mathematiker A, B, C wollen sich duellieren nach den folgenden Regeln: Es wird in der Reihenfolge A, B, C, A, B, usw. geschossen, wobei nur Lebende
schiessen dürfen (können). Wer an der Reihe ist, darf nach eigener Wahl auf einen Duellanten
schiessen oder er verzichtet auf sein Schussrecht. Falls nur noch einer lebt oder in einer Runde alle
verzichtet haben, einschließlich des letzten Schießenden, wird das Duell beendet.
Vor dem Duell verhalten sich die Duellanten emotional und nicht kooperativ, keine Absprachen
werden getroffen. Zum Zeitpunkt des Duells jedoch verhalten Mathematiker sich rein rational
(=emotionslos) und nehmen stets diejenige Entscheidung, die ihre eigene Überlebenswahrscheinlichkeit maximiert. Gegeben maximale eigen Überlebenschance sehen sie ihre Gegner lieber tot.
Die Treffsicherheit von A, B, C ist eine aufsteigender Folge 0 < pA < pB < pC = 1 von strikt
positiven Zahlen. Mit welcher W-keit überlebt A bzw. B bzw. C? (Mathematisches Argument!)
30
Elementare Wahrscheinlichkeitstheorie
1.5
SS12
Uwe Rösler
Konzept: Unabhängigkeit
Der Konzept der stochastischen Unabhängigkeit ist ein ganz wesentlicher Bestandteil der Stochastik. Dieses Konzept ermöglicht erst in seinen Konsequenzen den Aufbau einer Wahrscheinlichkeitstheorie. Geschichtlich gesehen wurde eine präzise mathematische Formulierung der Unabhängigkeit
recht spät gegeben, erst im 20-ten Jahrhundert.
Heuristik: Ereignisse A, B sind unabhängig, falls die Wahrsch. für das Eintreten von A nicht
von der Kenntnis des Eintretens oder Nichteintretens des Ereignisses B abhängt. Diese Überlegung
führt auf den Ansatz P (A | B) = P (A) bzw. P (B | A) = P (B).
Definition 1.5.1 (unabhängig) Zwei Ereignisse A und B heißen paarweise unabhängig ,
falls die W-keit für den Eintritt beider gleich dem Produkt der Einzelw-keiten ist,
P (A ∩ B) = P (A)P (B).
Sind A und B unabhängig, so auch B, A und A, B c usw. Gilt P (A), P (B) > 0, so sind A, B
unabhängig genau dann, wenn die Wahrsch. von A bedingt auf B gleich der Wahrsch. von A
selbst ist.
Bsp: Gefälschte Münze. Wir werfen zweimal mit einer eventuell gefälschten Münze. Sei p ∈
(0, 1) die W-keit für Kopf, identifiziert mit der 1. Wir betrachten die Ereignisse A, der erste Wurf
zeigt ’Kopf’ und B, genau ein ’Kopf’ erscheint. Dies Experiment modellieren wir durch Ω := {0, 1}2
mit dem W-maß P ({(i, j)}) = pi+j q 2−i−j . Die Koordinatenabbildungen Xi : Ω → {0, 1} geben
das Ergebnis im i-ten Wurf an. Die Ergebnisse des ersten Wurfes und des zweiten Wurfes sind
unabhängig,
P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j).
Die Ereignisse A := {X1 = 1} = {(1, 0), (1, 1)} und B := {X1 + X2 = 1} = {(0, 1), (1, 0)} haben
die W-keiten P (A) = p, P (B) = P ({(0, 1)}) + P ({(1, 0)}) = 2p(1 − p), P (A ∩ B) = p(1 − p). Die
beiden Ereignisse A, B sind genau dann paarweise unabhängig, falls p = 1/2 gilt.
Jetzt zur allgemeinen formalen Definition der Unabhängigkeit.
Definition 1.5.2 (unabhängig) Eine Familie Ai ∈ A, i ∈ I, von Ereignissen zu beliebiger
Indexmenge I heißt (stochastisch) unabhängig, falls für jede endliche Auswahl die W-keit des
Durchschnitts gleich dem Produkt der Wahrsch. ist. In Formeln:
\
Y
∀J ⊂ I, |J| < ∞
P(
Aj ) =
P (Aj ).
j∈J
j∈J
Eine Familie Ai ⊂ A, i ∈ I, von Untermengen der Ereignismenge zu beliebiger Indexmenge I heißt
unabhängig , falls jedes Repräsentantensystem Ai ∈ Ai , i ∈ I, eine Familie von unabhängigen
Ereignissen bildet.
Die drei Definitionen sind in aufsteigender Reihenfolge der Allgemeinheit, die dritte enthält die
zweite und diese die erste als Spezialfall.
Lemma 1.5.3 Die Ereignisse Ai , i ∈ I, sind genau dann unabhängig wenn die Mengensysteme
{∅, Ai , Aci , Ω}, i ∈ I, unabhängig sind.
Seien die Mengensysteme Ai ⊂ A, i ∈ I, stochastisch unabhängig. Sind IkS, k ∈ K, paarweise
disjunkte Teilmengen der Indexmenge I, so sind die Mengensysteme Bk := i∈Ik Ai , k ∈ K der
Vereiningung unabhängig.
Bew: Die Rückrichtung der ersten Aussage ist einfach. Für die Hinrichtung beschränken wir uns
oEdA auf endliche Indexmenge I. Wir werden zeigen: Sind die Ereignisse Ai , i ∈ I unabhängig, so
auch Aci0 , Ai , i ∈ I\{i0 } für jedes i0 ∈ I.
31
Uwe Rösler
SS12
1.5
Konzept: Unabhängigkeit
Sei J ⊂ I.
\
\
\
Y
Y
Y
P (Aci0 ∩
Aj ) = P (
Aj )−P (
Aj ) =
P (Aj )−
P (Aj ) = P (Aci0 )
P (Aj )
i0 6=j∈J
i0 6=j∈J
j∈J
i0 6=j∈J
j∈J
i0 6=j∈J
Eine sukzessive Anwendung liefert die Hinrichtung.
Die zweite Aussage folgt direkt aus der Definition.
q.e.d.
Definition 1.5.4 Eine Familie von Zufallsgrößen Xi : Ω → Ωi , i ∈ I heißt unabhängig, falls die
σ-Algebren X −1 (Ai ) = {X −1 (A) | A ∈ Ai }, i ∈ I unabhängig sind.
Bemerkung: Allgemein: Seien Ei , i ∈ I durchschnittstabile Erzeuger der σ-Algebren Ai , i ∈ I.
(Eine Teilmenge E des Ereignisraumes A heißt Erzeuger, falls A die kleinste, E enthaltende σAlgebra ist. Er ist durchschnittsstabil, falls er abgeschlossen ist bzgl. endlichem Durchschnitt.)
Dann reicht es und ist einfacher nachzuweisen, das̈ die Familie Xi−1 (Ei ), i ∈ I unabhängig ist.
Das einfachste Beipiel für unabhängige Zgn ist mehrfaches Würfeln. Die Augenzahlen Xi des i-ten
Wurfes, 1 ≤ i ≤ n sind unabhängig.
In diesem Beispiel ist der W-raum ein Produktraum. Allgemeiner fomuliert,
Q
Bsp: Produktraum:
Seien (Ωi , Pot(Ωi ), Pi ) diskrete W-räume. Sei Ω := i Ωi die Produktmenge
Q
und P = i Pi das Produktmaß. Die Koordinatenabbildungen X1 , . . . , Xn sind unabhängig 1.3.8.
Zum Schluss eine Fallgrube, die wir umschifft haben.
Paarweise Unabhängigkeit Ereignisse Ai , i ∈ I, heißen paarweise unabhängig , falls je zwei
Ereignisse Ai , Aj , i 6= j unabhängig sind. Unabhängigkeit impliziert paarweise Unabhängigkeit.
Die Umkehrung gilt nicht. Warnung: Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit.
Ebenso impliziert Tripelunabhängigkeit P (A ∩ B ∩ C) = P (A)P (B)P (C) nicht Unabhängigkeit.
Bsp: Paarweise unabhängig: Bei zweimaligem Münzwurf wie oben mit p = 1/2 betrachten
wir zusätzlich das Ereignis C, der zweite Wurf zeigt ’Kopf’. Diese Ereignisse sind paarweise unabhängig, aber nicht unabhängig, (A ∩ B ∩ C = ∅). Nachrechnen.
Warnung: Die mathematische stochastische Unabhängigkeit kann nicht als einflusslos oder die
Verneinung kausaler Zusammenhänge interpretiert werden.
Proposition 1.5.5 Die Summe von n unabhängigen, identisch Bernoulli Ber(p) zum Parameter
p verteilten Zufallsvariablen ist binomialverteilt Bin(n, p).
Pn
Beweis: Seien Xi die unabhängigen Bernoulli(p) verteilten Zgn und Sn =
i=1 Xi die n−te
Partialsumme. Wir zeigen den Induktionsschritt von n nach n + 1.
P (Sn+1 = k)
= P (Sn = k, Xn+1 = 0) + P (Sn = k − 1, Xn+1 = 1)
= P (Sn = k)P (Xn+1 = 0) + P (Sn = k − 1)P (Xn+1 = 1)
n k n−k
n
n + 1 k n+1−k
=
p q
q+
pk−1 q n−k+1 p = . . . =
p q
k
k−1
k
32
Elementare Wahrscheinlichkeitstheorie
1.6
SS12
Uwe Rösler
Erwartungswerte
Heuristik: Der durchschnittliche Wert bei einem Münzwurf ist 3,5. Dies ist der Wert, den wir im
Durchschnitt erwarten, die Summe der Augenzahlen geteilt durch die Anzahl der Würfe.
Wir führen den Erwartungswert zuerst nur für Zgn X ein, die höchstens abzählbar viele verschiedene Werte annehmen können.
Definition 1.6.1 (Erwartungswert) Der Erwartungswert E(X) einer positiven Zufallsgröße
X : Ω 7→ IR mit abzählbar vielen Werten ist
X
E(X) :=
X(ω)P ({ω}).
ω∈Ω
Der Erwartungswert E(X) einer Zufallsgröße X mit E(X + ) < ∞ oder E(X − ) < ∞ ist
E(X) := E(X + ) − E(X − ).
Wir haben hier die Zerlegung einer Funktion f = f + − f − in den Positivteil f + := f ∨ 0 und den
Negativteil f − := (−f ) ∨ 0 benutzt.
Eine Zg X heißt integrierbar, falls E(|X|) < ∞ gilt.
Sprachgebrauch: Der Erwartungswert E(X) heißt auch erstes Moment von X oder durchschnittlicher Wert von X. E|X| ist das erste absolute Moment.
Notation: EX = E(X), EX 2 = E(X 2 ) und E 2 X = (E(X))2 .
Bemerkung Die Verwendung des Erwartungswertes
impliziert stets dessen Wohldefiniertheit.
P
Dazu benötigen wir, daß die Summe
X(ω)P
(ω)
existiert
und unabhängig ist von der Reiω
henfolge der Summation. Dies wird (genau) durch die Voraussetzung EX + oder EX − endlich
gegeben. Der Regelfall ist eine integrierbare Zg. (Beachte: E|X| < ∞ ⇔ EX + < ∞, EX − < ∞.)
Der Erwartungswert kann die Werte +∞ und −∞ annehmen, ist für integrierbare Zgn aber stets
endlich.
Durch entsprechende Umordnung erhalten wir
X
X
E(X) =
X(ω)P ({ω}) =
xP (X = x).
ω∈Ω
x∈IR
Zur Summation tragen nur abzählbar viele Punkte x bei. Der Erwartungswert einer Zg hängt nur
von der Verteilung der Zg ab, nicht aber vom zugrundeliegenden W-raum.
Hier einige Rechenregeln für Erwartungswerte.
Lemma 1.6.2 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert.
(i) E(aX) = aE(X)
Skalarität
(ii) E(X + Y ) = EX + EY
Linearität
(iii) 0 ≤ X ⇒ 0 ≤ EX
Positivität
(iv) X ≤ Y ⇒ EX ≤ EY
Ordnungserhaltung
(v) E|X + Y | ≤ E|X| + E|Y |
Dreiecksungleichung
(vi) E(a) = a
(vii) |EaX| ≤ |a|E|X|
(viii) E|X| = 0 ⇔ P (X = 0) = 1
(ix) E(supi Xi ) ≥ supi EXi
33
Uwe Rösler
SS12
1.6
Erwartungswerte
(x) E(inf i Xi ) ≤ inf i EXi
Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen. Die wesentlichen
Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den Erwartungswert
als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die reellen Zahlen via
X 7→ EX.
Merkregel: Der Erwartungswert ist eine positive lineare Abbildung (auf dem Vektorraum der
Zufallsvariablen mit endlichem ersten absoluten Moment).
Hier einige Rechenregeln für Erwartungswerte.
Lemma 1.6.3 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert.
(i) E(aX) = aE(X)
Skalarität
(ii) E(X + Y ) = EX + EY
Linearität
(iii) 0 ≤ X ⇒ 0 ≤ EX
Positivität
(iv) X ≤ Y ⇒ EX ≤ EY
Ordnungserhaltung
(v) E|X + Y | ≤ E|X| + E|Y |
Dreiecksungleichung
(vi) E(a) = a
(vii) |EaX| ≤ |a|E|X|
(viii) E|X| = 0 ⇔ P (X = 0) = 1
(ix) E(sup X, Y ) ≥ sup E(X), E(Y )
(x) E(inf X, Y ) ≤ inf E(X), E(Y )
Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen.
q.e.d.
Die wesentlichen Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den
Erwartungswert als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die
reellen Zahlen via X 7→ EX.
Merkregel: Der Erwartungswert ist eine positive lineare Abbildung auf dem Vektorraum der
Zufallsvariablen mit endlichem ersten absoluten Moment.
Bsp: Binomialverteilung. Der Erwartungswert einer binomialverteilten Zg S zu den Parametern
n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen
ES =
n
X
kP (S = k) =
k=0
X n
k
pk q n−k = ... = np
k
k
mit q = 1 − p. Eleganter ist die Argumentation: Die Summe Sn von n unabhängigen Ber(p)
verteilten Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit gilt
ESn =
n
X
EXi = nEX1 = np.
i=1
Bsp: Bonferoni Ungleichung. Die Binomialformel liefert
n
Y
(1 − ai ) =
i=1
X
J⊂{1,...,n}
34
(−1)|J|
Y
j∈J
aj .
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Sei ai ∈ [0,
Q1] und sei Sk die rechte Summe über alle J der Mächtigkeit kleiner oder gleich k. Dann
ist Sk − i (1 − ai ) positive für ungerade k und negativ für gerade k. (Der Beweis wird durch
Induktion nach k erbracht.)
Seien Ai , 1 ≤ i ≤ n Ereignisse und 11Ai die Indikatorfunktion. (11A (ω) = 1 für ω ∈ A und 0 sonst.)
Mit ai = 11Ai (ω) erhalten wir
11
=
∩n
Ac
i=1 i
n
Y
X
(11 − 11Ai ) =
i=1
(−1)|J|
J⊂{0,1,...,n}
Y
11Aj
(1.4)
j∈J
Auf beiden Seiten den Erwartungswert genommen liefert die Einschluss-Ausschlussformel. Die
allgemeine
Bonferoni Ungleichung folgt mit der Erwartungswertbildung der alternierenden Reihe
Q
Sk − i (1 − ai ).
Satz 1.6.4 (Transformationssatz) Seien X : Ω 7→ Ω0 und Y : Ω0 7→ IR Zgn. Es gilt
EP (Y ◦ X) = EP X (Y )
sofern eine der beiden Seiten existiert.
Beweis:
EP (Y ◦ X) =
X
Y (X(ω))P (ω) =
X
ω
Y (x)P (X = x) = EP X (Y ).
x
Besonders wichtig ist der Multiplikationssatz, der neben der additiven Struktur die Produktstruktur aufzeigt.
Satz 1.6.5 (Multiplikationssatz) Für unabhängige integrierbare Zgn X1 , . . . , Xn ist der Erwartungswert des Produktes gleich dem Produkt der Erwartungswerte.
Y
Y
E( Xi ) =
E(Xi ).
i
i
Beweis:
E(
Y
Xi )
=
n
X Y
ω
i
=
!
Xi (ω) P (ω)
i=1
X
x1 . . . xn P (X1 = x1 , . . . , Xn = xn )
x1 ...,xn
=
X
x1 . . . xn P (X1 = x1 ) . . . P (Xn = xn ) =
x1 ,...,xn
Y
E(Xi ).
i
Petersburger Spiel: Sie werfen eine gefälschte Münze und gewinnen bei Kopf, welcher mit
Wahrscheinlichkeit p > 21 erscheint, und verlieren bei Zahl. Ihr Einsatz ist stets Ihr gesamtes
Kapital, welches bei Gewinn verdoppelt wird und bei Verlust eingezogen wird. Wie groß ist der
erwartete Gewinn nach n Runden und mit welcher W-keit geschieht dies?
Mathematisches Modell: Seien Xi , 1 ≤ i ≤ n unabhängige, Ber(p) verteilte Zgn. Ihr AnQi
fangskapital sei K0 = 1. Nach der i-ten Runde besitzen sie das Kapital Ki = j=1 (2Xi ). Die
i
Erwartungswerte E(Ki ) = (2p)
Q sind striktnmonoton steigend. Nach n Würfen sind Sie nicht pleite mit einer
Q W-keit von P ( i Xi = 1) = p und haben in diesem seltenen Fall ein Riesenkapital
von E( i (2Xi )) = (2p)n angesammelt.
Üblicherweise läßt sich der Erwartungswert direkt aus der Definition berechnen. Hier zwei andere,
nicht triviales Beispiele zur Berechnung eines Erwartungwertes.
35
Uwe Rösler
SS12
1.6
Erwartungswerte
Zufallsadresse: Ein Komputer hat n Prozessoren und ordnet k Arbeitsaufgaben zufällig mit
Gleichverteilung jeweils einem Prozessor zu, der die Aufgabe bearbeiten soll. Falls ein Prozessor
zwei oder mehr Aufgaben bekommt, so bearbeitet er keine. Wieviele Aufgaben werden durchschnittlich bearbeitet?
Sei Y die Anzahl der Prozessoren, die genau eine Aufgabe erhalten. Gefragt ist nach EY. Es ist
relativ schwer die Verteilung der Zg Y zu finden. Für den Erwartungswert gibt es einen einfachen
Weg: Seien Xi die Zgn, das̈ der i-te Prozessor genau eine Aufgabe bekommt. (Xi = 1 falls ja,
k−1
. (Urnenmodell aus einer
ansonsten Xi = 0.) Die W-keit P (Xi = 1) berechnet sich zu k1 (n−1)
nk
Urne mit n numerierten Kugeln bei k-Ziehungen mit Zurücklegen und Reihenfolge genau einmal
die 1 zu ziehen.) Damit gilt
EY = E
X
Xi =
i
X
i
1
EXi = k 1 −
n
k−1
.
Für k = n und n gros̈ ergibt sich asymptotisch der erstaunlich hohe Wert,
lim
n
EY
= e−1 .
n
Quicksort: Quicksort ist ein 1961 von Hoare vorgestellter Sortieralgorithmus. Wir beschreiben
die Originalversion des zufälligen Algorithmus. Sei Ln eine zu sortierende Menge oder Liste von
n verschiedenen Zahlen.
• Wähle zufällig aus der Menge (Urne) mit Gleichverteilung ein Element,
• vergleiche alle anderen damit und
• bilde die Menge der strikt kleineren und die Menge der strikt größeren Zahlen.
• Für jede dieser Mengen rufe rekursiv den Algorithmus auf.
Dieser Algorithmus terminiert. Schematisch erhalten wir
x
x
x
x
x
x x x
x
x
x
s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s
Die Laufzeit des Algorithmus ist zufällig. Diese Zeit ist im wesentlichen proportional zur benötigten
Anzahl Qn der Vergleiche. Die benötigte Vergleichsanzahl für eine Liste der Länge n sind n − 1
Vergleiche zur Bildung der Teillisten und dann die benötigten Vergleichen zur Sortierung der Liste
der kleineren und der Liste der größeren Elemente. Wir erhalten die mathematische rekursive
Beziehung
D
Qn = n − 1 + QUn −1 + Qn−Un ,
n ∈ IN . Hierbei sind Q. , Q. , Un unabhängige Zgn. Die Zg Un hat eine gleichmäßige Verteilung auf
D
{1, . . . , n}. Die Verteilung von Qm , Qm sind jeweils gleich und rekursiv bestimmt. Das Symbol =
36
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
steht für Gleichheit in Verteilung. Hier interessiert uns nur die erwartete Anzahl an := EQn der
Vergleiche. Die obige rekursive Beziehung ergibt
an = n − 1 + EaUn + Ean−Un ,
n ∈ IN, a0 = 0 = a1 . Diese rekursive Gleichung ergibt
an
an−1
2(n − 1)
=
+
.
n+1
n
n(n + 1)
Hieraus ergibt sich durch Iteration sofort
n+1
X1
2
an
= ... = 2
+
−4
n+1
l
n+1
l=1
an ≡ 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n))
mit γ = 0, 57721 . . . die Euler Konstante.
1.6.1
Momente
Den Erwartungswert E(X) nennt man auch Moment oder genauer erstes Moment. Das absolute erste Moment ist E(|X|). Das p-te Moment ist E(X p ), (Mit der Konvention xp := |x|p sign x
und vorausgesetzt E(X p ) ergibt Sinn.) Ebenso spricht man vom p-ten absoluten Moment
E(|X|p ), vom exponentiellen Moment E(exp(X)), logarithmischen, usw. Ein zentriertes
Moment einer Zufallsvariable X ist der Erwartungswert der zentrierten Zufallsvariable X − EX.
Der Leser wird nach diesem Schema selbst neue Sprachkombinationen erfinden können (die ich ad
hoc verstehe).
Das zweite zentrierte Moment einer Zufallsvariablen X heißtpVarianz der Zufallsvariablen X.
2
.Die Wurzel σX := Var(X) der Varianz von X heißt
Notation: Var(X) = E(X − EX)2 := σX
Streuung.
Die Covarianz Cov(X, Y ) von zwei Zufallsvariablen X, Y ist der Erwartungswert E((X−EX)(Y −
EY )) des Produkts der zentrierten Zufallsvariablen. Der Korrelationskoeffizient
ρ := ρ(X, Y ) =
Cov(X, Y )
σX σY
zweier Zgn X, Y ist die Kovarianz dividiert durch das Produkt der Streuungen.
1.6.2
Varianz
Proposition 1.6.6 Seien X, Y Zufallsgrößen mit endlichem zweiten Moment. Es gelten die Rechenregeln
(i) Var(aX + b) = a2 Var(X),
2
a, b ∈ IR.
2
(ii) Var(X) = E(X ) − E (X)
(iii) Var(X) = 0 ⇔ P (X 6= EX) = 0
Beweis:
Var(X)
=
X
(X(ω) − EX)2 P (ω)
=
X
(X(ω)2 − 2X(ω)E(X) + (E(X))2 P (ω) = E(X 2 ) − E 2 (X)
=
E(aX + b − E(aX + b))2 = a2 Var(X)
ω
Var(aX + b)
Die nächste Behauptung folgt aus Lemma 1.6.38.
37
q.e.d.
Uwe Rösler
SS12
1.6
Erwartungswerte
P
P
Lemma 1.6.7 Für unabhängige Zgn X1 , . . . , Xn ist die Varianz linear (Var i Xi = i VarXi ).
P
P
P
P
Beweis: Var( i Xi ) = Var( i (Xi − EXi )) = i,j E((Xi − EXi )(Xj − EXj )) = i E(Xi −
P
EXi )2 = i VarXi .
Satz 1.6.8 (Cauchy-Schwarz Ungleichung) Für zwei Zgn X, Y mit endlichem zweiten Moment gilt die Ungleichung
E 2 (XY ) ≤ E(X 2 )E(Y 2 ).
Gleichheit gilt genau dann, wenn eine Zg mit Wahrsch. 1 ein Vielfaches der anderen ist (∃a, b ∈
IR, ab 6= 0 : P (aX = bY ) = 1).
Beweis: O.E.d.A sei E(Y 2 ) > 0. Betrachte das Minimum der Funktion 0 ≤ E(X + aY )2 =
EX 2 + 2aE(XY ) + a2 EY 2 in der reellen Variablen a ∈ IR. Das Minimum wird im Wert a =
−E(XY )/EY 2 angenommen. Diesen a Wert eingesetzt ergibt die Behauptung. Gleichheit gilt
genau für E(X + aY )2 = 0, welches äquivalent zu P (X + aY = 0) = 1 ist.
q.e.d.
Beispiel: Die Korrelationskoeffizienten erfüllen −1 ≤ ρ(X, Y ) ≤ 1. Dies folgt aus der CauchySchwarz Ungleichung
Cov2 (X, Y ) ≤ Var(X)Var(Y ).
Übung: Der Erwartungswert EX minimiert die Funktion E(X − a)2 in a ∈ IR.
1.6.3
Kovarianz
Proposition 1.6.9 Seien a, b reelle Zahlen und X, Y Zufallsvariablen mit endlichem zweiten Moment. Es gelten die Rechenregeln
(i) Cov(X, X) = Var(X)
(ii) Cov(X, Y ) = Cov(Y, X)
(iii) Cov(X, Y ) = E(XY ) − EXEY
(iv) Cov(aX + b, Y ) = aCov(X, Y )
(v) Cov2 (X, Y ) ≤ Var(X)Var(Y )
P
P
P
(vi) Var( i Xi ) = i Var(Xi ) + i6=j Cov(Xi , Xj )
(vii) X, Y unabhängig ⇒ Cov(X, Y ) = 0
Beweis: Die fünfte Ausage folgt aus der Cauchy-Schwarz Ungleichung. Für die sechste nehmen
wir o.E.d.A. zentrierte Zufallsvariablen X1 , . . . , Xn an. Aus
X
X
X
Var(X1 + . . . + Xn ) =
E(Xi Xj ) =
EXi2 +
EXi Xj
i
1≤i,j≤n
folgt die Aussage. Der letzte Teil folgt aus 1.6.5
i6=j
q.e.d.
Definition 1.6.10 (unkorreliert) Zwei Zgn X, Y heißen unkorreliert, falls Cov(X, Y ) = 0
gilt. Dies ist äquivalent zu E(XY ) = EXEY. Unabhängigkeit impliziert Unkorreliertheit, aber im
allgemeinen gilt nicht die Umkehrung.
Beispiel: Die Zg X nehme die Werte −2, −1, 1, 2 an mit jeweils derselben Wahrsch. 1/4. Dann
sind die Zgn X, X 2 unkorreliert, aber nicht unabhängig, (EX 3 = 0 = EXEX 2 , 1/4 = P (X =
2, X 2 = 4) 6= P (X = 2)P (X 2 = 4) = 1/8.)
38
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Merkregel: Die Covarianz ist eine symmetrische Bilinearform auf dem Raum der Zufallsvariablen mit zweitem endlichen Moment.
Interpretation
Der Erwartungswert gibt die durchschnittliche Größe einer Zufallsvariablen an (siehe auch den
Abschnitt über das schwache Gesetz der großen Zahl). Der Erwartungswert ist physikalisch der
Schwerpunkt einer Masseverteilung. Legen wir auf jede reelle Zahl x die physikalische Masse P ({x})
eines W-Maße P, so ist der Erwartungswert exakt der Schwerpunkt aller dieser Massen, d.h.
wir können die gewichtete Zahlengerade genau in diesem Punkt auf eine Spitze stellen, und die
gewichtete Zahlengerade bleibt im Gleichgewicht.
Die Varianz ist eine Kenngröße für die Streuung des W-maßes (Masse). Je größer die Varianz,
desto mehr Streuung. Der Extremfall Var(X) = 0 von Varianz Null entspricht keiner Streuung,
die Zufallsvariable X nimmt nur einen einzigen Wert X ≡ EX an. Mit wachsender Varianz
streuen die Realisierungen immer stärker um den Erwartungswert. Die Kovarianz Cov(X, Y ) zweier
Zufallsvariabler ist eine Kenngröße für lineare Abhängigkeit der Zgn X und Y . Üblicherweise wird
der Korrelationskoeffizient
Cov(X, Y )
∈ [−1, 1],
ρX,Y =
σX σY
p
p
die Kovarianz bereinigt um die Streuungen σX = Var(X),σY = Var(Y ), bevorzugt. Positive Korrelation zeigt eine Tendenz zu gleichen Vorzeichen für die zentrierten Zgn X, Y, negative Korrelation zeigt eine Tendenz zu ungleichenVorzeichen. Die Extremfälle sind ρ = 1 falls
X − EX = a(Y − EY ) für ein a > 0 und ρ = −1 falls a < 0.
r
r
Y
r
Y
Y
r
6
6
6
r
r
r
r
r
r
r
r
r
r
r
r
X
X
X
r
r
r
r
r
Die Bilder zeigen positive Korrelation, keine Korrelation und negative Korrelation. Die Extremwerte des Korrelatioskoeffizienten ρ sind ρ = 1 und ρ = −1. Diese Fälle entsprechen X − EX =
a(Y − EY ) für ein a > 0 bzw. a < 0. Dies ist eine Konsequenz aus der Cauchy-Schwarz Ungleichung.
1.6.4
Konvergenzsätze
Eine Zg mit Wertebereich IR = IR ∪ {−∞, ∞} heißt erweitert.
Satz 1.6.11 (Monotone Konvergenz) Sei Xn , n ∈ IN, eine steigende (fallende) Folge von erweiterten Zgn und sei EX1 > −∞ (EX1 < ∞.) Dann gilt
E lim Xn = lim EXn .
n
n
Beweis: Sei X = limn Xn . Die Aussage folgt (Übung) aus
P
ω (X(ω)
− Xn (ω))P (ω) → 0.
Bemerkung: Ein Spezialfall ist: Sei An eine gegen A aufsteigende (oder absteigende) Folge von
Ereignissen. Dann gilt
P (An ) % P (A).
Beachte E11B = P (B).
Lemma 1.6.12 (Lemma von Fatou) Sei Xn , n ∈ IN, eine Folge erweiterter Zgn. Sind die Xn
gleichmäßig nach unten beschränkt durch eine integrierbare Funktion, so gilt
lim inf EXn ≥ E lim inf Xn .
39
Uwe Rösler
SS12
1.7
Integrationstheorie
Sind die Xn gleichmäßig nach oben beschränkt durch eine integrierbare Zg, so gilt
lim sup EXn ≤ E lim sup Xn .
Beweis:Definiere Un := inf i≥n Xi . Die Folge Un , n ∈ IN, konvergiert aufsteigend gegen lim inf n Xn .
Mit dem Satz von der monotonen Konvergenz erhalten wir
EXn ≥ EUn %n E lim inf Xn .
n
Für die zweite Aussage betrachte die Folge −Xn und beachte lim inf(−Xn ) = − lim sup Xn .q.e.d.
Satz 1.6.13 (Dominierte Konvergenz) Sei Xn , n ∈ IN, eine konvergente Folge von erweiterten Zgn. Weiterhin gebe es ein Y mit E|Y | < ∞ und |Xn | ≤ Y für alle n ∈ IN . Dann gilt
lim EXn = E lim Xn .
n
Beweis: Dies ist eine Folgerung aus dem Lemma von Fatou. Sei X der Grenzwert der Folge (Xn )n .
Sei Un := inf k≥n Xk und Vn := supk≥n Xk . Die Folge Un ist punktweise aufsteigend gegen X und
die Folge Vn (punktweise) absteigend dagegen. Der Satz von der monotonen Konvergenz liefert
limn EUn = EX = limn EVn . Damit
EX = lim inf EUn ≤ lim inf EXn ≤ lim sup EXn ≤ lim sup EVn = EX.
n
n
n
n
q.e.d.
Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = IN versehen mit dem
W-maß P (i) = c/i2 mit c geeignet. Sei Xn (i) := i11i≥n . Es gilt limn Xn ≡ 0,
lim EXn = ∞ > E lim fn = 0.
n
n
Der Satz von der monotonen Konvergenz ist nicht anwendbar.
1.7
Integrationstheorie
Wir wollen den Erwartungswert allgemeiner Zgn definieren. Mathematisch führt dies auf eine
ordnungserhaltende, lineare und σ-stetige Fortsetzung I des W-maßes µ auf Funktionen.
Ein Maß µ fassen wir als eine Abbildung auf Indikatorfunktionen 11A auf, µ(11A ) = µ(A). Diese
Abbildung setzen wir linear fort zu einer Abbildung µ̃ auf der Menge T der Treppenfunktionen
P
n
i=1 ai 11Ai via
X
X
µ̃(
ai 11Ai ) =
ai µ(Ai ).
i
i
Damit ist die algebraische Erweiterung beendet.
Wir erweitern die Abbildung µ̃ zu I durch einen geeigneten Konvergenzbegriff via
I(f ) = lim I(fn )
n
mit fn konvergiert gegen f. Als Konvergenzbegriff benutzen wir Ordnungskonvergenz oder topologische Konvergenz.
Ordnungsstruktur Ein geeigneter Konvergenzbegriff auf den reellen Zahlen wird durch die Ordnungsstruktur geliefert, fn konvergiert aufsteigend punktweise gegen f .
Vektorraumstruktur Ein anderer gern gewählter Zugang ist es, T als Vektorraum zu betrachten,
mit einer Norm zu versehen, bezüglich dieser Norm abzuschließen und dann das Funktional I auf
den Abschluß von T stetig zu erweitern.
40
Elementare Wahrscheinlichkeitstheorie
1.7.1
SS12
Uwe Rösler
Algebraische Erweiterung
Eine Treppenfunktion ist eine meßbare Abbildung f : Ω 7→ IR mit endlich vielen Werten. Eine
Treppenfunktion f ist stets eindeutig darstellbar in der Standarddarstellung als Treppenfunktion
N
X
an 11f −1 (an ) .
n=1
Hierbei sind a1 , ..., aN ∈ IR die angenommenen Werte.
Sei T = T (Ω, IR) die Menge der Treppenfunktionen. Dies ist ein Vektorraum. (Nachrechnen).
Dieser Vektorraum wird linear aufgespannt von den Indikatorfunktionen 11A , A ∈ A.
Wir betrachten den positiven Kegel T + = T (Ω, IR+ ).
Proposition 1.7.1 Die Funktion I : T + 7→ IR definiert durch
I(f ) :=
N
X
an µ(f −1 (an ))
(1.5)
n=1
ist eine additive, skalare und isotone Funktion mit I(0) = 0.
Beweis: I ist wohldefiniert, da die Standarddarstellung eindeutig ist.
• Additivität.
Seien αi , βj die möglichen Werte von f bzw. g.
I(f + g)
=
X
=
X
(αi + βj )µ(f −1 (αi ) ∩ g −1 (βj ))
=
XX
an µ((f + g)−1 (an )) =
n
X
n
an
X
11αi +βj =an µ(f −1 (αi ) ∩ g −1 (βj ))
i,j
i,j
i
αi µ(f −1 (αi )) ∩ g −1 (βj )) +
j
XX
i
βj µ(f −1 (αi )) ∩ g −1 (βj )) = I(f ) + I(g)
j
Die Skalarität und Isotonie sind einfach.
q.e.d.
Hintergrund Ordnungsstruktur
Sei A eine Menge. Eine Relation ist eine Teilmenge R von A × A. Die Komposition oder
Verknüpfung zweier Relationen R, Q ist gegeben durch
R ◦ Q =: {(a, c) | ∃b ∈ A : (a, b) ∈ R, (b, c) ∈ Q}.
Das Inverse einer Relation ist R−1 := {(b, a) | (a, b) ∈ R}. Eine Relation heißt reflexiv, falls
die Relation die Diagonale {(a, a) | a ∈ A} enthält. Eine Relation heißt symmetrisch, falls die
Relation gleich ihrer Inversen ist. Eine Relation heißt antisymmetrisch, falls der Durchschnitt
der Relation mit der Inversen genau die Diagonale ist. Eine Relation heißt transitiv, falls die
Relation unter Komposition abgeschlossen ist (R ◦ R ⊂ R).
Eine Teilordnung oder partielle Ordnung oder Ordnung auf einer Menge A ist eine reflexive,
antisymmetrische und transitive Relation. Wir schreiben a b für (a, b) ∈ R und sprechen von b
dominiert oder majorisiert a oder auch b ist größer als a. Analog benutzen wir Minorante
und kleiner. Ein Tupel (A, ) heißt geordnete Menge .
Sei (A, ) eine partielle Ordnung. Ein Element a ∈ A heißt obere Schranke von B ⊂ A falls
b ≤ a für alle b ∈ B gilt. Eine Menge B ⊂ A heißt nach oben (unten) beschränkt, falls es eine
obere (untere) Schranke von A gibt. Wir sprechen von einer kleinsten oberen Schranke a von
B falls a eine obere Schranke
W ist und für alle anderen oberen Schranken x gilt a ≤ x.
Notation: a = supb∈B b = b∈B b.
Eine kleinste obere Schranke a heißt Maximum von B, falls zusätzlich a ∈ B gilt.
41
Uwe Rösler
SS12
1.7
Integrationstheorie
Notation: x = maxb∈B b.
V
Analog verwenden wir das Infimum inf b∈B = b∈B b und Minimum.
Notation: a ∨ b := sup{a, b}
a ∧ b := inf{a, b}.
Ein Verband ist eine geordnete Menge abgeschlossen bzgl. endlichem Supremum und endlichem
Infimum. Wir schreiben (A, ≺, ∧, ∨) in der Notation wie oben. Ein Verband heißt von oben (unten) vollständig falls jede nach oben (unten) beschränkte Teilmenge ein Supremum (Infimum)
besitzt. Er heißt vollständig, falls er von unten und oben vollständig ist. Analog verwenden wir
σ-vollständig falls jede beschränkte abzählbare Menge ein Supremum und Infimum besitzt.
Eine isotone Funktion ist eine ordnungserhaltende Funktion. Eine isotone Funktion f heißt von
unten σ-stetig, falls für jede aufsteigende abzählbare Folge an ∈ M mit supn an ∈ M gilt
∨n f (an ) = f (∨n an ). Analog verwenden wir von oben σ-stetig und σ-stetig für beides.
Bemerkung: Jeder Verband läßt sich σ-vervollständigen, (von unten, von oben, vervollständigen).
Darunter verstehen wir eine kleinste, ordnungserhaltende und injektive Einbettung des Verbandes in einen σ-vollständigen (von unten, von oben, vollständigen) Verband. Bis auf Isomorphie
(ordnungserhaltende Bijektion) ist diese eindeutig. (Keine Übung: Dies ist eine mathematische
Standardkonstruktion. Z.B. lassen sich so die reellen Zahlen aus den rationalen Zahlen konstruieren.) Weiterhin: jede isotone, von unten σ-stetige Abbildung I : V 7→ IR ∪ {∞} läßt sich eindeutig
von unten σ-stetig fortsetzen auf die σ-Vervollständigung des Verbandes durch
˜ = lim I(vn ).
I(v)
n
Hierbei ist vn ∈ M, n ∈ IN, eine Folge mit vn %n v. Dies bildet den abstrakten Hintergrund
unserer folgenden Argumentation.
Bemerkung: Eine σ-Algebra ist ein Verband mit der Ordnung induziert durch Enthalten, A ≺
B ⇔ A ⊂ B, A∨B = A∪B, A∧B = A∩B. Dieser Verband ist vollständig. Ein Maß ist von unten σstetig, eine endliches Maß sogar σ-stetig. Der Satz von Caratheodory ist die σ-stetige Erweiterung
einer σ-stetigen, additiven und isotonen Abbildung auf einem Verband. Der Ring (=Verband) wird
erweitert zur σ-Algebra (Verbandsvervollständigung) und das Prämaß zum Maß.
Integrale über Ordnungsstruktur
Der Raum der reellwertigen, positiven, erweiterten Treppenfunktionen T + = T (IR+ ) versehen mit
der punktweisen Ordnung ist ein Verband. Die Vervollständigung von T + bzgl. σ-Stetigkeit von
unten ist der Raum F(IR+ ) der erweiterten reellwertigen, meßbaren und positiven Funktionen. Zu
+
gegebener Funktion f ∈ F konvergieren die Treppenfunktionen fn
n
fn (x) :=
n2
X
i
i+1
11 i
n 2n ≤f (x)< 2n
2
i=0
von unten gegen f.
Proposition 1.7.2 Die Funktion I : T + 7→ IR+ definiert durch (1.5) ist eine lineare, skalare,
isotone, von unten σ-stetige Funktion. Die Abbildung I eingeschränkt auf I −1 (IR) ist σ-stetig.
Beweis: Die Wohldefiniertheit, Linearität, Skalarität, Isotonie wurde in Proposition 1.7.1 gezeigt.
Für die σ-Stetigkeit von unten betrachte eine aufsteigende Folge fn % f aus T + . Seien 0 = a1 <
a2 < ... < an die Werte von f und Ai = f −1 (ai ).
• I(fn 11Ai ) % I(f 11Ai ) für alle i = 1..n.
Dies fogt aus der σ-Stetigkeit des Maßes,
ai µ(Ai ) ≥ I(fn 11Ai ) ≥ (a − )µ(Ai ∩ {fn ≥ a − }) →n (ai − )µ(Ai )
mit geeignetem . Mit →n 0 erhalten wir die Teilbehauptung.
42
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
• σ-Stetigkeit von unten.
Zu zeigen ist I(fn ) % I(f ).
I(fn ) =
X
I(fn 11Ai ) %
X
i
I(f 11Ai ) = I(f ).
i
• I eingeschränkt auf I −1 (IR) ist σ-stetig.
Für eine Folge fn & f ∈ T + betrachte f1 − fn % f1 − f und argumentiere wie oben.
q.e.d.
Satz 1.7.3 Die additive und von unten σ-stetige Fortsetzung I eines Maßes auf F(IR+ ) wird
gegeben durch I˜ : F(IR+ ) 7→ IR+
˜ ) = lim I(fn ).
I(f
+
T 3fn %f
Die Fortsetzung ist eindeutig, additiv, skalar, isoton und σ-stetig von unten. Die Fortsetzung I˜
eingeschränkt auf I˜−1 (IR) ist σ-stetig.
Beweis: Das Maß setzt sich linear auf den Raum T + der positiven Treppenfunktionen fort (1.5).
Diese ist eindeutig. T + ist ein Verband und die Fortsetzung I ist σ-stetig von unten, Proposition
1.7.2. Der Abschluß von T + bzgl. σ-Vollständigkeit von unten ist F(IR+ ).
• I˜ ist wohldefiniert.
Seien fn und gm zwei monoton gegen f aufsteigende Folgen von Treppenfunktionen. Dann gilt
lim I(fn ) ≥ lim I(fn ∧ gm ) ≥ lim I(gm ).
n
n
m
Die rechte Seite ist aus Symmetriegründen ≥ limn I(fn ). Die Sandwichposition ergibt limn I(fn ) =
limm I(gm ).
• I˜ ist σ-stetig.
+
Sei F 3 fn % f. Seien T + 3 fi,n %i fn . Dann konvergieren die Treppenfunktionen gn :=
W
i≤n fi,n ≤ fn isoton gegen f. Aus der Sandwichposition
I(f ) = lim I(gn ) ≤ lim I(fn ) ≤ I(f ).
n
ergibt sich die Behauptung.
• Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig.
Verwende σ-Stetigkeit von unten und fn & f ⇔ f1 − fn % f1 − f.
Zu zeigen bleiben die Eindeutigkeit der Fortsetzung und die algebraischen Eigenschaften Additivität und Skalarität. Dies ist einfach.
q.e.d.
Jede Funktion f : Ω 7→ IR hat eine eindeutige Zerlegung f = f + −f − mit f + := f ∨0, f − = (−f )+ .
˜ + ) oder I(f
˜ − ) endlich. Erweitere
Sei Fe der Raum alle meßbaren erweiterten Funktionen f mit I(f
˜
I auf Fe durch
˜˜ ) := I(f + ) − I(f − ).
I(f
Dies Objekt nennen wir Integral bzw. genauer Lebesgueintegral.
Dies ist (fast) der allgemeinste Integralbegriff.
Gebräuchliche Notationen für das Integral I˜˜ sind
Z
Z
Z
Z
˜˜ ) =: µ(f ) =: f (ω)dµ(ω) =:
I(f
f (ω)µ(dω) =: f dµ =: f.
Ω
Weitere Notationen sind
Z
Z
f dµ :=
A
43
f 11A dµ.
Uwe Rösler
SS12
1.7
Integrationstheorie
Speziell auf IR verwenden wir
b
Z
Z
f dµ :=
a
f dµ.
(a,b]
Hat µ keine Punktmaße (µ(x) = 0∀x ∈ IR), so benutzen wir auch
Z b
Z
Z a
f dµ :=
f dµ =: −
f dµ.
a
[a,b]
b
Ist µ das Lebesguemaß λ auf IR so schreiben wir
Z
Z
f (x)λ(dx) = f (x)dx.
R
Eine integrierbare Funktion f ist eine meßbare Funktion mit endlichem Wert |f |dµ < ∞. Der
Raum L1 der integrierbaren Funktionen ist ein Vektorraum.
R
Korollar 1.7.4 Das Integral : L1 7→ IR ist linear, skalar, isoton und σ-stetig.
Beispiel: Sei µ ein Maß und g ≥ 0 eine meßbare Funktion. Dann ist die Mengenfunktion ν : A 7→
IR, definiert durch
Z
ν(A) :=
g dµ,
A
ein Maß.
Notation dν = gdµ oder auch ν = gµ.
Beispiel: Wir betrachten ein W-Maß µ auf (IR, B). Die zugehörige Verteilungsfunktion F sei stetig
differenzierbar. Die Behauptung ist
Z
Z
dF
g(x)dµ(x) = g(x)
(x)dx
dx
für alle integrierbaren Funktionen g. Die Behauptung ist richtig für eine Treppe 11A . Da beide
Seiten additiv und σ-stetig sind, gilt Gleichheit für alle positiven meßbaren Funktionen. Dann
aber auch für alle integrierbaren Funktionen.
1.7.2
Konvergenzsätze
R
Sei
R E Rbzw. das oben definierte Integral für einen beliebigen Maßraum (Ω, A, µ). Wir benutzen
f = f dµ. Es gilt der Satz von der monotonen Konvergenz. Dies ist genau die σ-Stetigkeit des
Integrals. Als Folgerungen erhalten wir den Satz von Fatou und den Satz von der dominierten
Konvergenz.
Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = (0, 1] versehen mit
der Borel σ-Algebra und dem Borelmaß λ. Sei fn := n11(0,1/n] . Es gilt limn fn =≡ 0,
Z
Z
lim fn dλ = 1 > lim fn dλ = 0.
n
Der Satz über dominierte Konvergenz ist nicht anwendbar.
1.7.3
Transformationssatz
Satz 1.7.5 (Transformationssatz) Sei (Ω, A, µ) ein Maßraum und (Ω0 , A0 ) ein meßbarer Raum.
Sei T : Ω 7→ Ω0 eine meßbare Abbildung. Dann gilt für meßbare Funktionen f 0 : Ω0 7→ IR, sofern
eine Seite wohldefiniert ist,
Z
Z
f 0 dT µ =
Ω0
f 0 ◦ T dµ.
Ω
44
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Beweis: Die Aussage ist leicht nachzurechnen für f 0 = 11A0 , A0 ∈ A0 . (Übung). Beide Seiten sind
lineare, σ-stetige Fortsetzungen (einer Mengenfunktion). Diese sind eindeutig.
q.e.d.
Beispiel: Sei T eine stetig differenzierbare Funktion mit strikt positiver Ableitung T 0 , T µ das
Lebesguemaß und f 0 = g. Es gilt die Transformationsformel mit y = T (x), g integrierbar,
Z
Z
g(y)
dy
=
g(T (x))dx.
T 0 (T −1 (y))
Hierbei ist das Maß µ gegeben durch
Z
(µ)(A) =
T 0 (T −1 (y))dy.
A
Für genauere Rechenregeln siehe Lehrbücher über Differential und Integralrechnung.
Fubini
0
0
Seien (Ω, A)
Ω×Ω0 sei versehen mit der Produkt σNund0 (Ω , A ) meßbare Räume. Der Produktraum
0
Algebra A A , erzeugt von den Rechteckmengen A×A . Der Schnitt Aω einer Menge A ⊂ Ω×Ω0
'
$
A
Ax
x
ist die Menge {ω 0 ∈ Ω0 | (ω, ω 0 ) ∈ A}.
&
%
Analog benutzen wir Aω0 (obwohl dies ein Notationsmißbrauch ist.) Jeder Schnitt einer meßbaren
Menge ist wieder meßbar (Übung).
N
Proposition 1.7.6 Sei µ0 ein σ-endliches Maß auf (Ω0 , A0 ) und A ∈ A A0 . Die Abbildung
ϕA : Ω 7→ IR
ω 7→ µ0 (Aω )
N 0
ist meßbar für alle A A meßbaren Mengen A.
Beweis: Sei µ0 ein endliches Maß. Betrachte
D := {A ∈ A × A0 | ϕA meßbar}.
Es gilt D = A0 . D ist ein Dynkinsystem. Beachte ϕA\B = ϕA − ϕB und ϕS
◦
n
An
=
P
n
ϕAn .
Weiterhin enthält D den durchschnittstabilen Erzeuger aller Produktmengen.
Sei µ0 ein σ-endliches Maß. Dann gibt es eine gegen Ω0 aufsteigende Folge Kn ∈ A0 mit µ0 (Kn ) < ∞.
Dann argumentiere ϕA = limn ϕA∩Kn .
q.e.d.
0
Proposition 1.7.7 Seien
N µ 0und µ σ-endliche Maße. Dann gibt es genau ein Maß ν auf dem
0
Produktraum (Ω × Ω , A A ) mit
ν(A × A0 ) = µ(A)µ0 (A0 ).
Dies wird gegeben durch
Z
ν(A) =
Z
0
µ (Aω )dµ(ω) =
45
µ(Aω0 )dµ0 (ω 0 ).
Uwe Rösler
SS12
1.7
Integrationstheorie
Beweis: Beide Integrale sind wohldefiniert, sind Maße und erfüllen die geforderte Eigenschaft.
Für µ, µ0 endliche Maße stimmen beide Integrale überein, für σ-stetige folgt die Gleichheit durch
Approximation.
q.e.d.
Notation: Wir bezeichnen das Produktmaß ν mit µ × µ0 .
Sei f : Ω × Ω0 7→ IR eine Produkt meßbare Funktion. Dann sind die Schnitte f (ω, .) : Ω0 7→ IR
für alle ω ∈ Ω und f (., ω 0 ) : Ω 7→ IR meßbar. Beachte, der Schnitt zieht sich durch, (f −1 (B))ω =
f (ω, .)−1 (Bω ).
q.e.d.
Satz 1.7.8 (Fubini) Seien µ, µ0 σ-endliche Maße. Dann gilt
Z
Z Z
f (ω, ω 0 )d(µ × µ0 )(ω, ω) = (
f (ω, ω 0 )dµ0 (ω 0 ))dµ(ω).
Ω×Ω0
Ω
Ω0
Beweis: Wir betrachten f ≥ 0. Der Satz gilt für eine Treppe a11A , für eine Treppenfunktion
und dann per monotoner Konvergenz für meßbare Funktionen. Die Ausdehnungen sind jeweils
eindeutig.
q.e.d.
Die σ-Endlichkeit ist wichtig. Als Beispiel betrachten wir µ das Lebesguemaß und µ0 das Zählmaß
auf dem Einheitsintervall. Die Funktion f (x, y) = 11x=y ist meßbar. Es gilt
Z Z
Z Z
0
( f (x, y)dµ(x))dµ (y) = 0
( f (x, y)dµ0 (y))dµ(x) = 1.
Es gibt Möglichkeiten das Produktmaß auch für nicht σ-endliche Maße zu definieren. Jedoch
verliert man dann die Eindeutigkeit und die Vertauschbarkeit, vgl. Halmos [23] page 145, HahnRosenthal SET FUCTIONS 1948 chap IV,§16.
46
Elementare Wahrscheinlichkeitstheorie
1.8
SS12
Uwe Rösler
Ungleichungen
Für Ungleichungen in der W-theorie gibt es im wesentlichen zwei Quellen, über monotone und
über konvexe Funktionen. Die erste Gruppe bilden Markoff Ungleichungen und die zweite beruhen
auf der Jensen Ungleichung.
Röslers Metatheorem:
Alle guten Integralungleichungen beruhen auf Monotonie oder Konvexität.
1.8.1
Tschebycheff-Markoff
Die folgenden Ungleichungen beruhen auf Monotonie.
Satz 1.8.1 (Tschebycheff-Markoff Ungleichung) Für jede Zg X und jede monoton steigende, positive Funktion ϕ auf den reellen Zahlen gilt
ϕ(a)P (X ≥ a) ≤ E(ϕ(X))
für alle reellen Zahlen a.
Beweis: Es gilt
Eϕ(X) ≥ Eϕ(X)11X≥a ≥ ϕ(a)E11X≥a = ϕ(a)P (X ≥ a).
Spezialfälle Eine beliebte Variation in der W-theorie ist eine monoton steigende positive Funktion ϕ auf den positiven Zahlen und die Abschätzung, a, ϕ(a) > 0
P (X ≥ a) ≤ P (|X| ≥ a) ≤
Eϕ(|X|)
.
ϕ(a)
Der Grundfall ist die Markoff Ungleichung , IR+ 3 x 7→ ϕ(x) = x,
P (X ≥ a) ≤ P (|X| ≥ a) ≤
E|X|
a
(1.6)
für a > 0. Allgemeiner gilt für p > 0
E|X|p
.
ap
Diese Ungleichungen verbessern sich in der Regel durch zentrieren
P (X ≥ a) ≤
P (X ≥ a) ≤ P (|X − EX| ≥ a − EX)
für a ≥ EX. Die Tschebycheff Ungleichung lautet
Var(X)
.
a2
Ferner wird gerne das exponentielle Moment benutzt, ϕ(x) = etx , t > 0
P (|X − EX| ≥ a) ≤
(1.7)
EetX
.
eta
Der positive Parameter t, der nur auf der rechten Seite erscheint, wird eventuell geeignet (als
Minimum) gewählt.
Bemerkung: – Es gilt für a > 0, X ≥ 0
P (X ≥ a) ≤
EX p
≤ inf Ees(X−a) .
p>0 ap
s>0
inf
(Übung: Reihenentwicklung!)
– Als Faustregel steigt die Güte der Ungleichung für kleine W-keiten mit der Höhe des (zentrierten)
Momentes (und fällt anschließend). Die exponentielle Abschätzung gibt zumindest asymptotisch
die richtige Größenordnung und ist in der Regel recht gut.
Die Tschebycheff-Markoff Ungleichungen haben zahlreiche Anwendungen.
47
Uwe Rösler
SS12
1.8
Ungleichungen
Beispiel
Bsp: Würfeln. Wie groß ist die W-keit bei tausendmaligem Würfeln eine Gesamtaugensumme
von mindestens 4000 zu erreichen.
Sei Xi die Augenzahl
des i-ten Wurfs. Diese Zgn sind unabhängig identisch verteilt. Wir schätzen
P1000
die Summe S := i=1 Xi auf verschiedene Weisen ab.
Die Tschebycheff Ungleichung ergibt
VarX
35/12
7
VarS
=
=
=
≈ 0, 0117.
5002
250
250
600
Mit dem vierten zentrierten Moment ergibt sich
P (S ≥ 4000) ≤ P (S − ES ≥ 500) ≤
18
E(S − ES)4
≤
≈ 0, 0003.
5004
62500
Zur Berechnung des 4-ten Momentes beachte
XXXX
E(S − ES)4 = E
(Xi − EXi )(Xj − EXj )(Xk − EXk )(Xl − EXl )
P (S ≥ 4000) ≤
i
=
X
i
j
k
l
X
4
E(Xi − EXi ) +
E 2 (Xi − EXi )2 ≤ 18 · 106 .
2
4
i6=j
Noch höhere Momente bringen etwas bessere Abschätzungen. Eine wesentlich bessere Abschätzung
liefert die exponentielle Ungleichung, allerdings richtig angewendet 1.8.2.
Bsp: Quicksort. Per Induktion lassen sich die exponentiellen Momente von Qn für Quicksort
abschätzen,
t(Qn −EQn )
2
n
≤ et K
Ee
für alle |t| ≤ L und K = K(L) ∈ IR [27]. Die exponentielle Abschätzung liefert
const(t)
n2t
für jedes t und n. Daher ist Quicksort zuverlässig. Mit hoher Wahrscheinlichkeit ist die Laufzeit
von Quicksort in der Größenordnung des Erwartungswertes.
Bsp: Weierstraßscher Approximationssatz: Der Approximationssatz von Weierstraß besagt,
jede stetige Funktion f auf einem Kompaktum K läßt sich gleichmäßig beliebig gut durch Polynome auf dem Kompaktum approximieren (∀∃P Polynom : supx∈K |f (x) − P (x)| < ).
Sei das Kompaktum das Einheitsintervall [0, 1]. Die Bernstein Polynome Bn (f )
n
X
k n k
Bn (f )(x) :=
f( )
x (1 − x)n−k
n k
P (Qn − EQn ≥ E|Qn |) ≤
k=0
zu f tun’s.
Sei x ∈ [0, 1]. Die Eigenschaft wird leichter ersichtlich aus der Darstellung Bn (f )(x) = E(f ( Snn ))
mit Sn eine Binomialverteilung Bin(n, x) zu den Parametern n und x.
Sei wδ := sup{|f (y) − f (z)| | y, z ∈ [0, 1], |y − z| < δ} der Stetigkeitsmodul der Funktion f .
wδ konvergiert mit δ → 0 gegen 0. (Gleichmäßige Stetigkeit einer stetigen Funktion auf einem
w1
Kompaktum.) Zu vorgegebenem wähle ein δ mit wδ < /2 und ein n mit 4nδ
2 < 2 . Dann gilt
Sn
))|
n
Sn
≤ E(|f (x) − f ( )|(11| Sn −x|<δ + 11| Sn −x|≥δ ))
n
n
n
w1 Var( Snn )
Sn
≤ wδ + w1 P (|
− x| ≥ δ) < +
n
2
δ2
w1 x(1 − x)n
≤
+
< .
2
n2 δ 2
Die Abschätzungen sind alle gleichmäßig in x.
|f (x) − Bn (f )(x)| = |E(f (x) − f (
48
q.e.d.
Elementare Wahrscheinlichkeitstheorie
1.8.2
SS12
Uwe Rösler
Exponentielle oder Hoeffding Ungleichung
Große Abweichungen:
Ziel des Gebietes großer Abweichungen (englisch: large deviation) ist die W-keit für großes Abweichen der n-ten Partialsumme von unabhängigen, P
identisch verteilten Zgn von ihrem Erwartungswert. Der Standardfall ist, X1 , X2 , . . . , Xn , Sn = i≤n Xi und betrachtet wird P ( Snn ≥ a) ≤? für
a > E(X1 ).
Sei µ̂(t) := E(etX ), t ∈ IR, die Laplacetransformierte der Zg X mit Verteilung µ. Der Einfachheit halber sei µ̂(t) stets endlich und X keine Konstante. (Dies impliziert u.a. Dt µ̂(t) = E(Xe−tX )
und Dt Dt µ̂(t) = E(X 2 etX ).)
Definiere die Cramér Transformierte (auch Fenchel-Legendre Transformierte) Iµ : IR 7→ [−∞, 0],
Iµ (x) := inf (ln µ̂(t) − xt).
t≥0
Iµ (x) ist wohldefiniert, da t 7→ ϕx (t) = ln µ̂(t) − xt 0 wird für t = 0.
• Das Infimum in t wird angenommen in t = 0 für x ≤ E(X) und ansonsten für ein t > 0.
Hierzu zeigen wir zuerst: Die Funktion t 7→ ϕx (t) ist eine konvexe Funktion. (Sogar eine strikt
konvexe Funktion.)
ϕx (0)
=
1
EXetX
−x
Dt ϕ(t) =
µ̂(t)
E(X 2 etX ) E 2 (XetX )
Dt Dt ln µ̂(t) =
−
µ̂(t)
µ̂2 (t)
1
=
(E(eXt )E(X 2 etX ) − E 2 (XetX ) ≥ 0
µ̂2 (t)
ist positiv wegen der Cauchy-Schwarz Ungleichung ?? angewandt auf die Funktionen etX/2 und
XetX/2 .
Die konvexe Funktion ϕx , ist 0 in t = 0 und hat die Ableitung
EXetX Dt (ln µ̂(t) − xt)t=0 =
− x = EX − x
µ̂(t) t=0
im Punkt 0. Das Infimum wird angenommen in t = 0 für x ≤ EX und für ein strikt positives
t > 0 im Fall x > EX.
Satz 1.8.2 (Große Abweichungen) Sei n P
∈ IN und seien X1 , . . . , Xn unabhängige Zgn mit
Verteilung µ. Dann gilt für reelle a und Sn = i≤n Xi
P (Sn ≥ an) ≤ enIµ (a) .
Beweis: Mit der exponentiellen Markoff Ungleichung erhalten wir für alle t ≥ 0
EetSn
etna
ln E n (etX ) − nta = n(ln µ̂(t) − ta).
ln P (Sn ≥ na) ≤ ln
=
Durch Infimumsbildung über alle t folgt die Aussage.
q.e.d.
Bem: Nur der Fall a > EX ist interessant.
Eine ähnliche Ungleichung erhalten wir für P (Sn ≤ na) aus Symmetrieüberlegungen durch Übergang von X → −X.
Die Crámer Transformierte ist in der Regel schwer zu berechnen. Daher die gröbere, aber handlichere Abschätzung von Hoeffding.
49
Uwe Rösler
SS12
1.8
Ungleichungen
Lemma 1.8.3 Sei a ≤ X ≤ b eine zentrierte Zg. Dann gilt für alle reellen Zahlen t ∈ IR
EetX ≤ e
t2 (b−a)2
8
.
−a
b
Beweis: Sei OEdA t ≥ 0. Beachte a ≤ 0 ≤ b und p := b−a
, q := 1 − p = b−a
.
tX
tb
ta
• Ee ≤ pe + qe
Sei a ≤ x ≤ b. Aus der Konvexität der exponentiellen Funktion x 7→ ext für festes t ≥ 0 folgt
etx ≤
x − a tb b − x ta
e +
e .
b−a
b−a
Setze für x die Zg X ein und integriere.
u2
• petb + qeta = (q + peu )e−pu ≤ e 8 mit u := t(b − a).
Die erste Gleichung rechnen wir nach. Für die Ungleichung zeigen wir für die Funktion f (u) :=
u2
u
0
00
8 + pu − ln(q + pe ) die hinreichenden Eigenschaften f (0) = 0, f (0) = 0, f (u) ≥ 0. Es gilt
q
u
0
f (u) = 4 + p − 1 + q+peu und
f 00 (u) =
(q − peu )2
pqeu
1
=
−
≥ 0.
4 (q + peu )2
4
Die Eigenschaften sind erfüllt.
q.e.d.
Satz 1.8.4 (Hoeffding) Seien die unabhängigen Zufallsvariablen X1 , . . . , Xn zentriert und beschränkt ai ≤ Xi ≤ bi für alle i. Dann gilt für die n-te Partialsumme Sn und jede positive reelle
Zahl c > 0
2c2
).
P (Sn ≥ c) ≤ exp(− P
2
i≤n (bi − ai )
Beweis: Die exponentielle Ungleichung für ein positives t ergibt
P (S ≥ c) ≤
≤
Y
EetS
= e−tc
EetXi
tc
e
i
Y t2 (bi −ai )2
t2 d
8
e−tc
e
= e 8 −tc
i
mit d := i (bi − ai )2 . Die linke Seite ist unabhängig von t. Die rechte Seite als Funktion in t wird
minimiert für t = 4c/d ≥ 0. Mit diesem Wert erhalten wir die Abschätzung.
q.e.d.
P
Aus Symmetriegründen erhalten wir die Abschätzung
P (S ≤ −c) ≤ e
−P
i
2c2
(bi −ai )2
und für den Betrag der Summe
P (|S| ≥ c) ≤ 2e
−P
i
2c2
(bi −ai )2
.
Beispiel
Würfeln: Die Hoeffding Ungleichung auf obige Fragestellung “Wie groß ist die W-keit bei tausendmaligem Würfeln eine Augensumme von mindestens 4000 zu erreichen” angewandt, ergibt
2·5002
P (S1000 ≥ 4000) = P (S1000 − ES1000 ≥ 500) ≤ e− 1000·25 = e−20 ≈ 2 · 10−9 .
Diese Abschätzung mit der Hoeffding Ungleichung ist wesentlich besser als diejenigen mit der
Markoff oder Tschebycheff Ungleichung.
50
Elementare Wahrscheinlichkeitstheorie
1.8.3
SS12
Uwe Rösler
Jensen Ungleichung
Definition 1.8.5 (konvex) Eine reellwertige Funktion ϕ auf einem Intervall heißt konvex, falls
für alle x 6= y aus dem Intervall und alle t ∈ (0, 1) gilt
ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y).
ϕ heißt strikt konvex, falls in obiger Ungleichung stets strikt kleiner gilt.
Satz 1.8.6 (Jensen Ungleichung) Für jede konvexe reellwertige Funktion ϕ : IR 7→ IR und jede
reellwertige Zg X gilt
E(ϕ(X)) ≥ ϕ(E(X)),
vorausgesetzt die Erwartungen sind wohldefiniert. Ist ϕ strikt konvex, X keine Konstante mit
Wahrscheinlichkeit 1 und die |Eϕ(X)| endlich, so gilt strikt größer in der Ungleichung.
Beweis: Sei l eine lineare Funktion mit l ≤ ϕ und l(x0 ) = ϕ(x0 ) für x0 = EX. (Für eine
differenzierbare Funktion ϕ nehme l(x) = ϕ0 (x0 )(x − x0 ) + ϕ(x0 ) ≤ ϕ(x).) Argumentiere
E(ϕ(X)) ≥ E(l(X)) = l(E(X)) = ϕ(E(X)).
Ist ϕ strikt konvex, so gilt l(x) < ϕ(x) für alle x 6= x0 .
q.e.d.
Falscher Effee
Merkregel:
Bsp: Lottospiel. In einem Lottospiel, z.B. 6 aus 49 (Laplaceraum), wird der gesamte Einsatz,
jeweils eine Einheit pro Lottozettel, zu gleichen Teilen auf alle Gewinner, die 6 richtige haben,
aufgeteilt. Falls keiner gewinnt, bekommt der Staat alles. Mit folgender Strategie können Sie hier
Geld gewinnen, zumindest im Erwartungswert. Tippen Sie jeden Tip genau einmal. Sie erhalten
+M
den Gewinn N
SN +1 . Hierbei ist N die Anzahl der anderen teilnehmenden Spieler (eine Konstante,
wenn auch unbekannt) und M die Anzahl der eigenen abgegebenen Tipps. SN ist die Summe von
Bernoulliverteilten Zgn Xi , 1 ≤ i ≤ N. Die Interpretation von Xi = 1 ist: der i − te Tip gewinnt.
1
Beachte P (Xi = 1) = M
. Damit
E
N +M
N +M
≥
= M.
SN + 1
ESN + 1
Strikte Ungleichheit gilt für SN keine Konstante. Der Gewinn ist im Erwartungswert positiv.
Bsp: Momentenabschätzung. Die Funktion ϕ(x) = |x|p ist konvex für p ≥ 1. Die Jensen
Ungleichung ergibt E|X|p ≥ E p |X|.
Die Ungleichungen gelten mit umgekehrter Richtung für konkave Funktionen. Eine Funktion ϕ ist
konkav genau dann, wenn −ϕ konvex ist.
Bsp: Entropie. Die Entropie eines diskreten W-mas̈es P auf einem endlichen Stichprobenraum
Ω wird definiert durch
X
1
H(P ) :=
P (ω) ln
.
P (ω)
ω∈Ω
Die Entropie ist stets positiv und die Entropie eines Punktmaßes ist 0.
Proposition 1.8.7 Die gleichmäßige Verteilung auf einem endlichen Stichprobenraum hat die
größte Entropie unter allen W-maßen darauf.
Beweis: Der Stichprobenraum habe n Elemente. Sei Q die Gleichverteilung und P irgendeine
andere Verteilung.
H(P ) − H(Q) =
X
ω
P (ω) ln
X1
X
X
1
1
1
−
ln n =
P (ω) ln
≤ ln(
P (ω)
) = 0.
P (ω)
n
nP
(ω)
nP
(ω)
ω
ω
ω
q.e.d.
51
Uwe Rösler
SS12
1.8
Ungleichungen
Interpretation: Die Entropie einer Verteilung hat die Interpretation eines Informationsgehalts,
den eine Zg zu dieser Verteilung besitzt. Für Punktmaße ist die Ungewissheit 0, denn eine Zg mit
dieser Verteilung liefert die genaue Verteilung. Die grös̈te Ungewissheit besteht, falls Gleichverteilung vorliegt. Wenn wir nichts wissen, sprechen wir von einer fifty-fifty Chance. Dies ist die größte
vorstellbare Ungewissheit.
Warnung: Die Jensen Ungleichung gilt für W-maße, aber nicht für Maße allgemein.
Mehrere interessante Ungleichungen folgen aus der Jensen Ungleichung in folgender verallgemeinerten Form:
Korollar 1.8.8 (Jensen) Sei ϕ eine konvexe Funktion und µ ein
R Maß auf den reellen Zahlen.
Seien f, g meßbare Funktionen und sei g > 0 punktweise und 0 < gdµ < ∞. Dann gilt, Wohldefiniertheit vorausgesetzt,
R R
gϕ(f /g)
f
R
ϕ R
≤
.
g
g
R
R
Beweis: Durch ν(A) := a1 A gdµ, A ∈ A, und a := gdµ wird ein W-maß ν definiert. Die
Jensenungleichung ergibt
Z
Z
f
f
linke Seite = ϕ
dν ≤ ϕ( )dν = rechte Seite
g
g
Normungleichungen
Definition 1.8.9 (Norm) Die Abbildungen k · kp , 1 ≤ p ≤ ∞,
kXkp := (E(|X|p ))1/p ,
1≤p<∞
kXk∞ := inf{a ∈ IR | P (|X| > a) = 0}
von Zgn in die erweiterten rellen Zahlen heißen Lp -Norm. Beachte für diskrete W-räume
kXk∞ = sup{|X(ω)| | P (ω) > 0}.
Satz 1.8.10 (Hölder Ungleichung) Für Zgn X, Y und reelle Zahlen 1 ≤ r, p, q ≤ ∞ mit
1
1
p + q gilt die Ungleichung
kXY kr ≤ kXkp kY kq .
1
r
=
Im Falle 1 < p, q < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder |X|p kY kqq =
|Y |q kXkpp mit Wahrsch. 1 gilt.
Beweis: Den Wert 1/∞ interpretieren wir konventionell als 0.
• Der Satz gilt für kXkp = 0 oder kY kq = 0.
Die Bedingungen implizieren X ≡ 0 oder Y ≡ 0 mit W-keit 1. Damit ist XY = 0 mit W-keit 1.
• Der Satz gilt für p = ∞ oder q = ∞.
Aus Symmetriegründen sei p = ∞. Es folgt q = r.
kXY krr = E|XY |r ≤ inf{ar | P (X > a) = 0}E|Y |r = kXkr∞ kY krr .
• Der Satz gilt für 1 ≤ p, q < ∞.
Die exponentielle Funktion ist konvex, d.h. ∀x, y ∈ IR, t ∈ [0, 1]:
etx+(1−t)y ≤ tex + (1 − t)ey .
(1.8)
|Y (ω)|
Das Einsetzen der speziellen Werte t := pr , 1 − t = rq , x = p ln |X(ω)|
kXkp , y = q ln kY kq ergibt
|X(ω)Y (ω)|
kXkp kY kq
r
≤
r
p
|X(ω)|
kXkp
52
p
+
r
q
|Y (ω)|
kY kq
q
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
für jede Realisierung ω. Durch Übergang zum Erwartungswert auf beiden Seiten erhalten wir die
Aussage
r
r
|X(ω)Y (ω)|
r
≤ + = 1.
E
kXkp kY kq
p q
Gleichheit gilt, falls in Gleichung 1.8 Gleichheit gilt für alle Realisationen ω ∈ Ω bis auf eine Menge
vom Mas̈ Null. Dies ist äquivalent (die exponentielle Funktion ist strikt konvex) zu x = y oder
t = 0 bzw. t = 1. Hiervon verbleibt in unserem Setting nur x = y, was zu
|Y (ω)|q
|X(ω)|p
p =
kXkp
kY kqq
führt.
q.e.d.
Satz 1.8.11 (Minkowski Ungleichung) Es gilt für 1 ≤ p ≤ ∞
kX + Y kp ≤ kXkp + kY kp .
Im Falle 1 ≤ p < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder X und Y
positive Vielfache mit Wahrsch. 1 voneinander sind.
Beweis: Sei oEdA kX + Y kp > 0.
• Der Fall p = ∞ ist einfach,
kX+Y k∞ = inf{a | P (|X+Y | > a) > 0} ≤ inf{b | P (|X| > b) > 0}+inf{c | P (|Y | > c) > 0} = kXk∞ +kY k∞ .
• Für 1 ≤ p < ∞ erhalten wir aus der Hölder Ungleichung, 1 = 1/p + 1/q gesetzt,
kX + Y kpp
= E|X + Y ||X + Y |p−1 ≤ E((|X| + |Y |)(|X + Y |p−1 )) = k|X||X + Y |p−1 k1 + k|Y ||X + Y |p−1 k1
≤
kXkp k|X + Y |p−1 kq + kY kp k|X + Y |p−1 kq = (kXkp + kY kp )k|X + Y |kp−1
.
p
• Für die Gleichheit betrachten wir der Einfachheit halber nur 0 < kXkp , kY kp < ∞. Die
Gleichheit von |X(ω) + Y (ω)| = |X(ω)| + |Y (ω)| für alle ω bis auf eine Menge vom Mas̈
0 liefert dasselbe Vorzeichen von X und Y . Aus Gleichheit in der angewandten Hölder
Ungleichung folgt |X|p und |X + Y |q und auch |Y |p und |X + Y |q sind positive Vielfache
voneinander. Damit auch sind auch X und Y positive Vielfache voneinander. Diese tun’s.
q.e.d.
Bem: – Die Hölder Ungleichung und die Minkowski Ungleichung als Folgerung gilt allgemein für
Maße anstelle von W-maßen.
– Eine Eigenschaft A für Realisationen gilt, falls mit W-keit 1 die Eigenschaft gilt. Äquivalent ist
die Aussage, die W-keit der Realisationen ω, die nicht die Eigenschaft A haben ist 0. Wir sprechen
von fast sicher (f.s.) oder fast überall (f.ü.).
Bsp: – Die Cauchy-Schwarz Ungleichung ist ein Spezialfall der Hölder Ungleichung mit r = 1, p =
2 = q.
– Die Tchebycheff-Cantelli Ungleichung
P (X − EX ≥ a) ≤
VarX
VarX + a2
für a ≥ 0 ist etwas stärker als die Markoffungleichung. Diese folgt aus, oEdA sei X zentriert,
a2 ≤ E 2 (a − X)11X<a ≤ (E(a − X)2 )E11X<a = (V arX + a2 )P (X < a).
53
Uwe Rösler
SS12
1.8
Ungleichungen
Vektoräume von Zgn∗
Der Raum Lp (Ω) = Lp , 1 ≤ p ≤ ∞ aller Zufallsvariablen X : Ω 7→ IR mit kXkp < ∞ ist ein
Vektorraum. (Beachte: Lp ist abgeschlossen bezüglich der Addition von Funktionen aufgrund der
Minkowski Ungleichung.)
Die Abbildung k · kp : Lp 7→ IR ist eine Pseudonorm auf dem Raum Lp . (Eine Pseudonorm k.k ist
eine Norm bis auf die Eigenschaft kvk = 0 ⇒ v = 0.) Die Abbildung k · kp ist eine Norm genau
dann, wenn P (ω) > 0 gilt für alle ω ∈ Ω. (Nachrechnen).
Durch Äquivalenzbildung erhalten wir einen normierten Vektorraum. Definiere die Äquivalenzrelation X ∼ Y ⇔ kX − Y kp = 0 für X, Y ∈ Lp , 1 ≤ p ≤ ∞.
Der Raum
Lp := {[X] | X ∈ Lp }
der Äquivalenzklassen [X] := {Y ∈ Lp | X ∼ Y } mit den Verknüpfungen + und · definiert durch
[X] + [Y ] := [X + Y ], a · [X] := [aX], a ∈ IR, ist ein Vektorraum. Die Abbildung k · kp : Lp 7→
IR definiert durch k[X]kp := kXkp ist eine Norm auf Lp . (Zu zeigen ist die Wohldefiniertheit,
d.h. die getroffenen Definitionen sind unabhängig von der Auswahl der Repräsentanten bzw. der
Darstellung [X] = [Y ].)
Notation: Wir unterscheiden in Zukunft nur im Falle möglicher Mißverständnisse zwischen Zgn
und den zugehörigen Äquivalenzklassen.
In unserem Setup diskreter W-räume gibt es einen anschaulicheren Vektorraum Lp (Ω0 ) isomorph
zu Lp . Betrachte den Teilraum Ω0 aller ω mit strikt positiver Wahrsch. Dann ist (Lp (Ω0 ), k · kp ) ein
normierter Vektorraum isomorph zu (Lp , k · kp ). Beachte X ∼ Y genau dann, falls X und Y auf
Ω0 übereinstimmen. Einer Äquivalenzklasse [X] ordnen wir bijektiv die Abbildung X : Ω0 7→ IR
zu.
Lemma 1.8.12 Für 1 ≤ p ≤ q gilt Lp ⊃ Lq und die Normabschätzung
kXkp ≤ kXkq .
Beweis: Aus der Jensen Ungleichung folgt E|X|q = E(|X|p )q/p ≥ (E|X|p )q/p .
Definition 1.8.13 (Banachraum) Ein vollständiger normierter Vektorraum (V, k · k) heißt Banachraum. Äquivalent ist, daß jede Cauchyfolge (vn ∈ V, n ∈ IN , mit ∀ > 0∃n0 ∀m, n > 0 :
kvn − xm k < ) konvergiert (∃v ∈ V ∀ > 0∃n0 ∀n > n0 : kvn − vk < ).
Satz 1.8.14 (Fischer-Riesz) Der Raum (Lp , k · kp ), 1 ≤ p ≤ ∞, ist ein Banachraum.
Beweis: Sei Xn eine Cauchyfolge in dem normierten Vektorraum (Lp , k · kp ), 1 ≤ p ≤ ∞. Wähle
eine Teilfolge Xni mit ni →i ∞ aufsteigend und
X
kXni+1 − Xni kp < ∞.
i
Für jede Realisation ω von strikt positiver Wahrsch. ist die Folge Xni (ω) eine Cauchyfolge in den
reellen Zahlen. Diese haben einen Grenzwert, genannt X(ω). Diese Zg X tuts.
P
•
i |Xni+1 (ω)
P − Xni (ω)| < ∞ (falls P (ω) > 0.)
Sei YN := i≤N |Xni+1 (ω) − Xni (ω)|, N ∈ IN ∪ {∞}.
Es gilt
kY∞ kp -N kYN kp ≤
X
kXni+1 − Xni kp %N
P
j≥i (Xnj+1 (ω)
kXni+1 − Xni kp < ∞.
i∈IN
i≤N
• X(ω) := Xni +
X
− Xnj (ω)) wohldefiniert für ω mit P (ω) > 0. Klar
54
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Lp
• Xni →i X.
P
P
kXni − Xkp ≤ k j≥i |Xnj+1 − Xnj |kp ≤ j≥i kXnj+1 − Xnj kp →i 0.
Lp
• Xn →i X.
kXn − Xkp ≤ kXn − Xni kp + kXni − Xkp →n,ni 0.
• X ∈ Lp
kXkp ≤ kX − Xn kp + kXn kp < ∞.
q.e.d.
Satz 1.8.15 Der Raum (L2 , k · k2 ) ist ein Hilbertraum. Die Bilinearform < ., . >: L2 × L2 7→ IR
gegeben durch
< X, Y >= EXY
√
erzeugt die Norm kXk2 := < X, X >.
Der Covarianzoperator Cov : L2 × L2 7→ IR ist eine positiv definite Bilinearform.
Beweis: Der Vektorraum L2 der Äquivalenzklassen ist ein Banachraum Theorem 1.8.14. Der Rest
ist einfach.
Beachte: Unabhängigkeit ist mehr als Unkorreliertheit von Zgn.
Unkorrelierte zentrierte Zgn sind orthogonal im Hilbertraum.
Allgemeinwissen:
Hilberträume mit gleicher Kardinalität einer Basis sind isomorph.
Die L2 -Räume diskreter W-räume haben endliche oder abzählbare Basis. Die Dimension des Hilbertraumes L2 (Ω, P ) ist die Anzahl der ω ∈ Ω mit P (ω) > 0.
55
Uwe Rösler
1.9
SS12
1.9
Gesetze der Großen Zahl
Gesetze der Großen Zahl
Das Gesetz der Großen Zahl (GGZ) besagt die Konvergenz der relativen Häufigkeit eines Ereignisses bei unabhängiger Wiederholung eines Experiments gegen die W-keit dieses Ereignisses.
Satz 1.9.1 (Starke GGZ) Die n-te Partialsumme Sn von uiv integrierbaren Zgn (Xi )i geteilt
durch n konvergiert fast sicher gegen den Erwartungswert von X.
In Formeln: P (limn Snn = EX1 ) = 1.
Die grundlegende Bedeutung des Gesetzes der Großen Zahl rechtfertigt den Namen
Erster Hauptsatz der Wahrscheinlichkeitstheorie.
Im folgenden verwenden wir abzählbare Folgen von Zgn auf einem gemeinsamen W-raum. Die
Existenz solcher W-räume ist nicht trivial und der W-raum (in der Regel) kein diskreter W-raum
mehr. Alle folgenden Aussagen lassen sich sinngemäß umformen unter ausschließlicher Verwendung
diskreter W-räume und endlich vieler Zgn. Dies ist mühsam und nicht wirklich sinnvoll.
1.9.1
Schwaches Gesetz der Großen Zahl
Es gibt eine schwache und eine starke Version des GGZ.
Definition 1.9.2 (stochastische Konvergenz) Eine Folge (Xn )n von Zgn konvergiert stochastisch oder in Wahrscheinlichkeit gegen eine Zg X, falls P (|Xn − X| > ) →n 0 für alle > 0
gilt.
s
P
Not: Xn →n X oder auch Xn →n X.
Definition 1.9.3 (schwache GGZ) EinePFolge (Xn )n , von integrierbaren Zgn genügt dem schwan
chen Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) stochastisch gegen 0 konvergiert.
In Formeln geschrieben,
1
n (Sn
s
− ESn ) →n 0 mit Sn =
Pn
i=1
Xi .
Definition 1.9.4 (identisch verteilt) Eine Folge (Xn )n von Zgn heißt identisch verteilt, falls
alle Xn dieselbe Verteilung besitzen.
Satz 1.9.5 (Schwache Gesetz der Großen Zahl) Eine Folge von unabhängig, identisch verteilten Zgn mit endlichem zweiten Moment genügt dem schwachen Gesetz der Großen Zahl.
s
Memokürzel : Snn →n EX.
Beweis: Wir verwenden die Tschebycheff Ungleichung 1.7
P |
VarSn
Sn
Sn − ESn
VarX1
− EX| > = P |
|> ≤ 2 2 =
→n 0.
n
n
n n2
Bsp: Würfeln. Die Zgn Xn , n ∈ IN , für die jeweilig erwürfelte n-te Augenzahl sind unabhängig
identisch verteilt. Die durchschnittliche Augenzahl Snn in n Würfen
Pnkonvergiert in Wahrsch. gegen
den Erwartungswert 3, 5. Die relative Häufigkeit der Sechsen 1/n i=1 11Xi =6 konvergiert schwach
gegen 1/6.
Bsp: Spieler. Seien Xn , n ∈ IN , uiv (quadrat-)integrierbare Zgn und Sn die n−te Partialsumme.
Die Zg Xn interpretieren wir als Auszahlung bei dem n-ten Spiel für den Spieler bei Einsatz einer
Einheit. Diese kann positiv und negativ (Einsatz) sein. Den Wert Sn interpretieren wir als das
Spielkapital des Spielers nach dem n−ten Spiel bei Start in 0.
s
Das schwache Gesetz der Großen Zahl besagt Snn →n EX. Ist EX > 0, so ist es langfristig gesehen
vorteilhaft für den Spieler zu spielen. Ist EX < 0, so ist es langfristig nachteilig für den Spieler zu
spielen. Im Falle EX = 0 und X nicht ausgeartet gilt −∞ = lim inf n Sn < lim supn Sn = ∞.
56
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bsp: Falschspieler. Eine gegebene Münze ist eventuell gefälscht. Falls sie gefälscht ist, so ist die
Wahrsch. p für einen Kopfwurf (identifiziert mit 1) einviertel. Die relative Häufigkeit Sn /n der
Kopfwürfe wird gegen den Wert p konvergieren. Dieser ist 1/4 oder 1/2. Damit können wir mit
beliebig großer Sicherheit, aber nie absoluter, eine eventuelle Fälschung erkennen.
Bsp: Statistik. Weshalb ist Datenanalyse, untreffend als Statistik bezeichnet, möglich? Das einfachste statistische Problem ist ein Entscheidungsproblem. Gegeben sei eine Folge Xn , n ∈ IN,
von uiv Zgn mit unbekannter Verteilung. Diese Verteilung ist eine der bekannten Verteilungen Q
oder P. (Die Generierung der Zgn heißt statistisches Experiment.)
Pn
Zur Entscheidungsfindung wähle ein Ereignis A mit Q(A) 6= P (A). Dann konvergiert 1/n i=1 11Xi ∈A
gegen den Erwartungswert Q(A) bzw. P (A). Mit beliebig großer Sicherheit, mache n groß genug,
können wir zwischen Q und P entscheiden.
Variationen
Satz 1.9.6 Eine Folge Xn , n ∈ IN , quadratintegrierbarer, unkorrelierter Zgn mit
Pn
i=1 Var(Xi )
→n 0
n2
genügt dem schwachen GGZ.
Beweis: OBdA seien die Zgn zentriert. Beachte EXi Xj = 0 für i 6= j.
Aus
n X
n
n
n
X
X
X
VarSn = E
Xi Xj =
EXi2 =
VarXi
i=1 j=1
i=1
i=1
mit Anwendung der Tschebycheff Ungleichung ergibt sich mit Tschebycheff
P (|
VarSn
Sn
| > ) ≤ 2 2 →n 0.
n
n q.e.d.
Strukturell folgert der obige Satz aus der L2 −Konvergenz die stochastische Konvergenz.
Proposition 1.9.7 Lp Konvergenz für ein p ∈ [1, ∞] impliziert stochastische Konvergenz.
Beweis: Der Fall p = ∞ ist einfach. Für 1 ≤ p < ∞ argumentiere
P (|Xn | > ) ≤
E|Xn |p
→n 0.
p
In dem folgenden Satz benutzen wir (exemplarisch) die Abschneidetechnik.
Satz 1.9.8 (Khintschin) Eine Folge unabhängiger, identisch verteilter und integrierbarer Zgn
erfüllt das schwache GGZ.
Beweis: Seien Xn , n ∈ IN , die uiv Zgn. Zu vorgegebenem >P0 wähle ein a, δ mit E|X1 − Y1 | < δ
n
wobei Yi die abgeschnittenen Zgn Xi 11|Xi |≤a sind. Sei Tn := i=1 Yi die n−te Partialsumme der
Y 0 s.
P (|
Sn
Sn − Tn
Tn
− EX1 | > ) ≤ P (|
| > /3) + P (|
− EY1 | > /3) + P (|EY1 − EX1 | > /3).
n
n
n
Alle Terme sind klein.
• Der erste Term ist klein für δ klein wegen
≤
E|Sn − Tn |
nδ
3δ
≤
=
n/3
n/3
57
Uwe Rösler
SS12
1.9
Gesetze der Großen Zahl
• Der zweite Term ist klein für hinreichend gros̈es n wegen dem schwachen GGZ.
• Der dritte Term ist 0 für δ hinreichend klein.
q.e.d.
Proposition 1.9.9 Die Summe von endlich vielen stochastisch konvergenten Zgn ist stochastisch
konvergent. gegen 0.
Bew: Es reicht die Proposition für zwei stochastisch konvergente Folgen Xn gegen X und Yn
gegen Y zu zeigen.
P (|Xn − X + Yn − Y | > ) ≤ P (|Xn − X| >
) + P (|Yn − Y | > ) →n 0.
2
2
q.e.d.
Das schwache GGZ als Verteilungskonvergenz ∗
Das schwache GGZ läßt sich ausschließlich durch Maße ohne Zuhilfenahme von Zgn formulieren.
Definition 1.9.10 (Faltung) Die Faltung von diskreten Maßen ist eine Abbildung ∗ : M×M 7→
M mit M die Menge aller (diskreter) Maße auf den reellen Zahlen, B ⊂ IR
X
µ ∗ ν(B) :=
µ(x)ν(y).
x+y∈B
Für W-maße µ und ν ergibt sich µ ∗ ν als Verteilung von zwei unabhängigen Zgn X und Y mit
Verteilung P X = µ bzw. P Y = ν. ‘ Für a ∈ IR\{0} definiere Ta : M 7→ M via Ta (µ)(B) = µ(aB),
aB := {ab | b ∈ B}. Sei µ die Verteilung einer Zg X, so ist X/a verteilt nach Ta (µ).
Definition 1.9.11 (Konvergenz dem Maße nach) Eine Folge νn , n ∈ IN , von W-maßem auf
den reellen Zahlen konvergiert dem Maße nach gegen das Punktmaß δa auf a ∈ IR, falls gilt:
X
x
|x − a|
νn (x) →n 0.
1 + |x − a|
Beachte: Xn konvergiert stochastisch gegen X genau dann, wenn die Verteilung von Xn − X dem
Maße nach gegen 0 strebt.
Proposition 1.9.12
s
Xn →n 0 ⇔ E
|Xn |
→n 0.
1 + |Xn |
Beweis: • “⇒”
E
|Xn |
|Xn |
|Xn |
=E
11|Xn |≤ + E
11|Xn |> .
1 + |Xn |
1 + |Xn |
1 + |Xn |
Den ersten Term schätzen wir durch
• “⇐”
0 ←n E
1+
≤ ab, der zweite konvergiert in n gegen 0.
|Xn |
|Xn |
|Xn |
=E
11|Xn |≤ + E
11|Xn |> ≥ 0 +
P (|Xn | > ).
1 + |Xn |
1 + |Xn |
1 + |Xn |
1+
q.e.d.
Der folgende Satz ist eine Umformulierung des schwachen GGZ.
P
Satz 1.9.13 (Schwache GGZ) Sei µ ein W-maß mit x∈IR x2 µ(x) < ∞ P
und µn die n−fache
Faltung. Dann konvergiert Tn (µn ) dem Mas̈e nach gegen das Punktmaß auf x xµ(x).
58
Elementare Wahrscheinlichkeitstheorie
1.9.2
SS12
Uwe Rösler
Starke GGZ
Das schwache Gesetz der Großen Zahl ist eigentlich eine Verteilungskonvergenzaussage für Zgn
und damit unbeeinflußt vom zugrunde gelegten W-raum und eine reine Aussage über Ma s̈e. Das
starke GGZ ist eine Konvergenzaussage für Zufallsgrößen als Funktionen auf einem W-raum.
Definition 1.9.14 (fast sicher) Eine Aussage über ω gilt fast sicher, falls die Menge der ω,
für die die Aussage nicht richtig ist, das Mas̈ 0 hat.
Definition 1.9.15 (Fast sichere Konvergenz) Eine Folge (Xn ) von Zgn konvergiert fast
sicher gegen eine Zg X, falls Xn gegen X punktweise konvergiert mit Wahrsch. 1.
Ausführlich in Formeln geschrieben, P ({ω | limn Xn (ω) = X(ω)}) = 1.
f.s.
Not: Xn →n X oder auch Xn →n X als default setting.
Definition 1.9.16 (Starke GGZ) Eine Folge
PnXn , n ∈ IN , von integrierbaren Zgn genügt dem
starken Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) fast sicher gegen 0 konvergiert.
n
In Formeln geschrieben, P ( Sn −ES
→n 0) = 1 mit Sn =
n
Pn
i=1
Xi .
Satz 1.9.17 (Starke Gesetz der Großen Zahl) Eine Folge unabhängiger, identisch verteilter
integrierbarer Zgn genügt dem starken Gesetz der Großen Zahl.
f.s.
Memokürzel: Snn →n EX.
Beweis: Der Beweis ist zu schwierig für dieses Skript.
Bsp: Schreibender Affe. Ein Affe tippt zufällig auf die Tastatur. Wie groß ist die Wahrscheinlichkeit, daß er irgendwann einmal die Buchstabenfolge BAHNHOF tippt.
Math. Modell: Seien Xn , n ∈ IN, unabhängige Zgn mit Gleichverteilung auf der Menge der
l
grossen Buchstaben. Sei Yn := 11X|n+6
=(B,A,H,N,H,O,F ) , n ∈ IN mit X|k = (Xk , Xk+1 , . . . , Xl ). Sei
r
Pn
P7 n r
P
Sn
(n−r)/7
Sn = i=1 Yi . Schreibe Sn = r=1 Sn mit Snr := i=0
→
Y7i+r . Das starke GGZ liefert n/7
EYr und damit konvergiert Snn fast sicher gegen EY1 . (Beachte, die Yi sind nicht unabhängig, aber
identisch verteilt.)
Wenn der Affe nur lange genug schreibt, wird er jede Buchstabenfolge, so auch Goethes Klassiker
Faust oder die Heisenbergsche Unschärferelation, irgendwann einmal fehlerlos(!) schreiben. Wer
kann das schon von sich behaupten.
Proposition 1.9.18 Die fast sichere Konvergenz impliziert die stochastische Konvergenz.
Bew: Zu vorgegebenem > 0 betrachte die Mengen An mit |Xi − X| > epsilon für ein i ≥ n.
Die Folgen An ist absteigend gegen die leere Menge (fast sicher) und es folgt die stochastische
Konvergenz
P (|Xn − X| > ) ≤ P (An ) &n P (∅) = 0.
q.e.d.
Im allgemeinen sind die stochastische Konvergenz und die fast sichere Konvergenz verschiedene
Konvergenzarten. Dies ersieht man aus dem Beispiel Ω = [0, 1] versehen mit der Borel σ-Algebra
und dem Lebesguemaß λ. Die Folge von Zgn X1 = 11[0,1] , X2 = 11[0,1/2] , X3 = 11[1/2,1] , X4 =
11[0,1/4] , X5 = 11[1/4,1/2] , ..., X8 = 1[0,1/8] , ... usw. konvergiert stochastisch, aber nicht f.s. Formaler
Xn := 11[i/2m ,(i+1)/2m ] mit n = 2m + i, 0 ≤ i < 2m . (Zeichnung machen!).
Für diskrete W-räume sind die Konvergenzbegriffe identisch.
Proposition 1.9.19 Sei (Ω, A, P ) ein diskreter W-raum. Dann sind stochastische Konvergenz
und fast sichere Konvergenz dasselbe.
59
Uwe Rösler
SS12
1.9
Gesetze der Großen Zahl
Beweis: Wesentlich ist die spezielle Eigenschaft P ({ω | P ({ω}) > 0}) = 1 für diskrete W-räume.
Sei Bδ := {ω | P ({ω}) > δ}). Für alle ω ∈ Bδ gilt lim supn |Xn (ω) − X(ω)| = 0. (Übung). Dann
argumentiere P (Bδ ) →δ→0 P ({ω | P ({ω}) > 0}) = 1.
q.e.d.
Diese Proposition kann man jedoch nicht anwenden auf das GGZ. Eine abzählbare Folge von nicht
ausgearteten unabhängigen Zgn benötigt stets einen nicht diskreten W-raum.
Bemerkung: Falls Xn stochastisch gegen 0 konvergiert und U eine auf dem Einheitsintervall
gleichmäßig verteilte Zg ist, so gibt es Zgn Yn mit Yn hat dieselbe Verteilung wie Xn für alle n und
Yn konvergiert fast sicher gegen 0. Die Zgn Yn = Fn−1 (U ) tun’s. Hierbei ist Fn , Fn (x) = P (Xn ≤ x)
die Verteilungsfunktion von Xn und Fn−1 die linksstetige Inverse (diese ist eindeutig) (oder auch
rechtsstetige) von Fn .
Glivenko-Cantelli
Seien Xi , i ∈ IN, Zgn. Die n-te empirische Verteilungsfunktion ist die Funktion Fn : Ω →
IR
[0, 1] definiert durch
n
X
Fn (ω)(x) =
11Xi (ω)≤x .
i=1
Für jedes ω ist Fn (ω) eine Verteilungsfunktion. Üblicherweise wird das ω weggelassen.
Die empirische Verteilungsfunktion Fn korrespondiert zu dem (empirischen) zufälligen W-mas̈
n
µn (ω)(·) =
1X
δX (ω) (·))
n i=1 i
via µn ((−∞, x]) = Fn (x). Hierbei ist δx das Punktmass auf x.
Der Satz von Glivenko-Cantelli behauptet die gleichmäs̈ige Konvergenz der empirischen Verteilungsfunktion gegen die wahre Verteilungsfunktion F der Zgn.
Satz 1.9.20 (Glivenko-Cantelli) Seien Xn , n ∈ IN, uiv Zgn mit Verteilungsfunktion F . Dann
konvergiert Fn fast sicher gleichmäßig gegen F,
f.s.
sup |Fn (x) − F (x)| →n 0.
x
Beweis: Für festes x ∈ IR implizier das starke Gesetz der Großen Zahl |Fn (x) − F (x)| + |Fn (x−) −
F (x−)| →n 0 fast sicher.
Nun zur Gleichmäßigkeit. Formal, durch stetige Fortsetzung, erweitern wir den Definitionsbereich
von F und Fn um −∞ und ∞. Zu vorgegebenem > 0 wähle eine endliche Folge −∞ = x0 <
x1 < .... < xm = ∞ mit |F (xi+1 −) − F (xi )| < , i = 0, . . . , m − 1. (Diese Folge enthält alle Punkte
x mit Sprunghöhe F (x) − F (x−) größer als .)
• supi |Fn (xi ) − F (xi )| + supi |Fn (xi −) − F (xi −)| →n 0 fast sicher.
Es reicht die Aussage für ein i zu zeigen, da das Supremum nur über endlich viele i genommen
wird. Für ein i ist dies das starke Gesetz der großen Zahl.
Für xi ≤ x < xi+1 schätze ab
|Fn (x) − F (x)|
≤
11Fn (x)>F (x) |Fn (xi+1 −) − F (x)| + 11Fn (x)≤F (x) |Fn (xi ) − F (x)|
≤
|Fn (xi+1 −) − F (xi+1 −)| + 2|F (xi+1 −) − F (xi )| + |Fn (xi ) − F (xi )|
Der erste und dritte Term sind klein für große n, der zweite kleiner als 2. Dies Argument gilt
gleichmäßig für alle x.
q.e.d.
Bem: Die Zg supx |Fn (x) − F (x)| ist meßbar.
Wegen der Rechtsstetigkeit von Verteilungsfunktionen gilt
sup |Fn (x) − F (x)| = sup |Fn (x) − F (x)|.
x∈IR
q∈Q
l
Für jedes q ∈ Q
l, n ∈ IN ist die Abbildung Ω → Fn (q) mes̈bar. Damit auch das abzählbare
Supremum. Die Meßbarkeit benötigen wir jedoch nicht für die gemachte Konvergenzaussage.
60
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Borel-Cantelli*
Seien An , n ∈ IN, Ereignisse und sei A das Ereignis, daß An unendlich oft eintritt,
A := {ω | |{i ∈ IN | ω ∈ Ai }| = ∞} = ∩m ∪n≥m An
Eine andere Charakterisierung ist via
11A = lim sup 11An .
n
Wir schreiben auch A = lim supn An .
Das Komplement ist, An tritt nur endlich oft ein,
Ac = {ω | |{i ∈ IN | ω ∈ Ai }| < ∞} = ∪m ∩n≥m Acn
und analog
11Ac = lim inf 11An
A = lim inf An .
n
n
Eselsbrücke: In Schreibschrift erinnert sup an ∩∪ und inf an ∪ ∩ .
Satz 1.9.21 (Borel-Cantelli) Seien An , n ∈ IN, Ereignisse und A := lim supn An .
P
• Aus n P (An ) < ∞ folgt P (A) = 0.
P
• Sind die An , n ∈ IN, unabhängig und n P (An ) = ∞, so folgt P (A) = 1.
Beweis: Die erste Behauptung folgt aus
P (A) ≤ P (∪n≥n0 An ) ≤
X
P (An ) →n0 0.
n≥n0
Für die zweite Behauptung verwenden wir Ac = ∪m ∩n≥m Acn . Es folgt
P (∩n≥m Acn ) ≤
c
P (∩N
n=m An ) =
Y
m≤n≤N
≤
exp(−
X
Y
P (Acn ) =
(1 − P (An ))
m≤n≤N
X
P (An )) →N ≤ exp(−
m≤n≤N
P (An )) →m = 0.
m≤n
Die letzte Abschätzung beruht auf der Abschätzung 1 − x ≤ e−x .
P (Ac ) = lim P (∩n≥m An ) = 0.
n
q.e.d.
Tombola: In einer gemeinnützigen Tombolaziehung wird ein Gewinner gezogen, der dann alle
Einsätze bekommt. Der Staat, früher unter dem Motto Brot und Spiele, heute unter Wahlgeschenke, verdoppelt diesen Betrag zusätzlich. An der n-ten Tombolaziehung nehmen n2 Personen teil,
die alle eine Einheit setzen. Soll ich daran teilnehmen?
Math. Modell: Seien Xn , n ∈ IN, unabhängige Zgn mit P (Xn = 1) = n12 = 1 − P (Xn = 0).
Xn entspricht dem Ereignis, ich gewinne in der n-ten Spielrunde. Der Gewinn in n-ter Spielrunde
ist Xn 2n2 − 1 und der Erwartungswert davon ist 1. (Nachrechnen.) Da der Erwartungswert strikt
positiv ist (durch die Bezuschussung des Staates), ist es vorteilhaft für mich bzgl. dem erwarteten
Gewinn jede einzelne Runde zu spielen.
Der Satz von Borel-Cantelli impliziert, es treten nur endlich viele Gewinnereignisse An = {Xn =
1} ein. Wenn ich jede Runde mitspiele, ist mein Gesamteinsatz unendlich, meine Summe der
Hauptgewinne aber endlich. Ich gehe pleite fast sicher.
Beipiel: Starke Gesetz der Grossen Zahlen
61
Uwe Rösler
SS12
1.9
Gesetze der Großen Zahl
Satz 1.9.22 (Gesetz der Großen Zahl) Eine Folge von uiv Zgn mit endlichem vierten Moment erfüllt das starke Gesetz der Großen Zahl.
Beweis: Seien X1 , X2 , . . . die Zgn. Ohne Einschränkung seien die Zgn zentriert. Eine Rechnung
zeigt ESn4 = nEX 4 + 3n(n − 1)E 2 X 2 . Die Markoff Ungleichung liefert
Sn ES 4
1
P ( > ) ≤ 4 n4 ≤ c 2 .
n
n n
Die Summe hierüber ist endlich. Daher tritt das Ereignis | Snn | > nur endlich oft ein mit Wahrsch.
1.
q.e.d.
Verbesserung für Zgn mit endlichem zweiten Moment: Schätze ab
P(
|Sn2 |
VarS 2
VarX1
> ) ≤ 2 4n = 2 2 .
n2
n
n
Die Summe hierüber ist endlich. Daher gilt mit Borel-Cantelli fast sicher |Sn2 /n2 | > nur endlich
S
S
S
oft. Ebenfalls mit Borel-Cantelli und Tchebycheff zeige, die Ereignisse | nn22 − kn2 | > und | kn2 −
Sk
2
2
k | > in k mit n gegeben durch n ≤ k < (n + 1) treten nur endlich oft ein fast sicher. (Übung).
Das starke GGZ gilt auch für integrierbare Zgn. (Betrachte Yn := Xn 11|Xn |≤n . Zeige Yn 6= Xn nur
Pn
endlich oft und n1 i=1 Yi → 0 fast sicher.)
62
Elementare Wahrscheinlichkeitstheorie
1.10
SS12
Uwe Rösler
Poissonapproximation
Diese Approximation betrifft Summen von unabhängigen Zgn, wobei die Summe im wesentlichen
durch sehr wenige dominierende Zgn bestimmt wird. Der Standardfall ist die Poissonapproximation
von sehr vielen uiv Bernoulli Zgn mit kleiner Erfolgswahrscheinlichkeit.
Satz 1.10.1 Sei (pn )n∈IN eine Folge reeller Zahlen mit Werten in [0, 1] und npn konvergiere gegen
eine reelle Zahl λ > 0. Dann konvergiert für jedes k die Binomialwahrsch. von k zum Parameter
(n, pn ) gegen die Poisssonwahrsch. von k zum Parameter λ,
n k
λk
= Poi(λ)(k).
Bin(n, pn )(k) =
pn (1 − pn )n−k →n exp(−λ)
k!
k
Beweis: In der Zerlegung
Bin(n, pn )(k) =
n−k+1 1
1
nn−1
...
(npn )k (1 − pn )−k (1 − pn )n →n λk e−λ
n } k! | {z } | {z } | {z }
k!
|n n
{z
II
I
III
IV
benötigen wir die Konvergenz der Faktoren I →n 1, II →n λk , III →n 1 und IV →n e−λ .
Dies ist erfüllt. (Die letzte Konvergenz folgt aus
−
x
x2
≤ ln(1 − x) ≤ −x −
1−x
2
für x ∈ (0, 1) aus dem Einheitsintervall. (Übung.))
(1.9)
q.e.d.
Das Hauptbeispiel betrifft eine Folge X1 , X2 , . . . , Xn von uiv Ber(p) verteilten Zgn. Die Summe
S dieser hat eine Binomialverteilung zu den Parametern (n, p). Dann wird P (S = k) approximiert durch Poi(np)(k) nach obigem Satz. Als Faustregel für den Schulunterricht gilt zwar λ ≤ 5
und n gross, aber wie gut die Approximation ist, besagt der Satz nicht. Die folgende, globale
Poissonapproximation liefert Fehlerabschäetzungen.
Die obige Aussage ist eine lokale Aussage, die Wahrsch. eines Punktes k betreffend. Es ist eine
reine Konvergenzaussage, sie gibt keine Abschätzung über die Abweichung. Jetzt eine stärkere,
globale Konvergenzaussage, die gesamte Verteilung betreffend.
Totalvariation: Als Abstandsbegriff für W-Maße µ, ν wählen wir den Totalvariationsabstand
d(µ, ν) = sup |µ(A) − ν(A)|.
A∈A
Dies ist eine Metrik auf dem Raum aller W-Maße (zu einem meßbaren Raum). (Nachrechnen.)
Für diskrete W-räume wird das Supremum angenommen durch das Ereignis B aller Realisationen
ω mit strikt größerem µ-Maß als ν-Maß, µ(ω) > ν(ω), oder dessen Komplement B c , aller ω mit
strikt kleinerem µ-Maß als ν-Maß. Die Beziehung 0 = µ(Ω) − ν(Ω) = (µ(B) − ν(B)) − (µ(B c ) −
µ(B c )) führt uns für diskrete W-räume zu der Formel
d(µ, ν) =
1X
|µ(ω) − ν(ω)|
2 ω
(1.10)
zur Berechnung der Totalvariation. (Übung)
Notation:
Für Zgn benutzen wir d(X, Y ) = d(P X , P Y ).
Lemma 1.10.2 Die Summe von unabhängigen Zgn mit Poissonverteilung ist wieder poissonverteilt mit der Summe der Einzelparameter als Parameter.
63
Uwe Rösler
SS12
1.10
Poissonapproximation
Beweis: Es reicht die Behauptung für zwei Zgn zu beweisen.
Seien X, Y unabhängige Zgn mit Verteilung Poi(λ1 ) und Poi(λ2 ).
P (X + Y = k)
X
=
P (X = i)P (Y = j) =
= e−λ1 −λ2
i=0
e−λ1 −λ2
i=0
{i,j|i+j=k}
k X
k
X
λi1 λk−i
2
i!(k − i)!
k λi1 λk−i
(λ1 + λ2 )k
2
= e−λ1 −λ2
.
i
k!
k!
q.e.d.
Wir beweisen die Poissonapproximation jetzt durch Konstruktion von speziellen gekoppelten Zgn.
Diese Technik wird coupling genannt.
Satz 1.10.3 Seien X1 , . . . , Xn unabhängige Bernoulli verteilte Zgn zum Parameter P (Xi = 1) =
pi . Sei S = X1 + . . . + Xn die Summe dieser und sei T eine poissonverteilte Zg zum Parameter
p1 + . . . + pn . Dann gilt
n
d(S, T ) =
n
X
1X
|P (S = k) − P (T = k)| ≤
p2i .
2
i=1
k=0
Beweis: Dieser Satz sagt etwas über die Verteilungen der Zgn aus. Der zugrundeliegende W-raum
spielt hierbei keine Rolle.
Wir konstruieren auf einem geeigneten W-raum folgende Zgn.
Seien Zi , i = 1, . . . , n unabhängige Zgn mit Werten −1, 0, 1, . . . und der Verteilung

k = −1
 1 − pi
k=0
e−pi − 1 + pi
P (Zi = k) =
 −pi k
e pi /k!
k = 1, 2, 3 . . .
Wir betrachten die Zgn Xi := 11Zi ≥0 und Yi := Zi ∨ 0.
• Die Zgn Xi , i ∈ IN , sind unabhängige Zgn und Xi hat Bernoulli Verteilung zum Parameter pi .
• Die Zgn Yi , i ∈ IN , sind unabhängige Zgn und Yi hat Poisson Verteilung zum Parameter pi .
Wesentlich ist die Abschätzung
P (Xi 6= Yi ) = 1 − P (Xi = Yi ) = 1 − P (Zi = −1) − P (Zi = 1) = pi (1 − e−pi ) ≤ p2i .
P
P
Die Summe T := i Yi ist Poisson verteilt zum Parameter i pi .
Wir schätzen ab
X
1X
d(S, T ) =
|P (S = k) − P (T = k)| =
|P (S = k 6= T ) − P (T = k 6= S)|
2
k
k
X
X
≤ P (S 6= T ) ≤
P (Xi 6= Yi ) ≤
p2i .
i
i
q.e.d.
Bemerkung: Die Summe von n unabhängigen Bernoulli Zgn zum Parameter p ist binomialmialverteilt zum Parameter n, p. In dieser Form wird der Satz meistens angewandt. Das n sollte groß
sein, das p klein. Genauer, der Fehler np2 sollte klein sein.
Bsp: Geburtstage. In einem Hörsaal sind 100 Studenten. Wieviele haben heute Geburtstag?
Sei Xi die Bernoulli Zg der i-te Student hat Geburtstag. Wir nehmen an, diese Zgn sind unabhängig
identisch Bernoulli verteilt zum Parameter 1/365. (Die Aufgabe stammt aus einer Zeit, als Sonntagsarbeit in Krankenhäusern noch üblich war.) Die Anzahl S der Geburtstage ist Binomial Bin(100, 1/365) verteilt. Die Poissonapproximation liefert
P (S = 0) ≈ exp(−100/365) ≈ .76
64
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
200
1
Der Fehler |P (S = 0) − exp(−100/365)| dieser Approximation ist beschränkt durch 365
2 ≈ 800 .
Bsp: Warendefekte. Bei einer Massenware sind einzelne Exemplare bereits bei der Produktion
mit einer kleinen Wahrsch. p defekt. Ein Kunde bestellt k intakte Exemplare. Um die Wünsche des
Kunden zu erfüllen und den Kunden zufriedenzustellen, wird der Lieferant vorsichtshalber einige
Exemplare mehr liefern. Auch dann hat er keine absolute Sicherheit, aber eine hohe.
Wieviel Exemplare n muß eine Sendung enthalten, damit der Kunde mit Wahrsch. α mindestens
k intakte erhält?
Mathematisches Modell: Seien X1 , . . . , Xn unabhängige Zgn mit Bernoulliverteilung Ber(p), Sn
die n-te Partialsumme. Xi = 1 bezeichne ein defektes i−tes Exemplar. Das Problem reduziert sich
auf das Finden der kleinsten Zahl n mit
α ≤ P (k ≤ n − Sn ) ≈ Poi(np)({0, 1, . . . , n − k}) =
n−k
X
Poi(np)(i).
i=0
Dies ist auch mit einem Taschenrechner möglich.
Bsp: Telefonzentrale. Mehrere n interne Telefone sind an einer Zentrale angeschlossen. Wieviele
k Außenleitungen müssen bereitgestellt werden, damit zu vorgegebener Wahrsch. α alle anrufenden
Teilnehmer eine freie Leitung haben? Einerseits soll k aus Kostengründen klein sein und andererseits groß, um die Kunden zufriedenzustellen. Wir betrachten die Anzahl der Anrufe zu einem
festen, aber beliebigen Zeitpunkt.
Mathematisches Modell: Seien X1 , . . . , Xn uiv Zgn mit Bernoulliverteilung Ber(p). Xi = 1 steht für
das Ereignis der i−te Teilnehmer telefoniert. Die Gesamtzahl Sn der telefonierenden Teilnehmer
ist ungefähr Poisson Poi(np) verteilt. Die Lösung ergibt sich aus der Bedingung P (Sn ≤ k) ≈
Poi(np)([0, k]) ≥ α.
Literatur: Eine noch genauere Abschätzung des Totalvariationsabstands zu einer Poissonverteilung findet sich in [4] 1992 und eine Übersicht in [1] 1992.
65
Uwe Rösler
1.11
SS12
1.11
Der Zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz ist eine Grenzwertaussage für eine Summe von unabhängigen Zgn,
wobei jeder Summand relativ zur Summe ist und nur einen verschwindend kleinen Beitrag liefert.
Im Gegensatz dazu bestand die Summe bei der Poissonapproximation aus wenigen Summanden,
die verglichen mit der Summe relativ groß waren.
Der Zentrale Grenzwertsatz (ZGS) läßt sich als ein allgemeines Naturgesetz verstehen und auch
beobachten. Wenn immer eine Summe aus vielen kleinen unabhängigen Zgn gebildet wird, gilt der
ZGS. Die Bedeutung des Zentralen Grenzwertsatzes (ZGS) rechtfertigt das Statement:
Der Zentrale Grenzwertsatz ist der zweite Hauptsatz der W-theorie.
Wir formulieren zuerst den ZGS in der einfachsten Form, geben einen Beweis und diskutieren dann
Folgerungen und Ausweitungen.
Definition 1.11.1 (standardisierte Normalverteilung) Die Funktion Φ : IR 7→ IR,
Z x
Φ(x) :=
ϕ(y)dy
−∞
mit
y2
1
ϕ(y) := √ e− 2
2π
heißt standardisierte Normalverteilungsfunktion oder Gaussverteilungsfunktion . Der
Integrand ϕ heis̈t standard Gaussdichte bzw. Dichte der standard Normalverteilung.
Die Funktion Φ ist eine Verteilungsfunktion und ϕ die Dichte dazu. Die numerischen Werte der
Gauß Funktion Φ sind tabelliert bzw. können mathematischen Komputerprogrammen wie Maple
oder Mathematica entnommen werden. (Übung, beachte Φ(x) = 1 − Φ(−x).)
Definition 1.11.2 (Standardnormierung) Die Standardnormierung einer Zg X ist, sofern
wohldefiniert, ist
X − EX
X ∗ := √
.
VarX
Definition 1.11.3 (Zentraler Grenzwertsatz) Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem
Zentralen
Pn Grenzwertsatz, (ZGS) falls für die Standardnormierung der n-ten Partialsumme
Sn := i=1 Xi und für alle reellen a < b gilt
P (a ≤ Sn∗ ≤ b) →n Φ(b) − Φ(a).
Die Grundform des ZGS lautet
Satz 1.11.4 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit
endlicher Varianz ungleich 0 gehorcht dem ZGS.
Wir werden zuerst (technisch einfach) diesen Satz mit Hilfsmitteln der diskreten W-theorie beweisen und danach die Einlagerung in die allgemeine W-theorie vornehmen.
1.11.1
Moivre-Laplace
Die einfachste Form des ZGS ist der Satz von Moivre-Laplace.
Satz 1.11.5 (De Moivre-Laplace) Eine Folge unabhängiger identisch verteilter Zgn mit einer
Bernoulliverteilung zum Parameter p ∈ (0, 1) genügt dem ZGS.
66
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Die Beweisidee besteht in brutalem Abzählen. Sei Sn die n-te Partialsumme von unabhängigen,
Bernoulli verteilten Zgn zum Parameter p. (Münzwurf.) Die Wahrscheinlichkeit P (Sn = k) stellen
wir in einem Säulendiagramm dar, hier eine Säule im Bereich [k − 1/2, k + 1/2]. Die Wahrscheinlichkeit P (a ≤ Sn ≤ b) mit a, b ∈ IN0 entspricht der Fläche über dem Intervall [a − 21 , b + 12 ].
Wir approximieren P (Sn = k) als Funktion in k und integrieren diese Funktion auf. (Übung:
Verdeutlichen Sie sich die Herangehensweise in einem Bild.)
Zur Vorbereitung benötigen wir die Stirlingsche Formel [31][17], die von allgemeinem Interesse
ist und die wir ohne Beweis angeben.
Lemma 1.11.6 (Stirling Formel) Für jede natürliche Zahl n gilt
1
e 12n+1 < √
1
n!
< e 12n
2nπ( ne )n
(1.11)
Sei ϕm,σ2 die Funktion
ϕm,σ2 (x) :=
(x−m)2
1
2σ 2
e
.
2πσ 2
Lemma 1.11.7 Sei Sn Binomial Bin(n, p), 0 < p < 1, verteilt. Sei αn , n ∈ IN , eine positive Folge
mit limn n1/3 αn = 0 und Kn die Menge der ganzen Zahlen k mit | nk − p| ≤ αn . Dann gilt
P (Sn = k)
− 1| →n 0.
ϕnp,np(1−p) (k)
sup |
k∈Kn
Beweis: Den obigen Quotienten schreiben wir als Produkt von fünf Faktoren, q = 1 − p.
√
n!pk q n−k 2npqπ
P (Sn = k)
=
(k−np)2
ϕnp,npq (k)
k!(n − k)!e− 2npq
p
√
√
(k−np)2
√
n−k k n−k
2kπ( ke )k 2(n − k)π( n−k
2nπ 2npqπ
n!
p q
e 2npq
e )
p
√
= √
n−k
k! }
(n − k)!
( k )k ( n−k
2nπ( ne )n | {z
2kπ 2(n − k)π
n )
|
{z
}| n
{z
}|
{z
}
|
{z
}
F2
F1
F3
F4
• F1 →n 1 gleichmäßig für k ∈ Kn .
Dies folgt aus der Stirling Formel 1.11,
1
sup |F1 − 1| = sup (F1 − 1) ≤ e 12n − 1 →n 0.
k∈Kn
k∈Kn
• F2 →n 1 gleichmäßig für k ∈ Kn .
sup |F2 − 1|
≤
k∈Kn
1
sup (1 − e− 12k ) ≤ sup
k∈Kn
=
sup
12n( nk
1
12k
1
1
≤
→n 0.
12np − 12nαn
− p) + 12np
• F3 →n 1 gleichmäßig für k ∈ Kn .
Analog zum vorherigen.
• F5 →n 1 gleichmäßig für k ∈ Kn . F5 schreibt sich in der Form
√
pq
q
F5 = q
.
p + ( nk − p) q − ( nk − p)
Jetzt wird | nk − p| durch αn abgeschätzt und αn konvergiert in n gegen 0.
• F4 →n 1 gleichmäßig für k ∈ Kn .
67
F5
Uwe Rösler
SS12
k
n
Eine einfache, längliche Rechnung mit u =
ln F4
u2
=
1.11
Der Zentrale Grenzwertsatz
− p zeigt
n
u
u
− n(u + p) ln(1 + ) − n(q − u) ln(1 − ).
2pq
p
q
Mit der Taylor Entwicklung ln(1 − x) = −x − x2 /2 + x3 rest(x) für |x| < 1 mit rest(x) →x→0 1
erhalten wir
ln F4 = nu3 a.
Der Term a := 2p12 − (u + p) rest( up ) − (q − u) rest( uq ) −
k. Der Term |nu3 | ≤ nαn3 konvergiert gegenP0.
n
Beweis von Moivre-Laplace: Sei Sn = i=1 Xi mit
1
2q 2
ist beschränkt gleichmäßig in n und
q.e.d.
Sn − np
Sn − ESn
= √
Sn∗ := √
npq
VarSn
die standardisierte n-te Partialsumme, q = 1 − p.
∗
√
Definiere die Abbildung IR 3 x → x∗n := x−np
npq und sei Dn := {k ∈ IN | a ≤ kn ≤ b} für
vorgegebenen feste Zahlen reellen Zahlen a, b.
Wir werden zeigen P (a ≤ Sn∗ ≤ b) →n Φ(b) − Φ(a). Aus schreibtechnischen Gründen unterdrücken
wir nach Möglichkeit das n. Sei
Z
ϕ̃ = ϕnp,npq ,
rk := P (Sn = k),
sk := ϕ̃(k),
k+1/2
tk :=
ϕ̃(x)dx.
k−1/2
P
• P (a ≤ Sn∗ ≤ b) = k∈Dn rk .
Trivial.
• supk∈Dn |1 − srkk | →n 0.
Verwende das letzte Lemma mit αn :=
P
• | k∈Dn (rk − sk )| →nP
0
l.S. ≤ supl∈Dn |1 − srll | k rk →n 0.
P
• | k∈Dn (sk − tk )| →n 0.
|
X
(sk − tk )|
|a|∨|b|
√
.
n
XZ
≤
k∈Dn
k+1/2
|ϕ̃(k) − ϕ̃(x)|dx
k−1/2
k
k+1/2
ϕ̃(k)
=
− 1 dx
ϕ̃(x) ϕ̃(x)
k−1/2
k
Z
X k+1/2
(x−k)2 +2(x−k)(k−np)
2npq
=
ϕ̃(x) e
− 1 dx
k−1/2
k
Z
y2
y
k
≤ sup sup |e 2npq + pq ( n −p) − 1| ϕ̃(x)dx
XZ
k∈Dn |y|≤ 12
1
≤
+
|e 8npq −
1
2pq (αn )
− 1| →n 0
Rb
P
• | k∈Dn tk − a ϕ(x)dx| →n 0.
∗
∗
Sei an := inf Dn , bn := sup Dn mit
Pan →n a und bn →n b. Wir verwenden nun die Transformation
∗
y := x für festes n. Die Summe k∈Dn tk läßt sich schreiben als
X
k∈Dn
Z
bn +1/2
tk =
Z
√1
b∗
n + 2 npq
ϕ̃(x)dx =
ϕ(y)dy.
√1
a∗
n − 2 npq
an −1/2
Die untere Grenze des rechten Integrals konvergiert gegen a, die obere gegen b.
68
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Dies zusammengenommen reicht.
q.e.d.
Bem: Im obigen Satz ist es unerheblich, ob wir asymptotisch die W-keit der standardisierten Summe Sn∗ im abgeschlossenen Intervall [a, b] oder im offenen Intervall (a, b) oder in einem halboffenen
Intervall (a, b], [a, b) betrachten.
Bem: Für ganze Zahlen a, b ist
b − 1/2 − np
a + 1/2 − np
−Φ
(1.12)
P (a ≤ Sn ≤ b) = P (a − 1/2 ≤ Sn ≤ b + 1/2) ≈ Φ
√
√
npq
npq
+
eine etwas bessere Abschätzung als ohne den Korrekturterm von − 12 .
Bsp: Würfeln: Gesucht ist die W-keit bei sechstausendmaligem Würfeln zwischen 980 und 1020
mal die Sechs zu erhalten.
Die Zgn Xi , 1 ≤ i ≤ 6000, seien uiv Ber(1/6) verteilt. Das Ereignis Xi = 1 entspricht einer 6 im
i-ten Wurf.
Z b∗
P (980 ≤ Sn ≤ 1020) = P (a∗ ≤ Sn∗ ≤ a∗ ) ≈
ϕ(x)dx = Φ(a∗ ) − Φ(b∗ ) ≈ 0, 51
a∗
:= √ −20 und b∗ := √ 20 .
5000/6
5000/6
√−20,5 und b∗ := √ 20,5 liefert
5000/6
5000/6
∗
mit a
a∗ :=
Die bessere Abschätzung nach der Bemerkung 1.12 mit
P (979, 5 ≤ Sn ≤ 1020, 5) ≈ 0, 52.
Bsp: Wahl: In einem fiktiven demokratischen Land gibt es zwei Parteien, A und B. 106 Bürger
entscheiden sich durch einen fairen Münzwurf für die eine oder andere Partei. Die restlichen 2000
Bürger sind fanatisch und wählen stets A. Mit welcher W-keit gewinnt A.
MM: Seien X1 , X2 , . . . , X106 unabhängige Zgn mit Ber(1/2) Verteilung und sei S die Summe.
W ahr(A gewinnt) = P (S > 106 − 1000) = P (S∗ > −2) = P (S∗ < 2) ≡ Φ(2) ≡ 0, 977...
1.11.2
W-theoretische Formulierung des ZGS
Bisher haben wir möglichst elementar den ZGS hergeleitet, für die die Verwendung diskreter Wräume ausreichend ist. Zum tieferen Verständnis lagern wir den ZGS in die allgemeine W-theorie
ein.
Allgemeiner Hintergrund: Wir betrachten stets die reellen Zahlen versehen mit der Borel σ-Algebra
B, der kleinsten σ-Algebra, die alle offenen Intervalle enthält. Eine Zg ist eine mes̈bare Funktion
g : Ω → IR, d.h. g −1 (B) ⊂ A.
Es gibt eine Bijektion zwischen W-maßen µ auf der Borel σ-Algebra und Verteilungsfunktionen
F , z.B. gegeben durch µ((−∞, ·]) = F (·). Wir werden im folgenden nur Verteilungsfunktionen
betrachten mit einer stetigen Ableitung F 0 = f. Es gilt
Z x
F (x) =
f (y)dy.
−∞
Eine Zg X hat Dichte f , falls f die Ableitung der Verteilungsfunktion ist. Für eine Zg X mit
Dichte f gilt
Z
E(h(X)) = h(x)f (x)dx
für mes̈bare Funktionen h : IR → IR+ . Für unabhängige Zgn X, Y mit Dichte f, g gilt
Z Z
Eh(X + Y ) =
h(x + y)f (x)g(y)dxdy
Insbesondere haben X + Y die Dichte
Z
Z
z 7→ f (z − y)g(y)dy = g(z − x)f (x)dx
69
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Definition 1.11.8 (Gaussdichte) Die Funktion ϕm,σ2 : IR 7→ IR zu den Parameter m ∈ IR und
0 < σ 2 < ∞,
(y−m)2
1
e− 2σ2
ϕm,σ2 (y) := √
2πσ 2
Gaussdichte bzw. Dichte der Normalverteilung zu den Parametern (m, σ 2 ). Die Dichte heißt
auch nach Ihrem “Entdecker” Carl Friedrich Gauß die Gauß Glockenkurve.
Definition 1.11.9 (Gaussverteilungsfunktion) Die Funktion Φm,σ2 : IR 7→ IR
Z
x
ϕm,σ2 (y)dy
Φm,σ2 (x) :=
−∞
zu den Parametern m ∈ IR und 0 < σ 2 < ∞ heißt Gauß Verteilungsfunktion oder auch
Verteilungsfunktion der Normalverteilung .
Die Standardnormalverteilungsfunktion ist die Funktion Φ := Φ0,1 mit der standardisierten Gauß Glockenkurve bzw. Dichte der Standardnormalverteilung φ := φ0,1 .
Die Gaussdichte ϕm,σ2 : IR → IR ist eine Dichte und hat folgende Eigenschaften
– ∀y ∈ IR : ϕm,σ2 (y) > 0
– ϕm,σ2 ist eine stetige Funktion symmetrisch um m.
– Die Funktion y 7→ ϕm,σ2 (y) ist steigend bis y = m und dann fallend. Daher der Name Glockenkurve.
R
– ϕm,σ2 (y)dy = 1 Dies zeigt man unter Verwendung von Polarkoordinaten
p
y
(r, ψ) = ( x2 + y 2 , arcsin ),
x
Z
(
ϕ(x)dx)2 =
Z Z
ϕ(x)ϕ(y)dxdy =
dxdy = rd(r, ψ)
1
2π
Z
0
2π
Z
∞
e−
r2
2
rdrdψ = 1.
0
R
– yϕm,σ2 (y)dy = y (einfach)
R
– (y − m)2 ϕm,σ2 (y)dy = σ 2 (Partielle Integration)
Die Funktion Φm,σ2 : IR → IR hat folgende Eigenschaften
– Sie ist eine Verteilungsfunktion.
– Sie ist 180 rotationssymmetrisch um den Punkt (m, 1/2). (Φm,σ2 (m + x) + Φm,σ2 (m − x) = 1)
– Φm,σ2 (m) = 1/2.
Wir betrachten stets die reellen Zahlen versehen mit der Borel σ-Algebra B, der kleinsten σAlgebra, die alle offenen Intervalle enthält. Wegen der Bijektion zwischen W-maßen µ auf der
Borel σ-Algebra und Verteilungsfunktionen F , gegeben durch µ((−∞, ·]) = F (·), gibt es genau
ein W-mass auf den reellen Zahlen zu einer Gausverteilung mit Parametern m, σ 2 . Diese heißt
Gaussverteilung oder Normalverteilung.
Not: N (m, σ 2 )
Eine Zgn X heis̈t gaussverteilt zu den Parametern m, σ 2 , falls die Verteilung der Zg eine Gaussverteilung zu den Parametern ist.
Not: X ∼ N (m, σ 2 ).
Bem: Die Parameter einer gausverteilten Zg X sind der Erwartungswert m = E(X) und die
Varianz σ 2 = Var(X).
Proposition 1.11.10 Eine nicht ausgeartete linear affine Funktion einer Gausverteilung ist gausverteilt.
Die Summe endlich vieler unabhängiger gausverteilter Zgn ist gausverteilt.
70
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bew: Sei X N (m, σ 2 ) verteilt und a 6= 0, b ∈ IR. Dann ist aX + b N (am, a2 σ 2 ) verteilt.
Z
P (aX + b ≤ z)
= E(11aX+b≤z = 11ax+b≤z ϕm,σ2 (x)dx
Z
y−b 1
=
11y≤z ϕm,σ2 (
) dy
a a
Z
= ... = 11y≤z ϕam,a2 σ2 (y)dy
Für die zweite Aussage reicht es nur die Summe zweier unabhängiger gaussverteilter Zgn zu betrachten. Wir können oEdA (nach dem ersten Teil) annehmen X ist N (0, 1) verteilt und Y ist
N (0, σ 2 ) verteilt. Dann ist die Dichte h von X + Y gegeben durch
Z
h(x)
=
=
=
=
=
=
ϕ0,1 (x − y)ϕ0,σ2 (y)dy
Z
(x−y)2
y2
1
1
√ √
e− 2 − 2σ2 dy
2π 2πσ 2
Z
1
σ 2 (x2 + y 2 − 2xy) + y 2
√
exp(−
)dy
2σ 2
2π2πσ 2
Z
−x2 σ 4
2 2
xσ 2 2
(1 + σ 2 )(y − 1+σ
1
2)
(1+σ 2 ) + x σ
√
)exp(−
)dy
exp(−
2σ 2
2σ 2
2π2πσ 2
p
2π(1 + σ 2 )
x2
√
exp(−
2σ 2 )
(1 + σ 2 )
2π2πσ 2
ϕ0,1+σ2 (x)
q.e.d.
Bem: Die Parameter berechnen sich leicht via dem Erwartungswert und der Varianz.
Folgerung: Eine Folge von unabhängigen, identisch normalverteilten Zgn erfüllt den ZGS mit der
Standardnormierung.
Konvergenz
Definition 1.11.11 (Konvergenz bzgl. Funktionenklasse) Sei F eine Menge von Funktionen. Eine Folge µn von W-maßen konvergiert gegen ein W-maß
µ bezüglich
der FunktioR
R
nenklasse F, falls für alle Funktionen f der Funktionenmenge f dµn →n f dµ gilt.
F
Not: µn →n µ ⇔ µn (f ) →n µ(f ) ∀f ∈ F.
Punktweise Konvergenz:
vergenz.
Die F-Konvergenz mit F := {11A | A ∈ A ist die punktweise KonZ
∀f ∈ F gilt inf f dµn →n
f dµ ⇔ ∀A ∈ Aµn (A) →n µ(A).
Schwache Konvergenz: Sei Cb die Menge der reellwertigen, stetigen und beschränkten Funktionen. Die Konvergenz bzg. Cb heißt schwache Konvergenz.
C
d
Not: µn →n µ ⇔ µn →bn µ. Hierbei steht d für distribution. Es wird auch w verwendet für weak.
d
Für Zg benutzen wir dieselbe Notation Xn → X falls die Verteilungen schwach konvergieren.
Satz 1.11.12 (Zentrale Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von uiv Zg mit endlicher
Varianz nicht Null. Dann konvergiert Sn∗ in Verteilung gegen die Standardnormalverteilung.
71
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Beweis: Wir verwenden das Lemma von Trotter, eventuell mit der Bemerkung. Seien die Y Zgn alle
normalveteilt. Dann ist Tn∗ standardnormalverteilt für alle n. Folglich haben wir die Konvergenz
von Sn∗ gegen die Standardnormalverteilung für die Funktionenklasse F der dreimal stetig differenzierbaren Funktionen mit beschränkter stetiger Ableitung. Jede stetige beschränkte Funktion
g mit endlichem Träger {x | g(x) 6= 0} läs̈t sich gleichmäs̈ig durch eine Funktion f aus F beliebig
gut approximieren. Dann gilt
Eg(Sn∗ ) − Eg(Tn∗ ) = (Eg(Sn∗ ) − Ef (Sn∗ )) + (Ef (Sn∗ ) − Ef (Tn∗ )) + (Ef (Tn∗ ) − Eg(Tn∗ )) →n 0.
Und was macht man, falls der Träger nicht endlich ist? (Übung in Abschneidetechnik)
q.e.d.
Bsp: Gauß als Geodäter.
Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren
Streckenlänge.
Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten Daten die wahre
Streckenlänge c approximativ bestimmen.
Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn mit unbekannter Verteilung und endlicher Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein
guter Schätzer für c ist
n
1X
Sn
=
Xi .
ĉn =
n
n i=1
√ ĉn −c
Die Zg n √
konvergiert schwach gegen eine normalverteilte Zg. N . Sehr grob gedacht, der
nσ 2
√
Fehler bei Benutzung von ĉn anstelle des wahren Wertes c ist von der Größenordnung N/ n. Die
2
Varianz σn von ĉn liefert dieselbe Grös̈enordnung √1n des Fehlers.
1.11.3
Allgemeiner Zentraler Grenzwertsatz
Lemma 1.11.13 Seien X, Xn , n ∈ IN Zgn. Dann sind äquivalent
• Die Verteilung von Xn konvergiert schwach gegen die Verteilung von X.
• Die Verteilung von Xn konvergiert gegen die Verteilung von X bzgl. der Menge der stetigen
Funktionen mit kompaktem Träger.
• Die Verteilung von Xn konvergiert gegen die Verteilung von X bzgl. der Menge der unendlich
oft stetig differenzierbaren Funktionen mit kompaktem Träger.
• Die Verteilungsfunktion von Xn konvergiert punktweise gegen die Verteilungsfunktionvon X
in allen Stetigkeitspunkten der Verteilungsfunktion von X.
• Ist zusätzlich F setig, so ist äquivalent, die Verteilungsfunktion von Xn konvergiert gleichmäsig
gegen die Verteilungsfunktionvon X.
Bew: Im folgenden seien F, Fn die RVerteilungsfunktionen zu X, Xn und µ, µn die Verteilungen von
X, Xn . Wir benutzen E(f (X)) = f dµ = muf und analog µn f für geeignete Funktionen f.
Offensichtlich sind die Behauptungen i) → ii), ii) → ii)undv) → iv).
• ii) ⇒ i).
Sei g ∈ Cc mit 0 ≤ g ≤ 1. Dann gilt für f ∈ Cb
|µn f − µf | ≤ |µn f g − µf g| + |µn f (1 − g)| + |µf (1 − g)|
Der erste Term wird klein für hinreichend große n bei festem g. Den zweiten Term schätze ab
≤ kf k∞ (µn (1 − g) + µ(1 − g)).
72
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Wähle jetzt g mit g ≥ 11[−a,a] und mn (1 − g) kleiner als ein vorgegebenes . Dann konvergiert
µn (1 − g) = 1 − µn g gegen 1 − µ(g) = µ(1 − g) < .
• iii) ⇒ ii)
Jede Funktion f ∈ Cc kann beliebig gut durch eine Funktion g ∈ Cc∞ gleichmäßig approximiert
werden. (in Formeln: ∀f ∈ Cc ∀ > 0 ∃g ∈ Cc∞ : supx |f (x) − g(x)| < .) Es gilt
|µn f − µf | ≤ |µn g − µg| + |µn (f − g)| + |µ(f − g)|
Der erste Term konvergiert in n gegen 0 für festes g. Der zweite und dritte wird abgeschätzt durch
kf − gk∞ und wird klein durch Wahl von g gleichmäßig in n.
• ii) ⇒ iv)
Sei ha,b , a < b die Funktion

1
falls
y≤a

0
y>b
ha, (y) =

linear interpoliert
a ≤ y ≤ b.
Sei x ein stetigkeitspunkt von F. Aus
µhx−,x ≤ Fn (x) ≤ µn hx,x+
erhalten wir mit n → ∞
F (x − ) ≤ µhx−,x ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ µhx,x+ ≤ F (x + )
n
und mit → 0 aus der Sandwichposition die Behauptung.
• iv) ⇒ ii)
Jedes f ∈ Cc kann
Pmbeliebig gut gleichmäßig approximiert werden durch eine Treppenfunktion g
der Gestalt g = i=1 αi 11( ai , bi ] mit m ∈ IN, ai , bi Stetigkeitspunkte von F, stetig erweitert um
+
− ∞ und (ai , bi ], 1 ≤ i ≤ m eine Partition von IR = IR ∪ {∞, −∞}. Dann argumentiere
|µn f − µg| ≤ |µn f − µn g| + |µn g − µg| + |µg − µf |.
Der erste und dritte Term werden abgeschätzt durch kf − gk∞ und sind klein durch Wahl von g
glm in n. Der zweite wird abgeschätzt durch
X
≤
|αi ||Fn (bi ) − Fn (ai ) − F (bi ) + F (ai )| →n 0.
i
• iv) ⇒ v)
Erweitere die Verteilungsfunktionen F, Fn stetig in −∞ und ∞. Zu vorgegebenem > 0 wähle
−∞ = x0 < x1 < x2 < . . . < nN = ∞ mit 0 ≤ F (xi ) − F (xi−1 ) < für 1 ≤ i ≤ N. Sei
An := supi |Fn (xi ) − F (xi )|. Es gilt An →n 0.
Für x sei i = i(x) bestimmt durch xi ≤ x < xi+1 . Schätze ab
|Fn (x) − F (x)|
≤
|Fn (x) − Fn (xi )| + |Fn (xi ) − F (xi )| + |F (xi ) − F (x)|
≤
Fn (xi+1 ) − Fn (xi ) + An + F (xi+1 ) − F (xi )
≤
|Fn (xi+1 ) − F (xi+1 )| + |F (xi+1 ) − F (xi )| + |F (xi ) − Fn (xi )| + An + ≤
3An + 2
Diese Abschätzung gilt gleichmäßigfür alle x ∈ IR. An konvergiert in n gegen 0 und war beliebig
klein.
q.e.d.
Damit erhalten wir: Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem Zentralen
Grenzwertsatz,
Pn
(ZGS) falls die Standardnormierung Sn∗ der n-ten Partialsumme Sn := i=1 Xi schwach gegen
die standard Normalverteilung konvergiert.
Wir geben nun den Beweis von Trotter des Zentralen Grenzwertsatzes 1.11.4.
73
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Satz 1.11.14 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn
mit endlicher Varianz ungleich 0 gehorcht dem ZGS.
Beweis: Seien die uiv Zgn Xn , n ∈ IN. Ist X1 N (m, σ 2 ) verteilt, so ist Sn∗ N (0, 1) verteilt und
konvergeirt insbesondere schwach.
Sei X1 nicht Normalverteilt. Seien Yn , n ∈ IN weitere unabhängige Zgn, auch unabhängig von
den X-Zgn, mit einer Normalverteilung zu den Parametern EX1 und VarX1 . Seien Sn∗ und Tn∗ die
Standardisierungen der Partialsummen Sn = X1 + . . . + Xn und Tn = Y1 + . . . + Yn . Wir werden
zeigen
|E(f (Sn∗ )) − E(f (Tn∗ ))| →n 0
(1.13)
für alle C ∗ ∞c Funktionen.
Wir nehmen oEdA an die Zgn X1 , Y1 sind zentriert und haben Varianz Eins. Nur zur Einfachheit
seien die dritten absoluten Momente endlich.
Wir verwenden die Teleskopsummendarstellung
f (Sn∗ ) − f (Tn∗ ) =
X
X
Yi
Xi
Ai
(f (ci + √ ) − f (ci + √ ) =:
n
n
i
i
Pn
Pi−1 Y
X
mit ci := j=1 √jn + k=i+1 √nj .
Wir verwenden die Taylor Approximation
f (x) = f (x0 ) + (x − x0 )f 0 (x0 ) +
(x − x0 )3 000
(x − x0 )2 00
f (x0 ) +
f (ξ)
2!
3!
mit einem geeigneten Zwischenwert ξ zwischen x und x0 . Wir wenden Taylor jeweils an auf den
i-ten Term in obiger Summe entwickelt um ci .
Ai = f 0 (ci )
Xi − Yi
X 2 − Yi2
Xi3
Yi3
√
+ f 00 (ci ) i
+ f 000 (ξi,1 ) 3/2
+ f 000 (ξi,2 ) 3/2
|
2n
n
6n
6n
Auf beiden Seiten nehmen wir den Erwartungswert. Die Unabhängigkeit von ci und (Xi , Yi ) ergibt
E(
E(
Xi − Yi 0
Xi − Yi
√
f (ci )) = E( √
)E(f 0 (ci )) = 0
n
n
Xi2 − Yi2 00
X 2 − Yi2
f (ci )) = E( i
)E(f 00 (ci )) = 0
2n
2n
Die Abschätzung wird fortgeführt,
|E(f (Sn∗ ) − f (Tn∗ ))|
≤
n
X
|EAi |
i=1
≤
n
kf 000 k∞ X
(
(E|Xi |3 + E|Yi |3 )
2n3/2 i=1
≤
const
→n 0
n1/2
Mit etwas mehr Aufwand läßt sich das Lemma auch ohne zusätzliches endliches 3. Moment zeigen. (Taylorentwicklung bis zweite Ableitung und verwende Stetigkeitsmodul von f .) Nur der
Vollständigkeit halber:
Der Stetigkeitsmodul einer Funktion g ist
wg (δ) =
sup |g(x) − g(y)|
|x−y|<δ
74
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
für δ ≥ 0. Benutze die Taylorentwicklung wie oben bis zur zweiten Ableitung. Die neuen Restterme
sind,
X
X2
Y2
E( (f 00 (ξi,1 ) − f 00 (ci )) i + (f 00 (ξi,2 ) − f 00 (ci )) i )
2n
2n
i≤n
Damit werden die Restterme abgeschätzt
|Rest ≤
X
Xi Xi
Yi Y 2
wf 00 ( √
≤ E(
+ wf 00 ( √ ) i )
n 2n
n 2n
i≤n
≤
1
X1
Y1
E(wf 00 ( √ X12 + wf 00 ( √ )Y12 )
2
n
n
Die linke Seite konvergiert gegen 0 wegen monotoner Konvergenz.
q.e.d.
Bem: Hier ein Beweis des ZGS in einer Zeile! Wir benutzen die Zolotarevmetrik zum Beweis des
ZGS mit s > 2. Mit obiger Notation
ζs (Sn∗ , Tn∗ ) ≤
n
1 X
ζs (Xi , Yi ) ≤ n1−s (E|X1 |s + E|Y1 |s ) →n 0.
ns i=1
Bsp: Gauß als Geodäter.
Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren
Streckenlänge.
Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten Daten die wahre
Streckenlänge c approximativ bestimmen.
Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn mit unbekannter Verteilung und endlicher Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein
guter Schätzer für c ist
n
1X
Sn
=
Xi .
ĉn =
n
n i=1
√ ĉn −c
Die Zg n √
konvergiert schwach gegen eine normalverteilte Zg. N . Sehr grob gedacht, der
nσ 2
√
Fehler bei Benutzung von ĉn anstelle des wahren Wertes c ist von der Größenordnung N/ n. Die
2
Varianz σn von ĉn liefert dieselbe Grös̈enordnung √1n des Fehlers.
Korollar 1.11.15 (Glivenko-Cantelli) Unter den Voraussetzungen des obigen Satzes sind äquivalent
(i) Für alle reellen Zahlen b gilt P (Sn∗ ≤ b) →n Φ(b).
(ii) supb∈IR |P (Sn∗ ≤ b) − Φ(b)| →n 0.
(iii) supa<b∈IR |P (a ≤ Sn∗ ≤ b) − Φ(b) + Φ(a)| →n 0.
(iv) supa<b∈IR |P (a < Sb∗ < b) − Φ(b) + Φ(a)| →n 0
Güte der Approximation:
Wie gut ist die Normalapproximation?
Die Approximationsgüte, d.h. Aussagen über die Konvergenzgeschwindigkeit des maximalen Abstands supb |P (Sn∗ ≤ b) − Φ(b)| für uiv Zgn gibt der Satz von Berry-Esseen.
75
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Satz 1.11.16 (Berry-Esseen) Sei Sn∗ die standardisierte Summe von n unabhängig identisch
verteilten Zgn X1 , . . . , Xn mit Varianz σ 2 und endlichem zentrierten dritten absoluten Moment
0 < γ := E|X − EX|3 < ∞. Dann gilt
sup |P (Sn∗ ≤ b) − Φ(b)| ≤
b
0, 8γ
√ .
σ3 n
Literatur: Sozanov [30].
Bsp: Würfeln Wir betrachten die Anzahl der Sechsen bei sechstausendmaligem Würfeln. Der
Fehler in der Approximation von P (a ≤ S6000 ≤ b) durch die Normalverteilung ist beschränkt
durch
2 ∗ 0, 8 ∗ 130/64
√
≈ 0, 040.
(5/36)3/2 6000
Bemerkung Wann sollte die Normalapproximation benutzt werden und wann
P die Poissonapproximation? Stets sollte die Anzahl der Zgn gros̈ sein. Grob gesagt, falls i p2i kleiner als 1 ist,
wende die Poissonapproximation an, anderenfalls die Normalapproximation. Genauere Aussagen
sind nur mit Fehlerabschätzungen möglich.
ZGS für Schemata *
Wann konvergieren Summen von unabhängigen Zgn gegen eine Normalverteilung? Wir geben eine
Gleichmäßigkeitsaussage an.
Definition 1.11.17 (Schema von Zufallsgrößen) Ein Schema von Zgn ist eine Familie von
Zgn Xn,k , n ∈ IN, 1 ≤ k ≤ kn ∈ IN . Wir schreiben diese in der Form
X1,1 , X1,2 , . . . , X1,k1
X2,1 , X2,2 , . . . , X2,k2
X3,1 , X3,2 , X3,3 , . . . , X3,k3
......................
Wir betrachten insbesonders die Summe der n-ten Reihe eines Schemas,
Sn =
kn
X
Xn,k .
k=1
Definition 1.11.18 (unabhängig, standardisiert) Ein Schema heißt unabhängig, falls die
Zgn (Xn,k )k in jeder Reihe n unabhängig sind. Ein Schema heißt standardisiert, falls die Zgn
zentriert sind und die Varianz s2n := VarSn = 1 jeder Reihensumme stets 1 ist.
Jedes Schema mit endlicher Reihenvarianz s2n ungleich 0 läßt sich durch Übergang zu den Zgn
X
−EX
Yn,k := n,k sn n,k standardisieren.
Definition 1.11.19 (asymptotisch vernachlässigbar) Ein standardisiertes Schema (Xn,k )n,k
heißt asymptotisch vernachlässigbar, falls für alle > 0 gilt
sup P (|Xn,k | > ) →n 0.
k
Definiere für ein standardisiertes Schema
Ln () :=
X
2
E(Xn,k
11|Xn,k |≥ ).
k
Satz 1.11.20 (Lindeberg) Sei (Xn,k )n,k ein unabhängiges und standardisiertes Schema.
Dann sind äquivalent
76
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
(i) (Xn,k )n,k ist asymptotisch vernachlässigbar und es gilt der ZGS
∀x ∈ IR P (Sn ≤ x) →n Φ(x)
(ii) Die Lindebergbedingung gilt, d.h. für alle > 0 gilt
Ln () →n 0.
Beweis: Die Rückrichtung ließe sich analog zu Lemma ?? zeigen.
Für die Hinrichtung siehe Feller [7]. Weiter- und tieferliegende Literatur ist Petrov [26] und
Gnedenko-Kolmogoroff [20].
ZGS für uiv Zg: Sei Xn , n ∈ IN , eine Folge uiv Zg mit EX1 = m und endlicher Varianz σ 2
ungleich 0. Diese Folge bildet in natürlicher Weise ein Schema via Xn,k = Xk , 1 ≤ k ≤ kn = n
und
X1 − m
√
,
σ2
X1 − m X2 − m
√
, √
2σ 2
2σ 2
..........
n
Xk − m
√
.
nσ 2 k=1
X1
X1 , X2
............
X1 , . . . , Xn
−m
Das zugehörige standardisierte Schema ist Yn,k := X√knσ
, 1 ≤ k ≤ n ∈ IN . Das standardisierte
2
Schema ist unabhängig. Es erfüllt die Lindebergbedingung
Ln () :=
n
X
k=1
E
(Xk − m)2
11|Xk −m|≥√nσ2 nσ 2
=E
(X1 − m)2
11|X1 −m|≥√nσ2 σ2
→n 0.
Daher gilt der ZGS und die einzelnen Beiträge der Zg zur Summe sind asymptotisch vernachlässigbar.
Beispiel
Mergesort: Eine direkte Anwendung ist die asymptotische Analyse von Mergesort (siehe dort).
77
Uwe Rösler
1.12
SS12
1.12
Zgn mit Werten in Rd ∗
Zgn mit Werten in Rd ∗
Im Text schreiben wir einen Vektor in der Form x = (x1 , . . . , xd ). In Formeln benutzen wir den
Vektor als Spaltenvektor. Der Reihenvektor wäre xt . Fürq
eine Matrix A benutzen wir At für die
Pd
2
transponierte. Wir benutzen die euklidische Norm kxk =
i=1 xi .
d
Im folgenden betrachten wir Zgn X mit Werten in IR .
Diese schreiben wir in der Form X = (X1 , . . . , Xd ) : Ω 7→ IRd ,
X(ω) = (X1 (ω), . . . , Xd (Ω)).
Definition 1.12.1 (Erwartungswert) Der Erwartungswert einer Rd -wertigen Zg X ist
definiert durch
EX = (EX1 , . . . , EXd ).
Definition 1.12.2 (Covarianz) Die Covarianzmatrix Cov(X, Y ) : {1, . . . , d}2 7→ IR zweier
IRd −wertiger Zgn X, Y ist gegeben durch
Cov(X, Y )i,j := Cov(Xi , Yi ) = E((Xi − EXi )(Yj − EYj )).
Prägnanter:
Cov(X, Y ) = E((X − EX)(Y − EY )t ).
Es gilt für Matrizen A, B ∈ IRd×d und Vektoren a, b ∈ IRd
Cov(AX + a, BY + b) = ACov(X, Y )B t .
Die Covarianzmatrix einer Zgn X ist die Matrix Cov(X, X) =: Cov(X).
Definition 1.12.3 (positiv definit) Eine Matrix A heißt positiv definit, falls v t Av ≥ 0 für
alle v ∈ IRd gilt.
Proposition 1.12.4 Die Covarianzmatrizen Cov(X) sind genau die positiv definiten Matrizen.
Beweis:
“⇒” Sei v ∈ IRd . Dann gilt
v t Cov(X, X)v
= v t E((X − EX)(X − EX)t ))v
= E(((X − EX)t v)t ((X − EX))t v)
≥ E(((X − EX)t v)2 ) ≥ 0.
“⇐” Sei X = (Xi )1≤i≤d eine IRd −wertige Zg mit der Einheitsmatrix als Covarianzmatrix. (Dies
ist möglich, (Xi )i unabhängig mit EXi = 0 und VarXi = 1.) Dann tuts C 1/2
pX. (Für
diagonale Matrizen D = (di,j )i,j mit positiven Einträgen ist D1/2 definiert durch ( di,j )i,j .)
Sei jetzt C eine positiv definite d × d Matrix. Dann existiert eine orthogonale (Ot = O−1 )
Rotation O mit OCOt = D hat Diagonalgestalt. Definiere C 1/2 = Ot D1/2 O.
q.e.d.
GGZ:
Es gilt das sinngemäße Gesetz der Großen Zahl.
Satz 1.12.5 (GGZ) Eine Folge uiv Rd −wertiger Zgn. mit endlichem ersten Moment erfüllt das
schwache Gesetz der Großen Zahl.
Beweis: Sei Xn die Rd −wertige Folge uiv Zgn, oEdA zentriert, Sn die n−te Partialsumme.
X
d
Sn,i Sn P
> ≤
P
>
→n 0.
n
n
d
i=1
Pn
Hierbei haben wir das GGZ verwandt für Sn,i := j=1 Xj,i , Xj = (Xj,1 , . . . , Xj,d ).
q.e.d.
78
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
ZGS:
Die d−dimensionale Glockenkurve bzw. d−dimensionale Dichte der Normalverteilung
ist die Funktion ϕm,C : IRd 7→ IR
ϕm,C (x) = p
1
(2π)d det(C)
e−
(x−m)t C −1 (x−m)
2
mit m ∈ IRd und C ∈ IRd×d eine positiv definite und invertierbare Matrix.
Wir benutzen ϕ = ϕ0,I mit I die Einheitsmatrix.
Einige Eigenschaften der Gauß Glockenkurve sind.
Lemma 1.12.6
(i) ϕm,C ist stetig, strikt positiv und symmetrisch um m, (∀x ∈ IRd ϕm,C (x − m) = ϕm,C (−x −
m)).
R
(ii) ϕm,C (x)dx = 1.
R
(iii) xϕm,C (x)dx = m.
R
(iv) (x − m)(x − m)t ϕm,C (x)dx = C.
R
(v) ϕm1 ,C1 (x − y)ϕm2 ,C2 (y)dy = ϕm1 +m2 ,C1 +C2 (x).
Beweis: Alle Aussagen sind einfach und straight forward.
Notation:
ϕ = ϕ0,I mit I die Einheitsmatrix.
Definiere die Gauß Verteilungsfunktion
Z
Φ(x) :=
ϕ(y)dy.
y≤x
d
Hierbei benutzen wir
R die koordinatenweise Ordnung in IR , u ≤d v ⇒ ui ≤ vi
benutzen Φ(f ) := f (x)ϕ(x)dx für geeignete Funktionen f : IR 7→ IR.
1 ≤ i ≤ d. Wir
Definition 1.12.7 (Standardnormierung) Die Standardnormierung einer Zg X ist, falls
wohldefiniert,
X ∗ = Cov−1/2 (X)(X − EX).
Hierbei ist Cov−1/2 (X) das Inverse von Cov1/2 (X) wie oben erklärt.
Satz 1.12.8 (Der d−dimensionale ZGS) Eine Folge uiv Rd −wertiger Zgn mit endlicher Covarianzmatrix von vollem Rang erfüllt den Zentralen Grenzwertsatz
P (Sn∗ ≤ b) →n Φ(b)
für alle b ∈ IRd . Äquivalent ist
Ef (Sn∗ ) → Φ(f )
für alle stetigen beschränkten Funktionen f .
Beweis: Ein Beweis analog zum eindimensionalen Fall ist möglich. Wir führen dies nicht aus.
79
Uwe Rösler
1.13
SS12
1.13
Sortieralgorithmen
Sortieralgorithmen
Wir führen eine Laufzeitanalyse von den Sortieralgorithmen Mergesort und Quicksort durch.
1.13.1
Laufzeitanalyse:
Gegeben sei ein Algorithmus A. Dieser Algorithmus benötigt die Zeit A(x) bei Eingabe (=Input) x
bis zur Ausgabe S(x) (=Output). Die Zeit wird bestimmt bzw. ist proportional zu die ausgeführten
Befehlen. Wir messen daher Zeit durch das Zählen gewisser Operationen.
Wir benutzen der einfachheit halber als Eingabe x ∈ IRn und betrachten n = |x| als die Problemgrös̈e.
Wir werden teile-und-herrsche (divide-and-conquer) Algorithmen analysieren. Ein Problem der
Stufe n wird zerlegt in kleinere Probleme niedrigerer Stufe. Durch rekursive Aufrufe des Algorithmus kommen wir letztendlich zu Problemen ganz niedriger Stufe, die lösbar sind. Die rekursive
Gleichung ist der Schlüssel zur Analyse.
Wir unterscheiden deterministische und stochastische Algorithmen. Stochastische Algorithmen
haben eine Zufallsquelle im Programm (=Software) selber, eventuell durch Erzeugung von Zufallszahlen. Bei demselben Input ist die Laufzeit verschieden. Wir unterscheiden internen und
externen Zufall.
– Der interne Zufall ist im Programm selbst enthalten, zum Beispiel durch Wahl von Zufallszahlen.
– Der externe Zufall kommt von außen. Hierbei wird der Input selbst als zufällig betrachtet und
durch eine Zg modelliert.
Eine Laufzeitanalyse umfaßt folgende Punkte.
• Worst case: Hierbei handelt es sich um eine obere Schranke der Laufzeit bei Input vom
Level n. Diese wird meistens asymptotisch in n angegeben. (Weniger interessant ist der beste
Fall.)
• Average case: Der Input wird als Zg betrachtet (=externer Zufall) oder der Algorithmus
ist stochastisch (=interner). Die Laufzeit dieser Algorithmen ist eine Zg. In der average
case Analyse wird der Erwartungswert der Laufzeit bestimmt. Die Idee ist An ≈ EAn
auf Level n. Hierhin gehören auch Abschätzungen von P (An − EAn ≥ cn ), wie sie z.B.
mit Hilfe der Tschebycheff-Markov Ungleichungen möglich sind. Die Varianz wird gerne als
Abstandsbegriff genommen.
• Verteilungsanalyse: Hier wird die asymptotische Verteilung von A = An bei Level-nEingabe bestimmt. Mit einer geeigneten Normierung von An , meistens eine affine von der
n
, konvergiert A∗n in Verteilung gegen einen nicht trivialen Grenzwert.
Form A∗n = And−c
n
• Große Abweichungen: Ziel sind Abschätzungen der W-keit P (An − EAn ≥ cn ) → n
für sehr große cn . Diese Wahrscheinlichkeit geht exponentiell schnell in n gegen 0, bzw.
1
n ln P... konvergiert in n. Diese Abschätzungen beruhen in der Regel auf exponentiellen
Abschätzungen, wie die Cramer Transformierte oder der Hoeffding Ungleichung.
1.13.2
Insertionsort:
Der Algorithmus Insertionsort bzw. Bubble up ist ein Sortieralgorithmus. Der Input besteht
n
aus einer Liste x ∈ IR6=
von n ungleichen reellen Zahlen. Die Ausgabe ist die Folge S(x) ∈ IRn der
aufsteigend sortierten Komponenten von x.
Algorithmus Insertionsort: Wir beschreiben nur den Rekursionsschritt.
Im k + 1-ten Schritt seien die ersten k Daten bereits geordnet zu a1 < a2 < . . . , ak . Die Date xk+1
wird jetzt eingelesen und soll eingeordnet werden. Dies geschieht durch Vergleich mit ak , ak−1 , ak−2
usw. solange, bis der richtige Platz gefunden ist. Gefragt ist nach der Anzahl der notwendigen
Vergleiche.
80
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Sei Z(x) die Anzahl der benötigten Vergleiche zum Einordnen der letzten Koordinate xn in die
geordnete Liste der S(x1 , . . . , xn−1 ). Sei A(x) die Anzahl aller von Insertionsort durchgeführten
Vergleiche bei Eingabe von x. Es gilt
A(x) = A(x− ) + Z(x).
(1.14)
Hierbei bezeichnet x− die um die letzte Koordinate reduzierte Liste x. Das Problem vom Level n
wird auf eins vom Level n − 1 zurückgeführt.
n
Bounds: Aus 1 ≤ Z(x) ≤ n − 1 für x ∈ IR6=
und n ≥ 2 erhalten wir
n − 1 ≤ A(x) ≤
n
X
(i − 1) =
i=2
n(n − 1)
2
durch Induktion nach der Problemlänge n.
Average
Sei
Ri (x) :=
n
X
11xj ≤xi
j=1
n
der Rang von xi unter den Komponenten von x ∈ IRne
. R(x) ist eine Permutation der Zahlen 1
bis n = |x|. R heißt Rangfunktion. Durch Induktion läßt sich leicht zeigen:
A(x) = A(R(x))
Z(x) = Z(R(x)).
Anstelle von allgemeinen Listen reicht es Permutationen zu betrachten.
Zur mathematischen Formulierung betrachten wir als Grundraum die Menge Πn der Permutationen von {1, . . . , n} mit W-maß µn als Laplaceraum. Sei An (π) = A(π) und Zn (π) = Z(π) für
π ∈ Πn . Sei ϕn : Πn → Πn−1 × {1, . . . , n} mit π 7→ (R(π − ), πn ). Die Rekursion lautet
An (π) = A(ϕn,1 (π)) + Zn (π).
Proposition 1.13.1 Für gegebenes n sind die Zgn ϕn,1 , ϕn,2 unabhängig. Die Verteilung von
ϕn,1 , ϕn,2 ist die gleichmäßige auf dem Bildraum.
Bew: Die Abbildung ϕn ist eine Bijektion. Die Verteilung von ϕn,1 , ϕn,2 wird nachgerechnet und
ebenfalls die Unabhängigkeit.
q.e.d.
Mathem. Modell: Der Input wird gegeben durch eine zufällige Permutation der Länge n mit
Gleichverteilung.
Definiere eine Folge νn , n ∈ IN von W-maßen auf IN rekursiv definiert durch den Anfangswert
ν1 = δ0 und νn , n ≥ 2 ist die Verteilung von X + C mit X, C sind unabhängig, X ist νn−1 verteilt
und C ist verteilt nach
1
falls 1 ≤ j < n − 1
n
P (C = j) =
2
falls
j =n−1
n
Intuitiver mit Zgn geschrieben,
D
Xn = Xn−1 + Cn .
D
Hierbei hat X· die Verteilung ν· und das Zeichen = steht für Gleichheit der Verteilungen von Zgn.
Lemma 1.13.2 Die Verteilung von An : Πn → IN0 unter der Gleichverteilung auf Πn ist gegeben
durch νn .
81
Uwe Rösler
SS12
1.13
Sortieralgorithmen
D
Beweis: Wir beweisen das Lemma durch Induktion nach n. Der Induktionsanfang ν1 = A1 = 0 ist
erfüllt. Wir zeigen den Induktionsschritt von n − 1 nach n. Die Zgn An auf Πn erfüllt
D
An = A(ϕn,1 ) + Zn .
Hierbei sind die Zgn A(ϕn,1 ), Zn = (ϕn,2 )∧(n−1) unabhängig. Die Verteilung von Zn ist diejenige
von C = Cn wie oben angegeben. Die Verteilung von A(ϕn,1 ) ist nach Induktionsvoraussetzung
νn−1 . Das wars.
q.e.d.
Die Analyse für den Erwartungswert an = EXn = EAn beruht auf der Rekursion
an = an−1 + ECn .
Es gilt ECn =
n
2
+
1
2
− n1 . Damit
an =
n
X
j=2
ECj =
n
n
X
1 1
n(n + 3) X 1
j
−
.
( + − )=
2 2 j
4
j
j=1
j=2
Höhere Momente lassen sich ebenfalls einfach berechnen. Zum Beispiel die Varianz bn = VarXn
erhalten wir aus der Rekursion
bn = bn−1 + VarCn .
Die Rekursion ergibt sich aus
D
Xn − an = Xn−1 − an−1 + Cn − ECn .
Asymptotische Verteilung
Satz 1.13.3 Die asymptotische Verteilung von standardisiertem Insertionsort ist die Normalverteilung.
Pn
Bew: An hat eine Verteilung, die wir als Summe k=1 Ck von unabhängigen Zgn darstellen können.
Die Verteilung von Ck ist die gleichmäßige auf {1, . . . , k}. Der Erwartungswert von Ck ist k+1
2 und
Pi
2
.)
Die
Varianz
von
An ist
die Varianz ist k 12−1 . (Verwende die Identität j=1 j 2 = n(n+1)(2n+1)
6
n(n+1)(2n+1)
.
12
Betrachte das Schema ((Cn,k )nk=1 )n mit Cn,k := Ck . Die Summe der n-ten Zeile hat die Verteilung
von An . Dieses Schema ist unabhängig. Dieses Schema standardisieren wir
Ck − ECk
∗
Cn,k
:= √
.
VarAn
Die Behauptung folgt aus dem Satz 1.11.20 von Lindeberg, wenn wir die Lindeberg-Bedingung
gezeigt haben.
n
X
∗
∗ |≥ ) →n 0.
Ln () =
E((Cn,k
)2 11|Cn,k
k=1
Ln () ist 0 für n hinreichend groß, da |Ck − ECk | durch k ≤ n beschränkt ist und die Normierung
√
VarAn wie n3/2 wächst.
q.e.d.
Große Abweichungen
Satz 1.13.4 Für die Laufzeit An von Mergesort gilt
a
P (|An − EAn | ≥ a) ≤ 2e− 4c
mit c =
n(n−1)(2n−1)
.
192
82
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Beweis: Die Hoeffding Abschätzung 1.8.3
Eeλ(Ck −ECk ) ≤ e
liefert
Eeλ(An −EAn ) =
n
Y
2
λ2 (k−1)
8
2
)
λ2
Pn−1
Eeλ(Ck −ECk ) ≤ e 32
k=0
k2
k=1
Damit erhalten wir
2
Eeλ(An −EAn )
≤ ecλ −λa
λa
e
a
für alle λ ≥ 0 und c wie oben. Das beste λ erfüllt λ = 2c
. Dies ergibt die Aussage.
P (An − EAn ≥ a) ≤
1.13.3
q.e.d.
Mergesort
Der Algorithmus Mergesort sortiert eine Menge von Objekten mit einer Ordnungstruktur. Der
n
Einfachheit halber bestehe die Eingabe x ∈ IR6=
aus n unterschiedlichen reellen Zahlen. Die Ausgabe S(x) besteht aus den geordneten Zahlen der Eingabe.
Mergesort:
(i) Teile die Liste in zwei etwa gleich große Listen auf.
(ii) Sortiere jede dieser Listen durch rekursiven Aufruf.
(iii) Merge die beiden sortierten Listen.
Das Ineinandersortieren (=merge) von zwei Listen geschieht nach folgendem Verfahren.
Merge:
(i) Vergleiche die jeweils größte (kleinste) Zahl der Listen.
(ii) Die größere (kleinere) entferne aus der Liste und speichere sie in einer Zielliste (geordnet)
ab.
(iii) Benutze rekursiv Merge bis eine der Listen leer ist.
Der Algorithmus terminiert mit der Ausgabe einer geordneten Liste.
Dies ist die rekursive Beschreibung. Die iterative (=rechnergerechte) Durchführung geschieht
umgekehrt. Zuerst werden Zweierlisten gebildet, dann Viererlisten, dann Achterlisten usw. Die
Programmierung dieses Algorithmus ist nach folgendem Bild für n = 16 einfach.
r
r
r
r
r
r
r
r
r
6
6
C6
C6
1,1 6 C1,2
1,3 6
C2,1
C2,2
6
C3,1
r
r
6
r
r
6
r
r
6
6
r
6
6
6
6
C4,1
Vorbetrachtung: Die Laufzeit des Algorithmus wird im wesentlichen bestimmt durch die Anzahl
n
A(x) der zur Sortierung benötigten Abfragen bei einem Input x =∈ IR6=
von verschiedenen Zahlen.
Schlüssel zur Analyse ist die Rekursion
A(x) = A(l(x)) + A(r(x)) + Z(x).
83
(1.15)
Uwe Rösler
SS12
1.13
Sortieralgorithmen
Hierbei bezeichnet l(x) = (x1 , . . . , xdn/2e ) die linke Liste und r(x) = (xdn/2e+1 , . . . , xn ) die rechte
und Z(x) die Anzahl der benötigten Abfragen zum Ineinandersortieren der sortierten Listen aus
dem Input a(x) und aus b(x).
Wir haben eine teile-und-herrsche (divide-and-conquer) Situation. Die rekursive Gleichung 1.15
dient als Definition für A, sofern Z wohldefiniert ist.
Das Ineinandersortieren wird rekursiv erklärt. Eine geordnete Liste der Länge n ≥ 0 ist ein Element
n
x ∈ IR6=
mit strikt aufsteigenden Koordinaten. Hierbei ist konventionell IR0 = {∅} gesetzt. Sei
L, Ln die Menge aller geordneten Listen bzw. der Listen der Länge n. Betrachte die Mergefunktion
Zs,t : Ls × Lt → IN0 rekursiv definiert durch
Zs−1,t (x− , y) falls xs ≥ yt
Zs,t (x, y) = 1 +
Zs,t−1 (x, y − ) falls xs < yt
mit x ∈ IRs , y ∈ IRt , x− = (x1 , . . . , xs−1 ), y − = (y1 , . . . , yt−1 ) für s, t ≥ 1 und den Anfangsbedingungen Zs,t = 0 falls s = 0 oder t = 0. Zs,t ist wohldefiniert.
Zu x ∈ IRn sei S(x) der Vektor der der Größe nach geordneten Komponenten von x. Dann definiere
Z(x) := Zd n2 e,b n2 c (S(l(x)), S(r(x))).
Worst case analysis:
Zum Ineinandersortieren von zwei Listen der Längen s, t benötigen wir im ungünstigsten Fall
s + t − 1 Vergleiche. Sei
Xn = sup A(x).
|x|=n
Xn erfüllt die rekursive Abschätzung
Xn ≤ Xdn/2e + Xbn/2c + n − 1.
Hieraus ergeben sich obere Abschätzungen
An ≤ n log2 n
für n = 2m ,
m
X
X2∗m−1
X2m
≤
+ 1 − 2−m ≤
(1 − 2−i ) = m − 1 + 2−m−1 .
m
m−1
2
2
j=1
Best case analysis:
Im besten Fall benötigen wir zum Ineinandersortieren zweier Listen der Länge s, t mindestens s ∧ t
Vergleiche. Sei
Xn = inf A(x).
|x|=n
Xn erfüllt die rekursive Abschätzung
Xn ≥ Xdn/2e + Xbn/2c + bn/2c.
Hieraus ergeben sich untere Abschätzungen
n
log2 n ≤ An
2
für n = 2m ,
m
X2m
X2m−1
1 X1
m
≥ m−1
+ ≥
= .
m
2
2
2 j=1 2
2
84
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Average Case:
Sei R die Rangfuntion. Durch Induktion läßt sich leicht zeigen
M (x) = M (R(x))
Z(x) = Z(R(x)).
Anstelle von allgemeinen Listen reicht es Permutationen zu betrachten.
Mathem. Modell: Der Input ist eine zufällige Permutation der Länge n mit Gleichverteilung.
Sei Πn der Raum der Permutionen auf 1 bis n versehen mit der Gleichverteilung µn . Betrachte
An : Πn → IN0 , An (π) = A(π) als Zg. Es gilt die Rekursion, wir unterdrücken in der Schreibweise
π ∈ Πn ,
An = Ad n2 e (R(l)) + Ab n2 c (R(r))) + Zn
mit Z = Zd n2 ,b n2 c (S(l)), S(r)).
Wir benötigen folgendes Lemma.
Lemma 1.13.5 Seien n = s + t natürliche Zahlen. Sei l die Projektion von IRn auf die ersten s
Koordinaten, r auf die letzten t Koordinaten. Die Zgn
Rl : Πn → Πs
Rr : Πn → Πt
Sl : Πn → IRs
auf (Πn , µn ) sind unabhängig. Ferner die Verteilungen von Rl und Rr ist die Gleichverteilung.
Die Verteilung von Zs,t : Πn → IN0 wird gegeben durch
z−1
z−1
t−1 + s−1
P (Zs,t = z) = 11s∧t≤z≤s+t−1
s+t
s
EZs,s
=
Var(Zs,s )
=
2s2
s+1
2s2 (s − 1)
<2
(s + 1)2 (s + 2)
Bew: Betrachte die Abbildung ϕs,t = ϕ : Πn → Πs × Πt × {A ⊂ {1, 2, . . . , n} | |A| = s} definiert
durch ϕ(π) = (R(l(π)), R(r(π)), {π1 , . . . , πs }).
• ϕ ist bijektiv. Aus der Kenntnis von ϕ1 (π) und ϕ3 (π) können wir die ersten s Koordinaten
von π eindeutig bestimmen und aus der Kenntnis von ϕ2 (π) und der verwendeten Symbole
{1, . . . , n}\ϕ3 (π) die restlichen Koordinaten. Damit ist ϕ injektiv. Die Surjektivität folgt demselben Weg.
Die gleichmäßige Verteilung µn auf Πn (Laplaceraum) entspricht dem Ziehen aus einer Urne mit
n Kugeln ohne Zuruecklegen in Reihenfolge. Das von ϕ1 (ϕ2 , ϕ3 , a, b, transportierten Maß ist die
Gleichverteilung auf dem Bild unter der Abbildung. Wir haben einen Laplaceraum. Explizit, die
W-keiten sind
1
1
1
P (ϕ1 = ·) =
P (ϕ2 = ·) =
P (ϕ3 = ·) = n
s!
t!
s
für · aus dem Bildraum. Eine Rechnung zeigt die Unabhängigkeit,
P (ϕ = (τ, ρ, A)) =
1 1 1
1
= P (ϕ1 = τ )P (ϕ2 = ρ)P (ϕ3 = A).
=
n!
s! t! ns
Der Rest ist abzählen.
P (Zs,t ≤ s + t − r) = 111≤r≤s+t−s∧t
und nachrechnen.
s+t−r
s−r
s+t
s
+
s+t−r
s
s+t
s
!
q.e.d.
Rekursion: Definiere eine rekursive Folge von Verteilungen νn , n ∈ IN0 auf IN0 durch ν0 , ν1
das Punktmaß auf 0 und rekursiv νn ist die Verteilung von X + X + C. Hierbei sind X, X, C
85
Uwe Rösler
SS12
1.13
Sortieralgorithmen
unabhängig. Die Verteilung von X und X wird rekursiv durch νd n2 e , µb n2 c gegeben. Die Verteilung
von C = Cn ist diejenige von Zn = Zd n2 e,b n2 c . Intuitiver mit entsprechender Notation
D
Xn = Xd n2 e + X b n2 c + Cn
(1.16)
D
2 ≤ n ∈ IN, (Xi = µi .)
Lemma 1.13.6 Unter der Annahme einer zufälligen Permutation der Länge n mit Gleichverteilung als Input von Mergesort, ist νn die Verteilung von Mergesort An : Πn → IN0 .
Bew: Wir führen eine Induktion über n und zeigen nur den Induktionsschritt n − 1 nach n. Die
Rekursionsgleichung für Mergesort lautet
An = Ad n2 e (R(l)) + Ab n2 c (R(r))) + Zn .
mit Zn = Zd n2 ,b n2 c (S(l)), S(r)). Die 3 Zgn auf der rechten Seite sind unabhängig voneinander,
Lemma 1.13.5. (Beachte, bei Kenntnis von Sl auf Πn kennen wir auch Sr, da genau die Zahlen 1
bis n einmal als Koordinate von Sl oder Sr auftreten.) Die Verteilung der ersten beiden ist laut
Induktionsannahme νd n2 e , µb n2 c . Die dritte Zg Zn hat dieselbe Verteilung wie Cn . Damit ist die
Verteilung von An eindeutig bestimmt und identifiziert als νn .
q.e.d.
Erwartungswerte: Der einfachheit halber betrachten wir nur n = 2m als Zweierpotenzen. Aus
der Schlüsselgleichung ergibt sich eine rekursive Gleichung
a2n = 2an + EC2n
für die Erwartungswerte an = EAn . Mit bm =
a2m
2m
und b0 = 0 erhalten wir
m
bm+1
= bm +
=
2
m
X
i=0
X EC2i+1
EC2m+1
=
.
.
.
=
2m+1
2i+1
i=0
m
X
2i
1
=
2(m
+
1)
−
.
i
i
2 +1
2 +1
i=0
P∞
Damit EAn ≤ 2n log2 n und etwas genauer EAn = n log2 n − cn + o(n) mit c := i=0 2i1+1 .
Bem: Der Abschnitt über Anfänge der Informationstheorie liefert eine untere theoretische Schranke für die erwartete Laufzeit für jeden Sortieralgorithmus. Diese Schranke ist ln2 n! = n log2 n −
n log2 e + o(n). Mergesort liegt sehr dicht bei dieser Schranke.
Bsp: Varianz Aus der rekursiven Gleichung lassen sich Momente berechnen. Für die Varianz
ergibt sich beispielsweise aus
D
X2n − a2n = Xn − an + X n − an + C2n − EC2n
die Rekursion
VarX2m+1 = 2VarX2m + VarC2m+1 .
Diese läßt sich leicht lösen und liefert die Größenordnung c n + o(n) mit c eine Konstante für die
Varianz von An , n eine Zweierpotenz. Hieraus ergeben sich die Abschätzungen
P (An − EAn ≥ a) ≤
cn + o(n)
VarAn
=
.
a2
a2
Asymptotische Verteilung:
Wir betrachten nur Zweierpotenzen n = 2m von n.
Satz 1.13.7 Die asymptotische Verteilung von standardisiertem Mergesort ist die Normalverteilung.
86
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
In Formeln,
An − EAn d
A∗n := √
→m Φ
VarAn
oder als gleichmäßige Aussage formuliert,
sup |P (a ≤ A∗n ≤ b) − Φ(b) + Φ(a)| →m 0.
a,b
Bew: Mit einer entsprechenden Indizierung (alle C-Zgn sind unabhängig und die Verteilung von
Cm,· ist Zn,n mit n = 2m ) A2m = Sm in dem obigen Bild erhalten wir aus der Rekursion 1.16
S1
=
S2
= C2,1 + C1,1 + C1,2
C1,1
(1.17)
(1.18)
S3
= C3,1 + C2,1 + C2,2 + C1,1 + C1,2 + C1,3 + C1,4
(1.19)
...
Sm
=
(1.20)
m−j
m 2X
X
Cj,i .
(1.21)
j=1 i=1
m−j
≤k<
Sm ist die Zeilensumme von einem Schema ((Xm,k )m
k=1 )m∈IN (Setze Xm,k = Cj,i mit 2
m−j
m−j
22
, i = k−2
+ 1) von Zgn. Dieses Schema ist unabhängig. Dieses Schema standardisieren
wir
Xn,k − EXm,k
∗
√
.
Xm,k
:=
VarSm
Die Behauptung folgt aus dem Satz 1.11.20 von Lindeberg, wenn wir die Lindeberg-Bedingung
gezeigt haben.
m−j
Lm ()
=
m 2X
X
E((
j=1 i=1
=
m
X
2m−j E((
j=1
=
m0
X
(Cj,i − ECj,i )2
11|Cj,i −ECj,i |>√VarSm )
VarSm
m
X
... +
j=1
(Cj,1 − ECj,1 )2
11|Cj,1 −ECj,1 |>√VarSm )
VarSm
...
j=m0 +1
für ein m0 ∈ IN. Den zweiten Term schätzen wir grob ab durch
≤
m
X
j=m0 +1
2m−j
m
X
VarCj,1
≤c
2−j ≤ c2−m0 .
VarXm
j=m +1
0
Dieser Term wird beliebig klein für m0 hinreichend groß gleichmäßig in m.
Der erste Term ist 0 für m hinreichend groß, da Cj,1 beschränkt ist für j ≤ m0 und VarXm mit
m gegen ∞ konvergiert.
q.e.d.
Bemerkung: Ist n keine Zweierpotenz, so bleiben alle Argumente grundsätzlich bestehen, die
Rechnungen werden unschön.
Z.B. das Varianzverhalten wird folgendermaßen beschrieben [15]: Es gibt eine gleichmäßig stetige
Funktion f : [0, 1] → IR mit
VarMn
n − 2m − f(
) →n 0
n
2m
mit 2m ≤ n < 2m+1 [29]. f ist minimal genau an den Stellen 0 und 1. (Dies entspricht einer 2-er
Potenz von n.) Die Konvergenz gegen die Normalverteilung bleibt bestehen.
87
Uwe Rösler
SS12
1.13
Sortieralgorithmen
Große Abweichungen:
Satz 1.13.8 Für n eine 2-er Potenz gilt für die Laufzeit von Mergesort
4a2
P (|An − EAn | ≥ a) ≤ 2e− n2 .
Beweis: Sei n = 2m . Die Hoeffding Abschätzung 1.8.3 liefert
m−j
λ(Xm −EXm )
Ee
=
m 2Y
Y
Eeλ(Cj,i −ECj,i ) ≤
j=1 i=1
=
e
λ2
32
Pm
j=1
m
Y
(e
λ2 (2j−1 )2
8
m−j
)2
j=1
2m+j
≤e
λ2
16
2m
2
Damit erhalten wir
2 n2
Eeλ(An −EAn )
≤ eλ 16 −λa
λa
e
für alle λ ≥ 0. Das beste λ erfüllt λn2 = 8a. Dies ergibt die Aussage.
P (An − EAn ≥ a) ≤
1.13.4
q.e.d.
Quicksort
Wir führen eine ausführliche Analyse des Sortieralgorithmus Quicksort durch. Dieser wurde
1961 von Hoare [24] veröffentlicht. Zur Bedeutung sei angeführt, daß das Betriebssystem UNIX
Quicksort implementiert hat (in der Version, für den Vergleich den Median der drei Zahlen auf
den Listenplätzen, erster, letzter und mittlerer, zu nehmen).
Der Algorithmus Quicksort sortiert Objekte mit einer totalen Ordnungsstruktur. Der Einfachn
heit halber bestehe die Eingabe x ∈ IR6=
aus n unterschiedlichen reellen Zahlen. Die Ausgabe S(x)
besteht aus den geordneten Zahlen der Eingabe.
Quicksort:
(i) Wähle zufällig mit Gleichverteilung eine dieser Zahlen aus, genannt das Pivotelement.
(ii) Bilde die Liste der strikt kleineren und der strikt größeren Zahlen als das Pivotelement.
(iii) Speichere diese Listen mit dem Pivotelement in der Mitte in dieser Reihenfolge ab.
(iv) Rufe rekursiv den Algorithmus für die Teillisten mit mehr als einem Element auf.
Das Ergebnis ist eine geordnete Liste. Da die Kardinalität der Mengen stets echt kleiner wird,
endet dieser Algorithmus in endlicher Zeit.
Algorithm 64 für schnelles Sortieren von Hoare 1961
37
10
-55
-55
1070
12
7
7
77
7
10
10
3873
-55
12
12
-55
19
19
19
u
19
3873
37
37
93518
93518
77
77
u
u
u
u u u
u
7
77
93518
3873
12
1070
1070
93518
u
u
10
37
3873
1070
u
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
88
zufällige Zahl
19
7 7
10 37 93518
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Das letzte Bild zeigt die Durchführung abstrakt als Prinzip.
In der praktischen Durchführung geschieht die Umordnung innerhalb der Liste selbst. Nach der
Auswahl des zufälligen Elementes suchen wir von links startend das erste Element echt größer als
das zufällige. Von rechts startend suchen wir das erste echt kleinere. Dann vertauschen wir diese
beiden und fahren mit der Suche fort.
Wenn sich beide Suchzeiger treffen, wird das zufällige zwischen die Liste der strikt kleineren und der
Liste der strikt größeren Zahlen gespeichert. (Das Pivotelement selbst stört etwas dieses Schema.
Genauer: Verfahre wie oben beschrieben, wobei der Platz des Pivotelementes unberücksichtigt
bleibt bis die Zeiger sich treffen. Dann sortiere das Pivotelement entsprechend ein.)
In einer weiteren Liste werden die Adressen der Listenanfänge gespeichert. Der benötigte zusätzliche Speicherraum ist von der Größenordnung O(ln n).
?
?
6
??
6
Problemstellung: Wir sind an der zufälligen Laufzeit des Algorithmus Quicksort interessiert.
Die Laufzeit ist proportional zu der Anzahl der vollzogenen Operationen. In unserem Fall ist die
Laufzeit hauptsächlich bestimmt durch die Anzahl A(x) der benötigten Vergleiche zur Sortierung
der Liste x, zumindest proportional dazu. Da wir einen internen Zufall haben, ist A(x) eine Zg.
Für eine Liste der Länge n benötigen wir n − 1 Vergleiche für die Aufspaltung, und dann noch die
∗
Vergleiche zur Sortierung der verbleibenden Listen. Die Rekursion für die Zgn A(x), x ∈ IR6=
=
∞
n
∪n=0 IR6= , wir unterdrücken das ω, lautet
A(x) = A(l(x)) + A(r(x)) + n − 1,
(1.22)
|x| ≥ 2. Hierbei bezeichne l(x) die linke Liste nach dem Vergleich und r(x) bezeichne die rechte
Liste. Die Zgn A(l(x)) und A(r(x)) sind abhängig vom Input l(x), r(x) und dem internen Zufall.
Gegeben l(x), r(x) sind die Zgn unabhängig. Die Zgn A(x) und A(x) haben dieselbe Verteilung.
Die Anfangswerte sind A(x) = 0 für |x| ≤ 1.
Nun zu einer sauberen Definition der Objekte. (Bitte beim ersten Lesen überschlagen.)
Mathematisches Modell∗ : Wir benutzen die stochastische Version von Quicksort mit internem
Zufall.
– Als Pivotelement wird ein mit Gleichverteilung zufällig gezogenes Listenelement genommen.
– Das Ziehen der Pivotelemente ist für verschiedene Listen unabhängig voneinander.
Definiere die Abbildung ψ
ψ
|x|−j
j
n
∪∞
n=1 (IR6= × {1, . . . , n}) 3 (x, i) 7→ (l(x, i), r(x, i)) ∈ IR6= × IR6=
× {0, 1}
rekursiv mit den Anfangswerte l(x, 1) = ∅ = r(x, 1) für |x| = 1. Sei |x| = n ≥ 2, j der Rang Ri (x)
der i-ten Komponente von x, y = y(x) ∈ IRn gegeben durch

 xl falls l 6= i, j
xi
l=j .
yl =

xj
l=i
und τ := inf{k ≤ j | yk > yj }, σ = sup{k ≥ j | yk ≤ yj }. Setze rekursiv
l(x, i) = (y1 . . . , yj−1 )
r(x, i) = (yj+1 , . . . , yn )
für τ = σ und anderenfalls
l(x, i) = (y1 , . . . , yτ , l(z, i − τ ))
r(x, i) = (r(z, i − τ ), yσ , . . . , yn )
89
Uwe Rösler
SS12
1.13
Sortieralgorithmen
mit z = (yτ + 1, . . . , yσ−1 ). Damit ist ψ wohldefiniert. Beachte die Beziehungen für die Rangfunktion R
R(l(R(·), i) = R(l(·), i))
R(r(R(·), i)) = R(r(·), i)).
n
Seien U (x), x ∈ ∪∞
n=0 N6= unabhängige Zgn mit U (x) hat eine Gleichverteilung auf {1, . . . , |x|}.
Definiere Zgn A(x) rekursiv durch
A(x) = A(l(x, RU (x) (x))) + A(r(x, RU (x) (x))) + |x| − 1
für |x| ≥ 2 und den Anfangsbedingungen A(x) = 0 für |x| = 0 oder 1. R ist die Rangfunktion.
Die beiden Zgn A(l(x, j)), A(r(x, j)) gegeben j = RU (x) (x))) sind unabhängig. Die oben verwendete Zg l(x) ist l(x, RU (x) (x)) und r(x) ist r(x, RU (x) (x)). Damit erfüllt A die Gleichung 1.22 für
kleineren Definitionsbereich. (Übung: Weshalb ist dies unerheblich?.)
Wir fahren auschließlich fort mit der Gleichung 1.22.
Proposition 1.13.9 Die Verteilung von A(x) hängt nur von der Listenlänge n = |x| ab.
Bew: Wir führen eine Induktion über die Listenlänge |x| = n. Der Induktionsschritt n − 1 nach n
ergibt sich aus
A(x) = A(l(x)) + A(r(x)) + n − 1.
Die Listenlänge von l(x) und r(x) ist strikt kleiner als n. Die Verteilung der rechten Seite ist
unabhängig von x und daher die linke.
q.e.d.
Sei νn die Verteilung von A(x) mit |x| = n ∈ IN0 . Die Folge νn , 2 ≤ n ∈ IN erfüllt die rekursive
Schlüsselgleichung,
d
An = AIn −1 + An−In + n − 1
(1.23)
n ∈ IN . Die Zgn Ai , Aj , In , i, j < n sind unabhängig. Die Verteilung von In ist eine gleichmäßige
Verteilung auf den Zahlen 1 bis n. Die Verteilung der Ai undAi ist gleich und rekursiv durch νi
(1.13.10) für i < n gegeben. Die Anfangswerte ν0 , ν1 sind die Punktmaße auf 0.
Proposition 1.13.10 Die Folge νn , n ∈ IN0 ist eindeutig durch die Rekursion bestimmt.
Bew: Der Beweis ist eine Induktion nach n. Wir überschlagen dies.
q.e.d.
Worst Case:
Der Wert der Zgn An für gegebene Listenlänge n ist beschränkt durch die folgenden zwei Extremwerte.
Im ungünstigsten Fall ist die zufällig gewählte Vergleichszahl stets die kleinste (oder größte). Dann
haben wir trotz der Abfragen nur wenig weitere Information gesammelt. Zum Abstieg vom ersten
Level zu dem zweiten benötigen wir n − 1 Vergleiche, vom zweiten zum dritten n − 2, dann n − 3
usw.
Insgesamt ergeben sich n(n − 1)/2 benötigte Vergleiche. Dieses ist tatsächlich der ungünstigste
Fall. (Der formale Beweis wird durch Induktion mit der Schlüsselgleichung erbracht.)
n−1
n−2
n−3
r
rr
rrr
90
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Best Case:
Am günstigsten ist es, wenn die Liste in zwei gleich lange Listen aufgeteilt wird. Nehmen wir an,
wir teilen zufällig die Listen stets in (fast) gleich lange Teillisten. Dann benötigen wir ungefähr
ln2 n Level, und auf jedem Level haben wir rund n Abfragen.
n − 21 + 1
r
n − 22 + 1
r
r
r
n − 23 + 1
r
r
r
r
r
r
r
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
Genauer ergeben sich ndln2 ne − 2dln2 ne + dln2 ne ≈ n ln2 n Abfragen. (Wir haben hier den günstigsten Fall beschrieben. Der Nachweis dieser Behauptung wird durch Induktion mit der Schlüsselgleichung gezeigt.)
Insgesamt ergeben sich die Grenzen n ln2 n − n ≤ An ≤ n2 /2 für eine Liste der Länge n. Eine
Laufzeit von n2 /2 ist sehr schlecht und unakzeptabel. Wir werden zeigen, daß diese nur sehr selten
eintritt.
Average case:
Sei an := EAn der Erwartungswert, eine Liste der Länge n mit Quicksort zu sortieren. Es gilt
die Rekursionsformel a0 = 0, a1 = 0
an = n − 1 +
n
X
1
(ai−1 + an−i ).
n
i=1
Hieraus erhalten wir durch eine Variablentransformation an = n − 1 +
Rechnung die Rekursionsformel
2
n
Pn−1
i=0
ai und nach etwas
an
an−1
2(n − 1)
=
+
.
n+1
n
n(n + 1)
Durch rekursive Anwendung dieser Formel erhalten wir
an = 2
n+1
X
i=1
1
2
+
− 4.
i
n+1
Daher ist der Erwartungswert der Quicksortlaufzeit an = E(An ) approximativ
E(An ) = 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n)
mit γ = 0.57721 . . . die Euler Konstante, siehe Knuth [25].
Für jeden Sortieralgorithmus ist der erwartete Wert der Vergleiche, unter Annahme einer Gleichverteilung auf dem Raum der Listen (Permutationen), nach unten beschränkt durch ln2 n! ≈
ln2 n − n + o(n), siehe Abschnitt 1.14.
Verteilungsanalyse:
Definiere
An − E(An )
.
n
(Die Varianz von An ist von der Größenordnung cn2 .)
Die Quicksort-Rekursionsgleichung (1.13.10) schreibt sich um zu
Qn :=
D
Qn = QIn −1
In − 1
n − In
+ Qn−In
+ Cn (In )
n
n
91
(1.24)
Uwe Rösler
SS12
1.13
Sortieralgorithmen
n ≥ 2 mit
n−1
1
+ (E(Ai−1 ) + E(An−i ) − E(An )) .
(1.25)
n
n
Lassen wir jetzt n gegen unendlich laufen. Es läßt sich zeigen, und sei vorausgesetzt,
• In /n konvergiert schwach gegen eine gleichförmige verteilte Zg U auf dem Einheitsintervall.
• Cn (n · In /n) konvergiert geeignet gegen C(U ) mit
Cn (i) =
C(x) := 2x ln x + 2(1 − x) ln(1 − x) + 1,
x ∈ [0, 1]
• Qn konvergiert schwach gegen eine Zg Q.
Unter diesen Voraussetzungen erwarten wir für Q eine Gleichung der Form
D
Q = QU + Q(1 − U ) + C(U ),
(1.26)
D
mit U, Q, Q unabhängig, Q = Q.
Wir zeigen jetzt mit einem Fixpunktargument, daß es eine Verteilung bzw. Zg Q gibt, die (1.26)
erfüllt.
Kontraktionsmethode:
(Dieser Abschnitt benutzt nichtdiskrete Maße.)
R
Auf dem Raum M der W-Maße auf IR mit endlichem zweiten Moment |x|2 µ(dx) sei d die
Mallows d2 -Metrik,
d(µ, ν) = inf kX − Y k2 .
Das Infimum ist über alle Zgn X, Y mit Verteilung µ, ν.
Bemerkung: Der Raum (M, d) ist ein vollständiger, separabler metrischer Raum [18]. Das
Infimum wird angenommen durch X = Fµ−1 (U ), Y = Fν−1 (U ), mit U eine gleichmäßige Verteilung
und Fµ , Fν die Verteilungsfunktionen
R von µ, ν.
Sei M0 die Menge aller µ ∈ M mit xµ(dx) = 0. Wir betrachten die Abbildung K : M0 7→ M0 ,
D
K(µ) := U X + (1 − U )X + C(U ).
(1.27)
Hierbei sind X, X, U unabhängige Zgn auf einem beliebigen W-Raum. U ist gleichmäßig auf dem
Einheitsintervall verteilt. Die Verteilung von X und X ist µ. Die Abbildung K ist wohldefiniert.
Sie ist unabhängig
von der Wahl des W-Raumes und der Wahl der Zgn. Weiterhin gilt K(µ) ∈ M0
R
wegen xK(µ)(dx) = 0 und
Z
1/2
x2 K(µ)(dx)
= kU X + (1 − U )X + C(U )k2 ≤ 2kXk2 + kC(U )k2 < ∞.
Lemma 1.13.11 (Kontraktionslemma)
Seien µ, ν ∈ M quadratintegrierbar und besitzen dasR
R
selbe erste Moment xdµ(x) = xdν(x). Dann gilt
r
2
d(K(µ), K(ν)) ≤
d(µ, ν).
3
Beweis: Wir wählen die Zg U X + (1 − U )X + C(U ) für die Verteilungen K(µ) und U Y + (1 −
U )Y + C(U ) für die Verteilung K(ν). Hierbei sind U, (X, Y ), (X, Y ) unabhängige Zgn.
Die Zg U hat eine gleichmäßige Verteilung auf dem Einheitsintervall. Die Verteilung von X und
d
d
X ist µ, X = µ = X.
Ferner gilt d( µ, ν) = kX − Y k2 = kX − Y k2 . Dies ist möglich. (Weshalb?) Dann gilt
d2 (K(µ), K(ν))
≤ kU X + (1 − U )X + C(U ) − U Y − (1 − U )Y − C(U )k22
= kU (X − Y ) + (1 − U )(X − Y )k22
= EU 2 E(X − Y )2 + E(1 − U )2 E(X − Y )2
= 32 d2 (µ, ν)
92
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Theorem 1.13.12 Jede Folge M0 3 µ, K(µ), K(K(µ)) = K 2 (µ), K 3 (µ) . . . für quadratintegrierbare W-Maße µ ∈ M2 konvergiert exponentiell schnell gegen einen Fixpunkt. Der Fixpunkte von
K ist eindeutig.
R
R
Beweis:
Die Folge K n (µ) ist eine Cauchyfolge. Die Erwartungswerte xµ(dx) = xK(µ)(dx) =
R
xK n (µ)(dx) sind alle gleich. Eine Anwendung des vorhergehenden Lemmas ergibt für m ≤ n,
Pn−1
d(K m (µ), K n (µ)) ≤ j=m d(K j (µ), KK j+1 (µ))
m/2
Pn−1 j/2
d(µ, K(µ)) ≤ 3 23
d(µ, K(µ)) →m 0
≤ j=m 32
Die Cauchyfolge K n (µ) konvergiert exponentiell
schnell inR d-Metrik gegen einen Grenzwert µ∞ .
R
Dies W-Maß hat denselben Erwartungswert xµ∞ (dx) = xµ(dx) wie das Ausgangsmaß µ.
Das Grenzmaß µ∞ ist ein Fixpunkt µ = K(µ),
d(µ∞ , K(µ∞ )) = d(µ∞ , K n (µ)) + d(K n (µ), K(µ∞ )) →n 0.
• Eindeutigkeit
R
R
Seien ν, ρ zwei Fixpunkte mit demselben Erwartungswert xdν = xdρ.
Es gilt
d(ν, ρ) = d(K(ν), K(ρ)) < d(ν, ρ).
Nachdem wir den Fixpunkt kennen, bestätigen wir unsere Heuristik durch Rechnerei.
Theorem 1.13.13 Die Verteilung von Qn konvergiert in der Mallows d-Metrik gegen den eindeutigen Fixpunkt µ∞ von K.
Siehe [27].
Eine Konsequenz des obigen Satzes ist die Markoffabschätzung
P (|An − EAn | ≥ EAn ) ≤ n2
VarAn
VarQn
.
≈
2
E An
4 ln2 n
Die Varianz von Qn konvergiert gegen die Varianz von Q, die sich aus der Fixpunktgleichung
(1.26) berechnet,
Z 1
Var(Q) = 3
C(x)2 dx = 7 − 2/3π 2 .
0
Große Abweichungen:
Bemerkung: Die tatsächliche W-keit schlechten Laufverhaltens ist wesentlich kleiner, mindestens
const(a)
P (|An − EAn | ≥ EAn ) ≤
na
für jedes a ≥ 0.
Vergleich mit Heapsort: Heapsort, der größte Konkurrent von Quicksort neben Mergesort, benötigt höchstens 4n ln n Abfragen. Trotzdem ist Quicksort vorzuziehen, da Simulationen
in der Regel schnellere Laufzeiten von Quicksort zeigen. Dies liegt an der einfachen rekursiven
Struktur von Quicksort.
Im Erwartungswert benötigt Quicksort approximativ 2n ln n Vergleiche. Dies ist das normale
Laufverhalten. Wir werden zeigen, ein schlechtes Laufverhalten von Quicksort ist sehr selten.
Hierbei definieren wir schlecht als mehr benötigte Abfragen als die obere Grenze 4n ln2 n von
Heapsort.
Ziel ist es zu zeigen, daß P (An ≥ 4n ln n) klein ist für große n.
Die Tchebycheff Ungleichung liefert, ϕAn ist von der Größenordnung n2 ,
P (An − EAn ≥ 4n ln n) ≤
93
const
VarQn
≈
→n 0.
2
2
ln n
ln2 n
Uwe Rösler
SS12
1.13
Sortieralgorithmen
Bem: In der Praxis werden deterministische Versionen von Quicksort benutzt. (Unix benutzt den
Median des ersten, mittleren und letzten Elementes der Liste.) Wenn wir eine Gleichverteilung
des Inputs auf dem Raum der Permutation der Länge n annehmen, verläuft die Analyse analog.
Die Verteilung von An ist νn wie vorher. Jedoch ist An (x) ein fester Zahlenwert von x abhängig.
In der stochastischen Version wie oben ist An (x) eine Zg mit Verteilung νn für jeden Input x der
Länge n.
Multivariates Quicksort
Zur Laufzeitberechnung hatten wir nur die Anzahl der Abfragen benutzt. Viele andere Rechneroperationen benötigen ebenfalls Zeit. Wir betrachten hier neben den Abfragen A die Anzahl
der Vertauschungen V und die Anzahl der Wiederaufrufe W des Algorithmus. Wir erwarten eine
Rekursion der Form
(A(x), V (x), W (x)) = (A(l(x)), V (l(x)), W (l(x))) + (A(l(x)), V (l(x)), W (l(x))) + (n − 1, v(x), 1)
für |x| ≥ 2. Hierbei bezeichne l(x) die linke Liste nach dem Vergleich und r(x) bezeichne die rechte
Liste und v(x) die Anzahl der Vertauschungen vom übergang von x zu den beiden Teillisten. Die
Zgn (A(l(x)), V (l(x)), W (l(x))), (A(l(x)), V (l(x)), W (l(x))), v(x) sind unabhängig. Die Verteilung
von (A, V, W ) ist dieselbe wie für (A, V , W ). Die Anfangswerte sind (A(x), V (x), W (x)) = 0 für
|x| ≤ 1.
Die mehrdimensionale Analyse erfolgt ähnlich [13]. Vergleiche Neininger, A survey of multivariate aspects of the contraction method. Discrete Mathematics and Theoretical Computer Science.
DMTCS vol 8, 31-56, 2006.
1.13.5
Algorithmus MAX:
Der Algorithmus Max findet das größte Element in einer Menge. Die Eingabe sei (der einfachheit
n
halber) eine Liste x ∈ IR6=
aus n unterschiedlichen reellen Zahlen. Die Ausgabe ist die grös̈te Zahl
in dieser Liste.
Nacheinander werden die Daten x1 , x2 , . . . eingelesen und das Maximum der bisherigen Daten
verglichen mit der neuen Date. Wir sind interessiert an der Anzahl der neuen Rekorde. Die Date
xk heißt neuer Rekord, falls xk > supi<k xi gilt. Der Wert Z(x1 , . . . , xk ) = Zk (x) sei 1, falls xk
ein neuer Rekord ist und ansonsten 0. Z1 wird identisch 1 gesetzt. Die Anzahl der Rekorde ist
P|x|
A(x) =: i=1 Zi (x). Die rekursive Gleichung lautet
A(x) = A(x− ) + Z(x).
(1.28)
Worst case: Aus 0 ≤ Z(x) ≤ 1 erhalten wir 0 ≤ A(x) ≤ |x| − 1.
Average: Es gilt A(x) = A(R(x)) mit R der Rangvektor,
A(R(x)) = A(R(x− )) + Z(R(x)).
(1.29)
Annahme: Der Input ist eine zufällige Permutation der Zahlen 1 bis n mit Gleichverteilung.
Definiere eine Folge νn , n ∈ IN von W-mas̈en rekursiv durch den Anfangswert ν0 , ν1 das Punktmaß
auf 0 und νn , n ≥ 2 wird gegeben durch die Verteilung von X + C mit X, C unabhängig und X
ist νn−1 verteilt und C = Cn ist Bernoulli verteilt mit Parameter 1/n. Intuitiver
D
Xn = Xn−1 + Cn .
Proposition 1.13.14 Die Verteilung von An : Πn → IN0 unter der Gleichverteilung auf den
Permutationen ist νn .
Bew: Der Beweis folgt aus einer Induktion über n. Der Induktionsanfang n = 0, 1 ist erfüllt.
Für den Schluß von n − 1 auf n betrachte die Abbildung ϕn : Πn → Πn−1 × {1, 2, . . . , n} mit
94
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
π 7→ (R(π − ), πn ). In Propostion 1.13.1 haben wir die Unabhängigkeit der Komponenten ϕn,1 , ϕn,2
gezeigt.
In der Rekursion 1.29 ist der erste Term auf der rechten Seite eine Funktion von ϕn,1 , der zweite
eine Funktion von ϕn,2 . Damit sind sie unabhängig. Z hat die geforderte Bernoulli(1/n) Verteilung
und π 7→ A(π − ) hat nach Induktionsvoraussetzung
die Verteilung νn−1 .
q.e.d.
Pn
Z
als
Summe
von
unabhängigen
Zgn
mit
Z
Aus der Rekursion erhalten wir An =
i ist
i=1 i
Pn
Ber(1/i) verteilt. Der Erwartungswert EAn ist die n-te harmonische Zahl Hn := i=1 1i ≈ ln n.
Die Varianz berechnet sich zu
VarAn
Hn (2)
n
X
=
i=1
n
X
=
i=1
VarZi =
n
X
i−1
i2
i=1
= Hn − Hn (2)
π2
1
⇒
ζ(2)
=
.
n
i2
6
Mit der Tschebycheff Ungleichung erhalten wir
ln n
VarAn
≈ 2 .
2
cn
cn
P (|An − EAn | ≥ cn ) ≤
Verteilung:
Proposition 1.13.15
An − EAn
d
A∗n = √
→n→∞ N (0, 1).
VarAn
1
Beweis:
PnSeien Zi , i ∈ IN , unabhängige Zgn und Zi sei Bernoulli verteilt zum Parameter pi = i .
An = i=1 Zi ist die Zeilensumme von dem Schema Xn,k = Zk , k = 1, . . . , n.
Dieses Schema ist unabhängig. Wir standardisieren dies und prüfen die Lindebergbedingung nach.
Ln () =
n
X
E
k=1
Zk − EZk 2
√
11| Z√k −EZk |>
VarAn
VarAn
→n 0.
Ab gewissem n gilt Ln () = 0, da Zk − EZk | ≤ 1 gilt und die Varianz von An gegen ∞ strebt.
Große Abweichung: Das Tailverhalten der Verteilung ergibt sich durch
Proposition 1.13.16
a
P (An − EAn ≥ a) ≤ ea−(EAn +a) ln(1+ EAn ) .
Beweis: Eine einfache Rechnung ergibt EeλZi = 1 +
P (An − EAn ≥ a) ≤
eλ −1
i .
Damit folgt
n
Y
eλ(An −EAn )
eλ − 1
−λa −λEAn
=
e
e
(1
+
)
eλa
i
i=1
≤ e−λa−λEAn
n
Y
e
eλ −1
i
= e−λa−λEAn +(e
λ
−1)EAn
i=1
Dies gilt für alle λ. Der Ausdruck wird minimiert für λ mit eλ =
tung.
95
a+EAn
EAn .
Dies ergibt die Behaupq.e.d.
Uwe Rösler
1.14
SS12
1.14
Anfänge der Informationstheorie
Anfänge der Informationstheorie
Eine Nachricht soll vom Sender zum Empfänger übermittelt werden, und dies in kurzer Zeit.
Dazu wird die Nachricht zuerst kodiert, dann technisch die kodierte Nachricht übermittelt und
anschließend dekodiert dem Empfänger übergeben.
Sender.......¿ Kodieren...... ¿ Übermitteln.........¿ Dekodieren....... ¿ Empfänger.
Durch die Kodieren läßt sich die Nachricht komprimieren und dadurch Zeit sparen. Wenn wir die
Zeit messen als Länge der kodierten Nachrichten und die Nachrichten zufällig entstehen, wollen
wir eine Kodierung mit der kürzesten durchschnittlichen Nachrichtenlänge.
Damit verbunden ist die Frage, wie eine Information quantitativ gemessen wird.
Quellenkodierung
Definition 1.14.1 (Kode) Sei A eine endliche Menge, im folgenden Alphabet genannt und B
eine endliche Menge, im folgenden Kodealphabet genannt. Die Elemente eines Alphabets sind
die Buchstaben.
Ein Kode für das Alphabet A ist eine injektive Abbildung ϕ : A 7→ B ∗ = ∪n∈IN B n des Alphabets
A in die endlichen B-Folgen. Ein Kodebuchstabe ist ein Element aus dem Bild des Kodes.
Ein binärer Kode ist ein Kode mit Kodealphabet {0, 1}.
Erweitere einen Kode ϕ zu einer Abbildung ϕ∗ : A∗ → B ∗ via
ϕ∗ ((a1 , . . . , an )) = ϕ(a1 )ϕ(a2 ) . . . ϕ(an ).
Definition 1.14.2 Eine kodierte Nachricht ist eine Folge ϕ(a1 )ϕ(a2 ) . . . ϕ(an ) von Kodebuchstaben.
(Es wäre natürlich, für kodierte Nachricht auch Kodewort zu benutzten. Leider hat Kodewort
bereits in deutscher Sprache den Sinn eines Kodeschlüssels.)
Definition 1.14.3 Ein Kode heißt Folgenkode, falls die Erweiterung ϕ : A∗ → B ∗ ein Kode ist.
Bsp: Kein Folgenkode Sei a kodiert durch 1 und b durch 11. Dies ist ein binärer Kode, aber
kein Folgenkode. Die kodierte Nachricht 111 kann von ab oder von ba herrühren. Wären die
Kodebuchstaben voneinander getrennt, so kann aus der Injektivität des Kodes die Buchstabenfolge
entschlüsselt werden.
Definition 1.14.4 Ein präfixfreier Kode ist ein Kode, sodaß kein Kodebuchstabe ein Anfangsstück eines anderen Kodebuchstabens ist. Formal, sei v = (v1 , v2 , . . . , vm ) ∈ Am und w =
(v1 , v2 , . . . , vn ) ∈ An . v ist Anfangsstück von w falls m ≤ n gilt und v = w|m := (w − 1, . . . , wm ).
Die Länge von v ∈ Am ist m.
Not: |v| = m.
Die Länge eines Kodebuchstabens oder einer kodierten Nachricht ist analog die Anzahl der Nullen
und Einsen.
Die präfixfreie Eigenschaft garantiert eine kodierte Nachricht, bestehend aus einem String von
kodierten Buchstaben, von links nach rechts sukzessive dekodieren zu können. Im Beispiel oben
führe formal die Trennung als neues Zeichen ein. Dann erhalten wir einen präfixfreien Kode.
Betrachten wir einen binären Kodebaum:
96
Elementare Wahrscheinlichkeitstheorie
SS12
)
u
0
Q
Q
Q
Q
+
s
Qu01
u
00
A
A
A
A
Uu
A
u
AUu
u
Uwe Rösler
u
PPP
PP
PP
PP
qu1
@
@
Ru
@
u
A
A
A
A
AUu
u
AUu
u
Die Knoten tragen die natürliche Indizierung durch diejenige 0-1 Folge, die dem Pfad zur Wurzel
entspricht. Eine Abzweigung nach links entspricht der 0 und eine nach rechts einer 1. Auf dem
Raum der Knoten betrachten wir die genealogische Ordnung v g w mit v ist Anfangstück von
w.
Jeder kodierte Buchstabe entspricht einem Knoten und jeder Knoten repräsentiert maximal einen
Buchstaben untr dem Kode. Präfixfrei bedeutet, auf jedem Pfad von der Wurzel ∅ startend bis
nach ∞ gibt es maximal einen kodierten Buchstaben. Anders formuliert, die Kodebuchstaben
liegen auf den Blättern des Baumes T = {v ∈ IN ∗ | v g w für ein Kodewort w}.
Die Knoten 00, 01, 1 z.B. könnten als Kodierungsbuchstaben eines präfixfreien Kodes dienen. Jeder
präfixfreie Kode ist ein Folgenkode.
Lemma 1.14.5 (Kraft) Die Kodebuchstabenlängen eines binären präfixfreien Kodes ϕ erfüllen
X
2−|ϕ(b)| ≤ 1.
(1.30)
b∈B
P
Umgekehrt, geben wir natürliche Zahlen la für jeden Buchstaben a ∈ A vor und gilt a∈A 2−la ≤
1, dann gibt es einen binären präfixfreien Kode ψ mit Kodebuchstabenlängen |ψ(a)| gleich den
vorgegeben Zahlen la .
Beweis: Wir beweisen das Lemma von Kraft durch Induktion nach der Alphabetlänge |A| = n.
• Kraftungleichung
Für den Induktionsschritt zu (1.30) n → n + 1 seien A0 bzw. A1 die Menge aller Buchstaben a,
deren Kodierung ϕ(a) mit 0 bzw. 1 beginnt. Definiere die binären Präfixkodes ψ0 für A0 und ψ1 für
A1 durch (i, ψi (a)) = ϕ(a), i ∈ {0, 1}, a ∈ A, entstanden durch Weglassen der ersten Koordinate.
Sind A0 und A1 beide nicht leer, so folgt nach Induktionsvoraussetzung
X
X
X
2−|ϕ(a)| =
2−|ψ0 (a)|−1 +
2−|ψ1 (a)|−1 ≤ 1.
a∈A
a∈A0
a∈A1
Sind A0 oder A1 leer, so wiederhole den Aufteilungsschritt.
• Umkehrung
Pi
Ordne la , a ∈ A, der Größe nach, etwa la1 ≤ la2 ≤ . . . ≤ lan+1 . Definiere i0 = sup{i | j=1 2−laj ≤
1/2} und A0 := {aj ∈ A | j ≤ i0 } und A1 = A\A0 . Es gilt
X
2−la ≤ 1/2 und
a∈A0
X
2−la ≤ 1/2.
a∈A1
(Übung.)
Sind A0 und A1 nicht
P leer, so gibt es nach Induktionsvoraussetzung binäre präfixfreie Kodes ψi
für Ai , i = 0, 1 mit a∈Ai 2−ψi (a) ≤ 1/2. Der zusammengesetzte Kode ϕ mit ϕ(a) := (i, ψi (a)) für
a ∈ Ai tuts.
Sind A0 oder A1 leer, so wiederhole den Aufteilungsschritt.
q.e.d.
97
Uwe Rösler
SS12
1.14
Anfänge der Informationstheorie
Definition 1.14.6 (Entropie) Die Entropie I(µ) eines W-maßes µ auf A ist der Wert
I(µ) :=
X
µ(a) log2
a∈A
1
.
µ(a)
Wir benutzen die stetige Erweiterung von x 7→ x log2 x1 in x = 0 und ∞. Definiere die Entropie
einer Zg X als Entropie der Verteilung der Zg.
Anstelle des Logarithmus zur Basis 2 könnten wir auch andere Basen wählen. Dies entspricht einer
Multiplikation der (binären) Entropie durch ein Konstante.
Proposition 1.14.7 Für W-maße auf endlichem Alphabet A gilt
0 ≤ I(µ) ≤ ln2 |B|.
Die untere Grenze wird angenommen durch ein Punktmaß, die obere durch die Gleichverteilung.
Beweis:
X
0 ≤ I(µ) =
µ(a) log2
a∈A
1
µ(a)
Jensen
≤
log2 (
X
µ(a)
a∈A
Der zweite Teil der Behauptung wird nachgerechnet.
1
) = ln2 |A|.
µ(a)
q.e.d.
Satz 1.14.8 (Quellenkodierung) Sei X eine Zg auf A. Die erwartete Länge jeden binären
präfixfreien Kodes ϕ ist nach unten beschränkt durch die Entropie von X,
I(X) ≤ E|ϕ(X)|.
Weiterhin gibt es stets einen binären Präfixkode ψ mit erwarteter Kodelänge unter X beschränkt
durch die Entropie plus 1,
E|ψ(X)| < I(X) + 1.
Beweis:
(i) Sei µ(a) := P (X = a).
Mit der Jensen und Kraft Ungleichung folgt
I(X) − E|ϕ(X)| =
X
(log2
a
X
Jensen
2−|ϕ(a)|
2−|ϕ(a)|
)µ(a) ≤ log2 (
µ(a)
) ≤ log2 1 = 0.
µ(a)
µ(a)
a
(ii) Definiere natürliche Zahlen la durch 2−la ≤ µ(a) < 2−la +1 .
P
P
Wegen a 2−la ≤ a µ(a) = 1 existiert nach dem Lemma von Kraft ein binärer präfixfreier
Kode ψ mit diesen Kodewortlängen |ψ(a)| = la . Dieser tut’s:
X
X
E|ψ(X)| =
µ(a)la <
µ(a)(− log2 µ(a) + 1) = I(X) + 1
a
a
.
q.e.d.
Zurück zur Zielsetzung der Kodierung. Wir wollen eine zufällige Nachricht der Buchstabenlänge
n schnell übermitteln. Den Zufall der Nachricht modellieren wir durch iid Zgn X1 , . . . , Xn mit
bekannter Verteilung µ. Die Länge der kodierten Nachricht ist
∗
|ϕ ((X1 , . . . , Xn ))| =
n
Y
|ϕ(Xi )|.
i=1
Im Erwartungswert ist dies
|ϕ∗ ((X1 , . . . , Xn ))| = E n |ϕ(X1 )|.
98
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Dies soll möglichst klein werden.
Wieviel Zeit (=Zeichen) benötigt die typische Nachricht? Nach dem GGZ konvergiert
n
Y
1
ln |ϕ∗ ((X1 , . . . , Xn ))| →n E|ϕ(X1 )| =
|ϕ(Xi )|
n
i=1
gegen den Erwartungswert und, standardnormiert, gegen die Normalverteilung,
ln |ϕ∗ ((X1 , . . . , Xn ))| − nE|ϕ(X1 )| d
p
→n N (0, 1).
nVar ln ϕ(X1 )
Sortieralgorithmen:
Für einen Sortieralgorithmus wollen wir nur die Zahl der benötigten Vergleiche zur Sortierung
betrachten. Alle anderen Operationen, die auch Zeit benötigen, wollen wir vernachlässigen.
Wir interpretieren den Sortieralgorithmus als eine Folge von genauen, fest vorgegebenen Vorschriften, jeweils zwei genau bezeichnete Elemente der vorliegenden Liste in Abhängigkeit vorhergehender Vergleichsergebnisse auszuwählen und zu vergleichen.
Das Ergebnis dieser Vergleiche speichern wir in zeitlicher Reihenfolge als eine 0 − 1 Folge gewisser
Länge ab. Der Vergleichsprozeß ist beendet, wenn wir an Hand der Vergleiche sicher die Liste
ordnen können bzw. geordnet haben.
Betrachten wir nun nur Listen vorgegebener Länge n, interpretiert als Buchstaben des Alphabets.
Da es nicht auf die Absolutgröße der Elemente ankommt, sondern nur die relative, interpretieren
wir jede Liste als eine Permutation der Zahlen 1, . . . , n.
Die Ausführung des Sortieralgorithmus entspricht einer Kodierung unserer Listen. Vom gegebenen Kode, (einschließlich der Angabe, welche Elemente verglichen wurden, bei deterministischen
Algorithmen ist die Angabe einfach, bei stochastischen wie Quicksort müssen wir den Zufall als
bekannt vorgeben, können wir eindeutig die Ausgangsliste rekonstruieren.
Dieser Kode ist ein Präfixkode, da wir an Hand der durchgeführten Vergleiche genau wissen, wann
die Liste geordnet ist (werden kann).
Mathematisches Modell: Sei Πn die Menge aller Permutationen π auf 1, ..., n und P ein W-maß
darauf.
Der Quellenkodierungssatz liefert für jeden binären Präfixkode I(P ) ≤ E|ϕ|.
Allgemein gilt I(P ) ≤ I(Gleichverteilung) = log2 n!. Der schlechteste Fall ist die Gleichverteilung,
was mit der Intuition übereinstimmt.
Lemma 1.14.9 Die erwartete Anzahl der Abfragen für jeden Sortieralgorithmus, um eine zufällige
Liste der Länge n zu sortieren, ist für die Gleichverteilung des Inputs mindestens log2 n!.
Beweis: Jeder Sortieralgorithmus entspricht einem binärem Präfixkode. Der Quellenkodierungssatz liefert das Resultat.
q.e.d.
Der “beste” bekannte Sortieralgorithmus ist Mergesort.
Wir erhalten mit der Stirlingschen Formel ln n! = n ln n − n + o(n) und genauer als globale untere
Schranke
√
ln2 e
.
log2 n! ≥ n log2 n − n log2 e + log 2πn +
12n + 1
Sortierspiel: Wir betrachten “sortieren” jetzt als Spiel zweier Kontrahenten. Sei n (der Einfachheit halber) fest.
(i) Der Spieler I wählt verdeckt den Sortieralgorithmus A.
(ii) Der Spieler II wählt verdeckt eine Permutation π ∈ Πn (entspricht einer Liste).
99
Uwe Rösler
SS12
1.14
Anfänge der Informationstheorie
(iii) Die Werte A und π werden aufgedeckt und die Anzahl der Vergleiche A(π) des Algorithmus
zur Sortierung ermittelt.
(iv) Der Spieler I zahlt an Spieler II den Betrag A(π) − C. C ist ein vorher vereinbarter Betrag.
Der Spieler I wählt den Algorithmus nach einer Verteilung µ und der Spieler II wählt die Permutation (=zu sortierende Liste) nach einer Verteilung ν. Die durchschnittliche Auszahlung beträgt
dann
X
EA(π) =
µ(A)ν(π)A(π) =:< µ, ν > .
A,π
Spieler I möchte die Anzahl der Abfragen möglichst klein machen, Spieler II möglichst groß. Dies
sind gegensätzliche Ziele.
Spieler I kann aus eigener Kraft mindestens
inf sup < µ, ν >
µ
ν
sicherstellen für jede Wahl des Spielers II tut.
Spieler II kann mindestens (aus eigener Kraft)
[sup inf < µ, ν >
ν
µ
sicherstellen, unabhängig von der Wahl des Spielers I.
Ohne Beweis sei angeführt:
inf sup < µ, ν >= sup inf < µ, ν >=: V.
µ
ν
ν
µ
Der Wert V heißt der Spielwert des Spiels.
Wird als Grundgröße C der Spielwert V gewählt, so ist das Spiel fair, d.h. im Erwartungswert ist
kein Spieler bevorteilt oder benachteiligt.
Obiges Lemma 1.14.9 gibt eine untere Schranke für V ,
I(Gleichverteilung) = log2 n! ≤ V.
Obere Schranken ergeben sich durch die bekannten Sortieralgorithmen, z.B. Mergesort. Bessere
Schranken sind mir nicht bekannt und auch der Spielwert V ist unbekannt.
Spielstrategien: Die optimale Strategie für Spieler II besteht in zufälliger Wahl der Permutation
mit Gleichverteilung. Intuitiv ist dies naheliegend, da dann Spieler I am wenigsten Information
(=maximale Entropie) für die Wahl seines Algorithmus hat.
Mathematisch formal folgt dies folgendermaßen:
(ii) Spieler II will ein ν finden, welches inf µ < µ, ν > maximiert.
Sei e ∈ Πn eine
P Permutation und νe das W-maß auf den Permutationen mit νe (π) := ν(e◦π).
1
Sei ν = n!
e∈Πn νe . Für einen Algorithmus A sei Ae derjenige Algorithmus mit Ae (π) =
A(e ◦ π). Analog verwenden wir µe mit µe (Ae ) = µ(A). Beachte
< µ, ν >=
X
A(π)µ(A)ν(π) =
π∈Πn
X
eπ∈Πn
für alle e ∈ Π.
• inf µ < µ, ν >≤ inf µ |µ, ν >
100
A(eπ)µ(A)ν(eπ) =< µe , νe >
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
inf < µ, ν > ≤ inf inf < µe , ν >= inf inf < µ, νe−1 >
µ
µ e∈Πn
µ e∈Πn
1 X
≤ inf
< µ, νe >
µ n!
e∈Πn
=
inf < µ, ν >
µ
Anstelle von ν kann Spieler II daher oEdA die Gleichverteilung ν wählen. Anders fomuliert,
Spieler II sollte die Daten vorher gut mischen.
(i) Nun zur Sicht des Spielers
I. Er sollte, ganz analog zu obigem aus Symmetriegründen, nur
P
1
µ
Mittelungen µ = n!
e∈Πn e wählen.
Spieler I kann dies intern durch einen Zufall im Algorithmus verwirklichen. (Siehe auch
Quicksort.) Die einfachste Vorstellung ist allerdings ein Algorithmus, der zuerst die eingegebenen Daten gut mischt bevor er sortiert. (Dazu sind keine Abfragen notwendig.) Damit
erreicht der Spieler, daß die Laufzeit auch für eine deterministischen Algorithmus unabhängig
von der Originalliste ist. Intuitiv ist dies gut nach dem Spielprinzip, dem Gegner möglichst
wenig Einflußnahme auf das Spiel zu belassen.
Mathematisch formal argumentiere (analog wie oben).
101
Uwe Rösler
SS12
102
1.14
Anfänge der Informationstheorie
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Literaturverzeichnis
[1] R. Arratia, L. Goldstein and L. Gordon, Poisson approximation and the Chen-Stein method.
Stat. Sci. 5, 403-434 (1990)
[2] H. Bauer Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie. de Gruyter 1968.
[3] K. Behnen und G. Neuhaus Grundkurs Stochastik. Teubner 1984.
[4] A.D. Barbour, L Holst and S. Janson, Poisson Approximation, Oxford University Press,
Oxford, 1992.
[5] H. Dinges und H. Rost Prinzipien der Stochastik. Teubner 1982.
[6] M. Greiner und G. Tinhofer Stochastik für Studienanfänger der Informatik. Hanser 1996.
[7] W. Feller An introduction to probability theory and its applications. Wiley 1957.
[8] M. Fisz Wahrscheinlichkeitsrechung und mathematische Statistik. VEB Deutscher Verlag der
Wissenschaften 1980.
[9] N. Henze Stochastik für Einsteiger. Vieweg 1997.
[10] K. Jacobs Discrete Stochastics. Birkhäuser 1992.
[11] U. Krengel Einführung in die Wahrscheinlichkeitstheorie und Statistik. de Gruyter 1985.
[12] R. Mathar und D. Pfeifer Stochastik für Informatiker. Teubner 1990.
[13] Ralph Neininger A survey of multivariate aspects of the contraction method. Discrete Mathematics and Theoretical Computer Science. DMTCS vol 8, 31-56, 2006.
[14] J. Pfanzagl Elemtare Wahrscheinlichkeitsrechung. de Gruyter 1988.
[15] Jens Schimmer Stochastische Analyse des Mergesort-Algorithmus. Diplomarbeit Mathematisches Seminar zu Kiel, 1997.
[16] K. Schürger Wahrscheinlichkeitstheorie. Oldenbourg Verlag, 1998.
[17] M. Abramowitz und A. Stegum Handbook of Mathematical Functions. Applied Mathematical
Studies 55, National Bureau of Standards, U.S. Government printing office, fourth edition.
[18] P.J. Bickel und D.A. Freedman Some asymptotic theory for the bootstrap. Ann. Prob. 9,
1196-1217, 1981.
[19] M. Cramer, Stochastic analysis of the Merge-Sort algorithm. Random Structure and Algorithms, 11 (1997), 81-96.
[20] B.W. Gnedenko und A.N. Kolmogorov Grenzverteilungen von Summen unabhängiger Zufallsgrößen. Akademie-Verlag Berlin 1959.
103
Uwe Rösler
SS12
1.14
Anfänge der Informationstheorie
[21] Grübel,R. und Rösler,U. Asymptotic distribution theory for Hoare’s selection algorithm. Advances in Applied Probability 28 (1996) 252-269.
[22] Hahn-Rosenthal SET FUCTIONS 1948 chap IV,§16 .................................
[23] Halmos, P.R. Measure Theory. van Nostrand 1950.
[24] C.A.R. Hoare, Quicksort. Comp. J., 5 (1962), 10-15.
[25] D.E. Knuth The art of computer programming, Vol.3: Sorting and searching. Reading M.A.,
Addison-Wesley 1973.
[26] V.V. Petrov Sums of independent random variables. Springer Verlag 1975.
[27] Rösler, U. A limit theorem for ”Quicksort”. Informatique théorique et Applications / Theoretical Informatics and Applications 25 (1991), 85-100.
[28] Rösler, U. A fixed point theorem for distributions. Stochastic Processes and their Applications
37 (1992), 195-214.
[29] Jens Schimmler Stochastische Analyse des Mergesort-Algorithmus. Diplomarbeit Kiel 1997.
[30] Sozanov, V.V. Normal Approximation - some recent advances. Lecture Notes in Mathematics
879, (1981), Berlin.
[31] E.T. Whittaker und G.N. Watson A Course of Modern Ananlysis. Cambridge University
Press, fourth edition, 1927.
104
Herunterladen