Konzepte und diskrete Wahrscheinlichkeitstheorie

Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Kapitel 1
Konzepte und diskrete
Wahrscheinlichkeitstheorie
1.1
Einführung und Motivation
Wahrscheinlichkeiten werden im täglichen Sprachgebrauch verwendet und intuitiv verstanden.
Hieraus entwickeln wir dann in mehreren Schritten das gängige Konzept der Wahrscheinlichkeitstheorie, die Axiomatik von Kolmogoroff.
1.1.1
Laplaceräume
Beispiel 1.1.1 Wir würfeln einen normalen Würfel. Die Ergebnisse sind eine Zahl aus 1 bis 6.
Die Wahrscheinlichkeit (W-keit), dass die Zahl 6 erscheint ist 16 . Aus Symmetriegründen ist die
Wahrscheinlichkeit für das Erscheinen der Zahl 1 genauso gross. Für jede Zahl i von 1 bis 6 gilt:
Wahr(Die Zahl i erscheint) =
1
.
6
Die Wahrscheinlichkeit (W-keit) für das Würfeln einer geraden Zahl ist
Wahr(Eine gerade Zahl erscheint) = Wahr(2) + Wahr(4) + Wahr(6) =
1
.
2
Ebenso lassen sich andere W-keiten für Teilmengen A der Ergebnismenge {1, 2, . . . , 6} leicht berechnen,
1
Wahr(A) = |A|.
6
Würfeln ist ein einfaches Beispiel eines Zufallsexperiments. Die Ergebnisse heis̈en auch Realisierungen des Zufallsexperiments. Der Raum aller Realisierungen heis̈t Stichprobenraum und
wird konventionell mit Ω bezeichnet. Ein Element ω des Stichprobenraumes heißt Realisierung oder
Stichprobe. Die Potenzmenge P(Ω) des Stichprobenraumes heis̈t Ereignisraum, eine Teilmenge
des Stichprobenraumes Ereignis. Ein Wahrscheinlichkeitsmas̈ (W-mas̈) ordnet jedem Ereignis einen
Wert aus dem Einheitsintervall [0, 1] zu. Konventionell wird diese Abbildung
P : P(Ω) → [0, 1]
mit P als Abkürzung fürs englische probability bezeichnet.
Definition 1.1.2 (Laplaceraum) Ein Laplaceraum ist ein Tupel (Ω, P(Ω), P ). Hierbei ist Ω
eine nichtleere endliche Menge und P die Abbildung auf der Potenzmenge P(Ω) ins Einheitsinvall
gegeben durch
|A|
P (A) =
.
|Ω|
1
Uwe Rösler
Merkregel:
nisses die
SS12
1.1
Einführung und Motivation
Einprägsamer ausgedrückt: für Laplaceräume ist die Wahrscheinlichkeit eines Ereig-
Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle.
Jedes Elementarereignis {ω} hat die W-keit
W-keit eines Ereignisses berechnet sich zu
1
|Ω| .
P (A) =
Elementarereignisse haben die gleiche W-keit. Die
X
P ({ω}).
ω∈Ω
Die Bestimmung von W-keiten reduziert sich zu reinem Abzählen.
Beispiel 1.1.3 (Lotto) Aus 49 durchlaufend numerierten Kugeln werden 6 Kugeln zufällig gezogen. Ein Ergebnis ist die Menge der sechs gezogenen Zahlen, üblicherweise geschrieben als 6-Tupel
(x1 , . . . , x6 ) mit 1 ≤ x1 < x2 < . . . < x6 ≤ 49. Dies sind die Stichproben. Jede Stichprobe hat
dieselbe W-keit. (Dazu stelle man sich die Kugeln umnummeriert vor. Die Umnummerierung hat
keinen Einflus̈ auf das Ziehen der Kugeln. Daher sollte mögliche Zahlenkombination dieselbe Wkeit besitzen.) Wir haben einen Laplaceraum vorliegen. Die W-keit 6 richtige mit dem Tip y zu
haben ist
1
1
1
= 49 =
P ({y}) =
|Ω|
13.983.816
6
Lemma 1.1.4 Eine n-elementige Menge hat
n
k
k-elementige Teilmengen.
n!
Notation nk := k!(n−k)!
= n(n−1)(n−2)...(n−k+1)
wird n über k gelesen. Das Symbol n! = n(n −
k(k−1)...1
1)(n − 2) . . . 1 wird n-Fakultät
gelesen.
Konvention 0! = 1 und n0 = 1
Auch auf Laplaceräumen gibt es interessante Ereignisse zu betrachten.
Beispiel 1.1.5 Wir betrachten n-maliges Würfeln eines Würfels. Eine Realisierung wird durch
ein Element ω = (ω1 , . . . , ωn ) aus {1, 2, . . . , 6}n beschrieben. Jede Realisierung sollte gleichwahrscheinlich sein. Es ergibt sich der Laplaceraum (Ω = {1, . . . , 6}n , P ).
Sei z.B. X(ω) = |{i ≤ n | ωi = 1}| die Anzahl der aufgetretenen
Einsen. Zu jedem ω betrachten wir
die Menge der Koordinaten belegt mit einer 1. Es gibt nk k-elementige Teilmengen. Das Urbild
einer k-elemtigen Menge hat die Kardinalität 5n−k .
n−k
n 5
|{ω | X(ω) = k}|
P ({ω | X(ω) = k}) =
=
.
6n
k 6n
1.1.2
Diskrete Wahrscheinlichkeitsräume
Laplaceräume sind die einfachsten Wahrscheinlichkeitsräume. Unser nächstes Beispiel zeigt einen
W-Raum, der kein Laplaceraum ist.
Beispiel 1.1.6 Wir werfen eine Münze solange bis Adler erscheint. Das Ergebnis dieses Zufallsexperiments sei die Anzahl der Würfe. Der Stichprobenraum sind die natürlichen Zahlen IN. Die
W-keit für einmaliges werfen ist 12 , für zweimaliges werfen 14 für dreimaliges 81 usw
P ({n}) = 2−n .
Die W-keit eines Ereignisses A berechnet sich zu
X
P (A) =
P ({ω}).
ω∈A
2
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Definition 1.1.7 (Diskreter Wahrscheinlichkeitsraum) Ein diskreter W-raum ist ein Tupel (Ω, P(Ω), P ). Hierbei ist Ω eine endliche oder abzählbare nichtleere Menge und die Abbildung
P : P(Ω) → [0, 1] erfüllt die Eigenschaften
X
∀A ⊂ Ω
P (A) =
P ({ω})
ω∈A
P (Ω) = 1.
Proposition 1.1.8 Sei Ω eine endliche oder abzählbare nichtleere Menge. Es gibt eine Bijektion
P zwischen W-mas̈en P auf der Potenzmenge von Ω und positiven Funktionen f auf Ω mit
ω∈Ω f (ω) = 1. Diese Bijektion kann durch
P ({ω}) = f (ω)
gegeben werden.
Der Beweis ist einfach.
W-mas̈e eines diskreten W-raumes werden eindeutig beschrieben durch die Dichtefunktion f.
Ist ω1 , ω2 , . . . eine Aufzählung von Ω, so spricht man auch von dem Wahrscheinlichkeitsvektor
(f (ω1 ), f (ω2 ), . . .).
Die Wahrscheinlichkeit eines Ereignisses A berechnet sich zu
X
P (A) =
f (ω).
ω∈A
Die Dichtefunktion f kann den Wert 0 annehmen.
Beispiel 1.1.9 (Ereignisraum eines rot-grün Blinden) Wir würfeln zwei ununterscheidbare
Würfel gleichzeitig. Als Ergebnis dieses Experiments erhalten wir ein Tupel (i, j), i ≤ j der gewürfelten Zahlen. Das Tupel haben wir der Grös̈e nach geordnet, die kleinere Zahl steht zuerst. Da die
Würfel ununterscheidbar sind, können wir die Zahlen nicht einem Würfel zuordnen. Das W-mas̈
P auf dem Stichprobenraum beschreiben wir durch die Dichtefunktion f
1
f alls i = j
36
f (i, j) =
2
f alls i < j
36
Wie haben wir die W-keiten gefunden? Betrachten wir dazu das Experiment des würfelns mit
zwei unterscheidbaren Würfeln, z.B. roter und grüner Würfel. Als Ergebnis notieren wir das Tupel
(i, j), i das Ergebnis des roten Würfel und j des grünen. Sei (Ω, P ) der zu diesem Experiment
gehörige Laplaceraum.
Ein rot-grün blinder Mensch kann die Würfel nicht unterscheiden und notiert die gewürfelten
Zahlen als Tupel (i, j), i ≤ j der Grös̈e nach geordnet. Der Farbblinde benutzt den diskreten Wraum (Ω0 , P 0 ) aus Beispiel 1.1.9. Jedem beobachtbaren Ereignis des Farbblinden ordnen wir ein
entsprechenden Ereignis mit unterscheidbaren Würfeln zu. Dazu betrachten wir die Abbildung
X : Ω → Ω0
Ω 3 (i, j) 7→ X(i, j) = (min i, j, max i, j) ∈ Ω0 .
Diese Abbildung ist wohldefiniert und surjektiv. Ein Ereignis A0 des Farbblinden entspricht dem
Ereignis X −1 (A0 ) des Normalsichtigen. Daher definiert
P 0 (A0 ) := P (X −1 (A0 ))
das richtige W-mas̈ P 0 für den Farbblinden. P 0 heis̈t auch transportiertes Mas̈s.
Bemerkung: Im obigen Beispiel haben wir eine Äquivalenzrelation auf Ω gebildet (ω ∼ ω ↔
X(ω) = X(ω)) und Ω0 entspricht den Äquivalenzklassen. Auf Ω selbst bezogen hat der Farbblinde
einen echt kleineren Ereignisraum (X −1 (Pot(Ω0 )) als der Normalsichtige.
3
Uwe Rösler
1.1.3
SS12
1.1
Einführung und Motivation
Kolmogoroff Axiomatik
Wir kommen jetzt zum allgemeinen Konzept der Wahrscheinlichkeitstheorie. Das Beispiel des
Farbblinden zeigt bereits die Notwendigkeit kleinere Ereignisräume als die volle Potenzmenge
zuzulassen. Wir benötigen strukturelle Forderungen an die Ereignisraum, wie z.B. die Vereinigung
von Ereignissen ist ein Ereignis.
Die folgende Axiomatik von Kolmogoroff, 1933 Grundbegriffe der Wahrscheinlichkeitstheorie, hat
sich als sehr erfolgreich erwiesen.
Definition 1.1.10 Ein Wahrscheinlichkeitsraum ist ein Tupel (Ω, A, P ). Der Stichprobenraum Ω ist eine nichtleere Menge, der Ereignisraum A ⊂ P(Ω) ist eine σ-Algebra und P : A →
[0, 1] ist ein Wahrscheinlichkeitsmas̈.
Definition 1.1.11 Eine σ-Algebra A über einer Menge Ω ist eine Teilmenge der Potenzmenge
von Ω mit den folgenden Eigenschaften
i) A ist nicht leer.
ii) A ist komplementabgeschlossen.
iii) A ist abgeschlossen bzgl. abzählbarer Vereinigung.
In mathematischerer Schreibweise
i) A =
6 ∅
ii) ∀ A ∈ A : Ac ∈ A
iii) ∀ An ∈ A, n ∈ IN : ∪n∈IN An ∈ A
Ein meßbarer Raum (Ω, A) besteht aus einer nicht leeren Menge Ω und einer σ-Algebra darüber.
Bemerkung: Die Forderung A nicht leer können wir durch A enthält die leere Menge ersetzen.
Not: R := IR ∪ {−∞, ∞} bezeichne die erweiterten reellen Zahlen.
Definition 1.1.12 Ein Maß auf einem mes̈baren Raum (Ω, A) ist eine Abbildung µ : A → IR mit
folgenden Eigenschaften
i) µ(∅) = 0
ii) µ(A) ≥ 0 für jedes Element A der σ-Algebra A
S
P
iii) µ( ◦ n∈IN An ) = n∈IN µ(An ) für jede paarweise disjunkte Folge An , n ∈ IN aus A.
S
Not: Das Symbol ◦ i Ai steht für die Vereinigung paarweiser disjunkter Mengen Ai , i aus einer
Indexmenge.
Definition 1.1.13 Ein Wahrscheinlichkeitsmaß(W-maß) ist ein Maß µ mit der zusätzlichen
Normierung
µ(Ω) = 1.
Kon: W-mas̈e werden üblicherweise mit P bezeichnet.
Definition 1.1.14 Ein Maßraum ist ein Tupel (Ω, A, µ) bestehend aus einem meßbaren Raum
(Ω, A) und einem Maß µ darauf. Ein W-raum ist ein Maßraum (Ω, A, P ) mit einem W-maß P.
Beispiele: Laplaceräume und diskrete W-räume sind W-räume. Jeder W-raum mit endlichem Stichprobenraum Ω, der Potenzmenge als σ-Algebra und gleicher W-keit aller Stichproben ist ein Laplaceraum. Jeder W-raum mit höchstens abzählbarem Stichprobenraum Ω und der Potenzmenge
als σ-Algebra ist ein diskreter W-raum.
Der Ereignisraum A ist im allgemeinen kleiner als die Potenzmenge. (Es gibt viele Mas̈e kleineren
σ-Algebren, die nicht auf die Potenzmenge fortgesetzt werden können.)
4
Elementare Wahrscheinlichkeitstheorie
1.1.4
SS12
Uwe Rösler
Zufallsgrößen:
W-Räume sind die neuen mathematischen Objekte, die wir betrachten wollen. Zu einer tieferen
Theorie benötigen wir Morphismen, d.h. strukturerhaltende Abbildungen zwischen den Objekten.
Definition 1.1.15 Eine Abbildung X von einem meßbaren Raum (Ω, A) in einen anderen mes̈baren Raum (Ω0 , A0 ) heis̈t mes̈bar, falls X −1 (A0 ) ∈ A für jedes Ereignis A0 ∈ A0 . Eine Zufallsgröße (Zg) ist eine mes̈bare Abbildung X : Ω → Ω0 .
Not: Zgn werden mit gros̈en Buchstaben gekennzeichnet, X, Y, Z. Realisierungen werden vorzugsweise mit kleinen Buchstaben bezeichnet.
Der Begriff Zufallsgrös̈e wird ins Englischen durch random variable übersetzt. Eine Rückübersetzung liefert den Begriff Zufallsvariable, der synonym zu Zufallsgrös̈e benutzt wird.
Bemerkung Den Begriff Meßbarkeit benötigen wir nur, falls wir Ereignisräume betrachten, die
kleiner als die Potenzmenge sind. Im Setting diskreter W-räume ist jede Funktion bereits meßbar.
1.1.5
Transportierte Maße
Proposition 1.1.16 Sei X : Ω → Ω0 eine Abbildung von einem Maßraum (Ω, A, µ) in einen
meßbaren Raum (Ω0 , A0 ). Dann ist die Abbildung µ0 : A0 → IR
µ0 (A0 ) := µ(X −1 (A0 ))
ein Mas̈.
Beweis: Nachrechnen der Eigenschaften. (Übung)
Definition 1.1.17 Das Maß µ0 wie oben heis̈t transportiertes Maß. Ist X eine Zg und µ = P
ein W-maß, so heis̈t µ0 = P 0 die Verteilung von X.
Not: Folgende Notationen sind gebräuchlich, P X , PX und P X −1 . Ich benutze vorzugsweise P X
für die Verteilung von X.
Not: Das ω wird gerne unterdrückt. Wir schreiben X ∈ A0 oder auch {X ∈ A0 } für das Ereignis
{ω ∈ Ω | X(ω) ∈ A0 } = X −1 (A0 ). Typisch ist P (X ∈ A0 ) anstelle P ({ω ∈ Ω | X(ω) ∈ A}).
Not: Mengenklammern werden gerne unterdrückt. Wir schreiben z.B. P (ω) anstelle von P ({ω}).
1.1.6
Verteilungen
Im folgenden betrachten wir nur diskrete W-räume mit der Potenzmenge als Ereignisraum. Einige W-räume, mehr noch die zugehörigen W-maße, auch Verteilungen genannt, sind besonders
wichtig.
• Bernoulliverteilung: Dies ist ein diskretes W-maß P auf dem Stichprobenraum {0, 1} mit
P (1) = p und q := P (0) = 1 − p. Das Standardbeispiel ist der Münzwurf. Das Ergebnis des
Münzwurfs ist 1 (für Kopf) mit Wahrsch. p und 0 (für Zahl) mit Wahrsch. q.
• Binomialverteilung: Die Binomialverteilung Bin(n, p) zum Parameter (n, p), 0 ≤ n, 0 ≤
p ≤ 1, ist ein W-Maß P auf dem Stichprobenraum Ω = {0, . . . , n} mit
n k
P ({k}) =
p (1 − p)n−k .
k
Werfen wir n mal eine gefälschte Münze, p sei die Wahrsch. für Kopf (1), so ist die Gesamtanzahl S der Kopfwürfe P ({ω | S(ω) = k}) = P ({k}) binomialverteilt Bin(n, p).
5
Uwe Rösler
SS12
1.1
Einführung und Motivation
• Geometrische Verteilung: Die geometrische Verteilung Geo(p) zum Parameter p ∈ [0, 1)
ist ein W-Maß P auf den natürlichen Zahlen als Stichprobenraum mit
P ({k}) = (1 − p)pk−1 .
Wir werfen eine gefälschte Münze, p sei die Wahrsch. für Kopf (= 1). Sei X die Anzahl der
Kopfwürfe vor dem ersten Zahlwurf. Das Ereignis,der k-te Wurf ist der erste Zahlwurf, hat
die Wahrsch. P ({ω | X(ω) = k}) = (1 − p)pk−1 .
• Poissonverteilung: Die Poissonverteilung Poi(λ) zum Parameter λ ∈ (0, ∞) ist ein W-Maß
P auf dem Stichprobenraum IN0 mit
P ({k}) = exp(−λ)λk /k!.
Beachte
P
k
P ({k}) = 1 wegen der Taylor Entwicklung exp(x) =
xn
n=0 n! .
P∞
• Negative Binomialverteilung: Die negative Binomialverteilung zum Parameter (n, p),
n ∈ IN, 0 ≤ p < 1, ist ein W-Maß P auf dem Stichprobenraum IN0 mit
k+n−1 n k
P ({k}) =
q p ,
k
P
P k+n−1 k
1
q = 1 − p. Beachte k P ({k}) = 1 wegen der Taylor Entwicklung (1−x)
x .
n =
k
k
6
Elementare Wahrscheinlichkeitstheorie
1.2
SS12
Uwe Rösler
Kombinatorische Wahrscheinlichkeitstheorie
In diesem Abschnitt betrachten wir nur endlichen Stichprobenräume versehen mit der Potenzmenge als σ-Algebra. Das Wahrscheinlichkeitsmaß P schreibt sich als additive Funktion,
X
P (A) =
P ({ω}).
ω∈A
Notation: P (ω) = P ({ω}).
Durch gute Wahl des w-theoretischen Modells reduzieren sich viele W-theoretische Argumente auf
Kombinatorik und geschicktes Abzählen. Die Betonung liegt auf geschicktes, denn eine häufige
Schwierigkeit ist die Wahl der “richtigen” Anschauung und Darstellung des Stichprobenraumes.
Mit der richtigen Betrachtungsweise wird das Abzählen meist einfach.
Besonders geeignete Kandidaten sind die Laplaceräume, da die W-keiten sich als Quotient erweisen,
Anzahl der günstigen geteilt durch die Anzahl der möglichen Fälle.
1.2.1
Laplaceraum
Definition 1.2.1 Ein Laplaceraum ist eine endliche Menge Ω versehen mit der Potenzmenge
als σ-Algebra und dem W-maß
|A|
P (A) =
|Ω|
auf den Ereignissen.
Proposition 1.2.2 Ein W-raum (Ω, P(Ω), P ) mit endlichem Stichprobenraum ist genau dann ein
Laplaceraum, wenn alle Stichproben gleichwahrscheinlich sind.
Bew: Die Hinrichtung folgt aus P (ω) =
aus
1
|Ω|
und die Rückrichtung, beachte 1 = P (Ω) =
P (A) =
X
P ({ω}) =
ω∈A
P
ω∈Ω
P ({ω})
|A|
.
|Ω|
q.e.d.
Die Standardvorstellung zu einem Laplace-Experiment ist das Modell einer Urne mit n numerierten
Kugeln, aus der wir einmal ziehen. Überhaupt bilden Urnenmodelle eine geeignete Vorstellung für
alle w-theoretischen Fragestellungen bei endlichem Stichprobenraum. Daher eine kleine Übersicht
der wichtigsten Urnenmodelle.
1.2.2
Urnenmodelle
13j
12j
11j 10j8j 9j 14j
6j 7j 5j 1j 4j 2j 3j %
&
Gegeben sei eine Urne mit n numerierten Kugeln, aus der wir insgesamt k-mal ziehen wollen. Die
Kugeln seien durchgehend numeriert von 1 bis n. Wir ziehen zufällig (jede Kugel hat dieselbe
W-keit) eine Kugel heraus und sehen uns das Ergebnis an. Abhängig vom Urnenmodell legen wir
die Kugel zurück oder nicht. Dann wird zum zweitenmal zufällig gezogen usw., insgesamt k-mal.
Als Gesamtergebnis notieren wir die Nummern der gezogenen Kugeln in zeitlicher Reihenfolge der
Ziehung oder, falls uns die zeitliche Reihenfolge vorenthalten wird, in lexikographischer Ordnung.
(i) Ziehen in Reihenfolge und mit Zurücklegen
7
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Eine Realisierung ist ein Tupel ω = (ω1 , ω2 , . . . , ωk ), wobei ωj die Nummer der j-ten gezogenen Kugel angibt. Jede solche Realisierung ist gleich wahrscheinlich (Symmetrieüberlegungen
und eventuelle Umnummerierung der Kugeln). Der zugehörige Stichprobenraum
ΩRZ := {1, 2, . . . , n}k
hat
|ΩRZ | = nk
Elemente und ist ein Laplaceraum.
(ii) Ziehen in Reihenfolge und ohne Zurücklegen
Wir notieren die Folge der gezogenen Zahlen. Eine Realisierung wird beschrieben durch ein
k−Tupel (ω1 , ω2 , . . . , ωk ) verschiedener Zahlen von 1 bis n. Der Stichprobenraum
ΩR∼Z := {ω ∈ {1, 2, . . . , n}k | ωi 6= ωj for 1 ≤ i 6= j ≤ k}.
hat
|ΩR∼Z | = (n)k := n(n − 1) . . . (n − k + 1) =
n!
(n − k)!
Elemente und ist ein Laplaceraum. (Für die Auswahl des ersten Elements ω1 haben wir n
Möglichkeiten, für die zweite Kugelzahl nur noch n − 1 Möglichkeiten, dann n − 2 usw.)
Für n = k erhalten wir alle Permutationen der Zahlen 1 bis n, d.h. alle bijektiven Abbildungen von {1, 2, . . . , n} auf sich selbst.
(iii) Ziehen ohne Reihenfolge und ohne Zurücklegen
Als Gesamtergebnis der Ziehung bekommen wir nur mitgeteilt, welche Kugeln gezogen wurden und wie oft diese gezogen wurden. Wir kennen nicht die zeitliche Reihenfolge der Ziehung. Der Übersichtlichkeit halber ordnen wir die gezogenen Zahlen in lexikographischer
(=natürlicher) Ordnung. Wir verwenden den Stichprobenraum
Ω∼R∼Z := {ω ∈ {1, 2, . . . , n}k | ω1 < ω2 < . . . < ωk },
oder auch alternativ den Stichprobenraum
Ω0∼R∼Z := {A ⊂ {1, 2, . . . , n} | |A| = k}.
Die Abbildung (ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk } ist eine Bijektion von Ω∼R∼Z nach Ω0∼R∼Z .
Beide Stichprobenräume haben
n
|Ω∼R∼Z | =
= |ΩR∼Z |/k!
k
Elemente und sind Laplaceräume.
(Zum Beweis betrachten wir die obige Abbildung jetzt von ΩR∼Z nach Ω∼R∼Z zuordnet.
Jedes Urbild f −1 (y) := {ω | f (ω) = y} von y ∈ Ω∼R∼Z hat genau k! Elemente. Damit
erhalten wir obige Formel.)
Die häufigste Verwendung dieses Urnenmodells ist enthalten in der folgenden Merkregel:
Die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist
(iv) Ziehen ohne Reihenfolge und mit Zurücklegen
8
n
k
.
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Als praktische Durchführung denken wir uns ein Ziehen mit Reihenfolge und mit Zurücklegen. Genannt werden nur die Nummern der gezogenen Kugeln, eventuell mit Mehrfachnennungen. Eine Realisierung beschreiben wir durch das k-Tupel ω der aufsteigend geordneten
Kugelnummern. Der Stichprobenraum zu diesem Urnenmodell ist
Ω∼RZ := {ω ∈ {1, 2, . . . , n}k | ω1 ≤ ω2 ≤ . . . ≤ ωk }.
Die Wahrscheinlichkeit eines Ereignisses ω berechnet sich als Summe der Wahrscheinlichkeiten aller ω 0 beim Ziehen mit Reihenfolge und mit Zurücklegen, die zu einer Nennung ω
führen.
Sei ϕ : ΩRZ 7→ Ω∼RZ die Abbildung, die jedem ω 0 ∈ ΩRZ das geordnete Tupel zuordnet.
Das W-maß P∼RZ : ¶(Ω∼RZ ) → IR ist das durch ϕ transportierte Maß
P∼RZ (A) = PRZ (ϕ−1 (A)) =
|ϕ−1 (A)|
.
|ΩRZ |
Der W-raum (Ω∼RZ , ¶(Ω∼RZ ), P∼RZ ) ist der gesucht Wahrscheinlichkeitsraum. Dies ist kein
Laplaceraum. Z.B. hat in unserer Versuchsanordnung für n = 4, k = 4 die Realisierung
(1, 1, 1, 1) die W-keit 1/(44 ), die Realisierung (1, 2, 3, 4) aber eine W-keit von 4!/44 . Verschiedene Realisierungen beim Ziehen mit Reihenfolge und mit Zurücklegen ergeben dieselbe Nennung (ohne Reihenfolge.) Die Ziehungen in der zeitlichen Reihenfolge 4, 2, 1, 3 und
4, 3, 2, 1 ergeben als geordnetes Tupel beide (1, 2, 3, 4). Es gibt 4! verschiedener Anordnungen von 1, 2, 3, 4, die als geordnetes Tupel (1, 2, 3, 4) ergeben, aber nur eine von 1, 1, 1, 1, die
(1, 1, 1, 1) ergibt.
(Der Raum Ω∼RZ hat n+k−1
Elemente.
k
ϕ
Zum Beweis betrachten wir die Abbildung (ω1 , ω2 , . . . , ωk ) 7→ (ω1 , ω2 + 1, . . . , ωk + k −
1). Dies ist eine bijektive Abbildung von Ω∼RZ nach dem Stichprobenraum Ω∼R∼Z eines
Urnenmodell, aus n + k − 1 numerierten Kugeln k Kugeln
zu ziehen, ohne Zurücklegen und
ohne Reihenfolge. (Nachrechnen.) Dafür gibt es n+k−1
verschiedene Möglichkeiten.)
k
Satz 1.2.3 Die Ergebnisse sind im Vorgriff in der folgenden Tabelle zusammengefaßt.
k-mal ziehen
mit
ohne
aus n Kugeln
Zurücklegen
Zurücklegen
mit
Laplaceraum
Laplaceraum
unterscheidbare
Reihenfolge
|ΩRZ | = nk
|ΩR∼Z | = (n)k
Kugeln
ohne
Kein Laplaceraum
Laplaceraum
|Ω∼R∼Z | = nk
ununterscheidbare
mit
ohne
k Kugeln verteilen
Mehrfachbelegung
Mehrfachbelegung
auf n Urnen
Reihenfolge
9
Kugeln
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Die offensichtlichen Vorzüge der Modellierung durch Laplaceräume führt zu folgender Merkregel:
Modelliere Urnenmodelle stets mit Reihenfolge.
Beispiele
• Pasch: Berechne die W-keit bei dreimaligem Würfeln jeweils dieselbe Augenzahl zu würfeln.
Hier verwenden wir das erste Urnenmodell, mit Zurücklegen und mit Reihenfolge. Wir haben
einen Laplaceraum mit insgesamt 63 verschiedenen Möglichkeiten. Genau die sechs Würfelergebnisse (1, 1, 1), (2, 2, 2) bis (6, 6, 6) sind die “günstigen” Fälle. Damit ist die gesuchte
Wahrsch. für einen Pasch 6/63 = 1/36.
Wir werfen jetzt drei identisch aussehende Würfel gleichzeitig. Wie groß ist die Wahrsch. für
einen Pasch? Wir denken uns die Würfel (durch Farben) gekennzeichnet, und argumentieren
dann wie oben, mit demselben Resultat.
Es wäre möglich, aber ungeschickt und dies ist eine häufige Fehlerquelle, ein Urnenmodell
mit Zurücklegen und ohne Reihenfolge anzusetzen. Dies ist kein Laplaceraum.
• Zahlenlotto: Wie groß ist die W-keit für exakt 5 Richtige im Lotto (6 aus 49)? Unser
Grundraum ist ein Urnenmodell mit n = 49 Kugeln und k = 6-maligem
Ziehen, ohne
Zurücklegen und ohne Reihenfolge. Der Laplaceraum Ω∼R∼Z hat 49
=
13.983.816
Elemen6
te. Wir haben genau 5 Richtige, falls aus densechs
Gewinnzahlen
genau
5
vorliegen
und aus
den restlichen 43 genau eine. Dafür gibt es 65 43
verschiedene
Realisierungen.
Die
gesuchte
1
Wahrsch. 43/(49 · 47 · 46 · 22) liegt in der Größenordnung 1/50000.
• Geburtstag-Paradoxon: Selbst in kleinen Gruppen haben relativ häufig zwei Personen an
demselben Tag Geburtstag. Wir wollen dies “erklären”. Als Modell wählen wir ein Urnenmodell mit Reihenfolge und mit Zurücklegen und mit nk Elementen. Die Geburtstage der k
Personen entsprechen dem Ergebnis zufälligen Ziehens eines Tages aus dem Jahr. Das Ereignis Ek , kein Geburtstag ist doppelt, entspricht den Elementen von ΩR∼Z , allen k-elementigen
Teilmengen von {1, . . . , n} unter Berücksichtigung der Reihenfolge. Wir erhalten
P (Ek ) =
k−1
k−1
X
X i
n−i
k(k − 1)
(n)k
=
exp(
ln(
))
≈
exp(−
) = exp(−
).
k
n
n
n
2n
i=0
i=0
Hierbei nutzen wir die Taylor Approximation ln(1 + x) ≈ x für x dicht bei 0.
Für welche Gruppengröße wird die Wahrsch. ungefähr 1/2? Ein wenig Rechnung liefert uns
P (E22 ) = 0, 5243 > 1/2 und P (E23 ) = 0, 4927 < 1/2. Bereits bei 23 Personen ist die Chance
für den Zusammenfall von zwei Geburtstagen ungefähr fifty-fifty.
In der Informatik kommt die Problemstellung vor bei zufälligem Abspeichern von Daten,
siehe dort unter Hashing.
• Olympialotterie: In einer Lotterie sind alle gleichteuren Lose auch gleich gewinnträchtig,
zumindest ist dies eine weitverbreitete Meinung. Alle Lose sind gleich, aber manchmal sind
einige Lose “gleicher”. Für die Glücksspirale der Olympialotterie 1971 wurden 10 Millionen
Lose mit siebenstelligen Zahlen angeboten, von Nummer 0000000 bis hin zu 9999999. Die
Auslosung geschah durch siebenmaliges Ziehen ohne Zurücklegen der numerierten Kugeln
aus einer Trommel. Die gezogenen Ziffern, in zeitlicher Reihenfolge aufgeschrieben, ergab die
Gewinnzahl. In der Trommel waren insgesamt 70 Kugeln, jeweils 7 Kugeln der Ziffern 0 bis
9.
Die Losnummer 0000000 hat eine Gewinnwahrsch. von
1
7 6
...
= 7!/(70)7 ≈ 8, 3 · 10−10 .
70 69
64
10
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Die Losnummer 0123456 hat eine wesentlich höhere Gewinnwahrsch. von
7 7
7
...
= 77 /(70)7 ≈ 1, 3 · 10−7 .
70 69
64
(Weshalb?) Dies sind gleichzeitig die extremen Elementarwahrscheinlichkeiten.
1.2.3
Urnenmodelle revisited*
[ [ [ [ [[ [ [ [ [ [ [ [ [ [ [
◦ ◦
◦
◦
Der Versuchsaufbau besteht jetzt aus n Urnen, numeriert durch 1 bis n, und k Kugeln, die darauf
zufällig verteilt werden sollen. Unterschieden wird, ob Mehrfachbelegung der Urnen möglich ist
und ob die Kugeln unterscheidbar (=numeriert) sind. Zufällig bedeuted, jede der für eine Belegung
möglichen Urnen wird gleich behandelt.
Wir stellen uns zufälliges Ziehen der Urnen vor, wobei die gezogenen Urne in i-ter Runde durch
hineinlagen der Kugel i gekennzeichnet wird. Damit ist das Experiment wie Ziehen numerierter
Kugeln (mit/ohne Zurücklegen und mit/ohne Reihenfolge) aus einer Urne äquivalent zu einem
Verteilen von Kugeln (numeriert/ununterscheidbar) auf numerierte Urnen (mit/ohne Mehrfachbelegung). Im Detail:
(i) Verteilung unterscheidbarer Kugeln und mit Mehrfachbelegung
Eine Realisierung besteht in der Angabe der Kugeln in der j-ten Box nach der Verteilung.
Der Stichprobenraum
[
ΩU M := {(A1 , A2 , . . . , An ) | ∀ 1 ≤ i ≤ n : Ai ⊂ {1, 2, . . . , k}, ◦ Aj = {1, 2, . . . , k}}
j
ist bijektiv zum Stichprobenraum ΩRZ des ersten Urnenmodells.
Dazu betrachten wir die Bijektion (A1 , . . . , An ) 7→ (ω1 , . . . , ωk ) mit i ∈ Aωi . In Worten,
i ∈ Aj entspricht in der i-ten Ziehung (Urnenmodell mit Zurücklegen und mit Reihenfolge)
wird die Kugel mit der Zahl j gezogen.
(ii) Verteilung unterscheidbarer Kugeln und ohne Mehrfachbelegung
Eine Realisierung beschreiben wir durch die Angabe der Kugelnummer in der i-ten Urne,
bzw. durch die leere Menge, falls die Urne leer ist. Formal ist der Stichprobenraum
ΩU ∼M := {(A1 , . . . , An ) ∈ ΩI | ∀1 ≤ i ≤ n |Ai | ≤ 1}.
Diese Menge hat ebensoviele Elemente wie ΩR∼Z . Dazu betrachten wir die Bijektion
(A1 , . . . , An ) 7→ ω, eine Kugel j ∈ Ai in Urne i entspricht dem Ziehen der Kugelzahl i
in der j-ten Ziehung.
(iii) Verteilung ununterscheidbarer Kugeln und ohne Mehrfachbelegung
Eine Realisierung beschreiben wir durch eine 0-1 Folge der Länge n. Eine 0 bzw. 1 an
der i-ten Stelle entspricht einer leeren bzw. besetzten i-ten Box. Formal ergibt dies den
Stichprobenraum
n
X
Ω∼U ∼M := {j ∈ {0, 1}n |
ji = k}.
i=1
Dieser hat ebenso viele Elemente wie der Stichprobenraum Ω∼R∼Z . Jeder 0-1 Folge j ordnen
wir eine Menge A aus den Zahlen 1 bis n zu. Eine Zahl i sei Element von A genau dann, falls
die i-te Koordinate ji von j eine 1 ist. Dies ergibt eine Bijektion von Ω∼U ∼M auf Ω∼R∼Z .
11
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
(iv) Verteilung ununterscheidbarer Kugeln und mit Mehrfachbelegung
Eine Realisierung beschreiben wir durch durch die Angabe ji der jeweiligen Kugelanzahl in
der i-ten Urne. Der zugehörige Stichprobenraum
Ω∼U M := {j ∈ {0, 1, . . . , k}n |
X
ji = k}
i
ist gleichmächtig wie Ω∼RZ . Die Abbildung j 7→ ω, ji die Häufigkeit |{l | ωl = i}| mit der
die Kugel i aus der Urne gezogen wird, ist bijektiv.
Die Beschreibungen eines Experiments durch die Ziehen aus Urnen oder durch Verteilen auf Urnen
sind äquivalent.
Urnenmodelle in der Physik: Das Modell ΩU M heißt in der Physik die Maxwell-Boltzman
Statistik. Die Urnen entsprechen räumlich gleichgroßen Quadern, die Kugeln nicht-wechselwirkenden Teilchen. Keine Teilchen gehorchen diesen Gesetzen.
Das Modell ΩU ∼M heißt in der Physik Fermi-Dirac Statistik. Die Teilchen, die diesem Modell
gehorchen, heißen Fermionen [5].
Bei der Untersuchung des Aufbaus der Elektronenhülle des Atoms fand Pauli das Gesetz, daß
zwei Elektronen nicht in allen vier, ihren Zustand beschreibenden Quantenzahlen übereinstimen
dürfen. In anderen Worten, nicht mehr als ein Elektron darf den seinem Zustand beschreibenden
Phasenraumvolumen besetzen.
Jedem Elementarteilchen ordnet man einen “abstrakten” Eigendrehimpuls zu, den sogenannten
Spin. Dieser kann die Werte nh/(4π) oder −nh/(4π) annehmen (n ∈ IN, h = Planck’sches Wirkungsquantum). Die Teilchen mit ganzzahligem Spin (ungerade) sind die Bosonen, die mit halbzahligem Spin (n ungerade) die Fermionen.
1.2.4
Weitere Urnenmodelle
(v) Hypergeometrische Verteilung
Die hypergeometrische Verteilung zum Parameter (W, S, n) ∈ ZZ + ×ZZ + ×{1, . . . , S +W }
ist ein W-maß P auf dem Stichprobenraum {0, 1, . . . , n}
P ({k}) =
S
k
W
n−k
S+W
n
.
Aus einer Urne mit S schwarzen und W weißen Kugeln ziehen wir n−mal zufällig ohne
Zurücklegen und ohne Reihenfolge. Die Wahrsch., genau s schwarze und w weiße in n = s+w
Ziehungen zu ziehen, ist
S W
s
w
S+W
s+w
.
Diese Wahrsch. als Funktion von s mit Parametern S, S +W, s+w, ist die hypergeometrische
Verteilung.
Unser gewählte Laplace Grundraum Ω∼R∼Z hat S+W
Elemente. Wir denken uns die
s+w
numerierten Kugeln 1, 2, . . . , S als schwarz, die anderen W Kugeln als weiß. Es gibt Ss
verschiedene Möglichkeiten daraus s schwarze
(und numerierte) Kugeln (ohne Reihenfolge)
auszuwählen. Entsprechend gibt es W
verschieden
Kombinationen für die weißen. Jedes
w
“günstige” Ereignis wird eindeutig durch die numerierte Menge der schwarzen, bzw. der
weißen Bälle beschrieben.
12
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Beispiele
• Skat: Wie groß ist die Wahrsch., daß beim Skatspiel Vorhand drei Buben ausgeteilt bekommt? Wir benutzen ein Urnenmodell mit 32 Kugeln und 10-maligem Ziehen ohne Zurück legen und ohne Reihenfolge. Die Anzahl der günstigen Verteilungen für Vorhand ist 43 28
7 .
32
Damit hat Vorhand mit Wahrsch. 43 28
/
drei
Buben.
7
10
• Fischezählung: Wie lassen sich Fische in einem Teich zählen? Wir fangen S Fische heraus
und markieren diese. Danach setzen wir diese zurück, “mischen” kräftig durch und fischen
zufällig k Fische heraus. Darunter seien s > 0 markierte. Naiv erwarten wir ein ähnliches
Zahlenverhältnis der wiedergefangenen markierten Fische zu den gefangenen wie das der
gefangenen zu allen. Dies ergibt heuristisch einen Schätzer N̂ = kS/s der Gesamtanzahl N,
(der auch praktisch benutzt wird).
Hier ein anderes Argument, beruhend auf einem mathematischen Prinzip (Maximum-Likelihood Schätzer). Die hypergeometrische Verteilung ordnet dem Ereignis, s markierte Fische
(S)(W )
wiederzufangen, eine Wahrsch. von p(s) = sS+Ww zu.
( s+w )
Für eine gegebene Gesamtanzahl N = S + W wird die Anzahl der wiedergefangenen markierten Fische s häufig einen relativ großen Wert von p(s) liefern. Umgekehrt, wenn wir
die Anzahl der wiedergefangenen markierten Fische s kennen, aber nicht die Gesamtanzahl
N, so werden wir eine Gesamtanzahl N erwarten, sodaß die obige Wahrsch. groß wird. Als
Schätzer wählen wir denjenigen Wert N, der obige Wahrsch., jetzt für festes s, maximiert.
Die Lösung dieser nun mathematischen Aufgabe ist N̂ = kS
s .
Multinomialkoeffizienten: Die Binomialkoeffizienten nk beschreiben die Anzahl der verschiedenen Teilungen einer n-elementige Menge in zwei Gruppen, wobei die erste Gruppe genau k
Elemente haben soll.
r
Seien n, r natürliche Zahlen und k = (k1 , . . . , kr ) ∈ ZZ≥
ein Vektor mit k1 + k2 + . . . + kr = n. Die
Multinomialkoeffizienten sind definiert durch
n
n!
.
:=
k
k1 !k2 ! . . . kr !
Die Multinomialkoeffizienten nk geben die Anzahl der möglichen Teilungen von n numerierten
Kugeln in r numerierte Gruppen an, wobei
die i−te Gruppe ki Elemente haben soll.
Für die
1
Auswahl der ersten Gruppe haben wir kn1 Möglichkeiten, für die zweite nur noch n−k
Möglichk2
n−k1 −k2
keiten, dann
usw. Dies ergibt die Formel.
k3
Die hier betrachteten Gruppen sind numeriert, d.h. die Einteilung ist auch abhängig von der
Reihenfolge der Gruppenstärken k1 , k2 , . . . , kr . Das folgende Beispiel verdeutlicht die Wichtigkeit
dieser Unterscheidung.
Beispiel Mannschaftseinteilung: 26 Schulkinder wollen Fußball und Tennis spielen. Dazu
bilden sie zwei Mannschaften A, B zu je 11 Spielern für Fußball und zwei Mannschaften C, D
26
für das Tennisdoppel. Es gibt (11,11,2,2)
Möglichkeiten der verschiedenen Mannschaftaufteilun1
26
gen in A, B, C, D. Die Anzahl der verschiedenen Spielkombinationen (Paarungen) 11,11,2,2
4 ist
kleiner. Trotz verschiedener Mannschaftsaufstellung, z.B. A = {1, 2, . . . , 11}, B = {12, . . . , 22},
C = {23, 24}, D = {25, 26} und A = {12, . . . , 22}, B = {1, . . . , 11}, C = {25, 26}, D = {23, 24},
spielen eventuell dieselben Mannschaften gegeneinander.
(vi) Multinomialverteilung Seien n, r natürliche Zahlen, p ein W-maß auf {1, . . . , r}, geschrieben als Vektor
X
p = (p1 , . . . , pr ),
pj = 1.
j
13
Uwe Rösler
SS12
1.2 Kombinatorische Wahrscheinlichkeitstheorie
Die Multinomialverteilung zum
P Parameter (n, r, p) ist ein W-maß P auf dem Stichprobenraum {k = (k1 , . . . , kr ) ∈ IN0r | i ki = n} mit
n k
p .
P (k) =
k
Hierbei ist pk = pk11 pk22 . . . pknn die Multiindexschreibweise. Das Standardbeispiel ist es, n
Kugeln auf r Urnen zu verteilen. Die erste Kugel wird mit der W-verteilung p in eine Urne
gelegt, dann die zweite (unabhängig von der ersten) usw.
14
Elementare Wahrscheinlichkeitstheorie
1.3
SS12
Uwe Rösler
Bedingte Wahrscheinlichkeit
Heuristik: Wir betrachten nur W-räume mit endlichem oder abzählbarem Stichprobenraum.
Die W-keit eine 6 gewürfeln zu haben, wenn bereits bekannt ist, dass der Wurf 4 oder 5 oder 6
zeigt, ist 1/3. Abstrakter, wenn wir im Venn-Diagramm wie unten die Flächen der Mengen als
W-keit interpretieren, dann sollte die W-keit eines Ereignisses A unter B die gemeinsame Fläche
A ∩ B dividiert durch die Fläche des bekannten Ereignissses B sein.
$$
''
A
A∩B
B
&&
%%
Definition 1.3.1 Die bedingte Wahrscheinlichkeit eines Ereignisses A unter dem Ereignis B
mit P (B) > 0 ist
P (A ∩ B)
P (A | B) =
.
P (B)
Sprachgebrauch: W-keit von A unter (oder gegeben) B.
Konvention: Die Verwendung des Symbols P (A | B) beinhaltet bereits die strikte Positivität der
Wahrsch. des Ereignisses B.
Rechenregeln ergeben sich aus der einfachen Feststellung, dass die Abbildung P (· | B) vom Ereignisraum in die reellen Zahlen ein W-maß ist, das Tripel (Ω, A, P (. | B)), ist ein Wahrscheinlichkeitsraum. Ebenso ist das auf B beschränkte Tupel
(Ω|B , A|B , P|B ) = (B, {A ∩ B | A ∈ A}, P (· | B))
ein W-Raum, genannt der bedingte W-Raum. Ist der zugrundeliegende W-Raum ein Laplaceraum,
so auch der bedingte.
Lemma 1.3.2 (Bedingte Rekursionsformel)
Für Ereignisse A, B, C mit P (A ∩ B) > 0 gilt
P (A ∩ B ∩ C) = P (A)P (B | A)P (C | A ∩ B).
Beweis: Nachrechnen.
Induktiv ergibt sich für Ereignisse A1 , . . . , An
q.e.d.
P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 | A1 )P (A3 | A1 ∩ A2 ) . . . P (An | ∩i<n Ai ).
Bsp: Lotto revisited: Wir betrachten Lottozahlenziehen live am Fernseher. Sei x1 < . . . < x6
mein Tipp bestehend aus 6 verschiedenen Zahlen aus {1, . . . , 49} in aufsteigender Reihenfolge. Sei
Ω = ΩR∼Z (49, 6) unser Laplace-raum. Sei Ai das Ereignis, in der i-ten Ziehung wird xi -te gezogen,
formal Ai = {ω ∈ Ω | ωi = xi }. Es gilt
P (∩6i=1 Ai )
=
=
P (A1 )P (A2 | A1 )P (A3 ∩ A2 ∩ A1 ) . . . P (A6 | ∩5i=1 Ai )
1 1
1
... .
49 48
44
Die bedingten W-keiten ergeben sich aus der Vorstellung, nach der i-ten Ziehung sind 49−i Kugeln
in der Urne und davon soll ich genau die vorgegebene Kugel mit der Zahl xi+1 (Laplaceraum)
ziehen.
15
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Ist unser Tipp {x1 , . . . , x6 } ein Haupttreffer? Da es auf die Reihenfolge dieser Zahlen nicht ankommt gilt, summieren wir über alle Permutationen π der Zahlen x1 bis x6 . Mit xπ = (xπ(1) , . . . , xπ(6) )
erhalten wir
X
W (Hauptgewinn) = P (∃π : ω = xπ ) =
P (ω = xπ )
π
=
k!
=
(49)6
1
49
6
Wir erhalten jeder Tipp ist gleichwahrscheinlich.
Bsp: Bridge: Gefragt ist nach der W-keit, daß in einer Bridgehand, 52 Karten werden gleichmäßig
und zufällig auf 4 Spieler verteilt, jeder Spieler genau ein Ass erhält. Modell Ω = ΩR∼Z (52, 52).
Die Kugeln mit Nummer 1,2,3,4 werden als Ass interpretiert. Der Spieler 1 bekommt die ersten 13
Karten, der zweite die naechsten 13 usw. Entspreche Ai dem Ereignis, der Spieler i hält genau ein
Ass in seinen 13 Karten, formal Ai = {ω ∈ Ω | |{ω1+13(i−1) , ω2+13(i−1) , . . . , ω13i }∩{1, 2, 3, 4}| = 1},
so folgt mit Hilfe der hypergeometrischen Verteilung (oder langsamer durch Abzählen im gegebenen
W-raum)
P (A1 ) =
4
1
P (A3 | A1 ∩ A2 ) =
48
12
52
13
2 24
1 12
26
13
3
1
P (A2 | A1 ) =
36
12
39
13
P (A4 | A1 ∩ A2 ∩ A3 ) = 1.
Unsere gesuchte W-keit ist das Produkt dieser vier Wahrsch..
1.3.1
Bayes Formel
Eine Zerlegung oder Partition von Ω ist eine Familie von paarweise disjunkten Teilmengen aus Ω,
deren Vereinigung ganz Ω ist.
Satz 1.3.3 (Bayes Formel) Sei Bi , i ∈ I eine Partition und I endlich oder abzählbar. Jedes
dieser Ereignissse Bi habe strikt positive W-keit.
Die Formel von der totalen Wahrscheinlichkeit lautet für ein Ereignis A :
X
P (A) =
P (Bi )P (A | Bi ).
i
Im Falle strikt positiver Wahrscheinlichkeit des Ereignisses A gilt die Bayes Formel
P (B1 )P (A | B1 )
P (B1 | A) = P
.
i P (Bi )P (A | Bi )
Beweis: Die erste Identität folgt aus der σ-Additivität des Wahrscheinlichkeitsmaßes
[
X
X
P (A) = P ( ◦ (A ∩ Bi )) =
P (A ∩ Bi ) =
P (Bi )P (A | Bi ).
i
i
i
Die Bayes Formel (Bayes 1763) folgt aus der Identität P (B1 | A) = P (B1 )P (A | B1 )/P (A) mit
Einsetzen von P (A) aus der Formel von der totalen Wahrscheinlichkeit.
q.e.d.
Bsp: Urnenwahl. Seien n Urnen gegeben. Die i-te Urne enthalte Si schwarze Kugeln und Wi
weiße. Zufällig wird eine Urne i mit W-keit pi ausgewählt und aus dieser eine Kugel gezogen.
Gesucht ist die W-keit für das Ereignis A, eine schwarze Kugel zu ziehen. (Präzisieren: Sei Bi das
Ereignis die i-te Urne auszuwählen im Modell
Si
)
Ω = {1, 2, . . . , n} × {0, 1}, P ({(i, 1)} = pi Si +W
i
Der Satz von der totalen Wahrsch. liefert
P (A) =
n
X
pi
i=1
16
Si
.
Si + Wi
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bsp: Reihenuntersuchung. Bereits 0,5% der Bevölkerung leidet an der Krankheit ’Ghost’. Bei
einer Reihenuntersuchung zeigen durchschnittlich 99% der Kranken eine positive Testreaktion.
Von den Gesunden zeigen rund 2% eine positive Testreaktion. Wie beunruhigend ist mein positives
Testergebnis wirklich?
Als erstes müssen wir die gegebenen Informationen sauber in ein Modell einbetten. Eine Realisierung sei ein 0 − 1 Tupel in dem Produktraum Ω := {0, 1}2 und X1 , X2 seien die Projektion auf
die erste, bzw. 2. Koordinate. Die erste Koordinate X1 = 1 bzw. 0 entspreche krank bzw. gesund
und die zweite Koordinate X2 = 1 bzw. 0 entspreche positivem bzw. negativem Testergebnis. Sei
K = {ω | X1 (ω) = 1} und R = {ω | X2 (ω) = 1}. Gibt es ein W-maß verträglich mich obigen
Angaben: P (K) = 0, 005, P (R | K) = 0, 99, P (R | K c ) = 0, 02? (Es gibt genau ein W-maß zu
diesen Werten.) Mit Hilfe der Bayes Formel erhalten wir das uns interessierende Resultat
P (K | R) =
495
P (K)P (R | K)
=
≈ 0, 2.
c
c
P (K)P (R | K) + P (K )P (R | K )
2485
Wie beunruhigend dies für mich wirklich ist, bleibt eine Interpretations- und Persönlichkeitsfrage.
Unsauberes Denken
Der Umgang mit bedingten Wahrsch. im realen Leben führt durch unsauberes Denken und unzureichende Information häufig zu fehlerhaften Schlüssen. Hier zwei Beispiele:
Bsp: Diskriminierung. Folgende Zahlen deuteten auf eine sexuelle Diskriminierung weiblicher
Bewerber hin. An der Universität Berkeley wurden im Herbst 1973 von den 8442 männlichen
Bewerbern für ein Studium 44% (=3738) zugelassen. Von den 4321 weiblichen Bewerbern erhielten
nur 35% (=1494) einen Studienplatz. Dieser Unterschied erweist sich auch wissenschaftlich als
signifikant, er kann nicht allein durch Zufall ’erklärt’ werden. Da wir apriori davon ausgehen, daß
die Damen gleich qualifiziert und leistungsfähig sind, liegt nur der Schluß einer sexuellen negativen
Diskriminierung nahe.
Um die Hauptquelle der negativen Diskriminierung ausfindig zu machen, sehen wir uns die Daten
nach Fächern aufgelistet an. In den hundert Fächern gibt es bei einigen eine leichte Bevorzugung der Männer, bei anderen eine leichte Bevorzugung der Frauen. Insgesamt aber eher eine
Bevorzugung der Frauen. Die folgende Liste der sechs Fächer mit den meisten Bewerbern gibt
diese Tendenz gut wieder.
Fach
1
2
3
4
5
6
Studienzulasssungszahlen
männlich
weiblich
Bewerbungen % Zulassungen Bewerbungen % Zulassungen
825
62
108
82
560
63
25
68
325
37
593
34
417
33
375
35
191
28
393
24
373
6
341
7
Auch bei Zugrundelegung dieser Liste ist der Anteil der akzeptierten männlichen mit 44,5% signifikant höher als der der weiblichen mit 32%. Wo liegt die Erklärung?
Die ersten beiden Fächer haben relativ hohe Zulassungsraten. Hier gibt es einen hohen Anteil an
männlichen Bewerbern, jedoch nur einen niedrigen an weiblichen. In den nächsten drei Fächern
war die Zulassungsquote eher klein, der weibliche Anteil aber überproportinal groß.
Selbst wenn in jedem Fach die Frauen deutlich bevorteilt werden, kann insgesamt der prozentual
zugelassene Anteil der Männer wesentlich höher sein. Wir wollen uns dies am Beispiel zweier
Fächer A und B verdeutlichen. Sei Z die Menge der zugelassenen Personen und M (F ) die Menge
der sich bewerbenden Männern (Frauen) M (F ). Wir wollen strikte Bevorzugung der Frauen in
jedem Fach annehmen,
P (Z ∩ M | A ∩ M ) < P (Z ∩ F | A ∩ F )
P (Z ∩ M ∩ | B ∩ M ) < P (Z ∩ F | B ∩ F ).
17
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Die geschlechterspezifischen Gesamtzahlen der Zulassung ergeben sich mit Hilfe der totalen Wahrscheinlichkeiten,
P (Z ∩ M | M )
P (Z ∩ F | F )
= P (A | M )P (Z ∩ M | M ∩ A) + P (B | M )P (Z ∩ M | M ∩ B)
= P (A | F )P (Z ∩ F | F ∩ A) + P (B | F )P (Z ∩ F | F ∩ B).
Wir betrachten den Extremfall, die einzige weibliche Bewerberin für das Fach A erhält einen
Studienplatz, der einzige männliche Bewerber für das Fach B erhält keinen. In jedem Fach werden
die Frauen bevorzugt (und damit diskriminiert, wenn auch positiv.) Durch Wahl der Zulassungsraten für die Fächer ergäben sich beliebig große ’Diskriminationen’ für die Frauen
P (Z ∩ M | M )
=
P (Z ∩ F | F )
=
|M | − 1
P (Z ∩ M | M ∩ A)
|M |
|F | − 1
1
+
P (Z ∩ F | F ∩ B).
|F |
|F |
Die Beobachtung, Frauen haben eine Tendenz sich für Fächer mit geringerer Zulassungsquote zu
bewerben, ist eine plausible ’Erklärung.’ Jeder Leser wird zu dieser Aussage eigene Erfahrungen
und ’Erklärungen’ haben, vielleicht auch Analogien sehen. Dies führt uns jedoch zu weit in die
reale Welt.
Bsp: Von Autos und Ziegen: Der Sieger einer Quizshow soll einen Preis erhalten. Hinter einer
von drei Türen ist ein Auto, hinter den anderen sind Ziegen. Der Sieger darf eine Tür wählen und
soll das dahinter versteckte Objekt erhalten. Nach der Wahl des Kandidaten öffnet der Moderator
jedoch erst eine der nichtgewählten Türen, hinter der eine Ziege erscheint. Der Moderator bietet
dem Kandidaten einen Wechsel seiner Türwahl an. Wie wäre Ihre Entscheidung?
Wenn wir davon ausgehen, daß der Showmaster stets eine Ziege präsentiert, sei es gezwunge-nermaßen oder aus Sympathiegründen, sollte der Kandidat seine Wahl ändern. Die anfangs gewählte
Tür zu öffnen behält die Wahrsch. von 1/3 das Auto zu verdecken bei. Das Auto steht hinter der
verbliebenen Tür mit Wahrsch. 2/3.
Mathematisches Modell: Das mathematische Modell ist aus der Sicht des Kandidaten zum
Zeitpunkt seiner zweiten Entscheidung. Die Realisationen sind die wesentlichen Vorgänge (=Informationen) bis zu diesem Zeitpunkt. Als geeigneten (=hinreichend großen) Grundraum wählen wir
Ω = {1, 2, 3}3 mit der Potenzmenge als σ-Algebra. Die Koordinatenabbildungen sind X1 , X2 , X3 .
Die erste Koordinate X1 (bzw. X1 (ω)) bezeichnet die Tür mit dem Auto dahinter. Die zweite
Koordinate X2 gibt die Wahl des Kandidaten an. Die dritte Koordinate gibt die vom Quizmaster
geöffnete Tür an. Wir benutzen die Kurzschreibweise Xi = j für die Menge {ω ∈ Ω | Xi (ω) = j}.
Jetzt müssen wir ein (das) geeignetes W-maß P angeben. Jemand hat das Auto nach einer uns
unbekannten Prozedur hinter einer Tür versteckt. Wir modellieren (aus Sicht des Kandidaten) dies
mit einer Gleichverteilung. Der Kandidat möchte seine Entscheidung X2 (ω) = ω2 so wählen, daß
P (X1 = X2 ) möglichst groß wird. Da er zum Zeitpunkt seiner ersten Wahl keine Vorinformation
(er ist kein Prophet) zu X1 hat, ist aus seiner Sicht jede Wahl gleich gut. Jede Prozedur, eine Tür
auszuwählen ist gleichgut mit einer, bei der die Türen permutiert sind. Durch Mittelung, erst eine
Permutation und dann nach vorgegebener Prozedur eine Tür zu wählen, ist ebenso gut. Dies führt
auf den Ansatz der Gleichverteilung für die Türwahl. Ferner modellieren wir mit Unabhängigkeit
”
“, d.h. P (X2 = j | X1 = i) = P (X2 = j) = 31 .
Zur weiteren Bestimmung des W-maßes P benötigen wir einige Modellannahmen zum Verhalten
des Moderators. Die ’natürlichen’ Annahmen wären: Der Moderator kennt die Tür X1 mit dem
Auto und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2
Türen hat, so wählt er zufällig mit Gleichverteilung eine der Türen, z.B. durch Münzwurf. Damit
sind alle W-keiten P (X3 = k | X1 = i, X2 = j) jetzt wohlbestimmt und dadurch das W-maß P
eindeutig gegeben,
P ({(i, j, k)}) = P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | (X1 = i, X2 = j).
Nun zur erneuten Wahl des Kandidaten. Zu dem Zeitpunkt sind die Realisierungen X2 (ω) = j und
X3 (ω) = k bekannt. Es gilt j 6= k. Die gesuchte W-keit, das hinter der vom Kandidaten gewählten
18
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Tür das Auto steht, berechnet sich zu
P (X1 = X2 | X2 = j, X3 = k)
P (X1 = X2 = j, X3 = k)
P (X2 = j, X3 = k)
=
P (X1 = X2 = j, X3 = k)
1
= ... =
P (X2 = j, X3 = k)
3
111
= P (X1 = j)P (X2 = j | X1 = j)P (X3 = k | X1 = j = X2 ) =
3
32
X
=
P (X1 = i)P (X2 = j | X1 = i)P (X3 = k | X1 = i, X2 = j)
i6=k
=
111 11
11
+
=
332 33
32
Der Kandidat sollte seine Entscheidung ändern.
Wie ändern sich die Wahrscheinlichkeiten, wenn die Annahmen den Moderator betreffend nicht
zutreffen.
Annahme 1: Der Moderator kennt die Tür mit dem Auto dahinter und öffnet immer(!) eine nichtgewählte Tür mit Ziege dahinter. Falls er die Wahl zwischen 2 Türen hat, so wählt er stets diejenige
mit der kleinsten Nummer mit einer Wahrscheinlichkeit p. Betrachte p = 1.
Annahme 2: Der Moderator kennt nicht die Tür mit dem Auto dahinter und öffnet zufällig eine
der verbleibenden Türen. Dahinter erscheint (diesmal) eine Ziege.
Annahme 3: Der Moderator kennt die Tür mit dem Auto dahinter. Er gönnt dem Kandidaten nicht
das Auto. Der Moderator öffnet nur eine Tür, hinter der eine Ziege erscheint, wenn der Kandidat
zuerst die Tür mit Auto gewählt hatte. (Zonk)
Annahme 4: Der Kandidat modelliert mit X1 hat nicht die Gleichverteilung.
(Auflösung: Im Fall 1 sollte der Kandidat wechseln, im Fall 2 ist es egal und im Fall 3 sollte er
nicht wechseln. Die Verteilung von X1 ändert nichts an der Argumentation, solange....)
Bsp: Die drei Todeskandidaten:
Die Originalvorlage ist meines Wissens nach von Martin Gardner. Drei Gefangene sitzen in einer
Todeszelle. Genau einer der Kandidaten soll morgen hingerichtet werden. Keiner der Gefangenen
weiß, wer es ist. Der Gefangene A fragt den Wärter, wer morgen hingerichtet wird. Der Gefängniswärter, der den Namen kennt, sagt stets die Wahrheit. Er antwortet: Ich darf den Namen nicht
”
verraten. Aber ich darf versichern, daß es nicht der Gefangene B ist.“Wie groß ist jetzt die W-keit,
daß morgen A hingerichtet wird? Tippen Sie auf 1/3 oder auf 1/2? Welche Argumente würden Sie
anführen?
Informationsbegriff: Es erhebt sich die grundsätzliche Frage, wieviel ’Information’ in der Antwort des Wärters enthalten ist.
Noch weitergehend, durch geschickte Auswahl von objektiv richtiger Information kann der Wärter
die subjektiven W-keiten des Todeskanditen bewußt beeinflussen. Überlegen Sie sich mögliche
Auswirkungen und Informationsstrategien in Gerichtsprozessen oder den Einfluß gezielter (wahrer) Informationsweitergabe auf Aktienkurse.
1.3.2
Konstruktion von W-Räumen
1.3.3
Wahrscheinlichkeitsbäume
Bedingte Wahrscheinlichkeiten schaffen reichhaltige Möglichkeiten zur Modellierung durch Wahrscheinlichkeitsräume. Alle obigen Beispiele haben das gleiche Bildungsschema via Wahrscheinlichkeitsbäumen.
Sei V = supn≤N0 IN n die Menge aller endlichen Folgen natürlicher Zahlen einschließlich der leeren
Folge ∅. (Konventionell gilt IN 0 = {∅}.) Wir schreiben v = (v1 , v2 , . . . , vn ) oder einfacher v =
v1 v2 . . . vn für nichtleere Folgen. Wir verwenden einen familiennahen Sprachgebrauch, wie vi ist
das i-te Kind von v und v das Eltern von vi, vw ist ein Nachkomme von v und v ist ein Vorfahre
von vw. Die Generation von v entspricht der Länge |v| = n des Tupels. Die Einschränkung von
v auf die ersten m−Generationen ist v|m = v1 . . . vm .
19
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Ein Element von v ∈ V wird Knoten oder Individuum, im Englischen vertex, genannt. v ist der
Name des Knotens in Ulam-Harris Notation. Eine Kante ist ein Tupel (v, vi) mit v ∈ V, i ∈ IN.
Auf V benutzen wir die genealogische Ordnung (Interpretation!) bzw. Präfixordnung
v w ⇔ |v| ≤ |w|, vi = wi for i = 1, . . . , |v|.
Wir benutzen v ≺ w für v w und v 6= w. Eine Menge W ⊂ V heis̈t präfixstabil, falls mit
w ∈ W und v ≤ w auch v in W liegt.
Ein Baum T (=tree) ist eine präfixstabile Teilmenge des Baumes V. Ein Baum heis̈t endlich, falls
er endlich viele Knoten hat. Die Höhe h(T ) eines Baumes T ist die maximale Länge (Generation)
eines Baumknotens. Ein Element v ∈ T ohne Nachkommen in T heis̈t (inneres) Blatt. Mit δT
bezeichnen wir die Menge aller (inneren) Blätter des Baumes T.
Ein Wahrscheinlichkeitsbaum ist ein Baum T endlicher Höhe versehen mit einer Kantengewichtsfunktion T 2 3 (v, vi) 7→ pv,vi ∈ [0, 1] mit der Eigenschaft
X
pv,vi = 1
vi∈B
für alle v ∈ T \δT. Die Grös̈en pv,vi heis̈en Kantengewicht auf den Kanten (v, vi) ∈ T 2 des
Baumes T.
Zu gegebenem Wahrscheinlichkeitsbaum T definiere die Pfadgewichte Lv , v ∈ T durch L∅ = 1
und rekursiv
Lvi = Lv pv,vi .
Lv ist das Produkt der Kantengewichte längs des Pfades von der Wurzel nach v ∈ T
Lv =
|v|
Y
pv|i−1 ,v|i
i=1
Beachte
Lv =
X
Lvi
vi∈T
für Baumknoten v, die keine Blätte sind.
Gegeben sei ein W-baum T . Ordne jedem Knoten v ∈ T die Menge Av der Blätter b ∈ δT mit
v b zu. Beachte Av = {v} für ein Blatt v und
[
Av = ◦
Avi
vi∈T
für Baumknoten v, die keine Blätter sind.
Proposition 1.3.4 Sei T ein Wahrscheinlichkeitsbaum. Dann gibt es auf der Menge Ω = δT der
Blätter versehen mit der Potenzmenge A genau ein W-maß P : A → IR mit
P (Av ) = Lv
für alle Baumknoten v ∈ T. Diese W-maß wird gegeben durch P ({v}) = Lv für v ∈ Ω.
Bew: Die Abbildung P ist wohldefiniert durch die P ({v}) = Lv für Blätter v und P (A) =
P
v∈A P ({v}) für A ⊂ Ω. Sei M die Menge der v ∈ T mit P (Av ) = Lv .
• M = T. M enthält alle Blätter v ∈ δT nach Definition. Annahme: M 6= T. Dann gibt es einen
Baumknoten v, der kein Blatt ist, derart, dass alle Baumknoten w ∈ T strikt größer als v in
genealogischer Ordnung in M sind. Aber dann muss auch v ∈ M sein, da gilt
[
X
X
X
P (Av ) = P ( ◦
Avi ) =
P (Avi ) =
Lvi =
Lv pv,vi = Lv .
vi∈T
vi∈T
vi∈T
20
vi∈T
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Dies ist ein Widerspruch.
P ist ein W-mas, da A∅ = Ω gilt und damit P (Ω) = L∅ = 1.
q.e.d.
Aus einem W-baum erhalten wir durch obige Zuordnung eindeutig einen W-raum. Rein praktisch in
der Modellierung versucht man einen W-baum zu konstruieren, indem man den Knoten v geeignete
Ereignisse Ev der realen Welt zuordnet. Die Konstruktion geschieht von der Wurzel abwärts, E∅
ist der volle Ereignisraum. Jedes Ereignis Ev zum Knoten v kann weiter aufgeteilt werden in die
Vereinigung paarweise disjunkter Ereignisse Evi . Den Kanten (v, vi) wird die bedingte W-keiten
W (Evi | Ev ) zugeordnet, entnommen der Vorstellung. Diese Aufteilung macht man solange wie
nötig für die vorgegebe Problemstellung.
Hat man diesen W-baum mit realen Ereignisse konstruiert, so geht man über zu dem mathematischen Modell wie oben beschrieben. Jedes Ereignis Ev identifiziert man mit der Menge der Blatter
größer als v in genealogischer Ordnung.
u
u
u
u
A
K
K
A
A A 00Au
Au01
I
@
@
0P
@
u
i
PP
PP
PP
PP
u ∅
u
u101 u
u
KA
AK
A A 10Au
Au
11
I
@
@
@
1u1
Dies zeigt einen Baum mit der Ulam-Harris Notation der Knotennamen.
Beispiel 1.3.5 (Ziegenproblem revisited) Hier ist der kopfstehende Wahrscheinlichkeitsbaum
für das Auto-Ziege Problem.
Wahrscheinlichkeitsbaum für das Auto-Ziege Problem.
u
((((hhhhhhh
(
(
(
hhhh
((
hhu
((((
u
u
Q
Q
Q
Q
Q
Q
Q
Q
Q
Qu
Qu
Qu
u
u
u
u
u
u
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
u Au u u Au u u Au u u Au u u Au u u Au u u Au u
u Au u
u Au
u
Der Baum T besteht aus allen Folgen der Zahlen 1, 2, 3 mit Länge höchstens 3. (Die leere Folge entspricht ∅.) Die Blätter sind die Folgen aus B mit Länge 3. Der Stichprobenraum Ω = {1, 2, 3}3 ist
der Blätterraum. Ei entspricht dem Ereignis hinter der i-ten Tür ist das Auto. Ei,j entspricht dem
Ereignis hinter der i-ten Tür ist das Auto und der Kandidat wählt die j-te Tür. Ei,j,k entspricht
Ei,j und zusätzlich öffnet der Moderator die k-te Tür. Die Zuordnung der Wahrscheinlichkeiten
geschieht nun von der Wurzel her. Jede der Mengen Ei erhält die W-keit p∅,i = 1/3. Gegeben Ei
erhält Ei,j die W-keit pi,ij = 1/3. Für die W-keiten pij,ijk von Ei,j,k gegeben Ei,j haben wir eventuelle Freiheiten, wie in den Fallunterscheidungen angegeben. Zuletzt identifizieren wir Ei , Ei,j , Ei,j,k
mit den Mengen Ai = {X1 = i}, Ai,j = {X1 = i, X2 = j}, Ai,j,k = {X1 = i, X2 = j, X3 = k}.
21
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Beispiel Duell: In einigen Spielen, gerade den neueren Spielen für Erwachsene, hat der technisch
beste Spieler die schlechtesten Chancen zu gewinnen. Drei Spieler A,B und C wollen sich mit
Pistolen duellieren. Es soll jeweils reihum ein Schuß in der zyklischen Reihenfolge A,B,C abgegeben
werden bei freier Zielwahl. Es wird solange geschossen, bis ein befriedigter Sieger feststeht (oder
nach 3 Runden beendet.)
Der schlechteste Schütze A trifft in rund 50% aller Fälle, der Spieler B hat Trefferquote von 80%
und Spieler C trifft immer. Spieler A beginnt. Die Spieler B und C versuchen stets den verbliebenen
Spieler mit der größten Trefferw-keit zu erschiessen.
Welche Strategie sollte A verwenden und wie sind die Überlebenswahrscheinlichkeiten der Duellanten. (Erstelle einen W-baum mit den bedingten W-keiten als Übergangskerne. Was passiert,
wenn das Schlitzohr A als erstes in die Luft schießt?)
Die Idee der W-bäume läs̈t sich leicht auch auf nichtendliche Bäume ausdehnen.
Polya’s Urnenmodell: In einer Urne befinden sich S schwarze und W weiße Kugeln. Nach jeder
der k zufälligen Ziehungen werden c + 1 ∈ IN0 Kugeln der gleichen Farbe zurückgelegt. Der Fall
c = −1 entspricht einem Urnenmodell ohne Zurücklegen und c = 0 einem mit Zurücklegen.
Wir betrachten einen binären Baum T = ∪kn=0 {0, 1}k der Tiefe k. An jeder Verzweigung steht der
linke Ast für das Ziehen einer weißen Kugel (1 für weiß), der rechte Ast für eine schwarze (2). Die
Folge der Kugelfarben liefert die Namen der Knoten, Ulam-Harris. Der zugehörige Ereignisbaum
ordnet jedem Knoten v das Ereignis Av zu, in der Reihenfolge v1 , v2 , . . . , v|v| weiße bzw. schwarze
Kugeln zu ziehen. Mathematisch modellieren wir durch die Menge {1, 2}k der Blätter und setzen Av
als die Menge der Blätter, die Nachfahre von v sind. Dies ist der Ereignisbaum. Die Kantengewichte
pv,vi = W (Avi | Av ) erhalten wir durch das Ziehen einer i-farbigen Kugel aus einer Urnen mit zur
P|v|
Vorgeschichte v entsprechend vielen farbigen Kugeln (S + c i=1 (vi − 1) schwarze von S + W + c|v|
Kugeln). Die Kantengewichte sind bedingte W-keiten. Dies liefert den W-baum.
Sei Ω = {0, 1}k und Xi die Projektion auf die i-te Koordinate.
Proposition 1.3.6 Für das Polyasche Urnenmodell ist das W-maß P auf Ω := {0, 1}k gegeben
durch
Qs−1
Qk−s−1
(W + jc)
i=0 (S + ic)
j=0
.
P (X1 = v1 , . . . , Xk = vk ) =
Qk−1
l=0 (S + W + lc)
Pk
Hierbei ist s :=
i=1 (vi − 1) die Gesamtzahl der gezogenen schwarzen Kugeln. Die W-keit
P ((Xi )i = v) ist permutationsinvariant in dem Sinne in der Reihenfolge der gezogenen Kugeln.
S
Es gilt P (Xi = 1) = P (X1 = 1) = S+W
für i = 1, . . . , k.
Beweis: Sei T = ∪kn=0 {1, 2}n . Auf δT = Ω = {1, 2}k definiere die Ereignisse Av = {w ∈ δT | v w}
durch Festlegen der ersten |v| Koordinaten. Die Wahrsch. von Avi , gegeben Av entspricht der
Pi
Wahrsch. aus einer Urne mit S + W + |v|c Kugeln, davon sind S + c l=1 (vl − 1) Kugeln schwarz,
eine Kugel mit der Farbe i zu ziehen. In Formeln ausgedrückt ergibt dies,
pv,vi = P (Avi
P|v|
S + c l=1 (vl − 1)
| Av ) =
.
S + W + |v|c
Das Lemma 1.3.2 ergibt die Behauptung (Induktion).
q.e.d.
Beachte, da die Formel nur von der Gesamtanzahl der weissen bzw. schwarzen abhaengt, ist die
W-keit konstant unter Permutationen der Koordinaten von v.
1.3.4
Produkträume
Ein weiteres Beispiel mit eigenständiger Bedeutung von W-keitsbäumen sind die Produkträume.
22
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Produktraum: Seien (Ω1 , Pot(Ω1 ), P1 ), . . . , (ΩN , Pot(ΩN ), PN ) diskrete W-Räume. Auf dem
QN
Produktraum Ω := Ω1 × Ω2 × . . . × ΩN = n=1 Ωn definieren wir das Produktmaß P durch
N
Y
P ({(ω1 , . . . , ωN )}) =
Pn ({ωn }).
n=1
NN
Notation: n=1 Pi . Der W-Raum (Ω, P(Ω), P ) heißt Produktraum, oder auch Produktwahrscheinlichkeitsraum. .
Lemma 1.3.7 Der Produktw-raum ist ein W-raum.
Bew: Es ist P (Ω) = 1 zu zeigen. Übung.
(Übung: Gebe einen zugehörigen W-baum und W-ereignisbaum an.)
q.e.d.
Proposition 1.3.8 Für Ai ∈ Pot(Ωi ), i = 1, . . . , n gilt
P (A1 × A2 × . . . × An ) =
Y
Pi (Ai ).
i
Der Produktraum von Laplaceräumen ist ein Laplaceraum.
P
P
Beweis: Beide Seiten sind gleich ω1 ∈A1 . . . ωn ∈An P1 ({ω1 }) . . . Pn ({ωn }).
Die laplaceeigneschaft wird nachgerechnet.
q.e.d.
Bsp: Würfeln. Wir würfeln k-mal hintereinander reale Würfel. Sei Xi das Ergebnis des i-ten
Wurfes. Dies modellieren wir durch den Produktraum Ω = {1, . . .}k und das Produktmaß. Jede
1
Realisierung (ω = (xi )ki=1 ) hat die W-keit 6k
. Wir haben einen Laplaceraum.
Übung: Modelliere mit einem Ereignisbaum.
Iterierte Funktionensysteme
Sei S eine endliche Menge und ν ein Maß auf F = S S versehen mit der Potenzmenge als σ-Algebra
und sei νN das Produktmaß bzgl. ν auf F N . Xn seien die Projektionen auf die n-te Koordinate
mit Werten in Funktionen.
Ein iteriertes Funktionensystem (IFS) ist eine Folge Yn , n ≤ N
Yn = Xn ◦ Xn−1 ◦ . . . X1
mit Xi wie oben.
Bsp: Wright-Fisher. Ds Wright-Fisher Modell entstammt der Populationsgenetik bezüglich der
Vererbung von DNS. Gegeben sei eine feste Bevölkerungsgröße M von Individuen. Jedes Individuum einer Generation ’sucht’ sich ein Individuum aus der vorhergehenden Generation als Eltern aus
(und übernimmt dessen Meinung, DNS,...). Das Wright-Fisher modelliert durch Gleichverteilung
(Sodom und Gomorrha) auf den Individuen der vorhergehenden Generation. Frage, gibt es einen
ersten gemeinsamen Vorfahren (most common recent ancestor).
13j
12j j j j
j
11
10 8 9
14j
j
j
j
j
j
j
6 7 5 1 4 2 3j
Mathem. Modell: Wir modellieren durch ein IFS. Sei S = {1, . . . , M } mit M die Bevölkerungsgröße und F die Menge der Funktionen von
S in sich. Sei ν die Gleichverteilung auf F versehen mit
NN
der Potenzmenge. Sei (Ω = F N , P(F N ), n=1 ν) der Produktraum und Xn sei die n-te Projektion. (Wir betrachten maximal N Generationen rückwärts.) Sei Yn = Xn ◦ Xn−1 . . . X1 . Interessiert
sind wir an dem Ereignis Yn ist eine konstante Funktion und an dem kleinsten n0 mit dieser
Eigenschaft.
23
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Interpretation: Yn (i) gibt den n-ten Vorfahren von Individuum i der 0-ten Generation an. Yn tut
dies gleichzeitig für alle Individuen. Im Wright-Fisher Modell haben alle Individuen, falls wir weit
genug in die Vergangenheit blicken können, einen ersten gemeinsamen Vorfahren. Dieser ist Yn0 (1)
in der n0 -ten rückwärtigen Generation.
Wenn die DNS 100% genau an die Nachkommen übergeben werden, so müsste die jetzige Generation alle die gleiche DNS besitzen. Interessant wird das Modell durch neutrale Mutationen, d.h.
Fehler bei der Kopierung der DNS von Eltern auf Kind, wobei die Mutation keine weiteren Auswirkungen haben. Diese Mutationen treten rein zufällig auf und jedesmal mit derselben W-keit.
Betrachten wir jetzt zwei Individuen, deren DNS sich durch eine gemessene Anzahl von Mutationen unterscheidet. Dann können wir von Verwandtschaftsgraden sprechen und die vergangene Zeit
bis zum ersten gemeinsamen Vorfahren schätzen. Hiermit lassen sich Stammbäumen von verschiedenen Arten konstruieren. Zum Beispiel ließe sich die Fragestellung beantworten, wann gab es den
ersten gemeinsamen Vorfahren von Schimpansen und Menschen. (Benötigt genaueres Modell.)
Übergangskerne*
Die zugrundeliegende Idee der W-bäume und auch der Produkträume sind Übergangskerne. Wir
wollen dies formalisieren.
Ein diskreter Übergangskern K, oder auch Wahrscheinlichkeitskern von Ω nach Ω0 ist eine
Abbildung K : Ω × P(Ω0 ) 7→ IR+ , mit ω, Ω0 höchstens abzählbar und K(ω, ·) ist ein W-maß auf
Ω0 für alle ω ∈ Ω.
Eine stochastische Matrix ist eine Matrix mit positiven Einträgen und jede Zeilensumme ist
1. Formal: Eine Matrix M = (mx,yP
)x∈E,y∈F auf höchstens abzählbaren Mengen E, F und ∀x ∈
E, y ∈ F : mx,y ≥ 0 und ∀x ∈ E :
y∈F mx,y = 1.
Ein diskreter Übergangskern K liefert eine stochastische Matrix M und umgekehrt via
K(x, {y}) = mx,y
Bsp: Würfeln. Betrachte zweimaliges Würfeln. Die Verteilung des ersten Wurfes X1 und des
zweiten X2 ist eine gleichmäßige auf Ω1 = {1, . . . , 6}. Die bedingte W-keit P (X2 = j | X1 = i) =
K(i, {j}) = 61 liefert uns einen Übergangskern K von Ω1 nach Ω2 . Dieser ist ausgeartet von Ω1
icht abhängig.
Übergangskerne spielen bei der Konstruktion von W-Räumen die Rolle von bedingten Wahrscheinlichkeiten.
Sei (Ω1 , P(Ω1 ), P1 ) ein diskreter W-raum und K ein Übergangskern von Ω1 nach Ω2 versehen mit
der Potenzmenge. Auf dem Stichprobenraum Ω = Ω1 × Ω2 versehen mit der Potenzmenge als
Ereignisraum definieren wir das W-mas̈ P durch
P ({(ω1 , ω2 )})
=
P (A)
=
P1 ({ω1 })K(ω1 , {ω2 })
X
P ({ω}).
ω∈A
(Übung: P ist ein W-mas̈.)
Diese Konstruktion läs̈t sich durch weitere Übergangskerne erweitern.
Lemma 1.3.9 Gegeben seien endliche oder abzählbare Mengen Ω1 , . . . , ΩN ein W-maß µ auf Ω1
und Übergangskerne
n
Y
Kn : ( Ωi ) × Ωn+1 → IR
i=1
für 1 ≤ n ≤ N − 1. Dann ist der Produktraum Ω =
P ({(ω1 , . . . , ωn }) = µ({ω1 })
QN
n−1
Y
i=1
ein diskreter W-raum.
24
n=1
Ωn versehen mit dem dem W-mas̈
Ki ((ω1 , . . . , ωi ), {ωi+1 })
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bew: Der Beweis geschieht durch Induktion. Den Induktionsanfang
haben wir oben gemacht.
Qn+1
Für den Induktionsschritt von n auf n + 1 konstruiere Pn+1 auf i=1 Ωi durch Pn und den
Übergangskern Kn .
q.e.d.
(Übung: Modelliere Polyas Urnenmodell durch Übergangskerne.)
1.3.5
Markoffketten
Sei S endlich oder abzählbar, µ ein W-mas̈ auf S und M eine stochastische Matrix auf S ×
S. Sei Pµ das in Lemma 1.3.9 definierte W-mas̈ auf dem Produktraum S N zu den Kernen
Kn ((x1 , . . . , xn ), {xn+1 ) = mxn ,sx+1 .
Pµ ({(x1 , x2 , . . . , xN )}) = µ({x1 })mx1 ,x2 mx2 ,x3 . . . mxN −1 ,xN .
Sei Xn : S N → S die n-te Projektion.
Not: X = i ist eine Kurzschreibweise für die Menge X −1 (i) = {ω | X(ω) = i}. Die Trennung durch
Kommata steht für den Durchschnitt bzw. ein logisches und bei der Interpretation als Aussagen.
Proposition 1.3.10 Im obigen Modell gilt, falls wohldefiniert,
P (X1 = x1 , X2 = x2 , . . . , Xn = xn ) = µ({x1 })mx1 ,x2 mx2 ,x3 . . . mxn−1 ,xn
P (Xn = x, Xn+1 = y) = P (Xn = x)mx,y
P (Xn+1 = y | Xn = x) = px,y
Bew: Sei alles wohldefiniert.
P (X1 = x1 , X2 = x2 , . . . , Xn = xn )
=
X
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , XN = xN
xn+1 ,...,xN ∈S
=
X
µ({x1 })
N
−1
Y
xn+1 ,...,xN ∈S
=
X
µ({x1 })
xn+1 ,...,xN −1 ∈S
=
=
X
N
−2
Y
µ({x1 })
N
−2
Y
xn+1 ,...,xN −1 ∈S
j=2
X
N
−3
Y
= µ(x1 )
µ({x1 })
n−1
Y
mxj ,xj+1 )(
X
mxN −1 ,xN )
xN ∈S
x=2
xn+1 ,...,xN −2 ∈S
...
mxj ,xj+1
j=2
mxj ,xj+1
mxj ,xj+1
j=2
mxj ,xj+1
j=2
P (Xn = xn , Xn+1 = xn+1 )
=
X
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , Xn+1 = xn+1 )
x1 ,...,xn−1 ∈S
=
X
µ({x1 })
x1 ,...,xn−1 ∈S
=
mxn ,xn+1
n
Y
X
x1 ,...,xn−1 ∈S
=
P (Xn+1 = y | Xn = x)
=
mxj ,xj+1
j=2
µ({x1 })
n−1
Y
mxj ,xj+1
j=2
mxn ,xn+1 P (Xn = xn )
P (Xn+1 = y, Xn = x)
= mx,y .
P (Xn = x)
q.e.d.
25
Uwe Rösler
SS12
1.3
Bedingte Wahrscheinlichkeit
Definition 1.3.11 Eine Markoffkette (Mk) mit Zustandsraum S ist eine Folge von Zgn Xn :
Ω → S, n ≤ N auf einem W-raum mit der Markoffeigenschaft
P (Xn+1 = y | Xn = x) = P (Xn+1 = y | Xn = x, Xn−1 = xn−1 , . . . , X1 = x1 )
für alle n < N, x, y, x1 , . . . , xn−1 ∈ S.
Interpretation: Der Parameter n wird als Zeit interpretiert. Die Markoffeigenschaft besagt, die
W-keit von Ereignissen aus der Zukunft, gegeben die gesamte Vergangenheit und Gegenwart, wird
nur durch die Gegenwart bestimmt.
Die intuitive Vorstellung einer Mk auf dem Zustandsraum S ist ein Irrgarten mit den Kreuzungspunkten S und einem Würfel an jedem Punkt. Am Startpunkt würfeln wir mit dem dortigen
Würfel einen neuen Punkt aus und gehen dahin. Angekommen würfeln wir mit dem dortigen
Würfel einen neuen Punkt aus und gehen dorthin, u.s.w.. Unser zufälliger Pfad xn = Xn (ω)
besteht aus der durchlaufenden Folge der Kreuzungspunkte.
Satz 1.3.12 Jedes Tupel von einem W-mas̈ µ auf S und einer stochastischen Matrix M auf S
liefert via obiger Konstruktion ein W-maß Pµ auf S N und damit die Mk Xn , n ≤ N der Projektionen. Umgekehrt, zu vorgegebener Mk Yn , n ∈ N auf S gibt es ein Tupel (µ, M ) mit (Xn )n unter
Pµ hat dieselbe Verteilung wie (Yn )n . Es gilt
P (Y1 ∈ ·) = µ
P (Yn+1 = y | Yn = x) = mx,y .
Bew: Sei µ, M gegeben und N ∈ IN fest. Definiere Ki : S i × S → IR durch
Ki ((x1 , . . . , xi ), {xi+1 }) = mxi ,xi+1 .
Sei P das nach Lemma 1.3.9 definierte W-maß und Xn die Koordinatenprojektionen. Dann ist
Xn , n ≤ N eine Markoffkette. Die Markoffeigenschaft rechnen wir nach:
P (Xn+1 = y | Xn = x, Xn−1 = xn−1 , . . . , X1 = x1 ) =
µ(x1 )mx1 ,x2 . . . mxn−1 ,x mx,y
= px,y
µ(x1 )mx1 ,x2 . . . mxn−1 ,x
Umgekehrt, ist eine Mk gegeben, so ist die Verteilung der Mk eindeutig durch das Anfangsmaß
und die Übergangsw-keiten P (Yn+1 = y | Yn = x) falls P (Xn = x) > 0 bestimmt. Eventuell ist M
eine Übergangsmatrix auf einem Teilraum von S.
q.e.d.
Bemerkung: In allem gesagten in diesem Abschnitt können wir N = ∞ nehmen.
Eine stochastische Matrix wird gerne als ein gewichteter Graph (V, E) dargestellt. Dabei sind die
Knoten die Zustände (V = S) und die Kanten sind diejenigen Tupel (x, y) mit mx,y > 0. Ein
Markoffgraph ist der obige Graph mit den Kantengewichten E 3 (x, y) 7→ mx,y . Bildlich malen
wir einen Pfeil von x nach y und schreiben eventuell den Wert mx,y daran.
Bsp: Markoffgraph. S = {1, 2, 3, 4} mit


1/2 1/2
0
0
 1/2 1/2
0
0 

P =
 0
1/4 1/2 1/4 
6
6
6
6
u
u
u
u
0
0
0
1
Bsp: Peter und Paul. Peter und Paul werfen die Münze. Der Gewinner bekommt eine Einheit
von dem anderen. Jeder fängt mit einem Startkapital an und darf solange spielen, bis er pleite ist
oder N Teilspiele gespielt sind.
Mathem. Modell: Sei x0 das Anfangskapital von Paul und K das Gesamtkapital beider. Wir
modellieren das Kapital Xn von Paul nach dem n-ten Spiel durch eine Markoffkette zu der stochastischen Matrix mi,i+1 = 1/2 = mi,i−1 für i = 1, . . . , K − 1 und m0,0 = 1 = mK,K . Das
Anfangsmaß ist das Punktmaß δx0 , δx0 (A) = 11x0 ∈A auf x0 .
(Übung: Wie sieht der Graph der Markoffkette aus?)
26
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bsp: Polyas Urnenmodell. Um Polyas Urnenmodell als Markoffkette zu simulieren, nehmen
+S+sc
mit |x| < k die Länge von x
wir den Zustandsraum B = ∪ki=0 {0, 1}i , µ(∅) = 1, mx,x1 = WW+S+|x|c
P|
und s = i=1 x|xi und mx,x0 = 1 − mx,x1 . (Vergleiche dieses Modell mit dem Baummodell!)
(Übung: Wie sieht der Graph der Markoffkette aus.)
Kommen wir zurück zur Intuition einer Mk als Irrgarten. Die Folge der durchlaufenen Zustände
ist eine Realisierung einer Mk. Die Mk liefert keine Information über eine andere Person, die
einen anderen Startpunkt macht, bis wir und treffen. Danach gehen wir gemeinsam. Dies ist der
Unterschied zwischen eine Mk auf S und einem IFS auf S S .
Bsp: Wright-Fisher. Sei
Yn = Xn ◦ Xn−1 ◦ . . . X1
das IFS mit Xi Zg mit Werten in F = S S und Verteilung ν.
Yn selbst ist eine Markoffkette auf F mit den Übergängen mf,g = ν({g}), f, g ∈ F und das
Punktmaß auf der Identität als Startverteilung.
Für festes s ∈ S ist die Folge Yn (s), n ≤ N eine Markoffkette auf S mit den Übergangswahrscheinlichkeiten mx,y = ν({f ∈ F | f (x) = y}.
27
Uwe Rösler
1.4
1.4.1
SS12
1.4
Diverses
Diverses
Die Einschluß-Auschluß Formel
Satz 1.4.1 (Einschluß-Ausschluß Formel) Seien Ai , i ∈ I, endlich viele Ereignisse. Es gilt
die Einschluß-Ausschluß Formel
[
X
\
P ( Ai ) =
(−1)1+|J| P ( Ai ).
(1.1)
i∈I
J⊂I
i∈J
Beweis: Wir führen einen Induktionsbeweis nach der Anzahl n der Elemente in der Indexmenge
I. Die Aussage gilt für n = 1 und für n = 2,
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ).
Im Induktionsschritt zeigen wir die Aussage für n + 1, vorausgesetzt für n ist die Aussage richtig.
n+1
[
P(
Ai )
=
P(
i=1
n
[
Ai ) + P (An+1 ) − P ((
i=1
X
=
Ai ) ∩ An+1 )
i=1
(−1)1+|J| P (
J⊂{1,...,n}
X
=
n
[
\
X
Aj ) + P (An+1 ) −
j∈J
(−1)1+|J| P (
J⊂{1,...,n}
(−1)1+|K| P (
\
\
(Aj ∩ An+1 ))
j∈J
Ak ).
k∈K
K⊂{1,...,n+1}
Die letzte Summe wird aufgeteilt in die drei Summen über diejenigen K mit K ⊂ {1, . . . , n}, mit
K = {n + 1} und K enthält {n + 1} ist aber ungleich.
T
Bemerkung In vielen Anwendungen ist P ( i∈J Ai ) nur von der Mächtigkeit |J| von J abhängig.
Die Einschluß-Ausschluß Formel vereinfacht sich zu
n
n
[
X
n
P ( Ai ) =
(−1)1+k
ak
(1.2)
k
i=1
k=1
mit ak := P (
Tk
i=1
Ai ).
Beispiel
Tanzparty: Bei einer Tanzparty mit n Ehepaaren werden die Tanzpartnerinnen zufällig zugelost.
Mit welcher Wahrsch. werden zwei Ehepartner zusammengelost?
Wenn wir die Ehepaare numerieren, so ist eine Auslosung eine zufällige Permutation π der Zahlen
1 bis N, der Herr k tanzt mit der Dame π(k). Der Stichprobenraum der Permutationen ist ein Laplaceraum, alle Permutationen sind gleichwahrsch. Gefragt ist nach der Wahrsch. eine Permutation
π mit einem Fixpunkt π(x) = x zu wählen.
Die Ereignisse Ak , der Herr k tanzt mit Dame k, sind die Permutationen π auf I := {1, 2, . . . , N }
mit Fixpunkt k. Insgesamt gibt es (n! verschiedene Permutationen. Die Wahrsch. der Permutationen mit vorgeschriebenen Fixpunkten J ⊂ I ist
P(
\
Aj ) =
j∈J
(n − |J|)!
.
n!
Die Einschluß-Ausschluß Formel liefert
P(
[
i∈I
Ai ) =
n
X
(−1)1+k
k=1
28
k!
.
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Die Wahrsch. der Auslosung einer Tanzpaarung, in der kein Ehepaar miteinander tanzt ist
P(
\
Aci ) = 1 − P (
i∈I
[
Ai ) = 1 −
i∈I
P∞
Im Grenzwert n → ∞, beachte e−x = n=0
weise) gegen den Wert 1e echt größer Null.
xn
n! ,
n
X
(−1)1+k
k!
k=1
.
strebt diese Wahrscheinlichkeit (überraschender-
Es gibt viele Varianten der obigen Problemstellung. Zum Beispiel zur Weihnachtsfeier bringt jeder
Teilnehmer ein Geschenk mit, das später unter den Teilnehmern ausgelost wird. Die ursprüngliche
Problemstellung von de Montmort (1713) behandelt die Zulosung von n Karten zu n Spielern.
Lemma 1.4.2 (Bonferoni Ungleichung) Seien An , n ∈ IN Ereignisse. Es gilt
X
X
X
P (An ) −
P (Am ∩ An ) ≤ P (∪n An ) ≤
P (An ).
n
m<n
(1.3)
n
Allgemeiner, für 1 ≤ k ≤ n
(−1)k (P (
[
X
An ) −
n
(−1)1+|J| P (
\
Aj )) ≤ 0.
j∈J
J⊂I, |J|≤k
Beweis: Betrachte
Bn := An \(A1 ∩ . . . ∩ An−1 ). Die Ereignisse Bn sind paarweise disjunkt,
S
S
A
=
◦
B
i≤n i
i≤n i und Bn ⊂ An . Damit
P(
[
[
X
An ) = P ( ◦ B n ) =
P (Bn ).
n
n
n
Die zweite Ungleichung in der ersten Zeile folgt aus der Monotonie P (Bn ) ≤ P (An ). Für die erste
argumentiere
n−1
[
n−1
X
i=1
i=1
P (Bn ) = P (An ) − P (
(Ai ∩ An )) ≥ P (An ) −
Den allgemeinen Fall behandeln wir später (refBinomialformal).
1.4.2
P (Ai ∩ An ).
q.e.d.
Besondere Aufgaben
In einem Duell ist die Wahl der Waffen vorteilhaft. In vielen Spielsituationen ist die erste Wahl
oder der erste Zug vorteilhaft. Dies ist nicht immer so.
Beispiel
Der Beste: Auf dem Tisch liegen drei Würfel, beschriftet mit den Zahlen (6, 6, 3, 3, 3, 3), (5, 5, 5, 2, 2, 2)
und (4, 4, 4, 4, 4, 1). Spieler A läs̈t Spieler B die erste Wahl eines Würfels und wählt anschlies̈end
einen verbleibenden. Dann wird gewürfelt und der Spieler mit der höheren Augenzahl gewinnt.
Wer ist im Vorteil? Welche Seite nehmen Sie, A oder B.?
Auflösung: Im direkten Vergleich gewinnt der erste Würfel gegen den zweiten mit Wahrsch. 24/36,
der zweite gegen den dritten mit Wahrsch. 21/36 und der dritte gegen den ersten mit Wahrsch.
20/36. Es ist ein Nachteil als Erster einen Würfel zu wählen. In diesem Beispiel gibt es keinen
absolut besten Würfel.
Bierdeckelzahlen: Peter schreibt verdeckt auf zwei Bierdeckel je eine reelle Zahl. Beide Zahlen
sind verschieden. Anschließend darf Paul einen der Bierdeckel nach seiner Wahl umdrehen und
sich die Zahl ansehen. Er darf dann entscheiden, ob er diese Zahl behält oder die Zahl des anderen Bierdeckels wählt. Paul hat gewonnen, wenn er die größere gewählt hat. Frage: Gibt es eine
Strategie für Paul, so dass er mit eine W-keit strikt grøßer als 21 gewinnt? Hinweis: Es gibt eine
29
Uwe Rösler
SS12
1.4
Diverses
Verteilung auf den reellen Zahlen, die jedem offenen Intervall ein strikt positives Maß zuordnet.
(Übung)
Hutfarbe zum ersten: Drei Personen bekommen jeweils einen weißen oder schwarzen Hut aufgesetzt. Die Farbe des Hutes wird jeweils durch einen zufälligen fairen Münzwurf bestimmt. Die
Personen sehen die Hutfarben der anderen, aber nicht die eigene. Jegliche Art von Kommunikation
ist unmöglich. Anschließend werden die Personen in hermetisch abgeschlossene Räume geführt und
nach ihrer Hutfrage gefragt. Jede Person darf die Antwort verweigern oder eine Aussage treffen.
Die gesamte Gruppe hat genau dann gewonnen, wenn mindestens einer eine Aussage macht und
alle gemachten Aussagen müssen wahr sein. Die Dreiergruppe darf sich vor dem Spiel beraten und
eine Strategie vereinbaren. Mit welcher W-keit strikt größer als 21 kann die Gruppe mindestens
gewinnen?
Hutfarbe zum zweiten: Jede der n ≥ 3 Personen hat eine ganze Folge von Hüten auf, deren
Farben weiß oder schwarz durch unabhängigen M ünzwurf einer fairen Münzw ermittelt wurde.
Jede Person sieht die Hüte der anderen, aber nicht seine eigenen. Jegliche Kommunikation ist
untersagt und unmöglich. Anschließend werden die Personen in hermetisch abgeschlossene Räume
geführt und jede Person wird nach der Koordinate eines eigenen schwarzen Hutes gefragt. Eine
Person (und dann die Gruppe) hat genau dann gewonnen, wenn alle einen schwarzen Hut korrekt
angegeben haben. Die Personen dürfen sich vor dem Spiel beraten und eine Strategie vereinbaren.
Mit welcher W-keit strikt größer als 21n kann die Gruppe mindestens gewinnen? Kommen Sie auf
1
n+1 ?
Duell von Mathematikern. Drei Mathematiker A, B, C wollen sich duellieren nach den folgenden Regeln: Es wird in der Reihenfolge A, B, C, A, B, usw. geschossen, wobei nur Lebende
schiessen dürfen (können). Wer an der Reihe ist, darf nach eigener Wahl auf einen Duellanten
schiessen oder er verzichtet auf sein Schussrecht. Falls nur noch einer lebt oder in einer Runde alle
verzichtet haben, einschließlich des letzten Schießenden, wird das Duell beendet.
Vor dem Duell verhalten sich die Duellanten emotional und nicht kooperativ, keine Absprachen
werden getroffen. Zum Zeitpunkt des Duells jedoch verhalten Mathematiker sich rein rational
(=emotionslos) und nehmen stets diejenige Entscheidung, die ihre eigene Überlebenswahrscheinlichkeit maximiert. Gegeben maximale eigen Überlebenschance sehen sie ihre Gegner lieber tot.
Die Treffsicherheit von A, B, C ist eine aufsteigender Folge 0 < pA < pB < pC = 1 von strikt
positiven Zahlen. Mit welcher W-keit überlebt A bzw. B bzw. C? (Mathematisches Argument!)
30
Elementare Wahrscheinlichkeitstheorie
1.5
SS12
Uwe Rösler
Konzept: Unabhängigkeit
Der Konzept der stochastischen Unabhängigkeit ist ein ganz wesentlicher Bestandteil der Stochastik. Dieses Konzept ermöglicht erst in seinen Konsequenzen den Aufbau einer Wahrscheinlichkeitstheorie. Geschichtlich gesehen wurde eine präzise mathematische Formulierung der Unabhängigkeit
recht spät gegeben, erst im 20-ten Jahrhundert.
Heuristik: Ereignisse A, B sind unabhängig, falls die Wahrsch. für das Eintreten von A nicht
von der Kenntnis des Eintretens oder Nichteintretens des Ereignisses B abhängt. Diese Überlegung
führt auf den Ansatz P (A | B) = P (A) bzw. P (B | A) = P (B).
Definition 1.5.1 (unabhängig) Zwei Ereignisse A und B heißen paarweise unabhängig ,
falls die W-keit für den Eintritt beider gleich dem Produkt der Einzelw-keiten ist,
P (A ∩ B) = P (A)P (B).
Sind A und B unabhängig, so auch B, A und A, B c usw. Gilt P (A), P (B) > 0, so sind A, B
unabhängig genau dann, wenn die Wahrsch. von A bedingt auf B gleich der Wahrsch. von A
selbst ist.
Bsp: Gefälschte Münze. Wir werfen zweimal mit einer eventuell gefälschten Münze. Sei p ∈
(0, 1) die W-keit für Kopf, identifiziert mit der 1. Wir betrachten die Ereignisse A, der erste Wurf
zeigt ’Kopf’ und B, genau ein ’Kopf’ erscheint. Dies Experiment modellieren wir durch Ω := {0, 1}2
mit dem W-maß P ({(i, j)}) = pi+j q 2−i−j . Die Koordinatenabbildungen Xi : Ω → {0, 1} geben
das Ergebnis im i-ten Wurf an. Die Ergebnisse des ersten Wurfes und des zweiten Wurfes sind
unabhängig,
P (X1 = i, X2 = j) = P (X1 = i)P (X2 = j).
Die Ereignisse A := {X1 = 1} = {(1, 0), (1, 1)} und B := {X1 + X2 = 1} = {(0, 1), (1, 0)} haben
die W-keiten P (A) = p, P (B) = P ({(0, 1)}) + P ({(1, 0)}) = 2p(1 − p), P (A ∩ B) = p(1 − p). Die
beiden Ereignisse A, B sind genau dann paarweise unabhängig, falls p = 1/2 gilt.
Jetzt zur allgemeinen formalen Definition der Unabhängigkeit.
Definition 1.5.2 (unabhängig) Eine Familie Ai ∈ A, i ∈ I, von Ereignissen zu beliebiger
Indexmenge I heißt (stochastisch) unabhängig, falls für jede endliche Auswahl die W-keit des
Durchschnitts gleich dem Produkt der Wahrsch. ist. In Formeln:
\
Y
∀J ⊂ I, |J| < ∞
P(
Aj ) =
P (Aj ).
j∈J
j∈J
Eine Familie Ai ⊂ A, i ∈ I, von Untermengen der Ereignismenge zu beliebiger Indexmenge I heißt
unabhängig , falls jedes Repräsentantensystem Ai ∈ Ai , i ∈ I, eine Familie von unabhängigen
Ereignissen bildet.
Die drei Definitionen sind in aufsteigender Reihenfolge der Allgemeinheit, die dritte enthält die
zweite und diese die erste als Spezialfall.
Lemma 1.5.3 Die Ereignisse Ai , i ∈ I, sind genau dann unabhängig wenn die Mengensysteme
{∅, Ai , Aci , Ω}, i ∈ I, unabhängig sind.
Seien die Mengensysteme Ai ⊂ A, i ∈ I, stochastisch unabhängig. Sind IkS, k ∈ K, paarweise
disjunkte Teilmengen der Indexmenge I, so sind die Mengensysteme Bk := i∈Ik Ai , k ∈ K der
Vereiningung unabhängig.
Bew: Die Rückrichtung der ersten Aussage ist einfach. Für die Hinrichtung beschränken wir uns
oEdA auf endliche Indexmenge I. Wir werden zeigen: Sind die Ereignisse Ai , i ∈ I unabhängig, so
auch Aci0 , Ai , i ∈ I\{i0 } für jedes i0 ∈ I.
31
Uwe Rösler
SS12
1.5
Konzept: Unabhängigkeit
Sei J ⊂ I.
\
\
\
Y
Y
Y
P (Aci0 ∩
Aj ) = P (
Aj )−P (
Aj ) =
P (Aj )−
P (Aj ) = P (Aci0 )
P (Aj )
i0 6=j∈J
i0 6=j∈J
j∈J
i0 6=j∈J
j∈J
i0 6=j∈J
Eine sukzessive Anwendung liefert die Hinrichtung.
Die zweite Aussage folgt direkt aus der Definition.
q.e.d.
Definition 1.5.4 Eine Familie von Zufallsgrößen Xi : Ω → Ωi , i ∈ I heißt unabhängig, falls die
σ-Algebren X −1 (Ai ) = {X −1 (A) | A ∈ Ai }, i ∈ I unabhängig sind.
Bemerkung: Allgemein: Seien Ei , i ∈ I durchschnittstabile Erzeuger der σ-Algebren Ai , i ∈ I.
(Eine Teilmenge E des Ereignisraumes A heißt Erzeuger, falls A die kleinste, E enthaltende σAlgebra ist. Er ist durchschnittsstabil, falls er abgeschlossen ist bzgl. endlichem Durchschnitt.)
Dann reicht es und ist einfacher nachzuweisen, das̈ die Familie Xi−1 (Ei ), i ∈ I unabhängig ist.
Das einfachste Beipiel für unabhängige Zgn ist mehrfaches Würfeln. Die Augenzahlen Xi des i-ten
Wurfes, 1 ≤ i ≤ n sind unabhängig.
In diesem Beispiel ist der W-raum ein Produktraum. Allgemeiner fomuliert,
Q
Bsp: Produktraum:
Seien (Ωi , Pot(Ωi ), Pi ) diskrete W-räume. Sei Ω := i Ωi die Produktmenge
Q
und P = i Pi das Produktmaß. Die Koordinatenabbildungen X1 , . . . , Xn sind unabhängig 1.3.8.
Zum Schluss eine Fallgrube, die wir umschifft haben.
Paarweise Unabhängigkeit Ereignisse Ai , i ∈ I, heißen paarweise unabhängig , falls je zwei
Ereignisse Ai , Aj , i 6= j unabhängig sind. Unabhängigkeit impliziert paarweise Unabhängigkeit.
Die Umkehrung gilt nicht. Warnung: Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit.
Ebenso impliziert Tripelunabhängigkeit P (A ∩ B ∩ C) = P (A)P (B)P (C) nicht Unabhängigkeit.
Bsp: Paarweise unabhängig: Bei zweimaligem Münzwurf wie oben mit p = 1/2 betrachten
wir zusätzlich das Ereignis C, der zweite Wurf zeigt ’Kopf’. Diese Ereignisse sind paarweise unabhängig, aber nicht unabhängig, (A ∩ B ∩ C = ∅). Nachrechnen.
Warnung: Die mathematische stochastische Unabhängigkeit kann nicht als einflusslos oder die
Verneinung kausaler Zusammenhänge interpretiert werden.
Proposition 1.5.5 Die Summe von n unabhängigen, identisch Bernoulli Ber(p) zum Parameter
p verteilten Zufallsvariablen ist binomialverteilt Bin(n, p).
Pn
Beweis: Seien Xi die unabhängigen Bernoulli(p) verteilten Zgn und Sn =
i=1 Xi die n−te
Partialsumme. Wir zeigen den Induktionsschritt von n nach n + 1.
P (Sn+1 = k)
= P (Sn = k, Xn+1 = 0) + P (Sn = k − 1, Xn+1 = 1)
= P (Sn = k)P (Xn+1 = 0) + P (Sn = k − 1)P (Xn+1 = 1)
n k n−k
n
n + 1 k n+1−k
=
p q
q+
pk−1 q n−k+1 p = . . . =
p q
k
k−1
k
32
Elementare Wahrscheinlichkeitstheorie
1.6
SS12
Uwe Rösler
Erwartungswerte
Heuristik: Der durchschnittliche Wert bei einem Münzwurf ist 3,5. Dies ist der Wert, den wir im
Durchschnitt erwarten, die Summe der Augenzahlen geteilt durch die Anzahl der Würfe.
Wir führen den Erwartungswert zuerst nur für Zgn X ein, die höchstens abzählbar viele verschiedene Werte annehmen können.
Definition 1.6.1 (Erwartungswert) Der Erwartungswert E(X) einer positiven Zufallsgröße
X : Ω 7→ IR mit abzählbar vielen Werten ist
X
E(X) :=
X(ω)P ({ω}).
ω∈Ω
Der Erwartungswert E(X) einer Zufallsgröße X mit E(X + ) < ∞ oder E(X − ) < ∞ ist
E(X) := E(X + ) − E(X − ).
Wir haben hier die Zerlegung einer Funktion f = f + − f − in den Positivteil f + := f ∨ 0 und den
Negativteil f − := (−f ) ∨ 0 benutzt.
Eine Zg X heißt integrierbar, falls E(|X|) < ∞ gilt.
Sprachgebrauch: Der Erwartungswert E(X) heißt auch erstes Moment von X oder durchschnittlicher Wert von X. E|X| ist das erste absolute Moment.
Notation: EX = E(X), EX 2 = E(X 2 ) und E 2 X = (E(X))2 .
Bemerkung Die Verwendung des Erwartungswertes
impliziert stets dessen Wohldefiniertheit.
P
Dazu benötigen wir, daß die Summe
X(ω)P
(ω)
existiert
und unabhängig ist von der Reiω
henfolge der Summation. Dies wird (genau) durch die Voraussetzung EX + oder EX − endlich
gegeben. Der Regelfall ist eine integrierbare Zg. (Beachte: E|X| < ∞ ⇔ EX + < ∞, EX − < ∞.)
Der Erwartungswert kann die Werte +∞ und −∞ annehmen, ist für integrierbare Zgn aber stets
endlich.
Durch entsprechende Umordnung erhalten wir
X
X
E(X) =
X(ω)P ({ω}) =
xP (X = x).
ω∈Ω
x∈IR
Zur Summation tragen nur abzählbar viele Punkte x bei. Der Erwartungswert einer Zg hängt nur
von der Verteilung der Zg ab, nicht aber vom zugrundeliegenden W-raum.
Hier einige Rechenregeln für Erwartungswerte.
Lemma 1.6.2 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert.
(i) E(aX) = aE(X)
Skalarität
(ii) E(X + Y ) = EX + EY
Linearität
(iii) 0 ≤ X ⇒ 0 ≤ EX
Positivität
(iv) X ≤ Y ⇒ EX ≤ EY
Ordnungserhaltung
(v) E|X + Y | ≤ E|X| + E|Y |
Dreiecksungleichung
(vi) E(a) = a
(vii) |EaX| ≤ |a|E|X|
(viii) E|X| = 0 ⇔ P (X = 0) = 1
(ix) E(supi Xi ) ≥ supi EXi
33
Uwe Rösler
SS12
1.6
Erwartungswerte
(x) E(inf i Xi ) ≤ inf i EXi
Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen. Die wesentlichen
Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den Erwartungswert
als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die reellen Zahlen via
X 7→ EX.
Merkregel: Der Erwartungswert ist eine positive lineare Abbildung (auf dem Vektorraum der
Zufallsvariablen mit endlichem ersten absoluten Moment).
Hier einige Rechenregeln für Erwartungswerte.
Lemma 1.6.3 Sei a eine reelle Zahl und X, Y Zg. mit endlichem Erwartungswert.
(i) E(aX) = aE(X)
Skalarität
(ii) E(X + Y ) = EX + EY
Linearität
(iii) 0 ≤ X ⇒ 0 ≤ EX
Positivität
(iv) X ≤ Y ⇒ EX ≤ EY
Ordnungserhaltung
(v) E|X + Y | ≤ E|X| + E|Y |
Dreiecksungleichung
(vi) E(a) = a
(vii) |EaX| ≤ |a|E|X|
(viii) E|X| = 0 ⇔ P (X = 0) = 1
(ix) E(sup X, Y ) ≥ sup E(X), E(Y )
(x) E(inf X, Y ) ≤ inf E(X), E(Y )
Beweis:Die Beweise sind mehr eine Fingerübung und dem Leser überlassen.
q.e.d.
Die wesentlichen Eigenschaften sind zusammengefaßt in einer Merkregel. Dazu betrachten wir den
Erwartungswert als eine Abbildung von dem Vektorraum V := {X : Ω 7→ IR | E|X| < ∞} in die
reellen Zahlen via X 7→ EX.
Merkregel: Der Erwartungswert ist eine positive lineare Abbildung auf dem Vektorraum der
Zufallsvariablen mit endlichem ersten absoluten Moment.
Bsp: Binomialverteilung. Der Erwartungswert einer binomialverteilten Zg S zu den Parametern
n ∈ IN und p ∈ (0, 1) ist np. Dies ergibt sich durch Nachrechnen
ES =
n
X
kP (S = k) =
k=0
X n
k
pk q n−k = ... = np
k
k
mit q = 1 − p. Eleganter ist die Argumentation: Die Summe Sn von n unabhängigen Ber(p)
verteilten Zgn X1 , . . . , Xn ist Bin(n, p) verteilt. Damit gilt
ESn =
n
X
EXi = nEX1 = np.
i=1
Bsp: Bonferoni Ungleichung. Die Binomialformel liefert
n
Y
(1 − ai ) =
i=1
X
J⊂{1,...,n}
34
(−1)|J|
Y
j∈J
aj .
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Sei ai ∈ [0,
Q1] und sei Sk die rechte Summe über alle J der Mächtigkeit kleiner oder gleich k. Dann
ist Sk − i (1 − ai ) positive für ungerade k und negativ für gerade k. (Der Beweis wird durch
Induktion nach k erbracht.)
Seien Ai , 1 ≤ i ≤ n Ereignisse und 11Ai die Indikatorfunktion. (11A (ω) = 1 für ω ∈ A und 0 sonst.)
Mit ai = 11Ai (ω) erhalten wir
11
=
∩n
Ac
i=1 i
n
Y
X
(11 − 11Ai ) =
i=1
(−1)|J|
J⊂{0,1,...,n}
Y
11Aj
(1.4)
j∈J
Auf beiden Seiten den Erwartungswert genommen liefert die Einschluss-Ausschlussformel. Die
allgemeine
Bonferoni Ungleichung folgt mit der Erwartungswertbildung der alternierenden Reihe
Q
Sk − i (1 − ai ).
Satz 1.6.4 (Transformationssatz) Seien X : Ω 7→ Ω0 und Y : Ω0 7→ IR Zgn. Es gilt
EP (Y ◦ X) = EP X (Y )
sofern eine der beiden Seiten existiert.
Beweis:
EP (Y ◦ X) =
X
Y (X(ω))P (ω) =
X
ω
Y (x)P (X = x) = EP X (Y ).
x
Besonders wichtig ist der Multiplikationssatz, der neben der additiven Struktur die Produktstruktur aufzeigt.
Satz 1.6.5 (Multiplikationssatz) Für unabhängige integrierbare Zgn X1 , . . . , Xn ist der Erwartungswert des Produktes gleich dem Produkt der Erwartungswerte.
Y
Y
E( Xi ) =
E(Xi ).
i
i
Beweis:
E(
Y
Xi )
=
n
X Y
ω
i
=
!
Xi (ω) P (ω)
i=1
X
x1 . . . xn P (X1 = x1 , . . . , Xn = xn )
x1 ...,xn
=
X
x1 . . . xn P (X1 = x1 ) . . . P (Xn = xn ) =
x1 ,...,xn
Y
E(Xi ).
i
Petersburger Spiel: Sie werfen eine gefälschte Münze und gewinnen bei Kopf, welcher mit
Wahrscheinlichkeit p > 21 erscheint, und verlieren bei Zahl. Ihr Einsatz ist stets Ihr gesamtes
Kapital, welches bei Gewinn verdoppelt wird und bei Verlust eingezogen wird. Wie groß ist der
erwartete Gewinn nach n Runden und mit welcher W-keit geschieht dies?
Mathematisches Modell: Seien Xi , 1 ≤ i ≤ n unabhängige, Ber(p) verteilte Zgn. Ihr AnQi
fangskapital sei K0 = 1. Nach der i-ten Runde besitzen sie das Kapital Ki = j=1 (2Xi ). Die
i
Erwartungswerte E(Ki ) = (2p)
Q sind striktnmonoton steigend. Nach n Würfen sind Sie nicht pleite mit einer
Q W-keit von P ( i Xi = 1) = p und haben in diesem seltenen Fall ein Riesenkapital
von E( i (2Xi )) = (2p)n angesammelt.
Üblicherweise läßt sich der Erwartungswert direkt aus der Definition berechnen. Hier zwei andere,
nicht triviales Beispiele zur Berechnung eines Erwartungwertes.
35
Uwe Rösler
SS12
1.6
Erwartungswerte
Zufallsadresse: Ein Komputer hat n Prozessoren und ordnet k Arbeitsaufgaben zufällig mit
Gleichverteilung jeweils einem Prozessor zu, der die Aufgabe bearbeiten soll. Falls ein Prozessor
zwei oder mehr Aufgaben bekommt, so bearbeitet er keine. Wieviele Aufgaben werden durchschnittlich bearbeitet?
Sei Y die Anzahl der Prozessoren, die genau eine Aufgabe erhalten. Gefragt ist nach EY. Es ist
relativ schwer die Verteilung der Zg Y zu finden. Für den Erwartungswert gibt es einen einfachen
Weg: Seien Xi die Zgn, das̈ der i-te Prozessor genau eine Aufgabe bekommt. (Xi = 1 falls ja,
k−1
. (Urnenmodell aus einer
ansonsten Xi = 0.) Die W-keit P (Xi = 1) berechnet sich zu k1 (n−1)
nk
Urne mit n numerierten Kugeln bei k-Ziehungen mit Zurücklegen und Reihenfolge genau einmal
die 1 zu ziehen.) Damit gilt
EY = E
X
Xi =
i
X
i
1
EXi = k 1 −
n
k−1
.
Für k = n und n gros̈ ergibt sich asymptotisch der erstaunlich hohe Wert,
lim
n
EY
= e−1 .
n
Quicksort: Quicksort ist ein 1961 von Hoare vorgestellter Sortieralgorithmus. Wir beschreiben
die Originalversion des zufälligen Algorithmus. Sei Ln eine zu sortierende Menge oder Liste von
n verschiedenen Zahlen.
• Wähle zufällig aus der Menge (Urne) mit Gleichverteilung ein Element,
• vergleiche alle anderen damit und
• bilde die Menge der strikt kleineren und die Menge der strikt größeren Zahlen.
• Für jede dieser Mengen rufe rekursiv den Algorithmus auf.
Dieser Algorithmus terminiert. Schematisch erhalten wir
x
x
x
x
x
x x x
x
x
x
s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s s
Die Laufzeit des Algorithmus ist zufällig. Diese Zeit ist im wesentlichen proportional zur benötigten
Anzahl Qn der Vergleiche. Die benötigte Vergleichsanzahl für eine Liste der Länge n sind n − 1
Vergleiche zur Bildung der Teillisten und dann die benötigten Vergleichen zur Sortierung der Liste
der kleineren und der Liste der größeren Elemente. Wir erhalten die mathematische rekursive
Beziehung
D
Qn = n − 1 + QUn −1 + Qn−Un ,
n ∈ IN . Hierbei sind Q. , Q. , Un unabhängige Zgn. Die Zg Un hat eine gleichmäßige Verteilung auf
D
{1, . . . , n}. Die Verteilung von Qm , Qm sind jeweils gleich und rekursiv bestimmt. Das Symbol =
36
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
steht für Gleichheit in Verteilung. Hier interessiert uns nur die erwartete Anzahl an := EQn der
Vergleiche. Die obige rekursive Beziehung ergibt
an = n − 1 + EaUn + Ean−Un ,
n ∈ IN, a0 = 0 = a1 . Diese rekursive Gleichung ergibt
an
an−1
2(n − 1)
=
+
.
n+1
n
n(n + 1)
Hieraus ergibt sich durch Iteration sofort
n+1
X1
2
an
= ... = 2
+
−4
n+1
l
n+1
l=1
an ≡ 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n))
mit γ = 0, 57721 . . . die Euler Konstante.
1.6.1
Momente
Den Erwartungswert E(X) nennt man auch Moment oder genauer erstes Moment. Das absolute erste Moment ist E(|X|). Das p-te Moment ist E(X p ), (Mit der Konvention xp := |x|p sign x
und vorausgesetzt E(X p ) ergibt Sinn.) Ebenso spricht man vom p-ten absoluten Moment
E(|X|p ), vom exponentiellen Moment E(exp(X)), logarithmischen, usw. Ein zentriertes
Moment einer Zufallsvariable X ist der Erwartungswert der zentrierten Zufallsvariable X − EX.
Der Leser wird nach diesem Schema selbst neue Sprachkombinationen erfinden können (die ich ad
hoc verstehe).
Das zweite zentrierte Moment einer Zufallsvariablen X heißtpVarianz der Zufallsvariablen X.
2
.Die Wurzel σX := Var(X) der Varianz von X heißt
Notation: Var(X) = E(X − EX)2 := σX
Streuung.
Die Covarianz Cov(X, Y ) von zwei Zufallsvariablen X, Y ist der Erwartungswert E((X−EX)(Y −
EY )) des Produkts der zentrierten Zufallsvariablen. Der Korrelationskoeffizient
ρ := ρ(X, Y ) =
Cov(X, Y )
σX σY
zweier Zgn X, Y ist die Kovarianz dividiert durch das Produkt der Streuungen.
1.6.2
Varianz
Proposition 1.6.6 Seien X, Y Zufallsgrößen mit endlichem zweiten Moment. Es gelten die Rechenregeln
(i) Var(aX + b) = a2 Var(X),
2
a, b ∈ IR.
2
(ii) Var(X) = E(X ) − E (X)
(iii) Var(X) = 0 ⇔ P (X 6= EX) = 0
Beweis:
Var(X)
=
X
(X(ω) − EX)2 P (ω)
=
X
(X(ω)2 − 2X(ω)E(X) + (E(X))2 P (ω) = E(X 2 ) − E 2 (X)
=
E(aX + b − E(aX + b))2 = a2 Var(X)
ω
Var(aX + b)
Die nächste Behauptung folgt aus Lemma 1.6.38.
37
q.e.d.
Uwe Rösler
SS12
1.6
Erwartungswerte
P
P
Lemma 1.6.7 Für unabhängige Zgn X1 , . . . , Xn ist die Varianz linear (Var i Xi = i VarXi ).
P
P
P
P
Beweis: Var( i Xi ) = Var( i (Xi − EXi )) = i,j E((Xi − EXi )(Xj − EXj )) = i E(Xi −
P
EXi )2 = i VarXi .
Satz 1.6.8 (Cauchy-Schwarz Ungleichung) Für zwei Zgn X, Y mit endlichem zweiten Moment gilt die Ungleichung
E 2 (XY ) ≤ E(X 2 )E(Y 2 ).
Gleichheit gilt genau dann, wenn eine Zg mit Wahrsch. 1 ein Vielfaches der anderen ist (∃a, b ∈
IR, ab 6= 0 : P (aX = bY ) = 1).
Beweis: O.E.d.A sei E(Y 2 ) > 0. Betrachte das Minimum der Funktion 0 ≤ E(X + aY )2 =
EX 2 + 2aE(XY ) + a2 EY 2 in der reellen Variablen a ∈ IR. Das Minimum wird im Wert a =
−E(XY )/EY 2 angenommen. Diesen a Wert eingesetzt ergibt die Behauptung. Gleichheit gilt
genau für E(X + aY )2 = 0, welches äquivalent zu P (X + aY = 0) = 1 ist.
q.e.d.
Beispiel: Die Korrelationskoeffizienten erfüllen −1 ≤ ρ(X, Y ) ≤ 1. Dies folgt aus der CauchySchwarz Ungleichung
Cov2 (X, Y ) ≤ Var(X)Var(Y ).
Übung: Der Erwartungswert EX minimiert die Funktion E(X − a)2 in a ∈ IR.
1.6.3
Kovarianz
Proposition 1.6.9 Seien a, b reelle Zahlen und X, Y Zufallsvariablen mit endlichem zweiten Moment. Es gelten die Rechenregeln
(i) Cov(X, X) = Var(X)
(ii) Cov(X, Y ) = Cov(Y, X)
(iii) Cov(X, Y ) = E(XY ) − EXEY
(iv) Cov(aX + b, Y ) = aCov(X, Y )
(v) Cov2 (X, Y ) ≤ Var(X)Var(Y )
P
P
P
(vi) Var( i Xi ) = i Var(Xi ) + i6=j Cov(Xi , Xj )
(vii) X, Y unabhängig ⇒ Cov(X, Y ) = 0
Beweis: Die fünfte Ausage folgt aus der Cauchy-Schwarz Ungleichung. Für die sechste nehmen
wir o.E.d.A. zentrierte Zufallsvariablen X1 , . . . , Xn an. Aus
X
X
X
Var(X1 + . . . + Xn ) =
E(Xi Xj ) =
EXi2 +
EXi Xj
i
1≤i,j≤n
folgt die Aussage. Der letzte Teil folgt aus 1.6.5
i6=j
q.e.d.
Definition 1.6.10 (unkorreliert) Zwei Zgn X, Y heißen unkorreliert, falls Cov(X, Y ) = 0
gilt. Dies ist äquivalent zu E(XY ) = EXEY. Unabhängigkeit impliziert Unkorreliertheit, aber im
allgemeinen gilt nicht die Umkehrung.
Beispiel: Die Zg X nehme die Werte −2, −1, 1, 2 an mit jeweils derselben Wahrsch. 1/4. Dann
sind die Zgn X, X 2 unkorreliert, aber nicht unabhängig, (EX 3 = 0 = EXEX 2 , 1/4 = P (X =
2, X 2 = 4) 6= P (X = 2)P (X 2 = 4) = 1/8.)
38
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Merkregel: Die Covarianz ist eine symmetrische Bilinearform auf dem Raum der Zufallsvariablen mit zweitem endlichen Moment.
Interpretation
Der Erwartungswert gibt die durchschnittliche Größe einer Zufallsvariablen an (siehe auch den
Abschnitt über das schwache Gesetz der großen Zahl). Der Erwartungswert ist physikalisch der
Schwerpunkt einer Masseverteilung. Legen wir auf jede reelle Zahl x die physikalische Masse P ({x})
eines W-Maße P, so ist der Erwartungswert exakt der Schwerpunkt aller dieser Massen, d.h.
wir können die gewichtete Zahlengerade genau in diesem Punkt auf eine Spitze stellen, und die
gewichtete Zahlengerade bleibt im Gleichgewicht.
Die Varianz ist eine Kenngröße für die Streuung des W-maßes (Masse). Je größer die Varianz,
desto mehr Streuung. Der Extremfall Var(X) = 0 von Varianz Null entspricht keiner Streuung,
die Zufallsvariable X nimmt nur einen einzigen Wert X ≡ EX an. Mit wachsender Varianz
streuen die Realisierungen immer stärker um den Erwartungswert. Die Kovarianz Cov(X, Y ) zweier
Zufallsvariabler ist eine Kenngröße für lineare Abhängigkeit der Zgn X und Y . Üblicherweise wird
der Korrelationskoeffizient
Cov(X, Y )
∈ [−1, 1],
ρX,Y =
σX σY
p
p
die Kovarianz bereinigt um die Streuungen σX = Var(X),σY = Var(Y ), bevorzugt. Positive Korrelation zeigt eine Tendenz zu gleichen Vorzeichen für die zentrierten Zgn X, Y, negative Korrelation zeigt eine Tendenz zu ungleichenVorzeichen. Die Extremfälle sind ρ = 1 falls
X − EX = a(Y − EY ) für ein a > 0 und ρ = −1 falls a < 0.
r
r
Y
r
Y
Y
r
6
6
6
r
r
r
r
r
r
r
r
r
r
r
r
X
X
X
r
r
r
r
r
Die Bilder zeigen positive Korrelation, keine Korrelation und negative Korrelation. Die Extremwerte des Korrelatioskoeffizienten ρ sind ρ = 1 und ρ = −1. Diese Fälle entsprechen X − EX =
a(Y − EY ) für ein a > 0 bzw. a < 0. Dies ist eine Konsequenz aus der Cauchy-Schwarz Ungleichung.
1.6.4
Konvergenzsätze
Eine Zg mit Wertebereich IR = IR ∪ {−∞, ∞} heißt erweitert.
Satz 1.6.11 (Monotone Konvergenz) Sei Xn , n ∈ IN, eine steigende (fallende) Folge von erweiterten Zgn und sei EX1 > −∞ (EX1 < ∞.) Dann gilt
E lim Xn = lim EXn .
n
n
Beweis: Sei X = limn Xn . Die Aussage folgt (Übung) aus
P
ω (X(ω)
− Xn (ω))P (ω) → 0.
Bemerkung: Ein Spezialfall ist: Sei An eine gegen A aufsteigende (oder absteigende) Folge von
Ereignissen. Dann gilt
P (An ) % P (A).
Beachte E11B = P (B).
Lemma 1.6.12 (Lemma von Fatou) Sei Xn , n ∈ IN, eine Folge erweiterter Zgn. Sind die Xn
gleichmäßig nach unten beschränkt durch eine integrierbare Funktion, so gilt
lim inf EXn ≥ E lim inf Xn .
39
Uwe Rösler
SS12
1.7
Integrationstheorie
Sind die Xn gleichmäßig nach oben beschränkt durch eine integrierbare Zg, so gilt
lim sup EXn ≤ E lim sup Xn .
Beweis:Definiere Un := inf i≥n Xi . Die Folge Un , n ∈ IN, konvergiert aufsteigend gegen lim inf n Xn .
Mit dem Satz von der monotonen Konvergenz erhalten wir
EXn ≥ EUn %n E lim inf Xn .
n
Für die zweite Aussage betrachte die Folge −Xn und beachte lim inf(−Xn ) = − lim sup Xn .q.e.d.
Satz 1.6.13 (Dominierte Konvergenz) Sei Xn , n ∈ IN, eine konvergente Folge von erweiterten Zgn. Weiterhin gebe es ein Y mit E|Y | < ∞ und |Xn | ≤ Y für alle n ∈ IN . Dann gilt
lim EXn = E lim Xn .
n
Beweis: Dies ist eine Folgerung aus dem Lemma von Fatou. Sei X der Grenzwert der Folge (Xn )n .
Sei Un := inf k≥n Xk und Vn := supk≥n Xk . Die Folge Un ist punktweise aufsteigend gegen X und
die Folge Vn (punktweise) absteigend dagegen. Der Satz von der monotonen Konvergenz liefert
limn EUn = EX = limn EVn . Damit
EX = lim inf EUn ≤ lim inf EXn ≤ lim sup EXn ≤ lim sup EVn = EX.
n
n
n
n
q.e.d.
Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = IN versehen mit dem
W-maß P (i) = c/i2 mit c geeignet. Sei Xn (i) := i11i≥n . Es gilt limn Xn ≡ 0,
lim EXn = ∞ > E lim fn = 0.
n
n
Der Satz von der monotonen Konvergenz ist nicht anwendbar.
1.7
Integrationstheorie
Wir wollen den Erwartungswert allgemeiner Zgn definieren. Mathematisch führt dies auf eine
ordnungserhaltende, lineare und σ-stetige Fortsetzung I des W-maßes µ auf Funktionen.
Ein Maß µ fassen wir als eine Abbildung auf Indikatorfunktionen 11A auf, µ(11A ) = µ(A). Diese
Abbildung setzen wir linear fort zu einer Abbildung µ̃ auf der Menge T der Treppenfunktionen
P
n
i=1 ai 11Ai via
X
X
µ̃(
ai 11Ai ) =
ai µ(Ai ).
i
i
Damit ist die algebraische Erweiterung beendet.
Wir erweitern die Abbildung µ̃ zu I durch einen geeigneten Konvergenzbegriff via
I(f ) = lim I(fn )
n
mit fn konvergiert gegen f. Als Konvergenzbegriff benutzen wir Ordnungskonvergenz oder topologische Konvergenz.
Ordnungsstruktur Ein geeigneter Konvergenzbegriff auf den reellen Zahlen wird durch die Ordnungsstruktur geliefert, fn konvergiert aufsteigend punktweise gegen f .
Vektorraumstruktur Ein anderer gern gewählter Zugang ist es, T als Vektorraum zu betrachten,
mit einer Norm zu versehen, bezüglich dieser Norm abzuschließen und dann das Funktional I auf
den Abschluß von T stetig zu erweitern.
40
Elementare Wahrscheinlichkeitstheorie
1.7.1
SS12
Uwe Rösler
Algebraische Erweiterung
Eine Treppenfunktion ist eine meßbare Abbildung f : Ω 7→ IR mit endlich vielen Werten. Eine
Treppenfunktion f ist stets eindeutig darstellbar in der Standarddarstellung als Treppenfunktion
N
X
an 11f −1 (an ) .
n=1
Hierbei sind a1 , ..., aN ∈ IR die angenommenen Werte.
Sei T = T (Ω, IR) die Menge der Treppenfunktionen. Dies ist ein Vektorraum. (Nachrechnen).
Dieser Vektorraum wird linear aufgespannt von den Indikatorfunktionen 11A , A ∈ A.
Wir betrachten den positiven Kegel T + = T (Ω, IR+ ).
Proposition 1.7.1 Die Funktion I : T + 7→ IR definiert durch
I(f ) :=
N
X
an µ(f −1 (an ))
(1.5)
n=1
ist eine additive, skalare und isotone Funktion mit I(0) = 0.
Beweis: I ist wohldefiniert, da die Standarddarstellung eindeutig ist.
• Additivität.
Seien αi , βj die möglichen Werte von f bzw. g.
I(f + g)
=
X
=
X
(αi + βj )µ(f −1 (αi ) ∩ g −1 (βj ))
=
XX
an µ((f + g)−1 (an )) =
n
X
n
an
X
11αi +βj =an µ(f −1 (αi ) ∩ g −1 (βj ))
i,j
i,j
i
αi µ(f −1 (αi )) ∩ g −1 (βj )) +
j
XX
i
βj µ(f −1 (αi )) ∩ g −1 (βj )) = I(f ) + I(g)
j
Die Skalarität und Isotonie sind einfach.
q.e.d.
Hintergrund Ordnungsstruktur
Sei A eine Menge. Eine Relation ist eine Teilmenge R von A × A. Die Komposition oder
Verknüpfung zweier Relationen R, Q ist gegeben durch
R ◦ Q =: {(a, c) | ∃b ∈ A : (a, b) ∈ R, (b, c) ∈ Q}.
Das Inverse einer Relation ist R−1 := {(b, a) | (a, b) ∈ R}. Eine Relation heißt reflexiv, falls
die Relation die Diagonale {(a, a) | a ∈ A} enthält. Eine Relation heißt symmetrisch, falls die
Relation gleich ihrer Inversen ist. Eine Relation heißt antisymmetrisch, falls der Durchschnitt
der Relation mit der Inversen genau die Diagonale ist. Eine Relation heißt transitiv, falls die
Relation unter Komposition abgeschlossen ist (R ◦ R ⊂ R).
Eine Teilordnung oder partielle Ordnung oder Ordnung auf einer Menge A ist eine reflexive,
antisymmetrische und transitive Relation. Wir schreiben a b für (a, b) ∈ R und sprechen von b
dominiert oder majorisiert a oder auch b ist größer als a. Analog benutzen wir Minorante
und kleiner. Ein Tupel (A, ) heißt geordnete Menge .
Sei (A, ) eine partielle Ordnung. Ein Element a ∈ A heißt obere Schranke von B ⊂ A falls
b ≤ a für alle b ∈ B gilt. Eine Menge B ⊂ A heißt nach oben (unten) beschränkt, falls es eine
obere (untere) Schranke von A gibt. Wir sprechen von einer kleinsten oberen Schranke a von
B falls a eine obere Schranke
W ist und für alle anderen oberen Schranken x gilt a ≤ x.
Notation: a = supb∈B b = b∈B b.
Eine kleinste obere Schranke a heißt Maximum von B, falls zusätzlich a ∈ B gilt.
41
Uwe Rösler
SS12
1.7
Integrationstheorie
Notation: x = maxb∈B b.
V
Analog verwenden wir das Infimum inf b∈B = b∈B b und Minimum.
Notation: a ∨ b := sup{a, b}
a ∧ b := inf{a, b}.
Ein Verband ist eine geordnete Menge abgeschlossen bzgl. endlichem Supremum und endlichem
Infimum. Wir schreiben (A, ≺, ∧, ∨) in der Notation wie oben. Ein Verband heißt von oben (unten) vollständig falls jede nach oben (unten) beschränkte Teilmenge ein Supremum (Infimum)
besitzt. Er heißt vollständig, falls er von unten und oben vollständig ist. Analog verwenden wir
σ-vollständig falls jede beschränkte abzählbare Menge ein Supremum und Infimum besitzt.
Eine isotone Funktion ist eine ordnungserhaltende Funktion. Eine isotone Funktion f heißt von
unten σ-stetig, falls für jede aufsteigende abzählbare Folge an ∈ M mit supn an ∈ M gilt
∨n f (an ) = f (∨n an ). Analog verwenden wir von oben σ-stetig und σ-stetig für beides.
Bemerkung: Jeder Verband läßt sich σ-vervollständigen, (von unten, von oben, vervollständigen).
Darunter verstehen wir eine kleinste, ordnungserhaltende und injektive Einbettung des Verbandes in einen σ-vollständigen (von unten, von oben, vollständigen) Verband. Bis auf Isomorphie
(ordnungserhaltende Bijektion) ist diese eindeutig. (Keine Übung: Dies ist eine mathematische
Standardkonstruktion. Z.B. lassen sich so die reellen Zahlen aus den rationalen Zahlen konstruieren.) Weiterhin: jede isotone, von unten σ-stetige Abbildung I : V 7→ IR ∪ {∞} läßt sich eindeutig
von unten σ-stetig fortsetzen auf die σ-Vervollständigung des Verbandes durch
˜ = lim I(vn ).
I(v)
n
Hierbei ist vn ∈ M, n ∈ IN, eine Folge mit vn %n v. Dies bildet den abstrakten Hintergrund
unserer folgenden Argumentation.
Bemerkung: Eine σ-Algebra ist ein Verband mit der Ordnung induziert durch Enthalten, A ≺
B ⇔ A ⊂ B, A∨B = A∪B, A∧B = A∩B. Dieser Verband ist vollständig. Ein Maß ist von unten σstetig, eine endliches Maß sogar σ-stetig. Der Satz von Caratheodory ist die σ-stetige Erweiterung
einer σ-stetigen, additiven und isotonen Abbildung auf einem Verband. Der Ring (=Verband) wird
erweitert zur σ-Algebra (Verbandsvervollständigung) und das Prämaß zum Maß.
Integrale über Ordnungsstruktur
Der Raum der reellwertigen, positiven, erweiterten Treppenfunktionen T + = T (IR+ ) versehen mit
der punktweisen Ordnung ist ein Verband. Die Vervollständigung von T + bzgl. σ-Stetigkeit von
unten ist der Raum F(IR+ ) der erweiterten reellwertigen, meßbaren und positiven Funktionen. Zu
+
gegebener Funktion f ∈ F konvergieren die Treppenfunktionen fn
n
fn (x) :=
n2
X
i
i+1
11 i
n 2n ≤f (x)< 2n
2
i=0
von unten gegen f.
Proposition 1.7.2 Die Funktion I : T + 7→ IR+ definiert durch (1.5) ist eine lineare, skalare,
isotone, von unten σ-stetige Funktion. Die Abbildung I eingeschränkt auf I −1 (IR) ist σ-stetig.
Beweis: Die Wohldefiniertheit, Linearität, Skalarität, Isotonie wurde in Proposition 1.7.1 gezeigt.
Für die σ-Stetigkeit von unten betrachte eine aufsteigende Folge fn % f aus T + . Seien 0 = a1 <
a2 < ... < an die Werte von f und Ai = f −1 (ai ).
• I(fn 11Ai ) % I(f 11Ai ) für alle i = 1..n.
Dies fogt aus der σ-Stetigkeit des Maßes,
ai µ(Ai ) ≥ I(fn 11Ai ) ≥ (a − )µ(Ai ∩ {fn ≥ a − }) →n (ai − )µ(Ai )
mit geeignetem . Mit →n 0 erhalten wir die Teilbehauptung.
42
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
• σ-Stetigkeit von unten.
Zu zeigen ist I(fn ) % I(f ).
I(fn ) =
X
I(fn 11Ai ) %
X
i
I(f 11Ai ) = I(f ).
i
• I eingeschränkt auf I −1 (IR) ist σ-stetig.
Für eine Folge fn & f ∈ T + betrachte f1 − fn % f1 − f und argumentiere wie oben.
q.e.d.
Satz 1.7.3 Die additive und von unten σ-stetige Fortsetzung I eines Maßes auf F(IR+ ) wird
gegeben durch I˜ : F(IR+ ) 7→ IR+
˜ ) = lim I(fn ).
I(f
+
T 3fn %f
Die Fortsetzung ist eindeutig, additiv, skalar, isoton und σ-stetig von unten. Die Fortsetzung I˜
eingeschränkt auf I˜−1 (IR) ist σ-stetig.
Beweis: Das Maß setzt sich linear auf den Raum T + der positiven Treppenfunktionen fort (1.5).
Diese ist eindeutig. T + ist ein Verband und die Fortsetzung I ist σ-stetig von unten, Proposition
1.7.2. Der Abschluß von T + bzgl. σ-Vollständigkeit von unten ist F(IR+ ).
• I˜ ist wohldefiniert.
Seien fn und gm zwei monoton gegen f aufsteigende Folgen von Treppenfunktionen. Dann gilt
lim I(fn ) ≥ lim I(fn ∧ gm ) ≥ lim I(gm ).
n
n
m
Die rechte Seite ist aus Symmetriegründen ≥ limn I(fn ). Die Sandwichposition ergibt limn I(fn ) =
limm I(gm ).
• I˜ ist σ-stetig.
+
Sei F 3 fn % f. Seien T + 3 fi,n %i fn . Dann konvergieren die Treppenfunktionen gn :=
W
i≤n fi,n ≤ fn isoton gegen f. Aus der Sandwichposition
I(f ) = lim I(gn ) ≤ lim I(fn ) ≤ I(f ).
n
ergibt sich die Behauptung.
• Die Fortsetzung I˜ eingeschränkt auf I˜−1 (IR) ist σ-stetig.
Verwende σ-Stetigkeit von unten und fn & f ⇔ f1 − fn % f1 − f.
Zu zeigen bleiben die Eindeutigkeit der Fortsetzung und die algebraischen Eigenschaften Additivität und Skalarität. Dies ist einfach.
q.e.d.
Jede Funktion f : Ω 7→ IR hat eine eindeutige Zerlegung f = f + −f − mit f + := f ∨0, f − = (−f )+ .
˜ + ) oder I(f
˜ − ) endlich. Erweitere
Sei Fe der Raum alle meßbaren erweiterten Funktionen f mit I(f
˜
I auf Fe durch
˜˜ ) := I(f + ) − I(f − ).
I(f
Dies Objekt nennen wir Integral bzw. genauer Lebesgueintegral.
Dies ist (fast) der allgemeinste Integralbegriff.
Gebräuchliche Notationen für das Integral I˜˜ sind
Z
Z
Z
Z
˜˜ ) =: µ(f ) =: f (ω)dµ(ω) =:
I(f
f (ω)µ(dω) =: f dµ =: f.
Ω
Weitere Notationen sind
Z
Z
f dµ :=
A
43
f 11A dµ.
Uwe Rösler
SS12
1.7
Integrationstheorie
Speziell auf IR verwenden wir
b
Z
Z
f dµ :=
a
f dµ.
(a,b]
Hat µ keine Punktmaße (µ(x) = 0∀x ∈ IR), so benutzen wir auch
Z b
Z
Z a
f dµ :=
f dµ =: −
f dµ.
a
[a,b]
b
Ist µ das Lebesguemaß λ auf IR so schreiben wir
Z
Z
f (x)λ(dx) = f (x)dx.
R
Eine integrierbare Funktion f ist eine meßbare Funktion mit endlichem Wert |f |dµ < ∞. Der
Raum L1 der integrierbaren Funktionen ist ein Vektorraum.
R
Korollar 1.7.4 Das Integral : L1 7→ IR ist linear, skalar, isoton und σ-stetig.
Beispiel: Sei µ ein Maß und g ≥ 0 eine meßbare Funktion. Dann ist die Mengenfunktion ν : A 7→
IR, definiert durch
Z
ν(A) :=
g dµ,
A
ein Maß.
Notation dν = gdµ oder auch ν = gµ.
Beispiel: Wir betrachten ein W-Maß µ auf (IR, B). Die zugehörige Verteilungsfunktion F sei stetig
differenzierbar. Die Behauptung ist
Z
Z
dF
g(x)dµ(x) = g(x)
(x)dx
dx
für alle integrierbaren Funktionen g. Die Behauptung ist richtig für eine Treppe 11A . Da beide
Seiten additiv und σ-stetig sind, gilt Gleichheit für alle positiven meßbaren Funktionen. Dann
aber auch für alle integrierbaren Funktionen.
1.7.2
Konvergenzsätze
R
Sei
R E Rbzw. das oben definierte Integral für einen beliebigen Maßraum (Ω, A, µ). Wir benutzen
f = f dµ. Es gilt der Satz von der monotonen Konvergenz. Dies ist genau die σ-Stetigkeit des
Integrals. Als Folgerungen erhalten wir den Satz von Fatou und den Satz von der dominierten
Konvergenz.
Die Forderung einer Schranke ist essentiell. Als Beispiel betrachten wir: Ω = (0, 1] versehen mit
der Borel σ-Algebra und dem Borelmaß λ. Sei fn := n11(0,1/n] . Es gilt limn fn =≡ 0,
Z
Z
lim fn dλ = 1 > lim fn dλ = 0.
n
Der Satz über dominierte Konvergenz ist nicht anwendbar.
1.7.3
Transformationssatz
Satz 1.7.5 (Transformationssatz) Sei (Ω, A, µ) ein Maßraum und (Ω0 , A0 ) ein meßbarer Raum.
Sei T : Ω 7→ Ω0 eine meßbare Abbildung. Dann gilt für meßbare Funktionen f 0 : Ω0 7→ IR, sofern
eine Seite wohldefiniert ist,
Z
Z
f 0 dT µ =
Ω0
f 0 ◦ T dµ.
Ω
44
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Beweis: Die Aussage ist leicht nachzurechnen für f 0 = 11A0 , A0 ∈ A0 . (Übung). Beide Seiten sind
lineare, σ-stetige Fortsetzungen (einer Mengenfunktion). Diese sind eindeutig.
q.e.d.
Beispiel: Sei T eine stetig differenzierbare Funktion mit strikt positiver Ableitung T 0 , T µ das
Lebesguemaß und f 0 = g. Es gilt die Transformationsformel mit y = T (x), g integrierbar,
Z
Z
g(y)
dy
=
g(T (x))dx.
T 0 (T −1 (y))
Hierbei ist das Maß µ gegeben durch
Z
(µ)(A) =
T 0 (T −1 (y))dy.
A
Für genauere Rechenregeln siehe Lehrbücher über Differential und Integralrechnung.
Fubini
0
0
Seien (Ω, A)
Ω×Ω0 sei versehen mit der Produkt σNund0 (Ω , A ) meßbare Räume. Der Produktraum
0
Algebra A A , erzeugt von den Rechteckmengen A×A . Der Schnitt Aω einer Menge A ⊂ Ω×Ω0
'
$
A
Ax
x
ist die Menge {ω 0 ∈ Ω0 | (ω, ω 0 ) ∈ A}.
&
%
Analog benutzen wir Aω0 (obwohl dies ein Notationsmißbrauch ist.) Jeder Schnitt einer meßbaren
Menge ist wieder meßbar (Übung).
N
Proposition 1.7.6 Sei µ0 ein σ-endliches Maß auf (Ω0 , A0 ) und A ∈ A A0 . Die Abbildung
ϕA : Ω 7→ IR
ω 7→ µ0 (Aω )
N 0
ist meßbar für alle A A meßbaren Mengen A.
Beweis: Sei µ0 ein endliches Maß. Betrachte
D := {A ∈ A × A0 | ϕA meßbar}.
Es gilt D = A0 . D ist ein Dynkinsystem. Beachte ϕA\B = ϕA − ϕB und ϕS
◦
n
An
=
P
n
ϕAn .
Weiterhin enthält D den durchschnittstabilen Erzeuger aller Produktmengen.
Sei µ0 ein σ-endliches Maß. Dann gibt es eine gegen Ω0 aufsteigende Folge Kn ∈ A0 mit µ0 (Kn ) < ∞.
Dann argumentiere ϕA = limn ϕA∩Kn .
q.e.d.
0
Proposition 1.7.7 Seien
N µ 0und µ σ-endliche Maße. Dann gibt es genau ein Maß ν auf dem
0
Produktraum (Ω × Ω , A A ) mit
ν(A × A0 ) = µ(A)µ0 (A0 ).
Dies wird gegeben durch
Z
ν(A) =
Z
0
µ (Aω )dµ(ω) =
45
µ(Aω0 )dµ0 (ω 0 ).
Uwe Rösler
SS12
1.7
Integrationstheorie
Beweis: Beide Integrale sind wohldefiniert, sind Maße und erfüllen die geforderte Eigenschaft.
Für µ, µ0 endliche Maße stimmen beide Integrale überein, für σ-stetige folgt die Gleichheit durch
Approximation.
q.e.d.
Notation: Wir bezeichnen das Produktmaß ν mit µ × µ0 .
Sei f : Ω × Ω0 7→ IR eine Produkt meßbare Funktion. Dann sind die Schnitte f (ω, .) : Ω0 7→ IR
für alle ω ∈ Ω und f (., ω 0 ) : Ω 7→ IR meßbar. Beachte, der Schnitt zieht sich durch, (f −1 (B))ω =
f (ω, .)−1 (Bω ).
q.e.d.
Satz 1.7.8 (Fubini) Seien µ, µ0 σ-endliche Maße. Dann gilt
Z
Z Z
f (ω, ω 0 )d(µ × µ0 )(ω, ω) = (
f (ω, ω 0 )dµ0 (ω 0 ))dµ(ω).
Ω×Ω0
Ω
Ω0
Beweis: Wir betrachten f ≥ 0. Der Satz gilt für eine Treppe a11A , für eine Treppenfunktion
und dann per monotoner Konvergenz für meßbare Funktionen. Die Ausdehnungen sind jeweils
eindeutig.
q.e.d.
Die σ-Endlichkeit ist wichtig. Als Beispiel betrachten wir µ das Lebesguemaß und µ0 das Zählmaß
auf dem Einheitsintervall. Die Funktion f (x, y) = 11x=y ist meßbar. Es gilt
Z Z
Z Z
0
( f (x, y)dµ(x))dµ (y) = 0
( f (x, y)dµ0 (y))dµ(x) = 1.
Es gibt Möglichkeiten das Produktmaß auch für nicht σ-endliche Maße zu definieren. Jedoch
verliert man dann die Eindeutigkeit und die Vertauschbarkeit, vgl. Halmos [23] page 145, HahnRosenthal SET FUCTIONS 1948 chap IV,§16.
46
Elementare Wahrscheinlichkeitstheorie
1.8
SS12
Uwe Rösler
Ungleichungen
Für Ungleichungen in der W-theorie gibt es im wesentlichen zwei Quellen, über monotone und
über konvexe Funktionen. Die erste Gruppe bilden Markoff Ungleichungen und die zweite beruhen
auf der Jensen Ungleichung.
Röslers Metatheorem:
Alle guten Integralungleichungen beruhen auf Monotonie oder Konvexität.
1.8.1
Tschebycheff-Markoff
Die folgenden Ungleichungen beruhen auf Monotonie.
Satz 1.8.1 (Tschebycheff-Markoff Ungleichung) Für jede Zg X und jede monoton steigende, positive Funktion ϕ auf den reellen Zahlen gilt
ϕ(a)P (X ≥ a) ≤ E(ϕ(X))
für alle reellen Zahlen a.
Beweis: Es gilt
Eϕ(X) ≥ Eϕ(X)11X≥a ≥ ϕ(a)E11X≥a = ϕ(a)P (X ≥ a).
Spezialfälle Eine beliebte Variation in der W-theorie ist eine monoton steigende positive Funktion ϕ auf den positiven Zahlen und die Abschätzung, a, ϕ(a) > 0
P (X ≥ a) ≤ P (|X| ≥ a) ≤
Eϕ(|X|)
.
ϕ(a)
Der Grundfall ist die Markoff Ungleichung , IR+ 3 x 7→ ϕ(x) = x,
P (X ≥ a) ≤ P (|X| ≥ a) ≤
E|X|
a
(1.6)
für a > 0. Allgemeiner gilt für p > 0
E|X|p
.
ap
Diese Ungleichungen verbessern sich in der Regel durch zentrieren
P (X ≥ a) ≤
P (X ≥ a) ≤ P (|X − EX| ≥ a − EX)
für a ≥ EX. Die Tschebycheff Ungleichung lautet
Var(X)
.
a2
Ferner wird gerne das exponentielle Moment benutzt, ϕ(x) = etx , t > 0
P (|X − EX| ≥ a) ≤
(1.7)
EetX
.
eta
Der positive Parameter t, der nur auf der rechten Seite erscheint, wird eventuell geeignet (als
Minimum) gewählt.
Bemerkung: – Es gilt für a > 0, X ≥ 0
P (X ≥ a) ≤
EX p
≤ inf Ees(X−a) .
p>0 ap
s>0
inf
(Übung: Reihenentwicklung!)
– Als Faustregel steigt die Güte der Ungleichung für kleine W-keiten mit der Höhe des (zentrierten)
Momentes (und fällt anschließend). Die exponentielle Abschätzung gibt zumindest asymptotisch
die richtige Größenordnung und ist in der Regel recht gut.
Die Tschebycheff-Markoff Ungleichungen haben zahlreiche Anwendungen.
47
Uwe Rösler
SS12
1.8
Ungleichungen
Beispiel
Bsp: Würfeln. Wie groß ist die W-keit bei tausendmaligem Würfeln eine Gesamtaugensumme
von mindestens 4000 zu erreichen.
Sei Xi die Augenzahl
des i-ten Wurfs. Diese Zgn sind unabhängig identisch verteilt. Wir schätzen
P1000
die Summe S := i=1 Xi auf verschiedene Weisen ab.
Die Tschebycheff Ungleichung ergibt
VarX
35/12
7
VarS
=
=
=
≈ 0, 0117.
5002
250
250
600
Mit dem vierten zentrierten Moment ergibt sich
P (S ≥ 4000) ≤ P (S − ES ≥ 500) ≤
18
E(S − ES)4
≤
≈ 0, 0003.
5004
62500
Zur Berechnung des 4-ten Momentes beachte
XXXX
E(S − ES)4 = E
(Xi − EXi )(Xj − EXj )(Xk − EXk )(Xl − EXl )
P (S ≥ 4000) ≤
i
=
X
i
j
k
l
X
4
E(Xi − EXi ) +
E 2 (Xi − EXi )2 ≤ 18 · 106 .
2
4
i6=j
Noch höhere Momente bringen etwas bessere Abschätzungen. Eine wesentlich bessere Abschätzung
liefert die exponentielle Ungleichung, allerdings richtig angewendet 1.8.2.
Bsp: Quicksort. Per Induktion lassen sich die exponentiellen Momente von Qn für Quicksort
abschätzen,
t(Qn −EQn )
2
n
≤ et K
Ee
für alle |t| ≤ L und K = K(L) ∈ IR [27]. Die exponentielle Abschätzung liefert
const(t)
n2t
für jedes t und n. Daher ist Quicksort zuverlässig. Mit hoher Wahrscheinlichkeit ist die Laufzeit
von Quicksort in der Größenordnung des Erwartungswertes.
Bsp: Weierstraßscher Approximationssatz: Der Approximationssatz von Weierstraß besagt,
jede stetige Funktion f auf einem Kompaktum K läßt sich gleichmäßig beliebig gut durch Polynome auf dem Kompaktum approximieren (∀∃P Polynom : supx∈K |f (x) − P (x)| < ).
Sei das Kompaktum das Einheitsintervall [0, 1]. Die Bernstein Polynome Bn (f )
n
X
k n k
Bn (f )(x) :=
f( )
x (1 − x)n−k
n k
P (Qn − EQn ≥ E|Qn |) ≤
k=0
zu f tun’s.
Sei x ∈ [0, 1]. Die Eigenschaft wird leichter ersichtlich aus der Darstellung Bn (f )(x) = E(f ( Snn ))
mit Sn eine Binomialverteilung Bin(n, x) zu den Parametern n und x.
Sei wδ := sup{|f (y) − f (z)| | y, z ∈ [0, 1], |y − z| < δ} der Stetigkeitsmodul der Funktion f .
wδ konvergiert mit δ → 0 gegen 0. (Gleichmäßige Stetigkeit einer stetigen Funktion auf einem
w1
Kompaktum.) Zu vorgegebenem wähle ein δ mit wδ < /2 und ein n mit 4nδ
2 < 2 . Dann gilt
Sn
))|
n
Sn
≤ E(|f (x) − f ( )|(11| Sn −x|<δ + 11| Sn −x|≥δ ))
n
n
n
w1 Var( Snn )
Sn
≤ wδ + w1 P (|
− x| ≥ δ) < +
n
2
δ2
w1 x(1 − x)n
≤
+
< .
2
n2 δ 2
Die Abschätzungen sind alle gleichmäßig in x.
|f (x) − Bn (f )(x)| = |E(f (x) − f (
48
q.e.d.
Elementare Wahrscheinlichkeitstheorie
1.8.2
SS12
Uwe Rösler
Exponentielle oder Hoeffding Ungleichung
Große Abweichungen:
Ziel des Gebietes großer Abweichungen (englisch: large deviation) ist die W-keit für großes Abweichen der n-ten Partialsumme von unabhängigen, P
identisch verteilten Zgn von ihrem Erwartungswert. Der Standardfall ist, X1 , X2 , . . . , Xn , Sn = i≤n Xi und betrachtet wird P ( Snn ≥ a) ≤? für
a > E(X1 ).
Sei µ̂(t) := E(etX ), t ∈ IR, die Laplacetransformierte der Zg X mit Verteilung µ. Der Einfachheit halber sei µ̂(t) stets endlich und X keine Konstante. (Dies impliziert u.a. Dt µ̂(t) = E(Xe−tX )
und Dt Dt µ̂(t) = E(X 2 etX ).)
Definiere die Cramér Transformierte (auch Fenchel-Legendre Transformierte) Iµ : IR 7→ [−∞, 0],
Iµ (x) := inf (ln µ̂(t) − xt).
t≥0
Iµ (x) ist wohldefiniert, da t 7→ ϕx (t) = ln µ̂(t) − xt 0 wird für t = 0.
• Das Infimum in t wird angenommen in t = 0 für x ≤ E(X) und ansonsten für ein t > 0.
Hierzu zeigen wir zuerst: Die Funktion t 7→ ϕx (t) ist eine konvexe Funktion. (Sogar eine strikt
konvexe Funktion.)
ϕx (0)
=
1
EXetX
−x
Dt ϕ(t) =
µ̂(t)
E(X 2 etX ) E 2 (XetX )
Dt Dt ln µ̂(t) =
−
µ̂(t)
µ̂2 (t)
1
=
(E(eXt )E(X 2 etX ) − E 2 (XetX ) ≥ 0
µ̂2 (t)
ist positiv wegen der Cauchy-Schwarz Ungleichung ?? angewandt auf die Funktionen etX/2 und
XetX/2 .
Die konvexe Funktion ϕx , ist 0 in t = 0 und hat die Ableitung
EXetX Dt (ln µ̂(t) − xt)t=0 =
− x = EX − x
µ̂(t) t=0
im Punkt 0. Das Infimum wird angenommen in t = 0 für x ≤ EX und für ein strikt positives
t > 0 im Fall x > EX.
Satz 1.8.2 (Große Abweichungen) Sei n P
∈ IN und seien X1 , . . . , Xn unabhängige Zgn mit
Verteilung µ. Dann gilt für reelle a und Sn = i≤n Xi
P (Sn ≥ an) ≤ enIµ (a) .
Beweis: Mit der exponentiellen Markoff Ungleichung erhalten wir für alle t ≥ 0
EetSn
etna
ln E n (etX ) − nta = n(ln µ̂(t) − ta).
ln P (Sn ≥ na) ≤ ln
=
Durch Infimumsbildung über alle t folgt die Aussage.
q.e.d.
Bem: Nur der Fall a > EX ist interessant.
Eine ähnliche Ungleichung erhalten wir für P (Sn ≤ na) aus Symmetrieüberlegungen durch Übergang von X → −X.
Die Crámer Transformierte ist in der Regel schwer zu berechnen. Daher die gröbere, aber handlichere Abschätzung von Hoeffding.
49
Uwe Rösler
SS12
1.8
Ungleichungen
Lemma 1.8.3 Sei a ≤ X ≤ b eine zentrierte Zg. Dann gilt für alle reellen Zahlen t ∈ IR
EetX ≤ e
t2 (b−a)2
8
.
−a
b
Beweis: Sei OEdA t ≥ 0. Beachte a ≤ 0 ≤ b und p := b−a
, q := 1 − p = b−a
.
tX
tb
ta
• Ee ≤ pe + qe
Sei a ≤ x ≤ b. Aus der Konvexität der exponentiellen Funktion x 7→ ext für festes t ≥ 0 folgt
etx ≤
x − a tb b − x ta
e +
e .
b−a
b−a
Setze für x die Zg X ein und integriere.
u2
• petb + qeta = (q + peu )e−pu ≤ e 8 mit u := t(b − a).
Die erste Gleichung rechnen wir nach. Für die Ungleichung zeigen wir für die Funktion f (u) :=
u2
u
0
00
8 + pu − ln(q + pe ) die hinreichenden Eigenschaften f (0) = 0, f (0) = 0, f (u) ≥ 0. Es gilt
q
u
0
f (u) = 4 + p − 1 + q+peu und
f 00 (u) =
(q − peu )2
pqeu
1
=
−
≥ 0.
4 (q + peu )2
4
Die Eigenschaften sind erfüllt.
q.e.d.
Satz 1.8.4 (Hoeffding) Seien die unabhängigen Zufallsvariablen X1 , . . . , Xn zentriert und beschränkt ai ≤ Xi ≤ bi für alle i. Dann gilt für die n-te Partialsumme Sn und jede positive reelle
Zahl c > 0
2c2
).
P (Sn ≥ c) ≤ exp(− P
2
i≤n (bi − ai )
Beweis: Die exponentielle Ungleichung für ein positives t ergibt
P (S ≥ c) ≤
≤
Y
EetS
= e−tc
EetXi
tc
e
i
Y t2 (bi −ai )2
t2 d
8
e−tc
e
= e 8 −tc
i
mit d := i (bi − ai )2 . Die linke Seite ist unabhängig von t. Die rechte Seite als Funktion in t wird
minimiert für t = 4c/d ≥ 0. Mit diesem Wert erhalten wir die Abschätzung.
q.e.d.
P
Aus Symmetriegründen erhalten wir die Abschätzung
P (S ≤ −c) ≤ e
−P
i
2c2
(bi −ai )2
und für den Betrag der Summe
P (|S| ≥ c) ≤ 2e
−P
i
2c2
(bi −ai )2
.
Beispiel
Würfeln: Die Hoeffding Ungleichung auf obige Fragestellung “Wie groß ist die W-keit bei tausendmaligem Würfeln eine Augensumme von mindestens 4000 zu erreichen” angewandt, ergibt
2·5002
P (S1000 ≥ 4000) = P (S1000 − ES1000 ≥ 500) ≤ e− 1000·25 = e−20 ≈ 2 · 10−9 .
Diese Abschätzung mit der Hoeffding Ungleichung ist wesentlich besser als diejenigen mit der
Markoff oder Tschebycheff Ungleichung.
50
Elementare Wahrscheinlichkeitstheorie
1.8.3
SS12
Uwe Rösler
Jensen Ungleichung
Definition 1.8.5 (konvex) Eine reellwertige Funktion ϕ auf einem Intervall heißt konvex, falls
für alle x 6= y aus dem Intervall und alle t ∈ (0, 1) gilt
ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y).
ϕ heißt strikt konvex, falls in obiger Ungleichung stets strikt kleiner gilt.
Satz 1.8.6 (Jensen Ungleichung) Für jede konvexe reellwertige Funktion ϕ : IR 7→ IR und jede
reellwertige Zg X gilt
E(ϕ(X)) ≥ ϕ(E(X)),
vorausgesetzt die Erwartungen sind wohldefiniert. Ist ϕ strikt konvex, X keine Konstante mit
Wahrscheinlichkeit 1 und die |Eϕ(X)| endlich, so gilt strikt größer in der Ungleichung.
Beweis: Sei l eine lineare Funktion mit l ≤ ϕ und l(x0 ) = ϕ(x0 ) für x0 = EX. (Für eine
differenzierbare Funktion ϕ nehme l(x) = ϕ0 (x0 )(x − x0 ) + ϕ(x0 ) ≤ ϕ(x).) Argumentiere
E(ϕ(X)) ≥ E(l(X)) = l(E(X)) = ϕ(E(X)).
Ist ϕ strikt konvex, so gilt l(x) < ϕ(x) für alle x 6= x0 .
q.e.d.
Falscher Effee
Merkregel:
Bsp: Lottospiel. In einem Lottospiel, z.B. 6 aus 49 (Laplaceraum), wird der gesamte Einsatz,
jeweils eine Einheit pro Lottozettel, zu gleichen Teilen auf alle Gewinner, die 6 richtige haben,
aufgeteilt. Falls keiner gewinnt, bekommt der Staat alles. Mit folgender Strategie können Sie hier
Geld gewinnen, zumindest im Erwartungswert. Tippen Sie jeden Tip genau einmal. Sie erhalten
+M
den Gewinn N
SN +1 . Hierbei ist N die Anzahl der anderen teilnehmenden Spieler (eine Konstante,
wenn auch unbekannt) und M die Anzahl der eigenen abgegebenen Tipps. SN ist die Summe von
Bernoulliverteilten Zgn Xi , 1 ≤ i ≤ N. Die Interpretation von Xi = 1 ist: der i − te Tip gewinnt.
1
Beachte P (Xi = 1) = M
. Damit
E
N +M
N +M
≥
= M.
SN + 1
ESN + 1
Strikte Ungleichheit gilt für SN keine Konstante. Der Gewinn ist im Erwartungswert positiv.
Bsp: Momentenabschätzung. Die Funktion ϕ(x) = |x|p ist konvex für p ≥ 1. Die Jensen
Ungleichung ergibt E|X|p ≥ E p |X|.
Die Ungleichungen gelten mit umgekehrter Richtung für konkave Funktionen. Eine Funktion ϕ ist
konkav genau dann, wenn −ϕ konvex ist.
Bsp: Entropie. Die Entropie eines diskreten W-mas̈es P auf einem endlichen Stichprobenraum
Ω wird definiert durch
X
1
H(P ) :=
P (ω) ln
.
P (ω)
ω∈Ω
Die Entropie ist stets positiv und die Entropie eines Punktmaßes ist 0.
Proposition 1.8.7 Die gleichmäßige Verteilung auf einem endlichen Stichprobenraum hat die
größte Entropie unter allen W-maßen darauf.
Beweis: Der Stichprobenraum habe n Elemente. Sei Q die Gleichverteilung und P irgendeine
andere Verteilung.
H(P ) − H(Q) =
X
ω
P (ω) ln
X1
X
X
1
1
1
−
ln n =
P (ω) ln
≤ ln(
P (ω)
) = 0.
P (ω)
n
nP
(ω)
nP
(ω)
ω
ω
ω
q.e.d.
51
Uwe Rösler
SS12
1.8
Ungleichungen
Interpretation: Die Entropie einer Verteilung hat die Interpretation eines Informationsgehalts,
den eine Zg zu dieser Verteilung besitzt. Für Punktmaße ist die Ungewissheit 0, denn eine Zg mit
dieser Verteilung liefert die genaue Verteilung. Die grös̈te Ungewissheit besteht, falls Gleichverteilung vorliegt. Wenn wir nichts wissen, sprechen wir von einer fifty-fifty Chance. Dies ist die größte
vorstellbare Ungewissheit.
Warnung: Die Jensen Ungleichung gilt für W-maße, aber nicht für Maße allgemein.
Mehrere interessante Ungleichungen folgen aus der Jensen Ungleichung in folgender verallgemeinerten Form:
Korollar 1.8.8 (Jensen) Sei ϕ eine konvexe Funktion und µ ein
R Maß auf den reellen Zahlen.
Seien f, g meßbare Funktionen und sei g > 0 punktweise und 0 < gdµ < ∞. Dann gilt, Wohldefiniertheit vorausgesetzt,
R R
gϕ(f /g)
f
R
ϕ R
≤
.
g
g
R
R
Beweis: Durch ν(A) := a1 A gdµ, A ∈ A, und a := gdµ wird ein W-maß ν definiert. Die
Jensenungleichung ergibt
Z
Z
f
f
linke Seite = ϕ
dν ≤ ϕ( )dν = rechte Seite
g
g
Normungleichungen
Definition 1.8.9 (Norm) Die Abbildungen k · kp , 1 ≤ p ≤ ∞,
kXkp := (E(|X|p ))1/p ,
1≤p<∞
kXk∞ := inf{a ∈ IR | P (|X| > a) = 0}
von Zgn in die erweiterten rellen Zahlen heißen Lp -Norm. Beachte für diskrete W-räume
kXk∞ = sup{|X(ω)| | P (ω) > 0}.
Satz 1.8.10 (Hölder Ungleichung) Für Zgn X, Y und reelle Zahlen 1 ≤ r, p, q ≤ ∞ mit
1
1
p + q gilt die Ungleichung
kXY kr ≤ kXkp kY kq .
1
r
=
Im Falle 1 < p, q < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder |X|p kY kqq =
|Y |q kXkpp mit Wahrsch. 1 gilt.
Beweis: Den Wert 1/∞ interpretieren wir konventionell als 0.
• Der Satz gilt für kXkp = 0 oder kY kq = 0.
Die Bedingungen implizieren X ≡ 0 oder Y ≡ 0 mit W-keit 1. Damit ist XY = 0 mit W-keit 1.
• Der Satz gilt für p = ∞ oder q = ∞.
Aus Symmetriegründen sei p = ∞. Es folgt q = r.
kXY krr = E|XY |r ≤ inf{ar | P (X > a) = 0}E|Y |r = kXkr∞ kY krr .
• Der Satz gilt für 1 ≤ p, q < ∞.
Die exponentielle Funktion ist konvex, d.h. ∀x, y ∈ IR, t ∈ [0, 1]:
etx+(1−t)y ≤ tex + (1 − t)ey .
(1.8)
|Y (ω)|
Das Einsetzen der speziellen Werte t := pr , 1 − t = rq , x = p ln |X(ω)|
kXkp , y = q ln kY kq ergibt
|X(ω)Y (ω)|
kXkp kY kq
r
≤
r
p
|X(ω)|
kXkp
52
p
+
r
q
|Y (ω)|
kY kq
q
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
für jede Realisierung ω. Durch Übergang zum Erwartungswert auf beiden Seiten erhalten wir die
Aussage
r
r
|X(ω)Y (ω)|
r
≤ + = 1.
E
kXkp kY kq
p q
Gleichheit gilt, falls in Gleichung 1.8 Gleichheit gilt für alle Realisationen ω ∈ Ω bis auf eine Menge
vom Mas̈ Null. Dies ist äquivalent (die exponentielle Funktion ist strikt konvex) zu x = y oder
t = 0 bzw. t = 1. Hiervon verbleibt in unserem Setting nur x = y, was zu
|Y (ω)|q
|X(ω)|p
p =
kXkp
kY kqq
führt.
q.e.d.
Satz 1.8.11 (Minkowski Ungleichung) Es gilt für 1 ≤ p ≤ ∞
kX + Y kp ≤ kXkp + kY kp .
Im Falle 1 ≤ p < ∞ gilt Gleichheit genau dann, wenn die Terme unendlich sind oder X und Y
positive Vielfache mit Wahrsch. 1 voneinander sind.
Beweis: Sei oEdA kX + Y kp > 0.
• Der Fall p = ∞ ist einfach,
kX+Y k∞ = inf{a | P (|X+Y | > a) > 0} ≤ inf{b | P (|X| > b) > 0}+inf{c | P (|Y | > c) > 0} = kXk∞ +kY k∞ .
• Für 1 ≤ p < ∞ erhalten wir aus der Hölder Ungleichung, 1 = 1/p + 1/q gesetzt,
kX + Y kpp
= E|X + Y ||X + Y |p−1 ≤ E((|X| + |Y |)(|X + Y |p−1 )) = k|X||X + Y |p−1 k1 + k|Y ||X + Y |p−1 k1
≤
kXkp k|X + Y |p−1 kq + kY kp k|X + Y |p−1 kq = (kXkp + kY kp )k|X + Y |kp−1
.
p
• Für die Gleichheit betrachten wir der Einfachheit halber nur 0 < kXkp , kY kp < ∞. Die
Gleichheit von |X(ω) + Y (ω)| = |X(ω)| + |Y (ω)| für alle ω bis auf eine Menge vom Mas̈
0 liefert dasselbe Vorzeichen von X und Y . Aus Gleichheit in der angewandten Hölder
Ungleichung folgt |X|p und |X + Y |q und auch |Y |p und |X + Y |q sind positive Vielfache
voneinander. Damit auch sind auch X und Y positive Vielfache voneinander. Diese tun’s.
q.e.d.
Bem: – Die Hölder Ungleichung und die Minkowski Ungleichung als Folgerung gilt allgemein für
Maße anstelle von W-maßen.
– Eine Eigenschaft A für Realisationen gilt, falls mit W-keit 1 die Eigenschaft gilt. Äquivalent ist
die Aussage, die W-keit der Realisationen ω, die nicht die Eigenschaft A haben ist 0. Wir sprechen
von fast sicher (f.s.) oder fast überall (f.ü.).
Bsp: – Die Cauchy-Schwarz Ungleichung ist ein Spezialfall der Hölder Ungleichung mit r = 1, p =
2 = q.
– Die Tchebycheff-Cantelli Ungleichung
P (X − EX ≥ a) ≤
VarX
VarX + a2
für a ≥ 0 ist etwas stärker als die Markoffungleichung. Diese folgt aus, oEdA sei X zentriert,
a2 ≤ E 2 (a − X)11X<a ≤ (E(a − X)2 )E11X<a = (V arX + a2 )P (X < a).
53
Uwe Rösler
SS12
1.8
Ungleichungen
Vektoräume von Zgn∗
Der Raum Lp (Ω) = Lp , 1 ≤ p ≤ ∞ aller Zufallsvariablen X : Ω 7→ IR mit kXkp < ∞ ist ein
Vektorraum. (Beachte: Lp ist abgeschlossen bezüglich der Addition von Funktionen aufgrund der
Minkowski Ungleichung.)
Die Abbildung k · kp : Lp 7→ IR ist eine Pseudonorm auf dem Raum Lp . (Eine Pseudonorm k.k ist
eine Norm bis auf die Eigenschaft kvk = 0 ⇒ v = 0.) Die Abbildung k · kp ist eine Norm genau
dann, wenn P (ω) > 0 gilt für alle ω ∈ Ω. (Nachrechnen).
Durch Äquivalenzbildung erhalten wir einen normierten Vektorraum. Definiere die Äquivalenzrelation X ∼ Y ⇔ kX − Y kp = 0 für X, Y ∈ Lp , 1 ≤ p ≤ ∞.
Der Raum
Lp := {[X] | X ∈ Lp }
der Äquivalenzklassen [X] := {Y ∈ Lp | X ∼ Y } mit den Verknüpfungen + und · definiert durch
[X] + [Y ] := [X + Y ], a · [X] := [aX], a ∈ IR, ist ein Vektorraum. Die Abbildung k · kp : Lp 7→
IR definiert durch k[X]kp := kXkp ist eine Norm auf Lp . (Zu zeigen ist die Wohldefiniertheit,
d.h. die getroffenen Definitionen sind unabhängig von der Auswahl der Repräsentanten bzw. der
Darstellung [X] = [Y ].)
Notation: Wir unterscheiden in Zukunft nur im Falle möglicher Mißverständnisse zwischen Zgn
und den zugehörigen Äquivalenzklassen.
In unserem Setup diskreter W-räume gibt es einen anschaulicheren Vektorraum Lp (Ω0 ) isomorph
zu Lp . Betrachte den Teilraum Ω0 aller ω mit strikt positiver Wahrsch. Dann ist (Lp (Ω0 ), k · kp ) ein
normierter Vektorraum isomorph zu (Lp , k · kp ). Beachte X ∼ Y genau dann, falls X und Y auf
Ω0 übereinstimmen. Einer Äquivalenzklasse [X] ordnen wir bijektiv die Abbildung X : Ω0 7→ IR
zu.
Lemma 1.8.12 Für 1 ≤ p ≤ q gilt Lp ⊃ Lq und die Normabschätzung
kXkp ≤ kXkq .
Beweis: Aus der Jensen Ungleichung folgt E|X|q = E(|X|p )q/p ≥ (E|X|p )q/p .
Definition 1.8.13 (Banachraum) Ein vollständiger normierter Vektorraum (V, k · k) heißt Banachraum. Äquivalent ist, daß jede Cauchyfolge (vn ∈ V, n ∈ IN , mit ∀ > 0∃n0 ∀m, n > 0 :
kvn − xm k < ) konvergiert (∃v ∈ V ∀ > 0∃n0 ∀n > n0 : kvn − vk < ).
Satz 1.8.14 (Fischer-Riesz) Der Raum (Lp , k · kp ), 1 ≤ p ≤ ∞, ist ein Banachraum.
Beweis: Sei Xn eine Cauchyfolge in dem normierten Vektorraum (Lp , k · kp ), 1 ≤ p ≤ ∞. Wähle
eine Teilfolge Xni mit ni →i ∞ aufsteigend und
X
kXni+1 − Xni kp < ∞.
i
Für jede Realisation ω von strikt positiver Wahrsch. ist die Folge Xni (ω) eine Cauchyfolge in den
reellen Zahlen. Diese haben einen Grenzwert, genannt X(ω). Diese Zg X tuts.
P
•
i |Xni+1 (ω)
P − Xni (ω)| < ∞ (falls P (ω) > 0.)
Sei YN := i≤N |Xni+1 (ω) − Xni (ω)|, N ∈ IN ∪ {∞}.
Es gilt
kY∞ kp -N kYN kp ≤
X
kXni+1 − Xni kp %N
P
j≥i (Xnj+1 (ω)
kXni+1 − Xni kp < ∞.
i∈IN
i≤N
• X(ω) := Xni +
X
− Xnj (ω)) wohldefiniert für ω mit P (ω) > 0. Klar
54
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Lp
• Xni →i X.
P
P
kXni − Xkp ≤ k j≥i |Xnj+1 − Xnj |kp ≤ j≥i kXnj+1 − Xnj kp →i 0.
Lp
• Xn →i X.
kXn − Xkp ≤ kXn − Xni kp + kXni − Xkp →n,ni 0.
• X ∈ Lp
kXkp ≤ kX − Xn kp + kXn kp < ∞.
q.e.d.
Satz 1.8.15 Der Raum (L2 , k · k2 ) ist ein Hilbertraum. Die Bilinearform < ., . >: L2 × L2 7→ IR
gegeben durch
< X, Y >= EXY
√
erzeugt die Norm kXk2 := < X, X >.
Der Covarianzoperator Cov : L2 × L2 7→ IR ist eine positiv definite Bilinearform.
Beweis: Der Vektorraum L2 der Äquivalenzklassen ist ein Banachraum Theorem 1.8.14. Der Rest
ist einfach.
Beachte: Unabhängigkeit ist mehr als Unkorreliertheit von Zgn.
Unkorrelierte zentrierte Zgn sind orthogonal im Hilbertraum.
Allgemeinwissen:
Hilberträume mit gleicher Kardinalität einer Basis sind isomorph.
Die L2 -Räume diskreter W-räume haben endliche oder abzählbare Basis. Die Dimension des Hilbertraumes L2 (Ω, P ) ist die Anzahl der ω ∈ Ω mit P (ω) > 0.
55
Uwe Rösler
1.9
SS12
1.9
Gesetze der Großen Zahl
Gesetze der Großen Zahl
Das Gesetz der Großen Zahl (GGZ) besagt die Konvergenz der relativen Häufigkeit eines Ereignisses bei unabhängiger Wiederholung eines Experiments gegen die W-keit dieses Ereignisses.
Satz 1.9.1 (Starke GGZ) Die n-te Partialsumme Sn von uiv integrierbaren Zgn (Xi )i geteilt
durch n konvergiert fast sicher gegen den Erwartungswert von X.
In Formeln: P (limn Snn = EX1 ) = 1.
Die grundlegende Bedeutung des Gesetzes der Großen Zahl rechtfertigt den Namen
Erster Hauptsatz der Wahrscheinlichkeitstheorie.
Im folgenden verwenden wir abzählbare Folgen von Zgn auf einem gemeinsamen W-raum. Die
Existenz solcher W-räume ist nicht trivial und der W-raum (in der Regel) kein diskreter W-raum
mehr. Alle folgenden Aussagen lassen sich sinngemäß umformen unter ausschließlicher Verwendung
diskreter W-räume und endlich vieler Zgn. Dies ist mühsam und nicht wirklich sinnvoll.
1.9.1
Schwaches Gesetz der Großen Zahl
Es gibt eine schwache und eine starke Version des GGZ.
Definition 1.9.2 (stochastische Konvergenz) Eine Folge (Xn )n von Zgn konvergiert stochastisch oder in Wahrscheinlichkeit gegen eine Zg X, falls P (|Xn − X| > ) →n 0 für alle > 0
gilt.
s
P
Not: Xn →n X oder auch Xn →n X.
Definition 1.9.3 (schwache GGZ) EinePFolge (Xn )n , von integrierbaren Zgn genügt dem schwan
chen Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) stochastisch gegen 0 konvergiert.
In Formeln geschrieben,
1
n (Sn
s
− ESn ) →n 0 mit Sn =
Pn
i=1
Xi .
Definition 1.9.4 (identisch verteilt) Eine Folge (Xn )n von Zgn heißt identisch verteilt, falls
alle Xn dieselbe Verteilung besitzen.
Satz 1.9.5 (Schwache Gesetz der Großen Zahl) Eine Folge von unabhängig, identisch verteilten Zgn mit endlichem zweiten Moment genügt dem schwachen Gesetz der Großen Zahl.
s
Memokürzel : Snn →n EX.
Beweis: Wir verwenden die Tschebycheff Ungleichung 1.7
P |
VarSn
Sn
Sn − ESn
VarX1
− EX| > = P |
|> ≤ 2 2 =
→n 0.
n
n
n n2
Bsp: Würfeln. Die Zgn Xn , n ∈ IN , für die jeweilig erwürfelte n-te Augenzahl sind unabhängig
identisch verteilt. Die durchschnittliche Augenzahl Snn in n Würfen
Pnkonvergiert in Wahrsch. gegen
den Erwartungswert 3, 5. Die relative Häufigkeit der Sechsen 1/n i=1 11Xi =6 konvergiert schwach
gegen 1/6.
Bsp: Spieler. Seien Xn , n ∈ IN , uiv (quadrat-)integrierbare Zgn und Sn die n−te Partialsumme.
Die Zg Xn interpretieren wir als Auszahlung bei dem n-ten Spiel für den Spieler bei Einsatz einer
Einheit. Diese kann positiv und negativ (Einsatz) sein. Den Wert Sn interpretieren wir als das
Spielkapital des Spielers nach dem n−ten Spiel bei Start in 0.
s
Das schwache Gesetz der Großen Zahl besagt Snn →n EX. Ist EX > 0, so ist es langfristig gesehen
vorteilhaft für den Spieler zu spielen. Ist EX < 0, so ist es langfristig nachteilig für den Spieler zu
spielen. Im Falle EX = 0 und X nicht ausgeartet gilt −∞ = lim inf n Sn < lim supn Sn = ∞.
56
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bsp: Falschspieler. Eine gegebene Münze ist eventuell gefälscht. Falls sie gefälscht ist, so ist die
Wahrsch. p für einen Kopfwurf (identifiziert mit 1) einviertel. Die relative Häufigkeit Sn /n der
Kopfwürfe wird gegen den Wert p konvergieren. Dieser ist 1/4 oder 1/2. Damit können wir mit
beliebig großer Sicherheit, aber nie absoluter, eine eventuelle Fälschung erkennen.
Bsp: Statistik. Weshalb ist Datenanalyse, untreffend als Statistik bezeichnet, möglich? Das einfachste statistische Problem ist ein Entscheidungsproblem. Gegeben sei eine Folge Xn , n ∈ IN,
von uiv Zgn mit unbekannter Verteilung. Diese Verteilung ist eine der bekannten Verteilungen Q
oder P. (Die Generierung der Zgn heißt statistisches Experiment.)
Pn
Zur Entscheidungsfindung wähle ein Ereignis A mit Q(A) 6= P (A). Dann konvergiert 1/n i=1 11Xi ∈A
gegen den Erwartungswert Q(A) bzw. P (A). Mit beliebig großer Sicherheit, mache n groß genug,
können wir zwischen Q und P entscheiden.
Variationen
Satz 1.9.6 Eine Folge Xn , n ∈ IN , quadratintegrierbarer, unkorrelierter Zgn mit
Pn
i=1 Var(Xi )
→n 0
n2
genügt dem schwachen GGZ.
Beweis: OBdA seien die Zgn zentriert. Beachte EXi Xj = 0 für i 6= j.
Aus
n X
n
n
n
X
X
X
VarSn = E
Xi Xj =
EXi2 =
VarXi
i=1 j=1
i=1
i=1
mit Anwendung der Tschebycheff Ungleichung ergibt sich mit Tschebycheff
P (|
VarSn
Sn
| > ) ≤ 2 2 →n 0.
n
n q.e.d.
Strukturell folgert der obige Satz aus der L2 −Konvergenz die stochastische Konvergenz.
Proposition 1.9.7 Lp Konvergenz für ein p ∈ [1, ∞] impliziert stochastische Konvergenz.
Beweis: Der Fall p = ∞ ist einfach. Für 1 ≤ p < ∞ argumentiere
P (|Xn | > ) ≤
E|Xn |p
→n 0.
p
In dem folgenden Satz benutzen wir (exemplarisch) die Abschneidetechnik.
Satz 1.9.8 (Khintschin) Eine Folge unabhängiger, identisch verteilter und integrierbarer Zgn
erfüllt das schwache GGZ.
Beweis: Seien Xn , n ∈ IN , die uiv Zgn. Zu vorgegebenem >P0 wähle ein a, δ mit E|X1 − Y1 | < δ
n
wobei Yi die abgeschnittenen Zgn Xi 11|Xi |≤a sind. Sei Tn := i=1 Yi die n−te Partialsumme der
Y 0 s.
P (|
Sn
Sn − Tn
Tn
− EX1 | > ) ≤ P (|
| > /3) + P (|
− EY1 | > /3) + P (|EY1 − EX1 | > /3).
n
n
n
Alle Terme sind klein.
• Der erste Term ist klein für δ klein wegen
≤
E|Sn − Tn |
nδ
3δ
≤
=
n/3
n/3
57
Uwe Rösler
SS12
1.9
Gesetze der Großen Zahl
• Der zweite Term ist klein für hinreichend gros̈es n wegen dem schwachen GGZ.
• Der dritte Term ist 0 für δ hinreichend klein.
q.e.d.
Proposition 1.9.9 Die Summe von endlich vielen stochastisch konvergenten Zgn ist stochastisch
konvergent. gegen 0.
Bew: Es reicht die Proposition für zwei stochastisch konvergente Folgen Xn gegen X und Yn
gegen Y zu zeigen.
P (|Xn − X + Yn − Y | > ) ≤ P (|Xn − X| >
) + P (|Yn − Y | > ) →n 0.
2
2
q.e.d.
Das schwache GGZ als Verteilungskonvergenz ∗
Das schwache GGZ läßt sich ausschließlich durch Maße ohne Zuhilfenahme von Zgn formulieren.
Definition 1.9.10 (Faltung) Die Faltung von diskreten Maßen ist eine Abbildung ∗ : M×M 7→
M mit M die Menge aller (diskreter) Maße auf den reellen Zahlen, B ⊂ IR
X
µ ∗ ν(B) :=
µ(x)ν(y).
x+y∈B
Für W-maße µ und ν ergibt sich µ ∗ ν als Verteilung von zwei unabhängigen Zgn X und Y mit
Verteilung P X = µ bzw. P Y = ν. ‘ Für a ∈ IR\{0} definiere Ta : M 7→ M via Ta (µ)(B) = µ(aB),
aB := {ab | b ∈ B}. Sei µ die Verteilung einer Zg X, so ist X/a verteilt nach Ta (µ).
Definition 1.9.11 (Konvergenz dem Maße nach) Eine Folge νn , n ∈ IN , von W-maßem auf
den reellen Zahlen konvergiert dem Maße nach gegen das Punktmaß δa auf a ∈ IR, falls gilt:
X
x
|x − a|
νn (x) →n 0.
1 + |x − a|
Beachte: Xn konvergiert stochastisch gegen X genau dann, wenn die Verteilung von Xn − X dem
Maße nach gegen 0 strebt.
Proposition 1.9.12
s
Xn →n 0 ⇔ E
|Xn |
→n 0.
1 + |Xn |
Beweis: • “⇒”
E
|Xn |
|Xn |
|Xn |
=E
11|Xn |≤ + E
11|Xn |> .
1 + |Xn |
1 + |Xn |
1 + |Xn |
Den ersten Term schätzen wir durch
• “⇐”
0 ←n E
1+
≤ ab, der zweite konvergiert in n gegen 0.
|Xn |
|Xn |
|Xn |
=E
11|Xn |≤ + E
11|Xn |> ≥ 0 +
P (|Xn | > ).
1 + |Xn |
1 + |Xn |
1 + |Xn |
1+
q.e.d.
Der folgende Satz ist eine Umformulierung des schwachen GGZ.
P
Satz 1.9.13 (Schwache GGZ) Sei µ ein W-maß mit x∈IR x2 µ(x) < ∞ P
und µn die n−fache
Faltung. Dann konvergiert Tn (µn ) dem Mas̈e nach gegen das Punktmaß auf x xµ(x).
58
Elementare Wahrscheinlichkeitstheorie
1.9.2
SS12
Uwe Rösler
Starke GGZ
Das schwache Gesetz der Großen Zahl ist eigentlich eine Verteilungskonvergenzaussage für Zgn
und damit unbeeinflußt vom zugrunde gelegten W-raum und eine reine Aussage über Ma s̈e. Das
starke GGZ ist eine Konvergenzaussage für Zufallsgrößen als Funktionen auf einem W-raum.
Definition 1.9.14 (fast sicher) Eine Aussage über ω gilt fast sicher, falls die Menge der ω,
für die die Aussage nicht richtig ist, das Mas̈ 0 hat.
Definition 1.9.15 (Fast sichere Konvergenz) Eine Folge (Xn ) von Zgn konvergiert fast
sicher gegen eine Zg X, falls Xn gegen X punktweise konvergiert mit Wahrsch. 1.
Ausführlich in Formeln geschrieben, P ({ω | limn Xn (ω) = X(ω)}) = 1.
f.s.
Not: Xn →n X oder auch Xn →n X als default setting.
Definition 1.9.16 (Starke GGZ) Eine Folge
PnXn , n ∈ IN , von integrierbaren Zgn genügt dem
starken Gesetz der Großen Zahl, falls n1 i=1 (Xi − EXi ) fast sicher gegen 0 konvergiert.
n
In Formeln geschrieben, P ( Sn −ES
→n 0) = 1 mit Sn =
n
Pn
i=1
Xi .
Satz 1.9.17 (Starke Gesetz der Großen Zahl) Eine Folge unabhängiger, identisch verteilter
integrierbarer Zgn genügt dem starken Gesetz der Großen Zahl.
f.s.
Memokürzel: Snn →n EX.
Beweis: Der Beweis ist zu schwierig für dieses Skript.
Bsp: Schreibender Affe. Ein Affe tippt zufällig auf die Tastatur. Wie groß ist die Wahrscheinlichkeit, daß er irgendwann einmal die Buchstabenfolge BAHNHOF tippt.
Math. Modell: Seien Xn , n ∈ IN, unabhängige Zgn mit Gleichverteilung auf der Menge der
l
grossen Buchstaben. Sei Yn := 11X|n+6
=(B,A,H,N,H,O,F ) , n ∈ IN mit X|k = (Xk , Xk+1 , . . . , Xl ). Sei
r
Pn
P7 n r
P
Sn
(n−r)/7
Sn = i=1 Yi . Schreibe Sn = r=1 Sn mit Snr := i=0
→
Y7i+r . Das starke GGZ liefert n/7
EYr und damit konvergiert Snn fast sicher gegen EY1 . (Beachte, die Yi sind nicht unabhängig, aber
identisch verteilt.)
Wenn der Affe nur lange genug schreibt, wird er jede Buchstabenfolge, so auch Goethes Klassiker
Faust oder die Heisenbergsche Unschärferelation, irgendwann einmal fehlerlos(!) schreiben. Wer
kann das schon von sich behaupten.
Proposition 1.9.18 Die fast sichere Konvergenz impliziert die stochastische Konvergenz.
Bew: Zu vorgegebenem > 0 betrachte die Mengen An mit |Xi − X| > epsilon für ein i ≥ n.
Die Folgen An ist absteigend gegen die leere Menge (fast sicher) und es folgt die stochastische
Konvergenz
P (|Xn − X| > ) ≤ P (An ) &n P (∅) = 0.
q.e.d.
Im allgemeinen sind die stochastische Konvergenz und die fast sichere Konvergenz verschiedene
Konvergenzarten. Dies ersieht man aus dem Beispiel Ω = [0, 1] versehen mit der Borel σ-Algebra
und dem Lebesguemaß λ. Die Folge von Zgn X1 = 11[0,1] , X2 = 11[0,1/2] , X3 = 11[1/2,1] , X4 =
11[0,1/4] , X5 = 11[1/4,1/2] , ..., X8 = 1[0,1/8] , ... usw. konvergiert stochastisch, aber nicht f.s. Formaler
Xn := 11[i/2m ,(i+1)/2m ] mit n = 2m + i, 0 ≤ i < 2m . (Zeichnung machen!).
Für diskrete W-räume sind die Konvergenzbegriffe identisch.
Proposition 1.9.19 Sei (Ω, A, P ) ein diskreter W-raum. Dann sind stochastische Konvergenz
und fast sichere Konvergenz dasselbe.
59
Uwe Rösler
SS12
1.9
Gesetze der Großen Zahl
Beweis: Wesentlich ist die spezielle Eigenschaft P ({ω | P ({ω}) > 0}) = 1 für diskrete W-räume.
Sei Bδ := {ω | P ({ω}) > δ}). Für alle ω ∈ Bδ gilt lim supn |Xn (ω) − X(ω)| = 0. (Übung). Dann
argumentiere P (Bδ ) →δ→0 P ({ω | P ({ω}) > 0}) = 1.
q.e.d.
Diese Proposition kann man jedoch nicht anwenden auf das GGZ. Eine abzählbare Folge von nicht
ausgearteten unabhängigen Zgn benötigt stets einen nicht diskreten W-raum.
Bemerkung: Falls Xn stochastisch gegen 0 konvergiert und U eine auf dem Einheitsintervall
gleichmäßig verteilte Zg ist, so gibt es Zgn Yn mit Yn hat dieselbe Verteilung wie Xn für alle n und
Yn konvergiert fast sicher gegen 0. Die Zgn Yn = Fn−1 (U ) tun’s. Hierbei ist Fn , Fn (x) = P (Xn ≤ x)
die Verteilungsfunktion von Xn und Fn−1 die linksstetige Inverse (diese ist eindeutig) (oder auch
rechtsstetige) von Fn .
Glivenko-Cantelli
Seien Xi , i ∈ IN, Zgn. Die n-te empirische Verteilungsfunktion ist die Funktion Fn : Ω →
IR
[0, 1] definiert durch
n
X
Fn (ω)(x) =
11Xi (ω)≤x .
i=1
Für jedes ω ist Fn (ω) eine Verteilungsfunktion. Üblicherweise wird das ω weggelassen.
Die empirische Verteilungsfunktion Fn korrespondiert zu dem (empirischen) zufälligen W-mas̈
n
µn (ω)(·) =
1X
δX (ω) (·))
n i=1 i
via µn ((−∞, x]) = Fn (x). Hierbei ist δx das Punktmass auf x.
Der Satz von Glivenko-Cantelli behauptet die gleichmäs̈ige Konvergenz der empirischen Verteilungsfunktion gegen die wahre Verteilungsfunktion F der Zgn.
Satz 1.9.20 (Glivenko-Cantelli) Seien Xn , n ∈ IN, uiv Zgn mit Verteilungsfunktion F . Dann
konvergiert Fn fast sicher gleichmäßig gegen F,
f.s.
sup |Fn (x) − F (x)| →n 0.
x
Beweis: Für festes x ∈ IR implizier das starke Gesetz der Großen Zahl |Fn (x) − F (x)| + |Fn (x−) −
F (x−)| →n 0 fast sicher.
Nun zur Gleichmäßigkeit. Formal, durch stetige Fortsetzung, erweitern wir den Definitionsbereich
von F und Fn um −∞ und ∞. Zu vorgegebenem > 0 wähle eine endliche Folge −∞ = x0 <
x1 < .... < xm = ∞ mit |F (xi+1 −) − F (xi )| < , i = 0, . . . , m − 1. (Diese Folge enthält alle Punkte
x mit Sprunghöhe F (x) − F (x−) größer als .)
• supi |Fn (xi ) − F (xi )| + supi |Fn (xi −) − F (xi −)| →n 0 fast sicher.
Es reicht die Aussage für ein i zu zeigen, da das Supremum nur über endlich viele i genommen
wird. Für ein i ist dies das starke Gesetz der großen Zahl.
Für xi ≤ x < xi+1 schätze ab
|Fn (x) − F (x)|
≤
11Fn (x)>F (x) |Fn (xi+1 −) − F (x)| + 11Fn (x)≤F (x) |Fn (xi ) − F (x)|
≤
|Fn (xi+1 −) − F (xi+1 −)| + 2|F (xi+1 −) − F (xi )| + |Fn (xi ) − F (xi )|
Der erste und dritte Term sind klein für große n, der zweite kleiner als 2. Dies Argument gilt
gleichmäßig für alle x.
q.e.d.
Bem: Die Zg supx |Fn (x) − F (x)| ist meßbar.
Wegen der Rechtsstetigkeit von Verteilungsfunktionen gilt
sup |Fn (x) − F (x)| = sup |Fn (x) − F (x)|.
x∈IR
q∈Q
l
Für jedes q ∈ Q
l, n ∈ IN ist die Abbildung Ω → Fn (q) mes̈bar. Damit auch das abzählbare
Supremum. Die Meßbarkeit benötigen wir jedoch nicht für die gemachte Konvergenzaussage.
60
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Borel-Cantelli*
Seien An , n ∈ IN, Ereignisse und sei A das Ereignis, daß An unendlich oft eintritt,
A := {ω | |{i ∈ IN | ω ∈ Ai }| = ∞} = ∩m ∪n≥m An
Eine andere Charakterisierung ist via
11A = lim sup 11An .
n
Wir schreiben auch A = lim supn An .
Das Komplement ist, An tritt nur endlich oft ein,
Ac = {ω | |{i ∈ IN | ω ∈ Ai }| < ∞} = ∪m ∩n≥m Acn
und analog
11Ac = lim inf 11An
A = lim inf An .
n
n
Eselsbrücke: In Schreibschrift erinnert sup an ∩∪ und inf an ∪ ∩ .
Satz 1.9.21 (Borel-Cantelli) Seien An , n ∈ IN, Ereignisse und A := lim supn An .
P
• Aus n P (An ) < ∞ folgt P (A) = 0.
P
• Sind die An , n ∈ IN, unabhängig und n P (An ) = ∞, so folgt P (A) = 1.
Beweis: Die erste Behauptung folgt aus
P (A) ≤ P (∪n≥n0 An ) ≤
X
P (An ) →n0 0.
n≥n0
Für die zweite Behauptung verwenden wir Ac = ∪m ∩n≥m Acn . Es folgt
P (∩n≥m Acn ) ≤
c
P (∩N
n=m An ) =
Y
m≤n≤N
≤
exp(−
X
Y
P (Acn ) =
(1 − P (An ))
m≤n≤N
X
P (An )) →N ≤ exp(−
m≤n≤N
P (An )) →m = 0.
m≤n
Die letzte Abschätzung beruht auf der Abschätzung 1 − x ≤ e−x .
P (Ac ) = lim P (∩n≥m An ) = 0.
n
q.e.d.
Tombola: In einer gemeinnützigen Tombolaziehung wird ein Gewinner gezogen, der dann alle
Einsätze bekommt. Der Staat, früher unter dem Motto Brot und Spiele, heute unter Wahlgeschenke, verdoppelt diesen Betrag zusätzlich. An der n-ten Tombolaziehung nehmen n2 Personen teil,
die alle eine Einheit setzen. Soll ich daran teilnehmen?
Math. Modell: Seien Xn , n ∈ IN, unabhängige Zgn mit P (Xn = 1) = n12 = 1 − P (Xn = 0).
Xn entspricht dem Ereignis, ich gewinne in der n-ten Spielrunde. Der Gewinn in n-ter Spielrunde
ist Xn 2n2 − 1 und der Erwartungswert davon ist 1. (Nachrechnen.) Da der Erwartungswert strikt
positiv ist (durch die Bezuschussung des Staates), ist es vorteilhaft für mich bzgl. dem erwarteten
Gewinn jede einzelne Runde zu spielen.
Der Satz von Borel-Cantelli impliziert, es treten nur endlich viele Gewinnereignisse An = {Xn =
1} ein. Wenn ich jede Runde mitspiele, ist mein Gesamteinsatz unendlich, meine Summe der
Hauptgewinne aber endlich. Ich gehe pleite fast sicher.
Beipiel: Starke Gesetz der Grossen Zahlen
61
Uwe Rösler
SS12
1.9
Gesetze der Großen Zahl
Satz 1.9.22 (Gesetz der Großen Zahl) Eine Folge von uiv Zgn mit endlichem vierten Moment erfüllt das starke Gesetz der Großen Zahl.
Beweis: Seien X1 , X2 , . . . die Zgn. Ohne Einschränkung seien die Zgn zentriert. Eine Rechnung
zeigt ESn4 = nEX 4 + 3n(n − 1)E 2 X 2 . Die Markoff Ungleichung liefert
Sn ES 4
1
P ( > ) ≤ 4 n4 ≤ c 2 .
n
n n
Die Summe hierüber ist endlich. Daher tritt das Ereignis | Snn | > nur endlich oft ein mit Wahrsch.
1.
q.e.d.
Verbesserung für Zgn mit endlichem zweiten Moment: Schätze ab
P(
|Sn2 |
VarS 2
VarX1
> ) ≤ 2 4n = 2 2 .
n2
n
n
Die Summe hierüber ist endlich. Daher gilt mit Borel-Cantelli fast sicher |Sn2 /n2 | > nur endlich
S
S
S
oft. Ebenfalls mit Borel-Cantelli und Tchebycheff zeige, die Ereignisse | nn22 − kn2 | > und | kn2 −
Sk
2
2
k | > in k mit n gegeben durch n ≤ k < (n + 1) treten nur endlich oft ein fast sicher. (Übung).
Das starke GGZ gilt auch für integrierbare Zgn. (Betrachte Yn := Xn 11|Xn |≤n . Zeige Yn 6= Xn nur
Pn
endlich oft und n1 i=1 Yi → 0 fast sicher.)
62
Elementare Wahrscheinlichkeitstheorie
1.10
SS12
Uwe Rösler
Poissonapproximation
Diese Approximation betrifft Summen von unabhängigen Zgn, wobei die Summe im wesentlichen
durch sehr wenige dominierende Zgn bestimmt wird. Der Standardfall ist die Poissonapproximation
von sehr vielen uiv Bernoulli Zgn mit kleiner Erfolgswahrscheinlichkeit.
Satz 1.10.1 Sei (pn )n∈IN eine Folge reeller Zahlen mit Werten in [0, 1] und npn konvergiere gegen
eine reelle Zahl λ > 0. Dann konvergiert für jedes k die Binomialwahrsch. von k zum Parameter
(n, pn ) gegen die Poisssonwahrsch. von k zum Parameter λ,
n k
λk
= Poi(λ)(k).
Bin(n, pn )(k) =
pn (1 − pn )n−k →n exp(−λ)
k!
k
Beweis: In der Zerlegung
Bin(n, pn )(k) =
n−k+1 1
1
nn−1
...
(npn )k (1 − pn )−k (1 − pn )n →n λk e−λ
n } k! | {z } | {z } | {z }
k!
|n n
{z
II
I
III
IV
benötigen wir die Konvergenz der Faktoren I →n 1, II →n λk , III →n 1 und IV →n e−λ .
Dies ist erfüllt. (Die letzte Konvergenz folgt aus
−
x
x2
≤ ln(1 − x) ≤ −x −
1−x
2
für x ∈ (0, 1) aus dem Einheitsintervall. (Übung.))
(1.9)
q.e.d.
Das Hauptbeispiel betrifft eine Folge X1 , X2 , . . . , Xn von uiv Ber(p) verteilten Zgn. Die Summe
S dieser hat eine Binomialverteilung zu den Parametern (n, p). Dann wird P (S = k) approximiert durch Poi(np)(k) nach obigem Satz. Als Faustregel für den Schulunterricht gilt zwar λ ≤ 5
und n gross, aber wie gut die Approximation ist, besagt der Satz nicht. Die folgende, globale
Poissonapproximation liefert Fehlerabschäetzungen.
Die obige Aussage ist eine lokale Aussage, die Wahrsch. eines Punktes k betreffend. Es ist eine
reine Konvergenzaussage, sie gibt keine Abschätzung über die Abweichung. Jetzt eine stärkere,
globale Konvergenzaussage, die gesamte Verteilung betreffend.
Totalvariation: Als Abstandsbegriff für W-Maße µ, ν wählen wir den Totalvariationsabstand
d(µ, ν) = sup |µ(A) − ν(A)|.
A∈A
Dies ist eine Metrik auf dem Raum aller W-Maße (zu einem meßbaren Raum). (Nachrechnen.)
Für diskrete W-räume wird das Supremum angenommen durch das Ereignis B aller Realisationen
ω mit strikt größerem µ-Maß als ν-Maß, µ(ω) > ν(ω), oder dessen Komplement B c , aller ω mit
strikt kleinerem µ-Maß als ν-Maß. Die Beziehung 0 = µ(Ω) − ν(Ω) = (µ(B) − ν(B)) − (µ(B c ) −
µ(B c )) führt uns für diskrete W-räume zu der Formel
d(µ, ν) =
1X
|µ(ω) − ν(ω)|
2 ω
(1.10)
zur Berechnung der Totalvariation. (Übung)
Notation:
Für Zgn benutzen wir d(X, Y ) = d(P X , P Y ).
Lemma 1.10.2 Die Summe von unabhängigen Zgn mit Poissonverteilung ist wieder poissonverteilt mit der Summe der Einzelparameter als Parameter.
63
Uwe Rösler
SS12
1.10
Poissonapproximation
Beweis: Es reicht die Behauptung für zwei Zgn zu beweisen.
Seien X, Y unabhängige Zgn mit Verteilung Poi(λ1 ) und Poi(λ2 ).
P (X + Y = k)
X
=
P (X = i)P (Y = j) =
= e−λ1 −λ2
i=0
e−λ1 −λ2
i=0
{i,j|i+j=k}
k X
k
X
λi1 λk−i
2
i!(k − i)!
k λi1 λk−i
(λ1 + λ2 )k
2
= e−λ1 −λ2
.
i
k!
k!
q.e.d.
Wir beweisen die Poissonapproximation jetzt durch Konstruktion von speziellen gekoppelten Zgn.
Diese Technik wird coupling genannt.
Satz 1.10.3 Seien X1 , . . . , Xn unabhängige Bernoulli verteilte Zgn zum Parameter P (Xi = 1) =
pi . Sei S = X1 + . . . + Xn die Summe dieser und sei T eine poissonverteilte Zg zum Parameter
p1 + . . . + pn . Dann gilt
n
d(S, T ) =
n
X
1X
|P (S = k) − P (T = k)| ≤
p2i .
2
i=1
k=0
Beweis: Dieser Satz sagt etwas über die Verteilungen der Zgn aus. Der zugrundeliegende W-raum
spielt hierbei keine Rolle.
Wir konstruieren auf einem geeigneten W-raum folgende Zgn.
Seien Zi , i = 1, . . . , n unabhängige Zgn mit Werten −1, 0, 1, . . . und der Verteilung

k = −1
 1 − pi
k=0
e−pi − 1 + pi
P (Zi = k) =
 −pi k
e pi /k!
k = 1, 2, 3 . . .
Wir betrachten die Zgn Xi := 11Zi ≥0 und Yi := Zi ∨ 0.
• Die Zgn Xi , i ∈ IN , sind unabhängige Zgn und Xi hat Bernoulli Verteilung zum Parameter pi .
• Die Zgn Yi , i ∈ IN , sind unabhängige Zgn und Yi hat Poisson Verteilung zum Parameter pi .
Wesentlich ist die Abschätzung
P (Xi 6= Yi ) = 1 − P (Xi = Yi ) = 1 − P (Zi = −1) − P (Zi = 1) = pi (1 − e−pi ) ≤ p2i .
P
P
Die Summe T := i Yi ist Poisson verteilt zum Parameter i pi .
Wir schätzen ab
X
1X
d(S, T ) =
|P (S = k) − P (T = k)| =
|P (S = k 6= T ) − P (T = k 6= S)|
2
k
k
X
X
≤ P (S 6= T ) ≤
P (Xi 6= Yi ) ≤
p2i .
i
i
q.e.d.
Bemerkung: Die Summe von n unabhängigen Bernoulli Zgn zum Parameter p ist binomialmialverteilt zum Parameter n, p. In dieser Form wird der Satz meistens angewandt. Das n sollte groß
sein, das p klein. Genauer, der Fehler np2 sollte klein sein.
Bsp: Geburtstage. In einem Hörsaal sind 100 Studenten. Wieviele haben heute Geburtstag?
Sei Xi die Bernoulli Zg der i-te Student hat Geburtstag. Wir nehmen an, diese Zgn sind unabhängig
identisch Bernoulli verteilt zum Parameter 1/365. (Die Aufgabe stammt aus einer Zeit, als Sonntagsarbeit in Krankenhäusern noch üblich war.) Die Anzahl S der Geburtstage ist Binomial Bin(100, 1/365) verteilt. Die Poissonapproximation liefert
P (S = 0) ≈ exp(−100/365) ≈ .76
64
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
200
1
Der Fehler |P (S = 0) − exp(−100/365)| dieser Approximation ist beschränkt durch 365
2 ≈ 800 .
Bsp: Warendefekte. Bei einer Massenware sind einzelne Exemplare bereits bei der Produktion
mit einer kleinen Wahrsch. p defekt. Ein Kunde bestellt k intakte Exemplare. Um die Wünsche des
Kunden zu erfüllen und den Kunden zufriedenzustellen, wird der Lieferant vorsichtshalber einige
Exemplare mehr liefern. Auch dann hat er keine absolute Sicherheit, aber eine hohe.
Wieviel Exemplare n muß eine Sendung enthalten, damit der Kunde mit Wahrsch. α mindestens
k intakte erhält?
Mathematisches Modell: Seien X1 , . . . , Xn unabhängige Zgn mit Bernoulliverteilung Ber(p), Sn
die n-te Partialsumme. Xi = 1 bezeichne ein defektes i−tes Exemplar. Das Problem reduziert sich
auf das Finden der kleinsten Zahl n mit
α ≤ P (k ≤ n − Sn ) ≈ Poi(np)({0, 1, . . . , n − k}) =
n−k
X
Poi(np)(i).
i=0
Dies ist auch mit einem Taschenrechner möglich.
Bsp: Telefonzentrale. Mehrere n interne Telefone sind an einer Zentrale angeschlossen. Wieviele
k Außenleitungen müssen bereitgestellt werden, damit zu vorgegebener Wahrsch. α alle anrufenden
Teilnehmer eine freie Leitung haben? Einerseits soll k aus Kostengründen klein sein und andererseits groß, um die Kunden zufriedenzustellen. Wir betrachten die Anzahl der Anrufe zu einem
festen, aber beliebigen Zeitpunkt.
Mathematisches Modell: Seien X1 , . . . , Xn uiv Zgn mit Bernoulliverteilung Ber(p). Xi = 1 steht für
das Ereignis der i−te Teilnehmer telefoniert. Die Gesamtzahl Sn der telefonierenden Teilnehmer
ist ungefähr Poisson Poi(np) verteilt. Die Lösung ergibt sich aus der Bedingung P (Sn ≤ k) ≈
Poi(np)([0, k]) ≥ α.
Literatur: Eine noch genauere Abschätzung des Totalvariationsabstands zu einer Poissonverteilung findet sich in [4] 1992 und eine Übersicht in [1] 1992.
65
Uwe Rösler
1.11
SS12
1.11
Der Zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz
Der Zentrale Grenzwertsatz ist eine Grenzwertaussage für eine Summe von unabhängigen Zgn,
wobei jeder Summand relativ zur Summe ist und nur einen verschwindend kleinen Beitrag liefert.
Im Gegensatz dazu bestand die Summe bei der Poissonapproximation aus wenigen Summanden,
die verglichen mit der Summe relativ groß waren.
Der Zentrale Grenzwertsatz (ZGS) läßt sich als ein allgemeines Naturgesetz verstehen und auch
beobachten. Wenn immer eine Summe aus vielen kleinen unabhängigen Zgn gebildet wird, gilt der
ZGS. Die Bedeutung des Zentralen Grenzwertsatzes (ZGS) rechtfertigt das Statement:
Der Zentrale Grenzwertsatz ist der zweite Hauptsatz der W-theorie.
Wir formulieren zuerst den ZGS in der einfachsten Form, geben einen Beweis und diskutieren dann
Folgerungen und Ausweitungen.
Definition 1.11.1 (standardisierte Normalverteilung) Die Funktion Φ : IR 7→ IR,
Z x
Φ(x) :=
ϕ(y)dy
−∞
mit
y2
1
ϕ(y) := √ e− 2
2π
heißt standardisierte Normalverteilungsfunktion oder Gaussverteilungsfunktion . Der
Integrand ϕ heis̈t standard Gaussdichte bzw. Dichte der standard Normalverteilung.
Die Funktion Φ ist eine Verteilungsfunktion und ϕ die Dichte dazu. Die numerischen Werte der
Gauß Funktion Φ sind tabelliert bzw. können mathematischen Komputerprogrammen wie Maple
oder Mathematica entnommen werden. (Übung, beachte Φ(x) = 1 − Φ(−x).)
Definition 1.11.2 (Standardnormierung) Die Standardnormierung einer Zg X ist, sofern
wohldefiniert, ist
X − EX
X ∗ := √
.
VarX
Definition 1.11.3 (Zentraler Grenzwertsatz) Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem
Zentralen
Pn Grenzwertsatz, (ZGS) falls für die Standardnormierung der n-ten Partialsumme
Sn := i=1 Xi und für alle reellen a < b gilt
P (a ≤ Sn∗ ≤ b) →n Φ(b) − Φ(a).
Die Grundform des ZGS lautet
Satz 1.11.4 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn mit
endlicher Varianz ungleich 0 gehorcht dem ZGS.
Wir werden zuerst (technisch einfach) diesen Satz mit Hilfsmitteln der diskreten W-theorie beweisen und danach die Einlagerung in die allgemeine W-theorie vornehmen.
1.11.1
Moivre-Laplace
Die einfachste Form des ZGS ist der Satz von Moivre-Laplace.
Satz 1.11.5 (De Moivre-Laplace) Eine Folge unabhängiger identisch verteilter Zgn mit einer
Bernoulliverteilung zum Parameter p ∈ (0, 1) genügt dem ZGS.
66
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Die Beweisidee besteht in brutalem Abzählen. Sei Sn die n-te Partialsumme von unabhängigen,
Bernoulli verteilten Zgn zum Parameter p. (Münzwurf.) Die Wahrscheinlichkeit P (Sn = k) stellen
wir in einem Säulendiagramm dar, hier eine Säule im Bereich [k − 1/2, k + 1/2]. Die Wahrscheinlichkeit P (a ≤ Sn ≤ b) mit a, b ∈ IN0 entspricht der Fläche über dem Intervall [a − 21 , b + 12 ].
Wir approximieren P (Sn = k) als Funktion in k und integrieren diese Funktion auf. (Übung:
Verdeutlichen Sie sich die Herangehensweise in einem Bild.)
Zur Vorbereitung benötigen wir die Stirlingsche Formel [31][17], die von allgemeinem Interesse
ist und die wir ohne Beweis angeben.
Lemma 1.11.6 (Stirling Formel) Für jede natürliche Zahl n gilt
1
e 12n+1 < √
1
n!
< e 12n
2nπ( ne )n
(1.11)
Sei ϕm,σ2 die Funktion
ϕm,σ2 (x) :=
(x−m)2
1
2σ 2
e
.
2πσ 2
Lemma 1.11.7 Sei Sn Binomial Bin(n, p), 0 < p < 1, verteilt. Sei αn , n ∈ IN , eine positive Folge
mit limn n1/3 αn = 0 und Kn die Menge der ganzen Zahlen k mit | nk − p| ≤ αn . Dann gilt
P (Sn = k)
− 1| →n 0.
ϕnp,np(1−p) (k)
sup |
k∈Kn
Beweis: Den obigen Quotienten schreiben wir als Produkt von fünf Faktoren, q = 1 − p.
√
n!pk q n−k 2npqπ
P (Sn = k)
=
(k−np)2
ϕnp,npq (k)
k!(n − k)!e− 2npq
p
√
√
(k−np)2
√
n−k k n−k
2kπ( ke )k 2(n − k)π( n−k
2nπ 2npqπ
n!
p q
e 2npq
e )
p
√
= √
n−k
k! }
(n − k)!
( k )k ( n−k
2nπ( ne )n | {z
2kπ 2(n − k)π
n )
|
{z
}| n
{z
}|
{z
}
|
{z
}
F2
F1
F3
F4
• F1 →n 1 gleichmäßig für k ∈ Kn .
Dies folgt aus der Stirling Formel 1.11,
1
sup |F1 − 1| = sup (F1 − 1) ≤ e 12n − 1 →n 0.
k∈Kn
k∈Kn
• F2 →n 1 gleichmäßig für k ∈ Kn .
sup |F2 − 1|
≤
k∈Kn
1
sup (1 − e− 12k ) ≤ sup
k∈Kn
=
sup
12n( nk
1
12k
1
1
≤
→n 0.
12np − 12nαn
− p) + 12np
• F3 →n 1 gleichmäßig für k ∈ Kn .
Analog zum vorherigen.
• F5 →n 1 gleichmäßig für k ∈ Kn . F5 schreibt sich in der Form
√
pq
q
F5 = q
.
p + ( nk − p) q − ( nk − p)
Jetzt wird | nk − p| durch αn abgeschätzt und αn konvergiert in n gegen 0.
• F4 →n 1 gleichmäßig für k ∈ Kn .
67
F5
Uwe Rösler
SS12
k
n
Eine einfache, längliche Rechnung mit u =
ln F4
u2
=
1.11
Der Zentrale Grenzwertsatz
− p zeigt
n
u
u
− n(u + p) ln(1 + ) − n(q − u) ln(1 − ).
2pq
p
q
Mit der Taylor Entwicklung ln(1 − x) = −x − x2 /2 + x3 rest(x) für |x| < 1 mit rest(x) →x→0 1
erhalten wir
ln F4 = nu3 a.
Der Term a := 2p12 − (u + p) rest( up ) − (q − u) rest( uq ) −
k. Der Term |nu3 | ≤ nαn3 konvergiert gegenP0.
n
Beweis von Moivre-Laplace: Sei Sn = i=1 Xi mit
1
2q 2
ist beschränkt gleichmäßig in n und
q.e.d.
Sn − np
Sn − ESn
= √
Sn∗ := √
npq
VarSn
die standardisierte n-te Partialsumme, q = 1 − p.
∗
√
Definiere die Abbildung IR 3 x → x∗n := x−np
npq und sei Dn := {k ∈ IN | a ≤ kn ≤ b} für
vorgegebenen feste Zahlen reellen Zahlen a, b.
Wir werden zeigen P (a ≤ Sn∗ ≤ b) →n Φ(b) − Φ(a). Aus schreibtechnischen Gründen unterdrücken
wir nach Möglichkeit das n. Sei
Z
ϕ̃ = ϕnp,npq ,
rk := P (Sn = k),
sk := ϕ̃(k),
k+1/2
tk :=
ϕ̃(x)dx.
k−1/2
P
• P (a ≤ Sn∗ ≤ b) = k∈Dn rk .
Trivial.
• supk∈Dn |1 − srkk | →n 0.
Verwende das letzte Lemma mit αn :=
P
• | k∈Dn (rk − sk )| →nP
0
l.S. ≤ supl∈Dn |1 − srll | k rk →n 0.
P
• | k∈Dn (sk − tk )| →n 0.
|
X
(sk − tk )|
|a|∨|b|
√
.
n
XZ
≤
k∈Dn
k+1/2
|ϕ̃(k) − ϕ̃(x)|dx
k−1/2
k
k+1/2
ϕ̃(k)
=
− 1 dx
ϕ̃(x) ϕ̃(x)
k−1/2
k
Z
X k+1/2
(x−k)2 +2(x−k)(k−np)
2npq
=
ϕ̃(x) e
− 1 dx
k−1/2
k
Z
y2
y
k
≤ sup sup |e 2npq + pq ( n −p) − 1| ϕ̃(x)dx
XZ
k∈Dn |y|≤ 12
1
≤
+
|e 8npq −
1
2pq (αn )
− 1| →n 0
Rb
P
• | k∈Dn tk − a ϕ(x)dx| →n 0.
∗
∗
Sei an := inf Dn , bn := sup Dn mit
Pan →n a und bn →n b. Wir verwenden nun die Transformation
∗
y := x für festes n. Die Summe k∈Dn tk läßt sich schreiben als
X
k∈Dn
Z
bn +1/2
tk =
Z
√1
b∗
n + 2 npq
ϕ̃(x)dx =
ϕ(y)dy.
√1
a∗
n − 2 npq
an −1/2
Die untere Grenze des rechten Integrals konvergiert gegen a, die obere gegen b.
68
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Dies zusammengenommen reicht.
q.e.d.
Bem: Im obigen Satz ist es unerheblich, ob wir asymptotisch die W-keit der standardisierten Summe Sn∗ im abgeschlossenen Intervall [a, b] oder im offenen Intervall (a, b) oder in einem halboffenen
Intervall (a, b], [a, b) betrachten.
Bem: Für ganze Zahlen a, b ist
b − 1/2 − np
a + 1/2 − np
−Φ
(1.12)
P (a ≤ Sn ≤ b) = P (a − 1/2 ≤ Sn ≤ b + 1/2) ≈ Φ
√
√
npq
npq
+
eine etwas bessere Abschätzung als ohne den Korrekturterm von − 12 .
Bsp: Würfeln: Gesucht ist die W-keit bei sechstausendmaligem Würfeln zwischen 980 und 1020
mal die Sechs zu erhalten.
Die Zgn Xi , 1 ≤ i ≤ 6000, seien uiv Ber(1/6) verteilt. Das Ereignis Xi = 1 entspricht einer 6 im
i-ten Wurf.
Z b∗
P (980 ≤ Sn ≤ 1020) = P (a∗ ≤ Sn∗ ≤ a∗ ) ≈
ϕ(x)dx = Φ(a∗ ) − Φ(b∗ ) ≈ 0, 51
a∗
:= √ −20 und b∗ := √ 20 .
5000/6
5000/6
√−20,5 und b∗ := √ 20,5 liefert
5000/6
5000/6
∗
mit a
a∗ :=
Die bessere Abschätzung nach der Bemerkung 1.12 mit
P (979, 5 ≤ Sn ≤ 1020, 5) ≈ 0, 52.
Bsp: Wahl: In einem fiktiven demokratischen Land gibt es zwei Parteien, A und B. 106 Bürger
entscheiden sich durch einen fairen Münzwurf für die eine oder andere Partei. Die restlichen 2000
Bürger sind fanatisch und wählen stets A. Mit welcher W-keit gewinnt A.
MM: Seien X1 , X2 , . . . , X106 unabhängige Zgn mit Ber(1/2) Verteilung und sei S die Summe.
W ahr(A gewinnt) = P (S > 106 − 1000) = P (S∗ > −2) = P (S∗ < 2) ≡ Φ(2) ≡ 0, 977...
1.11.2
W-theoretische Formulierung des ZGS
Bisher haben wir möglichst elementar den ZGS hergeleitet, für die die Verwendung diskreter Wräume ausreichend ist. Zum tieferen Verständnis lagern wir den ZGS in die allgemeine W-theorie
ein.
Allgemeiner Hintergrund: Wir betrachten stets die reellen Zahlen versehen mit der Borel σ-Algebra
B, der kleinsten σ-Algebra, die alle offenen Intervalle enthält. Eine Zg ist eine mes̈bare Funktion
g : Ω → IR, d.h. g −1 (B) ⊂ A.
Es gibt eine Bijektion zwischen W-maßen µ auf der Borel σ-Algebra und Verteilungsfunktionen
F , z.B. gegeben durch µ((−∞, ·]) = F (·). Wir werden im folgenden nur Verteilungsfunktionen
betrachten mit einer stetigen Ableitung F 0 = f. Es gilt
Z x
F (x) =
f (y)dy.
−∞
Eine Zg X hat Dichte f , falls f die Ableitung der Verteilungsfunktion ist. Für eine Zg X mit
Dichte f gilt
Z
E(h(X)) = h(x)f (x)dx
für mes̈bare Funktionen h : IR → IR+ . Für unabhängige Zgn X, Y mit Dichte f, g gilt
Z Z
Eh(X + Y ) =
h(x + y)f (x)g(y)dxdy
Insbesondere haben X + Y die Dichte
Z
Z
z 7→ f (z − y)g(y)dy = g(z − x)f (x)dx
69
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Definition 1.11.8 (Gaussdichte) Die Funktion ϕm,σ2 : IR 7→ IR zu den Parameter m ∈ IR und
0 < σ 2 < ∞,
(y−m)2
1
e− 2σ2
ϕm,σ2 (y) := √
2πσ 2
Gaussdichte bzw. Dichte der Normalverteilung zu den Parametern (m, σ 2 ). Die Dichte heißt
auch nach Ihrem “Entdecker” Carl Friedrich Gauß die Gauß Glockenkurve.
Definition 1.11.9 (Gaussverteilungsfunktion) Die Funktion Φm,σ2 : IR 7→ IR
Z
x
ϕm,σ2 (y)dy
Φm,σ2 (x) :=
−∞
zu den Parametern m ∈ IR und 0 < σ 2 < ∞ heißt Gauß Verteilungsfunktion oder auch
Verteilungsfunktion der Normalverteilung .
Die Standardnormalverteilungsfunktion ist die Funktion Φ := Φ0,1 mit der standardisierten Gauß Glockenkurve bzw. Dichte der Standardnormalverteilung φ := φ0,1 .
Die Gaussdichte ϕm,σ2 : IR → IR ist eine Dichte und hat folgende Eigenschaften
– ∀y ∈ IR : ϕm,σ2 (y) > 0
– ϕm,σ2 ist eine stetige Funktion symmetrisch um m.
– Die Funktion y 7→ ϕm,σ2 (y) ist steigend bis y = m und dann fallend. Daher der Name Glockenkurve.
R
– ϕm,σ2 (y)dy = 1 Dies zeigt man unter Verwendung von Polarkoordinaten
p
y
(r, ψ) = ( x2 + y 2 , arcsin ),
x
Z
(
ϕ(x)dx)2 =
Z Z
ϕ(x)ϕ(y)dxdy =
dxdy = rd(r, ψ)
1
2π
Z
0
2π
Z
∞
e−
r2
2
rdrdψ = 1.
0
R
– yϕm,σ2 (y)dy = y (einfach)
R
– (y − m)2 ϕm,σ2 (y)dy = σ 2 (Partielle Integration)
Die Funktion Φm,σ2 : IR → IR hat folgende Eigenschaften
– Sie ist eine Verteilungsfunktion.
– Sie ist 180 rotationssymmetrisch um den Punkt (m, 1/2). (Φm,σ2 (m + x) + Φm,σ2 (m − x) = 1)
– Φm,σ2 (m) = 1/2.
Wir betrachten stets die reellen Zahlen versehen mit der Borel σ-Algebra B, der kleinsten σAlgebra, die alle offenen Intervalle enthält. Wegen der Bijektion zwischen W-maßen µ auf der
Borel σ-Algebra und Verteilungsfunktionen F , gegeben durch µ((−∞, ·]) = F (·), gibt es genau
ein W-mass auf den reellen Zahlen zu einer Gausverteilung mit Parametern m, σ 2 . Diese heißt
Gaussverteilung oder Normalverteilung.
Not: N (m, σ 2 )
Eine Zgn X heis̈t gaussverteilt zu den Parametern m, σ 2 , falls die Verteilung der Zg eine Gaussverteilung zu den Parametern ist.
Not: X ∼ N (m, σ 2 ).
Bem: Die Parameter einer gausverteilten Zg X sind der Erwartungswert m = E(X) und die
Varianz σ 2 = Var(X).
Proposition 1.11.10 Eine nicht ausgeartete linear affine Funktion einer Gausverteilung ist gausverteilt.
Die Summe endlich vieler unabhängiger gausverteilter Zgn ist gausverteilt.
70
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Bew: Sei X N (m, σ 2 ) verteilt und a 6= 0, b ∈ IR. Dann ist aX + b N (am, a2 σ 2 ) verteilt.
Z
P (aX + b ≤ z)
= E(11aX+b≤z = 11ax+b≤z ϕm,σ2 (x)dx
Z
y−b 1
=
11y≤z ϕm,σ2 (
) dy
a a
Z
= ... = 11y≤z ϕam,a2 σ2 (y)dy
Für die zweite Aussage reicht es nur die Summe zweier unabhängiger gaussverteilter Zgn zu betrachten. Wir können oEdA (nach dem ersten Teil) annehmen X ist N (0, 1) verteilt und Y ist
N (0, σ 2 ) verteilt. Dann ist die Dichte h von X + Y gegeben durch
Z
h(x)
=
=
=
=
=
=
ϕ0,1 (x − y)ϕ0,σ2 (y)dy
Z
(x−y)2
y2
1
1
√ √
e− 2 − 2σ2 dy
2π 2πσ 2
Z
1
σ 2 (x2 + y 2 − 2xy) + y 2
√
exp(−
)dy
2σ 2
2π2πσ 2
Z
−x2 σ 4
2 2
xσ 2 2
(1 + σ 2 )(y − 1+σ
1
2)
(1+σ 2 ) + x σ
√
)exp(−
)dy
exp(−
2σ 2
2σ 2
2π2πσ 2
p
2π(1 + σ 2 )
x2
√
exp(−
2σ 2 )
(1 + σ 2 )
2π2πσ 2
ϕ0,1+σ2 (x)
q.e.d.
Bem: Die Parameter berechnen sich leicht via dem Erwartungswert und der Varianz.
Folgerung: Eine Folge von unabhängigen, identisch normalverteilten Zgn erfüllt den ZGS mit der
Standardnormierung.
Konvergenz
Definition 1.11.11 (Konvergenz bzgl. Funktionenklasse) Sei F eine Menge von Funktionen. Eine Folge µn von W-maßen konvergiert gegen ein W-maß
µ bezüglich
der FunktioR
R
nenklasse F, falls für alle Funktionen f der Funktionenmenge f dµn →n f dµ gilt.
F
Not: µn →n µ ⇔ µn (f ) →n µ(f ) ∀f ∈ F.
Punktweise Konvergenz:
vergenz.
Die F-Konvergenz mit F := {11A | A ∈ A ist die punktweise KonZ
∀f ∈ F gilt inf f dµn →n
f dµ ⇔ ∀A ∈ Aµn (A) →n µ(A).
Schwache Konvergenz: Sei Cb die Menge der reellwertigen, stetigen und beschränkten Funktionen. Die Konvergenz bzg. Cb heißt schwache Konvergenz.
C
d
Not: µn →n µ ⇔ µn →bn µ. Hierbei steht d für distribution. Es wird auch w verwendet für weak.
d
Für Zg benutzen wir dieselbe Notation Xn → X falls die Verteilungen schwach konvergieren.
Satz 1.11.12 (Zentrale Grenzwertsatz) Sei X1 , X2 , . . . eine Folge von uiv Zg mit endlicher
Varianz nicht Null. Dann konvergiert Sn∗ in Verteilung gegen die Standardnormalverteilung.
71
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Beweis: Wir verwenden das Lemma von Trotter, eventuell mit der Bemerkung. Seien die Y Zgn alle
normalveteilt. Dann ist Tn∗ standardnormalverteilt für alle n. Folglich haben wir die Konvergenz
von Sn∗ gegen die Standardnormalverteilung für die Funktionenklasse F der dreimal stetig differenzierbaren Funktionen mit beschränkter stetiger Ableitung. Jede stetige beschränkte Funktion
g mit endlichem Träger {x | g(x) 6= 0} läs̈t sich gleichmäs̈ig durch eine Funktion f aus F beliebig
gut approximieren. Dann gilt
Eg(Sn∗ ) − Eg(Tn∗ ) = (Eg(Sn∗ ) − Ef (Sn∗ )) + (Ef (Sn∗ ) − Ef (Tn∗ )) + (Ef (Tn∗ ) − Eg(Tn∗ )) →n 0.
Und was macht man, falls der Träger nicht endlich ist? (Übung in Abschneidetechnik)
q.e.d.
Bsp: Gauß als Geodäter.
Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren
Streckenlänge.
Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten Daten die wahre
Streckenlänge c approximativ bestimmen.
Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn mit unbekannter Verteilung und endlicher Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein
guter Schätzer für c ist
n
1X
Sn
=
Xi .
ĉn =
n
n i=1
√ ĉn −c
Die Zg n √
konvergiert schwach gegen eine normalverteilte Zg. N . Sehr grob gedacht, der
nσ 2
√
Fehler bei Benutzung von ĉn anstelle des wahren Wertes c ist von der Größenordnung N/ n. Die
2
Varianz σn von ĉn liefert dieselbe Grös̈enordnung √1n des Fehlers.
1.11.3
Allgemeiner Zentraler Grenzwertsatz
Lemma 1.11.13 Seien X, Xn , n ∈ IN Zgn. Dann sind äquivalent
• Die Verteilung von Xn konvergiert schwach gegen die Verteilung von X.
• Die Verteilung von Xn konvergiert gegen die Verteilung von X bzgl. der Menge der stetigen
Funktionen mit kompaktem Träger.
• Die Verteilung von Xn konvergiert gegen die Verteilung von X bzgl. der Menge der unendlich
oft stetig differenzierbaren Funktionen mit kompaktem Träger.
• Die Verteilungsfunktion von Xn konvergiert punktweise gegen die Verteilungsfunktionvon X
in allen Stetigkeitspunkten der Verteilungsfunktion von X.
• Ist zusätzlich F setig, so ist äquivalent, die Verteilungsfunktion von Xn konvergiert gleichmäsig
gegen die Verteilungsfunktionvon X.
Bew: Im folgenden seien F, Fn die RVerteilungsfunktionen zu X, Xn und µ, µn die Verteilungen von
X, Xn . Wir benutzen E(f (X)) = f dµ = muf und analog µn f für geeignete Funktionen f.
Offensichtlich sind die Behauptungen i) → ii), ii) → ii)undv) → iv).
• ii) ⇒ i).
Sei g ∈ Cc mit 0 ≤ g ≤ 1. Dann gilt für f ∈ Cb
|µn f − µf | ≤ |µn f g − µf g| + |µn f (1 − g)| + |µf (1 − g)|
Der erste Term wird klein für hinreichend große n bei festem g. Den zweiten Term schätze ab
≤ kf k∞ (µn (1 − g) + µ(1 − g)).
72
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Wähle jetzt g mit g ≥ 11[−a,a] und mn (1 − g) kleiner als ein vorgegebenes . Dann konvergiert
µn (1 − g) = 1 − µn g gegen 1 − µ(g) = µ(1 − g) < .
• iii) ⇒ ii)
Jede Funktion f ∈ Cc kann beliebig gut durch eine Funktion g ∈ Cc∞ gleichmäßig approximiert
werden. (in Formeln: ∀f ∈ Cc ∀ > 0 ∃g ∈ Cc∞ : supx |f (x) − g(x)| < .) Es gilt
|µn f − µf | ≤ |µn g − µg| + |µn (f − g)| + |µ(f − g)|
Der erste Term konvergiert in n gegen 0 für festes g. Der zweite und dritte wird abgeschätzt durch
kf − gk∞ und wird klein durch Wahl von g gleichmäßig in n.
• ii) ⇒ iv)
Sei ha,b , a < b die Funktion

1
falls
y≤a

0
y>b
ha, (y) =

linear interpoliert
a ≤ y ≤ b.
Sei x ein stetigkeitspunkt von F. Aus
µhx−,x ≤ Fn (x) ≤ µn hx,x+
erhalten wir mit n → ∞
F (x − ) ≤ µhx−,x ≤ lim inf Fn (x) ≤ lim sup Fn (x) ≤ µhx,x+ ≤ F (x + )
n
und mit → 0 aus der Sandwichposition die Behauptung.
• iv) ⇒ ii)
Jedes f ∈ Cc kann
Pmbeliebig gut gleichmäßig approximiert werden durch eine Treppenfunktion g
der Gestalt g = i=1 αi 11( ai , bi ] mit m ∈ IN, ai , bi Stetigkeitspunkte von F, stetig erweitert um
+
− ∞ und (ai , bi ], 1 ≤ i ≤ m eine Partition von IR = IR ∪ {∞, −∞}. Dann argumentiere
|µn f − µg| ≤ |µn f − µn g| + |µn g − µg| + |µg − µf |.
Der erste und dritte Term werden abgeschätzt durch kf − gk∞ und sind klein durch Wahl von g
glm in n. Der zweite wird abgeschätzt durch
X
≤
|αi ||Fn (bi ) − Fn (ai ) − F (bi ) + F (ai )| →n 0.
i
• iv) ⇒ v)
Erweitere die Verteilungsfunktionen F, Fn stetig in −∞ und ∞. Zu vorgegebenem > 0 wähle
−∞ = x0 < x1 < x2 < . . . < nN = ∞ mit 0 ≤ F (xi ) − F (xi−1 ) < für 1 ≤ i ≤ N. Sei
An := supi |Fn (xi ) − F (xi )|. Es gilt An →n 0.
Für x sei i = i(x) bestimmt durch xi ≤ x < xi+1 . Schätze ab
|Fn (x) − F (x)|
≤
|Fn (x) − Fn (xi )| + |Fn (xi ) − F (xi )| + |F (xi ) − F (x)|
≤
Fn (xi+1 ) − Fn (xi ) + An + F (xi+1 ) − F (xi )
≤
|Fn (xi+1 ) − F (xi+1 )| + |F (xi+1 ) − F (xi )| + |F (xi ) − Fn (xi )| + An + ≤
3An + 2
Diese Abschätzung gilt gleichmäßigfür alle x ∈ IR. An konvergiert in n gegen 0 und war beliebig
klein.
q.e.d.
Damit erhalten wir: Eine Folge Xn , n ∈ IN , von Zgn gehorcht dem Zentralen
Grenzwertsatz,
Pn
(ZGS) falls die Standardnormierung Sn∗ der n-ten Partialsumme Sn := i=1 Xi schwach gegen
die standard Normalverteilung konvergiert.
Wir geben nun den Beweis von Trotter des Zentralen Grenzwertsatzes 1.11.4.
73
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Satz 1.11.14 (Zentraler Grenzwertsatz) Eine Folge unabhängiger, identisch verteilter Zgn
mit endlicher Varianz ungleich 0 gehorcht dem ZGS.
Beweis: Seien die uiv Zgn Xn , n ∈ IN. Ist X1 N (m, σ 2 ) verteilt, so ist Sn∗ N (0, 1) verteilt und
konvergeirt insbesondere schwach.
Sei X1 nicht Normalverteilt. Seien Yn , n ∈ IN weitere unabhängige Zgn, auch unabhängig von
den X-Zgn, mit einer Normalverteilung zu den Parametern EX1 und VarX1 . Seien Sn∗ und Tn∗ die
Standardisierungen der Partialsummen Sn = X1 + . . . + Xn und Tn = Y1 + . . . + Yn . Wir werden
zeigen
|E(f (Sn∗ )) − E(f (Tn∗ ))| →n 0
(1.13)
für alle C ∗ ∞c Funktionen.
Wir nehmen oEdA an die Zgn X1 , Y1 sind zentriert und haben Varianz Eins. Nur zur Einfachheit
seien die dritten absoluten Momente endlich.
Wir verwenden die Teleskopsummendarstellung
f (Sn∗ ) − f (Tn∗ ) =
X
X
Yi
Xi
Ai
(f (ci + √ ) − f (ci + √ ) =:
n
n
i
i
Pn
Pi−1 Y
X
mit ci := j=1 √jn + k=i+1 √nj .
Wir verwenden die Taylor Approximation
f (x) = f (x0 ) + (x − x0 )f 0 (x0 ) +
(x − x0 )3 000
(x − x0 )2 00
f (x0 ) +
f (ξ)
2!
3!
mit einem geeigneten Zwischenwert ξ zwischen x und x0 . Wir wenden Taylor jeweils an auf den
i-ten Term in obiger Summe entwickelt um ci .
Ai = f 0 (ci )
Xi − Yi
X 2 − Yi2
Xi3
Yi3
√
+ f 00 (ci ) i
+ f 000 (ξi,1 ) 3/2
+ f 000 (ξi,2 ) 3/2
|
2n
n
6n
6n
Auf beiden Seiten nehmen wir den Erwartungswert. Die Unabhängigkeit von ci und (Xi , Yi ) ergibt
E(
E(
Xi − Yi 0
Xi − Yi
√
f (ci )) = E( √
)E(f 0 (ci )) = 0
n
n
Xi2 − Yi2 00
X 2 − Yi2
f (ci )) = E( i
)E(f 00 (ci )) = 0
2n
2n
Die Abschätzung wird fortgeführt,
|E(f (Sn∗ ) − f (Tn∗ ))|
≤
n
X
|EAi |
i=1
≤
n
kf 000 k∞ X
(
(E|Xi |3 + E|Yi |3 )
2n3/2 i=1
≤
const
→n 0
n1/2
Mit etwas mehr Aufwand läßt sich das Lemma auch ohne zusätzliches endliches 3. Moment zeigen. (Taylorentwicklung bis zweite Ableitung und verwende Stetigkeitsmodul von f .) Nur der
Vollständigkeit halber:
Der Stetigkeitsmodul einer Funktion g ist
wg (δ) =
sup |g(x) − g(y)|
|x−y|<δ
74
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
für δ ≥ 0. Benutze die Taylorentwicklung wie oben bis zur zweiten Ableitung. Die neuen Restterme
sind,
X
X2
Y2
E( (f 00 (ξi,1 ) − f 00 (ci )) i + (f 00 (ξi,2 ) − f 00 (ci )) i )
2n
2n
i≤n
Damit werden die Restterme abgeschätzt
|Rest ≤
X
Xi Xi
Yi Y 2
wf 00 ( √
≤ E(
+ wf 00 ( √ ) i )
n 2n
n 2n
i≤n
≤
1
X1
Y1
E(wf 00 ( √ X12 + wf 00 ( √ )Y12 )
2
n
n
Die linke Seite konvergiert gegen 0 wegen monotoner Konvergenz.
q.e.d.
Bem: Hier ein Beweis des ZGS in einer Zeile! Wir benutzen die Zolotarevmetrik zum Beweis des
ZGS mit s > 2. Mit obiger Notation
ζs (Sn∗ , Tn∗ ) ≤
n
1 X
ζs (Xi , Yi ) ≤ n1−s (E|X1 |s + E|Y1 |s ) →n 0.
ns i=1
Bsp: Gauß als Geodäter.
Gauss ist bekannt geworden durch seine genaue Landvermessung. Seine bahnbrechnede Neuerung war die Mittelwertbildung seiner Mehrfachmessungen als gute Approximation der wahren
Streckenlänge.
Eine Strecke wird n−mal gemessen. Die sich ergebenen Meßwerte sind mit einem Meßfehler behaftet und weichen voneinander ab. Inwieweit läßt sich aus den fehlerbehafteten Daten die wahre
Streckenlänge c approximativ bestimmen.
Mathem. Modell: Xi , 1 ≤ i ≤ n, seien unabhängige Zgn mit unbekannter Verteilung und endlicher Varianz σ 2 . Der Erwartungswert der Zg sei die zu bestimmende unbekannte Größe c. Ein
guter Schätzer für c ist
n
1X
Sn
=
Xi .
ĉn =
n
n i=1
√ ĉn −c
Die Zg n √
konvergiert schwach gegen eine normalverteilte Zg. N . Sehr grob gedacht, der
nσ 2
√
Fehler bei Benutzung von ĉn anstelle des wahren Wertes c ist von der Größenordnung N/ n. Die
2
Varianz σn von ĉn liefert dieselbe Grös̈enordnung √1n des Fehlers.
Korollar 1.11.15 (Glivenko-Cantelli) Unter den Voraussetzungen des obigen Satzes sind äquivalent
(i) Für alle reellen Zahlen b gilt P (Sn∗ ≤ b) →n Φ(b).
(ii) supb∈IR |P (Sn∗ ≤ b) − Φ(b)| →n 0.
(iii) supa<b∈IR |P (a ≤ Sn∗ ≤ b) − Φ(b) + Φ(a)| →n 0.
(iv) supa<b∈IR |P (a < Sb∗ < b) − Φ(b) + Φ(a)| →n 0
Güte der Approximation:
Wie gut ist die Normalapproximation?
Die Approximationsgüte, d.h. Aussagen über die Konvergenzgeschwindigkeit des maximalen Abstands supb |P (Sn∗ ≤ b) − Φ(b)| für uiv Zgn gibt der Satz von Berry-Esseen.
75
Uwe Rösler
SS12
1.11
Der Zentrale Grenzwertsatz
Satz 1.11.16 (Berry-Esseen) Sei Sn∗ die standardisierte Summe von n unabhängig identisch
verteilten Zgn X1 , . . . , Xn mit Varianz σ 2 und endlichem zentrierten dritten absoluten Moment
0 < γ := E|X − EX|3 < ∞. Dann gilt
sup |P (Sn∗ ≤ b) − Φ(b)| ≤
b
0, 8γ
√ .
σ3 n
Literatur: Sozanov [30].
Bsp: Würfeln Wir betrachten die Anzahl der Sechsen bei sechstausendmaligem Würfeln. Der
Fehler in der Approximation von P (a ≤ S6000 ≤ b) durch die Normalverteilung ist beschränkt
durch
2 ∗ 0, 8 ∗ 130/64
√
≈ 0, 040.
(5/36)3/2 6000
Bemerkung Wann sollte die Normalapproximation benutzt werden und wann
P die Poissonapproximation? Stets sollte die Anzahl der Zgn gros̈ sein. Grob gesagt, falls i p2i kleiner als 1 ist,
wende die Poissonapproximation an, anderenfalls die Normalapproximation. Genauere Aussagen
sind nur mit Fehlerabschätzungen möglich.
ZGS für Schemata *
Wann konvergieren Summen von unabhängigen Zgn gegen eine Normalverteilung? Wir geben eine
Gleichmäßigkeitsaussage an.
Definition 1.11.17 (Schema von Zufallsgrößen) Ein Schema von Zgn ist eine Familie von
Zgn Xn,k , n ∈ IN, 1 ≤ k ≤ kn ∈ IN . Wir schreiben diese in der Form
X1,1 , X1,2 , . . . , X1,k1
X2,1 , X2,2 , . . . , X2,k2
X3,1 , X3,2 , X3,3 , . . . , X3,k3
......................
Wir betrachten insbesonders die Summe der n-ten Reihe eines Schemas,
Sn =
kn
X
Xn,k .
k=1
Definition 1.11.18 (unabhängig, standardisiert) Ein Schema heißt unabhängig, falls die
Zgn (Xn,k )k in jeder Reihe n unabhängig sind. Ein Schema heißt standardisiert, falls die Zgn
zentriert sind und die Varianz s2n := VarSn = 1 jeder Reihensumme stets 1 ist.
Jedes Schema mit endlicher Reihenvarianz s2n ungleich 0 läßt sich durch Übergang zu den Zgn
X
−EX
Yn,k := n,k sn n,k standardisieren.
Definition 1.11.19 (asymptotisch vernachlässigbar) Ein standardisiertes Schema (Xn,k )n,k
heißt asymptotisch vernachlässigbar, falls für alle > 0 gilt
sup P (|Xn,k | > ) →n 0.
k
Definiere für ein standardisiertes Schema
Ln () :=
X
2
E(Xn,k
11|Xn,k |≥ ).
k
Satz 1.11.20 (Lindeberg) Sei (Xn,k )n,k ein unabhängiges und standardisiertes Schema.
Dann sind äquivalent
76
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
(i) (Xn,k )n,k ist asymptotisch vernachlässigbar und es gilt der ZGS
∀x ∈ IR P (Sn ≤ x) →n Φ(x)
(ii) Die Lindebergbedingung gilt, d.h. für alle > 0 gilt
Ln () →n 0.
Beweis: Die Rückrichtung ließe sich analog zu Lemma ?? zeigen.
Für die Hinrichtung siehe Feller [7]. Weiter- und tieferliegende Literatur ist Petrov [26] und
Gnedenko-Kolmogoroff [20].
ZGS für uiv Zg: Sei Xn , n ∈ IN , eine Folge uiv Zg mit EX1 = m und endlicher Varianz σ 2
ungleich 0. Diese Folge bildet in natürlicher Weise ein Schema via Xn,k = Xk , 1 ≤ k ≤ kn = n
und
X1 − m
√
,
σ2
X1 − m X2 − m
√
, √
2σ 2
2σ 2
..........
n
Xk − m
√
.
nσ 2 k=1
X1
X1 , X2
............
X1 , . . . , Xn
−m
Das zugehörige standardisierte Schema ist Yn,k := X√knσ
, 1 ≤ k ≤ n ∈ IN . Das standardisierte
2
Schema ist unabhängig. Es erfüllt die Lindebergbedingung
Ln () :=
n
X
k=1
E
(Xk − m)2
11|Xk −m|≥√nσ2 nσ 2
=E
(X1 − m)2
11|X1 −m|≥√nσ2 σ2
→n 0.
Daher gilt der ZGS und die einzelnen Beiträge der Zg zur Summe sind asymptotisch vernachlässigbar.
Beispiel
Mergesort: Eine direkte Anwendung ist die asymptotische Analyse von Mergesort (siehe dort).
77
Uwe Rösler
1.12
SS12
1.12
Zgn mit Werten in Rd ∗
Zgn mit Werten in Rd ∗
Im Text schreiben wir einen Vektor in der Form x = (x1 , . . . , xd ). In Formeln benutzen wir den
Vektor als Spaltenvektor. Der Reihenvektor wäre xt . Fürq
eine Matrix A benutzen wir At für die
Pd
2
transponierte. Wir benutzen die euklidische Norm kxk =
i=1 xi .
d
Im folgenden betrachten wir Zgn X mit Werten in IR .
Diese schreiben wir in der Form X = (X1 , . . . , Xd ) : Ω 7→ IRd ,
X(ω) = (X1 (ω), . . . , Xd (Ω)).
Definition 1.12.1 (Erwartungswert) Der Erwartungswert einer Rd -wertigen Zg X ist
definiert durch
EX = (EX1 , . . . , EXd ).
Definition 1.12.2 (Covarianz) Die Covarianzmatrix Cov(X, Y ) : {1, . . . , d}2 7→ IR zweier
IRd −wertiger Zgn X, Y ist gegeben durch
Cov(X, Y )i,j := Cov(Xi , Yi ) = E((Xi − EXi )(Yj − EYj )).
Prägnanter:
Cov(X, Y ) = E((X − EX)(Y − EY )t ).
Es gilt für Matrizen A, B ∈ IRd×d und Vektoren a, b ∈ IRd
Cov(AX + a, BY + b) = ACov(X, Y )B t .
Die Covarianzmatrix einer Zgn X ist die Matrix Cov(X, X) =: Cov(X).
Definition 1.12.3 (positiv definit) Eine Matrix A heißt positiv definit, falls v t Av ≥ 0 für
alle v ∈ IRd gilt.
Proposition 1.12.4 Die Covarianzmatrizen Cov(X) sind genau die positiv definiten Matrizen.
Beweis:
“⇒” Sei v ∈ IRd . Dann gilt
v t Cov(X, X)v
= v t E((X − EX)(X − EX)t ))v
= E(((X − EX)t v)t ((X − EX))t v)
≥ E(((X − EX)t v)2 ) ≥ 0.
“⇐” Sei X = (Xi )1≤i≤d eine IRd −wertige Zg mit der Einheitsmatrix als Covarianzmatrix. (Dies
ist möglich, (Xi )i unabhängig mit EXi = 0 und VarXi = 1.) Dann tuts C 1/2
pX. (Für
diagonale Matrizen D = (di,j )i,j mit positiven Einträgen ist D1/2 definiert durch ( di,j )i,j .)
Sei jetzt C eine positiv definite d × d Matrix. Dann existiert eine orthogonale (Ot = O−1 )
Rotation O mit OCOt = D hat Diagonalgestalt. Definiere C 1/2 = Ot D1/2 O.
q.e.d.
GGZ:
Es gilt das sinngemäße Gesetz der Großen Zahl.
Satz 1.12.5 (GGZ) Eine Folge uiv Rd −wertiger Zgn. mit endlichem ersten Moment erfüllt das
schwache Gesetz der Großen Zahl.
Beweis: Sei Xn die Rd −wertige Folge uiv Zgn, oEdA zentriert, Sn die n−te Partialsumme.
X
d
Sn,i Sn P
> ≤
P
>
→n 0.
n
n
d
i=1
Pn
Hierbei haben wir das GGZ verwandt für Sn,i := j=1 Xj,i , Xj = (Xj,1 , . . . , Xj,d ).
q.e.d.
78
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
ZGS:
Die d−dimensionale Glockenkurve bzw. d−dimensionale Dichte der Normalverteilung
ist die Funktion ϕm,C : IRd 7→ IR
ϕm,C (x) = p
1
(2π)d det(C)
e−
(x−m)t C −1 (x−m)
2
mit m ∈ IRd und C ∈ IRd×d eine positiv definite und invertierbare Matrix.
Wir benutzen ϕ = ϕ0,I mit I die Einheitsmatrix.
Einige Eigenschaften der Gauß Glockenkurve sind.
Lemma 1.12.6
(i) ϕm,C ist stetig, strikt positiv und symmetrisch um m, (∀x ∈ IRd ϕm,C (x − m) = ϕm,C (−x −
m)).
R
(ii) ϕm,C (x)dx = 1.
R
(iii) xϕm,C (x)dx = m.
R
(iv) (x − m)(x − m)t ϕm,C (x)dx = C.
R
(v) ϕm1 ,C1 (x − y)ϕm2 ,C2 (y)dy = ϕm1 +m2 ,C1 +C2 (x).
Beweis: Alle Aussagen sind einfach und straight forward.
Notation:
ϕ = ϕ0,I mit I die Einheitsmatrix.
Definiere die Gauß Verteilungsfunktion
Z
Φ(x) :=
ϕ(y)dy.
y≤x
d
Hierbei benutzen wir
R die koordinatenweise Ordnung in IR , u ≤d v ⇒ ui ≤ vi
benutzen Φ(f ) := f (x)ϕ(x)dx für geeignete Funktionen f : IR 7→ IR.
1 ≤ i ≤ d. Wir
Definition 1.12.7 (Standardnormierung) Die Standardnormierung einer Zg X ist, falls
wohldefiniert,
X ∗ = Cov−1/2 (X)(X − EX).
Hierbei ist Cov−1/2 (X) das Inverse von Cov1/2 (X) wie oben erklärt.
Satz 1.12.8 (Der d−dimensionale ZGS) Eine Folge uiv Rd −wertiger Zgn mit endlicher Covarianzmatrix von vollem Rang erfüllt den Zentralen Grenzwertsatz
P (Sn∗ ≤ b) →n Φ(b)
für alle b ∈ IRd . Äquivalent ist
Ef (Sn∗ ) → Φ(f )
für alle stetigen beschränkten Funktionen f .
Beweis: Ein Beweis analog zum eindimensionalen Fall ist möglich. Wir führen dies nicht aus.
79
Uwe Rösler
1.13
SS12
1.13
Sortieralgorithmen
Sortieralgorithmen
Wir führen eine Laufzeitanalyse von den Sortieralgorithmen Mergesort und Quicksort durch.
1.13.1
Laufzeitanalyse:
Gegeben sei ein Algorithmus A. Dieser Algorithmus benötigt die Zeit A(x) bei Eingabe (=Input) x
bis zur Ausgabe S(x) (=Output). Die Zeit wird bestimmt bzw. ist proportional zu die ausgeführten
Befehlen. Wir messen daher Zeit durch das Zählen gewisser Operationen.
Wir benutzen der einfachheit halber als Eingabe x ∈ IRn und betrachten n = |x| als die Problemgrös̈e.
Wir werden teile-und-herrsche (divide-and-conquer) Algorithmen analysieren. Ein Problem der
Stufe n wird zerlegt in kleinere Probleme niedrigerer Stufe. Durch rekursive Aufrufe des Algorithmus kommen wir letztendlich zu Problemen ganz niedriger Stufe, die lösbar sind. Die rekursive
Gleichung ist der Schlüssel zur Analyse.
Wir unterscheiden deterministische und stochastische Algorithmen. Stochastische Algorithmen
haben eine Zufallsquelle im Programm (=Software) selber, eventuell durch Erzeugung von Zufallszahlen. Bei demselben Input ist die Laufzeit verschieden. Wir unterscheiden internen und
externen Zufall.
– Der interne Zufall ist im Programm selbst enthalten, zum Beispiel durch Wahl von Zufallszahlen.
– Der externe Zufall kommt von außen. Hierbei wird der Input selbst als zufällig betrachtet und
durch eine Zg modelliert.
Eine Laufzeitanalyse umfaßt folgende Punkte.
• Worst case: Hierbei handelt es sich um eine obere Schranke der Laufzeit bei Input vom
Level n. Diese wird meistens asymptotisch in n angegeben. (Weniger interessant ist der beste
Fall.)
• Average case: Der Input wird als Zg betrachtet (=externer Zufall) oder der Algorithmus
ist stochastisch (=interner). Die Laufzeit dieser Algorithmen ist eine Zg. In der average
case Analyse wird der Erwartungswert der Laufzeit bestimmt. Die Idee ist An ≈ EAn
auf Level n. Hierhin gehören auch Abschätzungen von P (An − EAn ≥ cn ), wie sie z.B.
mit Hilfe der Tschebycheff-Markov Ungleichungen möglich sind. Die Varianz wird gerne als
Abstandsbegriff genommen.
• Verteilungsanalyse: Hier wird die asymptotische Verteilung von A = An bei Level-nEingabe bestimmt. Mit einer geeigneten Normierung von An , meistens eine affine von der
n
, konvergiert A∗n in Verteilung gegen einen nicht trivialen Grenzwert.
Form A∗n = And−c
n
• Große Abweichungen: Ziel sind Abschätzungen der W-keit P (An − EAn ≥ cn ) → n
für sehr große cn . Diese Wahrscheinlichkeit geht exponentiell schnell in n gegen 0, bzw.
1
n ln P... konvergiert in n. Diese Abschätzungen beruhen in der Regel auf exponentiellen
Abschätzungen, wie die Cramer Transformierte oder der Hoeffding Ungleichung.
1.13.2
Insertionsort:
Der Algorithmus Insertionsort bzw. Bubble up ist ein Sortieralgorithmus. Der Input besteht
n
aus einer Liste x ∈ IR6=
von n ungleichen reellen Zahlen. Die Ausgabe ist die Folge S(x) ∈ IRn der
aufsteigend sortierten Komponenten von x.
Algorithmus Insertionsort: Wir beschreiben nur den Rekursionsschritt.
Im k + 1-ten Schritt seien die ersten k Daten bereits geordnet zu a1 < a2 < . . . , ak . Die Date xk+1
wird jetzt eingelesen und soll eingeordnet werden. Dies geschieht durch Vergleich mit ak , ak−1 , ak−2
usw. solange, bis der richtige Platz gefunden ist. Gefragt ist nach der Anzahl der notwendigen
Vergleiche.
80
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Sei Z(x) die Anzahl der benötigten Vergleiche zum Einordnen der letzten Koordinate xn in die
geordnete Liste der S(x1 , . . . , xn−1 ). Sei A(x) die Anzahl aller von Insertionsort durchgeführten
Vergleiche bei Eingabe von x. Es gilt
A(x) = A(x− ) + Z(x).
(1.14)
Hierbei bezeichnet x− die um die letzte Koordinate reduzierte Liste x. Das Problem vom Level n
wird auf eins vom Level n − 1 zurückgeführt.
n
Bounds: Aus 1 ≤ Z(x) ≤ n − 1 für x ∈ IR6=
und n ≥ 2 erhalten wir
n − 1 ≤ A(x) ≤
n
X
(i − 1) =
i=2
n(n − 1)
2
durch Induktion nach der Problemlänge n.
Average
Sei
Ri (x) :=
n
X
11xj ≤xi
j=1
n
der Rang von xi unter den Komponenten von x ∈ IRne
. R(x) ist eine Permutation der Zahlen 1
bis n = |x|. R heißt Rangfunktion. Durch Induktion läßt sich leicht zeigen:
A(x) = A(R(x))
Z(x) = Z(R(x)).
Anstelle von allgemeinen Listen reicht es Permutationen zu betrachten.
Zur mathematischen Formulierung betrachten wir als Grundraum die Menge Πn der Permutationen von {1, . . . , n} mit W-maß µn als Laplaceraum. Sei An (π) = A(π) und Zn (π) = Z(π) für
π ∈ Πn . Sei ϕn : Πn → Πn−1 × {1, . . . , n} mit π 7→ (R(π − ), πn ). Die Rekursion lautet
An (π) = A(ϕn,1 (π)) + Zn (π).
Proposition 1.13.1 Für gegebenes n sind die Zgn ϕn,1 , ϕn,2 unabhängig. Die Verteilung von
ϕn,1 , ϕn,2 ist die gleichmäßige auf dem Bildraum.
Bew: Die Abbildung ϕn ist eine Bijektion. Die Verteilung von ϕn,1 , ϕn,2 wird nachgerechnet und
ebenfalls die Unabhängigkeit.
q.e.d.
Mathem. Modell: Der Input wird gegeben durch eine zufällige Permutation der Länge n mit
Gleichverteilung.
Definiere eine Folge νn , n ∈ IN von W-maßen auf IN rekursiv definiert durch den Anfangswert
ν1 = δ0 und νn , n ≥ 2 ist die Verteilung von X + C mit X, C sind unabhängig, X ist νn−1 verteilt
und C ist verteilt nach
1
falls 1 ≤ j < n − 1
n
P (C = j) =
2
falls
j =n−1
n
Intuitiver mit Zgn geschrieben,
D
Xn = Xn−1 + Cn .
D
Hierbei hat X· die Verteilung ν· und das Zeichen = steht für Gleichheit der Verteilungen von Zgn.
Lemma 1.13.2 Die Verteilung von An : Πn → IN0 unter der Gleichverteilung auf Πn ist gegeben
durch νn .
81
Uwe Rösler
SS12
1.13
Sortieralgorithmen
D
Beweis: Wir beweisen das Lemma durch Induktion nach n. Der Induktionsanfang ν1 = A1 = 0 ist
erfüllt. Wir zeigen den Induktionsschritt von n − 1 nach n. Die Zgn An auf Πn erfüllt
D
An = A(ϕn,1 ) + Zn .
Hierbei sind die Zgn A(ϕn,1 ), Zn = (ϕn,2 )∧(n−1) unabhängig. Die Verteilung von Zn ist diejenige
von C = Cn wie oben angegeben. Die Verteilung von A(ϕn,1 ) ist nach Induktionsvoraussetzung
νn−1 . Das wars.
q.e.d.
Die Analyse für den Erwartungswert an = EXn = EAn beruht auf der Rekursion
an = an−1 + ECn .
Es gilt ECn =
n
2
+
1
2
− n1 . Damit
an =
n
X
j=2
ECj =
n
n
X
1 1
n(n + 3) X 1
j
−
.
( + − )=
2 2 j
4
j
j=1
j=2
Höhere Momente lassen sich ebenfalls einfach berechnen. Zum Beispiel die Varianz bn = VarXn
erhalten wir aus der Rekursion
bn = bn−1 + VarCn .
Die Rekursion ergibt sich aus
D
Xn − an = Xn−1 − an−1 + Cn − ECn .
Asymptotische Verteilung
Satz 1.13.3 Die asymptotische Verteilung von standardisiertem Insertionsort ist die Normalverteilung.
Pn
Bew: An hat eine Verteilung, die wir als Summe k=1 Ck von unabhängigen Zgn darstellen können.
Die Verteilung von Ck ist die gleichmäßige auf {1, . . . , k}. Der Erwartungswert von Ck ist k+1
2 und
Pi
2
.)
Die
Varianz
von
An ist
die Varianz ist k 12−1 . (Verwende die Identität j=1 j 2 = n(n+1)(2n+1)
6
n(n+1)(2n+1)
.
12
Betrachte das Schema ((Cn,k )nk=1 )n mit Cn,k := Ck . Die Summe der n-ten Zeile hat die Verteilung
von An . Dieses Schema ist unabhängig. Dieses Schema standardisieren wir
Ck − ECk
∗
Cn,k
:= √
.
VarAn
Die Behauptung folgt aus dem Satz 1.11.20 von Lindeberg, wenn wir die Lindeberg-Bedingung
gezeigt haben.
n
X
∗
∗ |≥ ) →n 0.
Ln () =
E((Cn,k
)2 11|Cn,k
k=1
Ln () ist 0 für n hinreichend groß, da |Ck − ECk | durch k ≤ n beschränkt ist und die Normierung
√
VarAn wie n3/2 wächst.
q.e.d.
Große Abweichungen
Satz 1.13.4 Für die Laufzeit An von Mergesort gilt
a
P (|An − EAn | ≥ a) ≤ 2e− 4c
mit c =
n(n−1)(2n−1)
.
192
82
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Beweis: Die Hoeffding Abschätzung 1.8.3
Eeλ(Ck −ECk ) ≤ e
liefert
Eeλ(An −EAn ) =
n
Y
2
λ2 (k−1)
8
2
)
λ2
Pn−1
Eeλ(Ck −ECk ) ≤ e 32
k=0
k2
k=1
Damit erhalten wir
2
Eeλ(An −EAn )
≤ ecλ −λa
λa
e
a
für alle λ ≥ 0 und c wie oben. Das beste λ erfüllt λ = 2c
. Dies ergibt die Aussage.
P (An − EAn ≥ a) ≤
1.13.3
q.e.d.
Mergesort
Der Algorithmus Mergesort sortiert eine Menge von Objekten mit einer Ordnungstruktur. Der
n
Einfachheit halber bestehe die Eingabe x ∈ IR6=
aus n unterschiedlichen reellen Zahlen. Die Ausgabe S(x) besteht aus den geordneten Zahlen der Eingabe.
Mergesort:
(i) Teile die Liste in zwei etwa gleich große Listen auf.
(ii) Sortiere jede dieser Listen durch rekursiven Aufruf.
(iii) Merge die beiden sortierten Listen.
Das Ineinandersortieren (=merge) von zwei Listen geschieht nach folgendem Verfahren.
Merge:
(i) Vergleiche die jeweils größte (kleinste) Zahl der Listen.
(ii) Die größere (kleinere) entferne aus der Liste und speichere sie in einer Zielliste (geordnet)
ab.
(iii) Benutze rekursiv Merge bis eine der Listen leer ist.
Der Algorithmus terminiert mit der Ausgabe einer geordneten Liste.
Dies ist die rekursive Beschreibung. Die iterative (=rechnergerechte) Durchführung geschieht
umgekehrt. Zuerst werden Zweierlisten gebildet, dann Viererlisten, dann Achterlisten usw. Die
Programmierung dieses Algorithmus ist nach folgendem Bild für n = 16 einfach.
r
r
r
r
r
r
r
r
r
6
6
C6
C6
1,1 6 C1,2
1,3 6
C2,1
C2,2
6
C3,1
r
r
6
r
r
6
r
r
6
6
r
6
6
6
6
C4,1
Vorbetrachtung: Die Laufzeit des Algorithmus wird im wesentlichen bestimmt durch die Anzahl
n
A(x) der zur Sortierung benötigten Abfragen bei einem Input x =∈ IR6=
von verschiedenen Zahlen.
Schlüssel zur Analyse ist die Rekursion
A(x) = A(l(x)) + A(r(x)) + Z(x).
83
(1.15)
Uwe Rösler
SS12
1.13
Sortieralgorithmen
Hierbei bezeichnet l(x) = (x1 , . . . , xdn/2e ) die linke Liste und r(x) = (xdn/2e+1 , . . . , xn ) die rechte
und Z(x) die Anzahl der benötigten Abfragen zum Ineinandersortieren der sortierten Listen aus
dem Input a(x) und aus b(x).
Wir haben eine teile-und-herrsche (divide-and-conquer) Situation. Die rekursive Gleichung 1.15
dient als Definition für A, sofern Z wohldefiniert ist.
Das Ineinandersortieren wird rekursiv erklärt. Eine geordnete Liste der Länge n ≥ 0 ist ein Element
n
x ∈ IR6=
mit strikt aufsteigenden Koordinaten. Hierbei ist konventionell IR0 = {∅} gesetzt. Sei
L, Ln die Menge aller geordneten Listen bzw. der Listen der Länge n. Betrachte die Mergefunktion
Zs,t : Ls × Lt → IN0 rekursiv definiert durch
Zs−1,t (x− , y) falls xs ≥ yt
Zs,t (x, y) = 1 +
Zs,t−1 (x, y − ) falls xs < yt
mit x ∈ IRs , y ∈ IRt , x− = (x1 , . . . , xs−1 ), y − = (y1 , . . . , yt−1 ) für s, t ≥ 1 und den Anfangsbedingungen Zs,t = 0 falls s = 0 oder t = 0. Zs,t ist wohldefiniert.
Zu x ∈ IRn sei S(x) der Vektor der der Größe nach geordneten Komponenten von x. Dann definiere
Z(x) := Zd n2 e,b n2 c (S(l(x)), S(r(x))).
Worst case analysis:
Zum Ineinandersortieren von zwei Listen der Längen s, t benötigen wir im ungünstigsten Fall
s + t − 1 Vergleiche. Sei
Xn = sup A(x).
|x|=n
Xn erfüllt die rekursive Abschätzung
Xn ≤ Xdn/2e + Xbn/2c + n − 1.
Hieraus ergeben sich obere Abschätzungen
An ≤ n log2 n
für n = 2m ,
m
X
X2∗m−1
X2m
≤
+ 1 − 2−m ≤
(1 − 2−i ) = m − 1 + 2−m−1 .
m
m−1
2
2
j=1
Best case analysis:
Im besten Fall benötigen wir zum Ineinandersortieren zweier Listen der Länge s, t mindestens s ∧ t
Vergleiche. Sei
Xn = inf A(x).
|x|=n
Xn erfüllt die rekursive Abschätzung
Xn ≥ Xdn/2e + Xbn/2c + bn/2c.
Hieraus ergeben sich untere Abschätzungen
n
log2 n ≤ An
2
für n = 2m ,
m
X2m
X2m−1
1 X1
m
≥ m−1
+ ≥
= .
m
2
2
2 j=1 2
2
84
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Average Case:
Sei R die Rangfuntion. Durch Induktion läßt sich leicht zeigen
M (x) = M (R(x))
Z(x) = Z(R(x)).
Anstelle von allgemeinen Listen reicht es Permutationen zu betrachten.
Mathem. Modell: Der Input ist eine zufällige Permutation der Länge n mit Gleichverteilung.
Sei Πn der Raum der Permutionen auf 1 bis n versehen mit der Gleichverteilung µn . Betrachte
An : Πn → IN0 , An (π) = A(π) als Zg. Es gilt die Rekursion, wir unterdrücken in der Schreibweise
π ∈ Πn ,
An = Ad n2 e (R(l)) + Ab n2 c (R(r))) + Zn
mit Z = Zd n2 ,b n2 c (S(l)), S(r)).
Wir benötigen folgendes Lemma.
Lemma 1.13.5 Seien n = s + t natürliche Zahlen. Sei l die Projektion von IRn auf die ersten s
Koordinaten, r auf die letzten t Koordinaten. Die Zgn
Rl : Πn → Πs
Rr : Πn → Πt
Sl : Πn → IRs
auf (Πn , µn ) sind unabhängig. Ferner die Verteilungen von Rl und Rr ist die Gleichverteilung.
Die Verteilung von Zs,t : Πn → IN0 wird gegeben durch
z−1
z−1
t−1 + s−1
P (Zs,t = z) = 11s∧t≤z≤s+t−1
s+t
s
EZs,s
=
Var(Zs,s )
=
2s2
s+1
2s2 (s − 1)
<2
(s + 1)2 (s + 2)
Bew: Betrachte die Abbildung ϕs,t = ϕ : Πn → Πs × Πt × {A ⊂ {1, 2, . . . , n} | |A| = s} definiert
durch ϕ(π) = (R(l(π)), R(r(π)), {π1 , . . . , πs }).
• ϕ ist bijektiv. Aus der Kenntnis von ϕ1 (π) und ϕ3 (π) können wir die ersten s Koordinaten
von π eindeutig bestimmen und aus der Kenntnis von ϕ2 (π) und der verwendeten Symbole
{1, . . . , n}\ϕ3 (π) die restlichen Koordinaten. Damit ist ϕ injektiv. Die Surjektivität folgt demselben Weg.
Die gleichmäßige Verteilung µn auf Πn (Laplaceraum) entspricht dem Ziehen aus einer Urne mit
n Kugeln ohne Zuruecklegen in Reihenfolge. Das von ϕ1 (ϕ2 , ϕ3 , a, b, transportierten Maß ist die
Gleichverteilung auf dem Bild unter der Abbildung. Wir haben einen Laplaceraum. Explizit, die
W-keiten sind
1
1
1
P (ϕ1 = ·) =
P (ϕ2 = ·) =
P (ϕ3 = ·) = n
s!
t!
s
für · aus dem Bildraum. Eine Rechnung zeigt die Unabhängigkeit,
P (ϕ = (τ, ρ, A)) =
1 1 1
1
= P (ϕ1 = τ )P (ϕ2 = ρ)P (ϕ3 = A).
=
n!
s! t! ns
Der Rest ist abzählen.
P (Zs,t ≤ s + t − r) = 111≤r≤s+t−s∧t
und nachrechnen.
s+t−r
s−r
s+t
s
+
s+t−r
s
s+t
s
!
q.e.d.
Rekursion: Definiere eine rekursive Folge von Verteilungen νn , n ∈ IN0 auf IN0 durch ν0 , ν1
das Punktmaß auf 0 und rekursiv νn ist die Verteilung von X + X + C. Hierbei sind X, X, C
85
Uwe Rösler
SS12
1.13
Sortieralgorithmen
unabhängig. Die Verteilung von X und X wird rekursiv durch νd n2 e , µb n2 c gegeben. Die Verteilung
von C = Cn ist diejenige von Zn = Zd n2 e,b n2 c . Intuitiver mit entsprechender Notation
D
Xn = Xd n2 e + X b n2 c + Cn
(1.16)
D
2 ≤ n ∈ IN, (Xi = µi .)
Lemma 1.13.6 Unter der Annahme einer zufälligen Permutation der Länge n mit Gleichverteilung als Input von Mergesort, ist νn die Verteilung von Mergesort An : Πn → IN0 .
Bew: Wir führen eine Induktion über n und zeigen nur den Induktionsschritt n − 1 nach n. Die
Rekursionsgleichung für Mergesort lautet
An = Ad n2 e (R(l)) + Ab n2 c (R(r))) + Zn .
mit Zn = Zd n2 ,b n2 c (S(l)), S(r)). Die 3 Zgn auf der rechten Seite sind unabhängig voneinander,
Lemma 1.13.5. (Beachte, bei Kenntnis von Sl auf Πn kennen wir auch Sr, da genau die Zahlen 1
bis n einmal als Koordinate von Sl oder Sr auftreten.) Die Verteilung der ersten beiden ist laut
Induktionsannahme νd n2 e , µb n2 c . Die dritte Zg Zn hat dieselbe Verteilung wie Cn . Damit ist die
Verteilung von An eindeutig bestimmt und identifiziert als νn .
q.e.d.
Erwartungswerte: Der einfachheit halber betrachten wir nur n = 2m als Zweierpotenzen. Aus
der Schlüsselgleichung ergibt sich eine rekursive Gleichung
a2n = 2an + EC2n
für die Erwartungswerte an = EAn . Mit bm =
a2m
2m
und b0 = 0 erhalten wir
m
bm+1
= bm +
=
2
m
X
i=0
X EC2i+1
EC2m+1
=
.
.
.
=
2m+1
2i+1
i=0
m
X
2i
1
=
2(m
+
1)
−
.
i
i
2 +1
2 +1
i=0
P∞
Damit EAn ≤ 2n log2 n und etwas genauer EAn = n log2 n − cn + o(n) mit c := i=0 2i1+1 .
Bem: Der Abschnitt über Anfänge der Informationstheorie liefert eine untere theoretische Schranke für die erwartete Laufzeit für jeden Sortieralgorithmus. Diese Schranke ist ln2 n! = n log2 n −
n log2 e + o(n). Mergesort liegt sehr dicht bei dieser Schranke.
Bsp: Varianz Aus der rekursiven Gleichung lassen sich Momente berechnen. Für die Varianz
ergibt sich beispielsweise aus
D
X2n − a2n = Xn − an + X n − an + C2n − EC2n
die Rekursion
VarX2m+1 = 2VarX2m + VarC2m+1 .
Diese läßt sich leicht lösen und liefert die Größenordnung c n + o(n) mit c eine Konstante für die
Varianz von An , n eine Zweierpotenz. Hieraus ergeben sich die Abschätzungen
P (An − EAn ≥ a) ≤
cn + o(n)
VarAn
=
.
a2
a2
Asymptotische Verteilung:
Wir betrachten nur Zweierpotenzen n = 2m von n.
Satz 1.13.7 Die asymptotische Verteilung von standardisiertem Mergesort ist die Normalverteilung.
86
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
In Formeln,
An − EAn d
A∗n := √
→m Φ
VarAn
oder als gleichmäßige Aussage formuliert,
sup |P (a ≤ A∗n ≤ b) − Φ(b) + Φ(a)| →m 0.
a,b
Bew: Mit einer entsprechenden Indizierung (alle C-Zgn sind unabhängig und die Verteilung von
Cm,· ist Zn,n mit n = 2m ) A2m = Sm in dem obigen Bild erhalten wir aus der Rekursion 1.16
S1
=
S2
= C2,1 + C1,1 + C1,2
C1,1
(1.17)
(1.18)
S3
= C3,1 + C2,1 + C2,2 + C1,1 + C1,2 + C1,3 + C1,4
(1.19)
...
Sm
=
(1.20)
m−j
m 2X
X
Cj,i .
(1.21)
j=1 i=1
m−j
≤k<
Sm ist die Zeilensumme von einem Schema ((Xm,k )m
k=1 )m∈IN (Setze Xm,k = Cj,i mit 2
m−j
m−j
22
, i = k−2
+ 1) von Zgn. Dieses Schema ist unabhängig. Dieses Schema standardisieren
wir
Xn,k − EXm,k
∗
√
.
Xm,k
:=
VarSm
Die Behauptung folgt aus dem Satz 1.11.20 von Lindeberg, wenn wir die Lindeberg-Bedingung
gezeigt haben.
m−j
Lm ()
=
m 2X
X
E((
j=1 i=1
=
m
X
2m−j E((
j=1
=
m0
X
(Cj,i − ECj,i )2
11|Cj,i −ECj,i |>√VarSm )
VarSm
m
X
... +
j=1
(Cj,1 − ECj,1 )2
11|Cj,1 −ECj,1 |>√VarSm )
VarSm
...
j=m0 +1
für ein m0 ∈ IN. Den zweiten Term schätzen wir grob ab durch
≤
m
X
j=m0 +1
2m−j
m
X
VarCj,1
≤c
2−j ≤ c2−m0 .
VarXm
j=m +1
0
Dieser Term wird beliebig klein für m0 hinreichend groß gleichmäßig in m.
Der erste Term ist 0 für m hinreichend groß, da Cj,1 beschränkt ist für j ≤ m0 und VarXm mit
m gegen ∞ konvergiert.
q.e.d.
Bemerkung: Ist n keine Zweierpotenz, so bleiben alle Argumente grundsätzlich bestehen, die
Rechnungen werden unschön.
Z.B. das Varianzverhalten wird folgendermaßen beschrieben [15]: Es gibt eine gleichmäßig stetige
Funktion f : [0, 1] → IR mit
VarMn
n − 2m − f(
) →n 0
n
2m
mit 2m ≤ n < 2m+1 [29]. f ist minimal genau an den Stellen 0 und 1. (Dies entspricht einer 2-er
Potenz von n.) Die Konvergenz gegen die Normalverteilung bleibt bestehen.
87
Uwe Rösler
SS12
1.13
Sortieralgorithmen
Große Abweichungen:
Satz 1.13.8 Für n eine 2-er Potenz gilt für die Laufzeit von Mergesort
4a2
P (|An − EAn | ≥ a) ≤ 2e− n2 .
Beweis: Sei n = 2m . Die Hoeffding Abschätzung 1.8.3 liefert
m−j
λ(Xm −EXm )
Ee
=
m 2Y
Y
Eeλ(Cj,i −ECj,i ) ≤
j=1 i=1
=
e
λ2
32
Pm
j=1
m
Y
(e
λ2 (2j−1 )2
8
m−j
)2
j=1
2m+j
≤e
λ2
16
2m
2
Damit erhalten wir
2 n2
Eeλ(An −EAn )
≤ eλ 16 −λa
λa
e
für alle λ ≥ 0. Das beste λ erfüllt λn2 = 8a. Dies ergibt die Aussage.
P (An − EAn ≥ a) ≤
1.13.4
q.e.d.
Quicksort
Wir führen eine ausführliche Analyse des Sortieralgorithmus Quicksort durch. Dieser wurde
1961 von Hoare [24] veröffentlicht. Zur Bedeutung sei angeführt, daß das Betriebssystem UNIX
Quicksort implementiert hat (in der Version, für den Vergleich den Median der drei Zahlen auf
den Listenplätzen, erster, letzter und mittlerer, zu nehmen).
Der Algorithmus Quicksort sortiert Objekte mit einer totalen Ordnungsstruktur. Der Einfachn
heit halber bestehe die Eingabe x ∈ IR6=
aus n unterschiedlichen reellen Zahlen. Die Ausgabe S(x)
besteht aus den geordneten Zahlen der Eingabe.
Quicksort:
(i) Wähle zufällig mit Gleichverteilung eine dieser Zahlen aus, genannt das Pivotelement.
(ii) Bilde die Liste der strikt kleineren und der strikt größeren Zahlen als das Pivotelement.
(iii) Speichere diese Listen mit dem Pivotelement in der Mitte in dieser Reihenfolge ab.
(iv) Rufe rekursiv den Algorithmus für die Teillisten mit mehr als einem Element auf.
Das Ergebnis ist eine geordnete Liste. Da die Kardinalität der Mengen stets echt kleiner wird,
endet dieser Algorithmus in endlicher Zeit.
Algorithm 64 für schnelles Sortieren von Hoare 1961
37
10
-55
-55
1070
12
7
7
77
7
10
10
3873
-55
12
12
-55
19
19
19
u
19
3873
37
37
93518
93518
77
77
u
u
u
u u u
u
7
77
93518
3873
12
1070
1070
93518
u
u
10
37
3873
1070
u
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
88
zufällige Zahl
19
7 7
10 37 93518
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Das letzte Bild zeigt die Durchführung abstrakt als Prinzip.
In der praktischen Durchführung geschieht die Umordnung innerhalb der Liste selbst. Nach der
Auswahl des zufälligen Elementes suchen wir von links startend das erste Element echt größer als
das zufällige. Von rechts startend suchen wir das erste echt kleinere. Dann vertauschen wir diese
beiden und fahren mit der Suche fort.
Wenn sich beide Suchzeiger treffen, wird das zufällige zwischen die Liste der strikt kleineren und der
Liste der strikt größeren Zahlen gespeichert. (Das Pivotelement selbst stört etwas dieses Schema.
Genauer: Verfahre wie oben beschrieben, wobei der Platz des Pivotelementes unberücksichtigt
bleibt bis die Zeiger sich treffen. Dann sortiere das Pivotelement entsprechend ein.)
In einer weiteren Liste werden die Adressen der Listenanfänge gespeichert. Der benötigte zusätzliche Speicherraum ist von der Größenordnung O(ln n).
?
?
6
??
6
Problemstellung: Wir sind an der zufälligen Laufzeit des Algorithmus Quicksort interessiert.
Die Laufzeit ist proportional zu der Anzahl der vollzogenen Operationen. In unserem Fall ist die
Laufzeit hauptsächlich bestimmt durch die Anzahl A(x) der benötigten Vergleiche zur Sortierung
der Liste x, zumindest proportional dazu. Da wir einen internen Zufall haben, ist A(x) eine Zg.
Für eine Liste der Länge n benötigen wir n − 1 Vergleiche für die Aufspaltung, und dann noch die
∗
Vergleiche zur Sortierung der verbleibenden Listen. Die Rekursion für die Zgn A(x), x ∈ IR6=
=
∞
n
∪n=0 IR6= , wir unterdrücken das ω, lautet
A(x) = A(l(x)) + A(r(x)) + n − 1,
(1.22)
|x| ≥ 2. Hierbei bezeichne l(x) die linke Liste nach dem Vergleich und r(x) bezeichne die rechte
Liste. Die Zgn A(l(x)) und A(r(x)) sind abhängig vom Input l(x), r(x) und dem internen Zufall.
Gegeben l(x), r(x) sind die Zgn unabhängig. Die Zgn A(x) und A(x) haben dieselbe Verteilung.
Die Anfangswerte sind A(x) = 0 für |x| ≤ 1.
Nun zu einer sauberen Definition der Objekte. (Bitte beim ersten Lesen überschlagen.)
Mathematisches Modell∗ : Wir benutzen die stochastische Version von Quicksort mit internem
Zufall.
– Als Pivotelement wird ein mit Gleichverteilung zufällig gezogenes Listenelement genommen.
– Das Ziehen der Pivotelemente ist für verschiedene Listen unabhängig voneinander.
Definiere die Abbildung ψ
ψ
|x|−j
j
n
∪∞
n=1 (IR6= × {1, . . . , n}) 3 (x, i) 7→ (l(x, i), r(x, i)) ∈ IR6= × IR6=
× {0, 1}
rekursiv mit den Anfangswerte l(x, 1) = ∅ = r(x, 1) für |x| = 1. Sei |x| = n ≥ 2, j der Rang Ri (x)
der i-ten Komponente von x, y = y(x) ∈ IRn gegeben durch

 xl falls l 6= i, j
xi
l=j .
yl =

xj
l=i
und τ := inf{k ≤ j | yk > yj }, σ = sup{k ≥ j | yk ≤ yj }. Setze rekursiv
l(x, i) = (y1 . . . , yj−1 )
r(x, i) = (yj+1 , . . . , yn )
für τ = σ und anderenfalls
l(x, i) = (y1 , . . . , yτ , l(z, i − τ ))
r(x, i) = (r(z, i − τ ), yσ , . . . , yn )
89
Uwe Rösler
SS12
1.13
Sortieralgorithmen
mit z = (yτ + 1, . . . , yσ−1 ). Damit ist ψ wohldefiniert. Beachte die Beziehungen für die Rangfunktion R
R(l(R(·), i) = R(l(·), i))
R(r(R(·), i)) = R(r(·), i)).
n
Seien U (x), x ∈ ∪∞
n=0 N6= unabhängige Zgn mit U (x) hat eine Gleichverteilung auf {1, . . . , |x|}.
Definiere Zgn A(x) rekursiv durch
A(x) = A(l(x, RU (x) (x))) + A(r(x, RU (x) (x))) + |x| − 1
für |x| ≥ 2 und den Anfangsbedingungen A(x) = 0 für |x| = 0 oder 1. R ist die Rangfunktion.
Die beiden Zgn A(l(x, j)), A(r(x, j)) gegeben j = RU (x) (x))) sind unabhängig. Die oben verwendete Zg l(x) ist l(x, RU (x) (x)) und r(x) ist r(x, RU (x) (x)). Damit erfüllt A die Gleichung 1.22 für
kleineren Definitionsbereich. (Übung: Weshalb ist dies unerheblich?.)
Wir fahren auschließlich fort mit der Gleichung 1.22.
Proposition 1.13.9 Die Verteilung von A(x) hängt nur von der Listenlänge n = |x| ab.
Bew: Wir führen eine Induktion über die Listenlänge |x| = n. Der Induktionsschritt n − 1 nach n
ergibt sich aus
A(x) = A(l(x)) + A(r(x)) + n − 1.
Die Listenlänge von l(x) und r(x) ist strikt kleiner als n. Die Verteilung der rechten Seite ist
unabhängig von x und daher die linke.
q.e.d.
Sei νn die Verteilung von A(x) mit |x| = n ∈ IN0 . Die Folge νn , 2 ≤ n ∈ IN erfüllt die rekursive
Schlüsselgleichung,
d
An = AIn −1 + An−In + n − 1
(1.23)
n ∈ IN . Die Zgn Ai , Aj , In , i, j < n sind unabhängig. Die Verteilung von In ist eine gleichmäßige
Verteilung auf den Zahlen 1 bis n. Die Verteilung der Ai undAi ist gleich und rekursiv durch νi
(1.13.10) für i < n gegeben. Die Anfangswerte ν0 , ν1 sind die Punktmaße auf 0.
Proposition 1.13.10 Die Folge νn , n ∈ IN0 ist eindeutig durch die Rekursion bestimmt.
Bew: Der Beweis ist eine Induktion nach n. Wir überschlagen dies.
q.e.d.
Worst Case:
Der Wert der Zgn An für gegebene Listenlänge n ist beschränkt durch die folgenden zwei Extremwerte.
Im ungünstigsten Fall ist die zufällig gewählte Vergleichszahl stets die kleinste (oder größte). Dann
haben wir trotz der Abfragen nur wenig weitere Information gesammelt. Zum Abstieg vom ersten
Level zu dem zweiten benötigen wir n − 1 Vergleiche, vom zweiten zum dritten n − 2, dann n − 3
usw.
Insgesamt ergeben sich n(n − 1)/2 benötigte Vergleiche. Dieses ist tatsächlich der ungünstigste
Fall. (Der formale Beweis wird durch Induktion mit der Schlüsselgleichung erbracht.)
n−1
n−2
n−3
r
rr
rrr
90
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Best Case:
Am günstigsten ist es, wenn die Liste in zwei gleich lange Listen aufgeteilt wird. Nehmen wir an,
wir teilen zufällig die Listen stets in (fast) gleich lange Teillisten. Dann benötigen wir ungefähr
ln2 n Level, und auf jedem Level haben wir rund n Abfragen.
n − 21 + 1
r
n − 22 + 1
r
r
r
n − 23 + 1
r
r
r
r
r
r
r
rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr
Genauer ergeben sich ndln2 ne − 2dln2 ne + dln2 ne ≈ n ln2 n Abfragen. (Wir haben hier den günstigsten Fall beschrieben. Der Nachweis dieser Behauptung wird durch Induktion mit der Schlüsselgleichung gezeigt.)
Insgesamt ergeben sich die Grenzen n ln2 n − n ≤ An ≤ n2 /2 für eine Liste der Länge n. Eine
Laufzeit von n2 /2 ist sehr schlecht und unakzeptabel. Wir werden zeigen, daß diese nur sehr selten
eintritt.
Average case:
Sei an := EAn der Erwartungswert, eine Liste der Länge n mit Quicksort zu sortieren. Es gilt
die Rekursionsformel a0 = 0, a1 = 0
an = n − 1 +
n
X
1
(ai−1 + an−i ).
n
i=1
Hieraus erhalten wir durch eine Variablentransformation an = n − 1 +
Rechnung die Rekursionsformel
2
n
Pn−1
i=0
ai und nach etwas
an
an−1
2(n − 1)
=
+
.
n+1
n
n(n + 1)
Durch rekursive Anwendung dieser Formel erhalten wir
an = 2
n+1
X
i=1
1
2
+
− 4.
i
n+1
Daher ist der Erwartungswert der Quicksortlaufzeit an = E(An ) approximativ
E(An ) = 2n ln n + n(2γ − 4) + 2 ln n + 2γ + 1 + O(n−1 ln n)
mit γ = 0.57721 . . . die Euler Konstante, siehe Knuth [25].
Für jeden Sortieralgorithmus ist der erwartete Wert der Vergleiche, unter Annahme einer Gleichverteilung auf dem Raum der Listen (Permutationen), nach unten beschränkt durch ln2 n! ≈
ln2 n − n + o(n), siehe Abschnitt 1.14.
Verteilungsanalyse:
Definiere
An − E(An )
.
n
(Die Varianz von An ist von der Größenordnung cn2 .)
Die Quicksort-Rekursionsgleichung (1.13.10) schreibt sich um zu
Qn :=
D
Qn = QIn −1
In − 1
n − In
+ Qn−In
+ Cn (In )
n
n
91
(1.24)
Uwe Rösler
SS12
1.13
Sortieralgorithmen
n ≥ 2 mit
n−1
1
+ (E(Ai−1 ) + E(An−i ) − E(An )) .
(1.25)
n
n
Lassen wir jetzt n gegen unendlich laufen. Es läßt sich zeigen, und sei vorausgesetzt,
• In /n konvergiert schwach gegen eine gleichförmige verteilte Zg U auf dem Einheitsintervall.
• Cn (n · In /n) konvergiert geeignet gegen C(U ) mit
Cn (i) =
C(x) := 2x ln x + 2(1 − x) ln(1 − x) + 1,
x ∈ [0, 1]
• Qn konvergiert schwach gegen eine Zg Q.
Unter diesen Voraussetzungen erwarten wir für Q eine Gleichung der Form
D
Q = QU + Q(1 − U ) + C(U ),
(1.26)
D
mit U, Q, Q unabhängig, Q = Q.
Wir zeigen jetzt mit einem Fixpunktargument, daß es eine Verteilung bzw. Zg Q gibt, die (1.26)
erfüllt.
Kontraktionsmethode:
(Dieser Abschnitt benutzt nichtdiskrete Maße.)
R
Auf dem Raum M der W-Maße auf IR mit endlichem zweiten Moment |x|2 µ(dx) sei d die
Mallows d2 -Metrik,
d(µ, ν) = inf kX − Y k2 .
Das Infimum ist über alle Zgn X, Y mit Verteilung µ, ν.
Bemerkung: Der Raum (M, d) ist ein vollständiger, separabler metrischer Raum [18]. Das
Infimum wird angenommen durch X = Fµ−1 (U ), Y = Fν−1 (U ), mit U eine gleichmäßige Verteilung
und Fµ , Fν die Verteilungsfunktionen
R von µ, ν.
Sei M0 die Menge aller µ ∈ M mit xµ(dx) = 0. Wir betrachten die Abbildung K : M0 7→ M0 ,
D
K(µ) := U X + (1 − U )X + C(U ).
(1.27)
Hierbei sind X, X, U unabhängige Zgn auf einem beliebigen W-Raum. U ist gleichmäßig auf dem
Einheitsintervall verteilt. Die Verteilung von X und X ist µ. Die Abbildung K ist wohldefiniert.
Sie ist unabhängig
von der Wahl des W-Raumes und der Wahl der Zgn. Weiterhin gilt K(µ) ∈ M0
R
wegen xK(µ)(dx) = 0 und
Z
1/2
x2 K(µ)(dx)
= kU X + (1 − U )X + C(U )k2 ≤ 2kXk2 + kC(U )k2 < ∞.
Lemma 1.13.11 (Kontraktionslemma)
Seien µ, ν ∈ M quadratintegrierbar und besitzen dasR
R
selbe erste Moment xdµ(x) = xdν(x). Dann gilt
r
2
d(K(µ), K(ν)) ≤
d(µ, ν).
3
Beweis: Wir wählen die Zg U X + (1 − U )X + C(U ) für die Verteilungen K(µ) und U Y + (1 −
U )Y + C(U ) für die Verteilung K(ν). Hierbei sind U, (X, Y ), (X, Y ) unabhängige Zgn.
Die Zg U hat eine gleichmäßige Verteilung auf dem Einheitsintervall. Die Verteilung von X und
d
d
X ist µ, X = µ = X.
Ferner gilt d( µ, ν) = kX − Y k2 = kX − Y k2 . Dies ist möglich. (Weshalb?) Dann gilt
d2 (K(µ), K(ν))
≤ kU X + (1 − U )X + C(U ) − U Y − (1 − U )Y − C(U )k22
= kU (X − Y ) + (1 − U )(X − Y )k22
= EU 2 E(X − Y )2 + E(1 − U )2 E(X − Y )2
= 32 d2 (µ, ν)
92
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Theorem 1.13.12 Jede Folge M0 3 µ, K(µ), K(K(µ)) = K 2 (µ), K 3 (µ) . . . für quadratintegrierbare W-Maße µ ∈ M2 konvergiert exponentiell schnell gegen einen Fixpunkt. Der Fixpunkte von
K ist eindeutig.
R
R
Beweis:
Die Folge K n (µ) ist eine Cauchyfolge. Die Erwartungswerte xµ(dx) = xK(µ)(dx) =
R
xK n (µ)(dx) sind alle gleich. Eine Anwendung des vorhergehenden Lemmas ergibt für m ≤ n,
Pn−1
d(K m (µ), K n (µ)) ≤ j=m d(K j (µ), KK j+1 (µ))
m/2
Pn−1 j/2
d(µ, K(µ)) ≤ 3 23
d(µ, K(µ)) →m 0
≤ j=m 32
Die Cauchyfolge K n (µ) konvergiert exponentiell
schnell inR d-Metrik gegen einen Grenzwert µ∞ .
R
Dies W-Maß hat denselben Erwartungswert xµ∞ (dx) = xµ(dx) wie das Ausgangsmaß µ.
Das Grenzmaß µ∞ ist ein Fixpunkt µ = K(µ),
d(µ∞ , K(µ∞ )) = d(µ∞ , K n (µ)) + d(K n (µ), K(µ∞ )) →n 0.
• Eindeutigkeit
R
R
Seien ν, ρ zwei Fixpunkte mit demselben Erwartungswert xdν = xdρ.
Es gilt
d(ν, ρ) = d(K(ν), K(ρ)) < d(ν, ρ).
Nachdem wir den Fixpunkt kennen, bestätigen wir unsere Heuristik durch Rechnerei.
Theorem 1.13.13 Die Verteilung von Qn konvergiert in der Mallows d-Metrik gegen den eindeutigen Fixpunkt µ∞ von K.
Siehe [27].
Eine Konsequenz des obigen Satzes ist die Markoffabschätzung
P (|An − EAn | ≥ EAn ) ≤ n2
VarAn
VarQn
.
≈
2
E An
4 ln2 n
Die Varianz von Qn konvergiert gegen die Varianz von Q, die sich aus der Fixpunktgleichung
(1.26) berechnet,
Z 1
Var(Q) = 3
C(x)2 dx = 7 − 2/3π 2 .
0
Große Abweichungen:
Bemerkung: Die tatsächliche W-keit schlechten Laufverhaltens ist wesentlich kleiner, mindestens
const(a)
P (|An − EAn | ≥ EAn ) ≤
na
für jedes a ≥ 0.
Vergleich mit Heapsort: Heapsort, der größte Konkurrent von Quicksort neben Mergesort, benötigt höchstens 4n ln n Abfragen. Trotzdem ist Quicksort vorzuziehen, da Simulationen
in der Regel schnellere Laufzeiten von Quicksort zeigen. Dies liegt an der einfachen rekursiven
Struktur von Quicksort.
Im Erwartungswert benötigt Quicksort approximativ 2n ln n Vergleiche. Dies ist das normale
Laufverhalten. Wir werden zeigen, ein schlechtes Laufverhalten von Quicksort ist sehr selten.
Hierbei definieren wir schlecht als mehr benötigte Abfragen als die obere Grenze 4n ln2 n von
Heapsort.
Ziel ist es zu zeigen, daß P (An ≥ 4n ln n) klein ist für große n.
Die Tchebycheff Ungleichung liefert, ϕAn ist von der Größenordnung n2 ,
P (An − EAn ≥ 4n ln n) ≤
93
const
VarQn
≈
→n 0.
2
2
ln n
ln2 n
Uwe Rösler
SS12
1.13
Sortieralgorithmen
Bem: In der Praxis werden deterministische Versionen von Quicksort benutzt. (Unix benutzt den
Median des ersten, mittleren und letzten Elementes der Liste.) Wenn wir eine Gleichverteilung
des Inputs auf dem Raum der Permutation der Länge n annehmen, verläuft die Analyse analog.
Die Verteilung von An ist νn wie vorher. Jedoch ist An (x) ein fester Zahlenwert von x abhängig.
In der stochastischen Version wie oben ist An (x) eine Zg mit Verteilung νn für jeden Input x der
Länge n.
Multivariates Quicksort
Zur Laufzeitberechnung hatten wir nur die Anzahl der Abfragen benutzt. Viele andere Rechneroperationen benötigen ebenfalls Zeit. Wir betrachten hier neben den Abfragen A die Anzahl
der Vertauschungen V und die Anzahl der Wiederaufrufe W des Algorithmus. Wir erwarten eine
Rekursion der Form
(A(x), V (x), W (x)) = (A(l(x)), V (l(x)), W (l(x))) + (A(l(x)), V (l(x)), W (l(x))) + (n − 1, v(x), 1)
für |x| ≥ 2. Hierbei bezeichne l(x) die linke Liste nach dem Vergleich und r(x) bezeichne die rechte
Liste und v(x) die Anzahl der Vertauschungen vom übergang von x zu den beiden Teillisten. Die
Zgn (A(l(x)), V (l(x)), W (l(x))), (A(l(x)), V (l(x)), W (l(x))), v(x) sind unabhängig. Die Verteilung
von (A, V, W ) ist dieselbe wie für (A, V , W ). Die Anfangswerte sind (A(x), V (x), W (x)) = 0 für
|x| ≤ 1.
Die mehrdimensionale Analyse erfolgt ähnlich [13]. Vergleiche Neininger, A survey of multivariate aspects of the contraction method. Discrete Mathematics and Theoretical Computer Science.
DMTCS vol 8, 31-56, 2006.
1.13.5
Algorithmus MAX:
Der Algorithmus Max findet das größte Element in einer Menge. Die Eingabe sei (der einfachheit
n
halber) eine Liste x ∈ IR6=
aus n unterschiedlichen reellen Zahlen. Die Ausgabe ist die grös̈te Zahl
in dieser Liste.
Nacheinander werden die Daten x1 , x2 , . . . eingelesen und das Maximum der bisherigen Daten
verglichen mit der neuen Date. Wir sind interessiert an der Anzahl der neuen Rekorde. Die Date
xk heißt neuer Rekord, falls xk > supi<k xi gilt. Der Wert Z(x1 , . . . , xk ) = Zk (x) sei 1, falls xk
ein neuer Rekord ist und ansonsten 0. Z1 wird identisch 1 gesetzt. Die Anzahl der Rekorde ist
P|x|
A(x) =: i=1 Zi (x). Die rekursive Gleichung lautet
A(x) = A(x− ) + Z(x).
(1.28)
Worst case: Aus 0 ≤ Z(x) ≤ 1 erhalten wir 0 ≤ A(x) ≤ |x| − 1.
Average: Es gilt A(x) = A(R(x)) mit R der Rangvektor,
A(R(x)) = A(R(x− )) + Z(R(x)).
(1.29)
Annahme: Der Input ist eine zufällige Permutation der Zahlen 1 bis n mit Gleichverteilung.
Definiere eine Folge νn , n ∈ IN von W-mas̈en rekursiv durch den Anfangswert ν0 , ν1 das Punktmaß
auf 0 und νn , n ≥ 2 wird gegeben durch die Verteilung von X + C mit X, C unabhängig und X
ist νn−1 verteilt und C = Cn ist Bernoulli verteilt mit Parameter 1/n. Intuitiver
D
Xn = Xn−1 + Cn .
Proposition 1.13.14 Die Verteilung von An : Πn → IN0 unter der Gleichverteilung auf den
Permutationen ist νn .
Bew: Der Beweis folgt aus einer Induktion über n. Der Induktionsanfang n = 0, 1 ist erfüllt.
Für den Schluß von n − 1 auf n betrachte die Abbildung ϕn : Πn → Πn−1 × {1, 2, . . . , n} mit
94
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
π 7→ (R(π − ), πn ). In Propostion 1.13.1 haben wir die Unabhängigkeit der Komponenten ϕn,1 , ϕn,2
gezeigt.
In der Rekursion 1.29 ist der erste Term auf der rechten Seite eine Funktion von ϕn,1 , der zweite
eine Funktion von ϕn,2 . Damit sind sie unabhängig. Z hat die geforderte Bernoulli(1/n) Verteilung
und π 7→ A(π − ) hat nach Induktionsvoraussetzung
die Verteilung νn−1 .
q.e.d.
Pn
Z
als
Summe
von
unabhängigen
Zgn
mit
Z
Aus der Rekursion erhalten wir An =
i ist
i=1 i
Pn
Ber(1/i) verteilt. Der Erwartungswert EAn ist die n-te harmonische Zahl Hn := i=1 1i ≈ ln n.
Die Varianz berechnet sich zu
VarAn
Hn (2)
n
X
=
i=1
n
X
=
i=1
VarZi =
n
X
i−1
i2
i=1
= Hn − Hn (2)
π2
1
⇒
ζ(2)
=
.
n
i2
6
Mit der Tschebycheff Ungleichung erhalten wir
ln n
VarAn
≈ 2 .
2
cn
cn
P (|An − EAn | ≥ cn ) ≤
Verteilung:
Proposition 1.13.15
An − EAn
d
A∗n = √
→n→∞ N (0, 1).
VarAn
1
Beweis:
PnSeien Zi , i ∈ IN , unabhängige Zgn und Zi sei Bernoulli verteilt zum Parameter pi = i .
An = i=1 Zi ist die Zeilensumme von dem Schema Xn,k = Zk , k = 1, . . . , n.
Dieses Schema ist unabhängig. Wir standardisieren dies und prüfen die Lindebergbedingung nach.
Ln () =
n
X
E
k=1
Zk − EZk 2
√
11| Z√k −EZk |>
VarAn
VarAn
→n 0.
Ab gewissem n gilt Ln () = 0, da Zk − EZk | ≤ 1 gilt und die Varianz von An gegen ∞ strebt.
Große Abweichung: Das Tailverhalten der Verteilung ergibt sich durch
Proposition 1.13.16
a
P (An − EAn ≥ a) ≤ ea−(EAn +a) ln(1+ EAn ) .
Beweis: Eine einfache Rechnung ergibt EeλZi = 1 +
P (An − EAn ≥ a) ≤
eλ −1
i .
Damit folgt
n
Y
eλ(An −EAn )
eλ − 1
−λa −λEAn
=
e
e
(1
+
)
eλa
i
i=1
≤ e−λa−λEAn
n
Y
e
eλ −1
i
= e−λa−λEAn +(e
λ
−1)EAn
i=1
Dies gilt für alle λ. Der Ausdruck wird minimiert für λ mit eλ =
tung.
95
a+EAn
EAn .
Dies ergibt die Behaupq.e.d.
Uwe Rösler
1.14
SS12
1.14
Anfänge der Informationstheorie
Anfänge der Informationstheorie
Eine Nachricht soll vom Sender zum Empfänger übermittelt werden, und dies in kurzer Zeit.
Dazu wird die Nachricht zuerst kodiert, dann technisch die kodierte Nachricht übermittelt und
anschließend dekodiert dem Empfänger übergeben.
Sender.......¿ Kodieren...... ¿ Übermitteln.........¿ Dekodieren....... ¿ Empfänger.
Durch die Kodieren läßt sich die Nachricht komprimieren und dadurch Zeit sparen. Wenn wir die
Zeit messen als Länge der kodierten Nachrichten und die Nachrichten zufällig entstehen, wollen
wir eine Kodierung mit der kürzesten durchschnittlichen Nachrichtenlänge.
Damit verbunden ist die Frage, wie eine Information quantitativ gemessen wird.
Quellenkodierung
Definition 1.14.1 (Kode) Sei A eine endliche Menge, im folgenden Alphabet genannt und B
eine endliche Menge, im folgenden Kodealphabet genannt. Die Elemente eines Alphabets sind
die Buchstaben.
Ein Kode für das Alphabet A ist eine injektive Abbildung ϕ : A 7→ B ∗ = ∪n∈IN B n des Alphabets
A in die endlichen B-Folgen. Ein Kodebuchstabe ist ein Element aus dem Bild des Kodes.
Ein binärer Kode ist ein Kode mit Kodealphabet {0, 1}.
Erweitere einen Kode ϕ zu einer Abbildung ϕ∗ : A∗ → B ∗ via
ϕ∗ ((a1 , . . . , an )) = ϕ(a1 )ϕ(a2 ) . . . ϕ(an ).
Definition 1.14.2 Eine kodierte Nachricht ist eine Folge ϕ(a1 )ϕ(a2 ) . . . ϕ(an ) von Kodebuchstaben.
(Es wäre natürlich, für kodierte Nachricht auch Kodewort zu benutzten. Leider hat Kodewort
bereits in deutscher Sprache den Sinn eines Kodeschlüssels.)
Definition 1.14.3 Ein Kode heißt Folgenkode, falls die Erweiterung ϕ : A∗ → B ∗ ein Kode ist.
Bsp: Kein Folgenkode Sei a kodiert durch 1 und b durch 11. Dies ist ein binärer Kode, aber
kein Folgenkode. Die kodierte Nachricht 111 kann von ab oder von ba herrühren. Wären die
Kodebuchstaben voneinander getrennt, so kann aus der Injektivität des Kodes die Buchstabenfolge
entschlüsselt werden.
Definition 1.14.4 Ein präfixfreier Kode ist ein Kode, sodaß kein Kodebuchstabe ein Anfangsstück eines anderen Kodebuchstabens ist. Formal, sei v = (v1 , v2 , . . . , vm ) ∈ Am und w =
(v1 , v2 , . . . , vn ) ∈ An . v ist Anfangsstück von w falls m ≤ n gilt und v = w|m := (w − 1, . . . , wm ).
Die Länge von v ∈ Am ist m.
Not: |v| = m.
Die Länge eines Kodebuchstabens oder einer kodierten Nachricht ist analog die Anzahl der Nullen
und Einsen.
Die präfixfreie Eigenschaft garantiert eine kodierte Nachricht, bestehend aus einem String von
kodierten Buchstaben, von links nach rechts sukzessive dekodieren zu können. Im Beispiel oben
führe formal die Trennung als neues Zeichen ein. Dann erhalten wir einen präfixfreien Kode.
Betrachten wir einen binären Kodebaum:
96
Elementare Wahrscheinlichkeitstheorie
SS12
)
u
0
Q
Q
Q
Q
+
s
Qu01
u
00
A
A
A
A
Uu
A
u
AUu
u
Uwe Rösler
u
PPP
PP
PP
PP
qu1
@
@
Ru
@
u
A
A
A
A
AUu
u
AUu
u
Die Knoten tragen die natürliche Indizierung durch diejenige 0-1 Folge, die dem Pfad zur Wurzel
entspricht. Eine Abzweigung nach links entspricht der 0 und eine nach rechts einer 1. Auf dem
Raum der Knoten betrachten wir die genealogische Ordnung v g w mit v ist Anfangstück von
w.
Jeder kodierte Buchstabe entspricht einem Knoten und jeder Knoten repräsentiert maximal einen
Buchstaben untr dem Kode. Präfixfrei bedeutet, auf jedem Pfad von der Wurzel ∅ startend bis
nach ∞ gibt es maximal einen kodierten Buchstaben. Anders formuliert, die Kodebuchstaben
liegen auf den Blättern des Baumes T = {v ∈ IN ∗ | v g w für ein Kodewort w}.
Die Knoten 00, 01, 1 z.B. könnten als Kodierungsbuchstaben eines präfixfreien Kodes dienen. Jeder
präfixfreie Kode ist ein Folgenkode.
Lemma 1.14.5 (Kraft) Die Kodebuchstabenlängen eines binären präfixfreien Kodes ϕ erfüllen
X
2−|ϕ(b)| ≤ 1.
(1.30)
b∈B
P
Umgekehrt, geben wir natürliche Zahlen la für jeden Buchstaben a ∈ A vor und gilt a∈A 2−la ≤
1, dann gibt es einen binären präfixfreien Kode ψ mit Kodebuchstabenlängen |ψ(a)| gleich den
vorgegeben Zahlen la .
Beweis: Wir beweisen das Lemma von Kraft durch Induktion nach der Alphabetlänge |A| = n.
• Kraftungleichung
Für den Induktionsschritt zu (1.30) n → n + 1 seien A0 bzw. A1 die Menge aller Buchstaben a,
deren Kodierung ϕ(a) mit 0 bzw. 1 beginnt. Definiere die binären Präfixkodes ψ0 für A0 und ψ1 für
A1 durch (i, ψi (a)) = ϕ(a), i ∈ {0, 1}, a ∈ A, entstanden durch Weglassen der ersten Koordinate.
Sind A0 und A1 beide nicht leer, so folgt nach Induktionsvoraussetzung
X
X
X
2−|ϕ(a)| =
2−|ψ0 (a)|−1 +
2−|ψ1 (a)|−1 ≤ 1.
a∈A
a∈A0
a∈A1
Sind A0 oder A1 leer, so wiederhole den Aufteilungsschritt.
• Umkehrung
Pi
Ordne la , a ∈ A, der Größe nach, etwa la1 ≤ la2 ≤ . . . ≤ lan+1 . Definiere i0 = sup{i | j=1 2−laj ≤
1/2} und A0 := {aj ∈ A | j ≤ i0 } und A1 = A\A0 . Es gilt
X
2−la ≤ 1/2 und
a∈A0
X
2−la ≤ 1/2.
a∈A1
(Übung.)
Sind A0 und A1 nicht
P leer, so gibt es nach Induktionsvoraussetzung binäre präfixfreie Kodes ψi
für Ai , i = 0, 1 mit a∈Ai 2−ψi (a) ≤ 1/2. Der zusammengesetzte Kode ϕ mit ϕ(a) := (i, ψi (a)) für
a ∈ Ai tuts.
Sind A0 oder A1 leer, so wiederhole den Aufteilungsschritt.
q.e.d.
97
Uwe Rösler
SS12
1.14
Anfänge der Informationstheorie
Definition 1.14.6 (Entropie) Die Entropie I(µ) eines W-maßes µ auf A ist der Wert
I(µ) :=
X
µ(a) log2
a∈A
1
.
µ(a)
Wir benutzen die stetige Erweiterung von x 7→ x log2 x1 in x = 0 und ∞. Definiere die Entropie
einer Zg X als Entropie der Verteilung der Zg.
Anstelle des Logarithmus zur Basis 2 könnten wir auch andere Basen wählen. Dies entspricht einer
Multiplikation der (binären) Entropie durch ein Konstante.
Proposition 1.14.7 Für W-maße auf endlichem Alphabet A gilt
0 ≤ I(µ) ≤ ln2 |B|.
Die untere Grenze wird angenommen durch ein Punktmaß, die obere durch die Gleichverteilung.
Beweis:
X
0 ≤ I(µ) =
µ(a) log2
a∈A
1
µ(a)
Jensen
≤
log2 (
X
µ(a)
a∈A
Der zweite Teil der Behauptung wird nachgerechnet.
1
) = ln2 |A|.
µ(a)
q.e.d.
Satz 1.14.8 (Quellenkodierung) Sei X eine Zg auf A. Die erwartete Länge jeden binären
präfixfreien Kodes ϕ ist nach unten beschränkt durch die Entropie von X,
I(X) ≤ E|ϕ(X)|.
Weiterhin gibt es stets einen binären Präfixkode ψ mit erwarteter Kodelänge unter X beschränkt
durch die Entropie plus 1,
E|ψ(X)| < I(X) + 1.
Beweis:
(i) Sei µ(a) := P (X = a).
Mit der Jensen und Kraft Ungleichung folgt
I(X) − E|ϕ(X)| =
X
(log2
a
X
Jensen
2−|ϕ(a)|
2−|ϕ(a)|
)µ(a) ≤ log2 (
µ(a)
) ≤ log2 1 = 0.
µ(a)
µ(a)
a
(ii) Definiere natürliche Zahlen la durch 2−la ≤ µ(a) < 2−la +1 .
P
P
Wegen a 2−la ≤ a µ(a) = 1 existiert nach dem Lemma von Kraft ein binärer präfixfreier
Kode ψ mit diesen Kodewortlängen |ψ(a)| = la . Dieser tut’s:
X
X
E|ψ(X)| =
µ(a)la <
µ(a)(− log2 µ(a) + 1) = I(X) + 1
a
a
.
q.e.d.
Zurück zur Zielsetzung der Kodierung. Wir wollen eine zufällige Nachricht der Buchstabenlänge
n schnell übermitteln. Den Zufall der Nachricht modellieren wir durch iid Zgn X1 , . . . , Xn mit
bekannter Verteilung µ. Die Länge der kodierten Nachricht ist
∗
|ϕ ((X1 , . . . , Xn ))| =
n
Y
|ϕ(Xi )|.
i=1
Im Erwartungswert ist dies
|ϕ∗ ((X1 , . . . , Xn ))| = E n |ϕ(X1 )|.
98
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Dies soll möglichst klein werden.
Wieviel Zeit (=Zeichen) benötigt die typische Nachricht? Nach dem GGZ konvergiert
n
Y
1
ln |ϕ∗ ((X1 , . . . , Xn ))| →n E|ϕ(X1 )| =
|ϕ(Xi )|
n
i=1
gegen den Erwartungswert und, standardnormiert, gegen die Normalverteilung,
ln |ϕ∗ ((X1 , . . . , Xn ))| − nE|ϕ(X1 )| d
p
→n N (0, 1).
nVar ln ϕ(X1 )
Sortieralgorithmen:
Für einen Sortieralgorithmus wollen wir nur die Zahl der benötigten Vergleiche zur Sortierung
betrachten. Alle anderen Operationen, die auch Zeit benötigen, wollen wir vernachlässigen.
Wir interpretieren den Sortieralgorithmus als eine Folge von genauen, fest vorgegebenen Vorschriften, jeweils zwei genau bezeichnete Elemente der vorliegenden Liste in Abhängigkeit vorhergehender Vergleichsergebnisse auszuwählen und zu vergleichen.
Das Ergebnis dieser Vergleiche speichern wir in zeitlicher Reihenfolge als eine 0 − 1 Folge gewisser
Länge ab. Der Vergleichsprozeß ist beendet, wenn wir an Hand der Vergleiche sicher die Liste
ordnen können bzw. geordnet haben.
Betrachten wir nun nur Listen vorgegebener Länge n, interpretiert als Buchstaben des Alphabets.
Da es nicht auf die Absolutgröße der Elemente ankommt, sondern nur die relative, interpretieren
wir jede Liste als eine Permutation der Zahlen 1, . . . , n.
Die Ausführung des Sortieralgorithmus entspricht einer Kodierung unserer Listen. Vom gegebenen Kode, (einschließlich der Angabe, welche Elemente verglichen wurden, bei deterministischen
Algorithmen ist die Angabe einfach, bei stochastischen wie Quicksort müssen wir den Zufall als
bekannt vorgeben, können wir eindeutig die Ausgangsliste rekonstruieren.
Dieser Kode ist ein Präfixkode, da wir an Hand der durchgeführten Vergleiche genau wissen, wann
die Liste geordnet ist (werden kann).
Mathematisches Modell: Sei Πn die Menge aller Permutationen π auf 1, ..., n und P ein W-maß
darauf.
Der Quellenkodierungssatz liefert für jeden binären Präfixkode I(P ) ≤ E|ϕ|.
Allgemein gilt I(P ) ≤ I(Gleichverteilung) = log2 n!. Der schlechteste Fall ist die Gleichverteilung,
was mit der Intuition übereinstimmt.
Lemma 1.14.9 Die erwartete Anzahl der Abfragen für jeden Sortieralgorithmus, um eine zufällige
Liste der Länge n zu sortieren, ist für die Gleichverteilung des Inputs mindestens log2 n!.
Beweis: Jeder Sortieralgorithmus entspricht einem binärem Präfixkode. Der Quellenkodierungssatz liefert das Resultat.
q.e.d.
Der “beste” bekannte Sortieralgorithmus ist Mergesort.
Wir erhalten mit der Stirlingschen Formel ln n! = n ln n − n + o(n) und genauer als globale untere
Schranke
√
ln2 e
.
log2 n! ≥ n log2 n − n log2 e + log 2πn +
12n + 1
Sortierspiel: Wir betrachten “sortieren” jetzt als Spiel zweier Kontrahenten. Sei n (der Einfachheit halber) fest.
(i) Der Spieler I wählt verdeckt den Sortieralgorithmus A.
(ii) Der Spieler II wählt verdeckt eine Permutation π ∈ Πn (entspricht einer Liste).
99
Uwe Rösler
SS12
1.14
Anfänge der Informationstheorie
(iii) Die Werte A und π werden aufgedeckt und die Anzahl der Vergleiche A(π) des Algorithmus
zur Sortierung ermittelt.
(iv) Der Spieler I zahlt an Spieler II den Betrag A(π) − C. C ist ein vorher vereinbarter Betrag.
Der Spieler I wählt den Algorithmus nach einer Verteilung µ und der Spieler II wählt die Permutation (=zu sortierende Liste) nach einer Verteilung ν. Die durchschnittliche Auszahlung beträgt
dann
X
EA(π) =
µ(A)ν(π)A(π) =:< µ, ν > .
A,π
Spieler I möchte die Anzahl der Abfragen möglichst klein machen, Spieler II möglichst groß. Dies
sind gegensätzliche Ziele.
Spieler I kann aus eigener Kraft mindestens
inf sup < µ, ν >
µ
ν
sicherstellen für jede Wahl des Spielers II tut.
Spieler II kann mindestens (aus eigener Kraft)
[sup inf < µ, ν >
ν
µ
sicherstellen, unabhängig von der Wahl des Spielers I.
Ohne Beweis sei angeführt:
inf sup < µ, ν >= sup inf < µ, ν >=: V.
µ
ν
ν
µ
Der Wert V heißt der Spielwert des Spiels.
Wird als Grundgröße C der Spielwert V gewählt, so ist das Spiel fair, d.h. im Erwartungswert ist
kein Spieler bevorteilt oder benachteiligt.
Obiges Lemma 1.14.9 gibt eine untere Schranke für V ,
I(Gleichverteilung) = log2 n! ≤ V.
Obere Schranken ergeben sich durch die bekannten Sortieralgorithmen, z.B. Mergesort. Bessere
Schranken sind mir nicht bekannt und auch der Spielwert V ist unbekannt.
Spielstrategien: Die optimale Strategie für Spieler II besteht in zufälliger Wahl der Permutation
mit Gleichverteilung. Intuitiv ist dies naheliegend, da dann Spieler I am wenigsten Information
(=maximale Entropie) für die Wahl seines Algorithmus hat.
Mathematisch formal folgt dies folgendermaßen:
(ii) Spieler II will ein ν finden, welches inf µ < µ, ν > maximiert.
Sei e ∈ Πn eine
P Permutation und νe das W-maß auf den Permutationen mit νe (π) := ν(e◦π).
1
Sei ν = n!
e∈Πn νe . Für einen Algorithmus A sei Ae derjenige Algorithmus mit Ae (π) =
A(e ◦ π). Analog verwenden wir µe mit µe (Ae ) = µ(A). Beachte
< µ, ν >=
X
A(π)µ(A)ν(π) =
π∈Πn
X
eπ∈Πn
für alle e ∈ Π.
• inf µ < µ, ν >≤ inf µ |µ, ν >
100
A(eπ)µ(A)ν(eπ) =< µe , νe >
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
inf < µ, ν > ≤ inf inf < µe , ν >= inf inf < µ, νe−1 >
µ
µ e∈Πn
µ e∈Πn
1 X
≤ inf
< µ, νe >
µ n!
e∈Πn
=
inf < µ, ν >
µ
Anstelle von ν kann Spieler II daher oEdA die Gleichverteilung ν wählen. Anders fomuliert,
Spieler II sollte die Daten vorher gut mischen.
(i) Nun zur Sicht des Spielers
I. Er sollte, ganz analog zu obigem aus Symmetriegründen, nur
P
1
µ
Mittelungen µ = n!
e∈Πn e wählen.
Spieler I kann dies intern durch einen Zufall im Algorithmus verwirklichen. (Siehe auch
Quicksort.) Die einfachste Vorstellung ist allerdings ein Algorithmus, der zuerst die eingegebenen Daten gut mischt bevor er sortiert. (Dazu sind keine Abfragen notwendig.) Damit
erreicht der Spieler, daß die Laufzeit auch für eine deterministischen Algorithmus unabhängig
von der Originalliste ist. Intuitiv ist dies gut nach dem Spielprinzip, dem Gegner möglichst
wenig Einflußnahme auf das Spiel zu belassen.
Mathematisch formal argumentiere (analog wie oben).
101
Uwe Rösler
SS12
102
1.14
Anfänge der Informationstheorie
Elementare Wahrscheinlichkeitstheorie
SS12
Uwe Rösler
Literaturverzeichnis
[1] R. Arratia, L. Goldstein and L. Gordon, Poisson approximation and the Chen-Stein method.
Stat. Sci. 5, 403-434 (1990)
[2] H. Bauer Wahrscheinlichkeitstheorie und Grundzüge der Maßtheorie. de Gruyter 1968.
[3] K. Behnen und G. Neuhaus Grundkurs Stochastik. Teubner 1984.
[4] A.D. Barbour, L Holst and S. Janson, Poisson Approximation, Oxford University Press,
Oxford, 1992.
[5] H. Dinges und H. Rost Prinzipien der Stochastik. Teubner 1982.
[6] M. Greiner und G. Tinhofer Stochastik für Studienanfänger der Informatik. Hanser 1996.
[7] W. Feller An introduction to probability theory and its applications. Wiley 1957.
[8] M. Fisz Wahrscheinlichkeitsrechung und mathematische Statistik. VEB Deutscher Verlag der
Wissenschaften 1980.
[9] N. Henze Stochastik für Einsteiger. Vieweg 1997.
[10] K. Jacobs Discrete Stochastics. Birkhäuser 1992.
[11] U. Krengel Einführung in die Wahrscheinlichkeitstheorie und Statistik. de Gruyter 1985.
[12] R. Mathar und D. Pfeifer Stochastik für Informatiker. Teubner 1990.
[13] Ralph Neininger A survey of multivariate aspects of the contraction method. Discrete Mathematics and Theoretical Computer Science. DMTCS vol 8, 31-56, 2006.
[14] J. Pfanzagl Elemtare Wahrscheinlichkeitsrechung. de Gruyter 1988.
[15] Jens Schimmer Stochastische Analyse des Mergesort-Algorithmus. Diplomarbeit Mathematisches Seminar zu Kiel, 1997.
[16] K. Schürger Wahrscheinlichkeitstheorie. Oldenbourg Verlag, 1998.
[17] M. Abramowitz und A. Stegum Handbook of Mathematical Functions. Applied Mathematical
Studies 55, National Bureau of Standards, U.S. Government printing office, fourth edition.
[18] P.J. Bickel und D.A. Freedman Some asymptotic theory for the bootstrap. Ann. Prob. 9,
1196-1217, 1981.
[19] M. Cramer, Stochastic analysis of the Merge-Sort algorithm. Random Structure and Algorithms, 11 (1997), 81-96.
[20] B.W. Gnedenko und A.N. Kolmogorov Grenzverteilungen von Summen unabhängiger Zufallsgrößen. Akademie-Verlag Berlin 1959.
103
Uwe Rösler
SS12
1.14
Anfänge der Informationstheorie
[21] Grübel,R. und Rösler,U. Asymptotic distribution theory for Hoare’s selection algorithm. Advances in Applied Probability 28 (1996) 252-269.
[22] Hahn-Rosenthal SET FUCTIONS 1948 chap IV,§16 .................................
[23] Halmos, P.R. Measure Theory. van Nostrand 1950.
[24] C.A.R. Hoare, Quicksort. Comp. J., 5 (1962), 10-15.
[25] D.E. Knuth The art of computer programming, Vol.3: Sorting and searching. Reading M.A.,
Addison-Wesley 1973.
[26] V.V. Petrov Sums of independent random variables. Springer Verlag 1975.
[27] Rösler, U. A limit theorem for ”Quicksort”. Informatique théorique et Applications / Theoretical Informatics and Applications 25 (1991), 85-100.
[28] Rösler, U. A fixed point theorem for distributions. Stochastic Processes and their Applications
37 (1992), 195-214.
[29] Jens Schimmler Stochastische Analyse des Mergesort-Algorithmus. Diplomarbeit Kiel 1997.
[30] Sozanov, V.V. Normal Approximation - some recent advances. Lecture Notes in Mathematics
879, (1981), Berlin.
[31] E.T. Whittaker und G.N. Watson A Course of Modern Ananlysis. Cambridge University
Press, fourth edition, 1927.
104

Zugehörige Unterlagen

∑ ∑ ∑

Typische Klausuraufgaben 1: Kommentare

Konzepte und diskrete Wahrscheinlichkeitstheorie

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können