Randomisierte Algorithmen

A Wahrscheinlichkeitstheoretische Grundlagen
In diesem Kapitel sind zur Erinnerung einige Definitionen und Ergebnisse (ohne Beweise)
zusammengestellt, die man z. B. in einer Vorlesung über Wahrscheinlichkeitstheorie kennengelernt
haben sollte.
A.1 Allgemeines
A.1 Definition Eine σ-Algebra (Ω, E) über einem Ergebnisraum Ω ist eine Menge E ⊆ 2Ω von
Ereignissen E ∈ E mit den Eigenschaften:
1. ∅ ∈ E
2. E ∈ E =⇒ Ē ∈ E
3. (∀i ∈ N : Ei ∈ E) =⇒
S
i∈N Ei
∈E
Ein Wahrscheinlichkeitsmaß Pr [·] auf einer σ-Algebra ist eine Abbildung Pr : E → R+ mit den
Eigenschaften:
1. ∀E ∈ E : 0 6 Pr [E] 6 1
2. Pr [Ω] = 1
3. für alle paarweise disjunkten Ereignisse Ei gilt: Pr [
S
i Ei ]
=
P
i Pr [Ei ].
Ein Wahrscheinlichkeitsraum (Ω, E, Pr [·]) ist eine σ-Algebra (Ω, E) mit einem darauf definierten
Wahrscheinlichkeitsmaß Pr [·]. Ein Wahrscheinlichkeitsraum heißt diskret, falls Ω höchstens abzählbar ist und für alle ω ∈ Ω gilt: {ω} ∈ E.
3
A.2 In einem diskreten Wahrscheinlichkeitsraum ist stets E = 2Ω .
A.3 Beispiel. Für die Vorlesung sind Wahrscheinlichkeitsräume der folgenden Art sehr wichtig: Es
sei R ein randomisierter Algorithmus und x eine Eingabe für R. Dann gibt es im allgemeinen
mehrere verschiedene konkret mögliche Berechnungen von R für x. Das können wie zum Beispiel
beim randomisierten Quicksort (siehe Kapitel 2) endlich viele sein.
Es können aber selbst für eine einzelne Eingabe auch abzählbar unendlich viele. Als einfaches
Beispiel denke man an den (zugegebenermaßen reichlich langweiligen) randomisierten Algorithmus, der für jede natürliche Zahl x als Eingabe so lange Zufallsbits „würfelt“, bis die x zuletzt
produzierten Bits alle gleich 1 waren, und als Ausgabe z. B. die Gesamtzahl der benötigten Bits
liefert.
A.4 Übung. Man gebe für die beiden eben genannten Beispiele Wahrscheinlichkeitsräume an, die
jeweils allen möglichen Berechnungen für eine Eingabe x entsprechen.
123
1. Wahrscheinlichkeitstheoretische Grundlagen
124
A.5 Lemma. (Einschluss-Ausschluss-Prinzip) Sind E1 , . . . , Ek beliebige Ereignisse, dann gilt
Pr [E1 ∪ E2 ] = Pr [E1 ] + Pr [E2 ] − Pr [E1 ∩ E2 ]
und allgemeiner
"
#
[
X
X X
Pr
Ei
=
Ei −
Pr Ei ∩ Ej +
Pr Ei ∩ Ej ∩ Ek − · · ·
i
i
i<j
+(−1)
i<j<k
X
l+1
"
Pr
i1 <i2 <···<il
l
\
#
Ei r + · · ·
r=1
A.6 Definition Die bedingte Wahrscheinlichkeit von E1 unter der Bedingung E2 mit Pr [E2 ] > 0 ist
Pr [E1 | E2 ] := Pr [E1 ∩ E2 ] /Pr [E2 ]. Ist Pr [E2 ] = 0, so sei Pr [E1 | E2 ] := 0.
3
A.7 Satz. Ist E1 , . . . , Ek eine Partitionierung von Ω und ist Pr [E] > 0, dann gilt:
Pr [E] =
k
X
Pr [E | Ei ] · Pr [Ei ]
i=1
A.8 Korollar. (Formel von Bayes) Ist E1 , . . . , Ek eine Partitionierung von Ω und ist Pr [E] > 0,
dann gilt:
Pr [E | Ei ] Pr [Ei ]
Pr [Ei ∩ E]
= Pk
Pr [Ei | E] =
.
Pr [E]
j=1 Pr E | Ej Pr Ej
A.9 Definition Zwei Ereignisse E1 und E2 heißen (stochastisch) unabhängig, falls gilt: Pr [E1 ∩ E2 ] =
Pr [E1 ] · Pr [E2 ].
Allgemeiner heißt eine Menge {Ei | i ∈ I} unabhängig, falls für alle S ⊆ I gilt:
"
#
\
Y
Pr
Ei =
Pr [Ei ] .
i∈S
i∈S
Die Ereignisse heißen k-unabhängig, wenn obige Gleichung für alle S einer Größe kleiner gleich k
gilt.
3
A.2 Zufallsvariablen
A.10 Definition Eine Zufallsvariable X ist eine Abbildung X : Ω → R, so dass für alle Borelmengen
B ⊆ R gilt: {ω ∈ Ω | X(ω) ∈ B} ∈ E.
Wir schreiben statt Pr [{ω ∈ Ω | X(ω) 6 x}] kurz Pr [X 6 x] und analog Pr [X = x]. Außerdem
ist z. B. Pr [X 6 x ∧ Y 6 y] zu verstehen als Pr [{ω ∈ Ω | X(ω) 6 x} ∩ {ω ∈ Ω | Y(ω) 6 y}].
3
A.11 Wir gehen im folgenden stillschweigend davon aus, dass Pr [X 6 x] und Pr [X = x] stets existieren,
sofern es nicht ohnehin klar ist, etwa wenn der Wahrscheinlichkeitsraum (Ω, E) diskret ist.
A.12 Beispiel. Das Beispiel für Zufallsvariablen in dieser Vorlesung schlechthin ist der Zeitbedarf
eines randomisierten Algorithmus für eine konkrete Eingabe.
22. Oktober 2015
c Th. Worsch 2000-2015
1. Wahrscheinlichkeitstheoretische Grundlagen
125
A.13 Übung. Man präzisiere die eben getroffene Aussage für die Wahrscheinlichkeitsräume aus
Beispiel A.3.
Im Fall des randomisierten Quicksort mache man sich klar, dass der Erwartungswert für die
Laufzeit nur von der Anzahl der Datenelemente, aber nicht von ihrer ursprünglichen Reihenfolge
abhängt. Für den „Bit-Würfel-Algorithmus“ versuche man, den Erwartungswert für die Laufzeit
in Abhängigkeit von der Anzahl der zu produzierenden 1-Bits zu bestimmen.
A.14 Definition Eine Zufallsvariable ist diskret, falls ihr Wertebereich endlich oder abzählbar unendlich ist.
Die Indikatorvariable für ein Ereignis E ist die diskrete Zufallsvariable X mit
1 falls ω ∈ E
X(ω) =
0 falls ω ∈
/E
3
A.15 Definition Die Verteilungsfunktion FX einer Zufallsvariablen X ist die Abbildung
FX : R → [0, 1] : x 7→ Pr [X 6 x] .
Die Dichtefunktion pX einer Zufallsvariablen X ist die Abbildung
3
pX : R → [0, 1] : x 7→ Pr [X = x] .
A.16 Definition Die gemeinsame Verteilungsfunktion FX,Y zweier Zufallsvariablen X und Y, die auf
dem gleichen Ergebnisraum definiert sind, ist die Abbildung
FX,Y : R × R → [0, 1] : (x, y) 7→ Pr [X 6 x ∧ Y 6 y] .
Die gemeinsame Dichtefunktion pX,Y von X und Y ist die Abbildung
pX,Y : R × R → [0, 1] : (x, y) 7→ Pr [X = x ∧ Y = y] .
3
A.17 Definition Zwei Zufallsvariablen X und Y heißen unabhängig, wenn für alle x, y ∈ R gilt:
Pr [X = x ∧ Y = y] = Pr [X = x] · Pr [Y = y] .
Allgemeiner heißt eine Menge {Xi | i ∈ I} von Zufallsvariablen unabhängig, falls für alle S ⊆ I und
alle Mengen {xi ∈ R | i ∈ I} gilt:
"
#
^
Y
Pr
Xi = xi =
Pr [Xi = xi ] .
i∈S
i∈S
Die Zufallsvariablen heißen k-unabhängig, wenn obige Gleichung für alle S einer Größe kleiner
gleich k gilt.
3
A.18 Lemma. Zwei Zufallsvariablen X und Y sind genau dann unabhängig, wenn für alle x, y ∈ R gilt:
Pr [X = x | Y = y] = Pr [X = x] .
A.19 Definition Der Erwartungswert E [X] einer Zufallsvariablen X ist E [X] :=
diese Summe absolut konvergiert.
22. Oktober 2015
P
x∈R x · pX (x),
sofern
3
c Th. Worsch 2000-2015
1. Wahrscheinlichkeitstheoretische Grundlagen
126
P
Absolute Konvergenz bedeutet, dass sogar x∈R |x| · pX (x) konvergiert. In diesem Fall ist E [X]
P
tatsächlich unabhängig von der Reihenfolge der Summanden in x∈R x · pX (x).
A.20 Lemma. Für beliebige Zufallsvariablen X1 , . . . , Xk und beliebige lineare Funktionen h gilt:
E [h(X1 , . . . , Xk )] = h(E [X1 ] , . . . , E [Xk ]) .
A.21 Lemma. Für unabhängige Zufallsvariablen X und Y gilt:
E [XY] = E [X] · E [Y] .
k
A.22 Definition Für k ∈ N sind das kte Moment mk
X und das kte zentrale Moment zX definiert als
h i
k
mk
X = E X
i
h
k
[X])
zk
=
E
(X
−
E
.
X
Das erste Moment ist der Erwartungswert von X und wird manchmal mit µ bezeichnet. Das
zweite zentrale Moment heißt auch Varianz und wird mit var [X] oder σ2X bezeichnet. Die Größe
σX heißt auch Standardabweichung.
3
A.23 Lemma. var [X] = m2X − µ2X = E X2 − E [X]2 .
22. Oktober 2015
c Th. Worsch 2000-2015