Die Probabilistische Methode

Werbung
Die Probabilistische Methode
Wladimir Fridman
233827
Hauptseminar im Sommersemester 2004
Extremal Combinatorics
Zusammenfassung
Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen
von Existenzbeweisen. Dieser Seminarbeitrag stellt zunächst die Idee dieser
Methode vor, sowie die stochastischen Grundlagen und drei wichtige Ungleichungen, die sich bei der Anwendung der Probabilistische Methode als
sehr nützlich erweisen. Abschließend wird ein Satz mittels der Probabilistischen Methode bewiesen. Als Grundlage dieses Beitrags diente das Kapitel
17 des Buches „Extremal Combinatorics“ von Stasys Jukna.
Inhaltsverzeichnis
1
Einleitung: Probabilistische Methode
3
2
Stochastische Grundlagen
3
3
Werkzeuge
6
3.1
Markov-Ungleichung . . . . . . . . . . . . . . . . . . . . . . .
6
3.2
Tschebyscheff-Ungleichung . . . . . . . . . . . . . . . . . . .
6
3.3
Chernoff-Ungleichungen . . . . . . . . . . . . . . . . . . . . .
7
4
Beispiel: First Moment Method - kSAT
9
1
1
E INLEITUNG : P ROBABILISTISCHE M ETHODE
Einleitung: Probabilistische Methode
Die Probabilistische Methode wird dazu benutzt, Existenzbeweise zu führen. Diese Methode findet insbesondere Anwendung in der Kombinatorik und der Graphentheorie. Als ein sehr nützliches Mittel erweist sie sich auch in der Zahlentheorie und der kombinatorischen Geometrie. In der Informatik wird diese Methode
zum Entwickeln effizienter Algorithmen und zur Problemanalyse angewandt.
Man will also nachweisen, dass ein Objekt mit bestimmten Eigenschaften existiert. Dazu definiert man einen geeigneten Wahrscheinlichkeitsraum und zeigt,
dass ein aus dem Wahrscheinlichkeitsraum zufällig gewähltes Objekt mit einer
positiven Wahrscheinlichkeit die gewünschten Eigenschaften hat.
Die Idee stützt sich auf das folgende Argument:
Seien x1 , . . . , xn ∈ R und
x1 + . . . + xn
≥a
n
dann existiert mindestens ein i ∈ {1, . . . , n}, so dass xi ≥ a.
Die zwei Thesen, auf denen die Probabilistische Methode basiert, sind also:
These 1 Eine Zufallsvariable X nimmt mindesten einen Wert X = x an, so dass
x ≥ E[X], wobei E[X] der Erwartungswert von X ist.
These 2 Wenn ein aus einem Universum zufällig gewähltes Objekt mit einer positiven Wahrscheinlichkeit bestimmte Eigenschaften hat, dann muss in diesem
Universum auch ein Objekt mit diesen Eigenschaften existieren.
Die Probabilistische Methode ist insofern mächtig, dass es oft einfacher ist, den
Durchschnitt bzw. den Erwartungswert zu berechnen, als ein bestimmtes Objekt
xi vorzuzeigen, um den Existenzbeweis zu führen.
2
Stochastische Grundlagen
Definition 1 (Wahrscheinlichkeitsraum)
Ein diskreter Wahrscheinlichkeitsraum wird durch eineP
endliche Menge Ω und
eine Funktion P rob : Ω → [0, 1] mit der Eigenschaft x∈Ω P rob(x) = 1 beschrieben. Ω heißt Ergebnismenge, P ot(Ω) Ereignismenge, wobei die Teilmengen
A ⊆ Ω Ereignisse heißen.
Die Wahrscheinlichkeit eines Ereignisses A ist definiert
P
durch P rob(A) = x∈A P rob(x). Man nennt P rob eine Wahrscheinlichkeitsverteilung.
–3–
2
S TOCHASTISCHE G RUNDLAGEN
Die folgenden Eigenschaften lassen sich leicht aus der Definition ableiten. Seien
A, B und C1 , . . . , Cn Ereignisse und C1 , . . . , Cn eine Partition von Ω, dann gilt:
• P rob(A ∪ B) = P rob(A) + P rob(B) − P rob(A ∩ B)
• P rob(A) = 1 − P rob(A)
• P rob(A ∩ B) ≥ P rob(A) − P rob(B)
P
• P rob(A) = ni=1 P rob(A ∩ Bi )
A bezeichne hier das Komplement von A (also A = Ω − A).
Definition 2 (Bedingte Wahrscheinlichkeit)
Seien A und B Ereignisse und P rob(B) 6= 0.
P rob(A|B) P rob(A ∩ B)
P rob(B)
heißt bedingte Wahrscheinlichkeit von A unter der Bedingung B.
Bedingte Wahrscheinlichkeit kann als Wahrscheinlichkeit für das Eintreten des
Ereignisses A interpretiert werden, unter der Annahme, dass das Ereignis B bereits
eingetreten ist. Sei A das Ereignis, dass bei einen fairen Würfel die Nummer 2
gewürfelt wird und B das Ereignis, dass die gewürfelte Nummer gerade ist, dann
ist P rob(A|B) = 13 und P rob(B|A) = 1.
Definition 3 (Stochastische Unabhängigkeit)
Zwei Ereignisse A und B heißen stochastisch unabhängig, falls
P rob(A|B) = P rob(A).
(⇔ P rob(A ∩ B) = P rob(A) · P rob(B))
Ereignisse A1 , . . . , An heißen gemeinsam stochastisch unabhängig, falls
P rob(Ai1 ∩ . . . ∩ Aik ) = P rob(Ai1 ) · . . . · P rob(Aik )
für beliebige 1 ≤ i1 < . . . < ik ≤ n, d.h. die Wahrscheinlichkeit eines beliebigen
Durchschnitts lässt sich als das Produkt der Einzelwahrscheinlichkeiten bestimmen. Zu beachten ist, dass aus paarweiser stochastischer Unabhängigkeit nicht
die gemeinsame stochastische Unabhängigkeit folgt.
Definition 4 (Zufallsvariable)
Eine Zufallsvariable ist eine auf dem Wahrscheinlichkeitsraum definierte Funktion X : Ω → S, wobei S ⊆ R. Die Verteilung einer Zufallsvariablen ist eine
Funktion f : S → [0, 1], definiert als f (i) P rob(X = i), wobei P rob(X = i)
die Wahrscheinlichkeit des Ereignisses A = {x ∈ Ω : X(x) = i} ist.
–4–
2
S TOCHASTISCHE G RUNDLAGEN
Beispiel (Indikatorvariable, Binomialverteilung): Betrachte n-fachen Münzwurf,
sei p die Wahrscheinlichkeit für das Auftreten von Kopf. Die Würfe sind unabhängig voneinander. Ω = {(x1 , . . . , xn )|xi ∈ {0, 1}}, wobei xi = 1, falls
Kopf fällt, xi = 0 andernfalls. Die Zufallsvariable
X ist die Anzahl des AufPn
tretens von Kopf, also
i=1 xi . Die Verteilung von X ist
X((x1 , . . . , xn )) =
P rob(X = k) = nk pk (1 − p)n−k . Man sagt die Zufallsvariable X ist binomialverteilt mit Parametern n ∈ N und p ∈ [0, 1]. Hier kann man die xi als Indikatorvariablen ansehen, denn eine Indikatorvariable
für ein Ereignis A ist eine
(
1 falls ω ∈ A
Zufallsvariable XA : Ω → [0, 1], mit XA (ω) =
0 falls ω ∈
/ A.
Definition 5 (Erwartungswert)
Der Erwartungswert einer Zufallsvariable X ist definiert durch:
E[X] ∞
X
xi · P rob(X = xi )
i=1
Seien X1 , . . . , Xn Zufallsvariablen und a ∈ R, dann gilt:
• E[aX] = aE[X]
• E[X1 + X2 + . . . + Xn ] = E[X1 ] + E[X2 ] + . . . + E[Xn ]
(Linearität)
• E[X1 · X2 · . . . · Xn ] = E[X1 ] · E[X2 ] · . . . · E[Xn ], falls X1 , . . . , Xn auch
gemeinsam unabhängig.
Definition 6 (Varianz)
Die Varianz einer Zufallsvariable X ist definiert durch:
V ar[X] E[(X − E[X])2 ]
/ = E[X 2 ] − (E[X])2 /
Seien X und Y Zufallsvariablen und a ∈ R, dann gilt:
• V ar[aX] = a2 V ar[X]
• V ar[X + Y ] = V ar[X] + V ar[Y ], falls X und Y stochastisch unabhängig.
Der Erwartungswert E[X] gibt den erwarteten (durchschnittlichen) Wert von X
an, die Varianz V ar[X] die durchschnittliche Abweichung vom Erwartungswert.
Sei X binomialverteilt, dann ist E[X] = np und V ar[X] = np(1 − p), denn
" n
#
n
n
X
X
X
E[X] = E
Xi =
E[Xi ] =
p = np
i=1
i=1
–5–
i=1
3
W ERKZEUGE
und
"
V ar[X] = V ar
n
X
#
Xi =
i=1
=
n
X
(p − p2 ) =
V ar[Xi ] =
i=1
n
X
i=1
3
n
X
n
X
(E[Xi 2 ] − (E[Xi ])2 )
i=1
p(1 − p) = np(1 − p)
i=1
Werkzeuge
Die folgenden drei Ungleichungen haben sich als sehr nützliche Werkzeuge bei
der Anwendung der Probabilistischen Methode erwiesen.
3.1
Markov-Ungleichung
Markov-Ungleichung. Sei X : Ω → R+ eine nicht-negative Zufallsvariable und
λ ∈ R+ , dann gilt:
E[X]
.
P rob(X ≥ λ) ≤
λ
Oder äquivalent
1
P rob(X ≥ λ · E[X]) ≤ .
λ
Beweis.
E[X] =
X
x
3.2
x · P rob(X = x) ≥
X
λ · P rob(X = x) = λ · P rob(X ≥ λ)
x≥λ
Tschebyscheff-Ungleichung
Tschebyscheff-Ungleichung. Sei X eine Zufallsvariable mit V ar[X] < ∞ und
λ ∈ R+ , dann gilt
P rob(|X − E[X]| ≥ λ) ≤
V ar[X]
λ2
Beweis. Mit der Markov-Ungleichung folgt:
P rob(|X−E[X]| ≥ λ) = P rob((X−E[X])2 ≥ λ2 ) ≤
–6–
E[(X − E[X])2 ]
V ar[X]
=
2
λ
λ2
3.3
Chernoff-Ungleichungen
Beachte, dass hier die Markov-Ungleichung angewendet werden darf, denn |X −
E[X]| und damit auch |X − E[X]|2 nicht negativ sind. Die Ungleichung gibt
also eine obere Schranke für die Wahrscheinlichkeit, dass die Zufallsvariable von
ihrem Erwartungswert um mehr als λ abweicht, an.
3.3
Chernoff-Ungleichungen
Diese Ungleichungen kann mann als Spezialfälle der Markov-Ungleichung, daher
mit einem größeren Informationsgehalt, ansehen, angewandt auf Summen von Zufallsvariablen Xi .
(Chernoff-Ungleichung 1.) Seien X1 , . . . , Xn n unabhängige Zufallsvariablen,
P
mit P rob(Xi = 1) = P rob(Xi = −1) = 21 für i = 1, . . . , n, und X = ni=1 Xi ,
dann gilt für jedes λ > 0
2 /2n
P rob(X ≥ λ) ≤ e−λ
Beweis. Es gilt:
P rob(X ≥ λ) = P rob(etX ≥ etλ ) ≤
E[etX ]
.
etλ
für ein beliebiges t ≥ 0. Der erste Teil gilt, da exp(·) die Ordnung beibehält und
der zweite folgt aus der Markov-Ungleichung. Wegen der Taylor-Entwicklung von
e folgt:
1 t 1 −t
e + e
2 2
t
t2 t3
1
t
t2 t3
1
=
1 + + + + ··· +
1 − + − + ···
2
1! 2! 3!
2
1! 2! 3!
2
2k
t
t
=
1 + 0 + + 0 + ··· +
+ ···
2!
(2k)!
E[etXi ] =
Wegen (2k)! ≥ (k!)2k folgt die Abschätzung:
tXi
E[e
i
∞
∞
∞
X
X
X
t2i
1 t2
t2i
2
≤
=
= et /2
]=
i
(2i)!
2 (i!)
i! 2
i=0
i=0
i=0
–7–
3
W ERKZEUGE
Wegen der Unabhängigkeit der Xi :
h
E[e ] = E e(
tX
P
i
tXi )
"
i
#
Y
=E
tXi
e
=
i
≤
n
Y
2 /2
et
n
Y
E[etXi ]
i=1
2 /2
= ent
i=1
Dieses Ergebnis oben eingesetzt ergibt:
2
P rob(X ≥ λ) ≤
2 /2−tλ
Für t = λ/n nimmt ent
E[etX ]
ent /2
nt2 /2−tλ
≤
=
e
etλ
etλ
den kleinsten Wert an. Setze also t = λ/n:
P rob(X ≥ λ) ≤ e
n
2
2
( nλ )
λ
−n
λ
2 /2n
= e−λ
(Chernoff-Ungleichung 2.) Seien X1 , . . . , Xn n unabhängige Indikatorvariablen,
mit P rob(Xi = 1) = pPund P rob(Xi = 0) = 1 − p für i = 1, . . . , n und
n
0 < p < 1, und X =
i=1 Xi . X ist also binomialverteilt X ∼ B(n, p) mit
E[X] = np µ. Dann gilt für jedes 0 < λ < 1
2 /3
P rob(X ≥ (1 + λ)µ) ≤ e−µλ
und
2 /2
P rob(X ≤ (1 − λ)µ) ≤ e−µλ
(∗)
(∗∗)
Beweis. Es gilt:
P rob(X ≥ m) = P rob(etX ≥ etm ) ≤
E[etX ]
.
etm
und
E[e−tX ]
.
e−tm
für ein beliebiges t ≥ 0. Wegen 1 + a ≤ ea und der Unabhängigkeit der Xi folgen
die Abschätzungen:
" n
#
n
h Pn
i
Y
Y
tX
tX
tXi
(
i)
i=1
E[e ] = E e
=E
e
=
E[etXi ]
P rob(X ≤ m) = P rob(e−tX ≥ e−tm ) ≤
t
n
i
pn(et −1)
= (pe + 1 − p) ≤ e
–8–
i=1
B EISPIEL : F IRST M OMENT M ETHOD - kSAT
4
und
−tX
E[e
h
Pn
] = E e(
= (pe
−t
i=1
−tXi )
i
"
=E
n
Y
#
−tXi
e
=
n
Y
i
pn(e−t −1)
n
E[e−tXi ]
i=1
+ 1 − p) ≤ e
Diese Ergebnisse oben eingesetzt:
t
P rob(X ≥ m) ≤ e−tm · epn(e −1)
und
−t −1)
P rob(X ≤ m) ≤ etm · epn(e
Setze nun in (∗) t = ln(m/pn), da in (∗) m ≥ pn und in (∗∗) t = ln(pn/m), da
in (∗∗) m ≤ pn
Daraus folgt für (∗):
P rob(X ≥ (1 + λ)µ) ≤
µ
(1 + λ)µ
(1+λ)µ
µ
(1 − λ)µ
(1−λ)µ
(1+λ)µ−µ
·e
eλ
(1 + λ)(1+λ)
µ
e−λ
(1 − λ)(1−λ)
µ
=
und für (∗∗):
P rob(X ≤ (1 − λ)µ) ≤
(1−λ)µ−µ
·e
=
Da λ − ln((1 + λ)(1+λ) ) ≤ −λ2 /3 für 0 < λ < 1 folgt die Behauptung (∗):
2 /3
P rob(X ≥ (1 + λ)µ) ≤ e−µλ
2 /2
Da (1 − λ)(1−λ) ≥ e−λ+λ
für 0 < λ < 1 folgt die Behauptung (∗∗):
2 /2
P rob(X ≤ (1 − λ)µ) ≤ e−µλ
4
Beispiel: First Moment Method - kSAT
Für jede Zufallsvariable X bezeichnet man E[X k ] als das k-te Moment von X.
So benutzt man in der First Moment Method die Größe E[X 1 ], also den Erwartungswert.
–9–
LITERATUR
Die First Moment Method besagt:
Wenn E[X] ≤ t, dann P rob(X ≤ t) > 0.
Wir wollen nun den folgenden Satz beweisen:
Satz 1. Jede Instanz des k-SAT mit weniger als 2k Klauseln ist erfüllbar.
Beweis. Man betrachte eine zufällig generierte Belegung, wobei jede Variable der
Formel unabhängig von den anderen mit gleicher Wahrscheinlichkeit auf true oder
false gesetzt wird. Seien Xi Indikatorvariablen definiert wie folgt:
(
1 falls i-te Klausel nicht erfüllt
Xi =
0 falls i-te Klausel erfüllt
Da es für jede Klausel 2k Belegungen gibt und nur eine Belegung die Klausel
nicht
Pn
1
erfüllt, ist P rob(Xi = 1) = 2k . Ferner sei die Zufallsvariable X = i=1 Xi die
Anzahl der unerfüllten Klauseln, wobei n die Anzahl der Klauseln in der Formel
sei.
" n
#
n
n
X
X
X
n
1
= k
E[X] = E
Xi =
E[Xi ] =
k
2
2
i=1
i=1
i=1
Da die Anzahl der Klauseln n < 2k , folgt E[X] < 1. Dann ist P rob(X < 1) > 0
(First Moment) und daraus folgt sofort P rob(X = 0) > 0. Also existiert eine
Belegung, so dass 0 Klauseln unerfüllt, d.h. alle Klauseln erfüllt sind.
Literatur
[1] J UKNA , S.: Extremal Combinatorics - With Applications in Computer
Science. Springer-Verlag, 2001.
– 10 –
Herunterladen