Chernoff-Schranke und Anwendungen

Werbung
Chernoff-Schranke und Anwendungen
Robert Lion Gottwald
1
Chernoff-Schranke
Pr[etX > et(1+δ) ]
Um die Wahrscheinlichkeit der Abweichung einer Zufallsvariable von ihrem Erwartungswert abzuschätzen lässt sich z.B. die Markov-Ungleichung
verwenden:
E[etX ]
et(1+δ)µ
<
t
=
i=1
et(1+δ)µ
=
Satz 1.1 (Chernoff-Schranke) Sei X =
n
P
n
Q
=
=
i=1
mit Pr[Xi = 1] = pi und Pr[Xi = 0] = 1 − pi , wobei
0 < pi < 1, eine Zufallsvariable, die die Erfolge von
n unabhängigen Bernoulli Experimenten zählt und
n
P
µ = E[X] =
E[Xi ] ihr Erwartungswert. Dann
<
=
i=1
Pr[X > (1 + δ) · µ] <
eδ
(1 + δ)(1+δ)
µ
=
(F + )
1 + pi (et − 1)
i=1
et(1+δ)µ
n
Q
t
epi (e −1)
i=1
−µδ 2
2
(1.4)
et(1+δ)µ
e
n
P
pi
i=1
et(1+δ)µ!
e(e −1)
et(1+δ)
µ
(1.1) ergibt sich durch Anwenden der MarkovUngleichung. Dabei folgt aus 0 < pi < 1, dass
die rechte Seite der Ungleichung echt kleiner
ist.
und für 0 < δ ≤ 1:
Pr[X > (1 − δ) · µ] < e
(1.3)
et(1+δ)µ
t
(F − )
(1.2) gilt, weil die Zufallsvariablen Xi unabhängig
sind und das Produkt sich daher nach außen
ziehen lässt.
Beweis: Für beliebiges t mit t ∈ R und t > 0 gilt:
(1.3) folgt, da wir die Verteilung von Xi kennen und
deshalb den Erwartungswert der Zufallsvariable etXi berechnen können: E[etXi ] = pi et·1 +
(1 − pi )et·0 .
für (F + )
Pr[X > (1 + δ) · µ]
=
pi et + 1 − pi
(et −1)
gilt für δ > 0:
(1.2)
i=1
n
Q
Xi
Xi
E[e i=1 ]
et(1+δ)µ
n
Q
E[etXi ]
1
Pr[X > t · E[X]] ≤
t
Diese Abschätzung ist allerdings nicht sehr gut
und verwendet keinerlei Struktur der Zufallsvariable.
Wenn wir zusätzlich annehmen, dass X die Summe
von unabhängigen Zufallsvariablen Xi ist, lässt sich
eine deutlich bessere Schranke beweisen.
n
P
(1.1)
Pr[etX > et(1+δ) ]
(1.4) ergibt sich durch Anwenden Ungleichung 1 +
t
[pi (et − 1)] < e[pi (e −1)] , die für t > 0 gilt.
für (F − )
Bei (F − ) ergeben die Umformungen bis hierhin
(e−t −1) µ
e
.
e−t(1−δ)
Pr[X < (1 − δ)µ]
=
Pr[−X > −(1 − δ)µ]
Wir haben den Beweis für ein beliebiges t > 0
geführt. Jetzt wählen wir t so, dass die Schranke am
stärksten wird, also die rechte Seite der Ungleichung
Die folgenden Umformungen funktionieren für (F − ) minimal. Ableiten nach t und Ausrechnen der Nullstellen der Ableitung liefert für (F + ) t = ln(1 + δ)
analog.
=
Pr[e−tX > e−t(1−δ)µ ]
1
und für (F − ) t = ln
1
1−δ
aus.
als Minima.
Die Schranke (F + ) folgt direkt durch einsetzen und
für (F − ) erhalten wir
<
<
Pr[X < (1 − δ)µ]
µ
e−δ
(1 − δ)(1−δ)
−δ µ
e
e−δ+
=
δ2
2
e
1
k=
2
1
=
2p
⇔
⇔
−δ 2 µ
2
Nun stellen wir (F − ) nach k um.
<
δ2
2
⇔
Damit haben wir sowohl (F + ) als auch (F − ) bewiesen.
⇔
⇔
e
µδ 2
2
Fehlerreduktion in BPP
k<
1
2
+ n−d
p·
(2p−1)2
4p2
1
n2d + 2nd · ln
1
Θ n2d · log
M 0 muss M für jedes konstante also polynomiell
oft unabhängig simulieren. Deshalb ist die Definition
für BPP für jede konstante Erfolgswahrscheinlichkeit
größer als 21 äquivalent.
Sei L ∈ BPP und M die probabilistische TM, die
L entscheidet. Des Weiteren sei p die Erfolgswahrschienlichkeit also
Nach Definition von BPP ist p ≥
konstantes d > 0.
−µδ 2
2
1
1
ln
1
ln
1
2 ln 1 2
µδ <
2
2
2p − 1
1
pk
<
2
2p
=
Im letzten Vortrag haben wir die Komplexitätsklasse
BPP kennengelernt. In diesem Abschnitt werden wir
mit Hilfe der Chernoff Schranke (F − ) Abschätzen,
wie oft man die probabilistische Turingmaschine einer Sprache aus BPP unabhängig wiederholen muss,
um die Fehlerwahrscheinlichkeit auf ein beliebiges
aber festes zu reduzieren.
e
<
=
p = Pr[M entscheidet richtig]
1
)
2p
2p − 1
2p
(1 −
=
(1.5)
⇔
2
(1 − δ)
δ=
Die Abschätzung bei (1.5) folgt aus der McLaurinEntwicklung von ln(1 − δ) für δ ∈ (0, 1], welche folgende Ungleichung liefert:
(1 − δ)(1−δ) > e−δ+
(1 − δ)pk
3
Verkabelungspoblem
Dieser Abschnitt befasst sich mit einem Verkabelungsproblem.
√ Die
√ Eingabe ist ein Feld aus Gattern
der Größe n · n und eine Menge von Gatterpaafür ein
ren, die verkabelt werden sollen. Letztere nennen wir
Netze.
Sei M 0 die Turingmaschine, die k mal unabhängig
voneinander M simuliert. Die Zufallsvariable Xi ist
1, wenn M in der i-ten Ausführung richtig entscheidet und sonst 0 für i ∈ [k]. Wir lassen M 0 akzeptieren, wenn M in mindestens der Hälfte der Fälle
n
P
richtig liegt, also wenn X =
Xi ≥ 21 k.
Das Ziel ist eine Verkabelung aller Netze, wobei
höchstens w Kabel durch eine Gattergrenze gehen
dürfen. Wir werden ein schwereres Optimierungsproblem betrachten bei dem w minimiert wird.
Dazu schränken wir die gültigen Verkabelungen weiter ein: Jede Verkabelung darf nur einen 90◦ knick
1
Die Fehlerwahrscheinlichkeit ist also Pr[X < 2 k]. haben. Die Kabel müssen also zunächst horizontal
Das lässt sich mit der Chernoff-Schranke abschätzen. und dann vertikal verlaufen oder andersherum.
Dazu rechnen wir zunächst den Wert für δ in (F − )
i=1
2
3.2
Ganzahliges Programm für das
Verkabelungsproblem
Zunächst definieren wir die Variablen für unser ganzzahliges Programm. Für jedes Netz i kriegt xih den
Wert 1 wenn die Verkabelung für i zuerst horizontal
verläuft und sonst den Wert 0. Analog dazu kriegt
xiv den Wert 1 wenn i zuerst vertikal verläuft. Um
die Formulierung des ganzzahligen Programms zu erleichtern definieren wir noch die Mengen Tbh für jede
Gattergrenze b.
Eine gültige Verkabelung
Tbh = {i | Netz i geht durch b wenn xih = 1}
Dadurch gibt es für jedes Netz höchstens zwei
mögliche Verkabelungen und wir können ein ganz- und analog T .
bv
zahliges Programm mit binären Variablen formulieren, das diesem Problem entspricht. Was das bedeu- Nun das ganzahlige Programm:
tet, soll im Folgenden kurz erklärt werden.
minimiere w
sodass
3.1
Lineare Programmierung
Ein lineares Programm ist ein Optimierungsproblem.
Dabei ist der Bergriff Programmieren“ im Sinne von
”
Planen“ zu verstehen. Die Eingabe besteht aus ei”
ner linearen Zielfunktion, die unter Beachtung von linearen Nebenbedingungen minimiert oder maximiert
werden soll.
Ein Einfaches Beispiel:
xih , xiv ∈ {0, 1}
∀i
xih + xiv = 1
X
X
xih +
xiv ≤ w
∀i
(3.1)
∀b
(3.2)
i∈Tbh
i∈Tbv
Dabei stellt die Bedingung (3.1) sicher, dass wir jedes Netz genau einmal verkabeln und die Bedinung
(3.2), dass durch jede Gattergrenze höchstens w Kabel gehen.
Allerdings ist auch diese spezielle Familie von ganzzahligen Programmen NP-schwer und kann deshalb
nicht effizient gelöst werden, falls P 6= NP ist. Stattdessen werden wir eine Technik verwenden, die sich
randomisiertes Runden nennt.
maximiere x1 + x2
sodass
x1 , x2 ∈ R
x1 ≥ 0
x2 ≥ 0
Dazu relaxieren wir die Ganzahligkeitsbedingung zu
0 ≤ x̂ih ≤ 1 und 0 ≤ x̂iv ≤ 1 mit x̂iv , x̂ih ∈ R. Dadurch erhalten wir ein lineares Programm, dass sich
effizient lösen lässt.
x2 − x1 ≤ 1
x1 + 6x2 ≤ 15
4x1 − x2 ≤ 10
Allerdings liefert uns das lineare Programm
möglicherweise nicht-ganzzahlige Werte für die Variablen, sodass dessen Lösung für das ursprüngliche
Für dieses Beispiel ist die optimale Lösung
ganzzalige Programm im Allgemeinen nicht gültig
ist. Aber wir können die Lösung des relaxierten lineax1 = 3
ren Programms als Wahrscheinlichkeiten interpretiex2 = 2
ren und durch Zufallsexperimente eine ganzzahlige
Lösung konstruieren. Diesen Prozess nennt man ranEs ist auch möglich, dass ein lineares Programm domisiertes Runden. Wir werden sehen, dass die so
keine Lösung hat oder die optimale Lösung unbe- konstruierte Lösung mit hoher Wahrscheinlichkeit
nicht sehr weit von der optimalen Lösung entfernt
schränkt ist.
liegt.
Lineares Programmieren ist sowohl in der Praxis als Im Folgenden seien die Bezeichner mit Hut die des
auch in der Theorie effizient lösbar und es gibt viele relaxierten linearen Programms und die Bezeichner
Probleme, die sich als lineares Programm formulieren mit Überstrich die unserer konstruierten Lösung.
lassen.
Die gerundete Lösung xiv und xih wird folgendermaErlaubt man Variablen aus Z sprechen wir von ei- ßen konstruiert: Wir setzen xiv auf 1 und xih auf 0
nem ganzzahligen Programm. Ein ganzzahliges Pro- mit Wahrscheinlichkeit x̂iv und sonst andersherum.
Es fällt auf, dass 1−x̂iv = x̂ih da die Nebenbedingung
gramm zu lösen ist im allgemeinen NP-schwer.
3
(3.1) im relaxierten linearen Programm immernoch
erfüllt wird.
Anwenden der Chernoff-Schranke liefert nun
h
i
≤
Pr w(b) > ŵ · ∆+ ŵ,
2n
2n
Um die Analyse dieses Algorithmus besser
durchführen zu können, defninieren wir folgende Notationen.
(3.8)
Jetzt sind wir fertig, da:
h
i
Pr w > ŵ · ∆+ ŵ,
F + (δ, µ) und F − (δ, µ) beschreiben die rechte Seite
2n
"
#
der Gleichungen (F + ) und (F − ).
_
+
= Pr
w(b) > ŵ · ∆ ŵ,
(3.9)
Definition 3.1 Sei ∆+ (µ, ) der Wert, der die Glei2n
b
chung
X h
i
F + (∆+ (µ, ), µ) = =
Pr w(b) > ŵ · ∆+ ŵ,
2n
b
erfüllt und ∆− (µ, ) analog.
X ≤
(3.10)
D.h. ∆+ (µ, ) ist der Wert für δ sodass die Wahr2n
b
scheinlichkeit, um den Faktor (1 + δ) vom Erwartungswert abzuweichen, kleiner als ist. Ausserdem (3.9) gilt, wegen w = max(w(b)).
b
sei wO der Wert einer optimalen Lösung.
(3.10) folgt aus der Abschätzung in (3.8).
Satz 3.1 (Analyse) Mit Wahrscheinlichkeit 1 − gilt
Da es n Gatter gibt mit je 4 Gattergrenzen und jede
Gattergrenze 1 oder 2 Gatter berührt, gibt es weniger
(3.3) als 4n
w ≤ ŵ · 1 + ∆+ ŵ,
2 = 2n Gattergrenzen. Dieses Abzählargument
2n liefert
dann das gewünschte Ergebnis:
≤ wO · 1 + ∆ + wO ,
(3.4)
X 2n
<
2n
b
Beweis: Die Ungleichung (3.4) folgt direkt daraus,
dass ŵ die optimale Lösung des relaxierten linearen
Programms und deshalb eine untere Schranke für den
Wert jeder optimalen Lösung des urpsprünglichen Da der Satz keine konkreten Zahlen enthält, bleibt
ganzzahligen Programms ist. Also bleibt (3.3) zu zei- die Frage wie gut diese Schranke ist. Um diese Frage
zu beantworten müssen wir Werte für und wO angen.
nehmen, weil ∆+ von diesen abhängt. Nehmen wir
Dazu wenden wir die Chernoff-Schranke für jede Gat- also an wir wollen für einen Wert von 1 erreichen.
n
tergrenze einzeln an. Dabei sei b eine beliebige Gat- Wenn wO = nc für ein positives konstantes c, dann
tergrenze und w(b) die Anzahl der Kabel, die in der liefert das Umformen von (3.4), dass mit Wahrscheingerundeten Lösung durch b hindurch gehen.
lichkeit 1 − n1
Zunächst rechnen wir den Erwartungswert von w(b)

s

2n
aus:
4
ln

w ≤ nc  1 +
X
X
nc
E[w(b)] =
E[xiv ] +
E[xih ]
(3.5)
i∈Tbv
i∈Tbh
D.h. wir finden mit hoher Wahrscheinlichkeit eine
(3.6) Lösung, die für große n nur sehr schwach vom Optii∈Tbv
i∈Tbh
mum abweicht.
≤ ŵ
(3.7) Falls wO = 20, ergibt sich, dass mit Wahrscheinlichkeit 1 − n1
(3.5) folgt aus der Linearität des Erwartungswerts.
log n
w=O
(3.6) ergibt sich für den Erwartungswert der Zufallslog log n
variablen, denn die Erfolgswahrscheinlichkeiten
Ist wO klein ist die Abweichung vom Optimum alsind die Variablen der optimalen Lösung des reso deutlich stärker und man kann leicht bessere Erlaxierten linearen Programms.
gebnisse erreichen. Beispielsweise liefert determinis(3.7) gilt wegen der Nebenbedingung (3.2) aus der tisches Runden der Lösung des relaxierten linearen
Formulierung des ganzahligen Programms.
Programms w ≤ 2wO .
=
X
x̂iv +
X
x̂ih
Verwendete Literatur
R. Motwani, P. Raghavan. Randomized Algorithms.
D. P. Williamson, D. B. Shmoys. The Design of Approximation Algorithms.
J. Matousek, B. Gärtner. Understanding and Using Linear Programming.
4
Herunterladen