Chernoff-Schranke und Anwendungen Robert Lion Gottwald 1 Chernoff-Schranke Pr[etX > et(1+δ) ] Um die Wahrscheinlichkeit der Abweichung einer Zufallsvariable von ihrem Erwartungswert abzuschätzen lässt sich z.B. die Markov-Ungleichung verwenden: E[etX ] et(1+δ)µ < t = i=1 et(1+δ)µ = Satz 1.1 (Chernoff-Schranke) Sei X = n P n Q = = i=1 mit Pr[Xi = 1] = pi und Pr[Xi = 0] = 1 − pi , wobei 0 < pi < 1, eine Zufallsvariable, die die Erfolge von n unabhängigen Bernoulli Experimenten zählt und n P µ = E[X] = E[Xi ] ihr Erwartungswert. Dann < = i=1 Pr[X > (1 + δ) · µ] < eδ (1 + δ)(1+δ) µ = (F + ) 1 + pi (et − 1) i=1 et(1+δ)µ n Q t epi (e −1) i=1 −µδ 2 2 (1.4) et(1+δ)µ e n P pi i=1 et(1+δ)µ! e(e −1) et(1+δ) µ (1.1) ergibt sich durch Anwenden der MarkovUngleichung. Dabei folgt aus 0 < pi < 1, dass die rechte Seite der Ungleichung echt kleiner ist. und für 0 < δ ≤ 1: Pr[X > (1 − δ) · µ] < e (1.3) et(1+δ)µ t (F − ) (1.2) gilt, weil die Zufallsvariablen Xi unabhängig sind und das Produkt sich daher nach außen ziehen lässt. Beweis: Für beliebiges t mit t ∈ R und t > 0 gilt: (1.3) folgt, da wir die Verteilung von Xi kennen und deshalb den Erwartungswert der Zufallsvariable etXi berechnen können: E[etXi ] = pi et·1 + (1 − pi )et·0 . für (F + ) Pr[X > (1 + δ) · µ] = pi et + 1 − pi (et −1) gilt für δ > 0: (1.2) i=1 n Q Xi Xi E[e i=1 ] et(1+δ)µ n Q E[etXi ] 1 Pr[X > t · E[X]] ≤ t Diese Abschätzung ist allerdings nicht sehr gut und verwendet keinerlei Struktur der Zufallsvariable. Wenn wir zusätzlich annehmen, dass X die Summe von unabhängigen Zufallsvariablen Xi ist, lässt sich eine deutlich bessere Schranke beweisen. n P (1.1) Pr[etX > et(1+δ) ] (1.4) ergibt sich durch Anwenden Ungleichung 1 + t [pi (et − 1)] < e[pi (e −1)] , die für t > 0 gilt. für (F − ) Bei (F − ) ergeben die Umformungen bis hierhin (e−t −1) µ e . e−t(1−δ) Pr[X < (1 − δ)µ] = Pr[−X > −(1 − δ)µ] Wir haben den Beweis für ein beliebiges t > 0 geführt. Jetzt wählen wir t so, dass die Schranke am stärksten wird, also die rechte Seite der Ungleichung Die folgenden Umformungen funktionieren für (F − ) minimal. Ableiten nach t und Ausrechnen der Nullstellen der Ableitung liefert für (F + ) t = ln(1 + δ) analog. = Pr[e−tX > e−t(1−δ)µ ] 1 und für (F − ) t = ln 1 1−δ aus. als Minima. Die Schranke (F + ) folgt direkt durch einsetzen und für (F − ) erhalten wir < < Pr[X < (1 − δ)µ] µ e−δ (1 − δ)(1−δ) −δ µ e e−δ+ = δ2 2 e 1 k= 2 1 = 2p ⇔ ⇔ −δ 2 µ 2 Nun stellen wir (F − ) nach k um. < δ2 2 ⇔ Damit haben wir sowohl (F + ) als auch (F − ) bewiesen. ⇔ ⇔ e µδ 2 2 Fehlerreduktion in BPP k< 1 2 + n−d p· (2p−1)2 4p2 1 n2d + 2nd · ln 1 Θ n2d · log M 0 muss M für jedes konstante also polynomiell oft unabhängig simulieren. Deshalb ist die Definition für BPP für jede konstante Erfolgswahrscheinlichkeit größer als 21 äquivalent. Sei L ∈ BPP und M die probabilistische TM, die L entscheidet. Des Weiteren sei p die Erfolgswahrschienlichkeit also Nach Definition von BPP ist p ≥ konstantes d > 0. −µδ 2 2 1 1 ln 1 ln 1 2 ln 1 2 µδ < 2 2 2p − 1 1 pk < 2 2p = Im letzten Vortrag haben wir die Komplexitätsklasse BPP kennengelernt. In diesem Abschnitt werden wir mit Hilfe der Chernoff Schranke (F − ) Abschätzen, wie oft man die probabilistische Turingmaschine einer Sprache aus BPP unabhängig wiederholen muss, um die Fehlerwahrscheinlichkeit auf ein beliebiges aber festes zu reduzieren. e < = p = Pr[M entscheidet richtig] 1 ) 2p 2p − 1 2p (1 − = (1.5) ⇔ 2 (1 − δ) δ= Die Abschätzung bei (1.5) folgt aus der McLaurinEntwicklung von ln(1 − δ) für δ ∈ (0, 1], welche folgende Ungleichung liefert: (1 − δ)(1−δ) > e−δ+ (1 − δ)pk 3 Verkabelungspoblem Dieser Abschnitt befasst sich mit einem Verkabelungsproblem. √ Die √ Eingabe ist ein Feld aus Gattern der Größe n · n und eine Menge von Gatterpaafür ein ren, die verkabelt werden sollen. Letztere nennen wir Netze. Sei M 0 die Turingmaschine, die k mal unabhängig voneinander M simuliert. Die Zufallsvariable Xi ist 1, wenn M in der i-ten Ausführung richtig entscheidet und sonst 0 für i ∈ [k]. Wir lassen M 0 akzeptieren, wenn M in mindestens der Hälfte der Fälle n P richtig liegt, also wenn X = Xi ≥ 21 k. Das Ziel ist eine Verkabelung aller Netze, wobei höchstens w Kabel durch eine Gattergrenze gehen dürfen. Wir werden ein schwereres Optimierungsproblem betrachten bei dem w minimiert wird. Dazu schränken wir die gültigen Verkabelungen weiter ein: Jede Verkabelung darf nur einen 90◦ knick 1 Die Fehlerwahrscheinlichkeit ist also Pr[X < 2 k]. haben. Die Kabel müssen also zunächst horizontal Das lässt sich mit der Chernoff-Schranke abschätzen. und dann vertikal verlaufen oder andersherum. Dazu rechnen wir zunächst den Wert für δ in (F − ) i=1 2 3.2 Ganzahliges Programm für das Verkabelungsproblem Zunächst definieren wir die Variablen für unser ganzzahliges Programm. Für jedes Netz i kriegt xih den Wert 1 wenn die Verkabelung für i zuerst horizontal verläuft und sonst den Wert 0. Analog dazu kriegt xiv den Wert 1 wenn i zuerst vertikal verläuft. Um die Formulierung des ganzzahligen Programms zu erleichtern definieren wir noch die Mengen Tbh für jede Gattergrenze b. Eine gültige Verkabelung Tbh = {i | Netz i geht durch b wenn xih = 1} Dadurch gibt es für jedes Netz höchstens zwei mögliche Verkabelungen und wir können ein ganz- und analog T . bv zahliges Programm mit binären Variablen formulieren, das diesem Problem entspricht. Was das bedeu- Nun das ganzahlige Programm: tet, soll im Folgenden kurz erklärt werden. minimiere w sodass 3.1 Lineare Programmierung Ein lineares Programm ist ein Optimierungsproblem. Dabei ist der Bergriff Programmieren“ im Sinne von ” Planen“ zu verstehen. Die Eingabe besteht aus ei” ner linearen Zielfunktion, die unter Beachtung von linearen Nebenbedingungen minimiert oder maximiert werden soll. Ein Einfaches Beispiel: xih , xiv ∈ {0, 1} ∀i xih + xiv = 1 X X xih + xiv ≤ w ∀i (3.1) ∀b (3.2) i∈Tbh i∈Tbv Dabei stellt die Bedingung (3.1) sicher, dass wir jedes Netz genau einmal verkabeln und die Bedinung (3.2), dass durch jede Gattergrenze höchstens w Kabel gehen. Allerdings ist auch diese spezielle Familie von ganzzahligen Programmen NP-schwer und kann deshalb nicht effizient gelöst werden, falls P 6= NP ist. Stattdessen werden wir eine Technik verwenden, die sich randomisiertes Runden nennt. maximiere x1 + x2 sodass x1 , x2 ∈ R x1 ≥ 0 x2 ≥ 0 Dazu relaxieren wir die Ganzahligkeitsbedingung zu 0 ≤ x̂ih ≤ 1 und 0 ≤ x̂iv ≤ 1 mit x̂iv , x̂ih ∈ R. Dadurch erhalten wir ein lineares Programm, dass sich effizient lösen lässt. x2 − x1 ≤ 1 x1 + 6x2 ≤ 15 4x1 − x2 ≤ 10 Allerdings liefert uns das lineare Programm möglicherweise nicht-ganzzahlige Werte für die Variablen, sodass dessen Lösung für das ursprüngliche Für dieses Beispiel ist die optimale Lösung ganzzalige Programm im Allgemeinen nicht gültig ist. Aber wir können die Lösung des relaxierten lineax1 = 3 ren Programms als Wahrscheinlichkeiten interpretiex2 = 2 ren und durch Zufallsexperimente eine ganzzahlige Lösung konstruieren. Diesen Prozess nennt man ranEs ist auch möglich, dass ein lineares Programm domisiertes Runden. Wir werden sehen, dass die so keine Lösung hat oder die optimale Lösung unbe- konstruierte Lösung mit hoher Wahrscheinlichkeit nicht sehr weit von der optimalen Lösung entfernt schränkt ist. liegt. Lineares Programmieren ist sowohl in der Praxis als Im Folgenden seien die Bezeichner mit Hut die des auch in der Theorie effizient lösbar und es gibt viele relaxierten linearen Programms und die Bezeichner Probleme, die sich als lineares Programm formulieren mit Überstrich die unserer konstruierten Lösung. lassen. Die gerundete Lösung xiv und xih wird folgendermaErlaubt man Variablen aus Z sprechen wir von ei- ßen konstruiert: Wir setzen xiv auf 1 und xih auf 0 nem ganzzahligen Programm. Ein ganzzahliges Pro- mit Wahrscheinlichkeit x̂iv und sonst andersherum. Es fällt auf, dass 1−x̂iv = x̂ih da die Nebenbedingung gramm zu lösen ist im allgemeinen NP-schwer. 3 (3.1) im relaxierten linearen Programm immernoch erfüllt wird. Anwenden der Chernoff-Schranke liefert nun h i ≤ Pr w(b) > ŵ · ∆+ ŵ, 2n 2n Um die Analyse dieses Algorithmus besser durchführen zu können, defninieren wir folgende Notationen. (3.8) Jetzt sind wir fertig, da: h i Pr w > ŵ · ∆+ ŵ, F + (δ, µ) und F − (δ, µ) beschreiben die rechte Seite 2n " # der Gleichungen (F + ) und (F − ). _ + = Pr w(b) > ŵ · ∆ ŵ, (3.9) Definition 3.1 Sei ∆+ (µ, ) der Wert, der die Glei2n b chung X h i F + (∆+ (µ, ), µ) = = Pr w(b) > ŵ · ∆+ ŵ, 2n b erfüllt und ∆− (µ, ) analog. X ≤ (3.10) D.h. ∆+ (µ, ) ist der Wert für δ sodass die Wahr2n b scheinlichkeit, um den Faktor (1 + δ) vom Erwartungswert abzuweichen, kleiner als ist. Ausserdem (3.9) gilt, wegen w = max(w(b)). b sei wO der Wert einer optimalen Lösung. (3.10) folgt aus der Abschätzung in (3.8). Satz 3.1 (Analyse) Mit Wahrscheinlichkeit 1 − gilt Da es n Gatter gibt mit je 4 Gattergrenzen und jede Gattergrenze 1 oder 2 Gatter berührt, gibt es weniger (3.3) als 4n w ≤ ŵ · 1 + ∆+ ŵ, 2 = 2n Gattergrenzen. Dieses Abzählargument 2n liefert dann das gewünschte Ergebnis: ≤ wO · 1 + ∆ + wO , (3.4) X 2n < 2n b Beweis: Die Ungleichung (3.4) folgt direkt daraus, dass ŵ die optimale Lösung des relaxierten linearen Programms und deshalb eine untere Schranke für den Wert jeder optimalen Lösung des urpsprünglichen Da der Satz keine konkreten Zahlen enthält, bleibt ganzzahligen Programms ist. Also bleibt (3.3) zu zei- die Frage wie gut diese Schranke ist. Um diese Frage zu beantworten müssen wir Werte für und wO angen. nehmen, weil ∆+ von diesen abhängt. Nehmen wir Dazu wenden wir die Chernoff-Schranke für jede Gat- also an wir wollen für einen Wert von 1 erreichen. n tergrenze einzeln an. Dabei sei b eine beliebige Gat- Wenn wO = nc für ein positives konstantes c, dann tergrenze und w(b) die Anzahl der Kabel, die in der liefert das Umformen von (3.4), dass mit Wahrscheingerundeten Lösung durch b hindurch gehen. lichkeit 1 − n1 Zunächst rechnen wir den Erwartungswert von w(b) s 2n aus: 4 ln w ≤ nc 1 + X X nc E[w(b)] = E[xiv ] + E[xih ] (3.5) i∈Tbv i∈Tbh D.h. wir finden mit hoher Wahrscheinlichkeit eine (3.6) Lösung, die für große n nur sehr schwach vom Optii∈Tbv i∈Tbh mum abweicht. ≤ ŵ (3.7) Falls wO = 20, ergibt sich, dass mit Wahrscheinlichkeit 1 − n1 (3.5) folgt aus der Linearität des Erwartungswerts. log n w=O (3.6) ergibt sich für den Erwartungswert der Zufallslog log n variablen, denn die Erfolgswahrscheinlichkeiten Ist wO klein ist die Abweichung vom Optimum alsind die Variablen der optimalen Lösung des reso deutlich stärker und man kann leicht bessere Erlaxierten linearen Programms. gebnisse erreichen. Beispielsweise liefert determinis(3.7) gilt wegen der Nebenbedingung (3.2) aus der tisches Runden der Lösung des relaxierten linearen Formulierung des ganzahligen Programms. Programms w ≤ 2wO . = X x̂iv + X x̂ih Verwendete Literatur R. Motwani, P. Raghavan. Randomized Algorithms. D. P. Williamson, D. B. Shmoys. The Design of Approximation Algorithms. J. Matousek, B. Gärtner. Understanding and Using Linear Programming. 4