Die Probabilistische Methode Wladimir Fridman 233827 Hauptseminar im Sommersemester 2004 Extremal Combinatorics Zusammenfassung Die Probabilistische Methode ist ein mächtiges Werkzeug zum Führen von Existenzbeweisen. Dieser Seminarbeitrag stellt zunächst die Idee dieser Methode vor, sowie die stochastischen Grundlagen und drei wichtige Ungleichungen, die sich bei der Anwendung der Probabilistische Methode als sehr nützlich erweisen. Abschließend wird ein Satz mittels der Probabilistischen Methode bewiesen. Als Grundlage dieses Beitrags diente das Kapitel 17 des Buches „Extremal Combinatorics“ von Stasys Jukna. Inhaltsverzeichnis 1 Einleitung: Probabilistische Methode 3 2 Stochastische Grundlagen 3 3 Werkzeuge 6 3.1 Markov-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . 6 3.2 Tschebyscheff-Ungleichung . . . . . . . . . . . . . . . . . . . 6 3.3 Chernoff-Ungleichungen . . . . . . . . . . . . . . . . . . . . . 7 4 Beispiel: First Moment Method - kSAT 9 1 1 E INLEITUNG : P ROBABILISTISCHE M ETHODE Einleitung: Probabilistische Methode Die Probabilistische Methode wird dazu benutzt, Existenzbeweise zu führen. Diese Methode findet insbesondere Anwendung in der Kombinatorik und der Graphentheorie. Als ein sehr nützliches Mittel erweist sie sich auch in der Zahlentheorie und der kombinatorischen Geometrie. In der Informatik wird diese Methode zum Entwickeln effizienter Algorithmen und zur Problemanalyse angewandt. Man will also nachweisen, dass ein Objekt mit bestimmten Eigenschaften existiert. Dazu definiert man einen geeigneten Wahrscheinlichkeitsraum und zeigt, dass ein aus dem Wahrscheinlichkeitsraum zufällig gewähltes Objekt mit einer positiven Wahrscheinlichkeit die gewünschten Eigenschaften hat. Die Idee stützt sich auf das folgende Argument: Seien x1 , . . . , xn ∈ R und x1 + . . . + xn ≥a n dann existiert mindestens ein i ∈ {1, . . . , n}, so dass xi ≥ a. Die zwei Thesen, auf denen die Probabilistische Methode basiert, sind also: These 1 Eine Zufallsvariable X nimmt mindesten einen Wert X = x an, so dass x ≥ E[X], wobei E[X] der Erwartungswert von X ist. These 2 Wenn ein aus einem Universum zufällig gewähltes Objekt mit einer positiven Wahrscheinlichkeit bestimmte Eigenschaften hat, dann muss in diesem Universum auch ein Objekt mit diesen Eigenschaften existieren. Die Probabilistische Methode ist insofern mächtig, dass es oft einfacher ist, den Durchschnitt bzw. den Erwartungswert zu berechnen, als ein bestimmtes Objekt xi vorzuzeigen, um den Existenzbeweis zu führen. 2 Stochastische Grundlagen Definition 1 (Wahrscheinlichkeitsraum) Ein diskreter Wahrscheinlichkeitsraum wird durch eineP endliche Menge Ω und eine Funktion P rob : Ω → [0, 1] mit der Eigenschaft x∈Ω P rob(x) = 1 beschrieben. Ω heißt Ergebnismenge, P ot(Ω) Ereignismenge, wobei die Teilmengen A ⊆ Ω Ereignisse heißen. Die Wahrscheinlichkeit eines Ereignisses A ist definiert P durch P rob(A) = x∈A P rob(x). Man nennt P rob eine Wahrscheinlichkeitsverteilung. –3– 2 S TOCHASTISCHE G RUNDLAGEN Die folgenden Eigenschaften lassen sich leicht aus der Definition ableiten. Seien A, B und C1 , . . . , Cn Ereignisse und C1 , . . . , Cn eine Partition von Ω, dann gilt: • P rob(A ∪ B) = P rob(A) + P rob(B) − P rob(A ∩ B) • P rob(A) = 1 − P rob(A) • P rob(A ∩ B) ≥ P rob(A) − P rob(B) P • P rob(A) = ni=1 P rob(A ∩ Bi ) A bezeichne hier das Komplement von A (also A = Ω − A). Definition 2 (Bedingte Wahrscheinlichkeit) Seien A und B Ereignisse und P rob(B) 6= 0. P rob(A|B) P rob(A ∩ B) P rob(B) heißt bedingte Wahrscheinlichkeit von A unter der Bedingung B. Bedingte Wahrscheinlichkeit kann als Wahrscheinlichkeit für das Eintreten des Ereignisses A interpretiert werden, unter der Annahme, dass das Ereignis B bereits eingetreten ist. Sei A das Ereignis, dass bei einen fairen Würfel die Nummer 2 gewürfelt wird und B das Ereignis, dass die gewürfelte Nummer gerade ist, dann ist P rob(A|B) = 13 und P rob(B|A) = 1. Definition 3 (Stochastische Unabhängigkeit) Zwei Ereignisse A und B heißen stochastisch unabhängig, falls P rob(A|B) = P rob(A). (⇔ P rob(A ∩ B) = P rob(A) · P rob(B)) Ereignisse A1 , . . . , An heißen gemeinsam stochastisch unabhängig, falls P rob(Ai1 ∩ . . . ∩ Aik ) = P rob(Ai1 ) · . . . · P rob(Aik ) für beliebige 1 ≤ i1 < . . . < ik ≤ n, d.h. die Wahrscheinlichkeit eines beliebigen Durchschnitts lässt sich als das Produkt der Einzelwahrscheinlichkeiten bestimmen. Zu beachten ist, dass aus paarweiser stochastischer Unabhängigkeit nicht die gemeinsame stochastische Unabhängigkeit folgt. Definition 4 (Zufallsvariable) Eine Zufallsvariable ist eine auf dem Wahrscheinlichkeitsraum definierte Funktion X : Ω → S, wobei S ⊆ R. Die Verteilung einer Zufallsvariablen ist eine Funktion f : S → [0, 1], definiert als f (i) P rob(X = i), wobei P rob(X = i) die Wahrscheinlichkeit des Ereignisses A = {x ∈ Ω : X(x) = i} ist. –4– 2 S TOCHASTISCHE G RUNDLAGEN Beispiel (Indikatorvariable, Binomialverteilung): Betrachte n-fachen Münzwurf, sei p die Wahrscheinlichkeit für das Auftreten von Kopf. Die Würfe sind unabhängig voneinander. Ω = {(x1 , . . . , xn )|xi ∈ {0, 1}}, wobei xi = 1, falls Kopf fällt, xi = 0 andernfalls. Die Zufallsvariable X ist die Anzahl des AufPn tretens von Kopf, also i=1 xi . Die Verteilung von X ist X((x1 , . . . , xn )) = P rob(X = k) = nk pk (1 − p)n−k . Man sagt die Zufallsvariable X ist binomialverteilt mit Parametern n ∈ N und p ∈ [0, 1]. Hier kann man die xi als Indikatorvariablen ansehen, denn eine Indikatorvariable für ein Ereignis A ist eine ( 1 falls ω ∈ A Zufallsvariable XA : Ω → [0, 1], mit XA (ω) = 0 falls ω ∈ / A. Definition 5 (Erwartungswert) Der Erwartungswert einer Zufallsvariable X ist definiert durch: E[X] ∞ X xi · P rob(X = xi ) i=1 Seien X1 , . . . , Xn Zufallsvariablen und a ∈ R, dann gilt: • E[aX] = aE[X] • E[X1 + X2 + . . . + Xn ] = E[X1 ] + E[X2 ] + . . . + E[Xn ] (Linearität) • E[X1 · X2 · . . . · Xn ] = E[X1 ] · E[X2 ] · . . . · E[Xn ], falls X1 , . . . , Xn auch gemeinsam unabhängig. Definition 6 (Varianz) Die Varianz einer Zufallsvariable X ist definiert durch: V ar[X] E[(X − E[X])2 ] / = E[X 2 ] − (E[X])2 / Seien X und Y Zufallsvariablen und a ∈ R, dann gilt: • V ar[aX] = a2 V ar[X] • V ar[X + Y ] = V ar[X] + V ar[Y ], falls X und Y stochastisch unabhängig. Der Erwartungswert E[X] gibt den erwarteten (durchschnittlichen) Wert von X an, die Varianz V ar[X] die durchschnittliche Abweichung vom Erwartungswert. Sei X binomialverteilt, dann ist E[X] = np und V ar[X] = np(1 − p), denn " n # n n X X X E[X] = E Xi = E[Xi ] = p = np i=1 i=1 –5– i=1 3 W ERKZEUGE und " V ar[X] = V ar n X # Xi = i=1 = n X (p − p2 ) = V ar[Xi ] = i=1 n X i=1 3 n X n X (E[Xi 2 ] − (E[Xi ])2 ) i=1 p(1 − p) = np(1 − p) i=1 Werkzeuge Die folgenden drei Ungleichungen haben sich als sehr nützliche Werkzeuge bei der Anwendung der Probabilistischen Methode erwiesen. 3.1 Markov-Ungleichung Markov-Ungleichung. Sei X : Ω → R+ eine nicht-negative Zufallsvariable und λ ∈ R+ , dann gilt: E[X] . P rob(X ≥ λ) ≤ λ Oder äquivalent 1 P rob(X ≥ λ · E[X]) ≤ . λ Beweis. E[X] = X x 3.2 x · P rob(X = x) ≥ X λ · P rob(X = x) = λ · P rob(X ≥ λ) x≥λ Tschebyscheff-Ungleichung Tschebyscheff-Ungleichung. Sei X eine Zufallsvariable mit V ar[X] < ∞ und λ ∈ R+ , dann gilt P rob(|X − E[X]| ≥ λ) ≤ V ar[X] λ2 Beweis. Mit der Markov-Ungleichung folgt: P rob(|X−E[X]| ≥ λ) = P rob((X−E[X])2 ≥ λ2 ) ≤ –6– E[(X − E[X])2 ] V ar[X] = 2 λ λ2 3.3 Chernoff-Ungleichungen Beachte, dass hier die Markov-Ungleichung angewendet werden darf, denn |X − E[X]| und damit auch |X − E[X]|2 nicht negativ sind. Die Ungleichung gibt also eine obere Schranke für die Wahrscheinlichkeit, dass die Zufallsvariable von ihrem Erwartungswert um mehr als λ abweicht, an. 3.3 Chernoff-Ungleichungen Diese Ungleichungen kann mann als Spezialfälle der Markov-Ungleichung, daher mit einem größeren Informationsgehalt, ansehen, angewandt auf Summen von Zufallsvariablen Xi . (Chernoff-Ungleichung 1.) Seien X1 , . . . , Xn n unabhängige Zufallsvariablen, P mit P rob(Xi = 1) = P rob(Xi = −1) = 21 für i = 1, . . . , n, und X = ni=1 Xi , dann gilt für jedes λ > 0 2 /2n P rob(X ≥ λ) ≤ e−λ Beweis. Es gilt: P rob(X ≥ λ) = P rob(etX ≥ etλ ) ≤ E[etX ] . etλ für ein beliebiges t ≥ 0. Der erste Teil gilt, da exp(·) die Ordnung beibehält und der zweite folgt aus der Markov-Ungleichung. Wegen der Taylor-Entwicklung von e folgt: 1 t 1 −t e + e 2 2 t t2 t3 1 t t2 t3 1 = 1 + + + + ··· + 1 − + − + ··· 2 1! 2! 3! 2 1! 2! 3! 2 2k t t = 1 + 0 + + 0 + ··· + + ··· 2! (2k)! E[etXi ] = Wegen (2k)! ≥ (k!)2k folgt die Abschätzung: tXi E[e i ∞ ∞ ∞ X X X t2i 1 t2 t2i 2 ≤ = = et /2 ]= i (2i)! 2 (i!) i! 2 i=0 i=0 i=0 –7– 3 W ERKZEUGE Wegen der Unabhängigkeit der Xi : h E[e ] = E e( tX P i tXi ) " i # Y =E tXi e = i ≤ n Y 2 /2 et n Y E[etXi ] i=1 2 /2 = ent i=1 Dieses Ergebnis oben eingesetzt ergibt: 2 P rob(X ≥ λ) ≤ 2 /2−tλ Für t = λ/n nimmt ent E[etX ] ent /2 nt2 /2−tλ ≤ = e etλ etλ den kleinsten Wert an. Setze also t = λ/n: P rob(X ≥ λ) ≤ e n 2 2 ( nλ ) λ −n λ 2 /2n = e−λ (Chernoff-Ungleichung 2.) Seien X1 , . . . , Xn n unabhängige Indikatorvariablen, mit P rob(Xi = 1) = pPund P rob(Xi = 0) = 1 − p für i = 1, . . . , n und n 0 < p < 1, und X = i=1 Xi . X ist also binomialverteilt X ∼ B(n, p) mit E[X] = np µ. Dann gilt für jedes 0 < λ < 1 2 /3 P rob(X ≥ (1 + λ)µ) ≤ e−µλ und 2 /2 P rob(X ≤ (1 − λ)µ) ≤ e−µλ (∗) (∗∗) Beweis. Es gilt: P rob(X ≥ m) = P rob(etX ≥ etm ) ≤ E[etX ] . etm und E[e−tX ] . e−tm für ein beliebiges t ≥ 0. Wegen 1 + a ≤ ea und der Unabhängigkeit der Xi folgen die Abschätzungen: " n # n h Pn i Y Y tX tX tXi ( i) i=1 E[e ] = E e =E e = E[etXi ] P rob(X ≤ m) = P rob(e−tX ≥ e−tm ) ≤ t n i pn(et −1) = (pe + 1 − p) ≤ e –8– i=1 B EISPIEL : F IRST M OMENT M ETHOD - kSAT 4 und −tX E[e h Pn ] = E e( = (pe −t i=1 −tXi ) i " =E n Y # −tXi e = n Y i pn(e−t −1) n E[e−tXi ] i=1 + 1 − p) ≤ e Diese Ergebnisse oben eingesetzt: t P rob(X ≥ m) ≤ e−tm · epn(e −1) und −t −1) P rob(X ≤ m) ≤ etm · epn(e Setze nun in (∗) t = ln(m/pn), da in (∗) m ≥ pn und in (∗∗) t = ln(pn/m), da in (∗∗) m ≤ pn Daraus folgt für (∗): P rob(X ≥ (1 + λ)µ) ≤ µ (1 + λ)µ (1+λ)µ µ (1 − λ)µ (1−λ)µ (1+λ)µ−µ ·e eλ (1 + λ)(1+λ) µ e−λ (1 − λ)(1−λ) µ = und für (∗∗): P rob(X ≤ (1 − λ)µ) ≤ (1−λ)µ−µ ·e = Da λ − ln((1 + λ)(1+λ) ) ≤ −λ2 /3 für 0 < λ < 1 folgt die Behauptung (∗): 2 /3 P rob(X ≥ (1 + λ)µ) ≤ e−µλ 2 /2 Da (1 − λ)(1−λ) ≥ e−λ+λ für 0 < λ < 1 folgt die Behauptung (∗∗): 2 /2 P rob(X ≤ (1 − λ)µ) ≤ e−µλ 4 Beispiel: First Moment Method - kSAT Für jede Zufallsvariable X bezeichnet man E[X k ] als das k-te Moment von X. So benutzt man in der First Moment Method die Größe E[X 1 ], also den Erwartungswert. –9– LITERATUR Die First Moment Method besagt: Wenn E[X] ≤ t, dann P rob(X ≤ t) > 0. Wir wollen nun den folgenden Satz beweisen: Satz 1. Jede Instanz des k-SAT mit weniger als 2k Klauseln ist erfüllbar. Beweis. Man betrachte eine zufällig generierte Belegung, wobei jede Variable der Formel unabhängig von den anderen mit gleicher Wahrscheinlichkeit auf true oder false gesetzt wird. Seien Xi Indikatorvariablen definiert wie folgt: ( 1 falls i-te Klausel nicht erfüllt Xi = 0 falls i-te Klausel erfüllt Da es für jede Klausel 2k Belegungen gibt und nur eine Belegung die Klausel nicht Pn 1 erfüllt, ist P rob(Xi = 1) = 2k . Ferner sei die Zufallsvariable X = i=1 Xi die Anzahl der unerfüllten Klauseln, wobei n die Anzahl der Klauseln in der Formel sei. " n # n n X X X n 1 = k E[X] = E Xi = E[Xi ] = k 2 2 i=1 i=1 i=1 Da die Anzahl der Klauseln n < 2k , folgt E[X] < 1. Dann ist P rob(X < 1) > 0 (First Moment) und daraus folgt sofort P rob(X = 0) > 0. Also existiert eine Belegung, so dass 0 Klauseln unerfüllt, d.h. alle Klauseln erfüllt sind. Literatur [1] J UKNA , S.: Extremal Combinatorics - With Applications in Computer Science. Springer-Verlag, 2001. – 10 –