Die probabilistische Methode Skript zur Vorlesung im Wintersemester 2004/2005 an der Fakultät für Mathematik und Informatik der Friedrich-Schiller-Universität Jena PD Dr. Aicke Hinrichs 2 Inhaltsverzeichnis 1 Einführung in die Methode 1.1 Ramsey-Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Summenfreie Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Wahrscheinlichkeitstheoretische Grundbegriffe . . . . . . . . . . . . . 3 4 7 9 2 Elementare Prinzipien bei der Anwendung der probabilistischen Methode 2.1 Die Linearität des Erwartungswerts . . . . . . . . . . . . . . . . . . . 2.2 Kleine Modifikationen . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Große Anticliquen . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Graphen mit weiter Taille und großer chromatischer Zahl . . 2.2.3 Packungen konvexer Mengen . . . . . . . . . . . . . . . . . . 2.3 Die Zweite-Momenten-Methode . . . . . . . . . . . . . . . . . . . . . 2.3.1 Mengen mit verschiedenen Summen . . . . . . . . . . . . . . 2.3.2 Anzahl von Primfaktoren . . . . . . . . . . . . . . . . . . . . 12 12 15 16 17 20 22 24 27 3 Konzentrationsungleichungen 3.1 Summen unabhängiger Bernoulli-Variablen . . . 3.1.1 Kombinatorische Diskrepanz . . . . . . . 3.1.2 Ein Spiel . . . . . . . . . . . . . . . . . 3.2 Summen beschränkter unabhängiger Variablen 3.3 Geometrische Diskrepanz . . . . . . . . . . . . 30 31 34 35 36 39 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapitel 1 Einführung in die Methode Die probabilistische Methode ist eine bemerkenswerte Technik für den Beweis der Existenz von mathematischen Objekten mit vorgegebenen Eigenschaften. Sie benutzt die Wahrscheinlichkeitstheorie, wird aber oft zum Beweis von Resultaten verwendet, die überhaupt nichts mit Wahrscheinlichkeiten zu tun haben. Grundlegender Ansatz: Wir möchten die Existenz eines Objektes mit spezifischen Eigenschaften zeigen. Unglücklicherweise ist eine explizite Konstruktion schwierig, vielleicht unmöglich. Wir betrachten nun ein geeignetes Wahrscheinlichkeitsmaß auf der Klasse aller zulässigen Objekte. Wir zeigen, daß die Wahrscheinlichkeit, daß ein zufällig ausgewähltes Objekt dieser Klasse die gewünschte Eigenschaft hat, positiv ist. Folglich muß es ein solches Objekt geben, anderenfalls wäre die Wahrscheinlichkeit für so ein „gutes“ Objekt ja Null. Pionier dieser Methode war Paul Erdös1 , der ab 1947 eine beachtliche Anzahl von Resultaten mit dieser Methode erzielt hat. Die erste Anwendung auf ein kombinatorische Problem stammt von T. Szele 1943. Erdös war allerdings derjenige, der die ganze Kraft der Methode erkannt und genutzt hat. Die Methode wird in so verschiedenen Gebieten wie Graphentheorie, Kombinatorik, Zahlentheorie, Geometrie, Analysis und Numerik angewendet. In der Informatik gibt es einen ganzen Zweig, der sich mit randomisierten Algorithmen beschäftigt und ebenfalls grundlegend die probabilistische Methode nutzt. Ziel dieser Vorlesung ist es, die vielfältigen Anwendungen der Methode zu demonstrieren. Die beste Möglichkeit 1 1913-1996 4 1.1 Ramsey-Zahlen dazu ist, konkrete Probleme zu behandeln, womit wir auch gleich beginnen wollen. 1.1 Ramsey-Zahlen Das Problem: Es sei eine gewisse Anzahl N von Personen gegeben, von denen sich je zwei entweder gegenseitig kennen oder gegenseitig nicht kennen. Wir möchten ausschließen, daß sich unter diesen N Personen • k befinden, die sich alle kennen oder • l befinden, die sich alle nicht kennen. Wie groß kann N sein? Wir wollen das Problem zunächst in ein graphentheoretisches Problem umformulieren. Ein (ungerichteter einfacher) Graph G = (V, E) ist eine Menge V (die Menge der Knoten - vertices) zusammen mit einer Teilmenge E der zweielementigen Teilmengen von G (den Kanten - edges). Die Ordnung von G ist |G| := |V |. Eine Clique in G ist eine Teilmenge C ⊂ V , so daß alle zweielementigen Teilmengen von C Kanten von G sind. Eine Anticlique oder unabhängige Menge in G ist eine Teilmenge A ⊂ V , so daß keine der zweielementigen Teilmengen von A Kante von G ist. Das obige Problem kann nun folgendermaßen in die Graphensprache übersetzt werden. Die Knoten unseres Graphen seien gerade die betrachteten N Personen, wir haben also einen Graphen der Ordnung N . Zwei Knoten werden genau dann durch eine Kante verbunden, wenn sich die beiden Personen kennen. Eine Clique ist dann eine Gruppe von Personen, die sich alle gegenseitig kennen. Eine Anticlique ist eine Gruppe von Personen, unter denen es überhaupt keine Bekanntschaften gibt. Problemformulierung: Sei G ein Graph, der weder eine Clique der Größe k noch eine Anticlique der Größe l enthält. Wie groß kann N = |G| sein? Der folgende Satz von Ramsey2 gibt eine obere Schranke. Theorem 1. Für jedes k, l ∈ N gibt es eine kleinste Zahl R(k, l) - die RamseyZahl zu k, l - so daß jeder Graph der Ordnung R(k, l) eine Clique der Größe k (eine 2 Frank Plumpton Ramsey (1903–1930) Kapitel 1. Einführung in die Methode 5 k-Clique) oder eine Anticlique der Größe l (eine l-Anticlique) enthält. Dabei gilt ¶ µ k+l−2 . (1.1) R(k, l) ≤ k−1 Beweis. Wir beweisen dies durch Doppelinduktion über k, l. Der Induktionsanfang R(k, 1) = R(1, l) = 1 für alle k, l ist offensichtlich, da jede einpunktige Knotenmenge sowohl Clique als auch Anticlique ist. Wir zeigen nun für k, l ≥ 2 R(k, l) ≤ R(k − 1, l) + R(k, l − 1). (1.2) Durch Induktion folgt dann tatsächlich die Ungleichung (1.1) wegen µ ¶ µ ¶ µ ¶ k+l−3 k+l−3 k+l−2 R(k, l) ≤ R(k − 1, l) + r(k, l − 1) ≤ + = . k−2 k−1 k−1 Zum Beweis der Ungleichung (1.2) betrachten wir einen Graph G = (V, E) mit |V | = R(k − 1, l) + R(k, l − 1) und fixieren einen Knoten v ∈ V . Sei V1 ⊂ V die Mengen der Knoten, die durch eine Kante mit v verbunden sind. Sei V2 die Menge der Knoten, die nicht durch eine Kante mit v verbunden sind. Wegen |V1 | + |V2 | = R(k − 1, l) + R(k, l − 1) − 1 gilt zumindest eine der Ungleichungen |V1 | ≥ R(k − 1, l) oder |V2 | ≥ R(k − 1, l). Ist |V1 | ≥ R(k − 1, l), so finden wir unter den Knoten von V1 nach Definition von R(k − 1, l) eine (k − 1)-Clique oder eine l-Anticlique. Tritt das erstere ein, so bildet diese (k − 1)-Clicqe zusammen mit v eine k-Clique in G. In jedem Fall finden wir also eine k-Clique oder eine l-Anticlique. Gleiches zeigt man ganz analog im Fall |V2 | ≥ R(k − 1, l), womit der Beweis abgeschlossen ist. ¡ ¢ ¡2k−3¢ ¡2k−3¢ 2k−3 Folgerung: R(k, k) ≤ 2k−2 k−1 = k−1 + k−2 ≤ 2 Wir wenden uns jetzt dem Problem zu, eine untere Abschätzung für R(k, k) zu finden. Dazu müssen wir möglichst große Graphen finden, die weder k-Cliquen noch k-Anticliquen enthalten. Hier kommt die probabilistische Methode zur Anwendung. Theorem 2. (P. Erdös 1947) Für jedes k ≥ 2 gilt R(k, k) ≥ 2k/2 . 6 1.1 Ramsey-Zahlen Beweis. Man überzeugt sich leicht von R(2, 2) = 2 und R(3, 3) = 6. Sei also jetzt k ≥ 4 und N < 2k/2 . Wir wollen einen Graph G = (V, E) mit N Knoten finden, der keine k-Clique und keine k-Anticlique enthält. Dazu konstruieren wir G probabilistisch, indem wir für jede potentielle Kante eine Münze werfen und je nach Ausgang die Kante dazunehmen oder nicht. Mit anderen Worten: Eine Kante taucht in unserem Graphen genau mit Wahrscheinlichkeit 1/2 auf, alle unabhängig voneinander. Dann erhalten wir also jeden vorgegebenen Graphen G auf den N Knoten mit N Wahrscheinlichkeit 2−( 2 ) . Sei jetzt A ⊂ V eine Teilmenge mit |A| = k. Die Wahrscheinlichkeit, daß die A eine ¡ ¢ k Clique in unserem zufälligen Graphen ist, ist 2−(2) . Da es insgesamt Nk Teilmengen der Kardinalität k gibt, ist die Wahrscheinlichkeit, daß es in unserem Graphen ¡ ¢ k eine k-Clique gibt höchstens Nk 2−(2) . Aus Symmetriegründen gilt gleiches für die Wahrscheinlichkeit, daß es in unserem Graphen eine k-Anticlique gibt. Ist also µ ¶ N −(k ) 2 (1.3) 2 2 < 1, k so ist die Wahrscheinlichkeit, einen Graphen ohne k-Clique und k-Anticlique zu erhalten, positiv. Es muß also so einen Graph geben! ¡ ¢ k Es bleibt also noch (1.3) zu zeigen. Dazu benutzen wir die Abschätzung Nk ≤ 2N k−1 , die wir in Lemma 3 beweisen. Dann folgt tatsächlich wegen k ≥ 4 und N < 2k/2 µ ¶ k Nk N −(k) 2 2 2 2 ≤ 2 k−1 2−(2) ≤ 21+k /2−(k−1)−k(k−1)/2 = 22−k/2 < 1. k 2 Lemma 3. Für N ≥ k ≥ 2 gilt Beweis. ¡N ¢ k ≤ Nk . 2k−1 µ ¶ N Nk N (N − 1) . . . (N − k + 1) ≤ k−1 . = 2 · 3...k 2 k Bemerkungen: 1. Man kann natürlich einwenden, daß man den Beweis ebensogut durch „Abzählen“ durchführen kann. Dieser Einwand trifft auf fast alle Anwendungen Kapitel 1. Einführung in die Methode der probabilistischen Methode zu. Durch Verwendung von Wahrscheinlichkeiten werden solche Beweise aber einerseits oft durchsichtiger, sind einfacher zu finden, und, was wohl das wichtigste Argument sein dürfte, ermöglichen die Anwendung tieferliegender Methoden aus der Wahrscheinlichkeitstheorie. Wir werden noch Gelegenheit haben, dies zu sehen. 2. Auch Abschätzungen für R(k, l) nach unten sind möglich, siehe Aufgabe 3. 3. Nur sehr wenige Ramsey-Zahlen sind explizit bekannt (abgesehen von R(k, 1) = R(1, k) = 1 und R(k, 2) = R(2, k) = k). Eine Übersicht über den aktuellen Stand findet man im Web auf der Seite http://www.combinatorics.org/Surveys/ds1.pdf. 1.2 Summenfreie Mengen Wir wollen nun ein weiteres einfaches Beispiel für die Anwendung der probabilistischen Methode behandeln. Diesmal handelt es sich um ein Ergebnis aus der Zahlentheorie. Untersuchen wollen wir die Existenz großer summenfreier Teilmengen von beliebigen endlichen Mengen ganzer Zahlen. Eine Menge A ⊂ Z heißt summenfrei, wenn es keine a1 , a2 , a3 ∈ A mit a1 + a2 = a3 gibt. Natürlich kann eine solche Menge nicht die 0 enthalten. Ist jetzt B ⊂ Z eine beliebige Menge, wie große summenfreie Teilmengen von B existieren dann? Zur Vorbereitung wollen wir den Begriff der Summenfreiheit auf Teilmengen beliebiger abelscher Gruppen verallgemeinern. Eine Teilmenge A einer abelschen Gruppe G heißt summenfrei, wenn es keine a1 , a2 , a3 ∈ A mit a1 + a2 = a3 gibt. Insbesondere benötigen wir die zyklische Gruppe Zp = {0, 1, . . . , p − 1} ausgerüstet mit der Addition modulo p. Sei jetzt p = 3k + 2 mit einer natürlichen Zahl k. Dann ist die Menge C = {k + 1, k + 2, . . . , 2k + 1} ⊂ Zp summenfrei, da für beliebige a1 , a2 ∈ C offenbar (Addition modulo p!) a1 + a2 ∈ {0, . . . , k} ∪ {2k + 2, . . . , 3k + 1} = Zp \ C gilt. C ist also eine summenfreie Teilmenge von Zp mit |C| = k + 1. Diese spezielle summenfreie Menge werden wir im Beweis des folgenden Theorems verwenden. 7 8 1.2 Summenfreie Mengen Theorem 4. (P. Erdös 1965) Jede Menge von n von 0 verschiedenen ganzen Zahlen enthält eine summenfreie Teilmenge mit mehr als n/3 Elementen. Beweis. Sei B = {b1 , . . . , bn } eine solche Menge. Sei p = 3k + 2 eine Primzahl mit p > |bi |. Die Existenz beliebig großer Primzahlen dieser Form folgt aus einem berühmten zahlentheoretischen Resultat von Dirichlet, welches besagt, daß es zu beliebigen teilerfremden Zahlen a, b unendlich viele Primzahlen der Form ak + b gibt. Einen direkten kurzen Beweis dieser Tatsache im benötigten Spezialfall geben wir im Anschluß an diesen Beweis an. Wir wählen jetzt zufällig eine Zahl x ∈ {1, 2, . . . , p − 1}, jedes x mit gleicher Wahrscheinlichkeit 1/p − 1. Wir finden nun di ∈ {1, 2, . . . , p − 1} für i = 1, . . . , n mit di = xbi mod p. Wir halten zunächst i fest. Durchläuft x alle Zahlen in {1, . . . , p − 1}, so überlegt man sich leicht, daß di ebenfalls alle Zahlen in {1, . . . , p − 1} ⊂ Zp durchläuft. Ist C die Menge von oben, so ist also die Wahrscheinlichkeit dafür, daß di ∈ C ist, gleich k+1 1 |C| = > . p−1 3k + 1 3 Folglich ist der Erwartungswert der Anzahl der i ∈ {1, . . . , n} mit di ∈ C größer als n/3. Es gibt also ein x, so daß |{i ∈ {1, . . . , n} : di ∈ C}| > n 3 gilt. Wir fixieren dieses x und setzen I = {i ∈ {1, . . . , n} : di ∈ C} und A = {bi : i ∈ I}. Dann ist |A| > n/3. Wir zeigen schließlich, daß A summenfrei ist. Anderenfalls gäbe es i, j, k ∈ I mit bi + bj = bk . Dies impliziert aber xbi + xbj = xbk und folglich auch di + dj = dk , letzteres in Zp . Dies ist aber wegen di , dj , dk ∈ C ein Widerspruch zur Summenfreiheit von C. Bemerkung: N. Alon, D. Kleitman (1990) haben die folgende Aussage über summenfreie Mengen in beliebigen abelschen Gruppen bewiesen: Jede Menge von n von Kapitel 1. Einführung in die Methode 0 verschiedenen Elementen einer abelschen Gruppe enthält eine summenfreie Teilmenge mit mehr als 2n/7 Elementen. Hier ist der Faktor 2/7 optimal. Die optimale Konstante in Theorem 4 ist nicht bekannt. Der Satz von Dirichlet sagt aus, daß es zu gegebenen teilerfremden Zahlen a ≥ 2, b ≥ 1 unendlich viele Primzahlen der Form ak + b gibt. Dieser allgemeine Satz ist relativ schwierig zu beweisen. Wie versprochen wollen wir noch ein kurzes Argument anführen, daß es unendlich viele Primzahlen der Form 3k + 2 gibt. Dieses verläuft ähnlich wie der Beweis von Euklid für die Unendlichkeit der Menge der Primzahlen. Nehmen wir also an, daß es nur endlich viele Primzahlen der Form 3k + 2 gibt. Sei die größte Primzahl dieser Form pn , wobei p0 = 2, p1 = 3, p2 , . . . , pn die Folge aller Primzahlen bis pn ist. Wir setzen nun N = 2 · 3 · . . . · pn − 1. Dann läßt N bei Division durch 3 offenbar den Rest 2. Da keine der Primzahlen p0 , p1 , . . . , pn ein Teiler von N ist, müssen alle Promteiler von N größer als pn sein und somit bei Division durch 3 den Rest 1 lassen. Damit läßt aber auch N bei Division durch 3 den Rest 1, ein Widerspruch. 1.3 Wahrscheinlichkeitstheoretische Grundbegriffe In diesem Abschnitt wollen wir kurz die Grundlagen der Wahrscheinlichkeitstheorie wiederholen, die wir in den folgenden Vorlesungen benötigen. Wahrscheinlichkeitsraum: Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, Σ, P), wobei Ω eine Menge, Σ ⊂ 2Ω eine σ-Algebra von Teilmengen von Ω und P ein Wahrscheinlichkeitsmaß auf Σ ist. Die Elemente von Σ heißen Ereignisse, die Elemente von Ω Elementarereignisse. Für A ∈ Σ heißt P(A) die Wahrscheinlichkeit des Ereignisses A. Wir werden oft endliche Wahrscheinlichkeitsräume betrachten, wo Ω eine endliche Menge und Σ = 2Ω die σ-Algebra aller Teilmengen von Ω ist. Dann ist ein Wahrscheinlichkeitsmaß P auf Ω bestimmt durch eine Funktion p : Ω → [0, 1] mit X ω∈Ω p(ω) = 1. 9 10 1.3 Wahrscheinlichkeitstheoretische Grundbegriffe Beispiel: Sei 0 ≤ p ≤ 1. Der Wahrscheinlichkeitsraum G(n, p) der zufälligen Graphen hat als Elementarereignisse alle Graphen auf einer fixierten Menge von n Knoten, wobei die Wahrscheinlichkeit für einen Graph mit m Kanten gegeben ist durch n P(G) = pm (1 − p)( 2 )−m . Jede potentielle Kante kommt also in G mit der Wahrscheinlichkeit p vor, und alle diese Kanten sind unabhängig voneinander. Wir haben beim Beweis des Theorems 2 schon mit dem Wahrscheinlichkeitsraum G(n, 1/2) gearbeitet. In diesem sind alle Graphen gleich wahrscheinlich. Auch folgende einfache Tatsache haben wir uns bereits zunutze gemacht: Fakt: Seien A1 , . . . , An Ereignisse. Dann gilt P n ¡[ i=1 n ¢ X Ai ≤ P(Ai ). i=1 Unabhängigkeit: Ereignisse A1 , . . . , An heißen unabhängig, wenn für jede Teilmenge I ⊂ {1, . . . , n} ¡\ ¢ Y Ai = P(Ai ). P i∈I i∈I Intuitiv bedeutet dies, daß man aus der Tatsache, daß einige der Ereignisse A1 , . . . , An aufgetreten sind, nichts über die übrigen Ereignisse schließen kann. Bedingte Wahrscheinlichkeit: Sind A, B Ereignisse mit P(B) > 0, so heißt der Quotient P(A ∩ B) P(A | B) = P(B) die bedingte Wahrscheinlichkeit für A unter der Voraussetzung, daß B auftritt. Sind A, B unabhängig, so gilt offenbar P(A | B) = P(A). Zufallsvariable: Eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, Σ, P) ist eine P-meßbare Funktion X : Ω → R. Die Verteilungsfunktion von X ist die Funktion FX (a) = F (a) = P(X < a) = P({ω ∈ Ω : X(ω) < a}). Der Erwartungswert von X berechnet sich als Z EX = X(ω)dP(ω). Ω Kapitel 1. Einführung in die Methode 11 Den folgenden einfachen Fakt haben wir ebenfalls bereits benutzt. Fakt: Es gibt ω1 , ω2 ∈ Ω mit X(ω1 ) ≤ EX und X(ω2 ) ≥ EX. Die reellen Zufallsvariablen X1 , . . . , Xn heißen unabhängig, wenn für alle a1 , . . . , an ∈ R n Y P(Xi < ai ) P(X1 < a1 , . . . , Xn < an ) = i=1 gilt. Eine beliebige Menge reeller Zufallsvariablen heißt unabhängig, wenn jede endliche Teilmenge unabhängig ist. Fakt: Sind X, Y unabhängige reelle Zufallsvariable, so gilt E(XY ) = EX · EY . 12 Kapitel 2 Elementare Prinzipien bei der Anwendung der probabilistischen Methode In diesem Kapitel wollen wir an Beispielen studieren, welche einfachen Prinzipien wichtig für die Nutzung der probabilistischen Methode sind. Dazu gehören insbesondere • die Linearität des Erwartungswerts • kleine Modifikationen • das zweite Moment - die Chebyshev-Ungleichung 2.1 Die Linearität des Erwartungswerts Fakt: Sind X, Y reelle Zufallsvariable und a, b ∈ R, so gilt E(aX +bY ) = aEX +bEY . Beweis. E(aX + bY ) Z (aX + bY )dP = a Ω Z Ω XdP + b Z Ω Y dP = aEX + bEY. Kapitel 2. Elementare Prinzipien für die probabilistische Methode Folgerung: Ist X = X1 + . . . + Xn , so gilt EX = EX1 + . . . + EXn . Zum Berechnen des Erwartungswerts einer reellen Zufallsvariablen kann man dieses Prinzip oft nutzen, wenn sich X als eine Summe von Indikatorvariablen darstellen läßt. Die zu einem Ereignis A gehörige Indikatorvariable ist gegeben durch ( 1 für ω ∈ A IA (ω) = 0 für ω ∈ / A. Es gilt EIA = P(A) wegen EIA = Z IA (ω)dP(ω) = Ω Z dP = P(A). A Kann man also X schreiben als X = IA1 + . . . + IAn , so läßt sich der Erwartungswert von X berechnen als EX = P(A1 ) + . . . + P(An ). Die Anwendung dieses Prinzips wollen wir an der historisch ersten Nutzung der probabilistischen Methode in einer Arbeit von T. Szele 1943 illustrieren. Dabei geht es um folgendes Problem. Ein Wettkampf mit n Teilnehmern sei eine Orientierung des vollständigen Graphen der Ordnung n ( das ist der Graph auf n Knoten mit allen möglichen Kanten). Hierbei bedeutet Orientierung, daß wir jeder Kante {u, v} genau eine der beiden möglichen Richtungen (u, v) oder (v, u) geben. Von den möglichen gerichteten Kanten (u, v) und (v, u) ist also genau eine vorhanden. Ein Hamiltonkreis in einem Wettkampf ist ein gerichteter Weg, der jeden Knoten genau einmal passiert. Ist die Knotenmenge die Menge {1, 2, . . . , n}, so stellt eine Permutation σ der Menge {1, 2, . . . , n} genau dann einen Hamiltonkreis im Wettkampf W dar, wenn (σ(i), σ(i + 1)) ∈ W ist für alle i = 1, . . . , n − 1. Wie viele Hamiltonkreise kann es in einem Wettkampf geben? Theorem 5. Es gibt einen Wettkampf mit n Teilnehmern und mindestens Hamiltonkreisen. n! 2n−1 13 14 2.1 Die Linearität des Erwartungswerts Beweis. Wir betrachten zufällige Wettkämpfe W auf den Knoten {1, . . . , n}, indem wir jeder Kante (unabhängig von den anderen Kanten) eine zufällige Richtung geben, wobei jede der beiden möglichen Richtungen mit Wahrscheinlichkeit 1/2 auftritt. Sei X die Anzahl der Hamiltonkreise in unserem zufälligen Wettkampf. X ist eine reelle Zufallsvariable, die wir nun in eine Summe von Indikatorvariablen zerlegen wollen, um anschließend den Erwartungswert von X zu berechnen. Dazu sei σ eine Permutation der Menge {1, 2, . . . , n} und Xσ sei die Indikatorvariable zu dem Ereignis, daß alle Kanten (σ(i), σ(i + 1)) in dieser Richtung in W auftreten. Wie oben schon beobachtet, ist dies gerade das Ereignis, daß (σ(1), σ(2), . . . , σ(n)) in dieser Reihenfolge einen Hamiltonkreis in W bilden. Dann ist also X= X Xσ σ eine Zerlegung von X in Indikatorvariable. Da die Kantenorientierungen unabhängig voneinander gewählt werden, erhalten wir ¡ ¢ EXσ = P (σ(i), σ(i + 1)) ∈ W für i = 1, . . . , n − 1 = n−1 Y i=1 P((σ(i), σ(i + 1)) ∈ W ) = n−1 Y i=1 1 1 = n−1 . 2 2 Nun folgt mit der Linearität des Erwartungswerts EX = X σ EXσ = n! . 2n−1 Es muß also einen Wettkampf W geben, der mindestens diese Anzahl von Hamiltonkreisen hat. Wir wollen ein weiteres Beispiel für die Anwendung der Linearität des Erwartungswertes anführen. Diesmal stammt die Motivation aus der Algorithmentheorie. Wir betrachten das MAXCUT-Problem. Ist G = (V, E) ein Graph, so fragt dieses Problem nach der Zerlegung (CUT) der Knotenmenge V in zwei Mengen A, B = V \ A, so daß die Anzahl der Kanten, die zwischen A und B verlaufen, maximiert wird (MAX). Dieses Problem ist algorithmisch schwer (NP-vollständig). Das folgende Theorem sagt aus, daß man immer einen CUT mit der Hälfte aller Kanten findet. Kapitel 2. Elementare Prinzipien für die probabilistische Methode Theorem 6. Zu jedem Graph mit m Kanten gibt es einen CUT mit mindestens m/2 Kanten zwischen den beiden Mengen des CUTs. Beweis. Sei G = (V, E) der betrachtete Graph mit |E| = m. Wir wählen eine zufällige Teilmenge A ⊂ V , indem wir jeden Knoten aus V mit Wahrscheinlichkeit 1/2 zu A hinzunehmen, alle Knoten unabhängig voneinander. Zu jeder Kante e = {u, v} ∈ E betrachten wir die Zufallsvariable ( 1 falls genau einer der Knoten u, v in A ist Xe = 0 sonst. Dies ist offenbar eine Indikatorvariable mit EXe = P((u ∈ A & v ∈ / A) oder (u ∈ / A & v ∈ A)) = 1 1 1 + = . 4 4 2 Ist nun X die Zahl aller Kanten mit genau einem Knoten in A, also gerade die Anzahl der Kanten des CUTs A, B = V \ A, so gilt EX = X EXe = e∈E m . 2 Es muß also eine Menge A geben, für die die Anzahl der Kanten zwischen A und V \ A mindestens m/2 ist. 2.2 Kleine Modifikationen Häufig kommt es vor, daß die Anwendung der probabilistischen Methode nicht ganz das gewünschte „gute“ Objekt liefert. Wenn das Objekt aber „fast gut genug“ ist, kann man versuchen, es deterministisch so abzuändern, daß man schließlich doch bekommt, worauf man eigentlich aus war. Dies ist ein weiteres Prinzip, auf daß man oft trifft und dessen Anwendung wir in diesem Abschnitt studieren wollen. An dieser Stelle ist es sinnvoll, eine einfache Ungleichung aus der Wahrscheinlichkeitstheorie einzuführen, die abschätzt, wie wahrscheinlich es ist, daß eine Zufallsvariable ihren Erwartungswert übertrifft. In den folgenden Kapiteln werden wir noch weit schärfere Ungleichungen dieser Art beweisen und benutzen. Für die Beispiele dieses Abschnitts genügt uns die 15 16 2.2 Kleine Modifikationen Markov-Ungleichung. Sei X eine nichtnegative reelle Zufallsvariable und sei a > 0. Dann gilt EX P(X ≥ a) ≤ a. Beweis. Aus der Nichtnegativität von X folgt Z Z Z EX = XdP ≥ XdP ≥ Ω 2.2.1 {ω:X≥a} adP = aP(X ≥ a). {ω:X≥a} Große Anticliquen Wir wollen uns in diesem Beispiel überlegen, wie große Anticliquen ein Graph mit n Knoten und m Kanten haben kann. Dazu führen wir einige weitere Begriffe aus der Graphentheorie ein. Sei also G = (V, E) ein Graph. Der Grad d(v) eines Knotens v ∈ V ist die Anzahl der Kanten, die v enthalten. Der durchschnittliche Grad des Graphen G ist d = 2m n , wobei m = |E| die Anzahl der Kanten und n = |V | die Anzahl der Knoten von G ist. Die Anticliquenzahl bzw. Unabhängigkeitszahl α(G) ist die Kardinalität der größten Anticlique in G. Ein berühmtes Theorem von Turán beinhaltet die Abschätzung α(G) ≥ n . d+1 Extremale Graphen für ganzzahliges d findet man übrigens als disjunkte Vereinigungen von (d + 1)-Cliquen. Wir zeigen mit einem einfachen probabilistischen Argument etwa die Hälfte des Turán-Theorems. Theorem 7. α(G) ≥ n . 2d Beweis. Wir wählen wieder eine zufällige Teilmenge A ⊂ V , diesmal nehmen wir jeden Knoten mit Wahrscheinlichkeit p, unabhängig voneinander. Das konkrete p bestimmen wir später. Wir definieren zwei Zufallsvariablen X und Y . Sei X = |A|. Y sei die Anzahl der Kanten von G in dem von G auf A induzierten Graphen. Dies ist einfach der Graph Kapitel 2. Elementare Prinzipien für die probabilistische Methode mit der Knotenmenge A, der alle Kanten aus G enthält, die Knoten in A haben. Dann gilt 1 EX = pn und EY = mp2 = ndp2 . 2 Es folgt E(X − Y ) = pn(1 − pd/2). Dann muß es also eine Teilmenge A der Knotenmenge V geben, für die die Differenz aus der Anzahl der Knoten (|A|) und der Kanten in A ≥ pn(1 − pd/2) ist. Wir modifizieren nun A, indem wir einfach von jeder Kante, die sich noch im von G induzierten Graph befindet, einen Knoten entfernen. Dadurch ändert sich die Differenz aus Anzahl der Knoten und Anzahl der Kanten nicht. Übrig bleibt aber eine Menge B, in der G keine Kanten mehr hat - eine Anticlique. Außerdem ist |B| ≥ pn(1 − pd/2). Wir müssen schließlich nur noch p = 1/d (optimal) wählen, um |B| ≥ n/(2d) zu erhalten. 2.2.2 Graphen mit weiter Taille und großer chromatischer Zahl Unser nächstes Beispiel stammt ebenfalls aus der Graphentheorie. Dazu benötigen wir zwei weitere graphentheoretische Invarianten. Die chromatische Zahl χ(G) eines Graphen G ist die kleinste Anzahl von Farben, mit denen man die Knoten des Graphen so färben kann, daß die Endpunkte jeder Kante verschiedene Farben erhalten. Man könnte vermuten, daß ein Graph mit hoher chromatischer Zahl auch einen großen vollständigen Teilgraphen enthalten muß, da es ja schwierig ist, ihn mit wenigen Farben zu färben. Wir wollen in diesem Abschnitt einsehen, daß das Gegenteil der Fall ist. Ein erstes Ergebnis in diese Richtung wurde von B. Descartes um 1940 gefunden, die Graphen mit beliebig hoher chromatischer Zahl konstruiet hat, die trotzdem keine Dreiecke enthalten. Diese Beispiele enthielten allerdings viele Kreise der Länge 4. Ein Kreis in einem Graphen G = (V, E) ist eine Folge v1 , . . . , vn von paarweise 17 18 2.2 Kleine Modifikationen verschiedenen Knoten, so daß {vi , vi+1 } ∈ E und {vn , v1 } ∈ E sind. Die Taillenweite γ(G) eines Graphen G ist die Länge eines kürzesten Kreises. Es gibt natürlich kreisfreie Graphen, sogenannte Wälder, deren chromatische Zahl 2 ist, die also für unsere Betrachtungen hier keine Rolle spielen. Können wir Graphen finden, die keine Kreise kleiner Länge haben, aber trotzdem viele Farben zum Färben benötigen? Die positive Antwort gibt das folgende Theorem von P. Erdös (1959). Theorem 8. Zu jedem k ≥ 3 gibt es einen Graphen mit chromatischer Zahl mindestens k und Taillenweite mindestens k. Zur Vorbereitung überlegen wir uns, daß für jeden Graph G mit n Knoten und Anticliquenzahl α(G) n χ(G) ≥ α(G) gilt. Tatsächlich müssen ja bei einer zulässigen Färbung von G die Knoten, die eine gemeinsame Farbe erhalten, eine Anticlique bilden und somit Kardinalität höchstens α(G) haben. Dann folgt aber α(G)χ(G) ≥ n. Um das Theorem zu beweisen, genügt es also, Graphen mit relativ kleiner Anticliquenzahl, aber großer Taillenwmeite zu konstruieren. Außerdem benötigen wir die elementare Ungleichung 1 + x ≤ ex für alle reellen x, die sich sofort aus der Konvexität der Exponentialfunktion f (x) = ex und f (0) = f 0 (0) = 1 ergibt. Beweis. Wir benutzen unseren Wahrscheinlichkeitsraum G(n, p) mit k p = n− k+1 . Für eine feste Menge aus r Knoten ist die Wahrscheinlichkeit, daß diese Menge eine r Anticlique bildet, gleich (1 − p)(2) . Damit erhalten wir µ ¶ ¡ r r−1 ¢r n (1 − p)(2) ≤ n(1 − p) 2 . P(α(G) ≥ r) ≤ r Mit der Abschätzung 1 − p ≤ e−p erhalten wir ¡ ¢r P(α(G) ≥ r) ≤ ne−p(r−1)/2 . Kapitel 2. Elementare Prinzipien für die probabilistische Methode Wir zeigen jetzt, daß ¡ n¢ 1 < P α(G) ≥ 2k 2 (2.1) 1 für genügend großes n gilt. Dazu beobachten wir, daß n k+1 ≥ 6k log n für genügend großes n gilt, was dann k 6k log n p = n− k+1 ≥ n n impliziert. Mit r = d 2k e folgt pr ≥ 3 log n und somit r e −p(r−1)/2 −pr/2 p/2 −3 log n/2 1/2 ne = ne e ≤ ne e = . n Dies geht für n → ∞ gegen 0, somit auch P(α(G) ≥ r) ≤ ³ e ´r/2 n . Wir schauen uns nun die Taillenweite von G an. Zunächst wollen wir zeigen, daß G „nicht zuviel“ Kreise der Länge ≤ k enthält. Sei also 3 ≤ h ≤ k und A ⊂ V eine Menge mit |A| = h. Die Zahl der möglichen Kreise der Länge h, die aus den Knoten aus A gebildet werden können, ist gleich der halben Anzahl der zyklischen Permutationen von A: (h − 1)! . 2 Jeder dieser Kreise hat Wahrscheinlichkeit ph . Ist nun X die Gesamtzahl der Kreise mit einer Länge ≤ k, so erhalten wir mittels Linearität des Erwartungswerts EX = k µ ¶ X n (h − 1)! h=3 h 2 k ph ≤ 1X h h 1 n p ≤ (k − 2)nk pk 2 2 h=3 1 wegen np = n k+1 ≥ 1. Schließlich wenden wir noch die Markov-Ungleichung an: ¡ 1 (k − 2)nk pk n ¢ EX ≤ = (k − 2)n− k+1 . P X≥ ≤ 2 n/2 n Also gilt für genügend großes n auch ¡ n¢ 1 < . P X≥ 2 2 Zusammen mit (2.1) liefert uns die letzte Ungleichung also einen Graphen G mit 19 20 2.2 Kleine Modifikationen • α(G) < n 2k • Die Anzahl der Kreise in G mit Länge ≤ k ist kleiner als n 2. Wir modifizieren nun noch den Graphen G, indem wir aus jedem tatsächlich vorkommenden Kreis der Länge ≤ k einen Knoten entfernen und somit alle Kreise der Länge ≤ k beseitigen. Den resultierenden Graphen wollen wir H nennen. Dann hat H offenbar • ≥ n 2 Knoten • Taillenweite γ(G) > k • α(H) < n 2k , also auch χ(H) ≥ n/2 n/2 > = k. α(H) n/2k Solch einen Graphen haben wir gerade gesucht! 2.2.3 Packungen konvexer Mengen Ein wichtiges Teilgebiet der Geometrie beschäftigt sich mit guten Packungen und Überdeckungen von Räumen (wie etwa des euklidischen Raumes Rd oder der Sphäre Sd−1 = {x ∈ Rd : kxk2 = 1}) mit Kugeln oder allgemeineren Mengen, z.B. konvexen Mengen. Zwei typische Beispiele sind das Kepler-Problem und das DiktatorenProblem. Kepler-Problem: Gesucht ist die dichteste Packung von Kugeln mit Radius 1 in Rd . (J. Kepler hat das Problem für d = 3 formuliert und die tatsächlich optimale Packung vermutet.) Diktatoren-Problem: Man verteile n Punkte (Diktatoren) auf der Sphäre Sd−1 derart, daß der minimale Abstand zwischen verschiedenen Punkten maximiert wird. Die optimale Lösung für das Kepler-Problem kennt man nur für d = 2 und d = 3. Letzteres wurde erst vor ein paar Jahren unter massivem Computereinsatz von T. Hales bewiesen. Auch die optimale Lösung des Diktatorenproblems ist nur für wenige Paare (d, n) mit d ≥ 3 bekannt. Kapitel 2. Elementare Prinzipien für die probabilistische Methode Gute Packungen und Überdeckungen in Räumen großer Dimension kann man oft mittels der probabilistischen Methode finden. Wir wollen uns hier das folgende allgemeine Packungsproblem anschauen. Sei K ⊂ Rd eine beliebige beschränkte meßbare Menge. Wie dicht kann man kongruente Kopien von K ohne Überlappungen packen? Zur genauen Problemformulierung sei W (x) der Würfel [0, x]d mit Seitenlänge x. Eine Packung von K in W (x) ist eine Familie paarweise disjunkter kongruenter Kopien von K, die alle in W (x) enthalten sind. Sei f (x) die maximale Kardinalität einer Packung von K in W (x). Die Packungsdichte definieren wir dann als δ(K) = lim x→∞ f (x) . xd Man kann zeigen, daß dieser Limes existiert. Ohne diese Tatsache könner wir in folgendem Theorem einfach den Limes durch den Limes inferior ersetzen. Theorem 9. Sei K ⊂ Rd eine beschränkte konvexe zentralsymmetrische Menge mit Mittelpunkt 0. Dann gilt δ(K) ≥ 2−d−1 . Beweis. Wir wählen Punkte P1 , . . . , Pn in W (x) zufällig unabhängig voneinander mit uniformer Verteilung, d.h. P(Pi ∈ A) = |A| |A| = d |W (x)| x für jede meßbare Menge A ⊂ W (x). Unsere Kopien von K seien Ki = Pi + K, i = 1, . . . , n. Wir haben zwei Probleme. Einerseits können sich einige der Ki überlappen, außerdem können einige der Ki über den Rand von W (x) hinausragen. Behandel wir zunächst das erste Problem. Wir berechnen zunächst die Wahrscheinlichkeit, daß sich Ki und Kj für i 6= j überlappen. In diesem Fall muß es Qi , Qj ∈ K mit Pi + Qi = Pj + Qj geben. Also gilt wegen der Konvexität und Symmetrie von K Pi − Pj = Qj − Qi = 2 Qj − Qi ∈ 2K. 2 Folglich ist Pi ∈ Pj + 2K, was mit Wahrscheinlichkeit P(Ki ∩ Kj 6= ∅) ≤ P(Pi ∈ Pj + 2K) = |2K| xd eintritt. Wir folgern |2K| 2d |K| = . xd xd 21 22 2.3 Die Zweite-Momenten-Methode Sei nun X die Anzahl der Paare (i, j) mit i < j, für die sich Ki und Kj überlappen. Die Linearität des Erwartungswertes liefert nun µ ¶ X n d −d EX = P(Ki ∩ Kj 6= ∅) ≤ 2 x |K| ≤ n2 2d−1 x−d |K|. 2 1≤i<j≤n Folglich gibt es Punkte K1 , . . . , Kn mit höchstens dieser Anzahl von sich überlappenden Ki , Kj . Für je zwei sich überlappende Ki ∩ Kj 6= ∅ nehmen wir entweder Ki oder Kj aus unserer Familie von Kopien heraus und erhalten eine Packung aus mindestens n − n2 2d−1 x−d |K| Kopien von K. Zum Maximieren setzen wir n = xd 2−d |K|−1 , wobei wir nur noch solche x betrachten, für die dies eine ganze Zahl liefert. Wir erhalten eine Packung aus mindestens xd 2−d−1 |K|−1 Kopien. Nicht alle diese Kopien liegen aber ganz in W (x). Um dieses Problem zu behandeln, sei s > 0 so, daß K ⊂ [−s, s]d gilt. Dann liegen alle unsere Kopien Ki in [−s, x + s]d und somit in einem Würfel mit Kantenlänge x + 2s. Wir erhalten f (x + 2s) ≥ xd 2−d−1 |K|−1 und folglich |K|f (x + 2s) ≥ lim δ(K) ≥ lim x→∞ x→∞ (x + 2s)d 2.3 µ x x + 2s ¶d 2−d−1 . Die Zweite-Momenten-Methode In diesem Abschnitt wollen wir neben dem Erwartungswert die nächste wichtige Charakteristik einer Zufalssvariable benutzen - ihere Varianz. Sie ist ein Maß dafür, wie sehr eine Zufallsvariable um ihren Erwartungswert schwankt. Für eine konstante Zufallsvariable ist die Varianz 0. Kapitel 2. Elementare Prinzipien für die probabilistische Methode Die Varianz einer reellen Zufallsvariable X ist definiert als Var X = E(X − EX)2 = EX 2 − (EX)2 . EX 2 heißt zweites Moment und σ = σ(X) = √ Var X Standardabweichung von X. Die Varianz ist nicht linear wie der Erwartungswert. Wollen wir die Varianz einer Summe zweier Zufallsvariablen berechnen, so müssen wir etwas über ihre Abhängigkeit wissen. Dazu brauchen wir die Covarianz Cov (X, Y ) = E((X − EX)(Y − EY )) = E(XY ) − EX · EY. Sind X und Y unabhängig, so ist ihre Covarianz 0. Lemma 10. Var n X Xi = n X i=1 i=1 X Var Xi + 2 Cov (Xi , Xj ). 1≤i<j ≤ n Beweis. Var n X i=1 n n n n ´ ´ ³ X ´ ³ X ³X X Xj Xi · E Xj − E Xi = E Xi · = i=1 n X i,j=1 E(Xi Xj ) − n X i,j=1 EXi · EXj n X = (EXi2 − (EXi )2 ) + 2 i=1 = n X Var Xi + 2 i=1 j=1 i=1 j=1 X X (E(Xi Xj ) − EXi · EXj ) 1≤i<j ≤ n Cov (Xi , Xj ). 1≤i<j ≤ n Sind also X1 , . . . , Xn unabhängig (hier genügt sogar paarweise Unabhängigkeit), so gilt n n X X Var Xi = Var Xi . i=1 i=1 Die Zweite-Momenten-Methode besteht in der Anwendung der 23 24 2.3 Die Zweite-Momenten-Methode Chebyshev-Ungleichung: Ist X eine reelle Zufallsvariable mit endlicher Varianz und t > 0, dann gilt Var X σ2 P(|X − EX| ≥ t) ≤ = . t2 t2 Die Chebyshev-Ungleichung ist nichts anderes als die Markov-Ungleichung für die Zufallsvariable (X − EX)2 und a = t2 . Verlangt man von der Zufallsvariablen X nichts als Endlichkeit der Varianz, so ist die Chevbyshev-Ungleichung optimal. Um dies einzusehen, kann man die dreiwertige Zufallsvariable ( a mit Wahrscheinlichkeit p X= a ± t mit Wahrscheinlichkeit 1−p 2 betrachten. X hat Erwartungswert a, Varianz (1 − p)t2 und erfüllt P(|X − a| ≥ t) = 1 − p, also Gleichheit in der Chevbyshev-Ungleichung. Für viele Zufallsvariable ist die Chevbyshev-Ungleichung aber sehr schlecht. Ist X eine normalverteilte Zufallsvariable mit Erwartungswert µ und Varianz σ 2 , dann gilt Z ∞ 2 2 P(|X − µ| ≥ t) = √ e−t /2 dt, 2π t/σ was asymptotisch zu ist. 2.3.1 2 2 √2 σ e−t /2σ π t und somit für großes t wesentlich kleiner als σ2 t2 Mengen mit verschiedenen Summen Diesmal wenden wir uns zur Demonstration der zweiten Momentenmethode wieder einem Problem aus der additiven Zahlentheorie zu. Wir wollen sagen, daß eine Menge {x1 , . . . , xk } von natürlichen Zahlen verschiedene Summen hat, falls alle Summen X xi ; S ⊂ {1, . . . , k} i∈S paarweise verschieden sind. Ein offensichtliches Beispiel erhält man mit xi = 2i . Sei nun f (n) die maximale Kardinalität einer Teilmenge von {1, 2, . . . , n} mit verschiedenen Summen. Das gerade angeführte Beispiel zeigt, daß sicherlich f (n) ≥ 1 + blog2 nc Kapitel 2. Elementare Prinzipien für die probabilistische Methode gilt. Wie gut ist diese Abschätzung? Für die Lösung des folgenden Problems hat P. Erdös 300 $ offeriert. Problem: Gibt es eine Konstante C, so daß f (n) ≤ log2 n + C für alle n ist? Wir wollen zunächst (ohne die probabilistische Methode) die Abschätzung f (n) ≤ log2 n + log2 log2 n + C beweisen. Dazu sei also eine Menge der Kardinalität k in {1, 2, . . . , n}, die verschiedene Summen hat. Es gibt also 2k verschiedene Summen, die man aus Elementen der Menge bilden kann, und alle diese Summen sind offenbar natürliche Zahlen (einschließlich der 0) kleiner als kn. Folglich ist 2k ≤ kn. (2.2) k > log2 n + log2 log2 n + 2, (2.3) Ist nun so erhalten wir aus der Monotonie der Funktion 2x x ( für genügend großes x) 2k 2log2 n+log2 log2 n+2 4n log2 n > ≥ = 2n k log2 n + log2 log2 n + 2 2 log2 n für genügend großes n im Widerspruch zu (2.2). Also kann (2.3) nur für endlich viele n gelten, was die Behauptung beweist. Mit der probabilistischen Methode und der Chebyshev-Ungleichung kann man dieses Resultat verbessern zu folgendem Theorem 11. Es gibt eine Konstante C, so daß für alle n f (n) ≤ log2 n + gilt. 1 log2 log2 n + C 2 25 26 2.3 Die Zweite-Momenten-Methode Beweis. Seien δ1 , . . . , δk unabhängige {0, 1}-wertige Zufallsvariable mit 1 P(δi = 0) = P(δi = 1) = . 2 Solche Zufallsvariablen bezeichnet man oft als Selektoren, da eine gewisse Teilmenge {i : δi = 1} der Menge {1, . . . , k} ausgewählt wird. Ist nun {x1 , . . . , xk } ⊂ {1, . . . , n} eine Menge mit verschiedenen Summen, so betrachten wir die zufällige Summe X = δ1 x1 + δ2 x2 + . . . + δk xk . Der Erwartungswert von X ergibt sich mittels Linearität des Erwartungswerts als EX = k X k Eδi xi = i=1 1X xi 2 i=1 und die Varianz wegen der Unabhängigkeit der Variablen δi als Var X = k X Var (δi xi ) = i=1 k X k x2i Var δi 1 X 2 kn2 . xi ≤ = 4 4 i=1 i=1 Dann liefert die Chebyshev-Ungleichung für jedes t > 0 P(|X − EX| ≥ t) ≤ kn2 . 4t2 (2.4) Weiter erhalten wir P(|X − EX| ≤ t) = EX+t X P(X = s). (2.5) s=EX−t Jede Summe s kann aber nach Voraussetzung nur auf höchstens eine Art angenommen werden. Also ist ( 2−k falls s angenommen wird P(X = s) = 0 sonst. Folglich erhalten wir wegen (2.5) P(|X − EX| ≤ t) ≤ 2−k (2t + 1), Kapitel 2. Elementare Prinzipien für die probabilistische Methode was zusammen mit (2.4) zu der Ungleichung 1 = P(|X − EX| ≥ t) + P(|X − EX| < t) ≤ führt. Wir setzen nun (optimal) t = √ 3kn 2 kn2 + 2−k (2t + 1) 4t2 und erhalten √ 1 1 ≤ 2−k ( 3kn + 1) + 3 oder umgestellt n≥ 2 k 32 √ −1 3k . Benutzt man dies wie oben (2.2), so erhält man die Behauptung des Theorems. 2.3.2 Anzahl von Primfaktoren Für eine natürliche Zahl n sei f (n) die Anzahl der verschiedenen Primzahlen, die n teilen. Wie groß ist f (n) für eine „typische “ natürliche Zahl n? Die Antwort, die in folgendem Theorem gegeben wird, besagt, daß „fast alle “ n etwa log log n Primteiler haben. Dies wurde 1920 von G. Hardy und S. Ramanujan mit einem recht komplizierten Argument bewiesen. Der folgende Beweis mittels der probabilistischen Methode stammt von P. Turan 1934. Theorem 12. Sei φ(n) ein beliebig langsam gegen unendlich strebende Funktion. Ist p A(n) = #{x ∈ {1, . . . , n} : |f (x) − log log n| > φ(n) log log n}, so gilt A(n) = o(n). Vorbemerkung: Wir wollen hier eine Anleihe aus der Zahlentheorie machen, die wir nicht beweisen. Beweise der folgenden Abschätzung für die Summe von Reziproken von Primzahlen finden sich in Bücher zur Zahlentheorie, in denen der Primzahlsatz beweisen wird. Der Beweis ist aber wesentlich einfacher als der Beweis des Primzahlsatzes. X1 = log log x + O(1) (2.6) p p≤x Hierbei läuft die Summe über alle Primzahlen p ≤ x. 27 28 2.3 Die Zweite-Momenten-Methode Beweis von Theorem 12. Sei x ∈ {1, . . . , n} zufällig gewählt mit P(x = k) = 1/n für k = 1, . . . , n. Wir setzen für jede Primzahl p ( 1 falls p Teiler von x ist Xp = 0 sonst. Weiter sei M = n1/10 . Der Exponent 1/10 ist nicht wichtig, jede kleine Potenz von n geht ebenfalls. Außerdem sei X= X p≤M Xp = Anzahl der Primteiler ≤ M von x. Da jedes x höchstens 10 Primteiler haben kann, die größer als M sind, erhalten wir f (x) − 10 ≤ X(x) ≤ f (x). Es genügt also, das Theorem mit X(x) anstelle von f (x) zu zeigen. Die Behauptung geht dann über in p P(|X(x) − log log n| > φ(n) log log n) = o(1). (2.7) Um diese Ungleichung mittels der Chebyshev-Ungleichung zu beweisen, benötigen wir Erwartungswert und Varianz von X. Wir berechnen zunächst ¥n¦ 1 p = + O(n−1 ), EXp = n p was mittels Linearität des Erwartungswerts und (2.6) EX = X p≤M EXp = X 1 + O(M n−1 ) = log log M + O(1) = log log n + O(1) p p≤M liefert. Für die Varianz von X benutzen wir die Formel Var X = X Var Xp + 2 p≤M X Cov (Xp , Xq ). p<q≤M Mittels (2.6) erhalten wir zunächst V arXp = EXp2 − (EXp )2 = EXp − (EXp )2 = 1 1 − 2 + O(n−1 ). p p Kapitel 2. Elementare Prinzipien für die probabilistische Methode 29 Um die Covarianzen zu berechnen, beobachten wir zunächst ( 1 falls pq Teiler von x ist Xp Xq = 0 sonst. Folglich ist ¥n¦ pq ¥n¦ ¥n¦ p q − · Cov (Xp , Xq ) = E(Xp Xq ) − EXp · EXq = n¶ n µ ¶µ ¶ nµ 1 1 1 1 1 1 1 1 − − − ≤ + . ≤ pq p n q n p q n Aufsummieren ergibt unter nochmaliger Verwendung von (2.6) µ ¶ X 1 1 2 X 2M X 1 2 Cov (Xp , Xq ) ≤ + ≤ = 2n−9/10 (log log n+O(1)) = o(1). n p q n p p<q≤M p<q≤M p≤M Analog zeigt man 2 X p<q≤M Cov (Xp , Xq ) ≥ −o(1). Die Covarianzen beeinflussen also die Varianz nicht: µ ¶ X 1 1 Var X = p≤M − + o(1) = log log n + O(1). p p2 Mittels des errechneten Erwartungswerts und der Varianz von X ergibt sich schließlich aus der Chebyshev-Ungleichung p log log n + O(1) = o(1). P(|X(x) − log log n| > φ(n) log log n) ≤ φ(n)2 log log n 30 Kapitel 3 Konzentrationsungleichungen Wir betrachten zur Einleitung in dieses Kapitel das folgende Beispielproblem: Wie groß ist der typische maximale Grad eines zufälligen Graphen in G(n, 1/2)? Wir müssen also die Zufallsvariable dmax (G) = max d(u) u∈V für einen zufälligen Graphen G = (V, E) behandeln. Es ist erst einmal nicht klar, wie sich diese Zufallsgröße verhält, insbesondere wie groß ihr Erwartungswert ist. Was wir natürlich wissen, ist der durchschnittliche Grad für einen festen Knoten u: Ed(u) = n−1 =: d. 2 Das sagt aber noch nichts über Edmax aus. Hätten wir aber eine Ungleichung (für festes u) der Form 1 P(d(u) ≥ d + t) ≤ 2 , n so erhalten wir X 1 P(d(u) ≥ d + t) ≤ , P(dmax ≥ d + t) = P(max d(u) ≥ d + t) ≤ u n u∈V also 1 , n d.h. “fast alle„Graphen haben maximalen Grad höchstens d + t. Wir werden später √ sehen, daß man t = c n log n wählen kann. P(dmax < d + t) ≥ 1 − Kapitel 3. Konzentrationsungleichungen 31 Man braucht also hier wie auch in vielen anderen Anwendungen Abschätzungen der Form P(X ≥ EX + t) ≥ . . . oder auch P(X ≥ EX − t) ≤ . . . bzw. P(|X − EX| ≥ t) ≤ . . . Solche Abschätzungen nennt man Konzentrationsungleichungen oder auch Ungleichungen für große Abweichungen (large deviation inequalities, tail estimates). Diese Bezeichnung kommt daher, daß die Werte der Zufallsvariable sich um den Erwartungswert konzentrieren, also mit großer Wahrscheinlichkeit im Intervall (EX − t, EX + t) liegen. Wir kennen bereits die Chebyshev-Ungleichung als eine Ungleichung dieser Form: P(|X − EX| ≥ t) ≤ Var X . t2 Benutzen wir diese Ungleichung für unser Beispielproblem, erhalten wir Var d(u) = Ed(u)2 − (Ed(u))2 = n−1 4 und somit n−1 . 4t2 Damit dies kleiner als 1/n ist, brauchen wir t > (n − 1)/2, somit liefert uns die Chebyshev-Ungleichung überhaupt keine brauchbare Aussage. In den folgenden Abschnitten wollen wir einsehen, wie man bessere Konzentrationsungleichungen für Summen unabhängiger Zufallsvariablen beweisen und anwenden kann. P(|d(u) − d| ≥ t) ≤ 3.1 Summen unabhängiger Bernoulli-Variablen Wir betrachten zunächst wieder unser Beispielproblem aus der vorhergehenden Einleitung. Hier ist X d(u) = Xv v6=u 32 3.1 Summen unabhängiger Bernoulli-Variablen mit den unabhängigen Indikatorvariablen ( 1 falss {u, v} eine Kante ist Xv = 0 sonst Wir haben es also mit einer Summe unabhängiger {0, 1}-wertiger Zuvallsvariablen zu tun, wobei die Werte 0 und 1 jeweils mit Wahrscheinlichkeit 1/2 angenommen werden. Um die folgenden Betrachtungen zu vereinfachen, zentrieren wir diese Variablen, so daß sie Erwartungswert 0 bekommen. Dann erhalten wir Bernoulli-Variablen (auch Rademacher-Variablen genannt. Das sind unabhängige {+1, −1}-wertige Variable X1 , . . . , Xn mit 1 P(Xi = +1) = P(Xi = −1) = . 2 Durch einfache Reskalierung kann man Konzentrationsungleichungen für BernoulliVariablen auf die Variablen aus unserem Beispielproblem umrechnen. Hier ist nun eine solche Konzentrationsungleichung: Theorem 13 (Chernoff-Ungleichung). Seien X1 , . . . , Xn unabhängige BernoulliVariable und sei Sn = X1 + X2 + . . . + Xn . Dann gilt für jedes t > 0 ³ t2 ´ P(Sn ≥ t) < exp − 2 2σ und ³ t2 ´ P(Sn ≤ −t) < exp − 2 2σ mit σ 2 = Var Sn = n. Insbesondere hat man auch ³ t2 ´ P(|Sn | ≥ t) < 2 exp − 2 . 2σ Beweis. Wir beweisen nur die erste Ungleichung. Die zweite folgt aus Symmetriegründen. Die dritte ist nur eine Zusammenfassung der beiden ersten. Statt direkt die Variable Sn zu betrachten, schauen wir uns die Variable Y = eα Sn an, wobei wir den Parameter α später wählen. Auf diese Variable wenden wir die Markov-Ungleichung an und erhalten P(Sn ≥ t) = P(Y ≥ eαt ) ≤ EY . eαt (3.1) Kapitel 3. Konzentrationsungleichungen 33 Wir berechnen zunächst unter Benutzung der Unabhängigkeit der Xi µ α ¶n n n n n ´ ³ Y Y Y X eα + e−α e + e−α αXi αXi = Ee = e = Xi = E . EY = E exp(α 2 2 i=1 i=1 i=1 i=1 Durch Taylorentwicklung sieht man leicht die Ungleichung eα + e−α 2 ≤ eα n/2 2 ein, die dann mit (3.1) die Abschätzung P(Sn ≥ t) ≤ exp ³ α2 n 2 ´ − αt liefert. Schließlich setzen wir noch α = t/n, um bei der Chernoff-Ungleichung anzukommen. Wir wollen nun die gerade bewiesene Chernoff-Ungleichung auf unser Beipielproblem des maximalen Grades eines zufälligen Graphen anwenden. Dazu beobachten wir, daß die Variablen 2Xv − 1 Bernoulli-Variablen sind, womit sich auch Sn−1 = 2 X v6=u Xv − (n − 1) = 2d(u) − (n − 1) ergibt. Die Chernoff-Ungleichung liefert nun für jeden festen Knoten u ³ 2t2 ´ P(d(u) ≥ d + t) = P(Sn−1 ≥ 2t) ≤ exp − . n−1 Setzen wir noch t = und somit auch p (n − 1) log n, so erhalten wir p ¡ ¢ 1 P d(u) ≥ (n − 1)/2 + (n − 1) log n ≤ 2 n p ¡ ¢ 1 P max d(u) ≥ (n − 1)/2 + (n − 1) log n ≤ . u∈V n 34 3.1 Summen unabhängiger Bernoulli-Variablen 3.1.1 Kombinatorische Diskrepanz Als weitere Anwendung der Chernoff-Ungleichung wollen wir die kombinatorische Diskrepanz betrachten. Ist X eine n-elementige Menge, A ⊂ X eine Teilmenge und χ : X → {−1, +1} eine Färbung von X mit zwei Farben, so ist die Diskrepanz von X auf A gegeben durch X disc (A, χ) = χ(x). x∈A Sie gibt die Abweichung von der „ausgeglichenen Färbung“ an, die die gleiche Anzahl von Punkten von A mit jeder der beiden Farben färbt. Ist F ein gegebenes System von Teilmengen von X, so heißt disc (F, χ) = max disc (A, χ) A∈F die Diskrepanz von F bei der Färbung χ und disc F = min disc (F, χ) χ die Diskrepanz von F. Hierbei läuft das letzte Minimum über alle möglichen Färbungen χ. Ist F = 2X das System aller Teilmengen von X, so ist offenbar lnm . disc F = 2 Wir wollen jetzt zeigen, daß die Diskrepanz viel kleiner wird, wenn F nicht zu viele Mengen enthält. Theorem 14. Sei |X| = n, F ⊂ 2X , |F| = m. Dann gilt p disc F ≤ 2n log(2m). Enthält F nur höchstens s-elementige Teilmengen, so gilt p disc F ≤ 2s log(2m). Beweis. Wir beweisen nur die zweite Ungleichung, die erste ist ein Spezialfall. Wir färben X zufällig, wobei wir die Farben der Punkte unabhängig voneinander mit P(χ(x) = +1) = P(χ(x) = −1) = 1 2 Kapitel 3. Konzentrationsungleichungen 35 wählen. Sei A ⊂ X fixiert. Dann ist disc (A, χ) = X χ(x) x∈A eine Summe von |A| unabhängigen Bernoulli-Variablen. Die Chernoff-Ungleichung liefert dann ³ ³ t2 ´ t2 ´ P(|disc (A, χ)| ≥ t) < 2 exp − ≤ 2 exp − . 2|A| 2s p Für t = 2s log(2m) liefert dies P(|disc (A, χ)| ≥ t) < 1 . m Folglich gilt P(disc (F, χ) ≥ t) ≤ X A∈F P(|disc (A, χ)| ≥ t) < 1. Es gibt also eine Färbung χ mit disc (F, χ) < t). 3.1.2 Ein Spiel Wir wollen ein weiteres Beispiel für die Anwendung der Chernoff-Ungleichung betrachten. Diesmal geht es um ein Beispiel aus der Spieltheorie. Das Spiel wird von den zwei Spielern Walter der Wähler und Dieter der Drücker gespielt. Eine natürliche Zahl n ≥ 1 ist vorgegeben. Das Spiel findet im Rn statt und läuft über n Runden. Es gibt nach jeder Runde einen Positionsvektor P ∈ Rn , der vor dem ersten Zug auf 0 gesetzt wird. Eine Runde besteht aus je einem Zug jedes Spielers: 1. Dieter sucht sich einen Vektor v ∈ {+1, −1}n aus. 2. Walter wählt als neuen Positionsvektor P entweder P + v oder P − v aus. Nach der n-ten Runde erhält Dieter als Auszahlung max1≤k≤n |Pk |, den maximalen Absolutbetrag der Koordinaten des Positionsvektors. Sei Wert (n) der Wert dieses Spiels für Dieter, d.h. die maximale Auszahlung, die er bei optimaler Gegenwehr von Walter erreichen kann. Sei Sn wieder die Summe von n unabhängigen Bernoulli-Variablen. Dann gilt 36 3.2 Summen beschränkte runabhängiger Variablen Theorem 15. Falls P(|Sn | > t) < 1 n ist, dann gilt Wert (n) ≤ t. Beweis. Wir wollen sagen, daß Dieter gewinnt, falls die Auszahlung nach Runde n größer als t ist. Nehmen wir nun an, daß Walter als Strategie in jeder Runde durch einen Münzwurf bestimmt, ob er P + v oder P − v als neuen Positionsvektor wählt. Sei xi die i−te Koordinate des Positionsvektors nach der n-ten Runde. Sei weiter Wi das Ereignis |xi | > t und W = ∪ni=1 das Ereignis, daß Dieter gewinnt. Unabhängig von der Spielweise von Dieter hat xi immer die Verteilung Sn einer Summe von n unabhängigen Bernoulli-Variablen. Somit folgt aus der Voraussetzung P(W ) ≤ n X i=1 P(|Sn | > t) < 1. Also kann Dieter das Spiel nicht immer gewinnen. Da dies ein Spiel mit vollständiger Information und ohne Unentschieden ist, hat einer der beiden Spieler aber eine Gewinnstrategie. Dies kann nur Walter sein. Also gewinnt Walter bei optimalem Spiel immer und es gilt Wert (n) ≤ t. Aus der Chernoff-Ungleichung ergibt sich dann sofort die Folgerung: Wert (n) ≤ p 2n log(2n). √ Bemerkung: Es gilt auch Wert (n) ≥ c n log n mit einer von n unabhängigen Konstanten c > 0. Ein Beweis findet sich im Buch von N. Alon/ J. Spencer im Abschnitt 14.4. 3.2 Summen beschränkter unabhängiger Variablen Exponentielle Konzentrationsungleichungen gelten in viel größerer Allgemeinheit als in Abschnitt 3.1. bewiesen. In diesem Abschnitt wollen wir nur die Beschränktheit der Zufallsvariablen Xi fordern. Theorem 16 (Hoeffding-Ungleichung). Seine X1 , . . . , Xn unabhängige Zufallsvariable mit EXi = 0 und Xi ∈ [ai , bi ] fast sicher, wobei ai < 0 < bi für i = 1, . . . , n ist. Mit Sn = X1 + . . . + Xn gilt dann für alle t ≥ 0 ³ ´ ³ ´ 2t2 2t2 P P(Sn ≥ t) < exp − Pn und P(S ≤ −t) < exp − n n 2 2 i=1 (bi − ai ) i=1 (bi − ai ) Kapitel 3. Konzentrationsungleichungen 37 mit σ 2 = Var Sn = n. Insbesondere hat man auch ´ 2t2 . 2 i=1 (bi − ai ) ³ P(|Sn | ≥ t) < 2 exp − Pn Bemerkung: Sind die Xi Bernoulli-Variablen, so erhält man gerade die ChernoffUngleichung. Beweis. Wir brauchen wieder nur die erste Ungleichung zu zeigen. Wir setzen wieder Y = eαSn und erhalten P(Sn ≥ t) = P(Y ≥ eαt ) ≤ mit EY = n Y EY eαt EeαXi . (3.2) (3.3) i=1 Nun gilt wegen der Konvexität der Exponentialfunktion und Xi ∈ [ai , bi ] eαXi = exp ´ b −X ³b − X X i − ai Xi − ai αbi i i αai i i αai + αbi ≤ e + e . bi − ai bi − ai bi − ai bi − ai Nehmen wir nun den Erwartungswert und beachten EXi = 0, so bekommen wir EeαXi ≤ bi −ai αbi eαai + e . bi − ai bi − ai Wir werden unten zeigen, daß für beliebige a < 0 < b und α > 0 die Ungleichung −a αb α2 (b − a)2 b αa e + e ≤ exp b−a b−a 8 (3.4) gilt. Benutzen wir dies in der vorhergehenden Ungleichung und setzen die erhaltene Abschätzung für den Erwartungswert zunächst in (3.3) und dann in (3.2) ein, landen wir bei n ´ ³ α2 X (bi − ai )2 . P(Sn ≥ t) ≤ exp − αt + 8 i=1 Setzt man in dieser Ungleichung (optimal) 4t 2 i=1 (bi − ai ) α = Pn erhält man gerade die im Theorem behauptete Ungleichung. 38 3.2 Summen beschränkte runabhängiger Variablen Es bleibt also (3.4) zu zeigen. Dazu substituieren wir λ= und erhalten und −a ∈ (0, 1) und u = α(b − a) > 0 b−a −a αb b αa e + e = e−λu (1 − λ + λeu ) =: f (u) b−a b−a eα 2 (b−a)2 /8 = eu 2 /8 . Setzen wir noch L(u) = log f (u) = −λu + log(1 − λ + λeu ), so haben wir L(u) ≤ u2 8 (3.5) zu zeigen. Dazu berechnen wir zunächst L0 (u) = −λ + L00 (u) = λ λ + (1 − λ)e−u λ(1 − λ)e−u (λ + (1 − λ)e−u )2 . Für ein gewisses v ∈ [0, u] haben wir nun L(u) = L(0) + L0 (0)u + L00 (v) Es genügt also L00 (v) = oder, äquivalent ungeformt, u2 u2 = L00 (v) . 2 2 1 λ(1 − λ)e−v ≤ (λ + (1 − λ)e−v )2 4 4λ(1 − λ)e−v ≤ (λ + (1 − λ)e−v )2 zu beweisen. Letzteres ist aber äquivalent zu der offensichtlichen Ungleichung 0 ≤ (λ − (1 − λ)e−v )2 . Bemerkung: Man findet in der Literatur eine Reihe ähnlicher Konzentrationsungleichungen, z.B. unter dem Namen Bernstein-Ungleichung. Mitunter ist die eine oder andere Ungleichung schärfer, meist aber nur unwesentlich. Kapitel 3. Konzentrationsungleichungen 3.3 Geometrische Diskrepanz Als Beispiel für die Anwendung der Hoeffding-Ungleichung wollen wir uns wieder ein Diskrepanzproblem anschauen. Das Problem in diesem Abschnitt ist motiviert durch sogenannte Quasi-Monte-Carlo-Methoden für die numerische Integration, die oftmals in der Praxis eingesetzt werden. Wir wollen endliche Punktmengen finden, die möglichst gut das Volumen von Quadern im d-dimensionalen Einheitswürfel [0, 1]d approximieren. Sei T = {t(1) , . . . , t(n) } ⊂ [0, 1]d . Für gegebenes x ∈ [0, 1]d sei Bx = {y ∈ Rd : 0 ≤ yi ≤ xi für i = 1, . . . , d} der achsenparallele Quader (Box mit linker unterer Ecke in 0 und rechter oberer Ecke in x. Mit |Bx | = x1 . . . xd bezeichen wir das Volumen von Bx . Dann heißt D(T, x) = 1 |T ∩ Bx | − |Bx | n die Diskrepanz der Menge T in der Box Bx . Dies ist offenbar ein Maß dafür, wie nahe die Anzahl der Punkte von T in Bx gerade dem Anteil der Punkte ist, die die Box Bx bei „gleichverteilten “ Punkten erhalten sollte. Die (Stern)-Diskrepanz von T ist nun definiert durch D∗ (T ) = sup |D(T, x)|. x∈[0,1]d Wir wollen kurz die Bedeutung dieses Begriffs für die numerische Integration kommentieren. Dazu betrachten wir das Quadraturverfahren n 1X Q(f ) = f (t(i) n i=1 für die näherungsweise Berechnung des Integrals Z I(f ) = f (x)dx [0,1]d für Funktionen f : [0, 1]d → R. Ziel ist es dann, den Fehler e(f ) = |I(f ) − Q(f )| für gewisse Klassen von Funktionen f möglichst klein zu machen. Für die charakteristischen Funktionen 1IBx erhält man gerade e(f ) = |D(T, x)|. Um diese Funktionen 39 40 3.3 Geometrische Diskrepanz möglichst gut zu integrieren benötigt man also Punktmengen T mit kleiner Diskrepanz. Dies wird in der sogenannten Koksma-Hlawka-Ungleichung e(f ) ≤ D∗ (T )V (f ) auf eine größere Klasse von Funktionen verallgemeinert. Hier ist V (f ) eine Variation von f , die so genannte Variation nach Hardy und Krause. Wir wollen nun mit der probabilistischen Methode die Existenz von Punktmengen mit kleiner Diskrepanz auch für große Dimension d zeigen. Dazu wollen wir zunächst das Problem der Berechnung der Diskrepanz diskretisieren. Sei Γm das äquidistante Gitter in [0, 1]d mit Seitenlänge 1/m bestehend aus den (m + 1)d Punkten der Form (k1 /m, . . . , kd /m) mit k1 , . . . , kd = 0, 1, . . . , m. Wir setzen ∗ Dm (T ) = max |D(T, x)|. x∈Γm Dann gilt das folgende Lemma: ∗ (T ) + Lemma. D∗ (T ) ≤ Dm d m. Beweis. Sei x ∈ [0, 1]d . Wähle x∗ , y ∗ ∈ Γm mit x∗i ≤ xi ≤ x∗i + 1 =: yi∗ für i = 1, . . . , d. m Dann ist |By∗ | − |Bx | = y1∗ . . . yd∗ − x∗1 . . . x∗d = ≤ d X k=1 (yk∗ − x∗k ) = d X k=1 ∗ x∗1 . . . x∗k−1 yk∗ . . . yd∗ − x∗1 . . . x∗k yk+1 . . . yd∗ d . m Folglich ist |By∗ | − d d ≤ |Bx | ≤ |Bx∗ | + . m m Insbesondere erhalten wir D(T, x) = 1 1 d d d ∗ |T ∩ Bx | − |Bx | ≤ |T ∩ By∗ | − |By∗ | + = D(T, y ∗ ) + ≤ Dm (T ) + n n m m m Kapitel 3. Konzentrationsungleichungen 41 und 1 1 d d d ∗ −D(T, x) = |Bx |− |T ∩Bx | ≤ |Bx∗ |− |T ∩Bx∗ |+ = −D(T, x∗ )+ ≤ Dm (T )+ . n n m m m d m ∗ (T ) + Zusammen liefert das |D(T, x)| ≤ Dm gilt, die Behauptung des Lemmas. und, da dies für beliebiges x ∈ [0, 1]d Theorem 17. Zu natürlichen Zahlen n, d mit 2 ≤ d ≤ n gibt es eine Punktmenge T ⊂ [0, 1]d mit |T | = m und r d log(dn). D∗ (T ) ≤ 10 n Beweis. Seien t(1) , t(2) , . . . , t(n) gleichmäßig verteilt in [0, 1]d und unabhängig, d.h. (i) (i) (i) (i) t(i) = (t1 , . . . , td ) mit tj ist gleichverteilt in [0, 1] und alle tj , i = 1, . . . , n; j = 1, . . . , d sind unabhängig. Wir betrachten zu jedem x ∈ [0, 1]d die Zufallsvariable (x) Yi = 1IBx (t(i) ) − |Bx |. Wegen E1IBx (t(i) ) = Z 1 ... 0 Z 1 0 (i) (i) (i) (i) 1IBx (t1 , . . . , td )dt1 . . . td = Z xd ... 0 Z x1 (i) (i) dt1 . . . td = |Bx | 0 haben wir (x) EYi = 0 für i = 1, . . . , d; x ∈ [0, 1]d . Setzen wir T = {t(1) , t(2) , . . . , t(n) }, so haben wir n n i=1 i=1 1 X (x) 1 1X Yi = (1IBx (t(i) ) − |Bx |) = |Bx ∩ T | − |Bx | = D(T, x). n n n (x) Da auch Yi ∈ [−1, 1] gilt, folgern wir aus der Hoeffding-Ungleichung ³¯ X n ´ ³ 2n2 ε2 ´ 2 (x) ¯ P(|D(T, x)| ≥ ε) = P ¯ Yi ¯ ≥ nε ≤ 2 exp − = 2e−nε /2 . i=1 4n Folglich ist 2 /2 ∗ P(Dm (T ) ≥ ε) ≤ 2|Γm |e−nε 2 /2 = 2(m + 1)d e−nε . Unter der Voraussetzung 2 /2 2(m + 1)d e−nε <1 (3.6) 42 3.3 Geometrische Diskrepanz ∗ (T ) < ε und folglich wegen des oben bewiegibt es also sicher eine Menge T mit Dm senen Lemmas d D∗ (T ) < ε + . m Das Theorem ist also bewiesen, wenn wir ε und m so finden können, daß q d < 10 nd log(dn) (i) ε + m (ii) log 2 + d log(m + 1) < nε2 /2 gilt. Wir wählen zunächst ε = q dn (i0 ) m > 15 log(dn) d m. Dann gehen (i) und (ii) über in (ii0 ) 2m2 (log 2 + d log(m + 1)) < nd2 . Zur Vereinfachung wollen wir in den nächsten Abschätzungen davon absehen, daß wir m eigentlich ganzzahlig wählen müssen. Dann können wir (i0 ) und (ii0 ) erfüllen, sofer nur s ³1 ´´ 2 dn ³ dn log 2 + d log + 1 < nd2 25 log(dn) 5 log(dn) ist, was offenbar äquivalent zu log 2 + d log ³1 5 s ´ 25 dn + 1 < d log(dn) log(dn) 2 ist. Offenbar ist aber unter den Voraussetzungen an d, n 1 log 2 < d log(dn) 2 und log ³1 5 s ´ dn 1 + 1 < 12 log(dn) ⇐⇒ log(dn) 5 womit alles bewiesen ist. s dn + 1 < (dn)12 , log(dn)