Die probabilistische Methode - Institut für Mathematik, Uni Rostock

Werbung
Die probabilistische Methode
Skript zur Vorlesung im Wintersemester 2004/2005
an der Fakultät für Mathematik und Informatik
der Friedrich-Schiller-Universität Jena
PD Dr. Aicke Hinrichs
2
Inhaltsverzeichnis
1 Einführung in die Methode
1.1 Ramsey-Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Summenfreie Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Wahrscheinlichkeitstheoretische Grundbegriffe . . . . . . . . . . . . .
3
4
7
9
2 Elementare Prinzipien bei der Anwendung der probabilistischen
Methode
2.1 Die Linearität des Erwartungswerts . . . . . . . . . . . . . . . . . . .
2.2 Kleine Modifikationen . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Große Anticliquen . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Graphen mit weiter Taille und großer chromatischer Zahl . .
2.2.3 Packungen konvexer Mengen . . . . . . . . . . . . . . . . . .
2.3 Die Zweite-Momenten-Methode . . . . . . . . . . . . . . . . . . . . .
2.3.1 Mengen mit verschiedenen Summen . . . . . . . . . . . . . .
2.3.2 Anzahl von Primfaktoren . . . . . . . . . . . . . . . . . . . .
12
12
15
16
17
20
22
24
27
3 Konzentrationsungleichungen
3.1 Summen unabhängiger Bernoulli-Variablen . . .
3.1.1 Kombinatorische Diskrepanz . . . . . . .
3.1.2 Ein Spiel . . . . . . . . . . . . . . . . .
3.2 Summen beschränkter unabhängiger Variablen
3.3 Geometrische Diskrepanz . . . . . . . . . . . .
30
31
34
35
36
39
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 1
Einführung in die Methode
Die probabilistische Methode ist eine bemerkenswerte Technik für den Beweis der
Existenz von mathematischen Objekten mit vorgegebenen Eigenschaften. Sie benutzt
die Wahrscheinlichkeitstheorie, wird aber oft zum Beweis von Resultaten verwendet,
die überhaupt nichts mit Wahrscheinlichkeiten zu tun haben.
Grundlegender Ansatz: Wir möchten die Existenz eines Objektes mit spezifischen
Eigenschaften zeigen. Unglücklicherweise ist eine explizite Konstruktion schwierig,
vielleicht unmöglich. Wir betrachten nun ein geeignetes Wahrscheinlichkeitsmaß auf
der Klasse aller zulässigen Objekte. Wir zeigen, daß die Wahrscheinlichkeit, daß ein
zufällig ausgewähltes Objekt dieser Klasse die gewünschte Eigenschaft hat, positiv
ist. Folglich muß es ein solches Objekt geben, anderenfalls wäre die Wahrscheinlichkeit für so ein „gutes“ Objekt ja Null.
Pionier dieser Methode war Paul Erdös1 , der ab 1947 eine beachtliche Anzahl von
Resultaten mit dieser Methode erzielt hat. Die erste Anwendung auf ein kombinatorische Problem stammt von T. Szele 1943. Erdös war allerdings derjenige, der die
ganze Kraft der Methode erkannt und genutzt hat.
Die Methode wird in so verschiedenen Gebieten wie Graphentheorie, Kombinatorik,
Zahlentheorie, Geometrie, Analysis und Numerik angewendet. In der Informatik gibt
es einen ganzen Zweig, der sich mit randomisierten Algorithmen beschäftigt und
ebenfalls grundlegend die probabilistische Methode nutzt. Ziel dieser Vorlesung ist es,
die vielfältigen Anwendungen der Methode zu demonstrieren. Die beste Möglichkeit
1
1913-1996
4
1.1 Ramsey-Zahlen
dazu ist, konkrete Probleme zu behandeln, womit wir auch gleich beginnen wollen.
1.1
Ramsey-Zahlen
Das Problem: Es sei eine gewisse Anzahl N von Personen gegeben, von denen sich
je zwei entweder gegenseitig kennen oder gegenseitig nicht kennen. Wir möchten
ausschließen, daß sich unter diesen N Personen
• k befinden, die sich alle kennen oder
• l befinden, die sich alle nicht kennen.
Wie groß kann N sein?
Wir wollen das Problem zunächst in ein graphentheoretisches Problem umformulieren. Ein (ungerichteter einfacher) Graph G = (V, E) ist eine Menge V (die Menge der
Knoten - vertices) zusammen mit einer Teilmenge E der zweielementigen Teilmengen
von G (den Kanten - edges). Die Ordnung von G ist |G| := |V |. Eine Clique in G ist
eine Teilmenge C ⊂ V , so daß alle zweielementigen Teilmengen von C Kanten von
G sind. Eine Anticlique oder unabhängige Menge in G ist eine Teilmenge A ⊂ V , so
daß keine der zweielementigen Teilmengen von A Kante von G ist.
Das obige Problem kann nun folgendermaßen in die Graphensprache übersetzt werden. Die Knoten unseres Graphen seien gerade die betrachteten N Personen, wir
haben also einen Graphen der Ordnung N . Zwei Knoten werden genau dann durch
eine Kante verbunden, wenn sich die beiden Personen kennen. Eine Clique ist dann
eine Gruppe von Personen, die sich alle gegenseitig kennen. Eine Anticlique ist eine
Gruppe von Personen, unter denen es überhaupt keine Bekanntschaften gibt.
Problemformulierung: Sei G ein Graph, der weder eine Clique der Größe k noch eine
Anticlique der Größe l enthält. Wie groß kann N = |G| sein?
Der folgende Satz von Ramsey2 gibt eine obere Schranke.
Theorem 1. Für jedes k, l ∈ N gibt es eine kleinste Zahl R(k, l) - die RamseyZahl zu k, l - so daß jeder Graph der Ordnung R(k, l) eine Clique der Größe k (eine
2
Frank Plumpton Ramsey (1903–1930)
Kapitel 1. Einführung in die Methode
5
k-Clique) oder eine Anticlique der Größe l (eine l-Anticlique) enthält. Dabei gilt
¶
µ
k+l−2
.
(1.1)
R(k, l) ≤
k−1
Beweis. Wir beweisen dies durch Doppelinduktion über k, l. Der Induktionsanfang
R(k, 1) = R(1, l) = 1 für alle k, l ist offensichtlich, da jede einpunktige Knotenmenge
sowohl Clique als auch Anticlique ist. Wir zeigen nun für k, l ≥ 2
R(k, l) ≤ R(k − 1, l) + R(k, l − 1).
(1.2)
Durch Induktion folgt dann tatsächlich die Ungleichung (1.1) wegen
µ
¶ µ
¶ µ
¶
k+l−3
k+l−3
k+l−2
R(k, l) ≤ R(k − 1, l) + r(k, l − 1) ≤
+
=
.
k−2
k−1
k−1
Zum Beweis der Ungleichung (1.2) betrachten wir einen Graph G = (V, E) mit
|V | = R(k − 1, l) + R(k, l − 1)
und fixieren einen Knoten v ∈ V . Sei V1 ⊂ V die Mengen der Knoten, die durch
eine Kante mit v verbunden sind. Sei V2 die Menge der Knoten, die nicht durch eine
Kante mit v verbunden sind. Wegen
|V1 | + |V2 | = R(k − 1, l) + R(k, l − 1) − 1
gilt zumindest eine der Ungleichungen |V1 | ≥ R(k − 1, l) oder |V2 | ≥ R(k − 1, l).
Ist |V1 | ≥ R(k − 1, l), so finden wir unter den Knoten von V1 nach Definition von
R(k − 1, l) eine (k − 1)-Clique oder eine l-Anticlique. Tritt das erstere ein, so bildet
diese (k − 1)-Clicqe zusammen mit v eine k-Clique in G. In jedem Fall finden wir
also eine k-Clique oder eine l-Anticlique. Gleiches zeigt man ganz analog im Fall
|V2 | ≥ R(k − 1, l), womit der Beweis abgeschlossen ist.
¡
¢ ¡2k−3¢ ¡2k−3¢
2k−3
Folgerung: R(k, k) ≤ 2k−2
k−1 = k−1 + k−2 ≤ 2
Wir wenden uns jetzt dem Problem zu, eine untere Abschätzung für R(k, k) zu
finden. Dazu müssen wir möglichst große Graphen finden, die weder k-Cliquen noch
k-Anticliquen enthalten. Hier kommt die probabilistische Methode zur Anwendung.
Theorem 2. (P. Erdös 1947) Für jedes k ≥ 2 gilt R(k, k) ≥ 2k/2 .
6
1.1 Ramsey-Zahlen
Beweis. Man überzeugt sich leicht von R(2, 2) = 2 und R(3, 3) = 6. Sei also jetzt
k ≥ 4 und N < 2k/2 . Wir wollen einen Graph G = (V, E) mit N Knoten finden,
der keine k-Clique und keine k-Anticlique enthält. Dazu konstruieren wir G probabilistisch, indem wir für jede potentielle Kante eine Münze werfen und je nach
Ausgang die Kante dazunehmen oder nicht. Mit anderen Worten: Eine Kante taucht
in unserem Graphen genau mit Wahrscheinlichkeit 1/2 auf, alle unabhängig voneinander. Dann erhalten wir also jeden vorgegebenen Graphen G auf den N Knoten mit
N
Wahrscheinlichkeit 2−( 2 ) .
Sei jetzt A ⊂ V eine Teilmenge mit |A| = k. Die Wahrscheinlichkeit, daß die A eine
¡ ¢
k
Clique in unserem zufälligen Graphen ist, ist 2−(2) . Da es insgesamt Nk Teilmengen der Kardinalität k gibt, ist die Wahrscheinlichkeit, daß es in unserem Graphen
¡ ¢ k
eine k-Clique gibt höchstens Nk 2−(2) . Aus Symmetriegründen gilt gleiches für die
Wahrscheinlichkeit, daß es in unserem Graphen eine k-Anticlique gibt. Ist also
µ ¶
N −(k )
2
(1.3)
2 2 < 1,
k
so ist die Wahrscheinlichkeit, einen Graphen ohne k-Clique und k-Anticlique zu erhalten, positiv. Es muß also so einen Graph geben!
¡ ¢
k
Es bleibt also noch (1.3) zu zeigen. Dazu benutzen wir die Abschätzung Nk ≤ 2N
k−1 ,
die wir in Lemma 3 beweisen. Dann folgt tatsächlich wegen k ≥ 4 und N < 2k/2
µ ¶
k
Nk
N −(k)
2
2
2 2 ≤ 2 k−1 2−(2) ≤ 21+k /2−(k−1)−k(k−1)/2 = 22−k/2 < 1.
k
2
Lemma 3. Für N ≥ k ≥ 2 gilt
Beweis.
¡N ¢
k
≤
Nk
.
2k−1
µ ¶
N
Nk
N (N − 1) . . . (N − k + 1)
≤ k−1 .
=
2 · 3...k
2
k
Bemerkungen:
1. Man kann natürlich einwenden, daß man den Beweis ebensogut durch „Abzählen“ durchführen kann. Dieser Einwand trifft auf fast alle Anwendungen
Kapitel 1. Einführung in die Methode
der probabilistischen Methode zu. Durch Verwendung von Wahrscheinlichkeiten werden solche Beweise aber einerseits oft durchsichtiger, sind einfacher zu
finden, und, was wohl das wichtigste Argument sein dürfte, ermöglichen die
Anwendung tieferliegender Methoden aus der Wahrscheinlichkeitstheorie. Wir
werden noch Gelegenheit haben, dies zu sehen.
2. Auch Abschätzungen für R(k, l) nach unten sind möglich, siehe Aufgabe 3.
3. Nur sehr wenige Ramsey-Zahlen sind explizit bekannt (abgesehen von R(k, 1) =
R(1, k) = 1 und R(k, 2) = R(2, k) = k). Eine Übersicht über den aktuellen
Stand findet man im Web auf der Seite
http://www.combinatorics.org/Surveys/ds1.pdf.
1.2
Summenfreie Mengen
Wir wollen nun ein weiteres einfaches Beispiel für die Anwendung der probabilistischen Methode behandeln. Diesmal handelt es sich um ein Ergebnis aus der Zahlentheorie. Untersuchen wollen wir die Existenz großer summenfreier Teilmengen von
beliebigen endlichen Mengen ganzer Zahlen.
Eine Menge A ⊂ Z heißt summenfrei, wenn es keine a1 , a2 , a3 ∈ A mit a1 + a2 = a3
gibt. Natürlich kann eine solche Menge nicht die 0 enthalten. Ist jetzt B ⊂ Z eine
beliebige Menge, wie große summenfreie Teilmengen von B existieren dann?
Zur Vorbereitung wollen wir den Begriff der Summenfreiheit auf Teilmengen beliebiger abelscher Gruppen verallgemeinern. Eine Teilmenge A einer abelschen Gruppe
G heißt summenfrei, wenn es keine a1 , a2 , a3 ∈ A mit a1 + a2 = a3 gibt. Insbesondere benötigen wir die zyklische Gruppe Zp = {0, 1, . . . , p − 1} ausgerüstet mit der
Addition modulo p. Sei jetzt p = 3k + 2 mit einer natürlichen Zahl k. Dann ist die
Menge
C = {k + 1, k + 2, . . . , 2k + 1} ⊂ Zp
summenfrei, da für beliebige a1 , a2 ∈ C offenbar (Addition modulo p!)
a1 + a2 ∈ {0, . . . , k} ∪ {2k + 2, . . . , 3k + 1} = Zp \ C
gilt. C ist also eine summenfreie Teilmenge von Zp mit |C| = k + 1. Diese spezielle
summenfreie Menge werden wir im Beweis des folgenden Theorems verwenden.
7
8
1.2 Summenfreie Mengen
Theorem 4. (P. Erdös 1965) Jede Menge von n von 0 verschiedenen ganzen Zahlen
enthält eine summenfreie Teilmenge mit mehr als n/3 Elementen.
Beweis. Sei B = {b1 , . . . , bn } eine solche Menge. Sei p = 3k + 2 eine Primzahl
mit p > |bi |. Die Existenz beliebig großer Primzahlen dieser Form folgt aus einem
berühmten zahlentheoretischen Resultat von Dirichlet, welches besagt, daß es zu
beliebigen teilerfremden Zahlen a, b unendlich viele Primzahlen der Form ak + b gibt.
Einen direkten kurzen Beweis dieser Tatsache im benötigten Spezialfall geben wir
im Anschluß an diesen Beweis an.
Wir wählen jetzt zufällig eine Zahl x ∈ {1, 2, . . . , p − 1}, jedes x mit gleicher Wahrscheinlichkeit 1/p − 1. Wir finden nun di ∈ {1, 2, . . . , p − 1} für i = 1, . . . , n mit
di = xbi
mod p.
Wir halten zunächst i fest. Durchläuft x alle Zahlen in {1, . . . , p − 1}, so überlegt
man sich leicht, daß di ebenfalls alle Zahlen in {1, . . . , p − 1} ⊂ Zp durchläuft. Ist C
die Menge von oben, so ist also die Wahrscheinlichkeit dafür, daß di ∈ C ist, gleich
k+1
1
|C|
=
> .
p−1
3k + 1
3
Folglich ist der Erwartungswert der Anzahl der i ∈ {1, . . . , n} mit di ∈ C größer als
n/3. Es gibt also ein x, so daß
|{i ∈ {1, . . . , n} : di ∈ C}| >
n
3
gilt. Wir fixieren dieses x und setzen I = {i ∈ {1, . . . , n} : di ∈ C} und A = {bi :
i ∈ I}. Dann ist |A| > n/3.
Wir zeigen schließlich, daß A summenfrei ist. Anderenfalls gäbe es i, j, k ∈ I mit
bi + bj = bk .
Dies impliziert aber xbi + xbj = xbk und folglich auch di + dj = dk , letzteres in Zp .
Dies ist aber wegen di , dj , dk ∈ C ein Widerspruch zur Summenfreiheit von C.
Bemerkung: N. Alon, D. Kleitman (1990) haben die folgende Aussage über summenfreie Mengen in beliebigen abelschen Gruppen bewiesen: Jede Menge von n von
Kapitel 1. Einführung in die Methode
0 verschiedenen Elementen einer abelschen Gruppe enthält eine summenfreie Teilmenge mit mehr als 2n/7 Elementen. Hier ist der Faktor 2/7 optimal. Die optimale
Konstante in Theorem 4 ist nicht bekannt.
Der Satz von Dirichlet sagt aus, daß es zu gegebenen teilerfremden Zahlen a ≥
2, b ≥ 1 unendlich viele Primzahlen der Form ak + b gibt. Dieser allgemeine Satz ist
relativ schwierig zu beweisen. Wie versprochen wollen wir noch ein kurzes Argument
anführen, daß es unendlich viele Primzahlen der Form 3k + 2 gibt. Dieses verläuft
ähnlich wie der Beweis von Euklid für die Unendlichkeit der Menge der Primzahlen.
Nehmen wir also an, daß es nur endlich viele Primzahlen der Form 3k + 2 gibt. Sei
die größte Primzahl dieser Form pn , wobei p0 = 2, p1 = 3, p2 , . . . , pn die Folge aller
Primzahlen bis pn ist. Wir setzen nun
N = 2 · 3 · . . . · pn − 1.
Dann läßt N bei Division durch 3 offenbar den Rest 2. Da keine der Primzahlen
p0 , p1 , . . . , pn ein Teiler von N ist, müssen alle Promteiler von N größer als pn sein
und somit bei Division durch 3 den Rest 1 lassen. Damit läßt aber auch N bei
Division durch 3 den Rest 1, ein Widerspruch.
1.3
Wahrscheinlichkeitstheoretische Grundbegriffe
In diesem Abschnitt wollen wir kurz die Grundlagen der Wahrscheinlichkeitstheorie
wiederholen, die wir in den folgenden Vorlesungen benötigen.
Wahrscheinlichkeitsraum: Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, Σ, P), wobei
Ω eine Menge, Σ ⊂ 2Ω eine σ-Algebra von Teilmengen von Ω und P ein Wahrscheinlichkeitsmaß auf Σ ist.
Die Elemente von Σ heißen Ereignisse, die Elemente von Ω Elementarereignisse. Für
A ∈ Σ heißt P(A) die Wahrscheinlichkeit des Ereignisses A.
Wir werden oft endliche Wahrscheinlichkeitsräume betrachten, wo Ω eine endliche
Menge und Σ = 2Ω die σ-Algebra aller Teilmengen von Ω ist. Dann ist ein Wahrscheinlichkeitsmaß P auf Ω bestimmt durch eine Funktion p : Ω → [0, 1] mit
X
ω∈Ω
p(ω) = 1.
9
10
1.3 Wahrscheinlichkeitstheoretische Grundbegriffe
Beispiel: Sei 0 ≤ p ≤ 1. Der Wahrscheinlichkeitsraum G(n, p) der zufälligen Graphen
hat als Elementarereignisse alle Graphen auf einer fixierten Menge von n Knoten,
wobei die Wahrscheinlichkeit für einen Graph mit m Kanten gegeben ist durch
n
P(G) = pm (1 − p)( 2 )−m .
Jede potentielle Kante kommt also in G mit der Wahrscheinlichkeit p vor, und alle
diese Kanten sind unabhängig voneinander. Wir haben beim Beweis des Theorems
2 schon mit dem Wahrscheinlichkeitsraum G(n, 1/2) gearbeitet. In diesem sind alle
Graphen gleich wahrscheinlich.
Auch folgende einfache Tatsache haben wir uns bereits zunutze gemacht:
Fakt: Seien A1 , . . . , An Ereignisse. Dann gilt
P
n
¡[
i=1
n
¢ X
Ai ≤
P(Ai ).
i=1
Unabhängigkeit: Ereignisse A1 , . . . , An heißen unabhängig, wenn für jede Teilmenge
I ⊂ {1, . . . , n}
¡\ ¢ Y
Ai =
P(Ai ).
P
i∈I
i∈I
Intuitiv bedeutet dies, daß man aus der Tatsache, daß einige der Ereignisse A1 , . . . , An
aufgetreten sind, nichts über die übrigen Ereignisse schließen kann.
Bedingte Wahrscheinlichkeit: Sind A, B Ereignisse mit P(B) > 0, so heißt der Quotient
P(A ∩ B)
P(A | B) =
P(B)
die bedingte Wahrscheinlichkeit für A unter der Voraussetzung, daß B auftritt. Sind
A, B unabhängig, so gilt offenbar P(A | B) = P(A).
Zufallsvariable: Eine reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, Σ, P)
ist eine P-meßbare Funktion X : Ω → R. Die Verteilungsfunktion von X ist die Funktion
FX (a) = F (a) = P(X < a) = P({ω ∈ Ω : X(ω) < a}).
Der Erwartungswert von X berechnet sich als
Z
EX =
X(ω)dP(ω).
Ω
Kapitel 1. Einführung in die Methode
11
Den folgenden einfachen Fakt haben wir ebenfalls bereits benutzt.
Fakt: Es gibt ω1 , ω2 ∈ Ω mit X(ω1 ) ≤ EX und X(ω2 ) ≥ EX.
Die reellen Zufallsvariablen X1 , . . . , Xn heißen unabhängig, wenn für alle a1 , . . . , an ∈
R
n
Y
P(Xi < ai )
P(X1 < a1 , . . . , Xn < an ) =
i=1
gilt. Eine beliebige Menge reeller Zufallsvariablen heißt unabhängig, wenn jede endliche Teilmenge unabhängig ist.
Fakt: Sind X, Y unabhängige reelle Zufallsvariable, so gilt E(XY ) = EX · EY .
12
Kapitel 2
Elementare Prinzipien bei der
Anwendung der probabilistischen
Methode
In diesem Kapitel wollen wir an Beispielen studieren, welche einfachen Prinzipien
wichtig für die Nutzung der probabilistischen Methode sind. Dazu gehören insbesondere
• die Linearität des Erwartungswerts
• kleine Modifikationen
• das zweite Moment - die Chebyshev-Ungleichung
2.1
Die Linearität des Erwartungswerts
Fakt: Sind X, Y reelle Zufallsvariable und a, b ∈ R, so gilt E(aX +bY ) = aEX +bEY .
Beweis.
E(aX + bY )
Z
(aX + bY )dP = a
Ω
Z
Ω
XdP + b
Z
Ω
Y dP = aEX + bEY.
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
Folgerung: Ist X = X1 + . . . + Xn , so gilt EX = EX1 + . . . + EXn .
Zum Berechnen des Erwartungswerts einer reellen Zufallsvariablen kann man dieses
Prinzip oft nutzen, wenn sich X als eine Summe von Indikatorvariablen darstellen
läßt. Die zu einem Ereignis A gehörige Indikatorvariable ist gegeben durch
(
1 für ω ∈ A
IA (ω) =
0 für ω ∈
/ A.
Es gilt EIA = P(A) wegen
EIA =
Z
IA (ω)dP(ω) =
Ω
Z
dP = P(A).
A
Kann man also X schreiben als
X = IA1 + . . . + IAn ,
so läßt sich der Erwartungswert von X berechnen als
EX = P(A1 ) + . . . + P(An ).
Die Anwendung dieses Prinzips wollen wir an der historisch ersten Nutzung der
probabilistischen Methode in einer Arbeit von T. Szele 1943 illustrieren. Dabei geht
es um folgendes Problem. Ein Wettkampf mit n Teilnehmern sei eine Orientierung
des vollständigen Graphen der Ordnung n ( das ist der Graph auf n Knoten mit allen
möglichen Kanten). Hierbei bedeutet Orientierung, daß wir jeder Kante {u, v} genau
eine der beiden möglichen Richtungen (u, v) oder (v, u) geben. Von den möglichen
gerichteten Kanten (u, v) und (v, u) ist also genau eine vorhanden.
Ein Hamiltonkreis in einem Wettkampf ist ein gerichteter Weg, der jeden Knoten
genau einmal passiert. Ist die Knotenmenge die Menge {1, 2, . . . , n}, so stellt eine
Permutation σ der Menge {1, 2, . . . , n} genau dann einen Hamiltonkreis im Wettkampf W dar, wenn (σ(i), σ(i + 1)) ∈ W ist für alle i = 1, . . . , n − 1. Wie viele
Hamiltonkreise kann es in einem Wettkampf geben?
Theorem 5. Es gibt einen Wettkampf mit n Teilnehmern und mindestens
Hamiltonkreisen.
n!
2n−1
13
14
2.1 Die Linearität des Erwartungswerts
Beweis. Wir betrachten zufällige Wettkämpfe W auf den Knoten {1, . . . , n}, indem
wir jeder Kante (unabhängig von den anderen Kanten) eine zufällige Richtung geben,
wobei jede der beiden möglichen Richtungen mit Wahrscheinlichkeit 1/2 auftritt. Sei
X die Anzahl der Hamiltonkreise in unserem zufälligen Wettkampf. X ist eine reelle
Zufallsvariable, die wir nun in eine Summe von Indikatorvariablen zerlegen wollen,
um anschließend den Erwartungswert von X zu berechnen.
Dazu sei σ eine Permutation der Menge {1, 2, . . . , n} und Xσ sei die Indikatorvariable
zu dem Ereignis, daß alle Kanten (σ(i), σ(i + 1)) in dieser Richtung in W auftreten.
Wie oben schon beobachtet, ist dies gerade das Ereignis, daß (σ(1), σ(2), . . . , σ(n))
in dieser Reihenfolge einen Hamiltonkreis in W bilden. Dann ist also
X=
X
Xσ
σ
eine Zerlegung von X in Indikatorvariable. Da die Kantenorientierungen unabhängig
voneinander gewählt werden, erhalten wir
¡
¢
EXσ = P (σ(i), σ(i + 1)) ∈ W für i = 1, . . . , n − 1
=
n−1
Y
i=1
P((σ(i), σ(i + 1)) ∈ W ) =
n−1
Y
i=1
1
1
= n−1 .
2
2
Nun folgt mit der Linearität des Erwartungswerts
EX =
X
σ
EXσ =
n!
.
2n−1
Es muß also einen Wettkampf W geben, der mindestens diese Anzahl von Hamiltonkreisen hat.
Wir wollen ein weiteres Beispiel für die Anwendung der Linearität des Erwartungswertes anführen. Diesmal stammt die Motivation aus der Algorithmentheorie.
Wir betrachten das MAXCUT-Problem. Ist G = (V, E) ein Graph, so fragt dieses
Problem nach der Zerlegung (CUT) der Knotenmenge V in zwei Mengen A, B =
V \ A, so daß die Anzahl der Kanten, die zwischen A und B verlaufen, maximiert
wird (MAX). Dieses Problem ist algorithmisch schwer (NP-vollständig). Das folgende
Theorem sagt aus, daß man immer einen CUT mit der Hälfte aller Kanten findet.
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
Theorem 6. Zu jedem Graph mit m Kanten gibt es einen CUT mit mindestens m/2
Kanten zwischen den beiden Mengen des CUTs.
Beweis. Sei G = (V, E) der betrachtete Graph mit |E| = m. Wir wählen eine zufällige Teilmenge A ⊂ V , indem wir jeden Knoten aus V mit Wahrscheinlichkeit 1/2 zu A
hinzunehmen, alle Knoten unabhängig voneinander. Zu jeder Kante e = {u, v} ∈ E
betrachten wir die Zufallsvariable
(
1 falls genau einer der Knoten u, v in A ist
Xe =
0 sonst.
Dies ist offenbar eine Indikatorvariable mit
EXe = P((u ∈ A & v ∈
/ A) oder (u ∈
/ A & v ∈ A)) =
1
1 1
+ = .
4 4
2
Ist nun X die Zahl aller Kanten mit genau einem Knoten in A, also gerade die Anzahl
der Kanten des CUTs A, B = V \ A, so gilt
EX =
X
EXe =
e∈E
m
.
2
Es muß also eine Menge A geben, für die die Anzahl der Kanten zwischen A und
V \ A mindestens m/2 ist.
2.2
Kleine Modifikationen
Häufig kommt es vor, daß die Anwendung der probabilistischen Methode nicht ganz
das gewünschte „gute“ Objekt liefert. Wenn das Objekt aber „fast gut genug“ ist,
kann man versuchen, es deterministisch so abzuändern, daß man schließlich doch
bekommt, worauf man eigentlich aus war. Dies ist ein weiteres Prinzip, auf daß man
oft trifft und dessen Anwendung wir in diesem Abschnitt studieren wollen.
An dieser Stelle ist es sinnvoll, eine einfache Ungleichung aus der Wahrscheinlichkeitstheorie einzuführen, die abschätzt, wie wahrscheinlich es ist, daß eine Zufallsvariable
ihren Erwartungswert übertrifft. In den folgenden Kapiteln werden wir noch weit
schärfere Ungleichungen dieser Art beweisen und benutzen. Für die Beispiele dieses
Abschnitts genügt uns die
15
16
2.2 Kleine Modifikationen
Markov-Ungleichung. Sei X eine nichtnegative reelle Zufallsvariable und sei a > 0.
Dann gilt
EX
P(X ≥ a) ≤
a.
Beweis. Aus der Nichtnegativität von X folgt
Z
Z
Z
EX = XdP ≥
XdP ≥
Ω
2.2.1
{ω:X≥a}
adP = aP(X ≥ a).
{ω:X≥a}
Große Anticliquen
Wir wollen uns in diesem Beispiel überlegen, wie große Anticliquen ein Graph mit n
Knoten und m Kanten haben kann. Dazu führen wir einige weitere Begriffe aus der
Graphentheorie ein.
Sei also G = (V, E) ein Graph. Der Grad d(v) eines Knotens v ∈ V ist die Anzahl
der Kanten, die v enthalten. Der durchschnittliche Grad des Graphen G ist d = 2m
n ,
wobei m = |E| die Anzahl der Kanten und n = |V | die Anzahl der Knoten von G ist.
Die Anticliquenzahl bzw. Unabhängigkeitszahl α(G) ist die Kardinalität der größten
Anticlique in G.
Ein berühmtes Theorem von Turán beinhaltet die Abschätzung
α(G) ≥
n
.
d+1
Extremale Graphen für ganzzahliges d findet man übrigens als disjunkte Vereinigungen von (d + 1)-Cliquen. Wir zeigen mit einem einfachen probabilistischen Argument
etwa die Hälfte des Turán-Theorems.
Theorem 7. α(G) ≥
n
.
2d
Beweis. Wir wählen wieder eine zufällige Teilmenge A ⊂ V , diesmal nehmen wir
jeden Knoten mit Wahrscheinlichkeit p, unabhängig voneinander. Das konkrete p
bestimmen wir später.
Wir definieren zwei Zufallsvariablen X und Y . Sei X = |A|. Y sei die Anzahl der
Kanten von G in dem von G auf A induzierten Graphen. Dies ist einfach der Graph
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
mit der Knotenmenge A, der alle Kanten aus G enthält, die Knoten in A haben.
Dann gilt
1
EX = pn und EY = mp2 = ndp2 .
2
Es folgt
E(X − Y ) = pn(1 − pd/2).
Dann muß es also eine Teilmenge A der Knotenmenge V geben, für die die Differenz
aus der Anzahl der Knoten (|A|) und der Kanten in A
≥ pn(1 − pd/2)
ist.
Wir modifizieren nun A, indem wir einfach von jeder Kante, die sich noch im von
G induzierten Graph befindet, einen Knoten entfernen. Dadurch ändert sich die
Differenz aus Anzahl der Knoten und Anzahl der Kanten nicht. Übrig bleibt aber
eine Menge B, in der G keine Kanten mehr hat - eine Anticlique. Außerdem ist
|B| ≥ pn(1 − pd/2).
Wir müssen schließlich nur noch p = 1/d (optimal) wählen, um |B| ≥ n/(2d) zu
erhalten.
2.2.2
Graphen mit weiter Taille und großer chromatischer Zahl
Unser nächstes Beispiel stammt ebenfalls aus der Graphentheorie. Dazu benötigen
wir zwei weitere graphentheoretische Invarianten. Die chromatische Zahl χ(G) eines Graphen G ist die kleinste Anzahl von Farben, mit denen man die Knoten des
Graphen so färben kann, daß die Endpunkte jeder Kante verschiedene Farben erhalten. Man könnte vermuten, daß ein Graph mit hoher chromatischer Zahl auch einen
großen vollständigen Teilgraphen enthalten muß, da es ja schwierig ist, ihn mit wenigen Farben zu färben. Wir wollen in diesem Abschnitt einsehen, daß das Gegenteil
der Fall ist.
Ein erstes Ergebnis in diese Richtung wurde von B. Descartes um 1940 gefunden,
die Graphen mit beliebig hoher chromatischer Zahl konstruiet hat, die trotzdem keine Dreiecke enthalten. Diese Beispiele enthielten allerdings viele Kreise der Länge
4. Ein Kreis in einem Graphen G = (V, E) ist eine Folge v1 , . . . , vn von paarweise
17
18
2.2 Kleine Modifikationen
verschiedenen Knoten, so daß {vi , vi+1 } ∈ E und {vn , v1 } ∈ E sind. Die Taillenweite
γ(G) eines Graphen G ist die Länge eines kürzesten Kreises. Es gibt natürlich kreisfreie Graphen, sogenannte Wälder, deren chromatische Zahl 2 ist, die also für unsere
Betrachtungen hier keine Rolle spielen.
Können wir Graphen finden, die keine Kreise kleiner Länge haben, aber trotzdem
viele Farben zum Färben benötigen? Die positive Antwort gibt das folgende Theorem
von P. Erdös (1959).
Theorem 8. Zu jedem k ≥ 3 gibt es einen Graphen mit chromatischer Zahl mindestens k und Taillenweite mindestens k.
Zur Vorbereitung überlegen wir uns, daß für jeden Graph G mit n Knoten und
Anticliquenzahl α(G)
n
χ(G) ≥
α(G)
gilt. Tatsächlich müssen ja bei einer zulässigen Färbung von G die Knoten, die eine
gemeinsame Farbe erhalten, eine Anticlique bilden und somit Kardinalität höchstens
α(G) haben. Dann folgt aber α(G)χ(G) ≥ n. Um das Theorem zu beweisen, genügt
es also, Graphen mit relativ kleiner Anticliquenzahl, aber großer Taillenwmeite zu
konstruieren.
Außerdem benötigen wir die elementare Ungleichung
1 + x ≤ ex für alle reellen x,
die sich sofort aus der Konvexität der Exponentialfunktion f (x) = ex und f (0) =
f 0 (0) = 1 ergibt.
Beweis. Wir benutzen unseren Wahrscheinlichkeitsraum G(n, p) mit
k
p = n− k+1 .
Für eine feste Menge aus r Knoten ist die Wahrscheinlichkeit, daß diese Menge eine
r
Anticlique bildet, gleich (1 − p)(2) . Damit erhalten wir
µ ¶
¡
r
r−1 ¢r
n
(1 − p)(2) ≤ n(1 − p) 2 .
P(α(G) ≥ r) ≤
r
Mit der Abschätzung 1 − p ≤ e−p erhalten wir
¡
¢r
P(α(G) ≥ r) ≤ ne−p(r−1)/2 .
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
Wir zeigen jetzt, daß
¡
n¢ 1
<
P α(G) ≥
2k
2
(2.1)
1
für genügend großes n gilt. Dazu beobachten wir, daß n k+1 ≥ 6k log n für genügend
großes n gilt, was dann
k
6k log n
p = n− k+1 ≥
n
n
impliziert. Mit r = d 2k e folgt pr ≥ 3 log n und somit
r
e
−p(r−1)/2
−pr/2 p/2
−3 log n/2 1/2
ne
= ne
e ≤ ne
e =
.
n
Dies geht für n → ∞ gegen 0, somit auch
P(α(G) ≥ r) ≤
³ e ´r/2
n
.
Wir schauen uns nun die Taillenweite von G an. Zunächst wollen wir zeigen, daß
G „nicht zuviel“ Kreise der Länge ≤ k enthält. Sei also 3 ≤ h ≤ k und A ⊂ V
eine Menge mit |A| = h. Die Zahl der möglichen Kreise der Länge h, die aus den
Knoten aus A gebildet werden können, ist gleich der halben Anzahl der zyklischen
Permutationen von A:
(h − 1)!
.
2
Jeder dieser Kreise hat Wahrscheinlichkeit ph . Ist nun X die Gesamtzahl der Kreise
mit einer Länge ≤ k, so erhalten wir mittels Linearität des Erwartungswerts
EX =
k µ ¶
X
n (h − 1)!
h=3
h
2
k
ph ≤
1X h h 1
n p ≤ (k − 2)nk pk
2
2
h=3
1
wegen np = n k+1 ≥ 1. Schließlich wenden wir noch die Markov-Ungleichung an:
¡
1
(k − 2)nk pk
n ¢ EX
≤
= (k − 2)n− k+1 .
P X≥
≤
2
n/2
n
Also gilt für genügend großes n auch
¡
n¢ 1
< .
P X≥
2
2
Zusammen mit (2.1) liefert uns die letzte Ungleichung also einen Graphen G mit
19
20
2.2 Kleine Modifikationen
• α(G) <
n
2k
• Die Anzahl der Kreise in G mit Länge ≤ k ist kleiner als
n
2.
Wir modifizieren nun noch den Graphen G, indem wir aus jedem tatsächlich vorkommenden Kreis der Länge ≤ k einen Knoten entfernen und somit alle Kreise der
Länge ≤ k beseitigen. Den resultierenden Graphen wollen wir H nennen. Dann hat
H offenbar
• ≥
n
2
Knoten
• Taillenweite γ(G) > k
• α(H) <
n
2k ,
also auch
χ(H) ≥
n/2
n/2
>
= k.
α(H)
n/2k
Solch einen Graphen haben wir gerade gesucht!
2.2.3
Packungen konvexer Mengen
Ein wichtiges Teilgebiet der Geometrie beschäftigt sich mit guten Packungen und
Überdeckungen von Räumen (wie etwa des euklidischen Raumes Rd oder der Sphäre
Sd−1 = {x ∈ Rd : kxk2 = 1}) mit Kugeln oder allgemeineren Mengen, z.B. konvexen Mengen. Zwei typische Beispiele sind das Kepler-Problem und das DiktatorenProblem.
Kepler-Problem: Gesucht ist die dichteste Packung von Kugeln mit Radius 1 in
Rd . (J. Kepler hat das Problem für d = 3 formuliert und die tatsächlich optimale
Packung vermutet.)
Diktatoren-Problem: Man verteile n Punkte (Diktatoren) auf der Sphäre Sd−1
derart, daß der minimale Abstand zwischen verschiedenen Punkten maximiert wird.
Die optimale Lösung für das Kepler-Problem kennt man nur für d = 2 und d =
3. Letzteres wurde erst vor ein paar Jahren unter massivem Computereinsatz von
T. Hales bewiesen. Auch die optimale Lösung des Diktatorenproblems ist nur für
wenige Paare (d, n) mit d ≥ 3 bekannt.
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
Gute Packungen und Überdeckungen in Räumen großer Dimension kann man oft
mittels der probabilistischen Methode finden. Wir wollen uns hier das folgende allgemeine Packungsproblem anschauen. Sei K ⊂ Rd eine beliebige beschränkte meßbare
Menge. Wie dicht kann man kongruente Kopien von K ohne Überlappungen packen?
Zur genauen Problemformulierung sei W (x) der Würfel [0, x]d mit Seitenlänge x. Eine
Packung von K in W (x) ist eine Familie paarweise disjunkter kongruenter Kopien
von K, die alle in W (x) enthalten sind. Sei f (x) die maximale Kardinalität einer
Packung von K in W (x). Die Packungsdichte definieren wir dann als
δ(K) = lim
x→∞
f (x)
.
xd
Man kann zeigen, daß dieser Limes existiert. Ohne diese Tatsache könner wir in
folgendem Theorem einfach den Limes durch den Limes inferior ersetzen.
Theorem 9. Sei K ⊂ Rd eine beschränkte konvexe zentralsymmetrische Menge mit
Mittelpunkt 0. Dann gilt
δ(K) ≥ 2−d−1 .
Beweis. Wir wählen Punkte P1 , . . . , Pn in W (x) zufällig unabhängig voneinander
mit uniformer Verteilung, d.h.
P(Pi ∈ A) =
|A|
|A|
= d
|W (x)|
x
für jede meßbare Menge A ⊂ W (x). Unsere Kopien von K seien Ki = Pi + K, i =
1, . . . , n. Wir haben zwei Probleme. Einerseits können sich einige der Ki überlappen,
außerdem können einige der Ki über den Rand von W (x) hinausragen.
Behandel wir zunächst das erste Problem. Wir berechnen zunächst die Wahrscheinlichkeit, daß sich Ki und Kj für i 6= j überlappen. In diesem Fall muß es Qi , Qj ∈ K
mit Pi + Qi = Pj + Qj geben. Also gilt wegen der Konvexität und Symmetrie von K
Pi − Pj = Qj − Qi = 2
Qj − Qi
∈ 2K.
2
Folglich ist Pi ∈ Pj + 2K, was mit Wahrscheinlichkeit
P(Ki ∩ Kj 6= ∅) ≤ P(Pi ∈ Pj + 2K) =
|2K|
xd
eintritt. Wir folgern
|2K|
2d |K|
=
.
xd
xd
21
22
2.3 Die Zweite-Momenten-Methode
Sei nun X die Anzahl der Paare (i, j) mit i < j, für die sich Ki und Kj überlappen.
Die Linearität des Erwartungswertes liefert nun
µ ¶
X
n d −d
EX =
P(Ki ∩ Kj 6= ∅) ≤
2 x |K| ≤ n2 2d−1 x−d |K|.
2
1≤i<j≤n
Folglich gibt es Punkte K1 , . . . , Kn mit höchstens dieser Anzahl von sich überlappenden Ki , Kj . Für je zwei sich überlappende Ki ∩ Kj 6= ∅ nehmen wir entweder
Ki oder Kj aus unserer Familie von Kopien heraus und erhalten eine Packung aus
mindestens
n − n2 2d−1 x−d |K|
Kopien von K. Zum Maximieren setzen wir n = xd 2−d |K|−1 , wobei wir nur noch
solche x betrachten, für die dies eine ganze Zahl liefert. Wir erhalten eine Packung
aus mindestens
xd 2−d−1 |K|−1
Kopien.
Nicht alle diese Kopien liegen aber ganz in W (x). Um dieses Problem zu behandeln,
sei s > 0 so, daß K ⊂ [−s, s]d gilt. Dann liegen alle unsere Kopien Ki in [−s, x + s]d
und somit in einem Würfel mit Kantenlänge x + 2s. Wir erhalten
f (x + 2s) ≥ xd 2−d−1 |K|−1
und folglich
|K|f (x + 2s)
≥ lim
δ(K) ≥ lim
x→∞
x→∞ (x + 2s)d
2.3
µ
x
x + 2s
¶d
2−d−1 .
Die Zweite-Momenten-Methode
In diesem Abschnitt wollen wir neben dem Erwartungswert die nächste wichtige
Charakteristik einer Zufalssvariable benutzen - ihere Varianz. Sie ist ein Maß dafür,
wie sehr eine Zufallsvariable um ihren Erwartungswert schwankt. Für eine konstante
Zufallsvariable ist die Varianz 0.
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
Die Varianz einer reellen Zufallsvariable X ist definiert als
Var X = E(X − EX)2 = EX 2 − (EX)2 .
EX 2 heißt zweites Moment und σ = σ(X) =
√
Var X Standardabweichung von X.
Die Varianz ist nicht linear wie der Erwartungswert. Wollen wir die Varianz einer
Summe zweier Zufallsvariablen berechnen, so müssen wir etwas über ihre Abhängigkeit wissen. Dazu brauchen wir die Covarianz
Cov (X, Y ) = E((X − EX)(Y − EY )) = E(XY ) − EX · EY.
Sind X und Y unabhängig, so ist ihre Covarianz 0.
Lemma 10.
Var
n
X
Xi =
n
X
i=1
i=1
X
Var Xi + 2
Cov (Xi , Xj ).
1≤i<j ≤ n
Beweis.
Var
n
X
i=1
n
n
n
n
´
´ ³ X
´ ³ X
³X
X
Xj
Xi · E
Xj − E
Xi = E
Xi ·
=
i=1
n
X
i,j=1
E(Xi Xj ) −
n
X
i,j=1
EXi · EXj
n
X
=
(EXi2 − (EXi )2 ) + 2
i=1
=
n
X
Var Xi + 2
i=1
j=1
i=1
j=1
X
X
(E(Xi Xj ) − EXi · EXj )
1≤i<j ≤ n
Cov (Xi , Xj ).
1≤i<j ≤ n
Sind also X1 , . . . , Xn unabhängig (hier genügt sogar paarweise Unabhängigkeit), so
gilt
n
n
X
X
Var
Xi =
Var Xi .
i=1
i=1
Die Zweite-Momenten-Methode besteht in der Anwendung der
23
24
2.3 Die Zweite-Momenten-Methode
Chebyshev-Ungleichung: Ist X eine reelle Zufallsvariable mit endlicher Varianz
und t > 0, dann gilt
Var X
σ2
P(|X − EX| ≥ t) ≤
=
.
t2
t2
Die Chebyshev-Ungleichung ist nichts anderes als die Markov-Ungleichung für die
Zufallsvariable (X − EX)2 und a = t2 .
Verlangt man von der Zufallsvariablen X nichts als Endlichkeit der Varianz, so ist
die Chevbyshev-Ungleichung optimal. Um dies einzusehen, kann man die dreiwertige
Zufallsvariable
(
a
mit Wahrscheinlichkeit p
X=
a ± t mit Wahrscheinlichkeit 1−p
2
betrachten. X hat Erwartungswert a, Varianz (1 − p)t2 und erfüllt
P(|X − a| ≥ t) = 1 − p,
also Gleichheit in der Chevbyshev-Ungleichung.
Für viele Zufallsvariable ist die Chevbyshev-Ungleichung aber sehr schlecht. Ist X
eine normalverteilte Zufallsvariable mit Erwartungswert µ und Varianz σ 2 , dann gilt
Z ∞
2
2
P(|X − µ| ≥ t) = √
e−t /2 dt,
2π t/σ
was asymptotisch zu
ist.
2.3.1
2
2
√2 σ e−t /2σ
π t
und somit für großes t wesentlich kleiner als
σ2
t2
Mengen mit verschiedenen Summen
Diesmal wenden wir uns zur Demonstration der zweiten Momentenmethode wieder
einem Problem aus der additiven Zahlentheorie zu. Wir wollen sagen, daß eine Menge
{x1 , . . . , xk } von natürlichen Zahlen verschiedene Summen hat, falls alle Summen
X
xi ; S ⊂ {1, . . . , k}
i∈S
paarweise verschieden sind. Ein offensichtliches Beispiel erhält man mit xi = 2i .
Sei nun f (n) die maximale Kardinalität einer Teilmenge von {1, 2, . . . , n} mit verschiedenen Summen. Das gerade angeführte Beispiel zeigt, daß sicherlich
f (n) ≥ 1 + blog2 nc
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
gilt. Wie gut ist diese Abschätzung? Für die Lösung des folgenden Problems hat P.
Erdös 300 $ offeriert.
Problem: Gibt es eine Konstante C, so daß
f (n) ≤ log2 n + C
für alle n ist?
Wir wollen zunächst (ohne die probabilistische Methode) die Abschätzung
f (n) ≤ log2 n + log2 log2 n + C
beweisen. Dazu sei also eine Menge der Kardinalität k in {1, 2, . . . , n}, die verschiedene Summen hat. Es gibt also 2k verschiedene Summen, die man aus Elementen
der Menge bilden kann, und alle diese Summen sind offenbar natürliche Zahlen (einschließlich der 0) kleiner als kn. Folglich ist
2k ≤ kn.
(2.2)
k > log2 n + log2 log2 n + 2,
(2.3)
Ist nun
so erhalten wir aus der Monotonie der Funktion
2x
x
( für genügend großes x)
2k
2log2 n+log2 log2 n+2
4n log2 n
>
≥
= 2n
k
log2 n + log2 log2 n + 2
2 log2 n
für genügend großes n im Widerspruch zu (2.2). Also kann (2.3) nur für endlich viele
n gelten, was die Behauptung beweist.
Mit der probabilistischen Methode und der Chebyshev-Ungleichung kann man dieses
Resultat verbessern zu folgendem
Theorem 11. Es gibt eine Konstante C, so daß für alle n
f (n) ≤ log2 n +
gilt.
1
log2 log2 n + C
2
25
26
2.3 Die Zweite-Momenten-Methode
Beweis. Seien δ1 , . . . , δk unabhängige {0, 1}-wertige Zufallsvariable mit
1
P(δi = 0) = P(δi = 1) = .
2
Solche Zufallsvariablen bezeichnet man oft als Selektoren, da eine gewisse Teilmenge
{i : δi = 1} der Menge {1, . . . , k} ausgewählt wird. Ist nun {x1 , . . . , xk } ⊂ {1, . . . , n}
eine Menge mit verschiedenen Summen, so betrachten wir die zufällige Summe
X = δ1 x1 + δ2 x2 + . . . + δk xk .
Der Erwartungswert von X ergibt sich mittels Linearität des Erwartungswerts als
EX =
k
X
k
Eδi xi =
i=1
1X
xi
2
i=1
und die Varianz wegen der Unabhängigkeit der Variablen δi als
Var X =
k
X
Var (δi xi ) =
i=1
k
X
k
x2i Var δi
1 X 2 kn2
.
xi ≤
=
4
4
i=1
i=1
Dann liefert die Chebyshev-Ungleichung für jedes t > 0
P(|X − EX| ≥ t) ≤
kn2
.
4t2
(2.4)
Weiter erhalten wir
P(|X − EX| ≤ t) =
EX+t
X
P(X = s).
(2.5)
s=EX−t
Jede Summe s kann aber nach Voraussetzung nur auf höchstens eine Art angenommen werden. Also ist
(
2−k falls s angenommen wird
P(X = s) =
0
sonst.
Folglich erhalten wir wegen (2.5)
P(|X − EX| ≤ t) ≤ 2−k (2t + 1),
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
was zusammen mit (2.4) zu der Ungleichung
1 = P(|X − EX| ≥ t) + P(|X − EX| < t) ≤
führt. Wir setzen nun (optimal) t =
√
3kn
2
kn2
+ 2−k (2t + 1)
4t2
und erhalten
√
1
1 ≤ 2−k ( 3kn + 1) +
3
oder umgestellt
n≥
2 k
32
√
−1
3k
.
Benutzt man dies wie oben (2.2), so erhält man die Behauptung des Theorems.
2.3.2
Anzahl von Primfaktoren
Für eine natürliche Zahl n sei f (n) die Anzahl der verschiedenen Primzahlen, die
n teilen. Wie groß ist f (n) für eine „typische “ natürliche Zahl n? Die Antwort,
die in folgendem Theorem gegeben wird, besagt, daß „fast alle “ n etwa log log n
Primteiler haben. Dies wurde 1920 von G. Hardy und S. Ramanujan mit einem recht
komplizierten Argument bewiesen. Der folgende Beweis mittels der probabilistischen
Methode stammt von P. Turan 1934.
Theorem 12. Sei φ(n) ein beliebig langsam gegen unendlich strebende Funktion. Ist
p
A(n) = #{x ∈ {1, . . . , n} : |f (x) − log log n| > φ(n) log log n},
so gilt A(n) = o(n).
Vorbemerkung: Wir wollen hier eine Anleihe aus der Zahlentheorie machen, die wir
nicht beweisen. Beweise der folgenden Abschätzung für die Summe von Reziproken
von Primzahlen finden sich in Bücher zur Zahlentheorie, in denen der Primzahlsatz
beweisen wird. Der Beweis ist aber wesentlich einfacher als der Beweis des Primzahlsatzes.
X1
= log log x + O(1)
(2.6)
p
p≤x
Hierbei läuft die Summe über alle Primzahlen p ≤ x.
27
28
2.3 Die Zweite-Momenten-Methode
Beweis von Theorem 12. Sei x ∈ {1, . . . , n} zufällig gewählt mit P(x = k) = 1/n für
k = 1, . . . , n. Wir setzen für jede Primzahl p
(
1 falls p Teiler von x ist
Xp =
0 sonst.
Weiter sei M = n1/10 . Der Exponent 1/10 ist nicht wichtig, jede kleine Potenz von
n geht ebenfalls. Außerdem sei
X=
X
p≤M
Xp = Anzahl der Primteiler ≤ M von x.
Da jedes x höchstens 10 Primteiler haben kann, die größer als M sind, erhalten wir
f (x) − 10 ≤ X(x) ≤ f (x).
Es genügt also, das Theorem mit X(x) anstelle von f (x) zu zeigen. Die Behauptung
geht dann über in
p
P(|X(x) − log log n| > φ(n) log log n) = o(1).
(2.7)
Um diese Ungleichung mittels der Chebyshev-Ungleichung zu beweisen, benötigen
wir Erwartungswert und Varianz von X. Wir berechnen zunächst
¥n¦
1
p
= + O(n−1 ),
EXp =
n
p
was mittels Linearität des Erwartungswerts und (2.6)
EX =
X
p≤M
EXp =
X 1
+ O(M n−1 ) = log log M + O(1) = log log n + O(1)
p
p≤M
liefert. Für die Varianz von X benutzen wir die Formel
Var X =
X
Var Xp + 2
p≤M
X
Cov (Xp , Xq ).
p<q≤M
Mittels (2.6) erhalten wir zunächst
V arXp = EXp2 − (EXp )2 = EXp − (EXp )2 =
1
1
− 2 + O(n−1 ).
p p
Kapitel 2. Elementare Prinzipien für die probabilistische Methode
29
Um die Covarianzen zu berechnen, beobachten wir zunächst
(
1 falls pq Teiler von x ist
Xp Xq =
0 sonst.
Folglich ist
¥n¦
pq
¥n¦ ¥n¦
p
q
−
·
Cov (Xp , Xq ) = E(Xp Xq ) − EXp · EXq =
n¶ n
µ
¶µ
¶ nµ
1 1
1 1
1 1 1
1
−
−
−
≤
+
.
≤
pq
p n
q n
p q n
Aufsummieren ergibt unter nochmaliger Verwendung von (2.6)
µ
¶
X
1 1
2 X
2M X 1
2
Cov (Xp , Xq ) ≤
+
≤
= 2n−9/10 (log log n+O(1)) = o(1).
n
p q
n
p
p<q≤M
p<q≤M
p≤M
Analog zeigt man
2
X
p<q≤M
Cov (Xp , Xq ) ≥ −o(1).
Die Covarianzen beeinflussen also die Varianz nicht:
µ
¶
X
1
1
Var X =
p≤M
−
+ o(1) = log log n + O(1).
p p2
Mittels des errechneten Erwartungswerts und der Varianz von X ergibt sich schließlich aus der Chebyshev-Ungleichung
p
log log n + O(1)
= o(1).
P(|X(x) − log log n| > φ(n) log log n) ≤
φ(n)2 log log n
30
Kapitel 3
Konzentrationsungleichungen
Wir betrachten zur Einleitung in dieses Kapitel das folgende Beispielproblem: Wie
groß ist der typische maximale Grad eines zufälligen Graphen in G(n, 1/2)? Wir
müssen also die Zufallsvariable
dmax (G) = max d(u)
u∈V
für einen zufälligen Graphen G = (V, E) behandeln. Es ist erst einmal nicht klar, wie
sich diese Zufallsgröße verhält, insbesondere wie groß ihr Erwartungswert ist. Was
wir natürlich wissen, ist der durchschnittliche Grad für einen festen Knoten u:
Ed(u) =
n−1
=: d.
2
Das sagt aber noch nichts über Edmax aus. Hätten wir aber eine Ungleichung (für
festes u) der Form
1
P(d(u) ≥ d + t) ≤ 2 ,
n
so erhalten wir
X
1
P(d(u) ≥ d + t) ≤ ,
P(dmax ≥ d + t) = P(max d(u) ≥ d + t) ≤
u
n
u∈V
also
1
,
n
d.h. “fast alle„Graphen haben maximalen Grad höchstens d + t. Wir werden später
√
sehen, daß man t = c n log n wählen kann.
P(dmax < d + t) ≥ 1 −
Kapitel 3. Konzentrationsungleichungen
31
Man braucht also hier wie auch in vielen anderen Anwendungen Abschätzungen der
Form
P(X ≥ EX + t) ≥ . . .
oder auch
P(X ≥ EX − t) ≤ . . .
bzw.
P(|X − EX| ≥ t) ≤ . . .
Solche Abschätzungen nennt man Konzentrationsungleichungen oder auch Ungleichungen für große Abweichungen (large deviation inequalities, tail estimates). Diese Bezeichnung kommt daher, daß die Werte der Zufallsvariable sich um den Erwartungswert konzentrieren, also mit großer Wahrscheinlichkeit im Intervall (EX −
t, EX + t) liegen.
Wir kennen bereits die Chebyshev-Ungleichung als eine Ungleichung dieser Form:
P(|X − EX| ≥ t) ≤
Var X
.
t2
Benutzen wir diese Ungleichung für unser Beispielproblem, erhalten wir
Var d(u) = Ed(u)2 − (Ed(u))2 =
n−1
4
und somit
n−1
.
4t2
Damit dies kleiner als 1/n ist, brauchen wir t > (n − 1)/2, somit liefert uns die
Chebyshev-Ungleichung überhaupt keine brauchbare Aussage. In den folgenden Abschnitten wollen wir einsehen, wie man bessere Konzentrationsungleichungen für
Summen unabhängiger Zufallsvariablen beweisen und anwenden kann.
P(|d(u) − d| ≥ t) ≤
3.1
Summen unabhängiger Bernoulli-Variablen
Wir betrachten zunächst wieder unser Beispielproblem aus der vorhergehenden Einleitung. Hier ist
X
d(u) =
Xv
v6=u
32
3.1 Summen unabhängiger Bernoulli-Variablen
mit den unabhängigen Indikatorvariablen
(
1 falss {u, v} eine Kante ist
Xv =
0 sonst
Wir haben es also mit einer Summe unabhängiger {0, 1}-wertiger Zuvallsvariablen
zu tun, wobei die Werte 0 und 1 jeweils mit Wahrscheinlichkeit 1/2 angenommen
werden. Um die folgenden Betrachtungen zu vereinfachen, zentrieren wir diese Variablen, so daß sie Erwartungswert 0 bekommen. Dann erhalten wir Bernoulli-Variablen
(auch Rademacher-Variablen genannt. Das sind unabhängige {+1, −1}-wertige Variable X1 , . . . , Xn mit
1
P(Xi = +1) = P(Xi = −1) = .
2
Durch einfache Reskalierung kann man Konzentrationsungleichungen für BernoulliVariablen auf die Variablen aus unserem Beispielproblem umrechnen. Hier ist nun
eine solche Konzentrationsungleichung:
Theorem 13 (Chernoff-Ungleichung). Seien X1 , . . . , Xn unabhängige BernoulliVariable und sei
Sn = X1 + X2 + . . . + Xn .
Dann gilt für jedes t > 0
³
t2 ´
P(Sn ≥ t) < exp − 2
2σ
und
³
t2 ´
P(Sn ≤ −t) < exp − 2
2σ
mit σ 2 = Var Sn = n. Insbesondere hat man auch
³
t2 ´
P(|Sn | ≥ t) < 2 exp − 2 .
2σ
Beweis. Wir beweisen nur die erste Ungleichung. Die zweite folgt aus Symmetriegründen. Die dritte ist nur eine Zusammenfassung der beiden ersten.
Statt direkt die Variable Sn zu betrachten, schauen wir uns die Variable Y = eα Sn
an, wobei wir den Parameter α später wählen. Auf diese Variable wenden wir die
Markov-Ungleichung an und erhalten
P(Sn ≥ t) = P(Y ≥ eαt ) ≤
EY
.
eαt
(3.1)
Kapitel 3. Konzentrationsungleichungen
33
Wir berechnen zunächst unter Benutzung der Unabhängigkeit der Xi
µ α
¶n
n
n
n
n
´
³
Y
Y
Y
X
eα + e−α
e + e−α
αXi
αXi
=
Ee
=
e
=
Xi = E
.
EY = E exp(α
2
2
i=1
i=1
i=1
i=1
Durch Taylorentwicklung sieht man leicht die Ungleichung
eα + e−α
2
≤ eα n/2
2
ein, die dann mit (3.1) die Abschätzung
P(Sn ≥ t) ≤ exp
³ α2 n
2
´
− αt
liefert. Schließlich setzen wir noch α = t/n, um bei der Chernoff-Ungleichung anzukommen.
Wir wollen nun die gerade bewiesene Chernoff-Ungleichung auf unser Beipielproblem
des maximalen Grades eines zufälligen Graphen anwenden. Dazu beobachten wir, daß
die Variablen 2Xv − 1 Bernoulli-Variablen sind, womit sich auch
Sn−1 = 2
X
v6=u
Xv − (n − 1) = 2d(u) − (n − 1)
ergibt. Die Chernoff-Ungleichung liefert nun für jeden festen Knoten u
³
2t2 ´
P(d(u) ≥ d + t) = P(Sn−1 ≥ 2t) ≤ exp −
.
n−1
Setzen wir noch t =
und somit auch
p
(n − 1) log n, so erhalten wir
p
¡
¢
1
P d(u) ≥ (n − 1)/2 + (n − 1) log n ≤ 2
n
p
¡
¢ 1
P max d(u) ≥ (n − 1)/2 + (n − 1) log n ≤ .
u∈V
n
34
3.1 Summen unabhängiger Bernoulli-Variablen
3.1.1
Kombinatorische Diskrepanz
Als weitere Anwendung der Chernoff-Ungleichung wollen wir die kombinatorische
Diskrepanz betrachten. Ist X eine n-elementige Menge, A ⊂ X eine Teilmenge und
χ : X → {−1, +1} eine Färbung von X mit zwei Farben, so ist die Diskrepanz von
X auf A gegeben durch
X
disc (A, χ) =
χ(x).
x∈A
Sie gibt die Abweichung von der „ausgeglichenen Färbung“ an, die die gleiche Anzahl
von Punkten von A mit jeder der beiden Farben färbt. Ist F ein gegebenes System
von Teilmengen von X, so heißt
disc (F, χ) = max disc (A, χ)
A∈F
die Diskrepanz von F bei der Färbung χ und
disc F = min disc (F, χ)
χ
die Diskrepanz von F. Hierbei läuft das letzte Minimum über alle möglichen Färbungen χ.
Ist F = 2X das System aller Teilmengen von X, so ist offenbar
lnm
.
disc F =
2
Wir wollen jetzt zeigen, daß die Diskrepanz viel kleiner wird, wenn F nicht zu viele
Mengen enthält.
Theorem 14. Sei |X| = n, F ⊂ 2X , |F| = m. Dann gilt
p
disc F ≤ 2n log(2m).
Enthält F nur höchstens s-elementige Teilmengen, so gilt
p
disc F ≤ 2s log(2m).
Beweis. Wir beweisen nur die zweite Ungleichung, die erste ist ein Spezialfall. Wir
färben X zufällig, wobei wir die Farben der Punkte unabhängig voneinander mit
P(χ(x) = +1) = P(χ(x) = −1) =
1
2
Kapitel 3. Konzentrationsungleichungen
35
wählen. Sei A ⊂ X fixiert. Dann ist
disc (A, χ) =
X
χ(x)
x∈A
eine Summe von |A| unabhängigen Bernoulli-Variablen. Die Chernoff-Ungleichung
liefert dann
³
³ t2 ´
t2 ´
P(|disc (A, χ)| ≥ t) < 2 exp −
≤ 2 exp −
.
2|A|
2s
p
Für t = 2s log(2m) liefert dies
P(|disc (A, χ)| ≥ t) <
1
.
m
Folglich gilt
P(disc (F, χ) ≥ t) ≤
X
A∈F
P(|disc (A, χ)| ≥ t) < 1.
Es gibt also eine Färbung χ mit disc (F, χ) < t).
3.1.2
Ein Spiel
Wir wollen ein weiteres Beispiel für die Anwendung der Chernoff-Ungleichung betrachten. Diesmal geht es um ein Beispiel aus der Spieltheorie.
Das Spiel wird von den zwei Spielern Walter der Wähler und Dieter der Drücker
gespielt. Eine natürliche Zahl n ≥ 1 ist vorgegeben. Das Spiel findet im Rn statt und
läuft über n Runden. Es gibt nach jeder Runde einen Positionsvektor P ∈ Rn , der
vor dem ersten Zug auf 0 gesetzt wird. Eine Runde besteht aus je einem Zug jedes
Spielers:
1. Dieter sucht sich einen Vektor v ∈ {+1, −1}n aus.
2. Walter wählt als neuen Positionsvektor P entweder P + v oder P − v aus.
Nach der n-ten Runde erhält Dieter als Auszahlung max1≤k≤n |Pk |, den maximalen
Absolutbetrag der Koordinaten des Positionsvektors.
Sei Wert (n) der Wert dieses Spiels für Dieter, d.h. die maximale Auszahlung, die er
bei optimaler Gegenwehr von Walter erreichen kann. Sei Sn wieder die Summe von
n unabhängigen Bernoulli-Variablen. Dann gilt
36
3.2 Summen beschränkte runabhängiger Variablen
Theorem 15. Falls P(|Sn | > t) <
1
n
ist, dann gilt Wert (n) ≤ t.
Beweis. Wir wollen sagen, daß Dieter gewinnt, falls die Auszahlung nach Runde n
größer als t ist. Nehmen wir nun an, daß Walter als Strategie in jeder Runde durch
einen Münzwurf bestimmt, ob er P + v oder P − v als neuen Positionsvektor wählt.
Sei xi die i−te Koordinate des Positionsvektors nach der n-ten Runde. Sei weiter Wi
das Ereignis |xi | > t und W = ∪ni=1 das Ereignis, daß Dieter gewinnt. Unabhängig
von der Spielweise von Dieter hat xi immer die Verteilung Sn einer Summe von n
unabhängigen Bernoulli-Variablen. Somit folgt aus der Voraussetzung
P(W ) ≤
n
X
i=1
P(|Sn | > t) < 1.
Also kann Dieter das Spiel nicht immer gewinnen. Da dies ein Spiel mit vollständiger
Information und ohne Unentschieden ist, hat einer der beiden Spieler aber eine Gewinnstrategie. Dies kann nur Walter sein. Also gewinnt Walter bei optimalem Spiel
immer und es gilt Wert (n) ≤ t.
Aus der Chernoff-Ungleichung ergibt sich dann sofort die
Folgerung: Wert (n) ≤
p
2n log(2n).
√
Bemerkung: Es gilt auch Wert (n) ≥ c n log n mit einer von n unabhängigen
Konstanten c > 0. Ein Beweis findet sich im Buch von N. Alon/ J. Spencer im
Abschnitt 14.4.
3.2
Summen beschränkter unabhängiger Variablen
Exponentielle Konzentrationsungleichungen gelten in viel größerer Allgemeinheit als
in Abschnitt 3.1. bewiesen. In diesem Abschnitt wollen wir nur die Beschränktheit
der Zufallsvariablen Xi fordern.
Theorem 16 (Hoeffding-Ungleichung). Seine X1 , . . . , Xn unabhängige Zufallsvariable mit EXi = 0 und Xi ∈ [ai , bi ] fast sicher, wobei ai < 0 < bi für i = 1, . . . , n
ist. Mit Sn = X1 + . . . + Xn gilt dann für alle t ≥ 0
³
´
³
´
2t2
2t2
P
P(Sn ≥ t) < exp − Pn
und
P(S
≤
−t)
<
exp
−
n
n
2
2
i=1 (bi − ai )
i=1 (bi − ai )
Kapitel 3. Konzentrationsungleichungen
37
mit σ 2 = Var Sn = n. Insbesondere hat man auch
´
2t2
.
2
i=1 (bi − ai )
³
P(|Sn | ≥ t) < 2 exp − Pn
Bemerkung: Sind die Xi Bernoulli-Variablen, so erhält man gerade die ChernoffUngleichung.
Beweis. Wir brauchen wieder nur die erste Ungleichung zu zeigen. Wir setzen wieder
Y = eαSn und erhalten
P(Sn ≥ t) = P(Y ≥ eαt ) ≤
mit
EY =
n
Y
EY
eαt
EeαXi .
(3.2)
(3.3)
i=1
Nun gilt wegen der Konvexität der Exponentialfunktion und Xi ∈ [ai , bi ]
eαXi = exp
´ b −X
³b − X
X i − ai
Xi − ai αbi
i
i αai
i
i
αai +
αbi ≤
e +
e .
bi − ai
bi − ai
bi − ai
bi − ai
Nehmen wir nun den Erwartungswert und beachten EXi = 0, so bekommen wir
EeαXi ≤
bi
−ai αbi
eαai +
e .
bi − ai
bi − ai
Wir werden unten zeigen, daß für beliebige a < 0 < b und α > 0 die Ungleichung
−a αb
α2 (b − a)2
b αa
e +
e ≤ exp
b−a
b−a
8
(3.4)
gilt. Benutzen wir dies in der vorhergehenden Ungleichung und setzen die erhaltene
Abschätzung für den Erwartungswert zunächst in (3.3) und dann in (3.2) ein, landen
wir bei
n
´
³
α2 X
(bi − ai )2 .
P(Sn ≥ t) ≤ exp − αt +
8
i=1
Setzt man in dieser Ungleichung (optimal)
4t
2
i=1 (bi − ai )
α = Pn
erhält man gerade die im Theorem behauptete Ungleichung.
38
3.2 Summen beschränkte runabhängiger Variablen
Es bleibt also (3.4) zu zeigen. Dazu substituieren wir
λ=
und erhalten
und
−a
∈ (0, 1) und u = α(b − a) > 0
b−a
−a αb
b αa
e +
e = e−λu (1 − λ + λeu ) =: f (u)
b−a
b−a
eα
2 (b−a)2 /8
= eu
2 /8
.
Setzen wir noch L(u) = log f (u) = −λu + log(1 − λ + λeu ), so haben wir
L(u) ≤
u2
8
(3.5)
zu zeigen. Dazu berechnen wir zunächst
L0 (u) = −λ +
L00 (u) =
λ
λ + (1 − λ)e−u
λ(1 − λ)e−u
(λ + (1 − λ)e−u )2 .
Für ein gewisses v ∈ [0, u] haben wir nun
L(u) = L(0) + L0 (0)u + L00 (v)
Es genügt also
L00 (v) =
oder, äquivalent ungeformt,
u2
u2
= L00 (v) .
2
2
1
λ(1 − λ)e−v
≤
(λ + (1 − λ)e−v )2
4
4λ(1 − λ)e−v ≤ (λ + (1 − λ)e−v )2
zu beweisen. Letzteres ist aber äquivalent zu der offensichtlichen Ungleichung
0 ≤ (λ − (1 − λ)e−v )2 .
Bemerkung: Man findet in der Literatur eine Reihe ähnlicher Konzentrationsungleichungen, z.B. unter dem Namen Bernstein-Ungleichung. Mitunter ist die eine
oder andere Ungleichung schärfer, meist aber nur unwesentlich.
Kapitel 3. Konzentrationsungleichungen
3.3
Geometrische Diskrepanz
Als Beispiel für die Anwendung der Hoeffding-Ungleichung wollen wir uns wieder
ein Diskrepanzproblem anschauen. Das Problem in diesem Abschnitt ist motiviert
durch sogenannte Quasi-Monte-Carlo-Methoden für die numerische Integration, die
oftmals in der Praxis eingesetzt werden.
Wir wollen endliche Punktmengen finden, die möglichst gut das Volumen von Quadern im d-dimensionalen Einheitswürfel [0, 1]d approximieren. Sei T = {t(1) , . . . , t(n) } ⊂
[0, 1]d . Für gegebenes x ∈ [0, 1]d sei
Bx = {y ∈ Rd : 0 ≤ yi ≤ xi für i = 1, . . . , d}
der achsenparallele Quader (Box mit linker unterer Ecke in 0 und rechter oberer Ecke
in x. Mit |Bx | = x1 . . . xd bezeichen wir das Volumen von Bx . Dann heißt
D(T, x) =
1
|T ∩ Bx | − |Bx |
n
die Diskrepanz der Menge T in der Box Bx . Dies ist offenbar ein Maß dafür, wie nahe
die Anzahl der Punkte von T in Bx gerade dem Anteil der Punkte ist, die die Box
Bx bei „gleichverteilten “ Punkten erhalten sollte. Die (Stern)-Diskrepanz von T ist
nun definiert durch
D∗ (T ) = sup |D(T, x)|.
x∈[0,1]d
Wir wollen kurz die Bedeutung dieses Begriffs für die numerische Integration kommentieren. Dazu betrachten wir das Quadraturverfahren
n
1X
Q(f ) =
f (t(i)
n
i=1
für die näherungsweise Berechnung des Integrals
Z
I(f ) =
f (x)dx
[0,1]d
für Funktionen f : [0, 1]d → R. Ziel ist es dann, den Fehler e(f ) = |I(f ) − Q(f )| für
gewisse Klassen von Funktionen f möglichst klein zu machen. Für die charakteristischen Funktionen 1IBx erhält man gerade e(f ) = |D(T, x)|. Um diese Funktionen
39
40
3.3 Geometrische Diskrepanz
möglichst gut zu integrieren benötigt man also Punktmengen T mit kleiner Diskrepanz. Dies wird in der sogenannten Koksma-Hlawka-Ungleichung
e(f ) ≤ D∗ (T )V (f )
auf eine größere Klasse von Funktionen verallgemeinert. Hier ist V (f ) eine Variation
von f , die so genannte Variation nach Hardy und Krause.
Wir wollen nun mit der probabilistischen Methode die Existenz von Punktmengen
mit kleiner Diskrepanz auch für große Dimension d zeigen. Dazu wollen wir zunächst
das Problem der Berechnung der Diskrepanz diskretisieren. Sei Γm das äquidistante
Gitter in [0, 1]d mit Seitenlänge 1/m bestehend aus den (m + 1)d Punkten der Form
(k1 /m, . . . , kd /m) mit k1 , . . . , kd = 0, 1, . . . , m. Wir setzen
∗
Dm
(T ) = max |D(T, x)|.
x∈Γm
Dann gilt das folgende Lemma:
∗ (T ) +
Lemma. D∗ (T ) ≤ Dm
d
m.
Beweis. Sei x ∈ [0, 1]d . Wähle x∗ , y ∗ ∈ Γm mit
x∗i ≤ xi ≤ x∗i +
1
=: yi∗ für i = 1, . . . , d.
m
Dann ist
|By∗ | − |Bx | = y1∗ . . . yd∗ − x∗1 . . . x∗d =
≤
d
X
k=1
(yk∗ − x∗k ) =
d
X
k=1
∗
x∗1 . . . x∗k−1 yk∗ . . . yd∗ − x∗1 . . . x∗k yk+1
. . . yd∗
d
.
m
Folglich ist
|By∗ | −
d
d
≤ |Bx | ≤ |Bx∗ | + .
m
m
Insbesondere erhalten wir
D(T, x) =
1
1
d
d
d
∗
|T ∩ Bx | − |Bx | ≤ |T ∩ By∗ | − |By∗ | + = D(T, y ∗ ) + ≤ Dm
(T ) +
n
n
m
m
m
Kapitel 3. Konzentrationsungleichungen
41
und
1
1
d
d
d
∗
−D(T, x) = |Bx |− |T ∩Bx | ≤ |Bx∗ |− |T ∩Bx∗ |+ = −D(T, x∗ )+ ≤ Dm
(T )+ .
n
n
m
m
m
d
m
∗ (T ) +
Zusammen liefert das |D(T, x)| ≤ Dm
gilt, die Behauptung des Lemmas.
und, da dies für beliebiges x ∈ [0, 1]d
Theorem 17. Zu natürlichen Zahlen n, d mit 2 ≤ d ≤ n gibt es eine Punktmenge
T ⊂ [0, 1]d mit |T | = m und
r
d
log(dn).
D∗ (T ) ≤ 10
n
Beweis. Seien t(1) , t(2) , . . . , t(n) gleichmäßig verteilt in [0, 1]d und unabhängig, d.h.
(i)
(i)
(i)
(i)
t(i) = (t1 , . . . , td ) mit tj ist gleichverteilt in [0, 1] und alle tj , i = 1, . . . , n; j =
1, . . . , d sind unabhängig. Wir betrachten zu jedem x ∈ [0, 1]d die Zufallsvariable
(x)
Yi
= 1IBx (t(i) ) − |Bx |.
Wegen
E1IBx (t(i) ) =
Z
1
...
0
Z
1
0
(i)
(i)
(i)
(i)
1IBx (t1 , . . . , td )dt1 . . . td =
Z
xd
...
0
Z
x1
(i)
(i)
dt1 . . . td = |Bx |
0
haben wir
(x)
EYi
= 0 für i = 1, . . . , d; x ∈ [0, 1]d .
Setzen wir T = {t(1) , t(2) , . . . , t(n) }, so haben wir
n
n
i=1
i=1
1 X (x)
1
1X
Yi =
(1IBx (t(i) ) − |Bx |) = |Bx ∩ T | − |Bx | = D(T, x).
n
n
n
(x)
Da auch Yi
∈ [−1, 1] gilt, folgern wir aus der Hoeffding-Ungleichung
³¯ X n
´
³ 2n2 ε2 ´
2
(x) ¯
P(|D(T, x)| ≥ ε) = P ¯
Yi ¯ ≥ nε ≤ 2 exp −
= 2e−nε /2 .
i=1
4n
Folglich ist
2 /2
∗
P(Dm
(T ) ≥ ε) ≤ 2|Γm |e−nε
2 /2
= 2(m + 1)d e−nε
.
Unter der Voraussetzung
2 /2
2(m + 1)d e−nε
<1
(3.6)
42
3.3 Geometrische Diskrepanz
∗ (T ) < ε und folglich wegen des oben bewiegibt es also sicher eine Menge T mit Dm
senen Lemmas
d
D∗ (T ) < ε + .
m
Das Theorem ist also bewiesen, wenn wir ε und m so finden können, daß
q
d
< 10 nd log(dn)
(i) ε + m
(ii) log 2 + d log(m + 1) < nε2 /2
gilt. Wir wählen zunächst ε =
q
dn
(i0 ) m > 15 log(dn)
d
m.
Dann gehen (i) und (ii) über in
(ii0 ) 2m2 (log 2 + d log(m + 1)) < nd2 .
Zur Vereinfachung wollen wir in den nächsten Abschätzungen davon absehen, daß
wir m eigentlich ganzzahlig wählen müssen. Dann können wir (i0 ) und (ii0 ) erfüllen,
sofer nur
s
³1
´´
2
dn ³
dn
log 2 + d log
+ 1 < nd2
25 log(dn)
5 log(dn)
ist, was offenbar äquivalent zu
log 2 + d log
³1
5
s
´ 25
dn
+ 1 < d log(dn)
log(dn)
2
ist. Offenbar ist aber unter den Voraussetzungen an d, n
1
log 2 < d log(dn)
2
und
log
³1
5
s
´
dn
1
+ 1 < 12 log(dn) ⇐⇒
log(dn)
5
womit alles bewiesen ist.
s
dn
+ 1 < (dn)12 ,
log(dn)
Herunterladen