Schwellwert für die Lösbarkeit von zufälligen Gleichungssystemen

Werbung
Schwellwert für die Lösbarkeit von
zufälligen Gleichungssystemen über Z3
Dissertation
zur Erlangung des akademischen Grades
Dr. rer. nat.
Dipl.-Inf. Lutz Falke
geboren am 4. November 1982 in Mosel
Fakultät für Informatik
an der Technischen Universität Chemnitz
Gutachter:
Prof. Dr. rer. nat. Andreas Goerdt
Prof. Dr. Ivan Veselić
Tag der Verteidigung: 16. Dezember 2015
Falke, Lutz
Schwellwert für die Lösbarkeit von zufälligen Gleichungssystemen über Z3
Dissertation, Fakultät für Informatik
Technische Universität Chemnitz, September 2015
Zusammenfassung
Behandelt werden zufällige lineare Gleichungssysteme modulo 3, wobei in jeder Gleichung genau k Variablen vorkommen. Es wird gezeigt, dass der Schwellwert der
Lösbarkeit solcher Gleichungssysteme bei der 2-Kern-Dichte von 1 liegt. Das Resultat ist eine Verallgemeinerung bereits bekannter Resultate für den modulo 2-Fall.
Dabei entsteht der 2-Kern dadurch, dass wir alle Variablen mit nur einem Vorkommen löschen. Die Dichte ist definiert als der Quotient der Anzahl der Gleichungen
durch die Anzahl der Variablen.
Im Rückblick ist dieses Resultat ein natürlicher Schwellwert und die Vermutung
liegt nahe, dass er bei analogen Situationen über anderen Strukturen als Z3 auch
gelten sollte. Allerdings sind schon im modulo 2 Fall die analytischen Probleme nicht
gering, und der hier behandelte Fall braucht weitere analytische Einsichten.
Ein wesentlicher Punkt unseres Beweises ist die Verwendung eines komplexen Polynoms (hier ist r die primitive dritte Einheitswurzel)
k
k
k 1
2
2
p(y0 , y1 , y2 ) =
.
y0 + y1 + y2 + y0 + ry1 + r y2 + y0 + r y1 + ry2
3
Im modulo 2 Fall wurde an analoger Stelle das Polynom 12 (y0 + y1 )k − (y0 − y1 )k
gebraucht. Da p(y0 , y1 , y2 ) komplexe Koeffizienten enthält, ist es nicht von vornherein klar, ob eine Behandlung analog zum modulo 2 Fall möglich ist. Auch macht
die höhere Parameteranzahl die Sache komplizierter. Im Vergleich zum modulo 2
Fall, wo lokale Grenzwertsätze über gitterförmige Zufallsvariablen angewendet wurden, brauchen wir hier die Verallgemeinerung auf zweidimensionale gitterförmige
Zufallsvektoren.
Inhaltsverzeichnis
1 Einführung
1
1.1
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Resultat und Beweisidee . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Zufällige Formeln mit unabhängigen Gleichungen . . . . . . . . . . .
8
1.4
Der linear algebraische Aspekt . . . . . . . . . . . . . . . . . . . . . . 12
1.5
Grundlegende Techniken . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1
Laplace Methode . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2
Abschätzen mittels Erzeugendenfunktionen . . . . . . . . . . . 22
2 Abschätzung von E[X2 ] durch einen analytischen Ausdruck
29
2.1
Eine kombinatorische Formel für E[X2 ] . . . . . . . . . . . . . . . . . 29
2.2
Ein analytischer Ausdruck für E[X2 ] . . . . . . . . . . . . . . . . . . 33
2.3
Beweis von Satz 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Beweis von Satz 22, λ0 ≥ λ1 = λ2
3.1
3.2
41
Ein erster Eindruck von OPT(x, y) . . . . . . . . . . . . . . . . . . . 45
3.1.1
Ein Schnitt durch OPT(x, y) parallel zur x-Achse . . . . . . . 48
3.1.2
Ein Schnitt durch OPT(x, y) parallel zur y-Achse . . . . . . . 52
Beweis des Hauptlemmas . . . . . . . . . . . . . . . . . . . . . . . . . 54
4 Beweis von Satz 22, allgemeiner Fall
65
4.1
Vorbereitende Lemmas . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2
Beweis des Hauptlemmas . . . . . . . . . . . . . . . . . . . . . . . . . 70
5 Beweis von Satz 20
85
5.1
Optimale Parameter ~x, ~y für Ψ(~ω , ~λ, ~x, ~y ) . . . . . . . . . . . . . . . . 85
5.2
Eine bessere Abschätzung für E(~ω , ~λ) . . . . . . . . . . . . . . . . . . 91
5.3
Entwicklung von ln Ψ(~ω , ~λ) . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4
Abschluß des Beweises von Satz 20 . . . . . . . . . . . . . . . . . . . 100
6 Beweis der verbleibenden Sätze
6.1
102
Beweis von Satz 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
ii
6.2
Beweis von Satz 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7 Ausblick
104
A Anhang
108
A.1 Lokale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . 108
A.1.1 Eindimensionaler Fall . . . . . . . . . . . . . . . . . . . . . . . 108
A.1.2 Zweidimensionaler Fall . . . . . . . . . . . . . . . . . . . . . . 112
A.2 Beweise einiger verwendeter Ungleichungen . . . . . . . . . . . . . . . 115
A.2.1 Wiederholung der wichtigsten Definitionen . . . . . . . . . . . 115
A.2.2 Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
iii
Abbildungsverzeichnis
1
Abschätzung einer Summe durch ein Integral . . . . . . . . . . . . . . 17
2
Ungefähres Aussehen des Bereichs mit OPT(x, y) < 3 . . . . . . . . . 45
3
OPT(x, y) für s = 3 (oben links), s = 5, s = 10 und s = 30 . . . . . . 46
4
Schnitte durch OPT(x, y) bei konstantem y und s = 5 . . . . . . . . . 47
5
Schnitte durch OPT(x, y) bei konstantem x und s = 5 . . . . . . . . . 48
6
Graph der Funktion Y (x) für s = 5. . . . . . . . . . . . . . . . . . . . 50
7
Graph von OPT(x, Y (x)) für s = 5. . . . . . . . . . . . . . . . . . . . 50
8
Graph der Funktion X(y) für s = 5. . . . . . . . . . . . . . . . . . . . 53
9
Graph von OPT(X(y), y) für s = 5. . . . . . . . . . . . . . . . . . . . 54
10
Weg durch den Bereich mit OPT(x, y) < 3 für s = 5 und s = 10. . . . 55
iv
1
Einführung
1.1
Motivation
Schwellwertphänomene sind ein Forschungsgebiet im Bereich der zufälligen kombinatorischen Strukturen. Eine in der Informatik betrachtete zufällige kombinatorische
Struktur ist die der zufälligen aussagenlogischen Formel. Ganz konkret wird eine
zufällige Formel in k-konjunktiver Normalform betrachtet.
Diese ist folgendermaßen definiert: Wir haben eine feste Menge von n aussagenlogischen Variablen V = {x1 , . . . , xn } vorliegen. Eine k-Klausel ist ein Ausdruck der
Form (l1 ∨ l2 ∨ · · · ∨ lk ), wobei jedes Literal lj aus {x1 , . . . , xn , ¬x1 , . . . , ¬xn } gewählt
ist. Dabei bedeutet ¬xj die Negation von xj . Damit haben wir insgesamt (2n)k viele
syntaktisch verschiedene Klauseln. Beispiele einer 3-Klausel sind (x1 ∨ x5 ∨ ¬x7 ) und
(x3 ∨ ¬x3 ∨ x7 ).
Eine zufällige Formel hat noch einen weiteren Parameter m = m(n). Wir bekommen
sie, indem wir m-mal unabhängig uniform eine k-Klausel ziehen. Eine Formel aus
m Klauseln C1 , . . . , Cm ist als Konjunktion C1 ∧ · · · ∧ Cm interpretiert. Also wird
eine Formel wahr unter einer Belegung genau dann, wenn alle Klauseln unter der
Belegung wahr werden. Eine Belegung der Variablen α : V → {0, 1} ordnet jeder
der n Variablen einen Wert 0 =
b falsch oder 1 =
b wahr zu. Eine Klausel wird falsch
unter einer Belegung genau dann, wenn alle ihre Literale unter der Belegung falsch
sind. Eine Formel heißt erfüllbar, wenn es eine Belegung gibt, so dass die Formel
wahr wird. Ist die Formel unter allen 2n möglichen Belegungen falsch, sagen wir die
Formel ist unerfüllbar oder widersprüchlich.
Es gibt eine Reihe verschiedener Möglichkeiten, k-Klauseln zu definieren: Etwa als
Menge von Literalen, Klauseln, die zweimal dieselbe Variable enthalten sind verboten, Klauseln mit x und ¬x sind verboten. In der Regel lassen sich die erzielten
Resultate auf die verschiedenen Definitionen übertragen. Das ist ziemlich technisch
und wird im Allgemeinen nicht durchgeführt.
Je mehr Klauseln eine Formel hat, desto eher ist eine Formel unerfüllbar, siehe etwa
[4] Theorem 2.1. Interessant ist die folgende experimentelle Beobachtung etwa für
k = 3: Formeln mit m < 4, 26 · n zufälligen Klauseln sind in der Regel erfüllbar,
Formeln mit m > 4, 26 · n Klauseln sind meist unerfüllbar, etwa [30] Kapitel 7. Das
heißt in der Nähe von m = 4, 26 · n Klauseln liegt eine experimentelle, aber nicht
bewiesene Erfüllbarkeitsschwelle vor. Es gilt der folgende Satz [17].
Satz 1 (Friedgut) Es gibt ein c = c(n), so dass für zufällige Formeln in k-konjunktiver Normalform und beliebiges konstantes ε > 0 gilt:
1. Formeln mit m ≤ (1 − ε)cn vielen Klauseln sind erfüllbar mit Wahrscheinlichkeit gegen 1 gehend, wenn n groß ist.
1
2. Formeln mit m ≥ (1 + ε)cn vielen Klauseln sind unerfüllbar mit Wahrscheinlichkeit gegen 1 gehend, wenn n groß ist.
Die Terminologie mit hoher Wahrscheinlichkeit“ oder fast alle“ steht für die
”
”
”
Wahrscheinlichkeit geht gegen 1“. Fast keine“ bedeutet die Wahrscheinlichkeit
”
”
geht gegen 0“.
Wo die Schwelle der Erfüllbarkeit genau liegt, das heißt der Wert von c, bleibt ein
offenes Problem. Im Laufe der Zeit ist es gelungen, den Bereich zumindest einzugrenzen. Hajiaghayi und Sorkin weisen in [23] eine untere Schranke an den Schwellwert
von c > 3, 52 nach. Eine obere Schranke liegt bei c < 4, 506. Dies wurde von Dubois, Boufkhad und Mandler in [14] gezeigt, beides für k = 3. Für große k wurde
2
+ εk , limk→∞ εk = 0 durch Coja-Oghlan
kürzlich der Schwellwert von 2k ln 2 − 1+ln
2
[8] bestimmt.
Der Fall k = 3 ist auch deshalb von besonderem Interesse, da das Problem der Erfüllbarkeit von Formeln in k-konjunktiver Normalform für k ≥ 3 N P-vollständig ist.
Generell ist das Erfüllbarkeitsproblem für Formeln in k-konjunktiver Normalform
das natürliche N P-vollständige Problem. Es ist zu beobachten, dass Formeln mit
einer Klauselanzahl in der Nähe des Schwellwertes algorithmisch schwierig zu behandeln sind [1], was die algorithmische Relevanz von Schwellen zeigt, etwa um Testfälle
für Algorithmen zu konstruieren.
Es ist von Interesse, ob sich für andere Probleme dieser Art ein Schwellwert konkret
nachweisen läßt. Ein erstes Resultat in dieser Richtung ist von Dubois und Mandler
[15]. Anstelle der oben beschriebenen Klauseln wird dort die XOR-Verknüpfung von
drei aussagenlogischen Variablen betrachtet. Die zufälligen Formeln bestehen jetzt
also aus Ausdrücken der Form x1 ⊕ x2 ⊕ x3 = a, wobei a ∈ {0, 1} ist. Ein Ausdruck
dieser Art läßt sich auch als Gleichung modulo 2 auffassen.
Das Interessante an dieser Arbeit ist, dass sie das erste Mal zeigt, dass es möglich
ist, den exakten Schwellwert für die Erfüllbarkeit zu erhalten, indem man den Erwartungswert und die Varianz der Anzahl der erfüllenden Belegungen einer Formel
bestimmt. Das Resultat konnte von Dietzfelbinger und anderen in [13] für allgemeines k erweitert werden, das heißt auf Gleichungen der Art x1 ⊕ x2 ⊕ · · · ⊕ xk = a.
Ein alternativer Ansatz zum Nachweis dieses Resultates wird von Pittel und Sorkin
in [28] verfolgt. Die Arbeit von Connamacher [9] enthält eine Weiterentwicklung der
Resultate aus [13], [15] in eine andere als die hier betrachtete Richtung.
Das Ziel der vorliegenden Arbeit ist es, die Resultate aus [15] und [13] zunächst auf
Gleichungen modulo 3 zu erweitern. Dabei orientieren wir uns am dortigen Vorgehen,
allerdings sind eine Vielzahl weiterer Einsichten erforderlich, um das Prinzip zu
übertragen. Wünschenswert wäre noch die Erweiterung auf Gleichungen modulo M
für beliebiges M , das bleibt aber offen.
2
1.2
Resultat und Beweisidee
Statt Klauseln betrachten wir modulare Gleichungen der Form
νi,1 + νi,2 + · · · + νi,k = ai
mod M
wobei νi,j aus einer Menge von n Variablen V = {x1 , . . . , xn } und 0 ≤ ai < M ist.
Beispiele für k = 3 sind
x1 + x5 + xn = 2
mod M
aber auch x1 + x1 + xn = 2
mod M.
Eine Variable darf mehrfach in einer Gleichung vorkommen, man beachte aber die
Bemerkung in Abschnitt 1.1. Wir betrachten Gleichungssysteme aus mehreren solchen Gleichungen und fragen, ob es eine Lösung für die x1 , . . . , xn besitzt. Wir
nennen ein solches Gleichungssystem in Anlehnung an die eingangs erwähnten aussagenlogischen Formeln in k-konjunktiver Normalform ebenfalls Formel.
Kommt eine Variable x in einer Formel nur einmal vor, etwa in der i-ten Gleichung
x + νi,2 + · · · + νi,k = ai
mod M,
νi,j 6= x
so besitzt die Formel eine Lösung genau dann, wenn die Formel ohne x + νi,2 + · · · +
νi,k = ai mod M eine Lösung besitzt. Der Prozeß des Löschens solcher Gleichungen
kann itereiert werden. Dabei bleibt eine lösbare Formel lösbar und eine unlösbare
Formel unlösbar.
Der 2-Kern einer Formel ist die eindeutig definierte Formel, die folgender Algorithmus liefert:
1. Lösche alle Gleichungen, die eine Variable x enthalten, die nur einmal vorkommt.
2. Iteriere 1. solange es solche Variablen x gibt.
Im 2-Kern einer Formel kommt jede Variable demnach mindestens zweimal vor. Der
2-Kern ist die maximale Teilformel mit dieser Eigenschaft. Wir halten folgendes
Lemma fest.
Lemma 2 Eine Formel ist lösbar ⇐⇒ der 2-Kern der Formel ist lösbar.
Wir betrachten deshalb zunächst den Wahrscheinlichkeitsraum F = F(n, m, k) der
zufälligen 2-Kerne über n Variablen mit m Gleichungen und der uniformen Verteilung. Das sind Gleichungssysteme der Art
ν1,1 + · · · + ν1,k
ν2,1 + · · · + ν2,k
= a1
= a2
..
.
mod M
mod M
νm,1 + · · · + νm,k = am
mod M
3
wobei die ai ∈ {0, 1, . . . , M −1} sind und die νi,j ∈ V = {x1 , . . . , xn } aus n Variablen
gewählt sind. Wir haben folgende weitere Bedingungen:
1. Jede Variable xl kommt mindestens zweimal unter den νi,j vor. Die Verteilung
auf F ist die uniforme Verteilung.
2. Es ist m = m(n) und wir sind an Aussagen für große n interessiert. Insbesondere ist k ≥ 3 fest und dann wird n groß.
Ein Gleichungssystem ist lösbar genau dann, wenn es eine Belegung der Variablen
mit 0, 1, . . . M − 1 gibt, so dass alle Gleichungen modulo M wahr sind.
Wegen der uniformen Verteilung ist die Wahrscheinlichkeit des Auftretens einer
bestimmten Formel F gleich Prob(F ) = |F1 | . Zunächst wollen wir die Anzahl aller
Formeln, die ein 2-Kern sind, |F| bestimmen.
Wir haben k · m Plätze, die mit den n Variablen so auszufüllen sind, dass jede
Variable zweimal oder öfter auftritt. Damit haben wir
X km X
(km)!
=
z1 , . . . , zn
z1 ! · . . . · zn !
~
z ≥2
~
z ≥2
Möglichkeiten, eine linke Seite zu wählen. Wir verwenden abkürzend die Notation
~z = (z1 , . . . , zn ), ~z ≥ 2 steht für z1 ≥ 2 und . . . und zn ≥ 2. Dabei steht zi für die Anzahl der Plätze, die von der Variable xi besetzt werden. Der Multinomialkoeffizient
beschreibt die Möglichkeiten, die konkreten Plätze zu wählen. Für z1 +. . .+zn km
ist der Multinomialkoeffizient gleich 0.
Die rechten Seiten sind unabhängig aus ZM = {0, 1, . . . , M − 1} gewählt. Damit ist
X km · M m.
(1)
|F| =
z1 , . . . , zn
~
z ≥2
Zufällige Formeln aus F(n, m, k) sind nicht ohne weiteres algorithmisch erzeugbar,
da es gewisse (schwache) Abhängigkeiten zwischen den linken Seiten der einzelnen
Gleichungen gibt. Kommt etwa eine Variable xi in m − 1 Gleichungen nicht vor, so
muß sie in der m-ten Gleichung mindestens zweimal auftreten. Auf den Zusammenhang zwischen dem Raum der Formeln mit unabhängigen Gleichungen Fu (n, m, k)
und dem hier betrachteten Raum der zufälligen 2-Kerne gehen wir in Abschnitt 1.3
ein.
Der Fall M = 2 und k = 3 ist in [15] behandelt.
Satz 3 (Dubois, Mandler) Sei γ eine beliebig kleine Konstante > 0 und M = 2.
Dann gilt:
4
1. Ist m ≥ (1 + γ)n, so sind die Formeln aus F(n, m, 3) unlösbar mit gegen 1
gehender Wahrscheinlichkeit.
2. Ist m ≤ (1 − γ)n, so sind die Formeln aus F(n, m, 3) lösbar mit gegen 1
gehender Wahrscheinlichkeit.
Dieses Resultat wurde erst kürzlich in [13] ganz analog auf beliebige k ausgedehnt.
Das heißt für zufällige 2-Kerne hat man eine Erfüllbarkeitsschwelle bei m
= 1. Das
n
m
Verhältnis n wird als Dichte bezeichnet. Tatsächlich darf in 2. des Resultats oben
m nicht zu klein sein, m ≥ 34 n sollte reichen.
Eine natürliche Frage ist es, inwieweit sich vergleichbare Resultate auch für beliebige
M > 2 erzielen lassen. Diese Frage behandelt die vorliegende Arbeit.
Für den Rest der Arbeit fixieren wir M = 3 und zeigen für k ≥ 10 das folgende
Schwellwertverhalten der Lösbarkeit der zufälligen Formeln.
Satz 4 Sei M = 3. Ist m = (1 + γ)n, 1 + γ ≥ Γ, Γ > 1 fest, dann geht die
Wahrscheinlichkeit der lösbaren Formeln aus F(n, m, k) gegen 0 bei n → ∞.
Satz 5 Sei M = 3. Ist m = (1 − γ)n, 1 − γ ≤ Γ, Γ < 1 fest, dann ist die
Wahrscheinlichkeit der lösbaren Formeln aus F(n, m, k) größer oder gleich ε,
wobei ε eine Konstante > 0 ist.
Eigentlich wäre es günstiger, direkt m = Γn zu verwenden, aber Γn ist nicht immer
ganzzahlig. Im Beweis von Satz 4 wählen wir das kleinste γ, so dass (1 + γ)n ganzzahlig ist, analog im Beweis von Satz 5. Dann ist Γ ≤ 1 + γ ≤ Γ + n1 beziehungsweise
Γ ≥ 1 − γ ≥ Γ − n1 .
Satz 4 ist ganz analog zu 1. von dem Resultat von Dubois und Mandler. Satz 5
unterscheidet sich von dem Resultat 2. von Dubois, Mandler. Die Wahrscheinlichkeit
ist nur ≥ ε und geht nicht gegen 1. Im folgenden Abschnitt 1.3 gehen wir darauf
ein, wie man auf eine gegen 1 gehende Wahrscheinlichkeit kommt.
Sagen wir: Es gibt eine Konstante C, so dass . . .“, dann kann C von k und Γ
”
abhängen. Die Konstante C ist nur unabhängig von n. Manche Konstanten hängen
direkt von γ, das eigentlich nicht konstant ist, ab. Es lassen sich aber auch in diesen
Fällen Konstanten finden, die nur noch von Γ abhängen. Man beachte, dass sich
1 − γ von Γ nur gering unterscheidet.
5
Beweis von Satz 4. Das ist direkt zu sehen. Dazu ermitteln wir den Erwartungswert der Anzahl der Lösungen. Es gibt 3n mögliche Belegungen der Variablen
x1 , . . . , xn . Geben wir eine Belegung α : V → {0, 1, 2} vor und betrachten eine feste
Wahl der linken Seiten der Gleichungen. Werten wir jede linke Seite modulo 3 unter
α aus, so bekommen wir einen Wert. Eine Gleichung wird wahr genau dann, wenn
das ai auf der rechten Seite gleich diesem Wert ist. Da die ai unabhängig aus 3
Werten gewählt
m sind, ist die Wahrscheinlichkeit, dass alle Gleichungen unter α wahr
sind gleich 31 .
Wegen der Linearität des Erwartungswertes ist der Erwartungswert der Anzahl der
erfüllenden Belegungen oder Lösungen gleich
1
1
3n · m = 3n−m = γn → 0
für n → ∞
3
3
bei 1 + γ ≥ Γ > 1. Also geht die Wahrscheinlichkeit der lösbaren Formeln gegen 0
und Satz 4 ist gezeigt.
Ist m = (1 − γ)n, dann ist der Erwartungswert der Anzahl der Lösungen gleich
3n−m = 3γn → ∞
für n → ∞.
Das bedeutet aber nicht, dass die Wahrscheinlichkeit der lösbaren Formeln gegen 1
geht. Es könnten extrem viele Lösungen in einem verschwindend kleinen Anteil der
Formeln konzentriert sein. Die Bestimmung der Varianz erlaubt es, dieses Phänomen
auszuschließen. Dazu müssen wir etwas formaler werden.
Beweis von Satz 5. Sei X : F → N die Zufallsvariable der Anzahl der erfüllenden
Belegungen einer Formel F ∈ F. Dann ist
X
X(F ) =
Xα (F )
α
n
wobei α über alle 3 Belegungen geht. Xα (F ) = 1 genau dann, wenn F unter α
wahr ist und Xα (F ) = 0 sonst.
Nun gilt die folgende Ungleichung [16] (Exercise 1.6.6), da X ≥ 0 und ganzzahlig
ist.
E[X]2
Prob(F lösbar) = Prob(X 0) ≥
(2)
E[X2 ]
Man beachte, dass immer E[X2 ] ≥ E[X]2 gilt, da die Varianz von X gleich E[X2 ] −
E[X]2 ≥ 0 ist. Die Hauptarbeit ist der folgende Satz.
Satz 6 Sei X die Zufallsvariable für die Anzahl der Lösungen, wie oben definiert. Unter den Voraussetzungen von Satz 5 gilt:
E X2 = O E[X]2
6
Der Satz besagt, dass eine Konstante C existiert, so dass E[X2 ] ≤ C · E[X]2 , wobei
C tendenziell groß ist. Dann ist nach Gleichung (2)
Prob(F lösbar) = Prob(X 0) ≥
1
C
und Satz 5 folgt.
Im folgenden gelten immer die Voraussetzungen von Satz 5, das heißt Γ < 1 ist fest,
m = (1 − γ)n und n wird groß. Verschiedentlich müssen wir annehmen, dass Γ nicht
zu klein ist. Das tun wir stillschweigend, etwa Γ ≥ 12 sollte reichen.
Noch einige Bemerkungen zur Bedeutung von Satz 6. Wir kennen E[X]2 =
2
3γn . Also ist zu zeigen, dass E[X2 ] = O(32γn ). Um uns die Bedeutung dieser
2
Beziehung
klar zu machen, stellen wir noch eine Überlegung zu E[XP
] an. Es ist
P
n
X
P = α Xα , wobei α über alle 3 Belegungen geht. Dann ist E[X] = α E[Xα ] =
α Prob(Xα = 1) und
E[X]2 =
X
Prob(Xα = 1)
α
=
XX
α
=
β
XX
α
=
3
β
n 2
·
!
·
X
Prob(Xβ = 1)
β
!
Prob(Xα = 1) · Prob(Xβ = 1)
Prob((F, F ′ ); Xα (F ) = 1 und Xβ (F ′ ) = 1)
1
3(1−γ)n
2
wobei F und F ′ unabhängig sind. Für X2 gilt
!
!
X
X
XX
Xβ =
Xα ·
Xα Xβ
X2 =
α
α
β
β
und damit ist
XX
Prob(F ; Xα (F ) = 1 und Xβ (F ) = 1) .
E X2 =
α
(3)
β
Man beachte hier den wichtigen Unterschied: E[X]2 bezieht sich auf zwei unabhängige Formeln.
E[X2 ] bezieht sich hingegen auf eine Formel. Damit läßt sich E[X2 ] =
2
O E[X] wie folgt interpretieren:
7
Für die meisten Belegungspaare (α, β) muß gelten:
Prob(F ; Xα (F ) = 1 und Xβ (F ) = 1)
≤ O(Prob((F, F ′ ); Xα (F ) = 1 und Xβ (F ′ ) = 1))
1
= O 2m
3
Das heißt, die Wahrscheinlichkeit, dass eine Formel von einem Belegungspaar α, β
erfüllt wird, ist für die meisten Belegungspaare nicht viel größer als die Wahrscheinlichkeit, dass zwei unahbängige Formeln unter dem Paar wahr werden. Oder anders:
Angenommen F ist unter α wahr, so ist
mdie
Wahrscheinlichkeit, dass F auch unter β
wahr wird in den meisten Fällen O 31
. Das heißt so, als ob wir eine neue Formel
′
F betrachten würden.
1.3
Beziehung zwischen zufälligen Formeln mit unabhängigen Gleichungen und zufälligen 2-Kernen
Der unabhängige Raum Fu (n, m, k) ist folgendermaßen definiert: Es werden m Gleichungen über den Variablen V = {x1 , . . . , xn } unabhängig gezogen. Hier ist die
Anzahl der Formeln gleich
X km m
· M m = nkm · M m = nk · M
z1 , . . . , zn
~
z
P
wobei ~z = (z1 , . . . , zn ), zi ≥ 0 und ni=1 zi = km ist. Es gibt genau nk ·M syntaktisch
verschiedene Gleichungen. Eine Variable xi kann zwischen null- und km-mal in einer
Formel des unabhängigen Raumes Fu (n, m, k) vorkommen.
Der unabhängige Raum ist natürlicher als der Raum der 2-Kerne und ist ganz analog
zu den üblichen Räumen zufälliger endlicher kombinatorischer Strukturen. Interessant ist, dass die Räume der zufälligen 2-Kerne F(n′ , m′ , k) im Raum der Formeln
mit unabhängigen Gleichungen Fu (n, m, k) im folgenden Sinne enthalten sind. Betrachten wir einen festen 2-Kern F ′ über der Menge V ′ ⊆ V von n′ ≤ n Variablen
mit m′ ≤ m Gleichungen. Dazu betrachten wir
M (F ′ ) = die Menge der Formeln aus dem unabhängigen Raum
Fu (n, m, k), die F ′ als 2-Kern haben.
Aus dem Algorithmus zur Definition des 2-Kerns auf Seite 3 ergibt sich: F ∈ M (F ′ )
genau dann, wenn
• F enthält die Gleichungen aus F ′ und
• F enthält eine Menge von genau m − m′ Gleichungen F ′′ über allen Variablen
x1 , . . . , xn , die verschwindet, wenn wir den folgenden Prozess ausführen:
8
1. Enthält F ′′ Variablen, die keinmal oder einmal vorkommen und nicht in
F ′ enthalten sind, lösche diese Variablen mit ihrer Gleichung.
2. Iteriere 1. bis keine solchen Variablen mehr existieren.
Man beachte, dass die Anzahl der Möglichkeiten für F ′′ vollkommen unabhängig
von der Struktur des 2-Kernes F ′ ist. Die Anzahl der Möglichkeiten für F ′′ hängt
nur von m′ und n′ ab. Daraus ergibt sich das folgende Lemma.
Lemma 7 Betrachten wir den unabhängigen Raum Fu (n, m, k) bedingt darauf, dass
der 2-Kern n′ Variablen und m′ Gleichungen hat, so ist jeder dieser 2-Kerne gleichwahrscheinlich.
Weiterhin gilt, dass ausgehend vom unabhängigen Fu (n, m, k), m = c · n, die Anzahl der Variablen n′ des 2-Kernes und der Gleichungen m′ am Erwartungswert
konzentriert sind, vergleiche [27] Theorem 1.
Lemma 8 Es gibt d = d(c) und c′ = c′ (c), so dass für den unabhängigen Raum
Fu (n, cn, k) mit k ≥ 3 gilt: Mit hoher Wahrscheinlichkeit ist die Anzahl der Variablen
des 2-Kerns gleich n′ = dn · (1 + o(1)) und die Anzahl der Gleichungen des 2-Kerns
gleich m′ = c′ n′ · (1 + o(1)).
Man beachte, dass das Lemma folgendermaßen zu lesen ist: Es gibt eine Funktion
f (n), die gegen 0 geht, so dass mit Wahrscheinlichkeit gegen 1 gehend für den 2-Kern
vom unabhängigen Fu (n, cn, k) gilt:
dn(1 − f (n)) ≤
#Variablen des 2-Kerns n′
≤ dn(1 + f (n))
c′ dn(1 − f (n)) ≤ #Gleichungen des 2-Kerns m′ ≤ c′ dn(1 + f (n))
Lemma 7 und 8 zusammen führen zu der vereinfachten Vorstellung: Der 2-Kern
von Fu (n, cn, k) ist aus dem Raum F(dn, c′ dn, k). Die 1 + o(1) Faktoren sind hier
vernachlässigt.
Der Zusammenhang zwischen der Dichte c im Raum der Formeln unabhängiger Gleichungen Fu (n, cn, k) und der Dichte c′ im Raum der zufälligen 2-Kerne ist etwas indirekt. Wir stellen hier die Resultate der Beweise von Molloy [27] und Dietzfelbinger
et al. [13] (wo n und m vertauscht sind) dar.
Dazu betrachten wir zwei Funktionen jeweils für x > 0.
1 x · exp(x) − 1
G(x) = ·
k exp(x) − x − 1
1
x
F (x) = ·
k 1 − exp(−x) k−1
x(exp(x)−1)
Man beachte, dass die Funktion Q(x) = exp(x)−x−1
, die der Funktion G(x) ohne den
Faktor k1 entspricht, in der Arbeit eine wichtige Rolle spielt. Vergleiche auch Lemma
18 auf Seite 34.
9
Für x > 0 ist F (x) konvex und geht gegen ∞ für x → 0 und x → ∞. Also hat F (x)
genau ein Minimum c∗ = F (xmin ). Es gilt das folgende Lemma.
Lemma 9
1. Ist c > c∗ , dann haben die Formeln aus Fu (n, cn, k) mit hoher Wahrscheinlichkeit einen nicht leeren 2-Kern. Das heißt die Werte c′ und d aus Lemma
8 sind > 0.
2. Ist c < c∗ , dann haben die Formeln aus Fu (n, cn, k) mit hoher Wahrscheinlichkeit nur den leeren 2-Kern.
Also ist c = c∗ die Schwelle für die Existenz eines nicht leeren 2-Kerns.
Für c > c∗ hat die Gleichung c = F (x) genau zwei Lösungen x1 > xmin > x2 . Wir
verwenden die Bezeichnung x(c) = x1 . Die Bedeutung von x(c) ist, dass es Aussagen
über die Struktur des 2-Kerns macht, insbesondere über dessen Dichte c′ .
Lemma 10 Für c > c∗ ist G(x(c)) = c′ , wobei c′ die Dichte des 2-Kerns von
Fu (n, cn, k) gemäß Lemma 8 ist.
Wir können jetzt zu einer gegebenen Dichte des 2-Kerns c′ eindeutig das c bestimmen, so dass Fu (n, cn, k) zu einem 2-Kern der Dichte c′ im Sinne von Lemma 8
führt. Das geht folgendermaßen:
1. Wir bestimmen das x, so dass G(x) = c′ . Es ist G(x) streng monoton steigend
und G(x) → k2 für x → 0. Also existiert x eindeutig für c′ > k2 .
2. Wir prüfen nach, ob dieses x ein x(c) im Sinne von Lemma 10 sein kann. Falls
x < xmin ist, ist das nicht der Fall. Die vorgegebene Dichte ist zu klein. Ist
aber x > xmin , dann gilt für c = F (x), dass Fu (n, cn, k) zu dem gewählten c′
im Sinne von Lemma 8, also zu der Dichte des 2-Kerns von c′ , führt.
3. Für c′ = 1 erhalten wir immer ein x > xmin in Schritt 1. Beachte, hier k ≥ 3.
Also führt Schritt 2 oben zu einem c = F (x). Dieses c nennen wir c∗1 .
Lemma 11 Für die Dichte des 2-Kerns c′ im Sinne von Lemma 8 gilt:
1. Ist c > c∗1 , so ist c′ > 1.
2. Ist c < c∗1 , so ist c′ < 1.
10
Es ist immer c∗1 < 1. Das macht die Analyse des Löschprozesses auf Seite 3 klar. Für
k = 3 bekommen wir G(x) = 1 für x ≈ 2, 1491, dann ist F (x) ≈ 0, 9179. Für k = 9
bekommen wir G(x) = 1 für x ≈ 8, 9899, dann ist F (x) ≈ 0, 9999. Mit steigendem
k geht c∗1 gegen 1.
Wir kommen zur Lösbarkeit der Formeln aus Fu (n, cn, k) mit M = 3. Zunächst
gilt nach Lemma 8 und 10, dass der 2-Kern einer Formel aus Fu (n, cn, k) mit hoher
Wahrscheinlichkeit aus F(n′ , Γn′ , k) ist, wobei Γ = c′ (1 + o(1)), n′ = dn(1 + o(1))
ist. Auf diese einzelnen F(n′ , Γn′ , k) wenden wir Satz 4 und 5 an. Die folgenden
Korollare sind die Hauptergebnisse der Arbeit.
Korollar Ist c > c∗1 , dann ist Fu (n, cn, k) fast immer unlösbar.
Beweis. Das folgt direkt mit Satz 4, da für die meisten Γ von oben gilt, dass
Γ ≥ 1 + ε für ein kleines ε > 0 ist.
Korollar Ist c < c∗1 , dann hat Fu (n, cn, k) eine Lösung mit hoher Wahrscheinlichkeit.
Beweis. Für Γ von oben gilt: Für c′ nach Lemma 8 ist c′ − ε ≤ Γ ≤ c′ + ε < 1
für jedes kleine ε > 0, solange n groß genug ist. Wir wenden Satz 5 auf F(n′ , Γn′ , k)
an. Dort ist die Lösbarkeitswahrscheinlichkeit ≥ ε > 0 für ein geeignetes ε > 0
nachgewiesen. Insbesondere finden wir ein geeignetes ε > 0, das für alle auftretenden
Γ ausreicht. Das ergibt sich letztlich aus dem Beweis von Satz 5. Hier ist es wichtig,
dass Γ beliebig nah an c′ beschränkt werden kann. Also ist Fu (n, cn, k) lösbar mit
Wahrscheinlichkeit ≥ ε.
Auf Fu (n, cn, k) gilt der Satz von Friedgut [17], das heißt wir haben eine scharfe
Schwelle für die Lösbarkeit. Das ist von Creignou, Daudé in [11], [12] für M = 2 und
bei Goerdt [21] für M = 3 gezeigt. Also folgt die Behauptung.
Man beachte, dass der Satz von Friedgut im Raum der zufälligen 2-Kerne durch die
Abhängigkeiten nicht ohne weiteres gilt.
11
1.4
Der linear algebraische Aspekt
Eine von uns betrachtete Formel ist ein lineares Gleichungssystem über dem Körper
Z3 . Das heißt, sie läßt sich schreiben als

 

a1
x1

 

A ·  ...  =  ... 
am
xn
wobei V = {x1 , . . . , xn } die Variablen, 0 ≤ ai ≤ 2 und A eine geeignete m×n-Matrix
sind. Ist die erste Gleichung zum Beispiel
x 1 + x 2 + x 3 + · · · + x k = a1
mod 3 ,
dann ist die erste Zeile der Matrix
(1, 1, 1, . . . , 1, 0, 0, . . . , 0) ,
wobei die ersten k Stellen mit 1 und der Rest mit 0 besetzt sind. Ist die erste
Gleichung
ν1,1 + ν1,2 + · · · + ν1,k = a1 mod 3
und die ν1,l aus x1 , . . . , xn sind alle verschieden, so hat die erste Zeile von A an der
Stelle j eine Eins genau dann, wenn die Variable xj unter den Variablen ν1,1 , . . . , ν1,k
der ersten Gleichung vorkommt, sonst 0. Also entsprechen Formeln, in denen in jeder
Gleichung alle Variablen verschieden sind, m × n-Matrizen über {0, 1}, so dass jede
Zeile genau k Einsen enthält. Formeln, die außerdem noch 2-Kerne sind, entsprechen
Matrizen, die in jeder Zeile genau k Einsen und zusätzlich in jeder Spalte mindestens
zwei Einsen haben.
Da die Variablen in jeder Gleichung beliebig angeordnet sein können und alle Anordnungen verschieden sind (da die Variablen verschieden sind), ergibt sich jede Matrix
wie oben aus genau (k!)m vielen Formeln (Gleichungssystemen). Daraus ergibt sich,
dass die uniforme Verteilung auf Formeln die uniforme Verteilung auf den Matrizen
induziert, sofern wir die Formeln nur aus Gleichungen mit jeweils k verschiedenen
Variablen bilden.
Nach Definition ist nicht ausgeschlossen, dass Formeln mit Gleichungen, die dieselbe
Variable mehrfach enthalten, auftreten. Zum Beispiel könnte die erste Gleichung
einer Formel
x1 + x1 + x2 + · · · + xk−1 = b1 mod 3
lauten. Dann ist die erste Zeile der Matrix A gleich (2, 1, . . . , 1, 0, . . . 0). Im Extremfall könnte die erste Zeile
x1 + x1 + · · · + x1 = b1
mod 3
sein. Das entspricht der ersten Zeile (k, 0, . . . , 0) von A. Das macht die Sache kompliziert, da es dann nicht mehr genau k! verschiedene Anordnungen der Variablen gibt
12
und sich die uniforme Verteilung auf den Formeln nicht auf die Matrizen überträgt.
Da die Wahrscheinlichkeit, dass unsere Formeln nur aus Gleichungen mit k verschiedenen Variablen bestehen, nicht gegen 1 geht, können wir aus unseren Sätzen nur
mit gewissen Vorarbeiten Aussagen über zufällige Matrizen ableiten. Das wird hier
dargestellt.
Lemma 12 Wir betrachten den Raum der Formeln mit unabhängigen Gleichungen
Fu (n, cn, k), c konstant.
1. Die Wahrscheinlichkeit der Formeln, bei denen jede Gleichung aus k verschiedenen Variablen besteht, ist
k(k − 1)
exp −
· c · (1 + o(1))
2
2. Die Wahrscheinlichkeit, dass eine Gleichung eine Variable mindestens dreimal
enthält, geht gegen 0.
3. Die Wahrscheinlichkeit, dass eine Formel zwei Gleichungen enthält, deren linke Seiten aus denselben Variablen bestehen, geht gegen 0.
Beweis.
1. Es gibt n(n − 1)(n − 2) . . . (n − (k − 1)) = (n)k linke Seiten mit k verschiedenen
Variablen. Die Gleichungen werden unabhängig gewählt, also ist die Wahrscheinlichkeit, dass eine Formel nur aus solchen Gleichungen besteht gleich
m
(n)k
,
nk
da wir insgesamt nk linke Seiten haben. Es ist
m
m
n − (k − 1)
n n−1 n−2
(n)k
·
·
· ··· ·
=
nk
n
n
n
n
m
2
k−1
1
· 1−
· ··· · 1 −
=
1· 1−
n
n
n
und
j
1−
n
m
n c
c
j
= exp(−j) · 1 + o(1)
=
1−
n
= exp − j · c · 1 + o(1) ,
13
da c konstant ist. Da k auch konstant ist, ist
m
1
2
k−1
1· 1−
· 1−
· ··· · 1 −
n
n
n
= exp − 1 + · · · + (k − 1) · c · 1 + o(1)
k(k − 1)
= exp −
· c · (1 + o(1)) .
2
2. Der Erwartungswert der Anzahl 3-Tupeln von Positionen einer Gleichung auf
denen dieselbe Variable steht, ist
1
n·1·1
k
= O 2 .
·
n·n·n
n
3
also ist die Wahrscheinlichkeit
der Gleichungen, die dreimal dieselbe Variable
1
enthalten
O n2 . Formeln aus m = cn Gleichungen haben die Schranke m ·
O n12 = O n1 für die Wahrscheinlichkeit einer Gleichung mit drei gleichen
Variablen.
3. Da das unabhängige Fu (n, cn, k) betrachtet wird, ist der Erwartungswert der
Anzahl der Paare von Gleichungen, die aus den gleichen Variablen bestehen,
beschränkt durch
1
1
nk · k!
m
2
für k ≥ 3.
· k k = O n · k = O
n ·n
n
n
2
Für den Raum der 2-Kerne F(n, m, k) ist es nicht so leicht analoge Aussagen zu
erzielen. Wir betrachten ihn und die zugehörigen Matrizen hier nicht weiter.
Da die Wahrscheinlichkeit in 1. des Lemmas 12 eine Konstante größer 0 ist, ergibt
sich folgendes.
Korollar Ist A eine zufällige m × n-Matrix mit m = cn, die in jeder Zeile k Einsen
und n − k Nullen hat und 0 ≤ a1 , . . . , am ≤ 2 zufällig, dann gilt:
1. Ist c > c∗1 , dann ist das Gleichungssystem

 
x1

 
A ·  ...  = 
xn

a1
.. 
. 
am
modulo 3 nicht lösbar mit hoher Wahrscheinlichkeit.
14
2. Ist c < c∗1 , dann ist das Gleichungssystem
 

x1
 

A ·  ...  = 
xn

a1
.. 
. 
am
modulo 3 lösbar mit hoher Wahrscheinlichkeit.
Wir betrachten den Raum der m×n-Matrizen A mit Einträgen aus {0, 1} mit genau
k Einsen pro Zeile mit der uniformen Verteilung
!m
1
Prob(A) =
.
n
k
Satz 13
1. Ist m = cn, c < c∗1 , dann ist der Rang(A) = m mit hoher Wahrscheinlichkeit.
2. Ist m = cn, c > c∗1 , dann ist der Rang(A) < m mit hoher Wahrscheinlichkeit.
Beweis.
1. Ist A nicht vom Rang(A) = m, so hat das Bild von A die Dimension ≤ m − 1.
Es enthält also maximal 31 ·3m viele Elemente. Bedingt darauf, dass Rang(A) ≤
m − 1 ist, ist die Wahrscheinlichkeit, dass

 

a1
x1

 

A ·  ...  =  ... 
xn
am
lösbar ist ≤ 13 . Angenommen, der Anteil der Matrizen vom Rang(A) ≤ m − 1
ist ≥ ε. Insgesamt ist dann die Wahrscheinlichkeit, dass ein Gleichungssystem
nicht lösbar ist, mindestens 23 ·ε. Das widerspricht der hohen Wahrscheinlichkeit
der Lösbarkeit.
2. Nach dem Korollar ist fast kein Gleichungssystem

 

a1
x1

 

A ·  ...  =  ... 
xn
am
lösbar. Das könnte nicht sein, wenn die Wahrscheinlichkeit der Matrizen mit
Rang(A) = m nicht gegen 0 ginge.
15
Der Satz läßt sich auch folgendermaßen lesen.
Korollar
1. Ziehen wir m = cn, c < c∗1 {0, 1}-Vektoren der Länge n mit genau k Einsen,
so sind diese linear unabhängig über Z3 mit hoher Wahrscheinlichkeit.
2. Ziehen wir m = cn, c > c∗1 {0, 1}-Vektoren der Länge n mit genau k Einsen,
so sind diese linear abhängig über Z3 mit hoher Wahrscheinlichkeit.
1.5
Grundlegende Techniken
Zum Beweis von Satz 6 wird es nötig sein, Summen mit exponentiell vielen Summanden abzuschätzen. Bevor wir zum Hauptteil der Arbeit kommen, sollen an dieser
Stelle die beiden dafür wesentlichen Techniken demonstriert werden.
1.5.1
Laplace Methode
Wir demonstrieren die Methode nach [6], Kapitel 4 an der einfachen Summe
n X
n
k=0
k
= 2n .
Im weiteren Verlauf der Arbeit wenden wir diese Methode dann auf Summen über
mehrere Indices an. Das Prinzip bleibt aber das gleiche. Die Grundidee ist die
Überführung der Summe auf ein
P Integral. Betrachten wir eine monoton fallende
Funktion f (x) und die Summe bx=a f (x). Mit b = a + k gilt
Z
b+1
a
f (x) dx ≤ f (a) + f (a + 1) + · · · + f (a + k) ≤
Z
b
f (x) dx ,
a−1
wie man in Abbildung 1 leicht grafisch sieht. Klappen wir die Flächenstücke der
Summanden nach rechts, so ist das Integral kleiner als die Summe. Wenn wir hingegen die Flächen nach links klappen, so ist das Integral größer.
Geht die Summe in kleineren Schritten voran, so bekommen wir mit b = a +
n·
Z
1
b+ n
a
f (x) dx ≤ f (a) + f (a +
1
)
n
+ · · · + f (a +
dabei kann k kleiner oder größer als n sein.
16
k
)
n
≤n·
Z
k
n
b
f (x) dx ,
1
a− n
f(x)
R b+1
a
f(x)
a−1 a
b b+1
f (x) dx ≤
Pb
x=a
x
Pb
f (x)
a
a−1 a
f (x) ≤
Rb
a−1
b b+1
x
f (x) dx
Abbildung 1: Abschätzung einer Summe durch ein Integral
Wir betrachten unser Beispiel: Es ist
X n
k
k
X n ,
=
αn
α
wobei α die Form nj , 0 ≤ j ≤ n besitzt. Immer gilt die folgende Abschätzung,
vergleiche auch Lemma 43 auf Seite 116.
n
αn
≤
α 1−α !n
1
1
= f (α)n = exp n · ln f (α)
·
α
1−α
Dabei ist
1−α
α 1
1
·
und
f (α) :=
α
1−α
ln f (α) = − α ln α − (1 − α) ln(1 − α) .
α
Wir ergänzen noch α1 = 1 und ln
1 − α und α = 1. Es ist
1 α
α
= 0 für α = 0, ebenso für die Terme mit
1−α
d
ln f (α) = − ln α + ln(1 − α) = ln
dα
α
ln
1−α
T 0
α
⇐⇒
α S
und
1
,
2
also liegt für α = 21 ein globales Maximum für f (α) vor. Der Funktionswert des
Maximums ist f 12 = 2. Für die zweite Ableitung erhalten wir
d2
1
1
ln f (α) = −
−
= −4
2
dα
α
1−α
17
für α =
1
.
2
Ist α < 21 − δ oder α > 21 + δ, δ > 0 konstant, so gilt f (α) ≤ 2(1 − η) für ein kleines
η = η(δ) > 0. Also folgt für α < 21 − δ oder α > 12 + δ
X
X n
n
f (α)n ≤ n · 2(1 − η)
≤
αn
|α− 12 |>δ
|α− 12 |>δ
≤ 2n · n · exp(−ηn)
= 2n · o(1) ,
da die Anzahl der Summanden insgesamt n ist. Die Summanden mit α − 21 > δ
tragen zur Gesamtsumme von 2n nur einen gegen Null gehenden Anteil bei.
Für
1
2
−δ ≤α≤
1
2
+ δ bekommen wir auf diese einfache Art nur
X n
X
X
≤
f (α)n ≤
2n = 2δn · 2n ,
αn
|α− 21 |≤δ
|α− 21 |≤δ
|α− 21 |≤δ
da wir 2δn Summanden haben. Dieses Ergebnis ist um den Faktor n zu groß.
Für 12 − δ ≤ α ≤ 12 + δ, δ > 0 fest, gilt folgende allgemein bekannte asymptotische
Formel für den Binomialkoeffizient (einfache Anwendung der Stirling’schen Formel).
n
αn
=
=
Für α =
1
2
n!
(αn)! · (1 − α)n !
n n
e
√
2πn
·
1
+
o(1)
(1−α)n p
√
αn αn
2παn (1−α)n
2π(1 − α)n
e
e
1
1
· √ · f (α)n · 1 + o(1)
= p
n
2πα(1 − α)
q
haben wir π2 · √1n · 2n . Der Ausdruck √ 1
α(1−α)
hat bei α =
1
2
(4)
gerade
sein Minimum von 2. Er wirkt also entgegengesetzt zu f (α)n . Wir schätzen die
Summanden für 12 − δ ≤ α ≤ 21 + δ mit
1
n
1
≤ q
· √ · f ( 21 )n
αn
n
2π( 14 − δ 2 )
ab, dann ist die Teilsumme
X n
√
≤ n · 2n · O(1) ,
αn
|α− 12 |≤δ
√
was aber noch immer zu groß ist. Damit das n verschwindet, müssen wir f (α)n
genauer als mit f ( 21 ) = 2 abschätzen. Dazu setzen wir
h(β) = ln f ( 21 + β)
für −
18
1
2
≤β≤
1
2
.
Es ist
d
ln f (α) = 0 an der Stelle α = 21
dα
und h′′ (0) = −4 ebenso. Mit der Taylorentwicklung von h(β) an der Stelle β = 0
haben wir damit die folgende Approximation (siehe [26], Seite 396)
h′ (0) = 0 ,
da
1
h(β) = h(0) + β · h′ (0) + β 2 · h′′ (0) + o(β 2 )
2
1 2 ′′ = h(0) − β · h (0) + o(β 2 )
2
für β gegen 0 gehend. Das heißt, für jedes ε > 0 existiert ein δ > 0, so dass für alle
−δ ≤ β ≤ δ gilt:
′′ 1
2
h(β) − h(0) − β · h (0) ≤ ε · β 2
2
Damit bekommen wir:
Für α = nj ,
1
2
f ( 12 + β)n = exp n · h(β)
1 2 ′′ 2
= exp n · h(0) − β · h (0) + o(β )
2
− δ ≤ α ≤ 21 + δ und −δ ≤ β ≤ δ, β = α − 21 und C = 21 h′′ (0) gilt:
X
X
f (α)n =
exp n · h(β)
|β|≤δ
|α− 12 |≤δ
X
=
exp n · h(0) − C · β 2 + o(β 2 )
(5)
|β|≤δ
X
= 2n ·
exp n · − C · β 2 + o(β 2 )
|β|≤δ
P
Zur Vereinfachung betrachten wir zunächst
läuft β die Werte
|β|≤δ
exp(−nCβ 2 ). Für n gerade durch-
k−1
1 0 1
k−1 k
k
, ... , − , , , ... ,
,
− , −
n
n
n n n
n
n
mit k = ⌊δn⌋.
Für n ungerade haben wir für β die Werte
−
k
1
1
1
1
1
1
1
k
1
− , ... , − − , − ,
,
+ , ... ,
+
2n n
2n n
2n 2n 2n n
2n n
mit k = δn − 21 .
Die Schrittweite der Summanden ist n1 , damit gilt für den Teil der Summe mit β ≥ 0
X
β≥0
2
exp(−nCβ ) ≤ n ·
Z
δ2
δ1
19
exp(−nCx2 ) dx + 1
wobei bei
⌊δn⌋
und bei
n δn − 21
1
1
n ungerade δ1 =
, δ2 =
+
=
2n
2n
n
n gerade
δ1 = 0,
δ2 =
1
2
+ δn − 12
n
ist.
Die +1 rührt daher, dass das Integral eine obere Schranke für die Summe ohne den
ersten Summanden ist. Für die untere Schranke brauchen wir keinen Korrekturterm.
Es ist
Z δ2
X
n·
exp(−nCx2 ) dx ≤
exp(−nCβ 2 ) ,
δ1
β≥0
und für die gesamte Summe bekommen wir dann für alle β
n·
Z
δ2
−δ2
exp(−nCx2 ) dx − 1 ≤
X
β
Es ist
Z
δ2
2
β
2
exp(−nCβ ) ≤ n ·
exp(−nCx ) dx =
−δ2
X
Z
∞
−∞
exp(−nCβ 2 )
Z
δ2
exp(−nCx2 ) dx + 2 .
−δ2
2
exp(−nCx ) dx − 2 ·
Z
−δ2
exp(−nCx2 ) dx
−∞
und
Z
−δ2
2
exp(−nCx ) dx =
−∞
Z
−δ2
−∞
exp − (n − 1) · Cx2 · exp(−Cx2 ) dx
2
≤ exp − (n − 1) · Cδ2 ·
r
π
≤ exp − n · Θ(1) ·
C
= exp − n · Θ(1) ,
Z
−δ2
exp(−Cx2 ) dx
−∞
R∞
p
wobei wir −∞ exp(−Cx2 ) dx = Cπ verwenden. Das verbleibende Integral ergibt
mit der Substitution y 2 = nCx2
Z
∞
Z
∞
1
dx =
exp(−y 2 ) · √
exp(−nCx2 ) dx =
n·C
−∞
−∞
s
2π
.
=
n · h′′ (0)
20
r
π
n·C
Damit bekommen wir heraus
X
|β|≤δ
s
exp(−nCβ 2 ) = n ·
√
2π
± O(1) = n ·
′′
n · h (0)
Nach Gleichung (5) brauchen wir aber die Summe
X
exp n · − Cβ 2 + o(β 2 ) .
s
2π
h′′ (0) ± O(1) .
|β|≤δ
Wir zeigen, dass das o(β 2 ) auf den ermittelten asymptotischen Wert keinen Einfluß
hat. Dazu sei ε > 0 beliebig, dann existiert ein δ = δ(ε) > 0, so dass für alle β aus
−δ ≤ β ≤ δ gilt:
1 2 ′′ 1 2 ′′ 2
2
≤ n · −Cβ + o(β ) ≤ n · − β h (0) − 2ε
n · − β h (0) + 2ε
2
2
Dann ergeben sich für das Integral die folgenden Schranken:
v
Z ∞
u
u 2π
2
2
dx
exp
n
·
−
Cx
+
o(β
)
≤
t
−∞
n · h′′ (0) + 2ε
v
Z ∞
u
2π
u
exp n · − Cx2 + o(β 2 ) dx ≤ t −∞
n · h′′ (0) − 2ε
Aus dem Vorgehen folgt: Ist ε > 0 beliebig, dann gilt für alle hinreichend großen n,
dass
n X
n
n
≤ 2n (1 + ε) .
2 (1 − ε) ≤
k
k=0
Wir betrachten nur die Summanden
klein. Dann gilt nach Gleichung (4):
q
1
2π ·
1
4
n
αn
mit α − 21 ≤ δ, δ > 0 und δ hinreichend
X
X n
1
n
·√ ·
f (α) ≤
αn
n α− 1 ≤δ
α− 1 ≤δ
2
2
X
X n
1
1
· √ · 1 + o(1) ·
f (α)n
≤ q
αn
n
2π( 14 − δ)
α− 1 ≤δ
α− 1 ≤δ
2
Die Summe
P
2
|α− 21 |≤δ
f (α)n führt zu
n
2 ·n
Z
δ2
−δ2
exp n · − Cx2 + o(x2 )
21
dx ,
was wiederum zu
2n ·
führt. Die Multiplikation mit √ 1
2π 14
√
n·
s
2π
|h′′ (0)|
· √1n führt schließlich zu den Schranken 2n (1 − ε)
und 2n (1 − ε). Damit ist der folgende Satz gezeigt. Das ist die eindimensionale
Version von Lemma 3.6 in [15].
Satz 14 Sei h(x) = ln f (x) zweimal differenzierbar und habe ein globales Maximum an h(x0 ) mit h′′ (x0 ) < 0. Sei g(x) beschränkt und stetig. Seien a = a(n) ∈ N,
b = b(n) ∈ N so, dass na ≤ x0 − δ < x0 + δ ≤ nb für ein δ > 0. Dann gilt
b
X
j=a
1.5.2
g( nj ) · f ( nj )
n
= g(x0 ) · f (x0 )n ·
√
n·
s
2π
·
1
+
o(1)
.
|h′′ (x0 )|
Abschätzen mittels Erzeugendenfunktionen
Ist eine Funktion als
f (x) =
X
i≥0
ai · x i
mit ai ≥ 0, x ≥ 0
gegeben, so gilt die folgende Abschätzung für ai [33]:
ai ≤
f (x)
xi
für alle x > 0.
Für ai , also den Koeffizienten, der in der Potenzreihe von f (x) vor xi steht, schreiben
wir:
ai = Koeff f (x), xi
Das läßt sich gut verwenden, um kombinatorische Ausdrücke durch relativ einfache
analytische Funktionen abzuschätzen. Betrachten wir das folgende Beispiel: Aus der
Potenzreihe für ex folgt
ex
1
= Koeff ex , xk ≤ k
k!
x
für alle x > 0 und alle k ≥ 0.
So bekommen wir die folgende einfache Abschätzung für den Binomialkoeffizienten
n · e k
1
n!
n
·
≤
,
=
(n − k)! k!
k
k
wobei die obige Ungleichung mit x = k verwendet wird.
22
Optimaler Parameter x. Hier stellt sich die Frage, welches x die beste obere
Schranke für ai ≤ fx(x)
i liefert. Zunächst läßt sich die Qualität der Schranke durch eine
Wahrscheinlichkeit ausdrücken. Dazu betrachten wir eine ganzzahlige Zufallsvariable
X = X(x) ≥ 0, die von einem Parameter x abhängt und die Verteilung
Prob(X = i) =
ai · x i
f (x)
besitzt. Dann ist
f (x)
.
xi
Je größer Prob(X = i) ist, desto besser ist die Abschätzung für ai ≤ fx(x)
i . Die
Existenz und die Eindeutigkeit eines optimalen x zur Abschätzung von ai , das heißt
f (x)
soll möglichst klein sein, läßt sich zeigen. Wir betrachten die erste Ableitung
xi
von ln fx(x)
i . Diese ist
d
f (x)
d
i !
f ′ (x)
ln i
=
=0
−
ln f (x) − i · ln x =
dx
x
dx
f (x)
x
ai = Prob(X = i) ·
und es ist
f ′ (x)
i
−
= 0
f (x)
x
wobei
E[X] =
⇐⇒
i =
X i · ai · x i
i>0
f (x)
x · f ′ (x)
= E[X] ,
f (x)
=
x · f ′ (x)
f (x)
der Erwartungswert von X ist. Es stellen sich zwei Fragen:
1. Ist
f (x)
xi
minimal wenn x die Gleichung i = E[X] erfüllt?
2. Existiert ein x, so dass i = E[X] ist?
Für die zweite Frage zeigen wir, dass E[X(x)] streng monoton steigend in x > 0 ist.
Dazu leiten wir E[X(x)] nach x ab und bekommen:
f ′ (x) + x · f ′′ (x) · f (x) − x · f ′ (x) · f ′ (x)
d
E[X(x)] =
dx
f (x)2
2 !
x · f ′ (x) x2 · f ′′ (x)
x · f ′ (x)
1
·
+
−
=
x
f (x)
f (x)
f (x)
Nun ist
E[X2 ] =
X i 2 · ai · x i
i>0
=
f (x)
X i(i − 1) · ai · xi
i>1
f (x)
+
X i · ai · x i
i>0
x2 · f ′′ (x) x · f ′ (x)
=
+
,
f (x)
f (x)
23
f (x)
(6)
also bekommen wir
d
1
1
E[X(x)] =
· E X2 − (E[X])2 =
· Var[X] > 0
dx
x
x
heraus, wobei Var[X] die Varianz von X ist.
Welche Werte sind als E[X] möglich? Ist a0 > 0, so ist
E[X] =
a1 · x 1 + 2 · a2 · x 2 + . . .
→ 0
a0 + a1 · x 1 + a2 · x 2 + . . .
für x → 0.
Ist ai für i ≥ 1 der erste Koeffizient von f (x), der größer als 0 ist, so ist
E[X] =
i · ai · xi + (i + 1) · ai+1 · xi+1 + . . .
→ i
ai · xi + ai+1 · xi+1 + . . .
für x → 0.
an der Stelle x mit E[X] = i zu
Es bleibt die Frage nach der Minimalität von fx(x)
i
f (x)
klären. Die zweite Ableitung von ln xi ist
f (x)
f ′′ (x) · f (x) − f ′ (x) · f ′ (x)
i
d2
ln
=
+ 2
2
i
2
dx
x
f (x)
x
′ 2
′′
f (x)
f (x)
i !
=
−
+ 2 > 0
f (x)
f (x)
x
an der Stelle E[X(x)] =
x·f ′ (x)
f (x)
1
·
x2
= i. Das gilt, wenn
x2 f ′′ (x)
+ E[X] −
f (x)
x · f ′ (x)
f (x)
2 !
> 0
(mit Gleichung (6))
1
1
⇐⇒ 2 · E X2 − (E[X])2 = 2 · Var[X] > 0 ,
x
x
was gilt. Also liegt tatsächlich ein Minimum vor.
Potenzreihen mit mehreren Variablen. Die eben dargestellte Technik ist auch
auf Potenzreihen mit mehreren Variablen anwendbar. Wir beschränken und aus den
Fall von zwei Variablen, den wir hier allgemein darstellen. Wir werden später darauf
zurückgreifen.
Sei also
f (x, y) =
X
i,j≥0
dann gilt
ai,j ≤
ai,j · xi y j
f (x, y)
xi y j
mit ai,j ≥ 0 ,
für alle x, y > 0 .
24
Für den Zufallsvektor Z = (X, Y) mit der Verteilung
Prob((X, Y) = (i, j)) =
ai,j · xi y j
f (x, y)
mit X = X(x, y), Y = Y(x, y)
ergibt sich direkt
ai,j = Prob((X, Y) = (i, j)) ·
f (x, y)
.
xi y j
Wieder wollen wir einen Koeffizienten ai,j möglichst gut durch
ai,j ≤
nach oben hin abschätzen, also soll
f (x,y)
xi y j
f (x, y)
xi y j
möglichst klein werden. Dazu betrachten
wir die partiellen Ableitungen der Funktion ln fx(x,y)
nach x und y. Es ist
i yj
f (x, y)
∂
∂
ln i j
=
ln f (x, y) − i · ln x
∂x
xy
∂x
i !
x · fx (x, y)
fx (x, y)
−
= 0
⇐⇒ i =
=
f (x)
x
f (x, y)
und ebenso
∂
f (x, y)
∂
ln i j
=
ln f (x, y) − j · ln y
∂y
xy
∂y
fy (x, y) j !
− = 0
⇐⇒
=
f (x)
y
j=
y · fy (x, y)
.
f (x, y)
Wir beobachten wieder, dass
E[X] =
x · fx (x, y)
f (x, y)
und E[Y] =
y · fy (x, y)
,
f (x, y)
wenn x und y existieren. Man beachte, dass x, y das Gleichungssystem
i=
x · fx (x, y)
,
f (x, y)
j=
y · fy (x, y)
f (x, y)
erfüllen müssen. Es ist nicht klar, ob das immer möglich ist. Dazu folgende Beobachtung:
Wir betrachten die Abbildung F von R2 nach R2
F : (x, y) 7→ (E[X] , E[Y]) .
Dann ist (x, y) = F −1 (i, j), wobei F −1 die Umkehrfunktion von F ist, sofern sie existiert. Die Umkehrfunktion existiert in einer Umgebung von (i, j), wenn die JacobiMatrix JF von F im Punkt (x, y) = F −1 (i, j) invertierbar ist. Hat also JF an diesem
25
Punkt eine Determinante 6= 0, dann existiert F −1 in der Umgebung von (i, j) und ist
auch partiell differenzierbar. Siehe zum Beispiel den Satz über Umkehrabbildungen
in [32] Abschnitt 4.6.
Die Jacobi-Matrix von F ist

JF
Es ist
 ∂ E[X(x, y)] ∂ E[X(x, y)]
 ∂x
∂y
= 

 ∂
∂
E[Y(x, y)]
E[Y(x, y)]
∂x
∂y



 .


fx (x, y) + x · fx,x (x, y) · f (x, y) − x · fx (x, y) · fx (x, y)
f (x, y)2
2 !
x2 · fx,x (x, y)
x · fx (x, y)
1
· E[X] +
−
=
x
f (x, y)
f (x, y)
2 1 2
=
· E X − E[X]
x
1
=
· Var[X] > 0 ,
x
∂
E[X(x, y)] =
∂x
wobei Var[X] die Varianz von X ist. Insbesondere ist E[X] steigend in x.
x · fx,y (x, y) · f (x, y) − x · fx (x, y) · fy (x, y)
∂
E[X(x, y)] =
∂y
f (x, y)2
1
x · y · fx (x, y) · fy (x, y)
x · y · fx,y (x, y)
=
·
−
y
f (x, y)
f (x, y)2
1
=
· E[X · Y] − E[X] · E[Y]
y
1
· Cov[X, Y]
=
y
Wobei Cov[X, Y] die Kovarianz von X und Y ist. Ebenso ist
1
∂
E[Y(x, y)] =
· Cov[X, Y]
∂x
x
und
∂
1
E[Y(x, y)] = · Var[Y] ,
∂y
y
also Erhalten wir für die Jacobi-Matrix von F

 Var[X]

x
JF = 

E[Z]=(i,j)
 Cov[X, Y]
x
26

Cov[X, Y] 

y


Var[Y] 
y
und die Determinante von JF ist
det JF = xy · det Cov[Z] 6= 0
E[Z]=(i,j)
⇐⇒
det Cov[Z] 6= 0 ,
wobei det Cov[Z] ≥ 0 die Determinante der Kovarianzmatrix von Z bezeichnet. Die
Kovarianzmatrix ist immer positiv semidefinit, siehe zum Beispiel [24] Kapitel 12,
Theorem 12.4.
Das heißt, haben wir ein Paar (x, y), das die Bedingung i = E[X(x, y)] und j =
E[Y(x, y)] erfüllt und ist die Determinante der Kovarianzmatrix det Cov[Z(x, y)] 6=
0, dann sind auch die Lösungen (x, y) = F −1 (i, j) in der Umgebung von (i, j) bestimmt.
Sind die so bestimmten Lösungen optimal? Wir bilden die Hesse-Matrix H
von ln fx(x,y)
i y j . Diese ist

2
2
f (x, y)
f (x, y)
∂
 ∂
ln i j
 ∂x2 ln xi y j
∂x, y
xy
H = 

 ∂2
f (x, y)
f (x, y)
∂2
ln i j
ln i j
∂y, x
xy
∂y 2
xy






mit
∂2
∂x2
f (x, y)
ln i j
xy
fx,x (x, y) · f (x, y) − fx (x, y) · fx (x, y)
i
+ 2
2
f (x, y)
x
2
fx,x (x, y)
i
fx (x, y)
=
+ 2
−
f (x, y)
f (x, y)
x
2 !
x2 fx,x (x, y)
1
x · fx (x, y)
= 2·
+ i −
x
f (x, y)
f (x, y)
=
und ebenso
∂2
∂y 2
f (x, y)
ln i j
xy
1
= 2·
y
y 2 fy,y (x, y)
+ j −
f (x, y)
y · fy (x, y)
f (x, y)
2 !
An der Stelle E[X(x, y)] = i, E[Y(x, y)] = j haben wir
2 f (x, y)
1 2
1
∂2
ln i j
= 2 · E X − E[X]
= 2 · Var[X]
2
∂x
xy
x
x
2
2
∂
f (x, y)
1
1
ln i j
= 2 · E Y2 − E[Y]
= 2 · Var[Y]
2
∂y
xy
y
y
27
Die gemischten Ableitungen sind
∂2
∂2
f (x, y)
f (x, y)
=
ln i j
ln i j
∂x, y
xy
∂y, x
xy
fx,y (x, y) · f (x, y) − fx (x, y) · fy (x, y)
=
f (x, y)2
x · y · fx (x, y) · fy (x, y)
x · y · fx,y (x, y)
1
·
−
=
x·y
f (x, y)
f (x, y)2
1
=
· E[X · Y] − E[X] · E[Y]
x·y
1
· Cov[X, Y] .
=
x·y
in diesem Punkt
Damit ist die Hesse-Matrix von ln fx(x,y)
i yj

H
E[Z]=(i,j)
und die Determinante ist
det H
E[Z]=(i,j)
=
1
x2 y 2
 Var[X]

x2
=

 Cov[X, Y]
xy
· det Cov[Z] > 0

Cov[X, Y] 

xy


Var[Y ] 
y2
⇐⇒
det Cov[Z] > 0 .
Das heißt, wenn eine Lösung x, y des Gleichungssystems existiert und die Determinante der Kovarianzmatrix det Cov[Z(x, y)] > 0 ist, dann hat auch fx(x,y)
an dieser
i yj
Stelle ein Minimum.
28
2
Abschätzung von E X
schen Ausdruck
2
durch einen analyti-
Kommen wir nun zum Hauptteil der Arbeit. Wir müssen zeigen, dass der folgende
Satz gilt.
Satz 6 (Wiederholung) Sei X die Zufallsvariable für die Anzahl der Lösungen,
wie in Abschnitt 1.2 definiert. Unter den Voraussetzungen von Satz 5 gilt:
E X2 = O E[X]2
Wir müssen also das Zweite Moment der Anzahl der Lösungen nach oben hin durch
ein Vielfaches von E[X]2 beschränken. Dazu bestimmen wir zunächst einen kombinatorischen Ausdruck für E[X2 ], den wir dann im weiteren Verlauf durch einen
analytischen Ausdruck abschätzen werden.
2.1
Eine kombinatorische Formel für E X2
Nach Formel (3) ist
XX
Prob(F unter α und β wahr) ,
E X2 =
α
β
wobei α und β jeweils alle 3n Belegungen durchlaufen. Es ist
Prob(F unter α und β wahr) =
#Formeln unter α und β wahr
|F|
Um die Anzahl der wahren Formeln unter einem Paar (α, β) zu ermitteln, betrachten
wir zunächst eine einzelne linke Seite νi,1 + . . . + νi,k . Es gilt
α(νi,1 ) + . . . + α(νi,k ) = β(νi,1 ) + . . . + β(νi,k )
mod 3
genau dann, wenn gilt
β(νi,1 ) + . . . + β(νi,k ) − α(νi,1 ) + . . . + α(νi,k ) = 0
Das bedeutet genau, dass
{j | β(νi,j ) − α(νi,j ) = 1
= {j | β(νi,j ) − α(νi,j ) = 2
mod 3}
mod 3}
Beachte, dass 2 = −1 mod 3 ist. Damit gibt es
X
k
k0 , k1 , k2
k =k
mod 3
1
2
29
mod 3 .
mod 3
verschiedene Möglichkeiten, wie eine linke Seite νi,1 + . . . + νi,k mit
α(νi,1 + . . . + νi,k ) = β(νi,1 + . . . + νi,k )
mod 3
aufgebaut sein kann. Wir haben k Positionen und wählen für j ∈ {0, 1, 2} kj dieser
Positionen aus, die von Variablen x mit β(x) − α(x) = j mod 3 besetzt werden.
Beachte, dass wir nur die Möglichkeiten der Struktur der Gleichungen gezählt haben.
Die konkrete Platzierung der Variablen kann, da jede Variable mindestens zweimal
vorkommen muß, nur nach der Wahl der Struktur erfolgen.
Sei nun für j ∈ {0, 1, 2} die Menge von Variablen, die sich unter α, β um j mod 3
unterscheiden
Wj = {x ∈ V | β(x) − α(x) = j
mod 3} und wj = |Wj |.
Jede Formel, die unter α und β wahr ist, wird durch den folgenden Auswahlprozess
genau einmal gezählt.
1. Wähle die Struktur der linken Seiten der Gleichungen. Das sind
X
k
k
· ... ·
k0,m , k1,m , k2,m
k0,1 , k1,1 , k2,1
K
(7)
Möglichkeiten. Dabei geht die Summe über alle 3m-Tupel
K = (k0,1 , k1,1 , k2,1 , . . . , k0,m , k1,m , k2,m )
P
so, dass k1,i = k2,i mod 3 und 2j=0 kj,i = k für alle 1 ≤ i ≤ m ist.
P
2. Platziere in die lj := m
i=1 kj,i gewählten Plätze die Variablen aus Wj so, dass
jede mindestens zweimal vorkommt. Das sind
X
X
X
l2
l1
l0
·
·
u2,1 , . . . , u2,w2
u1,1 , . . . , u1,w1
u0,1 , . . . , u0,w0
u~2 ≥2
u~1 ≥2
u~0 ≥2
Möglichkeiten, wobei u~j = (uj,1 , . . . , uj,wj ) die Anzahl der Vorkommen der
entsprechenden Variablen angibt.
3. Wähle die rechte Seite von jeder Gleichung. Hier ist nichts zu wählen, da die
linken Seiten unter α (und damit β) bereits einen Wert haben, der die rechte
Seite bestimmt.
Insgesamt haben wir also
m XY
K
i=1
k
k0,i , k1,i , k2,i
Y
2 X
·
j=0 u~j ≥2
30
lj
uj,1 , . . . , uj,wj
viele mögliche Formeln gewählt. Die Wj gehen nur über wj = |Wj | ein, es kommt
also nur auf die Anzahl wj und nicht auf die Mengen Wj selbst an.
Damit ist für ein gegebenes α
X
#Formeln unter α und β wahr
β
=
X
w
~


n
w0 , w1 , w2
XY
m ·
K
i=1
k
k0,i , k1,j , k2,i
Y
2 X
·
j=0 u~j ≥2

lj
.
uj,1 , . . . , uj,wj
~ über alle
Der Faktor w0 ,wn1 ,w2 gibt die Wahlmöglichkeiten für β an. Dabei geht w
Tripel (w0 , w1 , w2 ) mit w0 + w1 + w2 = n. Die anderen Faktoren zählen die Formeln
wie vorher. Die Formel ist unabhängig von dem konkreten α. Dadurch ist
XX
#Formeln wahr unter α und β
α
β
= 3n ·
X
w
~


n
w0 , w1 , w2
XY
m ·
K
i=1
k
k0,i , k1,j , k2,i
Y
2 X
·
j=0 u~j ≥2

lj
.
uj,1 , . . . , uj,wj
Indem wir durch die Formelanzahl |F| teilen, bekommen wir das folgende Lemma.
Lemma 15 Sei X die Zufallsvariable für die Anzahl der Lösungen einer Formel
F ∈ F(n, k, m). Dann gilt für das zweite Moment von X:
 n P

Q2 P
Qm
lj
k
·
·
n
~
X
X
j=0
u~j ≥2 uj,1 ,...,uj,wj
i=1 k0,i ,k1,i ,k2,i
K(l)
w
~
3


E X2 = m ·
P
km
3
~
z ≥2 z ,...,z
w
~
~l
1
n
P
P
wobei ~l = (l0 , l1 , l2 ), lj = km und w
~ = (w0 , w1 , w2 ),
wj = n. Die Summe
~
über K(l) geht
Pm hier über alle wie in (7) definierten Tupel, bei denen als zusätzliche
Bedingung i=1 kj,i gerade gleich lj ist.
Man beachte, dass wir im Unterschied zu obigem Auswahlprozess hier zuerst die
Anzahl der Plätze lj für die Variablen aus Wj wählen und dann über die Strukturen
der Gleichungen mit K(~l) gehen.
Wir bezeichnen einen einzelnen Summanden von E[X2 ] ohne den Faktor
Abhängigkeit von w
~ und ~l mit E(w,
~ ~l).
P ~ Qm
i=1
K(l)
n
E(w,
~ ~l) =
·
w
~
Q2 P
· j=0 u~j ≥2
k0,i ,k1,i ,k2,i
P
km
k
~
z ≥2
31
z1 ,...,zn
lj
uj,1 ,...,uj,wj
3n
3m
in
(8)
Für die spätere Betrachtung ist es günstiger, die normierten Versionen von w
~ und
w0 w1 w2
~l zu betrachten. Für ein gegebenes w
~ ist ω
~ = n , n , n die auf n normierte
l0
l1
l2
~
Version, ebenso ist λ = km , km , km und ω
~ n = w,
~ ~λkm = ~l. Wir schreiben E(~ω , ~λ)
für E(~ω n, ~λn). Es bleibt der folgende Satz zu zeigen. Satz 6 folgt dann direkt mit
Lemma 15 daraus.
Satz 16 Es existiert eine Konstante C, so dass gilt:
XX
ω
~
~λ
E(~ω , ~λ) ≤ C ·
3n
= C · 3γn
3m
P P
Es ist ω~ ~λ E(~ω , ~λ) der Erwartungswert von X unter der Bedingung, dass F unter
einer festen Belegung α wahr wird. Also sagt Satz 16, dass
E[X | F unter α wahr] = O(E[X]) .
Die Bedingung wirkt sich nur durch einen konstanten Faktor auf den Erwartungswert
aus. Man vergleiche noch einmal die Interpretation auf Seite 8.
Das Hauptaugenmerk liegt auf Satz 16. Deshalb versuchen wir E(w,
~ ~l) etwas zu
verstehen.
1. Eine ganz grobe Abschätzung für E(~ω , ~λ) ist E(~ω , ~λ) ≤ ω~nn ≤ 3n , da der
verbleibende Faktor stets ≤ 1 ist. Wir schränken die Anzahl der linken Seiten
der Gleichungen ein und teilen durch die Anzahl aller möglichen linken Seiten.
2. Der übrig gebliebene
Faktor ist gleich 1, wenn l0 = km. Dann sind alle
k
k
= k,0,0 = 1. Dann ist w0 = n und E(~ω , ~λ) = 1. Ist l1 = km
k0,i ,k1,i ,k2,i
oder l2 = km, so kann E(~ω , ~λ) = 0 oder 1 sein.
3. Ist ω
~ = 13 , 13 , 31 , dann ist nach der Stirling’schen Formel ω~nn ≈ n1 · 3n . An
dieser Stelle muß der zweite Faktor ≪ 31m sein, damit Satz 16 gelten kann. Man
beachte, dass γ zwar nicht gegen 0 geht, aber eine beliebig kleine Konstante
sein kann.
Man beachte, dass ω
~ und ~λ in der Summe nur über Tripel der Form wn0 , wn1 , wn2 be
l0
l1
l2
ziehungsweise km
gehen. Wir haben insgesamt O(n4 ) Summanden E(~ω , ~λ),
, km
, km
die ihrerseits aus exponentiell vielen Summanden bestehen. Darum kümmern wir uns
in den folgenden Abschnitten.
32
2.2
Ein analytischer Ausdruck für E X2
Wir geben eine Abschätzung der Terme von E(~ω , ~λ) an, so dass
n
E(~ω , ~λ) ≤ Ψ ω
~ , ~λ, ~x, ~y
für alle ω
~ , ~λ sowie alle ~x = (x0 , x1 , x2 ), ~y = (y0 , y1 , y2 ) mit xi , yi > 0 gilt. Dabei ist
Ψ(~ω , ~λ, ~x, ~y ) selbst vollkommen unabhängig von n und m.
Die in Gleichung (8) verbliebenen Summen besitzen, außer für ganz spezielle w
~ und
~l, noch exponentiell viele Summanden. Das ist für unser Ziel, den analytischen Vergleich mit 3γn , nicht handhabbar. Wir brauchen eine Möglichkeit, diese kombinatorischen Ausdrücke mit relativ einfachen analytischen Funktionen abzuschätzen. Das
geht mit der in Abschnitt 1.5.2 betrachteten Methode der erzeugenden Funktionen.
n
Wir betrachten die Potenzreihe von exp(x) − x − 1 . Auf diese Weise bekommen
wir
X 1
1
· ... ·
= Koeff((exp(x) − x − 1)n , xm )
k1 !
kn !
~k≥2
(exp(x0 ) − x0 − 1)n
für x0 > 0,
x0 m
P
wobei ~k über alle Vektoren (k1 , . . . , kn ) mit ni=1 ki = m, ki ≥ 2 läuft. Interessant
ist: Eine Summe mit exponentiell vielen Summanden wird durch einen einfachen
Ausdruck abgeschätzt. Direkt folgt
X 1
X
1
m
· ... ·
= m! ·
k1 !
kn !
k1 , . . . , kn
~k≥2
~k≥2
m
√
m
≤
· m · (exp(x0 ) − x0 − 1)n · O(1)
ex0
m √
mit der Stirling’schen Formel [10], m! = me · m·O(1) für alle m. Damit haben wir
eine einfache obere Schranke für die Anzahl der Gleichungssysteme |F| in Gleichung
(1).
km
X km
√
km
m
m
· n · (exp(x0 ) − x0 − 1)n · O(1)
|F| = 3 ·
≤3 ·
ex0
~z
~
z ≥2
√
√
für x0 > 0, da km = O( n) ist. Leider hilft uns das nicht beim Beweis von Satz
16, da |F| beziehungsweise die Summe von Multinomialkoeffizienten dort im Nenner
steht. Tatsächlich gilt das folgende Lemma.
≤
Lemma 17 Es existiert ein Parameter s > 0, so dass
X km km km
=
· (exp(s) − s − 1)n · Θ(1) .
~z
es
~
z ≥2
33
√
Man beachte, dass der Faktor n verschwunden ist. Der Beweis in Abschnitt A.1.1
zeigt, dass wir für den Parameter x0 > 0 in der vorherigen Abschätzung gerade
dieses s einsetzen.
Lemma 17 besagt, dass es zwei Konstanten C1 , C2 gibt, so dass
!
km
X km
km
n
und
· (exp(s) − s − 1)
C1 ·
≤
es
~z
~
z ≥2
!
km
X km
km
n
· (exp(s) − s − 1) .
≤ C2 ·
es
~z
~
z ≥2
Der Parameter s ist implizit gegeben, wie im folgenden dargestellt. Im weiteren
Verlauf benutzen wir die folgenden Definitionen.
q(x) := exp(x) − x − 1
q ′ (x) := exp(x) − 1
q ′′ (x) := exp(x)
x · (exp(x) − 1)
x · q ′ (x)
Q(x) :=
=
exp(x) − x − 1
q(x)
(9)
Wir betrachten Q(x) nur für x > 0. Die Bedeutung von Q(x) wird in Abschnitt
A.1.1 klar. Die für uns wichtigen Eigenschaften dieser Funktion nennt das folgende
Lemma, das wir in Abschnitt A.2.2 beweisen.
Lemma 18 Die Funktion Q(x) hat für x > 0 die folgenden Eigenschaften:
1. Q(x) ist streng monoton wachsend.
2. Der Grenzwert für x → 0 ist limx→0 Q(x) = 2.
3. Der Grenzwert für x → ∞ ist limx→∞ Q(x) = ∞.
4. Es ist x < Q(x). Für x > 2 gilt außerdem Q(x) < x + 1.
Damit können wir den Parameter s aus Lemma 17 angeben. Er ist ab hier für den
ganzen Rest der Arbeit fest und implizit gebenen durch
(10)
Q(s) = k(1 − γ) bzw. s = Q−1 k(1 − γ) .
Da k ≥ 3 und Γ tendenziell nahe bei 1 ist, können wir k(1 − γ) > 2 annehmen, also
ist s > 0 eindeutig definiert. Man beachte, dass für großes s s ≈ k(1 − γ), genauer
Q(s) − 1 = k(1 − γ) − 1 ≤ s ≤ k(1 − γ) = Q(s), gilt.
34
Abschätzung der Faktoren von E(~ω , ~λ). Eine Abschätzung für den Nenner
von E(~ω , ~λ) liefert direkt Lemma 17. Wir benötigen noch eine Abschätzung für
den Zähler. Dabei können wir für die meisten Werte von ω
~ und ~λ zunächst etwas
einfacher vorgehen. Wir betrachten für den Rest dieses Abschnitts ω
~ 0 und ~λ 0,
das heißt ωj > 0 und λj > 0 für j = 0, 1, 2. Damit ist das kleinste betrachtete ωj
2
. Wir schätzen nun die Faktoren
nicht konstant, sondern n1 . Ebenso für λj ist es km
~
von E(~ω , λ) einzeln mit der Methode der Erzeugendenfunktionen ab.
Für den ersten Faktor gilt nach Lemma 43 im Anhang:
n
w0 , w1 , w2
≤
1
ω0
ω0 ω1 ω2 n
1
1
·
·
ω1
ω2
(11)
Die Summen von Multinomialkoeffizienten sind bereits behandelt. Es ist
X
u~j ≥2
lj
uj,1 , . . . , uj,wj
≤ lj ! ·
q(xj )wj
x j lj
für alle lj ≥ 1, xj > 0.
lj p
lj
· lj · O(1) für alle lj ≥ 1. Außerdem
e
lj √
l
ist lj ≤ km = O(n), also ist für alle 1 ≤ lj ≤ km lj ! ≤ ej
· n · O(1). Damit
erhalten wir für diesen Faktor die folgende Ungleichung.
Nach der Stirling’schen Formel ist lj ! ≤
l
X lj √
lj j
· q(xj )wj · n · O(1)
≤
exj
u~j
u~j ≥2
!n
λ k(1−γ)
√
λj km j
=
· n · O(1)
· q(xj )ωj
exj
(12)
Es bleibt der dritte Faktor von E(~ω , ~λ)
m XY
K(~l) i=1
k
k0,i , k1,i , k2,i
P
abzuschätzen, wobei K(~l) so ist, dass i kj,i = lj und k1,i = k2,i mod 3. Wir betrachten die folgende Erzeugendenfunktion, wobei r = exp 2πı
die primitive dritte
3
Einheitswurzel ist.
1
k
2
k
2
k
p(y0 , y1 , y2 ) :=
(y0 + y1 + y2 ) + (y0 + ry1 + r y2 ) + (y0 + r y1 + ry2 )
(13)
3
35
Es gilt
1X
p(y0 , y1 , y2 ) =
3
~k
k
k0 , k1 , k2
· y0 k0 y1 k1 y2 k2 + y0 k0 (ry1 )k1 (r2 y2 )k2 +
y0 k0 (r2 y1 )k1 (ry2 )k2
1X
=
3
~k
k
k0 , k1 , k2
k0
k1
· y0 y1 y2
k2
!
2k1 +k2
k1 +2k2
,
+r
· 1+r
wobei ~k = (k0 , k1 , k2 ) über alle ~k mit kj ≥ 0 und k0 +k1 +k2 = k geht. Da r die dritte
Einheitswurzel ist, können wir im Exponenten modulo 3 rechnen. Insbesondere ist
k1 + 2k2 = k1 − k2
mod 3 und 2k1 + k2 = −k1 + k2
mod 3.
Dann gilt für k1 = k2 mod 3, dass 1 + rk1 +2k2 + r2k1 +k2 = 3 ist. Für k1 − k2 = 1
mod 3 ist rk1 +2k2 = r, r2k1 +k2 = r2 also ist 1 + rk1 +2k2 + r2k1 +k2 = 0. Analog für
k1 − k2 = 2 mod 3, da das heißt, dass k2 − k1 = 1 mod 3 ist.
Damit bleiben in p(y0 , y1 , y2 ) genau die gewünschten Koeffizienten stehen. Es ist
X
p(y0 , y1 , y2 ) =
k1 =k2
mod 3
k
y 0 k0 y 1 k1 y 2 k2 .
k0 , k1 , k2
Interessant ist, dass das Polynom mittels der komplexen Einheitswurzeln definiert,
aber trotzdem reellwertig ist.
Für den abzuschätzenden Faktor gilt dann die folgende Ungleichung für alle yj > 0.
m XY
K
i=1
k
k0,i , k1,i , k2,i
= Koeff p(y0 , y1 , y2 )m , y0 l0 y1 l1 y2 l2
≤
=
p(y0 , y1 , y2 )m
y 0 l0 y 1 l1 y 2 l2
p(y0 , y1 , y2 )1−γ
(y0 λ0 · y1 λ1 · y2 λ2 )k(1−γ)
!n
(14)
Setzen wir die Ungleichungen (11), (12) und (14), die wir in den vorangegangenen
Abschnitten erhalten haben, in die Gleichung (8) für E(~ω , ~λ) ein, dann erhalten wir
36
die folgende Ungleichung für xj , yj > 0.
ω0 ω1 ω2 n
1
1
1
~
E(~ω , λ) ≤
·
·
ω0
ω1
ω2
!n
!n
λ0 k(1−γ)
λ1 k(1−γ)
λ
km
λ0 km
1
·
· q(x0 )ω0
· q(x1 )ω1
·
ex0
ex1
!n
λ k(1−γ)
√
λ2 km 2
·
· n3 · O(1)
· q(x2 )ω2
ex2
!n es k(1−γ) 1 n
p(y0 , y1 , y2 )1−γ
·
·
· Θ(1)
·
km
q(s)
(y0 λ0 · y1 λ1 · y2 λ2 )k(1−γ)
Der letzte Term ist der Kehrwert der Formel aus Lemma 17. Jetzt lassen sich
exp(k(1 − γ)n) und (km)k(1−γ)n = (km)(λ0 +λ1 +λ2 )k(1−γ) kürzen und O(1) mit Θ(1)
zusammenfassen. Sortiert nach den Exponenten ωj , λj erhalten wir dann:
E(~ω , ~λ) ≤
·
q(x0 )
ω0
ω0 λ0
x0 y0
q(x1 )
ω1
λ 0 · p(y0 , y1 , y2 )1−γ
ω 1 λ1
x1 y1
!n
·
q(x2 )
ω2
λ 1 √
λ2
x2 y2
ω 2
·
λ 2
·s
1
q(s)
!k(1−γ)
(15)
n3 · O(1)
Wir definieren für die Faktoren der rechten Seite von Gleichung (15) die Funktionen
Ψ1 (~ω , ~x), Ψ2 (~λ, ~y ) und Ψ3 (~y ).
ω ω ω
1
q(x0 ) 0 q(x1 ) 1 q(x2 ) 2
·
Ψ1 (~ω , ~x) :=
ω0
ω1
ω2
q(s)
!
k(1−γ)
λ 0 λ 1 λ 2
λ
λ
λ
0
1
2
Ψ2 (~λ, ~x, ~y ) :=
·s
(16)
x0 y0
x1 y1
x2 y2
Ψ3 (~y ) := p(y0 , y1 , y2 )1−γ
Ψ(~ω , ~λ, ~x, ~y ) := Ψ1 (~ω , ~x) · Ψ2 (~λ, ~x, ~y ) · Ψ3 (~y )
Es gilt dann das folgende Lemma.
Lemma 19 Für ω
~ , ~λ > 0 und alle xj , yj > 0 ist
n √
E(~ω , ~λ) ≤ Ψ1 (~ω , ~x) · Ψ2 (~λ, ~x, ~y ) · Ψ3 (~y ) · n3 · O(1) .
37
Die Schwierigkeit besteht darin, zu ω
~ , ~λ die xj , yj so zu wählen, dass Satz 16 gezeigt
werden kann. Dass dies nicht
ganz einfach ist, sehen wir, wenn wir den Summanden
am Punkt ω
~ = ~λ = 13 , 31 , 31 betrachten.
Wählen wir etwa xj = s, yj = 1, dann ist
k(1−γ) k 1−γ
1
3
·
= 3γ .
3
3
Ψ(~ω , ~λ, ~x, ~y ) = 3 ·
Das ergibt mit Lemma 19 die Abschätzung
E(~ω , ~λ) ≤ 3γn ·
√
n3 · O(1) ,
was sicherlich zu groß ist, da alle Summanden positiv sind und die ganze Summe nur
3γn · O(1) ergeben soll. Es stellt sich heraus, dass auch mit einer anderen Wahl der
Parameter xj , yj keine bessere Abschätzung möglich
√ ist. Das ergibt sich im Beweis
von Satz 20, wo auch gezeigt wird, wie der Faktor n3 verschwindet.
Wegen
Beobachtung werden wir nicht darum herumkommen, die Summe
P P der obigen
~
E(~
ω
,
λ)
in
Teilsummen zu zerlegen und diese einzeln zu behandeln. Dazu
~λ
ω
~
betrachten
~ , ~λ ist nahe an
wir eine hinreichend kleine Konstante δ > 0. Wir sagen ω
1 1 1
genau dann, wenn für alle j = 0, 1, 2
, ,
3 3 3
ωj − 1 ≤ δ
3
bzw.
λj − 1 ≤ δ
3
ist. Damit folgt, ω
~ ist nicht nahe an 31 , 31 , 31 , wenn ein |ωj − 13 | > δ für ein δ > 0
ist. Dabei kann die Konstante δ beliebig klein gewählt sein.
Man beachte, dass immer noch O(n2 ) Tripel ω
~ nahe an 31 , 31 , 31 sind, da die ωj von
~ > 0 bedeutet ω0 , ω1 , ω2 > 0,
der Form nb sind und n groß wird. Die Schreibweise ω
ebenso für ~λ > 0.
P P
Wir zeigen die folgenden Sätze, die alle Teilsummen von ω~ ~λ E(~ω , ~λ) abdecken.
Satz 16 folgt direkt aus diesen Sätzen.
~ und ~λ nahe an
Satz 20 Für ω
1 1 1
, ,
3 3 3
XX
ω
~
~λ
gilt
E(~ω , ~λ) ≤ C · 3γn
für eine Konstante C.
38
Satz 21 Für ω
~ > 0 nicht nahe an 13 , 31 , 31 , ~λ nahe an
dass
Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η)
1 1 1
, ,
3 3 3
gibt es ~x, ~y , so
für ein hinreichend kleines η > 0.
Satz 22 Es gibt ein η > 0, so dass für alle ~λ > 0 nicht nahe an
gibt, so dass
Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η)
1 1 1
, ,
3 3 3
es ~x, ~y
für alle ω
~.
Schließlich noch die Fälle in denen ein λj = 0 ist. Dann ist automatisch auch das
zugehörige ωj = 0, da immer 2lj ≥ wj beziehungsweise 2λj k(1 − γ) ≥ ωj ist, damit
E(~ω , ~λ) > 0. Man beachte, dass wir Ψ(~ω , ~λ, ~x, ~y ) nur für ω
~ , ~λ > 0 definiert haben.
Satz 23 Ist genau ein λj = 0 (äquivalent zu: genau ein ωj = 0), dann gilt
n
E(~ω , ~λ) ≤ C · 3γ (1 − η) .
Satz 24 Ist genau ein λj = 1 (äquivalent zu: genau ein ωj = 1), dann ist
E(~ω , ~λ) = 0 oder 1.
39
2.3
Beweis von Satz 16
P P
~ , ~λ nahe
Es ist zu zeigen,
dass ω~ ~λ E(~ω , ~λ) ≤ C · 3γn gilt. Die Summe über alle ω
1 1 1
γn
an 3 , 3 , 3 ist ≤ C · 3 mit Satz 20.
Für ω
~ , ~λ > 0, wobei ~λ nicht nahe an 31 , 13 , 31 ist, gilt zunächst mit Lemma 19:
n √
~
~
E(~ω , λ) ≤ Ψ(~ω , λ, ~x, ~y ) · n3 · C
n √
≤ 3γ (1 − η) · n3 · C
Für die letzte Abschätzung wählen wir ~x, ~y gemäß Satz 21 und Satz 22.
n
Ist ein ωj = 0, dann ist E(~ω , ~λ) ≤ C · 3γ (1 − η) nach Sätzen 23 und 24. Damit
bekommen wir für die gesamte Summe:
XX
n √
E(~ω , ~λ) ≤ C · 3γn + n2 · (km)2 · 3γ (1 − η) · n3 · C
ω
~
~λ
+ n · km · 3γ (1 − η)
Nun ist mit (1 − η) ≤ exp(−η)
(3γ (1 − η))n · O n4 · n3/2
n
·C
≤ 3γn · exp − n · η + O(ln n)
ln n
γn
= 3 · exp −n η − O
n
γn
= 3 · exp − n(η − o(1))
≤ 3γn · exp(−nη ′ )
(für η ′ < η)
= 3γn · o(1),
wobei o(1) einen Ausdruck bezeichnet, der in n gegen 0 geht. Die polynomiellen
Faktoren verschwinden also in (1 − η)n . Also ist die Gesamtsumme ≤ C · 3γn + 3γn ·
o(1) = C · 3γn .
Man sieht, dass sich der Hauptteil der Summe für ω
~ , ~λ nahe an 31 , 13 , 31 ergibt. Der
γn
Rest ist o(1) · 3 .
Satz 24 ist bereits im Punkt 2 auf Seite 32 bewiesen. Wir beweisen die Sätze 20 bis
23 in den folgenden Abschnitten. Wir beginnen mit dem interessantesten, Satz 22.
40
3
Beweis von Satz 22, λ0 ≥ λ1 = λ2
Wir betrachten zunächst den Fall λ0 ≥ λ1 = λ2 und beweisen den Satz zunächst für
diesen Fall. Dadurch haben wir zwar einige zusätzliche Arbeit, trotzdem ist das von
Verständnis her günstiger. Die Hauptideen werden hier klar.
~
Satz 22
(Wiederholung) Es gibt ein η > 0, so dass für alle λ > 0 nicht nahe an
1 1 1
es ~x, ~y gibt, so dass
, ,
3 3 3
Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η)
für alle ω
~.
Es reicht aus, passende Werte für ~x und ~y in Abhängigkeit von ~λ anzugeben. Mit
einiger Voraussicht setzen wir in Ψ(~ω , ~λ, ~x, ~y )
~x := s(x0 , x1 , x2 ) = (sx0 , sx1 , sx2 )
~y := (y0 , y1 , y2 ),
wobei für die xj , yj auf der rechten Seite
xj · yj =
λj
λ0
und 0 ≤ xj , yj ≤ 1 sowie x1 = x2 , y1 = y2
gilt. Es ist x0 = y0 = 1 und
λ0 λ1 λ2
+
+
= x0 y0 + x1 y1 + x2 y2 = 1 + 2x1 y1 .
λ0 λ0 λ0
Dann folgt, da
λ0
λ0
+
λ1
λ0
+
λ2
λ0
λ0 =
=
1
,
λ0
dass
1
1 + 2x1 y1
λ1 = λ2 =
x1 y1
.
1 + 2x1 y1
Bemerkung: Die Zuordnung (λ0 , λ1 ) 7→ λλ10 mit Definitionsbereich alle λ0 ≥ λ1 mit
λ0 + 2λ1 = 1 und Wertebereich alle Zahlen zwischen 0 und 1 ist bijektiv.
Gegeben ein 0 ≤ l ≤ 1, dann ist λ0 =
λ1
= l.
λ0
1
,
1+2l
λ1 =
l
1+2l
Urbild, denn λ0 + 2λ1 = 1 und
Ist zum Beispiel λλ01 = 1, dann ist λ0 = 13 = λ1 = λ2 . Ist
λ1 = λ2 = 0. Ist λλ01 = 21 , dann λ0 = 12 , λ1 = λ2 = 14 .
λ1
λ0
= 0, dann ist λ0 = 1,
Abschätzung der Faktoren Für eine Setzung wie angegeben, schätzen wir die
Funktion Ψ(~ω , ~λ, ~x, ~y ) ab. Dazu behandeln wir die Faktoren einzeln, vergleiche Glei-
41
chung (16) auf Seite 37. Es ist
Ψ2 (~λ, s~x, ~y ) =
=
λ 0 2λ1 !k(1−γ)
λ0
λ1
·
·s
sx0 y0
sx1 y1
k(1−γ)
λ0 λ0 · λ0 2λ1
= λ0 k(1−γ)
k(1−γ)
1
=
,
1 + 2x1 y1
wobei wir im jedem Schritt die Eigenschaften der Setzung verwenden. Eine wichtige
Vereinfachung ist, dass das s und das ~λ nicht mehr direkt auftreten. Ihre Werte
werden jetzt implizit durch die Setzung x1 y1 = λλ10 bestimmt.
Für den Faktor Ψ3 (~y ) erhalten wir:
1−γ
1
k
k
· (1 + 2y1 ) + 2(1 − y1 )
Ψ3 (~y ) =
3
Hier verwenden wir folgende Rechnung: 1 + ry1 + r2 y1 = 1 − y1 , denn
√
1
3
2πı
ı
=− +
r = exp
3
2
2
und r2 ist konjugiert dazu. Also fallen die komplexen Zahlen in diesem Fall weg. Da
1 − γ ≤ 1 und (1 + 2y1 )k ≥ 1 sowie 2(1 − y1 )k ≥ 0 sind, gilt nach Lemma 45 im
Anhang:
3γ Ψ3 (~y ) ≤
· (1 + 2y1 )k(1−γ) + 2(1 − y1 )k(1−γ)
3
Schließlich noch der erste Faktor
ω ω ω
1
q(sx0 ) 0
q(sx1 ) 1
q(sx1 ) 2
Ψ1 (~ω , s~x) =
·
·
·
ω0
ω1
ω2
q(s)
q(sx0 ) + q(sx1 ) + q(sx1 )
≤
q(s)
2q(sx1 )
= 1+
q(s)
unter Verwendung der verallgemeinerten AGM-Ungleichung. Unter unserer Setzung
haben wir also
Q
2q(sx1 )
1
~
Ψ(~ω , λ, s~x, ~y ) ≤
1+
·
q(s)
1 + 2x1 y1
γ
3
· (1 + 2y1 )Q + 2(1 − y1 )Q ,
·
3
42
wobei wir k(1 − γ) = Q(s) = Q schreiben. Wir definieren noch
2q(sx)
:= 1 +
q(s) Q
1
OPT2 (x, y) :=
1 + 2xy
OPT1 (x)
(17)
OPT3 (y)
:= (1 + 2y)Q + 2(1 − y)Q
OPT(x, y)
:= OPT1 (x) · OPT2 (x, y) · OPT3 (y) ,
dann ist
3γ
Ψ(~ω , ~λ, s~x, ~y ) ≤ OPT(x, y).
3
Insbesondere folgt aus OPT(x, y) ≤ 3(1 − η), dass Ψ(~ω , ~λ, s~x, ~y ) ≤ 3γ (1 − η) ist. Wir
formulieren nun das Hauptlemma dieses Abschnittes.
Hauptlemma 25
1. Für λ0 ≥ λ1 = λ2 nicht nahe an
mit xy = λλ01 , so dass gilt:
1 1 1
, ,
3 3 3
oder (1, 0, 0) gibt es 0 ≤ x, y ≤ 1
OPT(x, y) ≤ 3(1 − η)
2. Ist ~λ nahe an (1, 0, 0), dann ist OPT(x, y) ≤ 3, wobei xy =
beide gegen 0 gehen.
λ1
λ0
und x, y
Zu zeigen ist, dass es für jedes λλ01 Werte x, y mit xy = λλ01 gibt, so dass OPT(x, y) die
Behauptung erfüllt. Man beachte, dass λλ01 jeden Wert zwischen 0 und 1 annehmen
kann.
Korollar Satz 22 gilt für λ0 > λ1 = λ2 nicht nahe an
1 1 1
, ,
3 3 3
.
Beweis. Für λ0 > λ1 = λ2 nicht nahe an 31 , 31 , 31 oder (1, 0, 0) folgt Satz 22 direkt
aus dem Lemma. Für ~λ nahe an (1, 0, 0) folgt Satz 22 aus dem zweiten Punkt des
Lemmas, wie die folgende Rechnung zeigt.
43
Es ist
Ψ ω
~ , ~λ, s(1, x, x), (1, y, y)
1−γ
3γ
≤ OPT1 (x) · OPT2 (x, y) ·
(1 + 2y)k + 2(1 − y)k
{z
}
|3
=Ψ3 (y)
3γ
(1 + 2y)k(1−γ) + 2(1 − y)k(1−γ) −ε
≤ OPT1 (x) · OPT2 (x, y) ·
{z
}
3 |
=OPT3 (y)
da y klein ist, also kein Summand gegen 0 geht. Damit ist der letzte Ausdruck
3γ
3γ
· OPT(x, y) −
· OPT1 (x) · OPT2 (x, y) · ε
3
3
3γ
· OPT1 (x) · OPT2 (x, y) · ε
≤ 3γ −
3
=
nach Punkt zwei im Lemma. Es ist OPT1 (x) ≥ 1, OPT2 (x, y) ≥ ( 31 )Q , also wird von
3γ immer etwas Konstantes abgezogen. Also folgt
Ψ ω
~ , ~λ, s(1, x, x), (1, y, y) ≤ 3γ (1 − η)
und Satz 22 für diesen Fall.
44
3.1
Ein erster Eindruck von OPT(x, y)
An diesem Punkt stellt sich die Frage, ob das Hauptlemma 25 überhaupt gelten
kann. Daher wollen wir uns zunächst einen Überblick über die Funktion OPT(x, y)
verschaffen. Das ungefähre aussehen von OPT(x, y) ist in Abbildung 2 skizziert.
Tragen wir die Werte über der xy-Ebene auf, so ergibt sich ein zusammenhängender
Bereich, in dem die Funktionswerte < 3 sind. Dieser Bereich ist in der Zeichnung
grau hinterlegt. Die Funktionswerte außerhalb der grauen Fläche sind größer als 3.
3Q
3
1
>3
y
=3
<3
3
9
>3
0
x
1
Abbildung 2: Ungefähres Aussehen des Bereichs mit OPT(x, y) < 3
An den Eckpunkten erhalten wir die folgenden Funktionswerte:
OPT(0, 0) = 3, OPT(0, 1) = 3Q , OPT(1, 0) = 3 · 3 = 9 und OPT(1, 1) = 3
Es fällt auf, dass nur der Wert von OPT(0, 1) sehr groß werden kann, wenn Q groß
ist. Die anderen Werte sind durch von Q unabängige Konstanten beschränkt.
Betrachten wir jetzt den Graph von OPT(x, y) für 0 < x, y < 1 genauer. Insbesondere soll hier der Einfluß des Parameters s dargestellt werden. Wir stellen
OPT(x, y) in Abbildung 3 dar, indem wir den Bereich der xy-Ebene einfärben, in
dem OPT(x, y) < 3 gilt. Je dunkler die Farbe, desto näher ist der Funktionswert an
dieser Stelle an 3.
Die Funktionswerte in den Bereichen links oberhalb und rechts unterhalb der eingefärbten Fläche in Abbildung 3 sind > 3 und bleiben im Sinne der Übersichtlichkeit weiß. Den Bildern nach gibt es einen einigermaßen geräumigen Bereich, in dem
OPT(x, y) < 3 ist. Es sieht hier sogar so aus, als ob die Funktion in diesem Bereich
ein eindeutiges Minimum besitzt. Je größer die Anzahl der Variablen pro Gleichung,
also die Konstante k und damit der Parameter s ist, desto schmaler wird dieser
Bereich und das vermutete Minimum wandert in Richtung großer x und kleiner y.
Es bleibt aber immer eine Verbindung durch den Bereich < 3 von x = y = 0 nach
x = y = 1 bestehen.
Halten wir jetzt einmal einige Werte von y fest und betrachten den Schnitt durch
die Funktion entlang dieser Werte. In Abbildung 4 ist zu sehen, dass die Funktion
45
OPT(x,y)
0 < x < 1, 0 < y < 1, s=3
1
OPT(x,y)
0 < x < 1, 0 < y < 1, s=5
1
3
3
2.95
2.9
0.8
0.8
2.9
2.8
y
0.6
y
0.6
2.85
0.4
2.7
0.4
2.8
2.6
0.2
0.2
2.75
0
2.5
2.7
0
0.2
0.4
0.6
0.8
0
1
2.4
0
0.2
0.4
x
OPT(x,y)
1
0.6
0.8
1
x
0 < x < 1, 0 < y < 1, s=10
OPT(x,y)
1
3
0 < x < 1, 0 < y < 1, s=30
3
2.8
2.8
0.8
0.8
2.6
2.6
2.4
y
0.6
y
0.6
2.4
0.4
2.2
0.4
2
2.2
1.8
0.2
0.2
2
1.6
0
1.8
0
0.2
0.4
0.6
0.8
0
1
1.4
0
x
0.2
0.4
0.6
0.8
1
x
Abbildung 3: OPT(x, y) für s = 3 (oben links), s = 5, s = 10 und s = 30
46
OPT(x,y)
0 < x < 1, s=5
3.2
y = 0.05
y = 0.1
y = 0.3
y = 0.6
3.1
OPT(x,y)
3
2.9
2.8
2.7
2.6
2.5
0
0.2
0.4
0.6
0.8
1
x
Abbildung 4: Schnitte durch OPT(x, y) bei konstantem y und s = 5
bei konstantem y = c ein Minimum in x besitzt. Sei das Minimum bei x = x0 . Man
sieht, dass für 0 < x < x0 die Funktion fällt und für x0 < x < 1 wieder steigt.
Die genaue Position und auch der Funktionswert des Minimums läßt sich nicht so
einfach bestimmen. Das werden wir weiteren Verlauf noch sehen.
Ein ähnliches Bild ergibt sich, wenn wir einzelne Werte für x festhalten und y laufen
lassen. Dies ist in Abbildung 5 zu sehen.
Noch eine Bemerkung: Die Schnitte durch OPT(x, y) in x- bzw. y-Richtung sind
nicht unbedingt konvex, auch wenn das auf manchen Bildern so aussieht.
Zusammengefaßt halten wir fest: Die Bilder zeigen anschaulich, dass das Hauptlemma gelten sollte. Da der Bereich der Werte x, y mit OPT(x, y) < 3 zusammenhängt
und x = y = 0, x = y = 1 enthält, findet sich für jedes λλ01 eine Darstellung xy = λλ01 ,
so dass OPT(x, y) < 3 ist. Das Problem ist der analytische Nachweis. Auch ist zu
berücksichtigen, dass die Funktion parametrisiert in k, γ ist und für alle k, γ gelten muß. Man beachte, dass sich k, γ in dem Parameter s von Q(s) = k(1 − γ)
widerspiegeln.
47
OPT(x,y)
0 < y < 1, s=5
3.2
x=0.2
x=0.4
x=0.8
x=0.95
3.1
OPT(x,y)
3
2.9
2.8
2.7
2.6
2.5
0
0.2
0.4
0.6
0.8
1
y
Abbildung 5: Schnitte durch OPT(x, y) bei konstantem x und s = 5
3.1.1
Ein Schnitt durch OPT(x, y) parallel zur x-Achse
Die beiden letzten Beobachtungen können analytisch gezeigt werden, auch wenn
wir dadurch noch keine Schranke an die Werte von OPT(x, y) erhalten. Betrachten
wir zunächst den Schnitt durch OPT(x, y) mit festgehaltenem y und zeigen den
folgenden Satz.
Satz 26 Sei 0 < y < 1 fest und 0 ≤ x ≤ 1 variabel, dann gibt es einen Wert x0 mit
der folgenden Eigenschaft.
1. Für alle 0 ≤ x < x0 ist
∂OPT(x,y)
∂x
∂OPT(x,y)
∂x
= 0 und
2. für x = x0 ist
3. für alle 1 ≥ x > x0 ist
∂OPT(x,y)
∂x
< 0,
> 0.
Der Satz besagt, dass bei x0 ein Minimum existiert. Er sagt aber nichts über den
Funktionswert an dieser Stelle aus. Könnten wir zeigen, dass OPT(x0 , y) < 3 für
jedes y, wären wir fast fertig.
Beweis von Satz 26. Da wir hier nur am Vorzeichen der partiellen Ableitung
interessiert sind, können wir auch die entsprechende partielle Ableitung der Funktion
48
ln OPT(x, y) betrachten, um die Rechnung zu vereinfachen. Durch den Logarithmus
wird das Vorzeichen der Ableitung nicht verändert, da
∂ ln OPT(x, y)
∂OPT(x, y)
1
=
·
∂x
∂x
OPT(x, y)
und OPT(x, y) > 0 ist. Die Funktion ln OPT(x, y) läßt sich vorteilhaft umschreiben.
ln OPT(x, y) =
ln 1 + 2q(xs)
− Q ln (1 + 2xy) + ln (1 + 2y)Q + 2(1 − y)Q
q(s)
(18)
Wir interessieren uns dafür, wann die partielle Ableitung dieser Funktion größer,
kleiner beziehungsweise gleich Null ist. Für die partielle Ableitung erhalten wir so
die folgende Ungleichung.
2sq ′ (xs)
2y
∂ ln OPT(x, y)
q(s)
=
S 0
−
Q
∂x
1 + 2xy
1 + 2q(xs)
q(s)
mit q ′ (xs) = exp(xs) − 1
Da der Summand, der von OPT3 (y) herrührt, nicht von x abhängt, spielt dieser in
der Ableitung keine Rolle. Wir sind nur an S 0 interessiert, daher können wir noch
durch 2Q > 0 teilen und erhalten dann die folgende recht übersichtlich aussehende
Ungleichung. Man beachte das Verschwinden des Faktors s und den Ersatz von q(s)
′ (s)
durch q ′ (s) im Zähler des ersten Bruches, da Q = s·qq(s)
.
1
q ′ (xs)
q ′ (s)
+ 2q(xs)
q(s)
−
y
S 0
1 + 2xy
Diese Ungleichung lösen wir nach y auf. Wir bringen alle Terme mit y auf die
rechte Seite, klammern y aus und teilen dann entsprechend. Dazu brauchen wir,
> 0 und 1 + 2xy > 0 sind. Dies ist unter unserer Setzung gegeben.
dass 1 + 2q(xs)
q(s)
′
Außerdem muss noch 1 + 2q(xs)
− x 2qq′(xs)
> 0 sein. Das folgt aus Lemma 44 im
q(s)
(s)
Anhang. Die Umformung liefert die folgende Ungleichung:
∂OPT(x, y)
S 0
∂x
⇐⇒
1+
|
q ′ (xs)
q ′ (s)
′
2q(xs)
− x 2qq′(xs)
q(s)
(s)
{z
:=Y (x)
S y
(19)
}
Die linke Seite fassen wir als Funktion in x auf und schreiben Y (x) dafür. Betrachten wir den Graph der Funktion Y (x) in Abbildung 6, dann sehen wir, dass diese
Funktion streng monoton wachsend ist. Dies zeigen wir in Lemma 46 im Anhang.
Zusammen mit der Beobachtung, dass Y (0) = 0 und Y (1) = 1 ist, sowie dass
0 ≤ Y (x) ≤ 1 ist, folgt mit der Monotonität von Y (x) direkt der Satz 26, da
0 < y < 1 fest ist.
49
Y(x)
0 < x < 1, s=5
1
0.8
Y(x)
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
x
Abbildung 6: Graph der Funktion Y (x) für s = 5.
OPT(x,Y(x))
0 < x < 1, s=5
3.1
3
OPT(x,Y(x)
2.9
2.8
2.7
2.6
2.5
2.4
0
0.2
0.4
0.6
0.8
1
x
Abbildung 7: Graph von OPT(x, Y (x)) für s = 5.
50
Wir betrachten nun den Graph der Funktion OPT(x, Y (x)) in Abbildung 7. Das
bringt uns zu einer leider erfolglosen
Beweisidee für Lemma 25. Wir haben gesehen, dass
∂ ln OPT(x, y) = 0
∂x
⇐⇒
x = Y −1 (y),
was x eindeutig definiert. Der in Abbildung 7 dargestellte Graph von OPT(x, Y (x))
ist äquivalent zum Graph von OPT(Y −1 (y), y), da Y (x) auf 0 ≤ x ≤ 1 bijektiv und
Y (0) = 0, Y (1) = 1 ist. Dem Bild nach ist der Wert von OPT(Y −1 (y), y) < 3 für alle
0 ≤ y ≤ 1. Die Funktion Y (x) kennen wir, Y −1 existiert und ist eindeutig bestimmt,
aber läßt sich nicht ohne weiteres angeben. Naheliegend ist jetzt der Versuch, etwas
über OPT(x, Y (x)) zu zeigen. Zum Beispiel, dass die Funktion nur ein Minimum
besitzt.
Es ist OPT(0, Y (0)) = 3 und OPT(1, Y (1)) = 3. Wir setzen y = Y (x) ein und
schreiben y ′ = dYdx(x) für die innere Ableitung. Es gilt dann für OPT(x, Y (x)):
⇐⇒
⇐⇒
2sq ′ (xs)
q(s)
1 + 2q(xs)
q(s)
1
d
ln OPT(x, Y (x)) S 0
dx
− 2Q
2q ′ (xs)
q ′ (s)
+ 2q(xs)
q(s)
(1 + 2y)Q−1 − (1 − y)Q−1
y + xy ′
+ 2Qy ′
S 0
1 + 2xy
(1 + 2y)Q + 2(1 − y)Q
y
−
1 + 2xy
+y
′
!
(1 + 2y)Q−1 − (1 − y)Q−1
x
−
Q
Q
(1 + 2y) + 2(1 − y)
1 + 2xy
S 0.
Die Ableitung y ′ ist positiv und der Summand in der ersten Klammer ist nach Wahl
von y = Y (x) gleich 0. Also ist die Ungleichung äquivalent zu
⇐⇒
(1 + 2y)Q−1 − (1 − y)Q−1
x
−
Q
Q
(1 + 2y) + 2(1 − y)
1 + 2xy
S 0
(1 + 2y)Q−1 − (1 − y)Q−1
S x.
(1 + 2y)Q−1 + 2(1 − y)Q−1
Die Rechnung für den letzten Schritt liefert Lemma 47 aus dem Anhang. An dieser
Stelle müßten wir jetzt zeigen, dass für diese Ungleichung eine Aussage analog zu
Satz 26 gilt. Dies würde bedeuten, dass OPT(x, Y (x)) nur ein einziges Minimum
mit Wert < 3 besäße.
51
In dieser Form sieht die Ungleichung zunächst nicht besonders schwierig aus. Man
beachte aber, dass (im Gegensatz zu vorher) beide Seiten von x abhängen, also
variabel sind. Außerdem verbirgt sich hinter dem y auf der linken Seite die Funktion
Y (x), was die analytische Behandlung erheblich verkompliziert. Die Ungleichung
läßt sich auch als
Q−1
1−x
1−y
S
1 + 2x
1 + 2y
schreiben, was aber auch schwierig zu behandeln ist.
Auch wenn dieses Vorgehen nicht direkt zum Erfolg geführt hat, wird sich die Erkenntnis aus Satz 26 im weiteren Verlauf noch als nützlich erweisen. Wir sehen
uns deshalb im folgenden Abschnitt ebenfalls den Schnitt durch OPT(x, y) in der
anderen Richtung an.
3.1.2
Ein Schnitt durch OPT(x, y) parallel zur y-Achse
Ein ähnliches Bild wie im vorangegangenen Abschnitt ergibt sich, wenn wir einen
Wert für x festhalten und y laufen lassen. Auch hier haben die Schnitte die im
vorigen Abschnitt beschriebene Form. Das besagt der folgende Satz.
Satz 27 Sei 0 < x < 1 fest und 0 ≤ y ≤ 1 variabel, dann es einen Wert y0 mit der
folgenden Eigenschaft.
1. Für alle 0 < y < y0 ist
∂OPT(x,y)
∂y
∂OPT(x,y)
∂y
= 0 und
2. für y = y0 ist
3. für alle 1 > y > y0 ist
∂OPT(x,y)
∂y
< 0,
> 0.
Beweis von Satz 27 Wir betrachten wieder die Funktion ln OPT(x, y) und bilden
diesmal die partielle Ableitung von Gleichung (18) nach y.
2q(xs)
− Q ln (1 + 2xy) + ln (1 + 2y)Q + 2(1 − y)Q
ln OPT(x, y) = ln 1 +
q(s)
∂ ln OPT(x, y)
∂y
2x
(1 + 2y)Q−1 − (1 − y)Q−1
+ 2Q
S 0
1 + 2xy
(1 + 2y)Q + 2(1 − y)Q
2x
(1 + 2y)Q−1 − (1 − y)Q−1
S Q
⇐⇒ 2Q
Q
Q
(1 + 2y) + 2(1 − y)
1 + 2xy
=
−Q
52
X(y)
0 < y < 1, s=5
1
0.8
X(y)
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
y
Abbildung 8: Graph der Funktion X(y) für s = 5.
Wir teilen wieder durch 2Q und Lemma 47 im Anhang mit C = 1 liefert die folgende
Ungleichung:
(1 + 2y)Q−1 − (1 − y)Q−1
Sx
(20)
(1 + 2y)Q−1 + 2(1 − y)Q−1
{z
}
|
:=X(y)
Die linke Seite fassen wir als Funktion in y auf und bezeichnen diese mit X(y). Bemerkenswert ist hier noch, dass die im Zähler und Nenner auftretenden Exponenten
jetzt gleich sind.
Betrachten wir den Graph der Funktion X(y) im Abbildung 8, so sehen wir, dass die
Funktion alle Werte zwischen X(0) = 0 und X(1) = 1 annimmt. Satz 27 folgt dann
daraus, dass X(y) streng monoton wachsend ist. Das zeigt Lemma 49 im Anhang.
Auch die Funktion X(y) können wir wieder an Stelle von x in OPT(x, y) einsetzen.
Der zugehörige Graph ist in Abbildung 9 dargestellt. Wir erhalten wieder die Werte
OPT(X(0), 0) = OPT(0, 0) = 3 sowie OPT(X(1), 1) = OPT(1, 1) = 3 und ein
Minimum mit Wert < 3. Auch hier ergibt sich die erfolglose Beweisidee wie oben.
53
OPT(X(y),y)
0 < y < 1, s=5
3.1
3
OPT(X(y),y)
2.9
2.8
2.7
2.6
2.5
2.4
0
0.2
0.4
0.6
0.8
1
y
Abbildung 9: Graph von OPT(X(y), y) für s = 5.
3.2
Beweis des Hauptlemmas
Da wir in den beiden vorangegangen Abschnitten einsehen mußten, dass wir das
Lemma nicht in einem Zug“ zeigen können, zerlegen wir die zu erfassenden λλ10 in
”
Teilstücke. Zunächst noch einmal das Lemma, das wir hier beweisen wollen.
Hauptlemma 25 (Wiederholung)
1. Für λ0 ≥ λ1 = λ2 nicht nahe an 31 , 13 , 31 oder (1, 0, 0) gibt es 0 ≤ x, y ≤ 1 mit
xy = λλ10 , so dass gilt:
OPT(x, y) ≤ 3(1 − η)
2. Ist ~λ nahe an (1, 0, 0), dann ist OPT(x, y) ≤ 3, wobei xy =
beide gegen 0 gehen.
λ1
λ0
und x, y mit
λ1
λ0
Wir werden uns entlang des Weges in Abbildung 10 durch den Bereich, in dem die
Werte von OPT(x, y) < 3 sind, bewegen.
Die Sätze 26 und 27 versetzen uns in eine günstige Situation. Immer gilt:
1. Gehen wir für ein festes y von links nach rechts, das heißt in steigender xRichtung, so ist der maximale Wert von OPT(x, y) am rechten oder linken
Rand.
2. Analog für festes x und variables y, vergleiche Abbildungen 4 und 5.
54
OPT(x,y)
0 < x < 1, 0 < y < 1, s=5
OPT(x,y)
0.8
0.8
0.6
0.6
0 < x < 1, 0 < y < 1, s=10
y
1
y
1
0.4
0.4
0.2
0.2
0
0
0
0.2
0.4
0.6
0.8
1
0
0.2
0.4
x
0.6
0.8
1
x
Abbildung 10: Weg durch den Bereich mit OPT(x, y) < 3 für s = 5 und s = 10.
Die meisten
λ1
λ0
können auf diese Art behandelt werden.
Lemma 28 An folgenden Punkten gilt OPT(x, y) < 3 für s ≥ 9.
1. x = 21 ,
y=
1
4Q
( λλ01 = xy =
2. x = 21 ,
y=
1
2Q
( λλ01 =
1
)
4Q
3. x = 1 − Q1 , y =
1
2Q
( λλ01 =
1
2Q
1
2
( λλ01 =
1
2
4. x = 1 − Q1 , y =
Korollar Hauptlemma 25 gilt für
1
8Q
≤
λ1
λ0
≤
1
2
−
−
−
1
)
8Q
1
)
2Q2
1
)
2Q
1
.
2Q
Beweis. Da es sich im Lemma 28 um endlich viele Punkte handelt, ist OPT(x, y) ≤
3(1 − η) für ein η > 0. Wegen 1. und 2. im Lemma und Satz 27 sind die Werte
1
1
OPT( 12 , y) ≤ 3(1 − η) für 4Q
≤ y ≤ 2Q
. Ist also
λ1
1
1
≤
,
≤
8Q
λ0
4Q
1
1
so ist y = 2 λλ10 und 4Q
≤ y ≤ 2Q
, x = 21 . Und Lemma 25 gilt für diese λλ01 . Zwischen
Punkten mit konstantem y und variablem x verwenden wir Satz 26. So machen wir
mit den restlichen Punkten weiter bis zum Ende.
Wir beweisen nun noch Lemma 28 selbst. Dazu setzen wir die Punkte in OPT(x, y)
ein und schätzen die Werte für die einzelnen Faktoren ab.
55
Beweis von Lemma 28. Betrachten wir zunächst x = 12 , x = 1− Q1 und OPT1 (x).
Es ist nach Lemma 44
exp(xs)
OPT1 (x) ≤ 1 + 2
.
exp(s)
Also ist
s
2 exp( 2s )
1
= 1 + 2 exp −
≤1+
OPT1
2
exp(s)
2
und da exp(− 2s ) monoton fallend in s ist, gilt
OPT1 ( 12 ) ≤ 1, 165
für s ≥ 5.
Ebenso ist
OPT1
1
1−
Q
2 exp s − Qs
s
≤ 1+
= 1 + 2 exp −
exp(s)
Q
s
= 1 + 2 exp − 1 − ′
q (s)
s
= 1 + 2 exp(−1) · exp ′
q (s)
und da exp( q′ s(s) ) monoton fallend in s ist, gilt
OPT1
Für y =
1
,
4Q
y=
1
2Q
1
1−
Q
≤ 1, 762
für s ≥ 5,
≤ 1, 737
für s ≥ 9.
und OPT3 (y) gilt
OPT3
1
4Q
=
≤
OPT3
1
2Q
=
≤
Q
Q
2
1
1+
+2 1−
4Q
4Q
1
1
+ 2 exp −
≤ 3, 207
exp
2
4
Q
Q
2
1
1+
+2 1−
2Q
2Q
1
exp(1) + 2 exp −
≤ 3, 932
2
56
Für OPT2 (x, y) gilt
OPT2
OPT2
OPT2
1 1
,
2 4Q
1 1
,
2 2Q
1 1
1− ,
Q 2Q
=
1
1
1 + 4Q
=
1
1
1 + 2Q
=
!Q
!Q
1
1+
1
Q
−
1
Q2
≤ 0, 784
für s ≥ 5
≤ 0, 621
für s ≥ 5
!Q
≤ 0, 429
für s ≥ 9,
1 −Q
1 −Q
) , (1 + 2Q
) , (1 + Q1 − Q12 )−Q monoton fallend in Q
da die Funktionen (1 + 4Q
sind. Damit haben wir die ersten drei Punkte für s ≥ 9 gezeigt.
1 1
OPT ,
≤ 1, 165 · 0, 784 · 3, 207 ≤ 2, 930
2 4Q
1 1
OPT ,
≤ 1, 165 · 0, 621 · 3, 932 ≤ 2, 845
2 2Q
1 1
OPT 1 − ,
≤ 1, 737 · 0, 429 · 3, 932 ≤ 2, 931
Q 2Q
Für den letzten Punkt mit x = 1− Q1 , y =
gemeinsam. Es ist
OPT2
1
1−
Q
1
2
betrachten wir OPT2 (x, y) und OPT3 (y)
!Q
!Q
1
2
2
+2
1 + 1 − Q1
1 + 1 − Q1
!Q
!Q
1
1
+2
1
1
)
1 − 2Q
4(1 − 2Q
1
· OPT3
=
2
=
≤ 1, 692 + 0, 003 = 1, 695
für s ≥ 5, da die beiden Summanden monoton fallend in Q sind. Damit haben wir
den letzten Punkt
1 1
≤ 1, 762 · 1, 695 ≤ 2, 987
OPT 1 − ,
Q 2Q
für s ≥ 5 von Lemma 28 gezeigt.
Ganz kleine λλ10 können wir nicht wie eben betrachten, da der Bereich, in dem
OPT(x, y) < 3 ist, immer schmaler wird und sich die Situation bei großeren s
noch verschärft. Stattdessen nehmen wir für diese Werte eine Gerade Y (x) mit sehr
57
geringer Steigung, die an x = y = 0 beginnt und dafür sorgt, dass die Werte von
OPT(x, Y (x)) monoton fallend sind. Da OPT(0, 0) = 3 bekommen wir so in einem
gewissen Bereich Werte < 3 für OPT(x, Y (x)). Das besagt das nächste Lemma.
Lemma 29 Sei y = Y (x) = Q1 · x. Die Funktion OPT(x, Y (x)) ist streng monoton
fallend in 0 < x ≤ 41 für alle s ≥ 6.
Korollar Hauptlemma 25 gilt für 0 ≤
λ1
λ0
≤
1
.
8Q
1
. Die Funktion x · Y (x) = Q1 · x2 steigt monoton, stetig
Beweis. Sei 0 ≤ λλ01 ≤ 16Q
1
von 0 nach 16Q
für 0 ≤ x ≤ 41 . Also gibt es ein x, so dass x · Y (x) = λλ10 .
Ist ~λ = (λ0 , λ1 , λ2 ) nicht nahe an (1, 0, 0), das heißt λλ01 > δ, dann ist das x >
δ. Da OPT(x, Y (x)) streng monoton fallend und OPT(0, 0) = 3 ist, ist damit
OPT(x, Y (x)) ≤ 3(1 − η).
1
Der Endpunkt der Gerade ist x = 14 , y = 4Q
. Also folgt die Behauptung für
λ1
1
≤ 8Q mit Satz 26 und dem ersten Punkt von Lemma 28.
λ0
1
16Q
≤
Analog können wir die λλ10 , die sich 1 annähern, behandeln. Dazu betrachten wir eine
sehr steile Gerade Y (x) mit Y (1) = 1. Es ist OPT(1, 1) = 3.
Lemma 30 Sei y = Y (x) = 2Q·x−2Q+1. Dann ist OPT(x, Y (x)) streng monoton
1
steigend in 1 − 4Q
≤ x ≤ 1 für alle s ≥ 6.
Zur Gerade Y (x): Es ist Y (1 −
verläuft also wirklich sehr steil.
1
)
4Q
Korollar Hauptlemma 25 gilt für
δ > 0.
=
1
2
1
2
−
und Y (1 −
1
2Q
≤
λ1
λ0
1
)
2Q
= 0, Y (1) = 1. Die Gerade
≤ 1 − δ. Für ein beliebig kleines
1
1
= 12 · (1 − 4Q
) ≤ λλ10 ≤ 1 − δ. Die Funktion x · Y (x) ist eine nach
Beweis. Sei 21 − 8Q
1
1
oben geöffnete Parabel mit den Nullstellen x = 0 und x = 1− 2Q
. Für 1− 4Q
≤x≤1
1
1
steigt x · Y (x) monoton und stetig von 2 − 8Q nach 1 an. Also gibt es ein x, so dass
x · Y (x) = λλ01 .
Ist ~λ nicht nahe an 31 , 31 , 13 , das heißt λλ10 = 1, dann ist das x < 1. Und da
OPT(x, Y (x)) monoton steigend mit OPT(1, 1) = 3 ist, ist damit OPT(x, Y (x)) ≤
3(1 − η).
58
1
Für 21 − 2Q
= 12 · (1 − Q1 ) ≤
28 und Satz 26.
λ1
λ0
≤
1
2
1
− 8Q
folgt es aus dem letzten Punkt von Lemma
Jetzt sind noch die beiden vorangegangen Lemmas zu beweisen. Wir beginnen mit
Lemma 29.
Beweis von Lemma 29. Wir betrachten die Funktion OPT(x) := OPT(x, Y (x)).
Die Ableitung von y = Y (x) ist y ′ = Q1 . Wir zeigen, dass die Ableitung von OPT(x)
negativ ist. Wie im Beweis von Satz 26 ist es dazu ausreichend, die Ableitung von
ln OPT(x) zu betrachten.
sq ′ (xs)
2 q(s)
(1 + 2y)Q−1 − (1 − y)Q−1
y + x · y′
d ln OPT(x)
′
=
+ y · 2Q
− 2Q
dx
1 + 2xy
(1 + 2y)Q + 2(1 − y)Q
1 + 2 q(xs)
q(s)
Wir teilen durch 2Q und da 2Q = 2
⇐⇒
s · q ′ (s)
1
sowie x · y ′ = y = · x gilt:
q(s)
Q
d ln OPT(x)
< 0
dx
1
q ′ (xs)
q ′ (s)
+ 2 q(xs)
q(s)
−
2·
1
Q
·x
1 + 2xy
+
1 (1 + 2y)Q−1 − (1 − y)Q−1
·
< 0
Q
(1 + 2y)Q + 2(1 − y)Q
Wir kürzen die Terme bestehend aus q und q ′ folgendermaßen ab:
K=
q ′ (xs)
q ′ (s)
und L =
q(xs)
q(s)
Der erste und der dritte Summand sind positiv, der zweite ist negativ. Für x = 0
ist der gesamte Ausdruck gleich Null. Um die Rechnungen möglichst einfach zu
halten, erscheint es nötig, die Summe in zwei Teile aufzuspalten. Die beiden Teile
weisen wir getrennt als negativ nach. Mit viel Voraussicht spalten wir den negativen
Summanden in
6
4
· 1 ·x
· 1 ·x
5 Q
5 Q
und
.
1 + 2xy
1 + 2xy
Wir zeigen jetzt
(a)
4
· 1 ·x
K
5 Q
<
1 + 2L
1 + 2xy
6
· 1 ·x
1 (1 + 2y)Q−1 − (1 − y)Q−1
5 Q
(b)
·
.
<
Q
(1 + 2y)Q + 2(1 − y)Q
1 + 2xy
59
und
Beweis von (a). Indem wir auf der linken Seite L durch Kx < L ersetzen, siehe
Lemma 44, vergrößern wir die linke Seite. Setzen wir auf der rechten Seite y = Qx
ein, so folgt (a) aus:
⇐⇒
⇐⇒
⇐⇒
4
x
K
5Q
<
1 + 2Kx
1 + Q2 x2
2
4
4
K + Kx2 −
· 2Kx2 <
x
Q
5Q
5Q
4
4
QK + 2Kx2 − · 2Kx2 < x
5
5
2
4
2
QK + Kx < x
5
5
Da K ≤ 1 und x2 < x für x <
1
4
ist, folgt die vorherige Ungleichung aus
2
4
QK + x < x
5
5
⇐⇒
QK <
2
x.
5
Für x = 0 sind beide Seiten gleich Null. Und da K monoton steigend und konvex ist,
reicht es aus, die Ungleichung für x = 14 zu zeigen. Nach Lemma 44 ist K ≤ exp(xs)
exp(s)
und nach Lemma 18 Punkt vier gilt Q ≤ s + 1. Also folgt die Ungleichung aus
exp( 14 s)
1
<
(s + 1) ·
exp(s)
10
⇐⇒
1
s+1
<
.
3
10
exp( 4 s)
Die letzte Ungleichung gilt für s ≥ 6 (mit 0, 0778 < 0, 1), da die linke Seite monoton
fallend ist.
Beweis von (b). Wir multiplizieren (b) mit Q. Nach Lemma 47 im Anhang (mit
C = 65 ) ist (b) äquivalent zu
2
(1 + 2y)Q−1 − (1 − y)Q−1
6
1 − xy ·
<
x.
Q−1
Q−1
5
(1 + 2y)
+ 2(1 − y)
5
Die linke Seite wird größer, wenn wir den Faktor − 25 xy weglassen. Also folgt (b) aus
(1 + 2y)Q−1 − (1 − y)Q−1
6
< x.
Q−1
Q−1
(1 + 2y)
+ 2(1 − y)
5
Für x = 0 sind die beiden Seiten gleich Null. Wir zeigen, dass die Ableitung der
60
linken Seite nach x kleiner als
d
dx
6
5
ist. Nach Lemma 48 im Anhang gilt:
(1 + 2y)Q−1 − (1 − y)Q−1
(1 + 2y)Q−1 + 2(1 − y)Q−1
′
= (Q − 1) · y ·
9 (1 + 2y)(1 − y)
Q−2
(1 + 2y)Q−1 + 2(1 − y)Q−1
Q−2
9 (1 + 2y)(1 − y)
Q−1
=
·
2
Q
(1 + 2y)Q−1 + 2(1 − y)Q−1
2
!
<
6
5
Wir vergrößern die linke Seite: Q−1
wird zu 1. Es ist (1 + 2y)(1 − y) ≥ 1 für y ≤ 12 ,
Q
wir vergrößern den Exponenten von (1 + 2y)(1 − y) auf Q − 1. Dann folgt (b) aus
Q−1
2
6
9 (1 + 2y)(1 − y)
<
(1 + 2y)Q−1 + 2(1 − y)Q−1 .
5
Wir schreiben (1 + 2y)Q−1 = A und (1 − y)Q−1 = B,
Ungleichung oben ist dann äquivalent zu
A und B sind > 0. Die
6 2
A + 4AB + 4B 2
5
15
⇐⇒ 0 < A2 + 4AB + 4B 2 − AB
2
1
⇐⇒ 0 < A2 − 4AB + 4B 2 + AB
2
1
2
⇐⇒ 0 < (A − 2B) + AB
2
und die letzte Ungleichung gilt.
9AB <
Beweis von Lemma 30. Wir betrachten die Funktion OPT(x) = OPT(x, Y (x)).
Die Ableitung von y = Y (x) ist y ′ = 2Q. Wir zeigen, dass die Ableitung von OPT(x)
1
für x ≥ 1 − 4Q
positiv ist. Wir gehen wie im Beweis des letzten Lemmas vor.
sq ′ (xs)
2 q(s)
(1 + 2y)Q−1 − (1 − y)Q−1
y + x · y′
d ln OPT(x)
′
=
+ y · 2Q
− 2Q
dx
1 + 2xy
(1 + 2y)Q + 2(1 − y)Q
1 + 2 q(xs)
q(s)
Wir teilen durch 2Q und setzen y ′ = 2Q ein. Es ist zu zeigen, dass dieser Ausdruck
positiv ist.
⇐⇒
d ln OPT(x)
> 0
dx
1
q ′ (xs)
q ′ (s)
+ 2 q(xs)
q(s)
−
y + 2Q · x
(1 + 2y)Q−1 − (1 − y)Q−1
+ 2Q ·
> 0
1 + 2xy
(1 + 2y)Q + 2(1 − y)Q
61
Sei wieder K =
q ′ (xs)
q ′ (s)
und L =
q(xs)
.
q(s)
Dann folgt die letzte Ungleichung aus:
(a)
y
K
>
1 + 2L
1 + 2xy
(b)
(1 + 2y)Q−1 − (1 − y)Q−1
x
>
Q
Q
(1 + 2y) + 2(1 − y)
1 + 2xy
und
(nach Division mit 2Q)
Beweis von (a). Wir verkleinern die linke Seite, indem wir L im Nenner durch
K ≥ L (Satz 44) ersetzen und (a) folgt aus:
y
K
>
1 + 2K
1 + 2xy
⇐⇒ K + 2Kxy − 2Ky > y
⇐⇒ K · (1 + 2xy − 2y) − y > 0
Die linke Seite ist für x = 1, das heißt y = 1, gleich 1 · (1 + 2 − 2) − 1 = 0.
1
Wir zeigen: Für 1 > x ≥ 1 − 4Q
, das heißt y ≥ 21 , ist die Ableitung der linken Seite
nach x kleiner 0. Also fällt die linke Seite monoton hin zu 0 und die Ungleichung
gilt.
Wir schreiben f (x) = K(1 + 2xy − 2y), f ′ (x) und f ′′ (x) sind die Ableitungen nach
x. Zu zeigen ist f ′ (x) < 2Q, da y ′ = 2Q. Dazu zeigen wir f ′′ (x) > 0 und f ′ (1) ≤ 2Q.
Das heißt f ′ (x) ist steigend zu 2Q und damit < 2Q.
Zu f ′ (1) < 2Q: Es ist
K′ =
s · exp(xs)
,
exp(s) − 1
f ′ (x) = K ′ · (1 + 2xy − 2y) + K · (2y + 2xy ′ − 2y ′ ).
Setzen wir jetzt x = 1 ein, bekommen wir
s · exp(s)
· 1 + 1 · (2 + 2y ′ − 2y ′ )
exp(s) − 1
1
s · exp(s)
+2=s 1+
+2
=
exp(s) − 1
exp(s) − 1
f ′ (1) =
≤ 1.06 · s + 2 ≤ 2s ≤ 2Q ,
1
1
fällt und 1 + exp(3)−1
≤ 1.06. Die Ungleichung gilt für s ≥ 3 mit s ≤ Q
da 1 + exp(s)−1
aus Lemma 18.
Zu f ′′ (x) > 0 für x ≥ 1 −
1
:
4Q
Es ist
f ′′ (x) = K ′′ · (1 + 2xy − 2y) + 2K ′ · (1 + 2xy − 2y)′ + K · (1 + 2xy − 2y)′′ .
62
Es ist leicht zu sehen, dass K, K ′ und K ′′ größer 0 sind. Ebenso ist
(1 + 2xy − 2y)
(1 + 2xy − 2y)′
= 1 + 2(x − 1) + 4Q(x − 1)2 > 0
= 2 + 8Q(x − 1)
≥ 0
(1 + 2xy − 2y)′′ = 8Q
für x ≥ 1 −
1
,
4Q
> 0
also ist f ′′ (x) ≥ 0.
Beweis von (b). Wir kommen zum Beweis der zweiten Ungleichung oben. Nach
Lemma 47 im Anhang ist (b) äquivalent zu
(1 + 2y)Q−1 − (1 − y)Q−1
> x.
(1 + 2y)Q−1 + 2(1 − y)Q−1
Q−1
Für x = 1 ist die linke Seite gleich 33Q−1 = 1, also sind beide Seiten gleich. Wir
zeigen, dass die Differenz aus der linken und rechten Seite monoton fallend ist. Für
x = 1 ist die Differenz Null.
d
(1 + 2y)Q−1 − (1 − y)Q−1
−x < 0
dx (1 + 2y)Q−1 + 2(1 − y)Q−1
(1 + 2y)Q−1 − (1 − y)Q−1
d
< 1
⇐⇒
dx (1 + 2y)Q−1 + 2(1 − y)Q−1
Die Ungleichung folgt mit Lemma 48 aus
d
dx
(1 + 2y)Q−1 − (1 − y)Q−1
(1 + 2y)Q−1 + 2(1 − y)Q−1
9(Q − 1) (1 + 2y)(1 − y)
Q−2
!
< 1.
= 2Q ·
|{z} (1 + 2y)Q−1 + 2(1 − y)Q−1 2
′
=y
1
Für 1 ≥ x ≥ 1 − 4Q
ist 1 ≥ y = Y (x) ≥ 12 . Da das x nur in Y (x) vorkommt, reicht
es, die vorstehende Ungleichung für 1 ≥ y ≥ 12 zu zeigen. Es ist
0 ≤ 2(1 − y)
Q−1
Q−1
1
≤2
2
und (1 − y)
Q−2
Q−2
1
≤
,
2
da 12 ≤ y ≤ 1. Wir schätzen 2(1 − y)Q−1 im Nenner durch 0 nach unten ab und
(1 − y)Q−2 im Zähler durch ( 12 )Q−2 nach oben. Dann können wir (1 + 2y)Q−2 kürzen
und die Ungleichung folgt aus
Q−2
9(Q − 1) · (1 + 2y) · 12
2Q ·
< 1
2
(1 + 2y)Q−1
Q−2
1
⇐⇒ 18Q(Q − 1)
< (1 + 2y)Q .
2
63
Wir schätzen die Rechte Seite mit 2 ≤ 1 + 2y, da y ≥ 21 , nach unten ab und zeigen
Q−2
1
18Q(Q − 1)
< 2Q
2
⇐⇒ 18Q(Q − 1) < 22Q−2 = 4Q−1 .
Die letzte Ungleichung gilt für s ≥ 6 (mit 559 < 1161).
64
4
Beweis von Satz 22, allgemeiner Fall
Für den Fall λ0 ≥ λ1 ≥ λ2 > 0 verallgemeinern wir das Vorgehen im letzten Abschnitt. Wir setzen in Ψ(~ω , ~λ, ~x, ~y )
~x := s · ~x ,
mit xj · yj =
~y := ~y
λj
λ0
und 0 ≤ xj ≤ 1, 0 ≤ y1 ≤ 2, 0 ≤ y2 ≤ 1.
Beachte: Im Unterschied zum letzten Abschnitt, brauchen die xj , yj selbst nicht mehr
immer ≤ 1 zu sein, auch wenn xj · yj ≤ 1 ist.
Dann ist 1 = x0 y0 ≥ x1 y1 ≥ x2 y2 ≥ 0 und
λ0 + λ1 + λ2
1
=
= x0 y0 + x1 y1 + x2 y2
λ0
λ0
also λ0 =
1
.
x0 y0 + x1 y1 + x2 y2
Damit gilt
λ 0 λ1 λ 2 !Q
λ1
λ2
λ0
·
Ψ2 (~λ, s · ~x, ~y ) =
·
·s
s
x1 sy1
x2 sy2
Q
1
Q
= λ0 =
1 + x1 y1 + x2 y2
Ψ1 (~ω , s · ~x) ≤ 1 +
q(x1 s) q(x2 s)
+
q(s)
q(s)
für x1 , x2 > 0
genau wie vorher. Zur Behandlung von Ψ3 (y0 , y1 , y2 ) = p(y0 , y1 , y2 )1−γ schätzen wir
p(y0 , y1 , y2 ) ganz allgemein ab.
Lemma 31 Es ist für yj ≥ 0
p(y0 , y1 , y2 ) ≤
k 1
(y0 + y1 + y2 )k + 2 y0 2 + y1 2 + y2 2 − y0 y1 − y0 y2 − y1 y2 2 .
3
Beweis. Es ist, da yj ≥ 0, p(y0 , y1 , y2 ) ≥ 0 reellwertig, auch wenn es mit komplexen
Zahlen beschrieben wird. Also ist p(y0 , y1 , y2 ) = |p(y0 , y1 , y2 )|. Für den Betrag gilt
die Dreiecksungleichung
p(y0 , y1 , y2 ) ≤ 1 |y0 + y1 + y2 |k + |y0 + ry1 + r2 y2 |k + |y0 + r2 y1 + ry2 |k
3
√
3
1
=
−
+
ı und in den letzten beiden Summen der komplexe
wobei r = exp 2πı
3
2
2
Betrag gemeint ist.
65
Es ist
√
1
1
3
(y1 − y2 ) ,
y0 + ry1 + r y2 = y0 − y1 − y2 + ı
2
2
2
2
also
2
|y0 + ry1 + r y2 |
2
2
1
1
=
y0 − y1 − y2 + (y1 − y2 )2
2
2
2
2
= y0 + y1 + y2 2 − y0 y1 − y0 y2 − y1 y2 ,
y0 + r2 y1 + ry2 ist konjugiert komplex und hat denselben Betrag, deshalb der Faktor
2.
Also können wir abschätzen:
k 1−γ
1
Ψ3 (1, y1 , y2 ) ≤
(1 + y1 + y2 )k + 2 1 + y1 2 + y2 2 − y1 − y2 − y1 y2 2
3 k(1−γ)
3γ
k(1−γ)
2
2
2
(1 + y1 + y2 )
+ 2 1 + y1 + y2 − y1 − y2 − y1 y2
≤
3
und k(1 − γ) = Q(s) = Q unter Verwendung von Satz 45. Wir kürzen ab:
q(x1 s) q(x2 s)
+
q(s)
q(s)
Q
1
OPT2 (x1 , x2 , y1 , y2 ) :=
1 + x1 y1 + x2 y2
OPT1 (x1 , x2 )
:= 1 +
(21)
:= (1 + y1 + y2 )Q +
OPT3 (y1 , y2 )
Q
2 (1 + y1 2 + y2 2 − y1 − y2 − y1 y2 ) 2
OPT(x1 , x2 , y1 , y2 ) ist das Produkt dieser drei Funktionen. Zusammengefaßt haben
wir die folgende Abschätzung:
3γ
Ψ(~ω , ~λ, s · ~x, ~y ) ≤
· OPT(x1 , x2 , y1 , y2 ) ,
3
wenn ~x, ~y wie oben gewählt sind, also xj yj =
λj
λ0
und λ0 ≥ λ1 ≥ λ2 .
(22)
Sind die λj anders angeordnet, setzen wir xj , yj analog, wobei das größte λj die Rolle
von λ0 einnimmt. Dann gilt die obige Abschätzung ganz analog. Das sieht man für
Ψ1 (~ω , s · ~x) und Ψ2 (~λ, s · ~x, ~y ) direkt. Für Ψ3 (~y ) gilt es, da die Abschätzung des
Polynoms nach Lemma 31 symmetrisch bezüglich der Vertauschung der yj ist. Für
p(y0 , y1 , y2 ) selbst gilt das nicht. Zum Beispiel ist p(1, 0, 0) = 1, aber p(0, 1, 0) kann,
in Anhängigkeit von k, 0 sein. Also beschränken wir uns auf λ0 ≥ λ1 ≥ λ2 > 0.
Bemerkung: Die Zuordnung
(λ0 , λ1 , λ2 ) 7→
x, y
66
=
λ1 λ2
,
λ0 λ0
ist bijektiv für λ0 ≥ λ1 ≥ λ2 > 0,
für unsere Zuordnung oben:
P
λj = 1 und (x, y), 1 ≥ x ≥ y ≥ 0. Das heißt
(x1 · y1 , x2 · y2 ) und (λ0 , λ1 , λ2 )
entsprechen sich bijektiv. Das sieht man leicht, denn zu (x, y) ist
λ0 =
1
,
1+x+y
λ1 =
x
,
1+x+y
λ2 =
das Urbild, denn λλ10 = x, λλ20 = y. Ist zum Beispiel λλ01 =
λ2 = 13 . Ist λλ10 = 1, λλ02 = 21 , dann λ0 = λ1 = 52 , λ2 = 15 .
y
1+x+y
λ2
λ0
Hauptlemma 32 Sei λ0 ≥ λ1 ≥ λ2 ≥ 0 nicht nahe an
= 1, dann λ0 = λ1 =
1 1 1
, ,
3 3 3
1. Ist ~λ auch nicht nahe an (1, 0, 0), dann gibt es xj yj =
1, 0 ≤ y1 ≤ 2, 0 ≤ y2 ≤ 1, so dass
λj
λ0
.
mit 0 ≤ x1 , x2 ≤
OPT(x1 , x2 , y1 , y2 ) ≤ 3(1 − η)
für ein konstantes η > 0.
2. Für ~λ nahe an (1, 0, 0) gibt es xj yj =
λj
λ0
mit 0 ≤ x1 , x2 , y1 , y2 ≤
1
4
und
OPT(x1 , x2 , y1 , y2 ) ≤ 3.
Beweis von Satz 22. Ist λ0 ≥ λ1 ≥ λ2 > 0 dann folgt der Satz direkt aus dem
vorstehenden Lemma mit Gleichung (22). Für andere Anordnungen der λj siehe die
Bemerkung zu Gleichung (22). Für ~λ nahe an (1, 0, 0) argumentieren wir analog zum
Beweis der Korollars zu Hauptlemma 25.
4.1
Vorbereitende Lemmas
Bevor wir zum eigentlichen Beweis kommen, ist es günstig noch einige Vorbetrachtungen anzustellen. Die folgenden Lemmas dienen dazu, die Lücken zwischen den
einzeln betrachteten λ0 im mittleren Bereich zu schließen. Die folgenden Lemmas
arbeiten im Beweis analog zu den Sätzen 26 und 27 in Abschnitt 3. Zusätzlich ist zu
beachten, dass wir jetzt zu einem vorgegebenen λ0 jetzt alle möglichen λ1 , λ2 statt
nur λ1 = λ2 erfassen müssen.
67
Lemma 33 Seien x, y ≥ 0.
1. Es ist OPT(x, x, y + z, y − z) monoton steigend in 0 ≤ z ≤ y.
2. Ist OPT(x, x, 2y, 0) < 3 und 0 < x, y ≤ 1, dann gilt der erste Punkt des
Hauptlemmas für alle
1
.
λ0 ≥ λ1 ≥ λ2 mit λ0 =
1 + 2xy
Beweis. Der ersten Punkt des Lemmas folgt durch einfaches Ausrechnen. Der
Faktor OPT1 (x, x) ist unabhängig von z,
Q
1
OPT2 (x, x, y + z, y − z) =
1 + x · (y + z) + x · (y − z)
Q
1
=
> 0
1 + 2xy
ebenso. Für OPT3 (y + z, y − z) erhalten wir
Q
OPT3 (y + z, y − z) = (1 + 2y) + 2 1 + (y + z)2 + (y − z)2
−(y + z) − (y − z) − (y + z)(y − z)
Q
Q
2
2 2
= (1 + 2y) + 2 (1 − y) + 3z
Q2
und die letzte Funktion steigt in z. Also gilt die Behauptung.
Für den zweiten Punkt des Lemmas nehmen wir x, y her. Nach Punkt 1 ist
OPT(x, x, y + z, y − z) ≤ OPT(x, x, 2y, 0) ≤ 3(1 − η)
für 0 ≤ z ≤ y. Damit gilt der erste Punkt des Hauptlemmas für
λ2
1
λ1
= x(y + z) ,
= x(y − z) und
= 1 + x(y + z) + x(y − z).
λ0
λ0
λ0
Also
1
x(y + z)
x(y − z)
λ0 =
und λ1 =
, λ2 =
.
1 + 2xy
1 + 2xy
1 + 2xy
Da alle 0 ≤ z ≤ y durchlaufen werden, kommen alle Möglichkeiten für λ1 ≥ λ2 vor.
Lemma 34 Ist OPT(x, x, 2y, 0) < 3 und OPT(u, u, 2y, 0) < 3 für ein festes x mit
0 < x < u < 1, 0 < y < 1, dann gilt der erste Punkt des Hauptlemmas für alle
λ0 ≥ λ1 ≥ λ2 mit
1
λ0 =
1 + 2vy
für alle v mit x ≤ v ≤ u.
68
Beweis. Wir gehen analog zum Beweis von Lemma 26 vor. Es ist
2sq ′ (xs)
∂ ln OPT(x, x, 2y, 0)
2y
q(s)
=
.
−Q
2q(xs)
∂x
1 + 2xy
1 + q(s)
Wie im Beweis von Lemma 26 gilt:
∂OPT(x, x, 2y, 0)
S 0
∂x
⇐⇒
1+
q ′ (xs)
q ′ (s)
′
2q(xs)
− x 2qq′(xs)
q(s)
(s)
S y
Die linke Seite ist monoton steigend in x, das folgt aus Lemma 46 im Anhang. Also
ist für x ≤ v ≤ u OPT(v, v, 2y, 0) kleiner oder gleich dem Wert am linken Rand
(v = x) oder am rechten Rand (v = u), also auf jeden Fall kleiner gleich 3(1 − η).
Die Behauptung folgt dann mit Lemma 33.
Lemma 35 Ist OPT(x, x, 2y, 0) < 3 und OPT(x, x, 2u, 0) < 3 für ein festes y mit
0 < y < u < 1, 0 < y < 1, dann gilt der erste Punkt des Hauptlemmas für alle
λ0 ≥ λ1 ≥ λ2 mit
1
λ0 =
1 + 2xv
für alle v mit y ≤ v ≤ u.
Beweis. Wir gehen auch hier analog zum Beweis von Lemma 27 vor. Es ist
∂ ln OPT(x, x, 2y, 0)
∂y
(1 + 2y)Q−1 + (4y − 1) · (1 − y)2 + 3y 2
x
= −2Q
+ 2Q
Q
1 + 2xy
(1 + 2y)Q + 2 (1 − y)2 + 3y 2 2
Q2 −1
,
also gilt
⇐⇒
∂OPT(x, x, 2y, 0)
S 0
∂y
(1 + 2y)Q−1 + (4y − 1) (1 − y)2 + 3y 2
Q
(1 + 2y)Q + 2 (1 − y)2 + 3y 2 2
Q2 −1
−
x
S 0.
1 + 2xy
Mit einer Umformung analog zur Rechnung in Lemma 47 ist die letzte Gleichung
äquivalent zu
(1 + 2y)Q−1 + (4y − 1) (1 − y)2 + 3y 2
(1 + 2y)Q−1 + 2(1 − y) (1 − y)2 + 3y 2
|
{z
:=Xz (y)
69
Q2 −1
Q2 −1 S x
}
(23)
und die linke Seite ist streng monoton steigend in 0 ≤ y ≤ 12 und > 1 für y > 21 . Das
zeigen wir in Lemma 50 im Anhang. Wir schreiben für die linke Seite Xz (y) und
es ist Xz (0) = 0, Xz ( 12 ) = 1 und Xz (1) > 1. Also ist für y ≤ v ≤ u der Wert von
OPT(x, x, 2v, 0) kleiner gleich dem Wert an den Rändern v = y und v = u, also auf
jeden Fall ≤ 3(1 − η) nach Voraussetzung. Die Behauptung folgt dann mit Lemma
33.
4.2
Beweis des Hauptlemmas
Wir kommen nun zum eigentlichen Beweis des Hauptlemmas. Dazu teilen wir analog
zum Vorgehen im Abschnitt 3 die Werte von ~λ in drei Bereiche ein. Das Hauptlemma
folgt dann aus den folgenden drei Lemmas.
Lemma 36 An den folgenden Punkten x, y ist OPT(x, x, 2y, 0) < 3 für s ≥ 9.
1. x = 14 ,
y=
1
4Q
2. x = 12 ,
y=
1
4Q
3. x = 12 ,
y=
1
2Q
4. x = 1 − Q1 ,
y=
1
2Q
entspricht 1 + x1 y1 + x2 y2 =
1
entspricht λ10 = 1 + 4Q
1
entspricht λ10 = 1 + 2Q
entspricht
1
λ0
5. x = 1 − Q1 ,
y=
1
2
entspricht
1
λ0
6. x = 1 −
y=
1
2
entspricht
1
λ0
entspricht
1
λ0
1
,
4Q
1
1
7. x = 1 − 4Q , y = 2 1 +
1
4Q−1
1
λ0
=1+
= 1 + Q1 (1 − Q1 )
= 2 − Q1
1
= 2 − 4Q
=2
Korollar Der erste Punkt des Hauptlemmas gilt für
1
1
1 ≥ λ0 ≥
2
1 + 8Q
und λ0 ≥ λ1 ≥ λ2 ≥ 0.
Beweis. Aus Lemma 34 folgt: Für
1
1
1 ≥ λ0 ≥ 1
1 + 8Q
4Q
gilt (a) des Hauptlemmas wegen Punkt 1. und 2., da es ein
λ0 =
1
1 + 2v ·
70
1
4Q
1
4
≤v≤
1
2
mit
1
8Q
gibt. Aus Lemma 35 folgt: Für
1
1
1 ≥ λ0 ≥
1
1 + 4Q
1 + 2Q
folgt die Behauptung aus den Punkten 2. und 3. des Lemmas. Die restlichen Punkte
bis λ0 = 12 behandeln wir analog.
Lemma 37 Sei y = Y (x) =
1
Q
· x. Für 0 < x ≤
1
4
ist
OPT x + z, x − z, Y (x + z), Y (x − z)
monoton fallend in 0 ≤ z ≤ x.
Hier behandeln wir den Fall ~λ nahe an (1, 0, 0).
Korollar Für λ0 ≥ λ1 ≥ λ2 ≥ 0 mit
1 ≥ λ0 ≥
1
1
1 + 8Q
gilt der zweite Punkt des Hauptlemmas.
Beweis. Es ist
λ1 + λ2 ≤
also
λ1
λ0
+
λ2
λ0
≤
1
.
8Q
1
8Q
1+
1
8Q
und
1
1
,
≤1+
λ0
8Q
Wir suchen jetzt x und z mit 0 ≤ x ≤ 14 , 0 ≤ z ≤ x, so dass
λ1
1
(x + z)2
= (x + z) · Y (x + z) =
λ0
Q
λ2
1
(x − z)2 .
= (x − z) · Y (x − z) =
λ0
Q
Zusammen
mit Lemma 29 aus Abschnitt 3 ist dann OPT x+z, x−z, Y (x+z), Y (x−
z) ≤ 3, da die Funktion monoton fallend in z ist. Es gibt x1 , x2 mit
λ1
1
= x1 2 = x1 · Y (x1 ) ,
λ0
Q
λ2
1
= x2 2 = x2 · Y (x2 ) .
λ0
Q
Wir setzen
x1 + x2
x1 − x2
, z=
.
2
2
Dann ist x + z = x1 und x − z = x2 . Es ist
x=
(2x)2 = (x1 + x2 )2 ≤ 2x1 2 + 2x2 2 ≤ 2 ·
71
1
8
wegen der Voraussetzung an λλ10 , λλ20 . Dann ist 2x ≤ 21 , also ist x ≤ 14 . Beachte, dass
2x1 x2 ≤ x1 2 + x2 2 ⇐⇒ (x1 − x2 )2 ≥ 0. Es ist auch Y (x + z) ≤ Q1 41 + 14 ≤ Q1 · 14 ≤ 41
und Y (x − z) ≤ 14 .
1
≤ x ≤ 1 ist
4Q
Lemma 38 Sei y = Y (x) = 2Q · x − 2Q + 1. Für jedes 1 −
OPT x + z, x − z, Y (x + z), Y (x − z)
für 0 ≤ z ≤ 1 − x streng monoton fallend in z.
Korollar Das Hauptlemma gilt für
1
2
≥ λ0 ≥ 31 .
Beweis. Wir geben x und z an, so dass das Lemma anwendbar ist. Es ist
1
2
≤ λ1 + λ2 ≤
2
3
und 2 ≤
1
λ1 λ2
≤ 3 , also 1 ≤
+
≤2.
λ1
λ0 λ0
1
, 0 ≤ z ≤ 1 − x, so
Wir setzen im folgenden Abschnitt x und z mit 1 ≥ x ≥ 1 − 4Q
dass
λ2
λ1
= (x + z) · Y (x + z) ,
= (x − z) · Y (x − z) .
λ0
λ0
Es ist OPT(1, 1, 1, 1) = 3 und die Behauptung folgt direkt
aus Lemma 38 und
1 1 1
~
Lemma 30 in Abschnitt 3. Ist also λ nicht nahe an 3 , 3 , 3 , dann ist x nicht nahe
an 1 und
OPT(x + z, x − z, Y (x + z), Y (x − z)) < OPT(x, x, Y (x), Y (x)) ≤ 3(1 − η) .
1
Wir geben x und z an. Es ist Y (x) eine sehr steile Gerade, die für 1 − 2Q
≤x≤1
1
von Y (1 − 2Q ) = 0 nach Y (1) = 1 führt. Also geht x · Y (x) ebenfalls monoton von
1
≤ x2 ≤ x1 ≤ 1 und
0 nach 1. Es gibt also x1 , x2 mit 1 − 2Q
λ1
= x1 · Y (x1 ) ,
λ0
λ2
= x2 · Y (x2 ) ,
λ0
da
λ2
λ1
≤
≤1.
λ0
λ0
Wieder ist
x=
x1 + x2
,
2
z=
x1 − x2
2
und x1 = x + z , x2 = x − z .
Erfüllen diese x, z das Lemma 38? Es gilt
z ≤1−x
⇐⇒
x1 − x2
x1 + x2
≤1−
2
2
72
⇐⇒
x1 ≤ 1 ,
also gelten alle vorstehenden Aussagen. Beachte, z ≤ 1 − x schränkt die möglichen
Werte für z sehr stark ein, da hier die Werte für x sehr nahe bei 1 liegen.
1
Kommen wir nun zu x ≥ 1 − 4Q
. Nach Definition von x gilt
1
1
1
1
1−
+ 1−
=1−
,
x≥
2
2Q
2Q
2Q
wir brauchen aber eine bessere untere Schranke. Es ist
λ1 λ2
+
λ0 λ0
= x1 · Y (x1 ) + x2 · Y (x2 )
1≤
= (x + z) · Y (x + z) + (x − z) · Y (x − z)
= 2Q(x + z)2 − 2Q(x + z) + (x + z) + 2Q(x − z)2 − 2Q(x − z) + (x − z)
= 4Qx2 − 4Qx + 2x + 4Qz 2
= 2 · x · Y (x) + 4Qz 2
≤ 2 · x · Y (x) + 4Q(1 − x)2
= 4Qx2 − 4Qx + 2x + 4Q − 8Qx + 4Qx2
= 8Qx2 − 12Qx + 2x + 4Q .
In der Abschätzung haben wir z ≤ 1 − x verwendet. Zusammengefaßt gilt für x:
1 ≤ 8Qx2 − 12Qx + 2x + 4Q und 1 ≥ x ≥ 1 −
1
2Q
Wir zeigen, dass die rechte Seite streng monoton steigend in x ist:
16Qx − 12Q + 2 > 0
⇐⇒
x>
3
1
−
4 8Q
1
1
1
> 34 − 8Q
ist die rechte Seite streng monoton steigend in x. Für x = 1 − 4Q
Da 1 − 2Q
bekommen wir
2
1
1
1
+2 1−
+ 4Q
− 12Q 1 −
8Q 1 −
4Q
4Q
4Q
1
1
= 8Q − 4 +
− 12Q + 3 + 2 −
+ 4Q = 1 ,
2Q
2Q
und da die rechte Seite der Ungleichung monoton steigend ist, ist x ≥ 1 −
1
.
4Q
Noch eine Bemerkung: Ist die rechte Seite der Ungleichung oben = 2, dann ist x = 1.
Das ist die Situation λλ10 = λλ02 = 1, das heißt λ0 = λ1 = λ2 = 13 .
Wir kommen nun zum Beweis der Lemmas selbst. Wir beginnen bei Lemma 37.
73
Beweis von Lemma 37. Sei 0 < x ≤
1
4
fest gegeben. Es ist
OPT(z) := OPT(x + z, x − z, Y (x + z), Y (x − z))
!
q (x + z)s
q (x − z)s
=
1+
+
q(s)
q(s)
Q
1
·
1 + (x + z) · Y (x + z) + (x − z) · Y (x − z)
Q
· 1 + Y (x + z) + Y (x − z) + 2 1 + Y (x + z)2 + Y (x − z)2
Q2 .
− Y (x + z) − Y (x − z) − Y (x + z) · Y (x − z)
Wir setzen
exp(xs) · exp(zs) + exp(−zs) − 2xs − 2
OPT1 (z) := 1 +
q(s)
!Q
1
OPT2 (z) :=
1
1 + Q 2x2 + 2z 2
! Q2
Q
2
1
1 2
2
1 − x + 2 3z
+2
OPT3 (z) :=
1+ x
Q
Q
Q
und unsere Funktion ist
OPT(z) = OPT1 (z) · OPT2 (z) · OPT3 (z) .
Die Faktoren OPT1 (z) und OPT3 (z) steigen in z, OPT2 (z) hingegen fällt. Die Ableitung ist unvermeidbar. Wir schreiben abschließend noch
cosh(zs) =
exp(zs) + exp(−zs)
2
und
sinh(zs) =
exp(zs) − exp(−zs)
2
und bilden dann die Ableitung von ln OPT(z).
d
ln OPT(z) =
dz
s · exp(xs) · 2 · sinh(zs)
4z Q1
q(s)
− Q
OPT1 (z)
1 + Q1 (2x2 + 2z 2 )
Q2 −1
2
1
1
1
2
1 − Q x + Q2 3z
6z Q2
+Q
OPT3 (z)
74
Teilen wir durch 2Q, Q =
sq ′ (s)
,
q(s)
so bleibt zu zeigen:
exp(xs) · sinh(zs)
3z Q12
1
2z
exp(s) − 1
Q
−
+
1
OPT1 (z)
1 + Q (2x2 + 2z 2 )
1−
1
x
Q
2
+
3z 2 Q12
OPT3 (z)
Q2 −1
< 0.
Der zweite Summand ist negativ, die beiden anderen sind positiv. Wir teilen den
negativen Summanden in zwei Teile auf und vergrößern den ersten Summand, indem
wir OPT1 (z) ≥ 1 weglassen. Dann zeigen wir für ein 0 < A < 1, dass die beiden
folgenden Ungleichungen gelten.
(a)
3z Q12
(b)
A · 2z Q1
exp(xs) · sinh(zs)
<
exp(s) − 1
1 + Q1 (2x2 + 2z 2 )
Q2 −1
2
1
2 1
1 − Q x + 3z Q2
(1 − A) · 2z Q1
<
OPT3 (z)
1 + Q1 (2x2 + 2z 2 )
Beweis von (a). Die Beziehung sollte gelten, da exp(s) in s sehr schnell groß
wird und z ≤ x ≤ 14 und Q ungefähr s ist. Für z = 0 herrscht Gleichheit. Da
s(exp(s)−1)
multiplizieren wir die Gleichung mit exp(s) − 1 und zeigen
Q = exp(s)−s−1
exp(xs) · sinh(zs) <
A · 2z · (exp(s) − s − 1)
.
1
2
2
s · 1 + Q (2x + 2z )
Wir ersetzen das z 2 im Nenner durch sein Maximum x2 und zeigen
1 2
s · 1 + 4x · exp(xs) · sinh(zs) < A · 2z · q(s) .
Q
Für z = 0 herrscht immer noch Gleichheit. Die linke Seite ist konvex in z, da sinh(zs)
konvex ist. Die rechte Seite ist eine Gerade in z. Wir müssen die Ungleichung nur
noch für x = z zeigen, also
1 2
s · 1 + 4x · exp(xs) · sinh(xs) < A · 2x · q(s) .
Q
Für x = 0 haben wir Gleichheit. Also betrachten wir x = 41 wegen der Konvexität
der linken Seite und da rechts eine Gerade ist. Es bleibt zu zeigen
1
1
1
1
· exp
s· 1+
s · sinh
s < A · · q(s) .
4Q
4
4
2
75
Wir multiplizieren mit 4Q =
4s·(exp(s)−1)
q(s)
s · (4Q + 1) ·
und zeigen
s
1
· exp
< 2A · s · (exp(s) − 1) ,
2
2
wobei wir exp( 4s ) · sinh( 4s ) zu 12 · exp( 2s ) vergrößert haben. Wir kürzen das s und
vergößern die linke Seite mit Q ≤ s + 1 für s ≥ 2 aus Lemma 18. Also folgt die
Ungleichung aus
Das gilt für A =
1
4
exp(s) − 1
4(s + 1) + 1 < 4A ·
exp( s )
s 2 s − exp −
⇐⇒ 4s + 5 < 4A · exp
2 2
s
⇐⇒ 4s + 5 < 4A · 2 · sinh
2
und s ≥ 7.
Beweis von (b). Für z = 0 sind beide Seiten gleich. Sei jetzt z > 0. Wir multiplizieren mit Qz und nehmen die Kehrwerte der beiden Brüche. Zu zeigen ist
Q
2
1
1
1 − Qx +
1 + Q 2x + 2
3
Q
2
·
1 − Q1 x +
1
3z 2
Q2
1
3z 2
Q2
Q2 −1
Q2
>
1 + Q1 (2x2 + 2z 2 )
(1 − A) · 2
Man sieht, dass der Nenner der linken Seite gegen 0 geht, wenn Q groß wird, also
sollte die Ungleichung gelten. Wir rechnen den Bruch auf der linken Seite aus und
zerlegen
Q
3
Q
1
1 + Q 2x
2
1 − Q1 x +
1
3z 2
Q2
Q2 −1
2Q
+
3
1
1− x
Q
2
1
+ 2 3z 2
Q
!
>
1 + Q1 4x2
2(1 − A)
,
wobei wir auf der rechten Seite z zu x vergrößert haben. Der Nenner auf der linken
Seite ist kleiner 1, denn
1−
und
2x
x2
3z 2
2x
x2
3x2
2x 4x2 !
+ 2 + 2 ≤ 1−
+ 2 + 2 = 1−
+ 2 < 1
Q
Q
Q
Q
Q
Q
Q
Q
4x2
2x
>
⇐⇒ 2Q > 4x .
Q
Q2
76
Das gilt, da x ≤ 14 . Wir lassen den Nenner einfach weg und zeigen
Q
3
1
1 + 2x
Q
Q
2Q
+
3
1
1− x
Q
2
>
1 + Q1 4x2
2(1 − A)
,
wobei wir z links auf 0 verkleinert haben. Wir verkleinern die linke Seite, indem wir
(1 + Q1 2x)Q zu 1 machen. Es ist
1−
1
1
1
1 1
· ≤ 1 − x ≤ 1 und 1 ≤ 1 + · 4x2 ≤ 1 +
.
Q 4
Q
Q
4Q
Setzen wir x = 41 , dann verkleinert sich die linke und vergrößert sich die rechte Seite.
Also folgt die Ungleichung aus
2
1
1 + 4Q
Q 2Q
1
1−
>
+
3
3
4Q
2(1 − A)
1
1 + 4Q
1
1 2
>
⇐⇒ Q − + ·
3 3 16Q
2(1 − A)
und mit A = 1 −
1
4
=
3
4
folgt die Ungleichung aus
1
2
1
1
+
> +
3 24Q
3 6Q
1
1
−
⇐⇒ Q > 1 +
6Q 24Q
3
⇐⇒ Q > 1 +
24Q
Q−
und die letzte Ungleichung gilt, da Q > 2 ist.
1
Beweis von Lemma 38. Wir halten ein 1 − 4Q
≤ x < 1 fest und schreiben
OPT(z) für OPT(x + z, x − z, Y (x + z), Y (x − z)). Der erste Faktor von OPT(z) ist
q (x + z)s
q (x + z)s
+
OPT1 (z) := 1 +
q(s)
q(s)
exp(xs) · 2 cosh(zs) − 2xs − 2
= 1+
.
q(s)
Es ist Y (x + z) = Y (x) + 2Qz := y + 2Qz und Y (x − z) = Y (x) − 2Qz := y − 2Qz.
Wir schreiben für den zweiten Faktor:
Q
1
OPT2 (z) :=
1 + (x + z) · Y (x + z) + (x − z) · Y (x − z)
Q
1
=
1 + 2xy + 4Qz 2
77
Der dritte Faktor ist
OPT3 (z) := (1 + 2y)Q + 2 (1 − y)2 + 3 · (2Qz)2
denn Y (x + z) + Y (x − z) = 2Y (x) = 2y und
Q2
,
1 + Y (x + z)2 + Y (x − z)2 − Y (x + z) − Y (x − z)
−Y (x + z) · Y (x − z)
2
2
= 1 + y + 2Qz + y − 2Qz − y − 2Qz − y + 2Qz
− y + 2Qz · y − 2Qz
= 1 + 2y 2 + 2 · (2Qz)2 − 2y − y 2 + (2Qz)2
= (1 − y)2 + 3 · (2Qz)2
Zusammengefaßt ist OPT(z) = OPT1 (z) · OP T2 (z) · OPT3 (z). Wir schreiben abkür1
)≤y≤1=
zend wieder y für Y (x), da x fest ist. Für y gilt außerdem 12 = Y (1 − 4Q
Y (1) nach Voraussetzung des Lemmas.
Der erste und dritte Faktor steigt in z nur der zweite fällt. Im zweiten Faktor ist
noch der Faktor 4Q vor dem z 2 , im dritten natürlich auch, aber dann sind da noch
die Exponenten Q und Q2 und in OPT1 (z) steht zs ≈ zQ im Exponenten. Wir
d
betrachten die Ableitung dz
ln OPT(z).
s · exp(xs) · 2 · sinh(zs)
8Qz
q(s)
− Q
OPT1 (z)
1 + 2xy + 4Qz 2
Q −1
6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2
+Q
OPT3 (z)
d
ln OPT(z) =
dz
Wir Teilen durch Q =
d
OPT(z) < 0
dz
s(exp(s)−1)
exp(s)−s−1
⇐⇒
=
s(exp(s)−1)
.
q(s)
Dann gilt
exp(xs) · 2 · sinh(zs)
8Qz
exp(s) − 1
−
OPT1 (z)
1 + 2xy + 4Qz 2
Q −1
6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2
+
< 0
OPT3 (z)
Wir schätzen zunächst den ersten Summanden durch
exp(zs) − exp(−zs)
= tanh(zs)
exp(zs) + exp(−zs)
78
exp(xs)
nach oben hin ab. Dazu zeigen wir, dass OPT1 (z) ≥ exp(s)−1
· 2 · cosh(zs) ist. Das
ist leicht zu sehen. Es ist
exp(xs) · 2 · cosh(zs) − 2xs − 2
OPT1 (z) = 1 +
exp(s) − s − 1
exp(xs) · 2 · cosh(zs) − 2xs − 2
≥ 1+
exp(s) − 1
exp(s) − 1 + exp(xs) · 2 · cosh(zs) − 2xs − 2
=
exp(s) − 1
exp(xs)
exp(s) − 2xs − 3
=
· 2 · cosh(zs) +
exp(s) − 1
exp(xs)
exp(xs)
· 2 · cosh(zs) .
≥
exp(s) − 1
> 0 für s ≥ 2 ist. Also folgt die AbschätDie letzte Ungleichung gilt, da exp(s)−2xs−3
exp(xs)
zung für den ersten Summanden mit
exp(xs) · 2 · sinh(zs)
exp(xs) · 2 · sinh(zs)
exp(s) − 1
exp(s) − 1
= tanh(zs) .
≤
exp(xs)
OPT1 (z)
· 2 · cosh(zs)
exp(s) − 1
Wir schätzen den zweiten Summanden auch nach oben ab. Da er negativ ist, machen
wir dazu den Nenner größer. Es ist
2xy + 4Qz 2 = 2x2 · 2Q − 2x · 2Q + 2x + 4Qz 2 = 4Q · x2 − x + z 2 + 2x
≤ 4Q · x2 − x + (1 − x)2 + 2x
≤ 2x ,
denn x2 − x + (1 − x)2 = (x − 1)(2x − 1) ≤ 0, da 21 ≤ x ≤ 1 ist. Also gilt für den
zweiten Summand
8Qz
8Qz
8Qz
≤ −
≤ −
,
−
2
1 + 2xy + 4Qz
1 + 2x
3
da 1 + 2x ≤ 3.
Der dritte Summand wird größer, wenn wir den Nenner durch (1 + 2y)Q ersetzen,
Q −1
d
OPT(z) < 0 aus
da 2 (1 − y)2 + 3(2Qz)2 2 ≥ 0 ist. Also folgt dz
Q −1
6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2
8Qz
+
≤ 0.
tanh(zs) −
3
(1 + 2y)Q
Diese Ungleichung folgt aus den beiden Ungleichungen
exp(zs) − exp(−zs)
3
<
Qz und
exp(zs) + exp(−zs)
3
Q −1
6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2
5
(b)
<
Qz .
Q
(1 + 2y)
3
(a)
tanh(zs) =
79
Beweis von (a). Mit Q =
aus
s·(exp(s)−1)
exp(s)−s−1
≥ s aus Lemma 18 folgt die Behauptung
tanh(zs) < s · z
Für z = 0 sind beide Seiten gleich 0. Die Ableitung der linken und rechten Seite
sind
1
sowie s .
s·
2
cosh(zs)
Also gilt die Ungleichung, da
1
cosh(zs)
2 ≤ 1 ist.
Beweis von (b). Wir zeigen, dass
Q −1
6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2
5
< Qz
Q
(1 + 2y)
3
Q
5
−1
< · (1 + 2y)Q
⇐⇒ 6 · 4Q · (1 − y)2 + 3 · (2Qz)2 2
3
gilt. Das folgt, da y ≥
Seite, indem wir für
2
(1 − y) <
1
2
ist. Wir vergrößern die linke und verkleinern die rechte
1
1−
2
2
=
1
4
und 1 + 2y ≥ 1 + 2 ·
1
=2,
2
also y = 12 einsetzen. Ebenso ersetzen wir 3 · (2Qz)2 auf der linken Seite durch seinen
1
größten Wert 34 , da 4Q
≥ 1 − x ≥ z. Damit folgt die Behauptung aus
24 · Q ·
1 3
+
4 4
Q2 −1
<
5 Q
·2 ,
3
was für s ≥ 7 gilt.
Abschließend bleibt noch das letzte Lemma für die einzelnen Punkte zu zeigen. Wir
gehen analog zum Beweis von Lemma 28 vor.
Beweis von Lemma 36. Vergleichen wir die Definition von OPT aus (17) in
Abschnitt 3 mit der Definition in (21), so fällt auf, dass OPT1 (x) und OPT2 (x, y) aus
Abschnitt 3 mit den hier betrachteten OPT1 (x, x) beziehungsweise OPT2 (x, x, 2y, 0)
übereinstimmen. Nur OPT3 ist anders, es ist OPT3 (z) ≤ OPT3 (2y, 0).
80
Wir schätzen die Faktoren OPT1 und OPT2 für die ersten vier Punkte folgendermaßen ab:
OPT1
OPT1
1 1
,
4 4
1 1
,
2 2
≤ 1, 048 ≤ 1, 011 ≤ 1, 003
für s ≥ 5, 7, 9
≤ 1, 165 ≤ 1, 061 ≤ 1, 023
für s ≥ 5, 7, 9
1
1
≤ 1, 762 ≤ 1, 741 ≤ 1, 737
OPT1 1 − , 1 −
Q
Q
1
1
,1 −
OPT1 1 −
≤ 2, 612 ≤ 2, 568 ≤ 2, 560
4Q
4Q
OPT2
OPT2
OPT2
OPT2
1
1 1
, ,2 ·
,0
4 4
4Q
1
1 1
, ,2 ·
,0
2 2
4Q
1 1
1
, ,2 ·
,0
2 2
2Q
1
1
1
,0
1 − ,1 − ,2 ·
Q
Q
2Q
≤ 0.844
für s ≥ 5
≤ 0.784
für s ≥ 5
≤ 0.621
für s ≥ 5
für s ≥ 5, 7, 9
für s ≥ 5, 7, 9
≤ 0.473 ≤ 0.445 ≤ 0.429
für s ≥ 5, 7, 9
Für OPT3 (2y, 0) erhalten wir
Q2
Q
1
1
1
1
,0
=
1+
+
+2 1−
OPT3 2 ·
4Q
2Q
2Q 4Q2
1
1
Q
1
· −
+
+ 2 · exp
≤ exp
2
2
2Q 4Q2
1
1
1
= exp
+ 2 · exp −
· exp
2
4
8Q
≤ 3, 245 ≤ 3, 235 ≤ 3, 229
1
da exp( 8Q
) fällt in s. Für y =
1
2Q
für s ≥ 5, 7, 9
gilt:
1
, 0 ≤ 4, 055 ≤ 4, 021 ≤ 4, 001
OPT3 2 ·
2Q
81
für s ≥ 5, 7, 9
Also gilt für die ersten vier Punkte des Lemmas 36:
OPT
OPT
OPT
1 1
1
, ,2 ·
,0
4 4
4Q
1 1
1
, ,2 ·
,0
2 2
4Q
1 1
1
, ,2 ·
,0
2 2
2Q
≤ 1, 011 · 0, 884 · 3, 235 ≤ 2, 892 s ≥ 7
1
1
1
OPT 1 − , 1 − , 2 ·
,0
Q
Q
2Q
≤ 1, 165 · 0, 784 · 3, 245 ≤ 2, 964
s≥5
≤ 1, 165 · 0, 621 · 4, 055 ≤ 2, 934
s≥5
≤ 1, 737 · 0, 429 · 4, 001 ≤ 2, 982
s≥9
Für die letzten drei Punkte betrachten wir die beiden Faktoren OPT2 (x, x, 2y, 0)
und OPT3 (2y, 0) gemeinsam. Es ist
1
1
1
1
,1 −
, 2 · , 0 · OPT3 2 · , 0
OPT2 1 −
4Q
4Q
2
2
!Q
Q !
1
1 3 2
Q
=
· 2 +2
+
1
4 4
1 + 1 − 4Q
!Q 2
2
=
· 1+ Q
1
2
2 − 4Q
!Q 1
2
· 1+ Q
=
1
2
1 − 8Q
≤ 1, 198 ≤ 1, 152 ≤ 1, 139
für s ≥ 5, 7, 9 ,
da die beiden Faktoren in s fallen. Ebenso ist
1
1
1
1
OPT2 1 − , 1 − , 2 · , 0 · OPT3 2 · , 0
Q
Q
2
2
≤ 1, 786 ≤ 1, 706 ≤ 1, 680
82
für s ≥ 5, 7, 9 .
Also gilt für die Punkte fünf und sechs für s ≥ 7:
1
1
1
OPT 1 −
,1 −
,2 · ,0
4Q
4Q
2
1
1
1
OPT 1 − , 1 − , 2 · , 0
Q
Q
2
≤ 2, 568 · 1, 152 ≤ 2, 959
≤ 1, 741 · 1, 706 ≤ 2, 971
Für den letzten Punkt erhalten wir
OPT2
1
1
1
,1 −
,2 ·
1−
4Q
4Q
2

= 
1+2 1−
Also ist
OPT2
1
1
1
,1 −
,2 ·
1−
4Q
4Q
2
1
= Q
2
=
=
≤
=
≤
≤
1
2+
4Q − 1
1
1+
8Q − 2
1
1+
8Q − 2
1
1+
8Q − 2
+
2
2Q
Q
+
2
2Q
Q
2
+ Q
2
2
+ Q
2
1
· 12 · 1 +
1
1+
4Q − 1
1
4Q−1
· OPT3
Q

1
2·
2
=
1
.
2Q
1
1+
4Q − 1
2 ! Q2
3
1
+ · 1+
4
4Q − 1
2
2 ! Q2
1
1
1
3
1−
1+
+
4
4Q − 1
4
4Q − 1
Q
2 ! 2
1
1
+
1+
4Q − 1
4Q − 1
2
+ Q
2
Q
1
4Q
1
1+
4Q − 1
1
1 1
− ·
2 2 4Q − 1
1
1+
4Q − 1
Q
4Q
=
4Q − 1
!
!Q
1
2
1
+ Q ·
exp −
1
8
2
1 − 4Q
8Q − 1
8Q − 2
Q
Q
0, 883 + 0, 016 · 1, 290 ≤ 1, 160
83
Q
1−
1−
1
8Q
1
4Q
2
!Q
2
+ Q
2
für s ≥ 7 .
1
1
1 − 4Q
!Q
Damit gilt für den letzten Punkt
1
1
1
OPT 1 −
,1 −
,2 ·
4Q
4Q
2
1+
1
4Q − 1
· ≤ 2, 568 · 1, 160 ≤ 2, 979
für s ≥ 7.
84
5
5.1
Beweis von Satz 20
Optimale Parameter ~x, ~y für Ψ(~ω , ~λ, ~x, ~y )
Als Vorbereitung des Beweises von Satz 20 zeigen wir das folgende Resultat.
Satz 39 Für ω
~ , ~λ nane an 13 , 31 , 31 existieren optimale Parameter xj = xj (ωj , λj ),
y0 = 1 und yj = yj (~λ) für j ∈ {1, 2} so dass gilt:
E(~ω , ~λ) ≤ Ψ ω
~ , ~λ, ~x, ~y
n
·
1
· O(1)
n2
Bisher hatten wir die Abschätzung
E(~ω , ~λ) ≤ Ψ ω
~ , ~λ, ~x, ~y
n √
· n3 · O(1) ,
die nach Lemma 19 für alle ~x, ~y > 0 gilt. Es ist
Ψ(~ω , ~λ, ~x, ~y ) :=
ω ω ω
1
q(x0 ) 0 q(x1 ) 1 q(x2 ) 2
· sk(1−γ)
·
ω0
ω1
ω2
q(s)
λ 0 λ 1 λ2 !k(1−γ)
λ0
λ1
λ2
·
x0 y0
x1 y1
x2 y2
· p(y0 , y1 , y2 )1−γ .
Teilen wir p(y0 , y1 , y2 )1−γ durch y0 k(1−γ) dann bekommen wir 1, yy10 , yy02
plizieren wir
λ0 λ1 λ2 !k(1−γ)
λ0
λ1
λ2
x0 y0
x1 y1
x2 y2
1−γ
. Multi-
mit y0 k(1−γ) dann bekommen wir

λ 0
 λ0
x0
λ1
x1 yy01
!λ 1
λ2
x2 yy02
!λ2 k(1−γ)

.
Da wir y1 , y2 frei wählen dürfen, reicht es also die Funktion Ψ(~ω , ~λ, ~x, ~y ) mit y0 = 1
zu betrachten. Die Aufgabe ist es jetzt, die optimalen Parameter xj = xj (ωj , λj )
und yj = yj (~λ) zu finden.
85
Es ist
ln Ψ(~ω , ~λ, ~x, ~y ) =
2 X
ωj · ln q(xj ) − ln ωj
j=0
− ln q(s) + k(1 − γ) · ln s
+ k(1 − γ) ·
λ0 · ln λ0 − ln x0 − ln 1
+ λ1 · ln λ1 − ln x1 − ln y1
+ λ2 · ln λ2 − ln x2 − ln y2
+ (1 − γ) · ln p(1, y1 , y2 ) .
Da die Parameter xj und y1 , y2 nur getrennt in den Summanden vorkommen, können
wir diese einzeln betrachten.
Optimale xj . Wir betrachten zunächst die Ableitung nach x0 . Für diese sind nur
die Summanden
ω0 ln q(x0 ) + k(1 − γ) · (−λ0 ln x0 ) = ln
q(x0 )ω0
q(x0 )
=
ω
ln
0
λ0
k(1−γ)
x0 λ0 k(1−γ)
x ω0
0
von Bedeutung. Wir wollen diese Funktion in x0 minimieren. Abgesehen von dem
nichtganzzahligen Exponenten des Nenners sind wir in der gleichen Situation wie
im Abschnitt 1.5.2 ab Seite 22.
Bilden wir die erste Ableitung nach x0 :
λ0 1 !
λ0
q ′ (x0 )
d
− k(1 − γ)
= 0
ln q(x0 ) − k(1 − γ)
=
dx0
ω0
q(x0 )
ω0 x0
Die Ableitung ist Null genau dann, wenn
Q(x0 ) =
x0 · q ′ (x0 )
λ0
= k(1 − γ) .
q(x0 )
ω0
Betrachten wir die Zufallsvariable X = X(x0 ) mit der Verteilung
Prob(X = j) =
1
xj
·
j! q(x0 )
für j ≥ 2 .
Der Erwartungswert dieser Zufallsvariable ist
E[X(x0 )] =
x0 · q ′ (x0 )
= Q(x0 ) .
q(x0 )
86
Also bekommen wir analog zur Rechnung in Abschnitt 1.5.2 ein Minimum für die
betrachteten Summanden, wenn wir x0 so setzen, dass
E[X(x0 )] = Q(x0 ) = k(1 − γ)
λ0
ω0
ist. Ebenso bekommen wir ein Minimum in x1 , x2 für
Q(x1 ) = k(1 − γ)
λ1
ω1
und Q(x2 ) = k(1 − γ)
λ2
.
ω2
Da die xj unabhängig sind, können wir ln Ψ(~ω , ~λ, ~x, ~y ) gleichzeitig in x0 , x1 , x2 minimieren.
Differenzierbarkeit von xj . Bis jetzt haben wir nur die eindeutige Existenz der
optimalen Parameter xj (λj , ωj ) nachgewiesen. Wir wollen uns noch mit der partiellen
Differenzierbarkeit beschäftigen, da wir die Ableitungen später im Beweis von Satz
20 benötigen. Es ist
λj
−1
k(1 − γ)
xj (ωj , λj ) = Q
.
ωj
Da Q(x) streng monoton steigend und differenzierbar ist, ist Q−1 eindeutig bestimmt
und differenzierbar. Nach den Satz über die Differenzierbarkeit der Umkehrfunktion
ist
d
1
d −1
Q (y) =
Q(x)
= ′ −1 .
−1 (y)
x=Q
dy
dx
Q Q (y)
Also ist
Ebenso ist
∂
1
λj
· − k(1 − γ) 2
xj (ωj , λj ) =
λ ∂ωj
ωj
Q′ Q−1 k(1 − γ) ωjj
λj
1
· − k(1 − γ) 2 .
=
ωj
Q′ xj (ωj , λj )
1
1
∂
· k(1 − γ)
.
xj (ωj , λj ) = ′
∂λj
ωj
Q xj (ωj , λj )
Das ganze ist etwas verwirrend, da wir die Umkehrfunktion Q−1 (y) nicht richtig
kennen. Wir können die Technik dann anwenden, wenn Q−1 (y) bekannt ist. Das ist
der Fall, wenn ωj = λj . Dann ist
xj (ωj , λj ) gegeben durch Q−1 k(1 − γ) = s
87
und es ist
∂
k(1 − γ)
1
·
xj (ωj , λj ) = − ′
∂ωj
Q (s)
ωj
(24)
k(1 − γ)
1
∂
·
xj (ωj , λj ) = + ′
∂λj
Q (s)
ωj
also in diesen Falle gerade
∂
∂
xj (ωj , λj ) = −
xj (ωj , λj ) .
∂ωj
∂λj
Beachte: Immer ist Q′ (x) > 0.
Optimale y1 , y2 . Für die Ableitungen nach y1 und y2 spielen nur die folgenden
Summanden von ln Ψ(~ω , ~λ, ~x, ~y ) eine Rolle.
k(1 − γ) · − λ1 ln y1 − λ2 ln y2 + (1 − γ) · ln p(1, y1 , y2 )
p(1, y1 , y2 )
= (1 − γ) · ln λ1 k
y1 · y2 λ 2 k
Wir sind in der gleichen Situation wie in Abschnitt 1.5.2 ab Seite 24. Es gilt also:
Die partielle Ableitung nach y1 ist gleich 0 genau dann, wenn
kλ1 =
y1 · py1 (1, y1 , y2 )
p(1, y1 , y2 )
und die partielle Ableitung nach y2 ist gleich 0 genau dann, wenn
kλ2 =
y2 · py2 (1, y1 , y2 )
.
p(1, y1 , y2 )
Die Lösbarkeit dieses Gleichungssytems nach y1 , y2 ist im allgemeinen Fall keineswegs klar. Für ωj = λj = 13 sind wir aber in der günstigen Situation, eine einfache
Lösung angeben zu können. Mit den Überlegungen
aus Abschnitt 1.5.2 erhalten wir
dann auch eine Lösung für ~λ nahe an 13 , 31 , 31 .
Betrachten wir den Zufallsvektor Z = Z(y1 , y2 ) = Y1 (y1 , y2 ), Y2 (y1 , y2 ) mit der
Verteilung
1
k
· y1 k1 y2 k2 ·
Prob(Z = (k1 , k2 )) =
p(1, y1 , y2 )
k − k1 − k2 , k1 , k2
für k1 = k2 mod 3 und 0 sonst. Der Erwartungswert dieses Zufallsvektors ist
y1 · py1 (1, y1 , y2 ) y2 · py2 (1, y1 , y2 )
E[Z(y1 , y2 )] =
= P (y1 , y2 ) ,
,
p(1, y1 , y2 )
p(1, y1 , y2 )
88
wobei p(1, y1 , y2 ) das aus Gleichung (13) auf Seite 35 bekannte Polynom
p(1, y1 , y2 ) =
1
(1 + y1 + y2 )k + (1 + ry1 + r2 y2 )k + (1 + r2 y1 + ry2 )k
3
) ist. Mit pyj bezeichnen wir die partiellen Ableitungen von p(1, y1 , y2 )
mit r = exp( 2πı
3
nach yj . Diese sind:
py1 (1, y1 , y2 ) =
k−1
k−1
k−1 1 k 1 + y1 + y2
+ r 1 + ry1 + r2 y2
+ r2 1 + r2 y1 + ry2
3
py2 (1, y1 , y2 ) =
k−1
k−1
k−1 1 k 1 + y1 + y2
+ r2 1 + ry1 + r2 y2
+ r 1 + r2 y1 + ry2
3
Wir werden gleich die Jacobi-Matrix von P (y1 , y2 ) berechnen. Dazu benötigen wir
zusätzlich noch die Ableitungen von pyj (1, y1 , y2 ).
py1 ,y1 (1, y1 , y2 ) =
k−2
k−2
k−2 1
2
2
2
k(k − 1) 1 + y1 + y2
+ r 1 + ry1 + r y2
+ r 1 + r y1 + ry2
3
py2 ,y2 (1, y1 , y2 ) =
k−2
k−2
k−2 1
k(k − 1) 1 + y1 + y2
+ r 1 + ry1 + r2 y2
+ r2 1 + r2 y1 + ry2
3
py1 ,y2 (1, y1 , y2 ) = py2 ,y1 (1, y1 , y2 ) =
k−2
k−2
k−2 1
k(k − 1) 1 + y1 + y2
+ 1 + ry1 + r2 y2
+ 1 + r2 y1 + ry2
3
Für y1 = y2 = 1 erhalten wir p(1, 1, 1) = 3k−1 und py1 (1, 1, 1) = py2 (1, 1, 1) = k ·3k−2 .
Damit ist
1 · k · 3k−2 1 · k · 3k−2
1
1
P (1, 1) =
= k· , k·
,
3k−1
3k−1
3
3
und wir haben eine Lösung für λj =
1
3

gefunden. Die Jacobi-Matrix JP von P ist
1  (py1 + y1 · py1 ,y1 ) · p − y1 · py1
·
p2
y2 · py2 ,y1 · p − py2 · py1
2
y1 · py1 ,y2 · p − py1 · py2
(py2 + y2 · py2 ,y2 ) · p − y2 · py2 2
Im Punkt y1 = y2 = 1 erhalten wir mit
py1 ,y2 (1, 1, 1) = py2 ,y1 (1, 1, 1) = k(k − 1) · 3k−3
89

 .
die Matrix JP =
y1 =y2 =1
1
3k−1

2 · 
k · 32k−3 − k · 32k−4
−k · 3
2k−4
−k · 32k−4
k·3
2k−3
−k·3
2k−4


2 −1
 = k ·
9
−1
2

 (25)
2
und die Determinante ist k27 > 0. Nach Abschnitt 1.5.2 ist damit auch die Determinante der Kovarianzmatrix von Z, det Cov[Z(1, 1)] > 0 und die Hesse-Matrix von
P im Punkt y1 = y2 = 1 positiv definit und wir haben ein Minimum in y1 , y2 .
Differenzierbarkeit von yj . Nach den obigen Überlegungen existiert als die Umkehrabbildung P −1 von P in der Umgebung von λj = 31 und die Parameter y1 , y2
sind damit gegeben durch
y1 (λ1 , λ2 ), y2 (λ1 , λ2 )
= P −1 kλ1 , kλ2 .
Außerdem ist P −1 nach dem Satz über die Differenzierbarkeit der Umkehrfunktion
(aus [32] Abschnitt 4.6) im Punkt λ1 = λ2 = 31 differenzierbar.
Es ist
∂ −1
P (~υ ) =
∂~υ
∂
P (~y )
~y=P −1 (~υ)
∂~y
!−1
und damit gilt mit der Kettenregel, da υj = kλj , dass
∂ −1
∂ y1 (λ1 , λ2 ), y2 (λ1 , λ2 ) =
P
kλ1 , kλ2
∂~λ
∂~λ
!−1
∂
k 0
·
P (~y )
=
0 k
~y=P −1 (kλ1 , kλ2 )
∂~y
!−1
∂
= k·
.
P (y)
~y= y1 (λ1 ,λ2 ), y2 (λ1 ,λ2 )
∂~y
Die Jacobi-Matrix von P kennen wir und an der Stelle y1 = y2 = 1 kennen wir auch
die Werte der Einträge. Es ist
mit der Inversen
k
·
JP =
y1 =y2 =1
9
JP y1 =y2 =1
−1
2 −1
−1
2
3
=
·
k
90
2 1
1 2
.
Das heißt, im Punkt λ1 = λ2 = 31 haben wir für y1 (λ1 , λ2 ), y2 (λ1 , λ2 ) die folgenden
partiellen Ableitungen.


 ∂ y1 (λ1 , λ2 ) ∂ y1 (λ1 , λ2 ) 

 ∂λ
6 3
∂λ2
1


(26)
=


3 6

 ∂
∂
y2 (λ1 , λ2 )
y2 (λ1 , λ2 ) ∂λ1
∂λ2
λ1 =λ1 = 1
3
Bis jetzt haben wir Werte für die Parameter ~x, ~y gefunden, für die die Funktion
Ψ(~ω , ~λ, ~x, ~y ) in der Nähe von ω
~ = ~λ = 31 , 31 , 31 möglichst klein wird. Damit ist Satz
39 aber noch nicht gezeigt. Wir müssen E(~ω , ~λ) noch genauer abschätzen, um das
gewünschte Resultat zu erhalten.
5.2
Eine bessere Abschätzung für E(~ω , ~λ)
Nach Lemma 19 wissen wir, dass
n √
E(~ω , ~λ) ≤ Ψ1 (~ω , ~x) · Ψ2 (~λ, ~x, ~y ) · Ψ3 (~y ) · n3 · O(1)
für alle ~x, ~y > 0 gilt. Wählen wir ~x, ~y optimal, wie im Abschnitt 5.1 dargestellt,
bekommen wir für ω
~ , ~λ nahe an 31 , 13 , 31 eine viel bessere Abschätzung. Nach dem
letzten Abschnitt existieren die optimalen Parameter ~x = ~x(~ω , ~λ), ~y = ~y (~λ) für ω
~,
~λ nahe an 1 , 1 , 1 . Insbesondere ist y0 = 1.
3 3 3
Wir zeigen den Satz 39 vom Anfang des Abschnitts.
~ , ~λ nane an 13 , 31 , 31 existieren optimale ParaSatz 39 (Wiederholung) Für ω
meter xj = xj (ωj , λj ), y0 = 1 und yj = yj (~λ) für j ∈ {1, 2} so dass gilt:
E(~ω , ~λ) ≤ Ψ ω
~ , ~λ, ~x, ~y
n
·
1
· O(1)
n2
Beweis. Wir betrachten E(w,
~ ~l) noch einmal in der ursprünglichen Form. Nach
Geichung (8) auf Seite 31 ist
Q2 P
lj
k
P ~ Qm
·
j=0
u~j ≥2 uj,1 ,...,uj,wj
i=1 k0,i ,k1,i ,k2,i
K(l)
n
·
E(w,
~ ~l) =
P
km
w
~
~
z ≥2 z ,...,z
1
n
mit w
~ = ω
~ n und ~l = ~λk(1 − γ)n. Wir behandeln die Faktoren wie im Beweis
von Lemma 19 der Reihe nach. Die Anwendung der Stirling’schen Formel n! =
91
n n
e
√
2πn · (1 + o(1)) fürhrt zu
ω0 ω1 ω2 n
1
n
1
1
1
=
· · Θ(1) .
ω
~n
ω0
ω1
ω2
n
√
Faktoren n von ωj n im Nenner zustande. Einer
Der Faktor n1 kommt durch die drei√
der Faktoren kürzt sich gegen das n von n! im Zähler. Die Faktoren
X
lj
uj,1 , . . . , uj,wj
·
u~j ≥2
können wie in Lemma 17 behandelt werden, da xj (ωj , λj ) der optimale Parameter
ist. Wir bekommen die Abschätzung
X l j l j lj
=
· q(xj )wj · Θ(1) .
u~j
e · xj
u~j ≥2
Im Vergleich zu Lemma√19 verschwindet mit der Anwendung des lokalen Grenzwertsatzes hier der Faktor n, der von der Stirling’schen Formel herrührt.
Der Nenner von E(w,
~ ~l) ist nach Lemma 17 gleich
km
e·s
km
· q(s)n · Θ(1)
mit m = (1 − γ)n .
Den verbleibenden Faktor bezeichnen wir mit
m XY
k
S(~l) :=
mit lj = λj km, ~l = (l0 , l1 , l2 ) .
k
,
k
,
k
0,i
1,i
2,i
i=1
K(~l)
Im Beweis von Lemma 19 haben wir gesehen, dass für alle yj > 0
p(y0 , y1 , y2 )m
S(~l) ≤
y 0 l0 y 1 l1 y 2 l2
ist, da S(~l) gerade der Koeffizient von y0 l0 y1 l1 y2 l2 in p(y0 , y1 , y2 )m ist. Der Faktor, um
den S(~l) kleiner als die rechte Seite ist, läßt sich, wie im zweiten Teil von Abschnitt
1.5.2 dargestellt, als Wahrscheinlichkeit auffassen.
Sei dazu Z = (Y1 , Y2 ) ein Zufallsvektor mit
k k
k
y 1 y2 2
k−k1 −k2 , k1 , k2 1
Prob(Z = (k1 , k2 )) =
p(1, y1 , y2 )
für k1 = k2
mod 3
und 0 sonst. Wir betrachten nun m unabhängige, wie Z verteilte, Zufallsvektoren
Z1 , . . . , Zm , dann ist
Prob(Z1 + · · · + Zm = (l1 , l2 )) = S(l0 , l1 , l2 ) ·
92
y 1 l1 y 2 l2
p(1, y1 , y2 )m
mit l0 = km − l1 − l2 . In S(l0 , l1 , l2 ) werden gerade die Möglichkeiten für die
k
gezählt. Also ist
k0,i ,k1,i ,k2,i
S(l0 , l1 , l2 ) = Prob(Z1 + · · · + Zm = (l1 , l2 )) ·
p(1, y1 , y2 )m
.
y 1 l1 y 2 l2
Für die optimalen Parameter gilt nach Abschnitt 5.1, Seite 88:
y1 · py1 (1, y1 , y2 )
= E[Y1 (y1 , y2 )]
p(1, y1 , y2 )
y2 · py2 (1, y1 , y2 )
= E[Y2 (y1 , y2 )]
=
p(1, y1 , y2 )
kλ1 =
kλ2
Also ist
l1 = λ1 km = E[Y1,1 + · · · + Y1,m ]
l2 = λ2 km = E[Y2,1 + · · · + Y2,m ] ,
wobei Zi = (Y1,i , Y2,i ) ist. Nach einem lokalen Grenzwertsatz für gitterförmige
Zufallsvektoren (siehe Anhang A.1.2, Seite 114 und [16], [25], [3]) gilt, dass
Prob(Z1 + · · · + Zm = E[Z1 + · · · + Zm ]) =
1
· O(1) ,
m
(27)
sofern E[Z1 + · · · + Zm ] überhaupt als Wert von Z1 + · · · + Zm auftreten kann. Das
ist der Fall, wenn wir für S(~l) ≥ 1 voraussetzen. Sonst ist E(~ω , ~λ) = 0 und die
Wahrscheinlichkeit oben ebenfalls.
Setzen wir die Abschätzungen für die einzelnen Faktoren zusammen, bekommen wir
analog zum Beweis von Lemma 19
E(~ω , ~λ) ≤ Ψ ω
~ , ~λ, ~x, ~y
5.3
n
·
1
· O(1) .
n2
Entwicklung von ln Ψ(~ω , ~λ)
Wir betrachten die Summanden E(~ω , ~λ), bei denen ω
~ , ~λ nahe an 31 , 13 , 31 liegen.
Aus dem vorangegangenen Abschnitt wissen wir, dass die Summanden in diesem
Bereich alle ≤ Ψ(~ω , ~λ, ~x, ~y ) · n12 · O(1) sind, sofern wir für ~x und ~y die optimalen
Parameter einsetzen. Da die Teilsumme aber immer noch über O(n4 ) Summanden
geht, ist diese Erkenntnis allein noch nicht ausreichend. Wir wenden daher die in
Abschnitt 1.5.1 beschriebene Laplace-Methode auf die Teilsumme an.
93
Satz 20 (Wiederholung) Für ω
~ und ~λ nahe an
XX
ω
~
~λ
1 1 1
, ,
3 3 3
E(~ω , ~λ) ≤ C · 3γn
gilt
für eine Konstante C.
Für ω1 , ω2 , λ1 , λ2 nahe an
wobei
1
3
schreiben wir Ψ(ω1 , ω2 , λ1 , λ2 ) für das alte Ψ(~ω , ~λ, ~x, ~y ),
ω
~ = (ω0 , ω1 , ω2 ) ,
~λ = (λ1 , λ1 , λ2 ) ,
ω0 = 1 − ω1 − ω2
λ0 = 1 − λ1 − λ2
und xj = xj (ωj , λj ), y0 = 1 und y1 = y1 (λ1 , λ2 ), y2 = y2 (λ1 , λ2 ) im Sinne von
Abschnitt 5.1 optimal gewählt sind. Man beachte, dass xj , yj differenzierbar in ωj ,
λj sind. Ebenso lassen wir das erste Argument von p(y0 , y1 , y2 ) weg und schreiben
p(y1 , y2 ) anstelle von p(1, y1 , y2 ), da y0 in diesem Abschnitt immer gleich 1 ist. Es
ist
P2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) =
ω
·
ln
q(x
)
−
ln
ω
j
j
j
j=0
− ln q(s) + k(1 − γ) · ln s
+ k(1 − γ) ·
λ0 · ln λ0 − ln x0
(28)
+ λ1 · ln λ1 − ln x1 − ln y1 + λ2 · ln λ2 − ln x2 − ln y2
+ (1 − γ) · ln p(y1 , y2 ) .
Wir geben
~ = ~λ =
die Taylorentwicklung von ln Ψ(ω1 , ω2 , λ1 , λ2 ) um den Punkt ω
1 1 1
bis zur zweiten Ableitung an. Insbesondere ergibt sich, dass die partiellen
, ,
3 3 3
ersten Ableitungen an ωj = λj = 31 alle gleich Null sind und dass die Hesse-Matrix
an dieser Stelle negativ definit ist. Also hat Ψ(ω1 , ω2 , λ1 , λ2 ) dort ein Maximum. Der
Wert dieses Maximums ist 3γ , da xj = s und yj = 1 ist.
Es gilt also
X
ω
~ ,~λ
E(~ω , ~λ) ≤
≤
X
ω
~ ,~λ
X
ω
~ ,~λ
Ψ(ω1 , ω2 , λ1 , λ2 )n ·
3γn ·
1
· O(1)
n2
1
· O(1) .
n2
Da wir aber immer noch, wie eingangs erwähnt, O(n4 ) Summanden haben, können
wir so nur auf die zu schlechte Abschätzung O(n2 ) · 3γn kommen.
94
Der Gradient von ln Ψ(ω1 , ω2 , λ1 , λ2 ).
Die partielle Ableitung nach ω1 hängt nur von den Summanden ab, die ω0 , ω1 , x0
oder x1 enthalten. Diese Summanden sind in f (ω1 , x0 , x1 ) zusammengefaßt.
f (ω1 , x0 , x1 ) =
1 − ω1 − ω2 · ln q(x0 ) − ln(1 − ω1 − ω2 )
+ ω1 · ln q(x1 ) − ln ω1
+ k(1 − γ) · (1 − λ1 − λ2 ) · (− ln x0 ) + λ1 · (− ln x1 )
Es ist jetzt also die Ableitung
d
f ω1 , x0 (ω0 , λ0 ), x1 (ω1 , λ1 )
dω1
zu bilden. Nach der verallgemeinerten Kettenregel ergibt sich diese aus der Summe
der partiellen Ableitungen
fω1 (ω1 , x0 , x1 ) ,
fx0 (ω1 , x0 , x1 ) ,
fx1 (ω1 , x0 , x1 )
an der Stelle ω1 , x0 (ω0 , λ0 ), x1 (ω1 , λ1 ) multipliziert mit der jeweiligen inneren Ableitung, also
∂
∂
x0 (ω0 , λ0 ) und
x1 (ω1 , λ1 ) .
∂ω1
∂ω1
Da die Parameter nach Abschnitt 5.1 so gewählt sind, dass die partiellen Ableitungen
von ln Ψ(ω1 , ω2 , λ1 , λ2 ) (und damit die von f (ω1 , x0 , x1 )) nach xj alle gleich 0 sind,
brauchen wir nur fω1 (ω1 , x0 , x1 ) zu bilden und dann die Stelle x0 (ω0 , λ0 ), x1 (ω1 , λ1 )
einzusetzen. Es ist
fω1 (ω1 , x0 , x1 ) = − ln q(x0 ) + ln(1 − ω1 − ω2 ) + (1 − ω1 − ω2 )
+ ln q(x1 ) − ln ω1 − ω1
= ln
1
ω1
1
(1 − ω1 − ω2 )
1 − ω1 − ω2
q(x1 )
+ ln
.
q(x0 )
ω1
Also haben wir
q(x1 )
1 − ω1 − ω2
∂
ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ln
+ ln
∂ω1
q(x0 )
ω1
(29)
und ebenso für die partielle Ableitung nach ω2
∂
q(x2 )
1 − ω1 − ω2
ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ln
+ ln
.
∂ω2
q(x0 )
ω2
95
(30)
Die Ableitung nach λ1 hängt von dem folgenden Teil von ln Ψ(ω1 , ω2 , λ1 , λ2 ) ab:
f (λ1 , x0 , x1 , y1 , y2 ) =
(1 − ω1 − ω2 )ln q(x0 ) + ω1 ln q(x1 )
+ k(1 − γ) · (1 − λ1 − λ2 ) · ln(1 − λ1 − λ2 ) − ln x0
+ λ1 · ln λ1 − ln x1 − ln y1 − λ2 ln y2
+ (1 − γ) · p(y1 , y2 )
Wie vorher sind die partiellen Ableitungen
fxj (λ1 , x0 , x1 , y1 , y2 ) und fyj (λ1 , x0 , x1 , y1 , y2 )
alle gleich Null, da wir die optimalen Parameter einsetzen.
Es bleibt also nur die partielle Ableitung nach λ1 an der Stelle xj (ωj , λj ), yj (λ1 , λ2 )
übrig. Diese ist
fλ1 (λ1 , x0 , x1 , y1 , y2 ) = k(1 − γ) · − ln(1 − λ1 − λ2 ) + ln x0
−(1 − λ1 − λ2 )
1
1 − λ1 − λ2
1
+ ln λ1 − ln x1 − ln y1 + λ1
λ1
λ1
x0
= k(1 − γ) · ln
+ ln
1 − λ1 − λ2
x1 y1
Also haben wir
λ1
x0
∂
ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) · ln
+ ln
∂λ1
1 − λ1 − λ2
x1 y1
und ebenso für die partielle Ableitung nach λ2
λ2
x0
∂
.
ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) · ln
+ ln
∂λ2
1 − λ1 − λ2
x2 y2
(31)
(32)
An der Stelle ω1 = ω2 = λ1 = λ2 = 13 ist xj (ωj , λj ) = s und yj (λ1 , λ2 ) = 1. Also
werden alle partiellen Ableitungen in (29) bis (32) zu Null.
Die zweiten partiellen Ableitungen von ln Ψ(ω1 , ω2 , λ1 , λ2 ).
Um zu zeigen, dass die Funktion ln Ψ(ω1 , ω2 , λ1 , λ2 ) an der stelle ωj = λj = 13
tatsächlich ein Maximum besitzt, zeigen wir, dass die Hesse-Matrix der Funktion an
dieser Stelle negativ definit ist. Dazu benötigen wir alle zweiten partiellen Ableitungen. Wir fassen die Ableitungen mit gleicher Struktur zusammen.
96
• Ableitungen nach ω1 , ω1 beziehungsweise ω2 , ω2 :
q ′ (xj ) ∂xj (ωj , λj ) q ′ (x0 ) ∂x0 (ω0 , λ0 )
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
·
·
=
−
∂ωj , ωj
q(xj )
∂ωj
q(x0 )
∂ωj
−
1
1
−
1 − ω1 − ω2 ωj
• Ableitungen nach ω1 , ω2 beziehungsweise ω2 , ω1 :
q ′ (x0 ) ∂x0 (ω0 , λ0 )
1
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
·
= −
−
∂ωj , ωk
q(x0 )
∂ωk
1 − ω1 − ω2
• Ableitungen nach λ1 , λ1 beziehungsweise λ2 , λ2 :
1
1 ∂x0 (ω0 , λ0 )
1
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
= k(1 − γ)
+
+
·
∂λj , λj
λj 1 − λ1 − λ2 x0
∂λj
1 ∂xj (ωj , λj )
1 ∂yj (λ1 , λ2 )
− ·
− ·
xj
∂λj
yj
∂λj
• Ableitungen nach λ1 , λ2 beziehungsweise λ2 , λ1 :
1 ∂x0 (ω0 , λ0 )
1
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
= k(1 − γ)
+
·
∂λj , λk
1 − λ1 − λ2 x0
∂λk
1 ∂yj (λ1 , λ2 )
− ·
yj
∂λk
• Ableitungen nach ω1 , λ1 beziehungsweise ω2 , λ2 :
q ′ (xj ) ∂xj (ωj , λj ) q ′ (x0 ) ∂x0 (ω0 , λ0 )
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
=
·
−
·
∂ωj , λj
q(xj )
∂λj
q(x0 )
∂λj
diese sind gleich den Ableitungen nach λ1 , ω1 beziehungsweise λ2 , ω2 :
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
= k(1 − γ)
∂λj , ωj
1 ∂xj (ωj , λj )
1 ∂x0 (ω0 , λ0 )
·
−
·
x0
∂ωj
x1
∂ωj
• Ableitungen nach ω1 , λ2 beziehungsweise ω2 , λ1 :
q ′ (x0 ) ∂x0 (ω0 , λ0 )
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
·
= −
∂ωj , λk
q(x0 )
∂λk
diese sind gleich den Ableitungen nach λ1 , ω2 beziehungsweise λ2 , ω1 :
∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 )
= k(1 − γ)
∂λj , ωk
97
1 ∂x0 (ω0 , λ0 )
·
x0
∂ωk
Die hier auftretenden Ableitungen der optimalen Parameter
∂xj (ωj , λj )
,
∂ωj
∂xj (ωj , λj )
,
∂λj
∂yj (λ1 , λ2 )
∂λj
verschwinden hier leider nicht. Aus Abschnitt 5.1 kennen wir aber die Werte dieser
Ableitungen an der Stelle ωj = λj = 31 .
Nach Gleichung (24) gilt für ωj = λj =
1
3
∂x0 (1 − ω1 − ω2 , 1 − λ1 − λ2 )
3 · k(1 − γ)
∂x0 (ω0 , λ0 )
=
=
∂ωj
∂ωj
Q′ (s)
∂x0 (1 − ω1 − ω2 , 1 − λ1 − λ2 )
3 · k(1 − γ)
∂x0 (ω0 , λ0 )
=
= −
,
∂λj
∂λj
Q′ (s)
wegen der Kettenregel für ω0 = 1 − ω1 − ω2 , λ0 = 1 − λ1 − λ2 und ebenso
∂x2 (ω2 , λ2 )
3 · k(1 − γ)
∂x1 (ω1 , λ1 )
=
= −
∂ω1
∂ω2
Q′ (s)
∂x1 (ω1 , λ1 )
∂x2 (ω2 , λ2 )
3 · k(1 − γ)
.
=
=
∂λ1
∂λ2
Q′ (s)
Nach Gleichung (26) gilt für λj = 31 :
∂y2 (λ1 , λ2 )
∂y1 (λ1 , λ2 )
=
= 6
∂λ1
∂λ2
∂y2 (λ1 , λ2 )
∂y1 (λ1 , λ2 )
=
= 3
∂λ2
∂λ1
Um die Werte der partiellen Ableitungen von ln Ψ(ω1 , ω2 , λ1 , λ2 ) kürzer schreiben
zu können, definieren wir:
D(s) = D :=
k(1 − γ) 3k(1 − γ)
q ′ (s) 3k(1 − γ)
·
=
·
′
q(s)
Q (s)
s
Q′ (s)
′
(s)
Die Gleichheit auf der rechten Seite folgt aus der Wahl von s mit s·qq(s)
= k(1 − γ).
Man beachte, dass D > 0 ist, da alle Faktoren größer 0 sind. Insbesondere ist
Q′ (s) > 0, da Q(x) nach Lemma 18 monoton steigend ist.
Wir bekommen für die eingangs betrachteten partiellen Ableitungen also die folgenden einfachen Ausdrücke:
∂ 2 ln Ψ
= −D − D −
∂ωj , ωj
∂ 2 ln Ψ
= −D − 3
∂ωj , ωk
98
1
1
3
−
1
1
3
= −2D − 6
∂ 2 ln Ψ
1 3k(1 − γ) 1 3k(1 − γ)
= k(1 − γ) 3 + 3 − ·
− ·
−6
∂λj , λj
s
Q′ (s)
s
Q′ (s)
= −2D
∂ 2 ln Ψ
1 3k(1 − γ)
−3
= k(1 − γ) 3 − ·
∂λj , λk
s
Q′ (s)
= −D
∂ 2 ln Ψ
∂ 2 ln Ψ
=
= D − (−D) = 2D
∂ωj , λj
∂λj , ωj
∂ 2 ln Ψ
∂ 2 ln Ψ
=
= D
∂ωj , λk
∂λk , ωj
Übersichtlicher lassen sich die zweiten partiellen Ableitungen im Punkt ωj = λj =
als Matrix darstellen. Wir erhalten die folgende Hesse-Matrix.


b = 
H


−2D − 6 −D − 3
2D
D
−D − 3 −2D − 6
D
2D
2D
D −2D −D
D
2D −D −2D
1
3





b positiv definit ist. Wir
Diese Matrix ist negativ definit genau dann, wenn H = −H
zeigen, dass die Determinanten der Hauptuntermatrizen
S1 = h11 , S2 =
h11 h12
h21 h22

h11 h12 h13
, S3 =  h21 h22 h23  , S4 = H
h31 h32 h33

von H größer 0 sind. Siehe [26] Kapitel 7.5, Satz 7.3 (Positivitätstest nach Jacobi).
det S1 = 2D + 6
> 0
det S2 = 3D2 + 18D + 27 > 0
det S3 = 18D2 + 54D
> 0
det S4 = 81D2
> 0
b ist demnach negativ definit.
Da D > 0 gilt, sind alle Determinanten größer 0 und H
Das heißt, die Funktion ln Ψ(ω1 , ω2 , λ1 , λ2 ) und damit auch Ψ(ω1 , ω2 , λ1 , λ2 ) besitzt
an der Stelle ωj = λj = 13 ein Maximum.
99
Taylorentwicklung von ln Ψ(ω1 , ω2 , λ1 , λ2 ).
Jetzt haben wir alles zusammen, um die Taylorentwicklung von ln Ψ(ω1 , ω2 , λ1 , λ2 )
anzugeben. Wir haben eine Funktion f (~x) = f (x1 , x2 , x3 , x4 ) in vier Parametern und
allgemein gilt nach den Satz von Taylor [26] (S. 396), dass
2
1 T
∂ f (~x)
· ~ν + o(|~ν |2 )
f (~x) = f (x~0 ) + grad(f (~x))
, ~ν + · ~ν ·
x=x0
2
∂~x2
x=x0
mit ~ν = ~x − x~0 und ~ν → 0. In unserem Fall wollen wir ln Ψ(ω1 , ω2 , λ1 , λ2 ) um
ωj = λj = 13 entwickeln. Wir setzen
ν 1 = λ1 −
1
,
3
ν 2 = λ2 −
1
,
3
ν3 = ω1 −
1
,
3
ν4 = ω2 −
1
3
und es ist |νj | ≤ δ. Der Gradient im Entwicklungspunkt ist gerade 0, die quadratische
b ν ist negativ definit und der Funktionswert an der Stelle λj = ωj = 1 ist
Form ~ν T H~
3
b können wir ln Ψ(ω1 , ω2 , λ1 , λ2 ) nahe
ln 3γ . Mit der positiv definiten Matrix H = −H
an ωj = λj = 13 also so schreiben:
ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ln 3γ −
1 T
· ~ν H~ν + o(ν1 2 + ν2 2 + ν3 2 + ν4 2 )
2
(33)
Damit können wir den Beweis von Satz 20 vollenden.
5.4
Abschluß des Beweises von Satz 20
Für ω
~ , ~λ nahe an
1 1 1
, ,
3 3 3
gilt mit Satz 39 und Gleichung (33), dass
1
1
γn
T
2
2
2
2
~ν H~ν − o(ν1 + ν2 + ν3 + ν4 )
,
E(~ω , ~λ) ≤ O(1) · 2 · 3 · exp −n
n
2
wobei ~ν = (ν1 , ν2 , ν3 , ν4 ) und
ν 1 = λ1 −
1
,
3
ν 2 = λ2 −
1
,
3
ν3 = ω1 −
1
,
3
ν4 = ω2 −
1
.
3
Wir befreien uns zunachst von dem o(ν1 2 + ν2 2 + ν3 2 + ν4 2 ). Für ε > 0, so dass
H − 2εI noch positiv definit ist, gibt es δ > 0, so dass
o(ν1 2 + ν2 2 + ν3 2 + ν4 2 ) ≤ ε ν1 2 + ν2 2 + ν3 2 + ν4 2
für alle ν1 2 + ν2 2 + ν3 2 + ν4 2 ≤ 4δ 2 . Also gilt für ω
~ , ~λ hinreichend nahe an 31 , 31 , 31 :
1
1 T
γn
2
2
2
2
~
E(~ω , λ) ≤ O(1) · 2 · 3 · exp −n
· ~ν H~ν − ε ν1 + ν2 + ν3 + ν4
n
2
1
1 T
γn
= O(1) · 2 · 3 · exp −n
· ~ν (H − 2εI)~ν
,
n
2
100
wobei I die 4 × 4 Idendität ist. Damit gilt für die Summe über alle ω
~ , ~λ hinreichend
1 1 1
nahe an 3 , 3 , 3 :
X
X
1 T
1
γn
~
exp −n · · ~ν (H − 2εI)~ν ,
E(~ω , λ) ≤ O(1) · 2 · 3 ·
n
2
~
ν
ω
~ ,~λ
wobei |νj | ≤ δ und ν1 , ν2 von der Form ni − 13 sowie ν3 , ν4 von der Form
Damit ist
1 1 1
1 X
1 T
· ·
·
·
exp −n
· ~ν (H − 2εI)~ν
n n km km
2
i
km
− 31 sind.
~
ν
eine Riemann’sche Summe für das Integral
Z δZ δZ δZ δ
1 T
· ~x (H − 2εI)~x
dx1 dx2 dx3 dx4 .
exp −n
F (n) =
2
−δ −δ −δ −δ
Jetzt können wir uns auf Kapitel 4.6 in [6] berufen. Demnach ist
F (n) = A ·
mit Formel (4.6.2) aus [6], S. 71. Und
1
·
1
+
o(1)
n2
1
A = (2π)2 · p
det(H − 2εI)
ist auf jeden Fall eine Konstante unabhängig von n. Nun ist
P
ω , ~λ) ≤ O(1) · 3γn · (km)2 ·
ω
~ ,~λ E(~
X
1
1 T
1
·
·
exp −n
· ~ν (H − 2εI)~ν
n2 (km)2
2
~
ν
≤ O(1) · 3
γn
= O(1) · 3γn
(2π)2
1
p
· (km) ·
· 2 · 1 + o(1)
det(H − 2εI) n
2
und Satz 20 ist gezeigt.
101
6
Beweis der verbleibenden Sätze
Es sind noch zwei der am Ende von Abschnitt 2 zu beweisenden Sätze verblieben.
Wir beweisen diese in den folgenden Abschnitten und vervollständigen damit den
Beweis von Satz 16.
6.1
Beweis von Satz 21
Satz 21 (Wiederholung) Für ω
~ > 0 nicht nahe an
gibt es ~x, ~y , so dass
Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η)
1 1 1
, ,
3 3 3
, ~λ nahe an
1 1 1
, ,
3 3 3
für ein hinreichend kleines η > 0.
Die
des Satzes besagen, dass ein kleines δ > 0 existiert, so dass ein
Voraussetzungen
ωj − 1 ≥ δ ist und alle λj − 1 ≤ δ sind. Die Funktion
3
3
f (~λ) = λ0 λ0 · λ1 λ1 · λ2 λ2
hat für λj =
1
3
ein globales Minimum von 13 . Die Funktion
g(~ω ) =
1
ω0
ω 0 ω 1 ω 2
1
1
·
·
ω1
ω2
hat für ωj = 31 ein globales Maximum von 3 und es gilt sogar g(~ω ) ≤ 3 − ε für ein
ε > 0 unter unseren Voraussetzungen. Schauen wir uns Ψ(~ω , ~λ, ~x, ~y ) mit xj = s und
yj = 1 einmal an. Das sind die optimalen Parameter gemäß Satz 20 für ωj = λj = 31 .
Dann ist
1−γ
k(1−γ) k(1−γ)
1
~
~
Ψ(~ω , λ, ~x, ~y ) = g(~ω ) · f (λ)
·3
·
,
3
k
da p(1, 1, 1) = 33 . Es ist nun g(~3ω) ≤ 3−ε
< 1, aber andererseits f (~λ) · 3 > 1. Wir
3
unterscheiden jetzt die folgenden beiden Fälle für f (~λ).
1. f (~λ) · 3
k(1−γ)
<
1
1−
ε
4
Wir bekommen mit der obigen Formel
1
3−ε
·
Ψ(~ω , ~λ, ~x, ~y ) <
3
1−
2. f (~λ) · 3
k(1−γ)
≥
1
1−
ε
4
· 3γ =
ε
4
102
1−
1−
ε
3
ε
4
· 3γ = 3γ (1 − η) .
Die Annahme bedeutet
f (~λ) ≥
1
1−
ε
4
1
k(1−γ)
·
1
.
3
1
k(1−γ)
≥ 1 + ε′ . Da f (~λ) ≥ (1 + ε′ ) 31 gibt es ein δ (konstant,
λj − 1 ≥ δ ist. Das heißt, ~λ ist zwar nahe an
abhängig
von
k),
so
dass
ein
3
1 1 1
, , aber immer noch ausreichend weit entfernt, um Satz 22 anzuwenden.
3 3 3
Also folgt hier die Behauptung direkt mit Satz 22.
Nun ist
6.2
1
1− 4ε
Beweis von Satz 23
Satz 23 (Wiederholung) Ist genau ein λj = 0 (äquivalent zu: genau ein ωj = 0),
dann gilt
n
E(~ω , ~λ) ≤ C · 3γ (1 − η) .
Wir beweisen den Satz für λ0 ≥ λ1 , λ2 = 0. Die übrigen Anordnungen folgen analog
zu den Symmetrieüberlegungen zu Lemma 31 auf Seite 66.
Unter der Voraussetzung λ2 = 0 folgt analog zu den überlegungen in Abschnitt 2.2
für alle xj , yj > 0:
E(~ω , ~λ) ≤
q(x0 )
ω0
ω 0 q(x1 )
ω1
·
1
q(s)
!k(1−γ)
λ 1
λ1
·s
·
x1 y1
!n
√
· n2 · O(1)
· p(y0 , y1 , 0)1−γ
λ0
x0 y0
λ 0 ω 1
(34)
λ
Setzen wir noch xj yj = λ0j und verfahren wie in Abschnitt 4, so erhalten wir für die
Basis des exponentiellen Anteils von Gleichung (34):
Q Q
Q2 3γ
1
q(xs)
2
≤
·
· 1+y +2 1+y −y
· 1+
3
q(s)
1 + xy
γ
Dieser Ausdruck ist nun kleiner als 33 · OPT(x, x, 2y, 0) aus Abschnitt 4. Also folge Satz 23 aus der Anwendung der entsprechenden Lemmas aus dem Beweis des
Hauptlemmas 32.
103
7
Ausblick
Die in der Arbeit verwendeten Techniken und die erzielten Resultate sind in ihrem
Prinzip analog zum Fall M = 2. Aber das Auftreten eines weiteren Parameters
im Fall M = 3 führt zu vielen zusätzlichen Details und zu einer Reihe weiterer
Probleme.
• Ist es möglich, das Resultat für alle M > 0 statt für M = 2 (bekannt), M = 3
in dieser Arbeit zu verifizieren? Geht man für diese Fälle vollkommen analog
vor, kommt es zu weiteren Parametern, die geeignet behandelt werden müssen.
• Ein Schritt, um die erste Frage anzugehen, wäre es sicherlich die bisher vorliegenden Beweise rechnerisch zu vereinfachen und analytischer“ zu machen.
”
Man vergleiche dazu noch einmal die Beobachtung auf Seite 51. Leider ist ein
Beweis nach diesem Prinzip noch nicht einmal für den Fall M = 2 gelungen.
• Unser Resultat gilt für k ≥ 10. Es sollte möglich sein, auch wenn wir das nicht
ausgeführt haben, diesen Beweis durch die Behandlung einiger Fälle auf k ≥ 3
zu erweitern. Der Fall k = 2 ist nicht möglich, da Formeln mit k = 2 keinen
2-Kern mit Dichte 1 − γ besitzen können.
• Eine Untersuchung der hier nicht weiter ermittelten Konstanten könnte dazu
führen, dass man auch auf dem 2-Kern direkt eine gegen 1 gehende Wahrscheinlichkeit der Lösbarkeit bekommt. Wir haben das nur auf dem Raum der
unabhängig gezogenen Gleichungen erreicht. Dann könnte man ohne den Satz
von Friedgut auskommen.
Hier besteht Hoffnung, da man die Werte der Konstanten nur am Maximum,
das heißt jeder Parameter ωj , λj ist 31 , bestimmen muß. Die Konstanten aus
dem lokalen Grenzwertsätzen sollten dann zu ermitteln sein.
• Weiter reicht die Frage, ob sich das Problem für Gleichungen über endlichen
Gruppen analog lösen läßt. Das bleibt aber, wie oben gesagt, bereits über allen
zyklischen Gruppen ein offenes Problem.
• Vom Standpunkt der linearen Algebra wäre es natürlicher Gleichungssysteme
zu betrachten, in denen vor den Variablen ein zufälliger Faktor aus Z3 , also
1 oder 2 steht. Dann bekäme man auch natürlichere Aussagen über Matrizen
mit Einträgen aus Z3 heraus.
104
Literatur
[1] Achlioptas, Dimitris und Amin Coja-Oghlan: Algorithmic Barriers from
Phase Transitions. In: FOCS, Seiten 793–802. IEEE Computer Society, 2008.
[2] Alon, Noga und Joel H. Spencer: The Probabilistic Method. John Wiley
& Sons, Inc., New York, 2. Auflage, 2000.
[3] Bhattacharya, Rabi N. und R. Ranga Rao: Normal Approximation and
Asymptotic Expansions. Society for Industrial and Applied Mathematics, Philadelphia, 2010.
[4] Bollobás, Béla: Random Graphs. Cambridge studies in advanced mathematics. Cambridge University Press, Cambridge, 2. Auflage, 2001.
[5] Broder, Andrei Z., Alan M. Frieze und Eli Upfal: On the Satisfiability and Maximum Satisfiability of Random 3-CNF Formulas. In: Ramachandran, Vijaya (Herausgeber): SODA, Seiten 322–330. ACM/SIAM, 1993.
[6] Bruijn, Nicolaas G. de: Asymptotic Methods in Analysis. North-Holland
Publishing Company, Amsterdam; London, 3. Auflage, 1970.
[7] Chvátal, Vasek und Bruce A. Reed: Mick Gets Some (the Odds Are on
His Side). In: FOCS, Seiten 620–627. IEEE Computer Society, 1992.
[8] Coja-Oghlan, Amin: The asymptotic k-SAT threshold. In: Symposium on
Theory of Computing, STOC 2014, New York, NY, USA, May 31 - June 03,
2014, Seiten 804–813, 2014.
[9] Connamacher, Harold: Exact Thresholds for DPLL on Random XOR-SAT
and NP-complete Extensions of XOR-SAT. Theoretical Computer Science,
421:25–55, März 2012.
[10] Cormen, Thomas H., Charles E. Leiserson, Ronald L. Rivest und
Clifford Stein: Introduction to Algorithms. MIT Press, Cambridge, 3. Auflage, 2009.
[11] Creignou, Nadia und Hervé Daudé: Smooth and sharp thresholds for random k-XOR-CNF satisfiability. ITA, 37(2):127–147, 2003.
[12] Creignou, Nadia, Hervé Daudé und Olivier Dubois: Approximating the
satisfiability threshold for random k-XOR-formulas. Combinatorics, Probability
& Computing, 12(2):113–126, 2003.
[13] Dietzfelbinger, Martin, Andreas Goerdt, Michael Mitzenmacher,
Andrea Montanari, Rasmus Pagh und Michael Rink: Tight Thresholds
for Cuckoo Hashing via XORSAT. In: Abramsky, Samson, Cyril Gavoille, Claude Kirchner, Friedhelm Meyer auf der Heide und Paul G.
105
Spirakis (Herausgeber): ICALP (1), Band 6198 der Reihe Lecture Notes in
Computer Science, Seiten 213–225. Springer, 2010.
[14] Dubois, Olivier, Yacine Boufkhad und Jacques Mandler: Typical random 3-SAT formulae and the satisfiability threshold. Electronic Colloquium on
Computational Complexity (ECCC), 10(007), 2003.
[15] Dubois, Olivier und Jacques Mandler: The 3-XORSAT Threshold. In:
FOCS, Seiten 769–778. IEEE Computer Society, 2002.
[16] Durett, Rick: Probability: Theory and Examples. Cambridge University
Press, 4. Auflage, 2013.
[17] Friedgut, Ehud und Jean Bourgain: Sharp thresholds of graph properties, and the k-sat problem. Journal of the American mathematical Society,
12(4):1017–1054, 1999.
[18] Gnedenko, Boris Wladimirowitsch: Einführung in die Wahrscheinlichkeitstheorie. Akademie Verlag GmbH, Berlin, 1991.
[19] Goerdt, Andreas: A Threshold for Unsatisfiability. Journal of Computer
and System Sciences, 53(3):469–486, 1996.
[20] Goerdt, Andreas und Lutz Falke: Satisfiability thresholds beyond kXORSAT. CoRR, abs/1112.2118, 2011.
http://arxiv.org/abs/1112.2118.
[21] Goerdt, Andreas und Lutz Falke: Satisfiability Thresholds beyond kXORSAT. In: Hirsch, Edward A., Juhani Karhumäki, Arto Lepistö
und Michail Prilutskii (Herausgeber): CSR, Band 7353 der Reihe Lecture
Notes in Computer Science, Seiten 148–159. Springer, 2012.
[22] Graham, Ronald L., Donald E. Knuth und Oren Patashnik: Concrete
Mathematics. Addison-Wesley Publishing Company, Reading, 2. Auflage, 1988.
[23] Hajiaghayi, Mohammad Taghi und Gregory B. Sorkin: The Satisfiability Threshold of Random 3-SAT Is at Least 3.52. Technischer Bericht, Massachusetts Institute of Technology Computer Science and Artificial Intelligence
Laboratory, 2003.
http://hdl.handle.net/1721.1/30434.
[24] Jacord, Jean und Philip Protter: Probability Essentials. Springer-Verlag,
Berlin; Heidelberg, 2. Auflage, 2004.
[25] Major, Péter: The proof of the central limit theorem and Fourier analysis I,
2014.
http://www.renyi.hu/~major/probability/central.html.
106
[26] Meyberg, Kurt und Peter Vachenauer: Höhere Mathematik 1. SpringerVerlag, Berlin; Heidelberg, 2. Auflage, 1993.
[27] Molloy, Michael: Cores in random hypergraphs and Boolean formulas. Random Structures & Algorithms, 27(1):124–135, 2005.
[28] Pittel, Boris und Gregory B. Sorkin: The Satisfiability Threshold for
k-XORSAT, August 2014.
http://arxiv.org/abs/1212.1905v2.
[29] Schöning, Uwe: Algorithmik. Spektrum Akademischer Verlag, Heidelberg,
2001.
[30] Schöning, Uwe und Jacob Torán: Das Erfüllbarkeitsproblem SAT. Mathematik für Anwendungen. Lehmanns Media, Berlin, 2012.
[31] Walter, Wolfgang: Analysis 1. Springer-Verlag, Berlin; Heidelberg, 3. Auflage, 1992.
[32] Walter, Wolfgang: Analysis 2. Springer-Verlag, Berlin; Heidelberg, 4. Auflage, 1995.
[33] Wilf, Herbert S.: generatingfunctionology. Academic Press Inc., Boston, 2.
Auflage, 1994.
https://www.math.upenn.edu/~wilf/gfologyLinked2.pdf.
107
A
A.1
A.1.1
Anhang
Lokale Grenzwertsätze
Eindimensionaler Fall
Gitterförmige Verteilungen. Eine Zufallsvariable X hat eine gitterförmige Verteilung, wenn es Konstanten b und h > 0 aus R gibt, dass die Wahrscheinlichkeit
Prob(X ∈ b + hZ) = 1 mit b + hZ = {b + h · z | z ∈ Z} ist. Das größte h, das
diese Forderung erfüllt, nennen wir Spannweite der Verteilung. Die Spannweite ist
der kleinste Abstand zwischen zwei benachbarten Werten, die die Zufallsvariable
annehmen kann.
Beispiel: Für die Verteilung Prob(X = 1) = Prob(X = −1) = 12 ist die Spannweite
h = 2 und für b können wir beispielsweise 1 oder −1 wählen. Bemerkung: Der Wert
b = 0 ist nicht möglich, da h der größtmögliche Wert sein soll.
Für gitterförmig verteilte Zufallsvariablen gilt der folgende Satz aus [16], Theorem
3.5.2.
Satz 40 Seien X 1 , X2 , . . . , Xn unabhängige, identisch verteilte Zufallsvariablen mit
E[Xi ] = 0 und E Xi 2 = σ 2 . Außerdem seien die Xi gitterförmig verteilt mit Spannweite h. Sei Sn = X1 +. . .+Xn eine neue Zufallsvariable und Prob(Xi ∈ b + hZ) =
1, dann ist Prob(Sn ∈ nb + hZ) = 1. Wir betrachten jetzt
nb + hz Sn
√
für x ∈ Ln =
pn (x) = Prob √ = x
z∈Z
n
n
und
n(x) = √
Für n → ∞ gilt jetzt, dass
x2
exp(− 2 )
2σ
2πσ 2
1
für
x ∈ R.
√
n
pn (x) − n(x) → 0.
sup h
x∈Ln
Das heißt für ein gegebenes x und eine Reihe unabhängiger, identisch gitterförmig
verteilter Zufallsvariablen können wir sagen, dass
Sn
h · n(x)
pn (x) = Prob √ = x = √
· (1 + o(1))
(35)
n
n
√
sofern Sn / n den Wert x annehmen kann.
108
Nun zu einer konkreten Anwendung dieses Satzes. Betrachten wir einmal die Gesamtzahl der Formeln |F| aus Gleichung (1).
X
X km m
mit m = (1 − γ)n ∈ N und
zi = km
|F| = 3 ·
z
,
.
.
.
,
z
1
n
z ≥2
i
Wir suchen eine möglichst genaue Anschätzung dieser Summe. Die vorher grbrauchte
Abschätzung mit der erzeugenden Funktion exp(x) − x − 1 und
X km (km)!
≤ km (exp(x) − x − 1)n
z1 , . . . , zn
x
z ≥2
i
ist hier nicht ausreichend. Da |F| im Nenner steht, brauchen wir eine untere Schranke. Dazu zunächst noch eine Vorbetrachtung.
Wir formen die Summe geeignet um. Mit der Definition des Multinomialkoeffizienten
erhalten wir:
X 1
1
m
· ... ·
|F| = 3 · (km)! ·
z
!
zn !
1
zi ≥2
Pn
Da immer
i=1 zi = km gilt, egal wie die zi im jeweiligen Summanden gerade
gewählt sind, können wir einen Parameter s > 0 einführen und mit skm erweitern.
Innerhalb der Summe teilen wir skm entsprechend der zi auf. So erhalten wir:
X sz1
szn
m (km)!
|F| = 3 · km ·
· ... ·
s
z
!
zn !
1
z ≥2
i
Beobachten wir einen einzelnen Faktor
rieren die obere Grenze für zi , so ist
∞
X
sz
z≥2
z!
=
s zi
zi !
über die ganze Summe hinweg und igno-
s2 s3 s4
+
+
+ . . . = exp(s) − s − 1 = q(s) .
2
3!
4!
z
s i
jeweils durch exp(s) − s − 1 teilen, können wir die einzelnen
Wenn wir die (z
i!
Faktoren als Wahrscheinlichkeiten auffassen. Erweitern wir die Summe daher noch
mit (exp(s)−s−1)n . Zur kürzeren Schreibweise definieren wir q(x) := exp(x)−x−1.
z1
q(s)n X
szn
s
m
|F| = 3 · (km)! · km ·
· ... ·
s
z1 !q(s)
zn !q(s)
z ≥2
i
Man beachte, der Wert von |F| hat sich durch diese Operationen nicht verändert.
Dieser Zusammenhang gilt für alle s > 0.
Wir führen jetzt die Zufallsvariablen X1 , . . . , Xn ein. Diese sind voneinander unabhängig und identisch wie folgt verteilt.
Prob(X = z) =
sz
z! · q(s)
109
für z ≥ 2
(36)
Über den Parameter s lässt sich der Erwartungswert der Zufallsvariablen einstellen.
Siehe dazu auch Abschnitt 1.5.2.
Setzen wir die Wahrscheinlichkeiten in |F| ein, dann erhalten wir:
|F| = 3m · (km)! ·
q(s)n X
Prob(X1 = z1 ) · . . . · Prob(Xn = zn )
·
km
s
z ≥2
i
Beachte: Die Summe läuft über alle möglichen Werte der zi , die in Summe gerade
km ergeben. Betrachten wir jetzt die Zufallsvariable Sn = X1 +. . .+Xn , dann haben
wir gerade die Wahrscheinlichkeit, dass Sn = km ist.
q(s)n X
Prob(X1 = z1 ∧ . . . ∧ Xn = zn )
|F| = 3m · (km)! · km ·
s
z ≥2
i
q(s)n
= 3m · (km)! · km · Prob(X1 + . . . + Xn = km)
s
n
q(s)
= 3m · (km)! · km · Prob(Sn = km)
s
Für Sn gilt E[Sn ] = n · E[X]. Außerdem hat Sn noch die wichtige Eigenschaft,
dass Sn den Wert km tatsächlich annehmen kann. Die Zufallsvariable X nimmt die
Werte aller ganzen Zahlen ≥ 2 an, daher wird jede ganze Zahl ≥ 2n von der Summe
X1 +. . .+Xn getroffen. Wobei wir hier sinnvollerweise annehmen, dass km ≥ 2n ∈ Z
gilt.
Genauer gesagt, ist X eine gitterförmig verteilte Zufallsvariable mit Spannweite h =
1 und b = 2, wie sie vom lokalen Grenzwertsatz benötigt wird. Es handelt sich um
die Poissonverteilung, bedingt auf X ≥ 2. Der Satz lässt sich aber noch nicht direkt
anwenden, da E[X] 6= 0 ist. Daher normieren wir X geeignet.
Betrachten wir jetzt neue Zufallsvariablen X′1 , . . . , X′n , die unabhängig identisch
verteilt sind wie X′ = X − E[X]. Dann ist E[X′ ] = 0 und für S′n , die Summe dieser
Zufallsvariablen, gilt
S′n = X′1 + . . . + X′n = X1 − E[X1 ] + . . . + Xn − E[Xn ]
= Sn − nE[X]
und außerdem haben wir E[S′n ] = 0 und zwischen S′n und Sn besteht der folgende
Zusammenhang:
S′
√n = 0 ⇔ Sn = nE[X] = E[Sn ]
n
Auf S′n ist der lokale Grenzwertsatz jetzt anwendbar. Für das Argument x = 0 aus
Satz 40 erhalten wir
′
Sn
pn (0) = Prob √ = 0 = Prob(Sn = E[Sn ]) und
n
1
, σ 2 = Var[X].
n(0) = √
2
2πσ
110
Der Wert pn (0) ist hier die Wahrscheinlichkeit, dass unser ursprüngliches Sn seinen
Erwartungswert trifft. Eingesetzt in Gleichung (35) ergibt sich dann
1
1
pn (0) = Prob(Sn = E[Sn ]) = √
· (1 + o(1)) = Θ √
(37)
n
2πσ 2 n
sofern das σ 2 von X bzw. X′ endlich ist.
Jetzt müssen wir noch den Erwartungswert von Sn auf den gewünschten Wert km
einstellen. Da X gitterförmig mit h = 1 verteilt ist und k sowie m ganze Zahlen
sind, wird der Wert auch von Sn getroffen. Wir wählen den Parameter s in der
ergibt. Der Wert
Verteilungsfunktion (36) von X so, dass sich E[X] = E[Snn ] = km
n
von s ist nicht mehr wesentlich von n abhängig, da m so gewählt ist, dass die
Beziehung nΓ − 1 < m ≤ nΓ gilt.
Es bleibt noch zu klären, ob ein geeigneter Wert für den Parameter s existiert. Dazu
betrachten wir den Erwartungswert E[X] genauer.
E[X] =
X
z≥2
z · Prob(X = z) =
X
z≥2
z·
s X sz−1
sz
=
z!q(s)
q(s) z≥2 (z − 1)!
s
sq ′ (s)
s
s
=
· s+
+
+ ... =
q(s)
2
3!
q(s)
{z
}
|
2
3
q ′ (s):=exp(s)−1
Die Funktion in Abhängigkeit von s, die wir für E[X] erhalten haben, definieren wir
als Q(s). Aus Lemma 18 folgt, dass es für jeden Wert km > 2 eine Zahl s > 0 gibt
mit
km
s(exp(s) − 1)
=
= k(1 − γ).
(38)
Q(s) =
exp(s) − s − 1
n
Betrachten wir abschließend voch die Varianz von X. Es gilt
σ 2 = E X2 − E[X]2 = E (X − E[X])2 = E[X′ ] .
Der Wert von σ 2 ändert sich durch das normieren von X zu X′ nicht. Für die
Gleichung (37) brauchen wir σ 2 = O(1). Betrachten wir E[X2 ].
X
E X2 =
z2 ·
sz
s X
sz−1
=
z·
z!q(s)
q(s) z≥2
(z − 1)!
z≥2
sz−1
s X
sz−1
+
(z − 1) ·
=
q(s) z≥2
(z − 1)! (z − 1)!
!
z−1
z−2
X
X
s
s
s
+
s
=
q(s)
(z − 2)! z≥2 (z − 1)!
z≥2
=
s2 exp(s) + s(exp(s) − 1)
q(s)
111
Damit haben wir für σ 2 den Ausdruck:
σ2 =
s2 exp(s) s(exp(s) − 1) s2 (exp(s) − 1)2
−
+
q(s)
q(s)
q(s)2
{z
} |
{z
}
|
=Q(s)2
=Q(s)
Also ist σ 2 endlich. Außerdem gilt 0 < σ 2 , da X nicht konstant ist.
√
√
Nehmen wir noch die Stirlingformel für (km)! hinzu und kürzen km gegen n,
da k(1 − γ) durch eine Konstante beschränkt ist. Somit erhalten wir den folgenden
relativ einfachen Ausdruck für |F|.
|F| =
A.1.2
3m q(s)n (km)km
·
· Θ(1)
skm
exp(km)
mit Q(s) = k(1 − γ)
(39)
Zweidimensionaler Fall
Wir benötigen einen lokalen Grenzwertsatz für zweidimensionale Zufallsvektoren,
die Werte in einem Gitter annehmen. Die Situation ist analog zu den Bedingungen
im vorangegangenen Abschnitt. Im Detail wird es jedoch etwas komplizierter. Wir
stellen die wesentlichen Punkte nach [3] Kapitel 5 dar.
Wir betrachten einen Zufallsvektor Z = (Y1 , Y2 ), wobei gilt:
Prob(Z = (0, 0)) > 0 .
Ist L die von {~a | Prob(Z = ~a) > 0} erzeugte Untergruppe im R2 mit Addition,
dann ist
L = ξ~1 · Z + ξ~2 · Z
für zwei in R2 linear unabhängige Vektoren ξ~1 , ξ~2 . In [3] wird
L als minimal Lattice
von Z bezeichnet. Wir betrachten die 2 × 2-Matrix ξ~1 , ξ~2 und es ist
~
~
det L := det ξ1 , ξ2 die Determinante von L. Das ist nach [3] Korollar 21.7 wohldefiniert, die ξ~1 , ξ~2 von
oben sind nicht eindeutig.
Nehmen wir zusätzlich an, dass
E[Z] = (0, 0) ,
Cov[Z] = I2 =
1 0
0 1
.
Wir betrachten jetzt Z1 , . . . , Zn unabhängige, wie Z verteilte, Zufallsvektoren und
Sn = Z1 + · · · + Zn . Dann ist Sn ∈ L. Für ~a ∈ L, also ~a = (a1 , a2 ), interessieren wir
uns für Prob(Sn = ~a). Dazu setzen wir
~a
1
~x = √ = √ (a1 , a2 ) = (x1 , x2 ) .
n
n
112
Dann ist √Ln die von { √~an | Prob(Z = ~a) > 0} erzeugte Untergruppe von R2 . Wir
schreiben
pn (~x) = Prob(Sn = ~a) .
Immer ist ~a ∈ L , also ~x ∈ √Ln . Für ~x = (x1 , x2 ) ist die Dichtefunktion der zweidimensionalen Normalverteilung mit Kovarianz I2 und Erwartungswert (0, 0)
1
1
2
2
n(x) =
.
· exp − · x1 + x2
2π
2
Aus [3] Theorem 22.1 ergibt sich für die hier betrachtete Situation k = 2 und s = 2:
Satz 41
Der Satz besagt, dass
pn (~x) − det L · n(~x) = o 1
n
n
det L
· n(~x) + o
pn (~x) =
n
1
,
n
und für konstantes ~x ist der erste Summand maßgeblich.
Anwendung mit beliebiger Varianz. Sei V = Cov[Z] jetzt eine beliebige invertierbare Kovarianzmatrix von Z. Es hat V eine Inverse V −1 und es gibt eine
1
1
1
symmetrische Matrix V − 2 mit V − 2 · V − 2 = V −1 .
Sei nun Sn = Z1 +· · ·+Zn wie oben. Uns interessiert für ~a ∈ L die Wahrscheinlichkeit
1
1
Prob(Sn = ~a). Nun ist Sn = ~a genau dann, wenn V − 2 Sn = V − 2 ~a und
1
1
1
V − 2 Sn = V − 2 Z1 + · · · + V − 2 Zn ,
wobei wir unsere Zufallsvektoren für die folgenden Matrixoperationen immer als
Spaltenvektoren betrachten.
1
1
1
Die V − 2 Zi sind verteilt wie V − 2 Z und die Kovarianzmatrix von V − 2 Z ist die Iden1
dität. Wir wollen den letzten Satz hier anwenden. Der minimal Lattice von V − 2 Z
ergibt sich als
1
1
LV = V − 2 ξ1 · Z + V − 2 ξ2 · Z ,
Für die Determinante von Lv erhalten wir:
1
1
det LV = det V − 2 · (ξ1 , ξ2 ) = √
· det L
det V
√
√
1
1
Wir schreiben wieder ~a = ~x n. Dann ist V − 2 · ~a = n · V − 2 · ~x. Unter direkter
Anwendung des letzten Satzes bekommen wir:
Satz 42
det L 1
pn (~x) = √
· · n(~x) + o
det V n
113
1
n
Beweis von Formel (27). Um die Formel (27) auf Seite 93 zu beweisen, betrachten wir folgendes: Wir haben λ1 , λ2 in einer Umgebung von 13 . Für λ1 = λ2 = 31
haben wir y1 = y2 = 1. Damit kennen wir den Zufallsvektor Z genau. Dieser hat
den minimal Lattice
3
1
· Z also det L = 3 .
·Z +
L =
0
1
Die Kovarianzmatrix von Z ist nach Abschnitt (1.5.2) und Formel 25 auf Seite 90:
k
2 −1
Cov[Z] = V = ·
−1
2
9
Wir betrachten jetzt Z − E[Z] und Z1 + · · · + Zm − m · E[Z], Zj unabhängig und
verteilt wie Z. Die Kovarianzmatrix bleibt unverändert und der minimal Lattice
bleibt gleich. Es ist

 √
√
r
3
+
1
3
−
1
1
3
3 1 
2 1
 .
V −1 =
,
V −2 =
·
· ·
√
√
1 2
k
k 2
3−1
3+1
Unter Anwendung von Satz 42 bekommen wir:
Prob Z1 + · · · + Zm − m · E[Z] = 0 = pm (0, 0)
1
1 1
3
·
= O
·
= √
m
det V m 2π
(40)
Für λ1 , λ2 nahe an 13 ändern sich die Parameter y1 , y2 etwas, bleiben aber nahe an 1.
Also ändert sich die Kovarianzmatrix und die Determinanten nur geringfügig. Der
minimal Lattice bleibt gleich. Also finden wir sicherlich eine obere Schranke C, so
dass
1
pm (0, 0) ≤
·C ,
m
die für alle λ1 , λ2 nahe an 31 gilt. Damit haben wir für λ1 = λ2 = 13 :
1
pm (0, 0) = O
m
114
A.2
Beweise einiger verwendeter Ungleichungen
Hier sollen die im Laufe der Beweise verwendeten, nicht ganz so offensichtlichen,
Ungleichungen und die zugehörigen Beweise gesammelt werden. Zunächst wollen
wir noch einmal die in den vorangegangenen Abschnitten definierten Funktionen
wiederholen.
A.2.1
Wiederholung der wichtigsten Definitionen
• Gleichung (8) – einzelner Summand des Erwartungswertes E[X2 ]
n
w
~
E(w,
~ ~l) =
P Qm
· K i=1
Q2 P
· j=0 u~j
k0,i ,k1,i ,k2,i
P
k·m
k
~
z
z1 ,...,zn
lj
a~j
• Gleichung (9) mit erster und zweiter Ableitung
q(x) := exp(x) − x − 1
dq(x)
= exp(x) − 1
q ′ (x) :=
dx
d2 q(x)
q ′′ (x) :=
= exp(x)
dx2
• Gleichung (13) – das Polynom
p(y0 , y1 , y2 ) :=
r = exp( 2πı
)
3
k
k 1 · (y0 + y1 + y2 )k + y0 + ry1 + r2 y2 + y0 + r2 y1 + ry2
3
• Gleichung (38) – zur Bestimmung des Parameters s
Q(s) :=
s(exp(s) − 1)
km
=
= k(1 − γ)
exp(s) − s − 1
n
• Gleichungen (17) – zur Abschätzung der Summanden bei λ1 = λ2
2q(sx)
:= 1 +
q(s) Q
1
OPT2 (x, y) :=
1 + 2xy
OPT1 (x)
OPT3 (y)
:= (1 + 2y)Q + 2(1 − y)Q
OPT(x, y)
:= OPT1 (x) · OPT2 (x, y) · OPT3 (y) ,
115
• Gleichung (21) – Abschätzung der Summanden bei λ1 6= λ2
q(x1 s) q(x2 s)
+
q(s)
q(s)
Q
1
OPT2 (x1 , x2 , y1 , y2 ) :=
1 + x1 y1 + x2 y2
OPT1 (x1 , x2 )
:= 1 +
OPT3 (y1 , y2 )
:= (1 + y1 + y2 )Q +
Q
OPT(x1 , x2 , y1 , y2 )
A.2.2
2 (1 + y1 2 + y2 2 − y1 − y2 − y1 y2 ) 2
:= OPT1 (x1 , x2 ) · OPT2 (x1 , x2 , y1 , y2 ) · OPT3 (y1 , y2 )
Beweise
Lemma 43 Seien
n > 0, ωi > 0 und ω0 + ω1 + ω2 = 1. Für den Multinomialkoeffin
zient ω0 n,ω1 n,ω2 n gilt die folgende Ungleichung:
ω0 ω1 ω2 n
1
1
n
1
·
·
≤
ω0
ω1
ω2
ω0 n, ω1 n, ω2 n
Beweis. Das ist bekannt, folgt aber auch mit der Erzeugendenfunktion
nn = (ω0 n + ω1 n + ω2 n)n ,
die sich als Potenzreihe in drei Variablen schreiben läßt. Es ist
n n
a
b
c
Koeff (ω0 n + ω1 n + ω2 n) , (ω0 n) · (ω1 n) · (ω2 n) =
a, b, c
und mit a = ω0 n, b = ω1 n, c = ω2 n erhalten wir:
n
ω0 n, ω1 n, ω2 n
≤
n(ω0 +ω1 +ω2 )n
(ω0 n)ω0 n · (ω1 n)ω1 n · (ω2 n)ω2 n
=
nω 0 n · nω 1 n · nω 2 n
(ω0 n)ω0 n · (ω1 n)ω1 n · (ω2 n)ω2 n
=
1
ω0
ω 0 ω 1 ω 2 n
1
1
·
·
ω1
ω2
Lemma 18 (Wiederholung) Sei Q(x) =
für x > 0 die folgenden Eigenschaften:
116
x · (exp(x) − 1)
. Die Funktion Q(x) hat
exp(x) − x − 1
1. Q(x) ist streng monoton wachsend.
2. Der Grenzwert für x → 0 ist limx→0 Q(x) = 2.
3. Der Grenzwert für x → ∞ ist limx→∞ Q(x) = ∞.
4. Es ist x < Q(x). Für x > 2 gilt außerdem Q(x) < x + 1.
Beweis.
1. Für x > 0 sind alle Faktoren in Q(x) größer als 0. Daher ist Q(x) streng
monoton wachsend genau dann, wenn 1/Q(x) streng monoton fallend ist. Wir
zeigen, dass die Ableitung von 1/Q(x) kleiner als 0 ist.
1
exp(x) − x − 1
(exp(x) − 1) − x
1
1
=
=
= −
Q(x)
x(exp(x) − 1)
x(exp(x) − 1)
x exp(x) − 1
Für die Ableitung erhalten wir
!
d 1
1
1
1
exp(x)
d
=
=− 2 +
−
<
0
dx Q(x)
dx x exp(x) − 1
x
(exp(x) − 1)2
und es gilt
exp(x)
exp(x)
1
1
+
⇐⇒
2 < 0
2 < 2
2
x
x
(exp(x) − 1)
(exp(x) − 1)
exp(2x) − 2 exp(x) + 1
(exp(x) − 1)2
=
⇐⇒ x2 <
exp(x)
exp(x)
2
⇐⇒ x < exp(x) − 2 + exp(−x) = 2 cosh(x) − 2
x2 x4 x6
2
⇐⇒ x < 2 1 +
+
+
+ ... − 2
2
4!
6!
−
und die letzte Ungleichung gilt.
2. Der Grenzwert für x → 0 ist limx→0 Q(x) = 2.
x3
x2
+
+
.
.
.
x
x
+
2
3!
x(exp(x) − 1)
lim
= lim x2 x3 x4
x→0 exp(x) − x − 1
x→0
+ 3! + 4! + . . .
2
2
x2 1 + x2 + x3! + . . .
= lim x2
2
x→0
1 + 2x
+ 2x4! + . . .
2
3!
1 + o(1)
= lim 2
x→0 1 + o(1)
= 2
117
Denn es gilt 1 ≤ 1 +
2x
3!
+
2x2
4!
+ ...
≤ 1+
1
1−x
2
+ x3!
x
+ 1−x
x
2
=1
x < 1 mit der geometrischen Reihe und
o(1) ein Ausdruck ist, der für x → 0 gegen 0 geht.
+ ...
≤
1
1−x
= 1 + o(1). Wobei hier
3. Der Grenzwert für x → ∞ ist limx→∞ Q(x) = ∞.
exp(x) − 1
lim x
=
x→∞ exp(x) − x − 1
lim x 1 +
x→∞
x2
2
+
für 0 ≤
x3
3!
x
+
x4
4!
+ ...
!
= lim x (1 + o(1))
x→∞
= ∞
4. Der erste Teil ergibt sich direkt durch Umstellen. Es gilt
x
xq ′ (x)
(exp(x) − x − 1) + x
=x 1+
Q(x) =
=x
q(x)
exp(x) − x − 1
exp(x) − x − 1
und damit x < Q(x).
Für den zweiten Teil formen wir wie folgt um.
x(exp(x) − 1)
<x+1
exp(x) − x − 1
⇐⇒ x(exp(x) − 1) < x(exp(x) − x − 1) + (exp(x) − x − 1)
⇐⇒ x(exp(x) − 1) < x(exp(x) − 1) − x2 + (exp(x) − x − 1)
⇐⇒ x2 < exp(x) − x − 1
Es ist
x2
2
+
x3
3!
+
x4
4!
≤ exp(x) − x − 1. Also folgt die Ungleichung aus
x
x2
1
2
2
+ +
x ≤x
2 3!
4!
2
1
x
x
⇐⇒ 1 < + +
2 3!
4!
und die letzte Ungleichung gilt für x > 2.
Lemma 44 Sei s > 0 eine Konstante und 0 ≤ x ≤ 1. Es gelten die folgenden
Ungleichungen.
1≥
exp(xs) − xs − 1
exp(xs) − 1
exp(xs) − 1
exp(xs)
≥
≥x
≥
≥0
exp(s)
exp(s) − 1
exp(s) − s − 1
exp(s) − 1
{z
} |
{z
}
|
:=K(x)
:=L(x)
118
Beweis. Der erste Teil folgt direkt duch Umstellen der Ungleichung. Es gilt
exp(xs)
exp(xs) − 1
≥
exp(s)
exp(s) − 1
⇐⇒ exp(s) exp(xs) − exp(xs) ≥ exp(s) exp(xs) − exp(s)
⇐⇒ exp(s) ≥ exp(xs)
für 0 ≤ x ≤ 1. Die zweite Ungleichung erhalten wir mit der folgenden Umformung.
exp(xs) − xs − 1
exp(xs) − 1
≥
exp(s) − 1
exp(s) − s − 1
⇐⇒ exp(xs) − 1 exp(s) − 1 − s exp(xs) − 1 ≥
exp(xs) − 1 exp(s) − 1 − xs exp(s) − 1
⇐⇒ x exp(s) − 1 ≥ exp(xs) − 1
Für x = 0 und x = 1 sind die beiden Seiten der Ungleichung gleich 0 beziehungsweise
exp(s) − 1. Da exp(xs) − 1 monoton steigend und konvex ist, folgt die Ungleichung
für 0 ≤ x ≤ 1.
Die letzte Ungleichung gilt für x = 0. Für diesen Fall sind beide Seiten gleich 1.
Betrachten wir jetzt den Fall x > 0. Es ist
exp(xs) − xs − 1
exp(xs) − 1
≥x
exp(s) − s − 1
exp(s) − 1
exp(xs) − 1
exp(s) − 1
≥x
⇐⇒
exp(s) − s − 1
exp(xs) − xs − 1
s exp(s) − 1
xs exp(xs) − 1
⇐⇒
≥
exp(s) − s − 1
exp(xs) − xs − 1
{z
} |
{z
}
|
=Q(s)
=Q(xs)
und für x = 1 sind beide Seiten gleich Q(s). Da nach Lemma 18 Q(xs) streng
monoton wachsend ist, gilt die Ungleichung für 0 ≤ x ≤ 1.
Lemma 45 Seien A ≥ 1, B ≥ 0 und 0 < γ < 1. Es gilt
(A + B)1−γ ≤ A1−γ + B 1−γ
Beweis. Für alle A und B = 0 gilt die Ungleichung, denn
(A + 0)1−γ = A1−γ ≤ A1−γ + 0.
119
Sei jetzt B > 0, A fest. Wir betrachten die Ableitung in B. Es ist
d
d
(A + B)1−γ ≤
A1−γ + B 1−γ
dB
dB
−γ
⇐⇒ (1 − γ) · (A + B)
≤ (1 − γ) · B −γ
B γ ≤ (A + B)γ
⇐⇒
Die letzte Ungleichung gilt, denn B ≤ A+ B. Also gilt die Behauptung für alle A, B.
Lemma 46 Sei s > 2 eine Konstante und Y (x) die Funktion aus Gleichung (19).
Für alle 0 < x < 1 gilt
q ′ (xs)
q ′ (s)
Y (x) =
2q(xs)
2q ′ (xs)
1+
−x ′
q(s)
q (s)
ist streng monoton wachsend.
Beweis. Wir teilen den Zähler und Nenner des Bruches durch
Das ergibt mit
q(xs)
q ′ (xs)
=
exp(xs)−xs−1
exp(xs)−1
Y (x) =
=1−
q ′ (xs)
q ′ (s)
xs
:
exp(xs)−1
1
q (s) 2q(xs)
q (s)
+ ′
·
− 2x
′
q (xs) q (xs) q(s)
′
′
q ′ (s)
1
q(xs)
2
1
+
·
− 2x
q ′ (xs) q ′ (xs) q(s)
q ′ (s)
1
1
xs
2
1− ′
− 2x
+
q ′ (xs) q(s)
q (xs)
=
=
120
> 0, da x > 0.
Wir zeigen: Der Nenner ist streng monoton fallend. Es ist
d
s · exp(xs)
1
=
−
2
dx q ′ (xs)
q ′ (xs)
s · exp(xs) − 1 − xs2 · exp(xs)
d
xs
1− ′
= −
2
dx
q (xs)
q ′ (xs)
s · exp(xs)
1
− xs
= −
2 · 1 −
exp(xs)
q ′ (xs)
s · exp(xs)
1
=
.
2 · xs − 1 +
exp(xs)
q ′ (xs)
Setzen wir die Teile zusammen, so ist die Ableitung des Nenners
1
2
s · exp(xs)
′
· xs − 1 +
−2
q (s) ·
2 · −1 +
q(s)
exp(xs)
q ′ (xs)
!
s · exp(xs)
2(xs − 1)
2
′
= q (s) ·
−2 < 0.
+
2 · −1 +
q(s)
q(s) · exp(xs)
q ′ (xs)
Die Faktoren vor der Klammer sind größer als 0 und können für sehr kleine x beliebig
groß werden. Wir zeigen, dass der Ausdruck in der Klammer kleiner als 0 ist. Wir
vergrößern den Ausdruck, es ist
2
2(xs − 1)
+
q(s)
q(s) · exp(xs)
2(xs − 1)
2
2xs
≤ −1 +
+
= −1 +
q(s)
q(s)
q(s)
2s
,
≤ −1 +
q(s)
−1 +
also folgt die Behauptung aus
−1 +
2s
< 0
q(s)
⇐⇒
2s ≤ q(s) .
Die letzte Ungleichung gilt für s ≥ 2.
Lemma 47 Seien 0 ≤ x, y ≤ 1, C > 0, Q > 2. Die Ungleichung
C ·x
(1 + 2y)Q−1 − (1 − y)Q−1
T
Q
Q
(1 + 2y) + 2(1 − y)
1 + 2xy
ist äquivalent zu
(1 + 2y)Q−1 − (1 − y)Q−1
1 − 2xy · (C − 1) ·
T C ·x
(1 + 2y)Q−1 + 2(1 − y)Q−1
121
Beweis. Seien A = (1+2y)Q−1 , B = (1−y)Q−1 . Das Lemma folgt aus der folgenden
äquivalenten Umformung.
C ·x
A−B
T
(1 + 2y) · A + (1 − y) · 2B
1 + 2xy
(multiplizieren mit Nenner)
⇐⇒ (A − B) + 2xy · (A − B) T C · x · (1 + 2y) · A + C · x · (1 − y) · 2B
(2xy nach links, C · x ausklammern)
⇐⇒ (A − B) + 2xy · (A − B) − 2xy · C · (A − B) T C · x · (A + 2B)
(links (A − B) ausklammern, durch (A + 2B) > 0 teilen)
A−B
⇐⇒ 1 − 2xy · (C − 1) ·
T C ·x
A + 2B
Lemma 48 Sei 0 ≤ y = Y (x) ≤ 1, Q ≥ 2, y ′ =
dY (x)
.
dx
Q−1
Die Ableitung der Funktion
(1 + 2y)Q−1 − (1 − y)
(1 + 2y)Q−1 + 2(1 − y)Q−1
nach x ist gleich
=1+y−2y 2
y ′ · (Q − 1) ·
}|
{ Q−2
z
9 · (1 + 2y)(1 − y)
(1 + 2y)Q−1 + 2(1 − y)Q−1
2
Beweis. Seien A = (1 + 2y)Q−2 , B = (1 − y)Q−2 . Es ist
d
d
((1 + 2y) · A) = 2(Q − 1) · y ′ · A und
(1 + 2y)Q−1 =
dx
dx
d
d
((1 − y) · B) = −(Q − 1) · y ′ · B.
(1 − y)Q−1 =
dx
dx
Wir schreiben die Ableitung der Funktion als
d
dx
(1 + 2y) · A − (1 − y) · B
(1 + 2y) · A + 2(1 − y) · B
(2A
+
B)
·
(1
+
2y)
·
A
+
2(1
−
y)
·
B
= y ′ · (Q − 1) ·
2
(1 + 2y) · A + 2(1 − y) · B
!
(1 + 2y) · A − (1 − y) · B · (2A − 2B)
−
2
(1 + 2y) · A + 2(1 − y) · B
122
und betrachten den Zähler des Bruches. Es ist
(2A + B) · (1 + 2y) · A + 2(1 − y) · B
− (1 + 2y) · A − (1 − y) · B · (2A − 2B)
= 2(1 + 2y) · A2 + 4(1 − y) · AB + (1 + 2y) · AB + 2(1 − y) · B 2
=
−2(1 + 2y) · A2 + 2(1 − y) · AB + 2(1 + 2y) · AB − 2(1 − y) · B 2
6(1 − y) + 3(1 + 2y) · AB
= 9 · AB.
Also ist die Ableitung gleich
y ′ · (Q − 1) ·
und das Lemma folgt.
9 · AB
(1 + 2y) · A + 2(1 − y) · B
2
Lemma 49 Sei Q > 2 eine Konstante und X(y) die Funktion aus Gleichung (20).
Für alle 0 < y < 1 gilt
X(y) =
ist streng monoton wachsend.
(1 + 2y)Q−1 − (1 − y)Q−1
(1 + 2y)Q−1 + 2(1 − y)Q−1
Beweis. Wir zeigen, dass die Ableitung
y ′ = 1 erhalten wir für die Ableitung
dX(y)
dy
> 0 ist. Nach Lemma 48 mit y = x,
=1+y−2y 2
}|
{ Q−2
z
9 · (1 + 2y)(1 − y)
!
dX(y)
= (Q − 1) ·
2 > 0.
dy
(1 + 2y)Q−1 + 2(1 − y)Q−1
Die Ableitung ist also > 0 genau dann, wenn (1 + 2y)(1 − y) > 0 ist, da der Nenner
> 0 ist. Das ist für 0 < y < 1 sicher der Fall.
Lemma 50 Sei Q > 3 eine Konstante und Xz (y) die linke Seite von Gleichung
(23). Es gilt:
1. Für 0 ≤ y ≤
1
2
ist
Xz (y) =
(1 + 2y)Q−1 + (4y − 1) (1 − y)2 + 3y 2
(1 + 2y)Q−1 + 2(1 − y) (1 − y)2 + 3y 2
streng monoton steigend.
2. Für y ≥
1
2
ist Xz (y) > 1.
123
Q2 −1
Q2 −1
Beweis. Für den ersten Teil schreiben wir die Funktion zuerst um. Der Bruch ist
äquivalent zu
Q −1
(1 − y)2 + 3y 2 2
.
mit f (y) :=
(1 + 2y)Q−1
1 + (4y − 1) · f (y)
1 + 2(1 − y) · f (y)
Wir zeigen zunächst, dass f (y) für 0 ≤ y ≤
tung von ln f (y). Es ist f (y) > 0 und
df (y)
< 0
dy
⇐⇒
1
2
fällt. Dazu betrachten wir die Ablei-
d ln f (y)
< 0.
dy
2
Q
8y − 2
−1
− (Q − 1)
2
2
1 − 2y + 4y
1 + 2y
(Q − 2)(4y − 1)(1 + 2y) − 2(Q − 1) 1 − 2y + 4y 2 !
=
< 0
1 − 2y + 4y 2 (1 + 2y)
d ln f (y)
=
dy
Der Nenner ist > 0, also folgt die Behauptung aus
(Q − 2) 8y 2 + 2y − 1 − (Q − 1) 8y 2 − 4y + 2 < 0
⇐⇒ Q(6y − 3) − −8y 2 − 8y + 4 < 0
⇐⇒ −8y 2 + (6Q − 8)y − 3Q + 4 < 0 .
Die linke Seite der Ungleichung hat ihr Maximum bei
−16y + 6Q − 8 = 0
⇐⇒
y=
1
6Q − 8
≥
16
2
Es reicht also aus, dass die Ungleichung bei y =
−8 ·
1
2
für Q ≥ 3 .
gilt. Es ist
1
1
+ (6Q − 8) · − 3Q + 4 = −4 < 0 ,
4
2
also fällt f (y) für 0 ≤ y ≤ 21 . Kommen wir nun zu der uns eigentlich interessierenden
Ableitung. Wir schreiben f ′ für die Ableitung dfdy(y) und f für f (y).
d
dy
1 + (4y − 1) · f (y)
1 + 2(1 − y) · f (y)
=
4f + (4y − 1)f ′ 1 + 2(1 − y)f
2
1 + 2(1 − y)f
1 + (4y − 1)f − 2f + 2(1 − y)f
−
2
1 + 2(1 − y)f
124
Der Nenner der Ableitung ist > 0, also folgt die Behauptung aus
4f + (4y − 1)f ′ 1 + 2(1 − y)f
− 1 + (4y − 1)f 2(1 − y)f ′ − 2f > 0
⇐⇒ 4f + 8(1 − y)f 2 + (4y − 1)f ′ + 2(4y − 1)(1 − y)f · f ′
+ 2f + 2(4y − 1)f 2 − 2(1 − y)f ′ − 2(4y − 1)(1 − y)f · f ′ > 0
⇐⇒ 6f + 6f 2 + (6y − 3)f ′ > 0 .
Die letzte Ungleichung gilt, denn f, f 2 sind positiv und für y ≤ 12 ist sowohl (6y − 3)
als auch f ′ negativ. Also sind alle Summanden positiv und die Behauptung folgt.
Für den zweiten Teil des Lemmas schreiben wir die Funktion ebenfalls um. Es ist
(4y − 1) = 2(1 − y) + (6y − 3)
also ist der Bruch äquivalent zu
1+
(6y − 3) (1 − y)2 + 3y 2
Q2 −1
(1 + 2y)Q−1 + 2(1 − y) (1 − y)2 + 3y 2
und der zweite Summand ist > 0 für y > 12 .
125
Q2 −1
Thesen
1. Schwellwerte für die Lösbarkeit zufälliger Gleichungen modulo 2 lassen sich
auf den Fall modulo 3 erweitern.
2. Die Techniken des modulo 2-Falls sind unter einigem analytischen Aufwand
auf modulo 3 zu übertragen.
3. Die Übertragung auf modulo M , M beliebig, wäre interessant. Ohne eine technisch einfache analytische Behandlung des Falles modulo 3 erscheint das aber
zu kompliziert.
4. Die Verwendung eines mit komplexen Zahlen definierten Polynoms erlaubt es,
die Vielzahl der Möglichkeiten im modulo 3-Fall analytisch in den Griff zu
bekommen.
5. Erzeugendenfunktionen sind eine flexible Methode, kombinatorische Objekte
analytisch abzuschätzen. Sie werden in der Theorie der zufälligen Strukturen
eher selten verwendet, aber hier schon.
Lebenslauf
Persönliche Daten
Name:
Lutz Falke
Geburtsdatum:
04.11.1982
Anschrift:
Moseler Schulstr. 18
08058 Zwickau
E-Mail:
[email protected]
Telefon:
0371/531 38225
Werdegang
seit 09/2009
Technische Universität Chemnitz
Wissenschaftlicher Mitarbeiter an der Professur für Theoretische
Informatik
10/2002–07/2009 Technische Universität Chemnitz
Studium der Informatik mit Vertiefungsrichtung Technische Informatik
an der Fakultät für Informatik
Abschluss: Diplom-Informatiker
Note: 1,5
09/1993–06/2001 Käthe-Kollwitz-Gymnasium Zwickau
Abschluss: Allgemeine Hochschulreife mit den Leistungskursen
Mathematik und Physik
Veröffentlichungen
[1] Goerdt, Andreas und Lutz Falke: Satisfiability thresholds beyond kXORSAT. CoRR, abs/1112.2118, 2011.
http://arxiv.org/abs/1112.2118.
[2] Goerdt, Andreas und Lutz Falke: Satisfiability Thresholds beyond kXORSAT. In: Hirsch, Edward A., Juhani Karhumäki, Arto Lepistö
und Michail Prilutskii (Herausgeber): CSR, Band 7353 der Reihe Lecture
Notes in Computer Science, Seiten 148–159. Springer, 2012.
Erklärungen
Ich versichere, dass die vorgelegte Arbeit weder im Inland noch im Ausland in gleicher oder in ähnlicher
Form einer anderen Prüfungsbehörde zum Zwecke einer Promotion oder eines anderen Prüfungsverfahren
vorgelegt wurde und auch noch nicht veröffentlicht wurde.
Es fand ein früheres Promotionsverfahren statt.
nein
(bei ja) Thema:
Bescheid:
Zeit:
Hochschule:
Ich versichere, dass die vorliegende Arbeit ohne unzulässige Hilfe und ohne Benutzung anderer als der
angegebenen Hilfsmittel angefertigt wurde und die aus fremden Quellen direkt oder indirekt
übernommenen Gedanken in der Arbeit als solche kenntlich gemacht sind.
Ich versichere, dass weitere Personen bei der geistigen Herstellung der vorliegenden Arbeit nicht beteiligt
waren, insbesondere auch nicht die Hilfe eines Promotionsberaters in Anspruch genommen wurde, und
dass Dritte vom Bewerber weder unmittelbar noch mittelbar geldwerte Leistungen für Arbeiten erhalten
haben, die im Zusammenhang mit dem Inhalt der vorgelegten Dissertation stehen.
(Unterschrift)
(Datum)
Herunterladen