Schwellwert für die Lösbarkeit von zufälligen Gleichungssystemen über Z3 Dissertation zur Erlangung des akademischen Grades Dr. rer. nat. Dipl.-Inf. Lutz Falke geboren am 4. November 1982 in Mosel Fakultät für Informatik an der Technischen Universität Chemnitz Gutachter: Prof. Dr. rer. nat. Andreas Goerdt Prof. Dr. Ivan Veselić Tag der Verteidigung: 16. Dezember 2015 Falke, Lutz Schwellwert für die Lösbarkeit von zufälligen Gleichungssystemen über Z3 Dissertation, Fakultät für Informatik Technische Universität Chemnitz, September 2015 Zusammenfassung Behandelt werden zufällige lineare Gleichungssysteme modulo 3, wobei in jeder Gleichung genau k Variablen vorkommen. Es wird gezeigt, dass der Schwellwert der Lösbarkeit solcher Gleichungssysteme bei der 2-Kern-Dichte von 1 liegt. Das Resultat ist eine Verallgemeinerung bereits bekannter Resultate für den modulo 2-Fall. Dabei entsteht der 2-Kern dadurch, dass wir alle Variablen mit nur einem Vorkommen löschen. Die Dichte ist definiert als der Quotient der Anzahl der Gleichungen durch die Anzahl der Variablen. Im Rückblick ist dieses Resultat ein natürlicher Schwellwert und die Vermutung liegt nahe, dass er bei analogen Situationen über anderen Strukturen als Z3 auch gelten sollte. Allerdings sind schon im modulo 2 Fall die analytischen Probleme nicht gering, und der hier behandelte Fall braucht weitere analytische Einsichten. Ein wesentlicher Punkt unseres Beweises ist die Verwendung eines komplexen Polynoms (hier ist r die primitive dritte Einheitswurzel) k k k 1 2 2 p(y0 , y1 , y2 ) = . y0 + y1 + y2 + y0 + ry1 + r y2 + y0 + r y1 + ry2 3 Im modulo 2 Fall wurde an analoger Stelle das Polynom 12 (y0 + y1 )k − (y0 − y1 )k gebraucht. Da p(y0 , y1 , y2 ) komplexe Koeffizienten enthält, ist es nicht von vornherein klar, ob eine Behandlung analog zum modulo 2 Fall möglich ist. Auch macht die höhere Parameteranzahl die Sache komplizierter. Im Vergleich zum modulo 2 Fall, wo lokale Grenzwertsätze über gitterförmige Zufallsvariablen angewendet wurden, brauchen wir hier die Verallgemeinerung auf zweidimensionale gitterförmige Zufallsvektoren. Inhaltsverzeichnis 1 Einführung 1 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Resultat und Beweisidee . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Zufällige Formeln mit unabhängigen Gleichungen . . . . . . . . . . . 8 1.4 Der linear algebraische Aspekt . . . . . . . . . . . . . . . . . . . . . . 12 1.5 Grundlegende Techniken . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5.1 Laplace Methode . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5.2 Abschätzen mittels Erzeugendenfunktionen . . . . . . . . . . . 22 2 Abschätzung von E[X2 ] durch einen analytischen Ausdruck 29 2.1 Eine kombinatorische Formel für E[X2 ] . . . . . . . . . . . . . . . . . 29 2.2 Ein analytischer Ausdruck für E[X2 ] . . . . . . . . . . . . . . . . . . 33 2.3 Beweis von Satz 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3 Beweis von Satz 22, λ0 ≥ λ1 = λ2 3.1 3.2 41 Ein erster Eindruck von OPT(x, y) . . . . . . . . . . . . . . . . . . . 45 3.1.1 Ein Schnitt durch OPT(x, y) parallel zur x-Achse . . . . . . . 48 3.1.2 Ein Schnitt durch OPT(x, y) parallel zur y-Achse . . . . . . . 52 Beweis des Hauptlemmas . . . . . . . . . . . . . . . . . . . . . . . . . 54 4 Beweis von Satz 22, allgemeiner Fall 65 4.1 Vorbereitende Lemmas . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.2 Beweis des Hauptlemmas . . . . . . . . . . . . . . . . . . . . . . . . . 70 5 Beweis von Satz 20 85 5.1 Optimale Parameter ~x, ~y für Ψ(~ω , ~λ, ~x, ~y ) . . . . . . . . . . . . . . . . 85 5.2 Eine bessere Abschätzung für E(~ω , ~λ) . . . . . . . . . . . . . . . . . . 91 5.3 Entwicklung von ln Ψ(~ω , ~λ) . . . . . . . . . . . . . . . . . . . . . . . . 93 5.4 Abschluß des Beweises von Satz 20 . . . . . . . . . . . . . . . . . . . 100 6 Beweis der verbleibenden Sätze 6.1 102 Beweis von Satz 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 ii 6.2 Beweis von Satz 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 7 Ausblick 104 A Anhang 108 A.1 Lokale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . 108 A.1.1 Eindimensionaler Fall . . . . . . . . . . . . . . . . . . . . . . . 108 A.1.2 Zweidimensionaler Fall . . . . . . . . . . . . . . . . . . . . . . 112 A.2 Beweise einiger verwendeter Ungleichungen . . . . . . . . . . . . . . . 115 A.2.1 Wiederholung der wichtigsten Definitionen . . . . . . . . . . . 115 A.2.2 Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 iii Abbildungsverzeichnis 1 Abschätzung einer Summe durch ein Integral . . . . . . . . . . . . . . 17 2 Ungefähres Aussehen des Bereichs mit OPT(x, y) < 3 . . . . . . . . . 45 3 OPT(x, y) für s = 3 (oben links), s = 5, s = 10 und s = 30 . . . . . . 46 4 Schnitte durch OPT(x, y) bei konstantem y und s = 5 . . . . . . . . . 47 5 Schnitte durch OPT(x, y) bei konstantem x und s = 5 . . . . . . . . . 48 6 Graph der Funktion Y (x) für s = 5. . . . . . . . . . . . . . . . . . . . 50 7 Graph von OPT(x, Y (x)) für s = 5. . . . . . . . . . . . . . . . . . . . 50 8 Graph der Funktion X(y) für s = 5. . . . . . . . . . . . . . . . . . . . 53 9 Graph von OPT(X(y), y) für s = 5. . . . . . . . . . . . . . . . . . . . 54 10 Weg durch den Bereich mit OPT(x, y) < 3 für s = 5 und s = 10. . . . 55 iv 1 Einführung 1.1 Motivation Schwellwertphänomene sind ein Forschungsgebiet im Bereich der zufälligen kombinatorischen Strukturen. Eine in der Informatik betrachtete zufällige kombinatorische Struktur ist die der zufälligen aussagenlogischen Formel. Ganz konkret wird eine zufällige Formel in k-konjunktiver Normalform betrachtet. Diese ist folgendermaßen definiert: Wir haben eine feste Menge von n aussagenlogischen Variablen V = {x1 , . . . , xn } vorliegen. Eine k-Klausel ist ein Ausdruck der Form (l1 ∨ l2 ∨ · · · ∨ lk ), wobei jedes Literal lj aus {x1 , . . . , xn , ¬x1 , . . . , ¬xn } gewählt ist. Dabei bedeutet ¬xj die Negation von xj . Damit haben wir insgesamt (2n)k viele syntaktisch verschiedene Klauseln. Beispiele einer 3-Klausel sind (x1 ∨ x5 ∨ ¬x7 ) und (x3 ∨ ¬x3 ∨ x7 ). Eine zufällige Formel hat noch einen weiteren Parameter m = m(n). Wir bekommen sie, indem wir m-mal unabhängig uniform eine k-Klausel ziehen. Eine Formel aus m Klauseln C1 , . . . , Cm ist als Konjunktion C1 ∧ · · · ∧ Cm interpretiert. Also wird eine Formel wahr unter einer Belegung genau dann, wenn alle Klauseln unter der Belegung wahr werden. Eine Belegung der Variablen α : V → {0, 1} ordnet jeder der n Variablen einen Wert 0 = b falsch oder 1 = b wahr zu. Eine Klausel wird falsch unter einer Belegung genau dann, wenn alle ihre Literale unter der Belegung falsch sind. Eine Formel heißt erfüllbar, wenn es eine Belegung gibt, so dass die Formel wahr wird. Ist die Formel unter allen 2n möglichen Belegungen falsch, sagen wir die Formel ist unerfüllbar oder widersprüchlich. Es gibt eine Reihe verschiedener Möglichkeiten, k-Klauseln zu definieren: Etwa als Menge von Literalen, Klauseln, die zweimal dieselbe Variable enthalten sind verboten, Klauseln mit x und ¬x sind verboten. In der Regel lassen sich die erzielten Resultate auf die verschiedenen Definitionen übertragen. Das ist ziemlich technisch und wird im Allgemeinen nicht durchgeführt. Je mehr Klauseln eine Formel hat, desto eher ist eine Formel unerfüllbar, siehe etwa [4] Theorem 2.1. Interessant ist die folgende experimentelle Beobachtung etwa für k = 3: Formeln mit m < 4, 26 · n zufälligen Klauseln sind in der Regel erfüllbar, Formeln mit m > 4, 26 · n Klauseln sind meist unerfüllbar, etwa [30] Kapitel 7. Das heißt in der Nähe von m = 4, 26 · n Klauseln liegt eine experimentelle, aber nicht bewiesene Erfüllbarkeitsschwelle vor. Es gilt der folgende Satz [17]. Satz 1 (Friedgut) Es gibt ein c = c(n), so dass für zufällige Formeln in k-konjunktiver Normalform und beliebiges konstantes ε > 0 gilt: 1. Formeln mit m ≤ (1 − ε)cn vielen Klauseln sind erfüllbar mit Wahrscheinlichkeit gegen 1 gehend, wenn n groß ist. 1 2. Formeln mit m ≥ (1 + ε)cn vielen Klauseln sind unerfüllbar mit Wahrscheinlichkeit gegen 1 gehend, wenn n groß ist. Die Terminologie mit hoher Wahrscheinlichkeit“ oder fast alle“ steht für die ” ” ” Wahrscheinlichkeit geht gegen 1“. Fast keine“ bedeutet die Wahrscheinlichkeit ” ” geht gegen 0“. Wo die Schwelle der Erfüllbarkeit genau liegt, das heißt der Wert von c, bleibt ein offenes Problem. Im Laufe der Zeit ist es gelungen, den Bereich zumindest einzugrenzen. Hajiaghayi und Sorkin weisen in [23] eine untere Schranke an den Schwellwert von c > 3, 52 nach. Eine obere Schranke liegt bei c < 4, 506. Dies wurde von Dubois, Boufkhad und Mandler in [14] gezeigt, beides für k = 3. Für große k wurde 2 + εk , limk→∞ εk = 0 durch Coja-Oghlan kürzlich der Schwellwert von 2k ln 2 − 1+ln 2 [8] bestimmt. Der Fall k = 3 ist auch deshalb von besonderem Interesse, da das Problem der Erfüllbarkeit von Formeln in k-konjunktiver Normalform für k ≥ 3 N P-vollständig ist. Generell ist das Erfüllbarkeitsproblem für Formeln in k-konjunktiver Normalform das natürliche N P-vollständige Problem. Es ist zu beobachten, dass Formeln mit einer Klauselanzahl in der Nähe des Schwellwertes algorithmisch schwierig zu behandeln sind [1], was die algorithmische Relevanz von Schwellen zeigt, etwa um Testfälle für Algorithmen zu konstruieren. Es ist von Interesse, ob sich für andere Probleme dieser Art ein Schwellwert konkret nachweisen läßt. Ein erstes Resultat in dieser Richtung ist von Dubois und Mandler [15]. Anstelle der oben beschriebenen Klauseln wird dort die XOR-Verknüpfung von drei aussagenlogischen Variablen betrachtet. Die zufälligen Formeln bestehen jetzt also aus Ausdrücken der Form x1 ⊕ x2 ⊕ x3 = a, wobei a ∈ {0, 1} ist. Ein Ausdruck dieser Art läßt sich auch als Gleichung modulo 2 auffassen. Das Interessante an dieser Arbeit ist, dass sie das erste Mal zeigt, dass es möglich ist, den exakten Schwellwert für die Erfüllbarkeit zu erhalten, indem man den Erwartungswert und die Varianz der Anzahl der erfüllenden Belegungen einer Formel bestimmt. Das Resultat konnte von Dietzfelbinger und anderen in [13] für allgemeines k erweitert werden, das heißt auf Gleichungen der Art x1 ⊕ x2 ⊕ · · · ⊕ xk = a. Ein alternativer Ansatz zum Nachweis dieses Resultates wird von Pittel und Sorkin in [28] verfolgt. Die Arbeit von Connamacher [9] enthält eine Weiterentwicklung der Resultate aus [13], [15] in eine andere als die hier betrachtete Richtung. Das Ziel der vorliegenden Arbeit ist es, die Resultate aus [15] und [13] zunächst auf Gleichungen modulo 3 zu erweitern. Dabei orientieren wir uns am dortigen Vorgehen, allerdings sind eine Vielzahl weiterer Einsichten erforderlich, um das Prinzip zu übertragen. Wünschenswert wäre noch die Erweiterung auf Gleichungen modulo M für beliebiges M , das bleibt aber offen. 2 1.2 Resultat und Beweisidee Statt Klauseln betrachten wir modulare Gleichungen der Form νi,1 + νi,2 + · · · + νi,k = ai mod M wobei νi,j aus einer Menge von n Variablen V = {x1 , . . . , xn } und 0 ≤ ai < M ist. Beispiele für k = 3 sind x1 + x5 + xn = 2 mod M aber auch x1 + x1 + xn = 2 mod M. Eine Variable darf mehrfach in einer Gleichung vorkommen, man beachte aber die Bemerkung in Abschnitt 1.1. Wir betrachten Gleichungssysteme aus mehreren solchen Gleichungen und fragen, ob es eine Lösung für die x1 , . . . , xn besitzt. Wir nennen ein solches Gleichungssystem in Anlehnung an die eingangs erwähnten aussagenlogischen Formeln in k-konjunktiver Normalform ebenfalls Formel. Kommt eine Variable x in einer Formel nur einmal vor, etwa in der i-ten Gleichung x + νi,2 + · · · + νi,k = ai mod M, νi,j 6= x so besitzt die Formel eine Lösung genau dann, wenn die Formel ohne x + νi,2 + · · · + νi,k = ai mod M eine Lösung besitzt. Der Prozeß des Löschens solcher Gleichungen kann itereiert werden. Dabei bleibt eine lösbare Formel lösbar und eine unlösbare Formel unlösbar. Der 2-Kern einer Formel ist die eindeutig definierte Formel, die folgender Algorithmus liefert: 1. Lösche alle Gleichungen, die eine Variable x enthalten, die nur einmal vorkommt. 2. Iteriere 1. solange es solche Variablen x gibt. Im 2-Kern einer Formel kommt jede Variable demnach mindestens zweimal vor. Der 2-Kern ist die maximale Teilformel mit dieser Eigenschaft. Wir halten folgendes Lemma fest. Lemma 2 Eine Formel ist lösbar ⇐⇒ der 2-Kern der Formel ist lösbar. Wir betrachten deshalb zunächst den Wahrscheinlichkeitsraum F = F(n, m, k) der zufälligen 2-Kerne über n Variablen mit m Gleichungen und der uniformen Verteilung. Das sind Gleichungssysteme der Art ν1,1 + · · · + ν1,k ν2,1 + · · · + ν2,k = a1 = a2 .. . mod M mod M νm,1 + · · · + νm,k = am mod M 3 wobei die ai ∈ {0, 1, . . . , M −1} sind und die νi,j ∈ V = {x1 , . . . , xn } aus n Variablen gewählt sind. Wir haben folgende weitere Bedingungen: 1. Jede Variable xl kommt mindestens zweimal unter den νi,j vor. Die Verteilung auf F ist die uniforme Verteilung. 2. Es ist m = m(n) und wir sind an Aussagen für große n interessiert. Insbesondere ist k ≥ 3 fest und dann wird n groß. Ein Gleichungssystem ist lösbar genau dann, wenn es eine Belegung der Variablen mit 0, 1, . . . M − 1 gibt, so dass alle Gleichungen modulo M wahr sind. Wegen der uniformen Verteilung ist die Wahrscheinlichkeit des Auftretens einer bestimmten Formel F gleich Prob(F ) = |F1 | . Zunächst wollen wir die Anzahl aller Formeln, die ein 2-Kern sind, |F| bestimmen. Wir haben k · m Plätze, die mit den n Variablen so auszufüllen sind, dass jede Variable zweimal oder öfter auftritt. Damit haben wir X km X (km)! = z1 , . . . , zn z1 ! · . . . · zn ! ~ z ≥2 ~ z ≥2 Möglichkeiten, eine linke Seite zu wählen. Wir verwenden abkürzend die Notation ~z = (z1 , . . . , zn ), ~z ≥ 2 steht für z1 ≥ 2 und . . . und zn ≥ 2. Dabei steht zi für die Anzahl der Plätze, die von der Variable xi besetzt werden. Der Multinomialkoeffizient beschreibt die Möglichkeiten, die konkreten Plätze zu wählen. Für z1 +. . .+zn km ist der Multinomialkoeffizient gleich 0. Die rechten Seiten sind unabhängig aus ZM = {0, 1, . . . , M − 1} gewählt. Damit ist X km · M m. (1) |F| = z1 , . . . , zn ~ z ≥2 Zufällige Formeln aus F(n, m, k) sind nicht ohne weiteres algorithmisch erzeugbar, da es gewisse (schwache) Abhängigkeiten zwischen den linken Seiten der einzelnen Gleichungen gibt. Kommt etwa eine Variable xi in m − 1 Gleichungen nicht vor, so muß sie in der m-ten Gleichung mindestens zweimal auftreten. Auf den Zusammenhang zwischen dem Raum der Formeln mit unabhängigen Gleichungen Fu (n, m, k) und dem hier betrachteten Raum der zufälligen 2-Kerne gehen wir in Abschnitt 1.3 ein. Der Fall M = 2 und k = 3 ist in [15] behandelt. Satz 3 (Dubois, Mandler) Sei γ eine beliebig kleine Konstante > 0 und M = 2. Dann gilt: 4 1. Ist m ≥ (1 + γ)n, so sind die Formeln aus F(n, m, 3) unlösbar mit gegen 1 gehender Wahrscheinlichkeit. 2. Ist m ≤ (1 − γ)n, so sind die Formeln aus F(n, m, 3) lösbar mit gegen 1 gehender Wahrscheinlichkeit. Dieses Resultat wurde erst kürzlich in [13] ganz analog auf beliebige k ausgedehnt. Das heißt für zufällige 2-Kerne hat man eine Erfüllbarkeitsschwelle bei m = 1. Das n m Verhältnis n wird als Dichte bezeichnet. Tatsächlich darf in 2. des Resultats oben m nicht zu klein sein, m ≥ 34 n sollte reichen. Eine natürliche Frage ist es, inwieweit sich vergleichbare Resultate auch für beliebige M > 2 erzielen lassen. Diese Frage behandelt die vorliegende Arbeit. Für den Rest der Arbeit fixieren wir M = 3 und zeigen für k ≥ 10 das folgende Schwellwertverhalten der Lösbarkeit der zufälligen Formeln. Satz 4 Sei M = 3. Ist m = (1 + γ)n, 1 + γ ≥ Γ, Γ > 1 fest, dann geht die Wahrscheinlichkeit der lösbaren Formeln aus F(n, m, k) gegen 0 bei n → ∞. Satz 5 Sei M = 3. Ist m = (1 − γ)n, 1 − γ ≤ Γ, Γ < 1 fest, dann ist die Wahrscheinlichkeit der lösbaren Formeln aus F(n, m, k) größer oder gleich ε, wobei ε eine Konstante > 0 ist. Eigentlich wäre es günstiger, direkt m = Γn zu verwenden, aber Γn ist nicht immer ganzzahlig. Im Beweis von Satz 4 wählen wir das kleinste γ, so dass (1 + γ)n ganzzahlig ist, analog im Beweis von Satz 5. Dann ist Γ ≤ 1 + γ ≤ Γ + n1 beziehungsweise Γ ≥ 1 − γ ≥ Γ − n1 . Satz 4 ist ganz analog zu 1. von dem Resultat von Dubois und Mandler. Satz 5 unterscheidet sich von dem Resultat 2. von Dubois, Mandler. Die Wahrscheinlichkeit ist nur ≥ ε und geht nicht gegen 1. Im folgenden Abschnitt 1.3 gehen wir darauf ein, wie man auf eine gegen 1 gehende Wahrscheinlichkeit kommt. Sagen wir: Es gibt eine Konstante C, so dass . . .“, dann kann C von k und Γ ” abhängen. Die Konstante C ist nur unabhängig von n. Manche Konstanten hängen direkt von γ, das eigentlich nicht konstant ist, ab. Es lassen sich aber auch in diesen Fällen Konstanten finden, die nur noch von Γ abhängen. Man beachte, dass sich 1 − γ von Γ nur gering unterscheidet. 5 Beweis von Satz 4. Das ist direkt zu sehen. Dazu ermitteln wir den Erwartungswert der Anzahl der Lösungen. Es gibt 3n mögliche Belegungen der Variablen x1 , . . . , xn . Geben wir eine Belegung α : V → {0, 1, 2} vor und betrachten eine feste Wahl der linken Seiten der Gleichungen. Werten wir jede linke Seite modulo 3 unter α aus, so bekommen wir einen Wert. Eine Gleichung wird wahr genau dann, wenn das ai auf der rechten Seite gleich diesem Wert ist. Da die ai unabhängig aus 3 Werten gewählt m sind, ist die Wahrscheinlichkeit, dass alle Gleichungen unter α wahr sind gleich 31 . Wegen der Linearität des Erwartungswertes ist der Erwartungswert der Anzahl der erfüllenden Belegungen oder Lösungen gleich 1 1 3n · m = 3n−m = γn → 0 für n → ∞ 3 3 bei 1 + γ ≥ Γ > 1. Also geht die Wahrscheinlichkeit der lösbaren Formeln gegen 0 und Satz 4 ist gezeigt. Ist m = (1 − γ)n, dann ist der Erwartungswert der Anzahl der Lösungen gleich 3n−m = 3γn → ∞ für n → ∞. Das bedeutet aber nicht, dass die Wahrscheinlichkeit der lösbaren Formeln gegen 1 geht. Es könnten extrem viele Lösungen in einem verschwindend kleinen Anteil der Formeln konzentriert sein. Die Bestimmung der Varianz erlaubt es, dieses Phänomen auszuschließen. Dazu müssen wir etwas formaler werden. Beweis von Satz 5. Sei X : F → N die Zufallsvariable der Anzahl der erfüllenden Belegungen einer Formel F ∈ F. Dann ist X X(F ) = Xα (F ) α n wobei α über alle 3 Belegungen geht. Xα (F ) = 1 genau dann, wenn F unter α wahr ist und Xα (F ) = 0 sonst. Nun gilt die folgende Ungleichung [16] (Exercise 1.6.6), da X ≥ 0 und ganzzahlig ist. E[X]2 Prob(F lösbar) = Prob(X 0) ≥ (2) E[X2 ] Man beachte, dass immer E[X2 ] ≥ E[X]2 gilt, da die Varianz von X gleich E[X2 ] − E[X]2 ≥ 0 ist. Die Hauptarbeit ist der folgende Satz. Satz 6 Sei X die Zufallsvariable für die Anzahl der Lösungen, wie oben definiert. Unter den Voraussetzungen von Satz 5 gilt: E X2 = O E[X]2 6 Der Satz besagt, dass eine Konstante C existiert, so dass E[X2 ] ≤ C · E[X]2 , wobei C tendenziell groß ist. Dann ist nach Gleichung (2) Prob(F lösbar) = Prob(X 0) ≥ 1 C und Satz 5 folgt. Im folgenden gelten immer die Voraussetzungen von Satz 5, das heißt Γ < 1 ist fest, m = (1 − γ)n und n wird groß. Verschiedentlich müssen wir annehmen, dass Γ nicht zu klein ist. Das tun wir stillschweigend, etwa Γ ≥ 12 sollte reichen. Noch einige Bemerkungen zur Bedeutung von Satz 6. Wir kennen E[X]2 = 2 3γn . Also ist zu zeigen, dass E[X2 ] = O(32γn ). Um uns die Bedeutung dieser 2 Beziehung klar zu machen, stellen wir noch eine Überlegung zu E[XP ] an. Es ist P n X P = α Xα , wobei α über alle 3 Belegungen geht. Dann ist E[X] = α E[Xα ] = α Prob(Xα = 1) und E[X]2 = X Prob(Xα = 1) α = XX α = β XX α = 3 β n 2 · ! · X Prob(Xβ = 1) β ! Prob(Xα = 1) · Prob(Xβ = 1) Prob((F, F ′ ); Xα (F ) = 1 und Xβ (F ′ ) = 1) 1 3(1−γ)n 2 wobei F und F ′ unabhängig sind. Für X2 gilt ! ! X X XX Xβ = Xα · Xα Xβ X2 = α α β β und damit ist XX Prob(F ; Xα (F ) = 1 und Xβ (F ) = 1) . E X2 = α (3) β Man beachte hier den wichtigen Unterschied: E[X]2 bezieht sich auf zwei unabhängige Formeln. E[X2 ] bezieht sich hingegen auf eine Formel. Damit läßt sich E[X2 ] = 2 O E[X] wie folgt interpretieren: 7 Für die meisten Belegungspaare (α, β) muß gelten: Prob(F ; Xα (F ) = 1 und Xβ (F ) = 1) ≤ O(Prob((F, F ′ ); Xα (F ) = 1 und Xβ (F ′ ) = 1)) 1 = O 2m 3 Das heißt, die Wahrscheinlichkeit, dass eine Formel von einem Belegungspaar α, β erfüllt wird, ist für die meisten Belegungspaare nicht viel größer als die Wahrscheinlichkeit, dass zwei unahbängige Formeln unter dem Paar wahr werden. Oder anders: Angenommen F ist unter α wahr, so ist mdie Wahrscheinlichkeit, dass F auch unter β wahr wird in den meisten Fällen O 31 . Das heißt so, als ob wir eine neue Formel ′ F betrachten würden. 1.3 Beziehung zwischen zufälligen Formeln mit unabhängigen Gleichungen und zufälligen 2-Kernen Der unabhängige Raum Fu (n, m, k) ist folgendermaßen definiert: Es werden m Gleichungen über den Variablen V = {x1 , . . . , xn } unabhängig gezogen. Hier ist die Anzahl der Formeln gleich X km m · M m = nkm · M m = nk · M z1 , . . . , zn ~ z P wobei ~z = (z1 , . . . , zn ), zi ≥ 0 und ni=1 zi = km ist. Es gibt genau nk ·M syntaktisch verschiedene Gleichungen. Eine Variable xi kann zwischen null- und km-mal in einer Formel des unabhängigen Raumes Fu (n, m, k) vorkommen. Der unabhängige Raum ist natürlicher als der Raum der 2-Kerne und ist ganz analog zu den üblichen Räumen zufälliger endlicher kombinatorischer Strukturen. Interessant ist, dass die Räume der zufälligen 2-Kerne F(n′ , m′ , k) im Raum der Formeln mit unabhängigen Gleichungen Fu (n, m, k) im folgenden Sinne enthalten sind. Betrachten wir einen festen 2-Kern F ′ über der Menge V ′ ⊆ V von n′ ≤ n Variablen mit m′ ≤ m Gleichungen. Dazu betrachten wir M (F ′ ) = die Menge der Formeln aus dem unabhängigen Raum Fu (n, m, k), die F ′ als 2-Kern haben. Aus dem Algorithmus zur Definition des 2-Kerns auf Seite 3 ergibt sich: F ∈ M (F ′ ) genau dann, wenn • F enthält die Gleichungen aus F ′ und • F enthält eine Menge von genau m − m′ Gleichungen F ′′ über allen Variablen x1 , . . . , xn , die verschwindet, wenn wir den folgenden Prozess ausführen: 8 1. Enthält F ′′ Variablen, die keinmal oder einmal vorkommen und nicht in F ′ enthalten sind, lösche diese Variablen mit ihrer Gleichung. 2. Iteriere 1. bis keine solchen Variablen mehr existieren. Man beachte, dass die Anzahl der Möglichkeiten für F ′′ vollkommen unabhängig von der Struktur des 2-Kernes F ′ ist. Die Anzahl der Möglichkeiten für F ′′ hängt nur von m′ und n′ ab. Daraus ergibt sich das folgende Lemma. Lemma 7 Betrachten wir den unabhängigen Raum Fu (n, m, k) bedingt darauf, dass der 2-Kern n′ Variablen und m′ Gleichungen hat, so ist jeder dieser 2-Kerne gleichwahrscheinlich. Weiterhin gilt, dass ausgehend vom unabhängigen Fu (n, m, k), m = c · n, die Anzahl der Variablen n′ des 2-Kernes und der Gleichungen m′ am Erwartungswert konzentriert sind, vergleiche [27] Theorem 1. Lemma 8 Es gibt d = d(c) und c′ = c′ (c), so dass für den unabhängigen Raum Fu (n, cn, k) mit k ≥ 3 gilt: Mit hoher Wahrscheinlichkeit ist die Anzahl der Variablen des 2-Kerns gleich n′ = dn · (1 + o(1)) und die Anzahl der Gleichungen des 2-Kerns gleich m′ = c′ n′ · (1 + o(1)). Man beachte, dass das Lemma folgendermaßen zu lesen ist: Es gibt eine Funktion f (n), die gegen 0 geht, so dass mit Wahrscheinlichkeit gegen 1 gehend für den 2-Kern vom unabhängigen Fu (n, cn, k) gilt: dn(1 − f (n)) ≤ #Variablen des 2-Kerns n′ ≤ dn(1 + f (n)) c′ dn(1 − f (n)) ≤ #Gleichungen des 2-Kerns m′ ≤ c′ dn(1 + f (n)) Lemma 7 und 8 zusammen führen zu der vereinfachten Vorstellung: Der 2-Kern von Fu (n, cn, k) ist aus dem Raum F(dn, c′ dn, k). Die 1 + o(1) Faktoren sind hier vernachlässigt. Der Zusammenhang zwischen der Dichte c im Raum der Formeln unabhängiger Gleichungen Fu (n, cn, k) und der Dichte c′ im Raum der zufälligen 2-Kerne ist etwas indirekt. Wir stellen hier die Resultate der Beweise von Molloy [27] und Dietzfelbinger et al. [13] (wo n und m vertauscht sind) dar. Dazu betrachten wir zwei Funktionen jeweils für x > 0. 1 x · exp(x) − 1 G(x) = · k exp(x) − x − 1 1 x F (x) = · k 1 − exp(−x) k−1 x(exp(x)−1) Man beachte, dass die Funktion Q(x) = exp(x)−x−1 , die der Funktion G(x) ohne den Faktor k1 entspricht, in der Arbeit eine wichtige Rolle spielt. Vergleiche auch Lemma 18 auf Seite 34. 9 Für x > 0 ist F (x) konvex und geht gegen ∞ für x → 0 und x → ∞. Also hat F (x) genau ein Minimum c∗ = F (xmin ). Es gilt das folgende Lemma. Lemma 9 1. Ist c > c∗ , dann haben die Formeln aus Fu (n, cn, k) mit hoher Wahrscheinlichkeit einen nicht leeren 2-Kern. Das heißt die Werte c′ und d aus Lemma 8 sind > 0. 2. Ist c < c∗ , dann haben die Formeln aus Fu (n, cn, k) mit hoher Wahrscheinlichkeit nur den leeren 2-Kern. Also ist c = c∗ die Schwelle für die Existenz eines nicht leeren 2-Kerns. Für c > c∗ hat die Gleichung c = F (x) genau zwei Lösungen x1 > xmin > x2 . Wir verwenden die Bezeichnung x(c) = x1 . Die Bedeutung von x(c) ist, dass es Aussagen über die Struktur des 2-Kerns macht, insbesondere über dessen Dichte c′ . Lemma 10 Für c > c∗ ist G(x(c)) = c′ , wobei c′ die Dichte des 2-Kerns von Fu (n, cn, k) gemäß Lemma 8 ist. Wir können jetzt zu einer gegebenen Dichte des 2-Kerns c′ eindeutig das c bestimmen, so dass Fu (n, cn, k) zu einem 2-Kern der Dichte c′ im Sinne von Lemma 8 führt. Das geht folgendermaßen: 1. Wir bestimmen das x, so dass G(x) = c′ . Es ist G(x) streng monoton steigend und G(x) → k2 für x → 0. Also existiert x eindeutig für c′ > k2 . 2. Wir prüfen nach, ob dieses x ein x(c) im Sinne von Lemma 10 sein kann. Falls x < xmin ist, ist das nicht der Fall. Die vorgegebene Dichte ist zu klein. Ist aber x > xmin , dann gilt für c = F (x), dass Fu (n, cn, k) zu dem gewählten c′ im Sinne von Lemma 8, also zu der Dichte des 2-Kerns von c′ , führt. 3. Für c′ = 1 erhalten wir immer ein x > xmin in Schritt 1. Beachte, hier k ≥ 3. Also führt Schritt 2 oben zu einem c = F (x). Dieses c nennen wir c∗1 . Lemma 11 Für die Dichte des 2-Kerns c′ im Sinne von Lemma 8 gilt: 1. Ist c > c∗1 , so ist c′ > 1. 2. Ist c < c∗1 , so ist c′ < 1. 10 Es ist immer c∗1 < 1. Das macht die Analyse des Löschprozesses auf Seite 3 klar. Für k = 3 bekommen wir G(x) = 1 für x ≈ 2, 1491, dann ist F (x) ≈ 0, 9179. Für k = 9 bekommen wir G(x) = 1 für x ≈ 8, 9899, dann ist F (x) ≈ 0, 9999. Mit steigendem k geht c∗1 gegen 1. Wir kommen zur Lösbarkeit der Formeln aus Fu (n, cn, k) mit M = 3. Zunächst gilt nach Lemma 8 und 10, dass der 2-Kern einer Formel aus Fu (n, cn, k) mit hoher Wahrscheinlichkeit aus F(n′ , Γn′ , k) ist, wobei Γ = c′ (1 + o(1)), n′ = dn(1 + o(1)) ist. Auf diese einzelnen F(n′ , Γn′ , k) wenden wir Satz 4 und 5 an. Die folgenden Korollare sind die Hauptergebnisse der Arbeit. Korollar Ist c > c∗1 , dann ist Fu (n, cn, k) fast immer unlösbar. Beweis. Das folgt direkt mit Satz 4, da für die meisten Γ von oben gilt, dass Γ ≥ 1 + ε für ein kleines ε > 0 ist. Korollar Ist c < c∗1 , dann hat Fu (n, cn, k) eine Lösung mit hoher Wahrscheinlichkeit. Beweis. Für Γ von oben gilt: Für c′ nach Lemma 8 ist c′ − ε ≤ Γ ≤ c′ + ε < 1 für jedes kleine ε > 0, solange n groß genug ist. Wir wenden Satz 5 auf F(n′ , Γn′ , k) an. Dort ist die Lösbarkeitswahrscheinlichkeit ≥ ε > 0 für ein geeignetes ε > 0 nachgewiesen. Insbesondere finden wir ein geeignetes ε > 0, das für alle auftretenden Γ ausreicht. Das ergibt sich letztlich aus dem Beweis von Satz 5. Hier ist es wichtig, dass Γ beliebig nah an c′ beschränkt werden kann. Also ist Fu (n, cn, k) lösbar mit Wahrscheinlichkeit ≥ ε. Auf Fu (n, cn, k) gilt der Satz von Friedgut [17], das heißt wir haben eine scharfe Schwelle für die Lösbarkeit. Das ist von Creignou, Daudé in [11], [12] für M = 2 und bei Goerdt [21] für M = 3 gezeigt. Also folgt die Behauptung. Man beachte, dass der Satz von Friedgut im Raum der zufälligen 2-Kerne durch die Abhängigkeiten nicht ohne weiteres gilt. 11 1.4 Der linear algebraische Aspekt Eine von uns betrachtete Formel ist ein lineares Gleichungssystem über dem Körper Z3 . Das heißt, sie läßt sich schreiben als a1 x1 A · ... = ... am xn wobei V = {x1 , . . . , xn } die Variablen, 0 ≤ ai ≤ 2 und A eine geeignete m×n-Matrix sind. Ist die erste Gleichung zum Beispiel x 1 + x 2 + x 3 + · · · + x k = a1 mod 3 , dann ist die erste Zeile der Matrix (1, 1, 1, . . . , 1, 0, 0, . . . , 0) , wobei die ersten k Stellen mit 1 und der Rest mit 0 besetzt sind. Ist die erste Gleichung ν1,1 + ν1,2 + · · · + ν1,k = a1 mod 3 und die ν1,l aus x1 , . . . , xn sind alle verschieden, so hat die erste Zeile von A an der Stelle j eine Eins genau dann, wenn die Variable xj unter den Variablen ν1,1 , . . . , ν1,k der ersten Gleichung vorkommt, sonst 0. Also entsprechen Formeln, in denen in jeder Gleichung alle Variablen verschieden sind, m × n-Matrizen über {0, 1}, so dass jede Zeile genau k Einsen enthält. Formeln, die außerdem noch 2-Kerne sind, entsprechen Matrizen, die in jeder Zeile genau k Einsen und zusätzlich in jeder Spalte mindestens zwei Einsen haben. Da die Variablen in jeder Gleichung beliebig angeordnet sein können und alle Anordnungen verschieden sind (da die Variablen verschieden sind), ergibt sich jede Matrix wie oben aus genau (k!)m vielen Formeln (Gleichungssystemen). Daraus ergibt sich, dass die uniforme Verteilung auf Formeln die uniforme Verteilung auf den Matrizen induziert, sofern wir die Formeln nur aus Gleichungen mit jeweils k verschiedenen Variablen bilden. Nach Definition ist nicht ausgeschlossen, dass Formeln mit Gleichungen, die dieselbe Variable mehrfach enthalten, auftreten. Zum Beispiel könnte die erste Gleichung einer Formel x1 + x1 + x2 + · · · + xk−1 = b1 mod 3 lauten. Dann ist die erste Zeile der Matrix A gleich (2, 1, . . . , 1, 0, . . . 0). Im Extremfall könnte die erste Zeile x1 + x1 + · · · + x1 = b1 mod 3 sein. Das entspricht der ersten Zeile (k, 0, . . . , 0) von A. Das macht die Sache kompliziert, da es dann nicht mehr genau k! verschiedene Anordnungen der Variablen gibt 12 und sich die uniforme Verteilung auf den Formeln nicht auf die Matrizen überträgt. Da die Wahrscheinlichkeit, dass unsere Formeln nur aus Gleichungen mit k verschiedenen Variablen bestehen, nicht gegen 1 geht, können wir aus unseren Sätzen nur mit gewissen Vorarbeiten Aussagen über zufällige Matrizen ableiten. Das wird hier dargestellt. Lemma 12 Wir betrachten den Raum der Formeln mit unabhängigen Gleichungen Fu (n, cn, k), c konstant. 1. Die Wahrscheinlichkeit der Formeln, bei denen jede Gleichung aus k verschiedenen Variablen besteht, ist k(k − 1) exp − · c · (1 + o(1)) 2 2. Die Wahrscheinlichkeit, dass eine Gleichung eine Variable mindestens dreimal enthält, geht gegen 0. 3. Die Wahrscheinlichkeit, dass eine Formel zwei Gleichungen enthält, deren linke Seiten aus denselben Variablen bestehen, geht gegen 0. Beweis. 1. Es gibt n(n − 1)(n − 2) . . . (n − (k − 1)) = (n)k linke Seiten mit k verschiedenen Variablen. Die Gleichungen werden unabhängig gewählt, also ist die Wahrscheinlichkeit, dass eine Formel nur aus solchen Gleichungen besteht gleich m (n)k , nk da wir insgesamt nk linke Seiten haben. Es ist m m n − (k − 1) n n−1 n−2 (n)k · · · ··· · = nk n n n n m 2 k−1 1 · 1− · ··· · 1 − = 1· 1− n n n und j 1− n m n c c j = exp(−j) · 1 + o(1) = 1− n = exp − j · c · 1 + o(1) , 13 da c konstant ist. Da k auch konstant ist, ist m 1 2 k−1 1· 1− · 1− · ··· · 1 − n n n = exp − 1 + · · · + (k − 1) · c · 1 + o(1) k(k − 1) = exp − · c · (1 + o(1)) . 2 2. Der Erwartungswert der Anzahl 3-Tupeln von Positionen einer Gleichung auf denen dieselbe Variable steht, ist 1 n·1·1 k = O 2 . · n·n·n n 3 also ist die Wahrscheinlichkeit der Gleichungen, die dreimal dieselbe Variable 1 enthalten O n2 . Formeln aus m = cn Gleichungen haben die Schranke m · O n12 = O n1 für die Wahrscheinlichkeit einer Gleichung mit drei gleichen Variablen. 3. Da das unabhängige Fu (n, cn, k) betrachtet wird, ist der Erwartungswert der Anzahl der Paare von Gleichungen, die aus den gleichen Variablen bestehen, beschränkt durch 1 1 nk · k! m 2 für k ≥ 3. · k k = O n · k = O n ·n n n 2 Für den Raum der 2-Kerne F(n, m, k) ist es nicht so leicht analoge Aussagen zu erzielen. Wir betrachten ihn und die zugehörigen Matrizen hier nicht weiter. Da die Wahrscheinlichkeit in 1. des Lemmas 12 eine Konstante größer 0 ist, ergibt sich folgendes. Korollar Ist A eine zufällige m × n-Matrix mit m = cn, die in jeder Zeile k Einsen und n − k Nullen hat und 0 ≤ a1 , . . . , am ≤ 2 zufällig, dann gilt: 1. Ist c > c∗1 , dann ist das Gleichungssystem x1 A · ... = xn a1 .. . am modulo 3 nicht lösbar mit hoher Wahrscheinlichkeit. 14 2. Ist c < c∗1 , dann ist das Gleichungssystem x1 A · ... = xn a1 .. . am modulo 3 lösbar mit hoher Wahrscheinlichkeit. Wir betrachten den Raum der m×n-Matrizen A mit Einträgen aus {0, 1} mit genau k Einsen pro Zeile mit der uniformen Verteilung !m 1 Prob(A) = . n k Satz 13 1. Ist m = cn, c < c∗1 , dann ist der Rang(A) = m mit hoher Wahrscheinlichkeit. 2. Ist m = cn, c > c∗1 , dann ist der Rang(A) < m mit hoher Wahrscheinlichkeit. Beweis. 1. Ist A nicht vom Rang(A) = m, so hat das Bild von A die Dimension ≤ m − 1. Es enthält also maximal 31 ·3m viele Elemente. Bedingt darauf, dass Rang(A) ≤ m − 1 ist, ist die Wahrscheinlichkeit, dass a1 x1 A · ... = ... xn am lösbar ist ≤ 13 . Angenommen, der Anteil der Matrizen vom Rang(A) ≤ m − 1 ist ≥ ε. Insgesamt ist dann die Wahrscheinlichkeit, dass ein Gleichungssystem nicht lösbar ist, mindestens 23 ·ε. Das widerspricht der hohen Wahrscheinlichkeit der Lösbarkeit. 2. Nach dem Korollar ist fast kein Gleichungssystem a1 x1 A · ... = ... xn am lösbar. Das könnte nicht sein, wenn die Wahrscheinlichkeit der Matrizen mit Rang(A) = m nicht gegen 0 ginge. 15 Der Satz läßt sich auch folgendermaßen lesen. Korollar 1. Ziehen wir m = cn, c < c∗1 {0, 1}-Vektoren der Länge n mit genau k Einsen, so sind diese linear unabhängig über Z3 mit hoher Wahrscheinlichkeit. 2. Ziehen wir m = cn, c > c∗1 {0, 1}-Vektoren der Länge n mit genau k Einsen, so sind diese linear abhängig über Z3 mit hoher Wahrscheinlichkeit. 1.5 Grundlegende Techniken Zum Beweis von Satz 6 wird es nötig sein, Summen mit exponentiell vielen Summanden abzuschätzen. Bevor wir zum Hauptteil der Arbeit kommen, sollen an dieser Stelle die beiden dafür wesentlichen Techniken demonstriert werden. 1.5.1 Laplace Methode Wir demonstrieren die Methode nach [6], Kapitel 4 an der einfachen Summe n X n k=0 k = 2n . Im weiteren Verlauf der Arbeit wenden wir diese Methode dann auf Summen über mehrere Indices an. Das Prinzip bleibt aber das gleiche. Die Grundidee ist die Überführung der Summe auf ein P Integral. Betrachten wir eine monoton fallende Funktion f (x) und die Summe bx=a f (x). Mit b = a + k gilt Z b+1 a f (x) dx ≤ f (a) + f (a + 1) + · · · + f (a + k) ≤ Z b f (x) dx , a−1 wie man in Abbildung 1 leicht grafisch sieht. Klappen wir die Flächenstücke der Summanden nach rechts, so ist das Integral kleiner als die Summe. Wenn wir hingegen die Flächen nach links klappen, so ist das Integral größer. Geht die Summe in kleineren Schritten voran, so bekommen wir mit b = a + n· Z 1 b+ n a f (x) dx ≤ f (a) + f (a + 1 ) n + · · · + f (a + dabei kann k kleiner oder größer als n sein. 16 k ) n ≤n· Z k n b f (x) dx , 1 a− n f(x) R b+1 a f(x) a−1 a b b+1 f (x) dx ≤ Pb x=a x Pb f (x) a a−1 a f (x) ≤ Rb a−1 b b+1 x f (x) dx Abbildung 1: Abschätzung einer Summe durch ein Integral Wir betrachten unser Beispiel: Es ist X n k k X n , = αn α wobei α die Form nj , 0 ≤ j ≤ n besitzt. Immer gilt die folgende Abschätzung, vergleiche auch Lemma 43 auf Seite 116. n αn ≤ α 1−α !n 1 1 = f (α)n = exp n · ln f (α) · α 1−α Dabei ist 1−α α 1 1 · und f (α) := α 1−α ln f (α) = − α ln α − (1 − α) ln(1 − α) . α Wir ergänzen noch α1 = 1 und ln 1 − α und α = 1. Es ist 1 α α = 0 für α = 0, ebenso für die Terme mit 1−α d ln f (α) = − ln α + ln(1 − α) = ln dα α ln 1−α T 0 α ⇐⇒ α S und 1 , 2 also liegt für α = 21 ein globales Maximum für f (α) vor. Der Funktionswert des Maximums ist f 12 = 2. Für die zweite Ableitung erhalten wir d2 1 1 ln f (α) = − − = −4 2 dα α 1−α 17 für α = 1 . 2 Ist α < 21 − δ oder α > 21 + δ, δ > 0 konstant, so gilt f (α) ≤ 2(1 − η) für ein kleines η = η(δ) > 0. Also folgt für α < 21 − δ oder α > 12 + δ X X n n f (α)n ≤ n · 2(1 − η) ≤ αn |α− 12 |>δ |α− 12 |>δ ≤ 2n · n · exp(−ηn) = 2n · o(1) , da die Anzahl der Summanden insgesamt n ist. Die Summanden mit α − 21 > δ tragen zur Gesamtsumme von 2n nur einen gegen Null gehenden Anteil bei. Für 1 2 −δ ≤α≤ 1 2 + δ bekommen wir auf diese einfache Art nur X n X X ≤ f (α)n ≤ 2n = 2δn · 2n , αn |α− 21 |≤δ |α− 21 |≤δ |α− 21 |≤δ da wir 2δn Summanden haben. Dieses Ergebnis ist um den Faktor n zu groß. Für 12 − δ ≤ α ≤ 12 + δ, δ > 0 fest, gilt folgende allgemein bekannte asymptotische Formel für den Binomialkoeffizient (einfache Anwendung der Stirling’schen Formel). n αn = = Für α = 1 2 n! (αn)! · (1 − α)n ! n n e √ 2πn · 1 + o(1) (1−α)n p √ αn αn 2παn (1−α)n 2π(1 − α)n e e 1 1 · √ · f (α)n · 1 + o(1) = p n 2πα(1 − α) q haben wir π2 · √1n · 2n . Der Ausdruck √ 1 α(1−α) hat bei α = 1 2 (4) gerade sein Minimum von 2. Er wirkt also entgegengesetzt zu f (α)n . Wir schätzen die Summanden für 12 − δ ≤ α ≤ 21 + δ mit 1 n 1 ≤ q · √ · f ( 21 )n αn n 2π( 14 − δ 2 ) ab, dann ist die Teilsumme X n √ ≤ n · 2n · O(1) , αn |α− 12 |≤δ √ was aber noch immer zu groß ist. Damit das n verschwindet, müssen wir f (α)n genauer als mit f ( 21 ) = 2 abschätzen. Dazu setzen wir h(β) = ln f ( 21 + β) für − 18 1 2 ≤β≤ 1 2 . Es ist d ln f (α) = 0 an der Stelle α = 21 dα und h′′ (0) = −4 ebenso. Mit der Taylorentwicklung von h(β) an der Stelle β = 0 haben wir damit die folgende Approximation (siehe [26], Seite 396) h′ (0) = 0 , da 1 h(β) = h(0) + β · h′ (0) + β 2 · h′′ (0) + o(β 2 ) 2 1 2 ′′ = h(0) − β · h (0) + o(β 2 ) 2 für β gegen 0 gehend. Das heißt, für jedes ε > 0 existiert ein δ > 0, so dass für alle −δ ≤ β ≤ δ gilt: ′′ 1 2 h(β) − h(0) − β · h (0) ≤ ε · β 2 2 Damit bekommen wir: Für α = nj , 1 2 f ( 12 + β)n = exp n · h(β) 1 2 ′′ 2 = exp n · h(0) − β · h (0) + o(β ) 2 − δ ≤ α ≤ 21 + δ und −δ ≤ β ≤ δ, β = α − 21 und C = 21 h′′ (0) gilt: X X f (α)n = exp n · h(β) |β|≤δ |α− 12 |≤δ X = exp n · h(0) − C · β 2 + o(β 2 ) (5) |β|≤δ X = 2n · exp n · − C · β 2 + o(β 2 ) |β|≤δ P Zur Vereinfachung betrachten wir zunächst läuft β die Werte |β|≤δ exp(−nCβ 2 ). Für n gerade durch- k−1 1 0 1 k−1 k k , ... , − , , , ... , , − , − n n n n n n n mit k = ⌊δn⌋. Für n ungerade haben wir für β die Werte − k 1 1 1 1 1 1 1 k 1 − , ... , − − , − , , + , ... , + 2n n 2n n 2n 2n 2n n 2n n mit k = δn − 21 . Die Schrittweite der Summanden ist n1 , damit gilt für den Teil der Summe mit β ≥ 0 X β≥0 2 exp(−nCβ ) ≤ n · Z δ2 δ1 19 exp(−nCx2 ) dx + 1 wobei bei ⌊δn⌋ und bei n δn − 21 1 1 n ungerade δ1 = , δ2 = + = 2n 2n n n gerade δ1 = 0, δ2 = 1 2 + δn − 12 n ist. Die +1 rührt daher, dass das Integral eine obere Schranke für die Summe ohne den ersten Summanden ist. Für die untere Schranke brauchen wir keinen Korrekturterm. Es ist Z δ2 X n· exp(−nCx2 ) dx ≤ exp(−nCβ 2 ) , δ1 β≥0 und für die gesamte Summe bekommen wir dann für alle β n· Z δ2 −δ2 exp(−nCx2 ) dx − 1 ≤ X β Es ist Z δ2 2 β 2 exp(−nCβ ) ≤ n · exp(−nCx ) dx = −δ2 X Z ∞ −∞ exp(−nCβ 2 ) Z δ2 exp(−nCx2 ) dx + 2 . −δ2 2 exp(−nCx ) dx − 2 · Z −δ2 exp(−nCx2 ) dx −∞ und Z −δ2 2 exp(−nCx ) dx = −∞ Z −δ2 −∞ exp − (n − 1) · Cx2 · exp(−Cx2 ) dx 2 ≤ exp − (n − 1) · Cδ2 · r π ≤ exp − n · Θ(1) · C = exp − n · Θ(1) , Z −δ2 exp(−Cx2 ) dx −∞ R∞ p wobei wir −∞ exp(−Cx2 ) dx = Cπ verwenden. Das verbleibende Integral ergibt mit der Substitution y 2 = nCx2 Z ∞ Z ∞ 1 dx = exp(−y 2 ) · √ exp(−nCx2 ) dx = n·C −∞ −∞ s 2π . = n · h′′ (0) 20 r π n·C Damit bekommen wir heraus X |β|≤δ s exp(−nCβ 2 ) = n · √ 2π ± O(1) = n · ′′ n · h (0) Nach Gleichung (5) brauchen wir aber die Summe X exp n · − Cβ 2 + o(β 2 ) . s 2π h′′ (0) ± O(1) . |β|≤δ Wir zeigen, dass das o(β 2 ) auf den ermittelten asymptotischen Wert keinen Einfluß hat. Dazu sei ε > 0 beliebig, dann existiert ein δ = δ(ε) > 0, so dass für alle β aus −δ ≤ β ≤ δ gilt: 1 2 ′′ 1 2 ′′ 2 2 ≤ n · −Cβ + o(β ) ≤ n · − β h (0) − 2ε n · − β h (0) + 2ε 2 2 Dann ergeben sich für das Integral die folgenden Schranken: v Z ∞ u u 2π 2 2 dx exp n · − Cx + o(β ) ≤ t −∞ n · h′′ (0) + 2ε v Z ∞ u 2π u exp n · − Cx2 + o(β 2 ) dx ≤ t −∞ n · h′′ (0) − 2ε Aus dem Vorgehen folgt: Ist ε > 0 beliebig, dann gilt für alle hinreichend großen n, dass n X n n ≤ 2n (1 + ε) . 2 (1 − ε) ≤ k k=0 Wir betrachten nur die Summanden klein. Dann gilt nach Gleichung (4): q 1 2π · 1 4 n αn mit α − 21 ≤ δ, δ > 0 und δ hinreichend X X n 1 n ·√ · f (α) ≤ αn n α− 1 ≤δ α− 1 ≤δ 2 2 X X n 1 1 · √ · 1 + o(1) · f (α)n ≤ q αn n 2π( 14 − δ) α− 1 ≤δ α− 1 ≤δ 2 Die Summe P 2 |α− 21 |≤δ f (α)n führt zu n 2 ·n Z δ2 −δ2 exp n · − Cx2 + o(x2 ) 21 dx , was wiederum zu 2n · führt. Die Multiplikation mit √ 1 2π 14 √ n· s 2π |h′′ (0)| · √1n führt schließlich zu den Schranken 2n (1 − ε) und 2n (1 − ε). Damit ist der folgende Satz gezeigt. Das ist die eindimensionale Version von Lemma 3.6 in [15]. Satz 14 Sei h(x) = ln f (x) zweimal differenzierbar und habe ein globales Maximum an h(x0 ) mit h′′ (x0 ) < 0. Sei g(x) beschränkt und stetig. Seien a = a(n) ∈ N, b = b(n) ∈ N so, dass na ≤ x0 − δ < x0 + δ ≤ nb für ein δ > 0. Dann gilt b X j=a 1.5.2 g( nj ) · f ( nj ) n = g(x0 ) · f (x0 )n · √ n· s 2π · 1 + o(1) . |h′′ (x0 )| Abschätzen mittels Erzeugendenfunktionen Ist eine Funktion als f (x) = X i≥0 ai · x i mit ai ≥ 0, x ≥ 0 gegeben, so gilt die folgende Abschätzung für ai [33]: ai ≤ f (x) xi für alle x > 0. Für ai , also den Koeffizienten, der in der Potenzreihe von f (x) vor xi steht, schreiben wir: ai = Koeff f (x), xi Das läßt sich gut verwenden, um kombinatorische Ausdrücke durch relativ einfache analytische Funktionen abzuschätzen. Betrachten wir das folgende Beispiel: Aus der Potenzreihe für ex folgt ex 1 = Koeff ex , xk ≤ k k! x für alle x > 0 und alle k ≥ 0. So bekommen wir die folgende einfache Abschätzung für den Binomialkoeffizienten n · e k 1 n! n · ≤ , = (n − k)! k! k k wobei die obige Ungleichung mit x = k verwendet wird. 22 Optimaler Parameter x. Hier stellt sich die Frage, welches x die beste obere Schranke für ai ≤ fx(x) i liefert. Zunächst läßt sich die Qualität der Schranke durch eine Wahrscheinlichkeit ausdrücken. Dazu betrachten wir eine ganzzahlige Zufallsvariable X = X(x) ≥ 0, die von einem Parameter x abhängt und die Verteilung Prob(X = i) = ai · x i f (x) besitzt. Dann ist f (x) . xi Je größer Prob(X = i) ist, desto besser ist die Abschätzung für ai ≤ fx(x) i . Die Existenz und die Eindeutigkeit eines optimalen x zur Abschätzung von ai , das heißt f (x) soll möglichst klein sein, läßt sich zeigen. Wir betrachten die erste Ableitung xi von ln fx(x) i . Diese ist d f (x) d i ! f ′ (x) ln i = =0 − ln f (x) − i · ln x = dx x dx f (x) x ai = Prob(X = i) · und es ist f ′ (x) i − = 0 f (x) x wobei E[X] = ⇐⇒ i = X i · ai · x i i>0 f (x) x · f ′ (x) = E[X] , f (x) = x · f ′ (x) f (x) der Erwartungswert von X ist. Es stellen sich zwei Fragen: 1. Ist f (x) xi minimal wenn x die Gleichung i = E[X] erfüllt? 2. Existiert ein x, so dass i = E[X] ist? Für die zweite Frage zeigen wir, dass E[X(x)] streng monoton steigend in x > 0 ist. Dazu leiten wir E[X(x)] nach x ab und bekommen: f ′ (x) + x · f ′′ (x) · f (x) − x · f ′ (x) · f ′ (x) d E[X(x)] = dx f (x)2 2 ! x · f ′ (x) x2 · f ′′ (x) x · f ′ (x) 1 · + − = x f (x) f (x) f (x) Nun ist E[X2 ] = X i 2 · ai · x i i>0 = f (x) X i(i − 1) · ai · xi i>1 f (x) + X i · ai · x i i>0 x2 · f ′′ (x) x · f ′ (x) = + , f (x) f (x) 23 f (x) (6) also bekommen wir d 1 1 E[X(x)] = · E X2 − (E[X])2 = · Var[X] > 0 dx x x heraus, wobei Var[X] die Varianz von X ist. Welche Werte sind als E[X] möglich? Ist a0 > 0, so ist E[X] = a1 · x 1 + 2 · a2 · x 2 + . . . → 0 a0 + a1 · x 1 + a2 · x 2 + . . . für x → 0. Ist ai für i ≥ 1 der erste Koeffizient von f (x), der größer als 0 ist, so ist E[X] = i · ai · xi + (i + 1) · ai+1 · xi+1 + . . . → i ai · xi + ai+1 · xi+1 + . . . für x → 0. an der Stelle x mit E[X] = i zu Es bleibt die Frage nach der Minimalität von fx(x) i f (x) klären. Die zweite Ableitung von ln xi ist f (x) f ′′ (x) · f (x) − f ′ (x) · f ′ (x) i d2 ln = + 2 2 i 2 dx x f (x) x ′ 2 ′′ f (x) f (x) i ! = − + 2 > 0 f (x) f (x) x an der Stelle E[X(x)] = x·f ′ (x) f (x) 1 · x2 = i. Das gilt, wenn x2 f ′′ (x) + E[X] − f (x) x · f ′ (x) f (x) 2 ! > 0 (mit Gleichung (6)) 1 1 ⇐⇒ 2 · E X2 − (E[X])2 = 2 · Var[X] > 0 , x x was gilt. Also liegt tatsächlich ein Minimum vor. Potenzreihen mit mehreren Variablen. Die eben dargestellte Technik ist auch auf Potenzreihen mit mehreren Variablen anwendbar. Wir beschränken und aus den Fall von zwei Variablen, den wir hier allgemein darstellen. Wir werden später darauf zurückgreifen. Sei also f (x, y) = X i,j≥0 dann gilt ai,j ≤ ai,j · xi y j f (x, y) xi y j mit ai,j ≥ 0 , für alle x, y > 0 . 24 Für den Zufallsvektor Z = (X, Y) mit der Verteilung Prob((X, Y) = (i, j)) = ai,j · xi y j f (x, y) mit X = X(x, y), Y = Y(x, y) ergibt sich direkt ai,j = Prob((X, Y) = (i, j)) · f (x, y) . xi y j Wieder wollen wir einen Koeffizienten ai,j möglichst gut durch ai,j ≤ nach oben hin abschätzen, also soll f (x,y) xi y j f (x, y) xi y j möglichst klein werden. Dazu betrachten wir die partiellen Ableitungen der Funktion ln fx(x,y) nach x und y. Es ist i yj f (x, y) ∂ ∂ ln i j = ln f (x, y) − i · ln x ∂x xy ∂x i ! x · fx (x, y) fx (x, y) − = 0 ⇐⇒ i = = f (x) x f (x, y) und ebenso ∂ f (x, y) ∂ ln i j = ln f (x, y) − j · ln y ∂y xy ∂y fy (x, y) j ! − = 0 ⇐⇒ = f (x) y j= y · fy (x, y) . f (x, y) Wir beobachten wieder, dass E[X] = x · fx (x, y) f (x, y) und E[Y] = y · fy (x, y) , f (x, y) wenn x und y existieren. Man beachte, dass x, y das Gleichungssystem i= x · fx (x, y) , f (x, y) j= y · fy (x, y) f (x, y) erfüllen müssen. Es ist nicht klar, ob das immer möglich ist. Dazu folgende Beobachtung: Wir betrachten die Abbildung F von R2 nach R2 F : (x, y) 7→ (E[X] , E[Y]) . Dann ist (x, y) = F −1 (i, j), wobei F −1 die Umkehrfunktion von F ist, sofern sie existiert. Die Umkehrfunktion existiert in einer Umgebung von (i, j), wenn die JacobiMatrix JF von F im Punkt (x, y) = F −1 (i, j) invertierbar ist. Hat also JF an diesem 25 Punkt eine Determinante 6= 0, dann existiert F −1 in der Umgebung von (i, j) und ist auch partiell differenzierbar. Siehe zum Beispiel den Satz über Umkehrabbildungen in [32] Abschnitt 4.6. Die Jacobi-Matrix von F ist JF Es ist ∂ E[X(x, y)] ∂ E[X(x, y)] ∂x ∂y = ∂ ∂ E[Y(x, y)] E[Y(x, y)] ∂x ∂y . fx (x, y) + x · fx,x (x, y) · f (x, y) − x · fx (x, y) · fx (x, y) f (x, y)2 2 ! x2 · fx,x (x, y) x · fx (x, y) 1 · E[X] + − = x f (x, y) f (x, y) 2 1 2 = · E X − E[X] x 1 = · Var[X] > 0 , x ∂ E[X(x, y)] = ∂x wobei Var[X] die Varianz von X ist. Insbesondere ist E[X] steigend in x. x · fx,y (x, y) · f (x, y) − x · fx (x, y) · fy (x, y) ∂ E[X(x, y)] = ∂y f (x, y)2 1 x · y · fx (x, y) · fy (x, y) x · y · fx,y (x, y) = · − y f (x, y) f (x, y)2 1 = · E[X · Y] − E[X] · E[Y] y 1 · Cov[X, Y] = y Wobei Cov[X, Y] die Kovarianz von X und Y ist. Ebenso ist 1 ∂ E[Y(x, y)] = · Cov[X, Y] ∂x x und ∂ 1 E[Y(x, y)] = · Var[Y] , ∂y y also Erhalten wir für die Jacobi-Matrix von F Var[X] x JF = E[Z]=(i,j) Cov[X, Y] x 26 Cov[X, Y] y Var[Y] y und die Determinante von JF ist det JF = xy · det Cov[Z] 6= 0 E[Z]=(i,j) ⇐⇒ det Cov[Z] 6= 0 , wobei det Cov[Z] ≥ 0 die Determinante der Kovarianzmatrix von Z bezeichnet. Die Kovarianzmatrix ist immer positiv semidefinit, siehe zum Beispiel [24] Kapitel 12, Theorem 12.4. Das heißt, haben wir ein Paar (x, y), das die Bedingung i = E[X(x, y)] und j = E[Y(x, y)] erfüllt und ist die Determinante der Kovarianzmatrix det Cov[Z(x, y)] 6= 0, dann sind auch die Lösungen (x, y) = F −1 (i, j) in der Umgebung von (i, j) bestimmt. Sind die so bestimmten Lösungen optimal? Wir bilden die Hesse-Matrix H von ln fx(x,y) i y j . Diese ist 2 2 f (x, y) f (x, y) ∂ ∂ ln i j ∂x2 ln xi y j ∂x, y xy H = ∂2 f (x, y) f (x, y) ∂2 ln i j ln i j ∂y, x xy ∂y 2 xy mit ∂2 ∂x2 f (x, y) ln i j xy fx,x (x, y) · f (x, y) − fx (x, y) · fx (x, y) i + 2 2 f (x, y) x 2 fx,x (x, y) i fx (x, y) = + 2 − f (x, y) f (x, y) x 2 ! x2 fx,x (x, y) 1 x · fx (x, y) = 2· + i − x f (x, y) f (x, y) = und ebenso ∂2 ∂y 2 f (x, y) ln i j xy 1 = 2· y y 2 fy,y (x, y) + j − f (x, y) y · fy (x, y) f (x, y) 2 ! An der Stelle E[X(x, y)] = i, E[Y(x, y)] = j haben wir 2 f (x, y) 1 2 1 ∂2 ln i j = 2 · E X − E[X] = 2 · Var[X] 2 ∂x xy x x 2 2 ∂ f (x, y) 1 1 ln i j = 2 · E Y2 − E[Y] = 2 · Var[Y] 2 ∂y xy y y 27 Die gemischten Ableitungen sind ∂2 ∂2 f (x, y) f (x, y) = ln i j ln i j ∂x, y xy ∂y, x xy fx,y (x, y) · f (x, y) − fx (x, y) · fy (x, y) = f (x, y)2 x · y · fx (x, y) · fy (x, y) x · y · fx,y (x, y) 1 · − = x·y f (x, y) f (x, y)2 1 = · E[X · Y] − E[X] · E[Y] x·y 1 · Cov[X, Y] . = x·y in diesem Punkt Damit ist die Hesse-Matrix von ln fx(x,y) i yj H E[Z]=(i,j) und die Determinante ist det H E[Z]=(i,j) = 1 x2 y 2 Var[X] x2 = Cov[X, Y] xy · det Cov[Z] > 0 Cov[X, Y] xy Var[Y ] y2 ⇐⇒ det Cov[Z] > 0 . Das heißt, wenn eine Lösung x, y des Gleichungssystems existiert und die Determinante der Kovarianzmatrix det Cov[Z(x, y)] > 0 ist, dann hat auch fx(x,y) an dieser i yj Stelle ein Minimum. 28 2 Abschätzung von E X schen Ausdruck 2 durch einen analyti- Kommen wir nun zum Hauptteil der Arbeit. Wir müssen zeigen, dass der folgende Satz gilt. Satz 6 (Wiederholung) Sei X die Zufallsvariable für die Anzahl der Lösungen, wie in Abschnitt 1.2 definiert. Unter den Voraussetzungen von Satz 5 gilt: E X2 = O E[X]2 Wir müssen also das Zweite Moment der Anzahl der Lösungen nach oben hin durch ein Vielfaches von E[X]2 beschränken. Dazu bestimmen wir zunächst einen kombinatorischen Ausdruck für E[X2 ], den wir dann im weiteren Verlauf durch einen analytischen Ausdruck abschätzen werden. 2.1 Eine kombinatorische Formel für E X2 Nach Formel (3) ist XX Prob(F unter α und β wahr) , E X2 = α β wobei α und β jeweils alle 3n Belegungen durchlaufen. Es ist Prob(F unter α und β wahr) = #Formeln unter α und β wahr |F| Um die Anzahl der wahren Formeln unter einem Paar (α, β) zu ermitteln, betrachten wir zunächst eine einzelne linke Seite νi,1 + . . . + νi,k . Es gilt α(νi,1 ) + . . . + α(νi,k ) = β(νi,1 ) + . . . + β(νi,k ) mod 3 genau dann, wenn gilt β(νi,1 ) + . . . + β(νi,k ) − α(νi,1 ) + . . . + α(νi,k ) = 0 Das bedeutet genau, dass {j | β(νi,j ) − α(νi,j ) = 1 = {j | β(νi,j ) − α(νi,j ) = 2 mod 3} mod 3} Beachte, dass 2 = −1 mod 3 ist. Damit gibt es X k k0 , k1 , k2 k =k mod 3 1 2 29 mod 3 . mod 3 verschiedene Möglichkeiten, wie eine linke Seite νi,1 + . . . + νi,k mit α(νi,1 + . . . + νi,k ) = β(νi,1 + . . . + νi,k ) mod 3 aufgebaut sein kann. Wir haben k Positionen und wählen für j ∈ {0, 1, 2} kj dieser Positionen aus, die von Variablen x mit β(x) − α(x) = j mod 3 besetzt werden. Beachte, dass wir nur die Möglichkeiten der Struktur der Gleichungen gezählt haben. Die konkrete Platzierung der Variablen kann, da jede Variable mindestens zweimal vorkommen muß, nur nach der Wahl der Struktur erfolgen. Sei nun für j ∈ {0, 1, 2} die Menge von Variablen, die sich unter α, β um j mod 3 unterscheiden Wj = {x ∈ V | β(x) − α(x) = j mod 3} und wj = |Wj |. Jede Formel, die unter α und β wahr ist, wird durch den folgenden Auswahlprozess genau einmal gezählt. 1. Wähle die Struktur der linken Seiten der Gleichungen. Das sind X k k · ... · k0,m , k1,m , k2,m k0,1 , k1,1 , k2,1 K (7) Möglichkeiten. Dabei geht die Summe über alle 3m-Tupel K = (k0,1 , k1,1 , k2,1 , . . . , k0,m , k1,m , k2,m ) P so, dass k1,i = k2,i mod 3 und 2j=0 kj,i = k für alle 1 ≤ i ≤ m ist. P 2. Platziere in die lj := m i=1 kj,i gewählten Plätze die Variablen aus Wj so, dass jede mindestens zweimal vorkommt. Das sind X X X l2 l1 l0 · · u2,1 , . . . , u2,w2 u1,1 , . . . , u1,w1 u0,1 , . . . , u0,w0 u~2 ≥2 u~1 ≥2 u~0 ≥2 Möglichkeiten, wobei u~j = (uj,1 , . . . , uj,wj ) die Anzahl der Vorkommen der entsprechenden Variablen angibt. 3. Wähle die rechte Seite von jeder Gleichung. Hier ist nichts zu wählen, da die linken Seiten unter α (und damit β) bereits einen Wert haben, der die rechte Seite bestimmt. Insgesamt haben wir also m XY K i=1 k k0,i , k1,i , k2,i Y 2 X · j=0 u~j ≥2 30 lj uj,1 , . . . , uj,wj viele mögliche Formeln gewählt. Die Wj gehen nur über wj = |Wj | ein, es kommt also nur auf die Anzahl wj und nicht auf die Mengen Wj selbst an. Damit ist für ein gegebenes α X #Formeln unter α und β wahr β = X w ~ n w0 , w1 , w2 XY m · K i=1 k k0,i , k1,j , k2,i Y 2 X · j=0 u~j ≥2 lj . uj,1 , . . . , uj,wj ~ über alle Der Faktor w0 ,wn1 ,w2 gibt die Wahlmöglichkeiten für β an. Dabei geht w Tripel (w0 , w1 , w2 ) mit w0 + w1 + w2 = n. Die anderen Faktoren zählen die Formeln wie vorher. Die Formel ist unabhängig von dem konkreten α. Dadurch ist XX #Formeln wahr unter α und β α β = 3n · X w ~ n w0 , w1 , w2 XY m · K i=1 k k0,i , k1,j , k2,i Y 2 X · j=0 u~j ≥2 lj . uj,1 , . . . , uj,wj Indem wir durch die Formelanzahl |F| teilen, bekommen wir das folgende Lemma. Lemma 15 Sei X die Zufallsvariable für die Anzahl der Lösungen einer Formel F ∈ F(n, k, m). Dann gilt für das zweite Moment von X: n P Q2 P Qm lj k · · n ~ X X j=0 u~j ≥2 uj,1 ,...,uj,wj i=1 k0,i ,k1,i ,k2,i K(l) w ~ 3 E X2 = m · P km 3 ~ z ≥2 z ,...,z w ~ ~l 1 n P P wobei ~l = (l0 , l1 , l2 ), lj = km und w ~ = (w0 , w1 , w2 ), wj = n. Die Summe ~ über K(l) geht Pm hier über alle wie in (7) definierten Tupel, bei denen als zusätzliche Bedingung i=1 kj,i gerade gleich lj ist. Man beachte, dass wir im Unterschied zu obigem Auswahlprozess hier zuerst die Anzahl der Plätze lj für die Variablen aus Wj wählen und dann über die Strukturen der Gleichungen mit K(~l) gehen. Wir bezeichnen einen einzelnen Summanden von E[X2 ] ohne den Faktor Abhängigkeit von w ~ und ~l mit E(w, ~ ~l). P ~ Qm i=1 K(l) n E(w, ~ ~l) = · w ~ Q2 P · j=0 u~j ≥2 k0,i ,k1,i ,k2,i P km k ~ z ≥2 31 z1 ,...,zn lj uj,1 ,...,uj,wj 3n 3m in (8) Für die spätere Betrachtung ist es günstiger, die normierten Versionen von w ~ und w0 w1 w2 ~l zu betrachten. Für ein gegebenes w ~ ist ω ~ = n , n , n die auf n normierte l0 l1 l2 ~ Version, ebenso ist λ = km , km , km und ω ~ n = w, ~ ~λkm = ~l. Wir schreiben E(~ω , ~λ) für E(~ω n, ~λn). Es bleibt der folgende Satz zu zeigen. Satz 6 folgt dann direkt mit Lemma 15 daraus. Satz 16 Es existiert eine Konstante C, so dass gilt: XX ω ~ ~λ E(~ω , ~λ) ≤ C · 3n = C · 3γn 3m P P Es ist ω~ ~λ E(~ω , ~λ) der Erwartungswert von X unter der Bedingung, dass F unter einer festen Belegung α wahr wird. Also sagt Satz 16, dass E[X | F unter α wahr] = O(E[X]) . Die Bedingung wirkt sich nur durch einen konstanten Faktor auf den Erwartungswert aus. Man vergleiche noch einmal die Interpretation auf Seite 8. Das Hauptaugenmerk liegt auf Satz 16. Deshalb versuchen wir E(w, ~ ~l) etwas zu verstehen. 1. Eine ganz grobe Abschätzung für E(~ω , ~λ) ist E(~ω , ~λ) ≤ ω~nn ≤ 3n , da der verbleibende Faktor stets ≤ 1 ist. Wir schränken die Anzahl der linken Seiten der Gleichungen ein und teilen durch die Anzahl aller möglichen linken Seiten. 2. Der übrig gebliebene Faktor ist gleich 1, wenn l0 = km. Dann sind alle k k = k,0,0 = 1. Dann ist w0 = n und E(~ω , ~λ) = 1. Ist l1 = km k0,i ,k1,i ,k2,i oder l2 = km, so kann E(~ω , ~λ) = 0 oder 1 sein. 3. Ist ω ~ = 13 , 13 , 31 , dann ist nach der Stirling’schen Formel ω~nn ≈ n1 · 3n . An dieser Stelle muß der zweite Faktor ≪ 31m sein, damit Satz 16 gelten kann. Man beachte, dass γ zwar nicht gegen 0 geht, aber eine beliebig kleine Konstante sein kann. Man beachte, dass ω ~ und ~λ in der Summe nur über Tripel der Form wn0 , wn1 , wn2 be l0 l1 l2 ziehungsweise km gehen. Wir haben insgesamt O(n4 ) Summanden E(~ω , ~λ), , km , km die ihrerseits aus exponentiell vielen Summanden bestehen. Darum kümmern wir uns in den folgenden Abschnitten. 32 2.2 Ein analytischer Ausdruck für E X2 Wir geben eine Abschätzung der Terme von E(~ω , ~λ) an, so dass n E(~ω , ~λ) ≤ Ψ ω ~ , ~λ, ~x, ~y für alle ω ~ , ~λ sowie alle ~x = (x0 , x1 , x2 ), ~y = (y0 , y1 , y2 ) mit xi , yi > 0 gilt. Dabei ist Ψ(~ω , ~λ, ~x, ~y ) selbst vollkommen unabhängig von n und m. Die in Gleichung (8) verbliebenen Summen besitzen, außer für ganz spezielle w ~ und ~l, noch exponentiell viele Summanden. Das ist für unser Ziel, den analytischen Vergleich mit 3γn , nicht handhabbar. Wir brauchen eine Möglichkeit, diese kombinatorischen Ausdrücke mit relativ einfachen analytischen Funktionen abzuschätzen. Das geht mit der in Abschnitt 1.5.2 betrachteten Methode der erzeugenden Funktionen. n Wir betrachten die Potenzreihe von exp(x) − x − 1 . Auf diese Weise bekommen wir X 1 1 · ... · = Koeff((exp(x) − x − 1)n , xm ) k1 ! kn ! ~k≥2 (exp(x0 ) − x0 − 1)n für x0 > 0, x0 m P wobei ~k über alle Vektoren (k1 , . . . , kn ) mit ni=1 ki = m, ki ≥ 2 läuft. Interessant ist: Eine Summe mit exponentiell vielen Summanden wird durch einen einfachen Ausdruck abgeschätzt. Direkt folgt X 1 X 1 m · ... · = m! · k1 ! kn ! k1 , . . . , kn ~k≥2 ~k≥2 m √ m ≤ · m · (exp(x0 ) − x0 − 1)n · O(1) ex0 m √ mit der Stirling’schen Formel [10], m! = me · m·O(1) für alle m. Damit haben wir eine einfache obere Schranke für die Anzahl der Gleichungssysteme |F| in Gleichung (1). km X km √ km m m · n · (exp(x0 ) − x0 − 1)n · O(1) |F| = 3 · ≤3 · ex0 ~z ~ z ≥2 √ √ für x0 > 0, da km = O( n) ist. Leider hilft uns das nicht beim Beweis von Satz 16, da |F| beziehungsweise die Summe von Multinomialkoeffizienten dort im Nenner steht. Tatsächlich gilt das folgende Lemma. ≤ Lemma 17 Es existiert ein Parameter s > 0, so dass X km km km = · (exp(s) − s − 1)n · Θ(1) . ~z es ~ z ≥2 33 √ Man beachte, dass der Faktor n verschwunden ist. Der Beweis in Abschnitt A.1.1 zeigt, dass wir für den Parameter x0 > 0 in der vorherigen Abschätzung gerade dieses s einsetzen. Lemma 17 besagt, dass es zwei Konstanten C1 , C2 gibt, so dass ! km X km km n und · (exp(s) − s − 1) C1 · ≤ es ~z ~ z ≥2 ! km X km km n · (exp(s) − s − 1) . ≤ C2 · es ~z ~ z ≥2 Der Parameter s ist implizit gegeben, wie im folgenden dargestellt. Im weiteren Verlauf benutzen wir die folgenden Definitionen. q(x) := exp(x) − x − 1 q ′ (x) := exp(x) − 1 q ′′ (x) := exp(x) x · (exp(x) − 1) x · q ′ (x) Q(x) := = exp(x) − x − 1 q(x) (9) Wir betrachten Q(x) nur für x > 0. Die Bedeutung von Q(x) wird in Abschnitt A.1.1 klar. Die für uns wichtigen Eigenschaften dieser Funktion nennt das folgende Lemma, das wir in Abschnitt A.2.2 beweisen. Lemma 18 Die Funktion Q(x) hat für x > 0 die folgenden Eigenschaften: 1. Q(x) ist streng monoton wachsend. 2. Der Grenzwert für x → 0 ist limx→0 Q(x) = 2. 3. Der Grenzwert für x → ∞ ist limx→∞ Q(x) = ∞. 4. Es ist x < Q(x). Für x > 2 gilt außerdem Q(x) < x + 1. Damit können wir den Parameter s aus Lemma 17 angeben. Er ist ab hier für den ganzen Rest der Arbeit fest und implizit gebenen durch (10) Q(s) = k(1 − γ) bzw. s = Q−1 k(1 − γ) . Da k ≥ 3 und Γ tendenziell nahe bei 1 ist, können wir k(1 − γ) > 2 annehmen, also ist s > 0 eindeutig definiert. Man beachte, dass für großes s s ≈ k(1 − γ), genauer Q(s) − 1 = k(1 − γ) − 1 ≤ s ≤ k(1 − γ) = Q(s), gilt. 34 Abschätzung der Faktoren von E(~ω , ~λ). Eine Abschätzung für den Nenner von E(~ω , ~λ) liefert direkt Lemma 17. Wir benötigen noch eine Abschätzung für den Zähler. Dabei können wir für die meisten Werte von ω ~ und ~λ zunächst etwas einfacher vorgehen. Wir betrachten für den Rest dieses Abschnitts ω ~ 0 und ~λ 0, das heißt ωj > 0 und λj > 0 für j = 0, 1, 2. Damit ist das kleinste betrachtete ωj 2 . Wir schätzen nun die Faktoren nicht konstant, sondern n1 . Ebenso für λj ist es km ~ von E(~ω , λ) einzeln mit der Methode der Erzeugendenfunktionen ab. Für den ersten Faktor gilt nach Lemma 43 im Anhang: n w0 , w1 , w2 ≤ 1 ω0 ω0 ω1 ω2 n 1 1 · · ω1 ω2 (11) Die Summen von Multinomialkoeffizienten sind bereits behandelt. Es ist X u~j ≥2 lj uj,1 , . . . , uj,wj ≤ lj ! · q(xj )wj x j lj für alle lj ≥ 1, xj > 0. lj p lj · lj · O(1) für alle lj ≥ 1. Außerdem e lj √ l ist lj ≤ km = O(n), also ist für alle 1 ≤ lj ≤ km lj ! ≤ ej · n · O(1). Damit erhalten wir für diesen Faktor die folgende Ungleichung. Nach der Stirling’schen Formel ist lj ! ≤ l X lj √ lj j · q(xj )wj · n · O(1) ≤ exj u~j u~j ≥2 !n λ k(1−γ) √ λj km j = · n · O(1) · q(xj )ωj exj (12) Es bleibt der dritte Faktor von E(~ω , ~λ) m XY K(~l) i=1 k k0,i , k1,i , k2,i P abzuschätzen, wobei K(~l) so ist, dass i kj,i = lj und k1,i = k2,i mod 3. Wir betrachten die folgende Erzeugendenfunktion, wobei r = exp 2πı die primitive dritte 3 Einheitswurzel ist. 1 k 2 k 2 k p(y0 , y1 , y2 ) := (y0 + y1 + y2 ) + (y0 + ry1 + r y2 ) + (y0 + r y1 + ry2 ) (13) 3 35 Es gilt 1X p(y0 , y1 , y2 ) = 3 ~k k k0 , k1 , k2 · y0 k0 y1 k1 y2 k2 + y0 k0 (ry1 )k1 (r2 y2 )k2 + y0 k0 (r2 y1 )k1 (ry2 )k2 1X = 3 ~k k k0 , k1 , k2 k0 k1 · y0 y1 y2 k2 ! 2k1 +k2 k1 +2k2 , +r · 1+r wobei ~k = (k0 , k1 , k2 ) über alle ~k mit kj ≥ 0 und k0 +k1 +k2 = k geht. Da r die dritte Einheitswurzel ist, können wir im Exponenten modulo 3 rechnen. Insbesondere ist k1 + 2k2 = k1 − k2 mod 3 und 2k1 + k2 = −k1 + k2 mod 3. Dann gilt für k1 = k2 mod 3, dass 1 + rk1 +2k2 + r2k1 +k2 = 3 ist. Für k1 − k2 = 1 mod 3 ist rk1 +2k2 = r, r2k1 +k2 = r2 also ist 1 + rk1 +2k2 + r2k1 +k2 = 0. Analog für k1 − k2 = 2 mod 3, da das heißt, dass k2 − k1 = 1 mod 3 ist. Damit bleiben in p(y0 , y1 , y2 ) genau die gewünschten Koeffizienten stehen. Es ist X p(y0 , y1 , y2 ) = k1 =k2 mod 3 k y 0 k0 y 1 k1 y 2 k2 . k0 , k1 , k2 Interessant ist, dass das Polynom mittels der komplexen Einheitswurzeln definiert, aber trotzdem reellwertig ist. Für den abzuschätzenden Faktor gilt dann die folgende Ungleichung für alle yj > 0. m XY K i=1 k k0,i , k1,i , k2,i = Koeff p(y0 , y1 , y2 )m , y0 l0 y1 l1 y2 l2 ≤ = p(y0 , y1 , y2 )m y 0 l0 y 1 l1 y 2 l2 p(y0 , y1 , y2 )1−γ (y0 λ0 · y1 λ1 · y2 λ2 )k(1−γ) !n (14) Setzen wir die Ungleichungen (11), (12) und (14), die wir in den vorangegangenen Abschnitten erhalten haben, in die Gleichung (8) für E(~ω , ~λ) ein, dann erhalten wir 36 die folgende Ungleichung für xj , yj > 0. ω0 ω1 ω2 n 1 1 1 ~ E(~ω , λ) ≤ · · ω0 ω1 ω2 !n !n λ0 k(1−γ) λ1 k(1−γ) λ km λ0 km 1 · · q(x0 )ω0 · q(x1 )ω1 · ex0 ex1 !n λ k(1−γ) √ λ2 km 2 · · n3 · O(1) · q(x2 )ω2 ex2 !n es k(1−γ) 1 n p(y0 , y1 , y2 )1−γ · · · Θ(1) · km q(s) (y0 λ0 · y1 λ1 · y2 λ2 )k(1−γ) Der letzte Term ist der Kehrwert der Formel aus Lemma 17. Jetzt lassen sich exp(k(1 − γ)n) und (km)k(1−γ)n = (km)(λ0 +λ1 +λ2 )k(1−γ) kürzen und O(1) mit Θ(1) zusammenfassen. Sortiert nach den Exponenten ωj , λj erhalten wir dann: E(~ω , ~λ) ≤ · q(x0 ) ω0 ω0 λ0 x0 y0 q(x1 ) ω1 λ 0 · p(y0 , y1 , y2 )1−γ ω 1 λ1 x1 y1 !n · q(x2 ) ω2 λ 1 √ λ2 x2 y2 ω 2 · λ 2 ·s 1 q(s) !k(1−γ) (15) n3 · O(1) Wir definieren für die Faktoren der rechten Seite von Gleichung (15) die Funktionen Ψ1 (~ω , ~x), Ψ2 (~λ, ~y ) und Ψ3 (~y ). ω ω ω 1 q(x0 ) 0 q(x1 ) 1 q(x2 ) 2 · Ψ1 (~ω , ~x) := ω0 ω1 ω2 q(s) ! k(1−γ) λ 0 λ 1 λ 2 λ λ λ 0 1 2 Ψ2 (~λ, ~x, ~y ) := ·s (16) x0 y0 x1 y1 x2 y2 Ψ3 (~y ) := p(y0 , y1 , y2 )1−γ Ψ(~ω , ~λ, ~x, ~y ) := Ψ1 (~ω , ~x) · Ψ2 (~λ, ~x, ~y ) · Ψ3 (~y ) Es gilt dann das folgende Lemma. Lemma 19 Für ω ~ , ~λ > 0 und alle xj , yj > 0 ist n √ E(~ω , ~λ) ≤ Ψ1 (~ω , ~x) · Ψ2 (~λ, ~x, ~y ) · Ψ3 (~y ) · n3 · O(1) . 37 Die Schwierigkeit besteht darin, zu ω ~ , ~λ die xj , yj so zu wählen, dass Satz 16 gezeigt werden kann. Dass dies nicht ganz einfach ist, sehen wir, wenn wir den Summanden am Punkt ω ~ = ~λ = 13 , 31 , 31 betrachten. Wählen wir etwa xj = s, yj = 1, dann ist k(1−γ) k 1−γ 1 3 · = 3γ . 3 3 Ψ(~ω , ~λ, ~x, ~y ) = 3 · Das ergibt mit Lemma 19 die Abschätzung E(~ω , ~λ) ≤ 3γn · √ n3 · O(1) , was sicherlich zu groß ist, da alle Summanden positiv sind und die ganze Summe nur 3γn · O(1) ergeben soll. Es stellt sich heraus, dass auch mit einer anderen Wahl der Parameter xj , yj keine bessere Abschätzung möglich √ ist. Das ergibt sich im Beweis von Satz 20, wo auch gezeigt wird, wie der Faktor n3 verschwindet. Wegen Beobachtung werden wir nicht darum herumkommen, die Summe P P der obigen ~ E(~ ω , λ) in Teilsummen zu zerlegen und diese einzeln zu behandeln. Dazu ~λ ω ~ betrachten ~ , ~λ ist nahe an wir eine hinreichend kleine Konstante δ > 0. Wir sagen ω 1 1 1 genau dann, wenn für alle j = 0, 1, 2 , , 3 3 3 ωj − 1 ≤ δ 3 bzw. λj − 1 ≤ δ 3 ist. Damit folgt, ω ~ ist nicht nahe an 31 , 31 , 31 , wenn ein |ωj − 13 | > δ für ein δ > 0 ist. Dabei kann die Konstante δ beliebig klein gewählt sein. Man beachte, dass immer noch O(n2 ) Tripel ω ~ nahe an 31 , 31 , 31 sind, da die ωj von ~ > 0 bedeutet ω0 , ω1 , ω2 > 0, der Form nb sind und n groß wird. Die Schreibweise ω ebenso für ~λ > 0. P P Wir zeigen die folgenden Sätze, die alle Teilsummen von ω~ ~λ E(~ω , ~λ) abdecken. Satz 16 folgt direkt aus diesen Sätzen. ~ und ~λ nahe an Satz 20 Für ω 1 1 1 , , 3 3 3 XX ω ~ ~λ gilt E(~ω , ~λ) ≤ C · 3γn für eine Konstante C. 38 Satz 21 Für ω ~ > 0 nicht nahe an 13 , 31 , 31 , ~λ nahe an dass Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η) 1 1 1 , , 3 3 3 gibt es ~x, ~y , so für ein hinreichend kleines η > 0. Satz 22 Es gibt ein η > 0, so dass für alle ~λ > 0 nicht nahe an gibt, so dass Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η) 1 1 1 , , 3 3 3 es ~x, ~y für alle ω ~. Schließlich noch die Fälle in denen ein λj = 0 ist. Dann ist automatisch auch das zugehörige ωj = 0, da immer 2lj ≥ wj beziehungsweise 2λj k(1 − γ) ≥ ωj ist, damit E(~ω , ~λ) > 0. Man beachte, dass wir Ψ(~ω , ~λ, ~x, ~y ) nur für ω ~ , ~λ > 0 definiert haben. Satz 23 Ist genau ein λj = 0 (äquivalent zu: genau ein ωj = 0), dann gilt n E(~ω , ~λ) ≤ C · 3γ (1 − η) . Satz 24 Ist genau ein λj = 1 (äquivalent zu: genau ein ωj = 1), dann ist E(~ω , ~λ) = 0 oder 1. 39 2.3 Beweis von Satz 16 P P ~ , ~λ nahe Es ist zu zeigen, dass ω~ ~λ E(~ω , ~λ) ≤ C · 3γn gilt. Die Summe über alle ω 1 1 1 γn an 3 , 3 , 3 ist ≤ C · 3 mit Satz 20. Für ω ~ , ~λ > 0, wobei ~λ nicht nahe an 31 , 13 , 31 ist, gilt zunächst mit Lemma 19: n √ ~ ~ E(~ω , λ) ≤ Ψ(~ω , λ, ~x, ~y ) · n3 · C n √ ≤ 3γ (1 − η) · n3 · C Für die letzte Abschätzung wählen wir ~x, ~y gemäß Satz 21 und Satz 22. n Ist ein ωj = 0, dann ist E(~ω , ~λ) ≤ C · 3γ (1 − η) nach Sätzen 23 und 24. Damit bekommen wir für die gesamte Summe: XX n √ E(~ω , ~λ) ≤ C · 3γn + n2 · (km)2 · 3γ (1 − η) · n3 · C ω ~ ~λ + n · km · 3γ (1 − η) Nun ist mit (1 − η) ≤ exp(−η) (3γ (1 − η))n · O n4 · n3/2 n ·C ≤ 3γn · exp − n · η + O(ln n) ln n γn = 3 · exp −n η − O n γn = 3 · exp − n(η − o(1)) ≤ 3γn · exp(−nη ′ ) (für η ′ < η) = 3γn · o(1), wobei o(1) einen Ausdruck bezeichnet, der in n gegen 0 geht. Die polynomiellen Faktoren verschwinden also in (1 − η)n . Also ist die Gesamtsumme ≤ C · 3γn + 3γn · o(1) = C · 3γn . Man sieht, dass sich der Hauptteil der Summe für ω ~ , ~λ nahe an 31 , 13 , 31 ergibt. Der γn Rest ist o(1) · 3 . Satz 24 ist bereits im Punkt 2 auf Seite 32 bewiesen. Wir beweisen die Sätze 20 bis 23 in den folgenden Abschnitten. Wir beginnen mit dem interessantesten, Satz 22. 40 3 Beweis von Satz 22, λ0 ≥ λ1 = λ2 Wir betrachten zunächst den Fall λ0 ≥ λ1 = λ2 und beweisen den Satz zunächst für diesen Fall. Dadurch haben wir zwar einige zusätzliche Arbeit, trotzdem ist das von Verständnis her günstiger. Die Hauptideen werden hier klar. ~ Satz 22 (Wiederholung) Es gibt ein η > 0, so dass für alle λ > 0 nicht nahe an 1 1 1 es ~x, ~y gibt, so dass , , 3 3 3 Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η) für alle ω ~. Es reicht aus, passende Werte für ~x und ~y in Abhängigkeit von ~λ anzugeben. Mit einiger Voraussicht setzen wir in Ψ(~ω , ~λ, ~x, ~y ) ~x := s(x0 , x1 , x2 ) = (sx0 , sx1 , sx2 ) ~y := (y0 , y1 , y2 ), wobei für die xj , yj auf der rechten Seite xj · yj = λj λ0 und 0 ≤ xj , yj ≤ 1 sowie x1 = x2 , y1 = y2 gilt. Es ist x0 = y0 = 1 und λ0 λ1 λ2 + + = x0 y0 + x1 y1 + x2 y2 = 1 + 2x1 y1 . λ0 λ0 λ0 Dann folgt, da λ0 λ0 + λ1 λ0 + λ2 λ0 λ0 = = 1 , λ0 dass 1 1 + 2x1 y1 λ1 = λ2 = x1 y1 . 1 + 2x1 y1 Bemerkung: Die Zuordnung (λ0 , λ1 ) 7→ λλ10 mit Definitionsbereich alle λ0 ≥ λ1 mit λ0 + 2λ1 = 1 und Wertebereich alle Zahlen zwischen 0 und 1 ist bijektiv. Gegeben ein 0 ≤ l ≤ 1, dann ist λ0 = λ1 = l. λ0 1 , 1+2l λ1 = l 1+2l Urbild, denn λ0 + 2λ1 = 1 und Ist zum Beispiel λλ01 = 1, dann ist λ0 = 13 = λ1 = λ2 . Ist λ1 = λ2 = 0. Ist λλ01 = 21 , dann λ0 = 12 , λ1 = λ2 = 14 . λ1 λ0 = 0, dann ist λ0 = 1, Abschätzung der Faktoren Für eine Setzung wie angegeben, schätzen wir die Funktion Ψ(~ω , ~λ, ~x, ~y ) ab. Dazu behandeln wir die Faktoren einzeln, vergleiche Glei- 41 chung (16) auf Seite 37. Es ist Ψ2 (~λ, s~x, ~y ) = = λ 0 2λ1 !k(1−γ) λ0 λ1 · ·s sx0 y0 sx1 y1 k(1−γ) λ0 λ0 · λ0 2λ1 = λ0 k(1−γ) k(1−γ) 1 = , 1 + 2x1 y1 wobei wir im jedem Schritt die Eigenschaften der Setzung verwenden. Eine wichtige Vereinfachung ist, dass das s und das ~λ nicht mehr direkt auftreten. Ihre Werte werden jetzt implizit durch die Setzung x1 y1 = λλ10 bestimmt. Für den Faktor Ψ3 (~y ) erhalten wir: 1−γ 1 k k · (1 + 2y1 ) + 2(1 − y1 ) Ψ3 (~y ) = 3 Hier verwenden wir folgende Rechnung: 1 + ry1 + r2 y1 = 1 − y1 , denn √ 1 3 2πı ı =− + r = exp 3 2 2 und r2 ist konjugiert dazu. Also fallen die komplexen Zahlen in diesem Fall weg. Da 1 − γ ≤ 1 und (1 + 2y1 )k ≥ 1 sowie 2(1 − y1 )k ≥ 0 sind, gilt nach Lemma 45 im Anhang: 3γ Ψ3 (~y ) ≤ · (1 + 2y1 )k(1−γ) + 2(1 − y1 )k(1−γ) 3 Schließlich noch der erste Faktor ω ω ω 1 q(sx0 ) 0 q(sx1 ) 1 q(sx1 ) 2 Ψ1 (~ω , s~x) = · · · ω0 ω1 ω2 q(s) q(sx0 ) + q(sx1 ) + q(sx1 ) ≤ q(s) 2q(sx1 ) = 1+ q(s) unter Verwendung der verallgemeinerten AGM-Ungleichung. Unter unserer Setzung haben wir also Q 2q(sx1 ) 1 ~ Ψ(~ω , λ, s~x, ~y ) ≤ 1+ · q(s) 1 + 2x1 y1 γ 3 · (1 + 2y1 )Q + 2(1 − y1 )Q , · 3 42 wobei wir k(1 − γ) = Q(s) = Q schreiben. Wir definieren noch 2q(sx) := 1 + q(s) Q 1 OPT2 (x, y) := 1 + 2xy OPT1 (x) (17) OPT3 (y) := (1 + 2y)Q + 2(1 − y)Q OPT(x, y) := OPT1 (x) · OPT2 (x, y) · OPT3 (y) , dann ist 3γ Ψ(~ω , ~λ, s~x, ~y ) ≤ OPT(x, y). 3 Insbesondere folgt aus OPT(x, y) ≤ 3(1 − η), dass Ψ(~ω , ~λ, s~x, ~y ) ≤ 3γ (1 − η) ist. Wir formulieren nun das Hauptlemma dieses Abschnittes. Hauptlemma 25 1. Für λ0 ≥ λ1 = λ2 nicht nahe an mit xy = λλ01 , so dass gilt: 1 1 1 , , 3 3 3 oder (1, 0, 0) gibt es 0 ≤ x, y ≤ 1 OPT(x, y) ≤ 3(1 − η) 2. Ist ~λ nahe an (1, 0, 0), dann ist OPT(x, y) ≤ 3, wobei xy = beide gegen 0 gehen. λ1 λ0 und x, y Zu zeigen ist, dass es für jedes λλ01 Werte x, y mit xy = λλ01 gibt, so dass OPT(x, y) die Behauptung erfüllt. Man beachte, dass λλ01 jeden Wert zwischen 0 und 1 annehmen kann. Korollar Satz 22 gilt für λ0 > λ1 = λ2 nicht nahe an 1 1 1 , , 3 3 3 . Beweis. Für λ0 > λ1 = λ2 nicht nahe an 31 , 31 , 31 oder (1, 0, 0) folgt Satz 22 direkt aus dem Lemma. Für ~λ nahe an (1, 0, 0) folgt Satz 22 aus dem zweiten Punkt des Lemmas, wie die folgende Rechnung zeigt. 43 Es ist Ψ ω ~ , ~λ, s(1, x, x), (1, y, y) 1−γ 3γ ≤ OPT1 (x) · OPT2 (x, y) · (1 + 2y)k + 2(1 − y)k {z } |3 =Ψ3 (y) 3γ (1 + 2y)k(1−γ) + 2(1 − y)k(1−γ) −ε ≤ OPT1 (x) · OPT2 (x, y) · {z } 3 | =OPT3 (y) da y klein ist, also kein Summand gegen 0 geht. Damit ist der letzte Ausdruck 3γ 3γ · OPT(x, y) − · OPT1 (x) · OPT2 (x, y) · ε 3 3 3γ · OPT1 (x) · OPT2 (x, y) · ε ≤ 3γ − 3 = nach Punkt zwei im Lemma. Es ist OPT1 (x) ≥ 1, OPT2 (x, y) ≥ ( 31 )Q , also wird von 3γ immer etwas Konstantes abgezogen. Also folgt Ψ ω ~ , ~λ, s(1, x, x), (1, y, y) ≤ 3γ (1 − η) und Satz 22 für diesen Fall. 44 3.1 Ein erster Eindruck von OPT(x, y) An diesem Punkt stellt sich die Frage, ob das Hauptlemma 25 überhaupt gelten kann. Daher wollen wir uns zunächst einen Überblick über die Funktion OPT(x, y) verschaffen. Das ungefähre aussehen von OPT(x, y) ist in Abbildung 2 skizziert. Tragen wir die Werte über der xy-Ebene auf, so ergibt sich ein zusammenhängender Bereich, in dem die Funktionswerte < 3 sind. Dieser Bereich ist in der Zeichnung grau hinterlegt. Die Funktionswerte außerhalb der grauen Fläche sind größer als 3. 3Q 3 1 >3 y =3 <3 3 9 >3 0 x 1 Abbildung 2: Ungefähres Aussehen des Bereichs mit OPT(x, y) < 3 An den Eckpunkten erhalten wir die folgenden Funktionswerte: OPT(0, 0) = 3, OPT(0, 1) = 3Q , OPT(1, 0) = 3 · 3 = 9 und OPT(1, 1) = 3 Es fällt auf, dass nur der Wert von OPT(0, 1) sehr groß werden kann, wenn Q groß ist. Die anderen Werte sind durch von Q unabängige Konstanten beschränkt. Betrachten wir jetzt den Graph von OPT(x, y) für 0 < x, y < 1 genauer. Insbesondere soll hier der Einfluß des Parameters s dargestellt werden. Wir stellen OPT(x, y) in Abbildung 3 dar, indem wir den Bereich der xy-Ebene einfärben, in dem OPT(x, y) < 3 gilt. Je dunkler die Farbe, desto näher ist der Funktionswert an dieser Stelle an 3. Die Funktionswerte in den Bereichen links oberhalb und rechts unterhalb der eingefärbten Fläche in Abbildung 3 sind > 3 und bleiben im Sinne der Übersichtlichkeit weiß. Den Bildern nach gibt es einen einigermaßen geräumigen Bereich, in dem OPT(x, y) < 3 ist. Es sieht hier sogar so aus, als ob die Funktion in diesem Bereich ein eindeutiges Minimum besitzt. Je größer die Anzahl der Variablen pro Gleichung, also die Konstante k und damit der Parameter s ist, desto schmaler wird dieser Bereich und das vermutete Minimum wandert in Richtung großer x und kleiner y. Es bleibt aber immer eine Verbindung durch den Bereich < 3 von x = y = 0 nach x = y = 1 bestehen. Halten wir jetzt einmal einige Werte von y fest und betrachten den Schnitt durch die Funktion entlang dieser Werte. In Abbildung 4 ist zu sehen, dass die Funktion 45 OPT(x,y) 0 < x < 1, 0 < y < 1, s=3 1 OPT(x,y) 0 < x < 1, 0 < y < 1, s=5 1 3 3 2.95 2.9 0.8 0.8 2.9 2.8 y 0.6 y 0.6 2.85 0.4 2.7 0.4 2.8 2.6 0.2 0.2 2.75 0 2.5 2.7 0 0.2 0.4 0.6 0.8 0 1 2.4 0 0.2 0.4 x OPT(x,y) 1 0.6 0.8 1 x 0 < x < 1, 0 < y < 1, s=10 OPT(x,y) 1 3 0 < x < 1, 0 < y < 1, s=30 3 2.8 2.8 0.8 0.8 2.6 2.6 2.4 y 0.6 y 0.6 2.4 0.4 2.2 0.4 2 2.2 1.8 0.2 0.2 2 1.6 0 1.8 0 0.2 0.4 0.6 0.8 0 1 1.4 0 x 0.2 0.4 0.6 0.8 1 x Abbildung 3: OPT(x, y) für s = 3 (oben links), s = 5, s = 10 und s = 30 46 OPT(x,y) 0 < x < 1, s=5 3.2 y = 0.05 y = 0.1 y = 0.3 y = 0.6 3.1 OPT(x,y) 3 2.9 2.8 2.7 2.6 2.5 0 0.2 0.4 0.6 0.8 1 x Abbildung 4: Schnitte durch OPT(x, y) bei konstantem y und s = 5 bei konstantem y = c ein Minimum in x besitzt. Sei das Minimum bei x = x0 . Man sieht, dass für 0 < x < x0 die Funktion fällt und für x0 < x < 1 wieder steigt. Die genaue Position und auch der Funktionswert des Minimums läßt sich nicht so einfach bestimmen. Das werden wir weiteren Verlauf noch sehen. Ein ähnliches Bild ergibt sich, wenn wir einzelne Werte für x festhalten und y laufen lassen. Dies ist in Abbildung 5 zu sehen. Noch eine Bemerkung: Die Schnitte durch OPT(x, y) in x- bzw. y-Richtung sind nicht unbedingt konvex, auch wenn das auf manchen Bildern so aussieht. Zusammengefaßt halten wir fest: Die Bilder zeigen anschaulich, dass das Hauptlemma gelten sollte. Da der Bereich der Werte x, y mit OPT(x, y) < 3 zusammenhängt und x = y = 0, x = y = 1 enthält, findet sich für jedes λλ01 eine Darstellung xy = λλ01 , so dass OPT(x, y) < 3 ist. Das Problem ist der analytische Nachweis. Auch ist zu berücksichtigen, dass die Funktion parametrisiert in k, γ ist und für alle k, γ gelten muß. Man beachte, dass sich k, γ in dem Parameter s von Q(s) = k(1 − γ) widerspiegeln. 47 OPT(x,y) 0 < y < 1, s=5 3.2 x=0.2 x=0.4 x=0.8 x=0.95 3.1 OPT(x,y) 3 2.9 2.8 2.7 2.6 2.5 0 0.2 0.4 0.6 0.8 1 y Abbildung 5: Schnitte durch OPT(x, y) bei konstantem x und s = 5 3.1.1 Ein Schnitt durch OPT(x, y) parallel zur x-Achse Die beiden letzten Beobachtungen können analytisch gezeigt werden, auch wenn wir dadurch noch keine Schranke an die Werte von OPT(x, y) erhalten. Betrachten wir zunächst den Schnitt durch OPT(x, y) mit festgehaltenem y und zeigen den folgenden Satz. Satz 26 Sei 0 < y < 1 fest und 0 ≤ x ≤ 1 variabel, dann gibt es einen Wert x0 mit der folgenden Eigenschaft. 1. Für alle 0 ≤ x < x0 ist ∂OPT(x,y) ∂x ∂OPT(x,y) ∂x = 0 und 2. für x = x0 ist 3. für alle 1 ≥ x > x0 ist ∂OPT(x,y) ∂x < 0, > 0. Der Satz besagt, dass bei x0 ein Minimum existiert. Er sagt aber nichts über den Funktionswert an dieser Stelle aus. Könnten wir zeigen, dass OPT(x0 , y) < 3 für jedes y, wären wir fast fertig. Beweis von Satz 26. Da wir hier nur am Vorzeichen der partiellen Ableitung interessiert sind, können wir auch die entsprechende partielle Ableitung der Funktion 48 ln OPT(x, y) betrachten, um die Rechnung zu vereinfachen. Durch den Logarithmus wird das Vorzeichen der Ableitung nicht verändert, da ∂ ln OPT(x, y) ∂OPT(x, y) 1 = · ∂x ∂x OPT(x, y) und OPT(x, y) > 0 ist. Die Funktion ln OPT(x, y) läßt sich vorteilhaft umschreiben. ln OPT(x, y) = ln 1 + 2q(xs) − Q ln (1 + 2xy) + ln (1 + 2y)Q + 2(1 − y)Q q(s) (18) Wir interessieren uns dafür, wann die partielle Ableitung dieser Funktion größer, kleiner beziehungsweise gleich Null ist. Für die partielle Ableitung erhalten wir so die folgende Ungleichung. 2sq ′ (xs) 2y ∂ ln OPT(x, y) q(s) = S 0 − Q ∂x 1 + 2xy 1 + 2q(xs) q(s) mit q ′ (xs) = exp(xs) − 1 Da der Summand, der von OPT3 (y) herrührt, nicht von x abhängt, spielt dieser in der Ableitung keine Rolle. Wir sind nur an S 0 interessiert, daher können wir noch durch 2Q > 0 teilen und erhalten dann die folgende recht übersichtlich aussehende Ungleichung. Man beachte das Verschwinden des Faktors s und den Ersatz von q(s) ′ (s) durch q ′ (s) im Zähler des ersten Bruches, da Q = s·qq(s) . 1 q ′ (xs) q ′ (s) + 2q(xs) q(s) − y S 0 1 + 2xy Diese Ungleichung lösen wir nach y auf. Wir bringen alle Terme mit y auf die rechte Seite, klammern y aus und teilen dann entsprechend. Dazu brauchen wir, > 0 und 1 + 2xy > 0 sind. Dies ist unter unserer Setzung gegeben. dass 1 + 2q(xs) q(s) ′ Außerdem muss noch 1 + 2q(xs) − x 2qq′(xs) > 0 sein. Das folgt aus Lemma 44 im q(s) (s) Anhang. Die Umformung liefert die folgende Ungleichung: ∂OPT(x, y) S 0 ∂x ⇐⇒ 1+ | q ′ (xs) q ′ (s) ′ 2q(xs) − x 2qq′(xs) q(s) (s) {z :=Y (x) S y (19) } Die linke Seite fassen wir als Funktion in x auf und schreiben Y (x) dafür. Betrachten wir den Graph der Funktion Y (x) in Abbildung 6, dann sehen wir, dass diese Funktion streng monoton wachsend ist. Dies zeigen wir in Lemma 46 im Anhang. Zusammen mit der Beobachtung, dass Y (0) = 0 und Y (1) = 1 ist, sowie dass 0 ≤ Y (x) ≤ 1 ist, folgt mit der Monotonität von Y (x) direkt der Satz 26, da 0 < y < 1 fest ist. 49 Y(x) 0 < x < 1, s=5 1 0.8 Y(x) 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 x Abbildung 6: Graph der Funktion Y (x) für s = 5. OPT(x,Y(x)) 0 < x < 1, s=5 3.1 3 OPT(x,Y(x) 2.9 2.8 2.7 2.6 2.5 2.4 0 0.2 0.4 0.6 0.8 1 x Abbildung 7: Graph von OPT(x, Y (x)) für s = 5. 50 Wir betrachten nun den Graph der Funktion OPT(x, Y (x)) in Abbildung 7. Das bringt uns zu einer leider erfolglosen Beweisidee für Lemma 25. Wir haben gesehen, dass ∂ ln OPT(x, y) = 0 ∂x ⇐⇒ x = Y −1 (y), was x eindeutig definiert. Der in Abbildung 7 dargestellte Graph von OPT(x, Y (x)) ist äquivalent zum Graph von OPT(Y −1 (y), y), da Y (x) auf 0 ≤ x ≤ 1 bijektiv und Y (0) = 0, Y (1) = 1 ist. Dem Bild nach ist der Wert von OPT(Y −1 (y), y) < 3 für alle 0 ≤ y ≤ 1. Die Funktion Y (x) kennen wir, Y −1 existiert und ist eindeutig bestimmt, aber läßt sich nicht ohne weiteres angeben. Naheliegend ist jetzt der Versuch, etwas über OPT(x, Y (x)) zu zeigen. Zum Beispiel, dass die Funktion nur ein Minimum besitzt. Es ist OPT(0, Y (0)) = 3 und OPT(1, Y (1)) = 3. Wir setzen y = Y (x) ein und schreiben y ′ = dYdx(x) für die innere Ableitung. Es gilt dann für OPT(x, Y (x)): ⇐⇒ ⇐⇒ 2sq ′ (xs) q(s) 1 + 2q(xs) q(s) 1 d ln OPT(x, Y (x)) S 0 dx − 2Q 2q ′ (xs) q ′ (s) + 2q(xs) q(s) (1 + 2y)Q−1 − (1 − y)Q−1 y + xy ′ + 2Qy ′ S 0 1 + 2xy (1 + 2y)Q + 2(1 − y)Q y − 1 + 2xy +y ′ ! (1 + 2y)Q−1 − (1 − y)Q−1 x − Q Q (1 + 2y) + 2(1 − y) 1 + 2xy S 0. Die Ableitung y ′ ist positiv und der Summand in der ersten Klammer ist nach Wahl von y = Y (x) gleich 0. Also ist die Ungleichung äquivalent zu ⇐⇒ (1 + 2y)Q−1 − (1 − y)Q−1 x − Q Q (1 + 2y) + 2(1 − y) 1 + 2xy S 0 (1 + 2y)Q−1 − (1 − y)Q−1 S x. (1 + 2y)Q−1 + 2(1 − y)Q−1 Die Rechnung für den letzten Schritt liefert Lemma 47 aus dem Anhang. An dieser Stelle müßten wir jetzt zeigen, dass für diese Ungleichung eine Aussage analog zu Satz 26 gilt. Dies würde bedeuten, dass OPT(x, Y (x)) nur ein einziges Minimum mit Wert < 3 besäße. 51 In dieser Form sieht die Ungleichung zunächst nicht besonders schwierig aus. Man beachte aber, dass (im Gegensatz zu vorher) beide Seiten von x abhängen, also variabel sind. Außerdem verbirgt sich hinter dem y auf der linken Seite die Funktion Y (x), was die analytische Behandlung erheblich verkompliziert. Die Ungleichung läßt sich auch als Q−1 1−x 1−y S 1 + 2x 1 + 2y schreiben, was aber auch schwierig zu behandeln ist. Auch wenn dieses Vorgehen nicht direkt zum Erfolg geführt hat, wird sich die Erkenntnis aus Satz 26 im weiteren Verlauf noch als nützlich erweisen. Wir sehen uns deshalb im folgenden Abschnitt ebenfalls den Schnitt durch OPT(x, y) in der anderen Richtung an. 3.1.2 Ein Schnitt durch OPT(x, y) parallel zur y-Achse Ein ähnliches Bild wie im vorangegangenen Abschnitt ergibt sich, wenn wir einen Wert für x festhalten und y laufen lassen. Auch hier haben die Schnitte die im vorigen Abschnitt beschriebene Form. Das besagt der folgende Satz. Satz 27 Sei 0 < x < 1 fest und 0 ≤ y ≤ 1 variabel, dann es einen Wert y0 mit der folgenden Eigenschaft. 1. Für alle 0 < y < y0 ist ∂OPT(x,y) ∂y ∂OPT(x,y) ∂y = 0 und 2. für y = y0 ist 3. für alle 1 > y > y0 ist ∂OPT(x,y) ∂y < 0, > 0. Beweis von Satz 27 Wir betrachten wieder die Funktion ln OPT(x, y) und bilden diesmal die partielle Ableitung von Gleichung (18) nach y. 2q(xs) − Q ln (1 + 2xy) + ln (1 + 2y)Q + 2(1 − y)Q ln OPT(x, y) = ln 1 + q(s) ∂ ln OPT(x, y) ∂y 2x (1 + 2y)Q−1 − (1 − y)Q−1 + 2Q S 0 1 + 2xy (1 + 2y)Q + 2(1 − y)Q 2x (1 + 2y)Q−1 − (1 − y)Q−1 S Q ⇐⇒ 2Q Q Q (1 + 2y) + 2(1 − y) 1 + 2xy = −Q 52 X(y) 0 < y < 1, s=5 1 0.8 X(y) 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 y Abbildung 8: Graph der Funktion X(y) für s = 5. Wir teilen wieder durch 2Q und Lemma 47 im Anhang mit C = 1 liefert die folgende Ungleichung: (1 + 2y)Q−1 − (1 − y)Q−1 Sx (20) (1 + 2y)Q−1 + 2(1 − y)Q−1 {z } | :=X(y) Die linke Seite fassen wir als Funktion in y auf und bezeichnen diese mit X(y). Bemerkenswert ist hier noch, dass die im Zähler und Nenner auftretenden Exponenten jetzt gleich sind. Betrachten wir den Graph der Funktion X(y) im Abbildung 8, so sehen wir, dass die Funktion alle Werte zwischen X(0) = 0 und X(1) = 1 annimmt. Satz 27 folgt dann daraus, dass X(y) streng monoton wachsend ist. Das zeigt Lemma 49 im Anhang. Auch die Funktion X(y) können wir wieder an Stelle von x in OPT(x, y) einsetzen. Der zugehörige Graph ist in Abbildung 9 dargestellt. Wir erhalten wieder die Werte OPT(X(0), 0) = OPT(0, 0) = 3 sowie OPT(X(1), 1) = OPT(1, 1) = 3 und ein Minimum mit Wert < 3. Auch hier ergibt sich die erfolglose Beweisidee wie oben. 53 OPT(X(y),y) 0 < y < 1, s=5 3.1 3 OPT(X(y),y) 2.9 2.8 2.7 2.6 2.5 2.4 0 0.2 0.4 0.6 0.8 1 y Abbildung 9: Graph von OPT(X(y), y) für s = 5. 3.2 Beweis des Hauptlemmas Da wir in den beiden vorangegangen Abschnitten einsehen mußten, dass wir das Lemma nicht in einem Zug“ zeigen können, zerlegen wir die zu erfassenden λλ10 in ” Teilstücke. Zunächst noch einmal das Lemma, das wir hier beweisen wollen. Hauptlemma 25 (Wiederholung) 1. Für λ0 ≥ λ1 = λ2 nicht nahe an 31 , 13 , 31 oder (1, 0, 0) gibt es 0 ≤ x, y ≤ 1 mit xy = λλ10 , so dass gilt: OPT(x, y) ≤ 3(1 − η) 2. Ist ~λ nahe an (1, 0, 0), dann ist OPT(x, y) ≤ 3, wobei xy = beide gegen 0 gehen. λ1 λ0 und x, y mit λ1 λ0 Wir werden uns entlang des Weges in Abbildung 10 durch den Bereich, in dem die Werte von OPT(x, y) < 3 sind, bewegen. Die Sätze 26 und 27 versetzen uns in eine günstige Situation. Immer gilt: 1. Gehen wir für ein festes y von links nach rechts, das heißt in steigender xRichtung, so ist der maximale Wert von OPT(x, y) am rechten oder linken Rand. 2. Analog für festes x und variables y, vergleiche Abbildungen 4 und 5. 54 OPT(x,y) 0 < x < 1, 0 < y < 1, s=5 OPT(x,y) 0.8 0.8 0.6 0.6 0 < x < 1, 0 < y < 1, s=10 y 1 y 1 0.4 0.4 0.2 0.2 0 0 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 x 0.6 0.8 1 x Abbildung 10: Weg durch den Bereich mit OPT(x, y) < 3 für s = 5 und s = 10. Die meisten λ1 λ0 können auf diese Art behandelt werden. Lemma 28 An folgenden Punkten gilt OPT(x, y) < 3 für s ≥ 9. 1. x = 21 , y= 1 4Q ( λλ01 = xy = 2. x = 21 , y= 1 2Q ( λλ01 = 1 ) 4Q 3. x = 1 − Q1 , y = 1 2Q ( λλ01 = 1 2Q 1 2 ( λλ01 = 1 2 4. x = 1 − Q1 , y = Korollar Hauptlemma 25 gilt für 1 8Q ≤ λ1 λ0 ≤ 1 2 − − − 1 ) 8Q 1 ) 2Q2 1 ) 2Q 1 . 2Q Beweis. Da es sich im Lemma 28 um endlich viele Punkte handelt, ist OPT(x, y) ≤ 3(1 − η) für ein η > 0. Wegen 1. und 2. im Lemma und Satz 27 sind die Werte 1 1 OPT( 12 , y) ≤ 3(1 − η) für 4Q ≤ y ≤ 2Q . Ist also λ1 1 1 ≤ , ≤ 8Q λ0 4Q 1 1 so ist y = 2 λλ10 und 4Q ≤ y ≤ 2Q , x = 21 . Und Lemma 25 gilt für diese λλ01 . Zwischen Punkten mit konstantem y und variablem x verwenden wir Satz 26. So machen wir mit den restlichen Punkten weiter bis zum Ende. Wir beweisen nun noch Lemma 28 selbst. Dazu setzen wir die Punkte in OPT(x, y) ein und schätzen die Werte für die einzelnen Faktoren ab. 55 Beweis von Lemma 28. Betrachten wir zunächst x = 12 , x = 1− Q1 und OPT1 (x). Es ist nach Lemma 44 exp(xs) OPT1 (x) ≤ 1 + 2 . exp(s) Also ist s 2 exp( 2s ) 1 = 1 + 2 exp − ≤1+ OPT1 2 exp(s) 2 und da exp(− 2s ) monoton fallend in s ist, gilt OPT1 ( 12 ) ≤ 1, 165 für s ≥ 5. Ebenso ist OPT1 1 1− Q 2 exp s − Qs s ≤ 1+ = 1 + 2 exp − exp(s) Q s = 1 + 2 exp − 1 − ′ q (s) s = 1 + 2 exp(−1) · exp ′ q (s) und da exp( q′ s(s) ) monoton fallend in s ist, gilt OPT1 Für y = 1 , 4Q y= 1 2Q 1 1− Q ≤ 1, 762 für s ≥ 5, ≤ 1, 737 für s ≥ 9. und OPT3 (y) gilt OPT3 1 4Q = ≤ OPT3 1 2Q = ≤ Q Q 2 1 1+ +2 1− 4Q 4Q 1 1 + 2 exp − ≤ 3, 207 exp 2 4 Q Q 2 1 1+ +2 1− 2Q 2Q 1 exp(1) + 2 exp − ≤ 3, 932 2 56 Für OPT2 (x, y) gilt OPT2 OPT2 OPT2 1 1 , 2 4Q 1 1 , 2 2Q 1 1 1− , Q 2Q = 1 1 1 + 4Q = 1 1 1 + 2Q = !Q !Q 1 1+ 1 Q − 1 Q2 ≤ 0, 784 für s ≥ 5 ≤ 0, 621 für s ≥ 5 !Q ≤ 0, 429 für s ≥ 9, 1 −Q 1 −Q ) , (1 + 2Q ) , (1 + Q1 − Q12 )−Q monoton fallend in Q da die Funktionen (1 + 4Q sind. Damit haben wir die ersten drei Punkte für s ≥ 9 gezeigt. 1 1 OPT , ≤ 1, 165 · 0, 784 · 3, 207 ≤ 2, 930 2 4Q 1 1 OPT , ≤ 1, 165 · 0, 621 · 3, 932 ≤ 2, 845 2 2Q 1 1 OPT 1 − , ≤ 1, 737 · 0, 429 · 3, 932 ≤ 2, 931 Q 2Q Für den letzten Punkt mit x = 1− Q1 , y = gemeinsam. Es ist OPT2 1 1− Q 1 2 betrachten wir OPT2 (x, y) und OPT3 (y) !Q !Q 1 2 2 +2 1 + 1 − Q1 1 + 1 − Q1 !Q !Q 1 1 +2 1 1 ) 1 − 2Q 4(1 − 2Q 1 · OPT3 = 2 = ≤ 1, 692 + 0, 003 = 1, 695 für s ≥ 5, da die beiden Summanden monoton fallend in Q sind. Damit haben wir den letzten Punkt 1 1 ≤ 1, 762 · 1, 695 ≤ 2, 987 OPT 1 − , Q 2Q für s ≥ 5 von Lemma 28 gezeigt. Ganz kleine λλ10 können wir nicht wie eben betrachten, da der Bereich, in dem OPT(x, y) < 3 ist, immer schmaler wird und sich die Situation bei großeren s noch verschärft. Stattdessen nehmen wir für diese Werte eine Gerade Y (x) mit sehr 57 geringer Steigung, die an x = y = 0 beginnt und dafür sorgt, dass die Werte von OPT(x, Y (x)) monoton fallend sind. Da OPT(0, 0) = 3 bekommen wir so in einem gewissen Bereich Werte < 3 für OPT(x, Y (x)). Das besagt das nächste Lemma. Lemma 29 Sei y = Y (x) = Q1 · x. Die Funktion OPT(x, Y (x)) ist streng monoton fallend in 0 < x ≤ 41 für alle s ≥ 6. Korollar Hauptlemma 25 gilt für 0 ≤ λ1 λ0 ≤ 1 . 8Q 1 . Die Funktion x · Y (x) = Q1 · x2 steigt monoton, stetig Beweis. Sei 0 ≤ λλ01 ≤ 16Q 1 von 0 nach 16Q für 0 ≤ x ≤ 41 . Also gibt es ein x, so dass x · Y (x) = λλ10 . Ist ~λ = (λ0 , λ1 , λ2 ) nicht nahe an (1, 0, 0), das heißt λλ01 > δ, dann ist das x > δ. Da OPT(x, Y (x)) streng monoton fallend und OPT(0, 0) = 3 ist, ist damit OPT(x, Y (x)) ≤ 3(1 − η). 1 Der Endpunkt der Gerade ist x = 14 , y = 4Q . Also folgt die Behauptung für λ1 1 ≤ 8Q mit Satz 26 und dem ersten Punkt von Lemma 28. λ0 1 16Q ≤ Analog können wir die λλ10 , die sich 1 annähern, behandeln. Dazu betrachten wir eine sehr steile Gerade Y (x) mit Y (1) = 1. Es ist OPT(1, 1) = 3. Lemma 30 Sei y = Y (x) = 2Q·x−2Q+1. Dann ist OPT(x, Y (x)) streng monoton 1 steigend in 1 − 4Q ≤ x ≤ 1 für alle s ≥ 6. Zur Gerade Y (x): Es ist Y (1 − verläuft also wirklich sehr steil. 1 ) 4Q Korollar Hauptlemma 25 gilt für δ > 0. = 1 2 1 2 − und Y (1 − 1 2Q ≤ λ1 λ0 1 ) 2Q = 0, Y (1) = 1. Die Gerade ≤ 1 − δ. Für ein beliebig kleines 1 1 = 12 · (1 − 4Q ) ≤ λλ10 ≤ 1 − δ. Die Funktion x · Y (x) ist eine nach Beweis. Sei 21 − 8Q 1 1 oben geöffnete Parabel mit den Nullstellen x = 0 und x = 1− 2Q . Für 1− 4Q ≤x≤1 1 1 steigt x · Y (x) monoton und stetig von 2 − 8Q nach 1 an. Also gibt es ein x, so dass x · Y (x) = λλ01 . Ist ~λ nicht nahe an 31 , 31 , 13 , das heißt λλ10 = 1, dann ist das x < 1. Und da OPT(x, Y (x)) monoton steigend mit OPT(1, 1) = 3 ist, ist damit OPT(x, Y (x)) ≤ 3(1 − η). 58 1 Für 21 − 2Q = 12 · (1 − Q1 ) ≤ 28 und Satz 26. λ1 λ0 ≤ 1 2 1 − 8Q folgt es aus dem letzten Punkt von Lemma Jetzt sind noch die beiden vorangegangen Lemmas zu beweisen. Wir beginnen mit Lemma 29. Beweis von Lemma 29. Wir betrachten die Funktion OPT(x) := OPT(x, Y (x)). Die Ableitung von y = Y (x) ist y ′ = Q1 . Wir zeigen, dass die Ableitung von OPT(x) negativ ist. Wie im Beweis von Satz 26 ist es dazu ausreichend, die Ableitung von ln OPT(x) zu betrachten. sq ′ (xs) 2 q(s) (1 + 2y)Q−1 − (1 − y)Q−1 y + x · y′ d ln OPT(x) ′ = + y · 2Q − 2Q dx 1 + 2xy (1 + 2y)Q + 2(1 − y)Q 1 + 2 q(xs) q(s) Wir teilen durch 2Q und da 2Q = 2 ⇐⇒ s · q ′ (s) 1 sowie x · y ′ = y = · x gilt: q(s) Q d ln OPT(x) < 0 dx 1 q ′ (xs) q ′ (s) + 2 q(xs) q(s) − 2· 1 Q ·x 1 + 2xy + 1 (1 + 2y)Q−1 − (1 − y)Q−1 · < 0 Q (1 + 2y)Q + 2(1 − y)Q Wir kürzen die Terme bestehend aus q und q ′ folgendermaßen ab: K= q ′ (xs) q ′ (s) und L = q(xs) q(s) Der erste und der dritte Summand sind positiv, der zweite ist negativ. Für x = 0 ist der gesamte Ausdruck gleich Null. Um die Rechnungen möglichst einfach zu halten, erscheint es nötig, die Summe in zwei Teile aufzuspalten. Die beiden Teile weisen wir getrennt als negativ nach. Mit viel Voraussicht spalten wir den negativen Summanden in 6 4 · 1 ·x · 1 ·x 5 Q 5 Q und . 1 + 2xy 1 + 2xy Wir zeigen jetzt (a) 4 · 1 ·x K 5 Q < 1 + 2L 1 + 2xy 6 · 1 ·x 1 (1 + 2y)Q−1 − (1 − y)Q−1 5 Q (b) · . < Q (1 + 2y)Q + 2(1 − y)Q 1 + 2xy 59 und Beweis von (a). Indem wir auf der linken Seite L durch Kx < L ersetzen, siehe Lemma 44, vergrößern wir die linke Seite. Setzen wir auf der rechten Seite y = Qx ein, so folgt (a) aus: ⇐⇒ ⇐⇒ ⇐⇒ 4 x K 5Q < 1 + 2Kx 1 + Q2 x2 2 4 4 K + Kx2 − · 2Kx2 < x Q 5Q 5Q 4 4 QK + 2Kx2 − · 2Kx2 < x 5 5 2 4 2 QK + Kx < x 5 5 Da K ≤ 1 und x2 < x für x < 1 4 ist, folgt die vorherige Ungleichung aus 2 4 QK + x < x 5 5 ⇐⇒ QK < 2 x. 5 Für x = 0 sind beide Seiten gleich Null. Und da K monoton steigend und konvex ist, reicht es aus, die Ungleichung für x = 14 zu zeigen. Nach Lemma 44 ist K ≤ exp(xs) exp(s) und nach Lemma 18 Punkt vier gilt Q ≤ s + 1. Also folgt die Ungleichung aus exp( 14 s) 1 < (s + 1) · exp(s) 10 ⇐⇒ 1 s+1 < . 3 10 exp( 4 s) Die letzte Ungleichung gilt für s ≥ 6 (mit 0, 0778 < 0, 1), da die linke Seite monoton fallend ist. Beweis von (b). Wir multiplizieren (b) mit Q. Nach Lemma 47 im Anhang (mit C = 65 ) ist (b) äquivalent zu 2 (1 + 2y)Q−1 − (1 − y)Q−1 6 1 − xy · < x. Q−1 Q−1 5 (1 + 2y) + 2(1 − y) 5 Die linke Seite wird größer, wenn wir den Faktor − 25 xy weglassen. Also folgt (b) aus (1 + 2y)Q−1 − (1 − y)Q−1 6 < x. Q−1 Q−1 (1 + 2y) + 2(1 − y) 5 Für x = 0 sind die beiden Seiten gleich Null. Wir zeigen, dass die Ableitung der 60 linken Seite nach x kleiner als d dx 6 5 ist. Nach Lemma 48 im Anhang gilt: (1 + 2y)Q−1 − (1 − y)Q−1 (1 + 2y)Q−1 + 2(1 − y)Q−1 ′ = (Q − 1) · y · 9 (1 + 2y)(1 − y) Q−2 (1 + 2y)Q−1 + 2(1 − y)Q−1 Q−2 9 (1 + 2y)(1 − y) Q−1 = · 2 Q (1 + 2y)Q−1 + 2(1 − y)Q−1 2 ! < 6 5 Wir vergrößern die linke Seite: Q−1 wird zu 1. Es ist (1 + 2y)(1 − y) ≥ 1 für y ≤ 12 , Q wir vergrößern den Exponenten von (1 + 2y)(1 − y) auf Q − 1. Dann folgt (b) aus Q−1 2 6 9 (1 + 2y)(1 − y) < (1 + 2y)Q−1 + 2(1 − y)Q−1 . 5 Wir schreiben (1 + 2y)Q−1 = A und (1 − y)Q−1 = B, Ungleichung oben ist dann äquivalent zu A und B sind > 0. Die 6 2 A + 4AB + 4B 2 5 15 ⇐⇒ 0 < A2 + 4AB + 4B 2 − AB 2 1 ⇐⇒ 0 < A2 − 4AB + 4B 2 + AB 2 1 2 ⇐⇒ 0 < (A − 2B) + AB 2 und die letzte Ungleichung gilt. 9AB < Beweis von Lemma 30. Wir betrachten die Funktion OPT(x) = OPT(x, Y (x)). Die Ableitung von y = Y (x) ist y ′ = 2Q. Wir zeigen, dass die Ableitung von OPT(x) 1 für x ≥ 1 − 4Q positiv ist. Wir gehen wie im Beweis des letzten Lemmas vor. sq ′ (xs) 2 q(s) (1 + 2y)Q−1 − (1 − y)Q−1 y + x · y′ d ln OPT(x) ′ = + y · 2Q − 2Q dx 1 + 2xy (1 + 2y)Q + 2(1 − y)Q 1 + 2 q(xs) q(s) Wir teilen durch 2Q und setzen y ′ = 2Q ein. Es ist zu zeigen, dass dieser Ausdruck positiv ist. ⇐⇒ d ln OPT(x) > 0 dx 1 q ′ (xs) q ′ (s) + 2 q(xs) q(s) − y + 2Q · x (1 + 2y)Q−1 − (1 − y)Q−1 + 2Q · > 0 1 + 2xy (1 + 2y)Q + 2(1 − y)Q 61 Sei wieder K = q ′ (xs) q ′ (s) und L = q(xs) . q(s) Dann folgt die letzte Ungleichung aus: (a) y K > 1 + 2L 1 + 2xy (b) (1 + 2y)Q−1 − (1 − y)Q−1 x > Q Q (1 + 2y) + 2(1 − y) 1 + 2xy und (nach Division mit 2Q) Beweis von (a). Wir verkleinern die linke Seite, indem wir L im Nenner durch K ≥ L (Satz 44) ersetzen und (a) folgt aus: y K > 1 + 2K 1 + 2xy ⇐⇒ K + 2Kxy − 2Ky > y ⇐⇒ K · (1 + 2xy − 2y) − y > 0 Die linke Seite ist für x = 1, das heißt y = 1, gleich 1 · (1 + 2 − 2) − 1 = 0. 1 Wir zeigen: Für 1 > x ≥ 1 − 4Q , das heißt y ≥ 21 , ist die Ableitung der linken Seite nach x kleiner 0. Also fällt die linke Seite monoton hin zu 0 und die Ungleichung gilt. Wir schreiben f (x) = K(1 + 2xy − 2y), f ′ (x) und f ′′ (x) sind die Ableitungen nach x. Zu zeigen ist f ′ (x) < 2Q, da y ′ = 2Q. Dazu zeigen wir f ′′ (x) > 0 und f ′ (1) ≤ 2Q. Das heißt f ′ (x) ist steigend zu 2Q und damit < 2Q. Zu f ′ (1) < 2Q: Es ist K′ = s · exp(xs) , exp(s) − 1 f ′ (x) = K ′ · (1 + 2xy − 2y) + K · (2y + 2xy ′ − 2y ′ ). Setzen wir jetzt x = 1 ein, bekommen wir s · exp(s) · 1 + 1 · (2 + 2y ′ − 2y ′ ) exp(s) − 1 1 s · exp(s) +2=s 1+ +2 = exp(s) − 1 exp(s) − 1 f ′ (1) = ≤ 1.06 · s + 2 ≤ 2s ≤ 2Q , 1 1 fällt und 1 + exp(3)−1 ≤ 1.06. Die Ungleichung gilt für s ≥ 3 mit s ≤ Q da 1 + exp(s)−1 aus Lemma 18. Zu f ′′ (x) > 0 für x ≥ 1 − 1 : 4Q Es ist f ′′ (x) = K ′′ · (1 + 2xy − 2y) + 2K ′ · (1 + 2xy − 2y)′ + K · (1 + 2xy − 2y)′′ . 62 Es ist leicht zu sehen, dass K, K ′ und K ′′ größer 0 sind. Ebenso ist (1 + 2xy − 2y) (1 + 2xy − 2y)′ = 1 + 2(x − 1) + 4Q(x − 1)2 > 0 = 2 + 8Q(x − 1) ≥ 0 (1 + 2xy − 2y)′′ = 8Q für x ≥ 1 − 1 , 4Q > 0 also ist f ′′ (x) ≥ 0. Beweis von (b). Wir kommen zum Beweis der zweiten Ungleichung oben. Nach Lemma 47 im Anhang ist (b) äquivalent zu (1 + 2y)Q−1 − (1 − y)Q−1 > x. (1 + 2y)Q−1 + 2(1 − y)Q−1 Q−1 Für x = 1 ist die linke Seite gleich 33Q−1 = 1, also sind beide Seiten gleich. Wir zeigen, dass die Differenz aus der linken und rechten Seite monoton fallend ist. Für x = 1 ist die Differenz Null. d (1 + 2y)Q−1 − (1 − y)Q−1 −x < 0 dx (1 + 2y)Q−1 + 2(1 − y)Q−1 (1 + 2y)Q−1 − (1 − y)Q−1 d < 1 ⇐⇒ dx (1 + 2y)Q−1 + 2(1 − y)Q−1 Die Ungleichung folgt mit Lemma 48 aus d dx (1 + 2y)Q−1 − (1 − y)Q−1 (1 + 2y)Q−1 + 2(1 − y)Q−1 9(Q − 1) (1 + 2y)(1 − y) Q−2 ! < 1. = 2Q · |{z} (1 + 2y)Q−1 + 2(1 − y)Q−1 2 ′ =y 1 Für 1 ≥ x ≥ 1 − 4Q ist 1 ≥ y = Y (x) ≥ 12 . Da das x nur in Y (x) vorkommt, reicht es, die vorstehende Ungleichung für 1 ≥ y ≥ 12 zu zeigen. Es ist 0 ≤ 2(1 − y) Q−1 Q−1 1 ≤2 2 und (1 − y) Q−2 Q−2 1 ≤ , 2 da 12 ≤ y ≤ 1. Wir schätzen 2(1 − y)Q−1 im Nenner durch 0 nach unten ab und (1 − y)Q−2 im Zähler durch ( 12 )Q−2 nach oben. Dann können wir (1 + 2y)Q−2 kürzen und die Ungleichung folgt aus Q−2 9(Q − 1) · (1 + 2y) · 12 2Q · < 1 2 (1 + 2y)Q−1 Q−2 1 ⇐⇒ 18Q(Q − 1) < (1 + 2y)Q . 2 63 Wir schätzen die Rechte Seite mit 2 ≤ 1 + 2y, da y ≥ 21 , nach unten ab und zeigen Q−2 1 18Q(Q − 1) < 2Q 2 ⇐⇒ 18Q(Q − 1) < 22Q−2 = 4Q−1 . Die letzte Ungleichung gilt für s ≥ 6 (mit 559 < 1161). 64 4 Beweis von Satz 22, allgemeiner Fall Für den Fall λ0 ≥ λ1 ≥ λ2 > 0 verallgemeinern wir das Vorgehen im letzten Abschnitt. Wir setzen in Ψ(~ω , ~λ, ~x, ~y ) ~x := s · ~x , mit xj · yj = ~y := ~y λj λ0 und 0 ≤ xj ≤ 1, 0 ≤ y1 ≤ 2, 0 ≤ y2 ≤ 1. Beachte: Im Unterschied zum letzten Abschnitt, brauchen die xj , yj selbst nicht mehr immer ≤ 1 zu sein, auch wenn xj · yj ≤ 1 ist. Dann ist 1 = x0 y0 ≥ x1 y1 ≥ x2 y2 ≥ 0 und λ0 + λ1 + λ2 1 = = x0 y0 + x1 y1 + x2 y2 λ0 λ0 also λ0 = 1 . x0 y0 + x1 y1 + x2 y2 Damit gilt λ 0 λ1 λ 2 !Q λ1 λ2 λ0 · Ψ2 (~λ, s · ~x, ~y ) = · ·s s x1 sy1 x2 sy2 Q 1 Q = λ0 = 1 + x1 y1 + x2 y2 Ψ1 (~ω , s · ~x) ≤ 1 + q(x1 s) q(x2 s) + q(s) q(s) für x1 , x2 > 0 genau wie vorher. Zur Behandlung von Ψ3 (y0 , y1 , y2 ) = p(y0 , y1 , y2 )1−γ schätzen wir p(y0 , y1 , y2 ) ganz allgemein ab. Lemma 31 Es ist für yj ≥ 0 p(y0 , y1 , y2 ) ≤ k 1 (y0 + y1 + y2 )k + 2 y0 2 + y1 2 + y2 2 − y0 y1 − y0 y2 − y1 y2 2 . 3 Beweis. Es ist, da yj ≥ 0, p(y0 , y1 , y2 ) ≥ 0 reellwertig, auch wenn es mit komplexen Zahlen beschrieben wird. Also ist p(y0 , y1 , y2 ) = |p(y0 , y1 , y2 )|. Für den Betrag gilt die Dreiecksungleichung p(y0 , y1 , y2 ) ≤ 1 |y0 + y1 + y2 |k + |y0 + ry1 + r2 y2 |k + |y0 + r2 y1 + ry2 |k 3 √ 3 1 = − + ı und in den letzten beiden Summen der komplexe wobei r = exp 2πı 3 2 2 Betrag gemeint ist. 65 Es ist √ 1 1 3 (y1 − y2 ) , y0 + ry1 + r y2 = y0 − y1 − y2 + ı 2 2 2 2 also 2 |y0 + ry1 + r y2 | 2 2 1 1 = y0 − y1 − y2 + (y1 − y2 )2 2 2 2 2 = y0 + y1 + y2 2 − y0 y1 − y0 y2 − y1 y2 , y0 + r2 y1 + ry2 ist konjugiert komplex und hat denselben Betrag, deshalb der Faktor 2. Also können wir abschätzen: k 1−γ 1 Ψ3 (1, y1 , y2 ) ≤ (1 + y1 + y2 )k + 2 1 + y1 2 + y2 2 − y1 − y2 − y1 y2 2 3 k(1−γ) 3γ k(1−γ) 2 2 2 (1 + y1 + y2 ) + 2 1 + y1 + y2 − y1 − y2 − y1 y2 ≤ 3 und k(1 − γ) = Q(s) = Q unter Verwendung von Satz 45. Wir kürzen ab: q(x1 s) q(x2 s) + q(s) q(s) Q 1 OPT2 (x1 , x2 , y1 , y2 ) := 1 + x1 y1 + x2 y2 OPT1 (x1 , x2 ) := 1 + (21) := (1 + y1 + y2 )Q + OPT3 (y1 , y2 ) Q 2 (1 + y1 2 + y2 2 − y1 − y2 − y1 y2 ) 2 OPT(x1 , x2 , y1 , y2 ) ist das Produkt dieser drei Funktionen. Zusammengefaßt haben wir die folgende Abschätzung: 3γ Ψ(~ω , ~λ, s · ~x, ~y ) ≤ · OPT(x1 , x2 , y1 , y2 ) , 3 wenn ~x, ~y wie oben gewählt sind, also xj yj = λj λ0 und λ0 ≥ λ1 ≥ λ2 . (22) Sind die λj anders angeordnet, setzen wir xj , yj analog, wobei das größte λj die Rolle von λ0 einnimmt. Dann gilt die obige Abschätzung ganz analog. Das sieht man für Ψ1 (~ω , s · ~x) und Ψ2 (~λ, s · ~x, ~y ) direkt. Für Ψ3 (~y ) gilt es, da die Abschätzung des Polynoms nach Lemma 31 symmetrisch bezüglich der Vertauschung der yj ist. Für p(y0 , y1 , y2 ) selbst gilt das nicht. Zum Beispiel ist p(1, 0, 0) = 1, aber p(0, 1, 0) kann, in Anhängigkeit von k, 0 sein. Also beschränken wir uns auf λ0 ≥ λ1 ≥ λ2 > 0. Bemerkung: Die Zuordnung (λ0 , λ1 , λ2 ) 7→ x, y 66 = λ1 λ2 , λ0 λ0 ist bijektiv für λ0 ≥ λ1 ≥ λ2 > 0, für unsere Zuordnung oben: P λj = 1 und (x, y), 1 ≥ x ≥ y ≥ 0. Das heißt (x1 · y1 , x2 · y2 ) und (λ0 , λ1 , λ2 ) entsprechen sich bijektiv. Das sieht man leicht, denn zu (x, y) ist λ0 = 1 , 1+x+y λ1 = x , 1+x+y λ2 = das Urbild, denn λλ10 = x, λλ20 = y. Ist zum Beispiel λλ01 = λ2 = 13 . Ist λλ10 = 1, λλ02 = 21 , dann λ0 = λ1 = 52 , λ2 = 15 . y 1+x+y λ2 λ0 Hauptlemma 32 Sei λ0 ≥ λ1 ≥ λ2 ≥ 0 nicht nahe an = 1, dann λ0 = λ1 = 1 1 1 , , 3 3 3 1. Ist ~λ auch nicht nahe an (1, 0, 0), dann gibt es xj yj = 1, 0 ≤ y1 ≤ 2, 0 ≤ y2 ≤ 1, so dass λj λ0 . mit 0 ≤ x1 , x2 ≤ OPT(x1 , x2 , y1 , y2 ) ≤ 3(1 − η) für ein konstantes η > 0. 2. Für ~λ nahe an (1, 0, 0) gibt es xj yj = λj λ0 mit 0 ≤ x1 , x2 , y1 , y2 ≤ 1 4 und OPT(x1 , x2 , y1 , y2 ) ≤ 3. Beweis von Satz 22. Ist λ0 ≥ λ1 ≥ λ2 > 0 dann folgt der Satz direkt aus dem vorstehenden Lemma mit Gleichung (22). Für andere Anordnungen der λj siehe die Bemerkung zu Gleichung (22). Für ~λ nahe an (1, 0, 0) argumentieren wir analog zum Beweis der Korollars zu Hauptlemma 25. 4.1 Vorbereitende Lemmas Bevor wir zum eigentlichen Beweis kommen, ist es günstig noch einige Vorbetrachtungen anzustellen. Die folgenden Lemmas dienen dazu, die Lücken zwischen den einzeln betrachteten λ0 im mittleren Bereich zu schließen. Die folgenden Lemmas arbeiten im Beweis analog zu den Sätzen 26 und 27 in Abschnitt 3. Zusätzlich ist zu beachten, dass wir jetzt zu einem vorgegebenen λ0 jetzt alle möglichen λ1 , λ2 statt nur λ1 = λ2 erfassen müssen. 67 Lemma 33 Seien x, y ≥ 0. 1. Es ist OPT(x, x, y + z, y − z) monoton steigend in 0 ≤ z ≤ y. 2. Ist OPT(x, x, 2y, 0) < 3 und 0 < x, y ≤ 1, dann gilt der erste Punkt des Hauptlemmas für alle 1 . λ0 ≥ λ1 ≥ λ2 mit λ0 = 1 + 2xy Beweis. Der ersten Punkt des Lemmas folgt durch einfaches Ausrechnen. Der Faktor OPT1 (x, x) ist unabhängig von z, Q 1 OPT2 (x, x, y + z, y − z) = 1 + x · (y + z) + x · (y − z) Q 1 = > 0 1 + 2xy ebenso. Für OPT3 (y + z, y − z) erhalten wir Q OPT3 (y + z, y − z) = (1 + 2y) + 2 1 + (y + z)2 + (y − z)2 −(y + z) − (y − z) − (y + z)(y − z) Q Q 2 2 2 = (1 + 2y) + 2 (1 − y) + 3z Q2 und die letzte Funktion steigt in z. Also gilt die Behauptung. Für den zweiten Punkt des Lemmas nehmen wir x, y her. Nach Punkt 1 ist OPT(x, x, y + z, y − z) ≤ OPT(x, x, 2y, 0) ≤ 3(1 − η) für 0 ≤ z ≤ y. Damit gilt der erste Punkt des Hauptlemmas für λ2 1 λ1 = x(y + z) , = x(y − z) und = 1 + x(y + z) + x(y − z). λ0 λ0 λ0 Also 1 x(y + z) x(y − z) λ0 = und λ1 = , λ2 = . 1 + 2xy 1 + 2xy 1 + 2xy Da alle 0 ≤ z ≤ y durchlaufen werden, kommen alle Möglichkeiten für λ1 ≥ λ2 vor. Lemma 34 Ist OPT(x, x, 2y, 0) < 3 und OPT(u, u, 2y, 0) < 3 für ein festes x mit 0 < x < u < 1, 0 < y < 1, dann gilt der erste Punkt des Hauptlemmas für alle λ0 ≥ λ1 ≥ λ2 mit 1 λ0 = 1 + 2vy für alle v mit x ≤ v ≤ u. 68 Beweis. Wir gehen analog zum Beweis von Lemma 26 vor. Es ist 2sq ′ (xs) ∂ ln OPT(x, x, 2y, 0) 2y q(s) = . −Q 2q(xs) ∂x 1 + 2xy 1 + q(s) Wie im Beweis von Lemma 26 gilt: ∂OPT(x, x, 2y, 0) S 0 ∂x ⇐⇒ 1+ q ′ (xs) q ′ (s) ′ 2q(xs) − x 2qq′(xs) q(s) (s) S y Die linke Seite ist monoton steigend in x, das folgt aus Lemma 46 im Anhang. Also ist für x ≤ v ≤ u OPT(v, v, 2y, 0) kleiner oder gleich dem Wert am linken Rand (v = x) oder am rechten Rand (v = u), also auf jeden Fall kleiner gleich 3(1 − η). Die Behauptung folgt dann mit Lemma 33. Lemma 35 Ist OPT(x, x, 2y, 0) < 3 und OPT(x, x, 2u, 0) < 3 für ein festes y mit 0 < y < u < 1, 0 < y < 1, dann gilt der erste Punkt des Hauptlemmas für alle λ0 ≥ λ1 ≥ λ2 mit 1 λ0 = 1 + 2xv für alle v mit y ≤ v ≤ u. Beweis. Wir gehen auch hier analog zum Beweis von Lemma 27 vor. Es ist ∂ ln OPT(x, x, 2y, 0) ∂y (1 + 2y)Q−1 + (4y − 1) · (1 − y)2 + 3y 2 x = −2Q + 2Q Q 1 + 2xy (1 + 2y)Q + 2 (1 − y)2 + 3y 2 2 Q2 −1 , also gilt ⇐⇒ ∂OPT(x, x, 2y, 0) S 0 ∂y (1 + 2y)Q−1 + (4y − 1) (1 − y)2 + 3y 2 Q (1 + 2y)Q + 2 (1 − y)2 + 3y 2 2 Q2 −1 − x S 0. 1 + 2xy Mit einer Umformung analog zur Rechnung in Lemma 47 ist die letzte Gleichung äquivalent zu (1 + 2y)Q−1 + (4y − 1) (1 − y)2 + 3y 2 (1 + 2y)Q−1 + 2(1 − y) (1 − y)2 + 3y 2 | {z :=Xz (y) 69 Q2 −1 Q2 −1 S x } (23) und die linke Seite ist streng monoton steigend in 0 ≤ y ≤ 12 und > 1 für y > 21 . Das zeigen wir in Lemma 50 im Anhang. Wir schreiben für die linke Seite Xz (y) und es ist Xz (0) = 0, Xz ( 12 ) = 1 und Xz (1) > 1. Also ist für y ≤ v ≤ u der Wert von OPT(x, x, 2v, 0) kleiner gleich dem Wert an den Rändern v = y und v = u, also auf jeden Fall ≤ 3(1 − η) nach Voraussetzung. Die Behauptung folgt dann mit Lemma 33. 4.2 Beweis des Hauptlemmas Wir kommen nun zum eigentlichen Beweis des Hauptlemmas. Dazu teilen wir analog zum Vorgehen im Abschnitt 3 die Werte von ~λ in drei Bereiche ein. Das Hauptlemma folgt dann aus den folgenden drei Lemmas. Lemma 36 An den folgenden Punkten x, y ist OPT(x, x, 2y, 0) < 3 für s ≥ 9. 1. x = 14 , y= 1 4Q 2. x = 12 , y= 1 4Q 3. x = 12 , y= 1 2Q 4. x = 1 − Q1 , y= 1 2Q entspricht 1 + x1 y1 + x2 y2 = 1 entspricht λ10 = 1 + 4Q 1 entspricht λ10 = 1 + 2Q entspricht 1 λ0 5. x = 1 − Q1 , y= 1 2 entspricht 1 λ0 6. x = 1 − y= 1 2 entspricht 1 λ0 entspricht 1 λ0 1 , 4Q 1 1 7. x = 1 − 4Q , y = 2 1 + 1 4Q−1 1 λ0 =1+ = 1 + Q1 (1 − Q1 ) = 2 − Q1 1 = 2 − 4Q =2 Korollar Der erste Punkt des Hauptlemmas gilt für 1 1 1 ≥ λ0 ≥ 2 1 + 8Q und λ0 ≥ λ1 ≥ λ2 ≥ 0. Beweis. Aus Lemma 34 folgt: Für 1 1 1 ≥ λ0 ≥ 1 1 + 8Q 4Q gilt (a) des Hauptlemmas wegen Punkt 1. und 2., da es ein λ0 = 1 1 + 2v · 70 1 4Q 1 4 ≤v≤ 1 2 mit 1 8Q gibt. Aus Lemma 35 folgt: Für 1 1 1 ≥ λ0 ≥ 1 1 + 4Q 1 + 2Q folgt die Behauptung aus den Punkten 2. und 3. des Lemmas. Die restlichen Punkte bis λ0 = 12 behandeln wir analog. Lemma 37 Sei y = Y (x) = 1 Q · x. Für 0 < x ≤ 1 4 ist OPT x + z, x − z, Y (x + z), Y (x − z) monoton fallend in 0 ≤ z ≤ x. Hier behandeln wir den Fall ~λ nahe an (1, 0, 0). Korollar Für λ0 ≥ λ1 ≥ λ2 ≥ 0 mit 1 ≥ λ0 ≥ 1 1 1 + 8Q gilt der zweite Punkt des Hauptlemmas. Beweis. Es ist λ1 + λ2 ≤ also λ1 λ0 + λ2 λ0 ≤ 1 . 8Q 1 8Q 1+ 1 8Q und 1 1 , ≤1+ λ0 8Q Wir suchen jetzt x und z mit 0 ≤ x ≤ 14 , 0 ≤ z ≤ x, so dass λ1 1 (x + z)2 = (x + z) · Y (x + z) = λ0 Q λ2 1 (x − z)2 . = (x − z) · Y (x − z) = λ0 Q Zusammen mit Lemma 29 aus Abschnitt 3 ist dann OPT x+z, x−z, Y (x+z), Y (x− z) ≤ 3, da die Funktion monoton fallend in z ist. Es gibt x1 , x2 mit λ1 1 = x1 2 = x1 · Y (x1 ) , λ0 Q λ2 1 = x2 2 = x2 · Y (x2 ) . λ0 Q Wir setzen x1 + x2 x1 − x2 , z= . 2 2 Dann ist x + z = x1 und x − z = x2 . Es ist x= (2x)2 = (x1 + x2 )2 ≤ 2x1 2 + 2x2 2 ≤ 2 · 71 1 8 wegen der Voraussetzung an λλ10 , λλ20 . Dann ist 2x ≤ 21 , also ist x ≤ 14 . Beachte, dass 2x1 x2 ≤ x1 2 + x2 2 ⇐⇒ (x1 − x2 )2 ≥ 0. Es ist auch Y (x + z) ≤ Q1 41 + 14 ≤ Q1 · 14 ≤ 41 und Y (x − z) ≤ 14 . 1 ≤ x ≤ 1 ist 4Q Lemma 38 Sei y = Y (x) = 2Q · x − 2Q + 1. Für jedes 1 − OPT x + z, x − z, Y (x + z), Y (x − z) für 0 ≤ z ≤ 1 − x streng monoton fallend in z. Korollar Das Hauptlemma gilt für 1 2 ≥ λ0 ≥ 31 . Beweis. Wir geben x und z an, so dass das Lemma anwendbar ist. Es ist 1 2 ≤ λ1 + λ2 ≤ 2 3 und 2 ≤ 1 λ1 λ2 ≤ 3 , also 1 ≤ + ≤2. λ1 λ0 λ0 1 , 0 ≤ z ≤ 1 − x, so Wir setzen im folgenden Abschnitt x und z mit 1 ≥ x ≥ 1 − 4Q dass λ2 λ1 = (x + z) · Y (x + z) , = (x − z) · Y (x − z) . λ0 λ0 Es ist OPT(1, 1, 1, 1) = 3 und die Behauptung folgt direkt aus Lemma 38 und 1 1 1 ~ Lemma 30 in Abschnitt 3. Ist also λ nicht nahe an 3 , 3 , 3 , dann ist x nicht nahe an 1 und OPT(x + z, x − z, Y (x + z), Y (x − z)) < OPT(x, x, Y (x), Y (x)) ≤ 3(1 − η) . 1 Wir geben x und z an. Es ist Y (x) eine sehr steile Gerade, die für 1 − 2Q ≤x≤1 1 von Y (1 − 2Q ) = 0 nach Y (1) = 1 führt. Also geht x · Y (x) ebenfalls monoton von 1 ≤ x2 ≤ x1 ≤ 1 und 0 nach 1. Es gibt also x1 , x2 mit 1 − 2Q λ1 = x1 · Y (x1 ) , λ0 λ2 = x2 · Y (x2 ) , λ0 da λ2 λ1 ≤ ≤1. λ0 λ0 Wieder ist x= x1 + x2 , 2 z= x1 − x2 2 und x1 = x + z , x2 = x − z . Erfüllen diese x, z das Lemma 38? Es gilt z ≤1−x ⇐⇒ x1 − x2 x1 + x2 ≤1− 2 2 72 ⇐⇒ x1 ≤ 1 , also gelten alle vorstehenden Aussagen. Beachte, z ≤ 1 − x schränkt die möglichen Werte für z sehr stark ein, da hier die Werte für x sehr nahe bei 1 liegen. 1 Kommen wir nun zu x ≥ 1 − 4Q . Nach Definition von x gilt 1 1 1 1 1− + 1− =1− , x≥ 2 2Q 2Q 2Q wir brauchen aber eine bessere untere Schranke. Es ist λ1 λ2 + λ0 λ0 = x1 · Y (x1 ) + x2 · Y (x2 ) 1≤ = (x + z) · Y (x + z) + (x − z) · Y (x − z) = 2Q(x + z)2 − 2Q(x + z) + (x + z) + 2Q(x − z)2 − 2Q(x − z) + (x − z) = 4Qx2 − 4Qx + 2x + 4Qz 2 = 2 · x · Y (x) + 4Qz 2 ≤ 2 · x · Y (x) + 4Q(1 − x)2 = 4Qx2 − 4Qx + 2x + 4Q − 8Qx + 4Qx2 = 8Qx2 − 12Qx + 2x + 4Q . In der Abschätzung haben wir z ≤ 1 − x verwendet. Zusammengefaßt gilt für x: 1 ≤ 8Qx2 − 12Qx + 2x + 4Q und 1 ≥ x ≥ 1 − 1 2Q Wir zeigen, dass die rechte Seite streng monoton steigend in x ist: 16Qx − 12Q + 2 > 0 ⇐⇒ x> 3 1 − 4 8Q 1 1 1 > 34 − 8Q ist die rechte Seite streng monoton steigend in x. Für x = 1 − 4Q Da 1 − 2Q bekommen wir 2 1 1 1 +2 1− + 4Q − 12Q 1 − 8Q 1 − 4Q 4Q 4Q 1 1 = 8Q − 4 + − 12Q + 3 + 2 − + 4Q = 1 , 2Q 2Q und da die rechte Seite der Ungleichung monoton steigend ist, ist x ≥ 1 − 1 . 4Q Noch eine Bemerkung: Ist die rechte Seite der Ungleichung oben = 2, dann ist x = 1. Das ist die Situation λλ10 = λλ02 = 1, das heißt λ0 = λ1 = λ2 = 13 . Wir kommen nun zum Beweis der Lemmas selbst. Wir beginnen bei Lemma 37. 73 Beweis von Lemma 37. Sei 0 < x ≤ 1 4 fest gegeben. Es ist OPT(z) := OPT(x + z, x − z, Y (x + z), Y (x − z)) ! q (x + z)s q (x − z)s = 1+ + q(s) q(s) Q 1 · 1 + (x + z) · Y (x + z) + (x − z) · Y (x − z) Q · 1 + Y (x + z) + Y (x − z) + 2 1 + Y (x + z)2 + Y (x − z)2 Q2 . − Y (x + z) − Y (x − z) − Y (x + z) · Y (x − z) Wir setzen exp(xs) · exp(zs) + exp(−zs) − 2xs − 2 OPT1 (z) := 1 + q(s) !Q 1 OPT2 (z) := 1 1 + Q 2x2 + 2z 2 ! Q2 Q 2 1 1 2 2 1 − x + 2 3z +2 OPT3 (z) := 1+ x Q Q Q und unsere Funktion ist OPT(z) = OPT1 (z) · OPT2 (z) · OPT3 (z) . Die Faktoren OPT1 (z) und OPT3 (z) steigen in z, OPT2 (z) hingegen fällt. Die Ableitung ist unvermeidbar. Wir schreiben abschließend noch cosh(zs) = exp(zs) + exp(−zs) 2 und sinh(zs) = exp(zs) − exp(−zs) 2 und bilden dann die Ableitung von ln OPT(z). d ln OPT(z) = dz s · exp(xs) · 2 · sinh(zs) 4z Q1 q(s) − Q OPT1 (z) 1 + Q1 (2x2 + 2z 2 ) Q2 −1 2 1 1 1 2 1 − Q x + Q2 3z 6z Q2 +Q OPT3 (z) 74 Teilen wir durch 2Q, Q = sq ′ (s) , q(s) so bleibt zu zeigen: exp(xs) · sinh(zs) 3z Q12 1 2z exp(s) − 1 Q − + 1 OPT1 (z) 1 + Q (2x2 + 2z 2 ) 1− 1 x Q 2 + 3z 2 Q12 OPT3 (z) Q2 −1 < 0. Der zweite Summand ist negativ, die beiden anderen sind positiv. Wir teilen den negativen Summanden in zwei Teile auf und vergrößern den ersten Summand, indem wir OPT1 (z) ≥ 1 weglassen. Dann zeigen wir für ein 0 < A < 1, dass die beiden folgenden Ungleichungen gelten. (a) 3z Q12 (b) A · 2z Q1 exp(xs) · sinh(zs) < exp(s) − 1 1 + Q1 (2x2 + 2z 2 ) Q2 −1 2 1 2 1 1 − Q x + 3z Q2 (1 − A) · 2z Q1 < OPT3 (z) 1 + Q1 (2x2 + 2z 2 ) Beweis von (a). Die Beziehung sollte gelten, da exp(s) in s sehr schnell groß wird und z ≤ x ≤ 14 und Q ungefähr s ist. Für z = 0 herrscht Gleichheit. Da s(exp(s)−1) multiplizieren wir die Gleichung mit exp(s) − 1 und zeigen Q = exp(s)−s−1 exp(xs) · sinh(zs) < A · 2z · (exp(s) − s − 1) . 1 2 2 s · 1 + Q (2x + 2z ) Wir ersetzen das z 2 im Nenner durch sein Maximum x2 und zeigen 1 2 s · 1 + 4x · exp(xs) · sinh(zs) < A · 2z · q(s) . Q Für z = 0 herrscht immer noch Gleichheit. Die linke Seite ist konvex in z, da sinh(zs) konvex ist. Die rechte Seite ist eine Gerade in z. Wir müssen die Ungleichung nur noch für x = z zeigen, also 1 2 s · 1 + 4x · exp(xs) · sinh(xs) < A · 2x · q(s) . Q Für x = 0 haben wir Gleichheit. Also betrachten wir x = 41 wegen der Konvexität der linken Seite und da rechts eine Gerade ist. Es bleibt zu zeigen 1 1 1 1 · exp s· 1+ s · sinh s < A · · q(s) . 4Q 4 4 2 75 Wir multiplizieren mit 4Q = 4s·(exp(s)−1) q(s) s · (4Q + 1) · und zeigen s 1 · exp < 2A · s · (exp(s) − 1) , 2 2 wobei wir exp( 4s ) · sinh( 4s ) zu 12 · exp( 2s ) vergrößert haben. Wir kürzen das s und vergößern die linke Seite mit Q ≤ s + 1 für s ≥ 2 aus Lemma 18. Also folgt die Ungleichung aus Das gilt für A = 1 4 exp(s) − 1 4(s + 1) + 1 < 4A · exp( s ) s 2 s − exp − ⇐⇒ 4s + 5 < 4A · exp 2 2 s ⇐⇒ 4s + 5 < 4A · 2 · sinh 2 und s ≥ 7. Beweis von (b). Für z = 0 sind beide Seiten gleich. Sei jetzt z > 0. Wir multiplizieren mit Qz und nehmen die Kehrwerte der beiden Brüche. Zu zeigen ist Q 2 1 1 1 − Qx + 1 + Q 2x + 2 3 Q 2 · 1 − Q1 x + 1 3z 2 Q2 1 3z 2 Q2 Q2 −1 Q2 > 1 + Q1 (2x2 + 2z 2 ) (1 − A) · 2 Man sieht, dass der Nenner der linken Seite gegen 0 geht, wenn Q groß wird, also sollte die Ungleichung gelten. Wir rechnen den Bruch auf der linken Seite aus und zerlegen Q 3 Q 1 1 + Q 2x 2 1 − Q1 x + 1 3z 2 Q2 Q2 −1 2Q + 3 1 1− x Q 2 1 + 2 3z 2 Q ! > 1 + Q1 4x2 2(1 − A) , wobei wir auf der rechten Seite z zu x vergrößert haben. Der Nenner auf der linken Seite ist kleiner 1, denn 1− und 2x x2 3z 2 2x x2 3x2 2x 4x2 ! + 2 + 2 ≤ 1− + 2 + 2 = 1− + 2 < 1 Q Q Q Q Q Q Q Q 4x2 2x > ⇐⇒ 2Q > 4x . Q Q2 76 Das gilt, da x ≤ 14 . Wir lassen den Nenner einfach weg und zeigen Q 3 1 1 + 2x Q Q 2Q + 3 1 1− x Q 2 > 1 + Q1 4x2 2(1 − A) , wobei wir z links auf 0 verkleinert haben. Wir verkleinern die linke Seite, indem wir (1 + Q1 2x)Q zu 1 machen. Es ist 1− 1 1 1 1 1 · ≤ 1 − x ≤ 1 und 1 ≤ 1 + · 4x2 ≤ 1 + . Q 4 Q Q 4Q Setzen wir x = 41 , dann verkleinert sich die linke und vergrößert sich die rechte Seite. Also folgt die Ungleichung aus 2 1 1 + 4Q Q 2Q 1 1− > + 3 3 4Q 2(1 − A) 1 1 + 4Q 1 1 2 > ⇐⇒ Q − + · 3 3 16Q 2(1 − A) und mit A = 1 − 1 4 = 3 4 folgt die Ungleichung aus 1 2 1 1 + > + 3 24Q 3 6Q 1 1 − ⇐⇒ Q > 1 + 6Q 24Q 3 ⇐⇒ Q > 1 + 24Q Q− und die letzte Ungleichung gilt, da Q > 2 ist. 1 Beweis von Lemma 38. Wir halten ein 1 − 4Q ≤ x < 1 fest und schreiben OPT(z) für OPT(x + z, x − z, Y (x + z), Y (x − z)). Der erste Faktor von OPT(z) ist q (x + z)s q (x + z)s + OPT1 (z) := 1 + q(s) q(s) exp(xs) · 2 cosh(zs) − 2xs − 2 = 1+ . q(s) Es ist Y (x + z) = Y (x) + 2Qz := y + 2Qz und Y (x − z) = Y (x) − 2Qz := y − 2Qz. Wir schreiben für den zweiten Faktor: Q 1 OPT2 (z) := 1 + (x + z) · Y (x + z) + (x − z) · Y (x − z) Q 1 = 1 + 2xy + 4Qz 2 77 Der dritte Faktor ist OPT3 (z) := (1 + 2y)Q + 2 (1 − y)2 + 3 · (2Qz)2 denn Y (x + z) + Y (x − z) = 2Y (x) = 2y und Q2 , 1 + Y (x + z)2 + Y (x − z)2 − Y (x + z) − Y (x − z) −Y (x + z) · Y (x − z) 2 2 = 1 + y + 2Qz + y − 2Qz − y − 2Qz − y + 2Qz − y + 2Qz · y − 2Qz = 1 + 2y 2 + 2 · (2Qz)2 − 2y − y 2 + (2Qz)2 = (1 − y)2 + 3 · (2Qz)2 Zusammengefaßt ist OPT(z) = OPT1 (z) · OP T2 (z) · OPT3 (z). Wir schreiben abkür1 )≤y≤1= zend wieder y für Y (x), da x fest ist. Für y gilt außerdem 12 = Y (1 − 4Q Y (1) nach Voraussetzung des Lemmas. Der erste und dritte Faktor steigt in z nur der zweite fällt. Im zweiten Faktor ist noch der Faktor 4Q vor dem z 2 , im dritten natürlich auch, aber dann sind da noch die Exponenten Q und Q2 und in OPT1 (z) steht zs ≈ zQ im Exponenten. Wir d betrachten die Ableitung dz ln OPT(z). s · exp(xs) · 2 · sinh(zs) 8Qz q(s) − Q OPT1 (z) 1 + 2xy + 4Qz 2 Q −1 6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2 +Q OPT3 (z) d ln OPT(z) = dz Wir Teilen durch Q = d OPT(z) < 0 dz s(exp(s)−1) exp(s)−s−1 ⇐⇒ = s(exp(s)−1) . q(s) Dann gilt exp(xs) · 2 · sinh(zs) 8Qz exp(s) − 1 − OPT1 (z) 1 + 2xy + 4Qz 2 Q −1 6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2 + < 0 OPT3 (z) Wir schätzen zunächst den ersten Summanden durch exp(zs) − exp(−zs) = tanh(zs) exp(zs) + exp(−zs) 78 exp(xs) nach oben hin ab. Dazu zeigen wir, dass OPT1 (z) ≥ exp(s)−1 · 2 · cosh(zs) ist. Das ist leicht zu sehen. Es ist exp(xs) · 2 · cosh(zs) − 2xs − 2 OPT1 (z) = 1 + exp(s) − s − 1 exp(xs) · 2 · cosh(zs) − 2xs − 2 ≥ 1+ exp(s) − 1 exp(s) − 1 + exp(xs) · 2 · cosh(zs) − 2xs − 2 = exp(s) − 1 exp(xs) exp(s) − 2xs − 3 = · 2 · cosh(zs) + exp(s) − 1 exp(xs) exp(xs) · 2 · cosh(zs) . ≥ exp(s) − 1 > 0 für s ≥ 2 ist. Also folgt die AbschätDie letzte Ungleichung gilt, da exp(s)−2xs−3 exp(xs) zung für den ersten Summanden mit exp(xs) · 2 · sinh(zs) exp(xs) · 2 · sinh(zs) exp(s) − 1 exp(s) − 1 = tanh(zs) . ≤ exp(xs) OPT1 (z) · 2 · cosh(zs) exp(s) − 1 Wir schätzen den zweiten Summanden auch nach oben ab. Da er negativ ist, machen wir dazu den Nenner größer. Es ist 2xy + 4Qz 2 = 2x2 · 2Q − 2x · 2Q + 2x + 4Qz 2 = 4Q · x2 − x + z 2 + 2x ≤ 4Q · x2 − x + (1 − x)2 + 2x ≤ 2x , denn x2 − x + (1 − x)2 = (x − 1)(2x − 1) ≤ 0, da 21 ≤ x ≤ 1 ist. Also gilt für den zweiten Summand 8Qz 8Qz 8Qz ≤ − ≤ − , − 2 1 + 2xy + 4Qz 1 + 2x 3 da 1 + 2x ≤ 3. Der dritte Summand wird größer, wenn wir den Nenner durch (1 + 2y)Q ersetzen, Q −1 d OPT(z) < 0 aus da 2 (1 − y)2 + 3(2Qz)2 2 ≥ 0 ist. Also folgt dz Q −1 6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2 8Qz + ≤ 0. tanh(zs) − 3 (1 + 2y)Q Diese Ungleichung folgt aus den beiden Ungleichungen exp(zs) − exp(−zs) 3 < Qz und exp(zs) + exp(−zs) 3 Q −1 6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2 5 (b) < Qz . Q (1 + 2y) 3 (a) tanh(zs) = 79 Beweis von (a). Mit Q = aus s·(exp(s)−1) exp(s)−s−1 ≥ s aus Lemma 18 folgt die Behauptung tanh(zs) < s · z Für z = 0 sind beide Seiten gleich 0. Die Ableitung der linken und rechten Seite sind 1 sowie s . s· 2 cosh(zs) Also gilt die Ungleichung, da 1 cosh(zs) 2 ≤ 1 ist. Beweis von (b). Wir zeigen, dass Q −1 6 · (2Q)2 z · (1 − y)2 + 3 · (2Qz)2 2 5 < Qz Q (1 + 2y) 3 Q 5 −1 < · (1 + 2y)Q ⇐⇒ 6 · 4Q · (1 − y)2 + 3 · (2Qz)2 2 3 gilt. Das folgt, da y ≥ Seite, indem wir für 2 (1 − y) < 1 2 ist. Wir vergrößern die linke und verkleinern die rechte 1 1− 2 2 = 1 4 und 1 + 2y ≥ 1 + 2 · 1 =2, 2 also y = 12 einsetzen. Ebenso ersetzen wir 3 · (2Qz)2 auf der linken Seite durch seinen 1 größten Wert 34 , da 4Q ≥ 1 − x ≥ z. Damit folgt die Behauptung aus 24 · Q · 1 3 + 4 4 Q2 −1 < 5 Q ·2 , 3 was für s ≥ 7 gilt. Abschließend bleibt noch das letzte Lemma für die einzelnen Punkte zu zeigen. Wir gehen analog zum Beweis von Lemma 28 vor. Beweis von Lemma 36. Vergleichen wir die Definition von OPT aus (17) in Abschnitt 3 mit der Definition in (21), so fällt auf, dass OPT1 (x) und OPT2 (x, y) aus Abschnitt 3 mit den hier betrachteten OPT1 (x, x) beziehungsweise OPT2 (x, x, 2y, 0) übereinstimmen. Nur OPT3 ist anders, es ist OPT3 (z) ≤ OPT3 (2y, 0). 80 Wir schätzen die Faktoren OPT1 und OPT2 für die ersten vier Punkte folgendermaßen ab: OPT1 OPT1 1 1 , 4 4 1 1 , 2 2 ≤ 1, 048 ≤ 1, 011 ≤ 1, 003 für s ≥ 5, 7, 9 ≤ 1, 165 ≤ 1, 061 ≤ 1, 023 für s ≥ 5, 7, 9 1 1 ≤ 1, 762 ≤ 1, 741 ≤ 1, 737 OPT1 1 − , 1 − Q Q 1 1 ,1 − OPT1 1 − ≤ 2, 612 ≤ 2, 568 ≤ 2, 560 4Q 4Q OPT2 OPT2 OPT2 OPT2 1 1 1 , ,2 · ,0 4 4 4Q 1 1 1 , ,2 · ,0 2 2 4Q 1 1 1 , ,2 · ,0 2 2 2Q 1 1 1 ,0 1 − ,1 − ,2 · Q Q 2Q ≤ 0.844 für s ≥ 5 ≤ 0.784 für s ≥ 5 ≤ 0.621 für s ≥ 5 für s ≥ 5, 7, 9 für s ≥ 5, 7, 9 ≤ 0.473 ≤ 0.445 ≤ 0.429 für s ≥ 5, 7, 9 Für OPT3 (2y, 0) erhalten wir Q2 Q 1 1 1 1 ,0 = 1+ + +2 1− OPT3 2 · 4Q 2Q 2Q 4Q2 1 1 Q 1 · − + + 2 · exp ≤ exp 2 2 2Q 4Q2 1 1 1 = exp + 2 · exp − · exp 2 4 8Q ≤ 3, 245 ≤ 3, 235 ≤ 3, 229 1 da exp( 8Q ) fällt in s. Für y = 1 2Q für s ≥ 5, 7, 9 gilt: 1 , 0 ≤ 4, 055 ≤ 4, 021 ≤ 4, 001 OPT3 2 · 2Q 81 für s ≥ 5, 7, 9 Also gilt für die ersten vier Punkte des Lemmas 36: OPT OPT OPT 1 1 1 , ,2 · ,0 4 4 4Q 1 1 1 , ,2 · ,0 2 2 4Q 1 1 1 , ,2 · ,0 2 2 2Q ≤ 1, 011 · 0, 884 · 3, 235 ≤ 2, 892 s ≥ 7 1 1 1 OPT 1 − , 1 − , 2 · ,0 Q Q 2Q ≤ 1, 165 · 0, 784 · 3, 245 ≤ 2, 964 s≥5 ≤ 1, 165 · 0, 621 · 4, 055 ≤ 2, 934 s≥5 ≤ 1, 737 · 0, 429 · 4, 001 ≤ 2, 982 s≥9 Für die letzten drei Punkte betrachten wir die beiden Faktoren OPT2 (x, x, 2y, 0) und OPT3 (2y, 0) gemeinsam. Es ist 1 1 1 1 ,1 − , 2 · , 0 · OPT3 2 · , 0 OPT2 1 − 4Q 4Q 2 2 !Q Q ! 1 1 3 2 Q = · 2 +2 + 1 4 4 1 + 1 − 4Q !Q 2 2 = · 1+ Q 1 2 2 − 4Q !Q 1 2 · 1+ Q = 1 2 1 − 8Q ≤ 1, 198 ≤ 1, 152 ≤ 1, 139 für s ≥ 5, 7, 9 , da die beiden Faktoren in s fallen. Ebenso ist 1 1 1 1 OPT2 1 − , 1 − , 2 · , 0 · OPT3 2 · , 0 Q Q 2 2 ≤ 1, 786 ≤ 1, 706 ≤ 1, 680 82 für s ≥ 5, 7, 9 . Also gilt für die Punkte fünf und sechs für s ≥ 7: 1 1 1 OPT 1 − ,1 − ,2 · ,0 4Q 4Q 2 1 1 1 OPT 1 − , 1 − , 2 · , 0 Q Q 2 ≤ 2, 568 · 1, 152 ≤ 2, 959 ≤ 1, 741 · 1, 706 ≤ 2, 971 Für den letzten Punkt erhalten wir OPT2 1 1 1 ,1 − ,2 · 1− 4Q 4Q 2 = 1+2 1− Also ist OPT2 1 1 1 ,1 − ,2 · 1− 4Q 4Q 2 1 = Q 2 = = ≤ = ≤ ≤ 1 2+ 4Q − 1 1 1+ 8Q − 2 1 1+ 8Q − 2 1 1+ 8Q − 2 + 2 2Q Q + 2 2Q Q 2 + Q 2 2 + Q 2 1 · 12 · 1 + 1 1+ 4Q − 1 1 4Q−1 · OPT3 Q 1 2· 2 = 1 . 2Q 1 1+ 4Q − 1 2 ! Q2 3 1 + · 1+ 4 4Q − 1 2 2 ! Q2 1 1 1 3 1− 1+ + 4 4Q − 1 4 4Q − 1 Q 2 ! 2 1 1 + 1+ 4Q − 1 4Q − 1 2 + Q 2 Q 1 4Q 1 1+ 4Q − 1 1 1 1 − · 2 2 4Q − 1 1 1+ 4Q − 1 Q 4Q = 4Q − 1 ! !Q 1 2 1 + Q · exp − 1 8 2 1 − 4Q 8Q − 1 8Q − 2 Q Q 0, 883 + 0, 016 · 1, 290 ≤ 1, 160 83 Q 1− 1− 1 8Q 1 4Q 2 !Q 2 + Q 2 für s ≥ 7 . 1 1 1 − 4Q !Q Damit gilt für den letzten Punkt 1 1 1 OPT 1 − ,1 − ,2 · 4Q 4Q 2 1+ 1 4Q − 1 · ≤ 2, 568 · 1, 160 ≤ 2, 979 für s ≥ 7. 84 5 5.1 Beweis von Satz 20 Optimale Parameter ~x, ~y für Ψ(~ω , ~λ, ~x, ~y ) Als Vorbereitung des Beweises von Satz 20 zeigen wir das folgende Resultat. Satz 39 Für ω ~ , ~λ nane an 13 , 31 , 31 existieren optimale Parameter xj = xj (ωj , λj ), y0 = 1 und yj = yj (~λ) für j ∈ {1, 2} so dass gilt: E(~ω , ~λ) ≤ Ψ ω ~ , ~λ, ~x, ~y n · 1 · O(1) n2 Bisher hatten wir die Abschätzung E(~ω , ~λ) ≤ Ψ ω ~ , ~λ, ~x, ~y n √ · n3 · O(1) , die nach Lemma 19 für alle ~x, ~y > 0 gilt. Es ist Ψ(~ω , ~λ, ~x, ~y ) := ω ω ω 1 q(x0 ) 0 q(x1 ) 1 q(x2 ) 2 · sk(1−γ) · ω0 ω1 ω2 q(s) λ 0 λ 1 λ2 !k(1−γ) λ0 λ1 λ2 · x0 y0 x1 y1 x2 y2 · p(y0 , y1 , y2 )1−γ . Teilen wir p(y0 , y1 , y2 )1−γ durch y0 k(1−γ) dann bekommen wir 1, yy10 , yy02 plizieren wir λ0 λ1 λ2 !k(1−γ) λ0 λ1 λ2 x0 y0 x1 y1 x2 y2 1−γ . Multi- mit y0 k(1−γ) dann bekommen wir λ 0 λ0 x0 λ1 x1 yy01 !λ 1 λ2 x2 yy02 !λ2 k(1−γ) . Da wir y1 , y2 frei wählen dürfen, reicht es also die Funktion Ψ(~ω , ~λ, ~x, ~y ) mit y0 = 1 zu betrachten. Die Aufgabe ist es jetzt, die optimalen Parameter xj = xj (ωj , λj ) und yj = yj (~λ) zu finden. 85 Es ist ln Ψ(~ω , ~λ, ~x, ~y ) = 2 X ωj · ln q(xj ) − ln ωj j=0 − ln q(s) + k(1 − γ) · ln s + k(1 − γ) · λ0 · ln λ0 − ln x0 − ln 1 + λ1 · ln λ1 − ln x1 − ln y1 + λ2 · ln λ2 − ln x2 − ln y2 + (1 − γ) · ln p(1, y1 , y2 ) . Da die Parameter xj und y1 , y2 nur getrennt in den Summanden vorkommen, können wir diese einzeln betrachten. Optimale xj . Wir betrachten zunächst die Ableitung nach x0 . Für diese sind nur die Summanden ω0 ln q(x0 ) + k(1 − γ) · (−λ0 ln x0 ) = ln q(x0 )ω0 q(x0 ) = ω ln 0 λ0 k(1−γ) x0 λ0 k(1−γ) x ω0 0 von Bedeutung. Wir wollen diese Funktion in x0 minimieren. Abgesehen von dem nichtganzzahligen Exponenten des Nenners sind wir in der gleichen Situation wie im Abschnitt 1.5.2 ab Seite 22. Bilden wir die erste Ableitung nach x0 : λ0 1 ! λ0 q ′ (x0 ) d − k(1 − γ) = 0 ln q(x0 ) − k(1 − γ) = dx0 ω0 q(x0 ) ω0 x0 Die Ableitung ist Null genau dann, wenn Q(x0 ) = x0 · q ′ (x0 ) λ0 = k(1 − γ) . q(x0 ) ω0 Betrachten wir die Zufallsvariable X = X(x0 ) mit der Verteilung Prob(X = j) = 1 xj · j! q(x0 ) für j ≥ 2 . Der Erwartungswert dieser Zufallsvariable ist E[X(x0 )] = x0 · q ′ (x0 ) = Q(x0 ) . q(x0 ) 86 Also bekommen wir analog zur Rechnung in Abschnitt 1.5.2 ein Minimum für die betrachteten Summanden, wenn wir x0 so setzen, dass E[X(x0 )] = Q(x0 ) = k(1 − γ) λ0 ω0 ist. Ebenso bekommen wir ein Minimum in x1 , x2 für Q(x1 ) = k(1 − γ) λ1 ω1 und Q(x2 ) = k(1 − γ) λ2 . ω2 Da die xj unabhängig sind, können wir ln Ψ(~ω , ~λ, ~x, ~y ) gleichzeitig in x0 , x1 , x2 minimieren. Differenzierbarkeit von xj . Bis jetzt haben wir nur die eindeutige Existenz der optimalen Parameter xj (λj , ωj ) nachgewiesen. Wir wollen uns noch mit der partiellen Differenzierbarkeit beschäftigen, da wir die Ableitungen später im Beweis von Satz 20 benötigen. Es ist λj −1 k(1 − γ) xj (ωj , λj ) = Q . ωj Da Q(x) streng monoton steigend und differenzierbar ist, ist Q−1 eindeutig bestimmt und differenzierbar. Nach den Satz über die Differenzierbarkeit der Umkehrfunktion ist d 1 d −1 Q (y) = Q(x) = ′ −1 . −1 (y) x=Q dy dx Q Q (y) Also ist Ebenso ist ∂ 1 λj · − k(1 − γ) 2 xj (ωj , λj ) = λ ∂ωj ωj Q′ Q−1 k(1 − γ) ωjj λj 1 · − k(1 − γ) 2 . = ωj Q′ xj (ωj , λj ) 1 1 ∂ · k(1 − γ) . xj (ωj , λj ) = ′ ∂λj ωj Q xj (ωj , λj ) Das ganze ist etwas verwirrend, da wir die Umkehrfunktion Q−1 (y) nicht richtig kennen. Wir können die Technik dann anwenden, wenn Q−1 (y) bekannt ist. Das ist der Fall, wenn ωj = λj . Dann ist xj (ωj , λj ) gegeben durch Q−1 k(1 − γ) = s 87 und es ist ∂ k(1 − γ) 1 · xj (ωj , λj ) = − ′ ∂ωj Q (s) ωj (24) k(1 − γ) 1 ∂ · xj (ωj , λj ) = + ′ ∂λj Q (s) ωj also in diesen Falle gerade ∂ ∂ xj (ωj , λj ) = − xj (ωj , λj ) . ∂ωj ∂λj Beachte: Immer ist Q′ (x) > 0. Optimale y1 , y2 . Für die Ableitungen nach y1 und y2 spielen nur die folgenden Summanden von ln Ψ(~ω , ~λ, ~x, ~y ) eine Rolle. k(1 − γ) · − λ1 ln y1 − λ2 ln y2 + (1 − γ) · ln p(1, y1 , y2 ) p(1, y1 , y2 ) = (1 − γ) · ln λ1 k y1 · y2 λ 2 k Wir sind in der gleichen Situation wie in Abschnitt 1.5.2 ab Seite 24. Es gilt also: Die partielle Ableitung nach y1 ist gleich 0 genau dann, wenn kλ1 = y1 · py1 (1, y1 , y2 ) p(1, y1 , y2 ) und die partielle Ableitung nach y2 ist gleich 0 genau dann, wenn kλ2 = y2 · py2 (1, y1 , y2 ) . p(1, y1 , y2 ) Die Lösbarkeit dieses Gleichungssytems nach y1 , y2 ist im allgemeinen Fall keineswegs klar. Für ωj = λj = 13 sind wir aber in der günstigen Situation, eine einfache Lösung angeben zu können. Mit den Überlegungen aus Abschnitt 1.5.2 erhalten wir dann auch eine Lösung für ~λ nahe an 13 , 31 , 31 . Betrachten wir den Zufallsvektor Z = Z(y1 , y2 ) = Y1 (y1 , y2 ), Y2 (y1 , y2 ) mit der Verteilung 1 k · y1 k1 y2 k2 · Prob(Z = (k1 , k2 )) = p(1, y1 , y2 ) k − k1 − k2 , k1 , k2 für k1 = k2 mod 3 und 0 sonst. Der Erwartungswert dieses Zufallsvektors ist y1 · py1 (1, y1 , y2 ) y2 · py2 (1, y1 , y2 ) E[Z(y1 , y2 )] = = P (y1 , y2 ) , , p(1, y1 , y2 ) p(1, y1 , y2 ) 88 wobei p(1, y1 , y2 ) das aus Gleichung (13) auf Seite 35 bekannte Polynom p(1, y1 , y2 ) = 1 (1 + y1 + y2 )k + (1 + ry1 + r2 y2 )k + (1 + r2 y1 + ry2 )k 3 ) ist. Mit pyj bezeichnen wir die partiellen Ableitungen von p(1, y1 , y2 ) mit r = exp( 2πı 3 nach yj . Diese sind: py1 (1, y1 , y2 ) = k−1 k−1 k−1 1 k 1 + y1 + y2 + r 1 + ry1 + r2 y2 + r2 1 + r2 y1 + ry2 3 py2 (1, y1 , y2 ) = k−1 k−1 k−1 1 k 1 + y1 + y2 + r2 1 + ry1 + r2 y2 + r 1 + r2 y1 + ry2 3 Wir werden gleich die Jacobi-Matrix von P (y1 , y2 ) berechnen. Dazu benötigen wir zusätzlich noch die Ableitungen von pyj (1, y1 , y2 ). py1 ,y1 (1, y1 , y2 ) = k−2 k−2 k−2 1 2 2 2 k(k − 1) 1 + y1 + y2 + r 1 + ry1 + r y2 + r 1 + r y1 + ry2 3 py2 ,y2 (1, y1 , y2 ) = k−2 k−2 k−2 1 k(k − 1) 1 + y1 + y2 + r 1 + ry1 + r2 y2 + r2 1 + r2 y1 + ry2 3 py1 ,y2 (1, y1 , y2 ) = py2 ,y1 (1, y1 , y2 ) = k−2 k−2 k−2 1 k(k − 1) 1 + y1 + y2 + 1 + ry1 + r2 y2 + 1 + r2 y1 + ry2 3 Für y1 = y2 = 1 erhalten wir p(1, 1, 1) = 3k−1 und py1 (1, 1, 1) = py2 (1, 1, 1) = k ·3k−2 . Damit ist 1 · k · 3k−2 1 · k · 3k−2 1 1 P (1, 1) = = k· , k· , 3k−1 3k−1 3 3 und wir haben eine Lösung für λj = 1 3 gefunden. Die Jacobi-Matrix JP von P ist 1 (py1 + y1 · py1 ,y1 ) · p − y1 · py1 · p2 y2 · py2 ,y1 · p − py2 · py1 2 y1 · py1 ,y2 · p − py1 · py2 (py2 + y2 · py2 ,y2 ) · p − y2 · py2 2 Im Punkt y1 = y2 = 1 erhalten wir mit py1 ,y2 (1, 1, 1) = py2 ,y1 (1, 1, 1) = k(k − 1) · 3k−3 89 . die Matrix JP = y1 =y2 =1 1 3k−1 2 · k · 32k−3 − k · 32k−4 −k · 3 2k−4 −k · 32k−4 k·3 2k−3 −k·3 2k−4 2 −1 = k · 9 −1 2 (25) 2 und die Determinante ist k27 > 0. Nach Abschnitt 1.5.2 ist damit auch die Determinante der Kovarianzmatrix von Z, det Cov[Z(1, 1)] > 0 und die Hesse-Matrix von P im Punkt y1 = y2 = 1 positiv definit und wir haben ein Minimum in y1 , y2 . Differenzierbarkeit von yj . Nach den obigen Überlegungen existiert als die Umkehrabbildung P −1 von P in der Umgebung von λj = 31 und die Parameter y1 , y2 sind damit gegeben durch y1 (λ1 , λ2 ), y2 (λ1 , λ2 ) = P −1 kλ1 , kλ2 . Außerdem ist P −1 nach dem Satz über die Differenzierbarkeit der Umkehrfunktion (aus [32] Abschnitt 4.6) im Punkt λ1 = λ2 = 31 differenzierbar. Es ist ∂ −1 P (~υ ) = ∂~υ ∂ P (~y ) ~y=P −1 (~υ) ∂~y !−1 und damit gilt mit der Kettenregel, da υj = kλj , dass ∂ −1 ∂ y1 (λ1 , λ2 ), y2 (λ1 , λ2 ) = P kλ1 , kλ2 ∂~λ ∂~λ !−1 ∂ k 0 · P (~y ) = 0 k ~y=P −1 (kλ1 , kλ2 ) ∂~y !−1 ∂ = k· . P (y) ~y= y1 (λ1 ,λ2 ), y2 (λ1 ,λ2 ) ∂~y Die Jacobi-Matrix von P kennen wir und an der Stelle y1 = y2 = 1 kennen wir auch die Werte der Einträge. Es ist mit der Inversen k · JP = y1 =y2 =1 9 JP y1 =y2 =1 −1 2 −1 −1 2 3 = · k 90 2 1 1 2 . Das heißt, im Punkt λ1 = λ2 = 31 haben wir für y1 (λ1 , λ2 ), y2 (λ1 , λ2 ) die folgenden partiellen Ableitungen. ∂ y1 (λ1 , λ2 ) ∂ y1 (λ1 , λ2 ) ∂λ 6 3 ∂λ2 1 (26) = 3 6 ∂ ∂ y2 (λ1 , λ2 ) y2 (λ1 , λ2 ) ∂λ1 ∂λ2 λ1 =λ1 = 1 3 Bis jetzt haben wir Werte für die Parameter ~x, ~y gefunden, für die die Funktion Ψ(~ω , ~λ, ~x, ~y ) in der Nähe von ω ~ = ~λ = 31 , 31 , 31 möglichst klein wird. Damit ist Satz 39 aber noch nicht gezeigt. Wir müssen E(~ω , ~λ) noch genauer abschätzen, um das gewünschte Resultat zu erhalten. 5.2 Eine bessere Abschätzung für E(~ω , ~λ) Nach Lemma 19 wissen wir, dass n √ E(~ω , ~λ) ≤ Ψ1 (~ω , ~x) · Ψ2 (~λ, ~x, ~y ) · Ψ3 (~y ) · n3 · O(1) für alle ~x, ~y > 0 gilt. Wählen wir ~x, ~y optimal, wie im Abschnitt 5.1 dargestellt, bekommen wir für ω ~ , ~λ nahe an 31 , 13 , 31 eine viel bessere Abschätzung. Nach dem letzten Abschnitt existieren die optimalen Parameter ~x = ~x(~ω , ~λ), ~y = ~y (~λ) für ω ~, ~λ nahe an 1 , 1 , 1 . Insbesondere ist y0 = 1. 3 3 3 Wir zeigen den Satz 39 vom Anfang des Abschnitts. ~ , ~λ nane an 13 , 31 , 31 existieren optimale ParaSatz 39 (Wiederholung) Für ω meter xj = xj (ωj , λj ), y0 = 1 und yj = yj (~λ) für j ∈ {1, 2} so dass gilt: E(~ω , ~λ) ≤ Ψ ω ~ , ~λ, ~x, ~y n · 1 · O(1) n2 Beweis. Wir betrachten E(w, ~ ~l) noch einmal in der ursprünglichen Form. Nach Geichung (8) auf Seite 31 ist Q2 P lj k P ~ Qm · j=0 u~j ≥2 uj,1 ,...,uj,wj i=1 k0,i ,k1,i ,k2,i K(l) n · E(w, ~ ~l) = P km w ~ ~ z ≥2 z ,...,z 1 n mit w ~ = ω ~ n und ~l = ~λk(1 − γ)n. Wir behandeln die Faktoren wie im Beweis von Lemma 19 der Reihe nach. Die Anwendung der Stirling’schen Formel n! = 91 n n e √ 2πn · (1 + o(1)) fürhrt zu ω0 ω1 ω2 n 1 n 1 1 1 = · · Θ(1) . ω ~n ω0 ω1 ω2 n √ Faktoren n von ωj n im Nenner zustande. Einer Der Faktor n1 kommt durch die drei√ der Faktoren kürzt sich gegen das n von n! im Zähler. Die Faktoren X lj uj,1 , . . . , uj,wj · u~j ≥2 können wie in Lemma 17 behandelt werden, da xj (ωj , λj ) der optimale Parameter ist. Wir bekommen die Abschätzung X l j l j lj = · q(xj )wj · Θ(1) . u~j e · xj u~j ≥2 Im Vergleich zu Lemma√19 verschwindet mit der Anwendung des lokalen Grenzwertsatzes hier der Faktor n, der von der Stirling’schen Formel herrührt. Der Nenner von E(w, ~ ~l) ist nach Lemma 17 gleich km e·s km · q(s)n · Θ(1) mit m = (1 − γ)n . Den verbleibenden Faktor bezeichnen wir mit m XY k S(~l) := mit lj = λj km, ~l = (l0 , l1 , l2 ) . k , k , k 0,i 1,i 2,i i=1 K(~l) Im Beweis von Lemma 19 haben wir gesehen, dass für alle yj > 0 p(y0 , y1 , y2 )m S(~l) ≤ y 0 l0 y 1 l1 y 2 l2 ist, da S(~l) gerade der Koeffizient von y0 l0 y1 l1 y2 l2 in p(y0 , y1 , y2 )m ist. Der Faktor, um den S(~l) kleiner als die rechte Seite ist, läßt sich, wie im zweiten Teil von Abschnitt 1.5.2 dargestellt, als Wahrscheinlichkeit auffassen. Sei dazu Z = (Y1 , Y2 ) ein Zufallsvektor mit k k k y 1 y2 2 k−k1 −k2 , k1 , k2 1 Prob(Z = (k1 , k2 )) = p(1, y1 , y2 ) für k1 = k2 mod 3 und 0 sonst. Wir betrachten nun m unabhängige, wie Z verteilte, Zufallsvektoren Z1 , . . . , Zm , dann ist Prob(Z1 + · · · + Zm = (l1 , l2 )) = S(l0 , l1 , l2 ) · 92 y 1 l1 y 2 l2 p(1, y1 , y2 )m mit l0 = km − l1 − l2 . In S(l0 , l1 , l2 ) werden gerade die Möglichkeiten für die k gezählt. Also ist k0,i ,k1,i ,k2,i S(l0 , l1 , l2 ) = Prob(Z1 + · · · + Zm = (l1 , l2 )) · p(1, y1 , y2 )m . y 1 l1 y 2 l2 Für die optimalen Parameter gilt nach Abschnitt 5.1, Seite 88: y1 · py1 (1, y1 , y2 ) = E[Y1 (y1 , y2 )] p(1, y1 , y2 ) y2 · py2 (1, y1 , y2 ) = E[Y2 (y1 , y2 )] = p(1, y1 , y2 ) kλ1 = kλ2 Also ist l1 = λ1 km = E[Y1,1 + · · · + Y1,m ] l2 = λ2 km = E[Y2,1 + · · · + Y2,m ] , wobei Zi = (Y1,i , Y2,i ) ist. Nach einem lokalen Grenzwertsatz für gitterförmige Zufallsvektoren (siehe Anhang A.1.2, Seite 114 und [16], [25], [3]) gilt, dass Prob(Z1 + · · · + Zm = E[Z1 + · · · + Zm ]) = 1 · O(1) , m (27) sofern E[Z1 + · · · + Zm ] überhaupt als Wert von Z1 + · · · + Zm auftreten kann. Das ist der Fall, wenn wir für S(~l) ≥ 1 voraussetzen. Sonst ist E(~ω , ~λ) = 0 und die Wahrscheinlichkeit oben ebenfalls. Setzen wir die Abschätzungen für die einzelnen Faktoren zusammen, bekommen wir analog zum Beweis von Lemma 19 E(~ω , ~λ) ≤ Ψ ω ~ , ~λ, ~x, ~y 5.3 n · 1 · O(1) . n2 Entwicklung von ln Ψ(~ω , ~λ) Wir betrachten die Summanden E(~ω , ~λ), bei denen ω ~ , ~λ nahe an 31 , 13 , 31 liegen. Aus dem vorangegangenen Abschnitt wissen wir, dass die Summanden in diesem Bereich alle ≤ Ψ(~ω , ~λ, ~x, ~y ) · n12 · O(1) sind, sofern wir für ~x und ~y die optimalen Parameter einsetzen. Da die Teilsumme aber immer noch über O(n4 ) Summanden geht, ist diese Erkenntnis allein noch nicht ausreichend. Wir wenden daher die in Abschnitt 1.5.1 beschriebene Laplace-Methode auf die Teilsumme an. 93 Satz 20 (Wiederholung) Für ω ~ und ~λ nahe an XX ω ~ ~λ 1 1 1 , , 3 3 3 E(~ω , ~λ) ≤ C · 3γn gilt für eine Konstante C. Für ω1 , ω2 , λ1 , λ2 nahe an wobei 1 3 schreiben wir Ψ(ω1 , ω2 , λ1 , λ2 ) für das alte Ψ(~ω , ~λ, ~x, ~y ), ω ~ = (ω0 , ω1 , ω2 ) , ~λ = (λ1 , λ1 , λ2 ) , ω0 = 1 − ω1 − ω2 λ0 = 1 − λ1 − λ2 und xj = xj (ωj , λj ), y0 = 1 und y1 = y1 (λ1 , λ2 ), y2 = y2 (λ1 , λ2 ) im Sinne von Abschnitt 5.1 optimal gewählt sind. Man beachte, dass xj , yj differenzierbar in ωj , λj sind. Ebenso lassen wir das erste Argument von p(y0 , y1 , y2 ) weg und schreiben p(y1 , y2 ) anstelle von p(1, y1 , y2 ), da y0 in diesem Abschnitt immer gleich 1 ist. Es ist P2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ω · ln q(x ) − ln ω j j j j=0 − ln q(s) + k(1 − γ) · ln s + k(1 − γ) · λ0 · ln λ0 − ln x0 (28) + λ1 · ln λ1 − ln x1 − ln y1 + λ2 · ln λ2 − ln x2 − ln y2 + (1 − γ) · ln p(y1 , y2 ) . Wir geben ~ = ~λ = die Taylorentwicklung von ln Ψ(ω1 , ω2 , λ1 , λ2 ) um den Punkt ω 1 1 1 bis zur zweiten Ableitung an. Insbesondere ergibt sich, dass die partiellen , , 3 3 3 ersten Ableitungen an ωj = λj = 31 alle gleich Null sind und dass die Hesse-Matrix an dieser Stelle negativ definit ist. Also hat Ψ(ω1 , ω2 , λ1 , λ2 ) dort ein Maximum. Der Wert dieses Maximums ist 3γ , da xj = s und yj = 1 ist. Es gilt also X ω ~ ,~λ E(~ω , ~λ) ≤ ≤ X ω ~ ,~λ X ω ~ ,~λ Ψ(ω1 , ω2 , λ1 , λ2 )n · 3γn · 1 · O(1) n2 1 · O(1) . n2 Da wir aber immer noch, wie eingangs erwähnt, O(n4 ) Summanden haben, können wir so nur auf die zu schlechte Abschätzung O(n2 ) · 3γn kommen. 94 Der Gradient von ln Ψ(ω1 , ω2 , λ1 , λ2 ). Die partielle Ableitung nach ω1 hängt nur von den Summanden ab, die ω0 , ω1 , x0 oder x1 enthalten. Diese Summanden sind in f (ω1 , x0 , x1 ) zusammengefaßt. f (ω1 , x0 , x1 ) = 1 − ω1 − ω2 · ln q(x0 ) − ln(1 − ω1 − ω2 ) + ω1 · ln q(x1 ) − ln ω1 + k(1 − γ) · (1 − λ1 − λ2 ) · (− ln x0 ) + λ1 · (− ln x1 ) Es ist jetzt also die Ableitung d f ω1 , x0 (ω0 , λ0 ), x1 (ω1 , λ1 ) dω1 zu bilden. Nach der verallgemeinerten Kettenregel ergibt sich diese aus der Summe der partiellen Ableitungen fω1 (ω1 , x0 , x1 ) , fx0 (ω1 , x0 , x1 ) , fx1 (ω1 , x0 , x1 ) an der Stelle ω1 , x0 (ω0 , λ0 ), x1 (ω1 , λ1 ) multipliziert mit der jeweiligen inneren Ableitung, also ∂ ∂ x0 (ω0 , λ0 ) und x1 (ω1 , λ1 ) . ∂ω1 ∂ω1 Da die Parameter nach Abschnitt 5.1 so gewählt sind, dass die partiellen Ableitungen von ln Ψ(ω1 , ω2 , λ1 , λ2 ) (und damit die von f (ω1 , x0 , x1 )) nach xj alle gleich 0 sind, brauchen wir nur fω1 (ω1 , x0 , x1 ) zu bilden und dann die Stelle x0 (ω0 , λ0 ), x1 (ω1 , λ1 ) einzusetzen. Es ist fω1 (ω1 , x0 , x1 ) = − ln q(x0 ) + ln(1 − ω1 − ω2 ) + (1 − ω1 − ω2 ) + ln q(x1 ) − ln ω1 − ω1 = ln 1 ω1 1 (1 − ω1 − ω2 ) 1 − ω1 − ω2 q(x1 ) + ln . q(x0 ) ω1 Also haben wir q(x1 ) 1 − ω1 − ω2 ∂ ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ln + ln ∂ω1 q(x0 ) ω1 (29) und ebenso für die partielle Ableitung nach ω2 ∂ q(x2 ) 1 − ω1 − ω2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ln + ln . ∂ω2 q(x0 ) ω2 95 (30) Die Ableitung nach λ1 hängt von dem folgenden Teil von ln Ψ(ω1 , ω2 , λ1 , λ2 ) ab: f (λ1 , x0 , x1 , y1 , y2 ) = (1 − ω1 − ω2 )ln q(x0 ) + ω1 ln q(x1 ) + k(1 − γ) · (1 − λ1 − λ2 ) · ln(1 − λ1 − λ2 ) − ln x0 + λ1 · ln λ1 − ln x1 − ln y1 − λ2 ln y2 + (1 − γ) · p(y1 , y2 ) Wie vorher sind die partiellen Ableitungen fxj (λ1 , x0 , x1 , y1 , y2 ) und fyj (λ1 , x0 , x1 , y1 , y2 ) alle gleich Null, da wir die optimalen Parameter einsetzen. Es bleibt also nur die partielle Ableitung nach λ1 an der Stelle xj (ωj , λj ), yj (λ1 , λ2 ) übrig. Diese ist fλ1 (λ1 , x0 , x1 , y1 , y2 ) = k(1 − γ) · − ln(1 − λ1 − λ2 ) + ln x0 −(1 − λ1 − λ2 ) 1 1 − λ1 − λ2 1 + ln λ1 − ln x1 − ln y1 + λ1 λ1 λ1 x0 = k(1 − γ) · ln + ln 1 − λ1 − λ2 x1 y1 Also haben wir λ1 x0 ∂ ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) · ln + ln ∂λ1 1 − λ1 − λ2 x1 y1 und ebenso für die partielle Ableitung nach λ2 λ2 x0 ∂ . ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) · ln + ln ∂λ2 1 − λ1 − λ2 x2 y2 (31) (32) An der Stelle ω1 = ω2 = λ1 = λ2 = 13 ist xj (ωj , λj ) = s und yj (λ1 , λ2 ) = 1. Also werden alle partiellen Ableitungen in (29) bis (32) zu Null. Die zweiten partiellen Ableitungen von ln Ψ(ω1 , ω2 , λ1 , λ2 ). Um zu zeigen, dass die Funktion ln Ψ(ω1 , ω2 , λ1 , λ2 ) an der stelle ωj = λj = 13 tatsächlich ein Maximum besitzt, zeigen wir, dass die Hesse-Matrix der Funktion an dieser Stelle negativ definit ist. Dazu benötigen wir alle zweiten partiellen Ableitungen. Wir fassen die Ableitungen mit gleicher Struktur zusammen. 96 • Ableitungen nach ω1 , ω1 beziehungsweise ω2 , ω2 : q ′ (xj ) ∂xj (ωj , λj ) q ′ (x0 ) ∂x0 (ω0 , λ0 ) ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) · · = − ∂ωj , ωj q(xj ) ∂ωj q(x0 ) ∂ωj − 1 1 − 1 − ω1 − ω2 ωj • Ableitungen nach ω1 , ω2 beziehungsweise ω2 , ω1 : q ′ (x0 ) ∂x0 (ω0 , λ0 ) 1 ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) · = − − ∂ωj , ωk q(x0 ) ∂ωk 1 − ω1 − ω2 • Ableitungen nach λ1 , λ1 beziehungsweise λ2 , λ2 : 1 1 ∂x0 (ω0 , λ0 ) 1 ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) + + · ∂λj , λj λj 1 − λ1 − λ2 x0 ∂λj 1 ∂xj (ωj , λj ) 1 ∂yj (λ1 , λ2 ) − · − · xj ∂λj yj ∂λj • Ableitungen nach λ1 , λ2 beziehungsweise λ2 , λ1 : 1 ∂x0 (ω0 , λ0 ) 1 ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) + · ∂λj , λk 1 − λ1 − λ2 x0 ∂λk 1 ∂yj (λ1 , λ2 ) − · yj ∂λk • Ableitungen nach ω1 , λ1 beziehungsweise ω2 , λ2 : q ′ (xj ) ∂xj (ωj , λj ) q ′ (x0 ) ∂x0 (ω0 , λ0 ) ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = · − · ∂ωj , λj q(xj ) ∂λj q(x0 ) ∂λj diese sind gleich den Ableitungen nach λ1 , ω1 beziehungsweise λ2 , ω2 : ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) ∂λj , ωj 1 ∂xj (ωj , λj ) 1 ∂x0 (ω0 , λ0 ) · − · x0 ∂ωj x1 ∂ωj • Ableitungen nach ω1 , λ2 beziehungsweise ω2 , λ1 : q ′ (x0 ) ∂x0 (ω0 , λ0 ) ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) · = − ∂ωj , λk q(x0 ) ∂λk diese sind gleich den Ableitungen nach λ1 , ω2 beziehungsweise λ2 , ω1 : ∂ 2 ln Ψ(ω1 , ω2 , λ1 , λ2 ) = k(1 − γ) ∂λj , ωk 97 1 ∂x0 (ω0 , λ0 ) · x0 ∂ωk Die hier auftretenden Ableitungen der optimalen Parameter ∂xj (ωj , λj ) , ∂ωj ∂xj (ωj , λj ) , ∂λj ∂yj (λ1 , λ2 ) ∂λj verschwinden hier leider nicht. Aus Abschnitt 5.1 kennen wir aber die Werte dieser Ableitungen an der Stelle ωj = λj = 31 . Nach Gleichung (24) gilt für ωj = λj = 1 3 ∂x0 (1 − ω1 − ω2 , 1 − λ1 − λ2 ) 3 · k(1 − γ) ∂x0 (ω0 , λ0 ) = = ∂ωj ∂ωj Q′ (s) ∂x0 (1 − ω1 − ω2 , 1 − λ1 − λ2 ) 3 · k(1 − γ) ∂x0 (ω0 , λ0 ) = = − , ∂λj ∂λj Q′ (s) wegen der Kettenregel für ω0 = 1 − ω1 − ω2 , λ0 = 1 − λ1 − λ2 und ebenso ∂x2 (ω2 , λ2 ) 3 · k(1 − γ) ∂x1 (ω1 , λ1 ) = = − ∂ω1 ∂ω2 Q′ (s) ∂x1 (ω1 , λ1 ) ∂x2 (ω2 , λ2 ) 3 · k(1 − γ) . = = ∂λ1 ∂λ2 Q′ (s) Nach Gleichung (26) gilt für λj = 31 : ∂y2 (λ1 , λ2 ) ∂y1 (λ1 , λ2 ) = = 6 ∂λ1 ∂λ2 ∂y2 (λ1 , λ2 ) ∂y1 (λ1 , λ2 ) = = 3 ∂λ2 ∂λ1 Um die Werte der partiellen Ableitungen von ln Ψ(ω1 , ω2 , λ1 , λ2 ) kürzer schreiben zu können, definieren wir: D(s) = D := k(1 − γ) 3k(1 − γ) q ′ (s) 3k(1 − γ) · = · ′ q(s) Q (s) s Q′ (s) ′ (s) Die Gleichheit auf der rechten Seite folgt aus der Wahl von s mit s·qq(s) = k(1 − γ). Man beachte, dass D > 0 ist, da alle Faktoren größer 0 sind. Insbesondere ist Q′ (s) > 0, da Q(x) nach Lemma 18 monoton steigend ist. Wir bekommen für die eingangs betrachteten partiellen Ableitungen also die folgenden einfachen Ausdrücke: ∂ 2 ln Ψ = −D − D − ∂ωj , ωj ∂ 2 ln Ψ = −D − 3 ∂ωj , ωk 98 1 1 3 − 1 1 3 = −2D − 6 ∂ 2 ln Ψ 1 3k(1 − γ) 1 3k(1 − γ) = k(1 − γ) 3 + 3 − · − · −6 ∂λj , λj s Q′ (s) s Q′ (s) = −2D ∂ 2 ln Ψ 1 3k(1 − γ) −3 = k(1 − γ) 3 − · ∂λj , λk s Q′ (s) = −D ∂ 2 ln Ψ ∂ 2 ln Ψ = = D − (−D) = 2D ∂ωj , λj ∂λj , ωj ∂ 2 ln Ψ ∂ 2 ln Ψ = = D ∂ωj , λk ∂λk , ωj Übersichtlicher lassen sich die zweiten partiellen Ableitungen im Punkt ωj = λj = als Matrix darstellen. Wir erhalten die folgende Hesse-Matrix. b = H −2D − 6 −D − 3 2D D −D − 3 −2D − 6 D 2D 2D D −2D −D D 2D −D −2D 1 3 b positiv definit ist. Wir Diese Matrix ist negativ definit genau dann, wenn H = −H zeigen, dass die Determinanten der Hauptuntermatrizen S1 = h11 , S2 = h11 h12 h21 h22 h11 h12 h13 , S3 = h21 h22 h23 , S4 = H h31 h32 h33 von H größer 0 sind. Siehe [26] Kapitel 7.5, Satz 7.3 (Positivitätstest nach Jacobi). det S1 = 2D + 6 > 0 det S2 = 3D2 + 18D + 27 > 0 det S3 = 18D2 + 54D > 0 det S4 = 81D2 > 0 b ist demnach negativ definit. Da D > 0 gilt, sind alle Determinanten größer 0 und H Das heißt, die Funktion ln Ψ(ω1 , ω2 , λ1 , λ2 ) und damit auch Ψ(ω1 , ω2 , λ1 , λ2 ) besitzt an der Stelle ωj = λj = 13 ein Maximum. 99 Taylorentwicklung von ln Ψ(ω1 , ω2 , λ1 , λ2 ). Jetzt haben wir alles zusammen, um die Taylorentwicklung von ln Ψ(ω1 , ω2 , λ1 , λ2 ) anzugeben. Wir haben eine Funktion f (~x) = f (x1 , x2 , x3 , x4 ) in vier Parametern und allgemein gilt nach den Satz von Taylor [26] (S. 396), dass 2 1 T ∂ f (~x) · ~ν + o(|~ν |2 ) f (~x) = f (x~0 ) + grad(f (~x)) , ~ν + · ~ν · x=x0 2 ∂~x2 x=x0 mit ~ν = ~x − x~0 und ~ν → 0. In unserem Fall wollen wir ln Ψ(ω1 , ω2 , λ1 , λ2 ) um ωj = λj = 13 entwickeln. Wir setzen ν 1 = λ1 − 1 , 3 ν 2 = λ2 − 1 , 3 ν3 = ω1 − 1 , 3 ν4 = ω2 − 1 3 und es ist |νj | ≤ δ. Der Gradient im Entwicklungspunkt ist gerade 0, die quadratische b ν ist negativ definit und der Funktionswert an der Stelle λj = ωj = 1 ist Form ~ν T H~ 3 b können wir ln Ψ(ω1 , ω2 , λ1 , λ2 ) nahe ln 3γ . Mit der positiv definiten Matrix H = −H an ωj = λj = 13 also so schreiben: ln Ψ(ω1 , ω2 , λ1 , λ2 ) = ln 3γ − 1 T · ~ν H~ν + o(ν1 2 + ν2 2 + ν3 2 + ν4 2 ) 2 (33) Damit können wir den Beweis von Satz 20 vollenden. 5.4 Abschluß des Beweises von Satz 20 Für ω ~ , ~λ nahe an 1 1 1 , , 3 3 3 gilt mit Satz 39 und Gleichung (33), dass 1 1 γn T 2 2 2 2 ~ν H~ν − o(ν1 + ν2 + ν3 + ν4 ) , E(~ω , ~λ) ≤ O(1) · 2 · 3 · exp −n n 2 wobei ~ν = (ν1 , ν2 , ν3 , ν4 ) und ν 1 = λ1 − 1 , 3 ν 2 = λ2 − 1 , 3 ν3 = ω1 − 1 , 3 ν4 = ω2 − 1 . 3 Wir befreien uns zunachst von dem o(ν1 2 + ν2 2 + ν3 2 + ν4 2 ). Für ε > 0, so dass H − 2εI noch positiv definit ist, gibt es δ > 0, so dass o(ν1 2 + ν2 2 + ν3 2 + ν4 2 ) ≤ ε ν1 2 + ν2 2 + ν3 2 + ν4 2 für alle ν1 2 + ν2 2 + ν3 2 + ν4 2 ≤ 4δ 2 . Also gilt für ω ~ , ~λ hinreichend nahe an 31 , 31 , 31 : 1 1 T γn 2 2 2 2 ~ E(~ω , λ) ≤ O(1) · 2 · 3 · exp −n · ~ν H~ν − ε ν1 + ν2 + ν3 + ν4 n 2 1 1 T γn = O(1) · 2 · 3 · exp −n · ~ν (H − 2εI)~ν , n 2 100 wobei I die 4 × 4 Idendität ist. Damit gilt für die Summe über alle ω ~ , ~λ hinreichend 1 1 1 nahe an 3 , 3 , 3 : X X 1 T 1 γn ~ exp −n · · ~ν (H − 2εI)~ν , E(~ω , λ) ≤ O(1) · 2 · 3 · n 2 ~ ν ω ~ ,~λ wobei |νj | ≤ δ und ν1 , ν2 von der Form ni − 13 sowie ν3 , ν4 von der Form Damit ist 1 1 1 1 X 1 T · · · · exp −n · ~ν (H − 2εI)~ν n n km km 2 i km − 31 sind. ~ ν eine Riemann’sche Summe für das Integral Z δZ δZ δZ δ 1 T · ~x (H − 2εI)~x dx1 dx2 dx3 dx4 . exp −n F (n) = 2 −δ −δ −δ −δ Jetzt können wir uns auf Kapitel 4.6 in [6] berufen. Demnach ist F (n) = A · mit Formel (4.6.2) aus [6], S. 71. Und 1 · 1 + o(1) n2 1 A = (2π)2 · p det(H − 2εI) ist auf jeden Fall eine Konstante unabhängig von n. Nun ist P ω , ~λ) ≤ O(1) · 3γn · (km)2 · ω ~ ,~λ E(~ X 1 1 T 1 · · exp −n · ~ν (H − 2εI)~ν n2 (km)2 2 ~ ν ≤ O(1) · 3 γn = O(1) · 3γn (2π)2 1 p · (km) · · 2 · 1 + o(1) det(H − 2εI) n 2 und Satz 20 ist gezeigt. 101 6 Beweis der verbleibenden Sätze Es sind noch zwei der am Ende von Abschnitt 2 zu beweisenden Sätze verblieben. Wir beweisen diese in den folgenden Abschnitten und vervollständigen damit den Beweis von Satz 16. 6.1 Beweis von Satz 21 Satz 21 (Wiederholung) Für ω ~ > 0 nicht nahe an gibt es ~x, ~y , so dass Ψ(~ω , ~λ, ~x, ~y ) ≤ 3γ (1 − η) 1 1 1 , , 3 3 3 , ~λ nahe an 1 1 1 , , 3 3 3 für ein hinreichend kleines η > 0. Die des Satzes besagen, dass ein kleines δ > 0 existiert, so dass ein Voraussetzungen ωj − 1 ≥ δ ist und alle λj − 1 ≤ δ sind. Die Funktion 3 3 f (~λ) = λ0 λ0 · λ1 λ1 · λ2 λ2 hat für λj = 1 3 ein globales Minimum von 13 . Die Funktion g(~ω ) = 1 ω0 ω 0 ω 1 ω 2 1 1 · · ω1 ω2 hat für ωj = 31 ein globales Maximum von 3 und es gilt sogar g(~ω ) ≤ 3 − ε für ein ε > 0 unter unseren Voraussetzungen. Schauen wir uns Ψ(~ω , ~λ, ~x, ~y ) mit xj = s und yj = 1 einmal an. Das sind die optimalen Parameter gemäß Satz 20 für ωj = λj = 31 . Dann ist 1−γ k(1−γ) k(1−γ) 1 ~ ~ Ψ(~ω , λ, ~x, ~y ) = g(~ω ) · f (λ) ·3 · , 3 k da p(1, 1, 1) = 33 . Es ist nun g(~3ω) ≤ 3−ε < 1, aber andererseits f (~λ) · 3 > 1. Wir 3 unterscheiden jetzt die folgenden beiden Fälle für f (~λ). 1. f (~λ) · 3 k(1−γ) < 1 1− ε 4 Wir bekommen mit der obigen Formel 1 3−ε · Ψ(~ω , ~λ, ~x, ~y ) < 3 1− 2. f (~λ) · 3 k(1−γ) ≥ 1 1− ε 4 · 3γ = ε 4 102 1− 1− ε 3 ε 4 · 3γ = 3γ (1 − η) . Die Annahme bedeutet f (~λ) ≥ 1 1− ε 4 1 k(1−γ) · 1 . 3 1 k(1−γ) ≥ 1 + ε′ . Da f (~λ) ≥ (1 + ε′ ) 31 gibt es ein δ (konstant, λj − 1 ≥ δ ist. Das heißt, ~λ ist zwar nahe an abhängig von k), so dass ein 3 1 1 1 , , aber immer noch ausreichend weit entfernt, um Satz 22 anzuwenden. 3 3 3 Also folgt hier die Behauptung direkt mit Satz 22. Nun ist 6.2 1 1− 4ε Beweis von Satz 23 Satz 23 (Wiederholung) Ist genau ein λj = 0 (äquivalent zu: genau ein ωj = 0), dann gilt n E(~ω , ~λ) ≤ C · 3γ (1 − η) . Wir beweisen den Satz für λ0 ≥ λ1 , λ2 = 0. Die übrigen Anordnungen folgen analog zu den Symmetrieüberlegungen zu Lemma 31 auf Seite 66. Unter der Voraussetzung λ2 = 0 folgt analog zu den überlegungen in Abschnitt 2.2 für alle xj , yj > 0: E(~ω , ~λ) ≤ q(x0 ) ω0 ω 0 q(x1 ) ω1 · 1 q(s) !k(1−γ) λ 1 λ1 ·s · x1 y1 !n √ · n2 · O(1) · p(y0 , y1 , 0)1−γ λ0 x0 y0 λ 0 ω 1 (34) λ Setzen wir noch xj yj = λ0j und verfahren wie in Abschnitt 4, so erhalten wir für die Basis des exponentiellen Anteils von Gleichung (34): Q Q Q2 3γ 1 q(xs) 2 ≤ · · 1+y +2 1+y −y · 1+ 3 q(s) 1 + xy γ Dieser Ausdruck ist nun kleiner als 33 · OPT(x, x, 2y, 0) aus Abschnitt 4. Also folge Satz 23 aus der Anwendung der entsprechenden Lemmas aus dem Beweis des Hauptlemmas 32. 103 7 Ausblick Die in der Arbeit verwendeten Techniken und die erzielten Resultate sind in ihrem Prinzip analog zum Fall M = 2. Aber das Auftreten eines weiteren Parameters im Fall M = 3 führt zu vielen zusätzlichen Details und zu einer Reihe weiterer Probleme. • Ist es möglich, das Resultat für alle M > 0 statt für M = 2 (bekannt), M = 3 in dieser Arbeit zu verifizieren? Geht man für diese Fälle vollkommen analog vor, kommt es zu weiteren Parametern, die geeignet behandelt werden müssen. • Ein Schritt, um die erste Frage anzugehen, wäre es sicherlich die bisher vorliegenden Beweise rechnerisch zu vereinfachen und analytischer“ zu machen. ” Man vergleiche dazu noch einmal die Beobachtung auf Seite 51. Leider ist ein Beweis nach diesem Prinzip noch nicht einmal für den Fall M = 2 gelungen. • Unser Resultat gilt für k ≥ 10. Es sollte möglich sein, auch wenn wir das nicht ausgeführt haben, diesen Beweis durch die Behandlung einiger Fälle auf k ≥ 3 zu erweitern. Der Fall k = 2 ist nicht möglich, da Formeln mit k = 2 keinen 2-Kern mit Dichte 1 − γ besitzen können. • Eine Untersuchung der hier nicht weiter ermittelten Konstanten könnte dazu führen, dass man auch auf dem 2-Kern direkt eine gegen 1 gehende Wahrscheinlichkeit der Lösbarkeit bekommt. Wir haben das nur auf dem Raum der unabhängig gezogenen Gleichungen erreicht. Dann könnte man ohne den Satz von Friedgut auskommen. Hier besteht Hoffnung, da man die Werte der Konstanten nur am Maximum, das heißt jeder Parameter ωj , λj ist 31 , bestimmen muß. Die Konstanten aus dem lokalen Grenzwertsätzen sollten dann zu ermitteln sein. • Weiter reicht die Frage, ob sich das Problem für Gleichungen über endlichen Gruppen analog lösen läßt. Das bleibt aber, wie oben gesagt, bereits über allen zyklischen Gruppen ein offenes Problem. • Vom Standpunkt der linearen Algebra wäre es natürlicher Gleichungssysteme zu betrachten, in denen vor den Variablen ein zufälliger Faktor aus Z3 , also 1 oder 2 steht. Dann bekäme man auch natürlichere Aussagen über Matrizen mit Einträgen aus Z3 heraus. 104 Literatur [1] Achlioptas, Dimitris und Amin Coja-Oghlan: Algorithmic Barriers from Phase Transitions. In: FOCS, Seiten 793–802. IEEE Computer Society, 2008. [2] Alon, Noga und Joel H. Spencer: The Probabilistic Method. John Wiley & Sons, Inc., New York, 2. Auflage, 2000. [3] Bhattacharya, Rabi N. und R. Ranga Rao: Normal Approximation and Asymptotic Expansions. Society for Industrial and Applied Mathematics, Philadelphia, 2010. [4] Bollobás, Béla: Random Graphs. Cambridge studies in advanced mathematics. Cambridge University Press, Cambridge, 2. Auflage, 2001. [5] Broder, Andrei Z., Alan M. Frieze und Eli Upfal: On the Satisfiability and Maximum Satisfiability of Random 3-CNF Formulas. In: Ramachandran, Vijaya (Herausgeber): SODA, Seiten 322–330. ACM/SIAM, 1993. [6] Bruijn, Nicolaas G. de: Asymptotic Methods in Analysis. North-Holland Publishing Company, Amsterdam; London, 3. Auflage, 1970. [7] Chvátal, Vasek und Bruce A. Reed: Mick Gets Some (the Odds Are on His Side). In: FOCS, Seiten 620–627. IEEE Computer Society, 1992. [8] Coja-Oghlan, Amin: The asymptotic k-SAT threshold. In: Symposium on Theory of Computing, STOC 2014, New York, NY, USA, May 31 - June 03, 2014, Seiten 804–813, 2014. [9] Connamacher, Harold: Exact Thresholds for DPLL on Random XOR-SAT and NP-complete Extensions of XOR-SAT. Theoretical Computer Science, 421:25–55, März 2012. [10] Cormen, Thomas H., Charles E. Leiserson, Ronald L. Rivest und Clifford Stein: Introduction to Algorithms. MIT Press, Cambridge, 3. Auflage, 2009. [11] Creignou, Nadia und Hervé Daudé: Smooth and sharp thresholds for random k-XOR-CNF satisfiability. ITA, 37(2):127–147, 2003. [12] Creignou, Nadia, Hervé Daudé und Olivier Dubois: Approximating the satisfiability threshold for random k-XOR-formulas. Combinatorics, Probability & Computing, 12(2):113–126, 2003. [13] Dietzfelbinger, Martin, Andreas Goerdt, Michael Mitzenmacher, Andrea Montanari, Rasmus Pagh und Michael Rink: Tight Thresholds for Cuckoo Hashing via XORSAT. In: Abramsky, Samson, Cyril Gavoille, Claude Kirchner, Friedhelm Meyer auf der Heide und Paul G. 105 Spirakis (Herausgeber): ICALP (1), Band 6198 der Reihe Lecture Notes in Computer Science, Seiten 213–225. Springer, 2010. [14] Dubois, Olivier, Yacine Boufkhad und Jacques Mandler: Typical random 3-SAT formulae and the satisfiability threshold. Electronic Colloquium on Computational Complexity (ECCC), 10(007), 2003. [15] Dubois, Olivier und Jacques Mandler: The 3-XORSAT Threshold. In: FOCS, Seiten 769–778. IEEE Computer Society, 2002. [16] Durett, Rick: Probability: Theory and Examples. Cambridge University Press, 4. Auflage, 2013. [17] Friedgut, Ehud und Jean Bourgain: Sharp thresholds of graph properties, and the k-sat problem. Journal of the American mathematical Society, 12(4):1017–1054, 1999. [18] Gnedenko, Boris Wladimirowitsch: Einführung in die Wahrscheinlichkeitstheorie. Akademie Verlag GmbH, Berlin, 1991. [19] Goerdt, Andreas: A Threshold for Unsatisfiability. Journal of Computer and System Sciences, 53(3):469–486, 1996. [20] Goerdt, Andreas und Lutz Falke: Satisfiability thresholds beyond kXORSAT. CoRR, abs/1112.2118, 2011. http://arxiv.org/abs/1112.2118. [21] Goerdt, Andreas und Lutz Falke: Satisfiability Thresholds beyond kXORSAT. In: Hirsch, Edward A., Juhani Karhumäki, Arto Lepistö und Michail Prilutskii (Herausgeber): CSR, Band 7353 der Reihe Lecture Notes in Computer Science, Seiten 148–159. Springer, 2012. [22] Graham, Ronald L., Donald E. Knuth und Oren Patashnik: Concrete Mathematics. Addison-Wesley Publishing Company, Reading, 2. Auflage, 1988. [23] Hajiaghayi, Mohammad Taghi und Gregory B. Sorkin: The Satisfiability Threshold of Random 3-SAT Is at Least 3.52. Technischer Bericht, Massachusetts Institute of Technology Computer Science and Artificial Intelligence Laboratory, 2003. http://hdl.handle.net/1721.1/30434. [24] Jacord, Jean und Philip Protter: Probability Essentials. Springer-Verlag, Berlin; Heidelberg, 2. Auflage, 2004. [25] Major, Péter: The proof of the central limit theorem and Fourier analysis I, 2014. http://www.renyi.hu/~major/probability/central.html. 106 [26] Meyberg, Kurt und Peter Vachenauer: Höhere Mathematik 1. SpringerVerlag, Berlin; Heidelberg, 2. Auflage, 1993. [27] Molloy, Michael: Cores in random hypergraphs and Boolean formulas. Random Structures & Algorithms, 27(1):124–135, 2005. [28] Pittel, Boris und Gregory B. Sorkin: The Satisfiability Threshold for k-XORSAT, August 2014. http://arxiv.org/abs/1212.1905v2. [29] Schöning, Uwe: Algorithmik. Spektrum Akademischer Verlag, Heidelberg, 2001. [30] Schöning, Uwe und Jacob Torán: Das Erfüllbarkeitsproblem SAT. Mathematik für Anwendungen. Lehmanns Media, Berlin, 2012. [31] Walter, Wolfgang: Analysis 1. Springer-Verlag, Berlin; Heidelberg, 3. Auflage, 1992. [32] Walter, Wolfgang: Analysis 2. Springer-Verlag, Berlin; Heidelberg, 4. Auflage, 1995. [33] Wilf, Herbert S.: generatingfunctionology. Academic Press Inc., Boston, 2. Auflage, 1994. https://www.math.upenn.edu/~wilf/gfologyLinked2.pdf. 107 A A.1 A.1.1 Anhang Lokale Grenzwertsätze Eindimensionaler Fall Gitterförmige Verteilungen. Eine Zufallsvariable X hat eine gitterförmige Verteilung, wenn es Konstanten b und h > 0 aus R gibt, dass die Wahrscheinlichkeit Prob(X ∈ b + hZ) = 1 mit b + hZ = {b + h · z | z ∈ Z} ist. Das größte h, das diese Forderung erfüllt, nennen wir Spannweite der Verteilung. Die Spannweite ist der kleinste Abstand zwischen zwei benachbarten Werten, die die Zufallsvariable annehmen kann. Beispiel: Für die Verteilung Prob(X = 1) = Prob(X = −1) = 12 ist die Spannweite h = 2 und für b können wir beispielsweise 1 oder −1 wählen. Bemerkung: Der Wert b = 0 ist nicht möglich, da h der größtmögliche Wert sein soll. Für gitterförmig verteilte Zufallsvariablen gilt der folgende Satz aus [16], Theorem 3.5.2. Satz 40 Seien X 1 , X2 , . . . , Xn unabhängige, identisch verteilte Zufallsvariablen mit E[Xi ] = 0 und E Xi 2 = σ 2 . Außerdem seien die Xi gitterförmig verteilt mit Spannweite h. Sei Sn = X1 +. . .+Xn eine neue Zufallsvariable und Prob(Xi ∈ b + hZ) = 1, dann ist Prob(Sn ∈ nb + hZ) = 1. Wir betrachten jetzt nb + hz Sn √ für x ∈ Ln = pn (x) = Prob √ = x z∈Z n n und n(x) = √ Für n → ∞ gilt jetzt, dass x2 exp(− 2 ) 2σ 2πσ 2 1 für x ∈ R. √ n pn (x) − n(x) → 0. sup h x∈Ln Das heißt für ein gegebenes x und eine Reihe unabhängiger, identisch gitterförmig verteilter Zufallsvariablen können wir sagen, dass Sn h · n(x) pn (x) = Prob √ = x = √ · (1 + o(1)) (35) n n √ sofern Sn / n den Wert x annehmen kann. 108 Nun zu einer konkreten Anwendung dieses Satzes. Betrachten wir einmal die Gesamtzahl der Formeln |F| aus Gleichung (1). X X km m mit m = (1 − γ)n ∈ N und zi = km |F| = 3 · z , . . . , z 1 n z ≥2 i Wir suchen eine möglichst genaue Anschätzung dieser Summe. Die vorher grbrauchte Abschätzung mit der erzeugenden Funktion exp(x) − x − 1 und X km (km)! ≤ km (exp(x) − x − 1)n z1 , . . . , zn x z ≥2 i ist hier nicht ausreichend. Da |F| im Nenner steht, brauchen wir eine untere Schranke. Dazu zunächst noch eine Vorbetrachtung. Wir formen die Summe geeignet um. Mit der Definition des Multinomialkoeffizienten erhalten wir: X 1 1 m · ... · |F| = 3 · (km)! · z ! zn ! 1 zi ≥2 Pn Da immer i=1 zi = km gilt, egal wie die zi im jeweiligen Summanden gerade gewählt sind, können wir einen Parameter s > 0 einführen und mit skm erweitern. Innerhalb der Summe teilen wir skm entsprechend der zi auf. So erhalten wir: X sz1 szn m (km)! |F| = 3 · km · · ... · s z ! zn ! 1 z ≥2 i Beobachten wir einen einzelnen Faktor rieren die obere Grenze für zi , so ist ∞ X sz z≥2 z! = s zi zi ! über die ganze Summe hinweg und igno- s2 s3 s4 + + + . . . = exp(s) − s − 1 = q(s) . 2 3! 4! z s i jeweils durch exp(s) − s − 1 teilen, können wir die einzelnen Wenn wir die (z i! Faktoren als Wahrscheinlichkeiten auffassen. Erweitern wir die Summe daher noch mit (exp(s)−s−1)n . Zur kürzeren Schreibweise definieren wir q(x) := exp(x)−x−1. z1 q(s)n X szn s m |F| = 3 · (km)! · km · · ... · s z1 !q(s) zn !q(s) z ≥2 i Man beachte, der Wert von |F| hat sich durch diese Operationen nicht verändert. Dieser Zusammenhang gilt für alle s > 0. Wir führen jetzt die Zufallsvariablen X1 , . . . , Xn ein. Diese sind voneinander unabhängig und identisch wie folgt verteilt. Prob(X = z) = sz z! · q(s) 109 für z ≥ 2 (36) Über den Parameter s lässt sich der Erwartungswert der Zufallsvariablen einstellen. Siehe dazu auch Abschnitt 1.5.2. Setzen wir die Wahrscheinlichkeiten in |F| ein, dann erhalten wir: |F| = 3m · (km)! · q(s)n X Prob(X1 = z1 ) · . . . · Prob(Xn = zn ) · km s z ≥2 i Beachte: Die Summe läuft über alle möglichen Werte der zi , die in Summe gerade km ergeben. Betrachten wir jetzt die Zufallsvariable Sn = X1 +. . .+Xn , dann haben wir gerade die Wahrscheinlichkeit, dass Sn = km ist. q(s)n X Prob(X1 = z1 ∧ . . . ∧ Xn = zn ) |F| = 3m · (km)! · km · s z ≥2 i q(s)n = 3m · (km)! · km · Prob(X1 + . . . + Xn = km) s n q(s) = 3m · (km)! · km · Prob(Sn = km) s Für Sn gilt E[Sn ] = n · E[X]. Außerdem hat Sn noch die wichtige Eigenschaft, dass Sn den Wert km tatsächlich annehmen kann. Die Zufallsvariable X nimmt die Werte aller ganzen Zahlen ≥ 2 an, daher wird jede ganze Zahl ≥ 2n von der Summe X1 +. . .+Xn getroffen. Wobei wir hier sinnvollerweise annehmen, dass km ≥ 2n ∈ Z gilt. Genauer gesagt, ist X eine gitterförmig verteilte Zufallsvariable mit Spannweite h = 1 und b = 2, wie sie vom lokalen Grenzwertsatz benötigt wird. Es handelt sich um die Poissonverteilung, bedingt auf X ≥ 2. Der Satz lässt sich aber noch nicht direkt anwenden, da E[X] 6= 0 ist. Daher normieren wir X geeignet. Betrachten wir jetzt neue Zufallsvariablen X′1 , . . . , X′n , die unabhängig identisch verteilt sind wie X′ = X − E[X]. Dann ist E[X′ ] = 0 und für S′n , die Summe dieser Zufallsvariablen, gilt S′n = X′1 + . . . + X′n = X1 − E[X1 ] + . . . + Xn − E[Xn ] = Sn − nE[X] und außerdem haben wir E[S′n ] = 0 und zwischen S′n und Sn besteht der folgende Zusammenhang: S′ √n = 0 ⇔ Sn = nE[X] = E[Sn ] n Auf S′n ist der lokale Grenzwertsatz jetzt anwendbar. Für das Argument x = 0 aus Satz 40 erhalten wir ′ Sn pn (0) = Prob √ = 0 = Prob(Sn = E[Sn ]) und n 1 , σ 2 = Var[X]. n(0) = √ 2 2πσ 110 Der Wert pn (0) ist hier die Wahrscheinlichkeit, dass unser ursprüngliches Sn seinen Erwartungswert trifft. Eingesetzt in Gleichung (35) ergibt sich dann 1 1 pn (0) = Prob(Sn = E[Sn ]) = √ · (1 + o(1)) = Θ √ (37) n 2πσ 2 n sofern das σ 2 von X bzw. X′ endlich ist. Jetzt müssen wir noch den Erwartungswert von Sn auf den gewünschten Wert km einstellen. Da X gitterförmig mit h = 1 verteilt ist und k sowie m ganze Zahlen sind, wird der Wert auch von Sn getroffen. Wir wählen den Parameter s in der ergibt. Der Wert Verteilungsfunktion (36) von X so, dass sich E[X] = E[Snn ] = km n von s ist nicht mehr wesentlich von n abhängig, da m so gewählt ist, dass die Beziehung nΓ − 1 < m ≤ nΓ gilt. Es bleibt noch zu klären, ob ein geeigneter Wert für den Parameter s existiert. Dazu betrachten wir den Erwartungswert E[X] genauer. E[X] = X z≥2 z · Prob(X = z) = X z≥2 z· s X sz−1 sz = z!q(s) q(s) z≥2 (z − 1)! s sq ′ (s) s s = · s+ + + ... = q(s) 2 3! q(s) {z } | 2 3 q ′ (s):=exp(s)−1 Die Funktion in Abhängigkeit von s, die wir für E[X] erhalten haben, definieren wir als Q(s). Aus Lemma 18 folgt, dass es für jeden Wert km > 2 eine Zahl s > 0 gibt mit km s(exp(s) − 1) = = k(1 − γ). (38) Q(s) = exp(s) − s − 1 n Betrachten wir abschließend voch die Varianz von X. Es gilt σ 2 = E X2 − E[X]2 = E (X − E[X])2 = E[X′ ] . Der Wert von σ 2 ändert sich durch das normieren von X zu X′ nicht. Für die Gleichung (37) brauchen wir σ 2 = O(1). Betrachten wir E[X2 ]. X E X2 = z2 · sz s X sz−1 = z· z!q(s) q(s) z≥2 (z − 1)! z≥2 sz−1 s X sz−1 + (z − 1) · = q(s) z≥2 (z − 1)! (z − 1)! ! z−1 z−2 X X s s s + s = q(s) (z − 2)! z≥2 (z − 1)! z≥2 = s2 exp(s) + s(exp(s) − 1) q(s) 111 Damit haben wir für σ 2 den Ausdruck: σ2 = s2 exp(s) s(exp(s) − 1) s2 (exp(s) − 1)2 − + q(s) q(s) q(s)2 {z } | {z } | =Q(s)2 =Q(s) Also ist σ 2 endlich. Außerdem gilt 0 < σ 2 , da X nicht konstant ist. √ √ Nehmen wir noch die Stirlingformel für (km)! hinzu und kürzen km gegen n, da k(1 − γ) durch eine Konstante beschränkt ist. Somit erhalten wir den folgenden relativ einfachen Ausdruck für |F|. |F| = A.1.2 3m q(s)n (km)km · · Θ(1) skm exp(km) mit Q(s) = k(1 − γ) (39) Zweidimensionaler Fall Wir benötigen einen lokalen Grenzwertsatz für zweidimensionale Zufallsvektoren, die Werte in einem Gitter annehmen. Die Situation ist analog zu den Bedingungen im vorangegangenen Abschnitt. Im Detail wird es jedoch etwas komplizierter. Wir stellen die wesentlichen Punkte nach [3] Kapitel 5 dar. Wir betrachten einen Zufallsvektor Z = (Y1 , Y2 ), wobei gilt: Prob(Z = (0, 0)) > 0 . Ist L die von {~a | Prob(Z = ~a) > 0} erzeugte Untergruppe im R2 mit Addition, dann ist L = ξ~1 · Z + ξ~2 · Z für zwei in R2 linear unabhängige Vektoren ξ~1 , ξ~2 . In [3] wird L als minimal Lattice von Z bezeichnet. Wir betrachten die 2 × 2-Matrix ξ~1 , ξ~2 und es ist ~ ~ det L := det ξ1 , ξ2 die Determinante von L. Das ist nach [3] Korollar 21.7 wohldefiniert, die ξ~1 , ξ~2 von oben sind nicht eindeutig. Nehmen wir zusätzlich an, dass E[Z] = (0, 0) , Cov[Z] = I2 = 1 0 0 1 . Wir betrachten jetzt Z1 , . . . , Zn unabhängige, wie Z verteilte, Zufallsvektoren und Sn = Z1 + · · · + Zn . Dann ist Sn ∈ L. Für ~a ∈ L, also ~a = (a1 , a2 ), interessieren wir uns für Prob(Sn = ~a). Dazu setzen wir ~a 1 ~x = √ = √ (a1 , a2 ) = (x1 , x2 ) . n n 112 Dann ist √Ln die von { √~an | Prob(Z = ~a) > 0} erzeugte Untergruppe von R2 . Wir schreiben pn (~x) = Prob(Sn = ~a) . Immer ist ~a ∈ L , also ~x ∈ √Ln . Für ~x = (x1 , x2 ) ist die Dichtefunktion der zweidimensionalen Normalverteilung mit Kovarianz I2 und Erwartungswert (0, 0) 1 1 2 2 n(x) = . · exp − · x1 + x2 2π 2 Aus [3] Theorem 22.1 ergibt sich für die hier betrachtete Situation k = 2 und s = 2: Satz 41 Der Satz besagt, dass pn (~x) − det L · n(~x) = o 1 n n det L · n(~x) + o pn (~x) = n 1 , n und für konstantes ~x ist der erste Summand maßgeblich. Anwendung mit beliebiger Varianz. Sei V = Cov[Z] jetzt eine beliebige invertierbare Kovarianzmatrix von Z. Es hat V eine Inverse V −1 und es gibt eine 1 1 1 symmetrische Matrix V − 2 mit V − 2 · V − 2 = V −1 . Sei nun Sn = Z1 +· · ·+Zn wie oben. Uns interessiert für ~a ∈ L die Wahrscheinlichkeit 1 1 Prob(Sn = ~a). Nun ist Sn = ~a genau dann, wenn V − 2 Sn = V − 2 ~a und 1 1 1 V − 2 Sn = V − 2 Z1 + · · · + V − 2 Zn , wobei wir unsere Zufallsvektoren für die folgenden Matrixoperationen immer als Spaltenvektoren betrachten. 1 1 1 Die V − 2 Zi sind verteilt wie V − 2 Z und die Kovarianzmatrix von V − 2 Z ist die Iden1 dität. Wir wollen den letzten Satz hier anwenden. Der minimal Lattice von V − 2 Z ergibt sich als 1 1 LV = V − 2 ξ1 · Z + V − 2 ξ2 · Z , Für die Determinante von Lv erhalten wir: 1 1 det LV = det V − 2 · (ξ1 , ξ2 ) = √ · det L det V √ √ 1 1 Wir schreiben wieder ~a = ~x n. Dann ist V − 2 · ~a = n · V − 2 · ~x. Unter direkter Anwendung des letzten Satzes bekommen wir: Satz 42 det L 1 pn (~x) = √ · · n(~x) + o det V n 113 1 n Beweis von Formel (27). Um die Formel (27) auf Seite 93 zu beweisen, betrachten wir folgendes: Wir haben λ1 , λ2 in einer Umgebung von 13 . Für λ1 = λ2 = 31 haben wir y1 = y2 = 1. Damit kennen wir den Zufallsvektor Z genau. Dieser hat den minimal Lattice 3 1 · Z also det L = 3 . ·Z + L = 0 1 Die Kovarianzmatrix von Z ist nach Abschnitt (1.5.2) und Formel 25 auf Seite 90: k 2 −1 Cov[Z] = V = · −1 2 9 Wir betrachten jetzt Z − E[Z] und Z1 + · · · + Zm − m · E[Z], Zj unabhängig und verteilt wie Z. Die Kovarianzmatrix bleibt unverändert und der minimal Lattice bleibt gleich. Es ist √ √ r 3 + 1 3 − 1 1 3 3 1 2 1 . V −1 = , V −2 = · · · √ √ 1 2 k k 2 3−1 3+1 Unter Anwendung von Satz 42 bekommen wir: Prob Z1 + · · · + Zm − m · E[Z] = 0 = pm (0, 0) 1 1 1 3 · = O · = √ m det V m 2π (40) Für λ1 , λ2 nahe an 13 ändern sich die Parameter y1 , y2 etwas, bleiben aber nahe an 1. Also ändert sich die Kovarianzmatrix und die Determinanten nur geringfügig. Der minimal Lattice bleibt gleich. Also finden wir sicherlich eine obere Schranke C, so dass 1 pm (0, 0) ≤ ·C , m die für alle λ1 , λ2 nahe an 31 gilt. Damit haben wir für λ1 = λ2 = 13 : 1 pm (0, 0) = O m 114 A.2 Beweise einiger verwendeter Ungleichungen Hier sollen die im Laufe der Beweise verwendeten, nicht ganz so offensichtlichen, Ungleichungen und die zugehörigen Beweise gesammelt werden. Zunächst wollen wir noch einmal die in den vorangegangenen Abschnitten definierten Funktionen wiederholen. A.2.1 Wiederholung der wichtigsten Definitionen • Gleichung (8) – einzelner Summand des Erwartungswertes E[X2 ] n w ~ E(w, ~ ~l) = P Qm · K i=1 Q2 P · j=0 u~j k0,i ,k1,i ,k2,i P k·m k ~ z z1 ,...,zn lj a~j • Gleichung (9) mit erster und zweiter Ableitung q(x) := exp(x) − x − 1 dq(x) = exp(x) − 1 q ′ (x) := dx d2 q(x) q ′′ (x) := = exp(x) dx2 • Gleichung (13) – das Polynom p(y0 , y1 , y2 ) := r = exp( 2πı ) 3 k k 1 · (y0 + y1 + y2 )k + y0 + ry1 + r2 y2 + y0 + r2 y1 + ry2 3 • Gleichung (38) – zur Bestimmung des Parameters s Q(s) := s(exp(s) − 1) km = = k(1 − γ) exp(s) − s − 1 n • Gleichungen (17) – zur Abschätzung der Summanden bei λ1 = λ2 2q(sx) := 1 + q(s) Q 1 OPT2 (x, y) := 1 + 2xy OPT1 (x) OPT3 (y) := (1 + 2y)Q + 2(1 − y)Q OPT(x, y) := OPT1 (x) · OPT2 (x, y) · OPT3 (y) , 115 • Gleichung (21) – Abschätzung der Summanden bei λ1 6= λ2 q(x1 s) q(x2 s) + q(s) q(s) Q 1 OPT2 (x1 , x2 , y1 , y2 ) := 1 + x1 y1 + x2 y2 OPT1 (x1 , x2 ) := 1 + OPT3 (y1 , y2 ) := (1 + y1 + y2 )Q + Q OPT(x1 , x2 , y1 , y2 ) A.2.2 2 (1 + y1 2 + y2 2 − y1 − y2 − y1 y2 ) 2 := OPT1 (x1 , x2 ) · OPT2 (x1 , x2 , y1 , y2 ) · OPT3 (y1 , y2 ) Beweise Lemma 43 Seien n > 0, ωi > 0 und ω0 + ω1 + ω2 = 1. Für den Multinomialkoeffin zient ω0 n,ω1 n,ω2 n gilt die folgende Ungleichung: ω0 ω1 ω2 n 1 1 n 1 · · ≤ ω0 ω1 ω2 ω0 n, ω1 n, ω2 n Beweis. Das ist bekannt, folgt aber auch mit der Erzeugendenfunktion nn = (ω0 n + ω1 n + ω2 n)n , die sich als Potenzreihe in drei Variablen schreiben läßt. Es ist n n a b c Koeff (ω0 n + ω1 n + ω2 n) , (ω0 n) · (ω1 n) · (ω2 n) = a, b, c und mit a = ω0 n, b = ω1 n, c = ω2 n erhalten wir: n ω0 n, ω1 n, ω2 n ≤ n(ω0 +ω1 +ω2 )n (ω0 n)ω0 n · (ω1 n)ω1 n · (ω2 n)ω2 n = nω 0 n · nω 1 n · nω 2 n (ω0 n)ω0 n · (ω1 n)ω1 n · (ω2 n)ω2 n = 1 ω0 ω 0 ω 1 ω 2 n 1 1 · · ω1 ω2 Lemma 18 (Wiederholung) Sei Q(x) = für x > 0 die folgenden Eigenschaften: 116 x · (exp(x) − 1) . Die Funktion Q(x) hat exp(x) − x − 1 1. Q(x) ist streng monoton wachsend. 2. Der Grenzwert für x → 0 ist limx→0 Q(x) = 2. 3. Der Grenzwert für x → ∞ ist limx→∞ Q(x) = ∞. 4. Es ist x < Q(x). Für x > 2 gilt außerdem Q(x) < x + 1. Beweis. 1. Für x > 0 sind alle Faktoren in Q(x) größer als 0. Daher ist Q(x) streng monoton wachsend genau dann, wenn 1/Q(x) streng monoton fallend ist. Wir zeigen, dass die Ableitung von 1/Q(x) kleiner als 0 ist. 1 exp(x) − x − 1 (exp(x) − 1) − x 1 1 = = = − Q(x) x(exp(x) − 1) x(exp(x) − 1) x exp(x) − 1 Für die Ableitung erhalten wir ! d 1 1 1 1 exp(x) d = =− 2 + − < 0 dx Q(x) dx x exp(x) − 1 x (exp(x) − 1)2 und es gilt exp(x) exp(x) 1 1 + ⇐⇒ 2 < 0 2 < 2 2 x x (exp(x) − 1) (exp(x) − 1) exp(2x) − 2 exp(x) + 1 (exp(x) − 1)2 = ⇐⇒ x2 < exp(x) exp(x) 2 ⇐⇒ x < exp(x) − 2 + exp(−x) = 2 cosh(x) − 2 x2 x4 x6 2 ⇐⇒ x < 2 1 + + + + ... − 2 2 4! 6! − und die letzte Ungleichung gilt. 2. Der Grenzwert für x → 0 ist limx→0 Q(x) = 2. x3 x2 + + . . . x x + 2 3! x(exp(x) − 1) lim = lim x2 x3 x4 x→0 exp(x) − x − 1 x→0 + 3! + 4! + . . . 2 2 x2 1 + x2 + x3! + . . . = lim x2 2 x→0 1 + 2x + 2x4! + . . . 2 3! 1 + o(1) = lim 2 x→0 1 + o(1) = 2 117 Denn es gilt 1 ≤ 1 + 2x 3! + 2x2 4! + ... ≤ 1+ 1 1−x 2 + x3! x + 1−x x 2 =1 x < 1 mit der geometrischen Reihe und o(1) ein Ausdruck ist, der für x → 0 gegen 0 geht. + ... ≤ 1 1−x = 1 + o(1). Wobei hier 3. Der Grenzwert für x → ∞ ist limx→∞ Q(x) = ∞. exp(x) − 1 lim x = x→∞ exp(x) − x − 1 lim x 1 + x→∞ x2 2 + für 0 ≤ x3 3! x + x4 4! + ... ! = lim x (1 + o(1)) x→∞ = ∞ 4. Der erste Teil ergibt sich direkt durch Umstellen. Es gilt x xq ′ (x) (exp(x) − x − 1) + x =x 1+ Q(x) = =x q(x) exp(x) − x − 1 exp(x) − x − 1 und damit x < Q(x). Für den zweiten Teil formen wir wie folgt um. x(exp(x) − 1) <x+1 exp(x) − x − 1 ⇐⇒ x(exp(x) − 1) < x(exp(x) − x − 1) + (exp(x) − x − 1) ⇐⇒ x(exp(x) − 1) < x(exp(x) − 1) − x2 + (exp(x) − x − 1) ⇐⇒ x2 < exp(x) − x − 1 Es ist x2 2 + x3 3! + x4 4! ≤ exp(x) − x − 1. Also folgt die Ungleichung aus x x2 1 2 2 + + x ≤x 2 3! 4! 2 1 x x ⇐⇒ 1 < + + 2 3! 4! und die letzte Ungleichung gilt für x > 2. Lemma 44 Sei s > 0 eine Konstante und 0 ≤ x ≤ 1. Es gelten die folgenden Ungleichungen. 1≥ exp(xs) − xs − 1 exp(xs) − 1 exp(xs) − 1 exp(xs) ≥ ≥x ≥ ≥0 exp(s) exp(s) − 1 exp(s) − s − 1 exp(s) − 1 {z } | {z } | :=K(x) :=L(x) 118 Beweis. Der erste Teil folgt direkt duch Umstellen der Ungleichung. Es gilt exp(xs) exp(xs) − 1 ≥ exp(s) exp(s) − 1 ⇐⇒ exp(s) exp(xs) − exp(xs) ≥ exp(s) exp(xs) − exp(s) ⇐⇒ exp(s) ≥ exp(xs) für 0 ≤ x ≤ 1. Die zweite Ungleichung erhalten wir mit der folgenden Umformung. exp(xs) − xs − 1 exp(xs) − 1 ≥ exp(s) − 1 exp(s) − s − 1 ⇐⇒ exp(xs) − 1 exp(s) − 1 − s exp(xs) − 1 ≥ exp(xs) − 1 exp(s) − 1 − xs exp(s) − 1 ⇐⇒ x exp(s) − 1 ≥ exp(xs) − 1 Für x = 0 und x = 1 sind die beiden Seiten der Ungleichung gleich 0 beziehungsweise exp(s) − 1. Da exp(xs) − 1 monoton steigend und konvex ist, folgt die Ungleichung für 0 ≤ x ≤ 1. Die letzte Ungleichung gilt für x = 0. Für diesen Fall sind beide Seiten gleich 1. Betrachten wir jetzt den Fall x > 0. Es ist exp(xs) − xs − 1 exp(xs) − 1 ≥x exp(s) − s − 1 exp(s) − 1 exp(xs) − 1 exp(s) − 1 ≥x ⇐⇒ exp(s) − s − 1 exp(xs) − xs − 1 s exp(s) − 1 xs exp(xs) − 1 ⇐⇒ ≥ exp(s) − s − 1 exp(xs) − xs − 1 {z } | {z } | =Q(s) =Q(xs) und für x = 1 sind beide Seiten gleich Q(s). Da nach Lemma 18 Q(xs) streng monoton wachsend ist, gilt die Ungleichung für 0 ≤ x ≤ 1. Lemma 45 Seien A ≥ 1, B ≥ 0 und 0 < γ < 1. Es gilt (A + B)1−γ ≤ A1−γ + B 1−γ Beweis. Für alle A und B = 0 gilt die Ungleichung, denn (A + 0)1−γ = A1−γ ≤ A1−γ + 0. 119 Sei jetzt B > 0, A fest. Wir betrachten die Ableitung in B. Es ist d d (A + B)1−γ ≤ A1−γ + B 1−γ dB dB −γ ⇐⇒ (1 − γ) · (A + B) ≤ (1 − γ) · B −γ B γ ≤ (A + B)γ ⇐⇒ Die letzte Ungleichung gilt, denn B ≤ A+ B. Also gilt die Behauptung für alle A, B. Lemma 46 Sei s > 2 eine Konstante und Y (x) die Funktion aus Gleichung (19). Für alle 0 < x < 1 gilt q ′ (xs) q ′ (s) Y (x) = 2q(xs) 2q ′ (xs) 1+ −x ′ q(s) q (s) ist streng monoton wachsend. Beweis. Wir teilen den Zähler und Nenner des Bruches durch Das ergibt mit q(xs) q ′ (xs) = exp(xs)−xs−1 exp(xs)−1 Y (x) = =1− q ′ (xs) q ′ (s) xs : exp(xs)−1 1 q (s) 2q(xs) q (s) + ′ · − 2x ′ q (xs) q (xs) q(s) ′ ′ q ′ (s) 1 q(xs) 2 1 + · − 2x q ′ (xs) q ′ (xs) q(s) q ′ (s) 1 1 xs 2 1− ′ − 2x + q ′ (xs) q(s) q (xs) = = 120 > 0, da x > 0. Wir zeigen: Der Nenner ist streng monoton fallend. Es ist d s · exp(xs) 1 = − 2 dx q ′ (xs) q ′ (xs) s · exp(xs) − 1 − xs2 · exp(xs) d xs 1− ′ = − 2 dx q (xs) q ′ (xs) s · exp(xs) 1 − xs = − 2 · 1 − exp(xs) q ′ (xs) s · exp(xs) 1 = . 2 · xs − 1 + exp(xs) q ′ (xs) Setzen wir die Teile zusammen, so ist die Ableitung des Nenners 1 2 s · exp(xs) ′ · xs − 1 + −2 q (s) · 2 · −1 + q(s) exp(xs) q ′ (xs) ! s · exp(xs) 2(xs − 1) 2 ′ = q (s) · −2 < 0. + 2 · −1 + q(s) q(s) · exp(xs) q ′ (xs) Die Faktoren vor der Klammer sind größer als 0 und können für sehr kleine x beliebig groß werden. Wir zeigen, dass der Ausdruck in der Klammer kleiner als 0 ist. Wir vergrößern den Ausdruck, es ist 2 2(xs − 1) + q(s) q(s) · exp(xs) 2(xs − 1) 2 2xs ≤ −1 + + = −1 + q(s) q(s) q(s) 2s , ≤ −1 + q(s) −1 + also folgt die Behauptung aus −1 + 2s < 0 q(s) ⇐⇒ 2s ≤ q(s) . Die letzte Ungleichung gilt für s ≥ 2. Lemma 47 Seien 0 ≤ x, y ≤ 1, C > 0, Q > 2. Die Ungleichung C ·x (1 + 2y)Q−1 − (1 − y)Q−1 T Q Q (1 + 2y) + 2(1 − y) 1 + 2xy ist äquivalent zu (1 + 2y)Q−1 − (1 − y)Q−1 1 − 2xy · (C − 1) · T C ·x (1 + 2y)Q−1 + 2(1 − y)Q−1 121 Beweis. Seien A = (1+2y)Q−1 , B = (1−y)Q−1 . Das Lemma folgt aus der folgenden äquivalenten Umformung. C ·x A−B T (1 + 2y) · A + (1 − y) · 2B 1 + 2xy (multiplizieren mit Nenner) ⇐⇒ (A − B) + 2xy · (A − B) T C · x · (1 + 2y) · A + C · x · (1 − y) · 2B (2xy nach links, C · x ausklammern) ⇐⇒ (A − B) + 2xy · (A − B) − 2xy · C · (A − B) T C · x · (A + 2B) (links (A − B) ausklammern, durch (A + 2B) > 0 teilen) A−B ⇐⇒ 1 − 2xy · (C − 1) · T C ·x A + 2B Lemma 48 Sei 0 ≤ y = Y (x) ≤ 1, Q ≥ 2, y ′ = dY (x) . dx Q−1 Die Ableitung der Funktion (1 + 2y)Q−1 − (1 − y) (1 + 2y)Q−1 + 2(1 − y)Q−1 nach x ist gleich =1+y−2y 2 y ′ · (Q − 1) · }| { Q−2 z 9 · (1 + 2y)(1 − y) (1 + 2y)Q−1 + 2(1 − y)Q−1 2 Beweis. Seien A = (1 + 2y)Q−2 , B = (1 − y)Q−2 . Es ist d d ((1 + 2y) · A) = 2(Q − 1) · y ′ · A und (1 + 2y)Q−1 = dx dx d d ((1 − y) · B) = −(Q − 1) · y ′ · B. (1 − y)Q−1 = dx dx Wir schreiben die Ableitung der Funktion als d dx (1 + 2y) · A − (1 − y) · B (1 + 2y) · A + 2(1 − y) · B (2A + B) · (1 + 2y) · A + 2(1 − y) · B = y ′ · (Q − 1) · 2 (1 + 2y) · A + 2(1 − y) · B ! (1 + 2y) · A − (1 − y) · B · (2A − 2B) − 2 (1 + 2y) · A + 2(1 − y) · B 122 und betrachten den Zähler des Bruches. Es ist (2A + B) · (1 + 2y) · A + 2(1 − y) · B − (1 + 2y) · A − (1 − y) · B · (2A − 2B) = 2(1 + 2y) · A2 + 4(1 − y) · AB + (1 + 2y) · AB + 2(1 − y) · B 2 = −2(1 + 2y) · A2 + 2(1 − y) · AB + 2(1 + 2y) · AB − 2(1 − y) · B 2 6(1 − y) + 3(1 + 2y) · AB = 9 · AB. Also ist die Ableitung gleich y ′ · (Q − 1) · und das Lemma folgt. 9 · AB (1 + 2y) · A + 2(1 − y) · B 2 Lemma 49 Sei Q > 2 eine Konstante und X(y) die Funktion aus Gleichung (20). Für alle 0 < y < 1 gilt X(y) = ist streng monoton wachsend. (1 + 2y)Q−1 − (1 − y)Q−1 (1 + 2y)Q−1 + 2(1 − y)Q−1 Beweis. Wir zeigen, dass die Ableitung y ′ = 1 erhalten wir für die Ableitung dX(y) dy > 0 ist. Nach Lemma 48 mit y = x, =1+y−2y 2 }| { Q−2 z 9 · (1 + 2y)(1 − y) ! dX(y) = (Q − 1) · 2 > 0. dy (1 + 2y)Q−1 + 2(1 − y)Q−1 Die Ableitung ist also > 0 genau dann, wenn (1 + 2y)(1 − y) > 0 ist, da der Nenner > 0 ist. Das ist für 0 < y < 1 sicher der Fall. Lemma 50 Sei Q > 3 eine Konstante und Xz (y) die linke Seite von Gleichung (23). Es gilt: 1. Für 0 ≤ y ≤ 1 2 ist Xz (y) = (1 + 2y)Q−1 + (4y − 1) (1 − y)2 + 3y 2 (1 + 2y)Q−1 + 2(1 − y) (1 − y)2 + 3y 2 streng monoton steigend. 2. Für y ≥ 1 2 ist Xz (y) > 1. 123 Q2 −1 Q2 −1 Beweis. Für den ersten Teil schreiben wir die Funktion zuerst um. Der Bruch ist äquivalent zu Q −1 (1 − y)2 + 3y 2 2 . mit f (y) := (1 + 2y)Q−1 1 + (4y − 1) · f (y) 1 + 2(1 − y) · f (y) Wir zeigen zunächst, dass f (y) für 0 ≤ y ≤ tung von ln f (y). Es ist f (y) > 0 und df (y) < 0 dy ⇐⇒ 1 2 fällt. Dazu betrachten wir die Ablei- d ln f (y) < 0. dy 2 Q 8y − 2 −1 − (Q − 1) 2 2 1 − 2y + 4y 1 + 2y (Q − 2)(4y − 1)(1 + 2y) − 2(Q − 1) 1 − 2y + 4y 2 ! = < 0 1 − 2y + 4y 2 (1 + 2y) d ln f (y) = dy Der Nenner ist > 0, also folgt die Behauptung aus (Q − 2) 8y 2 + 2y − 1 − (Q − 1) 8y 2 − 4y + 2 < 0 ⇐⇒ Q(6y − 3) − −8y 2 − 8y + 4 < 0 ⇐⇒ −8y 2 + (6Q − 8)y − 3Q + 4 < 0 . Die linke Seite der Ungleichung hat ihr Maximum bei −16y + 6Q − 8 = 0 ⇐⇒ y= 1 6Q − 8 ≥ 16 2 Es reicht also aus, dass die Ungleichung bei y = −8 · 1 2 für Q ≥ 3 . gilt. Es ist 1 1 + (6Q − 8) · − 3Q + 4 = −4 < 0 , 4 2 also fällt f (y) für 0 ≤ y ≤ 21 . Kommen wir nun zu der uns eigentlich interessierenden Ableitung. Wir schreiben f ′ für die Ableitung dfdy(y) und f für f (y). d dy 1 + (4y − 1) · f (y) 1 + 2(1 − y) · f (y) = 4f + (4y − 1)f ′ 1 + 2(1 − y)f 2 1 + 2(1 − y)f 1 + (4y − 1)f − 2f + 2(1 − y)f − 2 1 + 2(1 − y)f 124 Der Nenner der Ableitung ist > 0, also folgt die Behauptung aus 4f + (4y − 1)f ′ 1 + 2(1 − y)f − 1 + (4y − 1)f 2(1 − y)f ′ − 2f > 0 ⇐⇒ 4f + 8(1 − y)f 2 + (4y − 1)f ′ + 2(4y − 1)(1 − y)f · f ′ + 2f + 2(4y − 1)f 2 − 2(1 − y)f ′ − 2(4y − 1)(1 − y)f · f ′ > 0 ⇐⇒ 6f + 6f 2 + (6y − 3)f ′ > 0 . Die letzte Ungleichung gilt, denn f, f 2 sind positiv und für y ≤ 12 ist sowohl (6y − 3) als auch f ′ negativ. Also sind alle Summanden positiv und die Behauptung folgt. Für den zweiten Teil des Lemmas schreiben wir die Funktion ebenfalls um. Es ist (4y − 1) = 2(1 − y) + (6y − 3) also ist der Bruch äquivalent zu 1+ (6y − 3) (1 − y)2 + 3y 2 Q2 −1 (1 + 2y)Q−1 + 2(1 − y) (1 − y)2 + 3y 2 und der zweite Summand ist > 0 für y > 12 . 125 Q2 −1 Thesen 1. Schwellwerte für die Lösbarkeit zufälliger Gleichungen modulo 2 lassen sich auf den Fall modulo 3 erweitern. 2. Die Techniken des modulo 2-Falls sind unter einigem analytischen Aufwand auf modulo 3 zu übertragen. 3. Die Übertragung auf modulo M , M beliebig, wäre interessant. Ohne eine technisch einfache analytische Behandlung des Falles modulo 3 erscheint das aber zu kompliziert. 4. Die Verwendung eines mit komplexen Zahlen definierten Polynoms erlaubt es, die Vielzahl der Möglichkeiten im modulo 3-Fall analytisch in den Griff zu bekommen. 5. Erzeugendenfunktionen sind eine flexible Methode, kombinatorische Objekte analytisch abzuschätzen. Sie werden in der Theorie der zufälligen Strukturen eher selten verwendet, aber hier schon. Lebenslauf Persönliche Daten Name: Lutz Falke Geburtsdatum: 04.11.1982 Anschrift: Moseler Schulstr. 18 08058 Zwickau E-Mail: [email protected] Telefon: 0371/531 38225 Werdegang seit 09/2009 Technische Universität Chemnitz Wissenschaftlicher Mitarbeiter an der Professur für Theoretische Informatik 10/2002–07/2009 Technische Universität Chemnitz Studium der Informatik mit Vertiefungsrichtung Technische Informatik an der Fakultät für Informatik Abschluss: Diplom-Informatiker Note: 1,5 09/1993–06/2001 Käthe-Kollwitz-Gymnasium Zwickau Abschluss: Allgemeine Hochschulreife mit den Leistungskursen Mathematik und Physik Veröffentlichungen [1] Goerdt, Andreas und Lutz Falke: Satisfiability thresholds beyond kXORSAT. CoRR, abs/1112.2118, 2011. http://arxiv.org/abs/1112.2118. [2] Goerdt, Andreas und Lutz Falke: Satisfiability Thresholds beyond kXORSAT. In: Hirsch, Edward A., Juhani Karhumäki, Arto Lepistö und Michail Prilutskii (Herausgeber): CSR, Band 7353 der Reihe Lecture Notes in Computer Science, Seiten 148–159. Springer, 2012. Erklärungen Ich versichere, dass die vorgelegte Arbeit weder im Inland noch im Ausland in gleicher oder in ähnlicher Form einer anderen Prüfungsbehörde zum Zwecke einer Promotion oder eines anderen Prüfungsverfahren vorgelegt wurde und auch noch nicht veröffentlicht wurde. Es fand ein früheres Promotionsverfahren statt. nein (bei ja) Thema: Bescheid: Zeit: Hochschule: Ich versichere, dass die vorliegende Arbeit ohne unzulässige Hilfe und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt wurde und die aus fremden Quellen direkt oder indirekt übernommenen Gedanken in der Arbeit als solche kenntlich gemacht sind. Ich versichere, dass weitere Personen bei der geistigen Herstellung der vorliegenden Arbeit nicht beteiligt waren, insbesondere auch nicht die Hilfe eines Promotionsberaters in Anspruch genommen wurde, und dass Dritte vom Bewerber weder unmittelbar noch mittelbar geldwerte Leistungen für Arbeiten erhalten haben, die im Zusammenhang mit dem Inhalt der vorgelegten Dissertation stehen. (Unterschrift) (Datum)