JOHANNES KEPLER UNIVERSITÄT LINZ Technisch-Naturwissenschaftliche Fakultät Spektrale Graphentheorie Graph Sparsification und Eigenwertabschätzungen MASTERARBEIT zur Erlangung des akademischen Grades Diplomingenieurin im Masterstudium Mathematik in den Naturwissenschaften Eingereicht von: Claudia Jabornegg Angefertigt am: Institut für Analysis Beurteilung: a. Univ. Prof. Dipl. Ing. Dr. Paul F. X. Müller Linz, Jänner 2012 JKU Eidesstattliche Erklärung Ich erkläre an Eides statt, dass ich die vorliegende Masterarbeit selbstständig und ohne fremde Hilfe verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt bzw. die wörtlich oder sinngemäß entnommenen Stellen als solche kenntlich gemacht habe. c d Vorwort Diese Arbeit besteht aus zwei großen Teilbereichen. Der erste Teil beschäftigt sich mit Graphentheorie und fundamentalen Aussagen der linearen Algebra. In Kapitel 2 untersuchen wir das bekannte Restricted Invertibility Theorem von Bourgain und Tzafriri aus [5]: Satz (Restricted Invertibility). Es gibt Konstanten c, K > 0, sodass für jeden linearen Opecn rator L : l2n −→ l2n mit kLei k2 = 1, 1 ≤ i ≤ n eine Teilmenge σ ⊂ {1, . . . , n} mit |σ| = kLk 2 2 existiert, sodass 2 X X ≥K a2j . a Le j j j∈σ j∈σ 2 Es liefert eine Aussage darüber, unter welchen Bedingungen Matrizen große“ Untermatrizen ” besitzen, die sich gut invertieren lassen. Die Güte der Invertierbarkeit wird dabei über die Operatornorm der Inversen gemessen. Der Satz wurde von Srivastava in [34] verallgemeinert und der ursprüngliche Beweis dahingehend vereinfacht, dass er mit Mitteln der linearen Algebra Auslangen findet. In Kapitel 3 und Kapitel 4 beschäftigen wir uns mit Graphen und Graph Sparsification. Ziel dabei ist es, einen Graphen G durch einen ausgedünnten Graphen H möglichst gut zu approximieren, sodass er viele Eigenschaften von G erhält, gleichzeitig aber aus möglichst wenig Kanten besteht. Eine der wichtigsten Informationsquellen über einen Graphen ist das Spektrum seiner Laplace-Matrix. Somit ist es ein natürlicher Ansatz, bei der Konstruktion von H darauf zu achten, dass sich die Eigenwerte der Laplace-Matrix so wenig wie möglich verändern. Unser eigentliches Problem ist also in der linearen Algebra angesiedelt: Wir wollen die Laplace-Matrix von G durch eine Matrix von geringem Rang möglichst gut annähern. Das Hauptresultat dazu ist das Spectral Sparsification Theorem von Srivastava aus [34]: P n T Satz (Spectral Sparsification). Sei 0 < ǫ < 1, m ∈ N und A := m i=1 wi wi mit wi ∈ R . n Dann gibt es nicht-negative Gewichte {si }i≤m von denen höchstens ǫ2 ungleich Null sind und es gilt (1 − ǫ)2 A ≤ m X i=1 si wi wiT ≤ (1 + ǫ)2 A. Im Anschluss daran betrachten wir noch eine weitere Möglichkeit, Sparsifier für Graphen zu erzeugen. Die Hauptidee dabei ist, einen gegebenen Graphen G mit einem elektrischen Netzwerk zu identifizieren und durch einen Teilgraph H zu approximieren, indem jede e Kante von G mit einer Wahrscheinlichkeit proportional zu ihrem Wirkwiderstand (effective resistance) zu H hinzugefügt wird. Eine wesentliche Rolle spielt dabei das JohnsonLindenstrauss-Lemma, mit dem wir uns in Kapitel 6 genauer auseinandersetzen werden. In Kapitel 7 widmen wir uns dem zweiten großen Themenbereich der Arbeit, dem Satz von Weyl. Dieser macht eine Aussage über das asymptotische Verhalten der Eigenwerte des Wärmeleitungsproblems. Unser Zugang dazu ist stochastischer Natur, da die Fundamentallösungen der Wärmeleitungsgleichung gleichzeitig die Dichten der Übergangswahrscheinlichkeiten einer Brown’schen Bewegung sind. Basis dafür sind die Bücher [3] und [21] von Bass und Port & Stone. Den Abschluss bildet in Abschnitt 7.5 das Thema Heat Triangulation, mit dem sich Jones, Maggioni und Schul in [17] auseinandersetzen. Die Kernidee dabei ist das Auffinden von lokalen Parametrisierung durch Diffusionskerne und Eigenfunktionen des Laplace-Operators. Danksagung Ich möchte mich ganz herzlich bei Herrn Prof. Paul Müller für seine zahlreichen Ratschläge und hilfreichen Gespräche während der Erstellung dieser Diplomarbeit bedanken. Besonderer Dank gebührt auch meiner Familie, insbesondere meinen Eltern Gabriele und Peter Jabornegg für ihre vielfältige Unterstützung während meiner gesamten Studienzeit. f Inhaltsverzeichnis 1 Grundlagen 1.1 Lineare Algebra . . . . . . . . . . . . 1.1.1 Notation und Grundbegriffe . 1.1.2 Positiv Semidefinite Matrizen 1.1.3 Spektralzerlegung . . . . . . 1.1.4 Die Spur einer Matrix . . . . 1.1.5 Das Hadamard-Produkt . . . 1.1.6 Min-Max-Theorem . . . . . . 1.1.7 Sherman-Morisson Formel . . 1.1.8 Die Pseudinverse . . . . . . . 1.2 Resolventengleichung . . . . . . . . . 1.3 Komplexität von Algorithmen . . . . . . . . . . . . . . . 1 1 1 2 3 3 4 4 5 6 6 7 2 Restricted Invertibility 2.1 Restricted Invertibility Theorem . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Beweis des Restricted Invertibility Theorems . . . . . . . . . . . . . . . . . . 9 9 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Graphen 3.1 Vorbemerkung . . . . . . . . . . . . . . . . . . . 3.2 Begriffe, Definitionen und Laplace-Matrix . . . . 3.3 Eigenwerte und Eigenvektoren . . . . . . . . . . 3.4 Grundlegende Eigenschaften des Spektrums eines 3.5 Random Walks auf Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 20 23 25 31 4 Spectral Sparsification 4.1 Graph Sparsification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Spectral Sparsification Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Dimensionsreduktion in Lp -Räumen . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 45 5 Graph Sparsification by Effective Resistances 5.1 Vorbemerkungen . . . . . . . . . . . . . . . . . 5.2 Graphen und elektrische Netzwerke . . . . . . . 5.3 Algorithmus . . . . . . . . . . . . . . . . . . . . 5.3.1 Formulierung . . . . . . . . . . . . . . . 5.3.2 Beweis zu Satz 5.3.2 . . . . . . . . . . . 5.4 Berechnung näherungsweiser Widerstände . . . 49 49 49 51 51 51 56 g . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Das 6.1 6.2 6.3 Johnson-Lindenstrauss Lemma Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Beweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 59 65 7 Der 7.1 7.2 7.3 7.4 7.5 Satz von Weyl Vorbemerkungen . . . . . . . . . . . . . Brown’sche Bewegung . . . . . . . . . . Gestoppte Brown’sche Bewegung . . . . Der Satz von Weyl . . . . . . . . . . . . Heat Triangulation . . . . . . . . . . . . 7.5.1 Das Heat Triangulation Theorem 7.5.2 Beweis . . . . . . . . . . . . . . . . . . . . . . 67 67 68 69 72 78 78 81 8 Appendix 8.1 Beweis zu Satz 7.3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 85 h . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapitel 1 Grundlagen Zu Beginn wollen wir einige grundlegende Begriffe und Resultate aus den Bereichen der linearen Algebra, Komplexitätstheorie und Funktionalanalysis zusammenfassen, die als Ausgangsbasis für die nachfolgenden Kapitel dienen. 1.1 Lineare Algebra Ein Großteil dieser Arbeit und der angeführten Beweise benötigt als Basis lediglich elementare Resultate aus der linearen Algebra. Hauptaugenmerk liegt dabei auf symmetrischen, positiv semidefiniten Matrizen. Zunächst werden wir einige Schreibweisen einführen und bekannte, grundlegende Definitionen und Eigenschaften von Matrizen zusammenfassen. Die Inhalte dieses Kapitels können in jedem Standardwerk über lineare Algebra gefunden werden, als Beisipiel sei auf [14] verwiesen. Das Material aus Abschnitt 1.1.4 stammt aus [38]. 1.1.1 Notation und Grundbegriffe Für einen Vektor v ∈ Rn bezeichnet v(i) bzw. vi die i-te Komponente von v. Analog ist A(i, j) bzw. Aij der Eintrag in der i-ten Zeile und der j-ten Spalte einer m × n Matrix A. Mit 0 und 1 bezeichnen wir jene Vektoren, die in jeder Komponente den Eintrag 0 bzw. 1 besitzen, der Koordinatenvektor χi besitzt nur in der i-ten Koordinate den Eintrag 1. Mit I bezeichnen wir die Einheitsmatrix. Die Transponierte von A ist die n × m Matrix AT (i, j) = A(j, i). Das Matrixprodukt von zwei Matrizen A und B mit den Dimensionen m × n und n × l ist die m × l Matrix n X Aik Bkj . (AB)ij = k=1 Sind v und w Vektoren im Rn , so ist das euklidische Skalarprodukt definiert als hv, wi = v T w = und die euklidische Norm kvk = √ n X v(i)w(i) i=1 v T v. Unter anderem gilt die Cauchy-Schwarz’sche Ungleichung hv, wi2 ≤ kvkkwk. 1 Das äußere Produkt vwT von v und w ist eine n × n Matrix mit den Einträgen vwT (i, j) = v(i)w(j). Falls nicht anders angegeben, beziehen wir uns im Folgenden immer auf Spaltenvektoren und quadratische n × n-Matrizen mit reellen Einträgen. Eine reelle oder komplexe Zahl λ heißt Eigenwert von A, falls ein Vektor v existiert, für den Av = λv gilt. Der Vektor v ist der dazugehörige Eigenvektor. Ist A symmetrisch, so besitzt A genau n Eigenwerte λ1 ≤ . . . ≤ λn , deren zugehörige Eigenvektoren so gewählt werden können, dass sie Einheitslänge besitzen und paarweise orthogonal aufeinander stehen, also eine Orthonormalbasis des Rn bilden. Der Rang von A ist die Anzahl der linear unabhängigen Spalten von A und entspricht der Anzahl der Eigenwerte, die ungleich null sind. Die Spektral- oder Operatornorm einer Matrix A ist kAk2 = sup Ax. {x:kxk=1} Für symmetrische Matrizen entspricht dies dem betragsmäßig größten Eigenwert. Weiters benötigen wir die Frobenius-Norm von A definiert als v uX u n kAkF = t A2ij . i,j=1 Verwenden wir keinen Index, so beziehen wir uns immer auf die Operatornorm. 1.1.2 Positiv Semidefinite Matrizen Da wir uns hauptsächlich mit positiv semidefiniten Matrizen auseinandersetzen werden, wollen wir uns einige Eigenschaften solcher Matrizen genauer ansehen. Eine Matrix A heißt positiv semidefinit, falls für alle x ∈ Rn \ {0} gilt xT Ax ≥ 0 und positiv definit, falls xT Ax > 0 gilt. Sinngemäß lassen sich negative (semi)definite Matrizen definieren. Weiters schreiben wir für zwei Matrizen A und B A ≥ B, falls für alle x ∈ Rn gilt xT Ax ≥ xT Bx, also A − B positiv semidefinit ist. Analog definieren wir A > B. Im folgenden Lemma sind einige Resultate für positiv semidefinite Matrizen zusammengefasst. Lemma 1.1.1. 1. Für jede reelle Matrix A ist AT A positiv semidefinit. 2. Eine positiv semidefinite Matrix A besitzt nur nicht-negative Eigenwerte. Ist A symmetrisch, so gilt auch die Umkehrung. 3. Sind A und B positiv semidefinite Matrizen, so besitzt AB nur nicht-negative Eigenwerte. Gilt zusätzlich AB = BA, so ist AB ebenfalls positiv semidefinit. 2 1.1.3 Spektralzerlegung An dieser Stelle formulieren wir den Matrix-Spezialfall des Spektralsatzes für kompakte, selbstadjungierte Operatoren. Die allgemeinere Version findet sich in Kapitel 7. Satz 1.1.2. Ist A eine reelle, symmetrische n×n Matrix, so lässt sich A mit Hilfe der zu den Eigenwerten λ1 , . . . , λn gehörigen, orthonormalen Eigenvektoren v1 , . . . , vn darstellen über A= n X λi vi viT . i=1 1.1.4 Die Spur einer Matrix In vielen Beweisen werden wir mit der Spur einer Matrix arbeiten und einige Spuridentitäten verwenden, die wir an dieser Stelle formulieren wollen. Die Spur einer Matrix A ist die Summe ihrer Diagonaleinträge und wird mit Tr (A) bezeichnet: Tr (A) = n X A (i, i) i=1 Für die Spur gelten nun folgende einfach überprüfbare Resultate: Proposition 1.1.3. 1. Seien A und B zwei Matrizen von Dimension k × n bzw. n × k. Dann gilt Tr (AB) = Tr (BA). 2. Seien A und R Matrizen der Dimension n × n und R invertierbar. Weiters seien λ1 , ..., λn die Eigenwerte von A. Dann gilt Tr R−1 AR = Tr (A). Insbesondere folgt daraus, dass Tr (A) = n X λi . i=1 Weiters benötigen wir folgende Ungleichungskette. Da sie nicht unmittelbar offensichtlich ist, geben wir auch einen Beweis dazu an. Lemma 1.1.4. Seien A und B positiv semidefinite Matrizen von gleicher Dimension. Dann gilt Tr (AB) ≤ kAk2 Tr (B) ≤ kAkF Tr (B) ≤ Tr (A)Tr (B) (1.1) Beweis. Da A positiv semidefinit ist, lässt sich A darstellen als A = RT DR, wobei R orthogonal ist und D eine Diagonalmatrix mit den nicht-negativen Eigenwerten λi von A. Damit ist mit Proposition 1.1.3, Punkt 1 Tr (AB) = Tr RT DRB = Tr DRBRT . 3 Da B positiv semidefinit ist, sind alle Diagonaleinträge von B ≥ 0. Wäre nämlich o.B.d.A. b11 < 0, so wäre χT1 Bχ1 = b11 < 0, also B nicht mehr positiv semidefinit. Da R orthogonal ist, ist auch RBRT positiv semidefinit und damit kein Diagonaleintrag negativ. Da auch A positiv semidefinit ist, folgt mit Punkt 2 von Proposition 1.1.3 X X (1.2) RBRT ii Tr (AB) = λi RBRT ii ≤ sup {λi } i = sup {λi } Tr RBR i T i i = kAk2 Tr (B). (1.3) Damit ist die erste Ungleichung gezeigt. Die übrigen Abschätzungen folgen aus der Tatsache, dass !1/2 X kAk2 = sup {λi } ≤ λ2i = kAkF i i ist und sich dies wiederum durch X λi = Tr (A) i nach oben abschätzen lässt. 1.1.5 Das Hadamard-Produkt Neben dem Standard-Matrixprodukt können wir auch eine komponentenweise Matrixmultiplikation definieren: Definition 1.1.5. Seien A und B zwei n×n Matrizen. Wir definieren das Hadamard-Produkt von A und B über A◦B := n X Aij Bij . i,j=1 Für das Hadamard-Produkt gelten nun folgende Beziehungen: Proposition 1.1.6. Für zwei n × n Matrizen A, B und ein v ∈ Rn gilt: 1. v T Av = A◦ vv T 2. A◦B = Tr AT B 1.1.6 Min-Max-Theorem Das Min-Max Theorem oder den Satz von Courant-Fischer verwenden wir häufig zur Berechnung von Eigenwerten und Eigenvektoren. Außerdem ergibt sich als Folgerung das Cauchy Interlacing Theorem über die Verflechtung von Eigenwerten einer Matrix und ihren Projektionen auf einen Unterraum. Definition 1.1.7. Sei M eine (n × n)-Matrix über R und x ∈ Rn . Der Rayleigh-Quotient RM (x) ist definiert als xT M x (1.4) RM (x) := T . x x 4 Satz 1.1.8 (Courant-Fischer). Sei M eine symmetrische (n × n)-Matrix über R. Seien weiters λ1 ≤ λ2 ≤ ... ≤ λn ihre Eigenwerte und x1 , x2 , ..., xn die dazugehörigen Eigenvektoren. Sk bezeichne einen beliebigen k-dimensionalen Unterraum von Rn . Dann gilt λk = min max RM (x) = Sk x∈Sk min x6=0 j =0 ∀j∈{1,...,k−1} xT x RM (x). Der maximierende bzw. minimierende Vektor ist der jeweils zugehörige Eigenvektor. Mit Hilfe des Min-Max-Theorems lässt sich eine Aussage über das Verhalten der Eigenwerte treffen, wenn wir eine Matrix A auf einen Unterraum projizieren. Satz 1.1.9 (Cauchy Interlacing Theorem). Sei A eine symmetrische n × n Matrix, P eine orthogonale Projektion auf einen m-dimensionalen Unterraum und B = P AP . Sind λ1 ≤ · · · ≤ λn und µ1 ≤ · · · ≤ µn die Eigenwerte von A und B, so gilt für alle j ≤ m λj ≤ µj ≤ λn−m+j Daraus ergibt sich speziell für Rang-1-Störungen folgendes Resultat: Korollar 1.1.10. Sei v ∈ Rn , λ1 , · · · , λn die Eigenwerte der n × n Matrix A und µ1 , · · · , µn jene der Matrix A + vv T . Dann gilt λ1 ≤ µ1 ≤ λ2 ≤ · · · ≤ µn−1 ≤ λn ≤ µn Beweis. Sei Pv die Projektion auf span (v)⊥ . Dann ist Pv v = 0 und damit Pv APv = Pv A + vv T Pv . Seien π1 , ..., πn−1 die Eigenwerte von Pv APv . Aus Satz 1.1.9 folgt dann λ1 ≤ π1 ≤ λ2 ≤ · · · ≤ πn−1 ≤ λn µ1 ≤ π1 ≤ µ2 ≤ · · · ≤ πn−1 ≤ µn . Mit dem Min-Max-Theorem gilt weiters λk ≤ µk , woraus insgesamt die Behauptung folgt. 1.1.7 Sherman-Morisson Formel Zur Berechnung der Inversen einer Rang-k-Störung einer Matrix existiert die ShermanMorrison-Woodbury Formel : Proposition 1.1.11. Sei A eine reguläre n × n Matrix und U, V Matrizen der Dimension n × k. Ist I − V T A−1 U invertierbar, so gilt A − UV T −1 = A−1 + A−1 U I − V T A−1 U −1 V T A−1 . −1 Als Spezialfall ergibt sich daraus für eine Rang-1-Störung A − uv T mit u, v ∈ Rn die Sherman-Morrison Formel −1 uv T A−1 . A − uv T = A−1 + A−1 1 − v T A−1 u 5 Beweis. Wir zeigen, dass A − UV T h −1 −1 T −1 i A + A−1 U I − V T A−1 U V A =I gilt. Für den ersten Ausdruck erhalten wir h −1 T −1 i A − U V T A−1 + A−1 U I − V T A−1 U V A = I + U V T A−1 + (U − U V T A−1 U )(I − V T A−1 U )−1 V T A−1 = I + U V T A−1 + U (I − V T A−1 U )(I − V T A−1 U )−1 V T A−1 = I + U V T A−1 − U V T A−1 = I. h −1 T −1 i Analog sieht man, dass A−1 + A−1 U I − V T A−1 U V A A − U V T = I ist. 1.1.8 Die Pseudinverse Ist A eine reelle oder komplexe n×m Matrix, so ist die Moore-Penrose-Inverse oder Pseudoinverse, bezeichnet mit A† , jene eindeutig bestimmte m × n Matrix, die folgende Eigenschaften erfüllt: 1. AA† A = A 2. A† AA† = A† 3. AA† und A† A sind hermitesch. Ist M eine symmetrische n × n-Matrix, λ1 , . . . λk ihre nicht verschwindenden Eigenwerte und v1 , . . . vk die dazugehörigen Eigenvektoren, so erhalten wir aus der Spektraldekomposition, dass die Pseudoinverse die Gestalt A† = k X 1 vi v T λi i i=1 besitzt. A† ist verhält sich also auf im (A) = ker (A)⊥ = ker A† zu A, da k X vi viT , AA† = A† A = ⊥ = im A† wie die Inverse i=1 was genau einer Projektion auf im (A) entspricht. 1.2 Resolventengleichung Eine wichtige Identität, die wir an späteren Stellen benötigen werden, ist die Resolventengleichung für lineare Operatoren. Der Vollständigkeit halber formulieren wir sie für allgemeine, lineare Operatoren auf einem Hilbertraum: Satz 1.2.1 (Resolventengleichung). Sei T ein linearer Operator, der den Hilbertraum H in sich selbst abbildet und seien z, w aus der Resolventenmenge von T . Dann gilt mit der Resolvente von T definiert als RT (z) = (T − zI)−1 die Identität RT (z) − RT (w) = (z − w) RT (z) RT (w) . 6 1.3 Komplexität von Algorithmen Viele Beweise in dieser Arbeit sind konstruktiver Natur und können damit unmittelbar als Berechnungsalgorithmen verwendet werden. Da Graphen gerade in der Informatik von großer Bedeutung sind, ist beispielsweise die Verbesserung von Algorithmen im Bereich der Datenkompression oder Bildbearbeitung die Triebfeder für viele Resultate. In diesem Zusammenhang ist immer die Frage nach dem Aufwand“ eines Algorithmus von Bedeutung; in der ” Regel ist damit die Rechenzeit, manchmal auch der Speicheraufwand gemeint. Für eine grundlegende Einführung zu Algorithmen sei auf [18] oder [9] verwiesen, zum Verständnis dieser Arbeit reicht folgender, asymptotischer Formalismus aus: Bezeichnet die Funktion f : N → N, n 7→ f (n) den Aufwand bei einem Problem der Größe n, und g eine Vergleichsfunktion, so ist ein Algorithmus in der Komplexitätsklasse O (g(n)), falls ein k > 0 und ein n0 existiert, sodass für alle n > n0 gilt |f (n)| ≤ |g(n) · k|. Dies bedeutet, dass für hinreichend große Probleme der Aufwand nicht stärker wächst als g. 7 8 Kapitel 2 Restricted Invertibility 2.1 Restricted Invertibility Theorem In diesem Kapitel beschäftigen wir uns mit einer Erweiterung des bekannten Restricted Invertibility Theorem von Bourgain und Tzafriri: Satz 2.1.1 (Restricted Invertibility, [5]). Es gibt Konstanten c, K > 0, sodass für jeden linearen Operator L : l2n −→ l2n mit kLei k2 = 1, 1 ≤ i ≤ n eine Teilmenge σ ⊂ {1, . . . , n} mit cn |σ| = kLk 2 existiert, sodass 2 2 X X ≥K a Le a2j . j j j∈σ j∈σ 2 Dieses Resultat und viele ihrer weiteren Arbeiten beschäftigten sich mit der Frage, unter welchen Bedingungen Matrizen große“ Untermatrizen besitzen, die sich gut invertieren las” sen. Die Güte der Invertierbarkeit wird dabei über die Operatornorm der Inversen gemessen. Desweiteren existiert eine stärkere, bis jetzt unbewiesene Formulierung von Satz 2.1.1. In [7] wird gezeigt, dass diese äquivalent zur Paving Conjecture ist, einer Formulierung des berühmten Kadison-Singer Problems (siehe dazu [5–7]). Bourgain und Tzafriris Beweis ist ein reiner Existenzbeweis und bedient sich probabilistischer und funktionalanalytischer Hilfsmittel. Wir werden hier eine etwas allgemeinere Formulierung von Satz 2.1.1 aus [30] zeigen, die in ähnlicher Form von Vershynin in [37] auf Satz 2.1.1 zurückgeführt wurde. 2.2 Beweis des Restricted Invertibility Theorems Wir folgen im Wesentlichen dem Beweis von Spielman und Srivastava aus [30]. Deren Beweis ist konstruktiv, benötigt nur lineare Algebra und liefert zusätzlich bessere Konstanten. P T Satz 2.2.1 (Generalized Restricted Invertibility). Seien v1 , v2 , . . . , vm ∈ Rn , m i=1 vi vi = I n n und 0 < ǫ < 1. Weiters sei Lj : l2 −→k l2 ein linearer Operator. Dann existiert eine Teilmenge σ ⊂ {1, . . . m} mit |σ| ≥ kLk2 ǫ2 kLkF2 , für die {Lvi }i∈σ linear unabhängig ist und für alle 2 9 {ai }i∈σ ∈ R gilt 2 X (1 − ǫ)2 kLk2F X 2 a Lv ≥ aj . j j m j∈σ j∈σ (2.1) 2 Aus diesem Satz können wir unmittelbar Satz 2.1.1 ableiten, P indem wir vi = ei wählen, da aus der Annahme kLei k2 = 1 für alle 1 ≤ i ≤ n folgt n = ni=1 kLei k22 = kLk2F . Beweis. Wir wollen zunächst die Behauptung (2.1) umformulieren: Sei A= X (Lvi ) (Lvi )T i∈σ und λmin (A) der kleinste Eigenwert von A, berechnet auf span {Lvi }i∈σ . Dann ist (2.1) äquivalent dazu, dass λmin (A) > (1 − ǫ)2 kLk2F . m Ist nämlich B jene |σ| × n Matrix, deren Zeilen aus den Vektoren {Lvi }i∈σ bestehen, so gilt A = B T B. Die Eigenwerte von A entsprechen also jenen der Gram’schen Matrix . BB T = (Lvi )T (Lvj ) i,j∈σ (1−ǫ)2 kLk2 F Die Aussage, dass alle Eigenwerte von BB T größer als sind, ist aber wiederum m äquivalent zu (2.1). P T Wir bauen die Matrix A = i∈σ (Lvi ) (Lvi ) , indem wir in jedem Schritt einen Vektor zur Menge σ hinzufügen. Die Vorgehensweise dabei ist folgendermaßen: Die Matrix A wird iterativ konstruiert und der Prozess mittels einer Potentialfunktion Φb (A) gesteuert. Die Schranke b ist eine reelle Zahl, die in jedem Iterationsschritt variiert. Φb (A) ist definiert wie folgt: X Φb (A) = (Lvi )T (A − bI)−1 (Lvi ) i = X i Tr (Lvi )T (A − bI)−1 (Lvi ) Mit Proposition 1.1.3, Punkt 1 und der Linearität der Spur folgt = X i = X i Tr (A − bI)−1 (Lvi ) (Lvi )T Tr (A − bI)−1 Lvi viT LT = Tr (A − bI) −1 10 L X i vi viT L T ! und weiter, da laut Voraussetzung P T i vi vi =I = Tr LT (A − bI)−1 L . Zu Beginn setzen wir A = 0, b = b0 > 0. Das Potential ist dann −1 1 Φb0 = Tr LT (0 − b0 I)−1 L = −Tr LT (b0 )−1 L = Tr LT L = kLk2F . b0 b0 In jedem Iterationsschritt wählen wir nun einen Vektor w ∈ {Lvi }i≤m und machen bei A eine Rang-1-Korrektur auf A + wwT . Damit erweitern wir jedesmal die Menge σ um einen Index. Wählen wir beispielsweise w = Lvj , so kommt der Index j zu σ hinzu. Auhßerdem wollen wir b um ein konstantes δ Richtung null verschieben, jedoch ohne dabei das Potential zu erhöhen, wir fordern also Φb−δ A + wwT ≤ Φb (A) . Weiters verlangen wir, dass A nach jedem Schritt genau k Eigenwerte ungleich 0 und größer als b besitzt. Die folgenden beiden Lemmata sagen uns, welche Bedingungen wir an w und Φ stellen müssen, um diese Iteration durchführen zu können. Lemma 2.2.2. Sei A positiv semidefinit mit k Eigenwerten λ1 ≥ λ2 ≥ · · · > b′ > 0, wobei b′ eine positive, reelle Zahl ist. Ist w 6= 0 und −1 w T A − b′ I w < −1, (2.2) so sind k + 1 Eigenwerte der Matrix A + wwT größer als b′ . Lemma 2.2.3. Sei A wieder positiv semidefinit mit k Eigenwerten größer als ein konstantes b > 0 und sei Q die orthogonale Projektion auf ker(A). Ist kLk22 Φb (A) ≤ −m − δ (2.3) und 0<δ<b≤δ kQLk2F kLk22 , (2.4) dann gibt es ein w ∈ {Lvi }i≤m für das die folgenden beiden Bedingungen erfüllt sind: 1. A + wwT besitzt k + 1 Eigenwerte ungleich 0 und größer als b′ := b − δ, und 2. Φb′ A + wwT ≤ Φb (A). Die Lemmata werden an späterer Stelle bewiesen. Ausgehend davon zeigen wir nun induktiv, dass mit den Voraussetzungen des Satzes in jedem Schritt die Bedingungen von Lemma 2.2.3 erfüllt sind: Zu Beginn setzen wir b0 = (1 − ǫ) kLk22 (1 − ǫ) kLk2F , und δ = . m ǫm 11 (2.5) Dann gilt nach obiger Rechnung mit A = 0 Φb0 (0) = − kLk2F kLk22 m ǫm =− = −m − = −m − , b0 1−ǫ 1−ǫ δ (2.6) womit Bedingung 1 von Lemma 2.2.3 erfüllt ist. kLk2 Um die zweite Bedingung zu zeigen halten wir zunächst fest, dass für den Fall ǫ2 kLkF2 < 1 2 j k kLk2F kLk2F 2 2 gilt, dass ǫ kLk2 = 0 und mit σ = ∅ der Satz trivialerweise wahr ist. Sei also ǫ kLk2 ≥ 1. 2 2 Da 0 < ǫ < 1, ist ǫ2 < ǫ und damit kLk2F kLk22 ≥ 1 1 ≥ > 1. 2 ǫ ǫ (2.7) Wir erhalten also kLk2F · ǫ b0 = δ kLk22 (2.8) und damit b0 > δ. Weiters ist für A0 = 0 klarerweise Q0 = I und damit, da dann kQ0 LkF = kLkF und ǫ < 1 gilt, b0 ≤ kLk2F kQ0 Lk2F 1−ǫ kLk2F = δǫ ≤ δ , m kLk22 kLk22 womit Bedingung 2 ebenfalls erfüllt ist. Nach t − 1 Iterationsschritten haben wir δ < bt−1 = b0 − (t − 1)δ ⇐⇒ tδ < bt−1 . Dies ist äquivalent dazu, dass t< ist, was mit der Wahl t ≤ kLk2F 2 ǫ kLk22 kLk2F b0 ǫ = δ kLk22 der Fall ist. Wir zeigen nun, dass die Ungleichung bt−1 ≤ (t − 1)δ kQt−1 Lk2F kLk22 (2.9) ebenfalls erfüllt ist. Da im t−ten Schritt At = At−1 +wt wtT ist, gilt ker(At ) = ker(At )∩{wt }⊥ . Weiters besitzt Qt für jedes t genau dim{ker(At )}-viele Eigenwerte, die gleich 1 sind, die übrigen sind 0. Damit gilt für die Projektion Q Tr (Qt−1 − Qt ) = dim{ker(At )} − dim{ker(At−1 )} ≤ 1. Da Qt = Q2t und QTt = Qt ist, folgt weiters mit Qt = Qt−1 − (Qt−1 − Qt ) kQt Lk2F = Tr LT Qt L = kQt−1 Lk2F − Tr LT (Qt−1 − Qt ) L 12 (2.10) und mit Lemma 1.1.4 und (2.10) kQt Lk2F ≥ kQt−1 Lk2F − kLk22 Tr (Qt−1 − Qt ) ≥ kQt−1 Lk2F − kLk22 . Damit sinkt von Q in jedem Schritt um höchstens kLk22 , womit (2.9) erfüllt ist. j die 2Norm k kLk Nach t = ǫ2 kLkF2 Schritten ergibt sich also 2 b0 − tδ = b0 − (t − 1)δ − δ ≤ δ ≤δ kQt Lk2F + kLk22 kLk22 kQt−1 Lk2F kLk22 −δ =δ −δ kQt Lk2F kLk22 . Setzen wir unsere Wahl von b0 , δ, und t ein, so erhalten wir b0 − δt ≥ (1 − ǫ) kLk2F kLk2F (1 − ǫ)2 − ǫ2 (1 − ǫ) = kLk2F , m ǫm m wie behauptet. Beweis von Lemma 2.2.2. Zunächst halten wir fest, dass A + wwT eine Rang-1-Korrektur der Matrix A ist. Seien λ′1 ≥ · · · λk+1 die größten k + 1 Eigenwerte von A + wwT . Mit Korollar 1.1.10 folgt daher, dass λ′1 ≥ λ1 ≥ λ′2 ≥ · · · ≥ λk ≥ λ′k+1 . (2.11) Es ist X Tr (A − b′ I)−1 = i≤k X 1 1 + ′ λi − b 0 − b′ i>k und damit Tr (A + wwT b′ I)−1 − (A − b′ I)−1 = 1 λ′k+1 − b′ k X + i=1 + 1 0 − b′ k X 1 1 − . ′ ′ λi − b λ i − b′ (2.12) i=1 Nach der Sherman-Morisson-Formel aus Lemma 1.1.11 mit der Setzung u = w, v = −w gilt andererseits ! (A − b′ I)−1 wwT (A − b′ I)−1 T ′ −1 ′ −1 − A−bI . Tr A + ww − b I = −Tr 1 + wT (A − b′ I) w Nach Proposition 1.1.3 lässt sich der letzte Ausdruck schreiben als ! wT (A − b′ I)−2 w wT (A − b′ I)−2 w = − . Tr − 1 + wT (A − b′ I) w 1 + wT (A − b′ I) w 13 (2.13) Laut Annahme ist wT (A − b′ I) w < −1. Weiters ist aufgrund der Voraussetzungen an die Eigenwerte die Matrix (A − b′ I)−2 positiv definit und damit wT (A − b′ I)−2 w > 0, der gesamte Ausdruck in (2.13) also positiv. Mit (2.12) und (2.11) erhalten wir also insgesamt 0 < Tr = A + wwT − b′ I 1 λ′k+1 − b′ + 1 X i>k 1 ≤ ′ − ′. ′ λk+1 − b b Damit muss 1 λ′k+1 −b′ ≥ 1 b′ −1 − A − b′ I k −1 k X 1 X 1 1 + − 0 − b′ λ′i − b′ λ i − b′ i=1 i=1 gelten. Da aber sowohl A als auch A + wwT positiv semidefinit sind, ist dies nur möglich, falls wie behauptet λ′k+1 > b′ ist. Beweis von Lemma 2.2.3. Wir behandeln zunächst den Ausdruck Φb′ A + wwT . Es gilt wieder mit Lemma 1.1.11 −1 Φb′ A + wwT = Tr LT A − b′ I + wwT L Tr LT (A − b′ I)−1 wwT (A − b′ I)−1 L = Φb′ (A) − 1 + wT (A − b′ I)−1 w Tr wT (A − b′ I)−1 LLT (A − b′ I)−1 w = Φb′ (A) − 1 + wT (A − b′ I)−1 w = Φb′ (A) − wT (A − b′ I)−1 LLT (A − b′ I)−1 w . 1 + wT (A − b′ I)−1 w Um die Bedingung Φb′ A + wwT ≤ Φb (A) zu erfüllen, müssen wir also w so wählen, dass wT (A − b′ I)−1 LLT (A − b′ I)−1 w ≤ Φb (A) Φ (A) − 1 + wT (A − b′ I)−1 w b′ gilt. Um auch die Eigenwertbedingung aus Lemma 2.2.2 zu erfüllen, muss dieses w zusätzlich (2.2) erfüllen. Dies ist genau dann der Fall, wenn w der Bedingung w T A − b′ I −1 LLT A − b′ I −1 −1 w w ≤ (Φb (A) − Φb′ (A)) −1 − wT A − b′ I genügt. Wir können die Existenz zumindest eines solchen Vektors w zeigen, indem wir über sämtliche w ∈ {Lvi }i≤m aufsummieren und sicherstellen, dass die Ungleichung in der Summe erfüllt ist, also dass X −1 −1 LLT A − b′ I wi wiT A − b′ I i≤m ≤ (Φb (A) − Φb′ (A)) X i≤m 14 −1 − wiT A − b′ I −1 wi gilt. Diese Summe lässt sich mit Hilfe der Spur wie zu Beginn des Beweises schreiben als −1 −1 Tr LT A − b′ I LLT A − b′ I L (2.14) −1 L . ≤ (Φb (A) − Φb′ (A)) −m − Tr LT A − b′ I Sei ∆ := Φb (A) − Φb′ (A). Da laut Voraussetzung Φb (A) ≤ −m − Φb′ (A) = Φb (A) − ∆ ≤ −m − kLk22 δ ist, gilt kLk22 − ∆. δ Damit folgt (2.14), falls wir zeigen können, dass −1 −1 Tr LT A − b′ I LLT A − b′ I L !! kLk22 ≤ ∆ −m − −m − −∆ =∆ δ kLk22 +∆ δ ! gilt. Die linke Seite lässt sich mittels Proposition 1.1.3 schreiben als −1 −1 Tr LLT A − b′ I LLT A − b′ I und lässt sich mit Lemma 1.1.4 nach oben abschätzen durch T LL Tr A − b′ I −1 LLT A − b′ I −1 = kLk2 Tr LT A − b′ I −2 L . 2 2 (2.15) Seien nun P und Q die orthogonalen Projektionen auf im(A) bzw. ker(A). Dann gilt offensichtlich P + Q = I, P 2 = P und n Q2 = Q. Aus der Spektralzerlegung o (Satz 1.1.2) folgt, dass −1 −2 ′ ′ alle Matrizen der Familie MA := P, Q, A, (A − b I) , (A − b I) simultan diagonalisierbar sind. Es gibt also eine orthogonale Matrix R und für alle C ∈ MA eine Diagonalmatrix DC , sodass C = RT DC R ist. Für B, C ∈ MA gilt daher BC = CB, da BC = RT DB RRT DC R = RT DB DC R = RT DC DB R = RT DC RRT DB R = CB ist. Für jedes C ∈ MA gilt daher C = (P + Q)C(P + Q) = P CP + P CQ + QCP + QCQ, was mit Q = I − P und P CP = P 2 C = P C weiter gleich P CP + P C − P CP + CP − P CP + QCQ = P CP + QCQ ist. Wir definieren −1 T ′ −1 ΦPb′ (A) := Tr LT P A − b′ I P L und ΦQ (A) := Tr L Q A − b I QL . ′ b P Q Damit ist dann Φb′ (A) = ΦPb′ (A)+ΦQ b′ (A) und ∆ = ∆ +∆ . Wir betrachten nun die Matrix −2 −1 T := LT P (A − bI) (A − b′ I) P L. Diese ist positiv semidefinit, da alle Eigenwerte von A größer als b > b′ > 0 sind. Aus der Resolventengleichung (Satz 1.2.1) folgt, dass −1 −1 = b − b′ (A − bI)−1 A − b′ I (A − bI)−1 − A − b′ I 15 ist. Zusammen erhalten wir damit " # ! −1 ′ I)−1 ′ I)−2 (A − bI) (A − b (A − b 0 ≤ Tr (T ) = Tr LT P − PL . b − b′ b − b′ Mit neuerlicher Anwendung der Resolventengleichung auf den ersten Term ist dies weiter gleich # ! (A − bI)−1 − (A − b′ I)−1 (A − b′ I)−2 PL . Tr L P − b − b′ (b − b′ )2 " T Setzen wir b − b′ = δ, so ergibt sich daraus 1 −2 −1 Tr LT P A − b′ I P L ≤ Tr LT P (A − bI)−1 P L − Tr LT P A − b′ I PL δ und damit −2 kLk22 . kLk22 Tr LT P A − b′ I P L ≤ ∆P δ Es ist nun −2 −2 −2 Tr LT A − b′ I L = Tr LT P A − b′ I P L + Tr LT Q A − b′ I QL . Zusammen mit (2.15) erhalten wir aus obiger Abschätzung also (2.15), wenn wir zeigen können, dass ! kLk22 kLk22 2 T ′ −2 kLk2 Tr L Q A − b I + ∆ − ∆P (2.16) QL ≤ ∆ δ δ gilt. Letzerer Ausdruck lässt sich schreiben als ∆P ∆ + ∆Q ! kLk22 +∆ . δ Da ∆ = ∆P + ∆Q und ∆P , ∆Q ≥ 0 ist, folgt (2.16) aus kLk22 Tr T ′ L Q A−bI −2 QL ≤ ∆ Q kLk22 + ∆Q δ ! . Aus Satz 1.1.2 erhalten wir Q A − b′ I Damit ist −1 −2 1 1 Q = − ′ Q und Q A − b′ I Q = ′ 2 Q. b b −2 1 1 1 Tr LT Q A − b′ I QL = ′ 2 Tr LT QL = ′ 2 Tr LT QQT L = ′ 2 kQLk2F b b b 16 (2.17) und 2 kQLk2F kQLk2F kQLk2F ′ kQLkF + = b−b =δ . ∆ =− b b′ bb′ bb′ Q Setzen wir dies in (2.17) ein, so ergibt sich kQLk2F kQLk2F kLk22 ≤ δ bb′ b′ 2 kQLk2F kLk22 +δ δ bb′ was äquivalent ist zu kLk22 ≤ δ kQLk2F , b wie in den Voraussetzungen des Lemmas gefordert. 17 ! 18 Kapitel 3 Graphen 3.1 Vorbemerkung Graphen sind einfache und zugleich höchst komplexe Gebilde, die in den meisten Bereichen der Technik und der Naturwissenschaften eine Rolle spielen. In der Informatik lassen sich viele algorithmische Probleme auf Graphen zurückführen, beispielsweise im Bereich der Datenkompression oder in der Bildverarbeitung. Auch in der Physik und Chemie dienen Graphen unter anderem zur Modellierung von elektrischen Netzwerken oder Molekülen. Klassische“ ” graphentheoretische Probleme reichen vom Königsberger Brückenproblem von Leonhard Euler, dem Problem des kürzesten Weges zwischen zwei Punkten in einem Straßennetz und dem Problem des Handlungsreisenden, der die kürzeste Rundreise durch alle Ecken eines Graphen finden muss, bis hin zum Färben von Landkarten und dem damit verbundenen Vier-FarbenSatz. Überraschenderweise können die meisten wichtigen Eigenschaften eines Graphen aus dem Spektrum seiner zugehörigen Matrizen abgelesen werden. Diese Zusammenhänge werden in der spektralen Graphentheorie untersucht, mit deren Grundlagen wir uns in diesem Kapitel beschäftigen. Dabei orientieren wir uns im Wesentlichen an [8]. Definition 3.1.1. Ein endlicher Graph G(V, E) besteht aus einer Menge an Knoten V = {v1 , v2 , ...vn } und einer Menge an Kanten E = {e1 , ..., em } wobei E ∋ e = (u, v) mit u, v ∈ V . Ein Graph heißt ungerichtet, falls wir für alle u, v ∈ V die Kanten e = (u, v) und f = (v, u) miteinander identifizieren. Ein Graph ist schlingenfrei, falls für alle e = (u, v) ∈ E gilt, dass u 6= v. Desweiteren können wir die Kanten des Graphen mit unterschiedlichen Gewichten belegen: Definition 3.1.2. Ein gewichteter Graph G(V, E, w) ist ein Graph G(V, E) mit einer Gewichtsfunktion w(u, v) : V × V → R+ 0 , die für alle u, v ∈ V folgende Eigenschaften erfüllt: 1. w(u, v) = w(v, u) 2. w(u, v) = 0 ⇔ (u, v) ∈ /E Manchmal bezeichnen wir das Gewicht der Kante e = (u, v) auch mit we oder wuv . Lassen wir für w nur die Werte 0 und 1 zu, erhalten wir einen ungewichteten Graphen. 19 Abbildung 3.1: Ein Graph 1 . 3.2 Begriffe, Definitionen und Laplace-Matrix Wir betrachten im Folgenden ausschließlich endliche Graphen und werden uns hauptsächlich mit ungerichteten, schlingenfreien Graphen auseinandersetzen. Definition 3.2.1. Sei G(V, E) ein Graph, u, v ∈ V und e ∈ E. 1. Der Grad von v ist definiert als dv := X we . e∈E e∋v 2. Der Knoten v heißt isoliert, wenn dv = 0. 3. Die Knoten u und v heißen adjazent, wenn es eine Kante e gibt mit e = (u, v) und wir schreiben dafür u ∼ v. 4. Der Knoten v inzidiert mit e, falls v ∈ e. 5. G heißt nicht trivial, falls E 6= ∅. 6. G heißt k-regulär, falls G ungewichtet ist und für alle v ∈ V gilt dv = k. P 7. Das Volumen von G ist definiert als vol(G) := v∈V dv . 8. G enthält einen uv-Pfad Puv , falls ein Puv ⊂ E existiert mit Puv = {(xi , xi+1 )|i = 0, ..., k ∧ x0 = u, xk = v ∧ xi 6= xj für alle i 6= j} 1 Quelle: http://cs-www.cs.yale.edu/homes/spielman/sgta/SpecTut.pdf 20 9. G heißt zusammenhängend, falls V 6= ∅ und für alle u, v ∈ V ein uv-Pfad in E existiert. 10. Der Abstand zweier Knoten u und v ist definiert als X distG (u, v) := min we , Puv e∈Puv falls das Minimum existiert. Ansonsten definieren wir distG (u, v) := ∞. 11. Der Durchmesser von G ist definiert als diamG := max {distG (u, v)} . u,v 12. G heißt bipartit, falls V1 und V2 ⊂ V existieren, sodass V1 ∩ V2 = ∅, V = V1 + V2 und ∀i ∄ a, b ∈ Vi : a ∼ b. Definition 3.2.2. Die Adjazenzmatrix AG eines gewichteten Graphen G(V, E, w) ist definiert als ( wuv falls u ∼ v AG (u, v) = 0 sonst. Mit DG bezeichnen wir die Grad-Matrix von G. Dies ist jene Diagonalmatrix, die als Eintrag an der Stelle (u, u) den Grad des Knotens u bsitzt: DG (u, u) = du = X AG (u, v) v Definition 3.2.3. Die Inzidenzmatrix CG eines gerichteten Graphen G ist definiert als wobei x ∈ V . 1 CG (u, e) = −1 0 falls (u, x) = e falls (x, u) = e sonst, Bemerkung 3.2.4. Wir werden diese Definition auch für ungerichtete Graphen übernehmen. In diesem Fall bezeichnen (u, v) und (v, u) dieselbe Kante e. Wir verlangen deshalb nur, dass entweder CG (u, e) = 1 ∧ CG (v, e) = −1 oder CG (u, e) = −1 ∧ CG (v, e) = 1 ist, die Matrix CG also für alle Spalten die Spaltensumme 0 besitzt. Definition 3.2.5. Die Laplace-Matrix LG eines Graphen ist definiert als du LG (u, v) = DG − AG = −wuv 0 21 falls u = v falls u ∼ v sonst. Abbildung 3.2: Die Graphen C4 , K5 , P5 , und S4 . −1/2 −1/2 Die normierte Laplace-Matrix LG ist definiert über LG = DG LG DG , wobei wir im Fall −1 du = 0 den entsprechenden Eintrag DG (u, u) gleich null setzen. Es gilt −1/2 LG = D G −1/2 LG D G −1/2 = I − DG −1/2 AG DG . Komponentenweise erhalten wir dann für einen gewichteten (auch nicht-schlingenfreien) Graphen wvv 1 − dv falls u = v falls u ∼ v LG (u, v) = − √wduvd u v 0 sonst , für einen ungewichteten, schlingenfreien im Speziellen falls u = v 1 1 falls u ∼ v LG (u, v) = − √d d u v 0 sonst. Wir werden uns im Folgenden, sofern nicht anders angegeben, auf ungewichtete und schlingenfreie Graphen beschränken, da sie formal und intuitiv besser hand zu haben sind. Alle Überlegungen lassen sich jedoch direkt auf gewichtete Graphen übertragen. Desweiteren verzichten wir auf die Indizierung der Matrizen, falls der Bezugsgraph klar ist. Beispiel 3.2.6. Wir führen einige wichtige Graphen auf n Knoten an: 1. Der vollständige Graph Kn : E = {(u, v) : u 6= v} 2. Der Sternengraph Sn : E = {(1, u) : 2 ≤ u ≤ n} 3. Der Pfad Pn : E = {(u, u + 1) : 1 ≤ u < n} 4. Der Kreis Cn : E = {(u, u + 1) : 1 ≤ u ≤ n} ∪ (n, 1) Ist G ein k-regulärer Graph, so gilt L = kI − A und L= 1 1 L=I− A k k 22 Sei nun f eine Funktion, die von der Knotenmenge V in die reellen Zahlen abbildet. Wir nennen ein solches f eine Knotenfunktion. Klarerweise lässt sich jede Knotenfunktion mit einem Vektor aus Rn identifizieren und L kann als Operator auf dem Raum der Knotenfunktionen betrachtet werden. Für den Operator L angewandt auf f erhalten wir dann X f (v). Lf (u) = du · f (u) − v u∼v Da P {v:u∼v} 1 = du gilt, ist dies äquivalent zu X v u∼v (f (u) − f (v)). Analog gilt für die normierte Laplace-Matrix 1 X f (u) f (v) √ −√ Lf (u) = √ . du v du dv u∼v Um die nachfolgenden Rechnungen einfacher zu gestalten setzen wir vi = i für alle vi ∈ V . Die von L mit dem euklidischen Skalarprodukt erzeugte quadratische Form lässt sich dann schreiben als X X (g(i) − g(j)) hg, Lgi = g(i) i = XX i = X j i∼j i∼j = X i∼j j i∼j (g(i))2 − g(i)g(j) (g(i))2 − g(i)g(j) + (g(j))2 − g(j)g(i) (g(i) − g(j))2 . Analog gilt für die normierte Laplace-Matrix hg, Lgi = 3.3 X g(i) i∼j di g(j) − dj 2 . Eigenwerte und Eigenvektoren Satz 3.3.1. Sei C die Inzidenzmatrix des Graphen G und S := D−1/2 C. Dann lässt sich die Laplace-Matrix von G darstellen als L = CC T , (3.1) L = SS T . (3.2) die normierte Laplace-Matrix als 23 Beweis. Es ist (CC T )(u, v) = X C(u, e)C T (e, v) e∈E = X C(u, e)C(v, e). e∈E Sei nun u 6= v. Der Ausdruck C(u, e)C(v, e) ist genau dann ungleich 0, wenn u ∈ e und v ∈ e ist, also e = (u, v) gilt. In diesem Fall ist C(u, e) = 1 und C(v, e) = −1 oder umgekehrt, in jedem Fall ist C(u, e)C(v, e) = −1. Da der Graph keine mehrfachen Kanten besitzt, kann dies höchstens bei einem Summanden der Fall sein, somit ist (CC T )(u, v) = −1 falls u ∼ v und 0 sonst. Für den Fall u = v erhalten wir X (CC T )(u, u) = (C(u, e))2 = du . e∈E Insgesamt haben wir also du falls u = v T (CC )(u, v) = −1 falls u ∼ v 0 sonst, was genau der Definition von L entspricht. Für die normierte Laplace-Matrix gilt L = D−1/2 LD−1/2 = D−1/2 CC T D−1/2 = SS T . Bemerkung 3.3.2. Für einen gewichteten Graphen müssen wir in dieser Darstellung noch die Kantengewichte berücksichtigen. In diesem Fall gilt mit der Diagonalmatrix W definiert über W (e, e) = we L = CW C T = (CW 1/2 )(CW 1/2 )T . Aus dieser Darstellung folgt wegen Punkt 1 in Lemma 1.1.1, dass L und L symmetrische, positiv semidefinite Matrizen sind. Für ihre Eigenwerte und Eigenvektoren gilt damit: 1. Alle Eigenwerte sind reell und nichtnegativ. 2. Ist λ ein k-facher Eigenwert, so spannen die zu λ gehörigen Eigenvektoren einen kdimensionalen Unterraum des Rn auf. Sei f := D−1/2 g. Ist g eine Eigenfunktion von L, so heißt f eine harmonische Eigenfunktion. In unserem Fall gilt dann mit Satz 1.1.8 −1/2 g, D−1/2 LD−1/2 g D g, LD−1/2 g hg, Lgi = = RL (g) = hg, gi hg, gi hg, gi P 2 (f (u) − f (v)) hf, Lf i P = . = u∼v 2 hDf, f i v (f (v)) dv Wir werden uns nun im nächsten Kapitel genauer mit der Struktur des Spektrums von Graphen beschäfigen. 24 3.4 Grundlegende Eigenschaften des Spektrums eines Graphen Offensichtlich gilt für den kleinsten Eigenwert λ1 = min RL (f ) f P (f (u) − f (v))2 u∼v P = min 2 f v (f (v)) dv = 0. Dieses Minimum wird auf jeden Fall für konstantes f angenommen. Damit sind f1 = 1 und g1 = D1/2 1 eine zugehörige harmonische Eigenfunktion beziehungsweise Eigenfunktion. Für den nächsten Eigenwert gilt λ2 = = min RL (f ) = min RL (f ) = g⊥D 1/2 1 P min f : v f (v)dv =0 P f ⊥D1 RL (f ) P min f : v f (v)dv =0 − f (v))2 . 2 v (f (v)) dv (f (u) u∼v P Analog erhalten wir für den k-ten Eigenwert λk = min f ⊥DPk−1 RL (f ), wobei Pk−1 den von den ersten k −1 harmonischen Eigenfunktionen f1 , ...fk−1 aufgespannten Unterraum bezeichne. Wir werden nun die Struktur der Spektren einiger spezieller Graphen genauer untersuchen. Satz 3.4.1. Der vollständige Graph Kn besitzt die Eigenwerte 0 und 1 beziehungsweise n − 1. n n−1 mit Vielfachheiten Beweis. Wegen vorhergehender Überlegung ist λ1 = 0. Da alle Knoten miteinander verbunden sind folgt induktiv, dass es keine weitere von f1 = 1 linear unabhängige harmonische Eigenfunktion geben kann. Die normalisierte Laplace-Matrix besitzt die Form ( 1 falls u = v LKn (u, v) = 1 sonst. n−1 Ist f orthogonal zur Einsfunktion 1, so ist X f (v) = 0 X g(v) = 0. v und damit auch v 25 (3.3) Es gilt für alle Knoten u LKn f (u) = LKn D−1/2 g(u) 1 LKn g(u) =√ n−1 X 1 g(u) − 1 g(v) . =√ n−1 n−1 v6=u Weiters ist LKn g(u) = n 1 X n g(u) − g(u), g(v) = n−1 n−1 n−1 v∈V wobei die letzte Gleichheit aus (3.3) folgt. Da wir lediglich f ⊥1 vorausgesetzt haben folgt, n . dass für alle 2 ≤ i ≤ n gilt λi = n−1 Lemma 3.4.2. Sei G ein Graph mit n Knoten. Dann gilt n X i=1 λi ≤ n mit Gleichheit genau dann wenn G keine isolierten Knoten besitzt. Beweis. Mit Proposition 1.1.3 gilt für die Spur von L Tr (L) = n X i=1 L(i, i) = n X λi . i=1 P Da L(i, i) ∈ {0, 1} folgt ni=1 λi ≤ n. Es gilt L(i, i) = 0 genau dann, wenn di = 0. Damit ist L(i, i) 6= 0 für alle i = 1, ..., n genau dann, wenn G keine isolierten Knoten besitzt. Lemma 3.4.3. Sei n ≥ 2. Dann gilt für den Eigenwert λ2 λ2 ≤ n n−1 mit Gleichheit genau dann, wenn G der vollständige Graph ist. Falls G keine isolierten Knoten besitzt, gilt außerdem n . λn ≥ n−1 Beweis. Sei n λ := 1 X λi . n−1 i=2 Wegen 0 = λ1 ≤ λ2 ≤ ... ≤ λn und dem vorigen Lemma gilt n λ2 ≤ n 1 X . λi = λ ≤ n−1 n−1 i=2 26 Gleichheit gilt genau dann, wenn λi = λ2 für alle i ≥ 2 ist und G keine isolierten Knoten besitzt. Das bedeutet aber, dass G der vollständige Graph ist. Falls G keine isolierten Knoten besitzt, gilt außerdem λn−1 = P i λi = n und damit n−1 n λn−1 ≥ λ = . n−1 n−1 Lemma 3.4.4. Falls G nicht vollständig ist, gilt λ2 ≤ 1. Beweis. Sei G nicht vollständig. Dann existieren a, b ∈ V mit a ≁ b. Wir definieren db fe(v) := −da 0 falls v = a falls v = b sonst. Diese Funktion steht offensichtlich orthogonal auf D1. Damit gilt λ2 = min RL (f ) ≤ RL (fe) = f ⊥D1 db (−da )2 + da d2b = 1. = 2 db da + (−da )2 db P u∼v P fe(u) − fe(v) e v (f (v)) 2d v 2 Lemma 3.4.5. Falls λi = 0 und λi+1 6= 0, so hat G genau i + 1 Zusammenhangskomponenten. Insbesondere ist für einen zusammenhängenden Graphen λ2 > 0. Beweis. Es gilt RL (f ) = 0 genau dann, wenn X u∼v (f (u) − f (v))2 = 0 (3.4) ist. Um (3.4) zu erreichen, muss f zumindest auf jedem zusammenhängenden Teilgraphen, also auf jeder Zusammehangskomponente konstant sein. Besitzt der Graph k Zusammenhangskomponenten, so gibt es genauso viele (linear unabhängige) Eigenfunktionen zum Eigenwert 0. Offensichtlich zerfallen in diesem Fall (bei geeigneter Nummerierung der Knoten) L und L in Blockdiagonalmatrizen mit k Blöcken. Damit ist das Spektrum der Vereinigung disjunkter Graphen gleich der Vereinigung ihrer Spektren. Da jede Zusammenhangskomponente 0 mit Vielfachheit 1 als Eigenwert besitzt, folgt die Behauptung. Lemma 3.4.6. Sei 1 ≤ i ≤ n. Dann gilt λi ≤ 2 mit Gleichheit genau dann, wenn G nichttrivial ist und eine bipartite Zusammenhangskomponente besitzt. 27 Beweis. Mit (a − b)2 ≤ 2(a2 + b2 ) gilt P (f (u) − f (v))2 P λn = max u∼v 2 f v (f (v)) dv P 2 u∼v (f (u))2 + (f (v))2 P ≤ max 2 f v (f (v)) dv P (f (v))2 dv 2 = max P v = 2. 2 f v (f (v)) dv Gleichheit gilt genau dann, wenn (f (u) + f (v))2 = 0 ist, was wiederum äquivalent ist zu f (u) = −f (v) für alle u ∼ v. Es folgt sofort aus Definition 3.2.1, dass dies nur für einen bipartiten Graphen möglich ist. Lemma 3.4.7. Sei G ein bipartiter Graph. Ist λi Eigenwert von G, so ist auch 2 − λi Eigenwert von G. Beweisskizze. Sei f eine harmonische Eigenfunktion von G zum Eigenwert λ und V1 bzw. V2 die Teilmengen von V aus Definition 3.2.1 mit r bzw. s Knoten. Wir definieren die Funktion fe über ( f (x) falls x ∈ V1 fe(x) := −f (x) falls x ∈ V2 . Die Adjazenzmatrix eines bipartiten Graphen besitzt die Form 0r×r Br×s A= T 0s×s . Br×s Mit L = I − D−1/2 AD−1/2 folgt daraus durch direktes Nachrechnen, dass fe harmonische Eigenfunktion zum Eigenwert 2 − λ ist. Mit folgendem Lemma verbessern wir die untere Abschätzung für λ2 : Lemma 3.4.8. Sei G zusammenhängend. Dann gilt λ2 ≥ 1 . diam(G) vol(G) Beweis. Sei f jene harmonische Eigenfunktion, P für die RL (f ) = λ2 gilt. Sei weiters v0 ∈ V so, dass |f (v0 )| = maxv |f (v)|. Da hf, 1i = v f (v) = 0 ist, existiert ein u0 ∈ V sodass f (u0 )f (v0 ) < 0. Sei P ein minimaler Pfad, der u0 und v0 verbindet. Damit gilt P P 2 2 (x,y)∈P (f (x) − f (y)) x∼y (f (x) − f (y)) P . λ2 = ≥ 2 vol(G)(f (x))2 x (f (x)) dx 28 Für den Ausdruck im Zähler gilt mit der Cauchy-Schwarz-Ungleichung X (x,y)∈P (f (x) − f (y))2 = X (x,y)∈P ≥ X (x,y)∈P 1 p |P | !2 X (x,y)∈P (f (x) − f (y))2 2 1 p (f (x) − f (y)) |P | 1 (f (u0 ) − f (v0 ))2 . = |P | Da diam(G) ≥ |P |, (f (u0 ))2 ≥ 0 und f (u0 )f (v0 ) < 0 ist, folgt weiter X (x,y)∈P (f (x) − f (y))2 ≥ 1 (f (v0 ))2 . diam(G) Insgesamt erhalten wir also (f (v0 ))2 1 diam(G) vol(G)(f (v0 ))2 1 = . diam(G) vol(G) λ2 ≥ Lemma 3.4.9. Sei f harmonsiche Eigenfunktion zum Eigenwert λ2 . Dann gilt für alle u ∈ V 1 X (f (u) − f (v)) = λ2 f (u). du v v∼u Beweis. Sei g = D1/2 f . Dann ist g Eigenfunktion zu λ2 , also Lg = λ2 g. Es gilt 1 X (f (u) − f (v)) Lg(u) = LD1/2 f (u) = √ du v v∼u und λ2 g(u) = λ2 D1/2 f (u) = λ2 also insgesamt p du f (u), p 1 X √ (f (u) − f (v)) = λ2 du f (u). du v v∼u Daraus folgt unmittelbar die Behauptung. Für k-reguläre Graphen lässt sich diese Abschätzung noch wesentlich verbessern: 29 Lemma 3.4.10. Sei G k-regulär mit n Knoten. Dann gilt s max |1 − λi | ≥ i>1 n−k . (n − 1)k Beweis. Wir stellen die Spur der Matrix (I − L)2 auf zwei verschiedene Arten dar: Einerseits gilt mit λ1 = 0 Tr (I − L)2 = n X i=1 (1 − λi )2 =1+ n X i=2 (1 − λi )2 ≤ 1 + (n − 1)(max |1 − λi |)2 . i>1 Andererseits haben wir wegen L = I − k1 A, der Symmetrie und Definition von A und der k-Regularität von G 2 1 1 Tr (I − L) = Tr A = 2 Tr A2 k k 1 X A(x, y)A(y, x) = 2 k x,y 1 X = 2 [A(x, y)]2 k x,y 1 X = 2 A(x, y) k x,y 1 XX = 2 A(x, y) k x y 2 x∼y 1 X k = 2 k x = 1 n (n · k) = . 2 k k Insgesamt erhalten wir also 1 + (n − 1)(max |1 − λi |)2 ≥ i>1 n k und nach Umformung (max |1 − λi |)2 ≥ i>1 woraus die Behauptung folgt. 30 n−k , (n − 1)k Bemerkung 3.4.11. Für allgemeine Graphen gilt immerhin noch die Abschätzung n k 2 1 + (n − 1)(max |1 − λi |) ≥ −1 1 − (1 + max |1 − λi |) i>1 i>1 dH dH P P Mit dem harmonischen Mittel d1H := n1 v d1v und dem arithmetischen Mittel k = n1 v dv der Knotengrade. 3.5 Random Walks auf Graphen Definition 3.5.1. Unter einem Weg in einem Graphen G verstehen wir eine Folge von Knoten (v0 , ..., vs ) mit (vi−1 , vi ) ∈ E für alle 1 ≤ i ≤ s. Ein Zufallsweg oder Random Walk ist bestimmt durch die Übergangswahrscheinlichkeiten ( 1 falls u ∼ v P (u, v) = P(xi+1 = v|xi = u) = du 0 sonst, die Matrix P heißt Übergangsmatrix. Es gilt P = AD−1 = D1/2 (I − L)D−1/2 . Also sind P = AD−1 und I −L ähnlich und besitzen damit die gleichen Eigenwerte. Diese Beziehungen gelten offensichtlich auch für gewichtete Graphen und Graphen mit Schlingen. Für jede P Anfangsverteilung f0 : V → R mit v f (v) = 1 sind die ersten k Schritte des Random Walk f1 = P f0 f2 = P f1 = P 2 f0 ... fk = P k f0 . Wir interessieren uns nun für die stationäre Verteilung π(v). Dies ist jene Verteilung, die lim P s (v)f = π(v) s→∞ (3.5) erfüllt. Falls sie existiert, ist sie (der auf 1 normierte) Eigenvektor zum Eigenwert 1: P π = lim P (P s f ) = lim P s+1 f = π s→∞ s→∞ Ein Random Walk, der eine eindeutige, stationäre Verteilung besitzt heißt ergodisch. Notwendige und hinreichende Bedingungen dafür sind 1. Irreduzibilität: ∀u, v ∈ V ∃s ∈ N : P s (u, v) > 0 und 2. Aperiodizität: ∀u, v ∈ V : gcd{s : P s (u, v) > 0} = 1. Ersteres bedeutet, dass jeder Punkt des Graphen erreichbar ist. Die zweite Bedingung stellt sicher, dass die Rückkehr in einen Zustand nach jeder Anzahl von Schritten und nicht nur in Vielfachen von k ≥ 2 Schritten möglich ist. Auf Graphen übertragen sind diese Bedingungen äquivalent dazu, dass der Graph zusammenhängend und nicht bipartit ist (bipartite Graphen besitzen gerade Periodizität). 31 Lemma 3.5.2. Für die stationäre Verteilung eines zusammenhängenden, nicht bipartiten 1 Graphen gilt π = vol(G) D1. Beweis. Die stationäre Verteilung existiert wegen obiger Bemerkung. Wir können sie somit 1 D1, da als normierten Eigenvektor zum Eigenwert 1 berechnen. Dies ist aber genau vol(G) P P D1 = AD−1 D1 = A1 = P v v A(v, 1) d1 .. .. = . = D1. . A(v, n) dn Wir zeigen nun, dass für k hinreichend groß P k f für jede Anfangsverteilung f gegen π konvergiert und geben eine Schranke für die Konvergenzgeschwindigkeit an. Zunächst verwenden wir die euklidische Norm. Seien φ1 , ..., φn ein System von orthonormalen Eigenfunktionen zu P −1/2 −1/2 λ1 , ..., λn . Wir stellen D f in dieser Basis dar und definieren D f := i ai φi . Es ist φ1 = √ 1 D1/2 1 und damit vol(G) −1/2 D f, D1/2 1 hf, 1i 1 =p =p , a1 = D1/2 1 vol(G) vol(G) 2 P da v f (v) = 1 ist. Für den Abstand zur stationären Verteilung nach dem s-ten Schritt gilt damit und unter Verwendung der Spektraldekomposition von I − L s 1 s kP f − πk = P f − vol(G) D1 = P s f − D1/2 a1 φ1 = D1/2 (I − L)s D−1/2 f − D1/2 a1 φ1 1/2 X T s −1/2 1/2 f − D a 1 φ 1 . = D ( (1 − λi )φi φi ) D i Da die φi eine Orthonormalbasis sind, gilt in der Cauchy-Schwarz-Ungleichung Gleichheit und weiter ! X = D1/2 (1 − λi )s φi φTi D−1/2 f − D1/2 a1 φ1 . i Mit λ1 = 0 folgt X 1/2 T −1/2 1/2 s T −1/2 1/2 = D φ 1 φ 1 D f +D (1 − λi ) φi φi D f − D a1 φ1 i≥1 X 1 1/2 T 1/2 s T −1/2 1/2 p D φ1 1 f + D (1 − λi ) φi φi D f − a 0 φ 0 D . = vol(G) i≥2 32 Nun kürzen sich der erste und letze Summand dieses Ausdrucks, da 1T f = 1 und a1 = √ 1 ist. Somit erhalten wir weiter mit φTi φj = δij , der Dreiecksungleichung und der vol(G) Definition der Spektralnorm X s 1/2 s T −1/2 (1 − λi ) φi φi D kP f − πk = f D i≥2 X X 1/2 s T = D (1 − λi ) φi φi aj φj j i≥2 1/2 X s (1 − λi ) ai φi = D i≥2 X 1/2 s ≤ max |1 − λi | ai φi D i≥2 i≥2 ≤ max |1 − λi |s kf kD−1/2 D1/2 i≥2 √ s maxx dx p = max |1 − λi | i≥2 miny dy √ ′ s maxx dx p , ≤ (1 − λ ) miny dy wobei λ′ := Aus der Abschätzung ex ≤ Nach s ≥ ε. 1 λ′ log √ maxx √dx ε miny dy ( λ1 2 − λn falls 1 − λ2 ≥ λn − 1 sonst. ′ 1 1−x für x < 1 folgt (1 − λ′ )s ≤ e−sλ und damit insgesamt √ s −sλ′ maxx dx p . (3.6) kP f − πk ≤ e miny dy Schritten beträgt der L2 Abstand von f P s zu π also maximal Bemerkung 3.5.3. Obwohl diese Abschätzung von λ′ und somit von λ2 und λn abhängt, ist in gewissem Sinne nur λ2 für die Konvergenzgeschwindigkeit relevant: Sei λ′ = 2 − λn . Wir betrachten einen Lazy Random Walk, bei dem die Wahrscheinlichkeit in einem Knoten zu verbleiben 12 beträgt. Um dem Rechnung zu tragen, modifizieren wir unseren Graphen G, indem wir in jedem Knoten u eine Schlinge mit Gewicht du hinzufügen. Der modifizierte ek = λk /2 ≤ 1 (siehe [8, S. 16]). Damit ist 1 − λ e2 ≥ Graph G′ besitzt dann die Eigenwerte λ e 1 − λn ≥ 0 und wir erhalten als Konvergenzschranke für den Lazy Random Walk √ ! maxx dx 2 p log . s≥ λ2 ǫ miny dy 33 Die L2 -Norm ist allerdings in vielen Anwendungen zu schwach, da keine punktweise Konvergenz nötig ist. Deshalb verwenden wir für eine weitere Abschätzung den relativen punktweisen Abstand zur stationären Verteilung. Nach s Schritten ist dieser gegeben durch ∆(s) := max x,y |P s (x, y) − π(x)| . π(x) Analog zum Koordinatenvektor im Einführungskapitel ist die Koordinatenfunktion χx : V → {0, 1} definiert über ( 1 falls x = y χx (y) := 0 sonst. Wir verwenden nun wie vorher die Eigenfunktionen φi von L als Orthonormalbasis und schreiben X D1/2 χx = αi φ i i D −1/2 χy = X β j φj . j Die Koeffizienten α1 und β1 berechnen sich zu 1/2 D χx , D1/2 1 dx =p α1 = 1D1/2 vol(G) −1/2 1/2 D χ ,D 1 1 y =p . β1 = 1D1/2 vol(G) Für den relativen punktweisen Abstand gilt damit analog zu voriger Abschätzung T t χx P χy − π(x) ∆(t) = max x,y π(x) T 1/2 χx D (I − L)t D−1/2 χy − π(x) = max x,y π(x) P t i≥2 (1 − λi ) αi βi ≤ max x,y dx / vol(G) P t i≥2 |αi βi | ≤ max |1 − λi | max x,y dx / vol(G) i≥2 1/2 −1/2 t D χ x · D χy ≤ max |1 − λi | max x,y i≥2 dx / vol(G) und weiter, da kχx k = kχy k = 1 und mit λ′ definiert wie oben √ vol(G) dx ′ t p ≤ 1 − λ max x,y dx dy vol(G) t p = 1 − λ′ minx,y dx dy ′ vol(G) . ≤ e−tλ minx dx 34 Wir erreichen also nach 1 t ≥ ′ log λ vol(G) ǫ minx dx Schritten einen relativen punktweisen Abstand, der kleiner ǫ ist. 35 36 Kapitel 4 Spectral Sparsification 4.1 Graph Sparsification In diesem Kapitel geht es darum, einen Graphen G durch einen ausgedünnten Graphen möglichst gut zu approximieren. Wir wollen einen Graphen H konstruieren, der viele Eigenschaften von G erhält, gleichzeitig aber möglichst wenig Kanten enthält. Dieser Vorgang wird graph sparsification genannt, H ist ein sparsifier für G. Aus dem letzten Kapitel wissen wir, dass das Spektrum eines Graphen die wichtigste Informationsquelle über den Graphen ist. Somit ist es ein natürlicher Ansatz, bei der Konstruktion von H darauf zu achten, dass sich die Eigenwerte der Laplace-Matrix so wenig wie möglich verändern. Unser eigentliches Problem ist also in der linearen Algebra angesiedelt: Wir wollen die Laplace-Matrix von G durch eine Matrix von geringem Rang möglichst gut annähern. Dazu betrachten wir noch einmal die Laplace-Matrix LG genauer. Sei wieder χu (v) = δuv für alle Knoten u, v ∈ VG und χu − χv := χuv . Dann können wir LG darstellen als X X wuv χuv χTuv , wuv (χu − χv ) (χu − χv )T = LG = (u,v)∈E (u,v)∈E also als Summe von äußeren Produkten, die wir mit den Kanten von G identifizieren können. Allgemein formuliert betrachten wir eine positiv-semidefinite Matrix A mit Rang n, dargestellt als Summe von Rang-1 Matrizen A= m X wi wiT , i=1 wobei m sehr viel größer als n sein kann. Unser Ziel ist, die Zahl m wesentlich zu reduzieren. Den ersten Schritt können wir bereits mir Hilfe des Spektralsatzes machen: Sind λi und ui die Eigenwerte und Eigenvektoren von A, so lässt sich A darstellen als A= m X wi wiT = n X λi ui uTi , i=1 i=1 das heißt als gewichtete Summe von nur n äußeren Produkten, die aber gleichzeitig die untere Grenze für eine exakte Darstellung ist. Der folgende Satz zeigt uns jedoch, dass und wie wir die Anzahl noch weiter reduzieren können, ohne allzuviel Informationen zu verlieren. 37 4.2 Spectral Sparsification Theorem P T Satz 4.2.1 (Spectral Sparsification, [34]). Sei 0 < ǫ < 1, m ∈ N und A := m i=1wi wi mit wi ∈ Rn . Dann gibt es nichtnegative Gewichte {si }i≤m von denen höchstens ǫn2 ungleich Null sind und es gilt 2 (1 − ǫ) A ≤ m X i=1 si wi wiT ≤ (1 + ǫ)2 A. Tatsächlich ist es ausreichend, den Fall A = I zu betrachten. Deshalb werden wir mit folgender Formulierung weiterarbeiten, von der wir im Anschluss gleich zeigen werden, dass sich Satz 4.2.1 daraus ableiten lässt: P T Satz 4.2.2. Seien d > 1, v1 , · · · , vm ∈ Rn mit m i=1 vi vi = I. Dann gibt es si ∈ R mit |{i : si 6= 0}| ≤ dn sodass √ m X d+1+2 d T √ I si v i v i ≤ I≤ (4.1) d+1−2 d i=1 gilt. P T Beweis von Satz 4.2.1. Sei A := m i=1 wi wi und habe o.B.d.A. vollen Rang. Wir definieren vi := A−1/2 wi und erhalten daraus aufgrund der Symmetrie von A X X vi viT = A−1/2 wi wiT A−1/2 = I. (4.2) i≤m i≤m Somit erfüllen die Vektoren vi die Voraussetzungen von n Satz 4.2.2. Setzen wir weiters d = so erhalten wir Skalare si ≥ 0, von denen maximal ǫ2 ungleich Null sind und für die √ m X d+1+2 d (1 + ǫ)2 T √ I= si v i v i ≤ I≤ I (1 − ǫ)2 d+1−2 d i=1 gilt. Multiplikation mit (1 − ǫ)2 liefert uns (1 − ǫ)2 I ≤ e = (1 − ǫ) Mit A 2P T i si w i w i m X i=1 (1 − ǫ)2 si vi viT ≤ (1 + ǫ)2 I. erhalten wir (1 − ǫ)2 I ≤ (1 − ǫ)2 m X i=1 woraus sich genau wie gewünscht 1−ǫ e −1/2 ≤ (1 + ǫ)2 I, si A−1/2 wi wiT A−1/2 = A−1/2 AA 2 A≤ m X i=1 si wi wiT ≤ 1 + ǫ2 A ergibt. 38 1 , ǫ2 Wir beweisen nun Satz 4.2.2. Dazu erinnern wir zunächst noch an Korollar 1.1.10, was eine Folgerung aus dem Cauchy Interlacing Theorem (Satz 1.1.9) war: Korollar 4.2.3. Sind v ∈ Rn , λ1 , · · · , λn die Eigenwerte der n × n Matrix A und µ1 , · · · , µn jene der Matrix A + vv T , so gilt λ1 ≤ µ1 ≤ λ2 ≤ · · · ≤ µn−1 ≤ λn ≤ µn P Desweiteren halten wir fest, dass mit A := i si vi viT (4.1) äquivalent dazu ist, dass für alle Eigenwerte λi von A gilt √ d+1+2 d √ . 1 ≤ λi ≤ d+1−2 d Dies folgt klarerweise aus √ d+1+2 d √ . λmin (A) ≥ 1 und λmax (A) ≤ d+1−2 d (4.3) Um Satz 4.2.2 zu beweisen, werden wir die Matrix A in einzelnen Schritten iterativ bauen, indem wir in jedem Schritt einen Term der Form si vi viT hinzuaddieren. Als Steuerung für den Iterationsprozess werden uns zwei Potentialfunktionen dienen: Definition 4.2.4. Seien u und l reelle Zahlen und A eine symmetrische Matrix mit den Eigenwerten λ1 , ..., λn . Wir definieren Φu (A) := Tr (uI − A)−1 = Φl (A) := Tr (A − lI) −1 = X i X i 1 (Oberes Potential) u − λi 1 (Unteres Potential), λi − l wobei sich die zweite Schreibweise aus Satz 1.1.2 und Proposition 1.1.3, Punkt 2 ergibt. Solange lI < A < uI ist, d.h. λmax (A) < u und λmin (A) > l, messen diese Funktionen die Entfernung der Eigenwerte von den Schranken u und l. Wir erhalten dadurch eine Folge von Matrizen 0 = A0 , A1 , ..., AQ und positive Konstanten u0 , l0 , δU , δL , ǫU , ǫL , von denen wir zeigen werden, dass sie die folgenden Bedingungen erfüllen: 1. Φu0 (A0 ) = ǫU und Φl0 (A0 ) = ǫL , 2. Aq+1 = Aq + tvv T für v ∈ {vi }i≤m und t ≥ 0, 3. Φu+δU (Aq+1 ) ≤ Φu (Aq ) ≤ ǫU für u = u0 + qδU , 4. Φl+δL (Aq+1 ) ≤ Φl (Aq ) ≤ ǫL für l = l0 + qδL und 5. λmax (Aq ) < u0 + qδU und λmin (Aq ) > l0 + qδL . 39 Sind diese Punkte erfüllt, wählen wir zum Abschluss die Konstanten noch derart, dass √ λmax d+1+2 2 √ ≤ λmin d+1−2 2 gilt. Die folgenden beiden Lemmata zeigen nun, wie wir die obere bzw. untere Schranke verschieben können, sodass tatsächlich alle obigen Bedingungen (insbesondere die zweite und die dritte Bedingung) gleichzeitig erfüllt sind. Das erste Lemma betrifft die obere Schranke. Verschieben wir u auf u + δU ohne die Matrix A zu verändern, so fällt das obere Potential, da sich die Eigenwerte nicht verändern. Dies gibt uns die Möglichkeit, einen Term der Form tvv T zu A zu addieren, der diesem Effekt entgegenwirkt. Analoges gilt für die untere Schranke. Die Lemmata quantifzieren nun, wie groß der jeweilige Faktor t sein darf, damit die Potentiale ihre ursprünglichen Werte nicht übersteigen. Lemma 4.2.5. Sei λmax (A) < u und v ∈ Rn . Ist v T ((u + δU ) I − A)−2 v 1 ≥ + v T ((u + δU ) I − A)−1 v =: UA (v) , t Φu (A) − Φu+δU (A) so gilt Φu+δU A + tvv T ≤ Φu (A) und λmax A + tvv T < u + δU . Beweis. Sei u′ = u + δU . Nach der Sherman-Morisson-Formel aus Lemma 1.1.11 mit den Vektoren v und tv gilt u′ I − A − tvv T Daraus folgt, dass −1 −1 (u′ I − A)−1 (tv)v T (u′ I − A)−1 = u′ I − A + . 1 − tv T (u′ I − A)−1 v −1 Φu′ A + tvv T = Tr u′ I − A − tvv T −1 −1 + u′ I − A = Tr u′ I − A −1 tvv T ′ uI −A . 1 − tv T (u′ I − A)−1 v Mit der Linearität der Spur ist dies weiter gleich T (u′ I − A)−1 (u′ I − A)−1 v tTr v −1 Tr u′ I − A + , 1 − tv T (u′ I − A)−1 v und mit Proposition 1.1.3, Punkt 1 äquivalent zu Φu′ (A) + tv T (u′ I − A)−2 v , 1 − tv T (u′ I − A)−1 v was wiederum gleich Φu (A) − (Φu (A) − Φu′ (A)) + 40 v T (u′ I − A)−2 v 1/t − v T (u′ I − A)−1 v ist. Wegen UA (v) > v T (u′ I − A) v ist aufgrund der Voraussetzung 1t ≥ UA (v) der letzte Ausdruck endlich. Desweiteren folgt durch einfaches Umformen, dass für jedes t, das dieser Bedingung genügt Φu+δU A + tvv T ≤ Φu (A) gilt. Außerdem folgt daraus, dass λmax A + tvv T < u′ ist. Wäre dies nämlich nicht der Fall, so gäbe es ein t′ ≤ t für das λmax A + t′ vv T = u′ wäre. Für ein solches t′ wäre aber Φu′ A + t′ vv T nicht mehr endlich im Widerspruch zu gerade Gezeigtem. Das nächste Lemma liefert uns ein analoges Resultat für die untere Schranke: Lemma 4.2.6. Sei λmin (A) > l, Φl (A) ≤ 1/δL und v ∈ Rn . Ist 0< 1 v T (A − (l + δL ) I)−2 v ≤ + v T (A − (l + δL ) I)−1 v =: LA (v) , t Φl+δL (A) − Φu (A) so gilt Φl+δL A + tvv T ≤ Φl (A) und λmin A + tvv T > l + δL . Beweis. Zunächst halten wir fest, dass aus λmin (A) > l und Φl (A) ≤ 1/δL folgt, dass 1 1 ≥ Φl (A) > δL λmin (A) − l und daraus λmin (A) > l + δL . Somit gilt also λmin A + tvv t > l + δL für jedes t > 0. Wir verfahren nun analog zum Beweis des vorigen Lemmas. Sei l′ = l + δL . Aus der ShermanMorisson-Formel mit den Vektoren (−v) und tv erhalten wir A + tvv T − l′ I Es folgt daraus −1 = A − l′ I −1 − (A − l′ I)−1 (tv)v T (A − l′ I)−1 . 1 + tv T (A − l′ I)−1 v −1 Φl′ A + tvv T = Tr A + tvv T − l′ I −1 −1 − A − l′ I = Tr A − l′ I −1 tvv T A − l′ I −1 1 + tv T (A − l′ I) v und wieder mit der Linearität der Spur und Proposition 1.1.3, Punkt 1 T (A − l′ I)−1 (A − l′ I)−1 v tTr v −1 = Tr A − l′ I − 1 + tv T (A − l′ I)−1 v = Φl′ (A) − tv T (A − l′ I)−2 v 1 + tv T (A − l′ I)−1 v = Φl (A) + (Φl′ (A) − Φl (A)) − v T (A − l′ I)−2 v . 1/t + v T (A − l′ I)−1 v Auch hier erhalten wir mittels einfachen Umformungen, dass aus t Φl+δL A + tvv ≤ Φl (A) folgt. 41 1 t ≤ LA (v) wie behauptet Wir müssen nun nur mehr sicherstellen, dass wir ein v ∈ {vi }i≤m finden können, auf das wir beide Lemmata gleichzeitig anwenden können. Das folgende Lemma zeigt uns, das dies tatsächlich möglich ist. Lemma 4.2.7. Sei λmax (A) < u, λmin (A) > l, Φu (A) ≤ ǫU , Φl (A) ≤ ǫL und ǫU , ǫL , δU und δL genügen 0≤ 1 1 + ǫU ≤ − ǫL . δU δL (4.4) Dann gibt es einen Index i und ein t > 0, für die LA (vi ) ≥ 1 ≥ UA (vi ) t und gilt. λmax A + tvi viT < u + δU , λmin A + tvi viT > l + δL Beweis. Wir zeigen, dass X i LA (vi ) ≥ X UA (vi ) i erfüllt ist. Dann folgt die Aussage aus geeigneter Wahl von i und t aus den vorhergehenden Lemmata. Zunächst ist mit dem ersten Teil von Lemma 1.1.6 ! X X v T ((u + δU ) I − A)−2 vi i UA (vi ) = + viT ((u + δU ) I − A)−1 vi Φu (A) − Φu+δU (A) i i ! P T X ((u + δU ) I − A)−2 ◦ −1 i vi vi T + ((u + δU ) I − A) ◦ vi vi = Φu (A) − Φu+δU (A) i P und mit dem zweiten Teil von Lemma 1.1.6, da i vi viT = I laut Voraussetzung Tr ((u + δU ) I − A)−2 + Tr ((u + δU ) I − A)−1 . = Φu (A) − Φu+δU (A) Setzen wir nun für Φ die Definition 4.2.4 ein, so ergibt sich aus Satz 1.1.2 und Proposition 1.1.3, Punkt 2 weiter P −2 i (u − δu − λi ) + Φu+δU (A) =P P −1 − i (u + δU − λi )−1 i (u − λi ) P −2 i (u − δu − λi ) + Φu+δU (A) = P δU i (u − λi )−1 (u + δU − λi )−1 und da (u − λi )−1 (u + δU − λi )−1 ≥ (u + δU − λi )−2 für alle i ≤ 1 1 1 + Φu+δU (A) ≤ + Φu (A) ≤ + ǫU . δU δU δU 42 Analog erhalten wir X i ! viT (A − (l + δL ) I)−2 vi −1 T LA (vi ) = − vi (A − (l + δL ) I) vi Φl+δL (A) − Φl (A) i ! P T X v v (A − (l + δL ) I)−2 ◦ i i i = − (A − (l + δL ) I)−1 ◦ vi viT Φl+δL (A) − Φl (A) X i P und mit Lemma 1.1.6 und i vi viT = I Tr (A − (l + δL ) I)−2 − Tr (A − (l + δL ) I)−1 . = Φl+δL (A) − Φl (A) Aus Definition 4.2.4, Satz 1.1.2 und Proposition 1.1.3, Punkt 2 folgt wiederum P −2 i (λi − l − δL ) − Φl+δL (A) =P P −1 − i (λi − l)−1 i (λi − l − δL ) Die letzte Abschätzung erfordert etwas extensivere algebraische Umformungen als im ersten Teil und wird deshalb erst am Ende des Abschnittes in Lemma 4.2.8 bewiesen. Es gilt damit dann P −2 i (λi − l − δL ) − Φl+δL (A) P δL i (λi − l − δL )−1 (λi − l)−1 X 1 1 ≥ − (λi − l)−1 = − ǫL . δL δL i Setzen wir dies nun zusammen, erhalten wir X X 1 1 + ǫU ≤ − ǫL ≤ LA (vi ) UA (vi ) ≤ δU δL i i wie gewünscht. Beweis zu Satz 4.2.2. Wir müssen nun nur noch ǫU , ǫL , δU und δL in einer Weise wählen, dass die Voraussetzungen von Lemma 4.2.7 erfüllt sind. Dann können wir die Matrix A folgendermaßen aufbauen: Wir setzen A0 = 0 und konstruieren Aq+1 aus Aq , indem wir einen Vektor vi wählen, der LAq (vi ) ≥ UAq (vi ) erfüllt. Die Existenz eines sochen Vektors stellt Lemma 4.2.7 sicher. Wir setzen dazu Aq+1 = Aq + sei vi viT mit einem sei ≥ 0, das der Bedingung LAq (vi ) ≥ genügt. Wählen wir dann δL = 1, √ d+1 δU = √ , d−1 1 UA (vi ) sei q 1 ǫL = √ , d √ d−1 √ , ǫU = d+ d 43 l0 = − u0 = n ǫL n , ǫU so erhalten wir √ √ 1 d−1 d−1 1 1 =1− √ = + ǫU = √ − ǫL , + √ √ δU δL d+1 d d d+1 womit die Vorraussetzung (4.4) von Lemma 4.2.7 erfüllt ist und wir das Lemma anwenden können. Die anfänglichen Potentiale sind Φn/ǫU (0) = ǫU und Φn/ǫL (0) = ǫL . Nach dn Iterationsschritten erhalten wir dann n/ǫU + dnδU λmax (Adn ) ≤ λmin (Adn ) −n/ǫL + dnδL √ d+ √ d d−1 √ + d √d+1 √ d−1 = d− d ! √ ! √ d+1 d+ d √ √ = d− d d−1 √ d+2 d+1 √ , = d−2 d+1 woraus (4.3) folgt und damit der Beweis vollendet ist. Wir zeigen nun die offene Abschätzung aus dem letzten Teil des Beweises von Lemma 4.2.7: P Lemma 4.2.8. Für alle Indizes i sei λi > l, 0 ≤ i (λi − l)−1 ≤ ǫL , und δ1L − ǫL ≥ 0. Dann gilt P −2 X 1 1 i (λi − l − δL ) . (4.5) − − Φ (A) ≥ P P l+δL −1 δL λi − l − i (λi − l)−1 i (λi − l − δL ) i Beweis. Aus den Voraussetzungen ergibt sich, dass für jeden Index i δL ≤ 1 ≤ λi − l ǫL gilt. Weiters ist λi − l − δL < λi − l für alle i und damit der Nenner des ersten Terms positiv. Somit können wir die Ungleichung folgendermaßen umformen: ! ! X X X 1 1 1 1 1 1 − + − ≥ λi − l − δ L λi − l δL λi − l − δ L λi − l (λi − l − δL )2 i i i ! ! X X 1 1 1 = δL + δL (λi − l − δL ) (λi − l) δL (λi − l − δL ) (λi − l) i i !2 X X 1 1 + δL . = (λi − l − δL ) (λi − l) (λi − l − δL ) (λi − l) i i Verschieben wir nun den ersten Term der rechten Seite auf die linke und bringen die beiden Ausdrücke auf gleichen Nenner, so ist damit (4.5) äquivalent zu !2 X X 1 1 . (4.6) δL ≤ δL (λi − l − δL ) (λi − l) (λi − l − δL )2 (λi − l) i i 44 Aus der Cauchy-Schwarz-Ungleichung erhalten wir aber, dass δL X i ist. Wegen 1 (λi − l − δL ) (λi − l) P i (λi !2 ≤ δL X i 1 λi − l ! δL X i − l)−1 ≤ ǫL ist dies kleiner oder gleich (δL ǫL ) δL X i 1 (λi − l − δL )2 (λi − l) 1 (λi − l − δL )2 (λi − l) ! ! . Da laut Voraussetzung außerdem 1/δL − ǫL ≥ 0, also δL ǫL ≤ 1 ist, lässt sich dies weiter abschätzen mit ! X 1 δL , 2 (λ − l − δ ) (λ − l) i i L i was aber genau Ungleichung (4.6) ergibt. Der Algorithmus, den uns dieser Beweis liefert sieht also folgendermaßen aus: Der erste Schritt besteht in der Berechnung der Vektoren vi , was O n2 m Zeit erfordert. In jeder Iteration müssen wir ((u + δU ) I − A)−1 , ((u + δU ) I − A)−2 und die entsprechenden Matrizen für die untere Schranke berechnen. Dazu wird eine Zeit von O n3 benötigt. Schlussendlich müssen wir entscheiden, welchen Vektor wir in jedem Schritt addieren, indem wir UA (vi ) und LA (vi ) für jedes vi berechnen. Dies ist in O n2 m Zeit möglich. Insgesamt benötigen 3 wir dn Iterationen, erhalten also eine Gesamtlaufzeit von O dn m . 4.3 Dimensionsreduktion in Lp -Räumen Wir wenden uns nun einem Resultat von Schechtman zu, der sich in vielen seiner Arbeiten [24–26] mit der Dimensionsreduktion in Lp -Räumen beschäftigt. Mit Hilfe des Spectral Sparsification Theorems ist hier eine wesentliche Verbesserung gelungen. Sei p ≥ 1, Lp der Raum der p-integrierbaren Funktionen auf [0, 1] mit dem Lebesgue-Maß, ℓdp bezeichne den Raum Rd mit der Norm kxkp = d X i=1 |xi |p !1/p . Für p = 2 erhalten wir also den d-dimensionalen, euklidischen Raum. Das Johnson-Lindenstrauss-Lemma (Kapitel 6) besagt in diesem Fall, dass sich für ǫ > 0 jede aus n Punkten bestehende Menge des ℓd2 so in den ℓk2 mit k = O log n/ǫ2 einbetten lässt, dass sich die Distanzen zwischen je zwei Punkten höchstens um einen Faktor (1 + ǫ) unterscheiden. Da jeder d-dimensionale Unterraum des L2 isometrisch zu l2d ist, gilt die Aussage auch für L2 . Für p 6= 2 liegen die Dinge komplizierter. Fordern wir außerdem nicht nur die Einbettung 45 einer Menge aus n Punkten, sondern eines n−dimensionalen Unterraumes, so wurden für die Dimension k im Wesentlichen die Schranken für p = 1, C(ǫ)n log n, 2 k ≤ C(ǫ)n log n(log log(n)) , für p ∈ (1, 2), (4.7) C(p, ǫ)np/2 log n, für p ∈ (2, ∞) gefunden (siehe dazu [4, 24, 25, 35, 36, 39] und für eine Zusammenfassung [20]). Für gerade p gelang Schechtman mit Hilfe von Satz 4.2.1 in [26] eine elegante Verbesserung: Satz 4.3.1. Sei X ein n-dimensionaler Unterraum des Lp mit geradem p ≤ n und 0 < ǫ < 1/p. Dann lässt sich X mit einer Störung von (1 + ǫ) in ℓkp mit k ≤ (Cn/p)p/2 /ǫ2 einbetten, wobei C eine absolute Konstante ist. Wir beginnen mit einem Korollar zu Satz 4.2.1: m Korollar 4.3.2. Sei X ein n-dimensionaler n Unterraum des ℓ2 und 0 < ǫ < 1. Dann existiert eine Menge σ ⊂ {1, . . . , m} mit |σ| ≤ ǫ2 und positive Gewichte {si }i∈σ , sodass für alle x ∈ X gilt X (1 − ǫ)kxk2 ≤ si x2 (i) i∈σ !1/2 ≤ (1 + ǫ)kxk2 . (4.8) Beweis. Seien 0 < ǫ < 1 und {u1 , . . . , un } eine Orthonormalbasis von X. Wir schreiben für alle 1 ≤ j ≤ n uj = (u1jP , u2j , . . . , umj ) und definieren weiters viT = (ui1 , ui2 , . . . uin ) für alle T n 1 ≤ i ≤ m. Damit gilt m i=1 vi vi = In . Ein Vektor x ∈ X lässt sich in der Basis {uj }j=1 Pn darstellen als x = j=1 aj uj mit a = (a1 , . . . an )T ∈ Rn . Es ist dann n n X X x(i)2 = (xxT )ii = a j uj aj uTj j=1 = m X j=1 j=1 ii 2 aj uij = (aT vi )2 = aT vi viT a. Aus Satz 4.2.1 folgt, dass 2 T (1 − ǫ) a m X vi viT i=1 ! a≤a T m X si vi viT i=1 ! 2 T a ≤ (1 + ǫ) a m X vi viT i=1 gilt, wobei si die Gewichte aus dem Satz sind. Insgesamt haben wir damit (1 − ǫ) 2 kxk22 ≤ m X i=1 si x(i)2 ≤ (1 + ǫ)2 kxk22 , woraus die Behauptung folgt. 46 ! a Beweis zu Satz 4.3.1. Da X als endlich dimensionaler Unterraum des Lp isomorph zu einem Unterraum des lpm für ein m(p, X) ∈ N ist (siehe etwa [2]), können wir annehmen, dass X ein n-dimensionaler Unterraum des lpm ist. Im Folgenden bedeute die Multiplikationsnotation von Vektoren immer koordinatenweise Multiplikation, also für x, y ∈ Rm und t ∈ N sei xy = (x(1)y(1), . . . , x(m)y(m)) und xt = x(1)t , . . . , x(m)t . Für die Basis u1 , . . . , un von X betrachten wir folgenden Unterraum des Rm : Y = span {upj11 upj22 · · · upjℓℓ : ℓ ∈ N, j1 , . . . , jℓ ∈ {1, . . . , n} ∧ p1 + . . . + pℓ = p/2} Für die Dimension von Y gilt dann 10n p/2 n + p/2 − 1 ≤ d = |Y | ≤ . p/2 p Die letzte Abschätzung folgt aus s = t s! (s−t)! t! st ≤ t = t 3 3s t t mit s = n + p/2 − 1, t = p/2 und p ≤ n. Aus Korollar 4.3.2 erhalten wir, dass eine Menge σ ⊂ {1, . . . , m} mit |σ| = O d(pǫ)−2 ≤ (Cn/p)p/2 ǫ−2 für eine absolute Konstante C und positive Gewichte {si }i∈σ existieren, sodass für alle y ∈ Y gilt ! X ǫp 2 kyk2 ≤ si y 2 (i) ≤ (1 + )kyk22 . 4 i∈σ Laut Definition von Y gilt, dass für jedes x ∈ X auch xp/2 ∈ Y ist und damit nach Korollar 4.3.2 ! X ǫp kxkpp ≤ si xp (i) ≤ (1 + )kxkpp 4 i∈σ ist, was uns schließlich kxkp ≤ X i∈σ p si x (i) !1/p ≤ (1 + liefert wie gewünscht. 47 ǫp 1/p ) kxkp ≤ (1 + ǫ)kxkp 4 48 Kapitel 5 Graph Sparsification by Effective Resistances 5.1 Vorbemerkungen In diesem Kapitel beschäftigen wir uns mit dem Algorithmus von Spielman und Srivastava aus [29], der eine weitere Möglichkeit aufzeigt, gute Sparsifier für gewichtete Graphen zu konstruieren. Die Hauptidee dabei ist, einen gegebenen Graphen G mit einem elektrischen Netzwerk zu identifizieren und durch einen Teilgraph H zu approximieren. Jede Kante von G wird dabei mit einer Wahrscheinlichkeit proportional zu ihrem Wirkwiderstand (effective resistance) zu H hinzugefügt. 5.2 Graphen und elektrische Netzwerke Ein (einfaches) elektrisches Netzwerk lässt sich mit einem zusammenhängenden, gewichteten Graphen G(V, E, w) identifizieren, indem man einer Kante euv einen Widerstandswert ruv −1 zuordnet. Haben wir eine Potentialdifferenz s und damit eine Leitfähigkeit wuv = ruv uv zwischen dem Anfangs- und Endpunkt von euv , so fließt nach dem Ohm’schen Gesetz ein elektrischer Strom suv iuv = = suv wuv . ruv Weiters müssen wir dem Stromfluss eine Richtung geben. Dazu orientieren wir die Kanten des Graphen beliebig. Einem positiven Strom iuv vom Knoten u zum Knoten v entspricht dann einfach ein betragsmäßig gleicher, negativer Strom von v zu u, also ivu = −iuv . Analog ist suv = −svu . Außer dem Ohm’schen Gestz benötigen wir noch zwei weitere bekannte Regeln, die Kirchhoff ’schen Gesetze. Das erste Gesetz, die Knotenregel, besagt, dass in jedem Knoten die Summe der zufließenden Ströme gleich der Summe der abfließenden Ströme sein muss. In unserer vorzeichenbehafteten Notation haben wir also für jeden Knoten u X iuvi + iu,ext = 0, i wobei iu,ext jenen Strom bezeichne, der in u das Netzwerk verlässt. Das zweite Gesetz ist die sogenannte Maschenregel. Sie besagt, dass die Summer aller Teilspannung jedes Zykels 49 verschwindet: sv1 v2 + sv2 v3 + . . . + svn v1 = 0. Da wir Potentiale beliebig eichen können, weisen wir jedem Knoten u ein fixes Potential vu zu. Für einen Knoten können wir dieses frei wählen, alle anderen sind dann über suv = vv −vu eindeutig festgelegt. Wir wollen diese Zusammenhänge über Matrizen und Vektoren nun für den gesamten Graphen darstellen. Zuvor wollenPwir kurz an Kapitel 3 erinnern. Mit D wird die gewichtete Gradmatrix D = D (u, u) = v6=u wuv bezeichnet, A (u, v) = wuv ist die gewichtete Adjazenzmatrix und die Laplacematrix ist definiert über L = D − A. Weiters haben wir die n × m Inzidenzmatrix C definiert als falls (u, x) = e 1 C (u, e) = −1 falls (x, u) = e 0 sonst, und gezeigt, dass mit der m × m Diagonalmatrix W (e, e) = we die Laplace-Matrix L die Darstellung L = CW C T besitzt. Der Vektor iext (u) bezeichne den in jedem Knoten u zugeführten Strom, i (e) den dadurch in jeder Kante e induzierten Strom. Die in den Knoten induzierten Potentiale fassen wir in v (u) zusammen. Der Vektor C T v (e) enthält dann die in jeder Kante e induzierte Potentialdifferenz. Die Knotenregel lautet damit Ci = iext . Das Ohm’sche Gesetz lässt sich darstellen als i = W C T v; insgesamt ergibt sich also iext = CW C T v = Lv. Führen wir dem Netzwerk in Summe genausoviel Strom zu, wie wir wieder abfließen lassen, so bedeutet dies iext ⊥ span 1 = ker L und wir können v darstellen als v = L† iext , wobei L† die in Abschnitt 1.1.8 definierte Pseudoinverse von L ist. Induzieren wir einen Strom mit Betrag 1 in einen Knoten u und extrahieren wir ihn wieder von einem Knoten v, so ergibt sich eine Potentialdifferenz. Der Wert dieser Potentialdifferenz ist der Wirkwiderstand Ruv zwischen u und v. Für diesen werden wir nun eine algebraische Definition herleiten. Sei ce = C (·, e) die zur Kante e gehörige Spalte der Inzidenzmatrix. Wir betrachten die Kante e = (u, v). Der induzierte und extrahierte Strom lässt sich darstellen als iext = ce = (χv − χu ) und ist orthogonal zu 1. Die induzierten Potentiale sind v = L† ce . Insgesamt erhalten wir damit v (u) − v (v) = (χv − χu )T v = cTe L† ce . Somit ist Ruv = Re = cTe L† ce und die Matrix C T L† C hat damit als Diagonaleinträge C T L† C (e, e) genau die Wirkwiderstände Re . 50 5.3 Algorithmus 5.3.1 Formulierung Wir wenden uns nun dem Algorithmus zu, der den Sparsifier H aus G erzeugt: Algorithmus 5.3.1 (H=Sparsify[G,q]). Wähle zufällig eine Kante e von G mit einer we Wahrscheinlichkeit pe proportional zu we Re und füge e mit Gewicht qp zu H hinzu. Führe e diesen Vorgang insgesamt q-mal durch und addiere die Gewichte, falls eine Kante öfter ausgewählt wird. Seien LG und LH die Laplace-Matrizen von G und H. Wir werden gleich zeigen, dass sich die von LG und LH erzeugten quadratischen Formen nicht sehr stark voneinander unterscheiden, falls H nach obigem Algorithmus konstruiert wird. Wegen des Satzes von Courant-Fischer H (Satz 1.1.8) gilt dannn auch für die Eigenwerte λG i und λi von G und H H G (1 − ǫ) λG i ≤ λi ≤ (1 + ǫ) λi . (5.1) Weiters wissen wir aus Kapitel 3, dass die Eigenwerte der normalisierten Laplace-Matrix L = D−1/2 LD−1/2 jenen der Übergangsmatrix D−1 L = I − D−1 A entsprechen. Somit gilt (5.1) auch für die Eigenwerte der Übergangsmatrizen von G und H. √1 n < ǫ ≤ 1, G ein zusammenhängender, gewichteter Graph und H aus G mittels Algorithmus 5.3.1 erzeugt. Ist q = 9c2 n log n/ǫ2 , c die Konstante aus Lemma 5.3.5 und n hinreichend groß, so gilt mit einer Wahrscheinlichkeit von mindestens 1/2, dass für alle x ∈ Rn Satz 5.3.2. Seien (1 − ǫ) xT LG x ≤ xT LH x ≤ (1 + ǫ) xT LG x. 5.3.2 (5.2) Beweis zu Satz 5.3.2 Zunächst betrachten wir die Matrix Π = W 1/2 C T L† CW 1/2 , die einige interessante Eigenschaften besitzt. Lemma 5.3.3. 1. Π (e, e) = we Re . 2. Π ist eine Projektion. 3. im (Π) = im W 1/2 C T 4. Die Eigenwerte von Π sind 1 mit Vielfachheit n − 1 und 0 mit Vielfachheit m − n + 1. 5. Π (e, e) = kΠ (·, e)k2 . Beweis. Für Punkt 1, beachte, dass C T L† C (e, e) = Re ist und damit p p Π (e, e) = W (e, e)Re W (e, e) = we Re . 51 Punkt 2 ist erfüllt genau dann, wenn Π2 = Π gilt. Da L = CW C T ist und L† L = I auf im L† haben wir Π2 = W 1/2 C T L† CW 1/2 W 1/2 C T L† CW 1/2 = W 1/2 C T L† CW C T L† CW 1/2 = W 1/2 C T L† LL† CW 1/2 = W 1/2 C T L† CW 1/2 = Π. Für Punkt 3 zeigen wir, dass im (Π) ⊆ im W 1/2 C T und im W 1/2 C T ⊆ im (Π) gilt. Die erste Inklusion ist offensichtlich, da im (Π) = im W 1/2 C T L† CW 1/2 ⊆ im W 1/2 C T . Für die zweite Richtung sei y ∈ im W 1/2 C T . Für jedes derartige y können wir ein x wählen, welches orthogonal auf ker W 1/2 C T = ker (L) steht, sodass y = W 1/2 C T x ist. Mit L = CW C T gilt dann L† Lx = x und damit Πy = W 1/2 C T L† CW 1/2 W 1/2 C T x = W 1/2 C T L† Lx = W 1/2 C T x = y, also im W 1/2 C T ⊆ im (Π). Punkt 4 sehen wir folgendermaßen ein: Aus Kapitel 3, Ab schnitt 3.4 wissen wir, dass ker W 1/2 C T = span (1). Also ist dim ker W 1/2 C T = 1 und somit dim im W 1/2 C T = n − 1. Da Π eine Projektionsmatrix ist, besitzt sie nur die Eigenwerte 0 und 1. Da sie weiters auf einen n − 1-dimensionalen Unterraum abbildet, muss der Eigenwert 1 mit Vielfachheit n − 1 und 0 mit Vielfachheit m − n + 1 auftreten. Der letzte Punkt folgt aus der Symmetrie von Π, da damit gilt Π (e, e) = Π (·, e)T Π (·, e) = kΠ (·, e)k2 . Wir werden nun zeigen, dass sich Ungleichung 5.2 auf die Erhaltung der von Π erzeugten quadratischen Form zurückführen lässt. Wir wollen also statt xT Lx die quadratische Form y T Πy betrachten. Dies bringt erhebliche Vorteile, da Π nur 0 und 1 als Eigenwerte besitzt. e die Π in der Insbesondere folgt dann aus der Spektraldekomposition, dass jede Matrix Π, Spektralnorm approximiert, ebenfalls ihre quadratische Form erhält. Wir können den von Algorithmus 5.3.1 erzeugten Graphen H = V, EH , wH mit Hilfe der Diagonalmatrix Σ (e, e) = 52 weH we (5.3) beschreiben, wobei we = qpe ist und weH angibt, wie oft die Kante e ausgewählt wurde. Σ ist also nichtnegativ und wir können mit ihrer Hilfe die Gewichtsfunktion von H schreiben als weH = Σ (e, e) we . Die Gewichtematrix von H ist damit WH = W Σ = W 1/2 ΣW 1/2 und die Laplace-Matrix damit LH = CWH C T = CW 1/2 ΣW 1/2 . Wir halten weiters fest, dass E weH = we ist, da wir q unabhängige Stichproben mit einer Wahrscheinlichkeit von pe nehmen. Für die Erwartungswerte von Σ und LH gilt damit E (Σ) = I und E (LH ) = L. Wir können nun wie angekündigt folgendes Lemma beweisen: Lemma 5.3.4. Sei ǫ > 0, Σ eine nichtnegative Diagonalmatrix und kΠΣΠ − ΠΠk2 ≤ ǫ. Dann gilt für alle x ∈ Rn (1 − ǫ) xT Lx ≤ xT LH x ≤ (1 + ǫ) xT Lx (5.4) mit L = CW C T und LH = CW 1/2 ΣW 1/2 C T . Beweis. Da für eine symmetrische Matrix A gilt T y Ay kAk2 = sup T y6=0 y y ist die Voraussetzung kΠΣΠ − ΠΠk2 ≤ ǫ äquivalent zu T y Π (Σ − I) Πy sup ≤ ǫ. yT y y∈Rm ,y6=0 (5.5) Wir beschränken uns zunächst auf Vektoren y ∈ im W 1/2 C T . Nach Lemma 5.3.3 ist für diese Vektoren Π die Identitätsmatrix, also Πy = y . Weiters können wir jedes solche y schreiben als y = W 1/2 C T x mit einem x ∈ Rn . Setzen wir dies in (5.5) ein, so erhalten wir T y Π (Σ − I) Πy sup yT y y∈im(W 1/2 C T ),y6=0 T y (Σ − I) y = sup yT y y∈im(W 1/2 C T ),y6=0 T x CW 1/2 ΣW 1/2 C T x − xT CW C T x = sup xT CW C T x x∈Rn ,W 1/2 C T x6=0 T x LH x − xT Lx ≤ ǫ. = sup xT Lx x∈Rn ,W 1/2 C T x6=0 Lösen wir den Betrag auf, so ist dies äquivalent zu xT LH x − xT Lx xT LH x − xT Lx ≤ ǫ ∧ inf x ∈ Rn , W 1/2 C T x 6= 0 ≥ −ǫ T x Lx xT Lx x∈Rn ,W 1/2 C T x6=0 sup 53 und dies wiederum zu xT LH x − xT Lx −ǫ ≤ ≤ǫ xT Lx für alle x ∈ Rn mit x ∈ / ker W 1/2 C T . Umformen ergibt daraus (5.4). Ist x ∈ ker W 1/2 C T , so ist xT Lx = xT LH x = 0 und (5.4) trivialerweise erfüllt. Wir haben also unser Problem darauf reduziert zu untersuchen, unter welchen Bedingungen kΠΣΠ − ΠΠk2 ≤ ǫ hinreichend klein bleibt. Wir verwenden dazu den folgenden Verdichtungssatz, der in gewisser Weise ein Gesetz der großen Zahlen“ für symmetrische Rang-1” Matrizen darstellt: Satz 5.3.5 (Rudelson & Vershynin, [23], Theroem 3.1). Sei y ein Zufallsvektor im Rd , der der Verteilung p genügt und fast überall gleichmäßig beschränkt ist: kyk2 ≤ M . Weiters sei y so, dass E yy T ≤ 1 gilt. Sind y1 , · · · , yq verschiedene, unabhängige Realisationen von y, so gilt mit einer positiven Konstante C s q ! 1 X log q E ,1 . (5.6) yi yiT − E yy T ≤ min CM q q i=1 2 Eine Folgerung aus diesem Satz ist unter anderem, dass sich eine Matrix A durch zufällige Auswahl von genügend vieler ihrer Reihen gut in der Spektralnorm approximieren lässt. Für skalare Zufallsvariablen erhalten wir genau das klassische Gesetz der großen Zahlen. Im Gegensatz zur skalarwertigen Version ist die operatorwertige Version allerdings schwieriger zu beweisen, da statt des Betrages die Operatornorm und damit das Supremum eines Zufallsprozesses abgeschätzt werden muss. Im Beweis von Satz 5.3.5 wird zunächst die Zufallsvariable symmetrisiert; für den entstehenden, symmetrischen Zufallsprozessprozess lässt sich dann eine geeignete Schranke finden. Ein ausführlichen Beweis und Anwendungen des Satzes sind in [23] und [22] nachzulesen. Wir können nun den Beweis von Satz 5.3.2 beenden: Beweis zu Satz 5.3.2. Der von Algorithmus 5.3.1 erzeugte Graphen H beinhaltet jede Kante e von G mit einer Wahrscheinlichkeit von pe = P we Rwee Re . Nach Lemma 5.3.3 ist e∈E X we Re = Tr (Π) = n − 1 e∈E we R e n−1 . Die Gewichte weH geben wie in (5.3) wieder an, wie oft die Kante e und damit pe = ausgewählt wird. Die Auswahl von q Kanten entspricht der Auswahl von q Spalte von Π, wir können also schreiben X ΠΣΠ = Σ (e, e) Π (·, e) Π (·, e)T e = X wH e e = qpe Π (·, e) Π (·, e)T 1 X H Π (·, e) Π (·, e)T w √ √ q e e pe pe q = 1X T yi yi q i=1 54 für voneinander unabhängige Realisationen y1 , . . . , yq eines Zufallsvektors y, der der Verteilung 1 √ Π (·, e) pe genügt. Wir zeigen nun, dass die Voraussetzungen von Satz 5.3.5 erfüllt sind: Für den Erwartungswert von yy T gilt X 1 E yy T = pe Π (·, e) Π (·, e)T = ΠΠ = Π pe e und damit E yy T 2 = kΠk2 = 1. Die Norm von y ist ebenfalls beschränkt, da r n−1 √ 1 1 p = n − 1. Π (e, e) = √ kΠ (·, e)k2 = √ pe pe Re w e Mit q = 9C 2 n log n/ǫ2 liefert uns Satz 5.3.5 damit für n hinreichend groß s q 1 X log (9C 2 n log n/ǫ2 ) (n − 1) EkΠΣΠ − ΠΠk2 = E ≤ ǫ/2, yi yiT − E yy T ≤ C ǫ2 q 9C 2 n log n i=1 2 √ da wir ǫ > 1/ n vorausgesetzt haben. Die Markov-Ungleichung liefert nun 1 P (kΠΣΠ − ΠΠk2 ≥ ǫ) ≤ EkΠΣΠ − ΠΠk2 ǫ und damit nach Umformen, dass kΠΣΠ − ΠΠk2 ≤ ǫ mit einer Wahrscheinlichkeit von mindestens 1/2 erfüllt ist. Zusammen mit Lemma 5.3.4 ist damit der Satz bewiesen. Um Algorithmus 5.3.1 anwenden zu können, benötigen wir die Wirkwiderstände Re des Graphen G. Grundsätzlich gibt es verschiedene Techniken, diese exakt zu berechen (siehe dazu [3]), diese gestalten sich allerdings schon bei sehr einfachen Netzwerken höchst kompliziert und rechentechnisch äußerst aufwändig. Das folgende Korollar zeigt jedoch, dass die Verwendung von näherungsweisen Werten den Sparsifier H nicht wesentlich verschlechtert. Im darauffolgenden Abschnitt zeigen wir, wie wir solche Näherungen effizient berechnen können. Korollar 5.3.6. Sei α ≥ 1 und seien Ze Werte, die den beiden Abschätzungen X X Re Ze ≥ und w e Ze ≤ α w e Re α e e genügen. Führen wir nun Algorithmus 5.3.1 durch, verwenden jedoch statt pe = p′e Wahrscheinlichkeiten = tens 1/2 der Abschätzung Pwe Ze , e we Z e Pwe Re e we R e die so genügt H mit einer Wahrscheinlichkeit von mindes- (1 − αǫ) xT Lx ≤ xT LH x ≤ (1 + αǫ) xT Lx. 55 (5.7) Beweis. Es gilt auf Grund der Voraussetzungen we (Re /α) pe w e Ze ≥ P = 2. p′e = P α e we Re α e w e Ze Wir können nun genauso wie im Beweis zu Satz 5.3.2 verfahren. Der einzige Unterschied besteht darin, dass die Norm des Zufallsvektors y nun durch √ 1 α p p kΠ (·, e)k2 ≤ √ Π (e, e) = α n − 1 ′ pe pe beschränkt wird anstatt nur durch letzten Abschätzung erhalten. 5.4 √ n − 1 und wir damit α als zusätzlichen Faktor in der Berechnung näherungsweiser Widerstände In diesem Abschnitt werden wir zeigen, wie sich eine O (log n) × n-Matrix Ze berechnen lässt, aus der wir die Wirkwiderstände Ruv zwischen zwei beliebigen Knoten u und v ∈ V in O (log n) Zeit berechnen können: Satz 5.4.1. Es existiert ein Algorithmus, der für jedes ǫ > 0 und einen Graphen G = (V, E, w) mit r = wmax /wmin eine 24 log n/ǫ2 × n-Matrix Ze in erwarteter O m (log r) /ǫ2 Zeit berechnet, sodass mit einer Wahrscheinlichkeit von mindestens 1 − 1/n für jedes Knotenpaar u, v ∈ V gilt 2 (1 − ǫ) Ruv ≤ Ze (χu − χv ) ≤ (1 + ǫ) Ruv . Wir können für zwei beliebige Knoten in V den Wirkwiderstand einfach als Abstand zwischen zwei Vektoren aus {W 1/2 C T L† χv }v∈V ausdrücken. Mit Hilfe des Johnson-LindenstraussLemmas (Kapitel 6) können wir dann die Dimension der Vektoren reduzieren, ohne dabei allzuviel Information zu verlieren. Hier seien nur die wesentlichen Punkte des Beweises skizziert, eine vollständige Ausführung findet sich in [29]. Beweisskizze zu Satz 5.4.1. Aus Abschnitt 5.2 wissen wir, dass für u, v ∈ V Ruv = (χu − χv )T L† (χu − χv ) ist. Da weiters L† L = I auf im L† gilt, ist dieser Ausdruck gleich (χu − χv )T L† LL† (χu − χv ) und mit L = CW C T ist dies wiederum äquivalent zu (χu − χv )T L† CW 1/2 2 W 1/2 C T L† (χu − χv ) = W 1/2 C T L† (χu − χv ) . 2 And dieser Stelle verwenden wir das Johnson-Lindenstrauss Lemma, um die Vektoren auf einen von O (log n) Zufallsvektoren aufgespannten Unterraum zu projizieren. Dieses behandeln wir in Kapitel 6 genauer. Hier bedienen wir uns einer konkreten Version aus [1]: 56 Lemma 5.4.2. Seien v1 , . . . , vn ∈ Rd , ǫ > 0 und k ≥ 24 log n/ǫ2 . Sei Q eine k × d Matrix, deren Einträge unabhängige Zufallsvariablen sind, die der Verteilung ( 1 √ mit Wahrscheinlichkeit 12 k Q (i, j) = − √1k mit Wahrscheinlichkeit 21 genügen. Dann gilt mit einer Wahrscheinlichkeit von mindestens 1 − 1/n (1 − ǫ) kvi − vj k22 ≤ kQvi − Qvj k22 ≤ (1 − ǫ) kvi − vj k22 für alle Paare (i, j) mit 1 ≤ i, j ≤ n. Damit haben wir also das Problem, einen guten Sparsifier H zu erzeugen darauf reduziert, die Matrix Z = QW 1/2 C T L† zu berechnen. Dies erfordert lediglich“ einen (effizienten) ” Lösungsalgorithmus für lineare Gleichungssysteme, der uns eine gute Näherung Ze für Z liefert. Es gibt zahlreiche Möglichkeiten dafür. In der Tat ist die Entwicklung und Verbesserung solcher Algorithmen in Verbindung mit Sparsifieren ein hochaktuelles Forschungsgebiet und es sei dazu unter anderem auf die Arbeiten von Spielman und Teng ( [28, 31–33]) verwiesen. Als Beispiel sei hier der Algorithmus aus [31] angegeben: p Satz 5.4.3. Sei kykL := y T Ly. Es gibt einen Algorithmus ST Solve (L, y, δ), der als Input eine Laplace-Matrix L, einen Spaltenvektor y und einen Fehlerparameter δ nimmt und einen Vektor x ausgibt, der die Abschätzung x − L † y ≤ ǫ L † y L L erfüllt. Der Algorithmus besitzt eine erwarteteLaufzeit von O (m log (∞/δ)), wobei m die Anzahl der Einträge von L bezeichnet, die ungleich Null sind. Es lässt sich zeigen (siehe dazu [29], Lemma 9), dass es für die in Satz 5.4.1 behauptete Laufzeit von O m (log r) /ǫ2 (mit r = wmin /wmax ) ausreicht, Algorithmus 5.4.3 mit dem Parameter s ǫ 2 (1 − ǫ) δ= r 3 (1 + ǫ) n3 aufzurufen. Insgesamt bedeutet die Konstruktion von Ze dann Aufwand von einen zeitlichen 2 e 2 2 O m log (1/δ) /ǫ = O m log r/ǫ . Die Wirkwiderstände Z (χu − χv ) ≈ Ruv für u, v ∈ V lassen sich dann einfach in O log n/ǫ2 Zeit berechnen, indem man zwei Spalten von Ze subtrahiert und die Norm dieser Differenz berechnet. Auf diese Weise erhalten wir beliebig genaue Näherungen für die Wirkwiderstände Re . Aus Korollar 5.3.6 folgt schließlich, dass wir mit einer solchen Approximation einen Sparsifier bekommen. 57 58 Kapitel 6 Das Johnson-Lindenstrauss Lemma 6.1 Einführung In Kapitel 5 verwenden wir das Johnson-Lindenstrauss Lemma, ein klassisches Resultat von Johnson und Lindenstrauss aus [16], das in vielen Bereichen der Mathematik von fundamentaler Bedeutung ist. Im Wesentlichen besagt es, dass sich jede Menge aus n Punkten im d-dimensionalen, euklidischen Raum in den k = O log n/ǫ2 -dimensionalen, euklidischen Raum einbetten lässt, ohne dass dabei die Abstände zwischen je zwei Punkten um mehr als einen Faktor (1 ± ǫ) mit 0 < ǫ < 1 verändert werden. Anwendungsgebiete sind beispielsweise die Dimensionsreduktion in Datenbanken ( [1]) oder das Nearest-Neighbour-Problem (siehe [15]), bei dem zu einem beliebigen Punkt x der nächstgelegene Punkt aus einer gegebenen Menge P bestimmt werden soll. Satz 6.1.1 (Johnson-Lindenstrauss). Sei 0 < ǫ < 1 und n ∈ N. Sei k eine positive ganze Zahl, sodass k≥4 ǫ2 ǫ3 − 2 3 −1 ln n. (6.1) Dann existiert für eine beliebige Menge V bestehend aus n Punkten im Rd eine Abbildung f : Rd → Rk sodass für alle u, v ∈ V gilt: (1 − ǫ)ku − vk2 ≤ kf (u) − f (v)k2 ≤ (1 + ǫ)ku − vk2 6.2 Beweis Der ursprüngliche, probabilistische Beweis aus [16] wurde von Frankl und Maehara in [13] wesentlich vereinfacht; der Beweis, den wir hier geben benötigt nur mehr elementares, wahrscheinlichkeitstheoretisches Werkzeug und hält sich an jenen von Gupta und Dasgupta aus [10]. Wir beginnen mit einem Lemma, das uns eine Möglichkeit aufzeigt, gleichverteilte, normierte Zufallsvektoren zu erzeugen: Lemma 6.2.1. Sei X = (X1 , · · · , Xd ) ein Zufallsvektor mit unabhängigen, standardnor1 malverteilten Komponenten und sei Y = kXk X. Dann ist Y gleichverteilt auf der (d − 1)dimensionalen Einheitssphäre S d−1 . 59 Beweis. X besitzt die Wahrscheinlichkeitsdichte f (x) = √ 1 2π d e (−1/2)xT x . Sei XU = U X, wobei U eine orthogonale Matrix ist. Dann gilt für die Wahrscheinlichkeitsverteilung P (XU ∈ A) mit A ⊂ Rd messbar P (XU ∈ A) = P X ∈ U T A ˆ 1 (−1/2)xT x = √ d e T U A 2π ˆ 1 (−1/2)(U x)T (U x) = √ d e A 2π ˆ 1 (−1/2)xT x , = √ d e A 2π da U T U = I. Somit ist auch XU ein Zufallsvektor mit unabhängigen, standardnormalverteilten Komponenten. Insbesondere lässt sich jede Rotation als Multiplikation mit einer orthogonalen Matrix darstellen. Also ist der Zufallsvektor X invariant gegenüber Rotationen. Da 1 Y = kXk X nichts anderes als die Projektion von X auf S d−1 ist, können wir somit folgern, dass Y auf S d−1 gleichverteilt ist. Im Folgenden sei Y wie in Lemma 6.2.1 und Z ∈ Rk die Projektion von Y auf die ersten k Pk Xi2 2 Koordinaten. Mit Ai := X 2 +···X 2 gilt L := kZk = i=1 Ai . Die erwartete Länge von Z ist 1 µ := EL = kd . Dies folgt aus d 1=E d X Ai = d X EAi , i=1 i=1 da alle Komponente von X unabhängig sind und die gleiche Verteilung besitzen und somit EAj = const. ist für alle j = 1, · · · , d. Die zentrale Abschätzung für den Beweis von Satz 6.1.1 liefert folgendes Lemma: Lemma 6.2.2. Sei k < d. Dann gilt: 1. Ist β < 1, dann ist (d−k) 2 k (1 − β) k βk k/2 ≤β 1+ P L≤ ≤ e 2 (1−β+ln β) d d−k (6.2) 2. Ist β > 1, so ist (d−k) 2 k βk (1 − β) k k/2 P L≥ ≤β 1+ ≤ e 2 (1−β+ln β) d d−k Wir werden diese Abschätzungen erst im Anschluss beweisen. 60 (6.3) Beweis zu Satz 6.1.1. Ist d ≤ k, so ist nichts zu zeigen. Sei also k < d. Wir betrachten nun für fixes i und j die Punkte vi und vj ∈ V und den auf 1 normierten Abstandsvektor vc ij zwischen diesen. Wir wollen nun eine Projektion auf einen zufällig gewählten, k-dimensionalen Unterraum durchführen, indem wir zuerst das Koordinatensystem einer zufälligen, gleichverteilten Rotation unterziehen und dann auf die ersten k Koordinaten projizieren. Nach den ′ = v′ − v′ , anfangs durchgeführten Überlegungen erhalten wir dann aber einen Vektor vij j2 i ′ ′ der genau der gleichen Verteilung wie Z genügt. Damit sind aber auch L und vi − vj 2 identisch verteilt mit Erwartungswert kd . Wir können also L = vi′ − vj′ und µ = kd setzen und Lemma 6.2.2 anwenden. Da Projektionen 2Abbildungen sind, bekommen wir lineare ′ ′ 2 für den Fall kvi − vj k = c 6= 1 lediglich L = c vi − vj und µ = c2 kd , was nichts an der Abschätzung ändert, da sich c2 in der Ungleichung kürzt. Es gilt in jedem Fall k P (L ≤ (1 − ǫ) µ) ≤ exp (1 − (1 − ǫ) + ln (1 − ǫ)) 2 und weiter mit ln (1 − ǫ) ≤ − ǫ + ǫ2 /2 ǫ2 k ≤ exp ǫ− ǫ+ 2 2 2 kǫ = exp − 4 1 ≤ exp (−2 ln n) = 2 , n wobei wir in der letzten Zeile Bedingung (6.1) verwendet haben. Ähnlich erhalten wir mit dem zweiten Teil von Lemma 6.2.2 k P (L ≤ (1 + ǫ) µ) ≤ exp (1 − (1 + ǫ) + ln (1 + ǫ)) 2 und weiter mit ln (1 + ǫ) ≤ ǫ − ǫ2 /2 + ǫ3 /3 k ǫ2 ǫ3 ≤ exp + −ǫ + ǫ − 2 2 3 ! 2 3 k ǫ /2 − ǫ /3 = exp − 2 ≤ exp (−2 ln n) = 1 , n2 wobei wir am Schluss wieder Bedingung (6.1) benützt haben. Wir erhalten also für ein fixes Paar Indices i und j durch Umformen und die Definitionen von L und µ q d ′ q d ′ 2 vi − k vj 1 k ≤ 1 − ǫ P (6.4) ≤ 2 2 n kvi − vj k 61 und q d ′ q d ′ 2 k vi − k vj 1 ≥ 1 + ǫ ≤ 2 , P 2 n kvi − vj k also insgesamt mit f (vi ) := q (6.5) d ′ k vi kf (vi ) − f (vj )k P 1−ǫ≤ 2 kvi − vj k ≤1+ǫ ! ≥1− 2 . n2 (6.6) Da es genau n(n−1) Möglichkeiten gibt, ein Paar vi und vj auszuwählen, ist die Wahrschein2 lichkeit, dass für irgendein Paar diese Wahrscheinlichkeit außerhalb der Epsilon-Umgebung · n22 = 1 − n1 . Also besitzt f die gewünschten Eigenschaften mit einer liegt, höchstens n(n−1) 2 Wahrscheinlichkeit von wenigstens n1 . Bemerkung 6.2.3. Mit diesem Beweis ist die Existenz der Abbildung gezeigt. Wollen wir die Abbildung f tatsächliche berechnen, müssen wir die Zufallsprojektion lediglich oft genug ausführen. Wiederholen wir die Projektion K Mal, so erhalten wir eine ErfolgswahrscheinK lichkeit von 1 − 1 − n1 , was für K → ∞ gegen 1 konvergiert. Wir beweisen nun noch Lemma 6.2.2: Beweis zu Lemma 6.2.2. Für die nachfolgende Abschätzung benötigen wir folgende Identität: Für eine N (0, 1)-verteilte Zufallsvariable X gilt mit −∞ < s < 21 1 2 E esX = √ . (6.7) 1 − 2s Dies sieht man wie folgt: E e für −∞ < s < 12 . Da 2 sX 2 −x dx = Re ´ √ x2 1 2 √ esx e− 2 dx 2π R ˆ − √1−2sx 2 ) ( 1 2 √ e dx = 2π R = ˆ π ergibt Substitution mit t := 1 =p π (1 − 2s) 1 =√ , 1 − 2s ˆ q 1−2s 2 x 2 R e−t dt wie behauptet. Nun ist βk = P d X12 + · · · + Xk2 ≤ kβ X12 + · · · + Xd2 P L≤ d 62 und wir zeigen, dass P d X12 + ··· + Xk2 gilt: X12 ≤ kβ + · · · Xd2 (d−k) 2 k (1 − β) 1+ ≤β d−k k 2 (6.8) P d X12 + · · · + Xk2 ≤ kβ X12 + · · · + Xd2 = P kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 ≥ 0 ≥1 = P exp t kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 für t > 0. Mit der Markow-Ungleichung P (|X| ≥ a) ≤ a1 E (|X|) lässt sich dies nach oben abschätzen durch E exp t kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 2 . + · · · + Xd2 = E exp t (kβ − d) X12 + · · · + Xk2 + tkβ Xk+1 Da alle Xi unabhängig voneinander sind, können wir mit X ∼ N (0, 1) dies schreiben als (d−k) k E exp tkβX 2 E exp t (kβ − d) X 2 und unter den Zusatzbedingungen tkβ < 1/2 und t (kβ − d) < 1/2 erhalten wir (1 − 2tkβ)− (d−k) 2 k (1 − 2t (kβ − d))− 2 . (d−k) k Wir setzen g (t) = (1 − 2tkβ)− 2 (1 − 2t (kβ − d))− 2 . Da t > 0, impliziert tkβ < 1/2 bereits t (kβ − d) < 1/2. Wir wollen nun t so wählen, dass g(t) minimal wird. Dazu maximieren wir die Funktion ge(t) = (1 − 2tkβ)(d−k) (1 − 2t (kβ − d))k 1 im Intervall 0 < t < 2kβ . Wir differenzieren dazu ge(t) und setzen die Ableitung gleich Null. Nach Kürzen erhalten wir: und weiter 0 = ge′ (t0 ) = −β (d − k) (1 − 2t0 (kβ − d)) − (kβ − d) (1 − 2t0 kβ) t0 = 1−β , 2β (d − kβ) was im erlaubten Intervall liegt. Somit gilt d − k d−k 1 k ge (t0 ) = . d − kβ β Mit g (t0 ) = (e g (t0 ))−1/2 folgt g (t0 ) = β k/2 (1 − β) k 1+ d−k 63 (d−k) 2 und somit insgesamt X12 P d + ··· + Xk2 ≤ kβ X12 + ··· + Xd2 ≤β k/2 (1 − β) k 1+ d−k (d−k) 2 , was genau den ersten Teil der behaupteten Abschätzung liefert. Der zweite Teil der Ungleichungskette folgt mit 1 + x ≤ ex , da β k/2 (d−k) 2 (1 − β) k d−k (1 − β) k k/2 1+ ≤ β exp d−k d−k 2 k (1 − β) = β k/2 exp 2 k = exp (1 − β + ln β) . 2 Der zweite Teil des Lemmas folgt aus einer analogen Abschätzung: P d X12 + · · · + Xk2 ≥ kβ X12 + · · · + Xd2 = P − kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 ≥ 0 ≥1 = P exp (−t) kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 für t > 0. Mit der Markow-Ungleichung lässt sich dies wieder abschätzen durch E exp (−t) kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 2 . + · · · + Xd2 = E exp (−t) (kβ − d) X12 + · · · + Xk2 + (−t)kβ Xk+1 Mit X ∼ N (0, 1) lässt sich dies wiederum schreiben als (d−k) k E exp (−t) kβX 2 E exp (−t) (kβ − d) X 2 und unter den Bedingungen (−t) kβ < 1/2 und (−t) (kβ − d) < 1/2 weiter als (1 − 2 (−t) kβ)− (d−k) 2 k (1 − 2 (−t) (kβ − d))− 2 . Mit der Notation von oben ist der letzte Ausdruck also g(−t) unter der Zusatzbedingung 0 < t < 21 (d − kβ). Somit liegt das Minimum von g bei (−t0 ), mit t0 definiert wie oben und liegt im erlaubten Intervall, da nach Voraussetzung β > 0 ist. Wir erhalten somit P d X12 + ··· + Xk2 ≥ kβ X12 + ··· + Xd2 ≤β k/2 (d−k) 2 (1 − β) k 1+ d−k wie behauptet. Der zweite Teil der Abschätzung folgt wie oben. 64 6.3 Varianten Es gibt nun verschiedene Varianten, die im Beweis angeführte, gleichverteilte Rotation des Koordinatensystems tatsächlich durchzuführen. Eine Möglichkeit besteht darin, den Vektor mit einer zufälligen Rotationsmatrix zu multiplizieren. Dazu erzeugen wir eine Matrix mit vollem Rang, deren Einträge N (0, 1) verteilt sind und orthogonalisieren mit Hilfe von Gram-Schmidt die Spalten. Für einen effizienten Algrithmus ist dieser Prozess allerdings sehr aufwendig. Es lässt sich allerdings zeigen, dass wir nicht unbedingt eine orthogonale Matrix benötigen und auf die Orthogonalisierung verzichten können. Weiters sind wir auch nicht an die Normalverteilung gebunden. Eine andere Möglichkeit ist jene aus [1], die in Kapitel 5 zur Anwendung kommt, eine Matrix mit binomialverteilten Einträgen verwendet und damit sogar eine etwas bessere Konstante k liefert: Satz 6.3.1 (Achlioptas, [1]). Seien v1 , . . . , vn ∈ Rd , ǫ, β > 0 und k≥ 4 + 2β log n − ǫ3 /3 ǫ2 /2 Sei Q eine k×d Matrix, deren Einträge unabhängige Zufallsvariablen sind, die der Verteilung ( 1 √ mit Wahrscheinlichkeit 12 k Q (i, j) = − √1k mit Wahrscheinlichkeit 21 genügen. Dann gilt mit einer Wahrscheinlichkeit von mindestens 1 − 1/nβ (1 − ǫ) kvi − vj k22 ≤ kQvi − Qvj k22 ≤ (1 + ǫ) kvi − vj k22 für alle Paare (i, j) mit 1 ≤ i, j ≤ n. Der Parameter β kontrolliert (so wie in Bemerkung 6.2.3 die Anzahl K der Wiederholungen) die Erfolgswahrscheinlichkeit der Projektion. Insbesondere erhalten wir mit β = 1 jene Version, die wir in Kapitel 5, Satz 5.4.2 verwenden. Für β → 0 erhalten wir die Konstanten aus Satz 6.1.1. Dies sieht man wie folgt: Die Misserfolgswahrscheinlichkeit der Projektion für 2 . Wie im ein einzelnes Paar u, v ∈ V lässt sich in dieser Formulierung abschätzen durch n2+β Beweis von Satz 6.1.1 erhalten wir insgesamt für die Erfolgswahrscheinlichkeit der Projektion 2 die Abschätzung 1 − n(n−1) . Für β → 0 beträgt sie also 1/n, für β = 1 erhalten wir 2 n2+β 2 n −n+1 1 < 1 − n. n2 65 66 Kapitel 7 Der Satz von Weyl Bis jetzt haben wir uns im Wesentlichen nur mit Eigenwerten von Matrizen und dem diskreten Laplace-Operator beschäftigt. Wir gehen nun einen Schritt weiter und betrachten die Eigenwerte des Laplace-Operators auf Gebieten im Rd . 7.1 Vorbemerkungen Wir betrachten in diesem Abschnitt für ein beschränktes Gebiet B mit zweimal stetig differenzierbarem Rand das Wärmeleitungsproblem 1 ∂u (t, x) = ∆u (t, x) ∂t 2 u (0, x) = f (x) u = 0. (7.1) ∂B Wir wollen in diesem Kapitel den Satz von Weyl und damit einige Aussagen über die Eigenwerte dieses Problems und deren asymptotisches Verhalten treffen. Grundsätzlich gibt es dafür zwei verschiedene Zugänge: Der erste führt über die Theorie der Integralgleichungen (siehe dazu [11]), der zweite und auch unser Zugang ist stochastischer Natur, da die Fundamentallösungen von (7.1) gleichzeitig die Dichten der Übergangswahrscheinlichkeiten einer Brown’schen Bewegung sind, die beim Austritt aus B gestoppt wird. In den ersten beiden Abschnitten werden wir die Brown’sche Bewegung näher untersuchen, um dann im dritten Teil den Satz beweisen zu können. Als Grundlage dafür dienen die Bücher von Bass und Port & Stone (siehe [3, 21]). Spektralsatz Die Basis der gesamten Beweisführung liefert der Spektralsatz für kompakte, selbstadjungierte Operatoren. Wir werden zeigen, dass die uns interessierenden Operatoren tatsächlich kompakt und selbstadjungiert sind, um von der Spektraldekomposition Gebrauch machen zu können. Weiteres dazu kann in jedem Standardwerk zur Funktionalanalysis gefunden werden, siehe etwa [19]. Satz 7.1.1 (Spektralsatz). Sei H ein separabler Hilbertraum mit dem inneren Produkt h·, ·i und T : H → H ein kompakter, selbstadjungierter Operator. Dann existiert ein Orthonormalsystem {xn : n ∈ N} in H und eine Folge reeller Zahlen {λn : n ∈ N}, sodass gilt: 67 1. Für alle n ∈ N ist T xn = λn xn . 2. limn→∞ λn = 0. 3. Ist z ∈ span{xn : n ∈ N}, so gilt T z = ⊥ P∞ n=1 λn hz, xn ixn . 4. Ist z ∈ span{xn : n ∈ N} , so gilt T z = 0. 7.2 Brown’sche Bewegung In diesem Abschnitt definieren wir die Brown’sche Bewegung und fassen einige wichtige Eigenschaften zusammen, die wir als Basis für die nachfolgenden Abschnitte benötigen. Grundlegende Begriffe und Resultate der Wahrscheinlichkeitstheorie werden vorausgesetzt und können etwa in [12] gefunden werden. Definition 7.2.1. Für t > 0 sei p (t, ·) die Dichte der Normalverteilung auf Rd , definiert über d p (t, y) = (2πt)− 2 e− kyk2 2t füry ∈ Rd . Desweiteren definieren wir p (t, x, y) := p (t, y − x) für x, y ∈ Rd . Die Dichten p sind symmetrisch in x und y und erfüllen für s, t > 0 und x, y ∈ Rd die Halbgruppeneigenschaft ˆ p (s + t, x, y) = p (s, x, z) p (t, z, y) dz. Sei weiters (Ω, F, P) ein Wahrscheinlichkeitsraum, B die Borel’sche Sigma-Algebra auf [0, ∞) und X (t, ω) = Xt (ω) = ω (t) ein stochastischer Prozess definiert auf [0, ∞) × Ω. Definition 7.2.2. Der stochastische Prozess Xt heißt eindimensionale Brown’sche Bewegung mit Startpunkt x ∈ R, falls er folgende Bedingungen erfüllt: 1. X0 = x fast sicher, 2. für alle s ≤ t ist Xt − Xs normalverteilt mit Mittelwert 0 und Varianz t − s, 3. für alle s ≤ t sind die Zuwächse Xt − Xs unabhängig von σ (Xr , r ≤ s) und 4. die Abbildung t −→ Xt (ω) ist mit Wahrscheinlichkeit 1 stetig. Hierbei bezeichne σ (Xr ; r ≤ s) die kleinste Sigma-Algebra, bezüglich derer jedes Xr mit r ≤ s messbar ist. Seien Xt1 , · · · , Xtd unabhängige, eindimensionale Brown’sche Bewegungen. Dann definieren wir eine d-dimensionale Brown’sche Bewegung über Xt := Xt1 , · · · , Xtd . Im Folgenden sei Ω die Menge aller stetigen Funktionen (Pfade) von [0, ∞) nach Rd und ω ∈ Ω. Es lässt sich nun zeigen (siehe etwas [3]), dass Xt genau dann eine d-dimensionale 68 Brown’sche Bewegung mit Startpunkt x ist, wenn für 0 ≤ t1 < t2 < · · · < tn die Zufallsvariablen {X(ti )}1≤i≤n die gemeinsame Verteilungsdichte p (t1 , x, x1 ) p (t2 − t1 , x1 , x2 ) · · · p (tn − tn−1 , xn−1 , xn ) mit x1 , · · · xn ∈ Rd besitzen. Außerdem existiert für jedes x ∈ Rd ein eindeutiges Wahrscheinlichkeitsmaß Px , das der Brown’schen Bewegung mit Startpunkt x entspricht. 7.3 Gestoppte Brown’sche Bewegung Sei pB (t, x, y) die Übergangswahrscheinlichkeit einer Brown’schen Bewegung, die beim Austritt aus dem Gebiet B gestoppt wird. Ziel dieses Abschnitts ist es, eine explizite Darstellung für pB (t, x, y) anzugeben und zu zeigen, dass pB genauso wie p symmetrisch in x und y ist und einer Halbgruppeneigenschaft genügt. Zunächst wollen wir die Definition von pB heuristisch motivieren. Sei τB (ω) die Austrittszeit der Brown’schen Bewegung aus dem Gebiet B. Es ist p (t, x, y) dy = Px (Xt ∈ dy) = Px (Xt ∈ dy; τB ≥ t) + Px (Xt ∈ dy; τB < t) Der erste Term auf der rechten Seite entspricht genau pB (t, x, y), den zweiten können wir mittels der starken Markov-Eigenschaft schreiben als Ex PXτB (Xt−τB ∈ dy) ; τB < t oder äquivalent dazu Ex [p (t − τB , XτB , y) ; τB < t] . Genau diese Relation verwenden wir nun, um pB zu definieren. Sei rB (t, x, y) := Ex [p (t − τB , XτB , y) ; τB < t] (7.2) pB (t, x, y) := p (t, x, y) − rB (t, x, y) . (7.3) und Integrieren wir (7.3) nun über eine Menge A, so erhalten wir ˆ ˆ ˆ ˆ p (t − τB , XτB , y) p (t, x, ye) de y dy, p (t, x, y)dy + pB (t, x, y) dy = A A A τB <t wobei wir den Erwartungswert als Integral geschrieben haben. Nach Vertauschen der Integrationsreihenfolge ist die rechte Seite weiter gleich Px (Xt ∈ A) − Ex EXτB [1A (Xt−τB )] ; τB < t . Für den zweiten Term verwenden wir die Markov-Eigenschaft in folgender Form: Für s, r ≥ 0 gilt Ex f (Xs+r ) = Ex EXs f (Xr ) . Die starke Markov-Eigenschaft besagt, dass s auch eine Stoppzeit sein kann. Damit ist obiger Ausdruck weiter äquivalent zu Ex 1A (Xt ) − Ex [1A (Xt ) ; τB < t] = Ex [1A (Xt ) ; τB ≥ t] = Px (Xt ∈ A; τB ≥ t) . Also ist pB (t, x, y) eine Wahrscheinlichkeitsdichte für Px (Xt ∈ A; τB ≥ t) und folglich fast überall nicht-negativ. Zusammenfassend können wir somit schreiben: 69 Definition 7.3.1. Sei A ⊆ Rd , x ∈ Rd und t ≥ 0. Sei x pB (x, A) := P (X (t) ∈ A; τB > t) = ˆ pB (t, x, y) dy A und für eine Funktion f ≥ 0 auf Rd ptB f x = E (f (X (t)) , τB > t) = ˆ pB (t, x, y) f (y) dy. Tatsächlich gilt aber nicht nur pB (t, x, y) ≥ 0 fast überall, sondern sogar Lemma 7.3.2. pB (t, x, y) ≥ 0 für alle x, y ∈ Rd . Beweis. Sei für ǫ > 0 ǫ rB (t, x, y) := Ex [p (t − τB , XτB , y) ; τB < t − ǫ] . Diese Funktionen sind stetig in y, da p (s, u, v) beschränkt und stetig als Funktion von (s, u, v) ǫ (t, x, y) für ǫ → 0 von unten gegen r (t, x, y) konvergiert, ist r (t, x, y) für s ≥ ǫ ist. Da rB B B unterhalbstetig und damit pB (t, x, y) oberhalbstetig. Da pB (t, x, ·) ≥ 0 fast überall auf Rd , folgt damit die Behauptung. Die Aussage des nächsten Resultates ist, dass sich die Brown’sche Bewegung im Rd und jene, die im Inneren des Gebietes B ihren Ausgangspunkt hat und beim Austritt aus B gestoppt wird, kurz nach dem Start kaum unterscheiden. Für die Brown’sche Bewegung ist der Rand des Gebietes also noch nicht sichtbar“. ” Lemma 7.3.3. Sei B ∈ B und a ∈ B. Dann existiert ein r > 0 sodass pB (t, x, y) =1 t→0 p (t, x, y) lim gleichmäßig für x, y ∈ Br (a). Insbesondere gilt für x ∈ B lim t→0 pB (t, x, x) = 1. p (t, x, x) Bevor wir uns dem Beweis zuwenden, zeigen wir folgende Monotonieaussage: d α2 Lemma 7.3.4. Die Funktion g(u) := (2πu)− 2 e 2u ist für 0 ≤ u ≤ α2 d monoton wachsend. Beweis. Leiten wir g(u) ab, so erhalten wir dg (2πu)−d/2 α2 2 (u) = e 2u α + du . 2 du 2u Damit g(u) monoton wachsend ist, muss dieser Ausdruck nicht-negativ sein. Da d positiv ist, ist dies ist der Fall, falls u > 0 und α2 + du ≥ 0 ist, also insgesamt 0<u≤ gilt. 70 α2 d Beweis zu Lemma 7.3.3. Sei ∂B der Rand des Gebietes B und d (a, ∂B) = min{x ∈ ∂B : . Sei Br (a) die Kugel um a mit Radius r. Wir kx − ak}. Sei weiters r > 0 so, dass r < d(a,∂B) 3 wählen x, y ∈ Br (a) und setzen α := d (y, ∂B). Dann ist α + r > d (a, ∂B), 2r < d (a, ∂B) − r und damit kx − yk ≤ 2r < d (a, B) − r < α. Sei nun t ≤ α2 d . Wegen Lemma 7.3.4 gilt für 0 ≤ s < t und z ∈ /B p (t − s, z, y) ≤ 2 1 (2π (t − s)) e d/2 α − 2(t−s) ≤ 1 α2 (2πt) e− 2t . d/2 Damit folgt weiter rB (t, x, y) = Ex (p (t − τB , X (τB ) , y) ; τB < t) ≤ 1 (2πt) α2 e− 2t d/2 und damit 2 −(2r)2 (α α2 −ky−xk2 rB (t, x, y) 2t ≤ e− ≤ e− p (t, x, y) Also konvergiert rB (t,x,y) p(t,x,y) 2t ) . für t → 0 gleichmäßig gegen null für alle x, y ∈ Br (a). Da pB (t, x, y) = p (t, x, y) − rB (t, x, y) gilt pB (t, x, y) rB (t, x, y) =1− , p (t, x, y) p (t, x, y) woraus die Behauptung folgt. Der nächste Satz besagt, dass pB (t, x, y) genauso wie p (t, x, y) symmetrisch in x und y ist. Satz 7.3.5. Für alle x, y ∈ Rd und alle t > 0 gilt pB (t, x, y) = pB (t, y, x). Der Beweis dazu ist aufwändig und ist im Appendix, Abschnitt 8.1 zu finden. Die Idee dabei ist, zunächst die Symmetrie über Gleichheit eines Integral-Termes und somit für fast alle Paare (x, y) zu zeigen, ein technisches Konvergenzlemma liefert dann den Übergang auf alle (x, y). Als nächstes benötigen wir die Halbgruppeneigenschaft von pB : Satz 7.3.6. Sei B eine Borel-Menge, t > 0 und x, y ∈ Rd . Dann genügt pB der Halbgruppeneigenschaft ˆ pB (s + t, x, y) = pB (s, x, z) pB (t, z, y) dz 71 Beweis. Wir zeigen zunächst die Halbgruppeneigenschaft der Operatoren ptB für t ≥ 0. Sei f beschränkt auf Rd und der Shift-Operator θt definiert über X(s, θt ω) = X(s + t, ω). Laut Definition ist x x ps+t B f (x) = E (f (X (s + t)) , τB > s + t) = E (f (X (t, θs ω)) , τB · θs > t, τB > s) . Mit der starken Markov-Eigenschaft ist dieser Ausdruck äquivalent zu Ex EX(s) (f (X (t)) , τB > t) , τB > s und unter Verwendung der Definition von ptB gleich Ex ptB f (X (s)) , τB > s = psB ptB f (x) . s+t s t t ´Insgesamt haben wir also pB = pB pB für s, t ≥ 0. dDa laut Definition 7.3.1 pB f = pB (t, x, y) f (y) dy ist, gilt außerdem für fast alle u ∈ R ˆ pB (s + t, x, u) = pB (s, x, z) pB (t, z, u) dz. Für 0 < a < t erhalten wir daraus ˆ ˆ ˆ pB (s + t − a, x, u) p (a, u, y) du = pB (s, x, z) pB (t − a, z, u) p (a, u, y) dzdu. (7.4) Vertauschen wir die Integrationsreihenfolge, so ist die rechte Seite gleich ˆ pB (s, x, z) [pB (t − a, z, u) p (a, u, y) du] dz. Mit dem ersten Teil von Lemma 8.1.3 konvergiert der Klammerausdruck für a ↓ 0 gegen pB (t, z, y) und die linke Seite von (7.4) gegen pB (s + t, x, y). Insgesamt erhalten wir wie behauptet ˆ pB (s + t, x, y) = pB (s, x, z) pB (t, z, y) dz. Die Symmetrie und die Halbgruppeneigenschaft von p übertragen sich also auch auf pB . 7.4 Der Satz von Weyl Unser nächstes Ziel ist nun, die im vorhergehenden Abschnitt gewonnenen Resultate über die Brown’sche Bewegung zu verwenden, um zwei Abschätzungen von Weyl und Carleman zu beweisen. Diese liefern uns Formeln für die asymptotische Verteilung der Eigenwerte und Eigenfunktionen des Operators ptB . Wir verwenden dazu einen zentralen Satz der Maßtheorie, bekannt als Karamata’s Tauberian Theorem“, der in [27] zu finden ist. Im Folgenden sei B ” immer eine nichtleere, offene Teilmenge des Rd mit endlichem Lebesgue-Maß ´ |B|. Sei L2 = L2 (B) wie üblich der Hilbertraum aller Funktionen f : B → B mit kf k22 = B f 2 (x) dx < ∞. Wir sammeln noch einige Abschätzungen und Eigenschaften von pB , die wir später benötigen werden. 72 Lemma 7.4.1. Sei x ∈ B. Dann gilt ˆ p2B (t, x, y) dy = pB (2t, x, x) ≤ p (2t, 0) = 1 (7.5) d (4πt) 2 und ˆ ˆ p2B (t, x, y) dxdy = ˆ pB (2t, x, x) dx ≤ |B|p (2t, 0) = |B| d . (7.6) (4πt) 2 Beweis. Mit der Symmetrie (Satz 7.3.5) und der Halbgruppeneigenschaft (Satz 7.3.6) von pB erhalten wir ˆ ˆ 2 pB (t, x, y) dy = pB (t, x, y) pB (t, y, x) dy = pB (2t, x, x) . Weiters ist pB (t, x, y) ≤ p (t, x, y) für alle x, y ∈ Rd und damit pB (2t, x, x) ≤ p (2t, x, x) = p (2t, 0) = 1 d , (4πt) 2 womit (7.5) gezeigt ist. Integration des obigen Ausdrucks liefert ˆ ˆ |B| pB (2t, x, x) dx ≤ p (2t, x, x) dx ≤ d (4πt) 2 und damit (7.6). Nun wollen wir uns dem Operator ptB zuwenden: Lemma 7.4.2. Der Operator ptB ist beschränkt und linear mit Norm kleiner gleich 1. Für f ∈ L2 ist also t 2 pB f ≤ kf k2 . (7.7) 2 2 Beweis. Laut Definition ist 2 ˆ ˆ ˆ t 2 2 t pB f = pB f (x) dx = pB (t, x, y) f (y) dy dx. 2 Nun schätzen wir das innere Integral mittels der Cauchy-Schwarz-Ungleichung ab. Dazu schreiben wir den Integranden zunächst etwas anders an: ˆ ˆ pB (t, x, y) f (y) dy 2 dx = ˆ ˆ p p 2 pB (t, x, y) · pB (t, x, y)f (y) dy dx Dies lässt sich nun nach oben mit ˆ ˆ ˆ 2 pB (t, x, y) dy dx pB (t, x, y) f (y) dy 73 abschätzen. Da pB eine Wahrscheinlichkeitsdichte ist, lässt sich dieser Ausdruck nach Vertauschen der Integrationsreihenfolge weiter abschätzen mit ˆ ˆ pB (t, x, y) dx f 2 (y) dy und dieses Integral wiederum mit ˆ f 2 (y) dy = kf k22 , was insgesamt wie behauptet t 2 pB f ≤ kf k2 2 2 liefert. Lemma 7.4.3. Es gilt für alle t > 0 und f, g ∈ L2 ˆ ˆ t t pB f, g = pB f (x) g (x) dx = f (x) ptB g (x) dx = f, ptB g , die Operatoren ptB sind also selbstadjungiert. Beweis. Aus der Definition erhalten wir ˆ ˆ ˆ t t pB f, g = pB f (x) g (x) dx = pB (t, x, y) f (y) g (x) dydx. Mit der Symmetrie von pB und nach Vertauschen der Integrationsreihenfolge ist dies äquivalent zu ˆ ˆ ˆ f (y) pB (t, y, x) g (x) dydx = f (y) ptB g (y) dy = f, ptB g wie behauptet. Im nächsten Schritt beweisen wir: Lemma 7.4.4. Der Operator ptB ist injektiv für alle t > 0. Beweis. Wir zeigen, dass der Kern des Operators ptB nur die konstante Nullfunktion beinhaltet. Zunächst bemerken wir, dass für eine stetige Funktion f mit kompaktem Träger in B gilt lim ptB f = f. t→0 Dies folgt, da lim ptB f (x) = lim pB (t, x, y) f (y) dy t→0 t→0 74 (7.8) und pB eine Dirac-Folge ist. Weiters liegt die Menge aller stetigen Funktionen mit kompaktem Träger dicht in L2 , somit gilt (7.8) für alle f ∈ L2 . Sei nun f ∈ L2 und ptB f = 0. Dann gilt mit der Selbstadjungiertheit und der Halbgruppeneigenschaft von ptB D E t/2 t/2 pB f, pB f = f, ptB f = hf, 0i = 0 t/2n t/2 und damit auch pB f = 0. Mittels Induktion erhalten wir daraus pB f = 0 für alle n ∈ N und weiter t/2n f = lim pB f = 0. n→∞ Somit ist f die Nullfunktion, ptB also injektiv. Insgesamt folgt nun, dass ptB ein kompakter, selbstadjungierter Operator ist. Wir können also den Spektralsatz anwenden und erhalten daraus für jedes t > 0: 1. Der Operator ptB besitzt Eigenwerte µ1 ≥ µ2 ≥ . . . und Eigenfunktionen ϕ1 , ϕ2 , . . .. 2. Für die Eigenwerte µi gilt: limi→∞ µi = 0 3. Die Eigenfunktionen ϕi bilden eine Orthonormalbasis für L2 (B). Aus der Beschränktheit und Stetigkeit von pB (t, x, y) lässt sich ableiten, dass wir die Eigenfunktionen beschränkt und stetig auf B annehmen können. Weiters sind alle Eigenwerte positiv. Ist µ ein beliebiger Eigenwert von ptB und ϕ die zugehörige Eigenfunktion, so gilt D t/2 t/2 E µhϕ, ϕi = ptB ϕ, ϕ = pB , pB ≥ 0. Da hϕ, ϕi ≥ 0 ist, gilt auch µ ≥ 0 und aufgrund der Injektivität sogar µ > 0. Seien nun im Speziellen µ und ϕ ein Eigenwert und die dazugehörige Eigenfunktion von p1B . Wir setzen λ := − ln µ und zeigen nun, wie sich daraus eine Darstellung für die Eigenwerte von ptB für allgemeines t gewinnen lässt: Lemma 7.4.5. Für alle t > 0 gilt ptB ϕ = e−λt ϕ. Beweis. Da laut Definition λ = − ln µ ist, gilt p1B ϕ = µϕ = e−λ ϕ. Somit ist 1/2 1/2 0 = p1B − µ ϕ = pB + µ1/2 pB − µ1/2 ϕ. 1/2 Wir setzen ψ := pB − µ1/2 ϕ und erhalten damit weiter 2 1/2 1/2 2 1/4 2 0 = pB + µ1/2 ψ = pB ψ + µkψk22 + 2µ1/2 pB ψ . 2 2 2 Da kein Term der rechten Seite negativ sein kann, muss jeder Summand einzeln verschwinden. Nun ist aber µ > 0, also muss kψk22 = 0 und damit ψ = 0 gelten. Daraus folgt 1/2 pB ϕ = µ1/2 ϕ. 75 Mit Induktion erhalten wir nun, dass ptB ϕ = µt ϕ (7.9) auch für alle t der Gestalt t = 21n mit n ∈ N gilt. Mit der Halbgruppeneigenschaft von ptB folgt (7.9) auch für alle t der Form t = 2mn mit m, n ∈ N. Aufgrund der Stetigkeit gilt die Beziehung schließlich auch für alle anderen t ∈ R+ . 1 ∞ Wir setzen nun λi := − ln µi für alle Eigenwerte 1 µi von pB . Dann ist {λi }i=1 monoton wachsend und positiv, da wegen Lemma 7.4.2 pB ≤ 1 und damit µ1 ≤ 1 ist. Die Eigenwerte ∞ von ptB lassen sich damit als die Folge e−λi t i=1 darstellen. Weiters ist pB (t, x, ·) ∈ L2 , da mit (7.5) gilt ˆ 1 2 . (7.10) kpB (t, x, ·)k2 = p2B (t, x, y) dy = pB (2t, x, x) ≤ (4πt)d/2 Nun entwickeln wir diese Funktion für fixes x bezüglich der Basis φi : 2 X X (psB φn (x))2 e−λn s φn (x) = n n = X ˆ pxB (s, x, y) φn (y) dy n = X n 2 hpB , φn i2 Da die Funktionen ϕi ein Orthonormalsystem bilden, ist der letzte Ausdruck äquivalent zu kpB (s, x, ·)k22 und dies wiederum wegen (7.10) gleich pB (2s, x, x). Mit t := 2s erhalten wir also X (7.11) pB (t, x, x) = e−λn t ϕ2n (x) n und nach Integration, da ´ ϕi ϕj = δij für alle i, j ∈ N, ˆ X e−λn t . pB (t, x, x) dx = (7.12) n Mit diesen beiden Identitäten sind wir nun in der Lage, den Satz von Weyl beweisen, indem wir ihn auf den Satz von Karamata zurückführen. Zuvor wollen wir aber der Übersichtlichkeit halber nocheinmal den Bezug zum Anfangswertproblem (7.1) herstellen: Satz 7.4.6. Sei B ∈ Rd beschränkt mit zweimal stetig differenzierbarem Rand. Dann gilt: 1. u (t, x) := ptB f (x) löst das Anfangswertproblem (7.1). 2. Die Operatoren ptB sind selbstadjungiert und kompakt. 3. Sie besizten Eigenwerte und Eigenfunktionen {µi } und {ϕi }. Es ist µi = e−λi t für eine Folge reeller Zahlen 0 < λ1 ≤ λ2 ≤ . . . und damit ptB ϕi = µi ϕi = e−λi t ϕi . 76 4. Die ϕi sind ebenfalls Eigenfunktionen des Operators ∆ 2 zu den Eigenwerten −λi , ∆ ϕi = −λi ϕi . 2 Beweis. Zu zeigen ist nur mehr Punkt 4. Es gilt 1 ∂ t p ϕi = ∆e−λi t ϕi ∂t B 2 und damit nach Integration über t, da λi > 0 für alle i ptB ϕi = − 1 ∆ϕi , 2λi woraus die Behauptung folgt. Satz 7.4.7 (Weyl, Carleman [27]). Sei x ∈ B. Dann gilt lim λ−d/2 λ→∞ X ϕ2n (x) = λn ≤λ 1 (2π)d/2 Γ (d/2 + 1) =: CW eyl und lim λ−d/2 λ→∞ X = λn ≤λ (2π) d/2 |B| Γ (d/2 + 1) = CW eyl |B| Satz 7.4.8 (Karamata, [27]). Sei µ ein Maß auf R+ , γ und c ∈ R+ . Falls ˆ ∞ γ lim t e−tλ dµ (λ) = c, t→0 0 so gilt lim λ−γ µ ([0, λ]) λ→∞ c . Γ (γ + 1) Beweis. Siehe [27]. Wir können nun den Satz von Weyl und Carleman beweisen: Beweis zu Satz 7.4.7. Sei x ∈ B. Nach Lemma 7.3.3 ist lim t→0 pB (t, x, x) pB (t, x, x) = 1. = lim d t→0 p (t, x, x) (2πt)− 2 Wir definieren das Punktmaß µ über µ [0, λ] = X ϕ2n (x) . λn ≤λ Damit gilt nun 1 = lim t→0 pB (t, x, x) (2πt) − d2 = lim (2πt) t→0 d 2 X e−λn t ϕ2n (x) λn ≤λ 77 = lim (2πt) t→0 d 2 ˆ e−λt dµ (λ) (7.13) also d d (2π)− 2 = lim t 2 t→0 ˆ e−λt dµ (λ) . Mit Satz 7.4.8 folgt also lim λ λ→∞ − d2 X d (2π)− 2 , = Γ d2 + 1 ϕ2n (x) λn ≤λ was der ersten Behauptung entspricht. Die zweite Identität folgt analog mit dem Maß µ [0, λ] := X 1. λn ≤λ Integration von (7.13) liefert d |B| = lim (2πt)− 2 t→0 X e−λn t λn ≤λ und Satz 7.4.8 damit d lim λ− 2 λ→∞ 7.5 7.5.1 X 1= (2π) λn ≤λ d/2 |B| Γ (d/2 + 1) . Heat Triangulation Das Heat Triangulation Theorem Wir möchten in diesem Abschnitt auf das Paper [17] von Jones, Maggioni und Schul eingehen. Dieses beschäftigt sich mit der lokalen Parametrisierung durch Diffusionskerne und Eigenfunktionen des Laplace-Operators und bedient sich unter anderem der Resultate aus den vorangegangenen Abschnitten. Aus Gründen der Übersichtlichkeit schreiben wir im Folgenden für ein Gebiet Ω den Diffusionskern pΩ (x, y, t) als Kt (x, y). Sei Ω ein Gebiet in Rd mit |Ω| = 1, ∆ der Laplace-Operator auf dem Gebiet Ω mit Dirichlet- oder Neumann-Randbedingungen. Außerdem sei Ω so, dass das Spektrum des Laplace-Operators diskret ist und sich die Diffusionskerne darstellen lassen als Kt (z, w) = ∞ X e−λj t φj (z)φj (w) (7.14) j=1 mit φ1 , φ2 , . . . so, dass sie eine Orthonormalbasis von Eigenfunktionen des Laplace-Operators bilden. 78 Satz 7.5.1 (Einbettung über Eigenfunktionen, [17]). Sei Ω ein Gebiet, das alle obigen Voraussetzungen erfüllt. Für jedes z ∈ Ω sei weiters ρz ≤ d(z, ∂Ω). Dann existieren Konstanten c1 , . . . , c6 , die nur von der Dimension des Gebietes und CW eyl abhängen, sodass gilt: Es gibt d/2 natürliche Zahlen j1 , . . . , jd und Konstanten c6 ρz ≤ γ1 , . . . , γ6 ≤ 1, für die die Abbildung Φ : Bc1 ρz (z) → Rd x → (γ1 φj1 (x), . . . , γd φjd (x)) für alle x, y ∈ Bc1 ρz (z) c2 c3 kx − yk ≤ kΦ(x) − Φ(y)k ≤ kx − yk ρz ρz erfüllt und weiters die zugeordneten Eigenwerte der Abschätzung c4 c6 ≤ λj 1 , . . . , λj d ≤ 2 2 ρz ρz genügen. Die d Eigenfunktionen aus Satz 7.5.1 lassen sich durch d Diffusionskerne {Kt (z, yi )}1≤i≤d ersetzen, die im Beweis von Satz 7.5.1 entstehen. Das liefert eine Einbettung mit noch besseren Eigenschaften: Satz 7.5.2 (Heat Triangulation, [17]). Sei Ω ein Gebiet, das alle obigen Voraussetzungen erfüllt, jedoch ohne Einschränkung bezüglich |Ω|. Für jedes z ∈ Ω seien weiters ρz ≤ d(z, ∂Ω). Sind p1 , . . . , pd linear unabhängige Richtungen, so gibt es positive Konstanten c1 , . . . , c6 , die nur von d und dem kleinsten und größten Eigenwert der Gram-Matrix (hpi , pj i)1≤i,j≤d abhängen, sodass gilt: Ist yi so, dass yi − z parallel zu pi ist, für alle 1 ≤ i ≤ d c4 ρz ≤ kyi − zk ≤ c5 ρz gilt und tz = c6 ρ2z ist, so genügt die Abbildung Φ : Bc1 ρz (z) → Rd x → ρdz Ktz (x, y1 ), . . . , ρdz Ktz (x, yd ) für alle x1 , x2 ∈ Bc1 ρz (z) der Abschätzung c3 c2 kx1 − x2 k ≤ kΦ(x1 ) − Φ(x2 )k ≤ kx1 − x2 k. ρz ρz Zur Illustration sei ein einfaches Beispiel angeführt: Beispiel 7.5.3. Wir betrachten das Intervall (−r, r) in R, also den Fall d = 1, z = 0 und ρz = r. Als Richtung wählen wir p = 1. Da für y gelten muss y ∼cc54 ρz , können wir c4 = c5 = 1 wählen, womit y = r ist. Genauso setzen wir c6 = 1 und erhalten tz = c6 ρ2z = r2 . In R besitzt der euklidische Diffusionskern die Form Kt (x, y) = √ −|x−y|2 1 e 4t , 4πt 79 0.25 0.20 0.15 0.10 0.05 -0.4 0.2 -0.2 0.4 Abbildung 7.1: Die Parametrisierung Φ mit r = 0.4. unsere Abbildung ist also Φ : Bc1 r (0) → R 1 −|x−r|2 x → rKr2 (x, r) = √ e 4r2 . 4π Man beachte, dass Φ unabhängig vom Radius r ist. In Abbildung 7.1 ist die Parametrisierung dargestellt. Hieraus ist ersichtlich, dass am Rand des Intervalls die Ableitung von Φ gegen null geht. Die Parametrisierung besitzt also nicht auf dem ganzen Intervall (−r, r) eine gute Qualität; in der Tat behauptet der Satz dies auch nur für ein (kleineres) Intervall (−c1 r, c1 r). Aus einer besseren Wahl der Parameter c4 , c5 und c6 können wir auch durchaus einen größeren Bereich bekommen, in dem die Paramtrisierung zufriedenstellend ist. Beide Sätze lassen sich auch auf bestimmte Klassen von Mannigfaltigkeiten erweitern. In diesem Fall hängen die auftretenden Konstanten jedoch auch von der Mannigfaltigkeit selbst ab und nicht nur von der Dimension, wie es für Gebiete im Rd der Fall ist. Für den vollständigen Beweis sei auf [17] verwiesen, hier geben wir die wesentlichen Schritte des Beweises von Satz 7.5.1 an und wie sich daraus Satz 7.5.2 ableiten lässt. Die grobe Struktur ist wie folgt: 1. Zunächst wählen wir eine Richtung p1 im Punkt z, zu der wir eine Eigenfunktion φi C i suchen, die auf Bc1 ρz (z) der Abschätzung ∂φ ∂pi ≤ ρz genügt. Dazu zeigt man, dass der Gradient des Diffusionskerns auf einem Ring um einen Punkt y1 groß ist. Dieses y1 wird so gewählt, dass z im Ring und in Richtung p1 liegt. 2. Auf diesem Ring lässt sich der Diffusionskern und sein Gradient durch eine endliche Teilsumme von (7.14) annähern, sodass für alle darin auftretenden Eigenfunktionen φi und die Eigenwerte λi gilt K1 K2 ≤ λi ≤ 2 ρ2z ρz (7.15) und kφi kL2 (Bc 1 ρz (z)) d/2 ρz für Konstanten K1 , K2 und K3 . 80 ≥ K3 (7.16) i 3. Nach dem Schubfachprinzip existiert dann zumindest eine Richtung φi1 , für die ∂φ ∂pi groß ist. Für dieses φi1 betrachtet man ∇φi1 und wählt eine Richtung p2 ⊥∇φi1 . Induktiv erhält man dann φi1 , . . . , φid , die Abschätzungen der Form (7.16) genügen. 4. Von der daraus gewonnenen Abbildung Φ = (φi1 , . . . , φid ) lässt sich zeigen, dass sie den gewünschten Eigenschaften genügt. 7.5.2 Beweis Im Folgenden bedeute f (x) .c1 ,...,cn g(x), für zwei Funktionen f und g, dass eine Konstante C existiert, die ausschließlich von c1 , . . . , cn abhängt, sodass für alle x im Definitionsbereich gilt f (x) ≤ Cg(x). Gilt f (x) .c1 ,...,cn g(x) und g(x) .c1 ,...,cn f (x), so schreiben wir f (x) ∼c1 ,...,cn g(x). Bilden f und g in den Rd ab, so sind die Ungleichungen komponentenweise 2 zu verstehen. Für zwei Vektoren a, b schreiben wir a ∼C C1 b, falls (ebenfalls komponentenweise) gilt C1 b ≤ a ≤ C2 b. Die Richtungsableitung ∂p Kt (·, ·) beziehe sich, soweit nicht anders angegeben, immer auf die zweite Variable des Diffusionskerns zum Zeitpunkt t. Als ersten Schritt benötigen wir einige Abschätzungen für den Diffusionskern. Für Dirichlet-Randbedingungen haben wir einen Großteil derer in den vorangegegangenen beiden Abschnitten bewiesen. Proposition 7.5.4. Seien δ0 , δ1 > 0 hinreichend klein und z, w ∈ Ω so, dass |z − w| < δ0 und δ1 /2ρz ≤ t1/2 ≤ δ0 ρz . Dann gibt es Konstanten C1 , C2 , C1′ , C2′ , C9 > 0, sodass gilt: 1. Der Diffusionskern erfüllt 2 Kt (z, w) ∼C C1 t −d 2 . (7.17) 2. Falls 1/2δ0 ρz < |z − w| ist, p der Einheitsvektor in Richtung |z − w| und q ein beliebiger Einheitsvektor, so ist C′ |∇Kt (z, w)| ∼C2′ t 1 −d 2 ρz C ′ −d ρz und |∂p Kt (z, w)| ∼C2′ t 2 , 1 t t (7.18) und −d ρz Rd , ∂ K (z, w) − ∂ K (z, w) q t ≤ C9 t 2 q t t (7.19) d wobei für fixes δ0 für δ1 → 0 auch C9 → 0. Mit KtR (z, w) sei der Diffusionskern im Rd bezeichnet. 3. Falls 1/2δ0 ρz < |z − w| ist und q so wie oben, dann ist für s ≤ t Ks (z, w) .C2 t −d 2 , |∇Ks (z, w)| .C2′ t −d 2 −d ρz ρz und |∂q Ks (z, w)| .C2′ t 2 . t t (7.20) 4. Für δ1 → 0 und fixes δ0 nähern sich C1 und C2 einer einzigen Funktion, die nur von d abhängt. Der nächste Schritt besteht darin, passend gewählte Diffusionskerne durch eine Menge an Eigenfunktionen zu ersetzen, indem wir die führenden Terme“ ihrer Spektralentwicklung ” herausnehmen. Wir werden Eigenfunktionen vernachlässigen, 81 1. die zu zu großen Eigenwerten gehören oder 2. deren Gradient um z zu klein ist. Seien ΛL (A) = {λj : λj ≤ At−1 }, ΛH (A′ ) = ΛL (A′ )C und !1/2 1 ΛE (p, z, ρz , δ0 , c0 ) = λj : ρz |∂p φj (z)| ≥ φj (z ′ )2 dz ′ , c0 B(z,1/2δ0 ρz ) ffl ´ wobei A f = |A|−1 A f das über das Integrationsgebiet gemittelte Integral bezeichne. Das folgende Lemma sagt uns, dass, für A > 1, A′ < 1 hinreichend groß bzw. klein, Eigenfunktionen aus ΛL (A) ∩ ΛH (A′ ) ∩ ΛE (p, z, ρz , δ0 , c0 ) (7.21) für unsere Zwecke gut geeignet sind. Lemma 7.5.5. Seien δ0 , δ1 > 0 hinreichend klein und z, w ∈ Ω so, dass |z − w| < δ0 und δ1 /2ρ(z) ≤ t1/2 ≤ δ0 ρz . Dann gibt es Konstanten C7 (c0 ), C8 (d) und b(c0 ), sodass Folgendes gilt: Sei p eine beliebige Richtung. Für alle j ∈ ΛE (p, z, ρz , δ0 , c0 ) und z ′ mit kz − z ′ k ≤ bδ0 ρz ist !1/2 ∂p φj (z ′ ) ∼C8 ρ−1 φ2j . z C7 B1/2δ0 ρz (z) Außerdem gibt es einen Index j in (7.21), sodass mit γφj := B1/2δ0 ρz (z) φ2j (z ′ )dz ′ !1/2 gilt γφj . (CW eyl )1/2 , mit Konstanten, die von A, C1 , C1′ , C2 , C2′ , Cg , d, δ0 und δ1 abhängen. Wir benötigen nun noch einige Abschätzungen für die Eigenfunktionen φj , die wir hier gesammelt anführen wollen: Proposition 7.5.6. Es gibt b1 < 1 und CP (d) > 0, sodass für jede Eigenfunktion φj von ∆ auf BR (z) mit R ≤ ρz für w, x, y ∈ Bb1 R (z) die folgenden Abschätzungen gelten: !1/2 |φj (w)| ≤ CP P1 (λj R2 ) P3 (λj R2 ) k∇φj (w)k ≤ CP R P5 (λj R2 ) k∇φj (x) − ∇φj (y)k ≤ CP R wobei Pi (x) = (1 + x)i/2+β mit β = d−2 4 . 82 BR (z) |φj |2 BR (z) BR (z) |φj | 2 |φj | 2 , !1/2 !1/2 , kx − yk, Damit können wir nun Satz 7.5.1 beweisen: Beweis zu Satz 7.5.1. Mittels Lemma 7.5.5 finden wir für eine vorgegebene Richtung eine passende Eigenfunktion. Um den Satz zu beweisen, benötigen wir d linear unabhängige Richtungen. Sei p1 eine beliebige Richtung. Aus Lemma 7.5.5 erhalten wir ein j1 ∈ ΛL (A) ∩ ΛH (A′ ) ∩ ΛE (p, z, ρz , δ0 , c0 ) mit j1 ∼ t−1 , sodass γφj1 ∂p1 φj1 (z) ≥ c0 /ρz . Sei nun p2 orthogonal zu ∇φj1(z). Eine erneute Anwendung von Lemma 7.5.5 liefert uns j2 < A/t, sodass γφj2 ∂p2 φj2 (z) ≥ c0 /ρz . Aus der Wahl von p2 folgt ∂p2 φj1 = 0. Induktiv wählen wir auf diese Art, sobald wir j1 , . . . , jk mit k < d und die dazugehörigen pℓ mit γφjℓ ∂pℓ φjℓ ≥ c0 /ρz erhalten haben, pk+1 orthogonal zu span ({∇φ und wenden neuerlich j1 (z), . . . , ∇φjk (z)}) Lemma 7.5.5 an, welches einen Index jk+1 mit γφjk+1 ∂pk+1 φjk+1 ≥ c0 /ρz liefert. Wir setzen γi = γφji . Dies sind genau die Konstanten, die im Satz auftreten. Weiters ist die Matrix Ak+1 := (γm ∂pn φjm (z))m,n=1,...,k+1 eine untere Dreiecksmatrix, woraus folgt, dass {p1 , . . . , pk+1 } linear unabhängig ist. Sei nun Φk = (γ1 φj1 , . . . , γk φjk ) und Φ = Φd . Wir zeigen, dass gilt Angenommen, es gelte ∇Φ (w − z) &d 1 kw − zk. z ρz ∇Φk (w − z) ≤ c kw − zk z ρz für alle k = 1, . . . , d. Für c hinreichend klein führt dies auf einen Widerspruch: Sei w − z = P ℓ aℓ pℓ . Dann folgt aus Lemma 7.5.5 ! X X 1 ∇Φk (w − z) = |aℓ | . aℓ ∂pℓ Φk z & |ak | − c z ρz ℓ≤k ℓ<k P Mit Induktion erhalten wir |ak | P ≤ kℓ=1 cℓ kw − zk. Für c klein genug ist damit |ai | ≤ kw−zk d , was aber ein Widerspruch zu k i ai pi k = kw − zk und kpi k = 1 ist. Aus Proposition 7.5.6 haben wir ∇Φ − ∇Φ . kz − wk 1 . z w ρz ρz ik Daraus folgt mit einer Konstante, die größer als kz−w für i = 1, 2 ist ρz ˆ 1 kΦ(w1 ) − Φ(w2 )k = ∇Φtw1 +(1−t)w2 (w1 − w2 )dt 0 ˆ 1 = ∇Φ w1 + ∇Φ tw1 +(1−t)w2 − ∇Φ w1 (w1 − w2 )dt 0 ˆ 1 1 kw1 − w2 kdt & 0 ρz c0 & kw1 − w2 k, ρz 83 was die untere Abschätzung in Satz 7.5.1 beweist. Aus Proposition 7.5.6 erhalten wir |γℓ ∂pℓ φiℓ (z)| . 1/ρz , was uns die obere Abschätzung liefert. Als Abschluss wollen wir noch zeigen, wie Satz 7.5.2 aus dem Beweis von Satz 7.5.1 folgt: Beweis zu Satz 7.5.2. Ohne Beschränkung der Allgemeinheit sei ρz = 1. Wir betrachten für e der Abbildung x ∈ Bc1 Rz (z) die Jacobi-Matrix J(x) d/2 t e := ρ−d Φ Φ. z t ρ2z Aus (7.19) in Proposition 7.5.4 folgt Jeij (x) − C2′ pi , x − yj /ρz ≤ C9 /ρz kx − yj k und dass, bei geeigneter Wahl von δ0 und δ1 , wir die Konstante C9 für alle x ∈ Bc1 ρz (z) kleiner als jedes beliebige ǫ (für alle Einträge) machen können, wobei wir t = tz = c6 ρ2z für e verwenden. Wir können also für c1 klein genug im Bezug auf c4 schreiben Φ e ρz J(x) = Gd + E(x), wobei (Gd )ij = hpi , pj i die (von x unabhängige) Gramsche Matrix ist und Eij (x) < ǫ für alle x ∈ Bc1 ρz (z). Sind σmin und σmax der größte und kleinste Eigenwert von Gd , so gilt damit σ σmin − Cd ǫ e max + Cd ǫ kvk ≤ J(x)v kvk, ≤ ρz ρz wobei Cd linear von d abhängt. An dieser Stelle wählen wir ǫ so klein (∼ 1/d), dass die JacobiMatrix aufgrund obiger Abschätzungen in Bc1 ρz (z) im Wesentlichen konstant ist. Integration über einen Weg von x1 zu x2 in Bc1 ρz (z) liefert die Aussage des Satzes. 84 Kapitel 8 Appendix 8.1 Beweis zu Satz 7.3.5 Satz 8.1.1. Für alle x, y ∈ Rd und alle t > 0 gilt pB (t, x, y) = pB (t, y, x). Zunächst zeigen wir die Symmetrie über Gleichheit eines Integral-Terms und somit für fast alle Paare (x, y), ein technisches Konvergenzlemma liefert dann den Übergang auf alle (x, y). Lemma 8.1.2. Für fast alle x, y ∈ Rd × Rd gilt pB (t, x, y) = pB (t, y, x). Beweis. Wir stellen pB (t, x, y) durch p (t, x, y) dar und benützen die Symmetrie von p (t, x, y). Seien A und C Borel-Mengen und B offen. Es ist ˆ ˆ ˆ pB (t, x, y) dydx = Px (Xt ∈ A, τB ≥ t) dx C A C und ˆ ˆ C pB (t, y, x) dydx = ˆ A A Py (Xt ∈ C, τB ≥ t) dy. Somit genügt es zu zeigen, dass ˆ ˆ Py (Xt ∈ C, τB ≥ t) dy Px (Xt ∈ A, τB ≥ t) dx = gilt. Sei nun tnj = als jt n. lim Da die Pfade von Xt stetig sind, läßt sich der erste Ausdruck schreiben ˆ n→∞ C Px0 X (tnn ) ∈ A, X (tn1 ) ∈ B, · · · , X tnn−1 ∈ B dx0 . Aufgrund der Markov-Eigenschaft der Brownschen Bewegung ist x (8.1) A C P (Xt1 ∈ A1 , · · · , Xtm ∈ Am ) = ˆ A1 85 ··· ˆ m Y Am k=1 p (tk − tk−1 , xk−1 , xk ) . Damit gilt, dass dieser Term äquivalent ist zu ˆ ˆ Y ˆ ˆ n t p ··· lim , xk−1 , xk dxn · · · dx0 . n→∞ C B n B A k=1 Da p (t, x, y) symmetrisch ist, ist dies weiter gleich ˆ ˆ Y ˆ ˆ n t , xk , xk−1 dxn · · · dx0 , p ··· lim n→∞ C B n B A k=1 und mit der Setzung yi := xn−i für alle 0 ≤ i ≤ n erhalten wir ˆ ˆ Y ˆ ˆ n t p ··· lim , yk−1 , yk dy0 · · · dyn , n→∞ C B n B A k=1 was wiederum gleich ˆ A Py (Xt ∈ C, τB ≥ t) dy ist. Insgesamt folgt also (8.1) und damit die Behauptung für offene B. Für allgemeine BorelMengen lässt sich die Identität über Grenzwerte von Durchschnitten offener Mengen zeigen, siehe dazu [3]. Wir benötigen noch folgenden technischen Hilfssatz: Lemma 8.1.3. Für alle x, y ∈ Rd gilt ˆ pB (t − a, x, u) p (a, u, y) du ↓ pB (t, x, y) für a → 0 (8.2) und ˆ p (a, x, u) pB (t − a, u, y) du ↓ pB (t, x, y) für a → 0. (8.3) Beweis. Wir beginnen mit (8.2). Es ist pB (t − a, x, u) = p (t − a, x, u) − rB (t − a, x, u) laut Definition und damit ˆ ˆ ˆ pB (t − a, x, u) p (a, u, y) du = p (t − a, x, u) p (a, u, y) − rB (t − a, x, u) p (a, u, y) du. Der erste Term der rechten Seite ist aufgrund der Halbgruppeneigenschaft des Gausskerns gleich p (t, x, y). Da außerdem nach Lemma 7.3.2 pB (t, x, y) ≥ 0 gilt, ist (8.2) äquivalent zu rB (t − a, x, u) p (a, u, y) ↑ rB (t, x, y) für a → 0. Nach Definition (7.2) ist obiger Ausdruck gleich ˆ Ex [p (t − a − τB , XτB , u) ; τB < t − a] p (a, u, y) du ˆ ˆ p (t − a − τB , XτB , u) p (t, x, ye) de y p (a, u, y) du. = τB <t 86 (8.4) Durch Vertauschen der Integrale und mit der Halbgruppeneigenschaft von p lässt sich dies schreiben als ˆ p (t − τB , XτB , y) p (t, x, ye) de y = Ex [p (t − τB , XτB , y) ; τB < t − a] . τB <t Dieser Ausdruch konvergiert aber für a → 0 monoton wachsend gegen Ex [p (t − τB , XτB , y) ; τB < t] = rB (t, x, y) , also gilt (8.4) und damit auch (8.2). Für (8.3) zeigen wir analog, dass für b → 0 ˆ p (b, x, z) r (t − b, z, y) dz ↑ rB (t, x, y) (8.5) gilt. Dazu schätzen wir rB (t, x, y) nach oben und unten durch den Integralterm ab. Zunächst zeigen wir, dass für alle b < t ˆ rB (t, x, y) ≥ p (b, x, z) r (t − b, z, y) dz (8.6) gilt. Dazu schreiben wir rB (t, x, y) = Ex [p (t − τB , XτB , y) ; τB < b] + Ex [p (t − τB , XτB , y) ; b ≤ τB < t] . Der erste Ausdruck auf der rechten Seite lässt sich wieder aufgrund der Halbgruppeneigenschaft schreiben als ˆ p (t − τB , XτB , y) p (t, x, ye) de y τB <b ˆ ˆ p (b − τB , XτB , z) p (t − b, z, y) dz p (t, x, ye) de y, = τB <b was wiederum äquivalent ist zu x E [p (b − τB , XτB , z) ; τB < b] p (t − b, z, y) dz = ˆ rB (b, x, z) p (t − b, z, y) dz. Für den zweiten Term verwenden wir wieder die starke Markov-Eigenschaft Ex f (Xs+r ) = Ex EXs f (Xr ) . Mit r = t − b − τB und s = b ist der zweite Summand gleich Ex EXb [p (t − b − τB , XτB , y) ; τB < t − b] ˆ = pB (b, x, z) Ez [p (t − b − τB , XτB , y) ; τB < t − b] dz ˆ = pB (b, x, z) rB (t − b, z, y) dz. Insgesamt erhalten wir also ˆ ˆ rB (t, x, y) = rB (b, x, z) p (t − b, z, y) dz + pB (b, x, z) rB (t − b, z, y) dz. 87 Wegen Lemma 7.3.2 ist pB nicht negativ, also p (t − b, z, y) ≥ r (t − b, z, y). Damit lässt sich obiger Ausdruck nach unten abschätzen durch ˆ [rB (b, x, z) + pB (b, x, z)] rB (t − b, z, y) dz, wir erhalten also insgesamt rB (t, x, y) ≥ ˆ p (b, x, z) rB (t − b, z, y) dz, ´ was genau (8.6) ist. Nun zeigen wir, dass p (b, x, z) rB (t − b, z, y) dz für abnehmendes b monoton wächst. Sei dazu b′ < b. Dann haben wir mit der Halbgruppeneigenschaft von p und Einfügen von b′ ˆ ¨ p (b, x, z) rB (t − b, z, y) dz = p b′ , x, w p b − b′ , w, z rB t − b′ − b − b′ , z, y dzdw. Mit (8.6) gilt nun, dass ˆ p b − b′ , w, z rB t − b′ − b − b′ , z, y dz ≤ rB t − b′ , w, y ist und damit insgesamt ˆ ˆ p (b, x, z) rB (t − b, z, y) dz ≤ p b′ , x, z rB t − b′ , z, y dz ´ wie behauptet. Sei nun x ein regulärer Punkt in B C . Es ist p (b, x, z) dz = 1 und für fixes ´ δ > 0 gilt |z−x|>δ p (b, x, z) dz → 0 für b → 0. Damit ist dies eine Dirac-Folge. Da weiters rB (t, x, y) unterhalbstetig ist, gilt mit dem Lemma von Fatou ˆ lim inf p (b, x, z) r (t − b, z, y) dz ≥ r (t, z, y) . b→0 Zusammen mit (8.6) folgt daraus (8.5) für ein solches x. Für ein nicht-reguläres x ∈ B C lässt sich diese Abschätzung ebenfalls zeigen, siehe dazu etwa [3, S. 125]. Damit können wir nun Satz 7.3.5 zeigen: Beweis zu Satz 7.3.5. Da p (t, x, y) = p (t, y, x) für alle x, y ∈ Rd und pB (t, x, y) = pB (t, y, x) für fast alle x, y folgt, dass ¨ p (a, x, u) pB (t − a − b, u, v) p (b, v, y) dudv ¨ = p (b, y, v) pB (t − a − b, v, u) p (a, u, x) dudv Mit a, b → 0 können wir Lemma 8.1.3 anwenden und erhalten damit pB (t, x, y) = pB (t, y, x) für alle Paare (x, y) wie behauptet. 88 Literaturverzeichnis [1] Achlioptas, D.: Database-friendly random projections: Johnson-Lindenstrauss with binary coins. In: Journal of Computer and System Sciences 66 (2003), Nr. 4, S. 671–687 [2] Alspach, D. ; Odell, E.: Lp spaces. In: Handbook of the geometry of Banach spaces, Vol. I. Amsterdam : North-Holland, 2001, S. 123–159 [3] Bass, R. F.: Probabilistic techniques in analysis. New York : Springer-Verlag, 1995 [4] Bourgain, J. ; Lindenstrauss, J. ; Milman, V.: Approximation of zonoids by zonotopes. In: Acta Math. 162 (1989), Nr. 1-2, S. 73–141 [5] Bourgain, J. ; Tzafriri, L.: Invertibility of “large” submatrices with applications to the geometry of Banach spaces and harmonic analysis. In: Israel J. Math. 57 (1987), Nr. 2, S. 137–224 [6] Bourgain, J. ; Tzafriri, L.: On a problem of Kadison and Singer. In: J. Reine Angew. Math. 420 (1991), S. 1–43 [7] Casazza, P.G. ; Vershynin, R.: Kadison-Singer meets Bourgain-Tzafriri. Preprint. (2003) [8] Chung, F. R. K.: CBMS Regional Conference Series in Mathematics. Bd. 92: Spectral graph theory. Published for the Conference Board of the Mathematical Sciences, Washington, 1997 [9] Cormen, T. H. ; Leiserson, C. E. ; Rivest, R. L. ; Stein, C.: Introduction to algorithms. 3. Auflage. Cambridge : MIT Press, 2009 [10] Dasgupta, S. ; Gupta, A.: An elementary proof of a theorem of Johnson and Lindenstrauss. In: Random Structures Algorithms 22 (2003), Nr. 1, S. 60–65 [11] Davies, E. B.: Cambridge Tracts in Mathematics. Bd. 92: Heat kernels and spectral theory. Cambridge : Cambridge University Press, 1990 [12] Feller, W.: An introduction to probability theory and its applications. New York : John Wiley & Sons Inc., 1971 [13] Frankl, P. ; Maehara, H.: The Johnson-Lindenstrauss lemma and the sphericity of some graphs. In: Journal of Combinatorial Theory. Series B 44 (1988), Nr. 3, S. 355–362 89 [14] Golub, G. H. ; Van Loan, C. F.: Matrix computations. 3. Auflage. Baltimore : Johns Hopkins University Press, 1996 [15] Indyk, P. ; Motwani, R.: Approximate nearest neighbors: towards removing the curse of dimensionality. In: STOC ’98 (Dallas). New York : ACM, 1999, S. 604–613 [16] Johnson, W. B. ; Lindenstrauss, J.: Extensions of Lipschitz mappings into a Hilbert space. In: Conference in modern analysis and probability (New Haven, 1982) Bd. 26. Providence : Amer. Math. Soc., 1984, S. 189–206 [17] Jones, P. W. ; Maggioni, M. ; Schul, R.: Universal local parametrizations via heat kernels and eigenfunctions of the Laplacian. In: Ann. Acad. Sci. Fenn. Math. 35 (2010), Nr. 1, S. 131–174 [18] Knuth, D. E.: The art of computer programming. Upper Saddle River : Addison-Wesley, 2005 [19] Lang, S.: Graduate Texts in Mathematics. Bd. 142: Real and functional analysis. 3. Auflage. New York : Springer-Verlag, 1993 [20] Naor, A.: Sparse quadratic forms and their geometric applications (after Batson, Spielman and Srivastava). Erschienen als Séminaire Bourbaki Exposé no. 1033, 2010 [21] Port, S. C. ; Stone, C. J.: Brownian motion and classical potential theory. New York : Academic Press [Harcourt Brace Jovanovich Publishers], 1978. – Probability and Mathematical Statistics [22] Rauhut, H.: Compressive sensing and structured random matrices. In: Theoretical foundations and numerical methods for sparse recovery Bd. 9. Walter de Gruyter, Berlin, 2010, S. 1–92 [23] Rudelson, M. ; Vershynin, R.: Sampling from large matrices: an approach through geometric functional analysis. In: J. ACM 54 (2007), Nr. 4, S. Art. 21, 19 ff. [24] Schechtman, G.: Fine embeddings of finite-dimensional subspaces of Lp , 1 ≤ p < 2 into finite-dimensional normed spaces. II. In: Texas functional analysis seminar 1984– 1985. Austin : Univ. Texas Press, 1985 (Longhorn Notes), S. 83–94 [25] Schechtman, G.: More on embedding subspaces of Lp in lrn . In: Compositio Math. 61 (1987), Nr. 2, S. 159–169 [26] Schechtman, G.: Tight embedding of subspaces of Lp in ℓnp for even p. In: Proc. Amer. Math. Soc. 139 (2011), Nr. 12, S. 4419–4421 [27] Simon, B.: Functional integration and quantum physics. 2. Auflage. AMS Chelsea Publishing, Providence, RI, 2005 [28] Spielman, D. A.: Algorithms, Graph Theory, and Linear Equations in Laplacian Matrices. In: Proceedings of the International Congress of Mathematicians, 2010 [29] Spielman, D. A. ; Srivastava, N.: Graph sparsification by effective resistances. In: STOC’08. New York : ACM, 2008, S. 563–568 90 [30] Spielman, D. A. ; Srivastava, N.: An Elementary Proof of the Restricted Invertibility Theorem. Preprint. arxiv.org/abs/0911.1114. (2010) [31] Spielman, D. A. ; Teng, S.-H.: Nearly-linear time algorithms for graph partitioning, graph sparsification, and solving linear systems. In: Proceedings of the 36th Annual ACM Symposium on Theory of Computing. New York : ACM, 2004, S. 81–90 [32] Spielman, D. A. ; Teng, S.-H.: A Local Clustering Algorithm for Massive Graphs and its Application to Nearly-Linear Time Graph Partitioning. Preprint. arxiv.org/abs/ 0809.3232. (2008) [33] Spielman, D. A. ; Teng, S.-H.: Spectral Sparsification of Graphs. Preprint. arxiv. org/abs/0808.4134. (2008) [34] Srivastava, N.: Spectral sparsification and restricted invertibility. Yale University, New Haven, Diss., 2010 [35] Talagrand, M.: Embedding subspaces of L1 into l1N . In: Proc. Amer. Math. Soc. 108 (1990), Nr. 2, S. 363–369 [36] Talagrand, M.: Embedding subspaces of Lp in lpN . In: Geometric aspects of functional analysis (Israel, 1992–1994) Bd. 77. Basel : Birkhäuser, 1995, S. 311–325 [37] Vershynin, R.: John’s decompositions: selecting a large part. In: Israel J. Math. 122 (2001), S. 253–277 [38] Zhang, F.: Matrix theory. Basic results and techniques. New York : Springer-Verlag, 1999 [39] Zvavitch, A.: More on embedding subspaces of Lp into lpN , 0 < p < 1. In: Geometric aspects of functional analysis Bd. 1745. Berlin : Springer, 2000, S. 269–280 91