Spektrale Graphentheorie Graph Sparsification und

JOHANNES KEPLER
UNIVERSITÄT
LINZ
Technisch-Naturwissenschaftliche
Fakultät
Spektrale Graphentheorie
Graph Sparsification und Eigenwertabschätzungen
MASTERARBEIT
zur Erlangung des akademischen Grades
Diplomingenieurin
im Masterstudium
Mathematik in den Naturwissenschaften
Eingereicht von:
Claudia Jabornegg
Angefertigt am:
Institut für Analysis
Beurteilung:
a. Univ. Prof. Dipl. Ing. Dr. Paul F. X. Müller
Linz, Jänner 2012
JKU
Eidesstattliche Erklärung
Ich erkläre an Eides statt, dass ich die vorliegende Masterarbeit selbstständig und ohne
fremde Hilfe verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt bzw.
die wörtlich oder sinngemäß entnommenen Stellen als solche kenntlich gemacht habe.
c
d
Vorwort
Diese Arbeit besteht aus zwei großen Teilbereichen. Der erste Teil beschäftigt sich mit Graphentheorie und fundamentalen Aussagen der linearen Algebra. In Kapitel 2 untersuchen
wir das bekannte Restricted Invertibility Theorem von Bourgain und Tzafriri aus [5]:
Satz (Restricted Invertibility). Es gibt Konstanten c, K > 0, sodass für jeden linearen Opecn
rator L : l2n −→ l2n mit kLei k2 = 1, 1 ≤ i ≤ n eine Teilmenge σ ⊂ {1, . . . , n} mit |σ| = kLk
2
2
existiert, sodass
2
X
X
≥K
a2j .
a
Le
j
j
j∈σ
j∈σ
2
Es liefert eine Aussage darüber, unter welchen Bedingungen Matrizen große“ Untermatrizen
”
besitzen, die sich gut invertieren lassen. Die Güte der Invertierbarkeit wird dabei über die
Operatornorm der Inversen gemessen. Der Satz wurde von Srivastava in [34] verallgemeinert
und der ursprüngliche Beweis dahingehend vereinfacht, dass er mit Mitteln der linearen Algebra Auslangen findet. In Kapitel 3 und Kapitel 4 beschäftigen wir uns mit Graphen und
Graph Sparsification. Ziel dabei ist es, einen Graphen G durch einen ausgedünnten Graphen H möglichst gut zu approximieren, sodass er viele Eigenschaften von G erhält, gleichzeitig aber aus möglichst wenig Kanten besteht. Eine der wichtigsten Informationsquellen über
einen Graphen ist das Spektrum seiner Laplace-Matrix. Somit ist es ein natürlicher Ansatz,
bei der Konstruktion von H darauf zu achten, dass sich die Eigenwerte der Laplace-Matrix
so wenig wie möglich verändern. Unser eigentliches Problem ist also in der linearen Algebra
angesiedelt: Wir wollen die Laplace-Matrix von G durch eine Matrix von geringem Rang
möglichst gut annähern. Das Hauptresultat dazu ist das Spectral Sparsification Theorem
von Srivastava aus [34]:
P
n
T
Satz (Spectral Sparsification). Sei 0 < ǫ < 1, m ∈ N und A := m
i=1 wi wi mit wi ∈ R .
n
Dann gibt es nicht-negative Gewichte {si }i≤m von denen höchstens ǫ2 ungleich Null sind
und es gilt
(1 − ǫ)2 A ≤
m
X
i=1
si wi wiT ≤ (1 + ǫ)2 A.
Im Anschluss daran betrachten wir noch eine weitere Möglichkeit, Sparsifier für Graphen
zu erzeugen. Die Hauptidee dabei ist, einen gegebenen Graphen G mit einem elektrischen
Netzwerk zu identifizieren und durch einen Teilgraph H zu approximieren, indem jede
e
Kante von G mit einer Wahrscheinlichkeit proportional zu ihrem Wirkwiderstand (effective resistance) zu H hinzugefügt wird. Eine wesentliche Rolle spielt dabei das JohnsonLindenstrauss-Lemma, mit dem wir uns in Kapitel 6 genauer auseinandersetzen werden.
In Kapitel 7 widmen wir uns dem zweiten großen Themenbereich der Arbeit, dem Satz
von Weyl. Dieser macht eine Aussage über das asymptotische Verhalten der Eigenwerte
des Wärmeleitungsproblems. Unser Zugang dazu ist stochastischer Natur, da die Fundamentallösungen der Wärmeleitungsgleichung gleichzeitig die Dichten der Übergangswahrscheinlichkeiten einer Brown’schen Bewegung sind. Basis dafür sind die Bücher [3] und [21] von
Bass und Port & Stone. Den Abschluss bildet in Abschnitt 7.5 das Thema Heat Triangulation, mit dem sich Jones, Maggioni und Schul in [17] auseinandersetzen. Die Kernidee dabei
ist das Auffinden von lokalen Parametrisierung durch Diffusionskerne und Eigenfunktionen
des Laplace-Operators.
Danksagung
Ich möchte mich ganz herzlich bei Herrn Prof. Paul Müller für seine zahlreichen Ratschläge
und hilfreichen Gespräche während der Erstellung dieser Diplomarbeit bedanken. Besonderer Dank gebührt auch meiner Familie, insbesondere meinen Eltern Gabriele und Peter
Jabornegg für ihre vielfältige Unterstützung während meiner gesamten Studienzeit.
f
Inhaltsverzeichnis
1 Grundlagen
1.1 Lineare Algebra . . . . . . . . . . . .
1.1.1 Notation und Grundbegriffe .
1.1.2 Positiv Semidefinite Matrizen
1.1.3 Spektralzerlegung . . . . . .
1.1.4 Die Spur einer Matrix . . . .
1.1.5 Das Hadamard-Produkt . . .
1.1.6 Min-Max-Theorem . . . . . .
1.1.7 Sherman-Morisson Formel . .
1.1.8 Die Pseudinverse . . . . . . .
1.2 Resolventengleichung . . . . . . . . .
1.3 Komplexität von Algorithmen . . . .
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
3
3
4
4
5
6
6
7
2 Restricted Invertibility
2.1 Restricted Invertibility Theorem . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Beweis des Restricted Invertibility Theorems . . . . . . . . . . . . . . . . . .
9
9
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Graphen
3.1 Vorbemerkung . . . . . . . . . . . . . . . . . . .
3.2 Begriffe, Definitionen und Laplace-Matrix . . . .
3.3 Eigenwerte und Eigenvektoren . . . . . . . . . .
3.4 Grundlegende Eigenschaften des Spektrums eines
3.5 Random Walks auf Graphen . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
. . . . . .
Graphen .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
23
25
31
4 Spectral Sparsification
4.1 Graph Sparsification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Spectral Sparsification Theorem . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Dimensionsreduktion in Lp -Räumen . . . . . . . . . . . . . . . . . . . . . . .
37
37
38
45
5 Graph Sparsification by Effective Resistances
5.1 Vorbemerkungen . . . . . . . . . . . . . . . . .
5.2 Graphen und elektrische Netzwerke . . . . . . .
5.3 Algorithmus . . . . . . . . . . . . . . . . . . . .
5.3.1 Formulierung . . . . . . . . . . . . . . .
5.3.2 Beweis zu Satz 5.3.2 . . . . . . . . . . .
5.4 Berechnung näherungsweiser Widerstände . . .
49
49
49
51
51
51
56
g
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Das
6.1
6.2
6.3
Johnson-Lindenstrauss Lemma
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Beweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
59
59
65
7 Der
7.1
7.2
7.3
7.4
7.5
Satz von Weyl
Vorbemerkungen . . . . . . . . . . . . .
Brown’sche Bewegung . . . . . . . . . .
Gestoppte Brown’sche Bewegung . . . .
Der Satz von Weyl . . . . . . . . . . . .
Heat Triangulation . . . . . . . . . . . .
7.5.1 Das Heat Triangulation Theorem
7.5.2 Beweis . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
67
67
68
69
72
78
78
81
8 Appendix
8.1 Beweis zu Satz 7.3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
85
h
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 1
Grundlagen
Zu Beginn wollen wir einige grundlegende Begriffe und Resultate aus den Bereichen der
linearen Algebra, Komplexitätstheorie und Funktionalanalysis zusammenfassen, die als Ausgangsbasis für die nachfolgenden Kapitel dienen.
1.1
Lineare Algebra
Ein Großteil dieser Arbeit und der angeführten Beweise benötigt als Basis lediglich elementare Resultate aus der linearen Algebra. Hauptaugenmerk liegt dabei auf symmetrischen,
positiv semidefiniten Matrizen. Zunächst werden wir einige Schreibweisen einführen und bekannte, grundlegende Definitionen und Eigenschaften von Matrizen zusammenfassen. Die
Inhalte dieses Kapitels können in jedem Standardwerk über lineare Algebra gefunden werden, als Beisipiel sei auf [14] verwiesen. Das Material aus Abschnitt 1.1.4 stammt aus [38].
1.1.1
Notation und Grundbegriffe
Für einen Vektor v ∈ Rn bezeichnet v(i) bzw. vi die i-te Komponente von v. Analog ist A(i, j)
bzw. Aij der Eintrag in der i-ten Zeile und der j-ten Spalte einer m × n Matrix A. Mit 0 und
1 bezeichnen wir jene Vektoren, die in jeder Komponente den Eintrag 0 bzw. 1 besitzen, der
Koordinatenvektor χi besitzt nur in der i-ten Koordinate den Eintrag 1. Mit I bezeichnen
wir die Einheitsmatrix. Die Transponierte von A ist die n × m Matrix AT (i, j) = A(j, i). Das
Matrixprodukt von zwei Matrizen A und B mit den Dimensionen m × n und n × l ist die
m × l Matrix
n
X
Aik Bkj .
(AB)ij =
k=1
Sind v und w Vektoren im Rn , so ist das euklidische Skalarprodukt definiert als
hv, wi = v T w =
und die euklidische Norm
kvk =
√
n
X
v(i)w(i)
i=1
v T v.
Unter anderem gilt die Cauchy-Schwarz’sche Ungleichung
hv, wi2 ≤ kvkkwk.
1
Das äußere Produkt vwT von v und w ist eine n × n Matrix mit den Einträgen vwT (i, j) =
v(i)w(j).
Falls nicht anders angegeben, beziehen wir uns im Folgenden immer auf Spaltenvektoren und
quadratische n × n-Matrizen mit reellen Einträgen.
Eine reelle oder komplexe Zahl λ heißt Eigenwert von A, falls ein Vektor v existiert, für den
Av = λv
gilt. Der Vektor v ist der dazugehörige Eigenvektor. Ist A symmetrisch, so besitzt A genau n
Eigenwerte λ1 ≤ . . . ≤ λn , deren zugehörige Eigenvektoren so gewählt werden können, dass
sie Einheitslänge besitzen und paarweise orthogonal aufeinander stehen, also eine Orthonormalbasis des Rn bilden. Der Rang von A ist die Anzahl der linear unabhängigen Spalten von
A und entspricht der Anzahl der Eigenwerte, die ungleich null sind.
Die Spektral- oder Operatornorm einer Matrix A ist
kAk2 =
sup
Ax.
{x:kxk=1}
Für symmetrische Matrizen entspricht dies dem betragsmäßig größten Eigenwert. Weiters
benötigen wir die Frobenius-Norm von A definiert als
v
uX
u n
kAkF = t
A2ij .
i,j=1
Verwenden wir keinen Index, so beziehen wir uns immer auf die Operatornorm.
1.1.2
Positiv Semidefinite Matrizen
Da wir uns hauptsächlich mit positiv semidefiniten Matrizen auseinandersetzen werden, wollen wir uns einige Eigenschaften solcher Matrizen genauer ansehen. Eine Matrix A heißt positiv semidefinit, falls für alle x ∈ Rn \ {0} gilt xT Ax ≥ 0 und positiv definit, falls xT Ax > 0
gilt. Sinngemäß lassen sich negative (semi)definite Matrizen definieren. Weiters schreiben wir
für zwei Matrizen A und B
A ≥ B,
falls für alle x ∈ Rn gilt xT Ax ≥ xT Bx, also A − B positiv semidefinit ist. Analog definieren
wir A > B. Im folgenden Lemma sind einige Resultate für positiv semidefinite Matrizen
zusammengefasst.
Lemma 1.1.1.
1. Für jede reelle Matrix A ist AT A positiv semidefinit.
2. Eine positiv semidefinite Matrix A besitzt nur nicht-negative Eigenwerte. Ist A symmetrisch, so gilt auch die Umkehrung.
3. Sind A und B positiv semidefinite Matrizen, so besitzt AB nur nicht-negative Eigenwerte. Gilt zusätzlich AB = BA, so ist AB ebenfalls positiv semidefinit.
2
1.1.3
Spektralzerlegung
An dieser Stelle formulieren wir den Matrix-Spezialfall des Spektralsatzes für kompakte,
selbstadjungierte Operatoren. Die allgemeinere Version findet sich in Kapitel 7.
Satz 1.1.2. Ist A eine reelle, symmetrische n×n Matrix, so lässt sich A mit Hilfe der zu den
Eigenwerten λ1 , . . . , λn gehörigen, orthonormalen Eigenvektoren v1 , . . . , vn darstellen über
A=
n
X
λi vi viT .
i=1
1.1.4
Die Spur einer Matrix
In vielen Beweisen werden wir mit der Spur einer Matrix arbeiten und einige Spuridentitäten
verwenden, die wir an dieser Stelle formulieren wollen. Die Spur einer Matrix A ist die Summe
ihrer Diagonaleinträge und wird mit Tr (A) bezeichnet:
Tr (A) =
n
X
A (i, i)
i=1
Für die Spur gelten nun folgende einfach überprüfbare Resultate:
Proposition 1.1.3.
1. Seien A und B zwei Matrizen von Dimension k × n bzw. n × k. Dann gilt
Tr (AB) = Tr (BA).
2. Seien A und R Matrizen der Dimension n × n und R invertierbar. Weiters seien
λ1 , ..., λn die Eigenwerte von A. Dann gilt
Tr R−1 AR = Tr (A).
Insbesondere folgt daraus, dass
Tr (A) =
n
X
λi .
i=1
Weiters benötigen wir folgende Ungleichungskette. Da sie nicht unmittelbar offensichtlich ist,
geben wir auch einen Beweis dazu an.
Lemma 1.1.4. Seien A und B positiv semidefinite Matrizen von gleicher Dimension. Dann
gilt
Tr (AB) ≤ kAk2 Tr (B) ≤ kAkF Tr (B) ≤ Tr (A)Tr (B)
(1.1)
Beweis. Da A positiv semidefinit ist, lässt sich A darstellen als A = RT DR, wobei R orthogonal ist und D eine Diagonalmatrix mit den nicht-negativen Eigenwerten λi von A. Damit
ist mit Proposition 1.1.3, Punkt 1
Tr (AB) = Tr RT DRB = Tr DRBRT .
3
Da B positiv semidefinit ist, sind alle Diagonaleinträge von B ≥ 0. Wäre nämlich o.B.d.A.
b11 < 0, so wäre χT1 Bχ1 = b11 < 0, also B nicht mehr positiv semidefinit. Da R orthogonal
ist, ist auch RBRT positiv semidefinit und damit kein Diagonaleintrag negativ. Da auch A
positiv semidefinit ist, folgt mit Punkt 2 von Proposition 1.1.3
X
X
(1.2)
RBRT ii
Tr (AB) =
λi RBRT ii ≤ sup {λi }
i
= sup {λi } Tr RBR
i
T
i
i
= kAk2 Tr (B).
(1.3)
Damit ist die erste Ungleichung gezeigt. Die übrigen Abschätzungen folgen aus der Tatsache,
dass
!1/2
X
kAk2 = sup {λi } ≤
λ2i
= kAkF
i
i
ist und sich dies wiederum durch
X
λi = Tr (A)
i
nach oben abschätzen lässt.
1.1.5
Das Hadamard-Produkt
Neben dem Standard-Matrixprodukt können wir auch eine komponentenweise Matrixmultiplikation definieren:
Definition 1.1.5. Seien A und B zwei n×n Matrizen. Wir definieren das Hadamard-Produkt
von A und B über
A◦B :=
n
X
Aij Bij .
i,j=1
Für das Hadamard-Produkt gelten nun folgende Beziehungen:
Proposition 1.1.6. Für zwei n × n Matrizen A, B und ein v ∈ Rn gilt:
1. v T Av = A◦ vv T
2. A◦B = Tr AT B
1.1.6
Min-Max-Theorem
Das Min-Max Theorem oder den Satz von Courant-Fischer verwenden wir häufig zur Berechnung von Eigenwerten und Eigenvektoren. Außerdem ergibt sich als Folgerung das Cauchy
Interlacing Theorem über die Verflechtung von Eigenwerten einer Matrix und ihren Projektionen auf einen Unterraum.
Definition 1.1.7. Sei M eine (n × n)-Matrix über R und x ∈ Rn . Der Rayleigh-Quotient
RM (x) ist definiert als
xT M x
(1.4)
RM (x) := T .
x x
4
Satz 1.1.8 (Courant-Fischer). Sei M eine symmetrische (n × n)-Matrix über R. Seien weiters λ1 ≤ λ2 ≤ ... ≤ λn ihre Eigenwerte und x1 , x2 , ..., xn die dazugehörigen Eigenvektoren.
Sk bezeichne einen beliebigen k-dimensionalen Unterraum von Rn . Dann gilt
λk = min max RM (x) =
Sk x∈Sk
min
x6=0
j =0
∀j∈{1,...,k−1}
xT x
RM (x).
Der maximierende bzw. minimierende Vektor ist der jeweils zugehörige Eigenvektor.
Mit Hilfe des Min-Max-Theorems lässt sich eine Aussage über das Verhalten der Eigenwerte
treffen, wenn wir eine Matrix A auf einen Unterraum projizieren.
Satz 1.1.9 (Cauchy Interlacing Theorem). Sei A eine symmetrische n × n Matrix, P eine
orthogonale Projektion auf einen m-dimensionalen Unterraum und B = P AP . Sind λ1 ≤
· · · ≤ λn und µ1 ≤ · · · ≤ µn die Eigenwerte von A und B, so gilt für alle j ≤ m
λj ≤ µj ≤ λn−m+j
Daraus ergibt sich speziell für Rang-1-Störungen folgendes Resultat:
Korollar 1.1.10. Sei v ∈ Rn , λ1 , · · · , λn die Eigenwerte der n × n Matrix A und µ1 , · · · , µn
jene der Matrix A + vv T . Dann gilt
λ1 ≤ µ1 ≤ λ2 ≤ · · · ≤ µn−1 ≤ λn ≤ µn
Beweis. Sei Pv die Projektion auf span (v)⊥ . Dann ist Pv v = 0 und damit
Pv APv = Pv A + vv T Pv .
Seien π1 , ..., πn−1 die Eigenwerte von Pv APv . Aus Satz 1.1.9 folgt dann
λ1 ≤ π1 ≤ λ2 ≤ · · · ≤ πn−1 ≤ λn
µ1 ≤ π1 ≤ µ2 ≤ · · · ≤ πn−1 ≤ µn .
Mit dem Min-Max-Theorem gilt weiters λk ≤ µk , woraus insgesamt die Behauptung folgt.
1.1.7
Sherman-Morisson Formel
Zur Berechnung der Inversen einer Rang-k-Störung einer Matrix existiert die ShermanMorrison-Woodbury Formel :
Proposition 1.1.11. Sei A eine reguläre n × n Matrix und U, V Matrizen der Dimension
n × k. Ist
I − V T A−1 U
invertierbar, so gilt
A − UV T
−1
= A−1 + A−1 U I − V T A−1 U
−1
V T A−1 .
−1
Als Spezialfall ergibt sich daraus für eine Rang-1-Störung A − uv T
mit u, v ∈ Rn die
Sherman-Morrison Formel
−1
uv T
A−1 .
A − uv T
= A−1 + A−1
1 − v T A−1 u
5
Beweis. Wir zeigen, dass
A − UV T
h −1
−1 T −1 i
A + A−1 U I − V T A−1 U
V A
=I
gilt. Für den ersten Ausdruck erhalten wir
h
−1 T −1 i
A − U V T A−1 + A−1 U I − V T A−1 U
V A
= I + U V T A−1 + (U − U V T A−1 U )(I − V T A−1 U )−1 V T A−1
= I + U V T A−1 + U (I − V T A−1 U )(I − V T A−1 U )−1 V T A−1
= I + U V T A−1 − U V T A−1 = I.
h
−1 T −1 i
Analog sieht man, dass A−1 + A−1 U I − V T A−1 U
V A
A − U V T = I ist.
1.1.8
Die Pseudinverse
Ist A eine reelle oder komplexe n×m Matrix, so ist die Moore-Penrose-Inverse oder Pseudoinverse, bezeichnet mit A† , jene eindeutig bestimmte m × n Matrix, die folgende Eigenschaften
erfüllt:
1. AA† A = A
2. A† AA† = A†
3. AA† und A† A sind hermitesch.
Ist M eine symmetrische n × n-Matrix, λ1 , . . . λk ihre nicht verschwindenden Eigenwerte und
v1 , . . . vk die dazugehörigen Eigenvektoren, so erhalten wir aus der Spektraldekomposition,
dass die Pseudoinverse die Gestalt
A† =
k
X
1
vi v T
λi i
i=1
besitzt. A† ist verhält sich also auf im (A) = ker (A)⊥ = ker A†
zu A, da
k
X
vi viT ,
AA† = A† A =
⊥
= im A† wie die Inverse
i=1
was genau einer Projektion auf im (A) entspricht.
1.2
Resolventengleichung
Eine wichtige Identität, die wir an späteren Stellen benötigen werden, ist die Resolventengleichung für lineare Operatoren. Der Vollständigkeit halber formulieren wir sie für allgemeine,
lineare Operatoren auf einem Hilbertraum:
Satz 1.2.1 (Resolventengleichung). Sei T ein linearer Operator, der den Hilbertraum H
in sich selbst abbildet und seien z, w aus der Resolventenmenge von T . Dann gilt mit der
Resolvente von T definiert als RT (z) = (T − zI)−1 die Identität
RT (z) − RT (w) = (z − w) RT (z) RT (w) .
6
1.3
Komplexität von Algorithmen
Viele Beweise in dieser Arbeit sind konstruktiver Natur und können damit unmittelbar als
Berechnungsalgorithmen verwendet werden. Da Graphen gerade in der Informatik von großer
Bedeutung sind, ist beispielsweise die Verbesserung von Algorithmen im Bereich der Datenkompression oder Bildbearbeitung die Triebfeder für viele Resultate. In diesem Zusammenhang ist immer die Frage nach dem Aufwand“ eines Algorithmus von Bedeutung; in der
”
Regel ist damit die Rechenzeit, manchmal auch der Speicheraufwand gemeint. Für eine
grundlegende Einführung zu Algorithmen sei auf [18] oder [9] verwiesen, zum Verständnis
dieser Arbeit reicht folgender, asymptotischer Formalismus aus: Bezeichnet die Funktion
f : N → N, n 7→ f (n) den Aufwand bei einem Problem der Größe n, und g eine Vergleichsfunktion, so ist ein Algorithmus in der Komplexitätsklasse O (g(n)), falls ein k > 0 und ein
n0 existiert, sodass für alle n > n0 gilt |f (n)| ≤ |g(n) · k|. Dies bedeutet, dass für hinreichend
große Probleme der Aufwand nicht stärker wächst als g.
7
8
Kapitel 2
Restricted Invertibility
2.1
Restricted Invertibility Theorem
In diesem Kapitel beschäftigen wir uns mit einer Erweiterung des bekannten Restricted Invertibility Theorem von Bourgain und Tzafriri:
Satz 2.1.1 (Restricted Invertibility, [5]). Es gibt Konstanten c, K > 0, sodass für jeden
linearen Operator L : l2n −→ l2n mit kLei k2 = 1, 1 ≤ i ≤ n eine Teilmenge σ ⊂ {1, . . . , n} mit
cn
|σ| = kLk
2 existiert, sodass
2
2
X
X
≥K
a
Le
a2j .
j
j
j∈σ
j∈σ
2
Dieses Resultat und viele ihrer weiteren Arbeiten beschäftigten sich mit der Frage, unter
welchen Bedingungen Matrizen große“ Untermatrizen besitzen, die sich gut invertieren las”
sen. Die Güte der Invertierbarkeit wird dabei über die Operatornorm der Inversen gemessen. Desweiteren existiert eine stärkere, bis jetzt unbewiesene Formulierung von Satz 2.1.1.
In [7] wird gezeigt, dass diese äquivalent zur Paving Conjecture ist, einer Formulierung des
berühmten Kadison-Singer Problems (siehe dazu [5–7]). Bourgain und Tzafriris Beweis ist
ein reiner Existenzbeweis und bedient sich probabilistischer und funktionalanalytischer Hilfsmittel. Wir werden hier eine etwas allgemeinere Formulierung von Satz 2.1.1 aus [30] zeigen,
die in ähnlicher Form von Vershynin in [37] auf Satz 2.1.1 zurückgeführt wurde.
2.2
Beweis des Restricted Invertibility Theorems
Wir folgen im Wesentlichen dem Beweis von Spielman und Srivastava aus [30]. Deren Beweis
ist konstruktiv, benötigt nur lineare Algebra und liefert zusätzlich bessere Konstanten.
P
T
Satz 2.2.1 (Generalized Restricted Invertibility). Seien v1 , v2 , . . . , vm ∈ Rn , m
i=1 vi vi = I
n
n
und 0 < ǫ < 1. Weiters sei Lj : l2 −→k l2 ein linearer Operator. Dann existiert eine Teilmenge
σ ⊂ {1, . . . m} mit |σ| ≥
kLk2
ǫ2 kLkF2 , für die {Lvi }i∈σ linear unabhängig ist und für alle
2
9
{ai }i∈σ ∈ R gilt
2
X
(1 − ǫ)2 kLk2F X 2
a
Lv
≥
aj .
j
j
m
j∈σ
j∈σ
(2.1)
2
Aus diesem Satz können wir unmittelbar Satz 2.1.1 ableiten,
P indem wir vi = ei wählen, da
aus der Annahme kLei k2 = 1 für alle 1 ≤ i ≤ n folgt n = ni=1 kLei k22 = kLk2F .
Beweis. Wir wollen zunächst die Behauptung (2.1) umformulieren: Sei
A=
X
(Lvi ) (Lvi )T
i∈σ
und λmin (A) der kleinste Eigenwert von A, berechnet auf span {Lvi }i∈σ . Dann ist (2.1)
äquivalent dazu, dass
λmin (A) >
(1 − ǫ)2 kLk2F
.
m
Ist nämlich B jene |σ| × n Matrix, deren Zeilen aus den Vektoren {Lvi }i∈σ bestehen, so gilt
A = B T B. Die Eigenwerte von A entsprechen also jenen der Gram’schen Matrix
.
BB T = (Lvi )T (Lvj )
i,j∈σ
(1−ǫ)2 kLk2
F
Die Aussage, dass alle Eigenwerte von BB T größer als
sind, ist aber wiederum
m
äquivalent zu (2.1).
P
T
Wir bauen die Matrix A =
i∈σ (Lvi ) (Lvi ) , indem wir in jedem Schritt einen Vektor
zur Menge σ hinzufügen. Die Vorgehensweise dabei ist folgendermaßen: Die Matrix A wird
iterativ konstruiert und der Prozess mittels einer Potentialfunktion Φb (A) gesteuert. Die
Schranke b ist eine reelle Zahl, die in jedem Iterationsschritt variiert. Φb (A) ist definiert wie
folgt:
X
Φb (A) =
(Lvi )T (A − bI)−1 (Lvi )
i
=
X
i
Tr (Lvi )T (A − bI)−1 (Lvi )
Mit Proposition 1.1.3, Punkt 1 und der Linearität der Spur folgt
=
X
i
=
X
i
Tr (A − bI)−1 (Lvi ) (Lvi )T
Tr (A − bI)−1 Lvi viT LT
= Tr (A − bI)
−1
10
L
X
i
vi viT
L
T
!
und weiter, da laut Voraussetzung
P
T
i vi vi
=I
= Tr LT (A − bI)−1 L .
Zu Beginn setzen wir A = 0, b = b0 > 0. Das Potential ist dann
−1
1
Φb0 = Tr LT (0 − b0 I)−1 L = −Tr LT (b0 )−1 L = Tr LT L =
kLk2F .
b0
b0
In jedem Iterationsschritt wählen wir nun einen Vektor w ∈ {Lvi }i≤m und machen bei A
eine Rang-1-Korrektur auf A + wwT . Damit erweitern wir jedesmal die Menge σ um einen
Index. Wählen wir beispielsweise w = Lvj , so kommt der Index j zu σ hinzu. Auhßerdem
wollen wir b um ein konstantes δ Richtung null verschieben, jedoch ohne dabei das Potential
zu erhöhen, wir fordern also
Φb−δ A + wwT ≤ Φb (A) .
Weiters verlangen wir, dass A nach jedem Schritt genau k Eigenwerte ungleich 0 und größer
als b besitzt. Die folgenden beiden Lemmata sagen uns, welche Bedingungen wir an w und
Φ stellen müssen, um diese Iteration durchführen zu können.
Lemma 2.2.2. Sei A positiv semidefinit mit k Eigenwerten λ1 ≥ λ2 ≥ · · · > b′ > 0, wobei
b′ eine positive, reelle Zahl ist. Ist w 6= 0 und
−1
w T A − b′ I
w < −1,
(2.2)
so sind k + 1 Eigenwerte der Matrix A + wwT größer als b′ .
Lemma 2.2.3. Sei A wieder positiv semidefinit mit k Eigenwerten größer als ein konstantes
b > 0 und sei Q die orthogonale Projektion auf ker(A). Ist
kLk22
Φb (A) ≤ −m −
δ
(2.3)
und
0<δ<b≤δ
kQLk2F
kLk22
,
(2.4)
dann gibt es ein w ∈ {Lvi }i≤m für das die folgenden beiden Bedingungen erfüllt sind:
1. A + wwT besitzt k + 1 Eigenwerte ungleich 0 und größer als b′ := b − δ, und
2. Φb′ A + wwT ≤ Φb (A).
Die Lemmata werden an späterer Stelle bewiesen. Ausgehend davon zeigen wir nun induktiv,
dass mit den Voraussetzungen des Satzes in jedem Schritt die Bedingungen von Lemma 2.2.3
erfüllt sind: Zu Beginn setzen wir
b0 =
(1 − ǫ) kLk22
(1 − ǫ) kLk2F
, und δ =
.
m
ǫm
11
(2.5)
Dann gilt nach obiger Rechnung mit A = 0
Φb0 (0) = −
kLk2F
kLk22
m
ǫm
=−
= −m −
= −m −
,
b0
1−ǫ
1−ǫ
δ
(2.6)
womit Bedingung 1 von Lemma 2.2.3 erfüllt ist.
kLk2
Um die zweite Bedingung zu zeigen halten wir zunächst fest, dass für den Fall ǫ2 kLkF2 < 1
2
j
k
kLk2F
kLk2F
2
2
gilt, dass ǫ kLk2 = 0 und mit σ = ∅ der Satz trivialerweise wahr ist. Sei also ǫ kLk2 ≥ 1.
2
2
Da 0 < ǫ < 1, ist ǫ2 < ǫ und damit
kLk2F
kLk22
≥
1
1
≥ > 1.
2
ǫ
ǫ
(2.7)
Wir erhalten also
kLk2F · ǫ
b0
=
δ
kLk22
(2.8)
und damit b0 > δ. Weiters ist für A0 = 0 klarerweise Q0 = I und damit, da dann kQ0 LkF =
kLkF und ǫ < 1 gilt,
b0 ≤
kLk2F
kQ0 Lk2F
1−ǫ
kLk2F = δǫ
≤
δ
,
m
kLk22
kLk22
womit Bedingung 2 ebenfalls erfüllt ist. Nach t − 1 Iterationsschritten haben wir
δ < bt−1 = b0 − (t − 1)δ ⇐⇒ tδ < bt−1 .
Dies ist äquivalent dazu, dass
t<
ist, was mit der Wahl t ≤
kLk2F 2
ǫ
kLk22
kLk2F
b0
ǫ
=
δ
kLk22
der Fall ist. Wir zeigen nun, dass die Ungleichung
bt−1 ≤ (t − 1)δ
kQt−1 Lk2F
kLk22
(2.9)
ebenfalls erfüllt ist. Da im t−ten Schritt At = At−1 +wt wtT ist, gilt ker(At ) = ker(At )∩{wt }⊥ .
Weiters besitzt Qt für jedes t genau dim{ker(At )}-viele Eigenwerte, die gleich 1 sind, die
übrigen sind 0. Damit gilt für die Projektion Q
Tr (Qt−1 − Qt ) = dim{ker(At )} − dim{ker(At−1 )} ≤ 1.
Da Qt = Q2t und QTt = Qt ist, folgt weiters mit Qt = Qt−1 − (Qt−1 − Qt )
kQt Lk2F = Tr LT Qt L = kQt−1 Lk2F − Tr LT (Qt−1 − Qt ) L
12
(2.10)
und mit Lemma 1.1.4 und (2.10)
kQt Lk2F ≥ kQt−1 Lk2F − kLk22 Tr (Qt−1 − Qt ) ≥ kQt−1 Lk2F − kLk22 .
Damit sinkt
von Q in jedem Schritt um höchstens kLk22 , womit (2.9) erfüllt ist.
j die 2Norm
k
kLk
Nach t = ǫ2 kLkF2 Schritten ergibt sich also
2
b0 − tδ = b0 − (t − 1)δ − δ ≤ δ
≤δ
kQt Lk2F + kLk22
kLk22
kQt−1 Lk2F
kLk22
−δ =δ
−δ
kQt Lk2F
kLk22
.
Setzen wir unsere Wahl von b0 , δ, und t ein, so erhalten wir
b0 − δt ≥
(1 − ǫ) kLk2F
kLk2F
(1 − ǫ)2
− ǫ2 (1 − ǫ)
=
kLk2F ,
m
ǫm
m
wie behauptet.
Beweis von Lemma 2.2.2. Zunächst halten wir fest, dass A + wwT eine Rang-1-Korrektur
der Matrix A ist. Seien λ′1 ≥ · · · λk+1 die größten k + 1 Eigenwerte von A + wwT . Mit
Korollar 1.1.10 folgt daher, dass
λ′1 ≥ λ1 ≥ λ′2 ≥ · · · ≥ λk ≥ λ′k+1 .
(2.11)
Es ist
X
Tr (A − b′ I)−1 =
i≤k
X 1
1
+
′
λi − b
0 − b′
i>k
und damit
Tr (A + wwT b′ I)−1 − (A − b′ I)−1 =
1
λ′k+1 − b′
k
X
+
i=1
+
1
0 − b′
k
X 1
1
−
.
′
′
λi − b
λ i − b′
(2.12)
i=1
Nach der Sherman-Morisson-Formel aus Lemma 1.1.11 mit der Setzung u = w, v = −w gilt
andererseits
!
(A − b′ I)−1 wwT (A − b′ I)−1
T
′ −1
′ −1
− A−bI
.
Tr A + ww − b I
= −Tr
1 + wT (A − b′ I) w
Nach Proposition 1.1.3 lässt sich der letzte Ausdruck schreiben als
!
wT (A − b′ I)−2 w
wT (A − b′ I)−2 w
=
−
.
Tr −
1 + wT (A − b′ I) w
1 + wT (A − b′ I) w
13
(2.13)
Laut Annahme ist wT (A − b′ I) w < −1. Weiters ist aufgrund der Voraussetzungen an die Eigenwerte die Matrix (A − b′ I)−2 positiv definit und damit wT (A − b′ I)−2 w > 0, der gesamte
Ausdruck in (2.13) also positiv. Mit (2.12) und (2.11) erhalten wir also insgesamt
0 < Tr
=
A + wwT − b′ I
1
λ′k+1 − b′
+
1
X
i>k
1
≤ ′
− ′.
′
λk+1 − b
b
Damit muss
1
λ′k+1 −b′
≥
1
b′
−1
− A − b′ I
k
−1 k
X 1
X 1
1
+
−
0 − b′
λ′i − b′
λ i − b′
i=1
i=1
gelten. Da aber sowohl A als auch A + wwT positiv semidefinit
sind, ist dies nur möglich, falls wie behauptet λ′k+1 > b′ ist.
Beweis von Lemma 2.2.3. Wir behandeln zunächst den Ausdruck Φb′ A + wwT . Es gilt
wieder mit Lemma 1.1.11
−1 Φb′ A + wwT = Tr LT A − b′ I + wwT
L
Tr LT (A − b′ I)−1 wwT (A − b′ I)−1 L
= Φb′ (A) −
1 + wT (A − b′ I)−1 w
Tr wT (A − b′ I)−1 LLT (A − b′ I)−1 w
= Φb′ (A) −
1 + wT (A − b′ I)−1 w
= Φb′ (A) −
wT (A − b′ I)−1 LLT (A − b′ I)−1 w
.
1 + wT (A − b′ I)−1 w
Um die Bedingung Φb′ A + wwT ≤ Φb (A) zu erfüllen, müssen wir also w so wählen, dass
wT (A − b′ I)−1 LLT (A − b′ I)−1 w
≤ Φb (A)
Φ (A) −
1 + wT (A − b′ I)−1 w
b′
gilt. Um auch die Eigenwertbedingung aus Lemma 2.2.2 zu erfüllen, muss dieses w zusätzlich
(2.2) erfüllen. Dies ist genau dann der Fall, wenn w der Bedingung
w T A − b′ I
−1
LLT A − b′ I
−1
−1 w
w ≤ (Φb (A) − Φb′ (A)) −1 − wT A − b′ I
genügt. Wir können die Existenz zumindest eines solchen Vektors w zeigen, indem wir über
sämtliche w ∈ {Lvi }i≤m aufsummieren und sicherstellen, dass die Ungleichung in der Summe
erfüllt ist, also dass
X
−1
−1 LLT A − b′ I
wi
wiT A − b′ I
i≤m
≤ (Φb (A) − Φb′ (A))
X
i≤m
14
−1 − wiT A − b′ I
−1
wi
gilt. Diese Summe lässt sich mit Hilfe der Spur wie zu Beginn des Beweises schreiben als
−1
−1 Tr LT A − b′ I
LLT A − b′ I
L
(2.14)
−1 L .
≤ (Φb (A) − Φb′ (A)) −m − Tr LT A − b′ I
Sei ∆ := Φb (A) − Φb′ (A). Da laut Voraussetzung Φb (A) ≤ −m −
Φb′ (A) = Φb (A) − ∆ ≤ −m −
kLk22
δ
ist, gilt
kLk22
− ∆.
δ
Damit folgt (2.14), falls wir zeigen können, dass
−1
−1 Tr LT A − b′ I
LLT A − b′ I
L
!!
kLk22
≤ ∆ −m − −m −
−∆
=∆
δ
kLk22
+∆
δ
!
gilt. Die linke Seite lässt sich mittels Proposition 1.1.3 schreiben als
−1
−1 Tr LLT A − b′ I
LLT A − b′ I
und lässt sich mit Lemma 1.1.4 nach oben abschätzen durch
T
LL Tr A − b′ I −1 LLT A − b′ I −1 = kLk2 Tr LT A − b′ I −2 L .
2
2
(2.15)
Seien nun P und Q die orthogonalen Projektionen auf im(A) bzw. ker(A). Dann gilt offensichtlich P + Q = I, P 2 = P und n
Q2 = Q. Aus der Spektralzerlegung
o (Satz 1.1.2) folgt, dass
−1
−2
′
′
alle Matrizen der Familie MA := P, Q, A, (A − b I) , (A − b I)
simultan diagonalisierbar sind. Es gibt also eine orthogonale Matrix R und für alle C ∈ MA eine Diagonalmatrix
DC , sodass C = RT DC R ist. Für B, C ∈ MA gilt daher BC = CB, da
BC = RT DB RRT DC R = RT DB DC R = RT DC DB R = RT DC RRT DB R = CB
ist. Für jedes C ∈ MA gilt daher
C = (P + Q)C(P + Q) = P CP + P CQ + QCP + QCQ,
was mit Q = I − P und P CP = P 2 C = P C weiter gleich
P CP + P C − P CP + CP − P CP + QCQ = P CP + QCQ
ist. Wir definieren
−1
T
′ −1
ΦPb′ (A) := Tr LT P A − b′ I
P L und ΦQ
(A)
:=
Tr
L
Q
A
−
b
I
QL
.
′
b
P
Q
Damit ist dann Φb′ (A) = ΦPb′ (A)+ΦQ
b′ (A) und ∆ = ∆ +∆ . Wir betrachten nun die Matrix
−2
−1
T := LT P (A − bI) (A − b′ I) P L. Diese ist positiv semidefinit, da alle Eigenwerte von A
größer als b > b′ > 0 sind. Aus der Resolventengleichung (Satz 1.2.1) folgt, dass
−1
−1
= b − b′ (A − bI)−1 A − b′ I
(A − bI)−1 − A − b′ I
15
ist. Zusammen erhalten wir damit
"
#
!
−1
′ I)−1
′ I)−2
(A
−
bI)
(A
−
b
(A
−
b
0 ≤ Tr (T ) = Tr LT P
−
PL .
b − b′
b − b′
Mit neuerlicher Anwendung der Resolventengleichung auf den ersten Term ist dies weiter
gleich
#
!
(A − bI)−1 − (A − b′ I)−1 (A − b′ I)−2
PL .
Tr L P
−
b − b′
(b − b′ )2
"
T
Setzen wir b − b′ = δ, so ergibt sich daraus
1 −2
−1
Tr LT P A − b′ I
P L ≤ Tr LT P (A − bI)−1 P L − Tr LT P A − b′ I
PL
δ
und damit
−2
kLk22
.
kLk22 Tr LT P A − b′ I
P L ≤ ∆P
δ
Es ist nun
−2 −2
−2
Tr LT A − b′ I
L = Tr LT P A − b′ I
P L + Tr LT Q A − b′ I
QL .
Zusammen mit (2.15) erhalten wir aus obiger Abschätzung also (2.15), wenn wir zeigen
können, dass
!
kLk22
kLk22
2
T
′ −2
kLk2 Tr L Q A − b I
+ ∆ − ∆P
(2.16)
QL ≤ ∆
δ
δ
gilt. Letzerer Ausdruck lässt sich schreiben als
∆P ∆ + ∆Q
!
kLk22
+∆ .
δ
Da ∆ = ∆P + ∆Q und ∆P , ∆Q ≥ 0 ist, folgt (2.16) aus
kLk22 Tr
T
′
L Q A−bI
−2
QL ≤ ∆
Q
kLk22
+ ∆Q
δ
!
.
Aus Satz 1.1.2 erhalten wir
Q A − b′ I
Damit ist
−1
−2
1
1
Q = − ′ Q und Q A − b′ I
Q = ′ 2 Q.
b
b
−2
1
1
1
Tr LT Q A − b′ I
QL = ′ 2 Tr LT QL = ′ 2 Tr LT QQT L = ′ 2 kQLk2F
b
b
b
16
(2.17)
und
2
kQLk2F
kQLk2F
kQLk2F
′ kQLkF
+
= b−b
=δ
.
∆ =−
b
b′
bb′
bb′
Q
Setzen wir dies in (2.17) ein, so ergibt sich
kQLk2F
kQLk2F
kLk22
≤
δ
bb′
b′ 2
kQLk2F
kLk22
+δ
δ
bb′
was äquivalent ist zu
kLk22 ≤ δ
kQLk2F
,
b
wie in den Voraussetzungen des Lemmas gefordert.
17
!
18
Kapitel 3
Graphen
3.1
Vorbemerkung
Graphen sind einfache und zugleich höchst komplexe Gebilde, die in den meisten Bereichen
der Technik und der Naturwissenschaften eine Rolle spielen. In der Informatik lassen sich viele algorithmische Probleme auf Graphen zurückführen, beispielsweise im Bereich der Datenkompression oder in der Bildverarbeitung. Auch in der Physik und Chemie dienen Graphen
unter anderem zur Modellierung von elektrischen Netzwerken oder Molekülen. Klassische“
”
graphentheoretische Probleme reichen vom Königsberger Brückenproblem von Leonhard Euler, dem Problem des kürzesten Weges zwischen zwei Punkten in einem Straßennetz und dem
Problem des Handlungsreisenden, der die kürzeste Rundreise durch alle Ecken eines Graphen
finden muss, bis hin zum Färben von Landkarten und dem damit verbundenen Vier-FarbenSatz. Überraschenderweise können die meisten wichtigen Eigenschaften eines Graphen aus
dem Spektrum seiner zugehörigen Matrizen abgelesen werden. Diese Zusammenhänge werden in der spektralen Graphentheorie untersucht, mit deren Grundlagen wir uns in diesem
Kapitel beschäftigen. Dabei orientieren wir uns im Wesentlichen an [8].
Definition 3.1.1. Ein endlicher Graph G(V, E) besteht aus einer Menge an Knoten V =
{v1 , v2 , ...vn } und einer Menge an Kanten E = {e1 , ..., em } wobei E ∋ e = (u, v) mit u, v ∈ V .
Ein Graph heißt ungerichtet, falls wir für alle u, v ∈ V die Kanten e = (u, v) und f = (v, u)
miteinander identifizieren. Ein Graph ist schlingenfrei, falls für alle e = (u, v) ∈ E gilt, dass
u 6= v.
Desweiteren können wir die Kanten des Graphen mit unterschiedlichen Gewichten belegen:
Definition 3.1.2. Ein gewichteter Graph G(V, E, w) ist ein Graph G(V, E) mit einer Gewichtsfunktion w(u, v) : V × V → R+
0 , die für alle u, v ∈ V folgende Eigenschaften erfüllt:
1. w(u, v) = w(v, u)
2. w(u, v) = 0 ⇔ (u, v) ∈
/E
Manchmal bezeichnen wir das Gewicht der Kante e = (u, v) auch mit we oder wuv . Lassen
wir für w nur die Werte 0 und 1 zu, erhalten wir einen ungewichteten Graphen.
19
Abbildung 3.1: Ein Graph 1 .
3.2
Begriffe, Definitionen und Laplace-Matrix
Wir betrachten im Folgenden ausschließlich endliche Graphen und werden uns hauptsächlich
mit ungerichteten, schlingenfreien Graphen auseinandersetzen.
Definition 3.2.1. Sei G(V, E) ein Graph, u, v ∈ V und e ∈ E.
1. Der Grad von v ist definiert als
dv :=
X
we .
e∈E
e∋v
2. Der Knoten v heißt isoliert, wenn dv = 0.
3. Die Knoten u und v heißen adjazent, wenn es eine Kante e gibt mit e = (u, v) und wir
schreiben dafür u ∼ v.
4. Der Knoten v inzidiert mit e, falls v ∈ e.
5. G heißt nicht trivial, falls E 6= ∅.
6. G heißt k-regulär, falls G ungewichtet ist und für alle v ∈ V gilt dv = k.
P
7. Das Volumen von G ist definiert als vol(G) := v∈V dv .
8. G enthält einen uv-Pfad Puv , falls ein Puv ⊂ E existiert mit
Puv = {(xi , xi+1 )|i = 0, ..., k ∧ x0 = u, xk = v ∧ xi 6= xj für alle i 6= j}
1
Quelle: http://cs-www.cs.yale.edu/homes/spielman/sgta/SpecTut.pdf
20
9. G heißt zusammenhängend, falls V 6= ∅ und für alle u, v ∈ V ein uv-Pfad in E existiert.
10. Der Abstand zweier Knoten u und v ist definiert als
X
distG (u, v) := min
we ,
Puv
e∈Puv
falls das Minimum existiert. Ansonsten definieren wir distG (u, v) := ∞.
11. Der Durchmesser von G ist definiert als
diamG := max {distG (u, v)} .
u,v
12. G heißt bipartit, falls V1 und V2 ⊂ V existieren, sodass V1 ∩ V2 = ∅, V = V1 + V2 und
∀i ∄ a, b ∈ Vi : a ∼ b.
Definition 3.2.2. Die Adjazenzmatrix AG eines gewichteten Graphen G(V, E, w) ist definiert als
(
wuv falls u ∼ v
AG (u, v) =
0
sonst.
Mit DG bezeichnen wir die Grad-Matrix von G. Dies ist jene Diagonalmatrix, die als Eintrag
an der Stelle (u, u) den Grad des Knotens u bsitzt:
DG (u, u) = du =
X
AG (u, v)
v
Definition 3.2.3. Die Inzidenzmatrix CG eines gerichteten Graphen G ist definiert als
wobei x ∈ V .


1
CG (u, e) = −1


0
falls (u, x) = e
falls (x, u) = e
sonst,
Bemerkung 3.2.4. Wir werden diese Definition auch für ungerichtete Graphen übernehmen.
In diesem Fall bezeichnen (u, v) und (v, u) dieselbe Kante e. Wir verlangen deshalb nur, dass
entweder CG (u, e) = 1 ∧ CG (v, e) = −1 oder CG (u, e) = −1 ∧ CG (v, e) = 1 ist, die Matrix
CG also für alle Spalten die Spaltensumme 0 besitzt.
Definition 3.2.5. Die Laplace-Matrix LG eines Graphen ist definiert als


du
LG (u, v) = DG − AG = −wuv


0
21
falls u = v
falls u ∼ v
sonst.
Abbildung 3.2: Die Graphen C4 , K5 , P5 , und S4 .
−1/2
−1/2
Die normierte Laplace-Matrix LG ist definiert über LG = DG LG DG , wobei wir im Fall
−1
du = 0 den entsprechenden Eintrag DG
(u, u) gleich null setzen. Es gilt
−1/2
LG = D G
−1/2
LG D G
−1/2
= I − DG
−1/2
AG DG
.
Komponentenweise erhalten wir dann für einen gewichteten (auch nicht-schlingenfreien) Graphen

wvv

1 − dv falls u = v
falls u ∼ v
LG (u, v) = − √wduvd
u v


0
sonst ,
für einen ungewichteten, schlingenfreien im Speziellen

falls u = v

1
1
falls u ∼ v
LG (u, v) = − √d d
u v


0
sonst.
Wir werden uns im Folgenden, sofern nicht anders angegeben, auf ungewichtete und schlingenfreie Graphen beschränken, da sie formal und intuitiv besser hand zu haben sind. Alle
Überlegungen lassen sich jedoch direkt auf gewichtete Graphen übertragen. Desweiteren verzichten wir auf die Indizierung der Matrizen, falls der Bezugsgraph klar ist.
Beispiel 3.2.6. Wir führen einige wichtige Graphen auf n Knoten an:
1. Der vollständige Graph Kn : E = {(u, v) : u 6= v}
2. Der Sternengraph Sn : E = {(1, u) : 2 ≤ u ≤ n}
3. Der Pfad Pn : E = {(u, u + 1) : 1 ≤ u < n}
4. Der Kreis Cn : E = {(u, u + 1) : 1 ≤ u ≤ n} ∪ (n, 1)
Ist G ein k-regulärer Graph, so gilt
L = kI − A
und
L=
1
1
L=I− A
k
k
22
Sei nun f eine Funktion, die von der Knotenmenge V in die reellen Zahlen abbildet. Wir nennen ein solches f eine Knotenfunktion. Klarerweise lässt sich jede Knotenfunktion mit einem
Vektor aus Rn identifizieren und L kann als Operator auf dem Raum der Knotenfunktionen
betrachtet werden. Für den Operator L angewandt auf f erhalten wir dann
X
f (v).
Lf (u) = du · f (u) −
v
u∼v
Da
P
{v:u∼v} 1
= du gilt, ist dies äquivalent zu
X
v
u∼v
(f (u) − f (v)).
Analog gilt für die normierte Laplace-Matrix
1 X f (u) f (v)
√ −√
Lf (u) = √
.
du v
du
dv
u∼v
Um die nachfolgenden Rechnungen einfacher zu gestalten setzen wir vi = i für alle vi ∈ V .
Die von L mit dem euklidischen Skalarprodukt erzeugte quadratische Form lässt sich dann
schreiben als
X
X
(g(i) − g(j))
hg, Lgi =
g(i)
i
=
XX
i
=
X
j
i∼j
i∼j
=
X
i∼j
j
i∼j
(g(i))2 − g(i)g(j)
(g(i))2 − g(i)g(j) + (g(j))2 − g(j)g(i)
(g(i) − g(j))2 .
Analog gilt für die normierte Laplace-Matrix
hg, Lgi =
3.3
X g(i)
i∼j
di
g(j)
−
dj
2
.
Eigenwerte und Eigenvektoren
Satz 3.3.1. Sei C die Inzidenzmatrix des Graphen G und S := D−1/2 C. Dann lässt sich die
Laplace-Matrix von G darstellen als
L = CC T ,
(3.1)
L = SS T .
(3.2)
die normierte Laplace-Matrix als
23
Beweis. Es ist
(CC T )(u, v) =
X
C(u, e)C T (e, v)
e∈E
=
X
C(u, e)C(v, e).
e∈E
Sei nun u 6= v. Der Ausdruck C(u, e)C(v, e) ist genau dann ungleich 0, wenn u ∈ e und v ∈ e
ist, also e = (u, v) gilt. In diesem Fall ist C(u, e) = 1 und C(v, e) = −1 oder umgekehrt, in
jedem Fall ist C(u, e)C(v, e) = −1. Da der Graph keine mehrfachen Kanten besitzt, kann
dies höchstens bei einem Summanden der Fall sein, somit ist (CC T )(u, v) = −1 falls u ∼ v
und 0 sonst. Für den Fall u = v erhalten wir
X
(CC T )(u, u) =
(C(u, e))2 = du .
e∈E
Insgesamt haben wir also


du falls u = v
T
(CC )(u, v) = −1 falls u ∼ v


0
sonst,
was genau der Definition von L entspricht. Für die normierte Laplace-Matrix gilt
L = D−1/2 LD−1/2 = D−1/2 CC T D−1/2 = SS T .
Bemerkung 3.3.2. Für einen gewichteten Graphen müssen wir in dieser Darstellung noch
die Kantengewichte berücksichtigen. In diesem Fall gilt mit der Diagonalmatrix W definiert
über W (e, e) = we
L = CW C T = (CW 1/2 )(CW 1/2 )T .
Aus dieser Darstellung folgt wegen Punkt 1 in Lemma 1.1.1, dass L und L symmetrische,
positiv semidefinite Matrizen sind. Für ihre Eigenwerte und Eigenvektoren gilt damit:
1. Alle Eigenwerte sind reell und nichtnegativ.
2. Ist λ ein k-facher Eigenwert, so spannen die zu λ gehörigen Eigenvektoren einen kdimensionalen Unterraum des Rn auf.
Sei f := D−1/2 g. Ist g eine Eigenfunktion von L, so heißt f eine harmonische Eigenfunktion.
In unserem Fall gilt dann mit Satz 1.1.8
−1/2
g, D−1/2 LD−1/2 g
D
g, LD−1/2 g
hg, Lgi
=
=
RL (g) =
hg, gi
hg, gi
hg, gi
P
2
(f (u) − f (v))
hf, Lf i
P
=
.
= u∼v
2
hDf, f i
v (f (v)) dv
Wir werden uns nun im nächsten Kapitel genauer mit der Struktur des Spektrums von
Graphen beschäfigen.
24
3.4
Grundlegende Eigenschaften des Spektrums eines Graphen
Offensichtlich gilt für den kleinsten Eigenwert
λ1 = min RL (f )
f
P
(f (u) − f (v))2
u∼v
P
= min
2
f
v (f (v)) dv
= 0.
Dieses Minimum wird auf jeden Fall für konstantes f angenommen. Damit sind f1 = 1 und
g1 = D1/2 1 eine zugehörige harmonische Eigenfunktion beziehungsweise Eigenfunktion. Für
den nächsten Eigenwert gilt
λ2 =
=
min RL (f ) = min RL (f ) =
g⊥D 1/2 1
P min
f : v f (v)dv =0
P
f ⊥D1
RL (f )
P min
f : v f (v)dv =0
− f (v))2
.
2
v (f (v)) dv
(f (u)
u∼v
P
Analog erhalten wir für den k-ten Eigenwert
λk =
min
f ⊥DPk−1
RL (f ),
wobei Pk−1 den von den ersten k −1 harmonischen Eigenfunktionen f1 , ...fk−1 aufgespannten
Unterraum bezeichne. Wir werden nun die Struktur der Spektren einiger spezieller Graphen
genauer untersuchen.
Satz 3.4.1. Der vollständige Graph Kn besitzt die Eigenwerte 0 und
1 beziehungsweise n − 1.
n
n−1
mit Vielfachheiten
Beweis. Wegen vorhergehender Überlegung ist λ1 = 0. Da alle Knoten miteinander verbunden sind folgt induktiv, dass es keine weitere von f1 = 1 linear unabhängige harmonische
Eigenfunktion geben kann. Die normalisierte Laplace-Matrix besitzt die Form
(
1
falls u = v
LKn (u, v) =
1
sonst.
n−1
Ist f orthogonal zur Einsfunktion 1, so ist
X
f (v) = 0
X
g(v) = 0.
v
und damit auch
v
25
(3.3)
Es gilt für alle Knoten u
LKn f (u) = LKn D−1/2 g(u)
1
LKn g(u)
=√
n−1


X
1
g(u) − 1
g(v) .
=√
n−1
n−1
v6=u
Weiters ist
LKn g(u) =
n
1 X
n
g(u) −
g(u),
g(v) =
n−1
n−1
n−1
v∈V
wobei die letzte Gleichheit aus (3.3) folgt. Da wir lediglich f ⊥1 vorausgesetzt haben folgt,
n
.
dass für alle 2 ≤ i ≤ n gilt λi = n−1
Lemma 3.4.2. Sei G ein Graph mit n Knoten. Dann gilt
n
X
i=1
λi ≤ n
mit Gleichheit genau dann wenn G keine isolierten Knoten besitzt.
Beweis. Mit Proposition 1.1.3 gilt für die Spur von L
Tr (L) =
n
X
i=1
L(i, i) =
n
X
λi .
i=1
P
Da L(i, i) ∈ {0, 1} folgt ni=1 λi ≤ n. Es gilt L(i, i) = 0 genau dann, wenn di = 0. Damit ist
L(i, i) 6= 0 für alle i = 1, ..., n genau dann, wenn G keine isolierten Knoten besitzt.
Lemma 3.4.3. Sei n ≥ 2. Dann gilt für den Eigenwert λ2
λ2 ≤
n
n−1
mit Gleichheit genau dann, wenn G der vollständige Graph ist. Falls G keine isolierten
Knoten besitzt, gilt außerdem
n
.
λn ≥
n−1
Beweis. Sei
n
λ :=
1 X
λi .
n−1
i=2
Wegen 0 = λ1 ≤ λ2 ≤ ... ≤ λn und dem vorigen Lemma gilt
n
λ2 ≤
n
1 X
.
λi = λ ≤
n−1
n−1
i=2
26
Gleichheit gilt genau dann, wenn λi = λ2 für alle i ≥ 2 ist und G keine isolierten Knoten
besitzt. Das bedeutet aber, dass G der vollständige Graph ist.
Falls G keine isolierten Knoten besitzt, gilt außerdem
λn−1 =
P
i λi
= n und damit
n−1
n
λn−1 ≥ λ =
.
n−1
n−1
Lemma 3.4.4. Falls G nicht vollständig ist, gilt λ2 ≤ 1.
Beweis. Sei G nicht vollständig. Dann existieren a, b ∈ V mit a ≁ b. Wir definieren


 db
fe(v) := −da


0
falls v = a
falls v = b
sonst.
Diese Funktion steht offensichtlich orthogonal auf D1. Damit gilt
λ2 = min RL (f ) ≤ RL (fe) =
f ⊥D1
db (−da )2 + da d2b
= 1.
= 2
db da + (−da )2 db
P
u∼v
P
fe(u) − fe(v)
e
v (f (v))
2d
v
2
Lemma 3.4.5. Falls λi = 0 und λi+1 6= 0, so hat G genau i + 1 Zusammenhangskomponenten. Insbesondere ist für einen zusammenhängenden Graphen λ2 > 0.
Beweis. Es gilt RL (f ) = 0 genau dann, wenn
X
u∼v
(f (u) − f (v))2 = 0
(3.4)
ist. Um (3.4) zu erreichen, muss f zumindest auf jedem zusammenhängenden Teilgraphen, also auf jeder Zusammehangskomponente konstant sein. Besitzt der Graph k Zusammenhangskomponenten, so gibt es genauso viele (linear unabhängige) Eigenfunktionen zum Eigenwert
0. Offensichtlich zerfallen in diesem Fall (bei geeigneter Nummerierung der Knoten) L und L
in Blockdiagonalmatrizen mit k Blöcken. Damit ist das Spektrum der Vereinigung disjunkter
Graphen gleich der Vereinigung ihrer Spektren. Da jede Zusammenhangskomponente 0 mit
Vielfachheit 1 als Eigenwert besitzt, folgt die Behauptung.
Lemma 3.4.6. Sei 1 ≤ i ≤ n. Dann gilt λi ≤ 2 mit Gleichheit genau dann, wenn G
nichttrivial ist und eine bipartite Zusammenhangskomponente besitzt.
27
Beweis. Mit (a − b)2 ≤ 2(a2 + b2 ) gilt
P
(f (u) − f (v))2
P
λn = max u∼v
2
f
v (f (v)) dv
P
2 u∼v (f (u))2 + (f (v))2
P
≤ max
2
f
v (f (v)) dv
P
(f (v))2 dv
2
= max P v
= 2.
2
f
v (f (v)) dv
Gleichheit gilt genau dann, wenn
(f (u) + f (v))2 = 0
ist, was wiederum äquivalent ist zu
f (u) = −f (v) für alle u ∼ v.
Es folgt sofort aus Definition 3.2.1, dass dies nur für einen bipartiten Graphen möglich ist.
Lemma 3.4.7. Sei G ein bipartiter Graph. Ist λi Eigenwert von G, so ist auch 2 − λi
Eigenwert von G.
Beweisskizze. Sei f eine harmonische Eigenfunktion von G zum Eigenwert λ und V1 bzw. V2
die Teilmengen von V aus Definition 3.2.1 mit r bzw. s Knoten. Wir definieren die Funktion
fe über
(
f (x)
falls x ∈ V1
fe(x) :=
−f (x) falls x ∈ V2 .
Die Adjazenzmatrix eines bipartiten Graphen besitzt die Form
0r×r Br×s
A=
T
0s×s .
Br×s
Mit L = I − D−1/2 AD−1/2 folgt daraus durch direktes Nachrechnen, dass fe harmonische
Eigenfunktion zum Eigenwert 2 − λ ist.
Mit folgendem Lemma verbessern wir die untere Abschätzung für λ2 :
Lemma 3.4.8. Sei G zusammenhängend. Dann gilt
λ2 ≥
1
.
diam(G) vol(G)
Beweis. Sei f jene harmonische Eigenfunktion,
P für die RL (f ) = λ2 gilt. Sei weiters v0 ∈ V
so, dass |f (v0 )| = maxv |f (v)|. Da hf, 1i =
v f (v) = 0 ist, existiert ein u0 ∈ V sodass
f (u0 )f (v0 ) < 0. Sei P ein minimaler Pfad, der u0 und v0 verbindet. Damit gilt
P
P
2
2
(x,y)∈P (f (x) − f (y))
x∼y (f (x) − f (y))
P
.
λ2 =
≥
2
vol(G)(f (x))2
x (f (x)) dx
28
Für den Ausdruck im Zähler gilt mit der Cauchy-Schwarz-Ungleichung
X
(x,y)∈P
(f (x) − f (y))2 =
X
(x,y)∈P

≥
X
(x,y)∈P
1
p
|P |
!2
X
(x,y)∈P
(f (x) − f (y))2
2
1
p (f (x) − f (y))
|P |
1
(f (u0 ) − f (v0 ))2 .
=
|P |
Da diam(G) ≥ |P |, (f (u0 ))2 ≥ 0 und f (u0 )f (v0 ) < 0 ist, folgt weiter
X
(x,y)∈P
(f (x) − f (y))2 ≥
1
(f (v0 ))2 .
diam(G)
Insgesamt erhalten wir also
(f (v0 ))2
1
diam(G) vol(G)(f (v0 ))2
1
=
.
diam(G) vol(G)
λ2 ≥
Lemma 3.4.9. Sei f harmonsiche Eigenfunktion zum Eigenwert λ2 . Dann gilt für alle u ∈ V
1 X
(f (u) − f (v)) = λ2 f (u).
du v
v∼u
Beweis. Sei g = D1/2 f . Dann ist g Eigenfunktion zu λ2 , also Lg = λ2 g. Es gilt
1 X
(f (u) − f (v))
Lg(u) = LD1/2 f (u) = √
du v
v∼u
und
λ2 g(u) = λ2 D1/2 f (u) = λ2
also insgesamt
p
du f (u),
p
1 X
√
(f (u) − f (v)) = λ2 du f (u).
du v
v∼u
Daraus folgt unmittelbar die Behauptung.
Für k-reguläre Graphen lässt sich diese Abschätzung noch wesentlich verbessern:
29
Lemma 3.4.10. Sei G k-regulär mit n Knoten. Dann gilt
s
max |1 − λi | ≥
i>1
n−k
.
(n − 1)k
Beweis. Wir stellen die Spur der Matrix (I − L)2 auf zwei verschiedene Arten dar: Einerseits
gilt mit λ1 = 0
Tr (I − L)2 =
n
X
i=1
(1 − λi )2
=1+
n
X
i=2
(1 − λi )2
≤ 1 + (n − 1)(max |1 − λi |)2 .
i>1
Andererseits haben wir wegen L = I − k1 A, der Symmetrie und Definition von A und der
k-Regularität von G
2
1
1
Tr (I − L) = Tr
A = 2 Tr A2
k
k
1 X
A(x, y)A(y, x)
= 2
k x,y
1 X
= 2
[A(x, y)]2
k x,y
1 X
= 2
A(x, y)
k x,y
1 XX
= 2
A(x, y)
k x y
2
x∼y
1 X
k
= 2
k x
=
1
n
(n · k) = .
2
k
k
Insgesamt erhalten wir also
1 + (n − 1)(max |1 − λi |)2 ≥
i>1
n
k
und nach Umformung
(max |1 − λi |)2 ≥
i>1
woraus die Behauptung folgt.
30
n−k
,
(n − 1)k
Bemerkung 3.4.11. Für allgemeine Graphen gilt immerhin noch die Abschätzung
n
k
2
1 + (n − 1)(max |1 − λi |) ≥
−1
1 − (1 + max |1 − λi |)
i>1
i>1
dH
dH
P
P
Mit dem harmonischen Mittel d1H := n1 v d1v und dem arithmetischen Mittel k = n1 v dv
der Knotengrade.
3.5
Random Walks auf Graphen
Definition 3.5.1. Unter einem Weg in einem Graphen G verstehen wir eine Folge von
Knoten (v0 , ..., vs ) mit (vi−1 , vi ) ∈ E für alle 1 ≤ i ≤ s.
Ein Zufallsweg oder Random Walk ist bestimmt durch die Übergangswahrscheinlichkeiten
(
1
falls u ∼ v
P (u, v) = P(xi+1 = v|xi = u) = du
0
sonst,
die Matrix P heißt Übergangsmatrix. Es gilt P = AD−1 = D1/2 (I − L)D−1/2 . Also sind
P = AD−1 und I −L ähnlich und besitzen damit die gleichen Eigenwerte. Diese Beziehungen
gelten offensichtlich auch für gewichtete
Graphen und Graphen mit Schlingen. Für jede
P
Anfangsverteilung f0 : V → R mit v f (v) = 1 sind die ersten k Schritte des Random Walk
f1 = P f0
f2 = P f1 = P 2 f0
...
fk = P k f0 .
Wir interessieren uns nun für die stationäre Verteilung π(v). Dies ist jene Verteilung, die
lim P s (v)f = π(v)
s→∞
(3.5)
erfüllt. Falls sie existiert, ist sie (der auf 1 normierte) Eigenvektor zum Eigenwert 1:
P π = lim P (P s f ) = lim P s+1 f = π
s→∞
s→∞
Ein Random Walk, der eine eindeutige, stationäre Verteilung besitzt heißt ergodisch. Notwendige und hinreichende Bedingungen dafür sind
1. Irreduzibilität: ∀u, v ∈ V ∃s ∈ N : P s (u, v) > 0 und
2. Aperiodizität: ∀u, v ∈ V : gcd{s : P s (u, v) > 0} = 1.
Ersteres bedeutet, dass jeder Punkt des Graphen erreichbar ist. Die zweite Bedingung stellt
sicher, dass die Rückkehr in einen Zustand nach jeder Anzahl von Schritten und nicht nur in
Vielfachen von k ≥ 2 Schritten möglich ist. Auf Graphen übertragen sind diese Bedingungen
äquivalent dazu, dass der Graph zusammenhängend und nicht bipartit ist (bipartite Graphen
besitzen gerade Periodizität).
31
Lemma 3.5.2. Für die stationäre Verteilung eines zusammenhängenden, nicht bipartiten
1
Graphen gilt π = vol(G)
D1.
Beweis. Die stationäre Verteilung existiert wegen obiger Bemerkung. Wir können sie somit
1
D1, da
als normierten Eigenvektor zum Eigenwert 1 berechnen. Dies ist aber genau vol(G)
P

P D1 = AD−1 D1 = A1 = 
P
v
v
  
A(v, 1)
d1
  .. 
..
 =  .  = D1.
.
A(v, n)
dn
Wir zeigen nun, dass für k hinreichend groß P k f für jede Anfangsverteilung f gegen π konvergiert und geben eine Schranke für die Konvergenzgeschwindigkeit an. Zunächst verwenden
wir die euklidische Norm. Seien φ1 , ..., φn ein System von orthonormalen Eigenfunktionen
zu
P
−1/2
−1/2
λ1 , ..., λn . Wir stellen D
f in dieser Basis dar und definieren D
f := i ai φi . Es ist
φ1 = √ 1 D1/2 1 und damit
vol(G)
−1/2
D
f, D1/2 1
hf, 1i
1
=p
=p
,
a1 =
D1/2 1
vol(G)
vol(G)
2
P
da v f (v) = 1 ist. Für den Abstand zur stationären Verteilung nach dem s-ten Schritt gilt
damit und unter Verwendung der Spektraldekomposition von I − L
s
1
s
kP f − πk = P f − vol(G) D1
= P s f − D1/2 a1 φ1 = D1/2 (I − L)s D−1/2 f − D1/2 a1 φ1 1/2 X
T s −1/2
1/2
f − D a 1 φ 1 .
= D ( (1 − λi )φi φi ) D
i
Da die φi eine Orthonormalbasis sind, gilt in der Cauchy-Schwarz-Ungleichung Gleichheit
und weiter
!
X
= D1/2
(1 − λi )s φi φTi D−1/2 f − D1/2 a1 φ1 .
i
Mit λ1 = 0 folgt


X
1/2
T −1/2
1/2 
s
T  −1/2
1/2
= D φ 1 φ 1 D
f +D
(1 − λi ) φi φi D
f − D a1 φ1 i≥1


X
1
1/2
T
1/2 
s
T  −1/2
1/2 p
D φ1 1 f + D
(1 − λi ) φi φi D
f − a 0 φ 0 D .
=
vol(G)
i≥2
32
Nun kürzen sich der erste und letze Summand dieses Ausdrucks, da 1T f = 1 und a1 =
√ 1
ist. Somit erhalten wir weiter mit φTi φj = δij , der Dreiecksungleichung und der
vol(G)
Definition der Spektralnorm


X
s
1/2
s
T
−1/2
 (1 − λi ) φi φi  D
kP f − πk = f
D
i≥2



X
X
1/2
s
T


= D
(1 − λi ) φi φi
aj φj j
i≥2
1/2 X
s
(1 − λi ) ai φi = D
i≥2


X
1/2 s 

≤ max |1 − λi | ai φi D i≥2
i≥2
≤ max |1 − λi |s kf kD−1/2 D1/2 i≥2
√
s maxx dx
p
= max |1 − λi |
i≥2
miny dy
√
′ s maxx dx
p ,
≤ (1 − λ )
miny dy
wobei
λ′ :=
Aus der Abschätzung ex ≤
Nach s ≥
ε.
1
λ′
log
√
maxx √dx
ε miny dy
(
λ1
2 − λn
falls 1 − λ2 ≥ λn − 1
sonst.
′
1
1−x
für x < 1 folgt (1 − λ′ )s ≤ e−sλ und damit insgesamt
√
s
−sλ′ maxx dx
p .
(3.6)
kP f − πk ≤ e
miny dy
Schritten beträgt der L2 Abstand von f P s zu π also maximal
Bemerkung 3.5.3. Obwohl diese Abschätzung von λ′ und somit von λ2 und λn abhängt,
ist in gewissem Sinne nur λ2 für die Konvergenzgeschwindigkeit relevant: Sei λ′ = 2 − λn .
Wir betrachten einen Lazy Random Walk, bei dem die Wahrscheinlichkeit in einem Knoten
zu verbleiben 12 beträgt. Um dem Rechnung zu tragen, modifizieren wir unseren Graphen
G, indem wir in jedem Knoten u eine Schlinge mit Gewicht du hinzufügen. Der modifizierte
ek = λk /2 ≤ 1 (siehe [8, S. 16]). Damit ist 1 − λ
e2 ≥
Graph G′ besitzt dann die Eigenwerte λ
e
1 − λn ≥ 0 und wir erhalten als Konvergenzschranke für den Lazy Random Walk
√ !
maxx dx
2
p
log
.
s≥
λ2
ǫ miny dy
33
Die L2 -Norm ist allerdings in vielen Anwendungen zu schwach, da keine punktweise Konvergenz nötig ist. Deshalb verwenden wir für eine weitere Abschätzung den relativen punktweisen
Abstand zur stationären Verteilung. Nach s Schritten ist dieser gegeben durch
∆(s) := max
x,y
|P s (x, y) − π(x)|
.
π(x)
Analog zum Koordinatenvektor im Einführungskapitel ist die Koordinatenfunktion χx : V →
{0, 1} definiert über
(
1 falls x = y
χx (y) :=
0 sonst.
Wir verwenden nun wie vorher die Eigenfunktionen φi von L als Orthonormalbasis und
schreiben
X
D1/2 χx =
αi φ i
i
D
−1/2
χy =
X
β j φj .
j
Die Koeffizienten α1 und β1 berechnen sich zu
1/2
D χx , D1/2 1
dx
=p
α1 =
1D1/2 vol(G)
−1/2
1/2
D
χ ,D 1
1
y =p
.
β1 =
1D1/2 vol(G)
Für den relativen punktweisen Abstand gilt damit analog zu voriger Abschätzung
T t
χx P χy − π(x)
∆(t) = max
x,y
π(x)
T 1/2
χx D (I − L)t D−1/2 χy − π(x)
= max
x,y
π(x)
P t
i≥2 (1 − λi ) αi βi
≤ max
x,y
dx / vol(G)
P
t
i≥2 |αi βi |
≤ max |1 − λi | max
x,y dx / vol(G)
i≥2
1/2 −1/2 t
D χ x · D
χy ≤ max |1 − λi | max
x,y
i≥2
dx / vol(G)
und weiter, da kχx k = kχy k = 1 und mit λ′ definiert wie oben
√
vol(G) dx
′ t
p
≤ 1 − λ max
x,y
dx
dy
vol(G)
t
p
= 1 − λ′
minx,y dx dy
′ vol(G)
.
≤ e−tλ
minx dx
34
Wir erreichen also nach
1
t ≥ ′ log
λ
vol(G)
ǫ minx dx
Schritten einen relativen punktweisen Abstand, der kleiner ǫ ist.
35
36
Kapitel 4
Spectral Sparsification
4.1
Graph Sparsification
In diesem Kapitel geht es darum, einen Graphen G durch einen ausgedünnten Graphen
möglichst gut zu approximieren. Wir wollen einen Graphen H konstruieren, der viele Eigenschaften von G erhält, gleichzeitig aber möglichst wenig Kanten enthält. Dieser Vorgang
wird graph sparsification genannt, H ist ein sparsifier für G. Aus dem letzten Kapitel wissen
wir, dass das Spektrum eines Graphen die wichtigste Informationsquelle über den Graphen
ist. Somit ist es ein natürlicher Ansatz, bei der Konstruktion von H darauf zu achten, dass
sich die Eigenwerte der Laplace-Matrix so wenig wie möglich verändern. Unser eigentliches
Problem ist also in der linearen Algebra angesiedelt: Wir wollen die Laplace-Matrix von G
durch eine Matrix von geringem Rang möglichst gut annähern. Dazu betrachten wir noch
einmal die Laplace-Matrix LG genauer. Sei wieder χu (v) = δuv für alle Knoten u, v ∈ VG
und χu − χv := χuv . Dann können wir LG darstellen als
X
X
wuv χuv χTuv ,
wuv (χu − χv ) (χu − χv )T =
LG =
(u,v)∈E
(u,v)∈E
also als Summe von äußeren Produkten, die wir mit den Kanten von G identifizieren können.
Allgemein formuliert betrachten wir eine positiv-semidefinite Matrix A mit Rang n, dargestellt als Summe von Rang-1 Matrizen
A=
m
X
wi wiT ,
i=1
wobei m sehr viel größer als n sein kann. Unser Ziel ist, die Zahl m wesentlich zu reduzieren.
Den ersten Schritt können wir bereits mir Hilfe des Spektralsatzes machen: Sind λi und ui
die Eigenwerte und Eigenvektoren von A, so lässt sich A darstellen als
A=
m
X
wi wiT
=
n
X
λi ui uTi ,
i=1
i=1
das heißt als gewichtete Summe von nur n äußeren Produkten, die aber gleichzeitig die untere
Grenze für eine exakte Darstellung ist. Der folgende Satz zeigt uns jedoch, dass und wie wir
die Anzahl noch weiter reduzieren können, ohne allzuviel Informationen zu verlieren.
37
4.2
Spectral Sparsification Theorem
P
T
Satz 4.2.1 (Spectral Sparsification, [34]). Sei 0 < ǫ < 1, m ∈ N und A := m
i=1wi wi mit
wi ∈ Rn . Dann gibt es nichtnegative Gewichte {si }i≤m von denen höchstens ǫn2 ungleich
Null sind und es gilt
2
(1 − ǫ) A ≤
m
X
i=1
si wi wiT ≤ (1 + ǫ)2 A.
Tatsächlich ist es ausreichend, den Fall A = I zu betrachten. Deshalb werden wir mit folgender Formulierung weiterarbeiten, von der wir im Anschluss gleich zeigen werden, dass sich
Satz 4.2.1 daraus ableiten lässt:
P
T
Satz 4.2.2. Seien d > 1, v1 , · · · , vm ∈ Rn mit m
i=1 vi vi = I. Dann gibt es si ∈ R mit
|{i : si 6= 0}| ≤ dn sodass
√
m
X
d+1+2 d
T
√ I
si v i v i ≤
I≤
(4.1)
d+1−2 d
i=1
gilt.
P
T
Beweis von Satz 4.2.1. Sei A := m
i=1 wi wi und habe o.B.d.A. vollen Rang. Wir definieren
vi := A−1/2 wi und erhalten daraus aufgrund der Symmetrie von A


X
X
vi viT = A−1/2 
wi wiT  A−1/2 = I.
(4.2)
i≤m
i≤m
Somit erfüllen die Vektoren vi die Voraussetzungen von
n Satz 4.2.2. Setzen wir weiters d =
so erhalten wir Skalare si ≥ 0, von denen maximal ǫ2 ungleich Null sind und für die
√
m
X
d+1+2 d
(1 + ǫ)2
T
√ I=
si v i v i ≤
I≤
I
(1 − ǫ)2
d+1−2 d
i=1
gilt. Multiplikation mit (1 − ǫ)2 liefert uns
(1 − ǫ)2 I ≤
e = (1 − ǫ)
Mit A
2P
T
i si w i w i
m
X
i=1
(1 − ǫ)2 si vi viT ≤ (1 + ǫ)2 I.
erhalten wir
(1 − ǫ)2 I ≤ (1 − ǫ)2
m
X
i=1
woraus sich genau wie gewünscht
1−ǫ
e −1/2 ≤ (1 + ǫ)2 I,
si A−1/2 wi wiT A−1/2 = A−1/2 AA
2
A≤
m
X
i=1
si wi wiT ≤ 1 + ǫ2 A
ergibt.
38
1
,
ǫ2
Wir beweisen nun Satz 4.2.2. Dazu erinnern wir zunächst noch an Korollar 1.1.10, was eine
Folgerung aus dem Cauchy Interlacing Theorem (Satz 1.1.9) war:
Korollar 4.2.3. Sind v ∈ Rn , λ1 , · · · , λn die Eigenwerte der n × n Matrix A und µ1 , · · · , µn
jene der Matrix A + vv T , so gilt
λ1 ≤ µ1 ≤ λ2 ≤ · · · ≤ µn−1 ≤ λn ≤ µn
P
Desweiteren halten wir fest, dass mit A := i si vi viT (4.1) äquivalent dazu ist, dass für alle
Eigenwerte λi von A gilt
√
d+1+2 d
√ .
1 ≤ λi ≤
d+1−2 d
Dies folgt klarerweise aus
√
d+1+2 d
√ .
λmin (A) ≥ 1 und λmax (A) ≤
d+1−2 d
(4.3)
Um Satz 4.2.2 zu beweisen, werden wir die Matrix A in einzelnen Schritten iterativ bauen,
indem wir in jedem Schritt einen Term der Form si vi viT hinzuaddieren. Als Steuerung für
den Iterationsprozess werden uns zwei Potentialfunktionen dienen:
Definition 4.2.4. Seien u und l reelle Zahlen und A eine symmetrische Matrix mit den
Eigenwerten λ1 , ..., λn . Wir definieren
Φu (A) := Tr (uI − A)−1 =
Φl (A) := Tr (A − lI)
−1
=
X
i
X
i
1
(Oberes Potential)
u − λi
1
(Unteres Potential),
λi − l
wobei sich die zweite Schreibweise aus Satz 1.1.2 und Proposition 1.1.3, Punkt 2 ergibt.
Solange lI < A < uI ist, d.h. λmax (A) < u und λmin (A) > l, messen diese Funktionen die
Entfernung der Eigenwerte von den Schranken u und l. Wir erhalten dadurch eine Folge von
Matrizen
0 = A0 , A1 , ..., AQ
und positive Konstanten u0 , l0 , δU , δL , ǫU , ǫL , von denen wir zeigen werden, dass sie die folgenden Bedingungen erfüllen:
1. Φu0 (A0 ) = ǫU und Φl0 (A0 ) = ǫL ,
2. Aq+1 = Aq + tvv T für v ∈ {vi }i≤m und t ≥ 0,
3. Φu+δU (Aq+1 ) ≤ Φu (Aq ) ≤ ǫU für u = u0 + qδU ,
4. Φl+δL (Aq+1 ) ≤ Φl (Aq ) ≤ ǫL für l = l0 + qδL und
5. λmax (Aq ) < u0 + qδU und λmin (Aq ) > l0 + qδL .
39
Sind diese Punkte erfüllt, wählen wir zum Abschluss die Konstanten noch derart, dass
√
λmax
d+1+2 2
√
≤
λmin
d+1−2 2
gilt. Die folgenden beiden Lemmata zeigen nun, wie wir die obere bzw. untere Schranke
verschieben können, sodass tatsächlich alle obigen Bedingungen (insbesondere die zweite und
die dritte Bedingung) gleichzeitig erfüllt sind. Das erste Lemma betrifft die obere Schranke.
Verschieben wir u auf u + δU ohne die Matrix A zu verändern, so fällt das obere Potential, da
sich die Eigenwerte nicht verändern. Dies gibt uns die Möglichkeit, einen Term der Form tvv T
zu A zu addieren, der diesem Effekt entgegenwirkt. Analoges gilt für die untere Schranke. Die
Lemmata quantifzieren nun, wie groß der jeweilige Faktor t sein darf, damit die Potentiale
ihre ursprünglichen Werte nicht übersteigen.
Lemma 4.2.5. Sei λmax (A) < u und v ∈ Rn . Ist
v T ((u + δU ) I − A)−2 v
1
≥
+ v T ((u + δU ) I − A)−1 v =: UA (v) ,
t
Φu (A) − Φu+δU (A)
so gilt
Φu+δU A + tvv T ≤ Φu (A) und λmax A + tvv T < u + δU .
Beweis. Sei u′ = u + δU . Nach der Sherman-Morisson-Formel aus Lemma 1.1.11 mit den
Vektoren v und tv gilt
u′ I − A − tvv T
Daraus folgt, dass
−1
−1 (u′ I − A)−1 (tv)v T (u′ I − A)−1
= u′ I − A
+
.
1 − tv T (u′ I − A)−1 v
−1 Φu′ A + tvv T = Tr u′ I − A − tvv T
−1
−1
+ u′ I − A
= Tr u′ I − A
−1
tvv T
′
uI −A
.
1 − tv T (u′ I − A)−1 v
Mit der Linearität der Spur ist dies weiter gleich
T (u′ I − A)−1 (u′ I − A)−1 v
tTr
v
−1
Tr u′ I − A
+
,
1 − tv T (u′ I − A)−1 v
und mit Proposition 1.1.3, Punkt 1 äquivalent zu
Φu′ (A) +
tv T (u′ I − A)−2 v
,
1 − tv T (u′ I − A)−1 v
was wiederum gleich
Φu (A) − (Φu (A) − Φu′ (A)) +
40
v T (u′ I − A)−2 v
1/t − v T (u′ I − A)−1 v
ist. Wegen UA (v) > v T (u′ I − A) v ist aufgrund der Voraussetzung 1t ≥ UA (v) der letzte
Ausdruck endlich. Desweiteren folgt durch einfaches Umformen, dass für jedes t, das dieser
Bedingung genügt
Φu+δU A + tvv T ≤ Φu (A)
gilt. Außerdem folgt daraus, dass λmax A + tvv T < u′ ist. Wäre dies nämlich nicht der
Fall, so gäbe es ein t′ ≤ t für das λmax A + t′ vv T = u′ wäre. Für ein solches t′ wäre aber
Φu′ A + t′ vv T nicht mehr endlich im Widerspruch zu gerade Gezeigtem.
Das nächste Lemma liefert uns ein analoges Resultat für die untere Schranke:
Lemma 4.2.6. Sei λmin (A) > l, Φl (A) ≤ 1/δL und v ∈ Rn . Ist
0<
1
v T (A − (l + δL ) I)−2 v
≤
+ v T (A − (l + δL ) I)−1 v =: LA (v) ,
t
Φl+δL (A) − Φu (A)
so gilt
Φl+δL A + tvv T ≤ Φl (A) und λmin A + tvv T > l + δL .
Beweis. Zunächst halten wir fest, dass aus λmin (A) > l und Φl (A) ≤ 1/δL folgt, dass
1
1
≥ Φl (A) >
δL
λmin (A) − l
und daraus λmin (A) > l + δL . Somit gilt also λmin A + tvv t > l + δL für jedes t > 0. Wir
verfahren nun analog zum Beweis des vorigen Lemmas. Sei l′ = l + δL . Aus der ShermanMorisson-Formel mit den Vektoren (−v) und tv erhalten wir
A + tvv T − l′ I
Es folgt daraus
−1
= A − l′ I
−1
−
(A − l′ I)−1 (tv)v T (A − l′ I)−1
.
1 + tv T (A − l′ I)−1 v
−1 Φl′ A + tvv T = Tr A + tvv T − l′ I
−1
−1
− A − l′ I
= Tr A − l′ I
−1
tvv T
A − l′ I
−1
1 + tv T (A − l′ I) v
und wieder mit der Linearität der Spur und Proposition 1.1.3, Punkt 1
T (A − l′ I)−1 (A − l′ I)−1 v
tTr
v
−1
= Tr A − l′ I
−
1 + tv T (A − l′ I)−1 v
= Φl′ (A) −
tv T (A − l′ I)−2 v
1 + tv T (A − l′ I)−1 v
= Φl (A) + (Φl′ (A) − Φl (A)) −
v T (A − l′ I)−2 v
.
1/t + v T (A − l′ I)−1 v
Auch hier erhalten
wir mittels einfachen Umformungen, dass aus
t
Φl+δL A + tvv ≤ Φl (A) folgt.
41
1
t
≤ LA (v) wie behauptet
Wir müssen nun nur mehr sicherstellen, dass wir ein v ∈ {vi }i≤m finden können, auf das
wir beide Lemmata gleichzeitig anwenden können. Das folgende Lemma zeigt uns, das dies
tatsächlich möglich ist.
Lemma 4.2.7. Sei λmax (A) < u, λmin (A) > l, Φu (A) ≤ ǫU , Φl (A) ≤ ǫL und ǫU , ǫL , δU
und δL genügen
0≤
1
1
+ ǫU ≤
− ǫL .
δU
δL
(4.4)
Dann gibt es einen Index i und ein t > 0, für die
LA (vi ) ≥
1
≥ UA (vi )
t
und
gilt.
λmax A + tvi viT < u + δU , λmin A + tvi viT > l + δL
Beweis. Wir zeigen, dass
X
i
LA (vi ) ≥
X
UA (vi )
i
erfüllt ist. Dann folgt die Aussage aus geeigneter Wahl von i und t aus den vorhergehenden
Lemmata. Zunächst ist mit dem ersten Teil von Lemma 1.1.6
!
X
X v T ((u + δU ) I − A)−2 vi
i
UA (vi ) =
+ viT ((u + δU ) I − A)−1 vi
Φu (A) − Φu+δU (A)
i
i
!
P
T
X
((u + δU ) I − A)−2 ◦
−1
i vi vi
T
+ ((u + δU ) I − A) ◦
vi vi
=
Φu (A) − Φu+δU (A)
i
P
und mit dem zweiten Teil von Lemma 1.1.6, da i vi viT = I laut Voraussetzung
Tr ((u + δU ) I − A)−2
+ Tr ((u + δU ) I − A)−1 .
=
Φu (A) − Φu+δU (A)
Setzen wir nun für Φ die Definition 4.2.4 ein, so ergibt sich aus Satz 1.1.2 und Proposition 1.1.3, Punkt 2 weiter
P
−2
i (u − δu − λi )
+ Φu+δU (A)
=P
P
−1
− i (u + δU − λi )−1
i (u − λi )
P
−2
i (u − δu − λi )
+ Φu+δU (A)
=
P
δU i (u − λi )−1 (u + δU − λi )−1
und da (u − λi )−1 (u + δU − λi )−1 ≥ (u + δU − λi )−2 für alle i
≤
1
1
1
+ Φu+δU (A) ≤
+ Φu (A) ≤
+ ǫU .
δU
δU
δU
42
Analog erhalten wir
X
i
!
viT (A − (l + δL ) I)−2 vi
−1
T
LA (vi ) =
− vi (A − (l + δL ) I) vi
Φl+δL (A) − Φl (A)
i
!
P
T
X
v
v
(A − (l + δL ) I)−2 ◦
i
i
i
=
− (A − (l + δL ) I)−1 ◦
vi viT
Φl+δL (A) − Φl (A)
X
i
P
und mit Lemma 1.1.6 und i vi viT = I
Tr (A − (l + δL ) I)−2
− Tr (A − (l + δL ) I)−1 .
=
Φl+δL (A) − Φl (A)
Aus Definition 4.2.4, Satz 1.1.2 und Proposition 1.1.3, Punkt 2 folgt wiederum
P
−2
i (λi − l − δL )
− Φl+δL (A)
=P
P
−1
− i (λi − l)−1
i (λi − l − δL )
Die letzte Abschätzung erfordert etwas extensivere algebraische Umformungen als im ersten
Teil und wird deshalb erst am Ende des Abschnittes in Lemma 4.2.8 bewiesen. Es gilt damit
dann
P
−2
i (λi − l − δL )
− Φl+δL (A)
P
δL i (λi − l − δL )−1 (λi − l)−1
X
1
1
≥
−
(λi − l)−1 =
− ǫL .
δL
δL
i
Setzen wir dies nun zusammen, erhalten wir
X
X
1
1
+ ǫU ≤
− ǫL ≤
LA (vi )
UA (vi ) ≤
δU
δL
i
i
wie gewünscht.
Beweis zu Satz 4.2.2. Wir müssen nun nur noch ǫU , ǫL , δU und δL in einer Weise wählen,
dass die Voraussetzungen von Lemma 4.2.7 erfüllt sind. Dann können wir die Matrix A
folgendermaßen aufbauen: Wir setzen A0 = 0 und konstruieren Aq+1 aus Aq , indem wir
einen Vektor vi wählen, der
LAq (vi ) ≥ UAq (vi )
erfüllt. Die Existenz eines sochen Vektors stellt Lemma 4.2.7 sicher. Wir setzen dazu Aq+1 =
Aq + sei vi viT mit einem sei ≥ 0, das der Bedingung
LAq (vi ) ≥
genügt. Wählen wir dann
δL = 1,
√
d+1
δU = √
,
d−1
1
UA (vi )
sei q
1
ǫL = √ ,
d
√
d−1
√ ,
ǫU =
d+ d
43
l0 = −
u0 =
n
ǫL
n
,
ǫU
so erhalten wir
√
√
1
d−1
d−1
1
1
=1− √ =
+ ǫU = √
− ǫL ,
+ √ √
δU
δL
d+1
d
d
d+1
womit die Vorraussetzung (4.4) von Lemma 4.2.7 erfüllt ist und wir das Lemma anwenden können. Die anfänglichen Potentiale sind Φn/ǫU (0) = ǫU und Φn/ǫL (0) = ǫL . Nach dn
Iterationsschritten erhalten wir dann
n/ǫU + dnδU
λmax (Adn )
≤
λmin (Adn )
−n/ǫL + dnδL
√
d+
√ d
d−1
√
+ d √d+1
√ d−1
=
d− d
!
√ ! √
d+1
d+ d
√
√
=
d− d
d−1
√
d+2 d+1
√
,
=
d−2 d+1
woraus (4.3) folgt und damit der Beweis vollendet ist.
Wir zeigen nun die offene Abschätzung aus dem letzten Teil des Beweises von Lemma 4.2.7:
P
Lemma 4.2.8. Für alle Indizes i sei λi > l, 0 ≤ i (λi − l)−1 ≤ ǫL , und δ1L − ǫL ≥ 0. Dann
gilt
P
−2
X 1
1
i (λi − l − δL )
.
(4.5)
−
−
Φ
(A)
≥
P
P
l+δL
−1
δL
λi − l
− i (λi − l)−1
i (λi − l − δL )
i
Beweis. Aus den Voraussetzungen ergibt sich, dass für jeden Index i
δL ≤
1
≤ λi − l
ǫL
gilt. Weiters ist λi − l − δL < λi − l für alle i und damit der Nenner des ersten Terms positiv.
Somit können wir die Ungleichung folgendermaßen umformen:
!
!
X
X
X
1
1
1
1
1
1
−
+
−
≥
λi − l − δ L λi − l
δL
λi − l − δ L λi − l
(λi − l − δL )2
i
i
i
!
!
X
X
1
1
1
= δL
+ δL
(λi − l − δL ) (λi − l)
δL
(λi − l − δL ) (λi − l)
i
i
!2
X
X
1
1
+ δL
.
=
(λi − l − δL ) (λi − l)
(λi − l − δL ) (λi − l)
i
i
Verschieben wir nun den ersten Term der rechten Seite auf die linke und bringen die beiden
Ausdrücke auf gleichen Nenner, so ist damit (4.5) äquivalent zu
!2
X
X
1
1
.
(4.6)
δL
≤ δL
(λi − l − δL ) (λi − l)
(λi − l − δL )2 (λi − l)
i
i
44
Aus der Cauchy-Schwarz-Ungleichung erhalten wir aber, dass
δL
X
i
ist. Wegen
1
(λi − l − δL ) (λi − l)
P
i (λi
!2
≤
δL
X
i
1
λi − l
!
δL
X
i
− l)−1 ≤ ǫL ist dies kleiner oder gleich
(δL ǫL ) δL
X
i
1
(λi − l − δL )2 (λi − l)
1
(λi − l − δL )2 (λi − l)
!
!
.
Da laut Voraussetzung außerdem 1/δL − ǫL ≥ 0, also δL ǫL ≤ 1 ist, lässt sich dies weiter
abschätzen mit
!
X
1
δL
,
2
(λ
−
l
−
δ
)
(λ
−
l)
i
i
L
i
was aber genau Ungleichung (4.6) ergibt.
Der Algorithmus, den uns dieser Beweis liefert sieht also folgendermaßen
aus: Der erste
Schritt besteht in der Berechnung der Vektoren vi , was O n2 m Zeit erfordert. In jeder Iteration müssen wir ((u + δU ) I − A)−1 , ((u + δU ) I − A)−2 und die entsprechenden Matrizen
für die untere Schranke berechnen. Dazu wird eine Zeit von O n3 benötigt. Schlussendlich
müssen wir entscheiden, welchen Vektor wir in jedem Schritt addieren, indem wir UA (vi )
und LA (vi ) für jedes vi berechnen. Dies ist in O n2 m Zeit möglich.
Insgesamt benötigen
3
wir dn Iterationen, erhalten also eine Gesamtlaufzeit von O dn m .
4.3
Dimensionsreduktion in Lp -Räumen
Wir wenden uns nun einem Resultat von Schechtman zu, der sich in vielen seiner Arbeiten [24–26] mit der Dimensionsreduktion in Lp -Räumen beschäftigt. Mit Hilfe des Spectral
Sparsification Theorems ist hier eine wesentliche Verbesserung gelungen.
Sei p ≥ 1, Lp der Raum der p-integrierbaren Funktionen auf [0, 1] mit dem Lebesgue-Maß,
ℓdp bezeichne den Raum Rd mit der Norm
kxkp =
d
X
i=1
|xi |p
!1/p
.
Für p = 2 erhalten wir also den d-dimensionalen, euklidischen Raum. Das Johnson-Lindenstrauss-Lemma (Kapitel 6) besagt in diesem Fall, dass sich für ǫ > 0 jede aus n Punkten
bestehende Menge des ℓd2 so in den ℓk2 mit k = O log n/ǫ2 einbetten lässt, dass sich die
Distanzen zwischen je zwei Punkten höchstens um einen Faktor (1 + ǫ) unterscheiden. Da
jeder d-dimensionale Unterraum des L2 isometrisch zu l2d ist, gilt die Aussage auch für L2 .
Für p 6= 2 liegen die Dinge komplizierter. Fordern wir außerdem nicht nur die Einbettung
45
einer Menge aus n Punkten, sondern eines n−dimensionalen Unterraumes, so wurden für die
Dimension k im Wesentlichen die Schranken


für p = 1,
C(ǫ)n log n,
2
k ≤ C(ǫ)n log n(log log(n)) , für p ∈ (1, 2),
(4.7)


C(p, ǫ)np/2 log n,
für p ∈ (2, ∞)
gefunden (siehe dazu [4, 24, 25, 35, 36, 39] und für eine Zusammenfassung [20]). Für gerade p
gelang Schechtman mit Hilfe von Satz 4.2.1 in [26] eine elegante Verbesserung:
Satz 4.3.1. Sei X ein n-dimensionaler Unterraum des Lp mit geradem p ≤ n und 0 < ǫ <
1/p. Dann lässt sich X mit einer Störung von (1 + ǫ) in ℓkp mit k ≤ (Cn/p)p/2 /ǫ2 einbetten,
wobei C eine absolute Konstante ist.
Wir beginnen mit einem Korollar zu Satz 4.2.1:
m
Korollar 4.3.2. Sei X ein n-dimensionaler
n Unterraum des ℓ2 und 0 < ǫ < 1. Dann existiert
eine Menge σ ⊂ {1, . . . , m} mit |σ| ≤ ǫ2 und positive Gewichte {si }i∈σ , sodass für alle
x ∈ X gilt
X
(1 − ǫ)kxk2 ≤
si x2 (i)
i∈σ
!1/2
≤ (1 + ǫ)kxk2 .
(4.8)
Beweis. Seien 0 < ǫ < 1 und {u1 , . . . , un } eine Orthonormalbasis von X. Wir schreiben für
alle 1 ≤ j ≤ n uj = (u1jP
, u2j , . . . , umj ) und definieren weiters viT = (ui1 , ui2 , . . . uin ) für alle
T
n
1 ≤ i ≤ m. Damit gilt m
i=1 vi vi = In . Ein Vektor x ∈ X lässt sich in der Basis {uj }j=1
Pn
darstellen als x = j=1 aj uj mit a = (a1 , . . . an )T ∈ Rn . Es ist dann



n
n
X
X
x(i)2 = (xxT )ii = 
a j uj  
aj uTj 
j=1

=
m
X
j=1
j=1
ii
2
aj uij 
= (aT vi )2 = aT vi viT a.
Aus Satz 4.2.1 folgt, dass
2 T
(1 − ǫ) a
m
X
vi viT
i=1
!
a≤a
T
m
X
si vi viT
i=1
!
2 T
a ≤ (1 + ǫ) a
m
X
vi viT
i=1
gilt, wobei si die Gewichte aus dem Satz sind. Insgesamt haben wir damit
(1 − ǫ)
2
kxk22
≤
m
X
i=1
si x(i)2 ≤ (1 + ǫ)2 kxk22 ,
woraus die Behauptung folgt.
46
!
a
Beweis zu Satz 4.3.1. Da X als endlich dimensionaler Unterraum des Lp isomorph zu einem
Unterraum des lpm für ein m(p, X) ∈ N ist (siehe etwa [2]), können wir annehmen, dass X
ein n-dimensionaler Unterraum des lpm ist. Im Folgenden bedeute die Multiplikationsnotation
von Vektoren immer koordinatenweise Multiplikation, also für x, y ∈ Rm und t ∈ N sei
xy = (x(1)y(1), . . . , x(m)y(m)) und xt = x(1)t , . . . , x(m)t .
Für die Basis u1 , . . . , un von X betrachten wir folgenden Unterraum des Rm :
Y = span {upj11 upj22 · · · upjℓℓ : ℓ ∈ N, j1 , . . . , jℓ ∈ {1, . . . , n} ∧ p1 + . . . + pℓ = p/2}
Für die Dimension von Y gilt dann
10n p/2
n + p/2 − 1
≤
d = |Y | ≤
.
p/2
p
Die letzte Abschätzung folgt aus
s
=
t
s!
(s−t)!
t!
st
≤ t =
t
3
3s
t
t
mit s = n + p/2 − 1, t = p/2 und p ≤ n. Aus Korollar 4.3.2 erhalten wir, dass eine Menge
σ ⊂ {1, . . . , m} mit |σ| = O d(pǫ)−2 ≤ (Cn/p)p/2 ǫ−2 für eine absolute Konstante C und
positive Gewichte {si }i∈σ existieren, sodass für alle y ∈ Y gilt
!
X
ǫp
2
kyk2 ≤
si y 2 (i) ≤ (1 + )kyk22 .
4
i∈σ
Laut Definition von Y gilt, dass für jedes x ∈ X auch xp/2 ∈ Y ist und damit nach Korollar 4.3.2
!
X
ǫp
kxkpp ≤
si xp (i) ≤ (1 + )kxkpp
4
i∈σ
ist, was uns schließlich
kxkp ≤
X
i∈σ
p
si x (i)
!1/p
≤ (1 +
liefert wie gewünscht.
47
ǫp 1/p
) kxkp ≤ (1 + ǫ)kxkp
4
48
Kapitel 5
Graph Sparsification by Effective
Resistances
5.1
Vorbemerkungen
In diesem Kapitel beschäftigen wir uns mit dem Algorithmus von Spielman und Srivastava
aus [29], der eine weitere Möglichkeit aufzeigt, gute Sparsifier für gewichtete Graphen zu
konstruieren. Die Hauptidee dabei ist, einen gegebenen Graphen G mit einem elektrischen
Netzwerk zu identifizieren und durch einen Teilgraph H zu approximieren. Jede Kante von
G wird dabei mit einer Wahrscheinlichkeit proportional zu ihrem Wirkwiderstand (effective
resistance) zu H hinzugefügt.
5.2
Graphen und elektrische Netzwerke
Ein (einfaches) elektrisches Netzwerk lässt sich mit einem zusammenhängenden, gewichteten
Graphen G(V, E, w) identifizieren, indem man einer Kante euv einen Widerstandswert ruv
−1 zuordnet. Haben wir eine Potentialdifferenz s
und damit eine Leitfähigkeit wuv = ruv
uv
zwischen dem Anfangs- und Endpunkt von euv , so fließt nach dem Ohm’schen Gesetz ein
elektrischer Strom
suv
iuv =
= suv wuv .
ruv
Weiters müssen wir dem Stromfluss eine Richtung geben. Dazu orientieren wir die Kanten des
Graphen beliebig. Einem positiven Strom iuv vom Knoten u zum Knoten v entspricht dann
einfach ein betragsmäßig gleicher, negativer Strom von v zu u, also ivu = −iuv . Analog ist
suv = −svu . Außer dem Ohm’schen Gestz benötigen wir noch zwei weitere bekannte Regeln,
die Kirchhoff ’schen Gesetze. Das erste Gesetz, die Knotenregel, besagt, dass in jedem Knoten
die Summe der zufließenden Ströme gleich der Summe der abfließenden Ströme sein muss.
In unserer vorzeichenbehafteten Notation haben wir also für jeden Knoten u
X
iuvi + iu,ext = 0,
i
wobei iu,ext jenen Strom bezeichne, der in u das Netzwerk verlässt. Das zweite Gesetz ist
die sogenannte Maschenregel. Sie besagt, dass die Summer aller Teilspannung jedes Zykels
49
verschwindet:
sv1 v2 + sv2 v3 + . . . + svn v1 = 0.
Da wir Potentiale beliebig eichen können, weisen wir jedem Knoten u ein fixes Potential vu
zu. Für einen Knoten können wir dieses frei wählen, alle anderen sind dann über suv = vv −vu
eindeutig festgelegt.
Wir wollen diese Zusammenhänge über Matrizen und Vektoren nun für den gesamten Graphen darstellen. Zuvor wollenPwir kurz an Kapitel 3 erinnern. Mit D wird die gewichtete
Gradmatrix D = D (u, u) = v6=u wuv bezeichnet, A (u, v) = wuv ist die gewichtete Adjazenzmatrix und die Laplacematrix ist definiert über L = D − A. Weiters haben wir die n × m
Inzidenzmatrix C definiert als


falls (u, x) = e
1
C (u, e) = −1 falls (x, u) = e


0
sonst,
und gezeigt, dass mit der m × m Diagonalmatrix W (e, e) = we die Laplace-Matrix L die
Darstellung L = CW C T besitzt.
Der Vektor iext (u) bezeichne den in jedem Knoten u zugeführten Strom, i (e) den dadurch
in jeder Kante e induzierten Strom. Die in den Knoten induzierten Potentiale fassen wir in
v (u) zusammen. Der Vektor C T v (e) enthält dann die in jeder Kante e induzierte Potentialdifferenz. Die Knotenregel lautet damit
Ci = iext .
Das Ohm’sche Gesetz lässt sich darstellen als
i = W C T v;
insgesamt ergibt sich also
iext = CW C T v = Lv.
Führen wir dem Netzwerk in Summe genausoviel Strom zu, wie wir wieder abfließen lassen,
so bedeutet dies
iext ⊥ span 1 = ker L
und wir können v darstellen als
v = L† iext ,
wobei L† die in Abschnitt 1.1.8 definierte Pseudoinverse von L ist. Induzieren wir einen Strom
mit Betrag 1 in einen Knoten u und extrahieren wir ihn wieder von einem Knoten v, so ergibt
sich eine Potentialdifferenz. Der Wert dieser Potentialdifferenz ist der Wirkwiderstand Ruv
zwischen u und v. Für diesen werden wir nun eine algebraische Definition herleiten. Sei
ce = C (·, e) die zur Kante e gehörige Spalte der Inzidenzmatrix. Wir betrachten die Kante
e = (u, v). Der induzierte und extrahierte Strom lässt sich darstellen als iext = ce = (χv − χu )
und ist orthogonal zu 1. Die induzierten Potentiale sind v = L† ce . Insgesamt erhalten wir
damit
v (u) − v (v) = (χv − χu )T v = cTe L† ce .
Somit ist Ruv = Re = cTe L† ce und die Matrix C T L† C hat damit als Diagonaleinträge
C T L† C (e, e) genau die Wirkwiderstände Re .
50
5.3
Algorithmus
5.3.1
Formulierung
Wir wenden uns nun dem Algorithmus zu, der den Sparsifier H aus G erzeugt:
Algorithmus 5.3.1 (H=Sparsify[G,q]). Wähle zufällig eine Kante e von G mit einer
we
Wahrscheinlichkeit pe proportional zu we Re und füge e mit Gewicht qp
zu H hinzu. Führe
e
diesen Vorgang insgesamt q-mal durch und addiere die Gewichte, falls eine Kante öfter ausgewählt wird.
Seien LG und LH die Laplace-Matrizen von G und H. Wir werden gleich zeigen, dass sich die
von LG und LH erzeugten quadratischen Formen nicht sehr stark voneinander unterscheiden,
falls H nach obigem Algorithmus konstruiert wird. Wegen des Satzes von Courant-Fischer
H
(Satz 1.1.8) gilt dannn auch für die Eigenwerte λG
i und λi von G und H
H
G
(1 − ǫ) λG
i ≤ λi ≤ (1 + ǫ) λi .
(5.1)
Weiters wissen wir aus Kapitel 3, dass die Eigenwerte der normalisierten Laplace-Matrix
L = D−1/2 LD−1/2 jenen der Übergangsmatrix D−1 L = I − D−1 A entsprechen. Somit gilt
(5.1) auch für die Eigenwerte der Übergangsmatrizen von G und H.
√1
n
< ǫ ≤ 1, G ein zusammenhängender, gewichteter Graph und H aus G
mittels Algorithmus 5.3.1 erzeugt. Ist q = 9c2 n log n/ǫ2 , c die Konstante aus Lemma 5.3.5
und n hinreichend groß, so gilt mit einer Wahrscheinlichkeit von mindestens 1/2, dass für
alle x ∈ Rn
Satz 5.3.2. Seien
(1 − ǫ) xT LG x ≤ xT LH x ≤ (1 + ǫ) xT LG x.
5.3.2
(5.2)
Beweis zu Satz 5.3.2
Zunächst betrachten wir die Matrix Π = W 1/2 C T L† CW 1/2 , die einige interessante Eigenschaften besitzt.
Lemma 5.3.3.
1. Π (e, e) = we Re .
2. Π ist eine Projektion.
3. im (Π) = im W 1/2 C T
4. Die Eigenwerte von Π sind 1 mit Vielfachheit n − 1 und 0 mit Vielfachheit m − n + 1.
5. Π (e, e) = kΠ (·, e)k2 .
Beweis. Für Punkt 1, beachte, dass C T L† C (e, e) = Re ist und damit
p
p
Π (e, e) = W (e, e)Re W (e, e) = we Re .
51
Punkt 2 ist erfüllt genau dann, wenn Π2 = Π gilt. Da L = CW C T ist und L† L = I auf
im L† haben wir
Π2 = W 1/2 C T L† CW 1/2 W 1/2 C T L† CW 1/2
= W 1/2 C T L† CW C T L† CW 1/2
= W 1/2 C T L† LL† CW 1/2
= W 1/2 C T L† CW 1/2
= Π.
Für Punkt 3 zeigen wir, dass im (Π) ⊆ im W 1/2 C T und im W 1/2 C T ⊆ im (Π) gilt. Die
erste Inklusion ist offensichtlich, da
im (Π) = im W 1/2 C T L† CW 1/2 ⊆ im W 1/2 C T .
Für die zweite Richtung sei y ∈ im W 1/2 C T . Für jedes derartige y können wir ein x
wählen, welches orthogonal auf ker W 1/2 C T = ker (L) steht, sodass y = W 1/2 C T x ist. Mit
L = CW C T gilt dann L† Lx = x und damit
Πy = W 1/2 C T L† CW 1/2 W 1/2 C T x
= W 1/2 C T L† Lx
= W 1/2 C T x
= y,
also im W 1/2 C T ⊆ im (Π). Punkt 4 sehen wir folgendermaßen ein: Aus Kapitel 3, Ab
schnitt 3.4 wissen wir, dass ker W 1/2 C T = span (1). Also ist dim ker W 1/2 C T = 1 und
somit dim im W 1/2 C T = n − 1. Da Π eine Projektionsmatrix ist, besitzt sie nur die Eigenwerte 0 und 1. Da sie weiters auf einen n − 1-dimensionalen Unterraum abbildet, muss
der Eigenwert 1 mit Vielfachheit n − 1 und 0 mit Vielfachheit m − n + 1 auftreten. Der letzte
Punkt folgt aus der Symmetrie von Π, da damit gilt
Π (e, e) = Π (·, e)T Π (·, e) = kΠ (·, e)k2 .
Wir werden nun zeigen, dass sich Ungleichung 5.2 auf die Erhaltung der von Π erzeugten
quadratischen Form zurückführen lässt. Wir wollen also statt xT Lx die quadratische Form
y T Πy betrachten. Dies bringt erhebliche Vorteile, da Π nur 0 und 1 als Eigenwerte besitzt.
e die Π in der
Insbesondere folgt dann aus der Spektraldekomposition, dass jede Matrix Π,
Spektralnorm approximiert, ebenfalls ihre quadratische Form erhält.
Wir können den von Algorithmus 5.3.1 erzeugten Graphen H = V, EH , wH mit Hilfe der
Diagonalmatrix
Σ (e, e) =
52
weH
we
(5.3)
beschreiben, wobei we = qpe ist und weH angibt, wie oft die Kante e ausgewählt wurde. Σ
ist also nichtnegativ und wir können mit ihrer Hilfe die Gewichtsfunktion von H schreiben
als weH = Σ (e, e) we . Die Gewichtematrix von H ist damit WH = W Σ = W 1/2 ΣW 1/2 und
die Laplace-Matrix damit
LH = CWH C T = CW 1/2 ΣW 1/2 .
Wir halten weiters fest, dass E weH = we ist, da wir q unabhängige Stichproben mit einer Wahrscheinlichkeit von pe nehmen. Für die Erwartungswerte von Σ und LH gilt damit
E (Σ) = I und E (LH ) = L. Wir können nun wie angekündigt folgendes Lemma beweisen:
Lemma 5.3.4. Sei ǫ > 0, Σ eine nichtnegative Diagonalmatrix und
kΠΣΠ − ΠΠk2 ≤ ǫ.
Dann gilt für alle x ∈ Rn
(1 − ǫ) xT Lx ≤ xT LH x ≤ (1 + ǫ) xT Lx
(5.4)
mit L = CW C T und LH = CW 1/2 ΣW 1/2 C T .
Beweis. Da für eine symmetrische Matrix A gilt
T y Ay kAk2 = sup
T
y6=0 y y
ist die Voraussetzung kΠΣΠ − ΠΠk2 ≤ ǫ äquivalent zu
T
y Π (Σ − I) Πy sup
≤ ǫ.
yT y
y∈Rm ,y6=0
(5.5)
Wir beschränken uns zunächst auf Vektoren y ∈ im W 1/2 C T . Nach Lemma 5.3.3 ist für
diese Vektoren Π die Identitätsmatrix, also Πy = y . Weiters können wir jedes solche y
schreiben als y = W 1/2 C T x mit einem x ∈ Rn . Setzen wir dies in (5.5) ein, so erhalten wir
T
y Π (Σ − I) Πy sup
yT y
y∈im(W 1/2 C T ),y6=0
T
y (Σ − I) y =
sup
yT y
y∈im(W 1/2 C T ),y6=0
T
x CW 1/2 ΣW 1/2 C T x − xT CW C T x
=
sup
xT CW C T x
x∈Rn ,W 1/2 C T x6=0
T
x LH x − xT Lx
≤ ǫ.
=
sup
xT Lx
x∈Rn ,W 1/2 C T x6=0
Lösen wir den Betrag auf, so ist dies äquivalent zu
xT LH x − xT Lx
xT LH x − xT Lx
≤ ǫ ∧ inf x ∈ Rn , W 1/2 C T x 6= 0
≥ −ǫ
T
x Lx
xT Lx
x∈Rn ,W 1/2 C T x6=0
sup
53
und dies wiederum zu
xT LH x − xT Lx
−ǫ ≤
≤ǫ
xT Lx
für alle x ∈ Rn mit x ∈
/ ker W 1/2 C T . Umformen ergibt daraus (5.4). Ist x ∈ ker W 1/2 C T ,
so ist xT Lx = xT LH x = 0 und (5.4) trivialerweise erfüllt.
Wir haben also unser Problem darauf reduziert zu untersuchen, unter welchen Bedingungen
kΠΣΠ − ΠΠk2 ≤ ǫ hinreichend klein bleibt. Wir verwenden dazu den folgenden Verdichtungssatz, der in gewisser Weise ein Gesetz der großen Zahlen“ für symmetrische Rang-1”
Matrizen darstellt:
Satz 5.3.5 (Rudelson & Vershynin, [23], Theroem 3.1). Sei y ein Zufallsvektor im Rd , der
der Verteilung p genügt
und fast überall gleichmäßig beschränkt ist: kyk2 ≤ M . Weiters sei
y so, dass E yy T ≤ 1 gilt. Sind y1 , · · · , yq verschiedene, unabhängige Realisationen von y,
so gilt mit einer positiven Konstante C
s
q
!
1 X
log
q
E
,1 .
(5.6)
yi yiT − E yy T ≤ min CM
q
q
i=1
2
Eine Folgerung aus diesem Satz ist unter anderem, dass sich eine Matrix A durch zufällige
Auswahl von genügend vieler ihrer Reihen gut in der Spektralnorm approximieren lässt.
Für skalare Zufallsvariablen erhalten wir genau das klassische Gesetz der großen Zahlen.
Im Gegensatz zur skalarwertigen Version ist die operatorwertige Version allerdings schwieriger zu beweisen, da statt des Betrages die Operatornorm und damit das Supremum eines
Zufallsprozesses abgeschätzt werden muss. Im Beweis von Satz 5.3.5 wird zunächst die Zufallsvariable symmetrisiert; für den entstehenden, symmetrischen Zufallsprozessprozess lässt
sich dann eine geeignete Schranke finden. Ein ausführlichen Beweis und Anwendungen des
Satzes sind in [23] und [22] nachzulesen.
Wir können nun den Beweis von Satz 5.3.2 beenden:
Beweis zu Satz 5.3.2. Der von Algorithmus 5.3.1 erzeugte Graphen H beinhaltet jede Kante
e von G mit einer Wahrscheinlichkeit von pe = P we Rwee Re . Nach Lemma 5.3.3 ist
e∈E
X
we Re = Tr (Π) = n − 1
e∈E
we R e
n−1 .
Die Gewichte weH geben wie in (5.3) wieder an, wie oft die Kante e
und damit pe =
ausgewählt wird. Die Auswahl von q Kanten entspricht der Auswahl von q Spalte von Π, wir
können also schreiben
X
ΠΣΠ =
Σ (e, e) Π (·, e) Π (·, e)T
e
=
X wH
e
e
=
qpe
Π (·, e) Π (·, e)T
1 X H Π (·, e) Π (·, e)T
w √
√
q e e
pe
pe
q
=
1X T
yi yi
q
i=1
54
für voneinander unabhängige Realisationen y1 , . . . , yq eines Zufallsvektors y, der der Verteilung
1
√ Π (·, e)
pe
genügt. Wir zeigen nun, dass die Voraussetzungen von Satz 5.3.5 erfüllt sind: Für den Erwartungswert von yy T gilt
X 1
E yy T =
pe Π (·, e) Π (·, e)T = ΠΠ = Π
pe
e
und damit E yy T 2 = kΠk2 = 1. Die Norm von y ist ebenfalls beschränkt, da
r
n−1 √
1
1 p
= n − 1.
Π (e, e) =
√ kΠ (·, e)k2 = √
pe
pe
Re w e
Mit q = 9C 2 n log n/ǫ2 liefert uns Satz 5.3.5 damit für n hinreichend groß
s
q
1 X
log (9C 2 n log n/ǫ2 ) (n − 1)
EkΠΣΠ − ΠΠk2 = E
≤ ǫ/2,
yi yiT − E yy T ≤ C ǫ2
q
9C 2 n log n
i=1
2
√
da wir ǫ > 1/ n vorausgesetzt haben. Die Markov-Ungleichung liefert nun
1
P (kΠΣΠ − ΠΠk2 ≥ ǫ) ≤ EkΠΣΠ − ΠΠk2
ǫ
und damit nach Umformen, dass
kΠΣΠ − ΠΠk2 ≤ ǫ
mit einer Wahrscheinlichkeit von mindestens 1/2 erfüllt ist. Zusammen mit Lemma 5.3.4 ist
damit der Satz bewiesen.
Um Algorithmus 5.3.1 anwenden zu können, benötigen wir die Wirkwiderstände Re des
Graphen G. Grundsätzlich gibt es verschiedene Techniken, diese exakt zu berechen (siehe
dazu [3]), diese gestalten sich allerdings schon bei sehr einfachen Netzwerken höchst kompliziert und rechentechnisch äußerst aufwändig. Das folgende Korollar zeigt jedoch, dass die
Verwendung von näherungsweisen Werten den Sparsifier H nicht wesentlich verschlechtert.
Im darauffolgenden Abschnitt zeigen wir, wie wir solche Näherungen effizient berechnen
können.
Korollar 5.3.6. Sei α ≥ 1 und seien Ze Werte, die den beiden Abschätzungen
X
X
Re
Ze ≥
und
w e Ze ≤ α
w e Re
α
e
e
genügen. Führen wir nun Algorithmus 5.3.1 durch, verwenden jedoch statt pe =
p′e
Wahrscheinlichkeiten
=
tens 1/2 der Abschätzung
Pwe Ze ,
e we Z e
Pwe Re
e we R e
die
so genügt H mit einer Wahrscheinlichkeit von mindes-
(1 − αǫ) xT Lx ≤ xT LH x ≤ (1 + αǫ) xT Lx.
55
(5.7)
Beweis. Es gilt auf Grund der Voraussetzungen
we (Re /α)
pe
w e Ze
≥ P
= 2.
p′e = P
α e we Re
α
e w e Ze
Wir können nun genauso wie im Beweis zu Satz 5.3.2 verfahren. Der einzige Unterschied
besteht darin, dass die Norm des Zufallsvektors y nun durch
√
1
α p
p kΠ (·, e)k2 ≤ √
Π (e, e) = α n − 1
′
pe
pe
beschränkt wird anstatt nur durch
letzten Abschätzung erhalten.
5.4
√
n − 1 und wir damit α als zusätzlichen Faktor in der
Berechnung näherungsweiser Widerstände
In diesem Abschnitt werden wir zeigen, wie sich eine O (log n) × n-Matrix Ze berechnen lässt,
aus der wir die Wirkwiderstände Ruv zwischen zwei beliebigen Knoten u und v ∈ V in
O (log n) Zeit berechnen können:
Satz 5.4.1. Es existiert ein Algorithmus, der
für jedes ǫ > 0 und einen Graphen G =
(V, E, w) mit r = wmax /wmin eine 24 log n/ǫ2 × n-Matrix Ze in erwarteter O m (log r) /ǫ2
Zeit berechnet, sodass mit einer Wahrscheinlichkeit von mindestens 1 − 1/n für jedes Knotenpaar u, v ∈ V gilt
2
(1 − ǫ) Ruv ≤ Ze (χu − χv ) ≤ (1 + ǫ) Ruv .
Wir können für zwei beliebige Knoten in V den Wirkwiderstand einfach als Abstand zwischen
zwei Vektoren aus {W 1/2 C T L† χv }v∈V ausdrücken. Mit Hilfe des Johnson-LindenstraussLemmas (Kapitel 6) können wir dann die Dimension der Vektoren reduzieren, ohne dabei
allzuviel Information zu verlieren. Hier seien nur die wesentlichen Punkte des Beweises skizziert, eine vollständige Ausführung findet sich in [29].
Beweisskizze zu Satz 5.4.1. Aus Abschnitt 5.2 wissen wir, dass für u, v ∈ V
Ruv = (χu − χv )T L† (χu − χv )
ist. Da weiters L† L = I auf im L† gilt, ist dieser Ausdruck gleich
(χu − χv )T L† LL† (χu − χv )
und mit L = CW C T ist dies wiederum äquivalent zu
(χu − χv )T L† CW 1/2
2
W 1/2 C T L† (χu − χv ) = W 1/2 C T L† (χu − χv ) .
2
And dieser Stelle verwenden wir das Johnson-Lindenstrauss Lemma, um die Vektoren auf
einen von O (log n) Zufallsvektoren aufgespannten Unterraum zu projizieren. Dieses behandeln wir in Kapitel 6 genauer. Hier bedienen wir uns einer konkreten Version aus [1]:
56
Lemma 5.4.2. Seien v1 , . . . , vn ∈ Rd , ǫ > 0 und k ≥ 24 log n/ǫ2 . Sei Q eine k × d Matrix,
deren Einträge unabhängige Zufallsvariablen sind, die der Verteilung
( 1
√
mit Wahrscheinlichkeit 12
k
Q (i, j) =
− √1k mit Wahrscheinlichkeit 21
genügen. Dann gilt mit einer Wahrscheinlichkeit von mindestens 1 − 1/n
(1 − ǫ) kvi − vj k22 ≤ kQvi − Qvj k22 ≤ (1 − ǫ) kvi − vj k22
für alle Paare (i, j) mit 1 ≤ i, j ≤ n.
Damit haben wir also das Problem, einen guten Sparsifier H zu erzeugen darauf reduziert,
die Matrix Z = QW 1/2 C T L† zu berechnen. Dies erfordert lediglich“ einen (effizienten)
”
Lösungsalgorithmus für lineare Gleichungssysteme, der uns eine gute Näherung Ze für Z liefert. Es gibt zahlreiche Möglichkeiten dafür. In der Tat ist die Entwicklung und Verbesserung
solcher Algorithmen in Verbindung mit Sparsifieren ein hochaktuelles Forschungsgebiet und
es sei dazu unter anderem auf die Arbeiten von Spielman und Teng ( [28, 31–33]) verwiesen.
Als Beispiel sei hier der Algorithmus aus [31] angegeben:
p
Satz 5.4.3. Sei kykL := y T Ly. Es gibt einen Algorithmus ST Solve (L, y, δ), der als Input
eine Laplace-Matrix L, einen Spaltenvektor y und einen Fehlerparameter δ nimmt und einen
Vektor x ausgibt, der die Abschätzung
x − L † y ≤ ǫ L † y L
L
erfüllt. Der Algorithmus besitzt eine erwarteteLaufzeit von O (m log (∞/δ)), wobei m die
Anzahl der Einträge von L bezeichnet, die ungleich Null sind.
Es lässt sich zeigen (siehe dazu
[29], Lemma 9), dass es für die in Satz 5.4.1 behauptete
Laufzeit von O m (log r) /ǫ2 (mit r = wmin /wmax ) ausreicht, Algorithmus 5.4.3 mit dem
Parameter
s
ǫ
2 (1 − ǫ)
δ=
r
3 (1 + ǫ) n3
aufzurufen. Insgesamt bedeutet die Konstruktion von Ze dann
Aufwand von
einen zeitlichen
2
e
2
2
O m log (1/δ) /ǫ = O m log r/ǫ . Die Wirkwiderstände Z (χu − χv ) ≈ Ruv für u, v ∈
V lassen sich dann einfach in O log n/ǫ2 Zeit berechnen, indem man zwei Spalten von Ze
subtrahiert und die Norm dieser Differenz berechnet.
Auf diese Weise erhalten wir beliebig genaue Näherungen für die Wirkwiderstände Re . Aus
Korollar 5.3.6 folgt schließlich, dass wir mit einer solchen Approximation einen Sparsifier
bekommen.
57
58
Kapitel 6
Das Johnson-Lindenstrauss Lemma
6.1
Einführung
In Kapitel 5 verwenden wir das Johnson-Lindenstrauss Lemma, ein klassisches Resultat von
Johnson und Lindenstrauss aus [16], das in vielen Bereichen der Mathematik von fundamentaler Bedeutung ist. Im Wesentlichen besagt es, dass sich jede Menge aus n Punkten
im d-dimensionalen, euklidischen Raum in den k = O log n/ǫ2 -dimensionalen, euklidischen
Raum einbetten lässt, ohne dass dabei die Abstände zwischen je zwei Punkten um mehr als
einen Faktor (1 ± ǫ) mit 0 < ǫ < 1 verändert werden. Anwendungsgebiete sind beispielsweise
die Dimensionsreduktion in Datenbanken ( [1]) oder das Nearest-Neighbour-Problem (siehe [15]), bei dem zu einem beliebigen Punkt x der nächstgelegene Punkt aus einer gegebenen
Menge P bestimmt werden soll.
Satz 6.1.1 (Johnson-Lindenstrauss). Sei 0 < ǫ < 1 und n ∈ N. Sei k eine positive ganze
Zahl, sodass
k≥4
ǫ2 ǫ3
−
2
3
−1
ln n.
(6.1)
Dann existiert für eine beliebige Menge V bestehend aus n Punkten im Rd eine Abbildung
f : Rd → Rk sodass für alle u, v ∈ V gilt:
(1 − ǫ)ku − vk2 ≤ kf (u) − f (v)k2 ≤ (1 + ǫ)ku − vk2
6.2
Beweis
Der ursprüngliche, probabilistische Beweis aus [16] wurde von Frankl und Maehara in [13]
wesentlich vereinfacht; der Beweis, den wir hier geben benötigt nur mehr elementares, wahrscheinlichkeitstheoretisches Werkzeug und hält sich an jenen von Gupta und Dasgupta
aus [10]. Wir beginnen mit einem Lemma, das uns eine Möglichkeit aufzeigt, gleichverteilte,
normierte Zufallsvektoren zu erzeugen:
Lemma 6.2.1. Sei X = (X1 , · · · , Xd ) ein Zufallsvektor mit unabhängigen, standardnor1
malverteilten Komponenten und sei Y = kXk
X. Dann ist Y gleichverteilt auf der (d − 1)dimensionalen Einheitssphäre S d−1 .
59
Beweis. X besitzt die Wahrscheinlichkeitsdichte
f (x) = √
1
2π
d e
(−1/2)xT x
.
Sei XU = U X, wobei U eine orthogonale Matrix ist. Dann gilt für die Wahrscheinlichkeitsverteilung P (XU ∈ A) mit A ⊂ Rd messbar
P (XU ∈ A) = P X ∈ U T A
ˆ
1
(−1/2)xT x
=
√ d e
T
U A
2π
ˆ
1
(−1/2)(U x)T (U x)
=
√ d e
A
2π
ˆ
1
(−1/2)xT x
,
=
√ d e
A
2π
da U T U = I. Somit ist auch XU ein Zufallsvektor mit unabhängigen, standardnormalverteilten Komponenten. Insbesondere lässt sich jede Rotation als Multiplikation mit einer orthogonalen Matrix darstellen. Also ist der Zufallsvektor X invariant gegenüber Rotationen. Da
1
Y = kXk
X nichts anderes als die Projektion von X auf S d−1 ist, können wir somit folgern,
dass Y auf S d−1 gleichverteilt ist.
Im Folgenden sei Y wie in Lemma 6.2.1 und Z ∈ Rk die Projektion von Y auf die ersten k
Pk
Xi2
2
Koordinaten. Mit Ai := X 2 +···X
2 gilt L := kZk =
i=1 Ai . Die erwartete Länge von Z ist
1
µ := EL = kd . Dies folgt aus
d
1=E
d
X
Ai =
d
X
EAi ,
i=1
i=1
da alle Komponente von X unabhängig sind und die gleiche Verteilung besitzen und somit
EAj = const. ist für alle j = 1, · · · , d. Die zentrale Abschätzung für den Beweis von Satz 6.1.1
liefert folgendes Lemma:
Lemma 6.2.2. Sei k < d. Dann gilt:
1. Ist β < 1, dann ist
(d−k)
2
k
(1 − β) k
βk
k/2
≤β
1+
P L≤
≤ e 2 (1−β+ln β)
d
d−k
(6.2)
2. Ist β > 1, so ist
(d−k)
2
k
βk
(1 − β) k
k/2
P L≥
≤β
1+
≤ e 2 (1−β+ln β)
d
d−k
Wir werden diese Abschätzungen erst im Anschluss beweisen.
60
(6.3)
Beweis zu Satz 6.1.1. Ist d ≤ k, so ist nichts zu zeigen. Sei also k < d. Wir betrachten nun
für fixes i und j die Punkte vi und vj ∈ V und den auf 1 normierten Abstandsvektor vc
ij zwischen diesen. Wir wollen nun eine Projektion auf einen zufällig gewählten, k-dimensionalen
Unterraum durchführen, indem wir zuerst das Koordinatensystem einer zufälligen, gleichverteilten Rotation unterziehen und dann auf die ersten k Koordinaten projizieren. Nach den
′ = v′ − v′ ,
anfangs durchgeführten Überlegungen erhalten wir dann aber einen Vektor vij
j2
i
′
′
der genau der gleichen Verteilung wie Z genügt. Damit sind aber auch L und vi − vj 2
identisch verteilt mit Erwartungswert kd . Wir können also L = vi′ − vj′ und µ = kd setzen und Lemma 6.2.2 anwenden. Da Projektionen
2Abbildungen sind, bekommen wir
lineare
′
′
2
für den Fall kvi − vj k = c 6= 1 lediglich L = c vi − vj und µ = c2 kd , was nichts an der
Abschätzung ändert, da sich c2 in der Ungleichung kürzt. Es gilt in jedem Fall
k
P (L ≤ (1 − ǫ) µ) ≤ exp
(1 − (1 − ǫ) + ln (1 − ǫ))
2
und weiter mit ln (1 − ǫ) ≤ − ǫ + ǫ2 /2
ǫ2
k
≤ exp
ǫ− ǫ+
2
2
2
kǫ
= exp −
4
1
≤ exp (−2 ln n) = 2 ,
n
wobei wir in der letzten Zeile Bedingung (6.1) verwendet haben. Ähnlich erhalten wir mit
dem zweiten Teil von Lemma 6.2.2
k
P (L ≤ (1 + ǫ) µ) ≤ exp
(1 − (1 + ǫ) + ln (1 + ǫ))
2
und weiter mit ln (1 + ǫ) ≤ ǫ − ǫ2 /2 + ǫ3 /3
k
ǫ2 ǫ3
≤ exp
+
−ǫ + ǫ −
2
2
3
!
2
3
k ǫ /2 − ǫ /3
= exp −
2
≤ exp (−2 ln n) =
1
,
n2
wobei wir am Schluss wieder Bedingung (6.1) benützt haben. Wir erhalten also für ein fixes
Paar Indices i und j durch Umformen und die Definitionen von L und µ

 q
d ′ q d ′ 2
vi − k vj 

1

 k
≤
1
−
ǫ
P
(6.4)
≤ 2
2
 n

kvi − vj k
61
und

 q
d ′ q d ′ 2

 k vi − k vj 1


≥ 1 + ǫ ≤ 2 ,
P
2
n


kvi − vj k
also insgesamt mit f (vi ) :=
q
(6.5)
d ′
k vi
kf (vi ) − f (vj )k
P 1−ǫ≤
2
kvi − vj k
≤1+ǫ
!
≥1−
2
.
n2
(6.6)
Da es genau n(n−1)
Möglichkeiten gibt, ein Paar vi und vj auszuwählen, ist die Wahrschein2
lichkeit, dass für irgendein Paar diese Wahrscheinlichkeit außerhalb der Epsilon-Umgebung
· n22 = 1 − n1 . Also besitzt f die gewünschten Eigenschaften mit einer
liegt, höchstens n(n−1)
2
Wahrscheinlichkeit von wenigstens n1 .
Bemerkung 6.2.3. Mit diesem Beweis ist die Existenz der Abbildung gezeigt. Wollen wir
die Abbildung f tatsächliche berechnen, müssen wir die Zufallsprojektion lediglich oft genug
ausführen. Wiederholen wir die Projektion K Mal, so erhalten wir eine ErfolgswahrscheinK
lichkeit von 1 − 1 − n1 , was für K → ∞ gegen 1 konvergiert.
Wir beweisen nun noch Lemma 6.2.2:
Beweis zu Lemma 6.2.2. Für die nachfolgende Abschätzung benötigen wir folgende Identität: Für eine N (0, 1)-verteilte Zufallsvariable X gilt mit −∞ < s < 21
1
2
E esX = √
.
(6.7)
1 − 2s
Dies sieht man wie folgt:
E e
für −∞ < s < 12 . Da
2
sX 2
−x dx =
Re
´
√
x2
1
2
√ esx e− 2 dx
2π
R
ˆ − √1−2sx 2
)
(
1
2
√
e
dx
=
2π R
=
ˆ
π ergibt Substitution mit t :=
1
=p
π (1 − 2s)
1
=√
,
1 − 2s
ˆ
q
1−2s
2 x
2
R
e−t dt
wie behauptet. Nun ist
βk
= P d X12 + · · · + Xk2 ≤ kβ X12 + · · · + Xd2
P L≤
d
62
und wir zeigen, dass
P d
X12
+ ··· +
Xk2
gilt:
X12
≤ kβ
+
· · · Xd2
(d−k)
2
k (1 − β)
1+
≤β
d−k
k
2
(6.8)
P d X12 + · · · + Xk2 ≤ kβ X12 + · · · + Xd2
= P kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 ≥ 0
≥1
= P exp t kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
für t > 0. Mit der Markow-Ungleichung P (|X| ≥ a) ≤ a1 E (|X|) lässt sich dies nach oben
abschätzen durch
E exp t kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
2
.
+ · · · + Xd2
= E exp t (kβ − d) X12 + · · · + Xk2 + tkβ Xk+1
Da alle Xi unabhängig voneinander sind, können wir mit X ∼ N (0, 1) dies schreiben als
(d−k)
k
E exp tkβX 2
E exp t (kβ − d) X 2
und unter den Zusatzbedingungen tkβ < 1/2 und t (kβ − d) < 1/2 erhalten wir
(1 − 2tkβ)−
(d−k)
2
k
(1 − 2t (kβ − d))− 2 .
(d−k)
k
Wir setzen g (t) = (1 − 2tkβ)− 2 (1 − 2t (kβ − d))− 2 . Da t > 0, impliziert tkβ < 1/2 bereits t (kβ − d) < 1/2. Wir wollen nun t so wählen, dass g(t) minimal wird. Dazu maximieren
wir die Funktion
ge(t) = (1 − 2tkβ)(d−k) (1 − 2t (kβ − d))k
1
im Intervall 0 < t < 2kβ
. Wir differenzieren dazu ge(t) und setzen die Ableitung gleich Null.
Nach Kürzen erhalten wir:
und weiter
0 = ge′ (t0 ) = −β (d − k) (1 − 2t0 (kβ − d)) − (kβ − d) (1 − 2t0 kβ)
t0 =
1−β
,
2β (d − kβ)
was im erlaubten Intervall liegt. Somit gilt
d − k d−k 1 k
ge (t0 ) =
.
d − kβ
β
Mit g (t0 ) = (e
g (t0 ))−1/2 folgt
g (t0 ) = β
k/2
(1 − β) k
1+
d−k
63
(d−k)
2
und somit insgesamt
X12
P d
+ ··· +
Xk2
≤ kβ
X12
+ ··· +
Xd2
≤β
k/2
(1 − β) k
1+
d−k
(d−k)
2
,
was genau den ersten Teil der behaupteten Abschätzung liefert. Der zweite Teil der Ungleichungskette folgt mit 1 + x ≤ ex , da
β
k/2
(d−k)
2
(1 − β) k
d−k
(1 − β) k
k/2
1+
≤ β exp
d−k
d−k
2
k
(1 − β)
= β k/2 exp
2
k
= exp
(1 − β + ln β) .
2
Der zweite Teil des Lemmas folgt aus einer analogen Abschätzung:
P d X12 + · · · + Xk2 ≥ kβ X12 + · · · + Xd2
= P − kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 ≥ 0
≥1
= P exp (−t) kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
für t > 0. Mit der Markow-Ungleichung lässt sich dies wieder abschätzen durch
E exp (−t) kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
2
.
+ · · · + Xd2
= E exp (−t) (kβ − d) X12 + · · · + Xk2 + (−t)kβ Xk+1
Mit X ∼ N (0, 1) lässt sich dies wiederum schreiben als
(d−k)
k
E exp (−t) kβX 2
E exp (−t) (kβ − d) X 2
und unter den Bedingungen (−t) kβ < 1/2 und (−t) (kβ − d) < 1/2 weiter als
(1 − 2 (−t) kβ)−
(d−k)
2
k
(1 − 2 (−t) (kβ − d))− 2 .
Mit der Notation von oben ist der letzte Ausdruck also g(−t) unter der Zusatzbedingung
0 < t < 21 (d − kβ). Somit liegt das Minimum von g bei (−t0 ), mit t0 definiert wie oben und
liegt im erlaubten Intervall, da nach Voraussetzung β > 0 ist. Wir erhalten somit
P d
X12
+ ··· +
Xk2
≥ kβ
X12
+ ··· +
Xd2
≤β
k/2
(d−k)
2
(1 − β) k
1+
d−k
wie behauptet. Der zweite Teil der Abschätzung folgt wie oben.
64
6.3
Varianten
Es gibt nun verschiedene Varianten, die im Beweis angeführte, gleichverteilte Rotation des
Koordinatensystems tatsächlich durchzuführen. Eine Möglichkeit besteht darin, den Vektor mit einer zufälligen Rotationsmatrix zu multiplizieren. Dazu erzeugen wir eine Matrix
mit vollem Rang, deren Einträge N (0, 1) verteilt sind und orthogonalisieren mit Hilfe von
Gram-Schmidt die Spalten. Für einen effizienten Algrithmus ist dieser Prozess allerdings sehr
aufwendig. Es lässt sich allerdings zeigen, dass wir nicht unbedingt eine orthogonale Matrix
benötigen und auf die Orthogonalisierung verzichten können. Weiters sind wir auch nicht an
die Normalverteilung gebunden. Eine andere Möglichkeit ist jene aus [1], die in Kapitel 5
zur Anwendung kommt, eine Matrix mit binomialverteilten Einträgen verwendet und damit
sogar eine etwas bessere Konstante k liefert:
Satz 6.3.1 (Achlioptas, [1]). Seien v1 , . . . , vn ∈ Rd , ǫ, β > 0 und
k≥
4 + 2β
log n
− ǫ3 /3
ǫ2 /2
Sei Q eine k×d Matrix, deren Einträge unabhängige Zufallsvariablen sind, die der Verteilung
( 1
√
mit Wahrscheinlichkeit 12
k
Q (i, j) =
− √1k mit Wahrscheinlichkeit 21
genügen. Dann gilt mit einer Wahrscheinlichkeit von mindestens 1 − 1/nβ
(1 − ǫ) kvi − vj k22 ≤ kQvi − Qvj k22 ≤ (1 + ǫ) kvi − vj k22
für alle Paare (i, j) mit 1 ≤ i, j ≤ n.
Der Parameter β kontrolliert (so wie in Bemerkung 6.2.3 die Anzahl K der Wiederholungen) die Erfolgswahrscheinlichkeit der Projektion. Insbesondere erhalten wir mit β = 1 jene
Version, die wir in Kapitel 5, Satz 5.4.2 verwenden. Für β → 0 erhalten wir die Konstanten
aus Satz 6.1.1. Dies sieht man wie folgt: Die Misserfolgswahrscheinlichkeit der Projektion für
2
. Wie im
ein einzelnes Paar u, v ∈ V lässt sich in dieser Formulierung abschätzen durch n2+β
Beweis von Satz 6.1.1 erhalten wir insgesamt für die Erfolgswahrscheinlichkeit der Projektion
2
die Abschätzung 1 − n(n−1)
. Für β → 0 beträgt sie also 1/n, für β = 1 erhalten wir
2
n2+β
2
n −n+1
1
< 1 − n.
n2
65
66
Kapitel 7
Der Satz von Weyl
Bis jetzt haben wir uns im Wesentlichen nur mit Eigenwerten von Matrizen und dem diskreten Laplace-Operator beschäftigt. Wir gehen nun einen Schritt weiter und betrachten die
Eigenwerte des Laplace-Operators auf Gebieten im Rd .
7.1
Vorbemerkungen
Wir betrachten in diesem Abschnitt für ein beschränktes Gebiet B mit zweimal stetig differenzierbarem Rand das Wärmeleitungsproblem
1
∂u
(t, x) = ∆u (t, x)
∂t
2
u (0, x) = f (x)
u = 0.
(7.1)
∂B
Wir wollen in diesem Kapitel den Satz von Weyl und damit einige Aussagen über die Eigenwerte dieses Problems und deren asymptotisches Verhalten treffen. Grundsätzlich gibt es
dafür zwei verschiedene Zugänge: Der erste führt über die Theorie der Integralgleichungen
(siehe dazu [11]), der zweite und auch unser Zugang ist stochastischer Natur, da die Fundamentallösungen von (7.1) gleichzeitig die Dichten der Übergangswahrscheinlichkeiten einer
Brown’schen Bewegung sind, die beim Austritt aus B gestoppt wird. In den ersten beiden
Abschnitten werden wir die Brown’sche Bewegung näher untersuchen, um dann im dritten
Teil den Satz beweisen zu können. Als Grundlage dafür dienen die Bücher von Bass und
Port & Stone (siehe [3, 21]).
Spektralsatz
Die Basis der gesamten Beweisführung liefert der Spektralsatz für kompakte, selbstadjungierte Operatoren. Wir werden zeigen, dass die uns interessierenden Operatoren tatsächlich
kompakt und selbstadjungiert sind, um von der Spektraldekomposition Gebrauch machen zu
können. Weiteres dazu kann in jedem Standardwerk zur Funktionalanalysis gefunden werden,
siehe etwa [19].
Satz 7.1.1 (Spektralsatz). Sei H ein separabler Hilbertraum mit dem inneren Produkt h·, ·i
und T : H → H ein kompakter, selbstadjungierter Operator. Dann existiert ein Orthonormalsystem {xn : n ∈ N} in H und eine Folge reeller Zahlen {λn : n ∈ N}, sodass gilt:
67
1. Für alle n ∈ N ist T xn = λn xn .
2. limn→∞ λn = 0.
3. Ist z ∈ span{xn : n ∈ N}, so gilt T z =
⊥
P∞
n=1 λn hz, xn ixn .
4. Ist z ∈ span{xn : n ∈ N} , so gilt T z = 0.
7.2
Brown’sche Bewegung
In diesem Abschnitt definieren wir die Brown’sche Bewegung und fassen einige wichtige
Eigenschaften zusammen, die wir als Basis für die nachfolgenden Abschnitte benötigen.
Grundlegende Begriffe und Resultate der Wahrscheinlichkeitstheorie werden vorausgesetzt
und können etwa in [12] gefunden werden.
Definition 7.2.1. Für t > 0 sei p (t, ·) die Dichte der Normalverteilung auf Rd , definiert
über
d
p (t, y) = (2πt)− 2 e−
kyk2
2t
füry ∈ Rd .
Desweiteren definieren wir
p (t, x, y) := p (t, y − x) für x, y ∈ Rd .
Die Dichten p sind symmetrisch in x und y und erfüllen für s, t > 0 und x, y ∈ Rd die
Halbgruppeneigenschaft
ˆ
p (s + t, x, y) = p (s, x, z) p (t, z, y) dz.
Sei weiters (Ω, F, P) ein Wahrscheinlichkeitsraum, B die Borel’sche Sigma-Algebra auf [0, ∞)
und X (t, ω) = Xt (ω) = ω (t) ein stochastischer Prozess definiert auf [0, ∞) × Ω.
Definition 7.2.2. Der stochastische Prozess Xt heißt eindimensionale Brown’sche Bewegung
mit Startpunkt x ∈ R, falls er folgende Bedingungen erfüllt:
1. X0 = x fast sicher,
2. für alle s ≤ t ist Xt − Xs normalverteilt mit Mittelwert 0 und Varianz t − s,
3. für alle s ≤ t sind die Zuwächse Xt − Xs unabhängig von σ (Xr , r ≤ s) und
4. die Abbildung t −→ Xt (ω) ist mit Wahrscheinlichkeit 1 stetig.
Hierbei bezeichne σ (Xr ; r ≤ s) die kleinste Sigma-Algebra, bezüglich derer jedes Xr mit
r ≤ s messbar ist. Seien Xt1 , · · · , Xtd unabhängige, eindimensionale Brown’sche Bewegungen.
Dann definieren wir eine d-dimensionale Brown’sche Bewegung über
Xt := Xt1 , · · · , Xtd .
Im Folgenden sei Ω die Menge aller stetigen Funktionen (Pfade) von [0, ∞) nach Rd und
ω ∈ Ω. Es lässt sich nun zeigen (siehe etwas [3]), dass Xt genau dann eine d-dimensionale
68
Brown’sche Bewegung mit Startpunkt x ist, wenn für 0 ≤ t1 < t2 < · · · < tn die Zufallsvariablen {X(ti )}1≤i≤n die gemeinsame Verteilungsdichte
p (t1 , x, x1 ) p (t2 − t1 , x1 , x2 ) · · · p (tn − tn−1 , xn−1 , xn ) mit x1 , · · · xn ∈ Rd
besitzen. Außerdem existiert für jedes x ∈ Rd ein eindeutiges Wahrscheinlichkeitsmaß Px ,
das der Brown’schen Bewegung mit Startpunkt x entspricht.
7.3
Gestoppte Brown’sche Bewegung
Sei pB (t, x, y) die Übergangswahrscheinlichkeit einer Brown’schen Bewegung, die beim Austritt aus dem Gebiet B gestoppt wird. Ziel dieses Abschnitts ist es, eine explizite Darstellung
für pB (t, x, y) anzugeben und zu zeigen, dass pB genauso wie p symmetrisch in x und y ist
und einer Halbgruppeneigenschaft genügt. Zunächst wollen wir die Definition von pB heuristisch motivieren. Sei τB (ω) die Austrittszeit der Brown’schen Bewegung aus dem Gebiet
B. Es ist
p (t, x, y) dy = Px (Xt ∈ dy)
= Px (Xt ∈ dy; τB ≥ t) + Px (Xt ∈ dy; τB < t)
Der erste Term auf der rechten Seite entspricht genau pB (t, x, y), den zweiten können wir
mittels der starken Markov-Eigenschaft schreiben als
Ex PXτB (Xt−τB ∈ dy) ; τB < t
oder äquivalent dazu
Ex [p (t − τB , XτB , y) ; τB < t] .
Genau diese Relation verwenden wir nun, um pB zu definieren. Sei
rB (t, x, y) := Ex [p (t − τB , XτB , y) ; τB < t]
(7.2)
pB (t, x, y) := p (t, x, y) − rB (t, x, y) .
(7.3)
und
Integrieren wir (7.3) nun über eine Menge A, so erhalten wir
ˆ ˆ
ˆ
ˆ
p (t − τB , XτB , y) p (t, x, ye) de
y dy,
p (t, x, y)dy +
pB (t, x, y) dy =
A
A
A
τB <t
wobei wir den Erwartungswert als Integral geschrieben haben. Nach Vertauschen der Integrationsreihenfolge ist die rechte Seite weiter gleich
Px (Xt ∈ A) − Ex EXτB [1A (Xt−τB )] ; τB < t .
Für den zweiten Term verwenden wir die Markov-Eigenschaft in folgender Form: Für s, r ≥ 0
gilt Ex f (Xs+r ) = Ex EXs f (Xr ) . Die starke Markov-Eigenschaft besagt, dass s auch eine
Stoppzeit sein kann. Damit ist obiger Ausdruck weiter äquivalent zu
Ex 1A (Xt ) − Ex [1A (Xt ) ; τB < t] = Ex [1A (Xt ) ; τB ≥ t] = Px (Xt ∈ A; τB ≥ t) .
Also ist pB (t, x, y) eine Wahrscheinlichkeitsdichte für Px (Xt ∈ A; τB ≥ t) und folglich fast
überall nicht-negativ. Zusammenfassend können wir somit schreiben:
69
Definition 7.3.1. Sei A ⊆ Rd , x ∈ Rd und t ≥ 0. Sei
x
pB (x, A) := P (X (t) ∈ A; τB > t) =
ˆ
pB (t, x, y) dy
A
und für eine Funktion f ≥ 0 auf Rd
ptB f
x
= E (f (X (t)) , τB > t) =
ˆ
pB (t, x, y) f (y) dy.
Tatsächlich gilt aber nicht nur pB (t, x, y) ≥ 0 fast überall, sondern sogar
Lemma 7.3.2. pB (t, x, y) ≥ 0 für alle x, y ∈ Rd .
Beweis. Sei für ǫ > 0
ǫ
rB
(t, x, y) := Ex [p (t − τB , XτB , y) ; τB < t − ǫ] .
Diese Funktionen sind stetig in y, da p (s, u, v) beschränkt und stetig als Funktion von (s, u, v)
ǫ (t, x, y) für ǫ → 0 von unten gegen r (t, x, y) konvergiert, ist r (t, x, y)
für s ≥ ǫ ist. Da rB
B
B
unterhalbstetig und damit pB (t, x, y) oberhalbstetig. Da pB (t, x, ·) ≥ 0 fast überall auf Rd ,
folgt damit die Behauptung.
Die Aussage des nächsten Resultates ist, dass sich die Brown’sche Bewegung im Rd und jene,
die im Inneren des Gebietes B ihren Ausgangspunkt hat und beim Austritt aus B gestoppt
wird, kurz nach dem Start kaum unterscheiden. Für die Brown’sche Bewegung ist der Rand
des Gebietes also noch nicht sichtbar“.
”
Lemma 7.3.3. Sei B ∈ B und a ∈ B. Dann existiert ein r > 0 sodass
pB (t, x, y)
=1
t→0 p (t, x, y)
lim
gleichmäßig für x, y ∈ Br (a). Insbesondere gilt für x ∈ B
lim
t→0
pB (t, x, x)
= 1.
p (t, x, x)
Bevor wir uns dem Beweis zuwenden, zeigen wir folgende Monotonieaussage:
d
α2
Lemma 7.3.4. Die Funktion g(u) := (2πu)− 2 e 2u ist für 0 ≤ u ≤
α2
d
monoton wachsend.
Beweis. Leiten wir g(u) ab, so erhalten wir
dg
(2πu)−d/2 α2 2
(u) =
e 2u α + du .
2
du
2u
Damit g(u) monoton wachsend ist, muss dieser Ausdruck nicht-negativ sein. Da d positiv
ist, ist dies ist der Fall, falls u > 0 und α2 + du ≥ 0 ist, also insgesamt
0<u≤
gilt.
70
α2
d
Beweis zu Lemma 7.3.3. Sei ∂B der Rand des Gebietes B und d (a, ∂B) = min{x ∈ ∂B :
. Sei Br (a) die Kugel um a mit Radius r. Wir
kx − ak}. Sei weiters r > 0 so, dass r < d(a,∂B)
3
wählen x, y ∈ Br (a) und setzen α := d (y, ∂B). Dann ist α + r > d (a, ∂B), 2r < d (a, ∂B) − r
und damit
kx − yk ≤ 2r < d (a, B) − r < α.
Sei nun t ≤
α2
d .
Wegen Lemma 7.3.4 gilt für 0 ≤ s < t und z ∈
/B
p (t − s, z, y) ≤
2
1
(2π (t − s))
e
d/2
α
− 2(t−s)
≤
1
α2
(2πt)
e− 2t .
d/2
Damit folgt weiter
rB (t, x, y) = Ex (p (t − τB , X (τB ) , y) ; τB < t) ≤
1
(2πt)
α2
e− 2t
d/2
und damit
2 −(2r)2
(α
α2 −ky−xk2
rB (t, x, y)
2t
≤ e−
≤ e−
p (t, x, y)
Also konvergiert
rB (t,x,y)
p(t,x,y)
2t
)
.
für t → 0 gleichmäßig gegen null für alle x, y ∈ Br (a). Da
pB (t, x, y) = p (t, x, y) − rB (t, x, y)
gilt
pB (t, x, y)
rB (t, x, y)
=1−
,
p (t, x, y)
p (t, x, y)
woraus die Behauptung folgt.
Der nächste Satz besagt, dass pB (t, x, y) genauso wie p (t, x, y) symmetrisch in x und y ist.
Satz 7.3.5. Für alle x, y ∈ Rd und alle t > 0 gilt pB (t, x, y) = pB (t, y, x).
Der Beweis dazu ist aufwändig und ist im Appendix, Abschnitt 8.1 zu finden. Die Idee dabei
ist, zunächst die Symmetrie über Gleichheit eines Integral-Termes und somit für fast alle
Paare (x, y) zu zeigen, ein technisches Konvergenzlemma liefert dann den Übergang auf alle
(x, y).
Als nächstes benötigen wir die Halbgruppeneigenschaft von pB :
Satz 7.3.6. Sei B eine Borel-Menge, t > 0 und x, y ∈ Rd . Dann genügt pB der Halbgruppeneigenschaft
ˆ
pB (s + t, x, y) = pB (s, x, z) pB (t, z, y) dz
71
Beweis. Wir zeigen zunächst die Halbgruppeneigenschaft der Operatoren ptB für t ≥ 0. Sei
f beschränkt auf Rd und der Shift-Operator θt definiert über X(s, θt ω) = X(s + t, ω). Laut
Definition ist
x
x
ps+t
B f (x) = E (f (X (s + t)) , τB > s + t) = E (f (X (t, θs ω)) , τB · θs > t, τB > s) .
Mit der starken Markov-Eigenschaft ist dieser Ausdruck äquivalent zu
Ex EX(s) (f (X (t)) , τB > t) , τB > s
und unter Verwendung der Definition von ptB gleich
Ex ptB f (X (s)) , τB > s = psB ptB f (x) .
s+t
s t
t
´Insgesamt haben wir also pB = pB pB für s, t ≥ 0. dDa laut Definition 7.3.1 pB f =
pB (t, x, y) f (y) dy ist, gilt außerdem für fast alle u ∈ R
ˆ
pB (s + t, x, u) = pB (s, x, z) pB (t, z, u) dz.
Für 0 < a < t erhalten wir daraus
ˆ
ˆ ˆ
pB (s + t − a, x, u) p (a, u, y) du =
pB (s, x, z) pB (t − a, z, u) p (a, u, y) dzdu.
(7.4)
Vertauschen wir die Integrationsreihenfolge, so ist die rechte Seite gleich
ˆ
pB (s, x, z) [pB (t − a, z, u) p (a, u, y) du] dz.
Mit dem ersten Teil von Lemma 8.1.3 konvergiert der Klammerausdruck für a ↓ 0 gegen
pB (t, z, y) und die linke Seite von (7.4) gegen pB (s + t, x, y). Insgesamt erhalten wir wie
behauptet
ˆ
pB (s + t, x, y) = pB (s, x, z) pB (t, z, y) dz.
Die Symmetrie und die Halbgruppeneigenschaft von p übertragen sich also auch auf pB .
7.4
Der Satz von Weyl
Unser nächstes Ziel ist nun, die im vorhergehenden Abschnitt gewonnenen Resultate über
die Brown’sche Bewegung zu verwenden, um zwei Abschätzungen von Weyl und Carleman
zu beweisen. Diese liefern uns Formeln für die asymptotische Verteilung der Eigenwerte und
Eigenfunktionen des Operators ptB . Wir verwenden dazu einen zentralen Satz der Maßtheorie,
bekannt als Karamata’s Tauberian Theorem“, der in [27] zu finden ist. Im Folgenden sei B
”
immer eine nichtleere, offene Teilmenge des Rd mit endlichem Lebesgue-Maß
´ |B|. Sei L2 =
L2 (B) wie üblich der Hilbertraum aller Funktionen f : B → B mit kf k22 = B f 2 (x) dx < ∞.
Wir sammeln noch einige Abschätzungen und Eigenschaften von pB , die wir später benötigen
werden.
72
Lemma 7.4.1. Sei x ∈ B. Dann gilt
ˆ
p2B (t, x, y) dy = pB (2t, x, x) ≤ p (2t, 0) =
1
(7.5)
d
(4πt) 2
und
ˆ ˆ
p2B
(t, x, y) dxdy =
ˆ
pB (2t, x, x) dx ≤ |B|p (2t, 0) =
|B|
d
.
(7.6)
(4πt) 2
Beweis. Mit der Symmetrie (Satz 7.3.5) und der Halbgruppeneigenschaft (Satz 7.3.6) von
pB erhalten wir
ˆ
ˆ
2
pB (t, x, y) dy = pB (t, x, y) pB (t, y, x) dy = pB (2t, x, x) .
Weiters ist pB (t, x, y) ≤ p (t, x, y) für alle x, y ∈ Rd und damit
pB (2t, x, x) ≤ p (2t, x, x) = p (2t, 0) =
1
d
,
(4πt) 2
womit (7.5) gezeigt ist. Integration des obigen Ausdrucks liefert
ˆ
ˆ
|B|
pB (2t, x, x) dx ≤ p (2t, x, x) dx ≤
d
(4πt) 2
und damit (7.6).
Nun wollen wir uns dem Operator ptB zuwenden:
Lemma 7.4.2. Der Operator ptB ist beschränkt und linear mit Norm kleiner gleich 1. Für
f ∈ L2 ist also
t 2
pB f ≤ kf k2 .
(7.7)
2
2
Beweis. Laut Definition ist
2
ˆ
ˆ ˆ
t 2
2
t
pB f =
pB f (x) dx =
pB (t, x, y) f (y) dy dx.
2
Nun schätzen wir das innere Integral mittels der Cauchy-Schwarz-Ungleichung ab. Dazu
schreiben wir den Integranden zunächst etwas anders an:
ˆ ˆ
pB (t, x, y) f (y) dy
2
dx =
ˆ ˆ p
p
2
pB (t, x, y) ·
pB (t, x, y)f (y) dy dx
Dies lässt sich nun nach oben mit
ˆ
ˆ ˆ
2
pB (t, x, y) dy dx
pB (t, x, y) f (y) dy
73
abschätzen. Da pB eine Wahrscheinlichkeitsdichte ist, lässt sich dieser Ausdruck nach Vertauschen der Integrationsreihenfolge weiter abschätzen mit
ˆ ˆ
pB (t, x, y) dx f 2 (y) dy
und dieses Integral wiederum mit
ˆ
f 2 (y) dy = kf k22 ,
was insgesamt wie behauptet
t 2
pB f ≤ kf k2
2
2
liefert.
Lemma 7.4.3. Es gilt für alle t > 0 und f, g ∈ L2
ˆ
ˆ
t
t
pB f, g = pB f (x) g (x) dx = f (x) ptB g (x) dx = f, ptB g ,
die Operatoren ptB sind also selbstadjungiert.
Beweis. Aus der Definition erhalten wir
ˆ
ˆ ˆ
t
t
pB f, g = pB f (x) g (x) dx =
pB (t, x, y) f (y) g (x) dydx.
Mit der Symmetrie von pB und nach Vertauschen der Integrationsreihenfolge ist dies äquivalent zu
ˆ ˆ
ˆ
f (y) pB (t, y, x) g (x) dydx = f (y) ptB g (y) dy = f, ptB g
wie behauptet.
Im nächsten Schritt beweisen wir:
Lemma 7.4.4. Der Operator ptB ist injektiv für alle t > 0.
Beweis. Wir zeigen, dass der Kern des Operators ptB nur die konstante Nullfunktion beinhaltet. Zunächst bemerken wir, dass für eine stetige Funktion f mit kompaktem Träger in
B gilt
lim ptB f = f.
t→0
Dies folgt, da
lim ptB f (x) = lim pB (t, x, y) f (y) dy
t→0
t→0
74
(7.8)
und pB eine Dirac-Folge ist. Weiters liegt die Menge aller stetigen Funktionen mit kompaktem
Träger dicht in L2 , somit gilt (7.8) für alle f ∈ L2 . Sei nun f ∈ L2 und ptB f = 0. Dann gilt
mit der Selbstadjungiertheit und der Halbgruppeneigenschaft von ptB
D
E t/2
t/2
pB f, pB f = f, ptB f = hf, 0i = 0
t/2n
t/2
und damit auch pB f = 0. Mittels Induktion erhalten wir daraus pB f = 0 für alle n ∈ N
und weiter
t/2n
f = lim pB f = 0.
n→∞
Somit ist f die Nullfunktion, ptB also injektiv.
Insgesamt folgt nun, dass ptB ein kompakter, selbstadjungierter Operator ist. Wir können
also den Spektralsatz anwenden und erhalten daraus für jedes t > 0:
1. Der Operator ptB besitzt Eigenwerte µ1 ≥ µ2 ≥ . . . und Eigenfunktionen ϕ1 , ϕ2 , . . ..
2. Für die Eigenwerte µi gilt: limi→∞ µi = 0
3. Die Eigenfunktionen ϕi bilden eine Orthonormalbasis für L2 (B).
Aus der Beschränktheit und Stetigkeit von pB (t, x, y) lässt sich ableiten, dass wir die Eigenfunktionen beschränkt und stetig auf B annehmen können. Weiters sind alle Eigenwerte
positiv. Ist µ ein beliebiger Eigenwert von ptB und ϕ die zugehörige Eigenfunktion, so gilt
D t/2 t/2 E
µhϕ, ϕi = ptB ϕ, ϕ = pB , pB ≥ 0.
Da hϕ, ϕi ≥ 0 ist, gilt auch µ ≥ 0 und aufgrund der Injektivität sogar µ > 0. Seien nun im
Speziellen µ und ϕ ein Eigenwert und die dazugehörige Eigenfunktion von p1B . Wir setzen
λ := − ln µ und zeigen nun, wie sich daraus eine Darstellung für die Eigenwerte von ptB für
allgemeines t gewinnen lässt:
Lemma 7.4.5. Für alle t > 0 gilt
ptB ϕ = e−λt ϕ.
Beweis. Da laut Definition λ = − ln µ ist, gilt p1B ϕ = µϕ = e−λ ϕ. Somit ist
1/2
1/2
0 = p1B − µ ϕ = pB + µ1/2 pB − µ1/2 ϕ.
1/2
Wir setzen ψ := pB − µ1/2 ϕ und erhalten damit weiter
2 1/2
1/2 2
1/4 2
0 = pB + µ1/2 ψ = pB ψ + µkψk22 + 2µ1/2 pB ψ .
2
2
2
Da kein Term der rechten Seite negativ sein kann, muss jeder Summand einzeln verschwinden.
Nun ist aber µ > 0, also muss kψk22 = 0 und damit ψ = 0 gelten. Daraus folgt
1/2
pB ϕ = µ1/2 ϕ.
75
Mit Induktion erhalten wir nun, dass
ptB ϕ = µt ϕ
(7.9)
auch für alle t der Gestalt t = 21n mit n ∈ N gilt. Mit der Halbgruppeneigenschaft von ptB
folgt (7.9) auch für alle t der Form t = 2mn mit m, n ∈ N. Aufgrund der Stetigkeit gilt die
Beziehung schließlich auch für alle anderen t ∈ R+ .
1
∞
Wir setzen nun λi := − ln µi für alle Eigenwerte
1 µi von pB . Dann ist {λi }i=1 monoton
wachsend und positiv, da wegen Lemma 7.4.2 pB ≤ 1 und damit µ1 ≤ 1 ist. Die Eigenwerte
∞
von ptB lassen sich damit als die Folge e−λi t i=1 darstellen. Weiters ist pB (t, x, ·) ∈ L2 , da
mit (7.5) gilt
ˆ
1
2
.
(7.10)
kpB (t, x, ·)k2 = p2B (t, x, y) dy = pB (2t, x, x) ≤
(4πt)d/2
Nun entwickeln wir diese Funktion für fixes x bezüglich der Basis φi :
2 X
X
(psB φn (x))2
e−λn s φn (x) =
n
n
=
X ˆ
pxB
(s, x, y) φn (y) dy
n
=
X
n
2
hpB , φn i2
Da die Funktionen ϕi ein Orthonormalsystem bilden, ist der letzte Ausdruck äquivalent zu
kpB (s, x, ·)k22 und dies wiederum wegen (7.10) gleich pB (2s, x, x). Mit t := 2s erhalten wir
also
X
(7.11)
pB (t, x, x) =
e−λn t ϕ2n (x)
n
und nach Integration, da
´
ϕi ϕj = δij für alle i, j ∈ N,
ˆ
X
e−λn t .
pB (t, x, x) dx =
(7.12)
n
Mit diesen beiden Identitäten sind wir nun in der Lage, den Satz von Weyl beweisen, indem
wir ihn auf den Satz von Karamata zurückführen. Zuvor wollen wir aber der Übersichtlichkeit
halber nocheinmal den Bezug zum Anfangswertproblem (7.1) herstellen:
Satz 7.4.6. Sei B ∈ Rd beschränkt mit zweimal stetig differenzierbarem Rand. Dann gilt:
1. u (t, x) := ptB f (x) löst das Anfangswertproblem (7.1).
2. Die Operatoren ptB sind selbstadjungiert und kompakt.
3. Sie besizten Eigenwerte und Eigenfunktionen {µi } und {ϕi }. Es ist µi = e−λi t für eine
Folge reeller Zahlen 0 < λ1 ≤ λ2 ≤ . . . und damit
ptB ϕi = µi ϕi = e−λi t ϕi .
76
4. Die ϕi sind ebenfalls Eigenfunktionen des Operators
∆
2
zu den Eigenwerten −λi ,
∆
ϕi = −λi ϕi .
2
Beweis. Zu zeigen ist nur mehr Punkt 4. Es gilt
1
∂ t
p ϕi = ∆e−λi t ϕi
∂t B
2
und damit nach Integration über t, da λi > 0 für alle i
ptB ϕi = −
1
∆ϕi ,
2λi
woraus die Behauptung folgt.
Satz 7.4.7 (Weyl, Carleman [27]). Sei x ∈ B. Dann gilt
lim λ−d/2
λ→∞
X
ϕ2n (x) =
λn ≤λ
1
(2π)d/2 Γ (d/2 + 1)
=: CW eyl
und
lim λ−d/2
λ→∞
X
=
λn ≤λ
(2π)
d/2
|B|
Γ (d/2 + 1)
= CW eyl |B|
Satz 7.4.8 (Karamata, [27]). Sei µ ein Maß auf R+ , γ und c ∈ R+ . Falls
ˆ ∞
γ
lim t
e−tλ dµ (λ) = c,
t→0
0
so gilt
lim λ−γ µ ([0, λ])
λ→∞
c
.
Γ (γ + 1)
Beweis. Siehe [27].
Wir können nun den Satz von Weyl und Carleman beweisen:
Beweis zu Satz 7.4.7. Sei x ∈ B. Nach Lemma 7.3.3 ist
lim
t→0
pB (t, x, x)
pB (t, x, x)
= 1.
= lim
d
t→0
p (t, x, x)
(2πt)− 2
Wir definieren das Punktmaß µ über
µ [0, λ] =
X
ϕ2n (x) .
λn ≤λ
Damit gilt nun
1 = lim
t→0
pB (t, x, x)
(2πt)
− d2
= lim (2πt)
t→0
d
2
X
e−λn t ϕ2n (x)
λn ≤λ
77
= lim (2πt)
t→0
d
2
ˆ
e−λt dµ (λ)
(7.13)
also
d
d
(2π)− 2 = lim t 2
t→0
ˆ
e−λt dµ (λ) .
Mit Satz 7.4.8 folgt also
lim λ
λ→∞
− d2
X
d
(2π)− 2
,
=
Γ d2 + 1
ϕ2n (x)
λn ≤λ
was der ersten Behauptung entspricht. Die zweite Identität folgt analog mit dem Maß
µ [0, λ] :=
X
1.
λn ≤λ
Integration von (7.13) liefert
d
|B| = lim (2πt)− 2
t→0
X
e−λn t
λn ≤λ
und Satz 7.4.8 damit
d
lim λ− 2
λ→∞
7.5
7.5.1
X
1=
(2π)
λn ≤λ
d/2
|B|
Γ (d/2 + 1)
.
Heat Triangulation
Das Heat Triangulation Theorem
Wir möchten in diesem Abschnitt auf das Paper [17] von Jones, Maggioni und Schul eingehen. Dieses beschäftigt sich mit der lokalen Parametrisierung durch Diffusionskerne und
Eigenfunktionen des Laplace-Operators und bedient sich unter anderem der Resultate aus
den vorangegangenen Abschnitten. Aus Gründen der Übersichtlichkeit schreiben wir im Folgenden für ein Gebiet Ω den Diffusionskern pΩ (x, y, t) als Kt (x, y).
Sei Ω ein Gebiet in Rd mit |Ω| = 1, ∆ der Laplace-Operator auf dem Gebiet Ω mit
Dirichlet- oder Neumann-Randbedingungen. Außerdem sei Ω so, dass das Spektrum des
Laplace-Operators diskret ist und sich die Diffusionskerne darstellen lassen als
Kt (z, w) =
∞
X
e−λj t φj (z)φj (w)
(7.14)
j=1
mit φ1 , φ2 , . . . so, dass sie eine Orthonormalbasis von Eigenfunktionen des Laplace-Operators
bilden.
78
Satz 7.5.1 (Einbettung über Eigenfunktionen, [17]). Sei Ω ein Gebiet, das alle obigen Voraussetzungen erfüllt. Für jedes z ∈ Ω sei weiters ρz ≤ d(z, ∂Ω). Dann existieren Konstanten
c1 , . . . , c6 , die nur von der Dimension des Gebietes und CW eyl abhängen, sodass gilt: Es gibt
d/2
natürliche Zahlen j1 , . . . , jd und Konstanten c6 ρz ≤ γ1 , . . . , γ6 ≤ 1, für die die Abbildung
Φ : Bc1 ρz (z) → Rd
x → (γ1 φj1 (x), . . . , γd φjd (x))
für alle x, y ∈ Bc1 ρz (z)
c2
c3
kx − yk ≤ kΦ(x) − Φ(y)k ≤ kx − yk
ρz
ρz
erfüllt und weiters die zugeordneten Eigenwerte der Abschätzung
c4
c6
≤ λj 1 , . . . , λj d ≤ 2
2
ρz
ρz
genügen.
Die d Eigenfunktionen aus Satz 7.5.1 lassen sich durch d Diffusionskerne {Kt (z, yi )}1≤i≤d ersetzen, die im Beweis von Satz 7.5.1 entstehen. Das liefert eine Einbettung mit noch besseren
Eigenschaften:
Satz 7.5.2 (Heat Triangulation, [17]). Sei Ω ein Gebiet, das alle obigen Voraussetzungen
erfüllt, jedoch ohne Einschränkung bezüglich |Ω|. Für jedes z ∈ Ω seien weiters ρz ≤ d(z, ∂Ω).
Sind p1 , . . . , pd linear unabhängige Richtungen, so gibt es positive Konstanten c1 , . . . , c6 ,
die nur von d und dem kleinsten und größten Eigenwert der Gram-Matrix (hpi , pj i)1≤i,j≤d
abhängen, sodass gilt: Ist yi so, dass yi − z parallel zu pi ist, für alle 1 ≤ i ≤ d
c4 ρz ≤ kyi − zk ≤ c5 ρz
gilt und tz = c6 ρ2z ist, so genügt die Abbildung
Φ : Bc1 ρz (z) → Rd
x → ρdz Ktz (x, y1 ), . . . , ρdz Ktz (x, yd )
für alle x1 , x2 ∈ Bc1 ρz (z) der Abschätzung
c3
c2
kx1 − x2 k ≤ kΦ(x1 ) − Φ(x2 )k ≤ kx1 − x2 k.
ρz
ρz
Zur Illustration sei ein einfaches Beispiel angeführt:
Beispiel 7.5.3. Wir betrachten das Intervall (−r, r) in R, also den Fall d = 1, z = 0 und
ρz = r. Als Richtung wählen wir p = 1. Da für y gelten muss y ∼cc54 ρz , können wir c4 = c5 = 1
wählen, womit y = r ist. Genauso setzen wir c6 = 1 und erhalten tz = c6 ρ2z = r2 . In R besitzt
der euklidische Diffusionskern die Form
Kt (x, y) = √
−|x−y|2
1
e 4t ,
4πt
79
0.25
0.20
0.15
0.10
0.05
-0.4
0.2
-0.2
0.4
Abbildung 7.1: Die Parametrisierung Φ mit r = 0.4.
unsere Abbildung ist also
Φ : Bc1 r (0) → R
1 −|x−r|2
x → rKr2 (x, r) = √ e 4r2 .
4π
Man beachte, dass Φ unabhängig vom Radius r ist. In Abbildung 7.1 ist die Parametrisierung
dargestellt. Hieraus ist ersichtlich, dass am Rand des Intervalls die Ableitung von Φ gegen
null geht. Die Parametrisierung besitzt also nicht auf dem ganzen Intervall (−r, r) eine gute
Qualität; in der Tat behauptet der Satz dies auch nur für ein (kleineres) Intervall (−c1 r, c1 r).
Aus einer besseren Wahl der Parameter c4 , c5 und c6 können wir auch durchaus einen größeren
Bereich bekommen, in dem die Paramtrisierung zufriedenstellend ist.
Beide Sätze lassen sich auch auf bestimmte Klassen von Mannigfaltigkeiten erweitern. In diesem Fall hängen die auftretenden Konstanten jedoch auch von der Mannigfaltigkeit selbst ab
und nicht nur von der Dimension, wie es für Gebiete im Rd der Fall ist. Für den vollständigen
Beweis sei auf [17] verwiesen, hier geben wir die wesentlichen Schritte des Beweises von
Satz 7.5.1 an und wie sich daraus Satz 7.5.2 ableiten lässt. Die grobe Struktur ist wie folgt:
1. Zunächst wählen wir eine Richtung p1 im Punkt z, zu der wir eine Eigenfunktion φi
C
i
suchen, die auf Bc1 ρz (z) der Abschätzung ∂φ
∂pi ≤ ρz genügt. Dazu zeigt man, dass der
Gradient des Diffusionskerns auf einem Ring um einen Punkt y1 groß ist. Dieses y1
wird so gewählt, dass z im Ring und in Richtung p1 liegt.
2. Auf diesem Ring lässt sich der Diffusionskern und sein Gradient durch eine endliche
Teilsumme von (7.14) annähern, sodass für alle darin auftretenden Eigenfunktionen φi
und die Eigenwerte λi gilt
K1
K2
≤ λi ≤ 2
ρ2z
ρz
(7.15)
und
kφi kL2 (Bc
1 ρz (z))
d/2
ρz
für Konstanten K1 , K2 und K3 .
80
≥ K3
(7.16)
i
3. Nach dem Schubfachprinzip existiert dann zumindest eine Richtung φi1 , für die ∂φ
∂pi groß
ist. Für dieses φi1 betrachtet man ∇φi1 und wählt eine Richtung p2 ⊥∇φi1 . Induktiv
erhält man dann φi1 , . . . , φid , die Abschätzungen der Form (7.16) genügen.
4. Von der daraus gewonnenen Abbildung Φ = (φi1 , . . . , φid ) lässt sich zeigen, dass sie
den gewünschten Eigenschaften genügt.
7.5.2
Beweis
Im Folgenden bedeute f (x) .c1 ,...,cn g(x), für zwei Funktionen f und g, dass eine Konstante C existiert, die ausschließlich von c1 , . . . , cn abhängt, sodass für alle x im Definitionsbereich gilt f (x) ≤ Cg(x). Gilt f (x) .c1 ,...,cn g(x) und g(x) .c1 ,...,cn f (x), so schreiben wir
f (x) ∼c1 ,...,cn g(x). Bilden f und g in den Rd ab, so sind die Ungleichungen komponentenweise
2
zu verstehen. Für zwei Vektoren a, b schreiben wir a ∼C
C1 b, falls (ebenfalls komponentenweise)
gilt C1 b ≤ a ≤ C2 b. Die Richtungsableitung ∂p Kt (·, ·) beziehe sich, soweit nicht anders angegeben, immer auf die zweite Variable des Diffusionskerns zum Zeitpunkt t. Als ersten Schritt
benötigen wir einige Abschätzungen für den Diffusionskern. Für Dirichlet-Randbedingungen
haben wir einen Großteil derer in den vorangegegangenen beiden Abschnitten bewiesen.
Proposition 7.5.4. Seien δ0 , δ1 > 0 hinreichend klein und z, w ∈ Ω so, dass |z − w| < δ0
und δ1 /2ρz ≤ t1/2 ≤ δ0 ρz . Dann gibt es Konstanten C1 , C2 , C1′ , C2′ , C9 > 0, sodass gilt:
1. Der Diffusionskern erfüllt
2
Kt (z, w) ∼C
C1 t
−d
2
.
(7.17)
2. Falls 1/2δ0 ρz < |z − w| ist, p der Einheitsvektor in Richtung |z − w| und q ein beliebiger
Einheitsvektor, so ist
C′
|∇Kt (z, w)| ∼C2′ t
1
−d
2
ρz
C ′ −d ρz
und |∂p Kt (z, w)| ∼C2′ t 2
,
1
t
t
(7.18)
und
−d ρz
Rd
,
∂
K
(z,
w)
−
∂
K
(z,
w)
q t
≤ C9 t 2
q t
t
(7.19)
d
wobei für fixes δ0 für δ1 → 0 auch C9 → 0. Mit KtR (z, w) sei der Diffusionskern im
Rd bezeichnet.
3. Falls 1/2δ0 ρz < |z − w| ist und q so wie oben, dann ist für s ≤ t
Ks (z, w) .C2 t
−d
2
, |∇Ks (z, w)| .C2′ t
−d
2
−d ρz
ρz
und |∂q Ks (z, w)| .C2′ t 2
.
t
t
(7.20)
4. Für δ1 → 0 und fixes δ0 nähern sich C1 und C2 einer einzigen Funktion, die nur von
d abhängt.
Der nächste Schritt besteht darin, passend gewählte Diffusionskerne durch eine Menge an
Eigenfunktionen zu ersetzen, indem wir die führenden Terme“ ihrer Spektralentwicklung
”
herausnehmen. Wir werden Eigenfunktionen vernachlässigen,
81
1. die zu zu großen Eigenwerten gehören oder
2. deren Gradient um z zu klein ist.
Seien ΛL (A) = {λj : λj ≤ At−1 }, ΛH (A′ ) = ΛL (A′ )C und

!1/2 


1
ΛE (p, z, ρz , δ0 , c0 ) = λj : ρz |∂p φj (z)| ≥
φj (z ′ )2 dz ′
,


c0
B(z,1/2δ0 ρz )
ffl
´
wobei A f = |A|−1 A f das über das Integrationsgebiet gemittelte Integral bezeichne. Das
folgende Lemma sagt uns, dass, für A > 1, A′ < 1 hinreichend groß bzw. klein, Eigenfunktionen aus
ΛL (A) ∩ ΛH (A′ ) ∩ ΛE (p, z, ρz , δ0 , c0 )
(7.21)
für unsere Zwecke gut geeignet sind.
Lemma 7.5.5. Seien δ0 , δ1 > 0 hinreichend klein und z, w ∈ Ω so, dass |z − w| < δ0 und
δ1 /2ρ(z) ≤ t1/2 ≤ δ0 ρz . Dann gibt es Konstanten C7 (c0 ), C8 (d) und b(c0 ), sodass Folgendes
gilt: Sei p eine beliebige Richtung. Für alle j ∈ ΛE (p, z, ρz , δ0 , c0 ) und z ′ mit kz − z ′ k ≤ bδ0 ρz
ist
!1/2
∂p φj (z ′ ) ∼C8 ρ−1
φ2j
.
z
C7
B1/2δ0 ρz (z)
Außerdem gibt es einen Index j in (7.21), sodass mit
γφj :=
B1/2δ0 ρz (z)
φ2j (z ′ )dz ′
!1/2
gilt
γφj . (CW eyl )1/2 ,
mit Konstanten, die von A, C1 , C1′ , C2 , C2′ , Cg , d, δ0 und δ1 abhängen.
Wir benötigen nun noch einige Abschätzungen für die Eigenfunktionen φj , die wir hier
gesammelt anführen wollen:
Proposition 7.5.6. Es gibt b1 < 1 und CP (d) > 0, sodass für jede Eigenfunktion φj von ∆
auf BR (z) mit R ≤ ρz für w, x, y ∈ Bb1 R (z) die folgenden Abschätzungen gelten:
!1/2
|φj (w)| ≤ CP P1 (λj R2 )
P3 (λj R2 )
k∇φj (w)k ≤ CP
R
P5 (λj R2 )
k∇φj (x) − ∇φj (y)k ≤ CP
R
wobei Pi (x) = (1 + x)i/2+β mit β =
d−2 4
.
82
BR (z)
|φj |2
BR (z)
BR (z)
|φj |
2
|φj |
2
,
!1/2
!1/2
,
kx − yk,
Damit können wir nun Satz 7.5.1 beweisen:
Beweis zu Satz 7.5.1. Mittels Lemma 7.5.5 finden wir für eine vorgegebene Richtung eine passende Eigenfunktion. Um den Satz zu beweisen, benötigen wir d linear unabhängige
Richtungen. Sei p1 eine beliebige Richtung. Aus Lemma
7.5.5 erhalten
wir ein j1 ∈ ΛL (A) ∩
ΛH (A′ ) ∩ ΛE (p, z, ρz , δ0 , c0 ) mit j1 ∼ t−1 , sodass γφj1 ∂p1 φj1 (z) ≥ c0 /ρz . Sei nun p2 orthogonal zu ∇φj1(z). Eine erneute Anwendung von Lemma 7.5.5 liefert uns j2 < A/t, sodass
γφj2 ∂p2 φj2 (z) ≥ c0 /ρz . Aus der Wahl von p2 folgt ∂p2 φj1 = 0. Induktiv wählen wir auf
diese Art, sobald wir j1 , . . . , jk mit k < d und die dazugehörigen pℓ mit γφjℓ ∂pℓ φjℓ ≥ c0 /ρz
erhalten haben, pk+1 orthogonal zu span ({∇φ
und wenden neuerlich
j1 (z), . . . , ∇φjk (z)})
Lemma 7.5.5 an, welches einen Index jk+1 mit γφjk+1 ∂pk+1 φjk+1 ≥ c0 /ρz liefert. Wir setzen
γi = γφji . Dies sind genau die Konstanten, die im Satz auftreten. Weiters ist die Matrix
Ak+1 := (γm ∂pn φjm (z))m,n=1,...,k+1
eine untere Dreiecksmatrix, woraus folgt, dass {p1 , . . . , pk+1 } linear unabhängig ist. Sei nun
Φk = (γ1 φj1 , . . . , γk φjk ) und Φ = Φd . Wir zeigen, dass gilt
Angenommen, es gelte
∇Φ (w − z) &d 1 kw − zk.
z
ρz
∇Φk (w − z) ≤ c kw − zk
z
ρz
für alle k = 1, . . . , d. Für c hinreichend klein führt dies auf einen Widerspruch: Sei w − z =
P
ℓ aℓ pℓ . Dann folgt aus Lemma 7.5.5
!
X
X
1
∇Φk (w − z) = |aℓ |
.
aℓ ∂pℓ Φk z & |ak | − c
z
ρz
ℓ≤k
ℓ<k
P
Mit Induktion erhalten wir |ak | P
≤ kℓ=1 cℓ kw − zk. Für c klein genug ist damit |ai | ≤ kw−zk
d ,
was aber ein Widerspruch zu k i ai pi k = kw − zk und kpi k = 1 ist. Aus Proposition 7.5.6
haben wir
∇Φ − ∇Φ . kz − wk 1 .
z
w
ρz
ρz
ik
Daraus folgt mit einer Konstante, die größer als kz−w
für i = 1, 2 ist
ρz
ˆ 1
kΦ(w1 ) − Φ(w2 )k = ∇Φtw1 +(1−t)w2 (w1 − w2 )dt
0
ˆ 1 =
∇Φ w1 + ∇Φ tw1 +(1−t)w2 − ∇Φ w1 (w1 − w2 )dt
0
ˆ 1
1
kw1 − w2 kdt
&
0 ρz
c0
& kw1 − w2 k,
ρz
83
was die untere Abschätzung in Satz 7.5.1 beweist. Aus Proposition 7.5.6 erhalten wir
|γℓ ∂pℓ φiℓ (z)| . 1/ρz ,
was uns die obere Abschätzung liefert.
Als Abschluss wollen wir noch zeigen, wie Satz 7.5.2 aus dem Beweis von Satz 7.5.1 folgt:
Beweis zu Satz 7.5.2. Ohne Beschränkung der Allgemeinheit sei ρz = 1. Wir betrachten für
e
der Abbildung
x ∈ Bc1 Rz (z) die Jacobi-Matrix J(x)
d/2 t
e := ρ−d
Φ
Φ.
z t
ρ2z
Aus (7.19) in Proposition 7.5.4 folgt
Jeij (x) − C2′ pi , x − yj /ρz ≤ C9 /ρz
kx − yj k
und dass, bei geeigneter Wahl von δ0 und δ1 , wir die Konstante C9 für alle x ∈ Bc1 ρz (z)
kleiner als jedes beliebige ǫ (für alle Einträge) machen können, wobei wir t = tz = c6 ρ2z für
e verwenden. Wir können also für c1 klein genug im Bezug auf c4 schreiben
Φ
e
ρz J(x)
= Gd + E(x),
wobei (Gd )ij = hpi , pj i die (von x unabhängige) Gramsche Matrix ist und Eij (x) < ǫ für alle
x ∈ Bc1 ρz (z). Sind σmin und σmax der größte und kleinste Eigenwert von Gd , so gilt damit
σ
σmin − Cd ǫ
e
max + Cd ǫ
kvk ≤ J(x)v
kvk,
≤
ρz
ρz
wobei Cd linear von d abhängt. An dieser Stelle wählen wir ǫ so klein (∼ 1/d), dass die JacobiMatrix aufgrund obiger Abschätzungen in Bc1 ρz (z) im Wesentlichen konstant ist. Integration
über einen Weg von x1 zu x2 in Bc1 ρz (z) liefert die Aussage des Satzes.
84
Kapitel 8
Appendix
8.1
Beweis zu Satz 7.3.5
Satz 8.1.1. Für alle x, y ∈ Rd und alle t > 0 gilt pB (t, x, y) = pB (t, y, x).
Zunächst zeigen wir die Symmetrie über Gleichheit eines Integral-Terms und somit für fast
alle Paare (x, y), ein technisches Konvergenzlemma liefert dann den Übergang auf alle (x, y).
Lemma 8.1.2. Für fast alle x, y ∈ Rd × Rd gilt pB (t, x, y) = pB (t, y, x).
Beweis. Wir stellen pB (t, x, y) durch p (t, x, y) dar und benützen die Symmetrie von p (t, x, y).
Seien A und C Borel-Mengen und B offen. Es ist
ˆ ˆ
ˆ
pB (t, x, y) dydx =
Px (Xt ∈ A, τB ≥ t) dx
C
A
C
und
ˆ ˆ
C
pB (t, y, x) dydx =
ˆ
A
A
Py (Xt ∈ C, τB ≥ t) dy.
Somit genügt es zu zeigen, dass
ˆ
ˆ
Py (Xt ∈ C, τB ≥ t) dy
Px (Xt ∈ A, τB ≥ t) dx =
gilt. Sei nun tnj =
als
jt
n.
lim
Da die Pfade von Xt stetig sind, läßt sich der erste Ausdruck schreiben
ˆ
n→∞ C
Px0 X (tnn ) ∈ A, X (tn1 ) ∈ B, · · · , X tnn−1 ∈ B dx0 .
Aufgrund der Markov-Eigenschaft der Brownschen Bewegung ist
x
(8.1)
A
C
P (Xt1 ∈ A1 , · · · , Xtm ∈ Am ) =
ˆ
A1
85
···
ˆ
m
Y
Am k=1
p (tk − tk−1 , xk−1 , xk ) .
Damit gilt, dass dieser Term äquivalent ist zu
ˆ ˆ Y
ˆ ˆ
n
t
p
···
lim
, xk−1 , xk dxn · · · dx0 .
n→∞ C B
n
B A
k=1
Da p (t, x, y) symmetrisch ist, ist dies weiter gleich
ˆ ˆ Y
ˆ ˆ
n
t
, xk , xk−1 dxn · · · dx0 ,
p
···
lim
n→∞ C B
n
B A
k=1
und mit der Setzung yi := xn−i für alle 0 ≤ i ≤ n erhalten wir
ˆ ˆ Y
ˆ ˆ
n
t
p
···
lim
, yk−1 , yk dy0 · · · dyn ,
n→∞ C B
n
B A
k=1
was wiederum gleich
ˆ
A
Py (Xt ∈ C, τB ≥ t) dy
ist. Insgesamt folgt also (8.1) und damit die Behauptung für offene B. Für allgemeine BorelMengen lässt sich die Identität über Grenzwerte von Durchschnitten offener Mengen zeigen,
siehe dazu [3].
Wir benötigen noch folgenden technischen Hilfssatz:
Lemma 8.1.3. Für alle x, y ∈ Rd gilt
ˆ
pB (t − a, x, u) p (a, u, y) du ↓ pB (t, x, y) für a → 0
(8.2)
und
ˆ
p (a, x, u) pB (t − a, u, y) du ↓ pB (t, x, y) für a → 0.
(8.3)
Beweis. Wir beginnen mit (8.2). Es ist pB (t − a, x, u) = p (t − a, x, u) − rB (t − a, x, u) laut
Definition und damit
ˆ
ˆ
ˆ
pB (t − a, x, u) p (a, u, y) du = p (t − a, x, u) p (a, u, y) − rB (t − a, x, u) p (a, u, y) du.
Der erste Term der rechten Seite ist aufgrund der Halbgruppeneigenschaft des Gausskerns
gleich p (t, x, y). Da außerdem nach Lemma 7.3.2 pB (t, x, y) ≥ 0 gilt, ist (8.2) äquivalent zu
rB (t − a, x, u) p (a, u, y) ↑ rB (t, x, y) für a → 0.
Nach Definition (7.2) ist obiger Ausdruck gleich
ˆ
Ex [p (t − a − τB , XτB , u) ; τB < t − a] p (a, u, y) du
ˆ ˆ
p (t − a − τB , XτB , u) p (t, x, ye) de
y p (a, u, y) du.
=
τB <t
86
(8.4)
Durch Vertauschen der Integrale und mit der Halbgruppeneigenschaft von p lässt sich dies
schreiben als
ˆ
p (t − τB , XτB , y) p (t, x, ye) de
y = Ex [p (t − τB , XτB , y) ; τB < t − a] .
τB <t
Dieser Ausdruch konvergiert aber für a → 0 monoton wachsend gegen
Ex [p (t − τB , XτB , y) ; τB < t] = rB (t, x, y) ,
also gilt (8.4) und damit auch (8.2). Für (8.3) zeigen wir analog, dass für b → 0
ˆ
p (b, x, z) r (t − b, z, y) dz ↑ rB (t, x, y)
(8.5)
gilt. Dazu schätzen wir rB (t, x, y) nach oben und unten durch den Integralterm ab. Zunächst
zeigen wir, dass für alle b < t
ˆ
rB (t, x, y) ≥ p (b, x, z) r (t − b, z, y) dz
(8.6)
gilt. Dazu schreiben wir
rB (t, x, y) = Ex [p (t − τB , XτB , y) ; τB < b] + Ex [p (t − τB , XτB , y) ; b ≤ τB < t] .
Der erste Ausdruck auf der rechten Seite lässt sich wieder aufgrund der Halbgruppeneigenschaft schreiben als
ˆ
p (t − τB , XτB , y) p (t, x, ye) de
y
τB <b
ˆ
ˆ
p (b − τB , XτB , z) p (t − b, z, y) dz p (t, x, ye) de
y,
=
τB <b
was wiederum äquivalent ist zu
x
E [p (b − τB , XτB , z) ; τB < b] p (t − b, z, y) dz =
ˆ
rB (b, x, z) p (t − b, z, y) dz.
Für den zweiten
Term verwenden wir wieder die starke Markov-Eigenschaft Ex f (Xs+r ) =
Ex EXs f (Xr ) . Mit r = t − b − τB und s = b ist der zweite Summand gleich
Ex EXb [p (t − b − τB , XτB , y) ; τB < t − b]
ˆ
= pB (b, x, z) Ez [p (t − b − τB , XτB , y) ; τB < t − b] dz
ˆ
= pB (b, x, z) rB (t − b, z, y) dz.
Insgesamt erhalten wir also
ˆ
ˆ
rB (t, x, y) = rB (b, x, z) p (t − b, z, y) dz + pB (b, x, z) rB (t − b, z, y) dz.
87
Wegen Lemma 7.3.2 ist pB nicht negativ, also p (t − b, z, y) ≥ r (t − b, z, y). Damit lässt sich
obiger Ausdruck nach unten abschätzen durch
ˆ
[rB (b, x, z) + pB (b, x, z)] rB (t − b, z, y) dz,
wir erhalten also insgesamt
rB (t, x, y) ≥
ˆ
p (b, x, z) rB (t − b, z, y) dz,
´
was genau (8.6) ist. Nun zeigen wir, dass p (b, x, z) rB (t − b, z, y) dz für abnehmendes b
monoton wächst. Sei dazu b′ < b. Dann haben wir mit der Halbgruppeneigenschaft von p
und Einfügen von b′
ˆ
¨
p (b, x, z) rB (t − b, z, y) dz =
p b′ , x, w p b − b′ , w, z rB t − b′ − b − b′ , z, y dzdw.
Mit (8.6) gilt nun, dass
ˆ
p b − b′ , w, z rB
t − b′ − b − b′ , z, y dz ≤ rB t − b′ , w, y
ist und damit insgesamt
ˆ
ˆ
p (b, x, z) rB (t − b, z, y) dz ≤ p b′ , x, z rB t − b′ , z, y dz
´
wie behauptet.
Sei nun x ein regulärer Punkt in B C . Es ist p (b, x, z) dz = 1 und für fixes
´
δ > 0 gilt |z−x|>δ p (b, x, z) dz → 0 für b → 0. Damit ist dies eine Dirac-Folge. Da weiters
rB (t, x, y) unterhalbstetig ist, gilt mit dem Lemma von Fatou
ˆ
lim inf p (b, x, z) r (t − b, z, y) dz ≥ r (t, z, y) .
b→0
Zusammen mit (8.6) folgt daraus (8.5) für ein solches x. Für ein nicht-reguläres x ∈ B C lässt
sich diese Abschätzung ebenfalls zeigen, siehe dazu etwa [3, S. 125].
Damit können wir nun Satz 7.3.5 zeigen:
Beweis zu Satz 7.3.5. Da p (t, x, y) = p (t, y, x) für alle x, y ∈ Rd und pB (t, x, y) = pB (t, y, x)
für fast alle x, y folgt, dass
¨
p (a, x, u) pB (t − a − b, u, v) p (b, v, y) dudv
¨
=
p (b, y, v) pB (t − a − b, v, u) p (a, u, x) dudv
Mit a, b → 0 können wir Lemma 8.1.3 anwenden und erhalten damit pB (t, x, y) = pB (t, y, x)
für alle Paare (x, y) wie behauptet.
88
Literaturverzeichnis
[1]
Achlioptas, D.: Database-friendly random projections: Johnson-Lindenstrauss with
binary coins. In: Journal of Computer and System Sciences 66 (2003), Nr. 4, S. 671–687
[2]
Alspach, D. ; Odell, E.: Lp spaces. In: Handbook of the geometry of Banach spaces,
Vol. I. Amsterdam : North-Holland, 2001, S. 123–159
[3]
Bass, R. F.: Probabilistic techniques in analysis. New York : Springer-Verlag, 1995
[4]
Bourgain, J. ; Lindenstrauss, J. ; Milman, V.: Approximation of zonoids by zonotopes. In: Acta Math. 162 (1989), Nr. 1-2, S. 73–141
[5]
Bourgain, J. ; Tzafriri, L.: Invertibility of “large” submatrices with applications to
the geometry of Banach spaces and harmonic analysis. In: Israel J. Math. 57 (1987),
Nr. 2, S. 137–224
[6]
Bourgain, J. ; Tzafriri, L.: On a problem of Kadison and Singer. In: J. Reine Angew.
Math. 420 (1991), S. 1–43
[7]
Casazza, P.G. ; Vershynin, R.: Kadison-Singer meets Bourgain-Tzafriri. Preprint.
(2003)
[8]
Chung, F. R. K.: CBMS Regional Conference Series in Mathematics. Bd. 92: Spectral graph theory. Published for the Conference Board of the Mathematical Sciences,
Washington, 1997
[9]
Cormen, T. H. ; Leiserson, C. E. ; Rivest, R. L. ; Stein, C.: Introduction to
algorithms. 3. Auflage. Cambridge : MIT Press, 2009
[10] Dasgupta, S. ; Gupta, A.: An elementary proof of a theorem of Johnson and Lindenstrauss. In: Random Structures Algorithms 22 (2003), Nr. 1, S. 60–65
[11] Davies, E. B.: Cambridge Tracts in Mathematics. Bd. 92: Heat kernels and spectral
theory. Cambridge : Cambridge University Press, 1990
[12] Feller, W.: An introduction to probability theory and its applications. New York :
John Wiley & Sons Inc., 1971
[13] Frankl, P. ; Maehara, H.: The Johnson-Lindenstrauss lemma and the sphericity
of some graphs. In: Journal of Combinatorial Theory. Series B 44 (1988), Nr. 3, S.
355–362
89
[14] Golub, G. H. ; Van Loan, C. F.: Matrix computations. 3. Auflage. Baltimore : Johns
Hopkins University Press, 1996
[15] Indyk, P. ; Motwani, R.: Approximate nearest neighbors: towards removing the curse
of dimensionality. In: STOC ’98 (Dallas). New York : ACM, 1999, S. 604–613
[16] Johnson, W. B. ; Lindenstrauss, J.: Extensions of Lipschitz mappings into a Hilbert
space. In: Conference in modern analysis and probability (New Haven, 1982) Bd. 26.
Providence : Amer. Math. Soc., 1984, S. 189–206
[17] Jones, P. W. ; Maggioni, M. ; Schul, R.: Universal local parametrizations via heat
kernels and eigenfunctions of the Laplacian. In: Ann. Acad. Sci. Fenn. Math. 35 (2010),
Nr. 1, S. 131–174
[18] Knuth, D. E.: The art of computer programming. Upper Saddle River : Addison-Wesley,
2005
[19] Lang, S.: Graduate Texts in Mathematics. Bd. 142: Real and functional analysis. 3.
Auflage. New York : Springer-Verlag, 1993
[20] Naor, A.: Sparse quadratic forms and their geometric applications (after Batson, Spielman and Srivastava). Erschienen als Séminaire Bourbaki Exposé no. 1033, 2010
[21] Port, S. C. ; Stone, C. J.: Brownian motion and classical potential theory. New
York : Academic Press [Harcourt Brace Jovanovich Publishers], 1978. – Probability and
Mathematical Statistics
[22] Rauhut, H.: Compressive sensing and structured random matrices. In: Theoretical
foundations and numerical methods for sparse recovery Bd. 9. Walter de Gruyter,
Berlin, 2010, S. 1–92
[23] Rudelson, M. ; Vershynin, R.: Sampling from large matrices: an approach through
geometric functional analysis. In: J. ACM 54 (2007), Nr. 4, S. Art. 21, 19 ff.
[24] Schechtman, G.: Fine embeddings of finite-dimensional subspaces of Lp , 1 ≤ p < 2
into finite-dimensional normed spaces. II. In: Texas functional analysis seminar 1984–
1985. Austin : Univ. Texas Press, 1985 (Longhorn Notes), S. 83–94
[25] Schechtman, G.: More on embedding subspaces of Lp in lrn . In: Compositio Math. 61
(1987), Nr. 2, S. 159–169
[26] Schechtman, G.: Tight embedding of subspaces of Lp in ℓnp for even p. In: Proc. Amer.
Math. Soc. 139 (2011), Nr. 12, S. 4419–4421
[27] Simon, B.: Functional integration and quantum physics. 2. Auflage. AMS Chelsea
Publishing, Providence, RI, 2005
[28] Spielman, D. A.: Algorithms, Graph Theory, and Linear Equations in Laplacian Matrices. In: Proceedings of the International Congress of Mathematicians, 2010
[29] Spielman, D. A. ; Srivastava, N.: Graph sparsification by effective resistances. In:
STOC’08. New York : ACM, 2008, S. 563–568
90
[30] Spielman, D. A. ; Srivastava, N.: An Elementary Proof of the Restricted Invertibility
Theorem. Preprint. arxiv.org/abs/0911.1114. (2010)
[31] Spielman, D. A. ; Teng, S.-H.: Nearly-linear time algorithms for graph partitioning,
graph sparsification, and solving linear systems. In: Proceedings of the 36th Annual
ACM Symposium on Theory of Computing. New York : ACM, 2004, S. 81–90
[32] Spielman, D. A. ; Teng, S.-H.: A Local Clustering Algorithm for Massive Graphs and
its Application to Nearly-Linear Time Graph Partitioning. Preprint. arxiv.org/abs/
0809.3232. (2008)
[33] Spielman, D. A. ; Teng, S.-H.: Spectral Sparsification of Graphs. Preprint. arxiv.
org/abs/0808.4134. (2008)
[34] Srivastava, N.: Spectral sparsification and restricted invertibility. Yale University, New
Haven, Diss., 2010
[35] Talagrand, M.: Embedding subspaces of L1 into l1N . In: Proc. Amer. Math. Soc. 108
(1990), Nr. 2, S. 363–369
[36] Talagrand, M.: Embedding subspaces of Lp in lpN . In: Geometric aspects of functional
analysis (Israel, 1992–1994) Bd. 77. Basel : Birkhäuser, 1995, S. 311–325
[37] Vershynin, R.: John’s decompositions: selecting a large part. In: Israel J. Math. 122
(2001), S. 253–277
[38] Zhang, F.: Matrix theory. Basic results and techniques. New York : Springer-Verlag,
1999
[39] Zvavitch, A.: More on embedding subspaces of Lp into lpN , 0 < p < 1. In: Geometric
aspects of functional analysis Bd. 1745. Berlin : Springer, 2000, S. 269–280
91

Spektrale Graphentheorie Graph Sparsification und

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können