Spektrale Graphentheorie Graph Sparsification und

Werbung
JOHANNES KEPLER
UNIVERSITÄT
LINZ
Technisch-Naturwissenschaftliche
Fakultät
Spektrale Graphentheorie
Graph Sparsification und Eigenwertabschätzungen
MASTERARBEIT
zur Erlangung des akademischen Grades
Diplomingenieurin
im Masterstudium
Mathematik in den Naturwissenschaften
Eingereicht von:
Claudia Jabornegg
Angefertigt am:
Institut für Analysis
Beurteilung:
a. Univ. Prof. Dipl. Ing. Dr. Paul F. X. Müller
Linz, Jänner 2012
JKU
Eidesstattliche Erklärung
Ich erkläre an Eides statt, dass ich die vorliegende Masterarbeit selbstständig und ohne
fremde Hilfe verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt bzw.
die wörtlich oder sinngemäß entnommenen Stellen als solche kenntlich gemacht habe.
c
d
Vorwort
Diese Arbeit besteht aus zwei großen Teilbereichen. Der erste Teil beschäftigt sich mit Graphentheorie und fundamentalen Aussagen der linearen Algebra. In Kapitel 2 untersuchen
wir das bekannte Restricted Invertibility Theorem von Bourgain und Tzafriri aus [5]:
Satz (Restricted Invertibility). Es gibt Konstanten c, K > 0, sodass für jeden linearen Opecn
rator L : l2n −→ l2n mit kLei k2 = 1, 1 ≤ i ≤ n eine Teilmenge σ ⊂ {1, . . . , n} mit |σ| = kLk
2
2
existiert, sodass
2
X
X
≥K
a2j .
a
Le
j
j
j∈σ
j∈σ
2
Es liefert eine Aussage darüber, unter welchen Bedingungen Matrizen große“ Untermatrizen
”
besitzen, die sich gut invertieren lassen. Die Güte der Invertierbarkeit wird dabei über die
Operatornorm der Inversen gemessen. Der Satz wurde von Srivastava in [34] verallgemeinert
und der ursprüngliche Beweis dahingehend vereinfacht, dass er mit Mitteln der linearen Algebra Auslangen findet. In Kapitel 3 und Kapitel 4 beschäftigen wir uns mit Graphen und
Graph Sparsification. Ziel dabei ist es, einen Graphen G durch einen ausgedünnten Graphen H möglichst gut zu approximieren, sodass er viele Eigenschaften von G erhält, gleichzeitig aber aus möglichst wenig Kanten besteht. Eine der wichtigsten Informationsquellen über
einen Graphen ist das Spektrum seiner Laplace-Matrix. Somit ist es ein natürlicher Ansatz,
bei der Konstruktion von H darauf zu achten, dass sich die Eigenwerte der Laplace-Matrix
so wenig wie möglich verändern. Unser eigentliches Problem ist also in der linearen Algebra
angesiedelt: Wir wollen die Laplace-Matrix von G durch eine Matrix von geringem Rang
möglichst gut annähern. Das Hauptresultat dazu ist das Spectral Sparsification Theorem
von Srivastava aus [34]:
P
n
T
Satz (Spectral Sparsification). Sei 0 < ǫ < 1, m ∈ N und A := m
i=1 wi wi mit wi ∈ R .
n
Dann gibt es nicht-negative Gewichte {si }i≤m von denen höchstens ǫ2 ungleich Null sind
und es gilt
(1 − ǫ)2 A ≤
m
X
i=1
si wi wiT ≤ (1 + ǫ)2 A.
Im Anschluss daran betrachten wir noch eine weitere Möglichkeit, Sparsifier für Graphen
zu erzeugen. Die Hauptidee dabei ist, einen gegebenen Graphen G mit einem elektrischen
Netzwerk zu identifizieren und durch einen Teilgraph H zu approximieren, indem jede
e
Kante von G mit einer Wahrscheinlichkeit proportional zu ihrem Wirkwiderstand (effective resistance) zu H hinzugefügt wird. Eine wesentliche Rolle spielt dabei das JohnsonLindenstrauss-Lemma, mit dem wir uns in Kapitel 6 genauer auseinandersetzen werden.
In Kapitel 7 widmen wir uns dem zweiten großen Themenbereich der Arbeit, dem Satz
von Weyl. Dieser macht eine Aussage über das asymptotische Verhalten der Eigenwerte
des Wärmeleitungsproblems. Unser Zugang dazu ist stochastischer Natur, da die Fundamentallösungen der Wärmeleitungsgleichung gleichzeitig die Dichten der Übergangswahrscheinlichkeiten einer Brown’schen Bewegung sind. Basis dafür sind die Bücher [3] und [21] von
Bass und Port & Stone. Den Abschluss bildet in Abschnitt 7.5 das Thema Heat Triangulation, mit dem sich Jones, Maggioni und Schul in [17] auseinandersetzen. Die Kernidee dabei
ist das Auffinden von lokalen Parametrisierung durch Diffusionskerne und Eigenfunktionen
des Laplace-Operators.
Danksagung
Ich möchte mich ganz herzlich bei Herrn Prof. Paul Müller für seine zahlreichen Ratschläge
und hilfreichen Gespräche während der Erstellung dieser Diplomarbeit bedanken. Besonderer Dank gebührt auch meiner Familie, insbesondere meinen Eltern Gabriele und Peter
Jabornegg für ihre vielfältige Unterstützung während meiner gesamten Studienzeit.
f
Inhaltsverzeichnis
1 Grundlagen
1.1 Lineare Algebra . . . . . . . . . . . .
1.1.1 Notation und Grundbegriffe .
1.1.2 Positiv Semidefinite Matrizen
1.1.3 Spektralzerlegung . . . . . .
1.1.4 Die Spur einer Matrix . . . .
1.1.5 Das Hadamard-Produkt . . .
1.1.6 Min-Max-Theorem . . . . . .
1.1.7 Sherman-Morisson Formel . .
1.1.8 Die Pseudinverse . . . . . . .
1.2 Resolventengleichung . . . . . . . . .
1.3 Komplexität von Algorithmen . . . .
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
3
3
4
4
5
6
6
7
2 Restricted Invertibility
2.1 Restricted Invertibility Theorem . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Beweis des Restricted Invertibility Theorems . . . . . . . . . . . . . . . . . .
9
9
9
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Graphen
3.1 Vorbemerkung . . . . . . . . . . . . . . . . . . .
3.2 Begriffe, Definitionen und Laplace-Matrix . . . .
3.3 Eigenwerte und Eigenvektoren . . . . . . . . . .
3.4 Grundlegende Eigenschaften des Spektrums eines
3.5 Random Walks auf Graphen . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
. . . . . .
Graphen .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
23
25
31
4 Spectral Sparsification
4.1 Graph Sparsification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Spectral Sparsification Theorem . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Dimensionsreduktion in Lp -Räumen . . . . . . . . . . . . . . . . . . . . . . .
37
37
38
45
5 Graph Sparsification by Effective Resistances
5.1 Vorbemerkungen . . . . . . . . . . . . . . . . .
5.2 Graphen und elektrische Netzwerke . . . . . . .
5.3 Algorithmus . . . . . . . . . . . . . . . . . . . .
5.3.1 Formulierung . . . . . . . . . . . . . . .
5.3.2 Beweis zu Satz 5.3.2 . . . . . . . . . . .
5.4 Berechnung näherungsweiser Widerstände . . .
49
49
49
51
51
51
56
g
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Das
6.1
6.2
6.3
Johnson-Lindenstrauss Lemma
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Beweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
59
59
65
7 Der
7.1
7.2
7.3
7.4
7.5
Satz von Weyl
Vorbemerkungen . . . . . . . . . . . . .
Brown’sche Bewegung . . . . . . . . . .
Gestoppte Brown’sche Bewegung . . . .
Der Satz von Weyl . . . . . . . . . . . .
Heat Triangulation . . . . . . . . . . . .
7.5.1 Das Heat Triangulation Theorem
7.5.2 Beweis . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
67
67
68
69
72
78
78
81
8 Appendix
8.1 Beweis zu Satz 7.3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
85
h
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 1
Grundlagen
Zu Beginn wollen wir einige grundlegende Begriffe und Resultate aus den Bereichen der
linearen Algebra, Komplexitätstheorie und Funktionalanalysis zusammenfassen, die als Ausgangsbasis für die nachfolgenden Kapitel dienen.
1.1
Lineare Algebra
Ein Großteil dieser Arbeit und der angeführten Beweise benötigt als Basis lediglich elementare Resultate aus der linearen Algebra. Hauptaugenmerk liegt dabei auf symmetrischen,
positiv semidefiniten Matrizen. Zunächst werden wir einige Schreibweisen einführen und bekannte, grundlegende Definitionen und Eigenschaften von Matrizen zusammenfassen. Die
Inhalte dieses Kapitels können in jedem Standardwerk über lineare Algebra gefunden werden, als Beisipiel sei auf [14] verwiesen. Das Material aus Abschnitt 1.1.4 stammt aus [38].
1.1.1
Notation und Grundbegriffe
Für einen Vektor v ∈ Rn bezeichnet v(i) bzw. vi die i-te Komponente von v. Analog ist A(i, j)
bzw. Aij der Eintrag in der i-ten Zeile und der j-ten Spalte einer m × n Matrix A. Mit 0 und
1 bezeichnen wir jene Vektoren, die in jeder Komponente den Eintrag 0 bzw. 1 besitzen, der
Koordinatenvektor χi besitzt nur in der i-ten Koordinate den Eintrag 1. Mit I bezeichnen
wir die Einheitsmatrix. Die Transponierte von A ist die n × m Matrix AT (i, j) = A(j, i). Das
Matrixprodukt von zwei Matrizen A und B mit den Dimensionen m × n und n × l ist die
m × l Matrix
n
X
Aik Bkj .
(AB)ij =
k=1
Sind v und w Vektoren im Rn , so ist das euklidische Skalarprodukt definiert als
hv, wi = v T w =
und die euklidische Norm
kvk =
√
n
X
v(i)w(i)
i=1
v T v.
Unter anderem gilt die Cauchy-Schwarz’sche Ungleichung
hv, wi2 ≤ kvkkwk.
1
Das äußere Produkt vwT von v und w ist eine n × n Matrix mit den Einträgen vwT (i, j) =
v(i)w(j).
Falls nicht anders angegeben, beziehen wir uns im Folgenden immer auf Spaltenvektoren und
quadratische n × n-Matrizen mit reellen Einträgen.
Eine reelle oder komplexe Zahl λ heißt Eigenwert von A, falls ein Vektor v existiert, für den
Av = λv
gilt. Der Vektor v ist der dazugehörige Eigenvektor. Ist A symmetrisch, so besitzt A genau n
Eigenwerte λ1 ≤ . . . ≤ λn , deren zugehörige Eigenvektoren so gewählt werden können, dass
sie Einheitslänge besitzen und paarweise orthogonal aufeinander stehen, also eine Orthonormalbasis des Rn bilden. Der Rang von A ist die Anzahl der linear unabhängigen Spalten von
A und entspricht der Anzahl der Eigenwerte, die ungleich null sind.
Die Spektral- oder Operatornorm einer Matrix A ist
kAk2 =
sup
Ax.
{x:kxk=1}
Für symmetrische Matrizen entspricht dies dem betragsmäßig größten Eigenwert. Weiters
benötigen wir die Frobenius-Norm von A definiert als
v
uX
u n
kAkF = t
A2ij .
i,j=1
Verwenden wir keinen Index, so beziehen wir uns immer auf die Operatornorm.
1.1.2
Positiv Semidefinite Matrizen
Da wir uns hauptsächlich mit positiv semidefiniten Matrizen auseinandersetzen werden, wollen wir uns einige Eigenschaften solcher Matrizen genauer ansehen. Eine Matrix A heißt positiv semidefinit, falls für alle x ∈ Rn \ {0} gilt xT Ax ≥ 0 und positiv definit, falls xT Ax > 0
gilt. Sinngemäß lassen sich negative (semi)definite Matrizen definieren. Weiters schreiben wir
für zwei Matrizen A und B
A ≥ B,
falls für alle x ∈ Rn gilt xT Ax ≥ xT Bx, also A − B positiv semidefinit ist. Analog definieren
wir A > B. Im folgenden Lemma sind einige Resultate für positiv semidefinite Matrizen
zusammengefasst.
Lemma 1.1.1.
1. Für jede reelle Matrix A ist AT A positiv semidefinit.
2. Eine positiv semidefinite Matrix A besitzt nur nicht-negative Eigenwerte. Ist A symmetrisch, so gilt auch die Umkehrung.
3. Sind A und B positiv semidefinite Matrizen, so besitzt AB nur nicht-negative Eigenwerte. Gilt zusätzlich AB = BA, so ist AB ebenfalls positiv semidefinit.
2
1.1.3
Spektralzerlegung
An dieser Stelle formulieren wir den Matrix-Spezialfall des Spektralsatzes für kompakte,
selbstadjungierte Operatoren. Die allgemeinere Version findet sich in Kapitel 7.
Satz 1.1.2. Ist A eine reelle, symmetrische n×n Matrix, so lässt sich A mit Hilfe der zu den
Eigenwerten λ1 , . . . , λn gehörigen, orthonormalen Eigenvektoren v1 , . . . , vn darstellen über
A=
n
X
λi vi viT .
i=1
1.1.4
Die Spur einer Matrix
In vielen Beweisen werden wir mit der Spur einer Matrix arbeiten und einige Spuridentitäten
verwenden, die wir an dieser Stelle formulieren wollen. Die Spur einer Matrix A ist die Summe
ihrer Diagonaleinträge und wird mit Tr (A) bezeichnet:
Tr (A) =
n
X
A (i, i)
i=1
Für die Spur gelten nun folgende einfach überprüfbare Resultate:
Proposition 1.1.3.
1. Seien A und B zwei Matrizen von Dimension k × n bzw. n × k. Dann gilt
Tr (AB) = Tr (BA).
2. Seien A und R Matrizen der Dimension n × n und R invertierbar. Weiters seien
λ1 , ..., λn die Eigenwerte von A. Dann gilt
Tr R−1 AR = Tr (A).
Insbesondere folgt daraus, dass
Tr (A) =
n
X
λi .
i=1
Weiters benötigen wir folgende Ungleichungskette. Da sie nicht unmittelbar offensichtlich ist,
geben wir auch einen Beweis dazu an.
Lemma 1.1.4. Seien A und B positiv semidefinite Matrizen von gleicher Dimension. Dann
gilt
Tr (AB) ≤ kAk2 Tr (B) ≤ kAkF Tr (B) ≤ Tr (A)Tr (B)
(1.1)
Beweis. Da A positiv semidefinit ist, lässt sich A darstellen als A = RT DR, wobei R orthogonal ist und D eine Diagonalmatrix mit den nicht-negativen Eigenwerten λi von A. Damit
ist mit Proposition 1.1.3, Punkt 1
Tr (AB) = Tr RT DRB = Tr DRBRT .
3
Da B positiv semidefinit ist, sind alle Diagonaleinträge von B ≥ 0. Wäre nämlich o.B.d.A.
b11 < 0, so wäre χT1 Bχ1 = b11 < 0, also B nicht mehr positiv semidefinit. Da R orthogonal
ist, ist auch RBRT positiv semidefinit und damit kein Diagonaleintrag negativ. Da auch A
positiv semidefinit ist, folgt mit Punkt 2 von Proposition 1.1.3
X
X
(1.2)
RBRT ii
Tr (AB) =
λi RBRT ii ≤ sup {λi }
i
= sup {λi } Tr RBR
i
T
i
i
= kAk2 Tr (B).
(1.3)
Damit ist die erste Ungleichung gezeigt. Die übrigen Abschätzungen folgen aus der Tatsache,
dass
!1/2
X
kAk2 = sup {λi } ≤
λ2i
= kAkF
i
i
ist und sich dies wiederum durch
X
λi = Tr (A)
i
nach oben abschätzen lässt.
1.1.5
Das Hadamard-Produkt
Neben dem Standard-Matrixprodukt können wir auch eine komponentenweise Matrixmultiplikation definieren:
Definition 1.1.5. Seien A und B zwei n×n Matrizen. Wir definieren das Hadamard-Produkt
von A und B über
A◦B :=
n
X
Aij Bij .
i,j=1
Für das Hadamard-Produkt gelten nun folgende Beziehungen:
Proposition 1.1.6. Für zwei n × n Matrizen A, B und ein v ∈ Rn gilt:
1. v T Av = A◦ vv T
2. A◦B = Tr AT B
1.1.6
Min-Max-Theorem
Das Min-Max Theorem oder den Satz von Courant-Fischer verwenden wir häufig zur Berechnung von Eigenwerten und Eigenvektoren. Außerdem ergibt sich als Folgerung das Cauchy
Interlacing Theorem über die Verflechtung von Eigenwerten einer Matrix und ihren Projektionen auf einen Unterraum.
Definition 1.1.7. Sei M eine (n × n)-Matrix über R und x ∈ Rn . Der Rayleigh-Quotient
RM (x) ist definiert als
xT M x
(1.4)
RM (x) := T .
x x
4
Satz 1.1.8 (Courant-Fischer). Sei M eine symmetrische (n × n)-Matrix über R. Seien weiters λ1 ≤ λ2 ≤ ... ≤ λn ihre Eigenwerte und x1 , x2 , ..., xn die dazugehörigen Eigenvektoren.
Sk bezeichne einen beliebigen k-dimensionalen Unterraum von Rn . Dann gilt
λk = min max RM (x) =
Sk x∈Sk
min
x6=0
j =0
∀j∈{1,...,k−1}
xT x
RM (x).
Der maximierende bzw. minimierende Vektor ist der jeweils zugehörige Eigenvektor.
Mit Hilfe des Min-Max-Theorems lässt sich eine Aussage über das Verhalten der Eigenwerte
treffen, wenn wir eine Matrix A auf einen Unterraum projizieren.
Satz 1.1.9 (Cauchy Interlacing Theorem). Sei A eine symmetrische n × n Matrix, P eine
orthogonale Projektion auf einen m-dimensionalen Unterraum und B = P AP . Sind λ1 ≤
· · · ≤ λn und µ1 ≤ · · · ≤ µn die Eigenwerte von A und B, so gilt für alle j ≤ m
λj ≤ µj ≤ λn−m+j
Daraus ergibt sich speziell für Rang-1-Störungen folgendes Resultat:
Korollar 1.1.10. Sei v ∈ Rn , λ1 , · · · , λn die Eigenwerte der n × n Matrix A und µ1 , · · · , µn
jene der Matrix A + vv T . Dann gilt
λ1 ≤ µ1 ≤ λ2 ≤ · · · ≤ µn−1 ≤ λn ≤ µn
Beweis. Sei Pv die Projektion auf span (v)⊥ . Dann ist Pv v = 0 und damit
Pv APv = Pv A + vv T Pv .
Seien π1 , ..., πn−1 die Eigenwerte von Pv APv . Aus Satz 1.1.9 folgt dann
λ1 ≤ π1 ≤ λ2 ≤ · · · ≤ πn−1 ≤ λn
µ1 ≤ π1 ≤ µ2 ≤ · · · ≤ πn−1 ≤ µn .
Mit dem Min-Max-Theorem gilt weiters λk ≤ µk , woraus insgesamt die Behauptung folgt.
1.1.7
Sherman-Morisson Formel
Zur Berechnung der Inversen einer Rang-k-Störung einer Matrix existiert die ShermanMorrison-Woodbury Formel :
Proposition 1.1.11. Sei A eine reguläre n × n Matrix und U, V Matrizen der Dimension
n × k. Ist
I − V T A−1 U
invertierbar, so gilt
A − UV T
−1
= A−1 + A−1 U I − V T A−1 U
−1
V T A−1 .
−1
Als Spezialfall ergibt sich daraus für eine Rang-1-Störung A − uv T
mit u, v ∈ Rn die
Sherman-Morrison Formel
−1
uv T
A−1 .
A − uv T
= A−1 + A−1
1 − v T A−1 u
5
Beweis. Wir zeigen, dass
A − UV T
h −1
−1 T −1 i
A + A−1 U I − V T A−1 U
V A
=I
gilt. Für den ersten Ausdruck erhalten wir
h
−1 T −1 i
A − U V T A−1 + A−1 U I − V T A−1 U
V A
= I + U V T A−1 + (U − U V T A−1 U )(I − V T A−1 U )−1 V T A−1
= I + U V T A−1 + U (I − V T A−1 U )(I − V T A−1 U )−1 V T A−1
= I + U V T A−1 − U V T A−1 = I.
h
−1 T −1 i
Analog sieht man, dass A−1 + A−1 U I − V T A−1 U
V A
A − U V T = I ist.
1.1.8
Die Pseudinverse
Ist A eine reelle oder komplexe n×m Matrix, so ist die Moore-Penrose-Inverse oder Pseudoinverse, bezeichnet mit A† , jene eindeutig bestimmte m × n Matrix, die folgende Eigenschaften
erfüllt:
1. AA† A = A
2. A† AA† = A†
3. AA† und A† A sind hermitesch.
Ist M eine symmetrische n × n-Matrix, λ1 , . . . λk ihre nicht verschwindenden Eigenwerte und
v1 , . . . vk die dazugehörigen Eigenvektoren, so erhalten wir aus der Spektraldekomposition,
dass die Pseudoinverse die Gestalt
A† =
k
X
1
vi v T
λi i
i=1
besitzt. A† ist verhält sich also auf im (A) = ker (A)⊥ = ker A†
zu A, da
k
X
vi viT ,
AA† = A† A =
⊥
= im A† wie die Inverse
i=1
was genau einer Projektion auf im (A) entspricht.
1.2
Resolventengleichung
Eine wichtige Identität, die wir an späteren Stellen benötigen werden, ist die Resolventengleichung für lineare Operatoren. Der Vollständigkeit halber formulieren wir sie für allgemeine,
lineare Operatoren auf einem Hilbertraum:
Satz 1.2.1 (Resolventengleichung). Sei T ein linearer Operator, der den Hilbertraum H
in sich selbst abbildet und seien z, w aus der Resolventenmenge von T . Dann gilt mit der
Resolvente von T definiert als RT (z) = (T − zI)−1 die Identität
RT (z) − RT (w) = (z − w) RT (z) RT (w) .
6
1.3
Komplexität von Algorithmen
Viele Beweise in dieser Arbeit sind konstruktiver Natur und können damit unmittelbar als
Berechnungsalgorithmen verwendet werden. Da Graphen gerade in der Informatik von großer
Bedeutung sind, ist beispielsweise die Verbesserung von Algorithmen im Bereich der Datenkompression oder Bildbearbeitung die Triebfeder für viele Resultate. In diesem Zusammenhang ist immer die Frage nach dem Aufwand“ eines Algorithmus von Bedeutung; in der
”
Regel ist damit die Rechenzeit, manchmal auch der Speicheraufwand gemeint. Für eine
grundlegende Einführung zu Algorithmen sei auf [18] oder [9] verwiesen, zum Verständnis
dieser Arbeit reicht folgender, asymptotischer Formalismus aus: Bezeichnet die Funktion
f : N → N, n 7→ f (n) den Aufwand bei einem Problem der Größe n, und g eine Vergleichsfunktion, so ist ein Algorithmus in der Komplexitätsklasse O (g(n)), falls ein k > 0 und ein
n0 existiert, sodass für alle n > n0 gilt |f (n)| ≤ |g(n) · k|. Dies bedeutet, dass für hinreichend
große Probleme der Aufwand nicht stärker wächst als g.
7
8
Kapitel 2
Restricted Invertibility
2.1
Restricted Invertibility Theorem
In diesem Kapitel beschäftigen wir uns mit einer Erweiterung des bekannten Restricted Invertibility Theorem von Bourgain und Tzafriri:
Satz 2.1.1 (Restricted Invertibility, [5]). Es gibt Konstanten c, K > 0, sodass für jeden
linearen Operator L : l2n −→ l2n mit kLei k2 = 1, 1 ≤ i ≤ n eine Teilmenge σ ⊂ {1, . . . , n} mit
cn
|σ| = kLk
2 existiert, sodass
2
2
X
X
≥K
a
Le
a2j .
j
j
j∈σ
j∈σ
2
Dieses Resultat und viele ihrer weiteren Arbeiten beschäftigten sich mit der Frage, unter
welchen Bedingungen Matrizen große“ Untermatrizen besitzen, die sich gut invertieren las”
sen. Die Güte der Invertierbarkeit wird dabei über die Operatornorm der Inversen gemessen. Desweiteren existiert eine stärkere, bis jetzt unbewiesene Formulierung von Satz 2.1.1.
In [7] wird gezeigt, dass diese äquivalent zur Paving Conjecture ist, einer Formulierung des
berühmten Kadison-Singer Problems (siehe dazu [5–7]). Bourgain und Tzafriris Beweis ist
ein reiner Existenzbeweis und bedient sich probabilistischer und funktionalanalytischer Hilfsmittel. Wir werden hier eine etwas allgemeinere Formulierung von Satz 2.1.1 aus [30] zeigen,
die in ähnlicher Form von Vershynin in [37] auf Satz 2.1.1 zurückgeführt wurde.
2.2
Beweis des Restricted Invertibility Theorems
Wir folgen im Wesentlichen dem Beweis von Spielman und Srivastava aus [30]. Deren Beweis
ist konstruktiv, benötigt nur lineare Algebra und liefert zusätzlich bessere Konstanten.
P
T
Satz 2.2.1 (Generalized Restricted Invertibility). Seien v1 , v2 , . . . , vm ∈ Rn , m
i=1 vi vi = I
n
n
und 0 < ǫ < 1. Weiters sei Lj : l2 −→k l2 ein linearer Operator. Dann existiert eine Teilmenge
σ ⊂ {1, . . . m} mit |σ| ≥
kLk2
ǫ2 kLkF2 , für die {Lvi }i∈σ linear unabhängig ist und für alle
2
9
{ai }i∈σ ∈ R gilt
2
X
(1 − ǫ)2 kLk2F X 2
a
Lv
≥
aj .
j
j
m
j∈σ
j∈σ
(2.1)
2
Aus diesem Satz können wir unmittelbar Satz 2.1.1 ableiten,
P indem wir vi = ei wählen, da
aus der Annahme kLei k2 = 1 für alle 1 ≤ i ≤ n folgt n = ni=1 kLei k22 = kLk2F .
Beweis. Wir wollen zunächst die Behauptung (2.1) umformulieren: Sei
A=
X
(Lvi ) (Lvi )T
i∈σ
und λmin (A) der kleinste Eigenwert von A, berechnet auf span {Lvi }i∈σ . Dann ist (2.1)
äquivalent dazu, dass
λmin (A) >
(1 − ǫ)2 kLk2F
.
m
Ist nämlich B jene |σ| × n Matrix, deren Zeilen aus den Vektoren {Lvi }i∈σ bestehen, so gilt
A = B T B. Die Eigenwerte von A entsprechen also jenen der Gram’schen Matrix
.
BB T = (Lvi )T (Lvj )
i,j∈σ
(1−ǫ)2 kLk2
F
Die Aussage, dass alle Eigenwerte von BB T größer als
sind, ist aber wiederum
m
äquivalent zu (2.1).
P
T
Wir bauen die Matrix A =
i∈σ (Lvi ) (Lvi ) , indem wir in jedem Schritt einen Vektor
zur Menge σ hinzufügen. Die Vorgehensweise dabei ist folgendermaßen: Die Matrix A wird
iterativ konstruiert und der Prozess mittels einer Potentialfunktion Φb (A) gesteuert. Die
Schranke b ist eine reelle Zahl, die in jedem Iterationsschritt variiert. Φb (A) ist definiert wie
folgt:
X
Φb (A) =
(Lvi )T (A − bI)−1 (Lvi )
i
=
X
i
Tr (Lvi )T (A − bI)−1 (Lvi )
Mit Proposition 1.1.3, Punkt 1 und der Linearität der Spur folgt
=
X
i
=
X
i
Tr (A − bI)−1 (Lvi ) (Lvi )T
Tr (A − bI)−1 Lvi viT LT
= Tr (A − bI)
−1
10
L
X
i
vi viT
L
T
!
und weiter, da laut Voraussetzung
P
T
i vi vi
=I
= Tr LT (A − bI)−1 L .
Zu Beginn setzen wir A = 0, b = b0 > 0. Das Potential ist dann
−1
1
Φb0 = Tr LT (0 − b0 I)−1 L = −Tr LT (b0 )−1 L = Tr LT L =
kLk2F .
b0
b0
In jedem Iterationsschritt wählen wir nun einen Vektor w ∈ {Lvi }i≤m und machen bei A
eine Rang-1-Korrektur auf A + wwT . Damit erweitern wir jedesmal die Menge σ um einen
Index. Wählen wir beispielsweise w = Lvj , so kommt der Index j zu σ hinzu. Auhßerdem
wollen wir b um ein konstantes δ Richtung null verschieben, jedoch ohne dabei das Potential
zu erhöhen, wir fordern also
Φb−δ A + wwT ≤ Φb (A) .
Weiters verlangen wir, dass A nach jedem Schritt genau k Eigenwerte ungleich 0 und größer
als b besitzt. Die folgenden beiden Lemmata sagen uns, welche Bedingungen wir an w und
Φ stellen müssen, um diese Iteration durchführen zu können.
Lemma 2.2.2. Sei A positiv semidefinit mit k Eigenwerten λ1 ≥ λ2 ≥ · · · > b′ > 0, wobei
b′ eine positive, reelle Zahl ist. Ist w 6= 0 und
−1
w T A − b′ I
w < −1,
(2.2)
so sind k + 1 Eigenwerte der Matrix A + wwT größer als b′ .
Lemma 2.2.3. Sei A wieder positiv semidefinit mit k Eigenwerten größer als ein konstantes
b > 0 und sei Q die orthogonale Projektion auf ker(A). Ist
kLk22
Φb (A) ≤ −m −
δ
(2.3)
und
0<δ<b≤δ
kQLk2F
kLk22
,
(2.4)
dann gibt es ein w ∈ {Lvi }i≤m für das die folgenden beiden Bedingungen erfüllt sind:
1. A + wwT besitzt k + 1 Eigenwerte ungleich 0 und größer als b′ := b − δ, und
2. Φb′ A + wwT ≤ Φb (A).
Die Lemmata werden an späterer Stelle bewiesen. Ausgehend davon zeigen wir nun induktiv,
dass mit den Voraussetzungen des Satzes in jedem Schritt die Bedingungen von Lemma 2.2.3
erfüllt sind: Zu Beginn setzen wir
b0 =
(1 − ǫ) kLk22
(1 − ǫ) kLk2F
, und δ =
.
m
ǫm
11
(2.5)
Dann gilt nach obiger Rechnung mit A = 0
Φb0 (0) = −
kLk2F
kLk22
m
ǫm
=−
= −m −
= −m −
,
b0
1−ǫ
1−ǫ
δ
(2.6)
womit Bedingung 1 von Lemma 2.2.3 erfüllt ist.
kLk2
Um die zweite Bedingung zu zeigen halten wir zunächst fest, dass für den Fall ǫ2 kLkF2 < 1
2
j
k
kLk2F
kLk2F
2
2
gilt, dass ǫ kLk2 = 0 und mit σ = ∅ der Satz trivialerweise wahr ist. Sei also ǫ kLk2 ≥ 1.
2
2
Da 0 < ǫ < 1, ist ǫ2 < ǫ und damit
kLk2F
kLk22
≥
1
1
≥ > 1.
2
ǫ
ǫ
(2.7)
Wir erhalten also
kLk2F · ǫ
b0
=
δ
kLk22
(2.8)
und damit b0 > δ. Weiters ist für A0 = 0 klarerweise Q0 = I und damit, da dann kQ0 LkF =
kLkF und ǫ < 1 gilt,
b0 ≤
kLk2F
kQ0 Lk2F
1−ǫ
kLk2F = δǫ
≤
δ
,
m
kLk22
kLk22
womit Bedingung 2 ebenfalls erfüllt ist. Nach t − 1 Iterationsschritten haben wir
δ < bt−1 = b0 − (t − 1)δ ⇐⇒ tδ < bt−1 .
Dies ist äquivalent dazu, dass
t<
ist, was mit der Wahl t ≤
kLk2F 2
ǫ
kLk22
kLk2F
b0
ǫ
=
δ
kLk22
der Fall ist. Wir zeigen nun, dass die Ungleichung
bt−1 ≤ (t − 1)δ
kQt−1 Lk2F
kLk22
(2.9)
ebenfalls erfüllt ist. Da im t−ten Schritt At = At−1 +wt wtT ist, gilt ker(At ) = ker(At )∩{wt }⊥ .
Weiters besitzt Qt für jedes t genau dim{ker(At )}-viele Eigenwerte, die gleich 1 sind, die
übrigen sind 0. Damit gilt für die Projektion Q
Tr (Qt−1 − Qt ) = dim{ker(At )} − dim{ker(At−1 )} ≤ 1.
Da Qt = Q2t und QTt = Qt ist, folgt weiters mit Qt = Qt−1 − (Qt−1 − Qt )
kQt Lk2F = Tr LT Qt L = kQt−1 Lk2F − Tr LT (Qt−1 − Qt ) L
12
(2.10)
und mit Lemma 1.1.4 und (2.10)
kQt Lk2F ≥ kQt−1 Lk2F − kLk22 Tr (Qt−1 − Qt ) ≥ kQt−1 Lk2F − kLk22 .
Damit sinkt
von Q in jedem Schritt um höchstens kLk22 , womit (2.9) erfüllt ist.
j die 2Norm
k
kLk
Nach t = ǫ2 kLkF2 Schritten ergibt sich also
2
b0 − tδ = b0 − (t − 1)δ − δ ≤ δ
≤δ
kQt Lk2F + kLk22
kLk22
kQt−1 Lk2F
kLk22
−δ =δ
−δ
kQt Lk2F
kLk22
.
Setzen wir unsere Wahl von b0 , δ, und t ein, so erhalten wir
b0 − δt ≥
(1 − ǫ) kLk2F
kLk2F
(1 − ǫ)2
− ǫ2 (1 − ǫ)
=
kLk2F ,
m
ǫm
m
wie behauptet.
Beweis von Lemma 2.2.2. Zunächst halten wir fest, dass A + wwT eine Rang-1-Korrektur
der Matrix A ist. Seien λ′1 ≥ · · · λk+1 die größten k + 1 Eigenwerte von A + wwT . Mit
Korollar 1.1.10 folgt daher, dass
λ′1 ≥ λ1 ≥ λ′2 ≥ · · · ≥ λk ≥ λ′k+1 .
(2.11)
Es ist
X
Tr (A − b′ I)−1 =
i≤k
X 1
1
+
′
λi − b
0 − b′
i>k
und damit
Tr (A + wwT b′ I)−1 − (A − b′ I)−1 =
1
λ′k+1 − b′
k
X
+
i=1
+
1
0 − b′
k
X 1
1
−
.
′
′
λi − b
λ i − b′
(2.12)
i=1
Nach der Sherman-Morisson-Formel aus Lemma 1.1.11 mit der Setzung u = w, v = −w gilt
andererseits
!
(A − b′ I)−1 wwT (A − b′ I)−1
T
′ −1
′ −1
− A−bI
.
Tr A + ww − b I
= −Tr
1 + wT (A − b′ I) w
Nach Proposition 1.1.3 lässt sich der letzte Ausdruck schreiben als
!
wT (A − b′ I)−2 w
wT (A − b′ I)−2 w
=
−
.
Tr −
1 + wT (A − b′ I) w
1 + wT (A − b′ I) w
13
(2.13)
Laut Annahme ist wT (A − b′ I) w < −1. Weiters ist aufgrund der Voraussetzungen an die Eigenwerte die Matrix (A − b′ I)−2 positiv definit und damit wT (A − b′ I)−2 w > 0, der gesamte
Ausdruck in (2.13) also positiv. Mit (2.12) und (2.11) erhalten wir also insgesamt
0 < Tr
=
A + wwT − b′ I
1
λ′k+1 − b′
+
1
X
i>k
1
≤ ′
− ′.
′
λk+1 − b
b
Damit muss
1
λ′k+1 −b′
≥
1
b′
−1
− A − b′ I
k
−1 k
X 1
X 1
1
+
−
0 − b′
λ′i − b′
λ i − b′
i=1
i=1
gelten. Da aber sowohl A als auch A + wwT positiv semidefinit
sind, ist dies nur möglich, falls wie behauptet λ′k+1 > b′ ist.
Beweis von Lemma 2.2.3. Wir behandeln zunächst den Ausdruck Φb′ A + wwT . Es gilt
wieder mit Lemma 1.1.11
−1 Φb′ A + wwT = Tr LT A − b′ I + wwT
L
Tr LT (A − b′ I)−1 wwT (A − b′ I)−1 L
= Φb′ (A) −
1 + wT (A − b′ I)−1 w
Tr wT (A − b′ I)−1 LLT (A − b′ I)−1 w
= Φb′ (A) −
1 + wT (A − b′ I)−1 w
= Φb′ (A) −
wT (A − b′ I)−1 LLT (A − b′ I)−1 w
.
1 + wT (A − b′ I)−1 w
Um die Bedingung Φb′ A + wwT ≤ Φb (A) zu erfüllen, müssen wir also w so wählen, dass
wT (A − b′ I)−1 LLT (A − b′ I)−1 w
≤ Φb (A)
Φ (A) −
1 + wT (A − b′ I)−1 w
b′
gilt. Um auch die Eigenwertbedingung aus Lemma 2.2.2 zu erfüllen, muss dieses w zusätzlich
(2.2) erfüllen. Dies ist genau dann der Fall, wenn w der Bedingung
w T A − b′ I
−1
LLT A − b′ I
−1
−1 w
w ≤ (Φb (A) − Φb′ (A)) −1 − wT A − b′ I
genügt. Wir können die Existenz zumindest eines solchen Vektors w zeigen, indem wir über
sämtliche w ∈ {Lvi }i≤m aufsummieren und sicherstellen, dass die Ungleichung in der Summe
erfüllt ist, also dass
X
−1
−1 LLT A − b′ I
wi
wiT A − b′ I
i≤m
≤ (Φb (A) − Φb′ (A))
X
i≤m
14
−1 − wiT A − b′ I
−1
wi
gilt. Diese Summe lässt sich mit Hilfe der Spur wie zu Beginn des Beweises schreiben als
−1
−1 Tr LT A − b′ I
LLT A − b′ I
L
(2.14)
−1 L .
≤ (Φb (A) − Φb′ (A)) −m − Tr LT A − b′ I
Sei ∆ := Φb (A) − Φb′ (A). Da laut Voraussetzung Φb (A) ≤ −m −
Φb′ (A) = Φb (A) − ∆ ≤ −m −
kLk22
δ
ist, gilt
kLk22
− ∆.
δ
Damit folgt (2.14), falls wir zeigen können, dass
−1
−1 Tr LT A − b′ I
LLT A − b′ I
L
!!
kLk22
≤ ∆ −m − −m −
−∆
=∆
δ
kLk22
+∆
δ
!
gilt. Die linke Seite lässt sich mittels Proposition 1.1.3 schreiben als
−1
−1 Tr LLT A − b′ I
LLT A − b′ I
und lässt sich mit Lemma 1.1.4 nach oben abschätzen durch
T
LL Tr A − b′ I −1 LLT A − b′ I −1 = kLk2 Tr LT A − b′ I −2 L .
2
2
(2.15)
Seien nun P und Q die orthogonalen Projektionen auf im(A) bzw. ker(A). Dann gilt offensichtlich P + Q = I, P 2 = P und n
Q2 = Q. Aus der Spektralzerlegung
o (Satz 1.1.2) folgt, dass
−1
−2
′
′
alle Matrizen der Familie MA := P, Q, A, (A − b I) , (A − b I)
simultan diagonalisierbar sind. Es gibt also eine orthogonale Matrix R und für alle C ∈ MA eine Diagonalmatrix
DC , sodass C = RT DC R ist. Für B, C ∈ MA gilt daher BC = CB, da
BC = RT DB RRT DC R = RT DB DC R = RT DC DB R = RT DC RRT DB R = CB
ist. Für jedes C ∈ MA gilt daher
C = (P + Q)C(P + Q) = P CP + P CQ + QCP + QCQ,
was mit Q = I − P und P CP = P 2 C = P C weiter gleich
P CP + P C − P CP + CP − P CP + QCQ = P CP + QCQ
ist. Wir definieren
−1
T
′ −1
ΦPb′ (A) := Tr LT P A − b′ I
P L und ΦQ
(A)
:=
Tr
L
Q
A
−
b
I
QL
.
′
b
P
Q
Damit ist dann Φb′ (A) = ΦPb′ (A)+ΦQ
b′ (A) und ∆ = ∆ +∆ . Wir betrachten nun die Matrix
−2
−1
T := LT P (A − bI) (A − b′ I) P L. Diese ist positiv semidefinit, da alle Eigenwerte von A
größer als b > b′ > 0 sind. Aus der Resolventengleichung (Satz 1.2.1) folgt, dass
−1
−1
= b − b′ (A − bI)−1 A − b′ I
(A − bI)−1 − A − b′ I
15
ist. Zusammen erhalten wir damit
"
#
!
−1
′ I)−1
′ I)−2
(A
−
bI)
(A
−
b
(A
−
b
0 ≤ Tr (T ) = Tr LT P
−
PL .
b − b′
b − b′
Mit neuerlicher Anwendung der Resolventengleichung auf den ersten Term ist dies weiter
gleich
#
!
(A − bI)−1 − (A − b′ I)−1 (A − b′ I)−2
PL .
Tr L P
−
b − b′
(b − b′ )2
"
T
Setzen wir b − b′ = δ, so ergibt sich daraus
1 −2
−1
Tr LT P A − b′ I
P L ≤ Tr LT P (A − bI)−1 P L − Tr LT P A − b′ I
PL
δ
und damit
−2
kLk22
.
kLk22 Tr LT P A − b′ I
P L ≤ ∆P
δ
Es ist nun
−2 −2
−2
Tr LT A − b′ I
L = Tr LT P A − b′ I
P L + Tr LT Q A − b′ I
QL .
Zusammen mit (2.15) erhalten wir aus obiger Abschätzung also (2.15), wenn wir zeigen
können, dass
!
kLk22
kLk22
2
T
′ −2
kLk2 Tr L Q A − b I
+ ∆ − ∆P
(2.16)
QL ≤ ∆
δ
δ
gilt. Letzerer Ausdruck lässt sich schreiben als
∆P ∆ + ∆Q
!
kLk22
+∆ .
δ
Da ∆ = ∆P + ∆Q und ∆P , ∆Q ≥ 0 ist, folgt (2.16) aus
kLk22 Tr
T
′
L Q A−bI
−2
QL ≤ ∆
Q
kLk22
+ ∆Q
δ
!
.
Aus Satz 1.1.2 erhalten wir
Q A − b′ I
Damit ist
−1
−2
1
1
Q = − ′ Q und Q A − b′ I
Q = ′ 2 Q.
b
b
−2
1
1
1
Tr LT Q A − b′ I
QL = ′ 2 Tr LT QL = ′ 2 Tr LT QQT L = ′ 2 kQLk2F
b
b
b
16
(2.17)
und
2
kQLk2F
kQLk2F
kQLk2F
′ kQLkF
+
= b−b
=δ
.
∆ =−
b
b′
bb′
bb′
Q
Setzen wir dies in (2.17) ein, so ergibt sich
kQLk2F
kQLk2F
kLk22
≤
δ
bb′
b′ 2
kQLk2F
kLk22
+δ
δ
bb′
was äquivalent ist zu
kLk22 ≤ δ
kQLk2F
,
b
wie in den Voraussetzungen des Lemmas gefordert.
17
!
18
Kapitel 3
Graphen
3.1
Vorbemerkung
Graphen sind einfache und zugleich höchst komplexe Gebilde, die in den meisten Bereichen
der Technik und der Naturwissenschaften eine Rolle spielen. In der Informatik lassen sich viele algorithmische Probleme auf Graphen zurückführen, beispielsweise im Bereich der Datenkompression oder in der Bildverarbeitung. Auch in der Physik und Chemie dienen Graphen
unter anderem zur Modellierung von elektrischen Netzwerken oder Molekülen. Klassische“
”
graphentheoretische Probleme reichen vom Königsberger Brückenproblem von Leonhard Euler, dem Problem des kürzesten Weges zwischen zwei Punkten in einem Straßennetz und dem
Problem des Handlungsreisenden, der die kürzeste Rundreise durch alle Ecken eines Graphen
finden muss, bis hin zum Färben von Landkarten und dem damit verbundenen Vier-FarbenSatz. Überraschenderweise können die meisten wichtigen Eigenschaften eines Graphen aus
dem Spektrum seiner zugehörigen Matrizen abgelesen werden. Diese Zusammenhänge werden in der spektralen Graphentheorie untersucht, mit deren Grundlagen wir uns in diesem
Kapitel beschäftigen. Dabei orientieren wir uns im Wesentlichen an [8].
Definition 3.1.1. Ein endlicher Graph G(V, E) besteht aus einer Menge an Knoten V =
{v1 , v2 , ...vn } und einer Menge an Kanten E = {e1 , ..., em } wobei E ∋ e = (u, v) mit u, v ∈ V .
Ein Graph heißt ungerichtet, falls wir für alle u, v ∈ V die Kanten e = (u, v) und f = (v, u)
miteinander identifizieren. Ein Graph ist schlingenfrei, falls für alle e = (u, v) ∈ E gilt, dass
u 6= v.
Desweiteren können wir die Kanten des Graphen mit unterschiedlichen Gewichten belegen:
Definition 3.1.2. Ein gewichteter Graph G(V, E, w) ist ein Graph G(V, E) mit einer Gewichtsfunktion w(u, v) : V × V → R+
0 , die für alle u, v ∈ V folgende Eigenschaften erfüllt:
1. w(u, v) = w(v, u)
2. w(u, v) = 0 ⇔ (u, v) ∈
/E
Manchmal bezeichnen wir das Gewicht der Kante e = (u, v) auch mit we oder wuv . Lassen
wir für w nur die Werte 0 und 1 zu, erhalten wir einen ungewichteten Graphen.
19
Abbildung 3.1: Ein Graph 1 .
3.2
Begriffe, Definitionen und Laplace-Matrix
Wir betrachten im Folgenden ausschließlich endliche Graphen und werden uns hauptsächlich
mit ungerichteten, schlingenfreien Graphen auseinandersetzen.
Definition 3.2.1. Sei G(V, E) ein Graph, u, v ∈ V und e ∈ E.
1. Der Grad von v ist definiert als
dv :=
X
we .
e∈E
e∋v
2. Der Knoten v heißt isoliert, wenn dv = 0.
3. Die Knoten u und v heißen adjazent, wenn es eine Kante e gibt mit e = (u, v) und wir
schreiben dafür u ∼ v.
4. Der Knoten v inzidiert mit e, falls v ∈ e.
5. G heißt nicht trivial, falls E 6= ∅.
6. G heißt k-regulär, falls G ungewichtet ist und für alle v ∈ V gilt dv = k.
P
7. Das Volumen von G ist definiert als vol(G) := v∈V dv .
8. G enthält einen uv-Pfad Puv , falls ein Puv ⊂ E existiert mit
Puv = {(xi , xi+1 )|i = 0, ..., k ∧ x0 = u, xk = v ∧ xi 6= xj für alle i 6= j}
1
Quelle: http://cs-www.cs.yale.edu/homes/spielman/sgta/SpecTut.pdf
20
9. G heißt zusammenhängend, falls V 6= ∅ und für alle u, v ∈ V ein uv-Pfad in E existiert.
10. Der Abstand zweier Knoten u und v ist definiert als
X
distG (u, v) := min
we ,
Puv
e∈Puv
falls das Minimum existiert. Ansonsten definieren wir distG (u, v) := ∞.
11. Der Durchmesser von G ist definiert als
diamG := max {distG (u, v)} .
u,v
12. G heißt bipartit, falls V1 und V2 ⊂ V existieren, sodass V1 ∩ V2 = ∅, V = V1 + V2 und
∀i ∄ a, b ∈ Vi : a ∼ b.
Definition 3.2.2. Die Adjazenzmatrix AG eines gewichteten Graphen G(V, E, w) ist definiert als
(
wuv falls u ∼ v
AG (u, v) =
0
sonst.
Mit DG bezeichnen wir die Grad-Matrix von G. Dies ist jene Diagonalmatrix, die als Eintrag
an der Stelle (u, u) den Grad des Knotens u bsitzt:
DG (u, u) = du =
X
AG (u, v)
v
Definition 3.2.3. Die Inzidenzmatrix CG eines gerichteten Graphen G ist definiert als
wobei x ∈ V .


1
CG (u, e) = −1


0
falls (u, x) = e
falls (x, u) = e
sonst,
Bemerkung 3.2.4. Wir werden diese Definition auch für ungerichtete Graphen übernehmen.
In diesem Fall bezeichnen (u, v) und (v, u) dieselbe Kante e. Wir verlangen deshalb nur, dass
entweder CG (u, e) = 1 ∧ CG (v, e) = −1 oder CG (u, e) = −1 ∧ CG (v, e) = 1 ist, die Matrix
CG also für alle Spalten die Spaltensumme 0 besitzt.
Definition 3.2.5. Die Laplace-Matrix LG eines Graphen ist definiert als


du
LG (u, v) = DG − AG = −wuv


0
21
falls u = v
falls u ∼ v
sonst.
Abbildung 3.2: Die Graphen C4 , K5 , P5 , und S4 .
−1/2
−1/2
Die normierte Laplace-Matrix LG ist definiert über LG = DG LG DG , wobei wir im Fall
−1
du = 0 den entsprechenden Eintrag DG
(u, u) gleich null setzen. Es gilt
−1/2
LG = D G
−1/2
LG D G
−1/2
= I − DG
−1/2
AG DG
.
Komponentenweise erhalten wir dann für einen gewichteten (auch nicht-schlingenfreien) Graphen

wvv

1 − dv falls u = v
falls u ∼ v
LG (u, v) = − √wduvd
u v


0
sonst ,
für einen ungewichteten, schlingenfreien im Speziellen

falls u = v

1
1
falls u ∼ v
LG (u, v) = − √d d
u v


0
sonst.
Wir werden uns im Folgenden, sofern nicht anders angegeben, auf ungewichtete und schlingenfreie Graphen beschränken, da sie formal und intuitiv besser hand zu haben sind. Alle
Überlegungen lassen sich jedoch direkt auf gewichtete Graphen übertragen. Desweiteren verzichten wir auf die Indizierung der Matrizen, falls der Bezugsgraph klar ist.
Beispiel 3.2.6. Wir führen einige wichtige Graphen auf n Knoten an:
1. Der vollständige Graph Kn : E = {(u, v) : u 6= v}
2. Der Sternengraph Sn : E = {(1, u) : 2 ≤ u ≤ n}
3. Der Pfad Pn : E = {(u, u + 1) : 1 ≤ u < n}
4. Der Kreis Cn : E = {(u, u + 1) : 1 ≤ u ≤ n} ∪ (n, 1)
Ist G ein k-regulärer Graph, so gilt
L = kI − A
und
L=
1
1
L=I− A
k
k
22
Sei nun f eine Funktion, die von der Knotenmenge V in die reellen Zahlen abbildet. Wir nennen ein solches f eine Knotenfunktion. Klarerweise lässt sich jede Knotenfunktion mit einem
Vektor aus Rn identifizieren und L kann als Operator auf dem Raum der Knotenfunktionen
betrachtet werden. Für den Operator L angewandt auf f erhalten wir dann
X
f (v).
Lf (u) = du · f (u) −
v
u∼v
Da
P
{v:u∼v} 1
= du gilt, ist dies äquivalent zu
X
v
u∼v
(f (u) − f (v)).
Analog gilt für die normierte Laplace-Matrix
1 X f (u) f (v)
√ −√
Lf (u) = √
.
du v
du
dv
u∼v
Um die nachfolgenden Rechnungen einfacher zu gestalten setzen wir vi = i für alle vi ∈ V .
Die von L mit dem euklidischen Skalarprodukt erzeugte quadratische Form lässt sich dann
schreiben als
X
X
(g(i) − g(j))
hg, Lgi =
g(i)
i
=
XX
i
=
X
j
i∼j
i∼j
=
X
i∼j
j
i∼j
(g(i))2 − g(i)g(j)
(g(i))2 − g(i)g(j) + (g(j))2 − g(j)g(i)
(g(i) − g(j))2 .
Analog gilt für die normierte Laplace-Matrix
hg, Lgi =
3.3
X g(i)
i∼j
di
g(j)
−
dj
2
.
Eigenwerte und Eigenvektoren
Satz 3.3.1. Sei C die Inzidenzmatrix des Graphen G und S := D−1/2 C. Dann lässt sich die
Laplace-Matrix von G darstellen als
L = CC T ,
(3.1)
L = SS T .
(3.2)
die normierte Laplace-Matrix als
23
Beweis. Es ist
(CC T )(u, v) =
X
C(u, e)C T (e, v)
e∈E
=
X
C(u, e)C(v, e).
e∈E
Sei nun u 6= v. Der Ausdruck C(u, e)C(v, e) ist genau dann ungleich 0, wenn u ∈ e und v ∈ e
ist, also e = (u, v) gilt. In diesem Fall ist C(u, e) = 1 und C(v, e) = −1 oder umgekehrt, in
jedem Fall ist C(u, e)C(v, e) = −1. Da der Graph keine mehrfachen Kanten besitzt, kann
dies höchstens bei einem Summanden der Fall sein, somit ist (CC T )(u, v) = −1 falls u ∼ v
und 0 sonst. Für den Fall u = v erhalten wir
X
(CC T )(u, u) =
(C(u, e))2 = du .
e∈E
Insgesamt haben wir also


du falls u = v
T
(CC )(u, v) = −1 falls u ∼ v


0
sonst,
was genau der Definition von L entspricht. Für die normierte Laplace-Matrix gilt
L = D−1/2 LD−1/2 = D−1/2 CC T D−1/2 = SS T .
Bemerkung 3.3.2. Für einen gewichteten Graphen müssen wir in dieser Darstellung noch
die Kantengewichte berücksichtigen. In diesem Fall gilt mit der Diagonalmatrix W definiert
über W (e, e) = we
L = CW C T = (CW 1/2 )(CW 1/2 )T .
Aus dieser Darstellung folgt wegen Punkt 1 in Lemma 1.1.1, dass L und L symmetrische,
positiv semidefinite Matrizen sind. Für ihre Eigenwerte und Eigenvektoren gilt damit:
1. Alle Eigenwerte sind reell und nichtnegativ.
2. Ist λ ein k-facher Eigenwert, so spannen die zu λ gehörigen Eigenvektoren einen kdimensionalen Unterraum des Rn auf.
Sei f := D−1/2 g. Ist g eine Eigenfunktion von L, so heißt f eine harmonische Eigenfunktion.
In unserem Fall gilt dann mit Satz 1.1.8
−1/2
g, D−1/2 LD−1/2 g
D
g, LD−1/2 g
hg, Lgi
=
=
RL (g) =
hg, gi
hg, gi
hg, gi
P
2
(f (u) − f (v))
hf, Lf i
P
=
.
= u∼v
2
hDf, f i
v (f (v)) dv
Wir werden uns nun im nächsten Kapitel genauer mit der Struktur des Spektrums von
Graphen beschäfigen.
24
3.4
Grundlegende Eigenschaften des Spektrums eines Graphen
Offensichtlich gilt für den kleinsten Eigenwert
λ1 = min RL (f )
f
P
(f (u) − f (v))2
u∼v
P
= min
2
f
v (f (v)) dv
= 0.
Dieses Minimum wird auf jeden Fall für konstantes f angenommen. Damit sind f1 = 1 und
g1 = D1/2 1 eine zugehörige harmonische Eigenfunktion beziehungsweise Eigenfunktion. Für
den nächsten Eigenwert gilt
λ2 =
=
min RL (f ) = min RL (f ) =
g⊥D 1/2 1
P min
f : v f (v)dv =0
P
f ⊥D1
RL (f )
P min
f : v f (v)dv =0
− f (v))2
.
2
v (f (v)) dv
(f (u)
u∼v
P
Analog erhalten wir für den k-ten Eigenwert
λk =
min
f ⊥DPk−1
RL (f ),
wobei Pk−1 den von den ersten k −1 harmonischen Eigenfunktionen f1 , ...fk−1 aufgespannten
Unterraum bezeichne. Wir werden nun die Struktur der Spektren einiger spezieller Graphen
genauer untersuchen.
Satz 3.4.1. Der vollständige Graph Kn besitzt die Eigenwerte 0 und
1 beziehungsweise n − 1.
n
n−1
mit Vielfachheiten
Beweis. Wegen vorhergehender Überlegung ist λ1 = 0. Da alle Knoten miteinander verbunden sind folgt induktiv, dass es keine weitere von f1 = 1 linear unabhängige harmonische
Eigenfunktion geben kann. Die normalisierte Laplace-Matrix besitzt die Form
(
1
falls u = v
LKn (u, v) =
1
sonst.
n−1
Ist f orthogonal zur Einsfunktion 1, so ist
X
f (v) = 0
X
g(v) = 0.
v
und damit auch
v
25
(3.3)
Es gilt für alle Knoten u
LKn f (u) = LKn D−1/2 g(u)
1
LKn g(u)
=√
n−1


X
1
g(u) − 1
g(v) .
=√
n−1
n−1
v6=u
Weiters ist
LKn g(u) =
n
1 X
n
g(u) −
g(u),
g(v) =
n−1
n−1
n−1
v∈V
wobei die letzte Gleichheit aus (3.3) folgt. Da wir lediglich f ⊥1 vorausgesetzt haben folgt,
n
.
dass für alle 2 ≤ i ≤ n gilt λi = n−1
Lemma 3.4.2. Sei G ein Graph mit n Knoten. Dann gilt
n
X
i=1
λi ≤ n
mit Gleichheit genau dann wenn G keine isolierten Knoten besitzt.
Beweis. Mit Proposition 1.1.3 gilt für die Spur von L
Tr (L) =
n
X
i=1
L(i, i) =
n
X
λi .
i=1
P
Da L(i, i) ∈ {0, 1} folgt ni=1 λi ≤ n. Es gilt L(i, i) = 0 genau dann, wenn di = 0. Damit ist
L(i, i) 6= 0 für alle i = 1, ..., n genau dann, wenn G keine isolierten Knoten besitzt.
Lemma 3.4.3. Sei n ≥ 2. Dann gilt für den Eigenwert λ2
λ2 ≤
n
n−1
mit Gleichheit genau dann, wenn G der vollständige Graph ist. Falls G keine isolierten
Knoten besitzt, gilt außerdem
n
.
λn ≥
n−1
Beweis. Sei
n
λ :=
1 X
λi .
n−1
i=2
Wegen 0 = λ1 ≤ λ2 ≤ ... ≤ λn und dem vorigen Lemma gilt
n
λ2 ≤
n
1 X
.
λi = λ ≤
n−1
n−1
i=2
26
Gleichheit gilt genau dann, wenn λi = λ2 für alle i ≥ 2 ist und G keine isolierten Knoten
besitzt. Das bedeutet aber, dass G der vollständige Graph ist.
Falls G keine isolierten Knoten besitzt, gilt außerdem
λn−1 =
P
i λi
= n und damit
n−1
n
λn−1 ≥ λ =
.
n−1
n−1
Lemma 3.4.4. Falls G nicht vollständig ist, gilt λ2 ≤ 1.
Beweis. Sei G nicht vollständig. Dann existieren a, b ∈ V mit a ≁ b. Wir definieren


 db
fe(v) := −da


0
falls v = a
falls v = b
sonst.
Diese Funktion steht offensichtlich orthogonal auf D1. Damit gilt
λ2 = min RL (f ) ≤ RL (fe) =
f ⊥D1
db (−da )2 + da d2b
= 1.
= 2
db da + (−da )2 db
P
u∼v
P
fe(u) − fe(v)
e
v (f (v))
2d
v
2
Lemma 3.4.5. Falls λi = 0 und λi+1 6= 0, so hat G genau i + 1 Zusammenhangskomponenten. Insbesondere ist für einen zusammenhängenden Graphen λ2 > 0.
Beweis. Es gilt RL (f ) = 0 genau dann, wenn
X
u∼v
(f (u) − f (v))2 = 0
(3.4)
ist. Um (3.4) zu erreichen, muss f zumindest auf jedem zusammenhängenden Teilgraphen, also auf jeder Zusammehangskomponente konstant sein. Besitzt der Graph k Zusammenhangskomponenten, so gibt es genauso viele (linear unabhängige) Eigenfunktionen zum Eigenwert
0. Offensichtlich zerfallen in diesem Fall (bei geeigneter Nummerierung der Knoten) L und L
in Blockdiagonalmatrizen mit k Blöcken. Damit ist das Spektrum der Vereinigung disjunkter
Graphen gleich der Vereinigung ihrer Spektren. Da jede Zusammenhangskomponente 0 mit
Vielfachheit 1 als Eigenwert besitzt, folgt die Behauptung.
Lemma 3.4.6. Sei 1 ≤ i ≤ n. Dann gilt λi ≤ 2 mit Gleichheit genau dann, wenn G
nichttrivial ist und eine bipartite Zusammenhangskomponente besitzt.
27
Beweis. Mit (a − b)2 ≤ 2(a2 + b2 ) gilt
P
(f (u) − f (v))2
P
λn = max u∼v
2
f
v (f (v)) dv
P
2 u∼v (f (u))2 + (f (v))2
P
≤ max
2
f
v (f (v)) dv
P
(f (v))2 dv
2
= max P v
= 2.
2
f
v (f (v)) dv
Gleichheit gilt genau dann, wenn
(f (u) + f (v))2 = 0
ist, was wiederum äquivalent ist zu
f (u) = −f (v) für alle u ∼ v.
Es folgt sofort aus Definition 3.2.1, dass dies nur für einen bipartiten Graphen möglich ist.
Lemma 3.4.7. Sei G ein bipartiter Graph. Ist λi Eigenwert von G, so ist auch 2 − λi
Eigenwert von G.
Beweisskizze. Sei f eine harmonische Eigenfunktion von G zum Eigenwert λ und V1 bzw. V2
die Teilmengen von V aus Definition 3.2.1 mit r bzw. s Knoten. Wir definieren die Funktion
fe über
(
f (x)
falls x ∈ V1
fe(x) :=
−f (x) falls x ∈ V2 .
Die Adjazenzmatrix eines bipartiten Graphen besitzt die Form
0r×r Br×s
A=
T
0s×s .
Br×s
Mit L = I − D−1/2 AD−1/2 folgt daraus durch direktes Nachrechnen, dass fe harmonische
Eigenfunktion zum Eigenwert 2 − λ ist.
Mit folgendem Lemma verbessern wir die untere Abschätzung für λ2 :
Lemma 3.4.8. Sei G zusammenhängend. Dann gilt
λ2 ≥
1
.
diam(G) vol(G)
Beweis. Sei f jene harmonische Eigenfunktion,
P für die RL (f ) = λ2 gilt. Sei weiters v0 ∈ V
so, dass |f (v0 )| = maxv |f (v)|. Da hf, 1i =
v f (v) = 0 ist, existiert ein u0 ∈ V sodass
f (u0 )f (v0 ) < 0. Sei P ein minimaler Pfad, der u0 und v0 verbindet. Damit gilt
P
P
2
2
(x,y)∈P (f (x) − f (y))
x∼y (f (x) − f (y))
P
.
λ2 =
≥
2
vol(G)(f (x))2
x (f (x)) dx
28
Für den Ausdruck im Zähler gilt mit der Cauchy-Schwarz-Ungleichung
X
(x,y)∈P
(f (x) − f (y))2 =
X
(x,y)∈P

≥
X
(x,y)∈P
1
p
|P |
!2
X
(x,y)∈P
(f (x) − f (y))2
2
1
p (f (x) − f (y))
|P |
1
(f (u0 ) − f (v0 ))2 .
=
|P |
Da diam(G) ≥ |P |, (f (u0 ))2 ≥ 0 und f (u0 )f (v0 ) < 0 ist, folgt weiter
X
(x,y)∈P
(f (x) − f (y))2 ≥
1
(f (v0 ))2 .
diam(G)
Insgesamt erhalten wir also
(f (v0 ))2
1
diam(G) vol(G)(f (v0 ))2
1
=
.
diam(G) vol(G)
λ2 ≥
Lemma 3.4.9. Sei f harmonsiche Eigenfunktion zum Eigenwert λ2 . Dann gilt für alle u ∈ V
1 X
(f (u) − f (v)) = λ2 f (u).
du v
v∼u
Beweis. Sei g = D1/2 f . Dann ist g Eigenfunktion zu λ2 , also Lg = λ2 g. Es gilt
1 X
(f (u) − f (v))
Lg(u) = LD1/2 f (u) = √
du v
v∼u
und
λ2 g(u) = λ2 D1/2 f (u) = λ2
also insgesamt
p
du f (u),
p
1 X
√
(f (u) − f (v)) = λ2 du f (u).
du v
v∼u
Daraus folgt unmittelbar die Behauptung.
Für k-reguläre Graphen lässt sich diese Abschätzung noch wesentlich verbessern:
29
Lemma 3.4.10. Sei G k-regulär mit n Knoten. Dann gilt
s
max |1 − λi | ≥
i>1
n−k
.
(n − 1)k
Beweis. Wir stellen die Spur der Matrix (I − L)2 auf zwei verschiedene Arten dar: Einerseits
gilt mit λ1 = 0
Tr (I − L)2 =
n
X
i=1
(1 − λi )2
=1+
n
X
i=2
(1 − λi )2
≤ 1 + (n − 1)(max |1 − λi |)2 .
i>1
Andererseits haben wir wegen L = I − k1 A, der Symmetrie und Definition von A und der
k-Regularität von G
2
1
1
Tr (I − L) = Tr
A = 2 Tr A2
k
k
1 X
A(x, y)A(y, x)
= 2
k x,y
1 X
= 2
[A(x, y)]2
k x,y
1 X
= 2
A(x, y)
k x,y
1 XX
= 2
A(x, y)
k x y
2
x∼y
1 X
k
= 2
k x
=
1
n
(n · k) = .
2
k
k
Insgesamt erhalten wir also
1 + (n − 1)(max |1 − λi |)2 ≥
i>1
n
k
und nach Umformung
(max |1 − λi |)2 ≥
i>1
woraus die Behauptung folgt.
30
n−k
,
(n − 1)k
Bemerkung 3.4.11. Für allgemeine Graphen gilt immerhin noch die Abschätzung
n
k
2
1 + (n − 1)(max |1 − λi |) ≥
−1
1 − (1 + max |1 − λi |)
i>1
i>1
dH
dH
P
P
Mit dem harmonischen Mittel d1H := n1 v d1v und dem arithmetischen Mittel k = n1 v dv
der Knotengrade.
3.5
Random Walks auf Graphen
Definition 3.5.1. Unter einem Weg in einem Graphen G verstehen wir eine Folge von
Knoten (v0 , ..., vs ) mit (vi−1 , vi ) ∈ E für alle 1 ≤ i ≤ s.
Ein Zufallsweg oder Random Walk ist bestimmt durch die Übergangswahrscheinlichkeiten
(
1
falls u ∼ v
P (u, v) = P(xi+1 = v|xi = u) = du
0
sonst,
die Matrix P heißt Übergangsmatrix. Es gilt P = AD−1 = D1/2 (I − L)D−1/2 . Also sind
P = AD−1 und I −L ähnlich und besitzen damit die gleichen Eigenwerte. Diese Beziehungen
gelten offensichtlich auch für gewichtete
Graphen und Graphen mit Schlingen. Für jede
P
Anfangsverteilung f0 : V → R mit v f (v) = 1 sind die ersten k Schritte des Random Walk
f1 = P f0
f2 = P f1 = P 2 f0
...
fk = P k f0 .
Wir interessieren uns nun für die stationäre Verteilung π(v). Dies ist jene Verteilung, die
lim P s (v)f = π(v)
s→∞
(3.5)
erfüllt. Falls sie existiert, ist sie (der auf 1 normierte) Eigenvektor zum Eigenwert 1:
P π = lim P (P s f ) = lim P s+1 f = π
s→∞
s→∞
Ein Random Walk, der eine eindeutige, stationäre Verteilung besitzt heißt ergodisch. Notwendige und hinreichende Bedingungen dafür sind
1. Irreduzibilität: ∀u, v ∈ V ∃s ∈ N : P s (u, v) > 0 und
2. Aperiodizität: ∀u, v ∈ V : gcd{s : P s (u, v) > 0} = 1.
Ersteres bedeutet, dass jeder Punkt des Graphen erreichbar ist. Die zweite Bedingung stellt
sicher, dass die Rückkehr in einen Zustand nach jeder Anzahl von Schritten und nicht nur in
Vielfachen von k ≥ 2 Schritten möglich ist. Auf Graphen übertragen sind diese Bedingungen
äquivalent dazu, dass der Graph zusammenhängend und nicht bipartit ist (bipartite Graphen
besitzen gerade Periodizität).
31
Lemma 3.5.2. Für die stationäre Verteilung eines zusammenhängenden, nicht bipartiten
1
Graphen gilt π = vol(G)
D1.
Beweis. Die stationäre Verteilung existiert wegen obiger Bemerkung. Wir können sie somit
1
D1, da
als normierten Eigenvektor zum Eigenwert 1 berechnen. Dies ist aber genau vol(G)
P

P D1 = AD−1 D1 = A1 = 
P
v
v
  
A(v, 1)
d1
  .. 
..
 =  .  = D1.
.
A(v, n)
dn
Wir zeigen nun, dass für k hinreichend groß P k f für jede Anfangsverteilung f gegen π konvergiert und geben eine Schranke für die Konvergenzgeschwindigkeit an. Zunächst verwenden
wir die euklidische Norm. Seien φ1 , ..., φn ein System von orthonormalen Eigenfunktionen
zu
P
−1/2
−1/2
λ1 , ..., λn . Wir stellen D
f in dieser Basis dar und definieren D
f := i ai φi . Es ist
φ1 = √ 1 D1/2 1 und damit
vol(G)
−1/2
D
f, D1/2 1
hf, 1i
1
=p
=p
,
a1 =
D1/2 1
vol(G)
vol(G)
2
P
da v f (v) = 1 ist. Für den Abstand zur stationären Verteilung nach dem s-ten Schritt gilt
damit und unter Verwendung der Spektraldekomposition von I − L
s
1
s
kP f − πk = P f − vol(G) D1
= P s f − D1/2 a1 φ1 = D1/2 (I − L)s D−1/2 f − D1/2 a1 φ1 1/2 X
T s −1/2
1/2
f − D a 1 φ 1 .
= D ( (1 − λi )φi φi ) D
i
Da die φi eine Orthonormalbasis sind, gilt in der Cauchy-Schwarz-Ungleichung Gleichheit
und weiter
!
X
= D1/2
(1 − λi )s φi φTi D−1/2 f − D1/2 a1 φ1 .
i
Mit λ1 = 0 folgt


X
1/2
T −1/2
1/2 
s
T  −1/2
1/2
= D φ 1 φ 1 D
f +D
(1 − λi ) φi φi D
f − D a1 φ1 i≥1


X
1
1/2
T
1/2 
s
T  −1/2
1/2 p
D φ1 1 f + D
(1 − λi ) φi φi D
f − a 0 φ 0 D .
=
vol(G)
i≥2
32
Nun kürzen sich der erste und letze Summand dieses Ausdrucks, da 1T f = 1 und a1 =
√ 1
ist. Somit erhalten wir weiter mit φTi φj = δij , der Dreiecksungleichung und der
vol(G)
Definition der Spektralnorm


X
s
1/2
s
T
−1/2
 (1 − λi ) φi φi  D
kP f − πk = f
D
i≥2



X
X
1/2
s
T


= D
(1 − λi ) φi φi
aj φj j
i≥2
1/2 X
s
(1 − λi ) ai φi = D
i≥2


X
1/2 s 

≤ max |1 − λi | ai φi D i≥2
i≥2
≤ max |1 − λi |s kf kD−1/2 D1/2 i≥2
√
s maxx dx
p
= max |1 − λi |
i≥2
miny dy
√
′ s maxx dx
p ,
≤ (1 − λ )
miny dy
wobei
λ′ :=
Aus der Abschätzung ex ≤
Nach s ≥
ε.
1
λ′
log
√
maxx √dx
ε miny dy
(
λ1
2 − λn
falls 1 − λ2 ≥ λn − 1
sonst.
′
1
1−x
für x < 1 folgt (1 − λ′ )s ≤ e−sλ und damit insgesamt
√
s
−sλ′ maxx dx
p .
(3.6)
kP f − πk ≤ e
miny dy
Schritten beträgt der L2 Abstand von f P s zu π also maximal
Bemerkung 3.5.3. Obwohl diese Abschätzung von λ′ und somit von λ2 und λn abhängt,
ist in gewissem Sinne nur λ2 für die Konvergenzgeschwindigkeit relevant: Sei λ′ = 2 − λn .
Wir betrachten einen Lazy Random Walk, bei dem die Wahrscheinlichkeit in einem Knoten
zu verbleiben 12 beträgt. Um dem Rechnung zu tragen, modifizieren wir unseren Graphen
G, indem wir in jedem Knoten u eine Schlinge mit Gewicht du hinzufügen. Der modifizierte
ek = λk /2 ≤ 1 (siehe [8, S. 16]). Damit ist 1 − λ
e2 ≥
Graph G′ besitzt dann die Eigenwerte λ
e
1 − λn ≥ 0 und wir erhalten als Konvergenzschranke für den Lazy Random Walk
√ !
maxx dx
2
p
log
.
s≥
λ2
ǫ miny dy
33
Die L2 -Norm ist allerdings in vielen Anwendungen zu schwach, da keine punktweise Konvergenz nötig ist. Deshalb verwenden wir für eine weitere Abschätzung den relativen punktweisen
Abstand zur stationären Verteilung. Nach s Schritten ist dieser gegeben durch
∆(s) := max
x,y
|P s (x, y) − π(x)|
.
π(x)
Analog zum Koordinatenvektor im Einführungskapitel ist die Koordinatenfunktion χx : V →
{0, 1} definiert über
(
1 falls x = y
χx (y) :=
0 sonst.
Wir verwenden nun wie vorher die Eigenfunktionen φi von L als Orthonormalbasis und
schreiben
X
D1/2 χx =
αi φ i
i
D
−1/2
χy =
X
β j φj .
j
Die Koeffizienten α1 und β1 berechnen sich zu
1/2
D χx , D1/2 1
dx
=p
α1 =
1D1/2 vol(G)
−1/2
1/2
D
χ ,D 1
1
y =p
.
β1 =
1D1/2 vol(G)
Für den relativen punktweisen Abstand gilt damit analog zu voriger Abschätzung
T t
χx P χy − π(x)
∆(t) = max
x,y
π(x)
T 1/2
χx D (I − L)t D−1/2 χy − π(x)
= max
x,y
π(x)
P t
i≥2 (1 − λi ) αi βi
≤ max
x,y
dx / vol(G)
P
t
i≥2 |αi βi |
≤ max |1 − λi | max
x,y dx / vol(G)
i≥2
1/2 −1/2 t
D χ x · D
χy ≤ max |1 − λi | max
x,y
i≥2
dx / vol(G)
und weiter, da kχx k = kχy k = 1 und mit λ′ definiert wie oben
√
vol(G) dx
′ t
p
≤ 1 − λ max
x,y
dx
dy
vol(G)
t
p
= 1 − λ′
minx,y dx dy
′ vol(G)
.
≤ e−tλ
minx dx
34
Wir erreichen also nach
1
t ≥ ′ log
λ
vol(G)
ǫ minx dx
Schritten einen relativen punktweisen Abstand, der kleiner ǫ ist.
35
36
Kapitel 4
Spectral Sparsification
4.1
Graph Sparsification
In diesem Kapitel geht es darum, einen Graphen G durch einen ausgedünnten Graphen
möglichst gut zu approximieren. Wir wollen einen Graphen H konstruieren, der viele Eigenschaften von G erhält, gleichzeitig aber möglichst wenig Kanten enthält. Dieser Vorgang
wird graph sparsification genannt, H ist ein sparsifier für G. Aus dem letzten Kapitel wissen
wir, dass das Spektrum eines Graphen die wichtigste Informationsquelle über den Graphen
ist. Somit ist es ein natürlicher Ansatz, bei der Konstruktion von H darauf zu achten, dass
sich die Eigenwerte der Laplace-Matrix so wenig wie möglich verändern. Unser eigentliches
Problem ist also in der linearen Algebra angesiedelt: Wir wollen die Laplace-Matrix von G
durch eine Matrix von geringem Rang möglichst gut annähern. Dazu betrachten wir noch
einmal die Laplace-Matrix LG genauer. Sei wieder χu (v) = δuv für alle Knoten u, v ∈ VG
und χu − χv := χuv . Dann können wir LG darstellen als
X
X
wuv χuv χTuv ,
wuv (χu − χv ) (χu − χv )T =
LG =
(u,v)∈E
(u,v)∈E
also als Summe von äußeren Produkten, die wir mit den Kanten von G identifizieren können.
Allgemein formuliert betrachten wir eine positiv-semidefinite Matrix A mit Rang n, dargestellt als Summe von Rang-1 Matrizen
A=
m
X
wi wiT ,
i=1
wobei m sehr viel größer als n sein kann. Unser Ziel ist, die Zahl m wesentlich zu reduzieren.
Den ersten Schritt können wir bereits mir Hilfe des Spektralsatzes machen: Sind λi und ui
die Eigenwerte und Eigenvektoren von A, so lässt sich A darstellen als
A=
m
X
wi wiT
=
n
X
λi ui uTi ,
i=1
i=1
das heißt als gewichtete Summe von nur n äußeren Produkten, die aber gleichzeitig die untere
Grenze für eine exakte Darstellung ist. Der folgende Satz zeigt uns jedoch, dass und wie wir
die Anzahl noch weiter reduzieren können, ohne allzuviel Informationen zu verlieren.
37
4.2
Spectral Sparsification Theorem
P
T
Satz 4.2.1 (Spectral Sparsification, [34]). Sei 0 < ǫ < 1, m ∈ N und A := m
i=1wi wi mit
wi ∈ Rn . Dann gibt es nichtnegative Gewichte {si }i≤m von denen höchstens ǫn2 ungleich
Null sind und es gilt
2
(1 − ǫ) A ≤
m
X
i=1
si wi wiT ≤ (1 + ǫ)2 A.
Tatsächlich ist es ausreichend, den Fall A = I zu betrachten. Deshalb werden wir mit folgender Formulierung weiterarbeiten, von der wir im Anschluss gleich zeigen werden, dass sich
Satz 4.2.1 daraus ableiten lässt:
P
T
Satz 4.2.2. Seien d > 1, v1 , · · · , vm ∈ Rn mit m
i=1 vi vi = I. Dann gibt es si ∈ R mit
|{i : si 6= 0}| ≤ dn sodass
√
m
X
d+1+2 d
T
√ I
si v i v i ≤
I≤
(4.1)
d+1−2 d
i=1
gilt.
P
T
Beweis von Satz 4.2.1. Sei A := m
i=1 wi wi und habe o.B.d.A. vollen Rang. Wir definieren
vi := A−1/2 wi und erhalten daraus aufgrund der Symmetrie von A


X
X
vi viT = A−1/2 
wi wiT  A−1/2 = I.
(4.2)
i≤m
i≤m
Somit erfüllen die Vektoren vi die Voraussetzungen von
n Satz 4.2.2. Setzen wir weiters d =
so erhalten wir Skalare si ≥ 0, von denen maximal ǫ2 ungleich Null sind und für die
√
m
X
d+1+2 d
(1 + ǫ)2
T
√ I=
si v i v i ≤
I≤
I
(1 − ǫ)2
d+1−2 d
i=1
gilt. Multiplikation mit (1 − ǫ)2 liefert uns
(1 − ǫ)2 I ≤
e = (1 − ǫ)
Mit A
2P
T
i si w i w i
m
X
i=1
(1 − ǫ)2 si vi viT ≤ (1 + ǫ)2 I.
erhalten wir
(1 − ǫ)2 I ≤ (1 − ǫ)2
m
X
i=1
woraus sich genau wie gewünscht
1−ǫ
e −1/2 ≤ (1 + ǫ)2 I,
si A−1/2 wi wiT A−1/2 = A−1/2 AA
2
A≤
m
X
i=1
si wi wiT ≤ 1 + ǫ2 A
ergibt.
38
1
,
ǫ2
Wir beweisen nun Satz 4.2.2. Dazu erinnern wir zunächst noch an Korollar 1.1.10, was eine
Folgerung aus dem Cauchy Interlacing Theorem (Satz 1.1.9) war:
Korollar 4.2.3. Sind v ∈ Rn , λ1 , · · · , λn die Eigenwerte der n × n Matrix A und µ1 , · · · , µn
jene der Matrix A + vv T , so gilt
λ1 ≤ µ1 ≤ λ2 ≤ · · · ≤ µn−1 ≤ λn ≤ µn
P
Desweiteren halten wir fest, dass mit A := i si vi viT (4.1) äquivalent dazu ist, dass für alle
Eigenwerte λi von A gilt
√
d+1+2 d
√ .
1 ≤ λi ≤
d+1−2 d
Dies folgt klarerweise aus
√
d+1+2 d
√ .
λmin (A) ≥ 1 und λmax (A) ≤
d+1−2 d
(4.3)
Um Satz 4.2.2 zu beweisen, werden wir die Matrix A in einzelnen Schritten iterativ bauen,
indem wir in jedem Schritt einen Term der Form si vi viT hinzuaddieren. Als Steuerung für
den Iterationsprozess werden uns zwei Potentialfunktionen dienen:
Definition 4.2.4. Seien u und l reelle Zahlen und A eine symmetrische Matrix mit den
Eigenwerten λ1 , ..., λn . Wir definieren
Φu (A) := Tr (uI − A)−1 =
Φl (A) := Tr (A − lI)
−1
=
X
i
X
i
1
(Oberes Potential)
u − λi
1
(Unteres Potential),
λi − l
wobei sich die zweite Schreibweise aus Satz 1.1.2 und Proposition 1.1.3, Punkt 2 ergibt.
Solange lI < A < uI ist, d.h. λmax (A) < u und λmin (A) > l, messen diese Funktionen die
Entfernung der Eigenwerte von den Schranken u und l. Wir erhalten dadurch eine Folge von
Matrizen
0 = A0 , A1 , ..., AQ
und positive Konstanten u0 , l0 , δU , δL , ǫU , ǫL , von denen wir zeigen werden, dass sie die folgenden Bedingungen erfüllen:
1. Φu0 (A0 ) = ǫU und Φl0 (A0 ) = ǫL ,
2. Aq+1 = Aq + tvv T für v ∈ {vi }i≤m und t ≥ 0,
3. Φu+δU (Aq+1 ) ≤ Φu (Aq ) ≤ ǫU für u = u0 + qδU ,
4. Φl+δL (Aq+1 ) ≤ Φl (Aq ) ≤ ǫL für l = l0 + qδL und
5. λmax (Aq ) < u0 + qδU und λmin (Aq ) > l0 + qδL .
39
Sind diese Punkte erfüllt, wählen wir zum Abschluss die Konstanten noch derart, dass
√
λmax
d+1+2 2
√
≤
λmin
d+1−2 2
gilt. Die folgenden beiden Lemmata zeigen nun, wie wir die obere bzw. untere Schranke
verschieben können, sodass tatsächlich alle obigen Bedingungen (insbesondere die zweite und
die dritte Bedingung) gleichzeitig erfüllt sind. Das erste Lemma betrifft die obere Schranke.
Verschieben wir u auf u + δU ohne die Matrix A zu verändern, so fällt das obere Potential, da
sich die Eigenwerte nicht verändern. Dies gibt uns die Möglichkeit, einen Term der Form tvv T
zu A zu addieren, der diesem Effekt entgegenwirkt. Analoges gilt für die untere Schranke. Die
Lemmata quantifzieren nun, wie groß der jeweilige Faktor t sein darf, damit die Potentiale
ihre ursprünglichen Werte nicht übersteigen.
Lemma 4.2.5. Sei λmax (A) < u und v ∈ Rn . Ist
v T ((u + δU ) I − A)−2 v
1
≥
+ v T ((u + δU ) I − A)−1 v =: UA (v) ,
t
Φu (A) − Φu+δU (A)
so gilt
Φu+δU A + tvv T ≤ Φu (A) und λmax A + tvv T < u + δU .
Beweis. Sei u′ = u + δU . Nach der Sherman-Morisson-Formel aus Lemma 1.1.11 mit den
Vektoren v und tv gilt
u′ I − A − tvv T
Daraus folgt, dass
−1
−1 (u′ I − A)−1 (tv)v T (u′ I − A)−1
= u′ I − A
+
.
1 − tv T (u′ I − A)−1 v
−1 Φu′ A + tvv T = Tr u′ I − A − tvv T
−1
−1
+ u′ I − A
= Tr u′ I − A
−1
tvv T
′
uI −A
.
1 − tv T (u′ I − A)−1 v
Mit der Linearität der Spur ist dies weiter gleich
T (u′ I − A)−1 (u′ I − A)−1 v
tTr
v
−1
Tr u′ I − A
+
,
1 − tv T (u′ I − A)−1 v
und mit Proposition 1.1.3, Punkt 1 äquivalent zu
Φu′ (A) +
tv T (u′ I − A)−2 v
,
1 − tv T (u′ I − A)−1 v
was wiederum gleich
Φu (A) − (Φu (A) − Φu′ (A)) +
40
v T (u′ I − A)−2 v
1/t − v T (u′ I − A)−1 v
ist. Wegen UA (v) > v T (u′ I − A) v ist aufgrund der Voraussetzung 1t ≥ UA (v) der letzte
Ausdruck endlich. Desweiteren folgt durch einfaches Umformen, dass für jedes t, das dieser
Bedingung genügt
Φu+δU A + tvv T ≤ Φu (A)
gilt. Außerdem folgt daraus, dass λmax A + tvv T < u′ ist. Wäre dies nämlich nicht der
Fall, so gäbe es ein t′ ≤ t für das λmax A + t′ vv T = u′ wäre. Für ein solches t′ wäre aber
Φu′ A + t′ vv T nicht mehr endlich im Widerspruch zu gerade Gezeigtem.
Das nächste Lemma liefert uns ein analoges Resultat für die untere Schranke:
Lemma 4.2.6. Sei λmin (A) > l, Φl (A) ≤ 1/δL und v ∈ Rn . Ist
0<
1
v T (A − (l + δL ) I)−2 v
≤
+ v T (A − (l + δL ) I)−1 v =: LA (v) ,
t
Φl+δL (A) − Φu (A)
so gilt
Φl+δL A + tvv T ≤ Φl (A) und λmin A + tvv T > l + δL .
Beweis. Zunächst halten wir fest, dass aus λmin (A) > l und Φl (A) ≤ 1/δL folgt, dass
1
1
≥ Φl (A) >
δL
λmin (A) − l
und daraus λmin (A) > l + δL . Somit gilt also λmin A + tvv t > l + δL für jedes t > 0. Wir
verfahren nun analog zum Beweis des vorigen Lemmas. Sei l′ = l + δL . Aus der ShermanMorisson-Formel mit den Vektoren (−v) und tv erhalten wir
A + tvv T − l′ I
Es folgt daraus
−1
= A − l′ I
−1
−
(A − l′ I)−1 (tv)v T (A − l′ I)−1
.
1 + tv T (A − l′ I)−1 v
−1 Φl′ A + tvv T = Tr A + tvv T − l′ I
−1
−1
− A − l′ I
= Tr A − l′ I
−1
tvv T
A − l′ I
−1
1 + tv T (A − l′ I) v
und wieder mit der Linearität der Spur und Proposition 1.1.3, Punkt 1
T (A − l′ I)−1 (A − l′ I)−1 v
tTr
v
−1
= Tr A − l′ I
−
1 + tv T (A − l′ I)−1 v
= Φl′ (A) −
tv T (A − l′ I)−2 v
1 + tv T (A − l′ I)−1 v
= Φl (A) + (Φl′ (A) − Φl (A)) −
v T (A − l′ I)−2 v
.
1/t + v T (A − l′ I)−1 v
Auch hier erhalten
wir mittels einfachen Umformungen, dass aus
t
Φl+δL A + tvv ≤ Φl (A) folgt.
41
1
t
≤ LA (v) wie behauptet
Wir müssen nun nur mehr sicherstellen, dass wir ein v ∈ {vi }i≤m finden können, auf das
wir beide Lemmata gleichzeitig anwenden können. Das folgende Lemma zeigt uns, das dies
tatsächlich möglich ist.
Lemma 4.2.7. Sei λmax (A) < u, λmin (A) > l, Φu (A) ≤ ǫU , Φl (A) ≤ ǫL und ǫU , ǫL , δU
und δL genügen
0≤
1
1
+ ǫU ≤
− ǫL .
δU
δL
(4.4)
Dann gibt es einen Index i und ein t > 0, für die
LA (vi ) ≥
1
≥ UA (vi )
t
und
gilt.
λmax A + tvi viT < u + δU , λmin A + tvi viT > l + δL
Beweis. Wir zeigen, dass
X
i
LA (vi ) ≥
X
UA (vi )
i
erfüllt ist. Dann folgt die Aussage aus geeigneter Wahl von i und t aus den vorhergehenden
Lemmata. Zunächst ist mit dem ersten Teil von Lemma 1.1.6
!
X
X v T ((u + δU ) I − A)−2 vi
i
UA (vi ) =
+ viT ((u + δU ) I − A)−1 vi
Φu (A) − Φu+δU (A)
i
i
!
P
T
X
((u + δU ) I − A)−2 ◦
−1
i vi vi
T
+ ((u + δU ) I − A) ◦
vi vi
=
Φu (A) − Φu+δU (A)
i
P
und mit dem zweiten Teil von Lemma 1.1.6, da i vi viT = I laut Voraussetzung
Tr ((u + δU ) I − A)−2
+ Tr ((u + δU ) I − A)−1 .
=
Φu (A) − Φu+δU (A)
Setzen wir nun für Φ die Definition 4.2.4 ein, so ergibt sich aus Satz 1.1.2 und Proposition 1.1.3, Punkt 2 weiter
P
−2
i (u − δu − λi )
+ Φu+δU (A)
=P
P
−1
− i (u + δU − λi )−1
i (u − λi )
P
−2
i (u − δu − λi )
+ Φu+δU (A)
=
P
δU i (u − λi )−1 (u + δU − λi )−1
und da (u − λi )−1 (u + δU − λi )−1 ≥ (u + δU − λi )−2 für alle i
≤
1
1
1
+ Φu+δU (A) ≤
+ Φu (A) ≤
+ ǫU .
δU
δU
δU
42
Analog erhalten wir
X
i
!
viT (A − (l + δL ) I)−2 vi
−1
T
LA (vi ) =
− vi (A − (l + δL ) I) vi
Φl+δL (A) − Φl (A)
i
!
P
T
X
v
v
(A − (l + δL ) I)−2 ◦
i
i
i
=
− (A − (l + δL ) I)−1 ◦
vi viT
Φl+δL (A) − Φl (A)
X
i
P
und mit Lemma 1.1.6 und i vi viT = I
Tr (A − (l + δL ) I)−2
− Tr (A − (l + δL ) I)−1 .
=
Φl+δL (A) − Φl (A)
Aus Definition 4.2.4, Satz 1.1.2 und Proposition 1.1.3, Punkt 2 folgt wiederum
P
−2
i (λi − l − δL )
− Φl+δL (A)
=P
P
−1
− i (λi − l)−1
i (λi − l − δL )
Die letzte Abschätzung erfordert etwas extensivere algebraische Umformungen als im ersten
Teil und wird deshalb erst am Ende des Abschnittes in Lemma 4.2.8 bewiesen. Es gilt damit
dann
P
−2
i (λi − l − δL )
− Φl+δL (A)
P
δL i (λi − l − δL )−1 (λi − l)−1
X
1
1
≥
−
(λi − l)−1 =
− ǫL .
δL
δL
i
Setzen wir dies nun zusammen, erhalten wir
X
X
1
1
+ ǫU ≤
− ǫL ≤
LA (vi )
UA (vi ) ≤
δU
δL
i
i
wie gewünscht.
Beweis zu Satz 4.2.2. Wir müssen nun nur noch ǫU , ǫL , δU und δL in einer Weise wählen,
dass die Voraussetzungen von Lemma 4.2.7 erfüllt sind. Dann können wir die Matrix A
folgendermaßen aufbauen: Wir setzen A0 = 0 und konstruieren Aq+1 aus Aq , indem wir
einen Vektor vi wählen, der
LAq (vi ) ≥ UAq (vi )
erfüllt. Die Existenz eines sochen Vektors stellt Lemma 4.2.7 sicher. Wir setzen dazu Aq+1 =
Aq + sei vi viT mit einem sei ≥ 0, das der Bedingung
LAq (vi ) ≥
genügt. Wählen wir dann
δL = 1,
√
d+1
δU = √
,
d−1
1
UA (vi )
sei q
1
ǫL = √ ,
d
√
d−1
√ ,
ǫU =
d+ d
43
l0 = −
u0 =
n
ǫL
n
,
ǫU
so erhalten wir
√
√
1
d−1
d−1
1
1
=1− √ =
+ ǫU = √
− ǫL ,
+ √ √
δU
δL
d+1
d
d
d+1
womit die Vorraussetzung (4.4) von Lemma 4.2.7 erfüllt ist und wir das Lemma anwenden können. Die anfänglichen Potentiale sind Φn/ǫU (0) = ǫU und Φn/ǫL (0) = ǫL . Nach dn
Iterationsschritten erhalten wir dann
n/ǫU + dnδU
λmax (Adn )
≤
λmin (Adn )
−n/ǫL + dnδL
√
d+
√ d
d−1
√
+ d √d+1
√ d−1
=
d− d
!
√ ! √
d+1
d+ d
√
√
=
d− d
d−1
√
d+2 d+1
√
,
=
d−2 d+1
woraus (4.3) folgt und damit der Beweis vollendet ist.
Wir zeigen nun die offene Abschätzung aus dem letzten Teil des Beweises von Lemma 4.2.7:
P
Lemma 4.2.8. Für alle Indizes i sei λi > l, 0 ≤ i (λi − l)−1 ≤ ǫL , und δ1L − ǫL ≥ 0. Dann
gilt
P
−2
X 1
1
i (λi − l − δL )
.
(4.5)
−
−
Φ
(A)
≥
P
P
l+δL
−1
δL
λi − l
− i (λi − l)−1
i (λi − l − δL )
i
Beweis. Aus den Voraussetzungen ergibt sich, dass für jeden Index i
δL ≤
1
≤ λi − l
ǫL
gilt. Weiters ist λi − l − δL < λi − l für alle i und damit der Nenner des ersten Terms positiv.
Somit können wir die Ungleichung folgendermaßen umformen:
!
!
X
X
X
1
1
1
1
1
1
−
+
−
≥
λi − l − δ L λi − l
δL
λi − l − δ L λi − l
(λi − l − δL )2
i
i
i
!
!
X
X
1
1
1
= δL
+ δL
(λi − l − δL ) (λi − l)
δL
(λi − l − δL ) (λi − l)
i
i
!2
X
X
1
1
+ δL
.
=
(λi − l − δL ) (λi − l)
(λi − l − δL ) (λi − l)
i
i
Verschieben wir nun den ersten Term der rechten Seite auf die linke und bringen die beiden
Ausdrücke auf gleichen Nenner, so ist damit (4.5) äquivalent zu
!2
X
X
1
1
.
(4.6)
δL
≤ δL
(λi − l − δL ) (λi − l)
(λi − l − δL )2 (λi − l)
i
i
44
Aus der Cauchy-Schwarz-Ungleichung erhalten wir aber, dass
δL
X
i
ist. Wegen
1
(λi − l − δL ) (λi − l)
P
i (λi
!2
≤
δL
X
i
1
λi − l
!
δL
X
i
− l)−1 ≤ ǫL ist dies kleiner oder gleich
(δL ǫL ) δL
X
i
1
(λi − l − δL )2 (λi − l)
1
(λi − l − δL )2 (λi − l)
!
!
.
Da laut Voraussetzung außerdem 1/δL − ǫL ≥ 0, also δL ǫL ≤ 1 ist, lässt sich dies weiter
abschätzen mit
!
X
1
δL
,
2
(λ
−
l
−
δ
)
(λ
−
l)
i
i
L
i
was aber genau Ungleichung (4.6) ergibt.
Der Algorithmus, den uns dieser Beweis liefert sieht also folgendermaßen
aus: Der erste
Schritt besteht in der Berechnung der Vektoren vi , was O n2 m Zeit erfordert. In jeder Iteration müssen wir ((u + δU ) I − A)−1 , ((u + δU ) I − A)−2 und die entsprechenden Matrizen
für die untere Schranke berechnen. Dazu wird eine Zeit von O n3 benötigt. Schlussendlich
müssen wir entscheiden, welchen Vektor wir in jedem Schritt addieren, indem wir UA (vi )
und LA (vi ) für jedes vi berechnen. Dies ist in O n2 m Zeit möglich.
Insgesamt benötigen
3
wir dn Iterationen, erhalten also eine Gesamtlaufzeit von O dn m .
4.3
Dimensionsreduktion in Lp -Räumen
Wir wenden uns nun einem Resultat von Schechtman zu, der sich in vielen seiner Arbeiten [24–26] mit der Dimensionsreduktion in Lp -Räumen beschäftigt. Mit Hilfe des Spectral
Sparsification Theorems ist hier eine wesentliche Verbesserung gelungen.
Sei p ≥ 1, Lp der Raum der p-integrierbaren Funktionen auf [0, 1] mit dem Lebesgue-Maß,
ℓdp bezeichne den Raum Rd mit der Norm
kxkp =
d
X
i=1
|xi |p
!1/p
.
Für p = 2 erhalten wir also den d-dimensionalen, euklidischen Raum. Das Johnson-Lindenstrauss-Lemma (Kapitel 6) besagt in diesem Fall, dass sich für ǫ > 0 jede aus n Punkten
bestehende Menge des ℓd2 so in den ℓk2 mit k = O log n/ǫ2 einbetten lässt, dass sich die
Distanzen zwischen je zwei Punkten höchstens um einen Faktor (1 + ǫ) unterscheiden. Da
jeder d-dimensionale Unterraum des L2 isometrisch zu l2d ist, gilt die Aussage auch für L2 .
Für p 6= 2 liegen die Dinge komplizierter. Fordern wir außerdem nicht nur die Einbettung
45
einer Menge aus n Punkten, sondern eines n−dimensionalen Unterraumes, so wurden für die
Dimension k im Wesentlichen die Schranken


für p = 1,
C(ǫ)n log n,
2
k ≤ C(ǫ)n log n(log log(n)) , für p ∈ (1, 2),
(4.7)


C(p, ǫ)np/2 log n,
für p ∈ (2, ∞)
gefunden (siehe dazu [4, 24, 25, 35, 36, 39] und für eine Zusammenfassung [20]). Für gerade p
gelang Schechtman mit Hilfe von Satz 4.2.1 in [26] eine elegante Verbesserung:
Satz 4.3.1. Sei X ein n-dimensionaler Unterraum des Lp mit geradem p ≤ n und 0 < ǫ <
1/p. Dann lässt sich X mit einer Störung von (1 + ǫ) in ℓkp mit k ≤ (Cn/p)p/2 /ǫ2 einbetten,
wobei C eine absolute Konstante ist.
Wir beginnen mit einem Korollar zu Satz 4.2.1:
m
Korollar 4.3.2. Sei X ein n-dimensionaler
n Unterraum des ℓ2 und 0 < ǫ < 1. Dann existiert
eine Menge σ ⊂ {1, . . . , m} mit |σ| ≤ ǫ2 und positive Gewichte {si }i∈σ , sodass für alle
x ∈ X gilt
X
(1 − ǫ)kxk2 ≤
si x2 (i)
i∈σ
!1/2
≤ (1 + ǫ)kxk2 .
(4.8)
Beweis. Seien 0 < ǫ < 1 und {u1 , . . . , un } eine Orthonormalbasis von X. Wir schreiben für
alle 1 ≤ j ≤ n uj = (u1jP
, u2j , . . . , umj ) und definieren weiters viT = (ui1 , ui2 , . . . uin ) für alle
T
n
1 ≤ i ≤ m. Damit gilt m
i=1 vi vi = In . Ein Vektor x ∈ X lässt sich in der Basis {uj }j=1
Pn
darstellen als x = j=1 aj uj mit a = (a1 , . . . an )T ∈ Rn . Es ist dann



n
n
X
X
x(i)2 = (xxT )ii = 
a j uj  
aj uTj 
j=1

=
m
X
j=1
j=1
ii
2
aj uij 
= (aT vi )2 = aT vi viT a.
Aus Satz 4.2.1 folgt, dass
2 T
(1 − ǫ) a
m
X
vi viT
i=1
!
a≤a
T
m
X
si vi viT
i=1
!
2 T
a ≤ (1 + ǫ) a
m
X
vi viT
i=1
gilt, wobei si die Gewichte aus dem Satz sind. Insgesamt haben wir damit
(1 − ǫ)
2
kxk22
≤
m
X
i=1
si x(i)2 ≤ (1 + ǫ)2 kxk22 ,
woraus die Behauptung folgt.
46
!
a
Beweis zu Satz 4.3.1. Da X als endlich dimensionaler Unterraum des Lp isomorph zu einem
Unterraum des lpm für ein m(p, X) ∈ N ist (siehe etwa [2]), können wir annehmen, dass X
ein n-dimensionaler Unterraum des lpm ist. Im Folgenden bedeute die Multiplikationsnotation
von Vektoren immer koordinatenweise Multiplikation, also für x, y ∈ Rm und t ∈ N sei
xy = (x(1)y(1), . . . , x(m)y(m)) und xt = x(1)t , . . . , x(m)t .
Für die Basis u1 , . . . , un von X betrachten wir folgenden Unterraum des Rm :
Y = span {upj11 upj22 · · · upjℓℓ : ℓ ∈ N, j1 , . . . , jℓ ∈ {1, . . . , n} ∧ p1 + . . . + pℓ = p/2}
Für die Dimension von Y gilt dann
10n p/2
n + p/2 − 1
≤
d = |Y | ≤
.
p/2
p
Die letzte Abschätzung folgt aus
s
=
t
s!
(s−t)!
t!
st
≤ t =
t
3
3s
t
t
mit s = n + p/2 − 1, t = p/2 und p ≤ n. Aus Korollar 4.3.2 erhalten wir, dass eine Menge
σ ⊂ {1, . . . , m} mit |σ| = O d(pǫ)−2 ≤ (Cn/p)p/2 ǫ−2 für eine absolute Konstante C und
positive Gewichte {si }i∈σ existieren, sodass für alle y ∈ Y gilt
!
X
ǫp
2
kyk2 ≤
si y 2 (i) ≤ (1 + )kyk22 .
4
i∈σ
Laut Definition von Y gilt, dass für jedes x ∈ X auch xp/2 ∈ Y ist und damit nach Korollar 4.3.2
!
X
ǫp
kxkpp ≤
si xp (i) ≤ (1 + )kxkpp
4
i∈σ
ist, was uns schließlich
kxkp ≤
X
i∈σ
p
si x (i)
!1/p
≤ (1 +
liefert wie gewünscht.
47
ǫp 1/p
) kxkp ≤ (1 + ǫ)kxkp
4
48
Kapitel 5
Graph Sparsification by Effective
Resistances
5.1
Vorbemerkungen
In diesem Kapitel beschäftigen wir uns mit dem Algorithmus von Spielman und Srivastava
aus [29], der eine weitere Möglichkeit aufzeigt, gute Sparsifier für gewichtete Graphen zu
konstruieren. Die Hauptidee dabei ist, einen gegebenen Graphen G mit einem elektrischen
Netzwerk zu identifizieren und durch einen Teilgraph H zu approximieren. Jede Kante von
G wird dabei mit einer Wahrscheinlichkeit proportional zu ihrem Wirkwiderstand (effective
resistance) zu H hinzugefügt.
5.2
Graphen und elektrische Netzwerke
Ein (einfaches) elektrisches Netzwerk lässt sich mit einem zusammenhängenden, gewichteten
Graphen G(V, E, w) identifizieren, indem man einer Kante euv einen Widerstandswert ruv
−1 zuordnet. Haben wir eine Potentialdifferenz s
und damit eine Leitfähigkeit wuv = ruv
uv
zwischen dem Anfangs- und Endpunkt von euv , so fließt nach dem Ohm’schen Gesetz ein
elektrischer Strom
suv
iuv =
= suv wuv .
ruv
Weiters müssen wir dem Stromfluss eine Richtung geben. Dazu orientieren wir die Kanten des
Graphen beliebig. Einem positiven Strom iuv vom Knoten u zum Knoten v entspricht dann
einfach ein betragsmäßig gleicher, negativer Strom von v zu u, also ivu = −iuv . Analog ist
suv = −svu . Außer dem Ohm’schen Gestz benötigen wir noch zwei weitere bekannte Regeln,
die Kirchhoff ’schen Gesetze. Das erste Gesetz, die Knotenregel, besagt, dass in jedem Knoten
die Summe der zufließenden Ströme gleich der Summe der abfließenden Ströme sein muss.
In unserer vorzeichenbehafteten Notation haben wir also für jeden Knoten u
X
iuvi + iu,ext = 0,
i
wobei iu,ext jenen Strom bezeichne, der in u das Netzwerk verlässt. Das zweite Gesetz ist
die sogenannte Maschenregel. Sie besagt, dass die Summer aller Teilspannung jedes Zykels
49
verschwindet:
sv1 v2 + sv2 v3 + . . . + svn v1 = 0.
Da wir Potentiale beliebig eichen können, weisen wir jedem Knoten u ein fixes Potential vu
zu. Für einen Knoten können wir dieses frei wählen, alle anderen sind dann über suv = vv −vu
eindeutig festgelegt.
Wir wollen diese Zusammenhänge über Matrizen und Vektoren nun für den gesamten Graphen darstellen. Zuvor wollenPwir kurz an Kapitel 3 erinnern. Mit D wird die gewichtete
Gradmatrix D = D (u, u) = v6=u wuv bezeichnet, A (u, v) = wuv ist die gewichtete Adjazenzmatrix und die Laplacematrix ist definiert über L = D − A. Weiters haben wir die n × m
Inzidenzmatrix C definiert als


falls (u, x) = e
1
C (u, e) = −1 falls (x, u) = e


0
sonst,
und gezeigt, dass mit der m × m Diagonalmatrix W (e, e) = we die Laplace-Matrix L die
Darstellung L = CW C T besitzt.
Der Vektor iext (u) bezeichne den in jedem Knoten u zugeführten Strom, i (e) den dadurch
in jeder Kante e induzierten Strom. Die in den Knoten induzierten Potentiale fassen wir in
v (u) zusammen. Der Vektor C T v (e) enthält dann die in jeder Kante e induzierte Potentialdifferenz. Die Knotenregel lautet damit
Ci = iext .
Das Ohm’sche Gesetz lässt sich darstellen als
i = W C T v;
insgesamt ergibt sich also
iext = CW C T v = Lv.
Führen wir dem Netzwerk in Summe genausoviel Strom zu, wie wir wieder abfließen lassen,
so bedeutet dies
iext ⊥ span 1 = ker L
und wir können v darstellen als
v = L† iext ,
wobei L† die in Abschnitt 1.1.8 definierte Pseudoinverse von L ist. Induzieren wir einen Strom
mit Betrag 1 in einen Knoten u und extrahieren wir ihn wieder von einem Knoten v, so ergibt
sich eine Potentialdifferenz. Der Wert dieser Potentialdifferenz ist der Wirkwiderstand Ruv
zwischen u und v. Für diesen werden wir nun eine algebraische Definition herleiten. Sei
ce = C (·, e) die zur Kante e gehörige Spalte der Inzidenzmatrix. Wir betrachten die Kante
e = (u, v). Der induzierte und extrahierte Strom lässt sich darstellen als iext = ce = (χv − χu )
und ist orthogonal zu 1. Die induzierten Potentiale sind v = L† ce . Insgesamt erhalten wir
damit
v (u) − v (v) = (χv − χu )T v = cTe L† ce .
Somit ist Ruv = Re = cTe L† ce und die Matrix C T L† C hat damit als Diagonaleinträge
C T L† C (e, e) genau die Wirkwiderstände Re .
50
5.3
Algorithmus
5.3.1
Formulierung
Wir wenden uns nun dem Algorithmus zu, der den Sparsifier H aus G erzeugt:
Algorithmus 5.3.1 (H=Sparsify[G,q]). Wähle zufällig eine Kante e von G mit einer
we
Wahrscheinlichkeit pe proportional zu we Re und füge e mit Gewicht qp
zu H hinzu. Führe
e
diesen Vorgang insgesamt q-mal durch und addiere die Gewichte, falls eine Kante öfter ausgewählt wird.
Seien LG und LH die Laplace-Matrizen von G und H. Wir werden gleich zeigen, dass sich die
von LG und LH erzeugten quadratischen Formen nicht sehr stark voneinander unterscheiden,
falls H nach obigem Algorithmus konstruiert wird. Wegen des Satzes von Courant-Fischer
H
(Satz 1.1.8) gilt dannn auch für die Eigenwerte λG
i und λi von G und H
H
G
(1 − ǫ) λG
i ≤ λi ≤ (1 + ǫ) λi .
(5.1)
Weiters wissen wir aus Kapitel 3, dass die Eigenwerte der normalisierten Laplace-Matrix
L = D−1/2 LD−1/2 jenen der Übergangsmatrix D−1 L = I − D−1 A entsprechen. Somit gilt
(5.1) auch für die Eigenwerte der Übergangsmatrizen von G und H.
√1
n
< ǫ ≤ 1, G ein zusammenhängender, gewichteter Graph und H aus G
mittels Algorithmus 5.3.1 erzeugt. Ist q = 9c2 n log n/ǫ2 , c die Konstante aus Lemma 5.3.5
und n hinreichend groß, so gilt mit einer Wahrscheinlichkeit von mindestens 1/2, dass für
alle x ∈ Rn
Satz 5.3.2. Seien
(1 − ǫ) xT LG x ≤ xT LH x ≤ (1 + ǫ) xT LG x.
5.3.2
(5.2)
Beweis zu Satz 5.3.2
Zunächst betrachten wir die Matrix Π = W 1/2 C T L† CW 1/2 , die einige interessante Eigenschaften besitzt.
Lemma 5.3.3.
1. Π (e, e) = we Re .
2. Π ist eine Projektion.
3. im (Π) = im W 1/2 C T
4. Die Eigenwerte von Π sind 1 mit Vielfachheit n − 1 und 0 mit Vielfachheit m − n + 1.
5. Π (e, e) = kΠ (·, e)k2 .
Beweis. Für Punkt 1, beachte, dass C T L† C (e, e) = Re ist und damit
p
p
Π (e, e) = W (e, e)Re W (e, e) = we Re .
51
Punkt 2 ist erfüllt genau dann, wenn Π2 = Π gilt. Da L = CW C T ist und L† L = I auf
im L† haben wir
Π2 = W 1/2 C T L† CW 1/2 W 1/2 C T L† CW 1/2
= W 1/2 C T L† CW C T L† CW 1/2
= W 1/2 C T L† LL† CW 1/2
= W 1/2 C T L† CW 1/2
= Π.
Für Punkt 3 zeigen wir, dass im (Π) ⊆ im W 1/2 C T und im W 1/2 C T ⊆ im (Π) gilt. Die
erste Inklusion ist offensichtlich, da
im (Π) = im W 1/2 C T L† CW 1/2 ⊆ im W 1/2 C T .
Für die zweite Richtung sei y ∈ im W 1/2 C T . Für jedes derartige y können wir ein x
wählen, welches orthogonal auf ker W 1/2 C T = ker (L) steht, sodass y = W 1/2 C T x ist. Mit
L = CW C T gilt dann L† Lx = x und damit
Πy = W 1/2 C T L† CW 1/2 W 1/2 C T x
= W 1/2 C T L† Lx
= W 1/2 C T x
= y,
also im W 1/2 C T ⊆ im (Π). Punkt 4 sehen wir folgendermaßen ein: Aus Kapitel 3, Ab
schnitt 3.4 wissen wir, dass ker W 1/2 C T = span (1). Also ist dim ker W 1/2 C T = 1 und
somit dim im W 1/2 C T = n − 1. Da Π eine Projektionsmatrix ist, besitzt sie nur die Eigenwerte 0 und 1. Da sie weiters auf einen n − 1-dimensionalen Unterraum abbildet, muss
der Eigenwert 1 mit Vielfachheit n − 1 und 0 mit Vielfachheit m − n + 1 auftreten. Der letzte
Punkt folgt aus der Symmetrie von Π, da damit gilt
Π (e, e) = Π (·, e)T Π (·, e) = kΠ (·, e)k2 .
Wir werden nun zeigen, dass sich Ungleichung 5.2 auf die Erhaltung der von Π erzeugten
quadratischen Form zurückführen lässt. Wir wollen also statt xT Lx die quadratische Form
y T Πy betrachten. Dies bringt erhebliche Vorteile, da Π nur 0 und 1 als Eigenwerte besitzt.
e die Π in der
Insbesondere folgt dann aus der Spektraldekomposition, dass jede Matrix Π,
Spektralnorm approximiert, ebenfalls ihre quadratische Form erhält.
Wir können den von Algorithmus 5.3.1 erzeugten Graphen H = V, EH , wH mit Hilfe der
Diagonalmatrix
Σ (e, e) =
52
weH
we
(5.3)
beschreiben, wobei we = qpe ist und weH angibt, wie oft die Kante e ausgewählt wurde. Σ
ist also nichtnegativ und wir können mit ihrer Hilfe die Gewichtsfunktion von H schreiben
als weH = Σ (e, e) we . Die Gewichtematrix von H ist damit WH = W Σ = W 1/2 ΣW 1/2 und
die Laplace-Matrix damit
LH = CWH C T = CW 1/2 ΣW 1/2 .
Wir halten weiters fest, dass E weH = we ist, da wir q unabhängige Stichproben mit einer Wahrscheinlichkeit von pe nehmen. Für die Erwartungswerte von Σ und LH gilt damit
E (Σ) = I und E (LH ) = L. Wir können nun wie angekündigt folgendes Lemma beweisen:
Lemma 5.3.4. Sei ǫ > 0, Σ eine nichtnegative Diagonalmatrix und
kΠΣΠ − ΠΠk2 ≤ ǫ.
Dann gilt für alle x ∈ Rn
(1 − ǫ) xT Lx ≤ xT LH x ≤ (1 + ǫ) xT Lx
(5.4)
mit L = CW C T und LH = CW 1/2 ΣW 1/2 C T .
Beweis. Da für eine symmetrische Matrix A gilt
T y Ay kAk2 = sup
T
y6=0 y y
ist die Voraussetzung kΠΣΠ − ΠΠk2 ≤ ǫ äquivalent zu
T
y Π (Σ − I) Πy sup
≤ ǫ.
yT y
y∈Rm ,y6=0
(5.5)
Wir beschränken uns zunächst auf Vektoren y ∈ im W 1/2 C T . Nach Lemma 5.3.3 ist für
diese Vektoren Π die Identitätsmatrix, also Πy = y . Weiters können wir jedes solche y
schreiben als y = W 1/2 C T x mit einem x ∈ Rn . Setzen wir dies in (5.5) ein, so erhalten wir
T
y Π (Σ − I) Πy sup
yT y
y∈im(W 1/2 C T ),y6=0
T
y (Σ − I) y =
sup
yT y
y∈im(W 1/2 C T ),y6=0
T
x CW 1/2 ΣW 1/2 C T x − xT CW C T x
=
sup
xT CW C T x
x∈Rn ,W 1/2 C T x6=0
T
x LH x − xT Lx
≤ ǫ.
=
sup
xT Lx
x∈Rn ,W 1/2 C T x6=0
Lösen wir den Betrag auf, so ist dies äquivalent zu
xT LH x − xT Lx
xT LH x − xT Lx
≤ ǫ ∧ inf x ∈ Rn , W 1/2 C T x 6= 0
≥ −ǫ
T
x Lx
xT Lx
x∈Rn ,W 1/2 C T x6=0
sup
53
und dies wiederum zu
xT LH x − xT Lx
−ǫ ≤
≤ǫ
xT Lx
für alle x ∈ Rn mit x ∈
/ ker W 1/2 C T . Umformen ergibt daraus (5.4). Ist x ∈ ker W 1/2 C T ,
so ist xT Lx = xT LH x = 0 und (5.4) trivialerweise erfüllt.
Wir haben also unser Problem darauf reduziert zu untersuchen, unter welchen Bedingungen
kΠΣΠ − ΠΠk2 ≤ ǫ hinreichend klein bleibt. Wir verwenden dazu den folgenden Verdichtungssatz, der in gewisser Weise ein Gesetz der großen Zahlen“ für symmetrische Rang-1”
Matrizen darstellt:
Satz 5.3.5 (Rudelson & Vershynin, [23], Theroem 3.1). Sei y ein Zufallsvektor im Rd , der
der Verteilung p genügt
und fast überall gleichmäßig beschränkt ist: kyk2 ≤ M . Weiters sei
y so, dass E yy T ≤ 1 gilt. Sind y1 , · · · , yq verschiedene, unabhängige Realisationen von y,
so gilt mit einer positiven Konstante C
s
q
!
1 X
log
q
E
,1 .
(5.6)
yi yiT − E yy T ≤ min CM
q
q
i=1
2
Eine Folgerung aus diesem Satz ist unter anderem, dass sich eine Matrix A durch zufällige
Auswahl von genügend vieler ihrer Reihen gut in der Spektralnorm approximieren lässt.
Für skalare Zufallsvariablen erhalten wir genau das klassische Gesetz der großen Zahlen.
Im Gegensatz zur skalarwertigen Version ist die operatorwertige Version allerdings schwieriger zu beweisen, da statt des Betrages die Operatornorm und damit das Supremum eines
Zufallsprozesses abgeschätzt werden muss. Im Beweis von Satz 5.3.5 wird zunächst die Zufallsvariable symmetrisiert; für den entstehenden, symmetrischen Zufallsprozessprozess lässt
sich dann eine geeignete Schranke finden. Ein ausführlichen Beweis und Anwendungen des
Satzes sind in [23] und [22] nachzulesen.
Wir können nun den Beweis von Satz 5.3.2 beenden:
Beweis zu Satz 5.3.2. Der von Algorithmus 5.3.1 erzeugte Graphen H beinhaltet jede Kante
e von G mit einer Wahrscheinlichkeit von pe = P we Rwee Re . Nach Lemma 5.3.3 ist
e∈E
X
we Re = Tr (Π) = n − 1
e∈E
we R e
n−1 .
Die Gewichte weH geben wie in (5.3) wieder an, wie oft die Kante e
und damit pe =
ausgewählt wird. Die Auswahl von q Kanten entspricht der Auswahl von q Spalte von Π, wir
können also schreiben
X
ΠΣΠ =
Σ (e, e) Π (·, e) Π (·, e)T
e
=
X wH
e
e
=
qpe
Π (·, e) Π (·, e)T
1 X H Π (·, e) Π (·, e)T
w √
√
q e e
pe
pe
q
=
1X T
yi yi
q
i=1
54
für voneinander unabhängige Realisationen y1 , . . . , yq eines Zufallsvektors y, der der Verteilung
1
√ Π (·, e)
pe
genügt. Wir zeigen nun, dass die Voraussetzungen von Satz 5.3.5 erfüllt sind: Für den Erwartungswert von yy T gilt
X 1
E yy T =
pe Π (·, e) Π (·, e)T = ΠΠ = Π
pe
e
und damit E yy T 2 = kΠk2 = 1. Die Norm von y ist ebenfalls beschränkt, da
r
n−1 √
1
1 p
= n − 1.
Π (e, e) =
√ kΠ (·, e)k2 = √
pe
pe
Re w e
Mit q = 9C 2 n log n/ǫ2 liefert uns Satz 5.3.5 damit für n hinreichend groß
s
q
1 X
log (9C 2 n log n/ǫ2 ) (n − 1)
EkΠΣΠ − ΠΠk2 = E
≤ ǫ/2,
yi yiT − E yy T ≤ C ǫ2
q
9C 2 n log n
i=1
2
√
da wir ǫ > 1/ n vorausgesetzt haben. Die Markov-Ungleichung liefert nun
1
P (kΠΣΠ − ΠΠk2 ≥ ǫ) ≤ EkΠΣΠ − ΠΠk2
ǫ
und damit nach Umformen, dass
kΠΣΠ − ΠΠk2 ≤ ǫ
mit einer Wahrscheinlichkeit von mindestens 1/2 erfüllt ist. Zusammen mit Lemma 5.3.4 ist
damit der Satz bewiesen.
Um Algorithmus 5.3.1 anwenden zu können, benötigen wir die Wirkwiderstände Re des
Graphen G. Grundsätzlich gibt es verschiedene Techniken, diese exakt zu berechen (siehe
dazu [3]), diese gestalten sich allerdings schon bei sehr einfachen Netzwerken höchst kompliziert und rechentechnisch äußerst aufwändig. Das folgende Korollar zeigt jedoch, dass die
Verwendung von näherungsweisen Werten den Sparsifier H nicht wesentlich verschlechtert.
Im darauffolgenden Abschnitt zeigen wir, wie wir solche Näherungen effizient berechnen
können.
Korollar 5.3.6. Sei α ≥ 1 und seien Ze Werte, die den beiden Abschätzungen
X
X
Re
Ze ≥
und
w e Ze ≤ α
w e Re
α
e
e
genügen. Führen wir nun Algorithmus 5.3.1 durch, verwenden jedoch statt pe =
p′e
Wahrscheinlichkeiten
=
tens 1/2 der Abschätzung
Pwe Ze ,
e we Z e
Pwe Re
e we R e
die
so genügt H mit einer Wahrscheinlichkeit von mindes-
(1 − αǫ) xT Lx ≤ xT LH x ≤ (1 + αǫ) xT Lx.
55
(5.7)
Beweis. Es gilt auf Grund der Voraussetzungen
we (Re /α)
pe
w e Ze
≥ P
= 2.
p′e = P
α e we Re
α
e w e Ze
Wir können nun genauso wie im Beweis zu Satz 5.3.2 verfahren. Der einzige Unterschied
besteht darin, dass die Norm des Zufallsvektors y nun durch
√
1
α p
p kΠ (·, e)k2 ≤ √
Π (e, e) = α n − 1
′
pe
pe
beschränkt wird anstatt nur durch
letzten Abschätzung erhalten.
5.4
√
n − 1 und wir damit α als zusätzlichen Faktor in der
Berechnung näherungsweiser Widerstände
In diesem Abschnitt werden wir zeigen, wie sich eine O (log n) × n-Matrix Ze berechnen lässt,
aus der wir die Wirkwiderstände Ruv zwischen zwei beliebigen Knoten u und v ∈ V in
O (log n) Zeit berechnen können:
Satz 5.4.1. Es existiert ein Algorithmus, der
für jedes ǫ > 0 und einen Graphen G =
(V, E, w) mit r = wmax /wmin eine 24 log n/ǫ2 × n-Matrix Ze in erwarteter O m (log r) /ǫ2
Zeit berechnet, sodass mit einer Wahrscheinlichkeit von mindestens 1 − 1/n für jedes Knotenpaar u, v ∈ V gilt
2
(1 − ǫ) Ruv ≤ Ze (χu − χv ) ≤ (1 + ǫ) Ruv .
Wir können für zwei beliebige Knoten in V den Wirkwiderstand einfach als Abstand zwischen
zwei Vektoren aus {W 1/2 C T L† χv }v∈V ausdrücken. Mit Hilfe des Johnson-LindenstraussLemmas (Kapitel 6) können wir dann die Dimension der Vektoren reduzieren, ohne dabei
allzuviel Information zu verlieren. Hier seien nur die wesentlichen Punkte des Beweises skizziert, eine vollständige Ausführung findet sich in [29].
Beweisskizze zu Satz 5.4.1. Aus Abschnitt 5.2 wissen wir, dass für u, v ∈ V
Ruv = (χu − χv )T L† (χu − χv )
ist. Da weiters L† L = I auf im L† gilt, ist dieser Ausdruck gleich
(χu − χv )T L† LL† (χu − χv )
und mit L = CW C T ist dies wiederum äquivalent zu
(χu − χv )T L† CW 1/2
2
W 1/2 C T L† (χu − χv ) = W 1/2 C T L† (χu − χv ) .
2
And dieser Stelle verwenden wir das Johnson-Lindenstrauss Lemma, um die Vektoren auf
einen von O (log n) Zufallsvektoren aufgespannten Unterraum zu projizieren. Dieses behandeln wir in Kapitel 6 genauer. Hier bedienen wir uns einer konkreten Version aus [1]:
56
Lemma 5.4.2. Seien v1 , . . . , vn ∈ Rd , ǫ > 0 und k ≥ 24 log n/ǫ2 . Sei Q eine k × d Matrix,
deren Einträge unabhängige Zufallsvariablen sind, die der Verteilung
( 1
√
mit Wahrscheinlichkeit 12
k
Q (i, j) =
− √1k mit Wahrscheinlichkeit 21
genügen. Dann gilt mit einer Wahrscheinlichkeit von mindestens 1 − 1/n
(1 − ǫ) kvi − vj k22 ≤ kQvi − Qvj k22 ≤ (1 − ǫ) kvi − vj k22
für alle Paare (i, j) mit 1 ≤ i, j ≤ n.
Damit haben wir also das Problem, einen guten Sparsifier H zu erzeugen darauf reduziert,
die Matrix Z = QW 1/2 C T L† zu berechnen. Dies erfordert lediglich“ einen (effizienten)
”
Lösungsalgorithmus für lineare Gleichungssysteme, der uns eine gute Näherung Ze für Z liefert. Es gibt zahlreiche Möglichkeiten dafür. In der Tat ist die Entwicklung und Verbesserung
solcher Algorithmen in Verbindung mit Sparsifieren ein hochaktuelles Forschungsgebiet und
es sei dazu unter anderem auf die Arbeiten von Spielman und Teng ( [28, 31–33]) verwiesen.
Als Beispiel sei hier der Algorithmus aus [31] angegeben:
p
Satz 5.4.3. Sei kykL := y T Ly. Es gibt einen Algorithmus ST Solve (L, y, δ), der als Input
eine Laplace-Matrix L, einen Spaltenvektor y und einen Fehlerparameter δ nimmt und einen
Vektor x ausgibt, der die Abschätzung
x − L † y ≤ ǫ L † y L
L
erfüllt. Der Algorithmus besitzt eine erwarteteLaufzeit von O (m log (∞/δ)), wobei m die
Anzahl der Einträge von L bezeichnet, die ungleich Null sind.
Es lässt sich zeigen (siehe dazu
[29], Lemma 9), dass es für die in Satz 5.4.1 behauptete
Laufzeit von O m (log r) /ǫ2 (mit r = wmin /wmax ) ausreicht, Algorithmus 5.4.3 mit dem
Parameter
s
ǫ
2 (1 − ǫ)
δ=
r
3 (1 + ǫ) n3
aufzurufen. Insgesamt bedeutet die Konstruktion von Ze dann
Aufwand von
einen zeitlichen
2
e
2
2
O m log (1/δ) /ǫ = O m log r/ǫ . Die Wirkwiderstände Z (χu − χv ) ≈ Ruv für u, v ∈
V lassen sich dann einfach in O log n/ǫ2 Zeit berechnen, indem man zwei Spalten von Ze
subtrahiert und die Norm dieser Differenz berechnet.
Auf diese Weise erhalten wir beliebig genaue Näherungen für die Wirkwiderstände Re . Aus
Korollar 5.3.6 folgt schließlich, dass wir mit einer solchen Approximation einen Sparsifier
bekommen.
57
58
Kapitel 6
Das Johnson-Lindenstrauss Lemma
6.1
Einführung
In Kapitel 5 verwenden wir das Johnson-Lindenstrauss Lemma, ein klassisches Resultat von
Johnson und Lindenstrauss aus [16], das in vielen Bereichen der Mathematik von fundamentaler Bedeutung ist. Im Wesentlichen besagt es, dass sich jede Menge aus n Punkten
im d-dimensionalen, euklidischen Raum in den k = O log n/ǫ2 -dimensionalen, euklidischen
Raum einbetten lässt, ohne dass dabei die Abstände zwischen je zwei Punkten um mehr als
einen Faktor (1 ± ǫ) mit 0 < ǫ < 1 verändert werden. Anwendungsgebiete sind beispielsweise
die Dimensionsreduktion in Datenbanken ( [1]) oder das Nearest-Neighbour-Problem (siehe [15]), bei dem zu einem beliebigen Punkt x der nächstgelegene Punkt aus einer gegebenen
Menge P bestimmt werden soll.
Satz 6.1.1 (Johnson-Lindenstrauss). Sei 0 < ǫ < 1 und n ∈ N. Sei k eine positive ganze
Zahl, sodass
k≥4
ǫ2 ǫ3
−
2
3
−1
ln n.
(6.1)
Dann existiert für eine beliebige Menge V bestehend aus n Punkten im Rd eine Abbildung
f : Rd → Rk sodass für alle u, v ∈ V gilt:
(1 − ǫ)ku − vk2 ≤ kf (u) − f (v)k2 ≤ (1 + ǫ)ku − vk2
6.2
Beweis
Der ursprüngliche, probabilistische Beweis aus [16] wurde von Frankl und Maehara in [13]
wesentlich vereinfacht; der Beweis, den wir hier geben benötigt nur mehr elementares, wahrscheinlichkeitstheoretisches Werkzeug und hält sich an jenen von Gupta und Dasgupta
aus [10]. Wir beginnen mit einem Lemma, das uns eine Möglichkeit aufzeigt, gleichverteilte,
normierte Zufallsvektoren zu erzeugen:
Lemma 6.2.1. Sei X = (X1 , · · · , Xd ) ein Zufallsvektor mit unabhängigen, standardnor1
malverteilten Komponenten und sei Y = kXk
X. Dann ist Y gleichverteilt auf der (d − 1)dimensionalen Einheitssphäre S d−1 .
59
Beweis. X besitzt die Wahrscheinlichkeitsdichte
f (x) = √
1
2π
d e
(−1/2)xT x
.
Sei XU = U X, wobei U eine orthogonale Matrix ist. Dann gilt für die Wahrscheinlichkeitsverteilung P (XU ∈ A) mit A ⊂ Rd messbar
P (XU ∈ A) = P X ∈ U T A
ˆ
1
(−1/2)xT x
=
√ d e
T
U A
2π
ˆ
1
(−1/2)(U x)T (U x)
=
√ d e
A
2π
ˆ
1
(−1/2)xT x
,
=
√ d e
A
2π
da U T U = I. Somit ist auch XU ein Zufallsvektor mit unabhängigen, standardnormalverteilten Komponenten. Insbesondere lässt sich jede Rotation als Multiplikation mit einer orthogonalen Matrix darstellen. Also ist der Zufallsvektor X invariant gegenüber Rotationen. Da
1
Y = kXk
X nichts anderes als die Projektion von X auf S d−1 ist, können wir somit folgern,
dass Y auf S d−1 gleichverteilt ist.
Im Folgenden sei Y wie in Lemma 6.2.1 und Z ∈ Rk die Projektion von Y auf die ersten k
Pk
Xi2
2
Koordinaten. Mit Ai := X 2 +···X
2 gilt L := kZk =
i=1 Ai . Die erwartete Länge von Z ist
1
µ := EL = kd . Dies folgt aus
d
1=E
d
X
Ai =
d
X
EAi ,
i=1
i=1
da alle Komponente von X unabhängig sind und die gleiche Verteilung besitzen und somit
EAj = const. ist für alle j = 1, · · · , d. Die zentrale Abschätzung für den Beweis von Satz 6.1.1
liefert folgendes Lemma:
Lemma 6.2.2. Sei k < d. Dann gilt:
1. Ist β < 1, dann ist
(d−k)
2
k
(1 − β) k
βk
k/2
≤β
1+
P L≤
≤ e 2 (1−β+ln β)
d
d−k
(6.2)
2. Ist β > 1, so ist
(d−k)
2
k
βk
(1 − β) k
k/2
P L≥
≤β
1+
≤ e 2 (1−β+ln β)
d
d−k
Wir werden diese Abschätzungen erst im Anschluss beweisen.
60
(6.3)
Beweis zu Satz 6.1.1. Ist d ≤ k, so ist nichts zu zeigen. Sei also k < d. Wir betrachten nun
für fixes i und j die Punkte vi und vj ∈ V und den auf 1 normierten Abstandsvektor vc
ij zwischen diesen. Wir wollen nun eine Projektion auf einen zufällig gewählten, k-dimensionalen
Unterraum durchführen, indem wir zuerst das Koordinatensystem einer zufälligen, gleichverteilten Rotation unterziehen und dann auf die ersten k Koordinaten projizieren. Nach den
′ = v′ − v′ ,
anfangs durchgeführten Überlegungen erhalten wir dann aber einen Vektor vij
j2
i
′
′
der genau der gleichen Verteilung wie Z genügt. Damit sind aber auch L und vi − vj 2
identisch verteilt mit Erwartungswert kd . Wir können also L = vi′ − vj′ und µ = kd setzen und Lemma 6.2.2 anwenden. Da Projektionen
2Abbildungen sind, bekommen wir
lineare
′
′
2
für den Fall kvi − vj k = c 6= 1 lediglich L = c vi − vj und µ = c2 kd , was nichts an der
Abschätzung ändert, da sich c2 in der Ungleichung kürzt. Es gilt in jedem Fall
k
P (L ≤ (1 − ǫ) µ) ≤ exp
(1 − (1 − ǫ) + ln (1 − ǫ))
2
und weiter mit ln (1 − ǫ) ≤ − ǫ + ǫ2 /2
ǫ2
k
≤ exp
ǫ− ǫ+
2
2
2
kǫ
= exp −
4
1
≤ exp (−2 ln n) = 2 ,
n
wobei wir in der letzten Zeile Bedingung (6.1) verwendet haben. Ähnlich erhalten wir mit
dem zweiten Teil von Lemma 6.2.2
k
P (L ≤ (1 + ǫ) µ) ≤ exp
(1 − (1 + ǫ) + ln (1 + ǫ))
2
und weiter mit ln (1 + ǫ) ≤ ǫ − ǫ2 /2 + ǫ3 /3
k
ǫ2 ǫ3
≤ exp
+
−ǫ + ǫ −
2
2
3
!
2
3
k ǫ /2 − ǫ /3
= exp −
2
≤ exp (−2 ln n) =
1
,
n2
wobei wir am Schluss wieder Bedingung (6.1) benützt haben. Wir erhalten also für ein fixes
Paar Indices i und j durch Umformen und die Definitionen von L und µ

 q
d ′ q d ′ 2
vi − k vj 

1

 k
≤
1
−
ǫ
P
(6.4)
≤ 2
2
 n

kvi − vj k
61
und

 q
d ′ q d ′ 2

 k vi − k vj 1


≥ 1 + ǫ ≤ 2 ,
P
2
n


kvi − vj k
also insgesamt mit f (vi ) :=
q
(6.5)
d ′
k vi
kf (vi ) − f (vj )k
P 1−ǫ≤
2
kvi − vj k
≤1+ǫ
!
≥1−
2
.
n2
(6.6)
Da es genau n(n−1)
Möglichkeiten gibt, ein Paar vi und vj auszuwählen, ist die Wahrschein2
lichkeit, dass für irgendein Paar diese Wahrscheinlichkeit außerhalb der Epsilon-Umgebung
· n22 = 1 − n1 . Also besitzt f die gewünschten Eigenschaften mit einer
liegt, höchstens n(n−1)
2
Wahrscheinlichkeit von wenigstens n1 .
Bemerkung 6.2.3. Mit diesem Beweis ist die Existenz der Abbildung gezeigt. Wollen wir
die Abbildung f tatsächliche berechnen, müssen wir die Zufallsprojektion lediglich oft genug
ausführen. Wiederholen wir die Projektion K Mal, so erhalten wir eine ErfolgswahrscheinK
lichkeit von 1 − 1 − n1 , was für K → ∞ gegen 1 konvergiert.
Wir beweisen nun noch Lemma 6.2.2:
Beweis zu Lemma 6.2.2. Für die nachfolgende Abschätzung benötigen wir folgende Identität: Für eine N (0, 1)-verteilte Zufallsvariable X gilt mit −∞ < s < 21
1
2
E esX = √
.
(6.7)
1 − 2s
Dies sieht man wie folgt:
E e
für −∞ < s < 12 . Da
2
sX 2
−x dx =
Re
´
√
x2
1
2
√ esx e− 2 dx
2π
R
ˆ − √1−2sx 2
)
(
1
2
√
e
dx
=
2π R
=
ˆ
π ergibt Substitution mit t :=
1
=p
π (1 − 2s)
1
=√
,
1 − 2s
ˆ
q
1−2s
2 x
2
R
e−t dt
wie behauptet. Nun ist
βk
= P d X12 + · · · + Xk2 ≤ kβ X12 + · · · + Xd2
P L≤
d
62
und wir zeigen, dass
P d
X12
+ ··· +
Xk2
gilt:
X12
≤ kβ
+
· · · Xd2
(d−k)
2
k (1 − β)
1+
≤β
d−k
k
2
(6.8)
P d X12 + · · · + Xk2 ≤ kβ X12 + · · · + Xd2
= P kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 ≥ 0
≥1
= P exp t kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
für t > 0. Mit der Markow-Ungleichung P (|X| ≥ a) ≤ a1 E (|X|) lässt sich dies nach oben
abschätzen durch
E exp t kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
2
.
+ · · · + Xd2
= E exp t (kβ − d) X12 + · · · + Xk2 + tkβ Xk+1
Da alle Xi unabhängig voneinander sind, können wir mit X ∼ N (0, 1) dies schreiben als
(d−k)
k
E exp tkβX 2
E exp t (kβ − d) X 2
und unter den Zusatzbedingungen tkβ < 1/2 und t (kβ − d) < 1/2 erhalten wir
(1 − 2tkβ)−
(d−k)
2
k
(1 − 2t (kβ − d))− 2 .
(d−k)
k
Wir setzen g (t) = (1 − 2tkβ)− 2 (1 − 2t (kβ − d))− 2 . Da t > 0, impliziert tkβ < 1/2 bereits t (kβ − d) < 1/2. Wir wollen nun t so wählen, dass g(t) minimal wird. Dazu maximieren
wir die Funktion
ge(t) = (1 − 2tkβ)(d−k) (1 − 2t (kβ − d))k
1
im Intervall 0 < t < 2kβ
. Wir differenzieren dazu ge(t) und setzen die Ableitung gleich Null.
Nach Kürzen erhalten wir:
und weiter
0 = ge′ (t0 ) = −β (d − k) (1 − 2t0 (kβ − d)) − (kβ − d) (1 − 2t0 kβ)
t0 =
1−β
,
2β (d − kβ)
was im erlaubten Intervall liegt. Somit gilt
d − k d−k 1 k
ge (t0 ) =
.
d − kβ
β
Mit g (t0 ) = (e
g (t0 ))−1/2 folgt
g (t0 ) = β
k/2
(1 − β) k
1+
d−k
63
(d−k)
2
und somit insgesamt
X12
P d
+ ··· +
Xk2
≤ kβ
X12
+ ··· +
Xd2
≤β
k/2
(1 − β) k
1+
d−k
(d−k)
2
,
was genau den ersten Teil der behaupteten Abschätzung liefert. Der zweite Teil der Ungleichungskette folgt mit 1 + x ≤ ex , da
β
k/2
(d−k)
2
(1 − β) k
d−k
(1 − β) k
k/2
1+
≤ β exp
d−k
d−k
2
k
(1 − β)
= β k/2 exp
2
k
= exp
(1 − β + ln β) .
2
Der zweite Teil des Lemmas folgt aus einer analogen Abschätzung:
P d X12 + · · · + Xk2 ≥ kβ X12 + · · · + Xd2
= P − kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2 ≥ 0
≥1
= P exp (−t) kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
für t > 0. Mit der Markow-Ungleichung lässt sich dies wieder abschätzen durch
E exp (−t) kβ X12 + · · · + Xd2 − d X12 + · · · + Xk2
2
.
+ · · · + Xd2
= E exp (−t) (kβ − d) X12 + · · · + Xk2 + (−t)kβ Xk+1
Mit X ∼ N (0, 1) lässt sich dies wiederum schreiben als
(d−k)
k
E exp (−t) kβX 2
E exp (−t) (kβ − d) X 2
und unter den Bedingungen (−t) kβ < 1/2 und (−t) (kβ − d) < 1/2 weiter als
(1 − 2 (−t) kβ)−
(d−k)
2
k
(1 − 2 (−t) (kβ − d))− 2 .
Mit der Notation von oben ist der letzte Ausdruck also g(−t) unter der Zusatzbedingung
0 < t < 21 (d − kβ). Somit liegt das Minimum von g bei (−t0 ), mit t0 definiert wie oben und
liegt im erlaubten Intervall, da nach Voraussetzung β > 0 ist. Wir erhalten somit
P d
X12
+ ··· +
Xk2
≥ kβ
X12
+ ··· +
Xd2
≤β
k/2
(d−k)
2
(1 − β) k
1+
d−k
wie behauptet. Der zweite Teil der Abschätzung folgt wie oben.
64
6.3
Varianten
Es gibt nun verschiedene Varianten, die im Beweis angeführte, gleichverteilte Rotation des
Koordinatensystems tatsächlich durchzuführen. Eine Möglichkeit besteht darin, den Vektor mit einer zufälligen Rotationsmatrix zu multiplizieren. Dazu erzeugen wir eine Matrix
mit vollem Rang, deren Einträge N (0, 1) verteilt sind und orthogonalisieren mit Hilfe von
Gram-Schmidt die Spalten. Für einen effizienten Algrithmus ist dieser Prozess allerdings sehr
aufwendig. Es lässt sich allerdings zeigen, dass wir nicht unbedingt eine orthogonale Matrix
benötigen und auf die Orthogonalisierung verzichten können. Weiters sind wir auch nicht an
die Normalverteilung gebunden. Eine andere Möglichkeit ist jene aus [1], die in Kapitel 5
zur Anwendung kommt, eine Matrix mit binomialverteilten Einträgen verwendet und damit
sogar eine etwas bessere Konstante k liefert:
Satz 6.3.1 (Achlioptas, [1]). Seien v1 , . . . , vn ∈ Rd , ǫ, β > 0 und
k≥
4 + 2β
log n
− ǫ3 /3
ǫ2 /2
Sei Q eine k×d Matrix, deren Einträge unabhängige Zufallsvariablen sind, die der Verteilung
( 1
√
mit Wahrscheinlichkeit 12
k
Q (i, j) =
− √1k mit Wahrscheinlichkeit 21
genügen. Dann gilt mit einer Wahrscheinlichkeit von mindestens 1 − 1/nβ
(1 − ǫ) kvi − vj k22 ≤ kQvi − Qvj k22 ≤ (1 + ǫ) kvi − vj k22
für alle Paare (i, j) mit 1 ≤ i, j ≤ n.
Der Parameter β kontrolliert (so wie in Bemerkung 6.2.3 die Anzahl K der Wiederholungen) die Erfolgswahrscheinlichkeit der Projektion. Insbesondere erhalten wir mit β = 1 jene
Version, die wir in Kapitel 5, Satz 5.4.2 verwenden. Für β → 0 erhalten wir die Konstanten
aus Satz 6.1.1. Dies sieht man wie folgt: Die Misserfolgswahrscheinlichkeit der Projektion für
2
. Wie im
ein einzelnes Paar u, v ∈ V lässt sich in dieser Formulierung abschätzen durch n2+β
Beweis von Satz 6.1.1 erhalten wir insgesamt für die Erfolgswahrscheinlichkeit der Projektion
2
die Abschätzung 1 − n(n−1)
. Für β → 0 beträgt sie also 1/n, für β = 1 erhalten wir
2
n2+β
2
n −n+1
1
< 1 − n.
n2
65
66
Kapitel 7
Der Satz von Weyl
Bis jetzt haben wir uns im Wesentlichen nur mit Eigenwerten von Matrizen und dem diskreten Laplace-Operator beschäftigt. Wir gehen nun einen Schritt weiter und betrachten die
Eigenwerte des Laplace-Operators auf Gebieten im Rd .
7.1
Vorbemerkungen
Wir betrachten in diesem Abschnitt für ein beschränktes Gebiet B mit zweimal stetig differenzierbarem Rand das Wärmeleitungsproblem
1
∂u
(t, x) = ∆u (t, x)
∂t
2
u (0, x) = f (x)
u = 0.
(7.1)
∂B
Wir wollen in diesem Kapitel den Satz von Weyl und damit einige Aussagen über die Eigenwerte dieses Problems und deren asymptotisches Verhalten treffen. Grundsätzlich gibt es
dafür zwei verschiedene Zugänge: Der erste führt über die Theorie der Integralgleichungen
(siehe dazu [11]), der zweite und auch unser Zugang ist stochastischer Natur, da die Fundamentallösungen von (7.1) gleichzeitig die Dichten der Übergangswahrscheinlichkeiten einer
Brown’schen Bewegung sind, die beim Austritt aus B gestoppt wird. In den ersten beiden
Abschnitten werden wir die Brown’sche Bewegung näher untersuchen, um dann im dritten
Teil den Satz beweisen zu können. Als Grundlage dafür dienen die Bücher von Bass und
Port & Stone (siehe [3, 21]).
Spektralsatz
Die Basis der gesamten Beweisführung liefert der Spektralsatz für kompakte, selbstadjungierte Operatoren. Wir werden zeigen, dass die uns interessierenden Operatoren tatsächlich
kompakt und selbstadjungiert sind, um von der Spektraldekomposition Gebrauch machen zu
können. Weiteres dazu kann in jedem Standardwerk zur Funktionalanalysis gefunden werden,
siehe etwa [19].
Satz 7.1.1 (Spektralsatz). Sei H ein separabler Hilbertraum mit dem inneren Produkt h·, ·i
und T : H → H ein kompakter, selbstadjungierter Operator. Dann existiert ein Orthonormalsystem {xn : n ∈ N} in H und eine Folge reeller Zahlen {λn : n ∈ N}, sodass gilt:
67
1. Für alle n ∈ N ist T xn = λn xn .
2. limn→∞ λn = 0.
3. Ist z ∈ span{xn : n ∈ N}, so gilt T z =
⊥
P∞
n=1 λn hz, xn ixn .
4. Ist z ∈ span{xn : n ∈ N} , so gilt T z = 0.
7.2
Brown’sche Bewegung
In diesem Abschnitt definieren wir die Brown’sche Bewegung und fassen einige wichtige
Eigenschaften zusammen, die wir als Basis für die nachfolgenden Abschnitte benötigen.
Grundlegende Begriffe und Resultate der Wahrscheinlichkeitstheorie werden vorausgesetzt
und können etwa in [12] gefunden werden.
Definition 7.2.1. Für t > 0 sei p (t, ·) die Dichte der Normalverteilung auf Rd , definiert
über
d
p (t, y) = (2πt)− 2 e−
kyk2
2t
füry ∈ Rd .
Desweiteren definieren wir
p (t, x, y) := p (t, y − x) für x, y ∈ Rd .
Die Dichten p sind symmetrisch in x und y und erfüllen für s, t > 0 und x, y ∈ Rd die
Halbgruppeneigenschaft
ˆ
p (s + t, x, y) = p (s, x, z) p (t, z, y) dz.
Sei weiters (Ω, F, P) ein Wahrscheinlichkeitsraum, B die Borel’sche Sigma-Algebra auf [0, ∞)
und X (t, ω) = Xt (ω) = ω (t) ein stochastischer Prozess definiert auf [0, ∞) × Ω.
Definition 7.2.2. Der stochastische Prozess Xt heißt eindimensionale Brown’sche Bewegung
mit Startpunkt x ∈ R, falls er folgende Bedingungen erfüllt:
1. X0 = x fast sicher,
2. für alle s ≤ t ist Xt − Xs normalverteilt mit Mittelwert 0 und Varianz t − s,
3. für alle s ≤ t sind die Zuwächse Xt − Xs unabhängig von σ (Xr , r ≤ s) und
4. die Abbildung t −→ Xt (ω) ist mit Wahrscheinlichkeit 1 stetig.
Hierbei bezeichne σ (Xr ; r ≤ s) die kleinste Sigma-Algebra, bezüglich derer jedes Xr mit
r ≤ s messbar ist. Seien Xt1 , · · · , Xtd unabhängige, eindimensionale Brown’sche Bewegungen.
Dann definieren wir eine d-dimensionale Brown’sche Bewegung über
Xt := Xt1 , · · · , Xtd .
Im Folgenden sei Ω die Menge aller stetigen Funktionen (Pfade) von [0, ∞) nach Rd und
ω ∈ Ω. Es lässt sich nun zeigen (siehe etwas [3]), dass Xt genau dann eine d-dimensionale
68
Brown’sche Bewegung mit Startpunkt x ist, wenn für 0 ≤ t1 < t2 < · · · < tn die Zufallsvariablen {X(ti )}1≤i≤n die gemeinsame Verteilungsdichte
p (t1 , x, x1 ) p (t2 − t1 , x1 , x2 ) · · · p (tn − tn−1 , xn−1 , xn ) mit x1 , · · · xn ∈ Rd
besitzen. Außerdem existiert für jedes x ∈ Rd ein eindeutiges Wahrscheinlichkeitsmaß Px ,
das der Brown’schen Bewegung mit Startpunkt x entspricht.
7.3
Gestoppte Brown’sche Bewegung
Sei pB (t, x, y) die Übergangswahrscheinlichkeit einer Brown’schen Bewegung, die beim Austritt aus dem Gebiet B gestoppt wird. Ziel dieses Abschnitts ist es, eine explizite Darstellung
für pB (t, x, y) anzugeben und zu zeigen, dass pB genauso wie p symmetrisch in x und y ist
und einer Halbgruppeneigenschaft genügt. Zunächst wollen wir die Definition von pB heuristisch motivieren. Sei τB (ω) die Austrittszeit der Brown’schen Bewegung aus dem Gebiet
B. Es ist
p (t, x, y) dy = Px (Xt ∈ dy)
= Px (Xt ∈ dy; τB ≥ t) + Px (Xt ∈ dy; τB < t)
Der erste Term auf der rechten Seite entspricht genau pB (t, x, y), den zweiten können wir
mittels der starken Markov-Eigenschaft schreiben als
Ex PXτB (Xt−τB ∈ dy) ; τB < t
oder äquivalent dazu
Ex [p (t − τB , XτB , y) ; τB < t] .
Genau diese Relation verwenden wir nun, um pB zu definieren. Sei
rB (t, x, y) := Ex [p (t − τB , XτB , y) ; τB < t]
(7.2)
pB (t, x, y) := p (t, x, y) − rB (t, x, y) .
(7.3)
und
Integrieren wir (7.3) nun über eine Menge A, so erhalten wir
ˆ ˆ
ˆ
ˆ
p (t − τB , XτB , y) p (t, x, ye) de
y dy,
p (t, x, y)dy +
pB (t, x, y) dy =
A
A
A
τB <t
wobei wir den Erwartungswert als Integral geschrieben haben. Nach Vertauschen der Integrationsreihenfolge ist die rechte Seite weiter gleich
Px (Xt ∈ A) − Ex EXτB [1A (Xt−τB )] ; τB < t .
Für den zweiten Term verwenden wir die Markov-Eigenschaft in folgender Form: Für s, r ≥ 0
gilt Ex f (Xs+r ) = Ex EXs f (Xr ) . Die starke Markov-Eigenschaft besagt, dass s auch eine
Stoppzeit sein kann. Damit ist obiger Ausdruck weiter äquivalent zu
Ex 1A (Xt ) − Ex [1A (Xt ) ; τB < t] = Ex [1A (Xt ) ; τB ≥ t] = Px (Xt ∈ A; τB ≥ t) .
Also ist pB (t, x, y) eine Wahrscheinlichkeitsdichte für Px (Xt ∈ A; τB ≥ t) und folglich fast
überall nicht-negativ. Zusammenfassend können wir somit schreiben:
69
Definition 7.3.1. Sei A ⊆ Rd , x ∈ Rd und t ≥ 0. Sei
x
pB (x, A) := P (X (t) ∈ A; τB > t) =
ˆ
pB (t, x, y) dy
A
und für eine Funktion f ≥ 0 auf Rd
ptB f
x
= E (f (X (t)) , τB > t) =
ˆ
pB (t, x, y) f (y) dy.
Tatsächlich gilt aber nicht nur pB (t, x, y) ≥ 0 fast überall, sondern sogar
Lemma 7.3.2. pB (t, x, y) ≥ 0 für alle x, y ∈ Rd .
Beweis. Sei für ǫ > 0
ǫ
rB
(t, x, y) := Ex [p (t − τB , XτB , y) ; τB < t − ǫ] .
Diese Funktionen sind stetig in y, da p (s, u, v) beschränkt und stetig als Funktion von (s, u, v)
ǫ (t, x, y) für ǫ → 0 von unten gegen r (t, x, y) konvergiert, ist r (t, x, y)
für s ≥ ǫ ist. Da rB
B
B
unterhalbstetig und damit pB (t, x, y) oberhalbstetig. Da pB (t, x, ·) ≥ 0 fast überall auf Rd ,
folgt damit die Behauptung.
Die Aussage des nächsten Resultates ist, dass sich die Brown’sche Bewegung im Rd und jene,
die im Inneren des Gebietes B ihren Ausgangspunkt hat und beim Austritt aus B gestoppt
wird, kurz nach dem Start kaum unterscheiden. Für die Brown’sche Bewegung ist der Rand
des Gebietes also noch nicht sichtbar“.
”
Lemma 7.3.3. Sei B ∈ B und a ∈ B. Dann existiert ein r > 0 sodass
pB (t, x, y)
=1
t→0 p (t, x, y)
lim
gleichmäßig für x, y ∈ Br (a). Insbesondere gilt für x ∈ B
lim
t→0
pB (t, x, x)
= 1.
p (t, x, x)
Bevor wir uns dem Beweis zuwenden, zeigen wir folgende Monotonieaussage:
d
α2
Lemma 7.3.4. Die Funktion g(u) := (2πu)− 2 e 2u ist für 0 ≤ u ≤
α2
d
monoton wachsend.
Beweis. Leiten wir g(u) ab, so erhalten wir
dg
(2πu)−d/2 α2 2
(u) =
e 2u α + du .
2
du
2u
Damit g(u) monoton wachsend ist, muss dieser Ausdruck nicht-negativ sein. Da d positiv
ist, ist dies ist der Fall, falls u > 0 und α2 + du ≥ 0 ist, also insgesamt
0<u≤
gilt.
70
α2
d
Beweis zu Lemma 7.3.3. Sei ∂B der Rand des Gebietes B und d (a, ∂B) = min{x ∈ ∂B :
. Sei Br (a) die Kugel um a mit Radius r. Wir
kx − ak}. Sei weiters r > 0 so, dass r < d(a,∂B)
3
wählen x, y ∈ Br (a) und setzen α := d (y, ∂B). Dann ist α + r > d (a, ∂B), 2r < d (a, ∂B) − r
und damit
kx − yk ≤ 2r < d (a, B) − r < α.
Sei nun t ≤
α2
d .
Wegen Lemma 7.3.4 gilt für 0 ≤ s < t und z ∈
/B
p (t − s, z, y) ≤
2
1
(2π (t − s))
e
d/2
α
− 2(t−s)
≤
1
α2
(2πt)
e− 2t .
d/2
Damit folgt weiter
rB (t, x, y) = Ex (p (t − τB , X (τB ) , y) ; τB < t) ≤
1
(2πt)
α2
e− 2t
d/2
und damit
2 −(2r)2
(α
α2 −ky−xk2
rB (t, x, y)
2t
≤ e−
≤ e−
p (t, x, y)
Also konvergiert
rB (t,x,y)
p(t,x,y)
2t
)
.
für t → 0 gleichmäßig gegen null für alle x, y ∈ Br (a). Da
pB (t, x, y) = p (t, x, y) − rB (t, x, y)
gilt
pB (t, x, y)
rB (t, x, y)
=1−
,
p (t, x, y)
p (t, x, y)
woraus die Behauptung folgt.
Der nächste Satz besagt, dass pB (t, x, y) genauso wie p (t, x, y) symmetrisch in x und y ist.
Satz 7.3.5. Für alle x, y ∈ Rd und alle t > 0 gilt pB (t, x, y) = pB (t, y, x).
Der Beweis dazu ist aufwändig und ist im Appendix, Abschnitt 8.1 zu finden. Die Idee dabei
ist, zunächst die Symmetrie über Gleichheit eines Integral-Termes und somit für fast alle
Paare (x, y) zu zeigen, ein technisches Konvergenzlemma liefert dann den Übergang auf alle
(x, y).
Als nächstes benötigen wir die Halbgruppeneigenschaft von pB :
Satz 7.3.6. Sei B eine Borel-Menge, t > 0 und x, y ∈ Rd . Dann genügt pB der Halbgruppeneigenschaft
ˆ
pB (s + t, x, y) = pB (s, x, z) pB (t, z, y) dz
71
Beweis. Wir zeigen zunächst die Halbgruppeneigenschaft der Operatoren ptB für t ≥ 0. Sei
f beschränkt auf Rd und der Shift-Operator θt definiert über X(s, θt ω) = X(s + t, ω). Laut
Definition ist
x
x
ps+t
B f (x) = E (f (X (s + t)) , τB > s + t) = E (f (X (t, θs ω)) , τB · θs > t, τB > s) .
Mit der starken Markov-Eigenschaft ist dieser Ausdruck äquivalent zu
Ex EX(s) (f (X (t)) , τB > t) , τB > s
und unter Verwendung der Definition von ptB gleich
Ex ptB f (X (s)) , τB > s = psB ptB f (x) .
s+t
s t
t
´Insgesamt haben wir also pB = pB pB für s, t ≥ 0. dDa laut Definition 7.3.1 pB f =
pB (t, x, y) f (y) dy ist, gilt außerdem für fast alle u ∈ R
ˆ
pB (s + t, x, u) = pB (s, x, z) pB (t, z, u) dz.
Für 0 < a < t erhalten wir daraus
ˆ
ˆ ˆ
pB (s + t − a, x, u) p (a, u, y) du =
pB (s, x, z) pB (t − a, z, u) p (a, u, y) dzdu.
(7.4)
Vertauschen wir die Integrationsreihenfolge, so ist die rechte Seite gleich
ˆ
pB (s, x, z) [pB (t − a, z, u) p (a, u, y) du] dz.
Mit dem ersten Teil von Lemma 8.1.3 konvergiert der Klammerausdruck für a ↓ 0 gegen
pB (t, z, y) und die linke Seite von (7.4) gegen pB (s + t, x, y). Insgesamt erhalten wir wie
behauptet
ˆ
pB (s + t, x, y) = pB (s, x, z) pB (t, z, y) dz.
Die Symmetrie und die Halbgruppeneigenschaft von p übertragen sich also auch auf pB .
7.4
Der Satz von Weyl
Unser nächstes Ziel ist nun, die im vorhergehenden Abschnitt gewonnenen Resultate über
die Brown’sche Bewegung zu verwenden, um zwei Abschätzungen von Weyl und Carleman
zu beweisen. Diese liefern uns Formeln für die asymptotische Verteilung der Eigenwerte und
Eigenfunktionen des Operators ptB . Wir verwenden dazu einen zentralen Satz der Maßtheorie,
bekannt als Karamata’s Tauberian Theorem“, der in [27] zu finden ist. Im Folgenden sei B
”
immer eine nichtleere, offene Teilmenge des Rd mit endlichem Lebesgue-Maß
´ |B|. Sei L2 =
L2 (B) wie üblich der Hilbertraum aller Funktionen f : B → B mit kf k22 = B f 2 (x) dx < ∞.
Wir sammeln noch einige Abschätzungen und Eigenschaften von pB , die wir später benötigen
werden.
72
Lemma 7.4.1. Sei x ∈ B. Dann gilt
ˆ
p2B (t, x, y) dy = pB (2t, x, x) ≤ p (2t, 0) =
1
(7.5)
d
(4πt) 2
und
ˆ ˆ
p2B
(t, x, y) dxdy =
ˆ
pB (2t, x, x) dx ≤ |B|p (2t, 0) =
|B|
d
.
(7.6)
(4πt) 2
Beweis. Mit der Symmetrie (Satz 7.3.5) und der Halbgruppeneigenschaft (Satz 7.3.6) von
pB erhalten wir
ˆ
ˆ
2
pB (t, x, y) dy = pB (t, x, y) pB (t, y, x) dy = pB (2t, x, x) .
Weiters ist pB (t, x, y) ≤ p (t, x, y) für alle x, y ∈ Rd und damit
pB (2t, x, x) ≤ p (2t, x, x) = p (2t, 0) =
1
d
,
(4πt) 2
womit (7.5) gezeigt ist. Integration des obigen Ausdrucks liefert
ˆ
ˆ
|B|
pB (2t, x, x) dx ≤ p (2t, x, x) dx ≤
d
(4πt) 2
und damit (7.6).
Nun wollen wir uns dem Operator ptB zuwenden:
Lemma 7.4.2. Der Operator ptB ist beschränkt und linear mit Norm kleiner gleich 1. Für
f ∈ L2 ist also
t 2
pB f ≤ kf k2 .
(7.7)
2
2
Beweis. Laut Definition ist
2
ˆ
ˆ ˆ
t 2
2
t
pB f =
pB f (x) dx =
pB (t, x, y) f (y) dy dx.
2
Nun schätzen wir das innere Integral mittels der Cauchy-Schwarz-Ungleichung ab. Dazu
schreiben wir den Integranden zunächst etwas anders an:
ˆ ˆ
pB (t, x, y) f (y) dy
2
dx =
ˆ ˆ p
p
2
pB (t, x, y) ·
pB (t, x, y)f (y) dy dx
Dies lässt sich nun nach oben mit
ˆ
ˆ ˆ
2
pB (t, x, y) dy dx
pB (t, x, y) f (y) dy
73
abschätzen. Da pB eine Wahrscheinlichkeitsdichte ist, lässt sich dieser Ausdruck nach Vertauschen der Integrationsreihenfolge weiter abschätzen mit
ˆ ˆ
pB (t, x, y) dx f 2 (y) dy
und dieses Integral wiederum mit
ˆ
f 2 (y) dy = kf k22 ,
was insgesamt wie behauptet
t 2
pB f ≤ kf k2
2
2
liefert.
Lemma 7.4.3. Es gilt für alle t > 0 und f, g ∈ L2
ˆ
ˆ
t
t
pB f, g = pB f (x) g (x) dx = f (x) ptB g (x) dx = f, ptB g ,
die Operatoren ptB sind also selbstadjungiert.
Beweis. Aus der Definition erhalten wir
ˆ
ˆ ˆ
t
t
pB f, g = pB f (x) g (x) dx =
pB (t, x, y) f (y) g (x) dydx.
Mit der Symmetrie von pB und nach Vertauschen der Integrationsreihenfolge ist dies äquivalent zu
ˆ ˆ
ˆ
f (y) pB (t, y, x) g (x) dydx = f (y) ptB g (y) dy = f, ptB g
wie behauptet.
Im nächsten Schritt beweisen wir:
Lemma 7.4.4. Der Operator ptB ist injektiv für alle t > 0.
Beweis. Wir zeigen, dass der Kern des Operators ptB nur die konstante Nullfunktion beinhaltet. Zunächst bemerken wir, dass für eine stetige Funktion f mit kompaktem Träger in
B gilt
lim ptB f = f.
t→0
Dies folgt, da
lim ptB f (x) = lim pB (t, x, y) f (y) dy
t→0
t→0
74
(7.8)
und pB eine Dirac-Folge ist. Weiters liegt die Menge aller stetigen Funktionen mit kompaktem
Träger dicht in L2 , somit gilt (7.8) für alle f ∈ L2 . Sei nun f ∈ L2 und ptB f = 0. Dann gilt
mit der Selbstadjungiertheit und der Halbgruppeneigenschaft von ptB
D
E t/2
t/2
pB f, pB f = f, ptB f = hf, 0i = 0
t/2n
t/2
und damit auch pB f = 0. Mittels Induktion erhalten wir daraus pB f = 0 für alle n ∈ N
und weiter
t/2n
f = lim pB f = 0.
n→∞
Somit ist f die Nullfunktion, ptB also injektiv.
Insgesamt folgt nun, dass ptB ein kompakter, selbstadjungierter Operator ist. Wir können
also den Spektralsatz anwenden und erhalten daraus für jedes t > 0:
1. Der Operator ptB besitzt Eigenwerte µ1 ≥ µ2 ≥ . . . und Eigenfunktionen ϕ1 , ϕ2 , . . ..
2. Für die Eigenwerte µi gilt: limi→∞ µi = 0
3. Die Eigenfunktionen ϕi bilden eine Orthonormalbasis für L2 (B).
Aus der Beschränktheit und Stetigkeit von pB (t, x, y) lässt sich ableiten, dass wir die Eigenfunktionen beschränkt und stetig auf B annehmen können. Weiters sind alle Eigenwerte
positiv. Ist µ ein beliebiger Eigenwert von ptB und ϕ die zugehörige Eigenfunktion, so gilt
D t/2 t/2 E
µhϕ, ϕi = ptB ϕ, ϕ = pB , pB ≥ 0.
Da hϕ, ϕi ≥ 0 ist, gilt auch µ ≥ 0 und aufgrund der Injektivität sogar µ > 0. Seien nun im
Speziellen µ und ϕ ein Eigenwert und die dazugehörige Eigenfunktion von p1B . Wir setzen
λ := − ln µ und zeigen nun, wie sich daraus eine Darstellung für die Eigenwerte von ptB für
allgemeines t gewinnen lässt:
Lemma 7.4.5. Für alle t > 0 gilt
ptB ϕ = e−λt ϕ.
Beweis. Da laut Definition λ = − ln µ ist, gilt p1B ϕ = µϕ = e−λ ϕ. Somit ist
1/2
1/2
0 = p1B − µ ϕ = pB + µ1/2 pB − µ1/2 ϕ.
1/2
Wir setzen ψ := pB − µ1/2 ϕ und erhalten damit weiter
2 1/2
1/2 2
1/4 2
0 = pB + µ1/2 ψ = pB ψ + µkψk22 + 2µ1/2 pB ψ .
2
2
2
Da kein Term der rechten Seite negativ sein kann, muss jeder Summand einzeln verschwinden.
Nun ist aber µ > 0, also muss kψk22 = 0 und damit ψ = 0 gelten. Daraus folgt
1/2
pB ϕ = µ1/2 ϕ.
75
Mit Induktion erhalten wir nun, dass
ptB ϕ = µt ϕ
(7.9)
auch für alle t der Gestalt t = 21n mit n ∈ N gilt. Mit der Halbgruppeneigenschaft von ptB
folgt (7.9) auch für alle t der Form t = 2mn mit m, n ∈ N. Aufgrund der Stetigkeit gilt die
Beziehung schließlich auch für alle anderen t ∈ R+ .
1
∞
Wir setzen nun λi := − ln µi für alle Eigenwerte
1 µi von pB . Dann ist {λi }i=1 monoton
wachsend und positiv, da wegen Lemma 7.4.2 pB ≤ 1 und damit µ1 ≤ 1 ist. Die Eigenwerte
∞
von ptB lassen sich damit als die Folge e−λi t i=1 darstellen. Weiters ist pB (t, x, ·) ∈ L2 , da
mit (7.5) gilt
ˆ
1
2
.
(7.10)
kpB (t, x, ·)k2 = p2B (t, x, y) dy = pB (2t, x, x) ≤
(4πt)d/2
Nun entwickeln wir diese Funktion für fixes x bezüglich der Basis φi :
2 X
X
(psB φn (x))2
e−λn s φn (x) =
n
n
=
X ˆ
pxB
(s, x, y) φn (y) dy
n
=
X
n
2
hpB , φn i2
Da die Funktionen ϕi ein Orthonormalsystem bilden, ist der letzte Ausdruck äquivalent zu
kpB (s, x, ·)k22 und dies wiederum wegen (7.10) gleich pB (2s, x, x). Mit t := 2s erhalten wir
also
X
(7.11)
pB (t, x, x) =
e−λn t ϕ2n (x)
n
und nach Integration, da
´
ϕi ϕj = δij für alle i, j ∈ N,
ˆ
X
e−λn t .
pB (t, x, x) dx =
(7.12)
n
Mit diesen beiden Identitäten sind wir nun in der Lage, den Satz von Weyl beweisen, indem
wir ihn auf den Satz von Karamata zurückführen. Zuvor wollen wir aber der Übersichtlichkeit
halber nocheinmal den Bezug zum Anfangswertproblem (7.1) herstellen:
Satz 7.4.6. Sei B ∈ Rd beschränkt mit zweimal stetig differenzierbarem Rand. Dann gilt:
1. u (t, x) := ptB f (x) löst das Anfangswertproblem (7.1).
2. Die Operatoren ptB sind selbstadjungiert und kompakt.
3. Sie besizten Eigenwerte und Eigenfunktionen {µi } und {ϕi }. Es ist µi = e−λi t für eine
Folge reeller Zahlen 0 < λ1 ≤ λ2 ≤ . . . und damit
ptB ϕi = µi ϕi = e−λi t ϕi .
76
4. Die ϕi sind ebenfalls Eigenfunktionen des Operators
∆
2
zu den Eigenwerten −λi ,
∆
ϕi = −λi ϕi .
2
Beweis. Zu zeigen ist nur mehr Punkt 4. Es gilt
1
∂ t
p ϕi = ∆e−λi t ϕi
∂t B
2
und damit nach Integration über t, da λi > 0 für alle i
ptB ϕi = −
1
∆ϕi ,
2λi
woraus die Behauptung folgt.
Satz 7.4.7 (Weyl, Carleman [27]). Sei x ∈ B. Dann gilt
lim λ−d/2
λ→∞
X
ϕ2n (x) =
λn ≤λ
1
(2π)d/2 Γ (d/2 + 1)
=: CW eyl
und
lim λ−d/2
λ→∞
X
=
λn ≤λ
(2π)
d/2
|B|
Γ (d/2 + 1)
= CW eyl |B|
Satz 7.4.8 (Karamata, [27]). Sei µ ein Maß auf R+ , γ und c ∈ R+ . Falls
ˆ ∞
γ
lim t
e−tλ dµ (λ) = c,
t→0
0
so gilt
lim λ−γ µ ([0, λ])
λ→∞
c
.
Γ (γ + 1)
Beweis. Siehe [27].
Wir können nun den Satz von Weyl und Carleman beweisen:
Beweis zu Satz 7.4.7. Sei x ∈ B. Nach Lemma 7.3.3 ist
lim
t→0
pB (t, x, x)
pB (t, x, x)
= 1.
= lim
d
t→0
p (t, x, x)
(2πt)− 2
Wir definieren das Punktmaß µ über
µ [0, λ] =
X
ϕ2n (x) .
λn ≤λ
Damit gilt nun
1 = lim
t→0
pB (t, x, x)
(2πt)
− d2
= lim (2πt)
t→0
d
2
X
e−λn t ϕ2n (x)
λn ≤λ
77
= lim (2πt)
t→0
d
2
ˆ
e−λt dµ (λ)
(7.13)
also
d
d
(2π)− 2 = lim t 2
t→0
ˆ
e−λt dµ (λ) .
Mit Satz 7.4.8 folgt also
lim λ
λ→∞
− d2
X
d
(2π)− 2
,
=
Γ d2 + 1
ϕ2n (x)
λn ≤λ
was der ersten Behauptung entspricht. Die zweite Identität folgt analog mit dem Maß
µ [0, λ] :=
X
1.
λn ≤λ
Integration von (7.13) liefert
d
|B| = lim (2πt)− 2
t→0
X
e−λn t
λn ≤λ
und Satz 7.4.8 damit
d
lim λ− 2
λ→∞
7.5
7.5.1
X
1=
(2π)
λn ≤λ
d/2
|B|
Γ (d/2 + 1)
.
Heat Triangulation
Das Heat Triangulation Theorem
Wir möchten in diesem Abschnitt auf das Paper [17] von Jones, Maggioni und Schul eingehen. Dieses beschäftigt sich mit der lokalen Parametrisierung durch Diffusionskerne und
Eigenfunktionen des Laplace-Operators und bedient sich unter anderem der Resultate aus
den vorangegangenen Abschnitten. Aus Gründen der Übersichtlichkeit schreiben wir im Folgenden für ein Gebiet Ω den Diffusionskern pΩ (x, y, t) als Kt (x, y).
Sei Ω ein Gebiet in Rd mit |Ω| = 1, ∆ der Laplace-Operator auf dem Gebiet Ω mit
Dirichlet- oder Neumann-Randbedingungen. Außerdem sei Ω so, dass das Spektrum des
Laplace-Operators diskret ist und sich die Diffusionskerne darstellen lassen als
Kt (z, w) =
∞
X
e−λj t φj (z)φj (w)
(7.14)
j=1
mit φ1 , φ2 , . . . so, dass sie eine Orthonormalbasis von Eigenfunktionen des Laplace-Operators
bilden.
78
Satz 7.5.1 (Einbettung über Eigenfunktionen, [17]). Sei Ω ein Gebiet, das alle obigen Voraussetzungen erfüllt. Für jedes z ∈ Ω sei weiters ρz ≤ d(z, ∂Ω). Dann existieren Konstanten
c1 , . . . , c6 , die nur von der Dimension des Gebietes und CW eyl abhängen, sodass gilt: Es gibt
d/2
natürliche Zahlen j1 , . . . , jd und Konstanten c6 ρz ≤ γ1 , . . . , γ6 ≤ 1, für die die Abbildung
Φ : Bc1 ρz (z) → Rd
x → (γ1 φj1 (x), . . . , γd φjd (x))
für alle x, y ∈ Bc1 ρz (z)
c2
c3
kx − yk ≤ kΦ(x) − Φ(y)k ≤ kx − yk
ρz
ρz
erfüllt und weiters die zugeordneten Eigenwerte der Abschätzung
c4
c6
≤ λj 1 , . . . , λj d ≤ 2
2
ρz
ρz
genügen.
Die d Eigenfunktionen aus Satz 7.5.1 lassen sich durch d Diffusionskerne {Kt (z, yi )}1≤i≤d ersetzen, die im Beweis von Satz 7.5.1 entstehen. Das liefert eine Einbettung mit noch besseren
Eigenschaften:
Satz 7.5.2 (Heat Triangulation, [17]). Sei Ω ein Gebiet, das alle obigen Voraussetzungen
erfüllt, jedoch ohne Einschränkung bezüglich |Ω|. Für jedes z ∈ Ω seien weiters ρz ≤ d(z, ∂Ω).
Sind p1 , . . . , pd linear unabhängige Richtungen, so gibt es positive Konstanten c1 , . . . , c6 ,
die nur von d und dem kleinsten und größten Eigenwert der Gram-Matrix (hpi , pj i)1≤i,j≤d
abhängen, sodass gilt: Ist yi so, dass yi − z parallel zu pi ist, für alle 1 ≤ i ≤ d
c4 ρz ≤ kyi − zk ≤ c5 ρz
gilt und tz = c6 ρ2z ist, so genügt die Abbildung
Φ : Bc1 ρz (z) → Rd
x → ρdz Ktz (x, y1 ), . . . , ρdz Ktz (x, yd )
für alle x1 , x2 ∈ Bc1 ρz (z) der Abschätzung
c3
c2
kx1 − x2 k ≤ kΦ(x1 ) − Φ(x2 )k ≤ kx1 − x2 k.
ρz
ρz
Zur Illustration sei ein einfaches Beispiel angeführt:
Beispiel 7.5.3. Wir betrachten das Intervall (−r, r) in R, also den Fall d = 1, z = 0 und
ρz = r. Als Richtung wählen wir p = 1. Da für y gelten muss y ∼cc54 ρz , können wir c4 = c5 = 1
wählen, womit y = r ist. Genauso setzen wir c6 = 1 und erhalten tz = c6 ρ2z = r2 . In R besitzt
der euklidische Diffusionskern die Form
Kt (x, y) = √
−|x−y|2
1
e 4t ,
4πt
79
0.25
0.20
0.15
0.10
0.05
-0.4
0.2
-0.2
0.4
Abbildung 7.1: Die Parametrisierung Φ mit r = 0.4.
unsere Abbildung ist also
Φ : Bc1 r (0) → R
1 −|x−r|2
x → rKr2 (x, r) = √ e 4r2 .
4π
Man beachte, dass Φ unabhängig vom Radius r ist. In Abbildung 7.1 ist die Parametrisierung
dargestellt. Hieraus ist ersichtlich, dass am Rand des Intervalls die Ableitung von Φ gegen
null geht. Die Parametrisierung besitzt also nicht auf dem ganzen Intervall (−r, r) eine gute
Qualität; in der Tat behauptet der Satz dies auch nur für ein (kleineres) Intervall (−c1 r, c1 r).
Aus einer besseren Wahl der Parameter c4 , c5 und c6 können wir auch durchaus einen größeren
Bereich bekommen, in dem die Paramtrisierung zufriedenstellend ist.
Beide Sätze lassen sich auch auf bestimmte Klassen von Mannigfaltigkeiten erweitern. In diesem Fall hängen die auftretenden Konstanten jedoch auch von der Mannigfaltigkeit selbst ab
und nicht nur von der Dimension, wie es für Gebiete im Rd der Fall ist. Für den vollständigen
Beweis sei auf [17] verwiesen, hier geben wir die wesentlichen Schritte des Beweises von
Satz 7.5.1 an und wie sich daraus Satz 7.5.2 ableiten lässt. Die grobe Struktur ist wie folgt:
1. Zunächst wählen wir eine Richtung p1 im Punkt z, zu der wir eine Eigenfunktion φi
C
i
suchen, die auf Bc1 ρz (z) der Abschätzung ∂φ
∂pi ≤ ρz genügt. Dazu zeigt man, dass der
Gradient des Diffusionskerns auf einem Ring um einen Punkt y1 groß ist. Dieses y1
wird so gewählt, dass z im Ring und in Richtung p1 liegt.
2. Auf diesem Ring lässt sich der Diffusionskern und sein Gradient durch eine endliche
Teilsumme von (7.14) annähern, sodass für alle darin auftretenden Eigenfunktionen φi
und die Eigenwerte λi gilt
K1
K2
≤ λi ≤ 2
ρ2z
ρz
(7.15)
und
kφi kL2 (Bc
1 ρz (z))
d/2
ρz
für Konstanten K1 , K2 und K3 .
80
≥ K3
(7.16)
i
3. Nach dem Schubfachprinzip existiert dann zumindest eine Richtung φi1 , für die ∂φ
∂pi groß
ist. Für dieses φi1 betrachtet man ∇φi1 und wählt eine Richtung p2 ⊥∇φi1 . Induktiv
erhält man dann φi1 , . . . , φid , die Abschätzungen der Form (7.16) genügen.
4. Von der daraus gewonnenen Abbildung Φ = (φi1 , . . . , φid ) lässt sich zeigen, dass sie
den gewünschten Eigenschaften genügt.
7.5.2
Beweis
Im Folgenden bedeute f (x) .c1 ,...,cn g(x), für zwei Funktionen f und g, dass eine Konstante C existiert, die ausschließlich von c1 , . . . , cn abhängt, sodass für alle x im Definitionsbereich gilt f (x) ≤ Cg(x). Gilt f (x) .c1 ,...,cn g(x) und g(x) .c1 ,...,cn f (x), so schreiben wir
f (x) ∼c1 ,...,cn g(x). Bilden f und g in den Rd ab, so sind die Ungleichungen komponentenweise
2
zu verstehen. Für zwei Vektoren a, b schreiben wir a ∼C
C1 b, falls (ebenfalls komponentenweise)
gilt C1 b ≤ a ≤ C2 b. Die Richtungsableitung ∂p Kt (·, ·) beziehe sich, soweit nicht anders angegeben, immer auf die zweite Variable des Diffusionskerns zum Zeitpunkt t. Als ersten Schritt
benötigen wir einige Abschätzungen für den Diffusionskern. Für Dirichlet-Randbedingungen
haben wir einen Großteil derer in den vorangegegangenen beiden Abschnitten bewiesen.
Proposition 7.5.4. Seien δ0 , δ1 > 0 hinreichend klein und z, w ∈ Ω so, dass |z − w| < δ0
und δ1 /2ρz ≤ t1/2 ≤ δ0 ρz . Dann gibt es Konstanten C1 , C2 , C1′ , C2′ , C9 > 0, sodass gilt:
1. Der Diffusionskern erfüllt
2
Kt (z, w) ∼C
C1 t
−d
2
.
(7.17)
2. Falls 1/2δ0 ρz < |z − w| ist, p der Einheitsvektor in Richtung |z − w| und q ein beliebiger
Einheitsvektor, so ist
C′
|∇Kt (z, w)| ∼C2′ t
1
−d
2
ρz
C ′ −d ρz
und |∂p Kt (z, w)| ∼C2′ t 2
,
1
t
t
(7.18)
und
−d ρz
Rd
,
∂
K
(z,
w)
−
∂
K
(z,
w)
q t
≤ C9 t 2
q t
t
(7.19)
d
wobei für fixes δ0 für δ1 → 0 auch C9 → 0. Mit KtR (z, w) sei der Diffusionskern im
Rd bezeichnet.
3. Falls 1/2δ0 ρz < |z − w| ist und q so wie oben, dann ist für s ≤ t
Ks (z, w) .C2 t
−d
2
, |∇Ks (z, w)| .C2′ t
−d
2
−d ρz
ρz
und |∂q Ks (z, w)| .C2′ t 2
.
t
t
(7.20)
4. Für δ1 → 0 und fixes δ0 nähern sich C1 und C2 einer einzigen Funktion, die nur von
d abhängt.
Der nächste Schritt besteht darin, passend gewählte Diffusionskerne durch eine Menge an
Eigenfunktionen zu ersetzen, indem wir die führenden Terme“ ihrer Spektralentwicklung
”
herausnehmen. Wir werden Eigenfunktionen vernachlässigen,
81
1. die zu zu großen Eigenwerten gehören oder
2. deren Gradient um z zu klein ist.
Seien ΛL (A) = {λj : λj ≤ At−1 }, ΛH (A′ ) = ΛL (A′ )C und

!1/2 


1
ΛE (p, z, ρz , δ0 , c0 ) = λj : ρz |∂p φj (z)| ≥
φj (z ′ )2 dz ′
,


c0
B(z,1/2δ0 ρz )
ffl
´
wobei A f = |A|−1 A f das über das Integrationsgebiet gemittelte Integral bezeichne. Das
folgende Lemma sagt uns, dass, für A > 1, A′ < 1 hinreichend groß bzw. klein, Eigenfunktionen aus
ΛL (A) ∩ ΛH (A′ ) ∩ ΛE (p, z, ρz , δ0 , c0 )
(7.21)
für unsere Zwecke gut geeignet sind.
Lemma 7.5.5. Seien δ0 , δ1 > 0 hinreichend klein und z, w ∈ Ω so, dass |z − w| < δ0 und
δ1 /2ρ(z) ≤ t1/2 ≤ δ0 ρz . Dann gibt es Konstanten C7 (c0 ), C8 (d) und b(c0 ), sodass Folgendes
gilt: Sei p eine beliebige Richtung. Für alle j ∈ ΛE (p, z, ρz , δ0 , c0 ) und z ′ mit kz − z ′ k ≤ bδ0 ρz
ist
!1/2
∂p φj (z ′ ) ∼C8 ρ−1
φ2j
.
z
C7
B1/2δ0 ρz (z)
Außerdem gibt es einen Index j in (7.21), sodass mit
γφj :=
B1/2δ0 ρz (z)
φ2j (z ′ )dz ′
!1/2
gilt
γφj . (CW eyl )1/2 ,
mit Konstanten, die von A, C1 , C1′ , C2 , C2′ , Cg , d, δ0 und δ1 abhängen.
Wir benötigen nun noch einige Abschätzungen für die Eigenfunktionen φj , die wir hier
gesammelt anführen wollen:
Proposition 7.5.6. Es gibt b1 < 1 und CP (d) > 0, sodass für jede Eigenfunktion φj von ∆
auf BR (z) mit R ≤ ρz für w, x, y ∈ Bb1 R (z) die folgenden Abschätzungen gelten:
!1/2
|φj (w)| ≤ CP P1 (λj R2 )
P3 (λj R2 )
k∇φj (w)k ≤ CP
R
P5 (λj R2 )
k∇φj (x) − ∇φj (y)k ≤ CP
R
wobei Pi (x) = (1 + x)i/2+β mit β =
d−2 4
.
82
BR (z)
|φj |2
BR (z)
BR (z)
|φj |
2
|φj |
2
,
!1/2
!1/2
,
kx − yk,
Damit können wir nun Satz 7.5.1 beweisen:
Beweis zu Satz 7.5.1. Mittels Lemma 7.5.5 finden wir für eine vorgegebene Richtung eine passende Eigenfunktion. Um den Satz zu beweisen, benötigen wir d linear unabhängige
Richtungen. Sei p1 eine beliebige Richtung. Aus Lemma
7.5.5 erhalten
wir ein j1 ∈ ΛL (A) ∩
ΛH (A′ ) ∩ ΛE (p, z, ρz , δ0 , c0 ) mit j1 ∼ t−1 , sodass γφj1 ∂p1 φj1 (z) ≥ c0 /ρz . Sei nun p2 orthogonal zu ∇φj1(z). Eine erneute Anwendung von Lemma 7.5.5 liefert uns j2 < A/t, sodass
γφj2 ∂p2 φj2 (z) ≥ c0 /ρz . Aus der Wahl von p2 folgt ∂p2 φj1 = 0. Induktiv wählen wir auf
diese Art, sobald wir j1 , . . . , jk mit k < d und die dazugehörigen pℓ mit γφjℓ ∂pℓ φjℓ ≥ c0 /ρz
erhalten haben, pk+1 orthogonal zu span ({∇φ
und wenden neuerlich
j1 (z), . . . , ∇φjk (z)})
Lemma 7.5.5 an, welches einen Index jk+1 mit γφjk+1 ∂pk+1 φjk+1 ≥ c0 /ρz liefert. Wir setzen
γi = γφji . Dies sind genau die Konstanten, die im Satz auftreten. Weiters ist die Matrix
Ak+1 := (γm ∂pn φjm (z))m,n=1,...,k+1
eine untere Dreiecksmatrix, woraus folgt, dass {p1 , . . . , pk+1 } linear unabhängig ist. Sei nun
Φk = (γ1 φj1 , . . . , γk φjk ) und Φ = Φd . Wir zeigen, dass gilt
Angenommen, es gelte
∇Φ (w − z) &d 1 kw − zk.
z
ρz
∇Φk (w − z) ≤ c kw − zk
z
ρz
für alle k = 1, . . . , d. Für c hinreichend klein führt dies auf einen Widerspruch: Sei w − z =
P
ℓ aℓ pℓ . Dann folgt aus Lemma 7.5.5
!
X
X
1
∇Φk (w − z) = |aℓ |
.
aℓ ∂pℓ Φk z & |ak | − c
z
ρz
ℓ≤k
ℓ<k
P
Mit Induktion erhalten wir |ak | P
≤ kℓ=1 cℓ kw − zk. Für c klein genug ist damit |ai | ≤ kw−zk
d ,
was aber ein Widerspruch zu k i ai pi k = kw − zk und kpi k = 1 ist. Aus Proposition 7.5.6
haben wir
∇Φ − ∇Φ . kz − wk 1 .
z
w
ρz
ρz
ik
Daraus folgt mit einer Konstante, die größer als kz−w
für i = 1, 2 ist
ρz
ˆ 1
kΦ(w1 ) − Φ(w2 )k = ∇Φtw1 +(1−t)w2 (w1 − w2 )dt
0
ˆ 1 =
∇Φ w1 + ∇Φ tw1 +(1−t)w2 − ∇Φ w1 (w1 − w2 )dt
0
ˆ 1
1
kw1 − w2 kdt
&
0 ρz
c0
& kw1 − w2 k,
ρz
83
was die untere Abschätzung in Satz 7.5.1 beweist. Aus Proposition 7.5.6 erhalten wir
|γℓ ∂pℓ φiℓ (z)| . 1/ρz ,
was uns die obere Abschätzung liefert.
Als Abschluss wollen wir noch zeigen, wie Satz 7.5.2 aus dem Beweis von Satz 7.5.1 folgt:
Beweis zu Satz 7.5.2. Ohne Beschränkung der Allgemeinheit sei ρz = 1. Wir betrachten für
e
der Abbildung
x ∈ Bc1 Rz (z) die Jacobi-Matrix J(x)
d/2 t
e := ρ−d
Φ
Φ.
z t
ρ2z
Aus (7.19) in Proposition 7.5.4 folgt
Jeij (x) − C2′ pi , x − yj /ρz ≤ C9 /ρz
kx − yj k
und dass, bei geeigneter Wahl von δ0 und δ1 , wir die Konstante C9 für alle x ∈ Bc1 ρz (z)
kleiner als jedes beliebige ǫ (für alle Einträge) machen können, wobei wir t = tz = c6 ρ2z für
e verwenden. Wir können also für c1 klein genug im Bezug auf c4 schreiben
Φ
e
ρz J(x)
= Gd + E(x),
wobei (Gd )ij = hpi , pj i die (von x unabhängige) Gramsche Matrix ist und Eij (x) < ǫ für alle
x ∈ Bc1 ρz (z). Sind σmin und σmax der größte und kleinste Eigenwert von Gd , so gilt damit
σ
σmin − Cd ǫ
e
max + Cd ǫ
kvk ≤ J(x)v
kvk,
≤
ρz
ρz
wobei Cd linear von d abhängt. An dieser Stelle wählen wir ǫ so klein (∼ 1/d), dass die JacobiMatrix aufgrund obiger Abschätzungen in Bc1 ρz (z) im Wesentlichen konstant ist. Integration
über einen Weg von x1 zu x2 in Bc1 ρz (z) liefert die Aussage des Satzes.
84
Kapitel 8
Appendix
8.1
Beweis zu Satz 7.3.5
Satz 8.1.1. Für alle x, y ∈ Rd und alle t > 0 gilt pB (t, x, y) = pB (t, y, x).
Zunächst zeigen wir die Symmetrie über Gleichheit eines Integral-Terms und somit für fast
alle Paare (x, y), ein technisches Konvergenzlemma liefert dann den Übergang auf alle (x, y).
Lemma 8.1.2. Für fast alle x, y ∈ Rd × Rd gilt pB (t, x, y) = pB (t, y, x).
Beweis. Wir stellen pB (t, x, y) durch p (t, x, y) dar und benützen die Symmetrie von p (t, x, y).
Seien A und C Borel-Mengen und B offen. Es ist
ˆ ˆ
ˆ
pB (t, x, y) dydx =
Px (Xt ∈ A, τB ≥ t) dx
C
A
C
und
ˆ ˆ
C
pB (t, y, x) dydx =
ˆ
A
A
Py (Xt ∈ C, τB ≥ t) dy.
Somit genügt es zu zeigen, dass
ˆ
ˆ
Py (Xt ∈ C, τB ≥ t) dy
Px (Xt ∈ A, τB ≥ t) dx =
gilt. Sei nun tnj =
als
jt
n.
lim
Da die Pfade von Xt stetig sind, läßt sich der erste Ausdruck schreiben
ˆ
n→∞ C
Px0 X (tnn ) ∈ A, X (tn1 ) ∈ B, · · · , X tnn−1 ∈ B dx0 .
Aufgrund der Markov-Eigenschaft der Brownschen Bewegung ist
x
(8.1)
A
C
P (Xt1 ∈ A1 , · · · , Xtm ∈ Am ) =
ˆ
A1
85
···
ˆ
m
Y
Am k=1
p (tk − tk−1 , xk−1 , xk ) .
Damit gilt, dass dieser Term äquivalent ist zu
ˆ ˆ Y
ˆ ˆ
n
t
p
···
lim
, xk−1 , xk dxn · · · dx0 .
n→∞ C B
n
B A
k=1
Da p (t, x, y) symmetrisch ist, ist dies weiter gleich
ˆ ˆ Y
ˆ ˆ
n
t
, xk , xk−1 dxn · · · dx0 ,
p
···
lim
n→∞ C B
n
B A
k=1
und mit der Setzung yi := xn−i für alle 0 ≤ i ≤ n erhalten wir
ˆ ˆ Y
ˆ ˆ
n
t
p
···
lim
, yk−1 , yk dy0 · · · dyn ,
n→∞ C B
n
B A
k=1
was wiederum gleich
ˆ
A
Py (Xt ∈ C, τB ≥ t) dy
ist. Insgesamt folgt also (8.1) und damit die Behauptung für offene B. Für allgemeine BorelMengen lässt sich die Identität über Grenzwerte von Durchschnitten offener Mengen zeigen,
siehe dazu [3].
Wir benötigen noch folgenden technischen Hilfssatz:
Lemma 8.1.3. Für alle x, y ∈ Rd gilt
ˆ
pB (t − a, x, u) p (a, u, y) du ↓ pB (t, x, y) für a → 0
(8.2)
und
ˆ
p (a, x, u) pB (t − a, u, y) du ↓ pB (t, x, y) für a → 0.
(8.3)
Beweis. Wir beginnen mit (8.2). Es ist pB (t − a, x, u) = p (t − a, x, u) − rB (t − a, x, u) laut
Definition und damit
ˆ
ˆ
ˆ
pB (t − a, x, u) p (a, u, y) du = p (t − a, x, u) p (a, u, y) − rB (t − a, x, u) p (a, u, y) du.
Der erste Term der rechten Seite ist aufgrund der Halbgruppeneigenschaft des Gausskerns
gleich p (t, x, y). Da außerdem nach Lemma 7.3.2 pB (t, x, y) ≥ 0 gilt, ist (8.2) äquivalent zu
rB (t − a, x, u) p (a, u, y) ↑ rB (t, x, y) für a → 0.
Nach Definition (7.2) ist obiger Ausdruck gleich
ˆ
Ex [p (t − a − τB , XτB , u) ; τB < t − a] p (a, u, y) du
ˆ ˆ
p (t − a − τB , XτB , u) p (t, x, ye) de
y p (a, u, y) du.
=
τB <t
86
(8.4)
Durch Vertauschen der Integrale und mit der Halbgruppeneigenschaft von p lässt sich dies
schreiben als
ˆ
p (t − τB , XτB , y) p (t, x, ye) de
y = Ex [p (t − τB , XτB , y) ; τB < t − a] .
τB <t
Dieser Ausdruch konvergiert aber für a → 0 monoton wachsend gegen
Ex [p (t − τB , XτB , y) ; τB < t] = rB (t, x, y) ,
also gilt (8.4) und damit auch (8.2). Für (8.3) zeigen wir analog, dass für b → 0
ˆ
p (b, x, z) r (t − b, z, y) dz ↑ rB (t, x, y)
(8.5)
gilt. Dazu schätzen wir rB (t, x, y) nach oben und unten durch den Integralterm ab. Zunächst
zeigen wir, dass für alle b < t
ˆ
rB (t, x, y) ≥ p (b, x, z) r (t − b, z, y) dz
(8.6)
gilt. Dazu schreiben wir
rB (t, x, y) = Ex [p (t − τB , XτB , y) ; τB < b] + Ex [p (t − τB , XτB , y) ; b ≤ τB < t] .
Der erste Ausdruck auf der rechten Seite lässt sich wieder aufgrund der Halbgruppeneigenschaft schreiben als
ˆ
p (t − τB , XτB , y) p (t, x, ye) de
y
τB <b
ˆ
ˆ
p (b − τB , XτB , z) p (t − b, z, y) dz p (t, x, ye) de
y,
=
τB <b
was wiederum äquivalent ist zu
x
E [p (b − τB , XτB , z) ; τB < b] p (t − b, z, y) dz =
ˆ
rB (b, x, z) p (t − b, z, y) dz.
Für den zweiten
Term verwenden wir wieder die starke Markov-Eigenschaft Ex f (Xs+r ) =
Ex EXs f (Xr ) . Mit r = t − b − τB und s = b ist der zweite Summand gleich
Ex EXb [p (t − b − τB , XτB , y) ; τB < t − b]
ˆ
= pB (b, x, z) Ez [p (t − b − τB , XτB , y) ; τB < t − b] dz
ˆ
= pB (b, x, z) rB (t − b, z, y) dz.
Insgesamt erhalten wir also
ˆ
ˆ
rB (t, x, y) = rB (b, x, z) p (t − b, z, y) dz + pB (b, x, z) rB (t − b, z, y) dz.
87
Wegen Lemma 7.3.2 ist pB nicht negativ, also p (t − b, z, y) ≥ r (t − b, z, y). Damit lässt sich
obiger Ausdruck nach unten abschätzen durch
ˆ
[rB (b, x, z) + pB (b, x, z)] rB (t − b, z, y) dz,
wir erhalten also insgesamt
rB (t, x, y) ≥
ˆ
p (b, x, z) rB (t − b, z, y) dz,
´
was genau (8.6) ist. Nun zeigen wir, dass p (b, x, z) rB (t − b, z, y) dz für abnehmendes b
monoton wächst. Sei dazu b′ < b. Dann haben wir mit der Halbgruppeneigenschaft von p
und Einfügen von b′
ˆ
¨
p (b, x, z) rB (t − b, z, y) dz =
p b′ , x, w p b − b′ , w, z rB t − b′ − b − b′ , z, y dzdw.
Mit (8.6) gilt nun, dass
ˆ
p b − b′ , w, z rB
t − b′ − b − b′ , z, y dz ≤ rB t − b′ , w, y
ist und damit insgesamt
ˆ
ˆ
p (b, x, z) rB (t − b, z, y) dz ≤ p b′ , x, z rB t − b′ , z, y dz
´
wie behauptet.
Sei nun x ein regulärer Punkt in B C . Es ist p (b, x, z) dz = 1 und für fixes
´
δ > 0 gilt |z−x|>δ p (b, x, z) dz → 0 für b → 0. Damit ist dies eine Dirac-Folge. Da weiters
rB (t, x, y) unterhalbstetig ist, gilt mit dem Lemma von Fatou
ˆ
lim inf p (b, x, z) r (t − b, z, y) dz ≥ r (t, z, y) .
b→0
Zusammen mit (8.6) folgt daraus (8.5) für ein solches x. Für ein nicht-reguläres x ∈ B C lässt
sich diese Abschätzung ebenfalls zeigen, siehe dazu etwa [3, S. 125].
Damit können wir nun Satz 7.3.5 zeigen:
Beweis zu Satz 7.3.5. Da p (t, x, y) = p (t, y, x) für alle x, y ∈ Rd und pB (t, x, y) = pB (t, y, x)
für fast alle x, y folgt, dass
¨
p (a, x, u) pB (t − a − b, u, v) p (b, v, y) dudv
¨
=
p (b, y, v) pB (t − a − b, v, u) p (a, u, x) dudv
Mit a, b → 0 können wir Lemma 8.1.3 anwenden und erhalten damit pB (t, x, y) = pB (t, y, x)
für alle Paare (x, y) wie behauptet.
88
Literaturverzeichnis
[1]
Achlioptas, D.: Database-friendly random projections: Johnson-Lindenstrauss with
binary coins. In: Journal of Computer and System Sciences 66 (2003), Nr. 4, S. 671–687
[2]
Alspach, D. ; Odell, E.: Lp spaces. In: Handbook of the geometry of Banach spaces,
Vol. I. Amsterdam : North-Holland, 2001, S. 123–159
[3]
Bass, R. F.: Probabilistic techniques in analysis. New York : Springer-Verlag, 1995
[4]
Bourgain, J. ; Lindenstrauss, J. ; Milman, V.: Approximation of zonoids by zonotopes. In: Acta Math. 162 (1989), Nr. 1-2, S. 73–141
[5]
Bourgain, J. ; Tzafriri, L.: Invertibility of “large” submatrices with applications to
the geometry of Banach spaces and harmonic analysis. In: Israel J. Math. 57 (1987),
Nr. 2, S. 137–224
[6]
Bourgain, J. ; Tzafriri, L.: On a problem of Kadison and Singer. In: J. Reine Angew.
Math. 420 (1991), S. 1–43
[7]
Casazza, P.G. ; Vershynin, R.: Kadison-Singer meets Bourgain-Tzafriri. Preprint.
(2003)
[8]
Chung, F. R. K.: CBMS Regional Conference Series in Mathematics. Bd. 92: Spectral graph theory. Published for the Conference Board of the Mathematical Sciences,
Washington, 1997
[9]
Cormen, T. H. ; Leiserson, C. E. ; Rivest, R. L. ; Stein, C.: Introduction to
algorithms. 3. Auflage. Cambridge : MIT Press, 2009
[10] Dasgupta, S. ; Gupta, A.: An elementary proof of a theorem of Johnson and Lindenstrauss. In: Random Structures Algorithms 22 (2003), Nr. 1, S. 60–65
[11] Davies, E. B.: Cambridge Tracts in Mathematics. Bd. 92: Heat kernels and spectral
theory. Cambridge : Cambridge University Press, 1990
[12] Feller, W.: An introduction to probability theory and its applications. New York :
John Wiley & Sons Inc., 1971
[13] Frankl, P. ; Maehara, H.: The Johnson-Lindenstrauss lemma and the sphericity
of some graphs. In: Journal of Combinatorial Theory. Series B 44 (1988), Nr. 3, S.
355–362
89
[14] Golub, G. H. ; Van Loan, C. F.: Matrix computations. 3. Auflage. Baltimore : Johns
Hopkins University Press, 1996
[15] Indyk, P. ; Motwani, R.: Approximate nearest neighbors: towards removing the curse
of dimensionality. In: STOC ’98 (Dallas). New York : ACM, 1999, S. 604–613
[16] Johnson, W. B. ; Lindenstrauss, J.: Extensions of Lipschitz mappings into a Hilbert
space. In: Conference in modern analysis and probability (New Haven, 1982) Bd. 26.
Providence : Amer. Math. Soc., 1984, S. 189–206
[17] Jones, P. W. ; Maggioni, M. ; Schul, R.: Universal local parametrizations via heat
kernels and eigenfunctions of the Laplacian. In: Ann. Acad. Sci. Fenn. Math. 35 (2010),
Nr. 1, S. 131–174
[18] Knuth, D. E.: The art of computer programming. Upper Saddle River : Addison-Wesley,
2005
[19] Lang, S.: Graduate Texts in Mathematics. Bd. 142: Real and functional analysis. 3.
Auflage. New York : Springer-Verlag, 1993
[20] Naor, A.: Sparse quadratic forms and their geometric applications (after Batson, Spielman and Srivastava). Erschienen als Séminaire Bourbaki Exposé no. 1033, 2010
[21] Port, S. C. ; Stone, C. J.: Brownian motion and classical potential theory. New
York : Academic Press [Harcourt Brace Jovanovich Publishers], 1978. – Probability and
Mathematical Statistics
[22] Rauhut, H.: Compressive sensing and structured random matrices. In: Theoretical
foundations and numerical methods for sparse recovery Bd. 9. Walter de Gruyter,
Berlin, 2010, S. 1–92
[23] Rudelson, M. ; Vershynin, R.: Sampling from large matrices: an approach through
geometric functional analysis. In: J. ACM 54 (2007), Nr. 4, S. Art. 21, 19 ff.
[24] Schechtman, G.: Fine embeddings of finite-dimensional subspaces of Lp , 1 ≤ p < 2
into finite-dimensional normed spaces. II. In: Texas functional analysis seminar 1984–
1985. Austin : Univ. Texas Press, 1985 (Longhorn Notes), S. 83–94
[25] Schechtman, G.: More on embedding subspaces of Lp in lrn . In: Compositio Math. 61
(1987), Nr. 2, S. 159–169
[26] Schechtman, G.: Tight embedding of subspaces of Lp in ℓnp for even p. In: Proc. Amer.
Math. Soc. 139 (2011), Nr. 12, S. 4419–4421
[27] Simon, B.: Functional integration and quantum physics. 2. Auflage. AMS Chelsea
Publishing, Providence, RI, 2005
[28] Spielman, D. A.: Algorithms, Graph Theory, and Linear Equations in Laplacian Matrices. In: Proceedings of the International Congress of Mathematicians, 2010
[29] Spielman, D. A. ; Srivastava, N.: Graph sparsification by effective resistances. In:
STOC’08. New York : ACM, 2008, S. 563–568
90
[30] Spielman, D. A. ; Srivastava, N.: An Elementary Proof of the Restricted Invertibility
Theorem. Preprint. arxiv.org/abs/0911.1114. (2010)
[31] Spielman, D. A. ; Teng, S.-H.: Nearly-linear time algorithms for graph partitioning,
graph sparsification, and solving linear systems. In: Proceedings of the 36th Annual
ACM Symposium on Theory of Computing. New York : ACM, 2004, S. 81–90
[32] Spielman, D. A. ; Teng, S.-H.: A Local Clustering Algorithm for Massive Graphs and
its Application to Nearly-Linear Time Graph Partitioning. Preprint. arxiv.org/abs/
0809.3232. (2008)
[33] Spielman, D. A. ; Teng, S.-H.: Spectral Sparsification of Graphs. Preprint. arxiv.
org/abs/0808.4134. (2008)
[34] Srivastava, N.: Spectral sparsification and restricted invertibility. Yale University, New
Haven, Diss., 2010
[35] Talagrand, M.: Embedding subspaces of L1 into l1N . In: Proc. Amer. Math. Soc. 108
(1990), Nr. 2, S. 363–369
[36] Talagrand, M.: Embedding subspaces of Lp in lpN . In: Geometric aspects of functional
analysis (Israel, 1992–1994) Bd. 77. Basel : Birkhäuser, 1995, S. 311–325
[37] Vershynin, R.: John’s decompositions: selecting a large part. In: Israel J. Math. 122
(2001), S. 253–277
[38] Zhang, F.: Matrix theory. Basic results and techniques. New York : Springer-Verlag,
1999
[39] Zvavitch, A.: More on embedding subspaces of Lp into lpN , 0 < p < 1. In: Geometric
aspects of functional analysis Bd. 1745. Berlin : Springer, 2000, S. 269–280
91
Herunterladen