Eigenwerten (25. Juni u. 2. Juli)

Werbung
Eigenwerte
Vorlesung
Computergestützte Mathematik zur Linearen Algebra
Lehrstuhl für Angewandte Mathematik
Sommersemester 2009
25. Juni + 2.+9. Juli 2009
Grundlagen
Definition
Ist für A ∈ Cn,n , Ax = λx für ein x 6= 0, dann ist x ∈ Cn ein
Eigenvektor und λ ∈ C ist ein Eigenwert von A.
Die Menge
λ(A) = {λ | λ ist Eigenwert von A}
heißt Spektrum von A.
Es gilt
λ ∈ λ(A) ⇐⇒ ∃x 6= 0, so dass (A − λI )x = 0
⇐⇒ A − λI ist singulär
⇐⇒ p(λ) := det(A − λI ) = 0.
p(λ), p ∈ Pn wird charakteristisches Polynom von A genannt.
Die Vielfachheit der Nullstelle λ heißt algebraische Vielfachheit des
Eigenwertes λ.
Fundamentalsatz der Algebra
Nach dem Fundamentalsatz der Algebra ist
λ(A) = {λ1 , . . . , λn }
eine diskrete Menge von n komplexen Zahlen λj ∈ C.
Definition
Für X ∈ Cn,n nicht singulär heißt die Abbildung B = X −1 AX
Ähnlichkeitstransformation und wir sagen, dass A ähnlich zu B ist.
Aus
Bv = λv ⇐⇒ X −1 AXv = λv ⇐⇒ A(Xv ) = λ(Xv )
folgt, dass A und B dieselben Eigenwerte haben und dass v genau
dann Eigenvektor von B ist, wenn Xv Eigenvektor von A ist.
Ein gefährlicher Algorithmus
naheliegende Idee: Nullstellen des charakteristischen Polynoms
berechnen −→ schlecht konditioniertes Problem:
p(λ) =
n
X
aj λ j ,
j=0
e
p (λ, ε) =
n X
j=0
aj + εaj
εj j
λ,
ε
= p(λ) + εq(λ),
|εj | ≤ ε,
q(λ) =
n
X
j=0
so ist |bj | ≤ |aj |.
bj λj ,
Beispiel
Für das einfache Beispiel
A = diag(10, 11, . . . , 16) ∈ R7,7
ist
p(λ) = −λ7 + 91λ6 − 3535λ5 + · · · − 31 813 200λ + 57 657 600.
Für λ∗ = 10 ist damit
|q(λ∗ )| ≤ 107 + 91 · 106 + · · · + 57 657 600 ≈ 3 · 109
|p 0 (λ∗ )| = 720.
Der Verstärkungsfaktor kann also im ungünstigsten Fall
εj = sign(aj )ε von der Größenordnung 105 sein.
Fazit: niemals Koeffizienten des charakteristischen Polynoms zur
Berechnung der Eigenwerte einer Matrix verwenden
Pagerank
Das Internet besteht aus 1010 Seiten. Der wesentliche Wortschatz
ist etwa 105 Worte.
Wie findet man zu einer Suchanfrage die wichtigste Seite?
Wie bestimmt man die Wichtigkeit einer Seite?
Idee: Jede Seite Pj bekommt einen Wichtigkeitswert (Pagerank)
I (Pj ) und vererbt ihren Pagerank an diejenigen Seiten weiter auf
die sie verlinkt.
Es sei ni die Anzahl der von Pi ausgehenende Links und Bi die
Menge der Seiten die auf Pi verweisen so setzt man
I (Pi ) =
X I (Pj )
nj
Pj ∈Bi
Definiert man die Hyperlinkmatrix
1/nj
H = (hi,j ) mit hi,j =
0
falls Pj ∈ Bi
sonst
und einen Vektor I = (I (P1 ), . . . , I (Pn )) so ist I eine Lösung der
Eigenwertgleichung
HI = I
mit Eigenwert 1.
Stochastische Interpretation
Die Hyperlinkmatrix H ist eine sogenannte stochastische Matrix, d.
h. alle Einträge sind positiv und die Spaltensumme ist 1, es sei
denn die Seite die zur Spalte gehört hat keine Links.
Interpretation als “Random Walk”:
Ein Spaziergänger geht von Knoten zu Knoten und folgt in einem
Knoten zufällig (mit gleicher Wahrscheinlichkeit) einem der
ausgehenden Wege.
Satz von Gershgorin
Satz
Es gilt
n
[
λ A ⊆
Dj ,
Dj = {z ∈ C : |z − ajj | ≤ rj },
rj =
j=1
n
X
|ajl |,
l=1,l6=j
Beweis: Sei v ein Eigenvektor zum Eigenwert λ, wähle i so dass
|vi | ≥ |vj | für alle 1 < j < n. (vi 6= 0)
Die i-te Zeile der Gleichung Av = λv liefert
n
X
j=1
aij vj = λvi ⇔
X
aij vj = (λ − aii )vi
j6=i
⇒ |λ − aii | = |
X
j6=i
aij
X
vj
|≤
|aij |
vi
j6=i
Invariante Unterräume
Es gelte
AX = XB
für X ∈ Cn,k , B ∈ Ck,k .
Dann gilt:
I
R(X ) = {Xy | y ∈ Ck } (das Bild von X ) ist rechts
A-invarianter Unterraum, d. h. R(AX ) ⊆ R(X ) und es gilt
I
λ(B) ⊆ λ(A).
Ebenso folgt aus
Y H A = BY H
für Y ∈ Cn,k , B ∈ Ck,k .
I
R(Y ) ein links A-invarianter Unterraum
I
λ(B) ⊆ λ(A).
Definition
A ∈ Cn,n heißt reduzibel, wenn es eine Permutationsmatrix P gibt,
so dass
A11 A12
T
P AP = B =
,
0 A22
mit quadratischen Matrizen A11 ∈ Ck,k und A22 ∈ Cn−k,n−k gilt.
Anderenfalls heißt A irreduzibel.
Wegen
Ik
Ik
B
=
A11
0
0
0 In−k B = A22 0 In−k ,
Ik
0
ist R(
) ein rechts und R(
) ein links B-invarianter
0
In−k
Unterraum
und es gilt λ(A) = λ(A11 ) ∪ λ(A
22 ).
Ik
0
(R(P
) ist rechts und R(P
) links A-invarianter
0
In−k
Unterraum.)
Normale Matrizen
Definition
Eine Matrix A ∈ Cn,n ist normal falls AAH = AH A.
Beispiel: Hermitesche Matrizen (A = AH ), schief-Hermitesche
Matrizen (A = −AH ) und unitäre Matrizen sind normal.
Satz
Eine Matrix A ∈ Cn,n ist normal genau dann, wenn sie unitär
diagonalisierbar ist, d. h. es gibt eine unitäre Matrix U ∈ Cn,n , so
dass
U H AU = D = diag(λ1 , . . . , λn ).
Störungssatz
Satz
Sei λ ∈ λ(A) ein einfacher Eigenwert von A und seien x und y
zugehörige rechte und linke Eigenvektoren:
Ax = λx,
y H A = λy H .
Dann hat die Matrix A + E für hinreichend klein einen einfachen
Eigenwert λ(), so dass
λ() = λ + (ohne Beweis) ← Numerik II
y H Ex
+ O(2 ).
yHx
Bemerkungen
I
Für kE k = 1, kxk = ky k = 1 gilt
|λ0 (0)| ≤
1
|y H x|
,
1
|y H x|
Konditionszahl von λ
d.h. einfache Eigenwerte werden in erster Näherung durch die
Konditionzahl gestört.
I
Falls λ ein Eigenwert mit Defekt: Störungen ∼ 1/m zu
erwarten (m die Dimension des größten Jordan-Blocks ist)
Für einen Jordan-Block gilt x = e1 , y = em , also y H x = 0
Rayleigh-Quotient und Wertebereich
Definition
Zu gegebener Matrix A und x 6= 0 heißt
%A (x) =
x H Ax
xHx
Rayleigh-Quotient von x.
Die Menge
F(A) = {%A (x), x ∈ Cn , x 6= 0}
aller Rayleigh-Quotienten von A heißt Wertebereich von A.
Achtung: auch für A ∈ Rn,n wird der Wertebereich von allen
Rayleigh-Quotienten von Vektoren in Cn gebildet
Eigenschaften des Wertebereichs
Es gilt
(a) %(γx) = %(x) für alle γ 6= 0, γ ∈ C.
(b) λ(A) ⊂ F(A), d. h. alle Eigenwerte liegen im Wertebereich.
(c) Für normale Matrizen (d. h. AH A = AAH ) gilt
F(A) = conv(λ(A)).
Ist A nicht normal, dann kann der Wertebereich deutlich größer
sein, als die Konvexkombination der Eigenwerte. Hausdorff (1919)
konnte jedoch zeigen, dass der Wertebereich immer eine kompakte
und konvexe Menge ist.
Schranken für den Wertebereich
Ist A ∈ Cn,n Hermitesch, dann gilt
(a) λmin ≤ %(x) ≤ λmax ∀x 6= 0
(b) λmax = maxx6=0 %(x)
(c) λmin = minx6=0 %(x)
Potenzenmethode
Sei A ∈ Cn,n , y0 ∈ Cn , y0 6= 0 beliebig
Potenzenmethode:
yk+1 = Ayk
k = 0, 1, 2, . . .
oder yk = Ak y0
Im Folgenden: Sortierung der Eigenwerte von A nach ihrem Betrag:
|λ1 | ≥ |λ2 | ≥ |λ3 | ≥ · · · ≥ |λn |.
Konvergenzsatz
Es sei A ∈ Cn,n diagonalisierbar mit X −1 AX = Λ = diag(λ1 , . . . , λn ), X = x1 · · · xn , kxi k = 1 und
es gelte
|λ2 |
η :=
< 1.
|λ1 |
T
Ist für a := X −1 y0 , a = α1 · · · αn die erste Komponente
α1 6= 0, dann gilt für yk+1 = Ayk
(a) yk = λk1 α1 x1 + O(η k ) (yk /λk1 konvergiert gegen einen
Eigenvektor von A).
(b) Für die Rayleigh-Quotienten gilt ρA (yk ) = λ1 + O(η k ).
(c) Falls A normal ist gilt ρA (yk ) = λ1 + O(η 2k ).
Potenzenmethode
y0 6= 0 gegebener Startvektor, y0 = y0 /ky0 k
for k = 0, 1, . . . do
zk+1 = Ayk
ρk = ykH zk+1
1
yk+1 = kzk+1
k zk+1
end for
Vermeide Over- und Underflow durch Normierung
Inverse Potenzenmethode
Nachteile der Potenzenmethode:
I
Konvergenz langsam, falls η ≈ 1
I
nur das Eigenpaar zum betragsgrößten Eigenwert berechenbar
Alternative: inverse Potenzenmethode mit Shift
sei µ ≈ λj ∈ λ(A) so, dass gilt
|µ − λj | |µ − λk |,
I
Eigenwerte von (µI − A)−1 :
k 6= j.
Inverse Potenzenmethode
Nachteile der Potenzenmethode:
I
Konvergenz langsam, falls η ≈ 1
I
nur das Eigenpaar zum betragsgrößten Eigenwert berechenbar
Alternative: inverse Potenzenmethode mit Shift
sei µ ≈ λj ∈ λ(A) so, dass gilt
|µ − λj | |µ − λk |,
I
Eigenwerte von (µI − A)−1 :
I
betragsgrößter Eigenwert:
k 6= j.
1/(µ − λk )
Inverse Potenzenmethode
Nachteile der Potenzenmethode:
I
Konvergenz langsam, falls η ≈ 1
I
nur das Eigenpaar zum betragsgrößten Eigenwert berechenbar
Alternative: inverse Potenzenmethode mit Shift
sei µ ≈ λj ∈ λ(A) so, dass gilt
|µ − λj | |µ − λk |,
I
Eigenwerte von (µI − A)−1 :
I
betragsgrößter Eigenwert:
k 6= j.
1/(µ − λk )
1/(µ − λj )
Idee: Potenzenmethode auf (µI − A)−1 anwenden
Inverse Potenzenmethode mit Shift
y0 ∈ Cn beliebig ,
(µI − A)yk+1 = yk ,
Algorithmus
µ ∈ C gegebener Shift, y0 6= 0 gegebener Startvektor
y0 = y0 /ky0 k
Berechne die LU-Zerlegung von µI − A
for k = 0, 1, . . . do
Löse (µI − A)zk+1 = yk mit der LU-Zerlegung
1
yk+1 = kzk+1
k zk+1
H Ay
ρk+1 = ρA (yk+1 ) = yk+1
k+1
end for
Konvergenzfaktor:
η = max
k6=j
|µ − λj |
|µ − λk |−1
= max
1.
k6=j |µ − λk |
|µ − λj |−1
Beispiel zur Inversen Potenzenmethode mit Shift
wähle µ = 3.4117647 . . . (also die Näherung aus zwei Schritten der
Potenzenmethode) und den zugehörigen Vektor y2 als Startvektor:
k
ρ(yk )
|ρ(yk ) − λ1 |
1 3.414213562319 5.42 · 10−11
2 3.414213562373 4.44 · 10−16
3 3.414213562373 0
Konvergenzfaktor:
η ≈ 1.734 · 10−3 .
Herunterladen