Eigenwerte Vorlesung Computergestützte Mathematik zur Linearen Algebra Lehrstuhl für Angewandte Mathematik Sommersemester 2009 25. Juni + 2.+9. Juli 2009 Grundlagen Definition Ist für A ∈ Cn,n , Ax = λx für ein x 6= 0, dann ist x ∈ Cn ein Eigenvektor und λ ∈ C ist ein Eigenwert von A. Die Menge λ(A) = {λ | λ ist Eigenwert von A} heißt Spektrum von A. Es gilt λ ∈ λ(A) ⇐⇒ ∃x 6= 0, so dass (A − λI )x = 0 ⇐⇒ A − λI ist singulär ⇐⇒ p(λ) := det(A − λI ) = 0. p(λ), p ∈ Pn wird charakteristisches Polynom von A genannt. Die Vielfachheit der Nullstelle λ heißt algebraische Vielfachheit des Eigenwertes λ. Fundamentalsatz der Algebra Nach dem Fundamentalsatz der Algebra ist λ(A) = {λ1 , . . . , λn } eine diskrete Menge von n komplexen Zahlen λj ∈ C. Definition Für X ∈ Cn,n nicht singulär heißt die Abbildung B = X −1 AX Ähnlichkeitstransformation und wir sagen, dass A ähnlich zu B ist. Aus Bv = λv ⇐⇒ X −1 AXv = λv ⇐⇒ A(Xv ) = λ(Xv ) folgt, dass A und B dieselben Eigenwerte haben und dass v genau dann Eigenvektor von B ist, wenn Xv Eigenvektor von A ist. Ein gefährlicher Algorithmus naheliegende Idee: Nullstellen des charakteristischen Polynoms berechnen −→ schlecht konditioniertes Problem: p(λ) = n X aj λ j , j=0 e p (λ, ε) = n X j=0 aj + εaj εj j λ, ε = p(λ) + εq(λ), |εj | ≤ ε, q(λ) = n X j=0 so ist |bj | ≤ |aj |. bj λj , Beispiel Für das einfache Beispiel A = diag(10, 11, . . . , 16) ∈ R7,7 ist p(λ) = −λ7 + 91λ6 − 3535λ5 + · · · − 31 813 200λ + 57 657 600. Für λ∗ = 10 ist damit |q(λ∗ )| ≤ 107 + 91 · 106 + · · · + 57 657 600 ≈ 3 · 109 |p 0 (λ∗ )| = 720. Der Verstärkungsfaktor kann also im ungünstigsten Fall εj = sign(aj )ε von der Größenordnung 105 sein. Fazit: niemals Koeffizienten des charakteristischen Polynoms zur Berechnung der Eigenwerte einer Matrix verwenden Pagerank Das Internet besteht aus 1010 Seiten. Der wesentliche Wortschatz ist etwa 105 Worte. Wie findet man zu einer Suchanfrage die wichtigste Seite? Wie bestimmt man die Wichtigkeit einer Seite? Idee: Jede Seite Pj bekommt einen Wichtigkeitswert (Pagerank) I (Pj ) und vererbt ihren Pagerank an diejenigen Seiten weiter auf die sie verlinkt. Es sei ni die Anzahl der von Pi ausgehenende Links und Bi die Menge der Seiten die auf Pi verweisen so setzt man I (Pi ) = X I (Pj ) nj Pj ∈Bi Definiert man die Hyperlinkmatrix 1/nj H = (hi,j ) mit hi,j = 0 falls Pj ∈ Bi sonst und einen Vektor I = (I (P1 ), . . . , I (Pn )) so ist I eine Lösung der Eigenwertgleichung HI = I mit Eigenwert 1. Stochastische Interpretation Die Hyperlinkmatrix H ist eine sogenannte stochastische Matrix, d. h. alle Einträge sind positiv und die Spaltensumme ist 1, es sei denn die Seite die zur Spalte gehört hat keine Links. Interpretation als “Random Walk”: Ein Spaziergänger geht von Knoten zu Knoten und folgt in einem Knoten zufällig (mit gleicher Wahrscheinlichkeit) einem der ausgehenden Wege. Satz von Gershgorin Satz Es gilt n [ λ A ⊆ Dj , Dj = {z ∈ C : |z − ajj | ≤ rj }, rj = j=1 n X |ajl |, l=1,l6=j Beweis: Sei v ein Eigenvektor zum Eigenwert λ, wähle i so dass |vi | ≥ |vj | für alle 1 < j < n. (vi 6= 0) Die i-te Zeile der Gleichung Av = λv liefert n X j=1 aij vj = λvi ⇔ X aij vj = (λ − aii )vi j6=i ⇒ |λ − aii | = | X j6=i aij X vj |≤ |aij | vi j6=i Invariante Unterräume Es gelte AX = XB für X ∈ Cn,k , B ∈ Ck,k . Dann gilt: I R(X ) = {Xy | y ∈ Ck } (das Bild von X ) ist rechts A-invarianter Unterraum, d. h. R(AX ) ⊆ R(X ) und es gilt I λ(B) ⊆ λ(A). Ebenso folgt aus Y H A = BY H für Y ∈ Cn,k , B ∈ Ck,k . I R(Y ) ein links A-invarianter Unterraum I λ(B) ⊆ λ(A). Definition A ∈ Cn,n heißt reduzibel, wenn es eine Permutationsmatrix P gibt, so dass A11 A12 T P AP = B = , 0 A22 mit quadratischen Matrizen A11 ∈ Ck,k und A22 ∈ Cn−k,n−k gilt. Anderenfalls heißt A irreduzibel. Wegen Ik Ik B = A11 0 0 0 In−k B = A22 0 In−k , Ik 0 ist R( ) ein rechts und R( ) ein links B-invarianter 0 In−k Unterraum und es gilt λ(A) = λ(A11 ) ∪ λ(A 22 ). Ik 0 (R(P ) ist rechts und R(P ) links A-invarianter 0 In−k Unterraum.) Normale Matrizen Definition Eine Matrix A ∈ Cn,n ist normal falls AAH = AH A. Beispiel: Hermitesche Matrizen (A = AH ), schief-Hermitesche Matrizen (A = −AH ) und unitäre Matrizen sind normal. Satz Eine Matrix A ∈ Cn,n ist normal genau dann, wenn sie unitär diagonalisierbar ist, d. h. es gibt eine unitäre Matrix U ∈ Cn,n , so dass U H AU = D = diag(λ1 , . . . , λn ). Störungssatz Satz Sei λ ∈ λ(A) ein einfacher Eigenwert von A und seien x und y zugehörige rechte und linke Eigenvektoren: Ax = λx, y H A = λy H . Dann hat die Matrix A + E für hinreichend klein einen einfachen Eigenwert λ(), so dass λ() = λ + (ohne Beweis) ← Numerik II y H Ex + O(2 ). yHx Bemerkungen I Für kE k = 1, kxk = ky k = 1 gilt |λ0 (0)| ≤ 1 |y H x| , 1 |y H x| Konditionszahl von λ d.h. einfache Eigenwerte werden in erster Näherung durch die Konditionzahl gestört. I Falls λ ein Eigenwert mit Defekt: Störungen ∼ 1/m zu erwarten (m die Dimension des größten Jordan-Blocks ist) Für einen Jordan-Block gilt x = e1 , y = em , also y H x = 0 Rayleigh-Quotient und Wertebereich Definition Zu gegebener Matrix A und x 6= 0 heißt %A (x) = x H Ax xHx Rayleigh-Quotient von x. Die Menge F(A) = {%A (x), x ∈ Cn , x 6= 0} aller Rayleigh-Quotienten von A heißt Wertebereich von A. Achtung: auch für A ∈ Rn,n wird der Wertebereich von allen Rayleigh-Quotienten von Vektoren in Cn gebildet Eigenschaften des Wertebereichs Es gilt (a) %(γx) = %(x) für alle γ 6= 0, γ ∈ C. (b) λ(A) ⊂ F(A), d. h. alle Eigenwerte liegen im Wertebereich. (c) Für normale Matrizen (d. h. AH A = AAH ) gilt F(A) = conv(λ(A)). Ist A nicht normal, dann kann der Wertebereich deutlich größer sein, als die Konvexkombination der Eigenwerte. Hausdorff (1919) konnte jedoch zeigen, dass der Wertebereich immer eine kompakte und konvexe Menge ist. Schranken für den Wertebereich Ist A ∈ Cn,n Hermitesch, dann gilt (a) λmin ≤ %(x) ≤ λmax ∀x 6= 0 (b) λmax = maxx6=0 %(x) (c) λmin = minx6=0 %(x) Potenzenmethode Sei A ∈ Cn,n , y0 ∈ Cn , y0 6= 0 beliebig Potenzenmethode: yk+1 = Ayk k = 0, 1, 2, . . . oder yk = Ak y0 Im Folgenden: Sortierung der Eigenwerte von A nach ihrem Betrag: |λ1 | ≥ |λ2 | ≥ |λ3 | ≥ · · · ≥ |λn |. Konvergenzsatz Es sei A ∈ Cn,n diagonalisierbar mit X −1 AX = Λ = diag(λ1 , . . . , λn ), X = x1 · · · xn , kxi k = 1 und es gelte |λ2 | η := < 1. |λ1 | T Ist für a := X −1 y0 , a = α1 · · · αn die erste Komponente α1 6= 0, dann gilt für yk+1 = Ayk (a) yk = λk1 α1 x1 + O(η k ) (yk /λk1 konvergiert gegen einen Eigenvektor von A). (b) Für die Rayleigh-Quotienten gilt ρA (yk ) = λ1 + O(η k ). (c) Falls A normal ist gilt ρA (yk ) = λ1 + O(η 2k ). Potenzenmethode y0 6= 0 gegebener Startvektor, y0 = y0 /ky0 k for k = 0, 1, . . . do zk+1 = Ayk ρk = ykH zk+1 1 yk+1 = kzk+1 k zk+1 end for Vermeide Over- und Underflow durch Normierung Inverse Potenzenmethode Nachteile der Potenzenmethode: I Konvergenz langsam, falls η ≈ 1 I nur das Eigenpaar zum betragsgrößten Eigenwert berechenbar Alternative: inverse Potenzenmethode mit Shift sei µ ≈ λj ∈ λ(A) so, dass gilt |µ − λj | |µ − λk |, I Eigenwerte von (µI − A)−1 : k 6= j. Inverse Potenzenmethode Nachteile der Potenzenmethode: I Konvergenz langsam, falls η ≈ 1 I nur das Eigenpaar zum betragsgrößten Eigenwert berechenbar Alternative: inverse Potenzenmethode mit Shift sei µ ≈ λj ∈ λ(A) so, dass gilt |µ − λj | |µ − λk |, I Eigenwerte von (µI − A)−1 : I betragsgrößter Eigenwert: k 6= j. 1/(µ − λk ) Inverse Potenzenmethode Nachteile der Potenzenmethode: I Konvergenz langsam, falls η ≈ 1 I nur das Eigenpaar zum betragsgrößten Eigenwert berechenbar Alternative: inverse Potenzenmethode mit Shift sei µ ≈ λj ∈ λ(A) so, dass gilt |µ − λj | |µ − λk |, I Eigenwerte von (µI − A)−1 : I betragsgrößter Eigenwert: k 6= j. 1/(µ − λk ) 1/(µ − λj ) Idee: Potenzenmethode auf (µI − A)−1 anwenden Inverse Potenzenmethode mit Shift y0 ∈ Cn beliebig , (µI − A)yk+1 = yk , Algorithmus µ ∈ C gegebener Shift, y0 6= 0 gegebener Startvektor y0 = y0 /ky0 k Berechne die LU-Zerlegung von µI − A for k = 0, 1, . . . do Löse (µI − A)zk+1 = yk mit der LU-Zerlegung 1 yk+1 = kzk+1 k zk+1 H Ay ρk+1 = ρA (yk+1 ) = yk+1 k+1 end for Konvergenzfaktor: η = max k6=j |µ − λj | |µ − λk |−1 = max 1. k6=j |µ − λk | |µ − λj |−1 Beispiel zur Inversen Potenzenmethode mit Shift wähle µ = 3.4117647 . . . (also die Näherung aus zwei Schritten der Potenzenmethode) und den zugehörigen Vektor y2 als Startvektor: k ρ(yk ) |ρ(yk ) − λ1 | 1 3.414213562319 5.42 · 10−11 2 3.414213562373 4.44 · 10−16 3 3.414213562373 0 Konvergenzfaktor: η ≈ 1.734 · 10−3 .