Springer-Lehrbuch Josef Stoer Roland Bulirsch Numerische Mathematik 2 Eine Einführung – unter Berücksichtigung von Vorlesungen von F.L. Bauer Fünfte Auflage Mit 28 Abbildungen 123 Prof. Dr. Josef Stoer Universität Würzburg Institut für Angewandte Mathematik und Statistik Am Hubland 97074 Würzburg, Deutschland e-mail: [email protected] Prof. Dr. Roland Bulirsch Technische Universität München Zentrum für Mathematik Boltzmannstr. 3 85747 Garching, Deutschland e-mail: [email protected] Die 2.Auflage erschien 1978 als Band 114 der Reihe Heidelberger Taschenbücher Mathematics Subject Classification (2000): 65-01, 65-02, 65B05, 65D32, 65F10, 65F15, 65F25, 65F35, 65F50, 65L05, 65L06, 65L07, 65L12, 65L15, 65L20, 65L60, 65L80, 65N22, 65N30 Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. ISBN 3-540-23777-1 Springer Berlin Heidelberg New York ISBN 3-540-67644-9 4. Aufl. Springer-Verlag Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 1973, 1978, 1990, 2000, 2005 Printed in Germany Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Satz: Datenerstellung durch den Autor unter Verwendung eines Springer TEX-Makropakets Herstellung: LE-TEX Jelonek, Schmidt & Vöckler GbR, Leipzig Einbandgestaltung: design & production GmbH, Heidelberg Gedruckt auf säurefreiem Papier 44/3142YL - 5 4 3 2 1 0 Vorwort zur fünften Auflage Auch diese Neuauflage wurde zum Anlaß genommen, den vorliegenden Text zu verbessern und um neue Abschnitte zu ergänzen. Schon in den früheren Auflagen wurde die Mehrzielmethode als eine der leistungsfähigsten Methoden zur Lösung von Randwertproblemen für gewöhnliche Differentialgleichungen behandelt. In einem neuen Abschnitt 7.3.8 werden jetzt neuere fortgeschrittene Techniken beschrieben, die die Effizienz dieser Methode weiter steigern, wenn man mit ihr Mehrpunktrandwertprobleme behandeln will, bei denen Unstetigkeiten der Lösung zugelassen sind. Solche Probleme treten bei Differentialgleichungen auf, die optimale Steuerungen beschreiben, in denen sich die Steuerung in Abhängigkeit von Schaltfunktionen ändert. Krylovraum-Methoden gehören mittlerweile zu den wichtigsten iterativen Methoden zur Lösung sehr großer linearer Gleichungssysteme. Ihre Beschreibung in Abschnitt 8.7 wird um einen neuen Unterabschnitt 8.7.4 ergänzt, der sich mit dem Bi-CG Verfahren befaßt und dessen Stabilisierung, dem Bi-CGSTAB Verfahren, das speziell für die Lösung von Gleichungen mit einer nichtsymmetrischen Matrix wichtig ist. Schließlich werden jetzt alle Krylovraum-Methoden in einen detaillierteren Vergleich der iterativen Verfahren in Abschnitt 8.10 einbezogen. An der Erstellung der Neuauflage haben viele geholfen. Besonders danken wir Herrn Dr. R. Callies für seine Hilfe beim Zustandekommen des neuen Abschnitts 7.3.8, in den seine Ideen und Resultate eingeflossen sind. Die Herren Dr. M. Preiß und Dr. M. Wenzel haben sich mit der kritischen Lektüre nicht nur der neuen Abschnitte verdient gemacht. Herrn Professor Sadegh Jokar von der Universität Teheran danken wir für Hinweise auf (gewissermaßen internationale) Druckfehler in den früheren deutschen wie englischen Auflagen. VI Vorwort zur fünften Auflage Schließlich danken wir den Mitarbeiterinnen und Mitarbeitern des Springer-Verlages für die mittlerweile gewohnte gute Zusammenarbeit, die zum reibungslosen Entstehen auch dieser Neuauflage führte. Würzburg, München Januar 2005 J. Stoer R. Bulirsch Inhaltsverzeichnis . . . . . . . . . . . . . 6 Eigenwertprobleme 6.0 6.1 6.2 6.3 6.4 Einführung . . . . . . . . . . . . . . . . . Elementare Eigenschaften von Eigenwerten . . . Die Jordansche Normalform einer Matrix . . . . Die Frobeniussche Normalform einer Matrix . . . Die Schursche Normalform einer Matrix. Hermitesche und normale Matrizen, singuläre Werte von Matrizen . . . . . . . . . . . . . . . . Reduktion von Matrizen auf einfachere Gestalt . . Reduktion einer Hermiteschen Matrix auf Tridiagonalgestalt. Das Verfahren von Householder Reduktion einer Hermiteschen Matrix auf Tridiagonalgestalt bzw. Diagonalgestalt: Die Verfahren von Givens und Jacobi . . . . . . Reduktion einer Hermiteschen Matrix auf Tridiagonalgestalt. Das Verfahren von Lanczos . . Reduktion auf Hessenberg-Gestalt . . . . . . . Methoden zur Bestimmung der Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . Berechnung der Eigenwerte einer Hermiteschen Tridiagonalmatrix . . . . . . . . . . . . . . Berechnung der Eigenwerte einer Hessenbergmatrix. Die Methode von Hyman . . . . . . . . . . . Die einfache Vektoriteration und die inverse Iteration von Wielandt . . . . . . . . . . . . . . . . Das LR- und das QR-Verfahren . . . . . . . . . Die praktische Durchführung des QR-Verfahrens . Berechnung der singulären Werte einer Matrix . . Allgemeine Eigenwertprobleme . . . . . . . . . Eigenwertabschätzungen . . . . . . . . . . . . 6.5 6.5.1 6.5.2 6.5.3 6.5.4 6.6 6.6.1 6.6.2 6.6.3 6.6.4 6.6.5 6.7 6.8 6.9 1 1 3 6 12 17 24 26 32 37 41 44 45 46 48 56 65 78 82 84 VIII Inhaltsverzeichnis Übungsaufgaben zu Kapitel 6 . . . . . . . . . Literatur zu Kapitel 6 . . . . . . . . . . . . . 98 105 . . . . . 109 7 Gewöhnliche Differentialgleichungen 7.0 7.1 Einleitung . . . . . . . . . . . . . . . . . . 109 Einige Sätze aus der Theorie der gewöhnlichen Differentialgleichungen . . . . . . . . . . . . 111 Anfangswertprobleme . . . . . . . . . . . . . 115 Einschrittverfahren. Grundbegriffe . . . . . . . 115 Die Konvergenz von Einschrittverfahren . . . . . 121 Asymptotische Entwicklungen für den globalen Diskretisierungsfehler bei Einschrittverfahren . . . 125 Rundungsfehlereinfluß bei Einschrittverfahren . . 128 Einschrittverfahren in der Praxis . . . . . . . . 130 Beispiele für Mehrschrittverfahren . . . . . . . 137 Allgemeine Mehrschrittverfahren . . . . . . . . 141 Ein Beispiel . . . . . . . . . . . . . . . . . 144 Lineare Differenzengleichungen . . . . . . . . 147 Die Konvergenz von Mehrschrittverfahren . . . . 149 Lineare Mehrschrittverfahren . . . . . . . . . . 154 Asymptotische Entwicklungen des globalen Diskretisierungsfehlers für lineare Mehrschrittverfahren 159 Mehrschrittverfahren in der Praxis . . . . . . . 163 Extrapolationsverfahren zur Lösung des Anfangswertproblems . . . . . . . . . . . 168 Vergleich der Verfahren zur Lösung von Anfangswertproblemen . . . . . . . . . . 170 Steife Differentialgleichungen . . . . . . . . . 172 Implizite Differentialgleichungen, Differential-Algebraische Gleichungen . . . . . . 179 Behandlung von Unstetigkeiten in Differentialgleichungen . . . . . . . . . . . 183 Sensitivitätsanalyse bei Anfangswertproblemen . . 185 Randwertprobleme . . . . . . . . . . . . . . 187 Einleitung . . . . . . . . . . . . . . . . . . 187 Das einfache Schießverfahren . . . . . . . . . 190 Das einfache Schießverfahren bei linearen Randwertproblemen . . . . . . . . 196 Ein Existenz- und Eindeutigkeitssatz für die Lösung von Randwertproblemen . . . . . 198 7.2 7.2.1 7.2.2 7.2.3 7.2.4 7.2.5 7.2.6 7.2.7 7.2.8 7.2.9 7.2.10 7.2.11 7.2.12 7.2.13 7.2.14 7.2.15 7.2.16 7.2.17 7.2.18 7.2.19 7.3 7.3.0 7.3.1 7.3.2 7.3.3 Inhaltsverzeichnis 7.3.4 Schwierigkeiten bei der Durchführung des einfachen Schießverfahrens . . . . . . . . . 7.3.5 Die Mehrzielmethode . . . . . . . . . . . . . 7.3.6 Hinweise zur praktischen Realisierung der Mehrzielmethode . . . . . . . . . . . . . 7.3.7 Ein Beispiel: Optimales Bremsmanöver eines Raumfahrzeugs in der Erdatmosphäre (Re-entry Problem) . . . . . . . . . . . . . . 7.3.8 Zur Realisierung der Mehrzielmethode – fortgeschrittene Techniken . . . . . . . . . . . 7.3.9 Der Grenzfall m → ∞ der Mehrzielmethode (Allgemeines Newton-Verfahren, Quasilinearisierung) 7.4 Differenzenverfahren . . . . . . . . . . . . . 7.5 Variationsmethoden . . . . . . . . . . . . . . 7.6 Vergleich der Methoden zur Lösung von Randwertproblemen für gewöhnliche Differentialgleichungen . . . . . . . . . . . . 7.7 Variationsverfahren für partielle Differentialgleichungen. Die „Finite-Element“-Methode . . . . . . . . . Übungsaufgaben zu Kapitel 7 . . . . . . . . . Literatur zu Kapitel 7 . . . . . . . . . . . . . 8 8.0 8.1 Iterationsverfahren zur Lösung großer linearer Gleichungssysteme, einige weitere Verfahren . . Einleitung . . . . . . . . . . . . . . . . . . Allgemeine Ansätze für die Gewinnung von Iterationsverfahren . . . . . . . . . . . . 8.2 Konvergenzsätze . . . . . . . . . . . . . . . 8.3 Relaxationsverfahren . . . . . . . . . . . . . 8.4 Anwendungen auf Differenzenverfahren – ein Beispiel . . . . . . . . . . . . . . . . . 8.5 Block-Iterationsverfahren . . . . . . . . . . . 8.6 Das ADI-Verfahren von Peaceman-Rachford . . . 8.7 Krylovraum-Methoden zur Lösung linearer Gleichungen . . . . . . . . . . . . . 8.7.1 Das cg-Verfahren von Hestenes und Stiefel . . . 8.7.2 Der GMRES-Algorithmus . . . . . . . . . . . 8.7.3 Der Biorthogonalisierungsalgorithmus von Lanczos und das QMR-Verfahren . . . . . . . . . . . IX 200 205 209 214 221 226 231 236 246 250 257 264 269 269 271 274 280 290 296 299 309 311 320 334 X Inhaltsverzeichnis 8.7.4 Der Bi-CG und der Bi-CGSTAB Algorithmus . . 8.8 Der Algorithmus von Buneman und Fouriermethoden zur Lösung der diskretisierten Poissongleichung . 8.9 Mehrgitterverfahren . . . . . . . . . . . . . . 8.10 Vergleich der Iterationsverfahren . . . . . . . . Übungsaufgaben zu Kapitel 8 . . . . . . . . . Literatur zu Kapitel 8 . . . . . . . . . . . . . Namen- und Sachverzeichnis . . . . . . . . . . . . 339 345 356 367 375 383 387 6 Eigenwertprobleme 6.0 Einführung Viele praktische Probleme in den Ingenieur- und Naturwissenschaften führen auf Eigenwertprobleme. Zu diesen Problemen gehört typischerweise ein überbestimmtes Gleichungssystem, etwa von n + 1 Gleichungen für n Unbekannte, ξ1 , . . . , ξn , der Form ⎡ f (ξ , . . . , ξ ; λ) ⎤ 1 1 n .. ⎦ = 0, (6.0.1) F(x; λ) :≡ ⎣ . f n+1 (ξ1 , . . . , ξn ; λ) in denen die Funktionen f i von einem weiteren Parameter λ abhängen. Gewöhnlich besitzt (6.0.1) nur für spezielle Werte λ = λi , i = 1, 2, . . . , dieses Parameters Lösungen x = [ξ1 , . . . , ξn ], die natürlich von λi abhängen, x = x(λi ). Diese Werte λi heißen Eigenwerte des Eigenwertproblems (6.0.1), und eine zugehörige Lösung x(λi ) Eigenlösung zum Eigenwert λi . In dieser Allgemeinheit kommen Eigenwertprobleme z.B. bei Randwertproblemen für Differentialgleichungen vor (s. Abschnitt 7.3.0). In diesem Abschnitt betrachten wir nur die speziellere Klasse der algebraischen Eigenwertprobleme, bei denen die Funktionen f i , i = 1, . . . , n, linear von x und linear von λ abhängen und die die folgende Form besitzen: Zu zwei reellen oder komplexen n × n-Matrizen A und B sind Zahlen λ ∈ C so zu bestimmen, so daß das überbestimmte Gleichungssystem von n + 1 Gleichungen (6.0.2) (A − λB)x = 0, x H x = 1, eine Lösung x ∈ Cn besitzt. Dies ist äquivalent damit, Zahlen λ ∈ C so zu bestimmen, daß das homogene lineare Gleichungssystem 2 (6.0.3) 6 Eigenwertprobleme Ax = λBx eine nichttriviale Lösung x ∈ Cn , x = 0, besitzt. Für beliebige Matrizen A und B ist dieses Problem noch sehr allgemein und es wird nur kurz in Abschnitt 6.8 behandelt. Kapitel 6 beschäftigt sich hauptsächlich mit dem Sonderfall B := I von (6.0.3). Hier sind zu einer n × n-Matrix A Zahlen λ ∈ C (die Eigenwerte von A) und nichttriviale Vektoren x ∈ Cn , x = 0 (die Eigenvektoren von A zum Eigenwert λ), zu bestimmen, so daß (6.0.4) Ax = λx, x = 0. In den Abschnitten 6.1–6.4 werden die wichtigsten theoretischen Ergebnisse über das Eigenwertproblem (6.0.4) zu einer beliebigen n × n-Matrix A zusammengestellt. So beschreiben wir verschiedene Normalformen von A, die mit den Eigenwerten von A verknüpft sind, weitere Resultate über das Eigenwertproblem für wichtige spezielle Klassen von Matrizen A (z.B. für Hermitesche und normale Matrizen), sowie elementare Resultate über die singulären Werte σi einer allgemeinen m × n-Matrix, die als die Eigenwerte σi2 von A H A bzw. A A H definiert sind. Fast alle Verfahren, um die Eigenwerte und Eigenvektoren einer Matrix A zu bestimmen, beginnen mit einem vorbereitenden Reduktionsschritt, in dem die Matrix A in eine zu A „ähnliche“, aber einfacher strukturierte Matrix B mit den gleichen Eigenwerten transformiert wird (B = (bi,k ) ist entweder eine Tridiagonalmatrix, bi,k = 0 für |i − k| > 1, oder eine Hessenbergmatrix, bi,k = 0, für i ≥ k + 2), so daß die Standardverfahren zur Berechnung der Eigenwerte und Eigenvektoren von B weniger Rechenoperationen erfordern als bei ihrer Anwendung auf A. Eine Reihe solcher Reduktionsmethoden werden in Abschnitt 6.5 beschrieben. Die Hauptalgorithmen zur Berechnung von Eigenwerten und Eigenvektoren werden in Abschnitt 6.6 dargestellt, darunter der LR-Algorithmus von Rutishauser (Abschnitt 6.6.4) und der leistungsfähige QR-Algorithmus von Francis (Abschnitte 6.6.4 und 6.6.5). Eng verwandt mit dem QR-Verfahren ist ein Verfahren von Golub und Reinsch zur Berechnung der singulären Werte von Matrizen, es wird in Abschnitt 6.7 beschrieben. Nach einer kurzen Behandlung von allgemeinen Eigenwertproblemen (6.0.3) in Abschnitt 6.8 schließt das Kapitel mit der Beschreibung einer Reihe nützlicher Abschätzungen für Eigenwerte (Abschnitt 6.9). Diese können dazu dienen, um die Sensitivität der Eigenwerte bei kleinen Änderungen der Matrix zu studieren. Eine detaillierte Beschreibung aller numerischen Aspekte von algebraischen Eigenwertproblemen findet man in der ausgezeichneten Monographie von Wilkinson (1965), und bei Golub und Van Loan (1983); das 6.1 Elementare Eigenschaften von Eigenwerten 3 Eigenwertproblem für symmetrische Matrizen wird bei Parlett (1980) behandelt. ALGOL-Programme für alle Verfahren dieses Kapitels findet man in Wilkinson und Reinsch (1971), FORTRAN-Programme im EISPACK Guide von Smith et al. (1976) und dessen Fortsetzungsband von Garbow et al. (1977). Diese Verfahren sind auch in die großen Programmsysteme wie MATLAB, MATHEMATICA und MAPLE eingegangen und stehen dort in sehr benutzerfreundlicher Form zur Verfügung. 6.1 Elementare Eigenschaften von Eigenwerten Im folgenden studieren wir das Problem (6.0.4), d.h. das Problem, zu einer gegebenen n × n-Matrix A eine Zahl λ ∈ C so zu bestimmen, daß das homogene lineare Gleichungssystem (6.1.1) (A − λI )x = 0 eine nichttriviale Lösung x = 0 besitzt. (6.1.2) Def.: Eine Zahl λ ∈ C heißt Eigenwert der Matrix A, wenn es einen Vektor x = 0 gibt mit Ax = λx. Jeder solche Vektor heißt (Rechts-) Eigenvektor von A zum Eigenwert λ. Die Menge aller Eigenwerte heißt das Spektrum von A. Die Menge L(λ) := {x|(A − λI )x = 0} bildet einen linearen Teilraum des Cn der Dimension ρ(λ) = n − Rang (A − λI ), und eine Zahl λ ∈ C ist genau dann Eigenwert von A, wenn L(λ) = 0, d.h. wenn ρ(λ) > 0 gilt und deshalb A − λI singulär ist: det(A − λI ) = 0. Man sieht leicht, daß ϕ(µ) := det(A − µI ) ein Polynom n-ten Grades folgender Form ist ϕ(µ) = (−1)n (µn + αn−1 µn−1 + · · · + α0 ). Es heißt das (6.1.3) charakteristische Polynom der Matrix A. Seine Nullstellen sind genau die Eigenwerte von A. Sind λ1 , . . . , λk die verschiedenen Nullstellen von ϕ(µ), so läßt sich ϕ in der Form 4 6 Eigenwertprobleme ϕ(µ) = (−1)n (µ − λ1 )σ1 (µ − λ2 )σ2 · · · (µ − λk )σk darstellen. Die Zahl σi , die wir auch mit σ (λi ) = σi bezeichnen, heißt die Vielfachheit des Eigenwerts λi , genauer, seine algebraische Vielfachheit. Die Eigenvektoren zum Eigenwert λ sind nicht eindeutig bestimmt, zusammen mit dem Nullvektor füllen sie gerade den linearen Teilraum L(λ) des Cn aus. Es gilt also (6.1.4) Mit x und y ist auch jede Linearkombination αx + βy = 0 wieder Eigenvektor zum Eigenwert λ der Matrix A. Die Zahl ρ(λ) = dim L(λ) gibt die Maximalzahl linear unabhängiger Eigenvektoren zum Eigenwert λ an. Sie heißt deshalb auch die geometrische Vielfachheit des Eigenwertes λ. Man verwechsle sie nicht mit der algebraischen Vielfachheit σ (λ). Beispiele: Die n-reihige Diagonalmatrix D := λI besitzt das charakteristische Polynom ϕ(µ) = det(D − µI ) = (λ − µ)n . λ ist einziger Eigenwert und jeder Vektor x ∈ Cn , x = 0, ist Eigenvektor, L(λ) = Cn , und es gilt σ (λ) = n = ρ(λ). Die n-reihige Matrix ⎤ ⎡ λ 1 0 ⎢ ⎥ λ · ⎥ ⎢ ⎥ ⎢ · · (6.1.5) Cn (λ) := ⎢ ⎥ · · ⎥ ⎢ ⎣ · 1⎦ 0 λ besitzt ebenfalls das charakteristische Polynom ϕ(µ) = (λ − µ)n und λ als einzigen Eigenwert mit σ (λ) = n. Jedoch ist jetzt der Rang von Cn (λ) − λI gleich n − 1, also ρ(λ) = n − (n − 1) = 1, sowie L(λ) = {αe1 |α ∈ C}, e1 = (1, 0, . . . , 0)T = 1. Achsenvektor. An weiteren einfachen Eigenschaften von Eigenwerten notieren wir: (6.1.6) Ist p(µ) = γ0 + γ1 µ + · · · + γm µm ein beliebiges Polynom und definiert man für eine n × n-Matrix A die Matrix p(A) durch p(A) := γ0 I + γ1 A + · · · + γm Am , so besitzt die Matrix p(A) den Eigenvektor x zum Eigenwert p(λ), wenn λ Eigenwert von A und x zugehöriger Eigenvektor ist. Insbesondere besitzt α A den Eigenwert αλ, A + τ I den Eigenwert λ + τ . Ist A zusätzlich nicht singulär, so besitzt A−1 den Eigenwert λ−1 zum Eigenvektor x. Beweis: Aus Ax = λx folgt sofort A2 x = A(Ax) = λAx = λ2 x und allgemein Ai x = λi x. Also gilt 6.1 Elementare Eigenschaften von Eigenwerten 5 p(A)x = (γ0 I + γ1 A + · · · + γm Am )x = (γ0 + γ1 λ + · · · + γm λm )x = p(λ)x. Schließlich ist Ax = λx für nicht singuläres A mit A−1 x = λ−1 x äquivalent. ⊔ ⊓ Ferner folgt aus det(A − λI ) = det((A − λI )T ) = det(A T − λI ) det(A H − λ̄I ) = det((A − λI ) H ) = det ((A − λI )T ) = det(A − λI ) die Aussage: (6.1.7) Wenn λ Eigenwert von A ist, so ist λ auch Eigenwert von A T und λ̄ Eigenwert von A H . Zwischen den zugehörigen Eigenvektoren x, y, z, Ax = λx, A T y = λy, A H z = λ̄z gilt wegen A H = Ā T lediglich die triviale Beziehung ȳ = z. Insbesondere gibt es zwischen x und y bzw. x und z i.a. keine einfache Beziehung. Wegen y T = z H und z H A = λz H bezeichnet man z H bzw. y T auch als einen zum Eigenwert λ von A gehörigen Linkseigenvektor. Ist ferner x = 0 Eigenvektor zum Eigenwert λ, Ax = λx, T eine nichtsinguläre n × n-Matrix, und definiert man y := T −1 x, so gilt T −1 AT y = T −1 Ax = λT −1 x = λy, y = 0, d.h. y ist Eigenvektor der transformierten Matrix B := T −1 AT zum selben Eigenwert λ. Solche Transformationen nennt man Ähnlichkeitstransformationen, und B heißt ähnlich zu A, A ∼ B. Man zeigt leicht, daß die Ähnlichkeit von Matrizen eine Äquivalenzrelation ist, d.h. es gilt A ∼ A, A ∼ B ⇒ B ∼ A, A ∼ B, B ∼ C ⇒ A ∼ C. Ähnliche Matrizen besitzen nicht nur dieselben Eigenwerte λ, sondern auch dasselbe charakteristische Polynom. Es ist nämlich 6 6 Eigenwertprobleme det(T −1 AT − µI ) = det(T −1 (A − µI )T ) = det(T −1 ) det(A − µI ) det(T ) = det(A − µI ). Darüber hinaus bleiben die Zahlen ρ(λ), σ (λ) erhalten: Für σ (λ) folgt dies aus der Invarianz des charakteristischen Polynoms, für ρ(λ) daraus, daß wegen der Nichtsingularität von T die Vektoren x1 , . . . , xρ genau dann linear unabhängig sind, wenn die zugehörigen Vektoren yi := T −1 xi , i = 1, . . . , ρ, linear unabhängig sind. Bei den wichtigsten Verfahren zur Berechnung von Eigenwerten und Eigenvektoren einer Matrix A werden zunächst eine Reihe von Ähnlichkeitstransformationen vorgenommen A(0) := A, A(i) := Ti−1 A(i−1) Ti , i = 1, 2, . . . , um die Matrix A schrittweise in eine Matrix einfacherer Gestalt zu transformieren, deren Eigenwerte und Eigenvektoren man leichter bestimmen kann. 6.2 Die Jordansche Normalform einer Matrix Es wurde bereits im letzten Abschnitt bemerkt, daß für einen Eigenwert λ einer n × n-Matrix A die Vielfachheit σ (λ) von λ als Nullstelle des charakteristischen Polynoms nicht mit ρ(λ), der Maximalzahl linear unabhängiger zu λ gehöriger Eigenvektoren, übereinstimmen muß. Man kann jedoch folgende Ungleichung zeigen (6.2.1) 1 ≤ ρ(λ) ≤ σ (λ) ≤ n. Beweis: Wir zeigen nur den nichttrivialen Teil ρ(λ) ≤ σ (λ). Sei ρ := ρ(λ) und seien x1 , . . . , xρ linear unabhängige zu λ gehörige Eigenvektoren, Axi = λxi , i = 1, . . . , ρ. Wir wählen n − ρ weitere linear unabhängige Vektoren xi ∈ Cn , i = ρ + 1, . . . , n, so daß die xi , i = 1, . . . , n, eine Basis des Cn bilden. Dann ist die quadratische Matrix T := (x1 , . . . , xn ) mit den Spalten xi nichtsingulär. Für i = 1, . . . , ρ gilt nun wegen T ei = xi , ei = T −1 xi , T −1 AT ei = T −1 Axi = λT −1 xi = λei . T −1 AT besitzt daher die Gestalt 6.2 Die Jordansche Normalform einer Matrix ⎡ λ ⎢ ⎢ ⎢0 ⎢ −1 T AT = ⎢ ⎢ ⎢ ⎢ ⎣ .. 0 . λ 0 ρ ⎤ ∗ ··· ∗ .. .. ⎥ . .⎥ ∗ ··· ∗⎥ ⎥ ⎥ = λI ⎥ 0 ∗ ··· ∗⎥ .. ⎥ .. .⎦ . ∗ ··· ∗ B C 7 , und es folgt für das charakteristische Polynom von A bzw. T −1 AT ϕ(µ) = det(A − µI ) = det(T −1 AT − µI ) = (λ − µ)ρ · det(C − µI ). ϕ(µ) ist durch (λ − µ)ρ teilbar, also λ mindestens eine ρ-fache Nullstelle von ϕ. ⊔ ⊓ Im Beispiel des letzten Abschnitts wurden bereits die ν × ν-Matrizen [s. (6.1.5)] ⎡ ⎤ λ 1 0 · · ⎢ ⎥ ⎢ ⎥ Cν (λ) = ⎢ · · ⎥ ⎣ ⎦ · 1 0 λ eingeführt und gezeigt, daß für den (einzigen) Eigenwert λ dieser Matrizen gilt 1 = ρ(λ) < σ (λ) = ν (sofern ν > 1). Einziger Eigenvektor (bis auf skalare Vielfache) ist e1 und für die Achsenvektoren ei gilt allgemein (6.2.2) (Cν (λ) − λI )ei = ei−1 , i = ν, ν − 1, . . . , 2, (Cν (λ) − λI )e1 = 0. Setzt man formal ek := 0 für k ≤ 0, so folgt sofort für alle i, j ≥ 1 (Cν (λ) − λI )i e j = e j−i und daher (6.2.3) (Cν (λ) − λI )ν = 0, (Cν (λ) − λI )ν−1 = 0. Die Bedeutung der Matrizen Cν (λ) liegt darin, daß aus ihnen die sog. Jordansche Normalform J einer Matrix aufgebaut ist. Es gilt nämlich der folgende fundamentale Satz, den wir ohne Beweis bringen: (6.2.4) Satz: Sei A eine beliebige n ×n-Matrix und λ1 , . . . , λk ihre verschiedenen Eigenwerte mit den geometrischen bzw. algebraischen Vielfachheiten 8 6 Eigenwertprobleme ρ(λi ), σ (λi ), i = 1, . . . , k. Zu jedem der Eigenwerte λi , i = 1, . . . , k, gibt es dann ρ(λi ) natürliche Zahlen ν j(i) , j = 1,2, . . . , ρ(λi ) mit (i) σ (λi ) = ν1(i) + ν2(i) + · · · + νρ(λ i) und eine nichtsinguläre n × n-Matrix T , so daß J := T −1 AT folgende Gestalt besitzt: ⎡ (6.2.5) ⎤ 0 Cν (1) (λ1 ) 1 . .. ⎢ ⎥ ⎢ ⎥ Cν (1) (λ1 ) ⎢ ⎥ ρ(λ1 ) ⎥ ⎢ ⎥ ⎢ . J =⎢ .. ⎥ Cν (k) (λk ) ⎥ ⎢ 1 ⎥ ⎢ ⎦ ⎣ ... Cν (k) (λk ) 0 ρ(λk ) Die Zahlen ν j(i) , j = 1, . . . , ρ(λi ), (und damit die Matrix J ) sind bis auf die Reihenfolge eindeutig bestimmt. J heißt die Jordansche Normalform der Matrix A. Die Matrix T ist i. allg. nicht eindeutig bestimmt. Partitioniert man die Matrix T spaltenweise entsprechend der Jordanschen Normalform J (6.2.5), (1) (k) T = (T1(1) , . . . , Tρ(λ , . . . , T1(k) , . . . , Tρ(λ ), 1) k) so folgen aus T −1 AT = J und damit AT = T J sofort die Beziehungen (6.2.6) ATj(i) = Tj(i) Cν (i) (λi ), j i = 1, 2, . . . , k, j = 1, 2, . . . , ρ(λi ). Bezeichnen wir die Spalten der n × ν j(i) -Matrix Tj(i) ohne weitere Indizes kurz mit tm , m = 1, 2, . . . , ν j(i) , Tj(i) = (t1 , t2 , . . . , tν (i) ), j so folgt aus (6.2.6) und der Definition von Cν (i) (λi ) sofort j ⎢ (A − λi I )[t1 , . . . , tν (i) ] = [t1 , . . . , tν (i) ] ⎢ ⎣ j oder ⎡0 j 0 1 0 .. . .. . 0⎤ ⎥ ⎥ ⎦ 1 0 6.2 Die Jordansche Normalform einer Matrix (6.2.7) (A − λi I )tm = tm−1 , 9 m = ν j(i) , ν j(i) − 1, . . . , 2, (A − λi I )t1 = 0. Insbesondere ist t1 , die erste Spalte von Tj(i) , Eigenvektor zum Eigenwert λi . Die übrigen tm , m = 2, 3, . . . , ν j(i) , heißen Hauptvektoren zu λi ; man sieht, daß zu jedem Jordanblock Cν (i) (λi ) je ein Eigenvektor und ein Satz j von Hauptvektoren gehört. Insgesamt kann man also zu einer n × n-Matrix A eine Basis des Cn finden (nämlich gerade die Spalten von T ), die nur aus Eigen- und Hauptvektoren von A besteht. Die charakteristischen Polynome (i) (λi − µ)νj = det(Cν (i) (λi ) − µI ) j der einzelnen Jordanblöcke Cν (i) (λi ) heißen die j Elementarteiler (6.2.8) von A. A besitzt also genau dann nur lineare Elementarteiler, wenn ν j(i) = 1 für alle i und j gilt, die Jordansche Normalform von A also eine Diagonalmatrix ist. Man nennt dann A diagonalisierbar oder auch normalisierbar. Dieser Fall ist dadurch ausgezeichnet, daß es dann eine Basis des Cn gibt, die nur aus Eigenvektoren von A besteht, Hauptvektoren treten nicht auf. Andernfalls sagt man, daß A „höhere“, nämlich nichtlineare, Elementarteiler besitze. Aus Satz (6.2.4) folgt sofort der (6.2.9) Satz: Jede n × n-Matrix A mit n verschiedenen Eigenwerten ist diagonalisierbar. Weitere Klassen von diagonalisierbaren Matrizen werden wir in Abschnitt 6.4 kennenlernen. Ein anderer Extremfall liegt vor, wenn zu jedem der verschiedenen Eigenwerte λi , i = 1, . . . , k, von A nur ein Jordanblock in der Jordanschen Normalform J (6.2.5) gehört. Dieser Fall liegt genau dann vor, wenn ρ(λi ) = 1 für i = 1, 2, . . . , k. Die Matrix A heißt dann (6.2.10) nichtderogatorisch, andernfalls derogatorisch (eine n × n-Matrix mit n verschiedenen Eigenwerten ist also sowohl diagonalisierbar als auch nichtderogatorisch!). Die 10 6 Eigenwertprobleme Klasse der nichtderogatorischen Matrizen wird im nächsten Abschnitt näher studiert. Ein weiterer wichtiger Begriff ist der des Minimalpolynoms einer Matrix A. Man versteht darunter dasjenige Polynom ψ(µ) = γ0 + γ1 µ + · · · + γm−1 µm−1 + µm kleinsten Grades mit der Eigenschaft ψ(A) = 0. Es kann mit Hilfe der Jordanschen Normalform von A sofort angegeben werden: (6.2.11) Satz: Sei A eine n × n-Matrix mit den (verschiedenen) Eigenwerten λ1 , . . . , λk und der Jordanschen Normalform J (6.2.5) und sei τi := max1≤ j≤ρ(λi ) ν j(i) . Dann ist (6.2.12) ψ(µ) := (µ − λ1 )τ1 (µ − λ2 )τ2 . . . (µ − λk )τk das Minimalpolynom von A. ψ(µ) ist Teiler jedes Polynoms χ (µ) mit χ (A) = 0. Beweis: Wir zeigen zunächst, daß alle Nullstellen des Minimalpolynoms ψ von A, sofern es existiert, Eigenwerte von A sind. Ist etwa λ Nullstelle von ψ, so gilt ψ(µ) = (µ − λ) · g(µ) mit einem Polynom g(µ), das von kleinerem Grade als ψ ist. Es gilt daher nach Definition des Minimalpolynoms g(A) = 0. Also gibt es einen Vektor z = 0 mit x := g(A)z = 0. Wegen ψ(A) = 0 folgt dann 0 = ψ(A)z = (A − λI )g(A)z = (A − λI )x, d. h. λ ist Eigenwert von A. Sofern ein Minimalpolynom existiert, hat es also die Gestalt ψ(µ) = (µ − λ1 )τ1 (µ − λ2 )τ2 · · · (µ − λk )τk mit gewissen τi . Wir wollen nun zeigen, daß durch τi := max j ν j(i) ein Polynom mit ψ(A) = 0 gegeben ist. Mit den Bezeichnungen von Satz (6.2.4) hat man nämlich A = T J T −1 und daher ψ(A) = T ψ(J )T −1 . Nun gilt aber wegen der Diagonalstruktur von J , J = diag(Cν (1) (λ1 ), . . . , Cν (k) (λk )), 1 ρ(λk ) die Beziehung ψ(J ) = diag(ψ(Cν (1) (λ1 )), . . . , ψ(Cν (k) ))). 1 ρ(λk )