LINEARE ALGEBRA II Ao.Univ.-Prof. Mag. Dr. H. Kautschitsch Institut für Mathematik Universität Klagenfurt 16. April 2007 ii Inhaltsverzeichnis Einleitung v IV Geometrie in Vektorräumen 1 14 Affine Geometrie 1 14.1 Affine Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 14.2 Affine Eigenschaften von Geraden und Ebenen . . . . . . . . . . . . . . . . . . . 10 14.3 Koordinatensysteme in affinen Räumen . . . . . . . . . . . . . . . . . . . . . . . 17 14.3.1 Affine und kartesische Koordinatensysteme . . . . . . . . . . . . . . . . . 18 14.3.2 Affine Koordinatentransformation . . . . . . . . . . . . . . . . . . . . . . 24 14.4 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 15 Metrische Geometrie 33 15.1 Abstands– und Winkelmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 15.2 Volumina von Simplices und Spaten . . . . . . . . . . . . . . . . . . . . . . . . . 37 16 Lineare Optimierung 40 16.1 Geometrische Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 16.2 Geometrische Eigenschaften der zulässigen Menge Z . . . . . . . . . . . . . . . . 48 16.3 Hauptsatz der linearen Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . 60 V Linearität 68 17 Lineare Abbildungen 68 17.1 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 17.2 Rang und Defekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 17.3 Anwendung: Lineare Operatorgleichungen . . . . . . . . . . . . . . . . . . . . . . 84 17.4 Rechnen mit linearen Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . 91 17.5 Faktorräume (Quotientenräume) . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 18 Matrizen und Lineare Abbildungen 101 18.1 Matrixdarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 18.2 Änderung der Matrixdarstellung bei Basiswechsel . . . . . . . . . . . . . . . . . . 106 18.3 Affine Abbildungen (Einschub) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 iii 19 Eigenwerte und Eigenvektoren 129 19.1 Grundlegende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 19.2 Minimalpolynom einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 19.3 Eigenwerte und Eigenvektoren spezieller Matrizen 20 Linearität in Skalarprodukträumen . . . . . . . . . . . . . . . . . 143 149 20.1 Orthogonale und unitäre Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . 149 20.2 Adjungierte Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 20.3 Normale Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 20.4 Projektionen und Orthogonalprojektionen . . . . . . . . . . . . . . . . . . . . . . 161 20.5 Geometrie linearer Operatoren im IR2 bzw. IR3 . . . . . . . . . . . . . . . . . . . 169 VI Vereinfachen von Matrizen 182 21 Diagonalisieren 184 21.1 Äquivalentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 21.2 Ähnliches Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 21.3 Orthogonales (Unitäres) Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . 197 21.4 Anwendungen des Diagonalisierens . . . . . . . . . . . . . . . . . . . . . . . . . . 206 21.4.1 Berechnung von Matrixpotenzen . . . . . . . . . . . . . . . . . . . . . . . 206 21.4.2 Differenzengleichungen und Potenzen Ak . . . . . . . . . . . . . . . . . . . 207 21.4.3 Markovprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 21.4.4 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 22 Triangulieren 220 23 Blockdiagonalisieren 226 23.1 Allgemeines Blockdiagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 23.2 JORDAN’scher Normalformensatz . . . . . . . . . . . . . . . . . . . . . . . . . . 233 23.3 Verallgemeinerte Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 23.4 Matrizenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 VII Quadratische Formen 252 iv 24 Bilinearformen und Quadratische Formen 252 24.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 24.2 Matrixdarstellung von Bilinearformen . . . . . . . . . . . . . . . . . . . . . . . . 260 24.3 Kongruentes Diagonalisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 v Einleitung Zunächst wird das Kapitel der linearen Gleichungssysteme durch die Determinantentheorie abgeschlossen. Der Begriff der Determinante entstand ja ursprünglich bei LEIBNIZ aus dem Bedürfnis, Lösungen von Gleichungssystemen durch eine Formel darzustellen. Anschließend wird gezeigt, wie man Vektorraumtheorie und die Ergebnisse aus der Theorie der Gleichungssysteme zum Aufbau einer Geometrie, nicht nur im Anschauungsraum, sondern auch in abstrakten Vektorräumen verwenden kann. Diese geometrischen Begriffsbildungen werden dann auf lineare Optimierungsproblemen angewendet. Das für die lineare Algebra wohl wichtigste Konzept, nämlich die Linearität, definiert als Verträglichkeit mit den Vektorraumoperationen, wird in allgemeinen, wie auch in Skalarprodukträumen behandelt und der Zusammenhang mit den Matrizen aufgezeigt. Die Entwicklung der Eigenwerttheorie und eine Klassifikation von linearen Operatoren, wobei insbesondere auf die geometrischen Auswirkungen im Anschauungsraum hingewiesen wird, schließen dieses zentrale Kapitel ab. Die beiden nächsten Kapitel sind dem Vereinfachen gewidmet. Zunächst wird dargelegt, wie man durch Links– bzw. Rechtsmultiplikation mit geeigneten Matrizen eine gegebene Matrix auf eine möglichst ”einfache” Form transformieren kann. Als einfache Formen werden die Diagonal–, Dreiecks- und Blockdiagonalmatrizen angesehen, insbesondere die JORDAN’sche Blockdiagonalform. Statt eines Beweises der letzten Normalform wird deren Erzeugung mittels unbestimmten Ansatzes bzw. verallgemeinerter Eigenvektoren erläutert. Neben der Herleitung von Kriterien für die Vereinfachung und den Spektraldarstellungen wird die Anwendung von Diagonalmatrizen für das Lösen von Differenzen– und Differentialgleichungen und die Berechnung von Matrizenfunktionen demonstriert. Nach den Matrizen werden quadratische Ausdrücke in n Variablen, sogenannten Quadriken, vereinfacht. Dazu wird die Theorie der Bilinearformen bzw. der quadratischen Form aufgebaut. Die Diskussion der Quadriken erfolgt sowohl in allgemeinen Vektorräumen, als auch in Skalarprodukträumen. Abschließend wird noch gezeigt, wie die Geometrie der Kegelschnitte vereinheitlich und auf eine entsprechende Geometrie der Quadriken verallgemeinert werden kann und damit gezeigt, wie auch quadratische Gebilde mittels linearer Methoden beschrieben und analysiert werden können. 1 IV GEOMETRIE IN VEKTORRÄUMEN Es wird dargelegt, wie man die aus der Anschauung bekannten räumlichen Vorstellungen auf abstrakte Räume verallgemeinern und rechnerisch behandeln kann. In der Linearen Optimierung finden diese geometrischen Verallgemeinerungen eine nützliche Anwendung. 14 Affine Geometrie Bisher haben wir uns in Vektorräumen nur mit solchen Teilmengen beschäftigt, die für sich selbst wieder Vektorräume bildeten, also mit Teilräumen. Im Anschauungsraum, den man als einen reellen Vektorraum auffassen kann, sind dies die unendlich ausgedehnten, nicht gekrümmten Punktmengen durch den Nullvektor 0. Häufig benötigt man (und das nicht nur in der Geometrie) unendlich ausgedehnte, nicht gekrümmte Punktmengen, die nicht durch den Nullvektor 0 gehen: Für Optimierungsprobleme benötigt man darüber hinaus beschränkte, nicht gekrümmte Punktmengen, die mit je zwei Punkten auch deren gesamte “Verbindungsstrecke” enthalten. 2 Solche Punktmengen sind mit den geometrischen Grundbegriffen (Punkt, Gerade, Ebene, Strecke) verbunden und wir werden sehen, daß sie ebenfalls durch lineare Gleichungen bzw. Ungleichungen beschrieben werden können. Wir wollen nun in beliebigen, nicht nur in reellen, Vektorräumen, Teilmengen untersuchen, die sich so wie die anschaulichen Geraden, Ebenen, Strecken usw. verhalten und nachprüfen, wann und wie diese abstrakten Geraden und Ebenen sich schneiden oder wann sie parallel sind. Jenen Teil der Geometrie, der sich nur mit solchen Inzidenzbeziehungen beschäftigt, heißt affine Geometrie. In ihr wird von Abstandsuntersuchungen, Messungen und von “senkrecht stehen auf ” wird nicht gesprochen, dies geschieht in der metrischen Geometrie. Anders als in einer Geometrievorlesung werden wir aber die Grundbegriffe Punkt, Gerade, Ebene nicht axiomatisch, sondern mit Begriffen aus der Vektorraumtheorie einführen. Die erzielten Ergebnisse stimmen mit denen der “Elementargeometrie” überein, aber nur im IR2 bzw. IR3 sehen die abstrakten Geraden und Ebenen auch wie anschauliche Geraden und Ebenen aus. Dagegen sind die Ergebnisse in beliebigen, abstrakten Vektorräumen oft nicht vorstellbar, aber trotzdem für Anwendungen wichtig (→ CODIERUNG, APPROXIMATIONEN, LINEARE OPTIMIERUNGEN). Zum leichteren Verständnis sollte man sich aber immer die Verhältnisse im Anschauungsraum (= 2– oder 3–dimensionaler reeller Vektorraum) vor Augen halten. Zunächst wollen wir “nichtgekrümmte” Punktmengen, die nicht durch 0 gehen, mit Hilfe von Begriffen aus der Vektorraumtheorie beschreiben: Man beobachtet: Die Ebene ε entsteht aus U durch Verschieben um p~. 3 14.1 Affine Räume Definition 14.1 Affiner Teilraum V sei ein Vektorraum über dem Körper K, U sei ein Teilraum von V und p ∈ V . (i) Ein affiner Teilraum bzw. eine lineare Mannigfaltigkeit von V in Richtung U ist die Teilmenge A := {x ∈ V|x = p + u, u ∈ U} = p + U ⊆ V. Auch so: Ein affiner Teilraum in Richtung U ist eine Nebenklasse von U (ein um p “parallelverschobener” Teilraum U ). (ii) Die Dimension eines affinen Teilraumes ist die Dimension seiner Richtung: dim(A) := dimU. Bemerkung: 1. Die Differenz von 2 Punkten eines affinen Teilraumes A liegt stets in der Richtung U , diese heißt daher auch Differenzenraum von A: x1 − x2 = p + u1 − (p + u2 ) = u1 − u2 ∈ U 2. Ein affiner Teilraum ist wegen p ∈ A stets nichtleer. Jeder Teilraum ist ein affiner Teilraum (mit p = 0), insbesondere kann jeder Vektorraum V als affiner Teilraum in Richtung V aufgefaßt werden!. Aber: Ein affiner Teilraum A ist nur dann ein Teilraum von V , wenn p ∈ U . Beachte: im allgemeinen ist 0 6∈ A. Beispiel: Sei A ∈ K m·n , ~b ∈ K m und Rg(A) = r. Die Lösungsmenge L = x0 + LH eines lösbaren, inhomogenen linearen Gleichungssystems A~x = ~b ist ein (n − r)−dimensionaler affiner Teilraum im K n mit der Lösungsmenge des dazugehörigen homogenen Systems A~x = ~0 als Richtung. Die Lösungsmenge LH eines homogenen linearen Gleichungssystems A~x = ~0 ist sogar ein (n − r)−dimensionaler Teilraum im K n . Die Darstellung von A = p + U ist unabhängig von der Wahl von p: Man kann für p jeden Vektor aus A nehmen und beschreibt damit dieselbe Punktmenge, denn es gilt: 4 Satz 14.1 Gleichheit von affinen Teilräumen Zwei affine Teilräume A1 = p1 +U1 und A2 = p2 +U2 sind genau dann gleich, wenn sie denselben Teilraum als Richtung besitzen und wenn die Differenz p1 − p2 in diesem liegt. Formal: A1 = A2 ⇔ U1 = U2 =: U und p1 − p2 ∈ U (ohne Beweis) Damit: A=p+U =q+U ⇔p−q ∈U Definition 14.2 Ein affiner Teilraum B = q + W heißt ein affiner Unterraum in Richtung W des affinen Raumes A = p + U , wenn W ein Teilraum von U und q ∈ A ist. BCA⇔WCU∧q∈A Wir definieren nun die geometrischen Grundbegriffe Punkt, Gerade, Ebene in beliebigen Vektorräumen als spezielle affine Teilräume A = p + U : a) Sei U = {0} :, dann ist A = p + {0} = {p}, d.h., A enthält p als einziges Element und es ist dim(A) = 0; Definition 14.3 Punkt Ein Punkt P eines Vektorraumes V ist ein nulldimensionaler affiner Teilraum von V . Kurzschreibweise: P = {p} Ist P = {p} und Q = {q} dann ist P = Q ⇔ q − p ∈ U = {0} ⇔ q − p = 0 ⇔ q = p. 5 Vereinbarung: Ist P = {p}, dann kann man, um Klammern zu sparen, P mit p identifizieren: P := p. Der entsprechende Kleinbuchstabe bezeichnet also stets den Vektor, durch den ein Punkt dargestellt wird. Jeder Vektor p ∈ V ist also auch ein Punkt P = {p}. Nach der Identifizierung können wir zu den Vektoren aus V auch Punkte aus V sagen, aber strenggenommen gilt nur: P = {p} ⊂ V und nicht P = {p} ∈ V . Ist P = {p} und Q = {q} ⇒ q − p ∈ U , d.h., für je zwei Punkte P, Q ist der Differenzenvektor im Vektorraum U enthalten, also ein Vektor. Wir setzen: ˜ := q − p = Q − P PQ (“Spitze–Schaft”–Regel) b) Sei U =< a >:, dann ist A = p+ < a >= {x ∈ V |x = p + λa, λ ∈ K} und es gilt dim(A) = 1. Definition 14.4 Gerade Eine Gerade g eines Vektorraumes V ist ein eindimensionaler affiner Teilraum von V . Kurzschreibweise: g : x = p + λa, a heißt Richtungsvektor der Geraden g. (1) Diese Gleichung heißt Punkt–Richtungsform der Geraden g durch P in Richtung < a >. Der Parameter λ des Punktes X vergleicht die Lage des Punktes X mit jener des Punktes P . (1) heißt daher auch Parametergleichung der Geraden g. Eine Gerade g wird also durch eine Vektorgleichung mit einem Parameter beschrieben. Eine Gerade ist aber auch durch 2 verschiedene Punkte P, Q festgelegt: Die Richtung ist dann durch < P~Q >=< q − p > bestimmt. Die Parametergleichung von g lautet dann: g : x = p + λ(q − p), Zweipunktform der Geraden g durch P und Q. Sie stellt die Verbindungsgerade g(P, Q) der Punkte P und Q dar: g(P, Q) : x = p + λ(q − p). c) Sei U =< a, b > mit {a, b} l.u., dann ist .A = p+ < a, b >= {x ∈ V |x = p + λa + µb, λ, µ ∈ K} und es ist dim(A) = 2. 6 Definition 14.5 Ebene Eine Ebene ε eines Vektorraumes V ist ein zweidimensionaler affiner Teilraum von V . Kurzschreibweise: ε : x = p + λa + µb. (2) (2) heißt Punkt–Richtungsform der Ebene ε durch P in Richtung < a, b >. Eine Ebene ε wird also durch eine Vektorgleichung mit zwei Parametern beschrieben. Eine Ebene ist aber auch festgelegt durch 3 Punkte P, Q, R, die nicht auf einer Geraden liegen: ε : x = p + λ(q − p) + µ(r − p): Dreipunktform der Ebene ε durch P, Q, R. d) Verallgemeinerung: Sei dim(V ) = n und U =< v1 , v2 , . . . , vn−1 > mit {v1 , v2 , . . . , vn−1 } l.u., dann ist A = {x ∈ V |x = p + λ1 v1 + . . . + λn−1 vn−1 } = {x|x = p + Pn−1 i=1 λi vi }. Definition 14.6 Hyperebene Eine Hyperebene H eines n−dimensionalen Vektorraumes V ist ein (n − 1)−dimensionaler affiner Teilraum von V . Die Hyperebenen in einem 3–dimensionalen Vektorraum sind die Ebenen. Die Hyperebene in einem 2–dimensionalen Vektorraum sind die Geraden. Die Hyperebenen in einem 1–dimensionalen Vektorraum sind die Punkte. e) Homogene Parameterdarstellung von affinen Teilräumen. In den Beschreibungen g : x = p + λu, ε : x = p + λa + µb sieht es so aus, als ob p ausgezeichnet ist, weil kein Parameter dabei steht. Dies ist jedoch nur scheinbar so: g : x = p + λu = p − λp + λp + λu = (1| {z − λ}) p + |{z} λ (p + u) = |{z} | {z } λ0 p0 λ1 p1 = λ0 p0 + λ1 p1 mit p0 := p und p1 := p + u und λ0 + λ1 = 1 − λ + λ = 1 Allgemein: A sei ein m−dimensionaler affiner Teilraum in Richtung U =< u1 , . . . , um >. Jedes x ∈ A kann als Linearkombination von m + 1 Punkten p0 , p1 , . . . , pm geschrieben werden, wobei die Summe der Parameter 1 ist und die Differenzenvektoren ui := pi −p0 (i = 1, . . . , m) l.u. sind. A:x=p+ m X i=1 λi ui = m X i=0 µi pi mit m X i=0 µi = 1 und {p1 − p0 , . . . , pm − p0 } l.u. 7 Definition 14.7 Affine Hülle Seien p0 , p1 , . . . , pm ∈ V . (i) Eine Affinkombination der Punkte (Vektoren) p0 , p1 , . . . , pm ist eine Linearkombination dieser Punkte, wobei die Summe der Parameter 1 ist. x= m X λi pi mit i=0 m X λi = 1. i=0 (ii) Die affine Hülle < p0 , . . . , pm >A der Punkte (Vektoren) {p0 , . . . , pm } ist die Menge aller Affinkombinationen von p0 , . . . , pm . ( < p0 , . . . , pm >A := x= m X λi pi mit i=0 m X ) λi = 1 . i=0 Es gilt: Die affine Hülle von {p0 , . . . , pm } ist der kleinste affine Teilraum, der p0 , . . . , pm enthält. (iii) (p0 , . . . , pm ) heißen Punkte in allgemeiner Lage ⇔ {p1 − p0 , . . . , pm − p0 } l.u. ⇔ dim(< p0 , . . . , pm >A ) = m. Es gilt: 1 Punkt ist immer in allgemeiner Lage. 2 Punkte sind in allgemeiner Lage ⇔ sie sind verschieden. 3 Punkte sind in allgemeiner Lage ⇔ ihre Hülle ist eine Ebene. 3 Punkte sind nicht in allgemeiner Lage ⇔ sie liegen auf einer Geraden. 4 Punkte sind in allgemeiner Lage ⇔ ihre Hülle ist ein 3–dimensionaler Raum. 4 Punkte sind nicht in allgemeiner Lage ⇔ sie liegen in einer Ebene oder auf einer Geraden. Damit gilt: Jeder Punkt eines m−dimensionalen affinen Teilraumes A ist eine Affinkombination 8 von m + 1 Punkten p0 , . . . , pm in allgemeiner Lage. ( ) m m X X A = x|x = λi pi mit λi = 1 i=0 i=0 f) Parallelität: Im Anschauungsraum sind 2 Geraden parallel, wenn ihre Richtungsvektoren kollinear, also l.a. sind. Eine Gerade ist parallel zu einer Ebene, wenn sie zu einer Geraden in der Ebene parallel ist. Definition 14.8 Parallelität (i) Die affinen Teilräume A1 = p1 + U1 und A2 = p2 + U2 heißen parallel, wenn eine der Richtungen in der anderen enthalten ist (im besonderen können die Richtungen gleich sein). (ii) Die affinen Räume A1 und A2 heißen windschief, wenn sie nicht parallel sind und ihr Durchschnitt leer ist. A1 windschief zu A2 ⇔ A1 6 kA2 und A1 ∩ A2 = ∅. 3 Beispiel: A 0 1= K 0 2 1 1 B C B C B C B C A1 = B 1 C + λ B 0 C @ A @ A 0 −1 0 1 0 1 0 1 −1 2 3 B C B C B C B C B C B C A2 = B 2 C + µ B −1 C + ν B −1 C @ A @ A @ A 1 1 0 Es ist 0 U1 ⊂ U1 2 (RowReduce) ⇒ A1 kA2 0 1 0 −1 2 0 B B U1 =< B @ 0 B B U2 =< B @ 2 1 1 C C 0 C> A −1 1 0 1 2 3 C B C C B C −1 C , B −1 C > A @ A 1 0 1 B B A3 = B @ C B C B C C B C B C U3 =< B −1 C > 2 C + r B −1 C A @ A @ A 1 1 1 Es ist U1 6⊂ U3 , U3 6⊂ U1 ⇒ A1 6 kA3 . Bemerkung: In höher als 2-dimensionalen Vektorräumen ist die Parallelität nicht transitiv: A1 kA2 ∧ A2 kA3 6⇒ A1 kA3 g) Abschlußeigenschaften von affinen Räumen 9 Definition 14.9 Verbindungsraum Ai = pi + Ui seien affine Teilräume in Richtung Ui . Der Verbindungsraum (die Summe) der affinen Räume Ai ist die Menge aller Punkte. n X Ai := A1 + . . . + An := p + i=1 n X i=1 Ui + n X < P Pi >, Pi ∈ Ai , P ∈ i=1 n [ Ai i=1 Satz 14.2 Abschlußeigenschaften affiner Räume (i) Der Durchschnitt von affinen Teilräumen ist entweder leer oder ein affiner Teilraum mit der Richtung U1 ∩ U2 . A1 ∩ A2 = p + (U1 ∩ U2 ), p ∈ A1 ∩ A2 Tn Tn 1 Ai = p + i=1 Ui (ii) Die Vereinigung von affinen Teilräumen ist im allgemeinen kein affiner Teilraum. (iii) Die Summe (der Verbindungsraum) von affinen Teilräumen ist der kleinste affine Teilraum, der die mengentheoretische Vereinigung der gegebenen Teilräume enthält. Beispiel: g = p+ < a > seien 2 verschiedene Geraden in der Ebene (also {a, b} l.u.) h = q+ < b > g + h = p+ < a > + < b >= p+ < a, b >= ε Die eindimensionalen Teilräume < P P1 >, < P P2 > liefern keine neuen Beiträge. Beispiel: g und h seien 2 verschiedene Geraden im Teilraum V 3 mit leerem Durchschnitt (windschiefe Gerade): g = p + λa, h = q + µb. g + h = p+ < a > + < b > + < P~Q >= = p+ < a, b, P~Q >= Teilraum V 3 . Satz 14.3 Dimensionssatz für affine Teilräume dim(A1 ) + dim(A2 ) = dim(A1 + A2 ) + dim(A1 ∩ A2 ), wenn A1 ∩ A2 6= ∅ dim(A1 ) + dim(A2 ) = dim(A1 + A2 ) + dim(U1 ∩ U2 ) − 1, wenn A1 ∩ A2 = ∅ Folgt aus dem Dimensionssatz für Teilräume (ohne Beweis). 10 14.2 Affine Eigenschaften von Geraden und Ebenen “Affin” soll dabei bedeuten, daß wir uns nur auf Schnitt– und Parallelitätseigenschaften konzentrieren, nicht jedoch z.B. auf Abstände. Wir werden zeigen, daß sich die Geraden oder Ebenen eines Vektorraumes V über einem Körper K (bzw. die 1– oder 2–dimensionalen linearen Mannigfaltigkeiten) tatsächlich wie die “anschaulichen” Geraden oder Ebene verhalten. Aber nur in reellen Vektorräumen kann man sich eine Gerade so vorstellen: Im allgemeinen ist dies nicht der Fall: Eine Gerade g = p + U ist ein 1–dimensionaler affiner Teilraum und geht daher durch Verschieben des 1–dimensionalen Vektorraumes U hervor, U gleichmächtig mit K. In einem komplexen Vektorraum (K = C) I besteht eine Gerade daher aus allen komplexen Zahlen, also aus allen Punkten der GAUSS’schen Zahlenebene (!) und für K = GF (2) besteht g nur aus 2 Punkten. Deshalb muß man sich schon sorgfältig überlegen, daß affine Geraden sich auch tatsächlich so wie die Geraden des Anschauungsraumes verhalten. Für 3–dimensionale reelle Vektorräume erhalten wir so die üblichen Aussagen der Elementargeometrie. Satz 14.4 Punkte und Geraden (i) Durch zwei verschiedene Punkte P und Q gibt es genau eine Gerade, nämlich die Verbindungsgerade g(P, Q) : x = p + λ(q − p) (ii) Durch einen Punkt Q, der nicht auf der Geraden g liegt, gibt es genau eine Gerade h, die zu g parallel ist (EUKLIDISCHES AXIOM). 11 Beweis: (i) g(P, Q) : x = p + λ(q − p) enthält für λ = 0 den Punkt P und für λ = 1 den Punkt Q. Ist h : x = p+ < a > eine weitere Gerade, die P und Q enthält, dann ist q − p ∈< a >, wegen q − p 6= 0 ist < a >=< q − p >, also h : x = p+ < q − p >= p+ < a >= g (iii) Sei g : x = p + λa und Q 6∈ g. h : x = q + λa enthält Q (für λ = 0) und ist parallel zu g. Ist h1 : x = q + U eine weitere zu g parallele Gerade durch Q, dann ist U ⊆< a > und damit wegen dim(U ) = 1 = dim(< a >) : U =< a >, also ist h1 = h. Bemerkung: Die durch die Vektorraumtheorie definierten Grundbegriffe Punkt, Gerade, Ebene erfüllen die Axiome einer EUKLIDISCHEN GEOMETRIE. Grund: Die Vektorraumaxiome entsprangen aus der anschaulichen (= euklidischen) Raumvorstellung. Satz 14.5 Parallele Geraden g und h seien zwei parallele Geraden einer Ebene mit dem gemeinsamen Richtungsvektor a und P ∈ g, Q ∈ h. Dann gilt: (i) g und h haben genau dann keinen gemeinsamen Punkt wenn {a, P~Q} l.u. (nicht kollinear) sind: g ∩ h = ∅ ⇔ {a, P~Q} l.u. (ii) g und h fallen genau dann zusammen, wenn {a, P~Q} l.a. (kollinear) sind g = h ⇔ {a, P~Q} l.a. Da {a, P~Q} entweder l.u. oder l.a. sein können gillt also: Zwei parallele Geraden fallen entweder zusammen oder sie sind elementfremd. Beweis: g : x = p + λa, h : x = q + µa g ∩ h haben gemeinsame Punkte ⇔ ∃λµ, ∈ K : p + λa = q + µa ⇔ q − p = (λ − µ)a 1. Fall: {a, q − p} l.u. ⇔6 ∃λ, µ ∈ K mit : (λ − µ)a = q − p ⇔6 ∃ gemeinsame Punkte. 12 2. Fall: {a, q − p} l.a. ⇔ q − p = la ⇔ q = p + la oder p = q − la. Damit gilt: Ist R ein Punkt von g ⇒ r = p + λa ⇒ r = q − la + λa ⇒ r = q + (λ − l)a ⇒ R ist auch ein Punkt von h. Ist S ein Punkt von h ⇒ s = q + µa ⇒ s = p + la + µa ⇒ s = p + (λ + µ)a ⇒ S ist auch ein Punkt von g, insgesamt ist g mit h identisch (zusammenfallend). Beispiel: 3 Sind die beiden Geraden ! ! g, h im K parallel, verschieden oder zusammenfallend? g:~ x= 1 3 5 +λ ! −2 5 −3 ! −1 4 8 −10 h=~ x= +µ 2 ! ! 6 4 −2 −10 5 = −2 ⇒< a >=< b >⇒ gkh 6 ! −3 −2 5 q−p= ∈< a >⇒ {a, q − p}l.a. ⇒ g = h. −3 Satz 14.6 Nichtparallele Geraden g und h seien 2 nichtparallele Geraden eines zumindest 3−dimensionalen affinen Teilraum A mit den nichtkollinearen Richtungsvektoren a, b und P ∈ g, Q ∈ h. Damit gilt: (i) g und h windschief ⇔ {a, b, P~Q} nicht komplanar: ˜ l.u. g ∩ h = ∅ ⇔ {a, b, PQ} (ii) g und h haben genau einen Schnittpunkt ⇔ {a, b, P~Q} komplanar: ˜ l.a. g ∩ h = {S} ⇔ {a, b, PQ} Also: Zwei nichtparallele Geraden in einem zumindest 3–dimensionalen Raum haben entweder genau einen Schnittpunkt oder sie sind windschief. Zwei nichtparallele Geraden einer Ebene schneiden einander in genau einem Punkt. 13 Beweis: {a, b} l.u. g : x = p + λa, h : x = q + µb, g ∩ h = {S} ⇔ ∃λ, µ ∈ K : p + λa = q + µb ⇔ ∃λ, µ ∈ K : q − p = λa − µb (3) 1. Fall: {q − p, a, b} l.u. ⇔ (3) hat keine Lösung (λ, µ) ⇔ g ∩ h = ∅. 2. Fall: {q − p, a, b} l.a. ⇒ q − p ist Lkbt. von a, b ⇒ (weil {a, b} l.u.) ∃ k, l ∈ K : q − p = ka + lb (wegen {a, b} l.u. sind k und l eindeutig bestimmt) ⇔ ∃1 k, l ∈ K : p + ka = q − lb ⇔ ∈g ∈h g und h haben genau einen Punkt gemeinsam. Folgerung: Zwei nichtparallele Geraden einer Ebene schneiden einander stets in genau einem Punkt. Beweis: {q − p, a, b} sind in einem 2–dimensionalen Raum stets l.a. Flußdiagramm für die Lage zweier Geraden g : p + λa und h : x = q + µb in einem zumindest 3–dimensionalen affinen Raum: 14 Zusammenfassung: Satz 14.7 Verhalten von Geraden (i) Zwei Geraden in einem zumindest 3–dimensionalen affinen Raum sind entweder parallel (auch zusammenfallend) oder sie schneiden einander in genau einem Punkt oder sie sind windschief. (ii) Zwei Geraden in einer Ebene sind entweder parallel (auch zusammenfallend) oder sie schneiden einander in genau einem Punkt. Ähnlich kann man für Ebenen zeigen: Satz 14.8 Parallele Ebenen ε1 , ε2 seien 2 parallele Ebenen mit Richtung U =< a, b >, P ∈ ε1 , Q ∈ ε2 und ε1 : p + λ1 a + µ1 b, ε2 : q + λ2 a + µ2 b. (i) Haben zwei parallele Ebenen auch nur einen Punkt gemeinsam, so fallen sie zusammen (ii) ε1 = ε2 ⇔ {a, b, P~Q} l.a. (komplanar) (iii) ε1 ∩ ε2 = ∅ ⇔ {a, b, P~Q} l.u. (nicht komplanar) Satz 14.9 Nicht parallele Ebenen Zwei nicht parallele Ebenen eines 3–dimensionalen affinen Raumes schneiden einander stets in genau einer Geraden. Beweis: ε1 : x = p + ka + lb (k, l) ∈ K ε2 : x = q + rc + sd (r, s) ∈ K ε1 ]ε2 ⇒< a, b >6=< c, d > ε1 ∩ ε2 6= ∅ ⇔ ∃ Skalare k, l, r, s ∈ K mit: p + ka + ld = q + rc + sd ⇔ q − p = ka + lb − rc − sd (4) {q − p, a, b, c, d} sind l.a., 2 von ihnen lassen sich durch 3 l.u. Vektoren, etwa a, b, c (wegen der Nichtparallelität müssen in einem 3–dimensionalen Raum 3 der Vektoren a, b, c, d l.u. sein) eindeutig darstellen: 8 > > q − p = ra + sb + tc > < |·λ + d = ua + vb + wc > > > : λd = λua + λvb + λwc 15 q − p + λd = (r + λu)a + (s + λv)b + (t + λw)c ∀λ : q − (t + λw)c + λd = p + (r + λµ)a + (s + λv)b | {z } | {z } ∈ε2 (5) ∈ε1 Formt man (5) um: (q − tc) + λ(d − wc) = (p + ra + sb) + λ(ua + vb) =: g. Man sieht, daß die gemeinsamen Punkte auf einer Geraden, der Schnittgeraden von ε1 und ε2 liegen. Bemerkung: In einem 4–dimensionalen Vektorraum können {a, b, c, d} auch l.u. sein. Dann schneiden die Ebenen einander in genau einem Punkt! Zusammenfassung: Satz 14.10 Verhalten von Ebenen in 3–dimensionalen Räumen Zwei Ebenen eines 3−dimensionalen affinen Raumes sind entweder parallel (können auch zusammenfallen) oder sie schneiden einander in einer Geraden. Flußdiagramm für die Lage zweier Ebenen ε1 und ε2 in einem 3–dimensionalen Vektorraum: Analog erhält man: Satz 14.11 Gerade und Ebene Eine Gerade eines 3–dimensionalen Vektorraum V ist entweder parallel zu einer Ebene des Raumes (kann auch ganz in der Ebene liegen) oder die Gerade schneidet die Ebene in genau einem Punkt. 16 Flußdiagramm über die Lage einer Geraden und einer Ebene in einem 3–dimensionalen Vektorraum: Beispiel: V = K 3 p a b z0 }| 1{ z0 }| 1{ z0 }| 1{ 3 4 −3 C C C B B B C C C B B B ε : x = B 2 C +λ B −1 C +µ B −4 C A A A @ @ @ 1 6 1 q c z0 }| 1{ z0 }| 1{ 1 1 B C B C B C B C g : x = B 3 C +r B −5 C @ A @ A 1 7 1. Ist < c >⊆< a, b >⇔ {a, b, c} l.a.? 2. Ist g ganz in ε 0 1 0 −1 B C B B C B B 3 C−B @ A @ 1 1 −5 7 4 −1 6 −3 −4 1 1 −5 7 0 19 0 −19 22 1 −5 7 0 19 −22 0 0 0 −22 ⇒ l.a. ⇒ gkε enthalten? ⇔ {q − p, a, b} l.a.? 1 0 1 3 −4 C B C C B C 2 C=B 1 C A @ A 1 0 −4 1 0 4 −1 6 −3 −4 1 −4 1 0 0 0 6 0 19 −4 l.u. ⇒ g 6⊂ ε ⇒ g ∩ ε = ∅ 17 Bemerkung: Abstrakte Geraden verhalten sich wie anschauliche Geraden. Abstrakte Ebenen verhalten sich in 3–dimensionalen Räumen wie anschauliche Ebenen, in höherdimensionalen Räumen treten unanschauliche Sachverhalte auf (z.B. zwei Ebenen schneiden einander in einem Punkt!). Beachte: Wir haben die Begriffe Punkt, Gerade und Ebene mit Hilfe der Vektorraumaxiome und den daraus abgeleiteten Begriffen definiert und durch Gleichungen beschrieben (→ ANALYTISCHE GEOMETRIE). In der SYNTHETISCHEN Geometrie sind Punkt, Gerade und Ebene undefinierte Grundbegriffe, die gewisse Spielregeln (→ Euklidische Axiome) erfüllen. Unsere definierten Punkte, Geraden und Ebenen erfüllen dieselben Spielregeln, es sind dies aber Sätze, die bewiesen werden müssen (im Gegensatz zu den Axiomen). Analog kann man alle üblichen geometrischen Sätze aus den Vektoraxiomen herleiten. Die durch den Vektorraum definierten Punkte, Geraden und Ebenen verhalten sich so wie die anschaulichen Punkte, Geraden und Ebenen. Grund: Die Vektorraumaxiome wurden aus der Anschauung entnommen. Vorteil der analytischen Methode: Man braucht von einer Menge von (auch abstrakten) Objekten (wie z.B. Funktionen, n−Tupel, ...) nur die 9 Vektorraumaxiome überprüfen und weiß dann, daß auch für diese abstrakten Objekte die üblichen geometrischen Sätze gelten, also auch z.B. für Geraden aus Funktionen, n−Tupeln usw. Darüber hinaus kann das Herleiten bzw. der Umgang rechnerisch, durch Auflösen von Gleichungen erfolgen (→ ANALYTISCHE GEOMETRIE), was wesentlich bequemer ist, als das axiomatische Schließen (→ SYNTHETISCHE GEOMETRIE). Wir zeigen im folgenden, daß auch in abstrakten, endlich dimensionalen Vektorräumen Punktmengen durch Systeme von (meist linearen) Gleichungen und Ungleichungen beschrieben werden können. (Bisher haben wir nur im Vektorraum K n der n−Tupel Teilräumen und affine Räume durch lineare Gleichungssysteme beschrieben.) Dazu werden, so wie in der anschaulichen Ebene bzw. im anschaulichen Raum, Koordinatensysteme eingeführt. 14.3 Koordinatensysteme in affinen Räumen Um affine Räume über einem Körper K durch Gleichungen über K beschreiben zu können, muß man Punkten Körperelemente (Skalare) zuordnen können. Dies wird möglich durch Einführung von Koordinatensystemen. Sie entspricht der Einführung von Basen in Vektorräumen. 18 14.3.1 Affine und kartesische Koordinatensysteme Beispiel: In der 2−dimensionalen Ebene ε werden 3 Punkte P0 (p0 ), P1 (p1 ), P2 (p2 ) allgemeiner Lage ausgezeichnet, d.h. p1 − p0 , p2 − p0 sind l.u,, also eine Basis der Richtung U der Ebene ε: U =< p1 − p0 , p2 − p0 >. P0~X = x − p0 heißt Ortsvektor des Punktes X bezüglich des Koordinatensystems {P0 , P1 , P2 }. x − p0 = x1 (p1 − p0 ) + x2 (p2 − p0 ) x = p0 + x1 (p1 − p0 ) + x2 (p2 − p0 ) ⇔ X(x1 |x2 ) Weil p1 − p0 , p2 − p0 l.u., sind x1 , x2 eindeutig bestimmt. Sie heißen die Koordinaten [X] = (x1 |x2 ) des Punktes X bezüglich {P0 , P1 , P2 }. Die Koordinaten von X bezüglich des Koordinatensystem {P0 , P1 , P2 } sind die Koordinaten (Komponenten) des Ortsvektors bezüglich der Basis {P0~, P1 , P0~P2 } von U . KOORDINATEN eines Punktes = KOMPONENTEN seines Ortsvektors. Ein Koordinatensystem in einem affinen Raum einführen heißt, Punkte auszeichnen. Es gilt: ~ = P0~X − P~0 Q ⇒ [QX] ~ = [P0~X] − [P~0 Q] = [X] − [Q] QX ~ = [X] − [Q] “Spitze–Schaft”–Regel [QX] 19 Allgemein: Definition 14.10 Affine und kartesische Koordinatensysteme A sei ein n−dimensionaler affiner Teilraum mit Richtung U in einem Vektorraum V über K. (Beachte, daß A auch ganz V sein kann, dann ist U = V ). Ein Koordinatensystem von A ist ein geordnetes (n + 1)−Tupel S := (P0 , P1 , . . . , Pn ) von n + 1 Punkten aus A in allgemeiner Lage, d.h. BS = {P~0 P1 , P0~P2 , . . . , P0~Pn } ist eine Basis der Richtung U . P0 heißt Ursprung, P1 , . . . , Pn heißen Einheitspunkte von S, die Geraden ki : x = p0 + λ(pi − p0 ), i = 1, . . . , n heißen die i−ten Koordinatenachsen des Koordinatensystems S. BS heißt die zu S gehörige Basis von U . Ist (V, <>) ein Skalarproduktraum, dann heißt S ein kartesisches Koordinatensystem von A, wenn BS eine ON–Basis von V ist. Ist BS keine ON–Basis, dann heißt S ein affines Koordinatensystem von A. Jeder Punkt X(x) ∈ A läßt sich dann eindeutig in der Form x = p0 + n X xi (pi − p0 ) i=1 darstellen. Der Vektor P0~X = x − p0 heißt Ortsvektor von X bezüglich S, die Skalare x1 , . . . , xn heißen Koordinaten des Punktes X bezüglich des Koordinatensystems S. Das n−Tupel (x1 |x2 | . . . |xn ) heißt Koordinatenvektor von X. X(x1 |x2 | . . . |xn ) ⇔ P0~X = (x1 , x1 , . . . , xn ) ⇔ P0~X := x = p0 + n X xi (pi − p0 ) i=1 Satz 14.12 Koordinatenvektor und Ortsvektor Der Koordinatenvektor eines Punktes bezüglich eines Koordinatensystems ist gleich dem Komponentenvektor seines Ortsvektors bezüglich der zugehörigen Basis. ˜ B = [X]S − [Q]S . Weiters gilt: [QX] S Die Koordinaten eines Vektors bezüglich der zugehörigen Basis sind die Differenzen der Koordinaten des Endpunktes und des Anfangspunktes des Vektors (“Spitze–Schaft”–Regel). 20 Gegeben sei nun ein inhomogenes lineares Gleichungssystem A~x = ~b über K von m Gleichungen in n Unbekannten vom Rang r also A ∈ K mn , Rg(A) = r. Die Lösungsmenge L ist gegeben durch L = x0 + λ1 x~1 + . . . + λn−r xn−r ~ = x0 + < x~1 , . . . , xn−r ~ >. Wiederholung: (i) Die Lösungsmenge L eines linearen inhomogenen Gleichungssystems A~x = b von m Gleichungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler affiner Unterraum des K n (oder die leere Menge). (ii) Die Lösungsmenge eines homogenen linearen Gleichungssystems A~x = ~0 von m Gleichungen in n Unbekannten vom Rang r ist ein (n − r)−dimensionaler Teilraum vom K n . Die Einführung von Koordinatensystem in affinen Räumen ermöglicht es nun umgekehrt, diese durch inhomogene LGS zu beschreiben (Gleichungsdarstellung, parameterfreie Darstellung affiner Räume). Analog gestattete die Einführung von Basen in Vektorräumen die Beschreibung von Teilräumen durch homogene LGS. Satz 14.13 Gleichungsdarstellung von affinen Räumen A sei ein n−dimensionaler affiner Raum über dem Körper K mit einem Koordinatensystem S. B sei ein m−dimensionaler affiner Unterraum von A. Dann gibt es ein i.a. inhomogenes lineares Gleichungssystem vom Rang n − m, dessen Lösungsmenge gerade die Koordinatenvektoren der Punkte von B bezüglich S sind. Dieses den affinen Unterraum beschreibende Gleichungssystem ist nicht eindeutig bestimmt. Beweisidee: B = p + U = {x|x = p + λ1 u1 + . . . + λm um }, m = dim(B). Dabei sei {u1 , . . . , um } eine Basis von U . Dann besitzt x − p ∈ U eine eindeutige Darstellung: x − p = λ1 u1 + . . . + λm um , λi ∈ K. (6) Nun berechnet man die Koordinaten [X] von X, [p] von p bezüglich des Koordinatensystems S von A und die Komponenten [u1 ], . . . , [un ] der Vektoren u1 , . . . , un bezüglich der dazugehörigen 21 Basis BS von U : Es sind [X], [p], [ui ] ∈ K n ! (6) ist wegen der Linearität der Komponentenbildung äquivalent zu: [x − p]BS ↓ [P~X]BS = λ1 [u1 ] + . . . + λm [um ] = [X]S − [P ]S also: λ1 [u1 ] + . . . + λm [um ] = [X] − [P ]. (7) Das ist ein inhomogenes LGS mit n Gleichungen in den m Unbekannten λ1 , . . . , λm mit der Koeffizientenmatrix ([u1 ], . . . , [um ]), die wegen der linearen Unabhängigkeit von u1 , . . . , um den Rang m hat. Also hat (7) eine eindeutige Lösung λ1 , . . . , λm (Rang = ] Unbekannten). Setzt man diese in (7) ein, so erhält man n − m übrigbleibende Gleichungen in [x] = (x1 , x2 , . . . , xn ) vom Rang n − m (weil dim(B) = m). Man erhält diese bequem aus (7) durch das Eliminationsverfahren (siehe folgendes Beispiel) bzw. mittels Z(A) = N (U ) und → − → b = A− p. Da das Eliminationsverfahren nicht eindeutig bestimmt ist, sind auch die Gleichungen nicht eindeutig bestimmt. Zusammenfassung: (i) Ein m–dimensionaler Teilraum eines n–dimensionalen Vektorraumes kann durch ein homogenes Gleichungssystem in n Variablen vom Rang n–m beschrieben werden. (ii) Ein m–dimensionaler affiner Raum eines n–dimensionalen Vektorraumes kann durch ein inhomogenes lineares Gleichungssystem in n Variablen vom Rang n–m beschrieben werden. Beispiel: V = P2 = A P2 =< 1, x, x2 >, Standardbasis St, dim(P2 ) = 3 Sei p0 = 1 + x, p1 = x − x2 , p2 = 3x + x2 a) p0 , p1 , p2 sind in allgemeiner Lage: p1 − p0 = −1 − x2 , p2 − p0 = 1 + 2x + x2 [p1 − p0 ]St = (−1, 0, −1) [p2 − po ]St = (−1, 2, 1) 22 b) Ebene ε(p0 , p1 , p2 ) : durch p0 , p1 , p2 ε : f = 1 + x + λ(−1 − x2 ) + µ(−1 + 2x + x2 ) = p + U U =< −1 − x2 , −1 + 2x + x2 > p=1+x c) Koordinatensystem S = (0, 1, x, x2 ) von P2 −1 1−0 = 1 −1 x − 0 = x l.u., [−1 − x2 ]S = 0 =: u~1 , [−1 + 2x + x2 ]S = 2 =: u~2 1 x2 − 0 = x2 −1 a0 1 −1 −1 2 [f ]S = [a0 + a1 x + a2 x ]S = a1 , ε = f |[f ] = 1 + λ 0 + µ 2 a2 0 −1 1 1 [1 + x]S = 1 = x~0 0 Z(A) = N (U ) U =< (−1, 0, −1), (−1, 2, 1) > NullSpace[{{−1, 0, −1}, {−1, 2, 1}}] Z(A) = (−1, −1, 1) 1 ~b = A · x~0 = (−1, −1, 1) 1 = −2 0 LGS: −a0 − a1 + a2 = 2 a0 + a1 − a2 = 2 ε = {f = a0 + a1 x + a2 x2 |a0 + a1 − a2 = −2} Die Ebene ε wird durch 1 = 3 − 2 lineare Gleichungen in 3 = dim(P2 ) Unbekannten beschrieben. d) g(p,q)mit p = 3 + 2x + x2 q = 4 + x − 3x2 g: f 3 1 g = f |[f ] = 2 + r −1 1 −4 = 3 + 2x + x2 + λ(1 − x − 4x2 ) U = < (1, −1, −4) > x~0 = (3, 2, 1)1 Z(A) = N (U ) =< (4, 0, 1), (1, 1, 9) > 23 ~b = A · x0 = (13, 5) 4a0 + a2 = 13 g: a +a = 5 o 1 g = {f = a0 + a1 x + a2 x2 |4a0 + a2 = 13, a0 + a1 = 5} Die Gerade g wird durch 2 = 3 − 1 Gleichungen in 3 = dim(P2 ) Unbekannten beschrieben. e) Nun bestimmen wir den Durchschnitt von ε mit g ε ∩ g : 1 − x − 4x2 l.u. von −1 − x2 , −1 + 2x + x2 1 −1 −4 −1 0 −1 −1 2 1 RowReduce 1 0 0 0 1 0 0 0 1 ⇒ l.u. dabei haben wir benützt: {vi } l.u. ⇒ {[vi ]} l.u. a0 + a1 − a2 = 2 2 ε ∩ g = {f = a0 + a1 x + a2 x 4a0 + 1a2 = 13 a0 + a1 = 5 Weil P der Rang dieses LGS 3 ist, erhält man eine eindeutige Lösung. LinearSolve [A, ~b] ~b = (2, 13, 5)t ( 5 , 5 , 3) 2 2 ε ∩ g = {P } mit P = 5 2 + 25 x + 3x2 P ∈ g : 3 + 2x + x2 + λ(1 − x − 4x2 ) = 3+λ = 5 2 λ = − 12 5 2 5 2 + 5 2 Koeffizientenmatrix + 52 x + 3x2 = 3 + 2x + x2 − 21 (1 − x − 4x2 ) oder mit Koordinaten in K 3 : 5 3 1 2 5 2 = 2 + λ −1 3 1 −4 Analog sieht man, daß P ∈ ε. + 3x2 24 14.3.2 Affine Koordinatentransformation So wie man die Änderung der Koordinaten von Vektoren bei Wechsel der Basis durch reguläre Matrizen beschreiben kann, kann man auch die Änderung der Punktkoordinaten bei Wechsel des Koordinatensystems durch ein Matrix–Vektor–Paar beschreiben. A sei ein n−dimensionaler affiner Raum in einem Vektorraum über dem Körper K. Ein Wechsel des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes x ∈ A hervor. S = (P0 , P1 , . . . , Pn ): “altes” Koordinatensystem S 0 = (P00 , P10 , . . . , Pn0 ): “neues” Koordinatensystem [x]S = (x1 | . . . |xn ): “alte” Koordinaten des Punktes X [x]s , = (x01 | . . . |x0n ): “neue” Koordinaten des Punktes X Wie beim Basiswechsel drücken wir die neuen Punkte durch die alten aus: P P P00 = P0 + ni=1 ti P0~Pi ⇔ p00 = p0 + ni=1 ti (pi − p0 ) P P Pj0 = P00 + ni=1 tij P0~Pi ⇔ p0j = p0 + ni=1 tij (pi − p0 ) Ausführlich: p01 − p00 = t11 (p1 − p0 ) + t21 (p2 − p0 ) + . . . tn1 (pn − p0 ) p02 − p00 .. . = t12 (p1 − p0 ) + t22 (p2 − p0 ) + . . . tn2 (pn − p0 ) p0n − p00 = t1n (p1 − p0 ) + t2n (p2 − p0 ) + . . . tnn (pn − p0 ) T := (tij ) = t11 t21 .. . tn1 t12 . . . t1n t22 . . . t2n (transponiert definiert!) , ~t = (t1 , t2 , . . . , tn )t tn2 . . . tnn T ist regulär, weil auch {p01 − p00 , . . . , p0n − p00 } l.u. sind ((P00 , . . . , Pn0 ) ist wieder ein Koordinatensystem). 25 T ist sogar orthogonal (unitär), wenn ein kartesisches Koordinatensystem wieder auf ein solches transformiert werden soll. x = p00 + = = = = Pn 0 0 j=1 xj (pj − p00 ) = P P P p0 + ni=1 ti (pi − p0 ) + nj=1 x0j ni=1 tij (pi − p0 ) = P P P p0 + ni=1 ti (pi − p0 ) + ni=1 ( nj=1 tij x0j )(pi − po ) = P P p0 + ni=1 ( nj=1 tij x0j + ti )(pi − p0 ) = P p0 + ni=1 xi (p0j − p00 ) Weil {p1 − p0 , p2 − p0 , . . . , pn − po } l.u. ist, folgt aus der eindeutigen Darstellbarkeit: xi = n X tij x0j + ti für i = 1, . . . , n j=1 Also: [X]S = T [X]S 0 + ~t bzw. [X]alt = T [X]neu + ~t Da T regulär ist, existiert T −1 und wir erhalten: [X]alt − t = T [X]neu [X]neu = T [X]−1 ([X]alt − t) = T −1 [X]alt − T −1 t Satz 14.14 Affine und kartesische Koordinatentransformationen A sei ein n−dimensionaler affiner Raum eines Vektorraumes V , X ∈ A. S := (P0 , P1 , . . . , Pn ) sei ein Koordinatensystem in A. T := (tij ) ∈ K n·n , t := (t1 , z2 , . . . , tn )t ∈ K n . P P00 := P0 + i=1 ti P0~Pi P Pj0 := P00 + ni=1 +tij P0~Pi für j = 1, . . . , n. Dann gilt: S 0 := (P00 , P10 , . . . , Pn0 ) ist genau dann ein Koordinatensystem in A, wenn T regulär ist. Die zugehörige Koordinatentransformation wird dann beschrieben durch: [X]alt = T[X]neu + t bzw. [X]neu = T−1 [X]alt − T−1 t. Ist S ein kartesisches Koordinatensystem, dann ist S 0 genau dann wieder ein kartesisches Koordinatensystem, wenn T eine orthogonale (unitäre) Matrix ist. Für die neuen Koordinaten gilt dann insbesondere: [X]neu = Tt [X]alt − Tt t 26 T heißt Koordinatentransformationsmatrix von S → S 0 . Sie ist die Transponierte jener Matrix, die angibt, wie sich die neuen Ortsvektoren von P10 , . . . , Pn0 durch die alten ausdrücken lassen. t heißt der Translationsvektor von S → S 0 . Er ist der Koordinatenvektor des neuen Ursprungs bezüglich S. Affine Koordinatenformationen können also durch eine reguläre Matrix + Translationsvektor beschrieben werden. Erinnerung: Basiswechsel werden nur durch eine reguläre Matrix allein beschrieben. Affiner Koordinatenwechsel Komponentenwechsel [X]alt = T [X]neu + t [x]alt = P [x]neu 14.4 Konvexe Mengen In diesem Kapitel werden die aus der Anschauung bekannten Punktmengen Strecke, Dreieck, Pyramide, Halbstrahl u.a. auf abstrakte Vektorräume verallgemeinert. Sie sind keine Teilräume oder affine Räume, werden aber speziell bei Optimierungsproblemen (→ Operations Research) benötigt. Zu ihrer Definition benötigt man allerdings angeordnete Skalarkörper. Einige Beobachtungen; Strecke P Q: Gerade durch P, Q : x = p + µ(q − p) = (1 − µ)p + µq = λ1 p + λ2 q mit λ1 + λ2 = 1 (λ1 = 1 − µ, λ2 = µ) λ1 = 1 ⇒ λ 2 = 0 ⇒ x = p λ1 = 0 ⇒ λ 2 = 1 ⇒ x = q Für einen Punkt x ∈ P Q gilt: x = p + µ(q − p) mit 0 < µ < 1 ⇒ λ1 = 1 − µ > 0, λ2 = µ > 0. Also: X ∈ PQ ⇔ x = λ1 p + λ2 q mit λ1 + λ2 = 1, λ1 , λ2 ≥ 0 27 Dreieck (P QR): Ebene durch P, Q, R : x = p + µ(q − p) + ν(r − p) = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = 1 X1 ∈ QR ⇒ x1 = µ2 q + µ3 r mit µ2 + µ3 = 1, µ2 , µ3 ≥ 0 X ∈ P X1 ⇒ x1 = ν1 p + ν2 x1 mit ν1 + ν2 = 1, ν1 , ν2 ≥ 0 x = ν1 p + ν2 µ2 q + ν2 µ3 r x = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = ν1 + ν2 µ2 + ν2 µ3 = = ν1 + ν2 (µ2 + µ3 ) = ν1 + ν2 = 1 und | {z } 1 λ1 = ν1 ≥ 0, λ2 = ν2 µ2 ≥ 0, λ3 = ν2 µ3 ≥ 0. Also: X ∈ Dreieck (P, Q, R) ⇔ x = λ1 p + λ2 q + λ3 r mit λ1 + λ2 + λ3 = 1 und λ1 , λ2 , λ3 ≥ 0. P ist Ecke des Dreiecks 4 ⇔6 ∃X1 , X2 ∈ 4 mit P ∈ X1 X2 . X keine Ecke des Dreiecks 4 ⇔ ∃P, X1 ∈ 4 mit X ∈ P X1 . Definition 14.11 Konvexe und nicht beschränkte Mengen V sei ein Vektorraum über einem angeordneten Körper K. T = {x1 , x2 , . . . , xr } ⊆ V, M ⊆ V . (i) Eine Konvexkombination von x1 , x2 , . . . , xr ist eine Linearkombination von x1 , . . . , xr der Form λ1 x1 + λ2 x2 + . . . + λr xr mit r X λi = 1 und λi ≥ 0. i=1 Sind alle λi > 0, dann spricht man von einer echten Konvexkombination. (ii) Die konvexe Hülle H(T) von T ist die Menge aller Konvexkombinationen von T . ( ) r X X H(x1 , . . . , xr ) = x|x = λi xi mit λi = 1 und λi ≥ 0 . i=1 (iii) Eine Strecke P Q durch P und Q ist die konvexe Hülle von {P, Q}. P, Q heißen Endpunkte der Strecke P Q. P Q = {x|x = λ1 p + λ2 q mit λ1 + λ2 = 1, λ1 , λ2 ≥ 0} (iv) Eine Teilmenge M von V heißt konvex, wenn sie mit je zwei Punkten x1 , x2 ∈ M stets auch alle Punkte der Strecke x1 x2 enthält. x1 ∈ M M konvex ⇔ ⇒ {x|x = λ1 x2 + λ2 x2 , λ1 + λ2 = 1, λ1 , λ2 ≥ 0} ⊆ M x ∈M 2 28 (v) Ein Punkt x ∈ M heißt Ecke von M , wenn es keine verschiedenen Punkte x1 , x2 ∈ M gibt, so daß x echte Konvexkombination von x1 , x2 ist. (vi) Ein Strahl durch p in Richtung a ist die Menge der Punkte {x|x = p + λa, λ ≥ 0}. (vii) M heißt nicht–beschränkt, wenn M einen Strahl umfaßt. Andernfalls heißt M beschränkt. Beachte: Es gibt also 3 Arten von Hüllen: lineare, affine, konvexe. Satz 14.15 Einfache Eigenschaften von konvexen Mengen (i) Die konvexe Hülle H(x1 , x2 , . . . , xr ) ist stets konvex. (ii) Der Durchschnitt von konvexen Mengen ist stets konvex. (iii) Die Vereinigung von konvexen Mengen ist i.a. nicht konvex. (iv) Jeder m−dimensionale affine Raum A ist eine nichtbeschränkte, konvexe Menge ohne Ecken. Beweis für die Eckenfreiheit: Sei x ∈ A ⇒ x = p + x2 := p + Pm i=1 λi ui ⇒ x1 := p + P (λi + k)ui ∈ A und P (λi − k)ui ∈ A. Es ist x1 6= x2 und x = 12 x1 + 21 x2 . (v) Ist T1 = {x1 , . . . , xr } und T2 = {xr+1 , . . . , xn }, dann ist H(T1 ∪ T2 ) = Menge aller Konvexkombinationen je eines Punktes von H(T1 ) und H(T2 ). Damit kann man die konvexe Hülle einer endlichen Menge T = {x1 , . . . , xm } induktiv aufbauen: Man geht aus von der konvexen Hülle von {x1 , x2 } = x1 x2 aus. Dann bildet man die konvexe Hülle von {x1 , x2 } ∪ {x3 } = {x1 , x2 , x3 } als Menge aller Konvexkombinationen von Punkten aus x1 x2 und x3 usw. 29 Definition 14.12 Spezielle konvexe Mengen im Kn {e~1 , . . . , e~n } sei die Standardbasis des K n . (i) ( K+ := x̃|x̃ = n X ) λi ẽi , λi ∈ K, λi ≥ 0 i=1 heißt der Positivitätskegel im K n. Auch so: K+ := {~x|~x ∈ K n und ~x ≥ 0}. 1. Quadrant 1. Oktant (ii) m ~ = (m1 , . . . , mn ) ∈ K n , ε > 0 n o ε W (m, ~ ε) := ~x/ kxi − mi k ≤ , i = 1, . . . , n 2 W heißt Würfel mit Mittelpunkt m ~ und Kantenlänge ε. Mittels der Dreiecksungleichung kann man zeigen, daß W eine konvexe Menge ist. 30 Definition 14.13 Spezielle Punkte M sei eine konvexe Menge. x ∈ M heißt innerer Punkt, wenn es einen Würfel W (x, ε) gibt, der ganz in M enthalten ist (der nur Punkte aus M enthält). x ∈ M heißt Randpunkt, wenn jeder Würfel W (x, ε) sowohl Punkte von M als auch Punkte von M c enthält. M heißt offen, wenn jeder Punkt von M ein innerer Punkt ist. M heißt abgeschlossen, wenn M c offen ist. offenes Intervall abgeschlossenes Intervall offene Halbebene abgeschlossene Halbebene offener Halbraum abgeschlossener Halbraum ~at · ~x > b oder ~at · ~x < b ~at · ~x > b oder ~at · ~x < b Jede Hyperebene zerlegt den Raum in 2 Halbräumen. Definition 14.14 Konvexe Mengen, die keine affinen Räume sind (i) Die Menge der positiven Lösungen eines inhomogenen linearen Gleichungssystems ist eine konvexe Menge mit Ecken. Sei A ∈ K mn , ~b ∈ K m . Dann ist Z := {x̃ ∈ Kn |Ax̃ = b̃ und x̃ ≥ 0} = L ∩ K+ konvex. Z heißt zulässige Menge bezüglich des LGS A~x = ~b. Z kann leer sein (wenn Rg(A) 6= Rg(A, b)). 31 Beweis der Konvexheit: Für x~1 , x~2 ∈ Z und λ1 ≥ 0, λ2 ≥ 0 mit λ1 + λ2 = 1 gilt: A(λ1 x~1 + λ2 x2 ) = λ1 Ax~1 + λ2 Ax~2 = λ1~b + λ2~b = (λ1 + λ2 )~b = 1~b = ~b und λ1 x~1 + λ2 x~2 ≥ 0. Die Bestimmung der Ecken ist in höherdimensionalen Räumen lästig (→ Operations Research). Für die weiteren Beispiele sei {u1 , u2 , . . . , ur } l.u. in V, p ∈ V , beliebig. n o P (ii) K := x|x = x0 + ki=1 λi ui , λi ≥ 0 K heißt k− dimensionaler Kegel in V mit Spitze x0 . (Der Kegel ist eine Verallgemeinerung des Winkelfeldes.) K ist nichtbeschränkt, x0 ist die einzige Ecke. Strahlen sind 1−dimensionale Kegel. (iii) Sp := {x|x = x0 + Pr i=1 λi ui , 0 ≤ λi ≤ 1} Sp heißt das von den Kantenvektoren u1 , u2 , . . . , uk von x0 aus aufgespannte k−dimensionale Parallelepiped (k−Spat). (Verallgemeinerung des Parallelogramms). Strecken sind 1–dimensionale, Parallelogramme sind 2–dimensionale Parallelepipede. Die Ecken sind genau die Punkte e = x0 + k X λi ui mit λi ∈ {0, 1}. i=1 n o P P (iv) Si = x|x = x0 + ki=1 λi ui , λi ≥ 0, ki=1 λi = 1 Si heißt der von den Vektoren u1 , . . . , uk von x0 aus aufgespannte k−dimensionale Simplex (k−Simplex). (Verallgemeinerung des Dreiecks). 32 Si ist als Teilmenge von SP beschränkt. {x0 , x0 + u1 , . . . , x0 + uk } sind die Ecken von S. S kann man in homogener Darstellung schreiben als o n Pk Pk Si = x|x = i=0 µi vi , µi ≥ 0, i=0 µi = 1 P mit µi = λi , i = 1, . . . , k; µ0 = 1 − ki=1 λi vi = x0 + ui , i = 1, . . . , k; v0 = x0 Der k−dimensionale Simplex ist daher die konvexe Hülle seiner k + 1 Ecken (in allgemeiner Lage). 33 15 Metrische Geometrie Neben der Untersuchung von Inzidenz– und Parallelitätseigenschaften werden in der Elementargeometrie auch viele Aussagen über Abstände, Längen, Inhalte, Winkel und Orthogonalität gemacht. Um diese Begriffe in die Sprache der linearen Algebra übersetzen und damit einer rechnerischen Behandlung zugänglich machen zu können, benötigt man als zusätzliche Eigenschaften in Vektorräumen nur das Skalarprodukt. In diesem Kapitel werden also generell Skalarprodukträume vorausgesetzt. Die Inhaltsmessung von einigen konvexen Punktmengen wird mit Determinanten behandelt. Nachdem wir bisher affine Räume generell als Teilmengen von Vektorräumen aufgefaßt haben, übernehmen wir die übliche Abstands– und Winkelmessung von Skalarprodukträumen. 15.1 Abstands– und Winkelmessung Definition 15.1 Abstand und Winkel (V, <, >) sei ein Skalarproduktraum, A sei ein affiner Raum in V . (i) Unter dem Abstand zweier Punkte X, Y ∈ A, symbolisch d(X, Y ), versteht man die reelle Zahl d(X, Y) := ky − xk = √ < y − x, y − x >. In reellen Skalarprodukträumen ist darüber hinaus eine Winkelmessung möglich: (ii) Sind X, Y, Z ∈ A mit X 6= Y 6= Z, dann versteht man unter dem Winkel < )(X, Y, Z) mit dem Scheitel Y die reelle Zahl < )(X, Y, Z) := arccos < x − y, z − y > kx − ykkz − yk Besonders nützliche Gleichungsdarstellungen von Punktmengen erhält man mittels kartesischer Koordinatensysteme (nach R. DESCARTES, 1596-1650). Als Beispiel für eine Gleichungsdarstellung untersuchen wir die Darstellung von Hyperebenen. A sei ein n−dimensionaler affiner Raum in Richtung U . H sei eine Hyperebene in Richtung W =< e1 , e2 , . . . , en−1 > mit der ON–Basis B = (e1 , e2 , . . . , en−1 ): H = {x|x = p + λ1 e1 + . . . + λn−1 en−1 } 34 {e1 , . . . , en−1 } kann zu einer ON–Basis von U ergänzt werden (Satz über die orthogonale Zerlegung): U =< e1 , e2 , . . . , en−1 , n0 > n0 ist also ein normierter Vektor, der auf alle Vektoren aus W orthogonal steht. Dann gilt für jeden Punkt X ∈ H: < x − p, n0 >=< λ1 e1 + . . . + λn en , n0 >= λ1 < e1 , n0 > + . . . + λn−1 < en−1 , no >= 0 Damit ist n0 ⊥ x − p ∀x ∈ H und ebenso gilt: n ⊥ x − p ∀x ∈ H für n := k · n0 mit k ∈ K. n heißt daher Normalvektor der Hyperebene H. Jeder Punkt x ∈ H erfüllt < x − p, n0 >= 0. Ist umgekehrt x ∈ A mit < x − p, n0 >= 0 ⇒ x − p = λ1 e1 + . . . λn−1 en−1 + λn n0 und < x − p, n0 >= 0 ergibt: < λ1 e1 + λn−1 en−1 + λn n0 , n0 >= 0 ⇒ λ1 < e1 , n0 > + . . . + λn−1 < en−1 , n0 > +λn < n0 , n0 >= 0 ⇒ λn = 0 ⇒ x − p = λ1 e1 + . . . + | {z } | {z } | {z } 0 0 1 λn−1 en−1 ⇒ x = p + λ1 e1 + . . . + λn−1 en−1 ⇒ x ∈ H. Die Hyperebene H durch den Punkt P (p) in Richtung W ist also die Menge aller Punkte X(x) mit < x − p, n0 >= 0 ⇔< x, n0 >=< p, n0 >=: c oder auch < x − p, n >= 0 ⇔< x, n >=< p, n > . wobei n ∈ W ⊥ . Insbesondere gilt auch für den Einheitsvektor n0 von n: < x − p, n0 >= 0 ⇔< x, n0 >=< p, n0 > Diese Darstellung von H heißt HESSEsche Normalvektorform von H. (O.L. HESSE, 1811– 1874). Ihre Bedeutung liegt, so wie im anschaulichen Raum V 2 bzw. V 3 (siehe Kapitel ??) darin, daß man den Abstand eines Punktes von einer Hyperebene leicht berechnen kann. Definition 15.2 Abstand eines Punktes von einer Punktmenge A sei ein affiner Raum, M ⊂ A und Y (y) ∈ A. 35 Unter dem Abstand d(Y, M) des Punktes Y von der Menge M versteht man das Infimum der Abstände d(Y, X) mit X(x) ∈ M . d(Y, M ) := inf {d(Y, X)|X ∈ M } = inf {kx − yk/X ∈ M } Ist M ein affiner Teilraum, dann gibt es stets ein F (f ) ∈ M mit minimalem kf − yk. F heißt der zu Y gehörige Fußpunkt. Nach dem Satz über die beste Approximation gilt für eine Hyperebene H in Richtung W durch P: ky − f k minimal ⇔ k(y − p) − (f − p)k minimal ⇔ (y − p) − (f − p) = y − f ∈ W ⊥ =< n0 > ⇔ y − p = (1 − p) + (y − f ) ⇔ y − f = projn0 (y − p) =< y − p, n0 > n0 | {z } | {z } ∈W ∈W ⊥ ⇒ ky − f k =< y − p, n0 > kn0 k | {z } 1 Das heißt: Man erhält den Abstand eines Punktes Y von einer Hyperebene H durch P und dem Normalvektor n, wenn man in der Hesseschen Normalvektorform von H :< x − p, n0 >= 0 für x den Punkt y einsetzt: d(Y, H) =< y − p, no >. Die Gerade l durch Y mit dem Richtungsvektor n heißt Lot auf H durch Y. Der Durchschnitt des Lotes mit der Hyperebene enthält genau einen Punkt F , genannt der Fußpunkt des Lotes: {F } = l ∩ H. Es gilt: d(Y, F) = |d(Y, H)| Der Fußpunkt ist also jener eindeutig bestimmte Punkt, für den der Abstand angenommen wird. Für den Ortsvektor f von F gilt auch: f = y− < y − p, n0 > n0 . Vergleiche noch einmal Kapitel 3. Beachte, daß jetzt die Punkte auch Funktionen, Polynome, Matrizen u.ä. sein können! Der Abstand d(P, Q) = kp − qk zwischen zwei Punkten P und Q kann wegen (N1) nur positiv sein. Der Abstand d(Y, H) eines Punktes Y von einer Hyperebene H kann wegen d(Y, H) =< y − p, n0 > aber auch negativ sein. Damit zerlegt die Hyperebene H den affinen Raum A in 2 Halbräume: A+ := {Y |d(Y, H) > 0} heißt positiver Halbraum von A bezüglich H A− := {Y |d(Y, H) < 0} heißt negativer Halbraum von A bezüglich H Nach Satz 14.13 kann eine Hyperebene als (n−1)−dimensionaler Unterraum des n−dimensionalen affinen Raumes A nach Einführung eines Koordinatensystems durch eine inhomogene, lineare 36 Gleichung in n Variablen über K dargestellt werden. (Koordinatenform der HESSEschen Normalvektorform von H). Wählt man insbesondere ein kartesisches Koordinatensystem aus, kann man die Koeffizienten der n Variablen geometrisch schön deuten: S = (O, E1 , . . . , En ) sei ein kartesisches Koordinatensystem von A mit Richtung U . X ∈ H und P ∈ H haben die kartesischen Koordinaten [X]S = (x1 , . . . , xn ), [P ]S = (p1 , . . . , pn ) und der Normalvektor n0 von H habe die Koordinaten [n0 ]SU = (n1 , n2 , . . . , nn ). Bekanntlich läßt sich das Skalarprodukt bezüglich ON–Basen als Standardskalarprodukt schreiben. < x, y >= [y]∗ [x] Damit gilt für die HESSEsche Normalvektorform: 0 =< x − p, n0 >= [n0 ]t · [x − p] = [n0 ]t · [x]t − [n0 ]t [p] | {z } =:c Also: [n0 ]t · [x] = c ⇔ n1 x1 + . . . + nn xn = c Die Koeffizienten von x1 , . . . , xn in der Koordinatendarstellung der HESSEschen Normalvektorform einer Hyperebene H bezüglich eines kartesischen Koordinatensystems geben die Koordinaten des Normalvektors von H an. Zusammenfassung: Satz 15.1 HESSEsche Normalvektorform einer Hyperebene (V, <>) sei ein Skalarproduktraum. H = p+W sei eine Hyperebene des n−dimensionalen affinen Raumes A mit Richtung U ⊆ V , Y (y) ∈ A ein beliebiger Punkt. (i) Ein Normalvektor n von H ist ein Element aus W ⊥ =< n >. (ii) H = {x ∈ A| < x − p, n >= 0}. Bezeichnet n0 den Einheitsvektor von n, dann heißt < x − p, n0 >= 0 die HESSEsche Normalvektorform von H. (iii) d(Y, H) =< y − p, n0 > gibt den Abstand des Punktes Y von H an. 37 (iv) Bezüglich eines kartesischen Koordinatensystems S läßt sich H durch eine i.a. inhomogene lineare Gleichung der Form n1 x1 + . . . + nn xn = c darstellen, wobei (n1 , n2 , . . . , nn ) die Koordinaten eines Normalvektors von H bezüglich SU sind. Für c gilt: c = [n]t [p]. (v) Die Hyperebene H teilt den affinen Raum in 2 Halbräume: positiver Halbraum A+ = {X|d(X, H) > 0} = {(x1 , . . . , xn )|n1 x1 + . . . + nn xn > c}. negativer Halbraum A− = {X|d(X, H) < 0} = {(x1 , . . . , xn )|n1 x1 + . . . + nn xn < c}. Beispiel: Im (R4 , <>St ) ist die Hyperebene H gegeben durch 0 1 1 0 1 1 0 0 1 0 1 1 0 1 1 B C B C B C B C B C B C B C B C B C B C B 0 C B 0 C B 1 C B −1 C B 2 C C + λ1 B C + λ2 B C + λ3 B C;Y = B C H =~ x=B B C B C B C B C B C B 2 C B 0 C B 1 C B 1 C B −2 C @ A @ A @ A @ A @ A 1 1 0 −1 1 Bezüglich des Standardkoordinatensystems erhält man durch Elimination oder durch Bestimmung des Orthogonals (mittels NullSpace) die Koordinatengleichung: H : x1 + x2 − x3 − x4 = −2 (1, 1, −1, −1)t ist ein Normalvektor von H. HESSEsche Normalvektorform: x1 + x2 − x3 − x4 + 2 = 0 d(Y, H) = 1+2+2−1+2 2 =3 IR4,+ : x1 + x2 − x3 − x4 > −2 IR4,− : x1 + x2 − x3 − x4 < −2 15.2 Volumina von Simplices und Spaten Soll eine Zahl µ den Inhalt einer k−dimensionalen Figur messen, so stellt man an diese Zahl folgende “natürliche” Forderungen (Maßeigenschaften einer Figur): 1. Translationsinvarianz: Der Inhalt µ einer Figur soll sich nicht ändern, wenn die Figur verschoben wird: Ist M 0 = M + v ⇒ µ(M 0 ) = µ(M ) 38 2. Additivitität: Sind M1 , M2 zwei disjunkte Mengen, so gilt: µ(M1 ∪ Ms ) = µ(M1 ) + µ(M2 ) 3. Streckung: Ist X0 eine beliebige Ecke und X0~Xi eine beliebige von X0 ausgehende Kante von M und wird Xi ersetzt durch X1 = X0 +λX0~Xi , während die anderen Kanten erhalten bleiben, so gilt für die so in einer Richtung gestreckte Punktmenge Mλ : µ(Mλ ) = µ(M ). 4. Ausartung: Besitzt M statt k + 1 nur k l.u. Punkte, so ist µ(M ) = 0. (Der Inhalt ein und derselben Figur ändert sich, wenn man zu einer anderen Dimension des Inhalts übergeht.) So hat eine Strecke der Länge 3 den 1−dimensionalen Inhalt (= Länge) 3, jedoch den 2−dimensionalen Inhalt (= Flächeninhalt) 0. 5. Normierung: Für den k−dimensionalen Einheitswürfel M0 gilt µ(M0 ) = 1 In der Analysis wird gezeigt, daß man durch das bestimmte Integral vielen Punktmengen so eine Zahl als Maß zuordnen kann. Genauso, wie man aber im Rn (n > 3) nicht jeder Punktemenge eine Zahl so zuordnen kann, daß 1)–5) gilt, kann man auch in Vektorräumen nicht jede Punktmenge “messen”, es gelingt dies nur für k−Spate und k−Simplexe. Die Translationsinvarianz erreicht man dadurch, daß man das Volumen des k−Spates durch die k Kantenvektoren X0~Xi definiert, denn: Es gelte: Xi = X0 + X0~Xi (i = 1, . . . , k). Durch eine Translation v ergeben sich die Punkte X0∗ = X0 + v und Xi∗ = Xi + v mit Xi∗ = X0∗ + X0∗~Xi∗ = X0∗ + (X0~X0 ) +X0~Xi∗ + (Xi~Xi∗ ) = X0∗ + X0~Xi also ist | {z } | {z } −v v X0~Xi = X0∗~Xi∗ Wir werden also jedem Spat SP (X0 , . . . , Xk ) ein Element µ(Sp) ∈ K, genannt k−dimensionales “Volumen” V, abhängig von den Kantenvektoren ui := X0~Xi zuordnen: SP (X0 , . . . , Xk ) → µ(u~1 , . . . , u~k ) ∈ K Die Maßeigenschaften →, u~ , . . . , u~ 1. durch c) erhalten wir aus der Forderung der Multilinearität an µ in − u 1 2 t 2. durch die Forderung bzw. Festsetzung µ(u~1 , . . . , u~t ) = 0 für ~u, . . . , u~t l.a. 39 3. erhalten wir durch die Forderung µ(e~1 , . . . , e~k ) = 1 wobei e~1 , . . . , e~k eine ON–Basis des dem affinen Unterraum zugehörigen Vektorraumes U ist. Diese Forderungen stimmen mit den Eigenschaften D1, D2, D3 einer Determinante überein, daher gilt nach Satz 13.1: Satz 15.2 Volumsformel B sei ein k−dimensionaler Unterraum eines affinen Raumes A. X0 , X1 , . . . , Xk seien k + 1 l.u. Punkte und {b1 , b2 , . . . , bk } eine Basis der Richtung von B. P X0˜Xi =: ui = kj=1 uij bj . Die vij sind also die Komponenten der von einem Punkt x0 ausgehenden Kantenvektoren eines Spates. Dann gilt: (i) Das Volumen V des k−Spates Sp(X0 , X1 , . . . , Xk ) bezüglich der Basis {bi } ist gegeben durch die Determinanten der Koordinaten der Kantenvektoren: u11 . . . u1k . V = .. uk1 . . . ukk (ii) Das Volumen µ des k−Simplex Si(X0 , X1 , . . . , Xk ) bezüglich der Basis {bi } ist gegeben durch den k!−Teil der Determinante der Koordinaten der Kantenvektoren: u11 . . . u1k 1 . V = .. k! uk1 . . . ukk Bemerkung: Der k−Spat kann in k! volumsgleiche k−Simplexe zerlegt werden: Das Parallelogramm (k = 2) in k! = 2! = 2 flächengleiche Teildreiecke, das Parallelogramm in k! = 3! = 6 volumsgleiche Tetraeder. Bemerkung: Das 1−dimensionale Volumen heißt auch Länge, Das 2−dimensionale Volumen heißt auch Fläche. 40 16 Lineare Optimierung Es werden die geometrischen Begriffsbildungen in abstrakten Vektorräumen (meistens ist es der IRn , n auch sehr groß) auf Optimierungsfragen angewendet. Bei einer Vielzahl wirtschaftlicher Entscheidungen steht das Optimieren bestimmter Größen im Vordergrund. Zu den Größen, bei denen ein Maximum angestrebt wird, gehören: Gewinn, Umsatz, Fertigungsmengen, Lebensdauer eines Produktes (mit Einschränkungen), Zahl der belieferten Kunden. Zu den Größen, bei denen ein Minimum angestrebt wird, gehören: Kosten, Preis, Abfallmenge, Transportwege, Energieverbrauch, Zahl der wartenden Kunden. In dem folgenden Beispiel wird bewußt ein kleiner Ausschnitt aus der ökonomischen Wirklichkeit gewählt. Auch bei zukünftigen Beispielen wird in dieser Einführung zur Wahrung der Übersicht im Unterschied zur Praxis eine Reihe von Aspekten unberücksichtigt bleiben, um die Beispiele “von Hand” berechenbar zu machen. Man kann nun bestimmten ökonomischen Vorgängen unter Vernachlässigung unwesentlicher Sachverhalte ein vereinfachtes mathematisches System zuordnen. Ein solches in der Linearen Optimierung angewandtes System von Gleichungen und Ungleichungen heißt Modell, den Vorgang des Aufstellens der Gleichungen und Ungleichungen nennt man Modellieren. 16.1 Geometrische Lösung Um den Sachverhalt in der Zeichenebene veranschaulichen zu können, erfolgt eine Beschränkung auf n = 2. Beispiel: Maximumproblem im IR2 (aus KÖHLER, Lineare Algebra) In einem chemischen Betrieb werden aus drei Rohstoffen Ri (i = 1, 2, 3) zwei Fertigprodukte Pk (k = 1, 2) hergestellt. In der Tabelle der Abbildung 1 sind für beide Produkte die Rohstoffanteile je Einheit der Fertigprodukte angebeben. 41 Rohstoffe/Fertigprodukte P1 (ME) P2 (ME) R1 1,5 3,0 R2 2,5 2,0 R3 0 1 Abbildung 1: Materialverbrauchsnormen für die Produkte P1 und P2 Außerdem betragen die pro Zeiteinheit (ZE) verfügbaren Rohstoffmengen für R1 210 ME, für R2 200 ME und für R3 60 ME. Der Stückgewinn beträgt bei P1 3 DM und bei P2 4 DM. Aufgabe a) Bei welcher Stückzahl von P1 bzw. P2 ist der Gewinn maximal? b) Wie hoch ist der maximale Gewinn? Lösung: Für gesuchte Größen werden Variable eingesetzt. Die pro ZE hergestellten Stückzahlen von P1 sei x1 , die von P2 sei x2 . Die Tabelle in Abbildung 2 wird um die Spalte V der verfügbaren Rohstoffmenge und um die Zeile G der Stückgewinne ergänzt zu Abbildung 2. Verfügbare Mengen Rohstoffe/Fertigprodukte P1 (ME) P2 (ME) V (ME) R1 1,5 3,0 210 R2 2,5 2,0 200 R3 0 1 60 Gewinn G 3 4 Abbildung 2: Erweiterung von Abb. 1 um die Kapazitätsbeschränkungen Da für 1 ME P1 1,5 ME des Rohstoffes R1 und für 1 ME des Produktes P2 3 ME des Rohstoffes R1 benötigt werden, sind für x1 ME des Produktes P1 und x2 ME des Produktes P2 1,5 x1 +3x2 ME des Rohstoffes R1 erforderlich (das ist wieder die vereinfachende Proportionalitätsannahme). Da jedoch in der Zeiteinheit nur 210 ME des Rohstoffes R1 zur Verfügung stehen, gilt die Relation 1, 5x + 3x2 ≤ 210 (8) Entsprechend erhält man für die beiden übrigen Rohstoffmengen 2, 5x1 + 2x2 ≤ 200 x2 ≤ 60 (9) 42 Die Ungleichungen (8) und (9) nennt man einschränkende Bedingungen (Restriktionen). Außerdem dürfen die Stückzahlen nicht negativ sein: x1 ≥ 0 (10) x2 ≥ 0 Die Ungleichung (10) stellt die sog. Nichtnegativitätsbedingung dar. Da der Gewinn je ME des Produktes P1 3 DM, für x1 ME des Produktes P1 somit 3x1 beträgt und der Gewinn je ME des Produktes P2 4 DM, für x2 ME des Produktes P2 somit 4x2 beträgt (wieder die Proportionalitätsannahme), lautet die Funktionsgleichung für den Gesamtgewinn G = 3x1 + 4x2 (11) Die Gleichung (11) heißt Zielfunktion des Optimierungsproblems oder im hier vorliegenden Fall Gewinnfunktion. Zusammenfassend ergibt sich damit für Beispiel (12) folgendes mathematische Modell. 1. Restriktionen 1, 5x1 + 3x2 ≤ 210 2, 5x1 + 2x2 ≤ 200 x2 ≤ (12) 60 2. Zielfunktion G = 3x1 + 4x2 → max (13) 3. Nichtnegativitätsbedingung x1 ≥ 0 (14) x2 ≥ 0 Die Restriktionen (12) werden nun in einem zweidimensionalen Koordinatensystem dargestellt. Jede Ungleichung charakterisiert eine Halbebene. Die Schnittmenge der drei Halbebenen ist zu ermitteln. Um die Halbebenen darzustellen, löst man die drei Ungleichungen nach x2 auf und zeichnet die drei Berandungsgeraden, indem man die dazugehörigen Gleichungen betrachtet. Anschließend kennzeichnet man die jeweiligen Halbebenen durch Schraffur. Da außerdem die Nichtnegativitätsbedingungen (14) gelten, kann die gesuchte Punktemenge, d.h. der Bereich, in dem die möglichen Kombinationen der Stückzahlen x1 und x2 liegen, nur 43 Abbildung 3 im ersten Quadranten sein. Die Schnittmenge der durch die Ungleichungen (12) und (14) dargestellten Punktmenge wird in Abbildung 3 geometrisch veranschaulicht. Diejenige Punktmenge, die den Restriktionen und der Nichtnegativitätsbedingungen genügt, wird als zulässiger Bereich bezeichnet. Denkbar als mögliche Stückzahlen, die die Restriktionen und die Nichtnegativitätsbedingung erfüllen, wären z.B. Q1 (20, 30) und Q2 (30, 40) Geht man von dem Unternehmensziel der Gewinnmaximierung aus, dann sind somit diejenigen Stückzahlen x1 und x2 zu bestimmen, für die der Gewinn maximal wird. Dazu betrachtet man zunächst alle Kombinationen der Stückzahlen, bei denen der Gewinn konstant ist. Bei konstantem G stellt Gleichung (13) eine Gerade un R2 dar. Die Steigung dieser Geraden ermittelt man, indem man die Gleichung (13) nach x2 auflöst. G 3 x2 = − x1 + 4 4 (15) Auf der Geraden mit der Gleichung (15) liegen alle Punkte, die als Mengenkombination der Stückzahlen x1 und x2 interpretiert, den gleichen Gewinn ergeben. Mengenkombinationen bei gleichem Gewinn 44 Abbildung 4 Ist G = 40, so erhält man auf (15) etwa folgende Kombinationen der Stückzahlen: x1 = 4, x2 = 7 bzw. x1 = 8, x2 = 4. Die Gerade mit der Gleichung (15) heißt deshalb auch Isogewinngerade. Da alle Isogewinngeraden die gleiche Steigung besitzen, verlaufen sie parallel zueinander. Der Ordinatenabschnitt der Geraden ist G 4. Der Gewinn wird somit um so höher, je größer G 4 ist. Die Isogewinngerade muß also möglichst weit vom Ursprung weg parallel verschoben werden, jedoch so, daß sie mit dem schraffierten Bereich noch mindestens einen Punkt gemeinsam hat. Für G = 100(200, 300, 360) lauten die Isogewinngeraden x2 = − 34 x1 + 25 x2 = − 34 x1 + 50 x2 = − 34 x1 + 75 x2 = − 34 x1 + 90 Diese Isogewinngeraden sind in Abbildung 4 eingezeichnet. Die optimale Mengenkombination liegt im Punkt B(40, 50), d.h. bei Erzielung des maximalen Gewinns müssen vom Produkt P1 40 Stück und vom Produkt P 2 50 Stück hergestellt werden. 45 Die genauen Werte für die Stückzahlen erhält man durch Bestimmung des Schnittpunktes der entsprechenden Geraden. Den maximalen Gewinn ermittelt man, indem man die Stückzahlen x1 = 40 ME und x2 = 50 ME in Gleichung (13) einsetzt. Es ist Gmax = 3 [GE/ME]·40 ME +4 [GE/ME]·50 ME = 320 GE. Da die Gerade mit G 4 = 85 bzw. G = 340 keinen Punkt mit dem zulässigen Bereich gemeinsam hat, scheiden die auf ihr liegenden Punkte für die Mengenkombination aus. Beispiel: Minimumproblem im R2 Für ein Stück Vieh seien folgende Mindestnahrungsrationen verbindlich: 3 Einheiten des Nährstoffes A 6 Einheiten des Nährstoffes B 2 Einheiten des Nährstoffes C Zur Verfügung stehen zwei Futtersorten S1 und S2 . In 1 ME der Sorte S1 ist ME des Nährstoffes A und 1 ME des Nährstoffes B enthalten. In 1 ME der Sorte S2 ist 0,5 ME des Nährstoffes A, 2 ME des Nährstoffes B und 2 ME des Nährstoffes C enthalten. Die Kosten betragen für die Sorte S1 2,5 GE/ME und für die Sorte S2 3 GE/ME. Aufgabe (a) Wie muß das Futter gemischt werden, damit die angegebenen Nährstoffe darin enthalten sind und die Gesamtkosten minimal werden? b) Wie hoch sind die minimalen Kosten? Lösung Die Angaben werden in der Tabelle der Abbildung 5 übersichtlich dargestellt. Nährstoff/Futtersorte S1 S2 Mindestmengen in ME A 1 0,5 3 B 1 2 6 C 0 2 2 Kosten 2,5 3 Abbildung 5: Zusammensetzung der beiden Futtersorten Es werden x1 ME der Sorten S1 mit x2 ME der Sorten S2 gemischt. Aus der Abbildung 5 entnimmt man folgendes mathematisches Modell: 46 Abbildung 6: Isokostengeraden 1. Restriktionen x1 + 0, 5 ≥ 3 x1 + 2x2 ≥ 6 (16) 2x2 ≥ 2 2. Zielfunktion K = 2, 5x1 + 3x2 → min (17) 3. Nichtnegativitätsbedingung x1 ≥ 0 (18) x2 ≥ 0 Die durch die Ungleichungen (16) und (18) dargestellten Halbebenen werden in einem zweidimensionalen Koordinatensystem geometrisch veranschaulicht. Die Schnittmenge der entsprechenden Halbebenen ist nicht beschränkt. Der Graph der Zielfunktion stellt bei konstantem K eine Gerade dar, die Isokostengerade. Alle Isokostengeraden besitzen die gleiche Steigung. Man erhält die Steigung aller paralleler Isokostengeraden, indem man Gleichung (17) nach x2 auflöst. x2 − 2,5 3 x1 + K 3 = − 56 x1 + K 3 (19) 47 Die Steigung aller Isokostengeraden beträgt m = − 56 . In Abbildung 6 sind vier Isokostengeraden dargestellt. (K = 3, K = 6, K = 11, K = 15) Eine optimale (minimale) Lösung ergibt sich für diejenigen Wertepaare (x1 , x2 ) der Punkte, die auf einer Isokostengeraden liegen, deren Ordinatenabschnitt minimal ist. Die Isokostengerade muß somit parallel verschoben werden, und zwar möglichst dicht an den Ursprung heran, jedoch so, daß sie noch mindestens einen Punkt mit dem zulässigen Bereich gemeinsam hat. Der Punkt B(2,2) gibt das Optimum an. Auf der Isokostengeraden mit K=3 bzw. K=6 liegt kein Punkt des zulässigen Bereiches. Antwort auf a) Von Sorte S1 und S2 sind je 2 ME zu mischen. b) Minimale Kosten: K=2,5 [GE/ME]· 2ME+3[GE/ME]· 2ME=11GE Man sieht schon an diesen beiden Beispielen, wie geometrische Grundbegriffe und Vorstellungen benützt werden (zulässige Bereiche, Halbebenen, beschränkt und nicht beschränkt, Schnittmengen). Unsere Verallgemeinerungen gestatten es, dasselbe Verfahren auch in höher–dimensionalen Vektorräumen anzuwenden. 48 16.2 Geometrische Eigenschaften der zulässigen Menge Z Restriktionen in Ungleichungsform können durch Einführung von Schlupfvariablen auf Gleichungsform gebracht werden. Man erhält so i.a. m Gleichungen in n Unbekannten. Durch Weglassen von überflüssigen (= l.a.) Gleichungen kann man erreichen, daß die Koeffizientenmatrix dieses LGS vollen Zeilenrang hat. Standardproblem der linearen Optimierung K sei ein geordneter Körper. Gegeben seien eine (m × n)−Matrix A ∈ K m·n mit Rg(A) = m, ein Vektor ~b ∈ K m mit ~b ≥ ~0. Mit dem Vektor ~lt = (l1 , l2 , . . . , ln ) ∈ K n werde die lineare Funktion (Linearform) L : K n → K mit L(~x) := ~lt ~x = n X li xi i=1 gebildet. L(~x) heißt Zielfunktion. Gesucht ist das Minimum Lmin der Zielfunktion L : K n → K auf der zulässigen Menge n o Z := ~x|A~x = ~b und ~x ≥ 0 und jene Stellen ~x ∈ Z, an denen dieses Minimum angenommen wird, d.h., die Teilmenge Mmin := {~x|~x ∈ Z und L(~x) = Lmin } ⊂ Z der zulässigen Minimalpunkte von Z. Das Problem ist lösbar, wenn Mmin 6= 0. Will man unter den gleichen Bedingungen das Maximum Lmax von L bestimmen, dann ist dies gleichwertig mit der Bestimmung des Minimums von −L : Lmax = (−L)min ~b ≥ 0 kann durch eventuelle Multiplikation mit (−1) stets erreicht werden. Z ist eine konvexe Teilmenge des K n . Ist Z 6= ∅, dann besitzt Z auch Ecken, aber es sind höchstens endlich viele. Das soll die Hauptaussage der folgenden Überlegungen sein. Dazu schrei- 49 ben wir das LGS A~x = ~b folgend um: ~x = (x1 , x2 , . . . , xn ) ∈ K n , A ∈ K m·n . a11 a21 ~ A~x = b ⇔ x1 · .. . am1 | {z s~1 a1n a + . . . + xn · 2n .. . amn } | {z s~n = b1 b2 ~ .. ⇔ x1 · s~1 + . . . + xn · s~n = b . bm } also A = (s~1 , s~2 , . . . , s~n ). Der i−te Spaltenvektor s~i von A heißt der zur i−ten Koordinate xi von x̃ gehörige Spaltenvektor. Ein zulässiger Punkt ~x ∈ Z hat wegen ~x ≥ 0 keine negativen Koordinaten. Die Ecken in Z kann man folgend charakterisieren: Satz 16.1 Charakterisierung von Ecken Ein Punkt ~x ∈ Z ist genau dann eine Ecke von Z, wenn die zu den positiven (> 0) Koordinaten gehörigen Spaltenvektoren von A l.u. sind. Beweis: 1. ⇒: Sei ~c eine Ecke von Z = {~x|A~x = ~b ∧ ~x ≥ 0}. Die Anzahl der positiven Koordinaten von ~c sei p. 1. Fall: p = 0, d.h., alle Koordinaten sind 0 ⇒ ~c = ~0 (also ~b = ~0). Die Menge der zugehörigen Spaltenvektoren ist leer, eine leere Menge ist definitionsgemäß l.u. 2. Fall: p > 0. Durch Umnumerierung kann man erreichen, daß die ersten p Koordinaten von ~c positiv sind, die Spaltenvektoren von A werden gleichartig umgeordnet: ~c = (c1 , c2 , . . . , cp , 0, . . . , 0), A = (s~1 , . . . , s~p , sp+1 ~ , . . . , s~n ) ~b = A~c = (s~1 , . . . s~p , . . . s~n ) · (c1 , . . . , cp , 0, . . . , 0)t = c1 s~1 + . . . + cp s~p = Pp ci s~i i=1 Angenommen, {s~1 , . . . , s~p } wären l.a. ⇒ ∃λ1 , . . . , λp , nicht alle 0 mit Pp Pp ~i = ~0 ⇒ si = ~b∀δ ∈ K, d.h. die Punkte x~1 und x~2 mit i=1 λi s i=1 (ci s~p + δλi )~ 50 geeignetem δ0 > 0 (so daß c1 − δ0 λ1 > 9). c + δ λ 0 1 c1 − δ0 λ1 1 .. .. . . cp + δ0 λp cp − δ0 λp ~ x~1 = > 0 und x~2 = 0 0 . .. .. . 0 0 sind verschiedene Elemente von Z und ~c = 1 ~1 2x ~ >0 + 12 x~2 , d.h., ~c ist keine Ecke im Widerspruch zur Annahme. Die zu positiven Koordinaten von Ecken gehörigen Spaltenvektoren müssen l.u. sein. 2. ⇐: Sei ~x ∈ Z mit p positiven Koordinaten, o.B.d.A. sei ~x = (x1 , x2 , . . . , xp , 0, . . . , 0) und {s~1 , . . . , s~p } l.u. Spaltenvektoren von A. 1. Fall: p = 0 ⇒ ~x = ~0. Wäre ~x keine Ecke ⇒ ~x ist echte Konvexkombination von zwei verschiedenen x~1 , x~2 ∈ Z : ~x = λ1 x~1 + λ2 x~2 mit λ1 , λ2 > 0, λ1 + λ2 = 1 Wegen x~1 ≥ 0, x~2 ≥ 0 folgt, daß x~1 = ~0, x~2 = ~0, Widerspruch. 2. Fall: p > 0. Wäre ~x keine Ecke ⇒ ~x = λ1~a + λ2~c mit λ1 , λ2 > 0, λ1 + λ2 = 1, ~a, ~c ≥ 0 und ~a 6= ~c, also a c x 1 1 1 . . . . . .. . . xp = λ1 ap +λ2 cp 0 ≥0 a ≥0 cp+1 p+1 . . . . . . . . . cn an 0 ≥0 ⇒ ap+1 = . . . = an = 0 und cp+1 = . . . = cn = 0 ≥0 Wegen A · ~a = ~b und A · ~c = ~c gilt auch A · (~a − ~c) = ~0, also wegen A = (s~1 , . . . , s~p , . . . , s~n ): (a1 − c1 ) · s~1 + . . . + (ap − cp ) · s~p + 0 · sp+1 ~ + . . . + 0 · s~n = ~0. 51 Nun sind s~1 , . . . , s~p l.u. ⇒ a1 − c1 = 0, . . . , ap − cp = 0 ⇒ a1 = c1 , . . . , ap = cp ⇒ ~a = ~b (Widerspruch). Daher ist ~x eine Ecke, wenn die zu positiven Koordinaten gehörigen Spaltenvektoren l.u. sind. Beim Standardproblem ist Rg(A) = m = dim < s~1 , . . . , s~n >, d.h., m ist auch die Maximalanzahl l.u. Spaltenvektoren von A. Daher gilt: Bemerkung: Unter den Voraussetzungen des Standardproblems (insbesondere Rg(A) = m und ~b ≥ 0) hat jede Ecke der zulässigen Menge Z höchstens m positive Koordinaten. Damit kann man definieren: Definition 16.1 Entartete und nichtentartete Ecken (i) Eine Ecke der zulässigen Menge Z heißt entartet, wenn sie weniger als m positive Koordinaten besitzt. (ii) Eine Ecke der zulässigen Menge Z heißt nicht entartet, wenn sie genau m positive Koordinaten besitzt. Dabei ist m = Rg(A). Beispiel 1: 2 −1 1 0 0 A = 1 −1 0 1 0 1 1 0 0 1 2 ~ ,b = 2 5 P sei das Bild der zulässigen Menge von 2 −1 2 1 −1 x1 x1 · ≥ ~0, 2 , x2 ≤ x2 1 1 5 1 1 nicht aber die zulässige Menge Z von A~x = ~b, ~x ≥ 0. Diese ist eine Teilmenge vom K 5 , wegen rg(A) = 3 und n − Rg(A) = 5 − 3 = 2 ist Z aber in einer affinen Ebene ε vom K 5 enthalten. 52 Eine Parameterdarstellung von ε ist z.B. gegeben durch 7 −1 −1 2 3 1 2 −1 ε : ~x = − 72 + λ1 1 + λ2 3 2 0 0 0 2 0 λ1 = 1, λ2 = 1 liefert ~xt = 3 3 1 2 , 2 , 2 , 2, 2 ∈ ZZ aber die zugehörigen Spaltenvektoren {s~1 , s~2 , s~3 , s~4 , s~5 } sind l.a., also ist ~x keine Ecke von Z. λ1 = 3, λ2 = 5 liefert ~x = (− 92 , . . .) 6∈ Z. Wie kann man Z beschreiben? Z ist ja nur eine konvexe Teilmenge von ε ! Wie erhält man die Ecken von Z? Wegen Rg(A) = 3 und n = 2 hat man 2 freie Variable, wir nehmen dafür die Nicht–Schlupf– Variablen. Jeder Punkt (x1 |x2 ) ∈ P (die Koordinaten sind also gerade die Nicht-Schlupfvariablen) liefert mit den Parametern t1 := x1 , t2 := x2 einen Punkt (x1 , x2 , . . . , x5 )t ∈ Z, nämlich x1 = t1 x2 = t2 (∗) x3 = 2 − 2t1 + t2 x4 = 2 − t1 + t2 x5 = 5 − t1 − t2 0 1 0 0 0 1 ⇔ Z : ~x = 2 + t1 −2 + t2 1 2 −1 1 5 1 −1 , (t1 , t2 ) ∈ P z.B.: Für (t1 , t2 ) = (1, 1) ∈ P erhält man ~x = (1, 1, 1, 2, 3) ≥ 0 und A~x = ~b, also ~x ∈ Z. Wegen Satz 16.2 ist aber ~x auch keine Ecke von Z. Die Ecken von Z erhält man, wenn man für die Parameter (t1 , t2 ) gerade die Ecken des “Parameterpolygons” P wählt. Die Ecken von P erhält man durch alle möglichen Schnitte der das Polynom P begrenzenden Geraden (= Hyperebenen im K 2 ): 53 Polygonecken: (0, 0), ↓ Ecken von Z : p~1 = 0 ( 73 , 83 ), (1, 0), ↓ 0 2 2 5 p~2 = 1 (0, 5) ↓ 0 0 1 4 7 3 ↓ 8 3 0 7 3 0 p~3 = ↓ ↓ ↓ Test auf Ecken: {s2 , s4 , s5 }, {s1 , s4 , s5 }, {s1 , s2 , s3 }, (RowReduce) ja ja ja p~4 = 0 5 7 7 0 ↓ {s2 , s3 , s4 } l.u. ? ja {p~1 , p~2 , p~3 , p~4 } sind nichtentartete Ecken von Z (wegen Rg(A) = 3). Die Darstellung (*) zeigt, daß Z eine 2−parametrige Punkteschar enthält und beschränkt ist. Wegen (t1 , t2 ) ∈ P , einem beschränkten Viereck, enthält Z nämlich keinen Strahl. zu Beispiel 2: 1 −2 1 0 −2 1 Polygonecken: (1, 0), p~1 = 1 ↓ Test auf Ecken: {s1 , s3 , s4 }, (0, 1), ↓ p~2 = 2 0 , ~b = 2 1 0 0 −1 1 (2, 0), 0 1 4 0 ja 1 0 1 ↓ 0 2 (0, 2) ↓ 0 0 6 1 p~3 = 0 ↓ 1 4 1 0 ↓ ↓ {s1 , s4 , s5 }, {s2 , s3 , s4 }, ja ja p~4 = 0 2 6 0 1 ↓ {s2 , s3 , s5 } l.u.? ja ⇒ {p~1 , p~2 , p~3 , p~4 } sind nichtentartete Ecken von Z. Beispiel 3: A ∈ K m·n , Rg(A) = m ≥ 1, Z = {~x|A~x = ~0 und ~x ≥ 0}, Dann ist ~x = ~0 eine entartete 54 Ecke von Z. (~0 ist nicht Konvexkombination von nichtnegativen Zahlen, ~0 hat keine positiven Koordinaten). Um die Eckenanzahl in der zulässigen Mengen Z abschätzen zu können, benötigt man den Begriff der “Basis einer Ecke p~ ∈ Z”. Sei Rg(A) = m. nichtentartet: ∃ genau m positive Koordinaten ⇒ die zugehörigen Spaltenvektoren bilden eine Basis vom Spaltenraum = Km p~ entartet: ∃p < m positive Koordinaten ⇒ die p l.u. zugehörigen Spalten– vektoren lassen sich (i.a. auf mehrere Arten) zu einer Basis von K m ergänzen Definition 16.2 Basis einer Ecke p~ sei eine Ecke der zulässigen Menge Z = {~x|A~x = ~b ≥ 0, ~x ≥ 0} mit Rg(A) = m. Eine Basis Bp~ der Ecke p~ ist eine Menge von m l.u. Spaltenvektoren von A, welche die zu positiven Koordinaten von p~ gehörigen Spaltenvektoren von A umfaßt. Die zu den Vektoren einer Basis Bp~ gehörigen Unbekannten des LGS A~x = b heißen Basisvariable (BV) von ~x zur Basis Bp~ , die übrigen Unbekannten heißen Nichtbasisvariable (NBV) von ~x. Bemerkungen 1. Nach dem Basisergänzungssatz ist einer nichtentarteten Ecke eindeutig eine Basis vom K m zugeordnet, einer entarteten Ecke dagegen mehrere. 2. Jede Basis einer Ecke ist auch eine Basis vom K m . Es gilt nun der wichtige Satz 16.2 Endlichkeit der Eckenanzahl Die zulässige Menge Z = {~x ∈ K n |A~x = ~b ≥ 0 und ~x ≥ 0} mit Rg(A) = m besitzt mindestens eine und höchstens endlich viele Ecken. Beweis für die Existenz höchstens endlich vieler Ecken: Idee: Man zeigt, daß man jeder l.u. Menge von m Spaltenvektoren von A höchstens eine (d.h. auch keine) Ecke zuordnen kann. 55 Damit gilt dann: Anzahl der Ecken ≤ n m , weil man aus n Elementen auf n m Arten m Elemente herausgreifen kann (es kommt auf die Reihenfolge nicht an). Sei p~ ∈ Z eine Ecke ⇔ die zu positiven Koordinaten gehörigen Spaltenvektoren von A sind l.u. Sei {s~k1 , s~k2 , . . . , s~km } eine Menge von m l.u. Spaltenvektoren von A. Dann hat das LGS n X xk1 · s~k1 + . . . + xkm · s~km = ~b − xki · s~ki (20) i=m+1 in den m Unbekannten xk1 , . . . , xkm für jede Wahl von xkm+1 , . . . , xkn , also auch für xkm+1 = . . . = xkn = 0 eine eindeutige Lösung (Rg(s~k1 , . . . , s~km ) = m = ] Unbekannten). Sei xk1 = l1 , . . . , xkm = lm . Dann ist der Punkt p~ = (p1 , p2 , . . . , pn ) mit l ki pki = 0 i = 1, . . . , m i = m + 1, . . . , n eine Lösung von A~x = ~b. Sind alle lki ≥ 0, dann ist p~ eine Ecke von Z (denn die zu lki gehörigen Spaltenvektoren s~k1 , . . . , s~km sind nach Voraussetzung l.u.). Ist aber mindestens ein lki < 0, dann ist p~ 6∈ Z. Der Vorgang: (i) Wähle aus den n Spaltenvektoren von A m l.u. aus (ii) Löse damit das LGS (20) liefert also höchstens eine Ecke. Durch diesen Vorgang werden aber auch alle Ecken von Z erfaßt (unter Umständen hat man nur zu viel gerechnet): Sei p~ ∈ Z eine Ecke mit p ≤ m positiven Koordinaten xk1 , . . . , xkp (mehr als m kann es nach Satz 16.2 nicht geben!). Dann sind die zugeordneten Spaltenvektoren von A: s~k1 , . . . , s~kp nach Satz 16.1. Nach dem Basisergänzungssatz kann man diese l.u. Menge von Vektoren aus K m zu einer Basis von K m ergänzen: K m =< s~k1 , . . . , s~kp , . . . , s~km >. Geht man von dieser Basis aus, erhält man mittels des obigen Vorganges gerade das vorgegebene p~ (ganz egal, wie man zu einer Basis ergänzt hat, denn wegen Rg(A) = m = ] Unbekannten ist (20) eindeutig lösbar). 56 Der Beweis liefert auch die Methode, wie man alle Ecken von Z erhält. Allerdings wächst n m für große n, m explosionsartig (= exponentiell) an. Beispiel: Berechne alle Ecken von Beispiel 1 (ohne Parameterpolygon P ) n 5·4 = 53 = 53 = 1·2 Rg(A) = 3, n = 5 ⇒ ∃ höchstens m = 10 Möglichkeiten, um aus den 5 Spaltenvektoren eine Menge von 3 l.u. auszuwählen. (k1 , k2 , k3 ) l.u. NBV BV Ecke entartet (1, 2, 3) ja x4 = 0, x5 = 0 ( 72 , 32 , − 72 ) nein (1, 2, 4) ja x3 = 0, x5 = 0 ( 37 , 83 , − 73 ) ( 37 , 83 , 0, 37 , 0) (1, 2, 5) ja (0, −2, 7) nein (1, 3, 4) ja (5, −8, −3) nein (1, 3, 5) ja (2, −2, 3) nein (1, 4, 5) ja (1, 1, 4) (1, 0, 0, 1, 4) nein (2, 3, 4) ja x1 = 0, x5 = 0 (5, 7, 7) (0, 5, 7, 7, 0) nein (2, 3, 5) ja x1 = 0, x4 = 0 (−2, 0, 7) nein (2, 4, 5) ja x1 = 0, x5 = 0 (−2, 0, 7) nein (3, 4, 5) ja x1 = 0, x2 = 0 (2, 2, 5) (0, 0, 2, 2, 5) nein nein Eingabe: s1, . . . , sn so, daß A = {s1, . . . , sn}, b; Auswahl (k1 , k2 , k3 ) aa = {sk1 , sk2 , sk3 } ar = {sk4 , sk5 } RowReduce [aa] Linear Solve [aa, b] gibt Werte der Basisvariablen. Für beschränkte zulässige Mengen Z gilt darüber hinaus: Satz 16.3 Beschreibung zulässiger Mengen Eine beschränkte zulässige Menge ist die konvexe Hülle ihrer (endlich vielen) Ecken. Beweis: Z besitzt mindestens eine und höchstens endlich viele Ecken. Da Z konvex ist, enthält Z jede 57 Konvexkombination dieser Ecken. Wir müssen noch zeigen, daß durch Konvexkombinationen der Ecken auch jedes Element ~x ∈ Z erfaßt wird: Sei Rg(A) = m = n : Wegen Z 6= ∅ hat A~x = ~b genau eine Lösung x~0 ≥ 0 ⇒ Z = {x~0 } und x~0 ist Konvexkombination von x~0 , nämlich x~0 = 1 · x~0 . Sei Rg(A) = m < n : Sei b̃ = 0̃ : Dann ist die Lösungsmenge LH von A~x = ~0 ein (n − m)−dimensionaler Teilraum von K n , d.h., mit einem x~0 > ~0 liegen auch alle positiven Vielfache λx~0 ∈ LH , dann wäre aber Z im Gegensatz zur Annahme unbeschränkt. Es kann in Z also kein positives x~0 > 0 geben ⇒ Z = {~0} und ~0 = 1 · ~0 ist Konvexkombination von ~0. Sei b̃ 6= 0̃ : Dann ist ~0 ∈ 6 Z ⇒ jedes ~x ∈ Z hat mindestens eine positive Komponente. Sei x~0 = (x1 , . . . , xn )t ∈ Z mit p ≥ 1 positiven Komponenten, P sei die Menge jener Indices i mit xi > 0, also P := {i|xi > 0} und S := {~ si |i ∈ P } sei die Menge der dazugehörigen Spaltenvektoren von A. 1. Fall: Sei S l.u. ⇒ nach 6.1 ist x~0 eine Ecke und damit eine Konvexkombination der Ecken von Z, nämlich x~0 = 1 · x~0 + 0 · x~1 + . . . + 0 · x~m , wobei x~i (i = 0, . . . , m) Ecken von Z sind. 2. Fall: Sei S l.a. ⇒ ∃λi ∈ K, nicht alle 0, mit X λi s~i = ~0. (21) i∈P Davon ist mindestens ein λi > 0, sonst multipliziert man (21) mit (−1). IP sei die Indexmenge der positiven λi , IN sei die Indexmenge der negativen λi , also IN := {i|λi < 0} ⊂ P, IP := {i|λi > 0} ⊂ P Es ist IP 6= ∅, aber auch IN 6= ∅: Für jedes t ∈ K sind nämlich die Punkte xi + tλi ~y (t) := (y1 , . . . , yn ) mit yi = 0 für i ∈ P für i 6∈ P Lösungen von A~x = ~b (wegen (21)): A~y (t) = Ax~0 + t · X i∈P λi s~i + t · 0 · X j6∈P λj s~j = ~b + t · ~0 + ~0 = ~b. (22) 58 Wären nun alle λi ≥ 0 ⇒ alle ~y (t) ≥ 0 ⇒ alle ~y (t) ∈ Z ⇒ Z ist unbeschränkt im Widerspruch zur Beschränktheit. Also gilt es in (21) mindestens ein negatives λi . Es gilt nun folgender Hilfssatz. Jeder Punkt x~0 ∈ Z mit r ≥ 1 positiven Koordinaten ist Konvexkombination zweier verschiedener Punkte von Z mit je höchstens r − 1 positiven Koordinaten. Da jeder Punkt aus Z höchstens n positive Koordinaten hat, kommt man mit diesem Hilfssatz nach endlich vielen Schritten auf folgende Situation: x~0 mit n ≥ r ≥ 1 positiven Koordinaten ist Konvexkombination von Punkten y~i ∈ Z mit höchstens r − 1 positiven Koordinaten, jedes y~i ∈ Z ist wiederum Konvexkombination von Punkten z~i mit höchstens r − 2 positiven Koordinaten usw. Letztlich ist x~0 Konvexkombination von Punkten mit genau einer positiven Koordinate. Solche sind aber stets Ecken, denn: Hat x~0 genau eine positive Koordinate xp ⇒ S = {s~p }. Da A eine Nullspalte enthält, ist {s~p } l.u. ⇒ x~0 ist eine Ecke. x~0 ist also letztlich Konvexkombination von Ecken von Z. Damit ist auch der 2. Fall abgehandelt. Beweis des Hilfssatzes: Mit den Indizes aus IP und IN und den Koordinaten xi von x~0 bilden wir die Skalare t1 := − min i∈IP −xp xq xi xi =: < 0 und t2 := min = >0 i∈IN |λi | λi λp −λq Damit gilt für alle i ∈ IP und t ≥ t1 : xi + tλi ≥ 0 und für alle i ∈ IN und t ≤ t2 : xi + tλi ≥ 0. Für t mit t1 ≤ t ≤ t2 gilt damit für alle i ∈ P : xi + tλi ≥ 0, also ~y (t) ∈ Z. x Für t = t1 = − λpp gilt für die p−te Koordinate von ~y (t1 ) nach (22): yp = xp + t1 λp = xp Für t = t2 = xq −λq −xp · λp = 0 λp gilt für die q−te Koordinate von ~y (t2 ): yq = xq + t2 λq = xq − xq λp = 0. λp Die Punkte ~y (t1 ) ∈ Z und ~y (t2 ) ∈ Z sind also verschieden und haben höchstens r − 1 positive Koordinaten, denn yp = 0 bzw. yq = 0. Jedes t mit t1 ≤ t ≤ t2 kann man nur schreiben als t = l1 t1 + l2 t2 mit l1 , l2 , ≥ 0 und l1 + l2 = 1. Damit ist ~y (t) = l1 ~y (t1 ) + l2 ~y (t2 )∀t : t1 ≤ t ≤ t2 59 Weil t1 < 0 und t2 > 0 gilt dies insbesondere für t = 0: ~y (0) = (x1 , . . . , xn ) = x~0 Also ist x~0 Konvexkombination von 2 Punkten y~1 (t1 ), y~2 (t2 ) ∈ Z mit höchstens r − 1 positiven Koordinaten. Zusammenfassung: Sei A ∈ K m·n , ~b ∈ K m , ~b ≥ 0 und Rg(A) = m. Die zulässige Menge Z = {~x|A~x = ~b und ~x ≥ 0}. (i) kann beschränkt oder nicht beschränkt sein (ii) ist stets konvex (iii) hat mindestens eine und höchstens endlich viele Ecken (iv) ist die konvexe Hülle ihrer Ecken, falls sie beschränkt ist. 60 16.3 Hauptsatz der linearen Optimierung Um einen anschaulichen Überblick über Lösungsmöglichkeiten von linearen Optimierungsaufgaben zu erhalten, geben wir in den beiden nächsten Beispielen die Restriktionen in 2 Variablen wieder in Ungleichungsform an. Beispiel: Gegeben sei das in Beispiel 1 in Standardform behandelte lineare Ungleichungssystem 2x1 −x2 ≤ 2 x1 −x2 ≤ 2 x1 +x2 ≤ 5 x1 und ≥ 0 c := L1 (~x) := −x1 + x2 c := L2 (~x) := 2x1 + x2 x2 ≥ 0 Gesucht ist jeweils das Minimum von L1 und L2 auf der zulässigen Menge Z und jene Stellen, in denen dieser Minimalwert angenommen wird. Lösung: Das Bild von Z ist in Beispiel 1 durch die Menge P gegeben. Um den Minimalwert von L1 geometrisch zu erhalten, gehen wir nach dem in 6.1 Gesagten folgend vor: (i) Setze L1 (~x) gleich einer Konstanten c. Dies ergibt die Geradenschar −x1 + x2 − c = 0. (ii) Ermittle aus dieser Geradenschar jene Gerade, die bei kleinstmöglichem c mit Z mindestens einen Punkt gemeinsam hat. Dies kann dadurch erfolgen, daß man eine Gerade aus der Schar, am zweckmäßigsten die mit c = 0, so parallel verschiebt, daß der Abschnitt auf der x2 −Achse möglichst klein wird. Man erhält L1 min = −1 in genau einem Punkt ~xmin = (1/0) (siehe Abb. 1) L2 min = −2, angenommen in allen Punkten der Verbindungsstrecke von (1/0) zu ( 37 | 38 ) (siehe Abb. 2). 61 Abb. 1 Abb. 2 Beispiel 4: Gegeben sei das in Beispiel 2 in Standardform behandelte lineare Ungleichungssystem: x1 −2x2 ≤ 2 −2x1 +x2 ≤ 2 x1 +x2 ≥ 1 x1 ≥ 0 Die zulässige Menge Z ist unbeschränkt. x2 ≥ 0 Bestimme die Minima und die zulässigen Minimalpunkte für die folgenden Zielfunktionen: a) L1 (~x) := −x1 + x2 b) L2 (~x) := −x1 + 4x2 c) L3 (~x) := −x1 + x2 d) L4 (~x) := −x1 + 2x2 Aus den folgenden Abb. 3 – Abb. 6 entnimmt man folgendes Lösungsverhalten: Abb. 3 Abb. 4 62 Abb. 5 Abb. 6 Abbildung 7 63 a) Abb. 3: Es existiert kein zulässiger Minimalpunkt und damit kein Minimum von L1 auf Z. b) Abb. 4: Es gibt genau einen Minimalpunkt (2/0), mit L2 min = L2 (2/0) = −2. c) Abb. 5: Es gibt unendlich viele zulässige Minimalpunkte, nämlich die Punkte auf der Verbindungsstrecke der Ecken P1 (1|0) und P2 (0|1) und L2 min = L3 (1, 0) = . . . = L3 (0|1) = 1. d) Abb. 6: Es gibt unendlich viele zulässige Minimalpunkte, die alle auf dem von der Ecke P (2|0) ausgehenden Strahl in Richtung ~u = (2, 1) liegen. L4 min = L2 (2|0) = . . . = −2. Zusammenfassung der Beobachtungen: (i) Ein lineares Optimierungsproblem kann unlösbar sein. Dies ist trivialerweise der Fall, wenn die zulässige Menge leer ist. Aber auch bei nichtleerer zulässiger Menge muß kein zulässiger Minimalpunkt existieren. Dies kann jedoch nur bei unbeschränkter zulässiger Menge auftreten (Abb. 3). (ii) Falls ein Minimum der Zielfunktion existiert, kann es dazu genau einen (Abb. 1, Abb. 4) aber auch unendlich viele zulässige Minimalpunkte geben. Immer wird jedoch das Minimum auch in einer Ecke angenommen (minimale Ecke). Die Verbindungsstrecke von zwei zulässigen Minimalpunkten enthält ebenfalls nur zulässige Minimalpunkte. In den beiden folgenden Sätzen werden diese Beobachtungen allgemein abgesichert. Satz 16.4 Konvexkombination Jede Konvexkombination endlich vieler zulässiger Minimalpunkte ist wieder ein zulässiger Minimalpunkt. H(x~1 , . . . , x~r ) ⊂ Mmin für x~1 , . . . , x~r ∈ Mmin . Beweis: x~i zulässiger Minimalpunkt ⇒ Ax~i = ~b, x~i ≥ 0 und L(x~i ) = m := min~x∈Z L(~x). Sei ~x Konvexkombination von x~1 , . . . , x~r ⇒ ~x = r X i=1 λi x~i mit λi ≥ 0 und r X i=1 λi = 1. 64 P P P P (i) A~x = A( i λi x~i ) = i λi Ax~i = i (λi~b) = ( ·λi )~b = 1~b = ~b (ii) ~x = P λi x~i ≥ 0 P P P P (iii) L(~x) = L( i λi x~i ) = i λi L(x~i ) = i λi c = c( i λi ) = c · 1 = c (i)–(iii) zeigen, daß ~x wieder ein zulässiger Minimalpunkt ist. Die vorhergehenden Bilder zeigen, daß das Minimum stets auch in einem Eckpunkt der zulässigen Menge angenommen wird. Dies gilt tatsächlich auch allgemein: Satz 16.5 Hauptsatz der linearen Optimierung. Falls das lineare Optimierungsproblem lösbar ist, wird das Minimum stets auch in mindestens einer Ecke der zulässigen Menge angenommen. Kurz: Es existiert eine minimale Ecke. Voraussetzung: A ∈ K min , Rg(A) = m, ~0 ≤ ~b ∈ K m , ~l ∈ K n Z = {~x|A~x = b ∧ ~x ≥ 0}, L(~x) := ~lt · ~x m := min~x∈Z L(~x), Mmin := {~x|~x ∈ Z ∧ L(~x) = m}. Behauptung: Ist Mmin 6= ∅, dann enthält Mmin mindestens eine Ecke von Z. Beweis: Aus Mmin 6= ∅ ⇒ ∃x~0 ∈ Z : L(x~0 ) = m. Angenommen, dieses x~0 := (x1 , . . . , xn ) besitze p ≥ 0 positive Koordinaten. P sei die Indexmenge der positiven Koordinaten: P := {i|x0i > 0}. S sei die Menge der zu diesen positiven Koordinaten gehörigen Spaltenvektoren von A : S : {x~i |i ∈ P }. Ist p = 0, dann ist x~0 = ~0 und daher eine Ecke: ~0 kann nicht echte Konvexkombination zweier verschiedener, nichtnegativer Punkte x~1 , x~2 sein: Aus ~0 = λ1 x~1 + λ2 x~2 mit λ1 , λ2 > 0 und λ1 + λ2 = 1 folgt x~1 = x~2 = ~0. 65 Ist p > 0, dann unterscheiden wir 2 Fälle: 1. Fall: S l.u. ⇒ x~0 ist nach Satz 16.1 eine Ecke. 2. Fall: S la. ⇒ ∃ eine nichttriviale Linearkombination der Spaltenvektoren s~i (i ∈ P ), die den Nullvektor ergibt: X ki s~i = ~0 (23) i∈P Mindestens einer der Skalare ki ist positiv, sonst multipliziert man (23) einfach mit (−1). IP sei die Indexmenge der positiven, IN die Indexmenge der negativen Skalare in (23). ∅= 6 IP := {i|ki > 0} ⊂ P, IN := {j|kj < 0} ⊂ P Vom zulässigen Minimalpunkt x~0 = (x01 , . . . , x0n ) mit p positiven Koordinaten ausgehend, konstruieren wir uns einen weiteren zulässigen Minimalpunkt, aber mit höchstens p − 1 positiven Koordinaten: Für jedes δ ∈ K konstruieren wir mit x~0 die Punkte x~1 (δ) und x~2 (δ) mit folgenden Koordinaten: x0 − δki i ∈ P x0 + δki i ∈ P i i x~1 (δ) := und x~2 (δ) := (24) 0 i 6∈ P 0 i 6∈ P (i) x˜1 (δ), x˜2 (δ) erfüllen das LGS Ax̃ = b̃ (weil auch Ax~0 = ~b) P P P P Ax~1 (δ) = i∈P (x0i − δki ) · s~i = i∈P x0i s~i − δ · i∈P ki s~i = i∈P x0i s~i − δ · ~0 = ~b, wegen P P P P 0~ = 0~ + 0~ + ~b = Pn x0 s~i = P 0 · s~i = i∈P x0i · s~i . Analog ist i i i i∈P xi s i6∈P xi s i=1 i i∈P xi s Ax~2 (δ) = ~b. (ii) x˜1 (δ0 ) ≥ 0̃ und x˜2 (δ0 ) ≥ 0̃ für bestimmte δ0 Wir bilden alle Quotienten x0i ki > 0(i ∈ IP ) und x0j −kj > 0(j ∈ IN ). Unter diesen endlich vielen Quotienten gibt es jeweils einen kleinsten, es sei dies der mit dem Index i = r und j = s, also x0 x0r := min i i∈IP ki kr Dann gilt für alle 0 < δ ≤ x0i − xr kr · ki ≥ x0i − x0i ki ki xr kr = 0. und x0j x0s := min . j∈IN −kj −ks : x0i − δki ≥ 0 ∀i ∈ IP , denn man zieht von x0i maximal ab: 66 Ebenso gilt für alle 0 < δ ≤ xs −ks : x0i + δki ≥ 0 ∀i ∈ IN , denn man gibt was Negatives hinzu. Somit sind alle Koordinaten von x~1 (δ ≤ xr kr ) ≥ 0, denn: ist i ∈ IP ⊂ P , dann ist nach oben x0i − δki ≥ 0 ist i ∈ IN ⊂ P , dann ist ki < 0, also x0i − δki erst recht positiv (weil ja x0i ≥ 0). ist i 6∈ P , dann ist nach Definition (24) die Koordinate 0. 0 xs Analoges gilt für x~2 (δ ≤ −k ). Wählt man δ0 als die kleinere der beiden Zahlen n 0 0 so xs also 0 < δ0 := min xkrr , −k , dann gilt x~n (δ0 ) ≥ 0 und x~2 (δ0 ) ≥ 0. s n x0r x0s kr , −ks o , (iii) L(x˜1 (δ0 )) = L(x˜0 ) = Lmin und L(x˜2 (δ0 )) = L(x˜0 ) = Lmin P L(~x) = ni=1 li xi ⇒ (wenn man die Summanden mit li = 0 wegläßt): P P − δ0 ki ) = i∈P li x0i − δ0 i∈P li ki = P P P = ni=1 li x0i − δ0 i∈P li ki = L(x~o ) − δ0 i∈P li ki P P L(x~2 (δ0 )) = i∈P li (x0i + δ0 ki ) = L(x~0 ) + δ0 i∈P li ki . L(x~1 (δ0 )) = 0 i∈P li (xi P Weil nun Lmin = L(x~0 ) ≤ L(~x)∀~x ∈ Z ist, also auch für ~x = x~1 (δ0 ) bzw. ~x = x~2 (δ0 )), P P erhält man: L(x~0 ) ≤ L(x~1 (δ0 )) = L(x~0 ) − δ0 i∈P li ki , also i∈P li ki ≤ 0 und analog P P L(x~0 ) ≤ L(x~2 (δ0 )) = Lx~0 ) + δ0 i∈P li ki , also i∈P li ki ≥ 0. Also muß P i∈P li ki = 0 sein, also L(x~1 (δ0 )) = L(x00 ) = Lmin und L(x~2 (δ0 )) = Lmin und damit sind mit (i) und (ii) x~1 (δ0 ) und x~2 (δ0 ) zulässige Minimalpunkte. Sie haben aber weniger positive Koordinaten als x~0 , denn: Ist δ0 = xr kr Ist δ0 = xs −ks ⇒ die r−te Koordinate von x~1 (δ0 )) = x0r − ⇒ die s−te Koordinate von x~2 (δ0 ) = xr kr x0s xs + −ks · kr = 0. · ks = 0. Von einem zulässigen Minimalpunkt x~0 ausgehend erhält man so auf alle Fälle einen weiteren zulässigen Minimalpunkt x~1 , aber mit weniger positiven Koordinaten. Die Menge S1 der zu den positiven Koordinaten von x~1 gehörigen Spaltenvektoren von A wird daher eine echte Teilmenge von S sein: S1 ⊂ S. Ist S1 l.u., dann ist x~1 eine Ecke. Ist S1 l.a., dann wendet man dasselbe Verfahren wie oben auf x~1 an usw. Spätestens nach p Schritten ist Sp die leere Menge, also l.u., und man hat eine Ecke erhalten, w.z.z.w. Wann gibt es überhaupt zulässige Minimalpunkte? Ist die zulässige Menge Z unbeschränkt, muß es solche nicht geben (siehe Abb. 3). Bei beschränkten, zulässigen Mengen kann dies jedoch nicht 67 passieren (wir müssen allerdings K = IR voraussetzen). Satz 16.6 Existenz zulässiger Minimalpunkte Sei A ∈ IRm·n , Rg(A) = m, ~0 ≤ ~b ∈ IRm , ~l ∈ IRn , L(~x) := ~lt ~x. Z := {~x ∈ K n |A~x = ~b und ~x ≥ 0} sei nichtleer und beschränkt. Dann existiert mindestens ein x~0 ∈ Z mit L(x~0 ) = min~x∈Z L(~x). Eine lineare Optimierungsaufgabe mit nichtleerer und beschränkter zulässiger Menge ist lösbar. Beweis: Der Satz ist eine direkte Folgerung aus dem Satz das Maximum und Minimum aus der mehrdimensionalen Analysis (nach WEIERSTRASS): Die Teilmenge D ⊆ IRn sei nicht leer, abgeschlossen und beschränkt. Die Abbildung f : IRn → IR sei stetig. Dann besitzt f auf D ein globales Maximum und ein globales Minimum. Bei uns ist D = Z. Weil in Z in allen Ungleichungen das Gleichheitszeichen ≤ auftritt, ist Z abgeschlossen (d.h. IRn \Z ist offen). Lineare Abbildungen sind stets stetig, also insbesondere auch L(~x) = ~lt ~x. Um die lineare Optimierungsaufgabe zu lösen, könnte man daher folgend vorgehen: 1. Entscheide, ob das Problem lösbar ist. Berechne dazu die zulässige Menge Z. Ist Z 6= ∅ und beschränkt ⇒ Problem lösbar. Ist Z unbeschränkt, kann das Problem auch unlösbar sein (siehe SIMPLEXVERFAHREN → Operations Research). 2. Berechne alle Ecken x~1 , . . . , x~r von Z. Berechne L(x~k ) für alle k = 1, . . . , r. Dann ist nach c) Lmin = L(~x) = mink∈Ir L(x~k ). Dieses Vorgehen ist praktisch unbrauchbar, denn n und m sind oft > 100. Das von G.B. DANTZIG 1947 entwickelte SIMPLEXVERFAHREN gestattet es, nach endlich vielen Schritten entweder die Nichtlösbarkeit des Problems erkennen bzw. eine minimale Ecke finden zu können. 68 V LINEARITÄT Bei der “Linearität” handelt es sich wohl um den wichtigsten Begriff der Linearen Algebra, die ja auch nach ihr benannt ist. Wenn man sich in einer Menge nicht genau auskennt, ist es in der Mathematik üblich, sie in eine Menge “abzubilden”, in der man sich besser auskennt. In der Linearen Algebra sind die zu Grunde liegenden Mengen stets Vektorräume. Damit bei den Abbildungen nicht zu viel zerstört wird, ist es naheliegend, daß die Abbildungen die Vektorraumaddition und das Vervielfahcen “respektieren”. Damit ist gemeint: Bilder von Linearkombinationen sollen wieder Linearkombinationen der Bilder sein. Diese Forderung erleichtert das mathematische Leben essentiell, sie wird mit “Linearisierung” bezeichnet. Viele Erscheinungen in der Physik, Technik, Wirtschaft und Sozialwissenschaft erlauben die Anwendung dieser Linearisierung, viele auch nicht, dann wird oft zwangsweise “linearisiert”. Allerdings muß man dann den Fehler kennen, den man dabei gemacht hat (siehe differenzierbare Funktionen) oder man muß die Aussagen kritisch behandeln. 17 Lineare Abbildungen Sie stellen jenes Werkzeug dar, mit denen “linearisiert” wird. Wir werden sehen, daß sie sich über weite Strecken wie Matrizen verhalten, man kann sie also als verallgemeinerte Matrizen auffassen. 17.1 Elementare Eigenschaften Ist A eine m × n−Matrix, dann kann man ein LGS A~x = ~b als eine Abbildung fA : K n → K m auffassen, die dem n−Tupel ~x ∈ K n das m−Tupel ~b ∈ K m zuordnet: Abbildungstheoretische Auffassung eines Linearen Gleichungssystems. A~x = ~b ⇔ ~x ∈ K n → ~b ∈ K m fA : K n → K m mit fA ~x := A~x fA heißt die von der Matrix A induzierte Abbildung von K n in K m oder die Multiplikation mit der Matrix A. Sprechweise: fA von ~x ist A mal ~x. Bemerkung: ~x, ~b werden in Spaltenform geschrieben, die Abbildung fA wird oft mit demselben Buchstaben wie die Matrix bezeichnet (also fA = A). 69 Das Gleichungssystem A~x = ~b lösen bedeutet bei dieser Auffassung: Bestimme alle Urbilder von b̃ unter der induzierten Abbildung fA . Aufgrund der Rechenregeln für Matrizen ist diese induzierte Abbildung verträglich mit den Vektorraumoperationen: fA (~x + ~y ) = A(~x + ~y ) = A~x + A~y = fA (~x) + fA (~y ) A(λ~x) = fA (λ~x) = λ(A~x) = λfA (~x) Solche mit den Vektorraumoperationen verträglichen Abbildungen haben wir schon mehrmals angetroffen, z.B. beim Skalarprodukt oder bei der Determinante. Wir verallgemeinern diesen Sachverhalt auf beliebige Vektorräume: Definition 17.1 Lineare Abbildungen V und W seien Vektorräume über demselben Körper K. Eine lineare Abbildung (linear map, Homomorphismus) von V in W ist eine Abbildung f : V → W mit (L1) (L2) f (x + y) = f (x) + f (y) f (λx) = λf (x) Ein linearer Operator auf V (Endomorphismus) ist eine lineare Abbildung von V in V . (L1) und (L2) bedeuten: f verträglich mit Das Bild eines Vielfachen ist Vielfaches des Bildes Vektorraumoperationen Das Bild einer Summe ist Summe der Bilder Weil in (L2) auf beiden Seiten dasselbe λ steht, müssen V und W Vektorräume über demselben Körper K sein. (L1) und (L2) können zu einer Bedingung zusammengefaßt werden: Satz 17.1 Charakterisierung von linearen Abbildungen (i) V, W seien Vektorräume über K. f : V → W linear ⇔ f (λx + µy) = λf (x) + µf (y) ∀λ, µ ∈ K P P (ii) Allgemein: f ( ni=1 λi xi ) = ni=1 λi f (xi ) In Worten: Das Bild einer Linearkombination ist Linearkombination der Bilder. 70 Beweis von (i): 1. ⇒: f (λx + µy) = f (λx) + f (µy) = λf (x) + µf (y) 2. ⇐: λ = µ = 1 : f (x + y) = f (1 · x + 1 · y) = 1 · f (x) + 1 · f (y) = f (x) + f (y) + µ = 0 : f (λx) = f (λx + 0y) = λf (x) + 0f (y) = λf (x) Beweis von (ii) durch Induktion nach n. Definition 17.2 Spezielle lineare Abbildungen Ist U ⊆ V , dann ist das Bild von U unter f die Menge f (U) := {f (u) | u ∈ U}. Speziell: Das Bild von f (Image von f ) ist das Bild von ganz V : im(f ) := f (V). Ein Epimorphismus von V auf W ist eine surjektive lineare Abbildung von V auf W . Ein Monomorphismus von V in W ist eine injektive lineare Abbildung von V in W . Ein Isomorphismus von V auf W ist eine bijektive lineare Abbildung von V auf W . Ein Automorphismus auf V ist eine bijektive lineare Abbildung von V auf sich selbst. Beachte: Das Wort Bild (image) wird dreifach verwendet: Bild eines Elementes: f (x) Bild einer Teilmenge: f (U ) Bild einer Abbildung: im(f ) Satz 17.2 Matrixabbildungen A sei eine m × n−Matrix über dem Körper K. (i) Jede m × n−Matrix A definiert eine lineare Abbildung fA : K n → K m durch fA (x̃) := Ax̃ (~x Spaltenvektor). Sie heißt die von A induzierte Abbildung oder die Multiplikation mit der Matrix A. (ii) Jede m × n−Matrix A definiert eine weitere lineare Abbildung g˜A : K n → K m durch gA (~x) := (~xt · A)t Es gilt: gA = fAt Beweis: (i) siehe Einleitung (~xt Zeilenvektor) 71 (ii) gA (~ x+~ y ) = ((~ x+~ y )t · A)t = (~ xt · A + ~ y t · A)t = (~ xt · A)t + (~ y t · A)t = gA (~ x) + gA (~ y) gA (λ~ x) = ((λ~ x)t · A)t = λ((~ xt · A))t = λgA (~ x) (iii) fAt (~ x) = At · ~ x = (~ xt · A)t = gA (~ x) ∀~ x ∈ K m ⇒ gA = fAt . Man erhält das m−Tupel ~ xt A durch Anwendung der Matrix At auf den Spaltenvektor ~ x. Bemerkung: Eine Matrix kann also auf zwei Arten eine lineare Abbildung induzieren. Wegen (iii) verwenden wir stets die Spaltenschreibweise (i): fA (x̃) = Ax̃ Satz 17.3 Elementare Eigenschaften von linearen Abbildungen f sei eine lineare Abbildung von V in W und U ein Teilraum von V . (i) Das Bild des Nullvektors ist stets der Nullvektor: f (0) = 0. (ii) Das Bild eines Teilraumes U C V ist wieder ein Teilraum: f (U) C W. Man sagt: Lineare Abbildungen sind teilraumtreu. Insbesondere ist im (f ) stets ein Teilraum von W . (iii) Die Dimension des linearen Bildes eines Teilraumes wird höchstens kleiner: U C V ⇒ dim(f (U)) ≤ dim(U). (iv) Ist V =< b1 , . . . , bn >⇒ f (V ) = < f (b1 ), . . . , f (bn ) >= im(f ) Beweis: (i) f (0) = f (0 + 0) = f (0) + f (0), d.h., f (0) hat die Neutraleneigenschaft, wegen der Eindeutigkeit ist es das Neutrale. (ii) f (U ) 6= ∅ weil 0 = f (0) ∈ f (U )(U enthält stets 0!) Seien x0 , y 0 ∈ f (U ) ⇒ ∃x, y ∈ U : x0 = f (x), y 0 = f (y) ⇒ λx0 + µy 0 = λf (x) + µf (y) = f (λx + µy) ∈ f (U ), weil λx + µy ∈ U (U ist Teilraum). (iii) Sei U k−dimensional: U =< u1 , u2 , . . . , uk > und sei x0 ∈ f (U ) ⇒ ∃x ∈ U : f (x) = x0 . x ist Linearkombination von u1 , . . . , uk ⇒ x0 := f (x) = f (λ1 u2 + . . . + λk uk ) = λ1 f (u1 ) + . . . + λ1 f (uk ) ⇒ {f (u1 ), . . . , f (uk )} ist ein Erzeugendensystem von f (U ), eine Basis von f (U ) hat aber gleich viele oder weniger Elemente. (iv) P Pn 0 1. Sei x0 ∈< f (b1 ), . . . , f (bn ) >⇒ x0 = n i=1 λi f (bi ) ⇒ (nach 1.1): x = f ( i=1 λi bi ) ⇒ Pn 0 0 für x = i=1 λi bi ∈ V gilt: x = f (x) ⇒ x ∈ f (V ) = im(f ). 2. Sei x0 ∈ im(f ) ⇒ ∃x = f (b1 ), . . . , f (bn ) >. Pn i=1 P Pn λi bi ∈ V : f x0 = f (x) = f ( n i=1 λi bi ) = i=1 λi f (bi ) ∈< 72 Bemerkung: Im Anschauungsraum sind die Teilräume Geraden bzw. Ebenen durch 0. (ii) bedeutet, daß lineare Bilder von Geraden und Ebenen wieder solche sind, eventuell kann aus einer Geraden ein Punkt bzw. aus einer Ebene eine Gerade oder ein Punkt werden. Auf keinen Fall entstehen aber durch lineare Abbildungen gekrümmte oder gar “aufgelöste” Punktmengen: Salopp gesagt: Das lineare Bild einer “geraden Linie” ist wieder eine “gerade Linie” (daher auch der Name “Lineare Abbildungen”). Beispiele und Gegenbeispiele von linearen Abbildungen: 1. Geometrische Beispiele im Anschauungsraum: a) Drehungen um den Ursprung 0 um den Winkel α sind linear D0;α : V 2 → V 2 Beweis durch Konstruktion b) Drehungen um den Punkt P 6= 0 sind nicht linear, weil DP (0) 6= 0 c) Parallelverschiebungen (Translationen) T um den Vektor ~t sind nicht linear T (0) = t 6= 0 außerdem: T (x + y) 6= T (x) + T (y) 2. Arithmetische Beispiele im Kn : Bemerkung: Statt f ((x1 , x2 , x3 )) schreiben wir einfach f (x1 , x2 , x3 ). a) f : K 3 → K 2 mit f (x1 , x2 , x3 )t = (2x1 + 3x2 + x3 , x1 + x2 + x3 )t ist linear: Grund: Die “Formel” für f enthält nur 1. Potenzen in x1 , x2 , x3 . Sei ~ xt = (x1 , x2 , x3 ), ~ y t = (y1 , y2 , y3 ) 73 0 x1 + y1 1 0 1 C B C @ 2(x1 + y1 ) + 3(x2 + y2 ) + (x3 + y3 ) A B = f (~ x+~ y ) = f B x2 + y2 C = A @ (x1 + y1 ) + (x2 + y2 ) + (x3 + y3 ) x3 + y3 0 1 0 1 (2x1 + 3x2 + x3 ) + (2y1 + 3y2 + y3 ) 2x1 + 3x2 + x3 A=@ A+ =@ (x1 + x2 + x3 ) + (y1 + y2 + y3 ) x1 + x2 + x3 0 1 2y1 + 3y2 + y3 A = f (~ +@ x) + f (~ y) y1 + y2 + y3 1 0 0 1 0 1 λx1 C B 2λx + 3λ x + λx 2x + 3x + x 1 2 2 3 1 2 3 C B A = λ@ A = λf (~ x) f (λ~ x) = f B λx2 C = @ A @ λx1 + λx2 + λx3 x1 + x2 + x3 λx3 b) g : K 2 → K 3 mit g(x, y) = (x + 1, 2y, x + y) ist nicht linear: Grund: Die Formel für g enthält angehängte Konstanten (x + 1). Sei ~ xt = (x, y), ~ y t = (x1 , y1 ) 0 0 x + x1 1 x + x1 + 1 B A=B B 2(y + y1 ) @ y + y1 x + x1 + y + y1 0 1 0 1 0 x+1 x1 + 1 B C B C B B C B C B f (~ x) + f (~ y ) = B 2y C + B 2y1 C=B @ A @ A @ x+y x1 + y1 f (~ x+~ y) = f @ c) h : K2 → K2 mit h(x, y) = (x2 , xy) 1 C C C; A x + x1 + 2 2y + 2y1 x + y + x1 + y1 1 C C x+~ y) C 6= f (~ A ist nicht linear. Grund: Die Formel für f enthält höhere Potenzen und Produkte in x, y. Sei ~ xt = (x, y), ~ y t = (x1 , y1 ) 0 1 0 1 0 1 x + x1 (x + x1 )2 x2 + 2x1 x + x21 A=@ A=@ A h(~ x+~ y) = h @ y + y1 (x + x1 )(y + y1 ) xy + x1 y + xy1 + x1 y1 1 1 0 0 1 0 x2 x21 x2 + x21 A+@ A=@ A 6= h(~ x+~ y) h(~ x) + h(~ y) = @ xy + x1 y1 xy x1 y1 3. Beispiele in Funktionsräumen: a) V = Vektorraum der differenzierbaren Funktionen D : V → V Differentialoperator mit D(f ) = f 0 D ist linear wegen der Differentiationsregeln: D(f + g) = (f + g)0 = f 0 + g 0 = D(f ) + D(g) D(λf ) = (λf )0 = λf 0 = λD(f ) b) V = Vektorraum der auf [a, b] integrierbaren Funktionen. Rb J : V → IR Integraloperator mit J(f ) = a f (x)dx 74 J ist linear wegen der Integrationsregeln: Rb Rb Rb J(f + g) = a (f + g)dx = a f (x)dx + a g(x)dx = J(f ) + J(g) Rb Rb J(λf ) = a (λf (x)dx = λ a f (x)dx = λJ(f ) 4. Die Nullabbildung und die identische Abbildung sind lineare Operatoren. 5. 0(x + y) = 0 = 0 + 0 = 0(x) + 0(x) id(x + y) = x + y = id(x) + id(y) 0(λx) = 0 = λ · 0 = λ · 0(x) id(λx) = λx = λid(x) a) Das reelle Skalarprodukt <, >= V × V → IR ist nach S1 linear in beiden Variablen: < λ1 a1 + λ2 a2 , b > = λ1 < a1 , b > +λ2 < a2 , b > < a, λ1 b1 + λ2 b2 , b > = λ1 < a1 , b1 > +λ2 < a, b2 > Man sagt: Das reelle Skalarprodukt ist eine bilineare Abbildung von V × V in IR. b) Das komplexe Skalarprodukt ist nur linear in der ersten Variablen, für die zweite Variable gilt bezüglich des Heraushebens von Skalaren: < a, λb >= λ̄ < a, b >, sonst gelten aber alle anderen “linearen” Eigenschaften. Man sagt: Das komplexe Skalarprodukt ist eine semilineare Abbildung von V × V in C. I c) Die Determinanteneigenschaft D1 sagt aus, daß det : V × . . . × V → K linear in jeder Variablen ist: det(. . . λa + µb . . .) = λdet(. . . a . . .) + µdet(. . . b . . .). Man sagt: Die Determinante ist eine multilineare Abbildung von V × . . . × V in K. Allgemein definiert man: Definition 17.3 Multilineare Abbildungen V und W seien Vektorräume über demselben Körper K, n ∈ IN. Eine multilineare Abbildung f (x1 , . . . , xi , . . . xn ) von V in W ist eine Abbildung vom n−fachen kartesischen Produkt V × V × . . . × V → W , die in jeder Variablen linear ist, d.h.: f (. . . , xi + yi , . . .) = f (. . . , xi , . . .) + f (. . . , yi , . . .) f (. . . , λxi , . . .) = λf (. . . , xi , . . .) i = 1, . . . , n i = 1, . . . , n Für n = 2 heißt f eine bilineare Abbildung von V in W . Kurz: f (. . . , λxi + µyi , . . .) = λf (. . . , xi , . . .) + µf (. . . , yi , . . .) i = 1, . . . n 75 Definition 17.4 Semilineare Abbildungen V und W seien komplexe Vektorräume. Eine Abbildung f : V × V → W heißt semilinear, wenn gilt: f (x1 + y1 , x2 ) = f (x1 , x2 ) + f (y1 , x2 ) f (x1 , x2 + y2 ) = f (x1 , x2 ) + f (x2 , y2 ) f (λx1 , y1 ) = λf (x1 , y1 ) f (x1 , λy1 ) = λ̄f x1 , y1 ) 17.2 Rang und Defekt Die Teilraumtreue (17.3 (ii)) von linearen Abbildungen bedeuten im Anschauungsraum, daß lineare Bilder von Geraden und Ebenen durch 0 nicht gekrümmt oder in mehrere Bestandteile aufgelöst werden: Dagegen sind lineare Abbildungen nicht dimensionstreu, allerdings kann die Dimension nach 17.3 (ii) höchstens kleiner werden. Das lineare Bild einer Geraden kann also nicht zu einer Ebene aufgebläht werden. Lineare Bilder von Teilräumen können also höchstens “schrumpfen”. Als wichtige Kennzahlen für “brave” lineare Abbildungen erweisen sich in diesem Zusammenhang die Begriffe Rang und der Defekt, die ebenfalls von Matrizen auf lineare Abbildungen verallgemeinert werden können. Wir wollen nun die Frage klären, wann dies nicht der Fall ist, wann also lineare Abbildungen auch dimensionstreu sind. 76 Satz 17.4 Bild einer induzierten Matrixabbildung A sei eine m × n−Matrix und fA die von ihr induzierte lineare Abbildung, also fA : K n → K m mit fA (~x) = A~x. Dann ist im(fA ) = S(A) . . . Spaltenraum von A im(fAt ) = Z(A) . . . Zeilenraum von A Damit gilt: dim(im(fA )) = Spaltenrang von A = Rg(A) dim(im(fAt )) = Zeilenrang von A = Rg(A) Beweis: im(fA ) ist die Menge der Bilder fA (~x) = A~x, mit ~x ∈ K n . Nun ist für ~xt = (x1 , x2 , . . . , xn ) und A = (s~1 . . . s~n ): A~x = x1 · s~1 + . . . + xn · s~n ⇒ im(fA ) =< s˜1 , . . . , s˜n >= S(A) (d.h., A~x ist Linearkombination der Spaltenvektoren von A). Dann ist: dim(im(fA )) = dim(S(A)) = Rg(A). Analog ist im(fAt ) die Hülle der Spaltenvektoren von At , also Hülle der Zeilenvektoren von A. Da lineare Abbildungen Verallgemeinerungen von Matrizen sind, definiert man: Definition 17.5 Rang einer linearen Abbildung Der Rang (rank) einer linearen Abbildung f : V → W ist die Dimension ihres Bildes. rg(f ) := dim(im(f )) Es gilt: 0 ≤ rg(f ) ≤ dim(W) Beweis: rg(f ) = dim(im(f )) = dim(f (V )) ≤ dim(W ). Welchen größten und kleinsten Wert kann rg(f ) überhaupt annehmen? (a) (b) (c) 77 Ist f surjektiv, dann wird jedes y ∈ W erfaßt, also: im(f ) = W und rg(f )) = dim(im(f )) = dim(W ) (Abb. b). dim(W ) ist also der größtmögliche Wert für rg(f ). Ist rg(f ) < W , dann ist im(f ) ein echter Teilraum von W (Abb. a), im Extremfall kann im(f ) = {0} sein, wenn also alle x ∈ V auf 0 abgebildet werden, f also die Nullabbildung 0 ist (Abb. c). Also: Je kleiner der Rang einer linearen Abbildung f : V → W , umso mehr wird W degeneriert, umso schlechtere Eigenschaften hat f . Der Rang einer Abbildung ist ein Maß für die Surjektivität. Je kleiner rg(f ) ist, desto mehr weicht f von der Surjektivität ab. Satz 17.5 Charakterisierung der Surjektivität f sei eine lineare Abbildung von V in W . f : V → W surjektiv ⇔ rg(f ) = dim(W). Beweis: 1. ⇒: f (V ) = W ⇒ im(f ) = W ⇒ rg(f ) = dimW . 2. ⇐: Sei rg(f ) = dim(W ) ⇒ im(f ) = W , weil im(f ) E W ⇒ f surjektiv. Was kann als Maß für die Injektivität dienen? Sei f : V → W injektiv, d.h.: Aus f (x) = f (y) folgt x = y : Nun ist f (x) = f (y) ⇔ f (x)−f (y) = 0 ⇔ f (x−y) = 0 und x = y ⇔ x−y = 0. Die Injektivitätsbedingung lautet also: Aus f (x−y) = 0 folgt x − y = 0, daher: f injektiv ⇔ 0 wird auf 0 abgebildet. Es dürfte also nur 0 auf 0 abgebildet werden! Definition 17.6 Der Kern (kernel) oder der Nullraum (nullspace) einer linearen Abbildung f : V → W ist die Menge aller jener Vektoren aus V , die auf 0 abgebildet werden. ker(f ) := {v ∈ V | f (v) = 0}. 78 Satz 17.6 Charakterisierung der Injektivität (i) Der Kern von f ist stets ein Teilraum von V : ker(f ) C V . (ii) f injektiv ⇔ ker(f ) = {0}. Je größer ker(f ) ist, desto mehr weicht die lineare Abbildung f : V → W von der Injektivität ab. Beweis: (i) Weil f (0) = 0 ⇒ 0 ∈ ker(f ) ⇒ ker(f ) 6= ∅. Sei x, y ∈ ker(f ) ⇒ f (λx + µy) = λf (x) + µf (y) = λ · 0 + µ · 0 = 0 ⇒ λx + µy ∈ ker(f ) (ii) ⇐: Sei ker(f ) = {0} und f (x) = f (y) ⇒ f (x − y) = f (x) − f (y) = 0 ⇒ x − y ∈ ker(f ) = {0} ⇒ x − y = 0 ⇒ x = y ⇒ f injektiv ⇐: Sei f injektiv und x ∈ ker(f ) ⇒ f (x) = 0 = f (0) ⇒ x = 0 ⇒ ker(f ) = {0} Definition 17.7 Defekt einer linearen Abbildung (i) Der Defekt (nullity) einer linearen Abbildung ist die Dimension ihres Kernes def (f ) := dim(ker(f )). (ii) Eine lineare Abbildung heißt singulär, wenn sie einen positiven Defekt hat. f singulär ⇔ def (f ) > 0. (iii) Eine lineare Abbildung heißt regulär (nichtsingulär), wenn ihr Defekt 0 ist. Auch so: f singulär ⇔ ∃v 6= 0 : f (v) = 0 f nichtsingulär ⇔ Nur 0 wird auf 0 abgebildet. ⇔ (aus f (v) = 0 ⇒ v = 0). Spezialisierung auf Matrizen: Matrix A singulär ⇔ induzierte Abbildung fA singulär ⇔ Matrix A ist singulär ⇔ ∃~x 6= ~0 : A~x = ~0 Matrix A ist nichtsingulär (regulär) ⇔ aus A~x = ~0 ⇒ ~x = ~0. Satz 17.7 Charakterisierung von regulären Abbildungen Eine lineare Abbildung f : V → W ist genau dann regulär, wenn das Bild einer l.u. Menge wieder l.u. ist. 79 Beweis: 1. ⇒: Sei f regulär und {u1 , . . . , uk } l.u. Dann ist auch {f (u1 ), . . . , f (uk )} l.u., sonst gäbe es λ1 , . . . , λk , nicht alle 0, mit: λ1 f (u1 ) + . . . + λk f (uk ) = 0⇒ f (λ1 u1 + . . . + λk uk ) = 0⇒ λ1 u1 + . . . + λk uk ∈ ker/f ) = {0} ⇒ λ1 u1 + . . . + λk uk = 0 ⇒ {u1 , . . . , uk } l.a. (Widerspruch). 2. ⇐: Sei das Bild jeder l.u. Menge wieder l.u. ⇒ f regulär: Wäre f singulär ⇒ ∃v 6= 0 : f (v) = 0. Nun ist {v} wegen v 6= 0 l.u., aber {f (v)} = {0} ist l.a. (Widerspruch). Damit kann man zeigen, daß genau die regulären Abbildungen dimensionstreu sind, also z.B. Ebenen bzw. Geraden nicht degenerieren. Satz 17.8 Dimensionstreue regulärer Abbildungen U sei ein Teilraum von V und f : V ∈ W linear. Dann gilt: dimf (U ) = dimU ⇔ f regulär. → Beweis: Sei {b1 , . . . , bk } eine Basis von U ⇒ f (U ) =< f (b1 ), . . . , f (bk ) >. Ist dimf (U ) = dimU ⇔. Mit {un , . . . , uk } ist f (b1 ), . . . , f (bn )} ist l.u. ⇔ f regulär. Die Eingangs gestellte Frage nach der Dimensionstreue ist damit beantwortet: Genau die regulären linearen Abbildungen sind dimensionstreu. Obwohl Kern und Bild einer Abbildung f Teilräume von verschiedenen Vektorräumen (nämlich V bzw. W ) sind, besteht eine enge Beziehung zwischen den beiden Kennzahlen rg(f ) und def (f ) einer linearen Abbildung f : Ihre Summe ist die Dimension des Urbildraumes, eine Zahl also, die nicht von f abhängt! Der folgende Satz ist der Schlüsselsatz für alle Anwendungen der Theorie der linearen Abbildungen und ein Analogen zum Dimensionssatz für Matrizen. Satz 17.9 Abbildungssatz (Dimensionssatz) für lineare Abbildungen Sei f : V → W eine lineare Abbildung und V endlichdimensional. Dann gilt: rg(f ) + def (f ) = dim(V) = dim (Urbildraum (f )) Beweis: Sei dim(V ) = n. Wir zeigen: dim[im(f )] = n − dim(ker(f )). Als Teilraum von V hat ker(f ) auch ein endliche Dimension, nämlich dim(ker(f )) =: k ≤ n. 80 Sei {b1 , . . . , bk } eine Basis von ker(f ). Nach dem Basisergänzungssatz kann man sie durch bk+1 , . . . , bn zu einer Basis {b1 , . . . , bn } von V ergänzen. Es gilt nun: {f (bk+1 ), . . . , f (bn )} ist eine Basis von im(f ), das sind aber gerade n − k Vektoren. Beweis der Basiseigenschaft: (i) im(f ) =< f (bk+1 ), . . . , f (bn ) > Sei y ∈ im(f ) ⇒ ∃x ∈ V : f (x) = y. Weil x ∈ V ∃λ1 , . . . λn ∈ K mitx = λ1 b1 + . . . + λn bn . Dann ist y = f (x) = f (λ1 b1 + . . . + λn bn ) = = λ1 f (b1 ) + . . . + λk f (bk ) +λk+1 f (bk+1 ) + . . . + λn f (bn ) | {z } | {z } = λ1 · 0 + . . . . . . + λk · 0 + λk+1 f (bk+1 ) + . . . + λn f (bn ) ⇒ im(f ) ⊆< f (bk+1 ), . . . , f (bn ) >⊆ im(f ), also gilt (i). (ii) {f (bk+1 ), . . . , f (bn )} ist l.u. (mittels Unabhängigkeitskriterium): Sei λk+1 f (bk+1 ) + . . . + λn f (bn ) = 0 ⇒ f (λk+1 bk+1 + . . . + λn bn ) = 0 ⇒ λk+1 bk+1 + . . . + λn bn ∈ ker(f ) ⇒ ∃µ1 , . . . , µk ∈ K : λk+1 bk+1 + . . . , +λn bn = µ1 b1 + . . . + µk bk ⇒ µ1 b1 + . . . + µk bk + (−λk+1 )bk+1 + . . . + (−λn )bn = 0. Weil {b1 , . . . , bn } als Basis l.u. ist, sind alle Koeffizienten, insbesondere λk+1 = . . . = λn = 0, also gilt (ii). dim(ker(f )) + dim(im(f )) = dim(V ) Je größer der Kern, desto kleiner ist das Bild: f hat “schlechte” Eigenschaften Je kleiner der Kern, desto größer das Bild: f hat immer “bessere” Eigenschaften. Im Grenzfall ist ker(f ) = {0} und im(f ) = W ⇔ f ist bijektiv und linear, also ist f ein Isomorphismus von V auf W . k−dimensionale Teilräume bleiben k−dimensional und l.u. Vektoren bleiben l.u. Der zu V isomorphe Vektorraum W hat dieselben “linearen” Eigenschaften wie V selbst. W ist im algebraischen Sinn nur eine “Kopie” von V , man schreibt: V ∼ W . Musikalischer Vergleich: Es ist so, als ob man ein Musikstück statt in C-Dur in G-Dur spielt. 81 Zusammenfassende Bemerkung: Die Begriffe Bild, Kern, Rang und Defekt lassen sich also auf Matrizen übertragen, wenn man diese als lineare Abbildung A : K n → K m mit A(~x) = A~x auffaßt. Die so entstehenden Begriffe fallen mit denen aus Kapitel 8.3 zusammen! Sei A eine m × n−Matrix über dem Körper K. im(A) = {~y ∈ K m |~y = A · ~x, ~x ∈ K m } = Spaltenraum von A = S(A) ker(A) = {~x ∈ K n |A~x = ~0} = Lösungsmenge des homogenen Gleichungssysteme A · ~x = ~0 = Nullraum von A = N(A) rg(A) = dim(im(A)) = dimS(A) = Rg(A) def (A) = dim(ker(A)) = dim(N (A)) Es gilt wieder: def (A)) + rg(A) = n Auch hier gilt: Je kleiner der Defekt, desto bessere Eigenschaften hat die Matrix A, dies auch in Hinblick auf die Invertierbarkeit: Wir wissen: Die m×n−Matrix hat eine Linksinverse ⇔ A hat Rang n; nach dem Abbildungssatz ist dann def (A) = 0. Ein positiver Defekt hat die Nichtinvertierbarkeit zur Folge, also auch eine “schlechte” Eigenschaft. Die Linearität einer Abbildung ist eine sehr starke Einschränkung. Tatsächlich ist eine lineare Abbildung bereits durch die Bilder der Basiselemente eindeutig festgelegt, d.h., kennt man die Bilder der Basiselemente, so sind dadurch die Bilder der anderen Elemente bestimmt, die Vorschrift läßt sich von den Basiselementen auf alle anderen Vektorraumelemente fortsetzen: V =< b1 , b2 , b3 >, w1 , w2 , w2 ∈ W Satz 17.10 Fortsetzungssatz für lineare Abbildungen B = {b1 , b2 , . . . , bn } sei eine Basis von V und w1 , w2 , . . . , wn ∈ W . 82 Es gibt genau eine lineare Abbildung f von V in W , die auf B vorgeschriebene Werte w1 = f (b1 ), w2 = f (b2 ), . . . , wn = f (bn ) annimmt, nämlich f (x) := λ1 w1 + . . . + λn wn = X λi wi = X λi f (bi ) ∀x ∈ V wobei λ1 , λ2 , . . . , λn die Koordinaten von x bezüglich der Basis B sind, also x = x= X λi bi ⇒ f (x) = X P λ i bi . λi f (bi ) Bemerkung: Die vorgeschriebenen Werte können beliebige Vektoren sein, auch l.a. oder sogar alle gleich. Beweis: (i) Dieses f ist linear: Seien x, y ∈ V ⇒ x = Pn i=1 λi bi , y = x+y = λx = f (x + y) = = f (λx) = Pn i=1 µi b i ⇒ P (λi + µi )bi ⇒ λi µi sind Koordinaten von x + y und P (λλi )bi ⇒ λλi sind die Koordinaten von λx ⇒ P P (λi + µi )f (bi ) = (λi f (bi ) + µi f (bi )) = P P λi f (bi ) + µi f (bi ) = f (x) + f (y) P P P (λλi )f (bi ) = λ(λi f (bi )) = λ λi f (bi ) = λf (x) (ii) Ist g eine andere lineare Abbildung mit g(bi ) = f (bi ) für i = 1, 2, . . . , n ⇒ g = f : P Sei x = λi bi ⇒ P P P P f (x) = f ( λi bi ) = λi f (bi ) = λi g(bi ) = g(λi bi ) = P = g( λi bi ) = g(x) ∀x ∈ V Beispiel: Es sei f : K 4 → K 3 jene lineare Abbildung, für die f (1, 1, 1, 1)(2, 2, 2), f (1, 1, 1, 0)(1, 3, 5), f (1, 0, 1, 0)(2, 3, 4), f (1, 0, 0, 0)(1, 1, 1) gilt (i) Gib f an (ii) Berechne Basis und Dimension von im(f ), ker(f ). 1. 1 1 1 1 1 1 1 0 1 0 1 0 1 0 0 0 1 1 1 1 0 0 0 −1 0 −1 0 −1 0 −1 −1 −1 1 1 1 1 0 1 1 1 0 −1 0 −1 0 0 0 −1 1 1 1 1 0 1 1 1 0 0 1 0 0 0 0 1 4 l.u. Vektoren bilden in K 4 eine Basis. Damit ist f eindeutig bestimmt. 83 2. Stelle (x1 , x2 , x3 , x4 ) als Linearkombination der Basis dar. 1 1 1 1 | x1 1 1 0 0 | x2 1 1 1 0 | x3 1 0 0 0 | x4 x1 1 1 1 1 x1 x2 0 0 −1 −1 x2 − x1 f x3 = x4 · f (b1 ) + (x2 − x4 )f (b2 )+ 0 0 0 −1 x3 − x1 x4 0 −1 −1 −1 x4 − x1 +(x3 −x2 )f (b3 ) + (x1 − x 3 )f (b 4) = 1 1 1 1 x1 2 1 0 1 1 1 x1 − x4 = x4 · 2 + (x2 − x4 ) 3 + 0 0 1 1 x1 − x2 2 5 0 0 0 1 x1 − x3 2 1 1 1 1 0 x3 +(x3 − x2 ) 3 + (x1 − x3 ) 1 0 1 1 0 x3 − x4 4 1 0 0 1 0 x3 − x2 2x4 + x2 − x4 + 2x3 − 2x2 + x1 − x3 0 0 0 1 x1 − x3 = 2x4 + 3x2 − 3x4 + 3x3 − 3x2 + x1 − x3 = 1 1 0 0 x2 3 − 4x2 + x3 − x3 2x4 + 5x2 − 5x4 + 4x 0 1 0 0 x2 − x4 x1 − x2 + x3 + x4 0 0 1 0 x3 − x2 x1 + 2x3 − x4 = 0 0 0 1 x1 − x3 x1 + x2 + 3x3 − 3x4 1 0 0 0 x4 0 1 0 0 x2 − x4 0 0 1 0 x3 − x2 0 0 0 1 x1 − x3 f (x1 , x2 , x3 , x4 ) = (x1 − x2 + x3 + x4 , x1 + 2x3 − x4 , x1 + x2 + 3x3 − 3x4 ) 2 1 2 1 im(f ) =< f (b1 ), f (b2 ), f (b3 ), f (b4 ) >=< 2 , 3 , 3 , 1 >= 2 5 4 1 3. 1 2 = < 2 , 3 > ⇒ rg(f ) = 2 ⇒ def (f ) = 4 − 2 = 2 5 2 4. ker(f ) = {~x ∈ K 4 |f (~x) = 0} x1 − x2 + x3 + x4 = 0 x1 + 2x3 − x4 = 0 x1 + x2 + 3x3 − 3x4 = 0 ker(f ) =< (1, 2, 0, 1), (−2, −1, 1, 0) > 84 17.3 Anwendung: Lineare Operatorgleichungen Nachdem wir Matrizen auf lineare Abbildungen verallgemeinert haben, wollen wir jetzt lineare Gleichungssysteme verallgemeinern. Bisher: A · ~x = ~b ~x ∈ K n ~b ∈ K m ↓ Nun: f (v) = w ↓ ↓ v∈V w∈W Gegeben seien zwei Vektorräume V und W über demselben Körper K und eine lineare Abbildung f von V in W , insbesondere kann W = V sein, f heißt dann gerne auch linearer Operator (= Endomorphismus). Weiters sei ein beliebiger Vektor w ∈ W gegeben. Gesucht sind jene Vektoren v ∈ V mit: f (v) = w: lineare Operatorgleichung f (v) = 0: dazugehörige homogene lineare Operatorgleichung L = {v ∈ V |f (v) = w} = f −1 (w): Lösungsmenge der Operatorgleichung L ist die Urbildmenge von w unter f v0 ∈ V mit f (v0 ) = w: LH = ker(f ) = f −1 (0): spezielle Lösung der Operatorgleichung Lösungsmenge der dazugehörigen homogenen Operatorgleichung Ist T ⊆ V und v0 ∈ V , dann ist v0 + T := {v ∈ V |v = v0 + t mit t ∈ T }. Satz 17.11 Lösungsmenge einer linearen Operatorgleichung (i) Die Lösungsmenge L der linearen Operatorgleichung f (v) = w ist gegeben durch L = v0 + ker(f ) = v0 + LH wobei v0 eine spezielle Lösung ist: f (v0 ) = w. (ii) Diese Darstellung der Lösungsmenge ist unabhängig von der Wahl der speziellen Lösung v0 . 85 Kurz: Die Lösungsmenge einer linearen Operatorgleichung setzt sich zusammen aus einer speziellen Lösung und der Lösungsgesamtheit der dazugehörigen homogenen Gleichung. Beweis: (i) 1. Sei v eine beliebige Lösung, also f (v) = w und v0 eine spezielle Lösung, also auch f (v0 ) = w ⇒ f (v − v0 ) = f (v) − f (v0 ) = w − w = 0 ⇒ v − v0 ∈ ker(f ) ⇒ v = v0 + ker(f ) ⇒ L ⊆ v0 + ker(f ). 2. Sei v ∈ v0 + ker(f ) ⇒ v = v0 + k mit k ∈ ker(f ) ⇒ f (v) = f (v0 + k) = f (v0 ) + f (k) = w + 0 = w ⇒ v ∈ L ⇒ v0 + ker(f ) ⊆ L. (ii) Seien v0 und v1 zwei spezielle Lösungen, also f (v0 ) = f (v1 ) = w. Dann gilt: v0 + ker(f ) = v1 + ker(f ). Sei v ∈ v0 + ker(f ) ⇒ v = v0 + k0 mit k0 ∈ ker(f ) ⇒ f (v − v1 ) = f (v) − f (v1 ) = f (v0 + k0 ) − f (v1 ) = f (v0 ) + f (k0 ) − f (v1 ) = f (v0 ) + 0 − f (v1 ) = f (v0 ) − f (v1 ) = w − w = 0 ⇒ v − v1 ∈ ker(f ) ⇒ v ∈ v1 + ker(f ). Sei v ∈ v1 + ker(f ) ⇒ v = v1 + k1 mit k1 ∈ ker(f ).Dannistf (v − v0 ) = f (v) − f (v0 ) = f (v1 ) + f (k1 ) − f (v0 ) = f (v1 ) − f (v0 ) = 0 ⇒ v − v0 ∈ ker(f ) ⇒ v ∈ v0 + ker(f ). Beispiele von linearen Operatorgleichungen: 1. Differentialgleichungen: Gesucht ist eine Funktion, deren Ableitungen eine Gleichung erfüllen (man sagt: Die gesuchte Funktion kommt unter dem Differentiationszeichen vor) y(x) ∈ IRIR (reelle Funktion) (z.B.: y(x) = xn , ex , sin x, . . .) Gewöhnliche Differentialgleichungen sind z.B.: y 0 = sin x · cos y 3y 00 + 4y 0 + y = x3 x2 · y 000 + (1 − x)y 00 + x · y 0 + 5x · y = tan x Wie betrachten lineare Differentialgleichungen: an (x)y (n) + . . . + a2 (x)y 00 + a1 (x) · y 0 + a0 (x) · y = s(x) | {z } f (y) f (y) := an (x)y (n) + . . . + a1 (x) · y 0 + a0 (x) · y f : C ∞ → C ∞ Vektorraum der beliebig oft differenzierbaren Funktion f ist linearer Operator (oft mit L[y] bezeichnet): f (y + z) = an (x)(y + z)(n) + . . . + a1 (x)(y + z)0 + a0 (x)(y + z) = an (x)y (n) + . . . + a1 (x)y 0 + a0 (x)y + an (x)z (n) + . . . + a1 (x)z 0 + a0 (x)z = f (y) + f (z)∀y, z ∈ C ∞ . f (λy) = an (x)(λy)(n) +. . .+a1 (x)λ·y 0 +a0 (x)·λ·y = λ·(an )(x)y (n) +·+a1 (x)y 0 +a0 (x)) = λ · f (x). 86 f ist linear wegen der Differentiationsregeln. Siehe: Differentialgleichungen. 2. Integralgleichungen: Gesucht ist eine Funktion y(t) unter dem Integralzeichen, z.B: R sin(x · t)y(x)dt = g(x) t Integrationsvariable Für jede Wahl von x erhält man eine bestimmte Zahl =:g(x). V := C[a, b] Vektorraum auf [a, b] stetigen Funktion Rb f (y) := a sin(x · t)y(x)dt f : C[a, b] → C[a, b] Wegen der Integrationsregeln ist f ein linearer Operator Siehe: Funktionalanalysis 3. Differenzengleichungen: Gesucht ist das allgemeine Glied xn einer Folge (xn ), z.B.: x0 = 1, x1 = 0 xn “rekursiv” definiert xn+2 − 3xn+1 + xn = yn Man spricht von einer Differenzengleichung 2. Ordnung. V = IRIN Vektorraum der unendlichen Zahlenfolgen (xn ) über IR,CI . . . (xn ) = (x0 , x1 , x2 , x3 , . . .) f (xn ) = xn+2 − 3xn+1 + xn f : IRIN → IRIN f ist wegen der Körpergesetze ein linearer Operator. Differenzengleichungen werden in einem eigenen Kapitel behandelt. 4. Lineare Gleichungssysteme: Gesucht ist ein n−Tupel ~x ∈ K n : A · ~x = ~b A ∈ K m·n f (~x) = A · ~x f : K n → K m f ist wegen der Matrizenregeln ein linearer Operator. Ein lineares Gleichungssystem ist also eine spezielle lineare Operatorgleichung (siehe Kapitel 15). Die Ergebnisse des Kapitels 15 kann man wie folgt verallgemeinern: 87 Satz 17.12 Hauptsatz über lineare Operatorgleichungen V und W seien zwei Vektorräume über demselben Körper K (auch W = V zugelassen) und f := V → W sei ein linearer Operator, w ∈ W . (i) f (v) = w ist genau dann lösbar, wenn w ∈ im(f ). (ii) f (v) = w ist genau dann universell lösbar, wenn f surjektiv ist. Ist W endlich dimensional, dann ist dies genau dann der Fall, wenn rg(f ) = dim(W ). (iii) Im Falle der Lösbarkeit ist f (v) = w genau dann eindeutig lösbar, wenn f nicht singulär (regulär) ist. Ist f singulär, dann ist f (v) = w mehrdeutig lösbar und die Lösungsmenge L ist gegeben durch L = v0 + ker(f ) wobei v0 eine spezielle Lösung der Gleichung ist. Beweis: (i) = Definition von im(f ). (ii) L = W ⇔ im(f ) = W ⇔ f surjektiv (rg(f ) = dim(W )). (iii) Nach 17.11 ist L = v0 + ker(f ). f nichtsingulär ⇔ def (f ) = 0 ⇔ ker(f ) = {0} ⇔ L = {v0 } Bemerkung: Eine lineare Operatorgleichung hat also eine leere, eine einelementige oder eine unendliche Lösungsmenge (wenn V unendlich), nicht jedoch eine Lösungsmenge aus 2,3,... Elementen. Damit kann man auch die Frage nach der Invertierbarkeit (Umkehrbarkeit) einer linearen Abbildung f : V → W beantworten. In Kapitel 2 hatten wir ganz allgemein gesehen: f invertierbar ⇔ f umkehrbar ⇔ f bijektiv. Im Falle der Invertierbarkeit hat daher jedes w ∈ W genau ein Urbild. Für lineare Abbildungen f : V → W gilt darüber hinaus: f −1 (w) = v0 + ker(f ). f singulär ⇔ def (f ) > 0 ⇔ ker(f ) nicht trivial ⇔ w hat mehrere Urbilder ⇔ 88 f nicht invertierbar. Die Invertierbarkeit von f kann damit in der “Sprache der lineraen Abbildungen” folgend ausgedrückt werden: Satz 17.13 Hauptsatz über die Umkehrbarkeit von linearen Abbildungen f sei eine lineare Abbildung von V in W . (i) f ist genau dann invertierbar, wenn im(f ) = W und f nichtsingulär (regulär) ist. D.h., genau die Isomorphismen sind die invertierbaren linearen Abbildungen. (ii) Ist V endlichdimensional, dann ist f genau dann invertierbar, wenn dim(W ) = dim(V ) und f nichtsingulär (regulär) ist. (iii) Ist dim(V ) = dim(W ) (Spezialfall V = W ), dann ist f genau dann invertierbar, wenn f nichtsingulär ist. D.h.: In diesem Fall (aber sonst nicht) folgt aus der Injektivität bereits die Surjektivität und umgekehrt (Analogon zu endlichen Mengen, siehe 1.) Beachte: Die Regularität ist im allgemeinen nicht hinreichend für die Invertierbarkeit. Beweis: (i) 1. Sei f invertierbar ⇒ ∀w ∈ W ∃ genau ein v ∈ V mit f (v) = w ⇒ im(f ) = W und die lineare Operatorgleichung f (v) = w hat genau eine Lösung ⇒ def (f ) = 0 ⇒ f nicht singulär. 2. Sei im(f ) = W und def (f ) = 0 ⇒ ∀w ∈ W ∃v ∈ V mit f (v) = W , wegen def (f ) = 0 ist v eindeutig bestimmt ⇒ f invertierbar. (Auch so: def (f ) = 0 ⇔ f injektiv, zusammen mit im(f ) = W ist f bijektiv ⇒ invertierbar). (ii) Sei dim(V ) = n < ∞. 1. f invertierbar ⇒ def (f ) = 0, und im(f ) = W ⇒ rg(f ) = dim(W ) ⇒ wegen der Abbildungsgleichung 17.9 (anwendbar wegen dim(V ) = n) : rg(f ) + def (f ) = dim(V ) ⇔ dim(W ) + 0 = dim(V ). 2. Sei dim(W ) = dim(V ) und def (f ) = 0 ⇒ rg(f ) = dim(V ) − def (f ) = dim(W ) − 0 = dim(W ) ⇒ (im(f )) = dim(W ) und im(f ) C W ⇒ im(f ) = W ⇒ f invertierbar. (iii) Sei dim(V ) = dim(W ) = n. f injektiv ⇔ def (f ) = 0 ⇔ rg(f ) = n − def (f ) = n − 0 = n ⇔ rg(f ) = dim(W ) ⇔ im(f ) = w ⇔ f surjektiv. Bemerkung: Die endliche Dimension von V in (ii) ist wesentlich: V = P . Vektorraum der Polynome, dim(P ) = ∞. f : P → P mit f (p(x)) = X · p(X). 89 f ist linear. f ist nicht singulär: Sei f (p()) = 0 ⇒ X · p(x) = 0∀X ⇒ p(x) = 0. Trotzdem ist f nicht invertierbar: Die Konstanten in P werden nicht erfaßt. Die Nichtsingularität (Regularität) kann zusammenfassend durch folgende äquivalente Eigenschaften charakterisiert werden: Satz 17.14 Charakterisierung der Nichtsingularität f sei eine lineare Abbildung von V in W . (i) f nichtsingulär ⇔ f injektiv ⇔ f Monomorphisms (ii) f nichtsingulär ⇔ Bild einer l.u. Menge ist wieder l.u. Bei zusätzlicher Voraussetzung dim(V) = dim(W) = n (z.B. W = V ) gilt (iii) bis (vii): (iii) f nichtsingulär ⇔ f surjektiv ⇔ rg(f ) = n. (iv) f nichtsingulär ⇔ f invertierbar. (v) f nichtsingulär ⇔ f Isomorphismus. (vi) f nichtsingulär ⇔ Bild einer Basis ist wieder eine Basis. (vii) Eine quadratische (n × n)−Matrix A nichtsingulär (regulär) ⇔ rg(A) = n. Nochmals Beweise: (i) 1. f nichtsingulär und f (x) = f (y) ⇒ f (x − y) = 0 ⇒ x − y = 0 ⇒ x = y ⇒ f injektiv. 2. f injektiv und f (v) = 0 ⇒ f (v) = 0 = f (0) ⇒ v = 0 ⇒ f nichtsingulär. Der zweite Teil ist Definition. (ii) 1. f nichtsingulär und M ⊆ V l.u.. d.h. {v1 , . . . , vn } l.u. ∀n ∈ IN. Sei λ1 f (v1 ) + . . . + λn f (vn ) = 0 ⇒ f (λ1 v1 + . . . + λn vn ) = 0 ⇒ λ1 v1 + . . . + λn vn = 0 (Nur 0 auf 0) ⇒ λi 0 = ∀i ⇒ {f (v1 ), . . . , f (vn )} l.u. ∀n ⇒ f (M ) l.u. 2. Sei das Bildjeder l.u. Menge wieder l.u. und sei v 6= 0 beliebig aus v ⇒ {v} l.u. ⇒ {f (v)} = l.u. ⇒ f (v) 6= 0 ⇒ f nichtsingulär. (iii) 1. f nichtsingulär ⇔ def (f ) = 0 ⇔ rg(f ) = n − def (f ) = n ⇔ rg(f ) = dim(W ) ⇔ im(f ) = W ⇔ f surjektiv. 2. Sei f surjektiv ⇔ rg(f ) = n ⇔ def (f ) = n − rg(f ) = 0 ⇔ f injektiv ⇔ f nichtsingulär. (iv) f nichtsingulär ⇔ f injektiv und f surjektiv ⇔ f bijektiv ⇔ f invertierbar. (v) f nichtsingulär ⇔ f invertierbar ⇔ f bijektiv ⇔ f Isomorphismus. 90 (vi) 1. f nichtsingulär und {b1 , . . . , bn } Basis von V ⇒ {f (b1 ), . . . , f (bn )} l.u. und < f (b1 ), . . . , f (bn ) >= im(f ) = W , weil f auch surjektiv ist. Insgesamt: {f (b1 ), . . . , f (b1 )} ist Basis von W. 2. Sei {b1 , . . . , bn } Basis von V und {f (b1 ), . . . , f (bn )} Basis von W . Sei v 6= 0 aus V und f (v) = 0 ⇒ v = λ1 b1 + . . . + λn bn ⇒ 0 = f (v) = λ1 f (b1 ) + . . . + λn f (bn ) ⇒ λ1 = . . . = λn = 0, weil f (b1 ), . . . , f (bn ) l.u. ⇒ v = 0 ⇒ f nichtsingulär. (vii) A nichtsingulär ⇔ ker(A) = {0} ⇔ def (A) = 0 ⇔ n − def (A) = n ⇔ Rg(A) = n ⇔ A invertierbar. Mit (iv), (v) gilt auch: Satz 17.15 Charakterisierung von Isomorphismen in endlich dimensionalen Vektorräumen Eine lineare Abbildung f : V → W ist genau dann ein Isomorphismus, wenn das Bild einer Basis wieder eine Basis ist. Sei dim(V ) = n 1. f : V → W Isomorphismus ⇒ dim(W ) = dim(V ) = n und f nichtsingulär ⇒Bild einer Basis ist wieder Basis. 2. Sei {b1 , . . . , bn } eine Basis von V ⇒ {f (b1 ), . . . , f (bn )} Basis von W ⇒ dim(W ) = dim(V ) = n ⇒ f nichtsingulär ⇒ f Isomorphismus. Definition 17.8 Zwei Vektorräume V und W über demselben Körper K heißen isomorph (symbolisch V ∼ = W ), wenn es einen Isomorphismus f : V → W gibt. Satz 17.16 Isomorphie von endlichdimensionalen Vektorräumen Jeder Vektorraum V der Dimension n ist isomorph zu K n . Die Isomorphie von Vektorräumen ist eine Äquivalenzrelation auf der Menge aller Vektorräume über K(V ∼ = V, V ∼ =W ⇒W ∼ = V, V ∼ =W ∼ =X⇒V ∼ = X). Bis auf Isomorphie gibt es also nur einen n−dimensionalen Vektorraum, nämlich K n . Beweis: Sei B = (b1 , . . . , bn ) eine Basis von V und x ∈ V . f : V → K n somit f (x) = [x]B . Jedem Vektor werden also seine Koordinaten bezüglich einer festen Basis B zugeordnet. 1. f ist linear: f (x + y) = [x + y]B = [x]B + [y]B = f (x) + f (y) f (λx) = [λx]B = λ[x]B 2. f ist injektiv ⇔ nichtsingulär: Sei f (x) = 0 ⇒ [x]B = 0 ⇒ x = 0 Damit ist f automatisch auch surjektiv. 91 Praktische Bedeutung: Kommt es nur auf die “linearen” Eigenschaften an, also auf jene, die sich nur durch die Vektorraumoperation + und Vervielfachen ausdrücken lassen, genügt es, im K n zu rechnen. Man ordnet jedem Vektor seine Koordinaten bezüglich einer Basis zu (meistens die Standardbasis), rechnet im K n und transformiert das Ergebnis in V zurück (f −1 ist mit f wieder ein Isomorphismus). 17.4 Rechnen mit linearen Abbildungen In der elementaren Physik werden meßbare Größen wie Ort, Geschwindigkeit usw. mit reellen Zahlen gemessen. In der Quantenmechanik werden diese meßbaren Größen durch lineare Operatoren angegeben. So wie mit Zahlen benötigt man dort ein Rechnen mit linearen Operatoren, es entspricht dem Rechnen mit Matrizen. Satz 17.17 Summe und Vielfaches von linearen Abbildungen V und W seien Vektorräume über K. f, g : V → W seien lineare Abbildungen. (i) Summe (f + g) und Vielfaches (kf ) von linearen Abbildungen sind wieder lineare Abbildungen. Dabei ist rg(f + g) ≤ rg(f ) + rg(g), rg(kf ) = rg(f ). (ii) Die Menge aller linearen Abbildungen von V in W bildet bezüglich der Addition und der Vielfachbildung einen Vektorraum über K, bezeichnet mit L(V, W ) bzw. Hom (V, W ). Es ist L(V, W) C WV . (iii) Ist dim(V ) = n und dim(W ) = m, dann ist dim(L(V, W)) = m · n. Ist {v1 , v2 , . . . , vn } eine Basis von V und {w1 , w2 , . . . , wm } eine Basis von W , dann bilden die Abbildungen fij mit fij (vi ) = wj und fij (vk ) = 0 für k 6= i eine Basis von L(V, W ). Die Hintereinanderausführung von linearen Abbildungen f, g bezeichnet man auch als Produkt (g ◦ f )(x) := g(f (x)). 92 f :V →W f (V ) = W g:W →X Beachte: Zuerst wird die innere Abbildung f ausgeführt. Satz 17.18 Produkt von linearen Abbildungen V, W, X seien Vektorräume über demselben Körper K. f, f 0 : V → W, g, g 0 : W → X seien solche lineare Abbildungen, daß alle auftretenden Produkte definiert seien. (i) Das Produkt g ◦ f von linearen Abbildungen ist wieder linear: g ◦ f ∈ L(V, W ). (ii) Der Rang des Produktes zweier linearer Abbildungen ist kleiner oder gleich dem Rang eines jeden Faktors: rg(g ◦ f ) ≤ rg(f ), rg(g ◦ f ) ≤ rg(g) ⇔ rg(g ◦ f ) ≤ min(rg(f ), rg(g)). Der Rang eines Produktes von Abbildungen kann nicht den Rang eines Faktors übertreffen. (iii) Das Produkt von linearen Abbildungen (und nur von diesen) ist linksdistributiv bezüglich der Addition: g ◦ (f + f 0 ) = g ◦ f + g ◦ f 0 . Weiterhin gilt wie für alle Abbildungen die Rechtsdistributivität: (g + g 0 ) ◦ f = g ◦ f + g 0 ◦ f k(g ◦ f ) = (kg) ◦ f = g ◦ (kf ) (iv) Im Falle der Existenz ist die Inverse einer linearen Abbildung wieder linear. Es gilt dann so wie für alle Abbildungen: (g ◦ f )−1 = g −1 ◦ f −1 , aber die Summe von invertierbaren linearen Abbildungen muß nicht invertierbar sein. Das Produkt von Abbildungen kann nichtsingulär sein, auch wenn ein Faktor singulär ist. 93 (v) Für den Spezialfall W = V , also L(V, V ) gilt (Summe und Produkt sind dann immer definiert): Die Menge L(V, V ) der linearen Operatoren eines Vektorraumes auf sich selbst bildet bezüglich der Addition und des Produktes von Abbildungen einen nicht kommutativen Ring mit 1 = idv . Insgesamt gilt also: L(V, V ) ist bezüglich Addition, Vervielfachen und Produkt Hintereinanderausführung eine nicht kommutative Algebra. Beweis zu (ii): Sei f : V → W mit rg(f ) = r bzw. g : W → X mit rg(g) = s. f bildet V in den r−dimensionalen Teilraum im(f ) von W ab. g bildet W in den s−dimensionalen Teilraum im(g) von X ab. Nun ist im(gf ) = {(gf )(v)|v ∈ V } = {g(f (v))|v ∈ V } = {g(v 0 )|v 0 ∈ im(f )} ⊆ im(g) ⇒ dim(gf ) ≤ dim(im(g)) = s ⇒ rg(gf ) ≤ s. im(gf ) ist nach (*) das Bild des Teilraumes im(f ) unter g. Es ist dim(im(f )) = rg(f ) = r. Nun wird die Dimension eines Bildes eines Teilraumes unter einer linearen Abbildung höchstens kleiner, daher ist rg(gf ) ≤ r. Bemerkungen: 1. Ist f invertierbar, dann ist wegen im(f ) = W : rg(g ◦ f ) = rg(g). 2. Analog gilt für Matrizen: rg(A · B) ≤ min(rg(A), rg(B)). 3. Wegen des Assoziativgesetzes bezüglich ◦ ist in L(V, V ) eine Potenzrechnung möglich: f n := f◦ f◦ . . . ◦ f . Damit ist das Einsetzen von Abbildungen in Polynome möglich: | {z } n aml Ist p(x) = a0 + a1 X + a2 X 2 + . . . + an X n , dann sei p(f ) := a0 id + a1 f + a2 f 2 + . . . + an f n . 94 17.5 Faktorräume (Quotientenräume) Vektorräume enthalten im allgemeinen sehr viele Elemente. Sieht man von gewissen Eigenschaften der Elemente ab, können sie “verkleinert” werden. Dieses Verkleinern kann formal mittels einer Äquivalenzrelation beschrieben werden. Beispiel: Im Vektorraum der Ortsvektoren in der Ebene werden Vektoren, deren Endpunkte auf einer Geraden (= Teilraum) liegen, als “gleich” (= äquivalent) angesehen: v1 ∼ v2 ∼ v3 ∼ v4 ∼ . . . v ∼u w := w − v ∈ U Alle äquivalenten Vektoren haben die Eigen- Alle zu v äquivalenten Vektoren sind gegeben schaft, daß ihren Differenzen im Teilraum U lie- durch v + U = {v + u|u ∈ U }, gen. also durch die Nebenklasse v nach U. Äquivalenzklasse [v] = {w|w ∼u v} = {w 6= v + u|n ∈ U } = v + U. Alle zu v + U gehörende Vektoren werden mit der Geraden g = v + U “identifiziert”. g ist das Bild (der Ersatz) für die unendlich vielen Vektoren v1 , v2 , . . . mit Endpunkt auf g. dimV 2 = 2 V /U = “Faserraum” = Menge aller v + U = dimU = 1 Quotientenraum von V nach U . Wann sind 2 Nebenklassen v1 + U, v2 + U gleich? 95 v1 + U = v2 + U ⇔ v2 − v1 ∈ U Rechnen mit Nebenklassen: Allgemein: Gegeben sei ein Vektorraum V über einen Körper K und ein Teilraum U C V . Definition 17.9 Nebenklasse nach einem Teilraum (i) 2 Vektoren v1 , v2 ∈ V heißen äquivalent (modulo U ), wenn ihre Differenz in U liegt: v1 ∼U v2 ⇔ v2 − v1 ∈ U (oder v1 − v2 ∈ U ) ∼U ist eine Äquivalenzrelation auf V . (ii) Die Äquivalenzklasse [v] nach dieser Äquivalenzrelation modulo U ist die Menge v + U = {v + u|u ∈ U }. v + U heißt die Nebenklasse von v nach U . [v]∼U = {w ∈ V |w ∼U v} = {w|w − v ∈ U } = {w ∈ V |w = v + u, u ∈ U } = v + U [v]∼U = v + U v heißt ein Vertreter (Repräsentant) der Nebenklasse v + U . 96 (iii) Eine Nebenklasse kann durch verschiedene Vertreter angegeben werden. Zwei Nebenklassen v1 + U und v2 + U sind genau dann gleich, wenn ihre Differenz in U liegt: v1 + U = v2 + U ⇔ v2 − v1 ∈ U ⇔ v1 ∼U v2 . Beweis: 1. Ist v2 − v1 ∈ U ⇒ v2 − v1 = u ⇒ v2 = v1 + u. Damit: Ist x ∈ v2 + U ⇒ x = v2 + u0 = v1 + (u + u0 ) ∈ v2 + U , weil n + n0 + U = U Ist y ∈ v1 + U ⇒ y = v1 + u0 = v2 − u + u0 = v2 + u0 − u ∈ v2 + U 2. Ist v1 + U = v2 + U ⇒ v2 = v2 + 0 ∈ v2 + U = v1 + U ⇒ v2 = v1 + u ⇒ v2 − v1 = u ∈ U . Beachte insbesondere: U + U = U = 0 + U Satz 17.19 Rechnen mit Nebenklassen v1 + U und v2 + U seien 2 Nebenklassen nach U . (i) Addition von 2 Nebenklassen: 2 Nebenklassen werden addiert, indem man ihre Vertreter addiert: (v1 + U + (v2 + U) := (v1 + v2 ) + U Diese Definition ist unabhängig von der Wahl der Vertreter (man sagt: wohldefiniert). Seien v10 ∈ v1 + U und v20 ∈ v2 + U ⇒ (v10 + U ) + (v20 + U ) = (v10 + v20 ) + U = (v1 + u1 ) + (v2 + u2 ) + U = (v1 + v2 ) + u1 + u2 + U = (v1 + v2 ) + U . (ii) Vervielfachen einer Nebenklasse: Eine Nebenklasse wird vervielfacht, indem man ihren Vertreter vervielfacht: λ(v + U) := λv + U Diese Definition ist wohldefiniert: Sei v 0 ∈ v + U ⇒ v 0 = v + u mit u ∈ U ⇒ λ(v 0 + U ) = λv 0 + U = λ(v + u) + U = λv + (λu + U ) = λv + U . 97 Satz 17.20 Faktorraum nach einem Teilraum U sei ein Teilraum eines Vektorraumes über einen Körper K. (i) Die Menge der Nebenklassen nach U eines Vektorraumes V bildet bezüglich der Addition und des Vervielfachens von Nebenklassen wieder einen Vektorraum über K. Er heißt der Faktorraum von V nach U . Symbolisch: V/U := {v + U|v ∈ V}. (ii) Ist V endlichdimensional, dann ist die Dimension des Faktorraumes die Differenz der Dimension von V und U : dim(V /U ) = dimV − dimU. Beweis: (i) Die Rechengesetze (V1 ), (V2 ), (V5 ), (V6 ), (V7 ), (V8 ) gelten, weil sie für die Repräsentanten gelten, z.B. das Assoziativgesetz: [(v1 + U ) + (v2 + U )] + (v3 + U ) = [(v1 + v2 ) + U ] + (v3 + U ) = (v1 + v2 ) + v3 + U = v1 + (v2 + v3 ) + U = (v1 + U ) + (v2 + v3 ) + U = (v1 + U ) + [(v2 + U ) + (v3 + U )] oder 1.(v1 + U ) = 1.v1 + U = v1 + U . Der Nullvektor von V /U ist die Nebenklasse U : (v + U ) + U = (v + U ) + (0 + U ) = (v + 0) + U = v + U : 0 = U. Das additive inverse Element zu v + U ist −v + U : (v + U ) + (−v + U ) = v + (−v) + U = 0 + U = U . Sei dim(V ) = n. U ist ebenfalls endlichdimensional. Sei {v1 , . . . , vk } eine Basis von U . Nach Basisergänzungssatz kann sie zu einer Basis von V ergänzt werden. V = (v1 , . . . , vk , vk+1 , . . . , vn ) Behauptung: (vk+1 + U), . . . , (vn + U) ist eine Basis von V/U. Das sind n − k Elemente, k = dim(U ), daher ist dim(V /U ) = n − k = dim(V ) − dim(U ). Sei λ1 (vk+1 + U ) + . . . + λn−k (vn + U ) = 0 = U ⇒ λ1 vk+1 + . . . + λn−k vn + U = 0 + U ⇒ λ1 vk+1 +. . .+λn−k vn ∈ U ⇒ λ1 vk+1 +. . .+λn−k vk = µ1 v1 +. . .+µk vk ⇒ µ1 v1 +. . .+µk vk −λ1 vk+1 . . . λn−k vn = 0 ⇒ λ1 = . . . = λn−k = 0 weil {v1 . . . , vn } l.u. ⇒ (vk+1 + U ) . . . (vn + U ) l.u. 98 Sei X eine beliebige Nebenklasse von V /U ⇒ X = x + U, x ∈ V ⇒ x = λ1 v1 + . . . + λn vn ⇒ X = λ1 v1 + . . . + λk vk +λk+1 vk+1 + . . . + λn vn + U ⇒ X = λk+1 vk+1 + . . . + λn vn + U = λk+1 (vk+1 + U ) + {z } | ∈U . . . + λn (vn + U ) ⇒ V /U ⊆< (vk+1 + U ), . . . , (vn + U ) >. Wegen (vk+1 + U ) . . . (vn + U ) ∈ V /U ist < (vk+1 + U ), . . . , (vn + U ) >⊆ V /U ⇒ V /U < (vk+1 + U ), . . . , (vn + U ) > . Die kanonische Projektion Durch die Nebenklassen wird V in elementfremde Klassen zerlegt: Satz 17.21 Kanonische Projektion Die kanonische Projektion π ist jene Abbildung von V auf den Faktorraum V /U , die jedem Vektor v aus V jene Nebenklassen zuordnet, in der v liegt. π : V → V /U mit π(x) = x + U . π ist eine surjektive lineare Abbildung auf V /U mit U als Kern, also: ker(π) = U und im(π) = V/U def (π) = dim(U ) und rg(π) = dim(V ) − dim(U ) π ist eine Projektion in Richtung U . Beweis: π(x + y) = x + y + U = (x + U ) + (y + U ) = π(x) + π(g) π(λx) = λx + U = λ(x + U ) = λπ(x) Sei v + U ∈ V /U beliebig ⇒ π(v) = v + U , also im(π) = V /U . Sei u ∈ U ⇒ π(u) = u + U = U = Nullvektor von V /U ⇒ U ⊆ ker(π). Sei x ∈ ker(π) ⇒ π(x) = 0 = U ⇒ x + U = U ⇒ x ∈ U ⇒ ker(π) ⊆ U . 99 Satz 17.22 Homomorphiesatz für Vektorräume f : V → W sei eine surjektive lineare Abbildung von V auf W . Dann ist W isomorph zum Faktorraum V /ker(f ). f :V →W ⇒W∼ = V/ker(f ) Auch so: Alle epimorphen Bilder von V sind gegeben durch die Faktorräume von V nach allen Teilräumen von V ! Beweis: Setzen U := ker(f ); V /U = {v + U/v ∈ V }. 1. Die Abbildung α : V /U → W sei definiert durch: α(v + U ) := f (v) Diese Definition von α ist wohldefiniert (unabhängig von der Wahl des Vertreters v): Sei v1 + U = v2 + U ⇒ v2 − v1 ∈ U = ker(f ) ⇒ f (v2 − v1 ) = 0 ⇒ f (v2 ) − f (v1 ) = 0 ⇒ f (v2 ) = f (v1 ) ⇒ α(v2 + U ) = α(v1 + U ). 2. α ist injektiv: Sei α(v1 + U ) = α(v2 + U ) ⇒ f (v1 ) = f (v2 ) ⇒ f (v1 ) − f (v2 ) = 0 ⇒ f (v1 − v2 ) = 0 ⇒ v1 − v2 ∈ ker(f ) = U ⇒ v1 + U = v 2 + U . 3. α ist surjektiv auf W : Sei w ∈ W ⇒ ∃v ∈ V : f (v) = w, weil f surjektiv ist. Für v + U ∈ V /U gilt dann: α(v + U ) = f (v) = w ⇒ jedes w ∈ W hat ein Urbild in V /U . 4. α ist linear α[(v1 + U ) + (v2 + U )] = α[(v1 + v2 ) + U ] = f (v1 + v2 ) = f (v1 ) + f (v2 ) = α(v1 + U ) + α(v2 + U ). α[λ(v + U )] = α[λv + U ] = f (λv) = λf (v) = λα(v + U ). α ist also ein Isomorphismus und damit V /U ∼ = W. 100 Zusammenfassung: Es gibt insgesamt 4 Methoden, um aus gegebenen Vektorräumen einen neuen Vektorraum zu erhalten: 1. durch Teilraumbildung: U C V 2. durch direkte Summenbildung (Produktbildung) V1 × V2 = {(v1 , v2 )|v1 ∈ V1 , v2 ∈ V2 } 3. durch homomorphe (lineare) Abbildungen: f (V ) = {f (v)|v ∈ V } 4. durch Faktorbildung nach einem Teilraum U : V /U = {v + U/v ∈ V } 101 18 Matrizen und Lineare Abbildungen In diesem Kapitel wird gezeigt, daß in endlich dimensionalen Vektorräumen lineare Abbildungen und Matrizen einander umkehrbar eindeutig entsprechen. Die Verwendung von Matrizen hat jedoch 2 Vorteile: 1. Aus der Gestalt der Matrixdarstellung kann man auf die Wirkung (die Struktur) der linearen Abbildung schließen. 2. Man kann die Bilder von Vektoren unter einer linearen Abbildung durch Multiplizieren mit einer Matrix berechnen. Das ist praktisch (besonders mit einem Computer). 18.1 Matrixdarstellungen Bisher wissen wir: Eine m × n−Matrix A induziert eine lineare Abbildung vom K n in den K m durch die Festsetzung A : Kn → Km A(~x) := A · ~x ~x ∈ K n A nennen wir die durch die Matrix A induzierte Matrixabbildung. Nun wollen wir umgekehrt beliebige lineare Abbildungen zwischen endlich–dimensionalen Vektorräumen durch Matrizen darstellen: Matrixdarstellung einer linearen Abbildung. Dies gelingt dadurch, daß man anstelle der abstrakten Vektoren x ihre Koordinatendarstellungen [x]B bezüglich einer vorgegebenen Basis B betrachtet. Sei f : V → W eine lineare Abbildung von V in W , dim(V ) = n, dim(W ) = m (auch m = n und W = V sind möglich). B = {b1 , . . . , bn } sei eine Basis von V, B 0 = {b01 , . . . , b0m } eine Basis von W . [x]B sei der Koordinatenvektor von x : [x]B ∈ K n . [f (x)]B 0 sei der Koordinatenvektor des Bildvektors f (x) : [f (x)]0B ∈ K m . V ∈x f −→ ↓ K n ∈ [xB ] f (x) ∈ W ↓ [f ]B 0 B −→ [f (x)]B 0 ∈ K m 102 [f ]B 0 B die Matrixdarstellung von f (bezüglich der Basen B 0 , B), sie möge die Lücke von K n → K m schließen, und zwar in der Weise, daß man den Koordinatenvektor [f (x)]B 0 durch einfache Multiplikation von [x]B mit der Matrixdarstellung erhält, d.h.: Ist [f ]B 0 B f11 f12 ... f1n f21 f22 . . . f2n = .. . fn+1 fn+2 . . . fmn =: A dann soll gelten: [f (x)]B 0 = [f ]B 0 B · [x]B [f (x)] = Kurz: [f ] · [x]. Dies gelingt dann, wenn man [f ] wie folgt definiert: SPALTEN von [f ] = KOORDINATEN der BILDER der BASISVEKTOREN also [f ]B 0 B := ([f (b1 )]B 0 , [f (b2 )]B 0 , . . . , [f (bn )]B 0 ). Ist [x]B = (x1 , . . . , xn ) ⇔ x = x1 b1 + . . . + xn bn , dann gilt f (x) = x1 f (b1 ) + . . . + xn f (bn ), also [f (x)]B 0 = x1 [f (b1 )]B 0 + . . . + xn [f (bn )]B 0 . Es ist dann: x1 . [f ][x] = ([f (b1 )], [f (b2 )], . . . , [f (bn )]) · .. = x1 · [f (b1 )] + . . . + xn [f (bn )] = [f (x)], xn also gilt für das so definierte [f ] : [f ] · [x] = [f (x)] Koordinaten des Bildes von x = Matrixdarstellung × Koordinaten von x Die so definierte Matrixdarstellung ist eindeutig: Wären A und B zwei solche Matrizen, also mit A · [x] = B · [x] = [f (x)]. 103 Dann gilt insbesondere für x = bi , dem i−ten Basisvektor: (wegen [bi ] = (0, . . . , 1, . . . , 0)): 0 . .. A· 1 . . . 0 | {z B· } = | 0 .. . 1 .. . 0 {z } i − te Spalte von A = i − te Spalte von B ⇒ A = B. Insgesamt: Hat man einmal Basen von V bzw. W ausgewählt, dann kann man eine lineare Abbildung f : V → W durch m · n Skalare eindeutig angeben. Satz 18.1 Matrixdarstellung einer linearen Abbildung f : V → W sei eine lineare Abbildung eines n−dimensionalen Vektorraumes V in einen m−dimensionalen Vektorraum W . B sei eine Basis von V und B 0 eine Basis von W . (i) Es gibt genau eine m × n− Matrix A =: [f ]B 0 B mit A · [x]B = [f ]B 0 B [x]B = [f (x)]B 0 [f ]B 0 ,B heißt Matrixdarstellung von f bezüglich der Basen B 0 und B. Die Spalten von [f ]B 0 ,B sind gegeben durch die Koordinaten der Bilder der Basisvektoren von V . Insbesondere ist die Matrixdarstellung eines linearen Operators f : V → V gegeben durch eine quadratische n × n−Matrix [f ]B . Also: A ist Matrixdarstellung von f: V → W bezüglich der Basen B und B 0 ⇔ [f (x)]B0 = A · [x]B . (ii) Die m × n−Matrizen und die linearen Abbildungen von f : V in W entsprechen einander umkehrbar eindeutig. (iii) Die Zuordnung f → [f ] ist verträglich mit den Rechenoperationen; d.h.: 104 [λf ] = λ[f ] [f + g] = [f ] + [g] [f ◦ g] = [f ] · [g] , wenn f ◦ g definiert [id] = In [0] = On (iv) Ist f eine invertierbare lineare Abbildung (dann ist dim(W ) = dim(V ) = n), dann gilt: [f −1 ] = [f ]−1 Spezialfall: Lineare Abbildungen vom Kn in den Km Ist A eine m×n−Matrix, dann definiert ~x → A·~x, wie wir gesehen haben, eine lineare Abbildung TA : K n → K m mit TA (~x) := A · ~x. Dabei wird ~x als Spaltenvektor aufgefaßt. Die Gleichung ~y= A~x heißt Abbildungsgleichung der Abbildung TA . 1 2 3 4 Beispiel: A = 5 8 7 2 x1 1 2 3 4 x2 x1 + 2x2 + 3x3 + 4x4 = TA (~x) = 5 8 7 2 x3 5x1 + 8x2 + 7x3 + 2x4 x4 Abbildungsgleichung von TA : K 4 → K 2 y1 = x1 + 2x2 + 3x3 + 4x4 y2 = 5x1 + 8x2 + 7x3 + 2x4 x1 1 2 3 4 x y1 2 ⇔ = y2 5 8 7 2 x3 x4 Die Matrixdarstellung von TA bezüglich der Standardbasen (auch Standarddarstellungsmatrix genannt) ist A selbst: TA (e~1 ) = A · e~1 .. . = a~1 1. Spalte von A TA (e~n ) = A · e~n = a~n n − te Spalte von A 105 Damit: [TA ]{ei },{ei } = ([TA (e~1 )] . . . [TA (e~n )]) = (a~1 . . . a~n ) = A. Die Standarddarstellungsmatrix kann direkt aus den Abbildungsgleichungen abgelesen werden. Beachte insgesamt: Ist A eine reguläre n × n−Matrix, dann kann die Gleichung ~y = A~x aufgefaßt werden als (i) die Matrixabbildung A : K n → K n mit A(~x) = A~x (ii) ein bijektiver Operator f : V → V eines n−dimensionalen Vektorraumes mit A als Matrizendarstellung von f (iii) eine Koordinatentransformation in einem n−dimensionalen Vektorraum. 1 −1 und es sei y = A · ~x. Beispiel: Gegeben sei die reguläre Matrix A = 1 2 B = {b1 , b2 } sei die alte Basis von V B 0 = {b01 , b02 } sei gegeben durch b01 = b1 + b2 b02 = −b1 + 2b2 ⇒ Übergangsmatrix |A| = 3 6= 0 A= 1 −1 1 2 Weil |A| = 6 0, ist B 0 = {b01 , b02 } wieder eine Basis vom K 2 . 1. Deutung von ~y = A~x als Basistransformation: [x]alt = C · [x]neu x1 x2 = 1 −1 1 2 x01 x02 ⇔ [x]neu = C −1 [x]alt 2 1 x01 1 = 0 3 x2 −1 1 x1 = x01 − x02 x2 = x01 + 2x02 x1 x2 ⇔ x01 = 2 3 x1 − 13 x2 x02 = − x31 + x2 3 106 2. Deutung von ~y = A~x als (bijektive) lineare Abbildung f : V 2 → V 2 : f (b1 ) = b01 Durch die Bilder der Basisvektoren ist f eindeutig bestimmt! f (b2 ) = b02 [f (b1 )]B 0 [f ]B 0 B [f (x)]B 0 1 [f (b2 )]B = −1 2 ⇒ 1 1 −1 und = 1 2 1 −1 x − x 1 2 x1 = x2 = 1 2 x + 2x = 1 2 3. Deutung von ~y = A~x als Abbildung A : K 2 → K 2 : y1 y2 = 1 −1 1 2 x1 x2 ⇔ y1 = x1 − x2 y2 = x1 + 2x2 18.2 Änderung der Matrixdarstellung bei Basiswechsel Nach Definition der Matrixdarstellung einer linearen Abbildung f : V → W ändert sich diese, wenn man in V bzw. W die Basis wechselt. Man wird daher bestrebt sein, solche Basen in V und W zu finden, daß die Matrixdarstellung von f möglichst einfach (= viele Nullen, schwachbesetzte Matrix, Diagonalmatrix, Dreiecksmatrix) wird. Bezüglich der Standardbasen läßt sich die Matrixdarstellung zwar leicht ablesen, man erhält aber nicht unbedingt die einfachste Matrix: Beispiel: Sei f : K 2 → K 2 ( es ist also W = V ) gegeben durch: f 1 1 Bezüglich der Standardbasis B = {e~1 , e~2 } gilt: [f ]B = −2 4 Bezüglich der Basis B 0 = { 11 , 12 } gilt wegen f 11 = 22 = 2 · 11 ; f 12 = 36 = 3 · 12 [f 11 ]B 0 = 20 und [f 12 ]B 0 = 03 : [f ]B0 = 20 03 . x1 x2 = x1 +x2 −2x1 +4x2 Zwei Fragen tauchen auf: (i) Wie ändert sich die Matrixdarstellung von f bei Basiswechsel? (ii) Wie erhält man “günstige” Basisvektoren? Was ist überhaupt erreichbar? 107 In diesem Kapitel beantworten wir die erste Fragestellung. Die überaus wichtige zweite Fragestellung wird in einem eigenen Kapitel (VII) behandelt. Erinnerung: Sind B und B̄ zwei Basen des n−dimensionalen Vektorraum V und P die Übergangsmatrix von B nach B̄ (= neue Basisvektoren durch alte ausdrücken), dann ist V isomorph zu K n . Einen Isomorphismus erhält man dadurch, daß man einem Vektor x ∈ V seine Koordinaten [x] zuordnet: n x → [x]B ∈ Kalt n = Vektorraum der “alten” Koordinaten Kalt n n x → [x]B̄ ∈ Kneu Kneu = Vektorraum der “neuen” Koordinaten Für die alten und neuen Koordinaten gilt nach 18.6 der Zusammenhang [x]B = P · [x]B̄ n Diese kann man nach der vorhergehenden Bemerkung auch als (bijektive) Abbildung P : Kneu → n auffassen, nämlich durch die Festsetzung: P([x] ) = P · [x] = [x] . Kalt B B̃ B̃ Ist nun f : V n → W m linear und sind B, B̄ Basen von V und B 0 , B̄ 0 , Basen von W mit den Übergangsmatrizen P bzw. Q, dann gilt für die “alte” Matrixdarstellung [f ]B 0 B = [f ]alt von f bzw. für die “neue” Matrixdarstellung [f ]B̄ 0 B̄ =: [f ]neu [f ]neu = Q−1 · [f ]alt · P. 108 Spezialfall: W = V , d.h., f ist ein linearer Operator auf V : [f ]neu = P−1 · [f ]alt · P. Beachte: Im Gegensatz zu vorhin steht links und rechts neben [f ]alt dieselbe Matrix P ! Satz 18.2 Änderung der Matrixdarstellung P sei die Übergangsmatrix von einer Basis B zu einer Basis B̄ des n−dimensionalen Vektorraumes V und Q die Übergangsmatrix von einer Basis B 0 zu einer Basis B̄ 0 des m−dimensionalen Vektorraumes W . Dann gilt für die Matrixdarstellung einer linearen Abbildung f : V → W . (i) [f ]B̃0 ,B̃ = Q−1 · [f ]B0 ,B · P ⇔ [f ]neu = Q−1 [f ]alt P. Für die Matrixdarstellung eines linearen Operators T : V → V gilt: (ii) [T]B̃ = P−1 · [T]B · P ⇔ []neu = P−1 [f ]neu · P. Beobachtung: Die neuen Matrixdarstellungen unterscheiden sich von den alten also “nur” durch Links– bzw. Rechtsmultiplikation mit zwei verschiedenen regulären Matrizen oder auch nur mit ein– und derselben Matrix Definition 18.1 Äquivalenz und Ähnlichkeit von Matrizen (i) Zwei m × n−Matrizen A, B heißen äquivalent (∼1 ), wenn es eine reguläre m × m)−Matrix Q und eine reguläre n × n−Matrix P gibt, so daß gilt: B = QAP A ∼1 B ⇔ ∃ reguläre Q, P : B = QAP 109 (ii) Zwei quadratische n × n−Matrizen A und B heißen ähnlich (∼2 ), wenn es eine reguläre n × n−Matrix P gibt, so daß B = P −1 AP A ∼2 B ⇔ ∃ regulär R : B = P−1 AP Satz 18.3 Äquivalente und ähnliche Matrixdarstellungen (i) Äquivalenz und Ähnlichkeit sind Äquivalenzrelationen in der Menge der m × n− bzw. n × n−Matrizen. (ii) A und B sind genau dann Matrixdarstellungen der linearen Abbildung f : V n → W m , wenn sie äquivalent sind. (iii) A und B sind genau dann Matrixdarstellungen eines linearen Operators T : V n → V n , wenn sie ähnlich sind. Zusammenfassung: Alle Matrixdarstellungen ein– und derselben linearen Abbildung sind untereinander äquivalent. Alle Matrixdarstellungen ein– und desselben linearen Operators sind untereinander ähnlich. Wie kann man es Matrizen ansehen, ob sie äquivalent oder ähnlich ist? Wir werden sehen: Es gibt eine Reihe von Eigenschaften, die bei Übergang zu äquivalenten oder ähnlichen Matrizen erhalten bleiben. Definition 18.2 Invariante Eigenschaften von Matrizen Eine Eigenschaft von Matrizen heißt äquivalenzinvariant (ähnlichkeitsinvariant), wenn mit einer Matrix auch jede zu ihr äquivalente (ähnliche) Matrix diese Eigenschaft besitzt. Haben damit zwei Matrizen nicht die besagte Eigenschaft, dann können sie nicht äquivalent bzw. ähnlich sein. Sie sind notwendige Bedingungen für die Äquivalenz bzw. Ähnlichkeit, aber im allgemeinen nicht hinreichend, d.h., aus der Gültigkeit der Eigenschaft kann nicht auf die Äquivalenz bzw. Ähnlichkeit geschlossen werden. 110 Satz 18.4 Äquivalenzinvarianz des Ranges Äquivalente Matrizen haben denselben Rang. Beweis: Seien A, B äquivalent ⇒ ∃ reguläre Q, P mit B = QAP ⇒ rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) = rgA. Bemerkung: 1. Später werden wir sehen, daß aus der Gleichheit des Ranges auch auf die Äquivalenz der Matrizen geschlossen werden kann, aber 2. Aus der Gleichheit des Ranges kann nicht auf die Ähnlichkeit der Matrizen geschlossen werden. 0 A=@ 1 0 0 1 1 0 A = I und B = @ 0 1 1 0 1 A haben beide Rang 2. Wäre A ∼2 B ⇒ ∃ reguläres P : B = Pn−1 AP = P −1 P = I 6= B. Ähnliche Matrizen haben nicht nur den gleichen Rang, sondern auch die gleiche Determinante: Sei B = P −1 AP ⇒ |B| = |P −1 AP | = |P −1 ||A||P | = |P |−1 |A||P | = (|P |−1 |P |)|A| == |A|. Beispiel: −1 1 2 1 1 1 2 1 1 −2 −4 ,B = = ∼2 A A= 3 4 0 1 3 4 0 1 3 7 Es ist rg(A) = 2 = rg(B), |A| = 1 · 4 − 2 · 3 = −2 = −2 · 7 + 3 · 4 = |B|. Was bleibt bei ähnlichen Matrizen noch gleich? Im obigen Beispiel sieht man: 1 + 4 = 5 = −2 + 7 = Summe der Hauptdiagonalelemente. Definition 18.3 Spur einer Matrix Unter der Spur einer quadratischen Matrix versteht man die Summe ihrer HauptdiagonaleleP mente: sp(A) := ni=1 aij . Satz 18.5 Spureigenschaften (i) sp(AB) = sp(BA) (ii) Ähnliche Matrizen haben die gleiche Spur. (iii) Die Spur eines linearen Operators ist die Spur irgendeiner Matrixdarstellung. 111 Beweis von (i): P P Sei A = (aij ) und B = (bij ). Dann ist AB = (cik ) mit cik = nj=1 aij bjk und sp(AB) = i cij = P P i j aij bji . P P P Pn Nun sei BA = (djk ) mit djk = i=1 bji aik . Dann ist sp(BA) = j djj = j i bji aij = P P i j aij bji = sp(AB). Beweis von (ii): Ist A ∼2 B ⇒ ∃P mit B = P −1 AP ⇒ sp(B) = sp(P −1 AP ) = sp(AP P −1 ) = sp(A). Zusammenfassend gilt folgender Satz 18.6 Tabelle von Ähnlichkeitsinvarianten A sei eine quadratische Matrix Invariante Beschreibung Determinante |A| = |P −1 AP | Rang rg(A) = rg(P −1 AP ) Spur sp(A) = sp(P −1 AP ) Defekt def (A) = def (P −1 AP ) Invertierbarkeit A invertierbar ⇔ P −1 AP invertierbar Diese Liste von Ähnlichkeitsinvarianten wird noch erweitert werden! Weil die Determinante eine Ähnlichkeitsinvariante ist, kann man jedem linearen Operator T : V → V eine Zahl (einen Skalar) zuordnen: Wähle irgendeine Matrixdarstellung [T ] von T und bilde det([T ]) = |[T ]|. Weil alle Matrixdarstellungen von T untereinander ähnlich sind, haben alle ihre Determinanten den gleichen Wert. Diesen bezeichnet man als die Determinante von T . Definition 18.4 Determinante eines Operators T : V → V sei ein linearer Operator eines endlich–dimensionalen Vektorraumes V . Unter der Determinante eines linearen Operators T versteht man die Determinante der Matrixdarstellung [T ] von T bezüglich irgendeiner Basis B von V . det(T ) = |T | = det([T ]B ) = |[T ]B | für irgendeine Basis B Wie für Matrizen liefert auch die Determinante eines Operators ein Invertierbarkeitskriterium. 112 Satz 18.7 Invertierbarkeitskriterium für lineare Operatoren Ein linearer Operator T eines endlich dimensionalen Vektorraumes ist genau dann invertierbar, wenn |T | = 6 0. Beweis: T : V → V invertierbar ⇔ f bijektiv ⇔ rg(f ) = n ⇔ rg([f ]) = n ⇔ |[f ]| = 6 0. Zusammenfassend erhält man folgende Liste von Invertierbarkeitskriterien: Satz 18.8 Invertierbarkeit linearer Operatoren V sei ein n−dimensionaler Vektorraum und T : V → V ein linearer Operator. ⇔ T injektiv ⇔ T surjektiv ⇔ ker(T ) = {0} ⇔ ⇔ def (T ) = 0 ⇔ rg(T ) = n ⇔ def (T ) 6= 0 113 18.3 Affine Abbildungen (Einschub) Häufig benützte Abbildungen (besonders in der Computergrafik) von der anschaulichen Ebene auf sich selbst sind: Parallelverschiebung, Parallelprojektion, Zentrische Streckung, Spiegelung, Drehung um einen Punkt M . Sie erzeugen entweder kongruente oder zumindest ähnliche Figuren der Ausgangsfigur. Was ist allen diesen Abbildungen gemeinsam? (Siehe Beispiel 1 und 2) Es gibt aber auch Vorschriften (z.B. Scherungen und Kollineationen), die nicht nur die Größe, sondern auch die Gestalt einer Figur gänzlich ändern (siehe Beispiel 3). Es sei daran erinnert, dass man die Punkte der anschaulichen Ebene sowohl als Elemente eines Vektorraumes (mit den Operationen des Aneinanderfügens nach der Parallelogrammregel und des Vervielfachens), als auch als elemente eines affinen Raumes auffassen kann. Alle oben genannten Abbildungen sind, aufgefaßt als Abbildungen eines Vektorraumes, nicht linear, denn das Bild des Nullvektors 0 ist i.a. verschieden von 0. f (0) = 0 war aber eine notwendige Bedingung für die Linearität einer Abbildung f . Eine Ausnahme bilden die Drehungen um 0 selbst. Sie stehen aber mit linearen Abbildungen in einem engen Zusammenhang: Jede Punktabbildung“ α : IR2 → IR2 mit α(P ) = P ∗ induziert“ eine Vektorabbildung“ ” ” ” α durch folgende Fortsetzung: Sei ~u ein geometrischer“ Vektor mit Anfangspunkt P und Endpunkt Q, also ~u = P~Q, dann sei ” ~ α(~u) := α(P~Q) = α(P~ )α(Q). Die folgenden Abbildungen illustrieren diese von der Abbildung α induzierte Abbildung α. 114 Parallelprojektion in Richtung ~v : ~ ~a = AD −−−−−−−→ α(~a) := α(A)α(D) α(~a + ~b) = α(~a) + α(~b) ⇒ α linear ⇒ α affin α(λ · ~a) = λ · α(~a) parallel bleibt parallel Teilverhältnis invariant Gerade bleibt Gerade 115 α: Zentrische Punktstreckung um Z mit Streckungsfaktor k = 2 α : IR2 → IR2 (IR2 affiner Punktraum) α(P + Q) 6= α(P ) + α(Q) ⇒ α nicht linear (IR2 als Vektorraum) α induziert“ eine Abbildung f : IR2 → IR2 vom Vektorraum IR2 auf sich selbst: ” ~ ein Vektor aus IR2 mit Anfangspunkt A und Endpunkt B. Sei ~x = AB Die durch die Abbildung α induzierte Abbildung f ist definiert durch: −−−−−−→ ~ := − f (~x) = f (AB) α(A)α(B) Es gilt: f (~a + ~b) = f (~a) + f (~b) ⇒ f ist linear ⇒ α ist eine lineare Abbildung f (λ · ~a) = λ · f (~a) 116 Scherung Parallelogramm bleibt Parallelogramm Winkel verändert, Größe verändert 117 α: Kollineation 118 Verallgemeinerung auf abstrakte Vektorräume und affine Räume Gegeben sei ein Vektorraum V über dem Körper K. U ,W seien zwei Teilräume von V (U, W / V ). A und B seien zwei affine Räume in V mit Richtung U bzw. W , P sei ein Punkt von A mit ~ , Q ein Punkte von B mit Ortsvektor q = OQ, ~ also Ortsvektor p = OP A = p + U und B = q + W . (Es kann auch A = B und B = A = V sein!) α sei eine Abbildung vom affinen Raum A auf den affinen Raum B. Ist X ein Punkt von A mit Ortsvektor X dann ist x = p + u ⇔ u = x − p = P~X. Mit α kann durch die Festsetzung −−−−−−−→ α(u) = α(P~X) := α(P )α(X) ∈ W α(x − p) = α(x) − α(p) ∈ W eine Abbildung von der Richtung U auf die Richtung W definiert werden. α heißt die von der Abbildung α induzierte Abbildung der Differenzräume. Definition 18.5 : Eine Abbildung α : A → B heißt affin, wenn die durch α induzierte Abbildung der Differenzräume eine lineare Abbildung ist. Geometrische Beispiele: Die vorhergehenden Beispiele zeigen: Parallelprojektionen, Scherungen, Parallelverschiebungen, Drehungen, Zentrische Streckungen, Schubspiegelungen sind affine Abbildungen. Kollineationen sind keine affinen Abbildungen. 119 Beobachtung: Affine Abbildungen können die (i) Größe und Gestalt von Figuren invariant lassen (Kongruenzabbildungen: Drehungen, Parallelverschiebungen ...) (ii) Größe verändern und die Gestalt invariant lassen (Ähnlichkeitsabbildungen: Zentrische Streckung, Schubspiegelung) (iii) Größe und Gestalt verändern (Scherungen) ein arithmetisches Beispiel: K sei ein Körper A = K n , B = K m (Beachte: Jeder Vektorraum ist auch ein affiner Raum) C ∈ K m·n , d~ ∈ K m α : K n → K m mit α(~x) := C~x + d~ Sei: ~x = p~ + u ⇔ u = ~x − p~. Die von α induzierte Abbildung α ist definiert durch: −−−−−−→ α(u) : = α(~x − p~) = α(~ p)α(~x) = α(~x) − α(~ p) = ~ = C~x − C~ = C~x + d~ − (C~ p + d) p = C(~x − p~) = Cu Also: α(u) = C · u, das ist eine lineare Abbildung, also ist α eine affine Abbildung. α selst ist für d~ 6= ~0 nicht linear: α(~0) = C · ~0 + d~ = d~ 6= ~0 Später werden wir sehen, dass sich jede affine Abbildung so darstellen lässt. 2 triviale Beispiele: (a) Die identische Abbildung ist eine affine Abbildung: id : A → A, A = p + U, x ∈ A ⇔ x = p + u ⇔ u = x − p −−−−−−−→ idA (x) = x ⇒ id(u) = id(P~X) = id(p)id(x) = px ~ = x − p = u ⇔ id(~u) = id(u) ∀u ∈ U ⇒ id = idu ⇒ id linear ⇒ idA ist affin. (b) Die konstante Abbildung ist eine affine Abbildung: α : A → B, C ∈ B, x ∈ A α(u) := c −−−−−−−→ α(u) = α(P~X) = α(P )α(X) = c − c = 0 ∀u ∈ U ⇒ α = 0 (Nullabbildung) ⇒ α linear ⇒ α affin. 120 (c) Jede lineare Abbildung ist affine, aber nicht umgekehrt: α : V → W V, W sind auch affine Räume mit Richtung V bzw. W . α sei linear. −−−−−−−→ α(u) = α(P~X) = α(P )α(X) = α(x) − α(p) = α(x − p) = α(u) ∀u ∈ V ⇒ α = α ⇒ α linear ⇒ α affin. Affine Abbildungen zwischen affinen Räumen sind also solche Abbildungen, die lineare Abbildungen zwischen den Differenzenräumen hervorrufen. Umgekehrt ist durch die Vorgabe einer linearen Abbildung und das Bild eines Punktes eine affine Abbildung eindeutig festgelegt. Satz 18.9 A und B seien zwei affine Räume mit Richtungen (Differenzenräume) U bzw. W . f sei eine lineare Abbildung von U nach W und P ∈ A und Q ∈ B mit Ortsvektor q. Sei X ∈ A mit Ortsvektor x ⇔ x = p + u ⇔ u = x − p ∈ U . Es gibt genau eine affine Abbildung α : A → B mit α(p) = q und f als induzierte lineare Abbildung, nämlich: α(x) = f (x − p) + q = f (x − p) + α(p) Kurz: Affine Abbildung = Lineare Abbildung + entsprechendes Punktepaar Beweis: 1. Dieses α bildet p auf q ab: α(p) = f (p − p) + q = f (0) + q = 0 + q = q. 2. Die von α induzierte Abbildung α ist f : α(u) = α(x − p) = α(x) − α(p) = α(x) − q = f (x − p) = f (u) ∀u ⇒ α = f . 3. α ist eindeutig bestimmt: Seien α1 , α2 zwei solche“ Abbildungen ⇒ α1 (x) − q = α1 (x) − α1 (p) = f (x − p) = α2 (x) − α2 (p) = ” α2 (x) − q ⇒ α1 (x) = α2 (x) ∀x ∈ A ⇒ α1 = α2 . Nun ist in einem n−dimensionalen Raum eine lineare Abbildung durch die Bilder von n l.u. Vektoren eindeutig bestimmt (siehe 17.10). Nach dem vorhin Gesagten ist daher eine affine Abbildung auf einem n−dimensionalen affinen Raum durch die Bilder von n + 1 Punkten P0 , . . . , Pn in allgemeiner Lage d.h., P0~P1 , . . . , P0~Pn l.u. eindeutig festgelegt. Das heißt z.B. für die Ebene: Kennt man die Bilder von 3 Punkten in allgemeiner Lage, so kennt man die Bilder aller Punkte! 121 Beispiel: Bestimme eine Vektorgleichung jener affinen“ Abbildung α : K 3 → K 4 , die durch ” folgende Punktepaare“ gegeben ist: ” P0 (1, 0, 0) → Q0 (−1, −1, 3, −2) P1 (1, 1, 0) → Q1 (−1, 0, −2, 0) P2 (1, 1, 1) → Q2 (1, −1, 2, −3) P3 (0, 1, 1) → Q3 (0, 1, −1, −2) Ist x ∈ K 3 = p + u α(x) = f (|{z} u ) + α(p) → α(p0 ) = (−1, −1, 3, −2) |{z} x−p =q α(~x) = t(~x − p~) + α(~ p) Nur mehr notwendig: λ1 , λ2 , λ3 u1 0 0 u2 = λ1 1 + λ2 1 u3 0 1 0 0 −1 u1 1 1 1 u2 0 1 1 u3 1 1 1 u2 0 0 −1 u1 0 1 1 u3 1 1 1 u2 0 1 1 u3 0 0 −1 u1 1 1 0 u1 + u2 0 1 0 u1 + u3 0 0 +1 −u1 1 0 0 u2 − u3 = λ1 0 1 0 u1 + u3 = λ2 0 0 1 −u1 = λ3 −1 + λ3 1 1 0 1 + (u1 + u3 ) f u2 = (u2 − u3 ) −5 u3 2 u1 2 LGS in λ1 , λ2 , λ3 1 u1 + 2u3 2 −2u1 + u2 − u3 0 = − u1 −1 −4 3u1 − 5u2 + 4u3 0 u1 + 2u2 − 3u3 −1 122 x=p+u u 1 x1 1 x2 = 0 + u2 u3 0 x3 x x −1 = 1 1 α x2 = f x2 = x3 x3 = 1 0 2 −2 1 −1 = 3 −5 4 1 2 −3 u1 = x1 − 1 =⇒ u2 = x2 u3 = x3 −1 x1 − 1 + 2x3 − 1 u1 −1 −2x1 + 2 + x2 − x3 − 1 + u2 = 3 3(x1 − 1) − 5x2 + 4x3 + 3 u3 −2 x1 − 1 + 2x3 − 3x3 − 2 −2 x 1 1 · x + 2 0 x3 −3 = Geometrische Charakterisierung von affinen Abbildungen 1. Eine affine Abbildung α ist Unterraum-treu“ (Unterräume werden auf Unterräume ab” gebildet!) Eigenschaft, Unterraum zu sein, ist eine Invariante von affinen Abbildungen. Kurz: Ebene bleibt Ebene bzw. Gerade bleibt Gerade (bzw. Degeneration auf einen Punkt!) Kollineare Punkte werden auf kollineare Punkte abgebildet. Beweis: A = {x|x = p + U }, α : A → B = {x|x = q + W }, U, W / V α(A) = {y|y = α(x)} = {y|y = α(p) +f (U )} |{z} ∈B Das ist eine Punktmenge der Form: {q + Teilraum von W }, also ein affiner Unterraum von B. 2. Eine affine Abbildung is parallelentreu. D.h.: A1 ||A2 ⇒ α(A1 )||α(A2 ) Beweis (im KV): α(A) = {y|y = α(p) + f (U )}, parallel heißt U1 ⊆ U2 oder U2 ⊆ U1 3. Eine injektive affine Abbildung ist teilverhältnistreu. D.h. ist λ = T V (a, x, b) ⇒ λ = T V (αa, αx, αb) für a 6= x 6= b Beweis: Es ist αa 6= αx 6= αb. Ist λ = T V (a, x, b) ⇔ x − a = λ(b − x) ⇒ αx − αa = f (x − a) = f (λ(b − x)) = λf (b − x) = λ(αb − αx) ⇒ T V (αa, αx, αb) = λ. Insbesondere: Mittelpunkt bleibt Mittelpunkt. 123 Es gilt auch die Umkehrung: Eine Abbildung α : A → B, die kollineare Punkte auf kollineare Punkte abbildet und dabei das Teilverhältnis invariant läßt, muss eine affine Abbildung sein! Satz 18.10 Eine Abbildung ist genau dann affin, wenn sie Geraden auf Geraden abbildet und teilverhältnistreu ist. Affine Abbildungen sind sehr verwandt zu linearen Abbildungen: (i) α bijektiv ⇔ die von α induzierte lineare Abbildung α ist bijektiv. (ii) Die inverse Abbildung einer bijektiven affinen Abbildung ist wieder affin. (iii) Die Hintereinanderausführung von affinen Abbildungen ist wieder affin. (iv) Die identische Abbildung ist eine affine Abbildung. Satz 18.11 Definition und Satz Eine Affinität ist eine bijektive affine Abbildung. Die Affinitäten eines affinen Raumes auf sich selbst bilden eine nichtabelsche Gruppe. Definition 18.6 Eine Affinität α : A → A heißt Translation, wenn die induzierte lineare Abbildung die identische Abbildung ist. Formel“ für Translation: V sei ein Vektorraum über K und U / V . ” A = {x|x = p ∗ u, u ∈ U } α(u) = α(x − p) := α(x) − α(p) | {z } id(~ x−~ p)=~ x−~ p ⇒ x − p = α(x) − α(p) α(x) = x + α(p) − p | {z } =:~v α(x) = x + v (i) Translationen sind bijektiv, weil idA bijektiv! (ii) idA ist Translation (iii) Inverse einer Translation ist wieder eine Translation, weil id−1 A = idA . (iv) Zusammensetzung von Translationen ist wieder Translation, weil idA ◦ idA = idA 124 Satz 18.12 Die Translationen bilden eine abelsche Untergruppe in der Gruppe aller Affinitäten eines affinen Raumes. Affine Geometrie (= Menge aller Sätze, die die Inzidenz betreffen) kann aufgefaßt werden als Menge aller jener Eigenschaften, die bezüglich der Affinitäten invariant bleiben. (FELIX) KLEIN’sche Erlanger Programm (1905): Geometrie ordnen nach Invarianten gewisser Abbildungsgruppen. Affine Geometrie = ˆ Invarianten gegenüber der Affinitätsgruppe. Euklidsche Geometrie = ˆ Invarianten gegenüber der Bewegungsgruppe (Kongruenzabbildungen) Projektive Geometrie = ˆ Invarianten gegenüber der Gruppe der projektiven Abbildungen. Matrixdarstellung von affinen Abbildungen Wir beschränken uns auf affine Abbildungen α : A → A eines affinen Raumes A in sich. Es sei dim A = n. U sei die richtung von A (der Differenzenraum) also A = p + U . Dann ist auch dim U = n. Da die affinen Abbildungen in sehr enger Beziehung zu den linearen Abbildungen der Differenzenräume stehen, wird man erwarten, dass man auch affinen Abbildungen durch Matrizen beschreiben wird können. Um zu diesen Matrizen zu kommen, muss man in A ein Koordinatensystem einführen. Dann kann man die Punkte“ des affinen Raumes durch n−Tupel und die affine Abbildung als eine ” Abbildung zwischen diesen n−Tupeln beschrieben. Sei S = (P0 , P1 , . . . , Pn ) ein Koordinatensystem von A. Dann sind die Vektoren u1 := P0~P1 , . . . , un := P0~Pn l.u., also eine Basis B = {u1 , . . . , un } der Richtung U : U =< u1 , . . . , un >. −−−−−−−→ Ist α affin, dann ist α : U → U mit α(u) = α(P~X) = α(P )α(X) eine lineare Abbildung von U in U . Daher gibt es nach 8.1 (??) genau eine (n × n)−Matrix C ∈ K n·n mit [α(u)]B = C · [u]B ∀u ∈ U Damit erhält man mit x = p + u ⇔ u = x − p h i h−−−−−−−→i [α(u)]B = α(P~X) = α(P )α(X) = [α(X) − α(P )]S = B B = [α(x)]S − [α(p)]S = C · [u]B = C · [x − p]B = C · [x]S − C · [p]S 125 Aus den unterstrichenen Teilen erkennt man [α(X)]S = C · [X] + [α(P )] − C · [P ] = C · [X]S + ~c | {z } =: ~c ∈ K n·n Damit: Bezüglich eines Koordinatensystems S läßt sich eine affine Abbildung α : A → A durch eine (n × n)−Matrix und ein n−Tupel beschreiben (durch ein Matrix-Vektor Paar). Umgekehrt ist jede so beschriebene Abbildung affin. α : A → A ist affin ⇔ [α(X)] = C · [X] + ~c mit ~c = [α(P )] − C · [P ] C ist dabei die Matrixdarstellung von der durch die von α induzierten linearen Abbildung bezüglich BS . x01 . α : A → A ist affin ↔ .. = 0 xn c11 .. . ··· cn1 · · · c1n x1 .. .. . . + cnn xn c1 .. . cn α ist bijektiv ⇔ α bijektiv ⇔ C invertierbar ⇔ |C| = 6 0. Satz 18.13 (Matrixdarstellung von affinen Abbildungen) Eine Abbildung α : A → A eines n−dimensionalen affinen Raumes ist genau dann affin, wenn sie sich bezüglich eines Koordinatensystems S durch ein Matrix-Vektorpaar beschreiben lässt, d.h., wenn es eine (n × n)−Matrix C und ein n−Tupel ~c gibt, mit: [α(X)]S = C · [X]S + ~c α ist genau dann eine Affinität (reguläre affine Abbildung), wenn |C| = 6 0. Ist ~c = ~0, dann ist α eine lineare Abbildung. So ein Matrix-Vektorpaar ~y = C · ~x + ~c mit |C| 6= 0 kann aber auch als Beschreibung einer affinen Koordinatentransformation angesehen werden: Ein Wechsel des Koordinatensystems in A ruft auch einen Wechsel der Koordinaten eines Punktes X ∈ A hervor. S = (P0 , P1 , . . . , Pn ) altes“ Koordinatensystem ” 0 0 0 0 S = (P0 , P1 , . . . , Pn ) neues“ Koordinatensystem ” [X]S . . . alte“ Koordinaten des Punktes X ” [X]0S . . . neue“ Koordinaten des Punktes X. ” 126 Die neuen Punkte P00 , . . . , Pn0 lassen sich eindeutig durch die alten ausdrücken. P0 + Pn Pj0 = P00 + Pn P00 = ~ i=1 ti P0 Pi ~ i=1 tij P0 Pi P0 + Pn − p0 ) = P00 + Pn − p0 ) j = 1, . . . , n = i=1 ti (pi i=1 tij (pi ~ := (ty , . . . , tn )t ; A T := (tij ) Beachte: T ist schon transponiert definiert! Nun ist S 0 = (P00 , P10 , . . . , Pn0 ) genau dann ein Koordinatensystem, wenn o n P0~0 P10 , . . . , P00~Pn0 l.u. ist, also genau dann, wenn obiges T regulär ist, also |T | = 6 0 ist. Nach Rechnung ergibt sich für die alten und neuen Koordinaten des Punktes X: [X]S = T · [X]S 0 + ~t Kurz: alte Koordinaten = Transformationsmatrix · neue Koordinaten. Dabei drückt T die neuen Punkte durch die alten Punkte aus. Weil T regulär ist, existiert T −1 und man kann auch die neuen Koordinaten durch die alten ausdrücken: [X]S − ~t = T · [X]S 0 ⇒ [X]S0 = T−1 · ([X]S − t) = T−1 [X]S − T−1 t Zusammenfassung: (a) Ein Matrix-Vektorpaar (C, ~c) mit einer regulären (n×n)−Matrix C und ~y = C·~x+~c,|C| = 6 0 kann man auffassen als Beschreibung einer (i) affinen Koordinatentransformation in einem n−dimenstionalen affinen Raum A. Dann sind ~y und ~x Koordinatenvektoren ein und desselben Vektors bezüglich zweier Koordinatensysteme. (i) regulären affinen Abbildungen von einem affinen Raum A in sich selbst. Dann sind ~y und ~x die Koordinatenvektoren zweier Punkte (Urbild und Bild) bezüglich eines Koordinatensystems. (b) Eine reguläre Matrix C allein und ~y = C~x kann man auffassen als Beschreibung einer (ii) Basistransformation in einem n−dimenstionalen Vektorraum V . Dann sind ~y und ~x Komponenten ein und desselben Vektors bezüglich zweier Basen oder (ii) bijektiven linearen Abbildung (Automorphismus) f : V → V . Dann sind ~y und ~x die Komponenten zweier Vektoren (Bild und Urbild) bezüglich einer Basis. 127 Deutung als Abbildung f : K 2 → K 2 0 0 Deutung als Basiswechsel B = {b 1 , b2 } → {b1 , b2 } 1 −1 C= 1 2 128 Beispiel 1: Gegeben sei die reguläre Matrix C = 1 −1 1 2 : ~y = C · ~x B = {b1 , b2 } sei die alte Basis von V B 0 = {b01 , b02 } sei gegeben durch (∗) b01 = b1 + b2 b02 = −b1 + 2b2 Übergangsmatrix ⇒ C= |C| = 3 6= 0 1 −1 1 2 Weil |C| = 6 0, ist B 0 = {b01 , b02 } wieder eine Basis vom K 2 . 1. Deutung von (∗) als Basistransformation: [X]alt = C [X]neu x1 1 −1 x01 x = x01 − x02 = ⇔ 1 x2 1 2 x02 x2 = x01 + 2x02 [X]neu = C −1 [X]alt 0 2 1 x x0 = 23 x1 − 13 x2 x 1 ⇔ 1 1 = 1 3 x02 = − x31 + x32 −1 1 x2 x02 2. Deutung von (∗) als (bijektive) lineare Abbilfung f : V 2 → V 2 : Durch die Bilder der Basisvektoren f (b1 ) = b01 f (b2 ) = b02 [f (b1 )]B 0 = [f ]B 0 B = [f (x)]B 0 = ist f eindeutig bestimmt! 1 1 [f (b2 )] B0 1 −1 1 2 1 −1 1 2 = −1 2 ⇒ und x1 x2 = x1 − x2 x1 + 2x2 129 19 Eigenwerte und Eigenvektoren In diesem Kapitel untersuchen wir im Anschauungsraum Vektoren, deren Richtung unter einer linearen Abbildung nicht verändert wird. Wie alle invarianten Größen spielen sie für die Theorie und die Anwendungen eine bedeutende Rolle. Ohne Übertreibung kann man sagen, daß ohne diese invarianten Vektoren ein weiterer Ausbau der Linearen Algebra nicht möglich ist. Wieder verallgemeinern wir die anschauliche Invarianz der Richtung auf abstrakte Vektorräume. 19.1 Grundlegende Eigenschaften Bildvektor und Urbildvektor eines linearen Operator T : V → V stehen normalerweise in keiner geometrischen Beziehung zueinander. Oft gibt es jedoch Vektoren, die mit ihrem Bildvektor kollinear, also nur skalare Vielfache voneinander sind. Gerade sie erweisen sich als nützlich bei der Beschreibung von Schwingungen, chemischen Reaktionen, genetischen und ökonomischen Vorgängen. Besonders bedeutsam sind sie für die Vereinfachung von Beschreibungen von Punktmengen in der Geometrie und für die Vereinfachung von Matrixdarstellungen bzw. von Matrizen. Definition 19.1 1. Abbildungstheoretische Formulierung: V sei ein Vektorraum über K und T : V → V ein linearer Operator auf V . (i) Ein Eigenvektor (eigenvector, EV) des linearen Operators T ist ein vom Nullvektor verschiedener Vektor x ∈ V , dessen Bild T (x) ein skalares Vielfaches vom Urbild x ist. Symbolisch: x EV von T ⇔ x 6= 0 ∧ ∃λ ∈ K : T(x) = λx Dabei heißt der Skalar λ der zum Eigenvektor x gehörige Eigenwert von T . (ii) Ein Eigenwert (eigenvalue, EW) des linearen Operators T ist ein Skalar λ, zu dem es einen vom Nullvektor verschiedenen Vektor x gibt, dessen Bild T (x) gerade das λ−fache 130 von x ist. λ EW von T ⇔ ∃x 6= 0 : T(x) = λx Dabei heißt der Vektor x ein zum EW λ gehöriger Eigenvektor von T . (iii) Der Eigenraum EλT von T zum EW λ ist die Menge aller Eigenvektoren von T zum Eigenwert λ, zu der noch der Nullvektor 0 hinzugenommen wird. Damit ist der Eigenraum EλT ein Teilraum von V . 2. Matrizentheoretische Formulierung: A sei eine quadratische n × n− Matrix über dem Körper K. (iv) Ein Eigenvektor x̃ von A ist ein n−Tupel ~x 6= ~0, zu dem es einen Skalar λ ∈ K gibt, mit A~x = λ~x. λ heißt der zum Eigenwert ~x gehörige Eigenwert von A. Symbolisch: λ EW von A ⇔ ∃x̃ 6= 0̃ : Ax̃ = λx̃ x̃ EV von A ⇔ x̃ 6= 0̃ ∧ ∃λ ∈ K : Ax̃ = λx̃. (v) Der Eigenraum EλA von A zum EW λ ist die Menge aller Eigenvektoren A zum EW λ von A einschließlich des Nullvektors ~0. Beachte: EV und EW sind nur für lineare Operatoren bzw. nur für quadratische Matrizen erklärt. EV und EW von Matrizen sind zugleich die EV und EW des von der Matrix A induzierten linearen Operators TA : K n → K n mit TA (~x) = A~x. Geometrische Deutung: Im IR2 bzw. IR3 sind die EV von T jene Vektoren, die durch T gestreckt bzw. gestaucht werden, eventuell mit einer Orientierungsumkehr. Die EW entsprechen den Streckungs-(Stauchungs-)faktoren. Beispiel: ~x = 1 A~x = ~x = 3 0 8 −1 2 ist EV zum EW λ = 3 von A = 1 2 = 3 6 =3· 1 2 3 0 8 −1 , denn = 3 · ~x 1 1ist kein EV von A, denn 3 0 1 = 3 6= λ · 1 . A~x = 1 7 2 8 −1 Beispiel: T : P1 → P1 mit T (c0 + c1 x) = (c0 − 2c1 ) + (c0 + 4c1 )X p(x) = −2 + x ist EV zum EW λ = 2 von T , denn T (−2 + x) = −4 + 2x = 2 · (−2 + x). 131 Wie erhält man alle EW und EV eines Operators T ? a) Berechnung von EW und EV von n × n−Matrizen A: A~x = λ~x ⇔ A~x − λ~x = ~0 ⇔ A~x = λIn ~x = ~0 ⇔ (A − λIn )~x = ~0 (25) Der Eigenvektor ~x ist also eine nichttriviale Lösung des homogenen, quadratischen Gleichungssystem (A − λIn )~x = ~0, nach der Fredholm’schen Alternative muß daher |A − λIn | = 0 gelten. λ EW zum EV ~x von A ⇔ |A − λIn | = 0 Was ist |A − λIn |? Für (2 × 2)−Matrizen gilt: a11 − λ a12 = λ2 − (a11 + a22 ) · λ + (a11 a22 − a12 a21 ) = |A − λI2 | = a21 a22 − λ = λ2 − sp(A) · λ + |A| |A − λI2 | ist also ein Polynom 2. Grades in λ. Allgemein ist die Determinante a11 − λ |A − λIn | = a22 − λ ann − λ = (−1)n λn − sp(A) · λ + . . . + |A| =: pA (λ) ein Polynom n−ten Grades in λ. In der folgenden Definition verwenden wir X statt λ: Definition 19.2 (i) Das charakteristische Polynom der n×n−Matrix A ist das Polynom n−ten Grades in X, definiert durch pA (X) := |A − XIn |. Die Gleichung |A − XIn | = 0 heißt charakteristische Gleichung von A. (ii) Das charakteristische Polynom pT (X) eines Operators T : V → V ist das charakteristische Polynom irgendeiner Matrixdarstellung von T . pT (X) := |[T] − XIn | = p[T] (X) 132 Die Definition (ii) ist wegen des folgendes Satzes möglich: Satz 19.1 Ähnliche Matrizen besitzen dasselbe charakteristische Polynom. Beweis: Ist B ∼2 A ⇒ ∃ ein reguläres P : B = P −1 AP ⇒ pB (X) = |B − XIn | = |P −1 AP − P −1 XIn P | = |P −1 (A − XIn )P | = |P |−1 |A − XIn ||P | = |P |−1 · |P | · |A − XIn | = |A − XIn | = pA (X). Spur und Determinante einer Matrix treten als Koeffizienten im charakteristischen Polynom auf: Satz 19.2 Koeffizienten des charakteristischen Polynoms pA (X) = (−1)n X n − sp(A) · X n−1 + . . . + |A|. Bemerkung: Manchmal ist pA (X) definiert als |XIn − A|, es ändern sich dadurch aber nur Vorzeichen. Die Äquivalenzkette (25) liefert folgenden Satz: Satz 19.3 Charakterisierung von EW und EV einer Matrix A (i) Die EW λ der Matrix A sind genau die Nullstellen ihres charakteristischen Polynoms. λ EW von A ⇔ pA (λ) = 0 (ii) Die EV ~x von A zum EW λ sind genau die nichttrivialen Lösungen des homogenen Systems (A − λIn )x̃ = 0̃. (iii) Der Eigenraum EλA zum EW λ der Matrix A ist der Nullraum der Matrix A − λIn . EA λ = N(A − λIn ) = ker(A − λIn ) Damit dim Eλ = def (A − λIn ) b) Berechnung von EW und EV von linearen Operatoren T : V → V, dim(V) = n T (x) = λx ⇔ T (x) − λx = 0 ⇔ T (x) − λid(x) = 0 ⇔ (T − λid)(x) = 0 (26) Ist [T ]B die Matrixdarstellung von T zur Basis B ⇒ [T (x)]B = [T ]B [x]B , also λ EW von T ⇔ T (x) = λx ⇔ [T (x)]B = [λx]B ⇔ [T ]B [x]B = λ[x]B (27) 133 also: λ EW von T ⇔ λ EW von [T ]B ⇔ λ Nullstelle von p[T ] (X). Da nach 18.3 alle Matrixdarstellungen untereinander ähnlich sind und ähnliche Matrizen dasselbe charakteristische Polynom besitzen, genügt es zur Bestimmung der EW von T , irgendeine Matrixdarstellung zu wählen. x EV von T zum EW λ ⇔ T (x) = λx ⇔ [T ]B [x]B = λ[x]B ⇔ [x]B ist EV zum EW λ der Darstellungsmatrix [T ]B . Zusammenfassend ergibt sich Satz 19.4 Charakterisierung von EW und EV eines linearen Operators T (i) Die EW eines linearen Operators T : V → V eines n−dimensionalen Vektorraumes sind genau die Nullstellen des charakteristischen Polynoms irgendeiner Matrixdarstellung [T ]. (ii) Die EV von T : V → V zum EW λ sind genau jene Vektoren x, deren Koordinatenvektor [x]B bezüglich einer Basis B von V EV der Darstellungsmatrix [T ]B zum EW λ sind. (iii) Der Eigenraum EλT zum EW λ des Operator T ist der Kern von T − λid. ET λ = ker(T − λid) Damit: dim ET λ = def (T − λid) Insgesamt ergibt sich folgender Algorithmus zur Berechnung der EW und EV: Schritt 1: Berechne irgendeine Matrixdarstellung [T ] von T Schritt 2: Berechne die Nullstellen des charakteristischen Polynoms p[T ] (X) : p[T ] (X) = 0 Das ist ein Polynom n−ten Grades, für große n ist die Berechnung fast hoffnungslos. Man verwendet geeignete Approximationsverfahren (→ Numerische lineare Algebra) Schritt 3: Zu jeder Nullstelle λ löse das homogene LGS: ([T ] − λIn )~x = ~0 Bemerkung: Eine n × n−Matrix A bzw. ein linearer Operator eines n−dimensionalen Vektorraumes hat höchstens n EW und höchstens n l.u. EV. Bemerkung: Die EW können komplex sein, auch von reellen Matrizen. Dann können sie auch komplexe EV besitzen (deshalb benötigt man eine Theorie komplexer Vektorräume). Eine komplexe n × n−Matrix hat nach dem Fundamentalsatz der Algebra stets n EW. 134 Satz 19.5 Ähnlichkeitsinvarianz von EW Das charakteristische Polynom, die Eigenwerte und die Eigenraumdimension von Matrizen sind Ähnlichkeitsinvarianten, d.h., ist B ∼2 A, dann gilt (i) pB (X) = pA (X) (ii) λ ist EW von A ⇔ λ ist EW von B (iii) dim EλA = dim EλB Beweis von (ii) und (iii): (ii) λ ist EW von A ⇔ pA (λ) = 0 ⇔ pB (λ) = 0 ⇔ λ ist EW von B (iii) dim EλB = def (B − λIn ) = n − rg(B − λIn ) = n − rg(p−1 (A − λIn ) = n − rg(A − λIn ) = def (A − λIn ) = dim EλA . Zusammenfassung der bisherigen Ähnlichkeitsinvarianten: Tabelle der Ähnlichkeitsinvarianten Invariante Beschreibung Determinante det A = det(P −1 AP ) Invertierbarkeit A invertierbar ⇔ P −1 AP invertierbar Rang rg(A) = rg(P −1 AP ) Defekt def (A) = def (P −1 AP ) Spur sp(A) = sp(P −1 AP ) Charakteristisches Polynom det(A − XI) = det(P −1 AP − XI) Eigenwerte λ EW von A ⇔ λ EW von P −1 AP Eigenraumdimension dim(EλA ) = dim(EλP −1 AP ) 135 Satz 19.6 Eigenwert und Invertierbarkeit (i) Eine quadratische Matrix ist genau dann invertierbar, wenn 0 kein EW von A ist. (ii) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist genau dann invertierbar, wenn 0 kein EW von T ist. Beweis: (i) A invertierbar ⇔ |A| 6= 0. Sei λ EW von A ⇒ pA (λ) = (−1)n λn + . . . + |A| = 0. Wäre λ = 0 EW von A ⇒ pA (0) = |A| = 0 ⇒ A nicht invertierbar. (ii) T invertierbar ⇔ [T ]B invertierbar für irgendeine Basis B (Invertierbarkeit ist eine Ähnlichkeitsinvariante) ⇔ 0 ist kein EW von [T ]B ⇔ 0 ist kein EW von T . Zusammenfassung der bisherigen Invertierbarkeitskriterien: Tabelle der wichtigsten Invertierbarkeitskriterien Die quadratische Der lineare Operator T eines n × n−Matrix A n−dimensionalen Vektorraumes ist genau dann invertierbar, wenn gilt det(A) 6= 0 det(T ) 6= 0 rg(A) = n rg(T ) = n def (A) = 0 def (T ) = 0 λ = 0 ist kein EW von A λ = 0 ist kein EW von T A~x = ~0 ist nur trivial lösbar ker(T ) = {0} A~x = ~b ist für alle ~b T (v) = w ist für alle w eindeutig lösbar eindeutig lösbar A∗ A ist invertierbar T ist injektiv Spaltenvektoren von A sind l.u. T ist surjektiv Zeilenvektoren von A sind l.u. 136 19.2 Minimalpolynom einer Matrix Neben dem charakteristischen Polynom spielt das Minimalpolynom einer Matrix eine wichtige Rolle, besonders für das Vereinfachen von Matrizen. Beide stehen in einem engen Zusammenhang zueinander. Grundlage ist der folgende Satz: Satz 19.7 von CAYLEY–HAMILTON Jede quadratische n × n−Matrix A ist Nullstelle ihres charakteristischen Polynoms: pA (A) = 0 1−X 2 1 2 Beispiel: A = 3 2 pA (X) = 3 2−X 2 2 X ↔ A, X ↔ A , 4 ↔ 4In A2 − 3A − 4E = 97 106 − 3 13 22 − 4 10 01 = 00 = X 2 − 3X − 4 0 0 Beweis: pA (X) = |A − XIn | = (−1)n X n + an−1 X n−1 + . . . + a1 X + a0 Die Elemente der Adjungierten (A − XIn )adj sind Kofaktoren von A − XIn , also Determinanten von (n − 1) × (n − 1)−Determinanten und damit Polynome in X vom Grad höchstens n − 1. (A − XIn )adj = Bn−1 X n−1 + . . . + B1 X + B0 , wobei die Bi m × n−Matrizen über K sind z.B.: B2 B1 B0 z }| { }| { }| { z z 2 2 2 1 1 1 0 0 1 0 −1 1 X X −1 X +X +1 2 +X + X = X · X2 + 1 X2 + 1 0 1 1 0 0 0 0 1 1 X + 1 X2 X2 − 1 0 −1 0 1 1 1 0 0 1 Für die Adjungierte gilt: (A − XIn ) · (A − XIn )adj = |A − XIn | · In (A − XIn )(Bn−1 X n−1 + . . . + B1 X + V0 ) = ((−1)n X n + an−1 X n−1 + . . . + a1 X + a0 ) · In 137 Ausmultiplizieren und Ordnen nach Potenzen von X ergibt: −Bn−1 = (−1)n In ·An −Bn−2 + ABn−1 = an−1 In ·An−1 −Bn−3 + ABn−2 = an−2 In .. .. . . ·An−2 −B0 + AB1 = a1 In ·A AB0 = a0 In ·In −An Bn−1 = (−1)n An −An−1 Bn−2 + An Bn−2 = an−1 An−1 An−2 Bn−3 + An−1 Bn−2 = an−2 An−2 .. . −AB0 + A2 B1 = an A AB0 = a0 In 0 = (−1)n An + an−1 An−1 + . . . + a1 A + ao In = pA (A). Eine n × n−Matrix erfüllt also zumindest eine Polynomgleichung n−ten Grades. Es kann aber sein, daß eine Matrix A eine Polynomgleichung niedrigeren Grades erfüllen kann. Beispiel: 2 0 : pA (X) = X 2 − 4X + 2X, A= 0 2 4 0 8 0 4 0 − + pA (A) = A2 − 4A + 4I2 = 4 0 0 8 0 4 2 0 − Es gilt aber auch für p(X) = X − 2 : p(A) = 0 2 = 2 0 0 2 0 0 0 0 = . 0 0 0 0 Definition 19.3 Minimalpolynom einer Matrix bzw. eines Operators Das Minimalpolynom mA (X) der quadratischen n × n− Matrix A ist das eindeutig bestimmte normierte Polynom kleinsten Grades mit mA (A) = 0. Das Minimalpolynom mT (X) des linearen Operators T : V → V ist das normierte Polynom kleinsten Grades mit mT (T) = 0. 138 Satz 19.8 Eigenschaften des Minimalpolynoms (i) Das Minimalpolynom der Matrix A ist stets Teiler des charakteristischen Polynoms mA (X)/pA (X). Es teilt überhaupt alle jene Polynome f (X), die A als “Nullstelle” besitzen, für die also f (A) = O. Also: f (A) = O ⇒ mA (X)/f (X). Umgekehrt gilt: pA (X)/[m(X)]n . (ii) Das charakteristische Polynom und das Minimalpolynom einer Matrix A haben dieselben unzerlegbaren Faktoren (irreduziblen Faktoren). Insbesondere haben sie dieselben Linearfaktoren, daher gilt: (iii) λ EW von A ⇔ λ ist Nullstelle des Minimalpolynoms von A. (iv) T : V → V invertierbar ⇔ Der konstante Koeffizient des Minimalpolynoms m(X) ist von Null verschieden, als m(0) 6= 0. (v) Sei T : V → V , linear und invertierbar und dim(V ) = n. Dann läßt sich T −1 als Polynom höchstens (n − 1)−ten Grades in T darstellen. 139 Beweis: (i) Sei f (X) ein Polynom mit f (A) = O. Nach dem Euklidischen Divisionsalgorithmus gibt es Polynome q(X), r(X) mit f (X) = mA (X)q(X) + r(X) und r(X) = O ∨ [r] < [mA ]. Ist r(X) = O ⇒ mA (X)/f (X). Andernfalls erhält man durch Einsetzen von X = A : f (A) = mA (A)q(A)+r(A). Wegen f (A) = O = m(A) erhält man r(A) = O. A wäre also Nullstelle eines Polynoms von kleinerem Grad als der des Minimalpolynoms, da ist ein Widerspruch zur Minimalität, also muß r(X) = O sein und damit gilt: f (X) = mA (X) · q(X) ⇔ mA (X)/f (X). Insbesondere gilt die Aussage für f (X) = pA (X). Zum Beweis von pA (X)/[mA (X)]n : Sei mA (X) = X r + m1 X r−1 + . . . + mr−1 X + mr Wir definieren folgende Matrizen: B0 := I, B1 := A + m1 I, B2 := A2 + m1 A + m2 I, . . . , Br−1 := Ar−1 + m1 Ar−2 + . . . + mr−1 · I und B(X) := X r−1 B0 + X r−1 B1 + . . . + XBr−2 + Br−1 Dann ist (A − XI)B(X)=X r−1 AB0 + X r−2 AB1 + . . . + ABr−1 − (X r B0 + X r−1 B1 + . . . + XBr−1 ) = =X r B0 − X r−1 (B1 − AB0 ) − X r−2 (B2 − AB1 ) − . . . − X(Br−1 − ABr−2 ) + ABr−1 =X r I − X r−1 m1 I − X r−2 m2 I − . . . − Xmr−1 I − mr I = −m(X) · I Nach dem Produktsatz für Determinanten gilt: |A − XI| · |B(X)| = (−1)n [m(X)]n · |I| = (−1)n [mA (X)]n , | {z } | {z } pA (X) ∈K[X] also teilt pA (X) die n−te Potenz des Minimalpolynoms. (ii) Sei p(X) ein irreduzibles Polynom, das m(X) teilt. Aus p(X)/m(X)/pA (X) folgt dann p(X)/pA (X). Ist p(X) ein Teiler von pA (X), dann folgt aus pA (X)/m(X)n , daß p(X)/[m(X)]n , wegen der Irreduzibilität von p(X) also auch p(X)/m(X). (iii) λ EW von A ⇔ pA (λ) = 0 ⇔ (X − λ)/pA (X) ⇔ (X − λ)/mA (X) ⇔ mA (X) = (X − λ)q(X) ⇔ mA (λ) = 0. (iv) T invertierbar ⇔ T nichtsingulär ⇔ 0 kein EW von T ⇔ 0 keine Nullstelle von m[T ] ⇔ m(0) 6= 0. (v) Sei mT (X) das Minimalpolynom von T ⇒ mT (X) = X r + m1 X r−1 + . . . + mr−1 X + mr mit r ≤ n. T invertierbar ⇔ mr 6= 0. mT (T ) = T r + m1 T r−1 + . . . + mr−1 T + mr I ⇒ I = − m1r (T r−1 + m1 T r−2 + . . . + mr−1 I) · T ⇒ T−1 = − 1 (Tr−1 + m1 Tr−2 + . . . + mr I) mr Für Blockmatrizen und Blockdiagonalmatrizen vereinfacht sich die Berechnung des charakteristischen Polynoms und des Minimalpolynoms. 140 Satz 19.9 Blockmatrizen A1 B A2 (i) Es sei M = 0 ... C ... D .. . .. , wobei A1 , A2 , . . . , An quadratische Matrizen sind. . An Das charakteristische Polynom der triangulären Blockmatrix M ist das Produkt der charakteristischen Polynome der Ai : pM (X) := pA1 (X) · pA2 (X) · . . . · pAr (X) A1 (ii) Es sei M = 0 A2 0 .. . An , wobei A1 , A2 , . . . , An quadratische Matrizen sind. Das Minimalpolynom der Blockdiagonalmatrix M ist das kleinste gemeinsame Vielfache der Minimalpolynome der Ai . mM (X) = kgV(mA1 (X), . . . , mAr (X)). Ist λ ein EW von A, dann ist λ Nullstelle von pA (X), also ist das Polynom pA (X) durch den Linearfaktor X − λ teilbar. Ist λ eine k−fache Nullstelle von pA (X), dann ist pA (X) teilbar durch (X − λ)k ⇒ pA (X) = (X − λ)k · q(X). Satz 19.10 Vielfachkeit eines Eigenwertes (i) Die algebraische Vielfachheit des EW λ von A ist die Anzahl der Linearfaktoren (X−λ) im charakteristischen Polynom pA (X). Symbolisch: algebraische Vielfachheit von X ist k ⇔ (X − λ)k /pA (X) ⇔ pA (X) = (X − λ)k · q(X). (ii) Die geometrische Vielfachheit des EW λ von A ist die Anzahl der zu λ l.u. EV. Symbolisch: geometrische Vielfachheit von λ ist r ⇔ dim(EA λ)=r (iii) Die geometrische Vielfachheit eines EW von der Matrix A bzw. des Operators T ist nicht größer als seine algebraische Vielfachheit. 141 Beweis: Sei r die geometrische Vielfachheit des EW λ von f ⇒ dim(Eλ ) = r ⇒ ∃r l.u. EV {x1 , . . . , xr } zum EW λ. Nach dem Basisergänzungssatz kann man sie zu einer Basis von V ergänzen: V =< x1 , . . . , xr , w1 , . . . , wn−r > . Bezüglich dieser Basis gilt: f (x1 ) = λx1 f (x2 ) = λx2 .. . f (xr ) = λxr f (wi ) = ai1 x1 + . . . + air xr + air+1 w1 + . . . + ain wn−r i = 1, . . . , n − r Die Matrixdarstellung von f sieht daher folgend aus: λ 0 [f ] = M = 0 0 .. . 0 0 A 0 λ O B Damit ist: .. · |B − XIn−r | = (λ − X)r · |B − XIn−r | ⇒ . λ−X (λ − X)r /pM (X) ⇒ (X − λ)r /pM (X). λ−X pM (X) = |M − XIn | = Ist k die algebraische Vielfachheit von λ ⇒ pM (X) = (X − X)k · q(X) ⇒ r ≤ k. Das folgende Beispiel soll zeigen, daß jedes normierte Polynom bis auf das Vorzeichen als charakteristisches Polynom einer Matrix auftreten kann. 142 Beispiel: a0 , a1 , . . . , an−1 ∈ K = IR,C. I Die Matrix F ∈ K n·n der folgenden Form heißt FROBENIUS–Matrix. 0 1 0 ... 0 0 0 1 ... 0 F := 0 0 0 ... 1 −a0 −a1 −a2 . . . −an−1 (Manchmal ist sie auch transponiert definiert). Das charakteristische Polynom pF (x) = (−1)n (a0 + a1 x + a2 x2 + . . . + an−1 xn−1 + xn ) und ist λ ein EW von F , dann ist ~x = (1λ, λ2 , . . . , λn−1 ) zugehöriger EV. Wegen rg(F − λIn ) = n − 1 ist die geometrische Vielfachheit eines jeden EW (unabhängig von der algebraischen Vielfachheit) 1 0 −1 0 −x 1 pf (X) = 0 0 0 −a0 −a1 −a2 stets 1. ... 0 0 ... 0 0 ... −x 1 . . . −an−2 −an−1 = Entwicklung nach der letzten Zeile = (−1)n+1 (−a0 ) + (−1)n+2 (−a1 )(−x) + (−1)n+3 (−a2 )(−x2 ) + . . . + + (−1)2n−1 (−an−2 )(−x)n−2 + (−1)2n (−an−1 − x)(−x)n−1 = = (−1)n (a0 + a1 x + . . . + an−1 xn−1 + xn ) . | {z } f (x)∈K[x] Zu jeden normierten Polynom f (x) ∈ K[x] gibt es eine Matrix, nämlich die FROBENIUS– Matrix aus den Koeffizienten des normierten Polynoms, das bis auf das Vorzeichen f (x) als charakteristisches Polynom besitzt. f (x) = x − 5x + 3x + 2 ⇔ Af = 3 2 0 1 0 0 0 1 −2 −3 5 Die Begleitmatrix Af eines normierten Polynoms f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn ist die Frobenius–Matrix seiner Koeffizienten. 143 19.3 Eigenwerte und Eigenvektoren spezieller Matrizen Satz 19.11 Eigenwerte von speziellen Matrizen A, B seien quadratische n × n−Matrizen, T : V → V linear, dim(V ) = n (i) AB und BA haben dieselben EW. (ii) Die Transponier At hat dieselben EW wie W . (iii) Die Eigenwerte einer Dreiecksmatrix sind die Elemente in der Hauptdiagonale. (iv) Die Eigenwerte einer Blockdiagonalmatrix bzw. einer Block-Dreiecksmatrix (blocktrianguläre Matrix) sind die Eigenwerte der Matrizen in der Hauptdiagonalen. (v) Eine hermitesche Matrix (A∗ = A) hat nur reelle Eigenwerte. Insbesondere sind alle Eigenwerte einer symmetrischen Matrix reell. (vi) Eine schiefhermitesche Matrix (A∗ = −A) hat nur rein imaginäre Eigenwerte. (vii) Eine unitäre Matrix (A∗ = A−1 ) hat nur Eigenwerte mit Betrag 1, also nur EW der Form: (λ = eiϕ cos ϕ + i sin ϕ). Insbesondere hat eine orthogonale Matrix nur ±1 als Eigenwerte. (viii) Ist A eine reguläre Matrix, dann hat A∗ A nur positive, reelle Eigenwerte. Beweis: (i) 1. Sei λ = 0 ein EW von AB ⇔ AB singulär ⇔ A oder B singulär (weil das Produkt von regulären Matrizen wieder regulär ist) ⇔ BA singulär ⇔ λ = 0 ist auch EW von BA. 2. Sei λ 6= 0 ein EW von AB ⇒ ∃~ x 6= ~0 : AB~ x = λ~ x. Wir setzen mit diesem ~ x:~ y := B~ x. Dafür gilt: A~ y = A(B~x) = (AB)~ x = λ~ x 6= ~0 (weil λ 6= ~0 ∧ ~ x 6= 0) ⇒ ~ y = ~0 (sonst wäre A~ y = ~0). Dieses ~ y 6= ~0 ist EV von BA zum EW λ, denn: (BA)~ y = BAB~ x = B(AB~ x) = B(λ~ x) = λ(B~ x) = λ~ y . Also ist λ EW von BA. Analog ist jeder von Null verschiedene EW von BA auch EW von AB. (ii) At und A haben dieselben charakteristischen Polynome, denn: (A − XIn )t = At − XInt = At − XIn . Da die Determinante beim Transponieren gleich bleibt, gilt: pA (X) = |A − XIn | = |(A − XIn )t | = |At − XIn | = pAt (X). Damit haben At und A auch dieselben EW. 144 (iii) Die Matrix A − XIn ist wieder eine Dreiecksmatrix: 0 a11 − X a12 a1n 1 0 .. . a22 − X a2n .. . C C C C C C A 0 0 B B B A − XIn = B B B @ .. . ... ann − X Damit ist pA (X) = |A − XIn | = (a11 − X)(a22 − X) . . . (ann − X) ⇒ die EW sind gegeben durch a11 , a22 , . . . , ann . (iv) Induktionsanfang: 0 1 A1 B A , A1 , A2 quadratische Matrizen M := @ 0 A2 ˛ ˛ ˛ ˛ ˛ A1 − XI ˛ B ˛ = |A1 − XI| · |A2 − XI| nach S 311.2. pM (X) = ˛˛ ˛ ˛ A2 − XI ˛ Durch Induktion zeigt man die Behauptung. (v) Sei λ EW von A = A∗ mit EV ~ x : A~ x = λ~ x. Beweis mittels der Verschiebungsformel: λ<~ x, ~ x >=< λ~x, ~ x >=< A~ x, ~ x >=< ~ x, A∗ A~ x >=< ~ x, λ~ x >= λ < ~ x, ~ x >⇒ λ = λ ⇒ λ ∈ IR. (vi) Beweis mittels der Verschiebungsformel: λ < ~ x, ~ x >=< λ~ x, ~ x >< A~ x, ~ x >=< ~x, A∗ ~ x >=< ~ x, (−A)~ x >= −<~ x, A~ x >= −λ < ~ x, ~ x >⇒ λ = −λ ⇒ λ imaginär. (vii) Sei λ EW von A mit A∗ = A−1 mit EV ~ x 6= 0 : A~ x = λ~ x. x, ~ x >=< λ~ x, λ~ x >=< A~ x, A~ x >=< ~ x, A∗ A~ x >=< ~ x, A−1 A~ x >=< ~ x, ~ x >. λλ < ~ Wegen < ~ x, ~ x >6= 0 gilt damit λλ = 1 ⇒ |λ| = 1. (viii) Sei ~ x 6= ~0 EV von A∗ A zum EW λ. Dann ist auch A~ x 6= ~0 (sonst wäre A singulär), daher ist < A~ x, A~ x> größer als 0. λ<~ x, ~ x >=< λ~ x, ~ x >=< A∗ A~ x, ~ x >=< A~ x, A~ x >. Weil < ~ x, ~ x > und < A~ x, A~ x > beide positive sind, ist auch λ positiv. Satz 19.12 Lineare Unabhängigkeit von Eigenvektoren T : V → V , linear, dim(V ) = n. A sei eine quadratische n × n−Matrix. (i) Eigenvektoren von T zu verschiedenen Eigenwerten sind l.u. (ii) Eigenvektoren zu verschiedenen Eigenwerten einer hermiteschen (symmetrischen) Matrix stehen orthogonal aufeinander. (iii) Eine reelle, symmetrische Matrix hat mindestens einen reellen Eigenvektor! 145 Beweis: (i) λ1 , . . . , λm seien paarweise verschiedene EW von T (d.h., λi 6= λj für i 6= j) und x1 , . . . , xm die dazugehörigen EV. Beweis durch vollständige Induktion nach m: m = 1 : x1 6= 0 als EV ⇒ x1 l.u. Seien {x1 , . . . , xr } l.u., dann sind auch {x1 , . . . , xr+1 } l.u. Sei k1 x1 + . . . + kr xr + kr+1 + xr+1 = 0. (28) a) Multiplikation von (28) mit λr+1 ergibt: λr+1 k1 x1 + . . . + λt+1 kr xr + λr+1 kr+1 xr+1 = 0 (29) b) Anwenden von T auf (28) ergibt: T (k1 x1 + . . . + kr xr + kr+1 xr+1 = T (0) = 0 k1 T (x1 ) + . . . + kr T (xr ) + kr+1 T (xr+1 ) = 0 k1 λ1 x1 + . . . kr λr xr + kr+1 λr+1 xr+1 = 0 (30) Subtrahiert man (29) von (30), so erhält man (die letzten Summanden sind gleich und fallen weg): k1 (λ1 − λr+1 )x1 + . . . + kr (λr − λr+1 )xr = 0. Weil {x1 , . . . , xr } l.u. ⇒ ki (λi − λr+1 ) = 0 i = 1, . . . , r ⇒ ki = 0 für i = 1, . . . , r, weil λi − λr+1 6= 0 nach Voraussetzung. Aus (28) folgt dann: kr+1 xr+1 = 0. Wegen xr+1 6= 0 (als EV) muß kr+1 = 0 sein. Damit ist (28) nur möglich, wenn alle Koeffizienten ki = 0(i = 1, . . . , r + 1) ⇒ {x1 , . . . xr , xr+1 } l.u. (ii) Sei Ax~1 = λ1 x~1 und Ax~2 = λ2 x~2 mit λ1 6= λ2 und At = A ⇒< A~ x, ~ y >=< x, A~ y > (Verschiebungsformel). Damit ist λ1 < x~1 , x~2 >=< λ1 x~1 , x~2 >=< Ax~1 , x~2 >=< x~1 , Ax~2 >=< x~1 , λ2 x~2 >= λ2 < x~1 , x~2 > ⇒ (λ1 − λ2 · < x~1 , x~2 >⇒< x~1 , x~2 >= 0 (weil λ1 − λ2 6= 0). (iii) Eine reelle symmetrische Matrix hat nur reelle EW. Aus λ reell ⇒ A − λIn reell und singulär ⇒ ∃~ x ∈ IRn : (A − λIn )~ x = ~0 ⇒ ~ x reeller EV. Satz 19.13 Basen aus Eigenvektoren (i) Hat ein linearer Operator T : V → V mit n = dim(V ) verschiedene EW, dann hat V eine Basis aus Eigenvektoren. (ii) Die Summe von Eigenräumen zu verschiedenen Eigenwerten ist eine direkte: Eλ1 + . . . + Eλr = Eλ1 ⊕ . . . ⊕ Eλr 146 Beweis: (i) n verschiedene EW ⇒ n l.u. EV. Je n l.u. Vektoren bilden eine Basis. (ii) Sei x1 + x2 + . . . + xr = x01 + x02 + . . . + x0r mit xi , x0i ∈ Eλi (x1 − x01 ) + (x2 − x02 ) + . . . + (xr − x0r ) = 0 (31) Wäre xi − x0i 6= 0, dann wären xi − x0i EV zu λi (i = 1, . . . , r). (31) ist eine nichttriviale Linearkombination, die 0 ergibt, also wären xi − x0i l.a. EV zu den verschiedenen EW λi , Widerspruch. Die Eigenschaft der Orthogonalität der Eigenvektoren einer Matrix ist nicht nur eine Spezialität der symmetrischen Matrizen. Im folgenden werden wir sehen, daß sie allen jenen Matrizen A zukommt, die mit ihrer Transponiert–Konjugierten A∗ vertauschbar sind, wie z.B.: A= A∗ = AA∗ = A∗ A = 1 i 1 2+1 1 1 −i 2 − i 1 i 1 1 1 2+i −i 2 − i 1 1 1 i −i 2 − i 1 2+i = = 2 2 + 2i 2 − 2i 6 2 2 + 2i 2 − 2i 6 Definition 19.4 Normale Matrizen Eine quadratische Matrix A heißt normal, wenn sie mit ihrer Konjugiert–Transponierten A∗ vertauschbar ist. A normal ⇔ AA∗ = A∗ A Satz 19.14 Beispiele normaler Matrizen Jede unitäre (orthogonale), hermitesche (symmetrische) und jede schiefhermitesche Matrix ist normal. Beweis: A unitär ⇒ AA∗ = AA−1 = A−1 A = A∗ A A hermitesch ⇒ AA∗ = AA = A∗ A A schiefhermitesch ⇒ AA∗ = A(−A) = −AA = (−A)A = A∗ A 147 Alle unsere bisherigen Typen von Matrizen sind also Spezialfälle von normalen Matrizen. Es gibt aber andere normale Matrizen (auch auch im Reellen), die nicht vomobigen Typ sind, z.B. 1 2 1 −2 5 0 ⇒ A∗ = At = und AAt = At A = A= −2 1 2 1 0 5 Satz 19.15 Eigenschaften normaler Matrizen A sei eine normale n × n−Matrix über K = CI bzw IR, λ ∈ K, ~x ∈ K n . (i) A~x = ~0 ⇔ A∗ ~x = ~0 (ii) Mit A ist auch A − λIn normal (iii) A~x = λ~x ⇔ A∗ ~x = λ~x. Jeder EV von A ist auch EV von A∗ , allerdings zum konjugiert–komplexen EW (im Reellen also wieder zum gleichen EW). (iv) Eigenvektoren von normalen Matrizen zu verschiedenen Eigenwerten sind orthogonal. Beweis: (i) Es gilt: < A~ x, A~ x >=< A∗ ~ x, A∗ ~ x >. Nach der Verschiebungsformel gilt: < A~ x, A~ x >=< ~ x, A∗ A~ x >=< ~ x, AA∗ ~ x >=< A∗ ~ x, A∗ ~ x >. Also ist A~ x = ~0 ⇔< A~ x, A~ x >=< ~0, ~0 >= 0 =< A∗ ~ x, A∗ ~ x >⇔ A∗ ~ x = 0 wegen (S4). (ii) (A − λIn )(A − λIn )∗ = (A − λIn )(A∗ − λIn ) = AA∗ − λA∗ − λA + λλIn = A∗ A − λA − λA∗ + λλIn (A − λIn )∗ (A − λIn ) = (A − λIn )(A − λIn ) = A∗ A − λA − λA∗ + λλIn = AA∗ − λA − λA + lλIn . (iii) Sei A~ x = λ~ x ⇒ (A − λIn )~ x = 0 ⇒ (wegen der Normalität von A − λIn und (i)) (A∗ − λIn )~ x = ~0 ⇒ A∗ ~ x = λ~ x. (iv) Sei Ax~1 = λx~1 und Ax~2 = λ2 x~2 mit λ1 6= λ2 . λ1 < x~1 , x~2 >=< λx~1 , x~2 >=< Ax~1 , x~2 >=< x~1 , a∗ x~2 >=< x~1 , λ2 x~2 >= λ2 < x~1 , x~2 >= λ2 < x~1 , x~2 >. Dann ist: λ1 < x~1 , x~2 > −λ2 < x~1 , x~2 >= 0 ⇒ (λ1 − λ2 )· < x~1 , x~2 >= 0. Wegen λ1 6= λ2 ist dann < x~1 , x~2 >= 0 ⇒ x~1 ⊥ x~2 . 148 Zusammenfassung der bisherigen Typen von quadratischen Matrizen: Tabelle verschiedener quadratischer Matrizen A Bezeichnung Definition Besonderheiten A normal A∗ A = AA∗ orthogonale EV zu verschiedenen EW A symmetrisch At = A nur reelle EW A hermitesch A∗ = A nur reelle EW A schiefhermitesch A∗ = −A nur imaginäre EW A schiefsymmetrisch At = A−1 nur imaginäre EW A orthogonal At = A−1 nur ±1 als EW A unitär A∗ = A−1 nur EW vom Betrag 1: λ = cos ϕ + i sin ϕ 149 20 Linearität in Skalarprodukträumen Lineare Abbildungen sind verträglich mit den Vektorraumoperationen. In Skalarprodukträumen (V, <, >) wird man darüber hinaus an solchen Abbildungen interessiert sein, die zusätzlich noch das Skalarprodukt respektieren bzw. eine “Verschiebungsformel” wie bei Matrizen erlauben. Damit erhält man weitere Lösbarkeitsbedingungen für lineare Operatorgleichungen. 20.1 Orthogonale und unitäre Abbildungen Es werden jene aus der Anschauung bekannten Abbildungen auf abstrakte Skalarprodukträume verallgemeinert, die Abstand und Winkel invariant lassen, wie z.B. Drehungen und Spiegelungen. Leider haben sie über komplexe bzw. reelle Vektorräume gänzlich verschiedene Namen. Definition 20.1 Orthogonale bzw. unitäre Abbildungen (V, <, >) und (W, <, >) seien Skalarprodukträume über K, K = IR oder K = C. I Eine orthogonale (unitäre) Abbildung ist eine lineare Abbildung f : (V, <, >) → (W, <, >), die das Skalarprodukt invariant läßt: f orthogonal (unitär) ⇔< f (x), f (y) >=< x, y > Bemerkung: Das Wort unitär wird nur bei Verwendung von komplexen Zahlen benützt. Verwendet man nur reelle Zahlen, spricht man von orthogonal. Beispiel: Der durch eine orthogonale (unitäre) Matrix A induzierte Operator TA : IRn → IRn (ICn → CI n ) mit TA (~x) = A · ~x ist ein orthogonaler (unitärer) Operator. Nach ?? (iv) gilt nämlich: < A(~x), A(~y ) >=< A~x, A~y >=< ~x, ~y >. Beispiel: Die Drehungen um ±90◦ , ±180◦ , ±270◦ um den Ursprung 0 sind orthogonal. Satz 20.1 Eigenschaften von orthogonalen (unitären) Abbildungen (i) Orthogonale (unitäre) Abbildungen sind stets injektiv. Damit: Orthogonale (unitäre) Abbildungen von endlich–dimensionalen Vektorräumen sind stets Isomorphismen. (ii) f orthogonal (unitär) ⇔ kf (x)k = kxk. Orthogonale (unitäre) Abbildungen f lassen die Norm unverändert. Orthogonale Abbildungen lassen damit auch Winkel invariant. 150 (iii) f : V → W ist genau dann orthogonal (unitär), wenn das Bild einer ON–Basis wieder eine ON–Basis ist. f orthogonal ⇔ ((e1 , . . . , en ) ON–Basis ⇒ (f (e1 ), . . . , f (en )) ON–Basis) (iv) f : V → W ist genau dann orthogonal (unitär), wenn die Matrixdarstellung [f ] von f bezüglich ON–Basen eine orthogonale (unitäre) Matrix ist. f orthogonal (unitär) ⇔ [f ] orthogonal (unitär). (v) Die Determinante eines orthogonalen (unitären) Operators hat stets den Betrag 1: det(f ) = ±1 im Reellen bzw. | det(f )| = 1 im Komplexen. Beweis: (i) Sei x ∈ ker(f ) ⇔ f (x) = 0 ⇒< x, x >=< f (x), f (x) >=< 0, 0 >= 0 ⇒ x = 0. (ii) kf (x)k2 < f (x), f (x) >=< x, x >= kxk2 cos < (f (x), f (y)) = <f (x),f (y)> kf (x)k·kf (y)k = <x,y> kxk·kyk = cos < (x, y) (iii) 1. Sei f orthogonal (unitär) ⇒< f (ei ), f (ej ) >=< ei , ej >= δij P P 2. Sei < f (ei ), f (ej ) >= δij ⇒ für x = λi ei und y = µi ei gilt: P P P < f (x), f (y) >=< f ( i λi ei ), f ( j µj ej ) >= i,j λi µj < f (ei ), f (ej ) >= P P P P = i,j λi µj δij = i,j λi µj < ei , ej >=< i λi ei , j µj ej >=< x, y > (iv) Bezüglich ON–Basen gilt: < x, y > = [y]∗ [x] < f (x), f (y) = [f (y)]∗ [f (x)] Aus < f (x), f (y) = < x, y > folgt dann: [f (y)]∗ [f (x)] = [y]∗ [x], also ([f ][y])∗ ([f ][x]) = [y]∗ [x] y ∗ ([f ]∗ [f ])[x] = [y]∗ In [x] ∀x, y, insbesondere für die Basisvektoren, daher ist: [f ]∗ [f ] = In ⇒ [f ] ist unitär Ist umgekehrt [f ] unitär bezüglich einer ON–Basis: < f (x), f (y) = [f (y)]∗ [f (x)] = ([f ][y])∗ ([f ][x]) = [y]∗ ([f ]∗ [f ])[x] = [y]∗ In [x] = [y]∗ [x] = < x, y >, also ist f unitär. (v) det(f ) = det([f ]). Da [f ] unitär ist, folgt die Behauptung aus Kapitel ?? (5). 151 Definition 20.2 Spezielle orthogonale Abbildungen Die Menge der orthogonalen (unitären) Isomorphismen eines Skalarproduktraumes V wird mit O(V ) bzw. U (V ) bezeichnet. Statt O(IRn ) schreibt man kurz O(n), analog U (n). Orthogonale Isomorphismen bzw. orthogonale Matrizen mit Determinante +1 heißen auch spezielle orthogonale Abbildungen bzw. Matrizen, bezeichnet mit O+ (n) bzw. O+ (V )). Satz 20.2 Die orthogonale Gruppe (i) O(V ) bzw. U (V ) bildet bezüglich der Hintereinanderausführung eine Gruppe: Sie heißt die orthogonale (unitäre) Gruppe. (ii) O+ (n) bzw. O+ (V ) bildet eine Untergruppe von O(n) bzw. O(V ) bezüglich ◦. O+ (n) C O(n); O+ (V ) C O(V ) Beweis: (i) Produkt und Inverse von orthogonalen (unitären) Abbildungen sind wieder orthogonal (unitär): < (f ◦ g)(x), (f ◦ g)(x) >=< f (g(x)), f (g(y)) >=< g(x), g(y) >=< x, y >. Sei f −1 (x) = x0 ⇔ f (x0 ) = x < f −1 (x), f −1 (y) >=< x0 , y 0 >=< f (x0 ), f (y 0 ) >=< x, y >. (ii) gilt nach dem Produktsatz für Determinanten. 20.2 Adjungierte Abbildungen Der 4–Teilräumesatz für Matrizen, eine Folgerung aus der Verschiebungsformel, hat sich für lineare Gleichungssysteme als ein wichtiges Werkzeug erwiesen. Da nun lineare Abbildungen verallgemeinerte Matrizen sind, versucht man, die Verschiebungsformel für Matrizen < A~x, ~y >=< ~x, A∗ ~y > auf lineare Abbildungen zu verallgemeinern. Die der konjugiert–transponierten Matrix A∗ (nicht der adjungierten Matrix X adj !) entsprechenden Abbildung heißt die adjungierte Abbildung. Dadurch erhält man einen entsprechenden 4–Teilräume–Satz für lineare Operatoren und damit ein wichtiges Werkzeug zur Untersuchung von linearen Operatorgleichungen in Skalarprodukträumen. Durch das Verhalten beim Übergang T → T ∗ können weiters spezielle Operatoren charakterisiert werden. Zum Schluß zeigen wir, daß dem Adjungieren der Operatoren das Konjugieren der komplexen Zahlen entspricht. 152 Beispiel: Gegeben sei T : CI 3 → CI 3 mit T (x1 , x2 , x3 ) = (2x1 + ix2 , x2 − 5ix3 , x1 + (1 − i)x2 + 3x3 ) Dazu definieren wir einen Operator T ∗ auf folgende Art und Weise: 1. Berechne die Matrixdarstellung [T ] bezüglich einer ON–Basis. 2. Bilde die Konjugiert–Transponierte [T ]∗ . 3. T ∗ sei nun jener Operator, der [T ]∗ als Matrixdarstellung besitzt: 2 i 0 2 0 1 [T ]St = 0 1 −5i ⇒ [T ]∗St = −i 1 1 + i 1 1−i 3 0 5i 3 Damit ist T ∗ = CI 3 → CI 3 mit T ∗ (x1 , x2 , x3 ) = (2x1 + x3 , −ix1 + x2 + (1 + i)x3 , 5ix2 + 3x3 ) Für das so definierte T ∗ gilt die Verschiebungsformel < T (~x), ~y >=< ~x, T ∗ (~y ) >: 2x1 + ix2 < T (~x), ~y >=< x2 − 5ix3 x1 + (1 − i)x2 + 3x3 y1 , y2 >= y3 = 2x1 y¯1 + 2x2 y1 + x2 y¯2 − 5ix3 y¯2 + x1 y¯3 + (1 − i)x2 y¯3 + 3x3 y¯3 < ~x, T ∗ (~y ) x1 2y1 + y3 >=< x2 , −iy1 + y2 + (1 + i)y3 x3 5iy2 + 3y3 >= = 2x1 y¯1 + x1 y¯3 + ix2 y1 + x2 y¯2 + (1 − i)x2 y¯3 − 5ix3 y¯2 + 3x3 y¯3 Es ist: < T (~x)~y >=< ~x, T ∗ (~y ) >. 153 Definition 20.3 Die Adjungierte einer linearen Abbildung f : V → W sei eine lineare Abbildung der Skalarprodukträume V in W . Die Adjungierte f ∗ von f ist jene Abbildung f ∗ : W → V , für die die Verschiebungsformel < f (x), y >=< x, f ∗ (y) > ∀x ∈ V und ∀y ∈ W gilt. Satz 20.3 Existenz und Eindeutigkeit der Adjungierten f : V → W , linear und f ∗ : W → V sei die zu f adjungierte Abbildung. (i) Falls eine lineare Abbildung f eine Adjungierte f ∗ besitzt, ist sie eindeutig bestimmt. (ii) Die Adjungierte f ∗ von f ist wieder eine lineare Abbildung, und zwar von W in V . (iii) Zwischen endlich–dimensionalen Vektorräumen existiert zu jeder linearen Abbildung f stets die dazu Adjungierte f ∗ : f ∗ ist die von der Matrix [f ]∗ induzierte lineare Abbildung, wobei [f ] die Matrixdarstellung von f bezüglich einer ON–Basis ist. (iv) In unendlich–dimensionalen Vektorräumen muß es keine Adjungierte geben. Beachte: Bei f ∗ sind Definitions– und Wertemenge gegenüber f vertauscht. Beweis: Wir werden im folgenden oft folgende Eigenschaft des Skalarproduktes verwenden: Ist < x, A >=< x, B > ∀x ⇒ A = B : < x, A >=< x, B >⇒< x, A > − < x, B >= 0 ⇒< x, A − B >= 0∀x ⇒ A − B = 0 ⇒ A = B (i) Seien f ∗ und f 0 zwei Adjungierte, dann gilt: < f (x), y >=< x, f ∗ (y) >=< x, f 0 (y) > ∀x, y ⇒ f ∗ (y) = f 0 (y)∀y ⇒ f ∗ = f 0 . (ii) < f (x), λ1 y1 + λ2 y2 >=< x, f ∗ (λ1 y1 + λ2 y2 ) > und < f (x), λ1 y1 + λ2 y2 >= λ1 < f (x), y1 > +λ2 < f (x), y2 >= = λ1 < x, f ∗ (y1 ) > +λ2 < x, f ∗ (y2 ) >=< x, λ1 f ∗ (y1 ) + λ2 f ∗ (y2 ) >. Damit ist < x, f ∗ (λ1 y1 + λ2 y2 ) >=< x, λ1 f ∗ (y1 ) + λ2 f ∗ (y2 )∀x ∈ V ⇒ f ∗ (λ1 y1 + λ2 y2 ) = λ1 f ∗ (y1 ) + λ2 f ∗ (y2 ) ⇒ f ∗ ist linear 154 (iii) Sei f ∗ : W → V mit [f ∗ ] = [f ]∗ bezüglich ON–Basen. Für diese Abbildung f ∗ gilt die Verschiebungsformel (beachte die Definition der Matrixdarstellung [f ] : [f (x)] = [f ][x]). < f (x), y > = [y]∗ [f (x)] = [y]∗ [f ][x] < x, f ∗ (y) > = [f ∗ (y)]∗ [x] = ([f ]∗ [y])∗ [x] = [y]∗ [f ][x] Beachte: Ist [f ] die Matrixdarstellung von f bezüglich einer ON–Basis, dann ist die Matrixdarstellung von f ∗ bezüglich einer ON–Basis gegeben durch die Konjugiert–Transponierte von [f ]: [f ∗ ] = [f ]∗ . (iv) Gegenbeispiel: V = P [x], < f, g >= R1 0 f (x)g(x)dx. D sei der Differentialoperator auf P [x] : D(f (x)) = f 0 (x). D hat keine Adjungierte D∗ , d.h.: R1 R1 < D(f ), g >= 0 f 0 · gdt 6= 0 f g 0 dt =< f, D(g) >. Satz 20.4 Algebraische Eigenschaften der Adjungierten S und T seien lineare Operatoren auf V, λ ∈ K = IR,C. I Dann gilt: (i) (S + T )∗ = S ∗ + T ∗ (ii) (λT )∗ = λT ∗ (iii (ST )∗ = T ∗ S ∗ (iv) (T ∗ )∗ = T Beweis: (i) < (S + T )(x), y > = < S(x) + T (x), y >=< S(x), y > + < T (x), y >= = < x, S ∗ (y) > + < x, T ∗ (y) >=< x, (S ∗ + T ∗ )(y) > ∀x, y. S ∗ + T ∗ besitzt die Adjungierteneigenschaft von (S + T ), weil diese eindeutig bestimmt ist, ist S ∗ + T ∗ die Adjungierte von S + T , also (S + T )∗ = S ∗ + T ∗ (ii) < T ∗ (x), y > = < x, (T ∗ )∗ (y) > und < T ∗ (x), y > = < y, T ∗ (x) > = < T (y), x > = < x, T (y) > =< x, T (y) > Also ist: < x, (T ∗ )∗ (y) >=< x, T (y) > ∀x, y ⇒ (T ∗ )∗ (y) = T (y)∀y ⇒ (T ∗ )∗ = T Mittels der Adjungierten läßt sich nun auch der Vier–Teilräumesatz für Matrizen auf lineare Abbildungen verallgemeinern: 155 Satz 20.5 Vier–Teilräume–Satz für lineare Operatoren f : V → W sei eine lineare Abbildung zwischen endlichdimensionalen Vektorräumen. (i) [im(f )]⊥ = ker(f ∗ ) (ii) im(f ) = (ker(f ∗ ))⊥ (iii) [ker(f )]⊥ = im(f ∗ ) (iv) ker(f ) = [im(f ∗ )]⊥ Beweis wie für Matrizen. Zusammen mit dem Dimensionssatz kann man damit die Ranggleichheit von f auf f ∗ zeigen. Dies stellt die Verallgemeinerung der Eigenschaft des gleichen Zeilen– und Spaltenranges dar. Satz 20.6 Ranggleichheit von f und f ∗ In endlich–dimensionalen Vektorräumen haben f : V → W und f ∗ : W → V denselben Rang. Beweis: rg(f ) = dim(im(f )) = dim[(ker(f ∗ ))]⊥ = dim(W ) − dim(ker(f ∗ )) = dim(im(f ∗ )) = rg(f ∗ ). Der Vier–Teilräume–Satz gilt nicht ganz in unendlich–dimensionalen Vektorräumen, wohl aber: Satz 20.7 Orthogonalität von Bild und Kern f : V → W sei linear und besitze eine Adjungierte f ∗ : W → V . (i) im(f ) ⊥ ker(f ∗ ) (ii) ker(f ) ⊥ im(f ∗ ) Beweis: Sei y ∈ im(f ) und W ∈ ker(f ∗ ) ⇒ ∃x ∈ V : y = f (x). Dann ist < y, w >=< f (x), w >=< x, f ∗ (w) >=< x, 0 >= 0 ⇒ im(f ) ⊥ ker(f ∗ ). Analog folgt (ii). Damit kann man auch in unendlich–dimensionalen Vektorräumen Lösbarkeitsbedingungen für lineare Operatorgleichungen angeben: inhomogene lineare Operatorgleichung: f (x) = y (I) homogene adjungierte Operatorgleichung: f ∗ (u) = 0 (H ∗ ) Satz 20.8 Lösbarkeitsbedingungen für Operatorgleichungen f : V → W sei linear und habe eine Adjungierte f ∗ . (i) f (x) = y hat nur dann eine Lösung, wenn y ⊥ ker(f ∗ ). Sind V, W endlich–dimensional, dann gilt sogar: (ii) f (x) = y hat genau dann eine Lösung, wenn y auf jede Lösung von f ∗ (u) = 0 steht. Also: (I) lösbar ⇔ y ⊥ (H ∗ ). 156 Beweis: (i) f (x) = y hat Lösung ⇔ y ∈ im(f ) ⊥ ker(f ∗ ) nach (20.7 (i)). (ii) (I) lösbar ⇔ y ∈ im(f ) = [ker(f ∗ )]⊥ nach (20.7 (ii)). So wie für quadratische Gleichungssysteme gilt auch für lineare Operatoren T : V → V (allerdings nur in endlich–dimensionalen Skalarprodukträumen) die FREDHOLM–Alternative, wenn folgende Bezeichnungen eingeführt werden: T (x) = y (I) inhomogene Operatorgleichung T (x) = 0 (H) dazugehörige homogene Operatorgleichung T ∗ (u) = v (I ∗ ) inhomogene adjungierte Operatorgleichung T ∗ (u) = 0 (H ∗ ) dazugehörige homogene adjungierte Operatorgleichung Satz 20.9 FREDHOLMsche Alternative für Operatorgleichungen Entweder sind (H) und (H ∗ ) nur trivial lösbar, wobei dann (I) und (I ∗ ) eindeutig lösbar sind oder (H) und (H ∗ ) haben beide nichttriviale Lösungen, wobei dann (I) genau dann lösbar ist, wenn y auf alle Lösungen von (H ∗ ) orthogonal steht und (I ∗ ) genau dann lösbar ist, wenn v auf alle Lösungen von (H) orthogonal steht. Beweis: Aus rg(f ) = rg(f ∗ ) folgt nach dem Dimensionssatz def (f ) = def (f ∗ ) ⇒ (H) und (H ∗ ) haben beide keine nichttrivialen Lösungen oder beide haben nichttriviale Lösungen. Das andere folgt aus (20.7). 20.3 Normale Operatoren Mit Hilfe der Adjungierten können nun verschiedene Klassen von linearen Operatoren T : V → V charakterisiert (= definiert) werden. So gilt z.B. für unsere orthogonalen (unitären) Operatoren aus 20.1 in der “Sprache der Adjungierten”: T unitär ⇔< T (x), T (y) >=< x, y >. Wegen < T (x), T (y) >=< x, T ∗ T (y) > ist dies gleichbedeutend mit: T unitär ⇔< x, (T ∗ T )(y) >=< x, y >⇔ < x, (T ∗ T )(y) >=< x, id(y) > ∀x, y ⇔ (T ∗ T )(y) = id(y)∀y ⇔ T ∗ T = id ⇔ T∗ = T−1 T unitär bedeutet also in der Sprache der adjungierten Abbildung T ∗ : T unitär ⇔ T ∗ = T −1 (T −1 existiert, weil unitäre Abbildungen stets invertierbar sind.) Genauso werden wir in 20.4 mittels der Adjungierten T ∗ weitere Operatoren definieren. 157 Da weiters die Matrixdarstellung verträglich bezüglich den Rechenoperationen ist, (bezüglich einer ON–Basis gilt auch (siehe 20.1(iii)) [T ∗ ] = [T ]∗ ) für ON–Basen: T unitär ⇔ [T ∗ ] = [T −1 ] ⇔ [T ]∗ = [T ]−1 ⇔ [T ]∗ [T ] = In ⇔ [T] unitär. Bezüglich ON–Basen ist also die Matrixdarstellung vom selben Typ (nämlich unitär) wie die Abbildung. Dieses Verhalten werden wir auch bei den folgenden Abbildungen beobachten können. Definition 20.4 Charakterisierung von Operatoren (V, <>) sei ein n−dimensionaler Skalarproduktraum über K = IR,C. I Name ⇔ Verhalten bei Adjungation ⇔ Matrixdarstellung bez. einer ON–Basis T normal T T ∗ = T ∗T [T ] normal T unitär T ∗ = T −1 [T ] unitär T orthogonal Tt = T [T ] orthogonal T selbstadjungiert T∗ = T [T ] hermitesch (hermitesch in CI (symmetrisch) symmetrisch in IR Tt = T T schiefadjungiert T ∗ = −T [T ] schiefsymmetrisch schiefhermitesch in CI schiefsymmetrisch in IR T t = −T T positiv definit ∃ reguläres S mit [T ] positiv definit T = S∗S T positiv semidefinit ∃S : T = S ∗ S [T ] positiv semidefinit Diese Tabelle ist folgend zu lesen: Ein Operator T : V → V heißt normal, wenn er mit seiner Adjungierten vertauschbar ist. T ist genau dann normal, wenn seine Matrixdarstellung bezüglich einer ON–Basis normal ist. Bemerkung: Alle aufgezählten Typen sind normale Operatoren. Positiv (semi) definite Operatoren und orthogonale Projektionen sind sogar Sonderfälle von selbstadjungierten Operatoren (siehe 20.10) und (20.14 (i)). 158 Damit ergibt sich folgende Hierarchie: Satz 20.10 Charakterisierungen von positiven Operatoren (i) Folgende Bedingungen sind äquivalent: a) P = T 2 für irgendeinen selbstadjungierten Operator T b) P = S ∗ S für irgendeinen Operator S c) P ist selbstadjungiert und < P (x), x >≥ 0 ∀x ∈ V . (ii) a) P = T 2 für irgendeinen regulären selbstadjungierten Operator T b) P = S ∗ S für irgendeinen regulären Operator S c) P ist selbstadjungiert und < P (x), x > 0 ∀x ∈ V . Beweis: (a) ⇒ (b) ⇒ (c) ⇒ (a) a) ⇒ b): Sei P = T 2 mit T = T ∗ ⇒ P = T T = T ∗ T, also gilt b) mit S = T b) ⇒ c): P = S ∗ S ⇒ P ∗ = S ∗ (S ∗ )∗ = S ∗ S = P ⇒ P selbstadjungiert < P (x), x >=< (S ∗ S)(x), x >=< S(x), S(x) ≥ 0 c) ⇒ a): Wir werden in Satz 21.8 zeigen: Ist P selbstadjungiert, dann gibt es eine ON–Basis (e1 , . . . , en ) von V aus EV von P , also: P (ei ) = λi ei . Nach Satz 19.11 (v) sind die λi reell. Mittels c) gilt: λi ≥ 0, denn: 0 ≤< P (ei ), ei >=< λi ei , ei >= λi < ei , ei >. Damit ist | {z } ≥0 √ λi ist eine reelle Zahl. 159 √ λi ei i = 1, . . . , n. Nach dem Fortsetzungssatz ist T eindeutig festgelegt. T ist √ √ selbstadjungiert, weil [T ] = diag( λ1 , . . . , λn ). Weiters ist √ √ √ √ T 2 (ei ) = T (T (ei )) = T ( λi ei ) = λi T (ei ) = λi λi ei = λi ei = P (ei ), ⇒ T 2 = P (Fortsetzungssatz). Es sei T definiert durch T (ei ) = T heißt auch die positive Quadratwurzel von P. Damit kann man zeigen: Satz 20.11 Produktdarstellung linearer Operatoren T : V → V , V endlichdimensionaler Skalarproduktraum. Zu jedem linearen Operator T existieren ein eindeutiger positiver Operator P und ein unitärer (orthogonaler) Operator U mit T = UP. Ist T invertierbar, dann ist auch U eindeutig bestimmt. Beweis für invertierbares T : Nach 20.10 ist T ∗ T ein positiver Operator ⇒ ∃ positiven, selbstadjungierten Operator P mit T ∗ T = P 2 . kP (x)k2 =< P (x), P (x) >=< P 2 (x), x >=< T ∗ T (x), x >=< T (x), T (x) >= kT (x)k2 . Wir setzen U := P T −1 , dann ist U unitär: ∗ U = (P T −1 )∗ = (T −1 )∗ P ∗ = (T ∗ )−1 P und ∗ U U = (T ∗ )−1 P P T −1 = (T ∗ )−1 P 2 T −1 = (T ∗ )−1 T ∗ T T −1 = id. Nun sei U := U −1 ⇒ U ist unitär und T = U P . Dieser Satz zeigt eine gewisse Analogie zu den komplexen Zahlen: z = reiϕ = r(cos ϕ + i sin ϕ) r ≥ 0 = P keiϕ | = | cos ϕ + sin ϕ| = 1 eiϕ = U |U | = 1 z=T Beobachtung: Die positiven Operatoren spielen die Rolle von positiven reellen Zahlen, die unitären die Rolle der komplexen Zahlen auf dem Einheitskreis. Eine ähnliche Analogie zeigt auch folgender Satz: 160 Satz 20.12 Symmetrische Darstellung normaler Operatoren T : V → V , V endlichdimensionaler Skalarproduktraum. Zu jedem Operator T existieren hermitesche Operatoren A und B mit T = A + iB und AB = BA. Beweis: A := (T + T ∗ )/2 und B = (T − T ∗ )/2i T = (T + T ∗ )/2 + i(T − T ∗ )/2i A∗ = 1 (T 2 B∗ = 1 (T −2i AB = 1 (T 2 = BA = = + T ∗ )∗ = 12 (T ∗ + T ∗∗ = 21 (T ∗ + T ) = A 1 − T ∗ )∗ = − 2i (T ∗ − T ∗∗ ) = 1 + T ∗ ) 2i (T − T ∗ ) = 1 (T 2 4i 1 (T 2i − T ∗) = B + T ∗ T − T T ∗ − T ∗2 ) = − T ∗2 ) weil T T ∗ = T ∗ T − T ∗ ) 12 (T + T ∗ ) = 1 (T 2 4i 1 (T 2 4i 1 (T 2i 1 (T 2 4i − T ∗ T + T T ∗ − T ∗2 ) = − T ∗2 ). Beobachtung: Die selbstadjungierten Operatoren spielen die Rolle von reellen Zahlen. Damit können wir insgesamt folgende Analogien zwischen der Algebra der linearen Operatoren auf Skalarprodukträumen und dem Körper der komplexen Zahlen feststellen: Hom(V, V ) ←→ CI Verhalten bei CI Konjugation Verhalten bei Hom(V, V ) T → T∗ z→z Einheitskreis z= 1 z = z −1 Unitäre (orthogonale) |z| = 1 Operatoren reelle Zahlen Selbstadjungierte z=a z=z Adjungation Operatoren T ∗ = T −1 T∗ = T (hermitesche Operatoren) imaginäre Achse z = bi Schiefadjungierte z = −z Operatoren T ∗ = −T (Schiefhermitesche) Positive reelle Halbachse z ∈ (0, ∞) z = ww, w 6= 0 Positiv definite T = S∗S Operatoren S regulär 161 20.4 Projektionen und Orthogonalprojektionen In diesem Kapitel werden die anschaulichen Begriffe Projektion und Orthogonalprojektion auf abstrakte Vektorräume verallgemeinert und als idempotente bzw. selbstadjungierte lineare Abbildungen “entlarvt”. Damit kann dann gezeigt werden, daß Projektionen als Bausteine beliebiger Operatoren aufgefaßt werden können. Insbesondere können mit ihrer Hilfe Operatoren mit vorgegebenen EW und EV konstruiert werden! Beispiel A V =U ⊕W x = u + w mit u ∈ U und w ∈ W P (x) := u Q(x) := w P : Projektion auf U in Richtung W Die Projektion auf U in Richtung W geht von x aus parallel zu W auf U . Q: Projektion auf W in Richtung U im(P ) = U ker(P ) = W im(Q) = W, ker(P ) = U rg(P ) = dim(U ) rg(Q) = dim(W ) P 2 = P, Q2 = Q: idempotent P, Q linear P Q = QP = 0 (Nullabbildung) P + Q = id P Projektion auf U in Richtung W ⇔ V = im(P ) ⊕ ker(P ) V ist direkte Summe von Bild und Kern von P Also: Direkte Zerlegung von V entsprechen Zerlegungen der identischen Abbildung in vertauschbare Projektionen. Beispiel B U⊥ U ⊥ V = x = u + u0 mit u ∈ U und u ∈ U ⊥ P (x) := u Q(x) = u0 P : Orthogonalprojektion auf U in Richtung U⊥ Die Orthogonalprojektion auf U geht von x aus senkrecht auf U Q: Orthogonalprojektion auf U ⊥ in Richtung U U = im(P ) ⊥ im(Q) = U ⊥ P 2 = P, Q2 = Q P, Q linear P Q = QP = 0 P + Q = id P Orthogonalprojektion auf U ⇔ V = im(P ) ⊥ ker(P ) V ist orthogonale Summe von Bild und Kern von P. Also: Orthogonale Zerlegungen von V entsprechen Zerlegungen der identischen Abbildung in vertauschbare Orthogonalprojektionen. 162 Definition 20.5 Projektionen (i) U und W seien zwei direkte Komplemente von V . Die Projektion P : V → U auf U in Richtung W ist jener Operator auf V , der jedem x ∈ V seine direkte Komponenten bezüglich U zuordnet. Symbolisch: Sei V = U ⊕ W und x = u + w mit u ∈ U und w ∈ W , dann ist P (x) := u. (ii) Ist V ein endlichdimensionaler Skalarproduktraum, dann ist die orthogonale Projektion auf U die Projektion in Richtung U ⊥ . Bemerkung: Wegen der Direktheit der Summe ist u eindeutig bestimmt, daher ist P (x) tatsächlich eine Abbildung. Wegen der Endlichdimensionalität von V ist V = U ⊕ U ⊥ , also eine Projektion in Richtung U ⊥ möglich. Orthogonale Projektionen sind aber keine orthogonalen Abbildungen! (Daraus sieht man wieder, wir unglücklich der Name “orthogonale Abbildung” gewählt wurde.) Satz 20.13 Eigenschaften von Projektionen U, W C V mit V = U ⊕ W P Projektion auf U in Richtung W, Q Projektion auf W in Richtung U . (i) P ist linear (ii) P ist idempotent, also P 2 = P (iii) im(P ) = U, ker(P ) = W , also: V = im(P ) ⊕ ker(P ) (iv) Mit P ist auch id − P wieder eine Projektion und P (id − P ) = (id − P )P = 0 (v) ker(P ) = im(id − P ) und im(P ) = ker(id − P ) (vi) P singulär ⇔ P 6= id, d.h., jede nichttriviale Projektion ist singulär (vii) P (x) = x ∀x ∈ im(P ), d.h., P ist auf im(P ) die identische Abbildung (viii) P Q = QP = 0, d.h., P und Q sind vertauschbar (ix) P + Q = id 163 Beweise: (i) Sei x = u + w und y = u0 + w0 ⇒ x + y = (u + u0 ) + (w + w0 ) und λx = λu + λw ⇒ P (x + y) = u + u0 = P (x) + P (y) und P (λx) = λu = λP (x) (ii) P 2 (x) = P (P (x)) = P (u) = u = P (x) ∀x ∈ V ⇒ P 2 = P (iii) Sei u ∈ U ⇒ u = u + 0 mit 0 ∈ W ⇒ P (u) = u ⇒ u ∈ im(P ) ⇔ U ⊆ im(P ) Sei u ∈ im(P ) ⇒ ∃v ∈ V : P (v) = u ⇒ P (u) = P (P (v)) = P 2 (v) = P (v) = u ⇒ u ∈ U ⇒ im(P ) ⊆ U ⇒ im(P ) = U Sei w ∈ W ⇒ w = 0 + w mit 0 ∈ U ⇒ P (w) = 0 ⇒ w ∈ ker(P ) Sei y ∈ ker(P ) ⇒ P (y) = 0 ⇒ y = 0 + y mit y ∈ W ⇒ ker(P ) ⊆ W Damit ist V = U ⊕ W = im(P ) ⊕ ker(P ) (iv) id−p ist wieder linear. (id−p)(id−p) = id(id−p)−p(id−p) = id2 −id·p−p·id+p2 = id−p−p+p = id−p p(id − p) = p · id − p2 = p − p = 0 (id − p)p = id · p − p2 = p − p = 0 (v) x ∈ ker(p) ⇒ p(x) = 0 ⇒ (id − p)(x) = x − p(x) = x − 0 = x ⇒ x ∈ im(id − p) x ∈ im(id − p) ⇒ ∃y : x = (id − p)(y) = y − p(y) ⇒ p(x) = p(y − p(y)) = p(y) − p2 (y) = p(y) − p(y) = 0 ⇒ x ∈ ker(p) (vi) Ist ker(p) = {0} ⇔ im(id − p) = {0} ⇔ (id − p)(x) = 0∀x ∈ V ⇔ id(x) − p(x) = x − p(x) = 0 ⇔ p(x) = x∀x ∈ V ⇔ p = id (vii) Sei x ∈ im(p) ⇒ ∃y ∈ V : x = p(y) ⇒ p(x) = p(p(y)) ⇒ p(x) = p2 (y) = p(y) = x (viii) Q(x) ∈ W = ker(P ) nach (iii) ⇒ P (Q(x)) = 0 ⇒ P Q(x) = 0 ∀x ∈ V ⇒ P Q = 0 analog ist QP = 0 (ix) (P + Q)(x) = P (x) + Q(x) = u + w = x = id(x) ∀x ∈ V ⇒ P + Q = id Definition 20.6 Projektion auf die i−te Koordinatenachse Sei B = (b1 , . . . , bn ) eine Basis von V und x = k1 b1 + . . . ki bi + . . . + kn bn . Die Abbildung Pi : V → V mit Pi (x) := ki bi heißt die Projektion auf die i–te Koordinatenachse. Die Projektion Pi auf den i−ten Basisvektor ordnet jedem Vektor x die i−te Komponente bezüglich B zu. Wegen V =< b1 > ⊕ < b2 > ⊕ . . . ⊕ < bn > sind diese Pi (i = 1, . . . , n) nach 20.13 Projektionen auf < bi >, also Projektionen vom Rang 1 und P1 + P2 + . . . + Pn = id. Anwendung: Konstruktion von Operatoren mit vorgegebenen EW λ1 , . . . λr und dazugehörigen l.u. EV x1 , . . . , xr . 164 Ergänze (x1 , . . . , xr ) zu einer Basis B = (x1 , . . . , xr+1 , xr , . . . xn ) und stelle x als LinearkombiP nation der Basisvektoren dar: x = i ki xi von V . Definiere Pi : V → V (i = 1, . . . , n) wie in Definition 20.6, also: Pi (x) := ki xi und setze P := λ1 P1 + . . . + λn Pn : V → V . Für dieses P gilt (wegen xi = 0 · x1 + . . . + 1 · xi + . . . + 0 · xn ) P (xi ) = (λ1 P1 +. . .+λn Pn )(xi ) = λ1 P1 (xi )+. . .+λn Pn (xr ) = λ1 ·0+. . .+λi ·1·xi +. . .+λn ·0 = = λi xi , also ist xi EV von P zum EW λi . Beispiel: Konstruiere in K 3 einen Operator T , der x~1 = (1, 2, 3) und x~2 = (1, 0, 1) als EV zu den EW λ1 = 6 λ2 = 2 besitzt. 1. Basis B vom K 3 : B = (x~1 , x~2 , (0, 0, 1)) 2. Koordinaten des allgemeinen Vektors ~x = (x, y, z) bezüglich B: 1 1 0 x 2 2 0 2x 2 0 0 y 0 2 0 2x − y 3 1 1 z 0 0 1 −x − y + z 1 1 0 x 2 0 0 y 0 −2 0 y − 2x 0 2 0 2x − y 0 −2 1 z − 3x + 2x − y 0 0 1 −x − y + z 1 1 0 x 0 2 0 2x − y Also: 0 0 1 −x − y + z [x]B = ( 42 | 2x−y 2 | − x − y + z) 3. Definition der Pi0 s: P1 (x, y, z) = yz (1, 2, 3) = P2 (x, y, z) = 2x−y 2 (1, 0, 1) y 3y 2 , y, 2 2x−y = 2x−y |0| 2 2 4. Definition von P := 6P1 + 2P2 P (x, y, z) = (3y, 6y, 9y) + (2x − y, 0, 2x − y) = (2x + 2y, 6y, 2x + 8y) 2 2 0 [P ]St = 0 6 0 2 8 0 165 Satz 20.14 Eigenschaften von Orthogonalprojektionen V sei ein endlich–dimensionaler Skalarproduktraum, U C V . (i) Jede Orthogonalprojektion P auf U ist selbstadjungiert. (ii) im(P ) = U und ker(P ) = U ⊥ . Beweis: Es ist V = U ⊕ U ⊥ Sei x = u1 + w1 mit u1 ∈ U, w1 ∈ U ⊥ und (i) y = u2 + w2 mit u2 ∈ U, w2 ∈ U ⊥ . Dann gilt: < P (x), y > = < u1 , u2 + w2 >=< u1 , u2 > + < u1 , w2 >=< u1 , u2 > +0 =< u1 , u2 > < x, P (y) > = < u1 , w1 , u2 >=< u1 , u2 > + < w1 , u2 >=< u1 , u2 > +0 =< u1 , u2 > . (ii) gilt wegen V = U ⊕ U ⊥ . Also: Der lineare Operator P : V → V ist Orthogonalprojektion ⇔ V ist orthogonale Summe von im(P ) und ker(P ). Es ist dann P Orthogonalprojektion auf im(P ). Aus 20.13 wissen wir, daß Projektionen linear und idempotent sind. Es gilt aber auch die Umkehrung: Satz 20.15 Charakterisierung von Projektionen und Orthogonalprojektionen (i) P : V → V ist Projektion auf im(P ) in Richtung ker(P ) ⇔ P ist linear und idempotent. (ii) P : V → V ist Orthogonalprojektion auf im(P ) ⇔ P ist linear, idempotent und selbstadjungiert. Also: die Projektionen sind genau die idempotenten linearen Abbildungen. Die Orthogonalprojektionen sind genau die selbstadjungierten Projektionen. Beweis: Die Notwendigkeit folgt aus 20.13 und 20.14. (i) Sei P linear und idempotent: P 2 = P und U := im(P ), W := ker(P ). Dann ist zu zeigen: V = U ⊕ W . 1. Sei x ∈ V ⇒ x = P (x) + y mit y = x − P (x). Für dieses y gilt: P (y) = P (x − P (x)) = P (x) − P 2 (x) = P (x) − P (x) = 0 ⇒ x ∈ W ⇒ V = U + W . 2. Sei x ∈ U ⇒ x ∈ U = im(P ) ⇒ ∃y ∈ V : x = P (y) ⇒ x ∈ W = ker(P ) ⇒ P (x) = 0 ⇒ P (P (y)) = 0 ⇒ P (y) = 0 ⇒ ⇒ x = 0 ⇒ U ∩ W = 0. 166 (ii) Sei P selbstadjungierte Projektion: P 2 = P und < P (x), y >=< x, P (y) >. Dann ist zu zeigen: V = U⊥ W mit U = im(P ), W = ker(P ). Sei x ∈ im(P ) und v ∈ ker(P ) ⇒ x = P (y) mit y ∈ V und P (v) = 0 ⇒< x, v >=< P (y), v >=< y, P (v) >=< y, 0 >= 0 ⇒ U ⊥ W . Zusammenfassung: (i) Daß eine Abbildung P : V → V eine Projektion ist, kann man auf 2 Arten nachweisen: 1. P ist linear und ⇔ 2. P ist linear und V = im(P ) ⊕ ker(P ) P ist idempotent P ist dann Projektion auf im(P ) in Richtung ker(P ). (ii) Daß eine Abbildung P : V → V eine Orthogonalprojektion ist, kann man auf 2 Arten nachweisen. 1. P ist linear und P ist idempotent und 2. ⇔ P ist linear und V = im(P ) ⊥ ker(P ) P ist selbstadjungiert P ist dann eine Orthogonalprojektion auf im(P ). In Beispiel B galt für P und Q: im(P ) ⊥ im(Q). Im allgemeinen ist die Summe von zwei Orthogonalprojektionen keine solche mehr. Definition 20.7 Orthogonale Mengen von Operatoren a) Zwei Operatoren P, Q : V → V eines Skalarproduktraumes heißen ein orthogonales Paar {P, Q} bzw. orthogonal zueinander, wenn gilt (i) P, Q sind Orthogonalprojektionen (ii) im(P ) ⊥ im(Q). b) Eine Menge von Operatoren ist eine orthogonale Menge von Operatoren, wenn jedes Paar ein orthogonales Paar ist. Für ein orthogonales Paar {P, Q} gilt: Satz 20.16 Summe von zwei Orthogonalprojektionen (P, Q) sei ein orthogonales Paar von Orthogonalprojektionen. Dann gilt: c) P Q = QP = 0 (Nullabbildung). d) P + Q ist wieder eine Orthogonalprojektion. 167 Diese Eigenschaft ist auf endlich viele Summanden verallgemeinerbar. Beweis: c) Ist x ∈ V ⇒ Q(x) ∈ im(Q) ⇒ Q(x) ∈ im(P )⊥ ⇒ Q(x) = 0 + Q(x) mit 0 ∈ im(P ) ⇒ Q(x) ⊥ im(P ) ⇒ (P Q)(x) = P (Q(x)) = 0 ⇒ P Q = 0 (Nullabbildung). Analog: QP = 0. d) P + Q ist linear und selbstadjungiert, weil es P und Q sind und nach c) gilt: P Q + QP + P 2 = P 2 + Q2 = P + Q. Also ist P + Q nach 20.15 (ii) Orthogonalprojektion. Bemerkung: Ist (P, Q) kein orthogonales Paar, dann ist P + Q keine Orthogonalprojektion. Beispiel: Die Projektionen Pi auf die i–ten Basisvektoren einer ON–Basis sind eine orthogonale Menge von Projektionen. V =< e1 , . . . , en >= < e1 > ⊕ < e2 > ⊕ . . . ⊕ < en > | id | = P1 | + P2 | +...+ Pn Beobachtung: Der “n−Dimensionalität” entspricht die Zerlegung von id in eine n−elementige orthogonale Menge von Orthogonalprojektionen. Es gilt: V =< ei > ⊕ . . . ⊕ < ei > ⊕ . . . ⊕ < en >=< ei > ⊕Wi , wobei Wi die direkte Summe der übrigen < ej > ist. Pi sei die Projektion auf den i–ten Basisvektor ei : Pi projiziert jeden Vektor x auf die Richtung des i−ten Basisvektors. Pi ist ein orthogonaler Operator, weil Wi ⊥< ei >. (P1 , . . . , Pn ) ist eine orthogonale Menge von Projektionen: Es ist im(Pi ) =< ei >⊥< ej >= im(Pj ). Bezüglich einer ON–Basis kann man Pi durch eine Formel angeben: P Es ist x = i < x, ei > ei ⇒ Pi (x) =< x, ei > ei . 168 Damit gilt: P1 + P2 + . . . + Pn = id denn: (P1 . . . + Pn )(x) = P1 (x) + . . . + Pn (x) =< x, e1 > e1 + . . . + < x, en > en = x = id(x). Matrixdarstellung der Pi , bezüglich einer anderen ON–Basis F = (f1 , . . . , fn ). Für die r − s−te Eintragung der Matrixdarstellung [Pi ]F gilt: [Pi ]rs = < Pi (fs ), fr >=<< fs , ei > ei , fr >= = < fs , ei >< ei , fr >=< ei , fr > · < ei , fs >. Bezeichnet [ei ]F = (ei1 , ei2 , . . . , ein )t den Koordinatenvektor von ei bezüglich F , dann gilt für die Matrix [Pi ]F : e e ei1 ei2 . . . ei1 ein i1 i1 .. [Pi ]F = . ein ei1 ein ei2 . . . ein ein ei1 .. = . · (ei1 , . . . , ein ) = [ei ]F [ei ]∗F , ein Also: [Pi ]F = [ei ]F · [ei ]∗F Definition 20.8 Äußeres Produkt von zwei n–Tupeln [x] · [y]∗ heißt das äußere Produkt (outer product) der Spaltenvektoren [x], [y]. Obige Überlegungen zeigen folgenden Satz 20.17 Matrixdarstellung von Orthogonalprojektionen Die Matrixdarstellung der Orthogonalprojektion Pi auf den i–ten Basisvektor einer ON–Basis ist gegeben durch das äußere Produkt des Koordinatenvektors [ei ] mit sich selbst: [Pi ] = [ei ] · [ei ]∗ . Spezialfall: Matrixdarstellung Pi bezüglich derselben Basis B = (e1 , . . . , en ): der 0 i . .. . 0 . . . .. . . . 0 i (0, . . . , 1, . . . 0) ⇒ [ei ]B = (0, . . . , 1, . . . 0) ⇒ 1 0 ... 1 ... 0 . . . 0 0 0 P i [Pi ] = diag(1, 1, . . . , 1), oder P i Pi = id 169 Das ist wiederum die Zerlegung der identischen Abbildunge in eine Summe von Orthogonalprojektionen. Zusammenfassung: Formeln für Orthogonalprojektionen: 1. Sei (e1 , . . . , ek ) eine ON–Basis von U und P Orthogonalprojektion auf U : P(x) =< x, e1 > e1 + . . . + < x, ek > ek 2. Spezialfall: U =< a > Orthogonalprojektion von x auf a: P = proja x = < x, a > ·a kak2 Denn: e1 = a/kak a P (x) =< x, e1 > e1 =< x, kak > a kak = 1 kak a < x, a > · kak = <x,a> a. kak2 3. Spezialfall: U =< b~1 , b~2 , . . . b~k > CK n . Fasse U als Spaltenraum der Matrix A auf: U = S(A). P Orthogonalprojektion von ~x auf U = S(A): P = projS(A) x̃ = A(At A)−1 At x̃ [P ]St = A(At A)−1 At . 20.5 Geometrie linearer Operatoren im IR2 bzw. IR3 Es wird gezeigt, wie man aus der Gestalt der Matrixdarstellung auf die Wirkung eines linearen Operators T : IR2 → IR3 (IR3 → IR3 ) schließen kann. Umgekehrt kann man aus dem Wirkungsprofil eines Operators seine Matrixdarstelung relativ leicht angeben. Dabei beschränken wir uns auf Matrixdarstellungen bezüglich der Standardbasis, alle anderen sind ja dazu ähnlich. Je nach Wirkung des Operators erhalten diese spezielle Namen. Je nachdem, ob die geordneten Paare (Tupel) als Koordinaten von Punkten oder als Komponenten von geometrischen Vektoren (Pfeilen) auffaßt, entspricht dem Operator T eine Umwandlung von Punkten oder von Pfeilen. Beide Auffassungen sind mathematisch gleichwertig. 170 Um die Wirkung des Operators zu studieren, untersucht man am besten die Veränderung des Einheitsquadrates (Einheitswürfels). Dadurch kann man auch die Bilder der Standard–ON– Basisvektoren {(0, 1), (0, 1)} und damit die Matrixdarstellung leicht angeben. Im Raum erhält man die Standardmatrix am besten aus den Abbildungsgleichungen, die man durch geometrische Überlegungen aus der Definition erhält oder indem man sich vorstellt, in welche Punkte die Ecken des Einheitswürfels verändert werden. Definition 20.9 Reflexionsoperatoren (Spiegelungen) Spiegelungen sind Operatoren T auf IR2 bzw. IR3 , die jeden Punkt auf sein “Spiegelbild” bezüglich einer festen Geraden oder Ebene abbilden. Beispiel: Spiegelung T : IR2 → IR2 an der y−Achse: ~y = T ((~x) y1 = −x1 = −x1 + 0 · x2 y2 = x2 = 0 · x1 + 1 · x2 −1 0 ~x ~y = 0 1 T (1, 0) = (−1, 0) Abbildungsgleichung T (0, 1) = (0, 1) −1 0 Tst = 0 1 T : y1 = −x1 y2 = x2 171 Aus den Abbildungsgleichungen erkennt man, daß Spiegelungen lineare Operatoren sind (die Variablen kommen nur in der ersten Potenz vor). Man sieht dies aber auch rechnerisch ganz leicht ein: Seien A = (a1 , a2 ) und B = (b1 , b2 ) zwei Punkte (Vektoren). Dann ist A + B = (a1 + b1 , a2 + b2 ), λA = (λa1 , λa2 ) und T (A + B) = −(a1 + b1 ) = −a1 a2 a2 + b2 −λa1 1 T (λA) = a2 = λ −a a2 = λT (A). + −b1 b2 = T (A) + T (B) Oder geometrisch: Ähnlich geht man bei den anderen Operatoren vor, deren Eigenschaften wir nur mehr tabellarisch zusammenfassen. 172 Tabelle der Spiegelungen Operator Wirkung Gleichung Standardmatrix Spiegelung an y − Achse y1 = −x1 y2 = x2 −1 0 0 1 Spiegelung an x − Achse y1 = x1 y2 = −x2 1 0 0 −1 Spiegelung an y=x y1 = x2 y2 = x1 0 1 1 0 y1 = x1 y2 = x2 y3 = −x3 Spiegelung an xy − Ebene y1 = x1 y2 = −x2 y3 = x3 Spiegelung an xz − Ebene Spiegelung an yz − Ebene y1 = −x1 y2 = x2 y3 = x3 1 0 0 0 1 0 0 0 −1 1 0 0 0 −1 0 0 0 1 −1 0 0 0 1 0 0 0 1 Definition 20.10 Projektionsoperatoren Projektionsoperatoren sind Operatoren T auf IR2 bzw. IR3 , die jeden Punkt seine “Orthogonalprojektion” auf eine durch den Ursprung gehende Gerade oder Ebene abbilden. 173 Tabelle der Projektionen Operator Wirkung Gleichung Standardmatrix Orthogonalprojektion auf x − Achse y1 = x1 y2 = 0 1 0 0 0 Orthogonalprojektion auf y − Achse y1 = 0 y2 = x2 0 0 0 1 Orthogonalprojektion auf xy − Ebene y1 = x1 y2 = x2 y3 = 0 Orthogonalprojektion auf xz − Ebene y1 = x1 y2 = 0 y3 = x3 Orthogonalprojektion auf yz − Ebene y1 = 0 y2 = x2 y3 = x3 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 Definition 20.11 Rotationsoperatoren (Drehungen) (i) Drehungen in der Ebene um den Ursprung 0 sind Operatoren auf IR2 , die jeden Punkt um einen festen Winkel ϕ drehen. (ii) Rotationsoperatoren (Drehungen) im Raum um eine feste Rotationsachse durch den Ursprung 0 sind Operatoren auf IR3 , die jeden Punkt um einen festen Winkel ϕ drehen. Die Rotationschase (Drehachse) wird durch einen Einheitsvektor u = (a, b, c) beschrieben. Drehungen entgegen dem Uhrzeigersinn (im Raum erkennbar durch die Rechte–Hand–Regel) werden als positiv bezeichnet und mit einem positiven Drehwinkel angegeben (sonst negativ). 174 Rechte–Hand–Regel: Herleitung der Abbildungsgleichung in der Ebene: x1 = r cos α y1 = r cos(α + ϕ) x2 = r sin α y2 = r sin(α + ϕ) Anwendung der Additionstheoreme ergibt: y1 = r cos ϕ cos α − r sin ϕ sin α = x1 cos ϕ − x2 sin α y2 = r sin ϕ cos α + r cos ϕ sin α = x1 sin ϕ + x2 cos ϕ oder in vektorieller Form: cos ϕ − sin ϕ cos ϕ − sin ϕ cos ϕ − sin ϕ y1 x1 = ~x ⇒ [T ] = ~y = = y2 x 2 sin ϕ cos ϕ sin ϕ cos ϕ sin ϕ cos ϕ Da die Gleichungen linear sind, sind Drehungen um 0 lineare Operatoren (nicht jedoch Drehungen um M 6= 0). Dies ist auch konstruktiv einzusehen. Zweite Methode zur Herleitung der Darstellungsmatrix [T ]: Mittels der Definition von Sinus und Cosinus erkennt man sofort: ◦ ) = T (0, 1) = cos(ϕ+90 cos ϕ cos ϕ − sin ϕ Damit ist [T ]st = sin ϕ cos ϕ T (1, 0) = cos ϕ sin ϕ − sin ϕ cos ϕ Die Darstellungsmatrix [T ] einer Drehung um ϕ gegen den Uhrzeigersinn um die Rotationsachse u = (a, b, c) (Einheitsvektor) ist gegeben durch: a2 (1 − cos ϕ) + cos ϕ ab(1 − cos ϕ) − c sin ϕ ac(1 − cos ϕ) + b sin ϕ [T ] = ab(1 − cos ϕ) + c sin ϕ b2 (1 − cos ϕ) + cos ϕ bc(1 − cos ϕ) − a sin ϕ ac(1 − cos ϕ) − b sin ϕ bc(1 − cos ϕ) + a sin ϕ c2 (1 − cos ϕ) + cos ϕ Daraus oder auch mittels elementarer geometrischer Überlegungen erhält man folgende 175 Tabelle der Rotationen (Drehungen) (entgegengesetzt dem Uhrzeigersinn) Operator Wirkung Gleichung Standardmatrix Drehung um 0 um den Winkel ϕ y1 = x1 cos ϕ − x2 sin ϕ y2 = x1 sin ϕ + x2 cos ϕ Drehung um ϕ um x − Achse y1 = x1 y2 = x2 cos ϕ − x3 sin ϕ y3 = x2 sin ϕ + x3 cos ϕ Drehung um ϕ um y − Achse y1 = x1 cos ϕ + x3 sin ϕ y2 = x2 y3 = −x1 sin ϕ + x3 cos ϕ Drehung um ϕ um z − Achse y1 = x1 cos ϕ − x2 sin ϕ y2 = x1 sin ϕ + x2 cos ϕ y3 = x3 cos ϕ − sin ϕ sin ϕ cos ϕ 1 0 0 0 cos ϕ − sin ϕ 0 sin ϕ cos ϕ cos ϕ 0 sin ϕ 0 1 0 − sin ϕ 0 cos ϕ cos ϕ − sin ϕ 0 sin ϕ cos ϕ 0 0 0 1 Allgemein gilt: Satz 20.18 Drehungsmatrix Sei A eine 2 × 2− bzw. 3 × 3−Matrix mit det(A) = +1, deren Spalten paarweise orthogonale Einheitsvektoren sind. Die Multiplikation mit A beschreibt dann eine Drehung um den Winkel ϕ mit cos ϕ = sp(A)−1 2 und (im Raum) um die Rotationsachse: ũ = Ax̃ + At x + (1 − sp(A))x̃ ohne Beweis. Definition 20.12 Dilatations– bzw. Kontraktionsoperatoren Dilatationen (Kontraktionen) sind Operatoren T , die jeden Punkt (Vektor) um den Faktor k ≥ 1 strecken bzw. um den Faktor 0 ≤ k ≤ 1 stauchen: T(x̃) = kx̃. Bemerkung: Der gesamte Raum wird gleichzeitig bezüglich des Ursprungs 0 gestreckt bzw. gestaucht. 176 Stauchung (Kontraktion) Streckung (Dilatation) k = 0 : T ist Nulloperator k = 1 : T ist identischer Operator Tabelle der Kontraktionen und Dilatationen Operator Wirkung Gleichung Standardmatrix Kontraktion im IR2 (IR3 ) um Faktor l (0 ≤ k ≤ 1) y1 = kx1 y2 = kx2 (y3 = kx3 ) Dilatation im IR2 (IR3 ) um Faktor k (k ≥ 1) y1 = kx1 y2 = kx2 (y3 = kx3 ) k 0 0 k k 0 0 0 k 0 0 0 k Definition 20.13 Expansions– bzw. Kompressionsoperatoren Eine Expansion bzw. Kompression in x–Richtung um den Faktor k ist ein Operator T auf IR2 , der die x−Koordinate eines Punktes mit einer positiven Konstanten k > 1 bzw. 0 < k < 1 multipliziert. Multipliziert man die y−Koordinaten mit k erhält man analog Expansionen bzw. Kompressionen in y–Richtung. Bemerkung: Rechnerisch (T (x1 , x2 ) = (kx1 , x2 )) wie auch konstruktiv sieht man, daß Ex pansionen und Kompressionen linear sind. Die Bilder der Einheitsvektoren T 10 = k0 und T 01 = 01 liefern die Standardmatrizen. 177 Tabelle der Kompressionen und Expansionen Operator Wirkung Gleichung Standardmatrix Kompression im IR2 in x−Richtung um Faktor k (0 < k < 1) y1 = kx1 y2 = x2 k 0 0 1 Kompression im IR2 in y−Richtung um Faktor k (0 < k < 1) y1 = x1 y2 = kx2 1 0 0 k Expansion im IR2 in x−Richtung um Faktor k (k > 1) y1 = kx1 y2 = x2 k 0 0 1 Expansion im IR2 in y−Richtung um Faktor k (k > 1) y1 = x1 y2 = kx2 1 0 0 k Expansion in x−Richtung um Faktor k1 Kompression in y−Richtung um Faktor k2 y1 = k1 x1 y2 = k2 x2 k1 0 0 k2 Definition 20.14 Scherungen Scherungen in x–Richtung um den Faktor k sind Operatoren T auf IR2 , die jeden Punkt (x1 , x2 ) parallel in x−Richtung um kx2 in den Punkt (x1 + kx2 , x2 ) verschieben. Es ist T (x1 , x2 ) = (x1 + kx2 , x2 ), daher sind Scherungen linear. Je weiter man sich von der x−Achse entfernt, umso mehr wird ein Punkt verschoben. Aus T (1, 0) = (1, 0) und T (0, 1) = (k, 1) ergibt sich die Standardmatrix. Analog in y−Richtung. 178 Tabelle der Scherungen Operator Wirkung Gleichung Standardmatrix Scherung im IR2 in x−Richtung um Faktor k > 0 y1 = x1 + kx2 y2 = x2 1 k 0 1 Scherung im IR2 in y−Richtung um Faktor k > 0 y1 = x1 y2 = kx1 + x2 1 0 k 1 Expansion im IR3 in xy−Richtung um Faktor k y1 = x1 + kx3 k 0 k y2 = x2 + kx3 0 1 k y3 = x3 0 0 1 Beispiel: Bestimme die Darstellungsmatrix jenes Operators auf IR2 , der jeden Punkt zuerst um den Faktor 3 in x−Richtung verzerrt (“schert”) und dann an y 1 3 , Scherung [T1 ] = 0 1 0 1 0 1 1 ⇒ [T ] = [T2 ][T1 ] = Reflextion [T2 ] = 1 0 1 0 0 Beachte: Es ist [T2 ][T1 ] 6= [T1 ][T2 ], Reflexion und Scherung sind = x spiegelt. 3 0 1 = 1 1 3 also nicht vertauschbar. Satz 20.19 Geometrische Deutung von Elementarmatrizen Die Multiplikation mit einer Elementarmatrix bedeutet geometrisch: (i) Scherung in eine Koordinatenrichtung (ii) Spiegelung an y = x (ii) Kompression in eine Koordinatenrichtung (iv) Expansion in eine Koordinatenrichtung (v) Spiegelung an einer Koordinantenrichtung (vi) Kompression oder Expansion in einer Koordinatenrichtung und anschließend eine Spiegelung an einer Koordinatenachse. 179 Beweis: Jede 2 × 2−Elementarmatrix entsteht aus der I2 durch elementare Zeilenumformungen, daher folgende Elementarmatrizen können nur auftreten: 1 0 1 k 0 1 k 0 k 1 0 1 1 0 0 1 | {z } | {z } | {z } | {z } | 1 0 0 k {z } Scherung Scherung Spiegelung an wenn k > 0 k>0 y−Richtung x−Richtung y=x Kompression (k ≤ 1) Kompression Expansion (k ≥ 1) Expansion in x−Richtung in y−Richtung Ist bei den dann setzenwir k = −k1 mit k1 > 0 und formen um letzten beidenMatrizen k < 0, k 0 −k1 0 k 0 −1 0 = = 1 0 1 0 1 0 1 0 1 {z } | {z } | 1 0 0 k = 1 0 0 −k1 Spiegelung an Kompresion (k1 ≤ 1) y−Achse Expansion (k1 ≥ 1) = | 1 0 0 −1 {z } in x−Richtung 1 0 0 k1 {z } | Spiegelung an Kompresion x−Achse Expansion in y−Richtung Für k = −1 ist: −1 0 : Spiegelung an y−Achse und 1 0 : Spiegelung an x−Achse 0 −1 Damit sind alle Fälle aufgezählt. 180 Satz 20.20 Geometrische Deutung von invertierbaren Matrixabbildungen Die Multiplikation mit einer invertierbaren Matrix bedeutet geometrisch eine geeignete Folge von Scherungen, Kompressionen, Expansionen und Spiegelungen. Beweis: A invertierbar ⇒ A ist zeilenäquivalent zur Einheitsmatrix ⇔ A ist Produkt von Elementarmatrizen (siehe ??), die Behauptung folgt aus dem vorhergehenden Satz. Beispiel: Beschreibe die geometrische Wirkung des Operators mit der Standardmatrixdarstellung A = 1 2 oder äquivalent dazu: Beschreibe die geometrische Wirkung der Multipli- 3 4 kation mit der Matrix A. Lösung: Stelle A als Produkt von Elementarmatrizen dar, indem man sie auf die kanonische Staffelform (= identische Matrix bei invertierbaren Matrizen). −3 1 2 3 4 E1 = 1 2 E2 = 0 −2 : −2 −1 = A = E1−1 A−1 2 E3 = 1 2 0 1 1 0 0 1 1 0 E3 = −2 1 0 −3 1 1 0 0 − 12 1 −2 0 1 E3 E2 E1 A = I2 ⇒ 1 0 1 2 3 1 0 −2 0 1 1 0 1 0 3 1 0 −1 | {z } {z } | | 1 0 0 2 {z } | 1 2 0 1 {z } Scherung in Spiegelung an Expansion in Scherung in y−Richtung y−Richtung y−Richtung x−Richtung um k = 2 um k = 2 um k = 3 Die durch invertierbare 2 × 2−Matrizen induzierten linearen Abbildungen (= Matrixmultiplikationen mit invertierbaren Matrizen) sind Isomorphismen auf IR2 , daher gelten die Eigenschaften der Teilraumtreue, Dimensionstreue, Parallelentreue, ... Zusammenfassung für die Ebene: 181 Satz 20.21 Geometrische Eigenschaften von invertierbaren Matrizen Für die Multiplikation TA mit einer invertierbaren 2 × 2−Matrix A gilt: (i) TA bildet Geraden auf Geraden ab. (ii) Das Bild einer Geraden durch den Ursprung ist wieder eine solche. (iii) Parallele Geraden werden auf parallele Geraden abgebildet. (iv) Die Strecke P Q wird auf die Strecke TA (P )TA (Q) abgebildet. (v) Drei Punkte sind genau dann kollinear, wenn ihre Bilder kollinear sind. (vi) Dreiecke (Parallelogramme) werden auf Dreiecke (Parallelogramme) abgebildet. Beispiel: Die invertierbare Matrix A = 1 2 3 4 eine Gerade ab. Bestimme deren Gleichung. bildet die Gerade g : y = 3x + 1 wieder auf Lösung: (x, y) sei ein Punkt auf y = 3x + 1 und (x0 , y 0 ) sein Bild unter der Multiplikation mit A. Es sit −1 0 0 0 1 2 x x 1 2 x x −4 2 x = 1 = ⇔ = 2 0 0 0 y y 3 4 y y 3 4 y 3 −1 y = 3x + 1 ⇔ 3x − y = −1 ⇔ (3, −1) (−15, 7) x0 y0 x y = −1 ⇔ 1 (3, −1) 2 ∈ 2 3 −1 x0 y0 = −1 ⇔ = −2 ⇔ −15x0 + 7y 0 = −2 ⇔ g 0 : 15x0 − 7y0 = 2 : Probe: Es ist P (1/4) ∈ g. P 0 := TA (P ) = g0 −4 P0 : 9 · 15 − 7 · 19 = 135 − 133 = 2. 1 2 3 4 1 4 = 9 19 ⇔ P 0 (9/19). 182 VI VEREINFACHEN VON MATRIZEN In diesem Kernstück der Linearen Algebra wird gezeigt, wie man eine Matrix A durch Links– und Rechtsmultiplikation mit regulären Matrizen P und Q auf “einfachere” Formen (die man dann Normalformen nennt) transformieren kann. Mit “einfach” meint man, daß die neue Matrix QAP als Eintragungen möglichst viele Nullen und sonst nur Einser, wenn möglich nur in der Hauptdiagonale enthalten soll, denn mit Diagonalmatrizen läßt es sich besonders leicht rechnen. Die Transformation A → QAP nennt man dann Diagonalisieren. P und Q sollen deshalb regulär sein, damit man durch die Transformation den Rang der Ausgangsmatrix, die wichtigste Kennzahl einer Matrix, nicht verändert. Außerdem existieren dann auch die inversen Matrizen P −1 und Q−1 , durch die die Transformation wieder rückgängig gemacht werden kann: A → QAP = B ⇒ Q−1 BP −1 = A. Wozu braucht man einfache Matrizen? Ein Hauptziel der Linearen Algebra ist es, lineare Gleichungssysteme, bzw. mehrere davon zusammengefaßt in Matrixgleichungen, zu lösen. Eine beliebte Strategie dafür ist das Substituieren, um das Lösen zu vereinfachen. Gegeben sei die Matrixgleichung Y = AX (Oft sind Y und X “nur” Vektoren ~y , ~x, z.B. bei Differentialgleichungen ~y 0 = A~x). Durch Substitution X = P X̄ bzw. Y = P Ȳ oder Y = QY , erhält man: P Ȳ = AP X̄ ⇔ Ȳ = (P −1 AP )X̄ oder QY = AP X ⇔ Y = (Q−1 AP )X. Die “neue” Gleichung wird also durch eine zur “alten” Gleichung ähnlichen bzw. äquivalenten Matrix beschrieben. Ist P −1 AP bzw. Q−1 AP möglichst einfach (z.B. eine Diagonalmatrix), dann kann die neue Gleichung leichter als die alte gelöst werden, aus den Lösungen X̄, Ȳ erhält man die ursprünglichen Lösungen einfach durch Multiplikation mit P : X = P Ȳ , Y = P Ȳ oder Y = QȲ . Neben dem leichten Lösen von Gleichungssystemen kann man mit einfachen Matrizen auch leichter Matrixfunktionen berechnen, die ihrerseits wiederum beim Lösen von Differentialgleichungssystemen benötigt werden. Das Vereinfachen kann dabei auf 4 Arten erfolgen, je nachdem, welche Matrizen P, Q vom Problem her zugelassen sind. Oft ist nur Q = P möglich (man spricht dann von Ähnlichkeitstransformationen), oder P muß eine unitäre Matrix sein (wenn Abstände oder Winkel erhalten bleiben sollen) oder Q = P t . Man unterscheidet daher vier Transformationsarten von Matrizen. 183 Es wird sich zeigen, daß man jede Matrix durch eine Äquivalenztransformation auf eine Diagonalmatrix mit höchstens Einsern in der Hauptdiagonalen transformieren kann (Normalformensatz), mit Ähnlichkeitstransformationen geht dies im allgemeinen nicht. Die nächst einfacheren Matrizen nach den Diagonalmatrizen sind jene, die Blöcke (mit vielen Nullen) längs der Hauptdiagonale enthalten (Blockdiagonalisieren). Das beste Resultat, das man durch Ähnlichkeitstransformation erreichen kann, ist wohl der Jordansche Normalformensatz. Oft reicht es aus, Matrizen auf Dreiecksform zu bringen (Triangulieren). Alle diese Fragen sind eng verbunden mit der Suche nach möglichst einfachen Matrixdarstellungen von gewissen linearen Abbildungen, so daß es zu jedem matrizentheoretischem Satz auch eine abbildungstheoretische Formulierung gibt (z.B. Spektralsätze für selbstadjungierte bzw. normale Operatoren). In der Regel werden wir die abbildungstheoretische Formulierung beweisen, die matrizentheoretische folgt dann als ein Spezialfall. 184 21 Diagonalisieren Ist A eine Diagonalmatrix, dann werden nummerische Berechnungen besonders einfach: k λ1 0 λ−1 0 λ 0 1 1 . . .. −1 k . . A= ⇒A = und A = . . . −1 k 0 λn 0 λn 0 λn Auch die Lösungen von A~x = ~b können einfach abgelesen werden. Man wird daher bestrebt sein, eine Matrix A durch Bildung von QAP auf Diagonalgestalt zu bringen. Leider geht dies nicht immer. Je nachdem, mit welchen Matrizen P, Q man eine gegebene Matrix con links und rechts multipliziert, unterscheidet man folgende Arten von Matrixtransformation. Definition 21.1 Matrixtransformationen A sei eine rechteckige Matrix und P, Q entsprechende quadratische Matrizen. (i) Der Übergang von A zu QAP mit regulärem P, Q heißt Äquivalenztransformation der Matrix A. Im Folgenden seien A, P, Q quadratische n × n−Matrizen. (ii) Der Übergang von A zu P −1 AP mit regulärem P heißt Ähnlichkeitstransformation der Matrix A. (iii) Der Übergang von A zu P −1 AP mit orthogonalem (unitärem) P heißt orthogonale (unitäre) Ähnlichkeitstransformation der Matrix A. (iv) Der Übergang von A zu P ∗ AP mit regulärem P heißt Kongruenztransformation der Matrix A. Diesen vier Transformationen entsprechen vier Relationen zwischen Matrizen, von denen uns die ersten beiden schon bekannt sind. 185 Definition 21.2 Matrixrelationen A und B seien zwei m × n−Matrizen, Q sei eine m × m− und P eine n × n−Matrix. 1. B heißt äquivalent zu A, wenn B aus A durch eine Äquivalenztransformation hervorgeht. Symbolisch: B ∼1 A ⇔ ∃ reguläres Q, P : B = QAP 2. B heißt ähnlich zu A, wenn B aus A durch eine Ähnlichkeitstransformation hervorgeht. Symbolisch: B ∼2 A ⇔ ∃ reguläre P : B = P −1 AP 3. B heißt orthogonal (unitär) ähnlich zu A, wenn B aus A durch eine orthogonale (unitäre) Ähnlichkeitstransformation hervorgeht. Symbolisch: B ∼3 A ⇔ ∃ orthogonales (unitäres) P : B = P −1 AP = P ∗ AP 4. B heißt kongruent zu A, wenn B aus A durch eine Kongruenztransformation hervorgeht. Symbolisch: B ∼4 A ⇔ ∃ reguläres P : BP ∗ AP Unitär ähnliche Matrizen sind also ein Spezialfall von kongruenten Matrizen. Da reguläre bzw. orthogonale (unitäre) Matrizen bezüglich der Multiplikation eine Gruppe bilden, handelt es sich bei allen Relationen um Äquivalentrelationen. 21.1 Äquivalentes Diagonalisieren Mittels Äquivalenztransformationen erhält man das Traumresultat: Jede Matrix kann auf Diagonalform mit nur Einsern in der Hauptdiagonale gebracht werden. Wir zeigen dazu, daß jede lineare Abbildung f : V → W durch eine geschickte Wahl von Basisvektoren durch eine Diagonalmatrix dargestellt werden kann. Entscheidend dafür ist nur der Rang von f . Wegen der entsprechenden Formeln über die Änderung der Matrixdarstellung bei Basiswechsel (siehe Satz 18.2) erhält man dadurch eine Aussage über die Möglichkeiten einer Äquivalenztransformation von Matrizen. 186 Satz 21.1 Normalformensatz (i) Abbildungstheoretische Formulierung: f : V → W sei eine lineare Abbildung mit rg(f ) = r. Dann existieren solche Basen von V und W , bezüglich der die Matrixdarstellung [f ] von f folgende Form besitzt. [f ] = O O O Ir 1 .. . mit Ir = 0 0 | , d.h. Ir ist die r−stufige Einheitsmatrix 1 {z } r (ii) Matrizentheoretische Formulierung: Jede m × n−Matrix A vom Rang r ist äquivalent zu rg(A) = r ⇒ A ∼1 O O O Ir O O O Ir O O O Ir , d.h., . heißt die Normalformendarstellung von f bzw. A. Beweis zu (i): Sei ker(f ) =< u1 , . . . , un−r > (möglich, weil rg(f ) = r und dim(V ) = n). Nach dem Basisergänzungssatz kann man {u1 , . . . , un−r } zu einer Basis von V n ergänzen, wir schreiben die ergänzenden Vektoren zu Beginn: V n =< v1 , . . . , vr , u1 , . . . , un−r > . Es ist dann {f (v1 ), . . . , f (vr )} eine Basis von im(f ). Diese kann zu einer Basis von W ergänzt werden. Wir schreiben die ergänzenden Vektoren am Ende an: W m =< f (v1 ), . . . , f (vr ), w1 , . . . , wm−r > . Für diese Basen gilt: f (v1 ) .. . = 1 · f (v1 )+ .. . ... +0 · f (vr )+ .. . ... 0 · wm−r .. . f (v1 ) = 0 · f (v1 )+ ... +1 · f (vr )+ ... 0 · wm−r 0= .. . f (u1 ) .. . = 0 · f (v1 )+ .. . ... +0 · f (vr )+ .. . ... 0 · wm−r .. . 0= f (un−r ) = 0 · f (v1 )+ ... +0 · f (vr )+ ... 0 · wm−r Daraus folgt nach Definition der Matrixdarstellung die behauptete Normalform. 187 Beweis zu (ii): Fasse A als Abbildung TA : K n → K m mittels TA (~ x) = A · ~ x auf, dann ist A = [TA ]st . Die Anwendung von (i) ergibt (ii). Damit erhält man folgende Äquivalenzinvariante für Matrizen: Satz 21.2 Äquivalenzsatz für Matrizen Zwei Matrizen A und B sind genau dann äquivalent, wenn sie gleichen Rang haben. Beweis: 1. Sei rg(A) = rg(B) = r ⇒ nach Satz 21.1 Ir 0 I 0 I 0 und B ∼1 r ⇒ A ∼1 r ∼1 B ⇒ A ∼1 B. A ∼1 0 0 0 0 0 0 2. Seien A und B äquivalent ⇒ ∃ reguläre Q und P mit B = QAP ⇒ rg(B) = rg(QAP ) = rg[(QA)P ] = rg(QA) = rg(A). Bemerkung: Aus der Gleichheit der Ränge folgt also die Äquivalenz der Matrizen, nicht aber die Ähnlichkeit (siehe Satz 17.2). Algorithmus zum äquivalenten Diagonalisieren: Da jede reguläre Matrix Produkt von Elementarmatrizen ist, erhält man aus dem Normalformensatz: QAP 0 = Er Er−1 . . . E2 E1 AE10 E20 . . . Es−1 Es0 = Ir 0 0 Es0 = = Er Er−1 . . . E2 E1 Im A In E10 E20 . . . Es−1 {z } | | {z } 0 Q P 0 Nun ruft bekanntlich die Linksmultiplikation mit Elementarmatrizen eine Zeilenumformung, eine Rechtsmultiplikation eine Spaltenumformung hervor. Bringt man daher A durch elementare Zeilen– und Spaltenumformungen auf die Normalform (dies ist möglich wegen des Normalformensatzes,) so erhält man das gesuchte Q durch Anwenden derselben Zeilenumformungen auf die Einheitsmatrix Im und P durch Anwenden derselben Spaltenumformungen auf In : Dies kann simultan erfolgen, wenn man Im , A, In nebeneinander anschreibt: 188 Im A In ↓ ↓ ↓ Zeilenumformungen Zeilen– und Spaltenumformungen Spaltenumformungen ↓ ↓ Q ↓ Ir 0 0 0 P Beispiel: 0 Transformiere A = @ 1 2 3 1 0 1 1 A auf Normalform. 1 0 1 2 3 1 0 0 0 1 1 0 1 0 1 0 0 0 1 1 0 1 2 3 1 0 0 −1 1 0 −2 −2 0 0 1 0 0 1 1 0 1 0 0 1 −2 −3 −1 1 0 −2 −2 0 1 0 0 0 1 Q= 1 0 1 0 0 1 −2 −3 1 2 − 21 0 1 1 0 1 0 0 0 1 1 0 1 0 0 1 −2 −1 1 2 − 21 0 1 0 0 1 −1 0 0 1 0 0 Probe: @ 1 0 1 2 − 12 10 A@ 1 2 1 0 3 1 1 B AB B 0 @ 1 0 −2 1 0 −1 −Z1 + Z2 −2S1 + S2 , −3S1 + S3 Z2 : (−2) −S2 + S3 =P 1 0 C 1 C −1 C = @ A 0 1 0 0 1 0 1 A Eine andere Methode bestünde darin, die Basis des Kerns und des Bildes von A bzw. f wie im Beweis zu 21.1 geeignet zu ergänzen. Daraus sieht man auch, daß Q und P nicht eindeutig bestimmt sind. Durch zweimaliges Anwenden dieses Verfahrens erhält man die Transformationsmatrizen Q und P , die zwei äquivalente Matrizen B und A ineinander überführen: 189 Ist rg(A) = r ⇒ ∃Q1 , P1 : Q1 AP1 = Ir 0 0 0 Es ist aber auch rg(B) = r ⇒ ∃Q2 , P2 : Q2 BP2 = und damit B = Q−1 2 0 0 ⇒ B = Q−1 2 Ir 0 0 0 P2−1 Ir 0 0 Ir 0 −1 P2−1 = Q−1 2 Q1 A P1 P2 {z } | {z } | 0 Q P Beispiel: A= 1 2 3 ,B = 1 0 1 5 2 3 . 4 1 3 Wegen rg(A) = rg(B) = 2 sind A und B äquivalent. Bestimme jene regulären Matrizen Q, P mit B = QAP . Lösung: Wie im obigen Beispiel erhält man: 1 0 0 1 = 0 1 0 1 } 2 5 2 3 1 −1 −1 0 3 2 −1 4 1 3 1 −1 | {z } {z | Q2 P2 Damit ist Q = Q−1 2 Q1 = 1 2 1 0 1 2 − 21 2 1 1 −2 −1 1 0 1 = 0 1 −1 2 1 1 0 0 1 1 1 1 P = P1 P2−1 = = 1 −1 0 2 −1 5 2 − 21 und −4 −3 −2 1 0 1 1 0 1 Probe: B= 5 2 3 4 1 3 = 2 5 2 −1 − 12 1 2 3 1 0 1 −4 −3 −2 1 0 1 1 0 = QAP 1 190 21.2 Ähnliches Diagonalisieren In vielen Fällen hat man nicht zwei reguläre Matrizen Q und P zum Diagonalisieren zur Verfügung. Will man z.B. einen linearen Operator T : V → V , also eine Abbildung zwischen ein– und demselben Vektorraum, durch eine Diagonalmatrix darstellen, dann hat man nur einen Basiswechsel, beschreibbar durch eine reguläre Matrix P , zur Verfügung. Was gilt nun für solche Basisvektoren, bezüglich der eine Diagonalmatrixdarstellung möglich ist? Sei B = {b1 , b2 , . . . , bn } eine Basis von V so, daß für T : V → V gilt: λ 1 .. . T (b1 ) = λ1 b1 0 .. ⇔ [T ]B = λ2 . . .. T (bn ) = λn bn 0 λn (Dies gilt wegen der Definition der Matrixdarstellung: Spalten = Koordinaten der Bilder der Basisvektoren.) Also: Im Diagonalisierungsfall sind die Basisvektoren zugleich Eigenvektoren des Operators. Die nächsten Sätze werden zeigen, daß folgende zwei Probleme äquivalent sind: Das Eigenwertproblem: Existiert zu einer gegebenen n × n− Matrix A n l.u. Eigenvektoren bzw. zu einem gegebenen Operator T : V → V eine Basis aus Eigenvektoren? Das Diagonalisierungsproblem: abbildungstheoretisch formuliert: Existiert zu einem gegebenen Operator T : V → V eine Basis von V , bezüglich der T durch eine Diagonalmatrix dargestellt werden kann? matrizentheoretisch formuliert: Existiert zu einer gegebenen n × n−Matrix A eine reguläre Matrix P so, daß P −1 AP Diagonalgestalt hat? Definition 21.3 (i) Ein Operator T : V → V heißt diagonalisierbar, wenn es eine Basis B = {b1 , . . . , bn } von V gibt, bezüglich der sich T durch eine Diagonalmatrix beschreiben läßt. Also: 191 λ1 [T ]B = 0 .. = diag(λ1 , . . . , λn ) . 0 λn (ii) Eine Matrix A ∈ M (n × n, K) heißt diagonalisierbar, wenn es eine reguläre Matrix P gibt, mit P −1 AP = diag(λ1 , . . . , λn ). Damit: A ist diagonalisierbar ⇔ A ist ähnlich zu einer Diagonalmatrix. Bemerkung: Das Wort “Diagonalisieren” ist reserviert für das Diagonalisieren mittels einer Ähnlichkeitstransformation. Satz 21.3 Erstes Diagonalisierbarkeitskriterium (i) Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn V eine Basis B aus Eigenvektoren von T besitzt. Die Diagonalelemente der Matrixdarstellung [T ]B sind die zugehörigen Eigenwerte von T : [T]B = diag(λ1 , . . . , λn ), λi EW von T (ii) A ∈ M (n × n, K) ist genau dann diagonalisierbar, wenn A n l.u. Eigenvektoren besitzt. Die Diagonalelemente sind die zugehörigen Eigenwerte. Die Spalten der Transformationsmatrix P sind gerade die Eigenvektoren. P−1 AP = diag(λ1 , . . . , λn ) mit P = (x˜1 | . . . |x˜n ), x̃i EV zum EW λi von A(i = 1, . . . , n) Beweis: 1. T sei diagonalisierbar ⇒ ∃ Basis B = (b1 , . . . , bn ) mit: [T ]B [T (bi )]B = = diag(λ1 , . . . , λi , . . . , λn ) ⇒ 0 λ1 B B .. B . B B B [T ]B · [bi ]B = B λi B B B @ 10 .. CB CB CB CB CB CB CB CB CB CB A@ . λn T (bi ) = λi bi ⇒ bi ist EV von T zum EW λi . 0 .. . 1 .. . 0 1 0 C B C B C B C B C B C=B C B C B C B C B A @ 0 .. . λi .. . 0 1 C C C C C C⇒ C C C C A 192 2. Sei B = (b1 , . . . , bn ) eine Basis von V aus EV von T zu den EW λ1 , . . . , λn ⇒ T (bi ) = λi bi (i = 1, . . . , n) ⇒ T (bi ) = 0 · b1 + . . . + λi bi + . . . + 0 · bn ⇒ [T (bi )]B = (0, . . . , λi , . . . , 0) ⇒ [T ]B = diag(λ1 , . . . , λi , . . . , λn ) ⇒ T ist diagonalisierbar. 3. Der Beweis für Matrizen wird wie immer so geführt, daß man A als Abbildung von K n → K n auffaßt: TA : K n → K n mit TA (~ x) = A · ~ x; bezüglich der Standardbasis besitzt dann TA die Matrixdarstellung A. Es gilt nun folgende Äquivalenzkette: Matrix A diagonalisierbar ⇔ Abbildung TA diagonalisierbar ⇔ K n besitzt Basis aus Eigenvektoren von A ⇔ A besitzt n l.u. EV x~1 , . . . , x~n . P sei die Übergangsmatrix von der Standardbasis zur Basis aus EV, also sind die Spalten von P gerade die EV von A : P = (x~1 |x~2 | . . . |x~n ). Beispiel: Ist A = 1 2 3 2 diagonalisierbar? 2 pA (X) = X − 3X −4 = (X − 4)(X + 1), EW: λ1 = 4, λ2 = −1 2 1 l.u. ⇒ A diagonalisierbar EV: , 3 −1 3 −2 −1 0 1 2 ⇒ P −1 AP = ⇒ P −1 = 1 P = 5 1 1 0 4 −1 3 Satz 21.4 Eine hinreichende Bedingung für die Diagonalisierung: (i) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes V ist diagonalisierbar, wenn er n verschiedene Eigenwerte λ1 , . . . λn besitzt. (ii) Eine quadratische n×n−Matrix ist diagonalisierbar, wenn sie n verschiedene EW besitzt. Beweis: Zu jedem EW ∃ EV, diese sind l.u. wegen der Verschiedenheit der EW, also hat V bzw. K n n l.u. EV, je n l.u. Vektoren bilden aber eine Basis, also gibt es unter diesen Bedingungen eine Basis aus Eigenvektoren. Nach 21.3 folgt die Diagonalisierbarkeit. 193 Satz 21.5 Zweites Diagonalisierbarkeitskriterium (Hauptsatz der Diagonalisierbarkeit) Ein linearer Operator T : V → V eines n−dimensionalen Vektorraumes über K bzw. eine n × n−Matrix A über einem Körper K ist genau dann diagonalisierbar, wenn (i) das charakteristische Polynom in K[X] in Linearfaktoren zerfällt: p(X) = (X − λ1 )(X − λ2 ) . . . (X − λn ) und (ii) wenn für jeden Eigenwert λ seine geometrische Vielfachheit mit seiner algebraischen Vielfachheit übereinstimmt. Das heißt, ist k die algebraische Vielfachheit des Eigenwertes λ, dann muß gelten: k = dim Eλ ⇔ rg(T − λid) = n − k bzw. rg(A − λIn ) = n − k. Man sagt auch: Der Rangabfall von T beim Übergang zu T − λid muß so groß wie die algebraische Vielfachheit des EW λ sein. Beweis: Daß das charakteristische Polynom in Linearfaktoren zerfällt, ist für die Diagonalisierbarkeit vonT eine notwendige Bedingung. Sei dazu B irgendeine Basis von V und λ1 .. . 0 ⇒ Sei [T ]B = λ2 .. . 0 λn λ1 − X .. . 0 = (λ1 − X) . . . (λn − X), pT [X] = |[T ]B − XIn | = λi − X . .. 0 λn − X d.h. pT [X] ist ein Produkt von Linearfaktoren. Da das charakteristische Polynom eine Ähnlichkeitsvariante ist, gilt dies für jede Basis. Zerfällt also das charakteristische Polynom von T nicht in Linearfaktoren, dann ist T nicht diagonalisierbar. Der Zerfallen in Linearfaktoren allein ist aber zu wenig, um die Diagonalisierbarkeit zu garantieren, man muß ja nach 21.3 n l.u. EV erhalten. Dies garantiert aber gerade die Bedingung 194 (ii): Seien λ1 , . . . , λr die verschiedenen Eigenwerte von T bzw. A (möglich wegen des Zerfallens von pT (x) in Linearfaktoren) und ni bzw. ki die geometrische bzw. algebraische Vielfachheit von λi (i = 1, . . . , r): (1) (1) {x1 , . . . xn1 } sei Basis von Eλ1 (2) (2) {x1 , . . . xn2 } sei Basis von Eλ2 .. . sei Basis von Eλr .. . (r) (r) {x1 , . . . xnr } ni = geom. Vielfachheit von λi Dann ist (1) (2) (r) (2) (r) B = {x1 , . . . , x(1) n1 , x1 , . . . , xn2 , . . . , x1 , . . . xnr } eine l.u. Menge von EV, denn: Sei (1) (2) (r) (2) (r) (λ1 x1 , . . . , λn1 x(1) n1 + µ1 x1 + . . . , +µn2 xn2 + . . . + ν1 x1 + . . . + νnr xnr = 0 = 0 + . . . + 0. Weil die Summe von Eigenräumen direkt ist (19.13), folgt (1) + . . . + λn1 xn1 = 0 ⇒ alle λi = 0 .. .. . . (r) + . . . + νnr xnr = 0 λ1 x1 .. . ν1 x1 (1) (r) ⇒ alle νi = 0 Insgesamt ist also B l.u. Nun sind die geometrischen Vielfachheiten ni ≤ ki (19.10.iii ), daher gilt für die Summe l der geometrischen Vielfachheiten: l := n1 + n2 + . . . + nr ≤ k1 + k2 + . . . + kr = Grad pT (λ) = dim V = n Damit erhalten wir die entscheidende Schlußkette: T diagonalisierbar ⇔ T besitzt Basis aus EV ⇔ B ist Basis in V (mehr l.u. EV gibt es nicht) ⇔ l = n1 + . . . + nr = dim V = n⇔ ni = ki ∀i. Wäre nämlich ein nj 6= lj , dann kann nj nach 19.10 (iii) nur kleiner als lj sein ⇒ l < n ⇒ B wäre keine Basis von V . 195 Die zweite Bedingung rg(T −λid) = n−k, d.h., der Rangabfall um die algebraische Vielfachheit, garantiert, daß man genug, nämlich n l.u. Eigenvektoren erhält, so daß man eine Basis aus Eigenvektoren konstruieren kann. Dies kann man auch so ausdrücken: Satz 21.6 Drittes Diagonalisierbarkeitskriterium Ein linearer Operator T : V → V bzw. eine quadratische n × n−Matrix A über K ist genau dann diagonalisierbar, wenn das charakteristische Polynom in Linearfaktoren zerfällt und V bzw. K n die direkte Summe seiner Eigenräume ist. V = Eλ1 ⊕ Eλ2 ⊕ . . . ⊕ Eλr . Beweis: Die Bezeichnungen seien wie im vorigen Satz. 1. T diagonalisierbar ⇔ ni = ki ⇒ dim(Eλ1 ⊕ . . . ⊕ Eλr ) = dim Eλ1 + . . . + dim Eλr = n1 + n2 + . . . + nr = k1 + k2 + . . . + kr = n. Weil Eλ1 ⊕ . . . ⊕ Eλr C V ⇒ Eλ1 ⊕ . . . ⊕ Eλr = V . 2. Ist V = Eλ1 ⊕ . . . ⊕ Eλr ⇒ n1 + n2 + . . . + nr = n = k1 + . . . + kr . Wegen ni ≤ ki folgt daraus ni = ki ⇒ T ist diagonalisierbar. Algorithmus zur Diagonalisierung einer n × n−Matrix A oder eines linearen Operators T eines n−dimensionalen Vektorraumes. Schritt 1: Bestimme alle verschiedenen Eigenwerte λ1 , . . . , λr von A bzw. T (z.B. als Nullstellen des charakteristischen Polynoms; ist ein schwieriges Problem, weil eine Gleichung n−ten Grades vorliegt). Schritt 2: Bestimme n l.u. Eigenvektoren x~1 , . . . , x~n von A als Lösungen der homogenen LGS: P (A − λi In )~x = ~0 für i = 1, . . . , r (dies ist möglich wegen ni = n). Schritt 3: Bilde die Matrix P mit den Eigenvektoren als Spaltenvektoren: P = (x~1 |x~2 | . . . |x~n ) bzw. die Basis B = {x~1 , . . . , x~n } von K n . Schritt 4: Das Produkt P −1 AP ist dann eine Diagonalmatrix mit den Eigenwerten als Diagonalelemente, jeden sooft angeschrieben, wie die algebraische Vielfachheit angibt. 196 Beispiel A: a={{2,2,1},{1,3,1},{1,2,2}};a//MatrixForm 2 1 1 2 3 2 1 1 2 ew=Eigenvalues[a] {1, 1, 5} n1=NullSpace[a-1*IdentityMatrix[3]] {{−1, 0, 1} , {−2, 1, 0}} (* Der Eigenwert l1=1 hat algebraische und geometrische Vielfachheit gleich 2. *) n2=NullSpace[a-5*IdentityMatrix[3]] {{1, 1, 1}} (* Der Eigenwert l2=5 hat algebraische und geometrische Vielfachheit gleich 1. *) {ew,ev}=Eigensystem[a] {{1, 1, 5} , {{−1, 0, 1} , {−2, 1, 0} , {1, 1, 1}}} (* Transformationsmatrix p: *) p=Transpose[{ev[[1]],ev[[2]],ev[[3]]}];p//MatrixForm −1 −2 0 1 1 0 1 1 1 d=Inverse[p].a.p;d//MatrixForm 1 0 0 0 1 0 0 0 5 Beispiel B: a={{19,-9,-6},{25,-11,-9},{17,-9,-4}}; ew=Eigenvalues[a] {1, 1, 2} (* Der Eigenwert 1 hat die algebraische Vielfachheit 2 *) n=NullSpace[a-ew[[1]]*IdentityMatrix[3]] {{3, 4, 3}} (* Die geometrische Vielfachheit des Eigenwertes 1 ist nur 1, a ist daher nicht diagonalisierbar. *) 197 Zum Schluß geben wir noch ein Kriterium mittels des Minimalpolynoms an: Satz 21.7 Viertes Diagonalisierbarkeitskriterium Ein linearer Operator T : V → V ist genau dann diagonalisierbar, wenn sein Minimalpolynom über dem Skalarkörper K in verschiedene Linearfaktoren zerfällt. ohne Beweis 21.3 Orthogonales (Unitäres) Diagonalisieren Nachdem zweiten Diagonalisierbarkeitskriterium erhält man genau dann genug Eigenvektoren, wenn die geometrische Vielfachheit eines jeden Eigenwertes gleich der algebraischen Vielfachheit ist. Es ist nun überraschend, daß dies für symmetrische bzw. hermitesche Matrizen stets der Fall ist! Diese können also immer diagonalisiert werden und dies sogar mit orthogonalen (unitären) Matrizen. Dementsprechend gibt es zu selbstadjungierten Operatoren stets eine Basis aus orthonormalen Eigenvektoren! Dies ist der eigentliche Hauptsatz der Linearen Algebra. Satz 21.8 Spektralsatz für selbstadjungierte Operatoren (Hauptsatz der Linearen Algebra) T : V → V sei ein selbstadjungierter Operator eines endlichdimensionalen Skalarproduktraumes V über K = IR bzw. CI mit den r verschiedenen EW λ1 , . . . , λr und den Eigenräumen Eλ1 , . . . , Eλr (wegen der Selbstadjungiertheit sind alle EW immer reell!) (i) (Basisform): V hat eine Basis B aus orthonormalen Eigenvektoren von T . Oder: Jede hermitsche Matrix ist orthogonal bzw. unitär ähnlich zu einer reellen Diagonalmatrix, je nachdem, ob K = IR oder K = CI ist. [T]B = diag(λ1 , . . . , λ1 , . . . , λr , . . . , λr ), λi ∈ IR Auch so (Hauptsatz der Linearen Algebra): Jede reell symmetrische Matrix kann orthogonal diagonalisiert werden. Jede hermitsche Matrix kann unitär diagonalisiert werden. 198 (ii) (Direkte Zerlegungsform): V ist die orthogonale Summe der Eigenräumen von T : V = Eλ1 ⊥ . . . ⊥ Eλr . (iii) (Projektionsform): Sei Pi die Orthogonalprojektion auf den i−ten Eigenraum Eλi . Dann ist {P1 , . . . , Pr } ein orthogonale Menge von Projektionen mit P1 + . . . + Pr = id und T = λ1 P1 + . . . + λk Pk mit Pi Pj = Pj Pi = 0 für i 6= j Oder: Jeder selbstadjungierte Operator ist Linearkombination von vertauschbaren Orthogonalprojektionen, die sich wechselseitig annullieren. Bemerkung: Der Name Spektralsatz rührt von der Projektionsform (iii) her. Die EW λi spielen die Rolle der Spektrallinien. Die Menge der EW eines Operators nennt man auch sein Spektrum. Zunächst zeigen wir folgendes Lemma: Ist ein Teilraum W C V invariant gegenüber T , d.h. ist T (W ) ⊆ W , dann ist W ⊥ invariant gegenüber T ∗ , d.h. T ∗ (W ⊥ ) ⊆ W ⊥ . Beweis des Lemmas: Sei y ∈ W ⊥ und w ∈ W . Dann ist < w, T ∗ (y) >=< T (w), y >= 0 weil T (w) ∈ W nach Voraussetzung und y ∈ W ⊥ . Dies gilt für alle w ∈ W , also ist mit jedem y ∈ W ⊥ auch T ∗ (y) wieder in W ⊥ . Beweis des Spektralsatzes in der Basisform durch Induktion nach der Dimension von V : 1. Sei dim(V ) = 1. Dann ist die Matrixdarstellung [T ]B eine (1×1)−Matrix, also die Diagonalmatrix [T ]B = λ für B = (b1 ). Es ist daher T (b1 ) = λ1 b1 mit b1 6= 0 und e1 = 1 b kb1 k 1 ist eine ON–Basis von V , wobei e1 wieder ein EV von T ist. 2. Annahme: Jeder (n − 1)−dimensionale Skalarproduktraum habe eine ON–Basis aus Eigenvektoren. 3. Sie dim(V ) = n. Nach 19.11 hat T nur reelle EW λ. Daher hat T , ganz egal ob V ein Vektorraum über K = IR oder K = CI ist, stets einen Eigenvektor (19.12) x ∈ V von T : T (x) = λx. Es sei: W :=< x > und e1 ein Einheitsvektor in W , also e1 = x/kxk. Da x EV von T ist, gilt: T (W ) ⊆ W, W ist invariant gegenüber T : T (kx) = kT (x) = kλx = (λk)x ∈ W . Dann ist nach dem Lemma W ⊥ invariant gegenüber T∗ = T, also ebenfalls invariant gegenüber T . Damit ist die Einschränkung T̂ = T /W ⊥ von T auf W ⊥ wieder ein selbstadjungierter Operator: T̂ (W ⊥ ) ⊆ W ⊥ , also: T̂ : W ⊥ → W ⊥ und T̂ ∗ = T̂ . Nach dem Hauptsatz über orthogonale Zerlegung ist V = W ⊕ W ⊥ , also ist dim(W ⊥ ) = n − 1, weil dim(W ) = 1. Nach Induktionsannahme besitzt W ⊥ eine ON–Basis (e2 , . . . , en ) aus EV von T̂ , diese sind aber auch EV von T : T (ei ) = T̂ (ei ) = λi ei , weil ei ∈ W ⊥ . Dann ist aber (e1 , e2 , . . . , en ) eine ON–Basis von V aus EV von T , weil < e1 , ei >= 0 ∀i = 2, . . . , n (wegen x ∈ W ⊥ ). Damit hat man auch für n−dimensionale Skalarprodukträume eine ON–Basis aus EV von T gefunden. 199 Beweis der direkten Zerlegungsform Nach 21.6 ist V direkte Summe seiner Eigenräume. Da EV zu verschiedenen EW eines selbstadjungierten Operators orthogonal sind, gilt Eλi ⊥ Eλj für i 6= j, also ist die Zerlegung orthogonal. Beweis der Projektionsform Pi sei die Projektion auf den i−ten Eigenraum. Weil diese orthogonal aufeinander stehen, sind die Pi0 s Orthogonalprojektionen und eine orthogonale Menge von Projektionen. Es ist P1 + . . . + Pr = id, denn: P P Aus V = Eλ1 ⊥ ... ⊥ Eλr folgt x = u1 + . . . + ur mit ui ∈ Eλi ⇒ Pi (x) = ui ⇒ i Pi (x) = i ui = x = id(x) ⇒ P i Pi = id. Es ist T = λ1 P1 + . . . + λr Pr , denn: T (x) = X T (ui ) = i X λi ui = X i i λi Pi (x) ∀x ∈ V ⇒ T = X λi Pi . i Die matrizentheoretische Formulierung der Basisform (i) des Spektralsatzes liefert nun den in der Einleitung angekündigten Satz. Satz 21.9 Orthogonales Diagonalisieren (i) Jede reell–symmetrische Matrix kann durch eine orthogonale Matrix reell diagonalisiert werden. (ii) Jede hermitesche Matrix kann durch eine unitäre Matrix reell diagonalisiert werden. Beweis: (i) Jede reelle symmetrische Matrix A stellt einen selbstadjungierten Operator TA definiert durch TA (~ x) = A·~x auf IRn dar. Bezüglich der Standardbasis ist die Matrixdarstellung von TA die Matrix A selbst: [TA ]St = A. Nach dem Spektralsatz gibt es eine ON–Basis B von (reellen) EV von TA , bezüglich der TA durch eine reelle Diagonalmatrix beschrieben wird. Die Übergangsmatrix P von der Standardbasis (welche auch eine ON–Basis ist) zur ON–Basis B wird durch eine orthogonale Matrix beschrieben. (ii) Analog wie in (i), nur CI n statt IRn . Algorithmus zur orthogonalen (unitären) Diagonalisierung einer reell–symmetrischen bzw. hermiteschen Matrix A: Schritt 1: Bestimme alle verschiedenen reellen Eigenwerte λ1 , . . . , λr von A. Schritt 2: Orthonormalisiere die l.u. Eigenvektoren innerhalb eines Eigenraumes Eλi (i = 1, . . . , r) z.B. mit dem GRAM–SCHMIDT’schen Verfahren. Die Eigenvektoren zu verschiedenen EW sind automatisch orthogonal, sie brauchen nur normiert zu werden. Insgesamt erhält man n orthonormale Eigenvektoren x~1 , . . . , x~n von A. 200 Schritt 3: Bilde die Matrix P mit den orthonormalen Eigenvektoren als Spaltenvektoren. Sie ist eine orthogonale (unitäre) Matrix: P = (x~1 |x~2 | . . . |x~n ). Schritt 4: P −1 AP ist eine Diagonalmatrix mit den Eigenwerten als Hauptdiagonalelemente, wobei man jeden EW so oft anschreibt, wie seine algebraische Vielfachheit angibt. Beispiel: a={{7,-2,1},{-2,10,-2},{1,-2,7}}; {ew,ev}=Eigensystem[a] {{6, 6, 12} , {{−1, 0, 1} , {2, 1, 0} , {1, −2, 1}}} <<LinearAlgebra ’Orthogonalization’ ev1=GramSchmidt[{ev[[1]],ev[[2]],ev[[3]]}] p=Transpose[ev1];p//MatrixForm p1=N[p]//MatrixForm (* Probe *) d=Inverse[p].a.p;d//MatriForm 201 (* Spektraldarstellung von a *) l1=ew[[1]];l2=ew[[2]];l3=ew[[3]]; e1=ev1[[1]];e2=ev1[[2]];e3=ev1[[3]] p1=Outer[Times,e1,e1];p1//MatrixForm N[%]//MatrixForm p2=Outer[Times,e2,e2];p2//MatrixForm] p3=Outer[Times,e3,e3];p3//MatrixForm a==l1*p1+l2*p2+l3*p3 True a = 6(p1 + p2 ) + 12p3 ist wieder Orthogonalprojektion 202 Statt orthogonale (unitäre) Diagonalisierung sagt man oft auch: Hauptachsentransformation. Führe für A die Hauptachsentransformation durch, bedeutet: Bestimme ein orthogonales (unitäres) P , so daß P −1 AP Diagonalgestalt besitzt. Orthogonale (Unitäre) Diagonalisierung (P −1 AP ) bzw. P ∗ AP ) hat einen entscheidenden numerischen Vorteil: Die Inverse ist einfach die Transponierte (Konjugiert–Transponierte). Außerdem beschreiben orthogonale (unitäre) Matrizen den Wechsel von ON–Basen, ein Fall, der besonders wichtig ist. In komplexen Skalarprodukträumen gibt es außer den selbstadjungierten (hermiteschen) Operatoren (Matrizen) noch andere Operatoren, die ebenfalls noch (sogar unitär) diagonalisierbar sind (!); jedoch i.a. nicht mehr mit reellen Hauptdiagonalelementen. Beispiel: Sei A = 2 i i 2 . Es ist dann A∗ = 2 −i −i 2 6= A. Beachte: A ist zwar symmetrisch, aber nicht hermitesch! 1 −1 diagonalisiert werden. Trotzdem kann A durch das orthogonale P = √12 1 1 2 + i 0 . P ∗ AP = P −1 AP = 0 2−i Wir notieren jedoch: A ist eine (komplexe) normale Matrix 2 i 2 −i 2 −i 2 i 5 0 = = . AA∗ = i 2 −i 2 −i 2 i 2 0 5 1 2 ist eine reelle, nicht symmetrische, aber normale Matrix. Beispiel: A = −2 1 1 2 1 −2 5 0 1 −2 1 2 = = = At A AAt = −2 1 2 1 0 5 2 1 −2 1 pA (X) = X 2 − 2X + 5, EW: λ1 = 1 + 2i λ2 = 1 − 2i 203 EV zu λ1 : −2ix + 2y = 0 EV zu λ2 : 2ix + 2y = 0 x=1 x=1 y=i y = −i x~1 = 1 x~2 = i Transformationsmatrix P: 1 1 , P −1 = P t = P = √12 i −i √1 2 1 −i 1 i 1 −i und P −1 AP = 1 + 2i 0 0 1 − 2i A läßt sich also im Komplexen (unitär) diagonalisieren. Wir werden im folgenden zeigen, daß die Klasse der normalen Operatoren (Matrizen) die größte Klasse ist, die unitär diagonalisiert werden kann. Satz 21.10 Spektralsatz für normale Operatoren Abbildungstheoretische Formulierung: T sei ein normaler Operator auf einem endlich–dimensionalen Skalarproduktraum über K = C. I Dann gibt es eine ON–Basis von V aus Eigenvektoren von T . Damit: Jeder normale Operator kann bezüglich einer ON–Basis durch eine Diagonalmatrix dargestellt werden. Die Diagonalelemente sind aber im allgemeinen nicht mehr reell. Matrizentheoretische Formulierung: Jede normale Matrix kann durch eine unitäre Matrix diagonalisiert werden. Die Hauptdiagonalelemente sind jedoch im allgemeinen nicht mehr reell. Beweis durch Induktion nach dim(V ) (vergleiche mit dem Beweis zu 21.8) 1. dim(V ) = 1 : V =< e1 >, e1 ist EV. 2. Sei dim(V ) > 1. Nach dem Fundamentalsatz der Algebra besitzt T zumindest einen Eigenwert in CI und somit einen Eigenvektor v. Wir setzen: W =< v > und e1 = v/kvk. v ist EV von T ⇒ W ist invariant gegenüber T : T (W ) ⊆ W . Da T normal ist, ist v auch EV von T ∗ (siehe 19.15 iii), daher ist W auch bezüglich T ∗ invariant und nach dem Lemma ist W ⊥ invariant bezüglich (T ∗ )∗ = T . Der restliche Beweis erfolgt so wie in 21.8. Von den Matrizen mit reellen Eintragungen sind jedoch nur die symmetrischen orthogonal (d.h., nur unter Verwendung von reellen Zahlen) diagonalisierbar. Insgesamt ergibt sich folgende Charakterisierung der orthogonalen (unitären) Diagonalisierbarkeit): 204 Satz 21.11 Charakterisierung von reell–symmetrischen bzw. normalen Matrizen (i) Eine reelle Matrix ist genau dann orthogonal diagonalisierbar (über IR), wenn sie symmetrisch ist. (ii) Eine (komplexe oder reelle) Matrix ist genau dann unitär diagonalisierbar (über C), I wenn sie normal ist. Auch so formuliert: Von den reellen Matrizen sind genau die symmetrischen orthogonal diagonalisierbar. Genau die normalen Matrizen sind unitär diagonalisierbar. Beweis: (i) a) Sei A orthogonal diagonalisierbar ⇒ ∃ orthogonales P mit P −1 AP = P t AP = D (D Diagonalmatrix) ⇒ A = P DP t ⇒ At = (P DP t )t = P tt Dt P t = P DP t = A (wegen Dt = D), also ist A symmetrisch. b) Nach 21.9(i) ist jede reell–symmetrische Matrix orthogonal diagonalisierbar. (ii) a) Sei A unitär diagonalisierbar ⇒ ∃ unitäres P mit P −1 AP = P ∗ AP = D ⇒ A = P DP ∗ . Nun ist aber D∗ 6= D (außer D ist reell), daher kann man nicht den obigen Beweis anwenden. Insbesondere müssen nicht nur hermitesche Matrizen unitär diagonalisierbar sein. Notwendig ist jedoch AA∗ = A∗ A: AA∗ = P DP ∗ (P DP ∗ )∗ = P D(P ∗ P )D∗ P ∗ = P DD∗ P ∗ A∗ A = (P DP ∗ )∗ (P DP ∗ ) = P D∗ (P ∗ P )DP ∗ = P D∗ DP ∗ . Wegen DD∗ = D∗ D (Diagonalmatrizen sind stets normal), ist also AA∗ = A∗ A notwendig für die unitäre Diagonalisierung, also muß A normal sein. b) Die Umkehrung gilt nach 21.10. Nun noch zwei theoretische Anwendungen des Spektralsatzes: Simultane Diagonalisierung Sind mehrere Operatoren gegeben, ist es zweckmäßig, wenn man mit einer ON–Basis B auskommen könnte, bezüglich der alle Operatoren diagonalisiert werden können. In der Physik entsprechen solchen Operatoren Größen, die simultan gemessen werden können. Notwendig für die simultane Diagonalisierung ist die Vertauschbarkeit der Operatoren: Seien T1 , T2 bezüglich der Basis B diagonalisierbar ⇒ [T1 ]B · [T2 ]B = [T2 ]B [T1 ]B , (weil Diagonalmatrizen vertauschbar sind) ⇒ T1 ◦T2 = T2 ◦T1 . Für selbstadjungierte Operatoren ist diese Bedingung aber auch hinreichend. 205 Satz 21.12 Simultane Diagonalisierung Zwei selbstadjungierte Operatoren eines endlich–dimensionalen Skalarpoduktraumes sind genau dann simultan diagonalisierbar, wenn sie vertauschbar sind. Beweis: 1. Notwendigkeit siehe oben. 2. Seien T1 und T2 vertauschbare, selbstadjungierte Operatoren. Eλ sei Eigenraum von T1 und x ∈ Eλ : T1 (T2 (x)) = (T1 ◦ T2 )(x) = (T2 ◦ T1 )(x) = T2 (T1 (x)) = T2 (λx) = λ(T2 (x)). Damit ist T2 (x) auch ein EV von T1 zum EW λ ⇒ T2 (x) ∈ Eλ , wenn x ∈ Eλ , d.h T2 : Eλ → Eλ ist ein selbstadjungierter Operator auf Eλ . Nach dem Spektralsatz hat Eλ eine ON–Basis aus EV von T2 . Diese sind auch EV von T1 , weil sie aus Eλ sind. Somit hat jeder Eigenraum Eλ von T1 eine ON–Basis von EV von beiden Operatoren T1 und T2 . Nachdem V die direkte Summe der Eigenräume ist, erhält man durch Vereinigung dieser Basen eine Basis von V aus EV von beiden Operatoren. Bezüglich dieser Basis können beide Operatoren diagonalisiert werden. Im allgemeinen ist die geometrische Vielfachheit ≤ algebraische Vielfachheit, aber: Satz 21.13 Gleichheit von geometrischer und algebraischer Vielfachheit Für jeden Eigenwert einer hermiteschen oder einer reell–symmetrischen Matrix ist die geometrische Vielfachheit gleich der algebraischen Vielfachheit. Beweis: Diese Matrizen induzieren selbstadjungierte Abbildungen. Nach dem Spektralsatz sind diese stets diagonalisierbar, nach dem zweiten Diagonalisierbarkeitskriterium folgt die Behauptung. 206 21.4 Anwendungen des Diagonalisierens 21.4.1 Berechnung von Matrixpotenzen Zahlreiche Probleme führen auf die Berechnung hoher Matrixpotenzen. Mit diagonalisierbaren Matrizen können solche Berechnungen vereinfacht werden. Sei A eine diagonalisierbare n × n−Matrix ⇒ ∃ reguläre P mit P −1 AP = D = diag(λ1 , . . . , λn ), λi EW von A ⇒ (P −1 AP )2 = P −1 AP P −1 AP = P −1 AEAP = P −1 A2 P , allgemein: (P−1 AP)k = P−1 Ak P ∀k ∈ ZZ Beweis für negative k ⇔ A ist invertierbar ⇔ alle EW λi 6= 0. Für k = −1 : (P −1 AP )−1 = P −1 A−1 (P −1 )−1 = P −1 A−1 P . Für k = −n(n ∈ IN) : (P −1 AP )−n : [(P −1 AP )n ]−1 = (P −1 An P )−1 = P −1 (An )−1 (P −1 )−1 = P −1 A−n P . Damit gilt für diagonalisierbare A ⇔ D = P −1 AP : Dk = (P −1 AP )k = P −1 Ak P = Dk , also −1 ⇒ Ak = PDk P−1 ∀k ∈ Z Ist A = PDP Z λ1 λk1 .. .. k = Für D = gilt aber D . . . k λn λn Für negative k sind die EW λi 6= 0, weil A dann invertierbar ist. Ist A eine diagonalisierbare n × n−Matrix mit den EW λ1 , . . . , λn und EV x~1 , . . . , x~n , dann ist Ak λk1 =P .. . λkn −1 P mit P = (x~1 | . . . |x~n ). Für k = −1 erhält man so wieder eine Möglichkeit für das Invertieren einer Matrix. Zusammenfassung für die Berechnung der zu A inversen Matrix A−1 : 1. Mittels elementarer Zeilenumformungen (RowReduce) (A|In ) ∼1 (In |B) ⇒ B = A−1 −1 −1 mit P = (x 2. A−1 = P diag(λ−1 ~1 | . . . |x~n ), wobei λ1 , . . . , λn die EW von A und 1 , . . . , λn )P x~1 , . . . , x~n die dazugehörigen EV sind. 207 3. mittels der zu A adjungierten Matrix A−1 = 1 adj |A| A 4. mittels des charakteristischen Polynoms pA (X) = c0 + c1 X + . . . + X n . A invertierbar ⇔ c0 6= 0 (weil alle EW 6= 0), dann ist wegen An = −c0 In − c1 A − . . . − cn−1 An−1 , n ∈ IN n−1 A−1 = −1 c0 c1 In + c2 A + . . . + A 5. mittels des Minimalpolynoms mA (X) = m0 + m1 X + . . . + X r : A invertierbar ⇔ m0 6= 0 A−1 = − m10 m1 In + m2 A + . . . + Ar−1 21.4.2 Differenzengleichungen und Potenzen Ak 1. Kapital K, Verzinsung 6%, Anfangskapital K0 . Kn+1 = 1, 06. · Kn {z } | Differenzengleichung 1. Ordnung ⇔ K = 1, 06n . · K0 {z } |n Bildungsgesetz der Folge erlaubt direkte Berechnung der Folgenglieder rekursive Definition einer Folge 2. Fibonacci–Folge (Botanik): 0, 1, 1, 2, 3, 5, 8, 13, . . . , F0 = 0, F1 = 1 Fk+2 = Fk+1 + Fk Das ist eine Differenzengleichung 2. Ordnung Frage: Wie sieht das Bildungsgesetz der Fibonacci–Folge aus? Wie groß ist F1000 ? Wir setzen Fk+1 Fk+1 ⇒ yk+1 y~k := ~ = Fk Fk+1 Fk+2 = Fk+1 + Fk 1 ⇔ yk+1 ~ = Fk+1 = Fk+1 1 1 0 y~k Aus der Gleichung der Ordnung n wird durch Kombination von n − 1 “trivialen Gleichungen” (wie Fk+1 = Fk+1 ) ein Gleichungssystem. Das ist leichter lösbar: Sei y~0 der “Anfangswert”, y~1 = A · y~0 , y~2 = A · y~1 = A · (A · y~0 ) = A2 y~0 . . . y~k = Ak y~0 , y~0 Anfangswert 208 Ist A diagonalisierbar ⇔ ∃P : A = P DP −1 ⇔ ~ y~k = Ak y~0 = P Dk P −1 y~0 = P Dk C Die Spalten von P sind EV x~i von A: λk 1 y~k = x~1 |x~2 | . . . |x~n | · {z } | .. . P λkn · P −1 y~0 = c1 λk1 x~1 + . . . + cn λkn x~n | {z } =:~c y~0 = c1 λ01 x~1 + . . . + cn λ0n x~n ⇔ y~0 = P~c ⇔ ~c = P −1 y~0 ~c := (c1 , . . . , cn ) Beispiel: Fibonacci–Folge √ √ 1 1 , λ2 − λ − 1 = 0 λ1 = 1+ 5 λ2 = 1− 5 A= 2 2 1 0 (λ − λ1 )x + y = 0 λ1 λ2 x~2 = x~1 = x − λ1 · y = 0 1 1 λ 1 λ2 1 −λ2 , P −1 = 1 P = λ1 −λ2 1 1 −1 λ1 1 −λ 1 1 2 1 F0 = 0, F1 = 1 ⇒ y~0 = ⇒ ~c = P −1 y~0 = λ1 −λ 2 −1 λ1 0 0 λ1 λ 2 λk1 1 −λ2 1 F 1 = k+1 ~yk = λ1 −λ2 1 1 λk2 −1 λ1 Fk −1 von y~k interessiert uns nur die 2. Komponente Fk : λk2 λk1 − = Fk = λ 1 − λ 2 λ1 − λ 2 Es ist F1001 F1000 ∼ √ k √ 1− 5 / 5 < 21 für 2 √ 1+ 5 = 1, 618 . . . 2 alle k ⇒ F1000 ≈ λk2 kann gegenüber λk1 vernachlässigt werden. Fk+1 Fk ∼ λk+1 1 λk1 = λ1 (= goldener Schnitt!) √1 5 √1 5 √ k 1+ 5 2 √ 1000 1+ 5 2 − √ k 1− 5 2 = , 1 λ1 −λ2 1 −1 209 Zusammenfassung: Gegeben sei eine Folge (a0 , a1 , . . . ak , ak+1 , . . . , ak+n , . . .). Eine lineare Differenzengleichung der Ordnung n ist eine Beziehung zwischen dem k−ten Glied einer Folge und den n aufeinander folgenden Gliedern der Folge der Form ak+n = r1 ak+n−1 + . . . + rk ak . Durch die n vorgegebenen “Anfangswerte” a0 , a1 , . . . , an−1 ist die Folge eindeutig bestimmt. Durch Einführen von “trivialen Gleichungen” kann die Differenzengleichung mit Matrizen angeschrieben werden: yk+1 ~ = A · y~k , y~0 Anfangsvektor. Das Bildungsgesetz der Folge kann aus y~k = Ak y~0 abgeleitet werden. Ist A diagonalisierbar, dann gilt y~k = c1 λk1 x~1 + . . . + cn λkn x~n mit ~c := (c1 , . . . , cn )t so, daß y~0 = P · ~c ⇔ ~c = P −1 · y~0 . Dabei sind λ1 , . . . , λn die EW von A und x~1 , . . . , x~n die dazugehörigen EV. Die Spalten von P sind gerade die EV, P := (x~1 |x~2 | . . . |x~n ). 21.4.3 Markovprozesse Beispiel: In ein Land wandern jedes Jahr 1 10 der Bevölkerung ein, und 2 10 wandern aus. Am Anfang sind 200 Millionen außerhalb des Landes und 30 Millionen innerhalb des Landes. Stirbt die Bevölkerung in diesem Land aus oder gibt es eine “Grenzverteilung”? (Annahme: Gesamtbevölkerung bleibt konstant). Bevölkerung außerhalb: y Bevölkerung innerhalb: z y0 “Startvektor” z0 210 Am Ende des ersten Jahres gilt: y1 = 0.9y0 + 0.2z0 z1 = 0.1y0 + 0.8z0 Allgemein für y~k = yk zk ⇔ y1 = z1 0.9 0.2 0.1 0.8 y0 z0 usw. : yk+1 ~ = Ay~k . Kennzeichnen eines Markovprozesses: yk+1 ~ = P y~k 1. Jeder Zustand yk+1 ˜ hängt nur vom vorhergehenden Zustand y˜k ab. 2. Spaltensummen der Matrix P sind stets 1. 3. Matrix hat nur positive Eintragungen ≤ 1. P = (pij ) heißt eine stochastische Matrix ⇔ alle Spaltensummen sind 1 und pij ∈ [0, 1]. y~k = (y1 , . . . , yn )t heißt Zustandsvektor ⇔ y1 + . . . + yn = 1 ⇔ Koordinatensumme = 1. Die Gleichung hat die Form einer Differenzengleichung, um y~k für sehr großes k zu berechnen, versucht man, A zu diagonalisieren: λ2 − 1.7λ + 0.7 = 0 |A − λE| = λ1 = 1, λ2 = 0.7 (λ − 1)(λ − 0.7) = 0 Eigenvektoren: −0.1y + 0.2z = 0 0.2y + 0.2z = 0 −x + 2y = 0 0.1y + 0.1z = 0 x = 2y = 1 y+z = 0 1 x~2 = −1 1 −1 −1 1 1 1 =− = 3 3 −1 2 1 −2 x~1 = P = 2 1 1 −1 , P −1 2 1 Probe: 1 +1 0.9 0.2 +1 +1 2 +0.7 2 1 1 = 1 = 3 3 +1 2 0.1 0.8 1 −1 +1 −2 1 −0.7 1 0 0 0.7 2 1 1 1 1 · · · 1 A = P DP −1 = 3 1 −1 0.7 1 −2 1 3 3 0 0 2.1 = 211 Damit ist: kx y~k = Ak y~0 = c1 λk1 x~1 + c2 λ 2 für 2~ 1 1 y y + z 0 0 0 = 1 ⇒ ~c = P −1 y~0 = 31 3 1 −2 z0 y0 − 2z0 1 · 0.7k y~k = 13 (y0 + z0 ) 21 + 13 (y0 − 2z0 ) −1 Bei k → ∞ : (0.7k ) → 0 y~∞ = Beachte: 2/3 2/3 (y0 + z0 ) | {z } 1/3 Gesamtbevölkerung ∈ E1 1/3 Antwort: Auf lange Sicht bleibt 1/3 der Bevölkerung im Land, 2/3 sind außerhalb des Landes. Bisher haben wir das Problem deterministisch gesehen: Anteile der Bevölkerung wanderten. Wahrscheinlichkeitstheoretische Sichtweise: Blicke auf jeden einzelnen: Ist der einzelne außerhalb des Landes, so wird er mit Wahrscheinlichkeit 1/10 einwandern. Ist er innerhalb des Landes, so wird er mit Wahrscheinlichkeit 2/10 auswandern. Wir wissen auf lange Sicht nicht, wo er ist, aber jedes Jahr geben die Komponenten von y~k = Ak y~0 die Wahrscheinlichkeit an, wo er sich befindet. “Übergangsmatrix A” = 0.9 0.2 , Wahrscheinlichkeiten ≥ 0 ⇔ aij ≥ 0. 0.1 0.8 Summe der Wahrscheinlichkeiten = 1 ⇔ Spaltensumme = 1. Bei jedem Markovprozeß ist λ = 1 ein EW und sein mit c1 multiplizierter Eigenvektor gibt den Grenzzustand y˜∞ an: Sei A eine Übergangsmatrix (“transition matrix”). Betrachte die Spalten von A − E = A − 1 · E: Die Spaltensummen von A − E sind 1 − 1 = 0. Daher ergibt die Summe aller Zeilen von A − E den Nullvektor ⇔ die Zeilen von A − E sind l.a. ⇒ |A − E| = |A − 1 · E| = 0 ⇒ λ = 1 ist Eigenwert von A. Da y~k = c1 λk1 x~1 + . . . + cn λkn x~n ist, ist kein EW größer als 1, denn sonst würden die Wahrscheinlichkeit (=Komponenten von y~k ) gegen ∞ streben, es ist aber jede Wahrscheinlichkeit ≤ 1. 212 Sei λ1 = 1(∃!) und λ2 < 1, λ3 < 1, . . . , λn < 1 ⇒ λki → 0 für i = 2, . . . , n ⇒ y˜k → = y˜∞ . c1 x˜1 | {z } stationärer Zustandsvektor Auch so: Ein Zustandsvektor ~x ∈ K n heißt ein Gleichungszustand oder stationärer Zustandsvektor für die stochastische Matrix P , falls P ~x = ~x. Als Zustandsvektor müssen alle Koordinaten von ~x aus [0, 1] sein und als Summe x1 +. . .+xn = 1 ergeben. −0.1y + 0.2z = 0 0.9y + 0.2z = y 0.1y + 0.8z = z ⇔ 0.1y − 0.2z = 0 y+z = 1 y+z = 1 oder: y+z = 1 0.1y − 0.2z = 0 ⇔ y+z = 1 y − 2z = 0 ⇔ y 1 2 = z 3 1 Stabilitätsfragen Fibonacci–Zahlen → ∞, Endkapitel → ∞, Markov–Prozeß: beschränkt. Gegeben sei die Differenzengleichung yk+1 ~ = Ay~k . Wir interessieren uns für das Verhalten von y~k für k → ∞. Im Falle der Diagonalisierbarkeit gilt: y~k = c1 λk1 x~1 + . . . + cn λkn x~n , das Verhalten hängt also nur von den EW ab: Die Differenzengleichung ist stabil ⇔ y~k → 0 ⇔ alle |λi | < 1 neutral stabil ⇔ y~k beschränkt ⇔ alle |λi | ≤ 1 instabil ⇔ y~k unbeschränkt ⇔ es gibt mindestens einen EW λ mit |λ| > 1. Achtung: Kleinste Änderungen der EW können große Auswirkungen haben (chaotisches Verhalten). 213 21.4.4 Differentialgleichungen Differentialgleichung erster Ordnung: y 0 = ay ⇔ y = c · eax : allgemeine Lösung Differentialgleichung erster Ordnung mit Anfangsbedingung: y 0 = ay ⇒ 2 = ce0 = c ⇒ y(x) = 2eax : spezielle (partikuläre) Lösung des Anfangswertproblem. y(0) = 2 | {z } Anfangswertproblem Differentialgleichungssysteme erster Ordnung mit konstanten Koeffizienten Koordinatenform y10 = a11 y1 + a12 y2 + . . . + a1n yn y20 = a21 y1 + a22 y2 + . . . + a2n yn . = .. ⇔ yn0 = an1 y1 + an2 y2 + . . . + ann yn y10 y20 .. . yn0 | {z y~0 (x) a11 . . . a1n a21 . . . a2n = .. .. . . an1 . . . ann } | {z A Matrixform y1 y2 .. . yn } | {z } ~ y (x) Bemerkung: Ein Vektor (eine Matrix), deren Eintragungen Funktionen sind, wird differenziert, indem man jede Eintragung differenziert. Kurzform des Anfangswertproblems: y~0 (x) = A · ~y (x) y~0 (x) = A~y (x) bzw. ~y (x0 ) = y~0 ~y (0) = y~0 Beispiel: y10 = 2y1 y20 = 5y2 mit y1 (0) = 1, y2 (0) = 4, y3 (0) = −1 y30 = 3y3 2 0 0 1 Matrixform: ~y = 0 −5 0 ~y mit ~y (0) = 4 0 0 3 −1 Weil in jeder Gleichung nur eine unbekannte Funktion vorkommt, ist das System leicht lösbar. Allgemeine Lösung: y1 = c1 e2x , y2 = c2 e−5x , y3 = c3 e3x 2x y (0) = 1 ⇒ c1 = 1 c e 1 1 ~y (x) = c2 e−5x y2 (0) = 4 ⇒ c2 = 4 c3 e3x y3 (0) = −1 ⇒ c3 = −1 214 Spezielle (partikuläre) Lösungen: e2x ~y (x) = 4e−5x −e3x Das System war insbesondere deshalb so leicht zu lösen, weil A Diagonalgestalt hatte. Allgemeine Strategie: Versuche A durch eine geeignete Substitution für ~y auf Diagonalgestalt zu bringen! y1 (x) = p11 u1 (x) + . . . + p1n un (x) y2 (x) = p21 u1 (x) + . . . + p2n un (x) ⇔ y~(x) = P · u~(x) yn (x) = pn1 u1 (x) + . . . + pnn un (x) Nach den Differentiationsregeln gilt dann: y~0 = P · u~0 . Einsetzen in y~0 = A~y ergibt: P ~u = AP u~0 ⇔ u~0 = (P −1 AP )~u P soll also invertierbar sein. Ist A diagonalisierbar, dann gibt es eine Transformationsmatrix P mit P −1 AP = D, also erhalten wir das neue Differentialgleichungsproblem: u~0 (x) = D~u(x) Lösungsverfahren für ỹ0 = Aỹ: Schritt 1: Bestimme eine Matrix P , die A diagonalisiert. Schritt 2: Führe die Substitution ~y = P ~u durch. Das führt auf ein neues System der Form u~0 = D · ~u. Schritt 3: Löse das System u~0 = D~u. Schritt 4: Berechne ~y aus der Matrixgleichung ~y = P · ~u. 215 Schritt 4 kann auch folgend abgekürzt werden: Die Spalten der diagonalisierenden Matrix P sind die EV x~i von A, D enthält in der Hauptdiagonale die Eigenwerte λi von A, damit: c1 eλ1 x .. ~u(x) = , P = (x~1 |x~2 | . . . |x~n ) . λ x n cn e c1 eλ1 x .. ~y (x) = P · ~u(x) = (x~1 |x~2 | . . . |x~n ) . cn eλn x ỹ(x) = c1 x˜1 eλ1 x + . . . + cn x˜n eλn x Allgemeine Lösung Berücksichtigung der Anfangsbedingungen: ~y (0) = y~0 P ~u(0) = y~0 |{z} c1 . P · .. = y~0 ⇔ P · ~c = y~0 ⇔ c̃ = P−1 y˜0 cn | {z } =:~c Damit: Das Anfangswertproblem y~0 = A~y , ~y (0) = y~0 mit diagonalisierbarem A hat als Lösung: ỹ(x) = c1 x1 e˜λ1 x + . . . + cn x˜n eλn x mit c̃ := (c1 , c2 , . . . , cn )t = P−1 y˜0 . Bemerkung: 1. Beachte, daß man die Differentialgleichung rein algebraisch, ohne irgendeine Integration gelöst hat. 2. Ist A nicht diagonalisierbar, versucht man mittels ~y = P · ~u auf eine Dreiecksgestalt zu kommen (A triangulieren) und löst das neue System y~0 = D~u durch Rückwärtseinsetzen (→ Kapitel 22). Ist A auch nicht triangulierbar, dann geht es mit der Jordanschen Normalform (→ Kapitel 23). 3. Homogene Differentialgleichungen höherer Ordnung können durch y1 = y, y2 = y 0 , y3 = y 00 , . . . auf ein System von Differentialgleichungen erster Ordnung zurückgeführt werden (siehe Beispiel). 216 Die Matrix eAx Die Exponentialfunktion y = eax ist wegen der Differentiationsregel y 0 = aeax Lösung der Differentialgleichung y 0 = ay. Es gibt eine schöne Analogie, dies auf Differentialgleichungssysteme zu verallgemeinern. Es gilt bekanntlich: ex = P∞ 1 i xi i=0 i! = i=0 i! x P∞ (ax)i P∞ 1 i i=0 i! (ax) i=0 i! = P∞ eax = Davon inspiriert, setzt man: eAx := ∞ X I (Ax)2 (Ax)3 (Ax)i = In + Ax + + + . . . ∈ M(n × n, IR) i! 2! 3! i=0 Unter geeigneten Voraussetzungen konvergiert diese Potenzreihe aus Matrizen (→ Höhere Lineare Algebra). Zahl a ↔ n × n − Matrix A 1 ↔ In 4 −5 6 −5 14 −15 ⇒ A2 = , A3 = ... Beispiel: A = 2 −3 2 −1 6 −7 6 −5 14 −15 1 0 4 −5 + x3 + ... +x· + x2 eAx = 2! 3! 2 −1 6 −7 0 1 2 −3 f11 (x) f12 (x) 1 + 4x + 3x2 − 38 x3 + . . . −5x − 25 x2 − 25 x3 + . . . = , = 2 2x + x2 + x3 + . . . 1 − 3x − x2 + 76 x3 + . . . f21 (x) f22 (x) wobei fij (x) die Grenzfunktionen der entsprechenden Potenzreihen sind (allerdings sind sie oft nicht leicht angebbar). Vereinbarungsgemäß wird die Matrix eAx differenziert, indem man jede Eintragung differenziert. Wegen der Differentiationsregeln gilt dann: 0 2 3 ·3x2 eAx = A + A 2!·2x + A 3! + ... = A2 ·x2 Ax A · I + Ax 1! + 2! + . . . = A · e , also 0 eAx = A · eAx ↔ (eax )0 = aeax . 217 Berechnung von eAx für diagonalisierbare Matrizen A: 1. Mittels der Diagonalmatrix D Ist A diagonalisierbar ⇒ ∃P : P −1 AP = D mit λ1 0 .. D = ⇒ A = P DP −1 ⇒ A2 = P DP −1 , A3 = P D3 P −1 , . . . ⇒ . 0 λn eλ1 x 0 .. −1 eAx = P · P = PeDx P−1 mit P = (x˜1 | . . . |x˜n ) . λ x n 0 e wobei x~1 , . . . x~n die EV von A zu den EW λ1 , . . . , λn sind. Denn ist D = diag(λ1 , . . . , λn ) ⇒ eDx = I + Dx + D 2 x2 2! 1 + λ1 x + 1 2 2 2! λ1 x + . . . = + ... .. . 1 + λn x + eDx eλ1 x 0 .. . = 0 eλn x Also: A = PDP−1 ⇒ eAx = PeDx P−1 = P ⇒ 1 2 2 2! λn x + ... eλ1 x .. . eλn x −1 p . 2. Mittels Spektralsatz: Ist A = λ1 P1 + . . . + λr Pr ⇒ eAx = eλ1 x P1 + . . . + eλn x Pn . (siehe Beispiel unten) 3. Ist A nicht diagonalisierbar, dann muß man die Funktionen in eAx “erraten” oder durch die Jordan’sche Normalform berechnen (→ Höhere Lineare Algebra). Für die Exponentialmatrix gilt: eAx ist immer regulär und (eAx )−1 = e−Ax , det(eAx ) = esp(Ax) . (eAx )0 = AeAx 218 Beweis für diagonalisierbare Matrizen A (beachte, daß eAx ∼2 eDx ist): λ1 x e 0 . Ax .. |e | = = eλ1 x · eλ2 x · . . . · eλn x = eλ1 x+...+λn x = esp(Ax) 6= 0 λ x n 0 e Zusammenfassung: Die Differenzengleichung yk+1 ~ = A · y~k ; y~0 Differentialgleichung y~(x) 0 = A · y~(x) ; ~y (0) = y~0 hat die Lösung y~k = Ak · y~0 A = P DP −1 y~(x) = eAx · y~0 Ist A diagonalisierbar λ1 0 .. mit D = , P = (x~1 | . . . |x~n ) . 0 λn : wobei x~i EV zum EW λi von A ist, dann kann die Lösung als Linearkombination der EV geschrieben werden: y~k = c1 λk1 x~1 + . . . + cn λkn x~n ~y (x) = c1 eλ1 t x~1 + . . . + cn eλn t x~n mit ~c = (c1 , . . . , cn ) = P −1 y~0 ⇔ P · ~c = y~0 Beispiel: Berechnung von eAx : 0 1 0 −1 0 1 y 0 = y2 y ⇔ 1 A= A∗ = ~y 0 = −1 0 1 0 −1 0 y20 = −y1 0 1 0 −1 1 0 0 −1 0 1 1 0 = , A∗ A = AA∗ = −1 0 1 0 0 1 1 0 −1 0 0 1 Das reelle A ist normal (aber nicht symmetrisch) ⇔ A ist in CI diagonalisierbar. −x 1 = x2 + 1 pA (X) = −1 −x λ1 = i λ2 = −i 219 Damit ist: 1 −ix + y = 0 ix + y = 0 P = x = 1y = i 1 P −1 = x~2 = −i x = 1y = i x~1 1i 1 i −i 1 −2i |P | = −i − i = −2i −i −1 −i 1 = 1 2i i 1 i −1 = 1 2 1 −i 1 i Berechnung von eAx mittels Diagonalisierungsformel: ix ix ix 1 1 e −ie e 0 1 −i 1 1 · 1 = 1 = eAx = 2 2 −ix ix −ix 0 e 1 i i −i i −i e ie eix + e−ix −ieix + ie−ix cos x sin x = nach der Eulerschen Formel: = 21 ieix − ie−ix eix + e−ix − sin x cos x −ix ix ie = i cos x + sin x e = cos x + i sin x + + −ieix = −i cos x + sin x e−ix = cos x − i sin x {z } | {z } | 2 cos x 2 sin x Damit: cos x ~y = eAx y~0 = sin x − sin x cos x y1 = c1 · cos x + c2 · sin x c1 c2 y1 = −c1 · sin x + c2 · cos x Berechnung von eAx mittels Spektralsatz: P1 = A = λ 1 P1 + λ 2 P2 eAx = eλ1 x P1 + eλ2 x P2 eAx = 12 eix · 1 −i i +1 cos x sin x = − sin x cos x P2 = + 1 e−ix 2 1 1 2 i · (1, i) = 1 1 2 −i 1 1 2 · (1 − i) = +i −i +1 = 1 2 1 2 1 −i i 1 1 i −i 1 eix + e−ix −ieix + ie−ix ieix − ie−ix +eix − e−ix Die Orthogonalprojektionen wurden mittels des äußeren Produktes berechnet (Achtung: ON–Basis benützen und 2. Faktor konjugiert–komplex nehmen). = 220 22 Triangulieren Wie wir im vorhergehenden Kapitel gesehen haben, braucht ein linearer Operator T auf einem endlich–dimensionalen Vektorraum keine Diagonalmatrixdarstellung zu besitzen. Dies ist unter anderem nur dann möglich, wenn er “genug” Eigenvektoren hat, d.h., wenn es eine Basis des Vektorraumes aus Eigenvektoren von T gibt. Hat man zu “wenig” Eigenvektoren, gibt es andere einfache Darstellungsformen, wie z.B. Dreiecksmatrizen. Einen Operator bzw. eine Matrix triangulieren heißt, ihn bzw. sie auf eine Dreiecksmatrix (trianguläre Matrix) zu “bringen”, d.h., eine solche Basis B des Vektorraumes bzw. eine solche reguläre Matrix P zu finden, daß [T ]B bzw. P −1 AP eine (obere) Dreiecksmatrix ist. Eine notwendige Bedingung für die Triangulierung von T bzw. A ist wie im Fall der Diagonalisierung, daß alle Nullstellen des charakteristischen Polynoms PT (X), also die EW von T bzw. A im zugrundeliegenden a11 a12 a22 Sei [T ]B = Skalarkörper K liegen: . . . a1n . . . a2n .. . ann Dann gilt für das charakteristische Polynom a12 ... a1n a11 − X a22 − X . . . a2n PT (X) = .. . ann − X = (a11 − X)(a22 − X) . . . (ann − X). Es zerfällt also in Linearfaktoren. Wenn das nicht der Fall ist, ist T nicht mehr triangulierbar (auch nicht diagonalisierbar). Im SCHURschen Lemma wird gezeigt, daß das Zerfallen in Linearpolynome für die Triangulierung bereits hinreichend ist. In K = CI ist dies immer der Fall, nicht jedoch in K = IR. In der Algebra wird gezeigt, daß es zu jedem Körper K einen solchen gibt, in dem jeder Polynom über K in Linearfaktoren zerfällt, so daß also trianguliert werden kann. Der Triangulierungssatz stellt also einen wichtigen Fall dar. 221 1. Dreiecksmatrizen Definition 22.1 (i) Ein linearer Operator T : V → V heißt triangulierbar, wenn es in V eine Basis B gibt, bezüglich der T durch eine Dreiecksmatrix a11 a12 . . . a1n a22 . . . a2n [T ]B = .. . ann dargestellt werden kann. (ii) Eine n × n−Matrix A heißt triangulierbar, wenn es eine reguläre Matrix P gibt, sodaß P −1 AP eine Dreiecksmatrix ist. Also: A triangulierbar ⇔ A ist ähnlich zu einer Dreiecksmatrix. Beachte: Die EW von T bzw. A sind genau die Elemente in der Hauptdiagonale der Dreiecksmatrix. Satz 22.1 Triangulierungssatz (i) Abbildungstheoretische Form: V sei ein beliebiger Vektorraum über dem Körper K und T : V → V ein linearer Operator. Jeder lineare Operator T : V → V , dessen charakteristisches Polynom in K[X] in Linearfaktoren zerfällt, ist über K triangulierbar. (ii) Matrizentheoretische Form: Jede quadratische Matrix A über dem Körper K, deren charakteristisches Polynom in K[X] in Linearfaktoren zerfällt, ist über K triangulierbar. Der Beweis liefert auch das Verfahren zur Triangulation: Das charakteristische Polynom zerfällt in Linearfaktoren ⇒ PA (X) = (λ1 − X) . . . (λn − X), also sind λ1 , . . . , λn die EW von A (jeder sooft gezählt, wie die algebraische Vielfachheit angibt). 222 1. Schritt: x˜1 sei EV von A zu λ1 . Wir nehmen x~1 als 1. Spalte einer regulären n × n−Matrix Q1 : Q1 := (x~1 |s2 | . . . |s~n ) ∈ K n·n regulär ⇒ (s~2 , . . . , s~n sind also so zu wählen, daß |Q1 | = 6 0) AQ1 = (Ax~1 |As~2 | . . . As~n ) = (λ1 x~1 |As~2 | . . . |As~n ) Q−1 AQ1 = (λ1 Q−1 x~1 | . . . |Q−1 As~n ) = (λ1 e~1 | . . . | . . .), denn Q−1 Q = In = (e~1 |e~2 | . . . |e~n ). Also ist: Q−1 1 AQ1 = λ1 B1 0 A1 , wobei A1 eine (n − 1) × (n − 1) Matrix ist. Nun haben Q−1 1 AQ1 und A dieselben EW, weil diese Ähnlichkeitsinvarianten sind. Wegen |Q−1 1 AQ1 − XIn | = (λ1 − X)|A1 − XIn−1 | folgt, daß λ2 , . . . , λn auch die EW der (n − 1) × (n − 1) Matrix A1 sind. Dasselbe Verfahren wie für A wenden wir nun auf A1 an: 2. Schritt: x˜2 sei ein EV von A1 zu λ2 . Wir nehmen nun x~2 als 1. Spalte einer regulären (n − 1) × (n − 1)−Matrix Q2 (die übrigen Spalten sind wieder so zu wählen, daß |Q2 | = 6 0). Wie oben folgt: λ B2 2 , wobei A2 eine (n − 2) × (n − 2) Matrix ist. Q−1 1 AQ1 = 0 A2 Das Verfahren wird solange fortgesetzt, bis An−1 = (λn ) eine (1 × 1)−Matrix ist. Nach höchstens n − 1 Schritten erhält man also für I1 0 I 0 I 0 2 . . . n−2 , Q := Q1 · 0 Q2 0 Q3 0 Qn−1 λ1 Q−1 AQ = % .. 0 . . λn Ij j − te Einheitsmatrix 223 Beispiel: Bestimme eine reguläre Matrix Q derart, daß Q−1 AQ triangulär ist. 9 −1 8 −9 6 −1 5 −5 A= −5 1 −4 5 4 0 5 −4 1. PA (X) = (X 2 − 1)(X 2 − 4) = (X − 1)(X + 1)(X − 2)(X + 2) zerfällt in Linearfaktoren ⇒ A ist über IR triangulierbar. λ1 = 1, λ2 = −1, λ3 = 2, λ4 = −4 (alle EW sind verschieden ⇒ A wäre sogar diagonalisierbar). 2. x~1 = (5, 5, −1, 3)t ist EV zu λ1 = 1. 5 0 0 0 5 1 0 0 Q= −1 0 1 0 3 0 0 1 5 −1 8 −9 0 0 −15 20 1 B 1 1 = Q−1 1 AQ = 5 0 4 −12 16 0 A1 0 3 1 7 3. λ2 = −1 ist EW von A1 mit x~2 = (4, 0, −1)t als EV. −20 −15 20 4 0 0 −1 B2 1 Q2 := 0 1 0 ⇒ Q−1 0 −48 64 = 2 A1 Q2 = 20 0 A2 0 −11 48 −1 0 1 4. λ3 = 2 ist EW von A2 mit x~3 = (8, 11)t als EV. 8 0 2 2/5 ⇒ Q−1 ist bereits triangulär. Q3 := 3 A2 Q3 = 11 1 0 −2 5. Q := Q1 · I1 0 0 Q2 I2 0 5 0 0 5 0 4 0 = −1 Q3 0 8 3 −1 11 0 0 0 1 224 1 1 −7 −9/5 0 −1 −1 6. Probe: Q AQ = 0 0 0 0 5 2 0 1 . 2/5 −2 Mit MATHEMATICA wird die Dreiecksmatrix allerdings mit anderer Zeilenfolge ausgegeben: a={{9,-1,8,-9},{6,-1,5,-5},{-5,1,-4,5},{4,0,5,-4}}; a//MatrixForm 9 −1 8 −9 6 −1 5 −5 −5 1 −4 5 4 0 4 −4 {p,s}=Chop[SchurDecomposition[a]]; (* Transformationsmatrix p *) p//MatrixForm −0.730297 −0.19518 0.654654 0 −0.547723 0.58554 −0.436436 0.408248 0.365148 0.09759 0.436436 0.816497 −0.182574 −0.78072 −0.436436 0.408248 (* Schur’sche Normalform *) s//MatrixForm 2 −6.94879 −18.8049 −3.42864 0 −2 −3.42864 −1.51396 0 0 −1 −0.534522 0 0 0 1 (* Probe *) Chop[Inverse[p].a.p]==s True 225 Spezialfall: In C[X] I zerfällt jedes Polynom, daher gilt: Satz 22.2 SCHUR’sches Lemma Jede komplexe n × n−Matrix ist über CI stets triangulierbar. Allgemein: Jede n × n−Matrix über einem algebraisch abgeschlossenen Körper K ist über diesen stets triangulierbar. Theoretische Anwendung: Satz 22.3 Spur und Determinante (i) Die Spur einer Matrix ist die Summe ihrer Eigenwerte. (ii) Die Determinante einer Matrix ist das Produkt ihrer Eigenwerte. Beweis: Im algebraischen Abschluß ist eine Matrix ähnlich zu einer Dreiecksmatrix. Da die EW, sp(A) und det(A) Ähnlichkeitsinvarianten sind, und die EW einer Dreiecksmatrix ihre Diagonalelemente, gilt: sp(A) = a11 + . . . + ann = λ1 + . . . + λn det(A) = a11 · . . . · ann = λ1 · . . . · λn 226 23 Blockdiagonalisieren In Kapitel 21 hatten wir gesehen, daß Diagonalformen sehr nützlich sind. Was ist die nächstbeste Form nach einer Diagonalmatrix D = diag(λ1 , . . . , λn )? Eine Möglichkeit ist: Statt der Skalare λi stehen in der Hauptdiagonale quadratische Blockmatrizen Ai . A1 O . . . O O A2 . . . O n × n − Blockdiagonalmatrix = M = .. .. .. . . . O Die Ai sind (si × si )−Matrizen mit Pr i=1 si O = diag(A1 , . . . , Ar ) . . . Ar = n, O ist eine entsprechende Nullmatrix. Manche Blockdiagonalmatrizen werden sich als Dreieicksmatrizen erweisen, nämlich dann, wenn die Ai Dreiecksmatrizen sind. Ein Operator T : V → V erwies sich genau dann als diagonalisierbar, wenn V die direkte der Eigenräume Eλ war: V = Eλ1 ⊕ . . . ⊕ Eλr , wobei λ1 , . . . , λr die verschiedenen EW von T sind. Für diese Eigenräume gilt: T (Eλ ) ⊆ Eλ , Eλ ist also T −invariant, d.h., mit x ∈ Eλ ist auch T (x) ∈ Eλ , denn: Ist x ∈ Eλ ⇒ x = k1 b1 + . . . + km bm , wobei (b1 , . . . , bm ) eine Basis von Eλ sei. Dann ist T (x) = k1 T (b1 ) + . . . + km T (bm ) = k1 λb1 + . . . + km λbm = λ(k1 b1 + . . . + km bm ) ∈ Eλ . Allgemein wird sich zeigen: T : V → V läßt sich genau dann durch eine Blockdiagonalmatrix darstellen, wenn V direkte Summe von T −invarianten Teilräumen Wi C V ist. Die Kunst wird sein, solche T −invarianten Teilräume zu finden. 23.1 Allgemeines Blockdiagonalisieren Definition 23.1 T : V → V sei ein linearer Operator und W C V ein Teilraum von V . (i) W heißt ein T–invarianter Teilraum von T , wenn T (W ) ⊆ W . Dann ist die Einschränkung T /W : W → W ein linearer Operator auf W : (T /W )(w) = T (w)∀w ∈ W . (ii) V sei direkte Summe der T −invarianten Teilräume Wi und Ti := T /Wi . V = W1 ⊕. . .⊕Wr oder T wird direkt zerlegt in die Operatoren Ti : T := T1 ⊕ . . . ⊕ Tr . Man sagt auch: Die T −invarianten Teilräume Wi reduzieren T . 227 Beispiel: Die Eigenräume Eλ von T sind T −invariant. Beispiel: T : IR3 → IR3 sei die Rotation um den Winkel ϕ um die z−Achse. W = x − y−Ebene ist T −invariant. U = z−Achse ist T −invariant. T /W dreht jeden Vektor um den Ursprung um ϕ. T /U = idU . Satz 23.1 Invariante Teilräume T : V → V sei ein linearer Operator und f (x) ein Polynom aus K[X]. Folgende Teilräume von V sind T −invariant: (i) W = {0}, (ii) W = V, (iv) W = im(T ), (v) ker f (T ), (iii) W = ker(T ), (vi) W = ∩Wi , wobei die Wi T − invariant sind. Beweis von (v): f (T ) = a0 I + a1 T + a2 T 2 + . . . + an T n . Sei x ∈ ker f (T ) ⇒ f (T )(x) = 0. Wir zeigen: T (x) ∈ ker f (T ). Grundsätzlich ist f (X) · X = X · f (X) ⇒ f (T ) ◦ T = T ◦ f (T ) ⇒ f (T )(T (a)) = a0 T (x) + a1 T (T (x)) + . . . + an T n (T (x)) = T ◦ (a0 I(x) + a1 T (x) + . . . + an T n (x)) = T ◦ f (T )(x) = T (0) = 0. Beachte: ◦ ist für lineare Operatoren auch rechtsdistributiv. Wir benutzen folgende Basiseigenschaft: V ist direkte Summe der Wi genau dann, wenn die Vereinigung der Basen von Wi wieder eine Basis von V ist. Satz 23.2 Blockdiagonalmatrixdarstellung T : V → V sei ein linearer Operator und V die direkte Summe der T −invarianten Teilräume W1 , . . . , Wr . Ist Ai die Matrixdarstellung der Einschränkung T /Wi bezüglich der Basis Bi von Wi , dann ist die Matrixdarstellung von T bezüglich der Basis B = B1 ∪ . . . ∪ Br gegeben durch A1 O . . . O O A2 . . . O [T ]B = . .. O O . . . Ar 228 Also: [T ]B1 ∪B2 ...∪Br [T /W1 ]B1 O O .. . [T /W2 ]B2 .. . = ... O O O ... . . . [T /Wr ]Br Man sagt auch: [T ]B ist die direkte Summe der Matrizen A1 , A2 , . . . , Ar und schreibt [T]B = A1 ⊕ A2 ⊕ . . . ⊕ Ar . Beweis für zwei T −invariante Teilräume: V = U ⊕ W und T (U ) ⊆ U, T (W ) ⊆ W. B1 = (u1 , . . . , uk ) sei Basis von U und (w1 , . . . , wl ) Basis von W . T1 := T /U und T2 := T /W . Dann gilt: 0 a1k uk B .. B ⇒ [T1 ]B1 = A1 = B . @ T1 (uk ) = ak1 u1 + . . . + akk uk 0 T2 (w1 ) = b11 w1 + . . . + b1l wl B .. .. .. B = A = ⇒ [T ] B 2 B 2 . . . @ T2 (wl ) = bk1 w1 + . . . + bll wl T1 (u1 ) .. . = a11 u1 .. . +...+ a11 .. . ... a1k ... b11 .. . ... b1l ... ak1 1 C C C A akk 1 bl1 C C C = A2 A bll B1 ∪ B2 = (u1 , . . . , uk , w1 , . . . , wl ) ist Basis von V . ⇒ [T ]B = T (u1 ) .. . = T1 (u1 ) .. . = a11 u1 .. . +...+ a1k uk + 0w1 +...+ 0wk .. . T (uk ) = T1 (uk ) = ak1 u1 +...+ akk uk + 0w1 +...+ 0wk T (w1 ) .. . = T2 (w1 ) .. . = 0u1 .. . +...+ 0uk + b11 w1 +...+ b1l wl .. . T (wk ) = T2 (wl ) = 0u1 +...+ 0ul + bl1 w1 +...+ bll wl [T1 ]B1 O = A1 O O [T2 ]B2 O A2 Man schreibt: [T ]B = A ⊕ B und T = T1 ⊕ T2 . Solche T −invariante Teilräume Wi von V , die V direkt zerlegen, erhält man nach dem folgenden Hauptzerlegungssatz aus dem Minimalpolynom von T : Satz 23.3 Hauptzerlegungssatz T : V → V sei ein linearer Operator mit dem Minimalpolynom mT (X) = p1 (X)t1 p2 (X)t2 . . . pr (X)tr , 229 wobei die p1 , . . . , pr verschiedene, irreduzible Polynome sind. Wi sei der Nullraum der Abbildung pi (T )ti . Wi := ker(pi (T)ti ) i = 1, . . . , r Dann gilt: (i) Jedes Wi ist ein T −invarianter Teilraum von V (ii) V = W1 ⊕ . . . ⊕ Wr (iii) pi (X)ti ist das Minimalpolynom der Einschränkung von T auf Wi : mT /Wi = pi (X)ti Ohne Beweis. 2 1 0 Beispiel: A = −3 0 3 1 3 2 pA (X) = X − 3X +5X 0 1 2 − 3 = (X − 1)(X − 2X + 3) = mA 0 U1 = ker(A − I) =< 0 > 1 1 0 U2 = ker(A2 − 2A + 3I) =< 0 , 1 0 −1 V = U1 ⊕ U2 0 1 0 > 0 1 0 Basis B = 0 , 0 , 1 ⇒ P = 0 0 1 . 1 0 −1 1 0 −1 1 0 0 2 1 Mit diesem P gilt P −1 AP = 0 2 1 ⇒ A = A⊕ A2 mit A1 = (1), A2 = −3 0 0 −3 0 Es kommt also auf die Berechnung des Minimalpolynoms an: Algorithmus zur Berechnung des Minimalpolynoms mA aus dem charakteristischen Polynom pA : 230 1. Zerlege pA (X) in irreduzible Faktoren (schwierig; in Mathematica z.B. mit Factor[p]) pA (X) = p1 (X)t1 . . . pr (X)tr 2. Starte bei p1 (X) . . . pr (X) und prüfe, ob A Nullstelle ist. Falls ja, dann ist mA = p1 (X) . . . pr (X). Wenn nicht, probiere, ob A eine Nullstelle von p21 (X)p2 . . . pr usw. Damit: Sind alle irreduziblen Faktoren von pA (X) verschieden, dann ist mA (X) = pA (X). Zwei Spezialfälle 1. T sei ein nilpotenter Operator vom Index k, d.h. T k = 0, aber T k−1 6= 0. Das Minimalpolynom ist mT (X) = X k und 0 daher sein einziger EW. Satz 23.4 Blockdiagonalzerlegung von nilpotenten Operatoren T : V → V sei ein nilpotenter Operator vom Index k bzw. A eine quadratische, nilpotente n × n−Matrix vom Index k. Dann hat T eine blockdiagonale Matrixdarstellung, deren Diagonalblöcke N von der Form 0 1 0 ... 0 0 0 0 1 ... 0 0 N = .................. 0 0 0 ... 0 1 0 0 0 ... 0 0 sind. Es gibt mindestens eine (k × k)−Block, alle anderen Blöcke haben Dimensionen ≤ k. Die Gesamtanzahl der Blöcke = def (T ). Die Anzahl der Blöcke der Dimension mi ist gegeben durch 2mi − mi+1 − mi−1 wobei mi = def (T i ). Beachte: Jeder Block ist selbst nilpotent von einem Index, der gleich seiner Dimension ist. Beachte: Obige Blockdiagonalzerlegung ist sogar triangulär. 0 0 1 1 1 0 1 1 0 1 0 0 0 0 0 0 0 1 1 1 Beispiel: A = 0 0 0 0 0 , A2 = 0 0 0 0 0 , A3 = O 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 231 A ist nilpotent vom Index 3. Die Matrixdarstellung M enthält mindestens einen blockdiagonale 0 1 0 Block der Dimension 3: N = 0 0 1 und keinen größeren. 0 0 0 Wegen rg(A) = 2 ist def (A) = 5 − 2 = 3, daher enthält M 3 diagonale Blöcke ⇒ M enthält einen (3 × 3)−Block und zwei (1 × 1)−Blöcke. Eine andere Konstellation ist nicht möglich. 0 1 0 0 0 1 A ∼2 M = 0 . 0 Die blockdiagonalisierende Matrix P mit P −1 AP = M erhält man am besten mittels eines unbestimmten Ansatzes: Wir bestimmen eine Basis B = (b~1 , b~2 , b~3 , b~4 , b~5 ) des K 5 , bezüglich der die Matrixdarstellung [T ]B = M ist. Nach Definition der Matrixdarstellung (Spalten = Koordinaten der Bilder der Basisvektoren) gilt auf Grund der Gestalt von M : A(b~1 ) = Ab~1 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~1 ∈ ker(A) A(b~2 ) = Ab~2 = 1 · b~1 + . . . + 0 · b~5 = b~1 ⇒ b~2 ist Lösung von A~x = b~1 A(b~3 ) = Ab~3 = 1 · b~2 + . . . + 0 · b~5 = b~2 ⇒ b~3 ist Lösung von A~x = b~2 A(b~4 ) = Ab~4 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~4 ∈ ker(A) A(b~5 ) = Ab~5 = 0 · b~1 + . . . + 0 · b~5 = ~0 ⇒ b~5 ∈ ker(A) b~1 , b~4 , b~4 sind also die Basisvektoren vom Nullraum von A: NullSpace[A] =< (0, 0, −1, 0, 1)t , (0, 1, −1, 1, 0), (1, 0, 0, 0, 0) > Durch Probieren wählen wir b~1 , b~4 , b~5 so, daß die obigen LGS A~x = b~1 und A~x = b~z lösbar sind. Die natürliche Reihenfolge liefert keine Lösung, aber: b~1 = (1.0.0.0.0)t , b~4 = (0, 1, −1, 1, 0)t ; b~5 = (0, 0, −1, 0, 1)t b~2 = LinearSolve[A, b~1 ] = (0, 1, 0, 0, 0)t b~3 = LinearSolve[A, b~2 ] = (0, −1, 1, 0, 0)t 232 P ist die Übergangsmatrix von der Standardbasis zu B, also 1 0 0 0 0 0 1 −1 1 0 P = 0 0 1 −1 −1 0 0 0 1 0 0 0 0 0 1 Probe: P −1 AP = M . 2. Ein orthogonaler Operator T ist zwar stets ein normaler Operator, aber in der Regel nicht symmetrisch, so daß er zwar über CI diagonalisierbar ist, nicht jedoch über IR. Über IR gibt es aber folgende andere einfache Darstellung: Satz 23.5 Blockdiagonaldarstellung orthogonaler Operatoren über IR Es sei T : V → V ein orthogonaler Operator auf einem reellen Skalarproduktraum. Dann gibt es eine ON–Basis B von V , bezüglich der T folgende Matrixdarstellung besitzt: 1 .. . 1 −1 .. . [T ]B = −1 cos ϕ1 − sin ϕ1 sin ϕ1 cos ϕ1 .. . cos ϕr − sin ϕr sin ϕr cos ϕr ohne Beweis. Bemerkung: Die (2 × 2)−Blöcke entsprechen den komplexen EW λi = cos ϕ + sin ϕ von T (diese müssen Betrag 1 haben). 233 23.2 JORDAN’scher Normalformensatz Die letzten Sätze zeigen, daß die Blockdiagonalform eines nilpotenten bzw. orthogonalen Operators sehr viele Nullen und Einser enthält. Das bestmöglichste Resultat, das man in diese Hinsicht für einen beliebigen Operator erreichen kann, ist die JORDAN’sche Normalform (Camille Jordan, 1838-1922). Notwendig und hinreichend dafür ist, daß sowohl das charakteristische Polynom, als auch das Minimalpolynom des Operators (der Matrix) in Linearfaktoren zerfallen. Über CI ist das (zumindest theoretisch) stets der Fall, so wie auch im algebraischen Abschluß eines jeden Körpers. Man kann somit sagen, daß jeder Operator auf JORDAN’sche Normalform gebracht werden kann. Die Faktoren in den Zerlegungen des Minimal– und des charakteristischen Polynoms geben über die Anzahl der Blöcke oft hinreichend Bescheid. Es ist aber schwierig, diese Zerlegung in Linearfaktoren herzustellen. Hier hilft die Methode des unbestimmten Ansatzes weiter. Auch Hilfe von verallgemeinerten Eigenvektoren kann man jene Transformationsmatrizen berechnen, die die Jordansche Normalform herstellen. Satz 23.6 JORDAN’scher Normalformensatz T : V → V sei ein linearer Operator, λ1 , . . . , λr seien seine verschiedenen EW. Das charakteristische bzw. das minimale Polynom mögen in Linearfaktoren zerfallen: pT (X) = (X − λ1 )k1 (X − λ2 )k2 . . . (X − λr )kr mT (X) = (X − λ1 )m1 (X − λ2 )m2 . . . (X − λr )r Dann hat T eine blockdiagonale Matrixdarstellung J, deren Diagonalblöcke Jij zum EW λi folgende Form besitzen: λi 1 0 ... 0 0 0 λi 1 . . . 0 0 Jij = . . . . . . . . . . . . . . . . . . . . . 0 0 0 . . . λi 1 0 0 0 . . . 0 λi = λi In + N, N nilpotent. Jij ist ein Block, der zum i−ten Eigenwert λi gehört, er heißt JORDAN’scher Block. Die JORDAN’schen Blöcke haben folgende Eigenschaften: (i) Es gibt mindestens ein Jij der Dimension mi , alle anderen Blöcke haben eine Dimension ≤ mi . 234 (ii) Die Summe der Dimensionen aller Jij zu λi ist ki , die algebraische Vielfachheit von λi . (iii) Die Anzahl gi der Jij ist gleich der geometrischen Vielfachheit von λi . Die Anzahl der JORDAN’schen Blöcke jeder möglichen Dimension ist durch T eindeutig bestimmt. Insgesamt ist: J = diag(J11 , . . . , J1g1 , . . . , Jr1 , . . . , Jrgr ), wobei gi die geometrische Vielfachheit vom EW λi ist. ohne Beweis. Beachte: Jeder JORDAN’sche Block ist von der Form: Jij = λIn + N N nilpotenter Block aus (23.4) und J selbst ist sogar von triangulärer Form. Der Satz sagt also aus, daß jeder Operator T in eine Summe von solchen Operatoren zerlegt werden kann, die selbst die Summe aus einem Vielfachen des identischen Operators und eines nilpotenten Operators sind. Die Gestalt λ In + N ermöglicht ein leichtes Berechnen von hohen Matrixpotenzen (ohne Beweis): ... 0 λn ... n Jij = ........................... 0 0 0 λn λn n 1 λn−1 i n n−2 2 λi n n−1 1 λi Die Aussagen (i), (ii), (iii) ermöglichen oft eine Bestimmung der Jordan’schen Normalform. Beispiel: T : V → V sei ein linearer Operator mit pT (X) = (X − 2)4 (X − 3)3 mT (X) = (X − 2)2 (X − 3)2 und λ1 = 2, k1 = 4, m1 = 2 λ2 = 3, k2 = 3, m2 = 2 Für die Jordan’schen Blöcke gibt es folgende Möglichkeiten: 2 1 Zum EW λ1 gibt es einen (2 × 2)−Block: 0 2 3 1 Zum EW λ2 gibt es einen (2 × 2)−Block: 0 3 235 Wegen k1 = 4 gibt es zwei (2 × 2)−Blöcke oder einen (2 × 2)−Block und zwei (1 × 1)−Blöcke zu λ1 = 2. Wegen k1 = 3 gibt es einen (2 × 2)−Block und einen (1 × 1)−Block zu λ2 = 3. Die Anzahl der Blöcke hängt von der geometrischen Vielfachheit von λi ab: Besitzt T zwei l.u. EV zu λ1 , dann gibt es zwei Blöcke zu λ1 = 2, also ist 2 1 0 2 2 1 J = 0 1 3 1 0 1 3 Die Basis, bezüglich der [T ]B = J ist bzw. die blockdiagonalisierende Matrix P mit P −1 AP = J findet man am bestem mit dem unbestimmten Ansatz: Beispiel: T : IR4 → IR4 mit T (x, y, z, u) = x + y + u, 2y, −x + y + 2z + u, −x + y + 3u) 1 1 0 1 0 2 0 0 =A [T ]B = −1 1 2 1 −1 1 0 3 pT (X) = (X − 2)4 mT (X) = (X − 2)2 ⇒ k1 = 4, m1 = 2 geometrische Vielfachheit von λ = 2 ist 3. Damit sind folgende JORDAN’sche Formen möglich (T ist übrigens nicht diagonalisierbar): (4 × 4) = (2 × 2) + (1 × 1) + (1 × 1) (4 × 4) = (2 × 2) + (1 × 1) + (2 × 2) scheidet aus, weil 3 Blöcke zu λ = 2 vorhanden sein müssen. Die zwei (1 × 1)−Blöcke kann man verschieden anordnen: 2 1 2 0 2 2 1 J1 = J2 = 2 0 2 2 2 J3 = 2 2 2 1 0 1 236 Wir bestimmen eine Basis B = (b~1 , b~2 , b~3 , b~4 ), für die [T ]B = J1 gilt: Nach Definition der Matrixdarstellung muß gelten: T (b~1 ) = 2b~1 ⇒ b~1 ist EV von T zum EW λ = 2 T (b~2 ) = 1 · b~1 + 2b~2 ⇔ (T − 2I)b~2 = b~1 ⇔ b~2 ist Lösung von (T − 2I)~x = b~1 T (b~3 ) = 2b~3 ⇒ b~3 ist EV von T zum EW λ = 2 T (b~4 ) = 2b~4 ⇒ b~4 ist EV von T zum EW λ = 2 b~1 , b~3 , b~4 ∈ E2 , es ist dim(E2 ) = 3 = geometrische Vielfachheit von λ = 2. Eigenvektor [a] =< (1, 0, 0, 1)t , (0, 0, 1, 0)t , (1, 1, 0, 0)t >. Alle 3 Basisvektoren eignen sich nicht zur Lösung von (T − 2I4 )~x = b~1 . Durch Probieren findet man, daß erst b~1 = (1, 0, 0, 1)t + (0, 0, 1, 0)t = (1, 0, 1, 1)t ∈ E2 sich für die Lösung des LGS (T − 2I)~x = b~1 eignet. b~2 = LinearSolve[a − 2IdentityMatrix[4], b~1 ] = (−1, 0, 0, 0)t . b~3 = (1, 0, 0, 1)t b~4 = (1, 1, 0, 0)t . 1 −1 1 1 0 Damit ist P = 1 1 0 0 1 = {b~1 , b~2 , b~3 , b~4 }. 0 0 0 0 1 0 Probe: J1 = Inverse[P ] · A · P . Durch andere Anwendungen von b~1 , b~2 , b~3 , b~4 erhält man J2 bzw. J3 . Statt des unbestimmten Ansatzes kann man auch verallgemeinerte EV benützen, um die gewünschte Transformationsmatrix zu erhalten. 23.3 Verallgemeinerte Eigenvektoren Im Falle der Nichtdiagonalisierbarkeit einer n × n−Matrix, wenn sie also mehrfache EW besitzt, erhält man zu wenig (d.h., weniger als n) l.u. Eigenvektoren. Man behilft sich dann mit “verallgemeinerten Eigenvektoren” weiter, mit deren Hilfe Transformationsmatrizen P zur Erreichung 237 der JORDAN’schen Normalform konstruiert werden können. Diese verallgemeinerten EV sind auch sonst noch von Nutzen. Definition 23.2 Verallgemeinerter Eigenvektor Ein vom Nullvektor verschiedener Vektor ~x ∈ K n heißt verallemeinerter Eigenvektor der Matrix A ∈ K n·n vom Rang k zum Eigenvektor λ, wenn gilt: (A − λI)k ~x = ~0 und (A − λI)k−1 ~x 6= ~0. Im Falle eines linearen Operator T nimmt man zur Definition des veralgemeinerten EV x von T dessen Darstellungsmatrix bezüglich irgendeiner Basis. Bemerkung: Für k = 1 erhält man die übliche Definition des Eigenvektors. Diese sind also verallgemeinerte EV vom Rang 1. Mit einem solchen verallgemeinerten EV ~x bzw. x vom Rang k kann man folgende Menge von k verallgemeinerten EV zum EW λ, genannt “Kette von verallgemeinerten EV zum EW λ”, konstruieren: xk := x, xk−1 := (A − λI)x = (A − λI)xk xk−2 := (A − λI)2 x = (A − λI)xk−1 .. . x1 := (A − λI)k−2 x = (A − λI)x3 x2 := (A − λI)k−1 x = (A − λI)x2 Durch Induktion nach i zeigt man, daß xi ein verallgemeinerter EV von A vom Rang i ist. Außerdem erhält man so die zur Transformation auf JORDAN’sche Normalform notwendigen l.u. Vektoren. Satz 23.7 Lineare Unabhängigkeit verallgemeinerter EV (i) Die von einem verallgemeinerten EV x zum EW λ vom Rang k erzeugte Kette (x1 , x2 , . . . , xk ) von verallgemeinerten EV ist l.u. (ii) Die Vereinigung von Ketten verallgemeinerter EV zu verschiedenen EW ist l.u. Beweis von (i): Wir benützen für i = 1, . . . , l − 1: (A − λI)k−1 xi = (A − λI)k−1 (A − λI)k−i xk = (A − λI)2k−(i+1) xk = 0 (weil (A − λI)k xk = (A − λI)k x = 0). Sei l1 x1 + l2 x2 + . . . + lk xk = 0. (32) 238 Durch Linksmultiplikation mit (A − λI)k−1 erhält man: l1 (A − λI)k−1 | {z } x1 + . . . + li =(A−λI)2k−2 xk =0 (A − λI)k−1 | {z } xi + . . . + lk (A − λI)k−1 xk = 0, =(A−λI)2k−(i+1) xk =0 bleibt also nur lk (A − λI)k−1 xk = 0 übrig. Weil aber (A − λI)k−1 xk 6= 0 ist, muß lk = 0 sein. Analog erhält man durch Linksmultiplikation von (32) mit (A − λI)k−i , daß li = 0 ist für i = k, k − 1, . . . , 1. Beweis von (ii): x sei verallgemeinerter EV von A vom Rang k zum EW λ mit Kette K1 = (x1 , x2 , . . . , xk ). y sei verallgemeinerter EV von A vom Rang l zum EW µ mit Kette K2 = (y1 , y2 , . . . , yl ). Nach (i) sind K1 , K2 l.u. Mengen. Wir zeigen: K1 ∪ K2 = (x1 , x2 , . . . , xk , y1 , y2 , . . . , yl ) ist ebenfalls l.u. Indirekt: Sei xi l.a. von K2 = (y1 , y2 , . . . , yl ) ⇒ ∃ Skalare s1 , . . . , sl , nicht alle 0, mit: xi = s1 y1 + . . . + si yi + . . . + sl yl = 0 (33) Linksmultiplikation von (33) mit (A − λI)i ergibt wegen (A − λI)i xi = 0: (A − λI)i xi = (A − λI)(s1 y1 + . . . + si yi + . . . + sl yl ) = 0 (34) Linksmultiplikation von (34) mit (A − µI)l−1 ergibt, wenn man für i = 1, . . . , l − 1 berücksichtigt: (A − µI)l−1 (A − λI)i yi = (A − λI)i (A − µI)l−1 yi = 0 nur mehr sl (A − λI)i (A − µI)l−1 yl = 0 oder weil yl verallgemeinerter EV vom Rang l ist: sl (A − λI)i yl = 0. (35) Nun ist (A − µI)yl = 0 gleichbedeutend mit Ayl = µyl , daher erhält man auf (35): sl (µ − λ)i yl = 0. (36) Wegen µ 6= λ und yl 6= 0 folgt aus (36): sl = 0. So fortfahrend erhält man sl = sl−1 = . . . = si = . . . s1 = 0, ein Widerspruch zu (33), d.h., jedes xi ∈ K1 ist von K2 l.u. Analog zeigt man, daß jedes yi ∈ K2 von K1 l.u. ist. Somit ist K1 ∪ K2 l.u. Beispiel: Berechne die JORDAN’sche Normalform von 1 1 0 1 0 2 0 0 A= −1 1 2 1 −1 1 0 3 239 und bestimme die Transformationsmatrix P mit P −1 AP = J mittels verallgemeinerter EV. Es ist PA (X) = (X − 2)4 , also gibt es nur einen EW λ = 2 mit der algebraischen Vielfachheit 4. Wegen rg(A − 2I) = 1 = 4 = 3 gibt es nur 3 l.u. EV, also zu wenig für eine Basis. Daher versuchen wir es mit verallgemeinerten EV zum EW λ = 2 vom Rang 2 (es ist mA (x) = (X − 2)2 , also (A − 2I)2 x = 0), d.h., man sucht einen Vektor ~x mit (A − 2I)~x = 0 und (A − 2I)2 ~x 6= 0. Wegen mA (X) = x2 − 2 erfüllt jeder Vektor (A − 2I)2 ~x = 0, wir bestimmen ein solches x~2 , für den (A − 2I)x~2 6= 0 ist, z.B. x~2 = (1, 0, 0, 0)t , dann ist x~1 := (A − 2I)x~2 = (−1, 0, −1, −1)t und x~1 , x~2 sind 2 verallgemeinerte EV zum EW λ = 2. Zusammen mit den EV x~3 = (1, 0, 0, 1)t und x~4 = (1, 1, 0, 0)t erhält man eine Basis B = (x~1 , x~2 , x~3 , x~4 ) von K 4 und damit die reguläre Matrix −1 0 P = (x~1 |x~2 |x~3 |x~4 ) = −1 −1 Mit P −1 0 0 1 0 1 1 1 0 0 1 0 0 0 0 1 0 2 1 0 0 1 −1 0 −1 0 2 0 0 −1 =J = erhält man P AP = 0 0 0 2 0 0 −1 1 0 1 0 0 0 0 0 2 23.4 Matrizenfunktionen Sowohl bei den Differenzen–, als auch bei den Differentialgleichungen, haben wir gesehen, daß gewisse Funktionen von Matrizen, wie z.B. die Potenzfunktion Ak bzw. die Exponentialfunktion eAx √ von Bedeutung sind. Generell benötigt man alle gängigen Funktionen (sin A, A, ln A, . . .) einer Matrix A. Es gibt mehrere Methoden, solche Funktionen von Matrizen zu berechnen: mittels der Polynomdivision, den Normalformen, den Interpolationsformeln oder mittels des Spektralsatzes. 1. Matrizenfunktionen mittels Polynomdivision Setzt man eine quadratische Matrix A in ihr charakteristisches Polynom pA (X) ein, so erhält man nach dem Satz von CAYLEY die Nullmatrix O : pA (A) = O∀A ∈ K n·n . Das heißt, die 240 Nullfunktion an “der Stelle A” kann durch ein Ersatzpolynom, nämlich das charakteristische Polynom pA (X) dargestellt werden. Ähnliches gilt auch für andere Funktionen f (X). Die einfachsten Funktionen nach der Potenzfunktion sind die Polynomfunktionen p(X) = am X m + am−1 X m−1 + . . . + a0 am 6= 0. Ist A eine quadratische n×n−Matrix, dann ist nach den Regeln einer Algebra die Polynommatrix p(A) := am Am + am−1 Am−1 + . . . + a0 In möglich. Ist m < n, dann berechnet man p(A) direkt nach den Matrixregeln. Ist jedoch m ≥ n, dann kann die Berechnung von p(A) mittels des Satzes ?? über die Polynomdivision wesentlich vereinfacht werden. Es gilt dann, wenn pA (X) das charakteristische Polynom von A bezeichnet: p(X) = q(X) · pA (X) + r(X) mit [r(X)] < n Nach dem Satz von CAYLEY gilt dann wegen pA (A) = O p(A) = q(A) · pA (A) + r(A) (37) p(A) = r(A) Beachte: Zur Berechnung von p(A) benötigt man höchstens Matrizpotenzen vom Grad ≤ n − 1. Beispiel: p(X) = X 10 −10X 9 +23X 8 − X 3 + 11X 2 + X + 24 Berechne p(A) für A = 5 2 1 5 2 Lösung: pA (X) = X − 10X + 23. Nach dem Divisionssatz gilt: p(X) = (X 8 − X + 1)pA (X) +034X + 1. 1 Daher ist p(A) = 34A + I2 = @ A. 171 68 34 171 Ohne Beweis sei angegeben, daß die Beziehung (37) auch noch für andere Funktonen f (X) als Polynomfunktion gilt: f (X) = q(X) · pA (X) + r(X) wobei r(X) = rn−1 X n−1 + . . . + r1 X + r0 ein Polynom höchstens (n − 1)−ten Grades ist. Damit ist f (A) = q(A) · pA (A) + r(A) und wegen pA (A) = O gilt: f (A) = r(A). (38) 241 Die Matrixfunktion f(A) kann also durch ein Ersatzpolynom berechnet werden. Die n Koeffizienten r0 , . . . , rn−1 des Restpolynoms r(X) erhält man aus (38), indem man die EW λi einsetzt und berücksichtigt, daß pA (λi ) = 0 ist. Sind alle EW verschieden, erhält man dadurch ein LGS für die unbekannten Koeffizienten r0 , . . . , rn−1 von r(X): r(λi ) = f (λi ) i = 1, . . . , n (39) Ist λi ein k−facher EW, dann gilt nach ??, daß nicht nur pA (λi ) = 0, sondern auch die Ableitung bis zur (ki − 1)−ten Ordnung an der “Stelle” λi : (k −1) pA (λi ) = 0, p0A (λi ) = 0, . . . , pA i (λi ) = 0 Dies liefert die Gleichungen (soferne die Ableitungen existieren) r(λi ) = f (λi ) r0 (λi ) = f 0 (λi ) (40) r(ki −1) (λi ) = f (ki −1) (λi ). Da die Summe der algebraischen Vielfachheiten aller EW λi gleich n ist, erhält man also stets n lineare Gleichungen für die unbekannten Koeffizienten r0 , rn, . . . , rn−1 von r(X). 5 2 die Matrizen Beispiele: Im folgenden werden für die Matrix A = 1 5 eA , sin A, cos A, A−3 , ln A (mit eln A = A) berechnet. 242 243 Die Berechnungen von f (A) kann noch effizienter gestaltet werden, wenn man das Minimalpolynom mA (X) von A kennt und wenn dessen Grad kleiner als der des charakteristischen Polynoms pA (X) ist. Da nach Satz 19.8 auch mA (A) = O und mA (λi ) = 0 ist, gilt dieselbe Schlußweise wie oben. Die Berechnung von mA (X) ist allerdings nicht leicht (siehe 19.2). Kennt man jedoch die JORDAN’sche Normalform J von A, dann kann das Minimalpolynom mA (X) sofort angegeben werden: Sei λ1 , λ2 , . . . , λr die verschiedenen EW der n×n−Matrix A mit den algebraischen Vielfachheiten P k1 , k2 , . . . , kr ( ri=1 ki = n). Es ist dann bekanntlich (−1)n pA (X) = r Y (X − λi )ki i=1 Definition 23.3 Index eines Eigenwertes Der Index ki des EW λi ist die größte Dimension der zu λi gehörigen JORDAN–Blöcke. Nach Satz 19.8 ist ki ≤ ki . Beispiel: Die 7 × 7−Matrix A habe die JORDAN’sche Normalform J = 5 1 0 0 0 0 0 0 5 1 0 0 0 0 0 0 5 0 0 0 0 0 0 0 5 1 0 0 0 0 0 0 5 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 2 Es ist dann: λ1 = 5, k1 = 5, k1 = 3; λ2 = 2, k2 = 2, k2 = 2 Satz 23.8 Produktdarstellung des Minimalpolynoms Hat A die r verschiedenen EW λ1 , λ2 , . . . , λr mit Index k1 , k2 , . . . , kr , dann gilt für das Minimalpolynom mA (X) = r Y (X − λi )ki i=1 244 2. Matrizenfunktionen mittels Interpolationspolynom Das die Matrizenfunktion f (A) bestimmende Restpolynom r(X) kann auch durch die aus der Analysis bekannten Interpolationspolynome bestimmt werden. So kann z.B. eine gegebene Funktion f (X) durch das LAGRANGE’sche Interpolationspolynom r(X) interpoliert werden (siehe ??): r(X) = n X f (xi ) · i=1 n Y X − xi xj − xi j=1 j6=n Diese LAGRANGE’sche Formel kann auf Matrizen mit verschiedenen EW übertragen werden: Satz 23.9 SYLVESTER’sche Interpolationsformel Die quadratische n × n−Matrix A habe n verschiedene EW λ1 , λ2 , . . . , λn . Dann gilt: f (A) = n X i=1 f (λi ) n Y A − λi In λj − λi j=1 (41) j6=i Beweis: Nach Satz 20.21 ist A unter diesen Bedingungen diagonalisierbar. Es gibt also eine reguläre Matrix P mit P −1 AP = D = diag(λ1 , . . . , λn ). Für f (X) gilt: P −1 f (A)P = f (D) = diag(f (λ1 ); . . . , f (λn )). (42) Multipliziert man (41) ebenfalls links mit P −1 und rechts mit P , so erhält man: “P Q A−λi I ” P −1 P = j λj −λi i f (λi ) “ ” (A−λ1 I)(A−λ2 I)...(A−λi−1 I)(A−λi+1 I)...(A−λn I) −1 Pn =P i=1 (λi −λ1 )(λi −λ2 )...(λi −λi−1 )(λi −λi+1 )...(λi −λn ) f (λi ) P = P (D−λ1 I)(D−λ2 I)...(D−λi−1 I)(D−λi+1 I)...(D−λn I) f (λi ) = = n i=1 i −λi+1 )...(λi −λn ) 0(λi −λ1 )(λi −λ2 )...(λi −λi−1 )(λ1 0 B C 0 1 B C .. B C . B C B f (λ1 ) C B C B P C .. B C=B = n C = f (D). f (λi ) . i=1 B C @ A B C B C .. f (λn ) B C . @ A 0 Damit ist nach (42): f (A) = = “P Q P f (D)P −1 = P (P −1 i f (λi ) j P Q A−λi I i f (λi ) j6=i λj −λi . A−λi I λj −λi ” P )P −1 = Für 3 × 3−Matrizen sieht (41) ausgeschrieben so aus: f (A) = f (λ1 ) (A − λ2 I3 )(A − λ3 I3 ) (A − λ1 I3 )(A − λ3 I3 ) (A − λ1 I3 )(A − λ2 I3 ) + f (λ2 ) + f (λ3 ) (λ1 − λ2 )(λ1 − λ3 ) (λ2 − λ1 )(λ2 − λ3 ) (λ3 − λ1 )(λ3 − λ2 ) 245 Beachte: Wegen der Verschiedenheit der EW sind alle Nenner 6= 0. Beispiele: 246 Bemerkung: Sind nicht alle EW verschieden, gilt Ähnliches mit der NEWTON’schen Interpolationsformel. 3. Matrizenfunktionen mittels Normalformen Sei A ähnlich zu einer Normalform N , also P −1 AP = N ⇔ A = P N P −1 . Für Polynomfunktion p(X) gilt dann (siehe das Rechnen mit Matrixpotenzen 21.4.1): p(A) = P (N )P −1 Ähnliches gilt für viele Funktionen f (X) (→ Funktionalanalysis): f (A) = Pf (N)P−1 247 Für spezielle Normalformen, wie z.B. für N = J (JORDAN’sche Normalform) und besonders für Diagonalmatrizen N = D ist die Berechnung von f (N ) besonders leicht. So ist (siehe 21.4.4) f (D) = diag(f (λ1 ), . . . , f (λn )) für D = diag(λ1 , . . . , λn ). Damit gilt also für diagonalisierbare Matrizen A mit EW λ1 , . . . , λn : f (λ1 ) −1 .. f (A) = P P , . f (λn ) wobei P die diagonalisierende Transformationsmatrix ist. Beispiele: 248 4. Matrizenfunktionen mittels der Spektraldarstellung Der Vollständigkeit halber sei noch ohne Beweis angegeben, wie man aus der Spektraldarstellung siehe 21.8 und 21.10 für normale Matrizen A praktisch sofort die Matrizenfunktion f (A) angeben kann: Satz 23.10 Matrizenfunktionen mittels Spektraldarstellung Seien λ1 , . . . , λr die verschiedenen EW der normalen Matrix A und P1 , . . . , Pr eine orthogonale Menge von Orthogonalprojektionen mit A = λ 1 P1 + . . . + λ r Pr wobei P2 + P2 + . . . + Pr = I und Pi Pj = Pj Pi , dann gilt: f (A) = f (λ1 )P1 + . . . + f (λj Pj ) 249 Beispiele: 250 251 252 VII QUADRATISCHE FORMEN Bisher haben wir uns nur mit linearen Ausdrücken in den Variablen x1 , . . . , xn der Form a1 x1 + a2 x2 + . . . + an xn beschäftigt. Sie sind dadurch gekennzeichnet, daß sie die Variablen nur in den ersten Potenzen enthalten und dementsprechend nur lineare Abbildungen vom K n → K hervorrufen. Nun wollen wir uns mit solchen Ausdrücken beschäftigen, die auch Produkte und Quadrate der Ausgangsvariablen enthalten: ax2 + bxy + cy 2 oder allgemein a11 x21 + a22 x2 + . . . + ann x2n + a12 x1 x2 + . . . + a1n x1 xn + . . . a23 x2 x3 + . . . + an−1 an xn−1 xn . Sie induzieren ebenfalls Abbildungen vom K n → K, die man allgemein Formen nennt. Sie sind aber nicht mehr linear, trotzdem werden wir sehen, daß sie mit linearen Methoden, ja sogar mit symmetrischen Matrizen beschrieben werden können. Solche Ausdrücke werden in den verschiedensten Gebieten der Mathematik benötigt. In der Analysis z.B. zur Kennzeichnung von Maxima und Minima, in der Geometrie zur Beschreibung von “gekrümmten” Punktmengen (Kegelschnitte, Quadriken), auch in der Statistik möchte man wissen, wann solche Ausdrücke immer nur Werte ≥ 0 oder < 0 annehmen. Dazu werden wir lernen, wie man solche quadratische Ausdrücke vereinfachen, insbesondere die gemischten Terme xi xj entfernen kann (“Hauptachsentransformation”) und welche Geometrie auf der durch sie beschriebenen Punktmengen möglich ist. 24 Bilinearformen und Quadratische Formen Mit den zunächst naheliegenden Ausdrücken der Form a1 x1 + . . . + an xn und den durch sie induzierten linearen Abbildungen, den Linearformen, werden wir uns erst später beschäftigen. Sie traten bisher bei linearen Gleichungssystemen auf. Der weitere Ausbau ihrer Theorie und ihren Anwendungen erfolgt im Kapitel über Dualität in der Höheren Linearen Algebra. Vielmehr beschäftigen wir uns mit “quadratischen Formen” und zeigen, daß sie trotzdem mit linearen Methoden behandelt werden können. Das beruht darauf, daß sie ebenfalls mit Matrizen (sogar symmetrischen → Hauptsatz der Linearen Algebra) beschrieben werden können bzw. als Spezialfall von “bilinearen” Abbildungen aufgefaßt werden können, wie folgendes Beispiel zeigt: 3 4 x1 = ~xt A~x. q(x1 , x2 ) = 3x1 + 8x1 x2 + 25x2 = (x1 , x2 ) 4 5 x2 Setzt man in f (x1 , x2 , y1 , y2 ) = 3x1 y1 + 4x2 y1 + 4x1 y2 + 5x2 y2 253 x1 = y1 und x2 = y2 , so erhält man: f (x1 , x2 , x1 , x2 ) = 3x21 + 4x2 x1 + 4x1 x2 + 5x22 = 3x21 + 8x1 x2 + 5x22 = q(x1 , x2 ) f ist dabei eine Abbildung von K 2 × K 2 → K und q(~x) = f (~x, ~x) ebenfalls eine Abbildung vom K 2 → K. 24.1 Definitionen Folgende Abbildungen wurden bisher untersucht: 1. Vorschriften mit nur 1. Potenzen der Ausgangsvariablen x̃ = (x1 , . . . , x˜n ) Lineare Abbildungen Affine Abbildungen y1 = a11 x1 + . . . + a1n xn y1 = a11 x1 + . . . + a1n xn + b1 y2 = a21 x1 + . . . + a2n xn .. . y2 = a21 x1 + . . . + a2n xn + b2 .. . ym = am1 x1 + . . . + amn xn ym = am1 x1 + . . . + amn xn + bm ~y = A~x ~y = A~x + ~b allgemein: f :V →W α:V →W f (x) = y α(x) = f (x) + t, f linear f (kx + ly) = kf (x) + lf (y) α : Lineare Abbildung + Translation f : Lineare Abbildung (Operator) Spezialfall: y = a1 x1 + . . . + a2 xn y = ~a · ~x f :V →K f (~x) = k ∈ K f : Linearform y = a1 x1 + . . . + a2 xn + b y = ~at · ~x + b α:V →K α(~x) = k ∈ K α : Linearform + Konstante 254 2. “Vorschriften” mit quadratischen und “gemischten” Termen der Ausgangsvariablen x̃ = (x1 , . . . , xn ) y = ax2 + bxy + cy 2 y = ax2 + bxy + cy 2 + dx + ey + f y = ~xt A~x q:V →K q:V →K q(~x) = xt Axt + ~a · ~x + f y = q(~x) = xt Axt =< A~x, ~x >=< x, A~x > Quadratische Form + Linearform + Quadratische Formen Konstante allgemein: y = a11 x21 + . . . + a1n x2n + P i6=j aij xi xj q(~x) = ~xt A~x q(~x) =< ~x, A~x > + < ~a, ~x > +f P P P y = aii x2i + i6=j aij xij + ai xi + c Allen Abbildungen ist gemeinsam: Einem Vektor x ∈ V wird ein Skalar zugeordnet. Sie können durch Matrizen und Skalarprodukte beschrieben werden. Nun wollen wir zwei und mehr Vektoren einem Skalar zuordnen. Beispiel: f (x1 , x2 , y1 , y2 ) = x1 y1 + 2x1 y2 − 3x2 y1 + 4x2 y2 f kann nicht nur als eine Zuordnung von K 4 → K, sondern auch als eine Zurodnung von K 2 × K 2 → K aufgefaßt werden. Setzt man ~x = xx12 und ~y = yy12 , dann gilt: f (~x, ~y ) = x1 y1 + 2x1 y2 − 3x2 y1 + 4x2 y2 ∈ K. Zwei Vektoren ~x, ~y ∈ K 2 wird also ein Skalar ∈ K zugeordnet. Auch diese Zuordnung kann vereinfacht mit einer Matrix angeschrieben werden: 1 2 y1 = ~xt A~y f (~x, ~y ) = (x1 , x2 ) −3 4 y2 Dabei ist aij = Koeffizient von xi xj . Aufgrund der Matrixregeln erweist sich die Zuordnung als linear in den 2 Vektor–Variablen ~x, ~y , d.h., ersetzt man ~x durch k x~1 + lx~2 , dann passiert dasselbe mit den Funktionswerten: f (k x~1 + lx~2 , ~y ) = kf (x~1 , ~y ) + lf (x~2 , ~y ) und analog f (k~x + k y~1 , ly~2 ) = kf (~x, y~1 ) + lf (~x, y~2 ), denn: f (k x~1 + lx~2 , ~y ) = (lx~1 + lx~2 )t A~y = (k x~1 t + lx~2 t )A~y = k x~1 t A~y + lx~2 t A~y = kf (x~1 , ~y ) + lf (x~2 , ~y ). Natürlich kann man dies auch in den Koordinaten nachrechnen. Übrigens ist f (~x, ~y ) 6= f (~y , ~x). 255 Setzt man in f (~x, ~y ) ~y = ~x, so erhält man: f (~x, ~x) = ~xt A~x = x21 + 2x1 x2 − 3x2 x1 + 4x22 = x21 − x2 x1 + 4x22 = q(~x) f (~x, ~x) ist also eine quadratische Form in x1 , x2 . Beispiel: Auch das Skalarprodukt ist eine Zuordnung, die 2 Vektoren einen Skalar zuordnet: f (~x, ~y ) = ~x · ~y = x1 y1 + . . . + xn yn ∈ K Ersetzt man auch hier ~x durch k x~1 + lx~2 , so erhält man: f (k x~1 + lx~2 , ~y ) = (k x~1 + lx~2 ) · ~y = k x~1 · ~y + lx~2 · ~y = kf (x~1 , ~y ) + lf (x~2 , ~y ) Dasselbe gilt bei der Ersetzung von ~y durch k y~1 + ly~2 . Man sagt: Die Zuordnung ist linear in der ersten und zweiten (Vektor)variablen. Es ist darüber hinaus: f (~x, ~y ) = f (~y , ~x). Beispiel: Beim komplexen Skalarprodukt gilt die Linearität bezüglich der zweiten Variablen nicht mehr ganz: f (~x, ~y ) = ~x · y = x1 y~1 + . . . + xn yn ⇒ f (~x, k y~1 + ly~2 = ~x(k y~1 + ly~2 ) = ~x · k y~1 + ly~2 = k(~x · y~1 ) + l(~x, y~2 ) = kf (~x, y~1 ) + l(~x, y~2 ). Man sagt: f ist bezüglich der 2. Variablen nur similinear. Definition 24.1 Semibilinearformen und quadratische Formen V sei ein Vektorraum über dem Körper K. Für k ∈ CI bezeichne k die konjugierte–komplexe Zahl zu k. (i) Eine Abbildung f : V × C → K = CI heißt eine Semibilinearform auf V , wenn für alle k, l ∈ K und alle x, x1 , x2 , y, y1 , y2 ∈ V gilt: (SB 1) f (kx1 + lx2 , y) = kf (x1 , y) + lf (x2 , y) f ist linear in der ersten Variablen. (SB 2) f (x, ky1 + ly2 ) = kf (x, y1 ) + lf (x, y2 ) f ist semilinear in der zweiten Variablen. (ii) Eine Abbildung f : V × V → K heißt Bilinearform auf V , wenn für alle k, l ∈ K und alle x, x1 , x2 , y, y1 , y2 ∈ V gilt: (B1) f (kx1 + lx2 , y) = kf (x1 , y) + lf (x2 , y) 256 (B2) f (x, ky1 + ly2 ) = kf (x, y1 ) + lf (x, y2 ) f ist in beiden Variablen linear. Beachte: Für K = CI gibt es Semibilinear– und Bilinearformen. (iii) Eine Abbildung f : V {z. . . × V} → K heißt Multilinearform auf V , wenn für alle | ×V × n mal k, l ∈ K und alle xi , xi1 , xi2 (i = 1, . . . , n) gilt: f (. . . , kxi1 + lxi2 , . . .) = kf (. . . , xi1 , . . .) + lf (. . . , xi2 , . . .) f ist in jeder Variablen linear. (iv) eine Semibilinearform f auf V heißt hermitesch, wenn für alle x, y ∈ V gilt: f (x, y) = f (y, x) (v) Eine Bilinearform f auf V heißt symmetrisch, wenn für alle x, y ∈ V gilt: f (x, y) = f (y, x) Für K = IR ist jede symmetrische auch eine hermitesche Semibilinearform. f heißt auch eine reell–symmetrische Bilinearform. (vi a) Eine Semibilinearform f heißt schiefhermitesch, wenn für alle x, y ∈ V gilt: f (x, y) = −f (y, x) (vi b) Eine Bilinearform (bzw. eine Multilinearform) f auf V heißt schiefsymmetrisch, wenn für alle x, y ∈ V gilt: f (x, y) = −f (y, x) bzw. f (. . . , x, . . . , y, . . .) = −f (. . . , y, . . . , x, . . .) (vi c) eine Bilinearform (bzw. eine Multilinearform) f auf V heißt alternierend, wenn für alle x ∈ V gilt: f (x, x) = 0 bzw. f (. . . , x, . . . , x, . . .) = 0 257 (vii) eine Abbildung h : V → K = CI heißt eine hermitesche Form auf V, wenn es eine hermitesche Semibilinearform f : V × V → CI gibt, mit h(x) = f (x, x) ∀x ∈ V. Hermitesche Formen nehmen nur reelle Zahlen als Werte an: f (x) = f (x, x) = f (x, x) = h(x) ⇒ h(x) ∈ IR. (viii) Eine Abbildung q : V → IR heißt eine quadratische Form auf V, wenn es eine symmetrische Bilinearform f : V × V → IR gibt, mit q(x) = f (x, x) ∀x ∈ V. f heißt Polarform zur quadratischen Form q. (ix) Eine hermitesche bzw. quadratische Form q(x) heißt positiv definit ⇔ q(x) > 0 ∀x 6= 0 positiv semidefinit ⇔ q(x) ≥ 0 ∀x negativ definit ⇔ q(x) < 0 ∀x 6= 0 negativ semidefinit ⇔ q(x) ≤ 0 ∀x indefinit ⇔ q(x) > 0 ∀x > 0 und ∃y : q(y) < 0. Beachte: Quadratische Formen haben wir nun nicht über den “vagen” Ausdruck gemischte und quadratische Terme definiert, sondern über symmetrische Bilinearformen. Das geht auch in abstrakten Vektorräumen. Elementare Eigenschaften: 1. Allen “Formen” ist gemeinsam: Sie sind Abbildungen in den Skalarkörper K eines Vektorraumes. Neuerdings heißen solche Abbildungen auch Funktionale, insbesondere lineare Abbildungen f : V → K. 2. Ist char(K) 6= 2 (wie z.B. für K = IR bzw. K = C), I dann ist jede alternierende Multilinearform schiefsymmetrisch und umgekehrt: 258 a) Sei f (. . . x . . . x . . .) = 0 ⇒ 0 = f (. . . x + y . . . x + y . . .) = f (. . . x . . . x . . .) + f (. . . x . . . y) + f (. . . y . . . x . . .) + f (. . . y . . . y . . .) = f (. . . x . . . y . . .) + f (. . . y . . . x . . .) (b) Sei f (. . . x . . . y . . .) = −f (. . . y . . . x . . .) ⇒ f (. . . x . . . x . . .) = −f (. . . x . . . x . . .) ⇒ 2f (. . . x . . . x . . .) = 0 ⇒ f (. . . x . . . x . . .) = 0 wenn char(K) 6= 2. Eine quadratische Form q : V → K erhält man durch q(x) := f (x, x) aus einer symmetrischen Bilinearform. 3. Ist char(K) 6= 2, dann kann umgekehrt jede symmetrische Bilinearform durch ihre dazugehörige quadratische Form dargestellt werden: f (x, y) = 1 (q(x, y) − q(x) − 1(y)) : Polarform von f . 2 Ist q(~x) = ~xt A~x, dann ist die Polarform f von q gegeben durch: f (~x, ~y ) = ~y t At + A ~x 2 Für quadratische Formen gilt weiters: q(0) = 0 q(x) = q(−x) q(x + y) + q(x − y) = 2(q(x) + q(y)) Parallelogrammgleichung für quadratische Formen. Analog kann eine hermitesche Semibilinearform f durch ihre hermitesche Form h polar dargestellt werden: f (x, y) = 1 1 (h(x + y) − h(x − y)) + (h(x + iy) − h(x − iy)) 4 4 Für hermitesche Semibilinearformen gilt darüber hinaus für alle x, y ∈ V : Re[f (x, y)] = 12 (f (x + y, x + y) − f (x, x) − f (y, y)) Im[f (x, y)] = 12 (f (x + iy, x + iy) − f (x, x) − f (y, y)) 259 Fundamentale Beispiele von Formen 1. a) Jede n × n−Matrix A = (aij ) über K definiert eine Bilinearform auf Kn durch: x1 a11 . . . a1n .. . f (x̃, ỹ) = ỹt Ax̃ = (y1 , . . . , yn .. . = xn an1 . . . ann Pn Pn = i=1 j=1 aij xi xj = a11 x1 y1 + a12 x1 y2 + . . . + ann xn yn . Der formale Ausdruck von f (~x, ~y ) ist also ein Polynom ∈ K[X, Y ], es heißt das zur Matrix A gehörige bilinear Polynom. Die Bilinearität folgt aus den Matrixregeln. b) Jede n × n−Matrix über CI definiert durch f (x̃, ỹ) = ỹ∗ Ax̃ eine Semibilinearform auf CI n . c) Jede symmetrische n × n−Matrix X definiert durch q(~x) = ~xt A~x eine symmetrische Bilinearform auf K n . P P P q(~x) = i,j aij xi xj = i aii x2i + 2 i<j aij xi xj d) Jede hermitesche n×n−Matrix A definiert durch q(~x) = ~x∗ A~x eine hermitesche Form auf CI n . 2. Jedes reelle Skalarprodukt f (x, y) =< x, y > ist eine symmetrische Bilinearform, deren zugehörige quadratische Form q(x) = (x, x) positiv definit ist. f (x, y) = x1 x1 + . . . + xn xn = x21 + . . . + x2n > 0 für x 6= 0. Jedes komplexe Skalarprodukt f (x, y) =< x, y > ist eine hermitesche Semibilinearform, deren zugehörige hermitesche Form h(x) = f (x, x) positiv definit ist. f (x, x) = x1 x1 + . . . + xn xn = |x1 |2 + . . . + |xn |2 > 0 für x 6= 0. 3. Jede Determinante det(A) ist eine alternierende Multilinearform iherer Zeilenvektoren: f (z~1 , . . . , z~n ) = det(A) mit der zusätzlichen Normierungseigenschaft: f (e~1 , . . . , e~n ) = |In | = 1. 4. f, g : V → K seien linear. Dann ist f (x, y) := f (x) · g(y) eine Bilinearform auf V . 260 5. a, b ∈ IR, a ≤ b. V = C[a, b], x(t), y(t) ∈ C[a, b]. Rb f (x, y) := a x(t)y(t)dt ∈ IR ist eine symmetrische Bilinearform. So wie die lineare Abbildung f, g : V → W bezüglich der punktweisen Addition f +g und Vielfachen kf einen Vektorraum Hom (V, W ) = L(V, W ) bilden, gilt dies auch für die Bilinearformen: (f + g)(x, y) := f (x, y) + g(x, y) (kf )(x, y) := kf (x, y) Satz 24.1 Die Menge B(V ) der Bilinearformen auf V bildet einen Vektorraum über K. 24.2 Matrixdarstellung von Bilinearformen So wie für lineare Abbildungen gibt es auch für Bilinearformen eine bijektive Zuordnung zu den Matrizen, verantwortlich dafür ist die Linearität in den beiden Variablen. Sei f eine Bilinearform auf V und B = (b1 , . . . , bn ) eine Basis von V . Ist x = x1 b1 + . . . + xn bn und y = y1 b1 + . . . + yn bn , dann ist, so wie bei linearen Abbildungen, das Bild f (x, y) durch die Bilder der Basisvektorpaare f (bi , bj ) eindeutig festgelegt: f (x, y) = f (x1 b1 + . . . + xn bn y1 b1 + . . . + yn bn ) = = x1 f (b1 , y1 b1 + . . . + yn bn ) + . . . + xn f (bn , y1 b1 + . . . + yn bn ) = = x1 y1 f (b1 , b1 ) + x1 y2 f (b1 , b2 ) + . . . + x1 yn f (b1 , bn )+ +x2 y1 f (b2 , b1 ) + x2 y2 f (b2 , b2 ) + . . . + x2 yn f (b2 , bn )+ ... +xn y1 f (bn , b1 ) + xn y2 f (bn , b2 ) + . . . + xn yn f (bn , bn ) = Pn = i,j=1 xi yj f (bi , bj ). Versammelt man diese Bilder der Basisvektorpaare f (bi , bj ) in einer Matrix A := [f ]B = (f (bi , bj )), dann gilt: x1 X . f (x, y) = xi yi f (bi , bj ) = (y1 , . . . , yn )A .. = [y]tB A[x]B xn 261 Definition 24.2 Matrixdarstellung f sei eine Bilinearform auf V mit der Basis B = (b1 , . . . , bn ). Die Matrix [f ]B := (f (bi , bj )) heißt Matrixdarstellung von f bezüglich der Basis B oder Formmatrix von f. Satz 24.2 Matrixdarstellung von Bilinearformen (i) Ist [f ]B die Matrixdarstellung von f dann gilt: f (x, y) = [y]tB [f ]B [x]B Für eine feste Basis B ist [f ]B eindeutig bestimmt. (ii) Die Zuordnung f → [f ]B ist ein Vektorraumisomorphismus von B(V ) auf K n·n , d.h., [f + g]B = [f ]B + [g]B , [kf ]B = k[f ]B (iii) f hermitesch f symmetrisch ⇒ [f ]B hermitesch ⇒ [f ]B symmetrisch f schiefsymmetrisch ⇒ [f ]B schiefsymmetrisch (iv) Ist P die Übergangsmatrix von der Basis B zur Basis B 0 , dann gilt für die neue Matrixdarstellung: [f ]B0 = Pt [f ]B P [f ]neu = Pt · [f ]alt · P Die Matrixdarstellungen einer Bilinearform sind also untereinander kongruent. Beweis von (iii): f (x, y) = [y]t [f ][x] = ([y]t [f ][x])t = = [x]t [f ]t [y]tt = [x]t [f ]t [y] Ist f symmetrisch ⇒ [y]t [f ]t [x] = f (x, y) = f (y, x) = [y]t [f ][x] für alle x, y ⇒ [f ]t = [f ]. Beweis von (iv): f (x, y) = [y]tB [f ]B [x]B = (P [y]B 0 )t [f ]B (P [y]B 0 ) = [y]B 0 (P t [f ]B P )[x]B 0 . Wegen der Eindeutigkeit ist [f ]B 0 = P t [f ]B P . Die neue Matrixdarstellung einer Bilinearform unterscheidet sich also von der alten einfach dadurch, daß man diese von rechts mit P und links mit P t multipliziert. (Kongruente Matrizen nach Definition 21.2.) Jeder quadratischen Form q auf V ist genau eine symmetrische Bilinearform f auf V zugeordnet. Ist dim(V ) = n dann ist bezüglich einer festen Basis B von V diesem f genau eine symmetrische n × n−Matrix zugeordnet. Damit kann man auch jeder quadratischen Form q bezüglich 262 einer festen Basis B von V genau eine symmetrische n × n−Matrix als Formmatrix [q] von g zuordnen: Die Formmatrix [q]B einer quadratischen Form q ist die Formmatrix ihrer Polarform f: [q]B = [f ]B . Umgekehrt definiert jede symmetrische n × n−Matrix A eine quadratische Form auf V durch q(x) = [x]tB A[x]B . Ähnliches gilt für hermitesche Formen und hermitesche Matrizen. Satz 24.3 Formmatrizen von quadratischen Formen V sei ein Vektorraum über K = IR bzw. C. I (i) Für K = IR gibt es eine bijektive Zuordnung zwischen quadratischen Formen und symmetrischen n × n−Matrizen. (ii) Für K = CI gibt es eine bijektive Zuordnung zwischen hermiteschen Formen und hermiteschen n × n−Matrizen. (iii) Die Formmatrizen einer quadratischen Form sind untereinander kongruent. (iv) Für V = IRn gilt speziell: Ist q(~x) = ~xt A~x, dann ist die Polarform f (~x, ~y ) von q(~x) gegeben durch f (x̃, ỹ) = ỹt also ist 1 t 2 (A At + A x̃, 2 + A) die Formmatrix von q. Beachte: 12 (At + A) ist stets symmetrisch. Beweis von (iii): f (~x, ~y ) = 12 (q(~x + ~y ) − q(~x) − q(~y ) = = 12 ((~xt + y)t A(~x + ~y ) − ~xt A~x − ~y t A~y ) = = 21 (~xt A~y + ~y t A~x) = = 12 [(~xt A~y )t + ~y t A~x] = t = 12 (~y t At ~x + ~y t A~x) = ~y t A 2+A ~x. 1 2 −4 x1 Beispiel: q(~x) = (x1 , x2 , x3 = 0 0 −8 x2 = x21 + 2x1 x2 − 4x1 x3 − 8x2 x3 + 3x23 − x3 0 0 +3 4x1 x3 263 t Polarform f (~x, ~y ) = ~y t A 2+A ~x = (y1 , y2 , y3 ) 1 1 −2 x1 1 1 −2 0 −4 ist 0 −4 x2 1 −2 −4 3 x3 −2 −4 3 1 die (symmetrische) Formmatrix von q. x 1 1 −2 1 Probe: q(~x) = (x1 , x2 , x3 1 0 −4 x2 = x21 + 3x23 + 2x1 x2 − 8x2 x3 − 4x1 x3 . x3 −2 −4 3 −1 Orthogonal ähnliche Matrizen sind wegen P = P t auch kongruent. Kongruente Matrizen sind auch äquivalent (aber nicht umgkehrt), damit besitzen kongruente Matrizen gleichen Rang und es ist folgende Definition möglich: Definition 24.3 Ausgeartete und nicht ausgeartete Bilinerform (i) f sei eine Bilinearform auf dem Vektorraum V . Der Rang einer Bilinearform ist der Rang irgendeiner Matrixdarstellung von f : rg(f ) = rg([f ]B ). f heißt nicht ausgeartet ⇔ rg(f ) = dim(V ). f heißt ausgeartet ⇔ rg(f ) < dim(V ). (ii) Der Rang einer quadratischen (hermiteschen) Form ist der Rang ihrer Formmatrix. 24.3 Kongruentes Diagonalisieren Aufgrund von 24.3 sind Aussagen über quadratische Formen zugleich auch Ausagen über symmetrische Matrizen. Dazu behandeln wir so wie bei linearen Operatoren die Frage nach der einfachsten Darstellung bezüglich Kongruenztransformationen. Satz 24.4 Diagonalform quadratischer Formen V sei ein Vektorraum über dem Körper K mit char(K) 6= 2. Zu jeder quadratischen Form q(x) auf V gibt es eine Basis von V , bezüglich der die Formmatrix von q eine Diagonalmatrix ist. Matrizentheoretisch formuliert: K sei ein Körper mit char(K) 6= 2. Zu jeder symmetrischen n × n−Matrix A über K existiert eine reguläre Matrix P mit P t AP = D = diag(d1 , d2 , . . . , dn ). Also: Jede symmetrische Matrix ist zu einer Diagonalmatrix kongruent. Beachte: Die Diagonalelemente sind keine EW von A. Man erhält P auch ohne die (schwierige) Eigenwertberechnung, sondern nur durch Kongruenztransformationen: 264 1. V (p, q) bezeichne das Vertauschen der p−ten Spalte mit der q−ten Spalte und die Vertauschung der p−ten Zeile mit der q−ten Zeile. 2. U (p, q, k) bezeichne die Addition des k−fachen der q−ten Spalte zur p−ten Spalte und die Addition des k−fachen der q−ten Zeilen zur p−ten Zeile. Weil A symmetrisch ist, führt man immer Zeilen– und Spaltenoperation gleichzeitig aus, allerdings nur mit den Halbe–fachen des entsprechenden Matrixelementes. Treten während des Vorganges einmal in der Hauptdiagonale nur mehr Nullen auf, muß man ein aqp 6= 0 auf eine Diagonalstelle bringen. Statt eines Beweises wird nur das Verfahren illustriert: Schreibe A und In nebeneinander auf. Versuche A auf Diagonalgestalt zu bringen und wende auf In nur die entsprechenden Spaltenumformungen an. Die Matrix, die aus In entsteht, ist die gesuchte Transformationsmatrix P , also: (A/In ) → (D/P ) A 1 −2 −2 3 −1 4 −5 3 −5 −1 B 1 0 0 0 1 0 1 0 0 9 −1 0 0 1 0 1 −1 1 0 0 0 1 Es wird addiert: Das 2–fache der 1. Spalte zur 2., das (−3)−fache der 1. Spalte zur 3., das 1–fache der 1. Spalte zur 4. Spalte. 1 2 −3 1 1 0 0 0 0 0 1 −1 0 1 0 0 0 1 0 2 0 0 1 0 0 −1 2 0 0 0 0 1 Alle Diagonalelemente der Restmatrix verschwinden. Es wird addiert: Das 21 −fache der 3. Spalte zur 2. Spalte. 1 0 0 0 1 1 2 −3 1 0 1 1 0 0 1 0 0 0 1 0 2 0 1 2 1 0 0 0 2 0 0 0 0 1 265 Es wird addiert: Das (−1)−fache der 2. Spalte zur 3. und dann das 2–fache der 3. Spalte zur 4. Spalte. 1 0 0 0 1 1 2 − 72 0 1 0 0 0 1 −1 −2 0 0 −1 0 0 1 2 1 2 1 0 0 0 0 0 1 0 4 P t AP −6 P Für reelle (K = IR) und komplexe (K = C) I Vektorräume erhält man noch speziellere Formmatrizen, nämlich solche, die nur +1, (−1) und 0 in der Hauptdiagonale enthalten. Beachte, daß hermitesche Formen nur reelle Funktionswerte annehmen. Satz 24.5 Normalformen quadratischer (hermitescher) Formen. Abbildungstheoretische Formulierung: V sei ein Vektorraum über K = IR bzw. K = C. I q bzw. h sei eine quadratische bzw. hermitesche Form auf V . Dann gibt es eine Basis von V , bezüglich der q bzw. h eine Diagonalmatrix der Form D = diag(1, . . . , 1, −1, . . . , 1, 0, . . . , 0) als Formmatrix besitzen. Matrizentheoretische Formulierung: Sei K = IR bzw. C. I Zu jeder reell–symmetrischen bzw. hermiteschen Matrix über K existiert eine reguläre Matrix P mit P t AP = diag(1, . . . , 1, −1, . . . , −1, 0, . . . , 0). Oder: Jede reell–symmetrische bzw. hermitesche Matrix ist zu einer Diagonalmatrix aus +1, −1 und 0 kongruent. Zum Beweis: Es gibt eine Transformation auf diag(d1 , . . . , dn ). Weil in IR bzw. CI Quadratwurzeln existieren, kann man durch Diagonalmatrizen, in denen ki = √1 |di | auf die gewünschte Form kommen. für di 6= 0 und sonst 1 steht, 266 Beispiel: Zu einer symmetrischen Matrix A ∈ IR(4,4) wird durch Kongruenztransformationen eine Diagonalmatrix P T AP und gleichzeitig aus der Einheitsmatrix I mittels derselben Spaltenumformungen die Transformationsmatrix P konstruiert. Nur die Spaltenumformungen sind erläutert. A In 2 3 −1 4 1 0 0 0 3 4 0 5 0 1 0 0 −1 0 0 2 0 0 1 0 4 5 2 25 4 0 0 0 1 Es wird addiert: Das (− 32 )−fache der 1. Spalte zur 2., das 21 −fache der 1. Spalte zur 3. und das (−2)−fache der 1. Spalte zur 4. Spalte. 2 1 − 32 1 2 −2 −1 0 1 0 0 4 0 0 1 0 4 − 74 0 0 0 1 0 0 0 0 − 12 3 2 0 3 2 − 12 0 −1 Es wird addiert: Das 3–fache der 2. Spalte zur 3. und das (−2)−fache der 2. Saplte zur 4. Spalte. 0 1 − 32 0 0 0 1 3 −2 0 0 4 1 0 0 1 0 0 0 1 1 4 0 0 0 1 2 0 0 0 − 21 Es wird multipliziert: Die 1. Spalte mit 1 2 √ −4 1 2, die 2. Spalte mit √ 2 und die 3. Spalte mit 12 . 0 −1 0 0 √ 2 − 32 2 −2 2 √ 3 11 0 2 2 − 4 0 0 1 0 0 0 1 2 − 14 0 0 0 0 0 0 0 1 1 0 0 0 P t AP 1 2 √ P Die Anzahl der nichtverschwindenden Diagonalelemente in der kongruenten Normalform von A ist der Rang von A. rg(A) = r ist für alle kongruenten Matrizen, weil sie auch äquivalent sind, immer gleich. Interessant ist, daß auch die Anzahl der positiven Diagonalelemente und 267 damit die der negativen und der Nullen für kongruente Matrizen stets gleich groß ist. Das ist die Aussage des Trägheitsgesetzes: Satz 24.6 Trägheitsgesetz von SYLVESTER V sei ein n−dimensionaler Vektorraum über K = IR bzw. K = C. I q : V → IR bzw. h : V → CI sei eine quadratische bzw. hermitesche Form auf V . Dann gilt: Alle Formmatrizen von q bzw. h haben stets dieselbe Anzahl von +1, −1 und 0. Ohne Beweis. Dieser Satz ermöglicht folgende Defintion: Definition 24.4 Index einer Matrix Der Index j(A) einer symmetrischen bzw- hermiteschen Matrix A ist die Anzahl ihrer positiven Diagonalelemente in einer kongruenten Normalform. Mit dem Trägheitsgesetz gilt dann: Satz 24.7 Charakterisierung von Kongruenz Zwei quadratische Matrizen sind genau dann kongruent, wenn sie gleichen Rang und gleichen Index haben. B ∼4 A ⇔ rg(A) = rg(B) und Index (A) = Index (B). Aus dem Diagonalisierungssatz ergibt sich ein weiteres Kriterium für die positive Definitheit von quadratischen Formen bzw. symmetrischen Matrizen (neben dem Hauptminorenkriterium bzw. Eigenwertkriterium), nämlich: Satz 24.8 3. Definitheitskriterium V sei ein endlich–dimensionaler Vektorraum über einem angeordneten Körper K und q eine quadratische Form auf V . q ist genau dann positiv definit, wen q eine Formmatrix in Diagonalform mit lauter positiven Diagonalelementen besitzt. Ähnliches gilt für die anderen Definitheitseigenschaften. Matrizentheoretisch formuliert: Eine symmetrische Matrix über einem angeordneten Körper K ist genau dann positiv definit, wenn sie kongruent zu einer Diagonalmatrix mit lauter positiven Diagonalelementen ist. 268 Da alle Formmatrizen von quadratischen Formen untereinander kongruent sind, sind die Definitheitseigenschaften invariant gegenüber Kongruenztransformationen. Obigen Satz kann man auch so formulieren: Satz 24.9 Eine quadratische Form auf einem n–dimensionalen Vektorraum ist genau dann positiv definit, wenn ihr Rang und ihr Index beide gleich n sind. Sie ist genau dann positiv semidefinit, wenn ihr Rang und ihr Index gleich sind. Analoges gilt für hermitesche Formen und Matrizen über C. I