Lineare Algebra und Analytische Geometrie I und II Skript zur Vorlesung im WS 2015/2016 und SS2016 an der Humboldt-Universität zu Berlin Caren Tischendorf Inhaltsverzeichnis 1 Elementare Grundlagen 1.1 Zahlbereiche . . . . . . . . . . 1.2 Beweisführung . . . . . . . . . 1.2.1 Vollständige Induktion 1.2.2 Direkter und indirekter . . . . . . . . . . . . . . . Beweis . . . . . . . . . . . . . . . . 2 Grundbegriffe der Linearen Algebra 2.1 Mengen und Abbildungen . . . . . . . . . . . 2.2 Algebraische Strukturen . . . . . . . . . . . . 2.3 Gruppen . . . . . . . . . . . . . . . . . . . . . 2.4 Ringe und Körper . . . . . . . . . . . . . . . . 2.5 Vektorräume . . . . . . . . . . . . . . . . . . . 2.6 Linearkombinationen, lineare Unabhängigkeit, system . . . . . . . . . . . . . . . . . . . . . . 2.7 Basis . . . . . . . . . . . . . . . . . . . . . . . 3 Endlich erzeugte Vektorräume 3.1 Existenz einer Basis . . . . . . . . 3.2 Basisergänzungssatz . . . . . . . 3.3 Austauschsatz . . . . . . . . . . . 3.4 Dimension und Dimensionssatz . 3.5 Geometrische Anschauung endlich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erzeugenden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . dimensionaler . . . . 8 8 11 12 14 . . . . . 14 14 26 28 34 40 . 43 . 49 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vektorräume 52 52 53 54 56 59 4 Lineare Abbildungen und Matrizen 4.1 Lineare Abbildungen/Homomorphismen . . . . . . 4.2 Bild, Kern, Rang und Defekt linearer Abbildungen 4.3 Matrizen und lineare Gleichungssysteme . . . . . . 4.4 Darstellungsmatrizen und Basiswechsel . . . . . . . 4.5 Spezielle Klassen quadratischer Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 62 70 74 97 103 5 Determinanten 5.1 Multilineare Abbildungen . . . . . . . 5.2 Alternierende Abbildungen . . . . . . . 5.3 Die Determinantenform . . . . . . . . . 5.4 Die Determinante für Endomorphismen 5.5 Die Determinante für Matrizen . . . . 5.6 Der Entwicklungssatz von Laplace . . . 5.7 Die Cramersche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 109 111 117 121 123 128 130 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Eigenwerte 132 6.1 Das charakteristische Polynom . . . . . . . . . . . . . . . . . . 136 6.2 Satz von Cayley-Hamilton . . . . . . . . . . . . . . . . . . . . 137 7 Affine Geometrie 7.1 Affine Räume . . . . . . . . . . 7.2 Affine Basen, affine Koordinaten 7.3 Affine Abbildungen . . . . . . . 7.4 Hauptsatz der affinen Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 . 139 . 146 . 147 . 149 8 Euklidische und unitäre Vektorräume 151 8.1 Orthogonalität . . . . . . . . . . . . . . . . . . . . . . . . . . 155 9 Zerlegungen 9.1 Diagonalisierung . . . . . . 9.2 Die Singulärwertzerlegung . 9.3 Trigonalisierung . . . . . . . 9.4 Die Jordansche Normalform . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 163 174 180 184 Bezeichnungen N Z Q R C [a, b] (a, b] [a, b) (a, b) ∀x ∃x ∃! x a∧b a∨b a⇔b a := b x∈M x∈ /M M ⊆N M ⊂N M \N M ∪N M ∩N M ×N n P ai i=1 n Q ai i=1 f : M →N x 7→ f (x) Menge der natürlichen Zahlen Menge der ganzen Zahlen Menge der rationalen Zahlen Menge der reellen Zahlen Menge der komplexen Zahlen {x ∈ R : a ≤ x ≤ b} {x ∈ R : a < x ≤ b} {x ∈ R : a ≤ x < b} {x ∈ R : a < x < b} für alle x es existiert ein x es existiert genau ein x a und b a oder b a genau dann, wenn b a ist per Definition gleich b x ist ein Element von M x ist kein Element von M M ist eine Teilmenge von N M ist eine echte Teilmenge von N Menge aller Elemente von M , die nicht zu N gehören Vereiningung von M und N Durchschnitt von M und N kartesisches Produkt von M und N Summe der Zahlen ai , wobei i ∈ {1, 2, ..., n} Produkt der Zahlen ai , wobei i ∈ {1, 2, ..., n} f ist eine Abbildung von M nach N x wird abgebildet auf f (x) 4 Griechisches Alphabet α, A alpha β, B beta γ, Γ gamma δ, ∆ delta ε, E epsilon ζ, Z zeta η, H eta θ, Θ theta ι, I iota κ, K kappa λ, Λ lambda µ, M my ν, N ny ξ, Ξ xi o, O omikron π, Π pi 5 %, P σ, Σ τ, T υ, Y ϕ, Φ χ, X ψ, Ψ ω, Ω rho sigma tau ypsilon phi chi psi omega Einführung Die lineare Algebra gehört zu den fundamentalen Gebieten der Mathematik. Gemeinsam mit der reellen Analysis bildet sie die Basis für alle weiteren mathematischen Teilgebiete, wie z.B. Differentialgleichungen, Algebra, Numerik, Differentialgeometrie, Funktionalanalysis, Optimierung und Stochastik. Die Lineare Algebra ist ein zentrales Modellierungswerkzeug. Man kann lineare Strukturen viel besser verstehen und in ihnen denken kann als in nichtlinearen Strukturen. Obwohl die Welt um uns herum natürlich hauptsächlich durch nichtlineare Phänomene beschrieben wird, führen die Methoden zur Modellierung oder Analyse immer wieder auf lineare Prozesse, die das nichtlineare Problem (lokal) näherungsweise approximieren oder beschreiben. Die nichtlineare Welt wird lokal linearisiert. Schauen wir uns dazu ein paar Beispiele an. Beispiel: Wettervorhersage. Im Strömungsfilm zur Wettervorhersage wird die Teilchenbewegung der Luftmoleküle dargestellt. Quelle: https: // www. youtube. com/ watch? v= klGg_ dw5YAk Mit Hilfe von Vektoren, lässt sich die die Stärke und die Richtung der Luftströmung in jedem Punkt beschreiben. Um nun Strömungen vorhersagen zu können, benötigt man als Rüstzeug Regeln für das Rechnen mit Vektoren. Diese Regeln werden wir im Rahmen der Vorlesung Lineare Algebra lernen. Darüberhinaus benötigt man auch noch Wissen zu Differentialgleichungen und zur Numerik. Dies wird in späteren Vorlesungen behandelt. Beispiel: Numerischer Windkanal. Zur Simulation der Windbelastung von Fahrzeugen oder Flugzeugen legt man ein Gitter über und um die Oberflächenstrukturen. Dort, wo die Belastung am höchsten ist, verfeinert man das Gitter, um präzisere Vorhersagen treffen zu können. Für diese Vorhersagen muss man u.a. extrem große lineare Gleichungssysteme lösen. In der Vorlesung zur linearen Algebra werden wir allgemeine Prinzipien lernen, wie man lineare Gleichungssysteme beliebig hoher Dimension lösen kann. In der 6 Praxis zeigt sich jedoch, dass man mit diesen allgemeinen Prinzipien schnell an die Kapazitätsgrenzen eines Rechners gelangt. Quelle: https: // www. youtube. com/ watch? v= fW_ j6oXGgoY Daher lernt man später in der Numerik, wie man solche Systeme deutlich schneller lösen kann, wenn man bestimmte Strukturen ausnutzt. Beispiel: Tacoma-Narrows-Brücke. Die erste Tacoma-Narrows-Brücke im Bundesstaat Washington wurde 1938-1940 als Hängebrücke erbaut und stürzte nach nur vier Monaten Betriebszeit am 7. November 1940 aufgrund winderregter Schwingungen spektakulär ein. Quelle: https: // www. youtube. com/ watch? v= 3mclp9QmCGs Am 7. November 1940 kam aus südwestlicher Richtung, quer zur Brücke, Starkwind auf. Dadurch geriet die Brücke in einen anderen Schwingungsmodus und führte jetzt erstmals Torsionsschwingungen aus. Bei diesem Modus handelte es sich um eine so genannte selbsterregte Schwingung oder auch Eigen-Schwingung, die anders als die Resonanzschwingung keine Anregung mit einer bestimmten Frequenz erfordert. Nach einer dreiviertel Stunde rissen bei einer Windgeschwindigkeit von 67 km/h (Windstärke 8) die Seile und 7 die Fahrbahn stürzte in die Tacoma Narrows. Um solche Eigenschwingungen zu verhindern, benötigt man sogenannte Eigenwertanalysen, die wir am Ende der Vorlesung behandeln werden. 1 Elementare Grundlagen Dieser Abschnitt beschäftigt sich mit elementaren Werkzeugen der Mathematik, die aus der Schule bekannt sein sollten. Sie werden hier noch einmal wiederholt, um die nötigen Grundlagen für die folgenden Abschnitte zur Verfügung zu haben. 1.1 Zahlbereiche Schon als Kind lernt man die natürlichen Zahlen kennen, die uns die Möglichkeit geben, bestimmte Dinge zu zählen. Wir bezeichnen die natürlichen Zahlen mit N = {0, 1, 2, 3, 4, ...}. Wir können natürliche Zahlen addieren und multiplizieren, ohne dabei die Menge der natürlichen Zahlen zu verlassen. So haben wir beispielsweise 3 + 4 = 7 ∈ N oder 3 · 4 = 12 ∈ N. Allgemein gilt: Wenn a ∈ N und b ∈ N, dann a + b ∈ N und a · b ∈ N Doch wenn wir zwei natürliche Zahlen subtrahieren wollen, dann haben wir manchmal Probleme, so z.B. 9 − 5 = 4 ∈ N, aber 5 − 9 ∈ / N. Um beliebig subtrahieren zu können, benötigen wir die ganzen Zahlen Z = {..., −4, −3, −2, −1, 0, 1, 2, 3, 4, ...}. Nun finden wir 5 − 9 = −4 ∈ Z. Wenn wir bestimmte Dinge teilen wollen, etwa einen Kuchen in 12 Stücke, dann reichen uns die ganzen Zahlen nicht mehr, denn 1:6= 1 ∈ / Z. 6 8 Dazu müssen wir unseren Zahlbereich auf die rationalen Zahlen n o Q = pq , wobei p ∈ Z und q ∈ Z\{0} erweitern. Neben der Bruchschreibweise, verwendet man manchmal auch die Dezimaldarstellung, z.B. 5 1 = 1.25 oder = 0.3333... 4 3 Damit können wir ganz einfach vergleichen, welche der rationalen Zahlen größer oder kleiner ist. Interessanter Weise kommt man aber auch mit den rationalen Zahlen nicht immer aus. So gibt es beispielsweise keine rationale Zahl a, für die a2 = 2 gilt. Dennoch gibt es eine Dezimaldarstellung (mit unendlich vielen Nachkommastellen) √ a = 2 = 1.4142135... Alle Zahlen mit einer Dezimaldarstellung können wir auf einer Zahlengeraden darstellen. Alle Zahlen auf der Zahlengeraden bezeichnen wir als reelle Zahlen R. In der Analysis-Vorlesung werden Sie eine strenge mathematische Definition der reellen Zahlen über Dedekindsche Schnitte kennenlernen. Mit den reellen Zahlen kommt man in der Praxis häufig aus. Doch auch im Bereich der reellen Zahlen können wir nicht beliebig rechnen. Jedenfalls gibt es keine reelle Zahl mit c mit c2 = −2. Dazu benötigt man die komplexen Zahlen C = {c = a + bi, wobei a ∈ R und b ∈ R}. Dabei ist der Buchstabe i als sogenannte imaginäre Einheit definiert, d.h. √ i = −1 bzw. i2 = −1. √ Dann gilt für c = 2i, dass √ √ c2 = ( 2i)2 = ( 2)2 i2 = 2(−1) = −2. Für komplexe Zahlen c = a + bi bezeichnet man a als Realteil und b als Imaginärteil. Die Menge der komplexen Zahlen findet auf der Zahlengeraden der reellen Zahlen keinen Platz mehr. Dennoch können wir auch die komplexen Zahlen graphisch darstellen. Dazu benutzt man die Gaußsche Zahlenebene. 9 Darstellung der komplexen Zahlen in der Gaußschen Zahlenebene Jede komplexe Zahl stellt genau einen Punkt in der Zahlenebene dar, die durch die Achsen Re (für den Realteil) und Im (für den Imaginärteil) aufgespannt wird. Wir definieren |z| := √ a2 + b 2 als Absolutbetrag von z. Die Definition ist aus der geometrischen Anschauung geboren. Dazu betrachten wir die Darstellung komplexer Zahlen in Polarkoordinaten (r, ϕ), wobei r den Radius und ϕ den Winkel zur x-Achse (entgegen dem Uhrzeigersinn) beschreibt. Darstellung der komplexen Zahlen in Polarkoordinaten Mit diesen erhalten wir a + bi = r · cos ϕ + i · r · sin ϕ = r (cos ϕ + i · sin ϕ) . Offenbar gilt für z = a + bi, dass a2 + b2 = r2 cos2 ϕ + r2 sin2 ϕ2 = r2 (cos2 ϕ + sin2 ϕ) = r2 10 √ und somit r = a2 + b2 = |z|, d.h. der Absolutbetrag einer komplexen Zahl z entspricht gerade der Länge r des zur komplexen Zahl z gehörigen Vektors in der Gaußschen Zahlenebene. √ Beispiel: Für z = 1 + 3i erhalten wir den Radius q √ r = |z| = 12 + ( 3)2 = 2. Für den Winkel ϕ gilt r cos(ϕ) = 1 und r sin(ϕ) = √ 3 und somit √ r sin(ϕ) 3 π tan(ϕ) = = , d.h. ϕ = . r cos(ϕ) 1 3 Für komplexe Zahlen sind die grundlegenden Rechenoperationen wie folgt definiert. Seien z1 = a1 + b1 i und z2 = a2 + b2 i zwei komplexe Zahlen, wobei a1 , a2 , b1 , b2 ∈ R. Dann haben wir per Definition z1 + z2 = (a1 + b1 i) + (a2 + b2 i) = (a1 + a2 ) + (b1 + b2 )i z1 − z2 = (a1 + b1 i) − (a2 + b2 i) = (a1 − a2 ) + (b1 − b2 )i z1 · z2 = (a1 + b1 i)(a2 + b2 i) = a1 a2 + a1 b2 i + b1 a2 i + b1 b2 i2 = (a1 a2 − b1 b2 ) + (a1 b2 + b1 a2 )i. Falls z2 6= 0, d.h. a2 6= 0 oder b2 6= 0, dann gilt a1 + b 1 i (a1 + b1 i)(a2 − b2 i) z1 = = z2 a2 + b 2 i (a2 + b2 i)(a2 − b2 i) a1 a2 − a1 b 2 i + b 1 a2 i − b 1 b 2 i 2 = a22 − b22 i2 = 1.2 a1 a2 + b 1 b 2 b 1 a2 − a1 b 2 + i. a22 + b22 a22 + b22 Beweisführung An dieser Stelle wollen wir ein paar wichtige Techniken der Mathematik kennenlernen, um eine Behauptung zu beweisen. 11 1.2.1 Vollständige Induktion Das Prinzip der vollständigen Induktion ist ein verblüffend einfaches, aber mächtiges Werkzeug, um Behauptungen zu beweisen, die für alle natürlichen Zahlen n ≥ n0 gelten sollen, z.B. n X i=1 i= n(n + 1) 2 für n ≥ 1 Dann lautet das Prinzip der vollständigen Induktion: 1. (Induktionsanfang) Man zeigt, dass die Aussage für n = n0 richtig ist. 2. (Induktionsvoraussetzung) Man nimmt an, dass die Aussage für ein beliebiges n richtig ist. 3. (Induktionsbehauptung) Man behauptet, dass die Aussage für n + 1 richtig ist, wenn die Induktionsvoraussetzung erfüllt ist. 4. (Induktionsschritt) Man zeigt, dass unter der Induktionsvoraussetzung die Induktionsbehauptung gilt. Damit hat man die Behauptung für alle n ≥ n0 bewiesen. Dies wird auf folgende Weise klar. 1. Die Aussage gilt für n := n0 aufgrund des Induktionsanfangs. 2. Mit dem Induktionsschritt gilt die Aussage auch für n := n0 + 1. 3. Mit dem Induktionsschritt gilt die Aussage auch für n := n0 + 2. 4. Mit dem Induktionsschritt gilt die Aussage auch für n := n0 + 3. 5. usw. Die folgende Grafik veranschaulicht das Prinzip der vollständigen Induktion mit Hilfe von Dominosteinen. 12 Prinzip der vollständigen Induktion 1 2 3 4 5 6 7 8 9 ... Aussage gilt für alle n≥1 ... Aussage gilt für alle n≥5 ... Aussage gilt für kein n (Induktionsanfang nicht erfüllt) ... Aussage gilt für alle 1≤n≤5 Beispiel: Wir wollen nun die Richtigkeit der Aussage n X (2k − 1) = n2 k=1 für n ≥ 1 (1.1) mit Hilfe der vollständigen Induktion zeigen. 1. Induktionsanfang (IA): Die Behauptung gilt offenbar für n = 1, denn 1 X k=1 (2k − 1) = 2 · 1 − 1 = 1 = 12 . 2. Induktionvoraussetzung (IV): Es gelte die Aussage für n, d.h. n X (2k − 1) = n2 k=1 3. Induktionsbehauptung (IB): Die Aussage gilt dann auch für n + 1, d.h. n+1 X k=1 (2k − 1) = (n + 1)2 4. Induktionsschritt (IS): Wir trennen den letzten Summanden ab und nutzen die Induktionsvoraussetzung wie folgt: n+1 n X X (2k − 1)i = [ (2k − 1)] + (2n + 1) k=1 k=1 IV = n2 + (2n + 1) = (n + 1)2 Damit haben wir die Richtigkeit der Aussage (1.1) bewiesen. 13 1.2.2 Direkter und indirekter Beweis Sei B eine Behauptung, z.B. jede durch 2 und 3 teilbare natürliche Zahl ist auch durch 6 teilbar oder es gibt unendlich viele Primzahlen. Bei einem direkten Beweis zeigt man auf direktem Wege, dass die Behauptung B wahr ist. Die erste Behauptung kann man einfach direkt beweisen, z.B. wie folgt: Sei n eine durch 2 und 3 teilbare natürliche Zahl. Dann existieren natürliche Zahlen a, b, so dass n = 2a und n = 3b. Somit gilt 2a = 3b. Da 3 kein Teiler von 2 ist, so muss 3 dann ein Teiler von a sein, d.h. a = 3c für eine natürliche Zahl c. Schließlich erhalten wir n = 2a = 2 · 3c = 6c, d.h. n ist durch 6 teilbar. Bei einem indirekten Beweis nimmt man an, dass die Behauptung B falsch ist und führt dies auf einen Widerspruch. Ein indirekter Beweis für die Unendlichkeit der Primzahlen ist folgender (von Euklid). Wir nehmen zunächst an, dass es nur endlich viele Primzahlen {p1 , p2 , ..., pn } gibt. Dann betrachten wir die Zahl z = 1 + p1 p2 ...pn = 1 + n Y pi . i=1 Qn Da jede Primzahl ein Teiler von i=1 pi ist, so wäre jede Primzahl, die ein Teiler von z ist, auch ein Teiler von 1. Also kann keine der Primzahlen pi ein Teiler von z sein. Dies bedeutet, dass z eine Primzahl und z ∈ / {p1 , p2 , ..., pn }, da z > pi für alle i = 1, ..., n. Dies steht im Widerspruch zu der Annahme, dass {p1 , p2 , ..., pn } alle Primzahlen sind. Somit ist die Annahme falsch und wir haben gezeigt, dass es unendlich viele Primzahlen gibt. 2 2.1 Grundbegriffe der Linearen Algebra Mengen und Abbildungen Der Begriff einer Menge geht auf Georg Cantor zurück. Er beschreibt eine Menge als eine Zusammenfassung von bestimmten Objekten zu einem Ganzen. Die Objekte nennen wir Elemente. Als Kurzschreibweise verwenden wir M = {x | x hat eine bestimmte Eigenschaft}. 14 Dabei ist M die Menge und x ein Element der Menge. So lassen sich die geraden Zahlen z.B. wie folgt beschreiben: M = {x | x ist eine durch 2 teilbare natürliche Zahl} = {x ∈ N | 2 ist ein Teiler von x}. Mengen mit endlich vielen Elementen nennen wir endliche Mengen. Sie lassen sich abzählen und können durch Aufzählung beschrieben werden, z.B. M = {4, 5, 8, 9, 20}. Falls x ein Element einer Menge M ist, so schreiben wir x ∈ M (sprich: x Element von M oder x in M ), andernfalls x ∈ / M (sprich: x kein Element von M oder x nicht in M ). Dabei gilt stets x ∈ M oder x ∈ / M , aber niemals beides. Bemerkung: Die hier gegebene Beschreibung von Mengen ist keine strenge mathematische Definition. Sie führt auf Widersprüche wie das Russelsche Paradoxon. Wir betrachten dazu folgende Menge. Zu der Menge gehören alle Menschen, die vom Frisör Fritz die Haare geschnitten bekommen. Dabei gelte die Regel, dass Frisör Fritz nur denen die Haare schneidet, die sich nicht selbst ihre Haare schneiden. Wir können nicht entscheiden, ob Fritz zu dieser Menge gehört. Wenn er sich selbst nicht die Haare schneidet, dann müsste er es laut Regel doch tun. Wenn er sich die Haare schneidet, dann dürfte er dies laut Regel nicht tun. Durch einen axiomatischen Aufbau der Mengenlehre kann man das Russelsche Paradoxon umgehen. Doch erfordert dieser eine Reihe formaler Überlegungen, auf die wir hier zu Beginn des Studiums verzichten wollen. Für den mathematischen Alltag spielen die formalen Aspekte kaum eine Rolle. Nun wollen wir ein paar nützliche Operationen auf Mengen kennenlernen und ein paar bequeme Schreibweisen einführen. Der Allquantor ∀ und der Existenzquantor ∃ sind verkürzte Schreibweisen für folgende Terme: • ∀ x ∈ M : bedeutet ”für alle x ∈ M gilt”. • ∃ x ∈ M : bedeutet ”es gibt ein x ∈ M , so dass”. • ∃! x ∈ M : bedeutet ”es gibt genau ein x ∈ M , so dass”. 15 Definition 2.1. Seien M und N Mengen. Dann heißt M eine Teilmenge von N (in Zeichen: M ⊆ N ), falls jedes x ∈ M auch ein Element von N ist, d.h. ∀x ∈ M : x ∈ N. Die Mengen M und N sind gleich, falls M ⊆ N und N ⊆ M gilt. Beispiel: Für eine Menge M = {2, 7, 9, 20} ist N1 := {7, 20} eine Teilmenge von M und N2 := {7, 8} keine Teilmenge von M . Definition 2.2. Seien M1 , M2 Mengen. • Vereinigung: Die Vereinigung M1 ∪ M2 ist definiert durch M1 ∪ M2 = {x | x ∈ M1 oder x ∈ M2 } • Durchschnitt: Der Durchschnitt M1 ∩ M2 ist definiert durch M1 ∩ M2 = {x | x ∈ M1 und x ∈ M2 } • Differenz: Die Differenz M1 \ M2 ist definiert durch x ∈ M1 \ M2 ⇔ {x ∈ M1 ∧ x ∈ / M2 }. c • Komplement: Ist M1 ⊆ M2 , so ist das Komplement M1 M2 von M1 in M2 definiert durch c M1 M2 = M2 \ M1 . Wenn klar ist, in welcher Gesamtmenge M2 man das Komplement bildet, dann schreiben wir auch nur kurz M1c . Schauen wir uns zur Veranschaulichung ein kleines Beispiel an. Beispiel: Seien M1 := {2, 5, 9, 11, 15}, M2 := {3, 5, 7, 11}, M3 = {2, 11}, M4 = N. Dann gilt M1 ∪ M2 ∪ M3 M1 ∩ M2 ∩ M3 M2 \ M3 M3c = M3cN = {2, 3, 5, 7, 9, 11, 15} = {11} = {3, 5, 7} = {x ∈ N | x 6= 2 ∧ x 6= 11} 16 Bemerkung 2.3. Sei I eine Indexmenge (d.h. eine Menge von Indizes) und sei Mi für jedes i ∈ I eine Menge. Dann ist die Vereinigung aller Mengen Mi wie folgt definiert: [ x∈ Mi ⇔ ∃ i ∈ I : x ∈ Mi . i∈I Der Durchschnitt aller Mengen Mi ist definiert als: \ x∈ Mi ⇔ ∀ i ∈ I : x ∈ Mi . i∈I Beispiel: Sei i ∈ N und Mi := {0, 1, 2, ..., i}. Dann gilt [ \ Mi = N und Mi = {0}. i∈N i∈N Definition 2.4. Folgende Mengen spielen eine besondere Rolle. • leere Menge: Die leere Menge ∅ ist dadurch charakterisiert, dass sie kein Element enthält. • Potenzmenge: Die Potenzmenge P (M ) einer Menge M ist definiert als die Menge aller Teilmengen von M und es gilt N ∈ P (M ) ⇔ N ⊆ M. Für die Potenzmenge einer Menge M gilt immer ∅ ∈ P (M ) und M ∈ P (M ). Beispiel: Sei M = {1, 2}. Dann gilt P (M ) = {∅, {1} , {2} , {1, 2}}. Zur Beschreibung von Beziehungen zwischen Mengen verwenden wir Abbildungen. Definition 2.5. Eine Abbildung ist eine Vorschrift, die jedem Element x einer Menge D genau einen Wert f (x) einer weiteren Menge W zuordnet. Die Menge D nennt man den Definitionsbreich, die Menge W den Wertebereich (Wertevorrat) der Abbildung/Funktion f . Als Kurzschreibweise hat sich die Notation f : D→W durchgesetzt. Für den Zugriff auf die Werte schreibt man kurz x 7→ f (x) 17 Abbildung 2.1: Elektrokardiagramm Aus der Schule kennt man Abbildungen beispielsweise schon als Funktionen f (x) für x ∈ R, z.B. f : R→R x 7→ f (x) = x2 . In der Praxis begegnet man eigentlich überall irgendwelchen Abbildungen. So berechnet beispielsweise jedes Unternehmen monatlich seinen Gewinn. Damit haben wir eine Abbildung von Monaten in die reellen Zahlen. Selbst in der Medizin begegnen wir Abbildungen. Der Kardiologe wertet zur Leistungsfähigkeit des Herzens sogenannte Elektrokardiagramme (EKGs) aus, siehe Abb. 2.1. Ein Standard-EKG enthält 12 Abbildungen/Funktionen. Zu jedem Zeitpunkt t wird die Spannung zwischen je zwei Punkten des Körpers gemessen und aufgezeichnet (Abbildung I zwischen rechtem und linkem Arm, Abbildung II zwischen rechtem Arm und linken Bein, usw.). Übrigens sprechen die Mediziner nicht allgemein von Abbildungen sondern von Ableitungen. Dies rührt daher, dass die gemessenen Spannungen Potentialänderungen sind und näherungsweise die erste Ableitung (im mathematischen Sinn) des elektrostatischen Potentials darstellen. Der Kardiologe kann durch Auswertung der Kurven in bestimmten Zeitintervallen feststellen, ob die Herztätigkeit krankhafte Veränderungen aufweist. 18 Achtung: Der Wertebereich W einer Funktion muss nicht ausgeschöpft werden. Der Wertebereich gibt nur an, dass die Werte f (x) einer Funktion f für jedes x ∈ D zu W gehören, d.h. ∀x ∈ D : f (x) ∈ W. Doch es bedeutet nicht, dass es für jedes w ∈ W auch ein x ∈ D gibt, so dass w = f (x). Außerdem können Abbildungen für verschiedene x ∈ D auf den gleichen Wert w führen. Beispiel: Wir betrachten wieder f : R→R x 7→ f (x) = x2 . Offenbar gilt x2 ∈ R, falls x ∈ R. Doch es gibt kein x ∈ D = R, so dass x2 = −1, obwohl −1 ∈ W = R. Außerdem gilt für alle x ∈ R, dass f (x) = x2 = (−x)2 = f (−x). Doch sind solche Abbildungen besonders interessant, bei denen der Wertebereich ausgeschöpft wird oder jeder Wert w ∈ W nur durch genau ein x ∈ D erreicht wird. Dazu definieren wir Definition 2.6. Eine Abbildung f : D → W heißt surjektiv, falls ∀w ∈ W ∃x ∈ D : f (x) = w. Eine Abbildung f : D → W heißt injektiv, falls für alle x1 ∈ D und x2 ∈ D gilt: Wenn f (x1 ) = f (x2 ), dann x1 = x2 . Eine Abbildung f : D → W heißt bijektiv, falls sie injektiv und surjektiv ist. Nun können wir leicht folgenden Satz folgern. Satz 2.7. Eine Abbildung f : D → W ist bijektiv genau dann, wenn folgende Aussage gilt: ∀ w ∈ W ∃! x ∈ D : f (x) = w. 19 Beweis: Wir zeigen zuerst die Richtung (⇒). Sei f : D → W bijektiv. Dann ist f surjektiv und injektiv. Sei w ∈ W beliebig. Da f surjektiv ist, so gibt es ein x ∈ D, so dass f (x) = w. Wir müssen nun noch zeigen, dass es nur ein solches x ∈ D gibt. Wir nehmen an, dass es zwei verschiedene x1 , x2 ∈ D gibt, so dass f (x1 ) = w und f (x2 ) = w. Dann gilt f (x1 ) = f (x2 ) und aufgrund der Injektivität, dass x1 = x2 . Dies ist ein Widerspruch zur Annahme, d.h. es gibt nur ein x ∈ D mit f (x) = w. Wir zeigen nund die andere Richtung (⇐). Es gelte die Aussage, dass ∀ w ∈ W ∃! x ∈ D : f (x) = w. Dann ist f offenbar surjektiv, denn ∀w ∈ W ∃x ∈ D : f (x) = w. Es bleibt zu zeigen, dass die Funktion f auch injektiv ist. Seien x1 , x2 ∈ D mit f (x1 ) = f (x2 ). Dann ist w := f (x1 ) = f (x2 ) ∈ W . Nach Voraussetzung existiert genau ein x ∈ D mit f (x) = w, d.h. x1 = x = x2 . 2 Beispiel: Wir betrachten nun f : R → W := {w ∈ R : w ≥ 0} x 7→ f (x) = x2 . √ Offenbar gibt es zu jedem w ∈ W ein x := w ∈ R, so dass √ f (x) = ( w)2 = w. Also ist f : R → W surjektiv. Beispiel: Wir betrachten jetzt f : D := {x ∈ R : x ≥ 0} → R x 7→ f (x) = x2 . Falls x1 ∈ D und x2 ∈ D mit f (x1 ) = f (x2 ), dann gilt x21 = f (x1 ) = f (x2 ) = x22 . Da x1 ≥ 0 und x2 ≥ 0, so gilt offenbar x1 = x2 . Also ist f : R → W injektiv. Als Übung kann man sich überlegen, dass die Abbildung f : {x ∈ R : x ≥ 0} → {w ∈ R : w ≥ 0} x 7→ f (x) = x2 . 20 bijektiv ist. Ist eine Abbildung f : D → W bijektiv, so gibt es nicht nur eine eindeutige Zuordnung x 7→ f (x), sondern auch umgekehrt von f (x) 7→ x. Man nennt bijektive Abbildungen daher auch eineindeutig. Die Abbildung mit der umgekehrten Zuordnung f (x) 7→ x nennt man Umkehrabbildung und schreibt f −1 : W → D w 7→ f −1 (w) = x. Hierbei gilt f −1 (w) = x genau dann, wenn w = f (x). Achtung: Die Umkehrabbildung f −1 einer Abbildung f : R → R darf man nicht mit der Abbildung f1 verwechseln, die durch 1 : R\{w ∈ R | f (w) 6= 0} → R f w 7→ 1 f (w) gegeben ist und für w ∈ R mit f (w) = 0 gar nicht definiert ist. Beispiel: Sei f : R→R x 7→ f (x) = x3 . Offenbar ist f bijektiv und es gilt f −1 : R → R (√ 3 w 7→ f −1 (w) = Doch die Abbildung 1 f w √ 3 − −w w≥0 w<0 ist nur für w 6= 0 definiert und es gilt 1 : R\{0} → R f 1 1 w 7→ (w) = 3 . f w Ein wenig überraschend ist folgender Satz für endliche Mengen. 21 Satz 2.8. Sei X eine endliche Menge und f : X → X eine Abbildung. Dann sind folgende Aussagen äquivalent. (i) f ist surjektiv. (ii) f ist injektiv. (iii) f ist bijektiv. Beweis: Da aus (iii) bereits für beliebige Abbildungen stets (i) und (ii) folgen, so reicht es zu zeigen, dass (i)→(iii) und (ii)→(iii). Sei X = {x1 , ..., xn }, wobei die Objekte xi alle voneinander verschieden sind. (i)→(iii) Da f surjektiv ist, so gilt {f (x1 ), ..., f (xn )} = X. Da X genau n verschiedene Elemente enthält, so sind die Funktionswerte f (xi ) auch alle voneinander verschieden, d.h. f ist injektiv und somit bijektiv. (ii)→(iii) Da f injektiv ist, so sind die Funktionswerte f (xi ) alle voneinander verschieden. Zudem wissen wir, dass {f (x1 ), ..., f (xn )} ⊆ X. Da {f (x1 ), ..., f (xn )} und X beide genau n verschiedene Elemente enthalten, so gilt {f (x1 ), ..., f (xn )} = X, d.h. f ist surjektiv und somit auch bijektiv. 2 Wir betrachten nun die Hintereinanderausführung von Abbildungen. Definition 2.9. Seien f : X → Y und g : Y → Z zwei Abbildungen, dann ist die Komposition bzw. Verknüpfung g ◦ f beider Abbildungen definiert als g◦f : X →Z x 7→ (g ◦ f )(x) = g(f (x)). Bemerkung: Die Verknüpfung von Funktionen ist assoziativ, d.h. für beliebige Abbildungen f : X → Y , g : Y → Z und h : Z → W gilt: (h ◦ g) ◦ f = h ◦ (g ◦ f ). 22 Davon kann man sich leicht wie folgt überzeugen: ∀ x ∈ X : ((h ◦ g) ◦ f )(x) = (h ◦ g)(f (x)) = h(g(f (x))) = h((g ◦ f )(x)) = (h ◦ (g ◦ f ))(x). Man teste zur eigenen Übung, ob die Verknüpfung von Funktionen auch kommutativ ist, d.h. f ◦g =g◦f ? Bemerkung 2.10. Seien f : X → Y und g : Y → Z Abbildungen. Dann gelten folgende Aussagen (i) Wenn f und g injektiv sind, so ist auch g ◦ f injektiv (ii) Wenn f und g surjektiv sind, so ist auch g ◦ f surjektiv. (ii) Wenn g ◦ f injektiv ist, so ist f injektiv. (iv) Wenn g ◦ f surjektiv ist, so ist g surjektiv. Beweis: (i) Übungsaufgabe (ii) Sei z ∈ Z. Da g surjektiv ist, so existiert ein y ∈ Y mit g(y) = z. Da f surjektiv ist, so existiert ein x ∈ X mit f (x) = y. Daraus folgt (g ◦ f )(x) = g(f (x)) = g(y) = z. D.h. g ◦ f ist surjektiv. (iii) Übungsaufgabe (iv) Sei z ∈ Z. Da g ◦ f surjektiv ist, so existiert ein x ∈ X mit g(f (x)) = z. Sei y := f (x). Dann gilt y ∈ Y und g(y) = g(f (x)) = z, d.h. g ist surjektiv. 2 Bemerkung 2.11. Wenn g ◦ f injektiv ist, so muss g nicht injektiv sein. Wenn g ◦ f surjektiv ist, so muss f nicht surjektiv sein. Man betrachte für beide Aussagen beispielsweise die Funktionen g : Z → N mit x 7→ |x| und f : N → Z mit x 7→ −x. Definition 2.12. Sei X eine nichtleere Menge. Wir bezeichnen eine Abbildung f : X → X als die identische Abbildung idX , falls idX (x) = f (x) = x 23 ∀ x ∈ X. Lemma 2.13. Sei f : X → W eine Abbildung, wobei X und W nichtleere Mengen sind. Dann gilt (i) f ist genau dann injektiv, wenn es eine Abbildung h : W → X gibt, so dass h ◦ f = idX . (ii) f ist genau dann surjektiv, wenn es eine Abbildung h : W → X gibt, so dass f ◦ h = idW . (iii) f ist genau dann bijektiv, wenn es eine Abbildung h : W → X gibt, so dass h ◦ f = idX und f ◦ h = idW . In diesem Fall ist h = f −1 . Beweis: (iii) ist eine Folgerung aus (i) und (ii). (i) (→) Sei f injektiv. Sei x∗ ∈ X ein fest gewähltes Element. Nun definieren wir für w ∈ W die Funktion ( x, falls w ∈ f (X) und x ∈ X : f (x) = w h(w) := x∗ , falls w ∈ / f (X). Wie bereits aus den Übungen bekannt, ist die Menge f (X) definiert als f (X) := {w ∈ W | ∃ x ∈ X : f (x) = w}. Die Funktionswerte von h sind eindeutig bestimmt, da f injektiv ist. Zudem gilt für alle x ∈ X, dass (h ◦ f )(x) = h(f (x)) = h(w) = x. (←) Sei jetzt h eine Abbildung mit h ◦ f = idX . Seien weiter x1 ∈ X und x2 ∈ X mit f (x1 ) = f (x2 ) gegeben. Dann gilt x1 = h(f (x1 )) = h(f (x2 )) = x2 . 2 (ii) Übungsaufgabe Auch wenn man keine bijektive Abbildung f : D → W hat, so kann man dennoch eine Umkehrabbildung f −1 formulieren. Diese bildet dann aber nicht Elemente auf Elemente, sondern Mengen auf Mengen ab. Hierbei definiert man f −1 : P(W ) → P(D) M 7→ f −1 (M ) = {x ∈ D : f (x) ∈ M }. 24 Man nennt f −1 (M ) das Urbild von M . Ist f nicht surjektiv, so gibt es Elemente w ∈ W mit f −1 ({w}) = ∅. Ist f nicht injektiv, so gibt es Elemente w ∈ W , für die f −1 ({w}) mindestens zwei verschiedene Elemente enthält. Zum Schluss dieses Abschnitts betrachten wir noch zwei wichtige Begriffe für Mengen. Definition 2.14. Seien n Mengen X1 , ..., Xn gegeben. Dann bezeichnet die Menge X1 × X2 × ... × Xn das Produkt der Mengen X1 , ..., Xn und es ist definiert: z = (x1 , ..., xn ) ∈ X1 × X2 × ... × Xn ↔ def x1 ∈ X1 , x2 ∈ X2 , ..., xn ∈ Xn . Beispiel: Sei X := {3, 4} und Y = {1, 5, 7}. Dann gilt X × Y = {(3, 1), (3, 5), (3, 7), (4, 1), (4, 5), (4, 7)}. R2 := R × R = {(x, y) | x ∈ R ∧ y ∈ R} Cn := C × ... × C} = {(x1 , x2 , ..., xn ) | ∀i = 1, ..., n : xi ∈ C} | × C {z n−mal Definition 2.15. Sei X eine nichtleere Menge. Dann heißt ∼ eine Äquivalenzrelation auf X, falls für beliebige x, y, z ∈ X folgendes gilt: (i) x ∼ x, d.h. ∼ ist reflexiv. (ii) x ∼ y ↔ y ∼ x, d.h. ∼ ist symmetrisch. (iii) x ∼ y ∧ y ∼ z → x ∼ z, d.h. ∼ ist transitiv. Beispiel: Sei X := Z und sei x∼y ↔ def x − y ist durch 3 teilbar. für beliebige x, y ∈ Z. Dann ist ∼ eine Äquivalenzrelation, denn für beliebige x, y, z ∈ Z gilt: (i) x ∼ x, da x − x = 0 durch p teilbar ist. (ii) x ∼ y ↔ 3|(x − y) ↔ 3|(y − x) ↔ y ∼ x. 25 (iii) Da x ∼ y und y ∼ z, so existieren ganze Zahlen a, b, so dass x − y = 3a und y − z = 3b. Damit gilt x − z = x − y + y − z = 3a + 3b = 3(a + b), d.h. 3 ist ein Teiler x − z, d.h. x ∼ z. Definition 2.16. Sei ∼ eine Äquivalenzrelation auf einer nichtleeren Menge X und a ∈ X. Dann heißt die Menge [a]∼ := {x ∈ X | x ∼ a} Äquivalenzklasse zur Äquivalenzrelation ∼ mit dem Repräsentanten a. Die Menge aller Äquivalenzklassen M/∼ := {[a]∼ | a ∈ M } nennt man Faktormenge bzw. Quotientenmenge der Äquivalenzrelation ∼. 2.2 Algebraische Strukturen Definition 2.17. Sei M eine nichtleere Menge. Dann heißt ∗ eine Verknüpfung auf M , falls für jedes x ∈ M und jedes y ∈ M gilt: x ∗ y ∈ M . Das Paar (M, ∗) nennt man eine algebraische Struktur. Einfache Beispiele sind (N, +) oder (Q, ·). Ein weiteres Beispiel für eine algebraische Struktur ist (P(X), ∩) für eine beliebige nichtleere Menge X. Man überlege sich, dass die Verknüpfung ◦ von bijektiven Abbildungen f : X → X für eine nichtleere Menge X auch eine Verknüpfung im Sinne von Definition 2.17 ist (Übungsaufgabe). Schauen wir uns nun ein paar Eigenschaften algebraischer Strukturen an: Definition 2.18. Sei (M, ∗) eine algebraische Struktur. (i) (M, ∗) heißt eine kommutative algebraische Struktur, falls ∀ x, y ∈ M : x ∗ y = y ∗ x. (ii) (M, ∗) heißt eine assoziative algebraische Struktur, falls ∀ x, y, z ∈ M : (x ∗ y) ∗ z = x ∗ (y ∗ z). Mit dem Wissen aus der Schule sehen wir, dass z.B. (Z, +) und (R, ·) kommutative und assoziative algebraische Strukturen sind. 26 Definition 2.19. Sei (M, ∗) eine algebraische Struktur. Dann heißt e ∈ M neutrales Element, falls ∀ x ∈ M : x ∗ e = e ∗ x = x. Für (N, +) ist 0 ein neutrales Element. Für (Z, ·) ist 1 ein neutrales Element. Sei X eine nichtleere Menge. Auf der algebraischen Struktur (P(X), ∪) ist ∅ ein neutrales Element. Welches Element von P(X) ist ein neutrales Element von (P(X), ∩)? Bemerkung: Falls eine algebraische Struktur (M, ∗) ein neutrales Element besitzt, dann ist dies eindeutig. Beweis: Seien e1 und e2 neutrale Elemente von (M, ∗). Dann gilt e1 = e1 ∗ e2 = e2 . Die erste Gleichung gilt, da e2 ein neutrales Element ist. Die zweite Gleichung gilt, da e1 ein neutrales Element ist. 2 Definition 2.20. Sei (M, ∗) eine algebraische Struktur. (i) (M, ∗) heißt eine Halbgruppe, falls (M, ∗) eine assoziative algebraische Struktur ist, d.h. (M, ∗) eine algebraische Struktur ist und es gilt ∀a, b, c ∈ M : a ∗ (b ∗ c) = (a ∗ b) ∗ c. (ii) (M, ∗) heißt Monoid, falls (M, ∗) eine Halbgruppe mit einem neutralen Element ist. (iii) (M, ∗) heißt eine kommutative Halbgruppe, falls (M, ∗) eine Halbgruppe und ∗ kommutativ auf M ist, d.h. ∀a, b ∈ M : a ∗ b = b ∗ a. (iv) (M, ∗) heißt ein kommutatives Monoid, falls (M, ∗) ein Monoid und ∗ kommutativ auf M ist. Beispiele: (N, ·) und (R, +) sind kommutative Halbgruppen und Monoide. Definition 2.21. Sei (M, ∗) ein Monoid mit dem neutralen Element e. Dann heißt x ∈ M invertierbar, falls es ein y ∈ M gibt, so dass x ∗ y = y ∗ x = e. Die Menge der invertierbaren Elemente von M nennen wir M ∗ . 27 Bemerkung 2.22. Sei (M, ∗) ein Monoid mit dem neutralen Element e und x ∈ M invertierbar. Dann existiert genau ein y ∈ M mit x ∗ y = y ∗ x = e. Beweis: Seien y1 , y2 ∈ M mit x ∗ y1 = y1 ∗ x = e ∧ x ∗ y2 = y2 ∗ x = e. Dann gilt y1 = y1 ∗ e = y1 ∗ (x ∗ y2 ) = (y1 ∗ x) ∗ y2 = e ∗ y2 = y2 . 2 Daher können wir dieses eindeutig bestimmte y auch mit x−1 bezeichnen. Wir nennen x−1 das inverse Element zu x. Beispiele: (N, +) besitzt nur das invertierbare Element 0. Dafür sind alle Elemente von (Z, +) invertierbar, denn für x ∈ Z ist −x ∈ Z das inverse Element. Das inverse Element von x ∈ Q\{0} für (Q, ·) ist gleich x1 . Null ist kein invertierbares Element von (Q, ·). Es gelten folgende (leicht nachprüfbare) Eigenschaften für M ∗ für Monoide (M, ∗): 1. e ∈ M ∗ , 2. x, y ∈ M ∗ 3. x ∈ M ∗ 2.3 ⇒ ⇒ x ∗ y ∈ M ∗, x−1 ∈ M ∗ . Gruppen Definition 2.23. Ein Monoid (M, ∗) heißt Gruppe, falls M = M ∗ Bemerkung: Um zu zeigen, dass (M, ∗) eine Gruppe ist, muss man also folgende 4 Eigenschaften nachweisen: (i) ∀ x, y ∈ M : x ∗ y ∈ M (Verknüpfung) (ii) ∀ x, y, z ∈ M : (x ∗ y) ∗ z = x ∗ (y ∗ z) (Assoziativität) (iii) ∃ e ∈ M : ∀ x ∈ M : e ∗ x = x ∗ e = x (neutrales Element) (iv) ∀ x ∈ M ∃ y ∈ M : y ∗ x = x ∗ y = e (inverses Element) Definition 2.24. Eine Gruppe (M, ∗) heißt abelsche Gruppe, falls sie eine kommutative Gruppe ist. 28 Beispiele: (Z, +) sowie (Q\{0}, ·) sind abelsche Gruppen. Aber (Z, ·) ist z.B. keine Gruppe, da es nicht zu jedem Element ein inverses Element gibt. Man kann endliche Gruppen (d.h. Gruppen mit endlich vielen Elementen) auch einfach durch ihre Verknüpfungstabelle angeben. So ist beispielsweise (M, ∗) mit M = {e, a} und * e a e e a a a e eine Gruppe. Diese ist sogar eine abelsche Gruppe. Bemerkung: Man nennt eine Gruppe (M, +) eine additive Gruppe. Entsprechend nennt man eine Gruppe (M, ·) eine multiplikative Gruppe. Definition 2.25. Sei (M, ∗) eine algebraische Struktur. • e ∈ M heißt linksneutrales Element, falls ∀ x ∈ M : e ∗ x = x. • e ∈ M heißt rechtsneutrales Element, falls ∀ x ∈ M : x ∗ e = x. Sei x ∈ M . • y ∈ M heißt linksinverses Element von x, falls y ∗ x = e. • y ∈ M heißt rechtsinverses Element von x, falls x ∗ y = e. Lemma 2.26. Sei (M, ∗) ist eine Gruppe. Dann gilt: (i) Jedes linksneutrale Element ist gleich dem neutralen Element. (ii) Jedes rechtsneutrale Element ist gleich dem neutralen Element. (iii) Jedes linksinverse Element ist gleich dem inversen Element. (iv) Jedes rechtsinverse Element ist gleich dem inversen Element. Beweis: Wir zeigen (i) und (iii). Die Aussagen (ii) und (iv) folgen analog. (i) Sei e ∈ M das neutrale Element und e1 ∈ M ein beliebiges linksneutrales Element. Dann gilt (da e neutral und e1 linksneutral), dass e1 = e1 ∗ e = e. 29 (iii) Sei y ∈ M das inverse Element von x und y1 ein beliebiges linksinverses Element von x. Dann gilt y1 = y1 ∗ e = y1 ∗ (x ∗ y) = (y1 ∗ x) ∗ y = e ∗ y = y. 2 Satz 2.27. Sei (M, ∗) eine algebraische Struktur. Dann sind folgende Bedingungen äquivalent: (i) (M, ∗) ist eine Gruppe. (ii) (M, ∗) ist eine Halbgruppe mit einem linksneutralen Element e und der Eigenschaft, dass ∀ x ∈ M ∃ y ∈ M : y ∗ x = e (linksinverses Element) (iii) (M, ∗) ist eine Halbgruppe mit einem rechtsneutralen Element e und der Eigenschaft, dass ∀ x ∈ M ∃ y ∈ M : x ∗ y = e (rechtsinverses Element) Beweis: Wir zeigen, dass (i) ↔ (ii) gilt. Die Äquivalenz (i) ↔ (iii) folgt auf analoge Weise. (i) → (ii) ist trivial nach Definition einer Gruppe. (ii) → (i) Es genügt zu zeigen, dass e auch ein rechtsneutrales Element ist und dass zu jedem Element von M ein rechtsinverses Element existiert. Sei x ∈ M beliebig und y ∈ M ein linksinverses Element von x. Sei außerdem z ein linksinverses Element von y. Dann erhalten wir x = e ∗ x = (z ∗ y) ∗ x = z ∗ (y ∗ x) = z ∗ e und somit x ∗ e = (z ∗ e) ∗ e = z ∗ (e ∗ e) = z ∗ e = x, d.h. e ist rechtsneutral. Außerdem folgt, dass x ∗ y = (z ∗ e) ∗ y = z ∗ (e ∗ y) = z ∗ y = e, d.h. das linksinverse Element y von x ist auch rechtinvers. 30 2 Satz 2.28. Sei (M, ∗) eine algebraische Struktur. Dann sind folgende Bedingungen äquivalent: (i) (M, ∗) ist eine Gruppe. (ii) (M, ∗) ist eine Halbgruppe und es existieren für alle a, b ∈ M Elemente x, y ∈ M , so dass a ∗ x = b und y ∗ a = b. Beweis: (i) → (ii) Seien a, b ∈ M gegeben. Dann gilt für x := a−1 ∗ b und y := b ∗ a−1 , dass a ∗ x = a ∗ (a−1 ∗ b) = (a ∗ a−1 ) ∗ b = e ∗ b = b und y ∗ a = (b ∗ a−1 ) ∗ a = b ∗ (a−1 ∗ a) = b ∗ e = b. (ii) → (i) Nach Satz 2.27 genügt es zu zeigen, dass die Halbgruppe ein linksneutrales Element und für alle x ∈ M ein linksinverses Element besitzt. Sei a ∈ M fest. Dann existiert ein e ∈ M , so dass e ∗ a = a. Sei nun z ∈ M beliebig. Dann existiert ein x ∈ M , so dass a ∗ x = z. Damit gilt e ∗ z = e ∗ (a ∗ x) = (e ∗ a) ∗ x = a ∗ x = z für alle z ∈ M , d.h. e ist linksneutrales Element. Die Existenz eines linksinversen Elementes für x ∈ M folgt unmittelbar aus der Voraussetzung mit a := x und b := e. 2 Wir wollen nun noch eine spezielle abelsche Gruppe betrachten, die in der Zahlentheorie eine große Rolle spielt: die zyklische Gruppe Z/nZ mit n ∈ N. Diese ist wie folgt definiert: M := {[r] | r ∈ Z}, wobei [r] := {z ∈ Z | ∃k ∈ Z : z = r + k · n}. Offenbar gehören zu [r] alle Zahlen z ∈ Z, für die z − r durch n teilbar ist. Für jedes r ∈ Z ist die Menge [r] eine Äquivalenzklasse zur Äquivalenzrelation ∼, definiert durch Def x ∼ y ⇔ n ist ein Teiler von x − y. Damit wird klar, dass M = {[0], [1], ..., [n − 1]}, 31 wobei für r ∈ {0, 1, 2, ..., n − 1} die Äquivalenzklasse [r] die Menge aller ganzen Zahlen ist, die bei Division durch n den Rest r lassen. Man bezeichnet die Mengen [r] daher als Restklassen und den Repräsentanten r als Rest. Die Verknüpfung ∗ wird mit + bezeichnet und ist definiert als ∀x, y ∈ Z : [x] + [y] := [x + y]. Damit diese Definition wohldefiniert ist, müssen wir zeigen, dass sie unabhängig von der Wahl der Repräsentanten ist, d.h. ∀x1 , x2 , y1 , y2 ∈ Z : Wenn [x1 ] = [x2 ] und [y1 ] = [y2 ], dann [x1 + y1 ] = [x2 + y2 ]. Seien x1 , x2 , y1 , y2 ∈ Z mit [x1 ] = [x2 ] und [y1 ] = [y2 ]. Dann existieren k, ` ∈ Z, so dass x1 − x2 = k · n und y1 − y2 = ` · n. Somit erhalten wir (x1 + y1 ) − (x2 + y2 ) = (x1 − x2 ) + (y1 − y2 ) = k · n − ` · n = (k − `) · n, d.h. [x1 + y1 ] = [x2 + y2 ]. Zur Veranschaulichung der Verknüpfung + in Z/nZ geben wir hier die Verknüpfungstabelle von Z/4Z an: + [0] [1] [2] [3] [0] [1] [2] [3] [0] [1] [2] [3] [1] [2] [3] [0] [2] [3] [0] [1] [3] [0] [1] [2] Definition 2.29. Sei (M, ∗) eine Gruppe. (N, ∗) heißt Untergruppe von (M, ∗), falls N ⊆ M und (N, ∗) eine Gruppe mit der Verknüpfung ∗ von M ist. Satz 2.30. Sei (M, ∗) eine Gruppe und N ⊆ M . Dann sind folgende Bedingungen äquivalent. (i) (N, ∗) ist eine Untergruppe von (M, ∗). (ii) ∀ x, y ∈ N : x ∗ y −1 ∈ N . Beweis: Für N = ∅ ist die Behauptung sofort klar. Sei nun N 6= ∅. 32 (i) → (ii) Seien x, y ∈ N . Dann ist auch y −1 ∈ N und somit x ∗ y −1 ∈ N . (ii) → (i) Die Assoziativität ist klar, da ∗ auf M assoziativ ist. Wir müssen noch zeigen, dass (a) ∀ x, y ∈ N : x ∗ y ∈ N (b) e ∈ N (c) ∀ x ∈ N : x−1 ∈ N zu (b): Für x = e und y = e erhalten wir e = e ∗ e−1 ∈ N . zu (c): Sei y ∈ N . Dann gilt mit (b) und x = e auch y −1 = e∗y −1 ∈ N . zu (a): Seien x, y ∈ N . Dann gilt mit (c) auch x∗y = x∗(y −1 )−1 ∈ N . 2 Definition 2.31. Sei (M, ∗) eine Gruppe und L ⊆ M . Dann heißt (H(L), ∗) die von L erzeugte Untergruppe von (M, ∗), falls \ H(L) = N. L⊆N ⊆M (N,∗) Untergruppe von (M,∗) Satz 2.32. Sei (M, ∗) eine Gruppe und L ⊆ M . Dann gilt: (i) (H(L), ∗) ist eine Untergruppe von (M, ∗). (ii) L ⊆ H(L) (iii) Falls L1 ⊆ L2 ⊆ M , dann gilt H(L1 ) ⊆ H(L2 ). (iv) (H(L), ∗) ist die kleinste Untergruppe (N, ∗) von (M, ∗) mit L ⊆ N . Beweis: (i) Übungsaufgabe (ii) Sei x ∈ L beliebig. Dann gilt für alle N mit L ⊆ N auch x ∈ N und somit liegt x auch im Durchschnitt aller N , für die (N, ∗) eine Untergruppe von (M, ∗) ist, d.h. x ∈ H(L). (iii) Sei L1 ⊆ L2 ⊆ M . Dann gilt für jede Untergruppe (N, ∗) von (M, ∗) mit L2 ⊆ N auch L1 ⊆ N . Somit folgt \ \ H(L1 ) = N ⊆ N = H(L2 ). L1 ⊆N ⊆M (N,∗) Untergruppe von (M,∗) 33 L2 ⊆N ⊆M (N,∗) Untergruppe von (M,∗) (iv) Sei (N̄ , ∗) die kleinste Untergruppe von (M, ∗) mit L ⊆ N̄ . Wir zeigen zuerst, dass H(L) ⊆ N̄ . Sei dazu x ∈ H(L) beliebig. Nach Definition von H(L) liegt x im Durchschnitt aller Untergruppen von (M, ∗) mit L ⊆ N und gehört somit auch zur kleinsten Untergruppe (N̄ , ∗). Nun zeigen wir noch, dass N̄ ⊆ H(L). Sei x ∈ N̄ und (N, ∗) eine beliebige Untergruppe von (M, ∗) mit L ⊆ N . Da (N̄ , ∗) die kleinste Untergruppe von (M, ∗) ist, so gilt N̄ ⊆ N und somit x ∈ N . Da N beliebig war, so gehört x zu allen Untergruppen (N, ∗) mit L ⊆ N , d.h. x ∈ H(L). 2 Beispiele: Sei (M, ∗) = (Q, +). Dann gilt (H({1}), +) = (Z, +). Es gilt auch (H({1, 2}), +) = (Z, +), aber mit (H({2}), +) erhält man nur die geraden ganzen Zahlen. Definition 2.33. Sei (M, ∗) ein Gruppe. Eine Menge L heißt Erzeugendensystem von M , falls M = H(L). 2.4 Ringe und Körper Definition 2.34. Ein Tripel (R, +, ·) heißt Ring, falls + und · Verknüpfungen auf R sind und folgende drei Eigenschaften erfüllt sind. (i) (R, +) ist eine abelsche Gruppe. (ii) (R, ·) ist eine Halbgruppe. (iii) Es gelten die Distributivgesetze: Für alle a, b, c ∈ R gilt: (a + b) · c = a · c + b · c ∧ c · (a + b) = c · a + c · b. Ein Ring (R, +, ·) heißt kommutativ, falls (R, ·) eine kommutative Halbgruppe ist. Ein Ring (R, +, ·) heißt Ring mit Einselement 1, falls (R, ·) ein Monoid mit dem neutralen Element 1 ist. Das neutrale Element von (R, +) wird Nullelement (0) genannt. Beispiele: Folgende Tripel sind Ringe: • (Z, +, ·), (Q, +, ·), (R, +, ·) (mit Einselement 1) 34 • (R, +, ·) mit R = {0} und 0 + 0 = 0 und 0 · 0 = 0 (mit Einselement = Nullelement = 0) • (R, +, ·), wobei (R, +) eine abelsche Gruppe ist und für alle x, y ∈ R gilt: x · y = 0 (ohne Einselement, falls R mindestens zwei verschiedene Elemente besitzt) • (R, +, ·), wobei R = {f : R → R} und für alle x ∈ R (f + g)(x) := f (x) + g(x) ∧ (f · g)(x) := f (x) · g(x) (mit Einselement f1 ≡ 1, d.h. ∀ x ∈ R: f1 (x) = 1) • (R, +, ·), wobei R = Z/nZ und für alle [r], [s] ∈ R: [r] + [s] = [r + s] ∧ [r] · [s] = [r · s] (mit Einselement [1]) All diese Ringe sind auch kommutative Ringe. Es gibt aber auch nichtkommutative Ringe, z.B. (Z × Z, +, ·) mit (a1 , a2 ) + (b1 , b2 ) := (a1 + b1 , a2 + b2 ) (a1 , a2 ) · (b1 , b2 ) := (a1 · b1 , a1 · b2 ). In diesem Ring gilt (1, 0) · (1, 1) = (1, 1), aber (1, 1) · (1, 0) = (1, 0). Bemerkung: Sei (R, +, ·) ein Ring und 0 das Nullelement. Dann gilt für alle a ∈ R, dass a · 0 = 0 · a = 0. Beweis: Sei x := a · 0. Es gilt nach dem Distributivgesetz, dass x = a · 0 = a · (0 + 0) = a · 0 + a · 0 = x + x. Sei −x das zu x inverse Element bezüglich der Verknüpfung +. Dann gilt x + (−x) = x + x + (−x), d.h. 0 = x + 0 = x, also a · 0 = x = 0. Analog zeigt man, dass 0 · a = 0 gilt. 2 Darauf aufbauend kann man leicht folgende Rechenregeln beweisen. Satz 2.35. Sei (R, +, ·) ein Ring. Dann gilt für alle a, b ∈ R und für alle m, n ∈ Z, dass 35 (i) a · (−b) = (−a) · b = −(a · b) (ii) (−a) · (−b) = a · b (iii) (m +Z n) ∗ a = m ∗ a + n ∗ a, wobei a |+a+ {z... + a}, m−mal m ∗ a := 0, −(a + a + {z... + a}), | falls m > 0 falls m = 0 falls m < 0 (−m)−mal (iv) m ∗ (a + b) = m ∗ a + m ∗ b (v) (m ·Z n) ∗ a = m ∗ (n ∗ a) Definition 2.36. Sei (R, +, ·) ein Ring. Dann heißt a ∈ R Nullteiler, falls a 6= 0 und ein b ∈ R mit b 6= 0 existiert, so dass b · a = 0. Der Ring heißt nullteilerfrei, falls es keine Nullteiler in R gibt. Bemerkung: Ein Ring (R, +, ·) ist genau dann nullteilerfrei, wenn aus a·b = 0 mit a, b ∈ R folgt, dass a = 0 oder b = 0. Beispiele: • Die Ringe (Z, +, ·), (Q, +, ·) und (R, +, ·) sind nullteilerfrei. • Der Ring (Z/4Z, +, ·) hat den Nullteiler [2], denn [2] · [2] = [4] = [0]. • Der Ring (Z/nZ, +, ·) ist für n ∈ N genau dann nullteilerfrei, wenn n eine Primzahl ist. Begründung: Falls n keine Primzahl ist, dann existieren natürliche Zahlen a und b mit 1 < a < n und 1 < b < n, so dass n = a · b. Daher gilt [a] · [b] = [n] = [0], d.h. [a] und [b] sind Nullteiler von (Z/nZ, +, ·). Falls n eine Primzahl ist und für [a], [b] ∈ Z/nZ gilt [a] · [b] = [0], dann haben wir [a · b] = [0], d.h. ∃k ∈ N : a · b = k · n. Da n eine Primzahl ist, so ist n ein Teiler von a oder ein Teiler von b, d.h. [a] = 0 oder [b] = 0. Definition 2.37. (K, +, ·) heißt Körper, falls folgende Eigenschaften erfüllt sind. (i) (K, +) ist eine abelsche Gruppe. 36 (ii) (K\{0}, ·) ist eine abelsche Gruppe, wobei 0 das neutrale Element von (K, +) ist. (iii) Es gelten die Distributivgesetze. Bemerkung: Wenn (K, +, ·) ein Körper und klar ist, was mit Addition und Multiplikation gemeint ist, dann sagt man auch einfach, dass K ein Körper ist. Beispiele: • (Q, +, ·) und (R, +, ·) sind Körper. • (Z/nZ, +, ·) ist genau dann ein Körper, falls n eine Primzahl ist. • (C, +, ·) ist ein Körper mit der Addition, definiert durch ∀a1 , a2 , b1 , b2 ∈ R : (a1 + b1 i) + (a2 + b2 i) := (a1 + a2 ) + (b1 + b2 )i und der Multiplikation, definiert durch ∀a1 , a2 , b1 , b2 ∈ R : (a1 +b1 i)·(a2 +b2 i) := (a1 ·a2 −b1 ·b2 )+(a1 ·b2 +b1 ·a2 )i. Bemerkung: 1. Sei a ∈ R. Dann identifiziert man jede komplexe Zahl der Form a + 0i mit der reellen Zahl a, d.h. a + 0i = a. Somit ist R ⊆ C. 2. Sei b ∈ R. Dann nennt man jede komplexe Zahl der Form 0 + bi rein imaginär und schreibt kurz bi, d.h. 0 + bi = bi. 3. Aufgrund der Definition der Multiplikation erhalten wir i2 = i · i = (0 + 1i) · (0 + 1i) = (0 · 0 − 1 · 1) + (0 · 1 + 1 · 0) = −1 + 0i = −1. 4. Die Multiplikation lässt sich leicht wie folgt merken: Man merke sich i2 = −1 und nutze die Distributivgesetze. Beispiel: (3 + 2i) · (5 + 6i) = 3 · 5 + 3 · 6i + 2i · 5 + 2i · 6i = 15 + 18i + 10i − 12 = 3 + 28i 37 5. Für z = a + bi ∈ C mit a, b ∈ R hat z̄ := a − bi folgende schöne Eigenschaften: z + z̄ = 2a ∈ R ∧ z · z̄ = a2 + b2 ∈ R, denn z + z̄ = (a + bi) + (a − bi) = (a + a) + (b − b)i = 2a und z · z̄ = (a + bi) · (a − bi) = (a2 − b2 · (−1)) + (ab − ba)i = a2 + b2 . Man nennt z̄ die zu z konjugiert komplexe Zahl. Definition 2.38. Die Charakteristik eines Körpers (K, +, ·) ist definiert als ( 0, falls n ∗ 1 6= 0 ∀ n ∈ N\{0} char(K) = min{n ∈ N\{0} | n ∗ 1 = 0}, sonst. Mit n ∗ 1 ist die n-fache Addition der Eins gemeint, d.h. 1| + 1 + {z... + 1}, falls n > 0 n∗1= n−mal 0, falls n = 0. Beispiel: Q, R und C haben die Charakteristik 0. Z/pZ hat die Charakteristik p, falls p eine Primzahl ist. Ein wichtiger Ring ist der sogenannte Polynomring (K[x], +, ·) über Körpern K. Dazu sei ein Körper K und eine formale Variable x gegeben. Dann heißt f ein Polynom mit Koeffizienten aus K, falls f [x] = a0 + a1 x + a2 x2 + ... + an xn mit a0 , a1 , ..., an ∈ K. Falls alle Koeffizienten gleich Null sind, so spricht man vom Nullpolynom und schreibt f = 0. Der Grad eines Polynoms deg(f ) ist definiert als ( −∞, falls f = 0 deg(f ) = max{k ∈ N| ak 6= 0}, sonst. Die Menge aller solchen Polynome bezeichnen wir mit K[x]. (K[x], +, ·) ist ein Ring mit folgender Addition und Multiplikation: 38 Für f [x] = a0 +a1 x+...+an xn ∈ K[x] und g[x] = b0 +b1 x+...+bm xm ∈ K[x] sei (f + g)[x] := (a0 + b0 ) + (a1 + b1 )x + ... + (ak + bk )xk , wobei k := max{m, n} und an+1 = ... = am = 0 im Falle n < m sowie bm+1 = ... = bn = 0 im Falle n > m. Zudem definieren wir (f · g)[x] = c0 + c1 x + ... + c` x` , wobei ` = m + n und ∀ k ∈ {0, 1, ..., `} : ck := X (i,j)∈Ik ai · b j mit Ik := {(i, j) ∈ N | 0 ≤ i ≤ n ∧ 0 ≤ j ≤ m ∧ i + j = k}. Beispiel: Sei K := R, f (x) := 1 + 2x + 3x2 und g(x) := 4 + 5x. Dann gilt f [x] + g[x] = (1 + 2x + 3x2 ) + (4 + 5x) = 5 + 7x + 3x2 und f [x] · g[x] = (1 + 2x + 3x2 ) · (4 + 5x) = 4 + 13x + 22x2 + 15x3 Definition 2.39. Sei (K, +, ·) ein Körper. Dann heißt G ein Unterkörper von K, falls G ⊆ K und folgende Eigenschaften gelten: (i) ∀a, b ∈ G : a + b ∈ G (Abgeschlossenheit der Addition) (ii) ∀a, b ∈ G : a · b ∈ G (Abgeschlossenheit der Multiplikation) (iii) 1 ∈ G, wobei 1 das Einselement von K ist. (iv) ∀a ∈ G : −a ∈ G, wobei −a das inverse Element von a bezüglich der Addition ist. (v) ∀a ∈ G\{0} : a−1 ∈ G, wobei a−1 das inverse Element von a bezüglich der Multiplikation ist. Beispiel: R ist ein Unterkörper von C. 39 2.5 Vektorräume Einer der zentralen Begriffe der linearen Algebra ist der Begriff des Vektorraums. Wir geben hier zunächst die abstrakte Definition eines Vektorraums an. Im Laufe der Vorlesung werden wir eine ganze Reihe von Beispielen für Vektorräume kennenlernen und später auch erkennen, wie diese Definition mit der geometrischen Anschauung (Raum von Vektoren) zusammenhängt. Definition 2.40. Sei (K, +K , ·K ) ein Körper und (V, +V ) eine abelsche Gruppe. Dann heißt das Tripel (K, V, ·) ein Vektorraum, falls (i) die Multiplikation · eine Abbildung von K × V nach V definiert, d.h. ∀ a ∈ K ∀ v ∈ V : a · v ∈ V , wobei a · v eindeutig definiert ist. (ii) die Multiplikation · erfüllt folgende Eigenschaften: ∀ a, b ∈ K ∀ v, w ∈ V : (V1) 1 · v = v, wobei 1 das Einselement des Körpers K ist. (V2) (a +K b) · v = a · v +V b · v (V3) a · (v +V w) = a · v +V a · w (V4) (a ·K b) · v = a · (b · v) Die Elemente aus K nennen wir Skalare. Die Elemente von V nennen wir Vektoren. Die Multiplikation · bezeichnet man als skalare Multiplikation oder Multiplikation mit einem Skalar. Wenn klar ist, was mit der skalaren Multiplikation gemeint ist, dann sagt man auch einfach, dass V ein K-Vektorraum ist. Wenn klar ist, welcher Körper K und was mit der skalaren Multiplikation gemeint ist, dann sagt man einfach nur, dass V ein Vektorraum ist. Beispiele: Sei K ein Körper. 1. (K, V, ·) mit V = K ist stets ein K-Vektorraum. 2. (K, V, ·) mit V = K n = |K × K {z × ... × K} ist ein K-Vektorraum. Die n−mal Addition von zwei Vektoren v, w aus K n ist dabei definiert als (v1 , v2 , ..., vn ) + (w1 , w2 , ..., wn ) := (v1 + w1 , v2 + w2 , ..., vn + wn ). Die Multiplikation mit einem Skalar a ∈ K ist definiert als a · (v1 , v2 , ..., vn ) := (a ·K v1 , a ·K v2 , ..., a ·K vn ). 40 3. Q, R, C, Qn , Rn , Cn sind somit Vektorräume. 4. (K, K[x], ·) mit dem Polynomring K[x] und der skalaren Multiplikation c · (a0 + a1 x + ... + an xn ) = (c ·K a0 ) + (c ·K a1 )x + ... + (c ·K an )xn für c ∈ K ist ein K-Vektorraum. Es gelten folgende Rechenregeln in einem Vektorraum. Satz 2.41. Sei (K, V, ·) ein Vektorraum. Sei 0 das Nullelement von K und O der Nullvektor, d.h. das neutrale Element von (V, +V ). Dann gilt für alle a ∈ K und v ∈ V , dass (i) a · O = O (ii) 0 · v = O (iii) Falls a · v = O, dann gilt a = 0 oder v = O. (iv) (−1) · v = −v, wobei −v das zu v inverse Element bzgl. +V und −1 das zu 1 inverse Element bzgl. +K . Beweis: Sei a ∈ K und v ∈ V . (i) Für w := a · O gilt (V 3) w = a · O = a · (O +V O) = a · O +V a · O = w +V w und somit O = w +V (−w) = w +V w +V (−w) = w +V O = w. (ii) Für w := 0 · v gilt (V 2) w = 0 · v = (0 +K 0) · v = 0 · v +V 0 · v = w +V w und damit auch wieder O = w. (iii) Sei a · v = O. Falls a 6= 0, dann existiert ein a−1 ∈ K, so dass (V 1) (V 4) (i) v = 1 · v = (a−1 ·K a) · v = a−1 · (a · v) = a−1 · O = O. 41 (iv) Es gilt (V 1) (V 2) (ii) v +V (−1) · v = 1 · v +V (−1) · v = (1 +K (−1)) · v = 0 · v = O. Damit ist nachgewiesen, dass (−1) · v = −v. 2 Definition 2.42. Sei (K, V, ·) ein Vektorraum und W ⊆ V mit W 6= ∅. Dann heißt (K, W, ·) ein Untervektorraum oder Unterraum von (K, V, ·), falls (i) ∀v, w ∈ W : v +V w ∈ W . (ii) ∀a ∈ K ∀v ∈ W : a · v ∈ W . Bemerkung: Wenn klar ist, was die skalare Multiplikation ist, dann sagt man auch kurz K-Unterraum. Wenn zudem klar ist, welcher Körper K gemeint ist, dann spricht mach auch einfach vom Unterraum. Satz 2.43. Sei (K, V, ·) ein Vektorraum und (K, W, ·) ein Untervektorraum von (K, V, ·). Dann ist (K, W, ·) selbst wieder ein Vektorraum. Beweis: 1. (W, +) ist Untergruppe von (V, +): Nach dem Satz 2.30 für Untergruppen brauchen wir nur zu zeigen, dass v + (−w) ∈ W für alle v, w ∈ W . Seien nun v, w ∈ W . Dann haben wir, dass −w = (−1) · w ∈ W wegen (ii) und somit auch v + (−w) ∈ W wegen (i). 2. ∀a ∈ K ∀v ∈ W : a · v ∈ W wegen (ii). 3. Die Eigenschaften (V 1) − (V 4) sind erfüllt für alle a, b ∈ K und v, w ∈ W , da W ⊆ V und (K, V, ·) ein Vektorraum ist. 2 Beispiele: 1. W = {w = (0, a2 , a3 , ..., an ) | a2 , ..., an ∈ K}, wobei K ein Körper ist, ist ein K-Unterraum von K n . 2. Der Durchschnitt W1 ∩ W2 zweier K-Unterräume ist wieder ein KUnterraum. Dies gilt auch, wenn wir den Durchschnitt beliebig vieler Unterräume betrachten. 42 3. Die Vereinigung W1 ∪ W2 zweier K-Unterräume ist im allgemeinen kein K-Unterraum. Als Beispiel betrachte man die R-Unterräume W1 = {(a1 , 0) | a1 ∈ R} und W2 = {(0, a2 ) | a2 ∈ R} des R2 . Falls a1 6= 0 und a2 6= 0, so gilt (a1 , 0) + (0, a2 ) = (a1 , a2 ) ∈ / W1 ∪ W2 . 4. Die Summe W1 +W2 zweier K-Unterräume ist wieder ein K-Unterraum. Sie ist definiert als W1 + W2 = {w = w1 + w2 | w1 ∈ W1 ∧ w2 ∈ W2 }. Man spricht von einer direkten Summe W1 ⊕ W2 , falls zudem noch gilt, dass W1 ∩ W2 = {O}, wobei O der Nullvektor von V ist. Betrachten wir wieder die R-Unterräume W1 = {(a1 , 0) | a1 ∈ R} und W2 = {(0, a2 ) | a2 ∈ R} des R2 . Dann gilt W1 ⊕ W2 = R2 . 5. Die Menge aller Polynome mit Koeffizienten in R bildet einen Unterraum von dem Vektorraum V aller Funktionen/Abbildungen von R nach R mit der Addition (f + g)(x) = f (x) + g(x) ∀x ∈ R und der skalaren Multiplikation (c · f )(x) = c · f (x) ∀ c ∈ R ∀x ∈ R. 2.6 Linearkombinationen, lineare Unabhängigkeit, Erzeugendensystem Wir kommen nun zu einem Konzept, mit dem wir aus Teilmengen geeignete Unterräume erzeugen können. Zur Verkürzung der Schreibweise ist im folgenden mit dem Symbol + in einem Vektorraum (K, V, ·) stets die Addition +V in V gemeint. Definition 2.44. Sei (K, V, ·) ein Vektorraum und seien v1 , v2 , ..., vn Vektoren aus V . Dann heißt v eine Linearkombination der Vektoren v1 , v2 , ..., vn , falls es Skalare a1 , a2 , ..., an ∈ K gibt, so dass v = a1 · v1 + a2 · v2 + ... + an · vn . 43 Beispiel: Seien v1 = (1, 0, 2) und (1, 3, 3) Vektoren im R3 . Dann ist v = (1, 6, 4) eine Linearkombination von v1 und v2 , da v = (−1) · (1, 0, 2) + 2 · (1, 3, 3) = (−1, 0, −2) + (2, 6, 6) = (1, 6, 4). Satz 2.45. Sei V ein Vektorraum und U ⊆ V mit U 6= ∅. Dann bildet die Menge aller endlichen Linearkombinationen L(U ) := {v = n X i=1 ai · ui | ai ∈ K, ui ∈ U } einen Unterraum von V . In der Literatur findet man anstelle der Schreibweise L(U ) auch span(U ). Man meint damit, dass der Raum span(U ) von den Vektoren aus U aufgespannt wird. Bemerkung 2.46. Da u = 1 · u ∈ U für alle Vektoren u ∈ U , so wissen wir, dass U ⊆ L(U ). Beweis: (von Satz 2.45) Da V ein Vektorraum ist, so gehören alle Vektoren vi := ai · ui mit ai ∈ K und ui ∈ V wieder zu V und damit gehört auch deren Summe n n X X v= vi = ai · ui i=1 i=1 wieder zu V . Somit gilt L(U ) ⊆ V . Da U 6= ∅, so ist auch L(U ) 6= ∅. Es bleibt zu zeigen, dass (i) ∀v, w ∈ L(U ) : v + w ∈ L(U ). (ii) ∀c ∈ K ∀v ∈ L(U ) : c · v ∈ L(U ). (i) Seien v, w ∈ L(U ). Dann gilt v= n X i=1 ai · vi und w = m X j=1 bj · wj , wobei ai , bj ∈ K und vi , wj ∈ U für alle i = 1, .., n und j = 1, ..., m. Somit haben wir v+w = n X i=1 ai · v i + m X j=1 bj · wj = n+m X k=1 ck · uk ∈ L(U ), wobei ck = ak und uk = vk für alle 1 ≤ k ≤ n sowie cn+k = bk und uk+n = wk für alle 1 ≤ k ≤ m. 44 (ii) Seien c ∈ K und v ∈ L(U ). Dann gilt v= n X i=1 ai · u i mit ai ∈ K und weiter c·v =c n X i=1 (V 2) ai · ui = n X i=1 (V 4) c · (ai · ui ) = n X i=1 (c ·K ai ) · ui ∈ V, da c ·K ai ∈ K für alle i = 1, ..., n. 2 Beispiel: Sei V = R3 und U1 = {(1, 0, 0), (0, 1, 0)}. Dann gilt L(U1 ) = {(a1 , a2 , 0) | a1 , a2 ∈ R}. Es gilt übrigens auch L(U2 ) = {(a1 , a2 , 0) | a1 , a2 ∈ R}. für U2 := {(1, 1, 0), (0, 1, 0)}. Bemerkung 2.47. Sei V ein Vektorraum und U ⊆ V mit U 6= ∅. Dann ist L(U ) der kleinste Unterraum W von V mit U ⊆ W . Definition 2.48. Sei V ein Vektorraum und U ⊆ V . Falls, V = L(U ), so heißt U ein Erzeugendensystem von V . Beispiele: 1. R2 = L({(1, 0), (0, 1)}, R3 = L({(1, 0, 0), (0, 1, 0), (0, 0, 1)} 2. V = K n und U = {e1 , e2 , ..., en }, wobei ei = (0, ..., 0, 1, 0, ..., 0) i für alle i = 1, ..., n. Dabei ist 0 das Nullelement von K und 1 das Einselement von K. Die Vektoren ei nennt man Einheitsvektoren. 3. Falls V ein Vektorraum ist, dann ist V = L(V ). 4. Falls U1 ein Erzeugendensystem von V ist und U1 ⊆ U2 ⊆ V , dann ist U2 auch ein Erzeugendensystem von V . 45 Definition 2.49. Sei V ein Vektorraum und U = {u1 , ..., un } ⊆ V . Die Teilmenge U heißt linear unabhängig, falls aus n X i=1 ai · ui = O, ai ∈ K folgt, dass ai = 0 für alle i = 1, ..., n. Andernfalls heißt sie linear abhängig. Eine unendliche Menge U = {ui ∈ V |i ∈ I} von Vektoren aus V heißt linear unabhängig, falls jede endliche Teilmenge von U linear unabhängig ist. Andernfalls heißt sie linear abhängig. Beispiele: 1. V = R3 und U = {(1, 2, 1), (1, 0, 1)}. Sei a1 · (1, 2, 1) + a2 · (1, 1, 0) = O = (0, 0, 0). Dann gilt a1 + a2 = 0, 2a1 + a2 = 0 und a1 = 0, also auch a2 = 0. Also ist U linear unabhängig. 2. V = K n und U = {e1 , e2 , ..., en }. Falls n X i=1 ai · e i = O , so gilt (a1 , a2 , ..., an ) = n X i=1 ai · (0, ..., 0, 1, 0, ..., 0) = (0, 0, ..., 0) i und somit ai = 0 für alle i = 1, ..., n, d.h. U ist linear unabhängig. Satz 2.50. Sei V ein Vektorraum und U = {ui ∈ V |i ∈ I}. Dann ist U linear unabhängig genau dann, wenn sich jeder Vektor w ∈ L(U ) eindeutig als eine Linearkombination von Vektoren aus U darstellen lässt. Beweis: (→) U ist linear unabhängig. Sei w ∈ L(U ) beliebig. Wir nehmen an, dass X X ai · ui = w = bi · ui , ai , bi ∈ K, i∈I0 i∈I0 wobei I0 ⊆ I endlich ist. Dann gilt X (ai − bi ) · ui = O. i∈I0 46 Da U linear unabhängig ist, so gilt ai − bi = 0 für alle i ∈ I0 , d.h. ai = bi für alle i ∈ I0 . (←) Jeder Vektor w ∈ L(U ) lässt sich eindeutig als eine Linearkombination von Vektoren aus U darstellen. Wir nehmen an, dass X ai · ui = O, ai ∈ K, i∈I0 wobei I0 ⊆ I endlich ist. Dann gilt X X ai · u i = O = 0 · ui . i∈I0 i∈I0 Da die Darstellung von O eindeutig ist, so haben wir ai = 0 für alle i ∈ I0 . 2 Wir schauen uns noch einmal die Summe W1 + W2 zweier Unterräume eines Vektorraums V an. Sie war definiert als W1 + W2 = {w = w1 + w2 | w1 ∈ W1 ∧ w2 ∈ W2 }. Ist die Darstellung w = w1 + w2 eindeutig? Nein, i.a. nicht, denn z.B. für V = R3 , W1 = {(a, b, 0) | a, b ∈ R}, W2 = {(0, b, c) | b, c ∈ R} gilt (1, 0, 0) + (0, 0, 1) = (1, 0, 1) = (1, 1, 0) + (0, −1, 1). Doch sie ist eindeutig, falls W1 ∩ W2 = {O}. Satz 2.51. Seien W1 und W2 Unterräume von V . Die Summendarstellung von Vektoren aus W1 + W2 ist genau dann eindeutig, wenn W1 ∩ W2 = {O}. Beweis: (→) Die Summendarstellung ist eindeutig. Wir müssen zeigen, dass W1 ∩ W2 = {O}. Wir nehmen an, dass es einen Vektor w 6= O mit w ∈ W1 ∩ W2 gibt. Dann gilt w ∈ W1 und w ∈ W2 sowie −w ∈ W2 . Damit haben wir w + (−w) = O = O + O, d.h. die Summendarstellung wäre nicht eindeutig. Widerspruch zur Annahme. (←) Es gilt W1 ∩ W2 = {O}. Wir müssen zeigen, dass die Summendarstellung eindeutig ist. Wir nehmen an, dass ein w ∈ W1 + W2 existiert, so dass w1 + w2 = w = v1 + v2 , w1 , v1 ∈ W1 , w2 , v2 ∈ W2 . 47 Dann gilt w1 + (−v1 ) = w2 + (−v2 ) ∈ W1 ∩ W2 und somit w1 + (−v1 ) = w2 + (−v2 ) = O Dies bedeutet, dass w1 = v1 und w2 = v2 , d.h. die Darstellung von w ist eindeutig. 2 Lemma 2.52. Sei V ein K-Vektorraum. Dann gilt (i) Sei v ∈ V . Dann ist U = {v} linear abhängig genau dann, wenn v = O. (ii) Falls O ∈ U ⊆ V . Dann ist U linear abhängig. (iii) Falls U ⊆ W ⊆ V und U linear abhängig. Dann ist auch W linear abhängig. (iv) Falls zu U ⊆ V zwei Vektoren v1 und v2 gehören, für die v1 = v2 gilt, so ist U linear abhängig. (v) Sei U = {u1 , ..., un } und n ≥ 2. Dann ist U genau dann linear abhängig, wenn es ein i ∈ {1, ..., n} gibt, so dass ui eine Linearkombination der Vektoren von U \{ui } ist. Beweis: (i) Sei U = {v} linear abhängig. Dann existiert ein a ∈ K mit a 6= 0, so dass a · v = O. Dann gilt a−1 · a · v = a−1 · O = O, d.h. v = 1 · v = O. Umgekehrt, falls v = O, dann gilt 1 · v = O, d.h. U = {v} ist linear abhängig. (ii) Sei O ∈ U ⊆ V . Dann gilt 1 · u = O für u := O ∈ U , d.h. die endliche Teilmenge {u} von U ist linear abhängig und somit ist auch U linear abhängig. (iii) Da UPlinear abhängig ist, so existieren u1 ,..., un ∈ U und a1 , ..., an ∈ K mit ni=1 ai · ui = 0, Pwobei mindestens ein ai 6= 0. Da U ⊆ W , so gilt u1 ,..., un ∈ W mit ni=1 ai · ui = 0, wobei mindestens ein ai 6= 0. D.h. W ist linear abhängig. 48 (iv) Seien v1 , v2 ∈ U mit v1 = v2 . Dann gilt 1 · v1 + (−1) · v2 = v1 + (−v2 ) = O, d.h. U ist linear abhängig. (v) Sei n ≥ 2 und U = {u1 , ..., un } linear abhängig. Dann existieren a1 , ..., an ∈ K, von denen mindestens ein Element ungleich 0 ist, so dass a1 · u1 + ... + an · un = O. Sei ai 6= 0. Dann gilt −1 −1 a−1 i · a1 · u1 + ... + ai · ai · ui + ... + ai · an · un = O. Somit haben wir ui = n X j=1 j6=i (−a−1 · a ) · u , | i{z j} j ∈K d.h. ui ist eine Linearkombination der Vektoren von U \{ui }. Sei nun umgekehrt ui eine Linearkombination der Vektoren von U \{ui }. Dann finden wir Koeffizienten cj ∈ K, so dass ui = n X j=1 j6=i cj · uj , Dann gilt n X j=1 cj · uj = 0, wobei cj = −1. Da 1 6= 0 ist, so ist auch −1 6= 0 und somit ist U linear abhängig. 2 2.7 Basis Definition 2.53. Sei V ein K-Vektorraum. Dann heißt U ⊆ V eine Basis von V , falls U ein Erzeugendensystem von V und linear unabhängig ist. Beispiele: 49 1. {(1, 0), (0, 1)} ist eine Basis von R2 . {(1, 3), (2, 4)} ist auch eine Basis von R2 . {(1, 0, 0), (2, 1, 0), (3, 4, 1)} ist eine Basis von R3 . 2. {e1 , e2 , .., en } ist eine Basis von K n . 3. {1, x, x2 , ..., xi , ...} ist eine Basis von K[x] (Vektorraum aller Polynome mit Koeffizienten aus K). Satz 2.54. Sei V ein Vektorraum, V 6= {O} und U ⊆ V . Dann sind folgende Bedingungen äquivalent. (i) U ist eine Basis von V . (ii) U ist ein minimales Erzeugendensystem von V , d.h. sobald man irgendein Element von U streicht, dann ist die resultierende Teilmenge kein Erzeugendensystem von V mehr. (iii) U ist eine maximale linear unabhängige Teilmenge von V , d.h. sobald man irgendein Element von V zu U hinzunimmt, ist die resultierende Teilmenge nicht mehr linear unabhängig. Beweis: (i) → (ii) Da U eine Basis von V ist, ist U nach Definition auch ein Erzeugendensystem von V . Minimalität: Sei u∗ ∈ U beliebig. Es ist zu zeigen, dass U∗ := U \{u∗ } kein Erzeugendensystem von V ist. Dazu zeigen wir, dass u∗ ∈ / L(U∗ ). Angenommen, u∗ ∈ L(U∗ ). Dann wäre u∗ eine Linearkombination von U \{u∗ }. Nach Lemma 2.52. (v) wäre U linear abhängig. Dies ist ein Widerspruch dazu, dass U eine Basis ist. (ii) → (i) Es ist zu zeigen, dass U linear unabhängig ist. Angenommen, U ist linear abhängig. Dann existiert nach Lemma 2.52. (v) ein u∗ ∈ U , so dass u∗ ∈ U∗ := U \{u∗ }. Somit gilt V = L(U ) = L(U∗ ). Dies ist ein Widerspruch dazu, dass U ein minimales Erzeugendensystem war. (i) → (iii) Da U eine Basis von V ist, ist U nach Definition auch linear unabhängig. Maximalität: Sei u∗ ∈ V beliebig. Zu zeigen: U∗ := U ∪ {u∗ } ist linear abhängig. Da U ein Erzeugendensystem von V ist, so existieren n ∈ N, ai ∈ K und ui ∈ U , so dass u∗ = n X i=1 50 ai · ui . Somit gilt O = (−1) · u∗ + n X i=1 ai · u i , d.h. U∗ ist linear abhängig, da u∗ ∈ U∗ und ui ∈ U∗ . (iii) → (i) Wir müssen zeigen, dass L(U ) = V . Sei u∗ ∈ V beliebig. Da U eine maximale linear unabhängige Teilmenge ist, so ist U∗ := U ∪ {u∗ } linear abhängig. Also existieren n ∈ N, a∗ ∈ K, ai ∈ K und ui ∈ U , so dass n X a∗ · u∗ + ai · ui = O, i=1 wobei mindestens einer der Koeffizienten a∗ , ai für i ∈ {1, ..., n} verschieden von Null ist. Wäre a∗ = 0, so wäre U linear abhängig (Widerspruch zur Voraussetzung, dass U eine Basis ist). Also ist a∗ 6= 0. Somit gilt n X u∗ = (−a−1 ∗ · ai ) · ui ∈ L(U ), i=1 d.h. V = L(U ). 2 Bemerkung 2.55. Sei V ein K-Vektorraum und U ⊆ V eine Basis von V . Dann lässt sich jeder Vektor v ∈ V eindeutig als eine Linearkombination von Vektoren aus U darstellen. Beweis: Sei v ∈ V beliebig. Da U eine Basis ist, so ist L(U ) = V . Daher existieren Vektoren ui ∈ U und Skalare ai ∈ K, so dass v= n X i=1 ai · ui . (2.1) Es bleibt die Eindeutigkeit dieser Darstellung zu zeigen. Wir nehmen an, dass es eine weitere Darstellung v= m X bi · ūj j=1 Pn mit ūj ∈ U und bj ∈ K gibt. Dann gilt n X i=1 ai · ui + m X j=1 i=1 (2.2) ai · ui = (−bi ) · ūj = O. 51 Pm j=1 bi · ūj und somit Da U eine Basis ist und ui , ūj ∈ U , so sind alle Koeffizienten der Linearkombination gleich Null. Wir müssen dabei aber aufpassen, dass ui = ūj für gewisse i und j sein kann. Falls ūj ∈ / {u1 , ..., un }, dann ist bj = 0. Falls ui ∈ / {ū1 , ..., ūm }, dann ist ai = 0. Falls ui = ūj für gewisses i ∈ {1, ..., n} und j ∈ {1, ..., m}, dann gilt ai + (−bj ) = 0, d.h. ai = bj . Dies bedeutet aber gerade, dass die Darstellungen (2.1) und (2.2) gleich sind. 2 3 Endlich erzeugte Vektorräume Definition 3.1. Ein K-Vektorraum V heißt endlich erzeugt, falls eine endliche Teilmenge U von V mit V = L(U ) existiert. Beispiele: 1. K n ist endlich erzeugt. U = {e1 , ..., en } ist ein Erzeugendensystem mit n Elementen. 2. K[x] ist nicht endlich erzeugt. Angenommen, es gäbe eine endliche Teilmenge U = {p1 , ..., pn } mit L(U ) = K[x]. Dann ist jedes Element pi von U ein Polynom mit Koeffizienten in K. Sei m := max deg(pi ) 1≤i≤n Dann gehört p(x) = xm+1 ∈ K[x] nicht zu L(U ). 3.1 Existenz einer Basis Satz 3.2. Sei V ein endlich erzeugter Vektorraum. Dann besitzt V eine endliche Basis. Falls V = L(U ) und U endlich, dann existiert stets eine Basis W mit W ⊆ U . Beweis: Sei V = L(U ) und U ⊆ V endlich. Wir konstruieren nun eine Basis W von V mit Elementen aus U wie folgt: 1. Setze W1 := U und i := 1. Dann gilt L(Wi ) = L(U ). 2. Falls ein w ∈ Wi existiert, so dass w ∈ L(Wi \{w}), dann setzen wir Wi+1 := Wi \{w}. Da w ∈ L(Wi+1 ), so gilt L(Wi+1 ) = L(Wi ) = L(U ). Nun setzen wir i := i + 1. 3. Wir setzen 2. solange fort bis es kein w ∈ Wi mit w ∈ L(Wi \{w}) mehr gibt. Da U endlich ist, so tritt dieser Fall nach endlichen vielen Schritten ein. Dann sei W := Wi . 52 Nach Lemma 2.52. (v) ist W linear unabhängig. Somit ist W eine endliche Basis von V , denn L(W ) = L(Wi ) = L(U ) = V . 2 Beispiel: V = R2 = L(U ) für U = {(1, 1), (2, 3), (3, 4)}, denn jedes Element (a, b) ∈ R2 lässt sich darstellen als (a, b) = (3a − 2b) · (1, 1) + (b − a) · (2, 3) + 0 · (4, 5). Mit dieser Darstellung sieht man leicht, dass auch W1 = {(1, 1), (2, 3)} ein Erzeugendensystem von R2 ist. Die lineare Unabhängigkeit von W1 sieht man leicht: Falls a · (1, 1) + b · (2, 3) = 0, so a + 2b = 0 ∧ a + 3b = 0. Offenbar gilt dies nur für a = 0 und b = 0. Somit ist W1 eine Basis von R2 . Übrigens ist auch W2 = {(1, 1), (3, 4)} eine Basis von R2 , da (2, 3) = (−1) · (1, 1) + 1 · (3, 4) ∈ L(W2 ). Von der linearen Unabhängigkeit von W2 kann man sich wieder leicht überzeugen. 3.2 Basisergänzungssatz Satz 3.3. (Basisergänzungssatz) Sei V ein endlich erzeugter Vektorraum und U ⊆ V linear unabhängig. Dann lässt sich U zu einer Basis von V ergänzen, d.h. es existiert eine Basis W von V mit U ⊆ W . Beweis: Da V ein endlich erzeugter Vektorraum ist, so existiert ein Ū = {ū1 , ..., ūn } ⊆ V mit L(Ū ) = V. Wir konstruieren nun eine Basis W von V mit U ⊆ W wie folgt. 1. Sei W0 := U und i := 0. Dann ist Wi linear unabhängig. 2. Falls ūi+1 ∈ L(Wi ), dann sei Wi+1 := Wi . Falls ūi+1 ∈ / L(Wi ), dann setzen wir Wi+1 := Wi ∪ {ūi+1 }. In beiden Fällen gilt mit Lemma 2.52 (v), dass Wi+1 linear unabhängig ist. Außerdem gilt Wi ⊆ Wi+1 und ūi+1 ∈ L(Wi+1 ). 3. Falls i < n, so setzen wir i := i + 1 und gehen zu 2. Falls i = n, so setzen wir W := Wi . 53 Nach Konstruktion ist Wi stets linear unabhängig, somit ist auch W = Wn linear unabhängig. Da Wi ⊆ Wi+1 und ui+1 ∈ L(Wi+1 ) für alle i = 0, ..., n−1, so gilt Ū ⊆ L(Wn ) = L(W ). Damit haben wir V = L(Ū ) ⊆ L(W ) ⊆ V , d.h. V = L(W ). Somit ist W eine Basis von V . Nach Konstruktion gilt auch U = W0 ⊆ W1 ⊆ W2 ⊆ ... ⊆ Wn = W. 2 Beispiel: V = R2 und U = {(2, 3)}. Offenbar ist U linear unabhängig. Außerdem gilt V = L(Ū ) mit Ū = {(1, 0), (0, 1)}. Dann ist W := {(2, 3), (1, 0)} eine Basis von V . 3.3 Austauschsatz Lemma 3.4. (Austauschlemma) Sei U = {u1 , ..., un } eine Basis eines Vektorraumes V und n X w= ai · u i i=1 mit ak 6= 0 für ein k ∈ {1, ..., n}. Dann ist Ū := {u1 , ..., uk−1 , w, uk+1 , ..., un } auch eine Basis von V . Beweis: Da ak 6= 0, so gilt k−1 X uk = (−a−1 k · ai ) · ui + i=1 a−1 k ·w + n X (−a−1 k · ai ) · ui ∈ L(Ū ). i=k+1 Somit gilt V = L(U ) ⊆ L(Ū ), also ist V = L(Ū ). Wir müssen nun noch die lineare Unabhängigkeit von Ū zeigen. Sei dazu k−1 X i=1 bi · ui + bk · w + n X i=k+1 bi · ui = 0. Dann gilt 0= k−1 X i=1 bi · u i + n X i=1 k−1 X = (bi + bk · ai ) · ui i=1 (bk · ai ) · ui + + (bk · ak ) · uk 54 n X i=k+1 + bi · u i n X (bi + bk · ai ) · ui . i=k+1 Da U eine Basis ist, so wissen wir, dass bi + bk · ai = 0 ∀i 6= k und bk · ak = 0. Da ak 6= 0, so gilt bk = 0 und damit auch bi = 0 für alle i = 1, ..., n. 2 Satz 3.5. (Austauschsatz) Sei U = {u1 , ..., un } eine Basis eines Vektorraumes V und W = {w1 , ..., wr } ⊆ V linear unabhängig. Dann gilt r ≤ n und nach geeigneter Umsortierung von U ist Ū := {w1 , ..., wr , ur+1 , ..., un } eine Basis von V . Beweis: Da w1 ∈ V = L(U ), so haben wir w1 = n X i=1 ai · ui mit ak 6= 0 für ein k ∈ {1, ..., n}. Nun sortieren wir U so um, dass w1 = n X i=1 ai · ui mit a1 6= 0. Dann ist nach dem Austauschlemma U1 := {w1 , u2 , ..., un } eine Basis von V . Da w2 ∈ V = L(U1 ), so haben wir w 2 = a1 · w 1 + n X i=2 ai · ui mit ak 6= 0 für ein k ∈ {1, ..., n}. Da W linear unabhängig ist, so gilt ak 6= 0 für ein k ∈ {2, ..., n}. Nun sortieren wir U so um, dass w 2 = a1 · w 1 + n X i=2 ai · ui mit a2 6= 0. Dann ist nach dem Austauschlemma U2 := {w1 , w2 , u3 , ..., un } 55 eine Basis von V . Dies können wir nun analog für w3 , ..., wm fortführen, wobei m = min{r, n}. Falls r < n, so erhalten wir mit Ū := Ur eine Basis der Form Ū := {w1 , ..., wr , ur+1 , ..., un } Falls r = n, so ist Un = {w1 , w2 , w3 , ..., wn } eine Basis von V . Wäre r > n, so wäre W linear abhängig, da wr ∈ V = L(Un ) = L({w1 , ..., wn }). Also gilt r ≤ n und es folgt die Behauptung des Satzes. 3.4 2 Dimension und Dimensionssatz Definition 3.6. Sei V ein endlich erzeugter K-Vektorraum. Dann hat V die Dimension n, falls es eine Basis U ⊆ V gibt, die aus genau n Elementen besteht. Wir schreiben dimK V = n. Bemerkung: Aus dem Austauschsatz folgt, dass für zwei beliebige Basen U = {u1 , .., un } und W = {w1 , ..., wm } eines Vektorraumes V gilt: n = m. Damit ist die Definition 3.4 gerechtfertigt. Bemerkung: Falls V kein endlich erzeugter Vektorraum ist, dann sagt man auch, dass die Dimension von V unendlich ist. Beispiele: 1. dimK K n = n mit Basis {e1 , ..., en }, also insbesondere dimR Rn = n. Damit wissen wir, dass jede Basis von K n aus genau n Elementen besteht. 2. dimC C = 1 mit Basis {1} 3. dimR C = 2 mit Basis {1, i} 4. dimR R[x] = ∞ 5. dimQ R = ∞ (folgt daraus, dass Q abzählbar und R überabzählbar ist.) Bemerkung: Endlich erzeugte Vektorräume nennen wir jetzt endlich dimensionale Vektorräume. Wir sprechen von einem n-dimensionalen Vektorraum V , falls dimK V = n. Korollar 3.7. Sei W ein Unterraum eines n-dimensionalen Vektorraumes V . Dann gilt dimK W ≤ n. 56 Beweis: Sei U eine Basis von V . Dann besitzt U genau n Elemente. Wir konstruieren nun eine Basis von W auf folgende Weise: 1. Sei i := 0 und sei U0 := U ∩ W . Dann ist U0 linear unabhängig und U0 ⊆ W . Sei n0 die Anzahl aller Elemente von U0 . Offenbar ist n0 ≤ n. 2. Falls L(Ui ) = W , dann ist Ui eine Basis von W . Falls L(Ui ) ( W , dann existiert ein w ∈ W \L(Ui ), d.h. Ui+1 := Ui ∪ {w} ist linear unabhängig. Nach dem Austauschsatz existiert eine Basis Ū von V mit Ui+1 ⊆ Ū . Sei ni+1 die Anzahl aller Elemente von Ui+1 . Da Ū aus n Elementen besteht, so ist ni+1 ≤ n. Nach Konstruktion von Ui+1 gilt noch, dass ni+1 = ni + 1. 3. Wir setzen 2. mit i := i + 1 solange fort bis Ui eine Basis von W ist. Da sich die Anzahl der Basiselemente stets um 1 erhöht und diese nicht größer als n sein kann, tritt der Fall nach endlich vielen Schritten ein. Die angegebene Konstruktion der Basis zeigt auch, dass dimK W ≤ n. 2 Korollar 3.8. Sei W1 ein Unterraum eines endlich dimensionalen Vektorraumes V . Dann existiert ein Unterraum W2 von V , so dass V = W1 ⊕ W2 . Beweis: Nach Korollar 3.7 besitzt W1 eine endliche Basis U1 = {u1 , ..., uk }. Dies ist eine linear unabhängige Teilmenge von V . Nach dem Basisergänzungssatz können wir U1 zu einer Basis U = {u1 , ..., uk , uk+1 , ..., un } von V ergänzen. Sei nun W2 := L(U2 ) für U2 := {uk+1 , ..., un }. Dann gilt offenbar V = W1 ⊕ W2 . 2 Satz 3.9. (Dimensionssatz) Seien W1 und W2 zwei Unterräume eines endlich dimensionalen Vektorraumes V . Dann gilt dimK (W1 + W2 ) = dimK W1 + dimK W2 − dimK (W1 ∩ W2 ). Beweis: Sei U := {u1 , ..., um } eine Basis von W1 ∩ W2 . Nach dem Basisergänzungssatz können wir U zu einer Basis B1 := {u1 , ..., um , v1 , ..., vk } von W1 und zu einer Basis B2 := {u1 , ..., um , w1 , ..., w` } von W2 ergänzen. Die Behauptung ist bewiesen, wenn wir gezeigt haben, dass B := {u1 , .., um , v1 , ..., vk , w1 , ..., w` } eine Basis von W1 + W2 ist. Wir zeigen zuerst, dass sich alle Vektoren w ∈ W1 + W2 mit den Vektoren 57 von B erzeugen lassen. Sei w = w1 + w2 mit w1 ∈ W1 und w2 ∈ W2 . Dann existieren ai , ãi , bi , b̃i ∈ K, so dass m k m ` X X X X w=( ai ui + ãi vi ) + ( bi u i + b̃i wi ) = i=1 m X i=1 i=1 k X (ai + bi )ui + i=1 ãi vi + i=1 ` X i=1 i=1 b̃i wi ∈ L(B). Somit ist B ein Erzeugendensystem von W1 + W2 . Um die lineare Unabhängigkeit zu zeigen, seien ai , bi , ci ∈ K mit m X ai u i + i=1 k X bi vi + i=1 ` X ci wi = O. (3.1) i=1 Pk Pm a u + i=1 bi vi . Dann haben wir v ∈ W1 . Außerdem ist Sei v := P` i=1 i i −v = i=1 ci wi ∈ W2 , d.h. auch v ∈ W2 . Somit gehört v zu W1 ∩ W2 , d.h. wir finden di ∈ K mit m X v= di ui . i=1 Mit Gleichung (3.1) folgt O = v + (−v) = m X ai ui + i=1 = m X bi vi + (−di )ui i=1 m X k X i=1 i=1 (ai − di )ui + k X i=1 bi vi Da B1 = {u1 , ..., um , v1 , ..., vk } eine Basis von W1 ist, so sehen wir, dass ai − di = 0 für alle i ∈ {1, ..., m} und bi = 0 für alle i ∈ {1, ..., k}. Setzen wir letzteres in die Gleichung (3.1) ein, so erhalten wir m X i=1 ai ui + ` X ci wi = O. i=1 Da B2 = {u1 , ..., um , w1 , ..., w` } eine Basis von W2 ist, so erhalten wir nun ai = 0 für alle i ∈ {1, ..., m} und ci = 0 für alle i ∈ {1, ..., `}. 2 Korollar 3.10. Seien W1 und W2 zwei Unterräume eines endlich dimensionalen Vektorraumes V . Dann gilt dimK (W1 + W2 ) = dimK W1 + dimK W2 58 ⇔ W1 ∩ W2 = {O}. Korollar 3.11. Seien W1 und W2 zwei Unterräume eines n-dimensionalen Vektorraumes V . Falls dimK W1 + dimK W2 > n, dann gilt W1 ∩ W2 6= {O}. 3.5 Geometrische Anschauung endlich dimensionaler Vektorräume Definition 3.12. Sei V ein endlich dimensionaler K-Vektorraum mit der Basis U = {u1 , ..., un } und v ∈ V . Dann existiert genau eine Darstellung von v der Form n X v= ai · ui mit ai ∈ K. i=1 Man nennt die eindeutig bestimmten Faktoren a1 , ..., an die Koordinaten von v bezüglich der Basis U . Entsprechend heißt ai die i-te Koordinate von v bezüglich der Basis U . Beispiel: V = K n und U = {e1 , ..., en }. Dann ist für v = (v1 , ..., vn ) ∈ V die i-te Koordinate bezüglich U gleich vi , denn v = (v1 , ..., vn ) = n X i=1 vi · (0, ..., 0, 1, 0, ..., 0). i Im folgenden werden wir für Vektoren im K n in der Regel die Spaltennotation v1 v2 v=. .. vn verwenden. Um uns die Koordinatendarstellung geometrisch zu veranschaulichen, betrachten wir V = R3 . Jetzt identifizieren wir jeden Vektor v = (vx , vy , vz ) von R3 mit einem Pfeil (Vektor) des dreidimensionalen Raumes, der vom Nullpunkt zum Punkt (vx , vy , vz ) zeigt (siehe Abbildung 3.1). 59 Abbildung 3.1: Vektordarstellung im R3 Dann zeigen die Einheitsvektoren e1 , e2 , e3 gerade in Richtung der Koordinatenachsen (siehe Abbildung 3.2). Zusammen bilden sie eine Basis des R3 . Abbildung 3.2: Einheitsvektoren im R3 Man kann jeden Vektor des R3 als Linearkombination der drei Einheitsvektoren darstellen. Dazu wollen wir uns klar machen, was es geometrisch bedeutet, wenn wir einen Vektor mit einem Skalar multiplizieren und wenn wir zwei Vektoren addieren. Bei der skalaren Multiplikation mit einer positiven reellen Zahl c verlängert sich der Pfeil um den Faktor c. Bei der skalaren Multiplikation mit 0 erhält man den Nullvektor O. Bei der skalaren Multiplikation mit einer negativen reellen Zahl c verlängert sich der Pfeil um den Faktor c und zeigt in die entgegengesetzte Richtung (siehe Abbildung 3.3). 60 Abbildung 3.3: skalare Multiplikation von Vektoren im R2 Wenn wir zwei Vektoren addieren, dann erhalten wir einen Vektor, der zu der Ebene gehört, die von den beiden Vektoren aufgespannt wird. Er zeigt genau in die Richtung der Diagonalen des Parallelogramms, das sich aus den beiden Vektoren ergibt (siehe Abbildung 3.4). Abbildung 3.4: Addition von Vektoren im R2 Alle Vektoren eines 1-dimensionalen Unterraums des R3 liegen auf einer Geraden durch den Nullpunkt. Alle Vektoren eines 2-dimensionalen Unterraums des R3 liegen in einer Ebene, die den Nullpunkt enthält. Zwei Vektoren im R3 sind nach Bemerkung 2.52 genau dann linear unabhängig, wenn der eine kein skalares Vielfaches des anderen Vektors ist, d.h. wenn sie nicht in dieselbe bzw. entgegengesetzte Richtung zeigen. Mit ihnen kann man mittels Linearkombinationen alle Vektoren der Ebene erzeugen, die durch die beiden Vektoren aufgespannt wird. Drei Vektoren im R3 sind nach Bemerkung 2.52 genau dann linear unabhängig, wenn keiner der Vektoren eine Linearkombination der beiden anderen 61 Vektoren ist, d.h. wenn keiner der Vektoren zu der Ebene gehört, die durch die anderen beiden Vektoren aufgespannt wird. Mit anderen Worten: Die drei Vektoren dürfen nicht in einer Ebene liegen. Somit lassen sich alle Vektoren im R3 durch Linearkombination von drei Vektoren darstellen, die nicht in einer Ebene liegen. Beispiel: Alle Vektoren des Raumes R3 lassen sich auch durch Streckung/ Stauchung, entgegengesetzte Orientierung und Addition der Basisvektoren (1, 1, 1), (1, 1, 0) und (1, 0, 0) darstellen. Im nächsten Kapitel werden wir sehen, wie wir mit Hilfe linearer Abbildungen Bewegungen von Vektoren im Raum wie z.B. Drehungen und Spiegelungen leicht beschreiben können. 4 Lineare Abbildungen und Matrizen 4.1 Lineare Abbildungen/Homomorphismen Definition 4.1. Seien V und W zwei K-Vektorräume. Dann heißt eine Abbildung f : V → W K-linear, falls • ∀ u, v ∈ V : f (u + v) = f (u) + f (v) • ∀ v ∈ V ∀a ∈ K: f (a · v) = a · f (v) Man nennt eine solche Abbildung auch einen Homomorphismus. Wir schreiben HomK (V, W ) := {f | f : V → W ist K-linear}. Bemerkung: Eine Abbildung ist genau dann linear, wenn für alle a, b ∈ K und alle u, v ∈ V gilt: f (au + bv) = af (u) + bf (v). Beispiele: 1. V = R2 . Seien a11 , a12 , a21 , a22 ∈ R und f : V → V v1 a11 v1 + a12 v2 f (v) = f = v2 a21 v1 + a22 v2 2. V = K n , W = K m . Seien a11 , ..., amn ∈ R. f : V → W v1 a11 v1 + a12 v2 + ... + a1n vn v2 a21 v1 + a22 v2 + ... + a1n vn f (v) = f . = .. .. . vn am1 v1 + am2 v2 + ... + amn vn 62 Als Kurzschreibweise für eine solche Abbildung verwenden wir f (v) = A · v, wobei a11 a21 A= . .. a12 a22 .. . ... a1n ... a1n .. . am1 am2 ... amn eine Matrix mit m Zeilen und n Spalten ist. Üblich sind auch die Kurzschreibweisen A = (aij ) und A = (aij ) i = 1, ..., m . j = 1, ..., n 3. Die Koordinatenabbildung ϕU : V → K n mit einem n-dimensionalen Vektorraum V : ϕU (v) := (c1 , c2 , ..., cn ), wobei U = {u1 , ..., un } eine Basis von V ist und v = c1 u1 + ... + cn un . 4. Drehungen von Vektoren im R2 um den Nullpunkt mit dem Drehwinkel α: cos(α)v1 − sin(α)v2 f (v) = sin(α)v1 + cos(α)v2 In Matrixschreibweise haben wir cos(α) f (v) = sin(α) − sin(α) ·v cos(α) ÜA: Hinweis: Man verwende die Darstellung eines Punktes in Polarkoordinaten: (v1 , v2 ) = (r cos(ϕ), r sin(ϕ)). Die Drehung des Punktes (v1 , v2 ) um den Ursprung mit dem Winkel α ergibt dann in Polarkoordinaten f (v1 , v2 ) = (r cos(ϕ + α), r sin(ϕ + α)). Mit Hilfe der Additionstheoreme für die Winkelfunktionen sin und cos ergibt sich die Behauptung. 5. Spiegelungen von Vektoren im R2 an einer Geraden durch den Nullpunkt, wobei α der Winkel zwischen der Geraden und der x-Achse ist: cos(2α)v1 + sin(2α)v2 f (v) = sin(2α)v1 − cos(2α)v2 63 In Matrixschreibweise haben wir cos(2α) sin(2α) f (v) = ·v sin(2α) − cos(2α) ÜA: Hinweis: Man verwende wieder die Darstellung eines Punktes in Polarkoordinaten: (v1 , v2 ) = (r cos(ϕ), r sin(ϕ)). Die Spiegelung des Punktes (v1 , v2 ) an der Geraden durch den Nullpunkt mit dem Winkel α ergibt in Polarkoordinaten f (v1 , v2 ) = (r cos(2α − ϕ), r sin(2α − ϕ)). Mit Hilfe der Additionstheoreme ergibt sich auch hier die Behauptung. Satz 4.2. Sei f : V → W K-linear. Dann gelten folgende Eigenschaften: (i) f (O) = O (ii) Für alle vi ∈ V und ai ∈ K gilt: n n X X f( ai v i ) = ai f (vi ). i=1 i=1 (iii) Falls U = {u1 , .., un } linear abhängig ist, dann ist auch f (U ) := {f (u1 ), ..., f (un )} linear abhängig. (iv) Sind Ṽ ⊆ V und W̃ ⊆ W Unterräume, dann sind auch f (Ṽ ) ⊆ W und f −1 (W̃ ) ⊆ V Unterräume. (v) dimK f (V ) ≤ dimK V . (vi) Falls f bijektiv ist, so ist auch f −1 : W → V K-linear. Beweis: (i) f (O) = f (0 · O) = 0 · f (O) = O (ii) folgt einfach aus der Definition einer linearen Abbildung per Induktion über n 64 (iii) Sei U = {u1 , .., un } linear abhängig. Dann existieren a1 , ..., an ∈ K, so dass n X ai ui = O, i=1 wobei mindestens ein ai 6= 0. Wegen (i) und (ii) gilt nun n n X X O = f( ai u i ) = ai f (ui ), i=1 i=1 d.h. f (U ) = {f (u1 ), ..., f (un )} ist linear abhängig. (iv) Wir zeigen zunächst, dass f (Ṽ ) ein Unterraum ist. Seien w1 , w2 ∈ f (Ṽ ). Dann existieren v1 und v2 ∈ Ṽ mit w1 = f (v1 ) und w2 = f (v2 ). Somit bekommen wir w1 + w2 = f (v1 ) + f (v2 ) = f (v1 + v2 ) ∈ f (Ṽ ). Für w ∈ f (Ṽ ), a ∈ K existiert ein v ∈ Ṽ , so dass w = f (v) und es gilt a · w = a · f (v) = f (a · v) ∈ f (Ṽ ). Nun zeigen wir, dass f −1 (W̃ ) ein Unterraum ist. Seien v1 , v2 ∈ f −1 (W̃ ). Dann existieren w1 , w2 ∈ W̃ mit w1 = f (v1 ) und w2 = f (v2 ). Somit haben wir f (v1 + v2 ) = f (v1 ) + f (v2 ) = w1 + w2 ∈ W̃ , d.h. v1 + v2 ∈ f −1 (W̃ ). Für v ∈ f −1 (W̃ ), a ∈ K existiert ein w ∈ W̃ , so dass w = f (v) und es gilt f (a · v) = a · f (v) = a · w ∈ W̃ , d.h. a · v ∈ f −1 (W̃ ). (v) Falls dim V = ∞, so ist die Aussage trivial. Sei nun dim V = n ∈ N. Angenommen, dim f (V ) > n. Dann gäbe es n + 1 linear unabhängige Vektoren w1 , ..., wn+1 ∈ f (V ). Seien v1 , ..., vn+1 ∈ V so gewählt, dass f (vi ) = wi für alle i = 1, ..., n + 1. Da dim V = n, so ist U = {v1 , ..., vn+1 } linear abhängig. Wegen (iii) wären dann w1 , ..., wn+1 auch linear abhängig - im Widerspruch zur Annahme. (vi) Seien w1 , w2 ∈ W . Dann existieren v1 , v2 ∈ V , so dass f (v1 ) = w1 und f (v2 ) = w2 und wir wissen, dass f (v1 + v2 ) = f (v1 ) + f (v2 ) = w1 + w2 , d.h. v1 + v2 = f −1 (w1 + w2 ) 65 und damit f −1 (w1 ) + f −1 (w2 ) = f −1 (w1 + w2 ). Seien w ∈ W und a ∈ K. Dann existiert ein v ∈ V , so dass f (v) = w und es gilt f (a · v) = a · f (v) = a · w, d.h. a · v = f −1 (a · w), also a · f −1 (w) = f −1 (a · w). 2 Satz 4.3. HomK (V, W ) ist ein Unterraum von AbbK (V, W ) = {f | f : V → W ist eine Abbildung}. Dabei ist die Addition zweier Abbildungen f1 , f2 definiert als (f1 + f2 )(v) = f1 (v) + f2 (v) ∀ v ∈ V. Die Multiplikation mit einem Skalar a ∈ K ist definiert als (a · f )(v) = a · f (v) ∀ v ∈ V. Beweis: Offenbar ist die Nullabbildung f0 : V → W mit f (v) = v ∈ V eine lineare Abbildung, d.h. f0 ∈ HomK (V, W ). O für alle Seien f1 , f2 ∈ HomK (V, W ). Dann gilt für alle v, w ∈ V und a, b ∈ K, dass (f1 + f2 )(a · v + b · w) = f1 (a · v + b · w) + f2 (a · v + b · w) = a · f1 (v) + b · f1 (w) + a · f2 (v) + b · f2 (w) = a · (f1 + f2 )(v) + b · (f1 + f2 )(w). Seien f ∈ HomK (V, W ) und c ∈ K. Dann gilt für alle v, w ∈ V und a, b ∈ K, dass (c · f )(a · v + b · w) = c · f (a · v + b · w) = a · c · f (v) + b · c · f (w) = a · (c · f )(v) + b · (c · f )(w). 2 Bemerkung: Die Hintereinanderausführung linearer Funktionen ist wieder linear, d.h. wenn f : V → W und g : W → X linear sind, so ist g◦f : V → X auch linear (leichte Übungsaufgabe). 66 Die Hintereinanderausführung zweier linearer Abbildungen f : K n → K m und g : K m → K ` mit a11 ... a1n b11 ... b1m .. x, .. x f (x) = Ax = ... g(x) = Bx = ... . . am1 ... amn b`1 ... b`m ist dann eine lineare Abbildung h : K n → K ` mit c11 ... c1n .. x h(x) = (B ◦ A)(x) = B(Ax) =: Cx = ... . c`1 ... c`n wobei cij = m X ∀ i = 1, ..., `, j = 1, ..., n, bik akj k=1 denn n P a1j xj m P b1k n P akj xj k=1 b11 ... b1m j=1 j=1 .. .. .. B(Ax) = ... = . . n . m n b`1 ... b`m P a x P b P a x mj j `k kj j j=1 n P m P ( b1k akj )xj j=1 k=1 m P m P k=1 k=1 k=1 b1k ak1 ... k=1 b1k akn j=1 k=1 .. .. .. = = x. . n m . m . m P P P P b`k ak1 ... b`k akn ( b`k akj )xj j=1 k=1 Aus diesem Grunde definiert man die Multiplikation zweier Matrizen A = (akj )k = 1, ..., m und B = (bik ) i = 1, ..., ` als j = 1, ..., n k = 1, ..., m B · A := C = (cij ) i = 1, ..., ` = j = 1, ..., n m X k=1 ! bik akj i = 1, ..., ` j = 1, ..., n Achtung: Die Multiplikation zweier Matrizen ist im allgemeinen nicht kommutativ. Wir haben dies bereits bei der Hintereinanderausführung von Abbildungen festgestellt. 67 Beispiel: A= 6 0 B = 1 2 0 3 1 2 3 , 4 5 6 Dann gilt 6 12 18 B · A = 9 12 15 12 15 18 und A·B = 8 13 . 29 28 Bemerkung 4.4. Sei U = {u1 , ..., un } eine Basis eines endlich dimensionalen K-Vektorraums V . Sei weiter W ein K-Vektorraum. Dann ist jede lineare Abbildung f : V → W eindeutig durch die Vorgabe f (ui ) der Basisvektoren ui für i = 1, ..., n bestimmt. Sei wi := f (ui ) und v ∈ V beliebig. P Da U eine Basis von V ist, so existiert eine eindeutige Darstellung v = ni=1 ai ui und es gilt f (v) = f ( n X i=1 ai u i ) = n X f (ai ui ) = i=1 n X ai f (ui ). i=1 Falls V = K n , W = K m und U = {e1 , ..., en }, so stellen die Vektoren f (e1 ), ..., f (en ) gerade die Spaltenvektoren der Matrix A dar, für die f (x) = Ax gilt. Dies wird klar, wenn man beachtet, dass a1i .. f (ei ) = Aei = . ∀ i = 1, ..., n. ami Definition 4.5. Eine Abbildung f in HomK (V, W ) heißt • K-Monomorphismus, falls f injektiv ist, • K-Epimorphismus, falls f surjektiv ist, • K-Isomorphismus, falls f bijektiv ist, • K-Endomorphismus, falls V = W , • K-Automorphismus, falls V = W und f bijektiv ist. Beispiele: 1. Die Abbildung f : R2 → R3 mit f (x, y) = (x, x + y, x − y) ist ein R-Monomorphismus. 68 2. Die Abbildung f : R3 → R2 mit f (x, y, z) = (x, y) ist ein R-Epimorphismus. 3. Die Abbildung f : C → R2 mit f (a+bi) = (a, b) ist ein R-Isomorphismus. 4. Die Abbildung f : R3 → R3 mit f (x, y, z) = (x, y + z, x + y + z) ist ein R-Endomorphismus. 5. Die Abbildung f : R2 → R2 mit f (x, y) = (x + y, x − y) ist ein RAutomorphismus (und zugleich ein R-Endomorphismus, ein R-Isomorphismus, ein R-Epimorphismus, ein R-Monomorphismus). 6. Die Abbildung f : R2 → R2 mit f (x, y) = (x2 , y 2 ) ist keiner der genannten Morphismen, da f nicht linear ist. Bemerkung: 1. Die Menge EndK (V ) aller K-Endomorphismen bildet mit (+, ◦) einen Ring (ÜA). 2. Die Menge AutK (V ) aller K-Automorphismen bildet mit ◦ eine Untergruppe von EndK (V ) (ÜA). Definition 4.6. Zwei K-Vektorräume V und W heißen isomorph, falls es einen K-Isomorphismus f : V → W gibt. Satz 4.7. Sei V ein n-dimensionaler K-Vektorraum. Dann ist V isomorph zu K m genau dann, wenn m = n. Beweis: Sei U = {u1 , ..., un } eine Basis von V . Dann ist die Koordinatenabbildung ϕU : V → K n ein Isomorphismus von V nach K n . Die Abbildung ist bijektiv, da sich jeder Vektor v ∈ V mit eindeutig bestimmten Koeffizienten/Koordinaten c1 , ..., cn ∈ K als v= n X i=1 ci · u i darstellen lässt. Angenommen, es gäbe einen Isomorphismus f : V → K m für m 6= n. Dann n m wäre g := f ◦ ϕ−1 U ein Isomorphismus von K nach K . Dann wäre B := −1 −1 n {g (e1 ), ..., g (em )} ⊆ K wegen Satz 4.2 (iii) linear unabhängig. Zudem n m −1 gäbe Pm es für jedes v ∈ K ein w ∈ K mit v = g (w). Dann wäre w = i=1 wi ei mit wi ∈ K für alle i = 1, ..., m und somit wäre m m X X v=g ( wi ei ) = wi g −1 (ei ), −1 i=1 i=1 69 d.h. jedes v ∈ K n würde zu L(B) gehören. Somit wäre B eine Basis von K n und hätte daher die Länge n, d.h. m = n. 2 Satz 4.8. Seien V und W endlich dimensionale K-Vektorräume. Dann ist V isomorph zu W genau dann, wenn dimK V = dimK W . Beweis: (→) Sei f : V → W ein Isomorphismus, dimK V = n und dimK W = m. Sei U eine Basis von V und Ū eine Basis von W . Dann ist nach Satz 4.7 V isomorph zu K n und W isomorph zu K m . Daher ist ϕŪ ◦ f ◦ ϕ−1 U : K n → K m ein Isomorphismus und somit n = m wegen Satz 4.7. (←) Sei dimK V = dimK W = n. Seien U und Ū Basen von V und W . Dann ist die Abbildung f := ϕŪ ◦ ϕ−1 U : V → W ein Isomorphismus. 2 4.2 Bild, Kern, Rang und Defekt linearer Abbildungen Definition 4.9. Sei f : V → W eine K-lineare Abbildung. Dann nennen wir (i) im f := f (V ) das Bild von f (engl. image), (ii) ker f := f −1 (O) den Kern bzw. den Nullraum von f (engl. kernel), (iii) rank f := dimK (im f ) den Rang von f (engl. rank), (iv) def f := dimK (ker f ) den Defekt von f (engl. defect). Bemerkung: Für beliebige w ∈ W nennt man f −1 (w) die Faser von f über w. Lemma 4.10. Sei f : V → W eine K-lineare Abbildung. Dann gilt: (i) im f ist ein Unterraum von W (ii) ker f ist ein Unterraum von V . (iii) im f = W genau dann, wenn f surjektiv ist. (iv) ker f = {O} genau dann, wenn f injektiv ist. Beweis: 70 (i) Da f linear ist, so ist O = f (O) ∈ im f . Seien w1 , w2 ∈ im f . Dann existieren v1 , v2 ∈ V , so dass f (v1 ) = w1 und f (v2 ) = w2 . Daraus folgt, dass w1 + w2 = f (v1 ) + f (v2 ) = f (v1 + v2 ) ∈ im f. Sei nun w ∈ im f und c ∈ K. Dann existiert ein v ∈ V , so dass f (v) = w und wir sehen, dass c · w = c · f (v) = f (c · v) ∈ im f. (ii) Wegen O = f (O) haben wir O ∈ ker f . Seien v1 , v2 ∈ ker f . Dann gilt f (v1 ) = O und f (v2 ) = O und daher f (v1 + v2 ) = f (v1 ) + f (v2 ) = O, d.h. v1 + v2 ∈ ker f. Sei nun v ∈ ker f und c ∈ K. Dann haben wir f (v) = O und f (c · v) = c · f (v) = O, d.h. c · v ∈ ker f. (iii) klar per Definition (iv) (→) Seien v1 , v2 ∈ V mit f (v1 ) = f (v2 ) gegeben. Dann gilt f (v1 + (−v2 )) = f (v1 ) + (−f (v2 )) = O. Da ker f = {O}, so gilt v1 + (−v2 ) = O, d.h. v1 = v2 . (←) Klar nach Definition. 2 Wir haben bereits gesehen, dass wir lineare Abbildungen von K n → K m mit Hilfe von Matrizen darstellen können. Wir wollen uns nun oben genannte Begriffe für Matrizen näher anschauen. Definition 4.11. Wir bezeichnen mit M (m × n, K) die Menge aller Matrizen mit m Zeilen und n Spalten. Dann repräsentiert jede Matrix A ∈ M (m × n, K) eine lineare Abbildung fA : K n → K m mit fA (x) = Ax und wir definieren (i) im A = im fA als das Bild von A, (ii) ker A = ker fA als den Kern von A, (iii) rank A = rank fA als den Rang von A. 71 (iv) def A := def (fA ) den Defekt von A. Bemerkung: 1. M (m × n, K) ist mit der Addition und der skalaren Multiplikation ein Vektorraum der Dimension m · n. Die Matrizen ( 1, falls k = i ∧ ` = j Ak` := (aij )i = 1, ..., m mit aij = j = 1, ..., n 0, sonst für k = 1, ..., m, ` = 1, ..., n bilden eine Basis von M (m × n, K). 2. Sei A ∈ M (m × n, K). Dann folgt per Definition, dass (a) im A = {w ∈ K m | ∃v ∈ K n : w = Av}, (b) ker A = {v ∈ K n | Av = O}, (c) rank A = dimK (im A). 3. Die Bestimmung des Kernes einer Matrix A ∈ M (m × n, K) entspricht der Bestimmung aller Lösungen des homogenen linearen Gleichungssystems Ax = O, d.h. a11 x1 + ... + a1n xn = 0, .. . am1 x1 + ... + amn xn = 0. .. . 4. Ein Vektor y ∈ K m gehört genau dann zu im A, wenn das lineare Gleichungssystem Ax = y, d.h. a11 x1 + ... + a1n xn = y1 , .. . am1 x1 + ... + amn xn = ym . eine Lösung x ∈ K n besitzt. Wir können den Bildraum einer Matrix A ∈ M (m × n, K) auch wie folgt darstellen: im A = L({Ae1 , Ae2 , ..., Aen }), d.h. im A wird von den Spaltenvektoren der Matrix A erzeugt. Man bezeichnet dimK L({Ae1 , Ae2 , ..., Aen }) daher auch als den Spaltenrang der Matrix 72 A. Offenbar gilt stets, dass der Rang von A gleich dem Spaltenrang von A ist. Betrachtet man anstelle der Spaltenvektoren nun die Zeilenvektoren ai = (ai1 ... ain ) ∀ i = 1, ..., m, so definiert man dimK L({a1 , a2 , ..., am }) als Zeilenrang von A. Definition 4.12. Sei A ∈ M (m × n, K) eine Matrix. Dann ist die Transponierte AT von A definiert als AT := (bij )i = 1, ..., m mit j = 1, ..., n bij = aji . Bemerkung: Die Spalten von A bilden gerade die Zeilen von AT . Die Zeilen von A stellen die Spalten von AT dar. Somit gilt offenbar, dass der Spaltenrang von A gleich dem Zeilenrang von AT und der Zeilenrang von A gleich dem Spaltenrang von AT ist. Es gilt aber sogar noch mehr: Für jede Matrix A ist der Zeilenrang gleich dem Spaltenrang. Den Beweis gibt es an späterer Stelle. Satz 4.13. (Dimensionssatz für lineare Abbildungen) Seien V , W zwei K-Vektorräume und f ∈ HomK (V, W ). Dann gilt: dimK V = dimK (ker f ) + dimK (im f ) = def (f ) + rank (f ). Entsprechend gilt für jede Matrix A ∈ M (m × n, K), dass n = dim(ker A) + dim(im A) = def (A) + rank (A). Beweis: Sei f ∈ HomK (V, W ) und n := dimK (V ). Sei weiter U := {u1 , ..., uk } eine Basis von ker f . Nun ergänzen wir U zu einer Basis {u1 , ..., uk , uk+1 , ..., un } von V und definieren Z := L({uk+1 , ..., un }). Dann gilt V = ker f ⊕ Z und aufgrund des Dimensionssatzes für Vektorräume erhalten wir dimK (V ) = dimK (ker f ) + dimK Z. Nun zeigen wir, dass Z isomorph zu im f ist. Da zwei isomorphe Räume stets die gleiche Dimension haben, so folgt damit die Behauptung des Satzes. Dazu definieren wir die Abbildung ϕ : Z → im f mit ϕ(z) := f (z). Da f linear ist, so ist auch ϕ linear. Zudem ist ϕ injektiv, denn aus ϕ(z1 ) = ϕ(z2 ) folgt, f (z1 ) = f (z2 ), d.h. f (z1 − z2 ) = O 73 und somit z1 − z2 ∈ ker f . Dies bedeutet aber auch z1 − z2 ∈ ker f ∩ Z = {O}, also z1 = z2 . Es bleibt zu zeigen, dass ϕ auch surjektiv ist. Sei w ∈ im f beliebig. Dann existiert ein v ∈ V , so dass f (v) = w. Sei nun v =x+z mit x ∈ ker f, z ∈ Z. Dann gilt ϕ(z) = f (z) = f (v − x) = f (v) − f (x) = f (v) = w, d.h. ϕ ist bijektiv und somit ein Isomorphismus von Z nach im f . 4.3 2 Matrizen und lineare Gleichungssysteme Jedes lineare Gleichungssystem a11 x1 + ... + a1n xn .. . am1 x1 + ... + amn xn = b1 .. . = bm mit aij , bi , xj ∈ K für alle i = 1, ..., m und j = 1, ..., n lässt sich kurz in Matrix-Vektorschreibweise als Ax = b (4.1) formulieren, wobei x und b Spaltenvektoren mit den Einträgen x1 , ..., xn und b1 , ..., bm sind. Bevor wir uns Methoden zuwenden, wie man lineare Gleichungssysteme allgemein lösen kann, beschäftigen wir uns mit der Frage, wann ein lineares Gleichungssystem lösbar und wann die Lösung eindeutig ist. Satz 4.14. Das lineare Gleichungssystem (4.1) ist für jedes b ∈ K m genau dann eindeutig lösbar, wenn rank (A) = m = n. Beweis: Offenbar ist das lineare Gleichungssystem (4.1) für jedes b ∈ K m genau dann eindeutig lösbar, wenn die lineare Abbildung fA : K n → K m mit fA (x) = Ax eine bijektive Abbildung, also ein Isomorphismus ist. (⇒) Sei fA : K n → K m ein Isomorphismus. Dann ist im (fA ) = K m und ker(fA ) = {0} und somit rank (fA ) = m, 74 def (fA ) = 0. Der Dimensionssatz 4.14 liefert n = rank (fA ) + def (fA ) = m + 0 = m. (⇐) Sei rank (A) = m = n. Dann gilt rank (fA ) = m und aufgrund des Dimensionssatzes 4.14, dass def (fA ) = n − m = 0. Dies bedeutet dimK (im fA ) = m und dimK (ker fA ) = 0. Da im fA ⊆ K m und dimK K m = m, so folgt im fA = K m . Zudem haben wir ker fA = {0}, d.h. fA ist ein Isomorphismus. 2 Die Lösung eines eindeutig lösbaren Gleichungssystems lässt sich auch mit Hilfe der sogenannten Inversen einer Matrix darstellen. Dazu betrachten wir zunächst eine Matrix A ∈ M (m × n, K) und die sogenannten Einheitsmatrizen 1 0 ... 0 1 0 ... 0 0 1 . . . 0 0 1 . . . 0 Im := . . . , I := .. .. . . .. .. n . . . . . . . . . . . | 0 0 ... 1 {z } | m Spalten 0 0 ... 1 {z } n Spalten der Dimension m bzw. n. Dann gilt aufgrund der Definition der Matrixmultiplikation, dass A · In = A = Im · A. Definition 4.15. Sei A ∈ M (m × n, K) eine Matrix. Die Matrix A heißt invertierbar, falls eine inverse Matrix A−1 existiert, so dass A−1 A = In und AA−1 = Im . Eine Matrix B heißt linksinverse Matrix von A, falls BA = In . Eine Matrix B heißt rechtsinverse Matrix von A, falls AB = Im . Satz 4.16. A ∈ M (m × n, K) ist genau dann invertierbar, wenn rank (A) = m = n. Beweis: Nach Satz 4.14 brauchen wir nur zu zeigen, dass A ∈ M (m × n, K) genau dann invertierbar ist, wenn es zu jedem b ∈ K m genau eine Lösung x ∈ K n des Systems Ax = b gibt. (→) Sei A invertierbar. Dann ist x = A−1 b wegen AA−1 b = b eine Lösung von Ax = b. Diese ist auch eindeutig, da x = A−1 Ax = A−1 b für jede Lösung von Ax = b. 75 (←) Da {e1 , ..., em } = {Ax1 , ..., Axm } linear unabhängig ist, so ist die Menge {x1 , ..., xm } auch linear unabhängig. Nach Voraussetzung wissen wir, dass m = n. Somit ist die Menge {x1 , ..., xm } eine Basis von K m = K n . Damit lässt sich jedes ei ∈ K n darstellen als ci1 m X ci2 ei = cij xj = x1 x2 . . . xm . = Bzi . . . j=1 cim | {z } =:zi Dann gilt ei = Bzi = BIm zi = B(AB)zi = BA(Bzi ) = BAei . Durch Zusammensetzung der Spalten erhalten wir In = e1 e2 . . . en = (BA)e1 (BA)e2 . . . (BA)en = BA. 2 Bemerkung: Der Beweis hat gezeigt, dass sich für invertierbare Matrizen A die eindeutige Lösung der Gleichung Ax = b als x = A−1 b darstellen lässt. Wie lässt sich ein lineares Gleichungssystem Ax = b nun allgemein lösen? Wie können wir die inverse Matrix A−1 für invertierbare Matrizen bestimmen? Dafür gibt es eine Vielzahl von Möglichkeiten. An dieser Stelle lernen Sie das sogenannte Gaußsche Eliminationsverfahren kennen. Es beschreibt den natürlichen Weg, den vermutlich jeder “zu Fuß” gehen würde. Später lernen Sie in der Numerik weitere Verfahren kennen, die bestimmte Systemstrukturen nutzen und damit deutlich effektiver sind. Dies ist in Simulationsanwendungen ein zentraler Punkt. Manchmal müssen Systeme mit 1 Milliarde Gleichungen und einer Milliarde Unbekannten gelöst werden. Selbst auf dem schnellsten Rechner der Welt Tianhe-2 in China mit 33.86 Petaflops würde man mit dem Gaußschen Eliminationsverfahren dafür etwa 30s benötigen. Effektivere Verfahren brauchen dafür nur etwa 0.1 Mikrosekunden. Auf einem gewöhnlichen PC (mit 50 Gigaflops) bräuchte man mit dem Gaußschen Eliminationsverfahren sogar rund 230 Tage, mit geeigneteren Verfahren schafft man es in einer Zehntelsekunde. Dennoch bildet das Gaußsche Eliminationsverfahren noch immer ein wichtiges Basiswissen, auf dem viele Überlegungen aufbauen. Wir skizzieren die Idee zunächst an einem einfachen Beispiel. 76 2x + 3y + z = 7 6x − 3y − z = 1 4x + 9y − 2z = 24 (a) (b) (c) Intuitiv würde man als erstes die Gleichung nach x auflösen und den resultierenden Term in die unteren beiden Gleichungen einsetzen, um dann ein kleineres System mit nur noch zwei Variablen (y und z) zu erhalten. Wir bekämen auf diese Weise 3 x = − y − 2z + 1 2 und danach −12y − 4z = −20 3y − 4z = 10. (b’) (c’) Man kann sich aber auch den Auflösungsschritt sparen und das System (b’)(c’) direkt aus (a)-(c) erhalten, indem man die erste Gleichung (a) 1. mit −3 multipliziert und zur zweiten Gleichung (b) addiert sowie 2. mit −2 multipliziert und zur dritten Gleichung (c) addiert. Dieses Vorgehen nennt man Eliminationsschritt (Elimination von x in den unteren beiden Gleichungen). Diese Form der Elimination kann man nun für y in dem System (b’)-(c’) wiederholen. Wir multiplizieren also (b’) mit 41 und addieren sie zur Gleichung (c’) und erhalten −5z = 5. (c”) Fasst man nun die im ersten Eliminationsschritt unveränderte Gleichung (a), die im zweiten unveränderte Gleichung (b’) sowie die letzte Gleichung (c”) zusammen, so haben wir 2x + 3y + z = 2 −12y − 4z = −20 −5z = 5 Die Lösung dieses Systems findet man nun ganz einfach durch Rückwärtseinsetzen, d.h. z = −1, y=− 1 (−20 + 4z) = 2, 12 77 1 x = (7 − 3y − z) = 1. 2 Dies ist dann auch die Lösung von (a)-(c), wie man leicht durch Probe prüfen kann. Nun wollen wir diese Idee allgemein für beliebige Gleichungssysteme in Matrixschreibweise formulieren und zeigen, dass sich die Lösungsmenge durch die Umformungen nicht ändert. Wir betrachten dazu das allgemeine System Ax = b bzw. a11 x1 + ... + a1n xn = b1 .. .. . . ai1 x1 + ... + ain xn = bi .. .. . . am1 x1 + ... + amn xn = bm . Definition 4.17. Lös(A, b) := {x | Ax = b} heißt die Lösungsmenge von Ax = b. Wir definieren nun folgende elementare Zeilentransformationen für (E1) Multiplikation der i-ten Zeile mit c 6= 0: a11 x1 + ... + a1n xn = b1 .. .. . . cai1 x1 + ... + cain xn = cbi .. .. . . am1 x1 + ... + amn xn = bm . Dies entspricht gerade dem System TE1 Ax = TE1 b mit der Transformationsmatrix 1 ... 0 ... 0 .. . . .. .. . . . . i 0 ... c ... 0 TE1 = .. .. . . .. . . . . 0 ... 0 ... 1 78 (E2) Addition der i-ten Zeile zur j-ten Zeile: a11 x1 + ... + a1n xn = b1 .. .. . . ai1 x1 + ... + ain xn = bi .. .. . . (aj1 + ai1 )x1 + ... + (ajn + ain )xn = bj + bi .. .. . . am1 x1 + ... + amn xn = bm . Dies entspricht gerade dem System TE2 Ax = TE2 b mit der Transformationsmatrix 1 ... 0 ... 0 ... 0 .. . . .. .. .. . . . . . 0 ... 1 ... 0 ... 0 i .. . . .. .. TE2 = ... . . . . 0 ... 1 ... 1 ... 0 j . .. .. . . .. . . . . . . 0 ... 0 ... 0 ... 1 (E3) Addition des c-fachen der i-ten Zeile zur j-ten Zeile: a11 x1 + ... + a1n xn = b1 .. .. . . ai1 x1 + ... + ain xn = bi .. .. . . (aj1 + cai1 )x1 + ... + (ajn + cain )xn = bj + cbi .. .. . . am1 x1 + ... + amn xn = bm . Dies entspricht gerade dem System TE3 Ax = TE3 b mit der Transforma- 79 tionsmatrix TE3 1 ... 0 ... 0 ... 0 .. . . .. .. .. . . . . . 0 ... 1 ... 0 ... 0 i .. . . . . .. . . .. .. = . 0 ... c ... 1 ... 0 j . .. .. . . .. .. . . . . 0 ... 0 ... 0 ... 1 (E4) Vertauschung der i-ten Zeile mit der j-ten Zeile: a11 x1 + ... + a1n xn = b1 .. .. . . aj1 x1 + ... + ajn xn = bj .. .. . . ai1 x1 + ... + ain xn = bi .. .. . . am1 x1 + ... + amn xn = bm . Dies entspricht gerade dem System TE4 Ax = TE4 b mit der Transformationsmatrix 1 ... 0 ... 0 ... 0 .. . . .. .. .. . . . . . 0 ... 0 ... 1 ... 0 i .. . . . . .. . . .. .. TE4 = . 0 ... 1 ... 0 ... 0 j . . . . . .. .. . . .. .. 0 ... 0 ... 0 ... 1 Durch die elementaren Zeilentransformationen ändert sich die Lösungsmenge nicht, d.h. für alle T ∈ {TE1 , ..., TE4 } gilt, dass x ∈ Lös(A, b) genau dann, wenn x ∈ Lös(T A, T b). Klar ist sofort, dass x ∈ Lös(A, b) → x ∈ Lös(T A, T b). Doch auch die umgekehrte Richtung wird sofort klar, wenn man beachtet, dass die elementaren Transformationsmatrizen invertierbar sind. Es gilt of- 80 fenbar −1 TE1 −1 TE2 −1 TE3 −1 TE4 1 .. . = 0 .. . 0 1 .. . 0 = ... 0 . .. 0 1 .. . 0 = ... 0 . .. 0 ... 0 ... . . .. . . ... 1c ... .. . . . . ... 0 ... ... .. . 0 .. . ... ... 1 .. . ... 0 ... ... .. . 0 .. . ... ... 1 .. . ... .. . ... .. . ... −1 ... .. . ... −c .. . ... ... ... 0 0 .. . 0 i .. . 1 0 ... 0 .. .. . . 0 ... 0 i .. .. . . j 1 ... 0 .. . . .. . . . 0 ... 1 0 ... 0 .. .. . . 0 ... 0 i .. .. . . j 1 ... 0 .. . . .. . . . 0 ... 1 = TE4 . Das Gaußsche Eliminationsverfahren überführt nun mit Hilfe elementarer Zeilentransformationen das System Ax = b in ein System Āx = b̄, wobei die Matrix Ā Zeilenstufenform besitzt, d.h. 0 ... 0 | a1k1 ... ∗ ∗ ... ∗ ∗ ... ∗ ∗ ... ∗ − − 0 ... 0 − 0 ... 0 | a2k2 ... ∗ ∗ ... ∗ ∗ ... ∗ − − − .. . | − − − Ā = 0 ... 0 0 ... 0 0 ... 0 | a`k` ... ∗ 0 ... 0 − − − 0 ... 0 0 ... 0 0 ... 0 0 ... 0 0 ... 0 . . .. .. 0 ... 0 0 ... 0 0 ... 0 0 ... 0 0 ... 0 (4.2) 81 Die Elemente aiki sind ungleich Null für i = 1, ..., ` und heißen Pivotelemente. Um aus einer Matrix A ∈ M (m × n, K) eine Matrix in Zeilenstufenform zu erhalten, geht man wie folgt vor: 1. Setze i := 1 (Zeilenindex) und j := 1 (Spaltenindex). 2. Falls i = m und j = n, dann Stop. 3. Falls aij 6= 0, dann ”eliminiere xi aus den Gleichungen i+1, ..., m”, d.h. a benutze die Transformation TE3 mit c = − akj für alle k = i + 1, ..., m. ij Setze i := i + 1, j := j + 1 und wiederhole Schritt 2. 4. Falls aij = 0, aber ein k ∈ {i + 1, ..., m} mit akj 6= 0 existiert, dann tausche mittels Transformation TE4 die Gleichung i mit Gleichung k und gehe zu 2. 5. Falls akj = 0 für alle k = i, ..., m, so setze j := j + 1 und gehe zu 2. Anmerkung: • Wir haben bei der Beschreibung des Eliminationsverfahrens stillschweigend nach jeder Transformation die Einträge der transformierten Matrix wieder mit (aij ) bezeichnet. • Damit wir die Lösungsmenge von Ax = b nicht ändern, müssen wir die Transformationen von A auch für b vornehmen, d.h. nicht nur T A sondern auch T b berechnen. Dies realisiert man praktischer Weise, indem man die Matrix A0 := (A|b) transformiert, also jeweils T A0 berechnet. Bemerkung: Sei Ā eine Matrix in Zeilenstufenform (4.2). Dann gilt für das LGS Āx = b̄: • Es ist genau dann lösbar, wenn b̄i = 0 für alle i = ` + 1, ..., m. • Die Lösungen x lassen sich einfach durch Rückwärtseinsetzen in die Gleichungen `, ` − 1, ..., 2, 1 bestimmen: (i) Man wählt xk` +1 , ..., xn beliebig und bestimmt xk` aus der `-ten Gleichung, d.h. xk` = 1 ā`,k` (b̄` − ā`,k` +1 xk` +1 − ... − ā`,n xn ) 82 (ii) Man wählt xk`−1 +1 , ..., xk` −1 beliebig und bestimmt xk` −1 aus der (` − 1)-ten Gleichung, d.h. xk`−1 = 1 ā`−1,k`−1 (b̄`−1 − ā`−1,k`−1 +1 xk`−1 +1 − ... − ā`−1,k` −1 xk` −1 ). (iii) Man setzt dies analog von unten nach oben bis zur 1. Zeile fort. Beispiel: Wir wollen alle Lösungen des LGSs 2x1 + x2 − x3 + x5 x1 − 2x2 + 2x3 − x4 4x1 − x4 x2 − x3 + 2x5 =3 =0 =3 =2 bestimmen. Wir haben 2 1 A0 = (A|b) = 4 0 1 −1 0 1 3 −2 2 −1 0 0 . 0 0 −1 0 3 1 −1 0 2 2 Als erstes haben wir a11 = 2 6= 0. Wir eliminieren nun die Nicht-NullElemente der 1. Spalte unterhalb von a11 . Dies erreichen wir mit TE3 , d.h. wir addieren das (− 12 )-fache der 1. Zeile zur 2. Zeile und wir addieren das (−2)-fache der 1. Zeile zur 3. Zeile (kurz: Z2 → Z2 − 12 Z1 und Z3 → Z3 −2Z1 ). Wir erhalten so 2 1 −1 0 1 3 5 −1 − 12 − 32 0 − 52 2 0 −2 2 −1 −2 −3 0 1 −1 0 2 2 Jetzt finden wir a22 = − 25 6= 0 und eliminieren die Nicht-Null-Elemente der 2. Spalte unterhalb von a22 . Dies erreichen wir wieder mittels TE3 , genauer mit Z3 → Z3 − 54 Z2 und Z4 → Z4 + 52 Z2 : 2 1 −1 0 1 3 0 − 5 5 −1 − 1 − 3 2 2 2 2 0 0 0 − 15 − 58 − 95 7 0 0 0 − 52 95 5 83 Jetzt ist a33 = 0 und auch alle Elemente unterhalb von a33 . Daher wandern wir einfach in Zeile 3 zur nächsten Spalte, also Spalte 4. 3 2 1 −1 0 1 0 −5 5 −1 − 12 − 32 2 2 1 8 9 0 −5 −5 −5 0 0 7 9 0 0 0 − 52 5 5 Wir sehen, dass a34 = − 51 6= 0 und eliminieren nun alle Elemente der 4. Spalte unterhalb von a34 . Mittels Z4 → Z4 − 2Z3 : 3 2 1 −1 0 1 0 − 5 5 −1 − 1 − 3 2 2 2 2 0 0 0 − 51 − 58 − 95 0 0 0 0 5 5 Nun haben wir die Matrix A in Zeilenstufenform und das LGS 2x1 +x2 −x3 +x5 = − 25 x2 + 52 x3 −x4 − 12 x5 = − 15 x4 − 58 x5 = 5x5 = wir müssen nur noch 3 − 32 − 95 5 lösen. Dies können wir ganz einfach Einsetzen von unten nach oben: Aus der 4. Gleichung folgt sofort x5 = 1. Dies setzen wir in die 3. Gleichung ein und erhalten 9 8 x4 = −5(− + · 1) = 1. 5 5 Damit auch die 2. Gleichung erfüllt ist, können wir x3 beliebig wählen (etwa x3 := a ∈ R) und es ergibt sich 2 3 5 1 x2 = − (− − a + 1 + · 1) = a. 5 2 2 2 Schießlich ergibt aus der 1. Gleichung 1 x1 = (3 − a + a − 1) = 1. 2 84 Somit lauten die Lösungen unseres LGSs: 1 a x= a , 1 1 wobei a ∈ R beliebig ist. Dieses lineare Gleichungssystem hat offenbar unendlich viele Lösungen. Schauen wir uns noch ein weiteres Beispiel an: x1 + 2x2 = 0 x1 − x2 = 2 2x1 − x2 = c mit c ∈ R. Wir betrachten 1 1 2 2 0 −1 2 −1 c Durch Elimination Z2 → Z2 − Z1 und Z3 → Z3 − 2Z1 erhalten wir 1 2 0 0 -3 2 0 −5 c Die Elimination Z3 → Z3 − 53 Z2 liefert 1 2 0 0 -3 2 . 0 0 c − 10 3 Dies entspricht dem LGS x1 + 2x2 = 0 −3x2 = 2 0=c− 10 3 Offenbar besitzt das LGS nur dann eine Lösung, falls c = 10 . In diesem Fall 3 lautet die Lösung (ermittelt durch Einsetzen von unten nach oben): 2 x2 = − , 3 85 4 x1 = . 3 Nach Konstruktion der Gaußschen Eliminationsverfahrens erhalten wir allgemein folgenden Satz. Lemma 4.18. Mit dem Gaußschen Eliminationsverfahren erhält man ein LGS Āx = b̄ mit Lös(A, b) = Lös(Ā, b̄), wobei Ā = T̄ A, b̄ = T̄ b und T̄ = T` T`−1 · · · T2 T1 , Ti ∈ {TE3 , TE4 } für i = 1, ..., `. Dabei besitzt Ā Zeilenstufenform. Zudem liefert das Gaußsche Eliminationsverfahren die Faktorisierung A = LU mit −1 −1 L = T1−1 T2−1 · · · T`−1 T` , U = Ā. Somit können wir mit Hilfe des Gaußschen Eliminationsverfahrens jedes lineare Gleichungssystem lösen. Zudem ist sofort klar, dass ein LGS Āx = b̄ mit Ā ∈ M (m × n, K) in Zeilenstufenform für beliebige rechte Seiten b genau dann eine eindeutige Lösung besitzt, wenn m = n und a11 ∗ ... ∗ ∗ 0 a22 ... ∗ ∗ .. .. . . .. .. (4.3) Ā = . . . . . 0 0 ... an−1,n−1 ∗ 0 0 ... 0 ann mit aii 6= 0 für alle i = 1, ..., n. Wir nennen eine solche Matrix auch obere Dreiecksmatrix. Aus Satz 4.16 folgt damit unmittelbar: Satz 4.19. Eine Matrix A ist genau dann invertierbar, wenn A mittels GaußAlgorithmus auf eine obere Dreiecksmatrix führt, wobei die Diagonalelemente verschieden von Null sind. Die Inverse einer invertierbaren Matrix lässt sich daher ganz leicht bestimmen: Sei A ∈ M (n × n, K) invertierbar (man nennt solche Matrizen übrigens auch regulär und nicht invertierbare Matrizen singulär). Dann gilt nach Definition AA−1 = I Schreibt man A−1 = v1 v2 ... vn , 86 d.h. v1 ,...,vn seien die Spaltenvektoren von A−1 . Dann sind die vi gerade die Lösungen von Avi = ei mit dem i-ten Einheitsvektor ei für i = 1, ..., n. Nun können wir also jede Spalte von A−1 durch Lösen eines LGSs bestimmen. Am schnellsten geht dies, wenn wir dies mit dem Gaußschen Eliminationsverfahren parallel berechnen, d.h. das Eliminationsverfahren nicht nur auf (A|ei ) sondern gleich auf (A|I) anwenden. Beispiel: 1 2 A= 3 4 Wir schreiben zunächst 1 2 1 0 3 4 0 1 . Mittels Elimation Z2 → Z2 − 3Z1 erhalten wir 1 2 1 0 . 0 −2 −3 1 (4.4) Nun erhält man durch Auflösen von 1 2 1 0 −2 −3 und 1 2 0 0 −2 1 gerade die Vektoren von A−1 , d.h. A −1 = −2 3 2 1 . − 21 . Den Prozess des Auflösens pro Spalte kann man sich erleichtern, indem man erneut einen Eliminationsprozess durchführt, diesmal als Elimination von unten nach oben, d.h. man beginnt rechts unten und erzeugt Nullen oberhalb 87 der Diagonalen durch geeignete Elimination. Gehen wir dazu nochmal zu (4.4) zurück 1 2 1 0 . 0 −2 −3 1 Mittels Elimination Z1 → Z1 + Z2 erhalten wir 1 0 −2 1 . 0 −2 −3 1 Multiplizieren wir nun noch die 2. Zeile mit − 12 , so dass links die Einheitsmatrix steht, so erhalten wir 1 0 −2 1 . 0 1 32 − 21 Offenbar erhalten wir auf diese Weise auf der rechten Seite genau die Inverse von A. Der Gauß-Algorithmus ist auch sehr hilfreich zur Bestimmung des Ranges einer Matrix. Lemma 4.20. Die elementaren Zeilentransformationen (E1)-(E4) ändern den Rang einer Matrix nicht. Da die Zeilentransformationen nur Matrixmultiplikationen mit invertierbaren Matrizen T darstellen, folgt obiges Lemma sofort aus folgendem Hilfssatz. Lemma 4.21. Sei A ∈ M (m × n, K) und seien T ∈ M (m × m, K) sowie S ∈ M (n × n, K) invertierbar. Dann gilt rank (T A) = rank (A) = rank (AS). Beweis: (i) Sei {v1 , ..., vk } eine Basis von im A. Dann ist {T v1 , ..., T vk } offenbar ein Erzeugendensystem von im (T A), denn jedes w ∈ im (T A) lässt sich schreiben als w = T Av = T (Av) = T ( k X i=1 ci vi ) = k X ci (T vi ). i=1 Angenommen, {T v1 , ..., T vk } wäre linear abhängig. Dann wäre nach Satz 4.2 (iii) auch {T −1 (T v1 ), ..., T −1 (T vk )} = {v1 , ..., vk } linear abhängig. Da dies aber nach Voraussetzung eine Basis ist, so ist {T v1 , ..., T vk } linear unabhängig und damit auch eine Basis von im (T A). Damit erhalten wir rank (T A) = k = rank (A). 88 (ii) Wir zeigen, dass im A = im (AS). Offenbar gilt stets im A ⊇ im (AS). Sei nun z ∈ im A beliebig. Dann existiert ein v mit z = Av und es gilt z = AS(S −1 v) ∈ im (AS). Somit gilt im A = im (AS) und daher auch rank (A) = rank (AS). 2 Für eine beliebige Matrix A gilt also rank (A) = rank (Ā), wobei Ā die Matrix in Zeilenstufenform (4.2) ist, die sich mittels GA (GaußAlgorithmus) ergibt. Offenbar sind die Spalten k1 ,...,k` von Ā linear unabhängig und alle anderen Spalten von Ā Linearkombinationen der Spalten k1 ,...,k` . Somit gilt rank (A) = rank (Ā) = `. Beispiel: Sei 1 −1 0 0 2 −1 0 2 A= 5 0 2 1 8 −2 2 3 Wir bringen nun die Matrix A mittels GA auf Zeilenstufenform: Z2 →Z2 −2Z1 Z3 →Z3 −5Z1 A Z3 →Z3 −5Z2 Z4 →Z4 −6Z2 =⇒ Z4 →Z4 −8Z1 =⇒ 1 −1 0 0 0 3 0 2 0 5 2 1 0 6 2 3 1 −1 0 0 0 1 0 2 Z4 →Z4 −Z3 0 0 2 −9 =⇒ 0 0 2 −9 1 −1 0 0 0 1 0 2 0 0 2 −9 = Ā 0 0 0 0 Somit gilt rank (A) = rank (Ā) = 3. Schließlich erhalten wir mit Hilfe des Gaußschen Eliminationsverfahrens auch noch folgenden wichtigen Satz. Satz 4.22. Sei A ∈ M (m×n, K) beliebig. Dann stimmen Zeilenrang(A) und Spaltenrang(A) überein. 89 Beweis: Sei Ā die Matrix in Zeilenstufenform (4.2), die sich mittels GA ergibt. Wir wissen schon, dass rank (Ā) = `, d.h. Spaltenrang(Ā) = `. Offenbar sind aber auch die Zeilen 1, ..., ` linear unabhängig und damit Zeilenrang(Ā) = `. Wenn wir nun noch beachten, dass Ā = T A, wobei T eine reguläre Matrix ist, so erhalten wir mit nachfolgendem Lemma 4.23, dass Spaltenrang(A) = rank (A) = rank (T A) = rank (Ā) = Spaltenrang(Ā) = Zeilenrang(Ā) = Spaltenrang(ĀT ) = rank (ĀT ) = rank (AT T T ) = rank (AT ) = Zeilenrang(A). 2 Lemma 4.23. Seien A ∈ M (m × n, K), B ∈ M (n × k, K). Dann gilt (i) (AB)> = B > A> (ii) Falls A und B invertierbar sind, so ist auch AB invertierbar und es gilt (AB)−1 = B −1 A−1 . −1 (iii) Falls A invertierbar ist, so ist auch A> invertierbar und es gilt (A> ) > (A−1 ) . Beweis: (i) Übungsaufgabe (ii) Sei M := B −1 A−1 . Dann erhalten wir (AB)M = ABB −1 A−1 = AIn A−1 = AA−1 = In und M (AB) = B −1 A−1 AB = B −1 In B = B −1 B = In . > (iii) Sei M := (A−1 ) . Dann haben wir unter Verwendung von (i), dass A> M = A> (A−1 )> = (A−1 A)> = In> = In und M A> = (A−1 )> A> = (AA−1 )> = In> = In . 90 = 2 Wir kommen nochmal zur Lösung linearer Gleichungssysteme zurück und analysieren die allgemeine Struktur des Lösungsraumes Lös(A, b). Definition 4.24. Ein lineares Gleichungssystem Ax = b heißt homogen, falls b = 0. Andernfalls heißt es inhomogen. Lemma 4.25. Sei A ∈ M (m × n, K). Dann gilt (i) Die Lösungen des homogenen LGS Ax = 0 bilden einen Vektorraum. (ii) Die Lösungen des inhomogenen LGS Ax = b mit b 6= 0 bilden keinen Vektorraum. Beweis: (i) Offenbar ist die Menge aller Lösungen von Ax = 0 gerade der Kern von A. Da ker(A) ein Vektorraum ist, so folgt die Behauptung. (ii) Seien x1 und x2 Lösungen von Ax = b. Dann gilt A(x1 + x2 ) = Ax1 + Ax2 = b + b = 2b. Da b 6= 0, so gilt offenbar nicht A(x1 + x2 ) = b, d.h. x1 + x2 ist keine Lösung von Ax = b. 2 Satz 4.26. (Lösungsraumdarstellung linearer Gleichungssysteme) Sei A ∈ M (m × n, K) und xs eine (spezielle) Lösung von Ax = b. Dann gilt Lös(A, b) = {x = xs + xh | xh ∈ ker A} = xs + ker A. Man definiert daher dimK Lös(A, b) := dimK ker A und erhält dimK Lös(A, b) = n − rank A. Beweis: (⊇) Sei x = xs + xh mit xh ∈ ker A. Dann gilt Ax = A(xs + xh ) = Axs + Axh = b + 0 = b. (⊆) Sei Ax = b und xh := x − xs . Dann gilt Axh = A(x−xs ) = Ax−Axs = b−b = 0, d.h. xh ∈ ker A und x = xs +xh . 91 Der Dimensionssatz 4.13 liefert dimK ker A = n − rank A und somit dimK Lös(A, b) = n − rank A. 2 Sei A ∈ M (m × n, K) und durch Gauß-Elimination in eine Matrix Ā ∈ M (m × n, K) in Zeilenstufenform (4.2) transformiert. Dann lässt sich Ā mittels elementarer Zeilentransformationen weiter in eine Matrix  der Gestalt 0 ... 0 | a1k1 ... ∗ 0 ... ∗ 0 ... ∗ 0 ... ∗ − − 0 ... 0 − 0 ... 0 | a2k2 ... ∗ 0 ... ∗ 0 ... ∗ − − − .. . |ai,ki − − −  = 0 ... 0 0 ... 0 0 ... 0 0 ... 0 | a`k` ... ∗ − − − 0 ... 0 0 ... 0 0 ... 0 0 ... 0 0 ... 0 . . .. .. 0 ... 0 0 ... 0 0 ... 0 0 ... 0 0 ... 0 umformen. D.h., wir haben alle Elemente oberhalb der Pivotelemente ai,ki eliminiert. Mittels Zeilenskalierung, d.h. mittels der elementarer Transformationen vom Typ (E1) erhalten wir eine Matrix in reduzierter Zeilenstufenform 0 ... 0 | 1 ... ∗ 0 ... ∗ 0 ... ∗ 0 ... ∗ − − 0 ... 0 − 0 ... 0 | 1 ... ∗ 0 ... ∗ 0 ... ∗ − − − .. . |1 − − − à = | 1 ... ∗ (4.5) 0 ... 0 0 ... 0 0 ... 0 0 ... 0 − − − 0 ... 0 0 ... 0 0 ... 0 0 ... 0 0 ... 0 . . . . . . 0 ... 0 0 ... 0 0 ... 0 0 ... 0 0 ... 0 Bemerkung: Ist A invertierbar, so ist die reduzierte Zeilenstufenform von A gleich der Einheitsmatrix I. Satz 4.27. Sei A ∈ M (m × n, K) und durch Gauß-Algorithmus in eine Matrix à in reduzierter Zeilenstufenform gebracht. Dann gilt (i) ker A = ker à 92 (ii) Die Menge B := {vj | j ∈ / {k1 , ..., k` }} mit falls k = j 1, (vj )k = 0, falls k 6= j und k ∈ / {k1 , ..., k` } −ãmj , falls k = km und m ∈ {1, ..., `} bildet eine Basis von ker A = ker Ã. Beweis: (i) Aufgrund von Lemma 4.18 wissen wir, dass Lös(A, 0) = Lös(Ã, 0), d.h. ker A = ker Ã. (ii) Da à in reduzierter Zeilenstufenform vorliegt, so gilt für die Einträge in den Spalten k1 , ..., k` , dass ( 1, falls i = m aikm = 0, falls i 6= m Wir zeigen nun, dass vj ∈ ker A für alle Vektoren vj von B. Nach Definition der Vektoren von B erhalten wir für den i-ten Eintrag von Avj (Avj )i = n X aik (vj )k k=1 n X = aij · 1 + k=1 aik · 0 + ` X m=1 aikm · (−amj ) k6=j,k∈{k / 1 ,...,k` } = aij + 0 + [1 · (−aij ) + ` X m=1 0 · (−amj )] m6=i = aij − aij = 0. Nach Satz 4.13 wissen wir, dass dimK ker à = n − rank (Ã). Zudem sieht man sofort, dass rank (Ã) = `, wenn man beachtet, dass der Spaltenrang stets gleich dem Zeilenrang einer Matrix ist. Somit gilt dimK ker à = n − `. Außerdem besitzt B per Konstruktion genau n − ` Vektoren. Somit ist B eine Basis von ker Ã. 2 93 Beispiel: Sei 1 − 0 à = 0 0 0 2 0 − 0 |1 − 0 0 0 0 0 0 4 5 0 0 8 3 -1 0 0 -2 − − 0 0 | 1 0 -3 − 0 0 0 |1 4 − − 0 0 0 0 0 Dann bildet die Menge ∗ ∗ ∗ ∗ 1 0 0 0 ∗ ∗ ∗ ∗ 0 1 0 0 B = {v2 , v4 , v5 , v8 } = { 0 , 0 , 1 , 0} ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ 0 0 0 1 mit Ãvj = 0 für j ∈ {2, 4, 5, 8} eine Basis von ker Ã. Dies beruht darauf, dass die Komponenten x2 , x4 , x5 und x8 frei wählbar sind, während die Komponenten zu den Spalten mit den führenden Einsen von à (hier x1 , x3 , x6 und x7 ) eindeutig bestimmt sind (in Abhängigkeit von der Wahl von x2 , x4 , x5 und x8 ). Dabei sind die ∗-Einträge aus der Matrix à gerade die fett gedruckten Einträge von à mit einem Minus davor: -2 -4 -5 -8 1 0 0 0 0 -3 1 2 0 1 0 0 B = { 0 , 0 , 1 , 0 }. 0 0 0 3 0 0 0 -4 0 0 0 1 Nun wissen wir mit Satz 4.26 und Lemma 4.27, wie wir alle Lösungen eines beliebigen linearen Gleichungssystems bestimmen können. Beispiel: Wir suchen alle Lösungen x des Systems Ax = b mit 1 2 0 4 8 A = 0 1 −1 0 , b = 2 . 2 0 3 1 2 94 Wir transformieren das 1 2 0 4 0 1 −1 0 2 0 3 1 System mittels GA in Zeilenstufenform: 8 8 1 2 0 4 Z3→Z3−2Z1 0 1 −1 0 2 2 ⇒ 2 0 −4 3 −7 −14 8 1 2 0 4 Z3→Z3+4Z2 0 1 −1 0 2 ⇒ 0 0 −1 −7 −6 Nun transformieren wir es mit dem GA von unten nach oben in reduzierte Zeilenstufenform: 8 1 2 0 4 1 2 0 4 8 Z3→−Z3 0 1 −1 0 2 ⇒ 0 1 −1 0 2 0 0 −1 −7 −6 0 0 1 7 6 1 2 0 4 8 Z2→Z2+Z3 0 1 0 7 8 ⇒ 0 0 1 7 6 1 0 0 -10 −8 Z1→Z1−2Z2 0 1 0 7 8 ⇒ 6 0 0 1 7 Damit erhalten wir als spezielle Lösung (die frei wählbaren Komponenten hier nur x4 - werden auf Null gesetzt): −8 8 xs = 6 0 und den Nullraum (hier wird die frei wählbare Komponente x4 auf Eins gesetzt) 10 -7 ker A = L({ -7 }). 1 Alle Lösungen x haben also die Form −8 10 8 −7 x= 6 + c −7 0 1 95 mit c ∈ R. Der nächste Satz gibt noch Auskunft darüber, wann ein Gleichungssystem überhaupt eine Lösung besitzt. Satz 4.28. (Lösbarkeitskriterium) Sei A ∈ M (m × n, K) und b ∈ K m . Dann besitzt das LGS Ax = b genau dann eine Lösung x ∈ K n , wenn rank (A | b) = rank (A). Beweis: Der Vektor x ist eine Lösung von Ax = b genau dann, wenn b ∈ L({a1 , ..., an }), wobei a1 , ..., an die Spaltenvektoren von A sind. Dies ist aber äquivalent dazu, dass L({a1 , ..., an }) = L({a1 , ..., an , b}), d.h. im A = im (A | b). Da für alle z ∈ K n z Az = A b 0 gilt, so wissen wir, dass stets im A ⊆ im (A | b). Somit gilt im A = im (A | b) genau dann, wenn dimK (im A) = dimK (im (A | b)), d.h. rank (A) = rank (A | b). 2 Beispiel: Wir suchen alle Lösungen b ∈ R3 , so dass das System Ax = b mit 1 −1 1 0 A = 1 1 −1 2 3 1 −1 4 lösbar ist. Wir transformieren 1 −1 1 1 1 −1 3 1 −1 das System (A | b) mittels GA in Zeilenstufenform: b1 1 −1 1 0 0 b1 Z →Z −Z 2 b2 2 ⇒2 1 0 2 −2 2 b2 − b1 4 b3 3 1 −1 4 b3 1 0 1 0 b1 Z3 →Z3 −3Z1 0 2 −2 2 b2 − b1 ⇒ 0 4 −4 4 b3 − 3b1 1 0 1 0 b1 Z3 →Z3 −2Z2 0 1 −3 2 b2 − b1 ⇒ 0 0 0 0 b3 − b1 − 2b2 96 Offenbar gilt rank (A | b) = rank (A) genau dann, wenn b3 − b1 − 2b2 = 0. Bemerkung: Sei A ∈ M (m × n, K). Man kann eine Basis von im A leicht dadurch bestimmen, dass man die Matrix A mit Hilfe von Spaltenelimination und Vertauschung von Spalten in Spaltenstufenform bringt. Eine Spaltenelimination von A entspricht gerade einer Zeilenelimination von AT . Mit Spaltenstufenform Ā ist gemeint, dass ĀT Zeilenstufenform besitzt. Schließlich bilden alle Nicht-Null-Spalten von Ā in Spaltenstufenform eine Basis von im A. Beispiel: Wir suchen eine Basis von im 1 −1 A= 1 1 3 1 A mit 1 0 −1 2 −1 4 Wir transformieren das System (A | b) mittels GA für die Spalten in Spaltenstufenform: 1 −1 1 0 1 0 1 0 +S 1 1 −1 2 S2 →S ⇒2 1 1 2 −1 2 3 1 −1 4 3 4 −1 4 1 0 0 0 S3 →S3 −S1 1 2 −2 2 ⇒ 3 4 −4 4 1 0 0 0 S3 →S3 +S2 , S4 →S4 −S2 1 2 0 0 ⇒ 3 4 0 0 Somit ist 1 0 {1 , 2} 3 4 eine Basis von im A. 4.4 Darstellungsmatrizen und Basiswechsel Matrizen sind nicht nur ein bequemes Mittel zur Beschreibung linearer Abbildungen vom K n in den K m . Man kann sie auch für beliebige lineare Abbildungen in Vektorräumen nutzen. 97 Satz 4.29. Seien V , W zwei K-Vektorräume. Sei weiter A = {v1 , ..., vn } eine Basis von V und B = {w1 , ..., wm } eine Basis von W . Dann gibt es zu jedem f ∈ HomK (V, W ) genau eine Matrix Mf = (aij ) ∈ M (m × n, K), so dass m X f (vj ) = aij wi ∀ j = 1, ..., n. i=1 Die dadurch definierte Abbildung MBA : HomK (V, W ) → M (m × n, K) f 7→ Mf ist ein Isomorphismus. Man nennt MBA (f ) die Abbildungsmatrix oder die Darstellungsmatrix von f bezüglich der Basen A und B. Beweis: Sei f ∈ HomK (V, W ). Da B eine Basis ist, so sind die Koeffizienten aij eindeutig durch f (vj ) festgelegt und damit ist die Matrix Mf wohldefiniert. Wir zeigen die Behauptung in 3 Schritten: (i) MBA ist linear, (ii) MBA ist injektiv, (iii) MBA ist surjektiv. zu (i) Sei λ ∈ K. Dann haben wir für (cij ) := MBA (λf ), dass m X cij wi = (λf )(vj ) = λf (vj ) = λ i=1 m X aij wi = i=1 m X (λaij )wi , i=1 d.h. MBA (λf ) = λMBA (f ). Sei nun g ∈ HomK (V, W ) und Mg = (bij ) die zugehörige Darstellungsmatrix. Dann gilt für (cij ) := MBA (f + g), dass m X cij wi = (f + g)(vj ) = f (vj ) + g(vj ) i=1 = m X i=1 aij wi + m X bij wi = i=1 m X (aij + bij )wi , i=1 d.h. MBA (f + g) = MBA (f ) + MBA (g). zu (ii) Sei MBA (f ) = MBA (g). Da MBA linear ist, so heißt dies, dass MBA (f − g) = 0, d.h. für alle j = 1, ..., n gilt (f − g)(vj ) = O. Dies bedeutet ∀ j = 1, ..., n : f (vj ) = g(vj ). Da f und g linear sind und A = {v1 , ..., vn } eine Basis von V ist, so gilt f = g. 98 zu (iii) Sei (aij ) ∈ M (m × n, K) gegeben. P Dann definieren wir eine Abbildung f : V → W wie folgt: Sei v = nj=1 cj vj ∈ V beliebig und f (v) := n X cj m X j=1 aij wi . i=1 Dann gilt offenbar für alle j = 1, ..., n, dass f (vj ) := m X aij wi i=1 und somit MBA (f ) = (aij ). Es bleibt zu zeigen, dass f linear ist. Sei λ ∈ K. Dann gilt: f (λv) = n X (λcj ) j=1 Sei v̄ = Pn j=1 c̄j vj f (v + v̄) = = n X aij wi = λ j=1 n X cj j=1 n X aij wi = λf (v). j=1 ∈ V . Dann haben wir n n X X (cj + c̄j ) aij wi j=1 n X j=1 j=1 cj n X aij wi + j=1 n X j=1 c̄j n X aij wi = f (v) + f (v̄). j=1 2 Man kann also jede lineare Abbildung in endlich-dimensionalen Vektorräumen mit ihrer Abbildungsmatrix eindeutig identifizieren. Beispiele: 1. Sei f : R3 → R2 definiert durch x x + 2y f( y ) = 3x + y + 4z z Dann ergibt sich als Darstellungsmatrix MBA (f ) für die Standardbasen 1 0 0 1 0 A := { 0 , 1 , 0 }, B := { , } 0 1 0 0 1 99 gerade MBA (f ) 1 2 0 = . 3 1 4 Für die Basen 1 1 0 A := {1 , 0 , 2}, 2 3 0 1 2 B := { , } 1 1 erhalten wir 1 3 2 1 f( 1 ) = = −9 + 21 , 12 1 1 2 1 1 2 1 f( 0 ) = = −14 + 29 , 15 1 1 3 0 4 2 1 f (2) = =2 +0 . 2 1 1 0 und somit MBA (f ) −9 −14 2 = . 21 29 0 2. Die identische Abbildung f : V → V mit f (v) = v ergibt für jede Basis B von V mit dimK (V ) = n als darstellende Matrix die Einheitsmatrix (engl.: identity matrix) 1 0 ... 0 0 1 ... 0 MBB (f ) = . . . . =: I. .. .. . . .. 0 0 ... 1 | {z } n Spalten 3. Sei f : Kn [x] → Kn−1 [x] die lineare Abbildung mit f (p) = p0 , d.h. p0 [x] = a1 + a2 x + ... + an xn−1 für p[x] = a0 + a1 x + ... + an xn , wobei Kn [x] die Menge aller Polynome vom Grad ≤ n mit Koeffizienten aus K ist. Wir betrachten nun die Basen A = {1, x, x2 , ..., xn }, 100 B = {1, x, x2 , ..., xn−1 }. Dann erhalten wir f (1) = 0, f (x) = 1, f (x2 ) = 2x, f (x3 ) = 3x2 , ..., f (xn ) = nxn−1 und somit 0 ... 0 0 ... 0 3 ... 0 . .. .. . . 0 0 0 0 ... n 0 0 MBA (f ) = 0 .. . 1 0 0 .. . 0 2 0 .. . Satz 4.30. Seien V , W zwei K-Vektorräume und f ∈ HomK (V, W ). Seien A = {v1 , ..., vn }, B = {w1 , ..., wm } Basen von V bzw. W . Dann gilt: (i) f ist ein Monomorphismus ⇔ rank (MBA (f )) = n. (ii) f ist ein Epimorphismus ⇔ rank (MBA (f )) = m. (iii) f ist ein Isomorphismus ⇔ rank (MBA (f )) = m = n. Beweis: Wir zeigen, dass rank (f ) = rank (MBA (f )). Dann folgt aus Satz 4.13 (Dimensionssatz für lineare Abbildungen), dass def(f ) = n − rank (MBA (f )) und damit alle Behauptungen des Satzes. Man beachte, dass def(f ) = 0 für Monomorphismen und rank (f ) = m für Epimorphismen. Es gilt rank (f ) = dimK (im (f )) = dimK L({f (v1 ), ..., f (vn )}) (4.6) und außerdem für MBA (f ) = (aij ) a11 a1n rank (MBA (f )) = dimK L({ ... , ..., ... }) am1 amn = dimK L({ϕB (f (v1 )), ..., ϕB (f (vn ))}) (4.7) wobei ϕB : W → K m die Koordinatenabbildung ist. Da die Koordinatenabbildung ϕB linear und bijektiv (also ein Isomorphismus) ist, so gilt mit Satz 4.8, dass dimK L({ϕB (f (v1 )), ..., ϕB (f (vn ))}) = dimK L({f (v1 ), ..., f (vn )}) Setzen wir nun (4.6) und (4.7) ein, so ergibt sich die Behauptung. 2 Bemerkung: Man merke sich: Für lineare Abbildungen f ∈ HomK (V, W ) gilt rank (f ) = rank (MBA (f )). 101 Satz 4.31. Sei A ∈ M (m × n, K). (i) A besitzt eine rechtsinverse Matrix genau dann, wenn rank (A) = m. (ii) A besitzt eine linksinverse Matrix genau dann, wenn rank (A) = n. (iii) A besitzt eine inverse Matrix genau dann, wenn rank (A) = m = n. Beweis: Sei f : K n → K m die lineare Abbildung x 7→ Ax. 1. Wenn A eine rechtsinverse Matrix B besitzt, dann ist f ein Epimorphismus, denn für alle w ∈ K m gilt: w = ABw = Av für v := Bw ∈ K n . Wenn f ein Epimorphismus ist, dann besitzt A eine rechtsinverse Matrix B ∈ M (n × m, K). Denn für jedes ei ∈ K m der Standardbasis {e1 , ..., em } von K m finden wir ein vi ∈ K n mit ei = f (vi ). Nun stellen wir jedes vi in der Standardbasis {ẽ1 , ..., ẽn } von K n dar, d.h. vi = n X vji ẽj . j=1 Für B := (vji ) j=1,...,n gilt nun für alle i = 1, ..., m: i=1,...,m ABei = A n X vji ẽj = Avi = f (vi ) = ei j=1 und somit AB = Im . 2. Wenn A eine linksinverse Matrix B besitzt, dann ist f ein Monomorphismus, denn für alle v ∈ K n mit f (v) = Av = 0 gilt: v = BAv = 0. Wenn f ein Monomorphismus ist, dann besitzt A eine linksinverse Matrix B. Denn dann ist {w1 , ..., wn } mit wi := f (ei ), i = 1, ..., n linear unabhängig und wir können diese zu einer Basis {w1 , ..., wm } von K m ergänzen. Die Basisdarstellung ẽj = m X i=1 bij wi ∈ K m ∀j = 1, ..., m liefert uns ein B = (bij ) i=1,...,n mit j=1,...,m BAei = Bf (ei ) = Bwi = ei 102 ∀ i = 1, ..., n. (4.8) Die letzte Gleichung P ist klar, wenn man beachtet, dass mit der Basisdarstellung wi = m k=1 wki ẽk aus (4.8) folgt: ( m X 1, falls i = j bjk wki = δji := 0, sonst k=1 und somit m m m n n X X X X X Bwi = B( wki ẽk ) = wki Bẽk = wki bjk ej = δji ej = ei . k=1 k=1 k=1 j=1 j=1 Schließlich erhalten wir BA = In . Die Behauptung folgt nun unmittelbar aus Satz 4.30. 4.5 2 Spezielle Klassen quadratischer Matrizen Definition 4.32. Sei K ein Körper der Charakteristik 0 (z.B. R, C oder Q). Sei A = (aij ) ∈ M (n × n, K). Dann heißt A (i) symmetrisch, falls A = AT . (ii) obere Dreiecksmatrix, falls aij = 0 für i > j. (iii) untere Dreiecksmatrix, falls aij = 0 für i < j. (iv) Diagonalmatrix, falls aij = 0 für i 6= j. (v) Permutationsmatrix, falls in jeder Spalte und in jeder Zeile von A genau eine Eins und ansonsten Nullen stehen. (vi) Projektor, falls A2 = A. (vii) nilpotent, falls es ein k ∈ N gibt, so dass Ak = 0. Die kleinste natürliche Zahl k mit dieser Eigenschaft heißt der Nilpotenzindex von A. (viii) hermitesch, falls K = C und A = ĀT , wobei Ā = (āij ) die konjugiert komplexe Matrix von A ist. (ix) für K = R: • positiv definit, falls xT Ax > 0 für alle x ∈ Rn \{0}, • positiv semidefinit, falls xT Ax ≥ 0 für alle x ∈ Rn , 103 • negativ definit, falls xT Ax < 0 für alle x ∈ Rn \{0}, • negativ semidefinit, falls xT Ax ≤ 0 für alle x ∈ Rn . Beispiele: (i) (ii) (iii) (iv) (v) (vi) (vii) (viii) (ix) 1 A= 2 3 1 A= 0 0 1 A = 7 8 3 A = 0 0 0 A= 0 1 1 A= 0 0 0 A = 0 0 2 3 4 5 5 6 4 5 2 3 0 7 0 0 4 0 2 6 0 0 5 0 0 4 1 0 0 1 0 0 ist symmetrisch. ist eine obere Dreiecksmatrix. ist eine untere Dreiecksmatrix. ist eine Diagonalmatrix. ist eine Permutationsmatrix. 0 0 0.5 0.5 ist ein Projektor. 0.5 0.5 1 0 0 1 ist eine nilpotente Matrix mit Nilpotenzindex 3. 0 0 1 1 + i 2 − 3i 4 5 + 2i ist hermitesch. A=1−i 2 + 3i 5 − 2i 6 3 0 −2 0 ist eine positiv definite Matrix, denn A = 2 3 0 −4 5 xT Ax = x1 (3x1 − 2x3 ) + x2 (2x1 + 3x2 ) + x3 (−4x2 + 5x3 ) = 3x21 + 3x22 + 5x23 − 2x1 x3 + 2x1 x2 − 4x2 x3 = (x1 + x2 )2 + (x1 − x3 )2 + (x2 − 2x3 )2 + x21 + x22 + x23 ≥ 0. 104 Die Summe ist offenbar nur gleich Null, falls alle Summanden gleich Null sind, d.h. falls x = 0. Satz 4.33. Sei K ein Körper der Charakteristik 0. Dann gilt (i) M (n × n, K) ist ein nicht kommutativer Ring mit Eins, wobei die Eins gleich der Einheitsmatrix ist. (ii) (GLn (K), ·) ist eine nicht kommutative Gruppe für GLn (K) := {M ∈ M (n × n, K) | M regulär}. (iii) (G , ·) ist eine nicht kommutative Gruppe für G := {M ∈ M (n × n, K) | M regulär und obere Dreiecksmatrix}. (Ḡ , ·) ist eine nicht kommutative Gruppe für Ḡ := {M ∈ M (n × n, K) | M obere Dreiecksmatrix, ∀i = 1, ..., n : mii = 1}. (iv) (G , ·) ist eine nicht kommutative Gruppe für G := {M ∈ M (n × n, K) | M regulär und untere Dreiecksmatrix}. (Ḡ , ·) ist eine nicht kommutative Gruppe für Ḡ := {M ∈ M (n × n, K) | M untere Dreiecksmatrix, ∀i = 1, ..., n : mii = 1}. (v) (GD , ·) ist eine kommutative Gruppe für GD := {D ∈ M (n × n, K) | D regulär und Diagonalmatrix}. (vi) (GP , ·) ist eine nicht kommutative Gruppe für GP := {P ∈ M (n × n, K) | P Permutationmatrix}. Falls P eine Permutationsmatrix ist, so gilt P T = P −1 . Bemerkung 4.34. Die Menge der Projektoren, die Menge der nilpotenten Matrizen, die Menge der hermiteschen Matrizen und die Menge der positiv definiten Matrizen bilden keine Gruppe bezüglich der Multiplikation, auch keine Halbgruppe. 105 Beweis: (i) Wir zeigen zuerst, dass (M (n × n, K), +) eine abelsche Gruppe ist. (a) Per Def. gilt für A, B ∈ M (n × n, K) auch A + B ∈ M (n × n, K). (b) Die Assoziativität folgt direkt aus der Assoziativität der Addition in K. (c) Das neutrale Element ist offenbar die Null-Matrix, d.h. die Matrix N ∈ M (n × n, K), für die alle Einträge gleich Null sind. (d) Das inverse Element von A = (aij ) ∈ M (n × n, K) bezüglich der Addition ist offenbar −A = (−aij ) ∈ M (n × n, K). Wir zeigen nun, dass (M (n × n, K), ·) eine Halbgruppe ist. (a) Per Def. gilt für A, B ∈ M (n × n, K) auch A · B ∈ M (n × n, K). (b) Für den Nachweis der Assoziativität seien A, B, C ∈ M (n×n, K). Dann gilt für D := A · B und E := B · C, dass dil = n X aik bkl , ekj = n X k=1 bkl clj l=1 und somit für F := D · C = (A · B) · C, G := A · E = A · (B · C), dass fij = n X n n X X (aik bkl )clj dil clj = l=1 l=1 k=1 und gij = n X aik ekj = k=1 n X n X aik (bkl clj ) k=1 l=1 Da die Multiplikation in K assoziativ und die Addition in K kommutativ ist, so folgt damit F = G. (c) Das neutrale Element ist offenbar die Einheitsmatrix In . Schließlich zeigen wir noch die Distributivität. Seien A, B, C ∈ M (n × n, K). Dann gilt für D := A · (B + C) und E := A · B + A · C, dass dij = n X aik (bkj + ckj ), k=1 eij = n X k=1 106 aik bkj + n X k=1 aik ckj . Damit haben wir A · (B + C) = D = E = A · B + A · C. Analog gilt (A + B) · C = A · C + B · C. Da die Matrixmultiplikation nicht kommutativ ist, haben wir also einen nicht kommutativen Ring. (ii) Wegen (i) müssen wir nur zeigen, dass AB für A, B ∈ GLn (K) regulär ist und die Multiplikation regulärer Matrizen nicht kommutativ ist. Letzteres ist klar für 1 2 1 0 A= , B= , 0 1 3 1 da 7 2 1 2 AB = 6= BA = . 3 1 3 7 Seien nun A, B ∈ GLn (K) beliebig. Wir definieren C := B −1 A−1 und sehen, dass (AB)C = (AB)B −1 A−1 = A(BB −1 )A−1 = AIA−1 = AA−1 = I und C(AB) = B −1 A−1 (AB) = B(AA−1 )B −1 = BIB −1 = BB −1 = I, d.h. C ist die Inverse von AB. (iii) Seien A = (aij ), B = (bjk ) ∈ G und C = (cik ) := AB. Dann ist C wegen (ii) regulär und es gilt für i < k, dass cik = n X j=1 aij bjk = k−1 X aij bjk + j=1 n X j=k aij bjk = k−1 X j=1 aij · 0 + n X j=k 0 · bjk = 0, d.h. C ∈ G . Die Nicht-Kommutatitivität sieht man z.B. für 1 1 0 1 3 2 A = 0 1 1 , B = 0 1 0 , 0 0 1 0 0 1 da 1 4 2 1 4 5 AB = 0 1 1 6= BA = 0 1 1 . 0 0 1 0 0 1 Die Inverse von einer regulären oberen Dreiecksmatrix erhält man durch Lösung der Gleichungen Axj = ej für alle j = 1, ..., n. 107 durch Rückwärtseinsetzen. Dann sieht man leicht, dass für die Elemente xij des Vektors xj gilt, dass xij = 0 für i > j. Zugleich wird dabei klar, dass xjj = 1, falls ajj = 1. Da A−1 gerade die Spalten xj besitzt, so ist A wieder eine obere Dreiecksmatrix. Zudem sind die Einträge von A−1 auf der Hauptdiagonalen gleich Eins, falls die Einträge von A auf der Hauptdiagonalen gleich Eins sind. (iv) analog zu (iii) (v) Seien A = (aij ), B = (bjk ) ∈ GD . Seien weiter C = (cik ) := AB und D = (dik ) := BA. Dann sind C und D wegen (ii) regulär und es gilt für i 6= k, dass n X cik = aij bjk = aii bik = 0, j=1 da aij = 0 für i 6= j und bik = 0. Analog gilt dik = 0 für i 6= k. Zudem gilt für D = (dik ) := BA, dass dii = n X bij aji = bii aii = aii bii = j=1 n X aij bji = cii . j=1 Somit haben wir D = C. Schließlich gilt A−1 = (cij ) mit cii = a−1 ii und cij = 0 für i 6= j, wenn A = (aij ) invertierbar ist. (vi) Seien A = (aij ) und B = (bjk ) Permutationsmatrizen. Sei C = (cik ) := AB. Sei i fest gewählt. Dann existiert ein ji , so dass aiji = 1 und aij = 0 für alle j 6= ji . Somit gilt cik = n X aij bjk = aiji bji k = bji k . j=1 Nun existiert genau ein ki so, dass bji ki = 1, ansonsten gilt bji k = 0 für k 6= ki . D.h. in der i-ten Zeile von C = AB steht genau eine Eins, ansonsten Nullen. Analog zeigt man, dass jede Spalte genau eine Eins enthält, ansonsten Nullen. Somit ist AB auch eine Permutationsmatrix. Zudem gilt für (dik ) = AT A, dass ( n X 1 für i = k dik = aij akj = aiji akjk = , 0 für i = 6 k j=1 d.h. AT A = I und analog auch AAT = I, d.h. AT = A−1 . Da AT auch eine Permutationsmatrix ist, so gilt dies auch für A−1 . 2 108 5 Determinanten 5.1 Multilineare Abbildungen Seien im folgenden n ≥ 1 und V1 , V2 , ..., Vn sowie W Vektorräume über einem Körper K. Definition 5.1. Eine Abbildung f : V1 × V2 × ... × Vn → W heißt n-linear oder multilinear, falls f in jedem Argument linear ist, d.h. für alle 1 ≤ i ≤ n und für alle (v1 , ..., vn ) ∈ V1 × V2 × ... × Vn gilt: f (v1 , ..., aui + bvi , ..., vn ) = af (v1 , ..., ui , ..., vn ) + bf (v1 , ..., vi , ..., vn ), falls ui ∈ Vi und a, b ∈ K. Zudem definieren wir L(V1 , ..., Vn ; W ) := {f : V1 × V2 × ... × Vn → W | f ist multilinear}. Bemerkung: 1. Falls n = 1, so ist jede 1-lineare Abbildung eine lineare Abbildung und umgekehrt. 2. Falls n = 2, so sagt man anstelle von 2-linear auch bilinear. 3. Falls V1 = V2 = ... = Vn = V , so definieren wir Ln (V, W ) := L(V, ..., V ; W ). 4. Falls V1 = V2 = ... = Vn = V und W = K, so nennt man eine nlineare Abbildung eine n-Linearform oder Multilinearform auf V. Entsprechend heißen die bilinearen Abbildungen von V × V → K Bilinearformen. Beispiel: Sei K = R und V1 = V2 = Rk , W = R. 1. Die Abbildung f : R × R → R mit f (u, v) = u · v ist bilinear, aber nicht linear. 2. Die Abbildung f : Rk × Rk → R mit f (u, v) = u + v ist linear, aber nicht bilinear. 109 3. Das kanonische Skalarprodukt h·, ·i : Rk × Rk → R mit T hu, vi := u v = k X uj vj j=1 ist eine Bilinearform. Satz 5.2. Sei für jedes 1 ≤ j ≤ n die Menge Uj = {u1j , u2j , ..., urj j } eine Basis von Vj . Dann sind zwei n-lineare Abbildungen f, g : V1 × ... × Vn → W genau dann gleich, wenn ihre Funktionswerte für alle Basistupel (ui1 1 , ..., uin n ) ∈ V1 ×...×Vn mit 1 ≤ i1 ≤ r1 , ..., 1 ≤ in ≤ rn übereinstimmen, d.h. f (ui1 1 , ..., uin n ) = g(ui1 1 , ..., uin n ). Beweis: Sei f (ui1 1 , ..., uin n ) = g(ui1 1 , ..., uin n ) für alle Basistupel (ui1 1 , ..., uin n ) ∈ V1 × ... × Vn mit 1 ≤ i1 ≤ r1 , ..., 1 ≤ in ≤ rn . Sei (v1 , ..., vn ) ∈ V1 × ... × Vn beliebig. Da Uj = {u1j , u2j , ..., urj j } eine Basis von Vj ist, so existieren Koeffizienten cij ∈ K, so dass vj = rj X ∀ 1 ≤ j ≤ n. cij uij i=1 Da f und g n-linear sind, so gilt f (v1 , ..., vn ) = f ( r1 X = f( i=1 r1 X ci1 ui1 , ..., rn X ci1 1 ui1 1 , ..., i1 =1 = = r1 X i1 =1 r1 X ... ... rn X in =1 rn X ci1 1 ...cin n f (ui1 1 , ..., uin n ) ci1 1 ...cin n g(ui1 1 , ..., uin n ) ci1 1 ui1 1 , ..., i1 =1 ci n n u i n n ) in =1 i1 =1 in =1 r 1 X = g( cin uin ) i=1 rn X rn X cin n uin n ) = g(v1 , ..., vn ). in =1 2 110 5.2 Alternierende Abbildungen Seien V und W K-Vektorräume. Definition 5.3. Eine n-lineare Abbildung f ∈ Ln (V, W ) heißt alternierend, wenn für alle v = (v1 , ..., vn ) ∈ V n = |V × {z ... × V} gilt: n−mal f (v1 , ..., vi , ..., vj , ..., vn ) = 0, falls vi = vj und i 6= j. Beispiel: Sei n = 2, V = R2 , W = R. Dann ist f : R2 × R2 → R mit f (u, v) = u1 v2 − u2 v1 alternierend, da f (u, u) = u1 u2 − u2 u1 = 0. Definition 5.4. Eine n-lineare Abbildung f ∈ Ln (V, W ) heißt schiefsymmetrisch, wenn für alle v = (v1 , ..., vn ) ∈ V n gilt: f (v1 , ..., vi , ..., vj , ..., vn ) = −f (v1 , ..., vj , ..., vi , ..., vn ), falls i 6= j. Beispiel: Sei wieder n = 2, V = R2 , W = R und f : R2 × R2 → R mit f (u, v) = u1 v2 − u2 v1 . Die Abbildung f ist auch schiefsymmetrisch, denn f (u, v) = u1 v2 − u2 v1 = −(v1 u2 − v2 u1 ) = −f (v, u) für alle u, v ∈ R2 . Satz 5.5. Seien V , W Vektorräume über einem Körper K und f ∈ Ln (V, W ). Dann gilt (i) Wenn f alternierend ist, so ist f auch schiefsymmetrisch. (ii) Wenn f schiefsymmetrisch und char K 6= 2, dann ist f auch alternierend. Beweis: 111 (i) Sei f alternierend und v = (v1 , ..., vn ) ∈ V n . Dann gilt für i < j, dass f (v1 , ..., vi , ..., vj , ..., vn ) = f (v1 , ..., vi + vj , ..., vj , ..., vn ) − f (v1 , ..., vj , ..., vj , ..., vn ) = f (v1 , ..., vi + vj , ..., vj , ..., vn ) − 0 = f (v1 , ..., vi + vj , ..., vj + vi , ..., vn ) − f (v1 , ..., vj , ..., vi , ..., vn ) = 0 − f (v1 , ..., vj , ..., vi , ..., vn ) = −f (v1 , ..., vj , ..., vi , ..., vn ), d.h. f ist schiefsymmetrisch. (ii) Sei f schiefsymmetrisch und v = (v1 , ..., vn ) ∈ V n mit vi = vj für fixierte i < j. Dann gilt 2f (v1 , ..., vi , ..., vj , ..., vn ) = f (v1 , ..., vi , ..., vj , ..., vn ) + f (v1 , ..., vj , ..., vi , ..., vn ) = f (v1 , ..., vi , ..., vj , ..., vn ) − f (v1 , ..., vi , ..., vj , ..., vn ) = 0. Da char K 6= 2, so ist f (v1 , ..., vi , ..., vj , ..., vn ) = 0, d.h. f ist schiefsymmetrisch. 2 Im Folgenden setzen wir stets voraus, dass K ein Körper mit char K 6= 2 ist. Somit ist alternierend gleichbedeutend mit schiefsymmetrisch. Definition 5.6. Sei n ∈ N. Dann bezeichnen wir mit Sn die Menge aller Permutationen von {1, 2, ..., n}, d.h. die Menge aller bijektiven Abbildungen σ : {1, 2, ..., n} → {1, 2, ..., n}. Lemma 5.7. Die Menge Sn bildet mit der Komposition ◦ von Abbildungen eine Gruppe. Für n ≥ 3 ist die Gruppe nicht abelsch. 2 Beweis: Übungsaufgabe Definition 5.8. Sei σ ∈ Sn eine Permutation und Fn (σ) = {(i, j) | 1 ≤ i < j ≤ n ∧ σ(i) > σ(j)} die Menge ihrer Fehlstände. Dann heißt σ • gerade, falls #Fn (σ) eine gerade Zahl ist, • ungerade, falls #Fn (σ) eine ungerade Zahl ist. 112 Die Signum-Funktion sign : Sn → {−1, +1} ist definiert als ( +1 falls σ gerade, sign (σ) = −1 falls σ ungerade. Beispiel: Wir betrachten die Permutation 1 2 3 4 5 6 2 6 1 4 5 3 Dann ist die Menge aller Fehlstände F6 (σ) = {(1, 3), (2, 3), (2, 4), (2, 5), (2, 6), (4, 6), (5, 6)}. Wir erhalten sign (σ) = (−1)7 = −1. Lemma 5.9. Sei σ ∈ Sn eine Permutation. Dann gilt σ(j) − σ(i) . j−i 1≤i<j≤n Y sign (σ) = Beweis: Sei f (i, j) := σ(j) − σ(i) . j−i Dann gilt für alle 1 ≤ i < j ≤ n: ( −|f (i, j)|, falls (i, j) ∈ Fn (σ) f (i, j) = |f (i, j)|, falls (i, j) ∈ / Fn (σ) Somit erhalten wir Y 1≤i<j≤n Y f (i, j) = (i,j)∈Fn (σ) f (i, j) · = (−1)k = (−1) f (i, j) (i,j)∈ / F̄n (σ) Y (i,j)∈Fn (σ) k Y Y 1≤i<j≤n |f (i, j)| · |f (i, j)|, 113 Y (i,j)∈ / F̄n (σ) |f (i, j)| wobei k = #Fn (σ) und somit Q |σ(j) − σ(i)| Q = (−1)k . |j − i| k 1≤i<j≤n Y f (i, j) = (−1) 1≤i<j≤n 1≤i<j≤n Der letzte Teil der Gleichung ergibt sich daraus, dass in Zähler und Nenner die gleichen Faktoren stehen (oben nur in der durch die Permutation vorgegebenen Reihenfolge). 2 Definition 5.10. Eine Permutation τ ∈ Sn heißt Transposition, falls sie nur genau zwei Elemente von {1, 2, ..., n} vertauscht und alle anderen Elemente fest bleiben, d.h. falls für feste k 6= ` gilt: τ (k) = `, τ (`) = k, τ (i) = i ∀i 6= k, `. Beispiel: Die Permutation 1 2 3 4 5 6 τ: 1 4 3 2 5 6 ist eine Transposition. Lemma 5.11. Jede Permutation σ ∈ Sn ist eine Komposition von Transpositionen, d.h. es existieren Transpositionen τ1 , ..., τk , so dass σ = τ1 ◦ ... ◦ τk . Diese Komposition ist nicht eindeutig. 2 Beweis: Übungsaufgabe Bemerkung 5.12. Aus der Definition erkennt man sofort, dass für jede Transposition τ ∈ Sn gilt: τ 2 = τ ◦ τ = id, d.h. τ −1 = τ. Zudem haben wir sign (τ ) = −1 für jede Transposition τ ∈ Sn , da ! j−1 [ Fn (τ ) = {(i, j)} ∪ {(i, k), (k, j)} , k=i+1 wenn τ die Elemente i und j mit i < j vertauscht. 114 Lemma 5.13. Sei σ ∈ Sn und τ eine Transposition in Sn . Dann gilt sign (τ ◦ σ) = sign (τ ) · sign (σ). Beweis: Unter Benutzung von Lemma 5.9 erhalten wir sign (τ ◦ σ) = τ (σ(j)) − τ (σ(i)) j−i 1≤i<j≤n Y ! = τ (σ(j)) − τ (σ(i)) σ(j) − σ(i) 1≤i<j≤n ! = τ (σ(j)) − τ (σ(i)) σ(j) − σ(i) 1≤i<j≤n Y σ(j) − σ(i) j−i 1≤i<j≤n · Y ! Y · sign (σ) Es genügt zu zeigen, dass T := τ (σ(j)) − τ (σ(i)) σ(j) − σ(i) 1≤i<j≤n ! Y = sign (τ ). Sei für 1 ≤ i 6= j ≤ n: f (i, j) := τ (σ(j)) − τ (σ(i)) . σ(j) − σ(i) Dann gilt offenbar f (i, j) = f (j, i) für alle 1 ≤ i 6= j ≤ n und somit Y T = σ(i)<σ(j) Y f (i, j) · σ(i)>σ(j) 1≤i<j≤n 1≤i<j≤n Y = σ(i)<σ(j) Y f (i, j) · σ(j)>σ(i) 1≤i<j≤n = f (j, i) Y f (i, j) 1≤j<i≤n f (i, j) = sign (τ ). 1≤σ(i)<σ(j)≤n 2 Satz 5.14. Sei σ ∈ Sn und σ = τ1 ◦ ... ◦ τk , wobei τ1 ,...,τk Transpositionen sind. Dann gilt sign (σ) = (−1)k . 115 Beweis: Der Satz folgt unmittelbar aus Lemma 5.13 und Bemerkung 5.12. 2 Korollar 5.15. Seien σ1 , σ2 ∈ Sn . Dann gilt sign (σ1 ◦σ2 ) = sign (σ1 )sign (σ2 ). Beweis: Sei σ1 = τ1 ◦ τ2 ◦ ... ◦ τk und σ2 = τ̄1 ◦ τ̄2 ◦ ... ◦ τ̄` . Dann gilt wegen Satz 5.14, dass sign (σ1 ◦ σ2 ) = (−1)k+` = (−1)k (−1)` = sign (σ1 )sign (σ2 ). 2 Korollar 5.16. Sei σ ∈ Sn . Dann gilt sign (σ −1 ) = sign (σ). Beweis: Sei σ = τ1 ◦ τ2 ◦ ... ◦ τk . Dann gilt σ −1 = τk ◦ τk−1 ◦ ... ◦ τ1 . Aus Satz 5.14 folgt sign (σ) = (−1)k = sign (σ −1 ). 2 Lemma 5.17. Seien V und W Vektorräume über einem Körper K. Eine n-lineare Abbildung f ∈ Ln (V, W ) ist genau dann schiefsymmetrisch, wenn für jede Permutation σ ∈ Sn gilt: f (vσ(1) , ..., vσ(n) ) = sign (σ) · f (v1 , ..., vn ). Beweis: (←) Es gelte für jedes σ ∈ Sn , dass f (vσ(1) , ..., vσ(n) ) = sign (σ)f (v1 , ..., vn ). Sei 1 ≤ i < j ≤ n. Dann gilt für die Transposition τ , die i mit j vertauscht, dass f (vτ (1) , ..., vτ (n) ) = −f (v1 , ..., vn ), d.h. f (v1 , ...vj , ..., vi , ..., vn ) = −f (v1 , ..., vi , ..., vj , ..., vn ). (→) Sei f schiefsymmetrisch und σ ∈ Sn . Nach Lemma 5.11 existieren Transpositionen τ1 ,...,τk , so dass σ = τ1 ◦ ... ◦ τk . Mit Satz 5.14 gilt f (vσ(1) , ..., vσ(n) ) = (−1)k f (v1 , ..., vn ) = sign (σ)f (v1 , ..., vn ). 2 116 5.3 Die Determinantenform Definition 5.18. Sei V ein K-Vektorraum und U = {u1 , ..., un } eine Basis von V . Dann definieren wir X ∆U (v1 , ..., vn ) = sign (σ) · c1σ(1) · c2σ(2) · ... · cnσ(n) σ∈Sn für vi = n X j=1 cij uj ∈ V, cij ∈ K, i ∈ {1, ..., n}. Wir bezeichnen ∆U als Determinantenform von V bezüglich der Basis U . Lemma 5.19. Sei V ein K-Vektorraum und U eine Basis von V . Dann ist ∆U ∈ Ln (V, K) alternierend. Beweis: 1. ∆U ist n-linear: Sei 1 ≤ i ≤ n und vi = n X cij uj , wi = j=1 n X bij uj . j=1 Dann gilt n X vi + wi = (αij + βij )uj j=1 und somit ∆U (v1 , ..., vi + wi , ..., vn ) X sign (σ) · α1σ(1) · ... · (αiσ(i) + βiσ(i) ) · ... · αnσ(n) = σ∈Sn = X σ∈Sn + X σ∈Sn sign (σ) · α1σ(1) · ... · αiσ(i) · ... · αnσ(n) sign (σ) · α1σ(1) · ... · βiσ(i) · ... · αnσ(n) = ∆U (v1 , ..., vi , ..., vn ) + ∆U (v1 , ..., wi , ..., vn ). Weiter gilt für λ ∈ K, dass λvi = n X j=1 117 (λαij )uj und somit ∆U (v1 , ..., λvi , ..., vn ) = X σ∈Sn sign (σ) · α1σ(1) · ... · (λαiσ(i) ) · ... · αnσ(n) X =λ σ∈Sn sign (σ) · α1σ(1) · ... · αiσ(i) · ... · αnσ(n) = λ∆U (v1 , ..., vi , ..., vn ). 2. ∆U ist alternierend: Sei 1 ≤ i < j ≤ n und τ die Transposition, die i mit j vertauscht. Dann gilt ∆U (v1 , ..., vj , ..., vi , ..., vn ) X = sign (σ) · α1σ(1) ...αjσ(i) ...αiσ(j) ...αnσ(n) σ∈Sn = X σ∈Sn = X σ∈Sn = X σ̃∈Sn = X σ̃∈Sn = − sign (σ) · α1σ(1) ...αiσ(j) ...αjσ(i) ...αnσ(n) sign (σ) · α1τ (σ(1)) ...αiτ (σ(i)) ...αjτ (σ(j)) ...αnτ (σ(n)) sign (τ σ̃) · α1σ̃(1) · ... · αiσ̃(i) · ... · αnσ̃(n) sign (τ )sign (σ̃) · α1σ̃(1) · ... · αiσ̃(i) · ... · αnσ̃(n) X σ̃∈Sn sign (σ̃) · α1σ̃(1) · ... · αiσ̃(i) · ... · αnσ̃(n) = − ∆U (v1 , ..., vi , ..., vj , ..., vn ). 2 Satz 5.20. Sei V ein K-Vektorraum und U = {u1 , ..., un } eine Basis von V . Dann gehört jedes alternierende f ∈ Ln (V, K) zu span {∆U }. Es gilt f (v1 , ..., vn ) = f (u1 , ..., un )∆U (v1 , ..., vn ) ∀ v1 , ..., vn ∈ V. Beweis: Sei f ∈ Ln (V, K) alternierend. Dann gilt für vi = n X j=1 cij uj ∈ V, cij ∈ K, 118 i ∈ {1, ..., n}, dass f (v1 , ..., vn ) = f ( = n X c1j1 uj1 , ..., j1 =1 n X n X j1 =1 jn =1 ... n X cnjn ujn ) jn =1 c1j1 ...cnjn f (uj1 , ..., ujn ) f alternierend X = c1j1 ...cnjn f (uj1 , ..., ujn ) 1≤j1 ,j2 ,...,jn ≤n je paarweise verschieden = X c1σ(1) ...cnσ(n) f (uσ(1) , ..., uσ(n) ) σ∈Sn Lemma 5.17 = X c1σ(1) ...cnσ(n) sign (σ)f (u1 , ..., un ) σ∈Sn = f (u1 , ..., un ) X sign (σ)c1σ(1) ...cnσ(n) σ∈Sn = f (u1 , ..., un )∆U (v1 , ..., vn ), d.h. f = λ∆U für λ := f (u1 , ..., un ) ∈ K. 2 Lemma 5.21. (Eigenschaften von ∆U ) Sei V ein K-Vektorraum und U = {u1 , ..., un } eine Basis von V . Dann gilt für alle v1 , ..., vn ∈ V : (i) ∆U (u1 , ..., un ) = 1, (ii) ∆U (v1 , ..., vi + n P j=1 j6=i λj vj , ..., vn ) = ∆U (v1 , ..., vi , ..., vn ) mit λ1 , ..., λn ∈ K. (iii) ∆U (vσ(1) , ..., vσ(n) ) = sign (σ) · ∆U (v1 , ..., vn ) für σ ∈ Sn . Beweis: (i) ∆U (u1 , ..., un ) = P sign (σ)c1σ(1) ...cnσ(n) , wobei σ∈Sn ( 1 falls i = j cij = δij = 0 sonst. Also gilt ∆U (u1 , ..., un ) = sign (id)c11 c22 ...cnn = 1. (ii) folgt, da ∆U eine alternierende n-Linearform ist. 119 (iii) folgt aus Lemma 5.17 mit f := ∆U . 2 Satz 5.22. Sei V ein n-dimensionaler K-Vektorraum und f ∈ Ln (V, K) mit f 6= 0. Dann ist f genau dann alternierend, wenn folgendes gilt: ∀v1 , ..., vn ∈ V : f (v1 , ..., vn ) 6= 0 ⇔ {v1 , ..., vn } ist eine Basis von V. (4.9) Beweis: 1. Sei f alternierend. Wir zeigen die Äquivalenz (4.9). Sei f (v1 , ..., vn ) 6= 0. Angenommen {v1 , ..., vn } ist keine Basis von V . Dann ist {v1 , ..., vn } linear abhängig. Also existiert ein 1 ≤ i ≤ n, so dass vi = n X λj vj . j=1 j6=i Somit erhalten wir f (v1 , ..., vn ) = f (v1 , ..., n X λj vj , ..., vn ) j=1 j6=i | {z } i−te Stelle = n X λj f (v1 , ..., j=1 vj , ..., vn ) = 0, |{z} i−te Stelle j6=i da f alternierend ist. Dies ist ein Widerspruch zur Voraussetzung. Also ist {v1 , ..., vn } eine Basis. Sei jetzt umgekehrt V:={v1 , ..., vn } eine Basis. Wir zeigen, dass dann f (v1 , ..., vn ) 6= 0. Da f 6= 0, so existieren w1 , ..., wn ∈ V , so dass f (w1 , ..., wn ) 6= 0. Nach Satz 5.20 gilt f (v1 , ..., vn )∆V (w1 , ..., wn ) = f (w1 , ..., wn ) 6= 0. Also ist auch f (v1 , ..., vn ) 6= 0. 2. Es gelte nun (4.9). Wir zeigen, dass f alternierend ist. Seien v1 , ..., vn ∈ V mit vi = vj für fixierte i 6= j. Dann ist {v1 , ..., vn } linear abhängig. Aufgrund von (4.9) gilt nun f (v1 , ..., vn ) = 0, d.h. f ist alternierend. 2 120 5.4 Die Determinante für Endomorphismen Definition 5.23. Sei V ein K-Vektorraum und ϕ : V → V ein Endomorphismus. Dann definieren wir die Determinante von ϕ als det(ϕ) = ∆U (ϕ(u1 ), ..., ϕ(un )) wobei U = {u1 , ..., un } eine Basis von V ist. Bemerkung 5.24. Die Definition von det(ϕ) ist unabhängig von der Wahl der Basis U . Beweis: Übungsaufgabe. Hinweis: Man benutze ÜA 2 des 5. Übungsblattes. 2 Lemma 5.25. Sei V ein K-Vektorraum, U eine Basis von V und ϕ : V → V ein Endomorphismus. (i) Dann ist die Abbildung g : V n → K mit g(v1 , ..., vn ) = ∆U (ϕ(v1 ), ..., ϕ(vn )) eine alternierende n-Linearform. (ii) Für alle v1 , ..., vn ∈ V gilt ∆U (ϕ(v1 ), ..., ϕ(vn )) = ∆U (ϕ(u1 ), ..., ϕ(un ))∆U (v1 , ..., vn ). Beweis: (i) Da ϕ linear und ∆U n-linear ist, so ist g auch linear in jedem Argument, d.h. n-linear. Seien v1 ,...,vn ∈ V beliebig mit vi = vj für fixierte i 6= j. Dann gilt auch ϕ(vi ) = ϕ(vj ). Da ∆U alternierend ist, so haben wir ∆U (ϕ(v1 ), ..., ϕ(vn )) = 0, d.h. g ist alternierend. (ii) Nach Satz 5.20 gilt g(v1 , ..., vn ) = g(u1 , ..., un )∆U (v1 , ..., vn ) ∀ v1 , ..., vn ∈ V, d.h. ∆U (ϕ(v1 ), ..., ϕ(vn )) = ∆U (ϕ(u1 ), ..., ϕ(un ))∆U (v1 , ..., vn ). 121 2 Satz 5.26. Sei V ein n-dimensionaler K-Vektorraum und ϕ, ψ : V → V Endomorphismen. Dann gilt: (i) det(ϕ ◦ ψ) = det(ϕ) · det(ψ). (ii) det(id) = 1. (iii) det(λϕ) = λn det(ϕ) für λ ∈ K. (iv) ϕ ist ein Automorphismus genau dann, wenn det(ϕ) 6= 0. (v) Falls det(ϕ) 6= 0, so ist det(ϕ−1 ) = (det(ϕ))−1 . Beweis: Sei U eine Basis von V . (i) Mit Lemma 5.25 (ii) und v1 := ψ(u1 ), ..., vn := ψ(un ) gilt, dass ∆U (ϕ(ψ(u1 )), ..., ϕ(ψ(un ))) = ∆U (ϕ(u1 ), ..., ϕ(un ))·∆U (ψ(u1 ), ..., ψ(un )). Dies bedeutet aufgrund der Definition der Determinante aber gerade, dass det(ϕ ◦ ψ) = det(ϕ) · det(ψ). (ii) Mit Lemma 5.21 haben wir, dass det(id) = ∆U (u1 , ..., un ) = 1. (iii) Da ∆U n-linear ist, so gilt det(λϕ) = ∆U (λϕ(u1 ), ..., λϕ(un )) = λn ∆U (ϕ(u1 ), ..., ϕ(un )) = λn det(ϕ). (iv) Da ∆U alternierend ist, so gilt nach Satz 5.22, dass ∀v1 , ..., vn ∈ V : ∆U (v1 , ..., vn ) 6= 0 ⇔ {v1 , ..., vn } ist eine Basis von V. Für v1 := ϕ(u1 ), ..., vn := ϕ(un ) ergibt sich ∆U (ϕ(u1 ), ..., ϕ(un )) 6= 0 ⇔ {ϕ(u1 ), ..., ϕ(un )} ist eine Basis von V, d.h. det(ϕ) 6= 0 ⇔ ϕ ist ein Automorphismus. (v) Sei ϕ ein Automorphismus. Dann gilt wegen (i) und (ii), dass 1 = det(id) = det(ϕ ◦ ϕ−1 ) = det(ϕ) · det(ϕ−1 ). 2 122 5.5 Die Determinante für Matrizen Definition 5.27. Sei A ∈ M (n × n, K). Dann definieren wir die Determinante von A als det(A) = det(α) mit dem Endomorphismus α : K n → K n , für den α(ei ) = ai die Spalten von A sind, wobei U := {e1 , ..., en } die Standardbasis in K n ist. Bemerkung: Man schreibt anstelle von det(A) auch |A|. Satz 5.28. Seien A, B ∈ M (n × n, K). Dann gilt: (i) det(A · B) = det(A) · det(B) = det(B · A) (ii) det(In ) = 1 (iii) det(λA) = λn det(A) für λ ∈ K. (iv) A ist genau dann invertierbar, wenn det(A) 6= 0. (v) Falls A invertierbar ist, so gilt det(A−1 ) = (det(A))−1 . (vi) Die spezielle lineare Gruppe SL(n, K) = {A ∈ GL(n, K) | det(A) = 1} ist eine Untergruppe der allgemeinen linearen Gruppe GL(n, K) = {A ∈ M (n × n, K) | det(A) 6= 0}. (vii) det(AT ) = det(A) P (viii) det(A) = σ∈Sn sign (σ)a1σ(1) a2σ(2) ...anσ(n) (Leibnizformel) Beweis: (i) Seien α, β : K n → K n Endomorphismen, für die α(ei ) = ai und β(ei ) = bi die Spalten von A bzw. B sind. Dann gilt wegen Satz 5.26(i), dass det(A · B) = det(α ◦ β) = det(α) · det(β) = det(A) · det(B). Die zweite Gleichung folgt durch Vertauschung von A und B. (ii) Wegen id(x) = x = In x, so gilt nach Satz 5.26(ii), dass det(In ) = det(id) = 1. 123 (iii) Sei α : K n → K n ein Endomorphismus, für den α(ei ) = ai die Spalten von A sind. Dann sind für λ ∈ K die Spalten von λA gleich λai = λα(ei ) und mit Satz 5.26(iv) erhalten wir, dass det(λA) = det(λα) = λn det(α) = λn det(A). (iv) Wegen (i) und (ii) gilt, dass det(A) · det(A−1 ) = det(A · A−1 ) = det(In ) = 1. (v) Sei α : K n → K n ein Endomorphismus, für den α(ei ) = ai die Spalten von A sind. Mit Satz 5.26(v) erhalten wir, dass det(A) 6= 0 ⇔ det(α) 6= 0 ⇔ α ist ein Automorphismus ⇔ A ist invertierbar. (vi) Da die Assoziativität der Matrizenmultiplikation gegeben ist, so müssen wir nur zeigen, dass A · B ∈ SL(n, K), In ∈ SL(n, K) und A−1 ∈ SL(n, K), falls A ∈ SL(n, K) und B ∈ SL(n, K). Wegen (iii) und (v) gilt det(A · B) = det(A) det(B) = 1 sowie det(A−1 ) = (det(A))−1 = 1. (viii) Nach Definition gilt det(A) = det(α) = ∆U (a1 , ..., an ) = X sign (σ)a1σ(1) a2σ(2) ...anσ(n) . σ∈Sn wobei U := {e1 , ..., en } die Standardbasis in K n ist. (vii) Es gilt: det(AT ) = X sign (σ)aσ(1)1 aσ(2)2 ...aσ(n)n σ∈Sn = X sign (σ −1 )a1σ−1 (1) a2σ−1 (2) ...anσ−1 (n) σ∈Sn = X sign (σ̃)a1σ̃(1) a2σ̃(2) ...anσ̃(n) = det(A). σ̃∈Sn 124 2 Spezialfälle n=2,3,4: a det 11 a21 a11 a12 det a21 a22 a31 a32 a11 a21 det a31 a41 a12 a22 a32 a42 a12 = a11 a22 − a12 a21 a22 a13 a23 = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 a33 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 a13 a23 a33 a43 a14 a24 a34 a44 = a11 a22 a33 a44 − a11 a22 a34 a43 + a11 a23 a34 a42 − a11 a23 a32 a44 + a11 a24 a32 a43 − a11 a24 a33 a42 + a12 a24 a33 a41 − a12 a24 a31 a43 + a12 a23 a31 a44 − a12 a23 a34 a41 + a12 a24 a33 a41 − a12 a24 a31 a43 + a13 a24 a31 a42 − a13 a24 a32 a41 + a13 a21 a32 a44 − a13 a21 a34 a42 + a13 a22 a34 a41 − a13 a22 a31 a44 + a14 a22 a31 a43 − a14 a22 a33 a41 + a14 a21 a33 a42 − a14 a21 a32 a43 + a14 a23 a32 a41 − a14 a23 a31 a42 Lemma 5.29. Für obere und untere Dreiecksmatrizen A gilt det(A) = n Y ajj j=1 Beweis: Für obere Dreiecksmatrizen sieht man es leicht wie folgt: X sign (σ)a1σ(1) ...anσ(n) . det(A) = σ∈Sn Sei σ eine beliebige Permutation, die nicht gleich der identischen Permutation ist. Dann gibt es mindestens ein i ∈ {1, ..., n} mit i > σ(i). Dann gilt aiσ(i) = 0. Somit gilt a1σ(1) ...anσ(n) = 0 für alle Permutationen, die nicht gleich der identischen Permutation sind. Daraus folgt sofort det(A) = sign (id)a11 ...ann = n Y j=1 125 ajj . Analog gilt auch für untere Dreiecksmatrizen, dass det(A) = n Y ajj . j=1 2 Lemma 5.30. Sei A ∈ M (n × n, K). Dann ändert sich det(A) durch elementare Zeilentransformationen oder Spaltentransformationen wie folgt: 1. Bei Multiplikation der i-ten Zeile bzw. der i-ten Spalte mit c 6= 0: det(TE1 A) = c · det(A) bzw. det(ATE1 ) = c · det(A). 2. Bei Addition der i-ten Zeile bzw. der i-ten Spalte zur j-ten Zeile bzw. der j-ten Spalte: det(TE2 A) = det(A) bzw. det(ATE2 ) = det(A). 3. Bei Addition des c-fachen der i-ten Zeile bzw. der i-ten Spalte zur j-ten Zeile bzw. der j-ten Spalte: det(TE3 A) = det(A) bzw. det(ATE3 ) = det(A). 4. Bei Vertauschung der i-ten Zeile bzw. der i-ten Spalte mit der j-ten Zeile bzw. der i-ten Spalte: det(TE4 A) = − det(A) bzw. det(ATE4 ) = − det(A). Beweis: Für Zeilentransformationen gilt: 1 ... 0 ... 0 . . .. .. . . ... . 1. det(TE1 A) = det 0 ... c ... 0 det(A) = c det(A) . .. . . .. .. . . . 0 ... 0 ... 1 i 2. Spezialfall von 3. 126 1 .. . 0 . . 3. det(TE3 A) = det . 0 . .. 0 1 .. . 0 . . 4. det(TE4 A) = det . 0 . .. 0 0 ... 0 ... 0 .. .. .. . . . ... 1 ... 0 ... 0 .. .. . . .. . . . . det(A) = det(A) ... c ... 1 ... 0 .. .. . . .. . . . . ... 0 ... 0 ... 1 ... .. . i j 0 ... 0 ... 0 .. .. .. . . . ... 0 ... 1 ... 0 .. . . .. .. . . . . det(A) = − det(A) ... 1 ... 0 ... 0 .. .. . . .. . . . . ... 0 ... 0 ... 1 ... .. . i j Dabei haben wir benutzt, dass det(TE4 ) = sign (τ )a1τ (1) ...anτ (n) = (−1) · 1 · ... · 1 = −1, wobei τ die Permutation ist, die i mit j vertauscht. Der Beweis für die Spaltentransformationen ist völlig analog. Bemerkung A (i) det 0 A (ii) det 0 2 5.31. Für Blockmatrizen gilt: 0 I 0 = det(A) und det = det(D) I 0 D B A 0 = det(A) det(D) = det D C D Beweis: (i) Wir zeigen die erste Gleichung. Die zweite folgt analog. Mittels elementarer Zeilentransformationen TE3 und TE4 können wir A in eine obere Dreiecksmatrix à überführen und bekommen det(Ã) = det(T A) = det(T ) det(A) = (−1)` det(A), 127 wobei ` die Anzahl der Zeilenvertauschungen ist, die wir vorgenommen haben, um à zu erhalten. Zudem gilt T 0 A 0 à 0 det = det det 0 I 0 I 0 I A 0 = (−1)` det , 0 I Da à eine obere Dreiecksmatrix ist, so gilt à 0 det = det(Ã) 0 I und somit A 0 det = det(A). 0 I (ii) Wir zeigen den ersten Teil der Gleichung. Der zweite folgt analog. Sei A B M := 0 D Falls det(A) = 0, so sind die Spalten von A linear abhängig und damit auch die Spalten von M , die zum linken Block gehören. Somit gilt auch det(M ) = 0. Falls det(D) = 0, so sind die Zeilen von D linear abhängig und damit auch die Zeilen von M , die zum unteren Block gehören. Somit gilt auch det(M ) = 0. Falls det(A) 6= 0 und det(D) 6= 0, dann gilt I 0 A 0 I A−1 BD−1 det(M ) = det det det 0 I 0 I 0 D = det(A) · 1 · det(D) = det(A) det(D). 2 5.6 Der Entwicklungssatz von Laplace Satz 5.32. (Entwicklungssatz von Laplace) Sei n ≥ 2 und A ∈ M (n × n, K). Dann gilt (i) für jedes i ∈ {1, ..., n}, dass det(A) = n X (−1)i+j aij det(A0ij ) j=1 128 (Entwicklung nach der i-ten Zeile), (ii) für jedes j ∈ {1, ..., n}, dass n X det(A) = (−1)i+j aij det(A0ij ) (Entwicklung nach der j-ten Spalte). i=1 Dabei ist A0ij die Matrix, die sich aus der Matrix A nach Streichung der i-ten Zeile und der j-ten Spalte ergibt. Beweis: (i) Dies folgt aus (ii), wenn wir anstelle von A die Matrix A> betrachten, denn n X det(A) = det(A ) = (−1)i+j aji det((A> )0ij ) > i=1 n X = (−1)i+j aji det((A0ji )> ) i=1 n n X X i+j 0 (−1) aji det(Aji ) = (−1)j+i aij det(A0ij ). = i=1 j=1 (ii) Sei U := (e1 , ..., en ) die Standardbasis von K n . Seien s1 ,...,sn die Spalten von A und j ∈ {1, ..., n} fixiert. Da ∆U eine Multilinearform ist, so erhalten wir det(A) = ∆U (s1 , ..., sj , ..., sn ) = ∆U (s1 , ..., n X aij ei , ..., sn ) i=1 = n X aij ∆U (s1 , ..., ei , ..., sn ) = j i=1 wobei n X aij det(Âij ), i=1 a11 ... 0 ... a1n . .. .. .. . . Âij = ai1 ... 1 ... ain . . .. .. .. . . an1 ... 0 ... ann j Nun schieben wir die i-te Zeile durch (i − 1) Zeilenpermutationen nach oben in die erste Zeile und danach die j-te Spalte durch (j − 1) Spal129 tenpermutationen in die erste Spalte. Dann erhalten wir n n X X 1 ∗ i−1 j−1 det(A) = aij det(Âij ) = aij (−1) (−1) det 0 A0ij = i=1 n X i=1 aij (−1)i+j det(1) det(A0ij ) = i=1 n X aij (−1)i+j det(A0ij ). i=1 2 5.7 Die Cramersche Regel Satz 5.33. (Cramersche Regel) Sei A ∈ M (n × n, K) regulär. Dann kann man die Lösung x des linearen Gleichungssystems Ax = b wie folgt darstellen: xj = det(Aj ) det(A) für j = 1, ..., n, wobei Aj die Matrix ist, die man erhält, wenn man in A die j-te Spalte durch b ersetzt. Beweis: Da A regulär ist, so wissen wir, dass das LGS Ax = b genau eine Lösung besitzt. Daher genügt es zu zeigen, dass x mit xj = det(Aj ) det(A) für j = 1, ..., n, eine Lösung ist, d.h. für alle k ∈ 1, ..., n gilt: n X akj j=1 det(Aj ) = bk . det(A) (4.10) Sei nun k fixiert. Wir entwickeln zunächst mit dem Laplace’schen Entwicklungssatz die Matrix Aj nach der j-ten Spalte und erhalten, dass det(Aj ) = n X bi (−1)i+j det(A0ij ). (4.11) i=1 Sei jetzt Ãki die Matrix, die aus A hervorgeht, wenn man die i-te Zeile durch die k-te Zeile von A ersetzt. Dann ergibt der Laplace’sche Entwicklungssatz für Ãki entwickelt nach der i-ten Zeile, dass n X akj (−1)i+j det(A0ij ) = det(Ãki ). j=1 130 (4.12) Für i 6= k besitzt Ãki zwei gleiche Zeilen und damit also linear abhängige Zeilen. Daher ist Ãki für i 6= k nicht invertierbar und damit det(Ãki ) = 0 für i 6= k. Für i = k gilt offenbar Ãki = A. Mit (4.12) ergibt sich nun, dass ( n X det(A), falls i = k, akj (−1)i+j det(A0ij ) = 0, falls i 6= k. j=1 Unter Beachtung von (4.11) erhalten wir damit n X akj det(Aj ) = j=1 n X akj j=1 = n X i=1 n X bi (−1)i+j det(A0ij ) i=1 bi n X akj (−1)i+j det(A0ij ) = bk det(A). j=1 2 Division durch det(A) ergibt die Behauptung (4.10). Beispiel: Seien 1 2 A= , 6 9 3 b= . 3 Dann erhalten wir die Lösung x von Ax = b durch: 3 2 1 det det 3 9 6 27 − 6 = x1 = = −7, x2 = 9 − 12 1 2 1 det det 6 9 6 3 3 3 − 18 = = 5. 9 − 12 2 9 Bemerkung: Die Cramersche Regel ist zur Berechnung der Lösung x für große n extrem aufwändig und damit ungeeignet. Aber es lassen sich mit dieser Darstellung von x verschiedene Eigenschaften leicht nachweisen, z.B. dass die Lösung x für K = R stetig von den Koeffizienten von A und b abhängt. Hierbei sei auch erwähnt, dass die Abbildung det : M (n × n, R) → R A 7→ det(A) stetig ist. (ÜA) Der folgende Satz ist eine hilfreiche Vorbereitung für den fundamentalen Satz von Cayley-Hamilton, den wir an späterer Stelle behandeln. Der Satz von Cayley-Hamilton hat eine essentielle Bedeutung für 131 Satz 5.34. Sei A = (aij ) ∈ M (n × n, K). Dann gilt für adj(A) := (dij ) mit dij = (−1)i+j det(A0ji ), dass adj(A) · A = det(A)I. (4.13) Beweis: Aufgrund des Entwicklungssatzes von Laplace wissen wir, dass für beliebige Matrizen gilt: n X det(A) = (−1)i+j aji det(A0ji ). j=1 Somit erhalten wir, dass n X dij aji = j=1 n X (−1)i+j aji det(A0ji ) = det(A). j=1 Außerdem sehen wir, dass für k 6= i gilt: n X dij ajk = j=1 n X (−1)i+j ajk det(A0ji ) = det(Ā), j=1 wobei Ā die Matrix ist, die aus A ensteht, wenn man die k-te Spalte durch die i-te Spalte ersetzt. Dann stimmen aber die k-te Spalte und die i-te Spalte überein und somit ist det(Ā) = 0. Zusammengefasst ergibt sich, dass adj(A) · A = det(A)I. 2 6 Eigenwerte Definition 6.1. Sei V ein K-Vektorrraum und ϕ ein Endomorphismus auf V . Dann heißt λ ∈ K ein Eigenwert von ϕ, falls es ein v 6= 0 in V gibt, so dass ϕ(v) = λv. Ein solcher Vektor v heißt Eigenvektor zum Eigenwert λ. Bemerkung: Eigenvektoren haben nach ihrer Definition die Eigenschaft, dass sie unter der Abbildung ϕ ihre Richtung nicht ändern. 132 Definition 6.2. Speziell für Matrizen A ∈ M (n × n, K) definiert man, dass λ ∈ K ein Eigenwert von A ist, falls es ein v 6= 0 in K n gibt, so dass Av = λv. Entsprechend heißt auch hier ein solcher Vektor v Eigenvektor zum Eigenwert λ. Bemerkung: Eigenvektoren haben damit die Eigenschaft, dass sie bei Multiplikation mit A ihre Richtung bis auf das Vorzeichen nicht ändern. Hinweis: Eine Zahl λ ist per Definition ein Eigenwert einer Matrix A, falls ein Vektor x 6= 0 mit Ax = λx existiert. Dies ist äquivalent dazu, dass ker(A − λI) 6= {0}. Dies ist wiederum äquivalent dazu, dass det(A − λI) = 0. Beispiele: 1. Sei A= 1 2 . −1 4 Dann ist λ ein Eigenwert von A genau dann, wenn 1−λ 2 0 = det(A − λI) = det −1 4 − λ = (1 − λ)(4 − λ) + 2 = λ2 − 5λ + 6 = (λ − 2)(λ − 3) Damit sind λ1 = 2 und λ2 = 3 Eigenwerte von A. Jeder Eigenvektor zum Eigenwert λ1 = 2 gehört zu −1 2 ker(A − 3I) = ker = span {( 21 )}. −1 2 Jeder Eigenvektor zum Eigenwert λ2 = 3 gehört zu −2 2 ker(A − 2I) = ker = span {( 11 )}. −1 1 2. Sei α ∈ [0, 2π) und cos(α) − sin(α) A= . sin(α) cos(α) Die Matrix A bedeutet eine Drehung der Vektoren v im R2 um den Winkel α. Sie besitzt nur Eigenvektoren, wenn α = 0 oder α = π. 133 3. Sei α ∈ [0, 2π) und A= cos(α) sin(α) . sin(α) − cos(α) Die Matrix A bedeutet eine Spiegelung der Vektoren v im R2 an der Geraden mit dem Winkel α/2. Sie besitzt die Eigenvektoren v1 = (cos(α/2), sin(α/2)) zum Eigenwert λ = 1 und v2 = (cos((α + π)/2), sin((α + π)/2)) zum Eigenwert λ = −1. 4. Bestimmung der Rotationsachse eines Planeten. Wir wählen 3 Punkte A, B, C auf der Oberfläche des Planeten und messen deren Koordinaten zu einem späteren festen Zeitpunkt. Der Einfachheit halber sei der Radius des Planeten gleich Eins und A = (1, 0, 0), B = (0, 1, 0), C = (0, 0, 1), Zum späteren Zeitpunkt erhalten wir Ā = (− 53 , 0, 54 ), B̄ = ( 45 , 0, 35 ), C̄ = (0, 1, 0). Dann ist die Rotationsachse ein Eigenvektor v ∈ R3 der Darstellungsmatrix 3 4 −5 5 0 0 0 1 A= 4 3 0 5 5 zum Eigenwert λ = 1. D.h. Av = v, also (A − I)v = 0. Leichtes Nachrechnen zeigt 8 4 −5 5 0 1 ker(A − I) = ker 0 −1 1 = span { 2 }. 2 4 3 −1 5 5 1 Somit zeigt die Rotationsachse in Richtung v = 2 . 2 5. Sei V = C ∞ (I, R), wobei I ein Intervall in R ist. Dann ist die Abbildung ϕ: V →V mit ϕ(f ) = f 0 ein Endomorphismus und jedes λ ∈ R ist Eigenwert von ϕ zum Eigenvektor f ∈ V mit f (x) = eλx . 134 Definition 6.3. Sei ϕ ∈ EndK (V ). Dann nennt man die Menge Eig(ϕ, λ) := {v ∈ V : ϕ(v) = λv} den Eigenraum von ϕ zum Eigenwert λ. Analog heißt für Matrizen A ∈ M (n × n, K) die Menge Eig(A, λ) := {v ∈ K n : Av = λv} Eigenraum von A zum Eigenwert λ. Lemma 6.4. Für Endomorphismen ϕ : V → V und Matrizen A ∈ M (n × n, K) sind die Eigenräume Eig(ϕ, λ) und Eig(A, λ) Unterräume von V bzw. K n. Beweis: Wir zeigen dies für Endomorphismen. Für Matrizen geht es analog. Sei ϕ ein Endomorphismus und λ ein Eigenwert von ϕ. Seien v1 und v2 Elemente von Eig(ϕ, λ). Dann gilt ϕ(v1 ) = λv1 ∧ ϕ(v2 ) = λv2 . Somit gilt auch ϕ(v1 + v2 ) = ϕ(v1 ) + ϕ(v2 ) = λv1 + λv2 = λ(v1 + v2 ). Sei c ∈ K und v ∈ Eig(ϕ, λ). Dann gilt ϕ(cv) = cϕ(v) = cλv = λ(cv). 2 Definition 6.5. Die Menge der Eigenwerte σ(ϕ) := {λ ∈ K | ∃v ∈ V : v 6= 0 ∧ ϕ(v) = λv} für Endomorphismen ϕ bzw. die Menge der Eigenwerte σ(A) := {λ ∈ K | ∃v ∈ K n : v 6= 0 ∧ Av = λv} für Matrizen A wird das Spektrum von ϕ bzw. A genannt. Als Spektralradius bezeichnet man den Betrag des betragsmäßig größten Eigenwerts. Im nächsten Abschnitt lernen wir Methoden kennen, wie man Eigenwerte und Eigenvektoren bestimmen kann und somit auch das Spektrum und die Eigenräume erhält. 135 6.1 Das charakteristische Polynom Sei V in diesem Abschnitt ein endlich dimensionaler K-Vektorraum. Lemma 6.6. Sei ϕ ∈ EndK (V ). Dann ist λ genau dann ein Eigenwert von ϕ, wenn det(ϕ − λidV ) = 0. Beweis: Es gelten mit Satz 5.26 folgende Äquivalenzen: λ ist ein EW von ϕ ⇔ ∃ v ∈ V : ϕ(v) = λv ∧ v 6= 0 ⇔ ∃ v ∈ V : ϕ(v) − λv = 0 ∧ v 6= 0 ⇔ ∃ v ∈ V : (ϕ − λidV )(v) = 0 ∧ v 6= 0 ⇔ ϕ − λidV ist kein Automorphismus. ⇔ det(ϕ − λidV ) = 0. 2 Man sieht nun auch sofort folgendes Lemma. Lemma 6.7. Für ϕ ∈ EndK (V ) ist Eig(ϕ, λ) = ker(ϕ − λidV ) und für A ∈ M (n × n, K) ist Eig(A, λ) = ker(A − λI). Definition 6.8. Sei ϕ ∈ EndK (V ) und p : K → K eine Abbildung mit pϕ (λ) = det(ϕ − λidV ). Dann nennt man die Abbildung pϕ das charakteristische Polynom von ϕ. Für Matrizen A ∈ M (n × n, K) kann man sich leicht mit Hilfe der Leibnizformel überlegen, dass pA (λ) = det(A − λI) ein Polynom n-ten Grades ist (ÜA). Im Falle von Endomorphismen ϕ sieht man dann auch, dass pϕ (λ) ein Polynom ist, da pϕ (λ) = det(ϕ − λidV ) = det(A − λI) = pA (λ), wobei U eine beliebige Basis von V und A = MUU (ϕ) die Darstellungsmatrix von ϕ ist. Hierbei haben wir ausgenutzt, dass für beliebige Endomorphismen ψ gilt, dass det(ψ) = ∆U (ψ(u1 ), ..., ψ(un )) = det(MUU (ψ)) mit U = {u1 , ..., un } und MUU (ϕ − λidV ) = MUU (ϕ) − λMUU (idV ) = MUU (ϕ) − λI. 136 Bemerkung 6.9. Nach Lemma 6.6 sind die Eigenwerte eines Endomorhismus’ ϕ gerade die Nullstellen von pϕ = det(ϕ − λidV ). Entsprechend sind die Eigenwerte einer Matrix A gerade die Nullstellen von pA = det(A − λI). Lemma 6.10. Seien λ1 und λ2 zwei verschiedene Eigenwerte eines Endomorhismus’ ϕ. Dann gilt Eig(ϕ, λ1 ) ∩ Eig(ϕ, λ2 ) = {0}. Beweis: Sei v ∈ Eig(ϕ, λ1 ) ∩ Eig(ϕ, λ2 ). Da λ1 und λ2 Eigenwerte von ϕ sind, so gilt λ1 v = ϕ(v) = λ2 v und somit (λ1 − λ2 )v = 0. Da λ1 6= λ2 , so ist v = 0. 6.2 2 Satz von Cayley-Hamilton Satz 6.11. (Satz von Cayley-Hamilton) Sei A ∈ M (n × n, K). Für das charakteristische Polynom pA (λ) = a0 + a1 λ + ... + an λn gilt: a0 + a1 A + ... + an An = 0. Sei V ein endlich-dimensionaler K-Vektorraum und ϕ : V → V ein Endomorphismus. Dann gilt für das charakteristische Polynom pϕ (λ) = a0 + a1 λ + ... + am λm , dass für alle v ∈ V : a0 + a1 ϕ(v) + ... + an ϕn (v) = O. Beweis: Wir beweisen den Satz zunächst für Matrizen. Mit Lemma 5.34 wissen wir, dass adj(A − λI) · (A − λI) = det(A − λI)I = pA (λ)I. Aufgrund der Definition von adj(A−λI) erhalten wir, dass in jedem Element von adj(A − λI) das λ maximal in der Potenz n − 1 vorkommt. Somit finden wir B0 , B1 , ..., Bn−1 , so dass adj(A − λI) = n−1 X Bi λi . i=0 Daraus ergibt sich, dass n−1 X i=0 i Bi Aλ − n−1 X Bi λi+1 = (an λn + ... + a1 λ + a0 )I, i=0 137 wobei a0 , ..., an die Koeffizienten des charakteristischen Polynoms sind. Durch Koeffizientenvergleich sehen wir, dass B0 A = a0 I B1 A − B0 = a1 I B2 A − B1 = a2 I .. . Bn−1 A − Bn−2 = an−1 I −Bn−1 = an I. Multiplizieren wir für alle i = 1, ..., n die (i + 1)-te Gleichung dieses Systems mit Ai , so erhalten wir B0 A = a0 I 2 B1 A − B0 A = a1 A B2 A3 − B1 A2 = a2 A2 .. . n n−1 Bn−1 A − Bn−2 A = an−1 An−1 −Bn−1 An = an An . Die Summe aller Gleichungen bedeutet 0 = a0 I + a1 A + a2 A2 + ... + an−1 An−1 + an An = pA (A). Nun beweisen wir den Satz Pn für Endomorphismen. Sei U = {u1 , ..., un } eine Basis von V und v = i=1 ci ui ∈ V beliebig. Wir betrachten nun M := U MU (ϕ). Dann gilt für alle k = 1, ..., m: M k = MUU (ϕk ) (ÜA). Der Satz von Cayley-Hamilton für Matrizen liefert uns a0 + a1 M + ... + am M m = 0, [k] wobei a0 + a1 λ + ... + an λn = det(M − λI) = det(ϕ − λidV ). Seien mij die Matrixeinträge von M k . Dann erhalten wir für alle i, j ∈ {1, ..., n}, dass m X [k] ak mij = 0 k=0 und somit n X i=1 ci m X k=0 ak n X j=1 [k] mij uj = n X i=1 138 ci n X m X j=1 k=0 [k] ak mij uj = O, Q=P +v −−→ v = PQ P Abbildung 4.1: Anheften des Vektors v ∈ V an einen Punkt P ∈ A in einem affinen Raum (A, V , +). d.h. n X ci i=1 m X ak ϕk (ui ) = O. k=0 Da ϕ linear ist, so erhalten wir m X k ak ϕ (v) = m X k=0 ak k=0 n X ci ϕk (ui ) = O. i=1 2 7 Affine Geometrie 7.1 Affine Räume Definition 7.1. Sei A eine Menge von Punkten und V ein K-Vektrorraum. Dann heißt (A, V, +) ein affiner Raum, falls (i) ∀P ∈ A ∀v ∈ V : P + v ∈ A (ii) ∀P ∈ A ∀v, w ∈ V : P + (v +V w) = (P + v) + w (iii) ∀P ∈ A : P + O = P , wobei O der Nullvektor von V ist (iv) ∀P, Q ∈ A ∃!v ∈ V : Q = P + v (einfache Transitivität) Geometrisch lässt sich die Verknüpfung P +v als Anheften eines Vektors v an den Punkt P interpretieren, siehe Abb. 4.1. Für gegebene Punkte P, Q ∈ A nennt man den eindeutigen Vektor v ∈ V mit Q = P + v den Verbindungs−→ vektor P Q von P nach Q. Bemerkung 7.2. Falls klar ist, welcher Vektorraum gemeint ist, spricht man kurz auch einfach nur von einem affinen Raum A. 139 Lemma 7.3. Sei (A, V, +) ein affiner Raum. Dann existiert eine bijektive Abbildung zwischen V und A. Beweis: Sei P∗ ∈ A ein beliebiger Punkt. Dann ist die Abbildung ϕ:V →A v 7→ P∗ + v eine bijektive Abbildung, da es wegen der einfachen Transitivität für jedes Q ∈ A genau ein v ∈ V gibt, so dass f (v) = P∗ + v = Q. 2 Definition 7.4. Die Dimension eines affines Raumes (A, V, +) ist definiert als dimK (A) := dimK (V ). Lemma 7.5. Seien (A1 , V, +) und (A2 , V, +) zwei affine Räume mit dem gleichen Vektorraum V . Dann gibt es eine bijektive Abbildung zwischen A1 und A2 . Beweis: Nach Lemma 7.3 existieren zwei Bijektionen ϕ1 : V → A1 und ϕ2 : V → A2 . Dann ist ϕ : A1 → A2 mit ϕ := ϕ2 ◦ ϕ−1 2 1 bijektiv. Lemma 7.6. Sei (A, V, +) ein affiner Raum und P, Q, R ∈ A. Dann gilt die Dreiecksregel −→ −→ −→ P R = P Q +V QR. −→ −→ −→ Beweis: Seien u := P Q, v := QR und w := P R. Dann gilt nach Definition, dass P + w = R = Q + v = (P + u) + v = P + (u +V v). Aus der einfachen Transitivität folgt nun, dass w = u +V v, d.h. −→ −→ −→ P R = P Q +V QR. 2 Definition 7.7. Sei (A, V, +) ein affiner Raum. Dann heißt N ein affiner Unterraum, falls es einen Unterraum U von V gibt und ein P0 ∈ A existiert, so dass N = {Q ∈ A | Q = P0 + u, u ∈ U }. Man schreibt dafür auch kurz N = P0 + U . 140 Q v R u w =u+v P Abbildung 4.2: Dreiecksregel in affinen Räumen. Lemma 7.8. Sei N = P0 +U ein affiner Unterraum von (A, V, +) mit P0 ∈ A und U ⊆ V . Dann ist (N, U, +) ein affiner Raum. Beweis: Da N ⊆ A und U ⊆ V , so genügt es, die Eigenschaften (i) und (iv) eines affinen Unterraums nachzuweisen. (i) Sei Q ∈ N und v ∈ U . Dann existieren ein P0 ∈ N und ein u ∈ U , so dass Q + v = (P0 + u) + v = P0 + (u +V v) ∈ N. (iv) Seien P, Q ∈ N . Dann existieren P0 ∈ A und u, v ∈ U , so dass P = P0 + u, Q = P0 + v. Damit erhalten wir Q = P0 + v = P0 + (u − u) + v = (P0 + u) + (−u + v) = P + w mit w := v − u ∈ U. Wir nehmen nun an, dass es zwei Vektoren w, z ∈ U mit Q = P +w und Q = P + z gibt. Dann gilt w = z aufgrund der einfachen Transitivität von (A, V, +). 2 Bemerkung 7.9. Sei (A, V, +) ein affiner Raum und P0 ∈ A. Für zwei Unterräume U1 und U2 von V mit P0 + U1 = P0 + U2 gilt: U1 = U2 , d.h. der zu einem affinen Unterraum N gehörige Unterraum U ist eindeutig. Beweis: Seien U1 und U2 Unterräume von V mit P0 + U1 = P0 + U2 . Wir zeigen, dass U1 ⊆ U2 . Sei u1 ∈ U1 . Dann gilt P0 + u1 ∈ P0 + U1 = P0 + U2 , 141 d.h. ∃u2 ∈ U2 , so dass P0 + u1 = P0 + u2 . Aufgrund der Transitivität folgt u1 = u2 , d.h. u1 ∈ U2 , also U1 ⊆ U2 . Durch Vertauschung von U1 und U2 erhält man auch die umgekehrte Richtung U2 ⊆ U1 . 2 Bemerkung 7.10. Ein affiner Unterraum N ist unabhängig von der Wahl des Punktes P0 ∈ N . Beweis: Seien P0 , Q0 ∈ N und N = P0 + U mit U ⊆ V . Dann ist Q0 + U ⊆ P0 + U, −−−→ denn mit w := P0 Q0 ∈ U gilt für beliebige u ∈ U , dass Q0 + u = (P0 + w) + u = P0 + (w +V u) ∈ P0 + U. Durch Vertauschung von P0 und Q0 erhalten wir die umgekehrte Richtung und damit Q0 + U = P0 + U, 2 Bemerkung 7.11. Für einen affinen Unterraum N = P0 + U nennt man P0 ∈ A einen Aufpunkt von N und U ⊆ V die Richtung von N . Definition 7.12. (Spezielle affine Unterräume). Sei N ein affiner Unterraum von (A, V, +). (i) Falls dimK (N ) = 0, so nennt man N einen (affinen) Punkt. (ii) Falls dimK (N ) = 1, so nennt man N eine (affine) Gerade. (iii) Falls dimK (N ) = 2, so nennt man N eine (affine) Ebene. (iv) Falls dimK (N ) = dimK (A) − 1, so nennt man N eine Hyperebene von A. Beispiele: 1. Seien P, Q zwei verschiedene Punkte im R2 . Dann bildet P + span {v} = {P + cv | c ∈ R} −→ für v := P Q die Gerade im R2 , die durch die Punkte P und Q geht. 142 2. Seien P, Q, R drei verschiedene Punkte im R3 . Dann bildet N := P + span {v, w} = {P + av + bw | a, b ∈ R} −→ −→ für v := P Q und w := P R einen affinen Unterraum im R3 . Falls dimR (N ) = 1, dann liegen P , Q und R auf einer Geraden, nämlich der Geraden N . Falls dimR (N ) = 2, dann ist N die Ebene im R3 , die durch die Punkte P , Q und R aufgespannt wird. Definition 7.13. Seien N1 und N2 zwei affine Unterräume eines affinen Raumes (A, V, +). Dann heißen N1 und N2 parallel bzw. schwach parallel, wenn für die zugehörigen Unterräume U1 und U2 gilt: U1 = U2 bzw. U1 ( U2 . Lemma 7.14. Seien N1 und N2 zwei parallele affine Unterräume eines affinen Raumes (A, V, +). Dann gilt entweder N1 = N2 oder N1 ∩ N2 = ∅. Beweis: Nach Voraussetzung existieren ein Unterraum U von V und zwei Punkte P1 ∈ N1 , P2 ∈ N2 , so dass N1 = P1 + U und N2 = P2 + U. −−→ Sei v := P1 P2 . Falls v ∈ U , dann gilt für alle u ∈ U , dass P2 + u = (P1 + v) + u = P1 + (v + u) ∈ N1 , d.h. N2 ⊆ N1 sowie P1 + u = (P2 + (−v)) + u = P1 + (−v + u) ∈ N2 , d.h. N1 ⊆ N2 und somit N1 = N2 . Sei nun v ∈ / U . Angenommen, es existiert ein P ∈ N1 ∩ N2 . Dann existieren u1 ∈ U und u2 ∈ U mit P1 + u1 = P = P2 + u2 = P1 + (v + u2 ). Aufgrund der Transitivität gilt u1 = v + u2 , d.h. v = u1 − u2 ∈ U im Widerspruch zur Annahme. Also ist N1 ∩ N2 = ∅. 2 Bemerkung: Seien N1 und N2 zwei schwach parallele affine Unterräume eines affinen Raumes (A, V, +). Dann gilt entweder N1 ( N2 oder N1 ∩ N2 = ∅. (ÜA) Definition 7.15. Seien N1 und N2 zwei affine Unterräume eines affinen Raumes (A, V, +). Dann heißt N1 ∨ N2 die affine Hülle von N1 und N2 , wenn N1 ∨ N2 der kleinste affine Unterraum von (A, V, +) mit N1 ⊆ (N1 ∨ N2 ) und N2 ⊆ (N1 ∨ N2 ) ist. 143 Lemma 7.16. Seien N1 und N2 zwei affine Unterräume eines affinen Raumes (A, V, +). Dann lässt sich N1 ∨ N2 einfach wie folgt darstellen. Für N1 = P1 + U1 und N2 = P2 + U2 gilt: −−→ N1 ∨ N2 = P1 + U mit U = span {P1 P2 } + U1 + U2 . Beweis: Sei N := N1 ∨ N2 . Da P1 ∈ N1 ⊆ N , so existiert ein Unterraum U von V , so dass N = P1 + U . Wir zeigen, dass −−→ span {P1 P2 } + U1 + U2 ⊆ U. Dann folgt die Behauptung daraus, dass N1 ∨N2 der kleinste affine Unterraum von (A, V, +) ist. Da −−→ −−→ span {P1 P2 } + U1 + U2 = span {{P1 P2 } ∪ U1 ∪ U2 }, −−→ so brauchen wir nur zu zeigen, dass P1 P2 ∈ U , U1 ⊆ U und U2 ⊆ U . −−→ 1. Für v := P1 P2 gilt P1 + v = P2 ∈ N2 ⊆ N und somit v ∈ U . 2. Für alle u1 ∈ U1 gilt P1 + u1 ∈ N1 ⊆ N und somit u1 ∈ U . 3. Für alle u2 ∈ U2 gilt P1 + (v + u2 ) = P2 + u2 ∈ N2 ⊆ N und somit v + u2 ∈ U . Da auch v ∈ U , so folgt u2 = (v + u2 ) − v ∈ U . 2 Beispiel: Seien N1 und N2 zwei Geraden im R3 . 1. Falls N1 und N2 genau einen Schnittpunkt gemeinsam haben, dann ist N1 ∨ N2 die Ebene im R3 , die von den beiden Geraden aufgespannt wird. 2. Falls N1 und N2 keinen Schnittpunkt gemeinsam haben, dann ist N1 ∨ N2 der gesamte Raum R3 (falls N1 und N2 nicht parallel) oder eine Ebene, die durch den Vektor P1 P2 und die Gerade N1 aufgespannt wird (falls N1 und N2 parallel). 3. Falls N1 und N2 mehr als einen Schnittpunkt gemeinsam haben, dann ist N1 = N2 = N1 ∨ N2 . Lemma 7.17. Seien N1 = P1 +U1 und N2 = P2 +U2 zwei affine Unterräume eines affinen Raumes (A, V, +). Dann gilt: N1 ∩ N2 6= ∅ ⇔ 144 −−→ P1 P2 ∈ U1 + U2 . Beweis: (⇒) Sei N1 ∩ N2 6= ∅ und P ∈ N1 ∩ N2 . Dann existieren u1 ∈ U1 und u2 ∈ U2 mit P1 + u1 = P = P2 + u2 . −−→ Für v := P1 P2 erhalten wir P1 + u1 = P1 + (v + u2 ), d.h. u1 = v + u2 und somit v = u1 − u2 ∈ U1 + U2 . −−→ (⇐) Sei v := P1 P2 ∈ U1 + U2 . Dann existieren u1 ∈ U1 und u2 ∈ U2 , so dass v = u1 + u2 . Somit gilt für P := P1 + u1 ∈ N1 , dass auch P = P2 + (−v + u1 ) = P2 + (−u2 ) ∈ N2 , d.h. N1 ∩ N2 6= ∅. 2 Satz 7.18. (Dimensionssatz für affine Räume). Seien N1 = P1 + U1 und N2 = P2 + U2 zwei affine Unterräume eines affinen Raumes (A, V, +). Dann gilt: (i) Falls N1 ∩ N2 6= ∅, dann gilt dimK (N1 ∨ N2 ) = dimK (N1 ) + dimK (N2 ) − dimK (U1 ∩ U2 ). (ii) Falls N1 ∩ N2 = ∅, dann gilt dimK (N1 ∨ N2 ) = 1 + dimK (N1 ) + dimK (N2 ) − dimK (U1 ∩ U2 ). Beweis: Aufgrund von Lemma 7.16 wissen wir, dass N1 ∨ N2 = P1 + U, −−→ U = span {P1 P2 } + U1 + U2 . Daraus ergibt sich, dass dimK (N1 ∨ N2 ) = dimK (U ). 145 −−→ (i) Da N1 ∩ N2 6= ∅, so gilt aufgrund von Lemma 7.17, dass P1 P2 ∈ U1 + U2 und somit U = U1 +U2 . Der Dimensionssatz für Vektorräume führt uns zum Ergebnis dimK (N1 ∨ N2 ) = dimK (U1 + U2 ) = dimK (U1 ) + dimK (U2 ) − dimK (U1 ∩ U2 ) = dimK (N1 ) + dimK (N2 ) − dimK (U1 ∩ U2 ). −−→ (ii) Da N1 ∩ N2 = ∅, so gilt aufgrund von Lemma 7.17, dass P1 P2 ∈ / U1 + U2 und somit dimK (U ) = 1 + dimK (U1 + U2 ). Der Dimensionssatz für Vektorräume liefert jetzt dimK (N1 ∨ N2 ) = 1 + dimK (U1 ) + dimK (U2 ) − dimK (U1 ∩ U2 ) = 1 + dimK (N1 ) + dimK (N2 ) − dimK (U1 ∩ U2 ). 2 7.2 Affine Basen, affine Koordinaten Sei im Folgenden (A, V, +) ein affiner Raum. Definition 7.19. Seien P0 , ..., Pn ∈ A. Dann heißen P0 , ..., Pn affin unabhängig, falls die Vektoren −−→ −−→ −−−→ P0 P1 , P0 P2 , , ..., P0 Pn , −−→ −−→ −−−→ linear unabhängig sind. Bilden die Vektoren {P0 P1 , P0 P2 , , ..., P0 Pn , } eine Basis, dann nennt man die Menge P = {P0 , P1 , ..., Pn } eine affine Basis von A. Definition 7.20. Sei P = {P0 , P1 , ..., Pn } eine affine Basis von A und P ∈ A. Dann nennt man die eindeutig bestimmten Skalare cj ∈ K mit n −−→ X −−→ P0 P = cj P0 Pj j=1 die affinen Koordinaten von P bezüglich der affinen Basis P von A. Die Koordinatendarstellung des Punktes P bezeichnen wir mit c1 .. . . cn aff 146 Beispiel: 1. Wir betrachten den affinen Raum K n . Dann bilden die Punkte 0 1 0 .. .. .. P0 = . , P 1 = . , . . . , P n = . 0 0 aff 1 aff aff eine affine Basis (die sogenannte affine Standardbasis) des affinen Raumes K n , denn die Vektoren 1 0 −−→ . −−−→ . P0 P1 = .. , . . . , P0 Pn = .. 0 1 bilden eine Basis (die Standardbasis) des Vektorraumes K n . 2. Wir betrachten den affinen Raum R2 . Dann bilden die Punkte 1 1 2 P0 = , P1 = , P2 = 0 2 3 eine affine Basis des affinen Raumes R2 , denn die Vektoren −−→ −−→ 0 1 P0 P 1 = und P0 P2 = 2 3 bilden eine Basis des Vektorraumes R2 . 3. Sei Q ∈ R2 und habe bezüglich der Standardbasis die affinen Koordinaten ( 46 )aff . Da 1 0 4 0 1 4 +6 = = −3 +4 , 0 1 6 2 3 so sind ( −3 4 )aff die Koordinaten von Q bezüglich der affinen Basis {P0 , P1 , P2 } aus 2. 7.3 Affine Abbildungen Definition 7.21. Seien (A1 , V1 , +) und (A2 , V2 , +) zwei affine Räume. Eine Abbildung f : A1 → A2 heißt affin, falls ein Punkt P ∈ A1 existiert, so dass − → fP : V1 → V2 mit −−−−−−→ − → −→ fP (P Q) = f (P )f (Q) ∀ Q ∈ A1 linear ist. 147 Lemma 7.22. Die Definition einer affinen Abbildung f : A1 → A2 ist unabhängig von dem ausgezeichneten Punkt P ∈ A1 . Beweis: Seien P, R ∈ A1 beliebig. Wir zeigen, dass fP = fR . Für jedes Q ∈ A1 gilt −→ −→ −→ −→ −→ fR (P Q) = fR (P R + RQ) = fR (−RP + RQ) −−−−−−→ −−−−−−→ −→ −→ = −fR (RP ) + fR (RQ) = −f (R)f (P ) + f (R)f (Q) −−−−−−→ −−−−−−→ −−−−−−→ −→ = f (P )f (R) + f (R)f (Q) = f (P )f (Q) = fP (P Q). 2 Bemerkung: Aufgrund von Lemma 7.22 können wir die Vektorraumabbil→ − → − dung fp einer affinen Abbildung f einfach mit f bezeichnen. Dabei gilt dann −−−−−−→ → − −→ f (P Q) = f (P )f (Q) und → − −→ f (Q) = f (P ) + f (P Q). Definition 7.23. Seien (A, V, +) und (B, W, +) zwei affine Räume. Dann definieren wir A(V, W ) := {f : A → B | f ist affin.} A(V ) := A(V, V ) := {f : A → A | f ist affin.} GA(V ) := {f ∈ A(V ) | f ist bijektiv.} Bemerkung: (GA(V ), ◦) ist eine Gruppe. Sie heißt die affine Gruppe zum K-Vektorraum V . Lemma 7.24. Seien (A1 , V1 , +), (A2 , V2 , +) zwei affine Räume und f : A1 → A2 eine affine Abbildung. Sei N1 = P1 + U1 ein affiner Unterraum von A1 . Dann ist f (N1 ) = {f (P ) ∈ A2 | P ∈ A1 } ein affiner Unterraum von A2 . Beweis: Offenbar gilt für jedes u1 ∈ U1 , dass → − f (P1 + u1 ) = f (P ) + f (u1 ) ∈ A2 und damit → − f (N1 ) = f (P1 + U1 ) = f (P ) + f (U1 ) ⊆ A2 . 148 2 Bemerkung: Affine Abbildungen überführen also affine Unterräume wie Geraden, Ebenen etc. wieder in affine Unterräume. Falls eine affine Abbildung bijektiv ist, dann werden Geraden in Geraden und Ebenen in Ebenen etc. überführt. Beispiel: 1. Translationen (Verschiebungen). Sei (A, V, +) ein affiner Raum und ein v ∈ V fixiert. Dann ist die Abbildung fv : A → A mit fv (P ) := P + v eine bijektive affine Abbildung. Wir nennen diese Abbildung eine Translation um den Vektor v. → − Es gilt fv = idV , denn für alle P, Q ∈ A gilt −−−−−−−→ −→ −→ −→ fv (Q) = Q + v = P + P Q + v = fv (P ) + P Q, d.h. fv (P )fv (Q) = P Q und somit −−−−−−−→ −→ → − −→ fv (P Q) = fv (P )fv (Q) = P Q. 2. Zentrische Streckungen. Sei (A, V, +) ein affiner Raum und ein Z ∈ A fixiert. Dann ist die Abbildung fZ : A → A mit −→ fZ (P ) := Z + λ · ZP , λ ∈ K, λ 6= 0 eine bijektive affine Abbildung (ÜA). Wir nennen diese Abbildung eine zentrische Streckung mit dem Zentrum Z und dem Streckungsfaktor λ. 7.4 Hauptsatz der affinen Geometrie Definition 7.25. Drei Punkte P, Q, R eines affinen Raumes (A, V, +) heißen kollinear, falls eine affine Gerade N ⊆ A existiert, so dass P, Q, R ∈ N . Lemma 7.26. Seien (A, V, +) ein affiner Raum, f : A → A eine bijektive, affine Abbildung und P, Q, R ∈ A kollinear. Dann sind auch die Bildpunkte f (P ), f (Q), f (R) kollinear. 149 Satz 7.27. (Hauptsatz der affinen Geometrie). Sei V ein reeller Vektorraum und (A, V, +) ein affiner Raum der Dimension ≥ 2. Falls f : A → A eine bijektive Abbildung ist, die je drei kollineare Punkte P, Q, R ∈ A in drei kollineare Punkte f (P ), f (Q), f (R) abbildet, so ist f eine affine Abbildung. Beweisidee: Schritt 1. Falls P, Q, R ∈ A affin unabhängig sind, so sind auch f (P ), f (Q), f (R) affin unabhängig. Man zeigt dies indirekt. Falls f (P ), f (Q), f (R) affin abhhängig sind, dann Schritt 2. Ist N eine affine Gerade in A, so ist auch f (N ) eine affine Gerade in A. Man zeigt dafür, dass → − f (P + span {v}) = f (P ) + span { f (v)}. Schritt 3. Sind N1 und N2 zwei parallele Geraden in A, so sind auch f (N1 ) und f (N2 ) parallel. Man zeigt dafür, dass aus N1 = P1 + span {v}, N2 = P2 + span {v} folgt, dass f (N1 ) = f (P1 ) + span {w}, −−−−−−−−−−→ mit w = f (P1 )f (P1 + v). f (N2 ) = f (P2 ) + span {w} Schritt 4. Die einzige Abbildung ϕ : R → R, die additiv und multiplikativ ist, d.h. ∀x, y ∈ R : ϕ(x + y) = ϕ(x) + ϕ(y) und ϕ(x · y) = ϕ(x) · ϕ(y), ist die identische Abbildung id. → − Schritt 5. Die Abbildung f : V → V ist linear: → − (i) Es gilt die Additivität von f für linear unabhängige Vektoren x, y ∈ V : Die Eckpunkte P , P + x, P + y und P + x + y formen ein Parallelogramm. Aufgrund der Schritte 1-3 wissen wir, dass dann auch die Punkte f (P ), f (P + x), f (P + y) und f (P + x + y) ein Parallelogramm darstellen, woraus → − → − → − f (x + y) = f (x) + f (y) folgt. 150 → − (ii) Es gilt die Homogenität von f : Für fixiertes P ∈ A und fixiertes x ∈ V mit x 6= O betrachten wir die Abbildung ϕ : R → R definiert durch ϕ(λ) := λ0 und → − → − f (P ) + f (λx) = f (P ) + λ0 f (x). Die Funktion ϕ ist wohldefiniert, da N = P +span {x} eine Gerade und damit auch → − → − f (N ) = f (P ) + f (span {x}) = f (P ) + span { f (x)} eine Gerade ist. Die Abbildung ϕ ist additiv und multiplikativ. Mit Schritt 4 folgt daraus → − → − f (λx) = λ f (x). (iii) Für linear abhängige Vektoren x, y ∈ V finden wir ein λ ∈ R mit → − y = λx oder x = λy und es folgt die Additivität von f mit Hilfe von (ii). 2 8 Euklidische und unitäre Vektorräume Wir wollen im Folgenden Vektorräume mit einem Skalarprodukt betrachten. Es hat den Vorteil, dass man damit Längen und Winkel messen kann. Reelle Vektorräume mit einem Skalarprodukt heißen euklidische Vektorräume. Komplexe Vektorräume mit einem Skalarprodukt nennt man unitäre Vektorräume. Zunächst interessieren wir uns für den reellen Vektorraum Rn und den komplexen Vektorraum Cn . Das kanonische Skalarprodukt im Rn ist gegeben durch n X T hx, yi := x y = xi yi i=1 n für alle x, y ∈ R . Das Skalarprodukt hat die folgenden Eigenschaften: (i) linear in jeder Komponente, d.h. hx1 + x2 , yi = hx1 , yi + hx2 , yi, hλx, yi = λhx, yi hx, y1 + y2 i = hx, y1 i + hx, y2 i, hx, λyi = λhx, yi und für alle x, y, x1 , y1 , x2 , y2 ∈ Rn und λ ∈ R. 151 (ii) symmetrisch, d.h. hx, yi = hy, xi für alle x, y ∈ Rn . (iii) positiv definit, d.h. hx, xi ≥ 0 für alle x ∈ Rn sowie hx, xi = 0 ⇔ x = 0. Definition 8.1. Sei V ein beliebiger Vektorraum über dem Körper R. Dann heißt eine Abbildung h·, ·i von V × V nach R ein Skalarprodukt oder inneres Produkt auf V , falls die obigen Eigenschaften (i)-(iii) erfüllt sind. Vektorräume über dem Körper R mit einem Skalarprodukt nennen wir euklidische Vektorräume. Mit Hilfe des Skalarproduktes erhalten wir die euklidische Norm q p kxk := hx, xi = x21 + x22 + ... + x2n . Sie stellt den Abstand eines Punktes x im Rn vom Nullpunkt dar. Der Abstand zweier Punkte x, y ∈ Rn ist durch p d(x, y) = kx − yk = (x1 − y1 )2 + (x2 − y2 )2 + ... + (xn − yn )2 gegeben. Lemma 8.2. (Cauchy-Schwarz’sche Ungleichung) Für alle x, y ∈ Rn gilt |hx, yi| ≤ kxk · kyk. Die Gleichheit gilt genau dann, wenn x und y linear abhängig sind. Beweis: Da die Wurzelfunktion momoton ist, so genügt es zu zeigen, dass |hx, yi|2 ≤ kxk2 · kyk2 . Dies ist äquivalent zu n X !2 xi y i i=1 ≤ n X ! x2i i=1 n X ! yi2 . i=1 Durch Ausmultiplikation sehen wir, das dies gerade folgende Ungleichung bedeutet n X n n X n X X xi y i xj y j ≤ x2i yj2 i=1 j=1 i=1 j=1 was nach Umstellen und Multiplikation mit 2 wiederum äquivalent zu 0≤2 n X n X i=1 j=1 x2i yj2 − 2 152 n X n X i=1 j=1 xi y i xj y j ist. Dies können wir auch als 0≤ n X n X i=1 j=1 x2i yj2 −2 n X n X xi y j xj y i + n X n X i=1 j=1 x2j yi2 i=1 j=1 schreiben und wir erhalten die äquivalente Ungleichung X 0≤ (xi yj − xj yi )2 1≤i,j≤n ist. Dies ist offenbar immer der Fall und die Gleichheit gilt genau dann, wenn ∀ 1 ≤ i, j ≤ n. xi yj = xj yi Dies bedeutet aber gerade, dass x und y linear abhängig sind (ÜA). 2 Die Cauchy-Schwarzsche Ungleichung zeigt uns, dass für alle Vektoren (6= 0) gilt: hx, yi −1 ≤ ≤ 1. kxk · kyk Somit existiert genau ein ϕ ∈ [0, π), so dass cos(ϕ) = hx, yi . kxk · kyk Wir definieren diese Zahl ϕ als den Winkel zwischen den Vektoren x und y. Dies entspricht auch der geometrischen Vorstellung, die wir von Winkeln in der Ebene haben. Wir betrachten dazu zwei Vektoren x und y im R2 . Wir skalieren diese so, dass sie die Länge 1 besitzen, d.h. wir bilden x0 := x , kxk y 0 := y . kyk Wir betrachten nun Abbildung 4.3 und erhalten für die dort eingeführten Winkel α und β, dass x0 = (cos α, sin α), y 0 = (cos β, sin β). Per Additionstheorem erhalten wir cos(β − α) = cos β cos α + sin β sin α =< x0 , y 0 >, d.h. cos(ϕ) = hx0 , y 0 i = 153 hx, yi kxk · kyk Abbildung 4.3: Winkel ϕ zwischen zwei Vektoren x0 und y 0 der Länge 1. für ϕ = β − α. Offenbar ist das Skalarprodukt hx, yi = 0 genau dann, wenn ϕ = π/2, d.h. wenn die Vektoren x und y senkrecht aufeinander stehen. Das kanonische Skalarprodukt im Cn ist gegeben durch T hx, yi := x̄ y = n X x̄i yi i=1 für alle x, y ∈ Cn . Das Skalarprodukt im Cn hat die folgenden Eigenschaften: (i) semilinear in der ersten Komponente und linear in der zweiten Komponente, d.h. hx1 + x2 , yi = hx1 , yi + hx2 , yi, hλx, yi = λ̄hx, yi hx, y1 + y2 i = hx, y1 i + hx, y2 i, hx, λyi = λhx, yi und für alle x, y, x1 , y1 , x2 , y2 ∈ Cn und λ ∈ C. (ii) hx, yi = hy, xi für alle x, y ∈ Cn . (iii) positiv definit, d.h. hx, xi ≥ 0 für alle x ∈ Cn sowie hx, xi = 0 ⇔ x = 0. Definition 8.3. Sei V ein beliebiger Vektorraum über dem Körper C. Dann heißt eine Abbildung h·, ·i von V × V nach C ein Skalarprodukt oder inneres Produkt auf V , falls die obigen Eigenschaften (i)-(iii) erfüllt sind. Vektorräume über dem Körper C mit einem Skalarprodukt nennen wir unitäre Vektorräume. 154 Auch hier bekommen wir mit kxk := p hx, xi eine Norm in Cn . 8.1 Orthogonalität Definition 8.4. Sei V ein euklidischer oder unitärer Vektorraum. (i) Zwei Vektoren u und v aus V heißen orthogonal, falls hu, vi = 0. (ii) Zwei Untervektorräume U und W von V heißen orthogonal, falls hu, wi = 0 für alle u ∈ U, w ∈ W. (iii) Zu einer Teilmenge U von V bezeichnen wir den Raum U ⊥ := {v ∈ V : ∀u ∈ U : hu, vi = 0} als das orthogonale Komplement von U . Bemerkung 8.5. Falls V ein euklidischer oder unitärer Vektorraum ist, so ist das orthogonale Komplement U ⊥ einer Teilmenge U von V stets ein Unterraum von V . (ÜA) Bemerkung: Sei V ein endlich dimensionaler Vektorraum V . Dann gilt für jeden Unterraum U ⊆ V gilt (U ⊥ )⊥ = U . Beweis: Sei x ∈ (U ⊥ )⊥ . Dann gilt hx, yh= 0 für alle y ∈ U ⊥ , d.h. 2 Beispiele: 1 1 1. V = R , u = ,v= . Es gilt hu, vi = 1 · 1 + 1 · (−1) = 0, d.h. 1 −1 u und v sind senkrecht zueinander. 1 2 0 3 2. V = R , U = span{ 0 , 0 } und W = span{ 1}. Dann sind W 1 1 0 und U orthogonal, da für alle u ∈ U und w ∈ W gilt, dass 2 hu, wi = u1 · 0 + 0 · w2 + u3 · 0 = 0. 155 4 0 0 3 ⊥ 3. V = R , U = { 0 }. Dann gilt U = span{ 1 , 0}. Es gilt in 0 0 1 ⊥ dem Beispiel noch U ⊕ W = V mit W = U . Man schreibt dann auch U ⊥fW = V . Lemma 8.6. Sei V = Rn und A ∈ M (m × n, R). Dann gilt für das kanonische Skalarprodukt: (i) Jeder Vektor u ∈ ker A ist orthogonal zu jedem Zeilenvektor von A. (ii) Jeder Vektor w ∈ ker AT ist orthogonal zu jedem Spaltenvektor von A. Beweis: (i) Sei u ∈ ker A, d.h. Au = 0. Dann gilt für jede Zeile i von A, dass n X aij uj = 0, j=1 d.h. hai , ui = 0 für alle Zeilenvektoren ai von A. (ii) Dies folgt unmittelbar aus (i), da die Spaltenvektoren von A gerade die Zeilenvektoren von AT sind. 2 Lemma 8.7. Sei V = Rn und A ∈ M (m × n, R). Dann gilt für das kanonische Skalarprodukt: ker AT = (im A)⊥ . 2 Beweis: Übungsaufgabe Definition 8.8. Sei V ein euklidischer oder unitärer Vektorraum. Eine Basis B von V heißt Orthonormalbasis, falls hu, vi = 0 für alle u 6= v ∈ B und kuk = 1 für alle u ∈ B. Die Standardbasis {e1 , ..., en } ist eine Orthonormalbasis in Rn . Eine sehr hilfreiche Eigenschaft von Orthonormalbasen ist in folgendem Lemma beschrieben. Lemma 8.9. Sei {u1 , ..., un } eine Orthonormalbasis eines endlich dimensionalen euklidischen oder unitären Vektorraums V und v ∈ V beliebig. Dann gilt n X v= ci ui mit ci := hui , vi. i=1 156 P Beweis: Sei v = ni=1 ci ui die Basisdarstellung von v. Dann sind die Koeffizienten ci eindeutig bestimmt und es gilt für alle j = 1, ..., n, dass huj , vi = huj , n X i=1 ci u i i = n X i=1 ci huj , ui i = cj . 2 Satz 8.10. (Orthonormalisierungssatz nach Gram-Schmidt) Sei V ein endlich dimensionaler euklidischer oder unitärer Vektorraum und W ein Unterraum von V mit der Orthonormalbasis {w1 , ..., wm }. Dann existieren wm+1 , ..., wn in V , so dass {w1 , ..., wm , wm+1 , ..., wn } eine Orthonormalbasis von V ist. Beweis: Falls W = V , so braucht man keine weitere Ergänzung. Sei nun W ⊂ V und w ∈ V \W . Dann sei v := m X i=1 hwi , wiwi . Damit gilt für u := w − v, dass u⊥W , denn m m X X hwj , ui = hwj , w − hwi , wiwi i = hwj , wi − hwi , wihwj , wi i i=1 m X = hwj , wi − i=1 i=1 hwi , wiδij = hwj , wi − hwj , wi = 0 für alle Basisvektoren wj ∈ W . Somit gilt für alle cj ∈ K, dass m m X X h cj wj , ui = c̄j hwj , ui = 0, j=1 j=1 d.h. u⊥W . Nun setzen wir wm+1 := für alle w ∈ W gilt hw, wm+1 i = hw, 1 u. kuk Dann gilt auch wm+1 ⊥W , denn 1 1 ui = hw, ui = 0. kuk kuk und können auf die gleiche Weise sukzessive wm+2 , ..., wn konstruieren, so dass {w1 , ..., wm , wm+1 , ..., wn } eine Orthonormalbasis von V ist. 2 Korollar 8.11. Jeder endlich dimensionale euklidische oder unitäre Vektorraum V 6= {O} besitzt eine Orthonormalbasis. 157 Dazu startet man einfach mit einem beliebigen Vektor von v ∈ V mit der Norm 1 und ergänzt diesen zu einer Basis von V . Korollar 8.12. Sei V ein endlich dimensionaler euklidischer oder unitärer Vektorraum und U ein Unterraum von V . Dann gilt U ⊥fU ⊥ = V dim U + dim U ⊥ = dim V. und Beweis: Sei B = {u1 , ..., um } eine Orthonormalbasis von U . Dann ergänzen wir diese zu einer Orthonormalbasis {u1 , ..., um , um+1 , ..., un } von V . Dann gilt U ⊥ = span{um+1 , ..., un }, denn: (⊆) Sei v ∈ U ⊥ beliebig. Da {u1 , ..., um , um+1 , ..., un } eine Orthonormalbasis von V ist, so gilt n X v= ci ui mit ci := hui , vi. i=1 ⊥ Da v ∈ U , so gilt ci = 0 für alle i = 1, ..., m. Also haben wir v= n X i=m+1 ci ui ∈ span{um+1 , ..., un }. (⊇) Sei v ∈ span{um+1 , ..., un }. Dann existieren cm+1 , ..., cn , so dass n X v= cj uj . j=m+1 Sei u ∈ U beliebig. Dann existieren c1 , ..., cm , so dass u= m X ci u i . i=1 Dann gilt m n m n X X X X hu, vi = h ci ui , cj uj i = c̄i cj hui , uj i = 0, i=1 j=m+1 i=1 j=m+1 d.h. v ∈ U ⊥ . Nun folgt unmittelbar die Behauptung. 2 Definition 8.13. Sei K = R oder K = C. Eine Matrix M ∈ M (n × n, K) heißt orthogonal, falls die Spalten von M eine Orthonormalbasis bilden, d.h. falls M H = M −1 , wobei M H = M̄ > . Ein Projektor P ∈ M (n × n, K) heißt orthogonaler Projektor oder Orthoprojektor, falls P H = P ist, d.h. P̄ > = P . 158 Bemerkung 8.14. Man beachte, dass eine orthogonale Matrix per Definition stets regulär ist. Ein orthogonaler Projektor oder (zur besseren Abgrenzung) ein Orthoprojektor ist i.a. nicht regulär. Beispiel: Sei K = C3 . Dann ist 1 M=√ 2 i −i i i eine orthogonale Matrix, denn 1 M M=√ 2 H −i −i 1 i −i √ = I. i −i 2 i i Daneben ist 1 2 P := 0 − 12 0 − 12 1 0 0 12 ein Orthoprojektor. Er projiziert v ∈ C3 senkrecht auf die Ebe 1 alle Vektoren 0 0 ne, die durch die Vektoren −1 und 1 aufgespannt wird. 0 Lemma 8.15. Jede orthogonale Matrix M ∈ M (n × n, K) bewirkt eine Kongruenztransformation im K n , d.h. die Länge von Vektoren und der Winkel zwischen je zwei Vektoren bleibt erhalten. Beweis: Sei M ∈ M (n × n, K) orthogonal und v ∈ K n beliebig. Dann gilt kM vk2 = hM v, M vi = (M v)H M v = v H M H M v = v H v = hv, vi = kvk2 , d.h. kM vk = kvk. Damit haben wir gezeigt, dass die Länge von v erhalten bleibt. Für v, w ∈ V mit v 6= O und w 6= O gilt: (M v)H M w hM v, M wi p =p kM vkkM wk (M v)H (M v) (M w)H (M w) =√ vH w hv, wi √ = , H H kvkkwk v v w w d.h. der Winkel zwischen M v und M w ist gleich dem Winkel zwischen v und w. 2 Lemma 8.16. Sei V = K n für K = R oder K = C mit dem StandardSkalarprodukt. Dann projiziert jeder Orthoprojektor P ∈ M (n × n, K) die Vektoren v ∈ V senkrecht auf im P . 159 Beweis: Das Standardskalarprodukt in Cn lautet hx, yi = n X x̄i yi = xH y, i=1 wobei xH := x̄> . Da x̄ = x für x ∈ Rn , so genügt es, den Satz für K = C zu beweisen. Es ist zu zeigen, dass ∀v ∈ V : hv − P v, P vi = 0 Offenbar gilt für alle v ∈ V : hv − P v, P vi = (v − P v)H P v = v H P v − v H P H P v = v H P v − v H P P v = v H P v − v H P v = 0. 2 Anmerkung: Ein Projektor P ∈ M (n × n, K) projiziert alle Vektoren v ∈ K n auf einen Unterraum von K n , d.h. P v ∈ K n für alle v ∈ K n . So projiziert beispielsweise v1 1 0 0 v1 P = 0 1 0 den Vektor v = v2 auf den Vektor P v = v2 ∈ K 3 . 0 0 0 0 v3 Demgegenüber spricht man bei der Abbildung p : K 3 → K 2 mit v p(v) = 1 v2 von einer Projektion. Lemma 8.17. Sei A ∈ M (m × n, K) mit K = R oder K = C. Dann gilt für AH := ĀT , dass (i) ker AH A = ker A und ker AAH = ker AH , (ii) im AH A = im AH und im AAH = im A. Beweis: (i) Die zweite Gleichung ker AAH = ker AH folgt aus der ersten Gleichung ker AH A = ker A, wenn wir anstelle von A die Matrix AH nehmen und beachten, dass (AH )H = A. Wir zeigen nun, dass ker AH A = ker A. 160 (⊇) Klar, da AH Ax = 0, falls Ax = 0. (⊆) Sei x ∈ ker AH A. Dann gilt hAx, Axi = (Ax)H Ax = xH AH Ax = 0 und somit Ax = 0, d.h. x ∈ ker A. (ii) Die zweite Gleichung im AAH = im A folgt wieder aus der ersten Gleichung im AH A = im AH , wenn wir anstelle von A die Matrix AH betrachten. Wir zeigen nun, dass im AH A = im AH . Zunächst ist trivialer Weise im AH A ⊆ im AH . Zudem gilt wegen (i) rank (AH A) = n − def(AH A) = n − def(A) = rank (A) = rank (A> ) = rank (AH ) und somit dimK (im AH A) = dimK (im AH ). Mit im AH A ⊆ im AH folgt nun im AH A = im AH . 2 Satz 8.18. Sei V ein euklidischer oder unitärer Vektorraum. Seien U und W Unterräume von V . Falls U ⊥fW = V , dann existiert stets ein Orthoprojektor P auf U längs W , d.h. ein Orthoprojektor P mit im P = U und ker P = W . Beweis: Sei {u1 , ..., u` } eine ONB von U . Wir definieren die Matrizen A := (u1 |u2 |...|u` ) und P := AAH . Nun zeigen wir, dass P ein Orthoprojektor auf U längs W ist. (i) Nach Konstruktion von A gilt (AH A)ij = (uH i uj )ij = (hui , uj i)ij = (δij )ij = I. Somit erhalten wir P 2 = AAH AAH = AIAH = AAH = P, d.h. P ist ein Projektor. (ii) P ist Orthoprojektor, da P H = (AAH )H = (AH )H AH = AAH = P. (iii) U = im A = im AAH = im P wegen Lemma 8.17. 161 (iv) W = U ⊥ = (im A)⊥ = ker AH = ker AAH = ker P wegen Lemma 8.17. Die Gleichung (im A)⊥ = ker AH wird klar, wenn man beachtet, dass (im A)⊥ = {z ∈ K m : hz, yi = 0 ∀ y ∈ im A} = {z ∈ K m : hz, Axi = 0 ∀ x ∈ K n } = {z ∈ K m : z H Ax = 0 ∀ x ∈ K n } = {z ∈ K m : z H A = 0} = {z ∈ K m : (AH z)H = 0} = {z ∈ K m : AH z = 0} = ker AH . 2 Falls U und W nur eine direkte Summe bilden, dann gilt folgender Satz. Satz 8.19. Sei V ein euklidischer oder unitärer Vektorraum. Seien U und W Unterräume von V . Falls U ⊕ W = V , dann existiert stets ein Projektor P auf U längs W . Beweis: Da U ⊕ W = V , so existiert für jedes v ∈ V genau ein u ∈ U und genau ein w ∈ W , so dass v = u + w. Wir definieren nun die Abbildung p : V → U als p(v) = u. Dann ist p linear, denn p(v1 + v2 ) = u1 + u2 = p(v1 ) + p(v2 ) für v1 = u1 + w1 , v2 = u2 + w2 und p(λv) = λu = λp(v) für v = u + w, λ ∈ K. Nach Konstruktion gilt p(u) = u für alle u ∈ U und p(w) = 0 für alle w ∈ W . Zudem gilt für alle v ∈ V , dass p(p(v)) = p(u) = u = p(v) für v = u + w. Eine solche Abbildung p nennt man eine Projektion auf U längs W . Wir definieren nun P := (u1 |u2 |...|un ), wobei n = dimK V und ei = ui + wi für alle i = 1, ..., n. Wir zeigen nun, dass P ein Projektor auf U längs W ist. Es gilt P ei = ui = p(ei ) und somit P 2 ei = P p(ei ) = p(P ei ) = p(p(ei )) = p(ui ) = ui = P ei für alle i = 1, ..., n, d.h. P 2 = P . Außerdem gilt P v = p(v) für alle v ∈ V , da p linear ist. Nun haben wir noch im P = L({u1 , ..., un }) ⊆ U. 162 Falls u ∈ U , so gilt u = p(u) = P u ∈ im P , also im P = U . Falls w ∈ W , so gilt P w = p(w) = 0, d.h. W ⊆ ker P . Zudem gilt dimK W = n − dimK U = n − dimK im P = dimK ker P. 2 Somit gilt auch W = ker P . Bemerkung 8.20. Die Projektoren in den Sätzen 8.18 und 8.19 sind eindeutig bestimmt. Dies kann man sich leicht in folgenden Schritten klar machen. (i) Falls P ein Projektor auf einen Untervektorraum U von V ist, so gilt P u = u genau dann, wenn u ∈ U = im P . Denn für u ∈ U = im P existiert ein x ∈ K n mit dimK V = n, so dass u = P x und somit P u = P 2 x = P x = u. Falls P u = u, so gehört u trivialer Weise zu im P = U . (ii) Falls P ein Projektor ist, so ist Q = I − P auch ein Projektor. Denn: Q2 = (I − P )(I − P ) = I − 2P + P 2 = I − 2P + P = I − P = Q (iii) Falls P ein Projektor ist, so gilt im P = ker(I − P ) und ker P = im (I − P ). Denn x ∈ im P ⇔ x = P x ⇔ (I − P )x = 0 ⇔ x ∈ ker(I − P ). Die Gleichung ker P̃ = im (I − P̃ ) folgt aus im P = ker(I − P ), wenn wir den Projektor P̃ := I − P betrachten. (iv) Falls V = U ⊕ W und P1 , P2 Projektoren auf U längs W sind, dann gilt für alle x ∈ K n , dass x ∈ im P1 = U = imP2 und somit P1 x = P2 P1 x = P2 x − P2 (I − P1 )x = P2 x, da im (I − P1 ) = ker P1 = W = ker P2 . Da x beliebig war, so haben wir P1 = P2 . 9 9.1 Zerlegungen Diagonalisierung Definition 9.1. Ein Endomorhismus ϕ heißt diagonalisierbar, falls es eine Basis U aus Eigenvektoren gibt. 163 Definition 9.2. Eine Matrix A ∈ M (n × n, K) heißt diagonalisierbar, falls es eine reguläre Matrix T ∈ M (n × n, K) gibt, so dass T −1 AT =: D eine Diagonalmatrix ist. Lemma 9.3. Eine Matrix A ∈ M (n×n, K) ist genau dann diagonalisierbar, wenn der Endomorhismus ϕ : K n → K n mit ϕ(v) := Av diagonalisierbar ist. Beweis: Sei E = {e1 , ..., en } die Standardbasis von K n . 1. Sei A diagonalisierbar. Dann existiert eine reguläre Matrix T und eine Diagonalmatrix D, so dass T −1 AT = D. Sei vi := T ei für i = 1, ..., n. Dann ist {v1 , ..., vn } eine Basis von V . Zudem ist für alle i = 1, ..., n der Vektor vi ein Eigenvektor zum Eigenwert dii , denn ϕ(vi ) = Avi = T DT −1 (T ei ) = T Dei = T (dii ei ) = dii T ei = dii vi . d.h. ϕ mit ϕ(v) = Av ist diagonalisierbar. 2. Sei ϕ mit ϕ(v) = Av diagonalisierbar. Dann existiert eine Basis U = {v1 , ..., vn } aus Eigenvektoren von ϕ. Sei D = diag(λ1 , ..., λn ), wobei λi der zum Eigenvektor vi gehörige Eigenwert ist. Dann gilt für i = 1, ..., n, dass Avi = ϕ(vi ) = λi vi und somit für T := (v1 |v2 |...|vn ), dass AT = T D und somit T −1 AT = D. Da U eine Basis ist, so ist T regulär und die Behauptung bewiesen. 2 Beispiel: Wir betrachten A= 1 2 . −1 4 Dann sind die Nullstellen des charakteristischen Polynoms 1−λ 2 pA (λ) = det(A − λI) = det −1 4 − λ = (1 − λ)(4 − λ) + 2 = λ2 − 5λ + 6 = (λ − 2)(λ − 3) gerade λ1 = 2 und λ2 = 3. Also hat A genau zwei Eigenwerte, nämlich 2 und 3. Die dazu gehörigen Eigenräume sind −1 2 2 Eig(A, 2) = ker(A − 2I) = ker = span{ } −1 2 1 164 und −2 2 Eig(A, 3) = ker(A − 3I) = ker −1 1 1 = span{ }. 1 Die Eigenvektoren ( 21 ) und ( 11 ) bilden eine Basis des R2 . Somit ist A diagonalisierbar. Wir fügen die Eigenvektoren spaltenweise zu einer Matrix T zusammen, d.h. 2 1 T = . 1 1 Dann gilt T −1 AT = D = 2 0 . 0 3 Lemma 9.4. Wenn A ∈ M (n × n, K) diagonalisierbar ist, so sind die Elemente auf der Hauptdiagonalen von D gerade die Eigenwerte von A, wobei A = T DT −1 mit T regulär. Beweis: Es gelten folgende Äquivalenzen: λ ist ein EW von A ⇔ ∃ v ∈ K n : ⇔ ∃ v ∈ Kn : ⇔ ∃ v ∈ Kn : ⇔ ∃ w ∈ Kn : v 6= 0 ∧ Av = λv v 6= 0 ∧ T AT −1 T v = λT v v 6= 0 ∧ DT v = λT v w 6= 0 ∧ Dw = λw. Offenbar ist λ genau dann ein EW von D, falls λ ein Wert auf der Hauptdiagonalen von D ist. 2 Definition 9.5. Zwei Matrizen A, B ∈ M (n × n, K) heißen ähnlich, falls es eine eine reguläre Matrix T ∈ M (n × n, K) gibt, so dass B = T AT −1 . Lemma 9.6. Zwei zueinander ähnliche Matrizen A und B haben das gleiche charakteristische Polynom. Damit stimmen ihre Eigenwerte überein. Falls B = T AT −1 mit T regulär, dann gilt Eig(B, λ) = {vB ∈ K n | vB = T vA ∧ vA ∈ Eig(A, λ)} =: T Eig(A, λ) für alle Eigenwerte λ. Beweis: Seien A und B ähnliche Matrizen mit A = T BT −1 und T regulär. Dann gilt: pA (λ) = det(A − λI) = det(T BT −1 − λT T −1 ) = det(T (B − λI)T −1 ) = det(T ) det(B − λI) det(T −1 ) = det(T ) det(B − λI)(det(T ))−1 = det(B − λI) = pλ (B) 165 sowie vB ∈ Eig(B, λ) ⇔ BvB = λvB ⇔ T AT −1 vB = λvB ⇔ AT −1 vB = λT −1 vB vA =T −1 vB ⇔ AvA = λvA ⇔ vA ∈ Eig(A, λ) Somit gilt vB = T vA , falls vA ∈ Eig(A, λ) und vB ∈ Eig(B, λ). 2 Ein einfaches Kriterium für die Diagonalisierbarkeit eines Endomorphismus’ ϕ oder einer Matrix A liefert der folgende Satz. Satz 9.7. Sei V ein endlich-dimensionaler K-Vektorraum und ϕ ∈ EndK (V ). Dann sind folgende Bedingungen äquivalent: (i) ϕ ist diagonalisierbar. (ii) Das charakteristische Polynom pϕ (λ) zerfällt in Linearfaktoren und es gilt dimK Eig(ϕ, λi ) = ri ∀1 ≤ i ≤ k wobei pϕ (λ) = ±(λ − λ1 )r1 (λ − λ2 )r2 ...(λ − λk )rk mit paarweise verschiedenen λ1 , λ2 , ..., λk . (iii) Sind λ1 , λ2 , ..., λk die paarweise verschiedenen Eigenwerte von ϕ, so gilt: V = Eig(ϕ, λ1 ) ⊕ Eig(ϕ, λ1 ) ⊕ ... ⊕ Eig(ϕ, λk ). Die Aussagen gelten auch für Matrizen A ∈ M (n × n, K) anstelle von ϕ mit V := K n . Bevor wir den Satz beweisen, zeigen wir noch zwei Lemmata. Zudem führen wir noch eine nützliche Definitionen ein. Definition 9.8. Sei V ein endlich-dimensionaler K-Vektorraum und ϕ ∈ EndK (V ). Sei λ∗ ein Eigenwert von ϕ. Dann heißt µ(pϕ , λ) = r die algebraische Vielfachheit von λ∗ , falls pϕ (λ) = (λ − λ∗ )r · q(λ), wobei q(λ) ein Polynom mit q(λ∗ ) 6= 0 ist. Man nennt s = dimK Eig(ϕ, λ∗ ) die geometrische Vielfachheit von λ∗ . Die Definitionen gelten entsprechend für Matrizen A ∈ M (n × n, K) anstelle von ϕ mit V := K n . 166 Lemma 9.9. Sei V ein endlich-dimensionaler K-Vektorraum und ϕ ∈ EndK (V ). Seien λ1 , ..., λk paarweise verschiedene Eigenwerte von ϕ. Dann gilt Eig(ϕ, λ1 ) + ... + Eig(ϕ, λk ) = Eig(ϕ, λ1 ) ⊕ ... ⊕ Eig(ϕ, λk ). Die Aussage gilt auch für Matrizen A ∈ M (n × n, K) anstelle von ϕ mit V := K n . Beweis: Für k = 2 haben wir die Behauptung schon in Lemma 6.10 gezeigt. Wir beweisen die Behauptung nun per Induktion über k. Nach Induktionsvoraussetzung gilt W := Eig(ϕ, λ1 ) + ... + Eig(ϕ, λk−1 ) = Eig(ϕ, λ1 ) ⊕ ... ⊕ Eig(ϕ, λk−1 ). Sei v ∈ W ∩ Eig(ϕ, λk ). Dann ist v ein Eigenvektor zum Eigenwert λk , d.h. ϕ(v) = λk v. Sei Bi = {vi1 , ..., visi } eine Basis von Eig(ϕ, λi ) für alle i = 1, ..., k − 1. Da v ∈ W , so existieren αij ∈ K, so dass v= si k−1 X X αij vij . (4.14) i=1 j=1 Multiplizieren wir diese Gleichung mit λk , so erhalten wir λk v = si k−1 X X λk αij vij . (4.15) i=1 j=1 Wenden wir ϕ auf die Gleichung (4.14) and, so bekommen wir ϕ(v) = si k−1 X X αij ϕ(vij ), i=1 j=1 d.h. λk v = si k−1 X X αij λi vij . (4.16) i=1 j=1 Durch Subtraktion von (4.15) und (4.16) ergibt sich si k−1 X X (λk − λi )αij vij = 0. i=1 j=1 Nach Induktionsvoraussetzung sind die Vektoren vij linear unabhängig also αij = 0 für alle i = 1, ..., k − 1, da λk 6= λi für alle i = 1, ..., k − 1. Aber dies bedeutet aufgrund von Gleichung (4.14), dass v = 0. Der Beweis für Matrizen geht wieder völlig analog. 2 167 Lemma 9.10. Sei V ein n-dimensionaler K-Vektorraum, ϕ ∈ EndK (V ) und A ∈ M (n × n, K). Sei λ ein Eigenwert von ϕ bzw. A und s die geometrische Vielfachheit sowie r die algebraische Vielfachheit von λ. Dann gilt 1 ≤ s ≤ r. Beweis: Sei λ∗ ein Eigenwert von ϕ. Damit existiert mindestens ein Eigenvektor zu λ∗ und somit gilt 1 ≤ s. Sei {v1 , ..., vs } eine Basis von Eig(ϕ, λ∗ ). Nun ergänzen wir diese Basis zu einer Basis U = {v1 , ..., vs , ..., vn } in V . Dann gilt B C U M := MU (ϕ) = , 0 D wobei B = diag{λ∗ , ..., λ∗ } ∈ M (s × s, K). Dann erhalten wir, dass det(M − λI) = det(B − λI) det(D − λI) = det(diag{λ∗ − λ, ..., λ∗ − λ}) det(D − λI) = (λ∗ − λ)s · q(λ), wobei q ein Polynom ist. Somit gilt s ≤ r. Der Beweis für Matrizen A ist auch hier wieder völlig analog. 2 Beweis: (von Satz 9.7) Wir beweisen den Satz für Endomorphismen. Für Matrizen ist er wegen Lemma 9.3 analog. (i) → (ii) Sei ϕ diagonalisierbar. Dann gibt es eine Basis B aus Eigenvektoren. Damit ist die Matrix MBB (ϕ) eine Diagonalmatrix D = diag {d1 , ..., dn }, wobei d1 , ..., dn die zu den Basisvektoren gehörigen Eigenwerte (nicht notwendiger Weise verschieden) sind. Somit gilt pϕ (λ) = (d1 − λ)...(dn − λ), d.h. pϕ (λ) zerfällt in Linearfaktoren. Seien λ1 , λ2 , ..., λk die paarweise verschiedenen Eigenwerte von ϕ, si ihre geometrischen und ri ihre algebraischen Vielfachheiten. Dann gilt k X si = n, i=1 weil die Eigenvektoren eine Basis des n-dimensionalen Raumes V bilden. Zudem gilt k X ri = n, i=1 weil das charakteristische Polynom den Grad n besitzt. Wegen Lemma 9.10 wissen wir noch, dass si ≤ ri für alle i = 1, ..., k Dies kann aber nur der Fall 168 sein, wenn si = ri für alle i = 1, ..., k. (ii) → (iii) Seien λ1 , λ2 , ..., λk die paarweise verschiedenen Eigenwerte von ϕ, si ihre geometrischen und ri ihre algebraischen Vielfachheiten. Sei W := Eig(ϕ, λ1 ) + ... + Eig(ϕ, λk ). Nach Lemma 9.9 gilt W = Eig(ϕ, λ1 ) ⊕ ... ⊕ Eig(ϕ, λk ). Da pϕ (λ) = ±(λ − λ1 )r1 (λ − λ2 )r2 ...(λ − λk )rk , so gilt r1 + ... + rk = n. Da ri = si für alle i = 1, ..., k, so gilt dimK W = s1 + ... + sk = n, d.h. V = W = Eig(ϕ, λ1 ) ⊕ ... ⊕ Eig(ϕ, λk ). (iii) → (i) Da V = Eig(ϕ, λ1 ) ⊕ ... ⊕ Eig(ϕ, λk ), so existiert eine Basis von V aus Eigenvektoren, d.h. ϕ ist diagonalisierbar. 2 Bemerkung: Mit dem Satz 9.7 wissen wir nun, dass ein Endomorphismus/eine Matrix genau dann diagonalisierbar ist, wenn sein/ihr charakterisches Polynom in Linearfaktoren zerfällt und für alle Eigenwerte die algebraische Vielfachheit gleich der geometrischen Vielfachheit ist. An dieser Stelle wollen wir den Fundamentalsatz der Algebra erwähnen, aus dem folgt, dass jedes Polynom mit Koeffizienten aus C in Linearfaktoren zerfällt. Satz 9.11. (Fundamentalsatz der Algebra) Sei p(x) ein Polynom mit Koeffizienten in C und deg(p) > 0. Dann hat p(x) mindestens eine Nullstelle x∗ in C. Obwohl dieser Satz einen algebraischen Zusammenhang beschreibt, so benötigt man für den Beweis ein paar analytische Hilfsmittel. Daher ist der Beweis nicht Gegenstand dieser Vorlesung. Ein sehr eleganter Beweis gelingt mit holomorphen Funktionen, die Gegenstand der Vorlesungen zur Funktionentheorie sind. Es gibt allerdings eine Vielzahl von Beweisen. Man findet diese i.a. in Lehrbüchern zur Funktionentheorie. Eine Kurzübersicht über unterschiedlichen Beweiskonzepte findet man auch in Wikipedia. Bemerkung: Sei p(x) ein Polynom mit Koeffizienten in C und deg(p) > 0. Dann zerfällt p in Linearfaktoren, d.h. p(x) = (x − x1 )...(x − xn ) 169 mit xi ∈ C für alle i = 1, ..., n. Beweis: Nach dem Fundamentalsatz der Algebra besitzt p eine Nullstelle x1 ∈ C. Mittels Polynomdivision findet man dann ein Polynom q(x) mit Koeffizienten aus C, so dass p(x) = (x − x1 )q(x). und deg q = deg p − 1. Nun kann man die Überlegung für p auch für q wiederholen usw. und erhält nach n := deg p Schritten die Behauptung. 2 Nun ist aber der Nachweis der Diagonalisierbarkeit immer noch mühevoll, wenn das charakteristische Polynom im n-dimensionalen K-Vektorraum weniger als n verschiedene Nullstellen besitzt, da man dazu die geometrische Vielfachheit eines jeden Eigenwertes bestimmen muss. Aus diesem Grund ist das folgende hinreichende Kriterium für euklidische und unitäre Vektorräume hilfreich. Um es formulieren zu können, brauchen wir zunächst noch eine Definition. Definition 9.12. Sei V ein endlich-dimensionaler euklidischer oder unitärer Vektorraum und h·, ·i das Skalarprodukt von V . Sei ϕ ein Endomorphismus auf V . Dann heißt ϕ selbstadjungiert, falls hϕ(v), wi = hv, ϕ(w)i ∀v, w ∈ V. Satz 9.13. Sei V ein endlich-dimensionaler euklidischer oder unitärer Vektorraum. (i) Sei ϕ ein selbstadjungierter Endomorphismus auf V . Dann ist ϕ diagonalisierbar. Es existiert sogar eine Orthonormalbasis aus Eigenvektoren von ϕ. (ii) Sei A eine symmetrische Matrix (im Fall K = R) bzw. eine hermitesche Matrix (im Fall K = C). Dann ist A diagonalisierbar. Es gibt dann sogar eine orthogonale Matrix T (im Fall K = R) bzw. eine unitäre Matrix T (im Fall K = C), so dass A = T DT −1 mit einer Diagonalmatrix D. In beiden Fällen sind die Nullstellen des charakteristischen Polynoms stets reell. Man sagt auch kurz, dass die Eigenwerte stets reell sind. Letzterer Satz ist aber im Fall K = R trivial, da alle Eigenwerte für K = R schon per Definition reell sind. 170 Bemerkung: Korrektur zum Begriff einer orthogonalen Matrix: Eine Matrix T heißt orthogonal, wenn T −1 = T > (Fall K = R). Falls K = C und T −1 = T̄ > , dann heißt die Matrix T unitär. Beweis: (ii) Da R ⊂ C, so ist pA für K = R und K = C ein Polynom mit Koeffizienten in C. Nach dem Fundamentalsatz der Algebra zerfällt pA (λ) in (komplexe) Linearfaktoren, d.h. pϕ (λ) = ±(λ − λ1 )...(λ − λn ). Sei i ∈ {1, ..., n} beliebig. Dann existiert ein Eigenvektor xi ∈ Cn , so dass Axi = λi xi . Damit haben wir H xH i Axi = λi xi xi . Daraus folgt nun H H H (xH i Axi ) = λ̄i (xi xi ) . Da A symmetrisch (im Fall K = R) bzw. hermitesch (im Fall K = C) ist, so gilt stets AH = A und somit H H H xH i Axi = xi A xi = λ̄i xi xi , d.h. H H λi xH i xi = xi Axi = λ̄i xi xi . Da xi 6= 0, so gilt xH i xi > 0 und daher λi = λ̄i , d.h. λi ∈ R. Damit sind alle λi sowohl im Fall K = R als auch im Fall K = C Eigenwerte von A. Nun zeigen wir per Induktion über n, dass es eine orthogonale/unitäre Matrix T mit T −1 AT = D gibt, wobei D eine Diagonalmatrix ist. IA: Für n = 1 ist die Aussage trivial. IS: Wir nehmen an, dass es für alle Matrizen B ∈ M ((n−1)×(n−1), K) −1 eine orthogonale/unitäre Matrix Tn−1 gibt, so dass Tn−1 BTn−1 =: Dn−1 eine Diagonalmatrix ist. Sei vn ∈ K n ein normierter Eigenvektor von A zum Eigenwert λn ∈ R. Wir ergänzen {vn } nun zu einer Orthonormalbasis {u1 , ..., un−1 , vn } von K n und bilden die Matrix S := (u1 |u2 |...|un−1 |vn ). 171 Da für alle i = 1, ..., n − 1: H H uH i Avn = ui (λn vn ) = λn ui vn = 0 und wegen AH = A dann auch H vnH Aui = (uH i Avn ) = 0, so gilt H S AS = B 0 0 λn mit B ∈ M ((n−1)×(n−1), K). Nach Induktionsvoraussetzung erhalten wir für Tn−1 0 T := S , 0 1 dass H 0 Tn−1 0 Tn−1 H S AS T AT = 0 1 0 1 H Tn−1 0 B 0 Tn−1 0 Dn−1 0 = = . 0 1 0 λn 0 1 0 λn H Es bleibt zu zeigen, dass T hermitesch ist: −1 H Tn−1 0 Tn−1 0 H H S = S −1 = T −1 . T = 0 1 0 1 (i) Sei U = {u1 , ..., un } eine Orthonormalbasis von V und A := MUU (ϕ) die Darstellungsmatrix von ϕ. Da pϕ (λ) = pA (λ), so sind die Eigenwerte von ϕ gleich den Eigenwerten von A. Da ϕ selbstadjungiert ist, so ist A symmetrisch (im Fall K = R) bzw. hermitesch (im Fall K = C), denn für alle i, j ∈ {1, ..., n} gilt āij = n X k=1 ākj huk , ui i = h = huj , ϕ(ui )i = huj , n X k=1 n X k=1 akj uk , ui i = hϕ(uj ), ui i aki uk i = n X k=1 aki huj , uk i = aji . Wegen (ii) wissen wir nun, dass die Nullstellen von pϕ (λ) = pA (λ) reell sind und dass eine orthogonale/unitäre Matrix T existiert, so dass 172 T −1 AT =: D eine Diagonalmatrix ist. Somit haben wir AT = T D und für die Einträge tij von T erhalten wir n X aik tkj = djj tij . k=1 Somit gilt für vj := Pn k=1 tkj uk , ϕ(vj ) = = n X dass tkj ϕ(uk ) = k=1 n X n X n X tkj i=1 k=1 aik ui i=1 k=1 aik tkj ui = n X n X djj tij ui = djj vj , i=1 d.h. die Vektoren vj sind Eigenvektoren von ϕ. Zudem ist {v1 , ..., vn } eine Orthonormalbasis von V , denn n n n n X X X X hvi , vj i = h tli ul , tkj uk i = t̄li tkj hul , uk i l=1 = n X k=1 l=1 k=1 t̄li tlj = δij . l=1 Die letzte Gleichung gilt, da T orthogonal (K = R) bzw. unitär (K = C) ist. 2 Korollar 9.14. Sei V ein endlich dimensionaler euklidischer oder unitärer K-Vektorraum, ϕ ∈ EndK (V ) selbstadjungiert bzw. A ∈ M (n × n, K) symmetrisch/hermitesch (falls K = R / K = C). Seien λ1 ,...,λk die Eigenwerte von ϕ bzw. A. Dann gilt V = Eig(ϕ, λ1 ) ⊥f... ⊥fEig(ϕ, λk ) bzw. K n = Eig(A, λ1 ) ⊥f... ⊥fEig(A, λk ). Lemma 9.15. Sei V ein endlich-dimensionaler euklidischer oder unitärer Vektorraum und ϕ ein Endomorphismus auf V . Sei U eine Orthonormalbasis von V . Dann ist ϕ genau dann selbstadjungiert, falls die Darstellungsmatrix MUU (ϕ) symmetrisch (im Fall K = R) bzw. hermitesch (im Fall K = C) ist. 173 Beweis: Die eine Richtung wurde schon beim Beweis von Satz 9.13 (i) gezeigt. Sei MUU (ϕ) symmetrisch (im Fall K = R) bzw. hermitesch (im Fall K = C). Dann gilt für alle i, j ∈ {1, ..., n}: n n X X hϕ(uj ), ui i = h akj uk , ui i = ākj huk , ui i = āij k=1 k=1 = aji = n X k=1 aki huj , uk i = huj , Pn Seien nun v = j=1 cj uj und w = Dann erhalten wir Pn i=1 n X k=1 aki uk i = huj , ϕ(ui )i. di ui zwei beliebige Vektoren von V . n n n n X X X X hϕ(v), wi = h cj ϕ(uj ), di u i i = c̄j di hϕ(uj ), ui i = j=1 n X n X j=1 i=1 c̄j i=1 j=1 n X di huj , ϕ(ui )i = h j=1 i=1 cj uj , n X i=1 di ϕ(ui )i = hv, ϕ(w)i. 2 Lemma 9.16. Sei V ein n-dimensionaler K-Vektorraum, ϕ ∈ EndK (V ) bzw. A ∈ M (n × n, K). Wenn das charakteristische Polynom n verschiedene Nullstellen besitzt, dann ist ϕ bzw. A diagonalisierbar. Beweis: Sei p das charakteristische Polynom. Nach Voraussetzung besitzt es n verschiedene Nullstellen. Somit zerfällt das Polynom in genau n verschiedene Linearfaktoren, da deg(p) = n. Somit gilt für die algebraische Vielfachheit ri für jeden Eigenwert λi , dass ri = 1. Damit gilt auch für die geometrische Vielfachheit si = dimK Eig(p, λi ) = 1 für jeden Eigenwert λi , da 1 ≤ dimK Eig(p, λi ) ≤ ri = 1 wegen Lemma 9.10. 2 9.2 Die Singulärwertzerlegung Definition 9.17. Sei A ∈ M (m × n, R). Dann heißt eine Darstellung von A der Form A = U ΣV > Singulärwertzerlegung von A, falls U ∈ M (m × m, R) und V ∈ M (n × n, R) orthogonal sind und Σ = (sij ) ∈ M (m × n, R) mit sij = 0 für alle i 6= j sowie sii ≥ 0 für alle i. Die Werte σi := sii heißen die Singulärwerte von A. Satz 9.18. Sei A ∈ M (m × n, R). Dann existiert eine Singulärwertzerlegung von A. 174 Beweis: Der Beweis erfolgt konstruktiv. Wir betrachten dazu die Matrix B := A> A. Diese ist symmetrisch, da B > = (A> A)> = A> (A> )> = A> A = B. Damit besitzt B aufgrund von Lemma 9.13 n reelle Eigenwerte λ1 ≥ λ2 ≥ ... ≥ λn . Seien v1 , v2 , ..., vn orthormale Eigenvektoren von B, wobei vi ein Eigenvektor zum Eigenwert λi (i = 1, ..., n). Dann gilt λi kvi k2 = vi> λi vi = vi> Bvi = vi> A> Avi = kAvi k2 ≥ 0 und somit λi ≥ 0. Sei nun λ1 ≥ ...λr > λr+1 = ... = λn = 0. Nun bilden wir Matrizen U und V wie folgt: U := (u1 , ..., um ), V := (v1 , ..., vn ), wobei 1 ui := √ Avi , λi für i = 1, ..., r. Dann sind die Vektoren u1 , ..., ur orthonormal, denn für i, j = 1, ..., r gilt 1 1 1 hui , uj i = h √ Avi , p Avj i = p hAvi , Avj i λi λj λi λj 1 1 1 λj =p vi> A> Avj = p vi> Bvj = p vi> λj vj = p hvi , vj i λi λj λi λj λi λj λi λj ( λi = 1, falls i = j = λi 0 sonst. Schließlich ergänzen wir {u1 , ..., ur } zu einer Orthonormalbasis {u1 , ..., ur , ..., um } von Rm . Sei schließlich Σ := (sij ) ∈ M (m × n, R) mit ( √ σi := λi , falls i = j sij = 0 sonst. 175 Dann erhalten wir (bei Berücksichtigung von Avi = 0 für i = r + 1, ..., n, da diese vi Eigenvektoren zum Eigenwert Null sind) U ΣV > = r X ui sii vi> r p r X X > = λi ui vi = Avi vi> i=1 = n X i=1 i=1 Avi vi> = AV V > = A. i=1 2 Bemerkung 9.19. Sei A = U ΣV > eine Singulärwertzerlegung von A. 1. Die Anzahl von Null verschiedener Singulärwerte von A ist gleich dem Rang r von A. 2. Die Singulärwerte von A sind eindeutig bestimmt. 3. Falls ui und vi die Spalten von U und V sind, dann gilt A= r X σk uk vk> . k=1 4. Es gilt im A = span {u1 , ..., ur } und ker A = span {vr+1 , ..., vn }. Die Singulärwertzerlegung liefert eine einfache Methode zur Datenkompression. Wie der folgende Satz zeigt, kann man zur Reduzierung der Daten in der Summendarstellung der Singulärwertzerlegung bei einem Index k abschneiden und erhält dabei eine Matrix, die in der Frobeniusnorm bei kleinen Singulärwerten σk+1 , ..., σr nur geringfügog von A abweicht. P Satz 9.20. Sei A = U ΣV > = ri=1 σ` u` v`> eine Sigulärwertzerlegung einer Matrix A ∈ M (m × n, R) mit σ1 ≥ σ2 ≥ ... ≥ σr . Dann gilt für Ak := k X σ` u` v`> , `=1 1 ≤ k < r, dass kA − Ak kF = σk+1 + ... + σr . 176 Dabei ist v uX n u m X t kBkF = b2ij i=1 j=1 die Frobeniusnorm für eine beliebige Matrix B = (bij ) ∈ M (m × n, R). Beweis: Nach Definition von Ak gilt A − Ak = r X σ` u` v`> − `=1 k X r X σ` u` v`> = `=1 σ` u` v`> `=k+1 Seien u1` u` = ... , v1` v` = ... . um` vn` Dann erhalten wir kA − Ak k2F = = = m X n X r X i=1 j=1 `=k+1 m X n r X X ! σ` ui` vj` 2 σ`2 u2i` vj` + i=1 j=1 `=k+1 n r m X X X 2 vj` σ`2 u2i` j=1 i=1 `=k+1 + m X n X = r X σ`1 ui`1 vj`1 σ`2 ui`2 vj`2 i=1 j=1 `1 6=`2 =k+1 r m X X σ`1 σ`2 `1 6=`2 =k+1 | {z }| {z } =1 r X ui`1 ui`2 |i=1 {z =0 =1 n X vj`1 vj`2 }|j=1 {z =0 } σ`2 `=k+1 2 Als Beispiel zur Datenkompression betrachten wir die Kompression von Bilddaten. Dazu nehmen wir anlässlich des Endspiels der Fußball-EM ein Bild mit dem Eiffelturm in den Farben Frankreichs und Portugals. 177 Originalbild mit 640x426 Pixeln Die Farbdarstellung erfolgt über die drei Grundfarben rot, grün und blau. In den folgenden Bildern sind die jeweiligen Rot-, Grün- und Blau-Anteile zu sehen. Diese Anteile werden für jeden Pixel in Form einer Zahl zwischen 0 und 255 gespeichert. Wenn wir jeden Pixelwert (jeweils für rot, grün und blau) in eine Matrix A mit 426 Zeilen und 640 Spalten schreiben und eine Singulärwertzerlegung vornehmen, dann erhalten wir die im folgenden Bild dargestellten Singulärwerte. Offenbar gibt es nur wenige sehr große Eigenwerte und viele Eigenwerte nahe Null. Schneiden wir die Singulärwertzerlegung bei k = 10, 30, 100 und 200 ab, so erhalten wir folgende Bilder: 178 k=10 k=30 k=100 k=200 Bereits bei k = 10 kann man das Bild schemenhaft erkennen. Ab k = 100 gibt es nur noch geringe Abweichungen vom Originalbild und ab k = 200 sieht man faktisch keinen Unterschied zum Originalbild mehr. Übrigens gibt es in python Module, mit denen man die Bildkompression mittels Singulärwertzerlegung einfach realisieren kann. Unten stehend ist der Code angegeben, wenn man bei k = 30 abschneidet. from numpy . l i n a l g import svd from numpy import a s a r r a y , u i n t 8 , diag , dot from PIL import Image imdata = a s a r r a y ( Image . open ( ’ e i f f e l t u r m . j p g ’ ) ) imdata . f l a g s . w r i t e a b l e = True f o r i i n xrange ( 2 ) : # r e d ( i =0) , g r e e n ( i =1) , b l u e ( i =2) U, s , V = svd ( imdata [ : , : , i ] , f u l l m a t r i c e s=F a l s e ) k=30 # c u t SVD sum a t i n d e x k S = diag ( s [ : k ] ) imC = dot (U [ : , : k ] , dot ( S , V [ : k , : ] ) ) # imC = U S V imdata [ : , : , i ]=imC im = Image . f r o m a r r a y ( u i n t 8 ( imdata ) ) # u n s i g n e d i n t (0 −255) im . s a v e ( ’ e i f f e l t u r m s m a l l . j p g ’ ) 179 9.3 Trigonalisierung Definition 9.21. Ein Endomorhismus ϕ heißt trigonalisierbar, falls es eine Kette von Unterräumen V0 , V1 , ..., Vn von V gibt, so dass {0} = V0 ( V1 ( V2 ( ... ( Vn = V mit ϕ(Vi ) ⊆ Vi für alle i = 0, 1, ..., n. Eine solche Kette von Unterräumen nennt man auch ϕ-invariante Fahne von V . Definition 9.22. Eine Matrix A ∈ M (n × n, K) heißt trigonalisierbar, falls es eine reguläre Matrix S ∈ M (n × n, K) gibt, so dass SAS −1 eine obere Dreiecksmatrix ist. Lemma 9.23. Ein Endomorhismus ϕ ist genau dann trigonalisierbar, falls es eine Basis B von V gibt, so dass MBB (ϕ) eine obere Dreiecksmatrix ist. Beweis: (→) Da ϕ trigonalisierbar ist, so existiert eine Kette von Unterräumen V0 , V1 , ..., Vn von V mit {0} = V0 ( V1 ( V2 ( ... ( Vn = V mit ϕ(Vj ) ⊆ Vj für alle j = 0, 1, ..., n. Daher finden wir eine Basis B = {v1 , ..., vn } von V , so dass Vj = span{v1 , v2 , ..., vj } ∀j = 1, ..., n. Da ϕ(Vj ) ⊆ Vj , so gilt ϕ(vj ) ∈ Vj = span{v1 , v2 , ..., vj } ∀j = 1, ..., n. Somit lässt sich ϕ(vj ) für als eine Linearkombination der ersten j Basisvektoren v1 ,...,vj darstellen. Dies bedeutet für die Darstellungsmatrix A = (aij ) := MBB (ϕ), dass aij = 0 ∀i = j + 1, ..., n, d.h. A ist eine obere Dreiecksmatrix. (←) Da MBB (ϕ) eine obere Dreiecksmatrix ist, so ist ϕ(vj ) für alle j = 1, ..., n eine Linearkombination der ersten j Basisvektoren v1 ,...,vj . Damit gilt für die Vektorräume Vj := span{v1 , v2 , ..., vj }, 180 dass ϕ(vj ) ∈ Vj für alle j = 1, ..., n. Zudem gilt {0} = V0 ( V1 ( V2 ( ... ( Vn = V und somit auch ϕ(vk ) ∈ Vk ⊂ Vj für alle k = 1, ..., j. Da Vj = span{v1 , v2 , ..., vj }, so haben wir nun ϕ(Vj ) ⊆ Vj für alle j = 1, ..., n, d.h. ϕ ist trigonalisierbar. 2 Korollar 9.24. Sei ϕ ein Endomorphismus eines endlich-dimensionalen Vektorraums V und B eine beliebige Basis von V . Dann ist ϕ genau dann trigonalisierbar, falls MBB (ϕ) trigonalisierbar ist. Beweis: Nach Lemma 9.23 ist ϕ genau dann trigonalisierbar, wenn es eine Basis B̃ gibt, so dass MB̃B̃ (ϕ) eine obere Dreiecksmatrix ist. (→) Sei B̃ eine Basis von V , so dass MB̃B̃ (ϕ) eine obere Dreiecksmatrix ist. Sei zudem n die Dimension von V und A := (aij ) := MBB (ϕ) die Darstellungsmatrix von ϕ bezüglich der Basis B. Sei weiter C := (cij ) := MB̃B (id) die Darstellungsmatrix der identischen Abbildung beim Wechsel von der Basis B = {b1 , ..., bn } zur Basis B̃ = {b̃1 , ..., b̃n } und D := (dij ) := C −1 . Dann gilt per Definition der Matrizen, dass ϕ(bj ) = n X aij bi ∀j = 1, ..., n cjk bj ∀k = 1, ..., n d`i b̃` ∀i = 1, ..., n. i=1 b̃k = bi = n X j=1 n X `=1 Somit erhalten wir für alle k = 1, ..., n: n n n n X X X X ϕ(b̃k ) = ϕ( cjk bj ) = cjk ϕ(bj ) = cjk aij bi j=1 = n X j=1 cjk j=1 n X i=1 aij n X d`i b̃` = `=1 j=1 n X n X n X i=1 d`i aij cjk b̃` , `=1 i=1 j=1 d.h. MB̃B̃ (ϕ) = DAC = C −1 MBB (ϕ)C. Da MB̃B̃ (ϕ) eine obere Dreiecksmatrix ist, so bedeutet dies gerade, dass MBB (ϕ) trigonalisierbar ist. 181 (←) Da MBB (ϕ) trigonalisierbar ist, so existiert eine reguläre Matrix C = (cij ), so dass C −1 MBB (ϕ)C eine obere Dreiecksmatrix ist. Sei B = {b1 , ..., bn }. Dann wählen wir B̃ := {b̃1 , ..., b̃n } mit b̃j := n X cij bi i=1 Da C regulär ist, so ist B̃ auch eine Basis und C = MB̃B (id). Wie zuvor gilt nun MB̃B̃ (ϕ) = C −1 MBB (ϕ)C, d.h. MB̃B̃ (ϕ) ist eine obere Dreieckmatrix. Somit ist ϕ wegen Lemma 9.23 trigonalisierbar. 2 Satz 9.25. (Trigonalisierungssatz) (i) Sei ϕ ein Endomorphismus eines endlich-dimensionalen Vektorraums V . Dann ist ϕ genau dann trigonalisierbar, falls das charakteristische Polynom pϕ (λ) in Linearfaktoren zerfällt. (ii) Eine Matrix A ist genau dann trigonalisierbar, wenn das charakteristische Polynom pA (λ) in Linearfaktoren zerfällt. Beweis: Da pϕ (λ) = pA (λ) für A := MBB (ϕ), so genügt es wegen Lemma 9.23 die Aussage (ii) für Matrizen zu zeigen. (→) Sei A trigonalisierbar. Dann existiert eine reguläre Matrix S, so dass SAS −1 eine obere Dreiecksmatrix ist. Nun gilt pA (λ) = det(A − λI) = det(SAS −1 − λI) = ±(λ − λ1 ) · ... · (λ − λn ), wobei λ1 ,...,λn die Elemente von SAS −1 auf der Hauptdiagonalen sind. (←) Sei pϕ (λ) = pA (λ) = (λ − λ1 ) · ... · (λ − λn ), mit λ1 ,...,λn ∈ K. Wir konstruieren schrittweise eine Matrix S, so dass SAS −1 eine obere Dreiecksmatrix ist. Sei B1 = {e1 , ..., en } die Standardbasis. Sei A1 := A und v1 ein Eigenvektor zu λ1 . Dann existiert nach dem Austauschlemma ein j1 ∈ {1, ..., n}, so dass B2 = 182 {v1 , e1 , ..., ej1 −1 , ej1 +1 , ..., en } eine Basis ist. Dann gilt für die Übergangsmatrix Q1 von der Basis B1 zur Basis B2 und den Endomorphismus ϕ(v) := Av, dass B1 −1 A2 := MBB22 (ϕ) = Q−1 1 MB1 (ϕ)Q1 = Q1 A1 Q1 . Da ϕ(v1 ) = Av1 = λ1 v1 , so gilt für die erste Spalte s1 von MBB22 (ϕ), dass λ1 0 s1 = . . .. 0 Somit haben wir Q−1 1 A1 Q1 = A2 = λ1 0 .. . ∗ ... Ã2 ∗ . 0 Wir betrachten nun Ã2 . Da A1 und A2 ähnlich sind, so stimmen die Eigenwerte von A1 und A2 überein. Somit ist λ2 ein Eigenwert von Ã2 . Sei ṽ2 ein Eigenvektor von Ã2 zu λ2 . Dann existiert nach dem gleichen Prinzip wie zuvor eine reguläre Matrix Q̃2 , so dass λ2 ∗ ... ∗ 0 −1 Q̃2 Ã2 Q̃2 = . . à 3 . . 0 Dann gilt für 1 0 , Q̃2 := 0 Q̃2 183 dass A3 := Q−1 2 A2 Q2 = 1 0 −1 0 Q̃2 λ1 0 .. . ∗ ... ∗ Ã2 1 0 0 Q̃2 0 = λ1 0 .. . 0 ∗ ... ∗ = Q̃−1 à Q̃ 2 2 2 λ1 0 0 .. . ∗ λ2 0 .. . 0 0 ∗ ... ∗ ∗ ... ∗ . Ã3 Offenbar ist A3 ähnlich zu A2 und somit auch zu A1 = A. Somit stimmen die Eigenwerte von A3 und A überein und man kann den Prozess analog mit λ3 fortsetzen. Sukzessive erhalten wir also reguläre Matrizen Q1 , ..., Qn−1 , so dass Ai+1 = Q−1 i Ai Qi ∀ i = 1, ..., n − 1 und An eine obere Dreiecksmatrix ist. Auf diese Weise haben wir −1 −1 An = Q−1 n−1 ...Q2 Q1 A1 Q1 Q2 ...Qn−1 . −1 −1 −1 Somit gilt für S := Q−1 eine obere Dreiecksn−1 ...Q2 Q1 , dass SAS matrix ist. 2 Korollar 9.26. Eine Matrix A ∈ M (n × n, C) ist stets trigonalisierbar. Beweis: Dies folgt unmittelbar aus Satz 9.25 und dem Fundamentalsatz der Algebra. 2 9.4 Die Jordansche Normalform In diesem Abschnitt beschäftigen wir uns mit einem der zentralen Sätze der linearen Algebra, nämlich die Klassifikation von ähnlichen Matrizen. Dazu benötigen wir zunächst ein paar Eigenschaften von Polynomen. Definition 9.27. Ein Polynom p = a0 + a1 x + a2 x2 ... + an xn ∈ K[x] vom Grad n heißt normiert, falls der Koeffizient an von p (d.h. der Koeffizient vor xn ) gleich 1 ist. 184 Definition 9.28. Sei A ∈ M (n × n, K). Dann heißt mA das Minimalpolynom von A, falls mA (A) = 0 und mA (x) ∈ K[x] das kleinste normierte Polynom mit dieser Eigenschaft ist. Nach dem Satz von Cayley/Hamilton wissen wir, dass jede Matrix ein Minimalpolynom besitzt und deg(mA ) ≤ deg(pA ). Definition 9.29. Eine Matrix A ∈ M (n × n, K) heißt Matrix in JordanNormalform, falls A = diag{J(λ1 , n1 ), ..., J(λk , nk )} J(λ1 , n1 ) 0 ... 0 J(λ2 , n2 ) ... = .. .. . . 0 0 0 ... 0 0 .. . , J(λk , nk ) wobei J(λi , ni ) für alle i = 1, ..., k sogenannte Jordankästchen zum Eigenwert λi der Länge ni sind, d.h. λi 1 .. .. . . ∈ M (ni × ni , K) J(λi , ni ) = .. . 1 λi Hinweis: Die λi müssen nicht paarweise verschieden sein. Beispiel: 1 1 0 1 J = 2 0 2 1 0 2 1 5 185 5 1 0 0 5 1 0 0 5 Satz 9.30. (Klassifikation ähnlicher Matrizen) (i) Sei A ∈ M (n × n, K). Dann ist A genau dann ähnlich zu einer Matrix in Jordan’scher Normalform, wenn das Minimalpolynom mA in Linearfaktoren zerfällt. Dabei sind die Nullstellen des Minimalpolynoms die Einträge auf der Hauptdiagonalen der Jordan-Normalform. (ii) Wenn A ähnlich zu einer Matrix in Jordan-Normalform ist, dann gilt für die Anzahl sij der Jordankästchen J(λi , j) zum gleichen Eigenwert λi von A mit der Dimension j, dass sij = 2 dimK (ker Bij ) − dimK (ker Bij−1 ) − dimK (ker Bij+1 ), wobei Bi := A − λi I. Korollar 9.31. Jedes A ∈ M (n × n, C) ist ähnlich zu einer Matrix in Jordan’scher Normalform. Beweis: Da jedes Polynom in C in Linearfaktoren zerfällt, ist die Aussage wegen Satz 9.30 sofort klar. 2 Anstelle eines Beweises von Satz 9.30 demonstrieren wir die Konstruktion einer Ähnlichkeitstransformation auf Jordan-Normalform an einem Beispiel. Sei 0 1 1 0 −4 4 2 0 A= 0 0 2 0 1 0 1 3 Zunächst bestimmen wir die Eigenwerte und Eigenräume von A. Es gilt mit Hilfe des Entwicklungssatzes von Laplace, dass −λ 1 1 0 −4 4 − λ 2 0 det(A − λI) = det 0 0 2−λ 0 1 0 1 3−λ −λ 1 1 2 = (3 − λ) det −4 4 − λ 0 0 2−λ −λ 1 = (3 − λ)(2 − λ) det −4 4 − λ = (3 − λ)(2 − λ)(4 − 4λ + λ2 ) = (3 − λ)(2 − λ)3 . 186 Dann erhalten wir −3 −4 Eig(A, 3) = ker(A − 3λ) = ker 0 1 1 1 0 0 1 2 0 = span{ 00 } 0 −1 0 1 0 1 0 und −2 1 1 0 −4 2 2 0 Eig(A, 2) = ker(A − 2λ) = ker 0 0 0 0 1 0 1 1 0 1 3 2 −1 −1 0 0 0 0 −3 −2 = ker 0 0 0 0 = span{ 10 , 01 } 1 0 1 1 Da die geometrische Vielfachheit 2 kleiner als die algebraische Vielfachheit 3 für λ = 2 ist, so spannen die Basisvektoren der Eigenräume nicht den gesamten Raum auf und die Matrix A ist nicht diagonalisierbar. Aber mit Hilfe der verallgemeinerten Eigenräume können wir A in eine Matrix J in Jordan-Normalform transformieren. Definition 9.32. Sei A ∈ M (n × n, K) und λ ∈ K ein Eigenwert von A. Dann heißt Hk (A, λ) = ker(A − λI)k der verallgemeinerte Eigenraum der Stufe k zum Eigenwert λ. Bemerkung: 1. Nach Definition ist klar, dass H 1 (A, λ) = Eig(A, λ). 2. Offenbar gilt auch {0} = H0 (A, λ) ⊆ H1 (A, λ) ⊆ ... ⊆ Hk (A, λ) ⊆ ... 3. Falls für ein k gilt, dass Hk (A, λ) = Hk+1 (A, λ), dann lässt sich leicht per Induktion zeigen, dass {0} = Hk (A, λ) = Hk+m (A, λ) für alle m ≥ 0. 187 4. Somit gibt es genau ein k ≤ n, so dass {0} = H0 (A, λ) ( H1 (A, λ) ( ... ( Hk (A, λ) = Hk+1 (A, λ) = ... Den Raum Hk (A, λ) nennt man Hauptraum von A zum Eigenwert λ. Wir setzen nun unser Beispiel fort und berechnen den Hauptraum von A zum Eigenwert 2. 0 0 0 0 0 0 0 0 H2 (A, 2) = ker(A − 2λ)2 = ker 0 0 0 0 1 0 1 1 −1 −1 1 1 = H1 (A, 2) + span{ 10 } = span{ −3 , −2 , 10 }. 1 0 0 0 0 1 Man prüft leicht nach, das H3 (A, 2) = ker(A − 2λ)3 = H2 (A, 2). Somit ist H2 (A, 2) der Hauptraum von A zum Eigenwert 2. Nun wählen wir als ersten Basisvektor 1 x1 := 10 ∈ H2 (A, 2)\H1 (A, 2) 0 und als zweiten Basisvektor −1 x2 := (A − 2I)x1 = −2 0 1 −1 Nun ergänzen wir {x1 , x2 } mit x3 := −3 zu einer Basis von H2 (A, 2). 1 0 0 Schließlich erhalten wir mit x4 := 00 ∈ H1 (A, 3) eine Basis {x1 , x2 , x3 , x4 } 1 des gesamten Raumes R4 . Nun schreiben wir alle Basisvektoren spaltenweise in eine Matrix, wobei wir den aus x1 konstruierten Vektor x2 vor x1 schreiben, d.h. −1 1 −1 0 −2 1 −1 0 T := (x2 |x1 |x3 |x4 ) = 0 0 1 0 1 0 0 1 und erhalten −2 −4 AT = 0 2 1 −2 0 0 −6 0 =T 0 2 0 1 0 3 188 2 1 0 2 0 0 2 0 0 3 Da der Hauptraum von A zum Eigenwert 2 die Dimension 1 und die Stufe 2 besitzt, so gibt es ein Jordankästchen der Dimension r−k +1 = 3−2+1 = 2, wobei r die algebraische Vielfachheit und k die Stufe des Hauptraums ist. Der ergänzende Basisvektor x3 ∈ H2 (A, 2) liefert noch ein Jordankästchen der Dimension 1 zum Eigenwert 2. Schließlich führt der Basisvektor x4 ∈ H1 (A, 3) = Eig(A, 3) zu einem Jordankästchen der Dimension 1 zum Eigenwert 3. Bemerkung: 1. Falls x1 ∈ ker(A − λI)2 und x2 := (A − λI)x1 , dann gilt (A − λI)x2 = 0, d.h. Ax2 = λx2 und (A − λI)x1 = x2 , d.h. Ax1 = λx1 + x2 . Beide Gleichungen nebeneinander geschrieben ergeben: λ 1 A(x2 |x1 ) = (λx2 |λx1 + x2 ) = (x2 |x1 ) . 0 λ 2. Analog erhält man für x1 ∈ ker(A − λI)k und x2 := (A − λI)x1 x3 := (A − λI)x2 .. . xk := (A − λI)xk−1 , dass λ 1 λ 1 . . . . A(xk |...|x2 |x1 ) = (xk |...|x2 |x1 ) . . . λ 1 λ {z } | k Spalten Wenn x1 ∈ Hk (A, λ)\Hk−1 (A, λ), dann sind die Vektoren x1 ,...,xk linear unabhängig und gehören alle zu Hk (A, λ). 3. Seien λ1 , ..., λm die paarweise verschiedenen Eigenwerte einer Matrix A. Dann ist die Summe Hk1 (A, λ1 ) + ... + Hkm (A, λm ) der zugehörigen Haupträume direkt, d.h. Hk1 (A, λ1 ) + ... + Hkm (A, λm ) = Hk1 (A, λ1 ) ⊕ ... ⊕ Hkm (A, λm ). 189