Lineare Algebra I Prof.Dr. Stefan Wewers Institut für Algebra, Zahlentheorie und Diskrete Mathematik Leibniz-Universität Hannover Vorlesung, gehalten im WS 07/08 Contents 1 Lineare Gleichungssysteme 1.1 Ein Beispiel: Netzwerkanalyse . . . . . 1.2 Ringe und Körper . . . . . . . . . . . 1.3 Das Eliminationsverfahren von Gauss 1.4 Analytische Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 6 16 24 2 Vektorräume und lineare Abbildungen 2.1 Grundlegende Definitionen . . . . . . . . . . 2.2 Basis und Dimension . . . . . . . . . . . . . 2.3 Beispiel: Interpolation von Funktionswerten 2.4 Lineare Abbildungen und Matrizen . . . . . 2.5 Matrizenmultiplikation . . . . . . . . . . . . 2.6 Basiswechsel . . . . . . . . . . . . . . . . . . 2.7 Elementarmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 39 44 55 60 64 70 73 3 Diagonalisieren 3.1 Lineare Rekursionsfolgen . . . . . . 3.2 Diagonalisierbare Endomorphismen 3.3 Determinanten . . . . . . . . . . . 3.4 Das charakteristische Polynom . . 3.5 Die komplexen Zahlen . . . . . . . 3.6 Orthogonale Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 . 78 . 82 . 86 . 96 . 101 . 109 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Lineare Gleichungssysteme 1.1 Ein Beispiel: Netzwerkanalyse Wir betrachten das folgende Modell eines elektrischen Schaltkreises.1 Die durchgezogenen Linien sind Leitungen. Die Kreise stehen für Spannungsquellen, die Kästchen für Widerstände. I1 R1 Uq1 ? I3 R3 I2 R2 ? U ? q2 Figure 1: Die Buchstaben auf den Widerständen (R1 , R2 , R3 ) stehen für den Wert des entsprechenden Widerstandes, gemessen in Ohm. Für uns (d.h. vom mathematischen Standpunkt aus) sind R1 , R2 , R3 einfach fest vorgegebene positive reelle Zahlen. Die Buchstaben neben den Spannungsquellen (Uq1 , Uq2 ) stehen für den Wert der angelegten Spannung, gemessen in Volt. Allerdings sind Uq1 und Uq2 nicht notwendigerweise positiv, oder – anders ausgedrückt – diese Werte haben ein Vorzeichen. Damit wir das Vorzeichen richtig deuten können, ist neben der Spannungsquelle zusätzlich ein Pfeil eingezeichnet, der die Ausrichtung der anliegenden Spannung anzeigt. Handelt es sich bei der Spannungsquelle z.B. um eine Batterie, so würde man den Wert Uqi als positiv annehmen und den Pfeil vom Plus- zum Minuspol ausrichten. Rein mathematisch betrachtet sind Uq1 und Uq2 einfach beliebige (aber fest vorgegebene) reelle Zahlen. Schliesslich bezeichnen die Buchstaben I1 , I2 , I3 die Stärke des durch den entsprechend nummerierten Widerstand fliessenden Stroms, gemessen in Ampere. Hierbei ist zu beachten, dass Stromstärke, genau wie Spannung, eine vorzeichenbehaftete Grösse ist. Das Vorzeichen bestimmt die Richtung des Stromflusses, und zwar folgendermassen. Ist Ii positiv, so fliesst der Strom in die Richtung des im Bild 1.1 neben dem Widerstand Ri eingezeichneten Pfeiles. Ist Ii dagegen negativ, so fliesst der Strom in die entgegengesetzte Richtung. Problem 1.1.1 Man bestimme die Stromstärken I1 , I2 , I3 (in Abhängigkeit von Ri und Uqj ). 1 Quelle: Wikipedia, Stichwort Netzwerkanalyse (Elektrotechnik) 2 Wir werden sehen, dass dieses Problem auf ein lineares Gleichungssystem hinausläuft. Um dieses Gleichungssystem aufstellen zu können, benötigt man drei fundamentale Gesetze der Elektrotechnik. Das erste Gesetz lautet: Das Ohmsche Gesetz: Fliesst durch einen Widerstand R der Strom I, und bezeichnet U den Spannungsabfall zwischen den beiden Enden des Widerstandes, so gilt U = R · I. Man beachte wieder, dass Stromstärke genauso wie Spannungsabfall vorzeichenbehaftete Grössen sind, oder physikalisch gesprochen eine Richtung haben. Da wir den Widerstand R als positiv annehmen, sind die Vorzeichen von U und I gleich, d.h. der Spannungsabfall erfolgt in der Richtung des Stromflusses. Das Ohmsche Gesetz ist ein typisches Beispiel für eine lineare Abhängigkeit zwischen zwei physikalischen Grössen. Legt man an ein ektronisches Schaltelement eine (variable) Spannung U an und misst den resultierenden Strom I, so ist der Quotient U/I unabhängig von U . Somit ist die Grösse R := U/I eine Konstante des Schaltelementes, die man suggestiv Widerstand nennt. Zurück zu unserem Schaltkreis in Bild 1.1. Es sei Ui der am Widerstand Ri auftretende Spannungsabfall. Nach dem Ohmschen Gesetz gilt dann U1 = R1 · I1 , U2 = R2 · I2 , U3 = R3 · I3 . (1) Die nächste Grundregel bezeichnet man auch als das 1. Kirchhoffsche Gesetz. Die Maschenregel: Die Summe der Spannungsgewinne entlang eines geschlossenen Weges ist gleich Null. Dabei heben sich Spannungsgewinne und -verluste gegenseitig auf. Unser Schaltkreis hat offenbar zwei Maschen, d.h. nichttriviale geschlossene Wege, die in Bild 1.1 durch das Symbol gekennzeichnet sind. Durchläuft man diese Wege im Uhrzeigersinn und rechnet die erfahrenen Spannungsgewinne bzw. -verluste auf, so führt uns die Maschenregel auf die beiden Gleichungen U1 + U2 − Uq1 = 0, −U2 − U3 + Uq2 = 0. (2) Die dritte Grundregel ist das 2. Kirchhoffsche Gesetz, auch genannt Die Knotenregel: Die Summe der in einem Teilbereich des Netzwerkes zufliessenden Ströme ist gleich Null. Dabei heben sich zu- und abfliessende Ströme gegenseitig auf. Unser Schaltkreis hat zwei Knoten, d.h. Kreuzungspunkte von Leitungen. Wir betrachten zunächst den oberen Knoten und wenden auf ihn die Knotenregel an. Gemäß dem folgenden Schema 3 I1 - I3 I2 ? erhalten wir die Gleichung I1 − I2 + I3 = 0. (3) Offenbar liefert der zweite Knoten die äquivalente Gleichung−I1 + I2 − I3 = 0, die wir nicht extra aufführen brauchen.2 Wir können jetzt die Gleichungen (1), (2) und (3) zu folgendem Gleichungssystem zusammenfassen. R1 I1 I1 + − R2 I2 R2 I2 I2 + R3 I3 + I3 = = = Uq1 Uq2 0. (4) Wir haben das Problem 1.1.1 auf das Lösen des Gleichungssystems (4) zurückgeführt. Dies ist nun ein rein mathematisches Problem. Die Erfahrung mit der physikalischen Wirklichkeit sagt uns, dass (4) eine eindeutige Lösung haben sollte. Und tatsächlich kann man sich durch eine etwas längliche Rechnung oder durch Benutzen eines Computeralgebrasystems (wie z.B. Maple) davon überzeugen, dass das Gleichungssystem (4) die eindeutige Lösung (R2 + R3 )Uq1 − R2 Uq2 , R1 R2 + R1 R3 + R2 R3 R3 Uq1 + R1 Uq2 I2 = , R1 R2 + R1 R3 + R2 R3 −R2 Uq1 + (R1 + R2 )Uq2 I3 = . R1 R2 + R1 R3 + R2 R3 I1 = (5) besitzt. Das Gleichungssystem (4) ist ein Beispiel für ein lineares Gleichungssystem mit drei Gleichungen und drei Unbestimmten I1 , I2 , I3 . Wir werden sehr bald lernen, wie man entscheiden kann, ob ein lineares Gleichungssystem eine Lösung besitzt, ob diese Lösung eindeutig ist, und wie man sämtliche Lösungen berechnen kann. Insbesondere kann man im vorliegenden Fall mit rein mathematischen Methoden zeigen, dass (4) eine eindeutige Lösung besitzt, die durch (5) beschrieben wird. 1. Beobachtung: Das Rechnen von Hand ist meistens unpraktikabel. Selbst bei einem so simplen Schaltkreis wie im Bild 1.1 ist die Lösung des auftretenden Gleichungssystems schon so kompliziert, dass die Berechnung derselben von Hand sehr mühsam ist (probieren Sie es aus!). Schon in diesem einfachen Fall ist uns ein Computeralgebrasystem wie Maple haushoch überlegen. 2 Allgemein gilt, dass in einem Netzwerk mit k Knoten von den k resultierenden Gleichungen immer eine überflüssig ist, aber die restlichen k − 1 Gleichungen voneinander unabhängig sind. 4 In der Praxis treten leicht Schaltkreise mit tausenden Schaltelementen auf. Es versteht sich von selbst, dass hier ohne Einsatz eines Rechners gar nichts läuft. Was können wir daraus lernen? Für das Lösen von Übungsaufgaben und das erfolgreiche Bestehen der Klausuren ist ein gewisses Maß an Rechenfertigkeit unerlässlich, und sie werden ausreichend Gelegenheit haben, dies zu trainieren. Diese Rechentechnik ist aber allenfalls ein Nebenprodukt; das eigentliche Lernziel der Vorlesung ist etwas ganz anderes. 2. Beobachtung: Die Lösung des linearen Gleichungssystems (4) ist selbst eines. Wie ist das gemeint? Nun, wir können die Gleichungen (5) auch so schreiben: R2 + R3 R2 · Uq1 + · Uq2 R1 R2 + R1 R3 + R2 R3 R1 R2 + R1 R3 + R2 R3 R3 R1 · Uq1 + · Uq2 R1 R2 + R1 R3 + R2 R3 R1 R2 + R1 R3 + R2 R3 R1 + R2 −R2 · Uq1 + · Uq2 R1 R2 + R1 R3 + R2 R3 R1 R2 + R1 R3 + R2 R3 = I1 = I2 = I3 . In dieser Form können wir (5) als lineares Gleichungssystem in den Unbekannten Uq1 , Uq2 auffassen, wenn wir Werte für I1 , I2 , I3 vorgeben. Das macht auch physikalisch Sinn: wenn man z.B. die durch die Widerstände Ri fliessenden Ströme Ii gemessen hat, kann man anhand von (5) die an den beiden Spannungsquellen anliegenden Spannungen Uqj bestimmen. Dies ist tatsächlich eine Verallgemeinerung von etwas, das wir schon anhand des Ohmschen Gesetzes beobachtet haben, nämlich die lineare Abhängigkeit zwischen zwei Grössen. Dazu ist es zweckmässig, die drei Grössen I1 , I2 , I3 zu einer zusammenzufassen, und zwar als Spaltenvektor: I1 I := I2 . I3 Mit den Spannungsquellen Uq1 und Uq2 wollen wir es ähnlich machen. Ein Blick auf das Gleichungssystem (4) sagt uns, dass wir drei Einträge brauchen, wobei der letzte Null sein muss: Uq1 U := Uq2 . 0 Ausserdem schreiben wir die Koeffizienten auf der linken Seite von (4) in ein rechteckiges Zahlenschema, Matrix genannt: R1 R2 0 A := 0 R2 R3 1 −1 1 Mit diesen Bezeichnungen können wir nun das Gleichungssystem (4) in der Form A·I = U 5 (6) schreiben. Das Produkt A · I ist per definitionem der Spaltenvektor, dessen Einträge die Ausdrücke auf der linken Seite von (4) bilden. Die Vorteile dieser neuen Schreibweise sind offensichtlich: sie ist kürzer und sie sieht formal genauso aus wie das Ohmsche Gesetz, U = R · I. Wie wir später sehen werden lässt sich jede lineare Abhängigkeit zwischen zwei (vektorwertigen) Grössen als eine Gleichung der Form (6) schreiben. Wenn wir umgekehrt den Vektor I in Abhängigkeit des Vektors U betrachten wollen, so ist es naheliegend, die Matrix A ‘auf die andere Seite zu bringen’, d.h. wir möchten die Umformung A·I = U ? ⇒ I = A−1 · U durchführen. Ist das erlaubt bzw. führt so eine Umformung zu einem korrekten Ergebnis? Was bedeutet überhaupt A−1 ? Die Antwort werden wir bald kennenlernen. 3. Beobachtung: Überlagerungen von Lösungen 1.2 Ringe und Körper Wir setzen die folgenden Zahlbereiche als bekannt voraus. • Die natürlichen Zahlen N = {1, 2, 3, . . .} (bzw. N0 = {0, 1, 2, 3, . . .}). • Die ganzen Zahlen Z = {. . . , −2, −1, 0, 1, 2, . . .}. • Die rationalen Zahlen Q = { ab | a, b ∈ Z, b 6= 0}. • Die reellen Zahlen R (siehe Vorlesung Analysis I). Es handelt sich jeweils um eine Menge mit zwei Verknüpfungen, die Addition und die Multiplikation. Wir wollen nun den Begriff eines Zahlbereiches formalisieren. Definition 1.2.1 Sei G eine (nichtleere) Menge. (i) Eine Verknüpfung auf G ist eine Abbildung ∗ : G×G → G.3 Schreibweise: a ∗ b := ∗(a, b), für a, b ∈ G. (ii) Eine Verknüpfung ∗ : G × G → G heißt assoziativ, wenn für alle a, b, c ∈ G gilt: (a ∗ b) ∗ c = a ∗ (b ∗ c). (iii) Eine Verknüpfung ∗ : G×G → G heißt kommutativ, wenn für alle a, b ∈ G gilt: a ∗ b = b ∗ a. 3 G × G bezeichnet das kartesische Produkt von G mit sich selbst, also die Menge aller (geordneten) Paare (a, b) mit a, b ∈ G. 6 Beispiel 1.2.2 Die Addition + und die Multiplikation · auf der Menge der natürlichen Zahlen sind beide sowohl assoziativ als auch kommutativ. Dasselbe gilt für G = Z, Q oder R. Beispiel 1.2.3 Sei G = R die Menge der reellen Zahlen. Wir definieren eine Verknüpfung ∗ auf R durch die Vorschrift a ∗ b := a+b , 2 a, b ∈ R. Offensichtlich ist ∗ kommutativ (weil + kommutativ ist). Aber ∗ ist nicht assoziativ: es gilt (a ∗ b) ∗ c = a/4 + b/4 + c/2, a ∗ (b ∗ c) = a/2 + b/4 + c/4. Z.B. erhalten wir für a := 1, b := 0, c := 0 die Ungleichheit (1 ∗ 0) ∗ 0 = 1/4 6= 1/2 = 1 ∗ (0 ∗ 0). Beispiel 1.2.4 Sei X eine nichtleere Menge. Wir definieren G := Abb(X, X) als die Menge aller Abbildungen f : X → X. Auf G definieren wir die Verknüpfung ◦ : G × G → G durch die Vorschrift (f ◦ g)(a) := f (g(a)), a ∈ X. Dann ist ◦ nicht kommutativ, wenn X mindestens drei verschiedene Elemente enthält. Ist z.B. X = {1, 2, 3} und setzen wir 1 7→ 3 1 7→ 1 2 7→ 1 , 2 7→ 1 , g := f := 3 7→ 1 3 7→ 2 so erhält man 1 2 f ◦g = 3 1 2 g◦f = 3 7→ 2 7→ 1 , 7→ 1 7→ 3 7→ 3 . 7→ 1 Man sieht dass f ◦ g 6= g ◦ f (weil z.B. f ◦ g(1) 6= g ◦ f (1)). Andererseit ist ◦ assoziativ. Um das zu zeigen, wählen wir beliebige Elemente f, g, h ∈ G and a ∈ X und formen ein bischen um: ((f ◦ g) ◦ h)(a) = (f ◦ g)(h(a)) = f (g(h(a))) = f ((g ◦ h)(a)) = (f ◦ (g ◦ h))(a). Kurz gesagt: für alle a ∈ G gilt ((f ◦ g) ◦ h)(a) = (f ◦ (g ◦ h))(a). Das bedeutet aber, dass die beiden Abbildungen (f ◦ g) ◦ h und f ◦ (g ◦ h) identisch sind4 . Da f, g, h beliebige Elemente von G waren, haben wir gezeigt, dass ◦ assoziativ ist. 4 Sind X, Y Mengen und f, g : X → Y Abbildungen, so gilt f = g genau dann, wenn f (a) = g(a) für alle a ∈ X gilt. 7 Definition 1.2.5 Sei G eine Menge und ∗ : G × G → G eine Verknüpfung. (i) Ein neutrales Element (bzgl. ∗) ist ein Element e ∈ G mit der Eigenschaft, dass für alle a ∈ G gilt: a ∗ e = e ∗ a = a. (ii) Sei e ein neutrales Element zu ∗ und sei a ∈ G. Ein inverses Element zu a (bezüglich e) ist ein Element b ∈ G mit der Eigenschaft a ∗ b = b ∗ a = e. Proposition 1.2.6 Sei ∗ : G × G → G eine Verknüpfung. (i) Es existiert höchstens ein neutrales Element bzgl. ∗. Insbesondere dürfen wir (im Fall der Existenz) von dem neutralen Element reden und können wir uns den Hinweis ‘bzgl. e’ beim Benennen eines inversen Elementes sparen. (ii) Angenommen, die Verknüpfung ∗ ist assoziativ und besitzt ein neutrales Element e. Dann besitzt jedes Element a ∈ G genau ein inverses Element. Beweis: Sind e, e′ zwei neutrale Elemente, so gilt zum einen e · e′ = e (weil e′ neutrales Element ist) e · e′ = e′ (weil e neutrales Element ist). zum anderen ′ Es folgt e = e . Damit ist (i) bewiesen. Nun zum Beweis von (ii). Sei a ∈ G beliebig, und seien b, c ∈ G zwei inverse Elemente zu a. Dann folgern wir: b=b∗e = b ∗ (a ∗ c) (e ist neutrales Element) (c ist Inverses von a) = (b ∗ a) ∗ c =e∗c (∗ ist assoziativ) (b ist Inverses von a) =c (e ist neutrales Element). Insbesondere gilt b = c, und (ii) ist ebenfalls bewiesen. 2 Beispiel 1.2.7 Sei G := Z und ∗ = +. Die Null ist offensichtlich ein neutrales Element zu +. Für a ∈ Z ist das Negative −a ∈ Z ein inverses Element zu a. Beispiel 1.2.8 Sei G := Q und ∗ = · . Die Eins ist offensichtlich ein neutrales Element zu · . Für eine rationale Zahl ab ∈ Q ungleich 0 ist ab ∈ Q ein inverses Element. Die Null besitzt kein inverses Element bzgl. der Multiplikation, da a 0 · = 0 6= 1 b gilt, für alle a b ∈ Q. 8 Definition 1.2.9 Ein Ring ist eine Menge, zusammen mit zwei Verknüpfungen + : R × R → R, (die Addition) und · : R × R → R, (die Multiplikation), die folgende Axiome erfüllen. (i) Die Addition ist assoziativ und kommutativ. (ii) Die Addition besitzt ein neutrales Element 0R , genannt das Nullelement. (iii) Jedes Element a ∈ R besitzt ein (eindeutiges) inverses Element −a bzgl. der Addition, genannt das Negative von a. (iv) Die Multiplikation ist assoziativ. (v) Es gelten die Distributivgesetze: a · (b + c) = a · b + a · c, (a + b) · c = a · c + b · c, für alle a, b, c ∈ R. Ein Ring (R, +, · ) heißt kommutativ, wenn auch die Multiplikation kommutativ ist. Ein neutrales Element der Multiplikation (wenn es existiert) heißt das Einselement, und wird 1R geschrieben. Beispiel 1.2.10 (i) Die Mengen Z, Q und R, versehen mit der üblichen Addition und Multiplikation, sind kommutative Ringe mit einem Einselement. (ii) Die Menge der natürlichen Zahlen N, versehen mit der üblichen Addition und Multiplikation, erfüllt die Bedingungen (i), (iv) und (v). Die Bedingungen (ii) und (iii) sind beide nicht erfüllt, also ist (N, +, · ) kein Ring. Bemerkung 1.2.11 Sei (R, +, · ) ein Ring. Um uns Schreibarbeit zu sparen, werden wir stillschweigend folgende Annahmen treffen bzw. folgende Schreibweisen benutzen. (i) Wir nehmen grundsätzlich an, dass R ein Einselement 1R besitzt. Zwar kommen in der Mathematik auch Ringe vor ohne Einselement, aber nicht in dieser Vorlesung. (ii) Wir schreiben meistens einfach 0 und 1 anstelle von 0R und 1R . Aber natürlich nur, wenn aus dem Kontext klar hervorgeht, in welchem Ring die Elemente 0 und 1 leben. 9 (iii) Wir nehmen immer an, dass 0 6= 1 gilt. Denn aus der Gleichheit 0 = 1 würde sofort folgen, dass der Ring nur aus dem Nullelement besteht (also R = {0}), und das ist eher langweilig. (iv) Wir benutzen u.a. die folgenden abkürzenden Schreibweisen (die man vom Rechnen mit ‘normalen Zahlen’ gewohnt ist): a+b+c abc statt statt ab + c a−b statt statt an (a + b) + c, (a · b) · c, (a · b) + c, a + (−b), a . . · a}, für n ∈ N | · .{z statt n mal usw. Die letzte Zeile legt uns auch die Schreibweise n · a := a + . . . + a | {z } n mal für a ∈ R und n ∈ N nahe. Hierbei muss man aber darauf achten, dass n kein Element von R ist und es sich bei dem Ausdruck n · a nicht um die Multiplikation von zwei Elementen aus R handelt. Proposition 1.2.12 Sei (R, +, · ) ein Ring und a, b, c ∈ R drei beliebige Elemente. (i) Aus der Gleichung a+b=a+c (7) folgt die Gleichung b = c. (ii) Es gelten folgende Regeln: 0·a = a·0 = −(−a) = (−1) · a = a · (−1) = (−a) · (−b) = 0, a, −a, a · b. (8) (9) (10) (11) Beweis: Teil (i) der Proposition folgt aus der folgenden Kette von Umformungen: b = (−a + a) + b = −a + (a + b) = −a + (a + c) = (−a + a) + c = 0 + c = c. Alternativ kann man das Argument auch so formulieren: man addiert zu beiden Seiten der Gleichung (7) das Negative von a. Nach Kürzen ergibt sich die Gleichung b = c. 10 Zum Beweis von (8) überlegt man sich zuerst, dass 0 · a = (0 + 0) · a = 0 · a + 0 · a, für ein beliebiges Element a ∈ R. Wendet man auf diese Gleichheit die unter (i) bewiesene Aussage an, so erhält man 0 · a = 0. Die Gleichung a · 0 = 0 zeigt man auf analoge Weise, womit (8) bewiesen wäre. Nach Definition ist −a das inverse Element zu a (bzgl. der Addition), d.h. es gilt a + (−a) = 0. Man kann diese Gleichung aber auch lesen als: a ist das inverse Element zu −a, d.h. a = −(−a), womit (9) bewiesen wäre. Man beachte, dass wir in diesem Argument die Eindeutigkeit des inversen Elementes benutzt haben, vergl. Proposition 1.2.6. Zum Beweis von (10) führt man zuerst die folgenden Umformungen durch: a + (−1) · a = 1 · a + (−1) · a = (1 + (−1)) · a = 0 · a = 0. (Im letzten Schritt haben wir (8) benutzt!) Die obige Gleichheit zeigt, dass (−1) · a das inverse Element von a bzgl. der Addition ist, also (−1) · a = −a gilt. Die Gleichung a · (−1) = −a zeigt man wieder auf analoge Weise. Der Beweis von (11) sei dem Leser als Übungsaufgabe überlassen. 2 Die Proposition 1.2.12 zeigt, dass in einem allgemeinen Ring viele uns von den ganzen Zahlen vertraute Rechenregeln ebenfalls gelten, aber einer ausführlichen Begründung bedürfen. Es gibt aber auch ein paar Überraschungen. Z.B. ist die im Ring der ganzen Zahlen geltende Ungleichung −1 6= 1 in vielen Ringen falsch! Unser eigentliches Ziel ist ja das Studium von linearen Gleichungssytemen. Es ist möglich und durchaus sinnvoll, lineare Gleichungssysteme über sehr allgemeinen Ringen zu betrachten. Zu grosse Allgemeinheit führt hier aber schnell zu Komplikationen. Deshalb werden wir uns in dieser Vorlesung meistens auf einen bestimmten Typ von Ringen beschränken, die Körper. Zur Illustration der Probleme betrachten wir den einfachsten Typ von linearen Gleichungssystemen: eine Gleichung in einer Unbekannten x: a · x = b. Hierbei sind a, b beliebige Elemente eines kommutativen Rings R. Falls a = 0 ist, so hat diese Gleichung entweder keine Lösung (im Fall b 6= 0) oder jedes Element x ∈ R ist eine Lösung (im Fall b = 0). Man darf also getrost a 6= 0 annehmen. Definition 1.2.13 Sei (R, +, · ) ein kommutativer Ring. (i) Ein Element a ∈ R heißt Einheit, wenn a ein multiplikatives Inverses besitzt (welches wir dann mit a−1 bezeichnen). 11 (ii) Ein Element a ∈ R heißt Nullteiler, wenn es ein Element b ∈ R, b 6= 0, gibt mit ab = 0. Der Ring R heißt nullteilerfrei wenn 0 der einzige Nullteiler ist. Bemerkung 1.2.14 Der Begriff Nullteiler ist etwas irreführend. Haben wir allgemeiner zwei Elemente a, b ∈ R, so sagen wir dass a ein Teiler von b ist, wenn die Gleichung a·x=b eine Lösung x ∈ R besitzt. Setzt man in diese Definition b = 0 ein, so folgt sofort, dass jedes Element a ∈ R ein Teiler von 0 ist (denn obige Gleichung hat ja die Lösung x = 0). Man nennt ein Element a aber nur dann einen Nullteiler, wenn es eine Lösung x 6= 0 gibt. Beispiel 1.2.15 Der Ring der ganzen Zahlen Z ist nullteilerfrei. Die Menge der Einheiten von Z besteht nur aus den zwei Elementen 1, −1. Proposition 1.2.16 Sei R ein kommutativer Ring, a, b ∈ R und a 6= 0. (i) Ist R nullteilerfrei, so besitzt die Gleichung a·x=b (12) höchstens eine Lösung x ∈ R. (ii) Wenn a ein (multiplikatives) Inverses a−1 besitzt, so hat die Gleichung (12) genau eine Lösung x ∈ R, nämlich x := a−1 b. Beweis: Angenommen, der Ring R ist nullteilerfrei, und die Gleichung (12) habe die Lösungen x = x1 und x = x2 ∈ R. Dann gilt 0 = b − b = a · x1 − a · x2 = a · (x1 − x2 ). Wegen der Annahme a 6= 0 bedeutet dies aber, dass x1 − x2 ein Nullteiler ist. Da R als nullteilerfrei angenommen wurde, folgt x1 = x2 . Es gibt also höchstens eine Lösung von (12), und (i) ist bewiesen. Zum Beweis von (ii) nehmen wir an, dass a ein Inverses a−1 besitzt. Ist dann x ∈ R eine Lösung der Gleichung ax = b, so folgt x = a−1 ax = a−1 b. Dies legt den Wert der Lösung also eindeutig fest. Umgekehrt ist der Wert x := a−1 b natürlich eine Lösung der Gleichung. Wir haben also die Existenz und die Eindeutigkeit der Lösung gezeigt. 2 Definition 1.2.17 Ein Körper ist ein kommutativer Ring (K, +, · ) mit einem Einselement 1 6= 0 und folgender Eigenschaft: jedes Element a 6= 0 ist eine Einheit. 12 Beispiel 1.2.18 Die rationalen Zahlen Q und die reellen Zahlen R bilden einen Körper. Der Ring Z ist kein Körper. Bemerkung 1.2.19 Ein Körper K ist automatisch nullteilerfrei. Denn wenn wir Elemente a, b ∈ R haben mit a 6= 0 und ab = 0, so folgt wie im Beweis von Proposition 1.2.16 (ii) die Gleichung b = a−1 · 0 = 0. Zum Abschluss wollen wir noch zeigen, dass man einen nullteilerfreien kommutativen Ring R auf einfache Weise in einen Körper K einbetten kann. Diese Konstruktion ist völlig analog (genauer: eine Verallgemeinerung von) dem Übergang von den ganzen Zahlen Z zu den rationalen Zahlen Q. Sei also R ein nullteilerfreier und kommutativer Ring mit einem Einselement 1 6= 0. Das Beispiel der rationalen Zahlen legt uns nahe, den Körper K als die Menge der Brüche über dem Ring R zu definieren, K := { a | a, b ∈ R, b 6= 0 }. b (13) Die Addition und Multiplikation definiert man ebenfalls so, wie man es von den rationalen Zahlen gewohnt ist: ad + bc a c + := , b d bd a c ac · := . b d bd (14) Man beachte, dass aus b 6= 0 und d 6= 0 die Ungleichheit bd 6= 0 folgt, weil wir annehmen, dass der Ring R nullteilerfrei ist. Jetzt muss man noch zeigen, dass man mit solchen Brüchen so rechnen kann, wie man es gewohnt ist. Die obige ‘Definition’ ist vom mathematischen Standpunkt aus sehr unbefriedigend, da man nicht präzise formuliert hat, was ein ‘Bruch’ eigentlich ist. Für eine wirklich wasserdichte Definition benötigt man das folgende Konzept. Definition 1.2.20 Sei M ein nichtleere Menge. (i) Eine Relation auf M ist eine Teilmenge ∼ von M × M . Für a, b ∈ M definieren wir a ∼ b :⇔ (a, b) ∈∼ . (ii) Eine Relation ∼ auf M heißt Äquivalenzrelation, wenn für alle a, b, c ∈ M gilt: a∼a a∼b ⇒ b∼a a ∼ b, b ∼ c ⇒ a ∼ c (Reflexivität) (Symmetrie) (Transitivität). Sind diese Bedingungen erfüllt, so sprechen wir die Beziehung ‘a ∼ b’ aus als: a ist äquivalent zu b (bzgl. der Relation ∼). 13 (iii) Sei ∼ eine Äquivalenzrelation auf M . Eine nichtleere Teilmenge A ⊂ M heißt Äquivalenzklasse (bzgl. ∼), wenn es ein Element a ∈ M gibt so, dass A genau die Elemente von M enthält, die äquivalent zu a sind, d.h. A = { b ∈ M | a ∼ b }. In diesem Fall schreiben wir A = [a]∼ und nennen a einen Repräsentanten der Äquivalenzklasse A. (Beachte: die Reflexivität impliziert a ∈ [a]∼ !) Wir bezeichnen mit M/∼ die Menge aller Äquivalenzklassen (bzgl. ∼). Der entscheidende Punkt ist: Bemerkung 1.2.21 Sei M eine nichtleere Menge und ∼ eine Äquivalenzrelation auf M . Dann liegt jedes Element von M in genau einer Äquivalenzklasse (bzgl. ∼). Für zwei Elemente a, b ∈ M gilt: a ∼ b ⇔ [a]∼ = [b]∼ . Beim Übergang von der Menge M zur Menge M/ ∼ geht also die Relation ∼ in die Relation = über. Nun zurück zu unserer ursprünglichen Situation. Wir haben einen kommutativen und nullteilerfreien Ring R. Wir setzen M := { (a, b) | a, b ∈ R, b 6= 0 } und definieren die Relation ∼ auf M durch (a, b) ∼ (c, d) :⇔ ad = bc. Lemma 1.2.22 Die Relation ∼ ist eine Äquivalenzrelation. Beweis: Reflexivität und Symmetrie sind klar. Um die Transitivität nachzuweisen, nehmen wir uns drei Elemente (a, b), (c, d), (e, f ) ∈ M her. Wir nehmen an, dass (a, b) ∼ (c, d) und (c, d) ∼ (e, f ) gelten, was gleichbedeutend ist mit ad = bc, cf = de. (15) Der Trick ist nun, beide Seiten der erste Gleichungen mit f zu multiplizieren und dann mithilfe der zweiten Gleichung umzuformen. Wir erhalten: adf = bcf = bde, woraus wir die Gleichung d(af − be) = 0 schliessen. Aber R ist nach Voraussetzung ein nullteilerfreier Ring. Aus d 6= 0 folgt deshalb af = be, oder (a, b) ∼ (e, f ). Damit ist das Lemma bewiesen. 2 Jetzt können wir eine formale Definition des Körpers K wagen. Wir definieren K := M/∼ 14 als die Menge der Äquivalenzklassen bzgl. der Relation ∼. Für ein Element (a, b) ∈ M schreiben wir die zugehörige Äquivalenzklasse als a := [(a, b)]∼ ∈ K. b Ein Bruch ab ist also die Menge der Paare (a′ , b′ ) ∈ M mit ab′ = a′ b, und K ist die Menge aller Brüche ab (wobei b 6= 0). Damit haben wir (13) präzise definiert. Die Addition und die Multiplikation auf K sollen wie in (14) definiert sein. Hier stossen wir auf das nächste Problem, die Wohldefiniertheit. Seien also α, β ∈ K zwei Elemente aus K. Nach Definition von K gibt es Elemente a, b, c, d ∈ R, b, d 6= 0, so dass α = ab , β = dc . Nach (14) möchten wir definieren: α + β := ad + bc , bd αβ := ac . bd (16) Auf der rechten Seite steht jeweils ein wohldefiniertes Element aus K (weil bd 6= 0 ist). Es ist aber auf den ersten Blick nicht klar, dass diese Elemente unabhängig von der Wahl der Darstellung α = ab , β = dc sind. Damit unsere Definition von α+β und αβ überhaupt Sinn macht, müssen wir zuerst folgendes zeigen: Lemma 1.2.23 Gegeben (a, b), (a′ , b′ ), (c, d), (c′ , d′ ) ∈ M mit a a′ = ′ b b Dann gilt c c′ = ′. d d und ad + bc a′ d′ + b′ c′ , = bd b′ d′ ac a ′ c′ = ′ ′. bd bd (17) Beweis: Nach Vorausetzung gelten die Gleichungen ab′ = ba′ , cd′ = dc′ . (18) Durch Umformen erhalten wir (ad + bc)b′ d′ = adb′ d′ + bcb′ d′ = (ab′ )dd′ + (cd′ )bb′ ′ ′ ′ = (ba )dd + (dc )bb ′ ′ ′ ′ ′ = (a d + b c )bd. (umsortieren) (benutze (18)) (umsortieren) Die resultierende Gleichung besagt gerade dass ad + bc a′ d′ + b′ c′ . = bd b′ d′ Die erste Gleichung in (17) ist damit bewiesen. Die zweite Gleichung zeigt man durch eine ähnliche Rechnung. 2 Mit dem Beweis des Lemmas ist gezeigt, dass durch (16) auf der Menge K zwei Verknüpfungen, + und · , definiert sind. 15 Satz 1.2.24 Die oben definierte Menge K, zusammen mit den Verknüpfungen + und · , bildet einen Körper. Wir nennen K den Quotientenkörper von R. Beweis: Zunächst einmal ist zu zeigen, dass (K, +, · ) ein kommutativer Ring mit Einselement ist. Es sind also insbesondere die Eigenschaften (i) bis (v) der Definition 1.2.5 nachzuprüfen, plus die Kommutativität und die Existenz der Eins. Das ist etwas mühselig, aber nicht schwierig, und sei dem Leser überlassen. Wir weisen nur darauf hin, dass das Nullelement von K der Bruch 0K := 10 und das Einselement der Bruch 1K := 11 ist. Zeigen wir, dass K sogar ein Körper ist. Dazu sei α = ab ∈ K ein beliebiges Element. Dann gilt α 6= 0 genau dann, wenn a 6= 0. In diesem Fall ist α−1 := ab ein Inverses zu α, wegen αα−1 = ab 1 a b · = = = 1K . b a ab 1 Jedes von Null verschiedene Element von K ist demnach eine Einheit, also ist K ein Körper. 2 Bemerkung 1.2.25 Die Abbildung R → K, a 7→ a 1 ist injektiv (aus a1 = 1b folgt a = b). Es ist üblich und nützlich, den Ring R mit dem Bild obiger Abbildung zu identifizieren und somit als Teilmenge von K aufzufassen. Mit anderen Worten: wir unterscheiden nicht zwischen dem Element a ∈ R und dem Element a1 ∈ K. Diese Konvention ist mit der Definition der Addition und der Multiplikation auf K verträglich, wegen a b a+b + = , 1 1 1 a b ab · = . 1 1 1 Mit anderen Worten: fassen wir R als Teilmenge des Körpers K auf, so ist die Einschränkung der auf K definierten Addition und Multiplikation auf die Teilmenge R die übliche Addition und Multiplikation des Ringes R. Diese Aussage formuliert man auch so: R ist ein Unterring von K. 1.3 Das Eliminationsverfahren von Gauss Sei K ein Körper. Ein lineares Gleichungssystem über K ist von der Form a1,1 x1 .. . + am,1 x1 + ... ... + + 16 a1,n xn .. . = am,n xn = b1 .. . bm . (19) Hierbei sind ai,j , bi Elemente von K und xj die Unbestimmten. Die Lösungsmenge des Gleichungssystems (19) ist die Menge Lös((19)) := {(x1 , . . . , xn ) | xj ∈ K, (19) ist erfüllt }. Ein Gleichungssystem zu lösen bedeutet für uns, die Lösungsmenge zu bestimmen. Das kann auch bedeuten, die Nichtexistenz von Lösungen zu beweisen. Das Eliminationsverfahren von Gauss liefert einen Algorithmus zum Lösen eines beliebigen linearen Gleichungssystems. Zunächst führen wir eine praktische Schreibweise für das Gleichungssystem (19) ein. Die Koeffizienten ai,j schreiben wir in ein rechteckiges Schema, eine Matrix: a1,1 . . . a1,n .. . A := ... . am,1 . . . am,n Die Menge aller solcher (m, n)-Matrizen bezeichnen wir mit Mm,n (K). Die Einträge bi und die Unbestimmten xj schreiben wir als Spaltenvektoren: x1 b1 .. .. n x := . ∈ K , b := . ∈ K m . xn bm Man beachte, dass die Anzahl der Einträge im allgemeinen verschieden ist: b hat m Einträge (die Anzahl der Zeilen von (19)) und x hat n Einträge (die Anzahl der Unbestimmten). Wir erklären das Produkt der Matrix A mit dem Spaltenvektor x durch die Formel a1,1 x1 + . . . + a1,n xn .. ∈ K m . A · x := ... . am,1 x1 + ... + am,n xn Hierbei ist es entscheidend, dass der Vektor x genau soviel Einträge hat wie die Matrix A Spalten hat (nämlich n). Das Ergebnis ist ein Spaltenvektor mit m Einträgen. Mit dieser Vorbereitung können wir das lineare Gleichungssystem (19) jetzt in die kompaktere, aber äquivalente Form A·x =b bringen. Die Lösungsmenge schreiben wir als Lös(A, b) := { x ∈ K n | A · x = b }. Wir nennen A die Koeffizientenmatrix des Gleichungssystems; hängt man an A noch den Vektor b als letzte Spalte an, so spricht man von der erweiterten 17 Koeffizientenmatrix: a1,1 .. à = (A, b) := . am,1 ... a1,n .. . . . . am,n b1 .. . . bm In ihr ist die gesamte Information über das Gleichungssystem enthalten. Das Prinzip des Gauss’schen Eliminationsverfahrens besteht darin, das Gleichungssystems durch wiederholtes Anwenden von sogenannten Zeilenoperationen so weit zu vereinfachen, bis man die Lösungsmenge leicht angeben kann. Definition 1.3.1 Sei A = (ai,j ) ∈ Mm,n (K) eine (m, n)-Matrix mit Einträgen in einem Körper K. Eine elementare Zeilenoperation, angewendet auf A, liefert eine Matrix A′ = (a′i,j ) ∈ Mm,n (K) und ist vom Typ (I), (II) oder (III), wie folgt: (I) A′ geht aus A hervor durch Multiplikation der i-ten Zeile mit einem Element λ 6= 0 von K, d.h. ( λai,l , falls k = i, ′ ak,l := ak,l , falls k 6= i. Hierbei sind i, k ∈ {1, . . . , m}, l ∈ {1, . . . , n}. (II) A′ geht aus A hervor durch Addition des λ-fachen der iten Zeile auf die jte Zeile, d.h. ( aj,l + λai,l , für k = j, ′ ak,l := ak,l , für k 6= j. Hierbei sind 1 ≤ i, j ≤ m verschiedene Indizes und λ ist ein beliebiges Element von K. (III) A′ geht aus A hervor durch Vertauschen der iten mit der jten Zeile, aj,l , für k = i, a′k,l := ai,l , für k = j, ak,l , sonst. Lemma 1.3.2 Sei A · x = b ein lineares Gleichungssystem über einem Körper K, mit erweiterter Koeffizientenmatrix (A, b). Sei (A′ , b′ ) das Ergebnis einer elementaren Zeilenoperation, angewendet auf (A, b). Dann haben die beiden Gleichungssysteme A · x = b und A′ · x = b′ dieselbe Lösungsmenge: Lös(A, b) = Lös(A′ , b′ ). 18 Beweis: Wir zeigen das Lemma exemplarisch für eine elementare Zeilenumformung vom Typ (II). Die anderen beiden Fälle sind einfacher und dem Leser überlassen. Schreibe A = (ak,l ) und b = (bk ). Es seien 1 ≤ i 6= j ≤ m und λ ∈ K. Es sei ausserdem (A′ , b′ ) das Ergebnis der Zeilenoperation vom Typ (II) mit Parameter i, j, λ, angewendet auf die erweiterte Koeffizientenmatrix (A, b). Sei x = (xl ) ∈ Lös(A, b) eine Lösung von A · x = b, d.h. es gelten die Gleichungen a1,1 x1 + . . . + a1,n xn = b1 .. .. .. (20) . . . am,1 x1 + ... + am,n xn = bm . Multiplizieren wir die ite Gleichung von (20) mit λ und addieren wir diese zur jten Gleichung, so folgt, nach einer einfachen Umformung: (aj,1 + λai,1 )x1 + . . . + (aj,n + λai,n )xn = bj + λbi . (21) Ersetzen wir in (20) die jte Zeile durch die Gleichung (21), so erhalten wir, in Matrixschreibweise und nach Definition von (A′ , b′ ), die Gleichung A′ · x = b′ . Wir haben also gezeigt: aus A · x = b folgt A′ · x = b′ . Anders ausgedrückt: Lös(A, b) ⊂ Lös(A′ , b′ ). Nun überlegt man sich folgendes: wendet man auf (A′ , b′ ) eine Zeilenumformung vom Typ (II) mit Parameter (i, j, −λ), so erhält man die ursprüngliche erweiterte Koeffizientenmatrix (A, b). Mit dem soeben ausgeführten Argument folgt dann Lös(A′ , b′ ) ⊂ Lös(A, b), und insgesamt Lös(A, b) = Lös(A′ , b′ ). 2 Definition 1.3.3 Eine (m, n)-Matrix A = (ai,j ) über einem Körper K ist in Zeilenstufenform, wenn sie folgende Form hat: • • .. . , • 6= 0. A = • ∗ 0 Etwas genauer: es gibt eine ganze Zahl r mit 0 ≤ r ≤ m und r ganze Zahlen j1 < j2 < . . . < jr , so dass gilt: ai,1 = . . . = ai,ji −1 = 0, ai,1 = . . . = ai,n = 0, ai,ji 6= 0 19 für i = 1, . . . , r, für i = r + 1, . . . , m. Die von Null verschiedenen Einträge a1,j1 , . . . , ar,jr heißen die Angelpunkte von A. Die Zahl r heißt der Zeilenrang von A. Die Matrix A ist in normalisierter Zeilenstufenform, wenn, zusätzlich zu den oben aufgeführten Bedingen, gilt: a1,ji = . . . , ai−1,ji = 0, ai,ji = 1, für i = 1, . . . , r. Das entsprechende Bild sieht also in etwa so aus: 1 0 1 .. . A = 0 0. .. 0 1 . Man beachte, dass die Fälle r = 0 und r = m ausdrücklich zugelassen sind: im ersten Fall ist A = 0, d.h. alle Einträge von A sind Null. Ein weiterer interessanter Grenzfall tritt ein für m = n = r. Ist dann A in normalisierter Zeilenstufenform, so gilt 1 0 .. A = En := . . 0 1 Die Matrix En heißt die Einheitsmatrix vom Rang n. Lemma 1.3.4 Sei A ∈ Mm,n (K) eine (m, n)-Matrix über einem Körper K. Dann lässt sich A durch eine Folge von elementaren Zeilenumformungen in eine Matrix A′ ∈ Mm,n (K) in normalisierter Zeilenstufenform umformen. Beweis: Zum Beweis werden wir einen konkreten Algorithmus angeben, der eine gegebene Matrix A = (ai,j ) schrittweise auf normalisierte Zeilenstufenform bringt. Dabei werden wir die Namen A für die Matrix und ai,j für ihre Einträge immer beibehalten, auch wenn sich letztere durch die laufenden Umformungen geändert haben. Ist A = 0, so ist A bereits in normalisierter Zeilenstufenform, und wir sind fertig. Andernfalls gibt es mindesten einen Eintrag ai,j 6= 0. Setze j1 := min{ j | es gibt ein i mit ai,j 6= 0 } und wähle ein i1 mit ai1 ,j1 6= 0. Jetzt führen wir die folgenden Umformungen aus: • Falls i1 6= 1, vertausche die erste mit der i1 ten Zeile. Wir dürfen danach annehmen, dass i1 = 1. Unser erster Angelpunkt ist der Eintrag a1,j1 6= 0. • Multipliziere die erste Zeile von A mit a−1 1,j1 . Danach gilt a1,j1 = 1. 20 • Addiere das −ai,j1 fache der ersten Zeile zur iten Zeile, für i = 2, . . . , m. Dadurch verschwinden die Einträge unterhalb des Angelpunktes a1,j1 = 1. Die Matrix A hat nun die Form 0 ··· .. . A= . .. 0 ··· 0 1 .. . 0 .. .. . . 0 0 ∗ , ∗ ··· B wobei B eine gewisse (m − 1, n − j1 )-Matrix ist. Nun könnte es sein, dass m = 1 oder j1 = n. In beiden Fällen ist die Matrix B leer und A ist bereits in normalisierter Zeilenstufenform. Wenn aber m > 1 und j1 < n gilt, so wenden wir das im letzten Abschnitt beschriebene Verfahren auf die Matrix B an. Dabei führen wir aber die anfallenden Zeilenumformungen nicht einfach nur auf B aus, sondern auf die ganze Matrix A. Hat man mit dieser Vorgehensweise Erfolg, so hat die Matrix A anschliessend die Form 0 ··· 0 1 ∗ ··· ··· ∗ .. .. . 0 0 ∗ . .. .. .. . . . 1 ∗ , A= . .. .. .. . . 0 0 . .. .. .. .. .. . . . . 0 ··· 0 0 ··· 0 0 d.h. sie ist in Zeilenstufenform, und die Angelpunkte haben alle den Wert 1. Vom algorithmischen Standpunkt aus haben wir eine Prozedur beschrieben, die sich u.U. selbst aufruft (ein sogenannter rekursiver Aufruf). Das ist erlaubt, aber wir müssen uns klarmachen, dass obiges Verfahren nach endlich vielen Schritten abbricht. Um das einzusehen, betrachtet man die Anzahl m der Zeilen der Matrix, auf die man die Prozedur anwendet. Die Prozedur ruft nur dann sich selbst auf, wenn m > 1, und in diesem Fall ist die Eingabe ein Matrix mit m − 1 Zeilen. Daraus folgt, dass die Tiefe der rekursiven Aufrufe höchstens m beträgt und das Verfahren tatsächlich nach endlich vielen Schritten abbricht. Wir haben nun die Matrix A auf Zeilenstufenform gebracht und dafür gesorgt, dass die Werte der Angelpunkte alle gleich 1 sind. Es ist nun klar, wie man durch weitere elementare Zeilenumformungen vom Typ (II) erreichen kann, dass alle Einträge oberhalb der Angelpunkte verschwinden. 2 Satz 1.3.5 Sei K ein Körper, m, n ∈ N, A ∈ Mm,n (K) und b ∈ K m . Wir betrachten das lineare Gleichungssystem A · x = b, mit x ∈ K n . Dann können zwei verschiedene Fälle auftreten: 21 (i) Es gibt keine Lösung, d.h. Lös(A, b) = ∅. (ii) Es gibt eine ganze Zahl s, 0 ≤ s ≤ n, und paarweise verschiedene ganze Zahlen k1 , . . . , ks , 1 ≤ k1 < · · · < ks ≤ n, mit folgender Eigenschaft. Für jedes s-Tupel (t1 , . . . , ts ) ∈ K s gibt es genau eine Lösung x = (x1 , . . . , xn ) ∈ K n der Gleichung A · x = b mit xk1 = t1 , . . . , xks = ts . Insbesondere erhalten wir eine Bijektion ∼ φ : K s → Lös(A, b), (t1 , . . . , ts ) 7→ x = (x1 , . . . , xn ). Im Fall (ii) des Satzes nennen wir die Unbestimmten xk1 , . . . , xkn−r die freien Variablen und die übrigen Unbestimmten die gebundenen Variablen. Die Bijektion φ heißt Parametrisierung der Lösungsmenge, die Elemente ti heißen Parameter. Beweis: Nach Lemma 1.3.4 können wir die erweiterte Koeffizientenmatrix (A, b) durch eine Folge von Zeilenumformungen zu einer Koeffizientenmatrix (A′ , b′ ) umformen, so dass A′ in normalisierter Zeilenstufenform ist. Nach Lemma 1.3.2 gilt ausserdem Lös(A, b) = Lös(A′ , b′ ). Nun sei r der Zeilenrang von A′ und seien j1 < . . . < jr die Spaltenindizes der Angelpunkte von A′ . Setze s := n − r und sortiere die s Elemente der Menge {1, . . . , n}\{j1 , . . . , jr } in aufsteigender Reihenfolge: k1 < . . . < ks . Stellen wir jetzt das lineare Gleichungssystem A′ ·x = b′ auf und bringen die Unbestimmten xk1 , . . . , xks auf die rechte Seite, so erhalten wir ein Gleichungssystem der Form xj1 = .. . xjr = b′1 − a′1,k1 xk1 − . . . − a′1,ks xks .. . b′r − a′r,k1 xk1 − . . . − a′r,ks xks 0 = .. . b′r+1 .. . 0 = b′m . Es können nun zwei verschiedene Fälle auftreten: entweder sind die Einträge b′r+1 , . . . , b′m alle gleich Null, oder einer dieser Einträge ist ungleich Null. Wenn letzteres zutrifft, so ist mindestens eine der obigen Gleichungen unerfüllbar, und dann ist die Lösungsmenge leer: Lös(A, b) = Lös(A′ , b′ ) = ∅. Dies entspricht dem Fall (i) des Satzes. Andernfalls gilt b′r+1 = . . . , b′m = 0 und die letzten m − r Gleichungen sind automatisch erfüllt und können weggelassen 22 werden. In diesem Fall ist es klar, dass man für die Unbestimmten xk1 , . . . , xks beliebige Werte aus dem Körper K vorgeben kann, und dass dann mit dieser Vorgabe eine eindeutige Lösung des Gleichungssystems existiert. Die Aussage im Fall (ii) des Satzes sagt genau das. 2 Bemerkung 1.3.6 Man beachte, dass die Unterteilung in freie und gebundene Variablen nicht nur von dem Gleichungssystem A · x = b, sondern vor allem von den vorgenommenen Zeilenumformungen abhängt. Da es viele Möglichkeiten gibt, eine Matrix auf Zeilenstufenform zu bringen, gibt es im allgemeinen auch viele Möglichkeiten für die Wahl der freien Variablen. Wir werden im zweiten Kapitel zeigen, dass zumindest die Anzahl s der freien Variablen (bzw. der Parameter ti ) eindeutig durch das Gleichungssystem bestimmt ist: sie entspricht der Dimension des Lösungsraumes. Die Aussage von Satz 1.3.5 lässt sich noch verschärfen, wenn b = 0 gilt. Definition 1.3.7 Ein homogenes lineares Gleichungssystem ist ein Gleichungssystem der Form A · x = 0, mit A ∈ Mm,n (K). Hierbei bezeichnet 0 den Nullvektor von K m , d.h. 0 := (0, . . . , 0) ∈ K m . Offensichtlich hat ein homogenes lineares Gleichungssystem immer mindestens eine Lösung, nämlich den Nullvektor 0 := (0, . . . , 0) ∈ K n . Der Fall (i) in Satz 1.3.5 tritt also nicht auf. Eine Lösung x ∈ Lös(A, 0), x 6= 0, heißt nichttriviale Lösung. Satz 1.3.8 Sei A ∈ Mm,n (K). Wenn m < n gilt, dann hat das homogene Gleichungssystem A·x =0 mindestens eine nichttriviale Lösung, x 6= 0. Ausserdem gilt für die Anzahl s der freien Parameter (Bezeichnung wie in Satz 1.3.5): s ≥ n − m > 0. Beweis: Wie im Beweis von Satz 1.3.5 formen wir die erweiterte Koeffizientenmatrix (A, 0) so zu einer Matrix (A′ , b′ ), dass A′ in normalisierter Zeilenstufenform ist. (Man macht sich leicht klar, dass dann b′ = 0 gilt. Mit anderen Worten: ein homogenes Gleichungssystem bleibt unter Zeilenumformungen homogen.) Sei r der Zeilenrang von A′ . Man beachte, dass r ≤ m und r ≤ n. Wie im Beweis von Satz 1.3.5 ist dann s := n − r die Anzahl der freien Parameter der Lösungsmenge. Wegen r ≤ m gilt dann s ≥ n − m. 23 Gilt zusätzlich m < n, so folgt s > 0, und es gibt mindestens eine freie Variable xk1 . Nach Satz 1.3.5 existiert dann eine Lösung x = (x1 , . . . , xn ) ∈ Lös(A, 0) 2 mit xk1 = 1 6= 0. Insbesondere gilt x 6= 0. 1.4 Analytische Geometrie Als analytische Geometrie bezeichnet man heute meistens den Teil der linearen Algebra, der sich mit der Geometrie der Ebene und des dreidimensionalen Raumes beschäftigt. Dies war der historische Ursprung der linearen Algebra. Das Beispiel aus §1.1 zeigt aber, dass moderne Anwendungen meistens nicht auf drei Dimensionen beschränkt sind und nicht notwendigerweise einen geometrischen Hintergrund haben. Trotzdem ist die geometrische Anschauung für ein intuitives Verständnis der Begriffe der linearen Algebra unerlässlich. Bevor wir also im nächsten Kapitel die grundlegenden Begriffe wie Vektorraum und lineare Abbildung offiziel und in abstrakter Weise definieren werden, wollen wir sie zunächst geometrisch motivieren. Der euklidische Standardraum Die Elemente des Euklid waren bis zum Beginn der Neuzeit das Standardwerk der Mathematik und insbesondere der Geometrie; in ihnen ist praktisch das gesamte mathematische Wissen und Denken der griechischen Antike zusammengefasst. Der Einfluss der Elemente auf Mathematik, Philosophie und Wissenschaft ist enorm. Wir wollen hier zwei wesentliche Aspekte hervorheben.5 • Die Mathematik wird als eine deduktive Wissenschaft aufgebaut; am Anfang stehen einige wenige Axiome, aus denen dann alles andere durch logische Schlüsse abgeleitet wird. • Die Algebra wird aus der Geometrie heraus begründet. Z.B. werden rationale Zahlen einfach als Längenverhältnisse von Strecken definiert, die man durch gewisse geometrische Konstruktionen erhalten kann. (Die Begründung der reellen Zahlen bereit massive Probleme und ist nicht allgemein gelungen.) Der erste Punkt bestimmt auch heute noch unseren Zugang zur Mathematik als Wissenschaft. Beim zweiten Punkt fand aber ab dem 17. Jahrhundert ein Umdenken und eine Abkehr von den Grundsätzen der Elemente statt, dessen Ergebnis vielleicht noch bedeutsamer ist als der Einfuss der Elemente selbst. Das entscheidende Ereignis war wohl die Einführung von Koordinatensystemen durch René Descartes in seinem Hauptwerk Discours de la méthode (1637). Durch diese Entdeckung wurde es möglich, die Geometrie aus der Algebra heraus zu begründen. Dieser Standpunkt ist vielleicht weniger elegant als der von Euklid und philosophisch unbefiedigend, hat aber unschätzbare praktische Vorteile. 5 Für eine kritische Betrachtung siehe Euklid: Die Elemente – eine Übersicht, Vorlesungsskript von G.-D. Geyer SS 2001, Erlangen, oder Euklid und die Elemente, Norbert Froese, 2007. 24 Oft kann man geometrische Fragestellungen in eine Rechenaufgabe übersetzen und dann mit numerischen Methoden lösen. Im Zeitalter der digitalen Datenverarbeitung ist dieser Vorteil sogar noch viel grösser als zu Descartes Zeit. Ganz im Sinne von Descartes gehen wir also vom Körper der reellen Zahlen aus und definieren: Definition 1.4.1 Sei n ∈ N eine natürliche Zahl. Der Euklidische Standardraum der Dimension n ist die Menge Rn aller n-Tupel von reellen Zahlen. Für n ≤ 3 kann man sich diesem Raum leicht geometrisch veranschaulichen. Die reellen Zahlen R stellt man sich als ‘Zahlengerade’ vor: 0 1 - Für n = 2 identifiziert man R2 mit einer Ebene, in der man ein Koordinatensystem gewählt hat, wie folgt. Zu einem Punkt P in der Ebene assoziert man das Paar (x1 , x2 ) ∈ R2 , indem man von P aus das Lot auf beide Koordinatenachsen fällt, welche man als Zahlengerade mit der Menge der reellen Zahlen identifiziert. 6 x2 P = (x1 , x2 ) x1 - Wir nennen R2 deshalb auch die Euklidische Standardebene. Analog verfährt man mit R3 , das man mit dem dreidimensionalen Raum mit drei Koordinatenachsen identifiziert. Für den Moment bleiben wir aber in Dimension zwei. Definition 1.4.2 Eine Gerade in der Standardebene R2 ist die Lösungsmenge einer (nichttrivialen) linearen Gleichung, L = { (x1 , x2 ) ∈ R2 | ax1 + bx2 = c }. Hierbei sind a, b, c ∈ R und (a, b) 6= (0, 0). 25 Wir wollen im folgenden mit den Methoden des letzten Abschnittes illustrieren, dass der soeben definierte Begriff einer Geraden mit der geometrischen Anschauung übereinstimmt. Sei also L ⊂ R2 eine Gerade, gegeben durch die Gleichung ax1 + bx2 = c. Eine Gleichung ist auch ein Gleichungssystem, also können wir den GaussAlgorithmus anwenden. Der ist in diesem Fall so einfach, dass wir in einem Schritt das Ergebnis angeben können. Allerdings ist eine Fallunterscheidung notwendig. Ist a 6= 0, so erhalten wir die äquivalente Gleichung x1 = c b − · x2 . a a Wir fassen also x2 als freie und x1 als gebundene Variable auf und erhalten die Parametrisierung b c ∼ φ : R → L, t 7→ ( − · t, t). a a ∼ Die Umkehrabbildung φ−1 : L → R entspricht geometrisch der Projektion von L auf die x2 -Achse. Wenn b 6= 0, so können wir auch so umformen: x2 = c a − · x1 . b b Die entsprechende Parametrisierung ∼ φ′ : R → L, t 7→ (t, c a − · t) b b entspricht der Projektion auf die x1 -Achse. x2 6 (2, 2) (0, 1) (−2, 0) x1 - Figure 2: Die Gerade L : x1 − 2x2 = −2 26 Der Fall a 6= 0, b 6= 0 ist ein Beispiel für die Bemerkung 1.3.6: man kann sowohl x1 als auch x2 als freien Parameter wählen. Die Anzahl der freien Parameter ist aber in beiden Fällen 1. Dies entspricht der Vorstellung von einer Geraden als ein ‘eindimensionales Objekt’. Die Grenzfälle a = 0 (bzw. b = 0) beschreiben eine Gerade, die parallel zur x1 -Achse (bzw. parallel zur x2 -Achse) liegt. Es ist klar, dass in diesem Fall nur x1 (bzw. x2 ) als freie Variable in Frage kommt. Als Ergebnis der obigen Diskussion wollen wir folgendes festhalten. Proposition 1.4.3 Eine Teilmenge L ⊂ R2 der Ebene ist genau dann eine ∼ Gerade, wenn es eine Bijektion φ : R → L gibt der Form ∼ φ : R → L, t 7→ (u1 + v1 t, u2 + v2 t), mit gewissen reellen Zahlen u1 , u2 , v1 , v2 ∈ R, wobei (v1 , v2 ) 6= (0, 0). Beweis: Angenommen, L ⊂ R ist eine Gerade, also die Lösungsmenge einer Gleichung der Form ax1 + bx2 = c, mit (a, b) 6= (0, 0). Die obige Diskussion zeigt: wenn a 6= 0, so existiert die geforderte Parametrisierung φ, wobei u1 := c , a b v1 := − , a u2 := 0, v2 := 1. Wenn a = 0 so gilt zumindest b 6= 0, und wir können ebenfalls eine explizite Parametrisierung φ′ angeben. ∼ Nehmen wir umgekehrt an, dass es eine Bijektion φ : R → L gibt, wobei φ(t) = (u1 + v1 t, u2 + v2 t) und (v1 , v2 ) 6= 0. Wir setzen a := v2 , b := −v1 , c := u1 v2 − u2 v1 , und wollen zeigen, dass L die Lösungsmenge der Gleichung ax1 + bx2 = c, also eine Gerade ist. Mit anderen Worten: ein Punkt (x1 , x2 ) ∈ R2 ist genau dann eine Lösung der Gleichung ax1 + bx2 = c, wenn es ein t ∈ R gibt mit x1 = u1 + v1 t, x2 = u2 + v2 t. Der Beweis dieser Aussage ist dem Leser als Übungsaufgabe überlassen. 2 ∼ Eine Bijektion φ : R → L wie in Proposition 1.4.3 heißt eine Parametrisierung oder eine Parameterdarstellung der Geraden L. Jetzt wenden wir uns dem Problem zu, das Verhältnis zweier Geraden zueinander zu studieren. Proposition 1.4.4 Es seien L1 , L2 ⊂ R2 Geraden in der Ebene. Dann können nur die folgenden drei Fälle eintreten. 27 (i) L1 = L2 , (ii) L1 und L2 schneiden sich in genau einem Punkt, oder (iii) L1 und L2 schneiden sich in keinem Punkt. Beweis: Die Geraden L1 , L2 sind nach Definition Lösungsmenge einer linearen Gleichung in den Unbestimmten x1 , x2 . Die Schnittmenge L1 ∩ L2 ist demnach die Lösungsmenge eines linearen Gleichungssystems mit zwei Gleichungen: a1 x1 + b1 x2 = c1 , a2 x1 + b2 x2 = c2 . (22) mit ai , bi , ci ∈ R und (ai , bi ) 6= (0, 0). Die erste Zeile von (22) entspricht der Geraden L1 , die zweite Zeile der Geraden L2 . Wir wenden nun auf (22) das Gauss-Verfahren an. Dabei ist eine Fallunterscheidung nötig, z.B. a1 6= 0 oder b1 6= 0. Die beiden Fälle sind sich aber so ähnlich, dass die Betrachtung des ersten Falles a1 6= 0 hier genügen soll. Sei also a1 6= 0. Wendet man das Gauss’sche Eliminationsverfahren auf (22) an, so erhält man nach zwei Schritten das äquivalente Gleichungssystem c1 b1 · x2 = a1 a1 a2 b 1 a 2 c1 (b2 − ) · x2 = c2 − a1 a1 x1 + (23) (24) An dieser Stelle ist eine erneute Fallunterscheidung nötig. Fall 1: a1 b2 = a2 b1 . Die Gleichung (24) ist dann äquivalent zu der Gleichung a 1 c2 = a 2 c1 . (25) die gar nicht mehr von x1 , x2 abhängt. Fall 1 (a): a1 b2 = a2 b1 und a1 c2 = a2 c1 . In diesem Fall verschwindet die Gleichung (24) vollständig, und es bleibt nur die erste Gleichung übrig. Geometrisch bedeutet das, dass die Schnittmenge L1 ∩ L2 identisch mit der Geraden L1 ist, oder äquivalent: L2 ⊂ L1 . Unsere Anschauung sagt uns, dass eine Gerade nur dann Teilmenge einer anderen Geraden sein kann, wenn beide Geraden gleich sind. Also sollte sogar L1 = L2 gelten. Da wir uns aber nicht auf unsere Anschauung verlassen wollen, müssen wir diese Aussage beweisen. Das geht z.B. so. Wenn a2 = 0 wäre, so würde aus a1 b2 = a2 b1 und a1 6= 0 folgen, dass auch b2 = 0. Das widerspricht aber der Annahme, dass die zweite Gleichung in (22) die Gerade L2 beschreibt (siehe Definition 1.4.2). Also gilt a2 6= 0, und die reelle Zahl λ := a−1 1 a2 ist ebenfalls von Null verschieden. Aus den beiden Gleichungen a1 b2 = a2 b1 und a1 c2 = a2 c1 folgt nun, dass die zweite Gleichung in (22) das λ-fache der ersten Gleichung ist. Also sind beide Gleichungen äquivalent und es gilt L1 = L2 . Dies ist Fall (i) in der Aussage von Proposition 1.4.4. 28 Fall 1 (b): a1 b2 = a2 b1 und a1 c2 6= a2 c1 . In diesem Fall ist die Gleichung (24) unlösbar. Das bedeutet, dass die Schnittmenge L1 ∩ L2 die leere Menge ist und entspricht dem Fall (iii) aus Proposition 1.4.4. Fall 2: a1 b2 6= a2 b1 . In diesem Fall kann man das Gauss-Verfahren weiterführen und erhält nach einer kurzen Rechnung die eindeutige Lösung x1 = b 2 c1 − b 1 c2 , a1 b 2 − a2 b 1 x2 = a 1 c2 − a 2 c1 . a1 b 2 − a2 b 1 Insbesondere besteht die Schnittmenge L1 ∩ L2 aus genau einem Punkt, dessen Koordinaten durch die obigen Gleichungen gegeben sind. Dies entspricht dem Fall (ii) aus Proposition 1.4.4. 2 Definition 1.4.5 Zwei Geraden L1 , L2 in der Ebene heißen parallel, wenn entweder L1 = L2 gilt oder wenn sich L1 und L2 nicht schneiden (Fall (i) und (iii) aus Proposition 1.4.4). Der Beweis von Proposition 1.4.4 zeigt: die beiden Geraden L1 : a1 x1 + b1 x2 = c1 , L2 : a2 x1 + b2 x2 = c2 , sind genau dann parallel, wenn die Gleichung a1 b 2 = a2 b 1 erfüllt ist. Ist dies der Fall, so kann man die Gleichung für L2 durch Multiplikation mit einer von Null verschiedenen reellen Zahl in eine äquivalente Gleichung der Form L2 : a1 x1 + b1 x2 = c′2 umwandeln. Dieses Argument zeigt: Bemerkung 1.4.6 Zwei Geraden L1 : a1 x1 + b1 x2 = c1 , L2 : a2 x1 + b2 x2 = c2 , sind genau dann parallel, wenn die beiden zugehörigen homogenen Gleichungssysteme äquivalent sind: a1 x1 + b1 x2 = 0 ⇔ a2 x1 + b2 x2 = 0. Geometrisch können wir diese Bemerkung folgendermassen interpretieren. Ist die Gerade L ⊂ R2 durch die Gleichung ax1 + bx2 = c gegeben, so ist die Lösungsmenge L′ der assoziierten homogenen Gleichung, L′ = {(x1 , x2 ) ∈ R2 | ax1 + bx2 = 0 }, die eindeutige zu L parallele Gerade, die den Nullpunkt (0, 0) enthält. Wenden wir uns nun dem dreidimensionalen Raum R3 zu. 29 Definition 1.4.7 Eine Ebene im R3 ist die Lösungsmenge einer linearen Gleichung, E = { (x1 , x2 , x3 ) ∈ R3 | ax1 + bx2 + cx3 = d }, mit a, b, c, d ∈ R und (a, b, c) 6= (0, 0, 0). Wie im Fall der Geraden sieht man leicht ein, dass jede Ebene E ⊂ R3 eine Parametrisierung ∼ φ : R2 → E mit zwei Parametern besitzt. Dies entspricht unserem Verständnis von einer Ebene als einem zweidimensionalen Objekt. Definition 1.4.8 (i) Zwei Ebenen E1 , E2 heißen parallel wenn entweder E1 = E2 oder E1 ∩ E2 = ∅ gilt. (ii) Eine Teilmenge L ⊂ R3 heißt Gerade, wenn sie Schnittmenge zweier nichtparalleler Ebenen ist. Mit anderen Worten: eine Gerade L ⊂ R3 ist Lösungsmenge eines linearen Gleichungssystems mit drei Unbestimmten und zwei ’voneinander unabhängigen’ Gleichungen, d.h. a1 x1 + b1 x2 + c1 x3 = d1 , a2 x1 + b2 x2 + c2 x3 = d2 , wobei ai , bi , ci , di ∈ R, (ai , bi , ci ) 6= (0, 0, 0) die Eigenschaft haben, dass es keine λ ∈ R gibt mit a2 = λa1 , b2 = λb1 , c2 = λc1 . Wendet man auf so eine Gleichungssystem den Gauss-Algorithmus an, so erhält man eine Parametrisierung der Geraden L mit genau einem freien Parameter, ∼ φ : R → L. Dies entspricht wieder unserer Anschauung von einer Geraden als einem eindimensionalen Objekt. Nach diesen Betrachtungen in Dimension zwei und drei können wir nun eine allgemeine Definition wagen. Definition 1.4.9 Sei n ∈ N. Eine nichtleere Teilmenge H ⊂ Rn des n-dimensionalen Standardraumes heißt linearer Unterraum, wenn sie Lösungsmenge eines linearen Gleichungssystems ist, also H = { x ∈ Rn | A · x = b }, mit A ∈ Mm,n (R) und b ∈ Rm . Die Dimension eines linearen Unterraumes H ⊂ Rn ist die Anzahl s der freien Parameter einer Parametrisierung, ∼ φ : Rs → H, 30 wie man sie durch Anwenden des Gauss-Algorithmus auf das Gleichungssystem A · x = b erhält. Ein linearer Unterraum der Dimension eins heißt Gerade, ein linearer Unterraum der Dimension zwei heißt Ebene. Offenbar enthält diese Definition die Definitionen 1.4.2, 1.4.7 und 1.4.8 (ii) als Spezialfall. Trotzdem gibt es eine Menge auszusetzen. Ein erster Kritikpunkt ist, dass wir die Wohldefiniertheit der Dimension eines linearen Unterraumes noch nicht überprüft haben. Schliesslich ist die ∼ Parametrisierung φ : Rs → H nicht eindeutig durch die Teilmenge H ⊂ Rn bestimmt. Sie hängt unter anderem von der Wahl des Gleichungssystems A·x = b und von den bei der Durchführung des Gauss-Algorithmus vorgenommenen Zeilenumformungen ab. Es ist eine nichttriviale und sehr wichtige Tatsache, dass die Zahl der freien Parameter aber nur von H ⊂ Rn abhängt (vgl. Bemerkung 1.3.6). Eine weitere Unzulänglichkeit der Definition 1.4.9 besteht darin, dass sie den Begriff des linearen Unterraumes nicht durch geometrische Eigenschaften charakterisiert. Stattdessen wird die Existenz eines linearen Gleichungssystems gefordert, für welches es aber keinerlei natürlichen Kandidaten gibt. Denkt man z.B. an den oben besprochenen Fall einer Geraden im R3 , so ist anschaulich klar, dass es unendlich viele Möglichkeiten gibt, eine Gerade als Schnittmenge zweier Ebenen darzustellen. Eine bestimmte Auswahl solcher Ebenen zu treffen ist aber eher unnatürlich. Im Folgenden wollen wir eine geometrische Charakterisierung von linearen Unterräumen durch Vektoren entwickeln und damit den allgemeinen Begriff des Vektorraumes, den wir im nächsten Kapitel behandeln werden, vorbereiten und motivieren. Der Vektorbegriff Um den geometrischen Begriff Vektor klar zu fassen, ist es zunächst hilfreich, streng zwischen Punkten und Vektoren zu unterscheiden (diese Unterscheidung werden wir aber sehr bald wieder aufgeben). Wir gehen also von einem gegebenen Raum aus, dessen Elemente Punkte sind, die wir mit P, Q usw. bezeichnen. Wir gehen ebenfalls davon aus, dass in unserem Raum die Gesetze der euklidischen Geometrie gelten. Die Beziehung zwischen Punkten und Vektoren ist dann folgende: • Zwei Punkte P, Q legen einen Vektor fest. Schreibweise: x := P~Q. Man kann sich den Vektor x = P~Q als einen Pfeil mit Anfangspunkt P und Endpunkt Q vorstellen. • Ist ein Punkt P und eine Vektor x gegeben, so gibt es genau einen Punkt Q mit der Eigenschaft x = P~Q. 31 Q 3 x 3 Q′ P x P′ Figure 3: • Zwei Punktepaare (P, Q) und (P ′ , Q′ ) definieren denselben Vektor, also P~Q = P ~′ Q′ , wenn der Pfeil von P nach Q mit dem Pfeil von P ′ nach Q′ durch eine Parallelverschiebung in Deckung gebracht werden kann. Sind z.B. drei paarweise verschiedene Punkte P, P ′ , Q gegeben, die nicht alle auf einer Geraden liegen, und setzt man x := P~Q, so gibt es nach der zweiten Regel einen vierten Punkt Q′ mit x = P ~′ Q′ . Die Strecken P Q und P ′ Q′ bilden dann gegenüberliegende Kanten eines Parallelogramms, siehe Bild 1.4. Aus den geometrischen Eigenschaften von Vektoren ergeben sich zwei Operationen, die Vektoraddition und die Multiplikation mit einem Skalar. Sind zwei Vektoren x, y gegeben, so kann man einen dritten Vektor, z = x + y, folgendermassen definieren. Man wählt einen beliebigen Punkt P . Dann gibt es einen eindeutigen Punkt Q so dass x = P~Q. Weiterhin gibt es einen eindeuti~ Wir definieren jetzt die Vektoraddition von x und y gen Punkt R mit y = QR. durch die Vorschrift x + y := P~R. Man kann mit rein geometrischen Argumenten zeigen, dass die so definierte Vektoraddition eine assoziative und kommutative Verknüpfung auf der Menge aller Vektoren definiert. Darauf wollen wir hier aber verzichten. Wir definieren den Nullvektor durch die Vorschrift 0 := P~P (die Wahl des Punktes P spielt hierbei keine Rolle). Es ist klar, dass 0 ein neutrales Element bzgl. der Vektoraddition ist, und dass jeder Vektor ein inverses Element −x ~ . besitzt: für x = P~Q gilt −x = QP Eine formale Begründung der Multiplikation eines Vektors mit einem Skalar (i.e. einer reellen Zahl) durch rein geometrische Argumente ist viel schwieriger. Wir begnügen uns mit der folgenden Pseudodefinition. Ist x ein Vektor und t > 0 eine positive relle Zahl, so definieren wir den Vektor t · x als den Vektor, der dieselbe ‘Richtung’ wie x hat, dessen ‘Länge’ aber das t-fache der ‘Länge’ von x ist. Ist t < 0 so setzen wir t · x := −|t| · x, und für t = 0 setzen wir 0 · x := 0. 32 E P 3 x z R = φ(t1 , t2 ) : O y j Q Figure 4: Jetzt haben wir genügend Hilfsmittel zur Hand, um den Begriff des linearen Unterraumes neu zu begründen. Dazu betrachten wir das folgende Beispiel. Es seien drei paarweise verschieden Punkte O, P, Q gegeben, die nicht alle auf einer Geraden liegen. Unsere geometrische Anschauung sagt uns, dass O, P, Q eine Ebene E aufspannen. Wie können wir die Menge aller Punkte von E aus den drei gegebenen Punkten gewinnen? ~ und y := OQ ~ und betrachten die Menge aller Vektoren Wir setzen x := OP z der Form z := t1 · x + t2 · y, wobei t1 , t2 beliebige reelle Zahlen sind. Wir nennen z eine Linearkombination der Vektoren x und y. Legt man als Anfangspunkt des Vektors z den Punkt O ~ fest und nennt den Endpunkt R (d.h. z = OR), so ist anschaulich klar: • der durch (t1 , t2 ) definierte Punkt R liegt auf der Ebene E, und • jeder Punkt der Ebene E ist auf eindeutige Weise einem Paar (t1 , t2 ) zugeordnet. Mit anderen Worten: wir haben eine Bijektion ∼ φ : R2 → E, (t1 , t2 ) 7→ R, ~ = z = t1 · x + t2 · y. Die Bijektion φ nennen wir eine Parametrisierung wobei OR der Ebene E. Anschaulich gesprochen haben wir die Ebene E mit einem Koordinatensystem versehen, das uns erlaubt, Punkte mit Zahlenpaaren zu identifizieren. Vergleiche mit dem Bild der Euklidischen Standardebene auf Seite 25. Aber im Unterschied zu dort stehen die Koordinatenachsen hier im allgemeinen nicht senkrecht aufeinander. Der Standardvektorraum Der nächste Schritt ist nun, den soeben entwickelten, auf geometrischer Anschauung basierenden Vektorbegriff durch eine algebraisches Modell zu realisieren, das mit der vorhergehenden Definition des Euklidischen Standardraumes kompatibel ist. 33 Definition 1.4.10 Der reelle Standardvektorraum der Dimension n ist die Menge Rn , zusammen mit den folgenden Verknüpfungen: • die Vektoraddition Rn × Rn → Rn , definiert durch (x, y) 7→ x + y, x1 y1 x1 + y1 .. .. .. . + . := . . xn yn xn + yn • die Multiplikation mit einem Skalar R × Rn → Rn , definiert durch (t, x) 7→ t · x, x1 tx1 .. .. t · . := . . xn txn Der Vektor 0 := (0, . . . , 0) ∈ Rn heißt der Nullvektor. Der Bezug zur Definition des Euklidischen Standardraumes (Definition 1.4.2) ist folgender. Zu zwei Punkt P = (p1 , . . . , pn ), Q = (q1 , . . . , qn ) ∈ Rn ist der zugehörige Vektor definiert durch P~Q := (q1 − p1 , . . . , qn − pn ). Wenn wir den Punkt O = (0, . . . , 0) ∈ Rn als Ursprungspunkt wählen, so können ~ = (p1 , . . . , pn ) identiwir einen Punkt P = (p1 , . . . , pn ) mit dem Vektor OP fizieren. Das werden wir im Folgenden auch immer tun. Man sollte aber nicht vergessen, dass dieser Identifizierung die willkürliche Auswahl eines Ursprungs zugrundeliegt. Bemerkung 1.4.11 (i) Die Vektoraddition + auf Rn ist eine assoziative und kommutative Verknüpfung. (ii) Der Nullvektor 0 ∈ Rn ist das neutrale Element bzgl. der Vektoraddition. (iii) Jeder Vektor x ∈ Rn besitzt ein inverses Element bzgl. der Addition, und zwar −x := (−1) · x. (iv) Es gilt das folgende Distributivgesetz6 : t · (x + y) = t · x + t · y für alle x, y ∈ R, t ∈ R. 6 Die Regel Punktrechnung vor Strichrechnung benutzen wir stillschweigend 34 (v) Ist A ∈ Mm,n (R), x, y ∈ Rn und t ∈ R, so gilt: A · (x + y) = A · x + A · y, A · (t · x) = t · (A · x). Diese Regeln ergeben sich unmittelbar aus den entsprechenden Regeln für das Rechnen mit reellen Zahlen. Nur die Regel (v) verdient eine ausführlichere Begründung. Schreibe A = (ai,j ), x = (xj ), y = (yj ) (der Index i läuft über die Menge {1, . . . , m}, und j läuft über {1, . . . , n}. Nach Definition der Multiplikation einer Matrix mit einem Vektor haben wir A · (x + y) = = n X j=1 n X ai,j (xj + yj ) ai,j xj + n X i=1,...,m ai,j yj j=1 j=1 = A · x + a · y. i=1,...,m Man beachte, dass wir bei Übergang von der ersten zur zweiten Zeile das Assoziativ-, das Kommutativ- und das Distributivgesetz der reellen Zahlen jeweils mehrfach benutzt haben. Genauso zeigt man A · (t · x) = = n X ai,j txj j=1 n X t· ai,j xj j=1 i=1,...,m i=1,...,m = t · (A · x). Damit ist die Regel (v) bewiesen. Definition 1.4.12 Eine Teilmenge V ⊂ Rn heißt Untervektorraum, wenn folgendes gilt: (i) V ist nichtleer, (ii) mit x, y ∈ V liegt auch der Vektor x + y in V , und (iii) mit x ∈ V liegt auch t · x in V , für alle t ∈ R. Aus dieser Definition folgt sofort, dass ein Untervektorraum immer den Nullvektor enthält. Satz 1.4.13 Für V ⊂ Rn sind die folgenden Bedingungen äquivalent. (a) V ist ein Untervektorraum. (b) V ist ein linearer Unterraum (Definition 1.4.9) und enthält den Nullvektor. 35 (c) V ist Lösungsmenge eines homogenen linearen Gleichungssystems, d.h. V = { x ∈ Rn | A · x = 0 } für eine Matrix A ∈ Mm,n (R). Beweis: Ist V die Lösungsmenge des Gleichungssystems A · x = 0, so ist V insbesondere ein linearer Unterraum, nach Definition 1.4.9. Zusätzlich gilt aber auch 0 ∈ V , wegen A · 0 = 07 . Also impliziert Aussage (c) die Aussage (b). Sei umgekehrt V ein linearer Unterraum, der den Nullvektor enthält. Dann ist V die Lösungsmenge eines linearen Gleichungssystems A · x = b. Wegen 0 ∈ V gilt dann aber b = A · 0 = 0. Die Aussage (b) impliziert deshalb auch die Aussage (c). Insgesamt sind (b) und (c) äquivalent. Wir zeigen nun noch die Implikation (c) ⇒ (a). Angenommen, V ist Lösungsmenge des Gleichungssystems A · x = 0. Wegen A · 0 = 0 gilt dann 0 ∈ V . Insbesondere ist die Bedingung (i) der Definition 1.4.12 erfüllt. Sind x, y ∈ V zwei Elemente von V so gilt nach Annahme A · x = A · y = 0. Unter Ausnutzung der Regel (v) der Bemerkung 1.4.11 erhalten wir demnach A · (x + y) = A · x + A · y = 0 + 0 = 0, d.h. x + y ∈ V , und die Bedingung (ii) der Definition 1.4.12 ist auch gezeigt. Die Bedingung (iii) zeigt man mit der gleichen Methode: ist x ∈ V und t ∈ R, so gilt A · (t · x) = t · (A · x) = t · 0 = 0, d.h. t · x ∈ V . Damit ist die Implikation (c) ⇒ (a) bewiesen. Den Beweis der Implikation (a) ⇒ (c) werden wir später nachholen. 2 Korollar 1.4.14 Für eine Teilmenge H ⊂ Rn sind die folgenden Bedingungen äquivalent: (a) H ist ein linearer Unterraum. (b) Es gibt einen Untervektorraum V ⊂ Rn und einen Vektor x ∈ H so, dass H = x + V := { x + y | y ∈ V }. Zusatz: wenn H ein linearer Unterraum ist, so ist der Untervektorraum V in (b) eindeutig bestimmt durch V = { x − y | x, y ∈ H }, und die Gleichheit H = x + V gilt für alle x ∈ H. 7 Man beachte, dass hier das Symbol 0 zwei verschiedene Bedeutungen hat: den Nullvektor in Rn und den Nullvektor in Rm 36 Der dem linearen Unterraum eindeutig zugeordnete Untervektorraum V heißt der Raum der Richtungsvektoren von H. Beweis: Angenommen, H ist ein linearer Unterraum, also Lösungsmenge eines linearen Gleichungssystems, H = { x | A · x = b }, mit A ∈ Mm,n (R) und b ∈ Rm . Wir definieren die Teilmenge V ⊂ Rn als die Lösungsmenge des zugehörigen homogenen Gleichungssystems: V := { x | A · x = 0 }. Nach Satz 1.4.13 ist V ein Untervektorraum. Außerdem ist H nichtleer. Wir können also ein Element x ∈ H wählen. Wir wollen nun zeigen, dass dann H = x + V gilt. Oder anders gesagt: ein Vektor z ∈ Rn liegt genau dann in H, wenn es ein y ∈ V gibt mit z = x + y. Der gesuchte Vektor y ist notwendigerweise gegeben durch die Vorschrift y := z − x. Aus x ∈ H folgt nun: A · z = A · (x + y) = A · x + A · y = b + A · y. (26) Aus dieser Gleichung folgt sofort die Äquivalenz A·z =b ⇔ A · y = 0. (27) Mit anderen Worten: z = x+ y liegt genau dann in H, wenn y in V liegt. Damit haben wir die Implikation (a) ⇒ (b) bewiesen. Sei umgekehrt H ⊂ Rn eine Teilmenge der Form H = x + V , wobei x ∈ Rn und V ⊂ Rn ein Untervektorraum ist. Nach Satz 1.4.13 ist dann V Lösungsmenge eines homogenen linearen Gleichungssystems, d.h. V = { y | A · y = 0 }, mit A ∈ Mm,n (R). Setze b := A · x ∈ Rm . Wir müssen nun zeigen, dass H = {z | A · z = b } gilt. Dazu sei z ∈ Rn ein beliebiger Vektor. Nach Annahme liegt z in H genau dann, wenn y := z − x in V liegt. Aus der Rechnung (26) folgt aber genau wie oben die Äquivalenz (27). Wir schließen, dass z ∈ H äquivalent ist zu A · z = b. Damit ist auch die Implikation (b) ⇒ (a) bewiesen. Eine nachträgliche Analyse des obigen Beweises zeigt, dass wir nicht nur die Äquivalenz (a) ⇔ (b), sondern auch die Zusatzbehauptung des Korollars bewiesen haben. Die Details möge sich der Leser selber überlegen. 2 Beispiel 1.4.15 Es sei E ⊂ R3 die durch die folgende lineare Gleichung definierte Ebene im dreidimensionalen Standardraum: E: x1 + 2x2 − x3 = 5. 37 Der Raum der Richtungsvektoren von E ist dann die Lösungsmenge V ⊂ R3 der homogenen Gleichung V : x1 + 2x2 − x3 = 0. Der Gauss-Algorithmus liefert in einem Rechenschritt die Parametrisierung ∼ φ : R2 → E, φ(t1 , t2 ) := (5 − 2t1 + t2 , t1 , t2 ). In Vektorschreibweise sieht diese Parametrisierung so aus: 5 −2 1 φ(t1 , t2 ) = 0 + t1 · 1 + t2 · 0 . 0 0 1 Setzt man 5 x := 0 , 0 −2 y1 := 1 , 0 1 y2 := 0 , 1 so ist offenbar x ∈ E und y1 , y2 ∈ V . Da V ein Untervektorraum ist, liegt aber auch jede Linearkombination −2t1 + t2 t1 y := t1 · y1 + t2 · y2 = t2 in V . Mit y ∈ V liegt dann der Vektor z := x + y in der Ebene E. Die Grundstruktur der Parametrisierung eines linearen Unterraumes sieht also so aus: allgemeine Lösung des LGS = spezielle Lösung x + allgemeine Lösung y des homogenen LGS. Die Anzahl der Parameter s entspricht dabei der Anzahl der Vektoren aus V , die mindestens nötig sind, um jeden Vektor aus V als Linearkombination darzustellen: y = t1 y 1 + . . . + t s y s . Sie entspricht der Dimension des Vektorraumes V . 38 2 Vektorräume und lineare Abbildungen 2.1 Grundlegende Definitionen In diesem Abschnitt bezeichne K einen beliebigen Körper. Definition 2.1.1 Ein K-Vektorraum ist eine nichtleere Menge V , zusammen mit zwei Verknüpfungen V × V → V, (x, y) 7→ x + y (die Vektoraddition) und K × V → V, (λ, x) 7→ λ · x (die Multiplikation mit einem Skalar), die folgende Bedingungen erfüllen. (i) Die Vektoraddition + ist eine assoziative und kommutative Verknüpfung. (ii) Die Vektoraddition + hat eine neutrales Element, das Nullelement 0. Jedes Element x ∈ V hat ein inverses Element bzgl. +, das Negative von x, geschrieben: −x. (iii) Für alle x, y ∈ V und λ, µ ∈ K gelten die folgenden Regeln: (a) (b) (c) (d) (λ + µ) · x = λ · x + µ · x, λ · (x + y) = λ · x + λ · y, λ · (µ · x) = (λ · µ) · x, und 1 · x = x. Bemerkung 2.1.2 Sei (V, +, · ) ein K-Vektorraum, x ∈ V und λ ∈ K. Aus der Definition 2.1.1 ergeben sich sofort die weiteren Regeln: (i) 0 · x = 0. (ii) λ · 0 = 0. (iii) wenn λ · x = 0, dann gilt λ = 0 oder x = 0. (iv) (−1) · x = −x. Bei diesen Regeln ist zu beachten, dass das Symbol 0 je nach Zusammenhang das Nullelement des Körpers K oder den Nullvektor von V bezeichnet. Die Ableitung dieser Regeln aus den Körperaxiomen und der Definition 2.1.1 ist dem Leser als Übungsaufgabe überlassen. 39 Beispiel 2.1.3 Sei n ∈ N. Der Standardvektorraum der Dimension n ist definiert als die Menge K n , mit den Verknüpfungen x1 y1 x1 + y1 .. .. .. . + . := . xn und yn xn + yn x1 λx1 λ · ... := ... . xn λxn Der Nullvektor ist dann der Vektor 0 := (0, . . . , 0), das Negative von x = (x1 , . . . , xn ) ist −x = (−x1 , . . . , −xn ). Vergleiche mit Definition 1.4.10. Es ist manchmal nützlich, bei obiger Definition auch den Fall n = 0 zuzulassen. Dazu definiert man K 0 := {0} als die Menge, die nur den Nullvektor enthält. Man überlegt sich leicht, dass es dann nur eine Möglichkeit gibt, auf der Menge K 0 eine Vektoraddition und Multiplikation mit Skalaren zu definieren, und dass K 0 mit diesen Verknüpfungen einen K-Vektorraum bildet. Man nennt K 0 = {0} den Nullvektorraum. Definition 2.1.4 Sei V ein K-Vektorraum. Eine Teilmenge U ⊂ V heißt Untervektorraum, wenn folgendes gilt. (i) U 6= ∅, (ii) mit x, y ∈ U ist auch der Vektor x + y ein Element aus U , und (iii) mit x ∈ U ist auch der Vektor λ · x ein Element aus U , für alle λ ∈ K. Bemerkung 2.1.5 Die Bedingungen (ii) und (iii) der Definition 2.1.4 sagen aus, dass man die Vektoraddition + und die Multiplikation mit einem Skalar · des Vektorraumes V auf die Teilmenge U einschränken kann. Man erhält so Verknüpfungen U × U → U, (x, y) 7→ x + y und K × U → U, (λ, x) 7→ λ · x. Man überlegt sich leicht, dass die Menge U , zusammen mit diesen Verknüpfungen, selber einen Vektorraum bilden. Der Begriff Untervektorraum ist also berechtigt. Beispiel 2.1.6 (i) Ist V ein beliebiger K-Vektorraum, so sind die Teilmengen {0} ⊂ V und V ⊂ V Untervektorräume. 40 (ii) Sei A ∈ Mm,n (K) eine Matrix über K mit n Spalten. Dann ist die Lösungsmenge des zugehörigen homogenen linearen Gleichungssystems U := { x ∈ K n | A · x = 0 } ein Untervektorraum des Standardvektorraumes K n . Vergleiche mit Satz 1.4.13. (iii) Ist A ∈ Mm,n (K) wie in (ii) und b ∈ K m , b 6= 0, so ist die Lösungsmenge des allgemeinen linearen Gleichungssystems H := { x ∈ K n | A · x = b } kein Untervektorraum, da wegen A · 0 = 0 6= b der Nullvektor nicht in H enthalten ist. Man zeigt aber wie im Beweis von Korollar 1.4.14, dass H = x+U gilt, wobei x ∈ H eine beliebige Lösung von A · x = b ist und U ⊂ K n der Vektorraum der Lösungen des homogenen Gleichungssystems A·x = 0 ist. Man nennt entsprechend H einen linearen Unterraum von K n . Definition 2.1.7 Seien V und W K-Vektorräume. Eine Abbildung φ:V →W heißt K-linear, wenn für alle x, y ∈ V und λ ∈ K gilt: φ(x + y) = φ(x) + φ(y), und φ(λ · x) = λ · φ(x). Beispiel 2.1.8 Ist A ∈ Mm,n (K) eine Matrix mit m Zeilen und n Spalten, so ist die Abbildung φ : K n → K m, x 7→ A · x K-linear. Das folgt aus Bemerkung 1.4.11 (v) (wobei man dort den Körper der reellen Zahlen durch den allgemeinen Körper K ersetzen muss). Proposition 2.1.9 Es sei φ : V → W eine K-lineare Abbildung. Dann gilt: (i) φ(0) = 0. (ii) Der Kern von φ, d.h. die Teilmenge Kern(φ) := { x ∈ V | φ(x) = 0 } ist ein Untervektorraum von V . 41 (iii) Das Bild von φ, d.h. die Teilmenge Bild(φ) := { φ(x) | x ∈ V } ist ein Untervektorraum von W . (iv) Die lineare Abbildung φ ist injektiv genau dann, wenn gilt: Kern(φ) = {0}. Beweis: Wegen der Linearität von φ gilt φ(0) = φ(0 + 0) = φ(0) + φ(0). Wenn man zu beiden Seiten dieser Gleichung das Negative des Vektors φ(0) addiert, erhält man φ(0) = 0, und (i) ist bewiesen. Aus (i) folgt nun sofort, dass Kern(φ) den Nullvektor von V enthält und somit nichtleer ist. Liegen die beiden Vektoren x, y ∈ V in Kern(φ), so gilt nach Definition φ(x) = φ(y) = 0. Unter Zuhilfenahme der Linearität erhält man φ(x + y) = φ(x) + φ(y) = 0 + 0 = 0. Also liegt mit x, y die Summe x + y ebenfalls in Kern(φ). Das gleiche Argument zeigt: mit x ∈ Kern(φ) liegt auch λ · x wegen φ(λ · x) = λ · φ(x) = λ · 0 = 0 in Kern(φ), für alle λ ∈ K. Damit ist (ii) bewiesen. Der Beweis von (iii) folgt demselben Muster. Zunächst folgt aus (i), dass 0 = φ(0) im Bild von φ liegt und somit Bild(φ) nichtleer ist. Sind nun x, y ∈ W Vektoren im Bild von φ, so gibt es nach Definition Vektoren u, v ∈ V mit x = φ(u) und y = φ(v). Wegen φ(u + v) = φ(u) + φ(v) = x + y liegt dann aber x + y ebenfalls im Bild von φ. Mit einem ähnlichen Argument zeigt man: aus x ∈ Bild(φ) folgt λ · x ∈ Bild(φ), für alle λ ∈ K, und (iii) ist bewiesen. Nun zum Beweis von (iv). Zunächst stellt man fest, dass {0} wegen (i) immer eine Teilmenge von Kern(φ) ist. Es ist also zu zeigen: φ ist injektiv genau dann, wenn Kern(φ) außer 0 kein weiteres Element enthält. Wir nehmen zuerst an, dass φ injektiv ist. Sei x ∈ Kern(φ). Dann gilt φ(x) = 0 = φ(0). Aus der Injektivität von φ folgt dann aber x = 0. Nehmen wir umgekehrt an, dass Kern(φ) = {0} gilt. Sind dann x, y ∈ V Vektoren aus V mit φ(x) = φ(y), so gilt wegen der Linearität von φ: φ(x − y) = φ(x) − φ(y) = 0. Nach Annahme folgt daraus aber x − y = 0, also x = y. Also ist φ injektiv. Damit ist alles gezeigt. 2 42 Beispiel 2.1.10 Es sei I eine nichtleere Menge. Wir bezeichnen mit K I die Menge der Abbildungen von I nach K: K I := { f : I → K }. Wir versehen K I mit der Struktur eines K-Vektorraumes, indem wir Vektoraddition und Multiplikation mit Skalaren wie folgt definieren. Sind f, g ∈ K I und λ ∈ K gegeben, so setzen wir (f + g)(i) := f (i) + g(i), (λ · f )(i) := λf (i), für alle i ∈ I. Diese Vorschrift definiert Abbildungen f + g, λ · f ∈ K I , also Verknüpfungen + : K I × K I → K I und · : K × K I → K I . Wieder ist es möglich und sinnvoll, diese Definition auf den Grenzfall I = ∅ auszudehnen, indem man K ∅ als den Nullvektorraum definiert: K ∅ := {0}. Diese allgemeine Definition enthält als Spezialfall viele wichtige Vektorräume. (i) Für I = {1, . . . , n}, n ∈ N, erhält man den Standardvektorraum der Dimension n, indem man eine Abbildung f : {1, . . . , n} → K mit dem n-Tupel (f (1), . . . f (n)) identifiziert: K n = K {1,...,n} = { (x1 , . . . , xn ) | xi ∈ K }. (ii) Ähnlich wie in (i) erhält man für I = {1, . . . , m} × {1, . . . , n}, m, n ∈ N, den Vektorraum der (m, n)-Matrizen: Mm,n (K) = K {1,...,m}×{1,...,n} = { A = (ai,j ) | ai,j ∈ K }. Wir definieren also eine Addition und eine Multiplikation mit Skalaren auf der Menge der (m, n)-Matrizen durch komponentenweise Addition bzw. Multiplikation. (iii) Für I = N identifizieren wir K N mit der Menge der Folgen mit Werten in K: K N = { (x1 , x2 , x3 , . . .) | xi ∈ K }. (iv) Nun sei K = R und I ⊂ R ein Intervall, z.B. I = [0, 1] oder I = (0, ∞). In diesem Fall verwendet man für Elemente f ∈ RI eher die funktionale Schreibweise. Meistens interessiert man sich auch nicht für den ganzen Vektorraum RI , sondern nur für gewisse Untervektorräume. So ist z.B. C 0 (I, R) := { f ∈ RI | f ist stetig } der Vektorraum der stetigen Funktionen auf I, oder C 1 (I, R) := { f ∈ RI | f ist differenzierbar, f ′ ist stetig } der Vektorraum der einmal stetig differenzierbaren Funktionen. Dass diese Teilmengen von RI tatsächlich Untervektorräume sind, folgt sofort aus bekannten Aussagen der Analysis. Sind z.B. f, g stetige Funktionen, so ist f + g wieder stetig. 43 2.2 Basis und Dimension In diesem Abschnitt sei stets K ein Körper und V ein K-Vektorraum. Ein System von Vektoren aus V ist dann eine Abbildung I → V , wobei I eine beliebige Menge ist. Wir schreiben solche Systeme in der Form mit vi ∈ V . (vi )i∈I , Die Menge I heißt die Indexmenge des Systems. Ist I = {1, . . . , n}, n ∈ N0 , so schreiben wir normalerweise (v1 , . . . , vn ) anstelle von (vi )i∈I . Man beachte, dass der Fall n = 0 hier ausdrücklich zugelassen ist, wobei in diesem Fall {1, . . . , n} die leere Menge ist. In den folgenden Definitionen betrachten wir diesen Fall meistens separat, um mögliche Verwirrung auszuschließen. Definition 2.2.1 Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren aus V . Ein Koeffizientensystem für (vi )i∈I ist ein System (λi )i∈I von Elementen λi ∈ K, die fast alle (d.h. alle bis auf endlich viele Ausnahmen) gleich Null sind. Genauer: es gibt eine endliche Teilmenge I ′ ⊂ I mit der Eigenschaft: λi = 0 für alle i ∈ I\I ′ . Eine Linearkombination des Systems (vi )i∈I ist ein Vektor der Form X v= λi vi , i∈I wobei (λi )i∈I ein Koeffizientensystem ist. Die obige Summe ist dann folgendermaßen definiert. Wir wählen eine endliche Teilmenge I ′ ⊂ I mit der Eigenschaft λi = 0 für i 6∈ I ′ und eine Aufzählung der Elemente von I ′ , etwa I ′ = {i1 , . . . , ik }, mit ij 6= il für j 6= l. Dann setzen wir X λi vi := k X λij vij . j=1 i∈I Wegen der Kommutativität der Vektoraddition und der Regel 0 · v = 0 ist diese Definition unabhängig von der Wahl der Teilmenge I ′ ⊂ I und der gewählten Aufzählung. In dem Sonderfall I = ∅ setzen wir X λi vi := 0. i∈∅ Die Teilmenge von V aller Linearkombinationen des Systems (vi )i∈I heißt das Erzeugnis von (vi )i∈I . Schreibweise: X hvi ii∈I := { λi vi | λi ∈ K, fast alle = 0 }. i∈I Ist (vi )i∈I ein System von Vektoren mit einer endlichen Indexmenge I, so dürfen wir ohne Einschränkung der Allgemeinheit annehmen, dass I = {1, . . . , n}, 44 mit n ∈ N0 . Das Erzeugnis von (vi )i∈I = (v1 , . . . , vn ) ist dann also die Teilmenge aller Vektoren, die sich in der Form λ1 · v1 + . . . + λn · vn , mit λi ∈ K, schreiben lassen (im Fall n = 0 ist diese Summe laut unserer Konvention der Nullvektor). Proposition 2.2.2 Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren aus V . Dann ist das Erzeugnis U := hvi ii∈I ⊂ V ein Untervektorraum von V . Aufgrund dieser Tatsache nennen wir U auch den von den Vektoren vi aufgespannten Untervektorraum. Beweis: Setzen wir die Koeffizienten λi alle gleich Null, so gilt offenbar X 0 · vi = 0. i∈I Deshalb gilt 0 ∈ U , und insbesondere ist U nichtleer. Sei nun v, w ∈ U ; wir müssen zeigen, dass dann auch v + w in U liegt. Nach Voraussetzung existieren Koeffizienten λi , νi ∈ K, fast alle gleich Null, mit X X v= λi vi , w= µi vi . i∈I i∈I Wir wollen nun die Gleichheit v+w = X i∈I (λi + µi ) · vi zeigen8 , aus der sofort folgt, dass auch v + w in U liegt. Nach Voraussetzung gibt es endliche Teilmengen I ′ , I ′′ ⊂ I mit der Eigenschaft λi = 0 für i 6∈ I ′ und µi = 0 für i 6∈ I ′′ . Setze I ′′′ := I ′ ∪ I ′′ ; dies ist wieder eine endliche Teilmenge, und sie hat die Eigenschaft, dass λi = µi = 0 gilt für alle i 6∈ I ′′′ . Wir schreiben I ′′′ = {i1 , . . . , ik }, mit ij 6= il für j 6= l. Dann gilt: v+w = k X j=1 = k X j=1 = X i∈I λij · vij + k X j=1 µij · vij k X (λij + µij ) · vij λij · vij + µij · vij = j=1 (λi + µi ) · vi . 8 Im weiteren Verlauf werden wir Argumente dieser Bauart nicht mehr im Detail ausführen. Siehe z.B. den Beweis der Proposition 2.2.4 45 Man beachte, dass wir im Schritt von der ersten zur zweiten Zeile die Assoziativität und die Kommutativität der Vektoraddition und im darauffolgenden Schritt die Distributivgesetz (3a) der Definition 2.1.1 ausgenutzt haben. Mit einem ähnlichen Argument zeigt man: mit v ∈ U und λ ∈ K ist auch λ · v ein Element von U . 2 Beim Vergleich dieses Beweises mit dem Beweis von Teil (iii) der Proposition 2.1.9 fällt eine gewisse strukturelle Ähnlichkeit auf. Und tatsächlich kann man die Proposition 2.2.2 direkt aus der Proposition 2.1.9 ableiten. Der Einfachheit halber wollen wir dies nur für ein endliches System von Vektoren tun. Sei also (v1 , . . . , vn ) eine endliches System von Vektoren aus einem K-Vektorraum V . Wir betrachten die Abbildung φ : K n → V, (λ1 , . . . , λn ) 7→ λ1 · v1 + . . . + λn · vn . (28) Offenbar ist das Bild von φ genau das Erzeugnis des Systems (vi ). Man zeigt leicht (Übungsaufgabe), dass φ K-linear ist. Aus der Proposition 2.1.9 (iii) folgt nun (als Bestätigung der Proposition 2.2.2), dass U = hv1 , . . . , vn i ein Untervektorraum ist. Eine weitere interessante Bedingung, die man an das System (v1 , . . . , vn ) stellen kann, ist, dass die Abbildung φ injektiv ist. Diese Bedingung wollen wir zuerst ganz allgemein formulieren. Definition 2.2.3 Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren. Wir nennen das System (vi )i∈I linear abhängig, wenn es ein Koeffizientensystem (λi )i∈I gibt mit X λi · vi = 0, i∈I und es außerdem ein i ∈ I gibt mit λi 6= 0. Ist das System (vi )i∈I nicht linear abhängig, so nennen wir es linear unabhängig. Betrachten wir, wie oben, den Spezialfall eines endlichen Erzeugendensystems (v1 , . . . , vn ) und die resultierende Abbildung φ : K n → V , so lässt sich die Definition 2.2.3 folgendermaßen umformulieren. Das System (v1 , . . . , vn ) ist linear unabhängig genau dann, wenn der Kern von φ nur aus dem Nullvektor besteht. Nach Proposition 2.1.9 (iv) gilt dies aber genau dann, wenn φ injektiv ist. Die folgende Proposition ist deshalb das Analogon zum Teil (iv) der Proposition 2.1.9: Proposition 2.2.4 (Koeffizientenvergleich) Sei V ein K-Vektorraum und (vi )i∈I ein System von Vektoren aus V . Dann sind die folgenden Bedingungen äquivalent. (a) Das System (vi )i∈I ist linear unabhängig. 46 (b) Sind (λi )i∈I und (µi )i∈I Koeffizientensysteme mit der Eigenschaft X X λi · vi = µi · vi , i∈I i∈I so folgt λi = µi , für alle i ∈ I. Mit anderen Worten: die Darstellung eines Vektors als Linearkombination des Systems (vi )i∈I ist eindeutig. Beweis: Der Beweis erfolgt nach dem Muster des Beweises von Proposition 2.1.9 (iv). Wir zeigen deshalb nur die Implikation (a) ⇒ (b). Angenommen, das System (vi )i∈I ist linear unabhängig, und wir haben zwei Koeffizientensysteme (λi ) und (µi ) vorliegen, die die Bedingung in (b) erfüllen. Dann folgt X X 0= λi · vi − µi · vi i∈I = X i∈I i∈I X λi · vi − µi · vi = (λi − µi ) · vi = 0. i∈I Wir haben also den Nullvektor als eine Linearkombination des Systems (vi ) dargestellt. Da (vi ) nach Annahme linear unabhängig ist, folgt daraus, dass die Koeffizienten dieser Linearkombination alle gleich Null sind, d.h. λi − µi = 0, oder λi = µi . Die Implikation (a) ⇒ (b) ist damit bewiesen. 2 Definition 2.2.5 Sei V ein K-Vektorraum. (i) Ein Erzeugendensystem von V ist ein System (vi )i∈I von Vektoren aus V , das den ganzen Vektorraum V aufspannt, d.h. V = hvi ii∈I . (ii) Eine Basis von V ist ein linear unabhängiges Erzeugendensystem. Ein System (vi )i∈I ist also eine Basis von V genau dann, wenn sich jeder Vektor aus V auf eindeutige Weise als Linearkombination des Systems (vi )i∈I darstellen läßt. Betrachten wir wieder den Spezialfall eines endlichen Systems (v1 , . . . , vn ). Wir können alles an der in (28) definierten Abbildung φ : K n → V ablesen: • (v1 , . . . , vn ) ist eine Erzeugendensystem von V ⇔ φ ist surjektiv. • (v1 , . . . , vn ) ist linear unabhängig ⇔ φ ist injektiv. • (v1 , . . . , vn ) ist eine Basis von V ⇔ φ ist bijektiv. 47 Beispiel 2.2.6 Sei n ∈ N eine natürliche Zahl. Wir definieren die Vektoren e1 , . . . , en ∈ K n wie folgt: 1 0 0 0 1 0 e1 := . , e2 := . , . . . , en := . . .. .. .. 0 0 1 Ist nun v = (x1 , . . . , xn ) ∈ K n ein beliebiger Vektor, so gilt x1 .. v = . = x1 · e1 + . . . + xn · en . xn Mit anderen Worten: jeder Vektor v ∈ V n lässt sich als Linearkombination des Systems (ei ) darstellen. Andererseits ist so eine Darstellung eindeutig: die Koeffizienten müssen offenbar mit den Einträgen des Vektors v übereinstimmen. Also gilt: das System (ei ) ist eine Basis von K n . Die vom System (ei ) induzierte Abbildung φ : K n → K n ist übrigens die Identität, also sicher eine Bijektion. Die Basis (e1 , . . . , en ) heißt die Standardbasis des K n . Satz 2.2.7 Es sei V ein K-Vektorraum. Wir nehmen zusätzlich an, dass V endlich erzeugt ist, d.h. V besitzt ein endliches Erzeugendensystem. Dann gilt: (i) Es gibt eine endliche Basis (v1 , . . . , vn ) von V . (ii) Ist (w1 , . . . , wm ) eine weitere Basis von V , so folgt m = n. Die Anzahl der Basiselemente ist also eindeutig bestimmt. Dieser Satz macht die folgende Definition erst möglich: Definition 2.2.8 Die Dimension eines endlich erzeugten K-Vektorraumes ist die Anzahl der Elemente einer (beliebigen) Basis von V . Beweis von Satz 2.2.7 Für den Beweis von Satz 2.2.7 müssen wir etwas weiter ausholen. Wir werden eine Reihe von nützlichen Resultaten beweisen, aus denen unter anderem der Satz 2.2.7 folgt. Genauer: Teil (i) von Satz 2.2.7 folgt aus dem Korollar 2.2.11, Teil (ii) aus Korollar 2.2.14. Wir müssen natürlich darauf achten, dass wir in den folgenden Beweisen niemals den Satz 2.2.7 benutzen. Im folgenden fixieren wir einen K-Vektorraum V . Wir betrachten ausschließlich endliche Systeme von Vektoren, die wir meistens als B = (v1 , . . . , vn ), mit n ∈ N0 schreiben. Für k ∈ {1, . . . , n} bezeichnet dann Bk = (v1 , . . . , vbk , . . . , vn ) das ‘verkürzte’ System, bei dem der Vektor vk fehlt. Wir beginnen mit einem Kriterium für lineare Abhängigkeit: 48 Lemma 2.2.9 Sei B = (v1 , . . . , vn ) ein endliches System von Vektoren aus V . Dann ist B linear abhängig genau dann, wenn es einen Index k ∈ {1, . . . , n} gibt mit der Eigenschaft hv1 , . . . , vn i = hv1 , . . . , vbk , . . . , vn i. Mit anderen Worten: B ist linear abhängig genau dann, wenn man auf einen Vektor aus B weglassen kann, ohne den aufgespannten Vektorraum zu verkleinern. (Vorsicht! Es kann Vektoren in B geben, die man nicht weglassen kann, ohne den aufgespannten Vektorraum zu verkleinern.) Beweis: Wir schreiben U := hv1 , . . . , vn i für das Erzeugnis von B und Uk := hv1 , . . . , vbk , . . . , vn i für das Erzeugnis des verkürzten Systems Bk . Offenbar gilt Uk ⊂ U , für k = 1, . . . , n, und vi ∈ Uk für i 6= k. Man überlegt sich nun leicht: Uk = U gilt genau dann, wenn vk ∈ Uk . Angenommen, B ist linear abhängig. Nach Definition gibt es dann Koeffizienten λ1 , . . . , λn ∈ K, nicht alle = 0, mit λ1 · v1 + . . . + λn · vn = 0. (29) Wir wählen einen Index k mit λk 6= 0. Dann können wir die Gleichung (29) folgendermaßen umschreiben: vk = X i6=k − λi · vi . λk (30) Insbesondere liegt vk in dem Untervektorraum Uk . Wie wir uns im ersten Abschnitt des Beweises überlegt hatten, folgt daraus Uk = U . Sei umgekehrt k ein Index mit Uk = U . Dann gilt insbesondere vk ∈ Uk . Dies bedeutet, dass es Koeffizienten λi , i 6= k, gibt mit X vk = λi · vi . i6=k Bringt man in dieser Gleichung alle Terme auf die rechte Seite, so erhält man eine Darstellung des Nullvektors als eine nichttriviale Linearkombination von B = (v1 , . . . , vn ) (der Koeffizient von vk ist gleich −1!). Also ist B linear abhängig. Damit ist das Lemma bewiesen. 2 Proposition 2.2.10 Sei V ein K-Vektorraum und B = (v1 , . . . , vn ) ein endliches System von Vektoren aus V . Dann sind die folgenden Bedingungen äquivalent. 49 (i) B ist eine Basis von V . (ii) B ist ein unverkürzbares Erzeugendensystem. Genauer: B ist ein Erzeugendensystem, und für alle k ∈ {1, . . . , n} ist das verkürzte System Bk = (v1 , . . . , vbk , . . . , vn ) kein Erzeugendensystem mehr. (iii) B ist unverlängerbar linear unabhängig. Genauer: B ist linear unabhängig, und für alle v ∈ V ist das verlängerte System B ′ := (v1 , . . . , vn , v) linear abhängig. Beweis: Die Äquivalenz von (i) und (ii) ist im Wesentlichen eine Umformulierung des Lemmas 2.2.9. Durch Negation der beiden Aussagen von Lemma 2.2.9 erhält man nämlich: B ist linear unabhängig genau dann, wenn für alle k gilt: das Erzeugnis von Bk ist echt kleiner als das Erzeugnis von B. Unter der Zusatzannahme, dass B ein Erzeugendensystem ist, wird daraus: B ist eine Basis genau dann, wenn für alle k das verkürzte System Bk kein Erzeugendensystem mehr ist. Zeigen wir nun die Implikation (i)⇒(iii). Wir nehmen an, dass B eine Basis ist. Wir wollen zeigen: für jedes v ∈ V ist dann B = (v1 , . . . , vn , v) linear abhängig. Als Basis ist B insbesondere ein Erzeugendensystem, also gibt es λ1 , . . . , λn ∈ K mit v = λ1 · v1 + . . . + λn · vn . Dies Gleichung können wir umstellen zu einer nichttrivialen Linearkombination des Nullvektors durch das System B ′ : λ1 · v1 + . . . + λn · vn − v = 0. Deshalb ist B ′ linear abhängig, und die Implikation (i)⇒(iii) ist bewiesen. Zum Schluss noch die Implikation (iii)⇒(i). Sei B unverlängerbar linear unabhängig. Dann gibt es für jedes v ∈ V eine Darstellung des Nullvektors der Form λ1 · v1 + . . . + λn · vn + λ · v = 0, wobei mindestens einer der Koeffizienten λ1 , . . . , λn , λ von Null verschieden ist. Da das System (v1 , . . . , vn ) aber nach Annahme linear unabhängig ist, darf λ nicht Null sein. Wir können daher umstellen und v als Linearkombination von v1 , . . . , vn darstellen: v=− λn λ1 · v1 − . . . − · vn . λ λ Also ist B ein Erzeugendensystem und sogar eine Basis. Die Proposition ist nun vollständig bewiesen. 2 Teil (i) von Satz 2.2.7 folgt leicht aus obiger Proposition. Genauer: 50 Korollar 2.2.11 (Basisauswahlsatz) Sei B = (v1 , . . . , vn ) ein endliches Erzeugendensystem eines K-Vektorraumes V . Dann gibt es eine Teilmenge I ⊂ {1, . . . , n} so, dass das Teilsystem BI := (vi )i∈I eine Basis von V ist. Insbesondere besitzt jeder endlich erzeugte Vektorraum eine endliche Basis. Beweis: Man nimmt aus B so lange ‘überflüssige’ Vektoren heraus, bis das resultierende Teilsystem BI ein unverkürzbares Erzeugendensystem ist. Nach Proposition 2.2.10 ist dann BI eine Basis von V . 2 Wir wollen nun den zweiten Teil von Satz 2.2.7 beweisen. Der Schlüssel zum Beweis ist das folgende Lemma. Lemma 2.2.12 (Austauschlemma) Sei V ein K-Vektorraum mit einer Basis B = (v1 , . . . , vn ). Sei w = λ1 · v1 + . . . + λn · vn ein beliebiger Vektor aus V , dargestellt als Linearkombination der Basis B. Für alle Indizes k ∈ {1, . . . , n} mit λk 6= 0 ist dann B ′ := (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) wieder eine Basis von V . Man kann also vk gegen w austauschen. Beweis: Zur Vereinfachung der Schreibweise dürfen wir annehmen, dass k = 1. Wegen λ1 6= 0 gilt v1 = 1 λ2 λn ·w− · v2 − . . . − · vn . λ1 λ1 λ1 (31) Wir wollen nun zeigen, dass B ′ = (w, v2 , . . . , vn ) eine Erzeugendensystem von V ist. Dazu sei v ∈ V ein beliebiger Vektor. Da B eine Basis ist, gilt v = µ1 · v1 + . . . + µn · vn , (32) für gewisse µi ∈ K. Wir setzen nun (31) in (32) ein. Nach etwas Umformen erhalten wir: v= λ2 λn µ1 · w + (µ2 − ) · v2 + . . . + (µn − ) · vn . λ1 λ1 λ1 (33) Der Vektor v liegt also im Erzeugnis von B ′ . Damit ist gezeigt, dass B ′ ein Erzeugendensystem ist. Zum Nachweis der linearen Unabhängigkeit nehmen wir an, dass wir Körperelemente µ, µ2 , . . . , µn ∈ K gegeben haben mit µ · w + µ2 · v2 + . . . + µn · vn = 0. 51 (34) Wir setzen in (34) den Ausdruck w = λ1 · v1 + . . . + λn · vn ein und erhalten µλ1 · v1 + (µλ2 − µ2 ) · v2 + . . . + (µλn − µn ) · vn . (35) Da B = (v1 , . . . , vn ) eine Basis ist, sind alle Koeffizienten der Linearkombination in (35) gleich Null. Da nach Voraussetzung λ1 6= 0 gilt, schließt man zuerst µ = 0 und danach µ2 = µλ2 = 0, . . . , µn = µλn = 0. Damit ist alles gezeigt. 2 Satz 2.2.13 (Austauschsatz) Sei V eine K-Vektorraum mit einer endlichen Basis B = (v1 , . . . , vn ). Sei weiterhin (w1 , . . . , wr ) ein System von r linear unabhängigen Vektoren. Dann gilt: (i) r ≤ n (es kann also höchstens n linear unabhängige Vektoren in V geben). (ii) Es gibt paarweise verschiedene Indizes i1 , . . . , ir ∈ {1, . . . , n}, so dass man nach Austausch der Vektoren vi1 , . . . , vir in B durch die Vektoren w1 , . . . , wr wieder eine Basis von V erhält. Numeriert man so um, dass i1 = 1, . . . , ir = r gilt, so lautet die Aussage: das System B ′ := (w1 , . . . , wr , vr+1 , . . . , vn ) ist wieder eine Basis von V . Beweis: Wir nehmen zunächst einmal an, dass r ≤ n gilt, und beweisen Teil (ii) des Satzes unter dieser Zusatzannahme (wir zeigen also (i)⇒(ii)). Dazu verwenden wir vollständige Induktion über die Anzahl r der linear unabhängigen Vektoren (w1 , . . . , wr ). Im Fall r = 0 ist nichts zu zeigen. Wir dürfen also annehmen, dass r ≥ 1 ist und dass die Aussage des Satzes für das System (w1 , . . . , wr−1 ) schon bewiesen wurde. Nach geeigneter Umnumerierung der Indizes dürfen wir also annehmen, dass das System B ′′ := (w1 , . . . , wr−1 , vr , . . . , vn ) eine Basis von V ist. Zu zeigen ist, dass (nach geeigneter Umnumerierung der Vektoren vr , . . . , vn ) das System B ′ = (w1 , . . . , wr , vr+1 , . . . , vn ) wieder eine Basis von V ist. Da B ′′ nach Induktionsannahme eine Basis ist, gibt es λ1 , . . . , λn ∈ K mit wr = λ1 · w1 + . . . + λr−1 · wr−1 + λr vr + . . . + λn · vn . Wäre λr = . . . = λn = 0, so hätte man einen Widerspruch zur linearen Unabhängigkeit von (w1 , . . . , wr ). Es gibt daher einen Index k ∈ {r, . . . , n} mit λk 6= 0. Nach geeigneter Umnumerierung dürfen wir annehmen, dass k = r, 52 also λr 6= 0. Das Austauschlemma (Lemma 2.2.12) sagt nun, dass wir in der Basis B ′′ den Vektor vr gegen den Vektor wr austauschen können; das resultierende System B ′ ist dann wieder eine Basis. Damit ist die Implikation (i)⇒(ii) bewiesen. Jetzt zeigen wir (i). Angenommen, r > n. Nachdem, was wir schon bewiesen haben, könnte man in der Basis B = (v1 , . . . , vn ) die Vektoren nach und nach gegen die Vektoren w1 , . . . , wn austauschen, ohne die Basiseigenschaft zu verlieren. Insbesondere ist das System B ′ = (w1 , . . . , wn ) eine Basis von V . Eine Basis ist aber ‘unverlängerbar linear unabhängig’ (Proposition 2.2.4). Im Fall r > n widerspricht dies der Annahme, dass sogar das System (w1 , . . . , wr ) linear unabhängig ist. Damit ist die Ungleichung r ≤ r bewiesen. 2 Aus dem Austauschsatz können wir jetzt auch die zweite Aussage von Satz 2.2.7 schließen. Korollar 2.2.14 Sei V ein K-Vektorraum mit einer endlichen Basis B = (v1 , . . . , vn ). Sei B ′ = (wi )i∈I ein weitere Basis. Dann gilt |I| = n. Mit anderen Worten: jede Basis von V ist endlich und hat genau n Elemente. Beweis: Angenommen, die Indexmenge I der zweiten Basis B ′ habe mehr als n Elemente. Wir könnten dann paarweise verschiedene Elemente i1 , . . . , in+1 ∈ I auswählen und erhielten ein Teilsystem (wi1 , . . . , win+1 ) von B ′ . Dieses Teilsystem wäre immer noch linear unabhängig, im Widerspruch zu Satz 2.2.13 (i). Wir haben also |I| ≤ n gezeigt. Die Ungleichung n ≤ |I| folgt mit dem gleichen Argument (wobei B und B ′ ihre Rollen vertauschen). Also gilt |I| = n. Damit ist das Korollar 2.2.14 und der Satz 2.2.7 vollständig bewiesen. 2 Mit dem Beweis von Satz 2.2.7 haben wir auch gezeigt, dass die Dimension eines endlich erzeugten Vektorraumes sinnvoll definiert ist. Korollar 2.2.15 Sei V ein endlich erzeugter Vektorraum und W ⊂ V ein Untervektorraum. Dann gilt: (i) W ist wieder ein endlich erzeugter Vektorraum. (ii) dimK W ≤ dimK V . (iii) Aus dimK W = dimK V folgt W = V . Beweis: Wir überlassen (i) den Lesern als Übungsaufgabe. Da V endlich erzeugt ist, gibt es eine endliche Basis B = (v1 , . . . , vn ) der Länge n := dimK V . Ebenso gibt es eine endliche Basis B ′ = (w1 , . . . , wr ) von W der Länge r = dimK W . Faßt man B ′ als ein System von Vektoren in V 53 auf, so ist es immer noch linear unabhängig (aber i.A. kein Erzeugendensystem mehr). Aus Satz 2.2.13 (i) folgt nun dimk W = r ≤ n = dimK V. Außerdem ist (nach geeigneter Umnumerierung) das System B ′′ = (w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis von V . Im Fall r = n hätten wir dann W = hw1 , . . . , wr i = V. 2 Korollar 2.2.16 (Basisergänzungssatz) Sei V ein endlich erzeugter Vektorraum und B ′ = (v1 , . . . , vr ) ein System von linear unabhängigen Vektoren. Dann gibt es Vektoren vr+1 , . . . , vn , so dass (v1 , . . . , vn ) eine Basis von V ist. Beweis: Wähle eine Basis B = (w1 , . . . , wn ) von V . Nach Satz 2.2.13 gilt dann r ≤ n, und nach geeigneter Umnumerierung der wi ist das System (v1 , . . . , vr , wr+1 , . . . , wn ) eine Basis von V . Wir können also vi := wi für i = r + 1, . . . , n setzen. 2 Alle in diesem Abschnitt bewiesenen Sätze gelten - mit leicht veränderter Formulierung – auch für Vektorräume, die nicht endlich erzeugt sind. Die Beweise benutzen aber zum Teil nichttriviale Techniken der Mengenlehre, auf die wir in dieser Vorlesung nicht näher eingehen wollen. Wir begnügen uns mit folgenden Beispielen. Beispiel 2.2.17 Sei K ein Körper und V := { (x1 , x2 , . . .) ∈ K N | ∃n : ai = 0 ∀i ≥ n } der Vektorraum der abbrechenden Folgen mit Werten in K. Für alle i ∈ N liegt die durch ( 1, i = j (i) xj := 0, i 6= j (i) (i) definierte Folge e(i) := (x1 , x2 , . . .) sicher in V . Man zeigt leicht, dass B := (e(1) , e(2) , . . .) eine Basis von V ist. Insbesondere besitzt V eine Basis mit abzählbar unendlich vielen Elemente. Die allgemeine Version von Satz 2.2.7 sagt in diesem Fall: jede Basis von V besitzt abzählbar unendlich viele Elemente. 54 Beispiel 2.2.18 Nun sei W := K N der Vektorraum aller Folgen mit Werten in K. Sei B = (e(1) , e(2) , . . .) die oben konstruierte Basis des Untervektorraumes V ⊂ W. Die allgemeine Version des Basisergänzungssatzes (Korollar 2.2.16) sagt aus: wir können B zu einer Basis B ′ von ganz W ergänzen. Insbesondere besitzt W eine Basis. Man kann aber auch zeigen: jede Basis von W besitzt überabzählbar viele Elemente. 2.3 Beispiel: Interpolation von Funktionswerten Interpolation von Funktionswerten ist ein in der Praxis häufig auftretendes Problem. Es soll hier als typische Anwendung der linearen Algebra und als Veranschaulichung des Basis- und Dimensionsbegriffes dienen. Problem 2.3.1 Ein physikalisches Experiment liefert eine Reihe von Messwerten, in Form von n Paaren reeller Zahlen (x1 , y1 ), . . . , (xn , yn ) ∈ R2 . Die x-Werte sind paarweise verschieden, xi 6= xj für i 6= j. Gesucht ist eine möglichst ‘glatte’ und einfach zu berechnende Funktion f : R → R mit der Eigenschaft y1 = f (x1 ), . . . , yn = f (xn ). Die x-Werte xi heißen die Stützstellen des Interpolationsproblems, die yWerte yi die Stützwerte. Die gesuchte Funktion f heißt die Interpolierende. Es ist ohne zusätzliche Annahmen nicht klar, was man unter einer ‘möglichst glatten’ Funktion zu verstehen hat. Es sind viele verschiedene Ansätze möglich, und welche von diesen sinnvoll sind, hängt sehr von den gegebenen Umständen ab. Wir beschränken uns im Folgenden auf Polynomfunktionen, i.e. auf Funktionen f : R → R von der Gestalt f (x) = a0 + a1 x + . . . + an xn , mit reellen Zahlen ai ∈ R. Beispiel 2.3.2 Gegeben sind die Messwerte (1, 2), (2, 1), (3, 1). Gesucht ist also eine Polynomfunktion f mit f (1) = 2, f (2) = 1, f (3) = 1. Wir setzen an: f (x) = a0 + a1 x + a2 x2 . 55 Durch Einsetzen wird man auf folgendes lineare Gleichungssystem in den Unbestimmten a0 , a1 , a2 geführt: a0 + a1 + a2 = 2 a0 + 2a1 + 4a2 a0 + 3a2 + 9a2 = = 1 1 Eine kurze Rechnung zeigt, dass dieses Gleichungssystem die eindeutige Lösung a0 = 4, a1 = −5/2, a2 = 1/2 besitzt. Die gesuchte Funktion ist also 5 1 f (x) = 4 − x + x2 . 2 2 Sie ist eindeutig bestimmt, solange man nur Polynomfunktionen vom Grad ≤ 2 betrachtet. Diese Vorgehensweise läßt sich natürlich auf eine beliebige Anzahl n von Messwerten verallgemeinern. Setzt man dann f als eine Polynomfunktion vom Grad ≤ n−1 an, so erhält man offenbar ein Gleichungssystem mit n Unbestimmten und n Gleichungen. In unserem Bespiel hat dieses Gleichungssystem eine eindeutige Lösung. Der folgende Satz zeigt, dass dies nicht auf Zufall beruhte. Satz 2.3.3 Seien n Paare reeller Zahlen (x1 , y1 ), . . . , (xn , yn ) ∈ R2 gegeben, mit paarweise verschiedenen x-Werten. Dann gibt es genau eine Polynomfunktion f vom Grad ≤ n − 1 mit y1 = f (x1 ), . . . , yn = f (xn ). Wir werden den Beweis dieses Satzes unter Zuhilfenahme des Basis- und Dimensionsbegriffes führen. Sei V := { f : R → R | f (x) = a0 + a1 x + . . . + an−1 xn−1 } der R-Vektorraum aller Polynomfunktionen vom Grad ≤ n − 1. Wir wollen zunächst eine Basis von V bestimmen. Sei B := (1, x, x2 , . . . , xn−1 ) das System aller Monome in x vom Grad ≤ n − 1 (die wir als Funktionen, also als Elemente von V auffassen). Offenbar ist B ein Erzeugendensystem von V : nach Definition von V ist eine Funktion f Element von V genau dann, wenn sie Linearkombination von B ist. Wir behaupten, dass B auch linear unabhängig und somit eine Basis von V ist. Es ist zu zeigen: ist eine Polynomfunktion vom Grad ≤ n − 1 identisch Null, d.h. f (x) = a0 + a1 x + . . . + an−1 xn−1 = 0, für alle x ∈ R, 56 so sind auch alle Koeffizienten Null, a0 = . . . = an−1 = 0. Dies ist sicher eine bekannte Tatsache; der Beweis derselben liegt aber nicht so einfach auf der Hand. Wir wollen den Beweis der linearen Unabhängigkeit von B für einen Moment zurückstellen und zuerst einen anderen Kandidaten für eine Basis von V vorstellen. Für i = 0, . . . , n − 1 setzen wir σi (x) := (x − x1 )(x − x2 ) · · · (x − xi ). Für kleine Werte von i haben wir σ0 (x) = 1, σ1 (x) = x − x1 , σ2 (x) = (x − x1 )(x − x2 ) = x2 − (x1 + x2 ) x + x1 x2 . Offenbar ist σi eine Polynomfunktion vom Grad i ≤ n − 1, und damit ein Element von V . Wir nennen σi das ite Newtonsche Interpolationspolynom und setzen B ′ := (1, σ1 , . . . , σn−1 ). Lemma 2.3.4 Das System B ′ der Newtonschen Interpolationspolynome ist linear unabhängig. Beweis: Entscheidend sind die Werte der Funktion σi an den Stützstellen x1 , . . . , xn . Nach Definition von σi gilt σi (xj ) = 0, für j = 1, . . . , i, (36) und, da die xj paarweise verschieden sind, σi (xj ) = (xj − x1 ) · · · (xj − xi ) 6= 0, für j = i + 1, . . . , n. (37) Wir nehmen nun an, dass eine gewisse Linearkombination der σi identisch Null ist: b0 + b1 σ1 (x) + . . . + bn−1 σn−1 (x) = 0, für alle x ∈ R. (38) Setzt man in (38) den Wert x = x1 ein, so erhält man wegen (36) die Gleichung b0 = 0. (39) Setzt man x = x2 ein, so erhält man b0 + b1 σ1 (x2 ) = 0. Unter Verwendung von (37) und (39) folgt sofort b0 = b1 = 0. Es ist klar, dass man nach dem gleichen Muster b0 = b1 = . . . = bn−1 = 0 schließen kann. Damit ist die lineare Unabhängigkeit von B ′ bewiesen. 57 2 Proposition 2.3.5 Sowohl B = (1, x, . . . , xn−1 ) als auch B ′ = (1, σ1 , . . . , σn−1 ) ist eine Basis von V . Insbesondere gilt dimR V = n. Beweis: Wir haben schon bemerkt, dass B ein Erzeugendensystem von V ist. Nach dem Basisauswahlsatz (Korollar 2.2.11) kann man aus B ein Teilsystem auswählen, das eine Basis von V ist. So eine Basis hat höchstens n Elemente, also gilt dimR V ≤ n. (40) Zusätzlich gilt: im Fall dimR V = n ist B ein unverkürzbares Erzeugendensystem, also eine Basis. Andererseits folgt aus Lemma 2.3.4, dass das System B ′ linear unabhängig ist. Nach dem Basisergänzungssatz (Korollar 2.2.16) kann man B ′ zu einer Basis von V ergänzen. So eine Basis hat mindestens n Elemente, also gilt dimR V ≥ n. (41) Zusätzlich gilt: im Fall dimR V = n ist B ′ unverlängerbar linear unabhängig, also ein Basis. Aus (40) und (41) zusammen folgt nun dimR V = n und dass sowohl B als auch B ′ eine Basis von V ist. 2 Nach diesen Vorbereitungen ist der Beweis von Satz 2.3.3 ganz leicht. Beweis: (von Satz 2.3.3) Die gesuchte Polynomfunktion f ist ein Element des Vektorraumes V . Da B ′ eine Basis von V ist, kann man f als Linearkombination der Polynome σi schreiben: f = b0 + b1 σ1 (x) + . . . + bn−1 σn−1 (x). (42) Die Koeffizienten bi ∈ R sind durch die Funktion f eindeutig bestimmt. Die Bedingungen y1 = f (x1 ), . . . , yn = f (xn ) führen, durch Einsetzen in (42), auf ein lineares Gleichungssystem in den Unbestimmten b0 , . . . , bn−1 . Wegen (37) hat dieses Gleichungssystem aber ‘untere Dreiecksform’: b0 b0 .. . + σ1 (x2 ) b1 .. . b0 + σ1 (xn ) b1 = = .. . + . . . + σn−1 (xn ) bn−1 58 y1 y2 .. . = yn (43) Zusätzlich gilt: die Einträge auf der Diagonalen sind ungleich Null: σi (xi+1 ) = (xi+1 − x1 ) · · · (xi+1 − xi ) 6= 0. Man sieht sofort, dass deshalb das Gleichungssystem (43) eine eindeutige Lösung besitzt: b0 = y1 , b1 = b2 = y2 − y1 1 , (y2 − b0 ) = σ1 (x2 ) x2 − x1 1 (y3 − b0 − σ1 (x3 ) b1 ) = . . . σ2 (x3 ) .. . Damit ist die Existenz und Eindeutigkeit der gesuchten Interpolationsfunktion f bewiesen. 2 Aus dem Satz 2.3.3 folgt nun sofort der folgende elementare, aber wichtige Satz der Algebra. Korollar 2.3.6 Eine Polynomfunktion f : R → R vom Grad n, f = a0 + a1 x + . . . + an xn , an 6= 0, kann höchstens n verschiedene Nullstellen haben. Beweis: Es seien x1 , . . . , xr die (paarweise verschiedenen) Nullstellen von f . Angenommen, es gilt r > n. Wir betrachten nun das Interpolationsproblem zu den ‘Messwerten’ (x1 , 0), . . . , (xn+1 , 0). Offenbar ist die Polynomfunktion f eine Lösungs dieses Problems vom Grad n. Andererseits ist die Nullfunktion auch eine Lösung (vom Grad 0 ≤ n). Der Satz 2.3.3 sagt aber, dass genau eine Lösung existiert. Also gilt f (x) = 0 für alle x ∈ R. Da das System der Polynomfunktionen B = (1, x, . . . , xn ) aber linear unabhängig ist (Proposition 2.3.5), folgt a0 = a1 = . . . = an = 0. Dies widerspricht der Annahme an 6= 0, und das Korollar ist bewiesen. 2 Zum Schluss kommen wir noch einmal auf das Beispiel 2.3.2 zurück. Wir suchten nach einer Polynomfunktion f vom Grad ≤ 2 mit f (1) = 2, f (2) = 1, f (3) = 1. Die Newtonschen Interpolationspolynome zu den Stützstellen x1 = 1, x2 = 2, x3 = 3 sind σ0 (x) = 1, σ1 (x) = x − 1, σ2 (x) = (x − 1)(x − 2) = x2 − 3x + 2. Der Ansatz f (x) = b0 + b1 σ1 (x) + b2 σ2 (x) 59 führt zu dem Gleichungssystem b0 b0 b0 + b1 + 2b1 + 2b2 = = = 2 1 1 Dieses Gleichungssystem läßt sich sehr leicht lösen: es hat die eindeutige Lösung b0 = 2, b1 = −1, b2 = 1/2. Die gesuchte Funktion ist daher 5 1 1 f (x) = 2 − (x − 1) + (x − 1)(x − 2) = 4 − x + x2 . 2 2 2 2.4 Lineare Abbildungen und Matrizen Im Folgenden sei K ein beliebiger Körper. Wir betrachten eine (m, n)-Matrix A = (ai,j ) ∈ Mm,n (K) mit Einträgen in K. Wir haben bereits mehrere mögliche Interpretationen einer solchen Matrix kennengelernt: • A definiert ein homogenes lineares Gleichungssystem in den Unbestimmten x1 , . . . , xn : a1,1 x1 + . . . + a1,n xn = 0 .. .. .. . . . am,1 x1 + ... + am,n xn = 0 Hier betrachtet man die Matrix A zeilenweise; jede Zeile entspricht einer Gleichung des Gleichungssystems. Eine kompakte Schreibweise des Gleichungssystems ist A · x = 0, wobei x = (x1 , . . . , xn ) ∈ K n . • Es sei vj ∈ K m die jte Spalte von A, also vj = (a1,j , . . . , am,j ) (Schreibweise: A = (v1 | . . . |vn )). Für x = (x1 , . . . , xn ) ∈ K n gilt dann: A · x = x1 · v1 + . . . + xn · vn . Das Produkt A · x der Matrix A mit dem Vektor x ist also die Linearkombination der Spaltenvektoren v1 , . . . , vn , deren Koeffizienten durch die Einträge von x gegeben sind. • Die Matrix A definiert eine lineare Abbildung φ : K n → K m, x 7→ A · x. Der Kern von φ ist offenbar die Lösungsmenge des Gleichungssystems A·x = 0. Das Bild von φ ist das Erzeugnis der Spaltenvektoren v1 , . . . , vn . Die dritte Sichtweise wollen wir noch etwas verallgemeinern. Dazu seien V und W zwei endlich erzeugte K-Vektorräume und φ:V →W 60 eine K-lineare Abbildung. Wir wählen eine Basis A = (v1 , . . . , vn ) von V und eine Basis B = (w1 , . . . , wm ) von W . Für j = 1, . . . , n ist dann φ(vj ) ein Element aus W , besitzt also eine eindeutige Darstellung als Linearkombination der Basis B. Wir schreiben die Koeffizienten dieser Linearkombination in die jte Spalte einer Matrix A ∈ Mm,n (K). Mit anderen Worten: A = (ai,j ) ist bestimmt durch m X ai,j · wi , j = 1, . . . , n. (44) φ(vj ) = i=1 Definition 2.4.1 Die durch (44) definierte Matrix A = (ai,j ) ∈ Mm,n (K) heißt die darstellende Matrix der linearen Abbildung φ : V → W , bezüglich der Basen A und B. Schreibweise: A = MBA (φ). Dieser Name ist gerechtfertigt durch den folgenden Satz. Satz 2.4.2 Sei φ : V → W eine K-lineare Abbildung zwischen endlich erzeugten K-Vektorräumen. Sei A = MBA (φ) die darstellende Matrix bezüglich einer Basis A = (v1 , . . . , vn ) von V und einer Basis B = (w1 , . . . , wm ) von W . Sei v = x1 · v1 + . . . + xn · vn ein Element aus V und w := φ(v) = y1 · w1 + . . . + ym · wm das Bild unter der Abbildung φ. Dann gilt y1 x1 .. .. A · . = . . ym xn Mit anderen Worten: identifiziert man V mit K n (durch Wahl der Basis A) und W mit K m (durch Wahl der Basis B), so ist die lineare Abbildung φ : V → W durch die Vorschrift φ(x) = A · x bestimmt. Beweis: Unter Ausnutzung der Linearität von φ und der Definition 2.4.1 erhalten wir n n X X xj · φ(vj ) xj · vj ) = w = φ(v) = φ( = n X j=1 xj · j=1 m X i=1 j=1 m X ai,j · wi = 61 i=1 n X j=1 ai,j xj · wi . (45) Bei der letzten Umformung haben wir zudem die Kommutativität und Assoziativität der Vektoraddition sowie das Distributivgesetz der Skalarmultiplikation ausgenutzt. Aus (45) folgt durch Koeffizientenvergleich yi = n X ai,j xj , i = 1, . . . , m. (46) j=1 Nach Definition des Produktes einer Matrix mit einem Vektor ist (46) äquivalent zur Gleichung A · x = y, wobei x = (x1 , . . . , xn ) und y = (y1 , . . . , ym ). 2 Beispiel 2.4.3 Sei V = K n , mit der Standardbasis A = (e1 , . . . , en ), und W = K m , mit der Standardbasis B = (e′1 , . . . , e′m ) (siehe Beispiel 2.2.6). Sei A ∈ Mm,n (K) und φ : V → W die durch φ(x) := A · x definierte lineare Abbildung. Dann gilt A = MBA (φ). Zur Verifikation dieser Behauptung braucht man sich nur klarzumachen, dass das Produkt der Matrix A mit dem Standardvektor ej ∈ K n der jten Spalte von A entspricht: 0 . a1,1 · · · a1,n a1,j .. .. · . A · ej = ... . 1 = .. . . am,1 · · · am,n am,j .. 0 Daraus folgt sofort φ(ej ) = A · ej = a1,j · e′1 + . . . + am,j · e′m , j = 1, . . . , n. Beispiel 2.4.4 Sei V der R-Vektorraum der Polynomfunktionen vom Grad ≤ 3. Sei B = (1, x, x2 , x3 ) die Standardbasis von V der Monome. Sei φ : V → V die lineare Abbildung φ(f ) = f ′ (die Ableitung). Anwenden von φ auf die Basiselemente ergibt: φ(1) = 0, φ(x) = 1, φ(x2 ) = 2x, Schreibt man diese Funktionen wieder als (1, x, x2 , x3 ) und stellt die Koeffizienten in erhält man 0 1 0 0 B MB (φ) = 0 0 0 0 62 φ(x3 ) = 3x2 . Linearkombination der Basis B = die Spalten einer (4, 4)-Matrix, so 0 0 2 0 . 0 3 0 0 Satz 2.4.5 Sei φ:V →W eine lineare Abbildung zwischen endlich erzeugten K-Vektorräumen. (i) Es gibt Basen A = (v1 , . . . , vn ) von V und B = (w1 , . . . , wm ) von W sowie eine Zahl r ∈ N0 , 0 ≤ r ≤ n, m, so dass E 0 r B (47) MA (φ) = . 0 0 Hierbei ist 1 0 Er = . .. 0 0 1 ··· ··· .. . ··· 0 0 0 .. . 1 die Einheitsmatrix vom Rang r; die drei Einträge 0 in (47) stehen jeweils für die Nullmatrix der Dimension (r, n − r), (m − r, r) und (m − r, n − r). (ii) Die Zahl r in (i) hängt nicht von der Wahl der Basen A und B ab. Sie ist eindeutig bestimmt durch r = dimK Bild(φ) = dimK V − dimK Kern(φ). Korollar 2.4.6 (Dimensionsformel) Mit den Bezeichnungen von Satz 2.4.5 gilt: dimK V = dimK Kern(φ) + dimK Bild(φ). Beweis: Sei s := dimK Kern(φ) die Dimension von Kern(φ). Setze r := n − s = dimK V − s. Wir wählen eine Basis von Kern(φ) und ergänzen diese zu einer Basis A = (v1 , . . . , vn ) von V (Basisergänzungssatz!). Dabei numerieren wir die Elemente von A so, dass das Teilsystem (vr+1 , . . . , vn ) die zuerst gewählte Basis von Kern(φ) ist. Man beachte, dass 0 ≤ r, s ≤ n. Für i = 1, . . . , r setzen wir wi := φ(vi ) ∈ W . Behauptung: Das System (w1 , . . . , wr ) ist linear unabhängig. Zum Beweis der Behauptung nehmen wir an, dass wir Skalare λ1 , . . . , λr ∈ K mit λ1 · w1 + . . . + λr · wr = 0 gegeben haben. Unter Ausnutzung der Definition von wi und der Linearität von φ erhalten wir 0 = λ1 · φ(v1 ) + . . . + λr · φ(vr ) = φ(λ1 · v1 + . . . + λr · vr ). 63 Also ist λ1 ·v1 +. . .+λr ·vr ein Element von Kern(φ). Es gibt also µ1 , . . . , µs ∈ K mit λ1 · v1 + . . . + λr · vr = µ1 · vr+1 + . . . + µs · vn . Da (v1 , . . . , vn ) eine Basis, also insbesondere linear unabhängig ist, folgt λ1 = . . . = λr = 0. Damit ist die Behauptung bewiesen. Wir können das linear unabhängige System (w1 , . . . , wr ) zu einer Basis B = (w1 , . . . , wm ) von W ergänzen (Basisergänzungssatz!). Insbesondere gilt m = dimK W ≥ r. Aus der Gleichung ( wj für j = 1, . . . , r, φ(vj ) = 0 für j = r + 1, . . . , n. B folgt sofort, dass die darstellende Matrix MA (φ) die in (i) behauptete Gestalt hat. Teil (i) des Satzes ist also bewiesen. Die Gleichheit r = dimk V − dimK Kern(φ) gilt nach Definition. Aus dem Beweis von (i) folgt leicht: Bild(φ) = hw1 , . . . , wr i. Insbesondere gilt r = dimK Bild(φ). Damit ist auch Teil (ii) des Satzes bewiesen. 2 Definition 2.4.7 Die Zahl r aus Satz 2.4.5 heißt der Rang der linearen Abbildung φ : V → W . Schreibweise: r = Rang(φ). 2.5 Matrizenmultiplikation Seien m, n, r ∈ N natürliche Zahlen und A ∈ Mm,n (K), B ∈ Mn,r (K) zwei Matrizen der angegebenen Dimensionen. Wir erhalten lineare Abbildungen φ : K n → K m, ψ : K r → K n, y 7→ A · y, x 7→ B · x. Da der Definitionsbereich der ersten Abbildung gleichzeitig der Zielbereich der zweiten Abbildung ist, kann man die Verkettung φ ◦ ψ : K r → K m, x 7→ A · (B · x) definieren. Man zeigt leicht, dass mit φ und ψ die Verkettung φ◦ψ wieder eine Klineare Abbildung ist. Nach Satz 2.4.2 und Beispiel 2.4.3 gibt es also eine Matrix C ∈ Mm,r (K), die die lineare Abbildung φ ◦ ψ bezüglich der Standardbasen von K m und K r darstellt. Mit anderen Worten: für alle x ∈ K r gilt C · x = A · (B · x). 64 (48) Die Formel (48) legt uns nahe, die Matrix C als das Produkt der Matrizen A und B aufzufassen, also A · B := C zu setzen. Mit dieser Definition würde die Formel (48) wie ein ‘Assoziativgesetz’ aussehen: (A · B) · x = A · (B · x). (49) Und genau so gehen wir vor: schreibe A = (ai,j ) und B = (bj,k ) (man beachte, dass hier und im Folgenden i ∈ {1, . . . , m}, j ∈ {1, . . . , n} und k ∈ {1, . . . , r} gilt). Für einen Vektor x = (x1 , . . . , xr ) ∈ K r gilt dann: y1 r X .. B · x = . , mit yj = bj,k xk . k=1 yn Daraus folgt y1 z1 A · (B · x) = A · ... = ... , yn mit zi = = n X j=1 n X ai,j yj = n X r X zn ai,j bj,k xk j=1 k=1 ci,k xk , mit ci,k := n X ai,j bj,k . j=1 j=1 Definition 2.5.1 Seien m, n, r ∈ N und A = (ai,j ) ∈ Mm,n (K), B = (bj,k ) ∈ Mn,r (K) zwei Matrizen der angegebenen Dimension. Das Matrizenprodukt A·B ist dann die Matrix C = (ci,k ) ∈ Mm,r (K) mit den Einträgen ci,k = n X ai,j bj,k , i = 1, . . . , m, k = 1, . . . , r. j=1 Das Matrizenprodukt definiert also eine ‘Verknüpfung’ Mm,n (K) × Mn,r (K) → Mm,r (K), (A, B) 7→ A · B. Beispiel 2.5.2 Sei K := Q und 2 A := 1 −1 0 1 . B := 1 0 −1 0 1 , 0 1 Das Produkt A · B ist dann die (2, 2)-Matrix −2 −1 A·B = . −1 −1 Das Produkt B · A ist eine (3, 3)-Matrix. 65 Beispiel 2.5.3 Für α ∈ R sei φα : R2 → R2 die Drehung der Euklidischen Ebene um den Winkel α (gegen den Uhrzeigersinn, der Ursprung (0, 0) ist der Fixpunkt der Drehung). Durch elementargeometrische Überlegungen zeigt man: • φα ist eine R-lineare Abbildung, • die Bilder der Standardvektoren e1 = (1, 0) und e2 = (0, 1) sind cos α − sin α φα (e1 ) = , φα (e2 ) = . sin α cos α Es folgt, dass φα (x) = Aα · x, mit Aα = Für α, β ∈ R gilt offenbar cos α cos β − sin α sin β Aα · Aβ = sin α cos β + cos α sin β cos α − sin α . sin α cos α −(sin α cos β + cos α sin β) . cos α cos β − sin α sin β (50) Andererseits stellt das Produkt Aα · Aβ die Verkettungsabbildung φα ◦ φβ dar. Die Hintereinanderausführung einer Drehung um den Winkel β und einer Drehung um den Winkel α ist aber offenbar eine Drehung um den Winkel α + β. Es folgt Aα+β = Aα · Aβ , also die bekannten Additionsgesetze sin(α + β) = sin α cos β + cos α sin β, cos(α + β) = cos α cos β − sin α sin β. Wir haben die Matrizenmultiplikation so definiert, dass sie der Hintereinanderausführung der zugehörigen linearen Abbildungen entspricht. Die abstrakte Formulierung dieses Sachverhaltes ist die folgende Kettenregel. Satz 2.5.4 (Kettenregel) Seien φ : V → W, ψ:U →V K-lineare Abbildungen zwischen endlich dimensionalen Vektorräumen U, V, W . Sei A eine Basis von U , B eine Basis von V und C eine Basis von W . Dann gilt MCB (φ) · MBA (ψ) = MCA (φ ◦ ψ). 66 Beweis: Dieser ‘Satz’ ist nichts weiter als eine Umformulierung der Assoziativregel (49). Um das einzusehen, muss man aber etwas Notation einführen. Zuerst geben wir den Vektoren der drei Basen Namen: A = (u1 , . . . , ur ), B = (v1 , . . . , vn ), C = (w1 , . . . , wm ). Nun sei u ∈ U ein beliebiger Vektor, v := ψ(u) ∈ V und w := φ(v) ∈ W . Nach Definition gilt dann w = φ(v) = φ(ψ(u)) = (ψ ◦ φ)(u). (51) Sei x = (x1 , . . . , xr ) ∈ K r der Koordinatenvektor von u bezüglich der Basis A, y = (y1 , . . . , yn ) ∈ K n der Koordinatenvektor von v bzgl. B und z = (z1 , . . . , zm ) ∈ K m der Koordinatenvektor von w bzgl. C. Es gilt also u= r X xk uk , v= n X yj vj , m X zi wi . i=1 j=1 k=1 w= Dann setzen wir noch A := MCB (φ), B := MBA (ψ), C := MCA (φ ◦ ψ). Nach Definition 2.4.1 gilt dann y = B·x (wegen v = ψ(u)), z = A·y = C ·x (wegen w = φ(v)), (wegen w = φ ◦ ψ(u)). Aus der Formel (49) folgt also C · x = A · y = A · (B · x) = (A · B) · x, für alle x ∈ K r (da der Vektor u ∈ U beliebig war). Daraus folgt C = A · B, was zu zeigen war. 2 Die folgende Proposition stellt ein paar elementare Regeln für das Rechnen mit Matrizen zusammen. Proposition 2.5.5 Es seinen Matrizen A, A′ ∈ Mm,n (K), B, B ′ ∈ Mn,r (K) und C ∈ Mr,s (K) gegeben. Dann gilt: (i) (Distributivgesetz) A · (B + B ′ ) = A · B + A · B ′ , (A + A′ ) · B = A · B + A′ · B, (ii) (Assoziativgesetz) (A · B) · C = A · (B · C). 67 (iii) (Neutralität der Einheitsmatrix) Em · A = A · En = A. Beweis: Wir zeigen exemplarisch die erste Formel in (i). Schreibe A · (B + B ′ ) = (ci,k ) und A · B + A · B ′ = (c′i,k ). Für alle i, k gilt dann: ci,k = n X ai,j (bj,k + b′j,k ) = n X i=1 j=1 ai,j bj,k + n X ai,j b′j,k = c′i,k . j=1 Es folgt A · (B + B ′ ) = A · B + A · B ′ . 2 Im Allgemeinen kann man zwei Matrizen nur durch Addition und Multiplikation verknüpfen, wenn die Dimensionen ‘passen’. Betrachtet man dagegen quadratische Matrizen einer festen Dimension, so entfällt diese Beschränkung. Für jedes n ∈ N erhält man also zwei Verknüpfungen auf der Menge Mn,n (K): +, · : Mn,n (K) × Mn,n (K) → Mn,n (K). Die Proposition 2.5.5 zeigt: Korollar 2.5.6 Die Menge Mn,n (K), versehen mit der Matrizenaddition und -multiplikation, ist ein Ring mit Einselement En . Bemerkung 2.5.7 (i) Für n ≥ 2 ist der Ring Mn,n (K) niemals kommutativ, wie das folgende Beispiel zeigt: 0 1 1 1 0 1 · = , 1 0 0 1 1 1 1 1 0 1 1 1 · = . 0 1 1 0 1 0 (ii) Für n ≥ 2 ist der Ring Mn,n (K) auch nicht nullteilerfrei: 0 1 0 1 · = 0. 0 0 0 0 (iii) Unsere Konvention über Ringe erlaubt uns, die Nullmatrix in Mn,n (K) mit 0 und die Einheitsmatrix mit 1 zu bezeichnen. Darüberhinaus ist auch sinnvoll, die Matrix λ 0 ··· 0 0 λ · · · 0 .. .. .. . . . 0 ··· 0 λ 68 für λ ∈ K einfach mit λ zu bezeichnen. Man erhält dann sofort die Rechenregel λ · A = A · λ. Außerdem ist die Abbildung K → Mn,n (K), λ 7→ λ, ein injektiver Ringhomomorphismus, d.h. nach Identifizierung von Körperelementen λ ∈ K mit der entsprechenden Diagonalmatrix ist K ein Unterring von Mn,n (K). Man sagt auch, dass Mn,n (K) eine K-Algebra ist. Invertierbare Matrizen Definition 2.5.8 Eine quadratische Matrix A ∈ Mn,n (K) heißt invertierbar, wenn es eine Matrix B ∈ Mn,n (K) gibt mit A · B = B · A = En . Mit anderen Worten: A ist eine Einheit des Rings Mn,n (K). Die Matrix B ist in diesem Fall eindeutig durch A bestimmt und heißt die inverse Matrix zu A. Schreibweise: A−1 := B. Die Menge aller invertierbaren (n, n)-Matrizen bezeichnen wir mit GLn (K). Bemerkung 2.5.9 (i) Sind A, B ∈ GLn (K) invertierbare Matrizen derselben Dimension, so ist das Produkt A · B wieder invertierbar, und es gilt (A · B)−1 = B −1 · A−1 . (ii) Die Multiplikation · definiert eine assoziative (aber im Allgemeinen nicht kommutative) Verknüpfung auf der Menge GLn (K), mit neutralem Element 1 = En und inversem Element A−1 . So eine Struktur nennt man eine Gruppe. (iii) Vorsicht: die Addition + läßt sich nicht auf die Menge GLn (K) einschränken: ist z.B. A ∈ GLn (K), so gilt auch −A ∈ GLn (K), aber A + (−A) = 0 liegt nicht in GLn (K). Satz 2.5.10 Sei A ∈ Mn,n (K) eine quadratische Matrix. Dann sind die folgenden Bedingungen äquivalent. (a) A ist invertierbar. (b) Kern(A) := { x ∈ K n | A · x = 0 } = {0}. (c) Bild(A) := { A · x | x ∈ K n } = K n . 69 Beweis: Sei φ : K n → K n die durch φ(x) := A · x definierte lineare Abbildung. Aus der Dimensionsformel, angewendet auf φ, folgt: ⇔ dimK Bild(A) = n dimK Kern(A) = 0. Daraus folgt sofort die Äquivalenz von (b) und (c). Wir beweisen nun die Implikation (a)⇒(b). Angenommen, A ist invertierbar, und x ∈ Kern(A), d.h. A · x = 0. Es folgt 0 = A−1 · x = A−1 · (A · x) = (A−1 · A) · x = En · x = x. Dies zeigt Kern(A) = {0}, also (b). Zum Schluss die Implikation (b)⇒(a). Wir nehmen also an, dass Kern(A) = {0}. Die lineare Abbildung φ : K n → K n , x 7→ A · x, ist dann injektiv. Wegen der Äquivalenz (b)⇔(c) gilt zusätzlich Bild(A) = K n , d.h. die Abbildung φ ist auch surjektiv. Also ist φ bijektiv und besitzt eine Umkehrabbildung φ−1 mit φ ◦ φ−1 = φ−1 ◦ φ = IdV . (52) In den Übungen haben wir gesehen, dass die Umkehrabbildung einer bijektiven linearen Abbildung wieder linear ist. Daher gibt es eine (eindeutig bestimmte) Matrix B ∈ Mn,n (K) mit φ−1 (y) = B · y, für alle y ∈ K n . Aus (52) folgt nun A · B = B · A = En . Dies zeigt, dass A invertierbar ist (und dass B = A−1 ). 2.6 2 Basiswechsel Definition 2.6.1 Sei V ein endlich erzeugter K-Vektorraum, n := dimK (V ) und A, B zwei Basen von V . Dann heißt die Matrix TBA := MBA (IdV ) ∈ Mn,n (K) die Transfomationsmatrix des Basiswechsels von A nach B. Die Transformationsmatrix TBA hat die folgende Interpretation. Sei A = (v1 , . . . , vn ) und B = (w1 , . . . , wn ). Jeder Vektor v ∈ V läßt sich auf eindeutige Weise als Linearkombination von A und von B schreiben: v= n X xi vi = n X yi wi , i=1 i=1 mit xi , yi ∈ K. Zu den Basen A und B gehört also jeweils eine Koordinatendarstellung von v durch einen Vektor aus K n . Das Umrechnen der einen 70 Koordinatendarstellung in die andere erfolgt durch Multiplikation mit der Matrix T : y1 x1 .. A .. = T · . B . . ym xn Beispiel 2.6.2 Sei V = R2 die Euklidische Standardebene, E = (e1 , e2 ) die Standardbasis von V und B = (w1 , w2 ) die Basis mit den Vektoren 1 −1 w1 := , w2 := . 1 1 Offenbar gilt w2 = −e1 + e2 , w1 = e1 + e2 , und daher TEB Umgekehrt gilt e1 = und daher 1 = 1 −1 . 1 1 1 1 1 w1 − w2 , e2 = w1 + w2 , 2 2 2 2 1 1 2 2 . TBE = − 21 12 Nun sei v = (1, 2) = e1 + 2e2 ∈ V . Dann gilt v = y1 · w1 + y2 · w2 , wobei 3 1 y1 = TBE · = 21 . 2 y2 2 Die ‘Geometrie’ des Koordinatenwechsels von den x-Koordinaten (bzgl. der Standardbasis) in die y-Koordinaten (bzgl. der Basis B) macht man sich am Besten durch das Bild 5 klar. Bemerkung 2.6.3 Sei V ein endlich dimensionaler K-Vektorraum und A, B, C drei Basen von V . Aus der Kettenregel (Satz 2.5.4) folgt: TCB · TBA = TCA . Insbesondere gilt TAB · TBA = TAA = En , TBA · TAB = TBB = En . Eine Transfomationsmatrix ist also immer invertierbar, und es gilt: (TAB )−1 = TBA . 71 (53) x2 6 y2 I y1 v x - 1 Figure 5: Aus der Kettenregel (Satz 2.5.4) folgt sofort: Satz 2.6.4 (Basiswechsel) Sei φ:V →W eine lineare Abbildung zwischen endlich dimensionalen K-Vektorräumen. Seien A, A′ Basen von V und B, B ′ Basen von W . Dann gilt ′ ′ MBA′ (φ) = TBB′ · MBA (φ) · TAA . Korollar 2.6.5 Seien m, n ∈ N. Zu jeder (m, n)-Matrix A ∈ Mm,n (K) gibt es invertierbare Matrizen S ∈ GLm (K) und T ∈ GLn (K) mit 0 Er S·A·T = , 0 0 wobei r = dimK Bild(A) = n − dimK Kern(A). Beweis: Sei φ : K n → K m die lineare Abbildung φ(x) = A · x. Seien Em und En die Standardbasen von K m und K n . Dann gilt n A = MEEm (φ). 72 Andererseit gibt es nach Satz 2.4.5 eine Basis A von K n und eine Basis B von K n mit 0 E r MBA (φ) = , 0 0 mit r wie in der Behauptung. Setzt man S := TBEm ∈ GLm (K) und T := TEAn , so folgt die Behauptung aus Satz 2.6.4. 2 Definition 2.6.6 Für A ∈ Mm,n (K) heißt Rang(A) := dimK Bild(A) = n − dimK Kern(A) der Rang der Matrix A. 2.7 Elementarmatrizen Sei K ein beliebiger Körper und m, n ∈ N. Wir definieren gewisse quadratische Elementarmatrizen der Dimension m. Die Multiplikation einer (m, n)-Matrix A von links mit so einer Elementarmatrix entspricht dann einer elementaren Zeilenoperation auf A, wie sie beim Gauss-Algorithmus auftreten. Als Folgerung erhalten wir u.A. ein praktisches Verfahren zum Invertieren von Matrizen. Sei A = (ai,j ) ∈ Mm,n (K). Für ein festes i ∈ {1, . . . , n} und λ ∈ K, λ 6= 0, sei 1 .. . Si (λ) := λ .. . 1 die Diagonalmatrix mit dem Eintrag λ an der iten Stelle und einer 1 an den restlichen Stellen (alle Einträge außerhalb der Diagonalen sind Null). Dann ist offenbar a1,1 · · · a1,n .. .. . . Si (λ) · A = λai,1 · · · λai,n . .. .. . am,1 · · · am,n die aus A durch Multiplikation der iten Zeile mit λ hervorgeht. Nun seien i, j ∈ {1, . . . , m}, i 6= j und λ ∈ K (nicht notwendigerweise von 73 Null verschieden). Wir setzen Qji (λ) := 1 .. . λ .. . 1 (auf der Diagonalen steht überall 1, der (i, j)-Eintrag ist gleich λ, sonst sind alle Einträge Null). Dann ist a1,1 ··· a1,n .. .. . . j Qi (λ) · A = ai,1 + λaj,1 · · · ai,n + λaj,n .. .. . . am,1 ··· am,n die Matrix, die aus A durch Addition des λ-fachen der jten Zeile zur iten Zeile hervorgeht. Schließlich sei für i, j ∈ {1, . . . , n}, i 6= j, Pij = (ck,l ) ∈ Mm,m (K) die Matrix mit den Einträgen 1 k = l 6∈ {i, j}, ck,l = 1 k = i, l = j oder k = k, l = i, 0 sonst. Dann ist Pij · A die Matrix, die aus A durch Vertauschen der iten mit der jten Zeile hervorgeht. Definition 2.7.1 Die Matrizen Si (λ), Qji (λ), Pij ∈ Mm,m (K) heißen die Elementarmatrizen der Dimension m. Bemerkung 2.7.2 gilt (i) Die Elementarmatrizen sind alle invertierbar, und es Si (λ)−1 = Si (λ−1 ), Qji (λ)−1 = Qji (−λ), (Pij )−1 = Pij . (ii) Ist A ∈ Mm,n (K) eine beliebige (m, n)-Matrix und S ∈ GLm (K) eine Elementarmatrix, so geht das Produkt A′ := S · A aus A durch eine elementare Zeilenoperation (Definition 1.3.1) hervor. 74 Satz 2.7.3 Sei A ∈ Mm,n (K). Dann gibt es eine invertierbare Matrix S ∈ GLm (K), so dass die Matrix A′ := S · A in normalisierter Zeilenstufenform ist (siehe Definition 1.3.3). Dabei ist S das Produkt einer Folge S1 , . . . , Sr ∈ GLm (K) von Elementarmatrizen: S = S1 · . . . · Sr . Beweis: Das ergibt sich sofort aus der Bemerkung 2.7.2 und dem GaussAlgorithmus (Lemma 1.3.4). 2 Korollar 2.7.4 Jede invertierbare Matrix ist das Produkt von Elementarmatrizen. Beweis: Sei A ∈ Mn,n (K) eine (n, n)-Matrix. Nach Satz 2.7.3 gibt es eine invertierbare Matrix, Produkt von Elementarmatrizen, S = S1 · . . . · Sr ∈ GLn (K) so dass A′ := S · A ∈ Mn,n (K) in normalisierter Zeilenstufenform ist. Da S invertierbar ist, gilt Kern(A′ ) = Kern(A). Insbesonders haben A und A′ denselben Rang. Der Rang von A′ ist offenbar die Anzahl der Pivots (siehe Definition 1.3.1). Angenommen, A ist invertierbar. Dann gilt Rang(A′ ) = Rang(A) = n. Eine Matrix in normalisierter Zeilenstufenform mit vollem Rang ist eine Einheitsmatrix. Es gilt also A′ = En , und daher ist S = A−1 die zu A inverse Matrix. Daraus folgt A = S −1 = Sr−1 · . . . · S1−1 . Nach Bemerkung 2.7.2 (i) sind die Matrizen Sk−1 , k = 1, . . . , r, selber wieder Elementarmatrizen. Damit ist das Korollar bewiesen. 2 Aus dem Beweis von Korollar 2.7.4 ergibt sich ein praktischer Algorithmus zum Invertieren von Matrizen. Sei zunächst A ∈ Mm,n (K) eine (nicht notwendigerweise quadratische) Matrix. Man berechnet (wie im Satz 2.7.3) eine invertierbare Matrix S ∈ GLm (K), so dass A′ := S ·A in normalisierter Zeilenstufenform ist. Sei r der Rang von A′ , d.h. die Anzahl der Pivots. Dann ist A invertierbar genau dann, wenn n = m = r, und in diesem Fall gilt A−1 = S. Zur Berechnung von S geht man so vor. Man bildet die ‘erweiterte’ Matrix à := (A | Em ) ∈ Mm,n+m und wendet darauf den Gauss-Algorithmus an. Genauer: man formt die Matrix à durch eine Folge von elementaren Zeilenumformungen in eine Matrix Ã′ = (A′ | B) 75 so um, dass A′ ∈ Mm,n (K) in normalisierter Zeilenstufenform ist. Eine Folge von elementaren Zeilenumformungen entspricht aber der Multiplikation von links mit einer invertierbaren Matrix S ∈ GLm (K), d.h. es gilt Ã′ = S · à = (S · A | S). Es folgt A′ = S · A und S = B. Die gesuchte Matrix S kann man also an der umgeformten erweiterten Matrix Ã′ ablesen. Beispiel 2.7.5 Anstelle von Zeilen- kann man auf eine Matrix auch Spaltenoperationen anwenden (man vertausche in der Definition 1.3.1 einfach die Wörter ‘Zeile’ und ‘Spalte’). Analog zur Bemerkung 2.7.2 (ii) erhält man: Bemerkung 2.7.6 Ist A ∈ Mm,n (K) eine beliebige (m, n)-Matrix und T ∈ GLn (K) eine Elementarmatrix, so geht das Produkt A′ := A · T aus A durch eine elementare Spaltenoperation hervor. Nach Korollar 2.6.5 gibt es zu jeder Matrix Matrizen S ∈ GLm (K) und T ∈ GLn (K) mit 0 Er S·A·T = 0 0 A ∈ Mm,n (K) invertierbare , mit r = Rang(A). Durch Kombination von Zeilen- und Spaltenoperationen erhält man einen Algorithmus zum Berechnen von S und T : • Zunächst bestimmt man S ∈ GLm (K) so, dass A′ := S · A in normalisierter Zeilenstufenform ist (siehe oben). • Man überlegt sich leicht, dass man A′ durch eine Folge von elementaren Spaltenumformungen auf ‘Spaltennormalform’ bringen kann, ohne dabei die Eigenschaft ‘Stufennormalform’ zu verlieren. Wendet man die Umformungen auf die erweiterte Matrix ′ A En an, so erhält man ein Matrix der Form ′′ A , T 76 mit T ∈ GLn (K) und Er S · A · T = A′ · T = A′′ = 0 77 0 . 0 3 Diagonalisieren 3.1 Lineare Rekursionsfolgen Definition 3.1.1 Sei x1 , x2 , . . . eine Folge reeller Zahlen. Wir sagen, dass diese Folge eine Rekursionsfolge der Ordnung k ist, wenn es eine Funktion f : Rk → R gibt, so dass xn = f (xn−1 , . . . , xn−k ) (54) gilt, für alle n > k. Wir nennen die Rekursionsfolge linear und homogen, wenn die Funktion f linear ist; in diesem Fall gibt es offenbar Konstanten c1 , . . . , ck ∈ R so, dass xn = c1 xn−1 + . . . + ck xn−k , (55) für alle n > k. Eine Rekursionsfolge der Ordnung k ist offenbar durch die ersten k Folgeglieder x1 , . . . , xk eindeutig bestimmt. Deshalb heißen x1 , . . . , xk die Anfangswerte der Rekursionsfolge. Rekursionsfolgen treten überall in der Mathematik und ihren Anwendungen auf. Ein typisches Problem, dass es dann zu lösen gilt, ist folgendes. Gegeben sind die Anfangswerte x1 , . . . , xk und die Rekursionsgleichung (54). • Finde eine geschlossene Formel für das nte Folgeglied xn . • Bestimme das asymptotische Wachstum der Folge xn . Die obigen Problemstellungen sind nicht sehr präzise. Was damit gemeint sein könnte, sieht man am Besten an dem folgenden, uns bereits bekannten Beispiel. Beispiel 3.1.2 Die Fibonacci-Folge x1 , x2 , x3 , . . . ist bestimmt durch die Anfangswerte x1 = 1, x2 = 1, und die Rekursionsgleichung xn = xn−1 + xn−2 , n > 2. Die ersten 12 Folgeglieder sind dann 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144. Eine geschlossene Formel für das nte Folgeglied ist √ √ 1 1 − 5 n 1 1 + 5 n −√ . xn = √ 2 2 5 5 √ √ Da (1 + 5)/2 ∼ 1, 618034 und (1 − 5)/2 ∼ −0, 618034, ist √ 1 1 + 5 n xn ∼ √ ∼ 0, 4472 · 1, 618n 2 5 eine asymptotisch gute Abschätzung der Fibonacci-Folge 78 Die Fibonacci-Folge ist eine homogene lineare Rekursionsfolge. Wir werden im Folgenden einen allgemeinen Ansatz zum Lösen einer homogenen linearen Rekursionsgleichung entwickeln. Dieser Ansatz wird uns als Motivation für den in der linearen Algebra zentralen Begriff der Diagonalisierbarkeit dienen. Seien c1 , . . . , ck ∈ R reelle Zahlen. Dann ist die Menge V := { v = (x1 , x2 , . . .) ∈ RN | xn = c1 xn−1 + . . . + ck xn−k , ∀n > k } ein R-Vektorraum der Dimension k. die k Folgen v1 , . . . , vk ∈ V , wobei vi ( 1, j xj := 0, j Eine Basis von V ist z.B. gegeben durch durch die Anfangswerte = i, = 1, . . . , k, j 6= i, bestimmt ist. Sind nun beliebige Anfangswerte x1 , . . . , xk vorgegeben, so läßt sich die dadurch bestimmte Rekursionsfolge v := (x1 , x2 , . . .) ∈ V auf eindeutige Weise als Linearkombination der Basis (v1 , . . . , vk ) darstellen: v = x1 · v1 + . . . + xk · vk . Diese Darstellung der Folge v hilft uns aber nicht weiter! Ein besserer Ansatz geht so. Sei α ∈ R eine relle Zahl; wir betrachten die Folge v := (1, α, α2 , . . .). Offenbar erfüllt v unsere Rekursionsgleichung genau dann, wenn αk = c1 αk−1 + . . . + ck−1 α + ck . Oder äquivalent: α ist eine Nullstelle des Polynoms F (x) = xk − c1 xk−1 − . . . − ck . Das Polynom F heißt das charakteristische Polynom der Rekursionsgleichung. Die Bedeutung von F erschließt sich aus dem folgenden Satz. Satz 3.1.3 Sei x1 , x2 , . . . eine lineare Rekursionsfolge der Ordnung k, mit Rekursionsgleichung xn = c1 xn−1 + . . . + ck xn−k , n > k. Sei F (x) := xk − c1 xk−1 − . . . − ck das charakteristische Polynom. Wir nehmen an, dass F genau k paarweise verschiedene Nullstellen α1 , . . . , αk ∈ R hat. Dann gibt es eindeutig bestimmte reelle Zahlen β1 , . . . , βk ∈ R so, dass xn = β1 α1n−1 + . . . + βk αkn−1 . 79 Unter günstigen Umständen liefert der Satz also eine geschlossene Formel für das nte Glied der Rekursionsfolge. Diese günstigen Umstände sind zum Beispiel für die Fibonacci-Folge (Bespiel 3.1.2) gegeben: das charakteristische Polynom ist √ √ 1+ 5 1− 5 F (x) = x2 − x − 1 = (x − )(x − ) 2 2 und hat zwei verschiedene Nullstellen. Beweis: Seien α1 , . . . , αk ∈ R die paarweise verschiedenen Nullstellen von F . Dann erfüllen die Folgen wi := (1, αi , α2i , . . .), i = 1, . . . , k, unsere Rekursionsgleichung, d.h. w1 , . . . , wk ∈ V . Ist w = β1 w1 + . . . + βk wk = (x1 , x2 , . . .) eine Linearkombination der wi , so ist das nte Folgenglied von w offenbar gegeben durch die Formel xn = β1 α1n−1 + . . . + βk αkn−1 . Der Satz 3.1.3 ist also äquivalent zu der Behauptung: Die Folgen w1 , . . . , wk bilden eine Basis von V . Wir werden zwei verschiedene Beweise für diese Behauptung geben. Der erste Beweis beruht auf der Invertierbarkeit einer gewissen Matrix. Sei w = (x1 , x2 , . . .) ∈ V eine beliebige Folge, die unsere Rekursionsgleichung erfüllt. Wir müssen zeigen, dass es eindeutig bestimmte β1 , . . . , βr gibt mit der Eigenschaft w = β1 · w1 + . . . + βk · wk . (56) Nun sind zwei Folgen in V genau dann gleich, wenn ihre ersten k Glieder übereinstimmen. Die Gleichung (56) ist daher äquivalent zu dem Gleichungssystem x1 = β1 + ... + βk x2 .. . = α1 β1 .. . xk = α1k−1 β1 + ... + αk βk .. . + ... + αkk−1 βk . In Matrixschreibweise lautet dieses Gleichungssystem A · β = x, wobei 1 1 ··· 1 α1 α2 ··· αk A := .. .. .. . . . . α1k−1 α2k−1 · · · αkk−1 Eine Matrix dieser Form nennt man eine Vandermont-Matrix. Die zu beweisende Behauptung folgt nun aus dem folgenden Lemma. 80 (57) Lemma 3.1.4 Sei K ein Körper und seien α1 , . . . , αk paarweise verschiedene Elemente von K. Dann ist die durch (57) gegebenen Matrix A invertierbar. Beweis: Es sei 1 1 At := . .. 1 α1 α2 .. . ··· ··· αk ··· α1k−1 α2k−1 .. . αkk−1 die Transponierte der Matrix A. Es gilt (Übungsaufgabe!): A ist invertierbar genau dann, wenn At invertierbar ist. Um zu testen, ob At invertierbar ist, nehmen wir uns einen Vektor y = (y1 , . . . , yk ) ∈ K k mit At · y = 0 her; es gilt dann y1 + y2 αi + . . . + yk αik−1 = 0, i = 1, . . . , k. Es folgt, dass das Polynom G(x) := y1 + y2 x + . . . + yk xk−1 vom Grad ≤ k − 1 mindestens k verschiedene Nullstellen α1 , . . . , αk hat. Mit Korollar 2.3.69 folgt daraus aber G(x) = 0, d.h. y1 = . . . = yk = 0. Da der Vektor y beliebig war, folgt Kern(At ) = {0}. Nach Satz 2.5.10 sind At und A also invertierbar. 2 Für den zweiten Beweis von Satz 3.1.3 benötigen wir den Begriff des Eigenvektors. Definition 3.1.5 Sei K ein Körper, V ein K-Vektorraum und φ:V →V eine K-lineare Abbildung von V auf sich selbst (man nennt φ einen Endomorphismus von V ). Ein Eigenvektor von φ ist ein von Null verschiedener Vektor v ∈ V , v 6= 0, so dass φ(v) = λ · v für ein λ ∈ K. Der Skalar λ heißt der Eigenwert von φ zum Eigenvektor v. (Man beachte, dass λ durch v eindeutig bestimmt ist!) Ist v = (x1 , x2 , . . .) ∈ V eine Rekursionsfolge, so erfüllt die ‘verschobene’ Folge φ(v) := (x2 , x3 , . . .) dieselbe Rekursionsgleichung. Man erhält eine Abbildung φ : V → V, (x1 , x2 , . . .) 7→ (x2 , x3 , . . .), für die man leicht nachprüft, dass sie linear, also ein Endomorphismus von V ist. Ist α eine Nullstelle des charakteristischen Polynoms F so gilt φ(1, α, α2 , . . .) = (α, α2 , α3 , . . .) = α · (1, α, α2 , . . .). 9 Wir haben dieses Korollar nur über dem Körper der reellen Zahlen bewiesen. Eine nachträgliche Inspektion des Beweises zeigt aber, dass die Aussage über einem beliebigen Körper richtig ist. 81 Mit anderen Worten: v = (1, α, α2 , . . .) ist ein Eigenvektor von φ mit Eigenwert α! Hat das charakteristische Polynom F die paarweise verschiedene Nullstellen α1 , . . . , αk ∈ R, so sind die Folgen wi := (1, αi , α2i , . . .) ∈ V also Eigenvektoren von φ, mit paarweise verschiedenen Eigenwerten. Das folgende Lemma zeigt daher, dass w1 , . . . , wr linear unabhängig sind. Wegen dimR V = k ist dann (w1 , . . . , wk ) eine Basis von V . Dieses Argument liefert den zweiten Beweis von Satz 3.1.3. Lemma 3.1.6 Sei K ein Körper, V ein K-Vektorraum und φ : V → V ein Endomorphismus von V . Es seien v1 , . . . , vn Eigenvektoren von φ mit paarweise verschiedenen Eigenwerten λ1 , . . . , λn ∈ K. Dann ist das System (v1 , . . . , vn ) linear unabhängig. Beweis: Wir beweisen das Lemma durch Induktion über n. Für n = 0 ist die Aussage trivialerweise richtig (die leere Liste ist linear unabhängig). Wir nehmen also an, dass n > 0 und dass es µ1 , . . . , µn ∈ K gibt mit µ1 · v1 + . . . + µn · vn = 0. (58) Anwenden des Endomorphismus φ auf die Gleichung (58) führt, unter Ausnutzung von φ(vi ) = λi · vi , zu der neuen Gleichung µ1 λ1 · v1 + . . . + µn λn · vn = 0. (59) Zieht man das λn fache der Gleichung (58) von der Gleichung (59) ab, so erhält man µ1 (λ1 − λn ) · v1 + . . . + µn−1 (λn−1 − λn ) · vn−1 = 0. (60) Wir haben also den Vektor vn aus der Gleichung eliminiert. Nun wenden wir die Induktionshypothese an. Sie besagt, dass das System (v1 , . . . , vn−1 ) linear unabhängig ist. Aus der Gleichung (60) folgt somit µ1 (λ1 − λn ) = . . . = µn−1 (λn−1 − λn ) = 0. Da die λi nach Voraussetzung paarweise verschieden sind, folgt zunächst µ1 = . . . = µn−1 = 0. Die Gleichung (58) reduziert sich somit auf µn · vn = 0. Da vn 6= 0 gilt (Definition 3.1.5), gilt auch µn = 0, also insgesamt µi = 0 für alle i. Damit ist das Lemma bewiesen. 2 3.2 Diagonalisierbare Endomorphismen Definition 3.2.1 Sei K ein Körper, V ein K-Vektorraum und φ : V → V ein (K-linearer) Endomorphismus von V . Dann heißt φ diagonalisierbar, wenn der Vektorraum V eine Basis B = (vi )i∈I besitzt, die aus Eigenvektoren von φ besteht, d.h. φ(vi ) = λi · vi , für alle i ∈ I und gewisse Skalare λi ∈ K. 82 Wir werden uns im Folgenden ganz auf den Fall eines endlich-dimensionalen Vektorraumes V konzentrieren. Ist dann B = (v1 , . . . , vn ) eine Basis von V aus Eigenvektoren von φ, und sind λ1 , . . . , λn die zugehörigen Eigenwerte, so ist die darstellende Matrix von φ bezüglich B eine Diagonalmatrix: λ1 λ2 MBB (φ) = .. . λn (alle Einträge außerhalb der Diagonalen verschwinden). Es gilt also: Bemerkung 3.2.2 Ein Endomorphismus φ : V → V eines endlich-dimensionalen K-Vektorraumes V ist diagonalisierbar genau dann, wenn die darstellende Matrix von φ bezüglich einer geeigneten Basis von V eine Diagonalmatrix ist. Beispiel 3.2.3 Sei V der Vektorraum aller Folgen (x1 , x2 , . . .) ∈ RN , die einer Rekursionsgleichung xn = c1 xn−1 + . . . + ck xn−k genügen. Sei φ : V → V der ‘Verschiebeendomorphismus’, φ(x1 , x2 , . . .) = (x2 , x3 , . . .), und sei F (x) = xk − c1 xk−1 − . . . − ck das charakteristische Polynom der Rekursionsgleichung. Wir nehmen an, dass F genau k paarweise verschiedene Nullstellen λ1 , . . . , λk ∈ R besitzt. Dann folgt aus dem Beweis von Satz 3.1.3, dass die Folgen vi = (1, αi , α2i , . . .), i = 1, . . . , k, eine Basis aus Eigenvektoren von φ bilden. Daher ist φ diagonalisierbar. Beispiel 3.2.4 Sei φ : R2 → R2 die lineare Abbildung mit φ(e1 ) = 2e2 , φ(e2 ) = e1 (E := (e1 , e2 ) sei die Standardbasis von R2 ). Dann gilt φ(x) = A · x, mit 0 1 A := . 2 0 Ist φ diagonalisierbar? Um diese Frage zu beantworten zu können, sollte man sich zuerst einen Überblick über die möglichen Eigenwerte verschaffen. Ist x = (x1 , x2 ) ∈ R2 ein Eigenvektor von φ mit Eigenwert λ ∈ R, so gilt A·x = λ·x ⇔ (A − λ · E2 ) · x = 0. Da x als Eigenvektor nicht der Nullvektor sein darf, bedeutet die rechte Gleichung: die Matrix −λ 1 A − λ · E2 = 2 −λ 83 ist nicht invertierbar. Dies gilt genau dann, wenn die Determinante dieser Matrix verschwindet: √ √ −λ 1 2 2 −λ = λ − 2 = 0 ⇔ λ ∈ { 2, − 2}. √ √ Die beiden einzigen Eigenwerte von φ sind daher λ1 := 2 und λ2 := − 2. Der nächste Schritt besteht nun darin, zu den gefundenen Eigenwerten (genügend viele) Eigenvektoren zu bestimmen. Das kann man allgemein mit dem Gauss-Verfahren machen; in diesem einfachen Beispiel sicht man sofort, dass √ 1 Kern(A − 2 · E2 ) = hv1 i, wobei v1 := √ . 2 Eine fast identische Rechnung liefert: Kern(A + √ 2 · E2 ) = hv2 i, wobei v2 := 1 √ . − 2 Offenbar ist nun B := (v1 , v2 ) eine Basis von R2 , bestehend aus Eigenvektoren von φ. Insbesondere ist φ diagonalisierbar. Was folgt daraus für die Matrix A? Sei 1 1 √ S := TEB = √ 2 − 2 die Transformationsmatrix des Basiswechsels von der Basis B = (v1 , v2 ) in die Einheitsbasis E = (e1 , e2 ). Dann gilt √ −1 − 2 −1 √ , TBE = S −1 = √ 2 2 − 2 1 und nach dem Basiswechselsatz (Satz 2.6.4): S −1 · A · S = TBE · MEE (φ) · TEB = MBB (φ) = √ 2 0 0 √ . − 2 Definition 3.2.5 Eine Matrix A ∈ Mn,n (K) heißt diagonalisierbar, wenn es eine invertierbare Matrix S ∈ GLn (K) gibt, so dass die Matrix λ1 λ2 S −1 · A · S = . .. λn eine Diagonalmatrix ist. Frage 3.2.6 Sei A die Matrix aus Beispiel 3.2.4, aufgefasst als Matrix über dem Körper der rationalen Zahlen. Sei φQ : Q2 → Q2 der zugehörige Endomorphismus. Ist φQ diagonalisierbar? 84 Bemerkung 3.2.7 Sei A ∈ Mn,n (K) eine quadratische Matrix. Wie in Beispiel 3.2.4 zeigt man ganz allgemein: (i) A ist genau dann diagonalisierbar, wenn der zugehörige Endomorphismus φ : K n → K n , x 7→ A · x, diagonalisierbar ist. (ii) Ist S ∈ GLn (K) eine invertierbare Matrix, für die S −1 AS eine Diagonalmatrix ist, so bilden die Spalten von S eine Basis von K n , bestehend aus Eigenvektoren von φ: S = (v1 | . . . |vn ), A · vi = λi · vi , i = 1, . . . , n. Satz 3.2.8 Sei φ : V → V ein Endomorphismus eines endlich-dimensionalen K-Vektorraumes V . Dann gilt: (i) Es gibt ein Polynom F (x) = xn + c1 xn−1 + . . . + cn vom Grad n := dimK V mit der folgenden Eigenschaft: ein Körperelement λ ∈ K ist genau dann ein Eigenwert von φ, wenn es Nullstelle von F ist, d.h. F (λ) = λn + c1 λn−1 + . . . + cn = 0. (ii) Wenn das Polynom F in (i) genau n paarweise verschiedene Nullstellen hat, so ist φ diagonalisierbar. Bemerkung 3.2.9 Das Polynom F in (i) ist im allgemeinen nicht eindeutig bestimmt (zum Beispiel wenn F gar keine Nullstellen hat). Im Abschnitt 3.4 werden wir aber einen kanonischen Kandidaten für F kennenlernen, das charakteristische Polynom von φ. Beweis: Wir überlegen uns zuerst, dass (ii) aus (i) folgt. Angenommen, das Polynom F hat n paarweise verschiedene Nullstellen λ1 , . . . , λn . Nach (i) gibt es dann Vektoren v1 , . . . , vn ∈ V , vi 6= 0, mit φ(vi ) = λi · vi . Da die λi paarweise verschieden sind, sagt uns das Lemma 3.1.6, dass das System B = (v1 , . . . , vn ) linear unabhängig ist. Aber n = dimK V , also ist B sogar eine Basis, die nach Konstruktion aus eigenvektoren von φ besteht. Also ist φ diagonalisierbar. Zum Beweis von (i) orientieren wir uns an der Rechnung aus Beispiel 3.2.4. Sei A = (v1 , . . . , vn ) eine beliebige Basis von V und sei A A := MA (φ) ∈ Mn,n (K) P die darstellende Matrix von φ bzgl. A. Sei v = i xi vi ein beliebiger Vektor aus V , dargestellt als Linearkombination von A. Dann ist v ein Eigenvektor von φ genau dann, wenn x1 .. und A · x = λ · x. (61) x := . 6= 0 xn 85 Offenbar gilt (61) genau dann, wenn die Matrix A − λ · En nicht invertierbar ist, d.h. Kern(A − λ · En ) 6= {0}. Teil (i) von Satz 3.2.8 folgt deshalb aus den folgenden Behauptungen: • Es gibt eine Abbildung det : Mn,n (K) → K, A 7→ det(A), genannt die Determinante, mit der folgenden Eigenschaft: eine Matrix A ∈ Mn,n (K) ist genau dann invertierbar, wenn det(A) 6= 0. • Für A ∈ Mn,n (K) gibt es ein Polynom F (x) = xn + c1 xn−1 + . . . + cn mit der Eigenschaft: für alle λ ∈ K gilt F (λ) = det(A − λ · En ). Für n = 2 setzt man z.B. a det c a b = d c b := ad − bc. d (62) Die beiden Behauptungen lassen sich durch eine direkte Rechnung leicht verifizieren. Das haben wir schon im Beispiel 3.2.4 ausgenutzt. Im folgenden Anschnitt werden wir uns mit der Definition der Determinante einer allgemeinen quadratischen Matrix auseinandersetzen. 3.3 Determinanten Definition 3.3.1 Sei K ein Körper und n ∈ N eine natürliche Zahl. Eine Determinante vom Rang n ist ein Abbildung det : Mn,n (K) → K, die folgende Eigenschaften hat. (D 1) Für alle i ∈ {1, . . . , n} und v1 , . . . , vbi , . . . , vn ∈ K n ist die Abbildung K n → K, v 7→ det(v1 | . . . | v | . . . | vn ) K-linear. Man sagt: det ist linear in jeder Spalte. (D 2) Sind v1 , . . . , vn ∈ K n , wobei vi = vj für zwei verschiedene Indizes 1 ≤ i < j ≤ n, so gilt det(v1 | . . . | vn ) = 0. Man sagt: det ist alternierend. 86 (D 3) Es gilt det(En ) = det(e1 | . . . | en ) = 1. Man sagt: det ist normalisiert. Beispiel 3.3.2 Wir betrachten den Fall n = 2 und werden zeigen, dass es genau eine Determinante det : M2,2 (K) → K gibt, und dass diese ist durch die bekannte Formel (62) gegeben ist. Wir zeigen zunächst die Eindeutigkeit. Sei also det : M2,2 (K) → K eine Determinante und a b A = (v1 | v2 ) = ∈ M2,2 (K). c d Für den ersten Spaltenvektor von A gilt: v1 = a · e1 + c · e2 . Aus der Linearität in der ersten Spalte (Definition 3.3.1 (D1) ) folgt: det(A) = det(a · e1 + c · e2 | v2 ) = a · det(e1 | v2 ) + c · det(e2 | v2 ). (63) Durch Anwenden von (D1)-(D3) erhält man: det(e1 | v2 ) = det(e1 | b · e1 + d · e2 ) = b · det(e1 | e1 ) + d · det(e1 | e2 ) = d · det(E2 ) =d (D1) (D2) (D3) und nach dem gleichen Schema det(e2 | v2 ) = b · det(e2 | e1 ). (64) det(A) = ad + bc · det(e2 | e1 ). (65) Insgesamt erhalten wir: Um den Term det(e2 | e1 ) auszuwerten, betrachten wir den Spezialfall a = b = c = d = 1. Da in diesem Fall die beiden Spalten identisch sind, folgt mit (D2) und (65): 1 1 = 1 + det(e2 | e1 ). 0 = 1 1 Es folgt det(e2 | e1 ) = −1. Für allgemeine a, b, c, d ∈ K folgt nun aus (65) die bekannte Formel a b = ad − bc. det(A) = (66) c d Insbesondere haben wir gezeigt, dass es höchstens eine Determinante det : M2,2 (K) → K geben kann. Der Nachweis der Existenz ist nun leicht: man definiert einfach die Abbildung det : M2,2 (K) → K durch die Formel (66). Dann rechnet man nach, dass diese Abbildung die Bedingungen (D1)-(D3) aus Definition 3.3.1 erfüllt. 87 Satz 3.3.3 Für jeden Körper K und für jedes n ∈ N gibt es genau eine Determinante vom Rang n. Zusätzlich zu den Axiomen (D1)-(D3) erfüllt sie die folgenden Bedingungen. (i) A ∈ Mn,n (K) ist invertierbar genau dann, wenn det(A) 6= 0. (ii) det ist multiplikativ, d.h. det(A · B) = det(A) · det(B). (iii) det ist symmetrisch, d.h. det(At ) = det(A). (iv) det ist linear in den Zeilen. (v) Ist R ⊂ K ein Unterring, so gilt für eine Matrix A ∈ Mn,n (R) mit Einträgen in R: det(A) ∈ R. Beim Berechnen der Determinante führt man also keine Nenner ein. Den Beweis der Existenz einer Determinante stellen wir zunächst zurück (siehe dazu die Bemerkungen 3.3.9 und 3.3.15). Wir werden aber im Laufe dieses Abschnittes die Eindeutigkeit der Determinante und die Eigenschaften (i)-(v) beweisen. Im Folgenden gehen wir davon aus, dass wir für alle n ∈ N eine Determinante det : Mn,n (K) → K zur Verfügung haben. Uns kommt es vor allem darauf an, Determinanten berechnen zu können. Dazu sind die folgenden beiden Propositionen sehr nützlich. Proposition 3.3.4 Sei A = (v1 | . . . | vn ) ∈ Mn,n (K). (i) Für i ∈ {1, . . . , n} und λ ∈ K gilt det(v1 | . . . | λ · vi | . . . | vn ) = λ · det(v1 | . . . | vn ). (ii) Für i, j ∈ {1, . . . , n}, i 6= j, und λ ∈ K gilt: det(v1 | . . . | vi + λ · vj | . . . | vn ) = det(v1 | . . . | vn ). | {z } i (iii) Für 1 ≤ i < j ≤ n gilt: det(v1 | . . . | vj | . . . | vi | . . . | vn ) = − det(v1 | . . . | vn ). |{z} |{z} i j 88 Insbesondere: geht die Matrix B aus der Matrix A durch eine elementare Spaltenoperation hervor, so gilt det(B) = λ · det(A), für ein Skalar λ 6= 0. Für Operationen vom Typ (II) gilt λ = 1, für Operationen vom Typ (III) ist λ = −1. Beweis: Teil (i) ist eine triviale Konsequenz des Axioms (D1). Teil (ii) folgt durch eine Kombination aus (D1) und (D2): det(v1 | . . . | vi + λ · vj | . . . | vn ) | {z } i = det(v1 | . . . | vn ) + λ · det(. . . | vj | . . . | vj | . . .) |{z} |{z} i (D1) j = det(v1 | . . . | vn ). (D2) Zum Beweis von (iii) benutzen wir die folgende Rechnung (die wesentlichen Einträge sind die ite und die jte Spalte; für k 6∈ {i, j} steht in der kten Spalte der Vektor vk ): 0 = det(. . . | vi + vj | . . . | vi + vj | . . .) = det(. . . | vi | . . . | vi + vj | . . .) + det(. . . | vj | . . . | vi + vj | . . .) = det(. . . | vi | . . . | vi | . . .) + det(. . . | vi | . . . | vj | . . .) + det(. . . | vj | . . . | vi | . . .) + det(. . . | vj | . . . | vj | . . .) = det(. . . | vi | . . . | vj | . . .) + det(. . . | vj | . . . | vi | . . .). (D2) (D1) (D1) (D2) Durch Umstellen erhält man (iii). 2 Bemerkung 3.3.5 Gilt in unserem Körper K die Ungleichung −1 6= 1 (was meistens der Fall ist), so kann man in Definition 3.3.1 das Axiom (D2) durch das Axiom (D2’) det(v1 | . . . | vj | . . . | vi | . . . | vn ) = − det(v1 | . . . | vn ) |{z} |{z} i j ersetzen (siehe Proposition 3.3.4 (iii)). Denn aus (D2’) folgt: det(. . . | v | . . . | v | . . .) = − det(. . . | v | . . . | v | . . .) ⇒ 2 · det(. . . | v | . . . | v | . . .) = 0 ⇒ det(. . . | v | . . . | v | . . .) = 0. Die letzte Folgerung gilt aber nur, falls 2 := 1 + 1 6= 0, was äquivalent zu −1 6= 1 ist. 89 Proposition 3.3.6 Ist λ1 0 A= . .. 0 ∗ λ2 ··· ∗ .. . ··· 0 ∗ .. . λn eine obere Dreiecksmatrix mit den Diagonaleinträgen λ1 , . . . , λn , so gilt det(A) = λ1 λ2 · · · λn . Beweis: Angenommen, alle Diagonaleinträge λi sind ungleich Null. Dann hat die Matrix A offenbar vollen Rang und man kann sie durch eine Folge von elementaren Spaltenumformungen in die Einheitsmatrix überführen. Dabei sind nur Operationen vom Typ (I) und (II) erforderlich. Aus Proposition 3.3.4 und Axiom (D3) folgt deshalb det(A) = λ1 · · · λn · det(En ) = λ1 · · · λn . Ist dagegen ein Diagonaleintrag λi gleich Null, so erhält man nach endlich vielen Spaltenumformungen eine Nullspalte. Es folgt det(A) = 0. Die Formel det(A) = λ1 · · · λn stimmt auch in diesem Fall. 2 Als Folgerung aus den obigen Propositionen erhalten wir die Aussage (i) aus Satz 3.3.3. Korollar 3.3.7 Für eine Matrix A ∈ Mn,n (K) gilt: A ist invertierbar genau dann, wenn det(A) 6= 0. Beweis: Die Matrix A läßt sich nach dem Gauss-Algorithmus durch eine Folge von elementaren Spaltenoperationen in eine obere Dreicksmatrix A′ umformen. Aus der Proposition 3.3.4 folgt: det(A′ ) = λ · det(A), für einen Skalar λ 6= 0. Insbesondere ist det(A) 6= 0 genau dann wenn det(A′ ) 6= 0. Andererseits ändert sich der Rang einer Matrix nicht bei Anwenden einer elementaren Spaltenoperation. Es gilt also Rang(A′ ) = Rang(A). Insbesondere ist A genau dann invertierbar, wenn A′ invertierbar ist. Wir brauchen das Korollar also nur noch für obere Dreiecksmatrizen beweisen. Ist A eine obere Dreiecksmatrix, mit Diagonaleinträgen λ1 , . . . , λn , so gilt nach Proposition 3.3.6: det(A) = λ1 · · · λn . 90 Mit dem Gauss-Verfahren sieht man aber: A hat genau dann vollen Rang, wenn alle Diagonaleinträge ungleich Null sind. Damit ist das Korollar bewiesen. 2 Ein ähnliches Argument wie im obigen Beweis liefert einen einfachen Algorithmus zur Berechnung der Determinante einer Matrix A ∈ Mn,n (K): • Man versucht, die Matrix A durch elementare Spaltenumformungen in eine obere Dreiecksmatrix umzuformen (wie beim Gauss-Algorithmus). Bei einer Umformung vom Typ (I) merkt man sich den Faktor λ, bei Umformungen vom Typ (III) merkt man sich den Vorzeichenwechsel (siehe Proposition 3.3.4) . • Erhält man irgendwo eine Nullspalte, so gilt det(A) = 0 (wegen (D1)). • Sonst erhält man nach endlich vielen Schritten eine obere Dreiecksmatrix A′ . Man berechnet det(A′ ) mit Proposition 3.3.6. Multipliziert man das Ergebnis mit dem Produkt der im ersten Schritt angesammelten Faktoren, erhält man det(A). Beispiel 3.3.8 Sei K = Q und 1 A := 2 1 0 1 3 1 . 2 2 Wir berechnen det(A) nach dem obigen Algorithmus: 1 −2 −1 det(A) = 2 −1 −3 1 0 0 −1 −2 1 = − −3 −1 2 0 0 1 5 −2 1 = − 0 −1 2 0 0 1 = 5. (Typ (II)) (Typ (III)) (Typ (II)) (Proposition 3.3.6) Bemerkung 3.3.9 (i) Bei der Berechnung von Determinanten sollte man nach Möglichkeit versuchen, keine überflüssigen Nenner einzuführen. Das ist im Prinzip auch immer möglich (wegen Satz 3.3.3 (v)). (ii) Wegen Satz 3.3.3 (iii), (iv) kann man, anstelle von Spaltenoperationen, auch mit Zeilenoperationen arbeiten. Durch geschicktes Mischen von Zeilen- und Spaltenoperationen kann man sich oft viel Arbeit sparen. (iii) Unser Algorithmus beruht auf den Propositionen 3.3.4 und 3.3.6, die wir ohne Verwendung von Satz 3.3.3 bewiesen haben. Es folgt, dass es 91 höchstens eine Determinante geben kann: wenn es eine Determinante gibt, ist der Wert auf jeder Matrix durch das Endergebnis des Algorithmus eindeutig bestimmt. (iv) Es folgt aber nicht, dass es überhaupt eine Determinante gibt. Das Problem ist, dass wir viele Möglichkeiten haben, die Determinante einer Matrix auszurechnen. Es ist (ohne den Beweis von Satz 3.3.3) nicht klar, dass man auch bei verschiedenen Rechenwegen immer dasselbe Ergebnis erhält. Beispiel 3.3.10 Wir berechnen die Determinante der Matrix A aus Beispiel 3.3.8 mit einem anderen Rechenweg (Zeilenoperationen): 1 0 1 det(A) = 2 3 1 1 2 2 1 0 1 = 0 3 −1 0 2 1 1 0 1 = 0 3 −1 0 0 5/3 =1·3· 5 = 5. 3 Warum ist das Ergebnis dasselbe wie bei der ersten Rechnung? Weil man in beiden Fällen die (eindeutig bestimmte) Determinante derselben Matrix ausrechnet! Nun wollen wir die Eigenschaften (ii) und (iii) aus Satz 3.3.3 zeigen. Die Eigenschaft (iv) folgt dann sofort aus (iii). Proposition 3.3.11 Sei det : Mn,n (K) → K eine Determinante und A, B ∈ Mn,n (K). Dann gilt det(A · B) = det(A) · det(B) (67) und det(At ) = det(A). (68) Beweis: Wir zeigen zunächst die Formel (67) in dem Spezialfall einer Elementarmatrix B (siehe Abschnitt 2.7). Ist z.B. B = Si (λ) die Diagonalmatrix mit dem Eintrag λ ∈ K × in der iten Zeile, so ist die Matrix A′ := A · Si (λ) die Matrix, die aus A durch Multiplikation der iten Spalte mit λ hervorgeht (siehe Bemerkung 2.7.6). Mit Proposition 3.3.4 (i) folgt nun det(A′ ) = λ · det(A). 92 Nun gilt aber auch det(Si (λ)) = λ und deshalb det(A · Si (λ)) = λ · det(A) = det(A) · det(Si (λ)). Die Formel (67) gilt also für B = Si (λ). Mit demselben Argument zeigt man, dass sie auch für die zwei anderen Typen von Elementarmatrizen B = Qji (λ) und B = Pij gilt. Um die Formel (67) allgemein zu beweisen, treffen wir eine Fallunterscheidung. Im ersten Fall betrachten wir eine invertierbare Matrix B. Nach Korollar 2.7.4 ist dann B das Produkt von Elementarmatrizen, B = S1 · S2 · · · Sr . Durch wiederholtes Anwenden der Formel (67) im schon bewiesenen Spezialfall erhält man det(A · B) = det(A · S1 · · · Sr−1 · Sr ) = det(A · S1 · · · Sr−1 ) · det(Sr ) = . . . = det(A) · det(S1 ) · · · det(Sr ). (69) Als Spezialfall von (69) erhält man für A = En : det(B) = det(S1 ) · · · det(Sr ). (70) Aus (69) und (70) zusammen folgt nun die Formel (67) im Fall einer invertierbaren Matrix B. Ist B nicht invertierbar, so gibt es einen Vektor x ∈ K n , x 6= 0, mit B · x = 0 (Satz 2.5.10). Dann gilt aber auch (A · B) · x = A · (B · x) = A · 0 = 0. Also ist nach Satz 2.5.10 auch die Matrix A · B nicht invertierbar. Aus Korollar 3.3.7 folgt nun det(A · B) = 0 = det(A) · det(B). Damit ist die Formel (67) in voller Allgemeinheit bewiesen. Der Beweis von (68) ist sehr ähnlich. Zunächst ist (68) offenbar wahr, wenn A eine Elementarmatrix ist. Ist A eine beliebige invertierbare Matrix, so schreibt man A als Produkt von Elementarmatrizen, A = S1 · · · Sr . Durch Anwenden von (67) und der Regel (A · B)t = B t · At schließt man nun det(At ) = det(Srt · · · S1t ) = det(Srt ) · · · det(S1t ) = det(S1 ) · · · det(Sr ) = det(A). 93 Ist A nicht invertierbar, so ist auch At nicht invertierbar. Aus Korollar 3.3.7 folgt dann det(A) = 0 = det(At ). Nun ist alles gezeigt. 2 Nun wollen wir die Eigenschaft (v) aus Satz 3.3.3 beweisen. Dazu benötigen wir ein Lemma. Lemma 3.3.12 Sei A ∈ Mn,n (K) 1 ∗ ... ∗ 0 A= . B .. 0 Dann gilt det(A) = det(B). eine Matrix der Form , mit B ∈ Mn−1,n−1 (K). Beweis: Wir formen A durch eine Folge von elementaren Spaltenumformungen in eine obere Dreiecksmatrix A′ um. Davon bleibt die erste Spalte unberührt. Die Matrix A′ ist also von der Form 1 ∗ ... ∗ 0 A′ = . , B′ .. 0 wobei B ′ eine obere Dreiecksmatrix ist, die aus B durch eine Folge von elementaren Spaltenoperationen hervorgeht. Aus Proposition 3.3.4 folgt nun det(A′ ) = µ · det(A), det(B ′ ) = µ · det(A). Der entscheidende Punkt ist, dass in beiden Gleichungen derselbe Faktor µ 6= 0 auftaucht. Sind λ2 , . . . , λn ∈ K die Diagonaleinträge von B ′ , so sind λ1 := 1, λ2 , . . . , λn die Diagonaleinträge von A′ . Aus Proposition 3.3.6 folgt nun det(A) = µ−1 · det(A′ ) = µ−1 λ2 · · · λn = µ−1 · det(B ′ ) = det(B). 2 Proposition 3.3.13 Sei A = (ai,j ) ∈ Mn,n (K) eine Matrix, deren Einträge ai,j alle in einem Unterring R ⊂ K liegen. Dann gilt: det(A) ∈ R. Beweis: Wir beweisen die Aussage durch Induktion über die Dimension n ∈ N der Matrix A. Für n = 1 hat die Matrix nur einen Eintrag a ∈ R, es gilt also det(A) = a ∈ R. 94 Nun sei n > 1. Wegen der Linearität in der ersten Spalte gilt det(A) = n X i=1 mit ai,1 · det(Ai,1 ), Ai,1 0 a1,2 .. .. . . 1 a = i,2 . .. .. . 0 an,2 (71) a1,n .. . . . . ai,n . .. . . . . an,n ... Durch (i − 1)-faches Vertauschen zweier Zeilen formt man Ai,1 in eine Matrix der Form 1 ∗ ... ∗ 0 .. A′i,1 . 0 um. Aus Proposition 3.3.4 (iii) und Lemma 3.3.12 folgt det(Ai,1 ) = (−1)i−1 det(A′i,1 ). Die Matrix A′i,1 hat ebenfalls Einträge in dem Ring R und Dimension n − 1. Aus der Induktionshypothese folgt deshalb det(A′i,1 ) ∈ R, für alle i. Aus (71) folgt schließlich det(A) ∈ R. Das war zu zeigen. 2 Bemerkung 3.3.14 Die Formel det(A) = a1,1 det(A′1,1 ) − a2,1 det(A′2,1 ) + . . . + (−1)n−1 an,1 det(A′n,1 ) aus dem Beweis der Proposition 3.3.13 nennt man auch die Entwicklung von det(A) nach der ersten Spalte. Analog erhält man Entwicklungsformeln nach allen Zeilen und Spalten von A. Siehe [Fischer], §3.3.3, Stichwort Entwicklungssatz von Laplace. Bemerkung 3.3.15 Die Entwicklungsformel aus Bemerkung 3.3.14 kann man benutzen, um die Determinante einer (n, n)-Matrix induktiv zu definieren. Kann man dann zusätzlich zeigen, dass die so definierte Determinante die Axiome (D1), (D2), (D3) aus Definition 3.3.1 erfüllt, so hätte man damit die fehlende Existenzaussage des Satzes 3.3.3 bewiesen. Das ist auch möglich, aber gar nicht so einfach. Der Leser möge es versuchen! 95 3.4 Das charakteristische Polynom Definition 3.4.1 Sei K ein Körper und x eine Unbestimmte. Ein (formales) Polynom über K in x ist ein Ausdruck der Form f = an xn + an−1 xn−1 + . . . + a1 x + a0 , mit n ∈ N0 und a0 , . . . , an ∈ K. Die ai heißen die Koeffizienten von f . Der Grad des Polynoms f 6= 0 ist die Zahl deg(f ) := max{ i | ai 6= 0 }. Die Menge aller Polynome über K bezeichnen wir mit K[x]. Ein Polynom f ∈ K[x] ist also gegeben durch eine abbrechende Folge (a0 , a1 , a2 , . . .) ∈ K N0 , ai = 0 ∀i > n wobei die Zahl n von f abhängt und für f 6= 0 als n := deg(f ) gewählt werden kann. Wir können daher die Menge K[x] aller Polynome als ein Untervektorraum von K N0 auffassen. Insbesondere erhalten wir eine Addition + : K[x] × K[x] → K[x], (f, g) 7→ f + g (Addition der Koeffizienten von f und g) und eine Skalarmultiplikation · : K × K[x] → K[x], (λ, f ) 7→ λ · f (Multiplikation aller Koeffizienten von f mit λ). Ein Polynom f ist also dasselbe wie eine Linearkombination der Monome 1, x, x2 , . . . . Anders ausgedrückt: (1, x, x2 , . . .) ist eine (abzählbar unendliche) Basis von K[x]. Zusätzlich existiert auf K[x] auch eine Multiplikation: · : K[x] × K[x] → K[x], Dabei ist f ·g = mit n X i=0 (f, g) 7→ f · g, 2n n X X ck xk . bj xj = ai xi · j=0 ck := k X k=0 ai bk−i . i=0 Insbesondere gilt xi · xj = xi+j . Umgekehrt kann man obige Definition von f · g leicht aus der Regel xi · xj = xi+j durch formales Ausmultiplizieren ableiten. 96 Proposition 3.4.2 Die Menge K[x], zusammen mit den Verknüpfungen + und · , bildet einen kommutativen und nullteilerfreien Ring, mit Nullelement 0 := 0 · 1 + 0 · x + . . . und Einselement 1 := 1 · 1 + 0 · x + . . . . Beweis: Übungsaufgabe. 2 n Sei f = an x + . . . + a0 ∈ K[x] ein Polynom und λ ∈ K. DerWert von f an der Stelle x = λ ist definiert als f (λ) := an λn + . . . + a0 ∈ K. Lemma 3.4.3 Für f, g ∈ K[x] und λ ∈ K gilt: (f · g)(λ) = f (λ) · g(λ). (f + g)(λ) = f (λ) + g(λ), Beweis: Das folgt sofort durch Einsetzen in die Definition und Ausmultiplizieren. 2 Definition 3.4.4 Sei A = (ai,j ) ∈ Mn,n (K) eine quadratische Matrix mit Einträgen in dem Körper K. Dann heißt a1,1 − x a1,2 ··· a1,n a2,1 a2,2 − x · · · a2,n PA := det(A − x · En ) = ∈ K[x] .. .. . .. . . an,1 ··· · · · an,n − x das charakteristische Polynom von A. Diese Definition ist so zu verstehen: die Einträge der Matrix A− x·En liegen in dem Ring K[x]. Da der Ring K[x] kommutativ und nullteilerfrei ist, besitzt er einen Quotientenkörper (siehe Abschnitt 1.2, insbesondere Satz 1.2.24). Die Determinante ist also wohldefiniert und nach Teil (v) von Satz 3.3.3 wieder ein Element von K[x]. Proposition 3.4.5 Sei PA das charakteristische Polynom von A ∈ Mn,n (K). (i) Es gilt PA = an xn + . . . + a0 , mit an = (−1)n 6= 0 und a0 = det(A). Insbesondere gilt deg(PA ) = n. (ii) Für λ ∈ K gilt PA (λ) = det(A − λ · En ). Insbesondere sind die Nullstellen von PA genau die Eigenwerte von A. 97 Beweis: Der Beweis erfolgt durch Induktion über n, nach demselben Muster wie im Beweis von Proposition 3.3.13. Für (ii) verwendet man zusätzlich Lemma 3.4.3. (Man beachte auch, dass die Behauptung a0 = det(A) sofort aus (ii) folgt, indem man λ := 0 setzt.) Die Details sind dem Leser als Übungsaufgabe überlassen. 2 Definition 3.4.6 Zwei Matrizen A, B ∈ Mn,n (K) heißen ähnlich, wenn es eine invertierbare Matrix S ∈ GLn (K) gibt, so dass B = S −1 · A · S. Insbesondere ist eine quadratische Matrix diagonalisierbar genau dann, wenn sie ähnlich zu einer Diagonalmatrix ist. Satz 3.4.7 Ähnliche Matrizen haben dasselbe charakteristische Polynom und insbesondere dieselbe Determinante. Beweis: Sei A ∈ Mn,n (K) und B := S −1 AS, mit S ∈ GLn (K). Wegen S −1 · (A − x · En ) · S = S −1 AS − x · En = B − x · En und der Multiplikativität der Determinante (Satz 3.3.3 (ii)) erhalten wir det(B − x · En ) = det(S −1 ) · det(A − x · En ) · det(S) = det(A − x · En ). 2 Korollar 3.4.8 Sei A eine diagonalisierbare Matrix und λ1 , . . . , λn die Diagonaleinträge einer zu A ähnlichen Matrix. Dann gilt PA = (λ1 − x) · · · (λn − x). Eine weitere, sehr wichtige Konsequenz aus Satz 3.4.7 ist, dass man einem Endomorphismus eines endlich dimensionalen Vektorraumes ein charakteristisches Polynom zuordnen kann. Definition 3.4.9 Sei V ein K-Vektorraum der Dimension n ∈ N und φ : V → V ein K-linearer Endomorphismus. Sei A = MBB (φ) die darstellende Matrix von φ, bezüglich einer beliebigen Basis B. Dann heißt Pφ := PA = det(A − x · En ) ∈ K[x] das charakteristische Polynom von φ. A Die Wohldefiniertheit von φ folgt aus Satz 3.4.7: ist B = MA (φ) die darstel−1 lende Matrix bezüglich einer anderen Basis A, so gilt B = S AS, mit S := TBA . Aus Definition 3.4.9 und Proposition 3.4.5 (ii) folgt sofort, dass die Nullstellen von Pφ genau die Eigenwerte von φ sind. 98 Beispiel 3.4.10 Sei V der Vektorraum aller Folgen (x1 , x2 , . . .) ∈ K N0 , die der linearen Rekursiongleichung xn = c1 xn−1 + . . . + ck xn−k genügt. Sei φ : V → V der durch φ(x1 , x2 , . . .) = (x2 , x3 , . . .) definierte Endomorphismus. Sei B = (v1 , . . . , vk ) die ‘Standardbasis’ von V , d.h. (i) (i) vi = (x1 , x2 , . . .), mit den Anfangswerten (i) xj = ( 1, 0, j = i, j 6= i. Offenbar gilt φ(v1 ) = ck · vk , φ(vi ) = vi−1 + ck−i+1 · vk , für i = 2, . . . , k. Die darstellende Matrix von φ bezüglich B ist also 0 .. Ek−1 A= . . 0 ck ck−1 · · · c1 Durch Induktion über k zeigt man: Pφ = PA = (−1)k (xk − c1 xk−1 − . . . − ck ). Bis auf den konstanten Faktor (−1)k ist Pφ also das schon in §3.1 definierte charakteristische Polynom der Rekursionsgleichung. Im Folgenden betrachten wir, für einen festen K-Vektorraum V , die Menge R := EndK (V ) aller K-linearen Endomorpismen von V . Ist V endlich-dimensional, so können wir V nach Wahl einer Basis mit dem Standardvektorraum K n und R mit dem Matrizenring Mn,n (K) identifizieren. Sind φ, ψ ∈ R, so ist die Summe φ+ψ und das Produkt φ◦ψ folgendermaßen definiert: (φ + ψ)(v) := φ(v) + ψ(v), (φ ◦ ψ)(v) := φ(ψ(v)). Mit den Verknüpfungen + und ◦ ist R ein Ring (im Allgemeinen nichtkommutativ und nicht nullteilerfrei). Außerdem erhalten wir eine Einbettung des 99 Körpers K in den Ring R, indem wir einem Element λ ∈ K den skalaren Endomorphismus λ : V → V, v→ 7 λ·v zuordnen. Genau wie der Matrizenring Mn,n (K) ist R also eine K-Algebra (vergleiche mit Korollar 2.5.6 und Bemerkung 2.5.7 (iii)). Ist φ ∈ R ein Endomorphismus und f = an xn + . . .+ a0 ∈ K[x] ein Polynom, so können wir in f für die Unbestimmte x den ‘Wert’ φ einsetzen: f (φ) := an φn + . . . + a1 φ + a0 ∈ R. Nach Definition gilt für einen Vektor v ∈ V : f (φ)(v) = an φn (v) + . . . + a1 φ(v) + a0 · v. Achtung: der letzte Term in der Summe ist a0 · v und nicht a0 – letzteres würde gar keinen Sinn machen. Lemma 3.4.11 Seien f, g ∈ K[x] und φ ∈ R. Dann gilt: (i) (f + g)(φ) = f (φ) + g(φ), (f · g)(φ) = f (φ)(g(φ)). (ii) Ist v ∈ V ein Eigenvektor von φ ∈ R zum Eigenwert λ, so gilt f (φ)(v) = f (λ) · v. Insbesondere ist v ein Eigenvektor von f (φ). Beweis: Direktes Nachrechnen! 2 Satz 3.4.12 (Cayley-Hamilton) Sei V ein endlich-dimensionaler K-Vektorraum, φ ∈ EndK (V ) und Pφ das charakteristische Polynom. Dann gilt Pφ (φ) = 0. Beweis: Wir werden diesen Satz zunächst nur für diagonalisierbare Endomorphismen beweisen. Den allgemeinen Fall verschieben wir auf das nächste Semester. Sei also φ diagonalisierbar, und (v1 , . . . , vn ) eine Basis aus Eigenvektoren. Sei λi der Eigenwert zu vi . Dann gilt Pφ (λi ) = 0. Wegen Lemma 3.4.11 (ii) haben wir also Pφ (φ)(vi ) = Pφ (λi ) · vi = 0. (72) Da v1 , . . . , vn eine Basis ist, folgt daraus Pφ (φ) = 0. Ein alternativer Beweis von (72) geht so: nach Korollar 3.4.8 gilt für alle i ∈ {1, . . . , n}: Pφ = (λ1 − x) · · · (λn − x) = Pi · (λi − x), 100 wobei Pi := Y (λj − x). j6=i Mit Lemma 3.4.11 (i) folgt nun Pφ (φ)(vi ) = Pi (φ)(λi · vi − φ(vi )) = Pi (φ)(0) = 0. 2 Beispiel 3.4.13 Sei A := 1 −1 ∈ M2,2 (R). 1 1 Das charakteristische Polynom ist PA = x2 − 2x + 2 ∈ R[x]. Einsetzen von A ergibt 0 −2 −2 2 2 0 PA (A) = A2 − 2 · A + 2 · E2 = + + = 0, 2 0 −2 −2 0 2 im Einklang mit Satz 3.4.7. Man beachte aber, dass A nicht diagonalisierbar ist, da PA keine (reellen) Nullstellen hat. Der obige Beweis ist also nicht unmittelbar auf A anwendbar. 3.5 Die komplexen Zahlen Ist eine Matrix oder der Endomorphismus eines endlich-dimensionalen Vektorraumes diagonalisierbar, so zerfällt das charakteristische Polynom in Linearfaktoren, siehe Korollar 3.4.8. Diese Beobachtung liefert eine nichttriviale notwendige Bedingung für Diagonalisierbarkeit. So ist z.B. die Matrix A aus Beispiel 3.2.4 nicht über dem Körper Q diagonalisierbar, da das Polynom PA = x2 − 2 keine rationale Nullstelle besitzt. Geht man aber zu dem größeren Körper R über, so zerfällt das Polynom in zwei verschiedene Linearfaktoren. Deshalb ist A über R diagonalisierbar. Allerdings zerfällt auch über R nicht jedes Polynom in Linearfaktoren. Dazu erinnern wir an die bekannte p-q-Formel: sei f = x2 + p x + q ∈ R[x] ein reelles quadratisches Polynom (es ist keine echte Einschränkung der Allgemeinheit, den führenden Koeffizienten auf 1 zu normalisieren). Dann zerfällt f in Linearfaktoren genau dann, wenn p2 ≥ 4q. Ist dies der Fall, so gilt genauer f = (x − λ)(x − λ′ ), mit r r p p2 p2 p ′ − q, λ =− − − q. λ=− + 2 4 2 4 101 (73) Für p2 = 4q gilt λ = λ′ , sonst sind die beiden Nullstellen verschieden. Im Fall p2 < 4q zerfällt f nicht, da man in dem Körper R keine Wurzel aus einer negativen Zahl ziehen kann. Durch Übergang von R zum Körper der komplexen Zahlen kann man diese Einschränkung überwinden: Definition 3.5.1 Der Körper der komplexen Zahlen ist die Menge C := R2 = { (x, y) | x, y ∈ R }, versehen mit den Verknüpfungen + : C × C → C, (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) (die Addition), und · : C × C → C, (x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) (die Multiplikation). Proposition 3.5.2 (i) C ist (mit den obigen Verknüpfungen) ein kommutativer Ring. (ii) C ist ein Körper. (iii) Die injektive Abbildung R ֒→ C, x 7→ (x, 0) ist ein Ringhomomorphismus. Wir dürfen also R als einen Unterring von C auffassen. Beweis: Zu (i) reicht es, die Ringaxiome (siehe Definition 1.2.9) nachzurechnen. Das ist reine Routine. Man stellt so auch fest, dass (0, 0) das Nullelement und dass (1, 0) das Einselement von C ist. Nun sei (x, y) ∈ C vom Nullelement verschieden. Dann ist das Element x −y , 2 (x, y)−1 := ∈C 2 2 x + y x + y2 ein multiplikatives Inverses von (x, y) ist (man beachte, dass der Nenner wegen (x, y) 6= (0, 0) nicht Null sein kann). Damit ist auch (ii) gezeigt. Die Behauptung (iii) zeigt man ebenfalls durch einfaches Nachrechnen. 2 Wir werden im Folgenden die reellen Zahlen R als Teilmenge der komplexen Zahlen C auffassen, gemäß (iii). Ausserdem setzen wir i := (0, 1) ∈ C. 102 Das Element i heißt die imaginäre Einheit. Es gilt offenbar i2 = −1. (74) Eine beliebige komplexe Zahl kann man auf eindeutige Weise als Linearkombination von 1 und i darstellen, z = (x, y) = x + y · i. (75) Die reellen Zahlen x und y heißen der Real- bzw. der Imaginärteil der komplexen Zahl z, in Zeichen: x = ℜ(z), y = ℑ(z). Stellt man komplexe Zahlen in der Form (75) dar, so ergibt sich das konkrete Rechnen mit ihnen ganz automatisch aus der Gleichung (74). Sind z.B. z1 = x1 + y1 i, z2 = x2 + y2 i zwei komplexe Zahlen, so folgt aus den Ringaxiomen und der Gleichung (74) durch eine kurze Rechnung die Identitäten z1 + z2 = (x1 + x2 ) + (y1 + y2 ) i und z1 · z2 = (x1 + y1 i) · (x2 + y2 i) = (x1 x2 − y1 y2 ) + (x1 y2 + x2 y1 ) i. Diese beiden Identitäten ergeben sich zwar auch aus der Definition 3.5.1. Wir sehen aber durch diese Rechnung, dass die Definition 3.5.1 weniger willkürlich ist, als sie auf den ersten Blick erscheint. Oder anders ausgedrückt: wenn man zu den reellen Zahlen eine Wurzel aus −1 hinzufügen möchte, so stößt man automatisch auf die komplexen Zahlen, wie wir sie hier definiert haben. Geometrische Interpretation Die komplexen Zahlen bilden einen R-Vektorraum der Dimension zwei, mit Basis (1, i). Da diese Basis in gewissem Sinne kanonisch ist,10 ist es sinnvoll und nützlich, die Menge der komplexen Zahlen mit den Punkten bzw. den Vektoren der (Standard)Ebene zu identifizieren: 6 C z =x+yi y i 1 x 10 mit der Einschränkung, dass man i und −i nicht auf natürliche Weise unterscheiden kann 103 Dieses Bild nennt man häufig die komplexe Zahlenebene. In dieser geometrischen Sichtweise entspricht die Addition komplexer Zahlen offenbar der Vektoraddition. Es gibt auch eine geometrische Interpretation der Multiplikation, aber die ist weniger offensichtlich. Um sie herzuleiten, wählen wir eine komplexe Zahl z = x + y i ∈ C und betrachten die Abbildung φz : C → C, w 7→ z · w. Fassen wir die Menge C als Vektorraum über dem Körper R auf, so ist φz ein R-linearer Endomorphismus von C. Da wir eine kanonische Basis (1, i) von C gewählt haben, können wir Rlineare Endomorphismen von C mit ihrer darstellenden Matrix identifizieren; der Endomorphismus φz entspricht dann der reellen Matrix x −y Az = . y x Die Determinante dieser Matrix ist det(Az ) = x2 + y 2 ≥ 0. Wir nennen |z| := p x2 + y 2 den Absolutbetrag von z. Nach dem Satz von Pythagoras ist |z| die Länge von z, aufgefasst als Vektor in der komplexen Zahlenebene. Offenbar ist |z| ≥ 0 und es gilt |z| > 0 genau dann, wenn z 6= 0. Lemma 3.5.3 Im Fall z 6= 0 gibt es eine eindeutig bestimmte relle Zahl α ∈ R mit 0 ≤ α < 2π und x = |z| · cos α, y = |z| · sin α. Beweis: Setze u := x/|z|, v := y/|z|. Dann gilt u2 + v 2 = 1, d.h. der Punkt (u, v) ∈ R2 liegt auf dem Einheitskreis. Aus der Analysis wissen wir, dass es ein eindeutige reelle Zahl in dem halboffenen Intervall [0, 2π) gibt mit u = cos α und v = sin α. 2 Wir nehmen im Folgenden an, dass z 6= 0 und bringen mit dem Lemma die Matrix Az auf die folgende Form: cos α − sin α Az = |z| · . sin α cos α Wir erkenen sofort die Drehmatrix aus Beispiel 2.5.3 wieder. Der durch Az dargestellte Endomorphismus φz ist also die Hintereinanderausführung einer Drehung um den Winkel α und einer Streckung11 um den Faktor |z| > 0. Einen Endomorphismus der Ebene von dieser Form nennt man eine Drehstreckung. 11 im Fall |z| < 1 sollte man eher von einer Stauchung sprechen. 104 Entsprechend erhält man für eine komplexe Zahl z 6= 0 die Darstellung z = |z| · (cos α + i · sin α), (76) mit einer eindeutig bestimmten reellen Zahl α = arg(z), 0 ≤ α < 2π. Man nennt α = arg(z) das Argument von z. Geometrisch ist dies der Winkel zwischen dem durch z gegebenen Vektor der komplexen Ebene und der reellen Zahlengerade. 6 z = x+yi C i sin α α cos α R - Man nennt (76) auch die Darstellung von z 6= 0 in Polarkoordinaten. Die Polarkoordinaten sind besonders günstig, wenn man komplexe Zahlen miteinander multiplizieren möchte. Sind z.B. z = |z|(cos α + i sin α) und w = |w|(cos β + i sin β) zwei von Null verschiedene komplexe Zahlen, so gilt z · w = |z| · |w| · cos(α + β) + i sin(α + β) . (77) Mit anderen Worten: bei der Multiplikation zweier komplexer Zahlen multiplizieren sich die Absolutbeträge und addieren sich die Argumente. Genauer: für z, w ∈ C gilt |z · w| = |z| · |w| (78) und arg(z · w) = ( arg(z) + arg(w), falls arg(z) + arg(w) < 2π, arg(z) + arg(w) − 2π, sonst. (79) Die Gültigkeit der Formel (76) kann man anhand der Additionsgesetze für sin und cos leicht nachrechnen (vergleiche mit der Formel (50) aus Beispiel 2.5.3). Die geometrische Begündung dieser Formel ergibt sich aber auch sofort aus der oben hergeleiteten Tatsache, dass die Multiplikation mit einer komplexen Zahl z eine Drehung um den Winkel arg(z) und eine Streckung um den Faktor |z| bewirkt. Der Nachteil der Polarkoordinaten besteht darin, dass die Addition in ihnen sehr kompliziert wird. 105 Der Fundamentalsatz der Algebra Der folgenden Satz wurde 1799 von C.F. Gauß in seiner Dissertation bewiesen. Er zählt zu den wichtigsten Sätzen der gesamten Mathematik. Satz 3.5.4 (Fundamentalsatz der Algebra) Sei f = an tn + . . . + a0 ∈ C[t] ein Polynom vom Grad n > 0 (d.h. an 6= 0) mit komplexen Koeffizienten. Dann zerfällt f vollständig in Linearfaktoren, d.h. es gibt komplexe Zahlen z1 , . . . , zn ∈ C (nicht notwendigerweise verschieden!), so dass f = an (t − z1 ) · . . . · (t − zn ). Insbesondere besitzt jedes nichtkonstante komplexe Polynom mindestens eine Nullstelle. Auf einen Beweis dieses Satzes verzichten wir und diskutieren statt dessen lieber ein paar Beispiele und Anwendungen. Beispiel 3.5.5 Sei f = t2 + p t + q ∈ R[t] ein normiertes quadratisches Polynom mit reellen Koeffizienten. Dem Satz 3.5.4 zufolge gibt es komplexe Zahlen z1 , z2 ∈ C, so dass f = (t − z1 )(t − z2 ). Das gilt genau dann, wenn z1 + z2 = −p und z1 z2 = q. Im Fall p2 ≥ 4q liefert uns die p-q-Formel die zwei reellen Lösung p p p − p2 − 4q p + p2 − 4q , z2 = . z1 = 2 2 Für p2 < 4q gibt es analog die zwei (verschiedenen!) komplexen Lösungen p p p 4q − p2 4q − p2 p · i, z2 = − · i. (80) z1 = + 2 2 2 2 Mit anderen Worten: die p-q-Formel ist auch im Fall p2 < 4q anwendbar, wenn man nur die Wurzel aus einer negativen reellen Zahl −λ als √ √ (81) −λ := λ · i ∈ C definiert. Man beachte, dass die beiden durch (80) gegebenen komplexen Nullstellen von f denselben Realteil haben und sich ihr Imaginärteil nur durch das Vorzeichen unterscheidet. Dass dies kein Zufall ist, zeigt Teil (iii) der folgenden Proposition 3.5.7. 106 Definition 3.5.6 Sei z = x + yi ∈ C eine komplexe Zahl. Dann heißt z̄ := x − yi ∈ C die komplex Konjugierte von z. Proposition 3.5.7 (i) Eine komplexe Zahl z ∈ C ist genau dann eine reelle Zahl, wenn z̄ = z gilt. (ii) Für z, w ∈ C gilt z + w = z̄ + w̄, z · w = z̄ · w̄. Die Abbildung C → C, z 7→ z̄, ist also ein Ringhomomorphismus. (iii) Für z ∈ C und f ∈ R[t] gilt f (z) = f (z̄). Insbesondere gilt: ist z eine Nullstelle von f , so ist z̄ ebenfalls eine Nullstelle. (Achtung: die Bedingung, dass f reelle Koeffizienten hat, ist wesentlich!) Beweis: (i) ist trivial. (ii) zeigt man durch Nachrechnen. Durch mehrfaches Anwenden von (i) und (ii) erhält man schließlich f (z) = an z n + . . . + a0 = an z̄ n + . . . + a0 = f (z̄). 2 Korollar 3.5.8 Sei f ∈ R[t] ein relles Polynom vom Grad n = deg(f ). Dann besitzt f eine Zerlegung der Form f = an (t − λ1 ) · · · (t − λr ) · g1 · · · gs , mit reellen Zahlen λ1 , . . . , λr und quadratischen Polynomen der Form gi = t2 + pi t + qi ∈ R[t], die keine reelle Nullstelle haben (d.h. p2i < 4qi ). Beweis: Wir führen den Beweis durch Induktion über n. Für n = 0 ist nichts zu zeigen. Also dürfen wir n > 0 annehmen. Nach Satz 3.5.4 zerfällt f über C in Linearfaktoren, f = an (t − z1 ) · . . . · (t − zn ), mit z1 , . . . , zn ∈ C.Sind alle Nullstellen zi reelle Zahlen, ist ebenfalls nicht zu zeigen. Wir dürfen also, ohne Einschränkung der Allgemeinheit, annehmen, dass z1 nicht reell ist. Aus f (z1 ) = 0 und Proposition 3.5.7 folgt f (z̄1 ) = 0. 107 Aber z̄1 6= z1 ; es gibt also einen Index i > 1 mit z̄1 = zi . Wieder dürfen wir annehmen, dass i = 2, also z̄1 = z2 . Nun sei g := (t − z1 )(t − z2 ) = t2 + pt + q. Wegen z̄1 = z2 sind die Koeffizienten von g reelle Zahlen: q = z1 · z̄1 = |z1 |2 . p = −(z1 + z̄1 ) = −2ℜ(z1 ), Durch Polynomdivision (ohne Rest!) zeigt man, dass f1 := f = an (t − z3 ) · · · (t − zn ) g wieder ein Polynom mit reellen Koeffizienten ist. Wegen deg(f1 ) = n − 2 < n können wir auf f1 die Induktionshypothese anwenden. Das Korollar folgt unmittelbar. 2 Bemerkung 3.5.9 Aus dem Korollar folgt sofort: ist f ∈ R[t] ein reelles Polynom vom Grad n = deg(f ) und ist n ungerade, so besitzt f mindestens eine reelle Nullstelle. Diese Aussage kann man allerdings auch leicht ohne den Fundamentalsatz der Algebra beweisen: siehe Beispiel 5.1.15 des Analysisskriptes. Beispiel 3.5.10 Wir betrachten das Polynom f := t5 − 1 ∈ R[t]. Die Nullstellen von f sind genau die komplexen Zahlen z ∈ C mit z5 = 1 (die sogenannten 5ten Einheitswurzeln). Anhand der geometrischen Interpretation der Multiplikation komplexer Zahlen sieht man leicht ein, dass es genau 5 solcher komplexen Zahlen gibt und dass sie die Ecken eines im Einheitskreis eingeschriebenen gleichseitigen Fünfecks bilden. 6 z1 z2 z0 = 1z3 z4 108 Die 5 Nullstellen sind also zk := cos(2πk/5) + i · sin(2πk/5), k = 0, . . . , 4. Insbesondere gilt z1 = 1 und z̄1 = z4 , z̄2 = z3 . Wie in Korollar 3.5.8 erhalten wir die folgende Zerlegung in reelle, irreduzible Polynome: f = t5 − 1 = (t − 1) · g1 · g2 , mit g1 = (t − z1 )(t − z4 ) = t2 − 2 cos(2π/5) t + 1 und g2 = (t − z2 )(t − z3 ) = t2 − 2 cos(4π/ 5) t + 1. Andererseits erhalten wir durch Polynomdivision: g1 · g2 = Wir machen nun den Ansatz t5 − 1 = t4 + t3 + t2 + t + 1. t−1 g1 = t2 + a t + 1, (82) g2 = t2 + b t + 1, mit Unbestimmten a, b. Aus (82) erhält man durch Ausmultiplizieren und Koeffizientenvergleich das (nichtlineare) Gleichungssystem a + b = 1, 2 + ab = 1. Ein kurze Rechnung liefert die Lösung √ 1− 5 , a= 2 b= √ 1+ 5 . 2 (83) Es gibt noch genau eine weitere Lösung, die sich durch Vertauschen von a und b in (83) ergibt. Da aber a = −2 cos(2π/5) negativ und b = −2 cos(4π/5) positiv sein muss, ist (83) die richtige Lösung. Wir haben damit die folgenden Formeln bewiesen: √ √ 5−1 5+1 cos(2π/5) = , cos(4π/5) = − . (84) 4 4 3.6 Orthogonale Matrizen Definition 3.6.1 Sei V = Rn der reelle Standardvektorraum der Dimension n. Das Standardskalarprodukt auf V ist die Abbildung V × V → R, (x, y) 7→ hx, yi, wobei das Produkt zweier Vektoren x = (xi ), y = (yi ) durch die Formel hx, yi := n X i=1 definiert ist. 109 xi yi Bemerkung 3.6.2 Fasst man Elemente von Rn als (n, 1)-Matrizen auf (Spaltenschreibweise!), so kann man das Skalarprodukt auch auf die folgende Weise schreiben: y1 .. t hx, yi = x · y = x1 · · · xn · . yn Proposition 3.6.3 Das Standardskalarprodukt auf V = Rn hat die folgenden Eigenschaften. (i) (Bilinearität) Für x, y, z ∈ V , λ, µ ∈ R gilt hλ · x + µ · y, zi = λhx, zi + µhy, zi und hx, λ · y + µ · zi = λhx, yi + µhx, zi. (ii) (Symmetrie) Für alle x, y ∈ V gilt hx, yi = hy, xi. (iii) (Positive Definitheit) Für alle x ∈ V ist hx, xi ≥ 0; es gilt hx, xi = 0 genau dann, wenn x = 0. Beweis: Offensichtlich. 2 Das Skalarprodukt hat eine einfache geometrische Interpretation. Für einen Vektor x = (xi ) ∈ V heißt q p ||x|| := hx, xi = x21 + . . . + x2n die Norm oder die Länge von x. Für n = 2, 3 ist dies die übliche Länge eines Vektors, d.h. der Abstand zwischen Anfangs- und Endpunkt (Satz des Pythagoras): x2 6 x = (x1 , x2 ) x1 110 - Sind zwei Vektoren x, y 6= 0 gegeben und bezeichnet α ∈ [0, 2π) den Winkel zwischen x, y, so gilt die Formel hx, yi = ||x|| · ||y|| · cos α. Insbesondere gilt hx, yi = 0 für zwei von Null verschiedene Vektoren x, y genau dann, wenn x und y in einem rechten Winkel zueinander liegen (wegen cos α = 0 ⇔ α ∈ {π/2, 3π/2}): K y * α x Definition 3.6.4 (i) Zwei Vektoren x, y ∈ Rn heißen orthogonal, wenn hx, yi = 0; in Zeichen: x ⊥ y. (ii) Eine Orthonormalbasis von V = Rn ist eine Basis B = (v1 , . . . , vn ) mit der Eigenschaft ( 1, i = j, hvi , vj i = δi,j := 0, i 6= j, für alle i, j ∈ {1, . . . , n}. Die Vektoren von B sind also paarweise orthogonal und haben die Länge 1. (iii) Eine Matrix A ∈ Mn,n (R) heißt orthogonal, falls für alle x, y ∈ Rn gilt: hA · x, A · yi = hx, yi. Die Menge aller orthogonalen Matrizen A ∈ Mn.n (R) bezeichnen wir mit On (R). Die enge Beziehung zwischen Orthonormalbasen und orthogonalen Matrizen ergibt sich aus dem folgenden Satz. Satz 3.6.5 Für eine Matrix A ∈ Mn,n (R) sind die folgenden Bedingungen äquivalent. (a) A ist orthogonal. (b) Die Spalten von A bilden eine Orthonormalbasis von Rn . (c) A ist invertierbar, und es gilt At = A−1 . 111 Beweis: Sei E = (e1 , . . . , en ) die Einheitsbasis. Offenbar gilt hei , ej i = δi,j , d.h. E ist eine Orthonormalbasis. Setze vi := A · ei . Dann ist vi die ite Spalte von A, in Zeichen: A = (v1 | · · · | vn ). Angenommen, A ist orthogonal. Dann folgt hvi , vj i = hA · ei , A · ej i = hei , ej i = δi,j . (85) Wir behaupten, dass das System B := (v1 , . . . , vn ) automatisch eine Basis von Rn ist. Aus Dimensionsgründen genügt es, die lineare Unabhängigkeit zu zeigen. P Seien λ1 , . . . , λn ∈ R mit i λi · vi = 0. Unter Ausnutzung der Linearität des Skalarproduktes (Proposition 3.6.3 (i)) und der Formel (85) folgt X X λi hvi , vj i = λj , λi · vi , vj i = 0=h i i für alle j ∈ {1, . . . , n}. Damit haben wir die Implikation (i)⇒(ii) bewiesen. Zum Beweis von (ii)⇒(iii) nehmen wir an, dass B eine Orthonormalbasis ist. Wir schreiben At · A = (ci,j ). Nach Definition der Matrizenmultiplikation ist der Eintrag ci,j das Skalarprodukt der iten Zeile von At mit der jten Spalte von A, also ci,j = hvi , vj i = δi,j . Dies ist gleichbedeutend mit At · A = En . Es gilt also At = A−1 , was zu zeigen war. Zum Schluss zeigen wir (iii)⇒(i). Sei A ∈ Mn,n (R) eine Matrix mit At · A = En und x, y ∈ Rn . Unter Verwendung der Bemerkung 3.6.2 erhalten wir hA · x, A · yi = (A · x)t · (A · y) = xt · (At · A) · y = xt · y = hx, yi, d.h. A ist orthogonal. Damit ist alles gezeigt. 2 Korollar 3.6.6 Ist A ∈ Mn,n (R) orthogonal, so gilt det(A) ∈ {1, −1}. Beweis: Aus At · A = En folgt mit Proposition 3.3.11: 1 = det(En ) = det(A)2 . 2 Bemerkung 3.6.7 Sind A, B ∈ On (R) orthogonale Matrizen, so sind A · B und A−1 ebenfalls orthogonal; dies folgt sofort aus der Definition. Die Matrizenmultiplikation · definiert also eine assoziative Verknüpfung auf der Menge On (R), die ein neutrales Element und inverse Elemente besitzt. Man sagt, dass (On (R), · ) eine Gruppe ist. 112 Im Folgenden wollen wir alle orthogonalen Matrizen der Dimension n = 2, 3 klassifizieren. Satz 3.6.8 Sei A ∈ O2 (R) ein orthogonale Matrix der Dimension zwei. (i) Falls det(A) = 1, so gibt es eine eindeutige reelle Zahl α ∈ [0, 2π) so, dass cos α − sin α A= . sin α cos α (ii) Falls det(A) = −1, so gibt es eine orthogonale Matrix S ∈ O2 (R) mit det(S) = 1 und 1 0 −1 S ·A·S = . 0 −1 Beweis: Wir schreiben x1 y1 = (x | y), A= x2 y2 x1 , x= x2 y1 . y= y2 Die Orthogonalität von A ist gleichbedeutend mit x ⊥ y, ||x|| = ||y|| = 1. Insbesondere gilt x, y 6= 0. Die Bedingung x ⊥ y lautet als Gleichung x1 y1 + x2 y2 = 0. Fasst man diese Gleichung als lineares Gleichungssystem in den Unbestimmten y1 , y2 auf, so hat der Lösungsraum wegen x 6= 0 die Dimension eins; eine Basis des Lösungsraumes ist die Lösung y1 := −x2 , y2 := x1 . Es gibt also eine eindeutig bestimmte relle Zahl λ 6= 0 mit y1 = −λx2 , y2 = λx1 . Die Bedingungen ||x|| = ||y|| = 1 implizieren nun 1 = y12 + y22 = λ2 (x21 + x22 ) = λ2 , also λ = ±1. Nehmen wir also zunächst λ = 1 an. Dann gilt x1 −x2 , A= x2 x1 mit det(A) = x21 + x22 = ||x||2 = 1. Wie in Lemma 3.5.3 zeigen wir, dass es ein eindeutig bestimmtes α ∈ [0, 2π) gibt mit x1 = cos α, x2 = sin α. Der Fall (i) von Satz 3.6.5 ist damit bewiesen. 113 Nun zum Fall λ = −1. Es gilt dann x1 A= x2 x2 . −x1 Das charakteristische Polynom von A, PA = t2 − (x21 + x22 ) = t2 − 1 = (t − 1)(t + 1), hat zwei verschiedene Nullstellen, 1 und −1. Es gibt also eine Basis B = (v, w) von R2 mit A · v = v, A · w = −w. Durch Multiplikation der Vektoren v, w mit dem Kehrwert ihrer Länge kann man erreichen, dass ||v|| = ||w|| = 1. Aus der Orthogonalität von A folgt zusätzlich hv, wi = hA · v, A · wi = hv, −wi = −hv, wi, also hv, wi = 0. Die Basis B ist also eine Orthonormalbasis aus Eigenvektoren. Setzt man S := (v | w) = TEB , so ist S eine orthogonale Matrix, und S −1 AS ist eine Diagonalmatrix mit Diagonaleinträgen 1, −1 ist. Es gilt det(S) = ±1. Im Fall det(S) = −1 kann man durch Ersetzen von v durch −v erreichen, dass det(S) = 1, ohne an den anderen gewünschten Eigenschaften von S etwas zu ändern. Damit ist alles gezeigt. 2 Zur geometrischen Interpretation des soeben bewiesenen Satzes betrachten wir den durch A gegebenen Endomorphismus der Ebene R2 → R2 , z 7→ A · z. Die Orthogonalität von A bedeutet, dass dieser Endomorphimus längen- und winkeltreu ist; einen Endomorphismus mit dieser Eigenschaft nennt man eine Isometrie. Der Satz 3.6.8 liefert eine einfache Klassifizierung aller Isometrien der Euklidischen Ebene, genauer: eine Einteilung in Drehungen und Spiegelungen. Sei A = (x | y) ∈ O2 (R) eine orthogonale Matrix. Die Zeilen x, y von A sind die Bilder der Standardbasisvektoren e1 , e2 , d.h. x = A · e1 , y = A · e2 . Da A orthogonal ist, haben x, y die Länge 1 und stehen senkrecht aufeinander. Wählt man für x einen beliebigen Vektor der Länge 1, so bleiben genau zwei Möglichkeiten für den Vektor y, da die auf x senkrecht stehende Gerade, d.h. der Untervektorraum hxi⊥ := { z ∈ R2 | z ⊥ x } den Einheitskreis in genau zwei Punkten schneidet. 114 6 e2 hxi⊥ ] x z 7→ A · z y Y α e1 - Wir nehmen zunächst an, dass y der Vektor ist, den man erhält wenn man x um den Winkel π/2 gegen den Uhrzeigersinn dreht. Bezeichnet α den Winkel zwischen e1 und x (gegen den Uhrzeigersinn gemessen), so ist der Winkel zwischen e2 und y ebenfalls α. Die Drehung der Ebene um den Winkel α bildet demnach e1 auf x und e2 auf y ab. Sie ist deshalb identisch mit der Abbildung z 7→ A · z. Dies ist der Fall (i) von Satz 3.6.8. Nun betrachten wir den Fall, dass es sich bei y um den Vektor handelt, den man durch Drehung von x um den Winkel π/2 im Uhrzeigersinn erhält. Es ist sofort klar, dass der Endomorphismus z 7→ A · z keine Drehung sein kann. Nun sei cos(α/2) − sin(α/2) v := , w := ∈ R2 . sin(α/2) cos(α/2) Offenbar ist B := (v, w) eine Orthonormalbasis von R2 , die man durch Rotation der Standardbasis (e1 , e2 ) um den Winkel α/2 erhält. Der von v aufgespannte Untervektorraum V := R · v ⊂ R2 ist also die Gerade durch den Nullpunkt, die den Winkel zwischen e1 und x halbiert. V ⊥ = R · wK 6 e2 x V =R·v * α e1 j y 115 Da w senkrecht auf v und y senkrecht auf x steht, sieht man leicht ein, dass V auch den Winkel zwischen e2 und y halbiert. Nun sei φ : R2 → R2 die Spiegelung der Ebene an der Gerade V . Nach Konstruktion gilt dann φ(v) = v und φ(w) = −w. Mit anderen Worten: die darstellende Matrix von φ bezüglich der Basis B ist 1 0 B MB (φ) = . 0 −1 Andererseits führt die im vorhergehenden Absatz beschriebene Eigenschaft von V als Winkelhalbierende durch eine elementargeometrische Überlegung zu den Gleichungen φ(e1 ) = x, φ(e2 ) = y. Es folgt φ(z) = A · z, ∀ z ∈ R2 , d.h. A ist die darstellende Matrix der Spiegelung φ bzgl. der Standardbasis. Insgesamt erhalten wir die Gleichheit 1 0 B B E E A = ME (φ) = TE · MB (φ) · TB = S · · S −1 , 0 −1 mit S := TEB = (v | w). Dies ist genau die Aussage von Satz 3.6.5 im Fall (ii). Wir kommen nun zum Fall n = 3. Satz 3.6.9 Sei A ∈ O3 (R) eine orthogonal Matrix der Dimension 3. Dann gibt es eine orthogonale Matrix S ∈ O3 (R) mit det(S) = 1 und ǫ 0 0 S −1 · A · S = 0 cos α − sin α . 0 sin α cos α Hierbei ist wie üblich α ∈ [0, 2π) und ǫ := det(A) = ±1. Zuerst die geometrische Interpretation. Seien A und S orthogonale Matrizen wie im Satz und B = (v1 , v2 , v3 ) die Orthonormalbasis der Spalten von S. Dann ist v1 ein Eigenvektor von A mit Eigenwert ǫ = ±1; insbesondere ist die von v1 aufgespannte Gerade W := hv1 i ⊂ R3 invariant unter dem Endomorphismus φ : R3 → R3 , x 7→ A · x. Im Fall ǫ = 1 wird W punktweise festgelassen, im Fall ǫ = −1 wird W in sich am Nullpunkt gespiegelt. Der von v2 , v3 aufgespannte Untervektorraum U ist genau das orthogonale Komplement von W , U := hv2 , v3 i = W ⊥ , 116 und ist ebenfalls φ-invariant. Die Einschränkung von φ auf U ist offenbar eine Drehung von U um den Winkel α. Im Fall det(A) = 1 nennen wir deshalb den von der orthogonalen Matrix A dargestellten Endomorphismus φ eine Drehung um die Achse W mit dem Winkel α. Der Vektor v1 heißt der Richtungsvektor der Drehachse. Wir werden später sehen: eine Drehung des R3 ist durch den Richtungsvektor der Drehachse und den Drehwinkel eindeutig bestimmt (das liegt an der Bedingung det(S) = 1). O α K v3 v1 : v2 U = W⊥ W = hv1 i Korollar 3.6.10 Sei φ : R3 → R3 eine Drehung mit Drehwinkel α. Sei A ∈ O3 (R) die darstellende Matrix von φ (bzgl. der Standardbasis). Dann gilt Spur(A) = 1 + 2 cos α. (Zur Erinnerung: die Spur einer quadratischen Matrix ist die Summe der Diagonaleinträge.) Beweis: Die Spur von A tritt als Koeffizient von t2 im charakteristischen Polynom auf, PA = −t3 + Spur(A) t2 + a1 t − det(A). Da ähnliche Matrizen dasselbe charakteristische Polynom haben, folgt aus Satz 3.6.9 Spur(A) = Spur(S −1 AS) = ǫ + 2 cos α. Da A die Matrix einer Drehung ist, gilt ǫ = det(A) = 1. 117 2 Bemerkung 3.6.11 Achtung: in einigen Formelsammlungen findet man das Korollar 3.6.10 auch in der Form Spur(A) − 1 . 2 α = arccos Diese Formel ist aber problematisch, da der Arkuskosinus immer einen Winkel α im Interval [0, π] liefert. Für eine Drehung um einen Winkel α > π liefert die Formel daher nicht das richtige Ergebnis. Dieses Problem hängt mit dem Begriff der Orientierung einer Drehung zusammen, worauf wir am Ende dieses Kapitel noch zurückkommen werden. Nun zum Beweis von Satz 3.6.9. Wir benötigen folgendes Lemma. Lemma 3.6.12 Sei A ∈ On (R) eine orthogonale Matrix und v ∈ Rn ein Eigenvektor von A zum Eigenwert λ ∈ R. Dann gilt: (i) λ ∈ {1, −1}, d.h. A · v = ±v. (ii) Der Untervektorraum U := hvi⊥ := { u ∈ Rn | u ⊥ v = 0 } ⊂ Rn hat Dimension n − 1 und ist A-invariant, d.h. A · u ∈ U, für alle u ∈ U . Beweis: Aus der Orthogonalität von A schließen wir ||v|| = ||A · v|| = ||λ · v|| = |λ| · ||v||. Wegen ||v|| = 6 0 folgt daraus |λ| = 1, also λ = ±1. Zum Beweis von (ii) schreiben wir v = (xi ) und w = (yi ). Der Vektor w liegt dann in W genau dann, wenn x1 y1 + . . . + xn yn = 0. Der Untervektorraum U ⊂ Rn ist also die Lösungsmenge eines homogenen linearen Gleichungssystems mit einer Gleichung, die nicht Null ist. Es folgt dimR (U ) = n − 1. Ist u ∈ U , so folgt ausserdem (unter Verwendung von (i)) 0 = hv, ui = hA · v, A · ui = h±v, A · ui = ±hv, A · ui, also A · u ∈ U . Damit ist alles gezeigt. 2 Beweis: (von Satz 3.6.9) Wir betrachten das charakteristische Polynom von A, PA = −t3 + . . . + ǫ ∈ R[t]. 118 Man beachte, dass ǫ = det(A) = ±1. Da der Grad von PA eine ungerade Zahl ist, besitzt PA mindestens eine reelle Nullstelle λ ∈ R, siehe Bemerkung 3.5.9. Nach Lemma 3.6.12 (i) sind λ = 1 und λ = −1 die einzigen möglichen Nullstellen. Wir behaupten, dass ǫ = det(A) ein Eigenwert von A ist. Zum Beweis der Behauptung nehmen wir an, dass dies nicht der Fall ist; dann wäre −ǫ die einzige reelle Nullstelle von PA . Es sind zunächst zwei Fälle denkbar. Im ersten Fall hätten wir eine Zerlegung PA = −(t + ǫ) · g, g = t2 + b1 t + b0 ∈ R[t], wobei der quadratische Faktor g keine reelle Nullstellen besitzt. Dann sähe die Zerlegung von PA in komplexe Linearfaktoren folgendermassen aus: PA = −(t + ǫ)(t − µ)(t − µ̄), mit einer nichtreellen Zahl µ ∈ C\R. Durch Ausmultplizieren und Vergleich des konstanten Koeffizienten erhalten wir ǫ = −ǫ · µ · µ̄ = −ǫ · |µ|. Wegen |µ| ≥ 0 führt dies zu einen Widerspruch. Also kann höchstens der zweite Fall eintreten, nämlich PA = −(t + ǫ)3 . Wie oben liefert Ausmultiplizieren und Vergleich des konstanten Koeffizienten die unmögliche Gleichung ǫ = −ǫ3 = −ǫ. Damit ist gezeigt, dass ǫ = det(A) ein Eigenwert von A ist. Sei v1 ∈ R3 ein Eigenvektor von A zum Eigenwert ǫ der Länge 1, d.h. mit ||v1 || = 1. Wir betrachten nun den Untervektorraum U := hv1 i⊥ ⊂ R3 . Nach Lemma 3.6.12 (ii) hat U die Dimension 2 und ist A-invariant. Wir wählen nun eine Orthonormalbasis (v2 , v3 ) von U . Nach Konstruktion ist dann B := (v1 , v2 , v3 ) eine Orthonormalbasis von R3 mit A · v1 = ǫ · v1 , A · v2 , A · v3 ∈ U = hv2 , v3 i. Deshalb ist S := TEB = (v1 |v2 |v3 ) eine orthogonale Matrix mit der Eigenschaft ǫ 0 0 , S −1 · A · S = 0 B 0 und einer orthogonalen Matrix B ∈ O2 (R). Aus ǫ = det(A) = ǫ · det(B) 119 folgt ausserdem det(B) = 1. Nach Satz 3.6.8 gilt also cos α − sin α B= sin α cos α für ein gewisses α ∈ [0, 2π). Damit ist fast alles gezeigt, mit der Ausnahme, dass det(S) = ±1 gilt, im Satz aber det(S) = 1 verlangt wird. Man beachte aber, dass es bei der Konstruktion von S bzw. der Orthonormalbasis B = (v1 , v2 , v3 ) nicht auf die Reihenfolge der beiden Vektoren v2 , v3 ankommt – wir haben nur benutzt, dass (v2 , v3 ) eine Orthonormalbasis des Untervektorraumes U = hv1 i⊥ ist. Durch Vertauschen von v2 und v3 dreht sich das Vorzeichen von det(S) um. Wir können also immer erreichen, dass det(S) = 1 gilt. Jetzt ist wirklich alles gezeigt. 2 Orientierung Um die geometrische Interpretation von Satz 3.6.9 abzurunden, müssen wir noch die Bedingung det(S) = 1 verstehen. Dazu ist es hilfreich, zunächst allgemein das Konzept eines orientierten Vektorraumes zu diskutieren. Es sei im Folgenden V ein endlich dimensionaler R-Vektorraum. Wir bezeichnen mit XV die Menge aller Basen von V . Definition 3.6.13 Zwei Basen A, B ∈ XV von V heißen gleichorientiert, in Zeichen A ∼ B, wenn det(TBA ) > 0. Proposition 3.6.14 (i) Die soeben definierte Relation A ∼ B der Gleichorientiertheit ist eine Äquivalenzrelation auf der Menge XV aller Basen von V (siehe Definition 1.2.20). (ii) Es gibt genau zwei verschiedene Äquivalenzklassen, d.h. die Relation zerteilt XV in zwei disjunkte Teilmengen, · XV = XV,1 ∪ XV,2 . Beweis: Sei A ∈ XV eine Basis. Es gilt TAA = En , also det(TAA ) = 1 > 0. Nach Definition ist daher A ∼ A, d.h. die Relation ist reflexiv. Sind A, B ∈ XV gegeben, so gilt TAB = (TBA )−1 (siehe Bemerkung 2.6.3). Aus A ∼ B folgt also wegen det(TBA ) > 0 auch det(TAB ) = 1/ det(TBA ) > 0, und somit B ∼ A. Die Relation ist daher symmetrisch. 120 Nun seinen A, B, C ∈ XV Basen mit A ∼ B und B ∼ C. Aus der Kettenregel (Bemerkung 2.6.3) folgt dann det(TCA ) = det(TCB · TBA ) = det(TCB ) · det(TBA ) > 0, d.h. A ∼ C. Die Relation ist daher transitiv. Wir haben gezeigt, dass die Relation A ∼ B eine Äquivalenzrelation ist. Sei A = (v1 , . . . , vn ) ∈ XV eine beliebige Basis. Dann ist B := (−v1 , v2 , . . . , vn ) ebenfalls eine Basis. Die Basiswechselmatrix ist eine Diagonalmatrix mit Diagonaleinträgen −1, 1, . . . , 1; somit gilt det(TBA ) = −1 < 0. Die Basen A und B sind also nicht gleichorientiert, und es gibt mindestens zwei verschiedene Äquivalenzklassen. Nun sei C eine dritte Basis. Dann gilt entweder A ∼ C oder det(TCA ) < 0. Im letzteren Fall folgt aber aus der Kettenregel det(TCB ) = det(TCA ) · det(TBA )−1 = − det(TCA ) > 0. Es ist also entweder A ∼ C oder B ∼ C. Damit ist alles gezeigt. 2 Definition 3.6.15 Eine Orientierung von V ist eine Äquivalenzklasse von gleichorientierten Basen, also eine Teilmenge von XV der Form XV+ = [A]∼ ⊂ XV . Die Elemente von XV+ heißen positiv orientierte Basen von V (bezüglich der gewählten Orientierung). Beispiel 3.6.16 Sei V := Rn der euklidische Standardvektorraum der Dimension n und E = (e1 , . . . , en ) die Standardbasis. Die Orientierung von V , bezüglich der E positiv orientiert ist, heißt die Standardorientierung von V . Eine Basis B = (v1 , . . . , vn ) von V ist also positiv orientiert genau dann, wenn det(v1 | · · · |vn ) > 0. Proposition 3.6.14 besagt: ein endlichdimensionaler reeller Vektorraum V hat genau zwei mögliche Orientierungen. Wir wollen dies nun in den Fällen n = dimR (V ) = 1, 2, 3 durch geometrische Überlegungen nachvollziehen. Sei zunächst n = 1. Wir stellen uns den Vektorraum V in diesem Fall als eine Gerade vor, auf der wir einen Ursprungspunkt 0 ∈ V gewählt haben. Eine Basis von V besteht einfach aus einem beliebigen Vektor v ∈ V mit v 6= 0. Die Menge V \{0} zerfällt offenbar in zwei Zusammenhangskomponenten, · V \{0} = V + ∪ V − . 121 Diese Zerlegung entspricht gerade den zwei möglichen Orientierungen. Wählen wir ein Element v ∈ V + als den Basisvektor einer orientierten Basis, so liefert ein zweiter Vektor w 6= 0 genau dann eine orientierte Basis, wenn w ebenfalls in V + liegt (denn dann gilt w = λ · v mit λ > 0). Geometrisch gesprochen haben gleichorientierte Vektoren dieselbe Richtung. Eine Orientierung von V entspricht deshalb der Wahl einer Richtung. V− 0 V+ ) v Ein entscheidender Punkt ist, das grundsätzlich keine der zwei möglichen Orientierungen (bzw. Richtungen) von V Vorrang vor der anderen hat. Welche Orientierung/Richtung von V man als ‘natürlich’ empfindet, hängt nämlich vom Blickwinkel ab, von dem aus man die Gerade V betrachtet. Im Fall n = 2 stellen wir uns V als eine Ebene vor, auf der wir einen Ursprungspunkt 0 ∈ V gewählt haben. Im Unterschied zum eindimensionalen Fall zerfällt V \{0} offenbar nicht in zwei Zusammenhangskomponenten, es macht also keinen Sinn, der Ebene V eine ‘Richtung’ zu geben. Die richtige Verallgemeinerung auf den zweidimensionalen Fall ist die Aussage, dass die Menge XV aller Basen von V in zwei ‘Zusammenhangskomponenten’ zerfällt, · XV = XV+ ∪ XV− , nämlich den zwei möglichen Orientierungen. Konkret bedeutet das folgendes: ist eine Basis B = (v1 , v2 ) von V gegeben, so müssen wir eine geometrische Vorschrift haben, nach der wir entscheiden können, ob B positiv orientiert ist (also B ∈ XV+ ) oder nicht. Wir werden im Folgenden zeigen, dass so eine Vorschrift ihrem Wesen nach von unserer Blickrichtung auf die Ebene V abhängt. Mit Blickrichtung meinen wir hier die Position eines Betrachters, der in einem die Ebene V umgebenden dreidimensionalen Raum von außen auf V schaut. (Beispiel: ein(e) Student(in) sitzt am Schreibtisch und betrachtet ein vor ihm/ihr liegendes Übungsblatt.) Wir nehmen also eine Blickrichtung auf V ein. Sei B = (v1 , v2 ) eine Basis von V und W := hv1 i ⊂ V der vom ersten Basisvektor aufgespannte Untervektorraum (eine Gerade). Da v1 und v2 linear unabhängig sind, liegt v2 nicht in W . Das Komplement von W zerfällt offenbar in zwei ‘Hälften’. Außerdem hat die Gerade W durch Wahl des Basisvektors v1 eine vorgegebene Richtung bzw. Orientierung. Wir nennen V + (bzw. V − ) diejenige Hälfte von V \W , die ‘links’ von W (bzw. ‘rechts’ von W ) liegt. Die Einteilung in ‘links’ und ‘rechts’ nimmt dabei ein Beobachter vor, von dessen Standpunkt aus der Richtungsvektor v1 von W nach oben zeigt. 122 W = hv1 i K v2 V v1 V+ V− Wir sagen nun, dass die Basis B = (v1 , v2 ) positiv orientiert ist, wenn der zweite Basisvektor in der linken Hälfte liegt, v2 ∈ V + . Man beachte, dass diese Vereinbarung ganz wesentlich von unserer gewählten Blickrichtung auf V abhängt. Ein Betrachter, der V von der anderen Seite sieht, würde V − als linke Hälfte und V + als rechte Hälfte wahrnehmen. Wir behaupten, dass die Teilmenge XV+ ⊂ XV aller im soeben definierten Sinne positiv orientierter Basen eine Orientierung von V ist. Dazu ist folgendes zu zeigen. Sind B und C Basen von V und ist B positiv orientiert, so gilt: C positiv orientiert ⇔ det(TCB ) > 0. Wir empfehlen dem interessierten Leser, einen Beweis dieser Behauptung als Übungsaufgabe auszuformulieren. 12 Die obige Interpretation der Orientierung einer Ebene ist insofern unbefriedigend, als sie von einem außerhalb der Ebene angenommenen Standpunkt abhängt. In der Mathematik ist man aber bestrebt, geometrische Begriffe vollständig von ‘innen’ heraus zu erkären. Das ist im Fall der Orientierung einer Ebene auch möglich und führt uns zu dem Begriff des Drehsinnes. Wir nehmen an, dass wir eine Orientierung der Ebene V gewählt haben. Wir können dann auch eine orientierte Orthonormalbasis B = (v1 , v2 ) wählen. Wir definieren nun die orientierte Drehung von V um den Winkel α ∈ R als die ∼ Isometrie φα : V → V , die bezüglich B durch die Matrix cos α − sin α Aα = sin α cos α dargestellt wird. Der entscheidende Punkt ist, dass die Drehung φα nur von dem Winkel α und der Orientierung von V abhängt, nicht aber von der gewählten Orthonormalbasis B. Denn wenn B durch eine andere orientierte Orthonormalbasis B ′ 12 Hinweis: man untersuche zunächst die folgenden Spezialfälle (für eine fest gewählte, positiv orientierte Basis B = (v1 , v2 )): • C = (λ · v1 , v2 ), mit λ 6= 0, • C = (v1 , v2 + λ · v1 ), mit λ ∈ R, und • C = (v2 , v1 ). 123 ersetzt wird, müßte man a priori die Matrix Aα durch S −1 · Aα · S ersetzen, ′ wobei S := TBB eine orthogonale Matrix ist. Da aber B und B ′ nach Annahme orientierte Basen sind, gilt det S = 1. Nach Satz 3.6.8 ist S daher selbst eine Drehmatrix und kommutiert mit Aα . Daraus folgt, dass S −1 · Aα · S = Aα und dass φα nicht von der Wahl von B abhängt. Die Definition φα hängt tatsächlich von der gewählten Orientierung von V ab; ändert man die Orientierung, so erhält man statt φα die Drehung φ−1 α = φ−α . Denn ist S eine orthogonale Matrix mit det S = −1 (eine Spiegelung), so gilt S −1 · Aα · S = A−1 α = A−α . Wir sehen: eine Orientierung von V entspricht einem Drehsinn, genauer: einer eindeutigen Unterscheidung zwischen den beiden Drehungen um die Winkel α und −α. Schließlich wollen wir noch den Fall n = 3 diskutieren. Zwar ist uns das räumliche Denken vertraut, aber im Vergleich zum Fall n = 2 sind wir nicht in der Lage, uns einen dreidimensionalen Raum ‘von außen’, also als eingebettet in einen höherdimensionalen Raum vorzustellen. Wie ist es möglich, dass wir uns als Gefangene in drei Dimensionen über eine Orientierung des uns umgebenden Raumes einigen können, die unabhängig von unserem persönlichen Standpunkt ist? Wir können diese Frage nur pragmatisch beantworten, indem wir z.B. die ‘Rechte-Hand-Regel’ benutzen. Die besagt, dass Daumen, Zeigefinger, Mittelfinger (in dieser Reihenfolge) einer rechten Hand einer positiv orientierten Basis B = (v1 , v2 , v3 ) des uns umgebenden Raumes V entsprechen. Nach dieser Regel ist z.B. die im Bild auf Seite 117 dargestellte Basis B = (v1 , v2 , v3 ) positiv orientiert. Wie im oben diskutierten Fall n = 2 entspricht die Wahl einer Orientierung einem Drehsinn des Raumes. Genauer kann man, nach Wahl einer Orientierung und ausgehend von einem Vektor v1 der Länge 1 und einer reellen Zahl α, die orientierte Drehung φα : V → V mit Drehachse v1 und Drehwinkel α definieren. Dazu ergänzt man v1 zu einer orientierten Orthonormalbasis B = (v1 , v2 , v3 ) und definiert φα als die lineare Abbildung mit darstellender Matrix 1 0 0 Aα := 0 cos α − sin α 0 sin α cos α bezüglich B. Mit dem gleichen Argument wie oben zeigt man: φα hängt nur von der Orientierung von V , von der Drehachse v1 und dem Drehwinkel α ab, nicht aber von der Basis B. ändert man die Orientierung (oder ersetzt v1 durch −v1 ), so erhält man φ−1 α = φ−α anstelle von φα . Siehe das Bild auf Seite 117 und die Bemerkung 3.6.11. 124