Friedrich-Schiller-Universität Jena Mathematisches Institut Lineare Algebra – Lehramtsform Regelschule – Sommersemester 2014 Simon King 10. Juli 2014 Inhaltsverzeichnis 1 Einleitung 1 2 Vektorräume 2.1 Die Vektorraumaxiome . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Linearkombinationen, lineare Abhängigkeit . . . . . . . . . . . . . 7 7 10 3 Der Basisbegriff 13 4 Dimension, Untervektorräume 4.1 Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Untervektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 16 17 5 Lineare Abbildungen 5.1 Linearität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Kern; Rangformel . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Isomorphismen . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Abbildungsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Darstellung eines Vektors bezüglich einer Basis . . . . . . 5.4.2 Darstellung einer linearen Abbildung zu gegebenen Basen 5.4.3 Matrixmultiplikation und Verknüpfung von Abbildungen . . . . . . . 20 20 20 21 22 22 24 26 6 Lineare Gleichungssysteme 6.1 Einleitendes Beispiel . . . . . . . . . . . . 6.2 Lineare Gleichungssysteme . . . . . . . . . 6.3 Basislösungen . . . . . . . . . . . . . . . . 6.3.1 Inhomogene Gleichungssysteme . . 6.4 Das Gaußsche Eliminationsverfahren . . . 6.5 Der Gauß–Algorithmus als Matrixprodukt 6.5.1 Elementarmatrizen . . . . . . . . . 6.6 Der Rang einer Matrix . . . . . . . . . . . . . . . . . . . 28 28 30 31 33 35 38 39 42 Determinante Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erste Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Eigenschaften, Produktregel . . . . . . . . . . . . . . . . 46 46 47 49 7 Die 7.1 7.2 7.3 8 Eigenwerte und Eigenvektoren 8.1 Grundbegriffe . . . . . . . . . . . . . . 8.2 Das charakteristische Polynom . . . . . 8.3 Eigenräume sind linear unabhängig . . 8.4 Diagonalisierbarkeit . . . . . . . . . . . 8.5 Mehr zum charakteristischen Polynom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 52 53 54 55 57 9 Anwendungen linearer Algebra 9.1 Die Cramersche Regel . . . . . . . . . 9.1.1 Die Wheatstonesche Messbrücke 9.2 Lineare Codes . . . . . . . . . . . . . . 9.2.1 Der Hamming–Code . . . . . . 9.2.2 Perfekte Codes und Sportwetten ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 59 61 63 65 67 1 Einleitung Ein wichtiger Ansatz in der Mathematik ist die Abstraktion. Der typische Verlauf: • Mustererkennung: Man erkennt, dass die gleichen Rechenregeln in mehreren Problemfeldern auftauchen. • Abstraktion: Man schreibt diese Rechenregeln in einer Sprache hin, die nicht vom jeweiligen Problemfeld abhängt. • Theorieentwicklung: Man entwickelt Methoden und Lösungsansätze mit diesen abstrakten Rechenregeln. Diese Methoden gelten dann gleichzeitig für alle Problemfelder, in denen diese Rechenregeln gelten. • Anwendung: Man wendet diese allgemeine Methoden auf konkrete Problemfelder an. Die Lineare Algebra ist ein gutes Beispiel für diese Vorgehensweise. Die Rechenregeln, um die es in diesem Fall gilt, sind Addition und Skalarmultiplikation, wie man sie bei Vektoren kennt. Analytische Geometrie Vektoren — in der Ebene und im Raum — sind ein wichtiges Hilfsmittel in der Geometrie. Wir setzen Kenntnisse des Vektorbegriffs voraus: • Ein Vektor ist eine Größe, die sowohl eine Länge als auch eine Richtung hat. Ausnahme: Der Nullvektor hat Länge Null und jede Richtung. −→ • Der Vektor AB entspricht der gerichteten Strecke von A nach B — allerdings vergessen wir dabei den konkreten Anfangs- und Endpunkt. Es gilt −→ −−→ AB = CD, falls die Strecken von A nach B und von C nach D die gleiche Länge und die gleiche Richtung haben. Das heißt, falls ABDC ein Parallelogram ist. B −→ AB D A −−→ CD C Vorsicht: Ein Vektor ist nicht dasselbe wie ein „Pfeil“! Ein Pfeil hat zusätzlich zu Länge und Richtung noch feste Anfangs- und Endpunkte. 1 • Die Wahl eines Koordinatensystems hilft, Vektoren darzustellen. Für Punkte A = (1, 2) und B = (3, 1) der Ebene schreibt man −→ 3 1 2 AB = − = , 1 2 −1 eine (1 × 2)-Matrix oder Spaltenvektor . Analog können Vektoren im Raum x als dreizeilige Spaltenvektoren y dargestellt werden. z Um den Vektorbegriff systematisch zu beschreiben, muss man von Translationen (Parallelverschiebung) reden. Es gibt mindestens zwei gültige Sichtweisen. • Man kann vom Begriff des Pfeils ausgehen und sagen, dass zwei Pfeile äquivalent sind, wenn sie durch Parallelverschiebung ineinander über gehen. Das läuft darauf hinaus, dass man Anfangs- und Endpunkt der Pfeile vergisst und nur noch Länge und Richtung betrachtet. Vektoren kann man als Äquivalenzklassen von Pfeilen auffassen, ähnlich wie man rationale Zahlen als Äquivalenzklassen von Brüchen (Äquivalenz gegeben durch Kürzen) auffassen kann. • Im Anschaungsraum gibt es Geraden und Ebenen, und jedem Paar von Punkten ist ihr Abstand zugeordnet. Es gibt Abbildungen, die Geraden stets wieder auf Geraden, Ebenen auf Ebenen abbilden und Abstände erhalten: Drehungen, Spiegelungen, Translationen. Eine Translation (also Parallelverschiebung) ist durch die Verschiebungsrichtung und die Verschiebungsdistanz gegeben. Vektoren kann man also als Translationen auffassen. Addition Vektoren addiert man mit einem Parallelogramm. Physikalische Anwendung: Kräfteparallelogram. u+v u v Vektoren im R2 oder im R3 addiert man komponentenweise: a1 b1 a1 + b 1 a2 + b 2 = a2 + b 2 . a3 b3 a3 + b 3 2 Skalarmultiplikation Mankannauch Vektoren mit Skalaren (d.h. reellen Zah−→ a λa1 len) multiplizieren: λ 1 = ; und λAB ist die Strecke, die |λ|-mal so lang a2 λa2 −→ wie AB ist, und die gleiche bzw. die entgegengesetzte Richtung hat, falls λ > 0 bzw. λ < 0. Wenn man sowohl addieren als auch skalar multiplizieren kann, spricht man von einem „Vektorraum“. Andere Problemfelder Geometrische Vektoren in der Ebene und im Raum sind nicht die einzigen Objekte, die man miteinander addieren und mit Skalaren multiplizieren darf. Matrizen Für festes m, n kann man die Matrizen1 aus Rm×n miteinander addieren, und mit Skalaren multiplizieren. 1 1 1 0 −1 1 1 0 2 + = 2 3 −1 −1 0 2 1 3 1 1 1 1 2 2 2 2 = . 2 3 −1 4 6 −2 Matrizen werden in dieser Vorlesung noch eine große Rolle spielen, da man mit ihnen „strukturerhaltende“ Abbildungen (das sind zum Beispiel „Ähnlichkeitsabbildungen“ in der Geometrie) beschreiben kann. Lineare Gleichungssysteme Lineare Gleichungssysteme kommen in vielen Situationen vor und sind Ihnen sicherlich schon zu Schulzeiten begegnet. Scheid und Schwarz geben in §I.1 Beispiele aus der Metallurgie (Mischung von Stahllegiereungen) und aus der Elektrotechnik (Stromstärke in einem Gleichstromnetz). Hier ist ein einfaches Beispiel aus der Wirtschaft: 1kg Äpfel plus 2kg Birnen plus 1kg Kartoffeln plus 1kg Tomaten kosten zusammen 12,00 e, dagegen bezahlt man 8,00 e für 1kg Äpfel plus 1kg Birnen plus 2kg Kartoffeln, und 5,50 e für 1kg Birnen plus 1kg Tomaten. Was kann man über die Preise der vier Waren sagen? 1 Möglicherweise aus der Schule bekannt 3 Wir bezeichnen die Kilopreise der vier Waren mit A, B, K, T . Es geht um die Lösungen des Gleichungssystems A + 2B + K + T = 12 (I) A + B + 2K = 8 (II) B + T = 5,5 (III) Da wir drei Gleichungen in vier Unbekannten haben, vermuten wir, dass wir die Preise nicht eindeutig bestimmen können. Ziehen wir aber (II) und (III) von (I) ab, erhalten wir −K = −1,5. Somit steht fest, dass 1kg Kartoffeln 1,50 e kostet. Setzen wir jetzt voraus, dass wir den Wert von T kennen. Aus (III) folgt dann B = 5,5 − T . Setzt man diesen Wert in (II) ein, zusammen mit K = 1,5, so erhalten wir auch A = 5 − B = T − 0,5 . Umgekehrt prüft man leicht nach: mit A = T − 0,5 , B = 5,5 − T und K = 1,5 werden alle drei Gleichungen erfüllt. Somit lautet die allgemeine Lösung A T − 0,5 B 5,5 − T = K 1,5 mit 0,5 < T < 5,5, T T A 2 B 3 denn alle Preise sollten positiv sein. Eine Lösung unter vielen ist K = 1,5. T 2,5 Homogene Lineare Gleichungssysteme Im obigen Beispiel bekommt man keine neue Lösungen durch Addition und Skalarmutliplikation, denn das Gleichungssystem ist inhomogen. Zum Beispiel ist 2 4 3 6 2 1,5 = 3 keine Lösung, denn (III) wird nicht erfüllt. Aber ein Weg, um 2,5 5 die allgemeine Lösung eines inhomogen linearen Gleichungssystems zu bestimmen, lautet: • Eine Lösung v des inhomogenen Gleichungssystems finden; • Die Menge U aller Lösungen des homogenen Gleichungssystems finden; • {v + u | u ∈ U } ist die Lösungsmenge des inhomogenen Gleichungssystems. 4 Das homogene Gleichungssytem in unserem Beispiel ist A + 2B + K + T = 0 A + B + 2K = 0 B + T = 0 Bei einem homogenen Gleichungssystem gilt: addiert man zwei Lösungen, so erhält man eine weitere Lösung. Das gleiche gilt für Skalarmultiplikation. Lineare Differenzialgleichungen und Physik In der Schule haben Sie vermutlich gelernt, wie man Funktionen wie Sinus und Cosinus ableitet: sin0 (x) = cos(x) cos0 (x) = − sin(x) In einer Differenzialgleichung sind eine Funktion und ihre Ableitung in eine Beziehung gesetzt. Man erkennt, dass sowohl f (x) = sin(x) als auch f (x) = cos(x) die Gleichung f 00 (x) = −f (x) und daher auch f 0000 (x) = f (x) erfüllen. Vielleicht kennen Sie auch die Exponentialfunktion exp(x) = ex und haben gelernt, dass exp0 (x) = exp(x). Also erfüllt auch f (x) = exp(x) die Differenzialgleichung f 0000 (x) = f (x). Bekanntlich gilt (f + g)0 (x) = f 0 (x) + g 0 (x), und für c ∈ R gilt (c · f )0 (x) = c · f 0 (x). Wenn also f 0000 (x) = f (x) und g 0000 (x) = g(x) und c1 , c2 ∈ R, dann erfüllt auch (c1 · f + c2 · g)(x), also z.B. sin(x) + 3 cos(x) − 12 exp(x), diese Differenzialgleichung. Differenzialgleichungen2 sind ein äußerst wichtiges Hilfsmittel in den meisten exakten Wissenschaften. In der Physik werden viele Wellenphänomene — Oberflächenwellen in Wasser, elektromagnetische Wellen im Vakuum, quantenmechanische Wellenfunktionen — durch homogene lineare Differnzialgleichungen beschrieben. Daher ergibt die Überlagerung zweier Wellen wieder eine Welle. Datenverkehr Möchte man Daten übertragen, so geschieht dies durch so genannte Codes: Jedem Buchstaben wird zum Beispiel eine Folge aus acht Nullen und Einsen zugeordnet und diese dann per Funk übertragen. Dabei kann es zu Übertragungsfehlern kommen. In der Codierungstheorie sucht man nach Möglichkeiten, solche Fehler automatisch zu korrigieren: Wenn ein Fehler auftritt, so sollte das übertragene Wort kein Codewort sein, und die Fehlerkorrektur besteht darin, das falsch übertragene Wort durch das „ähnlichste“ Codewort zu ersetzen. Meist konzentriert man sich hier auf „lineare“ Codes: Die Summe zweier Codewörter (gerechnet in Z/2Z) ist wieder ein Codewort. 2 Bei f 0000 (x) = f (x) handelt es sich um eine homogene lineare Differenzialgleichung 5 Fazit Die lineare Algebra untersucht alle Strukturen, in denen man addieren und skalar multiplizieren kann und ist in den Naturwissenschaften, Informatik und auch in den Wirtschaftswissenschaften unverzichtbar. 6 2 Vektorräume Wie in der Einleitung erklärt wollen wir Strukturen mit „Addition“ und „Skalarmultiplikation“ betrachten. Ein „Skalar“ ist allgemein ein Element eines Körpers (K, +, ·, 0, 1). Die Definition des Begriffs „Körper“ ist bereits aus der Vorlesung „Elemente der Mathematik“ bekannt. Beispiele von Körpern (Q,R,C, Z/pZ für Primzahlen p) sind ebenfalls bereits bekannt. Wir verwenden in dieser Vorlesung generell das Symbol „K“ für den jeweils betrachteten Körper. Sie dürfen sich meistens den Fall K = R vorstellen, auch in den Übungsaufgaben werden wir fast nur reelle Vektorräume betrachten. Um Verwechslungen zu vermeiden, halten wir uns in der Notation an die folgenden Konventionen: • Vektorräume benennen wir mit lateinischen Großbuchstaben, meist aus dem Ende des Alphabets (U , V , W ), oder geben ihre Konstruktion an (R2 , R3 ). • Skalare, also Elemente von K, bezeichnen wir mit griechischen Kleinbuchstaben, meist aus der Mitte des Alphabets (λ, µ, ν), und dann gibt es natürlich die speziellen Elemente 0 und 1. • Vektoren, also Elemente eines Vektorraums, bezeichnen wir mit einem einfach unterstrichenen lateinischen Kleinbuchstaben, meist aus dem Ende des Alphabets (u, v, w). 2.1 Die Vektorraumaxiome Ein Vektorraum liegt dann vor, wenn eine Addition und eine Skalarmultiplikation vorliegen, die sich „wie erwartet“ verhalten. Unsere genauen Erwartungen werden durch die folgenden acht Axiome festgehalten. Definition 2.1 Ein K–Vektorraum besteht aus einer Menge V zuzüglich: • einer (Vektor-)Addition +, so dass (V, +) zu einer abelschen Gruppe wird. Es gilt also: (V1) Kommutativ: u + v = v + u für alle u, v ∈ V (V2) Assoziativ: u + (v + w) = (u + v) + w für alle u, v, w ∈ V (V3) Nullvektor: Es gibt 0 ∈ V derart, dass für jedes v ∈ V gilt v + 0 = v. (V4) Negation: Zu jedem v ∈ V gibt es −v ∈ V mit v + (−v) = 0. • einer Skalarmultiplikation K × V → V , (λ, v) 7→ λv, mit: (V5) Assoziativ: (λµ)v = λ(µv) für alle λ, µ ∈ K und für alle v ∈ V ; (V6) Eins: 1v = v für alle v ∈ V . 7 • Sowohl die Addition in K als auch die Addition in V erfüllen mit der Skalarmultiplikation das Distributivgesetz. Für alle λ, µ ∈ K und u, v ∈ V gelten also: (V7) λ(u + v) = λu + λv (V8) (λ + µ)v = λv + µv . Beachten Sie dabei, dass sowohl die Addition in K als auch die Addition in V mit + bezeichnet werden. Meist besteht aber keine Verwechselungsgefahr. Beispiel 2.2 Hier sind einige Vektorräume: a) Geometrische Vektoren im dreidimensionalen Anschauungsraum. b) Rn , mit komponentenweiser Addition und Skalarmultiplikation, d.h. u1 v1 u1 + v1 v1 λv1 u2 v2 u2 + v2 v2 λv2 + = = λ . . . . . . . . . . . . . . . . un vn un + vn vn λvn c) Die Menge C 0 (R) der stetigen Funktionen f : R → R, mit punktweiser Addition und Skalarmultiplikation, d.h. (f + g)(x) = f (x) + g(x) (λf )(x) = λ · f (x) . d) C, mit der üblichen Addition und Multiplikation, wobei man als Skalare nur reelle Zahlen zulässt: Wir haben im vergangenen Semester die gaußsche Zahlenebene kennen gelernt, in der C als R2 dargestellt wird und sich die Addition komplexer Zahlen als Vektoraddition erweist. e) Die Lösungsmenge eines homogenen linearen Gleichungssystems. f) Der Vektorraum R[X] aller (reellen) Polynome. Der Vektorraum (R[X])≤n aller Polynome von Grad ≤ n, für alle n ∈ N. Zwei pathologische Beispiele Vielleicht sehen Sie ein, dass diese acht Bedingungen gelten sollten, fragen sich aber, ob wirklich alle acht benötigt werden. So könnte man etwa fragen, ob nicht (V4) überflüssig ist, denn durch die Skalarmultiplikation mit −1 ∈ K erhält man (−1)v, das müsste sicherlich −v sein, oder? In der Rechtswissenschaft hat man Schlupflöcher, und in der Mathematik hat man pathologische Beispiele. Hier sind zwei. 8 a) Wir setzen V = R2 ∪{@}, wobei @ ein zusätzliches Element bezeichnet, das nicht schon in R2 enthalten ist. Für die Addition und Skalarmultiplikation ergänzen wir die üblichen Operationen auf R2 durch x x x +@=@+ = @+@=@ λ@ = @ y y y x für alle ∈ R2 , λ ∈ R. Es ist dann etwas mühsam aber nicht schwer, y nachzuweisen, dass (V1), (V2) und (V5)–(V8) weiterhin erfüllt werden. Ferner wird (V3) erfüllt, beachten Sie aber, dass @ der Nullvektor ist, nicht 0 0 . Aber (V4) wird nicht erfüllt, denn es gibt kein v ∈ V mit +v = @. 0 0 Fazit: wir dürfen (V4) doch nicht weglassen. b) Wir setzen V = R2 mit der üblichen Addition, definieren aber dieSkalarx 0 x multiplikation durch λ L = für alle λ ∈ R und alle ∈ R2 . y 0 y Dann gelten alle Axiome außer (V6). Fazit: Auch (V6) kann nicht weggelassen werden. Nach diesen Beispielen kann man sich sogar die umgekehrte Frage stellen: reichen diese acht Axiome aus, oder müssen wir noch weitere Bedingungen stellen? Als Beleg dafür, dass diese acht tatsächlich ausreichen, leiten wir jetzt einige Folgerungen her. Lemma 2.3 Sei V ein K–Vektorraum. a) Es gibt nur einen Nullvektor 0 ∈ V . Ferner ist für jedes v ∈ V der negative Vektor −v eindeutig. b) Für u, v, w ∈ V gelten: ist u + v = u + w dann v = w. c) Es ist 0 · v = 0 = λ · 0 für alle v ∈ V und für alle λ ∈ K. d) Für alle v ∈ V und für alle λ ∈ K gilt (−λ)v = −(λv) = λ(−v). Beweis. a), b): Wurde im vergangenen Semester für jede (nicht nur abelsche) Gruppe bewiesen und wird daher als bekannt vorausgesetzt. c): Es ist λv + 0 = λv = (λ + 0)v = λv + 0v. Also 0v = 0 nach b). Außerdem ist λv + 0 = λv = λ(v + 0) = λv + λ0, daher λ0 = 0. d): λv + (−λ)v = (λ − λ)v = 0v = 0, und λv + λ(−v) = λ(v − v) = λ0 = 0. Lemma 2.4 Sei V ein K–Vektorraum. Erfüllen λ ∈ K und v ∈ V die Gleichung λv = 0, so ist λ = 0 oder v = 0. 9 Beweis. Wir zeigen: Ist λv = 0 aber λ 6=0, dann gilt v = 0. Wegen λ 6= 0 existiert λ1 ∈ K. Dann 0 = λ1 0 = λ1 (λv) = λ1 λ v = 1v = v. Andere Skalare Komplexe Vektorräume (Fall K = C) treten u.a. in der Physik auf. Vektorräume über dem Körper Q der rationalen Zahlen treten in der Zahlentheorie auf; sie werden u.a. dazu verwendet, um die Unlösbarkeit der Würfelverdopplung, der Winkeldreiteilung und der Quadratur des Kreises nachzuweisen. In der Informatik ist der Körper Z/2Z der Restklassen modulo 2 interessant. Bei einem Z/2Z-Vektorraum muss man nur die Addition angeben, die Skalarmultiplikation ist zwingend vorgeschrieben. Zwei Z/2Z-Vektorräume sind: • Alle Bytes (d.h. Folgen von 8 Bits), die Addition ist die Operation XOR. • Die Potenzmenge P(M ) einer Menge M , die Addition ist die symmetrische Differenz 4 von Mengen: A4B := {x | x liegt in genau einer der Mengen A, B} = (A∪B)\(A∩B) . 2.2 Linearkombinationen, lineare Abhängigkeit Definition 2.5 Sei V ein K–Vektorraum, und v 1 , v 2 , . . . , v n Vektoren aus V . Jeder Vektor der Art v = λ1 v 1 + λ2 v 2 + · · · + λn v n , mit λ1 , . . . , λn ∈ K heißt eine Linearkombination von v 1 , v 2 . . . , v n . Beispiel 2.6 1 0 3 a) Jedes v ∈ R ist eine Linearkombination von e1 = 0 , e2 = 1 und 0 0 0 x e3 = 0 , denn y = xe1 + ye2 + ze3 . 1 z 1 0 2 3 0 ist eine b) In V = R sei v 1 = 3 und v 2 = 2 . Der Vektor u = 1 1 −1 1 Linearkombination von v 1 , v 2 , denn u = 2v 1 − 3v 2 . Dagegen ist w = 0 1 , v : wäre nämlich w = λv + µv , dann keine Linearkombination von v 1 2 1 2 λ 1 3λ + 2µ = 0. Ein Komponentenvergleich ergibt λ = 1, λ + µ = 1 λ+µ 1 (weshalb µ = 0) und 3λ + 2µ = 0, weshalb 3 = 0, ein Widerspruch. 10 c) Der Nullvektor 0 ist eine Linearkombination jedes Systems v 1 , v 2 , . . . , v n : man setzt λi = 0 für jedes i. d) Jedes Polynom aus R[X] vom Grad ≤ 2 hat die Gestalt aX 2 + bX + c mit a, b, c ∈ R, ist also eine Linearkombination der Polynome X 2 , X und 1. 1 0 1 1 0 0 1 1 1 0 e) In R4 sei v 1 = , v = , v = , v = und v = 5 1 2 0 3 1 4 0 1. 0 1 0 0 1 1 1 Der Vektor v = 1 hat zwei verschiedene Darstellungen als eine Linear1 kombination von v 1 , v 2 , v 3 , v 4 , v 5 : v = v 1 + v 2 und v = v 4 + v 5 . Somit ist v 1 + v 2 − v 4 − v 5 der Nullvektor. Das heißt, es gibt zwei verschiedene Darstellungen des Nullvektors als eine Linearkombination: die triviale Darstellung 0 = 0v 1 +0v 2 +0v 3 +0v 4 +0v 5 sowie die nichttriviale Darstellung 0 = 1v 1 + 1v 2 + 0v 3 + (−1)v 4 + (−1)v 5 . Lemma 2.7 (und Definition) Für ein System v 1 , v 2 , . . . , v n ∈ V sind die folgenden Aussagen äquivalent: P a) Für jedes v ∈ V gibt es höchstens ein (λ1 , . . . , λn ) ∈ Kn mit v = ni=1 λi v i ; P b) Für jedes (λ1 , . . . , λn ) ∈ Kn gilt: ist ni=1 λi v i = 0, dann λi = 0 für alle i. Gelten diese Bedingungen, so heißt das System v 1 , v 2 , . . . , v n linear unabhängig, ansonsten heißt es linear abhängig. Beweis. b) ⇒ a): Gilt a) nicht, P dann gibt esPein v ∈ V mit mindestens zwei solchen Darstellungen, d.h. v = ni=1 λi v i = ni=1 µi v i , mit (λ1 , . . . , λn ) 6= (µ1 , . . . , µn ). Also gibt es ein i0 mit λi0 6= µi0 . Dann 0=v−v = n X (λi − µi )v i , i=1 und λi − µi 6= 0 für i = i0 , was b) widerspricht. a) ⇒ b): Gilt b) nicht, dann ist v = 0 ein Gegenbeispiel zu a), da 0 = 0v 1 + · · · + 0v n auch. Bemerkung 2.8 (Koeffizientenvergleich) Nach Lemma 2.7.a) gilt: PnWenn ein linear i=1 λi v i = Pn unabhängiges System v 1 , v 2 , . . . , v n ∈ V gegeben ist und µ v mit λ , ..., λ , µ , ..., µ ∈ K, dann folgt λ = µ , λ = µ , ..., λn = µn . 1 n 1 n 1 1 2 2 i=1 i i Diese Schlussfolgerung nennt man Koeffizientenvergleich und ist nur für linear unabhängige Systeme zulässig. 11 1 0 Beispiel 2.9 a) Das System v 1 = 3 , v 2 = 2 ist linear unabhängig 1 1 λ 0 3 in R , denn: ist λv 1 + µv 2 = 0, dann 3λ + 2µ = 0. Komponentenλ+µ 0 vergleich: λ = 0; λ + µ = 0, also µ = 0. 1 Sogar das System v 1 , v 2 , v 3 = 0 ist linear unabhängig: ist λv 1 + µv 2 + 1 λ+ν 0 νv 3 = 0, dann 3λ + 2µ = 0. Komponentenvergleich: λ+µ+ν 0 λ + ν = 0 (I) 3λ + 2µ = 0 (II) λ + µ + ν = 0 (III) . (III) − (I): µ = 0. Aus (II) folgt λ = 0, aus (I) folgt jetzt ν = 0. Also λ = µ = ν = 0. 0 Das System v 1 , v 2 , v 3 , v 4 = 1 dagegen ist nicht linear unabhängig, denn 0 v 1 = v 3 + 3v 4 , das heißt, v 1 zwei verschiedene Darstellungen als Linearkombination von v 1 , v 2 , v 3 , v 4 . Alternativ hätten wir anmerken können, dass 1 · v 1 + 0 · v 2 + (−1) · v 3 + (−3) · v 4 = 0 ist. b) In V = C 0 (R) sind die Funktionen f (x) = 2x, g(x) = 3x und h(x) = x2 linear abhängig, denn 3f − 2g + 0h ist die konstante Funktion mit Wert 0. c) In C 0 (R) sei f (x) = 1, g(x) = x2 und h(x) = ex − 1. Diese drei Funktionen sind linear unabhängig, denn: angenommen es ist λf (x)+µg(x)+νh(x) = 0 für jedes x ∈ R. Wir setzen x = 0 ein und erhalten λ · 1 + µ · 0 + ν · 0 = 0, d.h. λ = 0. Jetzt setzen wir x = 1 und x = −1 ein: µ + ν(e−1 − 1) = 0 (II) µ + ν(e − 1) = 0 (I) (I) − (II): ν(e − e−1 ) = 0, also ν = 0. Aus (I) folgt dann µ = 0. Also λ = µ = ν = 0. 12 3 Der Basisbegriff Wir sahen: Vektoren v 1 , v 2 , . . . , v n sind linear unabhängig, wenn jedes v ∈ V höchstens eine Darstellung als Linearkombination der Vektoren hat. Definition 3.1 Die Vektoren v 1 , v 2 , . . . , v n ∈ V bilden ein Erzeugendensystem von V , wenn jedes v ∈ V mindestens eine Darstellung als Linearkombination von v 1 , v 2 , . . . , v n hat. Eine Basis von V ist ein linear unabhängiges Erzeugendensystem. Das heißt: v 1 , v 2 , . . . , v n ist eine Basis, wenn jedes v ∈ V genau eine Darstellung als Linearkombination von diesen Vektoren hat. Beispiel 3.2 1 1 • 1 , 2 ist kein Erzeugendensystem des R3 : jede Linearkombination 0 1 x 2 y der beiden Vektoren erfüllt x − y + z = 0, aber 1 erfüllt diese z 0 Gleichung nicht. 0 1 1 1 • 1 , 0 , 1 , 1 ist zwar ein Erzeugendensystem des R3 , denn 2 1 2 1 x 0 1 1 1 y = −x 1 − y 0 + (x + z) 1 + (y − z) 1 . z 2 1 2 1 0 1 1 1 Es ist aber keine Basis, denn 1 + 0 + 1 = 2 1. 2 1 1 2 • Sei V der Vektorraum Rn . Für 1 ≤ i ≤ n definieren wir ei ∈ Rn als der 0 .. . 0 Vektor ei = 1, dessen i-te Komponente 1 ist und alle weitere Kompo 0 . .. 0 nenten Null sind. Die Vektoren e1 , e2 , . . . , en bilden dann eine Basis für Rn , die so genannte Standardbasis. Völlig analog wird die Standardbasis des K–Vektorraums Kn definiert, also allgemeiner als nur für K = R. 13 Nachweis, dass es sich um eine Basis handelt: λ1 Pn λ2 Erzeugendensystem: i=1 λi ei = .. , und jedes v ∈ Rn hat diese Form. . λn 0 P 0 Linear unabhängig: Wenn ni=1 λi ei = 0 = .. , so zeigt ein Komponen. 0 tenvergleich, dass λi = 0 für alle i. • Sei U ⊆ R3der Lösungsraum der Gleichung x1 + x2 + x3 = 0. Die Lösungen −1 −1 v 1 = 1 und v 2 = 0 bilden eine Basis für U : Sie sind linear unab0 1 hängig (Komponentenvergleich) und bilden ein Erzeugendensystem von U , x x denn aus y ∈ U folgt x = −y − z und daher y = yv 1 + zv 2 Eine z z 1 0 0 1 . weitere Basis für U besteht aus w1 = und w2 = −1 −1 • Sei V der Raum aller Polynome vom Grad ≤ 3, die eine Nullstelle in x = −1 haben. Drei solche Polynome sind p1 (x) = x + 1 p2 (x) = x2 + x p3 (x) = x3 + x2 . Diese Polynome sind linear unabhängig: Ist λp1 (x) + µp2 (x) + νp3 (x) = 0 für alle x, dann λ = 0 (x = 0 einsetzen), also µp2 (x) + νp3 (x) = 0. Leiten wir diese Gleichung einmal ab und setzen wir dann x = 0 ein, erhalten wir µ = 0, denn p02 (x) = 2x + 1, p03 (x) = 3x2 + 2x. Also νp3 (x) = 0. Setzen wir x = 1 ein so erhalten wir 2ν = 0, weshalb λ = µ = ν = 0. Diese drei Polynome erzeugen auch V , denn: ist q(x) ∈ V , so ist q(x) = ax3 + bx2 + cx + d mit d = c − b + a. Also q(x) = ap3 (x) + (b − a)p2 (x) + (c − b + a)p1 (x). Damit ist p1 , p2 , p3 eine Basis für V . • Der Vektorraum P aller Polynome hat kein (endliches) Erzeugendensystem. Notation 3.3 Ein Vektorraum heißt endlich dimensional, wenn er ein (endliches) Erzeugendensystem hat. Wir werden sehen: Jeder endliche dimensionale Vektorraum V hat eine Basis, und alle Basen von V sind gleich lang. 14 Lemma 3.4 Für n ≥ 1 sei v 1 , . . . , v n ein Erzeugendensystem von V . Die folgenden drei Aussagen sind äquivalent: P a) Es gibt eine lineare Abhängigkeit ni=1 λi v i = 0 mit λn 6= 0; b) v n ist eine Linearkombination von v 1 , . . . , v n−1 ; c) Auch v 1 , . . . , v n−1 ist ein Erzeugendensystem von V . Beweis. c) ⇒ b): Definition von „Erzeugendensystem“. b) ⇒ a): Ist vn = Pn−1 Pn a) ⇒ c): Mit µi = − λλni i=1 λi v i , dann gilt i=1 λi v i = 0 mit λn = −1. Pn−1 Pn ist vP n = i=1 µi v i . Nun sei v ∈ V , also gibt es νi mit v = i=1 νi v i , weshalb n−1 v = i=1 (νi + µi νn )v i . Auswahlsatz Sei v 1 , . . . , v n ein Erzeugendensystem von V . Indem man geeignete Vektoren v i streicht, erhält man eine Basis von V . Zusatz: Sind v 1 , . . . , v r linear unabhängig, so kann man sie bei den Streichungen schonen. Beweis. Ist das Erzeugendensystem linear unabhängig, dann ohne StreichunPn gen fertig. Ansonsten sei i=1 λi v i = 0 eine lineare Abhängigkeit, mit λi 6= 0 für mindestens ein i. Indem wir die v i umnummerieren, erreichen wir, dass λn 6= 0 ist. Nach Lemma 3.4 ist auch v 1 , . . . , v n−1 ein Erzeugendensystem. Jezt wiederholen wir, bis eine Basis vorliegt. Zusatz: sind v 1 , . . . , v r linear unabhängig, dann muss λi 6= 0 sein für mindestens ein i > r. Indem wir dieses v i durch Umnummerieren zu v n machen, werden v 1 , . . . , v r verschont. Existenzsatz Jeder endlich dimensionale Vektorraum hat eine Basis. Beweis. Den Auswahlsatz auf ein Erzeugendensystem anwenden. Basisergänzungssatz Jedes linear unabhängige System v 1 , . . . , v r im endlich dimensionalen Vektorraum V lässt sich zu einer Basis für V fortsetzen. Beweis. Sei w1 , . . . , wm ein Erzeugendensystem für V . Dann ist v 1 , . . . , v r , w1 , . . . , wm auch ein Erzeugendensystem. Nach dem Zusatz zum Auswahlsatz dürfen wir dieses lange Erzeugendensystem zu einer Basis zusammenstreichen, wobei wir ausschließlich Vektoren der Art wj streichen. 15 4 Dimension, Untervektorräume 4.1 Dimension Dimensionssatz Sind v 1 , . . . , v n und w1 , . . . , wm Basen eines endlich dimensionalen Vektorraums V , dann ist m = n. Definition 4.1 Hat V eine Basis v 1 , . . . , v n , so hat V Dimension n. Bezeichnung: dim(V ) = n. Beweis. Da v 1 , . . . , v n eine Pn Basis ist, gibt es für jedes 1 ≤ j ≤ m Skalare wm eine Basis ist, gibt es für λj1 , . . . , λjn ∈ K mit wj = i=1 λji v i . Da w1 , . . . ,P jedes 1 ≤ i ≤ n Skalare µi1 , . . . , µim ∈ K mit v i = m j=1 µij w j . Dann vi = m X j=1 µij wj = m X n X µij λjk v k . j=1 k=1 Pm Pn P Koeffizientenvergleich für v i : m j=1 i=1 µij λji = j=1 µij λji = 1 für jedes i, daher n. Wertet man jetzt wj mit der gleichen Methode aus, erhält man die gleiche Doppelsumme, aber diesmal mit Wert m. Daher m = n. Beispiel dim(Rn ) = n, da e1 , . . . , en eine Basis ist. Korollar 4.2 Sei V ein n-dimensionaler Vektorraum. a) Jedes Erzeugendensystem von V hat Länge ≥ n. Jedes Erzeugendensystem der Länge n ist eine Basis. b) Jedes linear unabhängige System in V hat Länge ≤ n. Jedes linear unabhängige System der Länge n ist eine Basis. Beweis. a): Auswahlsatz: Man kann jedes gegebene Erzeugendensystem zu einer Basis zusammenstreichen, danach beträgt die Länge n. b): Basisergänzungssatz: Man kann jedes gegebene linear unabhängige System zu einer Basis fortsetzen, danach beträgt die Länge n. 1 3 2 , Beispiel Finde eine Basis des R , die aus einigen der Vektoren v 1 = −1 1 0 0 3 1 , v4 = 1 und v 5 = −1 besteht. v2 = 1 , v3 = 1 −2 −1 4 Eigentlich setzt die Aufgabenstellung voraus, dass diese Vektoren ein Erzeugendensystem sind, also Auswahlsatz benutzen. Wegen dim(R3 ) = 3 müssen wir 16 zweimal streichen. Es ist v 1 − v 2 − v 3 = 0 und 3v 2 + 3v 3 − 7v 4 − v 5 = 0, also streichen wir v 1 , v 5 . Fazit: v 2 , v 3 , v 4 sollte eine Basis sein. Zur Kontrolle sollte man entweder zeigen, dass die ursprünglichen Vektoren ein Erzeugendensystem bilden, oder das die verbleibenden drei Vektoren linear unabhängig sind. 1 1 Beispiel Wir setzen v 1 = 0 , v 2 = 1 zu einer Basis des R3 fort. Wegen 2 1 3 dim(R ) = 3 reicht es, einen Vektor v 3 zu finden, derart, dass v 1 , v 2 , v 3 linear unabhängig ist: dann ist v 1 , v 2 , v 3 eine Basis des R3 . Wir rechnen nach, dass v 1 , v 2 , e1 linear unabhängig ist. Daher ist v 1 , v 2 , e1 eine Basis des R3 . Beispiel Der Vektorraum C 0 (R) ist nicht endlich dimensional. Begründung: Betrachten wir die Funktionen πx fn (x) = sin n+1 . 2 P Dann fn (2n ) = 1 und fn (2m ) = 0 für alle m > n. Ist also ni=1 λi fi (x) = 0 für jedes x, dann x = 2n einsetzen: λn = 0. Setzt man also x = 2r ein für alle 1 ≤ r ≤ n, so erhält man λi = 0 für alle i. Hier ist n beliebig groß. Wäre aber C 0 (R) endlich dimensional, dann müsste bei n = dim C 0 (R) < ∞ Schluss sein. 4.2 Untervektorräume Definition 4.3 Sei V ein Vektorraum. Eine Teilmenge U ⊆ V heißt ein Untervektorraum von V , falls gelten: (U1) 0 ∈ U ; (U2) Für alle u, w ∈ U ist auch u + w ∈ U ; (U3) Für alle u ∈ U und alle λ ∈ K ist λu ∈ U . Lemma 4.4 (und Definition) Sei V ein Vektorraum. a) Jeder Untervektorraum U ⊆ V ist selbst ein Vektorraum. b) Eine Teilmenge U ⊆ V ist genau dann ein Untervektorraum, wenn U 6= ∅ und außerdem λu + µv ∈ U für alle λ, µ ∈ K und alle u, w ∈ U . c) Das Erzeugnis hv 1 , . . . , v r i := {v ∈ V | v eine Linearkombination von v 1 , . . . , v r } der Vektoren v 1 , . . . , v r ∈ V ist ein Untervektorraum von V . 17 Beweis. a): (U2) und (U3) sorgen dafür, dass Vektoraddition und Skalarmultiplikation auf U definiert sind und die Ergebnisse stets wieder in U liegen. Wir müssen noch die Gültigkeit der Axiome (V1)–(V8) auf U beweisen. Da Axiome (V1, kommutativ +), (V2, assoziativ +), (V5, assoziativ ·), (V6, Eins), (V7/8, distributiv) auf V gelten, gelten sie auch auf U . Wegen (U1) gilt (V3, Nullvektor) in U . Wir beweisen (V4, Negation) auf U : Nach Lemma 2.3 gilt −u = 1(−u) = (−1)u für alle u ∈ U (sogar für alle u ∈ V ). Wegen (U3) ist (−1)u ∈ U , also auch −u ∈ U , was zu zeigen war. b): „Untervektorraum ⇒ Bedingungen“: U 6= ∅ wegen (U1). Wegen (U3) liegen λu, µv in U . Also λu + µv ∈ U wegen (U2). „Bedingungen ⇒ Untervektorraum“: Wegen U 6= ∅ gibt es ein u0 ∈ U . Dann ist 0 = u0 − u0 = 1u0 + (−1)u0 ein Element von U ; also gilt (U1). Sind u, w ∈ U , dann liegen auch u + w = 1u + 1w und λu = λu + 1 · 0 in U ; also gelten auch (U2) und (U3). P P c):PDas Erzeugnis ist nicht leer,Pdenn 0 = ni=1 0v i . Ist u = ni=1 ai v i und n n w = i=1 bi v i , dann λu + µw = i=1 (λai + µbi )v i . Wegen b) folgt, dass das Erzeugnis ein Untervektorraum von V ist. Beispiele a) Die Lösungsmenge des linearen Gleichungssystems x1 + x2 − 3x3 − x4 = x2 + 5x4 = 0 ist ein Untervektorraum des R4 . b) Die Menge R[X]≤5 aller Polynome vom Grad höchstens 5 ist ein Untervektorraum des Vektorraums aller Polynome. Die Menge aller Polynome vom Grad 5, die außerdem eine Nullstelle in x = 2 haben, ist widerum ein Untervektorraum von R[X]≤5 . c) Die Menge aller reellen Folgen (an )n≥1 ist ein reller Vektorraum, mit komponentenweise Addition und Skalarmultiplikation: (an )n≥1 + (bn )n≥1 = (an + bn )n≥1 λ · (an )n≥1 = (λan )n≥1 . Aufgrund der Grenzwertsätze (siehe Analysis) ist die Menge aller konvergenten Folgen ein Untervektorraum dieses Vektorrraums. Satz 4.5 Sei V ein endlich dimensionaler Vektorraum und U ⊆ V ein Untervektorraum. Dann dim(U ) ≤ dim(V ); und aus dim(U ) = dim(V ) folgt U = V . Beweis. Sei n = dim(V ), und sei u1 , . . . , ur linear unabhängig in U . Nach Korollar 4.2 b) für V ist r ≤ n. Daher dürfen wir r so groß wie möglich nehmen. In 18 diesem Fall ist u1 , . . . , ur auch ein Erzeugendensystem für U (denn man könnte es nach dem Ergänzungssatz zu einer Basis ergänzen, aber da es bereits maximal ist, kann man es nicht weiter zu einem linear unabhängigen System in U ergänzen), und daher eine Basis von U . Also dim(U ) = r ≤ n. Ist r = n, dann ist u1 , . . . , ur eine Basis von V , nach Korollar 4.2, also U = V . 2 −2 2 −1 1 −2 , v 2 = 1 und v 3 = 0 eine 1 Beispiel Man zeige, dass v 1 = 0 1 1 0 1 −1 Basis des folgenden Lösungsraums U bilden: x 1 x 2 x − 2x + x + 3x = 0 1 3 4 5 5 U = x3 ∈ R . x + x − x + x + x = 0 1 2 3 4 5 x4 x5 Lösung: Man rechnet leicht nach, dass die drei Vektoren in U liegen. Ferner sind sie linear unabhängig: ist λv 1 + µv 2 + νv 3 = 0, dann λ = µ = ν = 0 (Komponentenvergleich für die 3., 4. und 5. Komponenten). Sei W ⊆ U das Erzeugnis hv 1 , v 2 , v 3 i. Dann ist v 1 , v 2 , v 3 eine Basis für W , weshalb dim(W ) = 3. Wir werden zeigen: es ist dim(U ) = 3. Nach Satz 4.5 folgt dann W = U , und wir sind fertig. Nach Satz 4.5 bedeutet W ⊆ U , dass dim(U ) ≥ 3 ist. Sei T ⊆ R5 der 5 Lösungsraum der Gleichung x1 − 2x3 + x4 + 3x5 = 0. Dann U ⊆ T ⊆ R . 1 0 5 5 Nun, e1 = 0 liegt in R aber nicht in T . Also T ( R . Aus Satz 4.5 folgt 0 0 0 1 dim(T ) < dim(R5 ) = 5, d.h. dim(T ) ≤ 4. Ferner liegt e2 = 0 in T aber nicht 0 0 in U . Also dim(U ) < dim(T ), woraus folgt dim(U ) ≤ 3. Also dim(U ) = 3, wie erwünscht. 19 5 Lineare Abbildungen 5.1 Linearität Definition 5.1 Seien V, W Vektorräume. Eine Abbildung f : V → W heißt linear, falls für alle v, w ∈ V und für alle λ ∈ R gelten f (v + w) = f (v) + f (w) Beispiele f (λv) = λf (v) . y x a) f : R2 → R3 , f = x − 3y ist linear. y 2x + y b) Die erste Ableitung D : R[X]≤n → R[X]≤n−1 , f (x) 7→ f 0 (x) ist linear. c) Für a ∈ R ist die Auswerteabbildung Φa : C 0 (R) → R, Φa (f ) = f (a) linear. d) Für eine Gerade G durch 0 ist die senkrechte Projektion π : R2 → G linear. Lemma 5.2 a) f : V → W linear ⇔ ∀ v, w ∈ V, ∀λ, µ ∈ K : f (λv + µw) = λf (v) + µf (w) . b) Ist f linear, dann f (0) = 0. c) Mit f : V → W und g : W → U ist auch g ◦ f : V → U linear. Auch die Identitätsabbildung IdV : V → V , v 7→ v ist linear. Beweis. a): Nach der Definition ist f (λv+µw) = f (λv)+f (µw) = λf (v)+µf (w). Nach der Umformulierung ist f (v + w) = f (1v + 1w) = 1f (v) + 1f (w) = f (v) + f (w), und f (λv) = f (λv + 0v) = λf (v) + 0f (v) = λf (v). b): f (0) = f (0 · 0) = 0f (0) = 0. c): Es ist g(f (λv + µw)) = g(λf (v) + µf (w)) = λg(f (v)) + µg(f (w)). 5.2 Kern; Rangformel Definition 5.3 Sei f : V → W linear. Man setzt Kern(f ) = {v ∈ V | f (v) = 0}. Lemma 5.4 Kern(f ) ist ein Untervektorraum von V , und Bild(f ) ist ein Untervektorraum von W . Es ist f injektiv ⇐⇒ Kern(f ) = {0}. Beweis. Wegen f (0) = 0 ist 0 ∈ Kern(f ) und 0 ∈ Bild(f ). Sind v 1 , v 2 im Kern, dann f (λ1 v 1 + λ2 v 2 ) = λ1 f (v 1 ) + λ2 f (v 2 ) = λ1 · 0 + λ2 · 0 = 0, und 20 folglich λ1 v 1 + λ2 v 2 ∈ Kern(f ). Liegen w1 , w2 im Bild, so gibt es v 1 , v 2 ∈ V mit f (v 1 ) = w1 , f (v 2 ) = w2 . Dann gilt f (λ1 v 1 + λ2 v 2 ) = λ1 f (v 1 ) + λ2 f (v 2 ) = λ1 w1 + λ2 w2 , also λ1 w1 + λ2 w2 ∈ Bild(f ). Also sind Kern und Bild Untervektoräume. Ist f injektiv, dann für v ∈ Kern(f ) ist f (v) = 0 = f (0), also v = 0. Ist Kern(f ) = {0} und f (v 1 ) = f (v 2 ), dann f (v 2 − v 1 ) = 0, also v 2 − v 1 ∈ Kern(f ) = {0}, und v 1 = v 2 . Bezeichnung Rang(f ) = dim Bild(f ). Rangformel Ist V endlich dimensional und f : V → W linear, dann gilt dim(V ) = Rang(f ) + dim Kern(f ) . Beweis. Sei v 1 , . . . , v r eine Basis von Kern(f ). Basisergänzungssatz: es gibt eine Fortsetzung zu einer Basis v 1 , . . . , v n des V . Für 1 ≤ i ≤ n − r setze wi = f (v r+i ). Wegen n = dim(V ) und r = dim Kern(f ) reicht es zu zeigen, dass w1 , . . . , wn−r eine Basis von Bild(f ) ist. Pn−r Linear unabhängig: Wenn man λP K wählt mit P 1 , ..., λn−r ∈ i=1 λi w i = 0, Pn−r n−r n−r dann ist 0 = i=1 λi f (v i+r ) = f i=1 λi v i+r . Das bedeutet i=1 λi v r+i ∈ Kern(f ). Weil v 1 , . . . , v r eine Basis von Kern(f ) ist, gibt es µ1 , ..., µr ∈ K mit n−r X λi v r+i = i=1 r X µi v i . i=1 Weil v 1 , . . . , v n lineare unabhängig ist, ist ein Koeffizientenvergleich möglich: Die Basisvektoren v r+1 , ..., v n treten nur in der linken, aber nicht in der rechten Linearkombination auf, also ist λi = 0 für alle i, was zu zeigen war. Erzeugendensystem: Für w ∈ Bild(f ) gibt es v ∈ V mit w = f (v). Dann Pn P v = i=1 λi v i , also w = n−r i=1 λr+i w i . 5.3 Isomorphismen Definition 5.5 Eine bijektive lineare Abbildung heißt ein Isomorphismus. Beispiel 5.6 Sei U ⊆ R3 der Lösungsraum der Gleichung x1 + x2 + x3 = 0. Die a a Abbildung f : R2 → U , f = b − a ist ein Isomorphismus. b −b Lemma 5.7 Ist f : V → W ein Isomorphismus, dann ist die Umkehrabbildung f −1 : W → V auch ein Isomorphismus. 21 Beweis. Bekanntlich ist mit f auch f −1 bijektiv. Linear: Sei c, d ∈ W und λ, µ ∈ K. Setze a = f −1 (c), b = f −1 (d). Dann f (λa + µb) = λf (a) + µf (b) = λc + µd, also f −1 (λc + µd) = λa + µb = λf −1 (c) + µf −1 (d). Bezeichnung Gibt es einen Isomorphismus f : V → W , so heißen V, W isomorph. Bezeichnung: V ∼ = W . Zusammen mit Lemma 5.2 c) bedeutet Lemma 5.7, dass Isomorphie eine Äquivalenzrelation ist. 5.4 Abbildungsmatrizen Wenn eine Basis eines Vektorraums V vorgegeben ist, so lässt sich jedes Element von V auf genau eine Art als Linearkombination von Basisvektoren schreiben. In diesem Abschnitt zeigen wir, wie man eine lineare Abbildung f : V → W in sehr praktischer Weise hinschreiben kann, wenn man Basen von V und von W wählt. Wir werden sehen, wie in dieser Darstellungsart die Verknüpfung linearer Abbildungen aussieht und wie die Darstellung von Vektoren und linearen Abbildungen von der Wahl der Basen abhängt. 5.4.1 Darstellung eines Vektors bezüglich einer Basis Es sei B = (b1 , ..., bn ) eine Basis eines endlich-dimensionalen Vektorraums V . Da es auf die Reihenfolge der Basisvektoren ankommt, schreiben wir B als Tupel, nicht als Menge. Gemäß Definition 3.1 lässt sich jedes Element auf eindeutige Weise als Linearkombination der b1 , ..., bn schreiben: ∀x ∈ V : ∃!x1 , ..., xn ∈ K : x = n X x i · bi i=1 Definition 5.8 (und Notation) Es sei x ∈ V . Die Darstellung von x bezüglich x1 P .. B ist der Spaltenvektor . mit x1 , ..., xn ∈ K und x = ni=1 xi ·bi . Wir notieren xn B ihn als x und seinen i-ten Eintrag (i = 1, ..., n) notieren wir als B xi ∈ K. P Es gilt also x = ni=1 B xi bi . Man beachte, dass B xi ein Skalar ist (der i-te Eintrag eines Spaltenvektors), nämlich der Koeffizient von bi in einer Linearkombination mit Wert x. Wir haben schon vorher Elemente von Rn als Spaltenvektoren geschrieben. Daher kann an dieser Stelle leicht Verwirrung entstehen. Man muss sich bewusst sein, dass die Schreibweise eines Vektors als Spaltenvektor nur einen Sinn ergibt, wenn man gleichzeitig weiß, welche Basis verwendet wird: 22 a) Ein und derselbe Vektor hat bezüglich unterschiedlicher Basen auch unterschiedliche Darstellungen als Spaltenvektor. b) Ein und derselbe Spaltenvektor stellt für unterschiedliche Basen unterschiedliche Vektoren dar. 2 Wenn wir ab jetzt z. Bsp. v = ∈ R2 schreiben, so ist damit gemeint, dass −1 v derjenige Vektor ist, der bezüglich der Standardbasis die gegebene Darstellung als Spaltenvektor hat. Für jede andere Basis B würden wir stattdessen schreiben: . „Es sei v ∈ R2 gegeben durch B v = .. .“ Beispiel 5.9 B1 = (1, X, X 2 ) ist eine Basis von R[X]≤2 . Auch B2 = (1, X + 2 1, X 2 − X − 1) ist eine Basis von R[X]≤3 . Das Polynom p = X + X hat bezüglich 0 B1 die Darstellung B1 p = 1, denn p = 0 · 1 + 1 · X + 1 · X 2 , hat aber bezüglich 1 −1 B2 die Darstellung B2 p = 2 , denn p = −1 · 1 + 2 · (X + 1) + 1 · (X 2 − X − 1). 1 Beobachtung 5.10 Es seien v, w ∈ V , λ, µ ∈ K und es sei B = (b1 , ..., bn ) eine Basis von V . Dann gilt B (λv + µw) = λ B v + µ B w. P B Nach Definition von B v und w gilt: v =P ni=1 B v i bi und w = P PnBeweis. n B n B B i=1 v i bi + µ P i=1 w i bi , und durch i=1 w i bi . Daraus folgt λv + µw = λ Zusammenfassen der Summanden wird daraus λv+µw = ni=1 λ B v i + µ B wi bi . Also ist B (λv + µw)i = λ B v i + µ B wi für alle i = 1, ..., n, was zu zeigen war. 2 −1 Beispiel 5.11 Es seien v 1 = , v2 = ∈ R2 . Dann ist B = (v 1 , v 2 ) eine 0 1 Basis des R2 . Die Standardbasisvektoren haben bezüglich B die Darstellung 1 1 B B 2 e1 = e2 = 2 0 1 Wenn ein Vektor v ∈ R2 durch seine Darstellung bezüglich der Standardbasis gegeben ist, kann man dann leicht seine Darstellung bezüglich B ausrechnen. So −7 ist zum Beispiel v = gleichbedeutend mit v = (−7) · e1 + 3 · e2 , und daraus 3 −7 3 −2 B B B folgt v = (−7) · e1 + 3 · e2 = 2 + 2 = . 0 3 3 23 5.4.2 Darstellung einer linearen Abbildung zu gegebenen Basen Wir werden lineare Abbildungen durch Matrizen darstellen. Das sind rechteckige Schemate mit Einträgen aus K. Die Grundidee ist, dass eine lineare Abbildung bereits dadurch festgelegt ist, wie die Elemente einer Basis abgebildet werden, und dass die Bilder der Basiselemente beliebig sein können. Lemma 5.12 Es seien V , W zwei Vektorräume, und es sei B = (b1 , ..., bn ) eine Basis von V . Ferner seien w1 , ..., wn ∈ W vorgegeben.3 Dann gibt es genau eine lineare Abbildung f : V → W mit f (bi ) = wi für alle i = 1, ..., n. Beweis. P Wir beweisen zunächst die Eindeutigkeit. Für jeden Vektor x ∈ V gilt x = ni=1 B xi bi . Wenn f : V → W eine lineare Abbildung ist, so gilt daher ! n X B f (x) = f x i bi i=1 = n X B xi · f (bi ) wegen Lemma 5.2.a). i=1 Sobald man also f (b1 ), ..., f (bn ) kennt, kann man f (x) für jedes x ∈ V ausrechnen. Wir beweisen nun die Existenz. dem eben gesagten muss f : V → W PnNach B so definiert werden, dass f (x) = i=1 xi · wi . Es bleibt zu zeigen, dass die so definierte Abbildung stets linear ist. Für alle x, y ∈ V und alle λ, µ ∈ K gilt f (λx + µy) = = n X B i=1 n X (λx + µy)i · wi λ B xi + µ B y i · w i gemäß Beobachtung 5.10 i=1 = =λ n X ! B xi · w i +µ n X ! B y i · wi i=1 i=1 = λf (x) + µf (y) Nach Lemma 5.2.a) folgt, dass f tatsächlich linear ist. Definition 5.13 Seien m, n ∈ N>0 . Eine (m × n)-Matrix A besteht aus m · n Elementen von K, aufgestellt in m Zeilen und n Spalten. Wir schreiben Km×n für die Menge aller (m × n)-Matrizen. Für 1 ≤ i ≤ m und 1 ≤ j ≤ n, so schreibt man Ai,j für den Eintrag von A an der Stelle (i, j), d.h. in der i-ten Zeile und der j-ten Spalte. Ist m = n, so heißt A quadratisch. Wir schreiben Mn (K) = Kn×n . 3 Wir stellen keinerlei Bedingung an die w1 , ..., wn ! 24 Beispiel 5.14 (und Definition) 1 3 7 4 • Für A = 3 1 2 9 ∈ R3×4 ist A3,2 = 0 und A1,4 = 4. 8 0 7 3 1 3 2 1 1 • Zwei quadratische Matrizen: ∈ M2 (R) und 3 2 4 ∈ M3 (R). 1 0 0 1 0 1 • Ein Spaltenvektor ist eine (m × 1)-Matrix, etwa 1 ∈ R3×1 . 2 ( 1 i=j • Die Einheitsmatrix En ∈ Mn (R) ist gegeben durch (En )i,j = . 0 sonst 1 0 0 1 0 Also E2 = und E3 = 0 1 0. 0 1 0 0 1 Definition 5.15 (und Notation) Es seien V , W endlich-dimensionale Vektorräume, es sei B = (b1 , ..., bn ) eine Basis von V und C eine Basis von W , m = dim(W ). Die Darstellungsmatrix bezüglich B, C einer linearen Abbildung f: V → m×n C C (i = 1, ..., m, ) W ist die Matrix C f ∈ K mit den Einträgen f = f (b j i B B i,j j = 1, ..., n). Mit anderen Worten, die j-te Spalte der Matrix ist gegeben durch die Darstellung von f (bj ) bezüglich C. Lemma 5.16 (und Notation) Es sei V ein n-dimensionaler Vektorraum mit Basis B und W ein m-dimensionaler Vektorraum mit Basis C. Zu jeder (m × n)Matrix M ∈ Km×n gibt es genau eine lineare Abbildung f : V → W mit C Bf = M . m×n n m Für M ∈ K bezeichnet LM : K → K diejenige lineare Abbildung, die bezüglich der Standardbasen von Kn und Km die Darstellungsmatrix M hat. Beweis. Das ist eine unmittelbare Folge von Lemma 5.12 Beispiel 5.17 B = (1, X, X 2 ) ist eine Basis von R[X]≤2 und C = (1, X, X 2 , X 3 ) ist eine Basis von R[X]≤3 . Die Abbildung f: R[X]≤2→ R[X]≤3 mit f (p) = 2 0 0 1 2 0. p · (X + 2) hat die Darstellungsmatrix C Bf = 0 1 2 0 0 1 25 5.4.3 Matrixmultiplikation und Verknüpfung von Abbildungen Mit Hilfe von Darstellungsmatrizen kann man sehr bequem das Bild eines gegebenen Vektors unter einer linearen Abbildung ausrechnen, und man kann die Verknüpfung von linearen Abbildungen leicht berechnen. Lemma 5.18 Es sei V ein Vektorraum mit Basis B = (b1 , ..., bn ) und W ein m-dimensionaler Vektorraum mit Basis C. Für alle v ∈ V und alle linearen Abbildungen f : V → W gilt: C (f (v))i = n X C B fi,j · B vj j=1 für alle i = 1, ..., m. P P Beweis. Es ist v = nj=1 B v j · bj , also C (f (v))i = nj=1 B v j · C f (bj ) i wegen Linearität von f und Beobachtung 5.10. Nach Definition ist C f (bj ) i = C B fi,j . Auf der rechten Seite der Gleichung im Lemma ist nur noch von den Einträgen einer Matrix bzw. eines Spaltenvektors die Rede. Man kann die rechte Seite ausrechnen, ohne den Begriff der linearen Abbildung zu kennen. Das gibt Anlass zur folgenden Definition der Multiplikation von Matrizen: Definition 5.19 Es sei M ∈ Km×k und N ∈ Kk×n . Dann ist das Matrixprodukt M · N ∈ Km×n gegeben durch die Koeffizienten (M · N )i,j = k X Mi,` N`,j `=1 für alle i = 1, ..., m und j = 1, ..., n. Dabei sollte man beachten, dass die Anzahl der Spalten des ersten Faktors und die Anzahl der Zeilen des zweiten Faktors müssen übereinstimmen müssen (in der Definition ist dies k). Andernfalls ist das Matrixprodukt nicht definiert! Wer sich eine Formel wie in Definition 5.19 schlecht merken kann, kann es sich vielleicht in „Textform“ besser merken: Der (i, j) Eintrag von M · N wird berechnet, indem man die jeweils die Einträge der i-ten Zeile von M mit dem entsprechenden Eintrag der j-ten Spalte von N multipliziert, und dann aufsummiert. Beispiel 5.20 1 0 0 2 4 1·0+0·1 1·2+0·3 1·4+0·5 0 2 4 = = . 3 1 1 3 5 3·0+1·1 3·2+1·3 3·4+1·5 1 9 17 26 Die Multiplikation einer (m × k)-Matrix mit einer (k × 1)-Matrix (also einem Spaltenvektor!) ist also genau wie in Lemma 5.18. Wir erhalten: Korollar 5.21 Es sei V ein endlich-dimensionaler Vektorraum mit Basis B und W ein endlich-dimensionaler Vektorraum mit Basis C. Für alle linearen Abbildungen f : V → W und alle v ∈ V gilt C B (f (v)) = C Bf · v Wenn wir also Basen gewählt haben, dann lässt sich die Anwendung einer linearen Abbildung auf einen Vektor ganz einfach durch Matrixmultiplikation ausrechnen. Allerdings kann Matrixmultiplikation noch etwas mehr: Gemäß des folgenden Satzes können wir damit auch lineare Abbildungen verknüpfen. Satz 5.22 Es seien U , V , W endlich-dimensionale Vektorräume mit Basen A, B, C. Dann gilt für alle linearen Abbildungen f : U → V und g : V → W : C A (g ◦ f) = C Bg ·B Af Beweis. Es sei n = dim(U ) und A = {aj | j = 1, ..., n}. • Nach Definition der Darstellungsmatrix ist die j-te Spalte vonC A (g ◦ f ) C C gegeben durch g(f (aj )) . Nach Korollar 5.21 ist g(f (aj )) = C Bg · B f (aj ) . Wieder nachDefinition der Darstellungsmatrix ist die j-te Spalte B von B f (aj ) . A f gleich C Wir fassen zusammen: Die j-te Spalte von C A (g ◦f ) ist gleich B g multipliziert mit B f (aj ) . B • Nach Definition 5.19 erhält man die j-te Spalte von C B g · A f durch MultipliC B kation von B g mit der j-ten Spalte von A f . Nach Definition ist die j-Spalte B von B f gleich f (a ) . j A B C Wir haben also spaltenweise überprüft, dass C A (g ◦ f ) und B g · A f gleich sind. 27 6 Lineare Gleichungssysteme Im vorigen Kapitel war von Bild, Kern und Rang linearer Abbildungen die Rede. Um diese auszurechnen, ist das Lösen von linearen Gleichungssystemen nötig, was wir in den bisherigen Übungsaufgaben als Schulstoff voraussetzten. In diesem Kapitel behandeln wir das Lösen von linearen Gleichungssystemen systematischer als es vermutlich in der Schule geschah. 6.1 Einleitendes Beispiel Matrizen stellen eine nützliche Hilfsmittel dar, um lineare Gleichungssysteme systematisch zu lösen. Betrachten wir den Fall x+y+z =1 2x + 3y + z = 3 x − y + 3z = −1 Dieses Gleichungssystem stellt man 1 2 1 (I) (II) (III) durch die sogenannte erweiterte Matrix 1 1 1 3 1 3 −1 3 −1 dar. Um die Gleichungen zu lösen, setzt man den Wert x = 1 − y − z in den Gleichungen (II) und (III) ein. Das heißt, man zieht Gleichung (I) zweimal von Gleichung (II) ab, und einmal von Gleichung (III). x+y+z =1 y−z =1 −2y + 2z = −2 Für die Matrix bedeutet dies, dass man die und einmal von der dritten Zeile abzieht. 1 1 1 0 1 −1 0 −2 2 (I) (II0 ) (III0 ) erste Zeile zweimal von der zweiten 1 1 −2 Jetzt setzen wir den Wert y = 1 + z aus (II0 ) in (III0 ) ein, das heißt wir addieren das zweifache von (II0 ) zu (III0 ). x+y+z =1 y−z =1 0=0 28 (I) (II0 ) (III00 ) Dementsprechend addieren wir zweimal die 1 1 1 0 1 −1 0 0 0 zweite Zeile der Matrix zur dritten. 1 1 0 Gleichung (III00 ) können wir streichen. x+y+z =1 y−z =1 (I) (II0 ) Das heißt, wir streichen die dritte Zeile der Matrix. 1 1 1 1 0 1 −1 1 Diese Matrix ist in Zeilenstufenform. 1 1 1 1 0 1 −1 1 Der Wert von z ist frei wählbar, und es ist y = z + 1, x = 1 − y − z. Um x als Funktion von z auszudrücken, setzen wir y = z + 1 in (I) ein, d.h. wir ziehen (II0 ) von (I) ab: x + 2z = 0 y−z =1 (I0 ) (II0 ) Das heißt, wir ziehen die zweiten Zeile der Matrix von der ersten ab. 1 0 2 0 0 1 −1 1 Also x = −2z. Die Lösungsmenge ist −2t t + 1 t ∈ R . t Auch im allgemeinen Fall bringt man die Matrix durch Zeilenoperationen in Zeilenstufenform, dann lässt sich die Lösungsmenge ablesen. In diesem Kapitel beschreiben wir den Gauß-Algorithmus, auch Gauß-Eliminationsverfahren genannt, der diesen Lösungsansatz systematisiert. 29 6.2 Lineare Gleichungssysteme Ein lineares Gleichungssystem ist ein System a11 x1 + a12 x2 + a21 x1 + a22 x2 + .. .. . . am1 x1 + am2 x2 + · · · + a1n xn = b1 · · · + a2n xn = b2 .. .. .. . . . · · · + amn xn = bm von m Gleichungen in den n unbekannten Elementen x1 , . . . , xn aij , bi ∈ K gelten als bekannt. b1 Sei A ∈ Km×n mit Aij = aij . Sei b = ... ∈ Km und x = bm lässt sich das Gleichungssystem als eine Vektorengleichung ∈ K. Die Zahlen x1 .. . ∈ Kn . So xn A · x = b. ausdrücken. Es gilt, diese Gleichung für x zu lösen. Wir schreiben LR(A; b) für den Lösungsraum LR(A; b) = {x | A · x = b} ⊆ Kn . Beachte: Zeilen von A entsprechen Gleichungen, Spalten entsprechen Variablen. Bemerkung Es ist LR(A; 0) = Kern(LA ), ein Untervektorraum des Kn : der Nullraum der Matrix A. Für b 6= 0 dagegen enthält LR(A; b) den Nullvektor nicht und ist daher kein Untervektorraum, es ist aber ein sog. affiner Unterraum. Ein Gleichungssystem in Zeilenstufenform lässt sich gut lösen. Mittels Elimination kann man jedes Gleichungssystem auf Zeilenstufenform bringen. Definition 6.1 Eine Matrix hat Zeilenstufenform, wenn in jeder Zeile der erste Eintrag 6= 0 weiter nach Rechts vorkommt als in der Vorgänger-Zeile. Kommt eine Nullzeile vor, so müssen alle späteren Zeilen auch Null sein. 0 2 1 0 3 4 0 0 0 3 1 1 3 4 5 0 0 0 0 3 1 und 0 2 3 Beispiele 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 Lemma 6.2 In einer Zeilenstufenform sind die Zeilen 6= 0 linear unabhängig. Beispiel Die ersten drei Zeilen der (6×6)-Matrix oben sind linear unabhängig: Vergleich der 2. Einträge, dann der 4. Einträge, dann der 5. Einträge. 30 Beweis. Sei A eine Matrix in Zeilenstufenform, mit r Zeilen 6= 0. Induktionsbeweis über r. Im Fall r = 1 ist das Ergebnis klar. Im Fall r = 0 stimmt sie auch, denn ein System von keinen Vektoren gilt als linear unabhängig. Nun sei r ≥ 2. Wegen Zeilenstufenform sind es die ersten r Zeilen z 1 , . . . , z r , P die 6= 0 sind. Angenommen ri=1 λi z i = 0. Der erste Eintrag von z 1 komme in der jten Spalte vor. Wegen Zeilenstufenform ist (z i )j = 0 für jedes i ≥ 2. Daher muss λ1 = 0 sein (Vergleich der jten Einträgen). Aber z 2 , . . . , z r bilden eine Matrix in Zeilenstufenform, sind also linear unabhängig nach Induktionsannahme. Also auch λi = 0 für 2 ≤ i ≤ r. 6.3 Basislösungen Ist A in Zeilenstufenform, so kann man eine Basis von LR(A; 0) gut bestimmen. Im nächsten Abschnitt werden wir dann darlegen, wie man ein Gleichungssystem ohne eine Änderung des Lösungsraums auf Zeilenstufenform bringt. Algorithmus 6.3 (Nullraum einer Matrix in Zeilenstufenform) Input: Matrix A ∈ Km×n in Zeilenstufenform. Output: Basis für LR(A; 0). 1) Alle Nullzeilen Streichen; r = Anzahl der verbleibenden Zeilen. Es sei ji = die Spalte, die den ersten Eintrag 6= 0 in Zeile i beginnt (man nennt dies die Pivotspalte). Wegen Zeilenstufenform ist j1 < j2 < · · · < jr . 2) Die n − r Variablen xj mit j = 1, ..., n und j 6∈ {j1 , j2 , ..., jr } können wir frei vorgeben. Wir nennen sie freie Variablen. 3) Gleichung i ist Ai,ji · xji + Ai,ji +1 · xji +1 + · · · + Ai,n · xn = 0, mit Ai,ji 6= 0. Wenn also xji +1 , xji +2 , . . . , xn gegeben sind, dann ist xj i = −Ai,ji +1 · xji +1 − Ai,ji +2 · xji +2 − · · · − Ai,n · xn Ai,ji und dann sind alle Gleichungen erfüllt. Wir nennen xj1 , xj2 , ..., xjr die gebundenen Variablen. Da wir n − r Variablen frei wählen können, ist LR(A; 0) ⊂ Kn ein (n − r)dimensionaler Untervektorraum. Wir können an der Zeilenstufenform auch eine Basis von LR(A; 0) ablesen: Definition 6.4 Für j = 1, ..., n und j 6∈ {j1 , j2 , ..., jr } definieren wir die Basislösung β j ∈ LR(A; 0) so, dass k=j 1 βj = 0 k= 6 j, j1 , j2 , ..., jr k festgelegt durch Algorithmus 6.3.3) k = j1 , j2 , ..., jr 31 Offensichtlich lässt sich jede Lösung, also jedes Element von LR(A; 0), als Linearkombination der Basislösungen schreiben, und die Basislösungen sind linear unabhängig (leichte Übung). Wir erhalten also: Lemma 6.5 Die Basislösungen bilden eine Basis von LR(A; 0). 0 2 1 0 3 4 0 0 0 3 1 1 ∈ R5×6 : die letzten beiden Zeilen ent0 0 0 0 3 1 Beispiel A = 0 0 0 0 0 0 0 0 0 0 0 0 sprechen der Gleichung 0 = 0, wir streichen sie also. 0 2 1 0 3 4 0 0 0 3 1 1 0 0 0 0 3 1 Es ist r = 3, das Gleichungssystem lautet 2x2 + x3 3x4 + 3x5 + 4x6 = 0 + x5 + x6 = 0 3x5 + x6 = 0 Die gebundenen Variablen sind x2 , x4 , x5 , und die freien sind x1 , x3 , x6 . Die Basislösungen sind 1 0 0 0 − 1 − 3 2 2 0 1 0 2 . = β = β β1 = 0 0 − 3 6 91 0 0 − 3 1 0 0 β 1 , β 3 , β 6 bilden eine Basis von LR(A; 0). Anders gesagt: Die allgemeine Lösung x1 − 1 x3 − 3 x6 2 2 x 3 des Gleichungssystems ist − 2 x6 für x1 , x3 , x6 ∈ R. 9 − 1 x6 3 x6 Bemerkung 6.6 Man beachte, dass wir in Algorithmus 6.3 durch Ai,ji 6= 0 dividierten. Wir sind also darauf angewiesen, dass wir überhaupt dividieren können. Wir können, weil K ein Körper und nicht nur ein kommutativer Ring ist. 32 6.3.1 Inhomogene Gleichungssysteme Wenn b 6= 0, dann ist der Lösunsgsraum LR(A; b) kein Vektorraum. Aber dennoch kann man LR(A; b) mit Hilfe der Basislösungen von LR(A; 0) beschreiben. Definition 6.7 Wenn U ein Untervektorraum eines Vektorraums V ist, und v ∈ V , dann schreiben wir v + U := {v + x : x ∈ U } ⊂ V . Wir nennen dies den von v und U erzeugten affinen Unterraum von V . Beispiel Eine Gerade im R2 , die nicht 0 enthält, ist zwar kein Untervektorraum, aber ein affiner Unterraum. Lemma 6.8 Es sei A ∈ Km×n und b ∈ Km . Wenn x0 ∈ LR(A; b) gegeben ist, dann ist LR(A; b) = x0 + LR(A; 0) ⊆ Kn . Beweis. Wir wissen bereits, dass LR(A; 0) ⊆ Kn ein Untervektorraum ist. Wegen x0 ∈ LR(A; b) ist A · x0 = b. Wenn v ∈ LR(A; 0), dann ist A · v = 0. Also ist A · (xo + v) = A · x0 + A · v = b + 0 = b. Das heißt, x0 + v ∈ LR(A; b). Also ist x0 + LR(A; 0) ⊆ LR(A; b). Wenn x ∈ LR(A; b), dann ist A · (x − x0 ) = A · x − A · x0 = b − b = 0. Es ist also x − x0 ∈ LR(A; 0). Das heißt, x = x0 + (x − x0 ) ∈ x0 + LR(A; 0). Da x ∈ LR(A; b) beliebig war, folgt die Behauptung. Die Basislösungen des homogenen Gleichungssystems erlauben also, aus einer einzelnen Lösung des inhomogenen Gleichungssystems den gesamten Lösungsraum zu gewinnen. Wenn A in Zeilenstufenform ist, dann kann man eine einzelne Lösung des inhomogenen Gleichungssystems entweder leicht finden, oder leicht zeigen, dass es keine Lösung gibt. b1 .. m×n Lemma 6.9 Es sei A ∈ K in Zeilenstufenform und b = . ∈ Km . Es bm seien genau r Zeilen von A nicht Null, und es seien j1 , j2 , ..., jr die Pivotspalten. Wenn die letzten m − r Einträge von b alle Null sind (also br+1 = br+2 = ... = bm = 0), dann können wir alle freien Variablen x̃j (j ∈ / {j1 , j2 , ..., jr }) Null setzen und die gebundenen Variablen durch P bi − rk=i+1 Ai,jk x̃jk x̃ji = Ai,ji x̃1 .. bestimmen, und erhalten so eine Lösung . ∈ LR(A; b). Andernfalls hat das x̃n inhomogene Gleichungssystem keine Lösung, also LR(A; b) = ∅. 33 Bemerkung Die angegebene Lösungsformel sollte man „von hinten nach vorne“ betrachten, also wie Algorithmus 6.3: Zunächst setzt man alle freien Variablen auf Null. Für die letzte Pivotspalte, also j = jr , erhält man x̃jr = Abr,jr . Wenn x̃jr b −A r x̃ r−1,jr jr bereits berechnet ist, so erhält man x̃jr−1 = r−1Ar−1,j . Entsprechend erhält r−1 man x̃ji , wenn man x̃ji+1 , x̃ji+2 , ..., x̃jr bereits berechnet hat. Beweis von Lemma 6.9. Wenn die i-te Zeile von A Null ist, dann ist die i-te Komponente von A · x Null, für alle x ∈ Kn . Weil A in Zeilenstufenform ist, sind die Zeilen r + 1 bis m von A alle Null. Auch die Komponenten r + 1 bis m von A · x sind demnach Null. Wenn also eine der Komponenten r + 1 bis m von b nicht Null ist, dann hat das inhomogene Gleichungssystem keine Lösung. Wir setzen ab jetzt voraus, dass die Komponenten r + 1 bis m von b alle Null sind. Die letzten m−r Zeilen der Vektorgleichung A·x = b sind dann stets erfüllt: 0 = 0. Wenn wir nun alle freien Variablen der Gleichung auf Null setzen, dann vereinfacht sich für alle i = 1, ..., r die i-te Gleichung zu Ai,ji · xji + Ai,ji+1 xji+1 + · · · + Ai,jr xjr = bi , und dies hat offenbar die angegebene Lösung. 1 0 Beispiel Die Matrix A = 0 0 1 2 0 0 1 1 3 −4 hat Zeilenstufenform, mit j1 = 1, 0 3 0 0 3 10 j2 = 2 und j3 = 4. Für b = −3 ist offenbar LR(A; b) = ∅, denn die letzte 4 Gleichung ist nicht erfüllbar. 3 10 Hingegen erhalten wir mit Lemma 6.9 eine Lösung für b = −3: Es ist 0 b2 −A2,4 ·x̃4 b3 = 3 und x̃4 = A3,4 = −1, x̃3 = 0 (denn 3 ist keine Pivotspalte), x̃2 = A2,2 1 3 2 −A1,4 ·x̃4 x̃1 = b1 −A1,2A·x̃1,1 = 1, und 0 ∈ LR(A; b). −1 1 2 − 3 2 Nur 3 ist keine Pivotspalte, und Algorithmus 6.3 liefert 1 als einzige 0 Basislösung von LR(A; 0). 34 1 0 Damit erhalten wir LR( 0 0 6.4 1 2 0 0 1 x+1 1 1 3 2 3 3 −4 ; 10 ) = {− 2 x + 3 | x ∈ R}. 0 3 −3 x 0 0 0 −1 Das Gaußsche Eliminationsverfahren Für unsere bisherigen Lösungsmethoden linearer Gleichungssysteme mussten wir voraussetzen, dass eine Zeilenstufenform vorliegt. Es bleibt also die Frage: Wie kann man ein (möglicherweise inhomogenes) lineares Gleichungssystem auf Zeilenstufenform bringen? Die bekannteste Antwort stammt von Carl Friedrich Gauß [1777–1855] und basiert auf der Skalierung und Addition von Gleichungen. Diese Art der Umformungen sollten schon in der Schule zum Lösen (kleiner) Gleichungssysteme verwendet worden sein. Es versteht sich dabei von selbst — und sollte sich nach Ansicht des Dozenten auch in der Schule von selbst verstehen — dass man nicht das ganze Gleichungssystem einschließlich der Unbekannten x1 , ..., xn hinschreibt, sondern nur mit der Koeffizientenmatrix arbeitet. Das ist übersichtlicher und spart Schreibarbeit. Die Umformung erfolgt durch Multiplikation einzelner Zeilen der Matrix mit Skalaren sowie durch die Addition einer Zeile zu einer anderen. Der Nachteil ist: Man muss bei den Umformungen stets auch den inhomogenen Teil b mittransformieren. Wählt man ein anderes b, müsste man das Verfahren wieder von vorne beginnen. Wir werden das Gaußsche Eliminationsverfahren daher noch aus einem weiteren Blickwinkel betrachten. Zur Matrix A ∈ Km×n gehört nach Lemma 5.16 eine lineare Abbildung LA : Kn → Km , deren Darstellungsmatrix bezüglich der Standardbasen Sn von Kn und Sm von Km gerade A ist. Man kann in Km nun eine andere Basis B wählen, so dass die Darstellungsmatrix BSn LA Zeilenstufenform hat. Diese Sichtweise hat folgenden Vorteil: Wie schon in einer Präsenzaufgabe aufgezeigt wurde, entspricht der Wechsel von Sm zu B der Multiplikation mit einer Matrix T ∈ Km×m , nämlich T = BSm IdKm . Durch etwas „Buchführung“ lässt sich T während der Umformungen automatisch ausrechnen. Und damit erhalten wir: T · A hat Zeilenstufenform, und LR(A; b) = LR(T · A; T · b) für alle b ∈ Km . Wenn also ein neues b gegeben ist, ist es nicht nötig, alle Umformungen neu zu beginnen: Um die Zeilenstufenform von T · A auch nach einem Wechsel von b nutzen zu können, genügt eine einzelne Multiplikation T · b. Zunächst aber stellen wir das Gaußsche Eliminationsverfahren in seiner Grundform vor: Algorithmus 6.10 (Das Gaußsche Eliminationsverfahren) Input: Matrix A ∈ Km×n . Output: Durch Zeilenoperationen wird A auf Zeilenstufenform gebracht. Wir setzen anfänglich z := 1. Die Matrix A verändert sich während des Algorithmus, aber der Einfachheit halber bleiben wir beim Namen „A“. 35 1) Sind alle Einträge der Zeilen z bis m von A Null: Ausgabe A, fertig. Ansonsten sei jz die Nummer der ersten Spalte, die in einer der Zeilen z bis m einen Eintrag 6= 0 enthält. Wenn nötig, so erreichen wir durch Vertauschen der Zeile z mit einer darunter liegenden Zeile, dass Az,jz 6= 0. 2) Optional: Zeile z mit 1/Az,jz multiplizieren, danach gilt Az,jz = 1. 3) Für jedes z + 1 ≤ i ≤ m ziehen wir das i ab. Danach gilt Ai,jz = 0. Ai,jz Az,jz -fache der Zeile z von der Zeile 4) Optional: Schritt 3) auch oberhalb der aktuellen Zeile (i = 1, ..., z − 1) anwenden. 5) Falls z = m: Ausgabe A, fertig. Andernfalls ersetze z durch z + 1 und gehe zu Schritt 1). 1 2 3 4 3 6 10 11 Beispiel Wir führen das Verfahren für A = −1 −3 −1 1 durch. Es 1 1 7 7 ist j1 = 1, und A1,1 6= 0. Wir ziehen die erste Zeile dreimal von der zweiten der vierten Zeile ab, und addieren die erste zur dritten: und einmal von 1 2 3 4 0 0 1 −1 0 −1 2 5 . Weiter mit z = 2. Wir finden j2 = 2. Wegen A2,2 = 0 ver0 −1 4 3 1 2 3 4 0 −1 2 5 tauschen wir Zeilen 2 und 3 von A, ersetzen also A durch 0 0 1 −1 . 0 −1 4 3 1 2 3 4 0 −1 2 5 Jetzt ziehen wir die zweite von der vierten Zeile ab: 0 0 1 −1 . Weiter 0 0 2 −2 mit z = 3. Wir finden j3 = 3 und A3,3 6= 0. Indem wir die A von dritte Zeile von 1 2 3 4 0 −1 2 5 der vierten abziehen, erhalten wir die Zeilenstufenform 0 0 1 −1 0 0 0 0 Für inhomogene Gleichungssysteme A·x = b 6= 0 kann man das Gaußsche Verfahren ebenfalls nutzen. Dazu muss man allerdings b mittransformieren. Diesen Sachverhalt kann man wie folgt formalisieren: 36 Bezeichnung Die erweiterte Matrix (A | b) ∈ Km×(n+1) ist A zzgl. b, hinzugefügt als letzte Spalte. Auch die erweiterte Matrix ist eine Matrix, also können wir das Gaußsche Verfahren anwenden. 3 1 −2 1 1 3 1 −1 0 Beispiel 6.11 Es sei A = und b = 2. Die erweiterte −6 −2 6 −4 3 3 1 −2 1 1 3 1 −1 0 2 . Der Gauß–Algorithmus liefert Matrix ist (A | b) = −6 −2 6 −4 3 3 1 −2 1 1 3 1 −2 1 1 3 1 −2 1 1 0 0 1 −1 1 , 0 0 1 −1 1 und 0 0 1 −1 1 , −6 −2 6 −4 3 0 0 2 −2 5 0 0 0 0 3 was in Zeilenstufenform ist. Im Gaußschen Eliminationsverfahren treten die folgenden drei Typen so genannter Zeilenoperationen auf: 1. Zeilen i und j miteinander vertauschen (i 6= j). 2. Zeile i mit λ ∈ K \ {0} multiplizieren. 3. Das λ-fache von Zeile i zu Zeile j addieren (λ ∈ K, i 6= j). Lemma 6.12 a) Die drei Typen von Zeilenoperationen ändern LR(A; b) nicht. b) Das Gauß-Verfahren resultiert in einer erweiterten Matrix (A0 |b0 ) in Zeilenstufenform, mit LR(A0 ; b0 ) = LR(A; b). Beweis. a): Zeile i entspricht der Gleichung Ai,1 x1 + Ai,2 x2 + · · · + Ai,n xn = bi . Vertauscht man zwei Gleichungen, oder multipliziert man eine mit λ 6= 0, so ändert sich die Lösungsmenge nicht. Wenn man das λ-fache der einen Gleichung zu einer anderen addiert, dann ist jede Lösung des alten Systems eine Lösung des neuen; und da dieser Schritt auch rückgängig gemacht werden kann (nämlich: ziehe das λ-fache der Zeile i von Zeile j ab), kommen keine neuen Lösungen hinzu. b): In jedem Durchgang des Verfahrens wächst z, aber höchstens bis z = m. Also bricht die Iteration nach endlicher Zeit ab. Bricht die Iteration ab, so ist z die letzte Zeile, die nicht Null ist. Zu Beginn von Schritt 1) ist der Bereich von (A|b) links von Spalte jz in den Zeilen z bis m vollständig Null. Dieser Bereich bleibt Null. Zusätzlich wird Spalte jz unterhalb der Zeile z in Schritt 3) vollständig auf Null gebracht. Daher ist jz+1 > jz . Aber j1 < j2 < j3 < ... bedeutet Zeilenstufenform. Die Gleichheit der Lösungsräume folgt aus a). 37 6.5 Der Gauß–Algorithmus als Matrixprodukt In den Präsenzübungen haben Sie anhand von Beispielen gelernt, dass man die im Gauß–Verfahren auftretenden Zeilenoperationen als Matrixprodukt schreiben kann. Um dies zu vertiefen, müssen wir noch mehr über Matrizen lernen. Kurz gesagt: Km×n ist ein K–Vektorraum und Mn (K) = Kn×n ein unitärer Ring. Definition 6.13 Für A, B ∈ Km×n definieren wir die Summe A + B ∈ Km×n komponentenweise: (A + B)i,j := Ai,j + Bi,j für i = 1, ..., m, j = 1, ..., n. Auch die Skalarmultiplikation definieren wir komponentenweise: Für λ ∈ K ist λ · A ∈ Km×n durch (λ · A)i,j := λ · Ai,j definiert, für i = 1, ..., m, j = 1, ..., n. Zur Übung kann man zeigen: Beobachtung 6.14 Mit der eben definierten Addition und Skalarmultiplikation wird Km×n zu einem m · n–dimensionalen K–Vektorraum, wobei die Nullmatrix 0 ∈ Km×n (alle Einträge Null) das neutrale Element der Addition ist. Lemma 6.15 Für A, A0 ∈ Km×k und B, B 0 ∈ Kk×n gelten die Distributivgesetze (A + A0 ) · B = A · B + A0 · B ∈ Km×n und A · (B + B 0 ) = A · B + A · B 0 ∈ Km×n . Lemma 6.16 Das Matrixprodukt ist assoziativ: Für alle A ∈ Kk×` , B ∈ K`×m , C ∈ Km×n gilt A · (B · C) = (A · B) · C ∈ Kk×n . Beweis. Lemma 5.16 ordnet den Matrizen lineare Abbildungen LA : K` → Kk , LB : Km → K` und LC : Kn → Km umkehrbar eindeutig zu. Aus dem ersten Semester wissen wir, dass die Verknüpfung von Abbildungen assoziativ ist, und Satz 5.22 zeigt den Zusammenhang der Verknüpfung von Abbildungen und des Matrixproduktes. Wir erhalten L(A·B)·C = = = = = LA·B ◦ LC (LA ◦ LB ) ◦ LC LA ◦ (LB ◦ LC ) LA ◦ L(B·C) LA·(B·C) Aus der Gleichheit der linearen Abbildungen folgt die Gleichheit der zugehörigen Matrizen, also die Gleichheit von A · (B · C) und (A · B) · C. Damit gilt: Korollar 6.17 (Mn (K), +, ·, 0, En ) ist ein unitärer Ring. In den Übungen sahen Sie bereits, dass Mn (K) meistens Nullteiler enthält und nicht kommutativ ist. Manche Matrizen haben ein Inverses bezüglich des Matrixprodukts: 38 Definition 6.18 Eine Matrix A ∈ Mn (K) heißt invertierbar, falls es eine Matrix A−1 ∈ Mn (K) gibt mit A · A−1 = A−1 · A = En . Die Menge GLn (K) := {A ∈ Mn (K) : A invertierbar} ist eine Gruppe bzgl. Matrixprodukt mit neutralem Element En . Die Bezeichnung GLn kommt aus dem Englischen („general linear group“). Beispiel In den Präsenzübungen lernten Sie bereits, dass Basiswechsel auf invertierbare Matrizen führen. Es sei V ein n-dimensionaler Vektorraum mit zwei Basen B1 , B2 . Wir betrachten Darstellungsmatrizen der „identischen Abbildung“ Id : V → V . a) Für jede Basis B von V ist B B Id = En . b) Ist x ∈ V und sind B1 , B2 zwei Basen von V , dann ist B2 B1 Id · B1 x = B2 x. B1 B2 1 Id · B B2 Id = B2 Id · B1 Id = En . −1 B1 2 Die Basiswechselmatrizen sind also invertierbar, mit B = B2 Id. B1 Id c) Für alle Basen B1 , B2 von V gilt B2 B1 Lemma 6.19 A ∈ Mn (K) ist invertierbar ⇐⇒ LA : Kn → Kn ist ein Isomorphismus. Beweis. LA ist ein Isomorphismus, genau dann wenn es eine Umkehrabbildung (LA )−1 : Kn → Kn gibt. Sie ist automatisch ebenfalls linear. Es gibt also eine Matrix B ∈ Mn (K), so dass (LA )−1 = LB . Es ist LA ◦ LB = LA ◦ (LA )−1 = IdKn , also A · B = En nach Satz 5.22, und A ist invertierbar mit A−1 = B. Umgekehrt, wenn A invertierbar ist, so hat LA die Umkehrabbildung (LA )−1 = LA−1 . 6.5.1 Elementarmatrizen Elementarmatrizen sind invertierbare Matrizen, mit denen man die Zeilenoperationen des Gaußschen Eliminationsverfahrens als Matrixprodukte darstellen kann. Definition 6.20 Es seien n ∈ N>0 , i, j ∈ {1, ..., n}, i 6= j und λ ∈ K \ {0}. Die folgenden quadratischen Matrizen heißen Elementarmatrizen. a) Pij ∈ Mn (K) unterscheidet sich von En nur dadurch, dass Pij i,i = Pij j,j = 0 und Pij i,j = Pij j,i = 1 ist. b) Si (λ) ∈ Mn (K) unterscheidet sich von En nur dadurch, dass (Si (λ))i,i = λ ist (in En stünde hier der Eintrag 1). c) Qji (λ) ∈ Mn (K) unterscheidet sich von En nur dadurch, dass Qji (λ) j,i = λ ist. 39 Aus der Notation geht die Anzahl der Zeilen und Spalten nicht hervor, aber wenn wir P25 ) ∈ M7 (K) schreiben, ist klar, dass es sich um eine (7 × 7)–Matrix handelt. Beispiele 1 0 0 0 0 0 0 1 4 0 0 1 0 = P2 , 0 1 0 0 jeweils M4 (K) 1 0 0 0 0 1 0 0 0 0 5 0 0 1 0 0 = S3 (5) und −2 0 1 0 0 1 0 0 0 0 1 0 0 0 = Q31 (−2), 0 1 Lemma 6.21 Wir betrachten A ∈ Km×n und Elementarmatrizen in Mm (K). a) Pij · A entsteht aus A durch Vertauschen der Zeilen i und j. b) Si (λ)·A entsteht aus A, indem die i-te Zeile durch ihr λ-faches ersetzt wird. c) Qji (λ) · A entsteht aus A durch Addition des λ-fachen der i-ten Zeile zur j-ten Zeile. Der Beweis erfolgt durch simples Ausrechnen. Beweis. In einem Matrixprodukt bestimmen die Einträge der k-ten Zeile des ersten Faktors, wie die Zeilen des zweiten Faktors linear kombiniert werden müssen, um die k-te Zeile des Ergebnisses zu erhalten. Ist j 6= k 6= i, so hat k-te Zeile von Pij eine 1 an der k-ten Stelle und ist sonst Null; die k-te Zeile des Produktes ist also die k-te Zeile von A. Die i-te Zeile von Pij hat eine 1 an der j-ten Stelle und ist sonst Null; die i-te Zeile des Produktes ist also die j-te Zeile von A. Entsprechend für die j-te Zeile. Die k-te Zeile von Si (λ) enthält jeweils genau einen von Null verschiedenen Eintrag an der k-ten Stelle. Also ist die k-te Zeile des Ergebnisses gleich dem (Si (λ))k,k -fachen der k-ten Zeile von A. Qji (λ) ist wie En , hat aber in der j-ten Zeile zusätzlich den Eintrag λ an der i-ten Stelle. Für k 6= j ist also die k-te Zeile des Produktes gleich der k-ten Zeile von A. Gemäß der beiden Einträge von Qji (λ) in der j-ten Zeile entsteht die j-te Zeile des Produkts aus der Summe der j-ten Zeile und dem λ-fachen der i-ten Zeile von A. Korollar 6.22 Es sei A0 ∈ Km×n das Ergebnis des Gauß–Algorithmus angewandt auf A ∈ Km×n . Dann gibt es ein T ∈ Mm (K), so dass A0 = T · A. Der Gauß– Algorithmus liefert zudem eine Zerlegung von T als Produkt T = Tt · Tt−1 · · · · · T1 von Elementarmatrizen T1 , T2 , ..., Tt ∈ Mm (K). Beweis. Nach dem vorigen Lemma gibt es für den k-ten Schritt des Gauß– Algorithmus jeweils eine Elementarmatrix Tk ∈ Mm (K), so dass Multiplikation von Tk mit dem Ergebnis des (k−1)-ten Schrittes das Ergebnis des k-ten Schrittes liefert. Es ist also A0 = (Tt · (Tt−1 · · · · · (T1 · A)...)), und wegen der Assoziativität des Matrixproduktes folgt daraus die Behauptung. 40 Um T zu berechnen, ist es nicht nötig, die Produkte der Elementarmatrizen auszurechnen. Stattdessen führt man einfach das Gaußsche Eliminationsverfahren mit einer erweiterten Matrix durch. Diesmal erweitern wir A ∈ Km×n nicht nur um eine einzelne Spalte, sondern um m Spalten, indem wir mit Em erweitern. Lemma 6.23 Es sei A ∈ Km×n . Wenn der Gauß-Algorithmus angewandt auf die erweiterte Matrix (A | Em ) das Ergebnis (A0 | T ) mit A0 in Zeilenstufenform hat, dann ist A0 = T · A. Ferner gilt LR(A, b) = LR(A0 , T · b) für alle b, und die Lösungsmenge auf der rechten Seite kann man mit bekannten Methoden ausrechnen. Beweis. Nach dem vorigen Korollar gibt es ein T ∈ Mm (K), so dass T · (A | Em ) das Ergebnis des Gauß-Algorithmus auf (A | Em ) ist und T ein Produkt von Elementarmatrizen ist. Die Spalten des Matrixprodukts erhält man durch Multiplikation des ersten Faktors mit den Spalten des zweiten Faktors. Also ist T ·(A | Em ) = (T ·A | T ·Em ). Nach Voraussetzung ist T ·A = A0 , und T ·Em = T . Die Gleichheit der Lösungsräume folgt aus Lemma 6.12, denn T ist ein Produkt von Elementarmatrizen, die Multiplikation mit einer Elementarmatrix entspricht einer Zeilenoperation, und Zeilenoperationen ändern den Lösungsraum nicht. Wenn man auch die optionalen Schritte des Gauß–Verfahrens anwendet, entsteht eine Zeilenstufenform besonderer Art: In jeder Pivot-Spalte ji steht genau ein Element, welches nicht Null ist (natürlich in der i-ten Zeile), und dieses ist gleich Eins. Man nennt dies eine strenge Zeilenstufenform. Und damit kann man Matrizen invertieren: Algorithmus 6.24 (Eine Matrix invertieren) Input: Eine quadratische Matrix A ∈ Mn (K). Output: Stellt fest, ob A invertierbar ist, und berechnet ggf. A−1 . • Bilde die erweiterte Matrix B = (A | En ) ∈ Kn×2n . • Gauß–Verfahren mit allen optionalen Schritten: Bringe B auf strenge Zeilenstufenform (A0 | C). • Ist A0 = En , dann ist A invertierbar, und A−1 = C. • Wenn nicht, dann hat A0 eine Nullzeile, und A ist nicht invertierbar. Beweis, dass Algorithmus 6.24 funktioniert. Wenn A invertierbar ist, dann ist LA ein Isomorphismus. Also ist ker(LA ) = LR(A, 0) = {0}, es gibt also keine Basislösungen. Das bedeutet aber: Wenn wir A auf Zeilenstufenform mit Pivotspalten j1 , ..., jr bringen, dann ist r = n und j1 = 1, j2 = 2, ..., jn = n (andernfalls gäbe es freie Variablen). Für die strenge Zeilenstufenform gilt demnach A0 = En . Nach Korollar 6.22 gibt es ein T ∈ 41 Mn (K) mit T · B = (T · A | T · En ) = (A0 | T ) = (En | T ). Wir finden also T tatsächlich als hintere Hälfte der erweiterten Matrix in strenger Zeilenstufenform, und T · A = En . Umkehrung: En ist die einzige (n × n)–Matrix in strenger Zeilenstufenform, die keine Nullzeile hat. Hat also A0 keine Nullzeile, dann ist A0 = En , aber Korollar 6.22 liefert wieder ein T ∈ Mn (K) als Produkt von Elementarmatrizen, mit En = A0 = T · A. Es bleibt noch zu zeigen, dass aus T · A = En auch A · T = En folgt, denn in Definition 6.18 waren beide Gleichheiten gefordert. Dazu nutzen wir das nachfolgende Lemma, welches sagt, dass Elementarmatrizen invertierbar sind. Da T ein Produkt von Elementarmatrizen ist, ist auch T invertierbar, es existiert also T −1 ∈ Mn (K) mit T · T −1 = T −1 · T = En . Dann können wir die Gleichung T · A = En von links mit T −1 und von rechts mit T multiplizieren, und erhalten T −1 · (T · A) · T = T −1 · En · T , also A · T = En . Also ist A invertierbar, mit Inversem T . Lemma 6.25 Die Elementarmatrizen sind invertierbar, und die Inversen sind −1 jeweils selbst Elementarmatrizen. Genauer gilt Pij = Pij , (Si (λ))−1 = Si ( λ1 ) −1 = Qji (−λ). (für λ 6= 0) und Qji (λ) Beweis. Übung. Korollar 6.26 Eine Matrix A ∈ Mn (K) ist invertierbar, genau dann wenn sie sich als ein Produkt von Elementarmatrizen darstellen lässt. Mit anderen Worten: Die Elementarmatrizen bilden ein Erzeugendensystem der Gruppe GLn (K). Beweis. Invertieren von A geschieht ja durch Anwendung des Gauß–Algorithmus auf (A | En ), welches das Ergebnis (En | A−1 ) hat. Nach Korollar 6.22 und Lemma 6.23 zerfällt A−1 als Produkt von Elementarmatrizen: A−1 = Tt · Tt−1 · ... · T1 . Aus dem ersten Semester wissen wir, wie man ein Produkt invertiert: Es ist das Produkt der Inversen der einzelnen Faktoren in umgekehrter Reihenfolge. −1 Also A = (A−1 ) = T1−1 · T2−1 · ... · Tt−1 , wobei das vorige Lemma besagt, dass T1−1 , ..., Tt−1 Elementarmatrizen sind. 6.6 Der Rang einer Matrix Der Rang einer linearen Abbildung f ist definiert als Rang(f ) = dim(Bild(f )). Für Matrizen gibt es sogar zwei Definitionen des Begriffs „Rang“, die sich allerdings am Ende als gleich herausstellen. Definition 6.27 Sei A ∈ Km×n . Der Zeilenraum von A ist das Erzeugnis der m Zeilen, ein Untervektorraum des Kn . Der Spaltenraum ist das Erzeugnis der n Spalten, ein Unvervektorraum des Km . Der Spalten- bzw. Zeilenrang ist die Dimension des Spalten- bzw. des Zeilenraums. 42 Lemma 6.28 Für A ∈ Km×n gelten: a) Spaltenraum(A) = Bild(LA ) und Spaltenrang(A) = Rang(LA ). b) Elementare Zeilenoperationen ändern den Zeilenraum und damit auch den Zeilenrang nicht. c) Elementare Zeilenoperationen ändern den Spaltenrang nicht. 1 1 Beispiel A = ∈ M2 (R). Zeilentausch ändert den Spaltenraum! Es ist 0 0 also nicht offensichtlich, dass der Spaltenrang gleich bleibt. Beweis. a): Die lineare Abbildung LA : Kn → Km ist so definiert, dass die Darstellungsmatrix von LA bezüglich der Standardbasen von Kn und Km gleich A ist. Das bedeutet: Die j-te Spalte von A ist gleich LA (ej ). Also erzeugen die Spalten von A auch Bild(LA ). b): Die neuen Zeilen sind Linearkombinationen der alten und umgekehrt. Also haben die Zeilen vor und nach der Zeilenoperation das gleiche Erzeugnis. c): Nach a) und der Rangformel ist Spaltenrang(A) = Rang(LA ) = n − dim Kern(LA ) = n − dim LR(A; 0) . Aber Zeilenoperationen ändern LR(A; 0) nicht (Lemma 6.12 a)). 1 2 1 1 3 0 Beispiel 6.29 Sei U ⊆ R4 das Erzeugnis der Vektoren −1, 0, −2, 1 1 1 5 4 . Finden Sie eine Basis von U . 2 −3 1 1 −1 1 2 3 0 1 Sei A die Matrix mit diesen Vektoren als Zeilen, also A = 1 0 −2 1 , 5 4 2 −3 und U = Zeilenraum(A). Zeilenoperationen ändernden Zeilenraum nicht, daher 1 1 −1 1 0 1 2 −1 ist U der Zeilenraum der Zeilenstufenform B = 0 0 1 −1. Die ersten 0 0 0 0 43 1 1 drei Zeilen bilden eine Basis des Zeilenraums. Also: −1, 1 eine Basis von U . 0 1 , 2 −1 0 0 ist 1 −1 Im Beispiel haben wir eine neue Matrix gebildet, deren Zeilen den Spalten der ursprünglich gegebenen Matrix entspricht. Dies nennt man „Transposition“: Definition 6.30 Es sei A ∈ Km×n . Die transponierte Matrix A> ∈ Kn×m ist definiert durch (A> )i,j = Aj,i für i = 1, ..., n, j = 1, ..., m. > 1 3 8 1 3 7 4 3 1 0 4×3 > > Beispiel 6.31 3 1 2 9 = 7 2 7 ∈ R . Man beachte: (A ) = A. 8 0 7 3 4 9 3 Lemma 6.32 Für alle A ∈ Km×n und B ∈ Kn×k gilt (A · B)> = B > · A> . Beweis. Übung. Satz 6.33 Spaltenrang(A) = Zeilenrang(A). Bezeichnung Daher setzt man Rang(A) = diesen gemeinsamen Wert. Aus Lemma 6.28 folgt Rang(A) = Rang(LA ). Beweis. Zeilenoperationen ändern nach Lemma 6.28 den Zeilen- und Spaltenrang nicht, wir können also annehmen, dass A Zeilenstufenform hat (Lemma 6.12). Sei r die Anzahl der Zeilen 6= 0, dann Spaltenraum(A) ⊆ he1 , . . . , er i ⊆ Km , also Spaltenrang(A) ≤ r; aber nach Lemma 6.2 ist Zeilenrang(A) = r. Daher ist Spaltenrang(A) ≤ Zeilenrang(A). Für die transponierte Matrix A> ist Zeilenraum(A> ) = Spaltenraum(A) und Spaltenraum(A> ) = Zeilenraum(A). Wir wenden nun die eben gezeigte Ungleichung sowohl für A als auch für A> an und erhalten Spaltenrang(A) ≤ Zeilenrang(A) = Spaltenrang(A> ) ≤ Zeilenrang(A> ) = Spaltenrang(A). Es ist also nicht nur Spaltenrang(A) ≤ Zeilenrang(A), sondern auch Zeilenrang(A) ≤ Spaltenrang(A). Beide stimmen also überein. Es folgen noch einige nützliche Aussagen über den Rang von Matrizen. Lemma 6.34 A ∈ Mn (K) ist invertierbar, genau dann wenn Rang(A) = n. Beweis. Gemäß des Invertierungsalgorithmus 6.24 ist A invertierbar, genau dann wenn der Gauß–Algorithmus einschließlich aller optionaler Schritte A in En umformt, und das ist genau dann der Fall, wenn Rang(A) = n. 44 Lemma 6.35 Es seien A ∈ Km×n und B ∈ Kn×k . Dann gilt: a) Rang(A) ≤ min(m, n). b) Rang(A · B) ≤ min(Rang(A), Rang(B)). Beweis. a): Zeilenrang ≤ m, da m Zeilen; und Spaltenrang ≤ n, da n Spalten. b): Wegen LA·B = LA ◦ LB ist Bild(LAB ) ⊆ Bild(LA ), also Rang(A · B) ≤ Rang(A). Ferner ist Rang(A> ) = Rang(A) und (A · B)> = B > · A> und daher Rang(A · B) = Rang(B > · A> ) ≤ Rang(B > ) = Rang(B). 45 7 Die Determinante Jede quadratische Matrix A ∈ Mn (K) hat eine Determinante det(A) = |A| ∈ K. Es ist A invertierbar ⇔ det(A) 6= 0. Geometrische Deutung für n = 3: Determinante = das Volumen des Parallelepipeds, dessen Kanten durch die Zeilen der Matrix gegeben sind. In diesem Kapitel stellen wir zum ersten Mal in dieser Vorlesung eine Bedingung an den Körper K: Wir setzen voraus, dass 1 + 1 6= 0. Dadurch wird zum Beispiel der Körper mit zwei Elementen ausgeschlossen. 7.1 Definition a b = ad − bc, und Definition 7.1 Fall n = 2, 3: Es ist c d a1 a2 a3 b2 b3 b1 b3 b1 b2 b1 b2 b3 = a1 c 2 c 3 − a2 c 1 c 3 + a3 c 1 c 2 c1 c2 c3 = a1 det A(1, 1) − a2 det A(1, 2) + a3 det A(1, 3) , wobei A(i, j) ∈ Mn−1 (K) ensteht, indem man Zeile i und Spalte j streicht. Allgemeiner Fall: Rekursive Definition: für n ≥ 2 ist det(A) = n X (−1)j+1 A1j det A(1, j) , j=1 und für a ∈ M1 (K) = K ist det(a) = a. 1 −3 = 1 · 5 − (−3) · 2 = 5 + 6 = 11. Beispiele • 2 5 1 1 2 1 1 0 1 0 1 • 0 1 1 = 1 − 1 1 3 + 2 1 2 = (3 − 2) − (0 − 1) + 2(0 − 1) = 0. 2 3 1 2 3 1 0 0 0 0 1 0 0 0 1 0 1 0 = 1 0 0 = − • 0 1 = −(1 − 0) = −1. 0 1 0 0 0 0 1 0 0 0 1 • Für jedes n ≥ 2 ist det(En ) = 1 · det(En−1 ), und det(E1 ) = det(1) = 1. Also det(En ) = 1 für jedes n ≥ 1 (Induktion). 46 7.2 Erste Eigenschaften Lemma 7.2 Betrachten wir Mn (K) → K, A 7→ det(A) als eine Funktion der n Zeilen. Diese Funktion ist • n-fach multilinear: Hält man die anderen Zeilen konstant und betrachtet det(A) als Funktion der i-ten Zeile, dann ist diese Funktion Kn → K linear für jedes i. • Alternierend: Vertauscht man zwei Zeilen, so multipliziert man det(A) mit −1. Sind zwei Zeilen gleich, dann ist det(A) = 0. Bemerkung 7.3 Für die letzte Aussage (sind zwei Zeilen gleich, ist die Determinante Null) verwenden wir die Voraussetzung 1 + 1 6= 0. Es stellt sich heraus, dass die Determinantenfunktion durch die Aussagen des Lemmas und die „Normierung“ det(En ) = 1 bereits eindeutig bestimmt ist. Manchmal findet man daher die Definition, dass die Determinante auf Mn (K) durch die eindeutig bestimmte alternierende normierte n-fach lineare Funktion auf den n Zeilen der Matrizen gegeben ist—dies geht für jeden Körper K, auch wenn 2 = 0. Dann müsste man die Formel aus Definition 7.1 allerdings erst mühsam herleiten. Beispiele Wegen 1 −2 1 = 3 1 0 −1 − 2 1 1 −2 ist a b c a b c a b c 1 −2 1 = 3 1 0 −1 − 2 1 1 −2 d e f d e f d e f 1 2 3 für alle a, b, c, d, e, f (linear in der 2-ten Zeile). Es ist 4 −2 1 = 0 (alternierend: 1 2 3 1 −3 2 0 5 1 Zeilen 1 und 3 gleich), und 4 −2 1 = − 4 −2 1 (alternierend: Zeilen 1 und 0 5 1 1 −3 2 3 vertauscht). Beweis. Multilinear: Für i = 1 ist det A(1, j) konstant, und A1j linear. Für i > 1 ist A1j konstant und (Induktion) det A(1, j) linear in Zeile i − 1. Alternierend: Schritt 1: Zwei aufeinander Zeilen vertauschen: folgende c d a b = cb − ad = − Induktionsanfang n = 2: c d. Induktionsschritt: Vera b tauscht man Zeilen i, i + 1 mit i ≥ 2, dann bleibt A1j konstant, und Zeilen i − 1, i 47 von A(1, j) werden vertauscht. Also Multiplikation mit −1 (Induktionsannahme). Übrig bleibt der Fall, wo man Zeilen 1 und 2 vertauscht. Es ist det(A) = n X (−1)j+1 A1j det A(1, j) j=1 n X n−1 X = (−1)j+k A1j A(1, j)1k det (A(1, j)(1, k)) . j=1 k=1 Wir schreiben A(a, b; c, d) für die Matrix, die aus A durch Streichen der Zeilen a, b und Spalten c, d entsteht. Dann ist ( A1j A2,k det A(1, 2; j, k) k<j A1j A(1, j)1k det (A(1, j)(1, k)) = , A1j A2,k+1 det A(1, 2; j, k + 1) k ≥ j und daher (wenn man in der zweiten Summe den Index k um eins verschiebt) X X (−1)j+k A1j A2k det A(1, 2; j, k) . (−1)j+k A1j A2k det A(1, 2; j, k)− det(A) = n≥k>j≥1 1≤k<j≤n Vertauscht man die ersten beiden Zeilen, so vertauscht man j mit k. Dabei bleibt A(1, 2; j, k) konstant. Also werden die beiden Summen miteinander vertauscht, und das bedeutet Multiplikation mit −1. Schritt 2: Allgemeiner Fall: Sei i < j. Um Zeilen i und j zu vertauschen, schiebt man Zeile i an die j − i − 1 Zeilen vorbei, die dazwischen liegen. Dann schiebt man Zeile i an Zeile j vorbei. Zum Schluss schiebt man Zeile j an den j − i − 1 Zeilen vorbei, damit sie auf Platz i gelangt. Insgesamt werden (2(j − i − 1) + 1)-mal benachbarte Zeilenen miteinander vertauscht. Das Vorzeichen ist also (−1)2(j−i−1)+1 = −1. Sind Zeilen i und j gleich, dann ändert ein Vertauschen dieser Zeilen die Matrix einerseits nicht, andererseits bedeutet es Multiplikation mit −1. Also det(A) = − det(A), woraus 2 · det(A) = 0 folgt. Wir setzen 2 6= 0 voraus, also kann man beide Seiten der Gleichung durch 2 teilen, und es folgt det(A) = 0. Korollar 7.4 (Determinante und Zeilenoperationen) Vertauscht man zwei Zeilen, so multipliziert man det(A) mit −1. Multipliziert man eine Zeile mit λ, so multipliziert man det(A) mit λ. Addiert man das λ-fache der i-ten Zeile zur j-ten (i 6= j), so ändert sich det(A) nicht. Beweis. Zeilentausch: alternierend. Zeile i mit λ: multilinear, also linear in Zeile i. Dritte Operation: sei A0 das Ergebnis. Dann (linear in Zeile j): det(A0 ) = det(A) + λ det(B), wobei B aus A entsteht, indem man Zeile j ersetzt durch eine Kopie von Zeile i. Es sind also zwei Zeilen von B gleich, daher det(B) = 0 (alternierend). 48 7.3 Weitere Eigenschaften, Produktregel Lemma 7.5 Für A ∈ Mn (K) gelten folgende Aussagen über det(A): • Transponieren: det(AT ) = det(A) • Laplace-Entwicklung4 nach Zeile i und nach Spalte j: det(A) = n X (−1) i+j Aij det A(i, j) und det(A) = j=1 n X (−1)i+j Aij det A(i, j) . i=1 Vorzeichen: Schachbrett-Muster + − + − ··· − + − + − . − .. . • Obere Dreiecksgestalt: Ist Aij = 0 für alle i > j, dann det(A) = A11 A22 · · · Ann = n Y Aii . i=1 • Rang: det(A) 6= 0 ⇐⇒ Rang(A) = n Lemma 6.34 ⇐⇒ A invertierbar. • Produktregel: det(AB) = det(A) det(B). • Blockgestalt: B C Ist A = mit B, D quadratisch, dann det(A) = det(B) det(D). 0 D Beweis. Laplace nach Spalte 1: Induktion über n, klar für n = 2. Für n ≥ 3: det(A) = n X (−1)j+1 A1j det A(1, j) j=1 Ind.-Ann. = n X n−1 X A11 det A(1, 1) + (−1)i+j A1j Ai+1,1 det A(1, i + 1; 1, j) j=2 i=1 umindiziert = A11 det A(1, 1) + n X n−1 X i=2 j=1 n X = (−1)i+1 Ai1 det A(i; 1) . i=1 4 Pierre-Simon Marquis de Laplace [1749–1827] 49 (−1)i+j A1,j+1 Ai1 det A(1, i; 1, j + 1) Transposition: Laplace nach Spalte 1 und Induktion nach n liefern det(AT ) = n X (−1)i+1 A1i det AT (i, 1) = i=1 n X (−1)i+1 A1i det A(1, i) = det(A) . i=1 Laplace (Zeile): Sei B = A, mit Zeilen 1 und i vertauscht. det(B) = − det(A). Nun, B(1, j) = A(i, j), mit Zeile 1 nach unten geschoben bis Zeile i − 1. Zurück nach oben: an i − 2 Zeilen vorbei schieben, also det B(1, j) = (−1)i det A(i, j), und det(A) = − det(B) = n X n X (−1) Aij det B(1, j) = (−1)i+j Aij det A(i, j) . j=1 i=1 j Laplace (Spalte): Transponieren, dann Laplace nach Zeilen. Obere Dreiecksgestalt: Induktion über n, mittels Laplace nach Spalte 1. Rang: Korollar 7.4: A auf Zeilenstufenform bringen, bei jedem Schritt die Änderung an det(A) festhalten. Es ist det(A) = 0 vorher ⇔ nachher. Für Zeilenstufenform gilt Rang = n genau dann wenn keine Nullzeile vorliegt, genau dann wenn jede Spalte eine Pivot-Spalte ist, genau dann wenn alle Diagonalelemente ungleich Null sind. Q Jede Matrix in Zeilenstufenform ist eine obere Dreiecksmatrix, also det(A) = i Aii , und das ist ungleich Null genau dann wenn alle Aii 6= 0 (Körper sind nullteilerfrei!) genau dann wenn Rang(A) = n. Produktregel: Ist det(A) = 0, dann (Lemma 6.35) Rang(AB) ≤ Rang(A) < n, also det(AB) = 0. Ist dagegen det(A) 6= 0, dann A invertierbar, also (Korollar 6.26) ist A ein Produkt von Elementarmatrizen: A = T1 · · · Tt , also AB = T1 · · · · Tt · B. Nun, nach Korollar 7.4 ändert eine Zeilenoperation die Determinante gar nicht oder höchstens durch Multiplikation mit einem Skalar ungleich Null, d.h. für alle i = 1, ..., t gibt esQein λi ∈ K \ {0} mit det(Ti B) = λi det(B). Also det(AB) = λ det(B) für λ = ti=1 λi . Mit B = En folgt det(A) = λ, und daraus wiederum folgt det(AB) = λ det(B) = det(A) det(B) für beliebige B ∈ Mn (K). Blockgestalt: Sei B ∈ Mr (R). Induktion über r mit Laplace nach Spalte 1 (behandelt auch Fall r = 1). Bemerkung Sie haben bereits in den Präsenzübungen erkannt, dass die rekursive Definition für große n einen sehr ineffizienten Weg darstellt, um det(A) zu berechnen. Es ist viel besser, mittels Gauß die Matrix auf Zeilenstufenform zu bringen: denn man weiß, wie die Determinante sich bei jedem Schritt ändert, und zum Schluss hat die Matrix obere Dreiecksgestalt. Da es nicht nötig ist, A auf strenge Zeilenstufenform zu bringen, kann man auf „Multiplikation der i-ten Zeile mit λ 6= 0“ verzichten. Für das richtige Vorzeichen muss man nur darauf achten, wie oft man Zeilen vertauscht hat. 50 5 4 6 1 0 6 2 9 Die 1 in der dritten Zeile scheint ein Beispiel 7.6 Wir berechnen 1 2 3 4 2 4 8 1 günstiger Pivot zu sein, also tauschen wir mit Zeile. Das Vorzei der ersten 1 2 3 4 0 6 2 9 . Wir subtrahieren 5chen ändert sich dabei, wir erhalten also − 5 4 6 1 2 4 8 1 mal bzw. 2-mal die erste Zeile von der dritten ändert sich bzw. vierten. Dabei 1 2 3 4 0 6 2 9 . Durch Additidie Determinante nicht, wir erhalten also − 0 −6 −9 −19 0 0 2 −7 on der zweiten zur dritten Zeile ändert sich die Determinante wieder nicht, 1 2 3 4 0 6 2 9 also erhalten wir − . Die Matrix ist nun in Blockgestalt, wir 0 0 −7 −10 0 0 2 −7 1 2 −7 −10 . Die beiden (2 × 2)–Determinanten berecherhalten also − · 0 6 2 −7 nen wir mit der bekannten Formel (wobei wir auch nutzen, dass die erste der 5 4 6 1 0 6 2 9 = beiden eine obere Dreiecksmatrix ist) und erhalten schließlich 1 2 3 4 2 4 8 1 −6 · ((−7) · (−7) − 2 · (−10)) = −6 · 69 = −414. 51 8 Eigenwerte und Eigenvektoren 8.1 Grundbegriffe Definition 8.1 Sei A ∈ Mn (K) eine quadratische Matrix. Gibt es 0 6= v ∈ Kn und λ ∈ K derart, dass A · v = λv ist, so heißt v ein Eigenvektor von A mit Eigenwert λ. Bemerkung Es gilt A · 0 = λ0 für jedes λ ∈ K. Dies bedeutet aber nicht, dass jedes λ ein Eigenwert ist, denn der Nullvektor ist ausgeschlossen. Beispiel 8.2 2 −1 1 a) Zu den Eigenvektoren von A = gehören unter anderem mit 3 −2 1 1 Eigenwert 1 und mit Eigenwert −1, denn 3 2 −1 1 1 2 −1 1 −1 = = 3 −2 1 1 3 −2 3 −3 4 b) −1 ist −1 1 2 0 −1 −1 1 1 2 2 ein Eigenvektor von 0 −1 1 −1 1 −5 2 4 0 1 −1 = 0. −5 −1 0 1 2 1 c) 2 ist kein Eigenwert von , denn aus 0 3 0 a + 2b = 2a und 3b = 2b, also a = b = 0. mit Eigenwert 0, denn 2 3 a 2a = folgt b 2b d) Die Existenz von Eigenwerten hängtentscheidend von dem betrachteten 0 −1 Körper ab. Beispielsweise hat A = ∈ M2 (R) keine Eigenwerte 1 0 x x in K = R, denn aus A = λ folgen −y = λx und x = λy, also y y (λ2 + 1)x = 0, also x = 0 und y = 0. 0 −1 Betrachtet man hingegen A = ∈ M2 (C), so findet man für K = C 1 0 i den Eigenvektor ∈ C2 mit Eigenwert i. 1 52 e) Die Matrix A ∈ Mn (K) stellt eine lineare Abbildung Kn → Kn dar. Allgemeiner kann man die Begriffe Eigenwert, Eigenvektor für jede lineare Abbildung F : V → V definieren. Beispiel: V = C ∞ (R) – die Menge aller f beliebig oft differenzierbarer Funktionen R → R –, und F ist f 7→ f 00 (zweite Ableitung). Wegen sin00 (x) = − sin(x) und cos00 (x) = − cos(x) sind die Sinus- und Kosinusfunktionen dann Eigenvektoren mit Eigenwert −1. Definition 8.3 Für λ ∈ K definiert man den Eigenraum Eλ (A) = {v ∈ Kn | A · v = λv} . Für jedes λ ist 0 ∈ Eλ (A). Also gilt: λ Eigenwert ⇔ −1 0 0 −1 Beispiel Für die Diagonalmatrix A = 0 0 E−1 (A), und e3 eine Basis von E1 (A). Eλ (A) 6= {0}. 0 0 ist e1 , e2 eine Basis von 1 Bezeichnung Eine Matrix A ∈ Mn (K) heißt singulär, falls Rang(A) < n ist. Also singulär ⇔ nicht invertierbar ⇔ det(A) = 0. Lemma 8.4 Sei A ∈ Mn (K) und λ ∈ K. a) Eλ (A) = LR(A − λEn ; 0), ist also ein Untervektorraum von Kn . b) λ ist Eigenwert von A ⇐⇒ die Matrix A − λEn ist singulär. Beweis. a): Wegen λv = λEn v ist v ∈ Eλ (A) ⇔ Av = λEn v ⇔ (A − λEn )v = 0 ⇔ v ∈ LR(A − λEn ; 0) . b): Sei B = A − λEn . Dann a) λ E.-Wert ⇐⇒ dim LR(B; 0) > 0 8.2 Rangformel ⇐⇒ Rang(B) < n ⇔ B singulär . Das charakteristische Polynom Wegen Eλ (A) = LR(A − λEn ; 0) kann man mit dem Gauß-Verfahren die Eigenvektoren zu einem bekannten Eigenwert berechnen. Aber wie bestimmt man die Eigenwerte? Nach Lemma 8.4 b) ist λ Eigenwert ⇐⇒ A − λEn singulär ⇐⇒ det(A − λEn ) = 0 . Wir wollen also die Gleichung det(A − λEn ) = 0 für λ lösen. Es handelt sich um eine Polynomgleichung. Damit ein normiertes Polynom vorliegt, betrachten wir stattdessen die Polynomgleichung det(λEn − A) = 0, denn det(−B) = (−1)n det(B) (Übung!). 53 Definition 8.5 Das charakteristische Polynom von A ∈ Mn (K) ist pA (X) = det(XEn − A) ∈ K[X] . Unsere Diskussion zeigt: Lemma 8.6 Die Eigenwerte von A sind genau die Nullstellen des charakteristischen Polynoms pA (X). 2 −1 Beispiel Für A = ist 3 −2 X − 2 1 pA (X) = = (X − 2)(X + 2) − (+1)(−3) −3 X + 2 = X 2 − 4 + 3 = X 2 − 1 = (X − 1)(X + 1) . Also sind 1 und −1 die einzigen 0 1 Beispiel Für A = −1 0 0 −1 X −1 0 X pA (X) = 1 X −1 = X 1 0 1 X Eigenwerte. 0 1 ∈ M3 (R) ist 0 −1 1 −1 + = X(X 2 + 1) + X = X(X 2 + 2) X 0 X Der einzige √ reelle Eigenwert ist 0. Allerdings findet man für K = C zusätzlich die √ Eigenwerte 2i und − 2i. 8.3 Eigenräume sind linear unabhängig Lemma 8.7 Seien λ1 , . . . , λr ∈ K paarweise verschiedene Eigenwerte von A ∈ Mn (K). P a) Seien v i ∈ Eλi (A) für i = 1, ..., r. Gilt ri=1 v i = 0, dann ist v i = 0 für alle i. b) Legt man die Basen von Eλ1 (A), Eλ2 (A), . . . , Eλr (A) zusammen, so erhält man ein linear unabhängiges System. Beweis. b) folgt aus a). a): Induktion über r, klar für r = 1. Nun sei r ≥ 2, dann ! r r n r X X X X 0=A v i − λ1 vi = (λi − λ1 )v i = (λi − λ1 )v i . i=1 i=1 i=1 i=2 Nach Induktionsannahme ist (λi −λP 1 )v i = 0 für alle i ≥ 2. Für i ≥ 2 ist λi −λ1 6= 0 und daher v i = 0. Also auch v 1 = ri=1 v i = 0. 54 1 1 1 1 Beispiel A = 1 1 1 hat den Eigenvektor v 1 = 1 mit Eigenwert 3. 1 1 1 1 Ferner ist Rang(A) = 1, also ist E0 (A) = LR(A; 0) 2-dimensional: sei v 2 , v 3 eine Basis von E0 (A). Wende das Lemma auf die Eigenwerte 3, 0 an: v 1 , v 2 , v 3 ist linear unabhängig, daher eine Basis des R3 . Also keine weitere Eigenwerte, sonst erhielte man nach dem Lemma ein linear unabhängiges System der Länge ≥ 4. 8.4 Diagonalisierbarkeit Bezeichnung D ∈ Mn (K) heißt Diagonalmatrix falls Dij = 0 für alle i 6= j. Lemma 8.8 (Drei Charakterisierungen von Diagonalisierbarkeit) Für A ∈ Mn (K) sind äquivalent: a) Es gibt S ∈ Mn (K) invertierbar, so dass S −1 AS diagonal ist, mit den Eigenwerten von A auf der Diagonale. b) Kn hat eine Basis, die aus Eigenvektoren von A besteht. P c) Seien λ1 , . . . , λr ∈ K alle Eigenwerte von A. Dann ri=1 dim Eλi (A) = n. Gelten diese äquivalenten Bedingungnen, so heißt A diagonalisierbar, und wir nennen S eine diagonalisierende Matrix für A. Beweis. b) ⇔ c) wegen Lemma 8.7 b). a) ⇔ b): Sei S die Matrix mit Spalten v 1 , . . . , v n , bzw. v 1 , . . . , v n die Spalten von S. Dann S invertierbar ⇔ v 1 , . . . , v n Basis. Ferner S −1 AS hat jte Spalte λej ⇔ v j Eigenvektor von A zum Eigenwert λ. Bemerkung 8.9 Am Beweis wird klar, dass die Spalten einer diagonalisierenden Matrix eine Basis aus Eigenvektoren liefern. Wir weisen auf die Übungsserien hin, in denen Sie sich bereits mit Basiswechseln vertraut machen konnten: Wenn B0 die Standardbasis und B1 eine weitere Basis des Kn ist (im Lemma besteht B1 aus Eigenvektoren), dann ist S gleich der Darstellungsmatrix BB01 Id, und S −1 ist gleich der Darstellungsmatrix BB10 Id. Aus Satz 5.22 folgt, dass BB10 Id · A · BB01 Id die Darstellungsmatrix BB11 (Id ◦LA ◦ Id) = BB11 LA ist. 1 1 2 −1 und v 2 = mit Beispiel A = hat Eigenvektoren v 1 = 3 −2 1 3 1 1 2 Eigenwert 1 bzw. −1. Beachte: v 1 , v 2 ist eine Basis von R . Also ist S = 1 3 eine diagonalisierende Matrix für A und −1 1 1 2 −1 1 1 1 0 −1 S AS = = . 1 3 3 −2 1 3 0 −1 Wir haben A diagonalisiert. Zur Kontrolle kann man die Gleichung direkt prüfen. 55 1 1 1 3 0 0 Beispiel Oben gesehen: 1 1 1 lässt sich zu 0 0 0 diagonalisieren, 1 1 1 0 0 0 1 1 0 wegen b). Eine diagonalisierende Matrix ist S = 1 −1 1 . 1 0 −1 3 −1 Beispiel A = ist wegen c) nicht diagonalisierbar, denn pA (X) = 4 −1 2 X 2 − 2X + 1 = (X − 1) , d.h. 1 ist der einzige Eigenwert – und E1 (A) ist 1 eindimensional, mit Basis . 2 0 1 Beispiel Für A = ist pA (X) = X 2 + 1. Also nicht diagonalisierbar −1 0 über R, aber diagonalisierbar über C. 1 3 0 0 0 0 2 0 0 0 2 2 Beispiel Für A = 0 0 2 1 1 ist pA (X) = (X − 1) (X − 2) (X − 3) 0 0 0 3 4 0 0 0 0 1 (Block- u. obere Dreiecksgestalt). Die Eigenwerte sind 2, 3. 1, 0 3 0 0 0 1 0 0 1 0 0 0 0 0 , Basis 0, 1 . 0 0 1 1 1 E1 (A) ist Nullraum von 0 0 0 2 4 0 −2 0 0 0 0 0 0 1 −1 3 0 0 0 3 0 0 0 0 0 0 1 0 E2 (A) ist Nullraum von 0 0 0 1 1 , Basis 0, 1. 0 0 0 1 4 0 0 0 0 0 0 −1 0 0 −2 3 0 0 0 0 0 −1 0 0 0 0 0 −1 1 1 E3 (A) ist Nullraum von 0 , Basis 1. 0 1 0 0 0 4 0 0 0 0 −2 0 Wir erhalten insgesamt 5 Basislemente, alsoist A diagonalisierbar. Die diagona 1 0 3 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 , und S −1 AS = 0 0 2 0 0. 0 1 0 1 1 lisierende Matrix ist S = 0 −2 0 0 1 0 0 0 2 0 0 0 0 0 3 0 1 0 0 0 56 Lemma 8.10 Es sei A ∈ Mn (K). Wenn A n paarweise verschiedene Eigenwerte in K hat, dann ist A diagonalisierbar. 1 0 Vorsicht! Umkehrschluss gilt schon für nicht. 0 1 Beweis. Ist λ ein Eigenwert, dann dim Eλ (A) ≥ 1, also die Summe in Lemma 8.8 c) ist ≥ n. Aber nach Lemma 8.7 b) ist die Summe auch ≤ n. 1 5 −2 Beispiel Für A = 0 4 7 ist pA (X) = (X − 1)(X − 4)(X + 1). Drei 0 0 −1 verschiedene Eigenwerte 1, 4, −1, also diagonalisierbar. 0 0 −3 Beispiel Für A = 1 0 12 ist pA (X) = X 3 − 12X + 3 ∈ R[X]. Durch 0 1 0 Herumprobieren finden wir keine Nullstellen5 , daher machen wir eine Kurvendiskussion: es ist p0A (X) = 3(X 2 − 4), mit Nullstellen X = ±2. Es pA (−2) > 0 und pA (2) < 0; ferner wegen deg(pA ) ungerade strebt pA (x) → −∞ für x → −∞, und pA (x) → +∞ für x → +∞. Nach dem Zwischenwertsatz also gibt es mindestens eine reelle Nullstelle in jedem der Intervalle (−∞, −2), (−2, +2), (+2, +∞). Daher gibt es drei reelle Nullstellen, und A ist diagonalisierbar. 8.5 Mehr zum charakteristischen Polynom DefinitionP 8.11 Die Spur von A ∈ Mn (K) ist die Summe der Diagonaleinträge: Spur(A) = ni=1 Aii . 2 −1 Beispiel Spur = 2 + (−2) = 0. 3 −2 Lemma 8.12 Für A ∈ Mn (K) hat pA (X) die Gestalt pA (X) = X n −Spur(A)X n−1 +(Terme vom Grad n − 2 ≥ r ≥ 1)+(−1)n det(A) . A hat höchstens n verschiedene Eigenwerte in K. Beweis. Sei B = XEn − A. Nach der rekursiven Definition ist det(B) eine Summe von Produkten von Matrixeinträgen. Wir wollen uns diese Produkte genauer ansehen. Man erkennt an der rekursiven Definition, dass jedes Produkt einen Eintrag pro Zeile und außerdem einen pro Spalte enthält. Wenn das Produkt Bij mit i 6= j enthält, so kann es weder Bii noch Bjj enthalten, also enthält 5 Mit dem Irreduzibilitätskriterium von Eisenstein kann man sogar zeigen, dass es keine rationalen Nullstellen gibt. 57 das Produkt nur Terme vom Grad ≤ n − 2. Das heißt: In Graden n − 1 und n Q stimmt pA (X) mit ni=1 (X −Aii ) überein. Pn Daher ist pA (X) normiert vom Grad n, n−1 und der Koeffizient von X ist − i=1 Aii . Das Absolutglied ist pA (0) = det(−A) = (−1)n det(A). Wegen Grad n hat pA (X) höchstens n verschiedene Nullstellen. Fertig (Lemma 8.6). 3 4 Beispiel A = hat Spur 10, und det(A) = 17, also pA = X 2 −10X +17. 1 7 Lemma 8.13 Es seien A ∈ Mn (K) und S ∈ GLn (K). Für B = S −1 AS gelten det(B) = det(A) Spur(B) = Spur(A) pB (X) = pA (X) . Beweis. Es ist XEn − B = S −1 (XEn − A)S, also (Produktregel) pB (X) = det(S −1 )pA (X) det(S) = pA (X). Der Rest folgt aus Lemma 8.12. Korollar 8.14 Ist dim Eλ (A) = r, dann ist pA (X) durch (X − λ)r teilbar. Beweis. Sei v 1 , . . . , v r eine Basis von Eλ (A). Basisergänzungssatz: setze zu einer Basis B1 = (v 1 , . . . , v n ) des Rn fort. Seien S, F = LA und B = S −1 AS. Nach dem vorigen Lemma ist pA (X) = pB (X). Wie in Bemerkung 8.9 ist B = S −1 AS die Darstellungsmatrix von F bezüglich B1 (A ist die Darstellungsmatrix von LA bezüglich Wegen F (v i ) = λv i füri ≤ r hat B Blockgestalt der Standardbasis). λEr C (X − λ)Er −C , also XEn − B = für s = n − r, und nach 0 D 0 XEs − D der Blockmatrix-Regel ist pB (X) = (X − λ)r pD (X). 1 1 1 Beispiel Für A = 1 1 1 ist dim E0 (A) = 2 und dim E3 (A) ≥ 1. Also 1 1 1 2 X (X − 3) teilt pA (X). Da pA (X) normiert vom Grad 3, ist pA (X) = X 2 (X − 3). 58 9 Anwendungen linearer Algebra Die lineare Algebra hat zahlreiche Anwendungen in den Naturwissenschaften, aber auch in vielen anderen für das tägliche Leben relevanten Bereichen. Zum Abschluss dieser Vorlesung möchten wir zwei davon vorstellen. Die erste ist die Analyse eines klassischen elektrischen Schaltkreises (Wheatstone–Brücke), welche auf einer expliziten Lösungsformel für lineare Gleichungen basiert. Diese Lösungsformel heißt „Cramersche Regel“ und ist praktisch für kleine lineare Gleichungssysteme. Die zweite Anwendung betrifft „fehlerkorrigierende Codes“, ohne die Handies oder die Bildübertragung von anderen Planeten kaum möglich wären. 9.1 Die Cramersche Regel In der Laplace–Entwicklung zur Berechnung der Determinante einer (n × n)– Matrix A bildet man durch Streichen von Zeile i und Spalte j eine ((n − 1) × (n − 1))–Matrix A(i, j). Für die Cramersche Regel konstruieren wir eine (n × n)– Matrix Ã(i, j), die bis auf das Vorzeichen die gleiche Determinante wie A(i, j) hat. Definition 9.1 Es sei A ∈ Mn (K) und i, j = 1, ..., n. Dann ist Ã(i, j) ∈ Mn (K) die Matrix, die aus A entsteht, wenn man zunächstalle Einträge der i-ten Zeile und der j-ten Spalte auf Null setzt und schließlich Ã(i, j) auf 1 setzt. i,j Lemma 9.2 Es sei A ∈ Mn (K), und es seien a1 , ..., an die Spalten von A. Dann gilt für alle i, j = 1, ..., n: a) det Ã(i, j) = (−1)i+j det (A(i, j)) b) det Ã(i, j) = det(a1 , ..., aj−1 , ei , aj+1 , ..., an ). Beweis. a): Wir vertauschen die j-te Spalte von Ã(i, j) mit den j −1 links davon stehenden Spalten. Danach vertauschen wir die i-te i − 1 darüber liegenden Zeile mit den 1 0 ... 0 0 Zeilen. Dadurch entsteht die Matrix .. . Sie hat Blockgestalt . A(i, j) 0 und daher nach Lemma 7.5 die Determinante 1 · det (A(i, j)). Weil wir j −1 + i − 1 Vertauschungen von Zeilen und Spalten vornahmen, gilt det Ã(i, j) = (−1)i−1+j−1 det (A(i, j)) = (−1)i+j det (A(i, j)). b): Lemma 7.5 besagt, dass sich beim Addieren des Vielfachen einer Zeile zu einer anderen Zeile die Determinante nicht ändert. Sie ändert sich auch nicht, 59 wenn man das Vielfache einer Spalte zu einer anderen Spalte addiert (Grund: Die Determinante ändert sich auch nicht beim Transponieren). In der j-ten Spalte von Ã(i, j) steht der Spaltenvektor ei . Wenn wir nun für alle k = 1, ..., n, k 6= j das Ai,k –Fache von ei zu der k-ten Spalte von Ã(i, j) addieren, entsteht die Matrix mit den Spalten a1 , ..., aj−1 , ei , aj+1 , ..., an . ] Definition 9.3 Für A ∈ Mn (K) ist die zu A komplementäre Matrix A ∈ Mn (K) definiert durch A] i,j = det Ã(j, i) . Hinweis: Man beachte, dass es auf der rechten Seite nicht i, j, sondern j, i heißt. Satz 9.4 Für alle A ∈ Mn (K) gilt A] · A = A · A] = det(A)En . Wenn also A 1 A] . invertierbar ist (det(A) 6= 0), dann ist A−1 = det(A) a b Beispiel 9.5 Für A = ∈ M2 (K) ist c d 1 0 0 b det det 0 d 1 0 d −b ] A = = 0 1 a 0 −c a det det c 0 0 1 −1 Ferner ist det(A) = ad − bc. Ist die Determinante nicht Null, so ist also A = d −b 1 . Vgl. HA 9.4.d). ad−bc −c a Beweis von Satz 9.4. Wir berechnen den Eintrag von A] · A in der i-ten Zeile und j-ten Spalte, für i, j = 1, ..., n: n n X X ] Ak,j · det Ã(k, i) (A )i,k Ak,j = k=1 k=1 = n X Ak,j det(a1 , ..., ai−1 , ek , ai+1 , ..., an ) (Lemma 9.2.b)) k=1 = det a1 , ..., ai−1 , 1 = det a , ..., a i−1 n X ! Ak,j ek , ai+1 , ..., an k=1 j i+1 ,a ,a , ..., an (Multilinearität) Im vorletzten Schritt nutzen wir wieder, dass wir in Lemma 7.5 Zeilen und Spalten vertauschen können. Es ist ( 0 j 6= i wegen Lemma 7.5 det a1 , ..., ai−1 , aj , ai+1 , ..., an = det(A) sonst Also ist A] · A eine Diagonalmatrix, und alle Einträge auf der Diagonale sind det(A). Der Beweis für A · A] ist analog. 60 Die folgende Lösungsformel für lineare Gleichungssysteme war schon G. W. Leibniz [1646–1716] bekannt, ist aber nach Gabriel Cramer [1704–1752] benannt und war der historische Ursprung der Determinantentheorie. Cramersche Regel Es sei A ∈ GLn (K) mit Spalten a1 , ...an . Dann besteht LR(A; b) für alle b ∈ Kn aus einem einzelnen Vektor, dessen i-te Komponente gleich det (a1 , ...ai−1 , b, ai+1 , ..., an ) det(A) ist. Beweis. A ∈ GLn (K) heißt, dass A invertierbar ist. Dann ist LR(A; b) = des Matrixproduktes ist die i-te Kompo{A · b}. Nach Satz 9.4 und Definition Pn 1 1 nente von A−1 · b gleich det(A) det (a , ..., ai−1 , ek , ai+1 , ..., an ) · bk . Wiederum k=1 wegen Multilinearität der Determinante für die Spalten einer Matrix ist die Summe gleich det (a1 , ...ai−1 , b, ai+1 , ..., an ). −1 9.1.1 Die Wheatstonesche Messbrücke Abbildung 1 zeigt die Wheatstonesche Brückenschaltung6 , welche man für die Präzisionsmessung ohmscher Widerstände verwendet. Man hat eine Spannungsquelle U0 6= 0, ein Spannungsmessgerät U mit bekanntem Widerstand R5 , und bekannte Widerstände R1 , R2 , R3 , die wie in Abbildung 1 verschaltet sind. Es zeigt sich: Am Messgerät U liegt keine Spannung an (also U5 = 0), genau dann wenn R1 R4 = R2 R3 . Wenn also drei der Widerstände R1 , ..., R4 bekannt sind, kann man den vierten ausrechnen. Abbildung 1: Die Wheatstonesche Brückenschaltung (Quelle: Wikipedia) Für i = 1, ..., 5 schreiben wir Gi = R1i > 0, und es sei Ii der Strom, der bei Ui in Pfeilrichtung fließt. Nach Kirchhoffs Gesetz ist an jeder Verzweigung die Summe der einfließenden gleich der Summe der ausfließenden Ströme, also I2 = I1 + I5 , I3 = I4 + I5 und −I0 = I2 + I4 = I1 + I3 ; offenbar kann man I0 in 6 Erfunden 1833 von Samuel Hunter Christie [1784–1865], aber benannt nach Charles Wheatstone [1802–1875], der die Bedeutung dieser Schaltung erkannte. 61 den Gleichungen eliminieren. Ferner ist Ui = Ri · Ii nach dem Ohmschen Gesetz, also Ii = Ui · Gi , und schließlich ist U0 = U1 + U2 = U3 + U4 und U2 + U5 = U4 . Wir erhalten daraus ein System von zunächst sechslinearen Gleichungen mit 1 1 0 0 0 U0 U1 0 1 0 −1 1 0 U 2 0 U0 0 1 1 0 Unbekannten U1 , ..., U5 : G1 −G2 G3 −G4 0 · U3 = 0 . Die U4 G1 −G2 0 0 0 G5 U5 0 0 −G3 G4 G5 0 vierte Zeile entsteht aus der fünften durch Subtraktion dersechsten. Also bleibt U1 U0 U2 0 = U0 mit A = U ein System von fünf Gleichungen übrig, nämlich A · 3 U4 0 U5 0 1 1 0 0 0 0 1 0 −1 1 0 0 1 1 0 . G1 −G2 0 0 G5 0 0 −G3 G4 G5 Als erstes ist zu zeigen, dass die Matrix dieser Gleichung vollen Rang, also Determinante ungleich Null hat. Durch Zeilenoperationen erhalten wir: 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 −1 1 0 −1 1 0 0 1 1 0 0 0 1 1 0 = G1 −G2 0 0 0 0 G5 0 −G1 − G2 G1 + G2 + G5 0 0 0 −G3 0 −G3 G4 G5 G4 G5 1 1 0 0 0 0 1 0 −1 1 1 0 = 0 0 1 0 0 0 −G1 − G2 G1 + G2 + G5 0 0 0 G4 + G3 G5 Dies hat Blockgestalt. Der Block links oben hat Determinante 1, der Block rechts −G3 − G4 G1 + G2 + G5 = −(G3 +G4 )·G5 −(G3 +G4 )·(G1 +G2 +G5 ). unten ist G3 + G4 G5 Weil Gi > 0 für i = 1, ..., 5 gilt, ist det(A) < 0, also hat A vollen Rang, und die Cramersche Regel ist anwendbar. Um U5 zu berechnen, muss man in A die 5-te Spalte durch den Vektor auf der rechten Seite der Gleichung ersetzen und durch det(A) teilen, also U5 = 62 1 1 0 0 U0 0 1 0 −1 0 1 0 1 1 U0 . Man könnte jetzt zur Vereinfachung des zwei· 0 det(A) G1 −G2 0 0 0 0 0 −G3 G4 0 ten Faktors Zeilenoperationen verwenden, aber Spaltenoperation funktionieren auch, denn nach Lemma 7.5 ändert Transponieren (also der Rollentausch von Zeilen- und Spaltenoperationen) die Determinante nicht. Wir addieren zunächst die dritte Spalte zur ersten und die vierte Spalte zur zweiten. Wegen U0 6= 0 ist U10 definiert, und wir ziehen das U10 -fache der letzten Spalte von den ersten beiden ab. 0 0 0 0 U0 0 0 0 −1 0 0 1 1 0 und nach Vertauschen von zweiter und Wir erhalten 0 G1 −G2 0 0 0 −G3 G4 −G3 G4 0 vierter bzw. erster und letzter Zeile (zwei Vorzeichenwechsel, die sich aufheben) −G3 G4 −G3 G4 0 G1 −G2 0 0 0 0 0 1 1 0 . Mit der Formel für die Blockgestalt in Lemma 7.5 0 0 0 −1 0 0 0 0 0 U0 1 1 0 −G3 G4 1 ·0 −1 0 = 1 ·(G2 ·G3 −G1 ·G4 )·(−U0 ). folgt dann U5 = det(A) · det(A) G1 −G2 0 0 U0 1 Wegen U0 6= 0 6= det(A) ist also U5 = 0 genau dann wenn G1 · G4 = G2 · G3 , also R1 · R4 = R2 · R3 . Und das wollten wir zeigen. 9.2 Lineare Codes Während es beim Chiffrieren darum geht, Daten so zu verschlüsseln, dass unbefugter Zugriff möglichst schwer ist, geht es beim Codieren um die effiziente Speicherung und Übertragung von Daten. Bekanntlich werden alle Daten im Computer als Folgen von 0 und 1 („Bit“) dargestellt. Meist sind diese gruppiert: Ein Codewort entspricht genau n Bit. Offenbar kann man mit n Bit bis zu 2n verschiedene Codewörter darstellen. Doch beim Übertragen der Bitfolgen kann es zu Fehlern kommen: Statt einer 1 wird eine 0 oder umgekehrt übertragen.7 Zur Vereinfachung nehmen wir an, dass pro Codewort höchstens ein Fehler auftritt. Das Ziel ist, in der Menge der 2n möglichen Wörter eine Teilmenge C gültiger Codewörter so auszuwählen, dass man das Vorliegen eines Fehlers nicht nur erkennen, sondern den Fehler automatisch 7 In der Realität könnten auch Bits ausgelassen oder eingefügt werden, aber derartige Fehler betrachten wir hier nicht. 63 korrigieren kann, und dabei so viele Codewörter wie möglich zu benutzen. Ein Beispiel: Mit vier Bit kann man bis zu 16 Codewörter verwenden. Man könnte nun jedes Codewort doppelt übertragen. Es wäre also 11011101 ein Codewort, denn 1101 wird verdoppelt. Man überträgt also n = 8 Bit und wählt aus den 256 möglichen Wörtern 16 Codewörter aus. Wenn in den 8 Bit ein Fehler auftritt, etwa 11001101, so entsteht ein Wort, welches kein Codewort ist. Das Problem ist, dass man zwar sieht, dass ein Fehler vorliegt, man ihn aber nicht korrigieren kann: War 11011101 oder 11001100 gemeint? Mit linearer Algebra kann man mit n = 7 (also einer kürzeren Wortlänge) 16 Codewörter so wählen, dass ein einzelner Übertragungsfehler in den 7 Bit nicht nur erkannt, sondern sogar korrigiert wird. Die Grundidee ist, den Körper K = Z/2Z mit zwei Elementen zu verwenden (1+1 = 0). Ein K–Vektorraum V der Dimension d hat eine Basis v 1 , ...v d , und jedes Element von V lässt sich eindeutig als Linearkombination der d Basisvektoren darstellen. Die d Koeffizienten der Linearkombinationen sind frei aus K wählbar, also enthält V genau |K|d = 2d viele Elemente. Ein linearer Code der Länge n liegt vor, wenn die Menge der Codewörter einen Untervektorraum C von Kn bildet. Er lässt sich durch nur d = dim(C) Basisvektoren beschreiben, hat aber viel mehr Codewörter, nämlich 2d — das ist schon der erste Vorteil linearer Codes. Für die Analyse fehlerkorrigierender linearer Codes ist folgende Definition zentral: Definition 9.6 Es seien u, v ∈ Kn . Der Hamming–Abstand 8 d(u, v) ∈ N ist die Anzahl der Komponenten, in denen u und v sich voneinander unterscheiden. Beispiel d(11011100, 11011101) = 1, d(01000100, 11000101) = 2, wobei wir Elemente von Kn nach wie vor als Bitfolgen schreiben. Für Matrixmultiplikation sollte man sie sich allerdings wie gewohnt als Spaltenvektoren vorstellen. Der Hamming–Abstand teilt wesentliche Eigenschaften mit dem aus der Geometrie bekannten euklidischen Abstand. Insbesondere gilt d(u, v)+d(v, w) ≤ d(u, w) für alle u, v, w ∈ Kn (Dreiecksungleichung), d(u, v) = d(u − v, 0) (Verschiebungsinvarianz) und d(u, v) = d(v, u) (Symmetrie). Nehmen wir an, C ⊆ Kn sei so gewählt, dass d(u, v) ≥ 3 für alle u, v ∈ C. Wenn nun ein Codewort c ∈ C übertragen wird und dabei genau ein Fehler auftritt, so entsteht ein Wort c0 ∈ / C mit d(c, c0 ) = 1. Wegen der Dreiecksungleichung gilt für alle v ∈ C \ {c}: 3 ≤ d(c, v) ≤ d(c, c0 ) + d(c0 , v) = 1 + d(c0 , v) und demnach 2 ≤ d(c0 , v). Das korrekte Codewort c ist also eindeutig dadurch gegeben, dass es vom fehlerhaften Wort c0 unter allen Codewörtern den kleinsten Hamming– Abstand hat. Der Übertragungsfehler kann also korrigiert werden! Unten werden wir zeigen, wie man das korrekte Codewort leicht findet. 8 Richard Hamming [1915–1998] 64 Allgemein lassen sich t ∈ N Fehler korrigieren, falls der minimale Hamming– Abstand zweier Codewörter mindestens 2 · t + 1 beträgt (man nennt einen solchen Code „t–fehlerkorrigierend“). Wegen der Translationsinvarianz ist dies der Fall, genau dann wenn d(c, 0) ≥ 2 · t + 1 für alle c ∈ C \ {0}. 9.2.1 Der Hamming–Code Wir betrachten hier als Beispiel den so genannten „(7, 4)–Hamming–Code“. Die Zahlen geben die verwendete Wortlänge (hier n = 7) und die Dimension des Untervektorraums C (hier 4) an. Für reale Anwendungen würde man größere Codes verwenden, etwa den (63, 57)–Hamming–Code. Eine Basis von C ist gege 1 0 0 0 0 1 0 0 0 0 1 0 ben durch die Spalten der so genannten „Generatormatrix“ G = 0 0 0 1. 0 1 1 1 1 0 1 1 1 1 1 0 4 Durch Auflisten der 16 = 2 Codewörter kann man nachprüfen, dass d(c, 0) ≥ 3 für alle c ∈ C \ {0}. Also ist C 1–fehlerkorrigierend. Als nächstes benötigen wir diejenigen Zeilenvektoren z ∈ Kn , für die z · G = (0, 0). Offensichtlich ist dies ein System von d = dim(C) linearen Gleichungen mit n Unbekannten. Wegen Rang(G) = d folgt aus der Rangformel, dass die Lösungen des Gleichungssystems einen Untervektorraum der Dimension n − d (in unserem Beispiel also 3) bilden. Diesen Untervektorraum nenn man auch den „dualen Code“ C ⊥ . Eine Matrix H ∈ K(n−d)×n , dessen Zeilen eine Basis von C ⊥ bilden, heißt 1 0 0 1 1 0 1 „Kontrollmatrix “ von C. In unserem Beispiel ist H = 0 1 0 1 0 1 1 ei0 0 1 0 1 1 1 ne Kontrollmatrix (das kann man als Übung nachweisen). Nach Definition gilt H · c = 0 für alle c ∈ C. Darüber hinaus gilt: Lemma 9.7 LR(H, 0) = C. Für v ∈ Kn gilt also H · v = 0 genau dann wenn v ∈ C. Beweis. Nach Definition von H ist C ⊆ LR(H, 0). Da die Zeilen von H nach Definition linear unabhängig sind, gilt Rang(H) = n−d. Also ist dim (LR(H, 0)) = n − (n − d) = d = dim(C) und daher LR(H, 0) = C. Definition 9.8 Das Syndrom von v ∈ Kn ist s(v) = H · v ∈ Kn−d . Lemma 9.9 Es sei C ⊂ Kn ein t–fehlerkorrigierender linearer Code (in unserem Beispiel ist t = 1). Es seien v 1 , v 2 ∈ Kn mit d(v i , 0) ≤ t für i = 1, 2. Wenn s(v 1 ) = s(v 2 ), dann v 1 = v 2 . 65 Beweis. Die Syndrome sind gleich, also H · v 1 = H · v 2 . Es folgt H · (v 1 − v 2 ) = 0, also v 1 − v 2 ∈ C nach dem vorigen Lemma. Wäre v 1 6= v 2 , so ist nach Voraussetzung d(v 1 , v 2 ) = d(v 1 − v 2 , 0) ≥ 2 · t + 1. Nach der Dreiecksungleichung ist aber d(v 1 , v 2 ) ≤ d(v 1 , 0) + d(0, v 2 ) ≤ 2 · t. Das ist ein Widerspruch, also folgt v1 = v2. Wir können nun das fehlerkorrigierende Decodieren erklären. Es sei c ∈ C ein Codewort, das fehlerhaft übertragene Wort sei c0 . Der Übertragungsfehler sei f := c0 − c. Wir setzen voraus, dass es höchstens t Übertragungsfehler pro Codewort gibt. Es ist also d(f , 0) ≤ t. Es ist s(c0 ) = H · c0 = H · (c + f ) = (H · c) + (H · f ) = 0 + s(f ). Nach dem vorigen Lemma ist f der einzige mögliche Fehlervektor mit diesem Syndrom. Wir berechnen also s(c0 ), sehen dann in einer Tabelle den dazugehörigen Fehlervektor f nach, und erhalten das fehlerkorrigierte Codewort c = c0 − f . In unserem Beispiel ist dies die Tabelle mit den Syndromen der Fehlervektoren (als Bitfolgen geschrieben): Fehlervektor 0000000 0000001 0000010 0000100 0001000 0010000 0100000 1000000 Syndrom 000 111 011 101 110 001 010 100 Wird das Wort c0 = 0010001 empfangen, so ist s(c0 ) = H · c0 = 110. Der Fehlervektor ist also f = 0001000. Das fehlerkorrigierte Codewort ist also c = c0 − f = 0011001. Man kann überprüfen, dass dies die Summe der zweiten und dritten Spalte9 der Generatormatrix G und damit eine Element von C ist. Man beachte, dass es viel aufwändiger wäre, für jedes der 16 Codewörter den Hamming– Abstand zu c0 zu berechnen und dann das Codewort mit dem geringsten Abstand zu wählen. Die Hamming–Codes haben noch eine weitere schöne Eigenschaft: Zu jedem Wort c0 gibt es ein eindeutig bestimmtes Codewort, welches zu c0 minimale Hamming–Distanz hat. Das heißt, wenn es bei der Übertragung eines Codewortes c zwei Fehler gab und es als c0 übertragen wurde, dann gibt es ein anderes Codewort c̃ ∈ C mit d(c̃, c0 ) = 1. Allgemein definiert man: Definition 9.10 Es sei C ⊂ Kn t ein t–fehlerkorrigierender Code. Wenn ∀c0 ∈ Kn : ∃c ∈ C : d(c, c0 ) ≤ t, so heißt C perfekt. Hamming–Codes sind perfekte 1–fehlerkorrigierende Codes. 9 Wir schreiben Codewörter als Bitfolge, obwohl sie „eigentlich“ Spaltenvektoren sind. 66 9.2.2 Perfekte Codes und Sportwetten Perfekte Codes dienen nicht nur der Datenübertragung: Man kann auch versuchen, mit ihnen Sportwetten zu „knacken“. Beim Fußballtoto wird jede Woche eine Liste von n Fußballspielen ausgewählt, auf deren Ergebnis gewettet wird; für jedes Spiel gibt es drei mögliche Spielergebnisse, nämlich Unentschieden (0), Heimsieg (1) oder Auswärtssieg (2). Es gibt also 3n mögliche Wetten, und der Wettgewinn hängt von der Anzahl der richtig vorhergesagten Spielergebnisse ab. Toto gab es auch in der DDR. In der BRD wurde Toto ab 1956 mit n = 12 (Zwölferwette), ab 1959 mit n = 13 (Dreizehnerwette), ab 1967 wieder als Zwölferwette, ab 1969 mit n = 11 (Elferwette) und ab 2004 wieder als Dreizehnerwette gespielt. Der Einsatz beträgt 0,50e pro Wette (wir vernachlässigen die Gebühr von 0,35e pro Wettschein). Nach Daten der Westdeutschen Lotterie GmbH & Co OHG beträgt der theoretische Nettogewinn bei 13 richtig vorhergesagten Spielergebnissen rund 99.000e, bei 12 Richtigen rund 3.800e, bei 11 Richtigen rund 300e und bei 10 Richtigen rund 40e. Eine mögliche Gewinnstrategie für die Dreizehnerwette besteht nun darin, verschiedene Wetten so abzugeben, dass garantiert (also unabhängig von den tatsächlichen Spielergebnissen) mindestens eine Wette mit mindestens 11 Richtigen dabei ist. Dabei sollte natürlich die Anzahl der Wetten so klein sein, dass der Wetteinsatz kleiner als der erwartete Nettogewinn ist. Beim Platzieren dieser Wetten helfen perfekte Codes. Da es drei mögliche Einzelergebnisse gibt, kann man diesmal K = Z/3Z wählen, also den Körper mit drei Elementen 0, 1, 2 = −1. Die möglichen Wetten entsprechen den 3n Elementen von Kn . Auch in diesem Fall gibt es Hamming– k Codes10 . Sie sind perfekt, 1–fehlerkorrigierend, und es gilt C ⊂ Kn mit n = 3 2−1 und d = dim(C) = n − k für ein k ∈ N. Dabei ist weiterhin n die Anzahl der Spielergebnisse pro Wette, es werden 3d Wetten abgegeben, und es ist garantiert, dass eine der Wetten n − 1 oder gar n Richtige hat. 3 Praktischerweise ist 13 = 3 2−1 . Mit dem ternären Hamming–Code für k = 3 würde man also 313−3 = 59049 Wetten abgeben — der Wetteinsatz (ohne Gebühr) dafür beträgt 29.524,50e. Es gibt insgesamt 313 = 1594323 mögliche Wetten. Wenn man eine gleichmäßige Verteilung der Spielergebnisse annimmt, beträgt 10 1 die Wahrscheinlichkeit für 13 Richtige 3313 = 27 . Wenn man keine 13 Richtigen 1 hat, so sind 12 Richtige garantiert — dafür ist die Wahrscheinlichkeit 1− 27 = 26 . 27 Kleinere Gewinne vernachlässigen wir an dieser Stelle. Wir erwarten also einen 1 26 Nettogewinn von ( 27 · 99.000 + 27 · 3.800)e, also rund 7.325e. Schade — nach Abzug des Wetteinsatzes würde man einen herben Verlust machen! Es gibt noch andere perfekte Codes, zum Beispiel den ternären Golay11 –Code. Dies ist ein perfekter 2–fehlerkorrigierender Code mit K = Z/3Z, n = 11 und 10 11 Über K = Z/3Z nennt man sie ternär. Marcel Jules Edouard Golay [1902–1989], Schweizer Elektroingenieur 67 dim(C) = 6. Das würde eher zur Elfer– als zur Dreizehnerwette passen.12 Doch auch für die Dreizehnerwette kann man den Golay–Code nutzen. Mit „Expertenwissen“ könnte es nämlich möglich sein, das Ergebnis von zwei der dreizehn Spiele mit ziemlicher Sicherheit vorherzusagen. Auf diese zwei Spielergebnisse würde man also fest wetten und auf die restlichen 11 Spielergebnisse verschiedene Wetten gemäß des ternären Golay–Codes abgeben. Man erhält 36 = 729 Wetten, also einen Wetteinsatz von 364,50e. Falls das „Expertenwissen“ zutrifft und die Spielergebnisse gleichverteilt sind, erhält man 13 Richtige mit der Wahr6 1 . Für jedes Codewort des Golay–Codes gibt es 11 mögliche scheinlichkeit 3311 = 243 Stellen, an denen es einen Fehler geben kann, und wir haben |K| = 3. Also gibt es für jedes Codewort 11 · (|K| − 1) = 22 Wörter mit Hamming–Abstand 1. Weil der Golay–Code 2–fehlerkorrigierend ist, überlappen sich diese Wortmengen nicht. 22 hat man zwar keine 13, aber 12 Richtige. Das heißt: Mit Wahrscheinlichkeit 243 Weil der Golay–Code 2–fehlerkorrigierend und perfekt ist, hat man ansonsten 11 1 22 Richtige, also mit Wahrscheinlichkeit 1 − 243 − 243 = 220 . Der erwartete Nettoge243 1 22 220 winn beträgt rund ( 243 · 99.000 + 243 · 3.800 + 243 · 300)e, das sind rund 1.023e — das liegt deutlich über dem Wetteinsatz! In dieser Analyse wurde einerseits Expertenwissen für zwei Spiele, andererseits eine Gleichverteilung der übrigen elf Spielergebnisse vorausgesetzt. Das sind nicht sehr realistische Annahmen, so dass Sie sich auf obige Gewinnstrategie nicht verlassen sollten. Wenn es zu viele Gewinner gibt, dann sinken außerdem die Quoten. Suchen Sie sich also lieber einen richtigen Beruf — zum Beispiel RegelschullehrerIn. 12 Mir ist nicht bekannt, ob deshalb von der Elfer– zur Dreizehnerwette gewechselt wurde. 68