Lineare Algebra und analytische Geometrie J. Apel Vorlesung WS 2001/02 Preliminary version – 8. Januar 2002 Inhaltsverzeichnis 1 Einleitung 2 2 Grundlagen der Mathematik 2.1 Logische Symbole und Formeln . . 2.2 Mengenoperationen . . . . . . . . . 2.3 Binäre Relationen . . . . . . . . . . 2.4 Korrespondenzen und Abbildungen 2.5 Algebraische Strukturen . . . . . . 3 Lineare Gleichungssysteme I 3.1 Matrizen . . . . . . . . . . . . . . . 3.1.1 Äquivalenz von Matrizen . . 3.1.2 Der Gauß-Algorithmus . . . 3.2 Lösung linearer Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 9 14 16 22 . . . . 26 29 34 37 41 4 Klassische algebraische Strukturen 4.1 Strukturen mit einer binären Operation – Halbgruppen, Monoide und Gruppen . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Die symmetrische Gruppe Sn . . . . . . . . . . . . . 4.2 Algebraische Strukturen mit zwei binären Operationen – Ringe und Körper . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Der Körper C der komplexen Zahlen . . . . . . . . . . 62 . 65 5 Lineare Gleichungssysteme II 5.1 Determinaten . . . . . . . . . . . . . 5.2 Cramersche Regel zum Lösen linearer 5.3 Berechnung inverser Matrizen . . . . 5.4 Determinantensatz . . . . . . . . . . . . . . . . . . . . . . . . . Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . i Preliminary version – 8. Januar 2002 . . . . . . . . 50 . 50 . 59 71 72 81 83 85 5.5 Algebraische Struktur der Lösungsmenge eines linearen Gleichungssystems . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Geometrische Deutung der Lösungsmenge eines linearen Gleichungssystems . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7 Lagebeziehungen von Geraden und Ebenen im Raum . . . . 5.8 Durchschnitte linearer geometrischer Objekte . . . . . . . . 6 Vektorräume und lineare Abbildungen 6.1 Lineare Unabhängigkeit von Vektoren . . . . . . . . . . 6.2 Untervektorräume und Basen . . . . . . . . . . . . . . 6.3 Koordinatendarstellung von Vektoren . . . . . . . . . . 6.4 Lineare Abbildungen . . . . . . . . . . . . . . . . . . . 6.5 Basistransformationen . . . . . . . . . . . . . . . . . . 6.6 Eigenwerte und Eigenvektoren einer linearen Abbildung . 86 . 90 . 95 . 97 . . . . . . . . . . . . . . . . . . 100 101 102 108 110 115 116 7 Euklidische Räume 7.1 Das Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . 7.2 Schmidtsches Orthonormierungsverfahren . . . . . . . . . . 7.3 Isomorphismen Euklidischer Vektorräume . . . . . . . . . . 7.4 Euklidische affine Räume und Bewegungen . . . . . . . . . 7.4.1 Bewegungen in Ebene und Raum . . . . . . . . . . 7.5 Abstände und Schnittwinkel Euklidischer affiner Teilräume . . . . . . . . . . . . 122 123 127 130 133 134 139 ii Preliminary version – 8. Januar 2002 . . . . . . Kapitel 1 Einleitung Der Titel dieser ersten von vier Vorlesungsreihen der Mathematik-Ausbildung für Informatiker wird von zwei Grunddisziplinen, der Algebra und der Geometrie geprägt. Klassisches Anliegen der Algebra war das Rechnen mit Buchstabenausdrücken, insbesondere das Auflösen algebraischer Gleichungen. Daraus entwickelte sich die moderne Algebra, als die Lehre von den algebraischen Strukturen, d.h. von Mengen auf denen Operationen und Relationen erklärt sind. Die allgemeinste Theorie der universellen Algebra, dabei werden keine weiteren Einschränkungen an die Operationen und Relationen gemacht, wird Ihnen noch in diesem Semester in der zur theoretischen Informatik zählenden Vorlesungsreihe zur Mengenlehre wieder begegnen. Eine algebraische Gleichung als das klassische Objekt der Algebra besteht aus zwei durch ein Gleichheitszeichen getrennte Ausdrücke, die nur mittels Addition und Multiplikation aus Zahlen und Variablen gebildet sind. Die Auflösung einer derartigen Gleichung besteht in der Suche nach einer (oder allen möglichen) Ersetzung(en) der Variablen durch Zahlen, so daß beide Seiten der Gleichung bei Auswertung den gleichen Wert ergeben. Eine Vielzahl praktischer Probleme läßt sich durch algebraische Gleichungen beschreiben und lösen. Nicht zuletzt dadurch kommt den algebraischen Strukturen mit Addition und Multiplikation, oder allgemeiner den algebraischen Strukturen mit einer oder zwei binären Operationen, eine besondere Bedeutung zu. Die wichtigsten derartigen Strukturen sind Halbgruppen, Gruppen, Ringe und Körper. Häufig bezieht sich die Bezeichnung Algebra ohne das Adjektiv “universell” auf die Untersuchung gerade dieser Strukturen. 2 Preliminary version – 8. Januar 2002 Man unterscheidet die uns hier vorrangig interessierende lineare Algebra, deren Anliegen die Lösung und das Studium linearer Gleichungssysteme ist. Eine lineare Gleichung zeichnet sich gerade dadurch aus, daß in jedem auftretenden Produkt höchstens ein Faktor Variablen enthalten darf. Läßt man diese Einschränkung fallen, so gelangt man zur ungleich schwerer beherrschbaren nichtlinearen Algebra, auf die wir nur in sehr speziellen Fällen zu sprechen kommen werden. Als zweite mathematische Disziplin interessiert uns die Geometrie, welche ursprünglich als die Lehre vom Raum und den räumlichen Objekten entstand. Mit der Axiomatisierung der Geometrie löste sich die Theorie immer weiter von der räumlichen Anschauung ab. Heute können aus den Axiomen der Geometrie abgeleitete Aussagen über Objekte getroffen werden, die augenscheinlich nicht mehr viel mit den klassischen Vorstellungen zu tun haben. Unsere Untersuchungen werden auf die klassische Geometrie beschränkt bleiben. Die analytische Geometrie beschreibt geometrische Objekte mit Hilfe der Koordinatenmethode. Aus dem Schulunterricht ist Ihnen bekannt, wie man die geometrischen Grundobjekte, Punkte und Gerade, anhand von Ortsvektoren und Gleichungen zwischen den Koordinaten beschreiben kann. Ebenso führen geometrische Aktionen wie Verschiebungen, Drehungen oder Spiegelungen auf Koordinatenrechnungen. Das Wechselspiel zwischen Geometrie und Algebra macht man sich ebenso beim Studium komplizierterer geometrischer Objekte nutzbar. Faßt man ein Polynom als Abbildungsvorschrift einer Funktion auf, dann lassen sich die Nullstellen als Koordinaten von Punkten deuten. Die algebraische Geometrie beschäftigt sich mit dem Wechselspiel zwischen Mengen von Polynomen und dem geometrischen Ort ihrer gemeinsamen Nullstellen. 3 Preliminary version – 8. Januar 2002 Kapitel 2 Grundlagen der Mathematik Will man beim Behandeln eines beliebigen Gebietes der Mathematik über den naiven Standpunkt hinauskommen, so benötigt man zunächst einiges Rüstzeug aus Logik und Mengenlehre. Diese beiden in ihrer strengen axiomatischen Form erst in diesem Jahrhundert entwickelten Disziplinen nennt man auch die Grundlagen der Mathematik. Logik und Mengenlehre sind für Mathematik und Informatik, und damit auch für jede andere ernsthafte Wissenschaft, gleichermaßen wichtig. Seien Sie also nicht erstaunt darüber, daß die Vorlesungen zu den Grundlagen der Mathematik heute der theoretischen Informatik zugeordnet werden. Wenngleich Logik und Mathematik besonders abstrakt erscheinen, so stellen doch gerade sie die wesentliche Schnittstelle zwischen der materiellen Realität und der abstrakten Welt der Mathematik dar. Beide Wissenschaften sind daher eng mit philosophischen Fragestellungen verbunden. 2.1 Logische Symbole und Formeln Das Anliegen der Mathematik besteht in der Formulierung und dem Beweisen von Aussagen. Dazu bedarf es zunächst einmal einer geeigneten formalisierten Sprache. Warum reicht eine menschliche Sprache nicht immer aus? Menschliche Sprachen sind zu umständlich, die Formulierung mathematischer Aussagen wird leicht sehr lang und unübersichtlich. Außerdem besitzen menschliche Sprachen eine Reihe von Mehrdeutigkeiten, deren man sich beim ersten Blick nicht einmal bewußt ist. Außerdem sind menschliche Sprachen stark kontextabhängig. Betrachten Sie beispielsweise den Satz 4 Preliminary version – 8. Januar 2002 An diesem Treffen nahmen berühmte Frauen und Männer teil. Bezieht sich berühmt nur auf die Frauen oder auch auf die Männer? Die Antwort ist nicht klar, die umliegenden Sätze können aber zur Klärung beitragen. Wer sich für dergleichen Phänomene interessiert, dem empfehle ich den Besuch der Vorlesungen zur automatischen Sprachverarbeitung in späteren Semestern. Um diesen Problemen aus dem Wege zu gehen, haben sich die Mathematiker eine eigene kompakte Sprache, die Logik, geschaffen, deren Sätze, d.h. Formeln, keine Mehrdeutigkeiten zulassen. Nun ist es nicht so, daß die Mathematiker nur auf dem Niveau der Logik miteinander komunizieren. Würden Sie ein Mathemtiklehrbuch komplett in die Logik übertragen, so wäre es für einen Menschen praktisch nicht mehr zu verstehen. Üblich ist ein Zwischenweg, man formuliert die Theorie in einer menschlichen Sprache (oft Englisch) und formalisiert nur kurze überschaubare Stücke, nämlich solche wo man eine kurze prägnante Formulierung anstrebt, die jeder Mathematiker sofort überblickt, oder solche wo man Mehrdeutigkeiten vorbeugen möchte. Ebenso wollen wir es in dieser Vorlesung halten. Dafür wollen wir jetzt die notwendige Symbolik und die Erklärung ihrer Bedeutung bereitstellen. Dabei werden wir aber auf einem naiven Niveau verharren, die exakte Theorie werden Sie in einem späteren Semester in der theoretischen Informatik kennen lernen. Unter einer Aussage versteht man ein spachliches Konstrukt, welches entweder wahr oder falsch ist. In diesem Sinne sind 3 ist eine Primzahl und 5 ist größer als 8 Aussagen, die erste ist wahr die zweite falsch. Keine Aussage ist dagegen a ist Teiler von b, denn der Wahrheitswert dieses Konstrukts hängt davon ab, für welche Zahlen die Variablen a und b stehen. Bezeichnen die Variablen A und B Aussagen, so sind auch (¬A) (A ∧ B) (A ∨ B) (A → B) (A ↔ B) nicht A A und B A oder B aus A folgtB A genau dann, wenn B Aussagen und der Wahrheitswert der Gesamtaussage läßt sich allein aus den Wahrheitswerten der Teilaussagen bestimmen. Insbesondere werden keine inhaltlichen Bezüge zwischen den Teilaussagen A und B verlangt. So ist A∨B wahr, wenn wenigstens eine der beiden Aussagen A oder B (möglicherweise 5 Preliminary version – 8. Januar 2002 aber auch beide) wahr sind. Sind sowohl A als auch B falsch, so ist auch A ∨ B falsch. Die nach den obigen Regeln aus Aussagenvariablen, den Funktoren ¬, ∧, ∨, → und ↔ sowie den Klammern gebildeten Zeichenketten1 nennt man aussagenlogische Formeln. Mittels der aussagenlogischen Formeln lassen sich Beziehungen zwischen Aussagen formulieren und untersuchen. Die Feinstruktur, d.h. die inhaltliche Bedeutung, der Aussagen selbst bleibt jedoch im Dunkeln, da man auf dem Grundniveau nur Aussagenvariablen zur Verfügung hat. Diese können wahr oder falsch sein, eine inhaltliche Bedeutung kommt ihnen aber nicht zu. Um die Feinstruktur zu beschreiben, muß man zur Prädikatenlogik übergehen. Dort spiegelt eine elementare Aussage eine Beziehung zwischen Elementen oder Verknüpfungen von Elementen einer oder mehrerer Mengen wider. Läßt man anstelle der Elemente auch Variablen für Elemente zu, so gelangt man zu sogenannten Aussageformen, deren Wahrheitsgehalt noch von der Belegung der Variablen abhängen kann. Ein elementare prädikatenlogische Formel, diese übernimmt nun die Rolle der Aussagenvariablen, hat die Gestalt P (t1 , . . . , tn ). Dabei sind die t1 , . . . , tn Terme, sie entstehen durch möglicherweise geschachtelte Anwendung von Funktionen auf Elemente und Variablen. Beispiele für Terme sind 4, x oder (a + 1)3 . P ist ein Prädikatensymbol, welches eine Beziehung zwischen den Termen t1 , . . . , tn beschreibt. Typische Prädikatensymbole sind <, ≤, =, ≥, > oder auch das Teilbarkeitssymbol | (man schreibt a | b für a teilt b). Dazu verbleibt anzumerken, daß man binäre Prädikatensymbole häufig in Infix-Notation verwendet, die Gestalt ist dann also (t1 P t2 ), oft läßt man die äußeren Klammern auch noch weg. Aus prädikatenlogischen Formeln kann man durch Anwendung der logischen Funktoren ¬, ∧, ∨, → und ↔ und durch Quantifizierung weitere prädikatenlogische Formeln bilden. Die Anwendung der logischen Funktoren verläuft analog zum Aufbau der aussagenlogischen Formeln, aber die elementaren prädikatenlogischen Formeln übernehmen die Rolle der Aussagenvariablen. Außerdem kann man durch Quantifizierung vollfreier2 Variablen neue prädikatenlogische Formeln konstruieren. Sei A(x) eine prädikatenlogische Formel, in der die Variable x vollfrei vorkommt. Man unterscheidet die Generalisie1 Anstelle der Aussagenvariablen können auch auf die obige Weise gebildete Formeln in die Bildung eingehen. 2 Man sagt, x kommt vollfrei in A vor, wenn x in A frei, aber nicht gebunden vorkommt. Letzteres heißt, kein Quantor in A darf sich auf die Variable x beziehen. 6 Preliminary version – 8. Januar 2002 rung von x: (∀x A(x)) für alle x gilt A(x) und die Partikularisierung von x: (∃x A(x)) es existiert (mindestens) ein x, für welches A(x) gilt Zuweilen verwendet man weitere Quantoren, wie ∃! in (∃!x A(x)) es existiert genau ein x, für welches A(x) gilt Kommt in einer prädikatenlogischen Formel keine freie Variable mehr vor, d.h. alle Variablen stehen im Wirkungsbereich eines auf sie bezogenen Quantors, dann ist die durch sie beschriebene Aussageform sogar eine Aussage, d.h. ihr Wahrheitswert hängt nicht mehr von der Belegung von Variablen ab. Die Anwendung der Funktoren ¬, ∧, ∨, → und ↔ und der Quantoren ∀ und ∃ kann beliebig geschachtelt werden. Natürlich leidet die Übersichtlichkeit unter der Vielzahl der Klammern, aber vollständiger oder unkontrollierter Verzicht führt zu Mehrdeutigkeiten des Wahrheitswertes. Z.B. darf man äußere Klammern weglassen, muß sie aber gegebenenfalls wieder hinzufügen, wenn man den Ausdruck in einen komplizierteren Ausdruck einbaut. Ähnlich der aus der Schulmathematik bekannten Regel “Punktrechnung geht vor Strichrechnung” legt man auch in der Logik Regeln zur Einsparung von Klammern fest. So binden die Funktoren ¬, ∧, ∨, → und ↔ von links nach rechts immer schwächer. Wir vereinbaren, daß die Quantoren schwächer als alle Funktoren binden. Bei manchen Funktoren hängt der Wert des zusammengesetzten Ausdrucks gar nicht von der Klammerung ab, auch dann kann man darauf verzichten. Dabei handelt es sich um die assoziativen Funktoren ∧ und ∨. Bei aufeinanderfolgenden Quantoren oder Negationen ist überhaupt nur eine Klammerung sinnvoll, also kann man auch dort auf die Klammersetzung verzichten. Klammern, deren Weglassen zu Mehrdeutigkeiten führen würde, müssen gesetzt werden. So ist die Implikation nicht assoziativ und bei mehreren aufeinanderfolgenden Pfeilen ist eine Klammersetzung unumgänglich. Aber es besteht keineswegs die Pflicht, alle anderen Klammern wegzulassen. Im Zweifelsfall ist man auf der sicheren Seite und oft erhöht es das Verständnis, wenn man einige strukturprägende Klammern setzt, obwohl sie 7 Preliminary version – 8. Januar 2002 weggelassen werden dürften. Zum Beispiel sind folgende Interpretationen vorzunehmen: A∧B∨C ∀x A ∧ ∃yB ∃x A → B A∧B∧C ¬¬A = b = b = b = b = b (A ∧ B) ∨ C ∀x (A ∧ (∃yB)) ∃x (A → B) A ∧ (B ∧ C) oder (A ∧ B) ∧ C ¬(¬A) Schließlich sei noch angemerkt, daß die Regeln zum Weglassen der Klammern nicht in jedem Buch auf die gleiche Weise festgelegt seien müssen. Insbesondere die Regeln im Zusammenhang mit den Quantoren sind durchaus auch anders anzutreffen. Im Zweifelsfalle sollte man immer nach den Festlegungen suchen, die im entsprechenden Buch erwähnt werden. Übungen zur Selbstkontrolle 1. Welche der folgenden Sätze sind Aussagen? (a) Am 31.12.1999 um 13 Uhr wird es auf dem Leipziger Marktplatz schneien. (b) Lauf langsamer! (c) x ist gerade und x + 1 ist ungerade. (d) Wenn 3 durch 5 teilbar ist, dann ist 24 eine Primzahl. (e) Wenn 15 ein Vielfaches der Summe von 3 und 2 ist, dann ist die Differenz von 19 und 8 größer als 7. (f) Wie komme ich zum Bahnhof? (g) Für alle natürlichen Zahlen x gilt, wenn x gerade ist, so ist x durch 2 teilbar. (h) Vielen wird es besser gehen. 2. In den folgenden aussagenlogischen Formeln sind gemäß unserer Vereinbarungen Klammern weggelassen wurden. Setzen Sie die weggelassenen Klammern wieder ein und stellen Sie den Wahrheitwert der Aussagen fest, wenn A und C für wahre sowie B und D für falsche Aussagen stehen. 8 Preliminary version – 8. Januar 2002 (a) A ∨ B ∧ C ∨ D (b) A ∧ B ∨ C ∧ D (c) ¬A ∧ C (d) A ∧ B → D ∨ ¬D 3. Welche der folgenden Zeichenketten sind (unter Berücksichtigung der eingführten Regeln zum Weglassen von Klammern) prädikatenlogische Formeln? Bei welchen der Formeln handelt es sich um eine Aussage und bei welchen um eine Aussageform? Geben Sie für jede Formel die Mengen der in ihr auftretenden freien, gebundenen und vollfreien Variablen an. (x, y, a, b, bezeichnen Variablen für Elemente des Grundbereichs, P , Q, <, >, | sind Prädikatensymbole.) (a) P (x) ∨ (x > 3) ∨ (x = 3) (b) (b < a) → (a < b) → (b < a) (c) ∀a (2 | a) → ¬(2 | (a + 1)) (d) ∀x (P (x) ∨ ∃y ¬Q(x, y)) (e) (∃x (3 | x)) ↔ (∀y ¬Q(x, y)) (f) ∀y (x < y) ∨ ∀y (x < y) (g) (∀y (x < y)) ∨ (∀y (x < y)) 2.2 Mengenoperationen Der grundlegenste Begriff der Mathematik ist der der Menge. In der theoretischen Informatik erhalten Sie zur Zeit eine Einführung in die axiomatische Mengenlehre, uns soll hier eine naive Vorstellung genügen. Wir nehmen an, es gibt ein Universum3 U aller uns interessierenden Objekte. Als Menge bezeichnen wir dann eine Zusammenfassung gewisser Objekte aus dem Universum, diese werden die Elemente der Menge genannt. Ist a zur Menge M gehöriges Objekt aus U , so schreibt man a ∈ M . Ist a ein Objekt aus U , welches nicht zu M gehört, so drückt man das durch die Schreibweise a∈ / M aus. Da wir das Universum selbst als Menge vereinbart haben, gilt 3 Manchmal spricht man auch von der Allmenge. 9 Preliminary version – 8. Januar 2002 ∀a (a ∈ U ). Faßt die Menge M gerade die Objekte a1 , . . . , am des Universums zusammen, so schreiben wir dafür M = {a1 , . . . , am }. Ist M Zusammenfassung unendlich vieler Objekte, so ist eine einfache Aufzählung aller Elemente nicht mehr möglich. Kann man aber die Elemente von M dadurch auszeichnen, daß sie eine Bedingung B(x) erfüllen, welche von allen nicht zu M gehörigen Objekten des Universums nicht erfüllt wird, so schreibt man M = {x ∈ U : B(x)} oder, wenn das zugrundeliegende Universum klar ist, einfach M = {x : B(x)}. Den Sachverhalt M = {x : B(x)} kann man auch durch die Formel ∀x (x ∈ M ←→ B(x)) beschreiben. Die Bedingung B(x) kann auch einfach in deutscher Sprache formuliert werden, z.B. M = {x : x ist eine Primzahl}, wobei die Menge der natürlichen Zahlen als Universum dient. Mittels der speziellen Bedingung x 6= x definieren wir die Menge ∅ := {x : x 6= x} . Da jedes Objekt zu sich selbst gleich ist, gilt ∀x ∈ U (x ∈ / ∅). Die sodefinierte Menge ∅ wird leere Menge genannt. Zwei Mengen M und N sind per definitionem genau dann gleich, wenn sie die gleichen Objekte umfassen, d.h. M = N :⇐⇒ ∀a (a ∈ M ↔ a ∈ N ) . Aus dieser Gleichheitsdefinition folgt, daß die Elemente einer Menge weder einer Ordnung (einer Reihenfolge) unterliegen, noch mehrfach in die Menge eingehen können. So überprüft man nach der obigen Gleichheitsdefinition, daß {a, b, a}, {b, a} und {a, b} drei verschiedene Schreibweisen für die gleiche Menge sind. Ebenso beschreiben {x ∈ N : x ist eine einstellige ungerade Primzahl}, {x : x ist eine natürliche Zahl zwischen 2 und 8, welche nicht durch 2 teilbar ist} und {3, 5, 7} die gleiche Menge. Man beachte die Ungleichheit ∅ = 6 {∅}, denn es gilt ∅ ∈ {∅} aber ∀x (x ∈ / ∅), also insbesondere auch ∅ ∈ / ∅. Eine Menge N wird als Teilmenge der Menge M (symbolisch N ⊆ M ) bezeichnet, wenn jedes Element von N auch zu M gehört, d.h. N ⊆ M :⇐⇒ ∀a (a ∈ N → a ∈ M ) . Für jede Menge M gilt ∅ ⊆ M , denn für N = ∅ ist die linke Seite der Implikation für jedes Objekt a des Universums falsch und folglich ist die 10 Preliminary version – 8. Januar 2002 Gesamtimplikation unabhängig vom Wahrheitswert der rechten Seite immer wahr. Auf änliche Weise weist man N ⊆ U für beliebiges N nach, denn für M = U wird die rechte Seite der Implikation für jedes Objekt a des Universums U wahr. Sind M und N Mengen, dann ist auch die Gesamtheit der Elemente von M und N eine Menge, welche Vereinigung M ∪ N von M und N genannt wird. In mathematischer Notation sieht die Definition wie folgt aus M ∪ N := {x : x ∈ M ∨ x ∈ N } . Analog zur Vereinigung definiert man den Durchschnitt M ∩ N als die Gesamtheit aller zu beiden Mengen gehörigen Objekte, d.h. M ∩ N := {x : x ∈ M ∧ x ∈ N } ein. Die Mengendifferenz M \ N ergibt sich als M \ N := {x : x ∈ M ∧ x ∈ / N} . Die spezielle Mengendifferenz U \ M besteht aus allen Objekten des Universum, welche nicht der Menge M angehören, man nennt sie auch Komplement von M (bezüglich U ) und bezeichnet sie mit M . Wichtige Rechenregeln für Mengenoperationen sind: 1. (M ∪ N ) ∪ K = M ∪ (N ∪ K) Assoziativgesetz der Vereinigung 2. M ∪ N = N ∪ M Kommutativgesetz der Vereinigung 3. M ∪ ∅ = M , M ∪ U = U 4. (M ∩ N ) ∩ K = M ∩ (N ∩ K) Assoziativgesetz des Durchschnitts 5. M ∩ N = N ∩ M Kommutativgesetz des Durchschnitts 6. M ∩ ∅ = ∅, M ∩ U = M 7. (M ∪ N ) ∩ M = M , (M ∩ N ) ∪ M = M Verschmelzungsgesetze 8. (M ∪ N ) ∩ K = (M ∩ K) ∪ (N ∩ K), (M ∩ N ) ∪ K = (M ∪ K) ∩ (N ∪ K) Distributivgesetze 9. M = M 11 Preliminary version – 8. Januar 2002 10. M ∪ N = M ∩ N , M ∩ N = M ∪ N DeMorgansche Regeln Beweis: Exemplarisch wollen wir das erste Distributivgesetz aus Punkt 8. beweisen. Dazu führen wir die Bezeichnungen L := (M ∪ N ) ∩ K und R := (M ∩ K) ∪ (N ∩ K) für die Mengen der linken beziehungsweise rechten Seite der Gleichung ein. L und R sind genau dann gleich, wenn L ⊆ R und R ⊆ L gelten. Beginnen wir also mit dem Beweis von L ⊆ R. Dazu muß gezeigt werden, daß jedes Element x ∈ L auch Element von R ist. Für alle x des Universums gilt x ∈ L =⇒ x ∈ (M ∪ N ) ∧ x ∈ K =⇒ (x ∈ M ∨x ∈ N )∧x ∈ K =⇒ (x ∈ M ∧x ∈ K)∨(x ∈ N ∧x ∈ K). Der letzte Schritt entspricht der Anwendung des entsprechenden Distributivgesetzes der Funktoren ∧ und ∨ der Logik. Dieses läßt sich mittels Wertetabelle einfach nachrechnen. Wir setzen nun die obige Schlußkette fort. (x ∈ M ∧ x ∈ K) ∨ (x ∈ N ∧ x ∈ K) =⇒ (x ∈ M ∩ K) ∨ (x ∈ N ∩ K) =⇒ x ∈ (M ∩ K) ∪ (N ∩ K) = R. Also folgt L ⊆ R. Auf analoge Weise zeigt man die zweite Inklusion R ⊆ L und die behauptete Gleichheit folgt. Die restlichen Beweise verbleiben zur Übung, siehe auch Übungsaufgabe 4 2 Das Grundprinzip, Gesetze der Mengenlehre auf entsprechende Sätze der Aussagenlogik zurückzuführen, führt häufig zum Erfolg. Den Grund dafür werden Sie besser verstehen, wenn Sie in der theoretischen Informatik Boolsche Verbände untersuchen. Ohne auf diese Ursachen einzugehen, sei aber der Vorzug dieser Vorgehensweise hervorgehoben. Während eine Mengenvariable sehr viele Mengen als Wert annehmen kann4 , können Aussagenvariablen nur die Werte wahr oder falsch annehmen. Ein Beweis in der Aussagenlogik erfordert daher nur das Nachrechnen endlich vieler Möglichkeiten, zum Beispiel durch Aufstellen einer Wertetabelle. Unter der Potenzmenge Pow(M ) versteht man die Menge aller Teilmengen von M , also Pow(M ) := {N : N ⊆ M } . Hier stoßen wir auf eine Menge, deren Elemente ebenfalls Mengen sind. Stellt man sich das Universum als eine flache Menge atomarer Objekte vor, z.B. U = N, dann führt das zu Verständnisproblemen. Leider liegt das Problem viel tiefer, als uns lieb sein kann, denn nimmt man formal beliebige Mengen, Mengen von Mengen, usw. in das Universum auf, dann stellt man sich schließlich die Frage, ob denn das Universum U selbst zu U gehören soll, und man kommt in große Schwierigkeiten. In der Tat sind wir hier bei einer 4 Welche und wieviele hängt noch dazu vom Universum ab. 12 Preliminary version – 8. Januar 2002 Fundamentalkrise angelangt, in die die Mathematik zu Beginn dieses Jahrhunderts geriet. Die axiomatische Mengenlehre schuf schließlich einen Ausweg, dabei muß allerdings in letzter Konsequenz die Existenz von Unmengen in Kauf genommen werden. Gerade das Universum ist dann im allgemeinen eine solche Unmenge. Wir werden die Schachtelung von Mengen nicht beliebig weit in die Tiefe treiben, daher reicht für uns ein Mengenuniversum aus welches tatsächlich alle uns interessierenden Objekte, wenn auch nicht alle konstruierbaren, enthält. Das Kreuzprodukt, oder kartesische Produkt, M × N zweier Mengen M und N ist die Menge aller geordneten Paare5 (a, b) mit a ∈ M und b ∈ N , also M × N := {(a, b) : a ∈ M und b ∈ N } . Zwei geordnete Paare (a, b), (c, d) ∈ M × N sind genau dann gleich, wenn a = c und b = d gelten. Selbst im Falle M = N ist also die Reihenfolge der Komponenten eines Paares von entscheidender Bedeutung. Haben M und N einen nichtleeren Durchschnitt, so können erste und zweite Komponente natürlich auch übereinstimmen. Im Gegensatz zu Mengen ist das Weglassen einer Komponente des Paares dennoch nicht erlaubt. Analog führt man das Kreuzprodukt endlich vieler Mengen M1 , . . . , Mk als Menge M1 × M2 × · · · × Mk := {(a1 , a2 , . . . , ak ) : a1 ∈ M1 , a2 ∈ M2 , . . . , ak ∈ Mk } geordneter k-Tupel ein. Per definitionem sei das Kreuzprodukt M1 × M2 × · · · × Mk für k = 0 die leere Menge und für k = 1 gleich M1 . M1 × M2 × M3 ließe sich auch als (M1 × M2 ) × M3 definieren. Dazu wäre die vorhandene Definition des Falles k = 2 bereits ausreichend. Diese Definition könnte rekursiv auf beliebige natürliche Zahlen k ≥ 2 fortgesetzt werden. Das Tripel (a, b, c) wäre dann aber genau genommen als geordnetes Paar ((a, b), c) anzusehen. Außerdem ist das Kreuzprodukt kein assoziativer Operator und M1 × M2 × M3 wäre dann von M1 × (M2 × M3 ) zu unterscheiden. 5 An dieser Stelle wird der Begriff des geordneten Paares im Vertrauen auf das Vorstellungsvermögen des Lesers nicht mathematisch genau gefaßt. Eine exakte Definition über die axiomatische Mengenlehre, z.B. durch (a, b) := {{a, b}, {a}}, erfolgt im Grundkurs zur theoretischen Informatik. Man beachte, auch jetzt müssen wir wieder fordern, daß der neue Objekttyp der geordneten Paare zum Universum gehört. Betrachtet man die Mengendarstellung eines geordneten Paares, so stellt aber diese Annahme keinen weiteren qualitativen Sprung im Vergleich zur Potenzmenge mehr dar. 13 Preliminary version – 8. Januar 2002 Aus diesem Grund ziehen wir hier die explizite Definition des k-fachen Kreuzproduktes vor und nehmen darüberhinaus die Gültigkeit von (M1 ×· · ·×Mr )× (Mr+1 × · · · × Mk ) = M1 × · · · × Mk für alle 1 ≤ r ≤ k an. Im Falle der Gleichheit aller Faktoren M1 = . . . = Mk =: M schreibt man auch kürzer M k := M × · · · × M}. Gemäß unserer Festlegungen gelten | × M {z k Faktoren M 0 = ∅ und M 1 = M . 2.3 Binäre Relationen Ganz allgemein versteht man unter einer Relation R eine Teilmenge eines Kreuzproduktes R ⊆ M1 × M2 × · · · × Mk . k heißt die Stelligkeit der Relation. Relationen besitzen eine große Bedeutung in der praktischen Informatik, denn ihre Theorie stellt eine der wesentlichen Grundlagen der Datenbanken dar. In diesem Sinne sind die Elemente von R Datensätze, deren einzelnen Komponenten geordnet und getypt sind. Die Typung kommt in den unterschiedlichen Mengen Mi zum Ausdruck. Ein typisches Beispiel wäre eine Relation R ⊂ N atZahl × Buchstabenf olge × Buchstabenf olge × Datum × Adresse zur Führung einer Studentenkartei. Für (n, w, v, d, a) ∈ R soll n die Matrikelnummer, w der Name, v der Vorname, d das Geburtsdatum und a die Anschrift eines Studenten sein. Als angehenden Informatikern sollte Ihnen sofort klar sein, daß die Typung der Relation bei der Syntaxkontrolle zur Eingabezeit von entscheidender Bedeutung ist. In der Logik stießen wir auf den Begriff des Prädikatensymbols. Die Bedeutung eines k-stelligen Prädikatensymbols ist eine k-stellige Relation. Typische Beispiele für Relationen sind also beispielsweise <, ≤, =, ≥, >, |. Aus mathematischer Sicht sind die binären Relationen R ⊆ M × M über einer Menge M besonders interessant, alle obigen Beispiele sind von dieser Bauart. Anstelle von (a, b) ∈ R verwendet man in Anlehnung an die obigen Beispiele häufig die kompaktere Infixschreibweise aRb. Für binäre Relationen mit ausgewählten Eigenschaften führt man spezielle Begriffe ein: Definition 1 Sei M eine Menge und R ⊆ M 2 eine binäre Relation über M . R heißt • reflexiv, falls ∀a ∈ M aRa, • irreflexiv, falls ∀a ∈ M ¬(aRa), 14 Preliminary version – 8. Januar 2002 • symmetrisch, falls ∀a, b ∈ M (aRb → bRa), • antisymmetrisch, falls ∀a, b ∈ M (aRb ∧ bRa → a = b), • asymmetrisch, falls ∀a, b ∈ M (aRb → ¬(bRa)), • vollständig, falls ∀a, b ∈ M (aRb ∨ a = b ∨ bRa), • transitiv, falls ∀a, b, c ∈ M (aRb ∧ bRc → aRc). Kombination dieser Eigenschaften führt uns auf die Definition zweier Klassen besonders bedeutsamer Relationen, auf die wir immer wieder stoßen werden. Definition 2 Ein reflexive, symmetrische und transitive binäre Relation R über einer Menge M nennt man Äquivalenzrelation. Ein Beispiel für eine Äquivalenzrelation ist die Gleichheit = über einer beliebigen Menge M . Aber auch die durch a ≡n b :⇐⇒ n | (a − b) definierte Relation ≡n ⊆ Z × Z über den ganzen Zahlen ist für jedes feste n > 0 eine Äquivalenzrelation. Definition 3 Eine reflexive, antisymmetrische und transitive binäre Relation R wird als reflexive Halbordnung bezeichnet. Unter einer irreflexiven Halbordnung versteht man eine asymmetrische, transitive binäre Relation R. Eine vollständige6 reflexive oder irreflexive Halbordnung heißt auch einfach reflexive oder irreflexive Ordnung. Reflexive Halbordnungen sind ≤ oder ≥ über den (z.B.) reellen Zahlen oder die Teilmengenbeziehung ⊆ über der Potenzmenge einer Menge M . Während ≤ und ≥ sogar Ordnungen sind, ist ⊆ in der Tat nicht vollständig. Zum Beispiel gilt für zwei Einermengen {a} und {b} mit a 6= b keine der geforderten Beziehungen {a} ⊆ {b}, {a} = {b} oder {b} ⊆ {a}. Ein eher exotisches Beispiel einer reflexiven Halbordnung ist die Gleichheit = über einer Menge. Entsprechend sind <, > und ⊂ über den entsprechenden Mengen Beispiele für irreflexive Halbordnungen. Ähnlich zu oben, sind < und > vollständig, ⊂ jedoch nicht. 6 In Verbindung mit Halbordnungen verwendet man anstelle von vollständig auch den Begriff linear. 15 Preliminary version – 8. Januar 2002 Übungen zur Selbstkontrolle 4. Beweisen Sie eine der DeMorganschen Regeln und eines der Verschmelzungsgesetze für Mengen. 5. Die symmetrische Differenz A4B zweier Mengen A und B ist als die Menge A4B := (A \ B) ∪ (B \ A) definiert. Stellen Sie die Menge (A4B)4C nur unter Verwendung von Vereinigung, Durchschnitt und Komplement dar und beweisen die das Assoziativgesetz (A4B)4C = A4(B4C) der symmetrischen Differenz. 6. Eine Menge N nichtleerer, paarweise disjunkter Teilmengen von M deren Vereinigung gleich der Menge M ist, nennt man eine Zerlegung von M . In formalisierter Form kann eine Zerlegung N von M wie folgt beschrieben werden: N ⊆ Pow(M ) ∀K ∈ N : (K 6= ∅) ∀K, K 0 ∈ N : (K = K 0 ∨ K ∩ K 0 = ∅) [ K = M K∈N Durch a ∼N b :⇐⇒ ∃K ∈ N (a ∈ K ∧ b ∈ K) kann man einer Zerlegung N eine binäre Relation ∼N ⊆ M 2 zuordnen. (a) Beweisen Sie, daß ∼N eine Äquivalenzrelation ist. (b) Gegeben sei eine beliebige Äquivalenzrelation ≡. Konstruieren Sie eine Zerlegung N≡ von M derart, daß die von ihr beschriebene Äquivalenzrelation ∼N≡ mit ≡ übereinstimmt. 2.4 Korrespondenzen und Abbildungen Um Beziehungen zwischen den Elementen zweier Mengen zu charakterisieren, führt man den Begriff der Korrespondenz ein. Sei A die Menge der anwesenden Studenten und B die Menge der Stühle in diesem Hörsaal. Offensichtlich korrespondieren A und B durch die Beziehung, wer auf welchem Stuhl sitzt, zueinander. Ebenso korrespondiert jede natürliche Zahl n ∈ N vermöge n 7→ m = n2 zu einer Quadratzahl m ∈ {0, 1, 4, 9, . . . }. 16 Preliminary version – 8. Januar 2002 Definition 4 Eine Korrespondenz f : A → B aus der Menge A in die Menge B besteht aus dem Vorbereich A, dem Nachbereich B und einer Abbildungsf vorschrift A 3 a 7→ b ∈ B zur Beschreibung, welche Elemente aus A mit welchen Elementen aus B korrespondieren. Eine Korrespondenz f : A → B aus A in B nennt man auch eine Korrespondenz • von A in B, falls zu jedem Element a ∈ A wenigstens ein Element f b ∈ B mit a 7→ b existiert, • aus A auf B, falls zu jedem Element b ∈ B wenigstens ein Element f a ∈ A mit a 7→ b existiert, • von A auf B, falls f sowohl Korrespondenz von A in B als auch Korrespondenz aus A auf B ist. f Gibt es zu jedem a ∈ A höchstens ein b ∈ B mit a 7→ b, dann heißt die Korrespondenz f : A → B eindeutig. Eine eindeutige Korrespondenz f : A → B von A in B wird Abbildung (oder Funktion) von A in B genannt. Durch die hier verwendete Darstellungsweise der Abbildungsvorschrift erhalten Korrespondenzen und Abbildungen einen dynamischen Charakter, was der Intuition entgegenkommt. Der Nachteil besteht darin, daß etwas im Dunkeln bleibt, was eigentlich eine Abbildungsvorschrift ist. Versuchen wir also im Nachhinein eine Präzisierung. Dazu führen wir den Graph der Korrespondenz f : A → B als die Menge f Graph(f ) := {(a, b) ∈ A × B : a 7→ b} ein, Graph(f ) ist eine binäre Relation aus A×B. Dann beschreibt das Tripel (A, B, Graph(f )) die Korrespondenz f vollständig und unmißverständlich. Durch den Graphen haben wir jeder Korrespondenz eine binäre Relation zugeordnet. Umgekehrt kann man auch jede binäre Relation R ⊆ A × B als Graph einer Korrespondenz aus A in B deuten. Der einzige Unterschied zwischen Korrespondenz und binärer Relation besteht darin, daß die Korrespondenz den dynamischen und die Relation den statischen Charakter des Objektes hervorhebt. Aus mathematischer Sicht sind beide Konzepte jedoch gleich. 17 Preliminary version – 8. Januar 2002 Aus streng axiomatischer Sicht ist der Zugang über die Relationen zu bevorzugen, da damit die Unschärfe der Abbildungsvorschrift beseitigt wird. Allerdings sollte man nicht soweit gehen und eine Korrespondenz einfach mit ihrem Graphen identifizieren. Denn bereits die Frage, ob eine Korrespondenz von A oder auf B vorliegt, ist aus der Menge Graph(f ) allein nicht mehr erkennbar. Betrachten wir zum Beispiel den Graphen {(0, 2), (1, 1), (2, 0)}. Gilt A = B = {0, 1, 2}, so handelt es sich um eine Korrespondenz, genauer sogar um eine Abbildung, von A auf B. Gilt dagegen A = B = N, so liegt keine Abbildung mehr vor und es handelt sich nur noch um eine Korrespondenz aus A in B. f Definition 5 f : A → B sei eine Korrespondenz aus A in B. Gilt a 7→ b, so nennt man b ein Bild von a und a ein Urbild von b. Die Menge aller Urbilder von b ∈ B nennt man das vollständige Urbild von b. Die Teilmenge der Elemente von A, die wenigstens ein Bild besitzen nennt man den Definitionsbereich f Def(f ) := {a ∈ A : ∃b ∈ B a 7→ b} von f . Entsprechend heißt die Teilmenge f Bild(f ) := {b ∈ B : ∃a ∈ A a 7→ b} der Bildbereich von f . Ist f sogar eine Abbildung, so besitzt jedes Element a ∈ A genau ein Bild und es ist üblich, dafür f (a) zu schreiben. Für Korrespondenzen verwendet man diese Schreibweise gelegentlich ebenfalls, allerdings ist f (a) dann als die Menge aller Bilder von a zu verstehen. In diesem Sinne ist die Schreibweise f −1 (b) für das vollständige Urbild von b ∈ B üblig. Vorsicht mit diesen Vereinbarungen ist allerdings bei Abbildungen geboten, denn dann ist f (a) = b im Sinne der Abbildung ein Element von B, nämlich f das eindeutig bestimmte b ∈ B mit a 7→ b, aber im Sinne der Korrespondenz7 gilt f (a) = {b}. Es gibt verschiedene Möglichkeiten der Veranschaulichung der Abbildungsvorschrift einer Korrespondenz. Ist der Graph endlich, so kann man die zu 7 Gemäß Definition ist jede Abbildung erst recht eine Korrespondenz. 18 Preliminary version – 8. Januar 2002 ihm gehörigen Paare explizit angeben oder eine graphische Darstellung der Gestalt verwenden. Die Blasen stellen Vor- und Nachbereich dar, die Punkte deren Elemente und die Pfeile die Zuordnungsvorschrift. Abbildungen zeichnen sich in dieser Veranschaulichung gerade dadurch aus, daß von jedem Punkt des Vorbereichs genau ein Pfeil startet. Bei den Ihnen aus der Schule geläufigen Funktionen, besteht die Abbildungsvorschrift in einer Formel zur Berechnung des Bildes, z.B. entspricht f y = f (x) = sin(x) der Abbildungsvorschrift x 7→ sin(x). Weitere Möglichkeiten sind das Aufstellen einer Wertetabelle oder die geometrische Veranschaulichung des Graphen. Zwei Korrespondenzen f : A → B und g : B → C können zu einer Korrespondenz f ◦ g : A → C verkettet werden8 . Vor- und Nachbereich sind A beziehungsweise C, die Abbildungsvorschrift lautet f ◦g f g a 7→ c :⇐⇒ ∃b ∈ B (a 7→ b ∧ b 7→ c) . Darüberhinaus kann man jeder Korrespondenz f : A → B ihre Umkehrkorrespondenz f −1 : B → A zuordnen, deren Abbildungsvorschrift ist f −1 f b 7→ a :⇐⇒ a 7→ b . 8 Anstelle der Schreibweise f ◦g wird in manchen Büchern auch g ◦f verwendet. Das hat den Vorteil, daß für Abbildungen f und g die Gleichheit (g ◦f )(x) = g(f (x)) gilt. Dagegen hat die hier gewählte Schreibweise den Vorteil, daß die Abbildungen hintereinander in der in unserem Kulturkreis üblichen Lesereihenfolge von links nach rechts angewandt werden. Ein gutes Buch wird, sofern es derartige Verkettungen benötigt, immer eine verbindliche Vereinbarung über die Schreibweise treffen. Diese ist gegebenfalls zu beachten. 19 Preliminary version – 8. Januar 2002 Zu jeder Menge A kann man die Korrespondenz idA : A → A mit der Abbildungsvorschrift id a 7→A b :⇐⇒ a = b definieren. Diese Korrespondenz ist sogar eine Abbildung und man nennt sie üblicherweise die identische Abbildung von A. Satz 1 Für alle Korrespondenzen f : A → B, g : B → C und h : C → D gelten i) (f ◦ g) ◦ h = f ◦ (g ◦ h), ii) f ◦ idB = f und idA ◦ f = f . Beweis: i) Zunächst überzeugt man sich leicht von (f ◦ g) ◦ h : A → D und f ◦ (g ◦ h) : A → D, also reicht es die Gleichheit der Abbildungsvorschriften zu überprüfen. Seien a ∈ A und d ∈ D so, daß a f ◦g a 7→ c und (f ◦g)◦h 7→ d. Dann existiert ein c ∈ C mit h c 7→ d . (2.1) Weiter ergibt sich die Existenz eines b ∈ B mit der Eigenschaft f a 7→ b (2.2) und g b 7→ c . (2.3) g◦h Aus (2.3) und (2.1) schließt man auf b 7→ d und mittels (2.2) ergibt sich f ◦(g◦h) weiter a 7→ d. f ◦(g◦h) (f ◦g)◦h Analog zeigt man, daß a 7→ d auch a 7→ d impliziert. ii) verbleibt zur Übung. 2 Die Schreibweise der Umkehrabbildung mag f ◦ f −1 = idA und f −1 ◦ f = idB suggerieren. Beide Gleichungen treffen jedoch im Allgemeinen nicht zu. So gilt für die f (n) = n2 genügende Abbildung f : N → N zwar die Gleichheit f ◦ f −1 = idN , nicht jedoch die Gleichheit f −1 ◦ f = idN , denn 2 ∈ Def(idN ) aber 20 Preliminary version – 8. Januar 2002 2∈ / Def(f −1 ◦f ). Wir haben aber wenigstens noch die Inklusion Graph(f −1 ◦ f ) ⊂ Graph(idN ) der Graphen. Schlimmer wird es für die Abbildung f : Z → Z mit gleicher Abbildungsvorschrift f (a) = a2 . In diesem Falle gelten weder f ◦f −1 f ◦ f −1 = idZ noch f −1 ◦ f = idZ , beispielsweise haben wir a 7→ −a für alle a ∈ Z. Definition 6 Eine Abbildung f : A → B wird injektiv (oder auch eineindeutig) genannt, wenn jedes Element von B höchstens ein Urbild besitzt. Eine Abbildung f : A → B von A auf B nennt man surjektiv. Ist die Abbildung f : A → B sowohl injektiv als auch surjektiv, so spricht man auch von einer bijektiven Abbildung. Satz 2 Für Abbildungen f : A → B und g : B → C gelten die folgenden Aussagen: i) sind f und g injektiv, so ist auch f ◦ g injektiv, ii) sind f und g surjektiv, so ist auch f ◦ g surjektiv, iii) sind f und g bijektiv, so ist auch f ◦ g bijektiv, iv) die Umkehrkorrespondenz f −1 ist genau dann eine Abbildung, wenn f bijektiv ist, darüberhinaus ist f −1 dann sogar ebenfalls bijektiv, v) ist f injektiv, so gilt f ◦ f −1 = idA , vi) ist f surjektiv, so gilt f −1 ◦ f = idB , vii) ist f bijektiv, so gelten f ◦ f −1 = idA und f −1 ◦ f = idB . Beweis: i) Sei c ∈ Bild(f ◦ g) ein beliebiges Element des Bildbereiches der Verkettung und a, a0 ∈ A zwei Urbilder von c bei der Abbildung f ◦ g, also f ◦g f ◦g f a 7→ c und a0 7→ c. Folglich existieren Elemente b und b0 aus B mit a 7→ b, g f g b 7→ c sowie a0 7→ b0 , b0 7→ c. Insbesondere erkennt man, daß b und b0 zum vollständigen Urbild von c bei der Abbildung g gehören. Da diese als injektiv vorausgesetzt wurde, folgt b = b0 . Dann sind aber a, a0 zwei Urbilder von b bei der ebenfalls als injektiv vorausgesetzten Abbildung f , daher müssen sie gleich sein. Damit haben wir gezeigt, daß das vollständige Urbild von c bei der Verkettung f ◦ g nur aus einem einzigen Element besteht. Also ist f ◦ g injektiv. 21 Preliminary version – 8. Januar 2002 ii) Zu zeigen ist Bild(f ◦ g) = C. Zu jedem c ∈ C existiert wegen der g Surjektivität von g ein b ∈ B mit b 7→ c. Aufgrund der Surjektivität von f f f ◦g existiert dann ein a ∈ A mit a 7→ b. Daraus ergibt sich aber a 7→ c, also c ∈ Bild(f ◦ g) und wir sind fertig. iii) folgt sofort aus i) und ii). iv) - vii) Übungsaufgabe 7. 2.5 2 Algebraische Strukturen Definition 7 Sei M eine Menge. Unter einer k-stelligen Operation ◦ auf M versteht man eine Abbildung ◦ : M k → M . Im Falle von k = 1 spricht man auch von einer unären und im Falle k = 2 von einer binären Operation. Zu einer 0-stellige Operation sagt man Konstante. Gemäß Definition ist eine Konstante c : M 0 → M eine Abbildung mit leerem Vorbereich, man faßt c als ein ausgezeichnetes Element von M auf. Definition 8 Eine (homogene9 ) algebraische Struktur M = (M ; f1 , . . . , fn ; R1 , . . . , Rm ) ist ein geordnetes Tupel bestehend aus einer nichtleeren Trägermenge M , Operationen f1 , . . . , fn über M und Relationen R1 , . . . , Rm über M . Das (n + m)Tupel (r1 , . . . , rn ; q1 , . . . , qm ) der Stelligkeiten der Operationen und Relationen wird Typ von M genannt. Die Verwendung der Semikolon anstelle von Kommata dient ausschließlich der Übersichtlichkeit der Schreibweise. Wenn Operationen und Relationen aus dem Kontext heraus klar sind, bezeichnet man algebraische Struktur und Trägermenge der Einfachheit halber mit dem gleichen Symbol. Ein Beispiel einer algebraischen Struktur ist N = (N; +, ∗, 0; =, ≤), also die natürlichen Zahlen mit den binären Operationen Addition und Multiplikation, der Konstanten 0, der (binären) Gleichheitsrelation = und der (binären) Ordnungsrelation ≤. Der Typ der soeben eingeführten algebraischen Struktur N ist (2, 2, 0; 2, 2). Mit dem Symbol N bezeichnet man üblicherweise die 9 Man kann auch sogenannte inhomogene algebraische Strukturen betrachten. Bei diesen hat man es mit einer endlichen Familie von Trägermengen zu tun. Operationen und Relationen treten dann ebenfalls in der allgemeinen Form auf. Damit reicht die Angabe der Stelligkeiten im Typ nicht mehr aus. Stattdessen führt man sogenannte Signaturen ein. 22 Preliminary version – 8. Januar 2002 bloße Menge der natürlichen Zahlen ebenso wie die Menge gemeinsam mit Operationen und Relationen. Definition 9 M = (M ; f1 , . . . , fn ; R1 , . . . , Rm ) und N = (N ; g1 , . . . , gn ; S1 , . . . , Sm ) seien zwei algebraische Strukturen gleichen Typs (r1 , . . . , rn ; q1 , . . . , qm ). Eine Abbildung ϕ : M → N mit den Eigenschaften der Operationstreue ∀a1 , . . . , ari ∈ M ϕ(fi (a1 , . . . , ari )) = gi (ϕ(a1 ), . . . , ϕ(ari )) für alle i ∈ {1, . . . , n} sowie der Relationstreue ∀b1 , . . . , bqj ∈ M (b1 , . . . , bqj ) ∈ Rj → ϕ(b1 ), . . . , ϕ(bqj ) ∈ Sj für alle j ∈ {1, . . . , m} nennt man Homomorphismus von M nach N . Ist ϕ surjektiv, so heißen ϕ auch Epimorphismus und N ein homomorphes Bild von M. Für injektives ϕ spricht man von einem Monomorphismus. Ist ϕ bijektiv und ϕ−1 ebenfalls ein Homomorphismus, so wird ϕ als Isomorphismus bezeichnet. Für algebraische Strukturen ohne Relationen, d.h. m = 0, ist jeder bijektive Homomorphismus ein Isomorphismus. Satz 3 M = (M ; f1 , . . . , fn ; R1 , . . . , Rm ) und N = (N ; g1 , . . . , gn ; S1 , . . . , Sm ) seien zwei algebraische Strukturen gleichen Typs (r1 , . . . , rn ; q1 , . . . , qm ) und ϕ : M → N ein Homomorphismus von M nach N . Die durch a ≡ϕ b :⇐⇒ ϕ(a) = ϕ(b) (2.4) definierte Relation der Bildgleichheit unter ϕ ist eine Äquivalenzrelation. Darüberhinaus gilt für alle 1 ≤ i ≤ n und a1 , . . . , ari , b1 , . . . , bri die Implikation: (∀j ∈ {1, . . . , ri } aj ≡ϕ bj ) −→ fi (a1 , . . . , ari ) ≡ϕ fi (b1 , . . . , bri ) . (2.5) Beweis: Zum Nachweis der Äquivalenzrelationseigenschaft reicht die Betrachtung der Abbildung ϕ : M → N aus, die Homomorphieeigenschaft wird gar nicht benötigt. Es ist zu zeigen, daß die binäre Relation ≡ϕ die drei Eigenschaften einer Äquivalenzrelation aufweist. 23 Preliminary version – 8. Januar 2002 Reflexivität: Für alle a ∈ M gilt ϕ(a) = ϕ(a), also a ≡ϕ a. Symmetrie: Für alle a, b ∈ M gilt: (2.4) (2.4) = a ≡ϕ b ⇐⇒ ϕ(a) = ϕ(b) ⇐⇒ ϕ(b) = ϕ(a) ⇐⇒ b ≡ϕ a Transitivität: Für alle a, b, c ∈ M gilt: (2.4) = (2.4) a ≡ϕ b ∧ b ≡ϕ c ⇐⇒ ϕ(a) = ϕ(b) ∧ ϕ(b) = ϕ(c) =⇒ ϕ(a) = ϕ(c) ⇐⇒ a ≡ϕ c Die mit dem Gleichheitszeichen gekennzeichneten Schlußfolgerungen beruhen auf den Eigenschaften der identischen Gleichheit in N . Beweis der Beziehung (2.5): Wir halten ein beliebiges i ∈ {1, . . . , n} fest. Aus der Operationstreue von ϕ folgt ϕ(fi (a1 , . . . , ari )) = gi (ϕ(a1 ), . . . , ϕ(ari )) Aus der Prämisse der zu zeigenden Implikation ergeben sich die Gleichheiten ϕ(aj ) = ϕ(bj ), 1 ≤ j ≤ ri , und daher gi (ϕ(a1 ), . . . , ϕ(ari )) = gi (ϕ(b1 ), . . . , ϕ(bri )) . Nochmalige Anwendung der Operationstreue in der umgekehrten Richtung liefert schließlich gi (ϕ(b1 ), . . . , ϕ(bri )) = ϕ(fi (b1 , . . . , bri )) . Damit ist die Bildgleichheit von fi (a1 , . . . , ari ) und fi (b1 , . . . , bri ) gezeigt und es folgt Eigenschaft (2.5). 2 Im Beweis haben wir gesehen, daß die Äquivalenzrelationseigenschaft von ≡ϕ allein aus der Bildgleichheit folgt. Es gilt auch die Umkehrung, jede Äquivalenzrelation auf M entspricht der Bildgleichheit einer Abbildung von M in eine geeignete Menge N . Keinesfalls braucht jedoch zu einer Äquivalenzrelation R von M eine geeignete algebraische Struktur N zu existieren, so daß R sogar die Bildgleichheit unter einem Homomorphismus von M in N ist. Das gilt nur für solche Äquivalenzrelationen mit der zusätzlichen Eigenschaft (2.5). Eine Äquivalenzrelationen mit Eigenschaft (2.5) heißt Kongruenzrelation von M. 24 Preliminary version – 8. Januar 2002 Übungen zur Selbstkontrolle 7. Beweisen Sie die Eigenschaften iv)-vii) aus Satz 2. 8. N = (N, +) bezeichne die algebraische Struktur der natürlichen Zahlen mit der Addition und R = (R, ∗) die der reellen Zahlen mit der Multiplikation. Beide haben den Typ (2). Beweisen Sie, daß die durch exp(a) := ea definierte Exponentialabbildung exp : N → R ein Homomorphismus von N nach R ist. Handelt es sich dabei sogar um einen Epimorphismus, Monomorphismus oder Isomorphismus? 9. Betrachten Sie die algebraische Struktur M mit der Trägermenge M = ˙ ∧. ∨˙ bezeichnet die Verknüpfung {wahr, f alsch} und den Operation ∨, des exklusiven Oders und ∧ die Und-Verknüpfung. Geben Sie einen Homomorphismus von Z = (Z, +, ∗), Menge der ganzen Zahlen mit Addition und Multiplikation, nach M an und weisen Sie dessen Homomorphieeigenschaft nach. 25 Preliminary version – 8. Januar 2002 Kapitel 3 Lineare Gleichungssysteme I Zunächst beschränken wir uns auf den Fall linearer Gleichungssysteme über den reellen Zahlen. Später werden wir noch feststellen, daß alle Untersuchungen genauso durchgeführt werden können, wenn wir über einem beliebigen Körper rechnen. Eine (reelle) lineare Gleichung in n Unbekannten hat die Gestalt a1 x 1 + a2 x 2 + · · · + an x n = b . (3.1) Dabei bezeichnen a1 , a2 , . . . , an und b beliebige reelle Zahlen und x1 , x2 , . . . , xn Variablen. Man beachte, die Variablen sind keine reellen Zahlen, sondern einfach Symbole oder Zeichenketten. Die Zahl aj , 1 ≤ j ≤ n, heißt der Koeffizient der Variablen xj . b nennt man das Absolutglied der Gleichung. Im Falle b = 0 spricht man von einer homogenen linearen Gleichung, sonst nennt man die Gleichung inhomogen. Man sagt, daß ein geordnetes n-Tupel (β1 , β2 , . . . , βn ) ∈ Rn reeller Zahlen die obige lineare Gleichung erfüllt, wenn die Gleichheit a1 β1 + a2 β2 + · · · + an βn = b (3.2) reeller Zahlen gilt. In diesem Falle nennt man (β1 , β2 , . . . , βn ) auch eine Lösung der Gleichung. Man beachte den qualitativen Unterschied zwischen den Gleichungen 3.1 und 3.2. Im ersten Fall handelt es sich um ein formales Objekt, auf dessen linker Seite keine reelle Zahl, sondern ein sogenanntes Polynom, steht. Dagegen handelt es sich im zweiten Fall um einen Vergleich zweier reeller Zahlen. Auf beiden Seiten stehen reellwertige Ausdrücke und Gleichung 3.2 ist eine elementare prädikatenlogische Aussage. Die Lösungen 26 Preliminary version – 8. Januar 2002 von 3.1 sind gerade die n-Tupel, bei deren Einsetzung für die Variablensymbole wahre Aussagen 3.2 entstehen. Eine weitere Bemerkung gilt der Numerierung der Variablen. Diese ist als fest gewählt vorausgesetzt. Numeriert man die Variablen um, so ändern sich die Lösungen der Gleichung, genauer gesagt: die Komponenten der Lösungen werden vertauscht. Betrachten wir beispielsweise die Gleichung x − 2y = 0. Für x1 = x und x2 = y erhält man die Paare reeller Zahlen als Lösungen, deren zweite Komponente halb so groß wie die erste Komponente ist ({(t, 12 t) | t ∈ R} ist die Menge aller Lösungen). Für x1 = y und x2 = x sind die Paare Lösungen, deren zweite Komponente doppelt so groß wie die erste ist ({(s, 2s) | s ∈ R} ist die Menge aller Lösungen). Das Nulltupel O := (0, . . . , 0) der Länge n ist genau dann Lösung der linea| {z } nStück ren Gleichung 3.1, wenn diese homogen ist, also b = 0 gilt. Die Lösungen einer linearen Gleichung zu bestimmen ist sehr einfach, wir wollen uns daher sofort mit dem simultanen Lösen von m linearen Gleichungen in n Variablen befassen. Für den Spezialfall m = 1 haben wir damit auch den einfachen Fall nur einer Gleichung mit erledigt. Ein (reelles) lineares Gleichungssystem bestehend aus m Gleichungen in n Variablen x1 , . . . , xn kann in der Form a1,1 x1 + a1,2 x2 + · · · + a1,n xn = b1 a2,1 x1 + a2,2 x2 + · · · + a2,n xn = b2 .. .. . . am,1 x1 + am,2 x2 + · · · + am,n xn = bm (3.3) geschrieben werden. Die ai,j sowie die bi , (i = 1, . . . , m, j = 1, . . . , n), sind reelle Zahlen. Der Index i gibt die Nummer der Gleichung an, der Index j der Koeffizienten bezieht sich auf die zugehörige Variable. Unter einer Lösung des linearen Gleichungssystems 3.3 versteht man ein n-Tupel (β1 , β2 , . . . , βn ) ∈ Rn reeller Zahlen, welches alle m Gleichungen des Systems erfüllt, also: a1,1 β1 + a1,2 β2 + · · · + a1,n βn = b1 a2,1 β1 + a2,2 β2 + · · · + a2,n βn = b2 .. .. . . am,1 β1 + am,2 β2 + · · · + am,n βn = bm 27 Preliminary version – 8. Januar 2002 Die Menge L := {(β1 , β2 , . . . , βn ) ∈ Rn | (β1 , β2 , . . . , βn ) ist Lösung von 3.3} (3.4) nennt man die Lösungsmenge des linearen Gleichungssystems 3.3. Li bezeichne die Lösungsmenge der i-ten Gleichung allein, d.h. die Menge aller Lösungen der i-ten Gleichung. Dann gilt L = L1 ∩ L2 ∩ · · · ∩ Lm . (3.5) Im Spezialfall, daß alle Gleichungen des Systems homogen sind, d.h. b1 = b2 = · · · = bm = 0, spricht man von einem homogenen linearen Gleichungssystem, andernfalls von einem inhomogenen linearen Gleichungssystem. Ein homogenes lineares Gleichungssystem ist stets lösbar, denn es gilt wenigstens O ∈ L. Ein inhomogenes lineares Gleichungssystem kann auch unlösbar sein, man betrachte zum Beispiel 2x1 + x2 = 1 4x1 + 2x2 = −1 Die erste Gleichung hat genau alle geordneten Paare (t, 1 − 2t), wobei t eine beliebige reelle Zahl ist, als Lösungen. Die zweite Gleichung wird dagegen genau von den geordneten Paaren (s, − 21 − 2s), wobei s eine beliebige reelle Zahl ist, erfüllt. Daher gilt 1 L = {(t, 1 − 2t) | t ∈ R} ∩ {(s, − − 2s) | s ∈ R} = ∅ . 2 Betrachtet man die Definition der Lösung eines linearen Gleichungssystems, so erkennt man, daß die Namen der Variablen für die Lösungsmenge keine Rolle spielen. Die wesentliche Information der Variablen steckt in ihrem Index, also in der Angabe der Position der sie betreffenden Summanden in den Gleichungen. Dadurch wird insbesondere die Komponente der Lösungen festgelegt, die für diese Variable eingesetzt werden muß. Stellt man sicher, daß die Angabe der Variablenpositionen nicht verloren geht, so reicht die Angabe der Koeffizienten und Absolutglieder aus, um das gesamte lineare Gleichungssystem zu beschreiben. Eine gebräuchliche Beschreibung ist a1,1 a1,2 · · · a1,n b1 a2,1 a2,2 · · · a2,n b2 (3.6) .. .. .. .. . . ··· . . am,1 am,2 · · · am,n bm 28 Preliminary version – 8. Januar 2002 Der senkrechte Strich dient nur der optischen Abgrenzung der Koeffizienten von den Absolutgliedern, man kann auch auf ihn verzichten. Denkt man sich den senkrechten Strich weg, so handelt es sich bei diesem Schema um eine Matrix. 3.1 Matrizen Im Moment wollen wir den Bezug zum linearen Gleichungssystem 3.3 zurückstellen, insbesondere brauchen die ai,j vorerst nicht unbedingt Koeffizienten eines linearen Gleichungssystems zu sein. Ein Schema a1,1 a1,2 . . . a1,n a2,1 a2,2 . . . a2,n A = .. .. .. . . . am,1 am,2 . . . am,n mit reellen Zahlen ai,j , i = 1, . . . , m und j = 1, . . . , n, nennt man eine (reellwertige) Matrix vom Type (m, n). Abkürzend spricht man auch von einer m × n - Matrix oder (m, n)-Matrix. Wir halten fest, die erste Komponente des Typs gibt die Anzahl der Zeilen und die zweite Komponente gibt die Anzahl der Spalten der Matrix an. Für eine m × n - Matrix schreibt man auch kurz A = (ai,j )i=1,... ,m j=1,... ,n oder wenn der Typ klar ist auch noch kürzer A = (ai,j ). ai,j heißt der Eintrag (oder das Element) von A in der i-ten Zeile und j-ten Spalte. Stimmen Zeilen- und Spaltenzahl überein, d.h. m = n, dann nennt man die Matrix A quadratisch und n-reihig. Zwei Matrizen A und B sind genau dann gleich, wenn sie den gleichen Typ haben und ihre Einträge in jeder Zeile und jeder Spalte übereinstimmen. Einige spezielle Matrizen werden häufig benötigt und wir wollen daher Symbole dafür vereinbaren. • Die n-reihige quadratische Matrix 1 0 ... 0 1 . . . En = .. .. . . 0 0 ... 0 0 .. , . 1 29 Preliminary version – 8. Januar 2002 die auf der Hauptdiagonale Einsen und außerhalb der Hauptdiagonale Nullen enthält, heißt n-reihige Einheitsmatrix. • Die (m, n)-Matrix, deren sämtliche Einträge Null sind bezeichnen wir mit Om,n . • Mit In(i,j) bezeichnen wir die (n, n)-Matrix, deren Element in der i-ten Zeile und j-ten Spalte eine 1 ist und die ansonsten nur Nulleinträge aufweist. Falls der Typ der Matrizen aus dem Kontext klar ist, so werden wir die Angaben von Zeilen- und Spaltenzahl weglassen. Zwischen Matrizen sind folgende Operationen erklärt: • Zwei Matrizen A = (ai,j ) und B = (bi,j ) können addiert werden, sofern sie vom gleichen Typ sind. Die Addition erfolgt dann elementweise, d.h. sind A und B vom Typ (m, n), dann ist ihre Summe C = A+B ebenfalls eine (m, n)-Matrix und es gilt C = (ci,j )i=1,... ,m , wobei ci,j = ai,j + bi,j j=1,... ,n für alle i = 1, . . . , m und j = 1, . . . , n. • Eine Matrix kann elementweise mit einer reellen Zahl vervielfacht werden. Für β ∈ R und A = (ai,j )i=1,... ,m gilt β · A = B = (bi,j )i=1,... ,m , j=1,... ,n j=1,... ,n wobei bi,j = βai,j für alle i = 1, . . . , m und j = 1, . . . , n. Die Operation der Vervielfachung nennt man auch Skalarmultiplikation. • Zwei Matrizen A und B können miteinander multipliziert werden, sofern sie verkettet sind, d.h. die Anzahl der Spalten von A muß gleich der Anzahl der Zeilen von B sein. Seien also A vom Typ (m, n) und B vom Typ (n, k), dann ist das Produkt C = AB = (ci,j ) eine (m, Pk)-Matrix und ihr Eintrag in der i-ten Zeile und j-ten Spalte ist ci,j = nl=1 ai,l bl,j , für alle 1 ≤ i ≤ m und 1 ≤ j ≤ k. • Schließlich kann man eine (m, n)-Matrix A = (ai,j )i=1,... ,m transponiej=1,... ,n ren, indem man die Rolle ihrer Zeilen und Spalten vertauscht. Die transponierte Matrix AT = a0i,j i=1,... ,n ist vom Typ (n, m) und es gilt j=1,... ,m a0i,j = aj,i für alle 1 ≤ i ≤ n und 1 ≤ j ≤ m. Wir halten also fest, daß Matrizen nur dann addiert oder multipliziert werden können, wenn ihre Typen gleich beziehungsweise verkettet sind. Die Multiplikation von Matrizen unterscheidet sich in einem Punkt wesentlich von der 30 Preliminary version – 8. Januar 2002 Muliplikation von Zahlen, sie ist nämlich nicht kommutativ. So folgt aus der Verkettung von A und B nicht einmal die Verkettung von B und A. Nur wenn in der obigen Definition der Spezialfall m = k vorliegt, dann existiert überhaupt das Produkt BA. Selbst für n-reihige quadratische Matrizen A und B, wo AB und BA wenigstens erstmal den gleichen Typ aufweisen (nämlich ebenfalls (n, n)), brauchen die beiden Produkte nicht übereinzu2 3 0 1 stimmen, z.B. ergibt sich für A = und B = die Ungleichheit 0 1 1 0 3 2 0 1 AB = 6= = BA. 1 0 2 3 Für jede (m, n)-Matrix A gelten die Gleichungen A + O(m,n) = O(m,n) + A = A AEn = Em A = A Eine (m, 1)-Matrix nennt man auch Spaltenvektor, entsprechend heißt eine (1, n)-Matrix Zeilenvektor. Die Namensgebung folgt einfach der Anschauung, a1,1 ein Spaltenvektor ist von der Gestalt ... und ein Zeilenvektor hat die am,1 Form a1,1 · · · a1,n . In den kompakten Schreibweisen verzichtet man oft auf die Angabe desjenigen Index, der nur von 1 bis 1 “läuft”. Kommen wir nun auf das Gleichungssystem 3.3 zurück. Die Matrix a1,1 a1,2 . . . a1,n a2,1 a2,2 . . . a2,n A = .. .. .. . . . am,1 am,2 . . . am,n nennt man Koeffizientenmatrix des a1,1 a2,1 (A bT ) = .. . am,1 Gleichungssystems und a1,2 . . . a1,n b1 a2,2 . . . a2,n b2 .. .. .. . . . am,2 . . . am,n bm erweiterte Koeffizientenmatrix von 3.3. Die erweiterte Koeffizientenmatrix ist das früher bereits erwähnte Schema 3.6, den dort verwendeten senkrechten Strich zur Abgrenzung der Koeffizienten und Absolutglieder werden wir 31 Preliminary version – 8. Januar 2002 zuweilen einfügen. Er dient aber nur der Übersichtlichkeit, es handelt sich um eine ganze normale (m, n + 1)-Matrix. b bezeichnet den Zeilenvektor b1 . . . bm der Absolutglieder und (A bT ) ist als Blockschreibweise zu verstehen, der erste Block ist die Matrix A, an diese wird die Spalte bT angefügt. Eine derartige Blockschreibweise verwendet man häufig. Zu beachten ist, daß aneinanderstoßende Reihenanzahlen gleich sein müssen. Betrachten wir dazu noch ein Beispiel, A sei eine (m, n)-Matrix, B eine (k, l)-Matrix und C eine (m− k, l)-Matrix, wobei 1 ≤ k < m. Dann kann man die Blockmatrix A B C bilden und diese ist vom Typ (m, n + l). Schließlich führen wir noch den Zeilenvektor x1 . . . xm der Variablen ein und betrachten die Matrizengleichung AxT = bT . (3.7) Formales Ausmultiplizieren der linken Seite und elementweiser Vergleich der Einträge der beiden Zeilenvektoren auf der linken und rechten Seite führt genau auf unser Gleichungssystem 3.3. Jedes n-Tupel (β1 , . . . , βn ) reeller Zahlen kann in natürlicher Weise als Zeilenmatrix c = (β1 . . . βn ) aufgefaßt werden. In diesem Sinne ist β genau dann Lösung des linearen Gleichungssystems 3.3, wenn es die Matrizengleichung AcT = bT erfüllt. Wir halten also fest: Merksatz 1 Das Lösen eines linearen Gleichungssystems ist gleichbedeutend mit dem Lösen einer einzelnen linearen Matrizengleichung. Hätten wir b und x gleich als Spaltenvektoren eingeführt, so würden sich die obigen Gleichungen etwas vereinfachen, da wir dann auf das Transponieren verzichten könnten. Das man dennoch häufig Zeilenvektoren verwendet, liegt zum einen an der platzsparenderen Schreibweise und zum zweiten an der natürlicheren Identifizierung der n-Tupel reeller Zahlen mit den Zeilenvektoren. Übungsaufgaben, Serie 1 1. Gegeben seien die Matrizen 4 3 0 2 0 −1 4 3 −3 −2 2 4 2 3 und B = A= 5 6 2 −2 5 0 0 6 2 −1 32 Preliminary version – 8. Januar 2002 Berechnen Sie, sofern diese existieren, die Matrizen AT + 10 · B, A − B, BA und (AB)T 2. A sei eine (m, n)-Matrix und B sei eine (n, k)-Matrix. Beweisen Sie die Gleichung (AB)T = BT AT . 3. Berechnen Sie das Produkt AB der (3, n)-Matrix A = (ai,j ) und der (n, 2)-Matrix B = (bj,k ), wobei n eine gerade natürliche Zahl ≥ 6 ist und die Einträge der Matrizen A und B wie folgt definiert sind: j+1 1 : falls j ungerade und i ≤ 2 ai,j = 2 : falls j gerade und i ≤ 2j 0 : sonst für i = 1, 2, 3 und j = 1, . . . , n, sowie j−1 j 2 : falls j ungerade bj,1 = und bj,2 = j 2j−2 : falls j gerade 2 : : falls j ungerade falls j gerade für j = 1, . . . , n. Die Matrizen können folgendermaßen veranschaulicht werden: 1 1 1 1 4 3 4 2 1 2 1 2 1 2 ··· 1 2 5 A = 0 0 1 2 1 2 · · · 1 2 B = 16 16 3 0 0 0 0 1 2 ··· 1 2 .. . . . . n−2 2 n − 1 n 2n−2 2 33 Preliminary version – 8. Januar 2002 3.1.1 Äquivalenz von Matrizen Zunächst betrachten wir drei weitere Matrixoperationen zur Manipulation einer (m, n)-Matrix a1,1 a1,2 . . . a1,n .. .. .. . . . ak,1 ak,2 . . . ak,n . .. .. . A = (ai,j )i=1,... ,m = . . . . j=1,... ,n a l,1 al,2 . . . al,n . .. .. .. . . am,1 am,2 . . . am,n In die Matrix haben wir die k-te und die l-te Zeile mit eingezeichnet, da sich unsere Manipulationen auf diese beiden Zeilen beziehen werden. Das Bild zeigt nur den Spezialfall 1 ≤ k < l ≤ m, die Operationen gelten aber genauso für 1 ≤ l < k ≤ m. 1. Die Matrix Azk ↔zl entsteht durch Vertauschung der k-ten und der l-ten Zeile von A. Für die oben abgebildete Matrix ergibt sich also a1,1 a1,2 . . . a1,n .. .. .. . . . al,1 al,2 . . . al,n . .. .. . Azk ↔zl = . . . a a . . . a k,1 k,2 k,n . .. .. .. . . am,1 am,2 . . . am,n 2. λ sei eine beliebige reelle Zahl. Dann wollen wir die Matrix, die durch Addition des λ-fachen der k-ten Zeile zur l-ten Zeile von A entsteht, 34 Preliminary version – 8. Januar 2002 mit Azl +λ·zk bezeichnen, also a1,1 a1,2 .. .. . . ak,1 ak,2 . .. .. Azl +λ·zk = . a + λa a + λak,2 l,1 k,1 l,2 . . .. .. am,1 am,2 ... a1,n .. . ... ak,n .. . . . . al,n + λak,n .. . ... am,n 3. Schließlich betrachten wir die Matrix Aλ·zl , die durch Multiplikation der Elemente der l-Zeile von A mit einer festen, von Null verschiedenen, reellen Zahl λ 6= 0 entsteht. a1,1 a1,2 . . . a1,n .. .. .. . . . ak,1 ak,2 . . . ak,n . .. .. . Aλ·zl = . . . λa l,1 λal,2 . . . λal,n . .. .. .. . . am,1 am,2 . . . am,n Die Operationen 1)-3) bezeichnen wir als elementare Zeilenoperationen. Ganz analog lassen sich elementare Spaltenoperationen einführen, die dabei entstehenden Matrizen bezeichnen wir mit Ask ↔sl , Asl +λ·sk und Aλ·sl . In diesem Falle sind k und l zwei verschiedene natürliche Zahlen zwischen 1 und n, sie geben die Nummern der Spalten an, auf die die jeweilige Operation wirkt. Die elementaren Zeilen- und Spaltenoperationen lassen sich mit Hilfe von Matrixprodukten beschreiben. Dabei wird die entsprechende elementare Zeilenoder Spaltenoperation auf die Einheitsmatrix passenden Typs angewandt und von links (bei Zeilenoperationen) beziehungsweise rechts (bei Spaltenoperationen) mit A multipliziert. Wir fassen zusammen, für eine (m, n)-Matrix A gilt: Azk ↔zl = (Em )zk ↔zl · A Ask ↔sl = A · (En )sk ↔sl Azl +λ·zk = (Em )zl +λ·zk · A Asl +λ·sk = A · (En )sl +λ·sk 35 Preliminary version – 8. Januar 2002 Aλ·zl = (Em )λ·zl · A Aλ·sl = A · (En )λ·sl Definition 10 Zwei Matrizen A und B heißen äquivalent (Schreibweise: A ∼ B), wenn B durch sukzessive Anwendung endlich vieler elementarer Zeilen- oder Spaltenoperationen aus A gewonnen werden kann. Satz 4 Die Äquivalenz ∼ von (m, n)-Matrizen ist eine Äquivalenzrelation. Beweis: Reflexivität: Für jede (m, n)-Matrix A gilt wegen A = A1·z1 die Beziehung A ∼ A. Transitivität: A, B, C seien (m, n)-Matrizen mit A ∼ B und B ∼ C. Dann gibt es eine Folge von (m, n)-Matrizen A1 , . . . , Ar , so daß A1 = A und Ar = B gelten und Ai+1 für jedes i = 1, . . . , r − 1 durch eine elementare Zeilen- oder Spaltenoperation aus Ai hervorgeht. Analog wird B durch Anwendung von elementaren Zeilen- und Spaltenoperationen über eine Folge B = B1 , . . . , Bs = C von (m, n)-Matrizen in C überführt. Dann ist A = A1 , . . . , Ar = B1 , . . . , Bs = C eine Folge von Matrizen, wobei der Nachfolger jeweils durch Anwendung einer elementaren Zeilen- oder Spaltenoperation aus seinem Vorgänger in der Folge entsteht. Also A ∼ C. Symmetrie: Wir beginnen mit der Betrachtung zweier Matrizen A ∼ B, wobei B durch Anwendung einer einzigen elementaren Zeilenoperation aus A entsteht. Für B = Azk ↔zl gilt A = Bzk ↔zl . Für B = Azl +λ·zk gilt A = Bzl −λ·zk . Schließlich gilt für B = Aλ·zl die Beziehung A = B 1 ·zl . In allen drei λ Fällen konnten wir demnach B ∼ A zeigen. Analog folgt B ∼ A auch dann, wenn B durch Anwendung einer einzigen elementaren Spaltenoperation aus A entsteht. Betrachten wir nun beliebige m × n-Matrizen A und B mit A ∼ B. Dann gibt es eine Folge von elementaren Zeilen- und Spaltenoperationen, die A in B überführt. Die Folge der in den Zwischenschritten entstehenden Matrizen sei A = A1 , . . . , Ar = B. Mit Hilfe der eben gezeigten Aussagen schließt man auf Ai+1 ∼ Ai für alle i = 1, . . . , r − 1 und nach Anwendung der bereits gezeigten Transitivität von ∼ folgt schließlich B ∼ A. 2 Auf völlig analoge Weise läßt sich auch beweisen, daß die Relation ∼Z , bei der nur elementare Zeilenoperationen zur Überführung der Matrizen zugelassen sind, ebenfalls eine Äquivalenzrelation ist. Entsprechendes gilt für die unter Beschränkung auf elementare Spaltenoperationen definierte binäre Relation ∼S . Offensichtlich gelten die Folgerungen A ∼Z B ⇒ A ∼ B und A ∼S B ⇒ A ∼ B . 36 Preliminary version – 8. Januar 2002 Lemma 1 m, n, s und r seien natürliche Zahlen mit m, n > 0 und s, r ≤ min(n, m). Dann gilt genau dann Er Or,n−r Es Os,n−s ∼ , Om−r,r Om−r,n−r Om−s,s Om−s,n−s wobei eventuell auftretende Matrizen mit einer Null im Typ als nicht vorhanden zu betrachten sind, wenn r = s vorliegt. Die Äquivalenz im Falle r = s ist trivial. Den Beweis der Nichtäquivalenz im Falle r 6= s werden wir später im Rahmen der Behandlung der linearen Unabhängigkeit von Vektoren noch nachreichen. Für heute wollen wir es mit einer Plausibilitätserklärung bewenden lassen. Intuitiv sollte klar sein, daß es unmöglich ist, nur durch Anwendung elementarer Zeilen- und Spaltenoperationen in einer Matrix der obigen Gestalt eine weitere Nullzeile oder -spalte zu erzeugen. Das wäre aber Voraussetzung für die Äquivalenz der beiden Matrizen. 3.1.2 Der Gauß-Algorithmus Der nach Carl Friedrich Gauß (1777-1855) benannte Algorithmus ist die zentrale Methode der gesamten konstruktiven, linearen Algebra. Später im Kurs zur Numerik werden wir auf jeden Fall noch einmal darauf zurückkommen. Sein Ziel ist es, eine beliebige vorgegebene (m, n)-Matrix A durch Anwendung elementarer Zeilenoperationen in eine äquivalente, Zeilenstufenform aufweisende (m, n)-Matrix B umzuformen. Dabei sagen wir, daß B in Zeilenstufenform ist, wenn die Spaltennummern der jeweils ersten von Null verschiedenen Elemente jeder Zeile (wir werden diese Einträge in Zukunft auch Stufenecken der Matrix nennen) von oben nach unten streng monoton ansteigen. Die folgende Skizze soll die Zeilenstufenform einer (m, n)-Matrix veranschaulichen. Alle Einträge unterhalb der Stufenlinie sind 0, die mit + gekennzeichneten Einträge (dabei handelt es sich gerade um die Stufenecken) in den Ecken der Stufenlinie sind von Null verschieden und die restlichen, oberhalb der Stufenlinie und auf den langen Stufen befindlichen und mit ∗ gekennzeichneten Elemente sind beliebige reeller Zahlen. Die Zeilenstufenform zeichnet sich dadurch aus, daß sämtliche Stufen die Höhe 1 haben müssen, wogegen deren Länge jedoch beliebig ist. 37 Preliminary version – 8. Januar 2002 Der Gauß-Algorithmus läuft wie folgt ab: 1. i := 1 Initialisierung des Zählers auf die erste Zeile. 2. Falls i > m gilt oder alle Zeilen mit Index ≥ i nur Nullen enthalten, so sind wir fertig und die aktuelle Matrix wird als Ergebnis B ausgegeben. 3. Andernfalls suche man die Spalte von A mit kleinstem Index, in der in einer Zeile mit Index k ≥ i ein von Null verschiedenes Element steht. Setze j auf die Nummer dieser Spalte. 4. Tausche die i-te und die k-te Zeile von A. In der entstehenden Matrix gilt ai,j 6= 0. a l,j 5. Für l = i + 1, . . . , m addiere das (− ai,j )-fache der i-ten zur l-ten Zeile von A. Im Ergebnis dessen gilt in der dann aktuellen Matrix die Gleichheit al,j = 0 für alle i < l ≤ m. 38 Preliminary version – 8. Januar 2002 6. i := i + 1, Gehe zu Schritt 2. Das der obige Algorithmus irgendwann anhält ist klar, denn spätestens nach m Durchläufen der Hauptschleife gilt die erste Abbruchbedingung i > m. Falls die zweite Bedingung vorher eintritt, so kann es aber auch bereits vorher zum Anhalten kommen. Es bleibt zu überlegen, daß das Resultat B tatsächlich in Zeilenstufenform ist. Die Elemente ai,j , die im Laufe des Algorithmus in Schritt 4 entstehen, sind die mit + gekennzeichneten, von Null verschiedenen Elemente der Zeilenstufenform. Die Stufenhöhe 1 wird durch Schritt 4 garantiert. Das sich in der i-ten Zeile in allen Spalten mit Index < j und allen Zeilen mit Index größer i sogar in allen Spalten mit Index ≤ j nur Nullen befinden, folgt aus den Schritten 3 und 5. Tritt in der mten Zeile keine Stufe mehr auf, dann erfolgte der Abbruch nach der zweiten Bedingung und alle Zeilen unterhalb der letzten Stufe enthalten nur Nullen. Mehr Bedingungen waren aber an die Zeilenstufenform nicht gestellt. Folgerung 1 aus dem Gauß-Algorithmus: Zu jeder (m, n)-Matrix A gibt es eine Matrix in Zeilenstufenform, die in der Relation ∼Z zu A steht, also erst recht äquivalent zu A ist. Folgerung 2 aus dem Gauß-Algorithmus: Eine Matrix in Zeilenstufenform kann durch Anwendung elementarer Spaltenoperationen in die Gestalt Er Or,n−r (3.8) Om−r,r Om−r,n−r überführt werden. Also ist jede (m, n)-Matrix sogar zu einer Matrix der Gestalt 3.8 äquivalent. Die strengere Äquivalenz im Sinne von ∼Z braucht allerdings nicht mehr vorzuliegen. Zum Beweis wende man den Gauß-Algorithmus auf die transponierte Matrix an. und transponiere das Ergebnis im Anschluß noch einmal. Zum Abschluß mulipliziert man jede Spalte, die nicht nur Nullen enthält noch mit a1i,i , um in jeder Stufenecke eine 1 zu erhalten. Der beschriebene Algorithmus zeigt auch, daß die natürliche Zahl r gleich der Anzahl der Stufen der Ausgangsmatrix in Zeilenstufenform ist. Unter Berufung auf Lemma 1 schlußfolgern wir, daß Satz 5 Sei A eine (m, n)-Matrix. Jede zu A äquivalente Matrix in Zeilenstufenform weist die gleiche Anzahl von Stufen auf. 39 Preliminary version – 8. Januar 2002 Dieser Satz rechtfertigt die folgende Or,n−r Definition 11 A sei eine (m, n)-Matrix und die einOm−r,r Om−r,n−r deutig bestimmte Matrix der Gestalt 3.8, die äquivalent zu A ist. Dann nennen wir die Zahl r den Rang der Matrix A (Bezeichnung Rang A). Er Später werden wir noch sehen, daß sich der Begriff des Ranges einer Matrix auch in einer eleganteren Form erklären läßt. Wir halten fest: Merksatz 2 Um den Rang einer Matrix zu bestimmen, kann man sie mit Hilfe des Gauß-Algorithmus in eine äquivalente Matrix in Zeilenstufenform umformen und deren Stufenanzahl zählen. Übungsaufgaben, Serie 2 1 −1 1 0 −2 0 0 2 1 8 2 −1 7 0 4. Formen Sie die Matrix 3 0 9 4 −3 11 0 mittels elemen1 −1 1 2 −2 4 2 1 2 7 0 1 3 −2 tarer Zeilenoperationen in eine äquivalente Matrix in Zeilenstufenform um. 5. Welche der Matrizen 1 0 0 1 0 0 0 3 1 0 0 0 1 0 A1 = 0 0 0 , A2 = 0 1 0 0 , A3 = 0 −2 0 0 , 0 0 0 0 0 0 0 0 0 0 0 3 0 1 0 1 0 0 0 1 0 −1 0 A4 = 1 0 0 0 , A5 = 0 0 0 0 , A6 = 0 0 0 0 0 0 0 0 0 1 0 0 −1 0 1 0 sind bezüglich den in der Vorlesung eingeführten Relationen ∼, ∼Z beziehungsweise ∼S äquivalent zueinander? 40 Preliminary version – 8. Januar 2002 2 3 4 1 6. Bestimmen Sie den Rang der Matrix 0 1 5 2 3.2 3 1 5 2 0 −4 2 1 . 1 1 3 2 7 2 2 0 Lösung linearer Gleichungssysteme Im weiteren werden wir die kompaktere Matrizenschreibweise für lineare Gleichungssysteme bevorzugen. Befindet sich die erweiterte Koeffizientenmatrix (A bT ) des linearen Gleichungssystems AxT = bT in Zeilenstufenform, dann kann auf einfache Weise seine Lösungsmenge L bestimmt werden. Wir beginnen mit der Betrachtung der letzte Zeile der erweiterten Koeffizientenmatrix, die nicht nur Nullen enthält. Angenommen, die Stufenecke dieser Zeile steht in der letzten, d.h. in der zu bT gehörigen, Spalte, dann gehört dem Gleichungssystem eine Gleichung der Gestalt 0x1 + · · · + 0xn = b an. Einsetzen beliebiger reeller Zahlen für die xi ergibt auf der linken Seite 0. Die rechte Seite ist als Stufenecke allerdings von Null verschieden. Das ist ein Widerspruch, also besitzt die Gleichung und damit erst recht das gesamte System keine Lösung. Betrachten wir nun den Fall, daß die Stufenecke der letzten Zeile weiter vorn, sagen wir in der j-ten Spalte der Koeffizientenmatrix A, steht. Dann steht diese Zeile für eine Gleichung der Bauart aj xj + · · · + an xn = b . (3.9) Geben wir beliebige reelle Werte βj+1 , . . . , βn vor und setzen dann βj := b − aj+1 βj+1 − · · · − an βn , aj so ist (βj , . . . , βn ) eine Lösung der obigen Gleichung 3.9. Andererseits hat aber auch jede Lösung der Gleichung diese Gestalt, denn das von uns gewählte βj ist natürlich die einzige reelle Zahl, die das vorgegebene (n − j)-Tupel (βj+1 , . . . , βn ) zu einer Lösung von 3.9 ergänzt. 41 Preliminary version – 8. Januar 2002 Betrachten wir nun die vorletzte, nicht nur Nullen enthaltende Zeile der erweiterten Koeffizientenmatrix. Diese hat die Gestalt a0k xk + · · · + a0j xj + · · · + a0n xn = b0 (3.10) und es gilt k < j. Wir geben beliebige reelle Zahlen βk+1 , . . . , βj−1 , βj+1 , . . . βn vor und berechnen zunächst βj := b − aj+1 βj+1 − · · · − an βn aj und anschließend βk := b0 − a0k+1 βk+1 − · · · − a0n βn . a0k Wichtig ist dabei die Beziehung k < j. Daher kann βj ohne Kenntnis von βk berechnet werden und für beliebige βk+1 , . . . , βj−1 , βj , βj+1 , . . . βn (also insbesondere auch für die mit den vorher berechneten speziellen Werten für βj ) ist tatsächlich die Existenz von βk gesichert. (βk , . . . , βn ) ist Lösung der beiden Gleichungen 3.9 und 3.10 und analog zu oben überlegt man sich, daß sogar alle gemeinsamen Lösungen beider Gleichungen so gewonnen werden können. Fährt man auf diese Weise mit der sukzessiven Einbeziehung immer weiterer Gleichungen von unten nach oben fort, dann gelangt man schließlich zu den Lösungen des linearen Gleichungssystems AxT = bT . Diese Lösungsmenge ist mit Sicherheit nicht leer, denn die letzte Gleichung war lösbar und bei unserem Verfahren kann es nicht passieren, daß sich eine gemeinsame Lösung aller Gleichungen unterhalb einer bestimmten Gleichung nicht auch auf diese nächsthöhere Gleichung fortsetzen läßt. Fassen wir noch einmal zusammen: Merksatz 3 Ist die erweiterte Koeffizientenmatrix des linearen Gleichungssystems AxT = bT in Zeilenstufenform, so ist das Gleichungssystem genau dann lösbar, wenn keine Stufenecke der erweiterten Koeffizientenmatrix in der letzten Spalte steht. Seien 1 ≤ i1 < . . . < ik ≤ n die Nummern der Spalten, denen keine Stufenecke angehört. Dann existiert zu beliebig vorgegebenen Werten βi1 , . . . , βik genau eine Lösung (β1 , . . . , βn ) des linearen Gleichungssystems, die diese 42 Preliminary version – 8. Januar 2002 vorgegebenen Werte in den entsprechenden Komponenten aufweist. Die Werte der restlichen Komponenten lassen sich sukzessive ergänzen. Ist ar,j eine Stufenecke der erweiterten Koeffizientenmatrix und alle βj 0 mit j 0 > j und j0 ∈ / {i1 , . . . , ik } wurden bereits berechnet, so bestimmt man βj mit Hilfe von βj := br − ar,j+1 βj+1 − · · · − ar,n βn . ar,j Als nächstes werden wir beweisen, daß sich jedes lineare Gleichungssystem in ein äquivalentes Gleichungssystem in Zeilenstufenform umformen läßt. Dabei nennen wir zwei lineare Gleichungssysteme äquivalent, wenn sie die gleiche Lösungsmenge besitzen. Satz 6 Falls die erweiterten Koeffizientenmatrizen zweier linearer Gleichungssysteme AxT = bT und A0 xT = b0 T zueinander in der Äquivalenzrelation ∼Z stehen, dann haben beide Gleichungssysteme die gleiche Lösungsmenge. Beweis: Zunächst betrachten wir den Spezialfall, daß B0 = (A0 , b0 T ) durch Anwendung einer einzelnen elementaren Zeilenoperation auf B = (A, bT ) entsteht. Für diesen Fall wollen wir die Inklusion L ⊆ L0 der Lösungsmengen L von AxT = bT und L0 von A0 xT = b0 T nachweisen. 1. Fall: B0 gehe durch eine Zeilenvertauschung aus B hervor. Dem entspricht nur eine Vertauschung zweier Gleichungen des Gleichungssystems. Unter Verwendung der Kommutativität der Durchschnittsbildung ergibt sich aus 3.5 sogar sofort die Gleichheit der Lösungsmengen L = L0 . 2. Fall: B0 gehe durch Multiplikation der j-ten Zeile mit einer von Null verschiedenen reellen Zahl λ aus B hervor. Aus aj,1 β1 + · · · + aj,n βn = bj folgt durch Multiplikation beider Seiten mit λ sofort, daß jede Lösung (β1 , . . . , βn ) der j-ten Gleichung des Ausgangssystems auch die j-te Gleichung des umgeformten Systems erfüllt und unter Verwendung 3.5 ergibt sich L ⊆ L0 . 3. Fall: B0 gehe durch Addition des λ-fachen der i-ten Zeile zur j-ten Zeile aus B hervor. Für jedes (β1 , . . . , βn ) ∈ L gelten insbesondere die beiden Gleichungen ai,1 β1 + · · · + ai,n βn = bi aj,1 β1 + · · · + aj,n βn = bj . Dann gilt aber auch die Gleichheit λ(ai,1 β1 · · · ai,n βn ) + (aj,1 β1 · · · aj,n βn ) = λbi + bj 43 Preliminary version – 8. Januar 2002 (man beachte: hier handelt es sich einfach um Operationen zwischen reellen Zahlen) und Ausklammern der βk zeigt, daß (β1 , . . . , βn ) die j-te Gleichung des gestrichenen Systems befriedigt. Da alle weiteren Gleichungen des gestrichenen Systems sogar Gleichungen des Ausgangssystems sind, haben sie (β1 , . . . , βn ) natürlich auch als Lösung. Folglich L ⊆ L0 . Für den Fall, daß B0 erst nach Anwendung mehrerer elementarer Zeilenoperationen auf B entsteht, d.h. B = C1 , . . . , Ck = B0 und Cl ensteht durch Anwendung einer einzelnen elementaren Zeilenoperation auf Cl−1 (l = 2, . . . , k), erhält man eine aufsteigende Kette der Lösungsmengen L = L1 ⊆ · · · ⊆ Lk = L0 der Gleichungssysteme, deren erweiterte Koeffizientenmatrix gerade Cl (l = 1, . . . , k) ist. Also ergibt sich L ⊆ L0 . Umgekehrt gilt aber auch L0 ⊆ L, denn da ∼Z eine Äquivalenzrelation und daher insbesondere symmetrisch ist, kann auch B0 durch Anwendung endlich vieler elementarer Zeilenoperationen in B überführt werden. Zusammenfassend ergibt sich die behauptete Gleichheit L = L0 der Lösungsmengen der beiden linearen Gleichungssysteme. 2 Fassen wir Merksatz 3 und Satz 6 zusammen, dann erhalten wir zunächst ein notwendiges und hinreichendes Kriterium für die Lösbarkeit und darüberhinaus einen Algorithmus zum Ermitteln der Lösungsmenge eines linearen Gleichungssystems. Satz 7 Die Lösungsmenge eines linearen Gleichungssystems AxT = bT ist genau dann nicht leer, wenn die Koeffizientenmatrix und die erweiterte Koeffizientenmatrix des linearen Gleichungssystems den gleichen Rang aufweisen, T d.h. wenn Rang A = Rang A b gilt. T Beweis: Bei äquivalenter Umformung von A b in eine Zeilenstufenform 0 0T A b bleibt der Rang der Matrix der erweiterten Koeffizientenmatrix erhalten. Außerdem hat aber der Vektor b der rechten Seiten der Gleichungen bei Anwendung von ausschließlich elementaren Zeilenoperationen keinen Einfluß auf die Elemente der Untermatrix A0 . Anwendung der gleichen Zeilenoperationen auf die Koeffizientenmatrix A liefert die gleiche Matrix A0 , welche sich ebenfalls in Zeilenstufenform befindet. 0 0T Aus diesem Grund ist die Anzahl der Stufen der Matrix A b gleich T 0 Rang A b und die Anzahl der Stufen der Untermatrix A gleich Rang A. Daher gilt Rang A ≤ Rang A bT ≤ 1 + Rang A . 44 Preliminary version – 8. Januar 2002 Die Gleichheit Rang A bT = 1 + Rang A liegt genau dann vor, wenn A0 b0 T in der letzten Spalte eine Stufenecke hat, wenn also das Gleichungssystem unlösbar ist. 2 Algorithmus zum Lösen eines linearen Gleichungssystems AxT = bT : 1. Bilde die erweiterte Koeffizientenmatrix (A bT ). 2. Forme die Koeffizientenmatrix mittels des Gauß-Algorithmus in eine äquivalente Matrix (A0 b0 T ) in Zeilenstufenform um. 3. Löse das so erhaltene äquivalente lineare Gleichungssystem A0 xT = b0 T . mit Hilfe von Hilfssatz 3. Läßt man neben elementaren Zeilenoperationen zusätzlich noch Spaltenvertauschungen der Koeffizientenmatrix zu, d.h. die letzte Spalte darf nicht in die Spaltenvertauschungen einbezogen werden, so kann man die erweiterte Koeffizientenmatrix (A bT ) in eine spezielle Zeilenstufenform umformen. Eine Matrix der folgenden Gestalt wollen wir in Trapezform nennen: 45 Preliminary version – 8. Januar 2002 Die Einträge a1,1 , . . . , ar,r sind mit + gekennzeichnet und von Null verschieden. Die mit Null gekennzeichneten Gebiete enthalten nur Nullen, in den mit ∗ gekennzeichneten Gebiete können beliebige Elemente stehen. Ebenso ist das durch ? gekennzeichnete Element br+1 nicht näher bestimmt. Sicher ist aber, es ist genau dann gleich 0, wenn das Gleichungssystem lösbar ist. Das Vertauschen der Spalten der Koeffizientenmatrix entspricht einer Umnumerierung der Variablen des Gleichungssystems. Man darf also Spaltenvertauschungen bei der Umformung eines Gleichungssystems einsetzen, muß allerdings die Umnumerierungen der Variablen beim Aufstellen der Lösungsmenge rückgängig machen. Egal ob Spaltenvertauschungen zugelassen sind oder nicht, kann man durch Addition geeigneter Vielfacher der Stufenzeilen zu den jeweiligen darüberliegenden Zeilen erreichen, daß jede Spalte, in der sich eine Stufenecke befindet, außer diesem von Null verschiedenen Element nur noch Nullen aufweist. Durch Multiplikation jeder Stufenzeile mit dem Inversen ihrer Stufenecke erreicht man, daß sämtliche Stufenecken den Wert 1 haben. Wendet man diese 46 Preliminary version – 8. Januar 2002 zusätzlichen elementaren Zeilenoperationen und Spaltenvertauschungen an, so erhält man eine Matrix der Gestalt Er C b1 (3.11) Om−r,r Om−r,n−r b2 Die Einträge der (r, n − r)-Matrix C und des Spaltenvektors b1 sind beliebig und der Spaltenvektor b2 ist genau dann der Nullvektor, wenn das Gleichungssystem lösbar ist. Die eben beschriebene Erweiterung des GaußAlgorithmus zur Erzeugung einer Matrix der Form 3.11 bezeichnet man auch als Gauß-Jordan-Algorithmus. Die Lösungsmenge eines linearen Gleichungssystems in der speziellen Trapezgestalt 3.11 läßt sich besonders einfach bestimmen: Merksatz 4 Hat die erweiterte Koeffizientenmatrix des linearen Gleichungssystems AxT = bT die Gestalt 3.11, dann ist es genau für b2 = Om−r,1 lösbar und n n X X L= b1 − a1,j βj , . . . , br − ar,j βj , βr+1 , . . . , βn | j=r+1 j=r+1 βr+1 , . . . , βn ∈ R ist in diesem Falle die Lösungsmenge des Gleichungssystems. Der Vorteil gegenüber Merksatz 3 besteht darin, daß die Komponenten der Lösung nun unabhängig voneinander berechnet werden dürfen. Um eine Lösung zu erhalten, kann man die Werte βr+1 , . . . , βn der Variablen xr+1 , . . . , xn frei wählen. Daher bezeichnet man diese Variablen auch als die Parameter der Lösungsmenge. Merksatz 5 Die Lösungsmenge eines lösbaren linearen Gleichungsystems AxT = bT in n Variablen x1 , . . . , xn besitzt genau (n − Rang A) Parameter. Insbesondere gilt im Fall Rang A = Rang (A bT ) = n, daß die Lösungsmenge keine Parameter hat und das Gleichungssystem genau eine Lösung besitzt, das Gleichungssystem ist also eindeutig lösbar. Man beachte aber, daß man nicht immer die Variablen xr+1 , . . . , xn als Parameter wählen kann. Das funktioniert nur dann, wenn man ohne Anwendung 47 Preliminary version – 8. Januar 2002 von Spaltenvertauschungen auf Gestalt 3.11 kommen kann. Darüberhinaus ist festzustellen, daß es mehrere Möglichkeiten der Parameterauswahl geben kann. Wenigstens die Anzahl der Parameter ist allerdings eindeutig bestimmt. Später werden wir uns noch einmal genauer mit der Struktur der in Merksatz 4 angegebenen Lösungsmenge beschäftigen. Außerdem wird es in sehr speziellen Fällen möglich sein, mit Hilfe sogenannter Determinanten einfachere Lösungsmethoden als den Gauß-Algorithmus zu finden. Zunächst benötigen wir aber noch einige Grundkenntnisse über klassische algebraische Strukturen. Übungsaufgaben, Serie 3 7. Lösen Sie das folgende lineare Gleichungssystem! x1 + 2x2 − x3 + 3x4 + x5 2x1 + 3x2 − 3x3 + 4x4 + x5 x2 + x3 + x4 −x1 + 3x3 − x4 − x5 = = = = 0 −3 1 2 8. Welche der folgenden linearen Gleichungssysteme sind lösbar und wieviele Parameter haben ihre Lösungsmengen? (a) 1 0 1 x 1 0 2 1 y = 2 2 −2 1 z 5 (b) x 1 0 1 0 1 1 0 2 1 −1 x2 = 2 x 3 2 −2 1 −1 5 x4 (c) 1 0 1 1 0 2 1 x 2 2 −2 2 y = 5 z 3 0 4 8 48 Preliminary version – 8. Januar 2002 9. Gibt es eine Matrix A, welche die Matrizengleichung 1 2 3 4 1 0 0 0 2 3 4 5 ∗ A = 0 1 0 0 1 1 0 2 0 0 1 0 −1 0 −1 3 0 0 0 1 erfüllt? Falls ja, so geben Sie eine derartige Matrix A an. Was können Sie über die Anzahl geeigneter Matrizen A aussagen? 49 Preliminary version – 8. Januar 2002 Kapitel 4 Klassische algebraische Strukturen 4.1 Strukturen mit einer binären Operation – Halbgruppen, Monoide und Gruppen Algebraische Strukturen G = (G, ◦) mit nichtleerer Trägermenge G und nur einer binären Operation bezeichnet man als Gruppoide. Wir wollen immer voraussetzen, daß die Operation ◦ wenigstens assoziativ ist, also ∀a, b, c ∈ G : a ◦ (b ◦ c) = (a ◦ b) ◦ c (Assoziativgesetz) , gilt. In diesem Fall nennt man G eine Halbgruppe, wir halten fest, eine Halbgruppe ist ein Gruppoid mit assoziativer Operation. Typische Beispiele für Halbgruppen sind die natürlichen Zahlen mit entweder Addition oder Multiplikation, die Menge Σ∗ der Wörter über einem Alphabet Σ mit der Wortverkettung oder auch die Menge der n-Tupel positiver natürlicher Zahlen mit komponentenweiser Addition. Aber auch die Menge der reellen (m, n)-Matrizen bilden mit der Addition ein Halbgruppe. Die Menge der reellen n-reihigen quadratischen Matrizen bildet darüberhinaus auch mit der Matrizenmultiplikation eine Halbgruppe. Um nur ein Beispiel eines Gruppoids zu erwähnen, welches keine Halbgruppe ist, verweisen wir auf die natürlichen Zahlen mit der Potenzierung. Gilt für die Operation ◦ einer Halbgruppe G = (G, ◦) das Kommutativgesetz ∀a, b ∈ G : a ◦ b = b ◦ a (Kommutativgesetz) , 50 Preliminary version – 8. Januar 2002 so spricht man von einer kommutativen oder abelschen1 Halbgruppe. Natürliche, ganze, rationale oder reelle Zahlen mit Addition oder Multiplikation sind abelsche Halbgruppen. Dagegen bilden die (n, n)-Matrizen (n > 1) mit der Multiplikation ebenso wie die Wortmenge Σ∗ (|Σ| > 1) mit der Verkettung nur eine Halbgruppe aber keine kommutative Halbgruppe. Ein Element e ∈ G heißt neutrales Element oder auch Einselement von G, wenn die Beziehung ∀g : e ◦ g = g ◦ e = g erfüllt ist. Besitzt die Halbgruppe G ein Einselement, so nennt man sie ein Monoid. Die Bezeichnung des Einselementes ist der multiplikativen Vorstellung geschuldet, so ist 1 das Einselement der natürlichen, ganzen, rationalen oder reellen Zahlen mit Multiplikation. Ebenso ist die Einheitsmatrix En Einselement der quadratischen n-reihigen Matrizen mit der Matrizenmultiplikation. Etwas merkwürdig mutet die Bezeichnung Einselement an, wenn man additiv geschriebene Halbgruppen betrachtet, so ist 0 das Einselement der natürlichen Zahlen mit der Addition und das Nulltupel (0, . . . , 0) ist | {z } n Stück Einselement der n-Tupel reeller Zahlen mit der Addition. In additiv geschriebenen Halbgruppen ist daher die Bezeichnung neutrales Element üblicher. Auch wenn über die Schreibweise der Operation nichts vorausgesetzt wird, ist diese Bezeichnung durchaus einzusehen. Denn in additiven Halbgruppen vielleicht näherliegenden Begriff des Nullelementes wollen wir nicht verwenden, um ihn für eine andere Bedeutung aufzusparen. Lemma 2 Eine Halbgruppe G = (G, ◦) besitzt höchstens ein neutrales Element. Beweis: Angenommen, es gäbe zwei neutrale Elemente e1 , e2 ∈ G. Dann folgt e1 ◦ e2 = e1 aus der ersten Eigenschaft des neutralen Elementes e1 sowie e1 ◦ e2 = e2 aus der zweiten Eigenschaft des neutralen Elementes e2 . Daraus ergibt sich aber sofort e1 = e2 . 2 An dieser Stelle ist eine kurze Anmerkung angebracht. Zuweilen trennt man den Begriff des Einselementes auf und nennt ein e ∈ G mit ∀g ∈ G : e◦g = g ein Linkseinselement und ein e ∈ G mit ∀g ∈ G : g ◦ e = g ein Rechtseinselement. Wir sehen, daß wir im obigen Beweis von e1 nur die Linkseinseigenschaft und von e2 nur die Rechtseinseigenschaft ausgenutzt haben. Demzufolge folgt aus der Existenz einer Links- und einer Rechtseins die Gleichheit 1 benannt nach dem norwegischen Mathematiker Nils Hendrik Abel (1802-1829) 51 Preliminary version – 8. Januar 2002 beider Elemente und die Nichtexistenz weiterer davon verschiedener Linkseinsen oder Rechtseinsen. In der Tat kann eine nichtkommutative Halbgruppe aber mehrere verschiedene Linkseinselemente oder mehrere verschiedene Rechtseinselemente besitzen, sofern in ihr überhaupt kein Einselement der jeweils anderen Seitigkeit existiert. Ich möchte dafür ein Beispiel angeben. G sei eine beliebige Menge und die Operation ◦ sei durch a ◦ b = b für alle a, b ∈ G definiert. Wegen (a ◦ b) ◦ c = c und a ◦ (b ◦ c) = b ◦ c = c ist die Operation assoziativ, also liegt eine Halbgruppe vor. In dieser Halbgruppe ist jedes Element Linkseinselement, Rechtseinselemente gibt es dagegen keine. Diese Halbgruppe mag auf den ersten Blick exotisch anmuten, sie hat aber sogar eine Realisierung in der Informatik. Betrachten wir ein HTMLFormular zum Treffen einer Auswahl, dabei ist genau eine der angegebenen Möglichkeiten zu wählen. Zu diesem Zweck richtet man eine Knopfleiste ein. Zu Beginn ist eine Standardvorauswahl getroffen, die Auswahl kann aber durch Drücken eines Knopfes noch beliebig oft geändert werden, bevor das Formular dann endgültig bestätigt wird. Die Elemente unserer Grundmenge sind die gedrückten Knöpfe. Zwei gedrückte Knöpfe werden dadurch verknüpft, daß man angibt, welcher Knopf zum Schluß gedrückt ist, wenn man zuerst den ersten und dann den zweiten Knopf betätigt. Das Ergebnis ist natürlich immer der zuletzt gedrückte Knopf. Sei G ein Monoid mit dem Einselement e. Ein Element g ∈ G heißt invertierbar, wenn es ein Element g 0 ∈ G mit der Eigenschaft g ◦ g 0 = g 0 ◦ g = e gibt. Das Element g 0 nennt man in diesem Falle das Inverse, insbesondere in additiv geschriebenen Monoiden auch entgegengesetztes Element, von g und schreibt dafür g 0 = g −1 . Lemma 3 Jedes Element eines Monoids G = (G, ◦) mit Einselement e ∈ G besitzt höchstens ein Inverses. Beweis: Seien g10 und g20 zwei Inverse des Elementes g ∈ G. Aus g ◦ g10 = e, g20 ◦ (g ◦ g10 ) = g20 ◦ e folgt e ◦ g10 = g20 ◦ e und daraus schließlich die Gleichheit 2 g10 = g20 der beiden Inversen. Das Einselement eines Monoids ist immer invertierbar, nämlich e = e−1 . Sind alle Elemente eines Monoids invertierbar, so nennt man es eine Gruppe. Wir wollen die Eigenschaften einer Gruppe noch einmal in einer Definition zusammenfassen: Definition 12 Eine algebraische Struktur G = (G, ◦) des Typs (2) heißt eine Gruppe, wenn die Operation ◦ die folgenden Eigenschaften aufweist: 52 Preliminary version – 8. Januar 2002 1. ∀a, b, c ∈ G : a ◦ (b ◦ c) = (a ◦ b) ◦ c 2. ∃e ∈ G ∀a ∈ G : e ◦ a = a ◦ e = a (Assoziativgesetz) , (Existenz eines Einselements) . 3. ∀a ∈ G ∃a−1 ∈ G : a−1 ◦a = a◦a−1 = e (Existenz inverser Elemente) . Im 3. Axiom bezeichnet e das Einselement, dessen Existenz im 2. Axiom geforderte wurde. Gilt darüberhinaus 4. ∀a, b ∈ G : a ◦ b = b ◦ a (Kommutativgesetz) , so spricht man von einer kommutativen oder abelschen Gruppe. Besteht die Trägermenge G nur aus endlich vielen Elementen, dann nennt man die Anzahl |G| die Ordnung Ord (G) der Gruppe G. G wird dann auch als endliche Gruppe bezeichnet. Diese Definition trägt eine gewisse Redundanz in sich. Es reicht bereits aus, die Existenz eines Linkseinselementes und die Existenz von Linksinversen (diese müssen nur die Bedingung a−1 a = e erfüllen) zu fordern. Der Nachweis, daß es sich dann dabei gleichzeitig um Rechtseins und Rechtsinverse handelt bleibt zur Übung. Der Begriff der Gruppenordnung kann unter Verwendung unendlicher Kardinalzahlen auch auf unendliche Gruppen übertragen werden. Darauf wollen wir verzichten, im Falle einer unendlichen Gruppe G schreiben wir einfach formal Ord (G) = ∞. Satz 8 In einer Gruppe G = (G, ◦) ist jede Gleichung der Form a ◦ x = b, a, b ∈ G, eindeutig lösbar. Beweis: Seien a, b ∈ G beliebig. Nach dem 2. Gruppenaxiom und Lemma 3 gibt es ein eindeutig bestimmtes a−1 ∈ G mit a−1 ◦ a = a ◦ a−1 = e. Für x = a−1 b ist die Gleichung a ◦ x = b erfüllt, also besitzt die Gleichung mindestens eine Lösung. Nehmen wir nun an, es gäbe zwei Elemente c1 , c2 ∈ G mit a ◦ c1 = a ◦ c2 = b, Multiplikation der Gleichung von links mit a−1 führt auf a−1 ◦ (a ◦ c1 ) = a−1 ◦ (a ◦ c1 ) = a−1 ◦ b , also c1 = c2 = a−1 ◦ b und damit gibt es nur höchstens eine Lösung der Gleichung. 2 Von diesem Satz gilt sogar eine gewisse Umkehrung, denn jede Halbgruppe G, in der alle Gleichungen der Gestalten a ◦ x = b und x ◦ a = b eindeutig lösbar sind, ist sogar eine Gruppe. 53 Preliminary version – 8. Januar 2002 Beispiele und Gegenbeispiele für Gruppen 1. (Z, +) ist eine abelsche Gruppe. Neutrales Element ist die 0, das zu a ∈ Z entgegengesetzte Element ist −a. Die Menge der geraden Zahlen bildet eine Untergruppe von (Z, +). 2. (Zn , + mod n ) ist für jede natürliche Zahl n > 0 eine abelsche Gruppe der Ordnung n. Zn besteht aus den Divisionsresten modulo n, d.h. den Zahlen 0, 1, . . . , n − 1. Zwei Elemente von Zn werden addiert und dann der Rest modulo n als Ergebnis genommen. Das zu m ∈ Zn entgegengesetzte Element ist n − m. Man nennt diese Gruppe die zyklische Gruppe der Ordnung n und bezeichnet sie mit Zn . Der Begriff der zyklischen Gruppe beruht darauf, das bei wiederholtem Addieren von 1 zu sich selbst, alle Elemente der Gruppe durchlaufen werden. 3. (Z, ∗) ist keine Gruppe, sondern nur ein abelsches Monoid. Es gibt zwar ein Einselement, nämlich 1, aber beispielsweise besitzt 2 kein Inverses. 4. (Zn \ {0}, ∗ mod n ) ist für jede Primzahl n eine abelsche Gruppe der Ordnung n − 1. 5. (N, +) ist nur abelsches Monoid mit 0 als neutralem Element. Kein Element mit Ausnahme von 0 besitzt in N ein entgegengesetztes Element. 6. Die Menge S(M ) der bijektiven Abbildungen einer Menge M ist mit der Hintereinanderausführung von Korrespondenzen eine (nichtkommutative) Gruppe. Zunächst einmal ist die Hintereinanderausführung tatsächlich eine Operation auf der Menge S(M ), denn in Satz 2(iii)) wurde nachgewiesen, daß die Verkettung zweier Elemente von S(M ) nicht aus S(M ) herausführt. In Satz 1 wurde die Assoziativität der Hintereinanderausführung von Korrespondenzen gezeigt, also ist (S(M ), ◦) eine Halbgruppe. Die identische Abbildung idM ist bijektiv, gehört also zu S(M ), nach Satz 1 ist sie Einselement und damit ist (S(M ), ◦) sogar Monoid. Schließlich wurde in Satz 2(iv)) (also Übungsaufgabe 7) nachgewiesen, daß die Umkehrkorrespondenzen aller Elemente von S(M ) ebenfalls zu S(M ) gehören. Gemäß Satz 2(vii)) ist f −1 das zu f ∈ S(M ) inverse Element. Also ist (S(M ), ◦) eine Gruppe. Wenn M aus mehr als zwei Elementen besteht, dann ist ◦ nicht kommutativ. 54 Preliminary version – 8. Januar 2002 7. Die Menge der reellen (m, n)-Matrizen bilden mit der Matrizenaddition eine abelsche Gruppe. 8. Die Menge der reellen (n, n)-Matrizen bilden für n > 1 keine Gruppe mit der Matrizenmultiplikation. 9. Die Menge aller reellen (n, n)-Matrizen vom Rang n bilden eine (nichtkommutative) Gruppe mit der Matrizenmultiplikation. Zum Beweis dieser Aussage muß insbesondere gezeigt werden, daß das Produkt zweier (n, n)-Matrizen des Ranges n stets auch den Rang n aufweist. Ein derartiger Beweis kann mit den uns bisher zur Verfügung stehenden elementaren Mitteln bereits erbracht werden. A und B seien n-reihige quadratische Matrizen vom Rang n. Die Matrizengleichung CX = A ist genau dann lösbar, wenn Rang(C A) = Rang(C) gilt, denn genau dann sind alle n simultanen Gleichungen CxT = a mit den Spalten von A als rechten Seiten lösbar. Wegen Rang(C A) ≥ RangA = n existiert eine derartige Lösung also nur für Matrizen C vom Rang n. Wegen RangB = n ist die Gleichung BX = E auf jeden Fall lösbar, die Lösung X = B−1 ist gerade die zu B inverse Matrix. Multiplikation von AB = C von rechts mit B−1 ergibt ABB−1 = CB−1 , also A = CB−1 . Das heißt für RangA = RangB = n existiert in jedem Fall eine Lösung der Gleichung A = CX, wobei C = AB ist. Damit muß nach den obigen Überlegungen RangC = n gelten. Die Einheitsmatrix En ist natürlich Einselement, die Existenz der Inversen wurde oben bereits mit gezeigt, also handelt es sich tatsächlich um eine Gruppe. Dieser Beweis verwendet nur elementare Argumente, ist jedoch nicht elegant. Alternative Beweismethoden werden wir später noch kennenlernen. 10. Die Lösungsmenge eines homogenen linearen Gleichungssystems bildet mit der komponentenweisen Addition eine abelsche Gruppe. (siehe Übungsaufgabe 10) Definition 13 Ist G = (G, ◦) eine Gruppe und H ⊆ G eine das Einselement e enthaltende Teilmenge von G, so daß auch H = (H, ◦|H ) mit der auf H eingeschränkten Operation von G eine Gruppe bildet, dann nennt man H eine Untergruppe von G. Üblicherweise schreibt man für die Einschränkung ◦|H kurz ◦. 55 Preliminary version – 8. Januar 2002 Jede Gruppe besitzt zwei triviale Untergruppen, nämlich für H = G und für H = {e}. Der Nachweis der Gruppeneigenschaften vereinfacht sich, wenn man weiß, daß H Teilmenge einer Gruppe ist. Es gilt das folgend Untergruppenkriterium: Satz 9 (Untergruppenkriterium) H = (H, ◦) ist genau dann Untergruppe von G = (G, ◦), wenn H ⊆ G nicht leer ist und für alle a, b ∈ H die Beziehung a ◦ b−1 ∈ H erfüllt ist. Beweis: H ist nicht leer, also gibt es wenigstens ein a ∈ H. Also folgt aus dem Kriterium die Enthaltenseinsbeziehung a ◦ a−1 ∈ H, also e ∈ H. Darüberhinaus gehört für jedes a ∈ H auch das Inverse a−1 zu H, denn e ∈ H wurde bereits gezeigt und Anwendung des Kriteriums liefert e ◦ a−1 = a−1 ∈ H. Seien nun a, b ∈ H beliebig. Aus dem vorangegangenen folgt b−1 ∈ H, also −1 a ◦ (b−1 ) = a ◦ b ∈ H. Letzteres bedeutet, daß die Einschränkung von ◦ auf H nicht aus H hinausführt, daß also eine Operation auf H vorliegt. Damit haben wir die Gruppoideigenschaft von (H, ◦) nachgewiesen. Die Assoziativität ergibt sich unmittelbar aus der von G. Damit ist (H, ◦) Halbgruppe, Existenz von Einselement und Inversen wurde oben bereits gezeigt, also liegt eine Gruppe vor. 2 Merksatz 6 Sei G eine Gruppe. Dann ist der Durchschnitt beliebig vieler Untergruppen von G wieder eine Untergruppe von G. Dagegen ist die Vereinigung zweier Untergruppen im allgemeinen keine Untergruppe. Beweis: H1 und H2 seien zwei Untergruppen von G. Zunächst ist H1 ∩H2 6= ∅, da beide Untergruppen das Einselement enthalten. Für beliebige Elemente a, b ∈ H1 ∩H2 gilt a◦b−1 ∈ H1 ∩H2 , also ist der Durchschnitt nach dem obigen SatzTeine Untergruppe von G. Analog verläuft der Untergruppennachweis von i∈I Hi für beliebige Indexmengen I. Zum Nachweis, daß die Vereinigung im allgemeinen keine Untergruppe wieder ist, reicht die Angabe eines Gegenbeispiels aus. Wir betrachten G = (Z, +) die additive Gruppe der ganzen Zahlen. Die gerade Zahlen H1 = (2Z, +) bilden ebenso eine Untergruppe von G, wie die durch drei teilbaren Zahlen H2 = (3Z, +). Wäre H1 ∪ H2 eine Untergruppe, so müsste die Vereinigungsmenge nach dem obigen Satz auch das Element 3 − 2 = 1 enthalten, was jedoch offensichtlich nicht der Fall ist. 2 56 Preliminary version – 8. Januar 2002 Definition 14 Sei G = (G, ◦) und U ⊆ G eine beliebige Teilmenge von G. Die kleinste Untergruppe H = (H, ◦) mit U ⊆ H nennt man, die von U erzeugte Untergruppe von G (Bezeichung H(U )). Kleinste Untergruppe bedeutet, für jede Untergruppe H0 = (H 0 , ◦) mit U ⊆ H 0 muß H ⊆ H 0 gelten. Merksatz 7 Insbesondere gelten die Gleichheiten H(∅) = {e}, H(G) = G. Außerdem haben wir H(H) = H für jede Untergruppe H = (H, ◦) von G. Für beliebige nichtleere Teilmengen U ⊆ G besteht H(U ) gerade aus allen endlichen Produkten von Elementen und Inversen von Elementen aus U , d.h. aus allen Elementen der Bauart u1 ◦ u2 ◦ · · · ◦ um mit uj ∈ U oder u−1 j ∈ U für alle 1 ≤ j ≤ m. Läßt man formal m = 0 zu und sieht das Produkt von 0 Faktoren als das Einselement e an, so gilt die Beziehung H(U ) = u1 ◦ u2 ◦ · · · ◦ um | uj ∈ U ∨ u−1 j ∈ U für alle j = 1, . . . , m auch für U = ∅. Definition 15 Seien G = (G, ◦) eine Gruppe und a ∈ G ein Element davon. Dann nennen wir n = Ord H({a}) die Ordnung des Elementes a und schreiben dafür Ord (a). Ord (a) ist die kleinste positive natürliche Zahl n mit an := a · · ◦ a} = e, | ◦ ·{z nMal falls denn solch eine Zahl n überhaupt existiert, was genau dann der Fall ist, wenn H({a}) eine endliche Gruppe ist. Eine von einem Element a der Ordnung n erzeugte Gruppe nennt man zyklische Gruppe und bezeichnet sie auch mit Zn . Entsprechend schreibt man Z∞ für die unendliche (bis auf Isomorphie gibt es nur eine solche, nämlich (Z, +)) zyklische Gruppe. Diese liegt immer dann vor, wenn H({a}) nicht endlich ist. Satz 10 (Satz von Lagrange) Für jede endliche Gruppe G und jede Untergruppe H von G gilt Ord H | Ord G. Darüberhinaus gilt für jedes a ∈ G die Beziehung Ord (a) | Ord G. Auf den Beweis des Satzes wollen wir verzichten. Aber man erkennt sofort, daß die zweite Aussage eine einfache Folgerung aus der ersten ist. Aus diesem Satz kann man insbesondere auch folgern, daß eine Gruppe von Primzahlordnung nur die beiden trivialen Untergruppen besitzt, denn jedes Element a ∈ G \ {e} muß bereits die ganze Gruppe G erzeugen. 57 Preliminary version – 8. Januar 2002 Definition 16 Seien G und H zwei Gruppen, dann nennt man einen Homomorphismus ϕ : G → H der beiden algebraischen Strukturen vom Typ (2) einen Gruppenhomomorphismus. Entsprechend spricht man von Gruppenmonomorphismen, Gruppenepimorphismen und Gruppenisomorphismen. Wir halten folgende Eigenschaften von Gruppenhomomorphismen fest: Satz 11 G = (G, ◦) und H = (H, •) seien zwei Gruppen. Für jeden Gruppenhomomorphismus ϕ : G → H gilt: i) Ist ϕ bijektiv, so ist ϕ sogar Gruppenisomorphismus, ii) das Einselement von G wird auf das Einselement von H abgebildet, d.h. ϕ(eG ) = eH , iii) das Bild des Inversen eines Elementes a von G ist gleich dem Inversen des Bildes von a, d.h. ∀a ∈ G : ϕ(a−1 ) = ϕ(a)−1 , iv) der Bildbereich Bild(ϕ) ist eine Untergruppe von H, v) das vollständige Urbild ϕ−1 (eH ) des Einselementes von H ist eine Untergruppe von G, diese nennt man auch den Kern (Kern(ϕ)) des Homomorphismus, vi) ϕ ist genau dann sogar ein Gruppenmonomorphismus, wenn ϕ−1 (eH ) = {eG } gilt. Beweis: i) ist klar, denn Gruppen beinhalten keine Relationen. ii) Wir betrachten ein beliebiges a ∈ G. Es gilt a◦eG = a, also ϕ(a)•ϕ(eG ) = ϕ(a). Da H eine Gruppe ist, ist die Gleichung h • x = h für jedes h ∈ H, also auch für h = ϕ(a), eindeutig lösbar und diese eindeutige Lösung ist offensichtlich x = eH . Da ϕ(eG ) Lösung der Gleichung ϕ(a) • x = ϕ(a) ist, muß ϕ(eG ) = eH gelten. Mit Hilfe analoger Argumente zeigt man iii). iv) Seien u, v ∈ Bild(ϕ). Dann gibt es a, b ∈ G mit ϕ(a) = u und ϕ(b) = v. Wegen u•v −1 = ϕ(a)•ϕ(b)−1 = ϕ(a◦b−1 ) ergibt sich folglich u•v −1 ∈ Bild(ϕ). Damit erfüllt Bild(ϕ) das Untergruppenkriterium 9, ist also Untergruppe von H. v) Für beliebige Elemente a, b ∈ G mit ϕ(a) = ϕ(b) = eH gilt ϕ(a ◦ b−1 ) = ϕ(a) • ϕ(b)−1 = eH • e−1 H = eH , also ist Kern(ϕ) nach Untergruppenkriterium 9 eine Untergruppe von G. 58 Preliminary version – 8. Januar 2002 vi) Falls ϕ ein Monomorphismus, also injektiver Homomorphismus, ist, dann besitzt jedes Element von H, also insbesondere auch eH , ein höchstens einelementiges Urbild. Mit ii) folgt Kern(ϕ) = {eG }. Sei nun andererseits ϕ nicht injektiv, dann gibt es ein u ∈ H sowie Elemente a, b ∈ G mit a 6= b und ϕ(a) = ϕ(b) = u. Ist u = eH , so gilt {a, b} ⊆ Kern(ϕ) 6= {eG } und wir sind fertig. Andernfalls wählen wir ein beliebiges c ∈ G mit ϕ(c) = u−1 . Damit ergibt sich a ◦ c, b ◦ c ∈ Kern(ϕ). Da die Gleichung y ◦ c = eG eine eindeutig Lösung besitzt, muß wenigstens eines der Elemente a ◦ c und b ◦ c von eG verschieden sein. 2 Übungsaufgaben, Serie 4 10. Beweisen Sie, daß die Lösungsmenge eines homogenen linearen Gleichungssystems AxT = OT in n Variablen mit der komponentenweisen Addition der n-Tupel reeller Zahlen eine Gruppe bildet. 11. Geben Sie alle Untergruppen der symmetrischen Gruppe S3 an! 12. Welche Ordnung haben die ganzen Zahlen 4 und 12 jeweils in den Gruppen (a) (Z17 , + mod 17 ), (b) (Z17 \ {0}, ∗ 4.1.1 mod 17 ) ? Die symmetrische Gruppe Sn Für Mn = {1, 2, . . . , n} nennt man die in Beispiel 6 definierte Gruppe S(Mn ) aller bijektiven Abbildungen von Mn auf Mn die symmetrische Gruppe von Mn und schreibt dafür Sn . Die Elemente von Sn nennt man Permutationen. Es gilt die Beziehung Ord (Sn ) = n!. Sn und ihre Untergruppen nennt man Permutationsgruppen. Eine Element der Sn läßt sich durch Angabe seiner Zuordnungsvorschrift eindeutig charakterisieren. Da der Vorbereich eine endliche Menge ist, kann man die Zuordnungsvorschrift mit Hilfe einer Wertetabelle beschreiben. 59 Preliminary version – 8. Januar 2002 Schauen wir uns das an einem Beispiel an: Sei n = 4 und π : M4 → M4 die durch die Zuordnungsvorschrift 1 2 3 4 7→ 7 → 7 → 7 → 2 3 1 4 (4.1) gegebene bijektive Abbildung von M4 auf M4 . Eine Wertetabelle für π hat die Gestalt x 1 2 3 4 π(x) 2 3 1 4 Die erste Spalte und die Tabellenlinien tragen keine Information, wenn man diese Art der Anordnung verbindlich vereinbart. Auf dieser Grundlage erhält man eine der geläufigsten Standardschreibweisen für Permutationen, nämlich 1 2 3 4 2 3 1 4 in unserem Beispiel oder ganz allgemein 1 2 ··· n . π(1) π(2) · · · π(n) Permutationen werden multipliziert, indem man ihre Hintereinanderausführung als Abbildungen bildet. Für das Produkt π ◦ σ ergibt sich auf diese Weise 1 2 ··· n 1 2 ··· n π◦σ = ◦ π(1) π(2) · · · π(n) σ(1) σ(2) · · · σ(n) 1 2 ··· n = . σ(π(1)) σ(π(2)) · · · σ(π(n)) Eine einfache Methode, um das Produkt praktisch auszurechnen, besteht im Umsortieren der Spalten der Permutation σ, so daß die erste Zeile genauso aussieht, wie die zweite Zeile von π. Schreibt man dann die zweite Zeile der umsortierten Tabelle von σ unter die erste Zeile der Permutation π, so erhält man die Permutation π ◦ σ. 60 Preliminary version – 8. Januar 2002 Eine zweite häufig verwendete Darstellungsart für Permutationen ist die Zyklendarstellung. Ein Zyklus der Länge k hat die Gestalt (i1 i2 . . . ik ) mit 1 ≤ i1 , i2 , . . . , ik ≤ n. Die Permutation π = (i1 i2 . . . ik ) hat die Abbildungsvorschrift ij+1 : für i = ij , 1 ≤ j < k i1 : für i = ik π(i) = . i : für i ∈ / {i1 , . . . , ik } Beispiel: Die Wertetabellendarstellung der Permutation π = (2 4 3) ∈ S6 ist 1 2 3 4 5 6 . 1 4 2 3 5 6 Jeder Zyklus der Länge 1 beschreibt die identische Permutation. Nicht jede Permutation kann durch einen einzelnen Zyklus beschrieben werden, man betrachte beispielsweise 1 2 3 4 5 6 σ= ∈ S6 , 5 4 2 3 1 6 Für Zyklen z1 = (i1 . . . ik ) und z2 = (j1 . . . jl ) mit {i1 , . . . , ik }∩{j1 , . . . , jl } = ∅ gilt z1 ◦z2 = z2 ◦z1 . Man beachte aber, ohne die Voraussetzung paarweise verschiedener Einträge gilt die Kommutativität im allgemeinen nicht. Jede Permutation läßt sich als Produkt von höchstens n Zyklen darstellen, wobei jede der Zahlen 1, . . . , n in genau einem der Zyklen vorkommt. In unserem obigen Beispiel gilt σ = (1 5) ◦ (2 3 4) ◦ (6). Da es auf die Reihenfolge der Zyklen und auf Zyklen der Länge 1 nicht ankommt, führt man die kürzere Schreibweise σ = (1 5)(2 4 3) ein. An dieser Schreibweise werden zwei Sachverhalte deutlich, zum einen muß bei Verwendung der Zyklenschreibweise im explizit festgehalten werden, in welcher symmetrischen Gruppe Sn man sich befindet. Zum zweiten erkennt man, daß sich die symmetrische Gruppe Sn auf natürliche Weise als Untergruppe jeder symmetrischen Gruppe Sm mit m > n auffassen läßt. Jeder Permutation π ∈ Sn wird ein Signum (oder Vorzeichen) sgn(π) zugeordnet. Sei s die Anzahl der Paare (i, j) ∈ Mn × Mn mit der Eigenschaft i < j und π(i) > π(j), dann gilt per definitionem sgn π := (−1)s . 61 Preliminary version – 8. Januar 2002 (4.2) Eine Permutation π heißt gerade Permutation, falls sgn π = 1 und ungerade Permutation sonst. Ohne Beweis halten wir fest: Satz 12 Die Abbildung sgn : Sn → {1, −1}, n > 1, ist ein Gruppenepimorphismus der symmetrischen Gruppe Sn auf die zyklische Gruppe Z2 = ({1, −1}, ∗ mod 3 ), d.h. das Produkt der Signen zweier Permutationen ist gleich dem Signum der Verkettung der beiden Permutationen. Anmerkung: Anstelle der Reste 0, 1, 2 bei Division modulo 3 kann man wegen 2 = −1 mod 3 auch das Restesystem 0, 1, −1 verwenden. Gemäß diesem Satz kann man das Signum einer Permutation dadurch bestimmen, daß man sie in Zyklendarstellung aufschreibt und die Signen der einzelnen Zyklen multipliziert. Für Zyklen gilt die einfache Rechenregel sgn (i1 i2 . . . ik ) = (−1)k+1 . Also haben wir zum Beispiel sgn (1) = 1 sgn (1 5)(2 4 3) = −1 ∗ 1 = −1 Satz 13 Die Teilmenge aller geraden Permutationen von Sn bildet eine Untergruppe der Sn , man nennt sie alternierende Gruppe und bezeichnet sie mit An . Beweis: Die Behauptung folgt sofort aus Satz 12 und Satz 11(v) 4.2 2 Algebraische Strukturen mit zwei binären Operationen – Ringe und Körper Wir betrachten nun algebraische Strukturen die entstehen, indem man zu einer (additiv geschriebenen) abelschen Gruppe noch eine weitere binäre Operation hinzunimmt. Zur Vereinfachung der Schreibweise vereinbaren wir, daß das Malzeichen ∗ stets stärker bindet als das Pluszeichen + (Punktrechnung geht vor Strichrechnung). Definition 17 Unter einem (assoziativen) Ring versteht man eine algebraische Struktur R = (R; +, ∗) des Typs (2, 2) mit folgenden Eigenschaften: 62 Preliminary version – 8. Januar 2002 1. (R; +) ist eine abelsche Gruppe, 2. (R; ∗) ist eine Halbgruppe, d.h. es gilt das Assoziativgesetz der Multiplikation, 3. die beiden Operationen + und ∗ erfüllen die Distributivgesetze ∀a, b, c ∈ R : (a + b) ∗ c = a ∗ c + b ∗ c ∀a, b, c ∈ R : c ∗ (a + b) = c ∗ a + c ∗ b und (Distributivgesetze) Ist (R, ∗) eine kommutative Halbgruppe, so spricht man von einem kommutativen Ring. Ist (R, ∗) ein Monoid, d.h. es existiert ein neutrales Element bezüglich der Multiplikation, dann heißt R ein Ring mit Einselement. Entsprechend spricht man von einem kommutativen Ring mit Einselement, wenn (R, ∗) kommutatives Monoid ist. Man beachte: nicht üblich ist die Namensgebung abelscher Ring für einen kommutativen Ring. Hingewiesen sei auch auf die Bedeutung der richtigen Reihenfolge der Operationen + und ∗. Schreibt man (Z, ∗, +) so ist das im strengen Sinn kein Ring, wohl aber ist (Z, +, ∗) einer. Beispiele für Ringe sind: 1. die ganzen Zahlen (Z; +, ∗) sind ein kommutativer Ring mit Einselement, 2. ebenso sind die rationalen Zahlen (Q; +, ∗) und die reellen Zahlen (R; +, ∗) kommutative Ringe mit Einselement, 3. die Menge der reellen (n, n)-Matrizen bildet einen (nichtkommutativen) Ring mit Einselement, 4. (Zn ; + mod n , ∗ mod n ) ist ein kommutativer Ring mit Einselement. 5. (R[x]; +, ∗) bezeichnet die Menge aller Polynome in einer Variablen x mit Koeffizienten aus R (reelle Zahlen) mit der bekannten Addition und Multiplikation von Polynomen. Man nennt R[x] einen Polynomring. Hierbei handelt es sich um einen kommutativen Ring mit Einselement. 63 Preliminary version – 8. Januar 2002 6. (R[x1 , x2 , . . . , xn ]; +, ∗) ist ebenfalls ein Polynomring, nämlich der, welcher aus allen Polynomen in den Variablen x1 , x2 , . . . , xn mit reellen Koeffizienten besteht. Es handelt sich wiederum um einen kommutativen Ring mit Einselement. Wenngleich es auch Ringe ohne Einselement gibt, ein Beispiel dafür ist (2Z; +, ∗), d.h. die geraden ganzen Zahlen mit Addition und Multiplikation, so sind diese doch nicht von Interesse für uns. Wir vereinbaren daher, daß wir in Zukunft abkürzend von Ringen sprechen, aber immer Ringe mit Einselement meinen werden. Definition 18 Ein Körper K = (K, +, ∗) ist ein Ring mit der zusätzlichen Eigenschaft, daß (K \ {0}, ∗) eine abelsche Gruppe ist. In einem Körper kann man also uneingeschränkt Addieren, Subtrahieren, Multiplizieren und man kann durch alle Elemente mit Ausnahme von 0 dividieren. Beispiele für Körper sind: 1. der Körper Q = (Q, +, ∗) der rationalen Zahlen, 2. der Körper R = (R, +, ∗) der reellen Zahlen, 3. der Körper Zp = (Zp , + Primzahl p, mod p , ∗ mod p ) der ganzen Zahlen modulo einer 4. der Körper (R(x), +, ∗) der rationalen Funktionen mit reellen Koeffizienten in einer Variablen, 5. der Körper (R(x1 , . . . , xn ), +, ∗) der rationalen Funktionen mit reellen Koeffizienten in n Variablen. Die ersten beiden Beispiele sind Ihnen bereits aus der Schule bekannt, Beispiel 3 haben wir schon in den vergangenen Kapiteln mehrfach aufgegriffen und insbesondere die erforderlichen Gruppeneigenschaften bereits festgestellt. Die beiden letzt genannten Körper bestehen gerade aus Brüchen von Polynomen. Besonders im Falle nur einer Variablen verlaufen die Rechnungen darin ganz ähnlich zu denen in den rationalen Zahlen. Bei mehr als zwei Variablen enstehen zusätzliche (aber keine unüberwindlichen) Probleme beim Berechnen des größten gemeinsamen Teilers (ggT) von Zähler und Nenner. Das Bestimmen des ggT von Zähler und Nenner benötigt man, 64 Preliminary version – 8. Januar 2002 um die Brüche in vollständig gekürzter Form darstellen zu können. In den ganzen Zahlen ebenso wie im Polynomring R[x] kann das Berechnen größter gemeinsamer Teiler mit Hilfe des Euklidischen Algorithmus geschehen. Diesen Algorithmus werden Sie in den einzelnen Übungsgruppen besprechen, denn er ist auch die Grundlage der Inversen-Berechnung in Zp . Der Homomorphiebegriff algebraischer Strukturen läßt sich auch für Ringe präzisieren. Aber zusätzlich zur Homorphieeigenschaft für Strukturen des Typs (2, 2) verlangt man von Ringhomomorphismen, daß das Einselement des Vorbereichsringes auf das Einselement des Nachbereichsringes abgebildet wird. Im Gegensatz zu den Gruppen (siehe Satz 11(ii)) folgt ϕ(1) = 1 nicht automatisch aus den Ringeigenschaften. Da jeder Ringhomomorphismus ϕ : (R, +, ∗) → (S, +, ∗) insbesondere auch Gruppenhomomorphismus der additiven Gruppen (R, +) und (S, +) ist, gelten die in Satz 11 aufgeführten Eigenschaften in Bezug auf die Operation +. Eigenschaft (i) gilt natürlich auch für Ringe, denn diese beinhalten ebenfalls keine Relationen. In Bezug auf die Multiplikation mussten wir Eigenschaft (ii) explizit fordern, dann ergibt sich jedoch Eigenschaft (iii) wieder von selbst, sofern denn a ∈ R überhaupt ein multiplikatives Inverses besitzt. Eigenschaften (iv) und (v) gelten in der schärferen Form, daß Bildϕ und Kernϕ = ϕ−1 (0) sogar Unterringe von S beziehungsweise R sind. Das Injektivitätskriterium (vi) gilt natürlich auch für Ringe. Ein Beispiel für einen Ringhomomorphismus ist ϕn : (Z, +, ∗) → (Zn , + mod n , ∗ mod n ) mit ϕn (a) = a mod n. Handelt es sich bei beiden Ringen sogar um Körper, so sprechen wir auch von Körperhomomorphismen. Ein Beispiel für einen Körpermonomorphimus ist die natürliche Einbettung ϕ : Q → R, wobei ϕ(a) = a für alle rationalen Zahlen a. Im Vorgriff auf den nächsten Abschnitt sei bereits der durch ϕ(a + ib) = a − ib definierte Körperisomorphimus ϕ : C → C der komplexen Zahlen mit genannt. 4.2.1 Der Körper C der komplexen Zahlen Im Laufe des Aufbaus der Zahlenbereiche von den natürlichen bis zu den reellen Zahlen wurden durch sukzessive Hinzunahme neuer Elemente Unzulänglichkeiten beseitigt. Die reellen Zahlen haben schließlich die Eigenschaft, daß 65 Preliminary version – 8. Januar 2002 Addition, Subtraktion und Multiplikation ohne Einschränkung ausführbar sind. Außerdem kann durch beliebige von Null verschiedene Zahlen dividiert werden und jede Chauchy-Folge reeller Zahlen besitzt eine reelle Zahl als Grenzwert. Letzteres bedeutet grob gesprochen, daß die reelle Zahlengerade keine Lücken hat. Wir wollen jetzt eine Zahlenbereichserweiterung vornehmen, die eine weitere Unzulänglichkeit beseitigt. In den reellen Zahlen ist nicht jede Gleichung der Gestalt xn + an−1 xn−1 + · · · + a1 x + a0 = 0 , wobei an−1 , . . . , a0 reelle Zahlen sind, lösbar. Zum Beispiel hat die einfache Gleichung x2 + 1 = 0 keine reelle Lösung. Wir legen fest, daß diese Gleichung in unserem neuen Zahlenbereich die Lösung i haben soll, i heißt die imaginäre Einheit und zeichnet sich durch die Eigenschaft i2 = −1 aus. Die Menge C = {a + ib | a, b ∈ R} der komplexen Zahlen besteht aus allen formalen Summen a+ib, wobei a und b reelle Zahlen sind und i die imaginäre Einheit ist. Für eine komplexe Zahl z = a + ib nennt man a den Realteil Re z und b den Imaginärteil Im z von z. Vereinbarungsgemäß schreibt man abkürzend a für a + i0, b für 0 + ib und a − ib für a + i(−b). Für komplexe Zahlen z = a + ib und s = c + id gelten folgende Rechenregeln: z + s = (a + c) + i(b + d) −z = −a − ib z ∗ s = (ac − bd) + i(ad + bc) b a −i 2 für z 6= 0 . z −1 = 2 2 a +b a + b2 Diese ergeben sich einfach dadurch, daß man mit den komplexen Zahlen so rechnet, als wären sie Polynome oder Brüche von Polynomen in der Variablen i und im Anschluß daran die Beziehung i2 = −1 ausnutzt. Bei Addition und Negation sind die Regeln einfach einzusehen. Betrachten wir Multiplikation und Inverses noch etwas genauer. Die Multiplikationsregel ergibt sich aus (a + ib)(c + id) = ac + i2 bd + iad + ibc = ac − bd + i(ad + bc) . Entsprechend berechnen wir 1 a − ib a − ib a − ib a − ib = = 2 = 2 = 2 . 2 2 2 a + ib (a + ib)(a − ib) a − (ib) a −i b a + b2 66 Preliminary version – 8. Januar 2002 Die komplexen Zahlen mit + und ∗ bilden einen Körper. Neutrales Element der Addition (Nullelement) ist 0 = 0 + i0 und neutrales Element der Multiplikation (Einselement) ist 1 = 1+i0. Durch Nachrechnen sieht man, daß die oben angegebenen Elemente −z und z −1 entgegengesetztes beziehungsweise multiplikatives Inverses von z sind. Darüberhinaus gilt der Satz 14 (Fundamentalsatz der Algebra, Gauß) Jede Gleichung xn + an−1 xn−1 + · · · + a1 x + a0 = 0 mit n ≥ 1 und komplexen Koeffizienten an−1 , . . . , a0 besitzt mindestens eine komplexe Lösung. x = α ist genau dann eine Lösung der Gleichung xn + an−1 xn−1 + · · · + a1 x + a0 = 0 , wenn das Polynom xn + an−1 xn−1 + · · · + a1 x + a0 durch das Polynom x − α teilbar ist. Es gilt also xn + an−1 xn−1 + · · · + a1 x + a0 = (x − α)(xn−1 + bn−2 xn−2 + · · · + b1 x + b0 ). Im Falle n > 1 kann man nun den obigen Satz auf die Gleichung xn−1 + bn−2 xn−2 + · · · + b1 x + b0 = 0 anwenden. Mittels vollständiger Induktion zeigt man, daß es (nicht notwendigerweise paarweise verschiedene) komplexe Zahlen α1 , . . . , αn gibt, so daß xn + an−1 xn−1 + · · · + a1 x + a0 = Πnj=1 (x − αj ) . Man sagt dazu auch, über den komplexen Zahlen zerfällt jedes Polynom in einer Variablen in Linearfaktoren, d.h. in ein Produkt von Polynomen vom Grad 1. Bei der Herleitung der Rechenregel für z −1 für z = a + ib wurde der Bruch 1 mit der komplexen Zahl a − ib erweitert, diese Zahl nennt man die konjuz giert komplexe Zahl z̄ = a − ib von z. Die konjugiert komplexe Zahl besitzt eine besondere Bedeutung, beispielsweise hatten wir im vorangegangen Abschnitt festgestellt, daß z 7→ z̄ einen Automorphismus der komplexen Zahlen, d.h. einen Isomorphismus der komplexen Zahlen in sich, beschreibt. Dabei handelt es sich neben dem identischen Automorphismus um den einzigen Automorphismus komplexer Zahlen, welcher den Teilkörper der reellen Zahlen festläßt. Letzteres bedeutet, jede reelle Zahl a = a + i0 hat sich selbst als Bild. 67 Preliminary version – 8. Januar 2002 Eine komplexe Zahl läßt sich als geordnetes Paar zweier reeller Zahlen, nämlich bestehend aus ihrem Real- und ihrem Imaginärteil, schreiben. Dieses Paar kann als Koordinaten eines Punktes der Ebene bezüglich eines kartesischen Koordinatensystems gedeutet werden. Dabei vereinbart man, daß die horizontale Achse (reelle Achse) den Real- und die vertikale Achse (imaginäre Achse) den Imaginärteil angibt. Ähnlich der Darstellung der reellen Zahlen auf einer Zahlengerade erhält man so eine Darstellung der komplexen Zahlen in der komplexen Zahlenebene. Wie die reellen Zahlen die Zahlengerade lückenlos bedeckten, so bedecken die Zahlenebene ebenfalls lückenlos. Aus der geometrischen Veranschaulichung lassen sich zwei weitere Bestimmungsstücke einer komplexen Zahl z = a + ib ablesen. Betrachtet man ihren Ortsvektor, damit meint man die gerichtete Strecke vom Koordinatenursprung zur komplexen Zahl, so wird dieser durch seine Länge und den Winkel ϕ, den er entgegen des Uhrzeigersinns mit der reellen Achse einschließt, eindeutig beschrieben. Die Länge des Ortsvektors berechnet sich nach dem Satz des Pythagoras √ 2 2 nach der Formel a + b , man nennt sie den Betrag von z und bezeichnet 68 Preliminary version – 8. Januar 2002 sie mit |z|. Es gilt z = |z|(cos ϕ + i sin ϕ) und diese Darstellung nennt man die trigonometrische Darstellung der komplexen Zahl z. Durch Betrachtung der Taylorreihenentwicklungen zeigt man die Eulersche Formel eiϕ = cos ϕ + i sin ϕ und gelangt zur Exponentialdarstellung z = |z|eiϕ der komplexen Zahl z. Die Exponentialdarstellung eignet sich besonders zum Berechnen von Produkten, Potenzen und Wurzeln komplexer Zahlen. Für beliebige komplexe Zahlen z, s ∈ C gelten die Beziehungen 1 = −i i 1 Re z = (z̄ + z) 2 i (z̄ − z) Im z = 2 |z|2 = z z̄ |z| = |z̄| z̄ z −1 = für z 6= 0 |z|2 |zs| = |z| ∗ |s| |z + s| ≤ |z| + |s| (Dreiecksungleichung) 69 Preliminary version – 8. Januar 2002 Übungsaufgaben, Serie 5 13. Stellen Sie die folgenden komplexen Zahlen in Exponentialdarstellung dar! (a) 3 + 4i (b) 1 2 − 23 i (c) 1 + i (d) 3i (e) π − πi 14. Berechnen Sie Betrag, Real- und Imaginärteil der folgenden komplexen Zahlen! (a) 1 − i √ √ (b) 17 + 2i 2 π (c) 4ei 4 (d) e−2i √ (e) 2(cos π2 + i sin π2 ) 15. Lösen Sie das lineare Gleichungssystem i 1+i 2 3 −1 2 − i 3 ∗ xT = 1 + i 1 − 3i 0 2 + 3i 0 über dem Körper C der komplexen Zahlen. 70 Preliminary version – 8. Januar 2002 Kapitel 5 Lineare Gleichungssysteme II Die in Kapitel 3 für reelle Zahlen eingeführten Matrizen und die darauf aufbauenden Algorithmen und Methoden benutzen nichts als die vier Grundrechenarten Addition, Subtraktion, Multiplikation und Division durch von Null verschiedene Zahlen. Sie können daher auf beliebige Körper übertragen werden. Die Menge der (m, n)-Matrizen mit Einträgen aus dem Körper K werden wir in Zukunft mit Km,n bezeichnen. Eine Reihe von Ergebnissen und Methoden bedürfen nicht einmal der Division und lassen sich sogar auf Matrizen mit Einträgen aus einem kommutativen Ring R übertragen. Den Raum der (m, n)-Matrizen über dem kommutativen Ring R mit Einselement bezeichnen wir mit Rm,n , mit der Addition bildet dieser wiederum eine abelsche Gruppe. Ebenso bildet Rn,n mit Matrizenaddition und -multiplikation einen (nichtkommutativen) Ring. Wir wollen nun den Begriff der Determinante einer quadratischen Matrix einführen, damit wird es uns zum einen möglich werden, einige Ergebnisse aus Kapitel 3 eleganter auszudrücken und zum anderen werden wir in Spezialfällen zu alternativen Algorithmen zum Lösen von Gleichungssystemen gelangen. Außerdem wollen wir in Zukunft die Einschränkung auf reelle Zahlen auch begrifflich aufgeben und davon ausgehen, daß unsere Rechnungen über einem beliebigen Körper, manchmal sogar über einem kommutativen Ring, ablaufen. 71 Preliminary version – 8. Januar 2002 5.1 Determinaten Definition 19 (Nach Leibniz) 1 Sei A = (ai,j ) i=1,... ,n ∈ Rn,n eine quadraj=1,... ,n tische, n-reihige Matrix mit Einträgen aus dem kommutativen Ring R mit Einselement. Dann definiert man die Determinante |A| (alternative Bezeichnung det A) von A als a1,1 a1,2 . . . a1,n a2,1 a2,2 . . . a2,n X |A| = .. sgnπ a1,π(1) a2,π(2) · · · an,π(n) .. .. = . . . π∈Sn an,1 an,2 . . . an,n X = sgnπ Πni=1 ai,π(i) π∈Sn Für die Berechnung zwei- und dreireihiger Determinaten lassen sich leicht Formel angeben. a b (5.1) c d = ad − cb a b c d e f = aei + bf g + cdh − ceg − bdi − af h (5.2) g h i Verbal kann man formulieren, die Determinante einer zweireihigen Matrix ist die Differenz des Produktes der Elemente der Hauptdiagonalen und des Produktes der Elemente der Nebendiagonalen. Für dreireihige Matrizen kann man sich die Berechnung der Determinanten mittels der Regel von Sarrus verdeutlichen. Dazu schreibt man die ersten zwei Spalten noch einmal rechts neben die Matrix. Die Determinante ergibt sich dann als die Summe der Produkte der drei von links oben nach rechts unten verlaufenden Diagonalen (Hauptdiagonalen) minus die Summe der Produkte der drei von rechts oben nach links unten verlaufenden Diagonalen (Nebendiagonalen). Ganz analog zu den zweireihigen Determinanten kann man die Rechenvorschrift grob durch Hauptdiagionalen - Nebendiagonalen umschreiben. 1 Diese Definition geht auf Gottfried Wilhelm Leibniz (1646-1716), einen der bedeutensten Söhne unserer Stadt Leipzig, zurück. 72 Preliminary version – 8. Januar 2002 Das folgende Bild verdeutlicht die Sarrussche Regel, die Produkte der Elemente der durchgezogenen Diagonalen werden addiert, die der gepunkteten Diagonalen subtrahiert. Man erkennt leicht die Übereinstimmung mit Formel (5.2). Auf Matrizen mit mehr als 3 Reihen läßt sich die Regel Hauptdiagonalen - Nebendiagonalen leider nicht übertragen. Auch die direkte Anwendung der Leibnizschen Definition wird sehr schnell unpraktikabel, denn die Anzahl der Summanden wächst rasend schnell mit der Zeilenzahl (n!). Zunächst wollen wir uns einen rekursiven Algorithmus zur Determinantenberechnung überlegen. Definition 20 Sei A = (ai,j ) i=1,... ,n ∈ Rn,n eine quadratische Matrix mit j=1,... ,n Einträgen aus dem kommutativen Ring R. Wir bezeichnen die Unterdeterminante von |A|, welche durch Streichen der k-ten Zeile und l-ten Spalte entsteht, mit Dk,l , d.h. Dk,l a1,1 . . . a = k−1,1 ak+1,1 . .. a n,1 ... a1,l−1 .. . a1,l+1 .. . . . . ak−1,l−1 ak−1,l+1 . . . ak+1,l−1 ak+1,l+1 .. .. . . . . . an,l−1 an,l+1 . . . ak−1,n . . . . ak+1,n .. . . . . an,n ... a1,n .. . Weiterhin wird Ak,l := (−1)k+l Dk,l die zum Element ak,l gehörige Adjunkte von |A| genannt. 73 Preliminary version – 8. Januar 2002 Lemma 4 (Spezialfall des Entwicklungssatzes von Laplace) Für jede quadratische Matrix A = (ai,j ) i=1,... ,n ∈ Rn,n gilt j=1,... ,n |A| = n X (−1)j+1 a1,j D1,j = j=1 n X a1,j A1,j (5.3) j=1 Beweis: Es gilt D1,j a2,1 . . . a2,j−1 a2,j+1 . . . a2,n .. . . . . . . = . . . . an,1 . . . an,j−1 an,j+1 . . . an,n X = sgnσa2,σ(1) · · · an,σ(n−1) σ∈S({1,2,... ,j−1,j+1,... ,n}) Also kommen in a1,j Di,j bis auf das Vorzeichen gerade alle Summanden der Gestalt a1,π(1) · · · an,π(n) mit π ∈ Sn und π(1) = j vor. Wir haben also das Verhältnis von sgnσ und sgnπ für einander entsprechende Permutationen σ ∈ S({1, 2, . . . , j − 1, j + 1, . . . , n}) und π ∈ Sn zu untersuchen. Jede Fehlstellung in σ ist auch Fehlstellung in π, dazu kommen aber noch die Fehlstellungen, die durch π(1) = j hervorgerufen werden. Dabei handelt es sich um genau j − 1 Stück, denn j steht vor allen Zahlen 1, . . . , j − 1. Also unterscheiden sich sgnπ und sgnσ gerade um den Faktor (−1)j−1 = (−1)j+1 und dieser wird in der Entwicklungsformel ausgeglichen. Die Gleichheit der zweiten und der dritten Summe sind klar, denn die Adjunkten enthalten die notwendige Vorzeichenkorrektur bereits. 2 Gleichung (5.3) nennt man auch die Entwicklung der Determinante |A| nach der 1. Reihe. Mit Hilfe der folgenden zwei Lemmata läßt sich der Laplacesche Entwicklungssatz noch etwas verallgemeinern. Lemma 5 Für alle A ∈ Rn,n gilt |A| = |AT |. 74 Preliminary version – 8. Januar 2002 Beweis: Es gilt a1,1 a2,1 . . . an,1 a1,2 a2,2 . . . an,2 |AT | = .. .. .. . . . a1,n a2,n . . . an,n X = Πni=1 sgnπ aπ(i),i π∈Sn = X Πni=1 sgnπ ai,π−1 (i) (5.4) π∈Sn Aufgrund der in Satz 12festgestellten Homomorphieeigenschaft von sgn gilt 1 2 ··· n 1 = sgn = sgn(π ◦ π −1 ) = sgn(π)sgn(π −1 ) und daraus folgt 1 2 ··· n sgn(π) = sgn(π −1 ) für alle π ∈ Sn . Außerdem können die in (5.4) auftretenden Summanden beliebig umsortiert werden. Damit ergibt sich schließlich X X |AT | = Πni=1 sgnπ −1 ai,π−1 (i) = Πni=1 sgnπ ai,π(i) = |A| π∈Sn π∈Sn 2 Lemma 6 Für alle A ∈ Rn,n und 1 ≤ k < l ≤ n gilt |Azk ↔zl | = −|A| . Beweis: Azk ↔zl entsteht aus A durch Vertauschen der k-ten und l-ten Zeile. Bis auf das Vorzeichen treten in der Leibnizschen Formel für |Azk ↔zl | die gleichen Summanden auf, wie in der für |A|. Allerdings gehören die Summanden nicht zur gleichen Permutation. Der zu π gehörige Summand a1,π(1) · · · an,π(n) aus |A| gehört bei |Azk ↔zl | zur Permutation σ = (k l)◦π und nach Satz 12 gilt sgnσ = −sgnπ. Demzufolge werden die Vorzeichen sämtlicher Summanden der Leibnizschen Formel gerade umgedreht und es folgt die Behauptung. 2 Schließlich können wir sofort schlußfolgern: Satz 15 (Entwicklungssatz von Laplace) Für jede quadratische Matrix 75 Preliminary version – 8. Januar 2002 A = (ai,j ) i=1,... ,n ∈ Rn,n und jede natürliche Zahl i, 1 ≤ i ≤ n, gelten j=1,... ,n |A| = = n X j=1 n X i+j (−1) ai,j Di,j = (−1)j+i aj,i Dj,i = j=1 n X j=1 n X ai,j Ai,j (5.5) aj,i Aj,i (5.6) j=1 Beweis: Formel (5.5) folgt, indem man zunächst die i-te Zeile von A mit allen vorherigen Zeilen vertauscht, bis sie ganz oben steht. Dazu sind i − 1 Vertauschungen erforderlich, also ändert sich die Determinante um (−1)i−1 . Multipliziert man damit die Entwicklung (5.3) der nach dem Vertauschen erhaltenen Matrix, so erhält man Formel (5.5). Formel (5.6) ergibt sich, indem man zur transponierten Matrix AT übergeht und darauf Formel (5.5) anwendet. 2 (5.5) nennt man Entwicklung der Determinante nach der i-ten Zeile und (5.6) heißt Entwicklung der Determinante nach der i-ten Spalte. Mit Hilfe des Laplaceschen Entwicklungssatz kann man die Berechung einer n-reihigen Determinante auf die Berechnung von (höchstens) n (n − 1)-reihigen Determinanten zurückführen. Durch wiederholtes Anwenden des Laplaceschen Entwicklungssatzes gelangt man schließlich zu einem rekursiven Algorithmus, der die Berechnung einer n-reihigen Determinanten (für n ≥ 4) auf die Berechnung von (schlimmstenfalls) n!6 dreireihigen Determinanten zurückführt. Letztere lassen sich mit der Regel von Sarrus bestimmen. Betrachtet man diese Aufwandsabschätzung, so hat man den Eindruck, daß der Entwicklungsaufwand auch nicht geringer ist als bei Anwendung des Leibnizschen Verfahrens. Im schlimmsten Fall ist das leider ebenso richtig wie unvermeidlich, sind nämlich die Einträge der Matrix paarweise verschiedene Variablen eines Polynomringes, so ist das Ergebnis in der Tat ein Polynom bestehend aus n! Summanden und allein der Aufwand, um das Ergebnis aufzuschreiben, gehört der Komplexitätsklasse O(n!) an. Andererseits nimmt der Entwicklungsaufwand aber deutlich ab, wenn die Matrix Nullen enthält. Es ist vorteilhaft, nach einer Zeile oder Spalte zu entwickeln, welche möglichst viele Nullen enthält. Die zu den Nullen gehörigen Adjunkten brauchen nicht berechnet zu werden, da sie im Anschluß ohnehin mit Null multipliziert werden würden und daher keinen Einfluß auf die Determinante haben. 76 Preliminary version – 8. Januar 2002 Damit kommen wir zu einer Reihe von Folgerungen aus den vorangegangenen Lemmata und dem Laplaceschen Entwicklungssatz. Diese erlauben es in vielen Fällen, Determinanten sofort abzulesen oder wenigstens so umzuformen, daß sie mehr Nullen enthalten. Folgerung 3 Sei A = (ai,j ) i=1,... ,n ∈ Rn,n eine quadratische Matrix. j=1,... ,n 1. Enthält eine Zeile oder Spalte von A ∈ Rn,n nur Nullen, so gilt |A| = 0. 2. Enthält A eine Zeile oder Spalte doppelt, so gilt |A| = 0. 3. Gilt ai,j = 0 für alle 1 ≤ i < j ≤ n, dann haben wir |A| = a1,1 · · · an,n . 4. |A| = a1,1 · · · an,n , falls ai,j = 0 für alle 1 ≤ j < i ≤ n. 5. Jeder Eintrag der k-ten Zeile von A sei eine Summe ak,j = bk,j + ck,j . Dann gilt a1,1 ... a1,n a1,1 . . . a1,n a1,1 . . . a1,n . .. .. .. .. .. . . . . . . . ... ak−1,n ak−1,1 . . . ak−1,n ak−1,1 . . . ak−1,n ak−1,1 |A| = bk,1 + ck,1 . . . bk,n + ck,n = bk,1 . . . bk,n + ck,1 . . . ck,n ... ak+1,n ak+1,1 . . . ak+1,n ak+1,1 . . . ak+1,n ak+1,1 .. .. .. .. .. ... . . . . . a ... an,n an,1 . . . an,n an,1 . . . an,n n,1 6. Aussage 5) gilt in entsprechender Weise auch für Spalten. 7. Sei 1 ≤ k ≤ n. Für beliebige λ ∈ R gelten |Aλzk | = λ|A| sowie |Aλsk | = λ|A|. 8. Für beliebiges λ ∈ R gilt |λA| = λn |A|. 9. Für alle k 6= l und λ ∈ R gilt |Azk +λzl | = |Ask +λsl | = |A|. Beweis: 1) Entwicklung nach der Nullzeile beziehungsweise -spalte liefert eine Summe von Produkten, wobei jeweils einer der Faktoren 0 ist. Also sind alle Produkte und damit die Summe 0. 2) Nehmen wir an, die k-te und die l-te Zeile seien gleich (k 6= l), dann gilt Azk ↔zl = A. Außerdem gilt nach Lemma 6 |A| = −|Azk ↔zl |. Also |A| = −|A| und folglich |A| = 0. Analog zeigt man die Behauptung für gleiche Spalten. 77 Preliminary version – 8. Januar 2002 3) Wir führen den Beweis durch vollständige Induktion über die Zeilenzahl n. Induktionsanfang: Für n = 1 ist die Behauptung richtig, denn für A = (a1,1 ) gilt nach Leibnizscher Definition |A| = a1,1 . Induktionsvoraussetzung: Für jede (n − 1)-reihige Matrix A mit ai,j = 0 für alle 1 ≤ i < j ≤ n − 1 gilt |A| = a1,1 · · · an−1,n−1 . Induktionsbehauptung: Für jede n-reihige Matrix A mit ai,j = 0 für alle 1 ≤ i < j ≤ n gilt |A| = a1,1 · · · an,n . Induktionsbeweis: A sei n-reihig. Entwicklung nach der n-ten Zeile liefert P |A| = nj=1 an,j An,j = an,n An,n = an,n Dn,n , da an,j = 0 für alle j = 1, . . . , n− 1 und An,n = (−1)2n Dn,n = Dn,n . Die Unterdeterminante An−1,n−1 ist (n−1)reihig und genügt der Induktionsvoraussetzung, also An,n = a1,1 · · · an−1,n−1 . Einsetzen liefert die Induktionsbehauptung |A| = a1,1 · · · an,n . 4) Könnte man analog zu 3 beweisen. Andererseits hat aber AT die unter 3 vorausgesetzte Gestalt und daher folgt die Behauptung auch sofort aus 3 und Lemma 5. 5) Entwicklung von A nach der k-ten Zeile liefert A= n X (bk,j + ck,j )Ak,j = j=1 n X bk,j Ak,j + j=1 n X ck,j Ak,j j=1 Die Summen auf der rechten Seite sind gerade die Entwicklungen der auf der rechten Seite der Behauptung auftretenden Matrizen nach der k-ten Zeile. Also gilt die behauptete Gleichheit. 6) Folgt durch Transponieren von A aus 5). 7) Entwickeln nach der k-ten Zeile zeigt |Aλzk | = n X λak,j Ak,j = λ j=1 n X ak,j Ak,j = |A| . j=1 Analog folgt die Behauptung für Vervielfachung einer Spalte. 8) Folgt sofort aus 7). 9) Anwendung von 5 zeigt |Azk +λzl | = |A| + |B|, wobei sich B aus A dadurch ergibt, daß man die k-te Zeile durch das λ-Fache der l-ten Zeile ersetzt. Mittels 7 kann der Faktor λ aus |B| herausgezogen werden. Die l-te und die k-te Zeile der dabei entstehenden Determinante sind gleich, also ist diese Determinante und damit auch |B| nach 2 gleich 0. 2 78 Preliminary version – 8. Januar 2002 Wir haben beim Beweis von Eigenschaft 3 das Beweisprinzip der vollständigen Induktion gewählt, um diese wichtige Prinzip einmal aufzufrischen. Alternativ kann man die Eigenschaft aber auch wie folgt nachweisen. Mit Ausnahme der identischen Permutation gilt für jede Permutation π ∈ Sn , daß wenigstens einer der Faktoren des Produktes a1,π(1) · · · an,π(n) gleich Null ist. Demnach ergibt sich aus der Leibnizschen Determinantendefinition |A| = sgn(1) a1,1 · · · an,n = a1,1 · · · an,n und wir sind fertig. Im Vorfeld von Folgerung 3 hatten wir angedeutet, daß man häufig durch Umformung erreichen kann, daß in einer Determinante mehr Nulleinträge vorkommen. Diesem Zweck dienen vorrangig die Folgerungen 5) und 7). Ist R sogar ein Körper und nicht einfach nur ein kommutativer Ring mit Einselement, so kann man Determinanten mit Hilfe des Gaußschen Algorithmus berechnen. Der Aufwand dafür ist nur von der Komplexitätsordnung O(n3 ), was sehr viel kleiner als O(n!) ist. Lemma 6 sowie die Eigenschaften 7) und 9) aus Folgerung 3 zeigen auf, wie sich die Determinante einer Matrix bei Anwendung elementarer Zeilenoperationen verändert. Wendet man den Gaußalgorithmus genau nach der in Abschnitt 3.1.2 angegebenen Vorschrift an, so benötigt man gar keine Zeilenvervielfachungen. Die Determinante der letztendlich enthaltenen Zeilenstufenform stimmt also bis auf das Vorzeichen mit der der Ausgangsmatrix überein. Ob ein Vorzeichenwechsel erfolgt, richtet sich nur danach, wieviele Zeilenvertauschungen im Laufe der Abarbeitung in Schritt 4 des Algorithmus ausgeführt wurden. Ist die Anzahl gerade, so haben Ausgangsmatrix und Zeilenstufenform die gleiche Determinante andernfalls unterscheiden sie sich gerade um den Faktor −1. Die Determinante einer quadratischen Matrix in Zeilenstufenform berechnet sich aber gemäß Folgerung 3(3) ganz einfach als das Produkt der Hauptdiagonalelemente. Insbesondere ist die Determinante genau dann Null, wenn weniger als n Stufen vorliegen, die Matrix also einen Rang kleiner n besitzt. Merksatz 8 Sei A ∈ Kn,n eine n-reihige quadratische Matrix mit Einträgen aus einem Körper K. Es gilt |A| = 0 genau dann, wenn RangA < n. Ist B = (bi,j ) eine zu A äquivalente Matrix in Zeilenstufenform, welche mit Hilfe des in Abschnitt 3.1.2 angegebenen Gaußalgorithmus berechnet wurde, so gilt |A| = (−1)p |B| = (−1)p b1,1 · · · bn,n , 79 Preliminary version – 8. Januar 2002 wobei p die Anzahl der bei der Berechnung von B vorgenommenen Zeilenvertauschungen ist. Führt man den Gaußalgorithmus in allgemeinerer Form durch, wobei man die Verwendung beliebiger elementarer Zeilen- und Spaltenoperationen zuläßt, so gilt (−1)p+q (−1)p+q |A| = |B| = b1,1 · · · bn,n , λ1 · · · λ k λ 1 · · · λk wobei p wieder die Anzahl der vorgenommenen Zeilenvertauschungen, q die Anzahl der vorgenommenen Spaltenvertauschungen bezeichnen sowie k Vervielfachungen von Zeilen oder Spalten mit den von Null verschiedenen Faktoren λ1 , . . . , λk−1 sowie λk aufgetreten sind. Da die n-reihigen quadratischen Matrizen mit Rang n besonders bedeutsam sind, führt man für sie einen Namen ein: Definition 21 Besitzt eine n-reihige quadratische Matrix A den Rang n, so sagt man A hat Vollrang und nennt A eine reguläre Matrix. Gilt dagegen RangA < n, so nennt man A eine singuläre Matrix. Gemäß dem obigen Merksatz ist die Regularität der quadratischen Matrix A gleichbedeutend zu der Bedingung |A| = 6 0. Entsprechend ist eine quadratische Matrix A genau dann singulär, wenn ihre Determinante gleich 0 ist. Übungsaufgaben, Serie 6 16. Berechnen Sie die Determinante 3 2 −1 5 6 −3 0 1 0 1 2 2 1 1 0 . 4 0 0 0 1 1 2 3 0 2 80 Preliminary version – 8. Januar 2002 17. Berechnen Sie die Determinante x 0 0 0 x − 2 3 0 3 x + 1 0 0 1 0 0 . 2 x 18. Berechnen Sie in Abhängigkeit von der Zeilenzahl n ≥ 1 die Determinante der Matrix A = (ai,j ) i=1,... ,n mit den reellen Einträgen j=1,... ,n ai,j 5.2 i + j falls i + j < n + 1 1 falls i + j = n + 1 . = 0 falls i + j > n + 1 Cramersche Regel zum Lösen linearer Gleichungssysteme In speziellen Situation kann lineare Gleichungssysteme AxT = bT auf direkte Weise mittels Determinanten lösen. Bedingung ist, daß das Gleichungssystem eine nullparametrige Lösungsmenge besitzt, d.h. die Lösungsmenge ist einelementig also ist das Gleichungssystem eindeutig lösbar, und daß seine Koeffizientenmatrix A quadratisch ist. Sei also A quadratisch n-reihig. Die Parameteranzahl sollte 0 sein, also gilt n − RangA = 0. Es ergibt sich RangA = n, was gleichbedeutend zur Regularität der Matrix A ist. Die Lösbarkeit des Gleichungsystems ist klar, denn da die erweiterte Koeffizientenmatrix (A bT ) nur n Zeilen aufweist, muß Rang(A bT ) ≤ n gelten, wegen RangA = n ≤ Rang(A bT ) ergibt sich damit RangA = Rang(A bT ) = n. Ai bezeichne die Matrix, die entsteht, wenn man die i-te Spalte der Koeffizientenmatrix A durch den Spaltenvektor bT der Absolutglieder ersetzt. Dann gilt Satz 16 (Cramersche Regel) Sind A ∈ Kn,n eine n-reihige reguläre Matrix und b ∈ Kn ein beliebiges n-Tupel von Absolutgliedern, dann hat das lineare Gleichungssystem AxT = bT 81 Preliminary version – 8. Januar 2002 die einelementige Lösungsmenge |An | |A1 | |A2 | L= , ,... , . |A| |A| |A| Beweis: Zunächst ist klar, daß das Gleichungssystem genau eine Lösung besitzt, diese sei (β1 , β2 , β3 ) ∈ Kn . Es gilt die Matrizengleichung a1,1 a1,n b1 .. .. .. β1 . + · · · + βn . = . an,1 an,n bn Die Matrix Ai hat also die Gestalt Pn a1,1 · · · a1,i−1 a1,n j=1 βj a1,j a1,i+1 · · · .. .. .. .. Ai = ... . . . . Pn an,1 · · · an,i−1 j=1 βj an,j an,i+1 · · · an,n und aus Folgerung 3 ergibt sich für ihre Determinante |Ai | = βi |A| , folglich βi = |Ai | , |A| wie im obigen Satz behauptet. Betrachten wir abschließend noch ein Beispiel dazu: 3x + 2y − z = 4 −x − y + 2z = −3 x+z = 5 Es gilt 3 2 −1 |A| = −1 −1 2 = 2 . 1 0 1 82 Preliminary version – 8. Januar 2002 2 Somit sind die Voraussetzungen der Cramerschen Regel erfüllt, und die eindeutig bestimmte Lösung des Gleichungssystems ist 4 2 −1 1 17 −3 −1 2 = x = 2 2 5 0 1 3 4 −1 1 25 −1 −3 2 = − y = 2 2 1 5 1 3 2 4 7 1 −1 −1 −3 = − z = 2 2 1 0 5 Merke: Für Gleichungssysteme mit mehr als drei Variablen ist der Gaußalgorithmus der Cramerschen Regel, vorausgesetzt diese ist überhaupt anwendbar, im allgemeinen vorzuziehen. 5.3 Berechnung inverser Matrizen Früher (siehe Übungsaufgabe 9) hatten wir einen Algorithmus zum Berechnen der inversen Matrix einer n-reihigen regulären Matrix A angegeben. Dazu war das parallele Lösen von n Gleichungssystemen mit gleicher Koeffizientenmatrix A und Absolutgliedvektoren (0, . . . , 0, 1, 0, . . . , 0)T erforderlich. Eine alternative Berechnungsvorschrift, welche darüberhinaus nicht nur in Körpern sondern beliebigen kommutativen Ringen anwendbar ist, lautet: Satz 17 Sei A ∈ Rn,n eine n-reihige quadratische Matrix mit Einträgen aus dem kommutativen Ring R mit Einselement. A besitzt genau dann eine inverse Matrix in Rn,n , wenn ihre Determinante in R invertierbar ist, d.h. |A| | 1. Insbesondere muß A also regulär sein und wenn R sogar ein Körper ist, so reicht die Regularität auch bereits für die Existenz der inversen Matrix aus. Im Falle der Existenz der inversen Matrix A−1 von A gilt A−1 = 1 (Ai,j )T , |A| (5.7) oder in Worten, die inverse Matrix ist gleich die transponierte Matrix der Adjunkten von A vervielfacht mit dem Inversen der Determinante von A. 83 Preliminary version – 8. Januar 2002 Beweis: Daß die Bedingung der Invertierbarkeit der Determinanten |A| hinreichend für die Existenz von A−1 ist, wird klar, wenn man nachprüft, daß die rechte Seite von (5.7) tatsächlich die zu A inverse Matrix ist. Ihre Existenz ist dann auf jeden Fall gesichert. Die Notwendigkeit der Bedingung wollen wir hier ohne Beweis festhalten. Wir weisen aber darauf hin, daß die Notwendigkeit nicht unmittelbar aus der Formel (5.7) folgt, denn es könnte ja jede Adjunkte Vielfaches der Determinante |A| sein. Kommen wir nun schließlich zum Nachweis, daß die rechte Seite von (5.7) im Falle seiner Existenz tatsächlich die inverse Matrix von A darstellt. Der Eintrag bk,l , 1 ≤ k, l ≤ n, der Produktmatrix A · (Ai,j )T = (bk,l )k=1,... ,n l=1,... ,n P lautet bk,l = nr=1 ak,r Al,r . Im Falle k = l handelt es sich dabei genau um die Entwicklung von |A| nach der k-ten Zeile, also gilt bk,k = |A| für alle k = 1, . . . , n. Gilt dagegen k 6= l, so kann man bk,l als Entwicklung der Matrix nach der l-ten Zeile auffassen, die entsteht, wenn man in A die lte Zeile durch die k-te Zeile ersetzt. Diese Matrix enthält also die k-te Zeile doppelt und daher ist ihre Determinante 0. Somit bk,l = 0 für alle 1 ≤ k, l ≤ n mit k 6= l. Zusammenfassend erkennt man sofort 1 T (Ai,j ) = En , A· |A| also wie behauptet A−1 = 1 |A| (Ai,j )T . 2 2 1 0 Zum Abschluß betrachten wir wieder ein Beispiel dafür. A = 1 0 1 3 4 −4 Wegen |A| = −1 besitzt A wenigstens dann eine inverse Matrix, wenn wir die Einträge als zum Körper der rationalen Zahlen, oder auch der reellen oder komplexen Zahlen, betrachten. Wir erkennen aber sogar noch mehr. Wegen (−1) ∗ (−1) = 1 ist −1 bereits im Ring der ganzen Zahlen invertierbar. Aus diesem Grund besitzt A sogar dann eine inverse Matrix, wenn man die Einträge als zu Z gehörig betrachtet, mit anderen Worten – in der inversen Matrix von A treten keine Brüche auf. 84 Preliminary version – 8. Januar 2002 Anwendung von Satz 17 liefert T 0 1 − 1 1 1 0 3 4 4 −4 3 −4 4 −4 −1 1 − 1 0 2 0 − 2 1 = −7 8 2 . A−1 = 3 −4 −1 4 −4 3 4 −4 5 1 2 0 2 1 1 0 − 0 1 1 1 1 0 5.4 Determinantensatz In Abschnitt 4.1 hatten wir als Beispiel 9 die multiplikative Gruppe der regulären reellen (n, n)-Matrizen angegeben. Wir wollen uns nun einen weiteren (eleganteren) Beweis der Gruppeneigenschaft anschauen. Satz 18 (Determinantensatz) Die durch det A = |A| definierte Abbildung det : Kn,n → K ist ein surjektiver Homomorphismus multiplikativer Monoide. Insbesondere gilt die Gleichheit det (A · B) = det A ∗ det B für alle A, B ∈ Kn,n . Beweis: A kann mittels Zeilenvertauschungen und Addition von Vielfachen einer Zeile zu einer anderen in eine obere Dreiecksmatrix, d.h. unterhalb der Hauptdiagonalen stehen nur Nullen, überführt werden. Sollte die Anzahl der vorgenommenen Zeilenvertauschungen ungerade sein, so vervielfachen wir zum Schluß die erste Zeile der Ergebnismatrix noch mit −1, die letztendlich auf diese Weise erhaltene Dreiecksmatrix nennen wir A0 . Nach Merksatz 8 gilt die Gleichheit |A| = |A0 | der Determinanten. Elementare Zeilenoperationen entsprechen Matrixmultiplikationen von links, also gilt A0 = UA für eine geeignete (n, n)-Matrix U. Analog überführt man B mittels elementarer Spaltenoperationen in eine obere Dreiecksmatrix B0 = BV mit der Eigenschaft |B| = |B0 |. Das Matrixprodukt C = A0 B0 ist wieder eine obere Dreiecksmatrix und das i-te Hauptdiagonalelement ci,i von C ist gleich dem Produkt a0i,i b0i,i der i-ten Hauptdiagonalelemente von A0 und B0 . Für jede der oberen Dreiecksmatrizen A0 , B0 und C berechnet sich die Determinante gerade als das Produkt der Hauptdiagonalelemente, also gilt |C| = |A0 | ∗ |B0 | = |A| ∗ |B|. Die Argumente aus Merksatz 8 können auch auf die Anwendung der durch U und V beschriebenen elementaren Zeilen- und Spaltenumformungen auf die 85 Preliminary version – 8. Januar 2002 Produktmatrix AB angewandt werden. Daher gilt |C| = |UABV| = |AB| und insgesamt folgt die im Satz behauptete Operationsverträglichkeit der Determinantenabbildung mit der Matrizenmultiplikation. Die zweite Forderung an einen Monoidhomomorphismus besteht darin, daß das Einselement auf das Einselement abgebildet wird, wegen |En | = 1 ist das offensichtlich erfüllt. Die letzte noch offene Behauptung besteht in der Surjektivität von det . Sei α ∈ K beliebig, ein Beispiel für eine Matrix mit Determinante α ist die Matrix, die links oben den Eintrag α hat, deren weiteren Hauptdiagonaleinträge alle 1 sind und die außerhalb der Hauptdiagonalen nur Nullen enthält. 2 1 für alle regulären Matrizen A ∈ Kn,n . Insbesondere ergibt sich |A−1 | = |A| Daraus und aus dem obigen Satz folgt, daß Produkte und Inverse regulärer Matrizen wieder regulär sind. Zieht man die Existenz des Einselementes En und der inversen Matrix zu jeder regulären Matrix hinzu, so folgt unter Berücksichtigung der Assoziativität der Matrizenmultiplikation, daß die Menge der regulären Matrizen aus Kn,n eine multiplikative Gruppe bilden. Diese Gruppe bezeichnet man auch als Allgemeine lineare Gruppe und bezeichnet sie mit Gl(n, K) (für General linear group). Schränkt man die Determinantenabbildung auf die Teilmenge der regulären Matrizen aus Kn,n ein, so erhält man einen Gruppenepimorphismus auf die multiplikative Gruppe der von Null verschiedenen Elemente von K. Der Kern des Gruppenepimorphismus, d.h. die Menge aller Matrizen aus Kn,n , deren Determinante 1 ist, bildet gemäß Satz 11(v) eine Untergruppe der Gl(n, K). Man nennt sie Spezielle lineare Gruppe und bezeichnet sie mit Sl(n, K) (für Special linear group). 5.5 Algebraische Struktur der Lösungsmenge eines linearen Gleichungssystems Wir betrachten eine Matrix A ∈ Km,n und ein m-Tupel b ∈ Km von Elementen aus dem Körper K. Die Lösungsmenge L des homogenen linearen Gleichungssystems AxT = OT bildet mit der komponentenweisen Addition eine abelsche Gruppe (für den Spezialfall K = R siehe auch Übungsaufgabe 10). Am einfachsten läßt sich diese Aussage dadurch nachweisen, daß man das Untergruppenkriterium 9 auf L als Teilmenge der abelschen Gruppe (Kn , +) 86 Preliminary version – 8. Januar 2002 anwendet. O ist Lösung jedes homogenen linearen Gleichungssystems, also ist L nicht leer. Für beliebige a, c ∈ L gilt A(a − c)T = AaT − AcT = OT − OT = OT , also a − c ∈ L. Neben der Gruppeneigenschaft besitzt die Lösungsmenge L eines homogenen linearen Gleichungssystems noch eine weitere strukturelle Eigenschaft. Für alle λ ∈ K und a ∈ L ist auch das skalare Vielfache λa Lösung des Systems. Es gilt A(λa)T = λ AaT = λOT = OT . Eine derartige algebraische Struktur ist für eine Vielzahl von Anwendungen, z.B. in der Robotertechnik, der Kodierungstheorie, der Kryptographie und der Physik, von großer Bedeutung. Man führt daher einen eigenen Namen für sie sein. Definition 22 Sei K ein Körper. Unter einem K-Vektorraum2 V versteht man eine additiv geschriebene abelsche Gruppe über welcher der Körper K operiert, d.h. zusätzlich zur Gruppenoperation + gibt es eine skalare Multiplikation · : K × V → V mit den Eigenschaften 1. 1 · a = a für alle a ∈ V, 2. λ · (µ · a) = (λµ) · a für alle λ, µ ∈ K und a ∈ V (Assoziativgesetz), 3. λ · (a + b) = λ · a + λ · b für alle λ ∈ K und a, b ∈ V (Distributivgesetz), 4. (λ + µ) · a = λ · a + µ · a für alle λ, µ ∈ K und a ∈ V (Distributivgesetz) Die Elemente von V nennt man Vektoren. Die skalare Multiplikation nennt man auch Vervielfachung. Dabei handelt es sich nicht um eine Operation von V, denn ihr Vorbereich ist keine Potenz von V, sondern es geht neben einem Vektor auch ein Körperelement in die Abbildung · ein. In diesem Sinne treffen die Bezeichnungen Assoziativ- und Distributivgesetz für die Eigenschaften 2–4 nicht ganz zu, die Begriffe stellen aber naheliegende Verallgemeinerungen dar. Man beachte, daß der Ausdruck a · λ streng genommen nicht gebildet werden kann, da das erste Argument von · aus K und das zweite aus V sein muß. 2 Wenn der Körper K aus dem Kontext heraus klar ist, dann sprechen wir häufig abkürzend von einem Vektorraum. 87 Preliminary version – 8. Januar 2002 Will man einen Vektorraum als abstrakte algebraische Struktur darstellen, so muß man zu inhomogenen Strukturen, d.h. solchen mit mehr als einer Trägermenge, übergehen. Man kann dann schreiben V = ({V, K} ; +, ·). Die Angabe eines Typs (2, 2) reicht zur Beschreibung der Abbildungen nicht mehr aus. An ihre Stelle tritt die Signatur (VVV, KVV), welche nicht nur die Anzahl der Argument angibt, sondern auch die Typen der Argumente und des Funktionswertes beschreibt. Was passiert nun aber, wenn man ein inhomogenes Gleichungssystem mit rechter Seite bT betrachtet? Für b 6= O ist die Differenz zweier Lösungen a, c von AxT = bT sicher keine Lösung dieses inhomogenen linearen Gleichungssystems, denn analog zu oben überzeugt man sich von A(a − c)T = AaT − AcT = bT − bT = OT . Aber man stellt fest, die Differenz zweier Lösungen des inhomogenen linearen Gleichungssystems AxT = bT ist in jedem Fall Lösung des zugeordneten homogenen linearen Gleichungssystems AxT = OT . Ist c eine beliebige Lösung des inhomogenen Systems, so läßt sich nach der obigen Überlegung jede weitere Lösung c0 des inhomogenen Systems als Summe c0 = c + a aus c und einer geeigneten Lösung a (= c0 − c) des homogenen Systems darstellen. Umgekehrt ist die Summe c + a für jede Lösung a des homogenen Systems eine Lösung des inhomogenen Systems. Daraus ergibt sich der folgende Merksatz 9 Ein inhomogenes lineares Gleichungssystem AxT = bT läßt sich lösen, indem man zunächst die Lösungsmenge Lhom des zugehörigen homogenen linearen Gleichungssystems AxT = OT berechnet, dann eine spezielle Lösung c des inhomogenen Gleichungssystems ermittelt (sofern es eine solche Lösung c überhaupt gibt, andernfalls gilt aber ohnehin Linhom = ∅) und daraus die Lösungsmenge Linhom = {c + a | a ∈ Lhom } des inhomogenen Systems zusammensetzt. 88 Preliminary version – 8. Januar 2002 Der Satz zeigt, auch wenn die Lösungsmenge eines inhomogenen linearen Gleichungssystems selbst kein Vektorraumist, so ist sie doch eng mit einem Vektorraum verbunden, da die Menge aller möglichen Differenzen zweier Lösungen einen solchen bildet. Etwas allgemeiner definiert man derartige Räume: Definition 23 Unter einem affinen Raum A über dem Körper K versteht man ein Paar (A, V) bestehend aus einer Menge A von Punkten und einem K-Vektorraum V, die folgendermaßen zusammenhängen: 1. jedes geordnete Paar (P, Q) ∈ A2 von Punkten bestimmt eindeutig −→ einen Vektor aus V, diesen bezeichnet man mit P Q, 2. zu jedem Punkt P ∈ A und jedem Vektor v ∈ V gibt es einen Punkt −→ Q ∈ A, so daß P Q = v gilt, −→ −→ −→ 3. für drei Punkte P, Q, R gilt stets P Q + QR = P R. Anmerkung: Zuweilen werden Bezeichner für Vektoren in der Literatur mit Pfeilen überstrichen. Wir wollen das hier nicht tun, da die Vektoreigenschaft bereits aus der Zugehörigkeit zu einem Vektorraum deutlich wird. So schrei→ ben wir in Eigenschaft 2) v und nicht − v . Wegen v ∈ V handelt es sich dennoch um einen Vektor. Anders verhält es sich dagegen mit der Schreib−→ weise P Q aus Eigenschaft 1). Hier dient die Pfeilüberstreichung im Grunde → : A×A→V. genommen als Symbol einer Abbildung − Überlegen wir uns, daß die Lösungsmenge Linhom eines inhomogenen linearen Gleichungssystemen in n Variablen über dem Körper K tatsächlich ein affiner Raum gemäß dieser Definition ist. Dazu setzen wir A = Linhom und V = Lhom . Zwei beliebigen Lösungen a, c ∈ Linhom = A ordnen wir den Vektor − → := c−a ∈ V = L ac hom zu. Dabei steht auf der rechten Seite die gewöhnliche Subtraktion von Elementen aus Kn . Auf diese Weise haben wir der Forderung 1 Genüge getan. Andererseits ist für beliebige a ∈ Linhom und v ∈ Lhom auch c := a + v ∈ Linhom , wobei sich die Summe wiederum auf Kn bezieht. → = (a + v) − a = v gemäß der Rechenregeln in Kn ist somit auch Wegen − ac Eigenschaft 2 erfüllt. Betrachten wir schließlich die Punkte a, c, d ∈ Linhom . Mittels der Rechenregeln in Kn überzeugen wir uns leicht von der Gültigkeit → − → →+− der Gleichung − ac cd = (c − a) + (d − c) = d − a = ad, also Eigenschaft 3. 89 Preliminary version – 8. Januar 2002 5.6 Geometrische Deutung der Lösungsmenge eines linearen Gleichungssystems Ein geordnetes Paar reeller Zahlen kann als Punkt der Ebene gedeuted werden, indem man es als Koordinaten bezüglich eines fest gewählten kartesischen Koordinatensystems der Ebene auffaßt. In diesem Sinne beschreibt die Menge R2 die Punkte der reellen Ebene. Ebenso kann man Tripel reeller Zahlen als Punkte des Raumes deuten, indem man sie als Koordinaten bezüglich eines festen kartesischen Koordinatensystems des Raumes ansieht. Allgemein beschreiben die Elemente der Menge Rn durch Deutung als Koordinaten bezüglich eines festen kartesischen Koordinatensystems die Punkte des n-dimensionalen Raumes. Aus diesem Grund bezeichnet man den n-dimensionalen Raum auch mit Rn . Für n ≥ 4 geht die geometrische Anschauung bereits verloren, noch weiter löst man sich davon, wenn man Räume Kn für beliebige Körper K in die Untersuchung einbezieht. Dennoch haben auch diese interessante Anwendungen, z.B. für K = Zp in der Kodierungstheorie. Wenngleich wir die allgemeinere Schreibweise K für den zugrundeliegenden Körper wählen, so können Sie sich, wenn nicht ausdrücklich anders hervorgehoben, immer die reellen Zahlen als Grundkörper vorstellen. Damit entsprechen die geometrischen Objekte im 1,2 und 3-dimensionalen Raum tatsächlich der üblichen Anschauung. Die Nullstellenmenge eines Polynoms in n Variablen mit Koeffizienten aus K ist eine Teilmenge des n-dimensionalen Raumes Kn . Die Lösungsmenge L des polynomialen (nicht unbedingt linearen) Gleichungssystems p1 (x1 , . . . , xn ) = 0 .. . pm (x1 , . . . , xn ) = 0 besteht gerade aus dem Durchschnitt der Nullstellengebilde der Polynome p1 , . . . , pm ∈ K[x1 , . . . , xn ]. Auf diese Weise lassen sich eine Vielzahl geometrischer Objekte durch eine Menge polynomialer Gleichungen beschreiben, deren Lösungsmenge gerade genau aus den Punkten des Objektes besteht. Derartige geometrische Objekte nennt man auch algebraische Punktmengen. Betrachten wir nun die algebraischen Mengen, die als Lösungsmengen linearer Gleichungssysteme, d.h. alle Polynome p1 , . . . , pm sind vom Grad 1, auftreten können. Wir wollen uns auf die Untersuchung nichtleerer Lösungs90 Preliminary version – 8. Januar 2002 mengen beschränken. Da es zu jedem linearen Gleichungssystem ein äquivalentes Gleichungssystem (also insbesondere mit gleicher Lösungsmenge) gibt, welches Zeilenstufenform aufweist, können wir uns auf die Diskussion linearer Gleichungssysteme in Zeilenstufenform beschränken. Zunächst einmal ist intuitiv klar, daß die Anzahl der Parameter der Lösungsmenge von entscheidender Bedeutung für die geometrische Gestalt der durch L beschriebenen Menge ist. Ist die Parameteranzahl 0, so ist das geometrische Objekt ein einzelner Punkt des Kn . Auch den Fall der n-parametrigen Lösungsmenge können wir schnell abhandeln. n Parameter bedeutet, der Rang der erweiterten Koeffizientenmatrix ist 0, also lautet das Gleichungssystem einfach 0 = 0 und der gesamte Raum Rn ist die Lösungsmenge des Systems. Den nichttrivialen parametrigen Fall wollen wir uns anhand einiger Spezialfälle verdeutlichen. Beginnen wir dazu mit dem einfachen Fall n = 2 und einem Parameter. Ein lineares Gleichungssystem mit diesen Eigenschaften in Zeilenstufenform besitzt nur eine Stufe, besteht also nur aus einer von 0 = 0 verschiedenen Gleichung. Das System hat somit die Gestalt αx + βy = γ und wenigstens einer der Koeffizienten α oder β ist von Null verschieden. Das beschriebene Objekt ist eine Gerade in der Ebene. Im Fall n = 3 können 1 oder 2 Parameter auftreten. Die Anzahl der von 0 = 0 verschiedenen Gleichungen in einer Zeilenstufenform ist gleich Rang(A bT ) = n − Parameteranzahl. Also entsprechen 2 Parameter einer Gleichung und 1 Parameter zwei Gleichungen. Eine Gleichung beschreibt eine Ebene im Raum. Befinden sich zwei Gleichungen in Zeilenstufenform, so beschreiben sie nichtparallele Ebenen und diese schneiden sich stets in einer Geraden, diese wird gerade durch die einparametrige Lösungsmenge des Gleichungssystems beschrieben. Allgemein gilt, eine m-parametrige Lösungsmenge beschreibt ein m-dimensionales geometrisches Objekt. Die Lösungsmenge eines linearen Gleichungssystem ist stets ein ungekrümmtes geometrisches Objekt. So handelt es sich bei eindimensionalen Objekten nur um Geraden und nicht um gekrümmte Kurven. Die zweidimensionalen geometrischen Objekte sind Ebenen und keine gekrümmten Flächen. Für höhere Parameterzahlen sind nicht zuletzt aufgrund der fehlenden geometrischen Anschauung keine speziellen Begriffe gebräuchlich. Nur für (n − 1)-parametrige Lösungsmengen, also für solche, 91 Preliminary version – 8. Januar 2002 die zu Zeilenstufenformen bestehend aus einer einzigen Gleichung α1 x1 + · · · + αn xn = β , wobei wenigstens ein αj von Null verschieden ist, gehören, führt man den Begriff der Hyperebene ein. Dabei folgt man der Anschauung, daß es sich um eine Verallgemeinerung einer Ebene im Raum handelt. Die Verallgemeinerung besteht darin, daß es sich um ein lineares Objekt handelt, dessen Dimension genau um 1 niedriger als die des Gesamtraumes ist. Auf diese Weise erhalten wir jeweils zwei Möglichkeiten zur Beschreibung ungekrümmter algebraischer Mengen. Eine Möglichkeit ist die Angabe eines linearen Gleichungssystems mit genau dieser Lösungsmenge, die zweite ist die direkte Angabe der Lösungsmenge. Erinnern wir uns an die in Merksatz 4 angegebenene (n − r)-parametrige Lösungsmenge n n X X L= b1 − a1,j βj , . . . , br − ar,j βj , βr+1 , . . . , βn | j=r+1 j=r+1 βr+1 , . . . , βn ∈ R des linearen Gleichungssystems AxT = bT , wobei sich die erweiterte Koeffizientenmatrix (A bT ) in Dreiecksgestalt (3.11) befindet. Das allgemeine Lösungstupel kann unter Verwendung der Rechenregeln des Kn als Summe der Gestalt T T T a1,n b1 a1,r+1 .. .. .. . . . br ar,r+1 ar,n (5.8) 0 − βr+1 1 − · · · − βn 0 . 0 0 .. . . .. .. 0 0 0 1 aufgeschrieben werden. Durch die an das Gleichungsystem gestellten Bedingungen, trägt diese Darstellung einige spezielle Züge. Darüber hinaus ist die Darstellung als Spaltenvektoren ohne Angabe der Transponierung üblich. Der Grund für die Verwendung von Spaltenvektoren besteht in der besseren Überschaubarkeit der Koordinaten des allgemeinen Lösungstupels in der 92 Preliminary version – 8. Januar 2002 Summendarstellung. Dieser Vereinbarung werden wir in der Folge dadurch Rechnung tragen, daß wir die Elemente der Lösungsmengen Lhom und Linhom transponieren werden, da diese vereinbarungsgemäß Zeilenvektoren sind. Allgemein kann man ein lineares d = (n − r)-dimensionales geometrisches Objekt in der Form xT = aT + λ1 vT1 + . . . + λd vTd (5.9) darstellen. Man spricht auch von der Parameterdarstellung des Objektes. Gemäß Definition 23 werden wir die durch die Lösungsmenge eines linearen Gleichungssystems beschreibbaren geometrischen Objekte auch als affine Teilräume des Kn bezeichnen. In der Parameterdarstellung bezeichnet a ein beliebiges Element aus Linhom , d.h. einen beliebigen, auf dem Objekt liegenden Punkt und die v1 , . . . , vd sind Vektoren3 aus Lhom , sie beschreiben die Richtungen, in denen sich das Objekt vom Punkt a aus ausdehnt. Schließlich sind λ1 , . . . , λd reelle Parameter und x der Koordinatenvektor (x1 , . . . , xn ). Einsetzen reeller Werte für die Parameter liefert in eineindeutiger Weise die Punkte des affinen Teilraumes Linhom . An der Parameterdarstellung wird noch einmal die Aussage von Merksatz 9 deutlich. a ist spezielle Lösung des inhomogenen Systems und λ1 vT1 + . . . + λd vTd durchläuft die allgemeine Lösung des homogenen Systems. Aus Sicht des affinen Lösungsraumes des inhomgenen Gleichungssystems ist a ein Punkt, während die v1 , . . . , vd Vektoren sind. Sowohl Punkte als auch Vektoren gehören zur Menge Kn . Folglich lassen sich beide Typen von Objekten als Koordinaten eines Punktes bezüglich eines kartesisches Koordinatensystems auffassen und auf diese Weise als Punkt des n-dimensionalen Raumes kenntlich machen. Bezogen auf ein Punkt aus Linhom ist diese Darstellung als Punkt des Raumes sicher zufriedenstellend. Die Natur eines Vektors aus Lhom wird dagegen nur unzureichend reflektiert. Man ordnet einem n-Tupel daher nicht nur den Punkt P mit diesen Koordinaten sondern darüberhinaus auch die gerichtete Strecke vom Koordinatenursprung zum Punkt P zu. −→ Diese nennt man auch den Ortsvektor OP von P . Ein Vektor v ∈ Lhom kann −→ als Ortsvektor v = OP des Punktes P mit den Koordinaten von v graphisch dargestellt werden. Ebenso wird der Vektor aber auch durch jede gerichtete Strecke, die durch Parallelverschiebung aus diesem Ortsvektor ensteht, repräsentiert. Ein Vektor v ∈ Lhom ist also eine Äquivalenzklasse paralle3 Die Vektoren müssen linear unabhängig sein, wir werden später auf den Inhalt und die Bedeutung dieser Bedingung zu sprechen kommen. 93 Preliminary version – 8. Januar 2002 ler gerichteter Strecken gleichen Richtungssinnes und gleicher Länge und der Ortsvektor des Punktes mit den Koordinaten von v ist nur ein Repräsentant davon. Das folgende Bild soll die beschriebenen Sachverhalte verdeutlichen. Zum Punkt P wird der Vektor v addiert, beide durchgezogenen Pfeile repräsentieren den Vektor v. Die gepunkteten Pfeile sind die Ortsvektoren der Punkte P beziehungsweise Q = P + v. Den Punkt P + v erhält man als Endpunkt, wenn man den zu v gehörigen Ortsvektor so verschiebt, daß sein Anfangspunkt auf P liegt. Der Punkt R und der Vektor v werden durch das gleiche Tupel aus Kn beschrieben. −→ R mit OR = v v Q=P +v v P Die Darstellung eines linearen geometrischen Objektes durch ein beschreibendes Gleichungssystem nennt man implizite Darstellung, im Gegensatz dazu bezeichnet man die Parameterdarstellung auch als explizite Darstellung. Ein Vorteil der impliziten Darstellung besteht darin, daß man leicht den Durchschnitt so gegebener geometrischer Objekte ermitteln kann. Eine Beschreibung des Durchschnitts erhält man einfach durch Vereinigung der beiden Gleichungsmengen. Die explizite Darstellung besitzt vor allem den Vorteil, daß man das Objekt leicht durch Variation der Parameter “durchlaufen kann”. Das ist besonders bei der graphischen Darstellung mittels Computer von Nutzen. Beide Darstellungen lassen sich ineinander umrechnen. Den Weg von der impliziten zur expliziten Darstellung weist uns Merksatz 4. Den umgekehr94 Preliminary version – 8. Januar 2002 ten Weg, man könnte dazu sagen, daß man zu gegebener Lösungsmenge ein passendes Gleichungssystem sucht, wollen wir ohne Beweis angeben. Man stellt (5.9) zu −λ1 vT1 − . . . − λd vTd + xT = aT um und faßt es als lineares Gleichungssystem in den Variablen λ1 , . . . , λd sowie x1 , . . . , xn auf. Dabei werden den λi die ersten d Spalten und den xj die Spalten d + 1 bis d + n zugeordnet. Mittels Gaußalgorithmus überführt man das Gleichungssystem ohne Verwendung von Spaltenvertauschungen in eine äquivalente Zeilenstufenform. Den unteren Zeilen des Gleichungssystems entsprechen Gleichungen der Form α1 x1 + . . . + αn xn = β, die Variablen λi kommen also darin nicht mehr vor. Die Menge dieser Gleichungen beschreibt den gegebenen affinen Raum implizit. Betrachten wir dazu ein abschließendes Beispiel. Die Parameterdarstellung x 1 2 1 y = 0 + s −1 + t 4 z −1 3 0 beschreibt eine Ebene im Raum. Zu Lösen ist das lineare Gleichungssystem mit der erweiterten Koeffizientenmatrix −2 −1 1 0 0 1 1 −4 0 1 0 0 −3 0 0 0 1 −1 Die eingezeichneten vertikalen Linien dienen nur der Verdeutlichung der Variablengruppierung und Absolutglieder. Die Zeilenstufenform enthält 2 Gleichungen mit Stufenecken in der 1. beziehungsweise 2. Spalte sowie die Gleichung 4x − y − 3z = 7 . Letztere beschreibt die Ebene implizit. 5.7 Lagebeziehungen von Geraden und Ebenen im Raum Betrachtet man Geraden in der Ebene, so gibt es drei prinzipielle Möglichkeit der Lage zueinander. Die Geraden können sich in (genau) einem Punkt schneiden, zusammenfallen oder keine gemeinsamen Punkte haben. 95 Preliminary version – 8. Januar 2002 Die Fälle des Zusammenfallens und keine gemeinsamen Punkte aufweisen haben eines gemeinsam, die Ausdehnung beider Geraden verläuft in der gleichen Richtung. Zwei Geraden g1 g2 : : xT = aT1 + λvT1 xT = aT2 + λvT2 dehnen sich genau dann in der gleichen Richtung aus, wenn es ein µ ∈ K mit v1 = µ · v2 gibt. Liegt der Punkt a1 auf g2 , so folgt g1 = g2 . Andernfalls schneiden sich die beiden Geraden überhaupt nicht und es liegt die Parallelität g1 kg2 vor. Etwas vielfältiger verhält es sich mit zwei Geraden im dreidimensionalen Raum. In diesem Fall kann es zwei Ursachen dafür geben, daß sich zwei Geraden nicht schneiden. Zum einen die bereits im zweidimensionale vorgefundene Tatsache g1 kg2 , also v1 = µ · v2 für ein µ ∈ K, und zum zweiten die Windschiefheit der beiden Geraden. Schaut man aus geeigneter Richtung auf die beiden Geraden, so erhält man den Eindruck, daß sie sich schneiden. Allerdings sind die Geraden im scheinbaren Schnittpunkt in der dritten Dimension versetzt, die eine verläuft also hinter der anderen. Weitere als diese vier Möglichkeiten der Lage von Geraden kommen auch in höheren Dimensionen nicht hinzu. Wir nennen zwei Vektoren v und v0 aus Kn \{O} zueinander parallel (Bezeichnung vkv0 ), wenn ein µ ∈ K mit v = µv0 existiert. Merksatz 10 Für je zwei Geraden g1 g2 : : xT = aT1 + λvT1 xT = aT2 + λvT2 gilt eine der folgenden vier Bedingungen 1. g1 kg2 genau dann, wenn v1 kv2 , 2. g1 = g2 genau dann, wenn g1 kg2 und g1 ∩ g2 6= ∅ 4 3. g1 und g2 schneiden sich in einem Punkt, d.h. g1 ∩ g2 = {a}. Das ist genau dann der Fall, wenn v1 6 kv2 und g1 ∩ g2 6= ∅, 4. g1 und g2 sind windschief, d.h. v1 6 kv2 und g1 ∩ g2 = ∅. 4 äquivalent zu g1 ∩ g2 6= ∅ ist in diesem Falle die Bedingung a1 ∈ g2 96 Preliminary version – 8. Januar 2002 Man beachte, 2 ist ein Spezialfall von 1. Zwei Ebenen im Raum zeigen ein ähnliches Verhalten wie Geraden in der Ebene. Merksatz 11 Zwei Ebenen e1 e2 xT = aT1 + λvT1 + µwT1 xT = aT2 + λvT2 + µwT2 : : im Raum fallen zusammen, sind parallel zueinander oder schneiden sich in einer Gerade. Die Richtigkeit dieses Satzes ist zunächst aus der Anschauung heraus klar, auf einen Beweis werden wir später noch einmal eingehen. Allgemein definiert man die Parallelität affiner Räume als Definition 24 Zwei affine Räume (A1 , V1 ) und (A2 , V2 ) nennt man parallel, wenn wenigstens eine der Inklusionen V1 ⊆ V2 oder V2 ⊆ V1 gilt. Diese Definition erlaubt es uns, auch die Lagebeziehungen einer Ebene und einer Gerade zueinander zu beschreiben. Merksatz 12 Eine Gerade xT = aT1 + λvT1 g : : xT = aT2 + λvT2 + µwT2 und eine Ebene e sind zueinander parallel, die Gerade liegt vollständig in der Ebene oder die Gerade durchstößt die Ebene in einem Punkt. 5.8 Durchschnitte linearer geometrischer Objekte Je nachdem, in welcher (expliziter oder impliziter) Form zwei lineare geometrische Objekte gegeben sind, gibt es verschiedene Möglichkeiten der möglichst schnellen Beschreibung ihres Durchschnitts in expliziter oder impliziter Form. 97 Preliminary version – 8. Januar 2002 Sind beide Objekte implizit durch ein lineares Gleichungssystem, dessen Lösungsmenge sie graphisch darstellen, gegeben, so ist die Vereinigung beider Gleichungssysteme eine implizite Beschreibung des Durchschnitts. Ist ein Objekt implizit durch ein lineares Gleichungssystem und eines explizit in Form einer Parameterdarstellung gegeben, dann setzt man die Parameterdarstellung des zweiten in die Gleichungen des ersten ein und erhält auf diese Weise ein lineares Gleichungssystem in den Parametern des zweiten Systems. Setzt man die allgemeine Lösung dieses Gleichungssystems in die Parameterdarstellung des zweiten Objektes ein, so erhält man eine Parameterdarstellung des Durchschnitts. Schließlich können beide Objekte durch eine Parameterdarstellung gegeben sein. Dann setzt man die einzelnen Komponenten beider Darstellungen gleich. Dabei ist unbedingt zu beachten, daß zuerst die Namen der Parameter beider Objekte disjunkt gemacht werden müssen. Man erhält ein System bestehend aus genau n linearen Gleichungen in der Vereinigung der Parameter beider Objekte als Variablen. Nach Überführen in Zeilenstufenform mittels Gaußalgorithmus erhält man Gleichungen (diese entsprechen den unteren Stufen), die nur von den Parametern des zweiten Objektes abhängen. Es lassen sich also gewisse Parameter des zweiten Objektes durch die anderen Parameter dieses Objektes ausdrücken. Einsetzen dieser Darstellungen in das zweite Objekt liefert schließlich eine Parameterdarstellung des Durchschnitts. Natürlich wäre es auch möglich, die Darstellungen vor der Durchschnittsberechnung erst in eine gewünschte Form umzuformen. Die oben beschriebenen Algorithmen sind jedoch die jeweils schnellsten. Übungsaufgaben, Serie 7 19. Berechnen Sie die Vandermondeschen Determinanten 1 1 1 1 x y z u (a) 2 2 2 2 x 3 y 3 z 3 u3 x y z u 98 Preliminary version – 8. Januar 2002 1 1 x1 x 2 2 x2 x (b) 1 2 .. .. . . n−1 n−1 x1 x2 n−1 · · · xn ··· ··· ··· 1 xn x2n .. . 20. Überführen Sie die Parameterdarstellung 1 x 2 0 y 0 1 3 = + λ1 + λ 2 z 1 0 2 u 0 1 1 in eine implizite Darstellung des gleichen affinen Raumes. 21. Untersuchen Sie die Lage der Geraden g1 , g2 , g3 und g4 zueinander auf (a) Übereinstimmung, (b) Parallelität, (c) Schnitt in einem Punkt, (d) Windschiefheit. g1 : g2 : g3 : g4 : x 1 2 y = 1 + λ 1 z 1 0 x 1 2 y = 4 + λ 1 z 3 −1 x −1 −4 y = 0 + λ −2 z 1 2 x 7 −2 y = 4 + λ −1 z 1 0 99 Preliminary version – 8. Januar 2002 Kapitel 6 Vektorräume und lineare Abbildungen Im Zusammenhang mit der Struktur der Lösungsmenge L eines homogenen linearen Gleichungssystems haben wir im vorangegangen Kapitel den Begriff des K-Vektorraumes eingeführt. Wir erinnern uns, ein Vektorraum V war eine additiv geschriebene abelsche Gruppe über der ein Körper operiert. Beispiele für K-Vektorräume sind: 1. Lösungsmengen homogener linearer Gleichungssysteme über K, 2. der Raum Kn der n-Tupel der Elemente von K, 3. insbesondere ist der Körper K selbst ein K-Vektorraum, 4. der Raum Kn,m der (n, m)-Matrizen mit Einträgen aus K, 5. der Polynomring K[x1 , . . . , xn ], 6. die Menge alle Polynome aus K[x1 , . . . , xn ], welche einen Grad kleiner (beziehungsweise kleiner oder gleich) einem festen d haben. 7. die komplexen Zahlen C sind nicht nur ein C-Vektorraum, sondern z.B. auch ein R- sowie ein Q-Vektorraum. Vektoren können also addiert und mit Elementen aus K vervielfacht werden. Sind v1 , . . . , vm ∈ V Vektoren und α1 , . . . , αm ∈ K Körperelemente, dann nennt man den Vektor α1 v1 + α2 v2 + · · · + αm vm eine Linearkombination der Vektoren v1 , . . . , vm . Ein zentraler Begriff der Theorie der Vektorräume ist die lineare Unabhängigkeit. 100 Preliminary version – 8. Januar 2002 6.1 Lineare Unabhängigkeit von Vektoren Definition 25 Sei V ein Vektorraum über dem Körper K. Vektoren v1 , . . . , vm ∈ V heißen linear unabhängig, wenn die Gleichung α1 v1 + α2 v2 + · · · + αm vm = O nur die triviale Lösung α1 = α2 = · · · = αm = 0 hat. Man sagt dazu auch, daß {v1 , . . . , vm } ein System linear unabhängiger Vektoren ist. Dazu ist anzumerken, daß die Anzahl der Vorkommen eines Vektors unter den v1 , . . . , vm für die lineare Unabhängigkeit bedeutsam ist und beachtet werden muß.1 Eine beliebige Menge U ⊆ V von Vektoren heißt linear unabhängig, wenn jede endliche Teilmenge von U linear unabhängig ist. Ist U ⊆ V kein linear unabhängiges System, so spricht man von einem linear abhängigen System. Ist U linear abhängig, so ist auch jede Obermenge U 0 ⊇ U linear abhängig. Umgekehrt ist mit U auch jede Teilmenge U 0 ⊆ U linear unabhängig. Die Menge {O} ist wegen 1 · O = O stets linear abhängig. Nach der obigen Bemerkungen ist also auch jede den Nullvektor enthaltende Menge U ⊆ V linear abhängig. Kommt ein Vektor doppelt in der Folge v1 , . . . , vm vor, d.h. es gibt i und j so, daß vi = vj und 1 ≤ i < j ≤ m, dann sind die Vektoren v1 , . . . , vm linear abhängig, als ein Beispiel einer nichttrivialen Lösung kann man αi = 1, αj = −1 und αk = 0 für alle k 6= i, j wählen. Lemma 7 Ist U ein linear unabhängiges System und U ∪{v} linear abhängig, dann läßt sich der Vektor v als Linearkombination v = α1 u1 + · · · + αn un von Elementen u1 , . . . , un ∈ U darstellen. Beweis: Aus der linearen Abhängigkeit von U ∪ {v} folgt die Existenz von Elementen u1 , . . . , un ∈ U so daß {u1 , . . . , un , v} linear abhängig ist, also hat α1 u1 + · · · + αn un + βv = O 1 (6.1) Streng genommen handelt es sich also nicht um Mengen sondern um sogenannte Multimengen linear unabhängiger Vektoren. 101 Preliminary version – 8. Januar 2002 eine nichttriviale Lösung, d.h. es gibt eine Lösung, in der wenigstens eine der Zahlen α1 , . . . , αn oder β von Null verschieden ist. Angenommen β = 0, dann gilt bereits α1 u1 + · · · + αn un = O und wenigstens einer der Koeffizienten αi ist von Null verschieden. Damit ist {u1 , . . . , un } und folglich auch die Obermenge U linear abhängig, im Widerspruch zur Voraussetzung. Also muß β 6= 0 gelten, damit läßt sich Gleichung (6.1) nach v auflösen und die Behauptung ist gezeigt. 2 6.2 Untervektorräume und Basen Analog zu früheren Typen algebraischer Strukturen erklärt man Definition 26 Sei V ein K-Vektorraum und U ⊆ V eine Teilmenge von V . U heißt Untervektorraum (oder linearer Teilraum) von V , falls U ebenfalls ein K-Vektorraum ist. Sei M ⊆ V eine Teilmenge von V , dann nennt man den kleinsten M umfassenden Untervektorraum von V die lineare Hülle Span(M ) von M . Man nennt Span(M ) auch den von der Menge M erzeugten (oder aufgespannten) Vektorraum. Sei U ⊆ V ein Untervektorraum. Man nennt die Teilmenge M ⊆ U ein Erzeugendensystem von U , falls Span(M ) = U gilt. Ein lineare unabhängiges Erzeugendensystem B von V heißt Basis des Vektorraums V . Merksatz 13 V sei ein K-Vektorraum und B eine Basis von V . Dann läßt sich jedes Element v ∈ V auf eindeutige Weise als endliche Linearkombination X v= αb b (6.2) b∈B 2 der Elemente von B darstellen. Darüberhinaus gilt: 1. Jede B echt enthaltende Teilmenge U von V , d.h. B ( U ⊆ V , ist linear abhängig. 2 Die Endlichkeitsforderung der Linearkombination soll bedeuten, daß nur endlich viele der Koeffizienten αb von Null verschieden sein dürfen. 102 Preliminary version – 8. Januar 2002 2. Keine der echten Teilmengen von B ist ebenfalls Basis von V ist. Beweis: Sei v ∈ V beliebig. Die Existenz einer Darstellung von v als endliche Linearkombination X v= αb b b∈B folgt aus der Erzeugendensystemeigenschaft von B. Angenommen X v= βb b b∈B wäre eine weitere Darstellung der Gestalt 6.2. Subtraktion beider Darstellung liefert X (αb − βb )b = O b∈B Falls für wenigstens ein b ∈ B die Beziehung αb −βb 6= 0 gilt, so betrachten wir die Teilsumme aller Summanden mit von Null verschiedenem Koeffizienten. Diese Summe enthält nur endlich viele Summanden und ist eine nichttriviale Darstellung des Nullvektors als Linearkombination der involvierten Elemente von B. Also ist die Menge der in die Summe involvierten Elemente von B linear abhängig, im Widerspruch zur vorausgesetzten linearen Unabhängigkeit von B, also ist die Eindeutigkeit von Darstellung 6.2 nachgewiesen. Die beiden weiteren Behauptungen ergeben sich unmittelbar daraus. Denn falls v ∈ / B, so besitzt v zwei verschiedene Darstellungen 6.2 in B ∪ {v}, nämlich die in B und v = 1 · v. Ebenso hat b ∈ B keine Darstellung 6.2 in B \ {b}, da b = 1 · b die einzige Darstellung in B war. 2 Merksatz 14 U ⊆ V ist genau dann ein Untervektorraum von V , wenn U eine Untergruppe von V ist und gegen Vervielfachung mit Elementen aus K abgeschlossen ist. Anders formuliert lautet das Kriterium 1. u − v ∈ U für alle u, v ∈ U und 2. αu ∈ U für alle u ∈ U und α ∈ K. Für beliebige Teilmengen U ⊆ V besteht die lineare Hülle von U genau aus allen endlichen Linearkombinationen von Elementen aus U , d.h. Span(U ) = {α1 u1 + · · · + αk uk | k ∈ N, α1 , . . . , αk ∈ K, u1 , . . . , uk ∈ U } . Dabei wird die Summe von k = 0 Summanden formal als 0 angesehen. 103 Preliminary version – 8. Januar 2002 Der Beweis verbleibt als Übung. Es folgen einige Beispiele zur Erläuterung der eben eingeführten Begriffe: 1. Die Lösungsmenge eines linearen homogenen Gleichungssystems in n Variablen ist ein Untervektorraum des Raumes Kn . 2. Die Polynome aus K[x1 , . . . , xn ] vom Grad ≤ d bilden einen Untervektorraum des Polynomringes K[x1 , . . . , xn ]. 3. Die Potenzprodukte 1, x, x2 , x3 , . . . , xd bilden eine Basis des Raumes der Polynome vom Grad höchstens d mit reellen Koeffizienten in einer Variablen x. 4. Die Menge aller Potenzen 1, x, x2 , . . . ist eine Vektorraumbasis des Polynomrings R[x]. 5. Die n-Tupel ei = (0, . . . , 0, |{z} 1 , 0, . . . , 0) (i = 1, . . . , n), die an der i−te Stelle i-ten Stelle eine 1 und an allen anderen Stellen 0 aufweisen, bilden eine Basis des Vektorraums Kn . 6. Die Menge der Matrizen In(i,j) , 1 ≤ i ≤ n 1 ≤ j ≤ m, die genau einen Einseintrag und sonst nur Nulleinträge haben, bilden eine Basis des Vektorraums Kn,m . 7. Stellt man die Lösungsmenge eines inhomogenen Gleichungssystems in Parameterdarstellung dar (siehe 5.8 und 5.9), dann bilden die darin auftretenden Vektoren eine Basis des Lösungsraumes des zugehörigen homogenen Gleichungssystems. 8. C ist ein R-Vektorraum. Eine Basis ist {1, i}. R ist der von {1} erzeugte R-Untervektorraum von C. Es gilt der folgende wichtige Satz. Merksatz 15 Jeder K-Vektorraum V besitzt eine Basis B. Alle Basen eines Vektorraumes sind gleichmächtig. Insbesondere gilt, besitzt V eine endliche Basis, so sind alle Basen von V endlich und besitzen die gleiche Anzahl von Elementen. 104 Preliminary version – 8. Januar 2002 Beweis: Zunächst sei ein Erzeugendensystem M von V gegeben. Das kann man immer voraussetzen, denn schlimmstenfalls erfüllt M = V diese Bedingung. Ist M linear unabhängig, so sind wir fertig. Andernfalls gibt es ein Element v ∈ M , welches sich als Linearkombination endlich vieler anderer Elemente aus M darstellen läßt und M 0 := M \ {v} ist wieder ein Erzeugendensystem von V . Betrachten wir zunächst den Fall, daß M eine endlich Menge ist. Dann läßt sich der obige Gedanke fortsetzen, indem man solange linear abhängige Elemente aus M entfernt, bis ein linear unabhängiges Erzeugendensystem, also eine Basis, vorliegt. Schwieriger stellt sich der Beweis für unendliche Mengen M dar. In diesem Fall folgt die Behauptung mittels des Zornschen Lemmas. Kommen wir nun zum zweiten Teil der Aussage. Seien B = (b1 , . . . , bm ) und C = (c1 , . . . , cn ) zwei endliche numerierte Basen von V . Unter einer numerierten Basis versteht man eine solche, in der die Reihenfolge der Elemente festgeschrieben ist. O.B.d.A. gelte m ≤ n. Da B insbesondere Erzeugendensystem von V ist, besitzt jedes Element ci , i = 1, . . . , n, eine eindeutige Darstellung ci = αi,1 b1 + · · · + αi,m bm Wegen m ≤ n ist der Rang der (n, m)-Matrix A = (αi,j ) i=1,... ,n höchstens m. j=1,... ,m Wenden wir nun den Gaußalgorithmus auf die Matrix A an und führen alle Rechnungen formal als Linearkombinationbildung auch auf der letzten Spalte der Matrix A B T aus, so beschreibt die Linearkombination der Vektoren von B in einem Eintrag der rechten Spalte stets den gleichen Vektor, wie die Linearkombination von C mit den Einträgen der anderen Spalten in dieser Zeile als Koeffizienten. Angenommen, es wäre m < n. Dann ist der Rang von A echt kleiner als n, also enstehen bei Anwendung des Gaußalgorithmus auf A Nullzeilen, diesen entsprechen jedoch nichtlineare Linearkombinationen von B in der zusätzlichen letzten Spalte. Folglich ist B linear abhängig, im Widerspruch zur vorausgesetzten Basiseigenschaft von B. Somit muß n = m gelten und die Aussage des Satzes ist bewiesen. 2 Im weiteren werden wir unsere Untersuchungen auf Vektorräume beschränken, die eine endliche Basis besitzen. Da nach dem obigen Satz alle Basen eines K-Vektorraumes die gleiche Anzahl von Elementen aufweisen, besitzt diese 105 Preliminary version – 8. Januar 2002 Zahl eine besondere Bedeutung für den Vektorraum. Man nennt sie die Dimension von V und schreibt dafür dimK (V ). Wenn der Körper K aus dem Kontext heraus klar ist, schreibt man auch kurz dim(V ). Allerdings beachte man, daß die Angabe des Körpers zuweilen von Bedeutung ist. Bereits früher stellten wir fest, daß die komplexen Zahlen C sowohl ein Q-, ein R- als auch ein C-Vektorraum sind. Es gilt dimC (C) = 1, eine Basis ist {1}. Außerdem gilt dimR (C) = 2 aufgrund der Basis {1, i}. Betrachtet als Q-Vektorraum ist C nicht einmal von endlicher Dimension. Merksatz 16 Jede Menge M ⊆ V linear unabhängiger Vektoren eines Vektorraumes V kann zu einer Basis von V ergänzt werden. Sei U ein linearer Teilraum des endlichdimensionalen K-Vektorraumes V . Dann folgt aus dim U = dim V die Gleichheit U = V . Beweis: Wir zeigen zuerst den zweiten Teil der Behauptung. Angenommen, es würde U ( V gelten. Fügt man dann zu einer Basis von U ein Element von u ∈ V \ U hinzu, so erhält man wieder eine linear unabhängige Menge, diese bestünde aus mehr Elementen als die Dimension von V . Das ist aber ein Widerspruch. Beim Beweis der ersten Aussage beschränken wir uns auf die Betrachtung des Falles dim V = n < ∞. Angenommen, Span(M ) = V , dann ist M eine Basis und wir sind bereits fertig. Andernfalls fügen wir einen beliebigen Vektor u ∈ V \Span(M ) zu M hinzu und erhalten die Menge M 0 := M ∪{u}. M 0 ist linear unabhängig, andernfalls würde Span(M ) = Span(M 0 ) gelten, im Widerspruch zur Auswahl von u. Aufgrund der linearen Unabhängigkeit von M 0 gilt dim Span(M 0 ) = dim Span(M ) + 1. Gilt Span(M 0 ) = V , so ist M 0 die gesuchte Basis, andernfalls verfahren wir mit M 0 anstelle von M genau wie oben. Nach endlich vielen Schritten müssen wir auf diese Weise eine Menge M̃ mit dim Span(M̃ ) = dim V erhalten. An dieser Stelle kann der obige Algorithmus unmöglich fortsetzbar sein, so würden wir im nächsten Schritt eine Menge linear unabhängiger Vektoren von V konstruieren, die aus mehr Elementen als eine Basis besteht. Also muß die Abbruchbedingung Span(M̃ ) = V erfüllt sein und M̃ ist eine Basis von V mit den behaupteten Eigenschaften. 2 Der für Gruppen aufgestellte Merksatz 6 gilt sinngemäß auch für Vektorräume. Merksatz 17 Der Durchschnitt beliebig vieler Untervektorräume eines KVektorraumes V ist wieder ein Untervektorraum. Die Vereinigung von Untervektorräumen ist dagegen im allgemeinen kein Untervektorraum wieder. 106 Preliminary version – 8. Januar 2002 Anstelle der Vereinigung betrachtet man die Summe U + W zweier Untervektorräume U und W von V . Diese besteht aus allen Vektoren der Gestalt u + w, wobei u ∈ U und w ∈ W . Es gilt U + V = Span(U ∪ V ) . Die Summe endlich vieler Untervektorräume von V ist wieder ein Untervektorraum von V . Es gilt die Gleichung dim U + dim V = dim (U + V ) + dim (U ∩ V ) . Übungsaufgaben, Serie 8 22. Überprüfen Sie die folgenden Systeme von Vektoren des R4 auf lineare Unabhängigkeit und begründen Sie Ihre Antworten. (a) v1 = (1, 0, 0, 1), v2 = (1, 1, 0, 2), v3 = (0, 1, 2, 3) (b) v1 = (1, 0, 1, 1), v2 = (1, 1, 1, 2), v3 = (−1, 1, 2, 3) (c) v1 = (1, 0, −1, 1), v2 = (1, 3, 1, 2), v3 = (1, 9, 5, 4) 23. V sei der von den Vektoren v1 = (1, 0, 1, 1), v2 = (1, 1, 1, 2) und v3 = (−1, 1, 2, 3) erzeugte Untervektorraum des R4 . Welche der folgenden Mengen von Vektoren spannen einen Untervektorraum von V auf? Begründen Sie Ihre Antworten. (a) {(0, 1, 0, 1), (0, 2, 3, 5)} (b) {(0, 1, 0, 1), (0, 2, 3, 5), (0, 3, 3, 6), (−1, 0, −1, −1)} (c) {(0, 2, 0, −2), (0, −2, −3, −5)} 24. Betrachten Sie den R-Vektorraum R[x, y] der Polynome in den Variablen x und y mit reellen Koeffizienten. Jedes Polynom f ∈ R[x, y] kann als Summe endlich vieler Summanden der Gestalt αxi y j mit der zusätzlichen Eigenschaft, daß α ∈ R \ {0} gilt und sich in je zwei verschiedene Summanden wenigstens einer der Exponenten i oder j unterscheidet, dargestellt werden. Die maximale Summe i + j unter allen auftretenden Summanden nennt man den Totalgrad von f (Bez. Grad f ). Die höchste auftretende Zahl i unter allen Summanden nennt man den Grad von f in der Variablen x (Bez. Gradx f ). Dem Nullpolynom 107 Preliminary version – 8. Januar 2002 0 ∈ R[x, y] wird formal jede natürliche Zahl als Totalgrad und als Grad in x zugeordnet. (a) Geben Sie eine Basis von R[x, y] an. (b) Sei d eine natürliche Zahl größer 0. Untersuchen Sie, welche der folgenden Mengen Untervektorräume von V sind. i. ii. iii. iv. 6.3 {f ∈ R[x, y] | Grad f < d} {f ∈ R[x, y] | Gradx f ≤ d} {f ∈ R[x, y] | Grad f = d} {f ∈ R[x, y] | Grad f = d und f homogen }. Dabei heißt ein Polynom homogen, wenn die Summe i + j für alle in der oben beschriebenen Darstellung auftretenden Summanden gleich ist. Koordinatendarstellung von Vektoren Im Falle eines endlichdimensionalen Vektorraumes V kann Darstellung 6.2 in der Form v = α1 b1 + · · · + αd bd (6.3) geschrieben werden, dabei gilt dim(V ) = d und B = {b1 , . . . , bd } ist eine Basis von V . Die Eindeutigkeit von Darstellung 6.3 rechtfertigt Definition 27 Sei B = (b1 , . . . , bd ) eine geordnete Basis3 des Vektorraumes V . Das d-Tupel (α1 , . . . , αd )B der Koeffizienten aus Darstellung 6.3 des Elementes v ∈ V nennt man die Koordinatendarstellung von v bezüglich B. Die Angabe der Basis als Index ist insofern wichtig, daß die Koordinatendarstellung von v natürlich von der Wahl der Basis B abhängt. Ist die gewählte Basis aber aus dem Kontext heraus klar, so wird häufig auf die Angabe der Basis verzichtet. Die Zuordnungsvorschrift v 7→ (α1 , . . . , αd )B 3 Wenn wir von einer geordneten Basis sprechen, kommt es auch auf die Reihenfolge der Basiselemente an. Eine geordnete Basis ist daher keine Menge, sondern ein geordnetes Tupel. 108 Preliminary version – 8. Januar 2002 beschreibt eine bijektive Abbildung von V in Kd . Diese Abbildung ist sowohl mit der Addition als auch mit der Vervielfachung mit Elementen aus K verträglich, sie ist also ein Vektorraumisomorphismus. Wir halten fest, die Räume Kn , n ∈ N,4 sind bis auf Isomorphie die einzigen endlichdimensionalen K-Vektorräume und es gilt dimK Kn = n. Merksatz 18 Die Vektoren v1 , . . . , vr des K-Vektorraumes Kd sind genau dann linear unabhängig, wenn Rang v1T · · · vrT = r gilt.5 Allgemeiner gilt: Ist V ein beliebiger K-Vektorraum mit endlicher numerierter Basis B = (b1 , . . . , bd ), so sind v1 , . . . , vr ∈ V genau dann linear unabhängig, wenn die Matrix, deren Spalten (oder Zeilen) die Koordinatendarstellungen von v1 , . . . , vr bezüglich B sind, den Rang r aufweist. Gemäß dieses Satzes kann man den Rang einer Matrix nun auch unabhängig vom Gaußalgorithmus definieren. Weitaus häufiger gebrauchte äquivalente Aussagen zur Bestimmung des Ranges einer Matrix sind im folgenden Merksatz zusammengefaßt. Merksatz 19 Der Rang einer Matrix A ∈ Kn,m ist gleich zu jeder der folgenden Zahlen 1. der maximalen Anzahl linear unabhängiger Zeilen von A, 2. der maximalen Anzahl linear unabhängiger Spalten von A, 3. der Dimension des von den Zeilen von A aufgespannten Untervektorraumes von Km , 4. der Dimension des von den Spalten von A aufgespannten Untervektorraumes von Kn . 4 Formal setzen wir K0 = {0}. Anmerkung: Die Matrix v1T · · · vrT hat den Typ (d, r), ihre Spalten sind gerade die Vektoren v1 , . . . , vr . 5 109 Preliminary version – 8. Januar 2002 6.4 Lineare Abbildungen Definition 28 V und W seien zwei K-Vektorräume. Eine Abbildung F : V →W heißt lineare Abbildung, falls für alle α, β ∈ K und u, v ∈ V die Beziehung F (αu + βv) = αF (u) + βF (v) (6.4) gilt. Im Sinne von Definition 9 handelt es sich bei den linearen Abbildungen genau um die richtigen Vektorraumhomomorphismen. Die Wirkung einer linearen Abbildung F : V → W ist durch die Bilder einer Basis B von V unter der Abbildung F bereits völlig festgelegt. Da sich jedes Element v ∈ V als Linearkombination v = α1 b1 + · · · αm bm von Basiselementen b1 , . . . , bm ∈ B darstellen läßt, ist sein Bild F (v) aufgrund der Eigenschaften einer linearen Abbildung als F (v) = α1 F (b1 ) + · · · αm F (bm ) festgelegt. Diese Argumente gelten sogar für beliebige Erzeugendensysteme B von V . Für Basen B kommt zusätzlich hinzu, daß zu jeder beliebigen Zuordnung b 7→ wb ∈ W auch tatsächlich eine lineare Abbildung F : V → W mit der Eigenschaft ∀b ∈ B : F (b) = wb existiert. Der Grund besteht darin, daß die Darstellung von v als endliche Linearkombination von Elementen aus B eindeutig ist und F (v) durch die Forderung F (v) = α1 F (b1 ) + · · · αm F (bm ) nur auf eine Weise festgelegt wird. Also erfüllt F in der Tat die an eine lineare Abbildung gestellten Bedingungen. Anders verhält es sich bei linear abhängigen Erzeugendensystemen U . Dort gibt es ein u ∈ U , welches Linearkombination u = α1 v1 + · · · + αm vm anderer Elemente v1 , . . . , vm ∈ U \ {u} ist. Bei willkürlicher Festlegung der Zuordnungen u 7→ w ∈ W sowie vi 7→ wi ∈ W gilt im allgemeinen w 6= α1 w1 + · · · αm wm , 110 Preliminary version – 8. Januar 2002 also F (u) 6= α1 F (v1 ) + · · · αm F (vm ) für jede die Zuordnung zu U fortsetzende Abbildung. Seien nun B = (b1 , . . . , bm ) eine geordnete Basis von V und C = (c1 , . . . , cn ) eine geordnete Basis von W und F eine lineare Abbildung von V in W . Wie oben festgestellt wurde wird F durch die Beziehungen F (b1 ) = w1 = α1,1 c1 + · · · α1,n cn .. . F (bm ) = wm = αm,1 c1 + · · · αm,n cn (6.5) charakterisiert. Auf der rechten Seite wurde ausgenutzt, daß sich jedes Element von W auf eindeutige Weise als Linearkombination der Elemente von C darstellen läßt. Definition 29 Bei festgehaltenen geordneten Basen B und C beschreibt die Matrix AF := (αi,j )i=1,... ,m (6.6) j=1,... ,n die lineare Abbildung F vollständig. Wir nennen sie die Abbildungsmatrix von F bezüglich der geordneten Basen B und C. Umgekehrt ist nach den eingangs gemachten Überlegungen jede Matrix A ∈ Km,n Abbildungsmatrix einer linearen Abbildungen FA bezüglich der geordneten Basen B und C. Bei festgehaltenen geordneten Basen B und C ist die Zuordnung zwischen linearen Abbildungen und (m, n)-Matrizen bijektiv. Vermöge (F + G)(u) := F (u) + G(u) und (αF )(u) := αF (u) kann man eine Addition und eine skalare Vervielfachung linearer Abbildungen definieren. Auf diese Weise wird die Menge LinK (U, V ) aller linearen Abbildungen der K-Vektorräume U und V selbst zu einem K-Vektorraum. Bei festgehaltenen geordneten Basen B und C ist die Zuordnung F 7→ AF , die jeder linearen Abbildung F ∈ LinK (U, V ) ihre Abbildungsmatrix AF ∈ Km,n bezüglich B und C zuweist, selbst eine bijektive lineare Abbildung, nämlich aus LinK (LinK (U, V ), Km,n ), also ein Vektorraumisomorphismus. 111 Preliminary version – 8. Januar 2002 Merksatz 20 U und V seien endlichdimensionale Vektorräume mit geordneten Basen B = (b1 , . . . , bm ) beziehungsweise C = (c1 , . . . , cn ). Weiterhin sei F ∈ LinK (U, V ) eine lineare Abbildung von U nach V und AF die Abbildungsmatrix von F bezüglich B und C. u ∈ U habe die Koordinatendarstellung (β1 , . . . , βm )B bezüglich B. Dann hängt die Koordinatendarstellung (γ1 , . . . , γn )C des Bildes F (u) bezüglich C mit der Koordinatendarstellung von u bezüglich B und der Abbildungsmatrix AF über die Gleichung γ1 · · · γn C = β1 · · · βm B · AF zusammen. Beweis: Einsetzen der Gleichungen (6.5) in F (u) = β1 F (b1 ) + · · · βm F (bm ) ergibt ! ! m m X X F (u) = βi αi,1 c1 + · · · + βi αi,n cn . i=1 i=1 Nach Definition der Koordinatendarstellung gilt γj = und die Richtigkeit der Behauptung folgt sofort. Pm i=1 βi αi,j , j = 1, . . . , n, 2 Merksatz 21 Seien U , V und W drei endlichdimensionale K-Vektorräume mit geordneten Basen B,C beziehungsweise D. Für lineare Abbildungen F : U → V und G : V → W gilt AF ◦G = AF ∗ AG , wobei die Abbildungsmatrizen jeweils bezüglich der zugehörigen Paare geordneter Basen genommen sind. Mit anderen Worten, die Hintereinanderausführung linearer Abbildungen entspricht der Multiplikation der Abbildungsmatrizen. Im Spezialfall U = V = W und B = C = D erkennt man, daß LinK (U, U ) und Kn,n nicht nur als K-Vektorräume isomorph sind, sondern daß es sich sogar um isomorphe Ringe handelt. Merksatz 22 Sei F ∈ LinK (U, V ) eine lineare Abbildung der K-Vektorräume U und V . Das Bild eines linearen Teilraumes von U unter F ist ein linearer Teilraum von V . Ebenso ist das vollständige Urbild eines linearen Teilraumes von V ein linearer Teilraum von U . Insbesondere sind Bild(F ) ⊆ V und Null(F ) := F −1 ({O}) ⊆ U lineare Teilräume. Man nennt Bild(F ) den Bildraum und Null(F ) den Nullraum der linearen Abbildung F . 112 Preliminary version – 8. Januar 2002 Der Beweis kann analog zum Gruppenfall geführt werden. Merksatz 23 Eine lineare Abbildung F ist genau für dim Null(F ) = 0 injektiv und genau im Fall dim Bild(F ) = dim V surjektiv. Beweis: Das Injektivitätskriterium linearer Abbildungen kann bereits aus der Gruppenhomomorphismuseigenschaft und der Tatsache dim W = 0 ⇐⇒ W = {O} gefolgert werden. Das Surjektivitätskriterium ergibt sich sofort aus Merksatz 16. 2 Die Dimension des Vektorraumes U steht in einer wichtigen Beziehung zu den Dimensionen von Null- und Bildraum. Es gilt Merksatz 24 (Dimensionssatz) Sei F ∈ LinK (U, V ) eine lineare Abbildung der endlichdimensionalen K-Vektorräume U und V . B und C seien beliebig fest gewählte geordnete Basen von U beziehungsweise V und AF die Abbildungsmatrix von F bzgl. B und C. Dann gelten die Gleichungen dim Bild(F ) = RangAF und dim Null(F ) = dim U − dim Bild(F ) . (6.7) (6.8) Beweis: Der Bildbereich Bild(F ) der linearen Abbildung besteht aus allen Elementen von V , deren Koordinatendarstellung bezüglich der Basis C eine Linearkombination der Zeilen der Transformationsmatrix AF ist. Die maximale Anzahl linear unabhängiger Zeilen ist daher gleich der Dimension von Bild(F ). Mit Merksatz 19 ergibt sich Beziehung (6.7). Der Nullraum Null(F ) ist isomorph zur Lösungsmenge L des homogenen linearen Gleichungssystems ATF xT = O. Der Isomorphismus besteht einfach im Transponieren der Elemente. Die Dimension von L ergibt sich als dimL = m − RangAF , wobei m die Anzahl der Spalten der Matrix ATF bezeichnet. Die Spaltenzahl von ATF ist gleich der Zeilenzahl von AF , welche ihrerseits gleich der Dimension von U ist, denn nach (6.5) entspricht jede Zeile von AF einem Element der Basis B. Damit ist auch die Gültigkeit von Gleichung (6.8) nachgewiesen. 2 113 Preliminary version – 8. Januar 2002 Übungsaufgaben, Serie 9 25. Berechnen Sie für die Vektoren (1, 3, 2), (0, 2, 1), (1, 0, 0) und (1, 1, 1) aus dem Vektorraum der Tripel reeller Zahlen die Koordinatendarstellungen bezüglich der geordneten Basis B = ((1, 1, 0), (2, 0, 0), (1, 1, 1)). 26. Welche der folgenden Vorschriften beschreiben lineare Abbildungen? Begründen Sie Ihre Antworten! (a) F : R3 → R3 mit Vorschrift ∀(a, b, c) ∈ R3 : F ( (a, b, c) ) := (2a, 2b, 2c) (b) F : R2 → R mit Vorschrift ∀(a, b) ∈ R2 : F ( (a, b) ) := a − b (c) F : R2 → R mit Vorschrift ∀(a, b) ∈ R2 : F ( (a, b) ) := a ∗ b (d) F : R[x] → R[x] mit Vorschrift dp . dx P dp Hinweis: dx bezeichnet die Ableitung von p nach x, für p = ni=0 ci xi P dp gilt dx = ni=1 (i ∗ ci )xi−1 (e) Fa : R[x] → R mit Vorschrift ∀p ∈ R[x] : F (p) := ∀p ∈ R[x] : Fa (p) := p(a) , wobei a eine vorgegebene reelle Zahl ist. Hinweis: p(a) bezeichnet p an der Stelle a. Für p = Pn den iWert der Polynomfunktion Pn i i=0 ci x gilt p(a) = i=0 ci a 27. a sei eine fest vorgegebene reelle Zahlen. Beschreibt dp ∀p ∈ R[x] : F (p) := p(a), (a) dx eine lineare Abbildung F : R[x] → R2 ? Falls ja, so (a) Bestimmen Sie den Nullraum von F . (b) Betrachten Sie Fd : R[x]d → R2 , wobei R[x]d := {p ∈ R[x] : Grad(p) ≤ d}. Beschreiben Sie Fd durch eine Abbildungsmatrix bezüglich geordneter Basen Ihrer Wahl. 114 Preliminary version – 8. Januar 2002 6.5 Basistransformationen Betrachten wir nun den Spezialfall linearer Abbildungen F : U → U von einem Vektorraum U in sich selbst. Zunächst einmal ergibt sich aus dieser Forderung nicht, daß man für Vorund Nachbereich gleiche Basen B und C wählen muß. Für den Fall, daß F die identische Abbildung ist und die Basen unterschiedlich gewählt sind, zeigt Merksatz 20 gerade, auf welche Weise man die Koordinatendarstellung bezüglich beider Basen umrechnen kann. Es ergeben sich die beiden Beziehungen uC = uB AF und uB = uC A−1 F Dabei bezeichnet uC die Koordinatendarstellung eines beliebigen Vektors u ∈ U bezüglich C und uB die Koordinatendarstellung des gleichen Vektors bezüglich B. Im folgenden Merksatz fassen wir die Aussagen noch einmal zusammen. Merksatz 25 Seien V ein n-dimensionaler Vektorraum und B und C zwei beliebige geordnete Basen von V . Die Abbildungsmatrix AB→C , welche zeilenweise aus den Koordinatendarstellungen der Vektoren von B bezüglich der geordneten Basis C besteht, beschreibt die identische Abbildung von V auf V . Für u = β1 b1 +. . .+βn bn ∈ V erhält man die Koordinaten γ1 , . . . , γn von u bezüglich C mittels γ1 · · · γn = β1 · · · βn AB→C , beziehungsweise in transponierter Darstellung γ1 β1 .. .. T . = AB→C . . γn βn Weiterhin gilt AC→B = A−1 B→C . 115 Preliminary version – 8. Januar 2002 6.6 Eigenwerte und Eigenvektoren einer linearen Abbildung Bei freier Wahl der beiden Basen B und C verbleiben große Freiheiten für die Abbildungsmatrix einer linearen Abbildung F : V → V . Einzig die Bedingung (6.7) stellt eine ernsthafte Einschränkung dar. Der Rang der Abbildungsmatrix ist durch die Dimension des Bildraumes Bild F eindeutig bestimmt. Aber zu jeder (dim V )-reihigen quadratischen Matrix des Ranges dim Bild(F ) gibt es geeignete Basen B und C, so daß diese Matrix Abbildungsmatrix der Abbildung F wird. Will man aus einer Abbildungsmatrix mehr als nur die Dimension des Bildraumes der Abbildung F : V → V ablesen, so ist es vorteilhaft, sich auf eine gemeinsame Basis des Vor- und Nachbereiches zu beschränken, also B = C zu fordern. Eine wichtige Frage besteht darin, festzustellen, welche linearen Teilräume von V bei einer linearen Abbildung F : V → V invariant bleiben, d.h. in sich selbst abgebildet werden. Man beachte aber, die Invarianz F (U ) = U eines linearen Teilraumes U ⊆ V braucht keineswegs zu bedeuten, daß jedes Element des Teilraumes U bei der Abbildung auf sich selbst abgebildet wird. Trivialerweise ist der nulldimensionale Teilraum {0} ⊆ V unter jeder linearen Abbildung F : V → V invariant. Wir wollen darüberhinaus untersuchen, welche eindimensionalen Teilräume U ⊆ V von einem gegebenen F invariant gelassen werden oder in einen Teilraum von sich selbst übergehen. Das heißt, wir fragen nach linearen Teilräumen U der Dimension 1 mit F (U ) ⊆ U . Da U eindimensional ist, ist jede einelementige Teilmenge von U \ {0} eine Basis von U . Sei b ∈ U \ {0}, dann bedeutet die Invarianz von U unter F , daß es eine reelle Zahl λ 6= 0 mit bAF = λb gibt. Da {b} Basis ist, läßt sich jedes u ∈ U als Linearkombination u = ab darstellen und aufgrund der Linearität von F folgt uAF = (ab)AF = a(bAF ) = a(λb) = λu. Mit anderen Worten, die Zahl λ hängt nicht von der Wahl von b ab. Die schwächere Forderung F (U ) ⊆ U anstelle der Invarianz hat nur zur Folge, daß auch λ = 0 zugelassen wird. In diesem Fall wird U auf seinen einzigen echten linearen Teilraum, nämlich {0}, abgebildet. Man definiert Definition 30 Sei F : U → U eine lineare Abbildung des n-dimensionalen K-Vektorraumes U in sich. Ein Skalar λ ∈ K heißt Eigenwert von F , falls es einen von O verschiedenen Vektor u ∈ U gibt, für den F (u) = λu gilt. 116 Preliminary version – 8. Januar 2002 In diesem Falle nennt man u einen zum Eigenwert λ gehörigen Eigenvektor von F . Die Menge aller zu λ gehörigen Eigenvektoren bildet gemeinsam mit dem Nullvektor einen linearen Teilraum von V , diesen nennt man den zu λ gehörigen Eigenraum von F . Sei A ∈ Kn,n eine n-reihige quadratische Matrix. λ ∈ K heißt Eigenwert von A, falls es ein vom Nulltupel verschiedenes c ∈ Kn mit AcT = λcT gibt. In diesem Falle nennt man c einen zu λ gehörigen Eigenvektor der Matrix A. Die Menge bestehend aus allen zum Eigenwert λ gehörigen Eigenvektoren und dem Nulltupel nennt man den zu λ gehörigen Eigenraum von A. Ist AF eine zu F gehörige Abbildungsmatrix in Bezug auf eine gemeinsame Basis B für Vor- und Nachbereich, so stimmen die oben eingeführten Begriffe der Eigenwerte, Eigenvektoren und Eigenräume von F und ATF überein. Insbesondere haben sämtliche Abbildungsmatrizen zur Beschreibung von F in Bezug auf eine gemeinsame Basis für Vor- und Nachbereich die gleichen Eigenwerte. Im folgenden wollen wir uns einen Algorithmus zum Berechnen der Eigenwerte einer Matrix überlegen. Die Bedingung AcT = λcT kann auch in der Form (A − λEn ) cT = OT geschrieben werden. Die Eigenschaft, daß λ ein Eigenwert von A ist, ist also gleichwertig dazu, daß das homogene lineare Gleichungssystem (A − λEn ) xT = OT nichttrivial Lösungen besitzt. Die Koeffizientenmatrix A − λEn entsteht aus A, indem man von jedem Hauptdiagonalelement λ subtrahiert und die anderen Einträge von A unverändert läßt. Betrachten wir nun die Matrix A−xEn , bei welcher von jedem Hauptdiagonalelement von A die Variable x subtrahiert wird. Die Determinante |A − xEn | ist ein Polynom in der Variablen x vom Grad n. Man nennt es auch das charakteristische Polynom der Matrix A. 117 Preliminary version – 8. Januar 2002 Merksatz 26 λ ist Eigenwert der n-reihigen quadratischen Matrix A genau dann, wenn |A − λEn | = 0 gilt. Mit anderen Worten, die Eigenwerte von λ sind genau die Nullstellen des charakteristischen Polynoms |A−xEn | von A. Daher kann eine n-reihige Matrix höchstens n Eigenwerte besitzen. Ist λ ein Eigenwert der Matrix A, so erhält man den zugehörigen Eigenraum als die Lösungsmenge des homogenen linearen Gleichungssystems (A − λEn ) xT = OT . Definition 31 Sei A eine quadratische Matrix und λ ein Eigenwert von A. Die größte natürliche Zahl ν mit der Eigenschaft, daß (x−λ)ν das charakteristische Polynom |A − xEn | teilt, nennt man die algebraische Vielfachheit und die Dimension des Eigenraumes von A zum Eigenwert λ die geometrische Vielfachheit des Eigenwertes λ. Merksatz 27 Wenn für jeden Eigenwert der linearen Abbildung F (in Bezug auf eine Abbildungsmatrix zu beliebiger gemeinsamer Basis B für Vor- und Nachbereich) algebraische und geometrische Vielfachheit übereinstimmen und die Summe der algebraischen Vielfachheiten gleich der Dimension von V ist6 , dann besitzt V eine Basis bestehend aus Eigenvektoren. Die Abbildungsmatrix von F in Bezug auf eine solche Basis C für Vor- und Nachbereich ist eine Diagonalmatrix λ1 0 · · · 0 0 λ2 · · · 0 AF,C = , .. . 0 0 · · · λn auf deren Hauptdiagonale gerade die Eigenwerte von F stehen. Eine oben beschriebene Diagonalmatrix läßt sich wie folgt konstruieren. Sei AF,B Abbildungsmatrix von F in Bezug auf eine beliebige geordnete Basis B. 6 D.h. alle Nullstellen des charakteristischen Polynoms gehören dem Körper K an. Im Falle K = C ist das immer der Fall, für K = R allerdings nicht. 118 Preliminary version – 8. Januar 2002 1. Man bestimme die Eigenwerte und Eigenräume von ATF,B . 2. Man nehme für jeden Eigenraum eine Basis und vereinige diese Basen zur Menge C. 3. Falls C weniger als n Elemente enthält, so besitzt die Abbildung keine Abbildungsmatrix in Diagonalgestalt, also breche mit Fehler ab. 4. Die Produktmatrix AF,C = BAF,B B−1 , wobei B = AC→B die Basistransformation von C nach B beschreibt, ist die Abbildungsmatrix von F in Bezug auf C. Dabei handelt es sich um eine Diagonalmatrix. Es gibt Matrizen (und somit lineare Abbildungen) mit “zu wenig” Eigenvektoren. In diesem Falle besitzt F keine Abbildungsmatrix in Diagonalgestalt. Man kann dann wenigstens noch eine sogenannte Jordansche Normalform der Abbildungsmatrix erzielen, darauf soll aber aus Zeitgründen nicht eingegangen werden. Wenigstens in einem Spezialfall kann man aber sofort erkennen, daß es ausreichend Eigenvektoren gibt: Merksatz 28 Seien F : V → V eine lineare Abbildung des reellen Vektorraumes V in sich selbst und B eine geordnete Basis von V . Falls die Abbildungsmatrix AF,B = (ai,j ) i=1,... ,n ∈ Rn,n bezüglich B für Vor- und Nachj=1,... ,n bereich symmetrisch ist, d.h. für alle 1 ≤ i, j ≤ n gilt ai,j = aj,i (gleichwertig ist die Bedingung ATF,B = AF,B ), so sind alle Eigenwerte von F reell und für jeden Eigenwert stimmen algebraische und geometrische Vielfachheit überein. Mit anderen Worten, V besitzt eine Basis C, welche nur aus Eigenvektoren von F besteht. Insbesondere ist die Abbildungsmatrix AF,C in Diagonalgestalt. Aufgrund dieses Satzes können wir sofort 1 2 A= 2 0 0 1 schlußfolgern, daß die Matrix 0 1 2 diagonalisierbar ist. Berechnen wir zunächst das charakteristische Polynom von A, dieses lautet p = −x3 + 3x2 + 3x − 9. Einen Eigenwert, nämlich √ 2 3 λ1 = 3, erkennt man sofort. Wegen p = −(x − 3)(x − 3) sind λ = 2 √ und λ3 = − 3 die beiden anderen Eigenwerte. Da die Eigenwerte paarweise 119 Preliminary version – 8. Januar 2002 verschieden sind, ist die Diagonalisierbarkeit spätestens jetzt ersichtlich, denn die geometrische Vielfachheit eines Eigenwertes ist immer mindestens 1. Den Eigenraum zum Eigenwert 3 berechnet man als Lösung des linearen Gleichungssystems mit der Koeffizientenmatrix −2 2 0 1 0 −1 2 −3 1 ∼ 0 1 −1 0 1 −1 0 0 0 Also ist ER(3) = Span((1, 1, 1)) der Eigenraum zum Eigenwert √ √ 3. Entspre√ chend berechnet man die Eigenräume ER( 3) = Span((1 − 3, −2 + 3, 1)) √ √ √ und ER(− 3) = Span((1 + 3, −2 − 3, 1)). Für die Matrix 1√ 1√ 1 C = 1 − √3 −2 + √3 1 , 1 + 3 −2 − 3 1 welche spaltenweise aus den Eigenvektoren besteht, gilt: 3 √0 0 3 0 . C−1 AC = 0 √ 0 0 − 3 Überlegen wir uns nun, welche lineare Abbildung F mit der obigen Untersuchung verbunden ist. Für die ursprüngliche Abbildungsmatrix galt AF,B = AT . Die letztendlich erhaltene Matrix C−1 AC ist die Transponierte der Abbildungsmatrix bezüglich der aus den Eigenvektoren der Matrix A gebildeten Basis C. Bezogen auf Punkt 4 des oben beschriebenen Algorithmus stellen wir fest: T T AF,C = BAF,B B−1 = AC→B AF,B AB→C = C−1 AC = CT AF,B C−1 . Der letzte Term zeigt, daß die Spalten von C im Sinne des oben beschriebenen Algorithmus gerade die Rolle der Parameterdarstellungen der Eigenvektoren aus der Basis C in Bezug auf die Ausgangsbasis B einnehmen. Diesen Zusammenhang muß man im Auge behalten, wenn man die Transformation in Diagonalgestalt vornimmt. Die hier direkt an A vorgenommene Transformation erfordert die Anordnung der Eigenvektoren als Spalten und Multiplikation mit der nichtinvertierten Matrix von rechts. Dagegen bezieht 120 Preliminary version – 8. Januar 2002 sich die Anweisung in Punkt 4 des obigen Algorithmus auf AF,B = AT und erfordert daher folgerichtig die zeilenweise Anordnung der Eigenvektoren und die Multiplikation mit der nichtinvertierten Matrix von links. Streng genommen führen beide Vorgehensweise auf unterschiedliche Ergebnisse, nämlich a) auf die transponierte Abbildungsmatrix bezüglich der neuen Basis beziehungsweise b) direkt auf die Abbildungsmatrix bezüglich der neuen Basis. Da die Abbildungsmatrix bezüglich der neuen Basis jedoch eine Diagonalmatrix ist, sind natürlich beide Ergebnisse gleich. 121 Preliminary version – 8. Januar 2002 Kapitel 7 Euklidische Räume In unseren bisherigen Untersuchungen haben wir gezeigt, daß sich jeder ndimensionale K-Vektorraum V über die (bijektive lineare) Koordinatenabbildung FB : V → Kn isomorph als Raum der n-Tupel von Elementen aus K darstellen läßt. Daraus ergibt sich eine Möglichkeit der Deutung der Elemente v ∈ V als Ortsvektoren. Dazu betrachtet man den Vektor FB (v) ∈ Kn als Punkt P bezüglich eines kartesischen Koordinatensystems. Der v zugeordnete Ortsvektor verläuft dann vom Koordinatenursprung zu diesem Punkt P . Da eine algebraische Struktur, insbesondere auch ein Vektorraum, nur bis auf Isomorphie eindeutig bestimmt werden kann, lassen sich zwischen den Vektoren nur solche Beziehungen erklären, die bei Anwendung eines beliebigen Isomorphismus unverändert bleiben. Betrachten wir dazu folgendes Beispiel: V = R2 und B = ((1, 0), (1, 1)). Da V selbst R2 ist, kann man direkt eine geometrische Deutung vornehmen und erhält √einen Winkel von 45◦ zwischen den beiden Basisvektoren und die Länge 2 für den Vektor (1, 1). Unter der Koordinatenabbildung FB ändert sich die Basis allerdings zu FB (B) = ((1, 0)B , (0, 1)B ). Legen wir nun die gleiche geometrische Deutung zugrunde, so stellen wir fest, daß die beiden Bildbasisvektoren einen Winkel von 90◦ einschließen und die Länge des Bildvektors (0, 1)B von (1, 1) nunmehr 1 beträgt. Aus diesem Grund lassen sich wesentliche geometrische Eigenschaften, wie Winkel zwischen oder Längen von Vektoren, nicht aus der beschriebenen geometrischen Deutung eines Vektorraumes bestimmen. Um derartige Größen definieren zu können, bedarf es zusätzlicher Operationen und/oder Relation, so daß der Vektorraum eine reichhaltigere Struktur aufgeprägt bekommt. 122 Preliminary version – 8. Januar 2002 Im Ergebnis dessen wird die Klasse der Isomorphismen kleiner, denn zusätzlich zu den Eigenschaften einer linearen Abbildung ist nun auch noch die Verträglichkeit mit den neuen Operationen und Relationen erforderlich. Die verbleibenden Isomorphismen müssen so beschaffen sein, daß sie Winkel und Längen nicht ändern. 7.1 Das Skalarprodukt Definition 32 V sei ein Vektorraum über dem Körper R der reellen Zahlen. Unter einem Skalarprodukt von V versteht man eine Abbildung h , i : V × V → R mit folgenden drei Eigenschaften: 1. Bilinearität, d.h. für alle u, v, w ∈ V und α, β ∈ R gilt hαu + βv, wi = α hu, wi + β hv, wi hw, αu + βvi = α hw, ui + β hw, vi 2. Symmetrie, d.h. für alle u, v ∈ V gilt hu, vi = hv, ui. 3. positive Definitheit, d.h. für alle v ∈ V gilt hv, vi ≥ 0 und hv, vi = 0 ⇐⇒ v = O Unter einem Euklidischen Vektorraum versteht man einen R-Vektorraum V zusammen mit einem Skalarprodukt h , i. Die Schreibweise mit den eckigen Klammern soll das Skalarprodukt vor allem von einem eventuell auch noch vorhandenen Produkt (z.B. in Polynom- oder Matrizenringen) unterscheiden. Besteht eine derartige Verwechselungsgefahr nicht, so findet man häufig auch die Schreibweise u · v für das Skalarprodukt hu, vi. Eine Verwechselung mit der Vervielfachung des Vektorraumes ist niemals möglich, da man bereits an den Argumenten erkennt, ob es sich um ein Skalarprodukt (Vektor · Vektor) oder eine Vervielfachung (Zahl · Vektor) handelt. Von besonderem Interesse ist der Euklidische Vektorraum bestehend aus V = Rn und dem sogenannten inneren Produkt, welches durch h(u1 , . . . , un ), (v1 , . . . , vn )i := n X i=1 123 Preliminary version – 8. Januar 2002 ui vi (7.1) definiert ist. Sieht man die Elemente von V als Zeilenvektoren, d.h. Matrizen vom Typ (n, 1) an, und identifiziert man die (1, 1)-Matrizen mit ihrem einzigen Eintrag (also a = a), so läßt sich die Definition des inneren Produktes kurz in der Form hu, vi = uv T schreiben. Es sei aber darauf hingewiesen, daß es durchaus andere Skalarprodukte gibt, zum Beispiel definiert auch h(a, b), (c, d)i := 2ac+ad+bc+3bd ein Skalarprodukt. Ist V kein Rn , sondern beispielsweise ein von reellwertigen Funktionen gebildeter Vektorraum, so sind auch ganz andere Definitionen. Betrachten wir V = R[x] den Vektorraum der Polynome (die Aussage bleibt sogar für noch allgemeinere Funktionenklassen gültig) in x mit reellen Koeffizienten und zwei beliebige reelle Zahlen a < b. Dann definiert Z b ∀p, q ∈ R[x] : hp, qi := p(x) ∗ q(x)dx a ein Skalarprodukt. Es sei noch einmal an das eingangs diskutierte Beispiel erinnert. In diesem Falle müßte der Bildraum Rn mit einem anderen Skalarprodukt als (7.1) ausgestattet werden, um FB zu einem Isomorphismus Euklidischer Vektorräume zu machen, also auch die Skalarprodukt-Verträglichkeit der Abbildung FB sicher zu stellen. Das korrekte Skalarprodukt für den Bildbereich wäre h(a, b), (c, d)i := ac + 2bd + ad + bc. Verwendet man für die transformierten Vektoren dieses Skalarprodukt zur Berechung von Längen und Winkeln im Sinne der im Anschluß angeführten Definition, so weichen diese nicht mehr von den entsprechenden Angaben der Ausgangsgrößen ab. Siehe dazu auch Übungsaufgabe 29. Definition 33 Sei V ein Euklidischer Vektorraum mit dem Skalarprodukt h , i. p Die Quadratwurzel hv, vi nennt man den Betrag (die Länge) des Vektors v ∈ V und bezeichnet sie mit |v|. Einen Vektor v der Länge |v| = 1 nennen wir Einheitsvektor. Sind u, v ∈ V \ {O} vom Nullvektor verschiedene Vektoren aus V , dann definiert man den von u und v eingeschlossenen Winkel ](u, v), als den Winkel aus dem Bereich [0◦ , . . . , 180◦ ), dessen Kosinus der Gleichung cos ](u, v) := hu, vi |u| |v| genügt. 124 Preliminary version – 8. Januar 2002 Zwei Vektoren u, v ∈ V heißen zueinander orthogonal (senkrecht), wenn ihr Skalarprodukt 0 ist, d.h. hu, vi = 0. Für den Euklidischen Vektorraum V = Rn mit dem Standardskalarprodukt erhält man v u n uX a2i . |(a1 , . . . , an )| = t i=1 Legt man die gewöhnlichen Anschauung der Punkte des R2 in Bezug auf ein kartesisches Koordinatensystem zugrunde, so ist der √ unter Verwendung des Skalarproduktes (7.1) erhaltene Betrag |(a, b)| = a2 + b2 gerade der übliche Euklidische Abstand des Punktes (a, b) vom Koordinatenursprung. Es handelt sich also um eine vernünftige Längendefinition für den Ortsvektor. Mittels Kosinussatz zeigt man, daß ähnliches auch auf den von den Ortsvektoren (a, b) und (c, d) eingeschlossenen Winkel zutrifft. Im anderen geometrisch anschaulichen Fall R3 treffen diese Aussagen gleichermaßen zu. Für die Zukunft vereinbaren wir, wenn wir ohne Angabe eines Skalarproduktes vom Euklidischen Vektorraum Rn sprechen, so ist dieser immer mit dem Standardskalarprodukt (7.1) ausgestattet. Die Definition der Orthogonalität zweier von Null verschiedener Vektoren steht mit der Definition des eingeschlossenen Winkels im Einklang. Zusätzlich wird durch diese Definition vereinbart, daß der Nullvektor auf jedem Vektor senkrecht stehen soll. Ohne Beweis halten wir zwei wichtige für jedes Skalarprodukt gültige Ungleichungen fest: Merksatz 29 V sei ein Euklidischer Vektorraum mit dem Skalarprodukt h , i. Für alle u, v ∈ V gelten: 1. |u + v| ≤ |u| + |v| (Dreiecksungleichung) 2. | hu, vi | ≤ |u| |v| (Schwarzsche Ungleichung) Man beachte: Auf der linken Seite der Schwarzschen Ungleichung stehen die senkrechten Striche für die Bildung des Absolutbetrags einer reellen Zahl, auf der rechten Seite beziehen sich die senkrechten Striche auf die Länge von Vektoren. Die Gültigkeit der Schwarzschen Ungleichung ist die Rechtfertigung der in Definition 33 vorgenommen Einführung des Winkel zwischen zwei Vektoren. hu,vi Durch sie ist abgesichert, daß |u| tatsächlich dem Intervall [−1 . . . 1] an|v| gehört, also Kosinus eines Winkels ist. 125 Preliminary version – 8. Januar 2002 Übungsaufgaben, Serie 10 28. Gegeben sind die Vektoren mit den Koordinatendarstellungen 1 2 v1 = (1, 2, 1)B , v2 = (3, −1, 0)B , v3 = −1, , − 2 3 B bezüglich der geordneten Basis B = ((2, −1, 3), (0, −1, 2), (−1, 1, 1)) des Vektorraumes R3 der Tripel reeller Zahlen. Berechnen Sie die Koordinatendarstellungen dieser Vektoren bezüglich der geordneten Basis C = ((1, 1, 1), (2, 2, −2), (−3, 1, 2)) . 29. (a) Zeigen Sie, daß h(a, b), (c, d)i := ac + 2bd + ad + bc auf dem Vektorraum R2 der geordneten Paare reeller Zahlen ein Skalarprodukt definiert. (b) Berechnen Sie in Bezug auf dieses Skalarprodukt die Längen der Vektoren (1, 0) und (0, 1) (c) Berechnen Sie in Bezug auf dieses Skalarprodukt die eingeschlossenen Winkel der Vektoren i. (1, 0) und (0, 1) ii. (1, 1) und (3, 3) iii. (1, 3) und (−7, 4) 30. Berechnen Sie Eigenwerte 1 0 0 0 0 0 und zugehörige Eigenräume der Matrix 0 0 0 1 −1 1 0 0 1 −1 −1 2 0 1 −1 −1 0 2 1 −1 −1 −1 1 3 −1 −1 −1 1 3 −1 126 Preliminary version – 8. Januar 2002 7.2 Schmidtsches Orthonormierungsverfahren Definition 34 Wir betrachten einen Euklidischen Vektorraum V mit dem Skalarprodukt h , i. Eine Basis B von V heißt Orthogonalbasis von V , falls die Elemente von B paarweise orthogonal zueinander sind. Besteht B darüberhinaus nur aus Einheitsvektoren, so spricht man von einer Orthonormalbasis von V . Betrachten wir den Vektorraum V = R3 mit dem Standardskalarprodukt. Die Einheitsvektoren (1, 0, 0), (0, 1, 0), (0, 0, 1) bilden eine Orthonormalbasis von V . Dagegen ist die Basis {(1, 0, 0), (1, 1, 0), (1, 1, 1)} keine solche, denn beispielsweise stehen die Vektoren (1, 0, 0) und (1, 1, 0) wegen h(1, 0, 0), (1, 1, 0)i = 1 nicht senkrecht aufeinander. Die Vektoren der Basis {(1, 1, 0), (1, −1, 0), (0, 0, 1)} stehen wiederum paarweise senkrecht aufeinander. Dennoch handelt es sich hierbei nur um eine Orthogonalbasis und nicht um eine √ Orthonormalbasis, denn die beiden ersten Basisvektoren haben die Länge 2 und nicht wie gefordert 1. Vervielfacht man jeden der Basisvektoren seines √ mit √dem Inversen √ √ Betrages, so erhält man 1 1 1 1 die Orthonormalbasis {( 2 2, 2 2, 0), ( 2 2, − 2 2, 0), (0, 0, 1)}. Wie in diesem Beispiel kann man aus einer beliebigen Orthogonalbasis von V sofort eine Orthonormalbasis von V gewinnen, indem man jeden der Vektoren mit dem Inversen seines Betrages vervielfacht. Betrachten wir zwei vom Nullvektor verschiedene Vektoren u, v ∈ V und hu,vi bilden die Linearkombination w = v − hu,ui u. Dann gilt hu, wi = hu, vi − hu, vi hu, ui = 0 . hu, ui hu,vi Diese Rechnung zeigt, daß w auf u senkrecht steht. Der Vektor hu,ui u ist die Projektion von v auf die durch u bestimmte Gerade durch den Nullpunkt. Man kann die Beziehung hu, vi u v=w+ hu, ui so deuten, daß v in eine Summe bestehend aus einem zu u senkrechten und einem zu u parallelen Vektor zerlegt wird. Insbesondere gilt im Falle ukv die Beziehung w = 0. Wir halten fest: 127 Preliminary version – 8. Januar 2002 Lemma 8 Für linear unabhängige Vektoren u und v ist w=v− hu, vi u hu, ui ein vom Nullvektor verschiedener senkrecht auf u stehender Vektor. Ist u ein Einheitsvektor, so vereinfacht sich die Bildung von w zu w = v − hu, vi u . Weiterhin gilt: Lemma 9 Seien u ∈ V ein Vektor und v, w ∈ V zwei zu u orthogonale Vektoren. Dann ist jeder Vektor des von v und w erzeugten Untervektorraumes Span(v, w) orthogonal zu u. Beweis: Die Behauptung folgt sofort aus hu, αv + βwi = α hu, vi + β hu, wi = 0 2 Betrachten wir nun drei linear unabhängige Einheitsvektoren u, v, z ∈ V , der von ihnen aufgespannte lineare Teilraum von V sei U = Span{u, v, z}. Mit Hilfe von Lemma 8 können wir zwei auf u senkrecht stehende Vektoren v 0 := v−hu, vi u und z 0 := z−hu, zi u konstruieren. Diese sind von Null verschieden und daher sind ṽ := |v10 | v 0 und z̃ := |z10 | z 0 dazu parallel Einheitsvektoren. Die Menge B = {u, ṽ, z̃} ist Basis von U , denn man überzeugt sich leicht davon, daß sich die Vektoren u, v, z als Linearkombination von B darstellen lassen, also B ein Erzeugendensystem ist. Da U die Dimension 3 hat, muß die dreielementige Menge B linear unabhängig, also Basis von U , sein. Durch Anwendung von Lemma 8 auf ṽ, z̃ erhält man einen auf ṽ senkrecht stehenden Vektor ẑ = z̃ − hṽ, z̃i ṽ 6= O. Nach Lemma 9 steht dieser nicht nur senkrecht auf ṽ sondern auch auf u. Durch Normierung auf die Länge 1 erhält man den Einheitsvektor z. Die Menge B 0 = {u, ṽ, z} ist Orthonormalbasis von U . Dann können wir zunächst einen auf u senkrecht stehenden Einheitsvektor w konstruieren, indem wir zuerst das vorangegangene Lemma anwenden und den Ergebnisvektor durch Vervielfachung mit dem Inversen seines Betrages auf die Länge 1 normieren. 128 Preliminary version – 8. Januar 2002 Das eben für 2 und 3 linear unabhängige Elemente durchgeführte Verfahren, läßt sich auf beliebige linear unabhängige endliche Mengen von Vektoren erweitern. Auf diese Weise kann man aus einer beliebigen Basis eines endlichdimensionalen Vektorraumes V eine Orthonormalbasis von V konstruieren. Man nennt dieses Verfahren Schmidtsches Orthonormierungsierungsverfahren. Gegeben: Erzeugendensystem B des endlichdimensionalen Vektorraumes V. Gesucht: Orthonormalbasis C von V . 1 C := ∅, B := B \ {O} 2 while B 6= ∅ do 2.1 Wähle einen beliebigen Vektor c ∈ B. 2.2 B := B \ {c} 1 c 2.3 c := |c| 2.4 C := C ∪ {c} 2.5 for all b ∈ B do 2.5.1 b0 := b − hb, ci c 2.5.2 B := B \ {b} 2.5.3 if b0 6= O then B := B ∪ {b0 } Da die Menge B in jedem Durchlauf von Schleife 2 kleiner wird ist klar, daß das Verfahren irgendwann anhält. Daß die Menge C zum Terminationszeitpunkt eine Orthonormalbasis von V ist, kann man analog zum eingangs beschriebenen Fall eines dreidimensionalen Raumes V mittels vollständiger Induktion nachweisen. Betrachten wir ein Beispiel zum Schmidtschen Orthonormierungsverfahren. V sei der von B = {u = (0, 2, 2, −1, 0), v = (2, 2, −2, −2, 0), z = (0, 1, 1, 1, 1)} erzeugte lineare Teilraum des R5 . Wir wählen den Vektor z und normieren ihn auf den Betrag 1. So erhalten wir 0, 21 , 12 , 12 , 12 als erstes Element der Orthonormalbasis C. 129 Preliminary version – 8. Januar 2002 Die verbleibenden Vektoren u und v aus B werden durch die Vektoren 1 1 1 1 3 0 u = (0, 2, 2, −1, 0) − 0, , , , 2 2 2 2 2 5 5 7 3 = 0, , , − , − 4 4 4 4 1 1 1 1 0 v = (2, 2, −2, −2, 0) + 0, , , , 2 2 2 2 5 3 3 1 = 2, , − , − , 2 2 2 2 Wir normieren u0 auf den Betrag 1 und nehmen den dabei erhaltenen Vektor ũ = 1√ 3 (0, 5, 5, −7, −3) 18 in die Orthonormalbasis C auf. Dann ersetzen wir v 0 in B durch 1 1√ 7√ v̂ = (4, 5, −3, −3, 1) − 3∗ 3 (0, 5, 5, −7, −3) 2 9 18 50 58 16 8 = 2, , − , − , 27 27 27 9 Schließlich normieren wir den Vektor v̂ noch auf den Betrag 1 und fügen ihn in C ein. Dabei erhalten wir die Orthonormalbasis 1 1√ 1 √ C= (0, 1, 1, 1, 1) , 3 (0, 5, 5, −7, −3) , 267 (27, 25, −29, −8, 12) 2 18 801 des Untervektorraumes V ⊂ R5 . 7.3 Isomorphismen Euklidischer Vektorräume Eine lineare Abbildung F : V → W zweier Euklidischer Vektorräume, welche mit dem Skalarprodukt verträglich ist, d.h. ∀u, v ∈ V : hu, vi = hF (u), F (v)i , ist stets injektiv. Für v ∈ Null(F ) gilt aufgrund der Skalarproduktverträglichkeit hv, vi = hF (v), F (v)i = h0, 0i = 0 und aus den Eigenschaften 130 Preliminary version – 8. Januar 2002 des Skalarprodukts folgt v = 0. Im Falle dim V = dim W < ∞ ist also jedes derartige F ein Isomorphismus Euklidischer Vektorräume. Die Invarianz des Skalarprodukts hat für alle u, v ∈ V die Gültigkeit von |v| = |F (v)| ](u, v) = ](F (u), F (v)) zur Folge. Insbesondere geht eine Orthonormalbasis von V bei Anwendung von F stets in eine Orthonormalbasis von Bild(F ) über. Im weiteren wollen wir dim V = dim W voraussetzen, dann geht eine Orthonormalbasis von V in eine Orthonormalbasis von W über. Seien B = (b1 , . . . , bn ) und C = (c1 , . . . , cn ) geordnete Orthonormalbasen von V beziehungsweise W und F (b1 ) = a1,1 c1 + · · · + a1,n cn .. . F (bn ) = an,1 c1 + · · · + an,n cn (7.2) die Koordinatendarstellungen der Bilder der Elemente von B bezüglich C. Aus der Invarianz des Skalarproduktes ergibt sich hbi , bj i = hai,1 c1 + · · · + ai,n cn , aj,1 c1 + · · · + aj,n cn i = n n X X ai,k aj,l hck , cl i . k=1 l=1 Aufgrund der Orthonormalbasiseigenschaft von C gilt 1 : falls k = l hck , cl i = 0 : sonst und die obige Gleichung vereinfacht sich zu hbi , bj i = n X ai,k aj,k . (7.3) k=1 Betrachten wir nun die Abbildungsmatrix AF = (ai,j ) i=1,... ,n von F bezüglich j=1,... ,n der geordneten Basen B und C. Wegen (7.3) bilden die Zeilen der Matrix 131 Preliminary version – 8. Januar 2002 AF eine Orthonormalbasis des Euklidischen Vektorraumes Rn mit dem Standardskalarprodukt (7.1). Aus dieser Tatsache ergibt sich sofort die Gültigkeit von AF ATF = ATF AF = En . (7.4) Eine Matrix mit dieser Eigenschaft nennt man Orthogonalmatrix. Orthogonalmatrizen lassen sich besonders einfach invertieren. Wir wollen hervorheben, daß insbesondere jede Koordinatentransformationsmatrix, welche die Koordinatendarstellungen der Elemente von Rn bezüglich einer Orthonormalbasis in deren Koordinatendarstellungen bezüglich einer weiteren Orthonormalbasis umrechnet, von dieser speziellen Bauart ist. Die umgekehrte Koordinatentransformation beruhte gerade auf der inversen Abbildungsmatrix. Wir stellen fest, daß sich diese im Falle der Transformation zwischen Orthonormalbasen einfach durch Transponieren gewinnen läßt. Mit anderen Worten, hat man die Matrix für die Transformation in einer Richtung gegeben, so bedarf es praktisch keines Rechenaufwandes um auch die Rücktransformation ausführen zu können. Um Gleichung (7.3) herzuleiten, mussten wir keinen Gebrauch von den Eigenschaften der Basis B machen. Diese benötigten wir erst im nächsten Schritt, um auf die Orthogonalität der Abbildungsmatrix schließen zu können. In der Tat gilt hu, vi = n X αk βk . (7.5) k=1 für beliebige Vektoren u, v ∈ W , wobei diese die Koordinatendarstellungen uC = (α1 , . . . , αn )C bzw. vC = (β1 , . . . , βn )C bezüglich der Orthonormalbasis C haben. Wir halten also fest, ist W ein Euklidischer Vektorraum mit beliebigem Skalarprodukt und C eine Orthonormalbasis von W , so kann man das Skalarprodukt hu, vi immer berechnen, indem man das Standardskalarprodukt der Koordinatendarstellungen von u und v bezüglich C berechnet. Merksatz 30 Jeder n-dimensionale Euklidische Vektorraum W ist zu dem Euklidischen Vektorraum Rn mit Standardskalarprodukt isomorph. 132 Preliminary version – 8. Januar 2002 7.4 Euklidische affine Räume und Bewegungen Unter einem Euklidischen affinen Raum wollen wir einen affinen Raum (A, V ) verstehen, dessen Vektorraum V sogar Euklidischer Vektorraum ist. Unter einem Koordinatensystem eines n-dimensionalen affinen Raumes versteht man ein (n + 1)-Tupel S = (O; e1 , . . . , en ) bestehenden aus einem beliebigen festen Punkt O ∈ A, dem sogenanten Koordinatenursprung, und den Vektoren e1 , . . . , en einer geordneten Basis E von V . Ist V ein Euklidischer Vektorraum und E Orthonormalbasis von V , so sprechen wir von einem kartesischen Koordinatensystem. −→ Jeder Punkt P ∈ A läßt sich eindeutig durch den Ortsvektor OP ∈ V be−→ schreiben. Die Koordinatendarstellung (p1 , . . . , pn )E von OP bezüglich der −→ P geordneten Basis E, d.h. OP = ni=1 pi ei , nennt man auch die Koordinatendarstellung (p1 , . . . , pn )S von P bezüglich des Koordinatensystems S. Sei (A, V ) ein Euklidischer affiner Raum. Als Bewegung von (A, V ) bezeichnen wir eine Abbildung G : A → A mit der Eigenschaft, daß die durch −−−−−−−→ −→ F (P Q) := G(P ) G(Q) induzierte Abbildung F : V → V ein Isomorphismus Euklidischer Vektorräume ist. Insbesondere muß die Abbildung F −→ −−→ wohldefiniert sein, d.h. für beliebige Punkte P, P 0 , Q, Q0 ∈ A mit P Q = P 0 Q0 −−−−−−−→ −−−−−−−−→ muß auch die Gleichheit G(P ) G(Q) = G(P 0 ) G(Q0 ) der Verbindungsvektoren im Bildraum gelten. Man sieht leicht, daß die Hintereinanderausführung zweier Bewegungen ebenso wie die inverse Abbildung einer Bewegung wieder Bewegungen sind. Merksatz 31 Die Bewegungen, d.h. die abstands- und winkeltreuen Abbildungen, des Euklidischen affinen Raumes (A, V ) auf sich bilden eine Gruppe. Eine spezielle Art der Bewegung sind die Translationen. Bei der Translation Tv : A → A um den Vektor v ∈ V wird jedem Punkt P ∈ A der Punkt −→ Q ∈ A mit P Q = v zugeordnet. Bei einer Translation für beliebige Punkte −→ −−−−−−−→ P, Q ∈ A sogar die Gleichheit P Q = Tv (P ) T( Q), die induzierte Abbildung auf dem Vektorraum V ist also einfach die Identität. Für ein festes Koordinatensystem S von (A, V ) ergibt sich für die Koordinatendarstellungen bezüglich S die Transformationsgleichung (Tv (P ))S = PS + vE . 133 Preliminary version – 8. Januar 2002 Hierbei bezeichnen PS und (Tv (P ))S die Koordinatendarstellung von P beziehungsweise Tv (P ) bezüglich S und vE die Koordinatendarstellung von v bezüglich E. Betrachten wir nun solche Bewegungen D : A → A, bei denen der Koordinatenursprung Fixpunkt ist, d.h. D(O) = O. In diesem Falle nimmt die Transformationsgleichung der Koordinatendarstellungen bezüglich S die Gestalt (D(P ))S = PS · AD , wobei AD die Abbildungsmatrix der induzierten linearen Abbildung des Euklidischen Vektorraums V bezüglich der geordneten Basis E bezeichnet. Zu diesem Ergebnis kommt man bei Betrachtung des Übergang O 7→ O und −→ P 7→ D(P ), denn gemäß der Eigenschaften einer Bewegung muß F (OP ) = −−−−−→ O D(P ) erfüllt sein. Das heißt aber gerade F (PS ) = (D(P ))S . Jede Bewegung G von (A, V ) läßt sich also Hintereinanderausführung einer Bewegung D mit fixem Koordinatenursprung und einer Translation T darstellen, also G(P ) = T (D(P )). In Koordinatenschreibweise erhält man (G(P ))S = PS · AD + vE (7.6) in Bezug auf das Koordinatensystem S. Ist S kartesisch, so ist AD eine Orthogonalmatrix und die Bewegung G−1 genügt der Koordinatenschreibweise G−1 (Q) S = QS · ATD − vE · ATD (7.7) Aus der Orthogonalitätseigenschaft AD ATD = E und dem Determinantensatz 18 schließt man sofort det AD ∗ det ATD = (det AD )2 = 1, also det AD = ±1. Im Falle det AD = 1 spricht man von eigentlichen Bewegungen und im Falle det AD = −1 von uneigentlichen Bewegungen. Für den durch die Abbildungsmatrix AD gegebenen Isomorphismus Euklidischer Vektorräume kommen nur 1 und −1 als reelle Eigenwerte in Frage, jeder andere reelle Eigenwert würde offensichtlich die Längentreue verletzen. 7.4.1 Bewegungen in Ebene und Raum Wir wollen nun die anschaulichen affinen Räume R2 und R3 genauer untersuchen, dabei legen wir stets ein kartesisches Koordinatensystem S zugrunde und rechnen mit den Koordinatendarstellungen bezüglich S. 134 Preliminary version – 8. Januar 2002 Bewegungen in der Ebene R2 Beginnen wir mit der Untersuchung des R2 . Wann ist eine Matrix A ∈ R2,2 orthogonal? Da alle Vektoren als durch ihre Koordinaten bezüglich eines Orthonormalssystems (Vektoranteil des kartesischen Koordinatensystems S) gegeben betrachtet werden, haben wir es immer mit dem Standardskalarpro a b dukt 7.1 zu tun. Die Normalität der Zeilen und Spalten von A = c d bedeutet folglich a2 + b2 = c2 + d2 = a2 + c2 = b2 + d2 = 1 . (7.8) Zieht man nun noch die Orthogonalität der Zeilen und Spalten hinzu, so erhält man die Beziehungen ac + bd = ab + cd = 0 . (7.9) Aus 7.8 ergibt sich, daß jede der Variablen a, b, c und d einen Wert zwischen −1 und +1 hat, also als Sinus oder Kosinus eines Winkels aufgefaßt werden kann. Mehr noch, es gibt einen Winkel 0 ≤ ϕ ≤ π, so daß a2 = d2 = cos2 ϕ und b2 = c2 = sin2 ϕ. Wegen 7.9 und |a| = |d| sowie |b| = |c| erhalten wir, daß einer der beiden Fälle d = a und c = −b oder d = −a und c = b vorliegen muß. Gehört A zu einer eigentlichen Bewegung, dann scheidet der zweite Fall wegen a b 2 2 b −a = −a − b ≤ 0 aus. Es gibt genau einen Winkel 0 ≤ ϕ < 2π, so daß die Beziehungen a = cos ϕ und b = sin ϕ gelten. Wir halten also fest, jede eigentliche Bewegung D des R2 , welche den Koordinatenursprung fest läßt, ist von der Art cos ϕ sin ϕ D(x, y)S = (x, y)S · . − sin ϕ cos ϕ In der Tat beschreibt die Gleichung gerade eine Drehung des affinen Raumes um den Koordinatenursprung um den Winkel ϕ, d.h. ist (x, y)S ein Punkt 135 Preliminary version – 8. Januar 2002 von R2 , dann ergeben sich die Koordinaten des Bildpunktes D(x, y)S , indem man den Ortsvektor von (x, y)S entgegen des Uhrzeigersinnes um ϕ dreht. Hierbei beachte man: Wir hatten oben die Auswahl, ob wir a oder b als Kosinus wählen. Die von uns getroffene Entscheidung ist insofern die vernünftigere, daß nur sie die geometrische Deutung der Drehung um eben diesen Winkel ϕ erlaubt. Es bleibt noch die Untersuchung der uneigentlichen Bewegungen. Bereits früher hatten wir festgestellt, daß diese durch eine Matrix a b A= b −a beschrieben werden. Ein wichtigter Spezialfall ist a = 1, b = 0, also 1 0 M (x, y)S = (x, y)S · . 0 −1 Hierbei handelt es sich um eine Spiegelung an der x-Achse. Eine beliebige andere uneigentliche Bewegung mit fixem Koordinatenursprung läßt sich wegen a b 1 0 a b = ∗ b −a 0 −1 −b a als Hintereinanderausführung einer Spiegelung an der x-Achse und anschließender Drehung darstellen. Der Spezialfall a = −1, b = 0 stellt natürlich eine Spiegelung an der y-Achse dar. Nach unserer obigen Untersuchung kann man diese auch erhalten, indem man an der x-Achse spiegelt und anschließend um den Winkel 180◦ (wegen cos π = −1) dreht. Betrachten wir ein weiteres Beispiel dafür, nämlich die Bewegung mit A = 0 1 , welche x- und y-Koordinate vertauscht. Die Zerlegung in x-Achsen1 0 spiegelung und Drehung gibt 0 1 1 0 0 1 = ∗ 1 0 0 −1 −1 0 Im Anschluß an die Spiegelung an der x-Achse erfolgt also eine Drehung um 90◦ . Insgesamt halten wir fest: 136 Preliminary version – 8. Januar 2002 Merksatz 32 Jede Bewegung des affinen Raumes R2 ergibt sich als Hintereinanderausführung von optional einer Spiegelung an der x-Achse und dann einer Drehung um einen Winkel 0 ≤ ϕ < 360◦ und einer abschließenden Parallelverschiebung um einen Vektor v ∈ R2 . Wenn eine Drehung reelle Eigenwerte hat, so muß es sich um einen doppelten Eigenwert 1 oder einen doppelten Eigenwert −1 handeln. Im ersten Fall haben wir den Drehwinkel 0◦ , also die Identität. Im zweiten Fall beträgt der Drehwinkel 180◦ , also die Punktspiegelung am Koordinatenursprung. Eine Drehspiegelung mit reellen Eigenwerten hat die Eigenwerte 1 und −1, es handelt sich also immer um eine Spiegelung, die Richtung der Spiegelachse ist durch den Eigenvektor zum Eigenwert 1 festgelegt. Achtung: die Eigenvektoren zum Eigenwert −1 werden umgedreht, sie stehen daher nicht in Richtung zur sondern senkrecht auf der Spiegelachse. Bewegungen im Raum R3 Betrachten wir nun eine den Koordinatenursprung fest lassende Bewegung des R3 . Die zugehörige Transformationsmatrix A besitzt immer einen reellen Eigenwert, da ein Polynom vom Grad 3 mit reellen Koeffizienten aufgrund des paarweisen Auftretens komplexer Eigenwerte mindestens eine reelle Nullstelle haben muß. Betrachten wir zuerst den Fall, daß sogar alle drei Eigenwerte reell sind. • Eigenwert 1 mit algebraischer Vielfachheit 3, Identität. • Eigenwert 1 mit algebraischer Vielfachheit 2 und Eigenwert −1 mit algebraischer Vielfachheit 1, Spiegelung an der Ebene, die durch die Eigenvektoren zum Eigenwert 1 bestimmt wird. • Eigenwert 1 mit algebraischer Vielfachheit 1 und Eigenwert −1 mit algebraischer Vielfachheit 2, Spiegelung an der durch den Eigenvektoren zum Eigenwert 1 bestimmten Geraden. • Eigenwert −1 mit algebraischer Vielfachheit 3, Punktspiegelung am Koordinatenursprung. Wir betrachten nun den allgemeinen Fall und setzen voraus, daß der erste Vektor der zugrundeliegenden Orthonormalbasis des zum affinen Raumes 137 Preliminary version – 8. Januar 2002 gehörigen Vektorraumes ein Eigenvektor eines reellen Eigenwertes ist. Die Abbildungsmatrix hat dann die Gestalt ±1 0 0 A = 0 a b , 0 c d a b wobei B = eine Bewegungsmatrix des R2 ist. Ist B eine uneigentlic d che Bewegung, also eine Drehspiegelung, dann zerlegen wir A in ±1 0 0 ±1 0 0 1 0 0 b A = 0 a b = 0 1 0 ∗ 0 a 0 c d 0 0 −1 0 −c −d und andernfalls in ±1 0 0 ±1 0 0 1 0 0 A = 0 a b = 0 1 0 ∗ 0 a b 0 c d 0 0 1 0 c d In beiden Fällen erreichen wir so, daß der rechte Faktor eine Drehung um die x-Achse ist. Der erste Faktor gehört zu einer der oben klassifizierten Bewegungen mit ausschließlich reellen Eigenwerten. Zusammenfassend halten wir fest: ±1 0 0 1 0 0 A = 0 1 0 ∗ 0 cos ϕ sin ϕ 0 0 ±1 0 − sin ϕ cos ϕ und Merksatz 33 Jede Bewegung des affinen Raumes R3 ergibt sich als Hintereinanderausführung einer Spiegelung an einer Geraden oder einer Ebene, einer Drehung um eine Achse und einer abschließenden Parallelverschiebung. Liegt unseren Untersuchungen eine beliebige Orthonormalbasis zugrunde, dann wird ein Problem des obigen Satzes deutlich, denn Spiegelung und Drehung müssen bezüglich irgendwie im Raum liegender Achsen beschrieben werden. Alternativ kann man eine Zerlegung der folgenden Art vornehmen: Merksatz 34 Jede Bewegung des affinen Raumes R3 ergibt sich als Hintereinanderausführung einer optionalen Spiegelung an der x-Ebene, einer Drehung um die x-Achse, einer Drehung um die y-Achse, einer Drehung um die z-Achse und einer abschließenden Parallelverschiebung. 138 Preliminary version – 8. Januar 2002 7.5 Abstände und Schnittwinkel Euklidischer affiner Teilräume Zum Abschluß wollen wir uns noch zwei geometrischen Fragestellungen zuwenden. Dabei betrachten wir zwei affine Teilräume A1 = (A1 , V1 ) und A2 = (A2 , V2 ) des Euklidischen affinen Raumes A = (A, V ) und fragen nach dem Abstand d(A1 , A2 ), sowie in einigen Spezialfällen nach dem Schnittwinkel ](A1 , A2 ). Unseren Untersuchungen sollen immer Koordinaten bezüglich eines kartesischen Koordinatensystems S von A zugrunde liegen. Definition 35 A = (A, V ) sei ein affiner Raum. Die Länge des rDEuklidischer E −−→ −−→ −−→ Verbindungsvektors P1 P2 , d.h. P1 P2 , P1 P2 , bezeichnen wir als Abstand d (P1 , P2 ) der Punkte P1 , P2 ∈ A. Sind A1 = (A1 , V1 ) und A2 = (A2 , V2 ) affine Teilräume von A, dann definiert d (A1 , A2 ) := min P1 ∈A1 ∧P2 ∈A2 d (P1 , P2 ) den Abstand der beiden Teilräume. Die Definition des Abstands zweier Punkte als Länge ihres Verbindungsvektors ist naheliegend. Wie sieht es aber mit der Definition des Abstandes beliebiger affiner Teilräume A1 und A2 von A aus? Wenn sich A1 und A2 scheiden ist das Minimum 0, das ist sicher vernünftig. Andernfalls erhebt sich zunächst die Frage nach der Existenz des Minimums der Punktabstände. Falls P1 ∈ A1 und P2 ∈ A2 Punkte minimalen Abstandes sind, so muß der −−→ Verbindungsvektor P1 P2 senkrecht auf jedem Vektor der beiden Vektorräume V1 und V2 stehen. Nehmen wir an, daß wäre nicht der Fall, also existiert −−→ o.B.d.A. ein Vektor v ∈ V1 , welcher nicht orthogonal zu P1 P2 ist. Mit Hilfe des Schmidtschen Orthonormalisierungsverfahrens finden wir einen Vektor −−→ w, welcher senkrecht auf v steht und linear abhängig von v und P1 P2 ist. Die in Richtung w durch P2 verlaufende Gerade g1 und die in Richtung v durch P1 verlaufende Gerade g2 haben einen gemeinsamen Schnittpunkt P3 . g2 ist Teilraum von A1 , also P3 ∈ A1 . Die Strecke P1 P2 ist Hypothenuse des rechtwinkligen Dreiecks 4(P1 , P2 , P3 ), also in jedem Falle länger als die Strecke P3 P2 . Wegen P3 ∈ A1 und P2 ∈ A2 stünde das im Widerspruch zu −−→ d (A1 , A2 ) = d (P1 , P2 ), also konnte ein derartiger zu P1 P2 nicht orthogonaler Vektor v ∈ V1 nicht existieren. Sind nun P1 , P10 ∈ A1 und P2 , P20 ∈ A2 zwei 139 Preliminary version – 8. Januar 2002 −−→ −−→ Punktepaare mit P1 P2 ⊥ V1 , V2 und P10 P20 ⊥ V1 , V2 . Dann gilt insbesondere auch → −−→ −−→ −−→ −− P1 P2 , P10 P20 ⊥ P1 P10 , P2 P20 . P2 P1 P10 P20 sind demzufolge die Eckpunkte eines Rechtecks und daher folgt −−→ −−→ P1 P2 = P10 P20 . −−→ Wir stellen also fest, für beliebige Punkte P1 ∈ A1 und P2 ∈ A2 mit P1 P2 ⊥ V1 , V2 ist d (A1 , A2 ) = d (P1 , P2 ). Es bleibt noch zu zeigen, daß es immer derartige Punkte gibt. Betrachtet man den in Abschnitt 5.8 angegebenen Algorithmus zur Berechnung des Durchschnitts zweier implizit gegebener affiner Räume, so stellt man fest, daß sich A1 und A2 im Falle V1 + V2 = V schneiden müssen. In diesem Falle ist P1 = P2 ∈ A1 ∩ A2 eine geeignete Wahl. Schneiden sich A1 und A2 dagegen nicht, so läßt sich eine Orthonormalbasis von V1 + V2 mittels Schmidtschem Orthonormalisierungsverfahren durch Hinzunahme mindestens eines Vektors zu einer Orthonormalbasis von ganz V ergänzen. Wir finden demnach eine Vektor O = 6 v ⊥ V1 , V2 und ohne −−→ Beweis merken wir an, daß es Punkte P1 ∈ A1 und P2 ∈ A2 mit P1 P2 kv gibt. Abstandsberechnungen affiner Teilräume des R3 Es gibt drei Typen echter affiner Teilräume des R3 , nämlich Punkte, Geraden und Ebenen. Die Abstände derartiger affiner Teilräume kann man wie folgt berechnen. Punkt P1 - Punkt P2 Dieser Fall ist trivial, man berechnet einfach die Länge des Verbindungsvektors. Punkt P - Gerade G G verlaufe in Richtung v durch den Punkt Q. Wir −→ setzen w := QP . Ähnlich dem Schmidtschen Orthonmormierungsverfahren v. Dieser steht senkrecht auf v und berechnen wir den Vektor u := w − hv,wi hv,vi seine Länge ist gleich dem Abstand d (P, G) = |u| . 140 Preliminary version – 8. Januar 2002 Punkt P - Ebene E E verlaufe durch den Punkt Q und dehne sich in den Richtungen v, w ∈ V aus. Berechne mittels des Schmidtschen Orthonmormierungsverfahren einen Vektor u ∈ V , welcher senkrecht auf v und w steht. Berechne den Durchschnitt {R} von E mit der Geraden P + λu. Dann gilt −−→ d (P, E) = |P, R| . Ebene E1 - Ebene E2 Wenn sich beide Ebenen schneiden, so haben wir d (E1 , E2 ) = 0 , andernfalls sind sie parallel und es gilt d (E1 , E2 ) = d (P1 , E2 ) für jeden beliebigen Punkt P1 von E1 . Gerade G1 - Gerade G2 Es seien G1 : x = P1 + λv1 und G2 : x = P2 + µv2 explizite Darstellungen der beiden Geraden. Wenn sich G1 und G2 schneiden, so d (G1 , G2 ) = 0 , sind die Geraden parallel, so gilt d (G1 , G2 ) = d (P1 , G2 ) . Schließlich bleibt noch die Möglichkeit windschiefer Geraden. Dann sind E1 : x = P1 + λv1 + µv2 und E2 : x = P2 + λv1 + µv2 zwei nicht zusammenfallende parallele Ebenen und es gilt die Beziehung d (G1 , G2 ) = d (E1 , E2 ) = d (P1 , E2 ) . Gerade G - Ebene E Im Fall GkE haben wir d (G, E) = d (P, E) für einen beliebigen Punkt P von G. Andernfalls haben wir d (G, E) = 0 . 141 Preliminary version – 8. Januar 2002 Schnittwinkel von Geraden und Ebenen des R3 Von einem Schnittwinkel affiner Räume A1 und A2 kann man sinnvollerweise höchstens dann sprechen, wenn sich A1 und A2 tatsächlich schneiden. Für sich schneidende Geraden liegt es nahe, den von den Richtungsvektoren v1 beziehungsweise v2 beider Geraden eingeschlossenen Winkel zu verwenden. Da mit v2 auch −v2 Richtungsvektor der zweiten Gerade ist und ](v1 , v2 ) = 180◦ −](v1 , −v2 ) gilt, bedarf es einer weiteren Präzisierung dieser Definition. Wir verlangen, daß der Schnittwinkel im Bereich zwischen 0◦ und 90◦ liegen soll. Also hv1 , v2 i cos ](G1 , G2 ) = cos ](v1 , v2 ) = , |v1 | |v2 | wobei die Richtungsvektoren v1 und v2 so gewählt sind, daß hv1 , v2 i ≥ 0 gilt. Ohne sich über den Richtungssinn der Vektoren v1 und v2 Gedanken machen zu müssen, kann man diese Beziehung auch durch hv1 , v2 i cos ](G1 , G2 ) = |v1 | |v2 | charakterisieren. Nun mag man hoffen, analog zur Abstandsdefinition das Minimum oder Maximum von ](v1 , v2 ) für v1 ∈ V und v2 ∈ V als Schnittwinkel zu vereinbaren. Beide Definitionen sind jedoch leider nicht sinnvoll. Einen Ausweg gibt es im Falle von Hyperebenen, da man dort eine eindeutig bestimmte Richtung hat, die senkrecht auf der Hyperebene steht. So definiert man den Schnittwinkel zweier nicht paralleler Ebenen E1 und E2 des R3 durch ](E1 , E2 ) = ](v1 , v2 ) , wobei v1 ⊥ V1 , v2 ⊥ V2 und hv1 , v2 i ≥ 0. Schließlich kann man den Winkel zwischen einer Ebene E und einer schneidenden Geraden G als ](E, G) = 90◦ − ](v, w) , wobei v senkrecht auf E steht, w Richtungsvektor von G ist und hv, wi ≥ 0 gilt. 142 Preliminary version – 8. Januar 2002 Literaturverzeichnis [1] Eisenreich. Lineare Algebra und analytische Geometrie, AkademieVerlag, Berlin, 1989. [2] Kiyek, Schwarz. Mathematik für Informatiker 1,2. Teubner, Stuttgart, 1991. (Band 1, Kapitel I, II; Band 2, Kapitel VIII, XII,XIII,XIV) [3] Lau. Mathematik für Informatiker. Band 1, Grundbegriffe der Mathematik, Lineare Algebra und analytische Geometrie I, 1995. URL: http://www.math.uni-rostock.de/~dlau, Anonymous-ftp: ftp://ftp.math.uni-rostock.de/pub/members/lau/skripte/MfI1.ps.gz [4] Manteuffel, Seiffart, Vetters. Lineare Algebra. MINOL (Mathematik für Ingenieure, Naturwissenschaftler, Ökonomen, Landwirte) 13, Teubner, Leipzig, 1978. 143 Preliminary version – 8. Januar 2002