Vorlesung Logik, Diskrete Mathematik und Lineare Algebra (Mathematik für Bioinformatiker I) Wintersemester 2012/13 FU Berlin Institut für Informatik Klaus Kriegel 1 Literatur zur Vorlesung: C. Meinel, M. Mundhenk, Mathematische Grundlagen der Informatik, B.G.Teubner 2000 D. Hachenberger, Mathematik für Informatiker, Pearson Studium G. Haggard, J. Schlipf, S. Whitesides, Discrete Mathematics for Computer Science, Brooks Cole M. Aigner, Diskrete Mathematik, Vieweg & Sohn 1999 T. Ihringer, Diskrete Mathematik, Teubner 1994 K. H. Rosen, Discrete Mathematics and its Applications, McGraw-Hill 1991 K. Jänich, Lineare Algebra, Springer 2000 2 Contents 1 Grundbegriffe der Logik 1.1 Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Prädikate und Quantoren . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Beweistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 8 11 2 . . . . . . 14 14 18 20 22 25 28 . . . . . . 32 32 33 36 37 40 41 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit . . . . . . 4.2 Zufallsvariable und Erwartungswert . . . . . . . . . . . . . . . . . . 43 43 48 Grundbegriffe der Mengenlehre 2.1 Mengen und Operationen auf Mengen . . . . . . . 2.2 Kartesisches Produkt und Relationen . . . . . . . . 2.3 Äquivalenzrelationen . . . . . . . . . . . . . . . . . 2.4 Ordnungsrelationen . . . . . . . . . . . . . . . . . 2.5 Funktionen . . . . . . . . . . . . . . . . . . . . . . 2.6 Natürliche Zahlen, Endlichkeit und Kardinalzahlen 3 Kombinatorik 3.1 Elementare Zählprinzipien . . . . . 3.2 Die fundamentalen Zählkoeffizienten 3.3 Zwölf Arten des Abzählens . . . . . 3.4 Rekursionen . . . . . . . . . . . . . 3.5 Lösung von Rekursionen . . . . . . . 3.6 Das Schubfachprinzip . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Lineare Algebra 5.1 Einführung: Anschauliche Vektorrechnung . . 5.2 Gruppen und Körper . . . . . . . . . . . . . . 5.3 Vektorräume . . . . . . . . . . . . . . . . . . . 5.4 Lineare Unabhängigkeit, Basis und Dimension 5.5 Lineare Abbildungen . . . . . . . . . . . . . . 5.6 Matrizen . . . . . . . . . . . . . . . . . . . . . 5.7 Der Rang einer Matrix . . . . . . . . . . . . . 5.8 Lineare Gleichungssysteme . . . . . . . . . . . 5.9 Inverse Matrizen . . . . . . . . . . . . . . . . 5.10 Determinanten . . . . . . . . . . . . . . . . . 5.11 Eigenwerte und Eigenvektoren . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 53 56 59 66 73 77 84 93 96 105 1 Grundbegriffe der Logik 1.1 Aussagen Die Grundlagen der Aussagenlogik gehen bereits auf die alten Griechen zurück. So beschrieb Aristoteles eine Aussage als einen Satz, von dem es sinnvoll ist zu sagen, dass er wahr oder falsch sei. Diesen Gedanken findet man auch in der heute verwendeten Definition wieder. Definition: Eine Aussage ist ein (formal-)sprachliches Gebilde, das entweder wahr oder falsch ist. Der Zusatz formalsprachlich weist darauf hin, dass man auch mathematische Symbole und andere Zeichen einer formalen Sprache verwenden kann. Die klassische Aussagenlogik beruht auf zwei Grundprinzipien, dem bereits genannten Zweiwertigkeitsprinzip, welches fordert, dass jede Aussage einen eindeutig bestimmten Wahrheitswert hat, der nur wahr oder falsch sein kann, und dem Extensionalitätsprinzip, nach dem der Wahrheitswert einer zusammengesetzten Aussage nur von den Wahrheitswerten ihrer Bestandteile abhängt. Wir werden im Folgenden (wie in der Informatik üblich) eine 1 für den Wahrheitswert wahr und eine 0 für falsch verwenden. Das Zusammensetzen von Aussagen erfolgt durch die Verwendung von Verknüpfungswörtern wie und, oder, nicht, wenn . . . dann, welche auf formal-sprachlicher Ebene durch sogenannte logische Junktoren - das sind spezielle Verknüpfungssymbole - dargestellt werden. Beispiele: 1. Der Satz “7 ist eine Primzahl.” und der Satz “7 ist eine ungerade Zahl.” sind wahre Aussagen. Dagegen ist der Satz “7 ist eine gerade Zahl.” eine falsche Aussage. Genauer gesehen ist der letzte Satz die Negation des zweiten Satzes, denn nicht ungerade zu sein, ist (zumindest für ganze Zahlen) das gleiche, wie gerade zu sein. 2. Der Satz “7 ist eine Primzahl und 7 ist ungerade.” sowie der Satz “7 ist eine Primzahl oder 7 ist gerade.” sind wahre Aussagen. Achtung: Auch der Satz “7 ist eine Primzahl oder 7 ist ungerade.” ist eine wahre Aussage, denn das logische oder ist kein ausschließendes entweder oder. Dagegen ist der Satz “7 ist eine Primzahl und 7 ist gerade.” eine falsche Aussage, denn die zweite Aussage ist falsch. √ 3. Der Satz “ 2 ist eine rationale Zahl.” ist – wie man aus der Schulmathematik weiß – eine falsche Aussage, aber es bedarf schon einiger Überlegungen, um das zu zeigen. 4. Der Satz “Jede gerade Zahl größer als 2 ist die Summe zweier Primzahlen” ist eine Aussage, denn entweder gibt es eine gerade Zahl, die sich nicht als Summe zweier Primzahlen darstellen lässt - dann ist die Aussage falsch, oder es gibt keine solche Zahl - dann ist die Aussage wahr. Man nimmt an, dass diese 4 Aussage wahr ist (Goldbachsche Vermutung), konnte das aber bisher noch nicht beweisen. 5. Der Satz “Dieser Satz ist falsch.” ist als Russels Paradoxon bekannt. Durch die spezielle Art des Bezugs auf sich selbst kann er weder wahr noch falsch sein und ist deshalb keine Aussage. 6. Ein typischer Vertreter für eine ganze Klasse von sprachlichen Gebilden, die keine Aussagen sind, ist der Satz “Die natürliche Zahl n ist eine Primzahl.”. Setzen wir für n den Wert 7 ein, so entsteht offensichtlich eine wahre Aussage, dagegen für n = 8 eine falsche Aussage. Sprachliche Gebilde dieses Typs nennt man auch Aussageformen oder Prädikate - wir werden sie später genauer besprechen. Nach dem Extensionalitätsprinzip ergibt sich der Wahrheitswert einer zusammengesetzten Aussage ausschließlich aus den Wahrheitswerten der Ausgangskomponenten. Deshalb werden wir uns zuerst damit beschäftigen, welche Operationen zum Zusammensetzen neuer Aussagen verwendet werden sollen und wie diese Operationen auf Wahrheitswerten wirken. Dazu werden Aussagevariable eingeführt und die Wahrheitwerte von zusammengesetzten Aussagen durch Wahrheitsswerttabellen (kurz Wahrheitstafeln) beschrieben. Die Negation einer Aussage x wird mit ¬x bezeichnet. Diese Operation kehrt den Wahrheitswert von x um, d.h. man kann sie mit ¬0 = 1 und ¬1 = 0 als Funktion auf den Wahrheitswerten beschreiben. Zur Verknüpfung von zwei Aussagen x und y stehen die folgenden Konstrukte zur Verfügung: • die Konjunktion x ∧ y, gesprochen “x und y”; • die Disjunktion x ∨ y, gesprochen “x oder y”; • die Implikation x → y, gesprochen “aus x f olgt y” oder “wenn x, dann y” • die Äquivalenz x ↔ y, gesprochen “x genau dann, wenn y”, • die Antivalenz x ⊕ y, gesprochen “entweder x oder y”. Die dazu korrespondierenden Funktionen auf Wahrheitswerten werden als Operationen (unter Verwendung der gleichen Symbole) in der folgenden Tabelle beschrieben: x 0 0 1 1 y 0 1 0 1 x∧y 0 0 0 1 x∨y 0 1 1 1 x→y 1 1 0 1 x↔y 1 0 0 1 x⊕y 0 1 1 0 Aus der Tabelle kann man ablesen, dass die Konjunktion x ∧ y dann und nur dann wahr ist, wenn beide Aussagen x und y wahr sind. Die Disjunktion x ∨ y ist dann und 5 nur dann wahr, wenn mindestens eine der Aussagen x und y wahr ist. Die Implikation ist dann und nur dann wahr, wenn x falsch oder y wahr ist. Versuchen Sie selbst, die Äquivalenz und die Antivalenz verbal zu beschreiben! Ausdrücke, die durch (wiederholtes) Anwenden der Verknüpfungsoperationen aus Variablen gewonnen werden, nennt man Formeln (oder Terme) der Aussagenlogik. Um eine Formel eindeutig erkennen zu können, müsste man jeweils nach Anwendung einer Verknüpfung die neue Formel durch ein Klammerpaar einschließen. Das führt zur folgenden Definition von Formeln der Aussagenlogik über eine Variablenmenge V ar: 1. Alle Variablen aus der Menge V ar sowie die Symbole 0 und 1 sind Formeln der Aussagenlogik. 2. Ist t eine Formel der Aussagenlogik, dann ist auch (¬t) eine Formel der Aussagenlogik. 3. Sind s und t Formeln der Aussagenlogik, dann sind auch die Ausdrücke (s ∧ t), (s ∨ t), (s → t), (s ↔ t) sowie (s ⊕ t) Formeln der Aussagenlogik. 4. Jede Formel der Aussagenlogik kann aus den Variablen und den Symbolen 0 und 1 durch eine endliche Folge von Anwendungen der Regeln 2) und 3) erzeugt werden. Wir werden zur Abkürzung der Notation (insbesondere an der Tafel) auch häufig die Symbole ⇒ und ⇔ verwenden. Sie drücken auch Implikationen und Äquivalenzen aus, aber nicht auf der Ebene der Formeln, sondern auf der Ebene der Sprache über Aussagen, der sogenannten Metasprache. Der Ausdruck A ⇒ B ist also ein Kürzel für den Satz “Wenn Aussage A wahr ist, dann ist auch Aussage B wahr”. Weil die Formeln durch die Klammersetzung sehr unübersichtlich werden können, vereinbart man einige Regeln zur Vereinfachung der Notation (ähnlich wie die bekannte Regel, dass Punktrechnung vor Strichrechnung geht): • Außenklammern können weggelassen werden. • In der Reihenfolge ¬, ∧, ∨, →, ↔ trennen die hinteren Junktoren stärker als alle vorangehenden, d.h. die Bindungsstärke nimmt in dieser Reihenfolge ab. Alle Klammerungen, die mit dieser Hierarchie der Bindungsstärke in Übereinstimmung stehen, können auch weggelassen werden. Man kann also für ((¬x1 ) ∨ (x2 ∧ x3 )) auch ¬x1 ∨ x2 ∧ x3 schreiben. Dagegen würde das Weglassen der Klammern in der Formel ¬(x ∨ y) eine andere Formel erzeugen. Legt man für alle in einer Formel auftretenden Variablen Wahrheitswerte fest, so induziert eine solche Belegung auch einen Wahrheitswert für die Formel. Man nennt diesen induktiven Prozess auch Auswertung der Formel. Die Ergebnisse der Auswertungen einer Formel unter allen möglichen Belegungen werden in einer Wahrheitstafel zusammengefasst. 6 Definition: Zwei Formeln s und t sind logisch äquivalent, wenn jede beliebige Belegung der Variablen für beide Formeln den gleichen Wahrheitswert induziert. Wir schreiben dafür s ≡ t. Wie das folgende Beispiel zeigt, kann die Äquivalenz von zwei Formeln prinzipiell durch Wahrheitstafeln überprüft werden. Zum Nachweis der Äquivalenz der Formeln s = ¬(x1 ∨ ((x1 ∨ x2 ) ∧ x2 ) und t = ¬x1 ∧ ¬x2 stellt man folgende Tabelle auf: x1 0 0 1 1 x1 0 0 1 1 x2 0 1 0 1 x2 0 1 0 1 x1 ∨ x2 0 1 1 1 ¬x1 1 1 0 0 (x1 ∨ x2 ) ∧ x2 x1 ∨ ((x1 ∨ x2 ) ∧ x2 ) 0 0 1 1 0 1 1 1 ¬x2 1 0 1 0 s 1 0 0 0 t 1 0 0 0 Am identischen Wahrheitswerteverlauf für s und t kann man ablesen, dass die Formeln äquivalent sind. Satz: Für beliebige Formeln s, t, r gelten die folgenden Äquivalenzen: Assoziativität: Kommutativität: Distributivität: Idempotenz: Dominanz: Neutralität: Absorbtion: deMorgansche Regel: Komplementierung: (doppelte Negation) (s ∧ t) ∧ r (s ∨ t) ∨ r s∧t s∨t s ∧ (t ∨ r) s ∨ (t ∧ r) s∧s s∨s s∧0 s∨1 s∧1 s∨0 s ∧ (s ∨ t) s ∨ (s ∧ t) ¬(s ∧ t) ¬(s ∨ t) s ∧ ¬s s ∨ ¬s ¬¬s ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ ≡ s ∧ (t ∧ r) s ∨ (t ∨ r) t∧s t∨s (s ∧ t) ∨ (s ∧ r) (s ∨ t) ∧ (s ∨ r) s s 0 1 s s s s ¬s ∨ ¬t ¬s ∧ ¬t 0 1 s Diese Äquivalenzen können leicht mit Wahrheitstafeln bewiesen werden. Der Wahrheitstafelmethode sind jedoch enge Grenzen gesetzt, wenn die Anzahl n der ver7 wendeten Variablen groß wird, denn die entsprechende Wahrheitstafel hat dann 2n Zeilen. Beispiel: Der Beweis der folgenden Äquivalenz mit Wahrheitstafeln würde 16 Zeilen erfordern. Verwendet man dagegen die Absorbtion und die doppelte Negation zur Ersetzung von Subformeln, so erhält man einen einfachen und kurzen Beweis. x1 ∨ ((x2 ∨ x3 ) ∧ ¬(¬x1 ∧ (¬x1 ∨ x4 ))) ≡ x1 ∨ ((x2 ∨ x3 ) ∧ ¬¬x1 ) ≡ x1 ∨ ((x2 ∨ x3 ) ∧ x1 ) ≡ x1 Die folgende Liste enthält weitere Äquivalenzen, welche zum Beweis der Äquivalenz von komplexen Formeln häufig angewendet werden: (1) (2) (3) (4) (5) (6) s→t s↔t s→t∧r s→t∨r s∧t→r s∨t→r ≡ ≡ ≡ ≡ ≡ ≡ ¬s ∨ t s ∧ t ∨ ¬s ∧ ¬t (s → t) ∧ (s → r) (s → t) ∨ (s → r) (s → r) ∨ (t → r) (s → r) ∧ (t → r) Definition: Eine Formel s wird erfüllbar genannt, wenn es eine Belegung der Variablen von s gibt, die für s den Wert 1 induziert. Die Formel s wird allgemeingültig, logisch gültig oder eine Tautologie genannt, wenn sie für jede Belegung den Wert 1 annimmt. Eine Formel, die unerfüllbar ist, wird Kontradiktion genannt. 1.2 Prädikate und Quantoren Definition: Ein Prädikat ist eine Aussageform, die eine (oder mehrere) Variable enthält, so dass bei Ersetzung der Variablen durch Elemente aus einem gegebenen Individuenbereich U eine Aussage mit eindeutig bestimmtem Wahrheitswert entsteht, z.B. P (x) : “x = 0” oder Q(x) : “x + 0 = x” oder R(x, y) : “x ≤ x + y” für den Bereich der ganzen Zahlen. Die Belegung der Variablen durch konkrete Objekte ermöglicht somit (durch Betrachtung eines Spezialfalls), ein Prädikat in eine Aussage umzuwandeln. So sind für die genannten Beispiele die Aussagen P (0), Q(5) und R(3, 4) wahr, dagegen sind P (3) und R(3, −2) falsche Aussagen. Die sogenannten Quantoren erlauben es, aus diesen Spezialfällen allgemeinere Aussagen abzuleiten: Durch das Hinzufügen der Wendungen “für alle ...”, symbolisch ausgedrückt durch den Allquantor ∀, oder “es gibt ein ...”, symbolisch ausgedrückt durch den Existenzquantor ∃, werden die Variablen in einem Prädikat gebunden. Sind alle Variablen eines Prädikats gebunden, entsteht eine Aussage, also ein Satz, der wahr oder falsch ist. Die Ausssage “∀x ∈ U P (x)” ist wahr, wenn für jedes Element a ∈ U die Aussage P (a) wahr ist. Dagegen ist “∃x ∈ U P (x)” eine wahre Aussage, wenn (mindestens) ein Element a ∈ U existiert, so dass die Aussage P (a) wahr ist. 8 Beispiele: • Die Aussagen “∀x ∈ N x + 0 = x” und “∃x ∈ N x2 = x” sind wahr, aber die Aussagen “∃x ∈ N x + 1 = x” und “∀x ∈ N x2 = x” sind falsch. • Die Aussage “∀x ∈ N ∃y ∈ N y ≤ x” ist wahr, denn für einen beliebigen Wert x = a erfüllt der Wert y = a die Ungleichung y ≤ x. Dagegen ist die Aussage “∀x ∈ N ∃y ∈ N y < x” falsch, denn für x = 0 gibt es keine kleinere natürliche Zahl. • Die falsche Aussage im letzten Punkt ist ein typisches Beispiel dafür, dass der Bereich, über dem die Aussage gemacht wird, von entscheidender Bedeutung sein kann: Wenn man den Bereich N der natürlichen Zahlen gegen die Bereiche Z, Q, R der ganzen, rationalen bzw. reellen Zahlen austauscht, entstehen offensichtlich wahre Aussagen wie “∀x ∈ Z ∃y ∈ Z y < x”. Allgemein ist die Frage, ob eine durch Quantoren gebildete Aussage wahr oder falsch ist, algorithmsch nicht entscheidbar. Die Goldbachsche Vermutung ist ein Beispiel einer Aussage, deren Wahrheitswert nicht bekannt ist. In vielen anderen Fällen kann man die Frage aber durch genauere Überlegungen beantworten. Wie kann man in solchen Fällen sich selbst und andere von der Richtigkeit seiner Überlegungen überzeugen? Der typische Beweis dafür, dass eine quantisierte Aussage wahr ist, erfolgt in drei Stufen. Zuerst wird die Aussage durch Anwendung von äquivalenten Umformungen aus der Aussagenlogik und aus dem nachfolgenden Satz in eine Standardform gebracht, bei der alle auftretenden Quantoren am Anfang stehen (man nennt dies eine Pränexform). Danach erfolgt die Belegung der Variablen in Form eines Spiels zwischen zwei Parteien: Einem Beweiser und seinem Gegenspieler, der nachzuweisen versucht, dass die Ausage falsch ist. Dabei darf der Gegenspieler bei jedem Allquantor die entsprechende Variable x durch ein beliebiges Objekt a aus dem Individuenbereich belegen. Sollte die Aussage doch falsch sein (also nicht für alle Objekte gelten), würde der Gegenspieler gerade ein solche Objekt wählen. Ist die Aussage wahr, dann ist es (für den Beweiser) egal, welches Objekt a der Gegenspieler gewählt hat. Der Beweiser ist bei allen Existenzquantoren am Zuge und muss ein passendes Objekt (in Abhängigkeit von den vorher vom Gegenspieler gwählten Objekten) finden, für welches die nachfolgende Ausssage wahr ist. Nachdem alle Variablen belegt sind, haben wir eine (variablenfreie) Aussage. Im letzten Schritt muss diese Aussage verifiziert (als wahr bewiesen) werden. Beginnen wir mit den Umformungsregeln. Satz: Für beliebige Prädikate P (x), Q(x) und R(x, y) gelten die folgenden Äquivalenzen: (1) ¬∀x P (x) (2) ¬∃x P (x) (3) ∀x P (x) ∧ ∀x Q(x) (4) ∃x P (x) ∨ ∃x Q(x) (5) ∀x ∀y R(x, y) (6) ∃x ∃y R(x, y) 9 ≡ ≡ ≡ ≡ ≡ ≡ ∃x¬P (x) ∀x¬P (x) ∀x (P (x) ∧ Q(x)) ∃x (P (x) ∨ Q(x)) ∀y ∀x R(x, y) ∃y ∃x R(x, y) Achtung: Die folgenden Formelpaare sind im allgemeinen nicht äquivalent: ∀x P (x) ∨ ∀x Q(x) ∃x P (x) ∧ ∃x Q(x) ∀x (∃y R(x, y)) und und und ∀x (P (x) ∨ Q(x)) ∃x (P (x) ∧ Q(x)) ∃y (∀x R(x, y)) Konkrete Gegenbeispiele für das erste und zweite Paar erhält man für den Bereich der ganzen Zahlen, wenn P (x) (bzw. Q(x)) aussagt, dass x eine gerade (bzw. ungerade) Zahl ist. Für das dritte Paar kann man das Prädikat R(x, y) :“x ≤ y” über den reellen Zahlen verwenden. Wir wollen die drei Stufen eines solchen Beweises an einem einfachen Beispiel demonstrieren und die folgende Aussage für den Bereich der rationalen Zahlen beweisen. Satz: Für beliebige x, y ∈ Q mit x < y gibt es eine von x und y verschiedene Zahl z ∈ Q, die zwischen x und y liegt. Die Beweisidee liegt klar auf der Hand: man setzt für z den Mittelwert aus x und y und kann dann die Behauptung nachrechnen. Wir stellen die Aussage als Formel mit Quantoren dar. Der Bereich Q ist durch Verabredung festgelegt und wird nicht explizit genannt: ∀x ∀y [(x < y) → ∃z (x < z ∧ z < y)] In diesem Fall könnte man die erste Stufe überspringen und gleich mit dem Spiel der Festlegung der Werte beginnen, bei dem der Gegner x und y vorgibt und wir im Fall setzen. Um das dreistufige Verfahren formal korrekt x < y (als Beweiser) z = x+y 2 umzusetzen, würden wir aber zuerst die Implikation hinter den beiden Allquatoren äquivalent umformen: (x < y) → ∃z (x < z ∧ z < y) ⇔ ¬(x < y) ∨ ∃z (x < z ∧ z < y) ⇔ ∃z (x ≥ y) ∨ ∃z (x < z ∧ z < y) ⇔ ∃z (x ≥ y ∨ (x < z ∧ z < y)) Im ersten Schritt wurde die Regel p → q ≡ ¬p ∨ q angewendet. Im zweiten Schritt wurde die Negation von x < y in x ≥ y umgewandelt und der Existenzquantor ∃z davorgesetzt - das kann man machen, weil x ≥ y in keiner Weise von z abhängt. Im letzten Schritt wurde die vierte Regel aus obigem Satz verwendet. Jetzt liegt die Aussage in Pränexform vor: ∀x ∀y ∃z [x ≥ y ∨ (x < z ∧ z < y)]. Das Spiel beginnt mit der Vorgabe von zwei Werten x = a und y = b durch den Gegenspieler. Der Beweiser setzt z = (a + b)/2. Nun erfolgt die Verifikation der Aussage a ≥ b ∨ (a < (a + b)/2 ∧ (a + b)/2 < y) durch Betrachtung von zwei Fällen: Entweder es gilt a ≥ b, dann wird die Aussage durch den linken Term der Disjunktion wahr oder es gilt a < b. In diesem Fall müssen beide Ungleichungen auf der rechten Seite der Disjunktion erfüllt sein, aber beides folgt über den Zwischenschritt a/2 < b/2 jeweils kombiniert mit den Ungleichungen a/2 ≤ a/2 bzw. b/2 ≤ b/2. 10 Bleibt die Frage, warum man diese Argumentation nicht für den Bereich N der natürlichen Zahlen wiederholen kann. Die Antwort ist wieder nicht schwer: Der Ausdruck a+b führt in vielen Fällen aus dem Bereich N heraus. Das ist aber noch 2 kein Beweis dafür, dass die Aussagge über diesem Bereich falsch ist. Um das zu zeigen, beweist man, dass die negierte Aussage wahr ist. Wir bilden die Negation mit Hilfe der Regeln (1) und (2) aus obigem Satz und der deMorganschen Regel: ∃x ∃y ∀z [(x < y) ∧ (x ≥ z ∨ z ≥ y)]. Da die Aussage bereits in Pränexform vorliegt, kann das Spiel der Variablenbelegung beginnen. Wir setzen als Beweiser x = 0 und y = 1. Der Gegenspieler belegt z mit einem Wert c. Wir müssen jetzt die Aussage 0 < 1 ∧ (0 ≥ c ∨ c ≥ 1) verifizieren. Offensichtlich ist 0 < 1 wahr und wir müssen nur noch zeigen, dass mindestens eine der Ungleichungen aus (0 ≥ c ∨ c ≥ 1) wahr ist. Wenn aber die erste Ungleichung nicht erfüllt ist, muss c eine natürliche Zahl größer als 0, also mindestens 1 sein und damit ist die zweite Ungleichung erfüllt. 1.3 Beweistechniken In diesem Abschnitt geht es darum, einige grundlegende Beweisstrategien kennenzulernen. Da das prinzipielle Verständnis im Mittelpunkt stehen soll, sind die in den Beispielen bewiesenen Aussagen sehr einfach gewählt. Grundsätzlich muss man sich bei Beweisen auch immer danach richten, für welchen Leser der Beweis aufgeschrieben wird. Bei einem Beweis für Experten kann man mehr Vorwissen voraussetzen und deshalb auch mehrere Gedanken zu einem Schritt zusammenfassen. Dagegen sollte bei Beweisen für Nicht-Experten möglichst jeder Schritt elementar und einfach nachvollziehbar sein. Gerade bei den scheinbaren Selbstverständlichkeiten wird ein weiteres Problem deutlich: Bevor man an einen Beweis geht, muss man sich klarmachen, was man schon als Basiswissen voraussetzen kann, und was man noch beweisen muss. Oft ist als erster hilfreicher Schritt eine geeignete Formalisierung der Aussage notwendig. Viele mathematische Sätze haben die Form einer Implikation, sie sagen, dass aus einer bestimmten Voraussetzung in Form einer Aussage p eine Behauptung in Form einer Aussage q folgt. Wir wollen uns zuerst mit den verschiedenen Techniken zum Beweis von solchen Implikationen beschäftigen. Basis für die Gültigkeit solcher Beweise sind einige einfache Äquivalenzen und Implikationen, die man leicht mit der Wahrheitstafelmethode nachweisen kann. Direkte Beweise Der direkte Beweis beruht darauf, die Implikation p → q in mehrere elementare Teilschritte zu zerlegen, wobei man die folgende Tautologie nutzt: ((p → r) ∧ (r → q)) → (p → q). Natürlich kann man die zwei Teilschritte auf der linken Seite weiter unterteilen, bis man bei einer Kette elementarer Implikationen angekommen ist. Wie das folgende 11 Beispiel zeigt, bewegt man sich bei der Begründung der Elementarschritte in einem System, das sich auf einigen Axiomen (Grundannahmen) aufbaut und in dem man auf bereits bewiesene Tatsachen zurückgreifen kann. Satz: Ist eine natürliche Zahl n durch 6 teilbar, so ist ihr Quadrat durch 9 teilbar. Beweis: Die Idee ist offensichtlich – ist n durch 6 teilbar, so kann man den Faktor 6 und damit auch den Faktor 3 von n abspalten. Folglich kann man den Faktor 3 mindestens zweimal von n2 abspalten. Wenn wir diese Idee etwas formaler umsetzen wollen, müssen wir mit der Definition von Teilbarkeit beginnen: n ∈ N ist durch k ∈ N teilbar, falls ein l ∈ N existiert, so dass n = k · l. Die Tatsache, dass n durch k teilbar ist (also k ein Teiler von n ist) wird symbolisch durch k | n ausgedrückt. Damit kann man die Voraussetzung des Satzes durch eine einfache Formel ausdrücken und die folgende Beweiskette bilden: 6|n Hypothese ∃l ∈ N n=6·l Teilbarkeitsdefinition ∃l ∈ N n = (3 · 2) · l 6=3·2 2 ∃l ∈ N n = ((3 · 2) · l)((3 · 2) · l) Quadrieren ∃l ∈ N n2 = (3 · 3)((2 · 2) · (l · l)) Muliplikation ist assoziativ und kommutativ ∃l ∈ N n2 = 9 · (4 · l2 ) 3 · 3 = 9 und 2 · 2 = 4 0 2 0 ∃l ∈ N n =9·l l0 = 4l2 2 9|n Teilbarkeitsdefinition Genau betrachtet haben wir beim Schritt von der vierten zur fünften Zeile sogar mehrere Elementarschritte zu einem Schritt zusammengefasst. Indirekte Beweise Manchmal ist es schwierig, den Beweis direkt zu führen. Als Alternativen bieten sich indirekte Beweise durch Kontraposition oder in der Form von Widerspruchs-Beweisen an. Beim Beweis durch Kontraposition wird anstelle von p → q die logisch äquivalente Aussage ¬q → ¬p bewiesen. Beim Widerspruchs-Beweis wird an Stelle von p → q die logisch äquivalente Aussage (p ∧ ¬q) → 0 bewiesen. Wir demonstrieren beide Beweisverfahren an einfachen Beispielen. Satz: Für jede natürliche Zahl n gilt: Ist n2 ungerade, so ist auch n ungerade. Beweis durch Kontraposition: Da die Negation von “ungerade sein” die Eigenschaft “gerade sein” ist, lautet die Kontraposition “Ist n gerade, so ist auch n2 gerade”. und dafür gibt es einen einfachen direkten Beweis: Ist n gerade, so gibt es eine ganze Zahl k mit n = 2k. Folglich ist n2 = (2k)2 = 2·(2k 2 ) und somit ist n2 gerade. √ √ Satz: Für jede natürliche Zahl n gilt: Ist n keine ganze Zahl, dann ist n auch nicht rational. √ Beweis durch Widerspruch: Man geht von der Annahme aus, dass n keine natürliche Zahl, aber eine rationale Zahl ist, und muss daraus einen Widerspruch 12 ableiten. Sei n = pk11 · . . . · pkl l die eindeutige Primzahlzerlegung von n, wobei p1 , . . . , pl die paarweise verschiedenen Primfaktoren von n sind und k1 , . . . , kl die Vielfachheiten √ dieser Primfaktoren. Wären alle Werte k1 , . . . , kl gerade Zahlen, dann wäre n eine k /2 k /2 ganze Zahl, nämlich p11 ·. . .·pl l . Nach unserer Annahme muss also mindestens einer dieser Werte ungerade sein, o.B.d.A. (d.h. ohne Beschränkung der Allgemeinheit) sei das k1 . √ Darüber hinaus soll n rational, also als Quotient aus zwei natürlichen Zahlen m und m 2 und n · m02 = m2 . Kombiniert man diese m0 darstellbar sein. Damit ist n = m 0 i0 i i0 0 Gleichung mit den Primzahlzerlegungen von m = q1i1 · . . . · qjj und m0 = r11 · . . . · rjj0 , ergibt sich: 2i0 0 2i0 2i pk11 · . . . · pkl l · r1 1 · . . . · rj 0 j = q12i1 · . . . · qj j . Folglich tritt der Primfaktor p1 auf der linken Seite in ungerader Vielfachheit auf und auf der rechten Seite in gerader Vielfachheit (unabhängig davon, ob p1 überhaupt in m oder m0 vorkommt). Das ist aber ein Widerspruch zur eindeutigen Primzahlzerlegung von natürlichen Zahlen. Beweise durch Fallunterscheidung Häufig ist es notwendig, verschiedene Fälle zu analysieren. Das dabei verwendete logische Prinzip ist Äquivalenz der Aussagen p → q und (p ∧ r → q) ∧ (p ∧ ¬r → q), wir unterscheiden also die Fälle r und ¬r. Beispiel: Wir beweisen durch Fallunterscheidung, daß für jede Primzahl p ≥ 5 die Zahl p2 − 1 durch 24 teilbar ist. Zuerst formen wir p2 − 1 in (p + 1)(p − 1) um und beobachten, dass von drei aufeinanderfolgenden ganzen Zahlen genau eine durch 3 teilbar ist. Da p > 3 und Primzahl ist, muss p − 1 oder p + 1 und damit auch p2 − 1 durch 3 teilbar sein. Bleibt zu zeigen, dass p2 − 1 durch 8 teilbar ist. Da p ungerade ist, sind sowohl p − 1 als auch p + 1 gerade und damit ist p2 − 1 durch 4 teilbar. Den noch fehlenden Faktor 2 kann man durch Fallunterscheidung nachweisen: 1. Fall: Ist p − 1 durch 4 teilbar, so ist p − 1 = 4k und p + 1 = 4k + 2 = 2(2k + 1) und damit p2 − 1 = 8k(2k + 1) für eine natürliche Zahl k. 2. Fall: Ist p − 1 nicht durch 4 teilbar, so hat es die Form 4m + 2 = 2(2m + 1) für eine natürliche Zahl m und folglich ist p + 1 = 4m + 4 = 4(m + 1). Damit erhalten wir p2 − 1 = 8(2m + 1)(m + 1). 13 2 2.1 Grundbegriffe der Mengenlehre Mengen und Operationen auf Mengen Moderne Mengentheorie wird in Form eines axiomatischen Kalküls betrieben. Dieser Ansatz hat aber den Nachteil, daß einfache inhaltliche Fragen oft durch einen technisch komplizierten Apparat verdeckt werden. Wir werden uns deshalb auf die Entwicklung einer “naiven” Mengenlehre beschränken, die als sprachliches Werkzeug für die nachfolgenden Teile der Vorlesung völlig ausreichend ist. Nach Georg Cantor ist eine Menge “eine Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche die Elemente der Menge genannt werden) zu einem Ganzen”. Der Sachverhalt, dass ein Objekt a Element einer Menge A ist, wird durch a ∈ A dargestellt, anderenfalls schreibt man a 6∈ A. Zwei Mengen A und B sind gleich, wenn sie die gleichen Elemente besitzen, d.h. wenn für alle a gilt: a ∈ A dann und nur dann, wenn a ∈ B. Darstellungen von Mengen a) Mengen können durch Auflistung ihrer Elemente in geschweiften Klammern dargestellt werden. Das betrifft insbesondere endliche Mengen, wie z.B. A = {2, 3, 5, 7} oder B = {rot, gelb, blau}. Dabei ist die Reihenfolge der Elemente in der Auflistung ohne Bedeutung. Auch die Mehrfachnennung von Elementen ist erlaubt (sollte aber zur Vermeidung von Missverständnissen möglichst vermieden werden), sie hat aber nur Einfluss auf die Darstellung der Menge und nicht auf die Menge selbst, z.B. {2, 3, 5, 7} = {5, 7, 3, 2, 2, 5, 2}. Wir vereinbaren, dass auch unendliche Mengen durch Auflistung dargestellt werden können, sofern dies unmissverständlich ist, wie z.B. {0, 1, 2, 3, . . .} für die natürlichen Zahlen oder {2, 4, 6, 8, . . .} für die positiven, geraden Zahlen. b) Die in der Mathematik gebräuchlichste Darstellungsform von Mengen beruht auf dem sogenannten Abstraktionsprinzip, nach dem man Mengen – im Sinne der Cantorschen Definition – durch wohlbestimmte Eigenschaften definieren kann. Dazu werden Prädikate P (x) über einem festgelegten Individuenbereich für x benutzt. Dann wird mit {x | P (x)} oder (wenn der Bereich B explizit genannt werden soll) mit {x ∈ B | P (x)} die Menge bezeichnet, die sich aus allen Individuen aus dem Bereich zusammensetzt, für die P (x) wahr ist. Man bezeichnet diese Darstellungsart von Mengen nach den Mathematikern Ernst Zermelo und Abraham Fraenkel auch als ZF-Notation. c) Zur Veranschaulichung können Mengen durch sogenannte Venn–Diagramme als Kreisscheiben oder andere Flächen in der Ebene dargestellt werden. Oft ist es sinnvoll, den zu betrachtenden Individuenbereich generell festzulegen, z.B. wenn man nur Mengen von natürlichen Zahlen betrachten will. Ein solcher Bereich wird Universum genannt und allgemein mit U bezeichnet. Es ist klar, dass Aussageformen über U immer Teilmengen von U definieren. Im folgenden Venn-Diagramm sind zwei Mengen A und B als Kreisflächen in dem durch das Rechteck symbolisierten 14 Universum U dargestellt: 111111111111 000000000000 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 Bemerkung: In manchen Anwendungen (z.B. für die Buchstaben in einem Wort) benötigt man auch ein Konstrukt, in dem Elemente auch mehrfach auftreten können. In diesem Fall sprechen wir von einer Multimenge. Obwohl sich diese konzeptionell wesentlich von einer Menge unterscheidet, wird in der Regel die gleiche Notation verwendet, was natürlich zu Missverständnissen führen kann. Deshalb werden wir bei Verwendung von Multimengen diesen Begriff explizit nennen, anderenfalls ist immer eine Menge gemeint. Demnach sind {b, a, b, b} und {a, b} (ohne Zusatz) zwei identische Mengen, die Multimengen {b, a, b, b} und {a, b} unterscheiden sich, aber die Multimengen {b, a, b, b} und {a, b, b, b} sind wiederum identisch. Definition: Eine Menge A ist Teilmenge (oder Untermenge) einer Menge B (Schreibweise A ⊆ B), wenn aus a ∈ A auch a ∈ B folgt. Die Teilmengenrelation entspricht also einer Implikation der definierenden Prädikate. Deshalb kann man aus den Eigenschaften der logischen Implikation zwei elementare Eigenschaften der Teilmengenrelation ableiten: • Die Mengen A und B sind gleich genau dann, wenn A ⊆ B und B ⊆ A. • Ist A eine Teilmenge von B und B eine Teilmenge von C, dann ist auch A eine Teilmenge von C. Die folgende Definition enthält eine Zusammenfassung der wichtigsten Mengenoperationen. Man beachte insbesondere den Zusammenhang zu den entsprechenden logischen Operationen. Definition: • Zwei Mengen A und B sind disjunkt, wenn sie keine gemeinsamen Elemente besitzen, d.h wenn aus a ∈ A folgt a 6∈ B. • Die Vereinigung A ∪ B der Mengen A und B besteht aus allen Objekten, die Elemente von A oder von B sind, dh. A ∪ B = {x | x ∈ A ∨ x ∈ B}. • Der Durchschnitt A ∩ B der Mengen A und B besteht aus allen Objekten, die Elemente von A und von B sind, dh. A ∩ B = {x | x ∈ A ∧ x ∈ B}. 15 • Die Differenz A \ B der Mengen A und B besteht aus allen Objekten, die Elemente von A, aber nicht von B sind, dh. A \ B = {x | x ∈ A ∧ x 6∈ B}. • Die Vereingung der Mengendifferenzen A \ B und B \ A wird die symmetrische Differenz aus A und B genannt und mit A ⊕ B oder auch mit A ÷ B bezeichnet. • Die Menge, die kein Element enthält, wird leere Menge genannt und mit ∅ bezeichnet. • Ist A Teilmenge eines festgelegten Universums U , dann ist das Komplement von A definiert als U \ A. Es wird mit A bezeichnet. Der Zusammenhang zwischen Teilmengenbeziehungen sowie Operationen auf Mengen und den entsprechenden logischen Operationen wird noch einmal in der folgenden Tabelle zusammengefasst: Mengenlehre Logik Gleichheit A=B x∈A↔x∈B Inklusion A⊆B x∈A→x∈B Vereinigung A∪B x∈A∨x∈B Durchschnitt A∩B x∈A→x∈B Komplement A=B x ∈ A ↔ ¬(x ∈ B) symmetr. Differenz A ⊕ B = A ÷ B x∈A⊕x∈B Äquivalenz Implikation Disjunktion Konjunktion Negation Antivalenz Damit können auch - wie im nachfolgenden Satz formuliert - die bekannten Gesetze der Aussagenlogik in die Mengenlehre übertragen werden. Satz: Folgende Identitäten gelten für alle Untermengen A, B, C eines Universums U : Kommutativität: Assoziativität: Distributivität: Idempotenz: Dominanz: Identität: Absorbtion: De Morgan’sche Regel: Komplementierung: A∪B =B∪A A ∪ (B ∪ C) und A ∩ (B ∩ C) A ∩ (B ∪ C) und A ∪ (B ∩ C) A∪A=A A∪U =U A∪∅=A A ∪ (A ∩ B) = A A∪B =A∩B A∪A=U (A) = A und = = = = und und und und und und und A∩B =B∩A (A ∪ B) ∪ C (A ∩ B) ∩ C (A ∩ B) ∪ (A ∩ C) (A ∪ B) ∩ (A ∪ C) A∩A=A A∩∅=∅ A∩U =A A ∩ (A ∪ B) = A A ∩ B = Ā ∪ B̄ A∩A=∅ A\B =A∩B Auf Grund der Assoziativität kann man bei der Vereinigung (bzw. beim Durchschnitt) von n Mengen A1 , A2 , . . . , An auf Klammerungen verzichten und die folgende 16 Schreibweise nutzen: S A1 ∪ A2 ∪ . . . ∪ An = Tni=1 Ai n A1 ∩ A2 ∩ . . . ∩ An = i=1 Ai Die Bildung einer solchen Vereinigung bzw. eines solchen Duchschnitts erfolgt somit (in Analogie zu endlichen Summen oder Produkten von n Zahlen) durch die (n − 1)-fache Anwendung der einfachen Vereinigungs- bzw. Durchschnittsoperation. Im Gegensatz zu den Zahlen kann man aber für Mengen auch uneingeschränkt unendliche Vereinigungen und Durchschnitte bilden. Definition: Ist I eine beliebige Menge und ist für jedes i ∈ I eine Menge Ai gegeben, dann nennen wir die Multimenge dieser Mengen eine Mengenfamilie und bezeichnen sie durch {Ai | i ∈ I}. Die Vereinigung (bzw. der Durchschnitt) dieser Mengenfamilie ist definiert durch S i∈I Ai = {x | es gibt ein i ∈ I, so dass x ∈ Ai } T i∈I Ai = {x | für alle i ∈ I gilt x ∈ Ai } Beispiel: Sei I = {2, 3, 4, . . .} die Menge der natürlichen Zahlen, die größer oder gleich 2 sind und sei Ai = {n ∈ N | i|n} die Menge der durch i teilbaren Zahlen für jedes i ∈ I. Dann ergibt sich [ \ Ai = {0, 2, 3, . . .} = N \ {1} und Ai = {0}. i∈I i∈I Zur Begründung betrachten wir jeweils drei Fälle. Da die 0 durch jede andere Zahl teilbar ist, liegt sie in jedem Ai und somit auch in der Vereinigung und im Durchschnitt. Die 1 ist durch keine andere Zahl teilbar, gehört also zu keinem Ai und liegt somit weder im Durchschnitt noch in der Vereingung. Da für jedes i ∈ I gilt i ∈ Ai und i 6∈ A2i gilt, gehört i zur Vereinigung, aber nicht zum Durchschnitt. Bemerkung: Für die Vereinigung und den Durchschnitt ist es unerheblich, ob wir die Mengenfamilie als Multimenge oder als Menge auffassen, für andere Betrachtungen könnte dieser Unterschied aber durchaus bedeutsam sein. Definition: Eine Familie {Ai | i ∈ I} von nichtleeren Mengen wird Partition oder Zerlegung einer Menge A genannt, falls S 1. A = i∈I Ai 2. Für beliebige, voneinander verschiedene i, j ∈ I gilt Ai ∩ Aj = ∅. Beispiele: {{a, c}, {b, e, f }, {d}} ist eine Partition der Menge {a, b, c, d, e, f } in drei Teilmengen. Die Menge der geraden und die Menge der ungeraden Zahlen bilden eine Partition der Menge N in zwei Teilmengen. Definition: Ist A eine Menge, dann wird die Menge aller Untermengen von A die Potenzmenge von A genannt und mit P(A) bezeichnet. Satz: Ist A eine endliche, n-elementige Menge, dann hat die Potenzmenge P(A) genau 2n Elemente. 17 2.2 Kartesisches Produkt und Relationen Definition: Ein geordnetes Paar (a, b) ist eine (den Objekten a und b zugeordnetes) Konstrukt mit der folgenden Eigenschaft: (a, b) = (a0 , b0 ) genau dann, wenn a = a0 und b = b0 . Definition: Das kartesische Produkt A × B von zwei Mengen A und B ist definiert als die Menge aller geordneten Paare (a, b) mit a ∈ A und b ∈ B, als Formel: A × B = { (a, b) | a ∈ A ∧ b ∈ B } Beispiel: {a, b, c} × {1, 2} = {(a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2)}. Definition: Eine Untermenge R eines kartesischen Produkts A×B wird binäre Relation oder kurz Relation zwischen A und B genannt. Im Fall (a, b) ∈ R sagt man, dass a in Relation zu b steht. Für (a, b) ∈ R kann auch a R b geschrieben werden. Diese alternative Notation wird vor allem dann verwendet, wenn der Relationsbezeichner kein Buchstabe sondern ein Relationssymbol wie <, ≤, ≡ oder ∼ ist. Eine Untermenge R eines kartesischen Produkts der Form A × A wird (binäre) Relation auf A (oder über A) genannt. Die ersten drei Relationen in den folgenden Beispielen sind generisch, d.h. man kann sie über beliebigen Grundmengen betrachten: • ∅ ⊆ A × B wird leere Relation genannt. • A × B wird Allrelation zwischen A und B genannt. • Die Menge {(a, a) | a ∈ A} wird die identische Relation über A genannt und kurz mit IdA bezeichnet. • Die Teilbarkeitsrelation | kann man als Relation über den natürlichen Zahlen (aber auch über den ganzen Zahlen) betrachten. Wie bereits besprochen, ist diese Relation wie folgt definiert: ∀ a, b ∈ N a|b ⇐⇒ ∃c ∈ N b = a · c • Über den natürlichen Zahlen N, den ganzen Zahlen Z, den rationalen Zahlen Q und den reellen Zahlen R kennen wir eine Reihe von Vergleichsrelationen, nämlich <, ≤, ≥, >. • Ist A die Menge aller Informatikstudenten an der FU Berlin und B die Menge aller Pflichtmodule im Informatikstudium, dann ist R = {(a, b) ∈ A × B | Student a hat das Modul b abgeschlossen } eine binäre Relation. • Jede Abbildung f : A −→ B kann auch als binäre Relation f = {(a, b) ∈ A × B | a ∈ A ∧ b = f (a)} gesehen werden. 18 Zur Darstellung von Relationen sind verschiedene Methoden gebräuchlich: • Darstellungen in Tabellenform, bei denen für jedes a ∈ A eine Spalte und für jedes b ∈ B eine Zeile angelegt wird. Die Zelle in der Spalte von a und der Zeile von b wird mit einer 1 gefüllt, wenn a R b gilt, und sonst mit einer 0. (Verwendung in relationalen Datenbanken); • Anschauliche Darstellungen durch Diagramme in einem Rechteck; • Bipartite Graphen, bei denen die Elemente aus A und B als Knoten getrennt auf zwei Seiten gezeichnet werden, wobei zwei Elemente, die zueinander in Relation stehen, durch eine Kante (Verbindungsstrecke) verbunden werden. • Für Relationen über einer Menge A kann man gerichtete Graphen verwenden. Dabei wird jedes Element von A als ein Knoten und jedes Paar (a, b) ∈ R durch eine von a nach b gerichtete Kante gezeichnet. Relationsoperationen 1. Sind R und R0 Relationen zwischen A und B, dann sind auch die Vereinigung R ∪ R0 , der Durchschnitt R ∩ R0 sowie das Komplement R = (A × B) \ R Relationen zwischen A und B. 2. Die zu einer Relation R ⊆ A × B inverse Relation R−1 ⊆ B × A ist definiert durch R−1 = {(b, a) ∈ B × A | (a, b) ∈ R}. 3. Die Verkettung oder Komposition R ◦ S von zwei Relationen R ⊆ A × B und S ⊆ B × C ist definiert durch {(a, c) ∈ A × C | es gibt ein b ∈ B mit (a, b) ∈ R und (b, c) ∈ S}. Beispiele: 1) Wir betrachten die Vergleichsrelationen <, ≤, ≥ und = über den natürlichen Zahlen N. Offensichtlich ist die Vereinigung der Relationen < und = die Relation ≤. Das Komplement der Relation < ist die Relation ≥. Der Durchschnitt der Relationen ≤ und ≥ ist die identische Relation IdN . Die zu ≤ inverse Relation ist ≥, die identische Relation ist zu sich selbst invers. 2) Sei M die Menge aller Menschen und R ⊆ M × M “Elternrelation”, also a R b, falls a Vater oder Mutter von b ist. Dann kann man die inverse Relation R−1 sowie die Verkettungen R ◦ R, R ◦ R−1 und R−1 ◦ R wie folgt charakterisieren: • a R−1 b, falls a Kind von b ist, • a R ◦ R b, falls a Großvater oder Großmutter von b ist, • a R ◦ R−1 b, falls a und b ein gemeinsames Kind haben oder falls a = b und a hat ein Kind, 19 • a R−1 ◦ R b, falls a = b oder falls a und b Geschwister oder Halbgeschwister sind. Eigenschaften von Relationen über Mengen Definition: Sei R eine Relation über A. • R ist reflexiv, falls für jedes a ∈ A gilt, dass a R a, d.h. IdA ⊆ R. • R ist symmetrisch, falls aus a R b folgt, dass b R a , d.h. R−1 ⊆ R. • R ist transitiv, falls aus a R b und b R c folgt, dass a R c, d.h. R ◦ R ⊆ R. • R ist antisymmetrisch, falls aus a R b und b R a die Gleichheit von a und b folgt, d.h. R ∩ R−1 ⊆ IdA . • R ist asymmetrisch, falls aus a R b folgt, dass (b, a) 6∈ R, d.h. R ∩ R−1 = ∅. Beispiele: 1) Die Vergleichsrelationen ≤ und ≥ sind über N, Z, Q und R reflexiv, transitiv und antisymmetrisch. Die Relationen < und > sind nicht reflexiv, aber transitiv, antisymmetrisch und asymmetrisch. 2) Die oben definierte Teilbarkeitsrelation ist reflexiv und transitiv über N und über Z. Sie ist antisymmetrisch über N, aber als Relation über Z ist sie nicht antisymmetrisch, denn 1| − 1 und −1|1, aber 1 6= −1. 2.3 Äquivalenzrelationen Definition: Eine Relation über einer Menge A wird Äquivalenzrelation genannt, wenn sie reflexiv, symmetrisch und transitiv ist. Beispiele: • Sei N die Menge der natürlichen Zahlen und R definiert durch a R b, genau dann wenn a und b beim Teilen durch 5 den gleichen Rest haben. Dann ist R eine Äquivalenzrelationüber N. • Die Relation ≡ der logischen Äquivalenz über der Menge der Booleschen Formeln ist eine Äquivalenzrelation. • Sei M die Menge aller Menschen und R die Relation, die zwei Menschen in Beziehung setzt, wenn sie denselben Vater und dieselbe Mutter haben. Diese Geschwisterrelation ist offensichtlich eine Äquivalenzrelation. Die HalbgeschwisterRelation ist im Allgemeinen nicht transitiv und somit keine Äquivalenzrelation. 20 Definition: Ist R ⊆ A × A eine Äquivalenzrelation und ist a ∈ A, dann nennt man die Menge {x ∈ A | xRa} die Äquivalenzklasse von a (bezüglich R). Sie wird mit [a]R oder auch mit a/R bezeichnet. Ein Element einer Äquivalenzklasse wird Repräsentant dieser Klasse genannt. Lemma: Sei R eine Äquivalenzrelation, dann sind zwei Äquivalenzklassen [a]R und [b]R entweder gleich oder disjunkt. Sie sind genau dann gleich, wenn a R b gilt. Beweis: Wir verifizieren dazu die folgende Schlusskette: [a]R ∩ [b]R 6= ∅ (1) =⇒ aRb (2) =⇒ [a]R = [b]R (1) Sei c ∈ [a]R ∩ [b]R , dann gilt cRa und cRb, wegen der Symmetrie auch aRc und wegen der Transitivität auch aRb. (2) Sei d ein beliebiges Element aus [a]R und gelte aRb. Dann gilt dRa und wegen der Transitivität auch dRb. Damit liegt d in der Äquivalenzklasse[b]R und folglich ist [a]R ⊆ [b]R . Wegen der Symmetrie kann man aber auch die Rollen von a und b vertauschen und somit [b]R ⊆ [a]R ableiten, woraus letztlich die Gleichheit der beiden Äquivalenzklassen folgt. Die erste Aussage des folgenden Satzes kann als einfache Schlussfolgerung aus dem Lemma abgeleitet werden. Satz: Ist R ⊆ A × A eine Äquivalenzrelation, dann bildet die Menge aller Äquivalenzklassen eine Partition von A. Umgekehrt, ist eine Partition {Ai | i ∈ I} von A gegeben, dann ist die durch a R b ⇐⇒ ∃i ∈ I a ∈ Ai ∧ b ∈ Ai definierte Relation R eine Äquivalenzrelation. Definition: Sei R ⊆ A × A eine Äquivalenzrelation. Eine Untermenge von A wird Repräsentantensystem von R genannt, wenn sie aus jeder Äquivalenzklasse genau ein Element enthält. Beispiel: Wir verallgemeinern das Beispiel der Relation, die durch gleiche Reste beim Teilen durch 5 definiert ist, indem wir an Stelle der 5 einen beliebigen ganzzahligen Teiler d ≥ 2 betrachten. Man nennt zwei Zahlen a, b ∈ N kongruent modulo d, wenn sie beim Teilen durch d den gleichen Rest haben (Kongruenzrelationen sind spezielle Äquivalenzrelationen, die verträglich mit bestimmten Operationen sind, in diesem Fall mit Addition und Multiplikation). Zur Notation verwendet man a mod d für den Rest beim Teilen von a durch d und den Ausdruck a ≡ b ( mod d) für die Tatsache, dass a und b beim Teilen durch d den gleichen Rest haben, also dass a mod d und b mod d gleich sind. Bei der Kongruenzrelation modulo d werden die einzelnen Äquivalenzklassenjeweils durch die Zahlen mit gleichem Rest gebildet, was im Beispiel d = 5 zu der folgenden Partition von N führt: {{0, 5, 10 . . .}, {1, 6, 11, . . .}, {2, 7, 12, . . .}, {3, 8, 13, . . .}, {4, 9, 14, . . .}} 21 Offensichtlich bilden die Reste {0,1,2,3,4} ein Repräsentantensystem (das sogenannte Standard–Repräsentantensystem), aber auch die Menge {3, 10, 7, 21, 9} ist ein Repräsentantensystem. Satz: Die identische Relation IdA und die Allrelation A × A sind Äquivalenzrelationen. Sind R und R0 Äquivalenzrelationen in A, dann ist auch R ∩ R0 eine Äquivalenzrelation in A. Achtung: Die letzte Aussage gilt im Allgemeinen nicht für Vereinigungen. Als Gegenbeispiel kann man die Kongruenzrelationen modulo 2 und modulo 3 betrachten. Offensichtlich ist das Paar (1, 6) nicht in der Vereinigung, denn 1 und 6 haben sowohl beim Teilen durch 2 als auch beim Teilen durch 3 verschiedene Reste. Andererseits sind die Paare (1, 4) - gleicher Rest beim Teilen durch 3 - und (4, 6) - gleicher Rest beim Teilen durch 2 - in der Relationsvereinigung. Folglich ist diese Vereinigung nicht transitiv. Allgemein kann jede Relation R ⊆ A × A durch die folgenden 3 Schritte zu einer Äquivalenzrelation erweitert werden: 1) reflexiver Abschluss: Rr = R ∪ IdA 2) symmetr. Abschluss: Rrs = Rr ∪ Rr−1 = R ∪ R−1 ∪ IdA S i 3) transitiver Abschluss: Rrst = Rrs ∪ Rrs ◦ Rrs ∪ Rrs ◦ Rrs ◦ Rrs ∪ . . . = ∞ i=1 Rrs i wobei Rrs die i-fache Verkettung von Rrs ist. Beispiel: Der reflexiv–symmetrisch–transitive Abschluss der Nachfolgerrelation auf den natürlichen Zahlen ist die Allrelation. Setzt die Relation R jede natürliche Zahl n zum Nachfolger ihres Nachfolgers, also zu n + 2 in Beziehung, dann ist der reflexiv– symmetrisch–transitive Abschluss dieser Relation die Kongruenz modulo 2. 2.4 Ordnungsrelationen Definition: Eine Relation R über einer Menge A, die reflexiv, transitiv und antisymmetrisch ist, wird Halbordnungsrelation oder auch partielle Ordnungsrelation genannt. Das Paar (A, R) nennt man eine halb– (partiell) geordnete Menge oder kurz poset als Abkürzung für partially ordered set. Endliche, halbgeordnete Mengen werden oft durch sogenannte Hasse–Diagramme dargestellt. Dabei werden die Elemente der Menge als Punkte in der Ebene gezeichnet, wobei direkte Nachfolger jeweils höher als ihre Vorgänger liegen und mit ihnen durch ein Liniensegment verbunden sind. Formal betrachtet beschreibt das Hasse– Diagramm eines Posets (A, R) die kleinste Unterrelation von R, deren reflexiver und transitiver Abschluss R ergibt. Die folgende Abbildung zeigt das Hasse–Diagramm der Potenzmenge einer 3–elementigen Menge M = {a, b, c}: 22 {a,b,c} {a,b} {a,c} {b,c} {a} {b} {c} Beispiele: 1) Für jede beliebige Menge M ist (P(M ), ⊆) eine halbgeordnete Menge. 2) Die Teilbarkeitsrelation | ist eine Halbordnungsrelation in der Menge der positiven ganzen Zahlen Z+ . 3) In der Menge der reellen Zahlen R ist die Relation ≤ eine Halbordnungsrelation. 4) Die Menge der Wörter einer Sprache wird durch die “lexikographische Ordnung” geordnet. Zwei Begriffe sind eng verwandt mit partiellen Ordnungsrelationen: totale Ordnungsrelationen und strikte (oder strenge) Ordnungsrelationen. Diese Begriffe werden durch die folgenden Definitionen genauer erläutert. Definition: Zwei Elemente a und b einer halbgeordneten Menge (A, R) nennt man vergleichbar, falls a R b oder b R a gilt. Anderenfalls nennt man sie unvergleichbar. Eine Halbordnungsrelation R in einer Menge A wird totale (oder auch lineare) Ordnungsrelation genannt, wenn jedes Paar von Elementen vergleichbar ist. Beispiele: In den obigen Beispielen sind die Relationen aus 1) und 2) keine totalen Ordnungsrelationen. So sind für M = {a, b, c} die Untermengen {a} und {c} unvergleichbar bezüglich der Teilmengenrelation. Die Zahlen 6 und 20 sind unvergleichbar bezüglich der Teilbarkeitsrelation. Dagegen ist ≤ eine totale Ordnungsrelation für die reellen Zahlen. Die lexikographische Ordnung ist eine totale Ordnungsrelation. Bemerkung: Taucht in der Literatur der Begriff “Ordnungsrelation” auf, so ist darunter in der Regel eine “Halbordnungsrelation” zu verstehen. Definition: Eine Relation R über einer Menge A wird strikte oder strenge Ordnungsrelation genannt, wenn sie transitiv und asymmetrisch ist. Typische Beispiele für strikte Ordnungsrelationen sind die “echt–kleiner”–Relation < oder die Relation, ein echter Teiler zu sein. Generell kann man aus jeder Halbordnungsrelation R über einer Menge A eine strikte Ordnungsrelation R0 = R \ IdA ableiten und umgekehrt kann aus jeder strikten Ordnungsrelation durch Vereinigung mit IdA eine Halbordnungsrelation gemacht werden. Weitere Begriffe, die wie das Maximum und Minimum aus der Schulmathematik 23 bekannt sind, müssen im Kontext mit Halbordnungsrelationen noch einmal neu definiert werden. Definition: Sei (A, ≺) ein Poset, B 6= ∅ eine Teilmenge von A und a ∈ A. • a ist eine obere (bzw. untere) Schranke von B, wenn b ≺ a (bzw. a ≺ b) für alle b ∈ B gilt. • a ist ein maximales (bzw. minimales) Element von B, wenn a ∈ B und es kein von a verschiedenes b ∈ B gibt, so dass a ≺ b (bzw. b ≺ a). • a wird größtes Element von B (bzw. kleinstes Element von B) genannt, wenn a ∈ B und a eine obere (bzw. untere) Schranke von B ist. • a wird Supremum oder obere Grenze von B (bzw. Infimum oder untere Grenze von B) genannt, wenn die Menge O(B) der oberen Schranken von B (bzw. die Menge U (B) der unteren Schranken von B) nicht leer ist und a das kleinste Element von O(B) (bzw. das größte Element von U (B)) ist. Bemerkungen zur Definition: • Eine Teilmenge B kann mehrere maximale bzw. mehrere minimale Elemente haben. Ist B endlich, dann gibt es mindestens ein maximales und ein minimales Element von B.Dagegen gibt es einfache Beispiele von endlichen Mengen, für die es keine obere und untere Schranken und somit auch weder größte oder kleinste Elemente noch obere oder untere Grenzen gibt. • Existiert ein größtes (bzw. kleinstes) Element von B, dann ist es eindeutig. Somit ist auch die obere bzw. untere Grenze von B eindeutig sofern sie überhaupt existiert. • Etwas verwirrend ist die Konvention, das größte (bzw. kleinste) Element von B, sofern es existiert, als Maximum (bzw. Minimum von B zu bezeichnen. Es gilt der Merksatz, dass das Maximum (wenn existent) immer ein maximales Element ist, aber nicht die Umkehrung. • Da Maximum, Minimum, Supremum oder Infimum einer Teilmenge B bei Existenz immer eindeutig sind, kann man für sie die Bezeichnungen max(B), min(B), sup(B),inf (B) einführen. Diese stehen dann entweder für ein eindeutig existierendes Element oder für nicht existierend. Beobachtung: Wenn für eine Teilmenge B einer Halbordnung (A, ≺) das Maximum (bzw. Minumum) existiert, dann existiert auch das Supremum (bzw. das Infimum) und es gilt sup(B) = max(B) (bzw. inf (B) = min(B)). Beweis: Sei a das Maximum von B, dann gilt (i) a ∈ B und (ii) ist a obere Schranke von B, d.h. b ≺ a für alle b ∈ B. Man muss zeigen, dass a in der Menge der oberen Schranken O(B), das kleinste Element ist. Nach Definition muss also a Element und untere Schranke von O(B) sein. Die erste Eigenschaft ist bereits durch 24 die Voraussetzung (ii) gegeben. Für die zweite Eigenschaft müssen wir a ≺ c für alle c ∈ O(B) nachweisen. Aus c ∈ O(B) folgt aber b ≺ c für alle b ∈ B, also auch insbesondere für b = a. Somit ist a auch das Supremum von B. Beispiel: Wir betrachten die durch nachfolgendes Hasse-Diagramm dargestellte Halbordnung (A, ≺) mit den Teilmengen B = {d, e} und C = {f, g, h}: h g f d e a b c • Die Gesamtmenge A hat ein maximales Element, nämlich h und drei minimale Elemente, nämlich a, b und c. Damit is h auch das Maximum und Supremum von A, Minimum und Infimum existieren nicht. • B hat zwei obere Schranken, nämlich f und h und zwei untere Schranken, nämlich a und b. • Sowohl d als auch e sind maximale und minimale Elemente von B. • B hat weder ein Maximum noch ein Minimum noch ein Infimum, aber ein Supremum sup(B) = f . • C hat eine obere Schranke, nämlich h und vier untere Schranken, nämlich a, b, c und e. • C besitzt ein maximales Element, nämlich h, und die minimalen Elemente f und g. • C hat kein Minimum, aber inf (C) = e und sup(C) = max(C) = h. 2.5 Funktionen Definition: Unter einer Funktion (oder Abbildung) f von einer Menge A in eine Menge B versteht man eine Zuordnung, bei der jedem Element aus A ein eindeutig bestimmtes Element aus B entspricht. Formal kann f als eine Relation zwischen A und B charakterisiert werden, so dass für jedes a ∈ A genau ein b ∈ B existiert mit a f b. Als übliche Schreibweise verwenden wir f : A −→ B um auszudrücken, 25 dass f eine Funktion von A nach B ist, und f (a) = b, um auszudrücken, dass dem Element a durch die Funktion f der Wert b zugeordnet wird. Die Menge A wird Definitionsbereich von f und die Menge B wird Wertebereich oder Wertevorrat von f genannt. Anmerkung: Die hier verwendete Definition von Funktionen ist die in der Mathematik übliche Form. In der Informatik spielen oft auch sogenannte partielle Funktionen eine Rolle. Das sind Relationen zwischen A und B, so dass jedes a ∈ A zu höchstens einem b ∈ B in Beziehung steht. Im Sinne der oben gegebenen Definition ist also eine partielle Funktion nicht ein Spezialfall einer Funktion, sondern im Allgemeinen gar keine Funktion, aber eine Funktion ist auch immer eine partielle Funktion. Definition: Ist f : A −→ B eine Funktion, M ⊆ A und N ⊆ B, dann nennt man die Menge f (M ) = {y ∈ B | es gibt ein x ∈ M mit f (x) = y} das Bild von M unter f und die Menge f −1 (N ) = {x ∈ A | f (x) ∈ N } das vollständige Urbild von N unter f . Definition: • Eine Funktion f : A −→ B heißt surjektiv, falls jedes Element von B im Bild von A auftritt, d.h. f (A) = B. Man kann sagt dann auch, dass f die Menge A auf die Menge B abbildet. • Eine Funktion f : A −→ B heißt injektiv oder eineindeutig, falls je zwei verschiedene Elemente aus A auch verschiedene Bilder haben, d.h. wenn aus f (a) = f (a0 ) die Gleichheit von a und a0 folgt. • Eine Funktion wird bijektiv genannt, wenn sie injektiv und surjektiv ist. Beispiel: Wir betrachten die bekannte Sinusfunktion. Als Funktion von den reellen Zahlen in die reellen Zahlen ist sin : R −→ R weder injektiv noch surjektiv. Durch Einschränkungen von Definitions– und/oder Wertebereich kann man diese Eigenschaften erzwingen: • sin : R −→ [−1, 1] ist surjektiv, aber nicht injektiv • sin : [− π2 , π2 ] −→ R ist injektiv, aber nicht surjektiv • sin : [− π2 , π2 ] −→ [−1, 1] ist bijektiv. Betrachtet man eine Funktion f : A −→ B als Relation, dann ist die zu f inverse Relation f −1 genau dann eine Funktion, wenn f bijektiv ist. In diesem Fall wird f −1 die zu f inverse Funktion genannt. Definition: Sind f : A −→ B und g : B −→ C Funktionen, dann ist die Relationsverkettung f ◦ g eine Funktion von A in C. Sie wird Verknüpfung oder Komposition von f und g genannt und durch gf : A −→ C bezeichnet, wobei gf (a) = g(f (a)) 26 gilt. Man beachte, dass Relationsverkettungen von links nach rechts und Funktionsverknüpfungen von rechts nach links geschrieben werden. Satz: Die folgenden Fakten ergeben sich als einfache Schlussfolgerungen aus den Definitionen. Seien f : A −→ B und g : B −→ C zwei Funktionen, dann gilt: • Ist f bijektiv, dann ist f −1 f = IdA und f f −1 = IdB • f ist genau dann injektiv, wenn eine Funktion h : B −→ A existiert mit hf = IdA . • f ist genau dann surjektiv, wenn eine Funktion h : B −→ A existiert mit f h = IdB . • Sind f und g injektiv, dann ist auch gf injektiv. • Sind f und g surjektiv, dann ist auch gf surjektiv. • Sind f und g bijektiv, dann ist auch gf bijektiv und es gilt (gf )−1 = f −1 g −1 . Beispiel 1: Die folgende Abbildung illustriert den zweiten Fakt. Die links dargestellte Funktion f : A −→ B ist injektiv. Zur Konstruktion der Funktion h : B −→ A bilden wir alle Elemente b aus dem Bild f (A) auf das eindeutige Element aus dem Urbild f −1 ({b}) ab (die Eindeutigkeit folgt aus der Injektivität von f , in der graphischen Darstellung bedeutet das einfach die Umkehrung der Pfeile). Zusätzlich fixieren wir ein beliebiges Element a ∈ A und bilden alle Elemente aus B \ f (A) auf a ab (gestrichelte Pfeile in der Mitte). Die Komposition hf ist dann die Identische Abbildung auf A (rechts). a f A h B hf B A A A Beispiel 2: Bezeichne R die Menge der reellen Zahlen und R≥0 die Menge der nicht negativen reellen Zahlen. Dann ist die Funktion f (x) = x2 eine surjektive Funktion von R auf R≥0 . Wir suchen eine passende Funktion h : R≥0 −→ R, so dass f h = idR≥0 , d.h. h muss jedes y ∈ R≥0 auf eine Zahl x abbilden, deren Quadrat wieder y ist. Diese Eigenschaft wird offensichtlich durch die Quadratwurzelfunktion erfüllt, d.h. √ √ h(y) = y wäre eine geeignete Wahl, aber auch die Funktion h(y) = − y hat die geforderte Eigenschaft. Satz: Jede Funktion f : A −→ B induziert eine Äquivalenzrelation ∼f über A durch a ∼f b genau dann, wenn f (a) = f (b). Diese Äquivalenzrelation wird auch die Faserung von A durch f genannt. 27 2.6 Natürliche Zahlen, Endlichkeit und Kardinalzahlen Peano-Axiome Alle aus der Schulmathematik bekannten Aussagen über natürliche Zahlen können aus einigen wenigen Grundannahmen abgeleitet werden. Diese grundlegenden Voraussetzungen für die Existenz der natürlichen Zahlen (und letzlich Grundlagen der gesamten Zahlentheorie) gehen auf Richard Dedekind und Giuseppe Peano zurück und sind als die Peano-Axiome bekannt: 1. 0 ist eine natürliche Zahl. 2. Jede natürliche Zahl n hat einen eindeutigen Nachfolger S(n), der auch eine natürliche Zahl ist. 3. Aus S(n) = S(m) folgt n = m. 4. 0 ist kein Nachfolger einer natürlichen Zahl. 5. Jede Menge X, die 0 enthält und für die gilt, dass aus n ∈ X auch S(n) ∈ X folgt, enthält alle natürlichen Zahlen. Achtung: Wir schreiben für den Nachfolger S(n) auch n+1, aber das ist als symbolische Schreibweise und nicht als Anwendung der Operation Addition zu verstehen. Im Gegenteil - man kann die Addition durch Anwendung der Nachfolgerfunktion rekursiv definieren. Konsequenz 1: Man kann Funktionen f : N −→ A definieren, indem man f (0) festlegt und f (S(n)) auf f (n) zurückführt. Dieses Prinzip der Definition von Funktionen nennt man Rekursion. Konsequenz 2: Man kann allgemeine Aussagen über natürliche Zahlen nach dem folgenden Schema beweisen. Eine Aussageform P (x) über dem Bereich der natürlichen Zahlen ist wahr für alle natürlichen Zahlen, wenn sie die folgenden zwei Bedingungen erfüllt: 1. P (0) ist wahr. 2. Für beliebige n ∈ N gilt: Ist P (n) wahr, dann ist auch P (n + 1) wahr. Dieses Beweisprinzip nennt man vollständige Induktion. Die beide Themen in der Vorlesung Informatik A ausführlich behandelt wurden, verzichten wir hier auf weitere Einzelheiten und auf Beispiele. Endliche Mengen und Kardinalzahlen Definition: Zwei Mengen A und B werden gleichmächtig genannt, wenn eine bijektive Funktion f : A −→ B existiert. In diesem Sinne bedeutet eine Abzählung einer endlichen (n-elementigen) Menge M , dass eine Bijektion zwischen der Menge {1, 2, . . . , n} und M (oder zwischen 28 {0, 1, . . . , n−1} und M ) konstruiert wird. Problematisch ist dabei, dass die Beschreibung von {1, 2, . . . , n} (oder {0, 1, . . . , n−1}) genau gesehen eine rekursive Definition ist. John von Neumann löste dieses Problem durch eine spezielle Konstruktion der natürlichen Zahlen. Definition: Die natürlichen Zahlen in Sinne von von Neumann bilden die kleinste Menge mit den folgenden zwei Eigenschaften: 1) 0 = ∅ ∈ N 2) Ist n ∈ N, dann ist auch der Nachfolger S(n) := n ∪ {n} in N. Damit erhalten wir die folgende Darstellung der natürlichen Zahlen: 0 = ∅, 1 = {∅} = {0}, 2 = {∅, {∅}} = {0, 1}, 3 = {∅, {∅}, {∅, {∅}}} = {0, 1, 2} ...... Jede natürliche Zahl ist nach dieser Konstruktion durch die Anzahl ihrer Elemente bestimmt. Definition: Eine Menge A wird endlich genannt, wenn es eine von Neumannsche natürliche Zahl n gibt, so dass A und n gleichmächtig sind. In diesem Fall wird n die Kardinalzahl von A genannt (Schreibweise |A| = n). Zwei endliche Mengen sind also gleichmächtig, wenn die Anzahlen ihrer Elemente gleich sind. Satz: Sind A, B und M endliche Mengen, dann gelten die folgenden Aussagen über ihre Mächtigkeiten: 1. |A \ B| = |A| − |A ∩ B| 2. |A ∪ B| = |A| + |B| − |A ∩ B| 3. |A × B| = |A| · |B| 4. |P(M )| = 2|M | Anmerkungen zu diesen Punkten 1) Die Summenregel ist eine Grundregel der Kombinatorik, die besagt, dass die Größe der Vereinigung von zwei disjunkten endlichen Mengen A und B sich als Summe aus |A| und |B| ergibt. Diese Regel ist als Spezialfall in der ersten und zweiten Aussage enthalten. 2) Die Verallgemeinerung der zweiten Aussage für drei und mehr Mengen führt zum sogenannten Prinzip der Inklusion–Exklusion: |A ∪ B ∪ C| = |A| + |B| + |C| − (|A ∩ B| + |A ∩ C| + |B ∩ C|) + |A ∩ B ∩ C| | k S i=1 Ai | = P |Ai | − ( 1≤i≤k ... + ... P |Ai1 ∩ Ai2 |) + ( 1≤i1 <i2 ≤k P 1≤i1 <i2 <i3 ≤k + (−1)k+1 | k T i=1 29 Ai | |Ai1 ∩ Ai2 ∩ Ai3 |)− 3) Die dritte Aussage ist auch eine Grundregel der Kombinatorik und wird Produktregel genannt. 4) Wie man leicht sieht, gibt es eine bijektive Abbildung von P(M ) auf die Menge der Funktionen von M nach {0, 1}. Dabei wird jedem A ∈ P(M ) die charakteristische Funktion χA : M −→ {0, 1} zugeordnet, welche jedes x ∈ A auf 1 abbildet und für alle x 6∈ A den Wert 0 hat. Bezeichnet man für zwei Mengen N und M mit N M die Menge aller Funktionen von M nach N , dann kann die oben beschriebene Bijektion auch wie folgt gelesen werden: P(M ) ist gleichmächtig mit {0, 1}M (also mit 2M , da 2 = {0, 1} im Sinne der von Neumannschen natürlichen Zahlen). Aus dieser Sicht kann man die vierte Aussage wie folgt verallgemeinern: Sind N und M zwei beliebige endliche Mengen, dann ist die Anzahl der Funktionen von M in N gleich |N ||M | , also |N M | = |N ||M | . Abzählbarkeit Definition: Eine Menge A, die nicht endlich ist, wird unendlich genannt (Schreibweise |A| = ∞). Eine Menge A wird abzählbar genannt, wenn sie endlich ist oder wenn sie mit der Menge der natürlichen Zahlen N gleichmächtig ist. Satz: Die Menge Z der ganzen Zahlen und die Menge Q der rationalen Zahlen sind abzählbar. Beweisidee: Für Z reicht es aus, eine unendliche Folge z0 , z1 , z2 , . . . zu bilden in der jede ganze Zahl genau einmal auftritt, denn dann wird durch f (n) := zn eine Bijektion zwischen N und Z definiert. Eine solche Folge ist z.B. 0, 1, −1, 2, −2, 3, −3, . . .. In diesem Fall ist es auch leicht, eine geschlossene Formel für die Bijektion f : N −→ Z anzugeben: lnm −n falls n gerade n+1 2 = f (n) = (−1) · n+1 falls n ungerade 2 2 Für Q kombiniert man diesen Trick der alternierenden Aufzählung mit einem Schema zur Aufzählung aller positiven rationalen Zahlen. Dazu schreibt man alle Brüche mit positiven Zählern und Nennern in eine Tabelle und läuft die Zellen systematisch nach folgendem Schema ab. Daraus ergibt sich eine surjektive Abbildung g : N −→ Q+ . 1 4 2 4 3 4 4 4 5 4 1 3 2 3 3 3 4 3 5 3 1 2 2 2 3 2 4 2 5 2 1 1 2 1 3 1 4 1 5 1 30 Um nicht nur eine surjektive Abbildung, sondern eine Bijektion zu erhalten, muss man letzlich noch dafür sorgen, dass alle Brüche übersprungen werden, deren rationaler Wert schon vorher erreicht wurde (das sind alle Brüche, die sich kürzen lassen). Im abgebildeten Schema ist der Bruch 22 der erste, den man überspringen muss, danach die Brüche 42 , 33 und 24 . Da es in diesem Fall wesentlich schwerer ist, eine geschlossene Formel für g anzugeben, begnügen wir uns hier mit der verbalen Konstruktionsbeschreibung einer solchen Bijektion. Satz: Die Menge der reellen Zahlen ist nicht abzählbar. Beweis: Wir führen einen Widerspruchsbeweis, um zu zeigen, dass schon die reellen Zahlen aus dem Intervall [0, 1] nicht abzählbar sind. Dazu nehmen wir an, dass es eine bijektive Abbildung f : N −→ [0, 1] gibt und schreiben die Bilder f (0), f (1), f (2), . . . als Dezimalbrüche f (0) f (1) f (2) : = = = : 0, a0,0 a0,1 a0,2 a0,3 . . . 0, a1,0 a1,1 a1,2 a1,3 . . . 0, a2,0 a2,1 a2,2 a2,3 . . . : ai,j ∈ {0, 1, 2, . . . , 9} Es ist bekannt, dass Dezimalbruch–Darstellungen von reellen Zahlen immer dann eindeutig sind, wenn sie nicht mit 9 (d.h. 9–Periode) enden und auch nicht abbrechen (d.h. 0–Periode). Jetzt ist es leicht, eine Zahl r ∈ [0, 1] mit der Darstellung 0, b0 b1 b2 . . . zu konstruieren, die nicht im Bild von f liegt, indem man die einzelnen Dezimalstellen wie folgt festlegt 1 falls ai,i 6= 1 bi = 2 falls ai,i = 1 Offensichtlich hat die Zahl r eine eindeutige Darstellung und liegt nicht im Bild von f , weil sie sich von jedem f (n) aus dem Bild an der n–ten Stelle unterscheidet. Folglich ist die Abbildung f nicht surjektiv, ein Widerspruch zur Annahme, dass f eine Bijektion ist. Die hier verwendete Beweistechnik bezeichnet man als Diagonalisierung. In der theoretischen Informatik wird sie in abgewandelter Form für Unmöglichkeitsbeweise eingesetzt (z.B. um zu zeigen, dass bestimmte Funktionen nicht berechenbar sind). Der folgende Satz beinhaltet eine weitere Anwendung dieser Technik. Satz: Es gibt keine surjektive Abbildung von einer Menge M auf ihre Potenzmenge. Beweis durch Widerspruch: Angenommen M wäre eine Menge mit einer surjektiven Abbildung f : M −→ P(M ). Wir bilden die Menge A = {x ∈ M | x 6∈ f (x)}. Da A Untermenge von M , also Element von P(M ) ist, muss es ein a ∈ M mit f (a) = A geben, anderenfalls wäre f nicht surjektiv. Der Widerspruch besteht darin, dass aus der Definition von A die logische Äquivalenz der Aussagen a ∈ A und a 6∈ A folgt. 31 3 Kombinatorik 3.1 Elementare Zählprinzipien Die Abzählung von endlichen Mengen ist das klassische Thema der Kombinatorik. Dabei wird eine unendliche Familie {An | n ∈ I} von endlichen Mengen An betrachtet, wobei n eine Indexmenge I durchläuft (in der Regel die natürlichen Zahlen). Zu bestimmen ist die Zählfunktion f : I −→ N mit f (n) = |An | für alle n ∈ I. Hier und im Folgenden bezeichnet |M | die Anzahl der Elemente (Mächtigkeit) einer Menge M , falls diese endlich ist und ∞ anderenfalls. Oft werden die Mengen An aus einer gegebenen n–elementigen Menge M (auch kurz n–Menge genannt) durch einfache strukturelle oder kombinatorische Bedingungen abgeleitet, z.B. die Menge S(M ) aller Permutationen von M (das sind bijektive Abbildungen von M nach M ), die Menge P(M ) aller Untermengen oder die Menge M aller k–Untermengen von M . Im letzten Fall ist die Zählfunktion von den zwei k Größen n und k abhängig. Ziel ist es, eine möglichst kurze, geschlossene Formel für f (n) bzw. f (n, k) zu finden. Die meisten Aufgabenstellungen dieser Art lassen sich (auch wenn die Lösung teilweise enormen technischen Aufwand erfordert) auf vier Grundregeln zurückführen. • Summenregel: Ist S die Vereinigung Ptvon paarweise disjunkten, endlichen Mengen S1 , S2 , . . . , St , dann gilt |S| = i=1 |Si |. • Produktregel:Q Ist S das Kartesische Produkt von t endlichen Mengen S1 , S2 , . . . , St , dann gilt |S| = ti=1 |Si |. • Gleichheitsregel: Existiert eine bijektive Abbildung zwischen zwei Mengen S und T , so gilt |S| = |T |. • Die Regel vom doppelten Abzählen wird etwas später erklärt. Die Gleichheitsregel ist letzlich nur eine Umformulierung der Definition für die Gleichmächtigkeit von zwei Mengen. Die Summen- und Produktregel kann man mit vollständiger Induktion beweisen. Eine typische Anwendung der Summenregel besteht darin, die Elemente der Menge S nach gewissen, sich gegenseitig ausschließenden Eigenschaften Ei (i = 1, . . . , t) zu klassifizieren und die Mengen Si wie folgt zu setzen {x ∈ S | x hat Eigenschaf t Ei }. Beispiel: Wir haben bereits eine Plausibilitätserklärung gefunden, warum die Potenzmenge einer n–Menge M genau 2n Elemente hat. Hier ist ein kompletter Beweis mit vollständiger Induktion nach n. Induktionsanfang: Für n = 0 ist M = ∅, P(M ) = {∅} und folglich |P(M )| = 1 = 20 . Induktionsschritt von n nach n+1: Sei M eine (n+1)–Menge und a ein fest gewähltes Element aus M . Wir zerlegen P(M ) in zwei disjunkte Teilmengen S1 = {A ⊆ M | a ∈ A} und S2 = {A ⊆ M | a 6∈ A}. Offensichtlich ist S2 = P(M \ {a}) die Potenzmenge einer n–Menge und nach Induktionsvoraussetzung gilt |S2 | = 2n . 32 Wir konstruieren eine Bijektion zwischen S1 und S2 , indem wir jeder Menge A ∈ S1 die Menge B = A \ {a} ∈ S2 zuordnen. Man erkennt die Bijektivität dieser Abbildung daran, dass eine Umkehrabbildung existiert, die jedem B ∈ S2 die Menge A = B ∪ {a} ∈ S1 zuordnet. Aus der Gleichheitsregel folgt |S1 | = |S2 | und aus der Summenregel |P(M )| = |S1 | + |S2 | = 2|S2 | = 2 · 2n = 2n+1 . Man kann die gleichen Argumente verwenden, um eine Rekursion für die Anzahl der k-Teilmengen einer n-Menge zu entwickeln. Sei S = Mk die Menge aller k– Untermengen einer n–Menge M und bezeichne nk die Kardinalzahl von S (zunächst nur als ein formaler Ausdruck). Wir fixieren ein a ∈ M und klassifizieren die k– Untermengen von M nach der Eigenschaft, ob sie a enthalten (E1 ) oder nicht (E2 ). Also ist S1 = {A ∈ S | a ∈ A} und S2 = {A ∈ S | a 6∈ A}. Wie man leicht sieht, ist S2 = M \{a} und auf der anderen Seite gibt es eine Bijektion zwischen S1 und der k Menge aller (k − 1)–Untermengen von M \ {a}. Durch Anwendung von Gleichheits– und Summenregel erhalten wir die folgende rekursive Formel n n−1 n−1 = + k k−1 k Definitition: Ein Inzidenzsystem (S, T, I) besteht aus zwei (endlichen) Mengen S und T und einer Inzidenzrelation I ⊆ S × T . Regel vom zweifachen Abzählen: Sei (S,T,I) ein Inzidenzsystem und sei r(a) = |{b ∈ T | (a, b) ∈ I}|, r(b) = |{a ∈ S | (a, b) ∈ I}| für alle a ∈ S, b ∈ T , dann gilt: X X r(b). r(a) = a∈S b∈T In der Tat sind beide Summen gleich |I|, denn die Paare der Relation I wurden nur auf zwei verschiedene Weisen aufgezählt. Oft wird diese Regel auch in etwas modifizierter Form unter Verwendung von Inzidenzmatrizen oder bipartiten Graphen verwendet: Sei M = (mij ) eine m×n Matrix, d.h. ein Rechteck–Schema mit m Zeilen und Pnn Spalten in dem Zahlen mij (i-te Zeile, j-te Spalte) Pm eingetragen sind. Sind zi = j=1 mij (1 ≤ i ≤ m) die Zeilensummen, und s = j i=1 mij (1 ≤ j ≤ m) die Spaltensummen, Pm Pn dann gilt i=1 zi = j=1 sj , denn beide Summen sind gleich der Summe aller Matrixelemente. Die Regel vom zweifachen Abzählen ergibt sich nun als Spezialfall für die sogenannte Inzidenzmatrix. Dazu werden die Elemente aus S und T nummeriert, 1 f alls (ai , bj ) ∈ I S = {a1 , . . . , am }, T = {b1 , . . . , bn } und mij = gesetzt. 0 sonst 3.2 Die fundamentalen Zählkoeffizienten k-Kombinationen und k-Variationen Sei eine n–Menge N gegeben (ohne Einschränkung kann man N = {1, 2, . . . , n} annehmen) und 0 ≤ k ≤ n eine natürliche Zahl. In diesem Abschnitt werden wir 33 die Werte einiger Zählfunktionen bestimmen, die sehr häufig auftreten und deshalb mit eigenen Symbolen bezeichnet werden. Eine k–elementige Untermenge von N wird auch k–Kombination genannt. Die Anzahl der k–Kombinationen einer n–Menge n wird mit k bezeichnet, und diese Anzahlen werden Binomialkoeffizienten genannt. Dabei werden k–Kombinationen (wie für Mengen üblich) als nicht geordnet betrachtet, d.h. {1, 3, 5} und {3, 5, 1} sind ein und dieselbe 3–Kombination. “Geordnete” k–Untermengen werden auch k–Variationen (ohne Wiederholung) genannt, alternativ kann dafür auch der Begriff k–Permutation einer n–Menge verwendet werden. Achtung: Geordnet heißt hier gerade nicht nach Größe geordnet, sondern in einer bestimmten Reihenfolge angeordnet! Man kann sie als Wörter der Länge k aus voneinander verschiedenen Elementen aus N kodieren (also 135 6= 351). k-Partitionen Der Begriff der Partition wurde bereits eingeführt und im Zusammenhang mit Äquivalenzrelationen verwendet. Wir verstehen darunter die Zerlegung einer Menge in disjunkte, nichtleere Untermengen (Blöcke). Bezeichnet k die Anzahl der Blöcke, so sprechen wir von k–Partitionen. An dieser Stelle ist es wichtig, auf einen bisher eher nebensächlichen Aspekt einzugehen: Betrachtet man die Partion als Menge von k Blöcken, dann spielt die Reihenfolge der Blöcke keine Rolle und wir sprechen einfach von einer k–Partition, oder (wenn wir diesen Aspekt besonders betonen wollen) von einer ungeordneten k–Partition. Die Anzahl der k–Partitionen einer n–Menge wird mit Sn,k bezeichnet. Die Zahlen Sn,k werden Stirling–Zahlen zweiter Art genannt. Will man dagegen auch die Reihenfolge des Auftretens der Blöcke berücksichtigen, so spricht man von geordneten k–Partitionen. Zur Unterscheidung umfasst man die Blöcke einer ungeordneten Partition in Mengenklammern, während geordnete Partitionen als Tupel geschrieben werden (runde Klammern). Beispiel: Die Mengen {{2}, {1, 3, 5}, {4, 6}} und {{3, 5, 1}, {2}, {4, 6}} sind gleich, d.h. sie stellen ein und dieselbe (ungeordnete) 3–Partition dar. Dagegen sind ({2}, {1, 3, 5}, {4, 6}) und ({1, 3, 5}, {4, 6}, {2}) zwei verschiedene geordnete 3–Partitionen. Binomialkoeffizienten und fallende Faktorielle Die Anzahl der k–Variationen von N kann mit der Produktregel bestimmt werden (n Möglichkeiten für die erste Stelle und ist diese festgelegt, dann n − 1 Möglichkeiten für die zweite Stelle,. . . ): n(n − 1) . . . (n − k + 1) = n! (n − k)! Diese Anzahlen werden auch kurz mit nk bezeichnet und fallende Faktorielle genannt. Streng genommen muss ein solcher Beweis auch wieder mit vollständiger Induktion geführt werden, aber inzwischen sollte jeder genug Übung darin haben, dieses Detail auszufüllen. Analog definiert man die steigenden Faktoriellen mit nk = n(n + 1) . . . (n + k − 1) = 34 (n + k)! , n! wobei wir n0 = n0 = 1 setzen. Da jede k–Untermenge sich auf k! Arten als k–Permutation darstellen lässt, gilt nach n k Produktregel n = k! k . Daraus kann eine explizite Formel für die Binomialkoeffizienten abgeleitet werden: n! n nk = = k! (n − k)!k! k Analog kann auch die Anzahl der geordneten k–Partitionen durch das Produkt k! Sn,k beschrieben werden. Beispiel: Der Ziehungsvorgang beim Lotto “6 aus 49” liefert zunächst eine 6– Variation der Menge {1, 2, . . . , 49} (wir vernachlässigen hier die Zusatzzahl). Die Anzahl dieser 6–Variationen ist 496 . Für das Ergebnis der Ziehung ist nur die Menge der gezogenen Zahlen entscheidend und nicht die Reihenfolge, in der sie gezogen wurden. Da jedes Ziehungsergebnis in 6! verschiedenen Reihenfolgen gezogen werden kann, ist die Anzahl der möglichen Ziehungsergebnisse (und damit auch die Anzahl 6 . der möglichen Tipps) gleich 496! = 49 6 Geordnete und ungeordnete Zahlpartitionen Eine Abwandlung des Begriffs der Mengenpartition führt zu den sogenannten Zahlpartitionen. Ist n ∈ N dann wird eine Summe n = n1 +. . .+nk mit ni ∈ N, ni > 0 eine k– Zahlpartition von n genannt. Die Anzahl solcher Partitionen wird mit Pn,k bezeichnet. Auch hier spielt die Reihenfolge der ni keine Rolle, so dass man ohne Einschränkung n1 ≥ n2 ≥ . . . ≥ nk annehmen kann. Soll die Reihenfolge Berücksichtigung finden, so sprechen wir von geordneten Zahlpartitionen. Achtung: Geordnete Zahlpartitionen sind also gerade solche, in denen die Summanden in der Regel nicht nach ihrer Größe sortiert auftreten. Dagegen kann man ungeordnete Zahlpartitionen (in denen die Reihenfolge egal ist) immer so darstellen, dass die Summanden aufsteigend geordnet sind. Lemma: Die Anzahl der geordneten k–Zahlpartitionen von n ist n−1 . k−1 Beweis: Die Grundidee ist sehr einfach. Wir schreiben die Zahl n als Summe von n Einsen, also mit n − 1 Pluszeichen. Für eine Zahlpartition n = n1 + n2 + . . . + nk fassen wir die ersten n1 Einsen zu einem Block zusammen, markieren das darauf folgende Pluszeichen, fassen die nächsten n2 Einsen wieder zu einem Block zusammen und markieren das darauf folgende Pluszeichen usw. Bei k Summanden markiert man k − 1 der n − 1 Pluszeichen und jede solche Markierung beschreibt eindeutig die entsprechende Zahlpartition. Für einen formalen Beweis konstruieren wir eine Bijektion von der Menge S der geordneten k–Zahlpartitionen auf die Menge T der (k − 1)–Untermengen von {1, 2, . . . , n − 1} durch: n = n1 + n2 + . . . + nk ∈ S 7→ {n1 , n1 + n2 , . . . , n1 + n2 + . . . + nk−1 } ∈ T . Die Bijektivität dieser Abbildung kann durch die Konstruktion der Umkehrabbildung nachgewiesen werden, und die Behauptung folgt nun aus der Gleichheitsregel. 35 Stirlingzahlen und surjektive Funktionen Die hier besprochenen Zählkoeffizienten sind auch sehr gut zum Abzählen von Funktionenmengen geeignet. Sei N eine n–Menge und R eine r–Menge. Aus der Mengenlehre wissen wir, dass die Anzahl der Abbildungen von N nach R gleich rn ist. Ist n ≤ r, dann sind injektive Abbildungen von N in R durch n–Variationen von R charakterisiert, d.h. |Inj(N, R)| = rn . Ist n ≥ r, dann sind surjektive Abbildungen von N auf R durch geordnete r– Partitionen von N charakterisiert, d.h. |Surj(N, R)| = r! Sn,r . Die Anzahl der bijektiven Abbildungen ist n! (falls n = r) oder 0. Klassifizieren wir die Menge aller Abbildungen f : N −→ R nach ihren Bildern A = {f (x) | x ∈ N } ⊆ R, so ergibt die Summenregel: P rn = |Abb(N, R)| = A⊆R |Surj(N, A)| 3.3 = Pr P = Pr r k k=0 k=0 |A|=k |Surj(N, A)| k! Sn,k = Pr k=0 rk Sn,k Zwölf Arten des Abzählens Eine zusammenfassende Interpretation der Zählkoeffizienten erhalten wir durch die folgende Fragestellung: Sei eine Menge von n Bällen gegeben, die in r Fächer verteilt werden sollen. Gesucht ist die Anzahl solcher Verteilungen allgemein und unter der zusätzlichen Bedingung, dass nur injektive (jedes Fach höchstens ein Ball), surjektive (jedes Fach mindestens ein Ball) bzw. bijektive (jedes Fach genau ein Ball) Verteilungen zu betrachten sind. Natürlich hängt die Problemstellung auch davon ab, ob die Bälle bzw. die Fächer unterscheidbar sind oder nicht. Offensichtlich korrespondieren die obigen Abzählungen von Abbildungen zu dem Fall, dass sowohl die Bälle als auch die Fächer unterscheidbar sind. Da die Frage der bijektiven Verteilungen relativ leicht zu beantworten sind, reduziert sich die Problemstellung auf zwölf Varianten. Sind nur die Bälle unterscheidbar, aber nicht die Fächer, dann korrespondieren surjektive Verteilungen zu r–Partitionen einer n–Menge und die Menge aller Verteilungen kann mit der Summenregel über die Klassifizierung nach Anzahl der belegten Fächer abgezählt werden. Sind Bälle und Fächer nicht unterscheidbar, dann korrespondieren surjektive Verteilungen zu r–Zahlpartitionen von n und auch hier kann die Menge aller Verteilungen mit der Summenregel über die Klassifizierung nach Anzahl der belegten Fächer abgezählt werden. Sind nur die Fächer unterscheidbar, aber nicht die Bälle, dann korrespondieren die surjektiven Verteilungen zu geordneten r–Zahlpartitionen von n. Die injektiven Verteilungen sind durch die Auswahl der n belegten Fächer aus der r–Menge aller Fächer vollständig charakterisiert. Eine beliebige Abbildung ist durch eine geordnete 36 Summenzerlegung der Form n = n1 + . . . + nr mit ni ∈ N charakterisiert. Um daraus eine r–Zahlpartition im Sinne der Definition zu machen (Zusatzbedingung ni ≥ 1), addiert man zu jedem Summanden eine 1. Damit erhalten wir eine Bijektion auf die Menge der geordneten r–Zahlpartitionen von (n + r). Diese Menge hat n+r−1 r−1 Elemente. Die folgende Tabelle gibt einen vollständigen Überblick. beliebig injektiv surjektiv bijektiv N unterscheidbar rn rn r!Sn,r 0 oder n! R unterscheidbar N nicht untersch. n+r−1 r n−1 0 oder 1 r−1 n r−1 R unterscheidbar N unterscheidbar Pr Sn,r 0 oder 1 k=1 Sn,k 0 oder 1 R nicht untersch. N nicht untersch. Pr Pn,r 0 oder 1 k=1 Pn,k 0 oder 1 R nicht untersch. 3.4 Rekursionen Pascalsches Dreieck Oft ist es schwierig, für die zu untersuchenden kombinatorischen Größen f (n) eine geschlossene Formel anzugeben, z.B. für die Stirling Zahlen zweiter Art Sn,k . In solchen Fällen kann eine Rekursion, das ist eine Formel, die f (n) auf f (n−1) und/oder f (n − 2), . . . zurückführt, ein wirkungsvolles Hilfsmittel sein. Sind dann noch die benötigten Anfangswerte f (0) und/oder f (1) bekannt, kann man jedes f (n) effektiv berechnen. Wir haben bereits eine Rekursion für die Binomialkoeffizienten kennengelernt: n n−1 n−1 = k + k−1 für alle n, k > 0. k Mit den trivialen Zusatzinformationen nn = n0 = 1 und nk = 0 falls k > n, können alle Binomalkoeffizienten berechnet werden. Das dafür verwendete Schema wird Pascalsches Dreieck genannt: n 0 1 2 3 4 5 6 : k 0 1 1 1 1 1 1 1 1 2 3 4 5 6... 1 2 1 3 3 1 4 6 4 1 5 10 10 5 1 6 15 20 15 6 1 Es ist klar, dass die Summe aller Einträge in der n–ten Zeile die Anzahl aller Unter- 37 mengen einer n–Menge ergibt: n X n k k=0 = 2n . Die folgenden zwei Identitäten machen Aussagen über Spalten- und Diagonalsummen, die an einer beliebigen Stelle abzubrechen sind: Pn m n+1 = für alle n, k ≥ 0 m=0 k k+1 Pn k=0 m+k k = m+n+1 n für alle m, n ≥ 0 Beide Formeln kann man mit vollständiger Induktion und auch durch kombinatorische Argumentationen beweisen. P Binomialsatz: (x + y)n = nk=0 nk xk y n−k Der induktive Beweis nutzt die Rekursion der Binomialkoeffizienten. Als unmittelbare Folgerung aus dem Binomialsatz erhalten wir die folgenden zwei Formeln: k Pn n (x + 1)n = k=0 k x 2n = Pn k=0 n k Monotone Gitterwege Eine weitere geometrisch-anschauliche Deutung der Binomialkoeffizienten ergibt sich aus der Abzählung von sogenannten Gitterwegen. Dazu betrachten wir die Punktmenge Gk,m = {0, 1, . . . , k} × {0, 1, . . . , m} in der Ebene und verbinden zwei Punkte durch eine Kante, wenn sie auf einer Koordinate übereinstimmen und sich auf der anderen Koordinate um 1 unterscheiden. Dieses Gebilde nennt man ein k × m-Gitter. Unter einem monotonen Gitterweg im k × m-Gitter verstehen wir eine Punktfolge, die mit (0, 0) beginnt, mit (k, m) endet und bei der für zwei aufeinanderfolgende Punkte (a, b), (c, d) gilt, dass entweder c = a und d = b + 1 oder c = a + 1 und d = b. Anschaulich bedeutet das, dass ein monotoner Gitterweg von der Ecke links unten in die Ecke recht oben verläuft und jeder Schritt entweder nach rechts oder nach oben erfolgt (Abbildung links)). Der Zusammenhang zwischen monotonen Gitterwegen und Binomialkoeffizienten beruht auf einer simplen Beobachtung: Da sich jeder monotone Gitterweg in einem k × m-Gitter aus k + m Kanten zusammensetzt, von denen genau k horizontal (und die anderen m vertikal) verlaufen, kann man sie als k-Kombinationen aus einer (k + m)-Menge beschreiben. Lemma: Die Anzahl der montonen Gitterwege in einem k × m-Gitter ist k+m . k 38 m m i 3 2 1 0 3 2 1 0 0 1 2 3 4 5 0 1 2 3 4 5 k k−1 k Viele Fakten über Binomialkoeffizienten lassen sich mit diesem Modell anschaulich erklären. Hier sind einige Beispiele dazu: • Die Menge der monotonen Gitterwege im k × m-Gitter kann man durch die Auswahl der k horizontalen Schritte aus k + m Gesamtschritten oder alternativ durch die Auswahl von mvertikalen Schritten aus k + m Gesamtschritten genek+m k+m rieren. Daraus folgt k = m . Wenn = wir n k + m setzen, ist m = n − k n und wir erhalten die bekannte Formel nk = n−k . • Partitioniert man die Menge der monotonen Gitterwege im k×m-Gitter danach, ob der letzteSchritt horizontal oder vertikal gemacht wird, so ergibt sich die k+m k+m−1 k−1+m Formel = + . Mit der oben verwendeten Ersetzung k k−1 k n−1 erhalten wir die bekannte Rekursion nk = n−1 + . k−1 k • Wir partitionieren die Menge der monotonen Gitterwege im k×m-Gitter danach, in welcher Höhe der letzte horizontale Schritt (von k − 1 nach k) gemacht wird. Dafür kommen alle y-Werte zwischen 0 und m in Frage. Diese Situation ist in der Abbildung auf der rechten Seite schematisch dargestellt: Der letzte horizontale Schritt erfolgt von (k − 1, i) nach (k, i) und darauf folgen nur noch vertikale Schritte bis (k, m). Die Anfangsstücke aller Wege dieser Klasse sind beliebige monotone Gitterwege im (k − 1) × i-Gitter, die im der Abbildung durch eine monotone Kurve symbolisiert sind. Daraus folgt die Identität X X m m k+m k−1+i k−1+i = = . k k−1 i i=0 i=0 Rekursion für die Stirling Zahlen zweiter Art Satz: Für alle n, k ∈ N mit n ≥ k > 0 gilt Sn,k = Sn−1,k−1 + k · Sn−1,k . Man beachte, dass diese Formel eine große Ähnlichkeit mit der Rekursionsformel für Binomialkoeffizienten aufweist. Auch der Beweis ist sehr ähnlich: Sei a ein fest gewähltes Element der n–Menge N . Die k–Partitionen von N können nun danach klassifiziert werden, ob {a} einen Block der Partition bildet oder nicht. Bei positiver Antwort kann der Partition auf eineindeutige Weise (Streichung von {a}) eine (k − 1)–Partition von N \ {a} zugeordnet werden. Zur Begründung des zweiten 39 Summanden überlegt man sich, das man alle k–Partitionen von N , in denen {a} keinen Block bildet, auf folgende Art erhält: Man betrachte alle k–Partitionen von N \ {a} und ergänze eine ihrer Klassen um a (dafür gibt es jeweils k Möglichkeiten). Aus der Definition ergeben sich die Anfangsbedingungen Sn,0 = 0 für n > 0 und S0,k = 0 für k > 0. Wie man leicht sieht, muß S0,0 = 1 gesetzt werden, damit die Formel auch für S1,1 ihre Gültigkeit behält. 3.5 Lösung von Rekursionen In diesem Abschnitt werden zwei Methoden beschrieben, mit deren Hilfe man (in einigen Fällen) aus Rekursionen geschlossene Formeln ableiten kann. Wir beginnen mit Rekursionen der Form an = can−1 + d, a0 = C, c, d, C ∈ R Offensichtlich können wir c = 1 als Trivialfall (dann ist an = nd + C) ausschließen. Für c 6= 1 erhalten wir durch elementare Umformungen: an = d + can−1 = d + c(d + can−2 ) 2 = d + cd + c an−2 = d + cd + c2 (d + can−3 ) = ... = d + cd + c2 d + . . . + cn−1 d + cn a0 n −1 d + cn C = cc−1 Wir betrachten jetzt sogenannte homogene lineare Rekursionen vom Grad k, das sind Rekursionen der Form an = c1 an−1 + c2 an−2 + . . . + ck an−k wobei c1 , . . . , ck ∈ R und ck 6= 0 vorausgesetzt sind. Darüber hinaus sollen die reelle Zahlen a0 = C0 , . . . , ak−1 = Ck−1 als Anfangsbedingungen bekannt sein. Der Basisansatz besteht darin, eine Lösung der Form an = rn für eine Konstante r zu suchen. Gäbe es eine solche Lösung, dann wäre rn = c1 rn−1 + c2 rn−2 + . . . + ck rn−k , also wäre r eine Nullstelle des sogenannten charakteristischen Polynoms xk −c1 xk−1 − c2 xk−2 . . . − ck der Rekursion. Eine solche Lösung könnte aber im Widerspruch zu den Anfangsbedingungen stehen. Satz: Angenommen, das charakteristische Polynom der Rekursion an = c1 an−1 + c2 an−2 + . . . + ck an−k hat k verschiedene Nullstellen r1 , . . . , rk . Dann gibt es Konstanten α1 , . . . , αk , so dass an = α1 r1n + . . . + αk rkn für alle n ∈ N. Diese Konstanten sind durch die k Anfangsbedingungen a0 = C0 , . . . , ak−1 = Ck−1 eindeutig bestimmt. Wir verzichten auf den Beweis. Es sei aber angemerkt, dass zur Bestimmung der Konstanten ein lineares Gleichungssystem von k Gleichungen (jeder Anfangswert liefert eine Gleichung) mit den gesuchten Konstanten α1 , . . . , αk als Variable gelöst werden muss. Die Verschiedenheit der Nullstellen sichert, dass dieses LGS eine eindeutige Lösung besitzt. 40 Beispiel: Die Rekursion fn = fn−1 + fn−2 mit den Anfangsbedingungen f0 = 0, f1 = 1 beschreibt die sogenannten Fibonacci Zahlen. Das charakteristische Polynom dieser Rekursion hat√die Form √ x2 − x − 1. Die Nullstellen dieses Polynoms sind 1+2 5 und 1−2 5 . Zur Bestimmung der Konstanten α1 und α2 muss das folgende LGS gelöst werden: α1 + √ 1+ 5 α1 + 2 α2 √ 1− 5 α2 2 =0 =1 Aus der ersten Gleichung folgt α2 = −α √ 1 . Verwendet man diese√Substitution in der zweiten Gleichung, dann ergibt sich 5α1 = 1, also α1 = 1/ 5. So erhält man folgende geschlossene Formel für die Fibonacci Zahlen: √ !n √ !n 1 1 1+ 5 1− 5 fn = √ −√ 2 2 5 5 3.6 Das Schubfachprinzip In den bisherigen Themen zur Kombinatorik ging es immer um die genaue Bestimmung von bestimmten Werten. Es kommt aber auch vor, dass die Informationen über bestimmte Mengen nicht ausreichen, um genaue Angaben über ihre Größe machen zu können. Oft muss man sich in solchen Fällen damit zufrieden geben, möglichst gute obere und untere Schranken für die Größe zu kennen. Eine grundlegende und wichtige Methode zur Herleitung solcher Ungleichungen mit kombinatorischen Mitteln besteht in der Anwendung des sogenannten Schubfachprinzips. Das Schubfachprinzip, in der englischsprachigen Literatur auch als Taubenschlagprinzip bezeichnet, geht auf den Mathematiker G. L. Dirichlet zurück: Verteilt man n Gegenstände in k Schubfächer und ist n > k, dann gibt es mindestens ein Schubfach, in dem mindestens 2 Gegenstände liegen. Auf den ersten Blick scheint dieses Prinzip nur triviale Schlussfolgerungen zuzulassen, wie: “in jeder Gruppe von 367 Menschen gibt es mindestens zwei, die den gleichen Geburtstag haben”, aber wie die folgenden eleganten Anwendungen zeigen, trügt der Schein. Satz: In jeder n+1 elementigen Untermenge M von {1, 2, . . . , 2n} gibt es zwei Zahlen a und b, so dass a Teiler von b ist. Beweis: Sei M = {a1 , a2 , . . . , an+1 }. Jedes Element dieser Menge hat eine eindeutige Produktzerlegung der Form ai = 2ki qi , wobei qi eine ungerade Zahl ist. Da die Anzahl der ungeraden Zahlen zwischen 1 und 2n gleich n ist, müssen mindestens zwei Elemente aus M bei der Zerlegung die gleiche ungerade Zahl liefern, und es ist klar, dass dann die kleinere von beiden ein Teiler der größeren ist. Satz von Erdös/Szekeres: Jede Folge von n2 + 1 verschiedenen Zahlen enthält eine monoton wachsende oder monoton fallende Unterfolge der Länge n + 1. 41 Beweis: Ist die Folge a1 , a2 , . . . , an2 +1 gegeben, dann hat eine Unterfolge der Länge m die Form ai1 , ai2 , . . . , aim wobei 1 ≤ i1 < i2 < . . . < im ≤ n2 + 1 gelten muss. Die Unterfolge ist monoton wachsend (bzw. fallend), wenn auch ai1 < ai2 < . . . < aim (bzw. ai1 > ai2 > . . . > aim ) gilt. Angenommen die gegebene Folge hat keine monoton wachsende oder monoton fallende Unterfolge der Länge n + 1, dann ordnen wir jedem k = 1, 2, . . . , n2 + 1 ein Paar (wk , fk ) zu, wobei wk (fk ) die maximale Länge einer monoton wachsenden (fallenden) Unterfolge ist, die mit ak beginnt. Da nur n2 Paare möglich sind, muss mindestens ein Paar mehrfach auftreten, d.h. es gibt Zahlen 1 ≤ s < t ≤ n2 + 1, so dass ws = wt und fs = ft . Das ist aber bereits ein Widerspruch, denn ist as < at , dann könnte jede mit at beginnende monoton wachsende Unterfolge von vorn durch as verlängert werden, also wäre ws > wt . Analog folgt aus as > at auch fs > ft und as = at ist nach Voraussetzung nicht möglich. Verallgemeinerung des Schubfachprinzips: Verteilt man n Gegenstände in k Schubfächer, dann gibt es mindestens ein Schubfach, n in dem mindestens k Gegenstände liegen. Beispiele: • In jeder Gruppe von 100 Menschen gibt es mindestens 9, die das gleiche Sternzeichen haben. • In jeder Menge A, B, C, D, E, F von 6 Besuchern einer Party gibt es eine Gruppe von mindestens drei Personen, die sich entweder vorher schon paarweise kannten oder die sich vorher paarweise noch nicht kannten. Das ist nicht ganz so offensichtlich. Für A gibt es nach dem Schubfachprinzip mindestens 25 = 3 andere Personen, die A entweder alle kennt (Fall 1) oder alle nicht kennt (Fall 2). Wenn sich im Fall 1 unter diesen Bekannten von A zwei Personen bereits kennen, bilden diese zusammen mit A die gesuchte Gruppe, sonst sind die Bekannten von A eine Gruppe von Personen, die sich nicht kennen. Der zweite Fall ist analog. Wenn unter den für A fremden Personen sich zwei nicht kennen, bilden sie zusammen mit A die gesuchte Gruppe, sonst bilden sie selbst eine Gruppe von Personen, die sich paarweise kennen. 42 4 Diskrete Wahrscheinlichkeitsverteilungen 4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω eine endliche oder abzählbar unendliche Menge von elementaren Ereignissen und Pr : Ω −→ [0, 1] eine Wahrscheinlichkeitsverteilung ist, die jedem P a ∈ Ω seine Wahrscheinlichkeit Pr(a) zuordnet. Außerdem wird gefordert, dass a∈Ω Pr(a) = 1 ist. Wenn |Ω| = n endlich ist und für alle a ∈ Ω auch Pr(a) = n1 gilt, dann wird Pr eine Gleichverteilung genannt. Beispiele: 1. Für einen (fairen) Würfel ist Ω = {1, 2, 3, 4, 5, 6} und Pr(1) = Pr(2) = . . . = Pr(6) = 16 eine Gleichverteilung. 2. Der diskrete Wahrscheinlichkeitsraum für einen Münzwurf besteht aus Ω = {0, 1} mit Pr(0) = Pr(1) = 1/2 (Gleichverteilung), wobei in der Regel die 0 den Kopf und 1 die Zahl der Münze bezeichnet. 3. Die Ziehung von Kugeln aus einer Urne bildet die Grundlage für ein anderes Standardmodell der Wahrscheinlichkeitsrechnung. So kann man eine Urne mit n nummerierten (also unterscheidbaren) Kugeln als ein physikalisches Modell für eine Gleichverteilung ansehen. Alternativ kann man eine Urne mit k weißen und m schwarzen Kugeln betrachten. Auch wenn die weißen Kugeln nicht unterscheidbar sind, kann man sich eine unsichtbare Nummerierung der Kugeln vorstellen, bei denen die weißen von 1 bis k und die schwarzen von k + 1 bis n = k+m nummeriert sind. Die elementaren Ereignisse sind die Ziehungen einer Kugel i jeweils mit der Wahrscheinlichkeit n1 . Da es aber letztlich egal ist, welche weiße bzw. welche schwarze Kugel gezogen wurde, betrachtet man hier nur zwei Ereignisse, nämlich die Ziehung einer weißen Kugel mit der Wahrscheinlichkeit k und die Ziehung einer schwarzen mit der Wahrscheinlichkeit m . n n 4. Der diskrete Wahrscheinlichkeitsraum für zwei Münzwürfe besteht aus der Menge Ω = {(0, 0), (0, 1), (1, 0), (1, 1)} mit der Gleichverteilung Pr((i, j)) = 1/4. Dabei geht man davon aus, dass die beiden Würfe voneinander unabhängig sind und entweder hintereinander oder gleichzeitig mit zwei unterscheidbaren Münzen erfolgen. 5. Beim gleichzeitigen Werfen von zwei ununterscheidbaren Münzen müsste man Ω = {{0, 0}, {0, 1}, {1, 1}} setzen. In diesem Fall wäre Pr (faire Münzen vorausgesetzt) keine Gleichverteilung, denn Pr({0, 0}) = Pr({1, 1}) = 1/4 und Pr({0, 1}) = 1/2. Dieses Modell ist eher als Gedankenspiel zu betrachten, denn in der Realität sind es zwei verschiedene Münzen, auch wenn sie äußerlich nicht unterscheidbar sind. Wenn wir im Weiteren über die Wahrscheinlichkeitsräume von k Münzwürfen oder k Würfeln sprechen, wird deshalb immer die k-fache 43 Wiederholung eines Experiments oder eine Ausführung mit k unterscheidbaren und unabhängigen Objekten gemeint sein. 6. Definiert man eine Folge von Münzwürfen, bis das erste Mal Zahl (also 1) fällt, als elementares Ereignis, dann gibt es offensichtlich für jedes n ∈ N+ ein elementares Ereignis, nämlich die Folge an = 0, 0, . . . , 0, 1. Eine faire Münze | {z } (n−1) mal n vorausgesetzt, gilt Pr(an ) = 12 und damit ist auch für diesen unendlichen Raum die Summenbedingung erfüllt: ∞ X Pr(an ) = n=1 ∞ n X 1 n=1 2 =1 Definition: Eine beliebige Untermenge A ⊆ Ω wird Ereignis genannt, und man P Dadurch wird die Verteilungsfunktion zu einem definiert Pr(A) = a∈A Pr(a). Wahrscheinlichkeitsmaß über der Menge P(Ω) aller Ereignisse erweitert. Die Verwendung der gleichen Bezeichnung Pr für die Verteilung und das Wahrscheinlichkeitsmaß ist eine kleine technische Unsauberkeit, die aber in der Literatur weit verbreitet ist. Beispiele: • Bei der Urne mit k weißen und m schwarzen Steinen wurde dieser Schritt schon vorweg genommen, indem die Ziehungen der Kugeln 1 bis k (bzw. k + 1 bis k + m) zum Ereignis der Ziehung einer weißen (bzw. schwarzen) Kugel zusammengefasst wurden. • Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, ist gleich der Summe der Wahrscheinlichkeiten, eine 2, 4 oder 6 zu würfeln, also 1/2. • Das Ereignis A, bei drei Münzwürfen genau zweimal Zahl zu erhalten, setzt sich aus den drei elementaren Ereignissen (0, 1, 1), (1, 0, 1) und (1, 1, 0) zusammen und somit ist Pr(A) = 3 · 81 = 83 . Für jedes Ereignis A ⊆ Ω bezeichnet A = Ω\A das sogenannte Komplementärereignis von A. Aus der Definition und dem kombinatorischen Basiswissen kann man die folgenden Eigenschaften von Wahrscheinlichkeitsmaßen ableiten: 1. Pr(Ω) = 1 und Pr(∅) = 0 2. A ⊆ B =⇒ Pr(A) ≤ Pr(B) 3. Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) P S 4. Pr(A) = ki=1 Pr(Ai ) für jede Partition A = ki=1 Ai 44 5. Pr A = 1 − Pr(A) S P k 6. Pr i=1 Ai ≤ ki=1 Pr(Ai ). Bedingte Wahrscheinlichkeit und unabhängige Ereignisse Oft taucht das Problem auf, die Wahrscheinlichkeit eines Ereignisses A unter der zusätzlichen Voraussetzung zu bestimmen, dass ein anderes Ereignis B eingetreten ist. So ist offensichlich unter der Voraussetzung, dass eine gerade Zahl gewürfelt wurde, die Wahrscheinlichkeit der 1 gleich Null und die Wahrscheinlichkeit der 2 gleich 1/3. Dieses Phänomen wird durch den Begriff der bedingten Wahrscheinlichkeit beschrieben. Definition: Seien A und B Ereignisse und Pr(B) > 0, dann nennt man den Ausdruck Pr(A ∩ B) die bedingte Wahrscheinlichkeit von A unter B. Pr(A|B) = Pr(B) Beispiele: 1. Im Wahrscheinlichkeitsraum eines fairen Würfels sei A das Ereignis, eine gerade Zahl zu werfen, B das Ereignis, eine Zahl größer als drei zu werfen, und C das Komplementärereignis zu B. Offensichtlich gilt Pr(A) = Pr(B) = Pr(C) = 12 . Man bestimmt die Durchschnitte A ∩ B = {4, 6}, A ∩ C = {2}, B ∩ C = ∅ und ihre Wahrscheinlichkeiten Pr(A ∩ B) = 26 , Pr(A ∩ C) = 61 sowie Pr(B ∩ C) = 0 und berechnet damit die bedingten Wahrscheinlichkeiten: Pr(B|A) = 23 , Pr(C|A) = 13 und Pr(B|C) = 0. 2. Würfelt man mit zwei (unabhängigen und unterscheidbaren!) Würfeln, dann ist Ω = {(i, j) | 1 ≤ i, j ≤ 6} und Pr((i, j)) = 1/36 für jedes Paar (i, j) aus Ω. Sei A = {(4, 6), (5, 5), (6, 4)} das Ereignis, dass die Augensumme gleich 10 ist, und B = {(1, 1), (2, 2), . . . , (6, 6)} das Ereignis, dass beide Würfel auf die gleiche 1 6 1 3 Zahl fallen. Dann ist Pr(A) = 36 = 12 , Pr(A) = 36 = 61 und Pr(A ∩ B) = 36 . 1 1 Daraus ergibt sich Pr(A|B) = 3 und Pr(B|A) = 6 . 3. Wir bleiben im Wahrscheinlichkeitsraum von zwei Würfeln. Bezeichne A1 = {(i, j) ∈ Ω | i = 1} das Ereignis, dass der erste Würfel eine 1 zeigt und der zweite beliebig ist. Analog lassen sich Ereignisse A2 , . . . , A6 beschreiben. Auf der anderen Seite können durch Festlegung der Augenzahl des zweiten Würfels Ereignisse B1 = {(i, j) ∈ Ω | j = 1}, B2 , . . . , B6 definiert werden. Offensichtlich ist die Wahrscheinlichkeit dieser Ereignisse jeweils 1/6 und Durchschnitte wie A1 ∩ B3 = {(1, 3)} haben die Wahrscheinlichkeit 1/36. Folglich ist Pr(A1 |B3 ) = Pr(A1 ∩ B3 ) 1/36 1 = = Pr(B3 ) 1/6 6 und analog ist die bedingte Wahrscheinlichkeit von jedem Ai unter einem beliebigen Bj gleich 1/6, also gleich der Wahrscheinlichkeit von Ai selbst. Diese Eigenschaft ist durch die Unabhängigkeit der beiden Würfe begründet. 45 4. In einigen Fällen kann es hilfreich sein, die Sachverhalte durch ein Diagramm zu veranschaulichen. Angenommen wir haben eine rote Urne mit zwei weißen und vier schwarzen Kugeln und eine blaue Urne mit fünf weißen und drei schwarzen Kugeln. Zuerst wird gewürfelt und wenn das Ergebnis 1 oder 2 ist, wird eine Kugel aus der roten Urne, sonst eine Kugel aus der blauen Urne gezogen. Die elementaren Ereignisse sind Paare aus einer Zahl zwischen 1 und 6 und einer Farbe Schwarz oder Weiß. Das folgende Diagramm zeigt, wie sich die Ergebnisse des Experiments aufspalten. Die Werte auf den Kanten geben bedingte Wahrscheinlichkeiten an, die Wahrscheinlichkeiten der Ereignisse auf der rechten Seite ergeben sich als Produkt der Wahrscheinlichkeiten auf den Kanten des jeweiligen Wegs. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, 5 = 19 . ist demnach 19 + 12 36 Wahrscheinlichkeit {1,2} 1/3 1/3 2/3 5/8 2/3 {3,4,5,6} 3/8 1/9 weiss schwarz 2/9 5/12 weiss schwarz 1/4 Definition: Zwei Ereignisse A und B werden unabhängig genannt, falls Pr(A ∩ B) = Pr(A) · Pr(B). Lemma: Sind A und B zwei unabhängige Ereignisse mit Pr(A ∩ B) > 0, dann gilt Pr(A|B) = Pr(A) und Pr(B|A) = Pr(B). Ereignisse mit positver Wahrscheinlichkeit, die einander ausschließen, wie zum Beispiel A1 und A2 aus dem letzten Beispiel sind voneinander nicht unabhängig, also abhängig. Weitere Beispiele für abhängige Ereignisse beim Spiel mit einem Würfel ist der Wurf einer geraden Zahl und der Wurf einer 2 oder auch der Wurf einer geraden Zahl und der Wurf einer Zahl ≤ 3. Auch im folgenden Beispiel geht es um die Abhängigkeit von Ereignissen. Beispiel: Ein Krebstest fällt mit 96% Wahrscheinlichkeit positiv aus, wenn der Patient Krebs hat und mit 94% Wahrscheinlichkeit negativ, wenn der Patient keinen Krebs hat. Bei einem Patienten in dessen Altersgruppe 0.5% aller Personen Krebs haben, fällt der Test positiv aus. Wie wahrscheinlich ist es, dass er tatsächlich Krebs hat? Wir betrachten die folgenden Ereignisse 46 K N T zufälliger Patient hat Krebs Pr(K) = 0.005 zufälliger Patient hat keinen Krebs Pr(N ) = 0.995 Test positiv bei zufälligem Patienten Pr(T ) =?? Pr(K ∩ T ) . Gesucht ist die bedingte Wahrscheinlichkeit Pr(K|T ) = Pr(T ) Pr(K ∩ T ) Aus Pr(T |K) = = 0.96 kann man Pr(K ∩ T ) = 0.005 · 0.96 ausrechnen. Pr(K) Dagegen ist Pr(T |N ) = 1 − Pr T |N = 1 − 0.94 = 0.06. Zur Bestimmung von Pr(T ) überlegt man sich, dass das Ereignis T die disjunkte Vereinigung (T ∩K)∪(T ∩N ) ist und sich die Wahrscheinlichkeiten der beiden Komponenten wieder durch bedingte Wahrscheinlichkeiten ausdrücken lassen: Pr(T ) = Pr(T |K) · Pr(K) + Pr(T |N ) · Pr(N ) = 0.96 · 0.005 + 0.06 · 0.995. Letztlich erhalten wir Pr(K|T ) = 0.005 · 0.96 Pr(K ∩ T ) = = 0.0744 . . . Pr(T ) 0.96 · 0.005 + 0.06 · 0.995 Damit ist die Wahrscheinlichkeit, dass der Patient mit positivem Test wirklich Krebs hat, kleiner als 7.5%. Definition: Sind (Ω1 , Pr1 ) und (Ω2 , Pr2 ) zwei Wahrscheinlichkeitsräume, dann ist der Produktraum (Ω1 × Ω2 , Pr) definiert durch Pr((a1 , a2 )) = Pr1 (a1 ) · Pr2 (a2 ). Diese Definition impliziert Unabhängigkeiten der folgenden Form: für alle A ⊆ Ω1 und B ⊆ Ω2 sind die Ereignisse A × Ω2 und Ω1 × B voneinander unabhängig. Ein Beispiel dafür wurde bereits behandelt, denn der Wahrscheinlichkeitsraum für zwei Würfel ist das Produkt des Raums eines Würfels mit sich selbst. Im folgenden werden endliche Produkte des Münzwurfraums genauer analysiert: • Eine faire Münze wird sechsmal geworfen. Der zugehörige Wahrscheinlichkeitsraum besteht aus allen 6-Tupeln (oder 0/1–Folgen der Länge 6) mit Gleichverteilung, d.h. jedes Tupel hat die Wahrscheinlichkeit 216 . Wie groß ist die Wahrscheinlichkeit des Ereignisses, dass genau zwei Einsen in dem Tupel auftreten? Die Anzahl dieser Tupel stimmt offensichtlich mit der Anzahl der 2–Kombinationen einer 6–Menge überein. Folglich hat das Ereignis die Wahrscheinlichkeit 62 /26 . Allgemein ist die Wahrscheinlichkeit für k mal Zahl bei n Münzwürfen gleich n 1 . k 2n • Sei eine “unfaire” Münze gegeben, die mit Wahrscheinlichkeit p (0 < p < 1) Zahl (d.h. 1) und mit Wahrscheinlichkeit q = 1 − p Kopf (d.h. 0) liefert. Betrachtet man den Wahrscheinlichkeitsraum für n Münzwürfe, dann ist die Wahrscheinlichkeit einer festen Folge der Länge n mit genau k Einsen gleich pk (1 − p)n−k . Die Wahrscheinlichkeit des Ereignisses, dass eine Folge genau k Einsen enthält, ist nk pk (1 − p)n−k . Deshalb werden Verteilungen dieser Art auch Binomialverteilungen genannt. 47 4.2 Zufallsvariable und Erwartungswert Definition: Sei (Ω, Pr) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable oder Zufallsgröße ist eine Funktion X : Ω −→ R. Im Fall eines Würfels oder einer zufällig gezogenen Zahl aus einer Urne fällt der Unterschied zwischen einem elementaren Ereignis und einer Zufallsvariable nicht auf, weil das Ereignis selbst schon eine Zahl ist, d.h. man kann die identische Abbildung als eine Zufallsvariable ansehen. Die folgenden Beispiele zeigen, dass man viele Zufallsexperimente auf sehr natürliche Weise mit Zufallsvariablen beschreiben kann. Beispiele: 1) Auf dem diskreten Wahrscheinlichkeitsraum Ω = {1, 2, . . . , 6} × {1, 2, . . . , 6} für zwei Münzwürfe sind Zufallsvariablen für die Summe und die Differenz der beiden Werte interessant: X(a, b) = a + b Y (a, b) = |a − b|. 2) Auf dem Wahrscheinlichkeitsraum für n Münzwürfe Ω = {0, 1}n interessiert man sich vor allem für die Zufallsvariablen, welche die Anzahl der Zahl- bzw. Kopfergebnisse in einer solchen Serie zählen, d.h. X(a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 1}| Y (a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 0}| = n − X(a1 , a2 , . . . , an ) 3) Bei der Wiederholung von Münzwürfen bis zur ersten Zahl (oder bis zum ersten Kopf) ist offensichtlich die Länge des Experiments eine interessante zufällige Größe: X(0, 0, . . . , 0, 1) = n | {z } (n−1) mal Definition: Der Erwartungswert der Zufallsvariablen X ist definiert als E(X) = P a∈Ω X(a)Pr(a). Im ersten und dritten Beispiel kann man Erwartungswerte relativ leicht ausrechnen: 1) E(X) = 7 und E(Y ) = 70 ; 36 P∞ 3) E(X) = n=1 n · 21n = 2 (ist etwas schwerer). Im zweiten Beispiel ist E(X) = n2 die richtige Antwort. Intuitiv ist das klar, aber eine direkte Berechnung durch konkrete Auswertung der Definition ist relativ aufwändig. Der folgende Fakt macht die Bestimmung des Erwartungswerts sehr einfach. Lemma: Der Erwartungswert ist additiv, d.h. für beliebige Zufallsvariable X, Y : Ω −→ R gilt E(X + Y ) = E(X) + E(Y ), wobei die neue Variable X + Y in naheliegender Weise durch (X + Y )(a) = X(a) + Y (a) definiert ist. Anwendungen: • Wir betrachten die binomialverteilte Zufallsvariable X aus Beispiel 2, die jedem 0/1–Tupel der Länge n die Anzahl seiner Einsen zuordnet. Um das Beispiel noch etwas allgemeiner zu machen, betrachten wir eine unfaire Münze, die mit Wahrscheinlichkeit p eine 1 (Zahl) und mit Wahrscheinlichkeit q = 1 − p eine 0 48 (Kopf) liefert. Gruppiert man die Folgen derart, dass alle P Folgen mit genau k Einsen einer Gruppe angehören, so erhält man E(X) = nk=0 k nk pk (1 − p)n−k . Es ist relativ aufwändig, daraus E(X) = np abzuleiten. Durch Nutzung der Additivität der Erwartungswerte kann man diese Formel einfacher erhalten: Offensichtlich ist X = X1 + X2 + . . . + Xn , wobei die Variable Xi angewendet auf eine Folge von Münzwurfergebnissen (a1 , . . . , an ) das Ergebnis des i-ten Wurfs auswertet, also Xi ((a1 , . . . , an )) = ai . Da die Erwartungswerte dieser Summanden jeweils p sind, folgt E(X) = E(X1 ) + . . . + E(Xn ) = np. • An einem Tisch sitzen 12 Personen. Von jeder Person wurde ein Foto gemacht. Diese 12 Bilder liegen verdeckt auf dem Tisch. Jede Person zieht zufällig ein Foto (zufällig bedeutet hier, dass alle möglichen Zuordnungen der Bilder gleich wahrscheinlich sein sollen). Wie hoch ist die erwartete Anzahl der Personen, die ihr eigenes Foto gezogen haben? Wieder kann man die Zufallsvariable X, welche die Anzahl dieser Personen zählt, als Summe von zwölf Variablen X1 , . . . , X12 darstellen, wobei Xi den Wert 1 hat, wenn Person i ihr eigenes Foto gezogen hat, und 0 sonst. Offen1 1 für alle i und folglich ist E(X) = 12 · 12 = 1. sichtlich ist E(Xi ) = 12 Aus dieser Betrachtung ergibt sich außerdem die (vielleicht etwas überraschende) Tatsache, dass der Erwatungswert nicht von der Anzahl der Personen abhängt - auch bei 100 Personen zieht im Erwartungswert eine Person ihr eigenes Foto. • Eine Versicherung macht folgende Kalkulation: Jeder Versicherte zahlt 100 Euro ein. Mit Wahrscheinlichkeit von 1/20 (also 5 %) muss eine Leistung von 1000 Euro und mit Wahrscheinlichkeit 1/10 muss eine Leistung von 400 Euro erbracht werden. Wie hoch ist der Erwartungswert für den Gewinn (pro Versicherungsnehmer)? Der zu betrachtende Wahrscheinlichkeitsraum hat drei Elementarereignisse a1 , a2 und a3 mit Pr(a1 ) = 1/20, Pr(a2 ) = 1/10 und Pr(a3 ) = 1−1/20−1/10 = 17/20. Die Zufallsvariable X, die den Gewinn der Versicherung beschreibt, ist die Differenz aus einer Zufallsvariablen Y für die Einnahmen und einer Zufallsvariablen Z für die Ausgaben in den einzelnen Ereignissen: Dabei hat Y in jedem Fall den Wert 100 und Z(a1 ) = 1000, Z(a2 ) = 400 und Z(a3 ) = 0. Nach Definition erhalten wir für den Erwartungswert E(X) = E(Y ) − E(Z) = 100 − (1000 · 1 1 + 400 · + 0) = 100 − 90 = 10 20 10 In vielen praktischen Anwendungen entstehen Zufallsvariable durch Messung von zufälligen Größen, die auf sehr schwer zu analysierende Wahrscheinlichkeitsräume zurückgehen. Beispiele dafür sind die Zeit, die man für seinen täglichen Arbeitsweg braucht oder die Körpergröße einer Person. Deshalb spricht man häufig auch von der Verteilung einer Variablen, d.h. man interessiert sich für die Wahrscheinlichkeit, 49 dass die Variable einen bestimmten Wert (oder einen Wert aus einem bestimmten Intervall) annimmt und weniger für die Wahrscheinlichkeiten der einzelnen elementaren Ereignisse. Die Wahrscheinlichkeit, dass eine Zufallsvariable X den Wert x0 bzw. einen Wert kleiner oder gleich x0 annimmt wird mit Pr(X = x0 ) bzw. Pr(X ≤ x0 ) notiert. In den gerade genannten Beispielen sind das sogenannte Normalverteilungen, die man nicht mit einem diskreten Modell beschreiben kann. Es gibt aber auch eine Reihe von diskreten Zufallsvariablen, die häufig auftreten und deshalb in bestimmte Typen eingeteilt werden. • Eine Gleichverteilung liegt vor, wenn eine Zufallsvariable k verschiedene Werte annehmen kann und jeder Wert die Wahrscheinlichkeit 1/k hat. • Eine Bernoulli–Verteilung mit dem Parameter p liegt vor, wenn eine Zufallsvariable X nur die Werte 0 und 1 annimmt und Pr(X = 1) = p, Pr(X = 0) = 1 − p gilt. • Eine Zufallsvariable X ist binomialverteilt mit den Parametern n und p, wenn sie n k die Werte 0, 1, 2, . . . , n annimmt und Pr(X = k) = k p (1−p)n−k für alle k aus dem Wertebereich gilt. Mit anderen Worten entsteht eine Binomialverteilung immer dann, wenn man ein Bernoulli–Experiment n–mal wiederholt und die Zufallsvariable die Anzahl der 1–Ergebnisse zählt. • Eine Zufallsvariable X ist geometrisch verteilt mit dem Parameter p, wenn sie alle Werte aus N+ annehmen kann und Pr(X = k) = (1−p)k−1 p für alle k ∈ N+ gilt. Mit anderen Worten entsteht eine geometrische Verteilung immer dann, wenn man ein Bernoulli–Experiment so lange wiederholt, bis zum ersten Mal eine 1 fällt und die Zufallsvariable die Anzahl der Versuche zählt. Wichtige Anwendungen von Erwartungswerten in der Informatik sind die Analyse der durchschnittlichen Laufzeit von Algorithmen (Ω besteht dann aus den Eingaben einer bestimmten Größe und X(a) ist die Laufzeit für eine konkrete Eingabe a) und die Analyse randomisierter Algorithmen. Im letzten Fall wird die Arbeit des Algorithmus durch eingebaute Zufälle gesteuert (z.B. Auswahl eines zufälligen Pivotelements bei Quicksort) und somit ist die Laufzeit für jede konkrete Eingabe eine Zufallsvariable, deren Wert von den zufälligen Entscheidungen im Ablauf des Algorithmus abhängt. 50 5 5.1 Lineare Algebra Einführung: Anschauliche Vektorrechnung Zur Vorbereitung auf die Beschäftigung mit abstrakten Vektorräumen ist es angebracht, sich noch einmal mit intuitiven, elementargeometrischen Grundgedanken zu dieser Theorie zu beschäftigen. Dabei geht man von Punkten in der Euklidischen Ebene bzw. im (dreidimensionalen) Euklidischen Raum aus, die durch Koordinatenpaare bzw. Koordinatentripel beschrieben sind. Zur leichteren Veranschaulichung werden wir im Folgenden vorwiegend Punkte in der Ebene betrachten, aber alle Überlegungen lassen sich sinngemäß auf den Raum übertragen. Freie und gebundene Vektoren −→ Jedes geordnete Punktepaar beschreibt einen gebundenen Vektor AB, veranschaulicht durch die gerichtete Strecke von A nach B. Auf der Menge der gebundenen Vektoren −−→ −→ kann man eine Äquivalenzrelation einführen, unter der zwei Vektoren AB und A0 B 0 äquivalent sind, wenn es eine Parallelverschiebung (Translation) gibt, die A in A0 und −−→ −→ B in B 0 überführt. Es ist klar, dass die Vektoren AB und A0 B 0 genau dann äquivalent sind, wenn die Tupel der Koordinatendifferenzen zwischen B und A bzw. zwischen B 0 und A0 gleich sind. A’ A B’ B Eine Äquivalenzklasse dieser Relation nennt man einen freien Vektor. Anschaulich kann man also einen freien Vektor als ein Objekt beschreiben, das eine bestimmte Richtung und eine bestimmte Länge, aber keinen festgelegten Anfangspunkt hat. Da ein freier Vektor durch das Differenzentupel der zu Grunde liegenden gebundenen Vektoren eindeutig charakterisiert wird, verwendet man dieses Tupel auch als Bezeichnung für den freien Vektor. Eine besondere Rolle unter den freien Vektoren spielt der Nullvektor (0, 0), der die Äquivalenzklasse aller gebundenen Vektoren der Form −→ AA ist. Für den Nullvektor wird auch oft die Kurzbezeichnung ~0 verwendet. Beispiel: Für die Punkte A = (−1, 2) und B = (1, 3) und den gebundenen Vektor −→ AB entsteht das Differenzentupel (1−(−1), 3−2) = (2, 1), das den zugehörigen freien Vektor bezeichnet. −→ Der Standardrepräsentant eines freien Vektors (a1 , a2 ) ist der gebundene Vektor OA, der vom Koordinatenursprung O = (0, 0) zum Punkt A = (a1 , a2 ) führt. Man nennt diesen Vektor deshalb auch Ortsvektor des Punkts A. 51 Addition von Vektoren −→ Gebundene Vektoren sind ein nützliches Werkzeug in der Physik, z.B. kann man AB zur Beschreibung einer Kraft verwenden, die auf den Punkt A wirkt, wobei Richtung und Betrag der Kraft durch den freien Vektor beschrieben sind. Darüber hinaus sind sie sehr gut dazu geeignet, die Addition von Vektoren zu veranschaulichen: Die −→ −−→ −→ Summe von zwei Vektoren der Form AB und BC ist der Vektor AC. Uns interessiert vor allem die Übertragung dieser Idee auf die freien Vektoren. Dazu muss man die Addition durch komponentenweise Addition der Koordinaten realisieren, d.h. (s1 , s2 ) + (t1 , t2 ) = (s1 + t1 , s2 + t2 ). Zur Veranschaulichung der Addition von zwei freien Vektoren, die durch entsprechende Ortsvektoren gegeben sind, konstruiert man ein Parallelogramm, dessen vom Koordinatenursprung abgehende Diagonale die Summe der zwei Vektoren repräsentiert. v w v+w w v Durch die Parallelogrammkonstruktion wird auch die Kommutativität der Vektoraddition sehr gut veranschaulicht. Zu jedem freien Vektor ~v kann man durch Umkehrung der Vorzeichen bei allen Komponenten den sogenannten inversen Vektor −~v kon−→ struieren, der sich durch die Eigenschaft ~v + (−~v ) = ~0 auszeichnet. Ist AB ein −→ Repräsentant von ~v , dann ist BA ein Repräsentant von −~v . Multiplikation mit Skalaren Freie Vektoren können verlängert oder verkürzt (skaliert) werden, indem die Länge des Vektors ~v mit einem bestimmten Faktor multipliziert wird, aber die Richtung gleich bleibt. Diese Faktoren - man nennt sie Skalare - können zunächst beliebige positiv-reelle Zahlen sein, aber auch negative Zahlen r ∈ R kommen in Frage, wenn man den inversen Vektor −~v mit dem Absolutbetrag |r| skaliert. Die Skalierung eines Vektors ~v = (s1 , s2 ) mit einem Faktor r ∈ R wird als Multiplikation r · ~v notiert und durch die Regel r · (s1 , s2 ) = (rs1 , rs2 ) ausgeführt. Verbindung zu linearen Gleichungssystemen und geometrischen Fragen Durch Anwendung von Multiplikation mit Skalaren und Vektoraddition entstehen sogenannte Linearkombinationen von Vektoren, also Ausdrücke der Form r1 · v~1 +. . .+ rk · v~k . Ein wichtiges Problem, mit dem wir uns genauer beschäftigen werden, ist die 52 Frage, ob ein bestimmter Vektor ~v als Linearkombination aus vorgegebenen Vektoren v~1 , v~2 , . . . , v~k erzeugt werden kann. Wir demonstrieren den Zusammenhang zwischen dieser Frage, der Lösung von linearen Gleichungssystemen und einem geometrischen Problem an einem Beispiel im dreidimensionalen Raum. Problem 1: Kann man den Vektor ~v = (−1, 2, 5) als Linearkombination aus den Vektoren v~1 = (5, 4, 3) und v~2 = (3, 1, −1) darstellen? Problem 2: Hat das folgende lineare Gleichungssystem eine Lösung? 5α + 3β = −1 4α + β = 2 3α − β = 5 Problem 3: Liegt der Punkt (−1, 2, 5) in der Ebene, die von den Punkten (0, 0, 0), (5, 4, 3) und (3, 1, −1) aufgespannt wird? Man kann sich leicht von der Gleichwertigkeit der drei Probleme überzeugen: Eine konkrete Lösung des Gleichungssystems würde die Koeffizienten für die Linearkombination von ~v liefern und zeigen, wie man den Ortsvektor des Punkts (−1, 2, 5) aus den Ortsvektoren der Punkte (5, 4, 3) und (3, 1, −1) erzeugen könnte. Umgekehrt wären Koeffizienten einer Linearkombination von ~v aus v~1 und v~2 auch Lösungen des Gleichungssystems, usw. Wir werden die lineare Algebra als eine Theorie kennenlernen, die es erlaubt, Probleme wie die oben genannten in ihrer allgemeinsten Form zu lösen und Zusammenhänge zu weiteren interessanten Fragestellungen herzustellen. 5.2 Gruppen und Körper In diesem Abschnitt wollen wir uns damit beschäftigen, welche mathematischen Strukturen geeignet sind, Skalare eines Vektorraums zu beschreiben. Mit diesem strukturellen Ansatz werden die Gemeinsamkeiten bzw. Analogien zwischen den verschiedenen Zahlenbereichen, aber auch zu anderen mathematischen Objekten herausgearbeitet. Eine mathematische Struktur wird in der Regel durch eine Trägermenge, Operationen auf dieser Trägermenge und Eigenschaften dieser Operationen beschrieben. Definition: Eine Gruppe (G, ∗) besteht aus einer Trägermenge G und einer Operation ∗ : G × G −→ G mit den folgenden drei Eigenschaften: (G1) ∀a, b, c ∈ G (a ∗ b) ∗ c = a ∗ (b ∗ c) (G2) ∃e ∈ G ∀a ∈ G a ∗ e = a = e ∗ a (e ist neutrales Element) (G3) ∀a ∈ G ∃ā ∈ G a ∗ ā = e = ā ∗ a (ā ist das zu a inverse Element) (Assoziativität) (G, ∗) ist kommutative (abelsche) Gruppe, falls zudem ∀a, b ∈ G a ∗ b = b ∗ a gilt. 53 Ist für ein Paar (G, ∗) die Eigenschaft (G1) erfüllt, spricht man von einer Halbgruppe und sind die Eigenschaften (G1) und (G2) erfüllt, spricht man von einem Monoid. Beispiele: • (Z, +) ist eine kommutative Gruppe. • (N, +) erfüllt mit e = 0 nur die Kriterien (G1) und (G2) und ist deshalb ein Monoid. • (N+ , +) erfüllt nur das Kriterium (G1) und ist damit eine Halbgruppe. • (Q, +) ist eine Gruppe. • (Q, ·) ist ein Monoid (kein zu 0 inverses Element). • (Q \ {0}, ·) ist eine Gruppe. • (S(M ), ◦), wobei S(M ) die Menge der bijektiven Funktionen von M auf M und ◦ die Funktionskomposition darstellen, ist eine Gruppe. Dabei bildet die identische Funktion IdM das neutrale Element und die inversen Elemente sind durch die Umkehrfunktionen f −1 gegeben. • Bezeichne Bn die Menge aller n-stelligen Booleschen Funktionen und ∨, ∧, ⊕ die Operationen Disjunktion, Konjunktion und Antivalenz. • (Bn , ∨) ist ein Monoid, wobei das neutrale Element die Überall-Null-Funktion ist. • (Bn , ∧) ist ein Monoid, wobei das neutrale Element die Überall-Eins-Funktion ist. • (Bn , ⊕) ist eine Gruppe wobei das neutrale Element wieder durch die Überall-Null-Funktion gestellt wird und jede Funktion zu sich selbst invers ist. Definition: Ein Körper (K, ⊕, ) besteht aus einer Menge K und zwei Operationen ⊕, : K × K −→ K mit den folgenden Eigenschaften: (K1) (K, ⊕) ist eine kommutative Gruppe mit einem neutralen Element 0. (K2) (K \ {0}, ) ist eine kommutative Gruppe mit einem neutralen Element 1. (K3) ∀a, b, c ∈ K a (b ⊕ c) = a b ⊕ a c. Das zu einem a ∈ K ⊕-inverse Element wird mit −a bezeichnet. Ist a 6= 0, dann bezeichent man das -inverse Element mit a−1 oder mit a1 . Beispiele: • (Q, +, ·) ist ein Körper. 54 • (R, +, ·) ist ein Körper. • (C, +, ·) ist ein Körper. • (Z, +, ·) ist kein Körper. • Für jede Primzahl p bezeichne Zp die Menge {0, 1, . . . , p − 1} der möglichen Reste beim Teilen durch p. Definiert man darauf die Operationen Addition modulo p und Multiplikation modulo p entsteht ein Körper. Der Beweis, dass immer inverse Elemente bezüglich der Multiplikation existieren und Methoden zur Berechnung dieser Elemente, werden später besprochen. Schlussfolgerungen aus den Axiomen: Ein wesentlicher Vorteil der strukturellen Betrachtungen zeigt sich darin, dass man Sätze über Strukturen beweisen kann, die dann in jedem konkreten Exemplar der Struktur gültig sind und somit angewendet werden können. Exemplarisch werden hier ein paar einfache Schlussfolgerungen aus den Gruppen- und Körperaxiomen vorgestellt. 1. Das neutrale Element in einer Gruppe ist eindeutig. Beweis: Angenommen zwei Elemente e und e0 einer Gruppe erfüllen (G2). Dann wäre e ∗ e0 = e0 wegen (G2) für e und e ∗ e0 = e wegen (G2) für e0 . Damit muss e = e0 sein, d.h. das neutrale Element ist eindeutig. 2. In einer Gruppe ist für jedes Element a ∈ G das zu a inverse Element eindeutig. Beweis: Angenommen ā und ã erfüllen beide (G3). Wir betrachten das Gruppenelement b = (ā ∗ a) ∗ ã: (ā ∗ a) ∗ ã = b = ā ∗ (a ∗ ã) e ∗ ã = b = ā ∗ e ã = b = ā |(G1) |(G3) für ā und für ã |((G2)) 3. In einer Gruppe hat jede Gleichung der Form (a ∗ x) ∗ b = c eine eindeutige Lösung für die Variable x. Beweis: Die Gleichung wird äquivalent umgeformt, d.h. jeder Schritt der Umformung ist auch umkehrbar. Werden beide Seiten der Gleichung von rechts mit dem zu b inversen Element verknüpft, und auf der linken Seite (G3) und (G2) angewendet, enhält man (a ∗ x) ∗ b = c ⇐⇒ a ∗ x = c ∗ b̄ Werden analog beide Seiten der neuen Gleichung von links mit ā verknüpft, so ergibt sich die eindeutige Lösung der Gleichung: a ∗ x = c ∗ b̄ ⇐⇒ x = ā ∗ (c ∗ b̄) 55 4. In einem Körper hat jede Gleichung der Form a x ⊕ b = c eine eindeutige Lösung, wenn a 6= 0 ist. Beweis: Man verwendet das Symbol −b für das bezüglich ⊕ zu b inverse Element und a−1 für das bezüglich zu a inverse Element und erreicht mit ähnlichen Umformungen wie beim dritten Punkt die folgende Äquivalenz: a x ⊕ b = c ⇐⇒ x = a−1 ∗ (c ⊕ −b) Die nützliche Eigenschaft der eindeutigen Lösbarkeit beschränkt sich in Körpern im Allgemeinen auf lineare Gleichungen. Eine einfache quadratische Gleichung, wie x x = 2 ist im Körper der rationalen Zahlen nicht lösbar. 5.3 Vektorräume In allen nachfolgenden Betrachtungen wird K einen Körper mit den Operationen + und · und den neutralen Elementen 0 und 1 bezeichnen. Definition: Ein Vektorraum (abgekürzt VR) über dem Körper K besteht aus einer Menge V mit zwei Operationen ⊕ : V ×V → V und : K×V → V mit den folgenden Eigenschaften: • (V, ⊕) ist eine kommutative Gruppe mit neutralem Element ~0 (~v bezeichnet das ⊕-inverse Element zu ~v ) • ∀ λ, µ ∈ K ∀ ~v ∈ V λ (µ ~v ) = (λ · µ) ~v • ∀ ~v ∈ V 1 ~v = ~v • ∀ λ, µ ∈ K ∀ ~v ∈ V (λ + µ) ~v = (λ ~v ) ⊕ (µ ~v ) • ∀ λ ∈ K ∀ ~v , w ~ ∈ V λ (~v ⊕ w) ~ = (λ ~v ) ⊕ (λ w) ~ Beispiele: 1. Der reelle Vektorraum Rn über dem Körper R: V = Rn = {(x1 , . . . , xn ) | xi ∈ R} Die Addition und Multiplikation mit Skalaren erfolgen komponentenweise: (x1 , . . . , xn ) ⊕ (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn ) λ (x1 , . . . , xn ) = (λx1 , . . . , λxn ) Es ist offensichtlich, dass (0, . . . , 0) der Nullvektor ist und dass man inverse Vektoren durch komponentenweise Umkehrung des Vorzeichens erhält: (x1 , . . . , xn ) = (−x1 , . . . , −xn ) 56 2. Die auf dem Intervall [0, 1] definierten reellwertigen Funktionen bilden einen Vektorraum über dem Körper R: V = {f | f : [ 0, 1 ] → R} Die Addition von zwei Funktionen f, g ∈ V und die Multiplikation einer Funktion f mit einem Skalar λ ergeben neue Funktionen f ⊕ g bzw. λ f , die wie folgt punktweise definiert werden: (f ⊕ g)(x) = f (x) + g(x) (λ f )(x) = λ · (f (x)) 3. Die reellen Zahlen R sind ein Vektorraum über dem Körper Q. Bemerkung 1: Die Frage, ob man Vektoren des Rn in Zeilen- oder Spaltenform schreibt, ist zunächst zweitrangig. Hier haben wir uns aus Platzgründen für die Zeilenform entschieden, aber insbesondere wenn lineare Abbildungen durch Matrizen repräsentiert werden, muss man die Spaltenform nutzen. Bemerkung 2: Die Verwendung von verschiedenen Symbolen für die Addition von Vektoren und von Skalaren hat rein didaktischen Charakter. Ab jetzt werden wir in beiden Fällen das übliche + verwenden. Welche Operation anzuwenden ist, ergibt sich eindeutig aus dem Kontext. Gleiches gilt für die Multiplikationen und für die Subtraktion, welche eigentlich als Addition des inversen Elements zu verstehen ist, d.h. ~v − w ~ := ~v ⊕ (w). ~ Unterräume Definition: Eine nichleere Teilmenge U eines Vektorraums V über K wird Unterraum oder genauer Untervektorraum von V (abgekürzt UR) genannt, falls • ∀ ~v , w ~ ∈U ~v + w ~ ∈U • ∀ ~v ∈ U ∀ λ ∈ K λ~v ∈ U Diese Eigenschaften bedeuten, dass die Menge U abgeschlossen gegen Vektoraddition und Multiplikation mit Skalaren sein muss. Beispiele: 1. Für den Vektorraum V = Rn = {(x1 , . . . , xn ) | xi ∈ R} ist die Teilmenge U = {(x1 , x2 , 0, . . . , 0) | x1 , x2 ∈ R} ein Unterraum von V . 2. Für den Vektorraum V = {f | f : [0, 1] → R} sind die Teilmengen • U = {f | f : [0, 1] → R, f ist stetig} und • U 0 = {f | f : [0, 1] → R, f ist linear, d.h. f (x) = ax + b} Unterräume von V . 3. Betrachtet man V =√R als Vektorraum über dem Körper Q, dann ist die Teilmenge U = {q1 + q2 2 | q1 , q2 ∈ Q} ein Unterraum von V . 57 Satz: Sei V ein Vektorraum T über einem Körper K und {Ui | i ∈ I} eine Familie von Unterräumen, dann ist Ui auch ein Unterraum von V . i∈I Beweis: Sei ~u, ~v ∈ T Ui und λ ∈ K, dann gilt i∈I • ~u und ~v sind Elemente von allen Ui • ~u + ~v und λ~u sind Elemente von allen Ui T T Daraus folgt, dass ~u + ~v ∈ Ui und λ~u ∈ Ui . i∈I i∈I Beispiel: Durchschnitt von xy-Ebene und der yz-Ebene im R3 ist die y-Achse. 1111111111111111111 0000000000000000000 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 000000 111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 000000 0000000000000000000 1111111111111111111 0000000000000000000111111 1111111111111111111 000000 111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 000000 111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 000000 111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 000000 111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 000000 111111 0000000000000000000 1111111111111111111 00000000 11111111 0000000000000000000 1111111111111111111 000000 00000000 11111111 0000000000000000000111111 1111111111111111111 000000 111111 00000000 11111111 0000000000000000000 1111111111111111111 000000 111111 00000000 11111111 0000000000000000000 1111111111111111111 000000 111111 00000000 11111111 0000000000000000000 1111111111111111111 000000 111111 x 000000001111111111111111111 11111111 0000000000000000000 000000 00000000 11111111 0000000000000000000111111 1111111111111111111 000000 111111 00000000 11111111 000000 0000000000000000000111111 1111111111111111111 00000000 11111111 0000000000000000000 1111111111111111111 00000000 11111111 0000000000000000000 1111111111111111111 000000001111111111111111111 11111111 0000000000000000000 00000000 11111111 0000000000000000000 1111111111111111111 00000000 11111111 0000000000000000000 000000001111111111111111111 11111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 0000000000000000000 1111111111111111111 y z Die folgenden zwei Beobachtungen sollten als Übung leicht zu beweisen sein. Ist U ein Unterraum eines Vektorraums V , dann gilt: • Der Nullvektor ~0 gehört zu U ; • Für jeden Vektor ~u ∈ U gehört auch der inverse Vektor −~u zu U . Linearkombinationen und lineare Hülle Definition: Sind ~v1 , ~v2 , . . . , ~vk ∈ V paarweise verschiedene Vektoren und λ1 , λ2 , . . . , λk ∈ K beliebige Skalare, so nennt man den Vektor λ1~v1 + λ2~v2 + . . . + λk~vk eine Linearkombination (abgekürzt LK) aus den Vektoren ~v1 , ~v2 , . . . , ~vk . Lemma: Sei M ⊆ V eine Teilmenge eines Vektorraums V , dann bildet die Menge UM aller Linearkombinationen von Vektoren aus M einen Unterraum von V . Beweis: Man muss die Abgeschlossenheit von UM bezüglich Vektoraddition und Multiplikation mit Skalaren nachweisen. Dazu betrachten wir ein Skalar α ∈ K und zwei Vektoren aus UM : 58 • ~v = λ1~v1 + λ2~v2 + . . . + λk~vk mit v~i ∈ M für 1 ≤ i ≤ k • w ~ = µ1 w ~ 1 + µ2 w ~ 2 + . . . + µl w ~ l mit w ~ i ∈ M für 1 ≤ i ≤ l Abgeschlossenheit bezüglich Multiplikation mit Skalaren: α~v = α(λ1~v1 + λ2~v2 + . . . + λk~vk ) = (αλ1 )~v1 + (αλ2 )~v2 + . . . + (αλk )~vk ∈ UM Um die Abgeschlossenheit bezüglich Addition zu zeigen, nehmen wir oBdA. an (Kommutativgesetz anwenden), dass alle Vektoren, die in den Linearkombinationen von ~v und w ~ gemeinsam auftreten (die Anzahl sei j), linksbündig stehen, d.h. v~i = w ~ i für alle i zwischen 1 und j und {~vj+1 , . . . , v~k } ∩ {w ~ j+1 , . . . , w ~ l } = ∅. Dieser kleine technische Trick ist notwendig, um eine Linearkombination von paarweise verschiedenen Vektoren zu konstruieren: ~v + w ~ = (λ1~v1 + λ2~v2 + . . . + λk~vk ) + (µ1 w ~ 1 + µ2 w ~ 2 + . . . + µ w) ~ = (λ1 + µ1 )v~1 + . . . + (λj + µj )~ vj + λj+1~vj+1 + . . . + λk v~k + µj+1 w ~ j+1 + . . . + µl w ~l Damit liegt ~v + w ~ als Linearkombination von Vektoren aus M auch in UM . Definition: Sei M ⊆ V eine Menge von Vektoren, dann ist die lineare Hülle Lin(M ) von M der kleinste Unterraum von V (bezüglich Inklusion), der M enthält, d.h. \ Lin(M ) = U U ist UR von V M ⊆U Satz: Die lineare Hülle einer Menge M ⊆ V ist die Menge aller Linearkombinationen der Vektoren aus M , d.h. Lin(M ) = {λ1~v1 + . . . + λk~vk | λi ∈ K, ~vi ∈ M } Beweis: Einerseits bildet die Menge UM aller Linearkombinationen von Vektoren aus M einen Unterraum (Lemma). Andererseits enthält jeder Unterraum U , der M enthält, auch alle Linearkombinationen von Vektoren aus M (Abgeschlossenheit von Unterräumen bezüglich der Addition und der Multiplikation mit Skalaren). Daraus folgt, dass UM der kleinste Unterraum ist, der M enthält. 5.4 Lineare Unabhängigkeit, Basis und Dimension Definition: Eine Menge {~v1 , ~v2 , . . . , ~vk } von k Vektoren heißt linear abhängig (l.a.), wenn eine Linearkombination existiert, mit λ1~v1 + λ2~v2 + . . . + λk~vk = ~0 wobei mindestens ein λi 6= 0 ist. Eine solche Linearkombination nennt man nichttriviale Linearkombination des Nullvektors. 59 Definition: Eine Menge M ⊆ V ist linear unabhängig, wenn es keine nichttriviale Linearkombination des Nullvektors von Vektoren aus M gibt. Folgerung: Eine Menge M ⊆ V ist linear unabhängig, wenn jede endliche Teilmenge von M linear unabhängig ist. Bemerkung 1: Man kann die Definition der linearen Unabhängigkeit auch sinngemäß auf Folgen von Vektoren anwenden. In diesem Fall reicht die Wiederholung eines Vektors in der Folge aber schon aus, lineare Abhängigkeit zu erzeugen, denn wenn v~i = v~j ist, dann ist 1 · v~i + (−1) · v~j einen nichttriviale Linearkombination des Nullvektors. Bemerkung 2: Aus ~0 ∈ M folgt lineare Abhängigkeit, denn ~0 = 1 · ~0 ist eine nichttriviale Linearkombination des Nullvektors. Beispiele: 1. Die Vektoren 0 v~1 = 1 , 1 1 v~2 = 1 ∈ R3 1 sind linear unabhängig, denn für jede Linearkombination λ1 v~1 + λ2 v~2 = ~0 gilt 0 = λ2 0 = λ1 + λ2 0 = λ1 + λ2 und daraus folgt, λ1 = λ2 = 0. 2. Im Vektorraum V = {f | f : [ 0, 1 ] → R} sind die Funktionen f und g, die durch f (x) = x+1 und g(x) = 2 definiert sind, linear unabhängig, denn für jede Linearkombination λf + µg, die den Nullvektor, also die Funktion h0 (x) = 0 ergibt, wäre h0 (0) = 0 = λf (0) + µg(0) = λ + 2µ h0 (1) = 0 = λf (1) + µg(1) = 2λ + 2µ und daraus folgt, λ = µ = 0. Satz: Für jede Teilmenge M eines Vektorraums V sind die folgenden Aussagen äquivalent: 1. Die Menge M ist linear unabhängig. 2. Kein Vektor ~v ∈ M kann als Linearkombination aus den übrigen Vektoren aus M dargestellt werden. 3. Jeder Vektor ~v ∈ Lin(M ) hat eine eindeutige Darstellung als Linearkombination aus M . 60 Beweis: Der Satz wird über die negierten Aussagen nach folgendem Schema bewiesen: ¬(1) ⇒ ¬(2) ⇒ ¬(3) ⇒ ¬(1) 1. Schritt 2. Schritt 3. Schritt Zuerst formulieren wir die Negationen der drei Aussagen: ¬(1): Es gibt eine nichttriviale Linearkombination von ~0. ¬(2): Es gibt einen Vektor ~v ∈ M , der Linearkombination der übrigen Vektoren ist. ¬(3): Es gibt einen Vektor ~v ∈ Lin(M ) mit verschiedenen Linearkombinationen aus M. Die drei Implikationen aus dem Schema kann man wie folgt beweisen. • Schritt 1: Angenommen es gibt eine nichttriviale Linearkombination von ~0: ~0 = λ1~v1 + λ2~v2 + . . . + λk~vk mit ~v1 , ~v2 , . . . , ~vk ∈ M , λ1 , λ2 , . . . , λk ∈ K und ∃ λi 6= 0. Ohne Beschränkung der Allgemeinheit können wir λ1 6= 0 annehmen. Diese Gleichung wird in zwei Schritten nach ~v1 umgestellt: (−λ1 )~v1 = λ2~v2 + λ3~v3 + . . . + λk~vk ~v1 = (−λ1 )−1 λ2~v2 + (−λ1 )−1 λ3~v3 + . . . + (−λ1 )−1 λk~vk Damit ist ~v1 eine Linearkombination aus den übrigen Vektoren aus M . • Schritt 2: Angenommen es gibt einen Vektor ~v , der Linearkombination der übrigen Vektoren ist: ~v = λ1~v1 + λ2~v2 + . . . + λk~vk wobei ~v 6∈ {~v1 , . . . , ~vk }. Damit existieren mindestens zwei verschiedene Linearkombinationen von ~v : ~v = 1 · ~v + 0 · ~v1 + 0 · ~v2 + . . . + 0 · ~vk = 0 · ~v + λ1 · ~v1 + λ2 · ~v2 + . . . + λk · ~vk • Schritt 3: Angenommen, es existiert ein Vektor ~v ∈ Lin(M ) mit zwei verschiedenen Linearkombinationen aus M : ~v = λ1~u1 + λ2~u2 + . . . + λm~um = µ1 w ~ 1 + µ2 w ~ 2 + . . . + µn w ~n Dann betrachten wir die Vereinigung der zwei Vektormengen {~u1 , ~u2 , . . . , ~um } ∪ {w ~ 1, w ~ 2, . . . , w ~ n } = {~v1 , ~v2 , . . . , ~vk } ⊆ M 61 und erweitern die beiden gegebenen Linearkombinationen zu Linearkombinationen über dieser Vereinigung, indem für die Koeffizienten der jeweils fehlenden Vektoren Nullen gesetzt werden: ~v = λ01~v1 + λ02~v2 + . . . + λ0k~vk = µ01~v1 + µ02~v2 + . . . + µ0k~vk wobei λ0i = λj 0 falls ~vi = ~uj sonst und µ0i = µj 0 falls ~vi = w ~j sonst Da auch diese Linearkombinationen verschieden sind, gibt es ein i0 , so dass λ0i0 6= µ0i0 . Durch Subtraktion der beiden Gleichungen ergibt sich ~0 = ~v − ~v = (λ01~v1 + λ02~v2 + . . . + λ0k~vk ) − (µ01~v1 + µ02~v2 + . . . + µ0k~vk ) = (λ01 − µ01 )~v1 + . . . + (λ0i0 − µ0i0 ) ~vi0 + . . . + (λ0k − µ0k )~vk | {z } 6=0 Damit wurde die Existenz einer nichttrivialen Linearkombination von ~0 abgeleitet. Erzeugendensystem und Basis Definition: Eine Teilmenge M ⊆ V heißt Erzeugendensystem von V , wenn die lineare Hülle von M der Vektorraum V ist, d.h. wenn Lin(M ) = V . Definition: Eine Teilmenge M ⊆ V heißt Basis von V , wenn sie ein Erzeugendensystem von V und linear unabhängig ist. Folgerung: Eine Teilmenge M ⊆ V ist genau dann eine Basis von V , wenn jeder Vektor ~v ∈ V eine eindeutige Darstellung als Linearkombination aus M hat. Beispiele: • Die Vektoren 1 0 ~e1 = .. , . 0 0 1 ~e2 = .. , . 0 0 0 . . . , ~en = .. . 1 bilden eine Basis des Vektorraums Rn , welche man kanonische Basis oder Standardbasis von Rn nennt. Zum Nachweis der Basiseigenschaften reicht die 62 Überlegung, dass jeder Vektor aus Rn eindeutig als Linearkombination darstellbar ist: a1 a2 .. = a1~e1 + a2~e2 + . . . + an~en . an • Die Vektoren 1 0 ~v1 = ~e1 = .. , . 0 1 1 ~v2 = ~e1 + ~e2 = .. , . 0 1 1 . . . , ~vn = ~e1 + . . . + ~en = .. . 1 bilden eine andere Basis des Vektorraums Rn . Satz: Für jede Teilmenge M ⊆ V sind die folgenden Bedingungen äquivalent: 1. Die Menge M ist Basis von V . 2. Die Menge M ist ein minimales Erzeugendensystem von V . 3. Die Menge M ist eine maximale linear unabhängige Menge. Die Begriffe ”‘minimal”’ und ”‘maximal”’ beziehen sich dabei auf die Inklusionsrelation von Mengen. Während man die Äquivalenz der ersten beiden Bedingungen aus dem Satz über die verschiedenen Charakterisierungen der linearen Unabhängigkeit ableiten kann, hilft bei der Äquivalenz zwischen der ersten und der dritten Bedingung das folgende Lemma. Lemma: Ist eine Teilmenge M ⊆ V linear unabhängig und der Vektor ~v ∈ V nicht in der linearen Hüllen von M , dann ist die Menge M ∪ {~v } ebenfalls linear unabhängig. Beweis (indirekt): Angenommen M ∪{~v } wäre linear abhängig, dann existiert eine nichttriviale Linearkombination ~0 = λ1~v1 + λ2~v2 + . . . + λk~vk + λ~v in der λ 6= 0 sein muss, denn anderenfalls wäre das eine nichttriviale Linearkombination des Nullvektors über M . Durch Gleichungsumstellung ergibt sich ~v = (−λ)−1 λ1~v1 + (−λ)−1 λ2~v2 + . . . + (−λ)−1 λk~vk Damit ist ~v ∈ Lin(M ), ein Widerspruch zur Annahme. Basisergänzungssatz von Steinitz : Sei V ein Vektorraum über dem Körper K, M = {v~1 , . . . , v~k } eine linear unabhängige Teilmenge von V und N = {w~1 , . . . , w ~l} 63 eine weitere endliche Teilmenge von V , so dass die Vereinigung M ∪ N ein Erzeugendensystem von V ist. Dann kann man die Menge M durch eventuelle Hinzunahme von Vektoren aus der Menge N zu einer Basis des Vektorraumes V erweitern. Beweisidee: Man beweist diesen Satz mit vollständiger Induktion nach l = |N |. • Der Induktionsanfang mit l = 0 ist einfach, denn dann ist M nach den Voraussetzungen bereits eine Basis und muss nicht ergänzt werden. • Für den Induktionsschritt von l − 1 nach l macht man eine Fallunterscheidung: 1. Ist Lin(M ) = V , dann ist M bereits eine Basis. 2. Ist Lin(M ) 6= V , dann muss es ein w ~ i ∈ N geben, das nicht zu Lin(M ) gehört (anderenfalls wäre Lin(M ∪ N ) = Lin(M ) 6= V ). Nach obigen Lemma ist dann die Menge M 0 = M ∪ {w ~ i } linear unabhängig und das 0 0 Mengenpaar M und N = N \ {w ~ i } erfüllt die Induktionsvoraussetzung, 0 weil |N | = l − 1. Folglich kann man M 0 durch eventuelle Hinzunahme von Vektoren aus der Menge N 0 zu einer Basis des Vektorraumes V erweitern. 1 1 0 , 1 und N die Standardbasis von R3 . Beispiel: Sei M = 0 0 Der Vektor ~e1 ist bereits in M2 enthalten und damit keine geeignete Ergänzung für M . Der Vektor ~e2 ist auch keine Basisergänzung, weil M ∪ {~e2 } linear abhängig wäre, doch der dritte Vektor ~e3 ergänzt die Menge M zu einer Basis. Die folgenden zwei Aussagen sind unmittelbare Konsequenzen aus dem Basisergänzungssatz. Austauschlemma: Sind die Mengen {~v1 , ~v2 , . . . , ~vn } und {w ~ 1, w ~ 2, . . . , w ~ m } zwei Basen eines Vektorraums V , dann gibt es für jeden Vektor ~vi einen Vektor w ~ j , so dass die Menge ({~v1 , ~v2 , . . . , ~vn } \ {~vi }) ∪ {w ~ j } ebenfalls Basis von V ist, d.h. man kann in der ersten Basis v~i gegen w~j . austauschen. Satz: Besitzt ein Vektorraum V eine endliche n-elementige Basis, dann ist jede andere Basis von V auch endlich und hat n Elemente. Beweis: Sei eine n-elementige Basis B1 und eine weitere Basis B2 von V gegeben. Wendet man auf B1 n-mal das Austauschlemma an, so entsteht einen Basis B von V , die keine Elemente aus B1 , sondern nur Elemente aus B2 enthält. Da man weiß, dass kein Element aus B2 mehrfach eingetauscht wurde (anderenfalls würde lineare Abhängigkeit entstehen), müssen es genau n Elemente sein. Damit ist |B1 | = n ≤ |B2 |. Andererseits kann B2 nicht mehr als n Elemente haben, denn B ⊆ B2 ist bereits ein Erzeugendensystem von V und B2 ist als Basis von V ein minimales Erzeugendensystem. 64 Dimension Definition: Besitzt ein Vektorraum V eine endliche Basis {~v1 , ~v2 , . . . , ~vn }, dann nennt man V einen endlich-dimensionalen und konkreter einen n-dimensionalen Vektorraum. Die Dimension des Raums wird mit dem Symbol dim V = n bezeichnet. Ein Vektorraum, der keine endliche Basis besitzt, wird unendlich-dimensional genannt und man verwendet dafür die formale Schreibweise dim V = ∞. Satz: Ist M = {~v1 , ~v2 , . . . , ~vk } eine Teilmenge eines Vektorraums V mit k > dim V , so ist M linear abhängig. Beweis: Wäre M linear unabhängig, könnte man durch k-fache Anwendung des Basisergänzungssatzes die Vektoren aus M gegen Vektoren einer Basis von V austauschen. Da dabei zwangsläufig mindestens ein Basisvektor mehrfach in M eingefügt werden müsste, entstünde lineare Abhängigkeit - ein Wiederspruch. Satz: Jeder Vektorraum besitzt eine Basis. Dieser Satz ist von fundamentaler Bedeutung, aber leider übersteigt sein Beweis unsere bisher zur Verfügung stehenden mathematischen Mittel. Deshalb kann er im Rahmen dieser Vorlesung nur genannt, aber nicht bewiesen werden. Im Gegensatz dazu sind die folgenden Aussagen einfache Konsequenzen aus dem Basisergänzungssatz und dem Austauschlemma. Satz: Ist die Dimension eines Vektorraumes V endlich und U ein Unterraum von V , i) dim U ≤ dim V dann gilt: ii) dim U < dim V ⇔ U 6= V Definition: Sind U1 und U2 Unterräume von V , so nennt man die Menge U1 + U2 = {~x + ~y | ~x ∈ U1 , ~y ∈ U2 } die Summe von U1 und U2 . Beispiel: Sei V = R4 mit den Unterräumen U1 = Lin({~e1 , ~e2 , ~e4 }) und U2 = Lin({~e1 , ~e3 , ~e4 }) sowie U3 = Lin({~e1 + ~e2 , ~e1 + ~e4 }) , dann ist U1 + U2 = R4 und U1 + U3 = U1 Satz: Die Summe von zwei Unterräumen ist ein Unterraum. Für zwei endlich-dimensionale Unterräume U1 und U2 gilt: dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) Beweisidee: • Die Abgeschlossenheit von U = U1 + U2 bezüglich Addition und Multiplikation mit Skalaren ist trivial. • Sei B = {~v1 , ~v2 , . . . , ~vr } eine Basis von U1 ∩ U2 . 65 • Wir ergänzen B zu einer Basis B1 von U1 : B1 = {~v1 , ~v2 , . . . , ~vr , ~u1 , ~u2 , . . . , ~us } • Wir ergänzen B zu einer Basis B2 von U2 : B2 = {~v1 , ~v2 , . . . , ~vr , w ~ 1, w ~ 2, . . . , w ~ t} • Man weist nach, dass B1 ∪ B2 = {~v1 , ~v2 , . . . , ~vr , ~u1 , ~u2 , . . . , ~us , w ~ 1, w ~ 2, . . . , w ~ t} eine Basis von U = U1 + U2 ist. • Damit gilt für die Dimensionen: dim(U1 + U2 ) = r + s + t = r + s + r + t − r = dim U1 + dim U2 − dim(U1 ∩ U2 ) Beispiele: • Sei V = R3 , der Unterraum U1 eine Ebene durch den Koordinatenursprung und der Unterraum U2 eine Gerade durch den Koordinatenursprung, die aber nicht in U1 liegt. Dann ist dim U1 = 2, dim U2 = 1 und dim(U1 ∩ U2 ) = 0 (wegen U1 ∩ U2 = {~0}). Aus dem Satz folgt dann: dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 2 + 1 − 0 = 3 Damit ist U1 + U2 = R3 . • Sind U1 und U2 zwei verschiedene Unterräume des Rn mit dim U1 = dim U2 = n − 1, dann ist U1 + U2 = Rn und folglich dim (U1 ∩ U2 ) = n − 2. 5.5 Lineare Abbildungen Definition: Seien V und W zwei Vektorräume über einem Körper K. Eine Abbildung f : V → W heißt linear (oder Vektorraumhomomorphismus), wenn für alle ~v , w ~ ∈ V und für alle λ ∈ K gilt: f (~v + w) ~ = f (~v ) + f (w) ~ f (λ · ~v ) = λ · f (~v ) Hom(V, W ) bezeichnet die Menge aller linearer Abbildungen f : V → W . Beobachtungen: • Sei f ∈ Hom(V, W ), dann gilt: f (λ1~v1 + λ2~v2 + . . . + λk~vk ) = λ1 · f (~v1 ) + λ2 · f (~v2 ) + . . . + λk · f (~vk ) für alle ~v1 , ~v2 , . . . , ~vk ∈ V und alle λ1 , λ2 , . . . , λk ∈ K. • Die Verknüpfung von linearen Abbildungen f : V → W und g : W → Y ist eine lineare Abbildung gf : V → Y , wobei die Verknüpfung wie folgt operiert: gf (~v ) = g(f (~v )) 66 • Die Menge aller linearen Abbildungen Hom(V, W ) ist selbst ein Vektorraum mit den Operationen: • (f + g)(~v ) = f (~v ) + g(~v ) • (λ · f )(~v ) = λ · f (~v ) Dazu muss man nur nachprüfen, dass für alle f, g ∈ Hom(V, W ) und λ ∈ K die Abbildungen f +g und λ·f auch linear sind. Das kann man aus den Definitionen der Operationen in Hom(V, W ), den Eigenschaften von linearen Abbildungen und den Vektorraumeigenschaften ableiten: (f + g)(~u + ~v ) = = = = f (~u + ~v ) + g(~u + ~v ) f (~u) + f (~v ) + g(~u) + g(~v ) f (~u) + g(~u) + f (~v ) + g(~v ) (f + g)(~u) + (f + g)(~v ) Analog erfolgt auch die Ableitung der drei anderen Bedingungen: (λ · f )(~u + ~v ) = (λ · f )(~u) + (λ · f )(~v ) (f + g)(µ~u) = µ(f + g)(~u) (λ · f )(µ~u) = µ(λ · f )(~u) Eine Reihe häufig verwendeter geometrischer Transformationen, wie Drehungen um den Koordinatenursprung, Spiegelungen an Geraden bzw. Ebenen, die durch den Koordinatenursprung verlaufen, sowie Projektionen auf solche Geraden und Ebenen sind lineare Abbildungen. Die folgenden Beispiele demonstrieren das in der Ebene: x x a) Die Spiegelung an der x-Achse erfolgt durch die Abbildung f = y −y x y b) Die Spiegelung an der Geraden y = x erfolgt durch g = y x 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 y=x 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 11 00 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 v 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 111 000 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 g(v) 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 0 1 000000000000000 111111111111111 0000000 1111111 0000000000000000 1111111111111111 11111111111111111111111111 00000000000000000000000000 0 1 x 1111111111111111 0000000000000000 0 1 0000000000000000 1111111111111111 0 1 0000000000000000 1111111111111111 0 1 0000000000000000 1111111111111111 0 1 0000000000000000 1111111111111111 0 1 0 y 1 67 x 0 c) Die Projektion auf die y-Achse erfolgt durch die Abbildung h = y y d) Die Drehung um 45 in R2 erfolgt durch eine Abbildung j, die man zuerst auf den Basisvektoren beschreibt: ! ! 1 1 √ √ − 0 1 2 j = j = √12 √1 1 0 2 2 Das erweitert man zu einer linearen Abbildung: 0 x 1 0 1 j =j x· +y· = x·j +y·j y 0 1 0 1 ! 1 1 √ x− √ y 2 2 = √1 x + √1 y 2 2 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 u 0 j(u) 1 0 1 0 1 0 1 0 1 j(v) 0 1 0 1 0 1 0 1 0 1 111111111111111111111111 000000000000000000000000 0 1 0 1 v 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Man beachte, dass Translationen (also Verschiebungen) keine linearen Abbildungen sind, da eine lineare Abbildung immer den Nullvektor auf den Nullvektor abbilden muss. Man kann Translationen erst durch einen Trick, nämlich die Einführung homogener Koordinatensysteme, als lineare Abbildung darstellen. Kern und Bild von linearen Abbildungen Definition: Der Kern Ker f und das Bild Im f einer linearen Abbildung f ∈ Hom(V, W ) sind wie folgt definiert: Ker f = {~v ∈ V | f (~v ) = ~0} Im f = {w ~ ∈ W | ∃ ~v f (~v ) = w} ~ Beispiele: Wir bestimmen die Kerne und Bilder der oben eingeführten geometrischen Transformationen. 68 a) Ker f = {~0}, denn 0 x x f = = ⇔ x=0 ∧ y=0 y −y 0 Im f = R2 , denn x x =f y −y für alle x ∈ R2 y Damit ist F eine bijektive Abbildung von R2 nach R2 mit der Umkehrabbildung f −1 = f . b) Ker g = {~0} und Im g = R2 . Damit ist auch g eine bijektive Abbildung von R2 nach R2 mit der Umkehrabbildung g −1 = g. 1 c) Ker h = Lin , denn 0 x 0 0 h = = ⇔ y=0 y y 0 0 Im h = Lin , denn die x-Komponente aller Elemente aus dem Bild ist 1 0. d) Ker j = {~0}, denn x j = y √1 2 √1 2 x− x+ √1 2 √1 2 y y ! 0 = ⇔ x=0 ∧ y=0 0 Die Abbildung j ist eine bijektive Abbildung von R2 nach R2 , weil mit ! √1 x + √1 y x −1 2 2 j = y − √12 x + √12 y eine Umkehrabbildung existiert. Daraus folgt Im f = R2 . Lemma: Der Kern einer linearen Abbildung f ∈ Hom(V, W ) ist ein Unterraum von V und das Bild von f ist ein Unterraum von W . Beweis (Kern): Seien ~u, ~v ∈ Ker f und λ ∈ K (Körper zu V ). • Ker f ist nicht leer, denn: f (~0) = f (~0 − ~0) = f (~0) − f (~0) = ~0 Damit ist ~0 ∈ Ker f . 69 • Abgeschlossenheit bezüglich der Addition: Für alle ~u, ~v ∈ Ker f : f (~u + ~v ) = = = f (~u) + f (~v ) ~0 + ~0 ~0 Damit ist auch ~u + ~v ∈ Ker f . • Abgeschlossenheit bezüglich der Multiplikation mit Skalaren: Für alle ~u ∈ Ker f und für alle λ ∈ K: f (λ~u) = = = λ · f (~u) λ · ~0 (da ~u ∈ Ker f ) ~0 Damit ist auch λ~u ∈ Ker f . Beweis (Bild): Seien ~u, ~v ∈ Im f und λ ∈ K (Körper zu W ). • Im f ist nicht leer, denn f (~0) = ~0 ∈ Im f . • Abgeschlossenheit bezüglich der Addition: ~ 0 = f (v~0 ) ∈ Im f Für alle w ~ = f (~v ), w ~ 0 = f (~v ) + f (v~0 ) w ~ +w = f (~v + v~0 ) ∈ Im f • Abgeschlossenheit bezüglich der Multiplikation mit Skalaren: Für alle w ~ = f (~v ) ∈ Im f und alle λ ∈ K λw ~ = λ · f (~v ) = f (λ~v ) ∈ Im f Lemma: Eine lineare Abbildung f ∈ Hom(V, W ) ist genau dann injektiv, wenn ihr Kern nur aus dem Nullvektor besteht, d.h. f ist injektiv ⇐⇒ Ker f = {~0} Beweis: Die Richtung ⇒ ist offensichtlich, denn da f (~0) = ~0 und f injektiv ist, kann kein anderer Vektor auf ~0 abgebildet werden. Für die Richtung ⇐ erfolgt der Beweis durch Widerspruch: Angenommen Ker f = {~0} und f ist nicht injektiv, dann existieren zwei Vektoren ~u, ~v ∈ V , so dass ~u 6= ~v aber f (~u) = f (~v ). Daraus folgt f (~u − ~v ) = f (~u) − f (~v ) = ~0 und damit liegt ~u − ~v 6= ~0 in Ker f , ein Widerspruch zur Annahme. Spezielle Homomorphismen Definitionen: Einen Homomorphismus f ∈ Hom(V, W ) nennt man einen 70 • Monomorphismus, wenn f injektiv ist, • Epimorphismus, wenn f surjektiv ist, • Isomorphismus, wenn f bijektiv ist, • Endomorphismus, wenn V = W , • Automorphismus, wenn V = W und f bijektiv ist. Der folgende Satz ist eine einfache Konsequenz aus den bekannten Fakten, dass die Komposition von bijektiven Abbildungen auch bijektiv und die Komposition von linearen Abbildungen auch linear ist. Satz: Die Komposition (Verkettung) von zwei Isomorphismen ist auch wieder ein Isomorphismus. Satz: Ist f ∈ Hom(V, W ) ein Isomorphismus, dann ist auch f −1 ∈ Hom(W, V ) ein Isomorphismus. Beweis: Da ein Isomorphismus bijektiv ist, gibt es eine eindeutige Umkehrfunktion f −1 : W −→ V , die durch f (~v ) = w ~ ⇐⇒ f −1 (w) ~ = ~v charakterisiert ist. Man muss nur noch die Abbildung f −1 auf Linearität überprüfen: ~ 0 = f (v~0 ) gegeben. Da f linear ist, gilt f (~v + v~0 ) = f (~v )+f (v~0 ) = Seien w ~ = f (~v ) und w ~ 0 und f (λ~v ) = λf (~v ) = λw. w ~ +w ~ Jetzt ergibt sich die Linearität von f −1 durch Anwendung der oben beschriebenen Äquivalenz auf die zwei Gleichungen: ~ 0 ) = ~v + v~0 = f −1 (w) ~ 0) f −1 (w ~ +w ~ + f −1 (w f −1 (λw) ~ = λ~v = λf −1 (w) ~ Satz: Seien V und W zwei Vektorräume über K, {~v1 , ~v2 , . . . , ~vn } ⊆ V eine Basis von V und w ~ 1, w ~ 2, . . . , w ~ n ∈ W eine beliebige Folge von Vektoren aus W , dann gibt es eine eindeutige lineare Abbildung f ∈ Hom(V, W ) definiert durch f (~vi ) = w ~ i für i = 1, 2, . . . , n Beweis: Jeder Vektor ~v ∈ V hat eine eindeutige Darstellung als Linearkombination aus den Basisvektoren ~v1 , ~v2 , . . . , ~vn : ~v = λ1~v1 + λ2~v2 + . . . + λn~vn Wenn eine lineare Abbildung mit der Eigenschaft f (~vi ) = w ~ i für i = 1, 2, . . . , n existiert, dann muss f (~v ) = λ1 w ~ 1 + λ2 w ~ 2 + . . . + λn w ~ n = λ1 · f (~v1 ) + λ2 · f (~v2 ) + . . . + λn · f (~vn ) 71 gelten. Es bleibt also nur noch zu zeigen, dass diese eindeutige Zuordnungsregel eine lineare Abbildung beschreibt. Dazu muss die Verträglichkeit mit der Addition und mit der Multiplikation mit Skalaren überprüft werden. Dazu seien λ ∈ K sowie ~v = λ1~v1 + λ2~v2 + . . . + λn~vn ~u = µ1~v1 + µ2~v2 + . . . + µn~vn gegeben, woraus ~v + ~u = (λ1 + µ1 )v~1 + (λ2 + µ2 )v~2 + (λn + µn )v~n folgt. Nach der Zuordnungsregel ist f (~v + ~u) = (λ1 + µ1 )f (v~1 ) + (λ2 + µ2 )f (v~2 ) + (λn + µn )f (v~n ) = λ1 f (v~1 ) + λ2 f (v~2 ) + λn f (v~n ) + µ1 f (v~1 ) + µ2 f (v~2 ) + µn f (v~n ) = f (~v ) + f (~u) Analog kann man die zweite Eigenschaft f (λ~v ) = λf (~v ) nachrechnen. Folgerung: Zu zwei n-dimensionalen Vektorräumen existiert mindestens ein Isomorphismus, der den einen Vektorraum in den anderen überführt. Rang einer linearen Abbildung Definition: Der Rang einer linearen Abbildung f ∈ Hom(V, W ) ist die Dimension des Bildes von f : rg f = dim(Im f ) Satz (Dimensionsformel für lineare Abbildungen): Für jede lineare Abbildung f ∈ Hom(V, W ) auf einem endlichdimensionalen Vektorraum V gilt: dim V = dim(Ker f ) + dim(Im f ) = dim(Ker f ) + rg f Beweis: Zuerst betrachten wir eine Basis B1 = {~v1 , ~v2 , . . . , ~vk } des Kerns Ker f ⊆ V . Man kann B1 zu einer Basis B von V erweitern. Sei B = {~v1 , ~v2 , . . . , ~vn }, d.h. vk+1 ~ , . . . , v~n sind die Ergänzungsvektoren. Wir betrachten die Bilder der Ergänzungsvektoren und werden zeigen, dass sie eine Basis B2 = {f (vk+1 ~ ), . . . , f (v~n )} des Unterraums Im f bilden. • Erzeugendensystem: Da man jeden Vektor w ~ aus Im f als Linearkombination w ~ = λ1 f (v~1 ) + . . . + λn f (v~n ) darstellen kann und außerdem f (v~1 ) = . . . = f (v~k ) = ~0 gilt, reichen die Vektoren aus B2 aus, um Im f zu erzeugen. • Lineare Unabhängigkeit: Wir betrachten eine Linearkombination des Nullvektors aus B2 ~0 = λk+1 f (vk+1 ~ ) + . . . + λn f (v~n ) Damit ist f (λk+1 vk+1 ~ + . . . + λn v~n ) = ~0 = λk+1 f (vk+1 ~ ) + . . . + λn f (v~n ) = ~0 72 und folglich ist ~v = λk+1 vk+1 ~ + . . . + λn v~n Element des Kerns von f . Als solches muss ~v aber auch als Linearkombination aus B1 darstellbar sein, d.h. ~v = µ1~v1 + µ2~v2 + . . . + µk~vk . Da jeder Vektor aus V , also insbesondere auch ~v , eine eindeutige Basisdarstellung aus V hat, kann es nur eine Konsequenz geben: ~v = ~0 und µ1 = . . . = µk = λk+1 = . . . = λn = 0, womit gezeigt ist, dass die eingangs betrachtete Linearkombination des Nullvektors aus B2 trivial sein muss. Da wir nach den oben gewählten Bezeichnungen von dim(Ker f ) = k, dim V = n und dim(Im f ) = n − k ausgehen können, ergibt sich die Dimensionsformel durch einfache Zusammenfassung dim(Ker f ) + dim(Im f ) = k + (n − k) = n = dim V 5.6 Matrizen Definition: Eine m×n-Matrix über einem Körper K ist eine Anordnung von m×n Elementen aus K nach dem folgenden Schema: a1 1 a1 2 · · · a1 n a2 1 a2 2 · · · a2 n A = .. .. .. . . . . . . am 1 am 2 · · · am n Alternativ kann man auch die Schreibweise A = (ai j )(i,j)∈m×n verwenden. Die horizontalen n-Tupel werden Zeilen und die vertikalen m-Tupel werden Spalten der Matrix genannt. Die Skalare ai j nennt man die Koeffizienten (oder Einträge) der Matrix. Die Menge aller m × n-Matrizen über K wird mit M (m × n, K) bezeichnet. Beobachtung: Die Menge M (m × n, K) ist ein Vektorraum mit den folgenden Operationen (λ ∈ K): a1 1 . . . a1 n b1 1 . . . b1 n a1 1 + b 1 1 . . . a 1 n + b 1 n : : + : : = : : am 1 . . . am n bm 1 . . . bm n am 1 + bm 1 . . . am n + bm n a1 1 . . . a1 n λa1 1 . . . λa1 n : = : : λ· : am 1 . . . am n λam 1 . . . λam n Multiplikation von Matrizen Definition: Ist A ∈ M (m×n, K) und B ∈ M (n×r, K) (wichtig ist der gemeinsame Parameter n), dann kann man das Produkt dieser Matrizen als eine Matrix C = AB ∈ 73 M (m × r, K) definieren, deren Koeffizienten ci j die folgende Form haben: c i j = ai 1 · b 1 j + ai 2 · b 2 j + . . . + ai n · b n j n X = ai k · b k j k=1 Man kann sich diese Regel so einprägen, dass man um ci j zu erhalten, die i-te Zeile von A mit der j-ten Spalte von B ”‘multipliziert”’, wobei multiplizieren hier bedeutet, die Produkte der sich entsprechenden Koeffizientenpaare aufzuaddieren. Beispiel: 0 2 1 0 −1 0+0−3 2+0−1 −3 1 1 −1 · = = 2 1 0 0+1+0 4−1+0 1 3 3 1 Eine spezielle Ausprägung bekommt diese Regel bei der Multiplikation einer m × nMatrix mit einem Spaltenvektor aus K n , der gleichzeitig eine n × 1-Matrix ist. Das Ergebnis ist eine m × 1-Matrix, also ein Spaltenvektor aus K m . Auf diese Weise kann die Matrix A als Abbildung von K n nach K m interpretiert werden. Satz: Die Multiplikation von Matrizen ist assoziativ, d.h. für alle A ∈ M (m × n, K), B ∈ M (n × r, K) und C ∈ M (r × s, K) gilt (A · B) · C = A · (B · C) Da der Beweis bis auf das Jonglieren mit komplizierten Summenformeln keine herausragenden Überraschungsmomente enthält, werden wir uns Zeit und Aufwand dafür sparen. Achtung: Wie das folgende Beispiel zeigt, ist die Multiplikation von Matrizen im Allgemeinen nicht kommutativ: 1 0 0 0 0 0 0 0 0 0 1 0 · = 6= = · 1 0 1 1 0 0 2 0 1 1 1 0 Matrixdarstellung von lineare Abbildungen Wir haben bereits gesehen, wie man eine Matrix als lineare Abbildung interpretieren kann. Jetzt geht es um den umgekehrten Weg, bei dem eine lineare Abbildung f ∈ Hom(V, W ) gegeben ist, die als Matrix dargestellt werden soll. Das ist aber nur möglich, wenn man vorher eine Basis von V und eine Basis von W festlegt. Definition: Sei f ∈ Hom(V, W ) eine lineare Abbildung, B1 = {~v1 , ~v2 , . . . , ~vn } Basis von V und B2 = {w ~ 1, w ~ 2, . . . , w ~ m } Basis von W , dann wird der Abbildung f eine Matrix A ∈ M (m×n, K) zugeordnet, deren Koeffizienten ai j sich aus der Darstellung 74 der Bilder der Basisvektoren f (~vi ) in der Basis {w ~ 1, w ~ 2, . . . , w ~ m } wie folgt ergeben: f (~v1 ) = a1 1 w ~ 1 + a2 1 w ~ 2 + . . . + am 1 w ~m f (~v2 ) = a1 2 w ~ 1 + a2 2 w ~ 2 + . . . + am 2 w ~m .. . f (~vn ) = a1 n w ~ 1 + a2 n w ~ 2 + . . . + am n w ~m Umgekehrt bestimmt jede Matrix A ∈ M (m × n, K) durch die oberen Formeln eine lineare Abbildung f ∈ Hom(V, W ), denn wir wissen, dass eine lineare Abbildung bereits durch die Bilder der Basisvektoren eindeutig beschrieben ist. Häufig trifft man auf die besondere Situation, dass B1 die Standardbasis von V = Rn und B2 die Standardbasis von W = Rm ist. Für diesen Fall kann man sich die folgende Regel einprägen: die j-te Spalte der Matrix A ist das Bild des j-ten Basisvektors von V , also f (~ej ) Folgerung 1: Die Vektorräume der linearen Abbildungen Hom(V, W ) und der Matrizen M (m × n, K) sind isomorph. Der Isomorphismus wird (nach Festlegung von zwei Basen für V und W ) durch die oben beschriebene Zuordnung zwischen linearen Abbildungen und Matrizen realisiert. Folgerung 2: Seien für V = K n und W = K m die jeweiligen Standardbasen festgelegt und sei A ∈ M (m × n, K) die zu einer Abbildung f ∈ Hom(V, W ) gehörige Matrix, dann erhält man das Bild f (~v ) eines beliebigen Spaltenvektors ~v ∈ V durch Multiplikation der Matrix A mit ~v , d.h. A · ~v = f (~v ) Man kann die zweite Folgerung durch einfaches Nachrechnen überprüfen: a1 1 · · · a1 n x1 .. . .. · ... A · ~v = . am 1 · · · am n xn a1 1 · x 1 + . . . + a1 n · x n .. = . am 1 · x 1 + . . . + am n · x n 75 x1 (n) f (~v ) = f ... = f x1 · ~e1 + . . . + xn · ~en(n) xn (n) = x1 · f ~e1 + . . . + xn · f ~en(n) a1 1 a1 n = x1 · ... + . . . + xn · ... am 1 am n a1 1 · x 1 + . . . + a1 n · x n .. = . am 1 · x1 + . . . + am n · xn ⇒ A · ~v = f (~v ) Satz: Seien f ∈ Hom(K q , K p ) sowie g ∈ Hom(K r , K q ) lineare Abbildungen und A ∈ M (p × q, K) bzw. B ∈ M (q × r, K) die zu f bzw. g gehörigen Matrizen bezüglich der Standardbasen von K p , K q und K r . Dann entspricht das Produkt der Matrizen A · B der Abbildungskomposition f g, vereinfacht geschrieben: C = A · B ∈ M (p × r, K) ←→ f g ∈ Hom(K r , K p ) Auf den Beweis dieses Satzes wird verzichtet, weil er auch in die Kategorie der rechnerisch aufwändigen, aber nicht sehr originellen Beweise gehört. Beispiele: a) Die Skalierung des Raumes Rn um einen Matrix realisiert: c 0 0 c A = .. .. . . Faktor c ∈ R wird durch die folgende ··· 0 · · · 0 . . .. . . 0 0 ··· c b) Die Projektion des Raums R3 auf die xy-Ebene im gleichen Raum wird durch die folgende Matrix realisiert: 1 0 0 B = 0 1 0 0 0 0 c) Die Drehung der Ebene R2 mit dem Winkel ϕ um den Koordinatenursprung wird durch die folgende Matrix realisiert: cos ϕ − sin ϕ C= sin ϕ cos ϕ 76 cos ϕ sin ϕ ϕ ϕ 1 2 Die Drehung des Punkts mit dem Winkel 4 kann man dann wie folgt berechnen: 5.7 cos sin π 3 π 3 π 3 1 √2 3 2 − sin 2 · = cos π3 4 √ 3 2 − 1 2 π 3 um den Koordinatenursprung ! √ 2 1√− 2 3 · = 4 3+2 Der Rang einer Matrix Der Rang einer Matrix kann auf drei verschiedene Arten definiert werden. Um diese besser unterscheiden zu können, führen wir zuerst drei Begriffe ein, von denen später gezeigt wird, dass sie immer denselben Wert haben. Definition: Sei A ∈ M (m×n, K) eine Matrix und f ∈ Hom(K n , K m ) die zugehörige lineare Abbildung (bezüglich der Standardbasen). • Der Rang von A ist definiert durch rg A := rg f = dim (Im f ) • Der Zeilenrang von A ist die maximale Anzahl von linear unabhängigen Zeilenvektoren aus A. • Der Spaltenrang von A ist die maximale Anzahl von linear unabhängigen Spaltenvektoren aus A. Satz: Der Rang und der Spaltenrang einer Matrix A sind gleich. Beweis: Die Spalten von A sind die Bilder der Basisvektoren. Folglich bilden die Spaltenvektoren der Matrix ein Erzeugendensystem von Im f . Damit ist jede maximale linear unabhängige Teilmenge der Spaltenvektoren eine Basis von Im f , und daraus folgt, dass der Spaltenrang von A gleich dim (Im f ) = rg f = rg A ist. Lemma: Ist w~k ein Spaltenvektor von A ∈ M (m × n, K), der sich als Linearkombination der übrigen Spalten darstellen lässt und ist A0 die Matrix A ohne Spalte w~k , dann gilt: Spaltenrang A0 = Spaltenrang A und 77 Zeilenrang A0 = Zeilenrang A Die gleiche Aussage gilt auch, wenn man aus der Matrix einen Zeilenvektor streicht, der sich als Linearkombination aus den anderen Zeilen darstellen lässt. Beweis: Die maximale Anzahl von linear unabhängigen Spaltenvektoren ist gleichzeitig die Dimension der linearen Hülle der Menge aller Spaltenvektoren {w~1 , . . . , w~n } von A. Ist der Vektor n X w~k = λj w~j j=1 j6=k eine Linearkombination der anderen Spaltenvektoren, dann bleibt die lineare Hülle nach seiner Streichung unverändert und deshalb bleibt der Spaltenrang gleich. Für die Betrachtung des Zeilenrangs sei I ⊆ {1, 2, . . . , m} eine maximale Menge, so dass die Zeilenvektoren {~ ui | i ∈ I} linear unabhängig sind, und sei {~ ui 0 | i ∈ I} die entsprechende Menge von Zeilenvektoren aus A0 , in denen also jeweils die k-te Stelle gestrichen ist. Um die Gleichheit des Zeilenrangs von A und A0 zu zeigen, genügt es, die lineare Unabhängigkeit von {~ ui 0 | i ∈ I} nachzuweisen. Sei X µi u~i 0 = ~0 i∈I eine Linearkombination des P Nullvektors in K n−1 . Wir werden zeigen, dass dann auch die Linearkombination i∈I µi u~i den Nullvektor in K n erzeugt. Damit müssen alle Skalare µi gleich ui 0 | i ∈ I} linear unabhängig. In der P0 sein und folglich ist {~ Linearkombination ~i sind bereits alle Stellen bis auf die k-te gleich Null. i∈I µi u P Bleibt also i∈I µi ai k = 0 zu zeigen. Nach Voraussetzung über den Spaltenvektor w~k wissen wir für alle i ∈ I ai k = n X λj ai j und folglich j=1 j6=k X µ i ai k = i∈I X ( µi = j=1 j6=k = n X λ j ai j ) j=1 j6=k i∈I n X n X (λj X µ i ai j ) i∈I | {z } = 0 da j 6= k 0=0 j=1 j6=k Satz: Der Spaltenrang und der Zeilenrang einer Matrix A sind gleich und damit gilt: rg A = Spaltenrang A = Zeilenrang A 78 Beweis: Wir streichen aus A Zeilen bzw. Spalten, die jeweils Linearkombinationen der übrigen Zeilen bzw. Spalten sind, solange das möglich ist. A 7→ A0 7→ A00 7→ . . . 7→ A(end) Dann ist in der Matrix A(end) die Menge der Zeilenvektoren linear unabhängig und auch die Menge der Spaltenvektoren ist linear unabhängig. Sei A(end) eine m × n– Matrix, dann gilt nach dem Lemma: Spaltenrang A = Spaltenrang A(end) = n Zeilenrang A = Zeilenrang A(end) = m Es gibt m linear unabhängige Zeilenvektoren in A(end) , aber das sind Vektoren aus K n und deshalb muss m ≤ n sein. Andererseits gibt es n linear unabhängige Spaltenvektoren in A(end) , aber das sind Vektoren aus K m und deshalb muss n ≤ m sein. Folglich ist Spaltenrang A = n = m = Zeilenrang A. Definition: Sei A = (ai j ) ∈ M (m × n, K) eine Matrix, dann ist die transponierte Matrix von A definiert durch At = (ati j ) ∈ M (n × m, K) mit ati j = aj i Beispiel: t 1 0 2 1 = 1 2 4 0 1 0 4 0 Folgerung: Der Rang einer Matrix A und der transponierten Matrix At ist gleich. rg A = rg At Elementare Umformungen Definition: Die folgenden Operationen auf einer Matrix werden elementaren Umformungen genannt: • Typ 1: Vertauschung von zwei Zeilen bzw. von zwei Spalten. • Typ 2: Multiplikation einer Zeile bzw. Spalte mit einem Skalar λ 6= 0. • Typ 3: Addition des λ-fachen einer Zeile bzw. Spalte zu einer anderen Zeile bzw. Spalte. Satz: Elementare Umformungen ändern den Rang einer Matrix nicht. Beweis: Man muss sich nur davon überzeugen, dass sich die lineare Hülle der Zeilenbzw. Spaltenvektoren durch die Umformungen nicht ändert. Für Umformungen vom Typ 1 und Typ 2 ist das offensichtlich. 79 Für eine Umformungen vom Typ 3 seien ~vi , ~vk zwei Zeilenvektoren und λ ∈ K ein Skalar. Nach der Umformung hat man an Stelle von ~vi den Vektor ~vi∗ = ~vi + λ~vk Es ist eine leichte Übung, in Linearkombinationen ~vi gegen ~vi∗ auszutauschen: µ1~v1 + . . . + µi~vi + . . . + µk~vk + . . . + µn~vn = µ1~v1 + . . . + µi~vi∗ + . . . + (µk − λµi )~vk + . . . . . . + µn~vn ∗ µ1~v1 + . . . + µi~vi + . . . + µk~vk + . . . + µn~vn = µ1~v1 + . . . + µi~vi + . . . + (µk + λµi )~vk + . . . . . . + µn~vn Obere Dreiecksform Definition: Die Matrix A ist in oberer Dreiecksform, wenn die Matrix die folgende Form hat, wobei das Symbol ∗ für beliebige Inhalte steht: a1 1 ∗ ∗ ··· ∗ ∗ ··· ∗ .. . . .. 0 a2 2 ∗ · · · ∗ . . . .. .. . . .. ... . . 0 a3 3 . . 0 . . . . . . . .. .. ∗ .. . . .. .. .. A= 0 0 · · · 0 ar r ∗ · · · ∗ 0 ··· ··· ··· 0 0 · · · 0 .. . . . . . . . . . . . . . . . . . . . . . . 0 ··· 0 0 ··· ··· ··· 0 und die Werte a1 1 , a2 2 , a3 3 , . . . , ar r ungleich Null sind, d.h. a1 1 · a2 2 · a3 3 · . . . · ar r 6= 0 Beobachtung: Der Rang einer solchen Matrix ist r. Algorithmus zur Umwandlung in eine obere Dreiecksform: Mit dem folgenden Verfahren kann man eine beliebige Matrix A ∈ M (m × n, K) mit elementaren Umformungen in eine obere Dreiecksform überführen und damit auch ihren Rang bestimmen. Das Verfahren arbeitet in r = rg A Stufen. Zustandsinvariante: Nach jeder Stufe k ≥ 1 wird eine Matrix Ak der folgenden 80 Form erreicht: a1 1 ∗ ∗ ··· ∗ 0 a2 2 ∗ 0 .. . 0 .. . a3 3 ... ··· ... ∗ .. . 0 0 .. . 0 ··· ... ··· ··· ... 0 ··· ··· Ak = ... ∗ 0 ak k ··· 0 .. ... . ··· 0 ∗ .. . .. . .. . ··· .. . ... ... ∗ ··· ∗ · · · bk+1 n .. ... . · · · bm n bk+1 k+1 .. . bm k+1 ∗ .. . .. . .. . Dabei können die Koeffzienten bi j im Rechteck rechts unten (also mit i = k + 1, k + 2, . . . , m und j = k + 1, k + 2, . . . , n) beliebig sein, aber gefordert ist a1 1 · a2 2 · a3 3 · . . . · ak k 6= 0. bk+1 k+1 · · · bk+1 n .. die rechte untere Teilmatrix von A . .. Sei Bk = ... . k . bm k+1 ··· bm n Initialisierung: Wir setzen A0 = A. Offensichtlich gibt es für A0 keine Einschränkungen, denn B0 = A0 . Abbruchkriterium: Das Verfahren ist beendet, wenn Bk die Nullmatrix ist, denn dann ist Ak in oberer Dreiecksform. Umwandlung von Ak in Ak+1 : Wenn das Abbruchkriterium für Ak noch nicht erfüllt ist, gibt es in Bk einen Koeffizienten bi j 6= 0. • Vertausche Zeilen und/oder Spalten, die durch B gehen, um den Koeffizienten bi,j an die Stelle von bk+1 k+1 zu bringen. Die so entstandene Matrix A0k hat folgende Gestalt: ∗ ∗ ··· ∗ a1 1 ∗ · · · ∗ .. .. .. .. 0 a2 2 . . . ∗ . . . . . . . .. .. .. .. . . . . . . . . . . ∗ ∗ ∗ ··· ∗ 0 0 ak k 0 0 Ak = b0k+1 k+1 · · · · · · b0k+1 n 0 ··· ··· 0 . .. .. .. .. . . b0k+2 k+1 · · · · · · b0k+2 n . .. . . . . . . . . . . . . . . . . . . . . . . 0 ··· ··· 0 b0m k+1 · · · · · · b0m n wobei nun b0k+1 k+1 = bi,j 6= 0 ist. • Für die Stellen b0k+2 k+1 , b0k+3 k+1 , . . . , b0m k+1 werden durch Typ-3-Umformungen Nullen erzeugt. Man verwendet für die Zeilen i = k + 2, k + 3, . . . , m die 81 folgenden Umformungen: Zeilei := Zeilei − b0i k+1 · (b0i k+1 )−1 · Zeilek+1 Dadurch entsteht die neue Matix A00k = Ak+1 : a1 1 ∗ · · · ∗ ∗ ∗ . .. . .. 0 a2 2 . . ∗ . . . .. .. .. . .. . . ∗ . . ∗ ∗ 0 0 ak k 0 A00k = 0 bk+1 k+1 ··· 0 ··· ··· 0 . .. .. .. .. 00 . . . 0 bk+2 k+2 .. . . .. . . . . . . . . . . . . 00 0 ··· ··· 0 0 bm k+2 ··· .. . .. . ∗ .. . .. . ∗ ··· · · · b0k+1 n · · · b00k+2 n .. ... . 00 · · · bm n wobei für alle i = k + 2, k + 3, . . . , m und j = k + 1, k + 2, . . . , n die Koeffizienten in Bk+1 die folgenden Werte haben: b00i j := b0i j − b0i k+1 · b0k+1 j b0k+1 k+1 Beispiel: Die folgende Matrix A soll in eine obere Dreiecksform überführt werden: 0 −2 4 2 1 0 A= 1 0 2 2 0 3 • Vertausche die erste und die dritte Zeile, so dass an der Stelle a1 1 ein Koeffizient 6= 0 steht: 1 0 2 2 1 0 0 −2 4 2 0 3 • Erzeuge an den Stellen a2 1 und a4 1 Nullen durch Typ-3-Umformungen mit der ersten Zeile: 1 0 2 1 0 2 2 − 2 · 1 1 − 2 · 0 0 − 2 · 2 0 1 −4 = 0 −2 4 0 −2 4 2−2·1 0−2·0 3−2·2 0 0 −1 82 • An der Stelle a2 2 befindet sich ein Koeffizient 6= 0. Damit der Stelle a2 3 eine Null erzeugt werden: 1 0 2 1 0 0 1 −4 0 1 0 −2 − (−2) · 1 4 − (−2) · (−4) = 0 0 0 0 −1 0 0 • An der Stelle a4 4 muss 1 0 0 0 eine Null erzeugt werden: 0 2 1 0 1 −4 = 0 0 −4 1 0 −1 − 4 · (−4) 0 muss nur noch an 2 −4 −4 −1 0 2 1 −4 0 −4 0 0 Elementarmatrizen Elementare Matrixumformungen kann man auch durch Multiplikation der umzuformenden Matrix mit einer sogenannten Elementarmatrix beschreiben. Für jeden Umformungstyp gibt es eine Elementarmatrix–Standardkonstruktion, so dass die Multiplikation mit der Elementarmatrix auf der linken Seite die entsprechene Zeilenumformung und die Multiplikation mit der Elementarmatrix auf der rechten Seite die entsprechene Spaltenumformung realisiert. • Typ 1: Für die Vertauschung der i-ten und der j-ten Zeile (Spalte) in einer Matrix A wird eine Matrix Ti j konstruiert, so dass die Multiplikation A0 = Ti j · A die Vertauschung der i-ten und der j-ten Zeile von A bewirkt und die Multiplikation A0 = A · Ti j die Vertauschung der i-ten und der j-ten Spalte von A bewirkt. Dazu muss Ti j die folgende Form haben: 1 .. . 1 0 ··· → ··· .. . 1 .. Ti j = . ↓ .. . 1 1 ··· ← ··· 0 0 ←− i-te Zeile ←− j-te Zeile 1 .. . ↑ .. . 0 1 .. . 1 83 • Typ 2: Für die Multiplikation einer Zeile (Spalte) mit dem Faktor λ in einer Matrix A wird eine Matrix Si λ konstruiert, so dass die Multiplikation A0 = Si λ · A die Multiplikation der i-ten Zeile von A mit λ bewirkt und die Multiplikation A0 = A · Si λ die Multiplikation der j-ten Spalte von A mit λ bewirkt. 1 .. . 0 1 λ Si λ = ←− i-te Zeile 1 ... 0 1 • Typ 3: Man konstruiert eine Matrix Ki j λ , so dass die Multiplikation A0 = Ki j λ · A die Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von A bewirkt und die Multiplikation A0 = A · Ki j λ die Addition des λ-fachen der i-ten Spalte zur j-ten Spalte von A bewirkt. Ki j λ = 1 .. . 0 ←− i-te Zeile ... ... λ .. . .. 0 . 1 ↑ j-te Spalte 5.8 Lineare Gleichungssysteme Definition: Ein lineares Gleichungssystem (LGS) mit Koeffizienten in einem Körper K, mit m Gleichungen und n Unbekannten wird durch eine Matrix A = (ai j )(i,j)∈m×n ∈ M (m × n, K) und einem Spaltenvektor ~b ∈ K m repräsentiert und wie folgt als Gleichungssystem (∗) interpretiert: a1 1 · x 1 a2 1 · x 1 .. . + a1 2 · x 2 + a2 2 · x 2 .. . + . . . + a1 n · xn + . . . + a2 n · x n .. . = b1 = b2 .. . (∗) am 1 · x 1 + am 2 · x 2 + . . . + am n · x n = b m Die Matrixrepräsentation von linearen Gleichungssystemen hat den Vorteil, dass man das Gleichungsystem (*) mit Hilfe des Matrixprodukts auch als eine Vektor–Gleichung 84 beschreiben kann: (∗) x1 A · ... = ~b ⇐⇒ xn Ein Tupel (x1 , x2 , . . . , xn ) ∈ K n ist also genau dann eine Lösung des linearen Gleichungssystems, wenn A · ~x = ~b gilt, wobei ~x die Spaltenvektor–Darstellung des Tupels bezeichnet. Man bezeichnet mit (A | ~b) die Erweiterung der Matrix A mit der zusätzlichen (n+1)ten Spalte ~b: a1 1 · · · a1 n b 1 .. .. ... (A | ~b) = ... . . am 1 · · · am n b m Satz: Das lineare Gleichungssystem A · ~x = ~b ist genau dann lösbar, wenn rg A = rg(A | ~b) Beweis: rg A = rg(A | b) ⇔ Spaltenrang(A) = Spaltenrang(A | b) a1 n a1 1 .. .. ~ ⇔ b ∈ Lin . , . . . . a am n m1 a1 1 a1 n . . ~b = x1 · ⇔ ∃x1 , . . . , xn ∈ K .. + . . . + xn · .. am 1 x1 b1 .. .. A· . = . xn bn ⇔ ∃x1 , . . . , xn ∈ K am n Definition: Ein lineares Gleichungssystem A · ~x = ~b wird homogenes Gleichungssystem genannt, wenn der Vektor ~b der Nullvektor ist. Jedes lineare Gleichungssystem hat ein assoziiertes homogenes Gleichungssystem, welches durch die Ersetzung des Vektors ~b durch den Nullvektor entsteht. Definition: Die Lösungsmenge eines linearen Gleichungssystems A · ~x = ~b ist die Vektormenge Lös(A, ~b) = {~x | A · ~x = ~b} Satz: Sei A ∈ M (m × n, K) die Matrix einer linearen Abbildung f : K n → K m bezüglich der Standardbasis und ~b ∈ K m , dann gilt: 85 a) Die Lösungsmenge Lös(A, ~0) ist gleich Ker f . Damit ist Lös(A, ~0) ein Unterraum von K n . b) Sei ~x, ~y ∈ Lös(A, ~b), dann ist ~x − ~y ∈ Lös(A, ~0). c) Sei ~x ∈ Lös(A, ~b) und ~z ∈ Lös(A, ~0), dann ist ~x + ~z ∈ Lös(A, ~b). Beweis: a) Es genügt, die entsprechenden Definitionen anzuwenden: Lös(A, ~0) = {~x | A · ~x = ~0} = {~x | f (~x) = ~0} = Ker f b) Seien ~x, ~y ∈ Lös(A, ~b), dann gilt: f (~x) = ~b und f (~y ) = ~b Daraus folgt: f (~x − ~y ) = f (~x) − f (~y ) = ~b − ~b = ~0 Das heißt: ~x − ~y ∈ Lös(A, ~0) c) Seien ~x ∈ Lös(A, ~b) und ~z ∈ Lös(A, ~0 (m) ), dann gilt: f (~x) = ~b und f (~z) = ~0 Daraus folgt: f (~x + ~z) = f (~x) + f (~z) = ~b + ~0 = ~b Das heißt: ~x + ~z ∈ Lös(A, ~b) Beobachtung: Sei A ∈ M (m × n, K) die Matrix einer linearen Abbildung f : K → K m bezüglich der Standardbasis, dann ist die Lösungsmenge Lös(A, ~b) genau dann nicht leer, wenn ~b ∈ Im f . n Gaußscher Algorithmus Das folgende Lösungsverfahren für lineare Gleichungssysteme geht auf Carl Friedrich Gauß zurück. Es ist auch unter dem Namen Gauß–Elimination bekannt. Die Lösung des Gleichungssystems erfolgt dabei in drei Stufen. In der ersten Stufe wird durch Entwicklung einer oberen Dreiecksform und Rangbetrachtungen festgestellt, ob das System überhaupt eine Lösung hat. Wenn die Antwort positiv ist, wird in der zweiten 86 Stufe eine spezielle Lösung bestimmt. In der dritten Stufe werden alle Lösungen des assoziierten homogenen Systems bestimmt und daraus die komplette Lösungsmenge generiert. Sei ein Gleichungssystem der Form A · ~x = ~b mit A ∈ M (m × n, K) und ~b ∈ K m gegeben. a) Zur Überprüfung, ob das Gleichungssystem eine Lösung hat, wird die Matrix A in obere Dreiecksform gebracht, aber dabei alle Zeilenumformungen auf die erweiterte Matrix (A | b) angewendet. Achtung: Spaltenvertauschungen in A bedeuten Variablenvertauschung im linearen Gleichungssystem. Sei das Ergebnis dieses ersten 0 a1 1 ∗ 0 a02 2 0 0 . .. . . A0 = . 0 0 0 ··· .. .. . . 0 ··· Schritts das System: ∗ ··· ∗ ∗ ··· ... ∗ .. . a03 3 .. .. . ∗ . · · · 0 a0r r ··· ··· 0 .. .. .. . . . ··· ··· 0 ∗ .. . .. . .. . ∗ 0 .. . ··· ∗ . . . .. . . . . .. . . . .. . . ··· ∗ ··· 0 . . .. . . 0 ··· 0 b01 b02 0 b3 .. . b0r b0r+1 .. . b0m • Fall 1: Falls mindestens einer der Werte b0r+1 , b0r+2 , . . . , b0m ungleich Null ist, dann ist rg (A) < rg(A | b), und das System hat keine Lösung. Das Verfahren wird abgebrochen. • Fall 2: Falls b0r+1 = b0r+2 = . . . = b0m = 0, dann ist rg (A) = rg(A | b), und folglich hat das System eine Lösung. b) Zur Bestimmung einer speziellen Lösung werden die Zeilen (r+1) bis m gestrichen und die Koeffizientenmatrix zwischen der r-ten und (r + 1)-ten Spalte in zwei Teilmatrizen T und S getrennt: 0 a1 1 ∗ ∗ ··· ∗ ∗ · · · ∗ b01 .. . . .. . . b02 0 a02 2 ∗ · · · ∗ . .. .. . . .. ... 0 0 (T | S | b0 ) = . 0 0 a . . . b 33 3 . .. . . .. .. .. .. .. .. . . ∗ . . . . . 0 0 0 · · · 0 ar r ∗ · · · ∗ b0r 87 Das Gleichungssystem nimmt dadurch die folgende Gestalt an: x1 x2 . xr+1 x1 . . x2 xr+2 (T | S) · xr = T · .. + S · .. = ~b0 . . xr+1 . xr xn .. xn Man setzt xr+1 = xr+2 = . . . = xn = 0 und reduziert das System dadurch auf: x1 b01 x1 a01 1 a01 2 · · · a01 r 0 x2 0 a0 a2 r x2 b02 22 · · · ~0 T · .. = b ⇒ .. .. · .. = .. . . . . . . . . . . . 0 b0r xr 0 · · · 0 ar r xr Die Werte von x1 , x2 , . . . , xr können nun direkt bestimmt werden: b0r = a0r r · xr ⇒ xr = b0r−1 = a0r−1 r−1 · xr−1 + a0r−1 r · xr ⇒ xr−1 = b01 = a01 1 · x1 + . . . + a01 r · xr .. . ⇒ x1 = b0r a0r r b0r−1 −a0r−1 r ·xr a0r−1 r−1 b01 −a01 r ·xr −...−a01 2 ·x2 a01 1 Somit wurde eine spezielle Lösung des linearen Gleichungssystems berechnet, die im Weiteren mit ~v bezeichnet wird: x1 x1 x2 x2 . . . . . . ~v = xr = xr xr+1 0 . . .. .. xn 0 c) Auf Grund der Vorüberlegungen wissen wir, dass die Lösungsmenge des homogenen Gleichungssystems ein Vektorraum der Dimension n − r ist. Man erhält den j-ten Basisvektor dieses Raums (1 ≤ j ≤ n − r), indem die Variablen xr+1 , . . . , xn jeweils mit den folgenden Werten belegt werden: xr+j = 1 und xr+1 = . . . = xr+j−1 = xr+j+1 = . . . = xn = 0 88 Bezeichnet man die Koeffizienten der rechten Teilmatrix S durch S = (si j )(i,j)∈r×(n−r) so nimmt das Gleichungssystem die x1 x2 . a01 1 a01 2 · · · . . 0 a0 22 · · · (T | S)· xr = .. . .. ... . xr+1 . 0 ··· 0 .. xn Berücksichtigt man die speziellen xr+j+1 = . . . = xn = 0, ergibt sich a01 1 a01 2 · · · 0 a0 22 · · · .. . .. ... . 0 ··· 0 folgende Form an a01 r a02 r .. . a0r r x1 x2 · .. + . xr s1 1 . . . s1 n−r .. . . .. . . . sr 1 . . . s r r xr+1 xr+2 ~ · .. = 0 . xn Werte xr+j = 1 und xr+1 = . . . = xr+j−1 = das folgende lineare Gleichungssystem −s1 j x1 a01 r a02 r x2 −s2 j .. · .. = .. . . . 0 −sr j xr ar r Die Werte von x1 , x2 , . . . , xr können nun wie bei der speziellen Lösung bestimmt werden. Das Verfahren muss für alle n − r Spalten von S durchgeführt werden. Sei ~uj der dabei berechnete j-te Basisvektor des Lösungsraums des homogenen Gleichungssystems. Bleibt nur noch, die Lösungsmenge des linearen Gleichungssystems aus der speziellen Lösung und der Lösungsmenge des homogenen Systems zusammenzusetzen: ( ) n−r X Lös(A | b) = Lös(T |S | b0 ) = ~v + λj · ~uj | λ1 , λ2 , . . . , λn−r ∈ R j=1 Beispiel: Gegeben sei das folgende Gleichungssystem: x1 − 2x1 − x1 − 2x2 + x3 − x4 x2 + 2x3 + 5x3 x2 − 3x3 + 2x4 = 6 = −1 = 3 = −6 a) Die dazugehörige Matrix ist 6 0 2 1 −1 1 −1 2 0 −1 (A | ~b) = 2 0 5 0 3 −1 −1 −3 2 −6 89 Diese Matrix muss zuerst in obere Dreiecksform überführt werden. Erste und zweite Zeile vertauschen: 1 −1 2 0 −1 0 2 1 −1 6 2 3 0 5 0 −1 −1 −3 2 −6 In der ersten Spalte unter a1 1 Nullen erzeugen: 1 −1 2 0 −1 0 2 1 −1 6 0 5 2 1 0 0 −2 −1 2 −7 In der zweiten Spalte unter a2 2 Nullen erzeugen: 1 −1 2 0 −1 0 2 1 −1 6 0 0 0 1 −1 0 0 0 1 −1 Dritte und vierte Spalte tauschen, um an der Stelle a3 3 einen Wert 6= 0 zu erzeugen (Achtung: x3 ↔ x4 ): 1 −1 0 2 −1 0 6 2 −1 1 0 0 1 0 −1 0 0 1 0 −1 In der dritten Spalte unter a3 3 Nullen erzeugen: 1 −1 0 2 −1 0 1 6 2 −1 0 0 1 0 −1 0 0 0 0 0 Die Matrix hat nun obere Dreiecksform. Es existiert eine Lösung, da der untere Teil von ~b aus einer Null besteht. Die Matrix kann nun folgendermaßen reduziert werden: 1 −1 0 2 −1 0 2 −1 1 6 0 0 1 0 −1 Das lineare Gleichungssystem wird geteilt: 1 −1 0 x1 2 −1 0 2 −1 · x2 + 1 · (x3 ) = 6 0 0 1 x4 0 −1 90 b) Bestimmung der speziellen Lösung: 1 −1 0 x1 −1 0 2 −1 · x2 = 6 0 0 1 x4 −1 Wähle x3 = 0 und bestimme die übrigen Variablen: 1 · x4 = −1 + (−1) · x4 = 6 + 0 · x4 = −1 2 · x2 + (−1) · x2 1 · x1 ⇒ ⇒ ⇒ x4 = −1 x2 = 2, 5 x1 = 1, 5 c) Bestimmung des ersten (und einzigen) Basisvektors von (A | ~0 (4) ): 1 −1 0 x1 −2 0 2 −1 · x2 = −1 0 0 1 x4 0 Wähle x3 = 1 und bestimme die übrigen Variablen: 1 · x1 2 · x2 + (−1) · x2 1 · x4 = 0 + (−1) · x4 = −1 + 0 · x4 = −2 ⇒ ⇒ ⇒ x4 = 0 x2 = −0, 5 x1 = −2, 5 d) Lösungsmenge: 1, 5 −2, 5 2, 5 −0, 5 +λ· λ∈R Lös(A | b) = 0 1 −1 0 Quotientenräume Wir haben gesehen, dass die Lösungsmenge eines linearen Gleichungssystems in der Regel keinen Unterraum bildet, sondern eine “Verschiebung” eines Unterraums ist. Durch die folgende Begriffsbildung kann man eine etwas allgemeinere Sicht auf diese Konstruktion gewinnen. Definition: Sei V ein Vektorraum, U ein Unterraum von V und ~v ein Vektor aus V , dann nennt man ~v + U = {~v + ~u | ~u ∈ U } die Nebenklasse von ~v bezüglich U . 91 Satz: Sei V ein Vektorraum, U ein Unterraum von V und ~v , w ~ zwei Vektoren aus V , dann gilt: ~v + U = w ~ +U ⇔ ~v − w ~ ∈U ⇔ w ~ ∈ ~v + U Definition: Sei V ein Vektorraum, U ein Unterraum von V und K der Körper von V , dann bezeichnet man die Menge V/U = {~v + U | ~v ∈ V } als Quotientenraum von V nach U . Beobachtung: Der Quotientenraum V/U ist ein Vektorraum mit den Operationen (~v + U ) + (w ~ + U ) = (~v + w) ~ +U λ · (~v + U ) = (λ · ~v ) + U ~0 + U = U. und dem neutralen Element λ v +U (v+w) +U v +U w +U λv U v w Satz: Sei V ein Vektorraum, U ein Unterraum von V , dann ist dim V/U = dim V − dim U Beweis: Man definiert eine Abbildung ϕ : V → V/U durch ~v 7→ ~v + U Die Abbildung ϕ ist linear und surjektiv (d.h. Im ϕ = V/U ) und Ker ϕ = U , denn ~v + U = U ⇐⇒ ~v ∈ U Dann folgt aus der Dimensionsformel: dim V = dim(Ker ϕ) + dim(Im ϕ) = dim U + dim V/U Ist A ∈ M (m × n, K) eine Matrix und ~b ∈ K n ein Spaltenvektor, dann ist die Lösungsmenge U = Lös(A, ~0) des homogenen Gleichungssystems ein Unterraum von V = K n. Die Lösungsmenge Lös(A, ~b) des linearen Gleichungssystems A · ~x = ~b ist eine Nebenklasse von U . Die Menge der Lösungsmengen bildet den Quotientenraum V/U , in dem die Operationen die folgenden zusätzlichen Eigenschaften haben: 92 • Addition: Ist Lös(A, ~b) = ~x+U und Lös(A, ~c) = ~y +U , dann ist (~x+~y )+U = Lös(A, ~b+~c) • Multiplikation mit Skalaren: Ist Lös(A | ~b) = ~x + U und λ ∈ K, dann ist λ ~x + U = Lös(A | λ ~b) 5.9 Inverse Matrizen Der Ring M (n × n, K) Die (n × n)–Matrizen über einem Körper K bilden einen Vektorraum und damit eine kommutative Gruppe bezüglich der Addition. Wie wir bereits wissen, ist die Multiplikation von Matrizen aus M (n × n, K) assoziativ. Darüber hinaus gibt es mit der Einheitsmatrix En ein neutrales Element: 1 0 ··· 0 . .. . .. 0 1 En = . . ∈ M (n × n, K), . . . . . ... .. 0 ··· ··· 1 denn für jede Matrix A ∈ M (n × n, K)) gilt En · A = A = A · En . Da außerdem das Assoziativgesetz gilt, bilden die (n × n)–Matrizen einen sogenannten Ring. Diese Struktur ist ähnlich zu der eines Körpers, aber die Multiplikation ist nicht notwendigerweise kommutativ und es muss nicht für jedes nicht-Null Element ein inverses Element bezüglich der Multiplikation geben. Definition: Sei A ∈ M (n × n, K), dann ist A−1 die zu A inverse Matrix, wenn A · A−1 = En = A−1 · A Man nennt eine Matrix A invertierbar, wenn eine zu A inverse Matrix A−1 existiert. Satz: Eine Matrix A ∈ M (n × n, K) ist genau dann invertierbar, wenn rg A = n. Beweis: Man beweist diesen Satz, indem man die Bijektion zwischen Matrizen und linearen Abbildungen verwendet und dann die Dimensionsformel für lineare Abbildungen anwendet. Ist f ∈ Hom(K n , K n ) die zur Matrix A ∈ M (n × n, K) assoziierte lineare Abbildung, dann gilt die folgende Kette von Äquivalenzen: rg A = n ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ dim(Im f ) = n dim(Im f ) = n und dim(Ker f ) = 0 f ist surjektiv und injektiv ⇐⇒ f ist bijektiv Es gibt für f eine Umkehrfunktion g mit f g = IdK n und gf = IdK n Für die zu g assoziierte Matrix B gilt AB = En und BA = En A ist invertierbar 93 Da man nun mit der Umwandlung in obere Dreiecksform ein einfaches Mittel zur Verfügung hat, das Entscheidungsproblem der Invertierbarkeit einer Matrix zu beantworten, bleibt noch die Frage offen, wie man für eine invertierbare Matrix A die inverse Matrix berechnen kann. Wir werden dazu mehrere Verfahren kennen lernen. Zuerst überlegen wir uns, wie man dieses Problem als lineares Gleichungssystem formulieren kann, danach werden wir den Algorithmus zur Entwicklung der oberen Dreiecksform zu einem Verfahren zur Matrixinvertierung modifizieren. Bestimmung der inversen Matrix mit linearen Gleichungssystemen Eine einfache Überlegung zu der mit A assoziierten linearen Abbildung f führt zu einer ersten, naiven Methode zum Invertieren einer Matrix. Wenn eine inverse Matrix existiert, korrespondiert sie zur inversen linearen Abbildung f −1 . Damit muss in der j-ten Spalte von A−1 das Bild des j-ten Basisvektors unter f −1 stehen, also der Spaltenvektor f −1 (ej ). Dieser Vektor ist aber gerade die (eindeutige!) Lösung des linearen Gleichungssystems A · ~x = e~j . Man kann also die inverse Matrix durch Lösung von n Gleichungssystemen bestimmen. Bestimmung der inversen Matrix mit elementaren Umformungen Dieses zweite Verfahren basiert auf einer Reihe von einfachen Beobachtungen: a) Seien A, B, C ∈ M (n × n, K) Matrixen und A · B = C. Überführt man mit den gleichen elementaren Zeilenumformungen A in A0 und C in C 0 (B bleibt unverändert), so gilt A0 · B = C 0 . Begründung: Jede Zeilenumformung kann durch Multiplikation von links mit einer entsprechenden Elementarmatrix ausgeführt werden: A0 · B = Dk · . . . · D2 · D1 ·A · B = Dk · . . . · D2 · D1 · C = C 0 {z } | {z } | Elementarmatrizen Elementarmatrizen b) Ist eine Matrix A ∈ M (n × n, K) invertierbar, so kann man A mit elementaren Zeilenumformungen in En überführen. Begründung: Da A den vollen Rang n hat, sind nach Überführung in eine obere Dreiecksform alle Diagonalelemente ungleich Null und man kann schrittweise mit Umformungen vom Typ 3 alle Elemente über der Diagonale in Nullen verwandeln und letztlich mit Umformungen vom Typ 2 alle Diagonalelemente in Einsen verwandeln. c) Überführt man die Matrix A durch Zeilenumformungen in En und wendet die gleichen Umformungen auf En an, so erhält man A−1 . Zur Begründung wendet man die Beobachtung a) an. Wir betrachten die Folge von Zeilenumformungen, die A in En überführen. Sei X die Matrix, die man durch Anwendung der gleichen Folge von Umformungen auf En erhält. Wir 94 wollen zeigen, dass X = A−1 ist. Das folgt aber aus der Anwendung von a) in der folgenden Situation: A=A B = A−1 und C = En Offensichtlich ist mit AB = C die Voraussetzung erfüllt und wir haben A C = En A0 = En C0 = X Nach a) ist dann A0 B = C 0 , damit En · A−1 = X und letztlich A−1 = X. Wir demonstrieren das beprochene 1 2 0 A = 1 1 2 0 −1 4 1 2 0 0 −1 2 0 −1 4 1 2 0 0 −1 2 0 0 2 1 0 4 0 −1 2 0 0 2 1 0 4 0 −1 0 0 0 2 1 0 0 0 −1 0 0 0 2 1 0 0 En = 0 1 0 0 0 1 Probe: Verfahren an einem Beispiel: 1 0 0 0 1 0 = En 0 0 1 1 0 0 −1 1 0 0 0 1 1 0 0 −1 1 0 1 −1 1 −1 2 0 −1 1 0 1 −1 1 −1 2 0 −2 2 −1 1 −1 1 −3 4 −2 −2 2 −1 1 −1 1 −3 4 −2 2 −2 1 = A−1 0, 5 −0, 5 0, 5 1 2 0 −3 4 −2 1 0 0 1 1 2 · 2 −2 1 = 0 1 0 0 −1 4 0, 5 −0, 5 0, 5 0 0 1 95 5.10 Determinanten Begriffseinführung für den Anwender Definition: Die Determinante det A ist eine Kenngröße einer quadratischen Matrix A ∈ M (n × n, K), die man rekursiv bestimmen kann: • Fall 1: n = 1 det (a1 1 ) = a1 1 • Fall 2: n > 1 Entwicklung nach der ersten Spalte: n X det A = (−1)i+1 ai 1 · det Ai 1 i=1 Dabei ist Ai 1 die Matrix, die man aus A durch Streichen der i-ten Zeile und der ersten Spalte enthält. An Stelle der Schreibweise det A kann man die Matrix auch mit Betragsstrichen begrenzen: a1 1 · · · a1 n a1 1 · · · a1 n .. = .. .. .. . . det ... . . . . . an 1 · · · an n an 1 · · · an n Beispiel: 0 1 0 0 1 2 1 0 2 4 5 2 0 1 2 0 6 2+1 1 5 1 = (−1) · 1 · 1 0 2 0 0 5 1 − 1 · 2 = − 1 · 2 2 0 0 0 = − ((5 · 0 − 2 · 1) − (2 · 0 − 2 · 0)) = 2 Beobachtung: Für die Spezialfälle n = 2 und n = 3 ergibt sich aus der angegebenen Formel ein einfaches Schema zur Bestimmung der Determinanten, die sogenannte Regel von Sarrus: 96 a1 1 a2 1 a3 1 a1 1 a1 2 a2 1 a2 2 = a1 1 · a2 2 − a1 2 · a2 1 a1 2 a1 3 a2 2 a2 3 = (a1 1 · a2 2 · a3 3 + a1 2 · a2 3 · a3 1 + a1 3 · a2 1 · a3 2 ) a3 2 a3 3 − (a1 3 · a2 2 · a3 1 + a1 1 · a2 3 · a3 2 + a1 2 · a2 1 · a3 3 ) Das Schema für (3 × 3)–Matrizen erhält man, indem die erste und die zweite Spalte noch einmal auf der rechten Seiten der Matrix angehängt werden: a1 1 a1 2 a1 3 a1 1 a1 2 a2 1 a2 2 a2 3 a2 1 a2 2 a3 1 a3 2 a3 3 a3 1 a3 2 Alle Summanden mit positiven Vorzeichen ergeben sich dann als Produkte der Werte auf den Diagonalen von links oben nach rechts unten und alle Summanden mit negativen Vorzeichen ergeben sich dann als Produkte der Werte auf den Diagonalen von rechts oben nach links unten. Achtung: Ab n = 4 funktioniert dieses Schema nicht mehr! Begriffseinführung für den Mathematiker Üblicherweise werden Determinanten durch den folgenden Satz eingeführt, dessen Beweis aber technisch sehr aufwändig ist. Satz: Es gibt genau eine Abbildung det : M (n × n, K) → K mit den folgenden Eigenschaften: 1. Die Abbildung det ist linear in jeder Zeile. 2. Wenn rg A < n, dann gilt det A = 0. 3. Für die Einheitsmatrix En gilt: det En = 1. Diese Abbildung lässt sich durch die am Anfang angegebene Entwicklungsformel bestimmen. Dabei bezieht sich der Begriff linear in jeder Zeile zu sein auf zwei Matrizen A und A0 , die sich nur in einer (der i-ten) Zeile unterscheiden und an allen anderen Stellen identisch sind: a1 1 · · · a1 n a1 1 · · · a1 n .. .. .. .. . . . . 0 0 0 A = ai 1 · · · ai n und A = ai 1 · · · ai n . . . .. .. .. .. . an 1 · · · an n an 1 · · · an n 97 Die Determinante muss dann die folgenden Bedingungen erfüllen: a1 1 ··· a1 n a1 1 · · · . . .. .. .. . 0 0 0 det ai 1 + ai 1 · · · ai n + ai n = det A+det A und det λai 1 · · · . .. .. .. . . an 1 ··· an n an 1 · · · a1 n .. . λai n = λ·det A .. . an n Wir verzichten auf einen vollständigen Beweis und werden nur einige Ideen ableiten, die sich unmittelbar aus den drei Eigenschaften ergeben. Zuerst untersuchen wir das Verhalten bei elementaren Zeilenumformungen. • Bei Typ 2 Umformungen, d.h. Multiplikation einer Zeile mit einem Skalar λ, folgt schon aus der ersten Eigenschaft, dass die Determinante der alten Matrix auch mit λ multipliziert werden muss. • Jede Abbildung det mit den Eigenschaften 1) bis 3) ist invariant bei Zeilenumformungen vom Typ 3, d.h. die Determinante bleibt bei solchen Umformungen gleich: a1 1 · · · a1 n a1 1 ··· a1 n a1 1 · · · a1 n .. .. .. .. .. .. . . . . . . aj 1 · · · aj n aj 1 · · · aj n aj 1 ··· aj n . .. .. .. .. = det ... det . . . . + det .. a + λa a λa · · · a + λa · · · a λa i1 i1 j1 j1 in j n in j n . . .. .. .. .. .. .. . . . . an 1 ··· an n an 1 · · · an n an 1 · · · an n = det A + 0 Dabei ist die zweite Determinante gleich Null, weil in der Matrix die j-te und die i-te Zeile linear abhängig sind und folglich der Rang kleiner als n ist. • Jede elementare Zeilenumformung vom Typ 1 (Vertauschung von zwei Zeilen) bewirkt die Änderung des Vorzeichens der Determinate bei gleichbleibendem Betrag. Man kann eine solche Umformung durch drei Umformungen vom Typ 3 und eine Umformung vom Typ 1 simulieren: A(0) A(1) A(2) A(3) A(4) Zeile i Zeile j Zeile i Zeile j Beginn mit Matrix A := Zeile i+ Zeile j := Zeile j− Zeile i = − Zeile i von A := Zeile i+ Zeile j = Zeile j von A := (−1) · Zeile j = Zeile i von A Die Umformungen (1) bis (3) sind vom Typ 3 und ändern die Determinate nicht, die letzte Umformung ändert das Vorzeichen. 98 Folgerung: Die Determinante kann als Produkt der Diagonalelemente einer Matrix in oberer Dreiecksform berechnet werden, wobei man die Überführung in diese Form nur durch Zeilenumformungen realisieren und für jeden Zeilentausch zusätzlich mit (-1) multiplizieren muss. Beispiel: 1 1 2 1 1 2 1 1 2 A = 1 1 3 7→ 0 0 1 7→ 0 3 −1 2 5 3 0 3 −1 0 0 1 {z } | Zeilentausch und folglich ist det A = (−1) · 1 · 3 · 1 = −3. Man beachte, dass wir bisher die Kernaussage des Satzes, nämlich dass eine solche Abbildung det überhaupt existiert, noch nicht bewiesen haben, sondern nur unter der Annahme, dass die Abbildung existiert, einige nützliche Eigenschaften nachgewiesen haben. Der Kernbeweis erfordert einigen technischen Aufwand, den wir hier vermeiden werden. Als Nebenprodukt ergibt sich dabei auch die Tatsache, dass die Determinante durch Entwicklung nach einer beliebigen Spalte oder nach einer beliebigen Zeile berechnet werden kann: det A = n X (−1)i+k ai k det Ai k Entwicklung nach Spalte k (−1)l+j al j det Al j Entwicklung nach Zeile l i=1 = n X j=1 Die Regel, welches Vorzeichen für welchen Summanden verwendet werden muss, kann man sich als Schachbrettmuster einprägen: + − + ... − + − . . . + − + . . . .. .. .. . . . . . . Wie das folgende Beispiel zeigt, kann man diese Eigenschaften sehr gut zur Vereinfachung der Determinantenberechnung nutzen, indem man vorrangig nach Zeilen bzw. Spalten mit vielen Nullen entwickelt: 7 3 0 −1 7 3 −1 2 4 0 5 = (−1)3+3 · 2 · 2 4 5 8 −5 2 4 2 1 0 2 1 0 0 3 −1 7 −1 −1· = 2 · 2 · 2 5 = 2 · (2 · 19 − 1 · 37) = 2 4 5 99 Letztlich kann man aus den oben genannten Fakten auch die folgende Beobachtung ableiten. Folgerung: Die Determinanten einer Matrix A und der zu A transponierten Matrix At sind gleich: det A = det At Anwendungen von Determinanten Determinanten haben sich als ein äußerst nützliches Werkzeug für vielfältige Anwendungen (in der Linearen Algebra und darüber hinaus) erwiesen. Wir werden uns hier mit drei Anwendungsfeldern genauer beschäftigen: 1. Lösung von (speziellen) linearen Gleichungssystemen (Cramersche Regel) 2. Geometrische Anwendungen 3. Invertierung von Matrizen Cramersche Regel Sei A ∈ M (n × n, K) eine Matrix mit rg A = n und ~b ∈ K n ein Vektor. Dann hat das lineare Gleichungssystem A · ~x = ~b eine eindeutige Lösung, die man wie folgt bestimmen kann: x1 det Ai .. für alle 1 ≤ i ≤ n ~x = . mit xi = det A xn Dabei ist Ai die Matrix, die man erhält, wenn man die i-te Spalte von A durch ~b ersetzt. Beispiel: Es ist die Lösung des folgenden linearen Gleichungssystems zu bestimmen: 2x1 + 3x2 = 5 2 3 x1 5 ↔ · = x1 − 2x2 = 2 1 −2 x2 2 Anwendung der Cramerschen Regel: 5 2 x1 = 2 1 2 1 x2 = 2 1 3 −2 −10 − 6 16 = = −4 − 3 7 3 −2 5 2 4−5 1 = = −4 − 3 7 3 −2 100 Geometrische Anwendungen I: Baryzentrische Koordinaten Im Folgenden werden Punkte in der Ebene R2 und im Raum R3 betrachtet. Wir werden die Punkte mit Großbuchstaben und die zugehörigen Ortsvektoren mit den entsprechenden Kleinbuchstaben bezeichnen. Seien P, Q, R ∈ R2 drei Punkte in der Ebene, die nicht auf einer Geraden liegen, dann kann man den Ortsvektor ~t eines beliebigen Punkts T ∈ R2 eindeutig als Linearkombination ~t = a · p~ + b · ~q + c · ~r mit a + b + c = 1 darstellen. Die Koeffizienten a, b und c nennt man die baryzentrischen Koordinaten oder auch Schwerpunktskoordinaten von T bezüglich P, Q und R. Man kann diese Koordinaten als Lösung eines linearen Gleichungssystems berechnen: px · a+ qx · b+ rx · c = tx py · a+ qy · b+ ry · c = ty a+ b+ c =1 Die Voraussetzung, dass P, Q und R nicht auf einer Geraden liegen, sorgt dafür, dass dieses System eine eindeutige Lösung hat, die man mit der Cramerschen Regel finden kann. Wir verwenden dazu eine spezielle Funktion, die wir mit pdet (abgekürzt für Punktdeterminante) bezeichnen: pdet : R2 × R2 × R2 → R px qx rx pdet (~p, ~q, ~r) := det py qy ry 1 1 1 Aus der Cramerschen Regel ergeben sich die baryzentrischen Koordinaten wie folgt: a= pdet(~t, ~q, ~r) pdet(~p, ~q, ~r) b= pdet(~p, ~t, ~r) pdet(~p, ~q, ~r) c= pdet(~p, ~q, ~t) pdet(~p, ~q, ~r) Eine wichtige Eigenschaft der baryzentrischen Koordinaten besteht darin, dass der Punkt T genau dann in dem von P, Q und R aufgespannten Dreieck liegt, wenn alle baryzentrischen Koordinaten von T im Intervall [ 0 , 1 ] liegen. Der Punkt T liegt genau dann auf dem Rand des Dreiecks, wenn eine baryzentrischen Koordinate gleich Null ist und die anderen beiden in [ 0 , 1 ] liegen. Mit Hilfe der baryzentrischen Koordinaten kann man auch Bildverzerrungen wie das in der Computergrafik verwendete Warping realisieren. Dabei wird vorausgesetzt, dass über ein gegebenes Bild ein Dreiecksgitter gelegt ist und die verzerrte Abbildung der Gitterpunkte bekannt ist. Zu bestimmen ist, wohin die inneren Punkte der Dreiecke abzubilden sind. Dazu berechnet man die baryzentrischen Koordinaten des abzubildenden Punktes T in einem Dreieck ∆(P, Q, R) und definiert den Bildpunkt T 0 als Punkt mit den gleichen baryzentrischen Koordinaten im verzerrten Dreieck ∆(P 0 , Q0 , R0 ). 101 R’ R T’ T P P’ Q’ Q Geometrische Anwendungen II: Dreiecksfläche und Volumen eines Simplexes Seien p~, ~q, ~r ∈ R2 die Ortsvektoren der Punkte P , Q und R, dann kann man aus der oben eingeführten Punktdeterminate die folgenden geometrischen Eigenschaften ablesen: • Die Punkte P , Q und R liegen genau dann auf einer Linie, wenn pdet(~p, ~q, ~r) = 0 −→ • Der Punkt R liegt genau dann links von der gerichteten Geraden P Q, wenn pdet(~p, ~q, ~r) > 0 −→ • Der Punkt R liegt genau dann rechts von der gerichteten Geraden P Q, wenn pdet(~p, ~q, ~r) < 0 • Die Fläche des von P , Q und R aufgespannten Dreiecks beträgt: pdet(~p, ~q, ~r) 2 Beispiel: P = (−3, −2), Q = (5, 3) und R = (14, 8) in R2 : R Q P 102 −3 5 14 pdet(~p, ~q, ~r) = −2 3 8 = −9 + 40 − 28 − 42 + 10 + 24 = −5 < 0 1 1 1 −−−−−−−−−→ Daraus folgt, dass (14, 8) rechts von der gerichteten Geraden (−3, −2)(5, 3) liegt und dass die Fläche des von den drei Punkten aufgespannten Dreiecks 2, 5 beträgt. Diese Eigenschaften lassen sich auch auf höhere Dimensionen übertragen. Seien P , Q, R und S Punkte in R3 , dann ist die Größe p q r s x x x x 1 · det py qy ry sy 6 pz qz rz sz 1 1 1 1 das Volumen des von den vier Punkten aufgespannten Simplexes. Falls die vier Punkte auf einer Ebene liegen, ist der Wert 0. Komplementärmatrix Definition: Die zu einer Matrix A ∈ M (n × n, K) komplementäre Matrix à = (ãi j )(i,j)∈n×n ist wie folgt definiert: ãi j = (−1)i+j · det Aj i Dabei ist Aj i die Matrix, die man aus A durch Streichen der j-ten Zeile und der i-ten Spalte enthält. Satz: A · à = (det A) · En Beweis: Auf der Diagonalen von C := A · à steht immer det A, denn der Koeffizient ci i kann leicht in die Entwicklung von det A nach der i–ten Zeile umgewandelt werden: ci i = n X ai k · ãk i k=1 = n X ai k · (−1)k+i · det Ai k k=1 = det(A) Bei der Berechnung eines Koeffizienten ci j , der nicht auf der Diagonalen liegt, beginnt man mit dem gleichen Ansatz, stellt dann aber fest, dass die Werte der Terme det Aj k überhaupt nicht vom Inhalt der j-ten Zeile von A abhängen, d.h. wenn man aus A eine Matrix A0 bildet, bei der die j–te Zeile durch die i–te Zeile ersetzt ist, erhält man die gleiche Formel. In A0 gilt wegen der Identität der i–ten und j–ten Zeile a0j k = a0i k = ai k . Auf diesem Umweg kommt man zur Entwicklung der Determinate 103 von A0 nach der j–ten Zeile. Da aber A0 zwei identische Zeilen hat, ist det A0 = 0. ci j = = n X k=1 n X ai k · ãk j ai k · (−1)k+j · det Aj k k=1 = n X (−1)k+j · a0j k · det A0j k k=1 = det(A0 ) = 0 Folgerung: Ist det A 6= 0, dann ist A invertierbar und A−1 = à . det A Spezialfall: Für A ∈ M (2 × 2, K) gilt: −1 1 a b d −b = · für ad − bc 6= 0 c d −c a ad − bc Die Determinate eines Endomorphismus Satz: Für alle A, B ∈ M (n × n, K) gilt: det(A · B) = det A · det B Wir verzichten auf einen Beweis diese Satzes, wollen aber dafür eine wichtige Schlussfolgerung ziehen. Satz: Sei f : K n → K n ein Endomorphismus, A die zu f gehörende Matrix bezüglich der Standardbasis B1 und B eine zu f gehörende Matrix bezüglich einer anderen Basis B2 , dann ist det A = det B. Beweis: Sie C die Matrix, deren Spalten die Vektoren aus B2 sind. Damit beschreibt C die Abbildung des Basiswechsels von B1 nach B2 bezüglich der Standardbasis. Die Matrix C ist invertierbar und die inverse Matrix C −1 beschreibt den umgekehrten Basiswechsel. Offensichtlich gilt nun: C −1 · A · C = B. Durch Anwendung des Satzes über die Determinante des Matrixprodukts erhalten wir: det B = det (C −1 ) · det A · det C = det A · det (C −1 · C) = det A · det En = det A. 104 Folgerung: Man kann jedem Endomorphismus f : K n → K n eindeutig seine Determinante det f = det A zuordnen, wobei A die Abbildung f bezüglich einer beliebigen Basis repräsentiert. Beispiel: Wir wollen die im Beweis beschriebene Methode zum Basiswechsel an einem einfachen Beispiel nachvollziehen. Dazu betrachten wir als Endomorphismus f die Spiegelung des Raums R2 an der x–Achse. Wir wählen 1 0 1 1 B1 = , die Standardbasis und B2 = , eine andere Basis. 0 1 1 −1 Das hat den Vorteil, dass wir nicht nur die Matrix A kennen, sondern auch schon B, denn durch die Spiegelung an der x–Achse wird der erste Vektor von B2 auf den zweiten und der zweite Vektor von B2 auf den ersten abgebildet, d.h. 1 0 0 1 A= und B= 0 −1 1 0 Damit kennen wir schon das Ergebnis, das eigentlich noch berechnet werden soll. 1 1 Wir wissen, dass C = ist und können C −1 durch die Komplementärmatrix 1 −1 bestimmen: 1 1 −1 −1 0.5 0.5 −1 C = · C̃ = = 0.5 −0.5 det C −2 −1 1 Durch Ausführung der Matrixmultiplikation C −1 · A · C erhält man tatsächlich die oben dargestellte Matrix B. 5.11 Eigenwerte und Eigenvektoren Diagonalisierbarkeit Wir haben bereits im Zusammenhang mit inversen Matrizen die Auswirkungen eines Basiswechsels für die Matrixdarstellung eines Endomorphismus kennengelernt, sind dabei aber noch nicht auf die Frage eingegangen, ob und wann ein solcher Basiswechsel eigentlich sinnvoll ist. Der Nutzen eines Basiswechsels liegt sicherlich immer dann klar auf der Hand, wenn durch diesen Wechsel eine sehr einfache Matrix entsteht. Das trifft insbesondere auf den folgenden Fall zu. Definition: Ein Endomorphismus f ∈ Hom (V, V ) wird diagonalisierbar genannt, wenn eine Basis von V existiert, für die die Matrixdarstellung A von f Diagonalgestalt hat, d.h. wenn A außerhalb der Diagonalen nur Nullen hat. Eine solche Basis nennt man Diagonalbasis von f . Zu den wesentlichen Vorteilen einer Diagonalmatrix A ∈ M (n × n, K) gehören die folgenden Aspekte: • Das Bild eines beliebigen Vektors ~v ∈ V kann mit n Multiplikationen und n − 1 Additionen bestimmt werden. 105 • Man kann die Determinante von A mit n − 1 Multiplikationen bestimmen und damit auch entscheiden, ob A invertierbar ist. • Falls A invertierbar ist, kann man A−1 mit n Divisionen berechnen. Der Fakt, dass jeder Vektor ~v einer Diagonalbasis die Eigenschaft f (~v ) = λ~v hat, führt zur folgenden Begriffsbildung. Definition: Ist f ∈ Hom (V, V ) ein Endomorphismus, ~v 6= ~0 ein Vektor aus V und λ ∈ K, so dass f (~v ) = λ~v gilt, so wird ~v Eigenvektor von f zum Eigenwert λ genannt. Lemma: Ist M = {~v1 , ~v2 , . . . , ~vr } eine Menge von Eigenvektoren eines Endomorphismus f zu paarweise verschiedenen Eigenwerten λ1 , . . . , λr , so ist M linear unabhängig. Beweis durch Induktion nach r: Der Induktionsanfang für r = 1 ist trivial, denn ein Eigenvektor ist nach Definition nicht der Nullvektor und damit ist {~v1 } linear unabhängig. Sei die Aussage wahr für alle Mengen mit r Vektoren und sei M 0 = {~v1 , ~v2 , . . . , ~vr+1 } eine Menge von Eigenvektoren eines Endomorphismus f zu paarweise verschiedenen Eigenwerten λ1 , . . . , λr+1 . Zu zeigen ist, dass jede Linearkombination ~0 = µ1~v1 + . . . + µr~vr + µr+1~vr+1 trivial ist, d.h. dass µ1 = . . . = µr = µr+1 = 0 ist. Dazu betrachtet man die Abbildung dieser Linearkombination unter f : ~0 = f (~0) = f (µ1~v1 + . . . + µr~vr + µr+1~vr+1 ) = µ1 f (~v1 ) + . . . + µr f (~vr ) + µr+1 f (~vr+1 ) = µ1 λ1~v1 + . . . + µr λr~vr + µr+1 λr+1~vr+1 Durch subtraktive Verknüpfung dieser Gleichung mit der Gleichung ~0 = λr+1~0 = λr+1 (µ1~v1 + . . . + µr~vr + µr+1~vr+1 ) = µ1 λr+1~v1 + . . . + µr λr+1~vr + µr+1 λr+1~vr+1 erhält man ~0 = µ1 (λ1 − λr+1 )~v1 + . . . + µr (λr − λr+1 )~vr + µr+1 (λr+1 − λr+1 ) ~vr+1 . {z } | =0 Da ~vr+1 in dieser Linearkombination verschwindet und nach Induktionsvoraussetzung die Menge {~v1 , ~v2 , . . . , ~vr } linear unabhängig ist, muss die Linearkombination trivial sein. Unter Berücksichtigung der Verschiedenheit der Eigenwerte ergibt sich µ1 (λ1 − λr+1 ) = . . . = µr (λr − λr+1 ) = 0 | {z } | {z } 6=0 6=0 106 =⇒ µ1 = . . . = µr = 0 und daraus folgt auch µr+1 = 0, womit die Induktionsbehauptung bewiesen ist. Folgerung: Ist dim V = n und der Endomorphismus f ∈ Hom (V, V ) hat n Eigenwerte, dann ist f diagonalsierbar. Auf Grund des Lemmas bildet jede Menge von Eigenvektoren zu den n Eigenwerten eine Basis von V . Offensichtlich ist das eine Diagonalbasis, denn die zugehörige Matrixdarstellung von f hat auf der Diagonalen die Eigenwerte und sonst nur Nullen. Wie wir sehen werden, ist die Existenz von n Eigenwerten aber keine notwendige Voraussetzung für die Diagonalisierbarkeit. Eigenräume Sind ~v und w ~ zwei Eigenvektoren von f ∈ Hom (V, V ) zum selben Eigenwert λ, dann ist auch jede (von ~0 verschiedene) Linearkombination aus ~v und w ~ ein Eigenvektor zum Eigenwert λ, mit anderen Worten bilden die Eigenvektoren zu λ zusammen mit dem Nullvektor einen Unterraum von V . Da f (~v ) = λ~v äquivalent ist zu (f − λ IdV ) (~v ) = ~0, kann man diesen Unterraum auch als Kern des Endomorphismus f − λ IdV charakterisieren. Definition: Ist λ ein Eigenwert von f ∈ Hom (V, V ), dann nennt man den Unterraum Eλ := Ker (f − λ IdV ) den Eigenraum von λ. Die Dimension von Eλ wird geometrische Vielfachheit von λ genannt. Satz: Ein Endomorphismus f ∈ Hom (V, V ) mit den Eigenwerten λ1 , . . . , λr ist genau dann diagonalisierbar, wenn r X dim Eλk = dim V. k=1 Beweis: Man verwendet das Lemma über die lineare Unabhängigkeit von Eigenvektoren zu verschiedenen Eigenwerten um zu zeigen, dass die Vereinigung der Basen der Eigenräume Eλ1 , . . . , Eλr auch eine linear unabhängige Menge ist. Damit ist diese Vereinigung genau dann eine Basis von V , wenn sie n = dim V Elemente hat. Wenn man alle Eigenwerte von f kennt, ist es nicht schwer, die Diagonalisierbarkeit von f zu überprüfen, denn die Eigenräume zu den Eigenwerten λi sind die Kerne der Endomorphismen f − λi IdV . Es bleibt also zu klären, wie man die Menge der Eigenwerte von f bestimmen kann. Charakteristisches Polynom Definition: Sei V ein n–dimensionaler Vektorraum und f ∈ Hom (V, V ), dann nennt man die Determinante det (f − λ · IdV ) das charakteristische Polynom von f . Da wir wissen, dass die Determinante eines Epimorhismus auf V nicht von der Wahl der Basis von V abhängig ist, kann man das charakteristische Polynom von f auch als det (A − λ · En ) definieren, wobei A eine Matrixdarstellung von f für eine beliebig 107 gewählte Basis von V ist. Das charakteristische Polynom ist ein Polynom vom Grad n mit der Unbekannten λ und wird mit Pf (λ) bezeichnet. Satz: Sei V ein n–dimensionaler Vektorraum und f ∈ Hom (V, V ). Ein Element α des Körpers ist genau dann Eigenwert von f , wenn es Nullstelle des charakteristischen Polynoms Pf (λ) ist. Beweis: Wie wir bereits wissen, ist ein α genau dann ein Eigenwert von f , wenn es einen (von ~0 verschiedenen!) Eigenvektor zu α gibt, d.h. wenn der Eigenraum Eα = Ker (f − α · IdV ) mindestens Dimension 1 hat. Nach Dimensionsformel gilt dann: dim (Im (f − α · IdV )) = dim V − dim (Ker (f − α · IdV )) ≤ n − 1 Da ein Endomorphismus genau dann vollen Rang hat, wenn seine Determinante ungleich 0 ist, kann man obige Bedingung äquivalent in det (f − α · IdV ) = 0 umwandeln und damit ist α Nullstelle des charakteristischen Polynoms. Beispiel: 1 0 Für den durch die Matrix A = 0 −1 2 0 alle Eigenwerte und Basen der jeweiligen 2 2 gegebenen Endomorphismus f sollen 1 Eigenräume bestimmt werden. • Charakteristisches Polynom: 1−λ 0 2 −1 − λ 2 = −λ3 + λ2 + 5λ + 3 Pf (λ) = det (A − λ · En ) = det 0 2 0 1−λ • Nullstellen des charakteristischen Polynoms: λ1 = −1 (eine doppelte Nullstelle) und λ2 = 3 (einfache Nullstelle) • Basis des Eigenraums E−1 : 2 0 2 Dazu betrachtet man den Kern der Matrix (A − (−1)En ) = 0 0 2. 2 0 2 Da der Rang dieser Matrix 2 ist, hat der Kern nur Dimension 1 und offensichtlich 0 ist der Vektor 1 ein Basisvektor des Kerns. 0 • Basis des Eigenraums E3 : −2 0 2 Dazu betrachtet man den Kern der Matrix (A − 3En ) = 0 −4 2 . 2 0 −2 108 Da der Rang dieser Matrix 2 ist, hat der Kern nur Dimension 1 und offensichtlich 2 ist der Vektor 1 ein Basisvektor des Kerns. 2 • Schlussfolgerung: Da die Summe der Eigenraumdimensionen kleiner als 3 ist, ist die Abbildung f nicht diagonalisierbar. 109