Mathematik für Informatiker 1 Eine Vorlesung von Dr. Alexandra Köthe Institut für angewandte Mathematik Ruprecht-Karls-Universität Heidelberg Version vom 26. Januar 2014 Inhaltsverzeichnis Inhaltsverzeichnis 2 Vorwort 4 1 Einleitung 1.1 Was ist Mathematik? . . . . . . . . . . . . . . . . . . . 1.2 Was ist Informatik? . . . . . . . . . . . . . . . . . . . 1.3 Woher kommt die Informatik? . . . . . . . . . . . . . . 1.4 Warum muss ich als Informatiker Mathematik lernen? 1.5 Ziele der Vorlesung Mathematik für Informatiker . . . 1.6 Einige ermunternde Worte für Mathe-Anfänger . . . . 5 5 6 6 7 7 9 I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grundlagen 11 2 Grundlagen der mathematischen Logik 2.1 Aussagen und Quantoren . . . . . . . . 2.2 Verknüpfungen von Aussagen . . . . . . 2.2.1 Die Negation . . . . . . . . . . . 2.2.2 Zweiwertige Verknüpfungen . . . 2.3 Beweisarten . . . . . . . . . . . . . . . . . . . . . 12 12 15 16 17 20 3 Grundlagen der Mengenlehre 3.1 Notation und Operationen auf Mengen . . . . . . . . . . . . . . . . . . . . . 3.2 Abbildungen zwischen Mengen . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 28 36 4 Algebraische Strukturen 4.1 Gruppen . . . . . . . . . . 4.2 Gruppenhomomorphismen 4.3 Ringe und Körper . . . . 4.4 Polynome . . . . . . . . . . . . . 39 39 42 44 46 . . . . . . 50 50 53 60 62 63 67 5 Zahlenmengen 5.1 Die natürlichen Zahlen 5.2 Die ganzen Zahlen . . 5.3 Die rationalen Zahlen 5.4 Die reellen Zahlen . . 5.5 Die komplexen Zahlen 5.6 Restklassenringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II Lineare Algebra 76 6 Vektorräume 77 6.1 Vektorräume und Untervektorräume . . . . . . . . . . . . . . . . . . . . . . 77 6.2 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6.3 Summen und direkte Summen . . . . . . . . . . . . . . . . . . . . . . . . . . 89 7 Matrizen, LGS und lineare Abbildungen 7.1 Matrizen . . . . . . . . . . . . . . . . . . . . 7.2 Lineare Gleichungssysteme . . . . . . . . . . 7.3 Lineare Abbildungen . . . . . . . . . . . . . 7.4 Basiswechsel und Äquivalenz von Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 94 106 113 129 8 Determinanten und Diagonalisierbarkeit 144 8.1 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 8.2 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . 156 9 Bilinearformen, Skalarprodukte, 9.1 Bilinearformen . . . . . . . . . 9.2 Skalarprodukte . . . . . . . . . 9.3 Orthogonale Abbildungen . . . 9.4 Sebstadjungierte Abbildungen . 9.5 Die Singulärwertzerlegung . . . Spektralsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 168 178 184 188 194 10 Anwendungen 200 10.1 Total Least Squares Regression . . . . . . . . . . . . . . . . . . . . . . . . . 200 10.1.1 Total Least Squares im Rm . . . . . . . . . . . . . . . . . . . . . . . 204 Inhaltsverzeichnis Inhaltsverzeichnis Vorwort Dieses Skript wurde erstellt um das Erarbeiten und Lernen des Stoffs der Vorlesung “Mathematik für Informatiker 1” zu vereinfachen. Es gilt dabei zu beachten: • Das Skript basiert auf dem Skript des letzten Jahres von Dr. Daniel Kondermann und Dr. Martin Rheinländer. Einige Abschnitte wurden übernommen, andere überarbeitet, wieder andere völlig neu erstellt. So ist ein nicht ganz einheitlicher Stil entstanden, der im Laufe der Zeit hoffentlich immer mehr angeglichen wird. • Manche Themen hier im Skript sind ausführlicher behandelt als in der Vorlesung. Für die Klausur gilt: relevant ist alles, was in Übung und Vorlesung vorkam. Das Skript soll helfen, eventuell fehlenden Mitschriften zu ergänzen. • Das Skript ersetzt also auf keinen Fall die eigenen Mitschriften! • Es gibt hunderte (wenn nicht tausende) von Tippfehlern! Wenn Ihnen beim Lesen des Skripts welche auffallen, dann teilt sie mir bitte mit, insbesondere wenn durch den Tippfehler, der Inhalt falsch wird!! Grundsätzlich gilt für Skript und Vorlesung im Allgemeinen: Solltet ihr deshalb eigene Beiträge, Fragen, Vorschläge oder Kritik haben: immer her damit! Je mehr ihr zu einer gelungenen Vorlesung beitragt, desto befriedigender wird das Ergebnis für alle Beteiligten. 4 1. Einleitung – Was hat Mathematik mit Informatik zu tun? 1.1. Was ist Mathematik? Die Mathematik wird neben der Philosophie (und vielleicht auch der Medizin) als die älteste Wissenschaft angesehen. Der Name Mathematik entstammt der griechischen Sprache und hat eine sehr universelle Bedeutung, die weit über das hinausgeht, was heutzutage unter Mathematik verstanden wird. Das griechische Wort μανθάνω beinhaltet so viel wie Lernen, Erkennen vor allem durch Beobachtung und Nachdenken. Daraus leitet sich der Begriff μαθηματικὴ τεχνή ab, was der Kunst des Lernens bzw. Erkennens (d.h. wie man Erkenntnisse gewinnt) entspricht. Als die Mathematik in Griechenland im Entstehen war, gab es weder etablierte Wissenschaften noch Universitäten als Orte des Lernens, wie in unserer Zeit. Wissen und Erkenntnisse mussten erst einmal zu einem ansehnlichen Lehrgebäude aufgetürmt werden. Das Lernen bestand in jenen Tagen im wesentlichen aus dem, was man durch eigene Erfahrung, Beobachtung und gedankliche Reflexion herausfinden konnte. Es war kein relativ passiver Wissenskonsum wie heute, wo vielfach das Auswendiglernen gewisser Fakten im Vordergrund steht, sondern es war eine Aktivität, ein Studium im Sinne einer Untersuchung oder Analyse. Während andere Völker wie die Babylonier und Ägypter es zwar bei einer beachtlichen aber im wesentlichen doch rein praktisch orientierten Rechenkunst beließen, waren es die Griechen, die als erste danach gesucht haben, mathematische Zusammenhänge und Gesetzmäßigkeiten (vor allem aus der Geometrie) jenseits von Beispielen in allgemeingültiger Weise zu begründen. Daraus ist die Beweiskultur der Mathematik enstanden, die Präzision des Denkens, die nicht nur innerhalb der Mathematik von Nöten und von hohem Nutzem ist. Ebenso waren es auch die Griechen, die gemerkt haben, daß man nicht umhin kommt, bestimmte Aussagen nicht mehr weiter zu hinterfragen. Diese sind klar und deutlich zu benennen, um darauf aufbauend mit umso strengerer logischer Argumentation neue Aussagen herzuleiten. Trotz ihrer inzwischen für eine einzelne Person kaum zu überschauende Auffächerung, versucht man die Mathematik oft eng abzugrenzen. Dennoch sind mathematische Methoden und darauf beruhende Maschinen seit Jahrzehnten schon die Grundlage für den Erkenntnisgewinn in allen Wissenschaften, die jenseits von Spekulation und Meinungsäußerung stehen. Somit ist die Mathematik der ursprünglichen Bedeutung ihres Namens bis heute treu geblieben. Neben dem vordergründigen Lehrstoff hoffen wir, daß es uns gelingt, in der Vorlesung immer wieder die folgenden Aspekte mitschwingen zu lassen: • Mathematik Lernen ist kein stumpfes Pauken sondern erfordert eine intensive, kritische Auseinandersetzung mit gewissen Fragestellungen. • Genau darin liegt der Reiz, denn es macht Spaß, Zusammenhänge zu verstehen. 5 KAPITEL 1. EINLEITUNG 1.2. WAS IST INFORMATIK? • Mathematik ist nützlich, man kann damit tolle Dinge machen insbesondere auch mit Blick auf die Informatik. • Mathematik ist das paradigmatische Warum-Fach, in dem man beispielhaft lernt Dinge zu hinterfragen und zu begründen. Deshalb hilft Mathematik mittel- und unmittelbar, sich andere Fächer besser zu erschließen. Aber nicht nur die Griechen prägten die Grundzüge der modernen Mathematik. In Persien schrieb ein Mathematiker aus Bagdad um das Jahr 820 ein Meisterwerk mit dem Titel “Kita-b al-muchtasar fi hisab al-dschabr wa-l-muqabala”. Das Wort al-dschabr im Titel wurde später ins lateinische als Algebra übersetzt. Der Name des Authors war Abu Dscha’far Muhammad ibn Musa al-Chwarizmi. Sein Nachname al-Chwarizmi ist der Ursprung des Begriffes Algorithmus. Ein Algorithmus ist eine Aneinanderreihung von Anweisungen, um bereits vorliegende Eingabeinformationen umzuwandeln in Ausgabeformationen. Als Informatiker wendet man Algorithmen an, indem man sie programmiert. Ein Computer kann das so entstehende Programm ausführen, um Menschen die Arbeit zu erleichtern. 1.2. Was ist Informatik? Informatik kann als modernes Teilgebiet der Mathematik verstanden werden: Sehr grob zusammengefasst ist das Ziel der Informatik als Wissenschaft, Algorithmen zu entwerfen, auf ihre Eigenschaften (wie Genauigkeit, Komplexität, usw.) zu untersuchen, Computer (weiter-)zuentwickeln die man mit Algorithmen füttern kann, die Algorithmen möglichst geschickt in Programmen zu implementieren, diese Programme gründlich zu testen und sie bezüglich ihrer Eigenschaften wie z.B. Geschwindigkeit oder Bedienbarkeit zu optimieren. 1.3. Woher kommt die Informatik? Entstanden ist die Informatik zu keinem bestimmten Zeitpunkt, denn sie hat sich nach und nach aus verschiedenen anderen Wissenschaftlichen Disziplinen herauskristallisiert. Die wichtigste Disziplin war wie gesagt die Mathematik - dicht gefolgt von den Ingenieuren, die durch Anwendung der zugrundeliegenden mathematischen Prinzipien die ersten Computer entwickelt haben. Man kann leicht streiten, welche Mathematiker gleichzeitig auch zu den wichtigsten Informatikern gehören. Einer der bedeutensten Preise der Informatik in Deutschland ist der Leibniz-Preis. Er wurde nach Gottfried Wilhelm Leibniz benannt, wahrscheinlich weil dieser lange vor jedem Computer um 1700 das Binärsystem entwickelt hat. Dieses System arbeitet ausschließlich mit zwei Werten (z.B. 0 und 1). Darauf basierend entwickelte eine Weile später (1854) George Boole die Boolesche Algebra. Jedes digitale Gerät auf dieser Welt benutzt diese Methode um Informationen (Daten) und Algorithmen (Programme) elektronisch zu repräsentieren. Deshalb werden wir diese Algebra etwas ausführlicher besprechen und parallel dazu auch gleich im Programmierkurs den Datentyp bool kennen lernen. Diese Entwicklung führte schon damals zum Wunsch, Algorithmen völlig automatisch von Maschinen ausführen zu lassen. So stammt z.B. der Begriff etwas zu türken nicht von vermeintlich betrügerischen Personen türkischer Herkunft, sondern von einem sehr bekannten Betrug des ungarischen Erfinders Wolfgang von Kempelen. Dieser war zwar weder Mathematiker noch Informatiker (er studierte Jura und Philosophie), aber er erfand den sogenannten mechanischen Türken. Der mechanische Türke war ein Schachcomputer, 6 KAPITEL 1. EINLEITUNG 1.4. WARUM MUSS ICH ALS INFORMATIKER MATHEMATIK LERNEN? der offenbar vollautomatisch so gut spielte, dass er die meisten Menschen besiegen konnte. Erst etwa 50 Jahre später stellte sich heraus, dass sich in der Maschine versteckt ein echter Mensch befand, der meistens ziemlich schacherfahren war. Einer der wichtisten Mathematiker für die Informatik war Alan Mathison Turing (19121954). Turing hat viele bedeutende Beiträge für die Mathematik, die Informatik und sogar die theoretische Biologie geleistet. Dass er 1953 eines der ersten wirklichen Schachprogramme entwickelte, war vielleicht der unwichtigste davon. Er definierte den Turingtest, der festlegt, unter welchen Kriterien man von einer echten künstlichen Intelligenz sprechen kann. Im letzten Weltkrieg entzifferte er mit seinen Kollegen auch Nachrichten der deutschen Verschlüsselungsmaschine Enigma. Der Turingpreis trägt seinem Namen ehre, denn es ist so etwas wie der Nobel-Preis“ der Informatik. Mit seiner Turingmaschine legte er eine ” wesentliche Grundlage der theoretischen Informatik. Sie ist der Stoff jeder Grundvorlesung zu diesem Thema. Claude Elwood Shannon sollte in dieser Liste ebenfalls genannt werden. Er war ebenfalls Mathematiker; aber er studierte ebenfalls Elektrotechnik und war dadurch ein wichtiges Bindeglied zur Entwicklung von elektrischen Maschinen, die mathematische Algorithmen ausführen können. In seiner theoretischen Arbeit begründete er die Informationstheorie und formulierte den fundamentalen Satz von Nyquist-Shannon (Abtasttheorem). Als Elektrotechniker wandte er 1937 als erster die Boolesche Algebra in seiner Masterarbeit an, indem er sie in elektronischen Schaltern (Relais) realisierte. In dieser Zeit beschäftigte sich bereits eine Vielzahl von Ingenieuren (wie neben Shannon z.B. auch George Stiblitz, John Atanasoff und Clifford Berry) mit der Entwicklung von automatischen Rechenmaschinen. John von Neumann (1903-1957, ebenfalls Mathematiker) setzte sich stark für deren Entwicklung ein und die nach ihm benannte von Neumann Rechnerarchitektur ist nach wie vor aktuell. 1941 stellte schließlich Konrad Zuse den weltweit ersten universell programmierbaren binären Digitalrechner namens Zuse Z3 vor und begründete damit endgütltig das Informationszeitalter. 1.4. Warum muss ich als Informatiker Mathematik lernen? Mathematiker wie Leibniz, Boole, Turing und Shannon haben Wissen dokumentiert, das nach wie vor absolut unabdinglich ist, wenn man heute in irgendeinem Teilgebiet der Informatik arbeiten möchte. Als Informatiker möchte man Algorithmen verstehen, anwenden und evtl. auch selbst entwickeln. Um diese mathematischen Modelle zu verstehen, muss man einerseits lernen, wie ein Mathematiker denkt und arbeitet; andererseits benötigt man Wissen über die wichtigsten Grundlagen der Mathematik: lineare Algebra, Analysis und - je nach späterer Spezialisierung - auch Statistik und Numerik. Dies ist die erste Vorlesung zu diesem Thema. 1.5. Ziele der Vorlesung Mathematik für Informatiker Informatiker haben eine besondere Sicht auf die Mathematik. Einerseits ist sie “nur” ein Werkzeug; andererseits können neue Algorithmen oft nur entworfen werden, wenn man sich sehr genau in der Mathematik auskennt. Da die Informatik aus so vielen und teilweise stark unterschiedlichen Teildisziplinen besteht, ist es schwierig eine Vorlesung zu halten, die allen gerecht wird. Wir wollen deshalb zwei unserer Meinung nach besonders wichtige Aspekte betonen: 7 KAPITEL 1. EINLEITUNG 1.5. ZIELE DER VORLESUNG MATHEMATIK FÜR INFORMATIKER Mathematisches Denken Wenn man neue Algorithmen entwirft oder auch nur existierende programmiert, muss man sich jedes Detail bewusst machen und verstehen. Ohne diese Herangehensweise schleichen sich schnell Fehler in die Software ein (Bugs), die in der Geschichte (wie zum Beispiel in der Raumfahrt) bereits mehrfach zum Tod der Anwender der Software geführt hat. Die Mathematik ist besonders stark strukturiert und pflegt eine strenge Vorgehensweise. Eine besondere Rolle haben hier Axiome, Definitionen, Sätze (zentrale mathematische Aussagen) und deren Beweise. Diese Struktur findet man auch (vereinfacht betrachtet) beim Programmieren wieder: Variablen und Funktionen müssen deklariert und definiert werden; Sätze fassen logische Schlussfolgerungen zusammen, was im Falle eines konstruktiven Beweises auch einem Algorithmus entspricht. Logische Programmiersprachen wie Prolog werden sogar zur automatischen Beweisführung eingesetzt und funktionale Sprachen wie Haskell basierend fast ausschließlich auf der Anwendung von mathematischen Funktionsdefinitionen. Deshalb ist es enorm wichtig, jedes Problem (jede Aufgabe) aus der Informatik zunächst genau zu definieren: was sind die Eingaben, wie sollen Ausgaben aussehen? Wie funktioniert ganz konkret jeder einzelner Schritt des Algorithmus? Um sich so präzise ausdrücken zu können, wie ein Computer es erwartet, sollte man sich eine mathematische Denkweise aneignen. Ein wichtiger Unterschied zur Mathematik ist jedoch, dass Mathematiker in der Regel versuchen, ein Problem so abstrakt wie möglich zu formulieren, um alle betrachtetenden Fälle mit dem gleichen theoretischen Unterbau betrachten zu können. Das reduziert die Schreibarbeit, und verbindet zuvor scheinbar völlig unterschiedliche Gebiete. Wer hätte z.B. gedacht dass die Primzahlzerlegung viel mit der Zerlegung eines Polynoms in seine irreduziblen Faktoren zu tun hat? Informatiker können es sich jedoch nicht leisten, ein Programm auf die abstraktest mögliche Weise zu implementieren, weil eine abstrakte Formulierung des Problem oft Geschwindigkeitseinbußen bringt, den Code aufgrund der Komplexität schlecht wartbar macht und den Anwender womöglich überfordert. Deshalb ist es für Informatiker wichtig, den richtigen Abstraktionsgrad für das gegebene Problem zu finden. Wir werden uns deshalb in dieser Vorlesung besonders darum bemühen, einen Grad zu finden, der einerseits so abstrakt wie möglich ist, um viele Anwendungen zu ermöglichen, aber andererseits so konkret wie möglich ist, um den Stoff verständlich und übersichtlich zu gestalten. Gründliche Motivationen Auch wenn während der Vorlesung selbst nicht immer genug Zeit sein wird, um genau zu motivieren, was wir gerade erklären, welche Ziele wir damit erreichen und welche Anwendungen in der Informatik zu jedem Einzelthema vorhanden sind, wollen wir doch in den Übungen und hier im Skript darauf eingehen, warum der Stoff für einen Informatiker so wichtig und auch interessant ist. Dabei wollen wir einerseits illustrieren, welche Industrien oder auch konkrete Firmen sich besonderns der erklärten Konzepte und Methoden bedienen. Andererseits wollen wir auch immer wieder betonen, in welchen späteren Fächern des Studiums in Heidelberg der Stoff als Grundlage benötigt wird. Diese Herangehensweise soll auch dabei helfen zu entscheiden, ob man als Informatiker lieber einen theoretischen, technischen oder praktischen Weg wählen möchte. Ist völlig klar, dass die Karriere in die theoretische Richtung, also die Entwicklung von neuen Algorithmen gehen soll (und damit in Forschung oder in die Anwendungen im wissenschaftlichen Rechnen wie Maschinenlernen, Optimierung und zahlreichen Ingineursdisziplinen), empfehlen wir besonders die Vorlesungen in der reinen Mathematik, wo die vollständige Abstraktion einen 8 KAPITEL 1. EINLEITUNG 1.6. EINIGE ERMUNTERNDE WORTE FÜR MATHE-ANFÄNGER höheren Stellenwert hat. 1.6. Einige ermunternde Worte für Mathe-Anfänger Schulmathematik unterscheidet sich stark von Unimathematik. Während man in der Schule meistens ganz viel rechnet, haben an der Uni Beweise eine große Bedeutung. Da Beweise in der Schule gerne mal als besonders schwer oder fortgeschritten dargestellt werden, erzeugt das immer wieder Angst und Unsicherheit und die Frage: “Kann ich das?” Der zuvor erwähnte John von Neumann soll einmal gesagt haben: “Mathematik kann man nicht lernen, man muss sich daran gewöhnen.” Damit meint er wahrscheinlich, dass die Denkweise nur erlernt werden kann, indem man immer wieder Definitionen versteht und Sätze beweist - bis man sich daran gewöhnt hat. Es gibt angeblich sogar Forschungsergebnisse die gezeigt haben, dass sich die Struktur des Gehirns durch praktizierte Mathemtik deutlich verändert! Das zu hören hätte Herrn Neumann mit Sicherheit gefreut. Es ist hilfreich für die Beschäftigung mit dieser Vorlesung sie nicht als Fortsetzung des Schulunterrichts, sondern als etwas Neues zu betrachten. Und wie bei einer neuer Sportart oder einem neuen Musikinstrument kann es einiges an Zeit und Arbeit in Anspruch nehmen bis man die Grundlagen verstanden hat und sicher beherrscht. Das ist völlig normal und auch ihr werdet euch irgendwann wundern warum euch einiges am Anfang so schwer gefallen ist. Wir haben immer wieder festgestellt, dass starke Gefühle wie Frust das Erlernen der Mathematik sehr erschweren können. Gerade wurde noch vom Dozenten verkündet, dass der Stoff doch “trivial” sei und der schlaue Student von nebenan pflichtet dem auch noch eifrig bei. Zu Hause sitzt man dann vor einer Aufgabe, versteht scheinbar gar nichts und ist abwechselnd wütend und frustriert und fragt sich, ob der Dozent zu schlecht erklärt oder ob man einfach nicht fähig ist diesen Kram zu verstehen. Das Wichtigste in solchen Momenten ist es, einerseits irgendwie entspannt zu bleiben, und trotzdem in der Lage zu sein, mit den Zähnen zu knirschen und den Stoff so lange durchzukauen, bis man ihn verdaut hat. Wichtig ist sich zu erinnern, dass fast jeder Informatiker auf der Welt einmal eine ähnliche Vorlesung wie diese gehört und die Klausur bestanden hat! Deshalb ein paar Tipps: • Jeder hat sein eigenes Tempo. Langsam im Verstehen zu sein bedeutet nicht, es gar nicht zu können. Hat also der Nachbar bereits alles verstanden: ruhig bleiben und weitermachen. Viele Wiederholungen des gleichen Denkprozesses helfen tatsächlich nicht nur beim Auswendiglernen, sondern auch beim Nachvollziehen von logischen Schlussfolgerungen. • Jeder muss für sich selbst herausfinden, wie er am besten lernt. Es kann helfen die Aufzeichnungen, das Skript oder ein Buch mehrfach zu lesen oder aber es ist besser den Stoff abzuschreiben und zusammenzufassen. Oft hilft es unklare Gedanken einfach auszusprechen um sie besser im Kopf sortieren zu können. Das geht natürlich am besten mit anderen Studenten aus der Vorlesung, aber manchmal funktioniert es auch, wenn ihr einfach eurem Mitbewohner sagt, was euch gerade durch den Kopf geht. • Es hilft sehr, das Gelernte gemeinsam zu diskutieren und auswendig zu lernen. Am einfachsten geht das fast immer in kleinen Gruppen von zwei oder höchstens drei 9 KAPITEL 1. EINLEITUNG 1.6. EINIGE ERMUNTERNDE WORTE FÜR MATHE-ANFÄNGER Leuten. Erklärt euch gegenseitig den Stoff, ihr werdet merken dass beide Seiten davon profitieren. • Beweise sind keine Zauberei. In den meisten Fällen - und insbesondere bei den hier behandelten - bedeutet Beweisen lediglich das Einsätzen von zuvor behandelte Definitionen. Die beste Herangehensweise könnte also tatsächlich sein, Sätze und Definitionen gründlich auswendig zu lernen! Das kann jeder (mit unterschiedlichem Zeitaufwand) und es erleichtert das Jonglieren mit den gelernten Begriffen später enorm. • Das Verstehen von Definitionen ist mal manchmal gar nicht so einfach. Hier hilft ein Denken, das für Informatiker typisch ist: man versuche, sich möglichst viele Fälle oder Situationen vorzustellen, bei denen die Definition erfüllt ist, und ganz besonders wann sie nicht erfüllt ist. So finden Hacker zum Beispiel Sicherheitslücken. Das ist ein kreativer Prozess, der gemeinsam viel Spaß machen kann. Manchmal kann man sich auch als Abkürzung eine vereinfachte, intuitiv anschauliche Version der Definition ausdenken. Wichtig ist nur, dass man beim späteren Anwenden der Definition sich dann immer wieder daran erinnert, dass man im Kopf vielleicht gerade nur die vereinfachte Arbeitsversion hat! • In vielen mathematische Beweisen werden Aussagen in gleichbedeutende Aussagen umformuliert. Dafür ist es hilfreich Formeln umzuschreiben um besser zu sehen welche Aussage aus ihnen folgen. Nur ist es am Anfang nicht unbedingt klar, wie man etwas geschickt umschreiben kann. Da hilft oft nur ausprobieren und die Tricks zu verwenden, die mal jemand herausgefunden hat. Hier zwei einfache Beispiele, wie man durch geschicktes Umschreiben etwas schneller ausrechnen kann: 1. Wir wollen 27 · 33 ausrechnen. Dafür schreiben wir 27 · 33 = (30 − 3) · (30 + 3) und verwenden jetzt die 3. binomische Formel und erhalten 30 · 30 − 3 · 3 = 900 − 9 = 891. 2. Um die Summe der ersten 100 Zahlen zu berechnen, hat schon der junge Gauss festgestellt, dass es einfacher ist, wenn man die Zahlen umsortiert. So ergibt 1 + 100 = 2 + 99 = 3 + 98 = · · · = 101, da wir genau 50 solcher Summen haben, ist 1 + 2 + 3 + · · · + 98 + 99 + 100 = 50 · 101 = 5050. • Mathematik kann man in den meisten Fällen nicht nur “mal so grob” verstehen. Wie in der Informatik muss man jedes Detail verstehen, um eine Chance zu haben, das gesamte System zu verstehen. Taucht also ein Beweis auf und man kommt an einem Schritt an, den man einfach nicht versteht, hilft es selten bis nie, diesen Schritt einfach “in den Skat zu drücken” und zu überspringen. Der Rest des Beweises wird wahrscheinlich auch nur noch wenig Sinn ergeben. Hier sind Geduld, Disziplin und Ausdauer gefragt! Es hilft sehr, anderen sein Problem zu erklären und ganz konkrete Fragen zu formulieren und nochmal die vorher besprochenen Definitionen nachzuschlagen. Es ist aber auch nicht falsch, den Schritt beim ersten Durchgang zu überspringen, damit man ein Gefühl dafür bekommt, was man noch vor sich hat. 10 Teil I. Grundlagen 11 2. Grundlagen der mathematischen Logik Wie in vielen anderen Wissenschaften so ist man auch in der Mathematik ständig mit Sätzen in der Form von Behauptungen und Vermutungen konfrontiert, deren Wahrheitsgehalt festzustellen ist. Im Unterschied zu experimentellen, empirischen oder investigativen Wissenschaften erfolgt die Überprüfung in der Mathematik meist anhand einer Argumentationskette, die entweder die Gültigkeit der fraglichen Aussage belegt (beweist, verifiziert) oder widerlegt (falsifiziert). Eine solche Argumentationskette wird als Beweis bezeichnet, wenn sie streng nach den Regeln der formalen Logik durchgeführt wird und sich nur auf bereits gesicherte Aussagen stützt. Aus diesem Grunde ist es geboten, sich mit den Regeln der Logik vertraut zu machen, bevor man sich ernsthaft mit Mathematik beschäftigen kann. Die formale Logik ist jedoch keineswegs nur ein mehr oder weniger lästiges, aber unentbehrliches Vorgeplänkel sondern bereits selbst eine mathematische Disziplin mit dem Teilgebiet der Schaltalgebra als einer wesentlichen theoretischen Grundlage für die Funktionsprinzipien von Computern. 2.1. Aussagen und Quantoren Definition 2.1.1 Eine Aussage ist ein Satz von dem man eindeutig entscheiden kann, ob er wahr oder falsch ist. Einer wahren Aussage wird der Wahrheitswert “wahr” = w = “true”= 1 zugeordnet, einer falschen Aussage wird der Wahrheitswert “falsch”= f = “false”= 0 zugeordnet. In der gesprochenen und geschriebenen Sprache gibt es Sätze, die keine Aussagen sind; dazu gehören vor allem Fragen, Meinungsäußerungen, Befehle, Aufforderungen, Wünsche und Klageausrufe. Darüberhinaus gibt es aber auch aussageähnliche Sätze, denen aus verschiedenen Gründen nicht in eindeutiger oder sinnvoller Weise einer der beiden Wahrheitswerte zugeordent werden kann. Das Zweiwertigkeitsprinzip, dh. die Beschränkung auf das, was sich in sinnvoller und eindeutiger Weise als wahr oder falsch qualifizieren lässt, bzw. das Prinzip vom ausgeschlossenen Dritten stellt daher eine erheblich vereinfachende bzw. einschränkende Reduktion der Realität dar, die aber erstaunlicherweise für fast die gesamte Mathematik und viele andere Wissenschaften völlig ausreichend ist. Beispiel 2.1.2 Handelt es sich bei den folgenden Sätzen um Aussagen? 1. Heidelberg ist die Hauptstadt von Deutschland. 2. 1 + 5 = 6 3. Guten Morgen! 4. Heute ist Dienstag. 12 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.1. AUSSAGEN UND QUANTOREN Antwort: 1. ja, dies ist eine falsche Aussage 2. ja, dies ist eine wahre Aussage 3. nein, dies ist eine Begrüßungsformel, die zwar korrekt oder inkorrekt verwendet werden kann, aber man kann ihr keinen Wahrheitswert zuordnen. 4. Wenn klar ist, was heute für ein Wochentag ist, dann ist es eine Aussage. Sonst ist dieser Satz eine Aussageform. Bemerkung 2.1.3 Trotz ihrer enormen Leistungsfähigkeit kann man mit der zweiwertigen Logik schnell an Grenzen stoßen. Ein Beispiel dafür stellen die sogenannten Antinomien dar. Darunter versteht man Sätze, die durch eine raffinierte Rückbezüglichkeit widersinnig sind. Hier zur Illustration zwei Klassiker: (i) In der Stadt schneidet der Barbier jedem Mann den Bart, der sich ihn nicht selbst schneidet. (ii) Ein Kreter sagt: Alle Kreter sind Lügner. Im ersten Fall läßt sich nicht entscheiden, ob der Barbier sich selbst rasiert oder nicht. Denn wenn er zu den Männern zählt, die sich nicht selbst den Bart stutzen, dann müßte er die Dienste des Barbiers in Anspruch nehmen, sich also doch selbst den Bart schneiden. Startet man jedoch mit der Annahme, daß sich der Barbier den Bart selbst schneidet, so ergibt sich kein Widerspruch. Ebensowenig läßt sich im zweiten Fall entscheiden, ob nun alle Kreter Lügner sind oder nicht. Denn wenn tatsächlich alle Kreter Lügner wären, dann auch derjenige, welcher genau dieses behauptet. Da dieser Kreter dann die Unwahrheit spräche, ist die Aussage gelogen ergo falsch, d.h. es gäbe auch ehrliche Kreter. Auch gilt, daß sich aus der umgekehrten Annahme (nicht alle Kreter sind Lügner) kein Widerspruch entwickelt. Bemerkung 2.1.4 Es sei noch angemerkt, daß der österreichische Logiker Kurt Gödel (1906-1978) mit seinem Unvollständigkeitssatz bewiesen hat, daß praktisch in jeder Theorie Behauptungen bzw. Sätze formuliert werden können, die prinzipiell nicht beweisbar bzw. entscheidbar sind. Definition 2.1.5 Ersetzt man in einer Aussage a eine Konstante durch eine Variable x, so entsteht eine Aussageform a(x). Für einen festgewählte Wert von x kann der Wahrheitswert von a(x) bestimmt werden. 13 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.1. AUSSAGEN UND QUANTOREN Beispiel 2.1.6 a(x) : x > 50 ist eine Aussageform mit der Variablen x. Setzen wir für x Zahlen ein, so erhalten wir Aussagen, z. B. a(100) : 100 > 50 ist eine wahre Aussage und a(10) : 10 > 50 ist eine falsche Aussage. Mithilfe von sogenannten Quantoren, können wir aus einer Aussageform wieder eine Aussage machen. Definition 2.1.7 Sei a(x) eine Aussageform. • Die Aussage “Für alle x (aus einer vorgegebenen Menge) gilt a(x)” ist genau dann wahr, wenn a(x) für alle in Frage kommenden x wahr ist. Dies ist eine ALL-Aussage und wir schreiben abkürzend ∀x : a(x). ∀ ist der Allquantor und wird “für alle” gelesen. • Die Aussage “Es gibt ein x (aus einer vorgegebenen Menge) so dass a(x)” ist genau dann wahr, wenn a(x) für mindestens ein in Frage kommendes x wahr ist. Dies ist eine EXISTENZ-Aussage und wir schreiben abkürzend ∃x : a(x). ∃ ist der Existenzquantor und wird “es gibt” oder “es existiert” gelesen. • Die Aussage “Es gibt genau ein x (aus einer vorgegebenen Menge) so dass a(x)” ist genau dann wahr, wenn a(x) für genau ein in Frage kommendes x wahr ist. Wir schreiben abkürzend ∃!x : a(x). Quantoren werden spielen in der Mathematik eine wichtige Rolle um Aussagen kurz und präzise zu formulieren. Dabei ist zu beachten, dass die Reihenfolge der Quantoren eine Rolle spielt. Beispiel 2.1.8 • ∀x ∈ N : x + 1 > x ist eine wahre Aussage. • ∀x ∈ N : x2 = 25 ist eine falsche Aussage, da sie z. B. für x = 1 nicht stimmt. • ∃x ∈ N : x2 = 25 ist eine wahre Aussage, da 52 = 25. • ∃x ∈ Z : x2 = 25 ist eine wahre Aussage, da 52 = 25. • ∃!x ∈ Z : x2 = 25 ist eine falsche Aussage, da 52 = 25 und (−5)2 = 25. Für den Nachweis eine Allaussage ist also zu prüfen, ob sie für alle in Frage kommenden x (das können unendlich viele sein) richtig ist. Für die Widerlegung einer Allaussage hingegen genügt ein Element x, für das die Aussage a(x) falsch ist. 14 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.2. VERKNÜPFUNGEN VON AUSSAGEN Für den Nachweis einer Existenzaussage genügt ein x für das a(x) richtig ist. Zur Widerlegung einer Existenzaussage hingegen muss für alle in Frage kommenden x geprüft werden, ob a(x) falsch ist. 2.2. Verknüpfungen von Aussagen Das Anliegen der Aussagenlogik ist es, die Regeln des Argumentierens und Schlußfolgerns auf eine solide Basis zu stellen, ihnen eine Form zu geben, sie zu formalisieren. Da Argumentationsstrukturen nicht an den Inhalt gebunden sondern allein durch die Logik vorgegeben sind, beschäftigt sich die Aussagenlogik mit Aussagen von einem rein formalen Standpunkt aus, der sowohl den sprachlichen Aufbau (Syntax) einer Aussage als auch ihre inhaltliche Bedeutung (Semantik) außer Acht läßt. Eine Aussage ist dann nichts anderes als der Träger eines Wahrheitswertes. Daher identifizieren wir Aussagen mit sogenannten logischen Variablen, welche wir etwas mißverständlich auch Aussagevariablen1 nennen, obwohl sie weniger für Aussagen selbst als vielmehr für ihre Wahrheitswerte stehen. Eine Aussagenvariable a ist also nicht Element der Menge aller Aussagen sondern es gilt lediglich a ∈ {wahr, falsch} ≡ {0, 1}. Gegenstand der Aussagenlogik ist zunächst die Beantwortung der beiden folgenden, eng zusammenhängenden Fragen: • Wie lassen sich aus gegebenen (Elementar)Aussagen a, b, c, . . . neue Aussagen gewinnen, d.h. welche Verknüpfungsmöglichkeiten gibt es überhaupt? • Wie hängt der Wahrheitswert der zusammengesetzten Aussage von den Wahrheitswerten der Elementaraussagen ab? Die verschiedenen Verknüpfungsmöglichkeiten von Aussagen, welche wir weiter unten behandeln, werden auf der Ebene der Aussagevariablen durch Verknüpfungszeichen oder Junktoren bzw. logische Operatoren angedeutet. Definition 2.2.1 • Eine Aussagevariable ist eine Variable a die nur die Werte 0 oder 1 annehmen kann. • Ein logischer Ausdruck (eine aussagenlogische Formel) ist eine Aneinanderreihung von Aussagevariablen und Junktoren. • Enthält ein logischer Ausdruck n verschiedene Aussagevariablen, dann definiert er einen Funktion (Logikfunktion) von {0, 1}n → {0, 1}, diese wird auch als n-stellige Verknüpfung bezeichnet. 1 Korrekter wäre es von Wahrheitswertvariablen zu sprechen, denn die Variablen übernehmen nur den Wahrheitswert nicht aber den Inhalt einer Aussage. So ist im Sinne der Aussagenlogik die Zuweisung a = Alle Fische können fliegen. gleichbedeutend mit a = 0, da die Aussage “Alle Fische können fliegen” bekanntermaßen falsch ist. Man kann den Satz als eine etwas längliche, alternative Bezeichnungsweise für falsch betrachten. Alternative Schreibweise: a wirklich als Platzhalter für Aussage betrachten und nicht a = 0 sondern w(a) = 0 schreiben. 15 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.2. VERKNÜPFUNGEN VON AUSSAGEN 2.2.1. Die Negation Betrachten wir zunächst eine einzelne Aussage a. Da a nichts weiter ist als eine Variable mit dem Wahrheitswert 0 oder 1, gibt es nur eine Möglichkeit, aus a “etwas Neues” zu schaffen, nämlich den Wert von a zu invertieren bzw. zu negieren. Definition 2.2.2 Die Verneinung (Negation) einer Aussage a ist genau dann wahr, wenn a falsch ist. Wir schreiben ¬a für die Verneinung von a und lesen “nicht a” oder “es trifft nicht zu, dass a”. Dies kann mithilfe einer Wahrheitstabelle ausgedrückt werden: a ¬a 0 1 1 0 Beispiel 2.2.3 Wir betrachten folgende Aussagen: 1. Der Tank ist voll. 2. 1 + 3 = 6 3. 7 < 10 und ihre Verneinung: 1. Der Tank ist nicht voll. 2. 1 + 3 6= 6 3. 7 ≥ 10 Wie man leicht der Defintion des Negationsoperators ¬ entnimmt, liefert die doppelte Verneinung die ursprüngliche Aussage zurück. Es gilt also ¬(¬a) = a . Man kann ¬ als eine spezielle logische Funktion auf der Menge der möglichen Wahrheitswerte, d.h. auf der Menge {0, 1}, auffassen. Wieviele verschiedene logische Funktionen gibt es eigentlich auf {0, 1}? Eine kurze Überlegung zeigt, daß genau vier Funktionen existieren, die in der Tabelle A ¬1 ¬2 ¬3 ¬4 0 0 0 1 1 1 0 1 0 1 dargestellt sind. Neben der Negation ¬3 = ¬ gibt es nur noch die “langweilige” Identität ¬2 und die beiden konstanten Funktionen ¬1 und ¬4 . Neben der Aussagenlogik, benötigen wir in der Mathematik auch die Prädikatenlogik, die eine Erweiterung der Aussagenlogik darstellt. Um Aussagen in der Prädikatenlogik formulieren zu können, benötigen wir den Existenz- und den Allquantor. 16 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.2. VERKNÜPFUNGEN VON AUSSAGEN Für die Verneinung von Existenz- und Allaussagen müssen wir besonders aufpassen, da sie in der Umgangssprache nicht immer formal korrekt verwendet werden. Satz 2.2.4 Durch die Verneinung einer All-Aussage entsteht eine Existenz-Aussage und umgekehrt. Es gilt: ¬ ∀x : a(x) = ∃x : ¬a(x) ¬ ∃x : a(x) = ∀x : ¬a(x) Beispiel 2.2.5 Wir betrachten folgende Aussagen 1. Alle Menschen mögen Mathe, 2. ∀x : x > 0, 3. ∃x : x2 + 1 = 0. und ihre Verneinungen 1. Es gibt einen Menschen, der nicht Mathe mag, 2. ∃x : x ≤ 0, 3. ∀x : x2 + 1 6= 0. 2.2.2. Zweiwertige Verknüpfungen Im nächsten Schritt wollen wir zwei von einander unabhängige Aussagen zu einer Neuen verknüpfen und deren Wahrheitswert bestimmen. Auf diese Weise erhalten wir zweiwertige (binäre) Verknüpfungen. Insgesamt gibt es davon 16: A B 1 1 1 0 0 1 0 0 ∗1 0 0 0 0 ∗2 ∗3 ∗4 ∗5 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 ∗6 ∗7 ∗8 1 0 0 1 1 1 0 1 0 0 0 1 ∗9 1 1 1 1 ∗10 ∗11 ∗12 ∗13 0 1 1 1 1 0 1 1 1 1 0 1 1 1 1 0 ∗14 ∗15 ∗16 0 1 1 0 0 0 1 0 1 1 1 0 Die sechzehn logischen Verknüpfungen sind nicht unabhängig voneinander. Ist ? eine der sechzehn logischen Verknüpfungen, dann definiert ¬(A?B) eine andere logische Verknüpfung, welche sich ebenfalls unter den sechzehn befinden muß. Auf diese Weise sieht man, daß nicht wirklich sechzehn Verknüpfungen zu unterscheiden sind sondern lediglich nur acht, weil sich die restlichen acht dann als Verneinung ergeben. So gilt für alle k ∈ {1, ..., 8} A ∗8+k B = ¬(A ∗8 B) . Wir wollen hier den wichtigsten zweiwertigen Verknüpfungen einen Namen geben. 17 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.2. VERKNÜPFUNGEN VON AUSSAGEN Definition 2.2.6 • Die UND-Verknüpfung (Konjuktion) zweier Aussagen a und b ist eine Aussage, die genau dann wahr ist, wenn beide Aussagen wahr sind. Wir schreiben a ∧ b und lesen “a und b”. • Die ODER-Verknüpfung (Disjuktion) zweier Aussagen a und b ist eine Aussage, die genau dann wahr ist, wenn mindestens eine der Aussagen wahr sind. Wir schreiben a ∨ b und lesen “a oder b”. • Das ausschließende Oder (eXclusive OR) zweier Aussagen a und b ist eine Aussage, die genau dann wahr ist, wenn entweder a oder b (aber nicht a und b) wahr ist. Wir schreiben a xor b und lesen “entweder a oder b”. Die Wahrheitstabelle dieser Verknüpfungen ist die folgende: a 1 1 0 0 b a ∧ b a ∨ b a xor b 1 1 1 0 0 0 1 1 1 0 1 1 0 0 0 0 In der Umgangssprache benutzen wir meistens das Wort “oder” im ausschließenden Sinn, während in der Mathematik häufiger das einschließende oder ∨ verwendet wird. Definition 2.2.7 Die WENN-DANN-Verknüpfung (Subjunktion) a −→ b, die “wenn a, dann b” gelesen wird, und die GENAU-DANN-WENN-Verknüpfung (Bijunktion) a ←→ b, die “a genau dann, wenn b” gelesen wird, von zwei Aussagen sind durch folgende Wahrheitstabellen definiert: a 1 1 0 0 b a −→ b a ←→ b 1 1 1 0 0 0 1 1 0 0 1 1 Definition 2.2.8 • Ist die verknüpfte Aussage a → b wahr, so spricht man von einem logischen Schluß (Implikation) und schreibt a ⇒ b. Wir sagen dann “aus a folgt b”, “a impliziert b”, “wenn a, dann b”, “a ist hinreichend für b” oder b ist notwendig für a. • Wenn die verknüpfte Aussage a ←→ b wahr ist, dann spricht man von Äquivalenz und schreibt a ⇔ b. Mithilfe der Äquivalenz lassen sich die Rechenregeln für andere Verknüpfungen formulieren. 18 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.2. VERKNÜPFUNGEN VON AUSSAGEN Satz 2.2.9 Für die UND- sowie die ODER-Verknüpfung gelten das Kommutativgesetz a∧b ⇔ b∧a a ∨ b ⇔ b ∨ a, das Assoziativgesetz: a ∧ (b ∧ c) ⇔ (a ∧ b) ∧ c a ∨ (b ∨ c) ⇔ (a ∨ b) ∨ c und das Distributivgesetz: a ∧ (b ∨ c) ⇔ (a ∧ b) ∨ (a ∧ c) a ∨ (b ∧ c) ⇔ (a ∨ b) ∧ (a ∨ c) Beweis. Wir können den Wahrheitsgehalt dieser Aussagen mittels Wahrheitstabellen überprüfen. Die GENAU-DANN-WENN-Verknüpfung zweier Aussagen ist genau dann wahr, wenn entweder beide Aussagen wahr sind oder wenn beide Aussagen falsch sind. Somit müssen wir prüfen, ob die Einträge in der Wahrheitstabelle für den Ausdruck auf der rechten Seite des Äquivalenzpfeils gleich der Tabelle für den Ausdruck auf der linken Seite ist. Wir zeigen hier exemplarisch das erste Distributivgesetz: a 1 1 1 1 0 0 0 0 b 1 1 0 0 1 1 0 0 c b ∨ c a ∧ (b ∨ c) 1 1 1 0 1 1 1 1 1 0 0 0 1 1 0 0 1 0 1 1 0 0 0 0 a 1 1 1 1 0 0 0 0 b 1 1 0 0 1 1 0 0 c a ∧ b a ∧ c (a ∧ b) ∨ (a ∧ c) 1 1 1 1 0 1 0 1 1 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 Konvention: Die Verneinung ¬ bindet stärker als ∧ und ∨. Das heißt, der Ausdruck ¬a ∧ b ist gleichbedeutend mit (¬a) ∧ b und nicht mit ¬(a ∧ b). Einen Zusammenhang zwischen Verneinung und der UND und ODER- Verknüpfung liefern die De Morganschen Gesetze. Satz 2.2.10 Es gelten die de Morganschen Gesetze: ¬(a ∧ b) ⇔ ¬a ∨ ¬b ¬(a ∨ b) ⇔ ¬a ∧ ¬b, 19 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.3. BEWEISARTEN Beweis. Der Beweis funktioniert genauso wie der zu Satz 2.2.9. Wir zeigen hier die Wahrheitstabellen zur zweiten Regel. a 1 1 0 0 b a ∨ b ¬(a ∨ b) 1 1 0 0 1 0 1 1 0 0 0 1 a 1 1 0 0 b ¬a ¬b ¬a ∧ ¬b 1 0 0 0 0 0 1 0 1 1 0 0 0 1 1 1 Definition 2.2.11 Eine Tautologie ist ein logischer Ausdruck, der immer wahr ist. Eine Kontradiktion ist ein logischer Ausdruck, der immer falsch ist. Beispiel 2.2.12 • a ∨ ¬a ist eine Tautologie. • Die Verwendung des Äquivalenzpfeils ⇔ in den letzten zwei Sätzen besagt gerade dass die verknüpfte Aussage wahr ist, und daher ist zum Beispiel ¬(a ∧ b) ←→ ¬a ∨ ¬b eine Tautologie. 2.3. Beweisarten Satz 2.3.1 Für zwei beliebige Aussagen a, b gilt: a) (a −→ b) ←→ (¬b −→ ¬a) ist eine Tautologie b) (a −→ b) ←→ ¬(a ∧ ¬b) ist eine Tautologie Beweis. a 0 1 0 1 b a −→ b 0 1 0 0 1 1 1 1 a 0 1 0 1 b ¬a ¬b ¬b −→ ¬a 0 1 1 1 0 0 1 0 1 1 0 1 1 0 0 1 a 0 1 0 1 b ¬b a ∧ ¬b ¬(a ∧ ¬b) 0 1 0 1 0 1 1 0 1 0 0 1 1 0 0 1 Satz 2.3.2 (a −→ b) ∧ (b −→ a) ←→ (a ←→ b) ist eine Tautologie. • direkter Beweis a ⇒ b • indirekter Beweis ¬b ⇒ ¬a • Beweis durch Widerspruch: ¬b ∧ a ist eine Kontradiktion. 20 KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK 2.3. BEWEISARTEN Beispiel 2.3.3 Seien x, y > 0 reelle Zahlen. Wir betrachten die Aussagen a : x2 > y 2 b: x>y und wollen zeigen, dass aus Aussage a die Aussage b folgt. Wir dürfen dabei folgende Rechenregeln verwenden, wobei x, y, z reelle Zahlen sind: i) die Rechengesetze der Addition und Multiplikation in den reellen Zahlen ii) Wenn z > 0 dann gilt: x < y ⇒ x · z < y · z iii) x < y ⇒ x + z < y + z iv) x < y und y < z impliziert x < z. direkter Beweis x2 > y 2 iii) ⇒ ii) ⇒ iii) ⇒ x2 − y 2 > 0 i) ⇒ (x − y)(x + y) > 0 1 1 i) (x − y)(x + y) >0· ⇒ x−y >0 x+y x+y x>y indirekter Beweis Zunächst müssen die Aussage a und b negiert werden ¬a : x2 ≤ y 2 ¬b : x ≤ y Nun gilt x≤y ii) ⇒ xx ≤ xy und xy ≤ yy iv) ⇒ x2 ≤ y 2 Beweis durch Widerspruch 21 3. Grundlagen der Mengenlehre In diesem Kapitel ist das Ziel zu lernen, mit Mengen zu jonglieren und auch komplizierte Mengen formal und kompakt aufzuschreiben. Die Symbole, die wir dafür verwenden, kann man fast wie eine Programmiersprache verstehen. Ganz genau wie bei Programmiersprachen muss man diese Symbole erst einmal mühsam lesen und schreiben lernen, bevor man wirklich in der Lage ist, von der formalen, knappen Schreibweise zu profitieren. Deshalb ist es in diesem Kapitel besonders wichtig darauf zu achten, die Symbole schlicht und ergreifend auswendig zu lernen und darauf zu vertrauen, dass dies einem später die Arbeit mit komplexerer Mathematik sehr erleichtert. 3.1. Notation und Operationen auf Mengen Eine Menge wurde im Jahr 1895 in Halle von Georg Cantor(1845-1918), dem Begründer der Mengenlehre so definiert: Definition 3.1.1 Eine Menge ist eine Zusammenfassung von bestimmten und wohlunterschiedenen Objekten unserer Anschauung oder unseren Denkens zu einem Ganzen. Die Objekte einer Menge heißen Elemente. Bemerkung 3.1.2 Formal korrekt wird die Mengenlehre durch ein System von 10 Axiomen, die Zermelo-Fraenkel-Axiome, begründet. Uns soll hier aber die einfachere Definition von Cantor genügen. Um leichter mit Mengen arbeiten zu können, hat man sich auf einen Satz von Begriffen und Symbolen geeinigt: Notation 3.1.3 • Wir bezeichnen Mengen mit einfachen Großbuchstaben. • Wenn a ein Element der Menge M ist, schreiben wir a ∈ M . • Wenn a kein Element der Menge M ist, schreiben wir a ∈ / M , dies entspricht der Negation ¬(a ∈ M ). Notation 3.1.4 Die Elemente einer Menge werden zusammengefasst mit geschweiften Klammern. Dabei haben wir verschiedene Möglichkeiten Mengen anzugeben: • durch direktes Hinschreiben der Elemente, z. B. M = {1, 3, 5}. 22 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.1. NOTATION UND OPERATIONEN AUF MENGEN • durch die Angabe von Eigenschaften, z. B. M = {n ∈ N | n < 6 ∧ n ist ungerade} das sind alle natürlichen Zahlen, die kleiner als 6 und ungerade sind. (alternativ kann auch ein Doppelpunkt, statt des Strichs | verwendet werden: M = {n ∈ N : n < 6 ∧ n ist ungerade}) Dabei ist zu beachten: • Jedes Element einer Menge wird nur einmal gezählt, z. B. gilt {1, 1, 2} = {1, 2}. Deshalb schreibt man jedes Element nur einmal in eine Menge. • Die Reihenfolge der Elemente spielt keine Rolle, z. B. {1, 2, 3} = {3, 2, 1} = {1, 3, 2} Beispiel 3.1.5 Einige wichtige Mengen: • die leere Menge, die kein Element enthält ∅ = {}. • N = {0, 1, 2, . . . } die natürlichen Zahlen. • Z = {. . . , −2, −1, 0, 1, 2, . . . die ganzen Zahlen. • Q = { ab | a ∈ Z, b ∈ N, b > 0} die rationalen Zahlen. • R die reellen Zahlen. All diese Regeln für Mengen sind in vielen Programmiersprachen bereits implementiert. Wir werden zum Beispiel gegen Ende des Programmierkurses ein C++-Objekt mit dem Namen set (englisch für Menge) kennenlernen. Fügt man dort ein neues Element in eine bestehende Menge ein und dieses Element liegt bereits in der Menge, wird das Einfügen abgebrochen. Dieses Verhalten folgt der Regel nach der jedes Element nur einmal in einer Menge enthalten sein darf. Mengen und die nun folgenden Operationen auf Mengen spielen insbesondere in der theoretischen Informatik und z.B. für Datenbanksysteme eine sehr große Rolle. Es ist sinnvoll mit den Kurzschreibweisen zunächst stur auswendig zu lernen, um sie anschließend immer zu verwenden, wenn sich etwas durch Mengen ausdrücken lässt. Das Umsetzen der natürlichen Sprache in die Mengenschreibweise ähnelt sehr stark dem Programmieren, spart Zeit beim Schreiben und ermöglicht (mit etwas Übung) das Erfassen der Elemente einer Menge auf einen Blick. Definition 3.1.6 Die Anzahl der Elemente einer Menge nennt man ihre Mächtigkeit (oder Kardinalität) und schreibt #M (oder |M |). Eine endliche Menge M ist eine Menge mit endlicher Mächtigkeit #M < ∞. Wir können also endliche Menge dadurch unterscheiden, wie viele Elemente sie haben. Aber es gibt auch bei Mengen mit unendlich vielen Elementen verschiedene Kardinalitäten. Definition 3.1.7 • Seien A und B Mengen. Dann heißt A Teilmenge von B genau dann, wenn jedes Element von A auch in B liegt, d.h. wenn gilt ∀x : x ∈ A ⇒ x ∈ B. Wir schreiben A ⊆ B und nennen dies eine Inklusion. 23 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.1. NOTATION UND OPERATIONEN AUF MENGEN • Wenn A ⊆ B und B ⊆ A, dann sind A und B gleich, d. h. sie enthalten diesselben Elemente und wir schreiben A = B. • Ist A eine echte Teilmenge von B, d. h. ist A ⊆ B und A 6= B, dann schreiben wir A ( B. Der zweite Punkt ist zum Beweisen von Mengengleichheiten besonders wichtig. Um zu zeigen, dass zwei Mengen gleich sind, muss gezeigt werden, dass sie jeweils Teilmenge der anderen sind. Man sagt es müssen beide Inklusionen A ⊆ B und B ⊆ A gezeigt werden. Beispiel 3.1.8 • Für alle Mengen A gilt ∅ ⊆ A und A ⊆ A. • {2, 5} ( {2, 3, 4, 5} • N(Z(Q(R Proposition 3.1.9 Seien A, B Mengen. Wenn A ⊆ B, dann gilt #A ≤ #B. Beweis. Da jedes Element aus A auch in B liegt, muss B mindestens so viele Elemente wie A besitzen. Definition 3.1.10 Die Menge P (A) = {M | M ⊂ A} heißt Potenzmenge von A. Die Potenzmenge ist also die Menge aller Teilmengen einer vorgegebenen Menge A. Aufgrund von Beispiel 3.1.8 ist immer die leere Menge und die Menge A selbst ein Element der Potenzmenge. Proposition 3.1.11 Sei A eine Menge mit n < ∞ Elementen. Dann ist die Mächtigkeit der Potenzmenge #P (A) = 2n . Der Beweis dieser Proposition wird in Kürze eine Übungsaufgabe sein. Er beruht darauf zu zählen wie viele k-elementige Teilmenge die Menge A besitzt, wobei 0 ≤ k ≤ n. Wir wollen uns hier an Beispielen überzeugen, dass diese Aussage richtig ist. Beispiel 3.1.12 • Sei A = ∅, dann ist #A = 0, da die leere Menge kein Element enthält. Die Potenzmenge von A besteht nur aus der leeren Menge, d.h. P (∅) = ∅ und somit gilt #P (∅) = 1 = 20 . • Sei B = {1} eine einelementige Menge, dann ist #B = 1. Die Potenzmenge von B besteht der leeren Menge und B selbst, d. h. P (B) = {∅, B} und somit gilt #P (B) = 2 = 21 . • Sei C = {1, 2} eine zweielementige Menge, dann ist #C = 2. Die Potenzmenge von C besteht der leeren Menge, zwei einelementigen Teilmengen und C selbst, d. h. P (C) = {∅, {1}, {2}, C} und somit gilt #P (C) = 4 = 22 . 24 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.1. NOTATION UND OPERATIONEN AUF MENGEN Die wichtigsten Operationen um aus zwei Mengen eine neue Menge zu bilden sind Durchschnitt und Vereinigung. Definition 3.1.13 Seien A, B Mengen. • Die Menge A ∩ B = {x | x ∈ A ∧ x ∈ B} nennt man den Durchschnitt von A und B. • Wenn A ∩ B = ∅, dann nennt man A und B disjunkt, • Die Menge A ∪ B = {x | x ∈ A ∨ x ∈ B} nennt man die Vereinigung von A und B. Bemerkung 3.1.14 Zur Veranschaulichung dieser Mengenoperationen sind sogenannte Venn-Diagramme gut geeignet. Der Durchschnitt zweier Mengen A und B: A Die Vereinigung zweier Mengen A und B: B A B Beispiel 3.1.15 Seien A = {1, 2, 3, 4} und B = {3, 4, 5}, dann ist A ∩ B = {1, 2, 3, 4, 5} und A ∪ B = {3, 4}. Aus der Definition von Durchschnitt und Vereinigung mithilfe der logischen Verknüpfungen ∧ und ∨ folgen direkt einige Rechengesetze für Mengen. Satz 3.1.16 Seien A, B, C Mengen. Es gelten die Kommutativgesetze A∪B =B∪A A ∩ B = B ∩ A, die Assoziativgesetze A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C, und die Distributivgesetze A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C). 25 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.1. NOTATION UND OPERATIONEN AUF MENGEN Beweis. Der Beweis dieser Regeln folgt direkt aus den entsprechenden Regeln für ∧ und ∨ (s. Satz 2.2.9). Wir zeigen hier exemplarisch das Kommutativgesetz für die Vereinigung. Um die Gleichheit von Mengen zu beweisen müssen wir die zwei Inklusionen A ∪ B ⊆ B ∪ A und B ∪ A ⊆ A ∪ B zeigen. Um A ∪ B ⊆ B ∪ A zu zeigen, betrachten wir ein beliebiges Element aus A ∪ B und zeigen, dass es auch in B ∪ A enthalten ist. x∈A∪B Def. von ∪ ⇒ x∈A∨x∈B Kommutativität von ∨ ⇒ x∈B∨x∈A Def. von ∪ ⇒ x∈B∪A Analog können wir B ∪ A ⊆ A ∪ B beweisen, woraus die Gleichheit der beiden Mengen folgt. Bemerkung 3.1.17 Wir veranschaulichen die Distributivgesetze mithilfe von VennDiagrammen. A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A B C A B C Notation 3.1.18 Für den Durchschnitt und die Vereinigung mehrerer Mengen, verwenden wir folgende Bezeichnungen: ∪ni=1 Ai = A1 ∪ A2 ∪ · · · ∪ An = {x | ∃i ∈ {1, 2, . . . , n} so dass x ∈ Ai } ∩ni=1 Ai = A1 ∩ A2 ∩ · · · ∩ An = {x | ∀i ∈ {1, 2, . . . , n} gilt x ∈ Ai } Definition 3.1.19 Seien A und B Mengen. • Die Menge A\B = {x | x ∈ A ∧ x ∈ / B} nennt man die Differenz zwischen A und B. Man spricht auch: A ohne B“. ” • Wenn B ⊆ A, dann nennen wir A\B = B c das Komplement von B (in A). 26 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.1. NOTATION UND OPERATIONEN AUF MENGEN Bemerkung 3.1.20 Wir veranschaulichen die Differenz und Komplement mithilfe von Venn-Diagrammen. A\B Ac = M \A A B A B M Satz 3.1.21 Seien A und B die Teilmengen einer Menge M sind. Dann gelten die de Morgan’schen Gesetze (A ∪ B)c = Ac ∩ B c (A ∩ B)c = Ac ∪ B c . Dabei sind immer die Komplemente in M gemeint. Beweis. Wir beweisen hier die erste Regel (A ∪ B)c = Ac ∩ B c . Der zweite Beweis ist analog. Wir zeigen zunächst, dass (A ∪ B)c ⊆ Ac ∩ B c . Da immer gilt, dass x ∈ M , verzichten wir zur besseren Lesbarkeit der Umformungen darauf dies in jeder Zeile zu schreiben. x ∈ (A ∪ B)c ⇒ x ∈ / A∪B Definition des Komplements ⇒ ¬(x ∈ A ∪ B) Definition von ∈ / ⇒ ¬(x ∈ A ∨ x ∈ B) Definition der Vereinigung ⇒ ¬(x ∈ A) ∧ ¬(x ∈ B) De Morgansche Regel für logische Operatoren ⇒x∈ / A∧x∈ /B c ⇒x∈A ∧x∈B c ⇒x∈A ∩B c Definition von ∈ / c Definition des Komplements Definition des Durchschnitts Analog wird die umgekehrte Inklusion Ac ∩ B c ⊆ (A ∪ B)c bewiesen. Bemerkung 3.1.22 Wir veranschaulichen die de Morgan’schen Gesetze mithilfe von Venn-Diagrammen. (A ∪ B)c = Ac ∩ B c (A ∩ B)c = Ac ∪ B c A M B A B M 27 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN Bei der Schreibung von Mengen mithilfe von geschweiften Klammern ist es wichtig, dass die Reihenfolge der Elemente keine Rolle spielt. Oft aber ist auch die Reihenfolge von Elementen relevant. Dafür verwenden wir dann runde Klammern. Definition 3.1.23 Seien A, B Mengen und a ∈ A, b ∈ B. • Man bezeichnet mit (a, b) ein geordnetes Paar (Tupel). Zwei geordnete Paare (a, b) und (a0 , b0 ) sind genau dann gleich, wenn a = a0 und b = b0 gilt. • Die Menge aller geordneten Paare (a, b) nennt man das kartesische Produkt von A und B und schreibt A × B = {(a, b) | a ∈ A ∧ b ∈ B}. Man spricht: “A kreuz B”. • A1 × A2 × · · · × An = {(a1 , · · · , an ) | a1 ∈ A1 , · · · , an ∈ An } ist das n-fache kartesische Produkt und besteht aus allen n-Tupeln (a1 , · · · , an ). • Wir bezeichnen mit An = A × A × · · · × A das n-fache kartesische Produkt der Menge A mit sich selbst. Beispiel 3.1.24 • {1} × {1, 2} = {(1, 1), (1, 2)} • {2, 4} × {1, 3} = {(2, 1), (2, 3), (4, 1), (4, 3)} • {1, 3} × {2, 4} = {(1, 2), (1, 4), (3, 2), (3, 4)} • R2 ist die Menge aller Punkte der Ebene. Aus der Definition eines geordneten Paares folgt, dass (1, 2) 6= (2, 1) ist und daher gilt auch für die Mengen {2, 4} × {1, 3} = 6 {1, 3} × {2, 4}. 3.2. Abbildungen zwischen Mengen Neben dem Begriff der Menge ist der Begriff der Abbildung von grundlegender Bedeutung für die gesamte Mathematik. Unter diesem Aspekt betrachtet zeichnen sich die verschiedenen Teilgebiete der Mathematik lediglich dadurch aus, daß sie sich dem Studium jeweils besonderer Abbildungen widmen bzw. gewisse Abbildungen auf bestimmte Eigenschaften hin untersuchen. Abbildung zwischen Mengen werden benutzt, um Elemente aus verschiedenen Mengen einander zuzuordnen. Diese sind wichtig um mehr Informationen über eine Menge zu erhalten. Definition 3.2.1 Seien A, B nichtleere Mengen. Eine Abbildung f von einer Menge A in eine Menge B ist eine Vorschrift, die jedem x ∈ A genau ein f (x) ∈ B zuordnet. Wir schreiben: f :A→B a 7→ f (a) 28 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN und sagen “a wird auf f (a) abgebildet”. In Bezug auf die Abbildung f heißt A die Definitionsmenge und B die Wertemenge von f . Folgendes ist zu beachten: • Zur Definition einer Abbildung gehört neben der Zuordnungsvorschrift ganz wesentlich die Nennung der Definitionsmenge (Ausgangsmenge) und auch der Wertemenge (Zielmenge). So stellen f : Z → N0 , n 7→ n2 g : R → R, x 7→ x2 ganz unterschiedliche Abbildungen dar, obwohl die Zuordnungsvorschrift – nämlich zu quadrieren – die gleiche ist, wenn man von den unterschiedlichen Variablennamen n und x absieht, die man auch hätte gleich wählen können. • Jedem a ∈ A wird ein b ∈ B zugeordent, die Umkehrung gilt im allgemeinen jedoch nicht, d.h. es kann durchaus vorkommen, dass es Elemente b ∈ B gibt, denen kein oder auch zwei verschiedene Elemente zugeordnet werden. Um eine Abbildung zu definieren, kann man explizit die Zuordnung angeben, welches Element aus A auf welches Element aus B abgebildet wird. Dies ist aber nur für endliche Mengen möglich und auch da mühsam. Alternativ kann man Abbildung durch eine oder mehrere Formeln definieren. Beispiel 3.2.2 • f :N→N n 7→ n2 ist eine wohldefinierte Abbildung. • Der ASCII-Code ordnet den Zahlen von 0 bis 127 bestimmte Steuerzeichen zu. f : {0, 1, 2, . . . , 127} → {0, 1, 2, . . . , a, b, . . . , A, B, . . . , %, ?, . . . } 48 7→ 0 61 7→ = .. .. . . Wir nennen eine Abbildungsvorschrift wohldefiniert, wenn dadurch wirklich eine Abbildung definiert wird. Beispiel 3.2.3 Um zu sehen, was genau wohldefiniert bedeutet, ist es am besten sich einige Beispiele nicht wohldefinierter Abbildungsvorschriften anzuschauen. 29 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN • Die Abbildungsvorschrift f : {1, 3, 5} → {2, 3} 1 7→ 2 3 7→ 2 5 7→ 3 1 7→ 3 ist nicht wohldefiniert, da dem Element 1 ∈ {1, 3, 5} zwei verschiedene Elemente zugeordnet werden. • Die Abbildungsvorschrift f : {1, 3, 5} → {2, 3} 1 7→ 2 3 7→ 2 ist nicht wohldefiniert, da dem Element 5 ∈ {1, 3, 5} kein Element zugeordnet wird. • Die Abbildungsvorschrift f : {1, 3, 5} → {2, 3} 1 7→ 2 3 7→ 2 5 7→ 5 ist nicht wohldefiniert, da dem Element 5 ein Element zugeordnet wird, das nicht in der Menge {2, 3} liegt. • Die Abbildungsvorschrift f :N→N n 7→ n2 wenn n eine Primzahl ist, n 7→ 3n wenn n eine gerade Zahl ist. ist nicht wohldefiniert, da zum einen die Zahl 2, die eine Primzahl ist und gerade auf verschiedene Zahlen abgebildet wird (Aus der Vorschrift folgt einerseits 2 7→ 22 = 4, da 2 eine Primzahl ist, andererseits gilt 2 7→ 3 · 2 = 6, da 2 gerade ist). Außerdem gibt es keine Vorschrift für ungerade Zahlen, die nicht prim sind. 30 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN Definition 3.2.4 Seien A, B Mengen. • Die Abbildung idA : A → A, a 7→ a heißt Identität. • Sei f : A → B eine Abbildung. Dann heißt die Menge f (A) = {b ∈ B | ∃a ∈ A so dass giltf (a) = b} ⊆ B das Bild von f . • Sei f : A → B eine Abbildung und M ⊆ B. Dann heißt die Menge f −1 (M ) = {a ∈ A | f (a) ∈ M } ⊆ A das Urbild der Menge M unter f . Beispiel 3.2.5 Wir betrachten folgende Abbildung f : {1, 2, 3} → {4, 5, 6} 1 7→ 4 2 7→ 4 3 7→ 5 Dann ist das Bild f ({1, 2, 3}) = {4, 5} und wir berechnen die Urbilder f −1 ({4}) = {1, 2}, f −1 ({5}) = {3} und f −1 ({6}) = ∅. Eigenschaften von Abbildungen, die eine besondere Rolle spielen geben wir einen Namen und versuchen sie genau zu charakterisieren. Definition 3.2.6 Seien A, B Mengen und sei f : A → B, a 7→ f (b) eine Abbildung. • f heißt genau dann injektiv, wenn für alle a, a0 ∈ A gilt: wenn f (a) = f (a0 ), dann ist a = a0 . • f heißt genau dann surjektiv, wenn für alle b ∈ B ein a ∈ A existiert, so dass gilt f (a) = b. • f heißt genau dann bijektiv, wenn f injektiv und surjektiv ist. Bemerkung 3.2.7 Um besser zu verstehen, was diese Begriffe bedeuten, ist es günstig sie auf verschiedene Art und Weisen umzuformulieren. In der Definition von injektiv steht eine Aussage der Form “x ⇒ y”, diese ist genau dann richtig, wenn ¬y ⇒ ¬x richtig ist (s. Satz 2.3.1). Somit lautet eine alternative Definition 31 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN von Injektivität: f heißt genau dann injektiv, wenn für a, a0 ∈ A gilt: wenn a 6= a0 , dann ist f (a) 6= f (a0 ). Oder noch anders formuliert: bei einer injektiven Abbildung hat jedes Element b ∈ B höchstens ein Urbild in A, d. h. #f −1 ({b}) = 0 oder #f −1 ({b}) = 1. Denn hätte b zwei Urbilder a, a0 ∈ A, d. h f (a) = f (a0 ) = b, dann müssen diese ja gleich sein a = a0 . Also hat b höchstens ein Urbild. Beim genauen Angucken der Definition des Bildes einer Abbildung sieht man, dass f genau dann surjektiv ist, wenn f (A) = B gilt. Das wiederum bedeutet, dass bei einer surjektiven Abbildung jedes Element b ∈ B mindestens ein Urbild in A hat. Somit hat bei einer bijektiven Abbildung jedes Element b ∈ B genau ein Urbild in A. Schränkt man die Wertemenge B einer Abbildung f : A → B auf f (A) ein, dann erhält man eine neue Abbildung f˜ : A → f (A), die surjektiv ist. Die Eigenschaften injektiv und surjektiv hängen also nicht nur von der Abbildungsvorschrift ab, sondern auch ganz wesentlich von der Definitions- und Wertemenge. Beispiel 3.2.8 Die Abbildung f : {1, 2} → {4, 5, 6} 1 7→ 4 2 7→ 6 ist injektiv, aber nicht surjektiv, da 5 kein Urbild hat. Die Abbildung f : {1, 2, 3} → {4, 5} 1 7→ 4 2 7→ 5 3 7→ 5 ist surjektiv, aber nicht injektiv, da 5 zwei Urbilder hat. Proposition 3.2.9 Seien A, B Mengen mit endlich vielen Elementen, #A = n und #B = m und sei f : A → B eine Abbildung. Dann gilt: Wenn f injektiv ist, dann ist n ≤ m. Wenn f surjektiv ist, dann ist n ≥ m. Beweis. Die Methode diese Aussagen zu beweisen wird als Schubfachprinzip bezeichnet. Dafür können wir uns anschaulich die Menge A als Menge von n Kugeln vorstellen und 32 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN B als Menge von m Schubladen. Die Abbildung f entspricht dann dem Hineinlegen von Kugeln in die Schubladen. Ist f injektiv, dann heißt das, dass in jede Schublade höchstens eine Kugel gelegt wird. Dies ist nur dann möglich, wenn es mindestens so viele Schubladen wie Kugeln gibt. Ist f surjektiv, dann heißt das, dass in jede Schublade mindestens eine Kugel gelegt wird. Dies ist nur dann möglich, wenn es mindestens so viele Kugeln wie Schubladen gibt. Satz 3.2.10 Seien A, B endliche Mengen mit gelicher Mächtigkeit, d. h. #A = #B < ∞ und sei f : A → B eine Abbildung, dann ist äquivalent: a) f ist injektiv b) f ist surjektiv. c) f ist bijektiv. Beweis. Auch dieser Beweis ist mit dem Schubfachprinzip möglich. Wenn es gleich viele Kugeln und Schubladen gibt und wir wissen in jeder Schublade liegt höchstens eine Kugel, dann muss schon in jeder Schublade genau eine Kugel liegen, da dies sonst nicht möglich ist. Umgekehrt, wissen wir dass in jeder Schublade mindestens eine Kugel liegt, dann muss schon in jeder Schublade genau eine Kugel liegen. Definition 3.2.11 Seien A, B, C Mengen und seien f : A → B, g : B → C Abbildungen. Dann heißt die Abbildung g◦f :A→C a 7→ (g ◦ f )(a) = g(f (a)) Hintereinanderausführung von f und g. Beim ersten Lesen erscheint die Schreibweise g ◦ f vielleicht etwas unlogisch, da wir ja zuerst ein Element mithilfe von f abbilden und dann mithilfe von g. Allerdings macht es nur Sinn f (a) zu betrachten für ein Element a ∈ A. Da dann f (a) ∈ B liegt, macht es Sinn g(f (a)) zu betrachten. Man muss also die Verknüpfung von Abbildungen “von innen nach außen” lesen. Proposition 3.2.12 Seien A, B, C Mengen und seien f : A → B, g : B → C Abbildungen. Dann gilt: (i) Wenn f und g injektiv sind, dann ist auch (g ◦ f ) injektiv. (ii) Wenn f und g surjektiv sind, dann ist auch (g ◦ f ) surjektiv. (iii) Wenn f und g bijektiv sind, dann ist auch (g ◦ f ) bijektiv. 33 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN Beweis. (i) Angenommen g(f (a)) = g(f (a0 )), dann folgt aus der Injektivität von g, dass f (a) = f (a0 ), aus der Injektivität von f , folgt dann wiederum, dass a = a0 . Und somit ist auch (g ◦ f ) injektiv. (ii) Da f sujektiv ist, gilt f (A) = B, da g surjektiv ist, folgt g(B) = C. Also ist g(f (A)) = C und (g ◦ f ) ist surjektiv. (iii) Folgt direkt aus (i) und (ii) Satz 3.2.13 Seien A, B nichtleere Mengen und f : A → B eine Abbildung. Dann gilt: a) f ist genau dann injektiv, wenn f eine Linksinverse hat, d. h. wenn es eine Abbildung g : B → A gibt, für die gilt g ◦ f = idA . b) f ist genau dann surjektiv, wenn f eine Rechtsinverse hat, d. h. wenn es eine Abbildung g : B → A gibt, für die gilt f ◦ g = idB . c) f ist genau dann bijektiv, wenn f eine Inverse hat, d. h. wenn es eine Abbildung g : B → A gibt, für die gilt f ◦ g = idB und g ◦ f = idA . Beweis. Alle Aussagen sind Äquivalenzen, das heißt es müssen immer beide Implikationen gezeigt werden. a) Wir zeigen zunächst die Implikation: “Wenn f injektiv ist, dann gibt es eine Abbildung g : B → A, für die g ◦ f = idA gilt”. Wir nehmen also an f sei injektiv und definieren eine Abbildung g durch g:B→A b 7→ a ∈ f −1 ({b}) wenn b ∈ f (A) b 7→ a beliebig wenn b ∈ / f (A) Diese Abbildung ist wohldefiniert, da die Menge f −1 ({b}) aus nur einem Element besteht, da f injektiv ist. Wenn b ∈ / f (A), dann ist f −1 ({b}) leer und wir können ein beliebiges Element wählen auf das b abgebildet wird. Nun können wir prüfen, dass die so definierte Abbildung die Eigenschaft g ◦ f = idA hat. Sei also a ∈ A ein beliebiges Element, dann ist g(f (a)) = g(b) = a, da b = f (a) ein Element aus dem Bild f (A) ist und f −1 ({b}) = {a} das Urbild ist. Im zweiten Schritt zeigen wir die Implikation “Wenn es eine Abbildung g : B → A, für die g ◦ f = idA gilt gibt, dann ist f injektiv.” Diesen Teil des Beweises führen wir per Widerspruch, dass heißt wir nehmen an es gebe diese Abbildung g mit der geforderten Eigenschaft, aber f ist nicht injektiv. Wenn f nicht injektiv ist, dann gibt es Elemente a, a0 ∈ A, die ungleich sind a = 6 a0 , 0 aber für die f (a) = f (a ) gilt. Da a 6= a0 , ist auch idA (a) 6= idA (a0 ). Andererseits gilt aber (g ◦ f )(a) = g(f (a)) = g(f (a0 )) = (g ◦ f )(a0 ). Da nach Annahme g ◦ f = idA gilt erhalten wir daraus a = a0 im Widerspruch zur vorherigen Zeile. 34 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.2. ABBILDUNGEN ZWISCHEN MENGEN b) “⇒”: Angenommen f ist surjektiv, dann ist f −1 (b) nicht leer wie auch immer b ∈ B vorgegeben ist. Für jedes b ∈ B läßt sich ein a ∈ f −1 (b) auswählen, welches dazu verwendet werden kann, die Funktion h : B → A durch die Setzung h(b) := a zu definieren. Aus der Definition von h folgt dann unmittelbar die behauptete Eigenschaft f h(b) = b. Auch hier ist h nicht eindeutig festgelegt, sondern es gibt alternative Definitionsmöglichkeiten, wenn f nicht injektiv ist. “⇐”: Angenommen es sei eine derartige Funktion h vorhanden. Ist b ∈ B beliebig aber fest vorgegeben, so gilt f h(b) = b. Damit wird h(b) ∈ A auf b abgebildet. Da b beliebig, läßt sich somit zu jedem b ∈ B ein Element aus A finden – nämlich h(b) – welches auf b abgebildet wird, d.h. f ist surjektiv. c) folgt direkt aus a) und b) Definition 3.2.14 Seien A, B Mengen und f : A → B eine bijektive Abbildung. Dann heißt die Abbildung f −1 : B → A, f (a) 7→ a Umkehrabbildung von f . Die Umkehrabbildung entspricht der Abbildung g aus Satz 3.2.13 und erfüllt somit f ◦ f −1 = idB und f −1 ◦ f = idA . Achtung! Es ist wichtig die Umkehrabbildung nicht mit dem Urbild zu verwechseln, obwohl dafür die gleiche Notation verwendet wird. Das Urbild einer Menge unter einer Abbildung f : A → B ist eine Menge und kann für alle Abbildungen f und alle Teilmengen M ⊆ B bestimmt werden. Die Umkehrabbildung hingegen kann nur von bijektiven Abbildungen f : A → B bestimmt werden und sie ordnet dann einem Element b ∈ B, das eindeutig bestimmte Element a ∈ f −1 ({b}) zu. Definition 3.2.15 Seien A, B Mengen und f : A → B eine Abbildung und A0 ⊆ A, dann definiert f | A 0 : A0 → B a 7→ f (a) eine Abbildung die Einschränkung von A auf A0 . Proposition 3.2.16 Seien A0 ⊆ A, B Mengen und f : A → B eine Abbildung. Dann gilt: i) Ist f injektiv, dann ist auch f |A0 injektiv. ii) Die Abbildung g : A → f (A), a 7→ f (a) ist surjektiv. Beweis. i) Wenn für alle a1 , a2 ∈ A aus a1 6= a2 folgt, dass f (a1 ) 6= f (a2 ) gilt. Dann gilt das ebenfalls für alle a1 , a2 ∈ A0 ⊆ A. ii) Per Definition ist f (A) das Bild der Abbildung f . Da für alle Elemente a ∈ A gilt f (a) = g(a) per definition von g, ist also auch f (A) das Bild von g und damit ist g surjektiv. 35 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.3. RELATIONEN 3.3. Relationen Relationen sind ein Mittel um Beziehungen zwischen Elementen einer Menge herzustellen, die wichtige zusätzliche Informationen liefern. Definition 3.3.1 (Relation) Es seien A und B zwei nichtleere Mengen. Eine (binäre) Relation R zwischen den Mengen A und B ist eine Teilmenge des kartesischen Produkts A × B, d. h. R ⊂ A × B = {(a, b) | a ∈ A, b ∈ B} . Für (a, b) ∈ R schreibt man auch aRb, d.h. a steht in Relation R zu b. Ist A = B so spricht auch von einer Relation auf bzw. in der Menge A. Definition 3.3.2 (Eigenschaften von Relationen) Eine Relation R ⊂ A × A auf einer Menge A heißt • reflexiv genau dann, wenn für alle a ∈ A gilt, dass (a, a) ∈ R. • symmetrisch genau dann wenn gilt: (a, b) ∈ R ⇒ (b, a) ∈ R. • antisymmetrisch genau dann, wenn aus (a, b) ∈ R ∧ (b, a) ∈ R folgt, dass a = b. • transitiv genau dann, wenn gilt: (a, b) ∈ R ∧ (b, c) ∈ R ⇒ (a, c) ∈ R. Bemerkung 3.3.3 Die Definition von antisymmetrisch ist von der Art A ⇒ B und somit genau dann richtig, wenn ¬B ⇒6= A richtig ist (s. Satz 2.3.1). Somit kann diese Definition mithilfe der De Morganschen Gesetze (s. Satz 2.2.10) umformuliert werden zu: Eine Relation R ⊂ A × A auf einer Menge A heißt antisymmetrisch genau dann, wenn aus a 6= b folgt, dass (a, b) ∈ / R ∨ (b, a) ∈ / R. Definition 3.3.4 (Äquivalenzrelation) Eine Relation R ⊂ A × A heißt Äquivalenzrelation auf A, wenn sie reflexiv, symmetrisch und transitiv ist. Anstatt (a, b) ∈ R schreibt man im Falle von Äquivalenzrelationen häufiger a ∼ b, d.h. a ist äquivalent zu b. Definition 3.3.5 (Äquivalenzklasse und Quotientenmenge) Es sei ∼ eine Äquivalenzrelation auf A. Für a ∈ A heißt die Teilmenge von A [a] := {x ∈ A : a ∼ x } ⊂ A Äquivalenzklasse von a. Die Elemente von [a] nennt man die zu a äquivalenten Elemente. 36 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.3. RELATIONEN Die Menge aller Äquivalenzklassen einer Äquivalenzrelation heißt Quotientenmenge A/∼ := {[a] | a ∈ A}. Es gibt eine kanonische surjektive Abbildung π : A → A/∼ , a 7→ [a]. Eine Äquivalenzklasse enthält alle Elemente, die bezüglich eines bestimmten Aspekts, der durch die Äquivalenzrelation definiert wird, als gleich betrachtet werden kann. Die Quotientenmenge enthält dann all diese Äquivalenzklassen. Beispiel 3.3.6 Sei A = {Schüler einer Schule}, dann ist “ a ∼ b := a ist in der selben Schulklasse wie b”, eine Äquivalenzrelation und die Menge der Schulklassen ist die Quotientenmenge bezüglich dieser Relation. Will man zum Beispiel einen Stundenplan entwerfen, dann ist es hilfreich nicht jeden Schüler einzeln zu betrachten, sondern den Stundenplan für jede Schulklasse zu erstellen. Äquivalenzrelationen sind ein wichtiges Hilfsmittel um aus einer bekannten Menge eine neue Menge konstruieren zu können, die dann bestimmte gewünschte Eigenschaften hat. Wir werden dies in Abschnitt 5 mehrfach benutzen um Zahlenmengen zu konstruieren. Satz 3.3.7 Es sei ∼ eine Äquivalenzrelation auf A. Dann bildet die Menge der Äquivalenzklassen eine Partition von A. Das bedeutet, dass zwei Äquivalenzklassen entweder gleich oder disjunkt sind und außerdem gilt ∪a∈A [a] = A. Beweis. Um zu beweisen, dass zwei Äquivalenzklassen entweder gleich oder disjunkt sind, zeigen wir dass sie gleich sind, sobald ihr Durchschnitt nicht leer ist. Wir betrachten zwei Äquivalenzklassen [a] und [a0 ] in deren Durchschnitt ein Element c liegt, das heißt c ∈ [a] ∩ [a0 ]. Dies ist gleichbedeutend mit c ∼ a und c ∼ a0 . Wir wollen nun zeigen, dass [a] ⊆ [a0 ] gilt: Sei x ∈ [a], d. h. x ∼ a. Aufgrund der Symmetrie der Relation folgt aus c ∼ a auch a ∼ c. Aufgrund der Transitivität folgt aus x ∼ a und a ∼ c dass auch x ∼ c. Und somit wieder aufgrund der Transitivität folgt aus x ∼ c und c ∼ a0 die Beziehung x ∼ a0 . Damit liegt nun x ∈ [a0 ] und wir haben gezeigt, dass [a] ⊆ [a0 ] gilt. Auf analoge Weise (wir tauschen die Rollen von a und a0 ) folgern wir [a0 ] ⊆ [a], woraus folgt, dass die Äquivalenzklassen gleich sind. Im nächsten Schritt wollen wir zeigen, dass ∪a∈A [a] = A gilt. Zunächst bemerken wir, dass Äquivalenzklassen [a] immer einer Teilmenge von A sind und damit auch ihre Vereinigung. Das heißt es gilt ∪a∈A [a] ⊆ A. Für die umgekehrte Inklusion müssen wir zeigen, dass jedes Element a ∈ A in einer Äquivalenzklasse liegt. Aufgrund der Reflexivität einer Äquivalenzrelation ist aber jeder Element zu sich selbst äquivalent a ∼ a und somit liegt a ∈ [a], woraus wir A ⊆ ∪a∈A [a] folgern und damit die Gleichheit beider Mengen. 37 KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE 3.3. RELATIONEN Neben Äquivalenzrelationen sind Ordnungsrelationen wichtige und häufig benutzte Relationen. Definition 3.3.8 (Ordnungsrelation) Eine Ordnungsrelation oder kurz eine Ordnung v in der Menge A ist eine reflexive, antisymmetrische und transitive Relation in A. Definition 3.3.9 (Vergleichbarkeit zweier Elemente) Zwei Elemente a, b ∈ A heißen vergleichbar bezüglich der Ordnung v in A, wenn entweder a v b oder b v a gilt. Definition 3.3.10 (Totale und partielle Ordnung) Eine Ordnung v in der Menge A heißt total, wenn je zwei Elemente aus A vergleichbar sind bezüglich v. Ist die Vergleichbarkeit nicht für alle Elementpaare gegeben, so spricht man zur Abgrenzung gegenüber totalen Ordnungen von einer partiellen Ordnung oder Teilordnung. Beispiel 3.3.11 “≤” definiert auf den reellen Zahlen eine Totalordnung. Diese Relation ist reflexiv, da für jedes Element a ≤ a gilt. Sie ist antisymmetrisch, da für zwei unterschiedliche Elemente a 6= b entweder a ≤ b oder b ≤ a gilt, woraus auch die Vergleichbarkeit zweier Elemente folgt. Die Transitivität gilt, da aus a ≤ b, b ≤ c folgt, dass a ≤ c ist. “⊆” definiert auf der Potenzmenge P (A) einer Menge A eine partielle Ordnung. Schon wenn A die Mächtigkeit 2 hat, also A = {a, b}, dann hat A die Teilmengen {a} und {b}, die nicht vergleichbar sind, da weder {a} ⊆ {b} noch {b} ⊆ {a} gilt. 38 4. Algebraische Strukturen Nachdem wir nun mit Mengen und Abbildungen zwischen ihnen hantieren können, wollen wir nun Mengen betrachten mit denen man auch rechnen kann. 4.1. Gruppen Definition 4.1.1 Sei G eine Menge mit einer Verknüpfung ◦, d. h. ◦:G×G→G (g, h) 7→ g ◦ h. (G, ◦) heißt Gruppe, wenn gilt: i) Es existiert genau ein Element e ∈ G, das für alle g ∈ G g ◦ e = e ◦ g = g erfüllt. e heißt neutrales Element. ii) Zu jedem g ∈ G gibt es genau ein Element g −1 ∈ G, so dass g ◦ g −1 = g −1 ◦ g = e gilt. g −1 heißt das zu g inverse Element. iii) Für alle g1 , g2 , g3 ∈ G gilt: g1 ◦ (g2 ◦ g3 ) = (g1 ◦ g2 ) ◦ g3 . (Assoziativgesetz) Gilt außerdem iv) Für alle g1 , g2 ∈ G : g2 ◦ g1 = g1 ◦ g2 Dann heißt die Gruppe abelsch oder kommutativ. Bemerkung 4.1.2 In der Definition einer Gruppe können die Forderungen i) und ii) durch die (auf dem ersten Blick) schwächeren Forderungen i’) Es existiert ein linksneutrales Element Element e ∈ G, d. h. das für alle g ∈ G gilt: e ◦ g = g erfüllt, ii’) Zu jedem g ∈ G gibt es ein linksinverses Element g −1 ∈ G, d. h. es gilt g −1 ◦ g = e, ersetzt werden. Dabei ist zu beachten, dass es hier nicht die Eindeutigkeit des Linksneutralen und Linksinversen gefordert wird. Es ist möglich durch einfache Rechnungen aus den Bedingungen i’),ii’) und iii) zu folgern, dass dann auch i),ii) und iii) gelten. Der Vorteil an der schwächeren Definition ist nun, dass es bei einem konkreten Beispiel genügt die schwächeren Eigenschaften nachzuweisen um zu beweisen, dass es sich um eine Gruppe handelt. 39 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.1. GRUPPEN Proposition 4.1.3 Sei G, ◦ eine Gruppe und g, h ∈ G, dann gilt: i) (g −1 )−1 = g und ii) (g ◦ h)−1 = h−1 ◦ g −1 . Beweis. i) Wir müssen zeigen, dass g ein zu g −1 inverses Element ist. Aber dies gilt aufgrund der Definition von g −1 als zu g inverses Element: g ◦ g −1 = e. Aufgrund der Eindeutigkeit des Inversen ist daher (g −1 )−1 = g. ii) Wir müssen zeigen, dass h−1 ◦ g −1 ein zu (g ◦ h) inverses Element ist. Dies ist der Fall, da aufgrund des Assoziativgesetzes gilt: (h−1 ◦ g −1 ) ◦ (g ◦ h) = h−1 ◦ (g −1 ◦ g) ◦ h = h−1 ◦ e ◦ h = h−1 ◦ h = e. Beispiel 4.1.4 • (Z, +) ist eine Gruppe • (Q\{0}, ·) ist eine Gruppe • Sei M eine Menge, dann definieren wir die Menge der bijektiven Abbildungen von M in sich selbst Bij(M ) := {f : M → M | f ist bijektiv} Die Menge Bij(M ) zusammen mit der Hintereinanderausführung von Abbildungen als Verknüpfung ist eine Gruppe. – Das neutrale Element der Gruppe ist die Identität idM . – Zu einer Abbildung f ∈ Bij(M ) gibt es eine eindeutig bestimmte Umkehrabbildung f −1 ∈ Bij(M ), diese ist das zu f inverse Element in Bij(M ), denn es gilt f ◦ f −1 = f −1 ◦ f = idM . – Das Assoziativgesetz gilt, da per Definition der Hintereinanderausführung gilt: f ◦ (g ◦ h) (m) = f (g ◦ h)(m) = f (g(h(m))) und (f ◦ g) ◦ h (m) = (f ◦ g) h(m) = f (g(h(m))). – Diese Gruppe ist nicht abelsch, wenn M mehr als 2 Elemente hat. Als Beispiel betrachten wir M = {1, 2, 3} und die bijektiven Abbildungen f :M → M g:M →M 1 7→ 1 1 7→ 2 2 7→ 3 2 7→ 3 3 7→ 2 3 7→ 1 40 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.1. GRUPPEN Wir rechnen nach, dass (f ◦ g)(1) = f (g(1)) = f (2) = 3 gilt, aber (g ◦ f )(1) = g(f (1)) = g(1) = 2. Anschaulich können wir uns die Menge M als Eckpunkte eines gleichseitigen Dreiecks vorstellen, dann ist f eine Spiegelung und g eine Drehung um 120 Grad. g ◦ f = “ Drehen um 120◦ ” ◦ “Spiegeln”: 1 1 3 f =Spiegeln 2 3 g =Drehen 3 2 2 1 f ◦ g = “Spiegeln” ◦ “ Drehen um 120◦ ”: 1 3 2 g=Drehen 2 3 f =Spiegeln 1 2 1 3 Definition 4.1.5 Sei (G, ◦) eine Gruppe und H ⊆ G eine Teilmenge. H heißt Untergruppe von G, wenn H mit der von G geerbten Verknüpfung ◦ eine Gruppe (H, ◦) definiert. Wichtig um zu zeigen, dass eine Teilmenge Untergruppe ist, ist neben den Gruppen axiomen auch die Abgeschlossenheit der Verknüpfung. Das heißt, dass für g1 , g2 ∈ H auch g1 ◦g2 ∈ H liegt. Proposition 4.1.6 Sei (G, ◦) eine Gruppe und H ⊆ G eine Teilmenge, so dass gilt: g1 , g2 ∈ H ⇒ g1−1 ◦ g2 ∈ H, dann ist H eine Untergruppe von G. Beweis. Wir müssen zeigen, dass alle Gruppenaxiome erfüllt sind. i) Sei g1 = g2 = g, wobei g ein beliebiges Element in H ist. Dann ist auch g −1 ◦ g ∈ H und somit das neutrale Element e. ii) Sei g ∈ H. Wir zeigen, dass auch g −1 ∈ H. Dafür setzen wir g1 = g und g2 = e (von dem wir ja schon wissen, dass es enthalten ist) und somit ist g −1 ◦ e = g −1 ∈ H. iii) Das Assoziativgesetz überträgt sich sich direkt, da alle Element in H ja auch in G liegen. iv) Außerdem müssen wir noch zeigen, dass für zwei Elemente g1 , g2 ∈ H auch g1 ◦ g2 in H liegt (dies nennt man Abgeschlossenheit der Verknüpfung). Dies folgt, da wir ja bereits wissen, dass g1−1 ∈ H und somit auch (g1−1 )−1 ◦ g2 = g1 ◦ g2 ∈ H. 41 KAPITEL 4. ALGEBRAISCHE STRUKTUREN Beispiel 4.1.7 4.2. GRUPPENHOMOMORPHISMEN • (Z, +) ist Untergruppe von (Q, +) • (R>0 , ·) ist Untergruppe von (R\{0}, ·) • ({1, −1}, ·) ist Untergruppe von (R\{0}, ·) 4.2. Gruppenhomomorphismen Besitzt eine Menge eine zusätzliche “Struktur”, wie in unserem Fall eine Verknüpfung, dann spielen Abbildungen eine besondere Rolle, die diese Struktur erhalten. Definition 4.2.1 Seien (G, ◦) und (H, ) Gruppen. Eine Abbildung f : G → H heißt Gruppenhomomorphismus, wenn für alle g1 , g2 ∈ G gilt: f (g1 ◦ g2 ) = f (g1 ) f (g2 ). Es ist also egal, ob ich erst g1 und g2 in G verknüpfe und dann g1 ◦ g2 ∈ G nach H abbilde oder ob beide Elemente zuerst nach H abgebildet werden (f (g1 ), f (g2 ) ∈ H) um dann dort verknüpft werden. Proposition 4.2.2 Seien (G, ◦) und (H, ) Gruppen, sowie f : G → H ein Gruppenhomomorphismus. Dann gilt: i. f (eG ) = eH und ii. f (g −1 ) = f (g)−1 . Hier bezeichnet eG das neutrale Element in G und eH das neutrale Element in H. Beweis. i. Aus der Eigenschaft neutrales Element zu sein folgt eG ◦ eG = eG und somit durch Anwenden der Abbildung f erhält man f (eG ) = f (eG ◦ eG ) = f (eG ) f (eG ). Wir verknüpfen die Elemente auf beiden Seiten der Gleichung von rechts mit dem Element f (eG )−1 und erhalten f (eG ) f (eG )−1 = f (eG ) f (eG ) f (eG )−1 eH = f (eG ) f (eG ) f (eG )−1 | Assoziativgesetz = f (eG ) eH | Eigenschaft des Inversen = f (eG ) | Eigenschaft des neutralen Elements ii. Wir rechnen f (g −1 ) f (g) = f (g −1 ◦ g) = f (eG ) = eH . Somit hat das Element f (g −1 ) die Eigenschaft eines inversen Elements zu f (g). Und da Inverse eindeutig sind folgt die Behauptung. 42 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.2. GRUPPENHOMOMORPHISMEN Beispiel 4.2.3 Ein wichtiger Gruppenhomomorphismus ist die Exponentialfunktion exp : (R, +) → (R>0 , ·) x 7→ exp(x) = ex . Die Funktionalgleichung exp(x + y) = ex · ey = exp(x) · exp(y) entspricht genau der Definition eines Gruppenhomomorphismus. Wir sehen, dass Proposition 4.2.2 i) genau der Eigenschaft e0 = 1 entspricht und Proposition 4.2.2 ii) der Tatsache, dass e−x = e1x . Satz 4.2.4 Seien (G, ◦) und (H, ) Gruppen. Das Bild f (G) eines Gruppenhomomorphismus f : G → H ist eine Untergruppe von H. Beweis. Aufgrund von Proposition 4.1.6 genügt es zu überprüfen, ob für alle Element h1 , h2 ∈ f (G) gilt, dass dann auch h−1 1 h2 in H liegt. Seien also h1 , h2 ∈ f (G), d. h. es gibt Elemente g1 , g2 ∈ G mit f (g1 ) = h1 und f (g2 ) = h2 . Dann können wir nachrechnen, dass −1 f (g2 ) = f (g1−1 ) f (g2 ) = f (g1−1 ◦ g2 ) ∈ f (G). h−1 1 h2 = f (g1 ) Definition 4.2.5 Seien (G, ◦) und (H, ) Gruppen, sowie f : G → H ein Gruppenhomomorphismus. Dann heißt die Menge Kern(f ) = {g ∈ G | f (g) = eH } ⊆ G der Kern von f . Der Kern von f ist dasselbe wie das Urbild der neutralen Elements, d. h. Kern(f ) = f −1 ({eH }). Satz 4.2.6 Seien (G, ◦) und (H, ) Gruppen, sowie f : G → H ein Gruppenhomomorphismus. Der Kern von f ist eine Untergruppe von G. Beweis. Aufgrund von Proposition 4.1.6 genügt es zu überprüfen, ob für alle Element g1 , g2 ∈ Kern(f ) gilt, dass dann auch g1−1 ◦ g2 in Kern(f ) liegt. Dafür rechnen wir f (g1−1 ◦ g2 ) = f (g1−1 ) f (g2 ) = f (g1 )−1 f (g2 ) = e−1 H eH = eH . Satz 4.2.7 Seien (G, ◦) und (H, ) Gruppen. Ein Gruppenhomomorphismus f : G → H ist genau dann injektiv, wenn Kern(f ) = {eG } gilt. Beweis. “⇒” Wenn f injektiv ist, dann gilt für alle Elemente g ∈ G mit g 6= eG , dass f (g) 6= f (eG ) = eH . Somit ist eG das einzige Element, dass im Kern liegt, d. h. Kern(f ) = {eG }. 43 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.3. RINGE UND KÖRPER “⇐” Die Rückrichtung zeigen wir durch einen Widerspruchsbeweis. Wir nehmen also an es gelte Kern(f ) = {eG } und f ist nicht injektiv. Letzteres bedeutet, dass es Elemente g1 , g2 ∈ G gibt für die gilt: g1 6= g2 , aber f (g1 ) = f (g2 ). Durch Verknüpfen von links mit f (g1 )−1 erhalten wir f (g1 )−1 f (g1 ) = f (g1 )−1 f (g2 ) eH = f (g1−1 ) f (g2 ) = f (g1−1 ◦ g2 ) Somit liegt also das Element g1−1 ◦ g2 im Kern von f . Da nach Annahme g1 6= g2 ist g1−1 ◦ g2 6= eG , was im Widerspruch zur Annahme Kern(f ) = {eG } steht. Aufgrund von Proposition 4.2.2i gilt immer f (eG ) = eH , das heißt eG liegt immer im Kern eines Homomorphismus. Man sagt deshalb, dass der Kern trivial ist, wenn er nur das Element eG enthält. 4.3. Ringe und Körper In der Definition einer Gruppe kommt nur eine Verknüpfung vor. Da die bekannten Zahlenmengen aber zwei Verknüpfungen haben, benötigen wir weitere Begriffe. Definition 4.3.1 Ein Körper (K, +, ·) ist Tripel bestehend aus einer Menge K mit zwei Verknüpfungen +:K ×K →K (x, y) 7→ x + y ·:K ×K →K (x, y) 7→ x · y so dass gilt: i. (K, +) ist eine abelsche Gruppe. Das neutrale Element heißt 0 und das zu x inverse Element heißt −x. ii. (K\{0}, ·) ist eine abelsche Gruppe. Das neutrale Element heißt 1 und das zu x inverse Element heißt x−1 = x1 . iii. Für alle x, y, z ∈ K gilt: (x + y) · z = x · z + y · z (Distributivgesetz). Bemerkung 4.3.2 Es gilt 0 · x = x · 0 = 0 für alle x ∈ K. Das können wir zeigen mithilfe der Rechnung x · 0 = x · (0 + 0) = x · 0 + x · 0 Durch Addition des Elements −x · 0, das zu x · 0 invers ist, erhalten wir: 0 = x · 0 − x · 0 = (x · 0 + x · 0) − x · 0 = x · 0 Die Kommutativität liefert dann auch 0 · x = 0. Wir verwenden die Konvention “Punktrechnung geht vor Strichrechnung”, das heißt a · b + c = (a · b) + c 6= a · (b + c). 44 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.3. RINGE UND KÖRPER Proposition 4.3.3 In einem Körper K gilt immer: Wenn a · b = 0, dann ist entweder a = 0 oder b = 0. Man sagt ein Körper ist nullteilerfrei. Beweis. Wenn a = 0 ist, dann sind wir fertig, also nehmen wir an es gilt a 6= 0. Dann besitzt a ein Inverses bezüglich der Multiplikation a−1 mit dem wir die Gleichung ab = 0 multiplizieren: a·b=0 ⇒ Beispiel 4.3.4 a−1 · (a · b) = a−1 · 0 ⇒ (a−1 · a) · b = 0 ⇒ b=1·b=0 • (Q, +, ·) und (R, +, ·) sind Körper. • Die Menge F2 := {0, 1} mit den Verknüpfungen + 0 1 0 0 1 1 1 0 · 0 1 0 0 0 1 0 1 ist ein Körper. Definition 4.3.5 Seien K, L Körper. Ein Körperhomomorphismus ist ein Abbildung f : K → L, für die gilt: f (k1 + k2 ) = f (k1 ) + f (k2 ) f (k1 · k2 ) = f (k1 ) · f (k2 ) Ein Körperhomomorphismus ist also ein Gruppenhomomorphismus für die additive Gruppe (K, +) und für die multiplikative Gruppe (K\{0}, ·. Insbesondere gilt also f (1K ) = 1L und f (0K ) = 0L . Definition 4.3.6 Ein Ring (R, +, ·) ist eine Menge R zusammen mit zwei Verknüpfungen +:R×R→R (x, y) 7→ x + y ·:R×R→R (x, y) 7→ x · y so dass gilt: i) (R, +) ist eine abelsche Gruppe. Das neutrale Element heißt 0 und das zu x inverse Element heißt −x. ii) Für alle x, y, z ∈ R gilt: (x · y) · z = x · (y · z) (Assoziativgesetz). iii) Für alle x, y, z ∈ R gilt: (x + y) · z = x · z + y · z (Distributivgesetz). iv) Der Ring heißt kommutativ, wenn das Kommutativgesetz gilt: x · y = y · x für alle x, y ∈ R. v) Ein Ring heißt mit Eins, wenn ein neutrales Element 1 für die Multiplikation existiert, also x · 1 = 1 · x = x für alle x ∈ R. 45 KAPITEL 4. ALGEBRAISCHE STRUKTUREN Beispiel 4.3.7 4.4. POLYNOME • (Z, +, ·) ist ein kommutativer Ring mit Eins. • Jeder Körper ist ein kommutativer Ring mit Eins. Definition 4.3.8 Seien R, S Ringe. Ein Ringhomomorphismus ist eine Abbildung f : R → S, für die gilt: f (r1 + r2 ) = f (r1 ) + f (r2 ) f (r1 · r2 ) = f (r1 ) · f (r2 ) Definition 4.3.9 Ein Ring R heißt nullteilerfrei, wenn für alle Elemente r, s ∈ R gilt, dass aus r · s = 0 folgt, dass r = 0 oder s = 0 gilt. Definition 4.3.10 Sei R ein Ring mit 1, dann heißt die Menge R× := {a ∈ R | ∃b ∈ R, so dass, a · b = b · a = 1} Menge der Einheiten in R. Beispiel 4.3.11 • Z× = {1, −1} • Sei K ein Körper, dann ist K × = K\{0}. Proposition 4.3.12 Sei R ein Ring mit 1, dann ist (R× , ·) eine Gruppe. Beweis. Das neutrale Element in R× ist die 1, da 1 · 1 = 1. Wenn a ∈ R× , dann gibt es ein b ∈ R, so dass a · b = b · a = 1 und damit liegt auch b ∈ R× und ist das zu a inverse Element. Das Assoziativgesetz überträgt sich direkt aus den Rechengesetzen im Ring R. Die Menge der Einheiten ist abgeschlossen, denn wenn a, a0 ∈ R× , dann gibt es b, b0 ∈ R× , so dass a · b = a0 · b0 = 1 und damit gilt (a · a0 ) · (b0 · b) = a · a0 · b0 · b = a · 1 · b = a · b = 1. 4.4. Polynome Definition 4.4.1 Sei K eine Körper, dann heißt ein formaler Ausdruck der Form p(t) := an tn + an−1 tn−1 + · · · + a1 t + a0 46 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.4. POLYNOME Polynom in der Unbekannten t mit Koeffizienten aus K. Wir bezeichnen die Menge aller Polynome mit K[t] := {p(t) | p(t) ist ein Polynom in t mit Koeffzienten aus K}. Sei p(t) ein Polynom mit dem Koeffizienten an = 6 0 und ak = 0 für alle k > n, dann ist n der Grad von p deg p = n. Ein Polynom vom Grad n heißt normiert, wenn an = 1. Definition 4.4.2 Sei p ∈ K[t] ein Polynom, dann heißt α ∈ K Nullstelle von p, falls gilt p(α) = 0. Proposition 4.4.3 Sei p ∈ K[t] ein Polynom und α ∈ K eine Nullstelle von p. Dann gibt es ein Polynom q ∈ K[t] vom Grad deg q = deg p − 1, so dass gilt: p(t) = (t − α)q(t). Definition 4.4.4 Ein Polynom der Form (t − α) nennen wir einen Linearfaktor. Sei p ∈ K[t] ein Polynom, wir sagen dass p in Linearfaktoren zerfällt, wenn es α1 , . . . , αn ∈ K gibt, so dass gilt: p(t) = an (t − α1 ) · . . . · (t − αn ). Dabei ist n = deg p. Wenn ein Polynom in Linearfaktoren zerfällt, dann sind seine Nullstellen durch αi (i = 1, . . . , n) gegeben, die nicht zwangsläufig verschieden sind. Definition 4.4.5 Sei p ∈ K[t] ein Polynom und α ∈ K eine Nullstelle von p. Wir sagen, dass α eine Nullstelle der Vielfachheit k ist, wenn es ein Polynom q ∈ K[t] gibt, so dass p(t) = (t − α)k q(t) gilt, wobei α keine Nullstelle von q(t) ist, das heißt q(α) 6= 0. Wenn ein Polynom in Linearfaktoren zerfällt, dann schreiben wir es meistens in der Form p(t) = an (t − α1 )k1 · . . . · (t − αr )kr , 47 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.4. POLYNOME wobei die Nullstellen αi paarweise verschieden sind. In dieser Schreibweise kann man direkt die Vielfachheiten der jeweiligen Nullstellen ablesen. Definition 4.4.6 Sei p ∈ K[t] ein Polynom vom Grad deg p ≥ 1. Wir sagen, dass p über K irreduzibel ist, wenn es nicht als Produkt zweier Polynome p1 , p2 ∈ K[t] mit deg p1 < deg p und deg p2 < deg p geschrieben werden kann. Wichtig bei dieser Definition ist, dass sie vom Körper K abhängt. Beispiel 4.4.7 Ein Linearfaktor ist immer irreduzibel. Polynome vom Grad 2 und 3 sind genau dann irreduzibel, wenn sie keine Nullstellen besitzen. Ein Polynom vom Grad 4 oder höher kann hingegen auch dann nicht irreduzibel sein, wenn es keine Nullstellen besitzt. So ist zum Beispiel das Polynom p(t) = t4 + 1 über dem Körper Q irreduzibel, wohingegen es über R in zwei irreduzible Faktoren vom Grad 2 zerfällt √ √ t4 + 1 = (t2 + 2t + 1)(t2 − 2t + 1) und über C sogar in Linearfaktoren zerfällt. √ √ √ √ t4 + 1 = (t − 2(1 + i))(t − 2(1 − i))(t − 2(−1 + i))(t − 2(−1 − i)) Proposition 4.4.8 Sei f ∈ K[t] ein normiertes Polynom vom Grad 2 f (t) = t2 + pt + q, p, q ∈ K. Dann hat dieses Polynom die Nullstellen r r p p2 p p2 α1 = − + − q α2 = − − − q. 2 4 2 4 Diese liegen in K, vorausgesetzt die Zahl D = p2 − 4q ist ein Quadrat in K, das heißt es gibt eine Zahl x ∈ K, so dass x2 = D. Beweis. Wir müssen nachrechnen, dass (t − α1 )(t − α2 ) = f (t) gilt um zu zeigen, dass α1 und α2 Nullstellen von f sind: (t − α1 )(t − α2 ) = t2 − (α1 + α2 )t + α1 · α2 ! r r 2 2 p p p p −q− − −q t+ = t2 − − + 2 4 2 4 !2 r p p p 2 2 p = t2 − − − t+ − − −q 2 2 2 4 p − + 2 r p2 −q 4 ! p − − 2 r p2 −q 4 ! = t2 + pt + q = f (t). 48 KAPITEL 4. ALGEBRAISCHE STRUKTUREN 4.4. POLYNOME Es gibt ähnlich Formeln, die cardanischen Formeln, für die Berechnung von Nullstellen von Polynomen dritten und vierten Grades. Allerdings sind diese Formeln bereits so kompliziert, dass sie praktisch keine Bedeuting haben. Für Polynome höheren Grades hingegen gibt es keine allgemeine Lösungsformel. Beispiel 4.4.9 Wenn f (t) = t2 + pt + q ∈ R[t] ein normiertes Polynom vom Grad 2 ist, dann hat diese Polynom entweder zwei verschiedene reelle Nullstellen, wenn p2 − 4q > 0 ist. Es hat eine reelle Nullstelle der Vielfachheit 2, wenn p2 − 4q = 0 ist. Ist hingegen p2 − 4q < 0, dann ist das Polynom über R irreduzibel, hat aber über C zwei zueinander konjugierte Nullstellen. Die Beobachtung, dass sich die Koeffizienten eines Polynoms mithilfe der Nullstellen ausdrücken lassen motiviert die folgende Definition Definition 4.4.10 Sei p ∈ K[t] ein normiertes Polynom vom Grad n p(t) = tn + an−1 tn−1 + · · · + a1 t + a0 . Dann nennen wir Norm und Spur des Polynoms die folgenden Ausdrücke: Norm(p) = (−1)n a0 Spur(p) = −an−1 . Satz 4.4.11 Sei p ∈ K[t] ein normiertes Polynom vom Grad n mit den Nullstellen α1 , . . . , αn (die eventuell auch in einem größeren Körper L mit K ⊆ L liegen können), dann gilt: Norm(p) = α1 · . . . · αn Spur(p) = α1 + . . . + αn . Beweis. Dieser Satz hat eine wichtige Konsequenz für Polynome deren Koeffizienten in Z liegen. Wenn dieses Polynom alle Nullstellen in Z hat, dann sind diese Nullstellen ein Teiler des konstanten Terms a0 . Beispiel 4.4.12 Wir betrachten das Polynom p(t) = t3 + 3t2 + 5t + 3 ∈ Z[t] Kandidaten für ganzzahlige Nullstellen sind ±1 und ±3. Durch Probieren erhalten wir p(−1) = 0. Also können wir schreiben p(t) = (t + 1)q(t), wobei q(t) ein Polynom vom Grad 2 ist. Um dieses Polynom zu bestimmen verwenden wir Polynomdivision: (t3 + −(t3 + 3t2 + 2 t ) 2t2 + −(2t2 + 5t + 3) : (t + 1) = t2 + 2t + 3 5t 2t) 3t + 3 −(3t + 3) 49 5. Zahlenmengen Nachdem wir bisher eher abstrakt mit Mengen und Abbildungen hantiert haben wollen wir in diesem Kapitel die wichtigsten Zahlenmengen, die bereits aus der Schule bekannt sind, genauer anschauen. Außerdem werden wir zwei Mengen kennenlernen, die interessante Eigenschaften haben und uns deshalb öfter begegnen werden. 5.1. Die natürlichen Zahlen Kronecker sagte: Die natürlichen Zahlen sind gottgegeben, alles andere ist Menschenwerk. Definition 5.1.1 (Die Peano-Axiome) Die natürlichen Zahlen bilden eine Menge N in der ein Element 0 existiert und es eine Abbildung s : N → N gibt, so dass gilt: i) s ist injektiv, ii) 0 ∈ / s(N), iii) für jede Menge M ⊂ N mit den Eigenschaften a) 0 ∈ M b) s(M ) ⊆ M gilt: M = N. Wir nennen den Nachfolger der Zahl 0 die Eins 1 := s(0) und können so eine Vorschrift für die Abbildung s (engl. “successor=Nachfolger”) angeben s:N→N n 7→ n + 1. Somit lassen sich alle Elemente aus N durch sukzessives Anwenden der Nachfolgerabbildung s konstruieren, n := (s ◦ s ◦ s ◦ · · · ◦ s ◦ s)(0) = 1 + 1 + · · · + 1. | {z } | {z } n−mal n−mal Direkt aus den Peano-Axiomen erhalten wir das wichtige Beweisprinzip der vollständigen Induktion. Satz 5.1.2 (Beweisprinzip der vollständigen Induktion) Sei A(n) eine Aussage über eine natürliche Zahl n. Es gelte: i) Der Induktionsanfang: A(0) ist wahr. 50 KAPITEL 5. ZAHLENMENGEN 5.1. DIE NATÜRLICHEN ZAHLEN iI) Der Induktionsschritt: Für alle n ∈ N gilt: wenn A(n) wahr ist, dann ist auch A(n + 1) wahr. Dann ist A(n) wahr für alle n ∈ N. Beweis. Der Beweis folgt direkt aus Punkt iii) in Definition 5.1.1, wobei wir die Menge M = {n ∈ N | A(n) ist wahr} betrachten. Aus i) folgt, dass 0 ∈ M und somit a). Aus der Forderung ii) folgt, dass s(M ) ⊆ M ist und damit Punkt b). Somit ist M = N und die Aussage A(n) ist für alle n ∈ N wahr. Bemerkung 5.1.3 Der Induktionsanfang muss nicht immer null sein. Normalerweise wählt man die kleinste Zahl n0 ∈ N, so dass A(n0 ) wahr ist. Notation 5.1.4 Zur einfacheren und kompakteren Schreibung von Summen und Produkten, verwenden wir folgende Bezeichnungen: n X i=n0 n Y ai := an0 + an0 +1 + . . . + an ai := an0 · an0 +1 · . . . · an i=n0 Beispiel 5.1.5 Wir beweisen die Formel für die Summe der ersten n natürlichen Zahlen. Sei also n X n(n + 1) . A(n) : i = 1 + 2 + 3 + ... + n = 2 i=1 Für den Beweis prüfen wir zunächst den Induktionsanfang und wählen dafür n = 1. Wir müssen also zeigen, dass A(1) wahr ist, d. h. ob die Formel stimmt, wenn wir für n = 1 setzen. Dies ist richtig, da 1 X i=1 i=1 und ebenso 1(1 + 1) = 1. 2 Nun nehmen wir an, dass die Formel A(n) für ein beliebiges (aber festes) n ∈ N wahr ist 51 KAPITEL 5. ZAHLENMENGEN 5.1. DIE NATÜRLICHEN ZAHLEN und folgern daraus, dass sie auch für den Nachfolger n + 1 stimmt. Dafür rechnen wir: n+1 X i= i=1 n X i + (n + 1) Aufspalten der Summe i=1 n(n + 1) + (n + 1) Verwenden der Voraussetzung, dass A(n) wahr ist 2 n(n + 1) + 2(n + 1) = Hauptnenner bilden 2 (n + 1)(n + 2) = (n + 1) ausklammern 2 P (n+1)(n+2) Insgesamt gilt also n+1 , was wir auch erhalten, wenn wir A(n + 1) i=1 i = 2 ausrechnen. Somit ist der Induktionsschritt bewiesen und die Formel A(n) gilt für alle n ≥ 1. = Definition 5.1.6 Wir definieren zwei Verknüpfungen auf N durch +:N×N→N ·:N×N→N (n, m) 7→ n + m = 1 + 1 + · · · + 1 | {z } n+m−mal (n, m) 7→ n · m = 1 + 1 + · · · + 1 {z } | n·m−mal Proposition 5.1.7 Für die Verknüpfungen + und · auf N gilt: • das Assoziativgesetz • das Kommutativgesetz • das Distributivgesetz • 0 ist das neutrale Element der Addition • 1 ist das neutrale Element der Multiplikation Aber es gibt für beide Verknüpfungen keine inversen Element in N, somit ist N mit keiner Verknüpfung eine Gruppe und daher auch kein Ring. Proposition 5.1.8 Die Relation ≤ auf N, die durch n≤m :⇔ ∃c ∈ N, s. d. n + c = m definiert ist, ist eine totale Ordnungsrelation. Beweis. Wir zeigen die Eigenschaften einer Ordnungsrelation i. Reflexivität: da n + 0 = n gilt n ≤ n. 52 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN ii. Transitivität: Sei n ≤ m und m ≤ p, dann gibt es c1 , c2 ∈ N, so dass n + c1 = m und m + c2 = p. Daraus folgt, dass n + (c1 + c2 ) = p und somit n ≤ p. iii. Antisymmetrie: Aus n ≤ m und m ≤ n, folgt dass n + c1 = m und m + c2 = n und somit n + c1 + c2 = n. Da c1 , c2 ∈ N muss also c1 = c2 = 0 sein um diese Gleichung zu erfüllen. Und daher ist n = m. Die Ordnung ist total, da entweder n + c = m gilt oder m + c = n und somit zwei natürliche Zahlen immer vergleichbar sind. Definition 5.1.9 Sei M eine Menge und f : M → N eine Bijektion. Dann nennt man die Mächtigkeit der Menge M abzählbar unendlich. Insbesondere sind die natürlichen Zahlen selbst abzählbar unendlich. 5.2. Die ganzen Zahlen Da in N keine Inversen bezüglich der Addition enhalten sind, lassen sich nicht alle Gleichungen der Form a + x = b, mit gegebenen a, b ∈ N lösen. Um dieses Problem zu beheben definieren wir die ganzen Zahlen. Definition 5.2.1 Sei −1 die Lösung der Gleichung 1 + x −n := (−1) + (−1) + · · · + (−1). Die Menge {z } | = 0 und sei n−mal Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . . } heißt die Menge der ganzen Zahlen. Wir setzen die Verknüpfungen + und · auf die ganzen Zahlen fort. Proposition 5.2.2 (Z, +, ·) ist ein kommutativer nullteilerfreier Ring. Bemerkung 5.2.3 Die Notwendigkeit die ganzen Zahlen zu betrachten entsteht sobald wir Differenzen natürlicher Zahlen berechnen wollen. So ist zum Beispiel −2 = 3 − 5. Allerdings ist dies nicht die einzige Möglichkeit die Zahl −2 als Differenz natürlicher Zahlen zu schreiben, weitere Möglichkeiten sind −2 = 1 − 3 = 7 − 9 = 1000 − 1002. Allgemein gilt: Wenn eine ganze Zahl z die Differenz von m und n ist, dann gilt auch z = m − n = (m + a) − (n + a), wobei a ∈ N eine beliebige Zahl ist. 53 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN Dies motiviert die alternative und formal korrektere Methode die ganzen Zahlen mithilfe von Äquivalenzrelationen aus N zu konstruieren. Dafür betrachten wir das kartesische Produkt N × N und definieren darauf eine Äquivalenzrelation (m, n) ∼ (m0 , n0 ) : ⇔ m + n0 = m0 + n. Die ganzen Zahlen werden nun als Menge der Äquivalenzklassen definiert: Z := (N × N)/∼ Wir stellen zunächst fest, dass für eine feste Zahl a ∈ N immer (m, n) ∼ (m + a, n + a), da m + (n + a) = (m + a) + n gilt. Somit liegen zwei Zahlenpaare (m, n) und (m0 , n0 ) genau dann in der selben Äquivalenzklasse, wenn ihre Differenz gleich ist m − n = m0 − n0 . Auf der Menge der Äquivalenzklassen wollen wir nun eine Addition und eine Multiplikation definieren. +: ·: Z×Z→Z (m1 , n1 ), (m2 , n2 ) 7→ (m1 , n1 ) + (m2 , n2 ) := (m1 + m2 , n1 + n2 ), Z×Z→Z (m1 , n1 ), (m2 , n2 ) 7→ (m1 , n1 ) · (m2 , n2 ) := (m1 m2 + n1 n2 , m1 n2 + n1 m2 ). Warum diese Verknüpfungen so definiert werden müssen, sieht man, wenn man die Zahlen m1 − n1 und m2 − n2 miteinander addiert, bzw multipliziert (m1 − n1 ) + (m2 − n2 ) = (m1 + m2 ) − (n1 + n2 ). Der positive Teil des Ergebnisses entspricht der ersten Komponente von (m1 , n1 )+(m2 , n2 ) und der negative Teil der zweiten Komponente. Für die Multiplikation erhalten wir (m1 − n1 ) · (m2 − n2 ) = (m1 m2 + n1 n2 ) − (m1 n2 + n1 m2 ). Der positive Teil des Ergebnisses entspricht der ersten Komponente von (m1 , n1 )·(m2 , n2 ) und der negative Teil der zweiten Komponente. Beide Verknüpfungen sind wohldefiniert. Um dies zu zeigen seien (m1 , n1 ) ∼ (m01 , n01 ), (m2 , n2 ) ∼ (m02 , n02 ), ⇔ ⇔ m1 + n01 = m01 + n1 m2 + n02 = m02 + n2 . (5.1) (5.2) Für die Wohldefiniertheit der Addition müssen wir jetzt zeigen, dass gilt: (m1 , n1 ) + (m2 , n2 ) ∼ (m01 , n01 ) + (m02 , n02 ) ⇔ (m1 + m2 , n1 + n2 ) ∼ (m01 + m02 , n01 + n02 ) ⇔ (m1 + m2 ) + (n01 + n02 ) = (m01 + m02 ) + (n1 + n2 ) (5.3) 54 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN Dafür genügt es die Gleichungen (5.1) und (5.2) zu addieren um (m1 + n01 ) + (m2 + n02 ) = (m01 + n1 ) + (m02 + n2 ) ⇔ (m1 + m2 ) + (n01 + n02 ) = (m01 + m02 ) + (n1 + n2 ) zu erhalten. Dies entspricht aber genau Gleichung (5.3). Für die Wohldefiniertheit der Multiplikation müssen wir zeigen, dass gilt: (m1 , n1 ) · (m2 , n2 ) ∼ (m01 , n01 ) · (m02 , n02 ) ⇔ (m1 m2 + n1 n2 , m1 n2 + n1 m2 ) ∼ (m01 m02 + n01 n02 , m01 n02 + n01 m02 ) ⇔ (m1 m2 + n1 n2 ) + (m01 n02 + n01 m02 ) = (m01 m02 + n01 n02 ) + (m1 n2 + n1 m2 ) (5.4) Dafür multiplizieren wir (5.1) und (5.2), addieren auf beiden Seiten der Gleichung den Term n01 n02 + n1 n2 und erhalten so (m1 + n01 ) · (m2 + n02 ) = (m01 + n1 ) · (m02 + n2 ) ⇔ ⇔ m1 m2 + m1 n02 + n01 m2 + n01 n02 = m01 m02 + m01 n2 + n1 m02 + n1 n2 (m1 m2 + m1 n02 + n01 m2 + n01 n02 ) + (n01 n02 + n1 n2 ) = (m01 m02 + m01 n2 + n1 m02 + n1 n2 ) + (n01 n02 + n1 n2 ) m1 m2 + n1 n2 + n01 (m2 + n02 ) + (n01 + m1 )n02 = m01 m02 + n01 n02 + (m01 + n1 )n2 + n1 (m02 + n2 ) ⇔ Nun verwenden noch einmal die Gleichungen (5.1) und (5.2) und die Ausdrücke in den Klammern zu ersetzen und erhalten somit m1 m2 + n1 n2 + n01 (m02 + n2 ) + (n1 + m01 )n02 = m01 m02 + n01 n02 + (m1 + n01 )n2 + n1 (m2 + n02 ) ⇔ m1 m2 + n1 n2 + n01 m02 + n01 n2 + n1 n02 + m01 n02 = m01 m02 + n01 n02 + m1 n2 + n01 n2 + n1 m2 + n1 n02 im letzten Schritt subtrahieren wir auf beiden Seiten −n01 n2 − n02 n1 wodurch wir m1 m2 + n1 n2 + n01 m02 + m01 n02 = m01 m02 + n01 n02 + m1 n2 + n1 m2 erhalten. Dies entspricht aber nach Umsortieren genau Gleichung (5.4). Wir können nun nachrechnen, dass die Menge Z mit diesen Verknüpfungen ein Ring bildet. Dabei können wir im wesentlichen die Rechenregeln auf die Rechenregeln in den natürlichen Zahlen N zurückführen. (Z, +) ist eine abelsche Gruppe • [(0, 0)] ist neutrales [(m, n)] + [(0, 0)] = [(m + 0, n + 0)] = [(m, n)] gilt. Element, da • [(n, m)] ist das zu [(m, n)] inverse Element, da [(m, n)] + [(n, m)] = [(m + n, n + m)] = [(0, 0)] gilt. • Es gilt das Kommutativgesetz, da [(m, n)] + [(m0 , n0 )] = [(m + m0 , n + n0 )] = [(m0 + m, n0 + n)] = [(m0 , n0 )] + [(m, n)] aufgrund des Kommutativgesetzes in N. • Es gilt das Assoziativgesetz, aufgrund des Assoziativgesetzes in N. (Z, +, ·) ist ein kommutativer Ring mit Eins • [(1, 0)] ist neutrales Element der Multiplikation, da [(m, n)] · [(1, 0)] = [(m · 1 + n · 0, m · 0 + n · 1)] = [(m, n)] gilt. • 55 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN Satz 5.2.4 Z ist abzählbar. Beweis. Wir definieren eine Abbildung von N nach Z durch f :N→Z n n 7→ 2 n 7→ − wenn n gerade n+1 2 wenn n ungerade und behaupten, dass diese Abbildung eine Bijektion ist. Um dies zu zeigen verwenden wir Satz 3.2.13 und definieren eine zu f inverse Abbildung: g:Z→N m 7→ 2m wenn m ≥ 0 m 7→ −(2m + 1) wenn m < 0 Wir können nachrechnen, dass g ◦ f = idN , denn wenn n gerade ist, dann gilt g(f (n)) = g( n2 ) = 2 · n2 = n, da n2 ≥ 0. Wenn n ungerade ist, dann ist g(f (n)) = g(− n+1 2 ) = n+1 − 2(− 2 ) + 1 = n. Ebenso können wir prüfen, dass f ◦ g = idZ . Definition 5.2.5 • Seien n, m ∈ Z. Wir sagen “n teilt m” und schreiben n|m genau dann, wenn es c ∈ Z gibt, so dass n · c = m. • Seien n, m ∈ Z. d heißt größter gemeinsamer Teiler von n und m und wir schreiben d = ggT(n, m), wenn d|n und d|m und außerdem muss gelten dass jede Zahl d0 , für die gilt d0 |n und d0 |m, dass dann auch d0 |d. • n, m ∈ Z heißen teilerfremd, wenn ggT(n, m) = 1. • p ∈ Z heißt prim, wenn aus n|p folgt, dass n = ±1 oder n = ±p. Proposition 5.2.6 Der größte gemeinsame Teiler ist bis auf ein Vorzeichen eindeutig bestimmt. Beweis. Angenommen d1 und d2 sind größte gemeinsame Teiler der Zahlen n und m. Aus der Definition des ggT folgt, dass dann sowohl d1 |d2 als auch d2 |d1 . Somit gibt es Zahlen c1 , c2 ∈ Z für die d1 · c1 = d2 und d2 · c2 = d1 gilt. Daraus folgt d2 · c2 · c1 = d2 , was gleichbedeutend mit c1 · c2 = 1 ist und daraus folgt, dass c1 = ±1 und c2 = ±1. Satz 5.2.7 (Division mit Rest) Sei a ∈ Z und b ∈ N, dann gibt es eindeutig bestimmte Zahlen q ∈ Z und r ∈ {0, 1, 2, . . . , b − 1} so dass gilt a = q · b + r. (5.5) 56 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN Beweis. Zunächst zeigen wir die Existenz einer solchen Darstellung. Dafür betrachten wir die Menge M = {x ∈ Z | a − bx ≥ 0}, die ein größtes Element q besitzt. Wir setzen dann r := a−bq, wodurch folgt, dass r ≥ 0, da q ∈ M . Es gilt aber auch r < q, denn angenommen r ≥ q, dann wäre r−q = a−bq−q = a−q(b+1) ≥ 0 im Widerspruch zur Definition von q als maximales Element in M . Aus der Definition von r folgt die Existenz einer Darstellung (5.5). Um die Eindeutigkeit dieser Darstellung zu zeigen, nehmen wir an es gäbe zwei verschiedenen Darstellung a = q1 · b + r1 = q2 · b + r2 . (5.6) Wir können ohne Beschränkung der Allgemeinheit annehmen, dass r1 ≤ r2 ist (sonst vertauschen wir die Rollen.) Aus Gleichung (5.6) folgt die Gleichung r2 − r1 = b(q1 − q2 ) und somit ist r2 − r1 ein Vielfaches von b. Andererseits folgt aus 0 ≤ r1 ≤ r2 < b, dass 0 ≤ r2 − r1 < b. Beides zusammen ist nur möglich, wenn r2 − r1 = 0, woraus wiederum q1 − q2 = 0 folgt und damit die Behauptung. Satz 5.2.8 (Euklidischer Algorithmus) Seien a, b ∈ Z wobei a > b. Wir setzen r0 = a, r1 = b und definieren rekursiv Zahlen rk+2 ∈ Z durch die Division mit Rest von rk durch rk+1 : rk = qk rk+1 + rk+2 , wobei rk+2 < rk+1 Wenn rn+1 = 0 und rn 6= 0, dann ist rn = ggT(a, b). Beweis. Zuerst bemerken wir, dass rk+1 < rk , wodurch die Folge der rk nach endlich vielen Schritten null wird. Um zu sehen, dass dieses Verfahren den größten gemeinsamen Teiler liefert, schreiben wir einige Schritte hin a = q1 b + r2 0 < r2 < b (5.7) b = q2 r2 + r3 0 < r3 < r2 (5.8) r2 = q3 r3 + r4 .. . 0 < r4 < r3 .. . (5.9) rn−3 = qn−2 rn−2 + rn−1 0 < rn−1 < rn−2 (5.10) rn−2 = qn−1 rn−1 + rn 0 < rn < rn−1 (5.11) rn−1 = qn rn + 0 (5.12) Wenn d|a und d|b, dann gilt d|r2 , denn aus a = d · ca und d · cb folgt aus Zeile (5.7), dass d · (ca − q1 cb ) = r2 gilt. Da wir nun wissen, dass d|r2 und d|b folgt aus Zeile (5.8), dass auch d|r3 gilt. Auf diese Weise können wir sukzessive zeigen, dass d|rn . Also ist jeder Teiler von a und b auch ein Teiler von rn . Umgekehrt folgt aus Zeile (5.12), dass jeder Teiler von rn auch ein Teiler von rn−1 ist. Aus Zeile (5.11) folgt, dass Teiler von rn und rn−1 auch rn−2 teilen, etc. Letztendlich teilt also rn auch a und b. 57 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN Satz 5.2.9 Seien a, b ∈ Z und d = ggT(a, b). Dann gibt es Zahlen x, y ∈ Z für die gilt: ax + by = d. Beweis. Der Beweis dieser Aussage erfolgt mithilfe des sogenannten erweiterten euklidischen Algorithmus. Wir verwenden dafür die Gleichungen (5.7)-(5.12) des euklidischen Algorithmus und setzen diese ineinander ein. Da d = rn ist erhalten wir aus Zeile (5.11) d = rn = rn−2 − qn−1 rn−1 . In dieser Gleichung können rn−1 durch Zeile (5.10) ersetzen und erhalten d = rn = rn−2 − qn−1 rn−1 = rn−2 − qn−1 (rn−3 − qn−2 rn−2 ), usw. Durch sukkessives Einsetzen aller Gleichungen bis hin zu Zeile (5.7) erhalten wir einen Ausdruck in a und b. Beispiel 5.2.10 Wir wollen den größten gemeinsamen Teiler der Zahlen a = 299 und b = 104 bestimmen. Dafür rechnen wir 299 = 2 · 104 + 91 104 = 1 · 91 + 13 91 = 7 · 13 + 0 Somit ist also ggT(299, 104) = 13. Zur Bestimmung der Zahlen x und y aus Satz 5.2.9 beginnen wir mit der vorletzten Zeile und ersetzen im nächsten Schritt 91 durch die erste Zeile: 13 = 104 − 91 = 104 − (299 − 2 · 104) = 3 · 104 + (−1) · 299 Wichtig beim Berechnen der Zahlen x und y ist, dass immer nur die Ausdrücke vor den Zahlen rk zusammengefasst werden dürfen. Satz 5.2.11 Sei a ∈ N und b ∈ N mit b > 1. Dann hat a eine eindeutige Darstellung der Form n X a= ai bi ai ∈ {0, 1, . . . , b − 1}. (5.13) i=0 Beweis. Wir zeigen diese Aussage mithilfe vollständiger Induktion für alle a < bn+1 . Induktionsanfang: Sei n = 0. Wir müssen die Aussage also für alle a < b zeigen. In diesem Fall ist a0 = a und ai = 0 für alle i > 0. Diese Darstellung ist nach Satz 5.2.7 eindeutig. Induktionsschritt: Wir nehmen an für alle Zahlen a < bn können wir zeigen, dass es eine Darstellung der Form (5.13) gibt. Wir müssen zeigen, dass es dann diese Darstellung auch für alle Zahlen a < bn+1 gibt. Um dies zu sehen teilen wir a durch b mit Rest, d. h. a = qb + r, dabei ist 0 ≤ r < b und q < bn . Denn wäre q ≥ bn , dann wäre a = qb+r ≥ qb ≥ bn b = bn+1 im Widerspruch zur Annahme. Nach Induktionsvoraussetzung 58 KAPITEL 5. ZAHLENMENGEN 5.2. DIE GANZEN ZAHLEN P i hat q eine eindeutig bestimmte Darstellung der Form (5.13) q = n−1 i=0 qi b . Durch Einsetzen erhalten wir nun n−1 n X X a = qb + r = ( qi bi )b + r = ai bi i=0 i=0 wobei a0 = r und ai+1 = qi . Definition 5.2.12 Sei a ∈ N und b ∈ N mit b > 1. Die b-adische Darstellung von a ist durch a = (an an−1 . . . a1 a0 )b gegeben, wobei die ai durch Gleichung (5.13) definiert sind. Für b = 10 erhalten wir die übliche Dezimaldarstellung von Zahlen. Für b = 2 heißt a = (an an−1 . . . a1 a0 )2 mit ai ∈ {0, 1} Binärdarstellung. Für b = 16 heißt a = (an an−1 . . . a1 a0 )16 mit ai ∈ {0, 1, . . . , 9, A, B, C, D, E, F } Hexadezimaldarstellung. Beispiel 5.2.13 Wir wollen die Zahl 23 (in Dezimaldarstellung) als Binärzahl schreiben. Dafür zerlegen wir 23 in Zweierpotenzen 23 = 16 + 4 + 2 + 1 = 1 · 24 + 0 · 23 + 1 · 22 + 1 · 21 + 1 · 20 und somit hat (23)10 die Binärdarstellung (10111)2 . Alternativ erhalten wir diese Darstellung indem wir wie im Beweis zu Satz 5.2.11 vorgehen. 23 =11 · 2 + 1 = 11 · 2 + a0 11 =5 · 2 + 1 = 5 · 2 + a1 5 =2 · 2 + 1 = 2 · 2 + a2 2 =1 · 2 + 0 = 1 · 2 + a3 1 =0 · 2 + 1 = 0 · 2 + a4 Wir erhalten wenn wir die Reste von unten nach oben lesen wiederum die Binärdarstellung (a4 a3 a2 a1 a0 )2 = (10111)2 . Um die Hexadezimaldarstellung zu berechnen gehen wir analog vor, nur dass wir jetzt die Zahl als Summe von 16er Potenzen schreiben, bzw. eine Division mit Rest durch 16 durchführen. 975 = 3 · 256 + 12 · 16 + 15 = 3 · 162 + 12 · 161 + 15 · 160 und somit erhalten wir die Hexadezimaldarstellung (975)10 = (3CF )16 . Wir haben dabei die Symbole A = 10, B = 11, C = 12, D = 13, E = 14, F = 15 verwendet. Wir erhalten dasselbe Ergebnis wenn wir rechnen 975 = 60 · 16 + 15 = 60 · 16 + F 60 = 3 · 16 + 12 = 3 · 16 + C 3 = 0 · 16 + 3 = 0 · 16 + 3 59 KAPITEL 5. ZAHLENMENGEN 5.3. DIE RATIONALEN ZAHLEN 5.3. Die rationalen Zahlen Da in Z keine Inversen bezüglich der Multiplikation enhalten sind, lassen sich nicht alle Gleichungen der Form a · x = b, mit gegebenen a, b ∈ Z lösen. Um dieses Problem zu beheben definieren wir die rationalen Zahlen. Definition 5.3.1 Auf der Menge Z × Z\{0} definieren wir eine Relation durch (p, q) ∼ (p0 , q 0 ) pq 0 = p0 q. ⇔ Proposition 5.3.2 Die Relation ∼ auf der Menge Z × Z\{0} ist eine Äquivalenzrelation. Beweis. Die Relation ist reflexiv: es gilt pq = pq und somit ist (p, q) ∼ (p, q) symmetrisch: es gilt pq 0 = p0 q = pq 0 und somit gilt (p, q) ∼ (p0 , q 0 ) genau dann wenn (p0 , q 0 ) ∼ (p, q). transitiv: Wenn (p, q) ∼ (p0 , q 0 ) und (p0 , q 0 ) ∼ (p00 , q 00 ) gilt, dann bedeutes dies pq 0 = p0 q und p0 q 00 = p00 q 0 . Durch Multiplikation dieser Gleichungen mit q 00 , bzw q erhalten wir pq 0 q 00 = p0 qq 00 p0 q 00 q = p00 q 0 q pq 0 q 00 = p00 q 0 q ⇒ ⇒ pq 00 = p00 q Und daher ist (p, q) ∼ (p00 , q 00 ). Im letzten Schritt verwenden wir, dass q 6= 0 und dass der Ring der ganzen Zahlen nullteilerfrei ist. Definition 5.3.3 Die Menge der Äquivalenzklassen der Relation ∼ auf der Menge Z × Z\{0} heißt Menge der rationalen Zahlen Q := Z × Z\{0}/∼ = {[(p, q)] | p, q ∈ Z, q 6= 0}. Wir schreiben p q für die Äquivalenzklasse [(p, q)]. Wir wollen hier erklären, warum es notwendig ist die rationalen Zahlen mithilfe der Äquivalenzrelation zu erklären. Auf dem ersten Blick könnte man die rationalen Zahlen als geordnetes Paar von ganzen Zahlen (Zähler, Nenner) definieren, wobei der Nenner nicht null werden darf. Allerdings ist das geordnete Paar (1, 2) ungleich dem geordneten Paar (2, 4). Als Bruch hingegen sind diese beiden Elemente gleich 12 = 24 , da man den zweiten Bruch kürzen kann und so den ersten erhält. Genau diese Eigenschaft der rationalen Zahlen, dass man durch Kürzen oder Erweitern dieselbe Zahl erhält, steckt nun in der Äquivalenzrelation. Denn sind zwei Brüche gleich, dann erhalten wir durch Multiplikation mit beiden Nennern p p0 = 0 q q ⇒ pq 0 = p0 q 60 KAPITEL 5. ZAHLENMENGEN 5.3. DIE RATIONALEN ZAHLEN also die Äquivalenzrelation. In der Äquivalenzklasse eines Bruches pq liegen also alle Brüche, die man durch Kürzen oder Erweitern aus pq erhält. Jedes Element der Äquivalenzklasse ist dann eine andere Darstellung desselben Elements aus Q. Definition 5.3.4 Wir definieren auf der Menge Q zwei Verknüpfungen +:Q×Q→Q p1 p2 p1 p2 p q + p 2 q1 := 1 2 ( , ) 7→ + q1 q2 q1 q2 q1 q2 und eine Relation ·:Q×Q→Q p1 p2 p1 p2 p p := 1 2 ( , ) 7→ · q1 q2 q1 q2 q1 q2 p1 p2 ≤ ⇔ p1 q2 ≤ p2 q1 . q1 q2 Satz 5.3.5 (Q, +, ·) ist ein Körper mit einer Totalordnung ≤. Beweis. Wir zeigen zunächst die Wohldefiniertheit der Verknüpfungen. Der Begriff Wohldefiniertheit bedeutet für Verknüpfungen, die auf Äquivalenzklassen definiert sind, insbesondere, dass es egal ist, welchen Repräsentanten der Äquivalenzklasse man wählt. Seien also (p1 , q1 ) ∼ (p01 , q10 ) zwei Repräsentanten desselben Bruches, sowie (p2 , q2 ) ∼ (p02 , q20 ). Somit gilt p1 q10 = p01 q1 (5.14) p2 q20 (5.15) = p02 q2 Wir wollen zeigen, dass nun auch (p1 , q1 )+(p2 , q2 ) ∼ (p01 , q10 )+(p02 , q20 ) und (p1 , q1 )·(p2 , q2 ) ∼ (p01 , q10 ) · (p02 , q20 ). Um die Wohldefiniertheit der Addition zu zeigen, addieren wir die Gleichungen (5.14) und (5.15) und erhalten p1 q10 + p2 q20 = p01 q1 + p02 q2 ⇒ (p1 , q1 ) + (p2 , q2 ) = (p1 + p2 , q1 + q2 ) ∼ (p01 + p02 , q10 + q20 ) = (p01 , q10 ) + (p02 , q20 ) Für die Wohldefiniertheit der Multiplikation multiplizieren wir Gleichung (5.14) mit q2 q20 und Gleichung (5.14) mit q1 q10 und addieren diese (p1 q10 )(q2 q20 ) = (p01 q1 )(q2 q20 ) und (p2 q20 )(q1 q10 ) = (p02 q2 )(q1 q10 ) ⇒ p1 q10 q2 q20 + p2 q20 q1 q10 = p01 q1 q2 q20 + p02 q2 q1 q10 ⇒ (p1 q2 + p2 q1 )q10 q20 = (p01 q20 + p02 q10 )q1 q2 Die letzte Zeile bedeutet aber genau, dass gilt (p1 , q1 ) · (p2 , q2 ) = (p1 q2 + p2 q1 , q1 q2 ) ∼ (p01 q20 + p02 q10 , q10 q20 ) = (p01 , q10 ) · (p02 , q20 ). Nun bleibt zu zeigen, dass (Q, +, ·) ein Körper ist. (Q, +) ist eine abelsche Gruppe: 61 KAPITEL 5. ZAHLENMENGEN • 0 1 • −p q 5.4. DIE REELLEN ZAHLEN ist das neutrale Element, da ist das zu p q p q + 0 1 inverse Element, da = p q p·1+0·q q·1 + −p q = = p q gilt. pq+(−p)q qq = 0 qq = 01 . • Das Kommutativgesetz und das Assoziativgesetz folgt direkt aus den entsprechenden Gesetzen in Z. (Q\{ 10 }, ·) ist eine abelsche Gruppe: • • 1 1 q p ist das neutrale Element, da ist das zu p q inverse Element, p q p·1 p 1 1 = q·1 = q gilt. 1 da pq · pq = pq qp = 1 . · • Das Kommutativgesetz und das Assoziativgesetz folgt direkt aus den entsprechenden Gesetzen in Z. Das Distributivgesetz folgt direkt aus dem entsprechenden Gesetz in Z. Satz 5.3.6 Q ist abzählbar. Beweis. Wir verwenden folgende Schreibweise für die rationalen Zahlen (wir schreiben ein mögliches Minuszeichen immer in den Nenner): na o Q= | a ∈ Z und b ∈ N>0 . b Um die Bijektion zu konstruieren legen wir folgendes Schema zugrunde: . . . −3 −2 −1 0 1 2 3 ... 1 ... −3 1 −2 1 −1 1 0 1 1 1 2 1 3 1 ... 2 ... −3 2 −2 2 −1 2 0 2 1 2 2 2 3 2 ... 3 ... . .. −3 3 −2 3 −1 3 0 3 1 3 2 3 3 3 .. . .. . .. . .. . .. . .. . .. . ... .. . In der oberen Zeile stehen die Werte des Zählers und in der linken Spalte die des Nenners. Der Eintrag in der m-ten Spalte (die nullte ist die mittlere) und der n-ten Zeile ist m n . So sind alle Elemente von Q enthalten. Weil jeder Bruch unendlich viele Darstellungen besitzt und jede dieser Darstellungen in dieser Tabelle vorkommt, ist sogar jedes Element von Q unendlich oft enthalten. Die Forderung, dass die Abbildung bijektiv ist, jedes Element also nur einmal getroffen wird, muss besonders berücksichtigt werden. Die Abbildung verläuft im Halbkreiszickzack von 0 nach außen: f : N −→ Q, 0 7→ 0, 1 7→ −1 −1 1 1 2 2 1 , 2 7→ , 3 7→ , 4 7→ , 5 7→ , 6 7→ , 7 7→ 1 2 2 1 1 3 3 Eigentlich hätte man 6 7→ 22 abbilden müssen, aber da da er bereits getroffen wurde. 2 2 = 1 1 wird dieser Wert ausgelassen, 5.4. Die reellen Zahlen Auch in den rationalen Zahlen ist es nicht möglich alle Gleichungen zu lösen. So hat die Gleichung x2 = 2 keine Lösung x ∈ Q. Auch Zahlen wie e und π sind nicht rational. 62 KAPITEL 5. ZAHLENMENGEN 5.5. DIE KOMPLEXEN ZAHLEN Zur Definition der reellen Zahlen benötigen wir Begriffe wir Folgen Grenzwerte und Vollständigkeit, mit denen wir uns im nächsten Semester genauer beschäftigen werden. Satz 5.4.1 Die Menge der reellen Zahlen R sind ein vollständiger archimedisch angeordneter Körper. Satz 5.4.2 R ist nicht abzählbar. Die Beweise zu beiden Sätzen verschieben wir in die Vorlesung IMI2. 5.5. Die komplexen Zahlen Auch in den reellen Zahlen gibt es immer noch Gleichungen, die keine Lösung besitzen. Die Gleichung z 2 = −1 ist durch kein z ∈ R lösbar. Unser Ziel besteht jetzt also darin eine Zahlenmenge zu konstruieren, in der diese Gleichung eine Lösung hat und die immer noch ein Körper ist. Dafür betrachten wir die Menge R2 und wollen sie mit einer geeigneten Addition und Multiplikation versehen. Definition 5.5.1 Die komplexen Zahlen C sind die Menge R2 = {(x, y) | x, y ∈ R} mit den Verknüpfungen +:C×C→C (x1 , y1 ), (x2 , y2 ) 7→ (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) ·:C×C→C (x1 , y1 ), (x2 , y2 ) 7→ (x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) (5.16) (5.17) Satz 5.5.2 (C, +, ·) ist ein Körper Beweis. Wir müssen beweisen, dass (C, +) und (C\{(0, 0)}, ·) abelsche Gruppen sind und dass das Distributivgesetz gilt. (C, +) ist abelsche Gruppe • (0, 0) ist das neutrale Element, da (x, y) + (0, 0) = (x + 0, y + 0) = (x, y) gilt. Wir verwenden hier die Tatsache, dass x, y ∈ R und 0 das neutrale Element der Addition in R ist. • Das zu (x, y) inverse Element ist −(x, y) = (−x, −y), denn (x, y) + (−x, −y) = (x − x, y − y) = (0, 0), wobei wir benutzen, dass −x das zu x inverse Element in R ist. 63 KAPITEL 5. ZAHLENMENGEN 5.5. DIE KOMPLEXEN ZAHLEN • Assoziativgesetz: (x, y) + (x0 , y 0 ) + (x00 , y 00 ) = x + x0 , y + y 0 + (x00 , y 00 ) = (x + x0 ) + x00 , (y + y 0 ) + y 00 = x + (x0 + x00 ), y + (y 0 + y 00 ) = (x, y) + x0 + x00 , y 0 + y 00 = (x, y) + (x0 , y 0 ) + (x00 , y 00 ) Auch in diesem Beweis verwenden wir die Eigenschaften reeller Zahlen, konkret das Assoziativgesetz. • Kommutativgesetz: Kann analog zum Assoziativgesetz gezeigt werden, indem man es auf das Kommutativgesetz in R zurückführt. (C\{(0, 0)}, ·) ist abelsche Gruppe • (1, 0) ist das neutrale Element, da (x, y) · (1, 0) = (x · 1 + y · 0, x · 0 + y · 1) = (x, y) gilt. Wir verwenden hier die Tatsache, dass x, y ∈ R und 1 das neutrale Element der Multiplikation in R ist. −y x • Das zu (x, y) inverse Element ist (x, y)−1 = x2 +y , 2 x2 +y 2 , denn es gilt x −y , 2 2 2 x + y x + y2 · (x, y) = x · x − (−y · y) xy − yx , 2 x2 + y 2 x + y2 = (1, 0) • Das Assoziativgesetz und das Kommutativgesetz können analog wie die entsprechenden Gesetze der Addition gezeigt werden, indem man sie auf die Gesetze in R zurückführt. Distributivgesetz Auch das Distributivgesetz kann gezeigt werden, indem man es auf das Distributivgesetz in R zurückführt. Für die Existenz eines inversen Elements der Multiplikation zu zeigen, haben wir benutzt, dass für (x, y) 6= (0, 0) gilt x2 + y 2 6= 0. Dies gilt in R aufgrund der Ordnungsstruktur. Um eine einfachere Darstellung von komplexen Zahlen zu erhalten, die es ermöglicht sich die Regel für die Multiplikation zu merken, setzen wir i := (0, 1). Man bezeichnet i als die imaginäre Einheit. Es gilt dann (x, y) = (x + 0, 0 + y) = (x, 0) + (0, y) = (x, 0) + (0, 1) · (y, 0) = x + iy, wobei wir die Teilmenge R × {0} = {(x, 0) | x ∈ R} ( C mit R identifizieren und x statt (x, 0) schreiben. Wir stellen fest, dass das Element i ∈ C eine bemerkenswerte Eigenschaft hat i2 = i · i = (0, 1) · (0, 1) = (0 − 1, 0) = −1. 64 KAPITEL 5. ZAHLENMENGEN 5.5. DIE KOMPLEXEN ZAHLEN Mithilfe dieser Information können wir uns die Multiplikation in C leichter merken, denn durch Ausmultiplizieren der Klammern erhalten wir: (x1 + iy1 )(x2 + iy2 ) = x1 x2 + x1 iy2 + iy1 x2 + iy1 iy2 = x1 x2 + ix1 y2 + ix2 y1 + i2 y1 y2 = x1 x2 + ix1 y2 + ix2 y1 − y1 y2 = (x1 x2 − y1 y2 ) + i(x1 y2 + x2 y1 ) Die Eigenschaft der Zahl i im Quadrat minus eins zu ergeben liefert uns auch die Lösung der anfangs gestellten Gleichung z 2 = −1. Wir sehen, dass die Zahl z = i eine Lösung dieser Gleichung ist. Satz 5.5.3 (Fundamentalsatz der Algebra) Jedes Polynom P (X) = X n + a1 X n−1 + . . . + an−1 X + a0 n ∈ N, n ≥ 1, ai ∈ C besitzt eine komplexe Nullstelle z ∈ C, das heißt P (z) = 0. Beweis. Der Beweis dieses Satzes geht weit über diese Vorlesung hinaus und wird üblicherweise in einer Vorlesung “Funktionentheorie” behandelt. Aus dem Fundamentalsatz folgt nun, dass jedes Polynom n-ten Grades n (nicht zwangsläufig verschiedene) Nullstellen hat. Denn hat P (X) die Nullstelle z ∈ C, dann können wir P (X) = (X − z)Q(X) schreiben, wobei Q ein Polynom vom Grad n − 1 ist. Durch erneutes Anwenden des Fundamentalsatzes auf Q sehen wir, dass P eine weitere Nullstelle hat, usw. bis P vollständig in Linearfaktoren zerfällt. Die Gleichung z 2 = a mit a ∈ R die Lösungen ( √ wenn a ≥ 0, ± a p z1/2 = ±i |a| wenn a < 0. Definition 5.5.4 Sei z := x + iy ∈ C. Dann heißt Re(z) := x ∈ R der Realteil und Im(z) := y ∈ R der Imaginärteil der komplexen Zahl z. Den Betrag einer komplexen Zahl z ∈ C ist analog zur euklidischen Länge im R2 definiert durch p |z| := Re(z)2 + Im(z)2 . Desweiteren definieren wir die zu z = x + iy konjugiert komplexe Zahl durch z := x − iy = Re(z) − iIm(z). Es gilt dann Re(z) = Re(z) aber Im(z) = −Im(z). 65 KAPITEL 5. ZAHLENMENGEN 5.5. DIE KOMPLEXEN ZAHLEN Satz 5.5.5 Die komplexe Konjugation C 3 z 7→ z ist ein Körperautomorphismus, d.h. C wird durch die Konjugation bijektiv auf sich selbst abgebildet und es gilt z+w =z+w und z·w =z·w für alle z, w ∈ C. Ferner besteht für z = x + iy der folgende Zusammenhang zum Betrag: √ zz = Re(z)2 + Im(z)2 = x2 + y 2 also |z| = zz . Außerdem können wir zu z 6= 0 das Inverse mithilfe des komplex konjugierten angeben z z −1 = z1 = zz und sehen so, dass gilt: Re(z −1 ) = Re(z) x = 2 zz x + y2 und Im(z −1 ) = Im(z) −y = 2 . zz x + y2 Beweis. Sei z = x1 + iy1 und w = x2 + iy2 , dann rechnen wir nach, dass für die Addition gilt: z + w = (x1 + iy1 ) + (x2 + iy2 ) = (x1 + x2 ) + i(y1 + y2 ) = (x1 + x2 ) − i(y1 + y2 ) = (x1 − iy1 ) + (x2 − iy2 ) =z+w Und ebenso für die Multiplikation: z · w = (x1 + iy1 ) · (x2 + iy2 ) = (x1 x2 − y1 y2 ) + i(x1 y2 + x2 y1 ) = (x1 x2 − y1 y2 ) − i(x1 y2 + x2 y1 ) = (x1 − iy1 ) · (x2 − iy2 ) =z·w Für z = x + iy rechnen wir mithilfe der 3. binomischen Formel nach, dass gilt: zz = (x + iy)(x − iy) = x2 − i2 y = x2 + y 2 . Beispiel 5.5.6 Sei z = 2+2i, dann ist konjugierte Zahl p √ z = 2−2i √die komplex √ zu z durch gegeben. Der Betrag von z ist |z| = zz = (2 + 2i)(2 − 2i) = 4 + 4 = 8. und die 1 2−2i 1 1 zu z inverse komplexe Zahl ist z −1 = 2+2i = (2+2i)(2−2i) = 2−2i 8 = 4 − 4 i. Bemerkung 5.5.7 Da die komplexe Zahlen als Menge dasselbe sind wie R2 ist es möglich komplexe Zahlen als Punkte, bzw Vektoren in der sogenannten komplexe Zahlenebene zu betrachten. 66 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Im(z) 6 3 z = 3 + 2i 3 2 1 -2 Q Q -1 1 2 3 Re(z) Q -1 Q Q Q Q Q Q Q -2 Q s z = 3 − 2i Q 5.6. Restklassenringe Alle bisher betrachteten Zahlenmengen haben unendlich viele Elemente. Gerade aber in der Informatik ist es wichtig auch in endlichen Mengen, insbesondere der Menge {0, 1} rechnen zu können. Aus diesem Grund konstruieren wir hier die sogenannten Restklassenringe, in denen man “im wesentlichen” wie in den ganzen Zahlen rechnet, die aber nur endlich viele Elemente besitzen. Definition 5.6.1 Sei m ∈ N, m ≥ 2, dann definieren wir eine Relation a ≡ b mod m auf Z durch: a ≡ b mod m : ⇔ m|(a − b). Zwei Zahlen sind äquivalent zueinander, wenn ihre Differenz durch m teilbar ist. Proposition 5.6.2 Die Relation ≡ mod m ist eine Äquivalenzrelation auf Z. Beweis. Die Relation ist reflexiv: a ≡ a mod m, da m|a − a = 0. Die null wird von jeder Zahl geteilt, da es laut Definition der Teilbarkeit immer ein Element c ∈ Z gibt, so dass m · c = 0. Dies ist richtig für c = 0. symmetrisch: Wenn m den Ausdruck a − b teilt, dann teilt m auch b − a und somit gilt a ≡ b mod m genau dann, wenn b ≡ a mod m. 67 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE transitiv: Wenn a ≡ b mod m und b ≡ c mod m, dann gibt es Element d1 , d2 ∈ Z, so dass m · c1 = a − b und m · c2 = b − c. Addition dieser zwei Gleichungen ergibt m · c1 + m · c2 = m · (c1 + c2 ) = (a − b) + (b − c) = a − c, woraus folgt, dass auch a ≡ c mod m gilt. Definition 5.6.3 Die Menge der Äquivalenzklassen bezüglich der Äquivalenzrelation a ≡ b mod m wird mit Z/mZ bezeichnet und heißt Restklassenring. Z/mZ := Z/≡ = {[a] | a ∈ Z}. Wir definieren auf dieser Menge zwei Verknüpfungen durch: + : Z/mZ × Z/mZ → Z/mZ 0 · : Z/mZ × Z/mZ → Z/mZ 0 0 ([a], [a ]) 7→ [a] + [a ] := [a + a ] ([a], [a0 ]) 7→ [a] · [a0 ] := [a · a0 ] Bevor wir die Eigenschaften der Restklassenringe genauer unter die Lupe nehmen (indem wir zum Beispiel zeigen werden, dass sie wirklich Ringe sind) wollen wir besser verstehen, welche Elemente sich in einer Äquivalenzklasse, die wir in diesem Kontext auch Restklasse nennen, befinden. Wir betrachten zunächst die Äquivalenzklasse der null [0] = {a ∈ Z | a ≡ 0 mod m} = {a ∈ Z | m|(a − 0)}. Da nun m genau dann a teilt, wenn a ein Vielfaches von m ist erhalten wir [0] = {0, m, 2m, −m, −2m, . . .} = mZ = {a ∈ Z | ∃b ∈ Z : a = mb}. Und daraus folgt auch, dass [0] = [m] = [2m] = . . . . Sei jetzt a ∈ Z eine beliebige Zahl, dann können wir a mit Rest durch m teilen und erhalten a = qm + r, wobei 0 ≤ r < m. Daraus folgt, dass a − r = qm gilt, woraus wiederum per Definition der Teilbarkeit folgt, dass m|(a − r) und somit a ≡ r mod m. Jede Zahl ist also äquivalent zu ihrem Rest bei Division durch m. In der Äquivalenzklasse von a sind daher alle Elemente b ∈ Z, die bei Division durch m den gleichen Rest wie a lassen. Sei 0 ≤ a < m, dann gilt [a] = {a, m + a, 2m + a, −m + a, −2m + a, . . .} = {b ∈ Z | ∃c ∈ Z : b = mc + a}. Aus diesen Überlegungen folgt, dass sich in jeder Äquivalenzklasse ein Element der Menge {0, 1, 2, . . . , m − 1} befindet und wir dadurch wissen, dass wir schreiben können: Z/mZ = {[0], [1], [2], . . . , [m − 1]} Wir nennen die Menge {0, 1, 2, . . . , m − 1} ( Z eine mögliche Menge von Repräsentanten für die Restklassen, da jedes Element genau eine Restklasse repräsentiert. Dies erklärt auch den Namen “Restklassenring”. Jedes Element in Z/mZ kann als Rest bei Division durch m aufgefasst werden. 68 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Dies ist eine mögliche Darstellung. Da [0] = [m] können wir alternativ auch schreiben: Z/mZ = {[1], [2], . . . , [m − 1], [m]}. Die Menge {1, 2, . . . , m − 1, m} ist also auch eine Menge von möglichen Repräsentanten. Satz 5.6.4 (Z/mZ, +, ·) ist ein kommutativer Ring mit Eins. Die Abbildung π : Z → Z/mZ a 7→ [a] ist ein surjektiver Ringhomomorphismus mit Kern(π) = mZ. Beweis. Wir müssen zunächst die Wohldefiniertheit der beiden Verknüpfungen zeigen. Das bedeutet, dass das Ergebnis der Addition und Multiplikation unanhängig von den Repräsentanten sein muss, die gewählt wurden um sie zu berechnen. Dafür seien a und b zueinander kongruente Zahlen, ebenso wie a0 und b0 , d. h. a ≡ b mod m 0 0 a ≡b mod m ⇔ ⇔ ∃c sodass m · c = a − b 0 0 0 (5.18) 0 ∃c sodass m · c = a − b (5.19) Für die Wohldefiniertheit der Addition addieren wir die Gleichungen (5.18) und (5.19) und erhalten m · (c + c0 ) = (a − b) + (a0 − b0 ) = (a + a0 ) − (b + b0 ) ⇒ a + a0 ≡ b + b0 mod m. Anders ausgedrückt, wenn für die Äquivalenzklassen gilt: [a] = [b] und [a0 ] = [b0 ], dann gilt auch [a + a0 ] = [b + b0 ] Für die Wohldefiniertheit der Multiplikation berechnen wir unter Verwendung von (5.18) und (5.19) (a − b) · (a0 − b0 ) = (aa0 − ab0 − ba0 + bb0 ) + bb0 − bb0 = aa0 + b0 (b − a) + b(b0 − a0 ) − bb0 = aa0 − bb0 + mcb0 + mc0 b und somit ist (wieder unter Verwendung von (5.18) und (5.19) ) aa0 − bb0 = (a − b)(a0 − b0 ) − (mcb0 + mc0 b) = mcmc0 − (mcb0 + mc0 b) = m(cmc0 − cb0 − c0 b), das heißt m teilt aa0 −bb0 . Anders ausgedrückt, wenn für die Äquivalenzklassen gilt: [a] = [b] und [a0 ] = [b0 ], dann gilt auch [aa0 ] = [bb0 ]. (Z/mZ, +, ·) ist ein kommutativer Ring mit Eins: • [0] = [m] ist das neutrale Element der Addition, da [a] + [0] = [a + 0] = [a] • [m − a] ist das zu [a] inverse Element, denn [a] + [m − a] = [a + m − a] = [m] = [0]. • [1] ist das neutrale Element der Multiplikation, da [a] · [1] = [a · 1] = [a]. 69 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE • Assoziativgesetze, Kommutativgesetze, sowie das Distributivgesetz übertragen sich direkt aus den entsprechenden Gesetzen in Z. Die Abbildung π : Z → Z/mZ, a 7→ [a] ist ein Ringhomomorphismus aufgrund von π(a+a0 ) = [a+a0 ] = [a]+[a0 ] = π(a)+π(a0 ) und π(a·a0 ) = [a·a0 ] = [a]·[a0 ] = π(a)·π(a0 ). Der Kern dieser Abbildung sind alle Elemente a ∈ Z, die auf [0] abgebildet werden. Da aber die Restklasse der null genau alle durch m teilbaren Elemente enthält, gilt Kern(π) = mZ = {a ∈ Z | a = m · c für ein c ∈ Z}. Die Surjektivität folgt direkt aus der Definition. Wir sind es in unserem Alltag gewohnt mit Restklassen zu rechnen ohne es wirklich zu bemerken. Das passiert immer dann, wenn wir mit Zeitangaben wie Wochentagen oder Uhrzeiten hantieren. Die Menge Z/7Z kann mit der Menge der Wochentage Montag, Dienstag, usw. identifiziert werden. Der Montag entspricht dann der [1], der Dienstag der [2], usw. Wenn wir wissen wollen, welcher Wochentag 10 Tage nach einem Dienstag ist, dann müssen wir also nur rechnen ”Dienstag+10 Tage” = [2] + [10] = [12] = [5 + 7] = [5] = ”Freitag”. Ebenso ist jeden klar, dass ein Student, der sagt er habe ab 22 Uhr 9 Stunden lang gezockt, dass dieser Student bis 7 Uhr morgens gezockt hat. Hier lautet die Rechnung: ”22 Uhr+9 Stunden” = [22] + [9] = [31] = [24 + 7] = [7] = ”7 Uhr”. Für Uhrzeiten rechnen wir also in Z/24Z oder Z/12Z. Beispiel 5.6.5 Eine einfache Methode Nachrichten zu verschlüsseln, ist der sogenannte Caesarchiffre. Dabei wir zur Verschlüsselung zum Beispiel jeder Buchstabe des Alphabets, durch den Buchstaben ersetzt, der 2 Stellen weiter im Alphabet steht. Wenn wir Z/26Z mit den Buchstaben { A,B,...,Y,Z} identizieren, dann entspricht der Caesarchiffre einer Abbildung Caesar : Z/26Z → Z/26Z [a] 7→ [a + 2] A = [1] 7→ [3] = A B = [2] 7→ [4] = B .. .. . . Y = [25] 7→ [27] = [1] = A Z = [26] 7→ [28] = [2] = B Jetzt wollen wir die Gruppe der Einheiten (s. Def. 4.3.10) im Restklassenring bestimmen um zu sehen, ob und unter welchen Bedingungen Z/mZ sogar ein Körper ist. Proposition 5.6.6 Die Einheiten in Z/mZ sind Restklassen von Zahlen, die teilerfremd zu m sind Z/mZ× = {[a] ∈ Z/mZ | ggT(a, m) = 1}. 70 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Beweis. Wenn ggT(a, m) = 1, dann gibt es aufgrund des erweiterten euklidischen Algorithmus (s. Satz 5.2.9) Zahlen x, y ∈ Z so dass xa + ym = 1 gilt. Bilden wir nun die Restklassen modulo m, dann erhalten wir [1] = [xa + ym] = [xa] + [ym] = [xa] + [0] = [xa] = [x] · [a]. Also ist [x] das zu [a] inverse Element. Satz 5.6.7 Sei p eine Primzahl, dann ist Z/pZ ein Körper, der mit Fp bezeichnet wird. Beweis. Die Menge Fp besteht aus den Restklassen {[0], [1], [2], . . . , [p − 1]}. Da p eine Primzahl ist, gilt für Zahlen a ∈ Z mit 1 ≤ a ≤ p − 1, dass sie zu p teilerfremd sind, das heißt ggT(a, p) = 1. Also sind alle Elemente aus Fp außer null eine Einheit und daher invertierbar. Also ist Fp ein Körper. Beispiel 5.6.8 Für Mengen mit wenigen Elementen ist es oft praktisch die Verknüpfung durch eine Verknüpfungstafel anzugeben. Wir betrachten hier die Multiplikation in F5 = Z/5Z, sowie in Z/4Z im Vergleich. Wir schreiben hier vereinfachend die Restklasse ohne die eckigen Klammern []. Z/5Z · 0 1 2 3 4 0 0 0 0 0 0 1 0 1 2 3 4 Z/4Z 2 0 2 4 1 3 3 0 3 1 4 2 4 0 4 3 2 1 · 0 1 2 3 0 0 0 0 0 1 0 1 2 3 2 0 2 0 2 3 0 3 2 1 In der Tafel für F5 befindet sich in jeder Zeile und in jeder Spalte eine 1. So können wir die jeweils zueinander inversen Elemente ablesen. In der Tafel für Z/4Z hingegen, stehen in Spalte und Zeile der 2 nur die Zahlen 0 und 2, somit hat 2 keine multiplikativ inverses Element in Z/4Z. Satz 5.6.9 (Chinesischer Restsatz) Seien n, m ∈ Z teilerfremd, dann gibt es einen bijektiven Ringhomomorphismus f : Z/(nm)Z → Z/nZ × Z/mZ 71 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Definition 5.6.10 Die Anzahl der Einheiten im Restklassenring Z/mZ wird mit ϕ(m) bezeichnet. Die definiert eine Abbildung ϕ:Z→N m 7→ ϕ(m) die sogenannte Eulersche Phi-Funktion. Proposition 5.6.11 Es gilt für ϕ(m) folgende Eigenschaften: • Sei p eine Primzahl, dann ist ϕ(p) = p − 1. • Seien m, n teilerfremde Zahlen, dann ist ϕ(nm) = ϕ(n)ϕ(m). Beweis. Die Zahl ϕ(p) gibt an wie viele Element aus Z/pZ Einheiten sind, also in Z/pZ× liegen. Da Fp = Z/pZ ein Körper ist, sind alle Element außer der Null invertierbar und somit eine Einheit. Also ist ϕ(p) = #Fp − 1 = p − 1. Wenn m, n teilerfremde Zahlen sind, dann ist nach dem chinesischem Restsatz Z/(nm)Z = Z/nZ × Z/mZ und somit gilt auch für die Einheiten Z/(nm)Z× = Z/nZ× × Z/mZ× . Daraus folgt, dass die Anzahl der Elemente in diesen Gruppen gilt ϕ(nm) = ϕ(n)ϕ(m). Aus dieser Proposition folgt insbesondere, dass ϕ(pq) = (p − 1)(q − 1) ist, wobei p, q Primzahlen sind. Satz 5.6.12 (Kleiner Fermatscher Satz) Sei a ∈ Z, so dass für die Restklasse [a] ∈ Z/mZ× ist, dann gilt: aϕ(m) ≡ 1 mod m. Beweis. Wir betrachten die Abbildung τa Z/mZ× → Z/mZ× [b] 7→ [ab] bei der jedes Element mit [a] multipliziert wird. Diese Abbildung ist bijektiv, da sie mit τa−1 eine Umkehrabbildung besitzt. Im nächsten Schritt wollen wir das Produkt aller Elemente [r] ∈ Z/mZ× betrachten. Da jedes Element im Bild der Abbildung τa liegt, können wir auch das Produkt aller Elemente [ar] ∈ Z/mZ× betrachten ohne, dass sich etwas ändert. Dadurch gilt Y Y Y [r] = [ar] = [a]ϕ(m) [r] (5.20) [r]∈Z/mZ× [r]∈Z/mZ× [r]∈Z/mZ× Im letzten Schritt haben wir aus jedem Faktor das [a] ausgeklammert. Da es genauso viele Faktoren gibt wie Elemente in Z/mZ× , muss [a] mit dieser Anzahl potenziert werden. 72 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Aber diese Anzahl Q ist genau ϕ(m). Wenn wir nun in Gleichung 5.20 beide Seiten mit dem Inversen von [r]∈Z/mZ× [r] ∈ Z/mZ× multiplizieren, dann erhalten wir [a]ϕ(m) = [1] ⇒ aϕ(m) ≡ 1 mod m. Satz 5.6.13 (Das RSA-Verfahren) 1. Wähle zwei große Primzahlen p, q. 2. Bestimme ihr Produkt N = pq. 3. Berechne ϕ(N ) = ϕ(p)ϕ(q) = (p − 1)(q − 1). 4. Wähle eine Zahl e ∈ Z für die gilt 0 < e < ϕ(N ) und ggT(e, ϕ(N )) 5. Berechne d ∈ Z, so dass gilt 0 < d < ϕ(N ) und d · e + k · ϕ(N ) = 1 (erweiterter euklidischer Algorithmus). Nun können wir ausgehend davon den öffentlichen und den privaten Schlüssel angeben: öffentlicher Schlüssel: (N, e) privater Schlüssel: (p, q, d) Will nun der Sender eine Nachricht m ∈ Z/N Z× verschlüsseln, dann berechnet er c ≡ me mod N mithilfe des öffentlichen Schlüssels. Der Empfänger kann dies nun entschlüsseln, indem er rechnet m ≡ cd mod N. Wir können nachrechnen, dass wir auf diese Art und Weise wirklich die ursprüngliche Nachricht erhalten, denn cd = (me )d = med = m1−kϕ(N ) = m · (mϕ(N ) )−k ≡ m mod N. Im letzten Schritt haben wir den kleinen Fermatschen Satz verwendet. Bemerkung 5.6.14 Die Berechnung von me mod N ist mit großen Rechenaufwand verbunden. Es ist bei realistischen Zahlen nicht möglich me ∈ Z zu rechnen und dann erst die Division mit Rest durchzuführen. Machbarer, aber immer noch mit zu großen Rechenaufwand ist es zuerst m · m zu berechnen und den Rest bei Division durch N zu bestimmen. Dann multipliziert man das Ergebnis wieder mit m und bestimmt erneut den Rest bei Division durch N . Auf diese Weise werden die Zahlen nicht zu groß, aber man muss e−1 Multiplikationen durchführen. Die Anzahl der Multiplikationen lassen sich erheblich reduzieren, indem man die 73 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Binärdarstellung des Exponenten verwendet. Sei dafür e = me = m(2 Pn i=0 ai 2 i, dann ist n +a n−1 +a n−2 +...+a 2+a ) n−1 2 n−2 2 1 0 n n−1 = m2 · m2 an−1 n−2 · m2 an−2 · . . . · m2 a1 · ma0 i Die Zahlen ai sind entweder 1 oder 0, daher besagt ai = 1, dass der Faktor m2 in dem Produkt vorkommt, wohingegen er nicht vorkommt, wenn ai = 0 ist. i Die Faktoren m2 mod N kann man durch sukzessives Quadrieren bestimmen. Zunächst quadrieren wir m und bestimmen den Rest bei Division durch N . Durch quadrieren von 2 m2 mod N erhalten wir (m2 )2 = m2·2 = m2 = m4 mod N . Es gilt immer i i i+1 (m2 )2 = m2 ·2 = m2 mod N. Beispiel 5.6.15 Wir wählen p = 5 und q = 11, somit ist N = 55 und ϕ(N ) = (5 − 1)(11 − 1) = 40. Wir wählen e = 9 eine zu ϕ(N ) teilerfremde Zahl. mithilfe des euklidischen Algorithmus berechnen wir 40 = 4 · 9 + 4 9 = 2 · 4 + 1. und somit gilt 1=9−2·4 = 9 − 2 · (40 − 4 · 9) = −2 · 40 + 9 · 9 Also ist d = 9 und wir überprüfen, dass 9 · 9 = 81 ≡ 1 mod 40. Die Nachricht muss nun eine Zahl 0 < m < N sein, die teilerfremd zu N ist. Unsere Nachricht sei m = 13. Die verschlüsselte Nachricht ist dann c ≡ me = 139 mod 55. Zur Berechnung dieses Werts gehen wir vor wie es in Bemerkung 5.6.14 beschrieben wurde. Wir bestimmen zuerst die Binärdarstellung des Exponenten: e = 9 = 8 + 1 = 23 + 20 . Nun berechnen wir die Zweierpotenzen von m: m ≡ 13 mod 55 m2 = 169 = 3 · 55 + 4 ≡ 4 4 2 2 2 m = (m ) = 4 ≡ 16 mod 55 mod 55 m8 = (m4 )2 = 162 = 256 = 4 · 55 + 36 ≡ 36 mod 55 74 KAPITEL 5. ZAHLENMENGEN 5.6. RESTKLASSENRINGE Am Ende müssen noch die Zweierpotenzen miteinander multipliziert werden, so wie es die Binärdarstellung des Exponenten vorschreibt: m9 = m8 · m ≡ 36 · 13 ≡ 468 = 8 · 55 + 28 ≡ 28 mod 55. Somit ist die verschlüsselte Nachricht c ≡ 28 mod 55. Zur Überprüfung wollen wir ausrechnen ob cd ≡ m mod 55. Dafür benötigen wir die Zweierpotenzen von c: c ≡ 28 mod 55 c2 = 784 = 14 · 55 + 14 ≡ 14 4 2 2 mod 55 2 c = (c ) = 14 ≡ 196 = 3 · 55 + 31 ≡ 31 c8 = (c4 )2 = 312 = 961 = 17 · 55 + 26 ≡ 26 mod 55 mod 55 Da die Binärdarstellung des Exponenten d = 9 = 8 + 1 ist, müssen wir berechnen: c9 = c8 · c ≡ 26 · 28 ≡ 728 = 13 · 55 + 13 ≡ 13 mod 55. woraus folgt, dass m ≡ 13 mod 55, wie wir erwartet haben. 75 Teil II. Lineare Algebra 76 6. Vektorräume In vielen Bereichen der Mathematik wird man auf die algebraische Struktur des Vektorraums geführt, so daß diesem Begriff eine fundamentaler Bedeutung in den verschiedensten Teilgebieten der Mathematik zukommt. Um Vektorräume besser zu verstehen, ist es sinnvoll, diese losgelöst von speziellen Kontexten in einem abstrakten Setting zu betrachten und zu studieren. Dies ist die Aufgabe der Linearen Algebra, welche man als die Theorie der Vektorräume – vor allem der endlich dimensionalen – ansehen kann. Natürlich dreht sich die Lineare Algebra nicht ausschließlich um den Vektorraumbegriff; darauf aufbauend gibt es etliche weitere grundlegende Konzepte wie z.B. der Begriff der linearen Abbildungen, welche verschiedene Vektorräume miteinander in Beziehung setzen und den theoretischen Hintergrund für lineare Gleichungssysteme liefern, welche bereits in einfacher Form aus der Schule bekannt sein dürften. Neben der präzisen Definition des Vektorraumbegriffs besteht das zentrale Anliegen dieses Kapitels darin, eine sehr einfache Charakterisierung für die “Größe” eines Vektorraums zu schaffen. 6.1. Vektorräume und Untervektorräume Notation: In den folgenden Abschnitten bezeichnet K einen Körper. Griechische Buchstaben wie α, β, λ, µ stehen für Elemente dieses Körpers. Mit den lateinischen Buchstaben u, v, w, x, y, z werden Elemente eines oder verschiedener Vektorräume bezeichnet. Definition 6.1.1 (Vektorräume) Sei K ein Körper. Ein Vektorraum über dem Körper K (kurz ein K-Vektorraum) ist ein Tripel (V, +, ·) bestehend aus einer Menge V , einer inneren Verknüpfung + : V × V → V, (u, v) 7→ u + v, welche als Addition bezeichnet wird, und einer äußeren Verknüpfung · : K × V → V, (λ, v) 7→ λ · v =: λv, die sogenannte Skalarmultiplikation. Dabei sollen sich die beiden Verknüpfungen durch folgende Eigenschaften auszeichnen: (V1) (V, +) ist eine abelsche Gruppe. (V2) Für alle u, v ∈ V und alle λ, µ ∈ K gilt: λ(u + v) = λu + λv (Distributivgesetz der Skalarmultiplikation für die Addition V ), (λ + µ)v = λv + µv (λµ)v = λ(µv) 1·v =v (Distributivgesetz der Skalarmultiplikation für Addition in K), (Assoziativgesetz der Skalarmultiplikation), (Wirkung der 1) 77 . KAPITEL 6. VEKTORRÄUME 6.1. VEKTORRÄUME UND UNTERVEKTORRÄUME Bemerkung 6.1.2 • Die Bezeichnung K-Vektorraum bzw. Vektorraum wird sehr oft für die Trägermenge V allein verwendet, wobei die beiden algebraischen Verknüpfungen als bekannt oder (im abstrakten Kontext) als existent vorausgesetzt werden. Wir werden uns im folgenden dieser vereinfachenden Sprechweise bedienen. Vorsicht ist jedoch geboten, wenn dieselbe Menge mit unterschiedlichen Verknüpfungen ausgestattet wird, die sie jeweils zu einem Vektorraum machen. • Die Elemente von V heißen Vektoren, die Elemente des zugehörigen Körpers K nennt man Skalare. Der Körper K, welcher dem K-Vektorraum zugrunde liegt, wird gelegentlich auch Skalarenkörper genannt. • Die Addition in V wird auch als Vektoraddition oder Vektorraumaddition bezeichnet, wenn sie deutlich von der Addition in K unterschieden werden soll. • Das neutrale Element der Additionion in V heißt Nullvektor. Um Verwechselungsgefahr mit dem Skalar 0 ∈ K zu vermeiden, schreiben wir dafür 0V . • Für das zu v ∈ V inverse Element bezüglich der Vektoraddition schreibt man −v analog zu der üblichen Notation bei Körpern. Ebenso steht v − w für v + (−w). • Bei der Skalarmultiplikation schreibt man meist λv statt λ·v. Nach der bei Körpern übliche Konvention Punktrechnung vor Strichrechnung soll die Skalarmultiplikation stärker binden als Addition in V und K; dies spart Klammern, wodurch sich Rechnungen übersichtlicher gestalten lassen. Man unterscheide zum Beispiel λu + v und λ(u + v); ebenso (λ + µ)v und λ + µv, wobei der letzte Term keinen Sinn ergibt, da die Addition zwischen Skalaren und Vektoren nicht erklärt ist. Satz 6.1.3 (Einige Rechenregeln) Es sei V ein K-Vektorraum. Dann gilt für alle v ∈ V und λ ∈ K: (i) 0 · v = 0V . (ii) λ · 0V = 0V . (iii) λ · v = 0 ⇔ λ = 0 oder v = 0V . (iv) (−1) · v = −v. Beweis. i) Anwendung der Vektorraumaxiome sowie der Rechenregeln im Körper K liefert zunächst: 0 · v = (0 + 0) · v = 0·v+0·v |0 = neutrales Element von (K,+) |Distributivgesetz der Skalarmultiplikation für Addition in K . 78 KAPITEL 6. VEKTORRÄUME 6.1. VEKTORRÄUME UND UNTERVEKTORRÄUME Unter Ausnutzung dieser Gleichung im zweiten Umformungsschritt erhalten wir nun 0V = 0 · v + − (0 · v) |Eigenschaft inverser Elemente in (V, +) = 0 · v + 0 · v + − (0 · v) |Einsetzen der obigen Gleichung = 0 · v + 0 · v + − (0 · v) |Assoziativgesetz in (V, +) = 0 · v + 0V = 0·v |Eigenschaft inverser Elemente in (V, +) |0V = neutrales Element in (V, +) womit die Behauptung gezeigt ist. ii) Der Nachweis von ii) verläuft im Prinzip analog zur obigen Rechnung. Statt 0 = 0 + 0 benutzt man hier die Neutralität von 0V hinsichtlich der Vektoraddition, d.h. 0V = 0V + 0V . iii) “⇒”: Es sind zwei Fälle zu unterscheiden: entweder λ = 0 oder λ 6= 0. Im ersten Fall ergibt sich die Behauptung als unmittelbare Konsequenz von i). Im zweiten Fall ist v = 0V zu zeigen. Dazu nutzen wir aus, daß nach den Körperaxiomen das multiplikativ Inverse λ−1 zu λ 6= 0 existiert: v = = = = = 1·v (λ−1 λ) · v λ−1 · (λ · v) λ−1 · 0V 0V |Wirkung der 1 |Definition des multiplikativ Inversen in K |Assoziativgesetz für Skalarmultiplikation |Voraussetzung |nach ii) Die Rückrichtung “⇐” folgt direkt aus i) und ii). iv) Anwendung der Vektorraumaxiome sowie der Rechenregeln im Körper K liefert: v + (−1) · v = 1 · v + (−1) · v = 1 + (−1) · v = 0·v = 0V |Wirkung der 1 |Distributivgesetz der Skalarmultiplikation für Addition in K |Rechenregeln für K |nach i) Da die Vektoraddition von v und (−1) · v auf das neutrale Element 0V der Vektoradition führt, stellt sich (−1) · v als das inverse Element zu v heraus, d.h. es gilt wie behauptet −v = (−1) · v. Man beachte, daß dabei die Eindeutigkeit inverser Elemente eingeht. Beispiel 6.1.4 über K. • Die Menge, die nur aus der null besteht {0} ist ein Vektorraum • Jeder Körper K ist ein Vektorraum über sich selbst. • C ist ein R-Vektorraum. • Das n-fache kartesische Produkt eines Körpers mit sich selbst, das heißt die Menge aller geordneten n-Tupel von Elementen aus K K n = {(a1 , a2 , . . . , an ) | ai ∈ K} 79 KAPITEL 6. VEKTORRÄUME 6.1. VEKTORRÄUME UND UNTERVEKTORRÄUME ist ein K-Vektorraum mit den Verknüpfungen (a1 , a2 , . . . , an ) + (b1 , b2 , . . . , bn ) := (a1 + b1 , a2 + b2 , . . . , an + bn ) λ · (a1 , a2 , . . . , an ) := (λa1 , λa2 , . . . , λan ) Das neutrale Element in (K n , +) ist der Nullvektor (0, 0, 0, . . . , 0, 0). Das zum Vektor (a1 , a2 , . . . , an ) inverse Element ist der Vektor (−a1 , −a2 , . . . , −an ). Sämtliche Rechenregeln, die in einem Vektorraum gelten müssen lassen sich auf Rechenregeln im Körper K zurückführen. Wir zeigen hier das Distributivgesetz der Skalarmultiplikation für die Addition in K. λ (a1 , a2 , . . . , an ) + (b1 , b2 , . . . , bn ) = λ(a1 + b1 , a2 + b2 , . . . , an + bn ) = λ(a1 + b1 ), λ(a2 + b2 ), . . . , λ(an + bn ) = λa1 + λb1 , λa2 + λb2 ), . . . , λan + λbn = (λa1 , λa2 , . . . , λan ) + (λb1 , λb2 , . . . , λbn ) Hier haben wir das Distributivgesetz in K verwendet. Definition 6.1.5 Eine nicht leere Teilmenge eines K-Vektorraums U ⊂ V heißt Untervektorraum bzw. Unterraum von V , falls folgende Bedingungen erfüllt sind: (U1) U ist abgeschlossen gegenüber der Addition, d.h. u1 , u2 ∈ U ⇒ u1 + u2 ∈ U . (U2) U ist abgeschlossen gegenüber der Skalarmultiplikation, d.h. u ∈ U, λ ∈ K ⇒ λu ∈ U . Dank (U1) und (U2) induzieren die Vektoraddition und Skalarmultiplikation in V entsprechende Verknüpfungen in U , mit denen U als eigenständiger Vektorraum interpretiert werden kann. Es bleibt dafür lediglich nachzuweisen, daß U auch abgeschlossen ist hinsichtlich der Bildung additiv inverser Elemente. Dies folgt aber direkt aus U2) und der Rechenregel iv) in Satz 6.1.3, wonach −u = (−1) · u. Beispiel 6.1.6 Sei K ein Körper. Die Menge U = {(a1 , a2 , 0, 0) | a1 , a2 ∈ K} ( K 4 ist ein Untervektorraum des K 4 , denn es gilt (a1 , a2 , 0, 0) + (b1 , b2 , 0, 0) = (a1 + b1 , a2 + b2 , 0, 0) ∈ U und λ(a1 , a2 , 0, 0) = (λa1 , λa2 , 0, 0) ∈ U 80 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION Proposition 6.1.7 Sei K ein Körper und V ein K-Vektorraum mit U1 , U2 ⊆ V Untervektorräumen. Dann ist der Durchschnitt U1 ∩ U2 ein Untervektorraum von V . Beweis. Seien v, w ∈ U1 ∩ U2 , das heißt v, w ∈ U1 und v, w ∈ U2 . Da sowohl U1 als auch U2 Untervektorräume sind, liegt auch die Summe v + w ∈ U1 und v + w ∈ U2 . Daraus folgt dass v + w ∈ U1 ∩ U2 . Wir zeigen analog die Abgeschlossenheit bezüglich der Skalarmultiplikation. Sei v ∈ U1 ∩ U2 , das heißt v ∈ U1 und v ∈ U2 . Da sowohl U1 als auch U2 Untervektorräume sind, liegt für alle λ ∈ K auch λv ∈ U1 und λv ∈ U2 . Daraus folgt dass λv ∈ U1 ∩ U2 . Bemerkung 6.1.8 Die Vereinigung zweier Untervektorräume ist im Allgemeinen kein Untervektorraum. Wir wollen dies an einem Beispiel zeigen. Sei V = K 3 , dann sind die Mengen U1 = {(a1 , 0, 0) | a1 ∈ K} ( K 3 und U2 = {(0, a2 , 0) | a2 ∈ K} ( K 3 Untervektorräume von V (Begründung analog zu Beispiel 6.1.6), aber ihre Vereinigung ist kein Untervektorraum, da zum Beispiel u1 = (1, 0, 0) ∈ U1 und u2 = (0, 1, 0) ∈ U2 und somit beide Vektoren u1 , u2 ∈ U1 ∪ U2 liegen, aber ihre Summe nicht u1 + u2 = (1, 0, 0) + (0, 1, 0) = (1, 1, 0) ∈ / U1 ∪ U2 . In der Vereinigung U1 ∪ U2 liegen nur Vektoren, die höchstens an einer Stelle einen Eintrag ungleich null haben, aber u1 + u2 hat an zwei Stellen einen Eintrag, der nicht null ist. Die Vereinigungsmenge U1 ∪ U2 genau dann ein Untervektorraum ist, wenn U1 ⊂ U2 oder U2 ⊂ U1 . 6.2. Basis und Dimension Wir wollen in diesem Abschnitt Vektroräume versuchen einfacher zu beschreiben. Dafür nutzen wir aus, dass die Vektorraumaxiome genau besagen, dass wir einen Vektor mit einem Skalar multiplizieren können und immer noch einen Vektor erhalten, ebenso können wir zwei Vektoren addieren und erhalten wieder einen Vektor. Definition 6.2.1 Ein Vektor v ∈ V eines K-Vektorraums V heißt Linearkombination der Vektoren v1 , ..., vk ∈ V , falls Skalare λ1 , . . . , λk ∈ K existieren mit v = λ 1 v1 + · · · + λ k vk . Man sagt auch, v läßt sich aus v1 , . . . , vk linear kombinieren. Es seien v1 , . . . , vk ∈ V Vektoren eines K-Vektorraums. Die Menge aller Linearkombinationen, welche sich aus v1 , . . . , vk bilden lassen, bezeichnet man als die von v1 , . . . , vn 81 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION erzeugte Lineare Hülle (auch Spann). Man schreibt dafür LH(v1 , . . . , vk ) := Kv1 + · · · + Kvk := {v ∈ V : ∃λ1 , . . . , λk ∈ K mit v = λ1 v1 + · · · + λk vk } . Proposition 6.2.2 Sei V ein K-Vektorraum. Die lineare Hülle der Vektoren v1 , ..., vk ∈ V ist ein Untervektorraum von V . Die lineare Hülle ist der kleinste Vektorraum, der die Vektoren v1 , ..., vk ∈ V enthält. Beweis. Seien u, v ∈ LH(v1 , . . . , vk ), das heißt es gibt λ1 , . . . , λk , µ1 , . . . , µk ∈ K so dass gilt: u = λ1 v1 + · · · + λk vk und v = µ1 v1 + · · · + µk vk . Dann ist u+v = (λ1 v1 +· · ·+λk vk )+(µ1 v1 +· · ·+µk vk ) = (λ1 +µ1 )v1 +· · ·+(λk +µk )vk ∈ LH(v1 , . . . , vk ) ebenso gilt: λ · v = λ · (µ1 v1 + · · · + µk vk ) = (λµ1 v1 + · · · + λµk vk ) ∈ LH(v1 , . . . , vk ). Beispiel 6.2.3 • Sei V = K 3 , dann betrachten wir die Vektoren v1 = (1, 0, 0) und v2 = (0, 1, 0) aus V . Ein Vektor v ∈ V ist Linearkombination von v1 und v2 , wenn es Skalare λ1 , λ2 gibt, so dass v = λ1 v1 + λ2 v2 = λ1 (1, 0, 0) + λ2 (0, 1, 0) = (λ1 , 0, 0) + (0, λ2 , 0) = (λ1 , λ2 , 0). Somit besteht die lineare Hülle der Vektoren v1 , v2 aus allen Vektoren, deren dritte Komponente null ist, d. h. LH(v1 , v2 ) = {(λ1 , λ2 , 0) | λ1 , λ2 ∈ K}. • Wir betrachten jetzt die Vektoren v1 = (1, 1, 0) und v2 = (1, 0, 1) aus K 3 . Der Vektor v = (1, 2, −1) liegt in der linearen Hülle von v1 und v2 , denn es gilt v = 2v1 − v2 = 2(1, 1, 0) − (1, 0, 1) = (2, 2, 0) − (1, 0, 1) = (1, 2, −1). Der Vektor u = (1, 2, 0) hingegen liegt nicht in LH(v1 , v2 ), denn angenommen es gäbe λ1 , λ2 ∈ K, so dass λ1 v1 + λ2 v2 = u, das heißt λ1 (1, 1, 0) + λ2 (1, 0, 1) = (λ1 , λ1 , 0) + (λ2 , 0, λ2 ) = (λ1 + λ2 , λ1 , λ2 ) = (1, 2, 0) dann wären die λi Lösung des Gleichungssystems λ1 + λ2 = 1 λ1 = 2 λ2 = 0 Allerdings liefert Einsetzen von λ1 = 2 und λ2 = 0 in die erste Zeile λ1 + λ2 = 2 + 0 = 2 6= 1. Dies bedeutet, dass man u nicht aus v1 und v2 linear kombinieren kann, also u ∈ / LH(v1 , v2 ). 82 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION Bisher haben wir uns nur mit der Frage beschäftigt, ob man einen Vektor aus einer vorgegebenen Menge von Vektoren linear kombinieren kann. Nun kommen wir dazu, ob diese Linearkombination eindeutig ist. Dies ist der Fall, wenn die Vektoren linear unabhängig sind. Definition 6.2.4 (i) Endlich viele Vektoren v1 , . . . , vk eines K-Vektorraums heißen linear unabhängig, falls die Gleichung λ1 v1 + · · · + λk vk = 0V nur die Lösung λ1 = · · · = λk = 0 besitzt. Dies drückt man auch folgendermaßen aus: Die Vektoren v1 , . . . , vk nennt man linear unabhängig, genau dann wenn sich der Nullvektor nur auf die triviale Weise aus ihnen linear kombinieren läßt. (ii) Die Vektoren v1 , . . . , vk heißen linear abhängig, falls sie nicht linear unabhängig sind. Der Nullvektor läßt sich dann nicht trivial aus ihnen linear kombinieren, d.h. in der obigen Darstellung des Nullvektors kann mindestens ein Koeffizient λi mit i ∈ {1, . . . , k} von Null verschieden gewählt werden. Proposition 6.2.5 (Charakterisierung linear abhängiger Vektoren) Für die Vektoren v1 , . . . , vk sind folgende Aussagen äquivalent: (i) v1 , . . . , vk sind linear abhängig. (ii) Es existiert ein l ∈ {1, . . . , k} für das gilt: vl = λ1 v1 + . . . + λl−1 vl−1 + λl+1 vl+1 + λk vk . Beweis. (ii) ⇒ (i) Wir setzen λl = −1 und erhalten eine nichttriviale Linearkombination des Nullvektors 0V = λ1 v1 + . . . + λl−1 vl−1 + (−1)vl + λl+1 vl+1 + λk vk . P (i) ⇒ (ii) Sei 0V = ki=1 λi vi eine nichttriviale Linearkombination des Nullvektors. Dann gibt es ein l so dass λl 6= 0 und wir können schreiben −λl vl = k X λ i vi i=1,i6=l ⇒ vl = k X i=1,i6=l − λi vi . λl Aus diesem Satz folgt, dass die lineare Hülle der Vektoren {v1 , . . . , vk } sich nicht von der linearen Hülle von {v1 , . . . , vk }\{vl } unterscheidet, da vl ∈ LH(v1 , . . . , vl−1 , vl+1 , . . . , vk ). Wir können diesen Vektor also einfach weglassen ohne etwas “zu verlieren”. Proposition 6.2.6 (Charakterisierung linear unabhängiger Vektoren) Für die Vektoren v1 , . . . , vk sind folgende Aussagen äquivalent: (i) v1 , . . . , vk sind linear unabhängig. 83 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION (ii) Jeder Vektor v ∈ LH(v1 , . . . , vk ) besitzt eine eindeutige Darstellung als Linearkombination der v1 , . . . , vk . Beweis. (i) ⇒ ii) Wir führen diesen Beweis per Widerspruch: Angenommen es gibt einen Vektor v mit zwei verschiedenen Darstellungen v = α1 v1 + · · · + αk vk = β1 v1 + · · · + βk vk , so daß mindestens für ein j ∈ {1, . . . , k} gilt αj 6= βj . Subtraktion der beiden Darstellungen führt auf die Gleichung 0V = (α1 − β1 )v1 + · · · + (αk − βk )vk . Da die Vektoren v1 , . . . , vk linear unabhängig sind, gilt αi − βi = 0 und somit αi = βi für alle i = 1, . . . , vk . Dies ist ein Widerspruch dazu, dass es mindestens einen Koeffizienten, nämlich αj − βj gibt, der von Null verschieden ist. (ii) ⇒ i) Der Nullvektor kann immer auf die triviale Art und Weise linear kombiniert werden, d. h. in der Darstellung 0V = λ1 v1 + · · · + λk vk Kann immer λ1 = . . . = λk = 0 gewählt werden. Da nach Voraussetzung jeder Vektor eindeutig als Linearkombination dargestellt werden kann, gilt dies insbesondere für den Nullvektor. Das heißt die triviale Linearkombination ist die einzig mögliche. Dies bedeutet, aber genau, dass die Vektoren v1 , . . . , vk linear unabhängig sind. Beispiel 6.2.7 Sei V = R3 , wir wollen uns geometrisch überlegen, was linear abhängig und unabhängig bedeutet. • Schauen wir zunächst einen einzelnen Vektor v ∈ V an. Dieser Vektor ist linear unabhängig, wenn aus λ · v = 0V folgt, dass λ = 0 ist. Dies ist genau dann der Fall, wenn v 6= 0V ist (s. Satz 6.1.3). Der Nullvektor hingegen ist linear abhängig, da für alle λ ∈ K gilt: λ · v = 0V . • Daraus folgt direkt, dass jede Menge von Vektoren in der der Nullvektor vorkommt auch linear abhängig ist. • Betrachten wir jetzt zwei Vektoren v1 , v2 ∈ V . Diese sind linear abhängig, wenn es λ1 , λ2 ∈ K gibt, die nicht beide null sind, so dass λ1 v1 + λ2 v2 = 0V . Nach Proposition 6.2.5 ist dies gleichbedeutend damit, dass v1 = −λ2 /λ1 v2 , also ein Vektor ein Vielfaches des anderen ist. Geometrisch bedeutet dies, dass beide Vektoren auf der gleichen Gerade durch den Ursprung liegen. • Liegen zwei Vektoren nicht auf der gleichen Geraden durch den Ursprung, dann sind sie linear unabhängig. 84 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION Definition 6.2.8 i) Eine Menge von Vektoren v1 , v2 , . . . ∈ V heißt Erzeugendensystem von V , wenn V = LH(v1 , ..., vk ) gilt. ii) V heißt endlich erzeugt, falls ein Erzeugendensystem bestehend aus endlich vielen Vektoren v1 , ..., vk ∈ V gibt. d.h. falls sich jeder Vektor von V aus dem Erzeugendensystem v1 , ..., vk linear kombinieren läßt. Definition 6.2.9 Sei V ein endlich erzeugter K-Vektorraum. Ein Erzeugendensystem v1 , ..., vk ∈ V wird Basis genannt, falls die Vektoren linear unabhängig sind. Die Anzahl der Basisvektoren (hier k) bezeichnet man als Länge der Basis. Bemerkung 6.2.10 Wir können die obigen Definitionen auch ein wenig anders formulieren: • v1 , ..., vk ∈ V sind ein Erzeugendensystem von V , wenn sich jeder Vektor v ∈ V auf mindestens eine Art und Weise durch v1 , ..., vk linear kombinieren (oder erzeugen) lässt. • v1 , ..., vk ∈ V sind linear unabhängig in V , wenn sich jeder Vektor v ∈ V auf höchstens eine Art und Weise durch v1 , ..., vk linear kombinieren (oder erzeugen) lässt (s. Prop. 6.2.6). • v1 , ..., vk ∈ V sind eine Basis von V , wenn sich jeder Vektor v ∈ V auf genau eine Art und Weise durch v1 , ..., vk linear kombinieren (oder erzeugen) lässt. Satz 6.2.11 (Charakterisierung von Basen) Sei V ein endlich erzeugter K-Vektorraum. Für B = {v1 , . . . , vk } ⊆ V sind äquivalent (i) B ist eine Basis von V . (ii) B ist ein minimales Erzeugendensystem von V . (iii) B ist eine maximale Menge linear unabhängiger Vektoren. Beweis.“(i) ⇒ (ii)” Jede Basis ist per Definition ein Erzeugendensystem, bleibt also zu zeigen, dass es minimal ist. Angenommen es ist nicht minimal, das heißt es gibt einen Vektor vl ∈ B, so dass B 0 = B\{vl } immer noch ein Erzeugendensystem ist, das heißt aber, dass vl ∈ LH(B 0 ) und somit ist mit Proposition 6.2.5 die Menge B linear abhängig, im Widerspruch zur Definition einer Basis. “(ii) ⇒ (i)” Wir nehmen an B sei ein minimales Erzeugendensystem von V , aber nicht linear unabhängig. Aufgrund von Proposition 6.2.5 gibt es dann einen Vektor vl ∈ B, der Linearkombination der Vektoren in B 0 = B\{vl } ist. Dann ist die lineare Hülle von B 0 gleich der linearen Hülle von B im Widerspruch zur Minimalität. 85 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION “(i) ⇒ (iii)” Jede Basis ist per Definition linear unabhängig, bleibt also zu zeigen, dass sie maximal mit dieser Eigenschaft ist. Angenommen sie wäre nicht maximal, d. h. es gibt einen Vektor v ∈ V , so dass die Menge B 0 = B ∪ {v} immer noch linear unabhängig ist. Das ist aber nur dann möglich, wenn v ∈ / LH(B) (folgt aus Proposition 6.2.5) und damit ist B kein Erzeugendensystem. “(iii) ⇒ (i)” Wir nehmen an B sei eine maximale Menge linear unabhängiger Vektoren in V , aber kein Erzeugendensystem von V . Dann gibt es einen Vektor v ∈ V der nicht in der linearen Hülle LH(B) liegt. Dann ist aber nach Proposition 6.2.5) die Menge B ∪ {v} immer noch linear unabhängig, was im Widerspruch zur Maximalität steht. Beispiel 6.2.12 • Sei V = K 3 und v1 = (1, 2, 0) ∈ V . Dieser Vektor ist linear unabhängig, da es nicht der Nullvektor ist. Aber die Menge {v1 } ist nicht maximal, da zum Beispiel v2 = (1, 2, 1) linear unabhängig zu v1 ist. Es ist nicht sehr schwierig einen Vektor v2 = (a1 , a2 , a3 ) zu finden, der linear unabhängig zu v1 ist. Selbst wenn wir die ersten beiden Komponenten gleich wählen, d. h. a1 = 1, a2 = 2, dann führt nur die Wahl a3 = 0 zu einem Vektor, der von v1 abhängig ist, wohingegen jede Wahl a3 ∈ K\{0} zu einem zu v1 linear unabhängigen Vektor führt. Die Menge {v1 , v2 } ist also per Konstruktion linear unabhängig, allerdings ist sie immer noch nicht maximal. Dafür wählen wir zum Beispiel den Vektor v3 = (0, −1, 0). Die Menge B = {v1 , v2 , v3 } ist linear unabhängig, aber sie ist auch maximal mit dieser Eigenschaft, so dass sie eine Basis ist. • Wir betrachten den Vektorraum V = K 2 und darin die Vektoren v1 = (1, 1) v2 = (2, 2) v3 = (1, 0) v4 = (2, 1) Diese bilden ein Erzeugendensystem von V . Allerdings ist es nicht minimal, da offensichtlich v2 = 2v1 und somit auch die Menge {v1 , v3 , v4 } ein Erzeugendensystem ist. Aber außerdem gilt v4 = v1 + v3 , so dass man auch den Vektor v4 noch entfernen kann ohne die lineare Hülle zu ändern. Somit ist B = {v1 , v3 } ein Erzeugendensystem von V . Dies ist minimal, da beide Vektoren linear unabhängig sind. Satz 6.2.13 (Existenz von Basen) Jeder endlich erzeugte Vektorraum V 6= {0V } besitzt eine Basis. Beweis. Wähle ein Erzeugendensystem von B ⊆ V und entferne solange Vektoren v ∈ B aus der Menge B, bis B die Definition einer Basis erfüllt. Der Nullvektorraum {0V } hat keine Basis, da er nur aus einem einzigen Vektor besteht, nämlich dem Nullvektor und dieser ist linear abhängig. Im nächsten Schritt wollen wir die Anzahl der Elemente einer Basis, also ihre Länge, untersuchen und werden dabei feststellen, dass diese nur vom Vektorraum abhängt, aber nicht von der speziell gewählten Basis. Dafür benötigen wir folgenden Satz. 86 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION Satz 6.2.14 (Austauschsatz) Sei V ein Vektorraum mit endlicher Basis B := {b1 , . . . , bk }, sowie 0V = 6 v ∈ V . Dann gibt es ein bl ∈ B, sodass B 0 := {b1 , . . . , bl−1 , v, bl+1 , . . . , bk } eine Basis von V ist. Pk Beweis. Da B eine Basis von V ist, existieren λ1 , . . . , λk ∈ K mit v = i=1 λi bi . Da v 6= 0V , ist eines der λi von Null verschieden. Durch Umnummerieren erhält man λ1 6= 0 und B 0 = {v, b2 , . . . , bk }. Es ist also zu zeigen, dass zum einen LH(B 0 ) = V gilt, und dass B 0 linear unabhängig ist. (i) Zeige: LH(B 0 ) = V . Sei u P ∈ V . Weil B eine Basis von V ist, existieren µ1 , . . . , µk ∈ K, sodass u = ki=1 µi bi . Da oben gewähltes λ1 6= 0, ist k b1 = X λi 1 v− bi . λ1 λ1 i=1 Ersetzt man das b1 auf diese Weise in der Darstellung von u, so erhält man eine Linearkombination von u in den Vektoren aus B 0 . (ii) Zeige: B 0 ist linear unabhängig. P Seien µ1 , . . . , µk ∈ K, sodass µ1 v + ki=2 µi bi = 0. Durch Einsetzen der Darstellung von v erhält man ! k k X X 0 = µ1 λi bi + µi bi i=1 = (µ1 λ1 )b1 + i=2 k X (µ1 λi + µi )bi . i=2 Da B eine Basis ist, verschwinden all diese Koeffizienten. Insbesondere ist µ1 λ1 = 0, also wegen λ1 6= 0 bereits µ1 = 0. Für die weiteren Koeffezienten gilt demnach für alle i ∈ {2, . . . , k} 0 = µ1 λ i + µi = µi . Satz 6.2.15 (Eindeutige Länge einer Basis) Sei V ein endlich erzeugter K-Vektorraum. Dann haben je zwei Basen von V gleich viele Elemente. Beweis. Seien B := {b1 , . . . , bn } und C := {c1 , . . . , cm } Basen von V und ohne Einschränkung n > m. Der Austauschsatz 6.2.14 besagt, dass m Vektoren von B durch m Vektoren aus C ausgetauscht werden. Man erhält (durch geeignetes Umnummerieren) B 0 := {c1 , . . . , cm , bm+1 . . . bn } als Basis von V. Da C eine Basis und damit eine maximale linear unabhängige Menge ist, muss B 0 linear abhängig sein. Dies steht im Widerspruch dazu, dass B eine Basis ist. 87 KAPITEL 6. VEKTORRÄUME 6.2. BASIS UND DIMENSION Definition 6.2.16 (Dimension) Sei B = {b1 , . . . , bk } eine Basis eines Vektorraums V . Dann heißt dim(V ) = dimK (V ) := k die Dimension von V . Für V = {0V } setzen wir dim(V ) := 0. Beispiel 6.2.17 Der K n hat die Basis B = {e1 , e2 , . . . , en } wobei die Vektoren ei an allen Stellen den Eintrag null haben außer an der i-ten Stelle ei = (0, 0, . . . , 0, 1, 0, . . . , 0). Dies ist eine Basis, die sogenannte Standardbasis, da der Vektor v = (λ1 , λ2 , . . . , λn ) als Linearkombination der ei geschrieben werden kann: v = (λ1 , λ2 , . . . , λn ) = n X λi ei . i=1 Also ist B ein Erzeugendensystem. Es folgt, aber auch, dass die Menge B eine Basis ist, denn wenn n X 0V = λi ei = (λ1 , λ2 , . . . , λn ) i=1 gilt, dann muss schon λ1 = λ2 = · · · = λn = 0 gelten. Somit hat der K n die Dimension n. Satz 6.2.18 (Basiskriterien) Sei V ein Vektorraum der Dimension k ∈ N und B ⊆ V . (i) Ist B linear unabhängig und #B = k, so ist B eine Basis von V . (ii) Ist B ein Erzeugendensystem von V und #B = k, so ist B eine Basis von V . Beweis. (i) Angenommen B = {v1 , . . . , vk } sei keine Basis, das heißt sie ist kein Erzeugendensystem. Dann könnten Vektoren vk+1 , . . . , vn hinzufügen, so dass die Menge {v1 , . . . , vn } eine Basis ist. Dann hätten wir allerdings eine Basis mit n > k Elementen in einem k-dimensionalen Vektorraum im Widerspruch zu Satz6.2.15. (ii) Angenommen B = {v1 , . . . , vk } sei keine Basis, das heißt nicht linear unabhängig. Aufgrund von Proposition 6.2.5 können wir dann Vektoren vl aus B entfernen, bis B 0 = B\{vl | l ∈ I ⊆ {1, . . . , k}} linear unabhängig ist. Aber dann wäre B 0 eine Basis mit n < k Elementen in einem k-dimensionalen Vektorraum im Widerspruch zu Satz6.2.15. Dieser Satz ist sehr praktisch, da es nun genügt eine der beiden Eigenschaften “lineare Unabhängigkeit” oder “Erzeugendensystem” zu zeigen, wenn die Dimension des Vektorraums bekannt ist. 88 KAPITEL 6. VEKTORRÄUME 6.3. SUMMEN UND DIREKTE SUMMEN Satz 6.2.19 (Basisergänzung) Sei V ein endlich erzeugter Vektorraum der Dimension n ∈ N und v1 , . . . , vk ∈ V linear unabhängig (k ≤ n). Dann existieren vk+1 , . . . , vn ∈ V , sodass {v1 , . . . , vk , vk+1 , . . . , vn } eine Basis von V ist. Beweis. Ist k = n, so bildet {v1 , . . . , vk } nach Satz 6.2.18 bereits eine Basis. Sei also k < n und B = {b1 , . . . , bn } eine Basis von V . Durch Anwenden des Austauschsatzes 6.2.14 und geeignetem Umnummerieren erhält man {v1 , . . . , vk , bk+1 , . . . , bn } als Basis von V. 6.3. Summen und direkte Summen U und V seien Unterräume eines Vektorraums W . Im Gegensatz zu dem Durchschnitt U ∩ V ist die Vereinigungsmenge U ∪ V im allgemeinen kein Unterraum. Der kleinste Untervektorraum von W , in welchem sowohl U als auch V enthalten sind, entspricht der Menge aller (endlichen!) Linearkombinationen LH(U ∪ V ), welche sich aus Vektoren von U und V bilden lassen. Diesen Vektorraum bezeichnet man als Summe U + V der Unterräume U und V . Definition 6.3.1 Es seien U, V ⊂ W zwei Unterräume eines K-Vektorraums W . Dann bezeichnet man U + V := {w ∈ W | ∃u ∈ U und∃v ∈ V, so dass gilt:w = u + v} (6.1) als die Summe von U und V . Satz 6.3.2 Es seien U, V zwei endlich dimensionale Unterräume eines K-Vektorraums W . Dann ist die Dimension ihrer Summe gegeben durch dim(U + V ) = dim U + dim V − dim(U ∩ V ) . (6.2) Beweis. Die Vorgehensweise des Beweises besteht darin, eine Basis von U + V zu wählen und die Anzahl der Vektoren zu zählen. Dabei besteht die Schwierigkeit im wesentlichen darin, daß die Vektoren, welche sich in natürlicher Weise als Basis anbieten auch tatsächlich eine Basis darstellen, d.h. insbesondere auch linear unabhängig sind. • Es sei y1 , . . . , yk eine Basis von U ∩ V . • Nach dem Basisergänzungssatz gibt es u1 , .., um ∈ U , so daß y1 , . . . , yk , u1 , . . . , um eine Basis von U ist. • Ebenso lassen sich v1 , . . . , vn ∈ V finden, so daß y1 , . . . , yk , v1 , . . . , vn eine Basis von V ist. 89 KAPITEL 6. VEKTORRÄUME 6.3. SUMMEN UND DIREKTE SUMMEN • zeige: y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn bilden ein Erzeugendensystem von U + V . Sei x ∈ U + V vorgegeben. Dann existieren u ∈ U und v ∈ V mit x = u + v. Also gibt es Skalare α1 , . . . , αk , λ1 , . . . , λm ∈ K und β1 , . . . , βk , µ1 , . . . , µn ∈ K derart, daß u = α1 y1 + · · · + αk yk + λ1 u1 + · · · + λm um und v = β1 y1 + · · · + βk yk + µ1 v1 + · · · + µn vn . Mithin erhalten wir x = u + v = (α1 + β1 )y1 + · · · + (αk + βk )yk + λ1 u1 + · · · + λm um + µ1 v1 + · · · + µn vn , woraus U + V ⊂ LH(y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn ) folgt. • zeige: y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn sind linear unabhängig. Dazu betrachten wir die Gleichung α1 y1 + · · · + αk yk + λ1 u1 + · · · + λm um + µ1 v1 + · · · + µn vn = 0W (6.3) und setzen u := α1 y1 + · · · + αk yk + λ1 u1 + · · · + λm um . Wegen (6.3) muß µ1 v1 + · · · + µn vn = −u gelten. Also ist nicht nur µ1 v1 + · · · + µn vn ∈ V sondern auch µ1 v1 + · · · + µn vn ∈ U bzw. zusammenfassend µ1 v1 + · · · + µn vn ∈ U ∩ V . Daher existieren β1 , . . . , βk ∈ K mit β1 y1 + · · · + βk yk = µ1 v1 + · · · + µn vn , so daß Gleichung (6.3) die Form (α1 + β1 )y1 + · · · + (αk + βk )yk + λ1 u1 + · · · + λm um = 0W annimmt. Da y1 , . . . , yk , u1 , . . . , um als Basis von U linear unabängig ist, müssen alle Koeffizienten verschwinden, insbesondere können wir λ1 = · · · = λm = 0 folgern. Damit verkürzt sich (6.3) zu α1 y1 + · · · + αk yk + µ1 v1 + · · · + µn vn = 0W . Diese Gleichung kann jedoch ebenfalls nur für verschwindende α1 , . . . , αk , µ1 , . . . , µn bestehen, weil auch y1 , . . . , yk , v1 , . . . , vn als Basis von V linear unabhängig sind. Insgesamt haben wir also folgern können, daß (6.3) nur auf triviale Weise erfüllbar, womit die lineare Unabhängigkeit der Vektoren y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn erwiesen ist. • Damit sind y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn als Basis von U + V bestätigt und es folgt dim(U + V ) = k + m + n = (k + m) + (k + n) − k = dim U + dim V − dim(U ∩ V ) , was zu beweisen war. 90 KAPITEL 6. VEKTORRÄUME 6.3. SUMMEN UND DIREKTE SUMMEN Definition 6.3.3 Die Summe zweier Unterräume U, V ⊂ W eines K-Vektorraumes W heißt direkte Summe, sofern U ∩ V = {0W } gilt. In diesem Fall schreibt man U ⊕ V statt U + V . Satz 6.3.4 Für die Summe U + V zweier Unterräume U, V ⊂ W eines K-Vektorraumes sind folgende Aussagen äquivalent: i) Zu jedem Vektor x ∈ U + V gibt es ein eindeutig bestimmtes u ∈ U und v ∈ V mit x = u + v. ii) U ∩ V = {0W }. Beweis. “ii) ⇒ i)” Angenommen der Vektor x ∈ U + V erlaube zwei unterschiedliche Darstellungen x = u1 + v1 = u2 + v2 mit u1 , u2 ∈ U und v1 , v2 ∈ V , wobei u1 6= u2 und v1 6= v2 . Aus dieser Gleichung folgt u1 − u2 = v1 − v2 , | {z } | {z } ∈U ∈V weshalb u1 −u2 , v2 −v1 ∈ U ∩V . Da u1 −u2 = 6 0W folgt U ∩V 6= {0W } im Widerspruch zu ii). “i) ⇒ ii)” Angenommen U ∩ V 6= {0W }. Dann existiert y ∈ U ∩ V mit y 6= 0W . Der Vektor x ∈ U + V habe die Darstellung x = u + v mit u ∈ U und v ∈ V . Dann gilt auch x = (u + y) + (v − y), wobei u + y ∈ U und v − y ∈ V . Damit ist eine zweite Darstellung gefunden im Widerspruch zu i). Korollar 6.3.5 Für zwei Untervektorräume U, V ⊂ W eines endlichdimensionalen K-Vektorraums W sind folgende Aussagen äquivalent: i) W = U ⊕ V . ii) W = U + V und dim W = dim U + dim V . iii) U ∩ V = {0W } und dim W = dim U + dim V . Beweis. i) ⇒ ii) Aussage i) impliziert per Definition des ⊕-Symbols W = U + V und U ∩ V = {0W }. Mittels der Dimensionsformel (6.2) folgt dann dim W = dim(U + V ) = dim U + dim V . ii) ⇒ iii) Da dim W = dim(U + V ) folgt aus der Voraussetzung in ii) und der Dimensionsformel (6.2), daß dim(U ∩ V ) = 0. Also ist U ∩ V = {0W }. iii) ⇒ i) Aus U ∩ V = {0W } folgt nach der Dimensionsformel dim(U + V ) = dim U + dim V . Die Voraussetzung in iii) liefert dann dim(W ) = dim(U +V ). Da der Unterraum U +V ⊂ W von gleicher Dimension ist wie W , folgt U + V = W und damit U ⊕ V = W , weil U und V trivialen Durchschnitt haben. 91 KAPITEL 6. VEKTORRÄUME 6.3. SUMMEN UND DIREKTE SUMMEN Wir wollen jetzt die Begriffe dieses Kapitels mit unserer geometrischen Anschauung verbinden. Beispiel 6.3.6 Sei V = R2 , dann können wir uns einen Vektor v ∈ V als Punkt in einer Ebene vorstellen (oder auch als Pfeil vom Ursprung zu diesem Punkt). Da der R2 ein zweidimensionaler R-Vektorraum ist, gibt es drei Arten von Untervektorräumen - welche mit Dimension 0, 1 oder 2. Ein Raum der Dimension 0 enthält nur den Nullvektor. Da der R2 die Dimension zwei hat, ist ein Unterraum der Dimension 2 schon der ganze R2 . Ein Unterraum U der Dimension 1 hat eine Basis bestehend aus einem Vektor u ∈ U , der nicht der Nullvektor ist. Die lineare Hülle dieses Vektor besteht aus allen Vielfachen dieses Vektors. Diese Vielfache entsprechen geometrisch allen Punkten, die auf der vom Nullpunkt und u aufgespannten Geraden liegen. Also ist U = LH(u) eine Gerade durch den Ursprung. Seien U1 , U2 ⊆ V Untervektorräume der Dimension 1 und sei u1 eine Basis von U1 und u2 eine Basis von U2 . Es gibt zwei Situationen die eintreten können: 1. U1 = U2 , dann sind die Vektoren u1 , u2 linear abhängig und der Durchschnitt U1 ∩ U2 = U1 . Mithilfe der Dimensionsformel (6.2) können wir berechnen dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 1 + 1 − 1 = 1, das heißt die Summe U1 + U2 = U1 . 2. U1 = 6 U2 , dann sind die Vektoren u1 , u2 linear unabhängig und der Durchschnitt U1 ∩ U2 = {0V }. Mithilfe der Dimensionsformel (6.2) können wir berechnen dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 1 + 1 − 0 = 2, das heißt die Summe U1 + U2 = R2 , und somit gilt sogar U1 ⊕ U2 = R2 . Beispiel 6.3.7 Sei V = R3 , dann können wir uns einen Vektor v ∈ V als Punkt im Raum vorstellen (oder auch als Pfeil vom Ursprung zu diesem Punkt). Da der R3 ein dreidimensionaler R-Vektorraum ist, gibt es drei Arten von Untervektorräumen - welche mit Dimension 0, 1, 2 oder 3. Der Raum {0V } ist der einzige Unterraum der Dimension 0 und der R3 selbst der einzige Unterraum der Dimension drei. Ein Unterraum U der Dimension 1 entspricht wie in Beispiel 6.3.6 einer Gerade durch den Ursprung. Ein Unterraum der Dimension 2 wird von 2 linear unabhängigen Vektoren erzeugt und ist somit eine Ebene durch den Ursprung. Seien U, W ⊆ V Untervektorräume. Wir betrachten 2 Situationen in denen wir die Summer U + W berechnen. 1. Sei U ein Unterraum der Dimension 1 mit Basis u 6= 0V und W ein Unterraum der Dimension 2 mit Basis w1 , w2 . Wenn u ∈ / W , dann ist auch U 6⊂ W und somit ist U ∩ W = {0V }. Mithilfe der Dimensionsformel (6.2) können wir berechnen dim(U + W ) = dim U + dim W − dim(U ∩ W ) = 1 + 2 − 0 = 3, 92 KAPITEL 6. VEKTORRÄUME 6.3. SUMMEN UND DIREKTE SUMMEN das heißt die Summe U + W ist der ganze R3 . Aufgrund von U ∩ W = {0V } ist die Summe sogar direkt U ⊕ W = R3 . 2. Seien U, W ( R3 Unterräume der Dimension 2 mit den Basen u1 , u2 , bzw. w1 , w2 . Wenn U 6= W , dann gibt es in U einen Vektor u, der zu w1 , w2 linear unabhängig ist, so dass u, w1 , w2 eine Basis des R3 ist. Daher ist U + W = R3 und wir können mit der Dimensionsformel (6.2) die Dimension des Durchschnitt U ∩ W berechnen 3 = dim(U + W ) = dim U + dim W − dim(U ∩ W ) = 2 + 2 − dim(U ∩ W ). Somit ist dim(U ∩ W ) = 1, das heißt, wenn sich zwei Ebenen im Raum schneiden, dann entsteht eine Gerade. 93 7. Matrizen, lineare Gleichungssysteme und lineare Abbildungen Lineare Gleichungssysteme werden meist schon in der Schule behandelt um geometrische Fragestellungen zu beantworten. Schreibt man die Koeffizienten vor den Unbekannten des linearen Gleichungssystems in Form eines tabellenartigen Schemas – Matrix genannt und die Unbekannten dahinter als Spaltenvektor, dann kann man ein lineares Gleichungssystem in knapper und übersichtlicher Weise untersuchen. Das spart das Mitführen der Unbekannten in jedem Rechnenschritt und liefert gleichzeitig eine neue Sichtweise. Wir werden sehen, dass auch das Studium von Abbildungen zwischen Vektorräumen zwangsläufig zu Matrizen führt. Dies ermöglicht uns enge Zusammenhänge zwischen diesen auf den ersten Blick unterschiedlichen Objekten herzustellen, wodurch wir zu neuen Erkenntnissen gelangen. 7.1. Matrizen In diesem Abschnitt wollen wir lernen mit Matrizen zu rechnen und sehen welche Art von Operationen mit ihnen möglich sind. Definition 7.1.1 Seien m und n zwei natürliche Zahlen, m, n ≥ 1 und K ein Körper. Eine m×n Matrix A mit Einträgen in K ist ein rechteckiges, tabellenförmiges Zahlenschema mit m Zeilen und n Spalten a11 a12 ... a1n a21 a22 ... a2n A= . = aij i∈{1,...,m} = (aij ), . . .. .. .. j∈{1,...,n} am1 am2 ... amn wobei aij ∈ K. Wir sagen A ist eine “m kreuz n Matrix”. Wir bezeichnen mit MatK (m, n) die Menge der m × n Matrizen mit Einträgen in K. Insbesondere, wenn aus dem Kontext klar ist wie viele Zeilen und Spalten eine Matrix hat, dann benutzen wir die verkürzende Schreibweise A = (aij ). Analog zum Vektorraum K n definieren wir eine Addition für Matrizen gleicher Größe, sowie eine Skalarmultiplikation. Definition 7.1.2 • Seien A, B ∈ MatK (m, n), λ ∈ K, dann definieren wir die Summe, sowie die Skalarmultiplikation von Matrizen A + B = (aij + bij )i∈{1,...,m} j∈{1,...,n} 94 und λA = (λaij )i∈{1,...,m} . j∈{1,...,n} KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN • Seien A = (aik ) ∈ MatK (m, n) und B = (bkj ) ∈ MatK (n, p). Für i ∈ {1, ..., m} und j ∈ {1, ..., p} werden durch cij := n X aik bkj (7.1) k=1 die Koeffizienten einer m × p Matrix C := (cij ) ∈ MatK (m, p) festgelegt, die man die Produktmatrix von A und B nennt, man schreibt dafür C = A · B = AB. Um die Produktmatrix AB berechnen zu können, ist es notwendig, dass die Matrix A genauso viele Spalten hat, wie die Matrix B Zeilen hat. Das Produkt hat dann so viele Zeilen wie A und so viele Spalten wie B. Zur Berechnung des Eintrags in der i-ten Zeile und der j-ten Spalte des Produkts, benötigt man die i-te Zeile von A und die j-te Spalte von B. Diese haben gleich viele Einträge, nämlich n Stück, so dass es möglich ist den k-ten Eintrag der i-ten Zeile von A mit dem k-ten Eintrag der j-ten Spalte von B zu multiplizieren. Diese für k = 1, . . . , n berechneten Produkte werden dann aufaddiert. Beispiel 7.1.3 1 2 • Wir berechnen die Summe der Matrizen A = 0 −2 , −1 0 3 0 2 1 ∈ MatK (3, 2) und erhalten B= −1 −2 1 2 3 0 4 2 1 = 2 −1 . A + B = 0 −2 + 2 −1 0 −1 −2 −2 −2 Außerdem berechnen wir 5 · A und erhalten 1 2 5 10 5 · A = 5 · 0 −2 = 0 −10 . −1 0 −5 0 1 3 • Wir berechnen das Produkt der Matrizen A = ∈ MatK (2, 2) und −2 5 2 1 B= ∈ MatK (2, 2). Dies ist möglich, da A genauso viele Spalten hat, wie −1 1 B Zeilen, nämlich 2. 1 3 2 1 1 · 2 + 3 · (−1) 1·1+3·1 −1 4 A·B = · = = . −2 5 −1 1 −2 · 2 + 5 · (−1) −2 · 1 + 5 · 1 −9 3 1 4 • Jetzt wollen wir das Produkt der Matrizen A = 2 5 ∈ MatK (3, 2) und 3 6 1 0 −1 2 B= ∈ MatK (2, 4) berechnen. Auch hier kann das Produkt A · B 2 3 0 −1 95 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN in der Tat berechnet werden kann, da A zwei Spalten und B zwei Zeilen hat. Umgekehrt kann B · A nicht berechnet werden, da die Anzahl der Spalten von B ungleich der Anzahl der Zeilen von A ist (4 6= 3). 1 4 1 0 −1 2 A · B = 2 5 · 2 3 0 −1 3 6 1 · 1 + 4 · 2 1 · 0 + 4 · 3 1 · (−1) + 4 · 0 1 · 2 + 4 · −1 = 2 · 1 + 5 · 2 2 · 0 + 5 · 3 2 · (−1) + 5 · 0 2 · 2 + 5 · −1 3 · 1 + 6 · 2 3 · 0 + 6 · 3 3 · (−1) + 6 · 0 3 · 2 + 6 · −1 1 + 8 0 + 12 −1 + 0 2 − 4 9 12 −1 −2 = 2 + 10 0 + 15 −2 + 0 4 − 5 = 12 15 −2 −1 3 + 12 0 + 18 −3 + 0 6 − 6 15 18 −3 0 Die Matrix AB hat 3 Zeilen, da A 3 Zeilen hat und 4 Spalten, da B 4 Spalten hat. Satz 7.1.4 Die Menge der m × n Matrizen MatK (m, n) ist ein K-Vektorraum der Dimension m · n. Beweis. Da eine m × n-Matrix m · n Einträge aus K hat und Addition und Skalarmultiplikation komponentenweise definiert wurden, können wir die Menge MatK (m, n) mit dem Vektorraum K m·n identifizieren. Das neutrale Element der Addition ist die Nullmatrix Om,n mit den Einträge oij = 0 für alle i = 1, . . . , m und j = 1, . . . , n. Eine Basis von MatK (m, n) bilden die Matrizen Eij , die in der i-ten Zeile und j-ten Spalte den Eintrag 1 haben und sonst null. Satz 7.1.5 (Assoziativität der Matrixmultiplikation) Seien A ∈ MatK (m, n), B ∈ MatK (n, p), C ∈ MatK (p, q) Matrizen, dann gilt: (A · B) · C = A · (B · C) Beweis. Zunächst bemerken wir, dass es möglich ist die angegebenen Produkte zu berechnen. Das Produkt A · B liegt in MatK (m, p) und kann daher mit der Matrix C ∈ MatK (p, q) multipliziert werden, so dass (A · B) · C ∈ MatK (m, q). Auf der anderen Seite liegt B · C ∈ MatK (n, q) so dass A · (B · C) Sinn ergibt und ebenfalls in MatK (m, q) liegt. Wir betrachten jetzt einen Eintrag des Produkts (A · B) · C: (A · B) · C ij p P Bilde das Produkt von AB und C (A · B)i` c`j `=1 p n P P = aik bk` c`j Bilde das Produkt von A und B = = `=1 k=1 p P n P aik bk` c`j Distributivgesetz in K `=1k=1 96 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN p n P P Kommutativgesetz der Addition in K aik bk` c`j k=1`=1 p n P P Distributivgesetz in K bk` c`j aik = = `=1 k=1 n P aik (B · C)kj k=1 = A · (B · C) ij = Definition des Produkts von B und C Definition des Produkts von A und BC Diese Rechnung gilt für alle i = 1, . . . , m und j = 1, . . . , q und damit für alle Einträge der Produktmatrizen. Satz 7.1.6 (Distributivität der Matrixmultiplikation) Seien A ∈ MatK (m, n), B ∈ MatK (n, p), C ∈ MatK (n, p) Matrizen, dann gilt: A · (B + C) = A · B + A · C Seien A ∈ MatK (m, n), B ∈ MatK (m, n), C ∈ MatK (n, p) Matrizen, dann gilt: (A + B) · C = A · C + B · C Beweis. Zunächst bemerken wir, dass es möglich ist die angegebenen Summen und Produkte zu berechnen. Die Summe B + C liegt in MatK (n, p) und kann daher mit der Matrix A ∈ MatK (m, n) multipliziert werden, so dass A · (B + C) ∈ MatK (m, p). Auf der anderen Seite liegt sowohl A · B ∈ MatK (m, p), als auch A · C ∈ MatK (m, p), so dass die Summe A · B + A · C Sinn ergibt und ebenfalls in MatK (m, q) liegt. Wir betrachten jetzt einen Eintrag des Produkts A · (B + C): A · (B + C) ij = = = n P ai` (B + C)`j `=1 n P ai` (b`j + c`j ) `=1 n P (ai` b`j + ai` c`j ) `=1 n P Bilde das Produkt von A und B + C Bilde die Summe von B und C Distributivgesetz in K n P ai` c`j Assoziativgesetz der Addition in K `=1 `=1 Definition des Produkts von A und B, bzw. von A und C = (AB)ij + (AC)ij = ai` b`j + Das zweite Distributivgesetz wird analog bewiesen. Es ist notwendig beide Distributivgesetze anzugeben, da die Matrixmultiplikation nicht kommutativ ist und somit nicht das eine Gesetz aus dem anderen folgt. Satz 7.1.7 Seien A ∈ MatK (m, n), B ∈ MatK (n, p) Matrizen und λ ∈ K, dann gilt: λ · (A · B) = (λ · A) · B = A · (λ · B) 97 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN Beweis. Multiplikation mit einem Skalar ändert die Größe einer Matrix nicht, so dass alle Produkte definiert sind. Wir betrachten jetzt einen Eintrag des Produkts λ · (A · B): λ · (A · B) ij = λ n P ai` b`j Bilde das Produkt von A und B `=1 n P (λai` ) b`j Assoziativität der Multiplikation in K `=1 = ((λA) · B)ij Definition des Produkts von λA und B . = Auf analoge Weise lässt sich auch die Gleichung λ · (A · B) = A · (λ · B) zeigen. Satz 7.1.8 Die Menge der quadratischen Matrizen MatK (n, n) ist ein Ring mit Eins. Beweis. Die Eigenschaften der Addition folgen aus Satz 7.1.4. Das Assoziativgesetz der Multiplikation folgt aus Satz 7.1.5 und das Distributivgesetz aus Satz 7.1.6. Das neutrale Element der Multiplikation ist die Einheitsmatrix 1 0 0 0 0 1 0 0 En = , . . 0 0 . 0 0 0 0 1 dies ist eine Matrix mit den Einträgen 1 auf der Diagonale und null sonst. Die Einheitsmatrix ist das neutrale Element der Multiplikation, denn es gilt (A · En )ij = n X aik (En )kj = aij , k=1 da (En )kj = 1, wenn k = j und (En )kj = 0, wenn k 6= j. Bemerkung 7.1.9 Der Ring MatK (n, n) ist für n > 1 nicht kommutativ, da zum Beispiel 2 0 1 1 2 2 2 1 1 1 2 0 A·B = · = 6= = · = B · A. 0 1 0 1 0 1 0 1 0 1 0 1 Bemerkung 7.1.10 Für nichtquadratische Matrizen macht das Produkt B · A nicht zwangsläufig Sinn, nur weil A · B Sinn macht. Und selbst wenn beide Produkte Sinn ergeben, dann ist die entstehende Matrix von einem anderen Format. Als Beispiel berechnen wir das Produkt eines und eines Spaltenvektors gleicher Größe. Zeilenvektor −1 Sei also v = (2, 3, −2) und w = 0 , dann ist 2 −1 v · w = (2, 3, −2) · 0 = 2 · (−1) + 3 · 0 + (−2) · 2 = −6 2 98 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN aber 7.1. MATRIZEN −1 −2 −3 2 0 0 w · v = 0 · (2, 3, −2) = 0 2 4 6 −4 Die Definition der transponierten Matrix ist zum gegenwärtigen Zeitpunkt ziemlich unmotiviert, das wird sich aber ändern, sobald wir Matrizen als lineare Abbildungen mit euklidischen Vektorräumen und insbesondere dem Skalarprodukt in Verbindung bringen. Definition 7.1.11 (Transponierte) Es sei A ∈ MatK (m, n) eine Matrix. Die zu A transponierte Matrix A> ∈ MatK (n, m) ergibt sich sich und Zeilen von A. durch Vertauschen der Spalten Sei A = aij i∈{1,...,m} , dann ist A> = aji j∈{1,...,n} . j∈{1,...,n} i∈{1,...,m} Beispiel 7.1.12 A= 1 1 2 3 4 3 1 3 A> = 1 4 ∈ MatR (3, 2) 2 3 ∈ MatR (2, 3) ⇒ 1 −2 4 v= 3 ∈ MatR (4, 1) = R 1 v > = 1 −2 3 1 ∈ MatR (1, 4) ⇒ Offenbar wird man durch zweifaches Transponieren auf die Ausgangsmatrix zurückgeführt, d.h. es gilt (A> )> = A>> = A . (7.2) Satz 7.1.13 (Transponierte einer Produktmatrix) Es seien A ∈ MatK (m, p) und B ∈ MatK (p, n). Dann ist die transponierte Matrix der Produktmatrix AB ∈ MatK (m, n) gegeben durch (AB)> = B > A> ∈ MatK (n, m), d.h. die Transponierte der Produktmatrix entspricht dem Produkt der transponierten Faktoren in umgekehrter Reihenfolge. Beweis. Es seien A = (aj` ) und B = (b`i ). Da B > ∈ MatK (n, p) und A> ∈ MatK (p, m) ist das Matrixprodukt B > A> wohldefiniert. Definitionsgemäß ist das Matrixelement der Produktmatrix AB mit den Indizes i, j gegeben durch (AB)ji = p P aj` b`i . `=1 99 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN Vertauschen der Indizes i und j liefert das Matrixelement an der Position i, j (i’te Zeile, j’te Spalte) der transponierten Produktmatrix (AB)> . Somit erhalten wir Definition der Transponierten von AB (AB)> ij = (AB)ji = = p P Produkt von A und B aj` b`i `=1 p P Kommutativgesetz der Multiplikation in K b`i aj` `=1 p P (B > )i` (A> )`j Definition der Transponierten von A, bzw. B `=1 Definition des Produkts von B > und A> = (B > A> )ij = wodurch die Behauptung bestätigt ist, denn zwei gleichformatige Matrizen sind genau dann gleich, wenn sie in alle ihren Einträgen übereinstimmen. Definition 7.1.14 (Spaltenrang und Zeilenrang) Der Spaltenrang (Zeilenrang) einer Matrix A ∈ MatK (m, n) ist die maximale Anzahl linear unabhängiger Spaltenvektoren (Zeilenvektoren) von A. Beispiel 7.1.15 Wir betrachten 3 2 1 die Matrix 1 0 3 0 1 0 ∈ MatR (3, 4) 1 −1 3 Der Zeilenrang von A ist 2, da jeweils 2 Zeilen linear unabhängig sind, aber die erste Zeile die Summe der zweiten und der dritten Zeile ist. Der Spaltenrang ist ebenfalls 2, da zum einen die vierte Spalte das dreifache der zweiten Spalten ist. Außerdem kann man die erste Spalte aus der zweiten und dritten Spalte linear kombinieren und zwar indem man die zweite Spalte mit 3 multipliziert und die dritte mit 2 und dies aufaddiert. Da aber die zweite und dritte Spalte linear unabhängig sind, ist der Spaltenrang 2. Wir sehen, dass für eine m × n Matrix der Zeilenrang kleiner gleich m sein muss, da es ja genau m Zeilen gibt. Außerdem muss der Zeilenrang kleiner gleich n sein, da jede Zeile ein Vektor aus dem K n ist und maximal n davon können linear unabhängig sein. Für den Spaltenrang können wir analog argumentieren und erhalten die Abschätzung Zeilenrang ≤ min(m, n) und Spaltenrang ≤ min(m, n). Satz 7.1.16 (Rang einer Matrix) Bei jeder Matrix A ∈ MatK (m, n) stimmen Spalten- und Zeilenrang überein. 100 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN Beweis. Da die Behauptung im Falle der Nullmatrix richtig ist, betrachten wir im folgenden eine von der Nullmatrix verschiedene Matrix A ∈ MatK (m, n) 1 1 a a1 . . . a1n .. . .. = ... A= . = a1 . . . an am . . . am am n 1 mit den Zeilenvektoren a1 , ..., am ∈ Kn und den Spaltenvektoren a1 , ..., an ∈ K m . Es sei 1 ≤ s ≤ n der Spaltenrang von A. Dann gibt es s linear unabhängige Spaltenvektoren b1 , ..., bs ∈ K m , so daß sich jeder der n Spaltenvektoren a1 , ..., an als Linearkombination der b1 , ..., bs schreiben läßt. Anders ausgedrückt, gibt es zu jedem Spaltenvektor ai mit i ∈ {1, ..., n} Koeffizienten c1i , ..., csi , so daß ai = s X cki bk . k=1 Für das Matrixelement aji gilt dann aji = s X cki bjk , k=1 j wobei bk die j’te Komponente von bk bezeichnet. Die cki ’s lassen sich zu s Zeilenvektoren ck = (ck1 , ..., ckn ) zusammenfassen. Auf diese Weise läßt sich die obige Gleichung für den j’ten Zeilenvektor aj in der Form j a = s X k=1 ck bjk = s X bjk ck k=1 schreiben. Damit ergibt sich jeder der m Zeilenvektoren als Linearkombination der s Zeilenvektoren c1 , ..., cs ∈ Kn . Daher muß Zeilenrang von A = z ≤ s = Spaltenrang von A gelten. Wir erhalten nur eine obere Abschätzung des Zeilenrangs, da die lineare Abhängigkeit der c1 , ..., cs nicht ausgeschlossen ist bzw. die lineare Unabhängigkeit der c1 , ..., cs nicht gesichert ist. Um die Gleichheit zu zeigen, führen wir die obige Argumentation in umgekehrter Weise durch. Dazu sei 0 ≤ z ≤ n der Zeilenrang von A. Dann gibt es z linear unabhängige Zeilenvektoren c̃1 , ..., c̃z ∈ Kn , so daß sich sämtliche Zeilenvektoren der Matrix A jeweils daraus linear kombinieren lassen. Analog zur obigen Rechnung läßt sich daraus Spaltenrang von A = s ≤ z = Zeilenrang von A schließen. Also gilt s ≤ z aber auch z ≤ s wie oben gesehen. Das ist nur möglich wenn s = z, d.h. Spalten- und Zeilenrang sind gleich. Definition 7.1.17 Sei A ∈ MatK (n, m) eine Matrix, dann ist Rang der Matrix A, geschrieben rangA, definiert als der Spaltenrang von A. 101 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN Die quadratischen Matrizen bilden einen Ring (s. Def. 4.3.6), das heißt wir können Matrizen miteinander multiplizieren, aber es gibt nicht für jedes Element ein Inverses bezüglich der Multiplikation. Aber genau wie in den Restklassenringen spielen die Einheiten (s. Def. 4.3.10), also diejenigen Matrizen, die ein Inverses besitzen, eine wichtige Rolle und bilden insbesondere eine Gruppe (s. Prop. 4.3.12). Definition 7.1.18 (Inverse) Eine Matrix A ∈ MatK (n, n) heißt invertierbar, falls eine Matrix A−1 ∈ MatK (n, n) existiert mit A−1 A = AA−1 = En . Die Matrix A−1 heißt die zu A inverse Matrix bzw. die Inverse von A. Die Menge der invertierbaren n × n-Matrizen wird mit Gln (K) bezeichnet (“general linear group=allgemeine lineare Gruppe”). Satz 7.1.19 Die Matrix A ∈ MatK (n, n) sei invertierbar. i) Ist B ∈ MatK (n, n) eine weitere invertierbare Matrix, so ist auch das Matrixprodukt AB invertierbar und es gilt (AB)−1 = B −1 A−1 . Man beachte die Analogie zur Transponierten einer Produktmatrix (siehe Satz 7.1.13). ii) Die Matrixoperationen Transponieren und Invertieren sind miteinander vertauschbar; es gilt also (A> )−1 = (A−1 )> . Beweis. ad i) Wir müssen zeigen, dass B −1 A−1 ein zu AB inverses Element ist, dafür multiplizieren wir diese Matrizen miteinander um zu sehen, ob das Produkt die Einheitsmatrix ist: (AB) · (B −1 A−1 ) = A B(B −1 A−1 ) Assoziativgesetz = A (BB −1 )A−1 Assoziativgesetz Definition der inversen Matrix = A En A−1 Einheitsmatrix ist neutrales Element = AA−1 = En Definition der inversen Matrix Dieser Beweis entspricht dem Beweis von Proposition 4.3.12. 102 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN ad ii) A> (A−1 )> = (A−1 A)> Satz 7.1.13 Definition der inversen Matrix = E> n Transponieren der Einheitsmatrix ergibt die Einheitsmatrix = En Damit besitzt (A−1 )> genau die definierende Eigenschaft der Inversen (A> )−1 von A> . Definition 7.1.20 Drei spezielle Arten von quadratischen Matrizen werden als Elementarmatrizen bezeichnet: λ1 λ2 • Diag(λ1 , λ2 , . . . , λn ) = . . . λn Die Matrix A = Diag(λ1 , λ2 , . . . , λn ) hat die Einträge aii = λi und aij = 0, wenn i 6= j. Man bezeichnet Diag(λ1 , λ2 , . . . , λn ) als Diagonalmatrix, da sie nur Einträge auf der Diagonalen hat. 1 .. . 1 0 1 1 . .. • Tij = 1 1 0 1 .. . 1 Die Matrix A = Tij hat die Einträge a`` = 1, wenn ` 6= i, j, aii = ajj = 0, aij = aji = 1 und a`k = 0, sonst. 1 .. . λ 1 • Mij (λ) = .. . 1 Die Matrix A = Mij (λ) hat die Einträge a`` = 1, für alle ` = 1, . . . , n, aij = λ und a`k = 0, sonst. Proposition 7.1.21 Sei A ∈ MatK (n, m), dann bewirkt die Multiplikation von links mit einer Elementarmatrix M ∈ MatK (n, n) folgende elementare Zeilenumformung: 103 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.1. MATRIZEN • Multiplikation mit M = Diag(λ1 , λ2 , . . . , λn ) entspricht der Multiplikation der i-ten Zeile mit dem Wert λi (für i = 1, . . . , n). • Multiplikation mit M = Tij entspricht dem Vertauschen der i-ten Zeile mit der j-ten Zeile. • Multiplikation mit M = Mij (λ) entspricht der Addition des λ-fachen der j-ten Zeile zur i-ten Zeile. Die Multiplikation von rechts mit einer Elementarmatrix M ∈ MatK (m, m) bewirkt die entsprechenden elementaren Spaltenumformungen. Beispiel 7.1.22 Wir betrachten hier die Matrix −1 0 3 −4 1 −2 0 ∈ MatR (3, 4), A= 3 2 −1 0 1 die wir von links mit den Elementarmatrizen 1 0 0 2 0 0 Diag(2, −1, 3) = 0 −1 0 , T23 = 0 0 1 0 1 0 0 0 3 multiplizieren wollen, wobei 2 Diag(2, −1, 3) · A = 0 0 1 0 5 und M13 (5) = 0 1 0 0 0 1 Diag(2, −1, 3), T23 , M13 (5) ∈ MatR (3, 3). 0 0 −1 0 3 −4 −2 0 6 −8 −1 0 · 3 1 −2 0 = −3 −1 2 0 0 3 2 −1 0 1 6 −3 0 3 Die Produktmatrix entsteht aus A durch Multiplikation der zweiten Zeile mit −1 und der dritten Zeile mit 3. 1 0 0 −1 0 3 −4 −1 1 −2 0 = 2 T23 · A = 0 0 1 · 3 0 1 0 2 −1 0 1 3 Die Produktmatrix entsteht aus A durch 1 0 5 −1 M13 (5) · A = 0 1 0 · 3 0 0 1 2 ersten Zeile mit 2, der 0 3 −4 −1 0 1 1 −2 0 vertauschen der zweiten und dritten Zeile. 0 3 −4 9 −5 3 1 1 −2 0 = 3 1 −2 0 −1 0 1 2 −1 0 1 Die Produktmatrix entsteht aus A durch Addition des fünffachen der dritten Zeile auf die erste Zeile. Satz 7.1.23 Seien Diag(λ1 , λ2 , . . . , λn ), wobei λi 6= 0, Tij und Mij (λ) für i 6= j Elementarmatrizen. Dann sind diese Matrizen invertierbar und besitzen die folgenden Inversen: −1 −1 Diag(λ1 , λ2 , . . . , λn )−1 = Diag(λ−1 1 , λ2 , . . . , λn ), 104 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN T−1 ij = Tij , 7.1. MATRIZEN und Mij (λ)−1 = Mij (−λ) Der Beweis dieses Satzes ergibt sich durch einfaches Nachrechnen, dass die angegebenen Matrizen die Inversen sind. Es ist auch möglich sich zu überlegen, dass diese Matrizen M −1 genau den elementaren Zeilenumformungen entsprechen, die die Umformungen, die M bewirkt umkehren. Satz 7.1.24 Jede invertierbare Matrix A ∈ MatK (n, n) ist ein Produkt von invertierbaren Elementarmatrizen. Wir werden diesen Satz in Kürze beweisen, aber wir werden ihn jetzt bereits nutzen um die inverse Matrix einer invertierbaren Matrix zu bestimmen. Wir nehmen an, die invertierbare Matrix A ∈ MatK (n, n) sei das Produkt von k invertierbaren Elementarmatrizen M1 , ..., Mk , das heißt A = M1 · . . . · Mk , dann ist nach Satz 7.1.19 A−1 = (M1 · . . . · Mk )−1 = Mk−1 · . . . · M1−1 . Anders formuliert: Durch sukzessives Multiplizieren der Matrizen M1−1 , M2−1 , . . . , Mk−1 mit A entsteht die Einheitsmatrix. Das bedeutet, wir können A durch elementare Zeilenumformungen zu einer Einheitsmatrix transformieren. Führen wir gleichzeitig dieselben Zeilenumformungen an einer Einheitsmatrix durch, dann erhalten wir so die zu A inverse Matrix. Beispiel 7.1.25 Sei A := 1 2 4 2 ∈ MatQ (2, 2) gegeben. Wir bestimmen A−1 durch elementare Zeilenumformungen: ! −4 1 2 | 1 0 4 2 | 0 1 1 0 2 | ← −+ ! 1 0 −6 | −4 1 | · ! 1 2 | 1 0 ← −+ 0 1 | 1 0 | 0 1 | 2 3 −1 3 2 3 −1 6 1 3 −1 6 −1 6 −2 ! Diese drei Zeilenumformungen entsprechen der Multiplikation von links mit den Matrizen 1 0 1 0 1 −2 −1 −1 −1 M1 = M2 = und M3 = −4 1 0 − 61 0 1 105 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.2. LINEARE GLEICHUNGSSYSTEME so dass wir sehen, dass A−1 = M3−1 · M2−1 · M1−1 1 0 1 0 1 0 −1 −1 = M3 · 2 = M3 · 1 −4 1 0 − 16 3 −6 1 1 1 −2 1 0 −3 3 = = 2 1 2 0 1 − 16 3 −6 3 gilt, in Übereinstimmung mit der obigen Rechnung. Ebenso sehen wir, dass A gleich dem Produkt M1 M2 M3 ist. Dafür berechnen mit Satz 7.1.23 die Inversen der Elementarmatrizen 1 0 1 0 1 2 M1 = M2 = und M3 = 4 1 0 −6 0 1 und erhalten A = M 1 · M2 · M3 1 0 1 2 1 2 = M1 · = M1 · 0 −6 0 1 0 −6 1 0 1 2 1 2 = = 4 1 0 −6 4 2 wie erwartet. Zur Probe zeigen wir noch, dass A · A−1 = E2 ergibt. ! ! ! 1 −1 4 1 2 −1 1 2 + − 3 3 3 3 6 = −4 = · 23 −1 4 4 2 4 2 + − 3 6 3 3 3 6 1 0 ! 0 1 7.2. Lineare Gleichungssysteme In diesem Abschnitt werden wir kennenlernen, wie man lineare Gleichungssysteme mithilfe von Matrizen kurz und knapp formulieren kann und uns damit beschäftigen, wie man sie löst. Definition 7.2.1 (Lineares Gleichungssystem) Sei K ein Körper. Ein lineares Gleichungssstem (kurz LGS) mit m Gleichungen und n Unbekannten und Koeffizienten in K hat die Form Ax = b, wobei A ∈ MatK (m, n), x ∈ K n = MatK (n, 1), b ∈ K m = MatK (m, 1). Ist b = 0V spricht man von einem homogenen LGS, sonst von einem inhomogenen LGS. Die Menge L(A, b) = {x ∈ K n | Ax = b} ⊆ K n heißt Lösungsmenge des LGS Ax = b. 106 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.2. LINEARE GLEICHUNGSSYSTEME Die Matrixmultiplikation ist genauso definiert, dass das Produkt aus einer Matrix mit einem Vektor bestehend aus Unbekannten (ein Vektor ist eine Matrix mit einer Spalte) uns ein lineares Gleichungssystem liefert. Beispiel 7.2.2 Für a11 , a12 , a21 , a22 , b1 , b2 ∈ K ist a11 a12 x1 b = 1 a21 a22 x2 b2 ein LGS mit zwei Gleichungen und zwei Unbekannten. Anders formuliert: a11 x1 + a12 x2 = b1 a21 x1 + a22 x2 = b2 0 −1 3 Beispiel 7.2.3 Sei A = , dann ist 2 1 0 x1 − x2 + 3x3 0 −1 3 3 x2 = Ax = = 2 1 0 2x1 + x2 1 x3 ein LGS mit zwei Gleichungen und drei Unbekannten. Satz 7.2.4 Die Lösungsmenge eines homogenen LGS mit Koeffizienten aus K ist ein K-Vektorraum. Beweis. Da L(A, 0) ⊆ K n also die Teilmenge eines Vektorraums ist, genügt es zu zeigen, dass L(A, 0) ein Untervektorraum des K n ist. Dafür müssen wir die Abgeschlossenheit bezüglich Addition und Skalarmultiplikation zeigen (s. Def. 6.1.5). Seien x, y Lösungen eines homogenen LGS, d.h. Ax = 0 und Ay = 0, sowie λ ∈ K. Dann gilt unter Verwendung von Satz 7.1.6 und 7.1.7: A(x + y) = Ax + Ay = 0 + 0 = 0 und A(λx) = λAx = λ0 = 0. Somit sind sowohl, x + y ∈ L(A, 0) und λx ∈ L(A, 0), das heißt L(A, 0) ist abgeschlossen bezüglich Addition und Skalarmultiplikation. Wir wollen nun eine Strategie entwickeln wie man die Lösungsmenge eines LGS bestimmen kann. Ist die Matrix A eine Diagonalmatrix, dann ist es einfach die Lösungsmenge zu bestimmen. Für andere Matrizen müssen wir uns zunächst überlegen, welche Art von Umformungen die Lösungsmenge des LSG nicht ändern um dann zu zeigen, in welche günstige Form die Matrix gebracht werden kann, so dass man die Lösungsmenge des LGS leicht bestimmen kann. 107 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.2. LINEARE GLEICHUNGSSYSTEME Definition 7.2.5 Eine Matrix A hat obere Zeilenstufenform, wenn folgendes gilt: Sind in Zeile i die Einträge der ersten k − 1 Spalten gleich null, d.h. ai1 , . . . , ai(k−1) = 0, aber aik = 6 0, dann müssen in Zeile i + 1 mindestens die Einträge der ersten k Spalten a(i+1)1 , . . . , a(i+1)k = 0 sein. Für eine Matrix in Zeilenstufenform heißt der erste von 0 verschiedene Eintrag jeder Zeile Leitkoeffizient dieser Zeile. Beispiel 7.2.6 a 0 0 0 0 Folgende Matrizen haben obere Zeilenstufenform: ∗ ∗ ∗ ∗ ∗ ∗ a ∗ ∗ a ∗ ∗ ∗ b ∗ ∗ ∗ ∗ ∗ 0 b ∗ ∗ 0 0 0 0 0 c ∗ ∗ ∗ 0 0 c ∗ 0 0 0 0 0 0 d ∗ ∗ 0 0 0 0 0 0 d 0 0 0 0 0 e ∗ b 0 0 ∗ ∗ c 0 wobei a, b, c, d, e 6= 0 die Leitkoeffizienten sind und ∗ für einen beliebigen Eintrag aus K steht. Satz 7.2.7 Die Lösungsmenge eines LGS ändert sich nicht, wenn die Gleichung von links mit einer invertierbaren Matrix M multipliziert wird: L(A, b) = L(A0 , b0 ), wobei A0 = M A und b0 = M b. Beweis. Wenn x eine Lösung von Ax = b ist, dann ist x auch Lösung von M Ax = M b. Wenn x eine Lösung von A0 x = b0 ist, dann ist x auch Lösung von M −1 A0 x = M −1 b0 , d. h. von M −1 M Ax = Ax = b = M −1 M b. Aufgrund von Satz 7.1.23 sind die Elementarmatrizen Diag(λ1 , λ2 , . . . , λn ), wobei λi 6= 0, Tij und Mij (λ) für i 6= j invertierbar und entsprechen den elementaren Zeilenumformungen: Regel a: Vertauschen zweier Zeilen. Regel b: Addition des λ-fachen (λ ∈ K) der Zeile j zur Zeile i. Regel c: Multiplikation einer Zeile mit 0 6= λ ∈ K. Diese Zeilenumformungen ändern also nicht die Lösungsmenge eines LGS. Satz 7.2.8 Jede Matrix lässt sich durch elementare Zeilenumformungen in obere Zeilestufenform bringen. Den Beweis dieses Satzes geben wir in Form eines Algorithmus an. 108 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.2. LINEARE GLEICHUNGSSYSTEME Algorithmus 7.2.9 (Obere Zeilenstufenform) Eingabe: A = (aij ) ∈ MatK (m, n) Ausgabe: B ∈ MatK (m, n) in oberer Zeilenstufenform Durchführung: (1) Betrachte die erste Spalte von A a11 ∗ . . . .. . ai1 ∗ .. . ∗ Sollte a11 = 0 gelten, tausche die erste Zeile mit einer Zeile j, für die aj1 6= 0 gilt (Regel a). Für jede Zeile in der ai1 6= 0 gilt, tun wir jetzt folgendes: Wir addieren i1 das − aa11 -fache der ersten Zeile zur i-ten Zeile (Regel b). Somit ist der neue Eintrag i1 · a11 + ai1 = 0. in der i-ten Zeile und ersten Spalte − aa11 (2) Betrachte die restlichen Einträge unter rechts von a11 als neue Matrix à a11 ∗ . . . ∗ 0 .. . à 0 und wende Schritt (1) auf diese an. Sind alle Einträge der ersten Spalte von à ≈ gleich 0, dann betrachten wir die Matrix A a11 ∗ ∗ . . . 0 0 ≈ .. .. . . A 0 ∗ 0 und wende Schritt (1) auf diese an. Definition 7.2.10 Sei A ∈ MatK (m, n). Wir sagen, dass A in Gauß-Jordan-Form ist, wenn A in einer Zeilenstufenform ist, bei der alle Leitkoeffizienten 1 sind und oberhalb der Leitkoeffizienten nur Nullen stehen. Beispiel 7.2.11 1 0 0 0 0 Folgende Matrizen haben 0 ∗ 0 0 ∗ 0 1 1 ∗ 0 0 ∗ 0 0 0 0 1 0 ∗ 0 0 0 0 0 1 ∗ 0 0 0 0 0 0 0 1 Gauß-Jordan-Form: 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 ∗ 0 0 0 ∗ 0 0 0 0 1 0 0 0 0 1 0 109 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.2. LINEARE GLEICHUNGSSYSTEME wobei ∗ für einen beliebigen Eintrag aus K steht. Satz 7.2.12 Jede Matrix A ∈ MatK (m, n) kann durch elementare Zeilenumformungen in Gauß-Jordan-Form gebracht werden. Auch diesen Beweis geben wir in Form eines Algorithmus an. Algorithmus 7.2.13 (Gauß-Jordan-Form) Eingabe: Eine Matrix A ∈ MatK (m, n) Ausgabe: Eine Matrix B ∈ MatK (m, n) in Gauß-Jordan-Form. Durchführung: (1) Bringe A in obere Zeilenstufenform mithilfe des Algorithmus 7.2.9. (2) Sei ai 6= 0 der Leitkoeffizient der i-ten Zeile, dann multipliziere diese Zeile mit 1/ai (Regel c). (3) Betrachte die erste Spalte von links mit einem Leitkoeffizienten. Steht in der j-ten Zeile über dem Leitkoeffizienten der i-ten Zeile ein Eintrag b 6= 0, dann multipliziere die i-te Zeile mit −b und addiere sie zur j-ten Zeile (Regel b). (4) Wende Schritt (3) von links nach rechts alle Spalten mit einem Leitkoeffizienten an. Beispiel 7.2.14 Wir betrachten die Matrix 0 0 4 −2 1 0 2 −2 A = −1 2 2 −4 −2 −3 0 die wir mithilfe elementarer Zeilenumformungen in Gauß-Jordan-Form bringen wollen. Zunächst wenden wir Algorithmus 7.2.9 an um die Matrix in obere Zeilenstufenform zu bringen. Der erste Schritt besteht darin die ersten zwei Zeilen zu tauschen um oben links einen Eintrag zu erhalten, der nicht null ist. ·2 0 0 4 −2 1 ← − −1 2 0 2 −2 2 0 2 − 2 ← − 0 4 −2 1 −1 0 2 −4 −2 −3 0 ← −+ 2 −4 −2 −3 0 −1 2 0 2 −2 −1 2 0 2 −2 1 ·2 0 4 −2 1 0 4 −2 1 0 0 0 0 0 0 − 72 0 0 −2 1 −4 ← −+ Die so entstandene Matrix hat obere Zeilenstufenform. Im nächsten Schritt machen wir alle Leitkoeffizienten zu 1 −1 2 0 2 −2 | · (−1) 1 −2 0 −2 2 0 0 0 4 −2 1 | · 41 0 1 − 12 14 7 2 0 0 0 0 −2 | · −7 0 0 0 0 1 110 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.2. LINEARE GLEICHUNGSSYSTEME Im letzten Schritt müssen alle Einträge oberhalb von Leitkoeffizieten zu null werden. Dies ist nur in der 5.ten Spalten noch nicht der Fall: 1 −2 0 −2 0 ←−−−−− + 1 −2 0 −2 2 0 1 − 12 0 −+ 0 1 − 12 14 ← 0 0 ·− 41 ·−2 0 0 0 0 1 0 0 0 0 1 Diese Matrix hat nun Gauß-Jordan-Form. Definition 7.2.15 Sei Ax = b ein lineares Gleichungssystem, dann nennen wir a11 . . . a1n b1 .. .. ∈ Mat (m, n + 1) (A, b) := ... K . . am1 . . . amn bm die erweiterte (Koeffizienten-)Matrix des linearen Gleichungssystems. Algorithmus 7.2.16 (Lösen linearer Gleichungssysteme) Eingabe: Lineares Gleichungssystem Ax = b. Ausgabe: L(A, b). Durchführung: (1) Bringe die Matrix (A, b) auf Gauß-Jordan-Form (A0 , b0 ). Enthält die Spalte b0 einen Leitkoeffizienten von (A0 , b0 ), so besitzt das System keine Lösung. Andernfalls ist das System lösbar - fahre fort. (2) Finde die Lösungsmenge des homogenen linearen Gleichungssystems U := L(A, 0) = L(A0 , 0). Wähle dazu die Unbekannten, die nicht zu den Spalten der Leitkoeffizienten gehören als freie Parameter. Drücke alle anderen Unbekannten mithilfe dieser Parameter aus. (3) Suche eine spezielle Lösung w aus L(A0 , b0 ). Setze dazu die Unbekannten, die nicht zu den Spalten der Leitkoeffizienten gehören auf Null. Die Unbekannten, die zu den Spalten der Leitkoeffizienten gehören, sind durch b0 festgelegt. Gebe L(A, b) = w + U = {v ∈ K n | v = w + u, u ∈ U } zurück. Wir werden im Verlauf von Abschnitt 7.3, insbesondere ab Seite 128, begründen warum uns dieser Algorithmus dieser Algorithmus wirklich die Lösungsmenge eines linearen Gleichungssystems berechnet. Hier wollen wir festhalten, dass sich durch das Umformen der erweiterten Koeffizienten-Matrix in Gauß-Jordan-Form die Lösungsmenge des LGS nicht ändert, da wir dabei nur elementare Zeilenumfomungen verwenden. 111 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN Beispiel 7.2.17 Sei die folgende Matrix 1 2 0 0 (A, b) = 0 0 7.2. LINEARE GLEICHUNGSSYSTEME in Gauß-Jordan-Form gegeben 0 0 0 | 0 1 0 0 | 0 . 0 0 0 | 1 0 0 0 0 0 | 0 Da in der Spalte b ein Leitkoeffizient steht, hat dieses LGS keine Lösung. In der letzten Zeile des LGS steht 0 · x1 + 0 · x2 + 0 · x3 + 0 · x4 + 0 · x5 = 1, eine Gleichung ohne Lösung. Beispiel 7.2.18 Sei die folgende 1 0 (A, b) = 0 Matrix in Gauß-Jordan-Form gegeben 3 8 0 −2 0 0 | 4 0 0 1 3 0 0 | 3 . 0 0 0 0 1 0 | 5 0 0 0 0 0 (7.3) 0 1 | 6 Da in der Spalte b kein Leitkoeffizient steht, hat das LGS eine oder mehrere Lösungen. Gemäß Schritt (2) von Algorithmus 7.2.16 berechnen wir zunächst die Lösungen x = (x1 , x2 , x3 , x4 , x5 , x6 , x7 ) des homogenen Systems 1 3 8 0 −2 0 0 | 0 0 0 0 1 3 0 0 | 0 (A, 0) = . 0 0 0 0 0 1 0 | 0 0 0 0 0 0 0 1 | 0 In den Spalten 2,3 und 5 steht kein Leitkoeffizient, weshalb wir die entsprechenden Unbekannten als freie Parameter wählen x2 = α, x3 = β und x5 = γ. Die anderen Unbekannten liefert uns das homogene LGS. So entspricht die vierte Zeile der Gleichung 1 · x7 = 0, die dritte Zeile der Gleichung 1 · x6 = 0. Die zweite Zeile entspricht x4 + 3x5 = 0 x4 = −3x5 = −3γ. Und zuletzt betrachten wir die erste Zeile und erhalten x1 + 3x2 + 8x3 − 2x5 = 0 x1 = −3x2 − 8x3 + 2x5 = −3α − 8β + 2γ. Dies liefert uns die Lösungsmenge L(A, 0) = {x ∈ K 7 } wobei −8 2 −3 x1 −3α −8β +2γ 0 1 0 x2 α 0 1 0 x3 β −3γ = α · 0 + β · 0 + γ · x = x4 = −3 x5 γ 1 0 0 0 0 0 x6 0 x7 0 0 0 α, β, γ ∈ K. 0 112 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Um eine spezielle Lösung w ∈ L(A, b) = L(A0 , b0 ) zu berechnen, setzen wir entsprechend Schritt (3) in Algorithmus 7.2.16 die Unbekannten, die zu Spalten ohne Leitkoeffizient gehören null, d. h. x2 = x3 = x5 = 0. Die anderen Unbekannten sind durch die Spalte b0 = (b01 , b02 , b03 , b04 )> bestimmt und können direkt in 7.3 abgelesen werden. Da der Leitkoeffizient der ersten Zeile in der ersten Spalte steht ist x1 = b01 = 4. Der Leitkoeffizient der zweiten Zeile steht in der vierten Spalte und somit ergibt sich x4 = b02 = 3. Nach dem gleichen Schema erhalten wir x6 = 5 und x7 = 6. Damit ist insgesamt 4 −3 −8 2 0 1 0 0 0 0 1 0 L(A, b) = w + L(A, 0) = 3 + α · 0 + β · 0 + γ · −3 . 0 0 0 1 5 0 0 0 6 0 0 0 7.3. Lineare Abbildungen In den letzten Abschnitten haben wir uns mit Matrizen und linearen Gleichungssystem beschäftigt. Nun wollen wir zu den Vektorräumen zurückkehren und Abbildungen zwischen ihnen studieren. Dabei interessieren uns vor allem Abbildungen, die sich mit den Vektorraumoperationen (Addition und Skalarmultiplikation) vertragen. Solche Abbildungen nennt man linear. Sie zeichnen sich dadurch aus, daß sich ihre Anwendung mit den Vektorraumoperationen vertauschen läßt, was in der Definition 7.3.1 präzisiert wird. Wir werden sehen, dass diese Art von Abbildungen immer durch Matrizen darstellen lassen, was uns ermöglicht neue Erkenntnisse über Matrizen und lineare Gleichungssysteme zu gewinnen. Definition 7.3.1 Eine Abbildung F : V → W zwischen den K-Vektorräumen V und W heißt K-linear, falls für alle u, v ∈ V und für alle λ ∈ K F (u + v) = F (u) + F (v) F (λv) = λF (v) (Verträglichkeit mit der Additon) (7.4) (Verträglichkeit mit der Skalarmultiplikation) (7.5) gilt. Eine alternative Bezeichnung für eine K-lineare Abbildung ist der Begriff Vektorraumhomomorphismus, bzw. Homomorphismus. Die Menge aller Homomorphismen von V nach W wird mit HomK (V, W ) bezeichnet. Eine lineare Abbildung F : V → V von einem Vektorraum in sich selbst heißt Endomorphismus. Die Menge aller Endomorphismen von V in sich selbst wird mit EndK (V ) bezeichnet. Ein bijektiver Homomorphismus ist ein Isomorphismus, ein bijektiver Endomorphismus ist ein Automorphismus. Gibt es einen Isomorphismus F : V → W , dann sind V und W isomorph zueinander. 113 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Eine K-lineare Abbildung ist insbesondere immer auch ein Gruppenhomomorphismus von der additiven Gruppe (V, +) in die additiven Gruppe (W, +) (s. Abschnitt 4.2). Anstatt von K-linear spricht man meist einfach von linear, wenn in einem bestimmten Kontext klar ist, welcher Körper gemeint ist. Die beiden definierenden Eigenschaften linearer Abbildungen in (7.4) und (7.5) lassen sich gleichwertig in einer einzigen Gleichung F (λu + µv) = λF (u) + µF (v) (7.6) zusammenfassen, welche für alle λ, µ ∈ K und alle u, v ∈ V bestehen muß. Beispiel 7.3.2 Die Abbildung F : K2 → K x1 x= 7→ F (x) = 4x1 − 3x2 x2 ist linear, da F (x + x̃) = 4(x1 + x̃1 ) − 3(x2 + x̃2 ) = (4x1 − 3x2 ) + (4x̃1 − 3x̃2 ) = F (x) + F (x̃) und F (λx) = 4(λx1 ) − 3(λx2 ) = λ(4x1 − 3x2 ) = λF (x) gilt. Die Abbildung G : K2 → K x1 7→ G(x) = 4x1 − 3x2 + 2 x= x2 hingegen ist nicht linear, da für 0 6= λ ∈ K gilt: G(λx) = 4(λx1 ) − 3(λx2 ) + 2 6= λ(4x1 − 3x2 + 2) = λG(x). Der konstante Term +2 sorgt hier dafür, dass G nicht linear ist. Auch die Abbildung H : K2 → K x1 x= 7→ H(x) = 4x21 − 3x2 x2 ist nicht linear, da gilt H(x + x̃) = 4(x1 + x̃1 )2 − 3(x2 + x̃2 ) = 4(x21 + x̃21 + 2x1 x̃1 ) − 3(x2 + x̃2 ) 6= (4x21 − 3x2 ) + (4x̃21 − 3x̃2 ) = H(x) + H(x̃) sofern x1 , x˜1 6= 0. Hier bereitet der quadratische Term x21 Probleme, da wir aufgrund der binomischen Formel (x1 + x̃1 )2 = x21 + x̃21 + 2x1 x̃1 erhalten und nicht x21 + x̃21 wie es für Linearität notwendig wäre. 114 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Beispiel 7.3.3 Sei V ein Vektorraum der Dimension n und B = {b1 , . . . , bn } eine Basis, dann ist F : V → Kn n X v= λi bi 7→ (λ1 , . . . , λn ) i=1 eine bijektive K-lineare Abbildung (also ein Isomorphismus), die sogenannte Koordinatenabbildung. Zunächst einmal stellen wir fest, dass die Abbildung F wohldefiniert ist, also Sinn ergibt. Da B eine Basis von V ist, kann jeder Vektor v ∈ V auf eindeutige Art und Weise als Linearkombination der Basisvektoren geschrieben werden (s. Bem. 6.2.10). Für jedes n P v ∈ V gibt es daher eindeutig bestimme Skalare λ1 , . . . , λn ∈ K, so dass v = λi bi gilt. i=1 Diese Skalare fassen wir zu einem Vektor (λ1 , . . . , λn ) ∈ K n zusammen, der ebenfalls eindeutig bestimmte ist. Eigentlich spielt die Reihenfolge der Basisvektoren keine Rolle, aber zur Definition dieser Abbildung müssen wir eine Reihenfolge festlegen, so dass auch die Skalare λi geordnet sind. Nun zeigen wir Linearität und Bijektivität: n n n P P P λλi bi und somit gilt: • Sei v = λi bi und λ ∈ K, dann ist λv = λ λi bi = i=1 i=1 i=1 F (λv) = F n X ! (λλi )bi = (λλ1 , . . . , λλn ) = λ(λ, . . . , λn ) = λF (v). i=1 • Seien u = n P µi bi und v = i=1 n P λi bi , dann ist u + v = i=1 und somit gilt: F (u + v) = F n X n P µi bi + i=1 n P λi bi = i=1 n P (µi + λi )bi i=1 ! (µi + λi )bi i=1 = (µ1 + λ1 , . . . , µn + λn ) = (µ1 , . . . , µn ) + (λ1 , . . . , λn ) = F (u) + F (v). • Die Abbildung F ist bijektiv, da G : Kn → V n X (λ1 , . . . , λn ) 7→ v = λi bi i=1 eine Umkehrabbildung definiert. 115 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Beispiel 7.3.4 Sei A ∈ MatK (m, n) eine Matrix, dann ist FA : K n → K m x 7→ A · x eine K-lineare Abbildung. Wir bemerken zunächst, dass ein Spaltenvektor dasselbe ist wie eine Matrix mit einer Spalte, d. h. x ∈ K n = MatK (n, 1) und somit das Matrixprodukt A · x ∈ MatK (m, 1) gebildet werden kann. Die Linearität der Abbildung folgt aus den Rechenregeln für Matrizen. Die Forderung (7.4) folgt aus dem Distributivgesetz 7.1.6 für die Matrixmultiplikation FA (x + y) = A(x + y) = Ax + Ay = FA (x) + FA (y), desweiteren benutzen wir Satz 7.1.7 um (7.5) zu zeigen: FA (λx) = A(λx) = λAx = λFA (x). Eigenschaften der Abbildung FA , wie zum Beispiel Injektivität und Surjektivität lassen sich nun in die Sprache der linearen Gleichungssysteme übersetzen. • FA ist injektiv ist gleichbedeutend mit der Tatsache, dass für x 6= y auch Ax 6= Ay ist. Dies bedeutet, dass das LGS Ax = b für alle b ∈ K m höchstens eine Lösung hat. • FA ist surjektiv ist gleichbedeutend mit der Tatsache, dass es für alle b ∈ K m ein x ∈ K n gibt, so dass Ax = b. Dies bedeutet, dass das LGS Ax = b für alle b ∈ K m mindestens eine Lösung hat. • FA ist bijektiv ist gleichbedeutend mit der Tatsache, dass das LGS Ax = b für alle b ∈ K m genau eine Lösung hat. Wir werden in Kürze sehen, dass wir jeder K-linearen Abbildung zwischen endlichdimensionalen Vektorräumen eine Matrix zuordnen können. Aus diesem Grund werden wir immer wieder auf das Beispiel zurückkommen und uns mit seiner Hilfe abstrakte Begriffe veranschaulichen. Proposition 7.3.5 Seien U, V, W K-Vektorräume und F : U → V und G : V → W K-lineare Abbildungen. Dann gelten folgende Aussagen: i) Die Verknüpfung G ◦ F : U → W ist eine K-lineare Abbildung. ii) Angenommen F sei bijektiv, dann ist die Umkehrabbildung F −1 : V → U eine K-lineare Abbildung. Beweis. Übung!! Eine Konsequenz dieser Proposition ist, dass die Menge der Automorphismen eines Vektorraums eine Gruppe bilden. 116 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Satz 7.3.6 (Erste Eigenschaften linearer Abbildungen) Ist F : V → W K-linear, so gilt: i) Der Nullvektor in V d.h. F (0V ) = 0W . wird stets auf den Nullvektor in W abgebildet, ii) Bilder linear abhängiger Vektoren in V sind linear abhängig in W . iii) Urbildvektoren linear unabhängiger Vektoren in F (V ) ⊂ W sind linear unabhängig in V . Beweis. ad i) Da der Nullvektor das neutrale Element der Vektoraddition ist, muß unter Ausnutzung der Linearität von F F (0V ) = F (0V + 0V ) = F (0V ) + F (0V ) gelten. Subtraktion von F (0V ) ∈ W auf beiden Seiten liefert die äquivalente Gleichung 0W = F (0V ). ( Diese Aussage hätte auch direkt aus Proposition 4.2.2 gefolgert werden können, da eine K-lineare Abbildung immer auch ein Gruppenhomomorphismus der additiven Gruppen ist.) ad ii) Die Vektoren v1 , ..., vn ∈ V seien linear abhängig. Es gibt dann Skalare λ1 , ..., λn ∈ K, welche nicht sämtlich verschwinden, mit λ1 v1 + ... + λn vn = 0V . Wenden wir auf beiden Seiten dieser Gleichung die lineare Abbildung F an, so folgt wegen der Linearität und der Eigenschaft i) λ1 F (v1 ) + ... + λn F (vn ) = F (0V ) = 0W . Damit stellen sich aber auch die Bildvektoren F (v1 ), ..., F (vm ) in W als linear abhängig heraus wie behauptet. ad iii) Eine Aussage der Form A ⇒ B ist genau dann richtig, wenn die Aussage ¬B ⇒ ¬A richtig ist (s. Satz 2.3). In Implikationsform liest sich Aussage ii) folgendermaßen: v1 , ..., vk ∈ V linear abhängig ⇒ w1 := F (v1 ), ..., wn := F (vk ) linear abhängig. Da die Negation von linear abhängig linear unabhängig ist, lautet die Kontraposition dieser Implikation: w1 := F (v1 ), ..., wn := F (vk ) linear unabhängig ⇒ v1 , ..., vk ∈ V linear unabhängig. Also stellt die Implikation in iii) die Kontraposition der Implikation in ii) dar. Deshalb sind die Aussagen ii) und iii) zueinander äquivalent . N.B.: Es sei betont, daß eine lineare Abbildung im allgemeinen linear unabhängige Vektoren nicht auf linear unabhängige Bildvektoren abbildet. Die lineare Unabhängigkeit kann also durch Anwendung einer linearen Abbildung verloren gehen. 117 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Satz 7.3.7 (Festlegung linearer Abbildungen durch Basisbildvektoren) Es sei V ein endlichdimensionaler Vektorraum mit der Basis v1 , ..., vm . Ferner seien w1 , ..., wm beliebige Vekoren aus W . Dann gibt es genau eine lineare Abbildung F : V → W mit F (vi ) = wi für alle i ∈ {1, ..., m}. Beweis. Da eine Basis ein linear unabhängiges Erzeugendensystem darstellt, gibt es für jedes v ∈ V eindeutig bestimmte Koeffizienten α1 , ..., αm ∈ K mit v = α1 v1 + ... + αm vm . Aufgrund der Linearität von F folgt F (v) = α1 F (v1 ) + ... + αm F (vm ) = α1 w1 + ... + αm wm . Die Eindeutigkeit der Darstellung von v als Linearkombination der Basisvektoren stellt sicher, daß F (v) wohlbestimmt ist. Offensichtlich ist F durch die Wirkung auf die Basisvektoren vollständig festgelegt, denn für jedes v ∈ V läßt sich F (v) in eindeutiger Weise berechnen. Definition 7.3.8 Sei F : K n → K m eine K-lineare Abbildung. Wir definieren eine Matrix MF ∈ MatK (m, n), die Darstellungsmatrix der linearen Abbildung, durch .. .. .. . . . F (e ) F (e ) . . . F (e ) MF = 1 2 n .. .. .. . . . dabei werden mit ei die Standardbasisvektoren (s. Beispiel 6.2.17) bezeichnet und F (ei ) ∈ K m ist das Bild des i-ten Basisvektors. Bemerkung 7.3.9 Aufgrund von Satz 7.3.7 ist die Abbildung F bereits durch die Vektoren F (e1 ), . . . , F (en ) eindeutig bestimmt, da e1 , . . . , en eine Basis des K n ist. Die Abbildung F lässt sich durch F : Kn → Km x 7→ MF · x zurückgewinnen (s. Beispiel 7.3.4). Zum einen gilt ! n n X X F (x) = F xi e i = xi F (ei ), i=1 i=1 zum anderen können wir berechnen, dass gilt: .. .. .. x1 . . . .. MF · x = F (e1 ) F (e2 ) . . . F (en ) · . = x1 F (e1 ) + x2 F (e2 ) + . . . + xn F (en ). .. .. .. xn . . . 118 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Beispiel 7.3.10 Wir betrachten die lineare Abbildung F : K2 → K3 2x1 x1 7→ 3x1 − x2 x2 x1 + 2x2 Durch Einsetzen können wir die Bilder der Standardbasisvektoren e1 und e2 bestimmen 2 0 1 0 7→ 3 , 7→ −1 , 0 1 1 2 somit ist die Matrix dieser Abbildung durch 2 0 MF = 3 −1 1 2 gegeben. Wir erhalten 2 MF · x = 3 1 die Abbildung F zurück, 0 2x1 + x1 −1 · = 3x1 + x2 2 x1 + durch 0x2 2 0 −x2 = x1 3 + x2 −1 2x2 1 2 Satz 7.3.11 Seien F : K p → K n und G : K n → K m lineare Abbildungen, die durch die Matrizen MF ∈ MatK (n, p), bzw. MG ∈ MatK (m, n) gegeben sind. Dann ist die Matrix der verknüpften Abbildung G ◦ F : K p → K m durch die Matrix MG◦F = MG · MF ∈ MatK (m, p) gegeben. Beweis. Zunächst bemerken wir, dass das Matrixprodukt MG · MF berechnet werden kann, da MG ∈ MatK (m, n) und MF ∈ MatK (n, p). Wir bezeichnen die Standardbasis des K p mit ẽ1 , . . . , ẽp , die Standardbasis des K n mit ē1 , . . . , ēn und die Standardbasis des K m mit e1 , . . . , em . Sei MG = A und MF = B, dann gilt per Definition, dass b`j = F (e˜j )` die `-te Komponente von F (e˜j ) ai` = G(ē` )i die i-te Komponente von G(ē` ) Und somit können wir den Spaltenvektor F (e˜j ) ∈ K n als Linearkombination der Basisvek- 119 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN toren ē1 , . . . , ēn schreiben: 0 0 b1j b1j .. b2j 0 b2j F (e˜j ) = . = . + 0 + · · · + . . . 0 . . .. bnj . 0 bnj 0 0 1 n .. X 1 0 . b`j ē` = b1j . + b2j 0 + · · · + bnj = 0 .. `=1 .. 1 . 0 (7.7) Ebenso können wir den Spaltenvektor G(e¯` ) ∈ K m als Linearkombination der Basisvektoren e1 , . . . , em schreiben: G(e¯` ) = m X ai` ei . (7.8) i=1 Nun können wir den Vektor in der j-ten Spalte der Matrix MG◦F bestimmen: G ◦ F (ẽj ) = G(F (ẽj )) n X = G( b`j ē` ) | Definition der Verknüpfung von G und F | Einsetzen von (7.7) `=1 = n X b`j G(ē` ) | Linearität von G `=1 = n X `=1 = = b`j m X | Einsetzen von (7.8) i=1 m n X X i=1 m X ai` ei ! ai` b`j ei | Distributivgesetz und Assoziativgesetz `=1 (A · B)ij ei | Definition des Matrixprodukts A · B i=1 Somit ist die j-te Spalte der Darstellungsmatrix der Abbildung G ◦ F genau durch die j-Spalte des Matrixprodukts AB = MG MF gegeben. Korollar 7.3.12 Sei id : K n → K n die Identität, dann ist Mid = En . Sei F : K n → K m bijektiv, dann ist MF −1 = MF−1 , insbesondere muss n = m sein. Beweis. Die Spalten der Matrix Mid sind die Bilder der Basisvektoren e1 , . . . , en . Da diese durch die Identität auf sich selbst abgebildet werden, erhalten wir die Einheitsmatrix 1 0 0 .. .. .. . . 0 . 0 1 = En . . .. Mid = e1 e2 . . . en = . . . 0 .. .. .. . . . . . 0 . 1 120 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Wenn F : K n → K m bijektiv ist, dann existiert eine Umkehrabbildung F −1 : K m → K n , so dass F ◦ F −1 = idK n und F −1 ◦ F = idK m . Somit folgt aus Satz 7.3.11, dass gilt: MF ◦F −1 = MF · MF −1 = MidK n = En und MF −1 ◦F = MF −1 · MF = MidK m = Em . Somit ist also MF −1 die zu MF inverse Matrix. Diese kann aber nur dann gebildet werden, wenn MF quadratisch ist, das heißt wenn m = n gilt. Analog zu den Definitionen für Gruppenhomomorphismen (s. Definition 4.2.5) definieren wir auch für eine lineare Abbildung den Kern und das Bild dieser Abbildung. Definition 7.3.13 Sei F : V → W eine K-lineare Abbildung zwischen den Vektorräumen V und W . Dann heißt die Teilmenge Kern F := F −1 (0V ) = {v ∈ V : F (v) = 0W } ⊆ V Kern oder Nullraum von F. Desweiteren nennt man Bild(F ) = F (V ) = {w ∈ W : ∃v ∈ V mit F (v) = w} ⊂ W das Bild von F . Aufgrund von Satz 4.2.4 und 4.2.6 sind diese Mengen Untergruppen der additiven Gruppen (V, +), bzw (W, +). Wir zeigen hier, dass sie auch Untervektorräume sind. Satz 7.3.14 Sei F : V → W K-linear, dann sind Kern(F ) und F (V ) Untervektorräume. Beweis. Aufgrund von Definition 6.1.5 müssen wir die Abgeschlossenheit dieser Mengen bezüglich Addition und Skalarmultiplikation zeigen. • Sei v1 , v2 ∈ Kern F , das heißt es gilt F (v1 ) = F (v2 ) = 0W , dann gilt aufgrund der Linearität von F F (v1 + v2 ) = F (v1 ) + F (v2 ) = 0W + 0W = 0W , und somit ist auch v1 + v2 ∈ Kern F und wir haben die Abgeschlossenheit bezüglich der Addition gezeigt. Sei nun λ ∈ K, dann gilt: F (λv1 ) = λF (v1 ) = λ0W = 0W , also ist λv1 ∈ Kern F und die Abgeschlossenheit bezüglich der Skalarmultiplikation wurde bewiesen. • Seien w1 , w2 ∈ F (V ), das heißt es gibt v1 , v2 ∈ V mit F (v1 ) = w1 und F (v2 ) = w2 , dann gilt w1 + w2 = F (v1 ) + F (v2 ) = F (v1 + v2 ) ∈ F (V ) und λw1 = λF (v1 ) = F (λv1 ) ∈ F (V ) wodurch wir auch für das Bild F (V ) die Abgeschlossenheit bezüglich der Addition und der Skalarmultiplikation gezeigt haben. 121 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Bemerkung 7.3.15 Sei FA : K n → K m , x 7→ A · x eine lineare Abbildung, gegeben durch die Matrix A ∈ MatK (m, n). Dann gilt Kern(FA ) = {x ∈ K n | Ax = 0} = L(A, 0). Der Kern entspricht also der Lösungsmenge des homogenen LGS Ax = 0. Außerdem gilt F (V ) = {b ∈ K m | ∃x ∈ K n mit Ax = b} = LH(A(e1 ), . . . , A(en )). Das entspricht allen Vektoren b ∈ K m , für die das LGS Ax = b eine Lösung hat. Wir in Bemerkung 7.3.9 beschrieben, liefert das Produkt der Matrix A mit dem Vektor x eine Linearkombination der Spalten von A. Die Spalten der Matrix entsprechen den Bildern A(e1 ), . . . , A(en ) und somit ist das Bild gleich der linearen Hülle dieser Vektoren. Analog zum Satz 4.2.7 für Gruppenhomomorphismen können wir hilhilfe des Kerns ein Kriterium für Injektivität formulieren. Man beachte, daß {0W } ⊂ W ein Untervektorraum von W ist. Das Nullelement bildet den kleinst mögliche Untervektorraum (der Dimension 0), welcher in jedem Vektorraum vorhanden ist und daher als der triviale Unterraum bezeichnet wird. Satz 7.3.16 (Injektivitätskriterium) Eine lineare Abbildung ist genau dann injektiv, wenn ihr Kern trivial ist, d.h. ihr Kern besteht nur aus dem Nullvektor. Beweis. Wir betrachten die lineare Abbildung F : V → W zwischen den Vektorräumen V und W . Die Implikation F injektiv ⇒ Kern F = {0V } ist offensichtlich; denn wenn F injektiv ist, darf neben dem Nullvektor 0V kein weiterer Vektor aus V auf den Nullvektor 0W abgebildet werden. Somit erzwingt die Injektivität Kern F = F −1 (0W ) = {0V }. Die umgekehrte Implikation Kern F = {0} ⇒ F injektiv zeigen wir per Kontraposition. Angenommen F sei nicht injektiv, dann gibt es einen Vektor w ∈ W und zwei verschiedene Vektoren v1 , v2 ∈ V mit F (v1 ) = F (v2 ) = w. Wegen v1 = 6 v2 ist v1 − v2 = 6 0V . Andererseits gilt F (v1 − v2 ) = F (v1 ) − F (v2 ) = w − w = 0W . Also ist v1 −v2 ∈ Kern F , d.h. der Kern von F kann nicht nur den Nullvektor 0V enthalten. Bemerkung 7.3.17 Wir haben in Algorithmus 7.2.16 gesehen, dass die Lösungsmenge des inhomogenen Problems Ax = b (sofern sie nicht leer ist) folgende Form hat: L(A, b) = w + L(A, 0) wobei w eine spezielle Lösung von Ax = b ist. Da die Lösungsmenge des homogenen Systems genau der Kern der Abbildung A : K n → K m , x 7→ Ax, sehen wir, dass es genau dann eine eindeutige Lösung des LGS Ax = b gibt, wenn die Lösungsmenge des homogenen LGS nur aus dem Nullvektor besteht. 122 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Definition 7.3.18 Sei F : V → W eine K-lineare Abbildung, dann nennen wir die Dimension des Bildes F (V ) den Rang der Abbildung rang F := dimK F (V ). Da das Bild der Abbildung ein Untervektorraum von W ist, erhalten wir direkt eine obere Abschätzung für den Rang: rang F ≤ dimK W. Aber es muss auch rang F ≤ dimK V gelten, da F (V ) nicht größer als V sein kann (dies folgt aus Satz 7.3.6, da die Urbilder einer Basis von F (V ) auch in V linear unabhängig sind und somit zu einer Basis ergänzt werden können.) Satz 7.3.19 (Kern-Bild-Satz) Es sei V endlichdimensional und F : V → W eine lineare Abbildung in einen Vektorraum W beliebiger Dimension. Dann besteht die Dimensionsformel dimK V = dimK Kern F + rang F . (7.9) Genauer gilt folgendes: Ist u1 , ..., uk eine Basis von Kern F und w1 , ..., wr eine Basis von F (V ) mit den Urbildern v1 , ..., vr , dann ist u1 , ..., uk , v1 , ..., vr eine Basis von V . N.B.: k, r ≤ dimK V . Beweis. Gemäß der beiden definierenden Eigenschaften einer Vektorraumbasis erfolgt der Beweis in zwei Etappen. 1) Wir zeigen zunächst, dass die Vektoren u1 , ..., uk , v1 , ..., vr ein Erzeugendensystem von V sind, d. h. es gilt LH(u1 , ..., uk , v1 , ..., vr ) = V . Es sei v ∈ V beliebig vorgegeben. Da F (v) ∈ F (V ), existieren aufgrund der Voraussetzung, dass w1 , . . . , wr eine Basis des Bildes ist, Skalare β1 , ..., βr ∈ K mit F (v) = β1 w1 + ... + βr wr = β1 F (v1 ) + ... + βr F (vr ) = F β1 v1 + ... + βr vr Es folgt somit 0W = F (v) − F β1 v1 + ... + βr vr = F (v − β1 v1 − ... − βr vr ). Also gilt v − β1 v1 − ... − βr vr ∈ Kern F . Wiederum aufgrund der Voraussetzung, dass u1 , . . . , uk eine Basis des Kerns ist, gibt es Koeffizienten α1 , ..., αk ∈ K derart, daß v − β1 v1 − ... − βr vr = α1 u1 + ... + αk uk bzw. v = α1 u1 + ... + αk uk + β1 v1 + ... + βr vr . Da v ∈ V beliebig gewählt war, folgt die Behauptung, dass jedes v ∈ V eine Linearkombination der Vektoren u1 , ..., uk , v1 , ..., vr ist. 2) Zeige: u1 , ..., uk , v1 , ..., vr sind linear unabhängig. Dazu ist zu zeigen, daß sich 0V nur auf triviale Weise linear kombinieren läßt. 123 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Angenommen es gelte 0V = λ1 u1 + ... + λk uk + µ1 v1 + ... + µr vr . (7.10) Anwenden von F liefert unter Ausnutzung der Linearität die Gleichung 0W = F (0V ) = λ1 F (u1 ) +... + λk F (uk ) +µ1 F (v1 ) + ... + µr F (vr ) | {z } | {z } =0W =0W = µ1 w1 + ... + µr wr Da die Vektoren w1 , ..., wr nach Voraussetzung eine Basis von F (V ) bilden und damit linear unabhängig sind, kann die Gleichung nur für µ1 = ... = µr = 0 erfüllt sein. Dies setzen wir in Gleichung (7.10) ein und erhalten 0V = λ1 u1 + ... + λk uk . Die Vektoren u1 , ..., uk sind als Basis von Kern F ebenfalls linear unabhängig, weshalb die Gleichung wiederum nur für λ1 = ... = λk = 0 bestehen kann. Damit ist (7.10) allein trivial erfüllbar, was zu zeigen war. Dies ist einer der wichtigsten Sätze der Theorie, der unter anderem folgende Konsequenz hat. Korollar 7.3.20 (Zusammenhang zwischen injektiv und surjektiv) Für eine lineare Abbildung F : V → W zwischen endlichdimensionalen Vektorräumen gleicher Dimension (dimK V = dimK W ) sind folgende Aussagen äquivalent: i) F ist injektiv. ii) F ist surjektiv. iii) F ist bijektiv. Beweis. i) ⇒ ii) Ist F injektiv, so ist der Kern trivial nach Satz 7.3.16, d.h. es gilt dim ker F = 0. Die Dimensionsformel (7.9) reduziert sich dann zu dim V = dim F (V ). Da voraussetzungsgemäß V und W die gleiche Dimension haben gilt ferner dim F (V ) = dim W . Somit ist der Unterraum F (V ) ⊂ W von gleicher Dimension wie W selbst. Dies ist nur möglich, wenn F (V ) = W ist, womit sich F als surjektiv erweist. ii) ⇒ iii) Ist F surjektiv, so gilt F (V ) = W und damit unter Benutzung der Voraussetzung dim F (V ) = dim W = dim V . Die Dimensionsformel (7.9) erfordert dann dim ker F = 0, so daß F nach Satz 7.3.16 auch injektiv ist. Damit ist F sowohl surjektiv wie injektiv und ergo bijektiv. iii) ⇒ i) Eine bijektive Abbildung ist per Definition zugleich injektiv und surjektiv. Es ist daher nichts zu beweisen. Korollar 7.3.21 Seien V, W endlichdimensionale K-Vektorräume und F : V → W eine lineare Abbildung. Dann gilt: i) Wenn F injektiv ist, dann dim V ≤ dim W . ii) Wenn F surjektiv ist, dann ist dim W ≤ dim V . 124 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Beweis. i) Wenn F injektiv ist, dann ist dim ker F = 0 und somit gilt dim V = dim F (V ). Da aber immer dim F (V ) ≤ dim W ist, erhalten wir dim V ≤ dim W . ii) Wenn F surjektiv ist, dann ist dim F (V ) = dim W und somit dim V = dim ker F + dim W , wodurch wir dim W ≤ dim V erhalten. Korollar 7.3.22 Zwei K-Vektorräume sind genau dann zueinander isomorph, wenn sie die gleiche Dimension haben. Insbesondere ist jeder endlich dimensionale Vektorraum der Dimension n isomorph zum K n . Beweis. Wir haben bereits in Beispiel 7.3.3 einen Isomorphismus von einem Vektorraum V der Dimension n in den K n angegeben. Seien V, W zwei Vektorräume der Dimension n und F : V → K n , G : W → K n die Isomorphismen aus Beispiel 7.3.3, dann ist G−1 ◦ F : V → W aufgrund von Proposition 7.3.5 und 3.2.12 ein Isomorphismus. Wir haben also einen Isomorphismus zwischen Vektorräumen gleicher Dimension konstruiert. Jetzt müssen wir noch zeigen, dass zwischen Vektorräumen verschiedener Dimensionen keinen Isomorphismus geben kann. Seien jetzt V, W Vektorräume unterschiedlicher Dimension dim V = n und dim W = m, mit n= 6 m und angenommen F : V → W ist ein Isomorphismus. Dann gilt Kern(F ) = {0V } und F (V ) = W und somit folgt aus der Dimensionsformel dim V = dim Kern(F ) + dim F (V ) n = 0 + dim W = m im Widerspruch zur Annahme. Somit kann es einen Isomorphismus zwischen V und W nur geben, wenn dimK V = dimK W gilt. Den Begriff des Rangs haben wir sowohl für Matrizen (s. Def. 7.1.17), als auch für lineare Abbildungen (s. Def. 7.3.18) eingeführt. Wir werden hier sehen, dass es sich dabei im wesentlichen um dasselbe handelt. Satz 7.3.23 Sei F : K n → K m eine K-lineare Abbildung mit Darstellungsmatrix MF ∈ MatK (m, n). Dann gilt rang F = rang MF . Beweis. Der Rang der Abbildung F ist die Dimension des Bildes F (V ). Da die Standardbasis e1 , . . . , en eine Basis des K n ist, wird das Bild von den Vektoren F (e1 ), . . . , F (en ) erzeugt. Eine Basis des Bildes ist daher eine maximale linear unabhängige Teilmenge dieser Vektoren. Da diese Vektoren aber genau die Spalten der Matrix MF sind, entspricht dies der Definition des (Spalten)rangs der Matrix MF . Korollar 7.3.24 Eine Matrix A ∈ MatK (n, n) ist genau dann invertierbar, wenn rang A = n gilt. Beweis. Wenn der Rang der Matrix A gleich n ist, dann heißt das, dass das Bild der Abbildung K n → K n , x 7→ Ax n-dimensional ist. Da das Bild ein Untervektorraum des K n ist, muss das Bild schon gleich dem K n sein. Somit ist die durch A definierte Abbildung 125 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN surjektiv und dies ist nach Korollar 7.3.20 gleichbedeutend mit bijektiv. Dies bedeutet wiederum, dass es eine Umkehrabbildung gibt, die durch die zu A inverse Matrix gegeben ist (s. Korollar 7.3.12). Wir wollen jetzt Korollar 7.3.20 benutzen um Aussagen über die Lösungsmenge von linearen Gleichungssystem zu treffen, die durch quadratische Matrizen gegeben sind. Beispiel 7.3.25 Sei A ∈ MatK (n, n) eine quadratische Matrix und Ax = b ein LGS. Die Matrix definiert eine lineare Abbildung FA : K n → K n , x 7→ Ax auf die wir Korollar 7.3.20 anwenden können (da dim K n = dim K n ). Daher gelten folgende Aussagen: • Ist das LGS für alle b ∈ K n lösbar, dann sind diese Lösungen eindeutig. Die Lösbarkeit des LGS für alle b ∈ K n entspricht der Surjektivität von FA . Dann ist aber FA auch injektiv und diese Lösungen sind eindeutig. • Wenn Ax = 0 nur die triviale Lösung hat, dann ist das LGS Ax = b für alle b ∈ K n eindeutig lösbar und diese Lösung ist durch x = A−1 b gegeben. Die Lösungsmenge des homogenen LGS Ax = 0 ist der Kern der Abbildung FA . Besteht der Kern nur aus dem Nullvektor, dann ist FA injektiv (Satz 7.3.16) und aufgrund von Korollar 7.3.20 auch surjektiv, woraus sich die Lösbarkeit des inhomogenen LGS Ax = b für alle b ∈ K n ergibt. Aufgrund der Bijektivität von FA ist die Matrix A invertierbar und wir können die Gleichung Ax = b von links mit A−1 multiplizieren, wodurch wir A−1 Ax = x = A−1 b erhalten. Für den nächsten Satz über den Rang, benötigen wir einige Erkenntnisse für die Einschränkung einer Abbildung (s. Definition 3.2.15). Lemma 7.3.26 Sei F : V → W eine K-lineare Abbildung zwischen Vektorräumen V, W und sei U ⊆ V ein Untervektorraum. Dann ist F |U : U → W eine lineare Abbildung. Ist F zusätzlich injektiv, dann ist die Abbildung G : U → F (V ), v 7→ F (v) bijektiv. Beweis. Die Einschränkung einer linearen Abbildung auf einen Untervektorraum ist wieder linear, denn da die Bedingungen für Linearität für alle v1 , v2 ∈ V und λ ∈ K gelten, dann gelten sie insbesondere auch für alle v1 , v2 ∈ U ⊆ V und λ ∈ K. Wenn F injektiv ist, dann ist nach Proposition 3.2.16 auch die Einschränkung F |U : U → W injektiv. Ebenfalls nach Proposition 3.2.16 ist dann G : U → F (V ) surjektiv und weiterhin injektiv, da die Injektivität durch eine Verkleinerung des Bildraums nicht verloren geht. Der nächste Satz besagt, dass sich der Rang einer Abbildung nicht ändert, wenn sie mit invertierbaren Abbildungen verknüpft wird. Satz 7.3.27 Sei F : V → W eine lineare Abbildung. Seien L1 : V 0 → V und L2 : W → W 0 Isomorphismen. Dann gilt: rang(L2 ◦ F ◦ L1 ) = rang F. 126 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Beweis. Wir zeigen diesen Satz in zwei Schritten. Zunächst beweisen wir, dass sich der Rang nicht ändert, wenn von rechts mit einer invertierbaren Abbildung verknüpft wird, d.h. wir zeigen rang(F ◦ L1 ) = rang F . Da die Abbildung L1 bijektiv, also insbesondere surjektiv ist, gilt L1 (V 0 ) = V und daher gilt: (F ◦ L1 )(V 0 ) = F (L1 (V 0 )) = F (V ). Da das Bild von F gleich dem Bild von F ◦ L1 ist, sind insbesondere auch die Dimensionen dieser Vektorräume gleich, aber die Dimension des Bildes ist genau der Rang der Abbildung. Im zweiten Schritt zeigen wir, dass sich der Rang nicht ändert, wenn von links mit einer invertierbaren Abbildung verknüpft wird, d.h. wir zeigen rang(L2 ◦ F ) = rang F . Da die Abbildung L2 : W → W 0 bijektiv, also insbesondere injektiv ist, können wir sie auf F (V ) ⊆ W einschränken und Lemma 7.3.26 benutzen. Daraus folgt, dass L̃2 : F (V ) → L2 (F (V )) eine bijektive lineare Abbildung ist. Nach Korollar 7.3.22 kann es solch eine Abbildung nur geben, wenn die Vektorraume F (V ) und L2 (F (V )) die gleiche Dimension haben. Aber das genau die Bilder der Abbildungen F , bzw L2 ◦ F und bedeutet, dass rang(L2 ◦ F ) = rang F gilt. Dieser Satz lässt sich ebenfalls in die Sprache der Matrizen übersetzen. Korollar 7.3.28 Sei A ∈ MatK (m, n) eine Matrix und seien M ∈ MatK (m, m) und N ∈ MatK (n, n) invertierbare Matrizen, dann gilt: rang(A) = rang(M · A · N ) Beweis. Seien L1 : K m → K m , x → M x, L2 : K n → K n , x → N x und F : K n → K m , x → Ax die entsprechden linearen Abbildungen zu den Matrizen. Da M und N invertierbar sind, sind die Abbildungen L1 und L2 Isomorphismen und wir können Satz 7.3.27 anwenden und erhalten rang(L2 ◦ F ◦ L1 ) = rang F , somit gilt dieselbe Gleichungen für die entsprechenden Matrizen aufgrund von Satz 7.3.23. Korollar 7.3.29 Sei A ∈ MatK (n, m) eine Matrix, dann ändert sich der Rang von A durch elementare Zeilen- und Spaltenumformungen nicht. Beweis. Elementare Zeilenumformungen entsprechen der Multiplikation von links mit invertierbaren Elementarmatrizen, wohingegen elementare Spaltenumformungen der Multiplikation von rechts mit invertierbaren Elementarmatrizen entsprechen. Somit ändert sich nach Korollar 7.3.28 der Rang der Matrix A durch diese Umformungen nicht. Satz 7.3.30 Sei A ∈ MatK (m, n) eine Matrix in oberer Zeilenstufenform. Dann entspricht der Rang dieser Matrix der Anzahl der Leitkoeffizienten. 127 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.3. LINEARE ABBILDUNGEN Beweis. Der Rang einer Matrix ist gleich den Spalten- oder Zeilenrang. Da in oberer Zeilenstufenform die Zeilen mit Leitkoeffizienten linear unabhängig sind, folgt daraus direkt die Aussage. Da sich der Rang einer Matrix nicht durch elementare Zeilenumformungen ändert, haben wir nun eine Methode um den Rang zu bestimmen: Die Matrix wird in obere Zeilenstufenform gebracht, in der der Rang direkt abgelesen werden kann. Beispiel 7.3.31 Wir betrachten die Matrix 1 0 4 −3 2 −1 −1 0 −2 −1 , A= 2 1 1 2 3 0 −1 0 −1 1 von der wir den Rang bestimmen wollen. Dafür bringen A in obere Zeilenstufenform: ·(−2) 1 0 4 −3 2 1 0 4 −3 2 0 − 1 − 1 − 1 0 − 2 − 1 ← ·(−1) 4 −5 1 −+ 0 2 1 −7 8 − 1 ← −+ 1 1 2 3 ←−−−− + 0 −1 0 1 0 0 0 0 −1 0 1 4 −3 2 −1 4 0 −3 − 5 1 3 0 0 −4 4 0 1 0 0 ·(− 43 ) ← − + 0 −1 0 −1 1 0 4 −3 2 −1 4 0 −3 − 5 1 3 0 0 0 0 ←−−−− + 0 Die entstandene Matrix hat 3 Leitkoeffizienten und somit Rang 3, da elementare Zeilenumformungen den Rang nicht ändern, hat also auch A den Rang 3. Nun haben wir alle notwendigen Informationen um den Algorithmus 7.2.16 zum Lösen eines linearen Gleichungssystems begründen zu können. Zunächst halten wir noch einmal fest, dass sich die Lösungsmenge eines LGS sich durch elementare Zeilenumformungen nicht ändert, weshalb wir die erweiterte Koeffizientenmatrix (A, b) in Gauss-Jordan-Form bringen können ohne die Lösungsmenge zu ändern (s. Satz 7.2.12). Satz 7.3.32 Sei Ax = b ein lineares Gleichungssystem. Es gilt b ∈ Bild(A) genau dann, wenn rang(A) = rang(A, b). Beweis. Sei b ∈ Bild(A). Dann ist b eine Linearkombination der Spalten von A, also gilt rang(A) = rang(A, b). Gelte rang(A) = rang(A, b). Dann ist b eine Linearkombination der Spalten von A und damit liegt b im Bild von A. Korollar 7.3.33 Das lineare Gleichungssystem Ax = b besitzt genau dann eine Lösung, wenn rang(A) = rang(A, b). 128 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Beweis. Dies folgt direkt aus dem vorhergehenden Korollar, da das LGS nur dann eine Lösung hat, wenn b im Bild von A ist. Dies liefert uns die Begründung für Schritt (1) in Algorithmus 7.2.16. Steht in der Spalte b der erweiterten Koeffizientenmatrix kein Leitkoeffizient, dann ist rang(A) = rang(A, b) und somit ist Ax = b lösbar. Satz 7.3.34 Sei Ax = b ein lineares Gleichungssystem und w ∈ L(A, b) eine spezielle Lösung des inhomogenen Gleichungssystems. Dann ist L(A, b) = w + Kern(A) := {w + x | x ∈ Kern(A)} Beweis. (i) Wir zeigen w + Kern(A) ⊆ L(A, b). Sei y ∈ Kern(A). Dann ist A(w + y) = Aw + Ay = b + 0 = b, also w + y ∈ L(A, b). (ii) Wir zeigen L(A, b) ⊆ w + Kern(A). Sei v ∈ L(A, b). Dann ist A(v − w) = Av − Aw = b − b = 0, also v − w ∈ Kern(A) und demnach v ∈ w + Kern(A). Dies liefert die Begründung für den Schritt (3) in Algorithmus 7.2.16. Bemerkung 7.3.35 Sei A ∈ MatK (n, n) invertierbar, das heißt vom Rang n. Dann kann A durch elementare Zeilenumformungen in Gauß-Jordan-Form gebracht werden. Aber die einzige n × n-Matrix vom Rang n in Gauß-Jordan-Form ist die Einheitsmatrix. Also kann eine invertierbare Matrix durch elementare Zeilenumformungen in die Form einer Einheitsmatrix gebracht werden. Dies ist gleichbedeutend mit der Tatsache, dass A ein Produkt aus invertierbaren Elementarmatrizen ist. Dies liefert den Beweis zu Satz 7.1.24. 7.4. Basiswechsel und Äquivalenz von Matrizen Wir haben bisher nur linearen Abbildungen zwischen Vektorräumen der Form K n eine Matrix zugeordnet. Wir wollen in diesem Abschnitt auch allgemeinen linearen Abbildungen eine Matrix zuordnen. Da wir dafür eine Basis der Vektorräume wählen müssen, ist es wichtig zu sehen, wie sich die Matrix ändert, wenn man andere Basen wählt. Zunächst kommen wir zu der in Beispiel 7.3.3 definierten Abbildung zurück. 129 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Definition 7.4.1 Sei V ein K-Vektorraum mit der Basis B = {b1 , . . . , bn }. Dann heißt der Isomorphismus MB : V → K n λ1 n X .. v= λi bi 7→ . i=1 λn B Koordinatenabbildung und der Vektor (λ1 , . . . , λn )> B heißt Koordinatendarstellung von v bezüglich der Basis B. Die Abbildung MB bildet also jeden Vektor aus V auf seine Koordinaten bezüglich der Basis B ab. Die Inverse MB−1 wiederum bildet die Kordinaten auf den zugehörigen Vektor ab. Wir sehen, dass die Basisvektoren bi die Koordinatendarstellung λi = 1 und λj = 0 für j 6= i haben, das heißt es gilt insbesondere MB (bi ) = ei und MB−1 (ei ) = bi . (7.11) Bemerkung 7.4.2 Ist V = K n müssen wir sehr aufpassen, dass wir einen Vektor nicht mit seiner Koordinatendarstellung verwechseln. Jeder Vektor ist aber gleich seiner Koordinatendarstellung bezüglich der Standardbasis, denn es gilt v1 v1 0 0 v2 0 v2 .. v = . = . + 0 + ··· + . . . . . 0 .. vn 0 . vn 1 0 0 n 0 1 .. X . = v1 . + v2 0 + · · · + vn = vi ei . .. 0 i=1 .. 0 . 1 Haben wir einen Vektor v ∈ K n durch seine Kordinaten bezüglich der Standardbasis gegeben, dann schreiben wir das wie bisher. Verwenden wir die Koordinatendarstellung bezüglich einer anderen Basis B, dann werden wir es durch einen Index B am Vektor kennzeichnen. Definition 7.4.3 Seien V und W K-Vektorräume jeweils mit den Basen B bzw. B 0 und sei F : V → W eine K-lineare Abbildung. Dann ordnen wir F eine Matrix MBB 0 (F ) zu, die Darstellungsmatrix von F bezüglich der Basen B und B 0 , indem wir die Matrix berechnen, die zur linearen Abbildung MBB 0 (F ) : K n → K m , MBB 0 (F ) = MB 0 ◦ F ◦ MB−1 . gehört. Dabei ist n = dimK (V ) und m = dimK (W ). 130 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN F V "W MB ! MB ! Kn −1 MB ! ◦F ◦MB ! " Km Der linearen Abbildung MBB 0 (F ) kann eine Matrix zugeordnet werden, indem man die Bilder der Standardbasis in die Spalten schreibt (s. Def. 7.3.8). Wir wollen hier in der Bezeichnung nicht zwischen der linearen Abbildung MBB 0 (F ) und der Matrix MBB 0 (F ) unterscheiden. Die Bilder der Standardbasis des K n können unter Verwendung von Gleichung (7.11) geschrieben werden als: MBB 0 (F )(ei ) = MB 0 (F (MB−1 (ei ))) = MB 0 (F (bi )). Das heißt um die Matrix MBB 0 (F ) zu berechnen müssen wir zunächst die Bilder der Basisvektoren bi ∈ B unter F bestimmen. Diese Bilder liegen in W und danach berechnet man deren Koordinaten bezüglich der Basis B 0 von W . Diese Koordinatenvektoren bilden die Spalten von MBB 0 (F ). Beispiel 7.4.4 Wir betrachten die lineare Abbildung F : R2 → R2 x1 2x1 + x2 7→ x2 −x1 + 2x2 und zwei verschiedene Basen des R2 B = {b1 , b2 } wobei −1 1 , b2 = b1 = 1 1 und 0 B = {b01 , b02 } wobei b01 1 1 0 , b2 = = 0 1 Wir wollen nun die Darstellungsmatrix MBB 0 (F ) berechnen. Dafür berechnen wir die Bilder der Basisvektoren aus B und bestimmen dann die Koordinaten der Bilder bezüglich B 0 . Die Bestimmung der Kordinaten machen wir hier durch “scharfes Angucken”. Wenn dies nicht geht, dann kann man ein LGS aufstellen und dieses lösen (s. Beispiel 7.4.8) 2+1 3 1 1 F (b1 ) = = =2 + = 2b01 + b02 −1 + 2 1 0 1 1 2 ⇒ MB 0 (F (b1 )) = 1 B0 −2 + 1 −1 1 1 F (b2 ) = = = −4 +3 = −4b01 + 3b02 −(−1) + 2 3 0 1 −4 ⇒ MB 0 (F (b2 )) = 3 B0 131 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Somit erhalten wir die Darstellungsmatrix MBB 0 (F ) = 2 −4 . 1 3 Die Verknüpfung von Abbildungen entspricht analog zu Satz 7.3.11 dem Produkt der Darstellungsmatrizen, unter der Voraussetzung, dass die Basis des mittleren Vektorraums bei beiden Darstellungen gleich gewählt ist. Satz 7.4.5 Seien U, V, W K-Vektorräume mit den jeweiligen Basen B, B 0 und B 00 . Seien F : U → V und G : V → W lineare Abbildungen, dann gilt für die Darstellungsmatrizen: MBB 00 (G ◦ F ) = MB 0 B 00 (G) · MBB 0 (F ) Beweis. Wir setzen die Definition der linearen Abbildungen ein: MB 0 B 00 (G) · MBB 0 (F ) = MB 00 ◦ G ◦ MB−10 ◦ MB 0 ◦ F ◦ MB−1 = MB 00 ◦ G ◦ F ◦ MB−1 = MBB 00 (G ◦ F ) Da jeder Vektorraum verschiedene Basen hat, wollen wir nun sehen wie sich die Darstellungsmatrix der gleichen linearen Abbildung ändert, wenn wir sie für unterschiedliche Basen bestimmen. Satz 7.4.6 Seien V, W K-Vektorräume und F : V → W eine K-lineare Abbildung. Seien B, C Basen von V und B 0 , C 0 Basen von W . Dann gibt es invertierbare Matrizen S ∈ MatK (n, n), wobei n = dimK V und T ∈ MatK (m, m), wobei m = dimK W so dass gilt: MCC 0 (F ) = T · MBB 0 (F ) · S −1 . Gilt insbesondere V = W , B = B 0 und C = C 0 , dann gibt es eine invertierbare Matrix T ∈ MatK (n, n) wobei n = dimK V , so dass MCC (F ) = T · MBB (F ) · T −1 . Die Matrizen S −1 und T heißen Basiswechselmatrizen und es gilt T = MC 0 ◦ MB−10 und S = MC ◦ MB−1 . Beweis. Wir benutzen, dass die Abbildungen MB und MB 0 Isomorphismen sind und es gilt idW = MB−10 ◦ MB 0 , bzw. idV = MB−1 ◦ MB . Somit können wir unter Verwendung der Definition der Darstellungsmatrizen berechnen: MCC 0 (F ) = MC 0 ◦ F ◦ MC−1 = MC 0 ◦ idW ◦F ◦ idV ◦MC−1 = MC 0 ◦ MB−10 ◦ MB 0 ◦ F ◦ MB−1 ◦ MB ◦ MC−1 = T ◦ MB 0 ◦ F ◦ MB−1 ◦ S −1 = T · MBB 0 (F ) · S −1 . 132 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Wobei wir T = MC 0 ◦ MB−10 und S = MC ◦ MB−1 definieren. Beide Abbildungen sind invertierbar als Produkt invertierbarer Abbildungen. Für V = W , B = B 0 und C = C 0 sehen wir dass S = T gilt, woraus auch die zweite Behauptung folgt. Aufgrund der Definition als Verknüpfung MC 0 ◦ MB−10 bildet die Matrix T die Koordinaten eines Vektors v ∈ W bezüglich der Basis B 0 auf die Koordinaten desselben Vektors bezüglich der Basis C 0 ab. Beispiel 7.4.7 Wir betrachten hier noch einmal die Abbildung aus Beispiel 7.4.4 und bestimmen die Darstellungsmatrix bezüglich der Standardbasis. Danach wollen die Basiswechselmatrizen für den Wechsel zwischen der in Beispiel 7.4.4 berechneten Darstellung und der Darstellung bezüglich der Standardbasis bestimmen. Sei jetzt C = C 0 = {e1 , e2 } die Standardbasis des R2 . Die lineare Abbildung F : R2 → R2 x1 2x1 + x2 7→ x2 −x1 + 2x2 hat die Darstellungsmatrix MCC 0 (F ) = 2 1 −1 2 bezüglich der Standardbasis. Zur Berechnung der Basiswechselmatrizen benötigen wir die Abbildungen MB , MB−10 , MC−1 und MC 0 . Da in unserem Beispiel V = W = R2 ist können wir bereits diese Abbildungen durch Matrizen angeben. Aufgrund von Gleichung 7.11 erhalten wir die Matrix zur Abbildung MB−1 indem wir die Basis B in die Spalten der Matrix schreiben. Somit gilt 1 −1 1 1 −1 −1 0 0 b b b b MB = 1 2 = und MB 0 = 1 2 = . 1 1 0 1 Da die Basen C und C 0 die Standardbasis sind, gilt für die entsprechenden Matrizen: MC−1 = MC−10 = E2 und daher auch MC = MC 0 = E2 . Nun können wir die Basiswechselmatrizen T und S −1 berechnen: 1 1 −1 −1 −1 T = MC 0 · MB 0 = E2 · MB 0 = MB 0 = 0 1 Diese Matrix beschreibt den Übergang von den Koordinaten bezüglich B 0 zu denen bezüglich der Standardbasis. 1 1 1 −1 −1 −1 −1 −1 S = (MC · MB ) = MB · MC = MB · E2 = MB = 2 −1 1 Diese Matrix beschreibt den Übergang von den Koordinaten bezüglich der Standardbasis zu denen bezüglich der Basis B. Die Matrix MB haben wir durch Invertieren der Matrix MB−1 berechnet und zwar auf die gleiche Art und Weise wie es basierend auf Satz 7.1.24 in Beispiel 7.1.25 gezeigt wurde. Dafür formen wir MB−1 mithilfe elementarer Zeilenumformungen so lange um bis wir die Einheitsmatrix erhalten und machen gleichzeitig dieselben Umformungen an einer 133 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Einheitsmatrix 1 1 1 0 −1 | 1 0 1 | 0 1 −1 | 1 ! | 1 − ·(−1) 1 ← −+ ! −+ 0 ← 0 1 0 | 1 2 0 1 | 1 2 −1 | 2 | 1 0 ! −1 1 | · ! 1 2 − 1 2 1 2 1 2 1 2 Nun können wir noch überprüfen, ob wirklich MCC 0 (F ) = T · MBB 0 (F ) · S −1 gilt: 1 1 1 1 1 2 −4 −1 T · MBB 0 (F ) · S = · 0 1 1 3 2 −1 1 1 1 3 −1 1 1 4 2 = · · = · 1 3 −1 1 −2 4 2 2 2 1 = = MCC 0 (F ). −1 2 Beispiel 7.4.8 Wir betrachten die lineare Abbildung F : R2 → R3 −x1 + 3x2 x1 2x2 7→ x2 x1 − 2x2 und zwei verschiedene Basen des R2 B = {b1 , b2 } wobei b1 = C = {c1 , c2 } wobei c1 = und 2 0 , b2 = 1 −1 2 −1 , c2 = 2 1 sowie zwei verschiedene Basen des R3 B 0 = {b01 , b02 , b03 } wobei und C 0 = {c01 , c02 , c03 } wobei 2 0 1 b01 = 1 , b02 = −1 , b03 = 0 0 1 0 −1 0 0 c01 = −1 , c02 = 2 , c03 = −1 1 1 2 Wir wollen jetzt die Darstellungsmatrizen MBB 0 (F ) und MCC 0 (F ) bestimmen. Um MBB 0 (F ) zu bestimmen, berechnen wir die Koordinaten von F (b1 ) und F (b2 ) bezüglich 134 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN der Basis B 0 . −(2) + 3 · 1 1 2 1 2·1 F (b1 ) = = 2 = 2 1 − 3 0 = 2b01 + 0 · b02 − 3b03 2−2·1 0 0 0 2 0 ⇒ MB 0 (F (b1 )) = −3 B 0 −0 + 3 · (−1) −3 F (b2 ) = 2 · (−1) = −2 0 − 2 · (−1) 2 Die Koordinaten dieses Vektors bezüglich der Basis B 0 sind nicht so einfach abzulesen wie die von F (b1 ), weshalb wir ein LGS dafür aufstellen und es lösen müssen. −3 2 0 1 2λ1 + λ3 −2 = λ1 b01 + λ2 b02 + λ3 b03 = λ1 1 + λ2 −1 + λ3 0 = λ1 − λ2 2 0 1 0 λ2 Die letzte Zeile liefert λ2 = 2, durch Einsetzen in Zeile 2 erhalten wir −2 = λ1 − 2 und daher λ1 = 0, wodurch aus der ersten Zeile λ3 = −3 folgt. Insgesamt gilt also 2 0 1 F (b2 ) = 0 1 + 2 −1 − 3 0 0 1 0 ⇒ 0 MB 0 (F (b2 )) = 2 . −3 B 0 Somit erhalten wir die Darstellungsmatrix 2 0 2 . MBB 0 (F ) = 0 −3 −3 Die Darstellungsmatrix MCC 0 (F ) kann nun auf analoge Art und Weise direkt bestimmt werden oder aber mithilfe der Basiswechselmatrizen aus MBB 0 (F ) berechnet werden. Wir werden hier beide Wege zeigen um zu sehen, dass sie zu dem selben Ergebnis führen. Zunächst berechnen wir auf direkte Weise die Darstellungsmatrix MCC 0 (F ), dafür berechnen wir die Bilder F (c1 ) und F (c2 ) −(−1) + 3 · 1 4 = 2 2·1 F (c1 ) = −1 − 2 · 1 −3 −2 + 3 · 2 4 und F (c2 ) = 2 · 2 = 4 2−2·2 −2 Die Lösung des LGS F (c1 ) = λ1 c01 +λ2 c02 +λ3 c03 sind die Koordinaten von F (c1 ) bezüglich 135 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN der Basis C 0 : −1 0 0 | −1 2 −1 | 1 1 2 | −1 0 0 1 2 0 4 ·(−1) 2 −3 | | 4 ← −+ ← −+ −1 0 0 | 4 2 − 1 | − 2 ← − 0 0 1 2 | 1 ← − | · (−1) −1 0 0 | 4 1 2 | 1 0 ·(−2) 1 −+ 0 2 −1 | −2 ← 0 0 − 5 | − 4 | · (− 15 ) 1 0 0 | −4 1 0 0 | −4 −4 3 −+ 1 ← ⇒ MC 0 (F (c1 )) = − 53 0 1 2 | 0 1 0 | − 5 4 4 4 ·(−2) 0 0 1 | 0 0 1 | 5 C0 5 5 136 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Die Lösung des LGS F (c2 ) = λ1 c01 +λ2 c02 +λ3 c03 sind die Koordinaten von F (c2 ) bezüglich der Basis C 0 . −1 0 −1 2 1 1 −1 0 0 1 0 0 1 0 | 4 ·(−1) −1 | 4 ← −+ 2 | −2 ← −+ 0 0 | 4 −1 ·(−2) 1 2 | 2 0 2 −1 | 0 ← 0 −+ 0 | −4 1 0 0 2 | 2 ← −+ 0 1 0 0 0 1 | 4 5 ·(−2) −1 0 0 0 2 0 1 2 0 0 | 1 2 | | 4 − 1 | 0 ← − 0 −5 | | −4 2 | 5 4 0 0 1 | 5 | 2 ← − 4 | · (−1) 2 − 4 | · (− 15 ) ⇒ −4 MC 0 (F (c2 )) = 52 4 5 C0 Somit erhalten wir die Darstellungsmatrix −4 −4 MCC 0 (F ) = − 53 25 . 4 5 4 5 Zur Berechnung der Basiswechselmatrizen benötigen wir die Abbildungen MB , MB−10 , MC−1 und MC 0 . Da in unserem Beispiel V = R2 und W = R3 ist können wir bereits diese Abbildungen durch Matrizen angeben. Aufgrund von Gleichung 7.11 erhalten wir die Matrix zur Abbildung MB−1 indem wir die Basis B in die Spalten der Matrix schreiben. Somit gilt MB−1 = b1 b2 2 0 = 1 −1 und MB−10 = b01 b02 2 0 1 b03 = 1 −1 0 0 1 0 und analog MC−1 = c1 c2 −1 2 = 1 2 und MC−10 = c01 c02 −1 0 0 c03 = −1 2 −1 1 1 2 Für die Basiswechselmatrizen T und S −1 gilt per definition T = MC 0 · MB−10 und S −1 = (MC · MB−1 )−1 = MB · MC−1 . Wir müssen also noch jeweils die zu MC−10 und MB−1 inversen Matrizen bestimmen um die Basiswechselmatrizen berchnen zu können. Dafür führen wir an diesen Matrizen solange elementare Zeilenumformungen durch bis wir die Einheitsmatrix erhalten und führen 137 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN diesselben Umformungen an einer Einheitsmatrix durch: ·(−1) −1 0 0 | 1 −1 0 0 | 1 0 0 ← −+ 2 −1 | −1 0 − 1 2 − 1 | 0 1 0 0 1 2 | 1 1 1 2 | 0 0 1 ← −+ −1 0 0 | 1 0 −1 0 0 | 1 0 0 ·(−2) 1 2 | 1 0 1 2 | 1 0 1 0 0 −+ 0 0 −5 | −3 1 0 2 −1 | −1 1 0 ← 1 0 0 | −1 0 1 0 0 | −1 0 0 1 2 + − 1 0 1 ← 0 1 0 | − 5 0 1 2 | 5 3 5 0 0 1 | 2 0 1 | 1 0 ! −1 | 0 1 − 1 5 2 5 2 ·(− 12 ) 0 0 ← −+ Somit haben lauten die Matrizen −1 0 2 MC 0 = − 15 5 3 − 15 5 | 1 −1 | − 0 0 1 2 ! 1 1 5 2 5 3 5 0 0 1 | ·(−2) | · (−1) 0 1 | 2 1 2 S −1 = MB · MC−1 1 2 1 2 = ← − ← − | · (−1) | · (− 15 ) 2 5 1 0 | 1 2 1 2 ! 0 −1 0 . −1 Und damit berechnen sich die Basiswechselmatrizen zu −1 0 0 2 0 1 −2 0 2 1 = 0 −1 1 −1 0 T = MC 0 · MB−10 = − 51 · 5 5 5 3 3 1 2 1 − 0 1 0 5 5 5 5 und 1 5 1 2 |· 1 und MB = − 0 0 1 0 0 1 0 1 −2 0 1 5 1 −2 0 −1 2 = · 1 2 − 32 −1 −1 − 15 3 5 1 . −1 Nun können wir noch überprüfen, ob wirklich MCC 0 (F ) = T · MBB 0 (F ) · S −1 gilt: 1 2 0 −2 0 −1 −2 1 −1 1 1 0 2 · 0 −5 −5 T · MBB 0 (F ) · S = − 32 −1 3 3 1 −3 −3 5 5 −2 0 −1 −1 2 = 0 − 15 − 15 −3 −2 3 3 1 6 0 5 5 −4 −4 = − 35 25 = MCC 0 (F ) 4 5 4 5 Definition 7.4.9 Seien A, B ∈ MatK (m, n) Matrizen. Wir nennen A äquivalent zu B, 138 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN wenn es invertierbare Matrizen S ∈ MatK (n, n) und T ∈ MatK (m, m) gibt, so dass gilt: A = T · B · S −1 . Zwei Matrizen sind also äquivalent zueinander, wenn sie die Darstellungsmatrizen bezüglich unterschiedlicher Basen sowohl von V als auch von W derselben linearen Abbildung F : V → W sind. Da jede invertierbare Matrix das Produkt von Elementarmatrizen ist, kann man es auch anders formulieren: Zwei Matrizen sind äquivalent zueinander, wenn man durch elementare Zeilen- und Spaltenumformungen, die eine in die andere umwandeln kann. Definition 7.4.10 Seien A, B ∈ MatK (n, n) quadratische Matrizen. Wir nennen A ähnlich zu B, wenn es eine invertierbare Matrix T ∈ MatK (n, n) gibt, so dass gilt: A = T · B · T −1 . Zwei Matrizen sind also ähnlich zueinander, wenn sie die Darstellungsmatrizen bezüglich verschiedener Basen von V derselben linearen Abbildung F : V → V sind. Proposition 7.4.11 Äquivalenz und Ähnlichkeit von Matrizen sind Äquivalenzrelationen auf der Menge der m × n, bzw. n × n Matrizen. Beweis. Wir zeigen hier, dass Äquivalenz von Matrizen eine Äquivalenzrelation ist. Der Beweis für Ähnlichkeit funktioniert analog. Reflexivität: Wählen wir T = Em und S = En , dann sehen wir dass A = EM AEn gilt, also jede Matrix zu sich selbst äquivalent ist. Symmetrie: Ist A äquivalent zu B, dh. A = T · B · S −1 , dann gilt B = T −1 AS und somit ist auch B äquivalent zu A. Transitivität: Ist A äquivalent zu B und B äquivalent zu C, dh es existieren Matrizen T1 , T2 ∈ Mat(m, m) und S1 , S2 ∈ Mat(n, n), so dass A = T1 · B · S1−1 und B = T2 · C · S2−1 , dann gilt A = T1 · B · S1−1 = A = T1 · T2 · C · S2−1 · S1−1 = (T1 T2 ) · C · (S1 S2 )−1 und somit ist auch A äquivalent zu C. Definition 7.4.12 Eine m × n Matrix hat reduzierte Zeilenstufenform, wenn sie von 139 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN folgender Form ist: 1 0 ... 0 1 .. . 0 ... 0 0 0 0 0 . . . 0 0 . .. 0 . . . 0 0 0 0 0 0 1 0 0 0 0 0 0 ... 0 0 .. . . 0 .. 0 0 0 0 0 ... 0 0 .. . . 0 .. 0 0 0 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN 0 0 0 0 Er Or,n−r = Om−r,r Om−r,n−r 0 0 0 0 wobei mit Ok,` eine k × l Nullmatrix gemeint ist. 1 0 Beispiel 7.4.13 Die Matrix A = 0 1 0 0 sehen, dass die Multiplikation mit dieser für einen Vektor gilt: 0 0 0 0 hat reduzierter Zeilenstufenform. Wir 0 0 Matrix besonders einfach ist, da zum Beispiel x1 1 0 0 0 x1 x2 = x2 . Ax = 0 1 0 0 · x3 0 0 0 0 0 x4 Satz 7.4.14 Jede Matrix A ∈ MatK (m, n) vom Rang r ist äquivalent zu einer Matrix in reduzierter Zeilenstufenform mit r Einsen auf der Diagonale. Da jede invertierbare Matrix ein Produkt von Elementarmatrizen ist (s. Satz 7.1.24), lässt sich dieser Satz auch anders formulieren: Jede Matrix A ∈ MatK (n, m) vom Rang r lässt sich durch elementare Zeilen- und Spaltenumformungen in eine Matrix in reduzierter Zeilenstufenform mit r Einsen auf der Diagonale umformen. Den Beweis dieser Aussage geben wir als Algorithmus an. Algorithmus 7.4.15 (reduzierte Zeilenstufenform) Eingabe: Eine Matrix A ∈ MatK (m, n). Ausgabe: Eine Matrix B ∈ MatK (m, n) in reduzierter Zeilenstufenform. Durchführung: (1) Bringe die Matrix A durch elementare Zeilenumformungen in Gauss-Jordan-Form wie in Algorithmus 7.2.13 beschrieben. (2) Betrachte die am weitesten links stehende Spalte ohne Leitkoeffizient. Angenommen in dieser Spalte steht in der ersten Zeile der Eintrag b = 6 0, dann multipliziere die erste Spalte mit −b und addiere sie zur betrachteten Spalte. Gehe von oben nach 140 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN unten alle Einträge in dieser Spalte durch und mache sie mithilfe der Spalte in der in dieser Zeile ein Leitkoeffizient steht zu null. Wiederhole Schritt (3) von links nach rechts mit allen Spalten. (3) Betrachte die am weitesten links stehende Spalte ohne Leitkoeffizient und tausche sie mit der nach rechts nächsten Spalte mit Leitkoeffizient. Wiederhole Schritt (3) von links nach rechts mit allen Spalten. Satz 7.4.14 kann noch auf eine weitere Art und weise verstanden werden: Sei F : V → W eine lineare Abbildung vom Rang r, dann gibt es gibt es eine Basis B von V und eine Basis B 0 von W , so dass MBB 0 (F ) eine Matrix in reduzierter Zeilenstufenform mit r Einsen auf der Diagonale ist. Diese kann man aus den Basiswechselmatrizen bestimmen. Die Basiswechselmatrizen kann man berechnen, indem man alle Zeilen- und Spaltenumformungen, die man der Matrix durch führt auch an einer Einheitsmatrix mit der entsprechenden Anzahl von Zeilen, bzw. durchführt. Beispiel 7.4.16 Wir betrachten die Matrix 3 2 1 1 A = 1 −1 2 −3 −1 0 −1 1 und wollen sie mithilfe elementarer Zeilen- und Spaltenumformungen in reduzierte Zeilenstufenform bringen. Zur Bestimmung der Matrizen S und T führen wir alle Umformungen auch an Einheitsmatrizen der entsprechenden Größe durch. Zunächst führen wir solange elementare Zeilenumformungen durch bis die Matrix GaußJordan-Form hat. Da Zeilenumformungen einer Multiplikation von links entspricht führen wir alle Umformungen auch an einer Einheitsmatrix durch, die genauso viele Zeilen wie A hat, das heißt an E3 ← − 1 0 0 | 3 2 1 1 1 −1 2 − 3 ← − 0 1 0 | 0 0 1 | 0 1 0 | 1 0 0 | −1 0 −1 1 1 −1 2 −3 2 1 0 −1 −1 2 5 −5 1 ← −+ 1 ←−−−−−− + −3 10 ← − −1 1 3 0 0 1 | −1 0 1 0 | 1 1 − 3 0 | 0 0 0 0 1 1 | 0 −2 ·(−3) ← − 1 0 | 1 −1 2 −3 1 1 | 0 −1 1 − 2 ·5 1 −3 0 | 0 5 − 5 10 ← −+ 0 1 0 | 1 −1 2 −3 0 1 1 | 0 − 1 1 − 2 | · (−1) 1 2 5 | 0 0 0 0 141 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 0 0 1 0 0 1 0 −1 1 −+ −3 ← 0 1 −1 2 0 0 0 0 1 0 1 −1 0 1 −1 2 = T | à 0 0 0 0 | 1 −1 | 2 5 | 0 −1 | −1 −1 | 2 5 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN | −1 2 Mithilfe elementarer Zeilenumformungen können wir die Matrix nicht weiter umformen. Deshalb führen an der Matrix à nun elementare Spaltenumformungen durch bis diese Matrix reduzierte Zeilenstufenform hat. Spaltenumformungen entsprechen einer Multiplikation von rechts. Somit führen wir alle Umformungen auch an einer Einheitsmatrix durch, die genauso viele Spalten wie A hat, das heißt an E4 + y ·(−1) + y + y + y 1 0 0 −− 1 0 0 0 ·(−2) 0 1 1 −1 0 0 −− −− 0 0 1 0 0 1 0 0 1 0 0 −− 1 0 0 0 −1 0 0 −− 1 0 0 2 0 − − 0 0 0 0 1 0 0 0 −− −− 0 −1 1 1 0 1 0 0 0 0 −1 1 0 0 0 −− −− 0 −1 1 1 0 1 2 0 − − 0 0 0 0 0 0 1 0 1 0 1 0 0 − − 1 − 2 0 1 Wir verwenden nun die Bezeichnungen 0 0 −1 T = 0 −1 −1 1 2 5 und S −1 1 0 = 0 0 0 −1 1 1 1 −2 0 1 0 0 0 1 Dann hat unsere Rechnung gezeigt, dass gilt 1 0 0 0 T AS −1 = 0 1 0 0 0 0 0 0 142 KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN 7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN Wir gehen jetzt davon aus, dass A die Darstellungsmatrix einer linearen Abbildung F : R4 → R3 bezüglich der Standardbasis B von R3 und der Standardbasis B 0 von R4 ist, dh dass A = MBB 0 (F ) gilt. Dann ist die Matrix in reduzierter Zeilenstufenform die Darstellungsmatrix derselben linearen Abbildung bezüglich einer Basis C von R3 und einer Basis C 0 von R4 . Um diese Basen zu bestimmen benötigen wir die Definition der Basiswechselmatrizen. Es gilt T = MC 0 MB−10 = MC 0 und S −1 = MB MC−1 = MC−1 , da wir annehmen, das B und B 0 Standardbasen sind. Die Basis C entspricht den Spalten von MC−1 und damit denen von S −1 . Die Basis C 0 entspricht den Spalten von MC−10 und damit denen der Inversen von T , die wir jetzt berechnen: 0 0 −1 | 1 0 0 ← − 1 2 5 | 0 0 1 0 − 1 − 1 | 0 1 0 0 − 1 − 1 | 0 1 0 | · (−1) 1 2 1 0 0 1 0 5 | 0 0 1 2 5 | 0 1 1 | 0 0 1 | −1 0 0 | 5 1 0 | 1 0 0 1 | −1 ← − 0 0 0 1 ←−−−−−− + −+ − 1 0 ← 0 0 −2 1 − 1 0 0 0 ·(−1) −1 | 1 0 0 | · (−1) ← −+ ·(−2) ·(−5) ⇒ MC−10 5 −2 1 = 1 −1 0 −1 0 0 Somit haben wir die Basen C = {c1 , c2 , c3 , c4 } und C 0 = {c01 , c02 , c03 } mit 1 −1 0 1 5 −2 1 −2 1 1 0 c2 = c3 = c4 = c01 = 1 c02 = −1 c03 = 0 c1 = 0 1 0 0 −1 0 0 1 0 0 0 bestimmt. Die lineare Abbildung F : R4 → R3 , x → Ax hat bezüglich dieser Basen die Darstellungsmatrix 1 0 0 0 MCC 0 (F ) = 0 1 0 0 . 0 0 0 0 Korollar 7.4.17 Haben zwei Matrizen A, B ∈ MatK (m, n) den gleichen Rang, dann sind sie äquivalent zueinander. Beweis. Beide Matrizen sind zur selben Matrix in reduzierte Zeilenstufenform äquivalent und somit folgt die Aussage aus der Symmetrie und Transitivität der Äquivalenzrelation. 143 8. Determinanten und Diagonalisierbarkeit In dem letzten Kapitel haben wir uns mit linearen Abbildung zwischen verschiedenen Vektorräumen, die durch rechteckige Matrizen dargestellt werden können. Ab jetzt wollen wir uns mit Endomorphismen, das heißt mit linearen Abbildungen F : V → V von einem Vektorraum V in sich selbst beschäftigen. Wählen wir Basen B, B 0 von V , dann entsprechen diese Abbildungen quadratischen Matrizen A = MBB 0 (F ). Wir wissen aus Satz 7.4.14, dass jede quadratische Matrix äquivalent zu einer Diagonalmatrix ist. Dies bedeutet, dass es geeignete Basen B und B 0 von V gibt, so dass die Darstellungsmatrix MBB 0 (F ) Diagonalform hat. Ab jetzt wollen wir uns mit der Frage beschäftigen, ob jede quadratische Matrix auch ähnlich zu einer Diagonalmatrix ist. Dafür müssen wir eine Basis B von V finden, so dass Darstellungsmatrix MBB (F ) Diagonalform hat. Warum dieses Problem für Anwendungen wichtig ist sehen wir daran wenn wir die Potenz einer Matrix Ak berechnen wollen. Für eine n × n Matrix A und ein großes k ist die Matrixmultiplikation rechnerisch aufwendig. Wissen wir aber, dass A ähnlich zu einer Diagonalmatrix ist, d.h. es gibt eine invertierbare Matrix T und Skalare λi ∈ K, so dass gilt: T · A · T −1 = Diag(λ1 , . . . , λn ) ⇐⇒ A = T −1 · Diag(λ1 , . . . , λn ) · T Dann können wir leicht die Potenz von A berechnen: Ak = T −1 · Diag(λ1 , . . . , λn ) · T · T −1 · Diag(λ1 , . . . , λn ) · T · . . . · T −1 · Diag(λ1 , . . . , λn ) · T = T −1 · Diag(λ1 , . . . , λn )k · T = T −1 · Diag(λk1 , . . . , λkn ) · T. Die Potenz einer Matrix spielt zum Beispiel für das Berechnen von Iterationen eine Rolle. Ähnlich wie im eindimensionalen Fall, wo wir die Gleichung xn+1 = axn zu einem Anfangswert x0 durch xn = an x0 lösen, ist die Lösung eines höherdimensionalen linearen Problems durch die Potenz einer Matrix gegeben. Zum Beispiel ist die Lösung des Problems xn+1 2xn + 3yn 2 3 xn = = yn+1 −xn + yn −1 1 yn zu einem Anfangswert (x0 , y0 )> durch n xn 2 3 x0 = yn −1 1 y0 gegeben. 8.1. Determinanten Zunächst wollen wir ein einfaches Kriterium kennenlernen, mit dem es möglich ist zu bestimmen, ob eine Matrix invertierbar ist. 144 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Beispiel 8.1.1 Schauen wir das eindimensionale LGS ax = b an. Dies hat eine eindeutige Lösung für alle b ∈ K, wenn a = 6 0 ist. Die Lösung ist dann durch x = a/b gegeben. Wenn wir ein allgemeines LGS mit zwei Gleichungen lösen, dann erhalten wir eine ähnliche Bedingung: ! ! ·(−1) a11 a12 | b1 | · (a21 ) a11 a21 a12 a21 | a21 b1 a21 a22 | b2 | · (a11 ) a11 a21 a11 a22 | a11 b2 a11 a21 0 a12 a21 | ← −+ a21 b1 ! a11 a22 − a12 a21 | a11 b2 − a21 b1 Ist nun a11 a22 − a12 a21 6= 0, dann ist auch dieses Gleichungssystem eindeutig lösbar. Der Ausdruck a11 a22 − a12 a21 heißt Determinante der 2 × 2 Matrix und a ist die Determinante der 1 × 1 Matrix (a). Wir werden ihn hier über seine Eigenschaften einführen und dann sehen, dass dies zu der gleichen Formel führt. Determinanten können nur von quadratischen Matrizen berechnet werden. Es ist günstig die Spalten der Matrix als Vektoren im K n zu betrachten, so dass man auch n Vektoren eine Determinante zuordnen kann. Definition 8.1.2 (Determinante) Es sei K ein Körper. Eine Abbildung det : MatK (n, n) −→ K, bzw. det : K n × K n × · · · × K n −→ K | {z } n−mal heißt Determinantenfunktion, falls die folgenden drei Eigenschaften gelten: (i) Es ist det(En ) = 1, bzw. det(e1 , . . . , en ) = 1 (ii) Besitzt A ∈ MatK (n, n) nicht vollen Rang, rang(A) < n, so ist det(A) = 0, bzw. sind v1 , . . . , vn linear abhängig, dann ist det(v1 , . . . , vn ) = 0. (iii) Seien v1 , . . . , vn , vi0 ∈ K n , dann gilt für alle i ∈ {1, . . . , n} und für alle λ, µ ∈ K det(v1 , . . . , vi−1 , λvi + µvi0 , vi+1 , . . . , vn ) = λ det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + µ det(v1 , . . . , vi−1 , vi0 , vi+1 , . . . , vn ). Diese Eigenschaft wird als Linearität in jeder Spalte bezeichnet. Man sagt auch, dass det eine Multinearform ist. Aus dieser Definition können wir direkt ableiten, wie sich die Determinante einer Matrix bei elementaren Spaltenumformungen verhält. Satz 8.1.3 Sei det : K n × · · · × K n → K eine Determinantenfunktion, dann gilt: 145 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN 1) Multipliziert man eine Spalte mit einem Skalar, dann ändert sich die Determinante um genau diesen Faktor det(v1 , . . . , vi−1 , λvi , vi+1 , . . . , vn ) = λ det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ). 2) Beim Vertauschen zweier Spalten ändert die Determinante ihr Vorzeichen det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn ) = − det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn ). 3) Addiert man das λ-fache der Spalte j zur Spalte i, wobei i 6= j, dann ändert das die Determinante nicht: det(v1 , . . . , vi−1 , vi + λvj , vi+1 , . . . , vn ) = det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ). Beweis. 1) Aufgrund von Eigenschaft (ii) der Determinantenfunktion gilt det(v1 , . . . , vi−1 , vi + vj , vi+1 , . . . , vj−1 , vi + vj , vj+1 , . . . , vn ) = 0, da die i-te und die j-te Spalte gleich sind und damit linear abhängig. Durch Anwenden von Eigenschaft (iii) zuerst auf Spalte i und danach auf Spalte j erhalten wir somit 0 = det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vi + vj , vj+1 , . . . , vn ) + det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi + vj , vj+1 , . . . , vn ) = det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn ) + det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn ) + det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn ) + det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn ) Verwenden wir wieder Eigenschaft (ii), dann sehen wir, dass der erste und letzte Summand null ist, da bei beiden Determinanten zwei Spalten gleich sind, und somit wie behauptet gilt: det(v1 , . . . ,vi−1 , vi , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn ) + det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn ) = 0. 2) Diese Regel folgt direkt aus Eigenschaft (iii), indem man µ = 0 verwendet. 3) Diese Regel folgt ebenfalls aus Eigenschaft (iii), die besagt, dass det(v1 , . . . , vi−1 , vi + λvj , vi+1 , . . . , vn ) = det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + λ det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vn ). Da aber im zweiten Summand der Vektor vj sowohl in der Spalte i, als auch der Spalte j steht, folgt aus Eigenschaft (ii), dass diese Determinante null ist. 146 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Korollar 8.1.4 Sei A ∈ MatK (n, n) eine quadratische Matrix und λ ∈ K ein Skalar, dann gilt: det(λA) = λn det A Beweis. Die Matrix λA entsteht aus A durch Multiplizieren aller Einträge mit dem Skalar λ, das heißt es werden alle n Spalten mit λ multipliziert. Durch Anwenden von Regel 1 aus Satz 8.1.3 auf die Spalten 1 bis n, erhalten wir so die Aussage. Satz 8.1.5 Sei A = (a) ∈ MatK (1, 1), dann ist durch det A = a eine Determinantenfunktion gegeben. a b Sei A = ∈ MatK (2, 2), dann ist durch c d a b det A = det = ad − bc c d eine Determinantenfunktion gegeben. Beweis. Es gilt aufgrund von Eigenschaft (i) der Determinantenfunktion det(1) = 1 und somit gilt aufgrund von Eigenschaft (iii) für eine 1 × 1-Matrix, also ein Skalar det(a) = a det(1) = a. Sei jetzt A eine 2 × 2-Matrix. Die Spalten von A sind die Vektoren a b v1 = = ae1 + ce2 und v2 = = be1 + de2 , c d wobei hier e1 , e2 die Standardbasisvektoren des K 2 sind. Wir rechen nach det(v1 , v2 ) = det(ae1 + ce2 , be1 + de2 ) = a det(e1 , be1 + de2 ) + c det(e2 , be1 + de2 ) | Linearität der ersten Spalte = ab det(e1 , e1 ) + ad det(e1 , e2 ) | Linearität der zweiten Spalte + bc det(e2 , e1 ) + bd det(e2 , e2 ) | = ad det(e1 , e2 ) + bc det(e2 , e1 ) | Eigenschaft (ii) Vertauschen von Spalten ändert Vorzeichen | Eigenschaft (i) = ad det(e1 , e2 ) − bc det(e1 , e2 ) = ad − bc Beispiel 8.1.6 1 0 det =1·1−0·2=1 2 1 1 −2 det −1 2 = 1 · 2 − (−2) · (−1) = 2 − 2 = 0 147 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Satz 8.1.7 Für jedes n ∈ N gibt es eine eindeutig bestimmte Determinantenfunktion det : MatK (n, n) → K. Wir verzichten hier an dieser Stelle auf den Beweis. Er kann auf analoge Art und Weise wie der Beweis von Satz 8.1.5 geführt werden. Allerdings benötigt man eine kompakte Schreibweise um klarzumachen welche Matrixeinträge miteinander multipliziert werden. Außerdem kommt man auf Determinanten zum Beispiel für 4 × 4-Matrizen der Art det(e3 , e2 , e4 , e1 ), die durch eine gewisse Anzahl von Vertauschen in die Form (−1)Anzahl Vertauschungen det(e1 , e2 , e3 , e4 ) = ±1 gebracht werden müssen. Dies ist möglich durch das Studium von sogenannten Permutationen und deren Signum. Wir verzichten hier aber darauf, da zur praktischen Berechnung von Determinanten größerer Matrizen nie die explizite Formel verwendet wird. Definition 8.1.8 (Unterdeterminante) Sei A = (aij ) ∈ MatK (n, n). Die (n − 1) × (n − 1)-Matrix, die aus A durch Streichung der i-ten Zeile und j-ten Spalte ensteht, wird mit Ãij bezeichnet. Die Determinante Mij = det Ãij nennen wir Unterdeterminante oder Minor von det A. Satz 8.1.9 (Laplace’scher Entwicklungssatz) Sei A = (aij ) ∈ MatK (n, n). Der Wert der Determinante von A ergibt sich, indem man die Elemente einer beliebigen Zeile (oder Spalte) mit (−1)i+j Mij multipliziert und die so entstehenden Produkte aufaddiert. Die Entwicklung der i-ten Zeile lautet also det(A) = n X aij (−1)i+j Mij . j=1 Die Entwicklung der j-ten Spalte lautet demnach det(A) = n X aij (−1)i+j Mij . i=1 Auch auf diesen Beweis verzichten wir. Es ist zu beachten, dass es egal ist nach welcher Zeile oder Spalte man entwickelt um eine Determinante zu berechnen. Aus diesem Grund sollte man immer diejenige Zeile oder Spalte wählen, in der die meisten Einträge null sind. Die Vorzeichen (−1)i+j lassen sich einfach durch das benachbarte Einträge in einer Zeile oder Spalte immer + − + − ... + + − − + − + . . . − − + + − + − . . . + + − − + − + . . . − − + . . . . . . . ... ... ... .. .. .. .. + − + − ... + folgende Schema ablesen, da zwei unterschiedliche Vorzeichen haben. + − ... − − + . . . + + − . . . − − + . . . + .. .. . . .. . . . . − + − + ... + 148 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Auf der Diagonale steht immer (−1)i+i = +1. Die erste Matrix hat eine ungerade Zahl von Splaten und Zeilen, da dann (−1)n+1 = 1 ist, wohingegen die zweite für Matrizen mit gerade Zahl von Splaten und Zeilen steht. Korollar 8.1.10 (Regel von Sarrus) Sei a11 a12 a13 A = a21 a22 a23 a31 a32 a33 eine 3 × 3-Matrix, dann gilt det(A) = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a11 a23 a32 − a12 a21 a33 − a13 a22 a31 Beweis. Wir verwenden die Laplaceentwicklung nach der ersten Spalte und erhalten a a a a det(A) = a11 · (−1)1+1 det 22 23 + a21 · (−1)2+1 det 12 13 a32 a33 a32 a33 a a + a31 · (−1)3+1 det 12 13 a22 a23 = a11 a22 a33 − a23 a32 − a21 a12 a33 − a13 a32 + a31 a12 a23 − a13 a22 = a11 a22 a33 − a11 a23 a32 − a21 a12 a33 + a21 a13 a32 + a31 a12 a23 − a31 a13 a22 Durch Umsortieren des Ergebnisses erhält man die obige Formel. Die Regel von Sarrus wird oft als Gartenzaunmethode bezeichnet. Dies erklärt sich durch das folgende Schema: Die ersten beiden Spalten werden noch einmal rechts neben der Matrix hingeschrieben. Die auf einer Linie (also einer Latte des Gartenzauns) liegenden Einträge werden multipliziert, die Produkte auf einer durchgezogenen Linie erhalten ein Plus, die auf einer gestrichelten Linie ein Minus. Definition 8.1.11 Eine Matrix A ∈ MatK (n, n) heißt obere (bzw. untere) Dreiecksmatrix, wenn unterhalb (bzw. oberhalb) der Diagonale alle Einträge null sind. Das 149 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT heißt A = (aij ), wobei aij = 0, wenn i > j ist (bzw. wenn i < j ist). λ1 ∗ . . . ∗ λ1 0 . . . .. 0 λ2 ∗ λ2 ∗ . 0 , Aobere = A = untere .. . . . .. ∗ .. .. . 0 ∗ 0 . . . 0 λn ∗ ... ∗ 8.1. DETERMINANTEN 0 .. . . 0 λn Eine Matrix wird als Dreiecksmatrix bezeichnet, wenn sie eine obere oder untere Dreiecksmatrix ist. Satz 8.1.12 Die Determinante einer Dreiecksmatrix ist das Produkt ihrer Diagonaleinträge. Beweis. Wir zeigen die Aussage für obere Dreiecksmatrizen, der Beweis für untere ist analog. Wir wollen also die Aussage λ1 ∗ . . . ∗ .. 0 λ2 ∗ . = λ1 · . . . · λn det . (8.1) . . . . . ∗ 0 0 . . . 0 λn per Induktion nach der Größe der Matrizen beweisen. Induktionsanfang: n = 1, das heißt A = (a) und es gilt det A = a. Induktionsschritt: Angenommen die Formel (8.1) ist für n = k richtig. Dann wollen wir zeigen, dass sie auch für n = k + 1 richtig ist. Dafür entwickeln wir die Determinante nach der ersten Spalte. λ1 ∗ . . . ∗ ∗ λ2 ∗ . . . ∗ . .. 0 λ2 ∗ ∗ .. 0 ... ∗ . .. . = λ1 · λ2 · . . . · λk+1 . .. ∗ det . = λ1 det . 0 ∗ . . 0 λk ∗ .. . 0 0 λk ∗ 0 . . . 0 λk+1 0 . . . . . . 0 λk+1 Dabei haben wir die Induktionsvoraussetzung auf die k × k-Matrix mit den Diagonaleinträgen λ2 bis λk+1 angewendet. Satz 8.1.13 Sei A ∈ MatK (n, n) eine Matrix und A> ∈ MatK (n, n), die zu A transponierte Matrix, dann gilt det A = det A> . 150 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Beweis. Wir können leicht nachprüfen, dass der Satz für 2 × 2-Matrizen gilt: a b a c > det A = det = ad − bc det A = det = ad − cb = ad − bc. c d b d Für größere Matrizen kann mithilfe des Entwicklungssatzes ebenso die Aussage überprüft werden. Korollar 8.1.14 Für elementare Zeilenumformungen gelten dieselben Rechenregeln, die in Satz 8.1.3 für elementare Spaltenumformungen fomuliert wurden. Das heißt für eine Determinantenfunktion det gilt: 1) Multipliziert man eine Zeile mit einem Skalar, dann ändert sich die Determinante um genau diesen Faktor. 2) Beim Vertauschen zweier Zeilen ändert die Determinante ihr Vorzeichen. 3) Addiert man das λ-fache der Zeile j zur Zeile i, wobei i 6= j, dann ändert das die Determinante nicht. Beweis. Durch das Transponieren werden die Zeilen und die Spalten der Matrix vertauscht. Da dies die Determinante nicht ändert, bedeutet das, dass für Zeilen dieselben Regeln wie für Spalten gelten. Beispiel 8.1.15 Wir berechnen die Determinante einer 3 × 3-Matrix auf verschiedene Art und Weisen. Sarrusregel: 1 2 −2 det 0 2 −2 = 1 · 2 · 2 + 2 · (−2) · (−3) + (−2) · 0 · 1 −3 1 2 − (−2) · 2 · (−3) + (−2) · 1 · 1 + (2) · 2 · 0 = 4 + 12 + 0 − 12 − (−2) − 0 = 6 Entwicklung nach der ersten Spalte: 1 2 −2 2 −2 2 −2 2 −2 det 0 2 −2 = 1 · det − 0 · det + (−3) · det 1 2 1 2 2 −2 −3 1 2 = (2 · 2 − (−2) · 1) − 0 + (−3) · 0 = 6 Entwicklung nach 1 2 det 0 2 −3 1 der zweiten Zeile: −2 2 −2 1 −2 1 2 −2 = −0 · det + 2 · det − (−2) · det 1 2 −3 2 −3 1 2 = 0 + 2(1 · 2 − (−2) · (−3)) + 2(1 · 1 − 2 · (−3)) = −8 + 14 = 6 151 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Umformen zu einer Dreiecksmatrix durch elementare Zeilenumformungen ·3 1 2 −2 1 2 −2 1 2 −2 ·(−7) = det 0 2 −2 = 2 det 0 1 − 1 det 0 2 − 2 0 7 −4 −3 1 2 ← −+ −+ 0 7 −4 ← 1 2 −2 = 2 det 0 1 − 1 = 2 · 1 · 1 · 3 = 6 0 0 3 Umformen zu einer Dreiecksmatrix durch elementare Spaltenumformungen ·(−2) + y 1 2 det 0 2 −3 1 + y 2 0 1 0 0 − 2 = det 0 2 0 = det 0 2 0 = 1 · 2 · 3 = 6 2 −3 1 3 −3 7 3 −2 1 Alle Methoden führen zu demselben Ergebnis. Für größere Matrizen ist es oft sinnvoll die verschiedenen Methoden zum Berechnen einer Determinante zu kombinieren. So kann man durch eine Zeilenumformung viele Nullen in einer Zeile erreichen, nach der man dann Entwickeln kann. Außerdem sollte man immer zuerst prüfen, ob zum Beispiel zwei Spalten gleich sind oder sich nur um ein Skalar unterscheiden, denn dann ist die Determinante null, unabhängig davon wie kompliziert die anderen Einträge der Matrix erscheinen. Bemerkung 8.1.16 Für 2 × 2 und 3 × 3-Matrizen können wir der Determinante eine geometrische Interpretation geben. Und zwar entspricht der Flächeninhalt des Parallelogramms, das von den Vektoren v1 , v2 ∈ R2 aufgespannt wird, dem Betrag der Determinante | det(v1 , v2 )|. Um zu sehen, dass der Flächeninhalt den gleichen Regeln wie die Determinante gehorcht, betrachten wir die einzelnen Regeln für die Determinantenfunktion: 1 6 6 e2 * v2 * e1 - 1 Die Standardbasis erzeugt ein Quadrat der Seitenlänge 1 und daher auch vom Flächeninhalt 1. Dies stimmt überein mit det(e1 , e2 ) = 1. v1 Zwei linear abhängige Vektoren liegen auf einer Gerade und erzeugen daher kein Parallelogramm, somit ist der Flächeninhalt null, in Übereinstimmung mit der Eigenschaft, dass die Determinante linear abhängiger Vektoren null ist. 152 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN * v2 * 2v1 v 1 Bei dem von den Vektoren 2v1 und v2 erzeugten Parallelogramm ist eine Seite genau doppelt so lang im Vergleich zu dem durch v1 und v2 erzeugten Parallelogramm. Somit ist auch der Flächeninhalt genau doppelt so groß. Dies stimmt überein mit der Rechenregel | det(2v1 , v2 )| = |2 det(v1 , v2 )|. * v2 v1+v2 * v1 Das von den Vektoren v1 und v1 + v2 erzeugte Parallelogramm entsteht aus dem von v1 und v2 erzeugten durch eine “Scherung”, so dass sich der Flächeninhalt nicht ändert. Dies passt zu | det(v1 , v1 + v2 )| = | det(v1 , v2 )|. Für eine 3 × 3-Matrix mit den Spaltenvektoren v1 , v2 , v3 ∈ R3 entspricht der Betrag der Determinante | det(v1 , v2 , v3 )| dem Volumen, des von den Vektoren erzeugten Spats. Definition 8.1.17 Wir bezeichnen eine Matrix als regulär, wenn sie invertierbar ist. Die Menge der regulären n × n-Matrizen heißt Gln (K), eine Teilmenge davon sind die Matizen mit Determinante 1. Gln (K) := {A ∈ MatK (n, n) | det A 6= 0}, Sln (K) := {A ∈ MatK (n, n) | det A = 1}. Dabei steht Gl für General linear group und Sl für Special linear group. Satz 8.1.18 Die Menge Gln (K) ist eine Gruppe mit der Matrixmultiplikation als Verknüpfung. Beweis. Das neutrale Element der Gln (K) ist die Einheitsmatrix En . Die Existenz von Inversen ist genau die Definition der Elemente von Gln (K). Das Assoziativgesetz wurde in Satz 7.1.5 bewiesen. Die Gln (K) ist die Gruppe der Einheiten (s. Def. 4.3.10) im Ring der quadratischen Matrizen MatK (n, n). Satz 8.1.19 Die Determinante ist ein Gruppenhomomorphimus von der Gln (K) in die multiplikative Gruppe K × . det : Gln (K) → K × , das heißt es gilt det(A · B) = det A · det B. (8.2) 153 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Beweis. Für den Beweis verwenden wir Satz 7.1.24, der besagt, dass jede invertierbare Matrix ein Produkt von Elementarmatrizen ist. Können wir also zeigen, dass Formel (8.2) für alle Elementarmatrizen A gilt, dann haben wir die Formel für alle regulären Matrizen gezeigt. Da aber die Multiplikation von links mit Elementarmatrizen (s. Def. 7.1.20) elementaren Zeilenumformungen entspricht, genügt es zu prüfen, ob die Rechenregeln aus Korollar 8.1.14 mit den Determinanten für die entsprechenden Elementarmatrizen übereinstimmen. 1) Sei A = Diag(1, . . . , 1, λ, 1, . . . , 1), wobei λ in der i-ten Zeile steht, dann ist det A = λ, da A eine Dreiecksmatrix ist. Die Multiplikation von links mit A entspricht dem Multiplizieren der i-ten Zeile von B mit λ und wir wissen aus Korollar 8.1.14, dass dann det(AB) = λ det B gilt, dies ist aber gleich det A · det B = λ det B. 2) Sei A = Tij eine Vertauschungsmatrix. Dann ist die Determinante det Tij = −1. Dies sieht man wie folgt: In allen Spalten und Zeilen außer i und j entsprechen die Einträge von Tij einer Einheitsmatrix. Entwickeln wir also die Matrix schrittweise nach all diesen Zeilen, dann sehen wir , dass det Tij = det T̃ gilt, wobei 0 1 0 1 und det = 0 − 1 = −1. T̃ = 1 0 1 0 Die Multiplikation von links mit A entspricht dem Vertauschen der i-ten und j-ten Zeile von B, wodurch sich das Vorzeichen der Determinante von B ändert. Es gilt also det(AB) = − det B = det Tij · det B. 3) Ist A = Mij (λ), dann ist det A = 1, da A eine obere Dreiecksmatrix mit den Diagonaleinträgen 1 ist. Die Multiplikation von links mit A entspricht dem Addieren des λ-fachen der j-ten Zeile zur i-ten Zeile von B. Dies ändert die Determinante nicht, also gilt det(AB) = det B = det A det B. Bemerkung 8.1.20 Die Formel det AB = det A det B gilt auch für nichtinvertierbare Matrizen. Denn ist det A = 0, dann ist der Rang von A kleiner als n, aber dann hat auch das Produkt AB einen Rang, der kleiner als n ist und somit gilt 0 = det(AB) = det A det B = 0 · det B = 0. Korollar 8.1.21 Für eine invertierbare Matrix A ∈ Gln (K) gilt: det(A−1 ) = 1 = det(A)−1 . det A 154 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.1. DETERMINANTEN Beweis. Es gilt A · A−1 = En und damit det(A−1 ) det A = det(A · A−1 ) = det En = 1, woraus die Behauptung folgt. Bemerkung 8.1.22 Die Sln (K) ist der Kern der Abbildung det : Gln (K) → K × und damit eine Untergruppe der Gln (K). Definition 8.1.23 Sei A ∈ MatK (n, n) eine Matrix, dann heißt die Matrix A# ∈ MatK (n, n), die zu A adjungierte Matrix und hat die Einträge i+j a# Mji . ij = (−1) Der Eintrag der i-ten Zeile und j-ten Spalte von A# ist also ±1 mal die Unterdeterminante die durch Streichen der i-ten Spalte und der j-ten Zeile von A berechnet wird. Satz 8.1.24 Sei A ∈ MatK (n, n), dann gilt A · A# = det A · En . Beispiel 8.1.25 Wir können die zu einer 2 × 2-Matrix inverse Matrix berechnen. Sei a b also A = , dann ist c d Ã11 = (d), Ã12 = (c), Ã21 = (b) und Ã22 = (a). Diese 1 × 1-Matrizen sind gleich ihrer Determinante und somit erhalten wir M11 = d, M12 = c, M21 = b und M22 = a. (−1)1+1 M22 (−1)1+2 M21 d −b A = = . (−1)2+1 M12 (−1)2+2 M11 −c a # Und somit können wir die zu A inverse Matrix angeben 1 d −b −1 A = . ad − bc −c a Sie existiert, vorausgesetzt det A = ad − bc ist ungleich null. Satz 8.1.26 (Cramersche Regel) Sei A ∈ MatK (n, n) invertierbar und b ∈ K n . Es bezeichnen a1 , . . . , an die Spalten von A. 155 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Die Lösung x ∈ K n des linearen Gleichungssystems Ax = b ist durch xk = det(a1 , . . . , ak−1 , b, ak+1 , . . . , an ) , det(A) gegeben, für k = 1, . . . , n. 8.2. Eigenwerte und Eigenvektoren In diesem Abschnitt wollen wir erste Antworten auf die zu Beginn von Kapitel 8 formulierte Fragestellung, ob und unter welchen Vorraussetzungen Matrizen zu Diagonalmatrizen ähnlich sind, geben. Definition 8.2.1 Sei A ∈ MatK (n, n). Wir bezeichnen A als diagonalisierbar, wenn A ähnlich zu einer Diagonalmatrix ist, d. h. wenn es eine Matrix T ∈ Gln (K) gibt, so dass gilt: T · A · T −1 = Diag(λ1 , . . . , λn ), λi ∈ K. Ein Endomorphismus F : V → W heißt diagonalisierbar, wenn es eine Basis B von V gibt, so dass die Darstellungsmatrix von F bezüglich dieser Basis Diagonalform hat MBB (F ) = Diag(λ1 , . . . , λn ), λi ∈ K. Diese beiden Definitionen sind gleichbedeutend, denn wenn A die Darstellungsmatrix eines Endomorphismus zu einer beliebigen Basis ist, dann ist A ähnlich zu jeder anderen Darstellungsmatrix des Endomorphismus. 2 0 Beispiel 8.2.2 Sei A = eine Diagonalmatrix, dann lässt sich das Bild der 0 −3 Standardbasisvektoren unter der Abbildung F : K → K, x 7→ Ax besonders einfach berechnen. Es gilt 2 0 Ae1 = = 2e1 und Ae2 = = −3e2 . 0 −3 Die Basisvektoren werden also auf ein Vielfaches von sich selbst abgebildet. Dies ist die Motivation der folgenden Definition: Definition 8.2.3 (Eigenwerte & Eigenvektoren) • Es sei F : V → V ein Endomorphismus. Eine Zahl λ ∈ K wird Eigenwert von F genannt, wenn es einen vom Nullvektor verschiedenen Vektor v ∈ V, v 6= 0V gibt, so daß F v = λv (8.3) gilt. Ein derartiger Vektor heißt Eigenvektor von F zum Eigenwert λ. 156 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN • Sei A ∈ MatK (n, n). Dann ist v ∈ K n , mit v 6= 0 ein Eigenvektor von A, falls ein λ ∈ K existiert mit Av = λv. Den Skalar λ nennen wir dann Eigenwert von A. Die Eigenwertgleichung (8.3) enthält mit der Zahl λ sowie mit dem Vektor v zwei Unbekannte, die auf der rechten Seite als Produkt auftreten. Wichtig ist dabei, dass der Eigenvektor v nie der Nullvektor ist, wohingegen ein Eigenwert λ = 0 möglich ist. Satz 8.2.4 Eine Matrix A ∈ MatK (n, n) ist genau dann diagonalisierbar, wenn es eine Basis des K n gibt, die aus Eigenvektoren von A besteht. Beweis. Sei A diagonalisierbar, das heißt es gibt eine Matrix T ∈ Gln (K), so dass T AT −1 = Diag(λ1 , . . . , λn ) = D gilt. Dies ist gleichbedeutend mit AT −1 = T −1 D. Die Spalten von T −1 bilden eine Basis B = {b1 , . . . , bn } des K n , da T und somit auch T −1 invertierbar ist. Die i-te Spalte von AT −1 entspricht also Abi und ist gleich der i-te Spalte von T −1 D. Multiplikation von links mit der Diagonalmatrix D entspricht der Multiplikation der i-ten Spalte von T −1 mit dem i-ten Diagonaleintrag von D (s. Prop. 7.1.21). Also ist die i-te Spalte von T −1 D durch λi bi gegeben, das heißt Abi = λi bi , und somit besteht B aus Eigenvektoren von A. Besitzt der K n eine Basis B bestehend aus Eigenvektoren von A, dann berechnen wir die Darstellungsmatrix MBB (F ) der linearen Abbildung F : K n → K n , x 7→ Ax bezüglich B. Die Spalten von MBB (F ) sind die Koordinaten der Bilder F (bi ) bezüglich der Basis B. Da aber F (bi ) = λi bi ist, da bi ein Eigenvektor von A ist, gilt MB (F (bi )) = MB (λi bi ) = λi ei . Und somit ist MBB (F ) eine Diagonalmatrix mit den Eigenwerten auf der Diagonale. Die Basiswechselmatrix T −1 ist dadurch definiert, dass ihre Spalten die Vektoren aus B sind. Nun wollen wir die Frage klären, wie wir die Eigenwerte und Eigenvektoren einer Matrix berechnen können. Definition 8.2.5 (Charakteristisches Polynom einer Matrix) Es sei A ∈ MatK (n, n) eine quadratische Matrix. Dann ist durch χA (t) := det(A − tEn ) ein Polynom χA (t) ∈ K[t] definiert. Man nennt χA das charakteristische Polynom der Matrix A. Gelegentlich wird das charakteristische Polynom auch durch det(tEn − A) = (−1)n det(A − tEn ) definiert. Dieses hat die gleichen Nullstellen wie χA . Lemma 8.2.6 Sei A ∈ MatK (n, n), dann ist χA (t) ein Polynom vom Grad n. Beweis. 157 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Beispiel 8.2.7 Sei 1 −1 A= 0 2 0 3 1 2 2 0 0 1 0 0 1 0 Wir wollen das charakteristische Polynom χA (t) berechnen. 1 0 2 0 1 0 0 0 −1 3 0 0 − t 0 1 0 0 χA (t) = det 0 1 0 1 0 0 1 0 2 2 1 0 0 0 0 1 1−t 0 2 0 t 0 0 0 1 0 2 0 −1 3 − t 0 −1 3 0 0 0 t 0 0 0 = det 0 1 0 1 − 0 0 t 0 = det 0 1 −t 1 2 2 1 −t 0 0 0 t 2 2 1 0 1−t 0 2 1−t 0 2 = − det −1 3 − t 0 + (−t) det −1 3 − t 0 2 2 1 0 1 −t = − (1 − t)(3 − t) − 4 − 4(3 − t) − t (1 − t)(3 − t)(−t) − 2 = −t2 + 4t − 3 + 4 + 12 − 4t − t(−t3 + 4t2 − 3t − 2) = t4 − 4t3 + 2t2 + 2t + 13 Dabei haben wir die Determinante der 4 × 4-Matrix nach der vierten Spalte entwickelt. Satz 8.2.8 Sei A ∈ MatK (n, n), dann sind die Nullstellen des charakteristischen Polynoms χA sind genau die Eigenwerte der Matrix A. Beweis. Es sei λ ∈ K eine Nullstelle des charakteristischen Polynoms von A. Also ist χA (λ) = det(A − λEn ) = 0. Demnach hat die Matrix A − λEn nicht vollen Rang. Da die Matrix A − λEn quadratisch ist, folgt aus Korollar 7.3.20, dass es eine nichttriviale Lösung 0 6= v ∈ K n für das homogene lineare Gleichungssystem (A − λEn )v = 0 gibt. Durch Umstellen dieser Gleichung erhalten wir Av = (λEn )v = λv. Also ist λ ein Eigenwert von A. Sei umgekehrt λ ein Eigenwert von A. Dann exisiert ein 0 6= v ∈ K n , sodass Av = λv. Durch Umstellen dieser Gleichung erhalten wir Av − λv = (A − λEn )v = 0. Da v 6= 0 besitzt dieses Gleichungsystem eine nichttriviale Lösung und die Matrix (A − λEn ) hat nicht vollen Rang (s. Korollar 7.3.20). Demnach ist det(A − λEn ) = 0, also λ eine Nullstelle des charakteristischen Polynoms von A. An dieser Stelle wissen wir alles, was wir brauchen um die Eigenwerte und Eigenvektoren eine Matrix A zu bestimmen: 1. Berechne das charakteristische Polynom χA (t) 2. Bestimme die Nullstellen von χA (t), dies sind die Eigenwerte λ1 , . . . , λk von A. 158 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN 3. Bestimme für jeden Eigenwert λi die Lösungsmenge des LGS (A − λi En )v = 0. Jeder Vektor v 6= 0V dieser Menge ist ein Eigenvektor von A zum Eigenwert λi . Satz 8.2.9 Ähnliche Matrizen besitzen das gleiche charaktistische Polynom, d.h. es gilt für alle A ∈ MatK (n, n) und T ∈ Gln (K): χA (t) = χT AT −1 (t) Beweis. χT AT −1 (t) = det T AT −1 − tEn Definition des charakteristischen Polynoms En = T T −1 Satz 7.1.7 Einfügen der Einheitsmatrix ändert nichts Ausklammern von T Ausklammern von T −1 Satz 8.1.19 Korollar 8.1.21 Kommutativität in K Definition des charakteristischen Polynoms = det T AT −1 − tT T −1 = det T AT −1 − T tT −1 ) = det T AT −1 − T tEn T −1 ) = det T (AT −1 − tEn T −1 = det T (A − tEn )T −1 = det(T ) det(A − tEn ) det(T −1 ) = det(T ) det(A − tEn ) det(T )−1 = det(A − tEn ) = χA (t) Eine Konsequenz dieses Satzes ist die Tatsache, dass wir die Eigenwerte eines Endomorphismus berechnen können, indem wir die Eigenwerte eine beliebigen Darstellungsmatrix MBB (F ) bestimmen. Wählen wir eine andere Basis C, dann ist die neue Darstelungsmatrix MCC (F ) ähnlich zu der ursprünglichen und hat somit dasselbe charakteristische Polynom. Satz 8.2.10 Sei A ∈ MatK (n, n) eine obere oder untere Dreieckmatrix. Dann sind die Eigenwerte von A durch die Diagonaleinträge gegeben. Beweis. Wenn A eine Dreiecksmatrix mit den Diagonaleinträgen aii ist, dann ist (A − tEn ) eine Dreiecksmatrix mit den Diagonaleinträgen aii − t. Aufgrund von Satz 8.1.12 die Determinante von (A − tEn ) das Produkt ihrer Diagonaleinträge und somit gilt det(A − tEn ) = n Y (aii − t) i=1 und damit λi = aii die Nullstellen des charakteristischen Polynoms. Satz 8.2.11 Sei A ∈ MatK (n, n) diagonalisierbar, dann zerfällt das charakteristische Polynom χA (t) in Linearfaktoren. 159 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Beweis. Da A diagonalisierbar ist, gibt es eine Matrix T ∈ Gln (K), so dass T AT −1 = Diag(λ1 , . . . , λn ) = D gilt. Aufgrund von Satz 8.2.9 gilt χA (t) = χD (t). Das charakteristische Polynom der Diagonalmatrix D wiederum ist aufgrund von Satz 8.2.10 durch Qn (t − λi ) gegeben. i=1 Beispiel 8.2.12 Sei A = (aij ) ∈ MatR (2, 2). Dann ist das charakteristische Polynom a11 − λ a12 det(A − λEn ) = = (a11 − λ)(a22 − λ) − a12 a21 a21 a22 − λ = λ2 − (a11 + a22 ) λ + a11 a22 − a12 a21 . | {z } | {z } :=q :=p Also erhält man die Eigenwerte von A via λ1/2 p =− ± 2 r p 2 2 − q. Beispiel 8.2.13 Wir betrachten jetzt drei 2 × 2-Matrizen über dem Körper R von denen wir (sofern möglich) die Eigenwerte und Eigenvektoren berechnen wollen, um dann zu prüfen ob die Matrizen diagonalisierbar sind. 1. A= 2 −1 −2 1 charakteristisches Polynom: 2 −1 1 0 χA (t) = det(A − tE2 ) = det −t −2 1 0 1 2 −1 t 0 2 − t −1 = det − = det −2 1 0 t −2 1 − t = (2 − t)(1 − t) − 2 = t2 − 2t − t + 2 − 2 = t2 − 3t = t(t − 3). Eigenwerte: Die Nullstellen von χA (t) sind die Eigenwerte von A und durch λ1 = 0 und λ2 = 3 gegeben. Eigenvektor zu λ1 = 0: Wir müssen die Lösungsmenge des homogenen linearen Gleichungssystems (A − λ1 E2 )v = 0 berechnen. Es ist A − λ1 E2 = A und somit benötigen wir die Lösungsmenge von 2 −1 | 0 2 −1 | 0 −2 1 | 0 0 0 | 0 160 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Wir setzen x2 = r und erhalten x1 = 12 x2 = 12 r und somit ist die Lösungsmenge durch 1 L(A − λ1 E2 , 0) = {v ∈ R2 | v = r · 2 , r ∈ R} 1 1 gegeben. Wir wählen den Vektor v1 = in dieser Menge. 2 Eigenvektor zu λ2 = 3: Wir müssen die Lösungsmenge des homogenen linearen Gleichungssystems (A − λ2 E2 )v = 0 berechnen. Es ist A − λ2 E2 = 2 −1 3 0 −1 −1 − = −2 1 0 3 −2 −2 und somit benötigen wir die Lösungsmenge des LGS −1 −1 | 0 −1 −1 | 0 −2 −2 | 0 0 0 | 0 Wir setzen x2 = r und erhalten x1 = −x2 = −r und somit ist die Lösungsmenge durch −1 2 L(A − λ2 E2 , 0) = {v ∈ R | v = r · , r ∈ R} 1 −1 gegeben. Wir wählen den Vektor v2 = in dieser Menge. 1 Basis aus Eigenvektoren? Die Vektoren v1 und v2 sind linear unabhängig und bilden daher eine Basis des R2 . Das bedeutet, dass die Matrix A diagonalisierbar ist. 2. 2 −1 B= 0 2 charakteristisches Polynom: 2 −1 t 0 − 0 2 0 t χB (t) = det(B − tE2 ) = det 2 − t −1 = det = (2 − t)(2 − t) = (2 − t)2 . 0 2−t Eigenwerte: Die Nullstellen von χB (t) sind die Eigenwerte von B und durch λ = 2 gegeben. Dies kann man auch ohne die Berechnung des charakteristischen Polynoms erkennen, da B eine Dreiecksmatrix mit den Diagonaleinträgen 2 ist (s. Satz 8.2.10). Eigenvektor zu λ = 2: Wir müssen die Lösungsmenge des homogenen linearen Gleichungssystems (B − λE2 )v = 0 berechnen. Es ist B − λE2 = 2 0 0 −1 2 −1 − = 0 2 0 2 0 0 161 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN und somit benötigen wir die Lösungsmenge von 0 −1 | 0 0 0 | 0 Wir setzen x1 = r und somit ist die Lösungsmenge durch 1 2 L(B − λE2 , 0) = {v ∈ R | v = r · , r ∈ R} 0 1 gegeben. Wir wählen den Vektor v = in dieser Menge. 0 Basis aus Eigenvektoren? Gibt es nicht, da alle Eigenvektoren ein Vielfaches von v sind, wir aber zwei linear unabhängige Vertoren benötigen um eine Basis von R2 zu haben. 3. 0 −1 C= 1 0 charakteristisches Polynom: χC (t) = det(C − tE2 ) = det 0 −1 t 0 −t −1 − = det 1 −t 1 0 0 t = (−t)(−t) − (−1) = t2 + 1 Eigenwerte: Das charakteristische Polynom χC (t) = t2 + 1 hat keine Nullstellen in den reellen Zahlen und somit auch keine Eigenwerte. Basis aus Eigenvektoren? Da es keine reellen Eigenwerte gibt, gibt es auch keine Eigenvektoren dazu. Wir haben in dem Beispiel Matrizen gesehen, die exemplarisch für die zwei verschiedenen Arten von Problemen stehen, die verhindern, dass eine Matrix diagonalisierbar ist: 1. Das charakteristische Polynom zerfällt nicht in Linearfaktoren (Matrix C). 2. Es gibt nicht genügend linear unabhängige Eigenvektoren zu einem Eigenwert (Matrix B). Das erste Problem hängt von dem Körper ab über dem die Matrix betrachtet wird. Arbeitet man über K = R, dann hat A keine Eigenwerte, wenn das charakteristische Polynom keine (reellen) Nullstellen besitzt. Über K = C besitzt ein Polynom n-ten Grades immer n Nullstellen (s. Satz 5.5.3). Allerdings sind diese Nullstellen für Polynome vom Grad größer als 4 meist nur noch numerisch auffindbar. Eine allgemeine Lösungsformel mit Wurzelausdrücken existiert nicht. Satz 8.2.14 (Lineare Unabhängigkeit von Eigenvektoren) Es sei F : V → V ein Endomorphismus. v1 , ..., v` ∈ V seien Eigenvektoren von F zu den paarweise verschiedenen Eigenwerten λ1 , ..., λ` ∈ K. Dann sind v1 , ..., v` linear unabhängig. 162 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Beweis. Der Beweis wird per Induktion geführt. Induktionsanfang: Da jeder Eigenvektor per Definition verschieden vom Nullvektor ist, ist {v1 } ⊂ V linear unabhängig. Induktionsschritt: Wir nehmen an, daß die Behauptung für k ∈ {1, ..., `−1} bereits verifiziert ist und zeigen, daß sie dann auch für k + 1 wahr sein muß. Nach Induktionsannahme sind also v1 , ..., vk linear unabhängig, d.h. es besteht die Äquivalenz α1 v1 + ... + αk vk = 0V ⇔ α1 = ... = αk = 0 . (8.4) Betrachten wir nun die Gleichung β1 v1 + ... + βk vk + βk+1 vk+1 = 0V . (8.5) Es ist zu zeigen, daß diese Gleichung nur für β1 = ... = βk = βk+1 = 0 bestehen kann. Durch Anwenden von F auf die Gleichung (8.5) erhalten wir unter Ausnutzung der Linearität von F und der Eigenvektoreigenschaft der v1 , ..., vk+1 : F (β1 v1 + ... + βk vk + ⇐⇒ β1 F (v1 ) + ... + βk F (vk ) + ⇐⇒ β1 λ1 v1 + ... + βk+1 vk+1 ) = F (0V .) βk+1 F (vk+1 ) = 0V , βk λk vk + βk+1 λk+1 vk+1 = 0V , Ebenfalls aus Gleichung (8.5), allerdings durch Multiplikation mit λk+1 erhalten wir β1 λk+1 v1 + ... + βk λk+1 vk + βk+1 λk+1 vk+1 = 0V , Subtraktion dieser beiden Gleichungen liefert β1 (λ1 − λk+1 )v1 + ... + βk (λk − λk+1 )vk = 0V , wobei sich der vk+1 enthaltende Term weghebt. Aufgrund der Induktionsvoraussetzung (8.4) folgt βi (λi − λk+1 ) = 0 für i ∈ {1, ..., k}. Da die Eigenwerte paarweise verschieden sind, gilt λi − λk+1 6= 0; also βi = 0 für alle i ∈ {1, ..., k}. Durch Einsetzen in Gleichung (8.5) erhalten wir βk+1 vk+1 = 0V , was aufgrund der Tatsache, dass vk+1 6= 0V ist βk+1 = 0 liefert. Satz 8.2.15 Sei A ∈ MatK (n, n). Besitzt A genau n paarweise verschiedene Eigenwerte, dann ist A diagonalisierbar. Beweis. Aufgrund von Satz 8.2.4 ist eine Matrix A ∈ MatK (n, n) genau dann diagonalisierbar, wenn es eine Basis des K n bestehend aus Eigenvektoren von A gibt. Wenn A nun n verschiedenen Eigenwerte hat, dann gibt es zu jedem Eigenwert auch einen Eigenvektor. Diese n Vektoren sind aufgrund von Satz 8.2.14 linear unabhängig und bilden somit eine Basis des K n . Taucht im charakteristischen Polynom eine Nullstelle mehrfach auf, so ist die Matrix nicht zwangsläufig diagonalisierbar. Wir wollen uns im folgenden damit beschäftigen genau die Bedingungen zu beschreiben, die erfüllt sein müssen damit eine Matrix diagonalisierbar ist, auch wenn sie weniger als n Eigenwerte besitzt. 163 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Definition 8.2.16 Sei A ∈ MatK (n, n) und λ ∈ K ein Eigenwert von A. Die Lösungsmenge des homogenen linearen Gleichungssystems (A − λEn )v = 0 wird Eigenraum zum Eigenwert λ genannt Eig(A, λ) := L(A − λEn , 0) = Kern(A − λEn ). Jeder Vektor v ∈ Eig(A, λ), v 6= 0V ist ein Eigenvektor von A zum Eigenwert λ. Die Dimension des Eigenraum Eig(A, λ) heißt die geometrische Vielfachheit von λ, welche mit γ(A, λ) abgekürzt wird. Es gilt also γ(A, λ) = dim Eig(A, λ). Da der Eigenraum der Kern der Matrix A − λEn ist, erhalten wir aufgrund der Dimensionsformel für Kern und Bild (s. Satz 7.3.19) γ(A, λ) = dim Eig(A, λ) = dim Kern(A − λEn ) = n − Rang(A − λEn ) . (8.6) Satz 8.2.17 Sei A ∈ MatK (n, n), dann ist A genau dann invertierbar, wenn 0 kein Eigenwert von A ist. Beweis. Wenn 0 ein Eigenwert von A ist, dann ist dim Eig(A, 0) = Kern(A − 0En ) = Kern(A) > 0, also ist A nicht injektiv und daher nicht invertierbar. Wenn 0 kein Eigenwert von A ist, dann ist dim Eig(A, 0) = Kern(A − 0En ) = Kern(A) = 0. Somit ist A injektiv und aufgrund von Korollar 7.3.20 auch surjektiv und damit invertierbar. Definition 8.2.18 (Algebraische Vielfachheit von Eigenwerten) Es sei λ Eigenwert einer Matrix A ∈ MatK (n, n). Die Vielfachheit von λ als Nullstelle (s. Def. 4.4.5) des charakteristischen Polynoms χA nennt man die algebraische Vielfachheit des Eigenwerts λ. Diese wird mit α(A, λ) bezeichnet. Es gilt dann χA (t) = (t − λ)α(A,λ) φ(t), wobei das Polynom φ keine Nullstelle in λ hat, d.h. φ(λ) 6= 0. Satz 8.2.19 (Algebraische versus geometrische Vielfachheit) Für jeden Eigenwert λ einer Matrix A ∈ MatK (n, n) gilt, daß die geometrische Vielfachheit höchstens so groß ist wie die algebraische, d.h. γ(A, λ) ≤ α(A, λ) . 164 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Beweis. Es sei r := γ(A, λ) die geometrische Vielfachheit des Eigenwertes λ. Dann gilt per Definition r = dim Eig(A, λ). Es sei b1 , ..., br eine Basis des Eigenraumes Eig(A, λ) zum Eigenwert λ, d.h. b1 , ..., br sind sämtlich Eigenvektoren von A zum Eigenwert λ. Aufgrund des Basisergänzungssatzes (s. Satz 6.2.19) kann diese zu einer Basis von ganz V durch Vektoren br+1 , ..., bn ergänzt werden. Bezüglich dieser Basis B = b1 , ..., bn besitzt der Endomorphismus F : K n → K n , x 7→ Ax die Matrixdarstellung von folgender Form B λIr à = MBB (F ) = , O(n−r),r C mit einer Matrix B ∈ MatK (r, n − r), der quadratischen Matrix C ∈ MatK (n − r, n − r) und der Matrix O(n−r),r ∈ MatK (n − r, r), deren Einträge alle null sind. Diese Darstellung ergibt sich aufgrund der Tatsache, dass die erste r Vektoren von B Eigenvektoren zum Eigenwert λ sind (siehe dazu auch Beweis von Satz 8.2.4). Da die Matrix à in den ersten r Spalten nur Einträge auf der Diagonale hat, gilt dasselbe für à − tEn . Entwickeln wir die Determinante dieser Matrix Schritt für Schritt nach den ersten r Spalten erhalten wir: χA (t) = χà (t) = (t − λ)r · χC (t) Somit ist die algebraische Vielfachheit mindestens gleich r. Da nicht ausgeschlossen ist, daß λ auch Nullstelle des charakteristischen Polynoms der Matrix C ist, folgt die Behauptung. Satz 8.2.20 A ∈ MatK (n, n) ist genau dann diagonalisierbar, wenn χA (t) in Linearfaktoren zerfällt und wenn für alle Eigenwerte λ von A gilt: γ(A, λ) = α(A, λ) . (8.7) Beweis. Sei die Matrix A diagonalisierbar. Dann wissen wir aus Satz 8.2.11, dass das charakteristische Polynom χA (t) in Linearfaktoren zerfällt. χA (t) = ±(t − λ1 )α(A,λ1 ) · . . . · (t − λr )α(A,λr ) Es bleibt also Gleichung (8.7) zu zeigen. Da zum einen γ(A, λi ) die Dimension des Eigenraums zum Eigenwert λi ist, also die Anzahl der linear unabhängigen Eigenvektoren zu λi und zum anderen Eigenvektoren zu verschiedenen Eigenwerte linear unabhängig sind, gibt es γ(A, λ1 ) + . . . + γ(A, λr ). linear unabhängige Eigenvektoren von A. Da A ∈ MatK (n, n) diagonalisierbar ist, ist diese Zahl gleich n (s. Satz 8.2.4). Nun gilt aber für den Grad des charakteristischen Polynoms ebenfalls deg χA (t) = n = α(A, λ1 ) + . . . + α(A, λr ). Da wir wissen, dass für jeden Eigenwert γ(A, λi ) ≤ α(A, λi ) gilt, ist die Gleichheit α(A, λ1 ) + . . . + α(A, λr ) = n = γ(A, λ1 ) + . . . + γ(A, λr ) 165 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN nur möglich, wenn für jeden Eigenwert die Gleichheit (8.7) gilt. Umgekehrt nehmen wir an, dass χA (t) in Linearfaktoren zerfällt und dass Gleichung (8.7) für alle Eigenwerte gilt. Dies bedeutet, dass es genau γ(A, λ1 ) + . . . + γ(A, λr ) = α(A, λ1 ) + . . . + α(A, λr ) = n linear unabhängige Eigenvektoren gibt, das heißt die Eigenvektoren von A bilden eine Basis des K n und somit ist A diagonalisierbar. Korollar 8.2.21 Eine Matrix A ist genau dann diagonalisierbar, wenn gilt K n = Eig(A, λ1 ) ⊕ · · · ⊕ Eig(A, λk ) wobei λ1 , . . . , λk die paarweise verschiedenen Eigenwerte von A sind. Wollen wir nun prüfen, ob eine Matrix A ∈ MatK (n, n) diagonalisierbar, dann gehen wir nach folgendem Schema vor: 1. Berechnen des charakteristischen Polynoms χA (t) • χA (t) zerfällt nicht in Linearfaktoren über K • χA (t) zerfällt in Linearfaktoren über K A ist nicht diagonalisierbar. nächster Schritt 2. Berechnen der Eigenwerte (Wenn A Dreiecksform hat, dann sind die Eigenwerte die Diagonaleinträge und können direkt abgelesen werden) • Die Eigenwerte sind paarweise verschieden A ist diagonalisierbar. • Die Eigenwerte sind nicht paarweise verschieden nächster Schritt 3. Berechne für alle Eigenwerte λ mit algebraischer Vielfachheit α(A, λ) > 1 die geometrische Vielfachheit γ(A, λ). • Gilt für alle Eigenwerte α(A, λ) = γ(A, λ) A ist diagonalisierbar. • Gibt es mindestens einen Eigenwert für den gilt α(A, λ) > γ(A, λ) diagonalisierbar. A ist nicht Beispiel 8.2.22 Betrachten wir nun noch einmal die Matrizen aus Beispiel 8.2.12. Wir können jetzt schneller zu den Ergebnissen kommen. 1. Es ist χA (t) = t(t − 3), somit hat die Matrix A zwei verschiedene Eigenwerte und ist diagonalisierbar. 2. Es ist χB (t)= (t − 2)2 , also ist die algebraische Vielfachheit α(B, 2) = 2, aber da 0 −1 B − 2E2 = ist der Rang dieser Matrix gleich eins und somit γ(B, 2) = 0 0 2 − Rang(B − 2E2 ) = 1 (s. Gl. 8.6). Dies bedeutet dass γ(B, 2) < α(B, 2) und somit ist die Matrix B nicht diagonalisierbar. 3. Es ist χC (t) = t2 + 1, dieses Polynom zerfällt nicht in Linearfaktoren, also ist C nicht diagonalisierbar. 166 KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT 8.2. EIGENWERTE UND EIGENVEKTOREN Beispiel 8.2.23 Wir betrachten die Matrix 0 2 −1 A = 2 −1 1 2 −1 3 und wollen untersuchen, ob sie diagonalisierbar ist. Dafür berechnen wir zunächst ihr charakteristischen Polynom (zur Berechnung der Determinante addieren wir das Negative der zweiten Zeile zur dritten und wenden erst danach die Regel von Sarrus an) −t 2 −1 −t 2 −1 1 = det 2 −1 − t 1 χA (t) = det 2 −1 − t 2 −1 3−t 0 t 2−t = t(t + 1)(2 − t) − 2t + t2 − 4(2 − t) = t(t + 1)(2 − t) − t(2 − t) − 4(2 − t) = (2 − t) t2 + t − t − 4 = −(t − 2)(t2 − 4) = −(t − 2)(t − 2)(t + 2) = −(t − 2)2 (t + 2) Die Matrix hat also die Eigenwerte λ1 = 2 und λ2 = −2 mit den algebraischen Vielfachheiten α(A, 2) = 2 und α(A, −2) = 1. Die Matrix ist also genau dann diagonalisierbar, wenn auch γ(A, 2) = 2 ist (die geometrische Vielfachheit γ(A, −2) ist auf jeden Fall gleich 1, da sonst −2 kein Eigenwert wäre. ) Da wir nur wissen wollen, ob die Matrix diagonalisierbar ist, sparen wir es uns die Eigenvektoren konkret auszurechnen, sondern verwenden die Formel (8.6). Dafür benötigen wir den Rang der Matrix −3 2 −1 −3 2 −1 1 = 2 −4 1 A − 2E3 = 2 −1 − 3 2 −1 3−3 2 −1 0 Der Rang dieser Matrix ist größer als 1, da zum Beispiel die erste und die zweite Spalte linear unabhängig sind. Da der Rang nicht 3 sein kann, denn es gilt ja det(A − 2E3 ) = χA (2) = 0, muss er also 2 sein und daher ist γ(A, 2) = 3 − Rang(A − 2E3 ) = 3 − 2 = 1 woraus wir schließen, dass die Matrix A nicht diagonalisierbar ist. 167 9. Bilinearformen, Skalarprodukte und der Spektralsatz In den bisherigen Kapitel haben wir uns mit Vektorräumen in ihrer allgemeinsten Form beschäftigt. Nun wollen wir Vektorräume betrachten, die eine zusätzliche Struktur besitzen betrachten. Diese Struktur ist ein sogenanntes Skalarprodukt, bzw. allgemeiner eine Bilinearform, die es erlaubt zwei Vektoren eine Zahl zuzuordnen. Das Skalarprodukt kann dann genutzt werden um Längen von Vektoren und Winkel zwischen zwei Vektoren auszurechnen. Insbesondere der Begriff der Orthogonalität wird eine wichtige Rolle spielen. Diese zusätzliche Struktur, werden wir aber nicht nur zur Definition geometrischer Begriffe benutzen. Sie erlaubt es auch spezielle Matrizen zu betrachten und deren Eigenwerte zu analysieren. Wir erinnern daran, dass wir Vektoren aus dem v ∈ K n immer als “stehende” Vektoren betrachten, wohingegen v > ein “liegender” Vektor ist v1 .. v = . v > = (v1 . . . vn ). vn Insbesondere ist v ∈ K n = MatK (n, 1) eine n × 1 Matrix und v > ∈ MatK (1, n) eine 1 × n Matrix, so dass wir das Matrixprodukt v > · v, bzw. allgemeiner v > · w für v, w ∈ K n bilden können und das Ergebnis eine 1 × 1 Matrix, also eine Skalar, eine Zahl aus dem Grundkörper K ist w1 n .. X > v · w = (v1 . . . vn ) · . = vi wi ∈ K. i=1 wn 9.1. Bilinearformen Definition 9.1.1 Seien V, W zwei K-Vektorräume. Eine Abbildung B :V ×W →K (v, w) 7→ B(v, w) heißt Bilinearform, falls B bei fester zweiter Variable in der ersten Variable K-linear ist und umgekehrt, d. h. es gilt für alle v, v 0 ∈ V, w, w0 ∈ W und λ, µ ∈ K: B(λv + µv 0 , w) = λB(v, w) + µB(v 0 , w) B(v, λw + µw0 ) = λB(v, w) + µB(v, w0 ). 168 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN Durch sukzessive Anwendung der Bilinearität, sehen wir dass für Summen von n Vektoren gilt: n n n n X X X X B( λi vi , w) = λi B(vi , w) und B(v, λi wi ) = λi B(v, wi ) i=1 i=1 i=1 i=1 Beispiel 9.1.2 • Sei V = W = K 2 , dann ist B(v, w) = det(v, w) eine Bilinearform (s. Def. 8.1.2). P • Sei V = W = K n , dann ist B(v, w) = ni=1 vi wi = v > · w eine Bilinearform, das sogenannte Standardskalarprodukt. Die Bilinearität folgt aus dem Distributivgesetz der Matrixmultiplikation 7.1.6 und Satz 7.1.7 B(v + v 0 , w) = (v + v 0 )> · w = (v > + v 0> ) · w = v > · w + v 0> · w = B(v, w) + B(v 0 , w) B(λv, w) = (λv)> · w = λv > · w = λB(v, w) Die Bilinearität in der zweiten Komponente folgt durch eine analoge Rechnung. • Sei V = W = K 2 , dann ist 2 1 w1 2w1 + w2 B(v, w) = (v1 v2 ) = (v1 v2 ) = 2v1 w1 +v1 w2 +v2 w1 +2v2 w2 w2 w1 + 2w2 1 2 ebenfalls eine Bilinearform. Die Bilinearität folgt wie für das Standardskalarprodukt aus dem Distributivgesetz für die Matrixmultiplikation 7.1.6 und Satz 7.1.7, kann aber auch direkt nachgerechnet werden. Definition 9.1.3 Eine Bilinearform B : V × W → K heißt nicht ausgeartet wenn gilt: i) Wenn B(v, w) = 0 für alle v ∈ V , dann muss gelten w = 0. ii) Wenn B(v, w) = 0 für alle w ∈ W , dann muss gelten v = 0. Sonst heißt die Bilinearform ausgeartet. Damit eine Bilinearform ausgeartet ist, genügt es nicht irgendwelche v ∈ V und w ∈ W zu finden sodass B(v, w) = 0 gilt. Sondern es muss einen Vektor v ∈ V, v = 6 0V geben, sodass B(v, w) = 0 für alle w ∈ W ist, bzw. es muss ein w ∈ W, w 6= 0W geben, sodass B(v, w) = 0 für alle v ∈ V ist. Wir bemerken, dass aufgrund der Linearität immer B(v, 0W ) = 0 und B(0V , w) = 0 gilt, denn B(v, 0W ) = B(v, 0 · w) = 0 · B(v, w) = 0 Beispiel 9.1.4 Sei V = W = R3 , dann definieren wir zwei Bilinearformen durch B1 (v, w) = v1 w1 + v2 w2 + v3 w3 und B2 (v, w) = v1 w1 + v2 w2 . 169 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN B1 ist das Standardskalarprodukt und ist nicht ausgeartet, da für jeden Vektor v ∈ V, v 6= 0V gilt: B(v, v) = v12 + v22 + v32 > 0. Also kann für ein v ∈ V nicht B(v, w) = 0 für alle w ∈ V gelten, da ja für w = v auf jeden Fall B(v, v) > 0 gilt, es sei denn v = 0V . Die Bilinearform B2 hingegen ist ausgeartet, da zum Beispiel für den Vektor v = (0, 0, 1)> gilt B2 (v, w) = 0 · w1 + 0 · w2 = 0 für alle w ∈ V . Definition 9.1.5 Eine Bilinearform B : V × V → K heißt symmetrisch, wenn für alle v, w ∈ V gilt: B(v, w) = B(w, v). Sie heißt alternierend, wenn gilt B(v, w) = −B(w, v). Beispiel 9.1.6 Das Standardskalarprodukt ist symmetrisch, denn es gilt aufgrund der Kommutativität in K B(v, w) = n X v i wi = i=1 n X wi vi = B(w, v). i=1 Die Determinante ist alternierend, da sie beim Vertauschen zweier Spalten das Vorzeichen ändert det(v, w) = − det(w, v) (s. Satz 8.1.3). Definition 9.1.7 Seien V, W endlichdimensionale K-Vektorräume mit den Basen C = {c1 , . . . , cn }, bzw. C 0 = {c01 , . . . , c0m } und sei B : V × W → K eine Bilinearform. Wir definieren eine Matrix S ∈ MatK (n, m) mit den Einträgen Sij = B(ci , c0j ). Lemma 9.1.8 Die Matrix S bestimmt eindeutig die Bilinearform B : V × W → K durch die Vorschrift B(v, w) = x> · S · y, wobei x = MC (v) und y = MC 0 (w) die Koordinaten der Vektoren v und w bezüglich der Basen C und C 0 sind. Beweis. Seien v ∈ V und w MC 0 (w) bezüglich der Basen Pm 0 und w = j=1 yj cj gilt (s. einsetzen und erhalten unter B(v, w) = B( n X i=1 xi ci , w) = ∈ W Vektoren mit den Koordinaten x = MC (v) P und y = C von V , bzw. C 0 von W , das bedeutet, dass v = ni=1 xi ci Bsp. 7.3.3). Dann können wir dies in die Bilinearform B Ausnutzung der Bilinearität: n X i=1 xi B(ci , w) = n X i=1 xi B(ci , m X j=1 yj c0j ) = n X m X xi B(ci , c0j )yj . i=1 j=1 170 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN Dies entspricht aber genau dem Ergebnis der Matrixmultiplikation B(c1 , c01 ) . . . B(c1 , c0m ) y1 . . . > . .. .. .. x · S · y = (x1 , . . . , xn ) · · .. B(cn , c01 ) . . . B(cn , c0m ) ym B(c1 , c01 )y1 + · · · + B(c1 , c0m )ym .. = (x1 , . . . , xn ) · . B(cn , c01 )y1 + · · · + B(cn , c0m )ym = x1 B(c1 , c01 )y1 + · · · + B(c1 , c0m )ym + · · · + xn B(cn , c01 )y1 + · · · + B(cn , c0m )ym n X m X = xi B(ci , c0j )yj i=1 j=1 • Wir betrachten die Bilinearform Beispiel 9.1.9 v 1 w1 det : K × K → K, (v, w) 7→ det(v, w) = det = v 1 w2 − v 2 w1 . v 2 w2 2 2 Wir wählen die Standardbasis des K 2 , die durch {e1 , e2 } gegeben ist und berechnen die Matrix S. det(e1 , e1 ) det(e1 , e2 ) 0 1 = . S= det(e2 , e1 ) det(e2 , e2 ) −1 0 Nun überprüfen wir, dass wir durch die Matrix wieder die Bilinearform zurückgewinnen können 0 1 w1 w2 > det(v, w) = v Sw = (v1 v2 ) · = (v1 v2 ) · = v 1 w2 − v 2 w1 . −1 0 w2 −w1 • Sei V = K n und B(v, w) = v > · w das Standardskalarprodukt, dann gilt für die Standardbasisvektoren {e1 , . . . , en } B(ei , ej ) = 0 für i 6= j und B(ei , ei ) = 1 für alle i. Also erhalten wir S = En die Einheitsmatrix. Dies können wir leicht überprüfen, denn es gilt B(v, w) = v > · En · w = v > · w. • In Beispiel 9.1.4 haben wir auf R3 die Bilinearform B2 (v, w) = v1 w1 + v2 w2 betrachtet. Wir können nachrechnen, dass diese durch 1 0 0 w1 B2 (v, w) = (v1 v2 v3 ) 0 1 0 w2 0 0 0 w3 gegeben ist. Nun wollen wir die Eigenschaften der Bilinearform in Eigenschaften der Matrix S übersetzen. 171 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN Satz 9.1.10 Seien V, W endlich dimensionale K-Vektorräume mit Basen C = {c1 , . . . , cn }, bzw. C 0 = {c01 , . . . , c0m }. Eine Bilinearform B : V × W → K ist genau dann nicht ausgeartet, wenn dim V = dim W gilt und die Matrix S = (B(ci , c0j )) invertierbar ist. Beweis. Seien wieder x = MC (v) und y = MC 0 (w) die Koordinaten der Vektoren v ∈ V und w ∈ W . Dann ist die Bilinearform durch B(v, w) = x> Sy gegeben. Wir nehmen an, dass v ∈ V ein Vektor ist, so dass B(v, w) = 0 für alle w ∈ W . Das bedeutet, dass x> Sy = 0 für alle y ∈ K m ⇒ x> S = 0 Dies sieht man zum Beispiel durch Einsetzen der Standardbasisvektoren y = ei ∈ K m , denn das liefert, dass die i-te Komponente des liegenden Vektors x> S null sein muss. Durch Transponieren erhalten wir x> S = 0 ⇐⇒ S > x = 0. Da wir vorausgesetzt haben, dass die Bilinearform B nicht ausgeartet ist, muss nun aus S > x = 0 folgen, dass x = 0 ist. Dies ist gleichbedeutend mit der Injektivität der linearen Abbildung K n → K m , x 7→ S > x. Diese Abbildung kann aber nur dann injektiv sein, wenn n ≤ m gilt (s. Korollar 7.3.21). Nun nehmen wir an, dass w ∈ W ein Vektor ist, so dass B(v, w) = 0 für alle v ∈ V . Das bedeutet, dass x> Sy = 0 für alle x ∈ K n ⇒ Sy = 0. Die Voraussetzung, dass B nicht ausgeartet ist, bedeutet nun, dass aus Sy = 0 folgen muss, dass y = 0 gilt, also, dass die lineare Abbildung K m → K n , y 7→ Sy injektiv ist. Somit muss m ≤ n gelten (s. Korollar 7.3.21). Insgesamt erhalten wir also dim V = n = m = dim W . Aus Korollar 7.3.20 folgt nun, dass K m → K n , y 7→ Sy bijektiv ist, und somit ist die Matrix S invertierbar. Umgekehrt, ist S bijektiv, dann ist auch S > bijektiv, da aufgrund von Satz 8.1.13 0 6= det S = det S > gilt, also beide Abbildungen insbesondere injektiv sind. Definition 9.1.11 Sei A ∈ MatK (n, n) eine quadratische Matrix. Wir nennen A symmetrisch, wenn sie gleich ihrer Transponierten ist A = A> , das heißt, dass die i-te Zeile von A gleich der i-ten Spalte von A ist für alle i = 1, . . . , n. Eine symmetrische Matrix ändert sich also nicht, wenn sie an der Hauptdiagonale gespiegelt wird. Beispiel 9.1.12 • 1 × 1-Matrizen, also Skalare, sind immer symmetrisch. • Diagonalmatrizen sind symmetrisch. 172 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN • Die Matrizen 1 2 A= , 2 −3 0 −1 2 B = −1 5 −3 2 −3 1 1 0 und C = 0 −1 0 2 2 0 0 −1 2 0 0 4 4 10 sind symmetrisch. Satz 9.1.13 Eine Bilinearform B : V × V → K ist genau dann symmetrisch, wenn die Matrix S symmetrisch ist. Beweis. Seien wieder x = MC (v) und y = MC (w) die Koordinaten der Vektoren v, w ∈ V bezüglich der Basis C von V . Dann ist die Bilinearform durch B(v, w) = x> Sy gegeben. Also ist einerseits B(v, w) = x> Sy und andererseits B(w, v) = y > Sx = (y > Sx)> = x> S > y. Dabei haben wir benutzt, dass B(v, w) ∈ K liegt und somit durch Transponieren nicht verändert wird. Außerdem haben wir Satz 7.1.13 über die Transponierte eines Produkts verwendet. Es ist also x> Sy = x> S > y und somit muss S = S > gelten, wie man durch Einsetzen der Standardbasisvektoren ei für x und y erkennt. Umgekehrt, wenn S = S > gilt, dann können wir sehen, dass die Bilinearform symmetrisch ist, denn B(w, v) = y > Sx = (y > Sx)> = x> S > y = x> Sy = B(v, w) Satz 9.1.14 Sei V ein K-Vektorraum der Dimension n, B : V ×V → K eine Bilinearform und C = {c1 , . . . , cn }, C̃ = {c̃1 , . . . , c̃n } zwei Basen von V . Wir definieren zwei Matrizen S, S̃ ∈ MatK (n, n) mit den Einträgen Sij = B(ci , cj ) und S̃ij = B(c̃i , c̃j ). Dann gibt es eine Matrix T ∈ Gln (K) sodass gilt: S̃ = T · S · T > . Beweis. Sei T = (Tij ) ∈ Gln (K) die Matrix die durch c̃i = n X Tik ck k=1 173 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN definiert ist. Dies benutzen wir um die Einträge der Matrix S̃ mithilfe von denen von S und T auszudrücken: S̃ij = B(c̃i , c̃j ) = B( n X Tik ck , k=1 = = n X n X k=1 `=1 n X n X n X Tj` c` ) `=1 Tik B(ck , c` )Tj` Tik Sk` T`j> = (T · S · T > )ij . k=1 `=1 Da diese Gleichheit für alle i, j = 1, . . . , n richtig ist, erhalten wir die gewünschte Gleichheit von Matrizen S̃ = T · S · T > . Da wir nun wissen wie sich Bilinearformen unter Basiswechsel verhalten, können wir uns dieselbe Frage stellen, die wir bereits für lineare Abbildungen gestellt haben: Gibt es eine Basis von V sodass die Matrix S Diagonalform hat? Definition 9.1.15 Sei B : V × V → K eine symmetrische Bilinearform. • Zwei Vektoren v, w ∈ V heißen orthogonal zueinander, wenn B(v, w) = 0 gilt. • Eine Basis C von V , bestehend aus paarweise zueinander orthogonalen Vektoren heißt Orthogonalbasis von V bezüglich B. Für diese Basis gilt also B(ci , cj ) = 0 für alle i, j ∈ {1, . . . , n} mit i 6= j. Die zugehörige Matrix S zu einer Orthogonalbasis bezüglich B hat also nur auf der Diagonale Einträge, die nicht null sein können. Für den Beweis der Existenz einer Orthogonalbasis benötigen wir zunächst die Definition des Orthokomplements. Definition 9.1.16 Sei B : V × V → K eine symmetrische Bilinearform und M ⊆ V eine Teilmenge von V , dann heißt die Menge M ⊥ = {v ∈ V | B(v, w) = 0 ∀w ∈ M } das Orthokomplement von M in V . Das Orthokomplement von M enthält also alle Vektoren aus V die zu allen Vektoren aus M orthogonal sind. Lemma 9.1.17 Sei B : V × V → K eine symmetrische Bilinearform und M ⊆ V eine Teilmenge von V , dann ist das Orthokomplement M ⊥ ein Untervektorraum von V . Beweis. Wir müssen zeigen, dass die Menge M ⊥ abgeschlossen bezüglich der Addition und der Skalarmultiplikation ist (s. Def. 6.1.5). Seien dafür v, v 0 ∈ M ⊥ und λ, λ0 ∈ K, dann ist 174 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN B(v, w) = B(v 0 , w) = 0 für alle w ∈ M per Definition von M ⊥ . Aufgrund der Linearität der ersten Komponente der Bilinearform gilt B(λv + λ0 v 0 , w) = λB(v, w) + λ0 B(v 0 , w) = λ0 + λ0 0 = 0. und somit liegt auch λv + λ0 v 0 ∈ M ⊥ . Lemma 9.1.18 Sei B : V × V → K eine symmetrische Bilinearform. Sei v ∈ V ein Vektor für den B(v, v) 6= 0 gilt und U := LH(v) die lineare Hülle von v, das heißt die Menge aller Vielfachen von v. Dann gilt U ⊕ U ⊥ = V. Beweis. Um zu zeigen, dass der Vektorraum V eine direkte Summe von U und seinem Orthokomplement ist, müssen wir zunächst zeigen, dass jeder Vektor w ∈ W sich als Summe eines Vektors aus U und eines Vektors aus U ⊥ schreiben lässt (s. Def. 6.3.3). Es gilt offensichtlich für jedes w ∈ V B(w, v) B(w, v) w= v+ w− v = w1 + w2 . B(v, v) B(v, v) Wir beachten dabei dass B(w, v), B(v, v) ∈ K und nach Voraussetzung B(v, v) 6= 0 gilt. Also ist B(w,v) B(v,v) ∈ K ein Skalar. Der Vektor w1 ist also ein Vielfaches von v und liegt somit in U . Um zu zeigen, dass w2 ∈ U ⊥ müssen wir zeigen, dass B(w2 , u) = 0 für alle u ∈ U . Da aber U = LH(v) = {u ∈ V | u = λv für ein λ ∈ K} und da aufgrund der Bilinearität B(w2 , u) = B(w2 , λv) = λB(w2 , v) gilt, genügt es zu zeigen, dass B(w2 , v) = 0. Wir rechnen nun also B(w, v) v, v B(w2 , v) = B w − B(v, v) B(w, v) = B(w, v) − B (v, v) = B(w, v) − B(w, v) = 0. B(v, v) Wir haben somit bewiesen, dass V = U + U ⊥ eine Summe ist. Um zu zeigen, dass diese Summe direkt ist müssen wir noch zeigen, dass U ∩ U ⊥ = {0V } gilt. Ein Vektor u ∈ U ∩ U ⊥ liegt einerseits in U , ist also von der Form u = λv, andererseits liegt er in U ⊥ , es gilt also B(u, u0 ) = 0 für alle u0 = λ0 v ∈ U . Aufgrund der Bilinearität gilt nun B(u, u0 ) = B(λv, λ0 v) = λλ0 B(v, v). Da nach Voraussetzung B(v, v) 6= 0 kann B(u, u0 ) = 0 nur dann für alle u0 ∈ U , das heißt für alle λ0 ∈ K gelten, wenn λ = 0 ist. Dies bedeutet aber, dass u = 0V ist und somit U ∩ U ⊥ = {0V }. Beispiel 9.1.19 Sei V = R2 versehen mit der Bilinearform 1 0 w1 B(v, w) = v > · Diag(1, −1) · w = (v1 v2 ) = v 1 w1 − v 2 w2 0 −1 w2 175 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN Der Vektor w = (1 1) hat die Eigenschaft B(w, w) = 12 − 12 = 0 und ist also orthogonal zu sich selbst. Der Vektor v = (2 1) hat die Eigenschaft B(v, v) = 22 − 12 = 3 und somit können wir zum Beispiel durch B(w, v) 1 1 1 2 1 w2 = w − = v= − 1 B(v, v) 3 1 3 2 einen zu v orthogonalen Vektor konstruieren 1 0 2 1 1 2 1 2 1 2 B(w2 , v) = = = 0. 0 −1 1 −1 3 3 Satz 9.1.20 Sei K ein Körper in dem 2 6= 0 ist und V ein K Vektorraum endlicher Dimension, dann besitzt jede symmetrische Bilinearform B : V × V → K eine Orthogonalbasis. Beweis. Ist die Bilinearform identisch null, das heißt gilt B(v, w) = 0 für alle v, w ∈ V , dann ist jede Basis eine Orthogonalbasis und es ist nichts zu zeigen. Sei also B nicht identisch null, dann gibt es einen Vektor v ∈ V mit B(v, v) 6= 0. Um dies zu sehen benutzen wir die Formel B(v + w, v + w) = B(v, v + w) + B(w, v + w) = B(v, v) + B(v, w) + B(w, v) + B(w, w) (9.1) = B(v, v) + 2B(v, w) + B(w, w). Denn angenommen B(v, v) wäre null für alle v ∈ V , dann wäre nach Formel (9.1) auch B(v, w) = 0 für alle v, w (hier verwenden wir, dass 2 6= 0 ist), aber dies wiederspricht unserer Annahme. Sei also v ∈ V mit B(v, v) 6= 0 und U = LH(v), dann gilt U ⊕ U ⊥ = V aufgrund von Lemma 9.1.18. Nun können wir mithilfe vollständiger Induktion nach der Dimension des Vektorraums V argumentieren. Denn angenommen {b1 , . . . , bn−1 } ist eine Orthogonalbasis von U ⊥ , dann gilt B(v, bi ) = 0 für alle i = 1, . . . , n − 1 und somit ist {b1 , . . . , bn−1 , v} ist eine Orthogonalbasis von V . Der Induktionsanfang ist trivial, da eine Basis bestehend aus einem Vektor immer orthogonal ist. Die Bedingung 0 6= 2 schließt von den uns bekannten Körpern lediglich F2 = {0, 1} aus. Außerdem gilt sie nicht in Körpern, die F2 als Teilmenge enthalten. Korollar 9.1.21 Sei K ein Körper in dem 2 6= 0 ist und sei S = S > ∈ MatK (n, n) eine symmetrische Matrix, dann existiert eine Matrix T ∈ Gln (K) sodass gilt: T · S · T > = Diag(λ1 , . . . , λn ), (9.2) wobei λi ∈ K. 176 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.1. BILINEARFORMEN Beweis. Sei B : V × V → K eine symmetrische Bilinearform und C = {c1 , . . . , cn } eine Basis von V , so dass Sij = B(ci , cj ) gilt. Aufgrund von Satz 9.1.20 gibt es eine Orthogonalbasis C̃ = {c̃1 , . . . , c̃0n } von V bezüglich B. Dann ist S̃ = Diag(λ1 , . . . , λn ), wobei die Diagonaleinträge durch B(c˜i , c˜i ) = λi definiert sind. Aufgrund von Satz 9.1.14 gibt es eine Matrix T ∈ Gln (K) sodass Gleichung (9.2) gilt. Satz 9.1.22 (Satz von Sylvester) Sei K = R und B : V × V → R eine symmetrische nicht ausgeartete Bilinearform. Dann gibt es eine Basis {c1 , . . . , cn } von V sodass die Matrix S = (Sij ) = (B(ci , cj )) die Form S = Diag(1, . . . , 1, −1, . . . , −1) mit r mal einer 1 und s mal einer −1 auf der Diagonale. Die Zahlen r und s hängen nur von der Bilinearform B ab. Beweis. Wir können zunächst Satz 9.1.20 anwenden der besagt, dass es eine Basis C = {c1 , . . . , cn } von V gibt für den gilt: S = (Sij ) = B(ci , cj ) = Diag(λ1 , . . . , λn ). Da nach Annahme die Bilinearform nicht ausgeartet ist, muss die Matrix S invertierbar sein (s. Satz 9.1.10). Eine Diagonalmatrix ist aber genau dann invertierbar, wenn alle Diagonaleinträge λi 6= 0 sind. Nun betrachten wir die Basis C 0 = {c01 , . . . , c0n } = { p 1 1 c1 , . . . , p cn }. |λ1 | |λn | Dies ist ebenfalls eine Orthogonalbasis, da für i 6= j gilt: 1 1 1 1 p ci , p cj ) = p B(ci , cj ) = 0 B(c0i , c0j ) = B( p |λj | |λi | |λi | |λj | Für die Diagonaleinträge wiederum gilt 1 1 1 1 1 p λi = ±1 B(c0i , c0i ) = B( p ci , p ci ) = p B(ci , ci ) = |λ |λi | |λi | |λi | |λi | i| Nun können wir noch die Reihenfolge der Elemente von C 0 so ändern, dass zuerst die positiven Einträge und dann die negativen Einträge auf der Diagonale stehen. Auf den Beweis dass die Anzahl der +1 und −1 nur von der Bilinearform und nicht von der Orthogonalbasis abhängt, wollen wir hier verzichten. 1 2 Beispiel 9.1.23 Die Matrix A = ist symmetrisch und hat den Rang 2, ist 2 −1 also invertierbar. Wir wollen eine Basis konstruieren, die bezüglich der Bilinearform B(v, w) = v > Aw die Form aus Satz 9.1.22 hat. Dafür beginnen wir mit v = e1 , da B(e1 , e1 ) = 1 6= 0 und verwenden Lemma 9.1.18 um einen zu e1 orthogonalen Vektor zu finden. Wir brauchen dafür einen beliebigen Vektor 177 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.2. SKALARPRODUKTE w, der linear unabhängig zu e1 ist, zum Beispiel w = e2 und setzen nun B(w, v) 2 1 −2 0 w2 = w − = v= − 1 1 B(v, v) 1 0 Wir rechnen nun nach, dass gilt 1 2 −2 B(e1 , w2 ) = (1 0) =0 2 −1 1 und 1 2 −2 B(w2 , w2 ) = (−2 1) = −5 2 −1 1 Also hat die Bilinearform B für die Basis v1 = e1 = 1 0 die Matrix S= 1 1 v2 = √ w2 = √ −2 1 5 5 B(v1 , v1 ) B(v2 , v1 ) B(v1 , v2 ) B(v2 , v2 ) = 1 0 . 0 −1 9.2. Skalarprodukte Ab sofort wollen wir Bilinearformen nur noch über dem Körper R der reellen Zahlen betrachten. Definition 9.2.1 Eine Bilinearform B : V × V → R heißt positiv definit, wenn B(v, v) > 0 gilt für alle v ∈ V, v 6= 0V . Lemma 9.2.2 Sei B : V × V → R eine positiv definite Bilinearform, dann ist B nicht ausgeartet. Beweis. Da B(v, v) > 0 gilt, kann für ein v ∈ V, v 6= 0V nicht gelten, dass B(v, w) = 0 für alle w ∈ V . Definition 9.2.3 Sei V ein Vektorraum über dem Körper R. Ein Skalarprodukt in V ist eine symmetrische, positiv definite Bilinearform h·, ·i : V × V → R (v, w) 7→ hv, wi Ein Vektorraum über dem Körper R mit einem Skalarprodukt V, h·, ·i heißt euklidischer Vektorraum. 178 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.2. SKALARPRODUKTE P Beispiel 9.2.4 • Sei V = Rn , das Standardskalarprodukt hv, wi = ni=1 vi wi = v > · w ist ein Skalarprodukt. Wir haben bereits Bilinearität und Symmetrie gezeigt. Pn 2 Die positive Definitheit folgt direkt, da hv, vi = i=1 vi > 0, wenn v 6= 0. • Sei wieder V = Rn und A ∈ Gln (K) eine invertierbare Matrix, dann ist hv, wiA := hAv, Awi = (Av)> · (Aw) = v > A> Aw ein Skalarprodukt, wobei wir hier mit h·, ·i das Standardskalarprodukt bezeichnen. Die Bilinearität folgt aus dem Distributivgesetz der Matrixmultiplikation 7.1.6 und Satz 7.1.7. Die Symmetrie folgt aus der Symmetrie des Standardskalarprodukts hw, viA = hAw, Avi = hAv, Awi = hv, wiA . Um zu sehen, dass h·, ·iA positiv definit ist, verwenden wir die Invertierbarkeit der Matrix A. Denn daraus folgt, das für v 6= 0V auch Av = ṽ = 6 0V , also gilt hv, viA = hAv, Avi = hṽ, ṽi > 0 aufgrund der positiven Definitheit des Standardskalarprodukts. Definition 9.2.5 Sei V, h·, ·i ein euklidischer Vektorraum, dann heißt die Abbildung k·k : V → R, v 7→ kvk = p hv, vi die Normabbildung, bzw. die Norm des Vektors v. Beispiel 9.2.6 Sei V = R2 mit dem Standardskalarprodukt hv, wi = v1 w1 + v2 w2 , dann ist die Norm eines Vektors v = (x y)> ∈ R2 durch p p kvk = hv, vi = x2 + y 2 gegeben. Das ist die Länge des Vektors v wie sie in der Schule meist mithilfe des Satzes von Phythagoras berechnet wird. Satz 9.2.7 (Cauchy-Schwarzsche Ungleichung) p Sei V, h·, ·i ein euklidischer Vektorraum mit Norm kvk = hv, vi, dann gilt für alle v, w ∈ V | hv, wi | ≤ kvkkwk. Beweis. Ist w = 0V , dann ist die Ungleichung richtig, da auf beiden Seiten eine Null steht. Wir nehmen also an, dass w 6= 0V und setzen λ = hv,wi ∈ R. Aufgrund der positiven kwk2 179 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.2. SKALARPRODUKTE Definitheit des Skalarprodukts gilt dann 0 ≤ hv − λw, v − λwi = hv, vi − 2λ hv, wi + λ2 hw, wi = kvk2 − 2 = kvk2 − hv, wi hv, wi2 hv, wi + kwk2 kwk2 kwk4 hv, wi2 kwk2 Diese Ungleichung liefert uns hv, wi2 ≤ kvk2 kwk2 und durch Ziehen der Quadratwurzel, dann die Cauchy-Schwarzsche Ungleichung. Satz 9.2.8 Sei V, h·, ·i Eigenschaften: ein euklidischer Vektorraum, dann hat die Norm folgende i) kvk ≥ 0 für alle v ∈ V ii) kvk = 0 ⇐⇒ v = 0V iii) kλvk = |λ|kvk für alle v ∈ V, λ ∈ K iv) kv + wk ≤ kvk + kwk für alle v, w ∈ V Die Ungleichung iv) heißt Dreiecksungleichung. Beweis. i) kvk ≥ 0 gilt aufgrund der positiven Definitheit des Skalarprodukts. ii) k0V k = 0 gilt aufgrund der Bilinearität. Aufgrund der positiven Definitheit ist für alle v 6= 0V die Norm kvk > 0. iii) Es gilt aufgrund der Bilinearität p p kλvk = hλv, λvi = λ2 hv, vi = |λ|kvk iv) Um die Dreiecksungleichung zu zeigen, berechnen wir mithilfe der Cauchy-Schwarzschen Ungleichung (wir verwenden, dass die Gleichung auch ohne Betragsstriche richtig ist): (kvk + kwk)2 = kvk2 + 2kvkkwk + kwk2 ≥ kvk2 + 2 hv, wi + kwk2 = hv + w, v + wi = kv + wk2 Durch Ziehen der Quadratwurzel erhalten wir somit kvk + kwk ≥ kv + wk. Definition 9.2.9 Sei V, h·, ·i ein euklidischer Vektorraum und v, w ∈ V Vektoren, die nicht gleich dem Nullvektor sind, dann definiert man den Öffnungswinkel ϕ(v, w) zwischen v und w durch cos ϕ(v, w) = hv, wi kvkkwk 0 ≤ ϕ(v, w) ≤ π. 180 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.2. SKALARPRODUKTE Aufgrund der Cauchy-Schwarzschen Ungleichung gilt −1 ≤ hv, wi ≤1 kvkkwk und da cos : [0, π] → [−1, 1] bijektiv ist, ist der Winkel ϕ(v, w) wohldefiniert. Definition 9.2.10 Sei V, h·, ·i ein euklidischer Vektorraum, dann heißt eine Basis B = {v1 , . . . , vn } von V Orthonormalbasis (abgekürzt ONB) von V , wenn B eine Orthogonalbasis von V bezüglich h·, ·i ist und zusätzlich gilt kvi k = 1 für alle vi ∈ B. Definition 9.2.11 Das Kronecker-Delta ist ein Zeichen mit zwei Indizes, sodass gilt ( 1 wenn i = j δij = 0 wenn i 6= j Dabei liegen i, j in einer beliebigen Indexmenge, z. B. {1, . . . , n}. Bemerkung 9.2.12 Mithilfe des Kronecker-Deltas können wir eine Orthonormalbasis einfach beschreiben. Sei V, h·, ·i ein euklidischer Vektorraum, dann ist {v1 , . . . , vn } eine Orthonormalbasis von V , wenn gilt hvi , vj i = δij , denn dies ist gleichbedeutend mit der Orthogonalitätsbedingung hvi , vj i = 0 wenn i 6= j und der Normierung hvi , vi i = kvi k2 = 1. Beispiel 9.2.13 Die Standardbasisvektoren e1 , . . . , en des Rn sind eine Orthonormalbasis bezüglich des Standardskalarprodukts. Bemerkung 9.2.14 Sei V, h·, ·i ein euklidischer Vektorraum. Wir betrachten eine Menge von Vektoren M = {v1 , . . . , vr } ⊂ V , die paarweise orthogonal zueinander sind, das heißt wenn hvi , vj i = 0 für i 6= j gilt, und sodass 0V ∈ / M . Unter diesen Voraussetzungen sind die Vektoren aus M immer linear unabhängig. 181 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.2. SKALARPRODUKTE Um dies zu zeigen betrachten wir eine Linearkombination des Nullvektors λ1 v1 + · · · + λr vr = 0V und berechnen das Skalarprodukt mit den Vektoren vi für alle i = 1, . . . , n. hλ1 v1 + · · · + λr vr , vi i = h0V , vi i λ1 hv1 , vi i + · · · + λi hvi , vi i + · · · + λr hvr , vi i = 0 λi hvi , vi i = 0 Da vi 6= 0V ist hvi , vi i > 0 und somit folgt daraus, dass λi = 0 sein muss. Also ist die Linearkombination des Nullvektors trivial und somit die Vektoren linear unabhängig. Lemma 9.2.15 Sei V, h·, ·i ein euklidischer Vektorraum und B = {v1 , . . . , vn } eine Orthonormalbasis von V , dann gilt für jeden Vektor v ∈ V v= n X hv, vi i vi . i=1 Beweis. Da B eine Basis von V ist, kann jeder P Vektor v ∈ V eindeutig als Linearkombination der Basisvektoren geschrieben werden v = ni=1 λi vi . Durch Berechnung des Skalarprodukt von v mit den Basisvektoren sehen wir, dass gilt hv, vi i = hλ1 v1 + · · · + λn vn , vi i = λ1 hv1 , vi i + · · · + λi hvi , vi i + · · · + λr hvn , vi i = λi . Eine Orthonormalbasis ist also eine Basis für die man besonders einfach die Koeffizienten berechnen kann um einen Vektor als Linearkombination dieser Basis zu schreiben. Aber nun stellt sich die Frage, wie wir eine Orthonormalbasis berechnen können. Satz 9.1.20 liefert uns die Existenz einer Orthogonalbasis für allgemeine symmetrische Bilinearformen und somit insbesondere auch für Skalarprodukte. Durch Normieren dieser Basisvektoren, dass heißt durch das Teilen eines Vektors Vektors durch seine Norm, erhalten wir Vektoren der Länge 1. Dies liegt an der allgemeinen Tatsache, dass für jeden Vektor v 6= 0V gilt, 1 1 dass der Vektor w = kvk v die Norm 1 hat, da kwk = kvk kvk = 1 gilt (s. Satz 9.2.8). Einen Hinweis wie wir zu einem Vektor v 6= 0V einen zu ihm orthogonalen Vektor konstruieren liefert uns bereits Lemma 9.1.18. Zusammen erhalten wir so das Gram-Schmidtsche Orthonormalisierungsverfahren. Satz 9.2.16 (Das Gram-Schmidtsche Orthonormalisierungsverfahren) Sei V, h·, ·i ein euklidischer Vektorraum und {v1 , . . . , vn } eine Basis von V , dann ist {w1 , . . . , wn } eine Orthonormalbasis von V , wobei die Vektoren rekursiv durch w1 = 1 v1 , kv1 k w̃k+1 = vk+1 − k X i=1 hvk+1 , wi i wi wk+1 = 1 kw̃k+1 k w̃k+1 182 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.2. SKALARPRODUKTE definiert sind. Außerdem gilt: LH(w1 , . . . , wk ) = LH(v1 , . . . , vk ) für alle k = 1, . . . , n. Beweis. Zunächst bemerken wir, dass alle Vektoren wi die Norm 1 haben, da sie alle normiert wurden. Nun müssen wir die Orthogonalität der Vektoren wi prüfen. Aufgrund der rekursiven Definition können wir annehmen, dass alle Vektoren w1 , . . . , wk orthogonal zueinander sind. Nun müssen wir zeigen, dass w̃k+1 und damit auch wk+1 orthogonal zu allen w1 , . . . , wk ist. Dafür berechnen wir für j ≤ k * + k X hw̃k+1 , wj i = vk+1 − hvk+1 , wi i wi , wj i=1 = hvk+1 , wj i − k X hvk+1 , wi i hwi , wj i i=1 = hvk+1 , wj i − hvk+1 , wj i = 0. Da wir wissen, dass sowohl die Vektoren {v1 , . . . , vn } als auch die Vektoren {w1 , . . . , wn } eine Basis von V sind, gilt insbesondere dim LH(w1 , . . . , wk ) = dim LH(v1 , . . . , vk ) für alle k = 1, . . . , n. P Da aber per definition w̃k+1 + ki=1 hvk+1 , wi i wi = vk+1 gilt, liegt vk+1 ∈ LH(w1 , . . . , wk+1 ) für alle k = 0, . . . , n − 1 und somit folgt die Gleichheit der Mengen. Beispiel 9.2.17 Sei V = R2 zusammen mit dem Standardskalarprodukt. Wir wollen ausgehend von der Basis 1 0 v1 = v2 = 1 2 eine Orthonormalbasis von R2 bestimmen. Im ersten Schritt berechnen wir die Norm von v1 p √ kv1 k = 12 + 12 = 2 Also ist 1 1 w1 = √ v 1 = √ 2 2 1 1 der erste Basisvektor der gesuchten ONB. Für den zweiten Basisvektor berechnen wir zunächst 1 1 1 1 0 −1 w˜2 = v2 − hv2 , w1 i w1 = v2 − √ 2 w1 = − √ 2√ = 2 1 1 2 2 2 Nun müssen wir diesen Vektor noch normieren 1 1 w2 = w̃2 = √ kw̃2 k 2 −1 . 1 183 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.3. ORTHOGONALE ABBILDUNGEN 9.3. Orthogonale Abbildungen Definition 9.3.1 Seien V, h·, ·iV und W, h·, ·iW euklidische Vektorräume. Eine lineare Abbildung F : V → W heißt orthogonal (oder isometrisch), wenn für alle v, v 0 ∈ V gilt: F (v), F (v 0 ) W = v, v 0 V . Eine orthogonale Abbildung hat somit die Eigenschaften Längen von Vektoren und Winkel zwischen Vektoren zu erhalten. Wir sehen durch Einsetzen von v = v 0 , dass Längen erhalten werden kF (v)k2W = hF (v), F (v)iW = hv, viV = kvk2V . Und auch für Winkel gilt cos ϕ(F (v), F (w)) = hF (v), F (w)i hv, wi = = cos ϕ(v, w). kF (v)kkF (w)k kvkkwk Lemma 9.3.2 Seien V, h·, ·iV , W, h·, ·iW euklidische Vektorräume und F : V → W eine orthogonal lineare Abbildung, dann ist F injektiv. Beweis. Sei v ∈ Kern(F ), d. h. F (v) = 0W , dann gilt 0 = h0W , 0W iW = hF (v), F (v)iW = hv, viV = kvk2V . Da aber kvkV = 0 nur gilt für v = 0V , erhalten wir Kern(F ) = {0V } und somit ist F injektiv. Korollar 9.3.3 Sei V, h·, ·iV eine euklidischer Vektorraum und F : V → V ein orthogonaler Endomorphismus, dann ist F bijektiv. Beweis. Aufgrund von Lemma 9.3.2 ist F injektiv und somit aufgrund von Korollar 7.3.21 auch surjektiv. Definition 9.3.4 Sei V = Rn mit dem Standardskalarprodukt, dann ist O(n) = {A ∈ MatR (n, n) | hAv, Awi = hv, wi ∀v, w ∈ Rn } die Menge der orthogonalen Matrizen. Proposition 9.3.5 Die Menge der orthogonalen Matrizen O(n) ist eine Untergruppe der Gln (R). 184 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.3. ORTHOGONALE ABBILDUNGEN Beweis. Eine orthogonale Matrix A ∈ O(n) liegt in der Gln (R), da die lineare Abbildung Rn → Rn , x → Ax aufgrund von Korollar 9.3.3 bijektiv ist. Die Einheitsmatrix En liegt in O(n), da hEn v, En wi = hv, wi gilt. Sei A ∈ O(n), dann zeigen wir, dass auch A−1 ∈ O(n). Seien dafür v, w ∈ Rn , wir setzen ṽ = A−1 v und w̃ = A−1 w, dann gilt hv, wi = hAṽ, Aw̃i = hṽ, w̃i = A−1 v, A−1 w , wobei wir bei dem zweiten Gleichheitszeichen die Orthogonalität von A verwendet haben. Seien A, B ∈ O(n), dann ist auch A · B ∈ O(n), denn es gilt hABv, ABwi = hBv, Bwi = hv, wi , aufgrund der Orthogonalität von A und B. Proposition 9.3.6 Sei V, h·, ·iV eine euklidischer Vektorraum und sei {v1 , . . . , vn } eine Orthonormalbasis von V . Eine lineare Abbildung F : V → V ist genau dann orthogonal, wenn {F (v1 ), . . . , F (vn )} eine Orthonormalbasis von V ist. Beweis. Sei F : V → V orthogonal, dann gilt insbesondere hF (vi ), F (vj )i = hvi , vj i = δij für alle Basisvektoren, also ist {F (v1 ), . . . , F (vn )} eine Orthonormalbasis von V . Sei umgekehrt {F (v1 ), . . . , F (vn )} eine Orthonormalbasis von V , das heißt es gilt hF (vi ), F (vj )i = δij = hvi , vj i , (9.3) da ja auch {v1 , . . . , vn } eine Orthonormalbasis von V ist. Seien P v, w ∈ V Vektoren P die wir als Linearkombination der Basis {v1 , . . . , vn } schreiben: v = ni=1 λi vi und w = nj=1 µj vj , dann gilt: * + n n X X hF (v), F (w)i = F ( λi vi ), F ( µj v j ) | Einsetzen von v, w i=1 = = = * n X λi F (vi ), i=1 n X n X i=1 j=1 n X n X λi i=1 = + µj F (vj ) | Linearität von F j=1 λi * n X j=1 n X µj hF (vi ), F (vj )i | Bilinearität des Skalarprodukts µj hvi , vj i | Vorraussetzung (9.3) j=1 λi vi , i=1 = hv, wi n X + µj v j | Bilinearität des Skalarprodukts j=1 | Definition von v, w 185 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.3. ORTHOGONALE ABBILDUNGEN Korollar 9.3.7 Eine Matrix A ∈ MatR (n, n) liegt genau dann in O(n), wenn die Spalten von A eine Orthonormalbasis bezüglich des Standardskalarprodukts des Rn bilden. Beweis. Die Spalten von A sind genau die Bilder der Standardbasisvektoren. Da die Standardbasisvektoren eine Orthonormalbasis des Rn bilden (s. Bsp. 9.2.13), folgt die Aussage direkt aus Proposition 9.3.6. Korollar 9.3.8 Sei eine Matrix A ∈ MatR (n, n) gegeben, dann sind für diese Matrix folgende Aussagen äquivalent: i) A ∈ O(n) ii) Die Spalten von A bilden eine Orthonormalbasis des Rn bezüglich des Standardskalarprodukts. iii) A> A = En iv) A ist invertierbar und es gilt A−1 = A> . v) AA> = En vi) Die Zeilen von A bilden eine Orthonormalbasis des Rn bezüglich des Standardskalarprodukts. Beweis. Die Äquivalenz von i) und ii) ist direkt durch Korollar 9.3.7 gegeben. i)⇐⇒iii) Wenn A ∈ O(n), dann ist v > En w = v > w = hv, wi = hAv, Awi = (Av)> (Aw) = v > A> Aw. Durch Einsetzen der Standardbasisvektoren sehen wir, dass diese Gleichheit nur gelten kann, wenn A> A = En gilt. Umgekehrt, wenn A> A = En gilt, dann ist aufgrund derselben Rechung die Matrix A orthogonal. iii)⇐⇒iv) Die Gleichung A> A = En ist genau die definierende Gleichung für die zu A inverse Matrix. iv)⇐⇒ v) Für die inverse Matrix gilt immer AA−1 = A−1 A = En und somit ist A−1 = A> gleichbedeutend mit AA> = En . v)⇐⇒vi) Wenn wir das Produkt zweier Matrizen M, N ∈ MatK (n, n) bilden, dann ist der Eintrag in der i-ten Zeile und der j-ten Spalte des Produkt M N durch das Standardskalarprodukt der i-ten Zeile von M und der j-ten Spalte von N gegeben P (M · N )ij = nk=1 Mik Nkj . Da die Spalten von A> genau den Zeilen von A entsprechen ist also der Eintrag der i-ten Zeile und der j-ten Spalte von AA> = En gleich dem Skalarprodukt der i-ten Zeile von A und der j-ten Zeile von A. Dieses Skalarprodukt ist 1, wenn i = j ist und 0 sonst. Aber dies ist genau die Definition einer Orthonormalbasis. 186 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.3. ORTHOGONALE ABBILDUNGEN Beispiel 9.3.9 Schreiben wir die in Beispiel 9.2.17 berechnete Orthonormalbasis des R2 als Spalten einer Matrix, dann ist diese Matrix aus O(2). 1 1 −1 A= √ 2 1 1 Wir können nachrechnen, dass die Orthogonalitätsbedingung A · A> = E2 gilt: 1 1 −1 1 1 2 0 1 1 A · A> = √ ·√ = = E2 2 0 2 2 1 1 2 −1 1 Eine Verallgemeinerung dieser Matrix sind Matrizen der Form 1 a −b A= √ a2 + b2 b a für die ebenfalls die Orthogonalitätsbedingung 1 1 a −b a > A·A = √ ·√ a2 + b2 b a a2 + b2 −b gilt: 2 1 b a + b2 0 = 2 = E2 a 0 a2 + b2 a + b2 Lemma 9.3.10 Sei A ∈ O(n) eine orthogonale Matrix, dann gilt det A = ±1. Beweis. Wenn A ∈ O(n), dann gilt AA> = En , also folgt aus Satz 8.1.19 und Satz 8.1.13 1 = det En = det(AA> ) = det A det A> = (det A)2 Durch Ziehen der Quadratwurzel erhalten wir die gewünschte Aussage. Beispiel 9.3.11 Es gilt für die Matrix 1 1 1 a −b a −b A= √ ⇒ det A = √ det = 2 ·(a2 +b2 ) = 1. 2 2 2 2 b a a + b 2 2 a +b b a a +b Dabei haben beim Berechnen der Determinante Korollar 8.1.4 benutzt. Umgekehrt ist aber nicht jede Matrix mit Determinante gleich ±1 auch orthogonal. Zum Beispiel gilt 1 0 2 det B = det = 1 aber hBe2 , Be2 i = h2e2 , 2e2 i = 4 he2 , e2 i . 0 2 Definition 9.3.12 Wir nennen die Menge SO(n) := {A ∈ O(n) | det A = 1} die spezielle orthogonale Gruppe. 187 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.4. SEBSTADJUNGIERTE ABBILDUNGEN Proposition 9.3.13 Die Menge SO(n) ist eine Untergruppe von O(n). Beweis. Die Determinante det : O(n) → R ist ein Gruppenhomomorphismus (s. Satz 8.1.19) mit Kern SO(n). 9.4. Sebstadjungierte Abbildungen In diesem Abschnitt beschäftigen wir uns nun mit linearen Abbilddungen, deren Darstellungsmatrix symmetrisch ist. Diese sind immer diagonalisierbar und besitzen Eigenvektoren, die eine Orthonormalbasis sind. Definition 9.4.1 Sei V, h·, ·iV ein euklidischer Vektorraum, ein Endomorphismus F : V → V heißt selbstadjungiert, wenn für alle v, w ∈ V gilt: hF (v), wi = hv, F (w)i . Proposition 9.4.2 Sei V, h·, ·iV ein euklidischer Vektorraum, F : V → V ein selbstadjungierter Endomorphismus und λ, µ ∈ R zwei verschiedene Eigenwerte von F , dann sind die Eigenvektoren von F zum Eigenwert λ orthogonal zu den Eigenvektoren von F zu µ. Beweis. Sei v 6= 0V Eigenvektor zu λ, d.h. F (v) = λv und sei w 6= 0V Eigenvektor zu µ, d.h. F (w) = µw, dann gilt λ hv, wi = hλv, wi = hF (v), wi = hv, F (w)i = hv, µwi = µ hv, wi . Somit gilt (λ − µ) hv, wi = 0 und da nach Voraussetzung λ 6= µ ist, muss hv, wi = 0 sein. Somit sind v und w orthogonal zueinander. Proposition 9.4.3 Sei V, h·, ·iV eine euklidischer Vektorraum, F : V → V ein Endomorphismus und B = {v1 , . . . , vn } eine Orthonormalbasis von V . Die Darstellungsmatrix von F bezüglich dieser Basis MBB (F ) ist genau dann symmetrisch, wenn F selbstadjungiert ist. Beweis. Zunächst stellen wir fest, dass der Eintrag aij der i-ten Zeile und j-ten Spalte von A durch aij = hvi , F (vj )i gegeben ist. Die j-te Spalte der Matrix A sind die Koordinaten von Pn F (vj ) bezüglich der Basis B. Unter Verwendung von Lemma 9.2.15 gilt nun F (vj ) = i=1 hvi , F (vj )i vi und somit ist aij = hvi , F (vj )i. Nun verwenden wir die Selbstadjungiertheit von F und der Symmetrie des Skalarprodukts um zu sehen, dass gilt: aij = hvi , F (vj )i = hF (vi ), vj i = hvj , F (vi )i = aji . (9.4) 188 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.4. SEBSTADJUNGIERTE ABBILDUNGEN woraus die Symmetrie der Matrix A folgt. Nehmen wir umgekehrt an, dass die Matrix A symmetrisch ist, dann bedeutet dies aufgrund von Rechnung (9.4), dass für die Basisvektoren v1 , . . . , vn gilt: hvi , F (vj )i = hF (vi ), vj i . (9.5) Da BPeine Basis von V ist, Pkönnen wir beliebige Vektoren v, w ∈ V als Linearkombination v = ni=1 λi vi , bzw. w = nj=1 µj vj schreiben und berechnen nun, dass gilt: * hF (v), wi = F( n X λi vi ), i=1 = = = * n X = n X i=1 j=1 n X n X λi * n X = | Einsetzen von v, w n X + µj vj | Linearität von F µj hF (vi ), vj i | Bilinearität des Skalarprodukts µj hvi , F (vj )i | Vorraussetzung (9.5) j=1 λi vi , i=1 * n X µj vj j=1 λi i=1 + j=1 λi F (vi ), i=1 n X n X n X + µj F (vj ) | Bilinearität des Skalarprodukts j=1 n X λi vi , F ( µj v j ) i=1 + | Linearität von F j=1 = hv, F (w)i | Definition von v, w Daraus folgt, dass F selbstadjungiert ist. Korollar 9.4.4 Sei F : Rn → Rn , x 7→ Ax eine lineare Abbildung, wobei A ∈ MatR (n, n) und der Rn zusammen mit dem Standardskalarprodukt betrachtet wird. F ist genau dann selbstadjungiert, wenn A symmetrisch ist. Beweis. Dieses Korollar folgt direkt aus Proposition 9.4.3, da die Standardbasis eine Orthonormalbasis bezüglich des Standardskalarprodukts ist (s. Beispiel 9.2.13). Aber die Aussage kann auch direkt bewiesen werden, denn es gilt v > · A> · w = (A · v)> · w = hAv, wi = hv, Awi = v > · A · w. Dies ist aber gleichbedeutend mit A = A> , also der Symmetrie der Matrix A. Lemma 9.4.5 Sei V, h·, ·iV eine euklidischer Vektorraum der Dimension dim V > 0 und F : V → V ein selbstadjungierter Endomorphismus, dann besitzt F einen Eigenvektor zu einem reellen Eigenwert. 189 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.4. SEBSTADJUNGIERTE ABBILDUNGEN Beweis. Sei A = MBB (F ) die Darstellungsmatrix von F bezüglich einer Orthonormalbasis, das heißt die Matrix A ist symmetrisch. Sei χA (t) das charakteristische Polynom zu dieser Matrix. Wir wissen aufgrund des Fundamentalsatz der Algebra (s. Satz 5.5.3), dass χA (t) eine komplexe Nullstelle λ = γ + iω ∈ C besitzt. Wir wollen jetzt zeigen, dass aufgrund der Symmetrie von A bereits λ ∈ R ist. Sei 0 6= z = x + iy ∈ Cn der Eigenvektor zu λ, den wir in seinen Real- und Imaginärteil zerlegen, das heißt x, y ∈ Rn . Wir zerlegen nun auch die Eigenwertgleichung Az = λz in ihren Real- und ihren Imaginärteil Az = λz A(x + iy) = (γ + iω)(x + iy) Ax + iAy = (γx − ωy) + i(γy + ωx). Somit gilt Ax = γx − ωy und Ay = γy + ωx. Nun verwenden wir, dass die Matrix A symmetrisch ist und für die Vektoren x, y ∈ Rn gilt: hAx, yi = hx, Ayi hγx − ωy, yi = hx, γy + ωxi γ hx, yi − ω hy, yi = γ hx, yi + ω hx, xi Substrahieren wir γ hx, yi auf beiden Seiten der Gleichung, dann erhalten wir ω · (kxk2 + kyk2 ) = 0. Da der Eigenvektor z = x + iy nicht null ist muss mindestens kxk = 6 0 oder kyk = 6 0 sein. Also ist die Gleichung nur für ω = 0 zu erfüllen. Aber dies bedeutet, dass λ = γ +iω = γ ∈ R liegt. Satz 9.4.6 (Spektralsatz für selbstadjungierte Endomorphismen) Sei V, h·, ·iV ein euklidischer Vektorraum und F : V → V ein selbstadjungierter Endomorphismus, dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren von F . Beweis. Wir beweisen den Spektralsatz per vollständiger Induktion nach der Dimension des Vektorraums V . Der Induktionsanfang ist bei n = 1. Eine lineare Abbildung von einem eindimensionalen Vektorraum in sich selbst ist die Multiplikation mit einen Skalar. Daher ist jeder Vektor 1 ṽ 6= 0V ein Eigenvektor. Durch Normieren v := kṽk ṽ ist dieser Vektor eine Orthonormalbasis von V bestehend aus Eigenvektoren von F . Die Induktionsvoraussetzung besagt nun, dass ein selbstadjungierter Endomorphismus FU : U → U von einem Vektorraum der Dimension n − 1 eine Orthonormalbasis von U bestehend aus Eigenvektoren von FU besitzt. Sei also V ein Vektorraum der Dimension n und F : V → V ein selbstadjungierter Endomorphismus, dann gibt es aufgrund von Lemma 9.4.5 einen Eigenvektor ṽ 6= 0V von 1 F . Diesen Vektor normieren wir und erhalten so v := kṽk ṽ, der ein Eigenvektor von F der Norm 1 ist. 190 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.4. SEBSTADJUNGIERTE ABBILDUNGEN Nun verwenden wir Lemma 9.1.18 und erhalten den Vektorraum V als direkte Summe der linearen Hülle von v und deren Orthokomplement: V = LH(v) ⊕ LH(v)⊥ . Da dim LH(v) = 1 ist hat das Orthokomplement U := LH(v)⊥ die Dimension dim U = dim V − dim LH(v) = n − 1 (s. Satz 6.2). Wir können also die Induktionsvoraussetzung anwenden, wenn wir sicher stellen können, dass die Einschränkung von F auf den Untervektorraum U , eine Abbildung von U nach U ist. Das bedeutet, dass F (u) ∈ U sein muss, für u ∈ U . Das heißt aber, dass aus u ∈ U = LH(v)⊥ , also hu, vi = 0 folgen muss, dass F (u) ∈ U = LH(v)⊥ , also hF (u), vi = 0. Um dies zu sehen, rechnen wir: hF (u), vi = hu, F (v)i = hu, λvi = λ hu, vi = 0. Dabei haben wir benutzt, dass v ein Eigenvektor von F ist. Wir können nun also den Endomorphismus FU : U → U, u 7→ F (u) definieren. Dieser Endomorphismus ist selbstadjungiert, da F selbstadjungiert ist und daher können wir die Induktionsvoraussetzung anwenden. Das heißt es gibt eine Orthonormalbasis {v1 , . . . , vn−1 } aus Eigenvektoren von FU . Dann ist {v1 , . . . , vn−1 , v} eine Orthonormalbasis aus Eigenvektoren von FU . Korollar 9.4.7 (Hauptachsentransformation) Sei A ∈ MatR (n, n) eine symmetrische Matrix, dann gibt es eine orthogonale Matrix T ∈ O(n), so dass T AT −1 = T AT > = Diag(λ1 , . . . , λn ) gilt. Beweis. Da A symmetrisch ist, ist die lineare Abbildung F : Rn → Rn selbstadjungiert und somit gibt es eine Orthonormbasis des Rn bestehend aus Eigenvektoren {v1 , . . . , vn } von A. Diese Vektoren sind die Spalten der Matrix T −1 . Da die Vektoren eine Orthonormalbasis bilden, ist die Matrix orthogonal T −1 ∈ O(n) (s. Kor. 9.3.7) und daher ist T −1 = T > . Die Begründung warum das Produkt T AT −1 eine Diagonalmatrix ist, kann im Beweis von Satz 8.2.4 nachgelesen werden. Um die Matrix T ∈ O(n) sowie die Diagonalmatrix Diag(λ1 , . . . , λn ) zu berechnen, kombinieren wir nun das bekannte Verfahren zum Berechnen einer Basis aus Eigenvektoren mit dem Gram-Schmidtschen Orthonormalisierungsverfahren. Sei also eine symmetrische Matrix A ∈ MatR (n, n) gegeben, dann gehen wir wie folgt vor um eine Orthonormabasis aus Eigenvektoren zu berechnen: 1. Wir berechnen das charakteristische Polynom χA (t) der Matrix und bestimmen dessen Nullstellen. Wir schreiben χA (t) als Produkt von Linearfaktoren χA (t) = ± r Y (t − λi )αi , i=1 wobei die λi paarweise verschiedene Eigenwerte sind und αi ihre algebraische Vielfachheit ist. Da A symmetrisch und somit diagonalisierbar ist, muss das charakteristische Polynom in Linearfaktoren zerfallen (s. Satz 8.2.11). 191 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.4. SEBSTADJUNGIERTE ABBILDUNGEN 2. Danach berechnen wir für jeden Eigenwert λi eine Basis Bi vom Eigenraum Eig(A, λi ). Da die Matrix A diagonalisierbar ist, gilt dim Eig(A, λi ) = αi (s. Satz 8.2.20). 3. Nun wenden wir das Gram-Schmidtsche Orthonormalisierungsverfahren jeweils auf die Basen Bi für i = 1, . . . , r an und erhalten so für jeden der Eigenräume Eig(A, λi ) eine Orthonormalbasis. Die Vereinigung dieser Basen ist dann eine Orthonormalbasis des Rn , da Eigenvektoren zu verschiedenen Eigenwerten sowieso orthogonal zueinander sind (s. Prop. 9.4.2). 4. Im letzten Schritt schreiben wir die berechneten Basisvektoren als Spalten der Matrix T −1 , wobei Eigenvektoren zum gleichen Eigenwert nebeneinander stehen und man meist die Eigenwerte der Größe nach sortiert. Die Diagonalmatrix hat dann die Form D = Diag(λ1 , . . . , λ1 , λ2 , . . . , λ2 , . . . , λr , . . . , λr ) | {z } | {z } | {z } α1 −mal α2 −mal αr −mal wenn die ersten α1 Spalten von T −1 Eigenvektoren zu λ1 sind, usw. Beispiel 9.4.8 Sei die Matrix 2 1 1 A = 1 2 −1 1 −1 2 gegeben. Die Matrix ist symmetrisch, wir können also eine Orthonormalbasis aus Eigenvektoren von A bestimmen. Dazu benötigen wir zunächst die Eigenwerte von A und berechnen dafür das charakteristische Polynom 2−t 1 1 2 − t −1 = (2−t)2 −1−1−(2−t)−(2−t)−(2−t) = −t3 +6t2 −9t χA (t) = det 1 1 −1 2 − t Dieses Polynom wollen wir in seine Linearfaktoren zerlegen. Dafür klammern wir zunächst −t aus und sehen dann, dass der verbliebene Faktor mithilfe einer binomischen Formel (a − b)2 = a2 − 2ab + b2 in Linearfaktoren zerlegt werden kann (alternativ, kann man mithilfe der p − q-Formel die Nullstellen berechnen). χA (t) = −t3 + 6t2 − 9t = −t t2 − 6t + 9 = −t(t − 3)2 . Somit hat die Matrix A zwei verschiedene Eigenwerte λ1 = 0 mit der Vielfachheit 1 und λ2 = 3 mit der Vielfachheit 2. Wir berechnen nun die Eigenräume, zuerst zum Eigenwert λ1 = 0: 2 1 1 1 2 −1 1 Eig(A, 0) = Kern(A − 0E3 ) = Kern 1 2 −1 = Kern 2 1 1 −1 2 1 −1 2 1 2 −1 1 2 −1 = Kern 0 −1 1 = Kern 0 −3 3 0 −3 3 0 0 0 Wir wählen die Unbekannte x3 = r, wobei r eine beliebige Zahl aus R ist und erhalten so aus der zweiten Zeile −x2 + x3 = 0 die Gleichung x2 = x3 = r und aus der ersten 192 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.4. SEBSTADJUNGIERTE ABBILDUNGEN Zeile x1 + 2x2 − x3 = 0 die Gleichung x1 = −2x2 + x3 = −r. Somit ist der Eigenraum zum Eigenwert λ1 = 0 gegeben durch: −1 Eig(A, 0) = x ∈ R3 | x = r 1 wobei r ∈ R . 1 > Eine Basis dieses Eigenraumes ist zum Beispiel durch den Vektor v1 = −1 1 1 gegeben. Die Dimension von Eig(A, 0) ist also 1, wie wir aufgrund der Tatsache, das λ1 = 0 mit Vielfachheit 1 im charakteristischen Polynom vorkommt, erwartet haben. Nun berechnen wir den Eigenraum zum Eigenwert λ2 = 3. −1 1 1 −1 1 1 Eig(A, 3) = Kern(A − 3E3 ) = Kern 1 −1 −1 = Kern 0 0 0 1 −1 −1 0 0 0 Wir wählen die Unbekannten x2 = r und x3 = s, wobei r und s beliebige Zahlen aus R sind und erhalten so aus −x1 + x2 + x3 = 0 die Gleichung x1 = x2 + x3 = r + s. Somit ist der Eigenraum zum Eigenwert λ1 = 0 gegeben durch: 1 1 3 Eig(A, 3) = x ∈ R | x = r 1 + s 0 wobei r ∈ R . 0 1 > Eine Basis dieses Eigenraumes ist zum Beispiel durch die Vektoren v21 = 1 1 0 > und v22 = 1 0 1 gegeben. Die Dimension von Eig(A, 3) ist also 2, wie wir aufgrund der Tatsache, das λ2 = 3 mit Vielfachheit 2 im charakteristischen Polynom vorkommt, erwartet haben. Im nächsten Schritt müssen wir nun ausgehend von v1 eine Orthonormalbasis von Eig(A, 0) und ausgehend von v21 , v22 eine Orthonormalbasis von Eig(A, 3) konstruieren. Dafür verwenden wir das Gram-Schdt-Verfahren. Eine Orthonormalbasis vonp Eig(A, 0) erhalten wir, p √ indem wir den Vektor v1 normieren. 2 2 2 Es gilt kv1 k = hv1 , v1 i = (−1) + 1 + 1 = 3. Somit ist −1 1 1 1 w1 = √ v 1 = √ 3 3 1 eine Orthonormalbasis von Eig(A, 0). Nun wollen wir ausgehend von v21 und v22 eine Orthonormalbasis von√Eig(A, 3) konstruiep √ ren. Dafür müssen wir v21 normieren. Es gilt kv21 k = hv21 , v21 i = 12 + 12 + 02 = 2. Somit ist der erste Basisvektor von Eig(A, 3) durch 1 1 1 1 w21 = √ v21 = √ 2 2 0 gegeben. Für den zweiten Basisvektor konstruieren wir jetzt nach Gram-Schmidt einen Vektor aus Eig(A, 3), der senkrecht auf w21 steht. Wir definieren 1 1 1 2 1 1 w̃22 = v22 − hv22 , w21 i = 0 − √ √ 1 = − 12 . 2 2 0 1 1 193 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.5. DIE SINGULÄRWERTZERLEGUNG q q q Nun gilt kw̃22 k = 14 + 14 + 1 = 32 . Also ist w22 = 23 w̃22 . Da Vektoren zu unterschiedlichen Eigenwerten sind immer orthogonal zueinander, können nun die Orthonormalbasis des R3 bestehend aus Eigenvektoren von A angeben: r 1 −1 1 1 1 2 21 −2 w1 = √ 1 , w21 = √ 1 und w22 = 3 3 2 0 1 1 Nun können wir die Matrix T aus Korollar 9.4.7 angeben. Die Matrix T −1 hat als Spalten die Vektoren w1 , w21 , w22 . Die Matrix T ist dann die Inverse dazu. Da aber die Spalten von T −1 eine Orthonormalbasis sind, kann die Inverse durch Transponieren berechnet werden. q 1 1 √1 √1 − √13 √12 − √3 6 3 3 q √1 √1 1 0 √1 T −1 = T > = √1 T = − 2 2 q q q 6 3 2 q 1 1 2 − 1 2 √ 6 6 3 0 3 3 und wir können nachrechnen, dass gilt T AT > = Diag(0, 3, 3). Da die erste Spalte von T −1 der Eigenvektor zu λ1 = 0 ist, ist 0 der erste Diagonaleintrag. 9.5. Die Singulärwertzerlegung Der Spektralsatz ist eine Aussage für quadratische symmetrische Matrizen. Da in vielen Anwendungen aber allgemeinere Matrizen auftauchen, spielt dort die Singulärwertzerlegung eine wichtige Rolle. Im Beweis der Singulärwertzerlegung wird folgende Schreibweise für das Matrixprodukt verwendet. Lemma 9.5.1 Seien A = (aik ) ∈ MatK (m, n) und B = (bkj ) ∈ MatK (n, p) Matri> zen, wobei A aus den Spaltenvektoren ak = a1k a2k . . . amk und B aus den k Zeilenvektoren b = bk1 bk2 . . . bkp besteht. Dann gilt A·B = n X ak · bk . k=1 Beweis. Für i ∈ {1, ..., m} und j ∈ {1,P ..., p} werden die Koeffizienten der Produktmatrix C := (cij ) ∈ MatK (m, p) durch cij := nk=1 aik bkj definiert. Da die Vektoren als Matrizen aufgefasst in ak ∈ MatK (m, 1) und bk ∈ MatK (1, p) liegen, 194 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ ist es möglich das Matrixprodukt ak · bk ∈ MatK (m, p) zu a1k a1k bk1 a2k a2k bk1 ak · bk = . · bk1 bk2 . . . bkp = . .. .. amk amk bk1 9.5. DIE SINGULÄRWERTZERLEGUNG berechnen: a1k bk2 a2k bk2 .. . ... ... .. . amk bk2 . . . a1k bkp a2k bkp .. . amk bkp Addieren wir diese Matrizen für k = 1, . . . , n auf, dann erhalten wir Pn P Pn . . . Pnk=1 a1k bkp k=1 a1k bk1 k=1 a1k bk2 P P n n n n a2k bk1 X ... k=1 a2k bkp k=1 a2k bk2 k=1 a k · bk = .. .. .. .. . k=1 Pn . Pn . Pn . k=1 amk bk1 k=1 amk bk2 . . . k=1 amk bkp Die Eintäge dieser Matrix entsprechen also genau den Einträgen des Matrixprodukts C = AB. Satz 9.5.2 (Singuläwertzerlegung) Sei A ∈ MatR (m, n) eine Matrix. Dann existieren orthogonale Matrizen U ∈ MatR (m, m) und V ∈ MatR (n, n) sowie eine Diagonalmatrix S = (sij ) ∈ MatR (m, n) mit den Diagonaleinträgen s11 ≥ s22 ≥ · · · ≥ 0, sodass gilt: A = U SV > . Beweis. Wir führen einen konstruktiven Beweis, der direkt benutzt werden kann um die Zerlegung zu berechnen. (1) Wir betrachten die Matrix B := A> A ∈ MatR (n, n) und stellen unter Verwendung von Satz 7.1.13 und Gleichung (7.2) fest, dass sie symmetrisch ist: B > = (A> A)> = A> (A> )> = A> A = B. Durch die Hauptachsentransformation (s. Kor. 9.4.7) erhalten wir für B die Zerlegung T BT > = Diag(λ1 , . . . , λn ) und die Eigenwerte λi ∈ R von B. Weiterhin bezeichne vi den Eigenvektor zu λi aus der Matrix T . Wir sortieren dabei die Eigenwerte λ1 ≥ λ2 ≥ · · · ≥ λn ihrer Größe nach. Alle λi sind nicht negativ (λi ≥ 0), denn es gilt vi> Bvi = λi vi> vi = λi vi> Bvi = vi> A> Avi = (Avi )> (Avi ) ≥ 0. Insgesamt erhalten wir daher λi ≥ 0. Außerdem gilt rang(A) = rang(B), da rang(A> A) = rang(A). Die ersten r := rang(B) Eigenwerte sind also positiv. (2) Für alle i = 1, . . . , r setzen wir ui = √1 Avi . λi (3) Die übrigen ui mit r < i ≤ m werden so bestimmt, dass diese zu u1 , . . . , ur orthogonal sind und die Norm 1 haben. (4) Wir setzen jetzt U := (u1 , . . . , um ) und V := (v1 , . . . , vn ) und definieren (√ λi für i = j und i ≤ r S := (sij ) = 0 sonst 195 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.5. DIE SINGULÄRWERTZERLEGUNG Es bleibt noch zu zeigen, dass die konstruierten U, S, V > die geforderten Eigenschaften erfüllen. Wegen der Hauptachsentransformation ist {v1 , . . . , vn } eine Orthonormalbasis von Rn und demnach V eine orthogonale Basis. Ferner ist {u1 , . . . , um } eine Orthonormalbasis von Rm , denn für i, j = 1, . . . , r ist + * 1 1 1 1 1 1 hui , uj i = √ Avi , p Avj = √ p hAvi , Avj i = √ p (Avi )> (Avj ) λi λi λj λi λj λj p p p λj λj > λj 1 1 > > 1 1 > = √ p vi A Avj = √ p vi λj vj = √ p vi vj = √ hvi , vj i λi λj λi λj λi λj λi (q λj für i = j λi = 1 = . 0 für i 6= j Außerdem sind ur+1 , . . . , um orthonormal per Konstruktion und damit insgesamt U eine orthogonale Matrix. Abschießend wollen wir zeigen, dass die Zerlegung A = U SV gilt. A = A · En = AV V > n X =A vi vi> | V ist eine orthogonale Matrix | Lemma 9.5.1 i=1 = n X Avi vi> | Distributivgesetz Avi vi> | Summation geht nur bis r, da Avi = 0 für i > r i=1 = r X i=1 p r X 1 √ λi vi> = Avi λi i=1 = r X ui p λi vi> √ λi √ | Einfügen von λi | Definition von ui i=1 = U SV > | Lemma 9.5.1. Definition 9.5.3 (Singulärwertzerlegung) Die Zerlegung A = U SV > aus dem obigen Satz nennt man die Singulärwertzerlegung von A. Die Zahlen sii heißen Singulärwerte von A. Satz 9.5.4 Für Singulärwertzerlegung einer Matrix A gelten die folgenden Eigenschaften (i) Die Singulärwerte sii entsprechen den Wurzeln der Eigenwerte von A> A. (ii) Die Singulärwerte sii sind eindeutig bestimmt. (iii) Ist A symmetrisch, so sind die Singulärwerte die Beträge ihrer Eigenwerte von A. (iv) Die Matrizen U, V sind nicht eindeutig bestimmt. 196 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.5. DIE SINGULÄRWERTZERLEGUNG (v) Die Spalten i = r + 1, . . . , n von V sind eine Basis für den Kern von A. (vi) Die Spalten i = 1, . . . , r von U sind eine Basis für das Bild von A. Beweis. (i) folgt direkt aus der Definition der Singulärwerte. Daraus folgt dann direkt, dass sie eindeutig sind, da die Eigenwerte einer Matrix eindeutig sind und wir die Singulärwerte der Größe nach sortieren. (iii) Wenn A symmetrisch ist, dann ist B = A> A = A2 und hat die Eigenwerte λi = µ2i , da für einen Eigenvektor vi von A zum Eigenwert µi gilt: A2 vi = AAvi = Aµi vi = µi Avi = µi µi vi . Und damit ist die Wurzel aus dem Eigenwert µ2i durch |µi | gegeben. (iv) Die Matrizen U und V sind nicht eindeutig, da Orthonormalbasen von Vektorräumen nicht eindeutig sind. (v) Durch Multiplizieren von rechts mit der Matrix V erhalten wir aus der Singulärwertzerlegung AV = U S. Da nur die ersten r Diagonaleinträge von S positiv sind und alle anderen Einträge null gilt: Sei = 0, wobei i > r und ei ein Standardbasisvektor des Rn ist. Also ist auch AV ei = U Sei = U · 0 = 0. Da V ei die i-te Spalte von V liefert, liegen also die Spalten i = r + 1, . . . , n von V im Kern von A. Diese sind linear unabhängig, da V eine invertierbare Matrix ist. Da der Kern von A aufgrund der Dimensionsformel 7.3.19 genau die Dimension n − Rang A = n − r hat, sind diese Spalten eine Basis des Kerns von A. √ des Rn und 1 ≤ i ≤ r, dann ist Sei = λi ei 6= 0 (vi) Sei jetzt ei ein Standardbasisvektor √ und somit U Sei = λi U ei , das heißt ein Vielfaches der i-ten Spalte von U . Also liegt diese Spalte im Bild von A, aufgrund von AV ei = U Sei . Diese Spalten sind linear unabhängig, da U invertierbar ist und bilden somit eine Basis des Bildes von A. Beispiel 9.5.5 Wir betrachten die Matrix −8 10 14 4 4 2 A := −2 −2 −1 ∈ MatR (4, 3). −16 2 10 und verfahren gemäß dem Algorithmus zur Singulärwertzerlegung. (1) Wir berechnen die symmetrische Matrix 340 −92 −262 B := AT A = −92 124 170 . −262 170 301 Die Berechnung der Eigenwerte liefert λ1 = 648, λ2 = 117, λ3 = 0 mit den zugehörigen Eigenvektoren −2 2 1 ṽ1 = 1 , ṽ2 = 2 , ṽ3 = 2 . 2 1 2 197 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.5. DIE SINGULÄRWERTZERLEGUNG Diese sind orthogonal zueinander, da sie zu unterschiedlichen Eigenwerten gehören. Für ihre Norm gilt kṽ1 k = kṽ2 k = kṽ3 k = 3. Diese Vektoren müssen also noch normiert werden. Die normierten Vektoren sind somit v1 = kṽ11 k ṽ1 , v2 = kṽ12 k ṽ2 und v3 = kṽ13 k ṽ3 und die Matrix V ∈ O(3) ist gegeben durch −2 2 1 1 V = (v1 v2 v2 ) = 1 2 2 . 3 2 1 2 Außerdem können wir definieren √ λ1 √0 0 λ2 S= 0 0 0 0 die Matrix S mit den Singulärwerten auf der Diagonale √ √ 18 2 √0 0 648 √ 0 0 0 0 0 117 0 3 13 = = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 . 0 0 (2) Da die ersten beiden Eigenwerte von B positiv sind, können wir die ersten zwei Spalten der Matrix U ∈ O(4) direkt definieren: √1 2 1 0 u1 = √ Av1 = 0 λ1 √1 2 √2 13 √2 13 √−1 13 −2 √ 13 1 u2 = √ Av2 = λ2 (3) Die Vektoren u3 , u4 müssen orthogonal zu u1 , u2 konstruiert werden. Wir können dafür zunächst zwei beliebige Vektoren ũ3 , ũ4 ∈ R4 wählen, so dass {u1 , u2 , ũ3 , ũ4 } eine Basis des R4 ist, um dann das Gram-Schmidt-Verfahren auf diese Vektoren anzuwenden. Alternativ erhalten aus den Bedingungen hu1 , u3 i = u> 1 u3 = 0, hu2 , u3 i = u> 2 u3 = 0 ein lineares Gleichungssystem mit 2 Gleichungen und 4 Unbekannten 1 1 √ u31 + 0u32 + 0u33 + √ u34 = 0 2 2 2 −1 −2 2 √ u31 + √ u32 + √ u33 + √ u34 = 0 13 13 13 13 und die Lösungen müssen u33 = 4u31 + 2u32 , u34 = −u31 erfüllen. Wir wählen die spezielle Der Vektor (0, 1, 2, 0) hat die √ Lösung ũ31 = 0, ũ32 = 1, ũ33 = 2, ũ34 = 0. 1 √ Norm 5, weshalb unser gesuchter Vektor u3 = 5 (0, 1, 2, 0) ist. Für u4 müssen wir die Bedingungen hu1 , u4 i = u> 1 u4 = 0, hu2 , u4 i = u> 2 u4 = 0, hu3 , u4 i = u> 3 u4 = 0 198 KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ 9.5. DIE SINGULÄRWERTZERLEGUNG erfüllen, die uns das lineare Gleichungssystem 1 1 √ u41 + 0u42 + 0u43 + √ u44 = 0 2 2 2 2 −1 −2 √ u41 + √ u42 + √ u43 + √ u44 = 0 13 13 13 13 2 1 0u41 + √ u42 + √ u43 + 0u44 = 0 5 5 liefern. Somit erhalten wir u41 = −u44 , u42 = 85 u44 und u43 = − 45 u44 . Wieder wählen wir eine spezielle Lösung ũ41 = −5, ũ42 = 8, ũ43 = −4, ũ44 = 5, die wir 1 dann zu u4 = √130 (−5, 8, −4, 5) normieren. Insgesamt haben wir also die Matrix √1 2 0 U = (u1 u2 u3 u4 ) = 0 √1 2 √2 13 √2 13 −1 √ 13 −2 √ 13 0 √1 5 √2 5 0 √−5 130 √8 130 √−4 130 √5 130 konstruiert. Zuletzt können wir jetzt prüfen, dass √1 −8 10 14 2 0 4 4 2 A= −2 −2 −1 = 0 −16 2 10 √1 2 √2 13 √2 13 −1 √ 13 −2 √ 13 0 √1 5 √2 5 0 √ √−5 18 2 130 √8 0 130 √−4 0 130 0 √5 130 √0 3 13 0 0 0 −2 3 0 2 3 0 1 3 0 1 3 2 3 2 3 2 3 1 3 2 3 = U SV > 199 10. Anwendungen 10.1. Total Least Squares Regression Problem: Gerade an Daten “fitten”. x y Das hier abgebildete Least Squares Verfahren liefert eine Regressionsgerade, wobei nur die y-Werte fehlerbehaftet sind. Beim Total Least Squares Verfahren sind alle Variablen fehlerbehaftet. Dieses Verfahren liefert jedoch “bessere” Geraden. Es wurde 1989 von Golub und VanLoan entwickelt. Definition 10.1.1 Soll in einer (Hyper-)Ebene eine Gerade gefunden werden, die zu einer gegebenen Menge von Punkton die Summe der quadratischen Distanzen minimiert, nennen wir die Methode zur Bestimmung dieser Geraden Total Least Squares Regression. Wir betrachten das Problem zunächst im R2 und verallgemeinern es dann für den Rm . Definition 10.1.2 Sei p~ = (p, q) ∈ R2 und xq + sy − c = 0 eine Gerade (y = rs x + xc ), dann ist der quadratische Fehler definiert als e(~ p, r, s, c) = (rp + sq − c)2 . r 2 + s2 Seien zusätzlich die Datenpunkte gegeben durch ~x1 = (x1 , y1 ), . . . , ~xn , dann ist die Summe der quadratischen Fehler gegeben durch D(r, s, ~x1 , . . . , ~xn ) = n X i=1 200 e(~xi , r, s, rx0 + sy0 ). KAPITEL 10. ANWENDUNGEN 10.1. TOTAL LEAST SQUARES REGRESSION y = mx + b y0 = 1 mx +q p~ = (p, q) Berühre nun diese Gerade den Punkt ~x0 = (x0 , y0 ), dann gilt c = rx0 + sy0 und durch einsetzen folgt r(x − x0 ) + s(y − y0 ) = 0. Wir wollen nun eine TLS-Methode finden. Dazu vereinfachen wir schrittweise das Problem. Der erste Schritt wird sein, dass wir für eine gegebene Punktwolke ~xi einen Vektor ~x0 fixieren, mit dem wir weiterrechnen können. Lemma 10.1.3 Sei (r, s) 6= 0 ein Normalenvektor einer Gerade und ~x0 , ~x1 , . . . , ~xn ∈ R2 . ¯ der geometrische Mittelpunkt von ~x1 , . . . , ~xn definiert Sei außerdem definiert durch ~x durch n n i=1 i=1 X 1X ¯ = (x̄, ȳ) mit x̄ = 1 ~x xi und ȳ = yi . n n ¯, ~x1 , . . . , ~xn ). Dabei gilt Gleichheit, wenn ~x0 = Dann ist D(r, s, ~x0 , ~x1 , . . . , ~x4 ) ≥ D(r, s, ~x ¯ ¯ gehen muss. ~x. Das bedeutet, dass die Gerade, die D minimiert, durch ~x Beweis Sei w ~ = (w1 , . . . , wn ) gegeben mit wi = r(xi − x0 ) + s(yi − y0 ). Wir benutzen das Symbol k · k2pfür die euklidische Norm (Länge eines Vektors is der Einheitsbasis, Beispiel: k(x, y)k2 = x2 + y 2 ). Dann erhalten wir durch einsetzen D(r, s, ~x0 , ~x1 , . . . , ~xn ) = kwk ~ 22 . (r2 + s2 ) Sei außerdem ein Vektor ~z = (z1 , . . . , zn ) gegeben mit zi = r(xi − x̄) + s(yi − ȳ). Sei ~1 := (1, . . . , 1) ∈ Rn und h := r(x̄ − x0 ) + s(ȳ − y0 ). Dann gilt w ~ = ~z + h~1. 201 KAPITEL 10. ANWENDUNGEN 10.1. TOTAL LEAST SQUARES REGRESSION Es sind ~z und ~1 orthogonal, d.h. ~zT ~1 = 0, denn T~ ~z 1 = = n X i=1 n X zi 1 (r(xi − x̄) + s(yi − ȳ)) i=1 n X =r =r ((xi − x̄)) + s i=1 n X n X ((yi − ȳ)) i=1 ! xi − nx̄ +s n X i=1 ! yi − nȳ i=1 = r0 s0 = 0. Mit Hilfe diesen Eigenschaften erhalten wir 1 kwk ~ 22 + s2 1 = 2 k~z + h~1k22 r + s2 1 2 2 ~ 2 k~ z k + h k 1k = 2 2 2 r + s2 h2 1 2 k~ z k + = 2 2 r + s2 r2 + s2 D(r, s, ~x0 , ~x1 . . . , ~xn = r2 ¯, ~x1 , . . . , ~xn ) + = D(r, s, ~x h2 r2 + s2 ¯, ~x1 , . . . , ~xn ) ≥ D(r, s, ~x Wir kennen nun ein ~x0 , das D minimiert (Aufpunkt der Geraden). Es fehlen noch r, s (Normalenvektor, Steigung der Geraden). Lemma 10.1.4 Sei M ∈ Rn×2 definiert als x1 − x̄ y1 − ȳ .. M := ... . xn − x̄ yn − ȳ Sei außerdem ~t = √r21+s2 (r, s) ein Vektor der Länge 1. Sei f : R2 −→ Rn eine lineare Abbildung mit f (~t) = M ~t. Total Least Squares minimiert die Norm der linearen Abbildung f . 202 KAPITEL 10. ANWENDUNGEN 10.1. TOTAL LEAST SQUARES REGRESSION Beweis ¯, ~x1 , . . . , ~xn ) = D(r, s, ~x n X (r(xi − x̄) + s(yi − ȳ))2 r2 + s2 2 x1 − x̄ y1 − ȳ r .. √ 1 = ... . 2 + s2 s r xn − x̄ yn − ȳ 2 = kM ~tk22 i=1 Wir wissen jetzt, dass D minimal wird, wenn wir ~t so wählen, dass die Norm unserer “mittelwertfreien Datenmatrix” M multipliziert mit ~t minimal wird. Aber wie können wir das Minimum nun berechnen und damit die gesuchte Gerade finden? Satz 10.1.5 D wird minimal an jedem Eigenvektor ~t = Eigenwert der Matrix √ 1 (r, s) r2 +s2 zum kleinsten MT M. Beweis Wir wissen: M T M ∈ R2×2 ist symmetrisch und wegen alle Eigenwerte sind positiv. Über die Hauptachsentransformation finden wir also eine Orthonormalbasis (~u1 , ~u2 ) = U und zwei Eigenwerte σ12 ≥ σ22 . Diese entsprechen auh der SVD von M . Weil U eine orthogonale Matrix ist, verändert sich die Norm eines mit U abgebildeten Vektors nicht. Wir können also schreiben T D = kM ~tk22 = M~(t) M ~t = ~tT M T M ~t = ~tT U diag(σ12 , σ22 )U T ~t T = U ~t diag(σ12 , σ22 ) U T ~t 2 2 = σ12 U T ~t 1 + σ22 U T ~t 2 . Wir wissen durch Definition von ~t, dass kU T ~tk2 = k~tk2 = 1, also gilt 2 2 U T ~t 1 + U T ~t 2 = 1. 2 2 Ist ~t = ~u2 , dann wird σ12 U T ~t 1 + σ22 U T ~t 2 minimal, denn (i) ~t ist orthogonal zu ~u2 , also U T ~v2 2 1 = 0 und U T ~v2 2 2 = 1. (ii) σ22 ist der kleinere Eigenwert zum Eigenvektor ~u2 . Also ist D = kM~v2 k = σ12 0 + σ12 1 = σ22 . Damit wird D für ~t = ~u2 minimal. 203 KAPITEL 10. ANWENDUNGEN 10.1. TOTAL LEAST SQUARES REGRESSION Wir können nun im R2 0die Gerade finden, die die Summe der quadratischen Fehler D minimiert, indem wir den Mittelwert der “Punktwolke” als Aufpunkt und den Eigenvektor zum kleinsten Eigenwert von M T M als Richtungsvektor wählen. Funktioniert das auch in höheren Dimensionen > 2? 10.1.1. Total Least Squares im Rm Seien ~x1 , . . . , ~xn ∈ Rm mut ~xi = (xi1 , . . . , xim . Dann benutzen wir die Normalform der Ebenengleichung mit dem Normalenvektor ~r = (r1 , . . . , rm ) ∈ Rm mit dem Datenvektoren als ~rT · (~xi − ~x0 ) = 0. Wir minimieren die Summe der quadratischen Fehler als Abstand von den Daten zur (Hyper-)Ebene ~r als D(~r, ~x0 , ~x1 , . . . , ~xn ) = n X i=1 ~rT k~rk22 . (~xi − ~x0 ) ¯ (wie oben) als Wir definieren M ∈ Rm×n mit dem mittleren ~x ¯ x11 − x¯1 . . . x1m − x̄m ~x1 − ~x .. .. .. M := ... = . . . ¯ ~xn − ~x xn1 − x¯1 . . . qnm − x̄m Die Beweise funktionieren analog (nur mit mehr häßlichen Indizes). Gefunden wird so mit ¯ und den Eigenvektoren zum kleinsten Eigenwert eine Ausgleichsebene ( “Plane Fitting”). ~x 204