Mathematik für Informatiker 1 - Lehrstuhl Numerische Mathematik

Werbung
Mathematik für Informatiker 1
Eine Vorlesung von
Dr. Alexandra Köthe
Institut für angewandte Mathematik
Ruprecht-Karls-Universität Heidelberg
Version vom 26. Januar 2014
Inhaltsverzeichnis
Inhaltsverzeichnis
2
Vorwort
4
1 Einleitung
1.1 Was ist Mathematik? . . . . . . . . . . . . . . . . . . .
1.2 Was ist Informatik? . . . . . . . . . . . . . . . . . . .
1.3 Woher kommt die Informatik? . . . . . . . . . . . . . .
1.4 Warum muss ich als Informatiker Mathematik lernen?
1.5 Ziele der Vorlesung Mathematik für Informatiker . . .
1.6 Einige ermunternde Worte für Mathe-Anfänger . . . .
5
5
6
6
7
7
9
I
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Grundlagen
11
2 Grundlagen der mathematischen Logik
2.1 Aussagen und Quantoren . . . . . . . .
2.2 Verknüpfungen von Aussagen . . . . . .
2.2.1 Die Negation . . . . . . . . . . .
2.2.2 Zweiwertige Verknüpfungen . . .
2.3 Beweisarten . . . . . . . . . . . . . . . .
.
.
.
.
.
12
12
15
16
17
20
3 Grundlagen der Mengenlehre
3.1 Notation und Operationen auf Mengen . . . . . . . . . . . . . . . . . . . . .
3.2 Abbildungen zwischen Mengen . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
22
28
36
4 Algebraische Strukturen
4.1 Gruppen . . . . . . . . . .
4.2 Gruppenhomomorphismen
4.3 Ringe und Körper . . . .
4.4 Polynome . . . . . . . . .
.
.
.
.
39
39
42
44
46
.
.
.
.
.
.
50
50
53
60
62
63
67
5 Zahlenmengen
5.1 Die natürlichen Zahlen
5.2 Die ganzen Zahlen . .
5.3 Die rationalen Zahlen
5.4 Die reellen Zahlen . .
5.5 Die komplexen Zahlen
5.6 Restklassenringe . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
II Lineare Algebra
76
6 Vektorräume
77
6.1 Vektorräume und Untervektorräume . . . . . . . . . . . . . . . . . . . . . . 77
6.2 Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.3 Summen und direkte Summen . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7 Matrizen, LGS und lineare Abbildungen
7.1 Matrizen . . . . . . . . . . . . . . . . . . . .
7.2 Lineare Gleichungssysteme . . . . . . . . . .
7.3 Lineare Abbildungen . . . . . . . . . . . . .
7.4 Basiswechsel und Äquivalenz von Matrizen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
94
94
106
113
129
8 Determinanten und Diagonalisierbarkeit
144
8.1 Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
8.2 Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . . . . . 156
9 Bilinearformen, Skalarprodukte,
9.1 Bilinearformen . . . . . . . . .
9.2 Skalarprodukte . . . . . . . . .
9.3 Orthogonale Abbildungen . . .
9.4 Sebstadjungierte Abbildungen .
9.5 Die Singulärwertzerlegung . . .
Spektralsatz
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
168
168
178
184
188
194
10 Anwendungen
200
10.1 Total Least Squares Regression . . . . . . . . . . . . . . . . . . . . . . . . . 200
10.1.1 Total Least Squares im Rm . . . . . . . . . . . . . . . . . . . . . . . 204
Inhaltsverzeichnis
Inhaltsverzeichnis
Vorwort
Dieses Skript wurde erstellt um das Erarbeiten und Lernen des Stoffs der Vorlesung
“Mathematik für Informatiker 1” zu vereinfachen. Es gilt dabei zu beachten:
• Das Skript basiert auf dem Skript des letzten Jahres von Dr. Daniel Kondermann und
Dr. Martin Rheinländer. Einige Abschnitte wurden übernommen, andere überarbeitet,
wieder andere völlig neu erstellt. So ist ein nicht ganz einheitlicher Stil entstanden,
der im Laufe der Zeit hoffentlich immer mehr angeglichen wird.
• Manche Themen hier im Skript sind ausführlicher behandelt als in der Vorlesung.
Für die Klausur gilt: relevant ist alles, was in Übung und Vorlesung vorkam. Das
Skript soll helfen, eventuell fehlenden Mitschriften zu ergänzen.
• Das Skript ersetzt also auf keinen Fall die eigenen Mitschriften!
• Es gibt hunderte (wenn nicht tausende) von Tippfehlern! Wenn Ihnen beim Lesen
des Skripts welche auffallen, dann teilt sie mir bitte mit, insbesondere wenn durch
den Tippfehler, der Inhalt falsch wird!!
Grundsätzlich gilt für Skript und Vorlesung im Allgemeinen: Solltet ihr deshalb eigene
Beiträge, Fragen, Vorschläge oder Kritik haben: immer her damit! Je mehr ihr zu einer
gelungenen Vorlesung beitragt, desto befriedigender wird das Ergebnis für alle Beteiligten.
4
1. Einleitung – Was hat Mathematik mit
Informatik zu tun?
1.1. Was ist Mathematik?
Die Mathematik wird neben der Philosophie (und vielleicht auch der Medizin) als die
älteste Wissenschaft angesehen. Der Name Mathematik entstammt der griechischen Sprache
und hat eine sehr universelle Bedeutung, die weit über das hinausgeht, was heutzutage
unter Mathematik verstanden wird. Das griechische Wort μανθάνω beinhaltet so viel wie
Lernen, Erkennen vor allem durch Beobachtung und Nachdenken. Daraus leitet sich der
Begriff μαθηματικὴ τεχνή ab, was der Kunst des Lernens bzw. Erkennens (d.h. wie man
Erkenntnisse gewinnt) entspricht.
Als die Mathematik in Griechenland im Entstehen war, gab es weder etablierte Wissenschaften noch Universitäten als Orte des Lernens, wie in unserer Zeit. Wissen und
Erkenntnisse mussten erst einmal zu einem ansehnlichen Lehrgebäude aufgetürmt werden.
Das Lernen bestand in jenen Tagen im wesentlichen aus dem, was man durch eigene Erfahrung, Beobachtung und gedankliche Reflexion herausfinden konnte. Es war kein relativ
passiver Wissenskonsum wie heute, wo vielfach das Auswendiglernen gewisser Fakten im
Vordergrund steht, sondern es war eine Aktivität, ein Studium im Sinne einer Untersuchung
oder Analyse.
Während andere Völker wie die Babylonier und Ägypter es zwar bei einer beachtlichen
aber im wesentlichen doch rein praktisch orientierten Rechenkunst beließen, waren es
die Griechen, die als erste danach gesucht haben, mathematische Zusammenhänge und
Gesetzmäßigkeiten (vor allem aus der Geometrie) jenseits von Beispielen in allgemeingültiger
Weise zu begründen. Daraus ist die Beweiskultur der Mathematik enstanden, die Präzision
des Denkens, die nicht nur innerhalb der Mathematik von Nöten und von hohem Nutzem
ist. Ebenso waren es auch die Griechen, die gemerkt haben, daß man nicht umhin kommt,
bestimmte Aussagen nicht mehr weiter zu hinterfragen. Diese sind klar und deutlich
zu benennen, um darauf aufbauend mit umso strengerer logischer Argumentation neue
Aussagen herzuleiten.
Trotz ihrer inzwischen für eine einzelne Person kaum zu überschauende Auffächerung, versucht man die Mathematik oft eng abzugrenzen. Dennoch sind mathematische Methoden
und darauf beruhende Maschinen seit Jahrzehnten schon die Grundlage für den Erkenntnisgewinn in allen Wissenschaften, die jenseits von Spekulation und Meinungsäußerung
stehen. Somit ist die Mathematik der ursprünglichen Bedeutung ihres Namens bis heute
treu geblieben.
Neben dem vordergründigen Lehrstoff hoffen wir, daß es uns gelingt, in der Vorlesung
immer wieder die folgenden Aspekte mitschwingen zu lassen:
• Mathematik Lernen ist kein stumpfes Pauken sondern erfordert eine intensive, kritische Auseinandersetzung mit gewissen Fragestellungen.
• Genau darin liegt der Reiz, denn es macht Spaß, Zusammenhänge zu verstehen.
5
KAPITEL 1. EINLEITUNG
1.2. WAS IST INFORMATIK?
• Mathematik ist nützlich, man kann damit tolle Dinge machen insbesondere auch mit
Blick auf die Informatik.
• Mathematik ist das paradigmatische Warum-Fach, in dem man beispielhaft lernt
Dinge zu hinterfragen und zu begründen. Deshalb hilft Mathematik mittel- und
unmittelbar, sich andere Fächer besser zu erschließen.
Aber nicht nur die Griechen prägten die Grundzüge der modernen Mathematik. In Persien
schrieb ein Mathematiker aus Bagdad um das Jahr 820 ein Meisterwerk mit dem Titel
“Kita-b al-muchtasar fi hisab al-dschabr wa-l-muqabala”. Das Wort al-dschabr im Titel
wurde später ins lateinische als Algebra übersetzt. Der Name des Authors war Abu Dscha’far
Muhammad ibn Musa al-Chwarizmi. Sein Nachname al-Chwarizmi ist der Ursprung des
Begriffes Algorithmus. Ein Algorithmus ist eine Aneinanderreihung von Anweisungen, um
bereits vorliegende Eingabeinformationen umzuwandeln in Ausgabeformationen.
Als Informatiker wendet man Algorithmen an, indem man sie programmiert. Ein Computer
kann das so entstehende Programm ausführen, um Menschen die Arbeit zu erleichtern.
1.2. Was ist Informatik?
Informatik kann als modernes Teilgebiet der Mathematik verstanden werden: Sehr grob
zusammengefasst ist das Ziel der Informatik als Wissenschaft, Algorithmen zu entwerfen,
auf ihre Eigenschaften (wie Genauigkeit, Komplexität, usw.) zu untersuchen, Computer
(weiter-)zuentwickeln die man mit Algorithmen füttern kann, die Algorithmen möglichst
geschickt in Programmen zu implementieren, diese Programme gründlich zu testen und sie
bezüglich ihrer Eigenschaften wie z.B. Geschwindigkeit oder Bedienbarkeit zu optimieren.
1.3. Woher kommt die Informatik?
Entstanden ist die Informatik zu keinem bestimmten Zeitpunkt, denn sie hat sich nach und
nach aus verschiedenen anderen Wissenschaftlichen Disziplinen herauskristallisiert. Die
wichtigste Disziplin war wie gesagt die Mathematik - dicht gefolgt von den Ingenieuren, die
durch Anwendung der zugrundeliegenden mathematischen Prinzipien die ersten Computer
entwickelt haben. Man kann leicht streiten, welche Mathematiker gleichzeitig auch zu
den wichtigsten Informatikern gehören. Einer der bedeutensten Preise der Informatik in
Deutschland ist der Leibniz-Preis. Er wurde nach Gottfried Wilhelm Leibniz benannt,
wahrscheinlich weil dieser lange vor jedem Computer um 1700 das Binärsystem entwickelt
hat. Dieses System arbeitet ausschließlich mit zwei Werten (z.B. 0 und 1). Darauf basierend
entwickelte eine Weile später (1854) George Boole die Boolesche Algebra. Jedes digitale
Gerät auf dieser Welt benutzt diese Methode um Informationen (Daten) und Algorithmen
(Programme) elektronisch zu repräsentieren. Deshalb werden wir diese Algebra etwas
ausführlicher besprechen und parallel dazu auch gleich im Programmierkurs den Datentyp
bool kennen lernen.
Diese Entwicklung führte schon damals zum Wunsch, Algorithmen völlig automatisch
von Maschinen ausführen zu lassen. So stammt z.B. der Begriff etwas zu türken nicht
von vermeintlich betrügerischen Personen türkischer Herkunft, sondern von einem sehr
bekannten Betrug des ungarischen Erfinders Wolfgang von Kempelen. Dieser war zwar
weder Mathematiker noch Informatiker (er studierte Jura und Philosophie), aber er erfand
den sogenannten mechanischen Türken. Der mechanische Türke war ein Schachcomputer,
6
KAPITEL 1. EINLEITUNG
1.4. WARUM MUSS ICH ALS INFORMATIKER MATHEMATIK LERNEN?
der offenbar vollautomatisch so gut spielte, dass er die meisten Menschen besiegen konnte.
Erst etwa 50 Jahre später stellte sich heraus, dass sich in der Maschine versteckt ein echter
Mensch befand, der meistens ziemlich schacherfahren war.
Einer der wichtisten Mathematiker für die Informatik war Alan Mathison Turing (19121954). Turing hat viele bedeutende Beiträge für die Mathematik, die Informatik und sogar
die theoretische Biologie geleistet. Dass er 1953 eines der ersten wirklichen Schachprogramme
entwickelte, war vielleicht der unwichtigste davon. Er definierte den Turingtest, der festlegt,
unter welchen Kriterien man von einer echten künstlichen Intelligenz sprechen kann.
Im letzten Weltkrieg entzifferte er mit seinen Kollegen auch Nachrichten der deutschen
Verschlüsselungsmaschine Enigma. Der Turingpreis trägt seinem Namen ehre, denn es ist
so etwas wie der Nobel-Preis“ der Informatik. Mit seiner Turingmaschine legte er eine
”
wesentliche Grundlage der theoretischen Informatik. Sie ist der Stoff jeder Grundvorlesung
zu diesem Thema.
Claude Elwood Shannon sollte in dieser Liste ebenfalls genannt werden. Er war ebenfalls
Mathematiker; aber er studierte ebenfalls Elektrotechnik und war dadurch ein wichtiges
Bindeglied zur Entwicklung von elektrischen Maschinen, die mathematische Algorithmen
ausführen können. In seiner theoretischen Arbeit begründete er die Informationstheorie
und formulierte den fundamentalen Satz von Nyquist-Shannon (Abtasttheorem). Als
Elektrotechniker wandte er 1937 als erster die Boolesche Algebra in seiner Masterarbeit an,
indem er sie in elektronischen Schaltern (Relais) realisierte.
In dieser Zeit beschäftigte sich bereits eine Vielzahl von Ingenieuren (wie neben Shannon
z.B. auch George Stiblitz, John Atanasoff und Clifford Berry) mit der Entwicklung von
automatischen Rechenmaschinen. John von Neumann (1903-1957, ebenfalls Mathematiker)
setzte sich stark für deren Entwicklung ein und die nach ihm benannte von Neumann
Rechnerarchitektur ist nach wie vor aktuell. 1941 stellte schließlich Konrad Zuse den
weltweit ersten universell programmierbaren binären Digitalrechner namens Zuse Z3 vor
und begründete damit endgütltig das Informationszeitalter.
1.4. Warum muss ich als Informatiker Mathematik lernen?
Mathematiker wie Leibniz, Boole, Turing und Shannon haben Wissen dokumentiert,
das nach wie vor absolut unabdinglich ist, wenn man heute in irgendeinem Teilgebiet
der Informatik arbeiten möchte. Als Informatiker möchte man Algorithmen verstehen,
anwenden und evtl. auch selbst entwickeln. Um diese mathematischen Modelle zu verstehen,
muss man einerseits lernen, wie ein Mathematiker denkt und arbeitet; andererseits benötigt
man Wissen über die wichtigsten Grundlagen der Mathematik: lineare Algebra, Analysis
und - je nach späterer Spezialisierung - auch Statistik und Numerik. Dies ist die erste
Vorlesung zu diesem Thema.
1.5. Ziele der Vorlesung Mathematik für Informatiker
Informatiker haben eine besondere Sicht auf die Mathematik. Einerseits ist sie “nur” ein
Werkzeug; andererseits können neue Algorithmen oft nur entworfen werden, wenn man
sich sehr genau in der Mathematik auskennt. Da die Informatik aus so vielen und teilweise
stark unterschiedlichen Teildisziplinen besteht, ist es schwierig eine Vorlesung zu halten,
die allen gerecht wird. Wir wollen deshalb zwei unserer Meinung nach besonders wichtige
Aspekte betonen:
7
KAPITEL 1. EINLEITUNG
1.5. ZIELE DER VORLESUNG MATHEMATIK FÜR INFORMATIKER
Mathematisches Denken Wenn man neue Algorithmen entwirft oder auch nur existierende programmiert, muss man sich jedes Detail bewusst machen und verstehen. Ohne
diese Herangehensweise schleichen sich schnell Fehler in die Software ein (Bugs), die in der
Geschichte (wie zum Beispiel in der Raumfahrt) bereits mehrfach zum Tod der Anwender
der Software geführt hat. Die Mathematik ist besonders stark strukturiert und pflegt eine
strenge Vorgehensweise. Eine besondere Rolle haben hier Axiome, Definitionen, Sätze
(zentrale mathematische Aussagen) und deren Beweise. Diese Struktur findet man auch
(vereinfacht betrachtet) beim Programmieren wieder: Variablen und Funktionen müssen
deklariert und definiert werden; Sätze fassen logische Schlussfolgerungen zusammen, was
im Falle eines konstruktiven Beweises auch einem Algorithmus entspricht.
Logische Programmiersprachen wie Prolog werden sogar zur automatischen Beweisführung
eingesetzt und funktionale Sprachen wie Haskell basierend fast ausschließlich auf der
Anwendung von mathematischen Funktionsdefinitionen. Deshalb ist es enorm wichtig,
jedes Problem (jede Aufgabe) aus der Informatik zunächst genau zu definieren: was
sind die Eingaben, wie sollen Ausgaben aussehen? Wie funktioniert ganz konkret jeder
einzelner Schritt des Algorithmus? Um sich so präzise ausdrücken zu können, wie ein
Computer es erwartet, sollte man sich eine mathematische Denkweise aneignen. Ein
wichtiger Unterschied zur Mathematik ist jedoch, dass Mathematiker in der Regel versuchen,
ein Problem so abstrakt wie möglich zu formulieren, um alle betrachtetenden Fälle mit dem
gleichen theoretischen Unterbau betrachten zu können. Das reduziert die Schreibarbeit,
und verbindet zuvor scheinbar völlig unterschiedliche Gebiete. Wer hätte z.B. gedacht dass
die Primzahlzerlegung viel mit der Zerlegung eines Polynoms in seine irreduziblen Faktoren
zu tun hat?
Informatiker können es sich jedoch nicht leisten, ein Programm auf die abstraktest mögliche
Weise zu implementieren, weil eine abstrakte Formulierung des Problem oft Geschwindigkeitseinbußen bringt, den Code aufgrund der Komplexität schlecht wartbar macht und den
Anwender womöglich überfordert.
Deshalb ist es für Informatiker wichtig, den richtigen Abstraktionsgrad für das gegebene
Problem zu finden. Wir werden uns deshalb in dieser Vorlesung besonders darum bemühen,
einen Grad zu finden, der einerseits so abstrakt wie möglich ist, um viele Anwendungen zu
ermöglichen, aber andererseits so konkret wie möglich ist, um den Stoff verständlich und
übersichtlich zu gestalten.
Gründliche Motivationen Auch wenn während der Vorlesung selbst nicht immer genug
Zeit sein wird, um genau zu motivieren, was wir gerade erklären, welche Ziele wir damit
erreichen und welche Anwendungen in der Informatik zu jedem Einzelthema vorhanden
sind, wollen wir doch in den Übungen und hier im Skript darauf eingehen, warum der Stoff
für einen Informatiker so wichtig und auch interessant ist.
Dabei wollen wir einerseits illustrieren, welche Industrien oder auch konkrete Firmen sich
besonderns der erklärten Konzepte und Methoden bedienen. Andererseits wollen wir auch
immer wieder betonen, in welchen späteren Fächern des Studiums in Heidelberg der Stoff
als Grundlage benötigt wird.
Diese Herangehensweise soll auch dabei helfen zu entscheiden, ob man als Informatiker
lieber einen theoretischen, technischen oder praktischen Weg wählen möchte. Ist völlig klar,
dass die Karriere in die theoretische Richtung, also die Entwicklung von neuen Algorithmen
gehen soll (und damit in Forschung oder in die Anwendungen im wissenschaftlichen Rechnen
wie Maschinenlernen, Optimierung und zahlreichen Ingineursdisziplinen), empfehlen wir
besonders die Vorlesungen in der reinen Mathematik, wo die vollständige Abstraktion einen
8
KAPITEL 1. EINLEITUNG
1.6. EINIGE ERMUNTERNDE WORTE FÜR MATHE-ANFÄNGER
höheren Stellenwert hat.
1.6. Einige ermunternde Worte für Mathe-Anfänger
Schulmathematik unterscheidet sich stark von Unimathematik. Während man in der Schule
meistens ganz viel rechnet, haben an der Uni Beweise eine große Bedeutung. Da Beweise in
der Schule gerne mal als besonders schwer oder fortgeschritten dargestellt werden, erzeugt
das immer wieder Angst und Unsicherheit und die Frage: “Kann ich das?”
Der zuvor erwähnte John von Neumann soll einmal gesagt haben: “Mathematik kann man
nicht lernen, man muss sich daran gewöhnen.” Damit meint er wahrscheinlich, dass die
Denkweise nur erlernt werden kann, indem man immer wieder Definitionen versteht und
Sätze beweist - bis man sich daran gewöhnt hat. Es gibt angeblich sogar Forschungsergebnisse die gezeigt haben, dass sich die Struktur des Gehirns durch praktizierte Mathemtik
deutlich verändert! Das zu hören hätte Herrn Neumann mit Sicherheit gefreut.
Es ist hilfreich für die Beschäftigung mit dieser Vorlesung sie nicht als Fortsetzung des
Schulunterrichts, sondern als etwas Neues zu betrachten. Und wie bei einer neuer Sportart
oder einem neuen Musikinstrument kann es einiges an Zeit und Arbeit in Anspruch nehmen
bis man die Grundlagen verstanden hat und sicher beherrscht. Das ist völlig normal und
auch ihr werdet euch irgendwann wundern warum euch einiges am Anfang so schwer
gefallen ist.
Wir haben immer wieder festgestellt, dass starke Gefühle wie Frust das Erlernen der
Mathematik sehr erschweren können. Gerade wurde noch vom Dozenten verkündet, dass
der Stoff doch “trivial” sei und der schlaue Student von nebenan pflichtet dem auch noch
eifrig bei. Zu Hause sitzt man dann vor einer Aufgabe, versteht scheinbar gar nichts und
ist abwechselnd wütend und frustriert und fragt sich, ob der Dozent zu schlecht erklärt
oder ob man einfach nicht fähig ist diesen Kram zu verstehen.
Das Wichtigste in solchen Momenten ist es, einerseits irgendwie entspannt zu bleiben,
und trotzdem in der Lage zu sein, mit den Zähnen zu knirschen und den Stoff so lange
durchzukauen, bis man ihn verdaut hat. Wichtig ist sich zu erinnern, dass fast jeder
Informatiker auf der Welt einmal eine ähnliche Vorlesung wie diese gehört und die Klausur
bestanden hat! Deshalb ein paar Tipps:
• Jeder hat sein eigenes Tempo. Langsam im Verstehen zu sein bedeutet nicht, es gar
nicht zu können. Hat also der Nachbar bereits alles verstanden: ruhig bleiben und
weitermachen. Viele Wiederholungen des gleichen Denkprozesses helfen tatsächlich
nicht nur beim Auswendiglernen, sondern auch beim Nachvollziehen von logischen
Schlussfolgerungen.
• Jeder muss für sich selbst herausfinden, wie er am besten lernt. Es kann helfen
die Aufzeichnungen, das Skript oder ein Buch mehrfach zu lesen oder aber es ist
besser den Stoff abzuschreiben und zusammenzufassen. Oft hilft es unklare Gedanken
einfach auszusprechen um sie besser im Kopf sortieren zu können. Das geht natürlich
am besten mit anderen Studenten aus der Vorlesung, aber manchmal funktioniert es
auch, wenn ihr einfach eurem Mitbewohner sagt, was euch gerade durch den Kopf
geht.
• Es hilft sehr, das Gelernte gemeinsam zu diskutieren und auswendig zu lernen. Am
einfachsten geht das fast immer in kleinen Gruppen von zwei oder höchstens drei
9
KAPITEL 1. EINLEITUNG
1.6. EINIGE ERMUNTERNDE WORTE FÜR MATHE-ANFÄNGER
Leuten. Erklärt euch gegenseitig den Stoff, ihr werdet merken dass beide Seiten davon
profitieren.
• Beweise sind keine Zauberei. In den meisten Fällen - und insbesondere bei den
hier behandelten - bedeutet Beweisen lediglich das Einsätzen von zuvor behandelte
Definitionen. Die beste Herangehensweise könnte also tatsächlich sein, Sätze und
Definitionen gründlich auswendig zu lernen! Das kann jeder (mit unterschiedlichem
Zeitaufwand) und es erleichtert das Jonglieren mit den gelernten Begriffen später
enorm.
• Das Verstehen von Definitionen ist mal manchmal gar nicht so einfach. Hier hilft
ein Denken, das für Informatiker typisch ist: man versuche, sich möglichst viele
Fälle oder Situationen vorzustellen, bei denen die Definition erfüllt ist, und ganz
besonders wann sie nicht erfüllt ist. So finden Hacker zum Beispiel Sicherheitslücken.
Das ist ein kreativer Prozess, der gemeinsam viel Spaß machen kann. Manchmal
kann man sich auch als Abkürzung eine vereinfachte, intuitiv anschauliche Version
der Definition ausdenken. Wichtig ist nur, dass man beim späteren Anwenden der
Definition sich dann immer wieder daran erinnert, dass man im Kopf vielleicht gerade
nur die vereinfachte Arbeitsversion hat!
• In vielen mathematische Beweisen werden Aussagen in gleichbedeutende Aussagen
umformuliert. Dafür ist es hilfreich Formeln umzuschreiben um besser zu sehen
welche Aussage aus ihnen folgen. Nur ist es am Anfang nicht unbedingt klar, wie
man etwas geschickt umschreiben kann. Da hilft oft nur ausprobieren und die Tricks
zu verwenden, die mal jemand herausgefunden hat. Hier zwei einfache Beispiele, wie
man durch geschicktes Umschreiben etwas schneller ausrechnen kann:
1. Wir wollen 27 · 33 ausrechnen. Dafür schreiben wir 27 · 33 = (30 − 3) · (30 + 3)
und verwenden jetzt die 3. binomische Formel und erhalten 30 · 30 − 3 · 3 =
900 − 9 = 891.
2. Um die Summe der ersten 100 Zahlen zu berechnen, hat schon der junge Gauss
festgestellt, dass es einfacher ist, wenn man die Zahlen umsortiert. So ergibt
1 + 100 = 2 + 99 = 3 + 98 = · · · = 101, da wir genau 50 solcher Summen haben,
ist 1 + 2 + 3 + · · · + 98 + 99 + 100 = 50 · 101 = 5050.
• Mathematik kann man in den meisten Fällen nicht nur “mal so grob” verstehen.
Wie in der Informatik muss man jedes Detail verstehen, um eine Chance zu haben,
das gesamte System zu verstehen. Taucht also ein Beweis auf und man kommt an
einem Schritt an, den man einfach nicht versteht, hilft es selten bis nie, diesen
Schritt einfach “in den Skat zu drücken” und zu überspringen. Der Rest des Beweises
wird wahrscheinlich auch nur noch wenig Sinn ergeben. Hier sind Geduld, Disziplin
und Ausdauer gefragt! Es hilft sehr, anderen sein Problem zu erklären und ganz
konkrete Fragen zu formulieren und nochmal die vorher besprochenen Definitionen
nachzuschlagen. Es ist aber auch nicht falsch, den Schritt beim ersten Durchgang zu
überspringen, damit man ein Gefühl dafür bekommt, was man noch vor sich hat.
10
Teil I.
Grundlagen
11
2. Grundlagen der mathematischen Logik
Wie in vielen anderen Wissenschaften so ist man auch in der Mathematik ständig mit
Sätzen in der Form von Behauptungen und Vermutungen konfrontiert, deren Wahrheitsgehalt festzustellen ist. Im Unterschied zu experimentellen, empirischen oder investigativen
Wissenschaften erfolgt die Überprüfung in der Mathematik meist anhand einer Argumentationskette, die entweder die Gültigkeit der fraglichen Aussage belegt (beweist, verifiziert)
oder widerlegt (falsifiziert). Eine solche Argumentationskette wird als Beweis bezeichnet,
wenn sie streng nach den Regeln der formalen Logik durchgeführt wird und sich nur auf
bereits gesicherte Aussagen stützt.
Aus diesem Grunde ist es geboten, sich mit den Regeln der Logik vertraut zu machen,
bevor man sich ernsthaft mit Mathematik beschäftigen kann. Die formale Logik ist jedoch
keineswegs nur ein mehr oder weniger lästiges, aber unentbehrliches Vorgeplänkel sondern
bereits selbst eine mathematische Disziplin mit dem Teilgebiet der Schaltalgebra als einer
wesentlichen theoretischen Grundlage für die Funktionsprinzipien von Computern.
2.1. Aussagen und Quantoren
Definition 2.1.1 Eine Aussage ist ein Satz von dem man eindeutig entscheiden kann,
ob er wahr oder falsch ist.
Einer wahren Aussage wird der Wahrheitswert “wahr” = w = “true”= 1 zugeordnet,
einer falschen Aussage wird der Wahrheitswert “falsch”= f = “false”= 0 zugeordnet.
In der gesprochenen und geschriebenen Sprache gibt es Sätze, die keine Aussagen sind; dazu
gehören vor allem Fragen, Meinungsäußerungen, Befehle, Aufforderungen, Wünsche und
Klageausrufe. Darüberhinaus gibt es aber auch aussageähnliche Sätze, denen aus verschiedenen Gründen nicht in eindeutiger oder sinnvoller Weise einer der beiden Wahrheitswerte
zugeordent werden kann.
Das Zweiwertigkeitsprinzip, dh. die Beschränkung auf das, was sich in sinnvoller und eindeutiger Weise als wahr oder falsch qualifizieren lässt, bzw. das Prinzip vom ausgeschlossenen
Dritten stellt daher eine erheblich vereinfachende bzw. einschränkende Reduktion der
Realität dar, die aber erstaunlicherweise für fast die gesamte Mathematik und viele andere
Wissenschaften völlig ausreichend ist.
Beispiel 2.1.2 Handelt es sich bei den folgenden Sätzen um Aussagen?
1. Heidelberg ist die Hauptstadt von Deutschland.
2. 1 + 5 = 6
3. Guten Morgen!
4. Heute ist Dienstag.
12
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.1. AUSSAGEN UND QUANTOREN
Antwort:
1. ja, dies ist eine falsche Aussage
2. ja, dies ist eine wahre Aussage
3. nein, dies ist eine Begrüßungsformel, die zwar korrekt oder inkorrekt verwendet
werden kann, aber man kann ihr keinen Wahrheitswert zuordnen.
4. Wenn klar ist, was heute für ein Wochentag ist, dann ist es eine Aussage. Sonst ist
dieser Satz eine Aussageform.
Bemerkung 2.1.3 Trotz ihrer enormen Leistungsfähigkeit kann man mit der zweiwertigen Logik schnell an Grenzen stoßen. Ein Beispiel dafür stellen die sogenannten
Antinomien dar. Darunter versteht man Sätze, die durch eine raffinierte Rückbezüglichkeit
widersinnig sind. Hier zur Illustration zwei Klassiker:
(i) In der Stadt schneidet der Barbier jedem Mann den Bart, der sich ihn nicht selbst
schneidet.
(ii) Ein Kreter sagt: Alle Kreter sind Lügner.
Im ersten Fall läßt sich nicht entscheiden, ob der Barbier sich selbst rasiert oder nicht.
Denn wenn er zu den Männern zählt, die sich nicht selbst den Bart stutzen, dann müßte
er die Dienste des Barbiers in Anspruch nehmen, sich also doch selbst den Bart schneiden.
Startet man jedoch mit der Annahme, daß sich der Barbier den Bart selbst schneidet, so
ergibt sich kein Widerspruch.
Ebensowenig läßt sich im zweiten Fall entscheiden, ob nun alle Kreter Lügner sind oder
nicht. Denn wenn tatsächlich alle Kreter Lügner wären, dann auch derjenige, welcher
genau dieses behauptet. Da dieser Kreter dann die Unwahrheit spräche, ist die Aussage
gelogen ergo falsch, d.h. es gäbe auch ehrliche Kreter. Auch gilt, daß sich aus der
umgekehrten Annahme (nicht alle Kreter sind Lügner) kein Widerspruch entwickelt.
Bemerkung 2.1.4 Es sei noch angemerkt, daß der österreichische Logiker Kurt Gödel
(1906-1978) mit seinem Unvollständigkeitssatz bewiesen hat, daß praktisch in jeder Theorie Behauptungen bzw. Sätze formuliert werden können, die prinzipiell nicht beweisbar
bzw. entscheidbar sind.
Definition 2.1.5 Ersetzt man in einer Aussage a eine Konstante durch eine Variable x,
so entsteht eine Aussageform a(x).
Für einen festgewählte Wert von x kann der Wahrheitswert von a(x) bestimmt werden.
13
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.1. AUSSAGEN UND QUANTOREN
Beispiel 2.1.6 a(x) : x > 50 ist eine Aussageform mit der Variablen x. Setzen wir für
x Zahlen ein, so erhalten wir Aussagen, z. B.
a(100) : 100 > 50 ist eine wahre Aussage und
a(10) : 10 > 50 ist eine falsche Aussage.
Mithilfe von sogenannten Quantoren, können wir aus einer Aussageform wieder eine Aussage
machen.
Definition 2.1.7 Sei a(x) eine Aussageform.
• Die Aussage “Für alle x (aus einer vorgegebenen Menge) gilt a(x)” ist genau
dann wahr, wenn a(x) für alle in Frage kommenden x wahr ist. Dies ist eine
ALL-Aussage und wir schreiben abkürzend
∀x : a(x).
∀ ist der Allquantor und wird “für alle” gelesen.
• Die Aussage “Es gibt ein x (aus einer vorgegebenen Menge) so dass a(x)” ist genau
dann wahr, wenn a(x) für mindestens ein in Frage kommendes x wahr ist. Dies ist
eine EXISTENZ-Aussage und wir schreiben abkürzend
∃x : a(x).
∃ ist der Existenzquantor und wird “es gibt” oder “es existiert” gelesen.
• Die Aussage “Es gibt genau ein x (aus einer vorgegebenen Menge) so dass a(x)”
ist genau dann wahr, wenn a(x) für genau ein in Frage kommendes x wahr ist. Wir
schreiben abkürzend
∃!x : a(x).
Quantoren werden spielen in der Mathematik eine wichtige Rolle um Aussagen kurz und
präzise zu formulieren. Dabei ist zu beachten, dass die Reihenfolge der Quantoren eine
Rolle spielt.
Beispiel 2.1.8
• ∀x ∈ N : x + 1 > x ist eine wahre Aussage.
• ∀x ∈ N : x2 = 25 ist eine falsche Aussage, da sie z. B. für x = 1 nicht stimmt.
• ∃x ∈ N : x2 = 25 ist eine wahre Aussage, da 52 = 25.
• ∃x ∈ Z : x2 = 25 ist eine wahre Aussage, da 52 = 25.
• ∃!x ∈ Z : x2 = 25 ist eine falsche Aussage, da 52 = 25 und (−5)2 = 25.
Für den Nachweis eine Allaussage ist also zu prüfen, ob sie für alle in Frage kommenden x
(das können unendlich viele sein) richtig ist. Für die Widerlegung einer Allaussage hingegen
genügt ein Element x, für das die Aussage a(x) falsch ist.
14
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.2. VERKNÜPFUNGEN VON AUSSAGEN
Für den Nachweis einer Existenzaussage genügt ein x für das a(x) richtig ist. Zur Widerlegung einer Existenzaussage hingegen muss für alle in Frage kommenden x geprüft werden,
ob a(x) falsch ist.
2.2. Verknüpfungen von Aussagen
Das Anliegen der Aussagenlogik ist es, die Regeln des Argumentierens und Schlußfolgerns
auf eine solide Basis zu stellen, ihnen eine Form zu geben, sie zu formalisieren. Da Argumentationsstrukturen nicht an den Inhalt gebunden sondern allein durch die Logik
vorgegeben sind, beschäftigt sich die Aussagenlogik mit Aussagen von einem rein formalen
Standpunkt aus, der sowohl den sprachlichen Aufbau (Syntax) einer Aussage als auch ihre
inhaltliche Bedeutung (Semantik) außer Acht läßt. Eine Aussage ist dann nichts anderes
als der Träger eines Wahrheitswertes. Daher identifizieren wir Aussagen mit sogenannten
logischen Variablen, welche wir etwas mißverständlich auch Aussagevariablen1 nennen,
obwohl sie weniger für Aussagen selbst als vielmehr für ihre Wahrheitswerte stehen. Eine
Aussagenvariable a ist also nicht Element der Menge aller Aussagen sondern es gilt lediglich
a ∈ {wahr, falsch} ≡ {0, 1}. Gegenstand der Aussagenlogik ist zunächst die Beantwortung
der beiden folgenden, eng zusammenhängenden Fragen:
• Wie lassen sich aus gegebenen (Elementar)Aussagen a, b, c, . . . neue Aussagen gewinnen, d.h. welche Verknüpfungsmöglichkeiten gibt es überhaupt?
• Wie hängt der Wahrheitswert der zusammengesetzten Aussage von den Wahrheitswerten der Elementaraussagen ab?
Die verschiedenen Verknüpfungsmöglichkeiten von Aussagen, welche wir weiter unten
behandeln, werden auf der Ebene der Aussagevariablen durch Verknüpfungszeichen oder
Junktoren bzw. logische Operatoren angedeutet.
Definition 2.2.1
• Eine Aussagevariable ist eine Variable a die nur die Werte 0
oder 1 annehmen kann.
• Ein logischer Ausdruck (eine aussagenlogische Formel) ist eine Aneinanderreihung von Aussagevariablen und Junktoren.
• Enthält ein logischer Ausdruck n verschiedene Aussagevariablen, dann definiert er
einen Funktion (Logikfunktion) von {0, 1}n → {0, 1}, diese wird auch als n-stellige
Verknüpfung bezeichnet.
1
Korrekter wäre es von Wahrheitswertvariablen zu sprechen, denn die Variablen übernehmen nur den
Wahrheitswert nicht aber den Inhalt einer Aussage. So ist im Sinne der Aussagenlogik die Zuweisung
a = Alle Fische können fliegen.
gleichbedeutend mit a = 0, da die Aussage “Alle Fische können fliegen” bekanntermaßen falsch ist. Man
kann den Satz als eine etwas längliche, alternative Bezeichnungsweise für falsch betrachten. Alternative
Schreibweise: a wirklich als Platzhalter für Aussage betrachten und nicht a = 0 sondern w(a) = 0
schreiben.
15
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.2. VERKNÜPFUNGEN VON AUSSAGEN
2.2.1. Die Negation
Betrachten wir zunächst eine einzelne Aussage a. Da a nichts weiter ist als eine Variable
mit dem Wahrheitswert 0 oder 1, gibt es nur eine Möglichkeit, aus a “etwas Neues” zu
schaffen, nämlich den Wert von a zu invertieren bzw. zu negieren.
Definition 2.2.2 Die Verneinung (Negation) einer Aussage a ist genau dann wahr,
wenn a falsch ist. Wir schreiben ¬a für die Verneinung von a und lesen “nicht a” oder
“es trifft nicht zu, dass a”.
Dies kann mithilfe einer Wahrheitstabelle ausgedrückt werden:
a ¬a
0 1
1 0
Beispiel 2.2.3 Wir betrachten folgende Aussagen:
1. Der Tank ist voll.
2. 1 + 3 = 6
3. 7 < 10
und ihre Verneinung:
1. Der Tank ist nicht voll.
2. 1 + 3 6= 6
3. 7 ≥ 10
Wie man leicht der Defintion des Negationsoperators ¬ entnimmt, liefert die doppelte
Verneinung die ursprüngliche Aussage zurück. Es gilt also
¬(¬a) = a .
Man kann ¬ als eine spezielle logische Funktion auf der Menge der möglichen Wahrheitswerte, d.h. auf der Menge {0, 1}, auffassen. Wieviele verschiedene logische Funktionen gibt
es eigentlich auf {0, 1}? Eine kurze Überlegung zeigt, daß genau vier Funktionen existieren,
die in der Tabelle
A ¬1 ¬2 ¬3 ¬4
0 0
0
1
1
1 0
1
0
1
dargestellt sind. Neben der Negation ¬3 = ¬ gibt es nur noch die “langweilige” Identität
¬2 und die beiden konstanten Funktionen ¬1 und ¬4 .
Neben der Aussagenlogik, benötigen wir in der Mathematik auch die Prädikatenlogik,
die eine Erweiterung der Aussagenlogik darstellt. Um Aussagen in der Prädikatenlogik
formulieren zu können, benötigen wir den Existenz- und den Allquantor.
16
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.2. VERKNÜPFUNGEN VON AUSSAGEN
Für die Verneinung von Existenz- und Allaussagen müssen wir besonders aufpassen, da sie
in der Umgangssprache nicht immer formal korrekt verwendet werden.
Satz 2.2.4 Durch die Verneinung einer All-Aussage entsteht eine Existenz-Aussage und
umgekehrt. Es gilt:
¬ ∀x : a(x) = ∃x : ¬a(x)
¬ ∃x : a(x) = ∀x : ¬a(x)
Beispiel 2.2.5 Wir betrachten folgende Aussagen
1. Alle Menschen mögen Mathe,
2. ∀x : x > 0,
3. ∃x : x2 + 1 = 0.
und ihre Verneinungen
1. Es gibt einen Menschen, der nicht Mathe mag,
2. ∃x : x ≤ 0,
3. ∀x : x2 + 1 6= 0.
2.2.2. Zweiwertige Verknüpfungen
Im nächsten Schritt wollen wir zwei von einander unabhängige Aussagen zu einer Neuen
verknüpfen und deren Wahrheitswert bestimmen. Auf diese Weise erhalten wir zweiwertige
(binäre) Verknüpfungen. Insgesamt gibt es davon 16:
A B
1 1
1 0
0 1
0 0
∗1
0
0
0
0
∗2 ∗3 ∗4 ∗5
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
∗6 ∗7 ∗8
1 0 0
1 1 1
0 1 0
0 0 1
∗9
1
1
1
1
∗10 ∗11 ∗12 ∗13
0
1
1
1
1
0
1
1
1
1
0
1
1
1
1
0
∗14 ∗15 ∗16
0
1
1
0
0
0
1
0
1
1
1
0
Die sechzehn logischen Verknüpfungen sind nicht unabhängig voneinander. Ist ? eine der
sechzehn logischen Verknüpfungen, dann definiert ¬(A?B) eine andere logische Verknüpfung,
welche sich ebenfalls unter den sechzehn befinden muß. Auf diese Weise sieht man, daß
nicht wirklich sechzehn Verknüpfungen zu unterscheiden sind sondern lediglich nur acht,
weil sich die restlichen acht dann als Verneinung ergeben. So gilt für alle k ∈ {1, ..., 8}
A ∗8+k B = ¬(A ∗8 B) .
Wir wollen hier den wichtigsten zweiwertigen Verknüpfungen einen Namen geben.
17
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.2. VERKNÜPFUNGEN VON AUSSAGEN
Definition 2.2.6
• Die UND-Verknüpfung (Konjuktion) zweier Aussagen a und b
ist eine Aussage, die genau dann wahr ist, wenn beide Aussagen wahr sind. Wir
schreiben a ∧ b und lesen “a und b”.
• Die ODER-Verknüpfung (Disjuktion) zweier Aussagen a und b ist eine Aussage, die
genau dann wahr ist, wenn mindestens eine der Aussagen wahr sind. Wir schreiben
a ∨ b und lesen “a oder b”.
• Das ausschließende Oder (eXclusive OR) zweier Aussagen a und b ist eine Aussage,
die genau dann wahr ist, wenn entweder a oder b (aber nicht a und b) wahr ist.
Wir schreiben a xor b und lesen “entweder a oder b”.
Die Wahrheitstabelle dieser Verknüpfungen ist die folgende:
a
1
1
0
0
b a ∧ b a ∨ b a xor b
1
1
1
0
0
0
1
1
1
0
1
1
0
0
0
0
In der Umgangssprache benutzen wir meistens das Wort “oder” im ausschließenden Sinn,
während in der Mathematik häufiger das einschließende oder ∨ verwendet wird.
Definition 2.2.7 Die WENN-DANN-Verknüpfung (Subjunktion) a −→ b, die “wenn
a, dann b” gelesen wird, und die GENAU-DANN-WENN-Verknüpfung (Bijunktion)
a ←→ b, die “a genau dann, wenn b” gelesen wird, von zwei Aussagen sind durch
folgende Wahrheitstabellen definiert:
a
1
1
0
0
b a −→ b a ←→ b
1
1
1
0
0
0
1
1
0
0
1
1
Definition 2.2.8
• Ist die verknüpfte Aussage a → b wahr, so spricht man von
einem logischen Schluß (Implikation) und schreibt
a ⇒ b.
Wir sagen dann “aus a folgt b”, “a impliziert b”, “wenn a, dann b”, “a ist hinreichend
für b” oder b ist notwendig für a.
• Wenn die verknüpfte Aussage a ←→ b wahr ist, dann spricht man von Äquivalenz
und schreibt
a ⇔ b.
Mithilfe der Äquivalenz lassen sich die Rechenregeln für andere Verknüpfungen formulieren.
18
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.2. VERKNÜPFUNGEN VON AUSSAGEN
Satz 2.2.9 Für die UND- sowie die ODER-Verknüpfung gelten das Kommutativgesetz
a∧b ⇔ b∧a
a ∨ b ⇔ b ∨ a,
das Assoziativgesetz:
a ∧ (b ∧ c) ⇔ (a ∧ b) ∧ c
a ∨ (b ∨ c) ⇔ (a ∨ b) ∨ c
und das Distributivgesetz:
a ∧ (b ∨ c) ⇔ (a ∧ b) ∨ (a ∧ c)
a ∨ (b ∧ c) ⇔ (a ∨ b) ∧ (a ∨ c)
Beweis. Wir können den Wahrheitsgehalt dieser Aussagen mittels Wahrheitstabellen
überprüfen.
Die GENAU-DANN-WENN-Verknüpfung zweier Aussagen ist genau dann wahr, wenn
entweder beide Aussagen wahr sind oder wenn beide Aussagen falsch sind. Somit müssen
wir prüfen, ob die Einträge in der Wahrheitstabelle für den Ausdruck auf der rechten Seite
des Äquivalenzpfeils gleich der Tabelle für den Ausdruck auf der linken Seite ist.
Wir zeigen hier exemplarisch das erste Distributivgesetz:
a
1
1
1
1
0
0
0
0
b
1
1
0
0
1
1
0
0
c b ∨ c a ∧ (b ∨ c)
1
1
1
0
1
1
1
1
1
0
0
0
1
1
0
0
1
0
1
1
0
0
0
0
a
1
1
1
1
0
0
0
0
b
1
1
0
0
1
1
0
0
c a ∧ b a ∧ c (a ∧ b) ∨ (a ∧ c)
1
1
1
1
0
1
0
1
1
0
1
1
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
Konvention: Die Verneinung ¬ bindet stärker als ∧ und ∨. Das heißt, der Ausdruck ¬a ∧ b
ist gleichbedeutend mit (¬a) ∧ b und nicht mit ¬(a ∧ b).
Einen Zusammenhang zwischen Verneinung und der UND und ODER- Verknüpfung liefern
die De Morganschen Gesetze.
Satz 2.2.10 Es gelten die de Morganschen Gesetze:
¬(a ∧ b) ⇔ ¬a ∨ ¬b
¬(a ∨ b) ⇔ ¬a ∧ ¬b,
19
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.3. BEWEISARTEN
Beweis. Der Beweis funktioniert genauso wie der zu Satz 2.2.9. Wir zeigen hier die Wahrheitstabellen zur zweiten Regel.
a
1
1
0
0
b a ∨ b ¬(a ∨ b)
1
1
0
0
1
0
1
1
0
0
0
1
a
1
1
0
0
b ¬a ¬b ¬a ∧ ¬b
1 0
0
0
0 0
1
0
1 1
0
0
0 1
1
1
Definition 2.2.11 Eine Tautologie ist ein logischer Ausdruck, der immer wahr ist. Eine
Kontradiktion ist ein logischer Ausdruck, der immer falsch ist.
Beispiel 2.2.12
• a ∨ ¬a ist eine Tautologie.
• Die Verwendung des Äquivalenzpfeils ⇔ in den letzten zwei Sätzen besagt gerade
dass die verknüpfte Aussage wahr ist, und daher ist zum Beispiel ¬(a ∧ b) ←→
¬a ∨ ¬b eine Tautologie.
2.3. Beweisarten
Satz 2.3.1 Für zwei beliebige Aussagen a, b gilt:
a) (a −→ b) ←→ (¬b −→ ¬a) ist eine Tautologie
b) (a −→ b) ←→ ¬(a ∧ ¬b) ist eine Tautologie
Beweis.
a
0
1
0
1
b a −→ b
0
1
0
0
1
1
1
1
a
0
1
0
1
b ¬a ¬b ¬b −→ ¬a
0 1
1
1
0 0
1
0
1 1
0
1
1 0
0
1
a
0
1
0
1
b ¬b a ∧ ¬b ¬(a ∧ ¬b)
0 1
0
1
0 1
1
0
1 0
0
1
1 0
0
1
Satz 2.3.2 (a −→ b) ∧ (b −→ a) ←→ (a ←→ b) ist eine Tautologie.
• direkter Beweis a ⇒ b
• indirekter Beweis ¬b ⇒ ¬a
• Beweis durch Widerspruch: ¬b ∧ a ist eine Kontradiktion.
20
KAPITEL 2. GRUNDLAGEN DER MATHEMATISCHEN LOGIK
2.3. BEWEISARTEN
Beispiel 2.3.3 Seien x, y > 0 reelle Zahlen. Wir betrachten die Aussagen
a : x2 > y 2
b: x>y
und wollen zeigen, dass aus Aussage a die Aussage b folgt.
Wir dürfen dabei folgende Rechenregeln verwenden, wobei x, y, z reelle Zahlen sind:
i) die Rechengesetze der Addition und Multiplikation in den reellen Zahlen
ii) Wenn z > 0 dann gilt: x < y ⇒ x · z < y · z
iii) x < y ⇒ x + z < y + z
iv) x < y und y < z impliziert x < z.
direkter Beweis
x2 > y 2
iii)
⇒
ii)
⇒
iii)
⇒
x2 − y 2 > 0
i)
⇒ (x − y)(x + y) > 0
1
1
i)
(x − y)(x + y)
>0·
⇒ x−y >0
x+y
x+y
x>y
indirekter Beweis Zunächst müssen die Aussage a und b negiert werden
¬a : x2 ≤ y 2
¬b : x ≤ y
Nun gilt
x≤y
ii)
⇒
xx ≤ xy
und xy ≤ yy
iv)
⇒
x2 ≤ y 2
Beweis durch Widerspruch
21
3. Grundlagen der Mengenlehre
In diesem Kapitel ist das Ziel zu lernen, mit Mengen zu jonglieren und auch komplizierte
Mengen formal und kompakt aufzuschreiben. Die Symbole, die wir dafür verwenden, kann
man fast wie eine Programmiersprache verstehen. Ganz genau wie bei Programmiersprachen
muss man diese Symbole erst einmal mühsam lesen und schreiben lernen, bevor man wirklich
in der Lage ist, von der formalen, knappen Schreibweise zu profitieren. Deshalb ist es in
diesem Kapitel besonders wichtig darauf zu achten, die Symbole schlicht und ergreifend
auswendig zu lernen und darauf zu vertrauen, dass dies einem später die Arbeit mit
komplexerer Mathematik sehr erleichtert.
3.1. Notation und Operationen auf Mengen
Eine Menge wurde im Jahr 1895 in Halle von Georg Cantor(1845-1918), dem Begründer
der Mengenlehre so definiert:
Definition 3.1.1 Eine Menge ist eine Zusammenfassung von bestimmten und wohlunterschiedenen Objekten unserer Anschauung oder unseren Denkens zu einem Ganzen.
Die Objekte einer Menge heißen Elemente.
Bemerkung 3.1.2 Formal korrekt wird die Mengenlehre durch ein System von 10
Axiomen, die Zermelo-Fraenkel-Axiome, begründet. Uns soll hier aber die einfachere
Definition von Cantor genügen.
Um leichter mit Mengen arbeiten zu können, hat man sich auf einen Satz von Begriffen
und Symbolen geeinigt:
Notation 3.1.3
• Wir bezeichnen Mengen mit einfachen Großbuchstaben.
• Wenn a ein Element der Menge M ist, schreiben wir a ∈ M .
• Wenn a kein Element der Menge M ist, schreiben wir a ∈
/ M , dies entspricht der
Negation ¬(a ∈ M ).
Notation 3.1.4 Die Elemente einer Menge werden zusammengefasst mit geschweiften
Klammern. Dabei haben wir verschiedene Möglichkeiten Mengen anzugeben:
• durch direktes Hinschreiben der Elemente, z. B. M = {1, 3, 5}.
22
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.1. NOTATION UND OPERATIONEN AUF MENGEN
• durch die Angabe von Eigenschaften, z. B. M = {n ∈ N | n < 6 ∧ n ist ungerade}
das sind alle natürlichen Zahlen, die kleiner als 6 und ungerade sind. (alternativ
kann auch ein Doppelpunkt, statt des Strichs | verwendet werden: M = {n ∈ N :
n < 6 ∧ n ist ungerade})
Dabei ist zu beachten:
• Jedes Element einer Menge wird nur einmal gezählt, z. B. gilt {1, 1, 2} = {1, 2}.
Deshalb schreibt man jedes Element nur einmal in eine Menge.
• Die Reihenfolge der Elemente spielt keine Rolle, z. B. {1, 2, 3} = {3, 2, 1} = {1, 3, 2}
Beispiel 3.1.5 Einige wichtige Mengen:
• die leere Menge, die kein Element enthält ∅ = {}.
• N = {0, 1, 2, . . . } die natürlichen Zahlen.
• Z = {. . . , −2, −1, 0, 1, 2, . . . die ganzen Zahlen.
• Q = { ab | a ∈ Z, b ∈ N, b > 0} die rationalen Zahlen.
• R die reellen Zahlen.
All diese Regeln für Mengen sind in vielen Programmiersprachen bereits implementiert.
Wir werden zum Beispiel gegen Ende des Programmierkurses ein C++-Objekt mit dem
Namen set (englisch für Menge) kennenlernen. Fügt man dort ein neues Element in eine
bestehende Menge ein und dieses Element liegt bereits in der Menge, wird das Einfügen
abgebrochen. Dieses Verhalten folgt der Regel nach der jedes Element nur einmal in einer
Menge enthalten sein darf.
Mengen und die nun folgenden Operationen auf Mengen spielen insbesondere in der
theoretischen Informatik und z.B. für Datenbanksysteme eine sehr große Rolle. Es ist
sinnvoll mit den Kurzschreibweisen zunächst stur auswendig zu lernen, um sie anschließend
immer zu verwenden, wenn sich etwas durch Mengen ausdrücken lässt. Das Umsetzen
der natürlichen Sprache in die Mengenschreibweise ähnelt sehr stark dem Programmieren,
spart Zeit beim Schreiben und ermöglicht (mit etwas Übung) das Erfassen der Elemente
einer Menge auf einen Blick.
Definition 3.1.6 Die Anzahl der Elemente einer Menge nennt man ihre Mächtigkeit
(oder Kardinalität) und schreibt #M (oder |M |).
Eine endliche Menge M ist eine Menge mit endlicher Mächtigkeit #M < ∞.
Wir können also endliche Menge dadurch unterscheiden, wie viele Elemente sie haben. Aber
es gibt auch bei Mengen mit unendlich vielen Elementen verschiedene Kardinalitäten.
Definition 3.1.7
• Seien A und B Mengen. Dann heißt A Teilmenge von B genau
dann, wenn jedes Element von A auch in B liegt, d.h. wenn gilt ∀x : x ∈ A ⇒ x ∈ B.
Wir schreiben A ⊆ B und nennen dies eine Inklusion.
23
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.1. NOTATION UND OPERATIONEN AUF MENGEN
• Wenn A ⊆ B und B ⊆ A, dann sind A und B gleich, d. h. sie enthalten diesselben
Elemente und wir schreiben A = B.
• Ist A eine echte Teilmenge von B, d. h. ist A ⊆ B und A 6= B, dann schreiben
wir A ( B.
Der zweite Punkt ist zum Beweisen von Mengengleichheiten besonders wichtig. Um zu
zeigen, dass zwei Mengen gleich sind, muss gezeigt werden, dass sie jeweils Teilmenge der
anderen sind. Man sagt es müssen beide Inklusionen A ⊆ B und B ⊆ A gezeigt werden.
Beispiel 3.1.8
• Für alle Mengen A gilt ∅ ⊆ A und A ⊆ A.
• {2, 5} ( {2, 3, 4, 5}
• N(Z(Q(R
Proposition 3.1.9 Seien A, B Mengen. Wenn A ⊆ B, dann gilt #A ≤ #B.
Beweis. Da jedes Element aus A auch in B liegt, muss B mindestens so viele Elemente
wie A besitzen.
Definition 3.1.10 Die Menge P (A) = {M | M ⊂ A} heißt Potenzmenge von A.
Die Potenzmenge ist also die Menge aller Teilmengen einer vorgegebenen Menge A. Aufgrund
von Beispiel 3.1.8 ist immer die leere Menge und die Menge A selbst ein Element der
Potenzmenge.
Proposition 3.1.11 Sei A eine Menge mit n < ∞ Elementen. Dann ist die Mächtigkeit
der Potenzmenge #P (A) = 2n .
Der Beweis dieser Proposition wird in Kürze eine Übungsaufgabe sein. Er beruht darauf
zu zählen wie viele k-elementige Teilmenge die Menge A besitzt, wobei 0 ≤ k ≤ n.
Wir wollen uns hier an Beispielen überzeugen, dass diese Aussage richtig ist.
Beispiel 3.1.12
• Sei A = ∅, dann ist #A = 0, da die leere Menge kein Element
enthält. Die Potenzmenge von A besteht nur aus der leeren Menge, d.h. P (∅) = ∅
und somit gilt #P (∅) = 1 = 20 .
• Sei B = {1} eine einelementige Menge, dann ist #B = 1. Die Potenzmenge von
B besteht der leeren Menge und B selbst, d. h. P (B) = {∅, B} und somit gilt
#P (B) = 2 = 21 .
• Sei C = {1, 2} eine zweielementige Menge, dann ist #C = 2. Die Potenzmenge von
C besteht der leeren Menge, zwei einelementigen Teilmengen und C selbst, d. h.
P (C) = {∅, {1}, {2}, C} und somit gilt #P (C) = 4 = 22 .
24
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.1. NOTATION UND OPERATIONEN AUF MENGEN
Die wichtigsten Operationen um aus zwei Mengen eine neue Menge zu bilden sind Durchschnitt und Vereinigung.
Definition 3.1.13 Seien A, B Mengen.
• Die Menge A ∩ B = {x | x ∈ A ∧ x ∈ B} nennt man den Durchschnitt von A
und B.
• Wenn A ∩ B = ∅, dann nennt man A und B disjunkt,
• Die Menge A ∪ B = {x | x ∈ A ∨ x ∈ B} nennt man die Vereinigung von A und
B.
Bemerkung 3.1.14 Zur Veranschaulichung dieser Mengenoperationen sind sogenannte
Venn-Diagramme gut geeignet.
Der Durchschnitt zweier Mengen A und B:
A
Die Vereinigung zweier Mengen A und B:
B
A
B
Beispiel 3.1.15 Seien A = {1, 2, 3, 4} und B = {3, 4, 5}, dann ist A ∩ B = {1, 2, 3, 4, 5}
und A ∪ B = {3, 4}.
Aus der Definition von Durchschnitt und Vereinigung mithilfe der logischen Verknüpfungen
∧ und ∨ folgen direkt einige Rechengesetze für Mengen.
Satz 3.1.16 Seien A, B, C Mengen. Es gelten die Kommutativgesetze
A∪B =B∪A
A ∩ B = B ∩ A,
die Assoziativgesetze
A ∪ (B ∪ C) = (A ∪ B) ∪ C
A ∩ (B ∩ C) = (A ∩ B) ∩ C,
und die Distributivgesetze
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C).
25
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.1. NOTATION UND OPERATIONEN AUF MENGEN
Beweis. Der Beweis dieser Regeln folgt direkt aus den entsprechenden Regeln für ∧ und ∨
(s. Satz 2.2.9). Wir zeigen hier exemplarisch das Kommutativgesetz für die Vereinigung.
Um die Gleichheit von Mengen zu beweisen müssen wir die zwei Inklusionen A ∪ B ⊆ B ∪ A
und B ∪ A ⊆ A ∪ B zeigen.
Um A ∪ B ⊆ B ∪ A zu zeigen, betrachten wir ein beliebiges Element aus A ∪ B und zeigen,
dass es auch in B ∪ A enthalten ist.
x∈A∪B
Def. von ∪
⇒
x∈A∨x∈B
Kommutativität von ∨
⇒
x∈B∨x∈A
Def. von ∪
⇒
x∈B∪A
Analog können wir B ∪ A ⊆ A ∪ B beweisen, woraus die Gleichheit der beiden Mengen
folgt.
Bemerkung 3.1.17 Wir veranschaulichen die Distributivgesetze mithilfe von VennDiagrammen.
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
A
B
C
A
B
C
Notation 3.1.18 Für den Durchschnitt und die Vereinigung mehrerer Mengen, verwenden wir folgende Bezeichnungen:
∪ni=1 Ai = A1 ∪ A2 ∪ · · · ∪ An = {x | ∃i ∈ {1, 2, . . . , n} so dass x ∈ Ai }
∩ni=1 Ai = A1 ∩ A2 ∩ · · · ∩ An = {x | ∀i ∈ {1, 2, . . . , n} gilt x ∈ Ai }
Definition 3.1.19 Seien A und B Mengen.
• Die Menge A\B = {x | x ∈ A ∧ x ∈
/ B} nennt man die Differenz zwischen A und
B. Man spricht auch: A ohne B“.
”
• Wenn B ⊆ A, dann nennen wir A\B = B c das Komplement von B (in A).
26
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.1. NOTATION UND OPERATIONEN AUF MENGEN
Bemerkung 3.1.20 Wir veranschaulichen die Differenz und Komplement mithilfe von
Venn-Diagrammen.
A\B
Ac = M \A
A
B
A
B
M
Satz 3.1.21 Seien A und B die Teilmengen einer Menge M sind. Dann gelten die de
Morgan’schen Gesetze
(A ∪ B)c = Ac ∩ B c
(A ∩ B)c = Ac ∪ B c .
Dabei sind immer die Komplemente in M gemeint.
Beweis. Wir beweisen hier die erste Regel (A ∪ B)c = Ac ∩ B c . Der zweite Beweis ist
analog.
Wir zeigen zunächst, dass (A ∪ B)c ⊆ Ac ∩ B c . Da immer gilt, dass x ∈ M , verzichten wir
zur besseren Lesbarkeit der Umformungen darauf dies in jeder Zeile zu schreiben.
x ∈ (A ∪ B)c ⇒ x ∈
/ A∪B
Definition des Komplements
⇒ ¬(x ∈ A ∪ B)
Definition von ∈
/
⇒ ¬(x ∈ A ∨ x ∈ B)
Definition der Vereinigung
⇒ ¬(x ∈ A) ∧ ¬(x ∈ B) De Morgansche Regel für logische Operatoren
⇒x∈
/ A∧x∈
/B
c
⇒x∈A ∧x∈B
c
⇒x∈A ∩B
c
Definition von ∈
/
c
Definition des Komplements
Definition des Durchschnitts
Analog wird die umgekehrte Inklusion Ac ∩ B c ⊆ (A ∪ B)c bewiesen.
Bemerkung 3.1.22 Wir veranschaulichen die de Morgan’schen Gesetze mithilfe von
Venn-Diagrammen.
(A ∪ B)c = Ac ∩ B c
(A ∩ B)c = Ac ∪ B c
A
M
B
A
B
M
27
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
Bei der Schreibung von Mengen mithilfe von geschweiften Klammern ist es wichtig, dass
die Reihenfolge der Elemente keine Rolle spielt. Oft aber ist auch die Reihenfolge von
Elementen relevant. Dafür verwenden wir dann runde Klammern.
Definition 3.1.23 Seien A, B Mengen und a ∈ A, b ∈ B.
• Man bezeichnet mit (a, b) ein geordnetes Paar (Tupel). Zwei geordnete Paare
(a, b) und (a0 , b0 ) sind genau dann gleich, wenn a = a0 und b = b0 gilt.
• Die Menge aller geordneten Paare (a, b) nennt man das kartesische Produkt von
A und B und schreibt A × B = {(a, b) | a ∈ A ∧ b ∈ B}. Man spricht: “A kreuz B”.
• A1 × A2 × · · · × An = {(a1 , · · · , an ) | a1 ∈ A1 , · · · , an ∈ An } ist das n-fache
kartesische Produkt und besteht aus allen n-Tupeln (a1 , · · · , an ).
• Wir bezeichnen mit An = A × A × · · · × A das n-fache kartesische Produkt der
Menge A mit sich selbst.
Beispiel 3.1.24
• {1} × {1, 2} = {(1, 1), (1, 2)}
• {2, 4} × {1, 3} = {(2, 1), (2, 3), (4, 1), (4, 3)}
• {1, 3} × {2, 4} = {(1, 2), (1, 4), (3, 2), (3, 4)}
• R2 ist die Menge aller Punkte der Ebene.
Aus der Definition eines geordneten Paares folgt, dass (1, 2) 6= (2, 1) ist und daher gilt auch
für die Mengen {2, 4} × {1, 3} =
6 {1, 3} × {2, 4}.
3.2. Abbildungen zwischen Mengen
Neben dem Begriff der Menge ist der Begriff der Abbildung von grundlegender Bedeutung
für die gesamte Mathematik. Unter diesem Aspekt betrachtet zeichnen sich die verschiedenen Teilgebiete der Mathematik lediglich dadurch aus, daß sie sich dem Studium jeweils
besonderer Abbildungen widmen bzw. gewisse Abbildungen auf bestimmte Eigenschaften
hin untersuchen.
Abbildung zwischen Mengen werden benutzt, um Elemente aus verschiedenen Mengen
einander zuzuordnen. Diese sind wichtig um mehr Informationen über eine Menge zu
erhalten.
Definition 3.2.1 Seien A, B nichtleere Mengen. Eine Abbildung f von einer Menge
A in eine Menge B ist eine Vorschrift, die jedem x ∈ A genau ein f (x) ∈ B zuordnet.
Wir schreiben:
f :A→B
a 7→ f (a)
28
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
und sagen “a wird auf f (a) abgebildet”.
In Bezug auf die Abbildung f heißt A die Definitionsmenge und B die Wertemenge
von f .
Folgendes ist zu beachten:
• Zur Definition einer Abbildung gehört neben der Zuordnungsvorschrift ganz wesentlich
die Nennung der Definitionsmenge (Ausgangsmenge) und auch der Wertemenge
(Zielmenge). So stellen
f : Z → N0 , n 7→ n2
g : R → R, x 7→ x2
ganz unterschiedliche Abbildungen dar, obwohl die Zuordnungsvorschrift – nämlich
zu quadrieren – die gleiche ist, wenn man von den unterschiedlichen Variablennamen
n und x absieht, die man auch hätte gleich wählen können.
• Jedem a ∈ A wird ein b ∈ B zugeordent, die Umkehrung gilt im allgemeinen jedoch
nicht, d.h. es kann durchaus vorkommen, dass es Elemente b ∈ B gibt, denen kein
oder auch zwei verschiedene Elemente zugeordnet werden.
Um eine Abbildung zu definieren, kann man explizit die Zuordnung angeben, welches
Element aus A auf welches Element aus B abgebildet wird. Dies ist aber nur für endliche
Mengen möglich und auch da mühsam. Alternativ kann man Abbildung durch eine oder
mehrere Formeln definieren.
Beispiel 3.2.2
•
f :N→N
n 7→ n2
ist eine wohldefinierte Abbildung.
• Der ASCII-Code ordnet den Zahlen von 0 bis 127 bestimmte Steuerzeichen zu.
f : {0, 1, 2, . . . , 127} → {0, 1, 2, . . . , a, b, . . . , A, B, . . . , %, ?, . . . }
48 7→ 0
61 7→ =
..
..
.
.
Wir nennen eine Abbildungsvorschrift wohldefiniert, wenn dadurch wirklich eine Abbildung definiert wird.
Beispiel 3.2.3 Um zu sehen, was genau wohldefiniert bedeutet, ist es am besten sich
einige Beispiele nicht wohldefinierter Abbildungsvorschriften anzuschauen.
29
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
• Die Abbildungsvorschrift
f : {1, 3, 5} → {2, 3}
1 7→ 2
3 7→ 2
5 7→ 3
1 7→ 3
ist nicht wohldefiniert, da dem Element 1 ∈ {1, 3, 5} zwei verschiedene Elemente
zugeordnet werden.
• Die Abbildungsvorschrift
f : {1, 3, 5} → {2, 3}
1 7→ 2
3 7→ 2
ist nicht wohldefiniert, da dem Element 5 ∈ {1, 3, 5} kein Element zugeordnet wird.
• Die Abbildungsvorschrift
f : {1, 3, 5} → {2, 3}
1 7→ 2
3 7→ 2
5 7→ 5
ist nicht wohldefiniert, da dem Element 5 ein Element zugeordnet wird, das nicht
in der Menge {2, 3} liegt.
• Die Abbildungsvorschrift
f :N→N
n 7→ n2
wenn n eine Primzahl ist,
n 7→ 3n
wenn n eine gerade Zahl ist.
ist nicht wohldefiniert, da zum einen die Zahl 2, die eine Primzahl ist und gerade auf
verschiedene Zahlen abgebildet wird (Aus der Vorschrift folgt einerseits 2 7→ 22 = 4,
da 2 eine Primzahl ist, andererseits gilt 2 7→ 3 · 2 = 6, da 2 gerade ist). Außerdem
gibt es keine Vorschrift für ungerade Zahlen, die nicht prim sind.
30
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
Definition 3.2.4 Seien A, B Mengen.
• Die Abbildung idA : A → A, a 7→ a heißt Identität.
• Sei f : A → B eine Abbildung. Dann heißt die Menge
f (A) = {b ∈ B | ∃a ∈ A so dass giltf (a) = b} ⊆ B
das Bild von f .
• Sei f : A → B eine Abbildung und M ⊆ B. Dann heißt die Menge
f −1 (M ) = {a ∈ A | f (a) ∈ M } ⊆ A
das Urbild der Menge M unter f .
Beispiel 3.2.5 Wir betrachten folgende Abbildung
f : {1, 2, 3} → {4, 5, 6}
1 7→ 4
2 7→ 4
3 7→ 5
Dann ist das Bild f ({1, 2, 3}) = {4, 5} und wir berechnen die Urbilder f −1 ({4}) = {1, 2},
f −1 ({5}) = {3} und f −1 ({6}) = ∅.
Eigenschaften von Abbildungen, die eine besondere Rolle spielen geben wir einen Namen
und versuchen sie genau zu charakterisieren.
Definition 3.2.6 Seien A, B Mengen und sei f : A → B, a 7→ f (b) eine Abbildung.
• f heißt genau dann injektiv, wenn für alle a, a0 ∈ A gilt: wenn f (a) = f (a0 ), dann
ist a = a0 .
• f heißt genau dann surjektiv, wenn für alle b ∈ B ein a ∈ A existiert, so dass gilt
f (a) = b.
• f heißt genau dann bijektiv, wenn f injektiv und surjektiv ist.
Bemerkung 3.2.7 Um besser zu verstehen, was diese Begriffe bedeuten, ist es günstig
sie auf verschiedene Art und Weisen umzuformulieren.
In der Definition von injektiv steht eine Aussage der Form “x ⇒ y”, diese ist genau dann
richtig, wenn ¬y ⇒ ¬x richtig ist (s. Satz 2.3.1). Somit lautet eine alternative Definition
31
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
von Injektivität: f heißt genau dann injektiv, wenn für a, a0 ∈ A gilt: wenn a 6= a0 , dann
ist f (a) 6= f (a0 ).
Oder noch anders formuliert: bei einer injektiven Abbildung hat jedes Element b ∈ B
höchstens ein Urbild in A, d. h. #f −1 ({b}) = 0 oder #f −1 ({b}) = 1. Denn hätte b
zwei Urbilder a, a0 ∈ A, d. h f (a) = f (a0 ) = b, dann müssen diese ja gleich sein a = a0 .
Also hat b höchstens ein Urbild.
Beim genauen Angucken der Definition des Bildes einer Abbildung sieht man, dass f
genau dann surjektiv ist, wenn f (A) = B gilt.
Das wiederum bedeutet, dass bei einer surjektiven Abbildung jedes Element b ∈ B
mindestens ein Urbild in A hat.
Somit hat bei einer bijektiven Abbildung jedes Element b ∈ B genau ein Urbild in A.
Schränkt man die Wertemenge B einer Abbildung f : A → B auf f (A) ein, dann erhält
man eine neue Abbildung f˜ : A → f (A), die surjektiv ist. Die Eigenschaften injektiv
und surjektiv hängen also nicht nur von der Abbildungsvorschrift ab, sondern auch ganz
wesentlich von der Definitions- und Wertemenge.
Beispiel 3.2.8 Die Abbildung
f : {1, 2} → {4, 5, 6}
1 7→ 4
2 7→ 6
ist injektiv, aber nicht surjektiv, da 5 kein Urbild hat.
Die Abbildung
f : {1, 2, 3} → {4, 5}
1 7→ 4
2 7→ 5
3 7→ 5
ist surjektiv, aber nicht injektiv, da 5 zwei Urbilder hat.
Proposition 3.2.9 Seien A, B Mengen mit endlich vielen Elementen, #A = n und
#B = m und sei f : A → B eine Abbildung. Dann gilt:
Wenn f injektiv ist, dann ist n ≤ m.
Wenn f surjektiv ist, dann ist n ≥ m.
Beweis. Die Methode diese Aussagen zu beweisen wird als Schubfachprinzip bezeichnet.
Dafür können wir uns anschaulich die Menge A als Menge von n Kugeln vorstellen und
32
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
B als Menge von m Schubladen. Die Abbildung f entspricht dann dem Hineinlegen von
Kugeln in die Schubladen.
Ist f injektiv, dann heißt das, dass in jede Schublade höchstens eine Kugel gelegt wird.
Dies ist nur dann möglich, wenn es mindestens so viele Schubladen wie Kugeln gibt.
Ist f surjektiv, dann heißt das, dass in jede Schublade mindestens eine Kugel gelegt wird.
Dies ist nur dann möglich, wenn es mindestens so viele Kugeln wie Schubladen gibt.
Satz 3.2.10 Seien A, B endliche Mengen mit gelicher Mächtigkeit, d. h. #A = #B < ∞
und sei f : A → B eine Abbildung, dann ist äquivalent:
a) f ist injektiv
b) f ist surjektiv.
c) f ist bijektiv.
Beweis. Auch dieser Beweis ist mit dem Schubfachprinzip möglich. Wenn es gleich viele
Kugeln und Schubladen gibt und wir wissen in jeder Schublade liegt höchstens eine Kugel,
dann muss schon in jeder Schublade genau eine Kugel liegen, da dies sonst nicht möglich
ist.
Umgekehrt, wissen wir dass in jeder Schublade mindestens eine Kugel liegt, dann muss
schon in jeder Schublade genau eine Kugel liegen.
Definition 3.2.11 Seien A, B, C Mengen und seien f : A → B, g : B → C Abbildungen.
Dann heißt die Abbildung
g◦f :A→C
a 7→ (g ◦ f )(a) = g(f (a))
Hintereinanderausführung von f und g.
Beim ersten Lesen erscheint die Schreibweise g ◦ f vielleicht etwas unlogisch, da wir ja
zuerst ein Element mithilfe von f abbilden und dann mithilfe von g. Allerdings macht es
nur Sinn f (a) zu betrachten für ein Element a ∈ A. Da dann f (a) ∈ B liegt, macht es Sinn
g(f (a)) zu betrachten. Man muss also die Verknüpfung von Abbildungen “von innen nach
außen” lesen.
Proposition 3.2.12 Seien A, B, C Mengen und seien f : A → B, g : B → C Abbildungen. Dann gilt:
(i) Wenn f und g injektiv sind, dann ist auch (g ◦ f ) injektiv.
(ii) Wenn f und g surjektiv sind, dann ist auch (g ◦ f ) surjektiv.
(iii) Wenn f und g bijektiv sind, dann ist auch (g ◦ f ) bijektiv.
33
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
Beweis. (i) Angenommen g(f (a)) = g(f (a0 )), dann folgt aus der Injektivität von g, dass
f (a) = f (a0 ), aus der Injektivität von f , folgt dann wiederum, dass a = a0 . Und somit
ist auch (g ◦ f ) injektiv.
(ii) Da f sujektiv ist, gilt f (A) = B, da g surjektiv ist, folgt g(B) = C. Also ist
g(f (A)) = C und (g ◦ f ) ist surjektiv.
(iii) Folgt direkt aus (i) und (ii)
Satz 3.2.13 Seien A, B nichtleere Mengen und f : A → B eine Abbildung. Dann gilt:
a) f ist genau dann injektiv, wenn f eine Linksinverse hat, d. h. wenn es eine
Abbildung g : B → A gibt, für die gilt g ◦ f = idA .
b) f ist genau dann surjektiv, wenn f eine Rechtsinverse hat, d. h. wenn es eine
Abbildung g : B → A gibt, für die gilt f ◦ g = idB .
c) f ist genau dann bijektiv, wenn f eine Inverse hat, d. h. wenn es eine Abbildung
g : B → A gibt, für die gilt f ◦ g = idB und g ◦ f = idA .
Beweis. Alle Aussagen sind Äquivalenzen, das heißt es müssen immer beide Implikationen
gezeigt werden.
a) Wir zeigen zunächst die Implikation: “Wenn f injektiv ist, dann gibt es eine Abbildung
g : B → A, für die g ◦ f = idA gilt”.
Wir nehmen also an f sei injektiv und definieren eine Abbildung g durch
g:B→A
b 7→ a ∈ f −1 ({b})
wenn b ∈ f (A)
b 7→ a beliebig
wenn b ∈
/ f (A)
Diese Abbildung ist wohldefiniert, da die Menge f −1 ({b}) aus nur einem Element
besteht, da f injektiv ist. Wenn b ∈
/ f (A), dann ist f −1 ({b}) leer und wir können ein
beliebiges Element wählen auf das b abgebildet wird.
Nun können wir prüfen, dass die so definierte Abbildung die Eigenschaft g ◦ f = idA
hat. Sei also a ∈ A ein beliebiges Element, dann ist g(f (a)) = g(b) = a, da b = f (a)
ein Element aus dem Bild f (A) ist und f −1 ({b}) = {a} das Urbild ist.
Im zweiten Schritt zeigen wir die Implikation “Wenn es eine Abbildung g : B → A,
für die g ◦ f = idA gilt gibt, dann ist f injektiv.”
Diesen Teil des Beweises führen wir per Widerspruch, dass heißt wir nehmen an es
gebe diese Abbildung g mit der geforderten Eigenschaft, aber f ist nicht injektiv.
Wenn f nicht injektiv ist, dann gibt es Elemente a, a0 ∈ A, die ungleich sind a =
6 a0 ,
0
aber für die f (a) = f (a ) gilt.
Da a 6= a0 , ist auch idA (a) 6= idA (a0 ).
Andererseits gilt aber (g ◦ f )(a) = g(f (a)) = g(f (a0 )) = (g ◦ f )(a0 ). Da nach Annahme
g ◦ f = idA gilt erhalten wir daraus a = a0 im Widerspruch zur vorherigen Zeile.
34
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.2. ABBILDUNGEN ZWISCHEN MENGEN
b) “⇒”: Angenommen f ist surjektiv, dann ist f −1 (b) nicht leer wie auch immer b ∈ B
vorgegeben ist. Für jedes b ∈ B läßt sich ein a ∈ f −1 (b) auswählen, welches dazu
verwendet werden kann, die Funktion h : B → A durch die Setzung h(b) := a zu
definieren.
Aus der Definition von h folgt dann unmittelbar die behauptete Eigenschaft
f h(b) = b. Auch hier ist h nicht eindeutig festgelegt, sondern es gibt alternative
Definitionsmöglichkeiten, wenn f nicht injektiv ist.
“⇐”: Angenommen es sei eine derartige
Funktion h vorhanden. Ist b ∈ B beliebig
aber fest vorgegeben, so gilt f h(b) = b. Damit wird h(b) ∈ A auf b abgebildet. Da
b beliebig, läßt sich somit zu jedem b ∈ B ein Element aus A finden – nämlich h(b) –
welches auf b abgebildet wird, d.h. f ist surjektiv.
c) folgt direkt aus a) und b)
Definition 3.2.14 Seien A, B Mengen und f : A → B eine bijektive Abbildung. Dann
heißt die Abbildung f −1 : B → A, f (a) 7→ a Umkehrabbildung von f .
Die Umkehrabbildung entspricht der Abbildung g aus Satz 3.2.13 und erfüllt somit
f ◦ f −1 = idB und f −1 ◦ f = idA .
Achtung! Es ist wichtig die Umkehrabbildung nicht mit dem Urbild zu verwechseln,
obwohl dafür die gleiche Notation verwendet wird. Das Urbild einer Menge unter einer
Abbildung f : A → B ist eine Menge und kann für alle Abbildungen f und alle Teilmengen
M ⊆ B bestimmt werden.
Die Umkehrabbildung hingegen kann nur von bijektiven Abbildungen f : A → B bestimmt
werden und sie ordnet dann einem Element b ∈ B, das eindeutig bestimmte Element
a ∈ f −1 ({b}) zu.
Definition 3.2.15 Seien A, B Mengen und f : A → B eine Abbildung und A0 ⊆ A,
dann definiert
f | A 0 : A0 → B
a 7→ f (a)
eine Abbildung die Einschränkung von A auf A0 .
Proposition 3.2.16 Seien A0 ⊆ A, B Mengen und f : A → B eine Abbildung. Dann
gilt:
i) Ist f injektiv, dann ist auch f |A0 injektiv.
ii) Die Abbildung g : A → f (A), a 7→ f (a) ist surjektiv.
Beweis. i) Wenn für alle a1 , a2 ∈ A aus a1 6= a2 folgt, dass f (a1 ) 6= f (a2 ) gilt. Dann gilt
das ebenfalls für alle a1 , a2 ∈ A0 ⊆ A.
ii) Per Definition ist f (A) das Bild der Abbildung f . Da für alle Elemente a ∈ A gilt
f (a) = g(a) per definition von g, ist also auch f (A) das Bild von g und damit ist g
surjektiv.
35
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.3. RELATIONEN
3.3. Relationen
Relationen sind ein Mittel um Beziehungen zwischen Elementen einer Menge herzustellen,
die wichtige zusätzliche Informationen liefern.
Definition 3.3.1 (Relation)
Es seien A und B zwei nichtleere Mengen. Eine (binäre) Relation R zwischen den
Mengen A und B ist eine Teilmenge des kartesischen Produkts A × B, d. h.
R ⊂ A × B = {(a, b) | a ∈ A, b ∈ B} .
Für (a, b) ∈ R schreibt man auch aRb, d.h. a steht in Relation R zu b. Ist A = B so
spricht auch von einer Relation auf bzw. in der Menge A.
Definition 3.3.2 (Eigenschaften von Relationen)
Eine Relation R ⊂ A × A auf einer Menge A heißt
• reflexiv genau dann, wenn für alle a ∈ A gilt, dass (a, a) ∈ R.
• symmetrisch genau dann wenn gilt: (a, b) ∈ R ⇒ (b, a) ∈ R.
• antisymmetrisch genau dann, wenn aus (a, b) ∈ R ∧ (b, a) ∈ R folgt, dass a = b.
• transitiv genau dann, wenn gilt: (a, b) ∈ R ∧ (b, c) ∈ R ⇒ (a, c) ∈ R.
Bemerkung 3.3.3 Die Definition von antisymmetrisch ist von der Art A ⇒ B und
somit genau dann richtig, wenn ¬B ⇒6= A richtig ist (s. Satz 2.3.1). Somit kann diese
Definition mithilfe der De Morganschen Gesetze (s. Satz 2.2.10) umformuliert werden zu:
Eine Relation R ⊂ A × A auf einer Menge A heißt antisymmetrisch genau dann, wenn
aus a 6= b folgt, dass (a, b) ∈
/ R ∨ (b, a) ∈
/ R.
Definition 3.3.4 (Äquivalenzrelation)
Eine Relation R ⊂ A × A heißt Äquivalenzrelation auf A, wenn sie reflexiv, symmetrisch und transitiv ist. Anstatt (a, b) ∈ R schreibt man im Falle von Äquivalenzrelationen
häufiger a ∼ b, d.h. a ist äquivalent zu b.
Definition 3.3.5 (Äquivalenzklasse und Quotientenmenge)
Es sei ∼ eine Äquivalenzrelation auf A. Für a ∈ A heißt die Teilmenge von A
[a] := {x ∈ A : a ∼ x } ⊂ A
Äquivalenzklasse von a. Die Elemente von [a] nennt man die zu a äquivalenten
Elemente.
36
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.3. RELATIONEN
Die Menge aller Äquivalenzklassen einer Äquivalenzrelation heißt Quotientenmenge
A/∼ := {[a] | a ∈ A}.
Es gibt eine kanonische surjektive Abbildung
π : A → A/∼ , a 7→ [a].
Eine Äquivalenzklasse enthält alle Elemente, die bezüglich eines bestimmten Aspekts,
der durch die Äquivalenzrelation definiert wird, als gleich betrachtet werden kann. Die
Quotientenmenge enthält dann all diese Äquivalenzklassen.
Beispiel 3.3.6 Sei A = {Schüler einer Schule}, dann ist “ a ∼ b := a ist in der selben
Schulklasse wie b”, eine Äquivalenzrelation und die Menge der Schulklassen ist die
Quotientenmenge bezüglich dieser Relation. Will man zum Beispiel einen Stundenplan
entwerfen, dann ist es hilfreich nicht jeden Schüler einzeln zu betrachten, sondern den
Stundenplan für jede Schulklasse zu erstellen.
Äquivalenzrelationen sind ein wichtiges Hilfsmittel um aus einer bekannten Menge eine
neue Menge konstruieren zu können, die dann bestimmte gewünschte Eigenschaften hat.
Wir werden dies in Abschnitt 5 mehrfach benutzen um Zahlenmengen zu konstruieren.
Satz 3.3.7 Es sei ∼ eine Äquivalenzrelation auf A. Dann bildet die Menge der
Äquivalenzklassen eine Partition von A. Das bedeutet, dass zwei Äquivalenzklassen
entweder gleich oder disjunkt sind und außerdem gilt ∪a∈A [a] = A.
Beweis. Um zu beweisen, dass zwei Äquivalenzklassen entweder gleich oder disjunkt sind,
zeigen wir dass sie gleich sind, sobald ihr Durchschnitt nicht leer ist.
Wir betrachten zwei Äquivalenzklassen [a] und [a0 ] in deren Durchschnitt ein Element c
liegt, das heißt c ∈ [a] ∩ [a0 ]. Dies ist gleichbedeutend mit c ∼ a und c ∼ a0 .
Wir wollen nun zeigen, dass [a] ⊆ [a0 ] gilt:
Sei x ∈ [a], d. h. x ∼ a. Aufgrund der Symmetrie der Relation folgt aus c ∼ a auch a ∼ c.
Aufgrund der Transitivität folgt aus x ∼ a und a ∼ c dass auch x ∼ c. Und somit wieder
aufgrund der Transitivität folgt aus x ∼ c und c ∼ a0 die Beziehung x ∼ a0 . Damit liegt
nun x ∈ [a0 ] und wir haben gezeigt, dass [a] ⊆ [a0 ] gilt.
Auf analoge Weise (wir tauschen die Rollen von a und a0 ) folgern wir [a0 ] ⊆ [a], woraus
folgt, dass die Äquivalenzklassen gleich sind.
Im nächsten Schritt wollen wir zeigen, dass ∪a∈A [a] = A gilt. Zunächst bemerken wir, dass
Äquivalenzklassen [a] immer einer Teilmenge von A sind und damit auch ihre Vereinigung.
Das heißt es gilt ∪a∈A [a] ⊆ A.
Für die umgekehrte Inklusion müssen wir zeigen, dass jedes Element a ∈ A in einer
Äquivalenzklasse liegt. Aufgrund der Reflexivität einer Äquivalenzrelation ist aber jeder
Element zu sich selbst äquivalent a ∼ a und somit liegt a ∈ [a], woraus wir A ⊆ ∪a∈A [a]
folgern und damit die Gleichheit beider Mengen.
37
KAPITEL 3. GRUNDLAGEN DER MENGENLEHRE
3.3. RELATIONEN
Neben Äquivalenzrelationen sind Ordnungsrelationen wichtige und häufig benutzte Relationen.
Definition 3.3.8 (Ordnungsrelation)
Eine Ordnungsrelation oder kurz eine Ordnung v in der Menge A ist eine reflexive,
antisymmetrische und transitive Relation in A.
Definition 3.3.9 (Vergleichbarkeit zweier Elemente)
Zwei Elemente a, b ∈ A heißen vergleichbar bezüglich der Ordnung v in A, wenn
entweder a v b oder b v a gilt.
Definition 3.3.10 (Totale und partielle Ordnung)
Eine Ordnung v in der Menge A heißt total, wenn je zwei Elemente aus A vergleichbar
sind bezüglich v. Ist die Vergleichbarkeit nicht für alle Elementpaare gegeben, so spricht
man zur Abgrenzung gegenüber totalen Ordnungen von einer partiellen Ordnung
oder Teilordnung.
Beispiel 3.3.11 “≤” definiert auf den reellen Zahlen eine Totalordnung. Diese Relation
ist reflexiv, da für jedes Element a ≤ a gilt. Sie ist antisymmetrisch, da für zwei
unterschiedliche Elemente a 6= b entweder a ≤ b oder b ≤ a gilt, woraus auch die
Vergleichbarkeit zweier Elemente folgt. Die Transitivität gilt, da aus a ≤ b, b ≤ c folgt,
dass a ≤ c ist.
“⊆” definiert auf der Potenzmenge P (A) einer Menge A eine partielle Ordnung. Schon
wenn A die Mächtigkeit 2 hat, also A = {a, b}, dann hat A die Teilmengen {a} und {b},
die nicht vergleichbar sind, da weder {a} ⊆ {b} noch {b} ⊆ {a} gilt.
38
4. Algebraische Strukturen
Nachdem wir nun mit Mengen und Abbildungen zwischen ihnen hantieren können, wollen
wir nun Mengen betrachten mit denen man auch rechnen kann.
4.1. Gruppen
Definition 4.1.1 Sei G eine Menge mit einer Verknüpfung ◦, d. h.
◦:G×G→G
(g, h) 7→ g ◦ h.
(G, ◦) heißt Gruppe, wenn gilt:
i) Es existiert genau ein Element e ∈ G, das für alle g ∈ G g ◦ e = e ◦ g = g erfüllt.
e heißt neutrales Element.
ii) Zu jedem g ∈ G gibt es genau ein Element g −1 ∈ G, so dass g ◦ g −1 = g −1 ◦ g = e
gilt. g −1 heißt das zu g inverse Element.
iii) Für alle g1 , g2 , g3 ∈ G gilt: g1 ◦ (g2 ◦ g3 ) = (g1 ◦ g2 ) ◦ g3 . (Assoziativgesetz)
Gilt außerdem
iv) Für alle g1 , g2 ∈ G : g2 ◦ g1 = g1 ◦ g2
Dann heißt die Gruppe abelsch oder kommutativ.
Bemerkung 4.1.2 In der Definition einer Gruppe können die Forderungen i) und ii)
durch die (auf dem ersten Blick) schwächeren Forderungen
i’) Es existiert ein linksneutrales Element Element e ∈ G, d. h. das für alle g ∈ G gilt:
e ◦ g = g erfüllt,
ii’) Zu jedem g ∈ G gibt es ein linksinverses Element g −1 ∈ G, d. h. es gilt g −1 ◦ g = e,
ersetzt werden. Dabei ist zu beachten, dass es hier nicht die Eindeutigkeit des Linksneutralen und Linksinversen gefordert wird. Es ist möglich durch einfache Rechnungen aus
den Bedingungen i’),ii’) und iii) zu folgern, dass dann auch i),ii) und iii) gelten.
Der Vorteil an der schwächeren Definition ist nun, dass es bei einem konkreten Beispiel
genügt die schwächeren Eigenschaften nachzuweisen um zu beweisen, dass es sich um
eine Gruppe handelt.
39
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.1. GRUPPEN
Proposition 4.1.3 Sei G, ◦ eine Gruppe und g, h ∈ G, dann gilt:
i) (g −1 )−1 = g und
ii) (g ◦ h)−1 = h−1 ◦ g −1 .
Beweis.
i) Wir müssen zeigen, dass g ein zu g −1 inverses Element ist. Aber dies gilt
aufgrund der Definition von g −1 als zu g inverses Element: g ◦ g −1 = e. Aufgrund der
Eindeutigkeit des Inversen ist daher (g −1 )−1 = g.
ii) Wir müssen zeigen, dass h−1 ◦ g −1 ein zu (g ◦ h) inverses Element ist. Dies ist der
Fall, da aufgrund des Assoziativgesetzes gilt:
(h−1 ◦ g −1 ) ◦ (g ◦ h) = h−1 ◦ (g −1 ◦ g) ◦ h = h−1 ◦ e ◦ h = h−1 ◦ h = e.
Beispiel 4.1.4
• (Z, +) ist eine Gruppe
• (Q\{0}, ·) ist eine Gruppe
• Sei M eine Menge, dann definieren wir die Menge der bijektiven Abbildungen von
M in sich selbst
Bij(M ) := {f : M → M | f ist bijektiv}
Die Menge Bij(M ) zusammen mit der Hintereinanderausführung von Abbildungen
als Verknüpfung ist eine Gruppe.
– Das neutrale Element der Gruppe ist die Identität idM .
– Zu einer Abbildung f ∈ Bij(M ) gibt es eine eindeutig bestimmte Umkehrabbildung f −1 ∈ Bij(M ), diese ist das zu f inverse Element in Bij(M ), denn
es gilt f ◦ f −1 = f −1 ◦ f = idM .
– Das Assoziativgesetz gilt, da per Definition der Hintereinanderausführung
gilt:
f ◦ (g ◦ h) (m) = f (g ◦ h)(m) = f (g(h(m)))
und
(f ◦ g) ◦ h (m) = (f ◦ g) h(m) = f (g(h(m))).
– Diese Gruppe ist nicht abelsch, wenn M mehr als 2 Elemente hat. Als Beispiel
betrachten wir M = {1, 2, 3} und die bijektiven Abbildungen
f :M → M
g:M →M
1 7→ 1
1 7→ 2
2 7→ 3
2 7→ 3
3 7→ 2
3 7→ 1
40
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.1. GRUPPEN
Wir rechnen nach, dass (f ◦ g)(1) = f (g(1)) = f (2) = 3 gilt, aber
(g ◦ f )(1) = g(f (1)) = g(1) = 2. Anschaulich können wir uns die Menge M als
Eckpunkte eines gleichseitigen Dreiecks vorstellen, dann ist f eine Spiegelung
und g eine Drehung um 120 Grad.
g ◦ f = “ Drehen um 120◦ ” ◦ “Spiegeln”:
1
1
3
f =Spiegeln
2
3
g =Drehen
3
2
2
1
f ◦ g = “Spiegeln” ◦ “ Drehen um 120◦ ”:
1
3
2
g=Drehen
2
3
f =Spiegeln
1
2
1
3
Definition 4.1.5 Sei (G, ◦) eine Gruppe und H ⊆ G eine Teilmenge. H heißt Untergruppe von G, wenn H mit der von G geerbten Verknüpfung ◦ eine Gruppe (H, ◦)
definiert.
Wichtig um zu zeigen, dass eine Teilmenge Untergruppe ist, ist neben den Gruppen axiomen
auch die Abgeschlossenheit der Verknüpfung. Das heißt, dass für g1 , g2 ∈ H auch g1 ◦g2 ∈ H
liegt.
Proposition 4.1.6 Sei (G, ◦) eine Gruppe und H ⊆ G eine Teilmenge, so dass gilt:
g1 , g2 ∈ H
⇒
g1−1 ◦ g2 ∈ H,
dann ist H eine Untergruppe von G.
Beweis. Wir müssen zeigen, dass alle Gruppenaxiome erfüllt sind.
i) Sei g1 = g2 = g, wobei g ein beliebiges Element in H ist. Dann ist auch g −1 ◦ g ∈ H
und somit das neutrale Element e.
ii) Sei g ∈ H. Wir zeigen, dass auch g −1 ∈ H. Dafür setzen wir g1 = g und g2 = e (von
dem wir ja schon wissen, dass es enthalten ist) und somit ist g −1 ◦ e = g −1 ∈ H.
iii) Das Assoziativgesetz überträgt sich sich direkt, da alle Element in H ja auch in G
liegen.
iv) Außerdem müssen wir noch zeigen, dass für zwei Elemente g1 , g2 ∈ H auch g1 ◦ g2 in
H liegt (dies nennt man Abgeschlossenheit der Verknüpfung). Dies folgt, da wir ja
bereits wissen, dass g1−1 ∈ H und somit auch (g1−1 )−1 ◦ g2 = g1 ◦ g2 ∈ H.
41
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
Beispiel 4.1.7
4.2. GRUPPENHOMOMORPHISMEN
• (Z, +) ist Untergruppe von (Q, +)
• (R>0 , ·) ist Untergruppe von (R\{0}, ·)
• ({1, −1}, ·) ist Untergruppe von (R\{0}, ·)
4.2. Gruppenhomomorphismen
Besitzt eine Menge eine zusätzliche “Struktur”, wie in unserem Fall eine Verknüpfung,
dann spielen Abbildungen eine besondere Rolle, die diese Struktur erhalten.
Definition 4.2.1 Seien (G, ◦) und (H, ) Gruppen. Eine Abbildung f : G → H heißt
Gruppenhomomorphismus, wenn für alle g1 , g2 ∈ G gilt:
f (g1 ◦ g2 ) = f (g1 ) f (g2 ).
Es ist also egal, ob ich erst g1 und g2 in G verknüpfe und dann g1 ◦ g2 ∈ G nach H abbilde
oder ob beide Elemente zuerst nach H abgebildet werden (f (g1 ), f (g2 ) ∈ H) um dann dort
verknüpft werden.
Proposition 4.2.2 Seien (G, ◦) und (H, ) Gruppen, sowie f : G → H ein Gruppenhomomorphismus. Dann gilt:
i. f (eG ) = eH und
ii. f (g −1 ) = f (g)−1 .
Hier bezeichnet eG das neutrale Element in G und eH das neutrale Element in H.
Beweis.
i. Aus der Eigenschaft neutrales Element zu sein folgt eG ◦ eG = eG und somit
durch Anwenden der Abbildung f erhält man f (eG ) = f (eG ◦ eG ) = f (eG ) f (eG ).
Wir verknüpfen die Elemente auf beiden Seiten der Gleichung von rechts mit dem
Element f (eG )−1 und erhalten
f (eG ) f (eG )−1 = f (eG ) f (eG ) f (eG )−1
eH = f (eG ) f (eG ) f (eG )−1
| Assoziativgesetz
= f (eG ) eH
| Eigenschaft des Inversen
= f (eG )
| Eigenschaft des neutralen Elements
ii. Wir rechnen
f (g −1 ) f (g) = f (g −1 ◦ g) = f (eG ) = eH .
Somit hat das Element f (g −1 ) die Eigenschaft eines inversen Elements zu f (g). Und
da Inverse eindeutig sind folgt die Behauptung.
42
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.2. GRUPPENHOMOMORPHISMEN
Beispiel 4.2.3 Ein wichtiger Gruppenhomomorphismus ist die Exponentialfunktion
exp : (R, +) → (R>0 , ·)
x 7→ exp(x) = ex .
Die Funktionalgleichung exp(x + y) = ex · ey = exp(x) · exp(y) entspricht genau der
Definition eines Gruppenhomomorphismus. Wir sehen, dass Proposition 4.2.2 i) genau
der Eigenschaft e0 = 1 entspricht und Proposition 4.2.2 ii) der Tatsache, dass e−x = e1x .
Satz 4.2.4 Seien (G, ◦) und (H, ) Gruppen. Das Bild f (G) eines Gruppenhomomorphismus f : G → H ist eine Untergruppe von H.
Beweis. Aufgrund von Proposition 4.1.6 genügt es zu überprüfen, ob für alle Element
h1 , h2 ∈ f (G) gilt, dass dann auch h−1
1 h2 in H liegt.
Seien also h1 , h2 ∈ f (G), d. h. es gibt Elemente g1 , g2 ∈ G mit f (g1 ) = h1 und f (g2 ) = h2 .
Dann können wir nachrechnen, dass
−1
f (g2 ) = f (g1−1 ) f (g2 ) = f (g1−1 ◦ g2 ) ∈ f (G).
h−1
1 h2 = f (g1 )
Definition 4.2.5 Seien (G, ◦) und (H, ) Gruppen, sowie f : G → H ein Gruppenhomomorphismus. Dann heißt die Menge
Kern(f ) = {g ∈ G | f (g) = eH } ⊆ G
der Kern von f .
Der Kern von f ist dasselbe wie das Urbild der neutralen Elements, d. h. Kern(f ) =
f −1 ({eH }).
Satz 4.2.6 Seien (G, ◦) und (H, ) Gruppen, sowie f : G → H ein Gruppenhomomorphismus. Der Kern von f ist eine Untergruppe von G.
Beweis. Aufgrund von Proposition 4.1.6 genügt es zu überprüfen, ob für alle Element
g1 , g2 ∈ Kern(f ) gilt, dass dann auch g1−1 ◦ g2 in Kern(f ) liegt. Dafür rechnen wir
f (g1−1 ◦ g2 ) = f (g1−1 ) f (g2 ) = f (g1 )−1 f (g2 ) = e−1
H eH = eH .
Satz 4.2.7 Seien (G, ◦) und (H, ) Gruppen. Ein Gruppenhomomorphismus
f : G → H ist genau dann injektiv, wenn Kern(f ) = {eG } gilt.
Beweis. “⇒” Wenn f injektiv ist, dann gilt für alle Elemente g ∈ G mit g 6= eG , dass
f (g) 6= f (eG ) = eH . Somit ist eG das einzige Element, dass im Kern liegt, d. h. Kern(f ) =
{eG }.
43
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.3. RINGE UND KÖRPER
“⇐” Die Rückrichtung zeigen wir durch einen Widerspruchsbeweis. Wir nehmen also an
es gelte Kern(f ) = {eG } und f ist nicht injektiv. Letzteres bedeutet, dass es Elemente
g1 , g2 ∈ G gibt für die gilt: g1 6= g2 , aber f (g1 ) = f (g2 ). Durch Verknüpfen von links mit
f (g1 )−1 erhalten wir
f (g1 )−1 f (g1 ) = f (g1 )−1 f (g2 )
eH = f (g1−1 ) f (g2 ) = f (g1−1 ◦ g2 )
Somit liegt also das Element g1−1 ◦ g2 im Kern von f . Da nach Annahme g1 6= g2 ist
g1−1 ◦ g2 6= eG , was im Widerspruch zur Annahme Kern(f ) = {eG } steht.
Aufgrund von Proposition 4.2.2i gilt immer f (eG ) = eH , das heißt eG liegt immer im Kern
eines Homomorphismus. Man sagt deshalb, dass der Kern trivial ist, wenn er nur das
Element eG enthält.
4.3. Ringe und Körper
In der Definition einer Gruppe kommt nur eine Verknüpfung vor. Da die bekannten
Zahlenmengen aber zwei Verknüpfungen haben, benötigen wir weitere Begriffe.
Definition 4.3.1 Ein Körper (K, +, ·) ist Tripel bestehend aus einer Menge K mit
zwei Verknüpfungen
+:K ×K →K
(x, y) 7→ x + y
·:K ×K →K
(x, y) 7→ x · y
so dass gilt:
i. (K, +) ist eine abelsche Gruppe. Das neutrale Element heißt 0 und das zu x inverse
Element heißt −x.
ii. (K\{0}, ·) ist eine abelsche Gruppe. Das neutrale Element heißt 1 und das zu x
inverse Element heißt x−1 = x1 .
iii. Für alle x, y, z ∈ K gilt: (x + y) · z = x · z + y · z (Distributivgesetz).
Bemerkung 4.3.2 Es gilt 0 · x = x · 0 = 0 für alle x ∈ K. Das können wir zeigen
mithilfe der Rechnung
x · 0 = x · (0 + 0) = x · 0 + x · 0
Durch Addition des Elements −x · 0, das zu x · 0 invers ist, erhalten wir:
0 = x · 0 − x · 0 = (x · 0 + x · 0) − x · 0 = x · 0
Die Kommutativität liefert dann auch 0 · x = 0.
Wir verwenden die Konvention “Punktrechnung geht vor Strichrechnung”, das heißt
a · b + c = (a · b) + c 6= a · (b + c).
44
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.3. RINGE UND KÖRPER
Proposition 4.3.3 In einem Körper K gilt immer: Wenn a · b = 0, dann ist entweder
a = 0 oder b = 0. Man sagt ein Körper ist nullteilerfrei.
Beweis. Wenn a = 0 ist, dann sind wir fertig, also nehmen wir an es gilt a 6= 0. Dann
besitzt a ein Inverses bezüglich der Multiplikation a−1 mit dem wir die Gleichung ab = 0
multiplizieren:
a·b=0
⇒
Beispiel 4.3.4
a−1 · (a · b) = a−1 · 0
⇒
(a−1 · a) · b = 0
⇒
b=1·b=0
• (Q, +, ·) und (R, +, ·) sind Körper.
• Die Menge F2 := {0, 1} mit den Verknüpfungen
+ 0 1
0 0 1
1 1 0
· 0 1
0 0 0
1 0 1
ist ein Körper.
Definition 4.3.5 Seien K, L Körper. Ein Körperhomomorphismus ist ein Abbildung f : K → L, für die gilt:
f (k1 + k2 ) = f (k1 ) + f (k2 )
f (k1 · k2 ) = f (k1 ) · f (k2 )
Ein Körperhomomorphismus ist also ein Gruppenhomomorphismus für die additive Gruppe
(K, +) und für die multiplikative Gruppe (K\{0}, ·. Insbesondere gilt also f (1K ) = 1L und
f (0K ) = 0L .
Definition 4.3.6 Ein Ring (R, +, ·) ist eine Menge R zusammen mit zwei Verknüpfungen
+:R×R→R
(x, y) 7→ x + y
·:R×R→R
(x, y) 7→ x · y
so dass gilt:
i) (R, +) ist eine abelsche Gruppe. Das neutrale Element heißt 0 und das zu x inverse
Element heißt −x.
ii) Für alle x, y, z ∈ R gilt: (x · y) · z = x · (y · z) (Assoziativgesetz).
iii) Für alle x, y, z ∈ R gilt: (x + y) · z = x · z + y · z (Distributivgesetz).
iv) Der Ring heißt kommutativ, wenn das Kommutativgesetz gilt: x · y = y · x für
alle x, y ∈ R.
v) Ein Ring heißt mit Eins, wenn ein neutrales Element 1 für die Multiplikation
existiert, also x · 1 = 1 · x = x für alle x ∈ R.
45
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
Beispiel 4.3.7
4.4. POLYNOME
• (Z, +, ·) ist ein kommutativer Ring mit Eins.
• Jeder Körper ist ein kommutativer Ring mit Eins.
Definition 4.3.8 Seien R, S Ringe. Ein Ringhomomorphismus ist eine Abbildung f :
R → S, für die gilt:
f (r1 + r2 ) = f (r1 ) + f (r2 )
f (r1 · r2 ) = f (r1 ) · f (r2 )
Definition 4.3.9 Ein Ring R heißt nullteilerfrei, wenn für alle Elemente r, s ∈ R gilt,
dass aus r · s = 0 folgt, dass r = 0 oder s = 0 gilt.
Definition 4.3.10 Sei R ein Ring mit 1, dann heißt die Menge
R× := {a ∈ R | ∃b ∈ R, so dass, a · b = b · a = 1}
Menge der Einheiten in R.
Beispiel 4.3.11
• Z× = {1, −1}
• Sei K ein Körper, dann ist K × = K\{0}.
Proposition 4.3.12 Sei R ein Ring mit 1, dann ist (R× , ·) eine Gruppe.
Beweis. Das neutrale Element in R× ist die 1, da 1 · 1 = 1.
Wenn a ∈ R× , dann gibt es ein b ∈ R, so dass a · b = b · a = 1 und damit liegt auch b ∈ R×
und ist das zu a inverse Element.
Das Assoziativgesetz überträgt sich direkt aus den Rechengesetzen im Ring R.
Die Menge der Einheiten ist abgeschlossen, denn wenn a, a0 ∈ R× , dann gibt es b, b0 ∈ R× ,
so dass a · b = a0 · b0 = 1 und damit gilt (a · a0 ) · (b0 · b) = a · a0 · b0 · b = a · 1 · b = a · b = 1.
4.4. Polynome
Definition 4.4.1 Sei K eine Körper, dann heißt ein formaler Ausdruck der Form
p(t) := an tn + an−1 tn−1 + · · · + a1 t + a0
46
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.4. POLYNOME
Polynom in der Unbekannten t mit Koeffizienten aus K. Wir bezeichnen die Menge
aller Polynome mit
K[t] := {p(t) | p(t) ist ein Polynom in t mit Koeffzienten aus K}.
Sei p(t) ein Polynom mit dem Koeffizienten an =
6 0 und ak = 0 für alle k > n, dann ist n
der Grad von p
deg p = n.
Ein Polynom vom Grad n heißt normiert, wenn an = 1.
Definition 4.4.2 Sei p ∈ K[t] ein Polynom, dann heißt α ∈ K Nullstelle von p, falls
gilt
p(α) = 0.
Proposition 4.4.3 Sei p ∈ K[t] ein Polynom und α ∈ K eine Nullstelle von p. Dann
gibt es ein Polynom q ∈ K[t] vom Grad deg q = deg p − 1, so dass gilt:
p(t) = (t − α)q(t).
Definition 4.4.4 Ein Polynom der Form (t − α) nennen wir einen Linearfaktor.
Sei p ∈ K[t] ein Polynom, wir sagen dass p in Linearfaktoren zerfällt, wenn es
α1 , . . . , αn ∈ K gibt, so dass gilt:
p(t) = an (t − α1 ) · . . . · (t − αn ).
Dabei ist n = deg p.
Wenn ein Polynom in Linearfaktoren zerfällt, dann sind seine Nullstellen durch αi (i =
1, . . . , n) gegeben, die nicht zwangsläufig verschieden sind.
Definition 4.4.5 Sei p ∈ K[t] ein Polynom und α ∈ K eine Nullstelle von p. Wir sagen,
dass α eine Nullstelle der Vielfachheit k ist, wenn es ein Polynom q ∈ K[t] gibt, so
dass
p(t) = (t − α)k q(t)
gilt, wobei α keine Nullstelle von q(t) ist, das heißt q(α) 6= 0.
Wenn ein Polynom in Linearfaktoren zerfällt, dann schreiben wir es meistens in der Form
p(t) = an (t − α1 )k1 · . . . · (t − αr )kr ,
47
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.4. POLYNOME
wobei die Nullstellen αi paarweise verschieden sind. In dieser Schreibweise kann man direkt
die Vielfachheiten der jeweiligen Nullstellen ablesen.
Definition 4.4.6 Sei p ∈ K[t] ein Polynom vom Grad deg p ≥ 1. Wir sagen, dass p
über K irreduzibel ist, wenn es nicht als Produkt zweier Polynome p1 , p2 ∈ K[t] mit
deg p1 < deg p und deg p2 < deg p geschrieben werden kann.
Wichtig bei dieser Definition ist, dass sie vom Körper K abhängt.
Beispiel 4.4.7 Ein Linearfaktor ist immer irreduzibel.
Polynome vom Grad 2 und 3 sind genau dann irreduzibel, wenn sie keine Nullstellen
besitzen.
Ein Polynom vom Grad 4 oder höher kann hingegen auch dann nicht irreduzibel sein,
wenn es keine Nullstellen besitzt. So ist zum Beispiel das Polynom p(t) = t4 + 1 über
dem Körper Q irreduzibel, wohingegen es über R in zwei irreduzible Faktoren vom Grad
2 zerfällt
√
√
t4 + 1 = (t2 + 2t + 1)(t2 − 2t + 1)
und über C sogar in Linearfaktoren zerfällt.
√
√
√
√
t4 + 1 = (t − 2(1 + i))(t − 2(1 − i))(t − 2(−1 + i))(t − 2(−1 − i))
Proposition 4.4.8 Sei f ∈ K[t] ein normiertes Polynom vom Grad 2
f (t) = t2 + pt + q,
p, q ∈ K. Dann hat dieses Polynom die Nullstellen
r
r
p
p2
p
p2
α1 = − +
− q α2 = − −
− q.
2
4
2
4
Diese liegen in K, vorausgesetzt die Zahl D = p2 − 4q ist ein Quadrat in K, das heißt es
gibt eine Zahl x ∈ K, so dass x2 = D.
Beweis. Wir müssen nachrechnen, dass (t − α1 )(t − α2 ) = f (t) gilt um zu zeigen, dass α1
und α2 Nullstellen von f sind:
(t − α1 )(t − α2 ) = t2 − (α1 + α2 )t + α1 · α2
!
r
r
2
2
p
p
p
p
−q− −
−q t+
= t2 − − +
2
4
2
4
!2
r
p p
p 2
2
p
= t2 − − −
t+ −
−
−q
2 2
2
4
p
− +
2
r
p2
−q
4
!
p
− −
2
r
p2
−q
4
!
= t2 + pt + q = f (t).
48
KAPITEL 4. ALGEBRAISCHE STRUKTUREN
4.4. POLYNOME
Es gibt ähnlich Formeln, die cardanischen Formeln, für die Berechnung von Nullstellen von
Polynomen dritten und vierten Grades. Allerdings sind diese Formeln bereits so kompliziert,
dass sie praktisch keine Bedeuting haben. Für Polynome höheren Grades hingegen gibt es
keine allgemeine Lösungsformel.
Beispiel 4.4.9 Wenn f (t) = t2 + pt + q ∈ R[t] ein normiertes Polynom vom Grad 2 ist,
dann hat diese Polynom entweder zwei verschiedene reelle Nullstellen, wenn p2 − 4q > 0
ist. Es hat eine reelle Nullstelle der Vielfachheit 2, wenn p2 − 4q = 0 ist. Ist hingegen
p2 − 4q < 0, dann ist das Polynom über R irreduzibel, hat aber über C zwei zueinander
konjugierte Nullstellen.
Die Beobachtung, dass sich die Koeffizienten eines Polynoms mithilfe der Nullstellen
ausdrücken lassen motiviert die folgende Definition
Definition 4.4.10 Sei p ∈ K[t] ein normiertes Polynom vom Grad n
p(t) = tn + an−1 tn−1 + · · · + a1 t + a0 .
Dann nennen wir Norm und Spur des Polynoms die folgenden Ausdrücke:
Norm(p) = (−1)n a0
Spur(p) = −an−1 .
Satz 4.4.11 Sei p ∈ K[t] ein normiertes Polynom vom Grad n mit den Nullstellen
α1 , . . . , αn (die eventuell auch in einem größeren Körper L mit K ⊆ L liegen können),
dann gilt:
Norm(p) = α1 · . . . · αn
Spur(p) = α1 + . . . + αn .
Beweis.
Dieser Satz hat eine wichtige Konsequenz für Polynome deren Koeffizienten in Z liegen.
Wenn dieses Polynom alle Nullstellen in Z hat, dann sind diese Nullstellen ein Teiler des
konstanten Terms a0 .
Beispiel 4.4.12 Wir betrachten das Polynom p(t) = t3 + 3t2 + 5t + 3 ∈ Z[t] Kandidaten
für ganzzahlige Nullstellen sind ±1 und ±3. Durch Probieren erhalten wir p(−1) = 0.
Also können wir schreiben p(t) = (t + 1)q(t), wobei q(t) ein Polynom vom Grad 2 ist.
Um dieses Polynom zu bestimmen verwenden wir Polynomdivision:
(t3 +
−(t3 +
3t2
+
2
t )
2t2 +
−(2t2 +
5t
+ 3) : (t + 1) = t2 + 2t + 3
5t
2t)
3t + 3
−(3t + 3)
49
5. Zahlenmengen
Nachdem wir bisher eher abstrakt mit Mengen und Abbildungen hantiert haben wollen wir
in diesem Kapitel die wichtigsten Zahlenmengen, die bereits aus der Schule bekannt sind,
genauer anschauen. Außerdem werden wir zwei Mengen kennenlernen, die interessante
Eigenschaften haben und uns deshalb öfter begegnen werden.
5.1. Die natürlichen Zahlen
Kronecker sagte:
Die natürlichen Zahlen sind gottgegeben, alles andere ist Menschenwerk.
Definition 5.1.1 (Die Peano-Axiome)
Die natürlichen Zahlen bilden eine Menge N in der ein Element 0 existiert und es eine
Abbildung s : N → N gibt, so dass gilt:
i) s ist injektiv,
ii) 0 ∈
/ s(N),
iii) für jede Menge M ⊂ N mit den Eigenschaften
a) 0 ∈ M
b) s(M ) ⊆ M
gilt: M = N.
Wir nennen den Nachfolger der Zahl 0 die Eins 1 := s(0) und können so eine Vorschrift für
die Abbildung s (engl. “successor=Nachfolger”) angeben
s:N→N
n 7→ n + 1.
Somit lassen sich alle Elemente aus N durch sukzessives Anwenden der Nachfolgerabbildung
s konstruieren, n := (s ◦ s ◦ s ◦ · · · ◦ s ◦ s)(0) = 1 + 1 + · · · + 1.
|
{z
}
|
{z
}
n−mal
n−mal
Direkt aus den Peano-Axiomen erhalten wir das wichtige Beweisprinzip der vollständigen
Induktion.
Satz 5.1.2 (Beweisprinzip der vollständigen Induktion)
Sei A(n) eine Aussage über eine natürliche Zahl n. Es gelte:
i) Der Induktionsanfang: A(0) ist wahr.
50
KAPITEL 5. ZAHLENMENGEN
5.1. DIE NATÜRLICHEN ZAHLEN
iI) Der Induktionsschritt: Für alle n ∈ N gilt: wenn A(n) wahr ist, dann ist auch
A(n + 1) wahr.
Dann ist A(n) wahr für alle n ∈ N.
Beweis. Der Beweis folgt direkt aus Punkt iii) in Definition 5.1.1, wobei wir die Menge
M = {n ∈ N | A(n) ist wahr} betrachten. Aus i) folgt, dass 0 ∈ M und somit a). Aus der
Forderung ii) folgt, dass s(M ) ⊆ M ist und damit Punkt b). Somit ist M = N und die
Aussage A(n) ist für alle n ∈ N wahr.
Bemerkung 5.1.3 Der Induktionsanfang muss nicht immer null sein. Normalerweise
wählt man die kleinste Zahl n0 ∈ N, so dass A(n0 ) wahr ist.
Notation 5.1.4 Zur einfacheren und kompakteren Schreibung von Summen und Produkten, verwenden wir folgende Bezeichnungen:
n
X
i=n0
n
Y
ai := an0 + an0 +1 + . . . + an
ai := an0 · an0 +1 · . . . · an
i=n0
Beispiel 5.1.5 Wir beweisen die Formel für die Summe der ersten n natürlichen Zahlen.
Sei also
n
X
n(n + 1)
.
A(n) :
i = 1 + 2 + 3 + ... + n =
2
i=1
Für den Beweis prüfen wir zunächst den Induktionsanfang und wählen dafür n = 1. Wir
müssen also zeigen, dass A(1) wahr ist, d. h. ob die Formel stimmt, wenn wir für n = 1
setzen. Dies ist richtig, da
1
X
i=1
i=1
und ebenso
1(1 + 1)
= 1.
2
Nun nehmen wir an, dass die Formel A(n) für ein beliebiges (aber festes) n ∈ N wahr ist
51
KAPITEL 5. ZAHLENMENGEN
5.1. DIE NATÜRLICHEN ZAHLEN
und folgern daraus, dass sie auch für den Nachfolger n + 1 stimmt. Dafür rechnen wir:
n+1
X
i=
i=1
n
X
i + (n + 1)
Aufspalten der Summe
i=1
n(n + 1)
+ (n + 1)
Verwenden der Voraussetzung, dass A(n) wahr ist
2
n(n + 1) + 2(n + 1)
=
Hauptnenner bilden
2
(n + 1)(n + 2)
=
(n + 1) ausklammern
2
P
(n+1)(n+2)
Insgesamt gilt also n+1
, was wir auch erhalten, wenn wir A(n + 1)
i=1 i =
2
ausrechnen. Somit ist der Induktionsschritt bewiesen und die Formel A(n) gilt für alle
n ≥ 1.
=
Definition 5.1.6 Wir definieren zwei Verknüpfungen auf N durch
+:N×N→N
·:N×N→N
(n, m) 7→ n + m = 1 + 1 + · · · + 1
|
{z
}
n+m−mal
(n, m) 7→ n · m = 1 + 1 + · · · + 1
{z
}
|
n·m−mal
Proposition 5.1.7 Für die Verknüpfungen + und · auf N gilt:
• das Assoziativgesetz
• das Kommutativgesetz
• das Distributivgesetz
• 0 ist das neutrale Element der Addition
• 1 ist das neutrale Element der Multiplikation
Aber es gibt für beide Verknüpfungen keine inversen Element in N, somit ist N mit keiner
Verknüpfung eine Gruppe und daher auch kein Ring.
Proposition 5.1.8 Die Relation ≤ auf N, die durch
n≤m
:⇔
∃c ∈ N, s. d. n + c = m
definiert ist, ist eine totale Ordnungsrelation.
Beweis. Wir zeigen die Eigenschaften einer Ordnungsrelation
i. Reflexivität: da n + 0 = n gilt n ≤ n.
52
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
ii. Transitivität: Sei n ≤ m und m ≤ p, dann gibt es c1 , c2 ∈ N, so dass n + c1 = m und
m + c2 = p. Daraus folgt, dass n + (c1 + c2 ) = p und somit n ≤ p.
iii. Antisymmetrie: Aus n ≤ m und m ≤ n, folgt dass n + c1 = m und m + c2 = n und
somit n + c1 + c2 = n. Da c1 , c2 ∈ N muss also c1 = c2 = 0 sein um diese Gleichung
zu erfüllen. Und daher ist n = m.
Die Ordnung ist total, da entweder n + c = m gilt oder m + c = n und somit zwei natürliche
Zahlen immer vergleichbar sind.
Definition 5.1.9 Sei M eine Menge und f : M → N eine Bijektion. Dann nennt man
die Mächtigkeit der Menge M abzählbar unendlich.
Insbesondere sind die natürlichen Zahlen selbst abzählbar unendlich.
5.2. Die ganzen Zahlen
Da in N keine Inversen bezüglich der Addition enhalten sind, lassen sich nicht alle Gleichungen der Form a + x = b, mit gegebenen a, b ∈ N lösen. Um dieses Problem zu beheben
definieren wir die ganzen Zahlen.
Definition 5.2.1 Sei −1 die Lösung der Gleichung 1 + x
−n := (−1) + (−1) + · · · + (−1). Die Menge
{z
}
|
=
0 und sei
n−mal
Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . . }
heißt die Menge der ganzen Zahlen.
Wir setzen die Verknüpfungen + und · auf die ganzen Zahlen fort.
Proposition 5.2.2 (Z, +, ·) ist ein kommutativer nullteilerfreier Ring.
Bemerkung 5.2.3 Die Notwendigkeit die ganzen Zahlen zu betrachten entsteht sobald
wir Differenzen natürlicher Zahlen berechnen wollen. So ist zum Beispiel −2 = 3 − 5.
Allerdings ist dies nicht die einzige Möglichkeit die Zahl −2 als Differenz natürlicher
Zahlen zu schreiben, weitere Möglichkeiten sind
−2 = 1 − 3 = 7 − 9 = 1000 − 1002.
Allgemein gilt: Wenn eine ganze Zahl z die Differenz von m und n ist, dann gilt auch
z = m − n = (m + a) − (n + a),
wobei a ∈ N eine beliebige Zahl ist.
53
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
Dies motiviert die alternative und formal korrektere Methode die ganzen Zahlen mithilfe
von Äquivalenzrelationen aus N zu konstruieren.
Dafür betrachten wir das kartesische Produkt N × N und definieren darauf eine
Äquivalenzrelation
(m, n) ∼ (m0 , n0 ) : ⇔ m + n0 = m0 + n.
Die ganzen Zahlen werden nun als Menge der Äquivalenzklassen definiert:
Z := (N × N)/∼
Wir stellen zunächst fest, dass für eine feste Zahl a ∈ N immer
(m, n) ∼ (m + a, n + a),
da
m + (n + a) = (m + a) + n
gilt. Somit liegen zwei Zahlenpaare (m, n) und (m0 , n0 ) genau dann in der selben
Äquivalenzklasse, wenn ihre Differenz gleich ist
m − n = m0 − n0 .
Auf der Menge der Äquivalenzklassen wollen wir nun eine Addition und eine Multiplikation definieren.
+:
·:
Z×Z→Z
(m1 , n1 ), (m2 , n2 ) 7→ (m1 , n1 ) + (m2 , n2 ) := (m1 + m2 , n1 + n2 ),
Z×Z→Z
(m1 , n1 ), (m2 , n2 ) 7→ (m1 , n1 ) · (m2 , n2 ) := (m1 m2 + n1 n2 , m1 n2 + n1 m2 ).
Warum diese Verknüpfungen so definiert werden müssen, sieht man, wenn man die
Zahlen m1 − n1 und m2 − n2 miteinander addiert, bzw multipliziert
(m1 − n1 ) + (m2 − n2 ) = (m1 + m2 ) − (n1 + n2 ).
Der positive Teil des Ergebnisses entspricht der ersten Komponente von (m1 , n1 )+(m2 , n2 )
und der negative Teil der zweiten Komponente. Für die Multiplikation erhalten wir
(m1 − n1 ) · (m2 − n2 ) = (m1 m2 + n1 n2 ) − (m1 n2 + n1 m2 ).
Der positive Teil des Ergebnisses entspricht der ersten Komponente von (m1 , n1 )·(m2 , n2 )
und der negative Teil der zweiten Komponente.
Beide Verknüpfungen sind wohldefiniert. Um dies zu zeigen seien
(m1 , n1 ) ∼ (m01 , n01 ),
(m2 , n2 ) ∼
(m02 , n02 ),
⇔
⇔
m1 + n01 = m01 + n1
m2 +
n02
=
m02
+ n2 .
(5.1)
(5.2)
Für die Wohldefiniertheit der Addition müssen wir jetzt zeigen, dass gilt:
(m1 , n1 ) + (m2 , n2 ) ∼ (m01 , n01 ) + (m02 , n02 )
⇔
(m1 + m2 , n1 + n2 ) ∼ (m01 + m02 , n01 + n02 )
⇔
(m1 + m2 ) + (n01 + n02 ) = (m01 + m02 ) + (n1 + n2 )
(5.3)
54
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
Dafür genügt es die Gleichungen (5.1) und (5.2) zu addieren um
(m1 + n01 ) + (m2 + n02 ) = (m01 + n1 ) + (m02 + n2 )
⇔ (m1 + m2 ) + (n01 + n02 ) = (m01 + m02 ) + (n1 + n2 )
zu erhalten. Dies entspricht aber genau Gleichung (5.3).
Für die Wohldefiniertheit der Multiplikation müssen wir zeigen, dass gilt:
(m1 , n1 ) · (m2 , n2 ) ∼ (m01 , n01 ) · (m02 , n02 )
⇔
(m1 m2 + n1 n2 , m1 n2 + n1 m2 ) ∼ (m01 m02 + n01 n02 , m01 n02 + n01 m02 )
⇔
(m1 m2 + n1 n2 ) + (m01 n02 + n01 m02 ) = (m01 m02 + n01 n02 ) + (m1 n2 + n1 m2 )
(5.4)
Dafür multiplizieren wir (5.1) und (5.2), addieren auf beiden Seiten der Gleichung den
Term n01 n02 + n1 n2 und erhalten so
(m1 + n01 ) · (m2 + n02 ) = (m01 + n1 ) · (m02 + n2 )
⇔
⇔
m1 m2 + m1 n02 + n01 m2 + n01 n02 = m01 m02 + m01 n2 + n1 m02 + n1 n2
(m1 m2 + m1 n02 + n01 m2 + n01 n02 ) + (n01 n02 + n1 n2 ) =
(m01 m02 + m01 n2 + n1 m02 + n1 n2 ) + (n01 n02 + n1 n2 )
m1 m2 + n1 n2 + n01 (m2 + n02 ) + (n01 + m1 )n02 = m01 m02 + n01 n02 + (m01 + n1 )n2 + n1 (m02 + n2 )
⇔
Nun verwenden noch einmal die Gleichungen (5.1) und (5.2) und die Ausdrücke in den
Klammern zu ersetzen und erhalten somit
m1 m2 + n1 n2 + n01 (m02 + n2 ) + (n1 + m01 )n02 = m01 m02 + n01 n02 + (m1 + n01 )n2 + n1 (m2 + n02 )
⇔
m1 m2 + n1 n2 + n01 m02 + n01 n2 + n1 n02 + m01 n02 = m01 m02 + n01 n02 + m1 n2 + n01 n2 + n1 m2 + n1 n02
im letzten Schritt subtrahieren wir auf beiden Seiten −n01 n2 − n02 n1 wodurch wir
m1 m2 + n1 n2 + n01 m02 + m01 n02 = m01 m02 + n01 n02 + m1 n2 + n1 m2
erhalten. Dies entspricht aber nach Umsortieren genau Gleichung (5.4).
Wir können nun nachrechnen, dass die Menge Z mit diesen Verknüpfungen ein Ring
bildet. Dabei können wir im wesentlichen die Rechenregeln auf die Rechenregeln in den
natürlichen Zahlen N zurückführen.
(Z, +) ist eine abelsche Gruppe
• [(0, 0)]
ist
neutrales
[(m, n)] + [(0, 0)] = [(m + 0, n + 0)] = [(m, n)] gilt.
Element,
da
• [(n, m)] ist das zu [(m, n)] inverse Element, da [(m, n)] + [(n, m)] =
[(m + n, n + m)] = [(0, 0)] gilt.
• Es gilt das Kommutativgesetz, da [(m, n)] + [(m0 , n0 )] = [(m + m0 , n + n0 )] =
[(m0 + m, n0 + n)] = [(m0 , n0 )] + [(m, n)] aufgrund des Kommutativgesetzes in
N.
• Es gilt das Assoziativgesetz, aufgrund des Assoziativgesetzes in N.
(Z, +, ·) ist ein kommutativer Ring mit Eins
• [(1, 0)] ist neutrales Element der
Multiplikation, da [(m, n)] · [(1, 0)] = [(m · 1 + n · 0, m · 0 + n · 1)] = [(m, n)]
gilt.
•
55
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
Satz 5.2.4 Z ist abzählbar.
Beweis. Wir definieren eine Abbildung von N nach Z durch
f :N→Z
n
n 7→
2
n 7→ −
wenn n gerade
n+1
2
wenn n ungerade
und behaupten, dass diese Abbildung eine Bijektion ist. Um dies zu zeigen verwenden wir
Satz 3.2.13 und definieren eine zu f inverse Abbildung:
g:Z→N
m 7→ 2m
wenn m ≥ 0
m 7→ −(2m + 1)
wenn m < 0
Wir können nachrechnen, dass g ◦ f = idN , denn wenn n gerade ist, dann gilt g(f (n)) =
g( n2 ) = 2 · n2 = n, da n2 ≥ 0. Wenn n ungerade ist, dann ist g(f (n)) = g(− n+1
2 ) =
n+1
− 2(− 2 ) + 1 = n. Ebenso können wir prüfen, dass f ◦ g = idZ .
Definition 5.2.5
• Seien n, m ∈ Z. Wir sagen “n teilt m” und schreiben n|m
genau dann, wenn es c ∈ Z gibt, so dass n · c = m.
• Seien n, m ∈ Z. d heißt größter gemeinsamer Teiler von n und m und wir
schreiben d = ggT(n, m), wenn d|n und d|m und außerdem muss gelten dass jede
Zahl d0 , für die gilt d0 |n und d0 |m, dass dann auch d0 |d.
• n, m ∈ Z heißen teilerfremd, wenn ggT(n, m) = 1.
• p ∈ Z heißt prim, wenn aus n|p folgt, dass n = ±1 oder n = ±p.
Proposition 5.2.6 Der größte gemeinsame Teiler ist bis auf ein Vorzeichen eindeutig
bestimmt.
Beweis. Angenommen d1 und d2 sind größte gemeinsame Teiler der Zahlen n und m. Aus
der Definition des ggT folgt, dass dann sowohl d1 |d2 als auch d2 |d1 . Somit gibt es Zahlen
c1 , c2 ∈ Z für die d1 · c1 = d2 und d2 · c2 = d1 gilt. Daraus folgt d2 · c2 · c1 = d2 , was
gleichbedeutend mit c1 · c2 = 1 ist und daraus folgt, dass c1 = ±1 und c2 = ±1.
Satz 5.2.7 (Division mit Rest)
Sei a ∈ Z und b ∈ N, dann gibt es eindeutig bestimmte Zahlen q ∈ Z und
r ∈ {0, 1, 2, . . . , b − 1} so dass gilt
a = q · b + r.
(5.5)
56
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
Beweis. Zunächst zeigen wir die Existenz einer solchen Darstellung. Dafür betrachten wir
die Menge M = {x ∈ Z | a − bx ≥ 0}, die ein größtes Element q besitzt. Wir setzen dann
r := a−bq, wodurch folgt, dass r ≥ 0, da q ∈ M . Es gilt aber auch r < q, denn angenommen
r ≥ q, dann wäre r−q = a−bq−q = a−q(b+1) ≥ 0 im Widerspruch zur Definition von q als
maximales Element in M . Aus der Definition von r folgt die Existenz einer Darstellung (5.5).
Um die Eindeutigkeit dieser Darstellung zu zeigen, nehmen wir an es gäbe zwei verschiedenen
Darstellung
a = q1 · b + r1 = q2 · b + r2 .
(5.6)
Wir können ohne Beschränkung der Allgemeinheit annehmen, dass r1 ≤ r2 ist (sonst
vertauschen wir die Rollen.) Aus Gleichung (5.6) folgt die Gleichung r2 − r1 = b(q1 − q2 )
und somit ist r2 − r1 ein Vielfaches von b. Andererseits folgt aus 0 ≤ r1 ≤ r2 < b, dass
0 ≤ r2 − r1 < b. Beides zusammen ist nur möglich, wenn r2 − r1 = 0, woraus wiederum
q1 − q2 = 0 folgt und damit die Behauptung.
Satz 5.2.8 (Euklidischer Algorithmus)
Seien a, b ∈ Z wobei a > b. Wir setzen r0 = a, r1 = b und definieren rekursiv Zahlen
rk+2 ∈ Z durch die Division mit Rest von rk durch rk+1 :
rk = qk rk+1 + rk+2 ,
wobei rk+2 < rk+1
Wenn rn+1 = 0 und rn 6= 0, dann ist rn = ggT(a, b).
Beweis. Zuerst bemerken wir, dass rk+1 < rk , wodurch die Folge der rk nach endlich vielen
Schritten null wird.
Um zu sehen, dass dieses Verfahren den größten gemeinsamen Teiler liefert, schreiben wir
einige Schritte hin
a = q1 b + r2
0 < r2 < b
(5.7)
b = q2 r2 + r3
0 < r3 < r2
(5.8)
r2 = q3 r3 + r4
..
.
0 < r4 < r3
..
.
(5.9)
rn−3 = qn−2 rn−2 + rn−1
0 < rn−1 < rn−2
(5.10)
rn−2 = qn−1 rn−1 + rn
0 < rn < rn−1
(5.11)
rn−1 = qn rn + 0
(5.12)
Wenn d|a und d|b, dann gilt d|r2 , denn aus a = d · ca und d · cb folgt aus Zeile (5.7), dass
d · (ca − q1 cb ) = r2 gilt. Da wir nun wissen, dass d|r2 und d|b folgt aus Zeile (5.8), dass
auch d|r3 gilt. Auf diese Weise können wir sukzessive zeigen, dass d|rn . Also ist jeder Teiler
von a und b auch ein Teiler von rn .
Umgekehrt folgt aus Zeile (5.12), dass jeder Teiler von rn auch ein Teiler von rn−1 ist. Aus
Zeile (5.11) folgt, dass Teiler von rn und rn−1 auch rn−2 teilen, etc. Letztendlich teilt also
rn auch a und b.
57
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
Satz 5.2.9 Seien a, b ∈ Z und d = ggT(a, b). Dann gibt es Zahlen x, y ∈ Z für die gilt:
ax + by = d.
Beweis. Der Beweis dieser Aussage erfolgt mithilfe des sogenannten erweiterten euklidischen Algorithmus. Wir verwenden dafür die Gleichungen (5.7)-(5.12) des euklidischen
Algorithmus und setzen diese ineinander ein.
Da d = rn ist erhalten wir aus Zeile (5.11) d = rn = rn−2 − qn−1 rn−1 . In dieser Gleichung
können rn−1 durch Zeile (5.10) ersetzen und erhalten d = rn = rn−2 − qn−1 rn−1 =
rn−2 − qn−1 (rn−3 − qn−2 rn−2 ), usw. Durch sukkessives Einsetzen aller Gleichungen bis hin
zu Zeile (5.7) erhalten wir einen Ausdruck in a und b.
Beispiel 5.2.10 Wir wollen den größten gemeinsamen Teiler der Zahlen a = 299 und
b = 104 bestimmen. Dafür rechnen wir
299 = 2 · 104 + 91
104 = 1 · 91 + 13
91 = 7 · 13 + 0
Somit ist also ggT(299, 104) = 13. Zur Bestimmung der Zahlen x und y aus Satz 5.2.9
beginnen wir mit der vorletzten Zeile und ersetzen im nächsten Schritt 91 durch die
erste Zeile:
13 = 104 − 91
= 104 − (299 − 2 · 104) = 3 · 104 + (−1) · 299
Wichtig beim Berechnen der Zahlen x und y ist, dass immer nur die Ausdrücke vor den
Zahlen rk zusammengefasst werden dürfen.
Satz 5.2.11 Sei a ∈ N und b ∈ N mit b > 1. Dann hat a eine eindeutige Darstellung
der Form
n
X
a=
ai bi
ai ∈ {0, 1, . . . , b − 1}.
(5.13)
i=0
Beweis. Wir zeigen diese Aussage mithilfe vollständiger Induktion für alle a < bn+1 .
Induktionsanfang: Sei n = 0. Wir müssen die Aussage also für alle a < b zeigen. In diesem
Fall ist a0 = a und ai = 0 für alle i > 0. Diese Darstellung ist nach Satz 5.2.7 eindeutig.
Induktionsschritt: Wir nehmen an für alle Zahlen a < bn können wir zeigen, dass es eine
Darstellung der Form (5.13) gibt. Wir müssen zeigen, dass es dann diese Darstellung
auch für alle Zahlen a < bn+1 gibt. Um dies zu sehen teilen wir a durch b mit Rest,
d. h. a = qb + r, dabei ist 0 ≤ r < b und q < bn . Denn wäre q ≥ bn , dann wäre
a = qb+r ≥ qb ≥ bn b = bn+1 im Widerspruch zur Annahme. Nach Induktionsvoraussetzung
58
KAPITEL 5. ZAHLENMENGEN
5.2. DIE GANZEN ZAHLEN
P
i
hat q eine eindeutig bestimmte Darstellung der Form (5.13) q = n−1
i=0 qi b . Durch Einsetzen
erhalten wir nun
n−1
n
X
X
a = qb + r = (
qi bi )b + r =
ai bi
i=0
i=0
wobei a0 = r und ai+1 = qi .
Definition 5.2.12 Sei a ∈ N und b ∈ N mit b > 1. Die b-adische Darstellung von a
ist durch a = (an an−1 . . . a1 a0 )b gegeben, wobei die ai durch Gleichung (5.13) definiert
sind.
Für b = 10 erhalten wir die übliche Dezimaldarstellung von Zahlen.
Für b = 2 heißt a = (an an−1 . . . a1 a0 )2 mit ai ∈ {0, 1} Binärdarstellung.
Für b = 16 heißt a = (an an−1 . . . a1 a0 )16 mit ai ∈ {0, 1, . . . , 9, A, B, C, D, E, F } Hexadezimaldarstellung.
Beispiel 5.2.13 Wir wollen die Zahl 23 (in Dezimaldarstellung) als Binärzahl schreiben.
Dafür zerlegen wir 23 in Zweierpotenzen
23 = 16 + 4 + 2 + 1 = 1 · 24 + 0 · 23 + 1 · 22 + 1 · 21 + 1 · 20
und somit hat (23)10 die Binärdarstellung (10111)2 .
Alternativ erhalten wir diese Darstellung indem wir wie im Beweis zu Satz 5.2.11
vorgehen.
23 =11 · 2 + 1
= 11 · 2 + a0
11 =5 · 2 + 1
= 5 · 2 + a1
5 =2 · 2 + 1
= 2 · 2 + a2
2 =1 · 2 + 0
= 1 · 2 + a3
1 =0 · 2 + 1
= 0 · 2 + a4
Wir erhalten wenn wir die Reste von unten nach oben lesen wiederum die Binärdarstellung
(a4 a3 a2 a1 a0 )2 = (10111)2 .
Um die Hexadezimaldarstellung zu berechnen gehen wir analog vor, nur dass wir jetzt
die Zahl als Summe von 16er Potenzen schreiben, bzw. eine Division mit Rest durch 16
durchführen.
975 = 3 · 256 + 12 · 16 + 15 = 3 · 162 + 12 · 161 + 15 · 160
und somit erhalten wir die Hexadezimaldarstellung (975)10 = (3CF )16 . Wir haben dabei
die Symbole A = 10, B = 11, C = 12, D = 13, E = 14, F = 15 verwendet.
Wir erhalten dasselbe Ergebnis wenn wir rechnen
975 = 60 · 16 + 15
= 60 · 16 + F
60 = 3 · 16 + 12
= 3 · 16 + C
3 = 0 · 16 + 3
= 0 · 16 + 3
59
KAPITEL 5. ZAHLENMENGEN
5.3. DIE RATIONALEN ZAHLEN
5.3. Die rationalen Zahlen
Da in Z keine Inversen bezüglich der Multiplikation enhalten sind, lassen sich nicht alle
Gleichungen der Form a · x = b, mit gegebenen a, b ∈ Z lösen. Um dieses Problem zu
beheben definieren wir die rationalen Zahlen.
Definition 5.3.1 Auf der Menge Z × Z\{0} definieren wir eine Relation durch
(p, q) ∼ (p0 , q 0 )
pq 0 = p0 q.
⇔
Proposition 5.3.2 Die Relation ∼ auf der Menge Z × Z\{0} ist eine Äquivalenzrelation.
Beweis. Die Relation ist
reflexiv: es gilt pq = pq und somit ist (p, q) ∼ (p, q)
symmetrisch: es gilt pq 0 = p0 q = pq 0 und somit gilt (p, q) ∼ (p0 , q 0 ) genau dann wenn
(p0 , q 0 ) ∼ (p, q).
transitiv: Wenn (p, q) ∼ (p0 , q 0 ) und (p0 , q 0 ) ∼ (p00 , q 00 ) gilt, dann bedeutes dies pq 0 = p0 q
und p0 q 00 = p00 q 0 . Durch Multiplikation dieser Gleichungen mit q 00 , bzw q erhalten wir
pq 0 q 00 = p0 qq 00
p0 q 00 q = p00 q 0 q
pq 0 q 00 = p00 q 0 q
⇒
⇒
pq 00 = p00 q
Und daher ist (p, q) ∼ (p00 , q 00 ). Im letzten Schritt verwenden wir, dass q 6= 0 und dass
der Ring der ganzen Zahlen nullteilerfrei ist.
Definition 5.3.3 Die Menge der Äquivalenzklassen der Relation ∼ auf der Menge
Z × Z\{0} heißt Menge der rationalen Zahlen
Q := Z × Z\{0}/∼ = {[(p, q)] | p, q ∈ Z, q 6= 0}.
Wir schreiben
p
q
für die Äquivalenzklasse [(p, q)].
Wir wollen hier erklären, warum es notwendig ist die rationalen Zahlen mithilfe der
Äquivalenzrelation zu erklären. Auf dem ersten Blick könnte man die rationalen Zahlen als
geordnetes Paar von ganzen Zahlen (Zähler, Nenner) definieren, wobei der Nenner nicht
null werden darf. Allerdings ist das geordnete Paar (1, 2) ungleich dem geordneten Paar
(2, 4). Als Bruch hingegen sind diese beiden Elemente gleich 12 = 24 , da man den zweiten
Bruch kürzen kann und so den ersten erhält.
Genau diese Eigenschaft der rationalen Zahlen, dass man durch Kürzen oder Erweitern
dieselbe Zahl erhält, steckt nun in der Äquivalenzrelation. Denn sind zwei Brüche gleich,
dann erhalten wir durch Multiplikation mit beiden Nennern
p
p0
= 0
q
q
⇒
pq 0 = p0 q
60
KAPITEL 5. ZAHLENMENGEN
5.3. DIE RATIONALEN ZAHLEN
also die Äquivalenzrelation. In der Äquivalenzklasse eines Bruches pq liegen also alle Brüche,
die man durch Kürzen oder Erweitern aus pq erhält. Jedes Element der Äquivalenzklasse
ist dann eine andere Darstellung desselben Elements aus Q.
Definition 5.3.4 Wir definieren auf der Menge Q zwei Verknüpfungen
+:Q×Q→Q
p1 p2
p1 p2
p q + p 2 q1
:= 1 2
( , ) 7→
+
q1 q2
q1
q2
q1 q2
und eine Relation
·:Q×Q→Q
p1 p2
p1 p2
p p
:= 1 2
( , ) 7→
·
q1 q2
q1 q2
q1 q2
p1
p2
≤
⇔ p1 q2 ≤ p2 q1 .
q1
q2
Satz 5.3.5 (Q, +, ·) ist ein Körper mit einer Totalordnung ≤.
Beweis. Wir zeigen zunächst die Wohldefiniertheit der Verknüpfungen. Der Begriff Wohldefiniertheit bedeutet für Verknüpfungen, die auf Äquivalenzklassen definiert sind, insbesondere,
dass es egal ist, welchen Repräsentanten der Äquivalenzklasse man wählt.
Seien also (p1 , q1 ) ∼ (p01 , q10 ) zwei Repräsentanten desselben Bruches, sowie (p2 , q2 ) ∼ (p02 , q20 ).
Somit gilt
p1 q10 = p01 q1
(5.14)
p2 q20
(5.15)
=
p02 q2
Wir wollen zeigen, dass nun auch (p1 , q1 )+(p2 , q2 ) ∼ (p01 , q10 )+(p02 , q20 ) und (p1 , q1 )·(p2 , q2 ) ∼
(p01 , q10 ) · (p02 , q20 ).
Um die Wohldefiniertheit der Addition zu zeigen, addieren wir die Gleichungen (5.14) und
(5.15) und erhalten
p1 q10 + p2 q20 = p01 q1 + p02 q2
⇒
(p1 , q1 ) + (p2 , q2 ) = (p1 + p2 , q1 + q2 ) ∼ (p01 + p02 , q10 + q20 ) = (p01 , q10 ) + (p02 , q20 )
Für die Wohldefiniertheit der Multiplikation multiplizieren wir Gleichung (5.14) mit q2 q20
und Gleichung (5.14) mit q1 q10 und addieren diese
(p1 q10 )(q2 q20 ) = (p01 q1 )(q2 q20 )
und
(p2 q20 )(q1 q10 ) = (p02 q2 )(q1 q10 )
⇒
p1 q10 q2 q20 + p2 q20 q1 q10 = p01 q1 q2 q20 + p02 q2 q1 q10
⇒
(p1 q2 + p2 q1 )q10 q20 = (p01 q20 + p02 q10 )q1 q2
Die letzte Zeile bedeutet aber genau, dass gilt
(p1 , q1 ) · (p2 , q2 ) = (p1 q2 + p2 q1 , q1 q2 ) ∼ (p01 q20 + p02 q10 , q10 q20 ) = (p01 , q10 ) · (p02 , q20 ).
Nun bleibt zu zeigen, dass (Q, +, ·) ein Körper ist.
(Q, +) ist eine abelsche Gruppe:
61
KAPITEL 5. ZAHLENMENGEN
•
0
1
•
−p
q
5.4. DIE REELLEN ZAHLEN
ist das neutrale Element, da
ist das zu
p
q
p
q
+
0
1
inverse Element, da
=
p
q
p·1+0·q
q·1
+
−p
q
=
=
p
q
gilt.
pq+(−p)q
qq
=
0
qq
= 01 .
• Das Kommutativgesetz und das Assoziativgesetz folgt direkt aus den entsprechenden Gesetzen in Z.
(Q\{ 10 }, ·) ist eine abelsche Gruppe:
•
•
1
1
q
p
ist das neutrale Element, da
ist das zu
p
q
inverse Element,
p
q
p·1
p
1
1 = q·1 = q gilt.
1
da pq · pq = pq
qp = 1 .
·
• Das Kommutativgesetz und das Assoziativgesetz folgt direkt aus den entsprechenden Gesetzen in Z.
Das Distributivgesetz folgt direkt aus dem entsprechenden Gesetz in Z.
Satz 5.3.6 Q ist abzählbar.
Beweis. Wir verwenden folgende Schreibweise für die rationalen Zahlen (wir schreiben ein
mögliches Minuszeichen immer in den Nenner):
na
o
Q=
| a ∈ Z und b ∈ N>0 .
b
Um die Bijektion zu konstruieren legen wir folgendes Schema zugrunde:
. . . −3 −2 −1 0
1
2
3
...
1
...
−3
1
−2
1
−1
1
0
1
1
1
2
1
3
1
...
2
...
−3
2
−2
2
−1
2
0
2
1
2
2
2
3
2
...
3
...
.
..
−3
3
−2
3
−1
3
0
3
1
3
2
3
3
3
..
.
..
.
..
.
..
.
..
.
..
.
..
.
...
..
.
In der oberen Zeile stehen die Werte des Zählers und in der linken Spalte die des Nenners.
Der Eintrag in der m-ten Spalte (die nullte ist die mittlere) und der n-ten Zeile ist m
n . So
sind alle Elemente von Q enthalten. Weil jeder Bruch unendlich viele Darstellungen besitzt
und jede dieser Darstellungen in dieser Tabelle vorkommt, ist sogar jedes Element von Q
unendlich oft enthalten. Die Forderung, dass die Abbildung bijektiv ist, jedes Element also
nur einmal getroffen wird, muss besonders berücksichtigt werden. Die Abbildung verläuft
im Halbkreiszickzack von 0 nach außen:
f : N −→ Q, 0 7→ 0, 1 7→
−1
−1
1
1
2
2
1
, 2 7→
, 3 7→ , 4 7→ , 5 7→ , 6 7→ , 7 7→
1
2
2
1
1
3
3
Eigentlich hätte man 6 7→ 22 abbilden müssen, aber da
da er bereits getroffen wurde.
2
2
=
1
1
wird dieser Wert ausgelassen,
5.4. Die reellen Zahlen
Auch in den rationalen Zahlen ist es nicht möglich alle Gleichungen zu lösen. So hat die
Gleichung x2 = 2 keine Lösung x ∈ Q. Auch Zahlen wie e und π sind nicht rational.
62
KAPITEL 5. ZAHLENMENGEN
5.5. DIE KOMPLEXEN ZAHLEN
Zur Definition der reellen Zahlen benötigen wir Begriffe wir Folgen Grenzwerte und
Vollständigkeit, mit denen wir uns im nächsten Semester genauer beschäftigen werden.
Satz 5.4.1 Die Menge der reellen Zahlen R sind ein vollständiger archimedisch angeordneter Körper.
Satz 5.4.2 R ist nicht abzählbar.
Die Beweise zu beiden Sätzen verschieben wir in die Vorlesung IMI2.
5.5. Die komplexen Zahlen
Auch in den reellen Zahlen gibt es immer noch Gleichungen, die keine Lösung besitzen.
Die Gleichung z 2 = −1 ist durch kein z ∈ R lösbar.
Unser Ziel besteht jetzt also darin eine Zahlenmenge zu konstruieren, in der diese Gleichung
eine Lösung hat und die immer noch ein Körper ist. Dafür betrachten wir die Menge R2
und wollen sie mit einer geeigneten Addition und Multiplikation versehen.
Definition 5.5.1 Die komplexen Zahlen C sind die Menge R2 = {(x, y) | x, y ∈ R}
mit den Verknüpfungen
+:C×C→C
(x1 , y1 ), (x2 , y2 ) 7→ (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 )
·:C×C→C
(x1 , y1 ), (x2 , y2 ) 7→ (x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 )
(5.16)
(5.17)
Satz 5.5.2 (C, +, ·) ist ein Körper
Beweis. Wir müssen beweisen, dass (C, +) und (C\{(0, 0)}, ·) abelsche Gruppen sind und
dass das Distributivgesetz gilt.
(C, +) ist abelsche Gruppe
• (0, 0) ist das neutrale Element, da (x, y) + (0, 0) = (x +
0, y + 0) = (x, y) gilt. Wir verwenden hier die Tatsache, dass x, y ∈ R und 0 das
neutrale Element der Addition in R ist.
• Das zu (x, y) inverse Element ist −(x, y) = (−x, −y), denn (x, y) + (−x, −y) =
(x − x, y − y) = (0, 0), wobei wir benutzen, dass −x das zu x inverse Element in
R ist.
63
KAPITEL 5. ZAHLENMENGEN
5.5. DIE KOMPLEXEN ZAHLEN
• Assoziativgesetz:
(x, y) + (x0 , y 0 ) + (x00 , y 00 ) = x + x0 , y + y 0 + (x00 , y 00 )
= (x + x0 ) + x00 , (y + y 0 ) + y 00
= x + (x0 + x00 ), y + (y 0 + y 00 )
= (x, y) + x0 + x00 , y 0 + y 00
= (x, y) + (x0 , y 0 ) + (x00 , y 00 )
Auch in diesem Beweis verwenden wir die Eigenschaften reeller Zahlen, konkret
das Assoziativgesetz.
• Kommutativgesetz: Kann analog zum Assoziativgesetz gezeigt werden, indem
man es auf das Kommutativgesetz in R zurückführt.
(C\{(0, 0)}, ·) ist abelsche Gruppe
• (1, 0) ist das neutrale Element, da (x, y) · (1, 0) =
(x · 1 + y · 0, x · 0 + y · 1) = (x, y) gilt. Wir verwenden hier die Tatsache, dass
x, y ∈ R und 1 das neutrale Element der Multiplikation in R ist.
−y
x
• Das zu (x, y) inverse Element ist (x, y)−1 = x2 +y
,
2 x2 +y 2 , denn es gilt
x
−y
, 2
2
2
x + y x + y2
· (x, y) =
x · x − (−y · y) xy − yx
, 2
x2 + y 2
x + y2
= (1, 0)
• Das Assoziativgesetz und das Kommutativgesetz können analog wie die entsprechenden Gesetze der Addition gezeigt werden, indem man sie auf die Gesetze in
R zurückführt.
Distributivgesetz Auch das Distributivgesetz kann gezeigt werden, indem man es auf das
Distributivgesetz in R zurückführt.
Für die Existenz eines inversen Elements der Multiplikation zu zeigen, haben wir benutzt,
dass für (x, y) 6= (0, 0) gilt x2 + y 2 6= 0. Dies gilt in R aufgrund der Ordnungsstruktur.
Um eine einfachere Darstellung von komplexen Zahlen zu erhalten, die es ermöglicht sich
die Regel für die Multiplikation zu merken, setzen wir
i := (0, 1).
Man bezeichnet i als die imaginäre Einheit. Es gilt dann
(x, y) = (x + 0, 0 + y) = (x, 0) + (0, y) = (x, 0) + (0, 1) · (y, 0) = x + iy,
wobei wir die Teilmenge R × {0} = {(x, 0) | x ∈ R} ( C mit R identifizieren und x statt
(x, 0) schreiben.
Wir stellen fest, dass das Element i ∈ C eine bemerkenswerte Eigenschaft hat
i2 = i · i = (0, 1) · (0, 1) = (0 − 1, 0) = −1.
64
KAPITEL 5. ZAHLENMENGEN
5.5. DIE KOMPLEXEN ZAHLEN
Mithilfe dieser Information können wir uns die Multiplikation in C leichter merken, denn
durch Ausmultiplizieren der Klammern erhalten wir:
(x1 + iy1 )(x2 + iy2 ) = x1 x2 + x1 iy2 + iy1 x2 + iy1 iy2
= x1 x2 + ix1 y2 + ix2 y1 + i2 y1 y2
= x1 x2 + ix1 y2 + ix2 y1 − y1 y2
= (x1 x2 − y1 y2 ) + i(x1 y2 + x2 y1 )
Die Eigenschaft der Zahl i im Quadrat minus eins zu ergeben liefert uns auch die Lösung
der anfangs gestellten Gleichung z 2 = −1. Wir sehen, dass die Zahl z = i eine Lösung
dieser Gleichung ist.
Satz 5.5.3 (Fundamentalsatz der Algebra)
Jedes Polynom
P (X) = X n + a1 X n−1 + . . . + an−1 X + a0
n ∈ N, n ≥ 1, ai ∈ C
besitzt eine komplexe Nullstelle z ∈ C, das heißt P (z) = 0.
Beweis. Der Beweis dieses Satzes geht weit über diese Vorlesung hinaus und wird üblicherweise in einer Vorlesung “Funktionentheorie” behandelt.
Aus dem Fundamentalsatz folgt nun, dass jedes Polynom n-ten Grades n (nicht zwangsläufig
verschiedene) Nullstellen hat. Denn hat P (X) die Nullstelle z ∈ C, dann können wir
P (X) = (X − z)Q(X) schreiben, wobei Q ein Polynom vom Grad n − 1 ist. Durch erneutes
Anwenden des Fundamentalsatzes auf Q sehen wir, dass P eine weitere Nullstelle hat, usw.
bis P vollständig in Linearfaktoren zerfällt.
Die Gleichung z 2 = a mit a ∈ R die Lösungen
( √
wenn a ≥ 0,
± a
p
z1/2 =
±i |a| wenn a < 0.
Definition 5.5.4 Sei z := x + iy ∈ C. Dann heißt Re(z) := x ∈ R der Realteil und
Im(z) := y ∈ R der Imaginärteil der komplexen Zahl z.
Den Betrag einer komplexen Zahl z ∈ C ist analog zur euklidischen Länge im R2
definiert durch
p
|z| := Re(z)2 + Im(z)2 .
Desweiteren definieren wir die zu z = x + iy konjugiert komplexe Zahl durch
z := x − iy = Re(z) − iIm(z).
Es gilt dann Re(z) = Re(z) aber Im(z) = −Im(z).
65
KAPITEL 5. ZAHLENMENGEN
5.5. DIE KOMPLEXEN ZAHLEN
Satz 5.5.5 Die komplexe Konjugation C 3 z 7→ z ist ein Körperautomorphismus, d.h. C
wird durch die Konjugation bijektiv auf sich selbst abgebildet und es gilt
z+w =z+w
und
z·w =z·w
für alle z, w ∈ C. Ferner besteht für z = x + iy der folgende Zusammenhang zum Betrag:
√
zz = Re(z)2 + Im(z)2 = x2 + y 2
also
|z| = zz .
Außerdem können wir zu z 6= 0 das Inverse mithilfe des komplex konjugierten angeben
z
z −1 = z1 = zz
und sehen so, dass gilt:
Re(z −1 ) =
Re(z)
x
= 2
zz
x + y2
und
Im(z −1 ) =
Im(z)
−y
= 2
.
zz
x + y2
Beweis. Sei z = x1 + iy1 und w = x2 + iy2 , dann rechnen wir nach, dass für die Addition
gilt:
z + w = (x1 + iy1 ) + (x2 + iy2 )
= (x1 + x2 ) + i(y1 + y2 )
= (x1 + x2 ) − i(y1 + y2 )
= (x1 − iy1 ) + (x2 − iy2 )
=z+w
Und ebenso für die Multiplikation:
z · w = (x1 + iy1 ) · (x2 + iy2 )
= (x1 x2 − y1 y2 ) + i(x1 y2 + x2 y1 )
= (x1 x2 − y1 y2 ) − i(x1 y2 + x2 y1 )
= (x1 − iy1 ) · (x2 − iy2 )
=z·w
Für z = x + iy rechnen wir mithilfe der 3. binomischen Formel nach, dass gilt:
zz = (x + iy)(x − iy) = x2 − i2 y = x2 + y 2 .
Beispiel 5.5.6 Sei z = 2+2i, dann ist
konjugierte Zahl
p
√ z = 2−2i
√die komplex
√ zu z durch
gegeben. Der Betrag von z ist |z| = zz = (2 + 2i)(2 − 2i) = 4 + 4 = 8. und die
1
2−2i
1
1
zu z inverse komplexe Zahl ist z −1 = 2+2i
= (2+2i)(2−2i)
= 2−2i
8 = 4 − 4 i.
Bemerkung 5.5.7 Da die komplexe Zahlen als Menge dasselbe sind wie R2 ist es
möglich komplexe Zahlen als Punkte, bzw Vektoren in der sogenannten komplexe Zahlenebene zu betrachten.
66
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Im(z) 6
3
z = 3 + 2i
3
2
1
-2
Q
Q
-1
1
2
3
Re(z)
Q
-1
Q
Q
Q
Q
Q
Q
Q
-2
Q
s z = 3 − 2i
Q
5.6. Restklassenringe
Alle bisher betrachteten Zahlenmengen haben unendlich viele Elemente. Gerade aber in der
Informatik ist es wichtig auch in endlichen Mengen, insbesondere der Menge {0, 1} rechnen
zu können. Aus diesem Grund konstruieren wir hier die sogenannten Restklassenringe, in
denen man “im wesentlichen” wie in den ganzen Zahlen rechnet, die aber nur endlich viele
Elemente besitzen.
Definition 5.6.1 Sei m ∈ N, m ≥ 2, dann definieren wir eine Relation a ≡ b mod m
auf Z durch:
a ≡ b mod m : ⇔ m|(a − b).
Zwei Zahlen sind äquivalent zueinander, wenn ihre Differenz durch m teilbar ist.
Proposition 5.6.2 Die Relation ≡ mod m ist eine Äquivalenzrelation auf Z.
Beweis. Die Relation ist
reflexiv: a ≡ a mod m, da m|a − a = 0. Die null wird von jeder Zahl geteilt, da es laut
Definition der Teilbarkeit immer ein Element c ∈ Z gibt, so dass m · c = 0. Dies ist
richtig für c = 0.
symmetrisch: Wenn m den Ausdruck a − b teilt, dann teilt m auch b − a und somit gilt
a ≡ b mod m genau dann, wenn b ≡ a mod m.
67
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
transitiv: Wenn a ≡ b mod m und b ≡ c mod m, dann gibt es Element d1 , d2 ∈ Z, so
dass m · c1 = a − b und m · c2 = b − c. Addition dieser zwei Gleichungen ergibt
m · c1 + m · c2 = m · (c1 + c2 ) = (a − b) + (b − c) = a − c, woraus folgt, dass auch
a ≡ c mod m gilt.
Definition 5.6.3 Die Menge der Äquivalenzklassen bezüglich der Äquivalenzrelation
a ≡ b mod m wird mit Z/mZ bezeichnet und heißt Restklassenring.
Z/mZ := Z/≡ = {[a] | a ∈ Z}.
Wir definieren auf dieser Menge zwei Verknüpfungen durch:
+ : Z/mZ × Z/mZ → Z/mZ
0
· : Z/mZ × Z/mZ → Z/mZ
0
0
([a], [a ]) 7→ [a] + [a ] := [a + a ]
([a], [a0 ]) 7→ [a] · [a0 ] := [a · a0 ]
Bevor wir die Eigenschaften der Restklassenringe genauer unter die Lupe nehmen (indem
wir zum Beispiel zeigen werden, dass sie wirklich Ringe sind) wollen wir besser verstehen,
welche Elemente sich in einer Äquivalenzklasse, die wir in diesem Kontext auch Restklasse
nennen, befinden.
Wir betrachten zunächst die Äquivalenzklasse der null
[0] = {a ∈ Z | a ≡ 0
mod m} = {a ∈ Z | m|(a − 0)}.
Da nun m genau dann a teilt, wenn a ein Vielfaches von m ist erhalten wir
[0] = {0, m, 2m, −m, −2m, . . .} = mZ = {a ∈ Z | ∃b ∈ Z : a = mb}.
Und daraus folgt auch, dass [0] = [m] = [2m] = . . . .
Sei jetzt a ∈ Z eine beliebige Zahl, dann können wir a mit Rest durch m teilen und erhalten
a = qm + r, wobei 0 ≤ r < m. Daraus folgt, dass a − r = qm gilt, woraus wiederum per
Definition der Teilbarkeit folgt, dass m|(a − r) und somit a ≡ r mod m. Jede Zahl ist also
äquivalent zu ihrem Rest bei Division durch m. In der Äquivalenzklasse von a sind daher
alle Elemente b ∈ Z, die bei Division durch m den gleichen Rest wie a lassen.
Sei 0 ≤ a < m, dann gilt
[a] = {a, m + a, 2m + a, −m + a, −2m + a, . . .} = {b ∈ Z | ∃c ∈ Z : b = mc + a}.
Aus diesen Überlegungen folgt, dass sich in jeder Äquivalenzklasse ein Element der Menge
{0, 1, 2, . . . , m − 1} befindet und wir dadurch wissen, dass wir schreiben können:
Z/mZ = {[0], [1], [2], . . . , [m − 1]}
Wir nennen die Menge {0, 1, 2, . . . , m − 1} ( Z eine mögliche Menge von Repräsentanten
für die Restklassen, da jedes Element genau eine Restklasse repräsentiert.
Dies erklärt auch den Namen “Restklassenring”. Jedes Element in Z/mZ kann als Rest
bei Division durch m aufgefasst werden.
68
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Dies ist eine mögliche Darstellung. Da [0] = [m] können wir alternativ auch schreiben:
Z/mZ = {[1], [2], . . . , [m − 1], [m]}.
Die Menge {1, 2, . . . , m − 1, m} ist also auch eine Menge von möglichen Repräsentanten.
Satz 5.6.4 (Z/mZ, +, ·) ist ein kommutativer Ring mit Eins.
Die Abbildung
π : Z → Z/mZ
a 7→ [a]
ist ein surjektiver Ringhomomorphismus mit Kern(π) = mZ.
Beweis. Wir müssen zunächst die Wohldefiniertheit der beiden Verknüpfungen zeigen.
Das bedeutet, dass das Ergebnis der Addition und Multiplikation unanhängig von den
Repräsentanten sein muss, die gewählt wurden um sie zu berechnen. Dafür seien a und b
zueinander kongruente Zahlen, ebenso wie a0 und b0 , d. h.
a ≡ b mod m
0
0
a ≡b
mod m
⇔
⇔
∃c sodass m · c = a − b
0
0
0
(5.18)
0
∃c sodass m · c = a − b
(5.19)
Für die Wohldefiniertheit der Addition addieren wir die Gleichungen (5.18) und (5.19) und
erhalten
m · (c + c0 ) = (a − b) + (a0 − b0 ) = (a + a0 ) − (b + b0 )
⇒
a + a0 ≡ b + b0
mod m.
Anders ausgedrückt, wenn für die Äquivalenzklassen gilt: [a] = [b] und [a0 ] = [b0 ], dann gilt
auch [a + a0 ] = [b + b0 ]
Für die Wohldefiniertheit der Multiplikation berechnen wir unter Verwendung von (5.18)
und (5.19)
(a − b) · (a0 − b0 ) = (aa0 − ab0 − ba0 + bb0 ) + bb0 − bb0 = aa0 + b0 (b − a) + b(b0 − a0 ) − bb0
= aa0 − bb0 + mcb0 + mc0 b
und somit ist (wieder unter Verwendung von (5.18) und (5.19) )
aa0 − bb0 = (a − b)(a0 − b0 ) − (mcb0 + mc0 b) = mcmc0 − (mcb0 + mc0 b) = m(cmc0 − cb0 − c0 b),
das heißt m teilt aa0 −bb0 . Anders ausgedrückt, wenn für die Äquivalenzklassen gilt: [a] = [b]
und [a0 ] = [b0 ], dann gilt auch [aa0 ] = [bb0 ].
(Z/mZ, +, ·) ist ein kommutativer Ring mit Eins:
• [0] = [m] ist das neutrale Element der Addition, da [a] + [0] = [a + 0] = [a]
• [m − a] ist das zu [a] inverse Element, denn [a] + [m − a] = [a + m − a] = [m] = [0].
• [1] ist das neutrale Element der Multiplikation, da [a] · [1] = [a · 1] = [a].
69
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
• Assoziativgesetze, Kommutativgesetze, sowie das Distributivgesetz übertragen sich
direkt aus den entsprechenden Gesetzen in Z.
Die Abbildung π : Z → Z/mZ, a 7→ [a] ist ein Ringhomomorphismus aufgrund von
π(a+a0 ) = [a+a0 ] = [a]+[a0 ] = π(a)+π(a0 )
und π(a·a0 ) = [a·a0 ] = [a]·[a0 ] = π(a)·π(a0 ).
Der Kern dieser Abbildung sind alle Elemente a ∈ Z, die auf [0] abgebildet werden.
Da aber die Restklasse der null genau alle durch m teilbaren Elemente enthält, gilt
Kern(π) = mZ = {a ∈ Z | a = m · c für ein c ∈ Z}. Die Surjektivität folgt direkt aus der
Definition.
Wir sind es in unserem Alltag gewohnt mit Restklassen zu rechnen ohne es wirklich zu
bemerken. Das passiert immer dann, wenn wir mit Zeitangaben wie Wochentagen oder
Uhrzeiten hantieren. Die Menge Z/7Z kann mit der Menge der Wochentage Montag,
Dienstag, usw. identifiziert werden. Der Montag entspricht dann der [1], der Dienstag der
[2], usw. Wenn wir wissen wollen, welcher Wochentag 10 Tage nach einem Dienstag ist,
dann müssen wir also nur rechnen
”Dienstag+10 Tage” = [2] + [10] = [12] = [5 + 7] = [5] = ”Freitag”.
Ebenso ist jeden klar, dass ein Student, der sagt er habe ab 22 Uhr 9 Stunden lang gezockt,
dass dieser Student bis 7 Uhr morgens gezockt hat. Hier lautet die Rechnung:
”22 Uhr+9 Stunden” = [22] + [9] = [31] = [24 + 7] = [7] = ”7 Uhr”.
Für Uhrzeiten rechnen wir also in Z/24Z oder Z/12Z.
Beispiel 5.6.5 Eine einfache Methode Nachrichten zu verschlüsseln, ist der sogenannte
Caesarchiffre. Dabei wir zur Verschlüsselung zum Beispiel jeder Buchstabe des Alphabets,
durch den Buchstaben ersetzt, der 2 Stellen weiter im Alphabet steht. Wenn wir Z/26Z
mit den Buchstaben { A,B,...,Y,Z} identizieren, dann entspricht der Caesarchiffre einer
Abbildung
Caesar : Z/26Z → Z/26Z
[a] 7→ [a + 2]
A = [1] 7→ [3] = A
B = [2] 7→ [4] = B
..
..
.
.
Y = [25] 7→ [27] = [1] = A
Z = [26] 7→ [28] = [2] = B
Jetzt wollen wir die Gruppe der Einheiten (s. Def. 4.3.10) im Restklassenring bestimmen
um zu sehen, ob und unter welchen Bedingungen Z/mZ sogar ein Körper ist.
Proposition 5.6.6 Die Einheiten in Z/mZ sind Restklassen von Zahlen, die teilerfremd
zu m sind
Z/mZ× = {[a] ∈ Z/mZ | ggT(a, m) = 1}.
70
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Beweis. Wenn ggT(a, m) = 1, dann gibt es aufgrund des erweiterten euklidischen Algorithmus (s. Satz 5.2.9) Zahlen x, y ∈ Z so dass
xa + ym = 1
gilt. Bilden wir nun die Restklassen modulo m, dann erhalten wir
[1] = [xa + ym] = [xa] + [ym] = [xa] + [0] = [xa] = [x] · [a].
Also ist [x] das zu [a] inverse Element.
Satz 5.6.7 Sei p eine Primzahl, dann ist Z/pZ ein Körper, der mit Fp bezeichnet wird.
Beweis. Die Menge Fp besteht aus den Restklassen {[0], [1], [2], . . . , [p − 1]}. Da p eine
Primzahl ist, gilt für Zahlen a ∈ Z mit 1 ≤ a ≤ p − 1, dass sie zu p teilerfremd sind, das
heißt ggT(a, p) = 1.
Also sind alle Elemente aus Fp außer null eine Einheit und daher invertierbar. Also ist Fp
ein Körper.
Beispiel 5.6.8 Für Mengen mit wenigen Elementen ist es oft praktisch die Verknüpfung
durch eine Verknüpfungstafel anzugeben. Wir betrachten hier die Multiplikation in
F5 = Z/5Z, sowie in Z/4Z im Vergleich. Wir schreiben hier vereinfachend die Restklasse
ohne die eckigen Klammern [].
Z/5Z
·
0
1
2
3
4
0
0
0
0
0
0
1
0
1
2
3
4
Z/4Z
2
0
2
4
1
3
3
0
3
1
4
2
4
0
4
3
2
1
·
0
1
2
3
0
0
0
0
0
1
0
1
2
3
2
0
2
0
2
3
0
3
2
1
In der Tafel für F5 befindet sich in jeder Zeile und in jeder Spalte eine 1. So können wir
die jeweils zueinander inversen Elemente ablesen. In der Tafel für Z/4Z hingegen, stehen
in Spalte und Zeile der 2 nur die Zahlen 0 und 2, somit hat 2 keine multiplikativ inverses
Element in Z/4Z.
Satz 5.6.9 (Chinesischer Restsatz)
Seien n, m ∈ Z teilerfremd, dann gibt es einen bijektiven Ringhomomorphismus
f : Z/(nm)Z → Z/nZ × Z/mZ
71
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Definition 5.6.10 Die Anzahl der Einheiten im Restklassenring Z/mZ wird mit ϕ(m)
bezeichnet. Die definiert eine Abbildung
ϕ:Z→N
m 7→ ϕ(m)
die sogenannte Eulersche Phi-Funktion.
Proposition 5.6.11 Es gilt für ϕ(m) folgende Eigenschaften:
• Sei p eine Primzahl, dann ist ϕ(p) = p − 1.
• Seien m, n teilerfremde Zahlen, dann ist ϕ(nm) = ϕ(n)ϕ(m).
Beweis. Die Zahl ϕ(p) gibt an wie viele Element aus Z/pZ Einheiten sind, also in Z/pZ×
liegen. Da Fp = Z/pZ ein Körper ist, sind alle Element außer der Null invertierbar und
somit eine Einheit. Also ist ϕ(p) = #Fp − 1 = p − 1.
Wenn m, n teilerfremde Zahlen sind, dann ist nach dem chinesischem Restsatz Z/(nm)Z =
Z/nZ × Z/mZ und somit gilt auch für die Einheiten Z/(nm)Z× = Z/nZ× × Z/mZ× .
Daraus folgt, dass die Anzahl der Elemente in diesen Gruppen gilt ϕ(nm) = ϕ(n)ϕ(m).
Aus dieser Proposition folgt insbesondere, dass ϕ(pq) = (p − 1)(q − 1) ist, wobei p, q
Primzahlen sind.
Satz 5.6.12 (Kleiner Fermatscher Satz)
Sei a ∈ Z, so dass für die Restklasse [a] ∈ Z/mZ× ist, dann gilt:
aϕ(m) ≡ 1
mod m.
Beweis. Wir betrachten die Abbildung
τa Z/mZ× → Z/mZ×
[b] 7→ [ab]
bei der jedes Element mit [a] multipliziert wird. Diese Abbildung ist bijektiv, da sie mit
τa−1 eine Umkehrabbildung besitzt.
Im nächsten Schritt wollen wir das Produkt aller Elemente [r] ∈ Z/mZ× betrachten. Da
jedes Element im Bild der Abbildung τa liegt, können wir auch das Produkt aller Elemente
[ar] ∈ Z/mZ× betrachten ohne, dass sich etwas ändert. Dadurch gilt
Y
Y
Y
[r] =
[ar] = [a]ϕ(m)
[r]
(5.20)
[r]∈Z/mZ×
[r]∈Z/mZ×
[r]∈Z/mZ×
Im letzten Schritt haben wir aus jedem Faktor das [a] ausgeklammert. Da es genauso viele
Faktoren gibt wie Elemente in Z/mZ× , muss [a] mit dieser Anzahl potenziert werden.
72
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Aber diese Anzahl
Q ist genau ϕ(m). Wenn wir nun in Gleichung 5.20 beide Seiten mit dem
Inversen von [r]∈Z/mZ× [r] ∈ Z/mZ× multiplizieren, dann erhalten wir
[a]ϕ(m) = [1]
⇒
aϕ(m) ≡ 1
mod m.
Satz 5.6.13 (Das RSA-Verfahren)
1. Wähle zwei große Primzahlen p, q.
2. Bestimme ihr Produkt N = pq.
3. Berechne ϕ(N ) = ϕ(p)ϕ(q) = (p − 1)(q − 1).
4. Wähle eine Zahl e ∈ Z für die gilt 0 < e < ϕ(N ) und ggT(e, ϕ(N ))
5. Berechne d ∈ Z, so dass gilt 0 < d < ϕ(N ) und d · e + k · ϕ(N ) = 1 (erweiterter
euklidischer Algorithmus).
Nun können wir ausgehend davon den öffentlichen und den privaten Schlüssel angeben:
öffentlicher Schlüssel: (N, e)
privater Schlüssel: (p, q, d)
Will nun der Sender eine Nachricht m ∈ Z/N Z× verschlüsseln, dann berechnet er
c ≡ me
mod N
mithilfe des öffentlichen Schlüssels.
Der Empfänger kann dies nun entschlüsseln, indem er rechnet
m ≡ cd
mod N.
Wir können nachrechnen, dass wir auf diese Art und Weise wirklich die ursprüngliche
Nachricht erhalten, denn
cd = (me )d = med = m1−kϕ(N ) = m · (mϕ(N ) )−k ≡ m mod N.
Im letzten Schritt haben wir den kleinen Fermatschen Satz verwendet.
Bemerkung 5.6.14 Die Berechnung von me mod N ist mit großen Rechenaufwand
verbunden. Es ist bei realistischen Zahlen nicht möglich me ∈ Z zu rechnen und dann
erst die Division mit Rest durchzuführen.
Machbarer, aber immer noch mit zu großen Rechenaufwand ist es zuerst m · m zu
berechnen und den Rest bei Division durch N zu bestimmen. Dann multipliziert man das
Ergebnis wieder mit m und bestimmt erneut den Rest bei Division durch N . Auf diese
Weise werden die Zahlen nicht zu groß, aber man muss e−1 Multiplikationen durchführen.
Die Anzahl der Multiplikationen lassen sich erheblich reduzieren, indem man die
73
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Binärdarstellung des Exponenten verwendet. Sei dafür e =
me = m(2
Pn
i=0 ai 2
i,
dann ist
n +a
n−1 +a
n−2 +...+a 2+a )
n−1 2
n−2 2
1
0
n
n−1
= m2 · m2
an−1
n−2
· m2
an−2
· . . . · m2
a1
· ma0
i
Die Zahlen ai sind entweder 1 oder 0, daher besagt ai = 1, dass der Faktor m2 in dem
Produkt vorkommt, wohingegen er nicht vorkommt, wenn ai = 0 ist.
i
Die Faktoren m2 mod N kann man durch sukzessives Quadrieren bestimmen. Zunächst
quadrieren wir m und bestimmen den Rest bei Division durch N . Durch quadrieren von
2
m2 mod N erhalten wir (m2 )2 = m2·2 = m2 = m4 mod N . Es gilt immer
i
i
i+1
(m2 )2 = m2 ·2 = m2
mod N.
Beispiel 5.6.15 Wir wählen p = 5 und q = 11, somit ist N = 55 und
ϕ(N ) = (5 − 1)(11 − 1) = 40. Wir wählen e = 9 eine zu ϕ(N ) teilerfremde Zahl.
mithilfe des euklidischen Algorithmus berechnen wir
40 = 4 · 9 + 4
9 = 2 · 4 + 1.
und somit gilt
1=9−2·4
= 9 − 2 · (40 − 4 · 9)
= −2 · 40 + 9 · 9
Also ist d = 9 und wir überprüfen, dass
9 · 9 = 81 ≡ 1
mod 40.
Die Nachricht muss nun eine Zahl 0 < m < N sein, die teilerfremd zu N ist. Unsere
Nachricht sei m = 13.
Die verschlüsselte Nachricht ist dann c ≡ me = 139 mod 55. Zur Berechnung dieses
Werts gehen wir vor wie es in Bemerkung 5.6.14 beschrieben wurde.
Wir bestimmen zuerst die Binärdarstellung des Exponenten:
e = 9 = 8 + 1 = 23 + 20 .
Nun berechnen wir die Zweierpotenzen von m:
m ≡ 13
mod 55
m2 = 169 = 3 · 55 + 4 ≡ 4
4
2 2
2
m = (m ) = 4 ≡ 16
mod 55
mod 55
m8 = (m4 )2 = 162 = 256 = 4 · 55 + 36 ≡ 36
mod 55
74
KAPITEL 5. ZAHLENMENGEN
5.6. RESTKLASSENRINGE
Am Ende müssen noch die Zweierpotenzen miteinander multipliziert werden, so wie es
die Binärdarstellung des Exponenten vorschreibt:
m9 = m8 · m ≡ 36 · 13 ≡ 468 = 8 · 55 + 28 ≡ 28
mod 55.
Somit ist die verschlüsselte Nachricht c ≡ 28 mod 55.
Zur Überprüfung wollen wir ausrechnen ob cd ≡ m mod 55. Dafür benötigen wir die
Zweierpotenzen von c:
c ≡ 28
mod 55
c2 = 784 = 14 · 55 + 14 ≡ 14
4
2 2
mod 55
2
c = (c ) = 14 ≡ 196 = 3 · 55 + 31 ≡ 31
c8 = (c4 )2 = 312 = 961 = 17 · 55 + 26 ≡ 26
mod 55
mod 55
Da die Binärdarstellung des Exponenten d = 9 = 8 + 1 ist, müssen wir berechnen:
c9 = c8 · c ≡ 26 · 28 ≡ 728 = 13 · 55 + 13 ≡ 13
mod 55.
woraus folgt, dass m ≡ 13 mod 55, wie wir erwartet haben.
75
Teil II.
Lineare Algebra
76
6. Vektorräume
In vielen Bereichen der Mathematik wird man auf die algebraische Struktur des Vektorraums
geführt, so daß diesem Begriff eine fundamentaler Bedeutung in den verschiedensten
Teilgebieten der Mathematik zukommt. Um Vektorräume besser zu verstehen, ist es
sinnvoll, diese losgelöst von speziellen Kontexten in einem abstrakten Setting zu betrachten
und zu studieren. Dies ist die Aufgabe der Linearen Algebra, welche man als die Theorie
der Vektorräume – vor allem der endlich dimensionalen – ansehen kann. Natürlich dreht
sich die Lineare Algebra nicht ausschließlich um den Vektorraumbegriff; darauf aufbauend
gibt es etliche weitere grundlegende Konzepte wie z.B. der Begriff der linearen Abbildungen,
welche verschiedene Vektorräume miteinander in Beziehung setzen und den theoretischen
Hintergrund für lineare Gleichungssysteme liefern, welche bereits in einfacher Form aus der
Schule bekannt sein dürften.
Neben der präzisen Definition des Vektorraumbegriffs besteht das zentrale Anliegen dieses
Kapitels darin, eine sehr einfache Charakterisierung für die “Größe” eines Vektorraums zu
schaffen.
6.1. Vektorräume und Untervektorräume
Notation: In den folgenden Abschnitten bezeichnet K einen Körper. Griechische Buchstaben wie α, β, λ, µ stehen für Elemente dieses Körpers. Mit den lateinischen Buchstaben
u, v, w, x, y, z werden Elemente eines oder verschiedener Vektorräume bezeichnet.
Definition 6.1.1 (Vektorräume)
Sei K ein Körper. Ein Vektorraum über dem Körper K (kurz ein K-Vektorraum) ist
ein Tripel (V, +, ·) bestehend aus einer Menge V , einer inneren Verknüpfung
+ : V × V → V,
(u, v) 7→ u + v,
welche als Addition bezeichnet wird, und einer äußeren Verknüpfung
· : K × V → V,
(λ, v) 7→ λ · v =: λv,
die sogenannte Skalarmultiplikation. Dabei sollen sich die beiden Verknüpfungen durch
folgende Eigenschaften auszeichnen:
(V1) (V, +) ist eine abelsche Gruppe.
(V2) Für alle u, v ∈ V und alle λ, µ ∈ K gilt:
λ(u + v) = λu + λv
(Distributivgesetz der Skalarmultiplikation für die Addition V ),
(λ + µ)v = λv + µv
(λµ)v = λ(µv)
1·v =v
(Distributivgesetz der Skalarmultiplikation für Addition in K),
(Assoziativgesetz der Skalarmultiplikation),
(Wirkung der 1)
77
.
KAPITEL 6. VEKTORRÄUME
6.1. VEKTORRÄUME UND UNTERVEKTORRÄUME
Bemerkung 6.1.2
• Die Bezeichnung K-Vektorraum bzw. Vektorraum wird sehr
oft für die Trägermenge V allein verwendet, wobei die beiden algebraischen Verknüpfungen als bekannt oder (im abstrakten Kontext) als existent vorausgesetzt
werden. Wir werden uns im folgenden dieser vereinfachenden Sprechweise bedienen. Vorsicht ist jedoch geboten, wenn dieselbe Menge mit unterschiedlichen
Verknüpfungen ausgestattet wird, die sie jeweils zu einem Vektorraum machen.
• Die Elemente von V heißen Vektoren, die Elemente des zugehörigen Körpers K
nennt man Skalare. Der Körper K, welcher dem K-Vektorraum zugrunde liegt,
wird gelegentlich auch Skalarenkörper genannt.
• Die Addition in V wird auch als Vektoraddition oder Vektorraumaddition bezeichnet,
wenn sie deutlich von der Addition in K unterschieden werden soll.
• Das neutrale Element der Additionion in V heißt Nullvektor. Um Verwechselungsgefahr mit dem Skalar 0 ∈ K zu vermeiden, schreiben wir dafür 0V .
• Für das zu v ∈ V inverse Element bezüglich der Vektoraddition schreibt man −v
analog zu der üblichen Notation bei Körpern. Ebenso steht v − w für v + (−w).
• Bei der Skalarmultiplikation schreibt man meist λv statt λ·v. Nach der bei Körpern
übliche Konvention Punktrechnung vor Strichrechnung soll die Skalarmultiplikation
stärker binden als Addition in V und K; dies spart Klammern, wodurch sich
Rechnungen übersichtlicher gestalten lassen. Man unterscheide zum Beispiel λu + v
und λ(u + v); ebenso (λ + µ)v und λ + µv, wobei der letzte Term keinen Sinn
ergibt, da die Addition zwischen Skalaren und Vektoren nicht erklärt ist.
Satz 6.1.3 (Einige Rechenregeln)
Es sei V ein K-Vektorraum. Dann gilt für alle v ∈ V und λ ∈ K:
(i) 0 · v = 0V .
(ii) λ · 0V = 0V .
(iii) λ · v = 0
⇔
λ = 0 oder v = 0V .
(iv) (−1) · v = −v.
Beweis. i) Anwendung der Vektorraumaxiome sowie der Rechenregeln im Körper K liefert
zunächst:
0 · v = (0 + 0) · v
= 0·v+0·v
|0 = neutrales Element von (K,+)
|Distributivgesetz der Skalarmultiplikation für Addition in K .
78
KAPITEL 6. VEKTORRÄUME
6.1. VEKTORRÄUME UND UNTERVEKTORRÄUME
Unter Ausnutzung dieser Gleichung im zweiten Umformungsschritt erhalten wir nun
0V = 0 · v + − (0 · v)
|Eigenschaft inverser Elemente in (V, +)
= 0 · v + 0 · v + − (0 · v)
|Einsetzen der obigen Gleichung
= 0 · v + 0 · v + − (0 · v)
|Assoziativgesetz in (V, +)
= 0 · v + 0V
= 0·v
|Eigenschaft inverser Elemente in (V, +)
|0V = neutrales Element in (V, +)
womit die Behauptung gezeigt ist.
ii) Der Nachweis von ii) verläuft im Prinzip analog zur obigen Rechnung. Statt 0 = 0 + 0
benutzt man hier die Neutralität von 0V hinsichtlich der Vektoraddition, d.h. 0V = 0V + 0V .
iii) “⇒”: Es sind zwei Fälle zu unterscheiden: entweder λ = 0 oder λ 6= 0. Im ersten Fall
ergibt sich die Behauptung als unmittelbare Konsequenz von i). Im zweiten Fall ist v = 0V
zu zeigen. Dazu nutzen wir aus, daß nach den Körperaxiomen das multiplikativ Inverse
λ−1 zu λ 6= 0 existiert:
v =
=
=
=
=
1·v
(λ−1 λ) · v
λ−1 · (λ · v)
λ−1 · 0V
0V
|Wirkung der 1
|Definition des multiplikativ Inversen in K
|Assoziativgesetz für Skalarmultiplikation
|Voraussetzung
|nach ii)
Die Rückrichtung “⇐” folgt direkt aus i) und ii).
iv) Anwendung der Vektorraumaxiome sowie der Rechenregeln im Körper K liefert:
v + (−1) · v = 1 · v + (−1) · v
= 1 + (−1) · v
= 0·v
= 0V
|Wirkung der 1
|Distributivgesetz der Skalarmultiplikation für Addition in K
|Rechenregeln für K
|nach i)
Da die Vektoraddition von v und (−1) · v auf das neutrale Element 0V der Vektoradition
führt, stellt sich (−1) · v als das inverse Element zu v heraus, d.h. es gilt wie behauptet
−v = (−1) · v. Man beachte, daß dabei die Eindeutigkeit inverser Elemente eingeht.
Beispiel 6.1.4
über K.
• Die Menge, die nur aus der null besteht {0} ist ein Vektorraum
• Jeder Körper K ist ein Vektorraum über sich selbst.
• C ist ein R-Vektorraum.
• Das n-fache kartesische Produkt eines Körpers mit sich selbst, das heißt die Menge
aller geordneten n-Tupel von Elementen aus K
K n = {(a1 , a2 , . . . , an ) | ai ∈ K}
79
KAPITEL 6. VEKTORRÄUME
6.1. VEKTORRÄUME UND UNTERVEKTORRÄUME
ist ein K-Vektorraum mit den Verknüpfungen
(a1 , a2 , . . . , an ) + (b1 , b2 , . . . , bn ) := (a1 + b1 , a2 + b2 , . . . , an + bn )
λ · (a1 , a2 , . . . , an ) := (λa1 , λa2 , . . . , λan )
Das neutrale Element in (K n , +) ist der Nullvektor
(0, 0, 0, . . . , 0, 0).
Das zum Vektor (a1 , a2 , . . . , an ) inverse Element ist der Vektor (−a1 , −a2 , . . . , −an ).
Sämtliche Rechenregeln, die in einem Vektorraum gelten müssen lassen sich auf
Rechenregeln im Körper K zurückführen. Wir zeigen hier das Distributivgesetz
der Skalarmultiplikation für die Addition in K.
λ (a1 , a2 , . . . , an ) + (b1 , b2 , . . . , bn ) = λ(a1 + b1 , a2 + b2 , . . . , an + bn )
= λ(a1 + b1 ), λ(a2 + b2 ), . . . , λ(an + bn )
= λa1 + λb1 , λa2 + λb2 ), . . . , λan + λbn
= (λa1 , λa2 , . . . , λan ) + (λb1 , λb2 , . . . , λbn )
Hier haben wir das Distributivgesetz in K verwendet.
Definition 6.1.5 Eine nicht leere Teilmenge eines K-Vektorraums U ⊂ V heißt Untervektorraum bzw. Unterraum von V , falls folgende Bedingungen erfüllt sind:
(U1) U ist abgeschlossen gegenüber der Addition, d.h. u1 , u2 ∈ U ⇒ u1 + u2 ∈ U .
(U2) U ist abgeschlossen gegenüber der Skalarmultiplikation, d.h. u ∈ U, λ ∈ K ⇒
λu ∈ U .
Dank (U1) und (U2) induzieren die Vektoraddition und Skalarmultiplikation in V entsprechende Verknüpfungen in U , mit denen U als eigenständiger Vektorraum interpretiert
werden kann. Es bleibt dafür lediglich nachzuweisen, daß U auch abgeschlossen ist hinsichtlich der Bildung additiv inverser Elemente. Dies folgt aber direkt aus U2) und der
Rechenregel iv) in Satz 6.1.3, wonach −u = (−1) · u.
Beispiel 6.1.6 Sei K ein Körper. Die Menge
U = {(a1 , a2 , 0, 0) | a1 , a2 ∈ K} ( K 4
ist ein Untervektorraum des K 4 , denn es gilt
(a1 , a2 , 0, 0) + (b1 , b2 , 0, 0) = (a1 + b1 , a2 + b2 , 0, 0) ∈ U
und
λ(a1 , a2 , 0, 0) = (λa1 , λa2 , 0, 0) ∈ U
80
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
Proposition 6.1.7 Sei K ein Körper und V ein K-Vektorraum mit U1 , U2 ⊆ V Untervektorräumen. Dann ist der Durchschnitt U1 ∩ U2 ein Untervektorraum von V .
Beweis. Seien v, w ∈ U1 ∩ U2 , das heißt v, w ∈ U1 und v, w ∈ U2 . Da sowohl U1 als auch
U2 Untervektorräume sind, liegt auch die Summe v + w ∈ U1 und v + w ∈ U2 . Daraus folgt
dass v + w ∈ U1 ∩ U2 .
Wir zeigen analog die Abgeschlossenheit bezüglich der Skalarmultiplikation. Sei v ∈ U1 ∩ U2 ,
das heißt v ∈ U1 und v ∈ U2 . Da sowohl U1 als auch U2 Untervektorräume sind, liegt für
alle λ ∈ K auch λv ∈ U1 und λv ∈ U2 . Daraus folgt dass λv ∈ U1 ∩ U2 .
Bemerkung 6.1.8 Die Vereinigung zweier Untervektorräume ist im Allgemeinen kein
Untervektorraum. Wir wollen dies an einem Beispiel zeigen.
Sei V = K 3 , dann sind die Mengen
U1 = {(a1 , 0, 0) | a1 ∈ K} ( K 3
und U2 = {(0, a2 , 0) | a2 ∈ K} ( K 3
Untervektorräume von V (Begründung analog zu Beispiel 6.1.6), aber ihre Vereinigung
ist kein Untervektorraum, da zum Beispiel u1 = (1, 0, 0) ∈ U1 und u2 = (0, 1, 0) ∈ U2
und somit beide Vektoren u1 , u2 ∈ U1 ∪ U2 liegen, aber ihre Summe nicht
u1 + u2 = (1, 0, 0) + (0, 1, 0) = (1, 1, 0) ∈
/ U1 ∪ U2 .
In der Vereinigung U1 ∪ U2 liegen nur Vektoren, die höchstens an einer Stelle einen Eintrag ungleich null haben, aber u1 + u2 hat an zwei Stellen einen Eintrag, der nicht null ist.
Die Vereinigungsmenge U1 ∪ U2 genau dann ein Untervektorraum ist, wenn U1 ⊂ U2
oder U2 ⊂ U1 .
6.2. Basis und Dimension
Wir wollen in diesem Abschnitt Vektroräume versuchen einfacher zu beschreiben. Dafür
nutzen wir aus, dass die Vektorraumaxiome genau besagen, dass wir einen Vektor mit
einem Skalar multiplizieren können und immer noch einen Vektor erhalten, ebenso können
wir zwei Vektoren addieren und erhalten wieder einen Vektor.
Definition 6.2.1 Ein Vektor v ∈ V eines K-Vektorraums V heißt Linearkombination
der Vektoren v1 , ..., vk ∈ V , falls Skalare λ1 , . . . , λk ∈ K existieren mit
v = λ 1 v1 + · · · + λ k vk .
Man sagt auch, v läßt sich aus v1 , . . . , vk linear kombinieren.
Es seien v1 , . . . , vk ∈ V Vektoren eines K-Vektorraums. Die Menge aller Linearkombinationen, welche sich aus v1 , . . . , vk bilden lassen, bezeichnet man als die von v1 , . . . , vn
81
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
erzeugte Lineare Hülle (auch Spann). Man schreibt dafür
LH(v1 , . . . , vk ) := Kv1 + · · · + Kvk
:= {v ∈ V : ∃λ1 , . . . , λk ∈ K mit v = λ1 v1 + · · · + λk vk } .
Proposition 6.2.2 Sei V ein K-Vektorraum. Die lineare Hülle der Vektoren
v1 , ..., vk ∈ V ist ein Untervektorraum von V . Die lineare Hülle ist der kleinste Vektorraum, der die Vektoren v1 , ..., vk ∈ V enthält.
Beweis. Seien u, v ∈ LH(v1 , . . . , vk ), das heißt es gibt λ1 , . . . , λk , µ1 , . . . , µk ∈ K so dass
gilt: u = λ1 v1 + · · · + λk vk und v = µ1 v1 + · · · + µk vk . Dann ist
u+v = (λ1 v1 +· · ·+λk vk )+(µ1 v1 +· · ·+µk vk ) = (λ1 +µ1 )v1 +· · ·+(λk +µk )vk ∈ LH(v1 , . . . , vk )
ebenso gilt:
λ · v = λ · (µ1 v1 + · · · + µk vk ) = (λµ1 v1 + · · · + λµk vk ) ∈ LH(v1 , . . . , vk ).
Beispiel 6.2.3
• Sei V = K 3 , dann betrachten wir die Vektoren v1 = (1, 0, 0) und
v2 = (0, 1, 0) aus V . Ein Vektor v ∈ V ist Linearkombination von v1 und v2 , wenn
es Skalare λ1 , λ2 gibt, so dass
v = λ1 v1 + λ2 v2 = λ1 (1, 0, 0) + λ2 (0, 1, 0) = (λ1 , 0, 0) + (0, λ2 , 0) = (λ1 , λ2 , 0).
Somit besteht die lineare Hülle der Vektoren v1 , v2 aus allen Vektoren, deren dritte
Komponente null ist, d. h.
LH(v1 , v2 ) = {(λ1 , λ2 , 0) | λ1 , λ2 ∈ K}.
• Wir betrachten jetzt die Vektoren v1 = (1, 1, 0) und v2 = (1, 0, 1) aus K 3 .
Der Vektor v = (1, 2, −1) liegt in der linearen Hülle von v1 und v2 , denn es gilt
v = 2v1 − v2 = 2(1, 1, 0) − (1, 0, 1) = (2, 2, 0) − (1, 0, 1) = (1, 2, −1).
Der Vektor u = (1, 2, 0) hingegen liegt nicht in LH(v1 , v2 ), denn angenommen es
gäbe λ1 , λ2 ∈ K, so dass λ1 v1 + λ2 v2 = u, das heißt
λ1 (1, 1, 0) + λ2 (1, 0, 1) = (λ1 , λ1 , 0) + (λ2 , 0, λ2 ) = (λ1 + λ2 , λ1 , λ2 ) = (1, 2, 0)
dann wären die λi Lösung des Gleichungssystems
λ1 + λ2 = 1
λ1 = 2
λ2 = 0
Allerdings liefert Einsetzen von λ1 = 2 und λ2 = 0 in die erste Zeile λ1 + λ2 =
2 + 0 = 2 6= 1. Dies bedeutet, dass man u nicht aus v1 und v2 linear kombinieren
kann, also u ∈
/ LH(v1 , v2 ).
82
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
Bisher haben wir uns nur mit der Frage beschäftigt, ob man einen Vektor aus einer
vorgegebenen Menge von Vektoren linear kombinieren kann. Nun kommen wir dazu, ob
diese Linearkombination eindeutig ist. Dies ist der Fall, wenn die Vektoren linear unabhängig
sind.
Definition 6.2.4 (i) Endlich viele Vektoren v1 , . . . , vk eines K-Vektorraums heißen
linear unabhängig, falls die Gleichung
λ1 v1 + · · · + λk vk = 0V
nur die Lösung λ1 = · · · = λk = 0 besitzt. Dies drückt man auch folgendermaßen
aus: Die Vektoren v1 , . . . , vk nennt man linear unabhängig, genau dann wenn sich
der Nullvektor nur auf die triviale Weise aus ihnen linear kombinieren läßt.
(ii) Die Vektoren v1 , . . . , vk heißen linear abhängig, falls sie nicht linear unabhängig
sind. Der Nullvektor läßt sich dann nicht trivial aus ihnen linear kombinieren,
d.h. in der obigen Darstellung des Nullvektors kann mindestens ein Koeffizient λi
mit i ∈ {1, . . . , k} von Null verschieden gewählt werden.
Proposition 6.2.5 (Charakterisierung linear abhängiger Vektoren)
Für die Vektoren v1 , . . . , vk sind folgende Aussagen äquivalent:
(i) v1 , . . . , vk sind linear abhängig.
(ii) Es existiert ein l ∈ {1, . . . , k} für das gilt:
vl = λ1 v1 + . . . + λl−1 vl−1 + λl+1 vl+1 + λk vk .
Beweis. (ii) ⇒ (i) Wir setzen λl = −1 und erhalten eine nichttriviale Linearkombination
des Nullvektors
0V = λ1 v1 + . . . + λl−1 vl−1 + (−1)vl + λl+1 vl+1 + λk vk .
P
(i) ⇒ (ii) Sei 0V = ki=1 λi vi eine nichttriviale Linearkombination des Nullvektors. Dann
gibt es ein l so dass λl 6= 0 und wir können schreiben
−λl vl =
k
X
λ i vi
i=1,i6=l
⇒
vl =
k
X
i=1,i6=l
−
λi
vi .
λl
Aus diesem Satz folgt, dass die lineare Hülle der Vektoren {v1 , . . . , vk } sich nicht von der
linearen Hülle von {v1 , . . . , vk }\{vl } unterscheidet, da vl ∈ LH(v1 , . . . , vl−1 , vl+1 , . . . , vk ).
Wir können diesen Vektor also einfach weglassen ohne etwas “zu verlieren”.
Proposition 6.2.6 (Charakterisierung linear unabhängiger Vektoren)
Für die Vektoren v1 , . . . , vk sind folgende Aussagen äquivalent:
(i) v1 , . . . , vk sind linear unabhängig.
83
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
(ii) Jeder Vektor v ∈ LH(v1 , . . . , vk ) besitzt eine eindeutige Darstellung als Linearkombination der v1 , . . . , vk .
Beweis. (i) ⇒ ii) Wir führen diesen Beweis per Widerspruch: Angenommen es gibt einen
Vektor v mit zwei verschiedenen Darstellungen
v = α1 v1 + · · · + αk vk = β1 v1 + · · · + βk vk ,
so daß mindestens für ein j ∈ {1, . . . , k} gilt αj 6= βj . Subtraktion der beiden Darstellungen
führt auf die Gleichung
0V = (α1 − β1 )v1 + · · · + (αk − βk )vk .
Da die Vektoren v1 , . . . , vk linear unabhängig sind, gilt αi − βi = 0 und somit αi = βi für
alle i = 1, . . . , vk . Dies ist ein Widerspruch dazu, dass es mindestens einen Koeffizienten,
nämlich αj − βj gibt, der von Null verschieden ist.
(ii) ⇒ i) Der Nullvektor kann immer auf die triviale Art und Weise linear kombiniert
werden, d. h. in der Darstellung
0V = λ1 v1 + · · · + λk vk
Kann immer λ1 = . . . = λk = 0 gewählt werden. Da nach Voraussetzung jeder Vektor
eindeutig als Linearkombination dargestellt werden kann, gilt dies insbesondere für den
Nullvektor. Das heißt die triviale Linearkombination ist die einzig mögliche. Dies bedeutet,
aber genau, dass die Vektoren v1 , . . . , vk linear unabhängig sind.
Beispiel 6.2.7 Sei V = R3 , wir wollen uns geometrisch überlegen, was linear abhängig
und unabhängig bedeutet.
• Schauen wir zunächst einen einzelnen Vektor v ∈ V an. Dieser Vektor ist linear
unabhängig, wenn aus λ · v = 0V folgt, dass λ = 0 ist. Dies ist genau dann der Fall,
wenn v 6= 0V ist (s. Satz 6.1.3). Der Nullvektor hingegen ist linear abhängig, da
für alle λ ∈ K gilt: λ · v = 0V .
• Daraus folgt direkt, dass jede Menge von Vektoren in der der Nullvektor vorkommt
auch linear abhängig ist.
• Betrachten wir jetzt zwei Vektoren v1 , v2 ∈ V . Diese sind linear abhängig, wenn
es λ1 , λ2 ∈ K gibt, die nicht beide null sind, so dass λ1 v1 + λ2 v2 = 0V . Nach
Proposition 6.2.5 ist dies gleichbedeutend damit, dass v1 = −λ2 /λ1 v2 , also ein
Vektor ein Vielfaches des anderen ist. Geometrisch bedeutet dies, dass beide
Vektoren auf der gleichen Gerade durch den Ursprung liegen.
• Liegen zwei Vektoren nicht auf der gleichen Geraden durch den Ursprung, dann
sind sie linear unabhängig.
84
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
Definition 6.2.8
i) Eine Menge von Vektoren v1 , v2 , . . . ∈ V heißt Erzeugendensystem von V , wenn V = LH(v1 , ..., vk ) gilt.
ii) V heißt endlich erzeugt, falls ein Erzeugendensystem bestehend aus endlich
vielen Vektoren v1 , ..., vk ∈ V gibt. d.h. falls sich jeder Vektor von V aus dem
Erzeugendensystem v1 , ..., vk linear kombinieren läßt.
Definition 6.2.9 Sei V ein endlich erzeugter K-Vektorraum. Ein Erzeugendensystem
v1 , ..., vk ∈ V wird Basis genannt, falls die Vektoren linear unabhängig sind. Die Anzahl
der Basisvektoren (hier k) bezeichnet man als Länge der Basis.
Bemerkung 6.2.10 Wir können die obigen Definitionen auch ein wenig anders formulieren:
• v1 , ..., vk ∈ V sind ein Erzeugendensystem von V , wenn sich jeder Vektor v ∈ V auf
mindestens eine Art und Weise durch v1 , ..., vk linear kombinieren (oder erzeugen)
lässt.
• v1 , ..., vk ∈ V sind linear unabhängig in V , wenn sich jeder Vektor v ∈ V auf
höchstens eine Art und Weise durch v1 , ..., vk linear kombinieren (oder erzeugen)
lässt (s. Prop. 6.2.6).
• v1 , ..., vk ∈ V sind eine Basis von V , wenn sich jeder Vektor v ∈ V auf genau eine
Art und Weise durch v1 , ..., vk linear kombinieren (oder erzeugen) lässt.
Satz 6.2.11 (Charakterisierung von Basen)
Sei V ein endlich erzeugter K-Vektorraum. Für B = {v1 , . . . , vk } ⊆ V sind äquivalent
(i) B ist eine Basis von V .
(ii) B ist ein minimales Erzeugendensystem von V .
(iii) B ist eine maximale Menge linear unabhängiger Vektoren.
Beweis.“(i) ⇒ (ii)” Jede Basis ist per Definition ein Erzeugendensystem, bleibt also zu
zeigen, dass es minimal ist. Angenommen es ist nicht minimal, das heißt es gibt einen
Vektor vl ∈ B, so dass B 0 = B\{vl } immer noch ein Erzeugendensystem ist, das heißt aber,
dass vl ∈ LH(B 0 ) und somit ist mit Proposition 6.2.5 die Menge B linear abhängig, im
Widerspruch zur Definition einer Basis.
“(ii) ⇒ (i)” Wir nehmen an B sei ein minimales Erzeugendensystem von V , aber nicht
linear unabhängig. Aufgrund von Proposition 6.2.5 gibt es dann einen Vektor vl ∈ B, der
Linearkombination der Vektoren in B 0 = B\{vl } ist. Dann ist die lineare Hülle von B 0
gleich der linearen Hülle von B im Widerspruch zur Minimalität.
85
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
“(i) ⇒ (iii)” Jede Basis ist per Definition linear unabhängig, bleibt also zu zeigen, dass sie
maximal mit dieser Eigenschaft ist. Angenommen sie wäre nicht maximal, d. h. es gibt
einen Vektor v ∈ V , so dass die Menge B 0 = B ∪ {v} immer noch linear unabhängig ist.
Das ist aber nur dann möglich, wenn v ∈
/ LH(B) (folgt aus Proposition 6.2.5) und damit
ist B kein Erzeugendensystem.
“(iii) ⇒ (i)” Wir nehmen an B sei eine maximale Menge linear unabhängiger Vektoren in
V , aber kein Erzeugendensystem von V . Dann gibt es einen Vektor v ∈ V der nicht in
der linearen Hülle LH(B) liegt. Dann ist aber nach Proposition 6.2.5) die Menge B ∪ {v}
immer noch linear unabhängig, was im Widerspruch zur Maximalität steht.
Beispiel 6.2.12
• Sei V = K 3 und v1 = (1, 2, 0) ∈ V . Dieser Vektor ist linear
unabhängig, da es nicht der Nullvektor ist. Aber die Menge {v1 } ist nicht maximal,
da zum Beispiel v2 = (1, 2, 1) linear unabhängig zu v1 ist.
Es ist nicht sehr schwierig einen Vektor v2 = (a1 , a2 , a3 ) zu finden, der linear
unabhängig zu v1 ist. Selbst wenn wir die ersten beiden Komponenten gleich
wählen, d. h. a1 = 1, a2 = 2, dann führt nur die Wahl a3 = 0 zu einem Vektor,
der von v1 abhängig ist, wohingegen jede Wahl a3 ∈ K\{0} zu einem zu v1 linear
unabhängigen Vektor führt.
Die Menge {v1 , v2 } ist also per Konstruktion linear unabhängig, allerdings ist
sie immer noch nicht maximal. Dafür wählen wir zum Beispiel den Vektor v3 =
(0, −1, 0). Die Menge B = {v1 , v2 , v3 } ist linear unabhängig, aber sie ist auch
maximal mit dieser Eigenschaft, so dass sie eine Basis ist.
• Wir betrachten den Vektorraum V = K 2 und darin die Vektoren
v1 = (1, 1) v2 = (2, 2) v3 = (1, 0)
v4 = (2, 1)
Diese bilden ein Erzeugendensystem von V . Allerdings ist es nicht minimal, da
offensichtlich v2 = 2v1 und somit auch die Menge {v1 , v3 , v4 } ein Erzeugendensystem
ist. Aber außerdem gilt v4 = v1 + v3 , so dass man auch den Vektor v4 noch
entfernen kann ohne die lineare Hülle zu ändern. Somit ist B = {v1 , v3 } ein
Erzeugendensystem von V . Dies ist minimal, da beide Vektoren linear unabhängig
sind.
Satz 6.2.13 (Existenz von Basen)
Jeder endlich erzeugte Vektorraum V 6= {0V } besitzt eine Basis.
Beweis. Wähle ein Erzeugendensystem von B ⊆ V und entferne solange Vektoren v ∈ B
aus der Menge B, bis B die Definition einer Basis erfüllt.
Der Nullvektorraum {0V } hat keine Basis, da er nur aus einem einzigen Vektor besteht,
nämlich dem Nullvektor und dieser ist linear abhängig.
Im nächsten Schritt wollen wir die Anzahl der Elemente einer Basis, also ihre Länge,
untersuchen und werden dabei feststellen, dass diese nur vom Vektorraum abhängt, aber
nicht von der speziell gewählten Basis. Dafür benötigen wir folgenden Satz.
86
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
Satz 6.2.14 (Austauschsatz)
Sei V ein Vektorraum mit endlicher Basis B := {b1 , . . . , bk }, sowie 0V =
6 v ∈ V . Dann
gibt es ein bl ∈ B, sodass
B 0 := {b1 , . . . , bl−1 , v, bl+1 , . . . , bk }
eine Basis von V ist.
Pk
Beweis. Da B eine Basis von V ist, existieren λ1 , . . . , λk ∈ K mit v =
i=1 λi bi . Da
v 6= 0V , ist eines der λi von Null verschieden. Durch Umnummerieren erhält man λ1 6= 0
und B 0 = {v, b2 , . . . , bk }. Es ist also zu zeigen, dass zum einen LH(B 0 ) = V gilt, und dass
B 0 linear unabhängig ist.
(i) Zeige: LH(B 0 ) = V .
Sei u
P ∈ V . Weil B eine Basis von V ist, existieren µ1 , . . . , µk ∈ K, sodass
u = ki=1 µi bi . Da oben gewähltes λ1 6= 0, ist
k
b1 =
X λi
1
v−
bi .
λ1
λ1
i=1
Ersetzt man das b1 auf diese Weise in der Darstellung von u, so erhält man eine
Linearkombination von u in den Vektoren aus B 0 .
(ii) Zeige: B 0 ist linear unabhängig.
P
Seien µ1 , . . . , µk ∈ K, sodass µ1 v + ki=2 µi bi = 0. Durch Einsetzen der Darstellung
von v erhält man
!
k
k
X
X
0 = µ1
λi bi +
µi bi
i=1
= (µ1 λ1 )b1 +
i=2
k
X
(µ1 λi + µi )bi .
i=2
Da B eine Basis ist, verschwinden all diese Koeffizienten. Insbesondere ist µ1 λ1 = 0,
also wegen λ1 6= 0 bereits µ1 = 0. Für die weiteren Koeffezienten gilt demnach für
alle i ∈ {2, . . . , k}
0 = µ1 λ i + µi = µi .
Satz 6.2.15 (Eindeutige Länge einer Basis)
Sei V ein endlich erzeugter K-Vektorraum. Dann haben je zwei Basen von V gleich viele
Elemente.
Beweis. Seien B := {b1 , . . . , bn } und C := {c1 , . . . , cm } Basen von V und ohne Einschränkung n > m. Der Austauschsatz 6.2.14 besagt, dass m Vektoren von B durch
m Vektoren aus C ausgetauscht werden. Man erhält (durch geeignetes Umnummerieren)
B 0 := {c1 , . . . , cm , bm+1 . . . bn } als Basis von V.
Da C eine Basis und damit eine maximale linear unabhängige Menge ist, muss B 0 linear
abhängig sein. Dies steht im Widerspruch dazu, dass B eine Basis ist.
87
KAPITEL 6. VEKTORRÄUME
6.2. BASIS UND DIMENSION
Definition 6.2.16 (Dimension)
Sei B = {b1 , . . . , bk } eine Basis eines Vektorraums V . Dann heißt
dim(V ) = dimK (V ) := k
die Dimension von V . Für V = {0V } setzen wir dim(V ) := 0.
Beispiel 6.2.17 Der K n hat die Basis B = {e1 , e2 , . . . , en } wobei die Vektoren ei an
allen Stellen den Eintrag null haben außer an der i-ten Stelle
ei = (0, 0, . . . , 0, 1, 0, . . . , 0).
Dies ist eine Basis, die sogenannte Standardbasis, da der Vektor v = (λ1 , λ2 , . . . , λn )
als Linearkombination der ei geschrieben werden kann:
v = (λ1 , λ2 , . . . , λn ) =
n
X
λi ei .
i=1
Also ist B ein Erzeugendensystem. Es folgt, aber auch, dass die Menge B eine Basis ist,
denn wenn
n
X
0V =
λi ei = (λ1 , λ2 , . . . , λn )
i=1
gilt, dann muss schon λ1 = λ2 = · · · = λn = 0 gelten.
Somit hat der K n die Dimension n.
Satz 6.2.18 (Basiskriterien)
Sei V ein Vektorraum der Dimension k ∈ N und B ⊆ V .
(i) Ist B linear unabhängig und #B = k, so ist B eine Basis von V .
(ii) Ist B ein Erzeugendensystem von V und #B = k, so ist B eine Basis von V .
Beweis. (i) Angenommen B = {v1 , . . . , vk } sei keine Basis, das heißt sie ist kein Erzeugendensystem. Dann könnten Vektoren vk+1 , . . . , vn hinzufügen, so dass die Menge
{v1 , . . . , vn } eine Basis ist. Dann hätten wir allerdings eine Basis mit n > k Elementen
in einem k-dimensionalen Vektorraum im Widerspruch zu Satz6.2.15.
(ii) Angenommen B = {v1 , . . . , vk } sei keine Basis, das heißt nicht linear unabhängig.
Aufgrund von Proposition 6.2.5 können wir dann Vektoren vl aus B entfernen, bis
B 0 = B\{vl | l ∈ I ⊆ {1, . . . , k}} linear unabhängig ist. Aber dann wäre B 0 eine
Basis mit n < k Elementen in einem k-dimensionalen Vektorraum im Widerspruch
zu Satz6.2.15.
Dieser Satz ist sehr praktisch, da es nun genügt eine der beiden Eigenschaften “lineare Unabhängigkeit” oder “Erzeugendensystem” zu zeigen, wenn die Dimension des Vektorraums
bekannt ist.
88
KAPITEL 6. VEKTORRÄUME
6.3. SUMMEN UND DIREKTE SUMMEN
Satz 6.2.19 (Basisergänzung)
Sei V ein endlich erzeugter Vektorraum der Dimension n ∈ N und v1 , . . . , vk ∈ V linear
unabhängig (k ≤ n). Dann existieren vk+1 , . . . , vn ∈ V , sodass {v1 , . . . , vk , vk+1 , . . . , vn }
eine Basis von V ist.
Beweis. Ist k = n, so bildet {v1 , . . . , vk } nach Satz 6.2.18 bereits eine Basis. Sei also k < n
und B = {b1 , . . . , bn } eine Basis von V . Durch Anwenden des Austauschsatzes 6.2.14 und
geeignetem Umnummerieren erhält man
{v1 , . . . , vk , bk+1 , . . . , bn } als Basis von V.
6.3. Summen und direkte Summen
U und V seien Unterräume eines Vektorraums W . Im Gegensatz zu dem Durchschnitt
U ∩ V ist die Vereinigungsmenge U ∪ V im allgemeinen kein Unterraum. Der kleinste
Untervektorraum von W , in welchem sowohl U als auch V enthalten sind, entspricht der
Menge aller (endlichen!) Linearkombinationen LH(U ∪ V ), welche sich aus Vektoren von U
und V bilden lassen. Diesen Vektorraum bezeichnet man als Summe U + V der Unterräume
U und V .
Definition 6.3.1 Es seien U, V ⊂ W zwei Unterräume eines K-Vektorraums W . Dann
bezeichnet man
U + V := {w ∈ W | ∃u ∈ U und∃v ∈ V, so dass gilt:w = u + v}
(6.1)
als die Summe von U und V .
Satz 6.3.2 Es seien U, V zwei endlich dimensionale Unterräume eines K-Vektorraums
W . Dann ist die Dimension ihrer Summe gegeben durch
dim(U + V ) = dim U + dim V − dim(U ∩ V ) .
(6.2)
Beweis. Die Vorgehensweise des Beweises besteht darin, eine Basis von U + V zu wählen
und die Anzahl der Vektoren zu zählen. Dabei besteht die Schwierigkeit im wesentlichen
darin, daß die Vektoren, welche sich in natürlicher Weise als Basis anbieten auch tatsächlich
eine Basis darstellen, d.h. insbesondere auch linear unabhängig sind.
• Es sei y1 , . . . , yk eine Basis von U ∩ V .
• Nach dem Basisergänzungssatz gibt es u1 , .., um ∈ U , so daß y1 , . . . , yk , u1 , . . . , um
eine Basis von U ist.
• Ebenso lassen sich v1 , . . . , vn ∈ V finden, so daß y1 , . . . , yk , v1 , . . . , vn eine Basis von
V ist.
89
KAPITEL 6. VEKTORRÄUME
6.3. SUMMEN UND DIREKTE SUMMEN
• zeige: y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn bilden ein Erzeugendensystem von U + V .
Sei x ∈ U + V vorgegeben. Dann existieren u ∈ U und v ∈ V mit x = u + v. Also gibt
es Skalare α1 , . . . , αk , λ1 , . . . , λm ∈ K und β1 , . . . , βk , µ1 , . . . , µn ∈ K derart, daß
u = α1 y1 + · · · + αk yk + λ1 u1 + · · · + λm um
und
v = β1 y1 + · · · + βk yk + µ1 v1 + · · · + µn vn .
Mithin erhalten wir
x = u + v = (α1 + β1 )y1 + · · · + (αk + βk )yk + λ1 u1 + · · · + λm um + µ1 v1 + · · · + µn vn ,
woraus U + V ⊂ LH(y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn ) folgt.
• zeige: y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn sind linear unabhängig.
Dazu betrachten wir die Gleichung
α1 y1 + · · · + αk yk + λ1 u1 + · · · + λm um + µ1 v1 + · · · + µn vn = 0W
(6.3)
und setzen
u := α1 y1 + · · · + αk yk + λ1 u1 + · · · + λm um .
Wegen (6.3) muß
µ1 v1 + · · · + µn vn = −u
gelten. Also ist nicht nur µ1 v1 + · · · + µn vn ∈ V sondern auch µ1 v1 + · · · + µn vn ∈ U
bzw. zusammenfassend µ1 v1 + · · · + µn vn ∈ U ∩ V . Daher existieren β1 , . . . , βk ∈ K
mit
β1 y1 + · · · + βk yk = µ1 v1 + · · · + µn vn ,
so daß Gleichung (6.3) die Form
(α1 + β1 )y1 + · · · + (αk + βk )yk + λ1 u1 + · · · + λm um = 0W
annimmt. Da y1 , . . . , yk , u1 , . . . , um als Basis von U linear unabängig ist, müssen alle
Koeffizienten verschwinden, insbesondere können wir λ1 = · · · = λm = 0 folgern.
Damit verkürzt sich (6.3) zu
α1 y1 + · · · + αk yk + µ1 v1 + · · · + µn vn = 0W .
Diese Gleichung kann jedoch ebenfalls nur für verschwindende α1 , . . . , αk , µ1 , . . . , µn
bestehen, weil auch y1 , . . . , yk , v1 , . . . , vn als Basis von V linear unabhängig sind. Insgesamt haben wir also folgern können, daß (6.3) nur auf triviale Weise erfüllbar, womit
die lineare Unabhängigkeit der Vektoren y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn erwiesen
ist.
• Damit sind y1 , . . . , yk , u1 , . . . , um , v1 , . . . , vn als Basis von U + V bestätigt und es
folgt
dim(U + V ) = k + m + n
= (k + m) + (k + n) − k
= dim U + dim V − dim(U ∩ V ) ,
was zu beweisen war.
90
KAPITEL 6. VEKTORRÄUME
6.3. SUMMEN UND DIREKTE SUMMEN
Definition 6.3.3 Die Summe zweier Unterräume U, V ⊂ W eines K-Vektorraumes W
heißt direkte Summe, sofern U ∩ V = {0W } gilt. In diesem Fall schreibt man U ⊕ V
statt U + V .
Satz 6.3.4 Für die Summe U + V zweier Unterräume U, V ⊂ W eines K-Vektorraumes
sind folgende Aussagen äquivalent:
i) Zu jedem Vektor x ∈ U + V gibt es ein eindeutig bestimmtes u ∈ U und v ∈ V
mit x = u + v.
ii) U ∩ V = {0W }.
Beweis. “ii) ⇒ i)” Angenommen der Vektor x ∈ U + V erlaube zwei unterschiedliche
Darstellungen
x = u1 + v1 = u2 + v2
mit u1 , u2 ∈ U und v1 , v2 ∈ V , wobei u1 6= u2 und v1 6= v2 . Aus dieser Gleichung folgt
u1 − u2 = v1 − v2 ,
| {z } | {z }
∈U
∈V
weshalb u1 −u2 , v2 −v1 ∈ U ∩V . Da u1 −u2 =
6 0W folgt U ∩V 6= {0W } im Widerspruch zu ii).
“i) ⇒ ii)” Angenommen U ∩ V 6= {0W }. Dann existiert y ∈ U ∩ V mit y 6= 0W . Der
Vektor x ∈ U + V habe die Darstellung x = u + v mit u ∈ U und v ∈ V . Dann gilt auch
x = (u + y) + (v − y), wobei u + y ∈ U und v − y ∈ V . Damit ist eine zweite Darstellung
gefunden im Widerspruch zu i).
Korollar 6.3.5 Für zwei Untervektorräume U, V ⊂ W eines endlichdimensionalen
K-Vektorraums W sind folgende Aussagen äquivalent:
i) W = U ⊕ V .
ii) W = U + V und dim W = dim U + dim V .
iii) U ∩ V = {0W } und dim W = dim U + dim V .
Beweis. i) ⇒ ii) Aussage i) impliziert per Definition des ⊕-Symbols W = U + V und
U ∩ V = {0W }. Mittels der Dimensionsformel (6.2) folgt dann dim W = dim(U + V ) =
dim U + dim V .
ii) ⇒ iii) Da dim W = dim(U + V ) folgt aus der Voraussetzung in ii) und der Dimensionsformel (6.2), daß dim(U ∩ V ) = 0. Also ist U ∩ V = {0W }.
iii) ⇒ i) Aus U ∩ V = {0W } folgt nach der Dimensionsformel dim(U + V ) = dim U + dim V .
Die Voraussetzung in iii) liefert dann dim(W ) = dim(U +V ). Da der Unterraum U +V ⊂ W
von gleicher Dimension ist wie W , folgt U + V = W und damit U ⊕ V = W , weil U und V
trivialen Durchschnitt haben.
91
KAPITEL 6. VEKTORRÄUME
6.3. SUMMEN UND DIREKTE SUMMEN
Wir wollen jetzt die Begriffe dieses Kapitels mit unserer geometrischen Anschauung verbinden.
Beispiel 6.3.6 Sei V = R2 , dann können wir uns einen Vektor v ∈ V als Punkt in einer
Ebene vorstellen (oder auch als Pfeil vom Ursprung zu diesem Punkt). Da der R2 ein
zweidimensionaler R-Vektorraum ist, gibt es drei Arten von Untervektorräumen - welche
mit Dimension 0, 1 oder 2. Ein Raum der Dimension 0 enthält nur den Nullvektor. Da
der R2 die Dimension zwei hat, ist ein Unterraum der Dimension 2 schon der ganze R2 .
Ein Unterraum U der Dimension 1 hat eine Basis bestehend aus einem Vektor u ∈ U ,
der nicht der Nullvektor ist. Die lineare Hülle dieses Vektor besteht aus allen Vielfachen
dieses Vektors. Diese Vielfache entsprechen geometrisch allen Punkten, die auf der vom
Nullpunkt und u aufgespannten Geraden liegen. Also ist U = LH(u) eine Gerade durch
den Ursprung.
Seien U1 , U2 ⊆ V Untervektorräume der Dimension 1 und sei u1 eine Basis von U1 und
u2 eine Basis von U2 . Es gibt zwei Situationen die eintreten können:
1. U1 = U2 , dann sind die Vektoren u1 , u2 linear abhängig und der Durchschnitt
U1 ∩ U2 = U1 . Mithilfe der Dimensionsformel (6.2) können wir berechnen
dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 1 + 1 − 1 = 1,
das heißt die Summe U1 + U2 = U1 .
2. U1 =
6 U2 , dann sind die Vektoren u1 , u2 linear unabhängig und der Durchschnitt
U1 ∩ U2 = {0V }. Mithilfe der Dimensionsformel (6.2) können wir berechnen
dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 1 + 1 − 0 = 2,
das heißt die Summe U1 + U2 = R2 , und somit gilt sogar U1 ⊕ U2 = R2 .
Beispiel 6.3.7 Sei V = R3 , dann können wir uns einen Vektor v ∈ V als Punkt im
Raum vorstellen (oder auch als Pfeil vom Ursprung zu diesem Punkt). Da der R3 ein
dreidimensionaler R-Vektorraum ist, gibt es drei Arten von Untervektorräumen - welche
mit Dimension 0, 1, 2 oder 3. Der Raum {0V } ist der einzige Unterraum der Dimension
0 und der R3 selbst der einzige Unterraum der Dimension drei.
Ein Unterraum U der Dimension 1 entspricht wie in Beispiel 6.3.6 einer Gerade durch
den Ursprung. Ein Unterraum der Dimension 2 wird von 2 linear unabhängigen Vektoren
erzeugt und ist somit eine Ebene durch den Ursprung.
Seien U, W ⊆ V Untervektorräume. Wir betrachten 2 Situationen in denen wir die
Summer U + W berechnen.
1. Sei U ein Unterraum der Dimension 1 mit Basis u 6= 0V und W ein Unterraum
der Dimension 2 mit Basis w1 , w2 . Wenn u ∈
/ W , dann ist auch U 6⊂ W und somit
ist U ∩ W = {0V }. Mithilfe der Dimensionsformel (6.2) können wir berechnen
dim(U + W ) = dim U + dim W − dim(U ∩ W ) = 1 + 2 − 0 = 3,
92
KAPITEL 6. VEKTORRÄUME
6.3. SUMMEN UND DIREKTE SUMMEN
das heißt die Summe U + W ist der ganze R3 . Aufgrund von U ∩ W = {0V } ist
die Summe sogar direkt U ⊕ W = R3 .
2. Seien U, W ( R3 Unterräume der Dimension 2 mit den Basen u1 , u2 , bzw. w1 , w2 .
Wenn U 6= W , dann gibt es in U einen Vektor u, der zu w1 , w2 linear unabhängig
ist, so dass u, w1 , w2 eine Basis des R3 ist. Daher ist U + W = R3 und wir können
mit der Dimensionsformel (6.2) die Dimension des Durchschnitt U ∩ W berechnen
3 = dim(U + W ) = dim U + dim W − dim(U ∩ W ) = 2 + 2 − dim(U ∩ W ).
Somit ist dim(U ∩ W ) = 1, das heißt, wenn sich zwei Ebenen im Raum schneiden,
dann entsteht eine Gerade.
93
7. Matrizen, lineare Gleichungssysteme
und lineare Abbildungen
Lineare Gleichungssysteme werden meist schon in der Schule behandelt um geometrische
Fragestellungen zu beantworten. Schreibt man die Koeffizienten vor den Unbekannten des
linearen Gleichungssystems in Form eines tabellenartigen Schemas – Matrix genannt und die
Unbekannten dahinter als Spaltenvektor, dann kann man ein lineares Gleichungssystem in
knapper und übersichtlicher Weise untersuchen. Das spart das Mitführen der Unbekannten
in jedem Rechnenschritt und liefert gleichzeitig eine neue Sichtweise. Wir werden sehen,
dass auch das Studium von Abbildungen zwischen Vektorräumen zwangsläufig zu Matrizen
führt. Dies ermöglicht uns enge Zusammenhänge zwischen diesen auf den ersten Blick
unterschiedlichen Objekten herzustellen, wodurch wir zu neuen Erkenntnissen gelangen.
7.1. Matrizen
In diesem Abschnitt wollen wir lernen mit Matrizen zu rechnen und sehen welche Art von
Operationen mit ihnen möglich sind.
Definition 7.1.1 Seien m und n zwei natürliche Zahlen, m, n ≥ 1 und K ein Körper. Eine m×n Matrix A mit Einträgen in K ist ein rechteckiges, tabellenförmiges Zahlenschema
mit m Zeilen und n Spalten


a11 a12 ... a1n
 a21 a22 ... a2n 


A= .
= aij i∈{1,...,m} = (aij ),

.
.
..
.. 
 ..
j∈{1,...,n}
am1 am2 ... amn
wobei aij ∈ K. Wir sagen A ist eine “m kreuz n Matrix”.
Wir bezeichnen mit MatK (m, n) die Menge der m × n Matrizen mit Einträgen in K.
Insbesondere, wenn aus dem Kontext klar ist wie viele Zeilen und Spalten eine Matrix hat,
dann benutzen wir die verkürzende Schreibweise A = (aij ).
Analog zum Vektorraum K n definieren wir eine Addition für Matrizen gleicher Größe,
sowie eine Skalarmultiplikation.
Definition 7.1.2
• Seien A, B ∈ MatK (m, n), λ ∈ K, dann definieren wir die
Summe, sowie die Skalarmultiplikation von Matrizen
A + B = (aij + bij )i∈{1,...,m}
j∈{1,...,n}
94
und λA = (λaij )i∈{1,...,m} .
j∈{1,...,n}
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
• Seien A = (aik ) ∈ MatK (m, n) und B = (bkj ) ∈ MatK (n, p). Für i ∈ {1, ..., m}
und j ∈ {1, ..., p} werden durch
cij :=
n
X
aik bkj
(7.1)
k=1
die Koeffizienten einer m × p Matrix C := (cij ) ∈ MatK (m, p) festgelegt, die man
die Produktmatrix von A und B nennt, man schreibt dafür C = A · B = AB.
Um die Produktmatrix AB berechnen zu können, ist es notwendig, dass die Matrix A
genauso viele Spalten hat, wie die Matrix B Zeilen hat. Das Produkt hat dann so viele
Zeilen wie A und so viele Spalten wie B.
Zur Berechnung des Eintrags in der i-ten Zeile und der j-ten Spalte des Produkts, benötigt
man die i-te Zeile von A und die j-te Spalte von B. Diese haben gleich viele Einträge,
nämlich n Stück, so dass es möglich ist den k-ten Eintrag der i-ten Zeile von A mit dem
k-ten Eintrag der j-ten Spalte von B zu multiplizieren. Diese für k = 1, . . . , n berechneten
Produkte werden dann aufaddiert.

Beispiel 7.1.3


1
2
• Wir berechnen die Summe der Matrizen A =  0 −2 ,
−1 0

3
0

2
1  ∈ MatK (3, 2) und erhalten
B=
−1 −2

 
 

1
2
3
0
4
2
1  =  2 −1 .
A + B =  0 −2 +  2
−1 0
−1 −2
−2 −2
Außerdem berechnen wir 5 · A und erhalten

 

1
2
5
10
5 · A = 5 ·  0 −2 =  0 −10 .
−1 0
−5
0
1 3
• Wir berechnen das Produkt der Matrizen A =
∈ MatK (2, 2) und
−2 5
2 1
B=
∈ MatK (2, 2). Dies ist möglich, da A genauso viele Spalten hat, wie
−1 1
B Zeilen, nämlich 2.
1 3
2 1
1 · 2 + 3 · (−1)
1·1+3·1
−1 4
A·B =
·
=
=
.
−2 5
−1 1
−2 · 2 + 5 · (−1) −2 · 1 + 5 · 1
−9 3


1 4
• Jetzt wollen wir das Produkt der Matrizen A = 2 5 ∈ MatK (3, 2) und
3 6
1 0 −1 2
B=
∈ MatK (2, 4) berechnen. Auch hier kann das Produkt A · B
2 3 0 −1
95
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
in der Tat berechnet werden kann, da A zwei Spalten und B zwei Zeilen hat.
Umgekehrt kann B · A nicht berechnet werden, da die Anzahl der Spalten von B
ungleich der Anzahl der Zeilen von A ist (4 6= 3).


1 4
1
0
−1
2
A · B = 2 5 ·
2 3 0 −1
3 6


1 · 1 + 4 · 2 1 · 0 + 4 · 3 1 · (−1) + 4 · 0 1 · 2 + 4 · −1
= 2 · 1 + 5 · 2 2 · 0 + 5 · 3 2 · (−1) + 5 · 0 2 · 2 + 5 · −1
3 · 1 + 6 · 2 3 · 0 + 6 · 3 3 · (−1) + 6 · 0 3 · 2 + 6 · −1

 

1 + 8 0 + 12 −1 + 0 2 − 4
9 12 −1 −2
= 2 + 10 0 + 15 −2 + 0 4 − 5 = 12 15 −2 −1
3 + 12 0 + 18 −3 + 0 6 − 6
15 18 −3 0
Die Matrix AB hat 3 Zeilen, da A 3 Zeilen hat und 4 Spalten, da B 4 Spalten hat.
Satz 7.1.4 Die Menge der m × n Matrizen MatK (m, n) ist ein K-Vektorraum der
Dimension m · n.
Beweis. Da eine m × n-Matrix m · n Einträge aus K hat und Addition und Skalarmultiplikation komponentenweise definiert wurden, können wir die Menge MatK (m, n) mit dem
Vektorraum K m·n identifizieren.
Das neutrale Element der Addition ist die Nullmatrix Om,n mit den Einträge oij = 0 für
alle i = 1, . . . , m und j = 1, . . . , n.
Eine Basis von MatK (m, n) bilden die Matrizen Eij , die in der i-ten Zeile und j-ten Spalte
den Eintrag 1 haben und sonst null.
Satz 7.1.5 (Assoziativität der Matrixmultiplikation)
Seien A ∈ MatK (m, n), B ∈ MatK (n, p), C ∈ MatK (p, q) Matrizen, dann gilt:
(A · B) · C = A · (B · C)
Beweis. Zunächst bemerken wir, dass es möglich ist die angegebenen Produkte zu berechnen.
Das Produkt A · B liegt in MatK (m, p) und kann daher mit der Matrix C ∈ MatK (p, q)
multipliziert werden, so dass (A · B) · C ∈ MatK (m, q).
Auf der anderen Seite liegt B · C ∈ MatK (n, q) so dass A · (B · C) Sinn ergibt und ebenfalls
in MatK (m, q) liegt.
Wir betrachten jetzt einen Eintrag des Produkts (A · B) · C:
(A · B) · C
ij
p
P
Bilde das Produkt von AB und C
(A · B)i` c`j
`=1 p
n
P
P
=
aik bk` c`j Bilde das Produkt von A und B
=
=
`=1 k=1
p P
n
P
aik bk` c`j
Distributivgesetz in K
`=1k=1
96
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
p
n P
P
Kommutativgesetz der Addition in K
aik bk` c`j
k=1`=1 p
n
P
P
Distributivgesetz in K
bk` c`j
aik
=
=
`=1
k=1
n
P
aik (B · C)kj
k=1
= A · (B · C) ij
=
Definition des Produkts von B und C
Definition des Produkts von A und BC
Diese Rechnung gilt für alle i = 1, . . . , m und j = 1, . . . , q und damit für alle Einträge der
Produktmatrizen.
Satz 7.1.6 (Distributivität der Matrixmultiplikation)
Seien A ∈ MatK (m, n), B ∈ MatK (n, p), C ∈ MatK (n, p) Matrizen, dann gilt:
A · (B + C) = A · B + A · C
Seien A ∈ MatK (m, n), B ∈ MatK (m, n), C ∈ MatK (n, p) Matrizen, dann gilt:
(A + B) · C = A · C + B · C
Beweis. Zunächst bemerken wir, dass es möglich ist die angegebenen Summen und Produkte
zu berechnen. Die Summe B + C liegt in MatK (n, p) und kann daher mit der Matrix
A ∈ MatK (m, n) multipliziert werden, so dass A · (B + C) ∈ MatK (m, p).
Auf der anderen Seite liegt sowohl A · B ∈ MatK (m, p), als auch A · C ∈ MatK (m, p), so
dass die Summe A · B + A · C Sinn ergibt und ebenfalls in MatK (m, q) liegt.
Wir betrachten jetzt einen Eintrag des Produkts A · (B + C):
A · (B + C)
ij
=
=
=
n
P
ai` (B + C)`j
`=1
n
P
ai` (b`j + c`j )
`=1
n
P
(ai` b`j + ai` c`j )
`=1
n
P
Bilde das Produkt von A und B + C
Bilde die Summe von B und C
Distributivgesetz in K
n
P
ai` c`j Assoziativgesetz der Addition in K
`=1
`=1
Definition des Produkts von A und B, bzw. von A und C
= (AB)ij + (AC)ij
=
ai` b`j +
Das zweite Distributivgesetz wird analog bewiesen.
Es ist notwendig beide Distributivgesetze anzugeben, da die Matrixmultiplikation nicht
kommutativ ist und somit nicht das eine Gesetz aus dem anderen folgt.
Satz 7.1.7 Seien A ∈ MatK (m, n), B ∈ MatK (n, p) Matrizen und λ ∈ K, dann gilt:
λ · (A · B) = (λ · A) · B = A · (λ · B)
97
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
Beweis. Multiplikation mit einem Skalar ändert die Größe einer Matrix nicht, so dass alle
Produkte definiert sind.
Wir betrachten jetzt einen Eintrag des Produkts λ · (A · B):
λ · (A · B)
ij
= λ
n
P
ai` b`j
Bilde das Produkt von A und B
`=1
n
P
(λai` ) b`j Assoziativität der Multiplikation in K
`=1
= ((λA) · B)ij Definition des Produkts von λA und B .
=
Auf analoge Weise lässt sich auch die Gleichung λ · (A · B) = A · (λ · B) zeigen.
Satz 7.1.8 Die Menge der quadratischen Matrizen MatK (n, n) ist ein Ring mit Eins.
Beweis. Die Eigenschaften der Addition folgen aus Satz 7.1.4. Das Assoziativgesetz der
Multiplikation folgt aus Satz 7.1.5 und das Distributivgesetz aus Satz 7.1.6.
Das neutrale Element der Multiplikation ist die Einheitsmatrix


1 0 0 0
0 1 0 0


En = 
,
.
.
0 0
. 0
0 0 0 1
dies ist eine Matrix mit den Einträgen 1 auf der Diagonale und null sonst. Die Einheitsmatrix
ist das neutrale Element der Multiplikation, denn es gilt
(A · En )ij =
n
X
aik (En )kj = aij ,
k=1
da (En )kj = 1, wenn k = j und (En )kj = 0, wenn k 6= j.
Bemerkung 7.1.9 Der Ring MatK (n, n) ist für n > 1 nicht kommutativ, da zum
Beispiel
2 0
1 1
2 2
2 1
1 1
2 0
A·B =
·
=
6=
=
·
= B · A.
0 1
0 1
0 1
0 1
0 1
0 1
Bemerkung 7.1.10 Für nichtquadratische Matrizen macht das Produkt B · A nicht
zwangsläufig Sinn, nur weil A · B Sinn macht. Und selbst wenn beide Produkte Sinn
ergeben, dann ist die entstehende Matrix von einem anderen Format. Als Beispiel
berechnen wir das Produkt eines
und eines Spaltenvektors gleicher Größe.
Zeilenvektor

−1
Sei also v = (2, 3, −2) und w =  0 , dann ist
2


−1
v · w = (2, 3, −2) ·  0  = 2 · (−1) + 3 · 0 + (−2) · 2 = −6
2
98
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
aber
7.1. MATRIZEN




−1
−2 −3 2
0
0
w · v =  0  · (2, 3, −2) =  0
2
4
6 −4
Die Definition der transponierten Matrix ist zum gegenwärtigen Zeitpunkt ziemlich unmotiviert, das wird sich aber ändern, sobald wir Matrizen als lineare Abbildungen mit
euklidischen Vektorräumen und insbesondere dem Skalarprodukt in Verbindung bringen.
Definition 7.1.11 (Transponierte)
Es sei A ∈ MatK (m, n) eine Matrix. Die zu A transponierte Matrix A> ∈ MatK (n, m)
ergibt sich sich
und Zeilen von A.
durch Vertauschen der Spalten
Sei A = aij i∈{1,...,m} , dann ist A> = aji j∈{1,...,n} .
j∈{1,...,n}
i∈{1,...,m}
Beispiel 7.1.12
A=
1 1 2
3 4 3


1 3
A> = 1 4 ∈ MatR (3, 2)
2 3
∈ MatR (2, 3)
⇒


1
−2
4

v=
 3  ∈ MatR (4, 1) = R
1
v > = 1 −2 3 1 ∈ MatR (1, 4)
⇒
Offenbar wird man durch zweifaches Transponieren auf die Ausgangsmatrix zurückgeführt,
d.h. es gilt
(A> )> = A>> = A .
(7.2)
Satz 7.1.13 (Transponierte einer Produktmatrix)
Es seien A ∈ MatK (m, p) und B ∈ MatK (p, n). Dann ist die transponierte Matrix der
Produktmatrix AB ∈ MatK (m, n) gegeben durch
(AB)> = B > A> ∈ MatK (n, m),
d.h. die Transponierte der Produktmatrix entspricht dem Produkt der transponierten
Faktoren in umgekehrter Reihenfolge.
Beweis. Es seien A = (aj` ) und B = (b`i ). Da B > ∈ MatK (n, p) und A> ∈ MatK (p, m)
ist das Matrixprodukt B > A> wohldefiniert. Definitionsgemäß ist das Matrixelement der
Produktmatrix AB mit den Indizes i, j gegeben durch
(AB)ji =
p
P
aj` b`i .
`=1
99
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
Vertauschen der Indizes i und j liefert das Matrixelement an der Position i, j (i’te Zeile,
j’te Spalte) der transponierten Produktmatrix (AB)> . Somit erhalten wir
Definition der Transponierten von AB
(AB)> ij = (AB)ji
=
=
p
P
Produkt von A und B
aj` b`i
`=1
p
P
Kommutativgesetz der Multiplikation in K
b`i aj`
`=1
p
P
(B > )i` (A> )`j Definition der Transponierten von A, bzw. B
`=1
Definition des Produkts von B > und A>
= (B > A> )ij
=
wodurch die Behauptung bestätigt ist, denn zwei gleichformatige Matrizen sind genau dann
gleich, wenn sie in alle ihren Einträgen übereinstimmen.
Definition 7.1.14 (Spaltenrang und Zeilenrang)
Der Spaltenrang (Zeilenrang) einer Matrix A ∈ MatK (m, n) ist die maximale Anzahl
linear unabhängiger Spaltenvektoren (Zeilenvektoren) von A.
Beispiel 7.1.15 Wir betrachten

3
2
1
die Matrix

1 0 3
0 1 0 ∈ MatR (3, 4)
1 −1 3
Der Zeilenrang von A ist 2, da jeweils 2 Zeilen linear unabhängig sind, aber die erste
Zeile die Summe der zweiten und der dritten Zeile ist.
Der Spaltenrang ist ebenfalls 2, da zum einen die vierte Spalte das dreifache der zweiten
Spalten ist. Außerdem kann man die erste Spalte aus der zweiten und dritten Spalte
linear kombinieren und zwar indem man die zweite Spalte mit 3 multipliziert und die
dritte mit 2 und dies aufaddiert. Da aber die zweite und dritte Spalte linear unabhängig
sind, ist der Spaltenrang 2.
Wir sehen, dass für eine m × n Matrix der Zeilenrang kleiner gleich m sein muss, da es ja
genau m Zeilen gibt. Außerdem muss der Zeilenrang kleiner gleich n sein, da jede Zeile ein
Vektor aus dem K n ist und maximal n davon können linear unabhängig sein.
Für den Spaltenrang können wir analog argumentieren und erhalten die Abschätzung
Zeilenrang ≤ min(m, n)
und
Spaltenrang ≤ min(m, n).
Satz 7.1.16 (Rang einer Matrix)
Bei jeder Matrix A ∈ MatK (m, n) stimmen Spalten- und Zeilenrang überein.
100
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
Beweis. Da die Behauptung im Falle der Nullmatrix richtig ist, betrachten wir im folgenden
eine von der Nullmatrix verschiedene Matrix A ∈ MatK (m, n)
 1
  1
a
a1 . . . a1n
 ..


.
..  =  ... 
A= .
 = a1 . . . an
am
. . . am
am
n
1
mit den Zeilenvektoren a1 , ..., am ∈ Kn und den Spaltenvektoren a1 , ..., an ∈ K m . Es
sei 1 ≤ s ≤ n der Spaltenrang von A. Dann gibt es s linear unabhängige Spaltenvektoren
b1 , ..., bs ∈ K m , so daß sich jeder der n Spaltenvektoren a1 , ..., an als Linearkombination
der b1 , ..., bs schreiben läßt. Anders ausgedrückt, gibt es zu jedem Spaltenvektor ai mit
i ∈ {1, ..., n} Koeffizienten c1i , ..., csi , so daß
ai =
s
X
cki bk .
k=1
Für das Matrixelement
aji
gilt dann
aji =
s
X
cki bjk ,
k=1
j
wobei bk die j’te Komponente von bk bezeichnet. Die cki ’s lassen sich zu s Zeilenvektoren
ck = (ck1 , ..., ckn ) zusammenfassen. Auf diese Weise läßt sich die obige Gleichung für den
j’ten Zeilenvektor aj in der Form
j
a =
s
X
k=1
ck bjk
=
s
X
bjk ck
k=1
schreiben. Damit ergibt sich jeder der m Zeilenvektoren als Linearkombination der s
Zeilenvektoren c1 , ..., cs ∈ Kn . Daher muß
Zeilenrang von A = z ≤ s = Spaltenrang von A
gelten. Wir erhalten nur eine obere Abschätzung des Zeilenrangs, da die lineare Abhängigkeit
der c1 , ..., cs nicht ausgeschlossen ist bzw. die lineare Unabhängigkeit der c1 , ..., cs nicht
gesichert ist.
Um die Gleichheit zu zeigen, führen wir die obige Argumentation in umgekehrter Weise
durch. Dazu sei 0 ≤ z ≤ n der Zeilenrang von A. Dann gibt es z linear unabhängige
Zeilenvektoren c̃1 , ..., c̃z ∈ Kn , so daß sich sämtliche Zeilenvektoren der Matrix A jeweils
daraus linear kombinieren lassen. Analog zur obigen Rechnung läßt sich daraus
Spaltenrang von A = s ≤ z = Zeilenrang von A
schließen. Also gilt s ≤ z aber auch z ≤ s wie oben gesehen. Das ist nur möglich wenn
s = z, d.h. Spalten- und Zeilenrang sind gleich.
Definition 7.1.17 Sei A ∈ MatK (n, m) eine Matrix, dann ist Rang der Matrix A,
geschrieben rangA, definiert als der Spaltenrang von A.
101
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
Die quadratischen Matrizen bilden einen Ring (s. Def. 4.3.6), das heißt wir können Matrizen
miteinander multiplizieren, aber es gibt nicht für jedes Element ein Inverses bezüglich der
Multiplikation. Aber genau wie in den Restklassenringen spielen die Einheiten (s. Def.
4.3.10), also diejenigen Matrizen, die ein Inverses besitzen, eine wichtige Rolle und bilden
insbesondere eine Gruppe (s. Prop. 4.3.12).
Definition 7.1.18 (Inverse)
Eine Matrix A ∈ MatK (n, n) heißt invertierbar, falls eine Matrix A−1 ∈ MatK (n, n)
existiert mit
A−1 A = AA−1 = En .
Die Matrix A−1 heißt die zu A inverse Matrix bzw. die Inverse von A.
Die Menge der invertierbaren n × n-Matrizen wird mit Gln (K) bezeichnet (“general
linear group=allgemeine lineare Gruppe”).
Satz 7.1.19 Die Matrix A ∈ MatK (n, n) sei invertierbar.
i) Ist B ∈ MatK (n, n) eine weitere invertierbare Matrix, so ist auch das Matrixprodukt
AB invertierbar und es gilt
(AB)−1 = B −1 A−1 .
Man beachte die Analogie zur Transponierten einer Produktmatrix (siehe Satz
7.1.13).
ii) Die Matrixoperationen Transponieren und Invertieren sind miteinander vertauschbar; es gilt also
(A> )−1 = (A−1 )> .
Beweis. ad i) Wir müssen zeigen, dass B −1 A−1 ein zu AB inverses Element ist, dafür multiplizieren wir diese Matrizen miteinander um zu sehen, ob das Produkt die Einheitsmatrix
ist:
(AB) · (B −1 A−1 ) = A B(B −1 A−1 ) Assoziativgesetz
= A (BB −1 )A−1 Assoziativgesetz
Definition der inversen Matrix
= A En A−1
Einheitsmatrix ist neutrales Element
= AA−1
= En
Definition der inversen Matrix
Dieser Beweis entspricht dem Beweis von Proposition 4.3.12.
102
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
ad ii)
A> (A−1 )> = (A−1 A)> Satz 7.1.13
Definition der inversen Matrix
= E>
n
Transponieren der Einheitsmatrix ergibt die Einheitsmatrix
= En
Damit besitzt (A−1 )> genau die definierende Eigenschaft der Inversen (A> )−1 von A> .
Definition 7.1.20 Drei spezielle Arten von quadratischen Matrizen werden als Elementarmatrizen bezeichnet:


λ1


λ2


• Diag(λ1 , λ2 , . . . , λn ) = 

.
.


.
λn
Die Matrix A = Diag(λ1 , λ2 , . . . , λn ) hat die Einträge aii = λi und aij = 0,
wenn i 6= j. Man bezeichnet Diag(λ1 , λ2 , . . . , λn ) als Diagonalmatrix, da sie nur
Einträge auf der Diagonalen hat.


1
 ..



.




1




0
1




1




.
..
• Tij = 





1




1
0




1




..

. 
1
Die Matrix A = Tij hat die Einträge a`` = 1, wenn ` 6= i, j, aii = ajj = 0,
aij = aji = 1 und a`k = 0, sonst.


1
 ..



.
λ




1
• Mij (λ) = 



..

. 
1
Die Matrix A = Mij (λ) hat die Einträge a`` = 1, für alle ` = 1, . . . , n, aij = λ und
a`k = 0, sonst.
Proposition 7.1.21 Sei A ∈ MatK (n, m), dann bewirkt die Multiplikation von links
mit einer Elementarmatrix M ∈ MatK (n, n) folgende elementare Zeilenumformung:
103
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.1. MATRIZEN
• Multiplikation mit M = Diag(λ1 , λ2 , . . . , λn ) entspricht der Multiplikation der
i-ten Zeile mit dem Wert λi (für i = 1, . . . , n).
• Multiplikation mit M = Tij entspricht dem Vertauschen der i-ten Zeile mit der
j-ten Zeile.
• Multiplikation mit M = Mij (λ) entspricht der Addition des λ-fachen der j-ten
Zeile zur i-ten Zeile.
Die Multiplikation von rechts mit einer Elementarmatrix M ∈ MatK (m, m) bewirkt die
entsprechenden elementaren Spaltenumformungen.
Beispiel 7.1.22 Wir betrachten hier die Matrix


−1 0
3 −4
1 −2 0  ∈ MatR (3, 4),
A= 3
2 −1 0
1
die wir von links mit den Elementarmatrizen




1 0 0
2 0 0
Diag(2, −1, 3) = 0 −1 0 , T23 = 0 0 1
0 1 0
0 0 3
multiplizieren wollen, wobei

2
Diag(2, −1, 3) · A = 0
0


1 0 5
und M13 (5) = 0 1 0
0 0 1
Diag(2, −1, 3), T23 , M13 (5) ∈ MatR (3, 3).
 
 

0 0
−1 0
3 −4
−2 0 6 −8
−1 0 ·  3
1 −2 0  = −3 −1 2 0 
0 3
2 −1 0
1
6 −3 0 3
Die Produktmatrix entsteht aus A durch Multiplikation der
zweiten Zeile mit −1 und der dritten Zeile mit 3.

 
 
1 0 0
−1 0
3 −4
−1
1 −2 0  =  2
T23 · A = 0 0 1 ·  3
0 1 0
2 −1 0
1
3
Die Produktmatrix entsteht aus A durch

 
1 0 5
−1
M13 (5) · A = 0 1 0 ·  3
0 0 1
2
ersten Zeile mit 2, der

0
3 −4
−1 0
1
1 −2 0
vertauschen der zweiten und dritten Zeile.
 

0
3 −4
9 −5 3 1
1 −2 0  = 3 1 −2 0
−1 0
1
2 −1 0 1
Die Produktmatrix entsteht aus A durch Addition des fünffachen der dritten Zeile auf
die erste Zeile.
Satz 7.1.23 Seien Diag(λ1 , λ2 , . . . , λn ), wobei λi 6= 0, Tij und Mij (λ) für i 6= j Elementarmatrizen. Dann sind diese Matrizen invertierbar und besitzen die folgenden
Inversen:
−1
−1
Diag(λ1 , λ2 , . . . , λn )−1 = Diag(λ−1
1 , λ2 , . . . , λn ),
104
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
T−1
ij = Tij ,
7.1. MATRIZEN
und Mij (λ)−1 = Mij (−λ)
Der Beweis dieses Satzes ergibt sich durch einfaches Nachrechnen, dass die angegebenen
Matrizen die Inversen sind. Es ist auch möglich sich zu überlegen, dass diese Matrizen
M −1 genau den elementaren Zeilenumformungen entsprechen, die die Umformungen, die
M bewirkt umkehren.
Satz 7.1.24 Jede invertierbare Matrix A ∈ MatK (n, n) ist ein Produkt von invertierbaren Elementarmatrizen.
Wir werden diesen Satz in Kürze beweisen, aber wir werden ihn jetzt bereits nutzen um die
inverse Matrix einer invertierbaren Matrix zu bestimmen. Wir nehmen an, die invertierbare
Matrix A ∈ MatK (n, n) sei das Produkt von k invertierbaren Elementarmatrizen M1 , ..., Mk ,
das heißt A = M1 · . . . · Mk , dann ist nach Satz 7.1.19
A−1 = (M1 · . . . · Mk )−1 = Mk−1 · . . . · M1−1 .
Anders formuliert: Durch sukzessives Multiplizieren der Matrizen M1−1 , M2−1 , . . . , Mk−1
mit A entsteht die Einheitsmatrix. Das bedeutet, wir können A durch elementare Zeilenumformungen zu einer Einheitsmatrix transformieren. Führen wir gleichzeitig dieselben
Zeilenumformungen an einer Einheitsmatrix durch, dann erhalten wir so die zu A inverse
Matrix.
Beispiel 7.1.25 Sei
A :=
1 2
4 2
∈ MatQ (2, 2)
gegeben. Wir bestimmen A−1 durch elementare Zeilenumformungen:
!
−4
1 2 | 1 0
4 2 | 0 1
1
0
2
|
←
−+
!
1
0
−6 |
−4 1 | ·
!
1 2 | 1 0
←
−+
0 1 |
1 0 |
0 1 |
2
3
−1
3
2
3
−1
6
1
3
−1
6
−1
6
−2
!
Diese drei Zeilenumformungen entsprechen der Multiplikation von links mit den Matrizen
1 0
1 0
1 −2
−1
−1
−1
M1 =
M2 =
und M3 =
−4 1
0 − 61
0 1
105
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.2. LINEARE GLEICHUNGSSYSTEME
so dass wir sehen, dass
A−1 = M3−1 · M2−1 · M1−1
1 0
1 0
1 0
−1
−1
= M3 · 2
= M3 ·
1
−4 1
0 − 16
3 −6
1
1
1 −2
1 0
−3
3
=
=
2
1
2
0 1
− 16
3 −6
3
gilt, in Übereinstimmung mit der obigen Rechnung.
Ebenso sehen wir, dass A gleich dem Produkt M1 M2 M3 ist. Dafür berechnen mit Satz
7.1.23 die Inversen der Elementarmatrizen
1 0
1 0
1 2
M1 =
M2 =
und M3 =
4 1
0 −6
0 1
und erhalten
A = M 1 · M2 · M3
1 0
1 2
1 2
= M1 ·
= M1 ·
0 −6
0 1
0 −6
1 0
1 2
1 2
=
=
4 1
0 −6
4 2
wie erwartet.
Zur Probe zeigen wir noch, dass A · A−1 = E2 ergibt.
!
!
!
1
−1
4
1
2
−1
1 2
+
−
3
3
3
3
6
= −4
=
· 23 −1
4
4
2
4 2
+
−
3
6
3
3
3
6
1 0
!
0 1
7.2. Lineare Gleichungssysteme
In diesem Abschnitt werden wir kennenlernen, wie man lineare Gleichungssysteme mithilfe
von Matrizen kurz und knapp formulieren kann und uns damit beschäftigen, wie man sie
löst.
Definition 7.2.1 (Lineares Gleichungssystem)
Sei K ein Körper. Ein lineares Gleichungssstem (kurz LGS) mit m Gleichungen und
n Unbekannten und Koeffizienten in K hat die Form
Ax = b,
wobei A ∈ MatK (m, n), x ∈ K n = MatK (n, 1), b ∈ K m = MatK (m, 1).
Ist b = 0V spricht man von einem homogenen LGS, sonst von einem inhomogenen
LGS.
Die Menge L(A, b) = {x ∈ K n | Ax = b} ⊆ K n heißt Lösungsmenge des LGS Ax = b.
106
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.2. LINEARE GLEICHUNGSSYSTEME
Die Matrixmultiplikation ist genauso definiert, dass das Produkt aus einer Matrix mit
einem Vektor bestehend aus Unbekannten (ein Vektor ist eine Matrix mit einer Spalte)
uns ein lineares Gleichungssystem liefert.
Beispiel 7.2.2 Für a11 , a12 , a21 , a22 , b1 , b2 ∈ K ist
a11 a12
x1
b
= 1
a21 a22
x2
b2
ein LGS mit zwei Gleichungen und zwei Unbekannten. Anders formuliert:
a11 x1 + a12 x2 = b1
a21 x1 + a22 x2 = b2
0 −1 3
Beispiel 7.2.3 Sei A =
, dann ist
2 1 0
 
x1
− x2 + 3x3
0 −1 3  
3
x2 =
Ax =
=
2 1 0
2x1 + x2
1
x3
ein LGS mit zwei Gleichungen und drei Unbekannten.
Satz 7.2.4 Die Lösungsmenge eines homogenen LGS mit Koeffizienten aus K ist ein
K-Vektorraum.
Beweis. Da L(A, 0) ⊆ K n also die Teilmenge eines Vektorraums ist, genügt es zu zeigen,
dass L(A, 0) ein Untervektorraum des K n ist. Dafür müssen wir die Abgeschlossenheit
bezüglich Addition und Skalarmultiplikation zeigen (s. Def. 6.1.5).
Seien x, y Lösungen eines homogenen LGS, d.h. Ax = 0 und Ay = 0, sowie λ ∈ K. Dann
gilt unter Verwendung von Satz 7.1.6 und 7.1.7:
A(x + y) = Ax + Ay = 0 + 0 = 0
und A(λx) = λAx = λ0 = 0.
Somit sind sowohl, x + y ∈ L(A, 0) und λx ∈ L(A, 0), das heißt L(A, 0) ist abgeschlossen
bezüglich Addition und Skalarmultiplikation.
Wir wollen nun eine Strategie entwickeln wie man die Lösungsmenge eines LGS bestimmen
kann. Ist die Matrix A eine Diagonalmatrix, dann ist es einfach die Lösungsmenge zu
bestimmen. Für andere Matrizen müssen wir uns zunächst überlegen, welche Art von
Umformungen die Lösungsmenge des LSG nicht ändern um dann zu zeigen, in welche
günstige Form die Matrix gebracht werden kann, so dass man die Lösungsmenge des LGS
leicht bestimmen kann.
107
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.2. LINEARE GLEICHUNGSSYSTEME
Definition 7.2.5 Eine Matrix A hat obere Zeilenstufenform, wenn folgendes gilt:
Sind in Zeile i die Einträge der ersten k − 1 Spalten gleich null, d.h. ai1 , . . . , ai(k−1) = 0,
aber aik =
6 0, dann müssen in Zeile i + 1 mindestens die Einträge der ersten k Spalten
a(i+1)1 , . . . , a(i+1)k = 0 sein.
Für eine Matrix in Zeilenstufenform heißt der erste von 0 verschiedene Eintrag jeder
Zeile Leitkoeffizient dieser Zeile.
Beispiel 7.2.6

a
0

0

0
0
Folgende Matrizen haben obere Zeilenstufenform:

 

∗ ∗ ∗ ∗ ∗ ∗
a ∗ ∗
a ∗ ∗ ∗

b ∗ ∗ ∗ ∗ ∗ 


 0 b ∗ ∗  0 0 0
0 0 c ∗ ∗ ∗
  0 0 c ∗  0 0 0
0 0 0 d ∗ ∗
0 0 0
0 0 0 d
0 0 0 0 0 e
∗
b
0
0

∗
∗

c
0
wobei a, b, c, d, e 6= 0 die Leitkoeffizienten sind und ∗ für einen beliebigen Eintrag aus K
steht.
Satz 7.2.7 Die Lösungsmenge eines LGS ändert sich nicht, wenn die Gleichung von
links mit einer invertierbaren Matrix M multipliziert wird:
L(A, b) = L(A0 , b0 ),
wobei A0 = M A und b0 = M b.
Beweis. Wenn x eine Lösung von Ax = b ist, dann ist x auch Lösung von M Ax = M b.
Wenn x eine Lösung von A0 x = b0 ist, dann ist x auch Lösung von M −1 A0 x = M −1 b0 , d. h.
von M −1 M Ax = Ax = b = M −1 M b.
Aufgrund von Satz 7.1.23 sind die Elementarmatrizen Diag(λ1 , λ2 , . . . , λn ), wobei λi 6= 0,
Tij und Mij (λ) für i 6= j invertierbar und entsprechen den elementaren Zeilenumformungen:
Regel a: Vertauschen zweier Zeilen.
Regel b: Addition des λ-fachen (λ ∈ K) der Zeile j zur Zeile i.
Regel c: Multiplikation einer Zeile mit 0 6= λ ∈ K.
Diese Zeilenumformungen ändern also nicht die Lösungsmenge eines LGS.
Satz 7.2.8 Jede Matrix lässt sich durch elementare Zeilenumformungen in obere Zeilestufenform bringen.
Den Beweis dieses Satzes geben wir in Form eines Algorithmus an.
108
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.2. LINEARE GLEICHUNGSSYSTEME
Algorithmus 7.2.9 (Obere Zeilenstufenform)
Eingabe: A = (aij ) ∈ MatK (m, n)
Ausgabe: B ∈ MatK (m, n) in oberer Zeilenstufenform
Durchführung:
(1) Betrachte die erste Spalte von A

a11 ∗ . . .
 ..
 .

 ai1
∗

..
.
∗






Sollte a11 = 0 gelten, tausche die erste Zeile mit einer Zeile j, für die aj1 6= 0 gilt
(Regel a). Für jede Zeile in der ai1 6= 0 gilt, tun wir jetzt folgendes: Wir addieren
i1
das − aa11
-fache der ersten Zeile zur i-ten Zeile (Regel b). Somit ist der neue Eintrag
i1
· a11 + ai1 = 0.
in der i-ten Zeile und ersten Spalte − aa11
(2) Betrachte die restlichen Einträge unter rechts von a11 als neue Matrix Ã


a11 ∗ . . . ∗
 0



 ..

 .

Ã
0
und wende Schritt (1) auf diese an. Sind alle Einträge der ersten Spalte von Ã
≈
gleich 0, dann betrachten wir die Matrix A

a11 ∗ ∗ . . .
 0 0

≈
 ..
..
 .
.
A
0
∗





0
und wende Schritt (1) auf diese an.
Definition 7.2.10 Sei A ∈ MatK (m, n). Wir sagen, dass A in Gauß-Jordan-Form
ist, wenn A in einer Zeilenstufenform ist, bei der alle Leitkoeffizienten 1 sind und oberhalb
der Leitkoeffizienten nur Nullen stehen.
Beispiel 7.2.11

1
0

0

0
0
Folgende Matrizen haben


0 ∗ 0 0 ∗ 0
1

1 ∗ 0 0 ∗ 0 
0
0 0 1 0 ∗ 0
 0
0 0 0 1 ∗ 0
0
0 0 0 0 0 1
Gauß-Jordan-Form:
0
1
0
0
0
0
1
0

0
0

0
1

1
0

0
0
∗
0
0
0
∗
0
0
0
0
1
0
0

0
0

1
0
109
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.2. LINEARE GLEICHUNGSSYSTEME
wobei ∗ für einen beliebigen Eintrag aus K steht.
Satz 7.2.12 Jede Matrix A ∈ MatK (m, n) kann durch elementare Zeilenumformungen
in Gauß-Jordan-Form gebracht werden.
Auch diesen Beweis geben wir in Form eines Algorithmus an.
Algorithmus 7.2.13 (Gauß-Jordan-Form)
Eingabe: Eine Matrix A ∈ MatK (m, n)
Ausgabe: Eine Matrix B ∈ MatK (m, n) in Gauß-Jordan-Form.
Durchführung:
(1) Bringe A in obere Zeilenstufenform mithilfe des Algorithmus 7.2.9.
(2) Sei ai 6= 0 der Leitkoeffizient der i-ten Zeile, dann multipliziere diese Zeile mit 1/ai
(Regel c).
(3) Betrachte die erste Spalte von links mit einem Leitkoeffizienten. Steht in der j-ten
Zeile über dem Leitkoeffizienten der i-ten Zeile ein Eintrag b 6= 0, dann multipliziere
die i-te Zeile mit −b und addiere sie zur j-ten Zeile (Regel b).
(4) Wende Schritt (3) von links nach rechts alle Spalten mit einem Leitkoeffizienten
an.
Beispiel 7.2.14 Wir betrachten die Matrix


0
0
4 −2 1
0
2 −2
A = −1 2
2 −4 −2 −3 0
die wir mithilfe elementarer Zeilenumformungen in Gauß-Jordan-Form bringen wollen.
Zunächst wenden wir Algorithmus 7.2.9 an um die Matrix in obere Zeilenstufenform zu
bringen. Der erste Schritt besteht darin die ersten zwei Zeilen zu tauschen um oben links
einen Eintrag zu erhalten, der nicht null ist.




·2
0
0
4
−2
1
←
−
−1
2
0
2
−2




2
0
2
− 2 ←
−
0
4
−2
1 
−1
 0
2
−4 −2 −3
0
←
−+
2
−4 −2 −3
0




−1 2 0
2
−2
−1 2
0
2
−2




1
·2
0 4 −2
1 
0
4
−2
1 
 0
 0
0
0 0
0
− 72
0
0 −2
1
−4 ←
−+
Die so entstandene Matrix hat obere Zeilenstufenform. Im nächsten Schritt machen wir
alle Leitkoeffizienten zu 1




−1 2 0
2
−2
| · (−1)
1 −2 0 −2 2
 0
0
0 4 −2
1  | · 41
0
1 − 12 14 
7
2
0
0 0
0
−2
| · −7
0
0
0
0
1
110
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.2. LINEARE GLEICHUNGSSYSTEME
Im letzten Schritt müssen alle Einträge oberhalb von Leitkoeffizieten zu null werden.
Dies ist nur in der 5.ten Spalten noch nicht der Fall:




1 −2 0 −2 0
←−−−−− +
1 −2 0 −2 2




0
1 − 12 0
−+
0
1 − 12 14  ←
0
0
·− 41
·−2
0
0
0
0
1
0
0
0
0
1
Diese Matrix hat nun Gauß-Jordan-Form.
Definition 7.2.15 Sei Ax = b ein lineares Gleichungssystem, dann nennen wir


a11 . . . a1n b1

..
..  ∈ Mat (m, n + 1)
(A, b) :=  ...
K
.
. 
am1 . . .
amn bm
die erweiterte (Koeffizienten-)Matrix des linearen Gleichungssystems.
Algorithmus 7.2.16 (Lösen linearer Gleichungssysteme)
Eingabe: Lineares Gleichungssystem Ax = b.
Ausgabe: L(A, b).
Durchführung:
(1) Bringe die Matrix (A, b) auf Gauß-Jordan-Form (A0 , b0 ). Enthält die Spalte b0 einen
Leitkoeffizienten von (A0 , b0 ), so besitzt das System keine Lösung. Andernfalls ist
das System lösbar - fahre fort.
(2) Finde die Lösungsmenge des homogenen linearen Gleichungssystems U := L(A, 0) =
L(A0 , 0). Wähle dazu die Unbekannten, die nicht zu den Spalten der Leitkoeffizienten gehören als freie Parameter. Drücke alle anderen Unbekannten mithilfe
dieser Parameter aus.
(3) Suche eine spezielle Lösung w aus L(A0 , b0 ). Setze dazu die Unbekannten, die nicht
zu den Spalten der Leitkoeffizienten gehören auf Null. Die Unbekannten, die zu
den Spalten der Leitkoeffizienten gehören, sind durch b0 festgelegt. Gebe
L(A, b) = w + U = {v ∈ K n | v = w + u, u ∈ U }
zurück.
Wir werden im Verlauf von Abschnitt 7.3, insbesondere ab Seite 128, begründen warum
uns dieser Algorithmus dieser Algorithmus wirklich die Lösungsmenge eines linearen
Gleichungssystems berechnet. Hier wollen wir festhalten, dass sich durch das Umformen
der erweiterten Koeffizienten-Matrix in Gauß-Jordan-Form die Lösungsmenge des LGS
nicht ändert, da wir dabei nur elementare Zeilenumfomungen verwenden.
111
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
Beispiel 7.2.17 Sei die folgende Matrix

1 2
0 0

(A, b) = 
0 0
7.2. LINEARE GLEICHUNGSSYSTEME
in Gauß-Jordan-Form gegeben

0 0 0 | 0
1 0 0 | 0

 .
0 0 0 | 1
0 0 0 0 0 | 0
Da in der Spalte b ein Leitkoeffizient steht, hat dieses LGS keine Lösung. In der letzten
Zeile des LGS steht 0 · x1 + 0 · x2 + 0 · x3 + 0 · x4 + 0 · x5 = 1, eine Gleichung ohne Lösung.
Beispiel 7.2.18 Sei die folgende

1
0

(A, b) = 
0
Matrix in Gauß-Jordan-Form gegeben

3 8 0 −2 0 0 | 4
0 0 1
3
0 0 | 3

 .
0 0 0
0
1 0 | 5
0 0 0 0
0
(7.3)
0 1 | 6
Da in der Spalte b kein Leitkoeffizient steht, hat das LGS eine oder mehrere Lösungen.
Gemäß Schritt (2) von Algorithmus 7.2.16 berechnen wir zunächst die Lösungen
x = (x1 , x2 , x3 , x4 , x5 , x6 , x7 ) des homogenen Systems


1 3 8 0 −2 0 0 | 0
0 0 0 1
3
0 0 | 0


(A, 0) = 
 .
0 0 0 0
0
1 0 | 0
0 0 0 0
0
0 1 | 0
In den Spalten 2,3 und 5 steht kein Leitkoeffizient, weshalb wir die entsprechenden
Unbekannten als freie Parameter wählen
x2 = α,
x3 = β
und x5 = γ.
Die anderen Unbekannten liefert uns das homogene LGS. So entspricht die vierte Zeile
der Gleichung 1 · x7 = 0, die dritte Zeile der Gleichung 1 · x6 = 0. Die zweite Zeile
entspricht
x4 + 3x5 = 0
x4 = −3x5 = −3γ.
Und zuletzt betrachten wir die erste Zeile und erhalten
x1 + 3x2 + 8x3 − 2x5 = 0
x1 = −3x2 − 8x3 + 2x5 = −3α − 8β + 2γ.
Dies liefert uns die Lösungsmenge L(A, 0) = {x ∈ K 7 } wobei
 
 
 
  

−8
2
−3
x1
−3α −8β +2γ
0
1
0

x2   α
 
 
 

  
0
1

0
x3  
β
 
 
 
  










−3γ  = α ·  0  + β ·  0  + γ · 
x = x4  = 
−3






x5  

γ 
1
0
0
  
0
0

0
x6  
0
x7
0
0
0
α, β, γ ∈ K.
0
112
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Um eine spezielle Lösung w ∈ L(A, b) = L(A0 , b0 ) zu berechnen, setzen wir entsprechend
Schritt (3) in Algorithmus 7.2.16 die Unbekannten, die zu Spalten ohne Leitkoeffizient
gehören null, d. h. x2 = x3 = x5 = 0. Die anderen Unbekannten sind durch die Spalte
b0 = (b01 , b02 , b03 , b04 )> bestimmt und können direkt in 7.3 abgelesen werden.
Da der Leitkoeffizient der ersten Zeile in der ersten Spalte steht ist x1 = b01 = 4.
Der Leitkoeffizient der zweiten Zeile steht in der vierten Spalte und somit ergibt sich
x4 = b02 = 3. Nach dem gleichen Schema erhalten wir x6 = 5 und x7 = 6.
Damit ist insgesamt
 
 
 
 
4
−3
−8
2 




0
1
0
 0 

























0
0
1
0
 
 
 
 








L(A, b) = w + L(A, 0) = 3 + α ·  0  + β ·  0  + γ · −3 .


0
0
0
 1 



 
 
 
 




5
0
0
 0 






6
0
0
0
7.3. Lineare Abbildungen
In den letzten Abschnitten haben wir uns mit Matrizen und linearen Gleichungssystem
beschäftigt. Nun wollen wir zu den Vektorräumen zurückkehren und Abbildungen zwischen ihnen studieren. Dabei interessieren uns vor allem Abbildungen, die sich mit den
Vektorraumoperationen (Addition und Skalarmultiplikation) vertragen. Solche Abbildungen nennt man linear. Sie zeichnen sich dadurch aus, daß sich ihre Anwendung mit den
Vektorraumoperationen vertauschen läßt, was in der Definition 7.3.1 präzisiert wird. Wir
werden sehen, dass diese Art von Abbildungen immer durch Matrizen darstellen lassen,
was uns ermöglicht neue Erkenntnisse über Matrizen und lineare Gleichungssysteme zu
gewinnen.
Definition 7.3.1 Eine Abbildung F : V → W zwischen den K-Vektorräumen V und
W heißt K-linear, falls für alle u, v ∈ V und für alle λ ∈ K
F (u + v) = F (u) + F (v)
F (λv) = λF (v)
(Verträglichkeit mit der Additon)
(7.4)
(Verträglichkeit mit der Skalarmultiplikation)
(7.5)
gilt.
Eine alternative Bezeichnung für eine K-lineare Abbildung ist der Begriff Vektorraumhomomorphismus, bzw. Homomorphismus. Die Menge aller Homomorphismen von
V nach W wird mit HomK (V, W ) bezeichnet.
Eine lineare Abbildung F : V → V von einem Vektorraum in sich selbst heißt Endomorphismus. Die Menge aller Endomorphismen von V in sich selbst wird mit EndK (V )
bezeichnet.
Ein bijektiver Homomorphismus ist ein Isomorphismus, ein bijektiver Endomorphismus
ist ein Automorphismus.
Gibt es einen Isomorphismus F : V → W , dann sind V und W isomorph zueinander.
113
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Eine K-lineare Abbildung ist insbesondere immer auch ein Gruppenhomomorphismus von
der additiven Gruppe (V, +) in die additiven Gruppe (W, +) (s. Abschnitt 4.2).
Anstatt von K-linear spricht man meist einfach von linear, wenn in einem bestimmten
Kontext klar ist, welcher Körper gemeint ist. Die beiden definierenden Eigenschaften
linearer Abbildungen in (7.4) und (7.5) lassen sich gleichwertig in einer einzigen Gleichung
F (λu + µv) = λF (u) + µF (v)
(7.6)
zusammenfassen, welche für alle λ, µ ∈ K und alle u, v ∈ V bestehen muß.
Beispiel 7.3.2 Die Abbildung
F : K2 → K
x1
x=
7→ F (x) = 4x1 − 3x2
x2
ist linear, da
F (x + x̃) = 4(x1 + x̃1 ) − 3(x2 + x̃2 ) = (4x1 − 3x2 ) + (4x̃1 − 3x̃2 ) = F (x) + F (x̃)
und
F (λx) = 4(λx1 ) − 3(λx2 ) = λ(4x1 − 3x2 ) = λF (x)
gilt. Die Abbildung
G : K2 → K
x1
7→ G(x) = 4x1 − 3x2 + 2
x=
x2
hingegen ist nicht linear, da für 0 6= λ ∈ K gilt:
G(λx) = 4(λx1 ) − 3(λx2 ) + 2 6= λ(4x1 − 3x2 + 2) = λG(x).
Der konstante Term +2 sorgt hier dafür, dass G nicht linear ist.
Auch die Abbildung
H : K2 → K
x1
x=
7→ H(x) = 4x21 − 3x2
x2
ist nicht linear, da gilt
H(x + x̃) = 4(x1 + x̃1 )2 − 3(x2 + x̃2 ) = 4(x21 + x̃21 + 2x1 x̃1 ) − 3(x2 + x̃2 )
6= (4x21 − 3x2 ) + (4x̃21 − 3x̃2 ) = H(x) + H(x̃)
sofern x1 , x˜1 6= 0. Hier bereitet der quadratische Term x21 Probleme, da wir aufgrund der
binomischen Formel (x1 + x̃1 )2 = x21 + x̃21 + 2x1 x̃1 erhalten und nicht x21 + x̃21 wie es für
Linearität notwendig wäre.
114
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Beispiel 7.3.3 Sei V ein Vektorraum der Dimension n und B = {b1 , . . . , bn } eine Basis,
dann ist
F : V → Kn
n
X
v=
λi bi 7→ (λ1 , . . . , λn )
i=1
eine bijektive K-lineare Abbildung (also ein Isomorphismus), die sogenannte Koordinatenabbildung.
Zunächst einmal stellen wir fest, dass die Abbildung F wohldefiniert ist, also Sinn ergibt.
Da B eine Basis von V ist, kann jeder Vektor v ∈ V auf eindeutige Art und Weise als
Linearkombination der Basisvektoren geschrieben werden (s. Bem. 6.2.10). Für jedes
n
P
v ∈ V gibt es daher eindeutig bestimme Skalare λ1 , . . . , λn ∈ K, so dass v =
λi bi gilt.
i=1
Diese Skalare fassen wir zu einem Vektor (λ1 , . . . , λn ) ∈ K n zusammen, der ebenfalls
eindeutig bestimmte ist. Eigentlich spielt die Reihenfolge der Basisvektoren keine Rolle,
aber zur Definition dieser Abbildung müssen wir eine Reihenfolge festlegen, so dass auch
die Skalare λi geordnet sind.
Nun zeigen wir Linearität und Bijektivität:
n
n
n
P
P
P
λλi bi und somit gilt:
• Sei v =
λi bi und λ ∈ K, dann ist λv = λ
λi bi =
i=1
i=1
i=1
F (λv) = F
n
X
!
(λλi )bi
= (λλ1 , . . . , λλn ) = λ(λ, . . . , λn ) = λF (v).
i=1
• Seien u =
n
P
µi bi und v =
i=1
n
P
λi bi , dann ist u + v =
i=1
und somit gilt:
F (u + v) = F
n
X
n
P
µi bi +
i=1
n
P
λi bi =
i=1
n
P
(µi + λi )bi
i=1
!
(µi + λi )bi
i=1
= (µ1 + λ1 , . . . , µn + λn ) = (µ1 , . . . , µn ) + (λ1 , . . . , λn )
= F (u) + F (v).
• Die Abbildung F ist bijektiv, da
G : Kn → V
n
X
(λ1 , . . . , λn ) 7→ v =
λi bi
i=1
eine Umkehrabbildung definiert.
115
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Beispiel 7.3.4 Sei A ∈ MatK (m, n) eine Matrix, dann ist
FA : K n → K m
x 7→ A · x
eine K-lineare Abbildung.
Wir bemerken zunächst, dass ein Spaltenvektor dasselbe ist wie eine Matrix mit einer
Spalte, d. h. x ∈ K n = MatK (n, 1) und somit das Matrixprodukt A · x ∈ MatK (m, 1)
gebildet werden kann.
Die Linearität der Abbildung folgt aus den Rechenregeln für Matrizen. Die Forderung
(7.4) folgt aus dem Distributivgesetz 7.1.6 für die Matrixmultiplikation
FA (x + y) = A(x + y) = Ax + Ay = FA (x) + FA (y),
desweiteren benutzen wir Satz 7.1.7 um (7.5) zu zeigen:
FA (λx) = A(λx) = λAx = λFA (x).
Eigenschaften der Abbildung FA , wie zum Beispiel Injektivität und Surjektivität lassen
sich nun in die Sprache der linearen Gleichungssysteme übersetzen.
• FA ist injektiv ist gleichbedeutend mit der Tatsache, dass für x 6= y auch Ax 6= Ay
ist. Dies bedeutet, dass das LGS Ax = b für alle b ∈ K m höchstens eine Lösung
hat.
• FA ist surjektiv ist gleichbedeutend mit der Tatsache, dass es für alle b ∈ K m ein
x ∈ K n gibt, so dass Ax = b. Dies bedeutet, dass das LGS Ax = b für alle b ∈ K m
mindestens eine Lösung hat.
• FA ist bijektiv ist gleichbedeutend mit der Tatsache, dass das LGS Ax = b für alle
b ∈ K m genau eine Lösung hat.
Wir werden in Kürze sehen, dass wir jeder K-linearen Abbildung zwischen endlichdimensionalen Vektorräumen eine Matrix zuordnen können. Aus diesem Grund werden wir
immer wieder auf das Beispiel zurückkommen und uns mit seiner Hilfe abstrakte Begriffe
veranschaulichen.
Proposition 7.3.5 Seien U, V, W K-Vektorräume und F : U → V und G : V → W
K-lineare Abbildungen. Dann gelten folgende Aussagen:
i) Die Verknüpfung G ◦ F : U → W ist eine K-lineare Abbildung.
ii) Angenommen F sei bijektiv, dann ist die Umkehrabbildung F −1 : V → U eine
K-lineare Abbildung.
Beweis. Übung!!
Eine Konsequenz dieser Proposition ist, dass die Menge der Automorphismen eines Vektorraums eine Gruppe bilden.
116
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Satz 7.3.6 (Erste Eigenschaften linearer Abbildungen)
Ist F : V → W K-linear, so gilt:
i) Der Nullvektor in V
d.h. F (0V ) = 0W .
wird stets auf den Nullvektor in W abgebildet,
ii) Bilder linear abhängiger Vektoren in V sind linear abhängig in W .
iii) Urbildvektoren linear unabhängiger Vektoren in F (V ) ⊂ W sind linear unabhängig
in V .
Beweis.
ad i) Da der Nullvektor das neutrale Element der Vektoraddition ist, muß unter Ausnutzung
der Linearität von F
F (0V ) = F (0V + 0V ) = F (0V ) + F (0V )
gelten. Subtraktion von F (0V ) ∈ W auf beiden Seiten liefert die äquivalente Gleichung
0W = F (0V ). ( Diese Aussage hätte auch direkt aus Proposition 4.2.2 gefolgert werden
können, da eine K-lineare Abbildung immer auch ein Gruppenhomomorphismus der
additiven Gruppen ist.)
ad ii) Die Vektoren v1 , ..., vn ∈ V seien linear abhängig. Es gibt dann Skalare λ1 , ..., λn ∈ K,
welche nicht sämtlich verschwinden, mit
λ1 v1 + ... + λn vn = 0V .
Wenden wir auf beiden Seiten dieser Gleichung die lineare Abbildung F an, so folgt
wegen der Linearität und der Eigenschaft i)
λ1 F (v1 ) + ... + λn F (vn ) = F (0V ) = 0W .
Damit stellen sich aber auch die Bildvektoren F (v1 ), ..., F (vm ) in W als linear
abhängig heraus wie behauptet.
ad iii) Eine Aussage der Form A ⇒ B ist genau dann richtig, wenn die Aussage ¬B ⇒ ¬A
richtig ist (s. Satz 2.3).
In Implikationsform liest sich Aussage ii) folgendermaßen:
v1 , ..., vk ∈ V linear abhängig ⇒ w1 := F (v1 ), ..., wn := F (vk ) linear abhängig.
Da die Negation von linear abhängig linear unabhängig ist, lautet die Kontraposition
dieser Implikation:
w1 := F (v1 ), ..., wn := F (vk ) linear unabhängig ⇒ v1 , ..., vk ∈ V linear unabhängig.
Also stellt die Implikation in iii) die Kontraposition der Implikation in ii) dar. Deshalb
sind die Aussagen ii) und iii) zueinander äquivalent .
N.B.: Es sei betont, daß eine lineare Abbildung im allgemeinen linear unabhängige Vektoren
nicht auf linear unabhängige Bildvektoren abbildet. Die lineare Unabhängigkeit kann also
durch Anwendung einer linearen Abbildung verloren gehen.
117
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Satz 7.3.7 (Festlegung linearer Abbildungen durch Basisbildvektoren)
Es sei V ein endlichdimensionaler Vektorraum mit der Basis v1 , ..., vm . Ferner seien w1 , ..., wm beliebige Vekoren aus W . Dann gibt es genau eine lineare Abbildung
F : V → W mit F (vi ) = wi für alle i ∈ {1, ..., m}.
Beweis. Da eine Basis ein linear unabhängiges Erzeugendensystem darstellt, gibt es für
jedes v ∈ V eindeutig bestimmte Koeffizienten α1 , ..., αm ∈ K mit
v = α1 v1 + ... + αm vm .
Aufgrund der Linearität von F folgt
F (v) = α1 F (v1 ) + ... + αm F (vm ) = α1 w1 + ... + αm wm .
Die Eindeutigkeit der Darstellung von v als Linearkombination der Basisvektoren stellt
sicher, daß F (v) wohlbestimmt ist. Offensichtlich ist F durch die Wirkung auf die Basisvektoren vollständig festgelegt, denn für jedes v ∈ V läßt sich F (v) in eindeutiger Weise
berechnen.
Definition 7.3.8 Sei F : K n → K m eine K-lineare Abbildung. Wir definieren eine
Matrix MF ∈ MatK (m, n), die Darstellungsmatrix der linearen Abbildung, durch


..
..
..
.
.
.



F
(e
)
F
(e
)
.
.
.
F
(e
)
MF = 
1
2
n


..
..
..
.
.
.
dabei werden mit ei die Standardbasisvektoren (s. Beispiel 6.2.17) bezeichnet und
F (ei ) ∈ K m ist das Bild des i-ten Basisvektors.
Bemerkung 7.3.9 Aufgrund von Satz 7.3.7 ist die Abbildung F bereits durch die
Vektoren F (e1 ), . . . , F (en ) eindeutig bestimmt, da e1 , . . . , en eine Basis des K n ist.
Die Abbildung F lässt sich durch
F : Kn → Km
x 7→ MF · x
zurückgewinnen (s. Beispiel 7.3.4). Zum einen gilt
!
n
n
X
X
F (x) = F
xi e i =
xi F (ei ),
i=1
i=1
zum anderen können wir berechnen, dass gilt:

  
..
..
..
x1
.
. 
 .
 .. 


MF · x = F (e1 ) F (e2 ) . . . F (en ) ·  .  = x1 F (e1 ) + x2 F (e2 ) + . . . + xn F (en ).
..
..
..
xn
.
.
.
118
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Beispiel 7.3.10 Wir betrachten die lineare Abbildung
F : K2 → K3


2x1
x1
7→ 3x1 − x2 
x2
x1 + 2x2
Durch Einsetzen können wir die Bilder der Standardbasisvektoren e1 und e2 bestimmen
 
 
2
0
1
0
7→ 3 ,
7→ −1 ,
0
1
1
2
somit ist die Matrix dieser Abbildung durch


2 0
MF = 3 −1
1 2
gegeben. Wir erhalten

2

MF · x = 3
1
die Abbildung F zurück,


0
2x1 +
x1


−1 ·
= 3x1 +
x2
2
x1 +
durch

 
 
0x2
2
0




−x2 = x1 3 + x2 −1
2x2
1
2
Satz 7.3.11 Seien F : K p → K n und G : K n → K m lineare Abbildungen, die durch die
Matrizen MF ∈ MatK (n, p), bzw. MG ∈ MatK (m, n) gegeben sind. Dann ist die Matrix
der verknüpften Abbildung G ◦ F : K p → K m durch die Matrix
MG◦F = MG · MF ∈ MatK (m, p)
gegeben.
Beweis. Zunächst bemerken wir, dass das Matrixprodukt MG · MF berechnet werden kann,
da MG ∈ MatK (m, n) und MF ∈ MatK (n, p).
Wir bezeichnen die Standardbasis des K p mit ẽ1 , . . . , ẽp , die Standardbasis des K n mit
ē1 , . . . , ēn und die Standardbasis des K m mit e1 , . . . , em .
Sei MG = A und MF = B, dann gilt per Definition, dass
b`j = F (e˜j )`
die `-te Komponente von F (e˜j )
ai` = G(ē` )i
die i-te Komponente von G(ē` )
Und somit können wir den Spaltenvektor F (e˜j ) ∈ K n als Linearkombination der Basisvek-
119
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
toren ē1 , . . . , ēn schreiben:

 
    
0
0
b1j
b1j
 .. 
 b2j   0  b2j 
 
     
F (e˜j ) =  .  =  .  +  0  + · · · +  . 
.
.
 0 
 .   .   
..
bnj
.
0
bnj
 
 
 
0
0
1
n
 ..  X
1
0
.
 
 
b`j ē`
= b1j  .  + b2j 0 + · · · + bnj   =
0
 
 .. 
`=1
..
1
.
0
(7.7)
Ebenso können wir den Spaltenvektor G(e¯` ) ∈ K m als Linearkombination der Basisvektoren
e1 , . . . , em schreiben:
G(e¯` ) =
m
X
ai` ei .
(7.8)
i=1
Nun können wir den Vektor in der j-ten Spalte der Matrix MG◦F bestimmen:
G ◦ F (ẽj ) = G(F (ẽj ))
n
X
= G( b`j ē` )
| Definition der Verknüpfung von G und F
| Einsetzen von (7.7)
`=1
=
n
X
b`j G(ē` )
| Linearität von G
`=1
=
n
X
`=1
=
=
b`j
m
X
| Einsetzen von (7.8)
i=1
m
n
X
X
i=1
m
X
ai` ei
!
ai` b`j
ei
| Distributivgesetz und Assoziativgesetz
`=1
(A · B)ij ei
| Definition des Matrixprodukts A · B
i=1
Somit ist die j-te Spalte der Darstellungsmatrix der Abbildung G ◦ F genau durch die
j-Spalte des Matrixprodukts AB = MG MF gegeben.
Korollar 7.3.12 Sei id : K n → K n die Identität, dann ist Mid = En .
Sei F : K n → K m bijektiv, dann ist MF −1 = MF−1 , insbesondere muss n = m sein.
Beweis. Die Spalten der Matrix Mid sind die Bilder der Basisvektoren e1 , . . . , en . Da diese
durch die Identität auf sich selbst abgebildet werden, erhalten wir die Einheitsmatrix




1 0
0
..
..
..
.
. 
0
.
0 1


 = En .


.
..
Mid = e1 e2 . . . en  =  .

.
.
0


..
..
..
.
.
.
.
.
0 .
1
120
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Wenn F : K n → K m bijektiv ist, dann existiert eine Umkehrabbildung F −1 : K m → K n ,
so dass F ◦ F −1 = idK n und F −1 ◦ F = idK m . Somit folgt aus Satz 7.3.11, dass gilt:
MF ◦F −1 = MF · MF −1 = MidK n = En
und MF −1 ◦F = MF −1 · MF = MidK m = Em .
Somit ist also MF −1 die zu MF inverse Matrix. Diese kann aber nur dann gebildet werden,
wenn MF quadratisch ist, das heißt wenn m = n gilt.
Analog zu den Definitionen für Gruppenhomomorphismen (s. Definition 4.2.5) definieren
wir auch für eine lineare Abbildung den Kern und das Bild dieser Abbildung.
Definition 7.3.13 Sei F : V → W eine K-lineare Abbildung zwischen den Vektorräumen V und W . Dann heißt die Teilmenge
Kern F := F −1 (0V ) = {v ∈ V : F (v) = 0W } ⊆ V
Kern oder Nullraum von F. Desweiteren nennt man
Bild(F ) = F (V ) = {w ∈ W : ∃v ∈ V mit F (v) = w} ⊂ W
das Bild von F .
Aufgrund von Satz 4.2.4 und 4.2.6 sind diese Mengen Untergruppen der additiven Gruppen
(V, +), bzw (W, +). Wir zeigen hier, dass sie auch Untervektorräume sind.
Satz 7.3.14 Sei F : V → W K-linear, dann sind Kern(F ) und F (V ) Untervektorräume.
Beweis. Aufgrund von Definition 6.1.5 müssen wir die Abgeschlossenheit dieser Mengen
bezüglich Addition und Skalarmultiplikation zeigen.
• Sei v1 , v2 ∈ Kern F , das heißt es gilt F (v1 ) = F (v2 ) = 0W , dann gilt aufgrund der
Linearität von F
F (v1 + v2 ) = F (v1 ) + F (v2 ) = 0W + 0W = 0W ,
und somit ist auch v1 + v2 ∈ Kern F und wir haben die Abgeschlossenheit bezüglich
der Addition gezeigt. Sei nun λ ∈ K, dann gilt:
F (λv1 ) = λF (v1 ) = λ0W = 0W ,
also ist λv1 ∈ Kern F und die Abgeschlossenheit bezüglich der Skalarmultiplikation
wurde bewiesen.
• Seien w1 , w2 ∈ F (V ), das heißt es gibt v1 , v2 ∈ V mit F (v1 ) = w1 und F (v2 ) = w2 ,
dann gilt
w1 + w2 = F (v1 ) + F (v2 ) = F (v1 + v2 ) ∈ F (V )
und
λw1 = λF (v1 ) = F (λv1 ) ∈ F (V )
wodurch wir auch für das Bild F (V ) die Abgeschlossenheit bezüglich der Addition
und der Skalarmultiplikation gezeigt haben.
121
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Bemerkung 7.3.15 Sei FA : K n → K m , x 7→ A · x eine lineare Abbildung, gegeben
durch die Matrix A ∈ MatK (m, n). Dann gilt
Kern(FA ) = {x ∈ K n | Ax = 0} = L(A, 0).
Der Kern entspricht also der Lösungsmenge des homogenen LGS Ax = 0. Außerdem gilt
F (V ) = {b ∈ K m | ∃x ∈ K n mit Ax = b} = LH(A(e1 ), . . . , A(en )).
Das entspricht allen Vektoren b ∈ K m , für die das LGS Ax = b eine Lösung hat. Wir in
Bemerkung 7.3.9 beschrieben, liefert das Produkt der Matrix A mit dem Vektor x eine
Linearkombination der Spalten von A. Die Spalten der Matrix entsprechen den Bildern
A(e1 ), . . . , A(en ) und somit ist das Bild gleich der linearen Hülle dieser Vektoren.
Analog zum Satz 4.2.7 für Gruppenhomomorphismen können wir hilhilfe des Kerns ein
Kriterium für Injektivität formulieren.
Man beachte, daß {0W } ⊂ W ein Untervektorraum von W ist. Das Nullelement bildet
den kleinst mögliche Untervektorraum (der Dimension 0), welcher in jedem Vektorraum
vorhanden ist und daher als der triviale Unterraum bezeichnet wird.
Satz 7.3.16 (Injektivitätskriterium)
Eine lineare Abbildung ist genau dann injektiv, wenn ihr Kern trivial ist, d.h. ihr Kern
besteht nur aus dem Nullvektor.
Beweis. Wir betrachten die lineare Abbildung F : V → W zwischen den Vektorräumen V
und W . Die Implikation F injektiv ⇒ Kern F = {0V } ist offensichtlich; denn wenn F
injektiv ist, darf neben dem Nullvektor 0V kein weiterer Vektor aus V auf den Nullvektor
0W abgebildet werden. Somit erzwingt die Injektivität Kern F = F −1 (0W ) = {0V }.
Die umgekehrte Implikation Kern F = {0} ⇒ F injektiv zeigen wir per Kontraposition.
Angenommen F sei nicht injektiv, dann gibt es einen Vektor w ∈ W und zwei verschiedene
Vektoren v1 , v2 ∈ V mit F (v1 ) = F (v2 ) = w. Wegen v1 =
6 v2 ist v1 − v2 =
6 0V . Andererseits
gilt
F (v1 − v2 ) = F (v1 ) − F (v2 ) = w − w = 0W .
Also ist v1 −v2 ∈ Kern F , d.h. der Kern von F kann nicht nur den Nullvektor 0V enthalten.
Bemerkung 7.3.17 Wir haben in Algorithmus 7.2.16 gesehen, dass die Lösungsmenge
des inhomogenen Problems Ax = b (sofern sie nicht leer ist) folgende Form hat:
L(A, b) = w + L(A, 0)
wobei w eine spezielle Lösung von Ax = b ist. Da die Lösungsmenge des homogenen
Systems genau der Kern der Abbildung A : K n → K m , x 7→ Ax, sehen wir, dass es
genau dann eine eindeutige Lösung des LGS Ax = b gibt, wenn die Lösungsmenge des
homogenen LGS nur aus dem Nullvektor besteht.
122
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Definition 7.3.18 Sei F : V → W eine K-lineare Abbildung, dann nennen wir die
Dimension des Bildes F (V ) den Rang der Abbildung
rang F := dimK F (V ).
Da das Bild der Abbildung ein Untervektorraum von W ist, erhalten wir direkt eine obere
Abschätzung für den Rang: rang F ≤ dimK W. Aber es muss auch rang F ≤ dimK V gelten,
da F (V ) nicht größer als V sein kann (dies folgt aus Satz 7.3.6, da die Urbilder einer Basis
von F (V ) auch in V linear unabhängig sind und somit zu einer Basis ergänzt werden
können.)
Satz 7.3.19 (Kern-Bild-Satz)
Es sei V endlichdimensional und F : V → W eine lineare Abbildung in einen Vektorraum
W beliebiger Dimension. Dann besteht die Dimensionsformel
dimK V = dimK Kern F + rang F .
(7.9)
Genauer gilt folgendes: Ist u1 , ..., uk eine Basis von Kern F und w1 , ..., wr eine Basis von
F (V ) mit den Urbildern v1 , ..., vr , dann ist u1 , ..., uk , v1 , ..., vr eine Basis von V .
N.B.: k, r ≤ dimK V .
Beweis. Gemäß der beiden definierenden Eigenschaften einer Vektorraumbasis erfolgt der
Beweis in zwei Etappen.
1) Wir zeigen zunächst, dass die Vektoren u1 , ..., uk , v1 , ..., vr ein Erzeugendensystem
von V sind, d. h. es gilt LH(u1 , ..., uk , v1 , ..., vr ) = V .
Es sei v ∈ V beliebig vorgegeben. Da F (v) ∈ F (V ), existieren aufgrund der Voraussetzung, dass w1 , . . . , wr eine Basis des Bildes ist, Skalare β1 , ..., βr ∈ K mit
F (v) = β1 w1 + ... + βr wr = β1 F (v1 ) + ... + βr F (vr ) = F β1 v1 + ... + βr vr
Es folgt somit
0W = F (v) − F β1 v1 + ... + βr vr
= F (v − β1 v1 − ... − βr vr ).
Also gilt v − β1 v1 − ... − βr vr ∈ Kern F . Wiederum aufgrund der Voraussetzung, dass
u1 , . . . , uk eine Basis des Kerns ist, gibt es Koeffizienten α1 , ..., αk ∈ K derart, daß
v − β1 v1 − ... − βr vr = α1 u1 + ... + αk uk
bzw.
v = α1 u1 + ... + αk uk + β1 v1 + ... + βr vr .
Da v ∈ V beliebig gewählt war, folgt die Behauptung, dass jedes v ∈ V eine
Linearkombination der Vektoren u1 , ..., uk , v1 , ..., vr ist.
2) Zeige: u1 , ..., uk , v1 , ..., vr sind linear unabhängig.
Dazu ist zu zeigen, daß sich 0V nur auf triviale Weise linear kombinieren läßt.
123
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Angenommen es gelte
0V = λ1 u1 + ... + λk uk + µ1 v1 + ... + µr vr .
(7.10)
Anwenden von F liefert unter Ausnutzung der Linearität die Gleichung
0W
= F (0V )
= λ1 F (u1 ) +... + λk F (uk ) +µ1 F (v1 ) + ... + µr F (vr )
| {z }
| {z }
=0W
=0W
= µ1 w1 + ... + µr wr
Da die Vektoren w1 , ..., wr nach Voraussetzung eine Basis von F (V ) bilden und damit
linear unabhängig sind, kann die Gleichung nur für µ1 = ... = µr = 0 erfüllt sein.
Dies setzen wir in Gleichung (7.10) ein und erhalten
0V = λ1 u1 + ... + λk uk .
Die Vektoren u1 , ..., uk sind als Basis von Kern F ebenfalls linear unabhängig, weshalb
die Gleichung wiederum nur für λ1 = ... = λk = 0 bestehen kann. Damit ist (7.10)
allein trivial erfüllbar, was zu zeigen war.
Dies ist einer der wichtigsten Sätze der Theorie, der unter anderem folgende Konsequenz
hat.
Korollar 7.3.20 (Zusammenhang zwischen injektiv und surjektiv)
Für eine lineare Abbildung F : V → W zwischen endlichdimensionalen Vektorräumen
gleicher Dimension (dimK V = dimK W ) sind folgende Aussagen äquivalent:
i) F ist injektiv.
ii) F ist surjektiv.
iii) F ist bijektiv.
Beweis. i) ⇒ ii) Ist F injektiv, so ist der Kern trivial nach Satz 7.3.16, d.h. es gilt
dim ker F = 0. Die Dimensionsformel (7.9) reduziert sich dann zu dim V = dim F (V ). Da
voraussetzungsgemäß V und W die gleiche Dimension haben gilt ferner dim F (V ) = dim W .
Somit ist der Unterraum F (V ) ⊂ W von gleicher Dimension wie W selbst. Dies ist nur
möglich, wenn F (V ) = W ist, womit sich F als surjektiv erweist.
ii) ⇒ iii) Ist F surjektiv, so gilt F (V ) = W und damit unter Benutzung der Voraussetzung
dim F (V ) = dim W = dim V . Die Dimensionsformel (7.9) erfordert dann dim ker F = 0, so
daß F nach Satz 7.3.16 auch injektiv ist. Damit ist F sowohl surjektiv wie injektiv und
ergo bijektiv.
iii) ⇒ i) Eine bijektive Abbildung ist per Definition zugleich injektiv und surjektiv. Es ist
daher nichts zu beweisen.
Korollar 7.3.21 Seien V, W endlichdimensionale K-Vektorräume und F : V → W eine
lineare Abbildung. Dann gilt:
i) Wenn F injektiv ist, dann dim V ≤ dim W .
ii) Wenn F surjektiv ist, dann ist dim W ≤ dim V .
124
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Beweis.
i) Wenn F injektiv ist, dann ist dim ker F = 0 und somit gilt dim V =
dim F (V ). Da aber immer dim F (V ) ≤ dim W ist, erhalten wir dim V ≤ dim W .
ii) Wenn F surjektiv ist, dann ist dim F (V ) = dim W und somit dim V = dim ker F +
dim W , wodurch wir dim W ≤ dim V erhalten.
Korollar 7.3.22 Zwei K-Vektorräume sind genau dann zueinander isomorph, wenn sie
die gleiche Dimension haben. Insbesondere ist jeder endlich dimensionale Vektorraum
der Dimension n isomorph zum K n .
Beweis. Wir haben bereits in Beispiel 7.3.3 einen Isomorphismus von einem Vektorraum
V der Dimension n in den K n angegeben. Seien V, W zwei Vektorräume der Dimension
n und F : V → K n , G : W → K n die Isomorphismen aus Beispiel 7.3.3, dann ist
G−1 ◦ F : V → W aufgrund von Proposition 7.3.5 und 3.2.12 ein Isomorphismus. Wir
haben also einen Isomorphismus zwischen Vektorräumen gleicher Dimension konstruiert.
Jetzt müssen wir noch zeigen, dass zwischen Vektorräumen verschiedener Dimensionen
keinen Isomorphismus geben kann.
Seien jetzt V, W Vektorräume unterschiedlicher Dimension dim V = n und dim W = m, mit
n=
6 m und angenommen F : V → W ist ein Isomorphismus. Dann gilt Kern(F ) = {0V }
und F (V ) = W und somit folgt aus der Dimensionsformel
dim V = dim Kern(F ) + dim F (V )
n = 0 + dim W = m
im Widerspruch zur Annahme. Somit kann es einen Isomorphismus zwischen V und W
nur geben, wenn dimK V = dimK W gilt.
Den Begriff des Rangs haben wir sowohl für Matrizen (s. Def. 7.1.17), als auch für lineare
Abbildungen (s. Def. 7.3.18) eingeführt. Wir werden hier sehen, dass es sich dabei im
wesentlichen um dasselbe handelt.
Satz 7.3.23 Sei F : K n → K m eine K-lineare Abbildung mit Darstellungsmatrix
MF ∈ MatK (m, n). Dann gilt rang F = rang MF .
Beweis. Der Rang der Abbildung F ist die Dimension des Bildes F (V ). Da die Standardbasis e1 , . . . , en eine Basis des K n ist, wird das Bild von den Vektoren F (e1 ), . . . , F (en )
erzeugt. Eine Basis des Bildes ist daher eine maximale linear unabhängige Teilmenge dieser
Vektoren. Da diese Vektoren aber genau die Spalten der Matrix MF sind, entspricht dies
der Definition des (Spalten)rangs der Matrix MF .
Korollar 7.3.24 Eine Matrix A ∈ MatK (n, n) ist genau dann invertierbar, wenn
rang A = n gilt.
Beweis. Wenn der Rang der Matrix A gleich n ist, dann heißt das, dass das Bild der
Abbildung K n → K n , x 7→ Ax n-dimensional ist. Da das Bild ein Untervektorraum des K n
ist, muss das Bild schon gleich dem K n sein. Somit ist die durch A definierte Abbildung
125
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
surjektiv und dies ist nach Korollar 7.3.20 gleichbedeutend mit bijektiv. Dies bedeutet
wiederum, dass es eine Umkehrabbildung gibt, die durch die zu A inverse Matrix gegeben
ist (s. Korollar 7.3.12).
Wir wollen jetzt Korollar 7.3.20 benutzen um Aussagen über die Lösungsmenge von linearen
Gleichungssystem zu treffen, die durch quadratische Matrizen gegeben sind.
Beispiel 7.3.25 Sei A ∈ MatK (n, n) eine quadratische Matrix und Ax = b ein LGS.
Die Matrix definiert eine lineare Abbildung FA : K n → K n , x 7→ Ax auf die wir Korollar
7.3.20 anwenden können (da dim K n = dim K n ). Daher gelten folgende Aussagen:
• Ist das LGS für alle b ∈ K n lösbar, dann sind diese Lösungen eindeutig.
Die Lösbarkeit des LGS für alle b ∈ K n entspricht der Surjektivität von FA . Dann
ist aber FA auch injektiv und diese Lösungen sind eindeutig.
• Wenn Ax = 0 nur die triviale Lösung hat, dann ist das LGS Ax = b für alle b ∈ K n
eindeutig lösbar und diese Lösung ist durch x = A−1 b gegeben.
Die Lösungsmenge des homogenen LGS Ax = 0 ist der Kern der Abbildung FA .
Besteht der Kern nur aus dem Nullvektor, dann ist FA injektiv (Satz 7.3.16)
und aufgrund von Korollar 7.3.20 auch surjektiv, woraus sich die Lösbarkeit des
inhomogenen LGS Ax = b für alle b ∈ K n ergibt. Aufgrund der Bijektivität von
FA ist die Matrix A invertierbar und wir können die Gleichung Ax = b von links
mit A−1 multiplizieren, wodurch wir A−1 Ax = x = A−1 b erhalten.
Für den nächsten Satz über den Rang, benötigen wir einige Erkenntnisse für die Einschränkung einer Abbildung (s. Definition 3.2.15).
Lemma 7.3.26 Sei F : V → W eine K-lineare Abbildung zwischen Vektorräumen V, W
und sei U ⊆ V ein Untervektorraum. Dann ist F |U : U → W eine lineare Abbildung.
Ist F zusätzlich injektiv, dann ist die Abbildung G : U → F (V ), v 7→ F (v) bijektiv.
Beweis. Die Einschränkung einer linearen Abbildung auf einen Untervektorraum ist wieder
linear, denn da die Bedingungen für Linearität für alle v1 , v2 ∈ V und λ ∈ K gelten, dann
gelten sie insbesondere auch für alle v1 , v2 ∈ U ⊆ V und λ ∈ K.
Wenn F injektiv ist, dann ist nach Proposition 3.2.16 auch die Einschränkung F |U : U → W
injektiv. Ebenfalls nach Proposition 3.2.16 ist dann G : U → F (V ) surjektiv und weiterhin
injektiv, da die Injektivität durch eine Verkleinerung des Bildraums nicht verloren geht.
Der nächste Satz besagt, dass sich der Rang einer Abbildung nicht ändert, wenn sie mit
invertierbaren Abbildungen verknüpft wird.
Satz 7.3.27 Sei F : V → W eine lineare Abbildung. Seien L1 : V 0 → V und
L2 : W → W 0 Isomorphismen. Dann gilt:
rang(L2 ◦ F ◦ L1 ) = rang F.
126
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Beweis. Wir zeigen diesen Satz in zwei Schritten. Zunächst beweisen wir, dass sich der
Rang nicht ändert, wenn von rechts mit einer invertierbaren Abbildung verknüpft wird,
d.h. wir zeigen rang(F ◦ L1 ) = rang F .
Da die Abbildung L1 bijektiv, also insbesondere surjektiv ist, gilt L1 (V 0 ) = V und daher
gilt:
(F ◦ L1 )(V 0 ) = F (L1 (V 0 )) = F (V ).
Da das Bild von F gleich dem Bild von F ◦ L1 ist, sind insbesondere auch die Dimensionen
dieser Vektorräume gleich, aber die Dimension des Bildes ist genau der Rang der Abbildung.
Im zweiten Schritt zeigen wir, dass sich der Rang nicht ändert, wenn von links mit einer
invertierbaren Abbildung verknüpft wird, d.h. wir zeigen rang(L2 ◦ F ) = rang F .
Da die Abbildung L2 : W → W 0 bijektiv, also insbesondere injektiv ist, können wir sie auf
F (V ) ⊆ W einschränken und Lemma 7.3.26 benutzen. Daraus folgt, dass
L̃2 : F (V ) → L2 (F (V ))
eine bijektive lineare Abbildung ist. Nach Korollar 7.3.22 kann es solch eine Abbildung nur
geben, wenn die Vektorraume F (V ) und L2 (F (V )) die gleiche Dimension haben. Aber das
genau die Bilder der Abbildungen F , bzw L2 ◦ F und bedeutet, dass rang(L2 ◦ F ) = rang F
gilt.
Dieser Satz lässt sich ebenfalls in die Sprache der Matrizen übersetzen.
Korollar 7.3.28 Sei A ∈ MatK (m, n) eine Matrix und seien M ∈ MatK (m, m) und
N ∈ MatK (n, n) invertierbare Matrizen, dann gilt:
rang(A) = rang(M · A · N )
Beweis. Seien L1 : K m → K m , x → M x, L2 : K n → K n , x → N x und F : K n → K m ,
x → Ax die entsprechden linearen Abbildungen zu den Matrizen. Da M und N invertierbar sind, sind die Abbildungen L1 und L2 Isomorphismen und wir können Satz 7.3.27
anwenden und erhalten rang(L2 ◦ F ◦ L1 ) = rang F , somit gilt dieselbe Gleichungen für die
entsprechenden Matrizen aufgrund von Satz 7.3.23.
Korollar 7.3.29 Sei A ∈ MatK (n, m) eine Matrix, dann ändert sich der Rang von A
durch elementare Zeilen- und Spaltenumformungen nicht.
Beweis. Elementare Zeilenumformungen entsprechen der Multiplikation von links mit
invertierbaren Elementarmatrizen, wohingegen elementare Spaltenumformungen der Multiplikation von rechts mit invertierbaren Elementarmatrizen entsprechen. Somit ändert sich
nach Korollar 7.3.28 der Rang der Matrix A durch diese Umformungen nicht.
Satz 7.3.30 Sei A ∈ MatK (m, n) eine Matrix in oberer Zeilenstufenform. Dann entspricht der Rang dieser Matrix der Anzahl der Leitkoeffizienten.
127
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.3. LINEARE ABBILDUNGEN
Beweis. Der Rang einer Matrix ist gleich den Spalten- oder Zeilenrang. Da in oberer
Zeilenstufenform die Zeilen mit Leitkoeffizienten linear unabhängig sind, folgt daraus direkt
die Aussage.
Da sich der Rang einer Matrix nicht durch elementare Zeilenumformungen ändert, haben wir
nun eine Methode um den Rang zu bestimmen: Die Matrix wird in obere Zeilenstufenform
gebracht, in der der Rang direkt abgelesen werden kann.
Beispiel 7.3.31 Wir betrachten die Matrix


1
0 4 −3 2
−1 −1 0 −2 −1
,
A=
2
1 1 2
3
0 −1 0 −1 1
von der wir den Rang bestimmen wollen. Dafür bringen A in obere Zeilenstufenform:




·(−2)
1
0
4
−3
2
1
0
4 −3
2
0 − 1
 − 1 − 1 0 − 2 − 1 ←
·(−1)
4
−5
1 



 −+




0
 2
1
−7
8
− 1 ←
−+
1
1
2
3  ←−−−− +
0

−1 0
1
0


0
0
0
−1
0
1
4
−3 2
−1
4
0
−3
− 5 1


3
0
0
−4
4
0
1
0


0


·(− 43 )
←
−
+
0
−1
0
−1
1
0
4
−3 2
−1
4
0
−3
− 5 1


3
0
0
0
0
←−−−− +

0
Die entstandene Matrix hat 3 Leitkoeffizienten und somit Rang 3, da elementare Zeilenumformungen den Rang nicht ändern, hat also auch A den Rang 3.
Nun haben wir alle notwendigen Informationen um den Algorithmus 7.2.16 zum Lösen
eines linearen Gleichungssystems begründen zu können.
Zunächst halten wir noch einmal fest, dass sich die Lösungsmenge eines LGS sich durch
elementare Zeilenumformungen nicht ändert, weshalb wir die erweiterte Koeffizientenmatrix
(A, b) in Gauss-Jordan-Form bringen können ohne die Lösungsmenge zu ändern (s. Satz
7.2.12).
Satz 7.3.32 Sei Ax = b ein lineares Gleichungssystem. Es gilt b ∈ Bild(A) genau dann,
wenn rang(A) = rang(A, b).
Beweis. Sei b ∈ Bild(A). Dann ist b eine Linearkombination der Spalten von A, also gilt
rang(A) = rang(A, b).
Gelte rang(A) = rang(A, b). Dann ist b eine Linearkombination der Spalten von A und
damit liegt b im Bild von A.
Korollar 7.3.33 Das lineare Gleichungssystem Ax = b besitzt genau dann eine Lösung,
wenn rang(A) = rang(A, b).
128
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Beweis. Dies folgt direkt aus dem vorhergehenden Korollar, da das LGS nur dann eine
Lösung hat, wenn b im Bild von A ist.
Dies liefert uns die Begründung für Schritt (1) in Algorithmus 7.2.16. Steht in der Spalte
b der erweiterten Koeffizientenmatrix kein Leitkoeffizient, dann ist rang(A) = rang(A, b)
und somit ist Ax = b lösbar.
Satz 7.3.34 Sei Ax = b ein lineares Gleichungssystem und w ∈ L(A, b) eine spezielle
Lösung des inhomogenen Gleichungssystems. Dann ist
L(A, b) = w + Kern(A) := {w + x | x ∈ Kern(A)}
Beweis. (i) Wir zeigen w + Kern(A) ⊆ L(A, b).
Sei y ∈ Kern(A). Dann ist
A(w + y) = Aw + Ay = b + 0 = b,
also w + y ∈ L(A, b).
(ii) Wir zeigen L(A, b) ⊆ w + Kern(A).
Sei v ∈ L(A, b). Dann ist
A(v − w) = Av − Aw = b − b = 0,
also v − w ∈ Kern(A) und demnach v ∈ w + Kern(A).
Dies liefert die Begründung für den Schritt (3) in Algorithmus 7.2.16.
Bemerkung 7.3.35 Sei A ∈ MatK (n, n) invertierbar, das heißt vom Rang n. Dann
kann A durch elementare Zeilenumformungen in Gauß-Jordan-Form gebracht werden.
Aber die einzige n × n-Matrix vom Rang n in Gauß-Jordan-Form ist die Einheitsmatrix.
Also kann eine invertierbare Matrix durch elementare Zeilenumformungen in die Form
einer Einheitsmatrix gebracht werden. Dies ist gleichbedeutend mit der Tatsache, dass
A ein Produkt aus invertierbaren Elementarmatrizen ist. Dies liefert den Beweis zu Satz
7.1.24.
7.4. Basiswechsel und Äquivalenz von Matrizen
Wir haben bisher nur linearen Abbildungen zwischen Vektorräumen der Form K n eine
Matrix zugeordnet. Wir wollen in diesem Abschnitt auch allgemeinen linearen Abbildungen
eine Matrix zuordnen. Da wir dafür eine Basis der Vektorräume wählen müssen, ist es
wichtig zu sehen, wie sich die Matrix ändert, wenn man andere Basen wählt.
Zunächst kommen wir zu der in Beispiel 7.3.3 definierten Abbildung zurück.
129
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Definition 7.4.1 Sei V ein K-Vektorraum mit der Basis B = {b1 , . . . , bn }. Dann heißt
der Isomorphismus
MB : V → K n
 
λ1
n
X
 .. 
v=
λi bi 7→  . 
i=1
λn B
Koordinatenabbildung und der Vektor (λ1 , . . . , λn )>
B heißt Koordinatendarstellung von v bezüglich der Basis B.
Die Abbildung MB bildet also jeden Vektor aus V auf seine Koordinaten bezüglich der
Basis B ab. Die Inverse MB−1 wiederum bildet die Kordinaten auf den zugehörigen Vektor
ab.
Wir sehen, dass die Basisvektoren bi die Koordinatendarstellung λi = 1 und λj = 0 für
j 6= i haben, das heißt es gilt insbesondere
MB (bi ) = ei
und MB−1 (ei ) = bi .
(7.11)
Bemerkung 7.4.2 Ist V = K n müssen wir sehr aufpassen, dass wir einen Vektor
nicht mit seiner Koordinatendarstellung verwechseln. Jeder Vektor ist aber gleich seiner
Koordinatendarstellung bezüglich der Standardbasis, denn es gilt
     
 
v1
v1
0
0
 v2   0  v2 
 .. 
     
 
v =  .  =  .  + 0 + ··· +  . 
.
.
. .  
0
..
vn
0
.
vn
 
 
 
1
0
0
n
0
1
 ..  X
 
 
.
= v1  .  + v2 0 + · · · + vn   =
vi ei .
 .. 
 
0
i=1
..
0
.
1
Haben wir einen Vektor v ∈ K n durch seine Kordinaten bezüglich der Standardbasis
gegeben, dann schreiben wir das wie bisher. Verwenden wir die Koordinatendarstellung
bezüglich einer anderen Basis B, dann werden wir es durch einen Index B am Vektor
kennzeichnen.
Definition 7.4.3 Seien V und W K-Vektorräume jeweils mit den Basen B bzw. B 0 und
sei F : V → W eine K-lineare Abbildung. Dann ordnen wir F eine Matrix MBB 0 (F ) zu,
die Darstellungsmatrix von F bezüglich der Basen B und B 0 , indem wir die Matrix
berechnen, die zur linearen Abbildung
MBB 0 (F ) : K n → K m ,
MBB 0 (F ) = MB 0 ◦ F ◦ MB−1 .
gehört. Dabei ist n = dimK (V ) und m = dimK (W ).
130
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
F
V
"W
MB !
MB
!
Kn
−1
MB ! ◦F ◦MB
!
" Km
Der linearen Abbildung MBB 0 (F ) kann eine Matrix zugeordnet werden, indem man die
Bilder der Standardbasis in die Spalten schreibt (s. Def. 7.3.8). Wir wollen hier in der
Bezeichnung nicht zwischen der linearen Abbildung MBB 0 (F ) und der Matrix MBB 0 (F )
unterscheiden.
Die Bilder der Standardbasis des K n können unter Verwendung von Gleichung (7.11)
geschrieben werden als:
MBB 0 (F )(ei ) = MB 0 (F (MB−1 (ei ))) = MB 0 (F (bi )).
Das heißt um die Matrix MBB 0 (F ) zu berechnen müssen wir zunächst die Bilder der
Basisvektoren bi ∈ B unter F bestimmen. Diese Bilder liegen in W und danach berechnet
man deren Koordinaten bezüglich der Basis B 0 von W . Diese Koordinatenvektoren bilden
die Spalten von MBB 0 (F ).
Beispiel 7.4.4 Wir betrachten die lineare Abbildung
F : R2 → R2
x1
2x1 + x2
7→
x2
−x1 + 2x2
und zwei verschiedene Basen des R2
B = {b1 , b2 }
wobei
−1
1
, b2 =
b1 =
1
1
und
0
B =
{b01 , b02 }
wobei
b01
1
1
0
, b2 =
=
0
1
Wir wollen nun die Darstellungsmatrix MBB 0 (F ) berechnen. Dafür berechnen wir die
Bilder der Basisvektoren aus B und bestimmen dann die Koordinaten der Bilder bezüglich
B 0 . Die Bestimmung der Kordinaten machen wir hier durch “scharfes Angucken”. Wenn
dies nicht geht, dann kann man ein LGS aufstellen und dieses lösen (s. Beispiel 7.4.8)
2+1
3
1
1
F (b1 ) =
=
=2
+
= 2b01 + b02
−1 + 2
1
0
1
1
2
⇒ MB 0 (F (b1 )) =
1 B0
−2 + 1
−1
1
1
F (b2 ) =
=
= −4
+3
= −4b01 + 3b02
−(−1) + 2
3
0
1
−4
⇒ MB 0 (F (b2 )) =
3 B0
131
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Somit erhalten wir die Darstellungsmatrix
MBB 0 (F ) =
2 −4
.
1 3
Die Verknüpfung von Abbildungen entspricht analog zu Satz 7.3.11 dem Produkt der
Darstellungsmatrizen, unter der Voraussetzung, dass die Basis des mittleren Vektorraums
bei beiden Darstellungen gleich gewählt ist.
Satz 7.4.5 Seien U, V, W K-Vektorräume mit den jeweiligen Basen B, B 0 und B 00 . Seien
F : U → V und G : V → W lineare Abbildungen, dann gilt für die Darstellungsmatrizen:
MBB 00 (G ◦ F ) = MB 0 B 00 (G) · MBB 0 (F )
Beweis. Wir setzen die Definition der linearen Abbildungen ein:
MB 0 B 00 (G) · MBB 0 (F ) = MB 00 ◦ G ◦ MB−10 ◦ MB 0 ◦ F ◦ MB−1
= MB 00 ◦ G ◦ F ◦ MB−1 = MBB 00 (G ◦ F )
Da jeder Vektorraum verschiedene Basen hat, wollen wir nun sehen wie sich die Darstellungsmatrix der gleichen linearen Abbildung ändert, wenn wir sie für unterschiedliche
Basen bestimmen.
Satz 7.4.6 Seien V, W K-Vektorräume und F : V → W eine K-lineare Abbildung.
Seien B, C Basen von V und B 0 , C 0 Basen von W . Dann gibt es invertierbare Matrizen
S ∈ MatK (n, n), wobei n = dimK V und T ∈ MatK (m, m), wobei m = dimK W so dass
gilt:
MCC 0 (F ) = T · MBB 0 (F ) · S −1 .
Gilt insbesondere V = W , B = B 0 und C = C 0 , dann gibt es eine invertierbare Matrix
T ∈ MatK (n, n) wobei n = dimK V , so dass
MCC (F ) = T · MBB (F ) · T −1 .
Die Matrizen S −1 und T heißen Basiswechselmatrizen und es gilt T = MC 0 ◦ MB−10
und S = MC ◦ MB−1 .
Beweis. Wir benutzen, dass die Abbildungen MB und MB 0 Isomorphismen sind und es
gilt idW = MB−10 ◦ MB 0 , bzw. idV = MB−1 ◦ MB . Somit können wir unter Verwendung der
Definition der Darstellungsmatrizen berechnen:
MCC 0 (F ) = MC 0 ◦ F ◦ MC−1
= MC 0 ◦ idW ◦F ◦ idV ◦MC−1
= MC 0 ◦ MB−10 ◦ MB 0 ◦ F ◦ MB−1 ◦ MB ◦ MC−1
= T ◦ MB 0 ◦ F ◦ MB−1 ◦ S −1
= T · MBB 0 (F ) · S −1 .
132
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Wobei wir T = MC 0 ◦ MB−10 und S = MC ◦ MB−1 definieren. Beide Abbildungen sind
invertierbar als Produkt invertierbarer Abbildungen.
Für V = W , B = B 0 und C = C 0 sehen wir dass S = T gilt, woraus auch die zweite
Behauptung folgt.
Aufgrund der Definition als Verknüpfung MC 0 ◦ MB−10 bildet die Matrix T die Koordinaten
eines Vektors v ∈ W bezüglich der Basis B 0 auf die Koordinaten desselben Vektors
bezüglich der Basis C 0 ab.
Beispiel 7.4.7 Wir betrachten hier noch einmal die Abbildung aus Beispiel 7.4.4 und
bestimmen die Darstellungsmatrix bezüglich der Standardbasis. Danach wollen die Basiswechselmatrizen für den Wechsel zwischen der in Beispiel 7.4.4 berechneten Darstellung
und der Darstellung bezüglich der Standardbasis bestimmen.
Sei jetzt C = C 0 = {e1 , e2 } die Standardbasis des R2 . Die lineare Abbildung
F : R2 → R2
x1
2x1 + x2
7→
x2
−x1 + 2x2
hat die Darstellungsmatrix
MCC 0 (F ) =
2 1
−1 2
bezüglich der Standardbasis.
Zur Berechnung der Basiswechselmatrizen benötigen wir die Abbildungen MB , MB−10 , MC−1
und MC 0 . Da in unserem Beispiel V = W = R2 ist können wir bereits diese Abbildungen
durch Matrizen angeben. Aufgrund von Gleichung 7.11 erhalten wir die Matrix zur
Abbildung MB−1 indem wir die Basis B in die Spalten der Matrix schreiben. Somit gilt
1 −1
1 1
−1
−1
0
0
b
b
b
b
MB = 1 2 =
und MB 0 = 1 2 =
.
1 1
0 1
Da die Basen C und C 0 die Standardbasis sind, gilt für die entsprechenden Matrizen:
MC−1 = MC−10 = E2 und daher auch MC = MC 0 = E2 . Nun können wir die Basiswechselmatrizen T und S −1 berechnen:
1 1
−1
−1
−1
T = MC 0 · MB 0 = E2 · MB 0 = MB 0 =
0 1
Diese Matrix beschreibt den Übergang von den Koordinaten bezüglich B 0 zu denen
bezüglich der Standardbasis.
1 1 1
−1 −1
−1
−1
−1
S = (MC · MB ) = MB · MC = MB · E2 = MB =
2 −1 1
Diese Matrix beschreibt den Übergang von den Koordinaten bezüglich der Standardbasis
zu denen bezüglich der Basis B.
Die Matrix MB haben wir durch Invertieren der Matrix MB−1 berechnet und zwar auf die
gleiche Art und Weise wie es basierend auf Satz 7.1.24 in Beispiel 7.1.25 gezeigt wurde.
Dafür formen wir MB−1 mithilfe elementarer Zeilenumformungen so lange um bis wir
die Einheitsmatrix erhalten und machen gleichzeitig dieselben Umformungen an einer
133
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Einheitsmatrix
1
1
1
0
−1 | 1 0
1
| 0 1
−1 |
1
!
|
1
−
·(−1)
1
←
−+
!
−+
0 ←
0
1
0 |
1
2
0
1 |
1
2
−1 |
2
|
1
0
!
−1 1 | ·
!
1
2
−
1
2
1
2
1
2
1
2
Nun können wir noch überprüfen, ob wirklich MCC 0 (F ) = T · MBB 0 (F ) · S −1 gilt:
1 1 1
1 1
2 −4
−1
T · MBB 0 (F ) · S =
·
0 1
1 3
2 −1 1
1
1
3 −1
1 1
4 2
= ·
·
= ·
1 3
−1 1
−2 4
2
2
2 1
=
= MCC 0 (F ).
−1 2
Beispiel 7.4.8 Wir betrachten die lineare Abbildung
F : R2 → R3


−x1 + 3x2
x1

2x2
7→ 
x2
x1 − 2x2
und zwei verschiedene Basen des R2
B = {b1 , b2 }
wobei
b1 =
C = {c1 , c2 }
wobei
c1 =
und
2
0
, b2 =
1
−1
2
−1
, c2 =
2
1
sowie zwei verschiedene Basen des R3
B 0 = {b01 , b02 , b03 }
wobei
und
C 0 = {c01 , c02 , c03 }
wobei
 
 
 
2
0
1
b01 = 1 , b02 = −1 , b03 = 0
0
1
0
 
 
 
−1
0
0
c01 = −1 , c02 = 2 , c03 = −1
1
1
2
Wir wollen jetzt die Darstellungsmatrizen MBB 0 (F ) und MCC 0 (F ) bestimmen. Um
MBB 0 (F ) zu bestimmen, berechnen wir die Koordinaten von F (b1 ) und F (b2 ) bezüglich
134
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
der Basis B 0 .

  
 
 
−(2) + 3 · 1
1
2
1







2·1
F (b1 ) =
= 2 = 2 1 − 3 0 = 2b01 + 0 · b02 − 3b03
2−2·1
0
0
0
 
2

0
⇒ MB 0 (F (b1 )) =
−3 B 0

  
−0 + 3 · (−1)
−3
F (b2 ) =  2 · (−1)  = −2
0 − 2 · (−1)
2
Die Koordinaten dieses Vektors bezüglich der Basis B 0 sind nicht so einfach abzulesen
wie die von F (b1 ), weshalb wir ein LGS dafür aufstellen und es lösen müssen.


 
 
  

−3
2
0
1
2λ1 + λ3
−2 = λ1 b01 + λ2 b02 + λ3 b03 = λ1 1 + λ2 −1 + λ3 0 =  λ1 − λ2 
2
0
1
0
λ2
Die letzte Zeile liefert λ2 = 2, durch Einsetzen in Zeile 2 erhalten wir −2 = λ1 − 2 und
daher λ1 = 0, wodurch aus der ersten Zeile λ3 = −3 folgt. Insgesamt gilt also
 
 
 
2
0
1





F (b2 ) = 0 1 + 2 −1 − 3 0
0
1
0

⇒

0
MB 0 (F (b2 )) =  2  .
−3 B 0
Somit erhalten wir die Darstellungsmatrix


2
0
2 .
MBB 0 (F ) =  0
−3 −3
Die Darstellungsmatrix MCC 0 (F ) kann nun auf analoge Art und Weise direkt bestimmt
werden oder aber mithilfe der Basiswechselmatrizen aus MBB 0 (F ) berechnet werden.
Wir werden hier beide Wege zeigen um zu sehen, dass sie zu dem selben Ergebnis führen.
Zunächst berechnen wir auf direkte Weise die Darstellungsmatrix MCC 0 (F ), dafür
berechnen wir die Bilder F (c1 ) und F (c2 )

  
−(−1) + 3 · 1
4
= 2 
2·1
F (c1 ) = 
−1 − 2 · 1
−3

  
−2 + 3 · 2
4
und F (c2 ) =  2 · 2  =  4 
2−2·2
−2
Die Lösung des LGS F (c1 ) = λ1 c01 +λ2 c02 +λ3 c03 sind die Koordinaten von F (c1 ) bezüglich
135
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
der Basis C 0 :

−1 0
0
|

−1 2 −1 |
1
1
2
|

−1 0
0

1
2
 0
4

·(−1)

2
−3
|
|
4
←
−+
←
−+


−1 0
0
|
4



2 − 1 | − 2 ←
−
 0
0
1
2
|
1
←
−


| · (−1)
−1 0
0
|
4


1
2
|
1 
 0

·(−2)
1 
−+
0
2 −1 | −2 ←
0
0 − 5 | − 4 | · (− 15 )




 
1 0 0 | −4
1 0 0 | −4
−4



3
−+
1  ←
⇒ MC 0 (F (c1 )) = − 53 
0 1 2 |
0 1 0 | − 5 
4
4
4
·(−2)
0 0 1 |
0 0 1 |
5 C0
5
5
136
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Die Lösung des LGS F (c2 ) = λ1 c01 +λ2 c02 +λ3 c03 sind die Koordinaten von F (c2 ) bezüglich
der Basis C 0 .

−1 0

−1 2
1
1

−1

 0
0

1 0

0 1
0
|
4

·(−1)

−1 |


4 
←
−+

2
| −2 ←
−+


0
0
| 4
−1


·(−2)
1
2
| 2
 0
2 −1 | 0 ←
0
−+


0 | −4
1 0 0


2 |
2  ←
−+
0 1 0
0 0 1 |
4
5
·(−2)
−1 0
0
0
2
0
1
2
0
0
|
1
2
|
| 4


− 1 | 0 ←
−
0
−5 |

| −4
2 
|
5 
4
0 0 1 |
5
| 2 ←
−

4
| · (−1)

2 
− 4 | · (− 15 )
⇒
 
−4
MC 0 (F (c2 )) =  52 
4
5
C0
Somit erhalten wir die Darstellungsmatrix


−4 −4
MCC 0 (F ) = − 53 25  .
4
5
4
5
Zur Berechnung der Basiswechselmatrizen benötigen wir die Abbildungen MB , MB−10 , MC−1
und MC 0 . Da in unserem Beispiel V = R2 und W = R3 ist können wir bereits diese
Abbildungen durch Matrizen angeben. Aufgrund von Gleichung 7.11 erhalten wir die
Matrix zur Abbildung MB−1 indem wir die Basis B in die Spalten der Matrix schreiben.
Somit gilt
MB−1 = b1 b2
2 0
=
1 −1
und MB−10 = b01 b02


2 0 1
b03 = 1 −1 0
0 1 0
und analog
MC−1 = c1 c2
−1 2
=
1 2
und MC−10 = c01 c02


−1 0 0
c03 = −1 2 −1
1 1 2
Für die Basiswechselmatrizen T und S −1 gilt per definition
T = MC 0 · MB−10
und S −1 = (MC · MB−1 )−1 = MB · MC−1 .
Wir müssen also noch jeweils die zu MC−10 und MB−1 inversen Matrizen bestimmen um die
Basiswechselmatrizen berchnen zu können. Dafür führen wir an diesen Matrizen solange
elementare Zeilenumformungen durch bis wir die Einheitsmatrix erhalten und führen
137
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
diesselben Umformungen an einer Einheitsmatrix durch:



·(−1)
−1 0
0
|
1
−1 0
0
| 1 0 0



←
−+
2 −1 | −1
 0
 − 1 2 − 1 | 0 1 0
0
1
2
|
1
1
1
2
| 0 0 1 ←
−+



−1 0
0
|
1
0
−1 0
0
|
1
0 0



·(−2)
1
2
|
1
0
1
2
|
1
0 1
 0
 0
−+
0
0 −5 | −3 1
0
2 −1 | −1 1 0 ←



1 0 0 | −1
0
1 0 0 | −1
0
0



1
2
+
−
1
0
1 ←
0 1 0 | − 5
0 1 2 |
5
3
5
0 0 1 |
2
0
1
| 1 0
!
−1 | 0 1
−
1
5
2
5
2
·(− 12 )
0
0
←
−+
Somit haben lauten die Matrizen

−1 0
2

MC 0 = − 15
5
3
− 15
5
|
1
−1 |
−
0
0
1
2
!
1

1
5
2
5
3
5
0 0 1 |
·(−2)
| · (−1)
0 1 |
2
1
2
S
−1
= MB ·
MC−1
1
2
1
2
=
←
−
←
−
| · (−1)
| · (− 15 )
2
5
1 0 |
1
2
1
2
!
0
−1
0
.
−1
Und damit berechnen sich die Basiswechselmatrizen zu

 
 
−1 0 0
2 0 1
−2 0
2
1 
 =  0 −1
1
−1
0
T = MC 0 · MB−10 = − 51
·
5
5
5
3
3
1
2
1
−
0
1
0
5
5
5
5
und
1
5
1
2
|·
1
und MB =
−

0 0

1 0
0 1

0

1 
−2

0
1
5
1
−2
0
−1 2
=
·
1 2
− 32
−1

−1
− 15 
3
5
1
.
−1
Nun können wir noch überprüfen, ob wirklich MCC 0 (F ) = T · MBB 0 (F ) · S −1 gilt:



1
2
0
−2 0 −1
−2 1
−1
1
1




0
2 ·
0 −5 −5
T · MBB 0 (F ) · S =
− 32 −1
3
3
1
−3
−3
5
5



−2 0 −1
−1 2
=  0 − 15 − 15  −3 −2
3
3
1
6
0
5

 5
−4 −4
= − 35 25  = MCC 0 (F )
4
5
4
5
Definition 7.4.9 Seien A, B ∈ MatK (m, n) Matrizen. Wir nennen A äquivalent zu B,
138
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
wenn es invertierbare Matrizen S ∈ MatK (n, n) und T ∈ MatK (m, m) gibt, so dass gilt:
A = T · B · S −1 .
Zwei Matrizen sind also äquivalent zueinander, wenn sie die Darstellungsmatrizen bezüglich
unterschiedlicher Basen sowohl von V als auch von W derselben linearen Abbildung
F : V → W sind.
Da jede invertierbare Matrix das Produkt von Elementarmatrizen ist, kann man es auch
anders formulieren: Zwei Matrizen sind äquivalent zueinander, wenn man durch elementare
Zeilen- und Spaltenumformungen, die eine in die andere umwandeln kann.
Definition 7.4.10 Seien A, B ∈ MatK (n, n) quadratische Matrizen. Wir nennen A
ähnlich zu B, wenn es eine invertierbare Matrix T ∈ MatK (n, n) gibt, so dass gilt:
A = T · B · T −1 .
Zwei Matrizen sind also ähnlich zueinander, wenn sie die Darstellungsmatrizen bezüglich
verschiedener Basen von V derselben linearen Abbildung F : V → V sind.
Proposition 7.4.11 Äquivalenz und Ähnlichkeit von Matrizen sind Äquivalenzrelationen auf der Menge der m × n, bzw. n × n Matrizen.
Beweis. Wir zeigen hier, dass Äquivalenz von Matrizen eine Äquivalenzrelation ist. Der
Beweis für Ähnlichkeit funktioniert analog.
Reflexivität: Wählen wir T = Em und S = En , dann sehen wir dass A = EM AEn gilt, also
jede Matrix zu sich selbst äquivalent ist.
Symmetrie: Ist A äquivalent zu B, dh. A = T · B · S −1 , dann gilt B = T −1 AS und somit
ist auch B äquivalent zu A.
Transitivität: Ist A äquivalent zu B und B äquivalent zu C, dh es existieren Matrizen
T1 , T2 ∈ Mat(m, m) und S1 , S2 ∈ Mat(n, n), so dass A = T1 · B · S1−1 und B =
T2 · C · S2−1 , dann gilt
A = T1 · B · S1−1 = A = T1 · T2 · C · S2−1 · S1−1 = (T1 T2 ) · C · (S1 S2 )−1
und somit ist auch A äquivalent zu C.
Definition 7.4.12 Eine m × n Matrix hat reduzierte Zeilenstufenform, wenn sie von
139
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
folgender Form ist:

1 0 ...
0 1

 ..
. 0 ...

0 0 0



0 0 . . .

0 0

.
 .. 0 . . .
0 0 0
0
0
0
1
0
0
0
0
0 0 ...
0 0
..
.
. 0 ..
0 0 0
0 0 ...
0 0
..
.
. 0 ..
0 0 0
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN

0
0


0

0

Er
Or,n−r
=

Om−r,r Om−r,n−r
0

0


0
0
wobei mit Ok,` eine k × l Nullmatrix gemeint ist.

1 0
Beispiel 7.4.13 Die Matrix A = 0 1
0 0
sehen, dass die Multiplikation mit dieser
für einen Vektor gilt:

0 0
0 0 hat reduzierter Zeilenstufenform. Wir
0 0
Matrix besonders einfach ist, da zum Beispiel
 


 
x1
1 0 0 0
x1
x2 
 = x2  .
Ax = 0 1 0 0 · 
x3 
0 0 0 0
0
x4
Satz 7.4.14 Jede Matrix A ∈ MatK (m, n) vom Rang r ist äquivalent zu einer Matrix
in reduzierter Zeilenstufenform mit r Einsen auf der Diagonale.
Da jede invertierbare Matrix ein Produkt von Elementarmatrizen ist (s. Satz 7.1.24),
lässt sich dieser Satz auch anders formulieren: Jede Matrix A ∈ MatK (n, m) vom Rang r
lässt sich durch elementare Zeilen- und Spaltenumformungen in eine Matrix in reduzierter
Zeilenstufenform mit r Einsen auf der Diagonale umformen.
Den Beweis dieser Aussage geben wir als Algorithmus an.
Algorithmus 7.4.15 (reduzierte Zeilenstufenform)
Eingabe: Eine Matrix A ∈ MatK (m, n).
Ausgabe: Eine Matrix B ∈ MatK (m, n) in reduzierter Zeilenstufenform.
Durchführung:
(1) Bringe die Matrix A durch elementare Zeilenumformungen in Gauss-Jordan-Form
wie in Algorithmus 7.2.13 beschrieben.
(2) Betrachte die am weitesten links stehende Spalte ohne Leitkoeffizient. Angenommen
in dieser Spalte steht in der ersten Zeile der Eintrag b =
6 0, dann multipliziere die
erste Spalte mit −b und addiere sie zur betrachteten Spalte. Gehe von oben nach
140
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
unten alle Einträge in dieser Spalte durch und mache sie mithilfe der Spalte in der
in dieser Zeile ein Leitkoeffizient steht zu null. Wiederhole Schritt (3) von links
nach rechts mit allen Spalten.
(3) Betrachte die am weitesten links stehende Spalte ohne Leitkoeffizient und tausche
sie mit der nach rechts nächsten Spalte mit Leitkoeffizient. Wiederhole Schritt (3)
von links nach rechts mit allen Spalten.
Satz 7.4.14 kann noch auf eine weitere Art und weise verstanden werden:
Sei F : V → W eine lineare Abbildung vom Rang r, dann gibt es gibt es eine Basis B von V
und eine Basis B 0 von W , so dass MBB 0 (F ) eine Matrix in reduzierter Zeilenstufenform mit
r Einsen auf der Diagonale ist. Diese kann man aus den Basiswechselmatrizen bestimmen.
Die Basiswechselmatrizen kann man berechnen, indem man alle Zeilen- und Spaltenumformungen, die man der Matrix durch führt auch an einer Einheitsmatrix mit der entsprechenden Anzahl von Zeilen, bzw. durchführt.
Beispiel 7.4.16 Wir betrachten die Matrix


3
2
1
1
A =  1 −1 2 −3
−1 0 −1 1
und wollen sie mithilfe elementarer Zeilen- und Spaltenumformungen in reduzierte
Zeilenstufenform bringen. Zur Bestimmung der Matrizen S und T führen wir alle
Umformungen auch an Einheitsmatrizen der entsprechenden Größe durch.
Zunächst führen wir solange elementare Zeilenumformungen durch bis die Matrix GaußJordan-Form hat. Da Zeilenumformungen einer Multiplikation von links entspricht führen
wir alle Umformungen auch an einer Einheitsmatrix durch, die genauso viele Zeilen wie
A hat, das heißt an E3


←
−
1 0 0 |
3
2
1
1


1
−1
2
− 3 ←
−
0 1 0 |
0 0 1 |

0 1 0 |

1 0 0 |
−1
0
−1
1
1
−1
2
−3
2
1
0
−1
−1
2
5
−5

1  ←
−+
1
←−−−−−− +

−3

10  ←
−
−1
1
3
0 0 1 | −1

0
1
0 | 1

1 − 3 0 | 0
0

0

0
1
1 | 0

−2
·(−3)
←
−

1
0 | 1
−1
2
−3
1
1 | 0
−1
1

− 2
·5
1 −3 0 | 0
5
− 5 10
←
−+


0 1 0 | 1 −1 2 −3


0 1 1 | 0 − 1 1 − 2 | · (−1)
1 2 5 | 0
0
0
0
141
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN

0

0
1

0

0
1
0
−1
1

−+
−3 ←

0
1
−1
2 
0
0
0
0

1 0
1
−1

0 1 −1
2  = T | Ã
0 0
0
0
| 1
−1 |
2
5
|
0
−1 |
−1
−1 |
2
5
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
|
−1
2
Mithilfe elementarer Zeilenumformungen können wir die Matrix nicht weiter umformen.
Deshalb führen an der Matrix à nun elementare Spaltenumformungen durch bis diese
Matrix reduzierte Zeilenstufenform hat. Spaltenumformungen entsprechen einer Multiplikation von rechts. Somit führen wir alle Umformungen auch an einer Einheitsmatrix
durch, die genauso viele Spalten wie A hat, das heißt an E4
+
y

·(−1)

+
y

+
y

+
y

1
 0


 0

−−


 1

 0


 0
0

·(−2)
0
1
1
−1
0
0
−−
−−
0
0
1
0
0
1
0
0
1
 0


 0

−−


 1

 0


 0
0
−1


 0


 0

−−


 1

 0


 0
2 


0 

− −


0 

0 


0 
0
1
0
0
0
−−
−−
0
−1
1
1
0
1
0
0
0
0
−1
1
0
0
0
−−
−−
0
−1
1
1
0
1
2 


0 

− −


0 

0 


0 
0
0
0
1
0
1
0

1

0 


0 

− −


1 

− 2


0 
1
Wir verwenden nun die Bezeichnungen


0 0 −1
T = 0 −1 −1
1 2
5
und S −1

1
0
=
0
0

0 −1 1
1 1 −2

0 1
0
0 0
1
Dann hat unsere Rechnung gezeigt, dass gilt


1 0 0 0
T AS −1 = 0 1 0 0
0 0 0 0
142
KAPITEL 7. MATRIZEN, LGS UND LINEARE ABBILDUNGEN
7.4. BASISWECHSEL UND ÄQUIVALENZ VON MATRIZEN
Wir gehen jetzt davon aus, dass A die Darstellungsmatrix einer linearen Abbildung
F : R4 → R3 bezüglich der Standardbasis B von R3 und der Standardbasis B 0 von R4
ist, dh dass A = MBB 0 (F ) gilt. Dann ist die Matrix in reduzierter Zeilenstufenform die
Darstellungsmatrix derselben linearen Abbildung bezüglich einer Basis C von R3 und
einer Basis C 0 von R4 . Um diese Basen zu bestimmen benötigen wir die Definition der
Basiswechselmatrizen.
Es gilt T = MC 0 MB−10 = MC 0 und S −1 = MB MC−1 = MC−1 , da wir annehmen, das B und
B 0 Standardbasen sind. Die Basis C entspricht den Spalten von MC−1 und damit denen
von S −1 .
Die Basis C 0 entspricht den Spalten von MC−10 und damit denen der Inversen von T , die
wir jetzt berechnen:




0
0
−1 | 1 0 0 ←
−
1
2
5
| 0 0 1




0 − 1 − 1 | 0 1 0
0 − 1 − 1 | 0 1 0 | · (−1)
1
2

1

0
0

1

0
5
| 0 0 1
2 5 |
0
1 1 |
0
0 1 |
−1
0 0 |
5
1 0 |
1
0 0 1 |
−1
←
−
0
0

0
1 ←−−−−−− +

−+
− 1 0 ←
0
0

−2 1

− 1 0
0
0
·(−1)
−1 | 1 0 0
| · (−1)
←
−+
·(−2)
·(−5)

⇒
MC−10

5 −2 1
=  1 −1 0
−1 0 0
Somit haben wir die Basen C = {c1 , c2 , c3 , c4 } und C 0 = {c01 , c02 , c03 } mit
 
 
 
 
 
 
 
1
−1
0
1
5
−2
1
−2
1
1
0
 c2 =   c3 =   c4 =   c01 =  1  c02 = −1 c03 = 0
c1 = 
0
1
0
0
−1
0
0
1
0
0
0
bestimmt. Die lineare Abbildung F : R4 → R3 , x → Ax hat bezüglich dieser Basen die
Darstellungsmatrix


1 0 0 0
MCC 0 (F ) = 0 1 0 0 .
0 0 0 0
Korollar 7.4.17 Haben zwei Matrizen A, B ∈ MatK (m, n) den gleichen Rang, dann
sind sie äquivalent zueinander.
Beweis. Beide Matrizen sind zur selben Matrix in reduzierte Zeilenstufenform äquivalent
und somit folgt die Aussage aus der Symmetrie und Transitivität der Äquivalenzrelation.
143
8. Determinanten und
Diagonalisierbarkeit
In dem letzten Kapitel haben wir uns mit linearen Abbildung zwischen verschiedenen
Vektorräumen, die durch rechteckige Matrizen dargestellt werden können. Ab jetzt wollen
wir uns mit Endomorphismen, das heißt mit linearen Abbildungen F : V → V von einem
Vektorraum V in sich selbst beschäftigen. Wählen wir Basen B, B 0 von V , dann entsprechen
diese Abbildungen quadratischen Matrizen A = MBB 0 (F ). Wir wissen aus Satz 7.4.14,
dass jede quadratische Matrix äquivalent zu einer Diagonalmatrix ist. Dies bedeutet,
dass es geeignete Basen B und B 0 von V gibt, so dass die Darstellungsmatrix MBB 0 (F )
Diagonalform hat.
Ab jetzt wollen wir uns mit der Frage beschäftigen, ob jede quadratische Matrix auch
ähnlich zu einer Diagonalmatrix ist. Dafür müssen wir eine Basis B von V finden, so dass
Darstellungsmatrix MBB (F ) Diagonalform hat.
Warum dieses Problem für Anwendungen wichtig ist sehen wir daran wenn wir die Potenz
einer Matrix Ak berechnen wollen. Für eine n × n Matrix A und ein großes k ist die
Matrixmultiplikation rechnerisch aufwendig. Wissen wir aber, dass A ähnlich zu einer
Diagonalmatrix ist, d.h. es gibt eine invertierbare Matrix T und Skalare λi ∈ K, so dass
gilt:
T · A · T −1 = Diag(λ1 , . . . , λn ) ⇐⇒ A = T −1 · Diag(λ1 , . . . , λn ) · T
Dann können wir leicht die Potenz von A berechnen:
Ak = T −1 · Diag(λ1 , . . . , λn ) · T · T −1 · Diag(λ1 , . . . , λn ) · T · . . . · T −1 · Diag(λ1 , . . . , λn ) · T
= T −1 · Diag(λ1 , . . . , λn )k · T = T −1 · Diag(λk1 , . . . , λkn ) · T.
Die Potenz einer Matrix spielt zum Beispiel für das Berechnen von Iterationen eine
Rolle. Ähnlich wie im eindimensionalen Fall, wo wir die Gleichung xn+1 = axn zu einem
Anfangswert x0 durch xn = an x0 lösen, ist die Lösung eines höherdimensionalen linearen
Problems durch die Potenz einer Matrix gegeben. Zum Beispiel ist die Lösung des Problems
xn+1
2xn + 3yn
2 3
xn
=
=
yn+1
−xn + yn
−1 1
yn
zu einem Anfangswert (x0 , y0 )> durch
n xn
2 3
x0
=
yn
−1 1
y0
gegeben.
8.1. Determinanten
Zunächst wollen wir ein einfaches Kriterium kennenlernen, mit dem es möglich ist zu
bestimmen, ob eine Matrix invertierbar ist.
144
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Beispiel 8.1.1 Schauen wir das eindimensionale LGS ax = b an. Dies hat eine eindeutige Lösung für alle b ∈ K, wenn a =
6 0 ist. Die Lösung ist dann durch x = a/b gegeben.
Wenn wir ein allgemeines LGS mit zwei Gleichungen lösen, dann erhalten wir eine
ähnliche Bedingung:
!
!
·(−1)
a11 a12 | b1 | · (a21 )
a11 a21 a12 a21 | a21 b1
a21 a22 | b2
| · (a11 )
a11 a21 a11 a22 | a11 b2
a11 a21
0
a12 a21
|
←
−+
a21 b1
!
a11 a22 − a12 a21 | a11 b2 − a21 b1
Ist nun a11 a22 − a12 a21 6= 0, dann ist auch dieses Gleichungssystem eindeutig lösbar.
Der Ausdruck a11 a22 − a12 a21 heißt Determinante der 2 × 2 Matrix und a ist die Determinante der 1 × 1 Matrix (a). Wir werden ihn hier über seine Eigenschaften einführen und
dann sehen, dass dies zu der gleichen Formel führt.
Determinanten können nur von quadratischen Matrizen berechnet werden. Es ist günstig
die Spalten der Matrix als Vektoren im K n zu betrachten, so dass man auch n Vektoren
eine Determinante zuordnen kann.
Definition 8.1.2 (Determinante)
Es sei K ein Körper. Eine Abbildung
det : MatK (n, n) −→ K,
bzw.
det : K n × K n × · · · × K n −→ K
|
{z
}
n−mal
heißt Determinantenfunktion, falls die folgenden drei Eigenschaften gelten:
(i) Es ist det(En ) = 1, bzw. det(e1 , . . . , en ) = 1
(ii) Besitzt A ∈ MatK (n, n) nicht vollen Rang, rang(A) < n, so ist det(A) = 0, bzw.
sind v1 , . . . , vn linear abhängig, dann ist det(v1 , . . . , vn ) = 0.
(iii) Seien v1 , . . . , vn , vi0 ∈ K n , dann gilt für alle i ∈ {1, . . . , n} und für alle λ, µ ∈ K
det(v1 , . . . , vi−1 , λvi + µvi0 , vi+1 , . . . , vn )
= λ det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + µ det(v1 , . . . , vi−1 , vi0 , vi+1 , . . . , vn ).
Diese Eigenschaft wird als Linearität in jeder Spalte bezeichnet. Man sagt auch,
dass det eine Multinearform ist.
Aus dieser Definition können wir direkt ableiten, wie sich die Determinante einer Matrix
bei elementaren Spaltenumformungen verhält.
Satz 8.1.3 Sei det : K n × · · · × K n → K eine Determinantenfunktion, dann gilt:
145
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
1) Multipliziert man eine Spalte mit einem Skalar, dann ändert sich die Determinante
um genau diesen Faktor
det(v1 , . . . , vi−1 , λvi , vi+1 , . . . , vn ) = λ det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ).
2) Beim Vertauschen zweier Spalten ändert die Determinante ihr Vorzeichen
det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn )
= − det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn ).
3) Addiert man das λ-fache der Spalte j zur Spalte i, wobei i 6= j, dann ändert das
die Determinante nicht:
det(v1 , . . . , vi−1 , vi + λvj , vi+1 , . . . , vn ) = det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ).
Beweis.
1) Aufgrund von Eigenschaft (ii) der Determinantenfunktion gilt
det(v1 , . . . , vi−1 , vi + vj , vi+1 , . . . , vj−1 , vi + vj , vj+1 , . . . , vn ) = 0,
da die i-te und die j-te Spalte gleich sind und damit linear abhängig. Durch Anwenden
von Eigenschaft (iii) zuerst auf Spalte i und danach auf Spalte j erhalten wir somit
0 = det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vi + vj , vj+1 , . . . , vn )
+ det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi + vj , vj+1 , . . . , vn )
= det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn )
+ det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn )
+ det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn )
+ det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn )
Verwenden wir wieder Eigenschaft (ii), dann sehen wir, dass der erste und letzte
Summand null ist, da bei beiden Determinanten zwei Spalten gleich sind, und somit
wie behauptet gilt:
det(v1 , . . . ,vi−1 , vi , vi+1 , . . . , vj−1 , vj , vj+1 , . . . , vn )
+ det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vj−1 , vi , vj+1 , . . . , vn ) = 0.
2) Diese Regel folgt direkt aus Eigenschaft (iii), indem man µ = 0 verwendet.
3) Diese Regel folgt ebenfalls aus Eigenschaft (iii), die besagt, dass
det(v1 , . . . , vi−1 , vi + λvj , vi+1 , . . . , vn )
= det(v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + λ det(v1 , . . . , vi−1 , vj , vi+1 , . . . , vn ).
Da aber im zweiten Summand der Vektor vj sowohl in der Spalte i, als auch der
Spalte j steht, folgt aus Eigenschaft (ii), dass diese Determinante null ist.
146
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Korollar 8.1.4 Sei A ∈ MatK (n, n) eine quadratische Matrix und λ ∈ K ein Skalar,
dann gilt:
det(λA) = λn det A
Beweis. Die Matrix λA entsteht aus A durch Multiplizieren aller Einträge mit dem Skalar
λ, das heißt es werden alle n Spalten mit λ multipliziert. Durch Anwenden von Regel 1
aus Satz 8.1.3 auf die Spalten 1 bis n, erhalten wir so die Aussage.
Satz 8.1.5 Sei A = (a) ∈ MatK (1, 1), dann ist durch det A = a eine Determinantenfunktion gegeben.
a b
Sei A =
∈ MatK (2, 2), dann ist durch
c d
a b
det A = det
= ad − bc
c d
eine Determinantenfunktion gegeben.
Beweis. Es gilt aufgrund von Eigenschaft (i) der Determinantenfunktion det(1) = 1 und
somit gilt aufgrund von Eigenschaft (iii) für eine 1 × 1-Matrix, also ein Skalar det(a) =
a det(1) = a.
Sei jetzt A eine 2 × 2-Matrix. Die Spalten von A sind die Vektoren
a
b
v1 =
= ae1 + ce2 und v2 =
= be1 + de2 ,
c
d
wobei hier e1 , e2 die Standardbasisvektoren des K 2 sind. Wir rechen nach
det(v1 , v2 ) = det(ae1 + ce2 , be1 + de2 )
= a det(e1 , be1 + de2 ) + c det(e2 , be1 + de2 ) | Linearität der ersten Spalte
= ab det(e1 , e1 ) + ad det(e1 , e2 )
| Linearität der zweiten Spalte
+ bc det(e2 , e1 ) + bd det(e2 , e2 )
|
= ad det(e1 , e2 ) + bc det(e2 , e1 )
| Eigenschaft (ii)
Vertauschen von Spalten
ändert Vorzeichen
| Eigenschaft (i)
= ad det(e1 , e2 ) − bc det(e1 , e2 )
= ad − bc
Beispiel 8.1.6
1 0
det
=1·1−0·2=1
2 1
1 −2
det
−1 2
= 1 · 2 − (−2) · (−1) = 2 − 2 = 0
147
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Satz 8.1.7 Für jedes n ∈ N gibt es eine eindeutig bestimmte Determinantenfunktion
det : MatK (n, n) → K.
Wir verzichten hier an dieser Stelle auf den Beweis. Er kann auf analoge Art und Weise wie der Beweis von Satz 8.1.5 geführt werden. Allerdings benötigt man eine kompakte Schreibweise um klarzumachen welche Matrixeinträge miteinander multipliziert
werden. Außerdem kommt man auf Determinanten zum Beispiel für 4 × 4-Matrizen
der Art det(e3 , e2 , e4 , e1 ), die durch eine gewisse Anzahl von Vertauschen in die Form
(−1)Anzahl Vertauschungen det(e1 , e2 , e3 , e4 ) = ±1 gebracht werden müssen. Dies ist möglich
durch das Studium von sogenannten Permutationen und deren Signum. Wir verzichten
hier aber darauf, da zur praktischen Berechnung von Determinanten größerer Matrizen nie
die explizite Formel verwendet wird.
Definition 8.1.8 (Unterdeterminante)
Sei A = (aij ) ∈ MatK (n, n). Die (n − 1) × (n − 1)-Matrix, die aus A durch Streichung
der i-ten Zeile und j-ten Spalte ensteht, wird mit Ãij bezeichnet.
Die Determinante Mij = det Ãij nennen wir Unterdeterminante oder Minor von
det A.
Satz 8.1.9 (Laplace’scher Entwicklungssatz)
Sei A = (aij ) ∈ MatK (n, n). Der Wert der Determinante von A ergibt sich, indem man
die Elemente einer beliebigen Zeile (oder Spalte) mit (−1)i+j Mij multipliziert und die
so entstehenden Produkte aufaddiert. Die Entwicklung der i-ten Zeile lautet also
det(A) =
n
X
aij (−1)i+j Mij .
j=1
Die Entwicklung der j-ten Spalte lautet demnach
det(A) =
n
X
aij (−1)i+j Mij .
i=1
Auch auf diesen Beweis verzichten wir. Es ist zu beachten, dass es egal ist nach welcher
Zeile oder Spalte man entwickelt um eine Determinante zu berechnen. Aus diesem Grund
sollte man immer diejenige Zeile oder Spalte wählen, in der die meisten Einträge null sind.
Die Vorzeichen (−1)i+j lassen sich einfach durch das
benachbarte Einträge in einer Zeile oder Spalte immer

 
+ − + − ... +
+ −
− + − + . . . − − +

 
+ − + − . . . + + −

 
− + − + . . . − − +

 
. . . . .
 
. . ...   ... ...
 .. .. .. ..
+ − + − ...
+
folgende Schema ablesen, da zwei
unterschiedliche Vorzeichen haben.

+ − ... −
− + . . . +

+ − . . . −

− + . . . +

.. .. . .
.. 
. .
. .
− + − + ...
+
148
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Auf der Diagonale steht immer (−1)i+i = +1. Die erste Matrix hat eine ungerade Zahl
von Splaten und Zeilen, da dann (−1)n+1 = 1 ist, wohingegen die zweite für Matrizen mit
gerade Zahl von Splaten und Zeilen steht.
Korollar 8.1.10 (Regel von Sarrus)
Sei


a11 a12 a13
A = a21 a22 a23 
a31 a32 a33
eine 3 × 3-Matrix, dann gilt
det(A) = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a11 a23 a32 − a12 a21 a33 − a13 a22 a31
Beweis. Wir verwenden die Laplaceentwicklung nach der ersten Spalte und erhalten
a
a
a
a
det(A) = a11 · (−1)1+1 det 22 23 + a21 · (−1)2+1 det 12 13
a32 a33
a32 a33
a
a
+ a31 · (−1)3+1 det 12 13
a22 a23
= a11 a22 a33 − a23 a32 − a21 a12 a33 − a13 a32 + a31 a12 a23 − a13 a22
= a11 a22 a33 − a11 a23 a32 − a21 a12 a33 + a21 a13 a32 + a31 a12 a23 − a31 a13 a22
Durch Umsortieren des Ergebnisses erhält man die obige Formel.
Die Regel von Sarrus wird oft als Gartenzaunmethode bezeichnet. Dies erklärt sich
durch das folgende Schema: Die ersten beiden Spalten werden noch einmal rechts neben
der Matrix hingeschrieben. Die auf einer Linie (also einer Latte des Gartenzauns) liegenden
Einträge werden multipliziert, die Produkte auf einer durchgezogenen Linie erhalten ein
Plus, die auf einer gestrichelten Linie ein Minus.
Definition 8.1.11 Eine Matrix A ∈ MatK (n, n) heißt obere (bzw. untere) Dreiecksmatrix, wenn unterhalb (bzw. oberhalb) der Diagonale alle Einträge null sind. Das
149
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
heißt A = (aij ), wobei aij = 0, wenn i > j ist (bzw. wenn i < j ist).



λ1 ∗ . . . ∗
λ1 0 . . .


.. 
 0 λ2
 ∗ λ2
∗
. 
0
,

Aobere = 
A
=
untere
 ..


.
.
.
.. ∗ 
..
 ..
.
0
∗
0 . . . 0 λn
∗ ... ∗
8.1. DETERMINANTEN

0
.. 
. 
.

0
λn
Eine Matrix wird als Dreiecksmatrix bezeichnet, wenn sie eine obere oder untere
Dreiecksmatrix ist.
Satz 8.1.12 Die Determinante einer Dreiecksmatrix ist das Produkt ihrer Diagonaleinträge.
Beweis. Wir zeigen die Aussage für obere Dreiecksmatrizen, der Beweis für untere ist
analog.
Wir wollen also die Aussage


λ1 ∗ . . . ∗

.. 
 0 λ2
∗
. 

 = λ1 · . . . · λn
det  .
(8.1)

.
.
.
.
. ∗
0
0 . . . 0 λn
per Induktion nach der Größe der Matrizen beweisen.
Induktionsanfang: n = 1, das heißt A = (a) und es gilt det A = a.
Induktionsschritt: Angenommen die Formel (8.1) ist für n = k richtig. Dann wollen wir
zeigen, dass sie auch für n = k + 1 richtig ist. Dafür entwickeln wir die Determinante
nach der ersten Spalte.


λ1 ∗ . . . ∗
∗


λ2 ∗ . . .
∗


.
.. 
 0 λ2
∗
∗

.. 


 0 ... ∗
. 
 ..

.
 = λ1 · λ2 · . . . · λk+1 .

.. ∗
det  .
 = λ1 det  .
0
∗



.
.
0 λk
∗ 
 ..

.
0
0 λk
∗ 
0 . . . 0 λk+1
0 . . . . . . 0 λk+1
Dabei haben wir die Induktionsvoraussetzung auf die k × k-Matrix mit den Diagonaleinträgen λ2 bis λk+1 angewendet.
Satz 8.1.13 Sei A ∈ MatK (n, n) eine Matrix und A> ∈ MatK (n, n), die zu A transponierte Matrix, dann gilt
det A = det A> .
150
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Beweis. Wir können leicht nachprüfen, dass der Satz für 2 × 2-Matrizen gilt:
a b
a c
>
det A = det
= ad − bc
det A = det
= ad − cb = ad − bc.
c d
b d
Für größere Matrizen kann mithilfe des Entwicklungssatzes ebenso die Aussage überprüft
werden.
Korollar 8.1.14 Für elementare Zeilenumformungen gelten dieselben Rechenregeln, die
in Satz 8.1.3 für elementare Spaltenumformungen fomuliert wurden.
Das heißt für eine Determinantenfunktion det gilt:
1) Multipliziert man eine Zeile mit einem Skalar, dann ändert sich die Determinante
um genau diesen Faktor.
2) Beim Vertauschen zweier Zeilen ändert die Determinante ihr Vorzeichen.
3) Addiert man das λ-fache der Zeile j zur Zeile i, wobei i 6= j, dann ändert das die
Determinante nicht.
Beweis. Durch das Transponieren werden die Zeilen und die Spalten der Matrix vertauscht.
Da dies die Determinante nicht ändert, bedeutet das, dass für Zeilen dieselben Regeln wie
für Spalten gelten.
Beispiel 8.1.15 Wir berechnen die Determinante einer 3 × 3-Matrix auf verschiedene
Art und Weisen.
Sarrusregel:


1 2 −2
det  0 2 −2 = 1 · 2 · 2 + 2 · (−2) · (−3) + (−2) · 0 · 1
−3 1 2
− (−2) · 2 · (−3) + (−2) · 1 · 1 + (2) · 2 · 0
= 4 + 12 + 0 − 12 − (−2) − 0 = 6
Entwicklung nach der ersten Spalte:


1 2 −2
2 −2
2 −2
2 −2


det 0 2 −2 = 1 · det
− 0 · det
+ (−3) · det
1 2
1 2
2 −2
−3 1 2
= (2 · 2 − (−2) · 1) − 0 + (−3) · 0 = 6
Entwicklung nach

1 2
det  0 2
−3 1
der zweiten Zeile:

−2
2 −2
1 −2
1 2

−2 = −0 · det
+ 2 · det
− (−2) · det
1 2
−3 2
−3 1
2
= 0 + 2(1 · 2 − (−2) · (−3)) + 2(1 · 1 − 2 · (−3)) = −8 + 14 = 6
151
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Umformen zu einer Dreiecksmatrix durch elementare Zeilenumformungen






·3
1
2 −2
1 2 −2
1 2 −2




·(−7)
= det 0 2 −2 = 2 det 0 1 − 1
det  0
2 − 2
0
7
−4
−3 1
2
←
−+
−+
0 7 −4 ←


1 2 −2


= 2 det 0 1 − 1 = 2 · 1 · 1 · 3 = 6
0 0
3
Umformen zu einer Dreiecksmatrix durch elementare Spaltenumformungen
·(−2)
+
y


1
2

det  0
2
−3 1


+
y




2 0
1
0 0





− 2 = det  0
2 0 = det  0
2 0 = 1 · 2 · 3 = 6
2
−3 1 3
−3 7 3
−2
1
Alle Methoden führen zu demselben Ergebnis.
Für größere Matrizen ist es oft sinnvoll die verschiedenen Methoden zum Berechnen einer
Determinante zu kombinieren. So kann man durch eine Zeilenumformung viele Nullen in
einer Zeile erreichen, nach der man dann Entwickeln kann.
Außerdem sollte man immer zuerst prüfen, ob zum Beispiel zwei Spalten gleich sind oder
sich nur um ein Skalar unterscheiden, denn dann ist die Determinante null, unabhängig
davon wie kompliziert die anderen Einträge der Matrix erscheinen.
Bemerkung 8.1.16 Für 2 × 2 und 3 × 3-Matrizen können wir der Determinante eine
geometrische Interpretation geben.
Und zwar entspricht der Flächeninhalt des Parallelogramms, das von den Vektoren
v1 , v2 ∈ R2 aufgespannt wird, dem Betrag der Determinante | det(v1 , v2 )|. Um zu sehen,
dass der Flächeninhalt den gleichen Regeln wie die Determinante gehorcht, betrachten
wir die einzelnen Regeln für die Determinantenfunktion:
1
6
6
e2
*
v2 *
e1
-
1
Die Standardbasis erzeugt ein Quadrat der Seitenlänge 1 und daher
auch vom Flächeninhalt 1. Dies
stimmt überein mit det(e1 , e2 ) = 1.
v1
Zwei linear abhängige Vektoren liegen auf einer Gerade und erzeugen daher kein Parallelogramm, somit ist der Flächeninhalt null, in
Übereinstimmung mit der Eigenschaft, dass
die Determinante linear abhängiger Vektoren
null ist.
152
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
*
v2 *
2v1
v
1
Bei dem von den Vektoren 2v1 und v2 erzeugten Parallelogramm ist eine Seite genau doppelt so lang im
Vergleich zu dem durch v1 und v2 erzeugten Parallelogramm. Somit ist auch der Flächeninhalt genau doppelt so groß. Dies stimmt überein mit der Rechenregel
| det(2v1 , v2 )| = |2 det(v1 , v2 )|.
*
v2 v1+v2
*
v1
Das von den Vektoren v1 und v1 + v2 erzeugte
Parallelogramm entsteht aus dem von v1 und v2
erzeugten durch eine “Scherung”, so dass sich
der Flächeninhalt nicht ändert. Dies passt zu
| det(v1 , v1 + v2 )| = | det(v1 , v2 )|.
Für eine 3 × 3-Matrix mit den Spaltenvektoren v1 , v2 , v3 ∈ R3 entspricht der Betrag der
Determinante | det(v1 , v2 , v3 )| dem Volumen, des von den Vektoren erzeugten Spats.
Definition 8.1.17 Wir bezeichnen eine Matrix als regulär, wenn sie invertierbar ist.
Die Menge der regulären n × n-Matrizen heißt Gln (K), eine Teilmenge davon sind die
Matizen mit Determinante 1.
Gln (K) := {A ∈ MatK (n, n) | det A 6= 0},
Sln (K) := {A ∈ MatK (n, n) | det A = 1}.
Dabei steht Gl für General linear group und Sl für Special linear group.
Satz 8.1.18 Die Menge Gln (K) ist eine Gruppe mit der Matrixmultiplikation als Verknüpfung.
Beweis. Das neutrale Element der Gln (K) ist die Einheitsmatrix En . Die Existenz von
Inversen ist genau die Definition der Elemente von Gln (K). Das Assoziativgesetz wurde in
Satz 7.1.5 bewiesen.
Die Gln (K) ist die Gruppe der Einheiten (s. Def. 4.3.10) im Ring der quadratischen
Matrizen MatK (n, n).
Satz 8.1.19 Die Determinante ist ein Gruppenhomomorphimus von der Gln (K) in die
multiplikative Gruppe K × .
det : Gln (K) → K × ,
das heißt es gilt
det(A · B) = det A · det B.
(8.2)
153
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Beweis. Für den Beweis verwenden wir Satz 7.1.24, der besagt, dass jede invertierbare
Matrix ein Produkt von Elementarmatrizen ist. Können wir also zeigen, dass Formel (8.2)
für alle Elementarmatrizen A gilt, dann haben wir die Formel für alle regulären Matrizen
gezeigt.
Da aber die Multiplikation von links mit Elementarmatrizen (s. Def. 7.1.20) elementaren
Zeilenumformungen entspricht, genügt es zu prüfen, ob die Rechenregeln aus Korollar
8.1.14 mit den Determinanten für die entsprechenden Elementarmatrizen übereinstimmen.
1) Sei A = Diag(1, . . . , 1, λ, 1, . . . , 1), wobei λ in der i-ten Zeile steht, dann ist det A = λ,
da A eine Dreiecksmatrix ist.
Die Multiplikation von links mit A entspricht dem Multiplizieren der i-ten Zeile von
B mit λ und wir wissen aus Korollar 8.1.14, dass dann det(AB) = λ det B gilt, dies
ist aber gleich det A · det B = λ det B.
2) Sei A = Tij eine Vertauschungsmatrix. Dann ist die Determinante det Tij = −1. Dies
sieht man wie folgt:
In allen Spalten und Zeilen außer i und j entsprechen die Einträge von Tij einer
Einheitsmatrix. Entwickeln wir also die Matrix schrittweise nach all diesen Zeilen,
dann sehen wir , dass det Tij = det T̃ gilt, wobei
0 1
0 1
und det
= 0 − 1 = −1.
T̃ =
1 0
1 0
Die Multiplikation von links mit A entspricht dem Vertauschen der i-ten und j-ten
Zeile von B, wodurch sich das Vorzeichen der Determinante von B ändert. Es gilt
also det(AB) = − det B = det Tij · det B.
3) Ist A = Mij (λ), dann ist det A = 1, da A eine obere Dreiecksmatrix mit den
Diagonaleinträgen 1 ist.
Die Multiplikation von links mit A entspricht dem Addieren des λ-fachen der j-ten
Zeile zur i-ten Zeile von B. Dies ändert die Determinante nicht, also gilt det(AB) =
det B = det A det B.
Bemerkung 8.1.20 Die Formel det AB = det A det B gilt auch für nichtinvertierbare
Matrizen.
Denn ist det A = 0, dann ist der Rang von A kleiner als n, aber dann hat auch das
Produkt AB einen Rang, der kleiner als n ist und somit gilt
0 = det(AB) = det A det B = 0 · det B = 0.
Korollar 8.1.21 Für eine invertierbare Matrix A ∈ Gln (K) gilt:
det(A−1 ) =
1
= det(A)−1 .
det A
154
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.1. DETERMINANTEN
Beweis. Es gilt A · A−1 = En und damit det(A−1 ) det A = det(A · A−1 ) = det En = 1,
woraus die Behauptung folgt.
Bemerkung 8.1.22 Die Sln (K) ist der Kern der Abbildung det : Gln (K) → K × und
damit eine Untergruppe der Gln (K).
Definition 8.1.23 Sei A ∈ MatK (n, n) eine Matrix, dann heißt die Matrix
A# ∈ MatK (n, n), die zu A adjungierte Matrix und hat die Einträge
i+j
a#
Mji .
ij = (−1)
Der Eintrag der i-ten Zeile und j-ten Spalte von A# ist also ±1 mal die Unterdeterminante
die durch Streichen der i-ten Spalte und der j-ten Zeile von A berechnet wird.
Satz 8.1.24 Sei A ∈ MatK (n, n), dann gilt
A · A# = det A · En .
Beispiel 8.1.25 Wir können die zu einer 2 × 2-Matrix inverse Matrix berechnen. Sei
a b
also A =
, dann ist
c d
Ã11 = (d),
Ã12 = (c),
Ã21 = (b)
und Ã22 = (a).
Diese 1 × 1-Matrizen sind gleich ihrer Determinante und somit erhalten wir
M11 = d,
M12 = c,
M21 = b und M22 = a.
(−1)1+1 M22 (−1)1+2 M21
d −b
A =
=
.
(−1)2+1 M12 (−1)2+2 M11
−c a
#
Und somit können wir die zu A inverse Matrix angeben
1
d −b
−1
A =
.
ad − bc −c a
Sie existiert, vorausgesetzt det A = ad − bc ist ungleich null.
Satz 8.1.26 (Cramersche Regel)
Sei A ∈ MatK (n, n) invertierbar und b ∈ K n . Es bezeichnen a1 , . . . , an die Spalten von
A.
155
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Die Lösung x ∈ K n des linearen Gleichungssystems Ax = b ist durch
xk =
det(a1 , . . . , ak−1 , b, ak+1 , . . . , an )
,
det(A)
gegeben, für k = 1, . . . , n.
8.2. Eigenwerte und Eigenvektoren
In diesem Abschnitt wollen wir erste Antworten auf die zu Beginn von Kapitel 8 formulierte
Fragestellung, ob und unter welchen Vorraussetzungen Matrizen zu Diagonalmatrizen
ähnlich sind, geben.
Definition 8.2.1 Sei A ∈ MatK (n, n). Wir bezeichnen A als diagonalisierbar, wenn
A ähnlich zu einer Diagonalmatrix ist, d. h. wenn es eine Matrix T ∈ Gln (K) gibt, so
dass gilt:
T · A · T −1 = Diag(λ1 , . . . , λn ), λi ∈ K.
Ein Endomorphismus F : V → W heißt diagonalisierbar, wenn es eine Basis B von V
gibt, so dass die Darstellungsmatrix von F bezüglich dieser Basis Diagonalform hat
MBB (F ) = Diag(λ1 , . . . , λn ),
λi ∈ K.
Diese beiden Definitionen sind gleichbedeutend, denn wenn A die Darstellungsmatrix
eines Endomorphismus zu einer beliebigen Basis ist, dann ist A ähnlich zu jeder anderen
Darstellungsmatrix des Endomorphismus.
2 0
Beispiel 8.2.2 Sei A =
eine Diagonalmatrix, dann lässt sich das Bild der
0 −3
Standardbasisvektoren unter der Abbildung F : K → K, x 7→ Ax besonders einfach
berechnen. Es gilt
2
0
Ae1 =
= 2e1 und Ae2 =
= −3e2 .
0
−3
Die Basisvektoren werden also auf ein Vielfaches von sich selbst abgebildet.
Dies ist die Motivation der folgenden Definition:
Definition 8.2.3 (Eigenwerte & Eigenvektoren)
• Es sei F : V → V ein Endomorphismus. Eine Zahl λ ∈ K wird Eigenwert von F
genannt, wenn es einen vom Nullvektor verschiedenen Vektor v ∈ V, v 6= 0V gibt,
so daß
F v = λv
(8.3)
gilt. Ein derartiger Vektor heißt Eigenvektor von F zum Eigenwert λ.
156
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
• Sei A ∈ MatK (n, n). Dann ist v ∈ K n , mit v 6= 0 ein Eigenvektor von A, falls ein
λ ∈ K existiert mit Av = λv. Den Skalar λ nennen wir dann Eigenwert von A.
Die Eigenwertgleichung (8.3) enthält mit der Zahl λ sowie mit dem Vektor v zwei Unbekannte, die auf der rechten Seite als Produkt auftreten.
Wichtig ist dabei, dass der Eigenvektor v nie der Nullvektor ist, wohingegen ein Eigenwert
λ = 0 möglich ist.
Satz 8.2.4 Eine Matrix A ∈ MatK (n, n) ist genau dann diagonalisierbar, wenn es eine
Basis des K n gibt, die aus Eigenvektoren von A besteht.
Beweis. Sei A diagonalisierbar, das heißt es gibt eine Matrix T ∈ Gln (K), so dass
T AT −1 = Diag(λ1 , . . . , λn ) = D gilt. Dies ist gleichbedeutend mit AT −1 = T −1 D. Die
Spalten von T −1 bilden eine Basis B = {b1 , . . . , bn } des K n , da T und somit auch T −1
invertierbar ist. Die i-te Spalte von AT −1 entspricht also Abi und ist gleich der i-te Spalte
von T −1 D. Multiplikation von links mit der Diagonalmatrix D entspricht der Multiplikation
der i-ten Spalte von T −1 mit dem i-ten Diagonaleintrag von D (s. Prop. 7.1.21). Also ist
die i-te Spalte von T −1 D durch λi bi gegeben, das heißt Abi = λi bi , und somit besteht B
aus Eigenvektoren von A.
Besitzt der K n eine Basis B bestehend aus Eigenvektoren von A, dann berechnen wir die
Darstellungsmatrix MBB (F ) der linearen Abbildung F : K n → K n , x 7→ Ax bezüglich B.
Die Spalten von MBB (F ) sind die Koordinaten der Bilder F (bi ) bezüglich der Basis B. Da
aber F (bi ) = λi bi ist, da bi ein Eigenvektor von A ist, gilt MB (F (bi )) = MB (λi bi ) = λi ei .
Und somit ist MBB (F ) eine Diagonalmatrix mit den Eigenwerten auf der Diagonale. Die
Basiswechselmatrix T −1 ist dadurch definiert, dass ihre Spalten die Vektoren aus B sind.
Nun wollen wir die Frage klären, wie wir die Eigenwerte und Eigenvektoren einer Matrix
berechnen können.
Definition 8.2.5 (Charakteristisches Polynom einer Matrix)
Es sei A ∈ MatK (n, n) eine quadratische Matrix. Dann ist durch
χA (t) := det(A − tEn )
ein Polynom χA (t) ∈ K[t] definiert. Man nennt χA das charakteristische Polynom der
Matrix A.
Gelegentlich wird das charakteristische Polynom auch durch
det(tEn − A) = (−1)n det(A − tEn )
definiert. Dieses hat die gleichen Nullstellen wie χA .
Lemma 8.2.6 Sei A ∈ MatK (n, n), dann ist χA (t) ein Polynom vom Grad n.
Beweis.
157
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Beispiel 8.2.7 Sei

1
−1
A=
0
2
0
3
1
2
2
0
0
1

0
0

1
0
Wir wollen das charakteristische Polynom χA (t) berechnen.




1 0 2 0
1 0 0 0
−1 3 0 0



 − t 0 1 0 0
χA (t) = det 
 0 1 0 1
0 0 1 0
2 2 1 0
0 0 0 1



 

1−t
0
2
0
t 0 0 0
1 0 2 0
 −1 3 − t 0
−1 3 0 0 0 t 0 0
0



 

= det 
 0 1 0 1 − 0 0 t 0 = det  0
1
−t 1 
2
2
1 −t
0 0 0 t
2 2 1 0




1−t
0
2
1−t
0
2
= − det  −1 3 − t 0 + (−t) det  −1 3 − t 0 
2
2
1
0
1
−t
= − (1 − t)(3 − t) − 4 − 4(3 − t) − t (1 − t)(3 − t)(−t) − 2
= −t2 + 4t − 3 + 4 + 12 − 4t − t(−t3 + 4t2 − 3t − 2)
= t4 − 4t3 + 2t2 + 2t + 13
Dabei haben wir die Determinante der 4 × 4-Matrix nach der vierten Spalte entwickelt.
Satz 8.2.8 Sei A ∈ MatK (n, n), dann sind die Nullstellen des charakteristischen Polynoms χA sind genau die Eigenwerte der Matrix A.
Beweis. Es sei λ ∈ K eine Nullstelle des charakteristischen Polynoms von A. Also ist
χA (λ) = det(A − λEn ) = 0. Demnach hat die Matrix A − λEn nicht vollen Rang. Da die
Matrix A − λEn quadratisch ist, folgt aus Korollar 7.3.20, dass es eine nichttriviale Lösung
0 6= v ∈ K n für das homogene lineare Gleichungssystem (A − λEn )v = 0 gibt. Durch
Umstellen dieser Gleichung erhalten wir Av = (λEn )v = λv. Also ist λ ein Eigenwert von A.
Sei umgekehrt λ ein Eigenwert von A. Dann exisiert ein 0 6= v ∈ K n , sodass Av = λv.
Durch Umstellen dieser Gleichung erhalten wir Av − λv = (A − λEn )v = 0. Da v 6= 0
besitzt dieses Gleichungsystem eine nichttriviale Lösung und die Matrix (A − λEn ) hat
nicht vollen Rang (s. Korollar 7.3.20). Demnach ist det(A − λEn ) = 0, also λ eine Nullstelle
des charakteristischen Polynoms von A.
An dieser Stelle wissen wir alles, was wir brauchen um die Eigenwerte und Eigenvektoren
eine Matrix A zu bestimmen:
1. Berechne das charakteristische Polynom χA (t)
2. Bestimme die Nullstellen von χA (t), dies sind die Eigenwerte λ1 , . . . , λk von A.
158
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
3. Bestimme für jeden Eigenwert λi die Lösungsmenge des LGS (A − λi En )v = 0. Jeder
Vektor v 6= 0V dieser Menge ist ein Eigenvektor von A zum Eigenwert λi .
Satz 8.2.9 Ähnliche Matrizen besitzen das gleiche charaktistische Polynom, d.h. es gilt
für alle A ∈ MatK (n, n) und T ∈ Gln (K):
χA (t) = χT AT −1 (t)
Beweis.
χT AT −1 (t) = det T AT −1 − tEn
Definition des charakteristischen Polynoms
En = T T −1
Satz 7.1.7
Einfügen der Einheitsmatrix ändert nichts
Ausklammern von T
Ausklammern von T −1
Satz 8.1.19
Korollar 8.1.21
Kommutativität in K
Definition des charakteristischen Polynoms
= det T AT −1 − tT T −1
= det T AT −1 − T tT −1 )
= det T AT −1 − T tEn T −1 )
= det T (AT −1 − tEn T −1
= det T (A − tEn )T −1
= det(T ) det(A − tEn ) det(T −1 )
= det(T ) det(A − tEn ) det(T )−1
= det(A − tEn )
= χA (t)
Eine Konsequenz dieses Satzes ist die Tatsache, dass wir die Eigenwerte eines Endomorphismus berechnen können, indem wir die Eigenwerte eine beliebigen Darstellungsmatrix
MBB (F ) bestimmen. Wählen wir eine andere Basis C, dann ist die neue Darstelungsmatrix
MCC (F ) ähnlich zu der ursprünglichen und hat somit dasselbe charakteristische Polynom.
Satz 8.2.10 Sei A ∈ MatK (n, n) eine obere oder untere Dreieckmatrix. Dann sind die
Eigenwerte von A durch die Diagonaleinträge gegeben.
Beweis. Wenn A eine Dreiecksmatrix mit den Diagonaleinträgen aii ist, dann ist (A − tEn )
eine Dreiecksmatrix mit den Diagonaleinträgen aii − t. Aufgrund von Satz 8.1.12 die
Determinante von (A − tEn ) das Produkt ihrer Diagonaleinträge und somit gilt
det(A − tEn ) =
n
Y
(aii − t)
i=1
und damit λi = aii die Nullstellen des charakteristischen Polynoms.
Satz 8.2.11 Sei A ∈ MatK (n, n) diagonalisierbar, dann zerfällt das charakteristische
Polynom χA (t) in Linearfaktoren.
159
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Beweis. Da A diagonalisierbar ist, gibt es eine Matrix T ∈ Gln (K), so dass T AT −1 =
Diag(λ1 , . . . , λn ) = D gilt. Aufgrund von Satz 8.2.9 gilt χA (t) = χD (t). Das charakteristische
Polynom der Diagonalmatrix D wiederum ist aufgrund von Satz 8.2.10 durch
Qn
(t
−
λi ) gegeben.
i=1
Beispiel 8.2.12 Sei A = (aij ) ∈ MatR (2, 2). Dann ist das charakteristische Polynom
a11 − λ
a12 det(A − λEn ) = = (a11 − λ)(a22 − λ) − a12 a21
a21
a22 − λ
= λ2 − (a11 + a22 ) λ + a11 a22 − a12 a21 .
|
{z
}
| {z }
:=q
:=p
Also erhält man die Eigenwerte von A via
λ1/2
p
=− ±
2
r p 2
2
− q.
Beispiel 8.2.13 Wir betrachten jetzt drei 2 × 2-Matrizen über dem Körper R von denen
wir (sofern möglich) die Eigenwerte und Eigenvektoren berechnen wollen, um dann zu
prüfen ob die Matrizen diagonalisierbar sind.
1.
A=
2 −1
−2 1
charakteristisches Polynom:
2 −1
1 0
χA (t) = det(A − tE2 ) = det
−t
−2 1
0 1
2 −1
t 0
2 − t −1
= det
−
= det
−2 1
0 t
−2 1 − t
= (2 − t)(1 − t) − 2 = t2 − 2t − t + 2 − 2
= t2 − 3t = t(t − 3).
Eigenwerte: Die Nullstellen von χA (t) sind die Eigenwerte von A und durch
λ1 = 0
und λ2 = 3
gegeben.
Eigenvektor zu λ1 = 0: Wir müssen die Lösungsmenge des homogenen linearen
Gleichungssystems (A − λ1 E2 )v = 0 berechnen. Es ist A − λ1 E2 = A und
somit benötigen wir die Lösungsmenge von
2 −1 | 0
2 −1 | 0
−2 1 | 0
0 0 | 0
160
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Wir setzen x2 = r und erhalten x1 = 12 x2 = 12 r und somit ist die Lösungsmenge
durch
1
L(A − λ1 E2 , 0) = {v ∈ R2 | v = r · 2 , r ∈ R}
1
1
gegeben. Wir wählen den Vektor v1 =
in dieser Menge.
2
Eigenvektor zu λ2 = 3: Wir müssen die Lösungsmenge des homogenen linearen
Gleichungssystems (A − λ2 E2 )v = 0 berechnen. Es ist
A − λ2 E2 =
2 −1
3 0
−1 −1
−
=
−2 1
0 3
−2 −2
und somit benötigen wir die Lösungsmenge des LGS
−1 −1 | 0
−1 −1 | 0
−2 −2 | 0
0
0 | 0
Wir setzen x2 = r und erhalten x1 = −x2 = −r und somit ist die
Lösungsmenge durch
−1
2
L(A − λ2 E2 , 0) = {v ∈ R | v = r ·
, r ∈ R}
1
−1
gegeben. Wir wählen den Vektor v2 =
in dieser Menge.
1
Basis aus Eigenvektoren? Die Vektoren v1 und v2 sind linear unabhängig und bilden daher eine Basis des R2 . Das bedeutet, dass die Matrix A diagonalisierbar
ist.
2.
2 −1
B=
0 2
charakteristisches Polynom:
2 −1
t 0
−
0 2
0 t
χB (t) = det(B − tE2 ) = det
2 − t −1
= det
= (2 − t)(2 − t) = (2 − t)2 .
0
2−t
Eigenwerte: Die Nullstellen von χB (t) sind die Eigenwerte von B und durch λ = 2
gegeben. Dies kann man auch ohne die Berechnung des charakteristischen
Polynoms erkennen, da B eine Dreiecksmatrix mit den Diagonaleinträgen 2
ist (s. Satz 8.2.10).
Eigenvektor zu λ = 2: Wir müssen die Lösungsmenge des homogenen linearen
Gleichungssystems (B − λE2 )v = 0 berechnen. Es ist
B − λE2 =
2 0
0 −1
2 −1
−
=
0 2
0 2
0 0
161
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
und somit benötigen wir die Lösungsmenge von
0 −1 | 0
0 0 | 0
Wir setzen x1 = r und somit ist die Lösungsmenge durch
1
2
L(B − λE2 , 0) = {v ∈ R | v = r ·
, r ∈ R}
0
1
gegeben. Wir wählen den Vektor v =
in dieser Menge.
0
Basis aus Eigenvektoren? Gibt es nicht, da alle Eigenvektoren ein Vielfaches von
v sind, wir aber zwei linear unabhängige Vertoren benötigen um eine Basis
von R2 zu haben.
3.
0 −1
C=
1 0
charakteristisches Polynom:
χC (t) = det(C − tE2 ) = det
0 −1
t 0
−t −1
−
= det
1 −t
1 0
0 t
= (−t)(−t) − (−1) = t2 + 1
Eigenwerte: Das charakteristische Polynom χC (t) = t2 + 1 hat keine Nullstellen
in den reellen Zahlen und somit auch keine Eigenwerte.
Basis aus Eigenvektoren? Da es keine reellen Eigenwerte gibt, gibt es auch keine
Eigenvektoren dazu.
Wir haben in dem Beispiel Matrizen gesehen, die exemplarisch für die zwei verschiedenen
Arten von Problemen stehen, die verhindern, dass eine Matrix diagonalisierbar ist:
1. Das charakteristische Polynom zerfällt nicht in Linearfaktoren (Matrix C).
2. Es gibt nicht genügend linear unabhängige Eigenvektoren zu einem Eigenwert (Matrix
B).
Das erste Problem hängt von dem Körper ab über dem die Matrix betrachtet wird. Arbeitet
man über K = R, dann hat A keine Eigenwerte, wenn das charakteristische Polynom
keine (reellen) Nullstellen besitzt. Über K = C besitzt ein Polynom n-ten Grades immer
n Nullstellen (s. Satz 5.5.3). Allerdings sind diese Nullstellen für Polynome vom Grad
größer als 4 meist nur noch numerisch auffindbar. Eine allgemeine Lösungsformel mit
Wurzelausdrücken existiert nicht.
Satz 8.2.14 (Lineare Unabhängigkeit von Eigenvektoren)
Es sei F : V → V ein Endomorphismus. v1 , ..., v` ∈ V seien Eigenvektoren von F
zu den paarweise verschiedenen Eigenwerten λ1 , ..., λ` ∈ K. Dann sind v1 , ..., v` linear
unabhängig.
162
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Beweis. Der Beweis wird per Induktion geführt.
Induktionsanfang: Da jeder Eigenvektor per Definition verschieden vom Nullvektor ist, ist
{v1 } ⊂ V linear unabhängig.
Induktionsschritt: Wir nehmen an, daß die Behauptung für k ∈ {1, ..., `−1} bereits verifiziert
ist und zeigen, daß sie dann auch für k + 1 wahr sein muß. Nach Induktionsannahme sind
also v1 , ..., vk linear unabhängig, d.h. es besteht die Äquivalenz
α1 v1 + ... + αk vk = 0V
⇔
α1 = ... = αk = 0 .
(8.4)
Betrachten wir nun die Gleichung
β1 v1 + ... + βk vk + βk+1 vk+1 = 0V .
(8.5)
Es ist zu zeigen, daß diese Gleichung nur für β1 = ... = βk = βk+1 = 0 bestehen kann. Durch
Anwenden von F auf die Gleichung (8.5) erhalten wir unter Ausnutzung der Linearität
von F und der Eigenvektoreigenschaft der v1 , ..., vk+1 :
F (β1 v1 + ... +
βk vk +
⇐⇒ β1 F (v1 ) + ... + βk F (vk ) +
⇐⇒
β1 λ1 v1 + ... +
βk+1 vk+1 ) = F (0V .)
βk+1 F (vk+1 ) = 0V ,
βk λk vk + βk+1 λk+1 vk+1 = 0V ,
Ebenfalls aus Gleichung (8.5), allerdings durch Multiplikation mit λk+1 erhalten wir
β1 λk+1 v1 + ... + βk λk+1 vk + βk+1 λk+1 vk+1 = 0V ,
Subtraktion dieser beiden Gleichungen liefert
β1 (λ1 − λk+1 )v1 + ... + βk (λk − λk+1 )vk = 0V ,
wobei sich der vk+1 enthaltende Term weghebt. Aufgrund der Induktionsvoraussetzung
(8.4) folgt βi (λi − λk+1 ) = 0 für i ∈ {1, ..., k}. Da die Eigenwerte paarweise verschieden
sind, gilt λi − λk+1 6= 0; also βi = 0 für alle i ∈ {1, ..., k}.
Durch Einsetzen in Gleichung (8.5) erhalten wir βk+1 vk+1 = 0V , was aufgrund der Tatsache,
dass vk+1 6= 0V ist βk+1 = 0 liefert.
Satz 8.2.15 Sei A ∈ MatK (n, n). Besitzt A genau n paarweise verschiedene Eigenwerte,
dann ist A diagonalisierbar.
Beweis. Aufgrund von Satz 8.2.4 ist eine Matrix A ∈ MatK (n, n) genau dann diagonalisierbar, wenn es eine Basis des K n bestehend aus Eigenvektoren von A gibt. Wenn A nun
n verschiedenen Eigenwerte hat, dann gibt es zu jedem Eigenwert auch einen Eigenvektor.
Diese n Vektoren sind aufgrund von Satz 8.2.14 linear unabhängig und bilden somit eine
Basis des K n .
Taucht im charakteristischen Polynom eine Nullstelle mehrfach auf, so ist die Matrix nicht
zwangsläufig diagonalisierbar. Wir wollen uns im folgenden damit beschäftigen genau die
Bedingungen zu beschreiben, die erfüllt sein müssen damit eine Matrix diagonalisierbar ist,
auch wenn sie weniger als n Eigenwerte besitzt.
163
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Definition 8.2.16 Sei A ∈ MatK (n, n) und λ ∈ K ein Eigenwert von A. Die
Lösungsmenge des homogenen linearen Gleichungssystems (A − λEn )v = 0 wird Eigenraum zum Eigenwert λ genannt
Eig(A, λ) := L(A − λEn , 0) = Kern(A − λEn ).
Jeder Vektor v ∈ Eig(A, λ), v 6= 0V ist ein Eigenvektor von A zum Eigenwert λ.
Die Dimension des Eigenraum Eig(A, λ) heißt die geometrische Vielfachheit von λ,
welche mit γ(A, λ) abgekürzt wird. Es gilt also
γ(A, λ) = dim Eig(A, λ).
Da der Eigenraum der Kern der Matrix A − λEn ist, erhalten wir aufgrund der Dimensionsformel für Kern und Bild (s. Satz 7.3.19)
γ(A, λ) = dim Eig(A, λ) = dim Kern(A − λEn ) = n − Rang(A − λEn ) .
(8.6)
Satz 8.2.17 Sei A ∈ MatK (n, n), dann ist A genau dann invertierbar, wenn 0 kein
Eigenwert von A ist.
Beweis. Wenn 0 ein Eigenwert von A ist, dann ist dim Eig(A, 0) = Kern(A − 0En ) =
Kern(A) > 0, also ist A nicht injektiv und daher nicht invertierbar.
Wenn 0 kein Eigenwert von A ist, dann ist dim Eig(A, 0) = Kern(A − 0En ) = Kern(A) = 0.
Somit ist A injektiv und aufgrund von Korollar 7.3.20 auch surjektiv und damit invertierbar.
Definition 8.2.18 (Algebraische Vielfachheit von Eigenwerten)
Es sei λ Eigenwert einer Matrix A ∈ MatK (n, n). Die Vielfachheit von λ als Nullstelle (s. Def. 4.4.5) des charakteristischen Polynoms χA nennt man die algebraische
Vielfachheit des Eigenwerts λ. Diese wird mit α(A, λ) bezeichnet. Es gilt dann
χA (t) = (t − λ)α(A,λ) φ(t),
wobei das Polynom φ keine Nullstelle in λ hat, d.h. φ(λ) 6= 0.
Satz 8.2.19 (Algebraische versus geometrische Vielfachheit)
Für jeden Eigenwert λ einer Matrix A ∈ MatK (n, n) gilt, daß die geometrische Vielfachheit höchstens so groß ist wie die algebraische, d.h.
γ(A, λ) ≤ α(A, λ) .
164
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Beweis. Es sei r := γ(A, λ) die geometrische Vielfachheit des Eigenwertes λ. Dann gilt per
Definition r = dim Eig(A, λ). Es sei b1 , ..., br eine Basis des Eigenraumes Eig(A, λ) zum
Eigenwert λ, d.h. b1 , ..., br sind sämtlich Eigenvektoren von A zum Eigenwert λ. Aufgrund
des Basisergänzungssatzes (s. Satz 6.2.19) kann diese zu einer Basis von ganz V durch
Vektoren br+1 , ..., bn ergänzt werden. Bezüglich dieser Basis B = b1 , ..., bn besitzt der
Endomorphismus F : K n → K n , x 7→ Ax die Matrixdarstellung von folgender Form
B
λIr
à = MBB (F ) =
,
O(n−r),r C
mit einer Matrix B ∈ MatK (r, n − r), der quadratischen Matrix C ∈ MatK (n − r, n − r)
und der Matrix O(n−r),r ∈ MatK (n − r, r), deren Einträge alle null sind. Diese Darstellung
ergibt sich aufgrund der Tatsache, dass die erste r Vektoren von B Eigenvektoren zum
Eigenwert λ sind (siehe dazu auch Beweis von Satz 8.2.4).
Da die Matrix à in den ersten r Spalten nur Einträge auf der Diagonale hat, gilt dasselbe
für à − tEn . Entwickeln wir die Determinante dieser Matrix Schritt für Schritt nach den
ersten r Spalten erhalten wir:
χA (t) = χà (t) = (t − λ)r · χC (t)
Somit ist die algebraische Vielfachheit mindestens gleich r. Da nicht ausgeschlossen ist, daß
λ auch Nullstelle des charakteristischen Polynoms der Matrix C ist, folgt die Behauptung.
Satz 8.2.20 A ∈ MatK (n, n) ist genau dann diagonalisierbar, wenn χA (t) in Linearfaktoren zerfällt und wenn für alle Eigenwerte λ von A gilt:
γ(A, λ) = α(A, λ) .
(8.7)
Beweis. Sei die Matrix A diagonalisierbar. Dann wissen wir aus Satz 8.2.11, dass das
charakteristische Polynom χA (t) in Linearfaktoren zerfällt.
χA (t) = ±(t − λ1 )α(A,λ1 ) · . . . · (t − λr )α(A,λr )
Es bleibt also Gleichung (8.7) zu zeigen.
Da zum einen γ(A, λi ) die Dimension des Eigenraums zum Eigenwert λi ist, also die
Anzahl der linear unabhängigen Eigenvektoren zu λi und zum anderen Eigenvektoren zu
verschiedenen Eigenwerte linear unabhängig sind, gibt es
γ(A, λ1 ) + . . . + γ(A, λr ).
linear unabhängige Eigenvektoren von A. Da A ∈ MatK (n, n) diagonalisierbar ist, ist diese
Zahl gleich n (s. Satz 8.2.4).
Nun gilt aber für den Grad des charakteristischen Polynoms ebenfalls
deg χA (t) = n = α(A, λ1 ) + . . . + α(A, λr ).
Da wir wissen, dass für jeden Eigenwert γ(A, λi ) ≤ α(A, λi ) gilt, ist die Gleichheit
α(A, λ1 ) + . . . + α(A, λr ) = n = γ(A, λ1 ) + . . . + γ(A, λr )
165
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
nur möglich, wenn für jeden Eigenwert die Gleichheit (8.7) gilt.
Umgekehrt nehmen wir an, dass χA (t) in Linearfaktoren zerfällt und dass Gleichung (8.7)
für alle Eigenwerte gilt. Dies bedeutet, dass es genau
γ(A, λ1 ) + . . . + γ(A, λr ) = α(A, λ1 ) + . . . + α(A, λr ) = n
linear unabhängige Eigenvektoren gibt, das heißt die Eigenvektoren von A bilden eine Basis
des K n und somit ist A diagonalisierbar.
Korollar 8.2.21 Eine Matrix A ist genau dann diagonalisierbar, wenn gilt
K n = Eig(A, λ1 ) ⊕ · · · ⊕ Eig(A, λk )
wobei λ1 , . . . , λk die paarweise verschiedenen Eigenwerte von A sind.
Wollen wir nun prüfen, ob eine Matrix A ∈ MatK (n, n) diagonalisierbar, dann gehen wir
nach folgendem Schema vor:
1. Berechnen des charakteristischen Polynoms χA (t)
• χA (t) zerfällt nicht in Linearfaktoren über K
• χA (t) zerfällt in Linearfaktoren über K
A ist nicht diagonalisierbar.
nächster Schritt
2. Berechnen der Eigenwerte (Wenn A Dreiecksform hat, dann sind die Eigenwerte die
Diagonaleinträge und können direkt abgelesen werden)
• Die Eigenwerte sind paarweise verschieden
A ist diagonalisierbar.
• Die Eigenwerte sind nicht paarweise verschieden
nächster Schritt
3. Berechne für alle Eigenwerte λ mit algebraischer Vielfachheit α(A, λ) > 1 die geometrische Vielfachheit γ(A, λ).
• Gilt für alle Eigenwerte α(A, λ) = γ(A, λ)
A ist diagonalisierbar.
• Gibt es mindestens einen Eigenwert für den gilt α(A, λ) > γ(A, λ)
diagonalisierbar.
A ist nicht
Beispiel 8.2.22 Betrachten wir nun noch einmal die Matrizen aus Beispiel 8.2.12. Wir
können jetzt schneller zu den Ergebnissen kommen.
1. Es ist χA (t) = t(t − 3), somit hat die Matrix A zwei verschiedene Eigenwerte und
ist diagonalisierbar.
2. Es ist χB (t)= (t − 2)2 , also ist die algebraische Vielfachheit α(B, 2) = 2, aber da
0 −1
B − 2E2 =
ist der Rang dieser Matrix gleich eins und somit γ(B, 2) =
0 0
2 − Rang(B − 2E2 ) = 1 (s. Gl. 8.6). Dies bedeutet dass γ(B, 2) < α(B, 2) und
somit ist die Matrix B nicht diagonalisierbar.
3. Es ist χC (t) = t2 + 1, dieses Polynom zerfällt nicht in Linearfaktoren, also ist C
nicht diagonalisierbar.
166
KAPITEL 8. DETERMINANTEN UND DIAGONALISIERBARKEIT
8.2. EIGENWERTE UND EIGENVEKTOREN
Beispiel 8.2.23 Wir betrachten die Matrix


0 2 −1
A = 2 −1 1 
2 −1 3
und wollen untersuchen, ob sie diagonalisierbar ist. Dafür berechnen wir zunächst ihr
charakteristischen Polynom (zur Berechnung der Determinante addieren wir das Negative
der zweiten Zeile zur dritten und wenden erst danach die Regel von Sarrus an)




−t
2
−1
−t
2
−1
1  = det  2 −1 − t
1 
χA (t) = det  2 −1 − t
2
−1
3−t
0
t
2−t
= t(t + 1)(2 − t) − 2t + t2 − 4(2 − t)
= t(t + 1)(2 − t) − t(2 − t) − 4(2 − t) = (2 − t) t2 + t − t − 4
= −(t − 2)(t2 − 4) = −(t − 2)(t − 2)(t + 2)
= −(t − 2)2 (t + 2)
Die Matrix hat also die Eigenwerte λ1 = 2 und λ2 = −2 mit den algebraischen Vielfachheiten α(A, 2) = 2 und α(A, −2) = 1. Die Matrix ist also genau dann diagonalisierbar,
wenn auch γ(A, 2) = 2 ist (die geometrische Vielfachheit γ(A, −2) ist auf jeden Fall
gleich 1, da sonst −2 kein Eigenwert wäre. )
Da wir nur wissen wollen, ob die Matrix diagonalisierbar ist, sparen wir es uns die Eigenvektoren konkret auszurechnen, sondern verwenden die Formel (8.6). Dafür benötigen
wir den Rang der Matrix

 

−3
2
−1
−3 2 −1
1  =  2 −4 1 
A − 2E3 =  2 −1 − 3
2
−1
3−3
2 −1 0
Der Rang dieser Matrix ist größer als 1, da zum Beispiel die erste und die zweite Spalte
linear unabhängig sind. Da der Rang nicht 3 sein kann, denn es gilt ja det(A − 2E3 ) =
χA (2) = 0, muss er also 2 sein und daher ist
γ(A, 2) = 3 − Rang(A − 2E3 ) = 3 − 2 = 1
woraus wir schließen, dass die Matrix A nicht diagonalisierbar ist.
167
9. Bilinearformen, Skalarprodukte und
der Spektralsatz
In den bisherigen Kapitel haben wir uns mit Vektorräumen in ihrer allgemeinsten Form
beschäftigt. Nun wollen wir Vektorräume betrachten, die eine zusätzliche Struktur besitzen betrachten. Diese Struktur ist ein sogenanntes Skalarprodukt, bzw. allgemeiner
eine Bilinearform, die es erlaubt zwei Vektoren eine Zahl zuzuordnen. Das Skalarprodukt
kann dann genutzt werden um Längen von Vektoren und Winkel zwischen zwei Vektoren
auszurechnen. Insbesondere der Begriff der Orthogonalität wird eine wichtige Rolle spielen.
Diese zusätzliche Struktur, werden wir aber nicht nur zur Definition geometrischer Begriffe
benutzen. Sie erlaubt es auch spezielle Matrizen zu betrachten und deren Eigenwerte zu
analysieren.
Wir erinnern daran, dass wir Vektoren aus dem v ∈ K n immer als “stehende” Vektoren
betrachten, wohingegen v > ein “liegender” Vektor ist
 
v1
 .. 
v =  .  v > = (v1 . . . vn ).
vn
Insbesondere ist v ∈ K n = MatK (n, 1) eine n × 1 Matrix und v > ∈ MatK (1, n) eine 1 × n
Matrix, so dass wir das Matrixprodukt v > · v, bzw. allgemeiner v > · w für v, w ∈ K n
bilden können und das Ergebnis eine 1 × 1 Matrix, also eine Skalar, eine Zahl aus dem
Grundkörper K ist
 
w1
n
 ..  X
>
v · w = (v1 . . . vn ) ·  .  =
vi wi ∈ K.
i=1
wn
9.1. Bilinearformen
Definition 9.1.1 Seien V, W zwei K-Vektorräume. Eine Abbildung
B :V ×W →K
(v, w) 7→ B(v, w)
heißt Bilinearform, falls B bei fester zweiter Variable in der ersten Variable K-linear
ist und umgekehrt, d. h. es gilt für alle v, v 0 ∈ V, w, w0 ∈ W und λ, µ ∈ K:
B(λv + µv 0 , w) = λB(v, w) + µB(v 0 , w)
B(v, λw + µw0 ) = λB(v, w) + µB(v, w0 ).
168
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
Durch sukzessive Anwendung der Bilinearität, sehen wir dass für Summen von n Vektoren
gilt:
n
n
n
n
X
X
X
X
B(
λi vi , w) =
λi B(vi , w) und B(v,
λi wi ) =
λi B(v, wi )
i=1
i=1
i=1
i=1
Beispiel 9.1.2
• Sei V = W = K 2 , dann ist B(v, w) = det(v, w) eine Bilinearform
(s. Def. 8.1.2).
P
• Sei V = W = K n , dann ist B(v, w) = ni=1 vi wi = v > · w eine Bilinearform, das
sogenannte Standardskalarprodukt. Die Bilinearität folgt aus dem Distributivgesetz der Matrixmultiplikation 7.1.6 und Satz 7.1.7
B(v + v 0 , w) = (v + v 0 )> · w = (v > + v 0> ) · w = v > · w + v 0> · w = B(v, w) + B(v 0 , w)
B(λv, w) = (λv)> · w = λv > · w = λB(v, w)
Die Bilinearität in der zweiten Komponente folgt durch eine analoge Rechnung.
• Sei V = W = K 2 , dann ist
2 1
w1
2w1 + w2
B(v, w) = (v1 v2 )
= (v1 v2 )
= 2v1 w1 +v1 w2 +v2 w1 +2v2 w2
w2
w1 + 2w2
1 2
ebenfalls eine Bilinearform. Die Bilinearität folgt wie für das Standardskalarprodukt
aus dem Distributivgesetz für die Matrixmultiplikation 7.1.6 und Satz 7.1.7, kann
aber auch direkt nachgerechnet werden.
Definition 9.1.3 Eine Bilinearform B : V × W → K heißt nicht ausgeartet wenn
gilt:
i) Wenn B(v, w) = 0 für alle v ∈ V , dann muss gelten w = 0.
ii) Wenn B(v, w) = 0 für alle w ∈ W , dann muss gelten v = 0.
Sonst heißt die Bilinearform ausgeartet.
Damit eine Bilinearform ausgeartet ist, genügt es nicht irgendwelche v ∈ V und w ∈ W
zu finden sodass B(v, w) = 0 gilt. Sondern es muss einen Vektor v ∈ V, v =
6 0V geben,
sodass B(v, w) = 0 für alle w ∈ W ist, bzw. es muss ein w ∈ W, w 6= 0W geben, sodass
B(v, w) = 0 für alle v ∈ V ist.
Wir bemerken, dass aufgrund der Linearität immer B(v, 0W ) = 0 und B(0V , w) = 0 gilt,
denn
B(v, 0W ) = B(v, 0 · w) = 0 · B(v, w) = 0
Beispiel 9.1.4 Sei V = W = R3 , dann definieren wir zwei Bilinearformen durch
B1 (v, w) = v1 w1 + v2 w2 + v3 w3
und B2 (v, w) = v1 w1 + v2 w2 .
169
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
B1 ist das Standardskalarprodukt und ist nicht ausgeartet, da für jeden Vektor
v ∈ V, v 6= 0V gilt: B(v, v) = v12 + v22 + v32 > 0. Also kann für ein v ∈ V nicht
B(v, w) = 0 für alle w ∈ V gelten, da ja für w = v auf jeden Fall B(v, v) > 0 gilt, es sei
denn v = 0V .
Die Bilinearform B2 hingegen ist ausgeartet, da zum Beispiel für den Vektor v = (0, 0, 1)>
gilt B2 (v, w) = 0 · w1 + 0 · w2 = 0 für alle w ∈ V .
Definition 9.1.5 Eine Bilinearform B : V × V → K heißt symmetrisch, wenn für alle
v, w ∈ V gilt:
B(v, w) = B(w, v).
Sie heißt alternierend, wenn gilt B(v, w) = −B(w, v).
Beispiel 9.1.6 Das Standardskalarprodukt ist symmetrisch, denn es gilt aufgrund der
Kommutativität in K
B(v, w) =
n
X
v i wi =
i=1
n
X
wi vi = B(w, v).
i=1
Die Determinante ist alternierend, da sie beim Vertauschen zweier Spalten das Vorzeichen
ändert det(v, w) = − det(w, v) (s. Satz 8.1.3).
Definition 9.1.7 Seien V, W endlichdimensionale K-Vektorräume mit den Basen
C = {c1 , . . . , cn }, bzw. C 0 = {c01 , . . . , c0m } und sei B : V × W → K eine Bilinearform.
Wir definieren eine Matrix S ∈ MatK (n, m) mit den Einträgen
Sij = B(ci , c0j ).
Lemma 9.1.8 Die Matrix S bestimmt eindeutig die Bilinearform B : V × W → K
durch die Vorschrift
B(v, w) = x> · S · y,
wobei x = MC (v) und y = MC 0 (w) die Koordinaten der Vektoren v und w bezüglich der
Basen C und C 0 sind.
Beweis. Seien v ∈ V und w
MC 0 (w) bezüglich
der Basen
Pm
0
und w =
j=1 yj cj gilt (s.
einsetzen und erhalten unter
B(v, w) = B(
n
X
i=1
xi ci , w) =
∈ W Vektoren mit den Koordinaten x = MC (v) P
und y =
C von V , bzw. C 0 von W , das bedeutet, dass v = ni=1 xi ci
Bsp. 7.3.3). Dann können wir dies in die Bilinearform B
Ausnutzung der Bilinearität:
n
X
i=1
xi B(ci , w) =
n
X
i=1
xi B(ci ,
m
X
j=1
yj c0j ) =
n X
m
X
xi B(ci , c0j )yj .
i=1 j=1
170
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
Dies entspricht aber genau dem Ergebnis der Matrixmultiplikation

  
B(c1 , c01 ) . . . B(c1 , c0m )
y1



.
.
. 
>
.
..
..
..
x · S · y = (x1 , . . . , xn ) · 
 ·  .. 
B(cn , c01 ) . . . B(cn , c0m )
ym


B(c1 , c01 )y1 + · · · + B(c1 , c0m )ym


..
= (x1 , . . . , xn ) · 

.
B(cn , c01 )y1 + · · · + B(cn , c0m )ym
= x1 B(c1 , c01 )y1 + · · · + B(c1 , c0m )ym + · · · + xn B(cn , c01 )y1 + · · · + B(cn , c0m )ym
n X
m
X
=
xi B(ci , c0j )yj
i=1 j=1
• Wir betrachten die Bilinearform
Beispiel 9.1.9
v 1 w1
det : K × K → K, (v, w) 7→ det(v, w) = det
= v 1 w2 − v 2 w1 .
v 2 w2
2
2
Wir wählen die Standardbasis des K 2 , die durch {e1 , e2 } gegeben ist und berechnen
die Matrix S.
det(e1 , e1 ) det(e1 , e2 )
0 1
=
.
S=
det(e2 , e1 ) det(e2 , e2 )
−1 0
Nun überprüfen wir, dass wir durch die Matrix wieder die Bilinearform
zurückgewinnen können
0 1
w1
w2
>
det(v, w) = v Sw = (v1 v2 ) ·
= (v1 v2 ) ·
= v 1 w2 − v 2 w1 .
−1 0
w2
−w1
• Sei V = K n und B(v, w) = v > · w das Standardskalarprodukt, dann gilt für die
Standardbasisvektoren {e1 , . . . , en }
B(ei , ej ) = 0
für i 6= j
und B(ei , ei ) = 1
für alle i.
Also erhalten wir S = En die Einheitsmatrix. Dies können wir leicht überprüfen,
denn es gilt
B(v, w) = v > · En · w = v > · w.
• In Beispiel 9.1.4 haben wir auf R3 die Bilinearform B2 (v, w) = v1 w1 + v2 w2
betrachtet. Wir können nachrechnen, dass diese durch

 
1 0 0
w1
B2 (v, w) = (v1 v2 v3 ) 0 1 0 w2 
0 0 0
w3
gegeben ist.
Nun wollen wir die Eigenschaften der Bilinearform in Eigenschaften der Matrix S übersetzen.
171
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
Satz 9.1.10 Seien V, W endlich dimensionale K-Vektorräume mit Basen C =
{c1 , . . . , cn }, bzw. C 0 = {c01 , . . . , c0m }. Eine Bilinearform B : V × W → K ist genau
dann nicht ausgeartet, wenn dim V = dim W gilt und die Matrix S = (B(ci , c0j )) invertierbar ist.
Beweis. Seien wieder x = MC (v) und y = MC 0 (w) die Koordinaten der Vektoren v ∈ V
und w ∈ W . Dann ist die Bilinearform durch B(v, w) = x> Sy gegeben.
Wir nehmen an, dass v ∈ V ein Vektor ist, so dass B(v, w) = 0 für alle w ∈ W . Das
bedeutet, dass
x> Sy = 0 für alle y ∈ K m ⇒ x> S = 0
Dies sieht man zum Beispiel durch Einsetzen der Standardbasisvektoren y = ei ∈ K m ,
denn das liefert, dass die i-te Komponente des liegenden Vektors x> S null sein muss. Durch
Transponieren erhalten wir
x> S = 0
⇐⇒
S > x = 0.
Da wir vorausgesetzt haben, dass die Bilinearform B nicht ausgeartet ist, muss nun aus
S > x = 0 folgen, dass x = 0 ist. Dies ist gleichbedeutend mit der Injektivität der linearen
Abbildung K n → K m , x 7→ S > x. Diese Abbildung kann aber nur dann injektiv sein, wenn
n ≤ m gilt (s. Korollar 7.3.21).
Nun nehmen wir an, dass w ∈ W ein Vektor ist, so dass B(v, w) = 0 für alle v ∈ V . Das
bedeutet, dass
x> Sy = 0 für alle x ∈ K n ⇒ Sy = 0.
Die Voraussetzung, dass B nicht ausgeartet ist, bedeutet nun, dass aus Sy = 0 folgen muss,
dass y = 0 gilt, also, dass die lineare Abbildung K m → K n , y 7→ Sy injektiv ist. Somit
muss m ≤ n gelten (s. Korollar 7.3.21).
Insgesamt erhalten wir also dim V = n = m = dim W . Aus Korollar 7.3.20 folgt nun, dass
K m → K n , y 7→ Sy bijektiv ist, und somit ist die Matrix S invertierbar.
Umgekehrt, ist S bijektiv, dann ist auch S > bijektiv, da aufgrund von Satz 8.1.13
0 6= det S = det S > gilt, also beide Abbildungen insbesondere injektiv sind.
Definition 9.1.11 Sei A ∈ MatK (n, n) eine quadratische Matrix. Wir nennen A symmetrisch, wenn sie gleich ihrer Transponierten ist
A = A> ,
das heißt, dass die i-te Zeile von A gleich der i-ten Spalte von A ist für alle i = 1, . . . , n.
Eine symmetrische Matrix ändert sich also nicht, wenn sie an der Hauptdiagonale gespiegelt
wird.
Beispiel 9.1.12
• 1 × 1-Matrizen, also Skalare, sind immer symmetrisch.
• Diagonalmatrizen sind symmetrisch.
172
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
• Die Matrizen
1 2
A=
,
2 −3


0 −1 2
B = −1 5 −3
2 −3 1

1
0
und C = 
0
−1
0
2
2
0

0 −1
2 0

0 4
4 10
sind symmetrisch.
Satz 9.1.13 Eine Bilinearform B : V × V → K ist genau dann symmetrisch, wenn die
Matrix S symmetrisch ist.
Beweis. Seien wieder x = MC (v) und y = MC (w) die Koordinaten der Vektoren v, w ∈ V
bezüglich der Basis C von V . Dann ist die Bilinearform durch B(v, w) = x> Sy gegeben.
Also ist einerseits B(v, w) = x> Sy und andererseits
B(w, v) = y > Sx = (y > Sx)> = x> S > y.
Dabei haben wir benutzt, dass B(v, w) ∈ K liegt und somit durch Transponieren nicht
verändert wird. Außerdem haben wir Satz 7.1.13 über die Transponierte eines Produkts
verwendet. Es ist also
x> Sy = x> S > y
und somit muss S = S > gelten, wie man durch Einsetzen der Standardbasisvektoren ei für
x und y erkennt.
Umgekehrt, wenn S = S > gilt, dann können wir sehen, dass die Bilinearform symmetrisch
ist, denn
B(w, v) = y > Sx = (y > Sx)> = x> S > y = x> Sy = B(v, w)
Satz 9.1.14 Sei V ein K-Vektorraum der Dimension n, B : V ×V → K eine Bilinearform
und C = {c1 , . . . , cn }, C̃ = {c̃1 , . . . , c̃n } zwei Basen von V . Wir definieren zwei Matrizen
S, S̃ ∈ MatK (n, n) mit den Einträgen
Sij = B(ci , cj )
und S̃ij = B(c̃i , c̃j ).
Dann gibt es eine Matrix T ∈ Gln (K) sodass gilt:
S̃ = T · S · T > .
Beweis. Sei T = (Tij ) ∈ Gln (K) die Matrix die durch
c̃i =
n
X
Tik ck
k=1
173
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
definiert ist. Dies benutzen wir um die Einträge der Matrix S̃ mithilfe von denen von S
und T auszudrücken:
S̃ij = B(c̃i , c̃j ) = B(
n
X
Tik ck ,
k=1
=
=
n X
n
X
k=1 `=1
n X
n
X
n
X
Tj` c` )
`=1
Tik B(ck , c` )Tj`
Tik Sk` T`j> = (T · S · T > )ij .
k=1 `=1
Da diese Gleichheit für alle i, j = 1, . . . , n richtig ist, erhalten wir die gewünschte Gleichheit
von Matrizen S̃ = T · S · T > .
Da wir nun wissen wie sich Bilinearformen unter Basiswechsel verhalten, können wir uns
dieselbe Frage stellen, die wir bereits für lineare Abbildungen gestellt haben: Gibt es eine
Basis von V sodass die Matrix S Diagonalform hat?
Definition 9.1.15 Sei B : V × V → K eine symmetrische Bilinearform.
• Zwei Vektoren v, w ∈ V heißen orthogonal zueinander, wenn B(v, w) = 0 gilt.
• Eine Basis C von V , bestehend aus paarweise zueinander orthogonalen Vektoren
heißt Orthogonalbasis von V bezüglich B. Für diese Basis gilt also
B(ci , cj ) = 0
für alle i, j ∈ {1, . . . , n} mit i 6= j.
Die zugehörige Matrix S zu einer Orthogonalbasis bezüglich B hat also nur auf der
Diagonale Einträge, die nicht null sein können.
Für den Beweis der Existenz einer Orthogonalbasis benötigen wir zunächst die Definition
des Orthokomplements.
Definition 9.1.16 Sei B : V × V → K eine symmetrische Bilinearform und M ⊆ V
eine Teilmenge von V , dann heißt die Menge
M ⊥ = {v ∈ V | B(v, w) = 0 ∀w ∈ M }
das Orthokomplement von M in V .
Das Orthokomplement von M enthält also alle Vektoren aus V die zu allen Vektoren aus
M orthogonal sind.
Lemma 9.1.17 Sei B : V × V → K eine symmetrische Bilinearform und M ⊆ V eine
Teilmenge von V , dann ist das Orthokomplement M ⊥ ein Untervektorraum von V .
Beweis. Wir müssen zeigen, dass die Menge M ⊥ abgeschlossen bezüglich der Addition und
der Skalarmultiplikation ist (s. Def. 6.1.5). Seien dafür v, v 0 ∈ M ⊥ und λ, λ0 ∈ K, dann ist
174
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
B(v, w) = B(v 0 , w) = 0 für alle w ∈ M per Definition von M ⊥ . Aufgrund der Linearität
der ersten Komponente der Bilinearform gilt
B(λv + λ0 v 0 , w) = λB(v, w) + λ0 B(v 0 , w) = λ0 + λ0 0 = 0.
und somit liegt auch λv + λ0 v 0 ∈ M ⊥ .
Lemma 9.1.18 Sei B : V × V → K eine symmetrische Bilinearform. Sei v ∈ V ein
Vektor für den B(v, v) 6= 0 gilt und U := LH(v) die lineare Hülle von v, das heißt die
Menge aller Vielfachen von v. Dann gilt
U ⊕ U ⊥ = V.
Beweis. Um zu zeigen, dass der Vektorraum V eine direkte Summe von U und seinem
Orthokomplement ist, müssen wir zunächst zeigen, dass jeder Vektor w ∈ W sich als
Summe eines Vektors aus U und eines Vektors aus U ⊥ schreiben lässt (s. Def. 6.3.3).
Es gilt offensichtlich für jedes w ∈ V
B(w, v)
B(w, v)
w=
v+ w−
v = w1 + w2 .
B(v, v)
B(v, v)
Wir beachten dabei dass B(w, v), B(v, v) ∈ K und nach Voraussetzung B(v, v) 6= 0 gilt.
Also ist B(w,v)
B(v,v) ∈ K ein Skalar. Der Vektor w1 ist also ein Vielfaches von v und liegt somit
in U .
Um zu zeigen, dass w2 ∈ U ⊥ müssen wir zeigen, dass B(w2 , u) = 0 für alle u ∈ U . Da
aber U = LH(v) = {u ∈ V | u = λv für ein λ ∈ K} und da aufgrund der Bilinearität
B(w2 , u) = B(w2 , λv) = λB(w2 , v) gilt, genügt es zu zeigen, dass B(w2 , v) = 0. Wir
rechnen nun also
B(w, v)
v, v
B(w2 , v) = B w −
B(v, v)
B(w, v)
= B(w, v) −
B (v, v) = B(w, v) − B(w, v) = 0.
B(v, v)
Wir haben somit bewiesen, dass V = U + U ⊥ eine Summe ist. Um zu zeigen, dass diese
Summe direkt ist müssen wir noch zeigen, dass U ∩ U ⊥ = {0V } gilt. Ein Vektor u ∈ U ∩ U ⊥
liegt einerseits in U , ist also von der Form u = λv, andererseits liegt er in U ⊥ , es gilt also
B(u, u0 ) = 0 für alle u0 = λ0 v ∈ U . Aufgrund der Bilinearität gilt nun
B(u, u0 ) = B(λv, λ0 v) = λλ0 B(v, v).
Da nach Voraussetzung B(v, v) 6= 0 kann B(u, u0 ) = 0 nur dann für alle u0 ∈ U , das heißt
für alle λ0 ∈ K gelten, wenn λ = 0 ist. Dies bedeutet aber, dass u = 0V ist und somit
U ∩ U ⊥ = {0V }.
Beispiel 9.1.19 Sei V = R2 versehen mit der Bilinearform
1 0
w1
B(v, w) = v > · Diag(1, −1) · w = (v1 v2 )
= v 1 w1 − v 2 w2
0 −1
w2
175
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
Der Vektor w = (1 1) hat die Eigenschaft B(w, w) = 12 − 12 = 0 und ist also orthogonal
zu sich selbst.
Der Vektor v = (2 1) hat die Eigenschaft B(v, v) = 22 − 12 = 3 und somit können wir
zum Beispiel durch
B(w, v)
1 1
1 2
1
w2 = w −
=
v=
−
1
B(v, v)
3 1
3 2
einen zu v orthogonalen Vektor konstruieren
1 0
2
1
1
2
1 2
1 2
B(w2 , v) =
=
= 0.
0 −1
1
−1
3
3
Satz 9.1.20 Sei K ein Körper in dem 2 6= 0 ist und V ein K Vektorraum endlicher
Dimension, dann besitzt jede symmetrische Bilinearform B : V × V → K eine Orthogonalbasis.
Beweis. Ist die Bilinearform identisch null, das heißt gilt B(v, w) = 0 für alle v, w ∈ V ,
dann ist jede Basis eine Orthogonalbasis und es ist nichts zu zeigen.
Sei also B nicht identisch null, dann gibt es einen Vektor v ∈ V mit B(v, v) 6= 0. Um dies
zu sehen benutzen wir die Formel
B(v + w, v + w) = B(v, v + w) + B(w, v + w)
= B(v, v) + B(v, w) + B(w, v) + B(w, w)
(9.1)
= B(v, v) + 2B(v, w) + B(w, w).
Denn angenommen B(v, v) wäre null für alle v ∈ V , dann wäre nach Formel (9.1) auch
B(v, w) = 0 für alle v, w (hier verwenden wir, dass 2 6= 0 ist), aber dies wiederspricht
unserer Annahme.
Sei also v ∈ V mit B(v, v) 6= 0 und U = LH(v), dann gilt U ⊕ U ⊥ = V aufgrund von
Lemma 9.1.18. Nun können wir mithilfe vollständiger Induktion nach der Dimension des
Vektorraums V argumentieren. Denn angenommen {b1 , . . . , bn−1 } ist eine Orthogonalbasis
von U ⊥ , dann gilt B(v, bi ) = 0 für alle i = 1, . . . , n − 1 und somit ist {b1 , . . . , bn−1 , v} ist
eine Orthogonalbasis von V . Der Induktionsanfang ist trivial, da eine Basis bestehend aus
einem Vektor immer orthogonal ist.
Die Bedingung 0 6= 2 schließt von den uns bekannten Körpern lediglich F2 = {0, 1} aus.
Außerdem gilt sie nicht in Körpern, die F2 als Teilmenge enthalten.
Korollar 9.1.21 Sei K ein Körper in dem 2 6= 0 ist und sei S = S > ∈ MatK (n, n) eine
symmetrische Matrix, dann existiert eine Matrix T ∈ Gln (K) sodass gilt:
T · S · T > = Diag(λ1 , . . . , λn ),
(9.2)
wobei λi ∈ K.
176
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.1. BILINEARFORMEN
Beweis. Sei B : V × V → K eine symmetrische Bilinearform und C = {c1 , . . . , cn }
eine Basis von V , so dass Sij = B(ci , cj ) gilt. Aufgrund von Satz 9.1.20 gibt es eine
Orthogonalbasis C̃ = {c̃1 , . . . , c̃0n } von V bezüglich B. Dann ist S̃ = Diag(λ1 , . . . , λn ),
wobei die Diagonaleinträge durch B(c˜i , c˜i ) = λi definiert sind. Aufgrund von Satz 9.1.14
gibt es eine Matrix T ∈ Gln (K) sodass Gleichung (9.2) gilt.
Satz 9.1.22 (Satz von Sylvester)
Sei K = R und B : V × V → R eine symmetrische nicht ausgeartete Bilinearform. Dann
gibt es eine Basis {c1 , . . . , cn } von V sodass die Matrix S = (Sij ) = (B(ci , cj )) die Form
S = Diag(1, . . . , 1, −1, . . . , −1)
mit r mal einer 1 und s mal einer −1 auf der Diagonale. Die Zahlen r und s hängen nur
von der Bilinearform B ab.
Beweis. Wir können zunächst Satz 9.1.20 anwenden der besagt, dass es eine Basis
C = {c1 , . . . , cn } von V gibt für den gilt: S = (Sij ) = B(ci , cj ) = Diag(λ1 , . . . , λn ).
Da nach Annahme die Bilinearform nicht ausgeartet ist, muss die Matrix S invertierbar
sein (s. Satz 9.1.10). Eine Diagonalmatrix ist aber genau dann invertierbar, wenn alle
Diagonaleinträge λi 6= 0 sind. Nun betrachten wir die Basis
C 0 = {c01 , . . . , c0n } = { p
1
1
c1 , . . . , p
cn }.
|λ1 |
|λn |
Dies ist ebenfalls eine Orthogonalbasis, da für i 6= j gilt:
1
1
1
1
p
ci , p
cj ) = p
B(ci , cj ) = 0
B(c0i , c0j ) = B( p
|λj |
|λi |
|λi | |λj |
Für die Diagonaleinträge wiederum gilt
1
1
1
1
1
p
λi = ±1
B(c0i , c0i ) = B( p
ci , p
ci ) = p
B(ci , ci ) =
|λ
|λi |
|λi |
|λi | |λi |
i|
Nun können wir noch die Reihenfolge der Elemente von C 0 so ändern, dass zuerst die
positiven Einträge und dann die negativen Einträge auf der Diagonale stehen.
Auf den Beweis dass die Anzahl der +1 und −1 nur von der Bilinearform und nicht von
der Orthogonalbasis abhängt, wollen wir hier verzichten.
1 2
Beispiel 9.1.23 Die Matrix A =
ist symmetrisch und hat den Rang 2, ist
2 −1
also invertierbar. Wir wollen eine Basis konstruieren, die bezüglich der Bilinearform
B(v, w) = v > Aw
die Form aus Satz 9.1.22 hat.
Dafür beginnen wir mit v = e1 , da B(e1 , e1 ) = 1 6= 0 und verwenden Lemma 9.1.18 um
einen zu e1 orthogonalen Vektor zu finden. Wir brauchen dafür einen beliebigen Vektor
177
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.2. SKALARPRODUKTE
w, der linear unabhängig zu e1 ist, zum Beispiel w = e2 und setzen nun
B(w, v)
2 1
−2
0
w2 = w −
=
v=
−
1
1
B(v, v)
1 0
Wir rechnen nun nach, dass gilt
1 2
−2
B(e1 , w2 ) = (1 0)
=0
2 −1
1
und
1 2
−2
B(w2 , w2 ) = (−2 1)
= −5
2 −1
1
Also hat die Bilinearform B für die Basis
v1 = e1 = 1 0
die Matrix
S=
1
1
v2 = √ w2 = √ −2 1
5
5
B(v1 , v1 ) B(v2 , v1 )
B(v1 , v2 ) B(v2 , v2 )
=
1 0
.
0 −1
9.2. Skalarprodukte
Ab sofort wollen wir Bilinearformen nur noch über dem Körper R der reellen Zahlen
betrachten.
Definition 9.2.1 Eine Bilinearform B : V × V → R heißt positiv definit, wenn
B(v, v) > 0 gilt für alle v ∈ V, v 6= 0V .
Lemma 9.2.2 Sei B : V × V → R eine positiv definite Bilinearform, dann ist B nicht
ausgeartet.
Beweis. Da B(v, v) > 0 gilt, kann für ein v ∈ V, v 6= 0V nicht gelten, dass B(v, w) = 0 für
alle w ∈ V .
Definition 9.2.3 Sei V ein Vektorraum über dem Körper R. Ein Skalarprodukt in
V ist eine symmetrische, positiv definite Bilinearform
h·, ·i : V × V → R
(v, w) 7→ hv, wi
Ein Vektorraum über dem Körper R mit einem Skalarprodukt V, h·, ·i heißt euklidischer Vektorraum.
178
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.2. SKALARPRODUKTE
P
Beispiel 9.2.4
• Sei V = Rn , das Standardskalarprodukt hv, wi = ni=1 vi wi =
v > · w ist ein Skalarprodukt. Wir haben bereits Bilinearität
und Symmetrie gezeigt.
Pn
2
Die positive Definitheit folgt direkt, da hv, vi = i=1 vi > 0, wenn v 6= 0.
• Sei wieder V = Rn und A ∈ Gln (K) eine invertierbare Matrix, dann ist
hv, wiA := hAv, Awi = (Av)> · (Aw) = v > A> Aw
ein Skalarprodukt, wobei wir hier mit h·, ·i das Standardskalarprodukt bezeichnen.
Die Bilinearität folgt aus dem Distributivgesetz der Matrixmultiplikation 7.1.6 und
Satz 7.1.7. Die Symmetrie folgt aus der Symmetrie des Standardskalarprodukts
hw, viA = hAw, Avi = hAv, Awi = hv, wiA .
Um zu sehen, dass h·, ·iA positiv definit ist, verwenden wir die Invertierbarkeit der
Matrix A. Denn daraus folgt, das für v 6= 0V auch Av = ṽ =
6 0V , also gilt
hv, viA = hAv, Avi = hṽ, ṽi > 0
aufgrund der positiven Definitheit des Standardskalarprodukts.
Definition 9.2.5 Sei V, h·, ·i ein euklidischer Vektorraum, dann heißt die Abbildung
k·k : V → R, v 7→ kvk =
p
hv, vi
die Normabbildung, bzw. die Norm des Vektors v.
Beispiel 9.2.6 Sei V = R2 mit dem Standardskalarprodukt hv, wi = v1 w1 + v2 w2 , dann
ist die Norm eines Vektors v = (x y)> ∈ R2 durch
p
p
kvk = hv, vi = x2 + y 2
gegeben. Das ist die Länge des Vektors v wie sie in der Schule meist mithilfe des Satzes
von Phythagoras berechnet wird.
Satz 9.2.7 (Cauchy-Schwarzsche Ungleichung)
p
Sei V, h·, ·i ein euklidischer Vektorraum mit Norm kvk = hv, vi, dann gilt für alle
v, w ∈ V
| hv, wi | ≤ kvkkwk.
Beweis. Ist w = 0V , dann ist die Ungleichung richtig, da auf beiden Seiten eine Null steht.
Wir nehmen also an, dass w 6= 0V und setzen λ = hv,wi
∈ R. Aufgrund der positiven
kwk2
179
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.2. SKALARPRODUKTE
Definitheit des Skalarprodukts gilt dann
0 ≤ hv − λw, v − λwi
= hv, vi − 2λ hv, wi + λ2 hw, wi
= kvk2 − 2
= kvk2 −
hv, wi
hv, wi2
hv,
wi
+
kwk2
kwk2
kwk4
hv, wi2
kwk2
Diese Ungleichung liefert uns hv, wi2 ≤ kvk2 kwk2 und durch Ziehen der Quadratwurzel,
dann die Cauchy-Schwarzsche Ungleichung.
Satz 9.2.8 Sei V, h·, ·i
Eigenschaften:
ein euklidischer Vektorraum, dann hat die Norm folgende
i) kvk ≥ 0 für alle v ∈ V
ii) kvk = 0 ⇐⇒ v = 0V
iii) kλvk = |λ|kvk für alle v ∈ V, λ ∈ K
iv) kv + wk ≤ kvk + kwk für alle v, w ∈ V
Die Ungleichung iv) heißt Dreiecksungleichung.
Beweis.
i) kvk ≥ 0 gilt aufgrund der positiven Definitheit des Skalarprodukts.
ii) k0V k = 0 gilt aufgrund der Bilinearität. Aufgrund der positiven Definitheit ist für
alle v 6= 0V die Norm kvk > 0.
iii) Es gilt aufgrund der Bilinearität
p
p
kλvk = hλv, λvi = λ2 hv, vi = |λ|kvk
iv) Um die Dreiecksungleichung zu zeigen, berechnen wir mithilfe der Cauchy-Schwarzschen
Ungleichung (wir verwenden, dass die Gleichung auch ohne Betragsstriche richtig
ist):
(kvk + kwk)2 = kvk2 + 2kvkkwk + kwk2
≥ kvk2 + 2 hv, wi + kwk2
= hv + w, v + wi = kv + wk2
Durch Ziehen der Quadratwurzel erhalten wir somit kvk + kwk ≥ kv + wk.
Definition 9.2.9 Sei V, h·, ·i ein euklidischer Vektorraum und v, w ∈ V Vektoren,
die nicht gleich dem Nullvektor sind, dann definiert man den Öffnungswinkel ϕ(v, w)
zwischen v und w durch
cos ϕ(v, w) =
hv, wi
kvkkwk
0 ≤ ϕ(v, w) ≤ π.
180
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.2. SKALARPRODUKTE
Aufgrund der Cauchy-Schwarzschen Ungleichung gilt
−1 ≤
hv, wi
≤1
kvkkwk
und da cos : [0, π] → [−1, 1] bijektiv ist, ist der Winkel ϕ(v, w) wohldefiniert.
Definition 9.2.10 Sei V, h·, ·i ein euklidischer Vektorraum, dann heißt eine Basis
B = {v1 , . . . , vn } von V Orthonormalbasis (abgekürzt ONB) von V , wenn B eine
Orthogonalbasis von V bezüglich h·, ·i ist und zusätzlich gilt
kvi k = 1
für alle vi ∈ B.
Definition 9.2.11 Das Kronecker-Delta ist ein Zeichen mit zwei Indizes, sodass gilt
(
1 wenn i = j
δij =
0 wenn i 6= j
Dabei liegen i, j in einer beliebigen Indexmenge, z. B. {1, . . . , n}.
Bemerkung 9.2.12 Mithilfe des
Kronecker-Deltas können wir eine Orthonormalbasis
einfach beschreiben. Sei V, h·, ·i ein euklidischer Vektorraum, dann ist {v1 , . . . , vn } eine
Orthonormalbasis von V , wenn gilt
hvi , vj i = δij ,
denn dies ist gleichbedeutend mit der Orthogonalitätsbedingung
hvi , vj i = 0
wenn i 6= j
und der Normierung
hvi , vi i = kvi k2 = 1.
Beispiel 9.2.13 Die Standardbasisvektoren e1 , . . . , en des Rn sind eine Orthonormalbasis bezüglich des Standardskalarprodukts.
Bemerkung 9.2.14 Sei V, h·, ·i ein euklidischer Vektorraum. Wir betrachten eine
Menge von Vektoren M = {v1 , . . . , vr } ⊂ V , die paarweise orthogonal zueinander
sind, das heißt wenn hvi , vj i = 0 für i 6= j gilt, und sodass 0V ∈
/ M . Unter diesen
Voraussetzungen sind die Vektoren aus M immer linear unabhängig.
181
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.2. SKALARPRODUKTE
Um dies zu zeigen betrachten wir eine Linearkombination des Nullvektors
λ1 v1 + · · · + λr vr = 0V
und berechnen das Skalarprodukt mit den Vektoren vi für alle i = 1, . . . , n.
hλ1 v1 + · · · + λr vr , vi i = h0V , vi i
λ1 hv1 , vi i + · · · + λi hvi , vi i + · · · + λr hvr , vi i = 0
λi hvi , vi i = 0
Da vi 6= 0V ist hvi , vi i > 0 und somit folgt daraus, dass λi = 0 sein muss. Also ist die
Linearkombination des Nullvektors trivial und somit die Vektoren linear unabhängig.
Lemma 9.2.15 Sei V, h·, ·i ein euklidischer Vektorraum und B = {v1 , . . . , vn } eine
Orthonormalbasis von V , dann gilt für jeden Vektor v ∈ V
v=
n
X
hv, vi i vi .
i=1
Beweis. Da B eine Basis von V ist, kann jeder
P Vektor v ∈ V eindeutig als Linearkombination
der Basisvektoren geschrieben werden v = ni=1 λi vi . Durch Berechnung des Skalarprodukt
von v mit den Basisvektoren sehen wir, dass gilt
hv, vi i = hλ1 v1 + · · · + λn vn , vi i = λ1 hv1 , vi i + · · · + λi hvi , vi i + · · · + λr hvn , vi i = λi .
Eine Orthonormalbasis ist also eine Basis für die man besonders einfach die Koeffizienten
berechnen kann um einen Vektor als Linearkombination dieser Basis zu schreiben.
Aber nun stellt sich die Frage, wie wir eine Orthonormalbasis berechnen können. Satz 9.1.20
liefert uns die Existenz einer Orthogonalbasis für allgemeine symmetrische Bilinearformen
und somit insbesondere auch für Skalarprodukte. Durch Normieren dieser Basisvektoren,
dass heißt durch das Teilen eines Vektors Vektors durch seine Norm, erhalten wir Vektoren
der Länge 1. Dies liegt an der allgemeinen Tatsache, dass für jeden Vektor v 6= 0V gilt,
1
1
dass der Vektor w = kvk
v die Norm 1 hat, da kwk = kvk
kvk = 1 gilt (s. Satz 9.2.8).
Einen Hinweis wie wir zu einem Vektor v 6= 0V einen zu ihm orthogonalen Vektor konstruieren liefert uns bereits Lemma 9.1.18. Zusammen erhalten wir so das Gram-Schmidtsche
Orthonormalisierungsverfahren.
Satz 9.2.16 (Das Gram-Schmidtsche Orthonormalisierungsverfahren)
Sei V, h·, ·i ein euklidischer Vektorraum und {v1 , . . . , vn } eine Basis von V , dann ist
{w1 , . . . , wn } eine Orthonormalbasis von V , wobei die Vektoren rekursiv durch
w1 =
1
v1 ,
kv1 k
w̃k+1 = vk+1 −
k
X
i=1
hvk+1 , wi i wi
wk+1 =
1
kw̃k+1 k
w̃k+1
182
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.2. SKALARPRODUKTE
definiert sind. Außerdem gilt:
LH(w1 , . . . , wk ) = LH(v1 , . . . , vk )
für alle k = 1, . . . , n.
Beweis. Zunächst bemerken wir, dass alle Vektoren wi die Norm 1 haben, da sie alle
normiert wurden.
Nun müssen wir die Orthogonalität der Vektoren wi prüfen. Aufgrund der rekursiven
Definition können wir annehmen, dass alle Vektoren w1 , . . . , wk orthogonal zueinander sind.
Nun müssen wir zeigen, dass w̃k+1 und damit auch wk+1 orthogonal zu allen w1 , . . . , wk
ist. Dafür berechnen wir für j ≤ k
*
+
k
X
hw̃k+1 , wj i = vk+1 −
hvk+1 , wi i wi , wj
i=1
= hvk+1 , wj i −
k
X
hvk+1 , wi i hwi , wj i
i=1
= hvk+1 , wj i − hvk+1 , wj i = 0.
Da wir wissen, dass sowohl die Vektoren {v1 , . . . , vn } als auch die Vektoren {w1 , . . . , wn }
eine Basis von V sind, gilt insbesondere
dim LH(w1 , . . . , wk ) = dim LH(v1 , . . . , vk )
für alle k = 1, . . . , n.
P
Da aber per definition w̃k+1 + ki=1 hvk+1 , wi i wi = vk+1 gilt, liegt vk+1 ∈ LH(w1 , . . . , wk+1 )
für alle k = 0, . . . , n − 1 und somit folgt die Gleichheit der Mengen.
Beispiel 9.2.17 Sei V = R2 zusammen mit dem Standardskalarprodukt. Wir wollen
ausgehend von der Basis
1
0
v1 =
v2 =
1
2
eine Orthonormalbasis von R2 bestimmen.
Im ersten Schritt berechnen wir die Norm von v1
p
√
kv1 k = 12 + 12 = 2
Also ist
1
1
w1 = √ v 1 = √
2
2
1
1
der erste Basisvektor der gesuchten ONB.
Für den zweiten Basisvektor berechnen wir zunächst
1
1
1 1
0
−1
w˜2 = v2 − hv2 , w1 i w1 = v2 − √ 2 w1 =
− √ 2√
=
2
1
1
2
2
2
Nun müssen wir diesen Vektor noch normieren
1
1
w2 =
w̃2 = √
kw̃2 k
2
−1
.
1
183
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.3. ORTHOGONALE ABBILDUNGEN
9.3. Orthogonale Abbildungen
Definition 9.3.1 Seien V, h·, ·iV und W, h·, ·iW euklidische Vektorräume. Eine lineare Abbildung F : V → W heißt orthogonal (oder isometrisch), wenn für alle
v, v 0 ∈ V gilt:
F (v), F (v 0 ) W = v, v 0 V .
Eine orthogonale Abbildung hat somit die Eigenschaften Längen von Vektoren und Winkel
zwischen Vektoren zu erhalten. Wir sehen durch Einsetzen von v = v 0 , dass Längen erhalten
werden
kF (v)k2W = hF (v), F (v)iW = hv, viV = kvk2V .
Und auch für Winkel gilt
cos ϕ(F (v), F (w)) =
hF (v), F (w)i
hv, wi
=
= cos ϕ(v, w).
kF (v)kkF (w)k
kvkkwk
Lemma 9.3.2 Seien V, h·, ·iV , W, h·, ·iW euklidische Vektorräume und F : V → W
eine orthogonal lineare Abbildung, dann ist F injektiv.
Beweis. Sei v ∈ Kern(F ), d. h. F (v) = 0W , dann gilt
0 = h0W , 0W iW = hF (v), F (v)iW = hv, viV = kvk2V .
Da aber kvkV = 0 nur gilt für v = 0V , erhalten wir Kern(F ) = {0V } und somit ist F
injektiv.
Korollar 9.3.3 Sei V, h·, ·iV eine euklidischer Vektorraum und F : V → V ein
orthogonaler Endomorphismus, dann ist F bijektiv.
Beweis. Aufgrund von Lemma 9.3.2 ist F injektiv und somit aufgrund von Korollar 7.3.21
auch surjektiv.
Definition 9.3.4 Sei V = Rn mit dem Standardskalarprodukt, dann ist
O(n) = {A ∈ MatR (n, n) | hAv, Awi = hv, wi ∀v, w ∈ Rn }
die Menge der orthogonalen Matrizen.
Proposition 9.3.5 Die Menge der orthogonalen Matrizen O(n) ist eine Untergruppe
der Gln (R).
184
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.3. ORTHOGONALE ABBILDUNGEN
Beweis. Eine orthogonale Matrix A ∈ O(n) liegt in der Gln (R), da die lineare Abbildung
Rn → Rn , x → Ax aufgrund von Korollar 9.3.3 bijektiv ist.
Die Einheitsmatrix En liegt in O(n), da hEn v, En wi = hv, wi gilt.
Sei A ∈ O(n), dann zeigen wir, dass auch A−1 ∈ O(n). Seien dafür v, w ∈ Rn , wir setzen
ṽ = A−1 v und w̃ = A−1 w, dann gilt
hv, wi = hAṽ, Aw̃i = hṽ, w̃i = A−1 v, A−1 w ,
wobei wir bei dem zweiten Gleichheitszeichen die Orthogonalität von A verwendet haben.
Seien A, B ∈ O(n), dann ist auch A · B ∈ O(n), denn es gilt
hABv, ABwi = hBv, Bwi = hv, wi ,
aufgrund der Orthogonalität von A und B.
Proposition 9.3.6 Sei V, h·, ·iV eine euklidischer Vektorraum und sei {v1 , . . . , vn }
eine Orthonormalbasis von V . Eine lineare Abbildung F : V → V ist genau dann
orthogonal, wenn {F (v1 ), . . . , F (vn )} eine Orthonormalbasis von V ist.
Beweis. Sei F : V → V orthogonal, dann gilt insbesondere
hF (vi ), F (vj )i = hvi , vj i = δij
für alle Basisvektoren, also ist {F (v1 ), . . . , F (vn )} eine Orthonormalbasis von V .
Sei umgekehrt {F (v1 ), . . . , F (vn )} eine Orthonormalbasis von V , das heißt es gilt
hF (vi ), F (vj )i = δij = hvi , vj i ,
(9.3)
da ja auch {v1 , . . . , vn } eine Orthonormalbasis von V ist. Seien
P v, w ∈ V Vektoren
P die wir
als Linearkombination der Basis {v1 , . . . , vn } schreiben: v = ni=1 λi vi und w = nj=1 µj vj ,
dann gilt:
*
+
n
n
X
X
hF (v), F (w)i = F (
λi vi ), F (
µj v j )
| Einsetzen von v, w
i=1
=
=
=
* n
X
λi F (vi ),
i=1
n
X
n
X
i=1
j=1
n
X
n
X
λi
i=1
=
+
µj F (vj )
| Linearität von F
j=1
λi
* n
X
j=1
n
X
µj hF (vi ), F (vj )i
| Bilinearität des Skalarprodukts
µj hvi , vj i
| Vorraussetzung (9.3)
j=1
λi vi ,
i=1
= hv, wi
n
X
+
µj v j
| Bilinearität des Skalarprodukts
j=1
| Definition von v, w
185
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.3. ORTHOGONALE ABBILDUNGEN
Korollar 9.3.7 Eine Matrix A ∈ MatR (n, n) liegt genau dann in O(n), wenn die Spalten
von A eine Orthonormalbasis bezüglich des Standardskalarprodukts des Rn bilden.
Beweis. Die Spalten von A sind genau die Bilder der Standardbasisvektoren. Da die
Standardbasisvektoren eine Orthonormalbasis des Rn bilden (s. Bsp. 9.2.13), folgt die
Aussage direkt aus Proposition 9.3.6.
Korollar 9.3.8 Sei eine Matrix A ∈ MatR (n, n) gegeben, dann sind für diese Matrix
folgende Aussagen äquivalent:
i) A ∈ O(n)
ii) Die Spalten von A bilden eine Orthonormalbasis des Rn bezüglich des Standardskalarprodukts.
iii) A> A = En
iv) A ist invertierbar und es gilt A−1 = A> .
v) AA> = En
vi) Die Zeilen von A bilden eine Orthonormalbasis des Rn bezüglich des Standardskalarprodukts.
Beweis. Die Äquivalenz von i) und ii) ist direkt durch Korollar 9.3.7 gegeben.
i)⇐⇒iii) Wenn A ∈ O(n), dann ist
v > En w = v > w = hv, wi = hAv, Awi = (Av)> (Aw) = v > A> Aw.
Durch Einsetzen der Standardbasisvektoren sehen wir, dass diese Gleichheit nur gelten
kann, wenn A> A = En gilt. Umgekehrt, wenn A> A = En gilt, dann ist aufgrund derselben
Rechung die Matrix A orthogonal.
iii)⇐⇒iv) Die Gleichung A> A = En ist genau die definierende Gleichung für die zu A
inverse Matrix.
iv)⇐⇒ v) Für die inverse Matrix gilt immer AA−1 = A−1 A = En und somit ist A−1 = A>
gleichbedeutend mit AA> = En .
v)⇐⇒vi) Wenn wir das Produkt zweier Matrizen M, N ∈ MatK (n, n) bilden, dann
ist der Eintrag in der i-ten Zeile und der j-ten Spalte des Produkt M N durch das
Standardskalarprodukt
der i-ten Zeile von M und der j-ten Spalte von N gegeben
P
(M · N )ij = nk=1 Mik Nkj .
Da die Spalten von A> genau den Zeilen von A entsprechen ist also der Eintrag der i-ten
Zeile und der j-ten Spalte von AA> = En gleich dem Skalarprodukt der i-ten Zeile von A
und der j-ten Zeile von A. Dieses Skalarprodukt ist 1, wenn i = j ist und 0 sonst. Aber
dies ist genau die Definition einer Orthonormalbasis.
186
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.3. ORTHOGONALE ABBILDUNGEN
Beispiel 9.3.9 Schreiben wir die in Beispiel 9.2.17 berechnete Orthonormalbasis des
R2 als Spalten einer Matrix, dann ist diese Matrix aus O(2).
1 1 −1
A= √
2 1 1
Wir können nachrechnen, dass die Orthogonalitätsbedingung A · A> = E2 gilt:
1 1 −1
1
1 2 0
1 1
A · A> = √
·√
=
= E2
2 0 2
2 1 1
2 −1 1
Eine Verallgemeinerung dieser Matrix sind Matrizen der Form
1
a −b
A= √
a2 + b2 b a
für die ebenfalls die Orthogonalitätsbedingung
1
1
a −b
a
>
A·A = √
·√
a2 + b2 b a
a2 + b2 −b
gilt:
2
1
b
a + b2
0
= 2
= E2
a
0
a2 + b2
a + b2
Lemma 9.3.10 Sei A ∈ O(n) eine orthogonale Matrix, dann gilt
det A = ±1.
Beweis. Wenn A ∈ O(n), dann gilt AA> = En , also folgt aus Satz 8.1.19 und Satz 8.1.13
1 = det En = det(AA> ) = det A det A> = (det A)2
Durch Ziehen der Quadratwurzel erhalten wir die gewünschte Aussage.
Beispiel 9.3.11 Es gilt für die Matrix
1
1
1
a −b
a −b
A= √
⇒ det A = √
det
= 2
·(a2 +b2 ) = 1.
2
2
2
2
b
a
a
+
b
2
2
a +b b a
a +b
Dabei haben beim Berechnen der Determinante Korollar 8.1.4 benutzt.
Umgekehrt ist aber nicht jede Matrix mit Determinante gleich ±1 auch orthogonal. Zum
Beispiel gilt
1
0
2
det B = det
= 1 aber hBe2 , Be2 i = h2e2 , 2e2 i = 4 he2 , e2 i .
0 2
Definition 9.3.12 Wir nennen die Menge
SO(n) := {A ∈ O(n) | det A = 1}
die spezielle orthogonale Gruppe.
187
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.4. SEBSTADJUNGIERTE ABBILDUNGEN
Proposition 9.3.13 Die Menge SO(n) ist eine Untergruppe von O(n).
Beweis. Die Determinante det : O(n) → R ist ein Gruppenhomomorphismus (s. Satz
8.1.19) mit Kern SO(n).
9.4. Sebstadjungierte Abbildungen
In diesem Abschnitt beschäftigen wir uns nun mit linearen Abbilddungen, deren Darstellungsmatrix symmetrisch ist. Diese sind immer diagonalisierbar und besitzen Eigenvektoren,
die eine Orthonormalbasis sind.
Definition 9.4.1 Sei V, h·, ·iV ein euklidischer Vektorraum, ein Endomorphismus
F : V → V heißt selbstadjungiert, wenn für alle v, w ∈ V gilt:
hF (v), wi = hv, F (w)i .
Proposition 9.4.2 Sei V, h·, ·iV ein euklidischer Vektorraum, F : V → V ein selbstadjungierter Endomorphismus und λ, µ ∈ R zwei verschiedene Eigenwerte von F , dann
sind die Eigenvektoren von F zum Eigenwert λ orthogonal zu den Eigenvektoren von F
zu µ.
Beweis. Sei v 6= 0V Eigenvektor zu λ, d.h. F (v) = λv und sei w 6= 0V Eigenvektor zu µ,
d.h. F (w) = µw, dann gilt
λ hv, wi = hλv, wi = hF (v), wi = hv, F (w)i = hv, µwi = µ hv, wi .
Somit gilt (λ − µ) hv, wi = 0 und da nach Voraussetzung λ 6= µ ist, muss hv, wi = 0 sein.
Somit sind v und w orthogonal zueinander.
Proposition 9.4.3 Sei V, h·, ·iV eine euklidischer Vektorraum, F : V → V ein Endomorphismus und B = {v1 , . . . , vn } eine Orthonormalbasis von V . Die Darstellungsmatrix
von F bezüglich dieser Basis MBB (F ) ist genau dann symmetrisch, wenn F selbstadjungiert ist.
Beweis. Zunächst stellen wir fest, dass der Eintrag aij der i-ten Zeile und j-ten Spalte von
A durch aij = hvi , F (vj )i gegeben ist. Die j-te Spalte der Matrix A sind die Koordinaten
von
Pn F (vj ) bezüglich der Basis B. Unter Verwendung von Lemma 9.2.15 gilt nun F (vj ) =
i=1 hvi , F (vj )i vi und somit ist aij = hvi , F (vj )i.
Nun verwenden wir die Selbstadjungiertheit von F und der Symmetrie des Skalarprodukts
um zu sehen, dass gilt:
aij = hvi , F (vj )i = hF (vi ), vj i = hvj , F (vi )i = aji .
(9.4)
188
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.4. SEBSTADJUNGIERTE ABBILDUNGEN
woraus die Symmetrie der Matrix A folgt.
Nehmen wir umgekehrt an, dass die Matrix A symmetrisch ist, dann bedeutet dies aufgrund
von Rechnung (9.4), dass für die Basisvektoren v1 , . . . , vn gilt:
hvi , F (vj )i = hF (vi ), vj i .
(9.5)
Da BPeine Basis von V ist,
Pkönnen wir beliebige Vektoren v, w ∈ V als Linearkombination
v = ni=1 λi vi , bzw. w = nj=1 µj vj schreiben und berechnen nun, dass gilt:
*
hF (v), wi =
F(
n
X
λi vi ),
i=1
=
=
=
* n
X
=
n
X
i=1
j=1
n
X
n
X
λi
* n
X
=
| Einsetzen von v, w
n
X
+
µj vj
| Linearität von F
µj hF (vi ), vj i
| Bilinearität des Skalarprodukts
µj hvi , F (vj )i
| Vorraussetzung (9.5)
j=1
λi vi ,
i=1
* n
X
µj vj
j=1
λi
i=1
+
j=1
λi F (vi ),
i=1
n
X
n
X
n
X
+
µj F (vj )
| Bilinearität des Skalarprodukts
j=1
n
X
λi vi , F (
µj v j )
i=1
+
| Linearität von F
j=1
= hv, F (w)i
| Definition von v, w
Daraus folgt, dass F selbstadjungiert ist.
Korollar 9.4.4 Sei F : Rn → Rn , x 7→ Ax eine lineare Abbildung, wobei A ∈ MatR (n, n)
und der Rn zusammen mit dem Standardskalarprodukt betrachtet wird. F ist genau
dann selbstadjungiert, wenn A symmetrisch ist.
Beweis. Dieses Korollar folgt direkt aus Proposition 9.4.3, da die Standardbasis eine
Orthonormalbasis bezüglich des Standardskalarprodukts ist (s. Beispiel 9.2.13).
Aber die Aussage kann auch direkt bewiesen werden, denn es gilt
v > · A> · w = (A · v)> · w = hAv, wi = hv, Awi = v > · A · w.
Dies ist aber gleichbedeutend mit A = A> , also der Symmetrie der Matrix A.
Lemma 9.4.5 Sei V, h·, ·iV eine euklidischer Vektorraum der Dimension dim V > 0
und F : V → V ein selbstadjungierter Endomorphismus, dann besitzt F einen Eigenvektor zu einem reellen Eigenwert.
189
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.4. SEBSTADJUNGIERTE ABBILDUNGEN
Beweis. Sei A = MBB (F ) die Darstellungsmatrix von F bezüglich einer Orthonormalbasis,
das heißt die Matrix A ist symmetrisch. Sei χA (t) das charakteristische Polynom zu dieser
Matrix. Wir wissen aufgrund des Fundamentalsatz der Algebra (s. Satz 5.5.3), dass χA (t)
eine komplexe Nullstelle λ = γ + iω ∈ C besitzt. Wir wollen jetzt zeigen, dass aufgrund
der Symmetrie von A bereits λ ∈ R ist.
Sei 0 6= z = x + iy ∈ Cn der Eigenvektor zu λ, den wir in seinen Real- und Imaginärteil
zerlegen, das heißt x, y ∈ Rn . Wir zerlegen nun auch die Eigenwertgleichung Az = λz in
ihren Real- und ihren Imaginärteil
Az = λz
A(x + iy) = (γ + iω)(x + iy)
Ax + iAy = (γx − ωy) + i(γy + ωx).
Somit gilt
Ax = γx − ωy
und Ay = γy + ωx.
Nun verwenden wir, dass die Matrix A symmetrisch ist und für die Vektoren x, y ∈ Rn gilt:
hAx, yi = hx, Ayi
hγx − ωy, yi = hx, γy + ωxi
γ hx, yi − ω hy, yi = γ hx, yi + ω hx, xi
Substrahieren wir γ hx, yi auf beiden Seiten der Gleichung, dann erhalten wir
ω · (kxk2 + kyk2 ) = 0.
Da der Eigenvektor z = x + iy nicht null ist muss mindestens kxk =
6 0 oder kyk =
6 0 sein.
Also ist die Gleichung nur für ω = 0 zu erfüllen. Aber dies bedeutet, dass λ = γ +iω = γ ∈ R
liegt.
Satz 9.4.6 (Spektralsatz
für selbstadjungierte Endomorphismen)
Sei V, h·, ·iV ein euklidischer Vektorraum und F : V → V ein selbstadjungierter
Endomorphismus, dann gibt es eine Orthonormalbasis von V bestehend aus Eigenvektoren
von F .
Beweis. Wir beweisen den Spektralsatz per vollständiger Induktion nach der Dimension
des Vektorraums V .
Der Induktionsanfang ist bei n = 1. Eine lineare Abbildung von einem eindimensionalen
Vektorraum in sich selbst ist die Multiplikation mit einen Skalar. Daher ist jeder Vektor
1
ṽ 6= 0V ein Eigenvektor. Durch Normieren v := kṽk
ṽ ist dieser Vektor eine Orthonormalbasis
von V bestehend aus Eigenvektoren von F .
Die Induktionsvoraussetzung besagt nun, dass ein selbstadjungierter Endomorphismus
FU : U → U von einem Vektorraum der Dimension n − 1 eine Orthonormalbasis von U
bestehend aus Eigenvektoren von FU besitzt.
Sei also V ein Vektorraum der Dimension n und F : V → V ein selbstadjungierter
Endomorphismus, dann gibt es aufgrund von Lemma 9.4.5 einen Eigenvektor ṽ 6= 0V von
1
F . Diesen Vektor normieren wir und erhalten so v := kṽk
ṽ, der ein Eigenvektor von F der
Norm 1 ist.
190
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.4. SEBSTADJUNGIERTE ABBILDUNGEN
Nun verwenden wir Lemma 9.1.18 und erhalten den Vektorraum V als direkte Summe der
linearen Hülle von v und deren Orthokomplement:
V = LH(v) ⊕ LH(v)⊥ .
Da dim LH(v) = 1 ist hat das Orthokomplement U := LH(v)⊥ die Dimension
dim U = dim V − dim LH(v) = n − 1 (s. Satz 6.2). Wir können also die Induktionsvoraussetzung anwenden, wenn wir sicher stellen können, dass die Einschränkung von F auf
den Untervektorraum U , eine Abbildung von U nach U ist. Das bedeutet, dass F (u) ∈ U
sein muss, für u ∈ U . Das heißt aber, dass aus u ∈ U = LH(v)⊥ , also hu, vi = 0 folgen
muss, dass F (u) ∈ U = LH(v)⊥ , also hF (u), vi = 0. Um dies zu sehen, rechnen wir:
hF (u), vi = hu, F (v)i = hu, λvi = λ hu, vi = 0.
Dabei haben wir benutzt, dass v ein Eigenvektor von F ist.
Wir können nun also den Endomorphismus FU : U → U, u 7→ F (u) definieren. Dieser
Endomorphismus ist selbstadjungiert, da F selbstadjungiert ist und daher können wir die
Induktionsvoraussetzung anwenden. Das heißt es gibt eine Orthonormalbasis {v1 , . . . , vn−1 }
aus Eigenvektoren von FU . Dann ist {v1 , . . . , vn−1 , v} eine Orthonormalbasis aus Eigenvektoren von FU .
Korollar 9.4.7 (Hauptachsentransformation)
Sei A ∈ MatR (n, n) eine symmetrische Matrix, dann gibt es eine orthogonale Matrix
T ∈ O(n), so dass
T AT −1 = T AT > = Diag(λ1 , . . . , λn )
gilt.
Beweis. Da A symmetrisch ist, ist die lineare Abbildung F : Rn → Rn selbstadjungiert und
somit gibt es eine Orthonormbasis des Rn bestehend aus Eigenvektoren {v1 , . . . , vn } von A.
Diese Vektoren sind die Spalten der Matrix T −1 . Da die Vektoren eine Orthonormalbasis
bilden, ist die Matrix orthogonal T −1 ∈ O(n) (s. Kor. 9.3.7) und daher ist T −1 = T > . Die
Begründung warum das Produkt T AT −1 eine Diagonalmatrix ist, kann im Beweis von
Satz 8.2.4 nachgelesen werden.
Um die Matrix T ∈ O(n) sowie die Diagonalmatrix Diag(λ1 , . . . , λn ) zu berechnen, kombinieren wir nun das bekannte Verfahren zum Berechnen einer Basis aus Eigenvektoren mit
dem Gram-Schmidtschen Orthonormalisierungsverfahren.
Sei also eine symmetrische Matrix A ∈ MatR (n, n) gegeben, dann gehen wir wie folgt vor
um eine Orthonormabasis aus Eigenvektoren zu berechnen:
1. Wir berechnen das charakteristische Polynom χA (t) der Matrix und bestimmen
dessen Nullstellen. Wir schreiben χA (t) als Produkt von Linearfaktoren
χA (t) = ±
r
Y
(t − λi )αi ,
i=1
wobei die λi paarweise verschiedene Eigenwerte sind und αi ihre algebraische Vielfachheit ist. Da A symmetrisch und somit diagonalisierbar ist, muss das charakteristische
Polynom in Linearfaktoren zerfallen (s. Satz 8.2.11).
191
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.4. SEBSTADJUNGIERTE ABBILDUNGEN
2. Danach berechnen wir für jeden Eigenwert λi eine Basis Bi vom Eigenraum Eig(A, λi ).
Da die Matrix A diagonalisierbar ist, gilt dim Eig(A, λi ) = αi (s. Satz 8.2.20).
3. Nun wenden wir das Gram-Schmidtsche Orthonormalisierungsverfahren jeweils auf die
Basen Bi für i = 1, . . . , r an und erhalten so für jeden der Eigenräume Eig(A, λi ) eine
Orthonormalbasis. Die Vereinigung dieser Basen ist dann eine Orthonormalbasis des
Rn , da Eigenvektoren zu verschiedenen Eigenwerten sowieso orthogonal zueinander
sind (s. Prop. 9.4.2).
4. Im letzten Schritt schreiben wir die berechneten Basisvektoren als Spalten der Matrix
T −1 , wobei Eigenvektoren zum gleichen Eigenwert nebeneinander stehen und man
meist die Eigenwerte der Größe nach sortiert. Die Diagonalmatrix hat dann die Form
D = Diag(λ1 , . . . , λ1 , λ2 , . . . , λ2 , . . . , λr , . . . , λr )
| {z } | {z }
| {z }
α1 −mal
α2 −mal
αr −mal
wenn die ersten α1 Spalten von T −1 Eigenvektoren zu λ1 sind, usw.
Beispiel 9.4.8 Sei die Matrix


2 1
1
A = 1 2 −1
1 −1 2
gegeben. Die Matrix ist symmetrisch, wir können also eine Orthonormalbasis aus Eigenvektoren von A bestimmen. Dazu benötigen wir zunächst die Eigenwerte von A und
berechnen dafür das charakteristische Polynom


2−t
1
1
2 − t −1  = (2−t)2 −1−1−(2−t)−(2−t)−(2−t) = −t3 +6t2 −9t
χA (t) = det  1
1
−1 2 − t
Dieses Polynom wollen wir in seine Linearfaktoren zerlegen. Dafür klammern wir zunächst
−t aus und sehen dann, dass der verbliebene Faktor mithilfe einer binomischen Formel
(a − b)2 = a2 − 2ab + b2 in Linearfaktoren zerlegt werden kann (alternativ, kann man
mithilfe der p − q-Formel die Nullstellen berechnen).
χA (t) = −t3 + 6t2 − 9t = −t t2 − 6t + 9 = −t(t − 3)2 .
Somit hat die Matrix A zwei verschiedene Eigenwerte λ1 = 0 mit der Vielfachheit 1 und
λ2 = 3 mit der Vielfachheit 2. Wir berechnen nun die Eigenräume, zuerst zum Eigenwert
λ1 = 0:




2 1
1
1 2 −1
1
Eig(A, 0) = Kern(A − 0E3 ) = Kern 1 2 −1 = Kern 2 1
1 −1 2
1 −1 2




1 2 −1
1 2 −1



= Kern 0 −1 1 
= Kern 0 −3 3
0 −3 3
0 0
0
Wir wählen die Unbekannte x3 = r, wobei r eine beliebige Zahl aus R ist und erhalten
so aus der zweiten Zeile −x2 + x3 = 0 die Gleichung x2 = x3 = r und aus der ersten
192
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.4. SEBSTADJUNGIERTE ABBILDUNGEN
Zeile x1 + 2x2 − x3 = 0 die Gleichung x1 = −2x2 + x3 = −r. Somit ist der Eigenraum
zum Eigenwert λ1 = 0 gegeben durch:


 
−1


Eig(A, 0) = x ∈ R3 | x = r  1  wobei r ∈ R .


1
>
Eine Basis dieses Eigenraumes ist zum Beispiel durch den Vektor v1 = −1 1 1
gegeben. Die Dimension von Eig(A, 0) ist also 1, wie wir aufgrund der Tatsache, das
λ1 = 0 mit Vielfachheit 1 im charakteristischen Polynom vorkommt, erwartet haben.
Nun berechnen wir den Eigenraum zum Eigenwert λ2 = 3.




−1 1
1
−1 1 1
Eig(A, 3) = Kern(A − 3E3 ) = Kern  1 −1 −1 = Kern  0 0 0
1 −1 −1
0 0 0
Wir wählen die Unbekannten x2 = r und x3 = s, wobei r und s beliebige Zahlen aus R
sind und erhalten so aus −x1 + x2 + x3 = 0 die Gleichung x1 = x2 + x3 = r + s. Somit
ist der Eigenraum zum Eigenwert λ1 = 0 gegeben durch:


 
 
1
1


3




Eig(A, 3) = x ∈ R | x = r 1 + s 0 wobei r ∈ R .


0
1
>
Eine Basis dieses Eigenraumes ist zum Beispiel durch die Vektoren v21 = 1 1 0
>
und v22 = 1 0 1 gegeben. Die Dimension von Eig(A, 3) ist also 2, wie wir aufgrund
der Tatsache, das λ2 = 3 mit Vielfachheit 2 im charakteristischen Polynom vorkommt,
erwartet haben.
Im nächsten Schritt müssen wir nun ausgehend von v1 eine Orthonormalbasis von
Eig(A, 0) und ausgehend von v21 , v22 eine Orthonormalbasis von Eig(A, 3) konstruieren.
Dafür verwenden wir das Gram-Schdt-Verfahren.
Eine Orthonormalbasis
vonp
Eig(A, 0) erhalten wir,
p
√ indem wir den Vektor v1 normieren.
2
2
2
Es gilt kv1 k = hv1 , v1 i = (−1) + 1 + 1 = 3. Somit ist
 
−1
1
1  
1
w1 = √ v 1 = √
3
3
1
eine Orthonormalbasis von Eig(A, 0).
Nun wollen wir ausgehend von v21 und v22 eine Orthonormalbasis
von√Eig(A, 3) konstruiep
√
ren. Dafür müssen wir v21 normieren. Es gilt kv21 k = hv21 , v21 i = 12 + 12 + 02 = 2.
Somit ist der erste Basisvektor von Eig(A, 3) durch
 
1
1
1  
1
w21 = √ v21 = √
2
2 0
gegeben. Für den zweiten Basisvektor konstruieren wir jetzt nach Gram-Schmidt einen
Vektor aus Eig(A, 3), der senkrecht auf w21 steht. Wir definieren
   1 
 
1
1
2
1
1
w̃22 = v22 − hv22 , w21 i = 0 − √ √ 1 = − 12  .
2 2 0
1
1
193
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.5. DIE SINGULÄRWERTZERLEGUNG
q
q
q
Nun gilt kw̃22 k = 14 + 14 + 1 = 32 . Also ist w22 = 23 w̃22 .
Da Vektoren zu unterschiedlichen Eigenwerten sind immer orthogonal zueinander, können
nun die Orthonormalbasis des R3 bestehend aus Eigenvektoren von A angeben:
 
 
r  1 
−1
1
1
1
2  21 
−2
w1 = √  1  , w21 = √ 1 und w22 =
3
3
2 0
1
1
Nun können wir die Matrix T aus Korollar 9.4.7 angeben. Die Matrix T −1 hat als Spalten
die Vektoren w1 , w21 , w22 . Die Matrix T ist dann die Inverse dazu. Da aber die Spalten
von T −1 eine Orthonormalbasis sind, kann die Inverse durch Transponieren berechnet
werden.
q 


 1
1
√1
√1
− √13 √12
− √3
6
3
3

q 

 √1

√1
1
0 
√1
T −1 = T > =  √1
T =

−
2
2
q
q
q


6
3
2

q 
1
1
2
−
1
2
√
6
6
3
0
3
3
und wir können nachrechnen, dass gilt
T AT > = Diag(0, 3, 3).
Da die erste Spalte von T −1 der Eigenvektor zu λ1 = 0 ist, ist 0 der erste Diagonaleintrag.
9.5. Die Singulärwertzerlegung
Der Spektralsatz ist eine Aussage für quadratische symmetrische Matrizen. Da in vielen
Anwendungen aber allgemeinere Matrizen auftauchen, spielt dort die Singulärwertzerlegung
eine wichtige Rolle.
Im Beweis der Singulärwertzerlegung wird folgende Schreibweise für das Matrixprodukt
verwendet.
Lemma 9.5.1 Seien A = (aik ) ∈ MatK (m, n) und B = (bkj ) ∈ MatK (n, p) Matri>
zen, wobei A aus den Spaltenvektoren ak = a1k a2k . . . amk
und B aus den
k
Zeilenvektoren b = bk1 bk2 . . . bkp besteht. Dann gilt
A·B =
n
X
ak · bk .
k=1
Beweis. Für i ∈ {1, ..., m} und j ∈ {1,P
..., p} werden die Koeffizienten der Produktmatrix
C := (cij ) ∈ MatK (m, p) durch cij := nk=1 aik bkj definiert.
Da die Vektoren als Matrizen aufgefasst in ak ∈ MatK (m, 1) und bk ∈ MatK (1, p) liegen,
194
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
ist es möglich das Matrixprodukt ak · bk ∈ MatK (m, p) zu



a1k
a1k bk1
 a2k 
 a2k bk1



ak · bk =  .  · bk1 bk2 . . . bkp =  .
 .. 
 ..
amk
amk bk1
9.5. DIE SINGULÄRWERTZERLEGUNG
berechnen:
a1k bk2
a2k bk2
..
.
...
...
..
.
amk bk2 . . .

a1k bkp
a2k bkp 

.. 
. 
amk bkp
Addieren wir diese Matrizen für k = 1, . . . , n auf, dann erhalten wir
 Pn

P
Pn
. . . Pnk=1 a1k bkp
k=1 a1k bk1
k=1 a1k bk2
P
P
n
n
n
 n a2k bk1

X
...
k=1 a2k bkp 
k=1 a2k bk2
 k=1
a k · bk = 

..
..
..
..


.
k=1
Pn .
Pn .
Pn .
k=1 amk bk1
k=1 amk bk2 . . .
k=1 amk bkp
Die Eintäge dieser Matrix entsprechen also genau den Einträgen des Matrixprodukts
C = AB.
Satz 9.5.2 (Singuläwertzerlegung)
Sei A ∈ MatR (m, n) eine Matrix. Dann existieren orthogonale Matrizen U ∈ MatR (m, m)
und V ∈ MatR (n, n) sowie eine Diagonalmatrix S = (sij ) ∈ MatR (m, n) mit den
Diagonaleinträgen s11 ≥ s22 ≥ · · · ≥ 0, sodass gilt:
A = U SV > .
Beweis. Wir führen einen konstruktiven Beweis, der direkt benutzt werden kann um die
Zerlegung zu berechnen.
(1) Wir betrachten die Matrix B := A> A ∈ MatR (n, n) und stellen unter Verwendung
von Satz 7.1.13 und Gleichung (7.2) fest, dass sie symmetrisch ist:
B > = (A> A)> = A> (A> )> = A> A = B.
Durch die Hauptachsentransformation (s. Kor. 9.4.7) erhalten wir für B die Zerlegung
T BT > = Diag(λ1 , . . . , λn ) und die Eigenwerte λi ∈ R von B. Weiterhin bezeichne
vi den Eigenvektor zu λi aus der Matrix T . Wir sortieren dabei die Eigenwerte
λ1 ≥ λ2 ≥ · · · ≥ λn ihrer Größe nach. Alle λi sind nicht negativ (λi ≥ 0), denn es gilt
vi> Bvi = λi vi> vi = λi
vi> Bvi = vi> A> Avi = (Avi )> (Avi ) ≥ 0.
Insgesamt erhalten wir daher λi ≥ 0. Außerdem gilt rang(A) = rang(B), da
rang(A> A) = rang(A). Die ersten r := rang(B) Eigenwerte sind also positiv.
(2) Für alle i = 1, . . . , r setzen wir ui =
√1 Avi .
λi
(3) Die übrigen ui mit r < i ≤ m werden so bestimmt, dass diese zu u1 , . . . , ur orthogonal
sind und die Norm 1 haben.
(4) Wir setzen jetzt U := (u1 , . . . , um ) und V := (v1 , . . . , vn ) und definieren
(√
λi für i = j und i ≤ r
S := (sij ) =
0
sonst
195
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.5. DIE SINGULÄRWERTZERLEGUNG
Es bleibt noch zu zeigen, dass die konstruierten U, S, V > die geforderten Eigenschaften
erfüllen.
Wegen der Hauptachsentransformation ist {v1 , . . . , vn } eine Orthonormalbasis von Rn und
demnach V eine orthogonale Basis. Ferner ist {u1 , . . . , um } eine Orthonormalbasis von Rm ,
denn für i, j = 1, . . . , r ist
+
*
1
1
1
1
1
1
hui , uj i = √ Avi , p Avj = √ p hAvi , Avj i = √ p (Avi )> (Avj )
λi
λi λj
λi λj
λj
p p
p
λj λj >
λj
1
1 > >
1
1 >
= √ p vi A Avj = √ p vi λj vj = √ p vi vj = √ hvi , vj i
λi λj
λi λj
λi λj
λi
(q
λj
für i = j
λi = 1
=
.
0
für i 6= j
Außerdem sind ur+1 , . . . , um orthonormal per Konstruktion und damit insgesamt U eine
orthogonale Matrix.
Abschießend wollen wir zeigen, dass die Zerlegung A = U SV gilt.
A = A · En = AV V >
n
X
=A
vi vi>
| V ist eine orthogonale Matrix
| Lemma 9.5.1
i=1
=
n
X
Avi vi>
| Distributivgesetz
Avi vi>
| Summation geht nur bis r, da Avi = 0 für i > r
i=1
=
r
X
i=1
p
r X
1
√
λi vi>
=
Avi
λi
i=1
=
r
X
ui
p
λi vi>
√
λi
√
| Einfügen von
λi
| Definition von ui
i=1
= U SV >
| Lemma 9.5.1.
Definition 9.5.3 (Singulärwertzerlegung)
Die Zerlegung A = U SV > aus dem obigen Satz nennt man die Singulärwertzerlegung
von A. Die Zahlen sii heißen Singulärwerte von A.
Satz 9.5.4 Für Singulärwertzerlegung einer Matrix A gelten die folgenden Eigenschaften
(i) Die Singulärwerte sii entsprechen den Wurzeln der Eigenwerte von A> A.
(ii) Die Singulärwerte sii sind eindeutig bestimmt.
(iii) Ist A symmetrisch, so sind die Singulärwerte die Beträge ihrer Eigenwerte von A.
(iv) Die Matrizen U, V sind nicht eindeutig bestimmt.
196
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.5. DIE SINGULÄRWERTZERLEGUNG
(v) Die Spalten i = r + 1, . . . , n von V sind eine Basis für den Kern von A.
(vi) Die Spalten i = 1, . . . , r von U sind eine Basis für das Bild von A.
Beweis. (i) folgt direkt aus der Definition der Singulärwerte. Daraus folgt dann direkt,
dass sie eindeutig sind, da die Eigenwerte einer Matrix eindeutig sind und wir die
Singulärwerte der Größe nach sortieren.
(iii) Wenn A symmetrisch ist, dann ist B = A> A = A2 und hat die Eigenwerte λi = µ2i ,
da für einen Eigenvektor vi von A zum Eigenwert µi gilt: A2 vi = AAvi = Aµi vi =
µi Avi = µi µi vi . Und damit ist die Wurzel aus dem Eigenwert µ2i durch |µi | gegeben.
(iv) Die Matrizen U und V sind nicht eindeutig, da Orthonormalbasen von Vektorräumen
nicht eindeutig sind.
(v) Durch Multiplizieren von rechts mit der Matrix V erhalten wir aus der Singulärwertzerlegung AV = U S. Da nur die ersten r Diagonaleinträge von S positiv sind und
alle anderen Einträge null gilt: Sei = 0, wobei i > r und ei ein Standardbasisvektor
des Rn ist. Also ist auch AV ei = U Sei = U · 0 = 0. Da V ei die i-te Spalte von V
liefert, liegen also die Spalten i = r + 1, . . . , n von V im Kern von A. Diese sind linear
unabhängig, da V eine invertierbare Matrix ist. Da der Kern von A aufgrund der
Dimensionsformel 7.3.19 genau die Dimension n − Rang A = n − r hat, sind diese
Spalten eine Basis des Kerns von A.
√
des Rn und 1 ≤ i ≤ r, dann ist Sei = λi ei 6= 0
(vi) Sei jetzt ei ein Standardbasisvektor
√
und somit U Sei = λi U ei , das heißt ein Vielfaches der i-ten Spalte von U . Also liegt
diese Spalte im Bild von A, aufgrund von AV ei = U Sei . Diese Spalten sind linear
unabhängig, da U invertierbar ist und bilden somit eine Basis des Bildes von A.
Beispiel 9.5.5 Wir betrachten die Matrix


−8 10 14
 4
4
2

A := 
 −2 −2 −1 ∈ MatR (4, 3).
−16 2 10
und verfahren gemäß dem Algorithmus zur Singulärwertzerlegung.
(1) Wir berechnen die symmetrische Matrix


340 −92 −262
B := AT A =  −92 124 170  .
−262 170 301
Die Berechnung der Eigenwerte liefert λ1 = 648, λ2 = 117, λ3 = 0 mit den zugehörigen Eigenvektoren
 
 
 
−2
2
1
ṽ1 =  1  , ṽ2 = 2 , ṽ3 = 2 .
2
1
2
197
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.5. DIE SINGULÄRWERTZERLEGUNG
Diese sind orthogonal zueinander, da sie zu unterschiedlichen Eigenwerten gehören.
Für ihre Norm gilt kṽ1 k = kṽ2 k = kṽ3 k = 3. Diese Vektoren müssen also noch
normiert werden. Die normierten Vektoren sind somit v1 = kṽ11 k ṽ1 , v2 = kṽ12 k ṽ2 und
v3 = kṽ13 k ṽ3 und die Matrix V ∈ O(3) ist gegeben durch


−2 2 1
1
V = (v1 v2 v2 ) =  1 2 2 .
3
2 1 2
Außerdem können wir
definieren
√
λ1 √0
 0
λ2
S=
 0
0
0
0
die Matrix S mit den Singulärwerten auf der Diagonale
  √
 √
18 2 √0
0
648 √ 0
0
  0
 0
0
117
0
3 13
=
=




0
0
0
0
0
0
0
0
0
0
0
0

0
0
.
0
0
(2) Da die ersten beiden Eigenwerte von B positiv sind, können wir die ersten zwei
Spalten der Matrix U ∈ O(4) direkt definieren:

√1
2
 
1
0
u1 = √ Av1 =  
0
λ1
√1
2

√2
13
 √2 
 13 
 √−1 
 13 
−2
√
13


1
u2 = √ Av2 =
λ2
(3) Die Vektoren u3 , u4 müssen orthogonal zu u1 , u2 konstruiert werden. Wir können
dafür zunächst zwei beliebige Vektoren ũ3 , ũ4 ∈ R4 wählen, so dass {u1 , u2 , ũ3 , ũ4 }
eine Basis des R4 ist, um dann das Gram-Schmidt-Verfahren auf diese Vektoren
anzuwenden.
Alternativ erhalten aus den Bedingungen
hu1 , u3 i = u>
1 u3 = 0,
hu2 , u3 i = u>
2 u3 = 0
ein lineares Gleichungssystem mit 2 Gleichungen und 4 Unbekannten
1
1
√ u31 + 0u32 + 0u33 + √ u34 = 0
2
2
2
−1
−2
2
√ u31 + √ u32 + √ u33 + √ u34 = 0
13
13
13
13
und die Lösungen müssen u33 = 4u31 + 2u32 , u34 = −u31 erfüllen. Wir wählen die
spezielle
Der Vektor (0, 1, 2, 0) hat die
√ Lösung ũ31 = 0, ũ32 = 1, ũ33 = 2, ũ34 = 0.
1
√
Norm 5, weshalb unser gesuchter Vektor u3 = 5 (0, 1, 2, 0) ist.
Für u4 müssen wir die Bedingungen
hu1 , u4 i = u>
1 u4 = 0,
hu2 , u4 i = u>
2 u4 = 0,
hu3 , u4 i = u>
3 u4 = 0
198
KAPITEL 9. BILINEARFORMEN, SKALARPRODUKTE, SPEKTRALSATZ
9.5. DIE SINGULÄRWERTZERLEGUNG
erfüllen, die uns das lineare Gleichungssystem
1
1
√ u41 + 0u42 + 0u43 + √ u44 = 0
2
2
2
2
−1
−2
√ u41 + √ u42 + √ u43 + √ u44 = 0
13
13
13
13
2
1
0u41 + √ u42 + √ u43 + 0u44 = 0
5
5
liefern. Somit erhalten wir u41 = −u44 , u42 = 85 u44 und u43 = − 45 u44 . Wieder
wählen wir eine spezielle Lösung ũ41 = −5, ũ42 = 8, ũ43 = −4, ũ44 = 5, die wir
1
dann zu u4 = √130
(−5, 8, −4, 5) normieren. Insgesamt haben wir also die Matrix

√1
2
0

U = (u1 u2 u3 u4 ) = 
0
√1
2
√2
13
√2
13
−1
√
13
−2
√
13
0
√1
5
√2
5
0

√−5
130
√8 
130 

√−4 
130
√5
130
konstruiert.
Zuletzt können wir jetzt prüfen, dass
  √1
−8 10 14
2
0
 4

4
2 
A=
 −2 −2 −1 = 
0
−16 2 10
√1

2
√2
13
√2
13
−1
√
13
−2
√
13
0
√1
5
√2
5
0
 √
√−5
18 2
130
√8   0
130  

√−4   0
130
0
√5
130
√0
3 13
0
0

0  −2
3
0
 2
3

0
1
3
0
1
3
2
3
2
3
2
3
1
3
2
3

= U SV >
199
10. Anwendungen
10.1. Total Least Squares Regression
Problem: Gerade an Daten “fitten”.
x
y
Das hier abgebildete Least Squares Verfahren liefert eine Regressionsgerade, wobei nur
die y-Werte fehlerbehaftet sind. Beim Total Least Squares Verfahren sind alle Variablen
fehlerbehaftet. Dieses Verfahren liefert jedoch “bessere” Geraden. Es wurde 1989 von Golub
und VanLoan entwickelt.
Definition 10.1.1 Soll in einer (Hyper-)Ebene eine Gerade gefunden werden, die zu
einer gegebenen Menge von Punkton die Summe der quadratischen Distanzen minimiert, nennen wir die Methode zur Bestimmung dieser Geraden Total Least Squares
Regression.
Wir betrachten das Problem zunächst im R2 und verallgemeinern es dann für den Rm .
Definition 10.1.2 Sei p~ = (p, q) ∈ R2 und xq + sy − c = 0 eine Gerade (y = rs x + xc ),
dann ist der quadratische Fehler definiert als
e(~
p, r, s, c) =
(rp + sq − c)2
.
r 2 + s2
Seien zusätzlich die Datenpunkte gegeben durch ~x1 = (x1 , y1 ), . . . , ~xn , dann ist die
Summe der quadratischen Fehler gegeben durch
D(r, s, ~x1 , . . . , ~xn ) =
n
X
i=1
200
e(~xi , r, s, rx0 + sy0 ).
KAPITEL 10. ANWENDUNGEN
10.1. TOTAL LEAST SQUARES REGRESSION
y = mx + b
y0 =
1
mx
+q
p~ = (p, q)
Berühre nun diese Gerade den Punkt ~x0 = (x0 , y0 ), dann gilt c = rx0 + sy0 und durch
einsetzen folgt r(x − x0 ) + s(y − y0 ) = 0.
Wir wollen nun eine TLS-Methode finden. Dazu vereinfachen wir schrittweise das Problem.
Der erste Schritt wird sein, dass wir für eine gegebene Punktwolke ~xi einen Vektor ~x0
fixieren, mit dem wir weiterrechnen können.
Lemma 10.1.3 Sei (r, s) 6= 0 ein Normalenvektor einer Gerade und ~x0 , ~x1 , . . . , ~xn ∈ R2 .
¯ der geometrische Mittelpunkt von ~x1 , . . . , ~xn definiert
Sei außerdem definiert durch ~x
durch
n
n
i=1
i=1
X
1X
¯ = (x̄, ȳ) mit x̄ = 1
~x
xi und ȳ =
yi .
n
n
¯, ~x1 , . . . , ~xn ). Dabei gilt Gleichheit, wenn ~x0 =
Dann ist D(r, s, ~x0 , ~x1 , . . . , ~x4 ) ≥ D(r, s, ~x
¯
¯ gehen muss.
~x. Das bedeutet, dass die Gerade, die D minimiert, durch ~x
Beweis
Sei w
~ = (w1 , . . . , wn ) gegeben mit wi = r(xi − x0 ) + s(yi − y0 ). Wir benutzen das
Symbol k · k2pfür die euklidische Norm (Länge eines Vektors is der Einheitsbasis, Beispiel:
k(x, y)k2 = x2 + y 2 ). Dann erhalten wir durch einsetzen
D(r, s, ~x0 , ~x1 , . . . , ~xn ) =
kwk
~ 22
.
(r2 + s2 )
Sei außerdem ein Vektor ~z = (z1 , . . . , zn ) gegeben mit zi = r(xi − x̄) + s(yi − ȳ). Sei
~1 := (1, . . . , 1) ∈ Rn und h := r(x̄ − x0 ) + s(ȳ − y0 ). Dann gilt
w
~ = ~z + h~1.
201
KAPITEL 10. ANWENDUNGEN
10.1. TOTAL LEAST SQUARES REGRESSION
Es sind ~z und ~1 orthogonal, d.h. ~zT ~1 = 0, denn
T~
~z 1 =
=
n
X
i=1
n
X
zi 1
(r(xi − x̄) + s(yi − ȳ))
i=1
n
X
=r
=r
((xi − x̄)) + s
i=1
n
X
n
X
((yi − ȳ))
i=1
!
xi − nx̄
+s
n
X
i=1
!
yi − nȳ
i=1
= r0
s0 = 0.
Mit Hilfe diesen Eigenschaften erhalten wir
1
kwk
~ 22
+ s2
1
= 2
k~z + h~1k22
r + s2
1
2
2 ~ 2
k~
z
k
+
h
k
1k
= 2
2
2
r + s2
h2
1
2
k~
z
k
+
= 2
2
r + s2
r2 + s2
D(r, s, ~x0 , ~x1 . . . , ~xn =
r2
¯, ~x1 , . . . , ~xn ) +
= D(r, s, ~x
h2
r2 + s2
¯, ~x1 , . . . , ~xn )
≥ D(r, s, ~x
Wir kennen nun ein ~x0 , das D minimiert (Aufpunkt der Geraden). Es fehlen noch r, s
(Normalenvektor, Steigung der Geraden).
Lemma 10.1.4 Sei M ∈ Rn×2 definiert als


x1 − x̄ y1 − ȳ

.. 
M :=  ...
. 
xn − x̄ yn − ȳ
Sei außerdem ~t = √r21+s2 (r, s) ein Vektor der Länge 1. Sei f : R2 −→ Rn eine lineare
Abbildung mit f (~t) = M ~t.
Total Least Squares minimiert die Norm der linearen Abbildung f .
202
KAPITEL 10. ANWENDUNGEN
10.1. TOTAL LEAST SQUARES REGRESSION
Beweis
¯, ~x1 , . . . , ~xn ) =
D(r, s, ~x
n
X
(r(xi − x̄) + s(yi − ȳ))2
r2 + s2
2


x1 − x̄ y1 − ȳ
r 
..  √ 1
=  ...
. 
2 + s2 s r
xn − x̄ yn − ȳ
2
= kM ~tk22
i=1
Wir wissen jetzt, dass D minimal wird, wenn wir ~t so wählen, dass die Norm unserer
“mittelwertfreien Datenmatrix” M multipliziert mit ~t minimal wird. Aber wie können wir
das Minimum nun berechnen und damit die gesuchte Gerade finden?
Satz 10.1.5 D wird minimal an jedem Eigenvektor ~t =
Eigenwert der Matrix
√ 1
(r, s)
r2 +s2
zum kleinsten
MT M.
Beweis
Wir wissen: M T M ∈ R2×2 ist symmetrisch und wegen alle Eigenwerte sind positiv. Über
die Hauptachsentransformation finden wir also eine Orthonormalbasis (~u1 , ~u2 ) = U und
zwei Eigenwerte σ12 ≥ σ22 . Diese entsprechen auh der SVD von M .
Weil U eine orthogonale Matrix ist, verändert sich die Norm eines mit U abgebildeten
Vektors nicht.
Wir können also schreiben
T
D = kM ~tk22 = M~(t)
M ~t = ~tT M T M ~t
= ~tT U diag(σ12 , σ22 )U T ~t
T
= U ~t diag(σ12 , σ22 ) U T ~t
2
2
= σ12 U T ~t 1 + σ22 U T ~t 2 .
Wir wissen durch Definition von ~t, dass kU T ~tk2 = k~tk2 = 1, also gilt
2
2
U T ~t 1 + U T ~t 2 = 1.
2
2
Ist ~t = ~u2 , dann wird σ12 U T ~t 1 + σ22 U T ~t 2 minimal, denn
(i) ~t ist orthogonal zu ~u2 , also U T ~v2
2
1
= 0 und U T ~v2
2
2
= 1.
(ii) σ22 ist der kleinere Eigenwert zum Eigenvektor ~u2 . Also ist D = kM~v2 k = σ12 0 +
σ12 1 = σ22 .
Damit wird D für ~t = ~u2 minimal.
203
KAPITEL 10. ANWENDUNGEN
10.1. TOTAL LEAST SQUARES REGRESSION
Wir können nun im R2 0die Gerade finden, die die Summe der quadratischen Fehler D
minimiert, indem wir den Mittelwert der “Punktwolke” als Aufpunkt und den Eigenvektor
zum kleinsten Eigenwert von M T M als Richtungsvektor wählen. Funktioniert das auch in
höheren Dimensionen > 2?
10.1.1. Total Least Squares im Rm
Seien ~x1 , . . . , ~xn ∈ Rm mut ~xi = (xi1 , . . . , xim . Dann benutzen wir die Normalform der
Ebenengleichung mit dem Normalenvektor ~r = (r1 , . . . , rm ) ∈ Rm mit dem Datenvektoren
als
~rT · (~xi − ~x0 ) = 0.
Wir minimieren die Summe der quadratischen Fehler als Abstand von den Daten zur
(Hyper-)Ebene ~r als
D(~r, ~x0 , ~x1 , . . . , ~xn ) =
n
X
i=1
~rT
k~rk22 .
(~xi − ~x0 )
¯ (wie oben) als
Wir definieren M ∈ Rm×n mit dem mittleren ~x
 


¯
x11 − x¯1 . . . x1m − x̄m
~x1 − ~x
 


..
..
..
M :=  ...  = 

.
.
.
¯
~xn − ~x
xn1 − x¯1 . . . qnm − x̄m
Die Beweise funktionieren analog (nur mit mehr häßlichen Indizes). Gefunden wird so mit
¯ und den Eigenvektoren zum kleinsten Eigenwert eine Ausgleichsebene ( “Plane Fitting”).
~x
204
Herunterladen