Vorlesung Logik, Diskrete Mathematik und Lineare Algebra

Vorlesung
Logik, Diskrete Mathematik und Lineare Algebra
(Mathematik für Bioinformatiker I)
Wintersemester 2012/13
FU Berlin
Institut für Informatik
Klaus Kriegel
1
Literatur zur Vorlesung:
C. Meinel, M. Mundhenk, Mathematische Grundlagen der Informatik,
B.G.Teubner 2000
D. Hachenberger, Mathematik für Informatiker,
Pearson Studium
G. Haggard, J. Schlipf, S. Whitesides, Discrete Mathematics for Computer
Science, Brooks Cole
M. Aigner, Diskrete Mathematik,
Vieweg & Sohn 1999
T. Ihringer, Diskrete Mathematik,
Teubner 1994
K. H. Rosen, Discrete Mathematics and its Applications,
McGraw-Hill 1991
K. Jänich, Lineare Algebra,
Springer 2000
2
Contents
1 Grundbegriffe der Logik
1.1 Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Prädikate und Quantoren . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Beweistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
8
11
2
.
.
.
.
.
.
14
14
18
20
22
25
28
.
.
.
.
.
.
32
32
33
36
37
40
41
Diskrete Wahrscheinlichkeitsverteilungen
4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit . . . . . .
4.2 Zufallsvariable und Erwartungswert . . . . . . . . . . . . . . . . . .
43
43
48
Grundbegriffe der Mengenlehre
2.1 Mengen und Operationen auf Mengen . . . . . . .
2.2 Kartesisches Produkt und Relationen . . . . . . . .
2.3 Äquivalenzrelationen . . . . . . . . . . . . . . . . .
2.4 Ordnungsrelationen . . . . . . . . . . . . . . . . .
2.5 Funktionen . . . . . . . . . . . . . . . . . . . . . .
2.6 Natürliche Zahlen, Endlichkeit und Kardinalzahlen
3 Kombinatorik
3.1 Elementare Zählprinzipien . . . . .
3.2 Die fundamentalen Zählkoeffizienten
3.3 Zwölf Arten des Abzählens . . . . .
3.4 Rekursionen . . . . . . . . . . . . .
3.5 Lösung von Rekursionen . . . . . . .
3.6 Das Schubfachprinzip . . . . . . . .
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Lineare Algebra
5.1 Einführung: Anschauliche Vektorrechnung . .
5.2 Gruppen und Körper . . . . . . . . . . . . . .
5.3 Vektorräume . . . . . . . . . . . . . . . . . . .
5.4 Lineare Unabhängigkeit, Basis und Dimension
5.5 Lineare Abbildungen . . . . . . . . . . . . . .
5.6 Matrizen . . . . . . . . . . . . . . . . . . . . .
5.7 Der Rang einer Matrix . . . . . . . . . . . . .
5.8 Lineare Gleichungssysteme . . . . . . . . . . .
5.9 Inverse Matrizen . . . . . . . . . . . . . . . .
5.10 Determinanten . . . . . . . . . . . . . . . . .
5.11 Eigenwerte und Eigenvektoren . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
53
56
59
66
73
77
84
93
96
105
1
Grundbegriffe der Logik
1.1
Aussagen
Die Grundlagen der Aussagenlogik gehen bereits auf die alten Griechen zurück. So
beschrieb Aristoteles eine Aussage als einen Satz, von dem es sinnvoll ist zu sagen,
dass er wahr oder falsch sei. Diesen Gedanken findet man auch in der heute verwendeten Definition wieder.
Definition: Eine Aussage ist ein (formal-)sprachliches Gebilde, das entweder wahr
oder falsch ist.
Der Zusatz formalsprachlich weist darauf hin, dass man auch mathematische Symbole
und andere Zeichen einer formalen Sprache verwenden kann. Die klassische Aussagenlogik beruht auf zwei Grundprinzipien, dem bereits genannten Zweiwertigkeitsprinzip,
welches fordert, dass jede Aussage einen eindeutig bestimmten Wahrheitswert hat,
der nur wahr oder falsch sein kann, und dem Extensionalitätsprinzip, nach dem der
Wahrheitswert einer zusammengesetzten Aussage nur von den Wahrheitswerten ihrer
Bestandteile abhängt.
Wir werden im Folgenden (wie in der Informatik üblich) eine 1 für den Wahrheitswert
wahr und eine 0 für falsch verwenden. Das Zusammensetzen von Aussagen erfolgt
durch die Verwendung von Verknüpfungswörtern wie und, oder, nicht, wenn . . . dann,
welche auf formal-sprachlicher Ebene durch sogenannte logische Junktoren - das sind
spezielle Verknüpfungssymbole - dargestellt werden.
Beispiele:
1. Der Satz “7 ist eine Primzahl.” und der Satz “7 ist eine ungerade Zahl.” sind
wahre Aussagen. Dagegen ist der Satz “7 ist eine gerade Zahl.” eine falsche
Aussage. Genauer gesehen ist der letzte Satz die Negation des zweiten Satzes,
denn nicht ungerade zu sein, ist (zumindest für ganze Zahlen) das gleiche, wie
gerade zu sein.
2. Der Satz “7 ist eine Primzahl und 7 ist ungerade.” sowie der Satz “7 ist eine
Primzahl oder 7 ist gerade.” sind wahre Aussagen. Achtung: Auch der Satz
“7 ist eine Primzahl oder 7 ist ungerade.” ist eine wahre Aussage, denn das
logische oder ist kein ausschließendes entweder oder. Dagegen ist der Satz “7 ist
eine Primzahl und 7 ist gerade.” eine falsche Aussage, denn die zweite Aussage
ist falsch.
√
3. Der Satz “ 2 ist eine rationale Zahl.” ist – wie man aus der Schulmathematik
weiß – eine falsche Aussage, aber es bedarf schon einiger Überlegungen, um das
zu zeigen.
4. Der Satz “Jede gerade Zahl größer als 2 ist die Summe zweier Primzahlen” ist
eine Aussage, denn entweder gibt es eine gerade Zahl, die sich nicht als Summe zweier Primzahlen darstellen lässt - dann ist die Aussage falsch, oder es
gibt keine solche Zahl - dann ist die Aussage wahr. Man nimmt an, dass diese
4
Aussage wahr ist (Goldbachsche Vermutung), konnte das aber bisher noch nicht
beweisen.
5. Der Satz “Dieser Satz ist falsch.” ist als Russels Paradoxon bekannt. Durch
die spezielle Art des Bezugs auf sich selbst kann er weder wahr noch falsch sein
und ist deshalb keine Aussage.
6. Ein typischer Vertreter für eine ganze Klasse von sprachlichen Gebilden, die
keine Aussagen sind, ist der Satz “Die natürliche Zahl n ist eine Primzahl.”.
Setzen wir für n den Wert 7 ein, so entsteht offensichtlich eine wahre Aussage, dagegen für n = 8 eine falsche Aussage. Sprachliche Gebilde dieses Typs
nennt man auch Aussageformen oder Prädikate - wir werden sie später genauer
besprechen.
Nach dem Extensionalitätsprinzip ergibt sich der Wahrheitswert einer zusammengesetzten Aussage ausschließlich aus den Wahrheitswerten der Ausgangskomponenten. Deshalb werden wir uns zuerst damit beschäftigen, welche Operationen zum
Zusammensetzen neuer Aussagen verwendet werden sollen und wie diese Operationen auf Wahrheitswerten wirken. Dazu werden Aussagevariable eingeführt und die
Wahrheitwerte von zusammengesetzten Aussagen durch Wahrheitsswerttabellen (kurz
Wahrheitstafeln) beschrieben.
Die Negation einer Aussage x wird mit ¬x bezeichnet. Diese Operation kehrt den
Wahrheitswert von x um, d.h. man kann sie mit ¬0 = 1 und ¬1 = 0 als Funktion
auf den Wahrheitswerten beschreiben. Zur Verknüpfung von zwei Aussagen x und y
stehen die folgenden Konstrukte zur Verfügung:
• die Konjunktion x ∧ y, gesprochen “x und y”;
• die Disjunktion x ∨ y, gesprochen “x oder y”;
• die Implikation x → y, gesprochen “aus x f olgt y” oder “wenn x, dann y”
• die Äquivalenz x ↔ y, gesprochen “x genau dann, wenn y”,
• die Antivalenz x ⊕ y, gesprochen “entweder x oder y”.
Die dazu korrespondierenden Funktionen auf Wahrheitswerten werden als Operationen (unter Verwendung der gleichen Symbole) in der folgenden Tabelle beschrieben:
x
0
0
1
1
y
0
1
0
1
x∧y
0
0
0
1
x∨y
0
1
1
1
x→y
1
1
0
1
x↔y
1
0
0
1
x⊕y
0
1
1
0
Aus der Tabelle kann man ablesen, dass die Konjunktion x ∧ y dann und nur dann
wahr ist, wenn beide Aussagen x und y wahr sind. Die Disjunktion x ∨ y ist dann und
5
nur dann wahr, wenn mindestens eine der Aussagen x und y wahr ist. Die Implikation
ist dann und nur dann wahr, wenn x falsch oder y wahr ist. Versuchen Sie selbst, die
Äquivalenz und die Antivalenz verbal zu beschreiben!
Ausdrücke, die durch (wiederholtes) Anwenden der Verknüpfungsoperationen aus
Variablen gewonnen werden, nennt man Formeln (oder Terme) der Aussagenlogik.
Um eine Formel eindeutig erkennen zu können, müsste man jeweils nach Anwendung
einer Verknüpfung die neue Formel durch ein Klammerpaar einschließen. Das führt
zur folgenden Definition von Formeln der Aussagenlogik über eine Variablenmenge
V ar:
1. Alle Variablen aus der Menge V ar sowie die Symbole 0 und 1 sind Formeln der
Aussagenlogik.
2. Ist t eine Formel der Aussagenlogik, dann ist auch (¬t) eine Formel der Aussagenlogik.
3. Sind s und t Formeln der Aussagenlogik, dann sind auch die Ausdrücke (s ∧ t),
(s ∨ t), (s → t), (s ↔ t) sowie (s ⊕ t) Formeln der Aussagenlogik.
4. Jede Formel der Aussagenlogik kann aus den Variablen und den Symbolen 0
und 1 durch eine endliche Folge von Anwendungen der Regeln 2) und 3) erzeugt
werden.
Wir werden zur Abkürzung der Notation (insbesondere an der Tafel) auch häufig die
Symbole ⇒ und ⇔ verwenden. Sie drücken auch Implikationen und Äquivalenzen
aus, aber nicht auf der Ebene der Formeln, sondern auf der Ebene der Sprache über
Aussagen, der sogenannten Metasprache. Der Ausdruck A ⇒ B ist also ein Kürzel
für den Satz “Wenn Aussage A wahr ist, dann ist auch Aussage B wahr”.
Weil die Formeln durch die Klammersetzung sehr unübersichtlich werden können,
vereinbart man einige Regeln zur Vereinfachung der Notation (ähnlich wie die bekannte Regel, dass Punktrechnung vor Strichrechnung geht):
• Außenklammern können weggelassen werden.
• In der Reihenfolge ¬, ∧, ∨, →, ↔ trennen die hinteren Junktoren stärker als alle
vorangehenden, d.h. die Bindungsstärke nimmt in dieser Reihenfolge ab. Alle
Klammerungen, die mit dieser Hierarchie der Bindungsstärke in Übereinstimmung stehen, können auch weggelassen werden.
Man kann also für ((¬x1 ) ∨ (x2 ∧ x3 )) auch ¬x1 ∨ x2 ∧ x3 schreiben. Dagegen würde
das Weglassen der Klammern in der Formel ¬(x ∨ y) eine andere Formel erzeugen.
Legt man für alle in einer Formel auftretenden Variablen Wahrheitswerte fest, so
induziert eine solche Belegung auch einen Wahrheitswert für die Formel. Man nennt
diesen induktiven Prozess auch Auswertung der Formel. Die Ergebnisse der Auswertungen einer Formel unter allen möglichen Belegungen werden in einer Wahrheitstafel
zusammengefasst.
6
Definition: Zwei Formeln s und t sind logisch äquivalent, wenn jede beliebige Belegung der Variablen für beide Formeln den gleichen Wahrheitswert induziert. Wir
schreiben dafür s ≡ t.
Wie das folgende Beispiel zeigt, kann die Äquivalenz von zwei Formeln prinzipiell
durch Wahrheitstafeln überprüft werden. Zum Nachweis der Äquivalenz der Formeln
s = ¬(x1 ∨ ((x1 ∨ x2 ) ∧ x2 ) und t = ¬x1 ∧ ¬x2 stellt man folgende Tabelle auf:
x1
0
0
1
1
x1
0
0
1
1
x2
0
1
0
1
x2
0
1
0
1
x1 ∨ x2
0
1
1
1
¬x1
1
1
0
0
(x1 ∨ x2 ) ∧ x2 x1 ∨ ((x1 ∨ x2 ) ∧ x2 )
0
0
1
1
0
1
1
1
¬x2
1
0
1
0
s
1
0
0
0
t
1
0
0
0
Am identischen Wahrheitswerteverlauf für s und t kann man ablesen, dass die Formeln
äquivalent sind.
Satz: Für beliebige Formeln s, t, r gelten die folgenden Äquivalenzen:
Assoziativität:
Kommutativität:
Distributivität:
Idempotenz:
Dominanz:
Neutralität:
Absorbtion:
deMorgansche Regel:
Komplementierung:
(doppelte Negation)
(s ∧ t) ∧ r
(s ∨ t) ∨ r
s∧t
s∨t
s ∧ (t ∨ r)
s ∨ (t ∧ r)
s∧s
s∨s
s∧0
s∨1
s∧1
s∨0
s ∧ (s ∨ t)
s ∨ (s ∧ t)
¬(s ∧ t)
¬(s ∨ t)
s ∧ ¬s
s ∨ ¬s
¬¬s
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
s ∧ (t ∧ r)
s ∨ (t ∨ r)
t∧s
t∨s
(s ∧ t) ∨ (s ∧ r)
(s ∨ t) ∧ (s ∨ r)
s
s
0
1
s
s
s
s
¬s ∨ ¬t
¬s ∧ ¬t
0
1
s
Diese Äquivalenzen können leicht mit Wahrheitstafeln bewiesen werden. Der Wahrheitstafelmethode sind jedoch enge Grenzen gesetzt, wenn die Anzahl n der ver7
wendeten Variablen groß wird, denn die entsprechende Wahrheitstafel hat dann 2n
Zeilen.
Beispiel: Der Beweis der folgenden Äquivalenz mit Wahrheitstafeln würde 16 Zeilen
erfordern. Verwendet man dagegen die Absorbtion und die doppelte Negation zur
Ersetzung von Subformeln, so erhält man einen einfachen und kurzen Beweis.
x1 ∨ ((x2 ∨ x3 ) ∧ ¬(¬x1 ∧ (¬x1 ∨ x4 ))) ≡ x1 ∨ ((x2 ∨ x3 ) ∧ ¬¬x1 )
≡ x1 ∨ ((x2 ∨ x3 ) ∧ x1 )
≡ x1
Die folgende Liste enthält weitere Äquivalenzen, welche zum Beweis der Äquivalenz
von komplexen Formeln häufig angewendet werden:
(1)
(2)
(3)
(4)
(5)
(6)
s→t
s↔t
s→t∧r
s→t∨r
s∧t→r
s∨t→r
≡
≡
≡
≡
≡
≡
¬s ∨ t
s ∧ t ∨ ¬s ∧ ¬t
(s → t) ∧ (s → r)
(s → t) ∨ (s → r)
(s → r) ∨ (t → r)
(s → r) ∧ (t → r)
Definition: Eine Formel s wird erfüllbar genannt, wenn es eine Belegung der Variablen von s gibt, die für s den Wert 1 induziert. Die Formel s wird allgemeingültig,
logisch gültig oder eine Tautologie genannt, wenn sie für jede Belegung den Wert 1
annimmt. Eine Formel, die unerfüllbar ist, wird Kontradiktion genannt.
1.2
Prädikate und Quantoren
Definition: Ein Prädikat ist eine Aussageform, die eine (oder mehrere) Variable
enthält, so dass bei Ersetzung der Variablen durch Elemente aus einem gegebenen
Individuenbereich U eine Aussage mit eindeutig bestimmtem Wahrheitswert entsteht,
z.B. P (x) : “x = 0” oder Q(x) : “x + 0 = x” oder R(x, y) : “x ≤ x + y” für den
Bereich der ganzen Zahlen.
Die Belegung der Variablen durch konkrete Objekte ermöglicht somit (durch Betrachtung eines Spezialfalls), ein Prädikat in eine Aussage umzuwandeln. So sind für die
genannten Beispiele die Aussagen P (0), Q(5) und R(3, 4) wahr, dagegen sind P (3)
und R(3, −2) falsche Aussagen.
Die sogenannten Quantoren erlauben es, aus diesen Spezialfällen allgemeinere Aussagen abzuleiten: Durch das Hinzufügen der Wendungen “für alle ...”, symbolisch
ausgedrückt durch den Allquantor ∀, oder “es gibt ein ...”, symbolisch ausgedrückt
durch den Existenzquantor ∃, werden die Variablen in einem Prädikat gebunden.
Sind alle Variablen eines Prädikats gebunden, entsteht eine Aussage, also ein Satz,
der wahr oder falsch ist.
Die Ausssage “∀x ∈ U P (x)” ist wahr, wenn für jedes Element a ∈ U die Aussage
P (a) wahr ist. Dagegen ist “∃x ∈ U P (x)” eine wahre Aussage, wenn (mindestens)
ein Element a ∈ U existiert, so dass die Aussage P (a) wahr ist.
8
Beispiele:
• Die Aussagen “∀x ∈ N x + 0 = x” und “∃x ∈ N x2 = x” sind wahr, aber die
Aussagen “∃x ∈ N x + 1 = x” und “∀x ∈ N x2 = x” sind falsch.
• Die Aussage “∀x ∈ N ∃y ∈ N y ≤ x” ist wahr, denn für einen beliebigen Wert
x = a erfüllt der Wert y = a die Ungleichung y ≤ x. Dagegen ist die Aussage
“∀x ∈ N ∃y ∈ N y < x” falsch, denn für x = 0 gibt es keine kleinere natürliche
Zahl.
• Die falsche Aussage im letzten Punkt ist ein typisches Beispiel dafür, dass der
Bereich, über dem die Aussage gemacht wird, von entscheidender Bedeutung
sein kann: Wenn man den Bereich N der natürlichen Zahlen gegen die Bereiche Z, Q, R der ganzen, rationalen bzw. reellen Zahlen austauscht, entstehen
offensichtlich wahre Aussagen wie “∀x ∈ Z ∃y ∈ Z y < x”.
Allgemein ist die Frage, ob eine durch Quantoren gebildete Aussage wahr oder falsch
ist, algorithmsch nicht entscheidbar. Die Goldbachsche Vermutung ist ein Beispiel
einer Aussage, deren Wahrheitswert nicht bekannt ist. In vielen anderen Fällen kann
man die Frage aber durch genauere Überlegungen beantworten. Wie kann man
in solchen Fällen sich selbst und andere von der Richtigkeit seiner Überlegungen
überzeugen? Der typische Beweis dafür, dass eine quantisierte Aussage wahr ist,
erfolgt in drei Stufen. Zuerst wird die Aussage durch Anwendung von äquivalenten
Umformungen aus der Aussagenlogik und aus dem nachfolgenden Satz in eine Standardform gebracht, bei der alle auftretenden Quantoren am Anfang stehen (man
nennt dies eine Pränexform). Danach erfolgt die Belegung der Variablen in Form
eines Spiels zwischen zwei Parteien: Einem Beweiser und seinem Gegenspieler, der
nachzuweisen versucht, dass die Ausage falsch ist. Dabei darf der Gegenspieler bei
jedem Allquantor die entsprechende Variable x durch ein beliebiges Objekt a aus
dem Individuenbereich belegen. Sollte die Aussage doch falsch sein (also nicht für
alle Objekte gelten), würde der Gegenspieler gerade ein solche Objekt wählen. Ist
die Aussage wahr, dann ist es (für den Beweiser) egal, welches Objekt a der Gegenspieler gewählt hat. Der Beweiser ist bei allen Existenzquantoren am Zuge und muss
ein passendes Objekt (in Abhängigkeit von den vorher vom Gegenspieler gwählten
Objekten) finden, für welches die nachfolgende Ausssage wahr ist. Nachdem alle
Variablen belegt sind, haben wir eine (variablenfreie) Aussage. Im letzten Schritt
muss diese Aussage verifiziert (als wahr bewiesen) werden.
Beginnen wir mit den Umformungsregeln.
Satz: Für beliebige Prädikate P (x), Q(x) und R(x, y) gelten die folgenden Äquivalenzen:
(1)
¬∀x P (x)
(2)
¬∃x P (x)
(3) ∀x P (x) ∧ ∀x Q(x)
(4) ∃x P (x) ∨ ∃x Q(x)
(5)
∀x ∀y R(x, y)
(6)
∃x ∃y R(x, y)
9
≡
≡
≡
≡
≡
≡
∃x¬P (x)
∀x¬P (x)
∀x (P (x) ∧ Q(x))
∃x (P (x) ∨ Q(x))
∀y ∀x R(x, y)
∃y ∃x R(x, y)
Achtung: Die folgenden Formelpaare sind im allgemeinen nicht äquivalent:
∀x P (x) ∨ ∀x Q(x)
∃x P (x) ∧ ∃x Q(x)
∀x (∃y R(x, y))
und
und
und
∀x (P (x) ∨ Q(x))
∃x (P (x) ∧ Q(x))
∃y (∀x R(x, y))
Konkrete Gegenbeispiele für das erste und zweite Paar erhält man für den Bereich der
ganzen Zahlen, wenn P (x) (bzw. Q(x)) aussagt, dass x eine gerade (bzw. ungerade)
Zahl ist. Für das dritte Paar kann man das Prädikat R(x, y) :“x ≤ y” über den
reellen Zahlen verwenden.
Wir wollen die drei Stufen eines solchen Beweises an einem einfachen Beispiel demonstrieren und die folgende Aussage für den Bereich der rationalen Zahlen beweisen.
Satz: Für beliebige x, y ∈ Q mit x < y gibt es eine von x und y verschiedene Zahl
z ∈ Q, die zwischen x und y liegt.
Die Beweisidee liegt klar auf der Hand: man setzt für z den Mittelwert aus x und
y und kann dann die Behauptung nachrechnen. Wir stellen die Aussage als Formel
mit Quantoren dar. Der Bereich Q ist durch Verabredung festgelegt und wird nicht
explizit genannt:
∀x ∀y [(x < y) → ∃z (x < z ∧ z < y)]
In diesem Fall könnte man die erste Stufe überspringen und gleich mit dem Spiel der
Festlegung der Werte beginnen, bei dem der Gegner x und y vorgibt und wir im Fall
setzen. Um das dreistufige Verfahren formal korrekt
x < y (als Beweiser) z = x+y
2
umzusetzen, würden wir aber zuerst die Implikation hinter den beiden Allquatoren
äquivalent umformen:
(x < y) → ∃z (x < z ∧ z < y) ⇔ ¬(x < y) ∨ ∃z (x < z ∧ z < y)
⇔ ∃z (x ≥ y) ∨ ∃z (x < z ∧ z < y)
⇔ ∃z (x ≥ y ∨ (x < z ∧ z < y))
Im ersten Schritt wurde die Regel p → q ≡ ¬p ∨ q angewendet. Im zweiten Schritt
wurde die Negation von x < y in x ≥ y umgewandelt und der Existenzquantor ∃z
davorgesetzt - das kann man machen, weil x ≥ y in keiner Weise von z abhängt.
Im letzten Schritt wurde die vierte Regel aus obigem Satz verwendet. Jetzt liegt die
Aussage in Pränexform vor:
∀x ∀y ∃z [x ≥ y ∨ (x < z ∧ z < y)].
Das Spiel beginnt mit der Vorgabe von zwei Werten x = a und y = b durch den
Gegenspieler. Der Beweiser setzt z = (a + b)/2.
Nun erfolgt die Verifikation der Aussage a ≥ b ∨ (a < (a + b)/2 ∧ (a + b)/2 < y) durch
Betrachtung von zwei Fällen: Entweder es gilt a ≥ b, dann wird die Aussage durch
den linken Term der Disjunktion wahr oder es gilt a < b. In diesem Fall müssen
beide Ungleichungen auf der rechten Seite der Disjunktion erfüllt sein, aber beides
folgt über den Zwischenschritt a/2 < b/2 jeweils kombiniert mit den Ungleichungen
a/2 ≤ a/2 bzw. b/2 ≤ b/2.
10
Bleibt die Frage, warum man diese Argumentation nicht für den Bereich N der
natürlichen Zahlen wiederholen kann. Die Antwort ist wieder nicht schwer: Der
Ausdruck a+b
führt in vielen Fällen aus dem Bereich N heraus. Das ist aber noch
2
kein Beweis dafür, dass die Aussagge über diesem Bereich falsch ist. Um das zu
zeigen, beweist man, dass die negierte Aussage wahr ist. Wir bilden die Negation mit
Hilfe der Regeln (1) und (2) aus obigem Satz und der deMorganschen Regel:
∃x ∃y ∀z [(x < y) ∧ (x ≥ z ∨ z ≥ y)].
Da die Aussage bereits in Pränexform vorliegt, kann das Spiel der Variablenbelegung
beginnen. Wir setzen als Beweiser x = 0 und y = 1. Der Gegenspieler belegt z mit
einem Wert c. Wir müssen jetzt die Aussage 0 < 1 ∧ (0 ≥ c ∨ c ≥ 1) verifizieren.
Offensichtlich ist 0 < 1 wahr und wir müssen nur noch zeigen, dass mindestens eine
der Ungleichungen aus (0 ≥ c ∨ c ≥ 1) wahr ist. Wenn aber die erste Ungleichung
nicht erfüllt ist, muss c eine natürliche Zahl größer als 0, also mindestens 1 sein und
damit ist die zweite Ungleichung erfüllt.
1.3
Beweistechniken
In diesem Abschnitt geht es darum, einige grundlegende Beweisstrategien kennenzulernen. Da das prinzipielle Verständnis im Mittelpunkt stehen soll, sind die in den
Beispielen bewiesenen Aussagen sehr einfach gewählt. Grundsätzlich muss man sich
bei Beweisen auch immer danach richten, für welchen Leser der Beweis aufgeschrieben wird. Bei einem Beweis für Experten kann man mehr Vorwissen voraussetzen
und deshalb auch mehrere Gedanken zu einem Schritt zusammenfassen. Dagegen
sollte bei Beweisen für Nicht-Experten möglichst jeder Schritt elementar und einfach
nachvollziehbar sein.
Gerade bei den scheinbaren Selbstverständlichkeiten wird ein weiteres Problem deutlich: Bevor man an einen Beweis geht, muss man sich klarmachen, was man schon als
Basiswissen voraussetzen kann, und was man noch beweisen muss. Oft ist als erster
hilfreicher Schritt eine geeignete Formalisierung der Aussage notwendig.
Viele mathematische Sätze haben die Form einer Implikation, sie sagen, dass aus einer
bestimmten Voraussetzung in Form einer Aussage p eine Behauptung in Form einer
Aussage q folgt. Wir wollen uns zuerst mit den verschiedenen Techniken zum Beweis
von solchen Implikationen beschäftigen. Basis für die Gültigkeit solcher Beweise sind
einige einfache Äquivalenzen und Implikationen, die man leicht mit der Wahrheitstafelmethode nachweisen kann.
Direkte Beweise
Der direkte Beweis beruht darauf, die Implikation p → q in mehrere elementare
Teilschritte zu zerlegen, wobei man die folgende Tautologie nutzt:
((p → r) ∧ (r → q)) → (p → q).
Natürlich kann man die zwei Teilschritte auf der linken Seite weiter unterteilen, bis
man bei einer Kette elementarer Implikationen angekommen ist. Wie das folgende
11
Beispiel zeigt, bewegt man sich bei der Begründung der Elementarschritte in einem
System, das sich auf einigen Axiomen (Grundannahmen) aufbaut und in dem man
auf bereits bewiesene Tatsachen zurückgreifen kann.
Satz: Ist eine natürliche Zahl n durch 6 teilbar, so ist ihr Quadrat durch 9 teilbar.
Beweis: Die Idee ist offensichtlich – ist n durch 6 teilbar, so kann man den Faktor
6 und damit auch den Faktor 3 von n abspalten. Folglich kann man den Faktor 3
mindestens zweimal von n2 abspalten. Wenn wir diese Idee etwas formaler umsetzen
wollen, müssen wir mit der Definition von Teilbarkeit beginnen:
n ∈ N ist durch k ∈ N teilbar, falls ein l ∈ N existiert, so dass n = k · l.
Die Tatsache, dass n durch k teilbar ist (also k ein Teiler von n ist) wird symbolisch
durch k | n ausgedrückt. Damit kann man die Voraussetzung des Satzes durch eine
einfache Formel ausdrücken und die folgende Beweiskette bilden:
6|n
Hypothese
∃l ∈ N
n=6·l
Teilbarkeitsdefinition
∃l ∈ N
n = (3 · 2) · l
6=3·2
2
∃l ∈ N
n = ((3 · 2) · l)((3 · 2) · l) Quadrieren
∃l ∈ N
n2 = (3 · 3)((2 · 2) · (l · l)) Muliplikation ist assoziativ und kommutativ
∃l ∈ N
n2 = 9 · (4 · l2 )
3 · 3 = 9 und 2 · 2 = 4
0
2
0
∃l ∈ N
n =9·l
l0 = 4l2
2
9|n
Teilbarkeitsdefinition
Genau betrachtet haben wir beim Schritt von der vierten zur fünften Zeile sogar
mehrere Elementarschritte zu einem Schritt zusammengefasst.
Indirekte Beweise
Manchmal ist es schwierig, den Beweis direkt zu führen. Als Alternativen bieten sich
indirekte Beweise durch Kontraposition oder in der Form von Widerspruchs-Beweisen
an. Beim Beweis durch Kontraposition wird anstelle von p → q die logisch äquivalente
Aussage ¬q → ¬p bewiesen. Beim Widerspruchs-Beweis wird an Stelle von p → q
die logisch äquivalente Aussage (p ∧ ¬q) → 0 bewiesen. Wir demonstrieren beide
Beweisverfahren an einfachen Beispielen.
Satz: Für jede natürliche Zahl n gilt: Ist n2 ungerade, so ist auch n ungerade.
Beweis durch Kontraposition: Da die Negation von “ungerade sein” die Eigenschaft “gerade sein” ist, lautet die Kontraposition “Ist n gerade, so ist auch n2 gerade”. und dafür gibt es einen einfachen direkten Beweis:
Ist n gerade, so gibt es eine ganze Zahl k mit n = 2k. Folglich ist n2 = (2k)2 = 2·(2k 2 )
und somit ist n2 gerade.
√
√
Satz: Für jede natürliche Zahl n gilt: Ist n keine ganze Zahl, dann ist n auch
nicht rational.
√
Beweis durch Widerspruch: Man geht von der Annahme aus, dass n keine
natürliche Zahl, aber eine rationale Zahl ist, und muss daraus einen Widerspruch
12
ableiten. Sei n = pk11 · . . . · pkl l die eindeutige Primzahlzerlegung von n, wobei p1 , . . . , pl
die paarweise verschiedenen Primfaktoren von n sind und k1 , . . . , kl die Vielfachheiten
√
dieser Primfaktoren. Wären alle Werte k1 , . . . , kl gerade Zahlen, dann wäre n eine
k /2
k /2
ganze Zahl, nämlich p11 ·. . .·pl l . Nach unserer Annahme muss also mindestens einer
dieser Werte ungerade sein, o.B.d.A. (d.h. ohne Beschränkung der Allgemeinheit) sei
das k1 .
√
Darüber hinaus soll n rational, also als Quotient aus zwei natürlichen Zahlen m und
m 2
und n · m02 = m2 . Kombiniert man diese
m0 darstellbar sein. Damit ist n = m
0
i0
i
i0 0
Gleichung mit den Primzahlzerlegungen von m = q1i1 · . . . · qjj und m0 = r11 · . . . · rjj0 ,
ergibt sich:
2i0 0
2i0
2i
pk11 · . . . · pkl l · r1 1 · . . . · rj 0 j = q12i1 · . . . · qj j .
Folglich tritt der Primfaktor p1 auf der linken Seite in ungerader Vielfachheit auf und
auf der rechten Seite in gerader Vielfachheit (unabhängig davon, ob p1 überhaupt in m
oder m0 vorkommt). Das ist aber ein Widerspruch zur eindeutigen Primzahlzerlegung
von natürlichen Zahlen.
Beweise durch Fallunterscheidung
Häufig ist es notwendig, verschiedene Fälle zu analysieren. Das dabei verwendete
logische Prinzip ist Äquivalenz der Aussagen p → q und (p ∧ r → q) ∧ (p ∧ ¬r → q),
wir unterscheiden also die Fälle r und ¬r.
Beispiel: Wir beweisen durch Fallunterscheidung, daß für jede Primzahl p ≥ 5 die
Zahl p2 − 1 durch 24 teilbar ist.
Zuerst formen wir p2 − 1 in (p + 1)(p − 1) um und beobachten, dass von drei aufeinanderfolgenden ganzen Zahlen genau eine durch 3 teilbar ist. Da p > 3 und Primzahl
ist, muss p − 1 oder p + 1 und damit auch p2 − 1 durch 3 teilbar sein. Bleibt zu zeigen,
dass p2 − 1 durch 8 teilbar ist. Da p ungerade ist, sind sowohl p − 1 als auch p + 1
gerade und damit ist p2 − 1 durch 4 teilbar. Den noch fehlenden Faktor 2 kann man
durch Fallunterscheidung nachweisen:
1. Fall: Ist p − 1 durch 4 teilbar, so ist p − 1 = 4k und p + 1 = 4k + 2 = 2(2k + 1)
und damit p2 − 1 = 8k(2k + 1) für eine natürliche Zahl k.
2. Fall: Ist p − 1 nicht durch 4 teilbar, so hat es die Form 4m + 2 = 2(2m + 1) für
eine natürliche Zahl m und folglich ist p + 1 = 4m + 4 = 4(m + 1). Damit erhalten
wir p2 − 1 = 8(2m + 1)(m + 1).
13
2
2.1
Grundbegriffe der Mengenlehre
Mengen und Operationen auf Mengen
Moderne Mengentheorie wird in Form eines axiomatischen Kalküls betrieben. Dieser
Ansatz hat aber den Nachteil, daß einfache inhaltliche Fragen oft durch einen technisch komplizierten Apparat verdeckt werden. Wir werden uns deshalb auf die Entwicklung einer “naiven” Mengenlehre beschränken, die als sprachliches Werkzeug für
die nachfolgenden Teile der Vorlesung völlig ausreichend ist.
Nach Georg Cantor ist eine Menge “eine Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche die Elemente der Menge genannt werden) zu einem Ganzen”.
Der Sachverhalt, dass ein Objekt a Element einer Menge A ist, wird durch a ∈ A
dargestellt, anderenfalls schreibt man a 6∈ A. Zwei Mengen A und B sind gleich,
wenn sie die gleichen Elemente besitzen, d.h. wenn für alle a gilt: a ∈ A dann und
nur dann, wenn a ∈ B.
Darstellungen von Mengen
a) Mengen können durch Auflistung ihrer Elemente in geschweiften Klammern dargestellt werden. Das betrifft insbesondere endliche Mengen, wie z.B. A = {2, 3, 5, 7}
oder B = {rot, gelb, blau}. Dabei ist die Reihenfolge der Elemente in der Auflistung
ohne Bedeutung. Auch die Mehrfachnennung von Elementen ist erlaubt (sollte aber
zur Vermeidung von Missverständnissen möglichst vermieden werden), sie hat aber
nur Einfluss auf die Darstellung der Menge und nicht auf die Menge selbst, z.B.
{2, 3, 5, 7} = {5, 7, 3, 2, 2, 5, 2}.
Wir vereinbaren, dass auch unendliche Mengen durch Auflistung dargestellt werden
können, sofern dies unmissverständlich ist, wie z.B. {0, 1, 2, 3, . . .} für die natürlichen
Zahlen oder {2, 4, 6, 8, . . .} für die positiven, geraden Zahlen.
b) Die in der Mathematik gebräuchlichste Darstellungsform von Mengen beruht auf
dem sogenannten Abstraktionsprinzip, nach dem man Mengen – im Sinne der Cantorschen Definition – durch wohlbestimmte Eigenschaften definieren kann. Dazu werden Prädikate P (x) über einem festgelegten Individuenbereich für x benutzt. Dann
wird mit {x | P (x)} oder (wenn der Bereich B explizit genannt werden soll) mit
{x ∈ B | P (x)} die Menge bezeichnet, die sich aus allen Individuen aus dem Bereich
zusammensetzt, für die P (x) wahr ist. Man bezeichnet diese Darstellungsart von
Mengen nach den Mathematikern Ernst Zermelo und Abraham Fraenkel auch als
ZF-Notation.
c) Zur Veranschaulichung können Mengen durch sogenannte Venn–Diagramme als
Kreisscheiben oder andere Flächen in der Ebene dargestellt werden.
Oft ist es sinnvoll, den zu betrachtenden Individuenbereich generell festzulegen, z.B.
wenn man nur Mengen von natürlichen Zahlen betrachten will. Ein solcher Bereich
wird Universum genannt und allgemein mit U bezeichnet. Es ist klar, dass Aussageformen über U immer Teilmengen von U definieren. Im folgenden Venn-Diagramm
sind zwei Mengen A und B als Kreisflächen in dem durch das Rechteck symbolisierten
14
Universum U dargestellt:
111111111111
000000000000
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
Bemerkung: In manchen Anwendungen (z.B. für die Buchstaben in einem Wort)
benötigt man auch ein Konstrukt, in dem Elemente auch mehrfach auftreten können.
In diesem Fall sprechen wir von einer Multimenge. Obwohl sich diese konzeptionell
wesentlich von einer Menge unterscheidet, wird in der Regel die gleiche Notation
verwendet, was natürlich zu Missverständnissen führen kann. Deshalb werden wir
bei Verwendung von Multimengen diesen Begriff explizit nennen, anderenfalls ist
immer eine Menge gemeint. Demnach sind {b, a, b, b} und {a, b} (ohne Zusatz) zwei
identische Mengen, die Multimengen {b, a, b, b} und {a, b} unterscheiden sich, aber
die Multimengen {b, a, b, b} und {a, b, b, b} sind wiederum identisch.
Definition: Eine Menge A ist Teilmenge (oder Untermenge) einer Menge B (Schreibweise A ⊆ B), wenn aus a ∈ A auch a ∈ B folgt.
Die Teilmengenrelation entspricht also einer Implikation der definierenden Prädikate.
Deshalb kann man aus den Eigenschaften der logischen Implikation zwei elementare
Eigenschaften der Teilmengenrelation ableiten:
• Die Mengen A und B sind gleich genau dann, wenn A ⊆ B und B ⊆ A.
• Ist A eine Teilmenge von B und B eine Teilmenge von C, dann ist auch A eine
Teilmenge von C.
Die folgende Definition enthält eine Zusammenfassung der wichtigsten Mengenoperationen. Man beachte insbesondere den Zusammenhang zu den entsprechenden logischen Operationen.
Definition:
• Zwei Mengen A und B sind disjunkt, wenn sie keine gemeinsamen Elemente
besitzen, d.h wenn aus a ∈ A folgt a 6∈ B.
• Die Vereinigung A ∪ B der Mengen A und B besteht aus allen Objekten, die
Elemente von A oder von B sind, dh. A ∪ B = {x | x ∈ A ∨ x ∈ B}.
• Der Durchschnitt A ∩ B der Mengen A und B besteht aus allen Objekten, die
Elemente von A und von B sind, dh. A ∩ B = {x | x ∈ A ∧ x ∈ B}.
15
• Die Differenz A \ B der Mengen A und B besteht aus allen Objekten, die
Elemente von A, aber nicht von B sind, dh. A \ B = {x | x ∈ A ∧ x 6∈ B}.
• Die Vereingung der Mengendifferenzen A \ B und B \ A wird die symmetrische
Differenz aus A und B genannt und mit A ⊕ B oder auch mit A ÷ B bezeichnet.
• Die Menge, die kein Element enthält, wird leere Menge genannt und mit ∅
bezeichnet.
• Ist A Teilmenge eines festgelegten Universums U , dann ist das Komplement von
A definiert als U \ A. Es wird mit A bezeichnet.
Der Zusammenhang zwischen Teilmengenbeziehungen sowie Operationen auf Mengen
und den entsprechenden logischen Operationen wird noch einmal in der folgenden
Tabelle zusammengefasst:
Mengenlehre
Logik
Gleichheit
A=B
x∈A↔x∈B
Inklusion
A⊆B
x∈A→x∈B
Vereinigung
A∪B
x∈A∨x∈B
Durchschnitt
A∩B
x∈A→x∈B
Komplement
A=B
x ∈ A ↔ ¬(x ∈ B)
symmetr. Differenz A ⊕ B = A ÷ B
x∈A⊕x∈B
Äquivalenz
Implikation
Disjunktion
Konjunktion
Negation
Antivalenz
Damit können auch - wie im nachfolgenden Satz formuliert - die bekannten Gesetze
der Aussagenlogik in die Mengenlehre übertragen werden.
Satz: Folgende Identitäten gelten für alle Untermengen A, B, C eines Universums U :
Kommutativität:
Assoziativität:
Distributivität:
Idempotenz:
Dominanz:
Identität:
Absorbtion:
De Morgan’sche Regel:
Komplementierung:
A∪B =B∪A
A ∪ (B ∪ C)
und A ∩ (B ∩ C)
A ∩ (B ∪ C)
und A ∪ (B ∩ C)
A∪A=A
A∪U =U
A∪∅=A
A ∪ (A ∩ B) = A
A∪B =A∩B
A∪A=U
(A) = A
und
=
=
=
=
und
und
und
und
und
und
und
A∩B =B∩A
(A ∪ B) ∪ C
(A ∩ B) ∩ C
(A ∩ B) ∪ (A ∩ C)
(A ∪ B) ∩ (A ∪ C)
A∩A=A
A∩∅=∅
A∩U =A
A ∩ (A ∪ B) = A
A ∩ B = Ā ∪ B̄
A∩A=∅
A\B =A∩B
Auf Grund der Assoziativität kann man bei der Vereinigung (bzw. beim Durchschnitt) von n Mengen A1 , A2 , . . . , An auf Klammerungen verzichten und die folgende
16
Schreibweise nutzen:
S
A1 ∪ A2 ∪ . . . ∪ An = Tni=1 Ai
n
A1 ∩ A2 ∩ . . . ∩ An =
i=1 Ai
Die Bildung einer solchen Vereinigung bzw. eines solchen Duchschnitts erfolgt somit
(in Analogie zu endlichen Summen oder Produkten von n Zahlen) durch die (n −
1)-fache Anwendung der einfachen Vereinigungs- bzw. Durchschnittsoperation. Im
Gegensatz zu den Zahlen kann man aber für Mengen auch uneingeschränkt unendliche
Vereinigungen und Durchschnitte bilden.
Definition: Ist I eine beliebige Menge und ist für jedes i ∈ I eine Menge Ai gegeben,
dann nennen wir die Multimenge dieser Mengen eine Mengenfamilie und bezeichnen
sie durch {Ai | i ∈ I}. Die Vereinigung (bzw. der Durchschnitt) dieser Mengenfamilie
ist definiert durch
S
i∈I Ai = {x | es gibt ein i ∈ I, so dass x ∈ Ai }
T
i∈I
Ai = {x | für alle i ∈ I gilt x ∈ Ai }
Beispiel: Sei I = {2, 3, 4, . . .} die Menge der natürlichen Zahlen, die größer oder
gleich 2 sind und sei Ai = {n ∈ N | i|n} die Menge der durch i teilbaren Zahlen für
jedes i ∈ I. Dann ergibt sich
[
\
Ai = {0, 2, 3, . . .} = N \ {1} und
Ai = {0}.
i∈I
i∈I
Zur Begründung betrachten wir jeweils drei Fälle. Da die 0 durch jede andere Zahl
teilbar ist, liegt sie in jedem Ai und somit auch in der Vereinigung und im Durchschnitt. Die 1 ist durch keine andere Zahl teilbar, gehört also zu keinem Ai und liegt
somit weder im Durchschnitt noch in der Vereingung. Da für jedes i ∈ I gilt i ∈ Ai
und i 6∈ A2i gilt, gehört i zur Vereinigung, aber nicht zum Durchschnitt.
Bemerkung: Für die Vereinigung und den Durchschnitt ist es unerheblich, ob wir die
Mengenfamilie als Multimenge oder als Menge auffassen, für andere Betrachtungen
könnte dieser Unterschied aber durchaus bedeutsam sein.
Definition: Eine Familie {Ai | i ∈ I} von nichtleeren Mengen wird Partition oder
Zerlegung einer Menge A genannt, falls
S
1. A = i∈I Ai
2. Für beliebige, voneinander verschiedene i, j ∈ I gilt Ai ∩ Aj = ∅.
Beispiele: {{a, c}, {b, e, f }, {d}} ist eine Partition der Menge {a, b, c, d, e, f } in drei
Teilmengen. Die Menge der geraden und die Menge der ungeraden Zahlen bilden eine
Partition der Menge N in zwei Teilmengen.
Definition: Ist A eine Menge, dann wird die Menge aller Untermengen von A die
Potenzmenge von A genannt und mit P(A) bezeichnet.
Satz: Ist A eine endliche, n-elementige Menge, dann hat die Potenzmenge P(A)
genau 2n Elemente.
17
2.2
Kartesisches Produkt und Relationen
Definition: Ein geordnetes Paar (a, b) ist eine (den Objekten a und b zugeordnetes)
Konstrukt mit der folgenden Eigenschaft: (a, b) = (a0 , b0 ) genau dann, wenn a = a0
und b = b0 .
Definition: Das kartesische Produkt A × B von zwei Mengen A und B ist definiert
als die Menge aller geordneten Paare (a, b) mit a ∈ A und b ∈ B, als Formel:
A × B = { (a, b) | a ∈ A ∧ b ∈ B }
Beispiel: {a, b, c} × {1, 2} = {(a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2)}.
Definition: Eine Untermenge R eines kartesischen Produkts A×B wird binäre Relation oder kurz Relation zwischen A und B genannt. Im Fall (a, b) ∈ R sagt man, dass
a in Relation zu b steht. Für (a, b) ∈ R kann auch a R b geschrieben werden. Diese
alternative Notation wird vor allem dann verwendet, wenn der Relationsbezeichner
kein Buchstabe sondern ein Relationssymbol wie <, ≤, ≡ oder ∼ ist.
Eine Untermenge R eines kartesischen Produkts der Form A × A wird (binäre) Relation auf A (oder über A) genannt.
Die ersten drei Relationen in den folgenden Beispielen sind generisch, d.h. man kann
sie über beliebigen Grundmengen betrachten:
• ∅ ⊆ A × B wird leere Relation genannt.
• A × B wird Allrelation zwischen A und B genannt.
• Die Menge {(a, a) | a ∈ A} wird die identische Relation über A genannt und
kurz mit IdA bezeichnet.
• Die Teilbarkeitsrelation | kann man als Relation über den natürlichen Zahlen
(aber auch über den ganzen Zahlen) betrachten. Wie bereits besprochen, ist
diese Relation wie folgt definiert:
∀ a, b ∈ N
a|b
⇐⇒
∃c ∈ N b = a · c
• Über den natürlichen Zahlen N, den ganzen Zahlen Z, den rationalen Zahlen
Q und den reellen Zahlen R kennen wir eine Reihe von Vergleichsrelationen,
nämlich <, ≤, ≥, >.
• Ist A die Menge aller Informatikstudenten an der FU Berlin und B die Menge
aller Pflichtmodule im Informatikstudium, dann ist
R = {(a, b) ∈ A × B | Student a hat das Modul b abgeschlossen } eine binäre
Relation.
• Jede Abbildung f : A −→ B kann auch als binäre Relation
f = {(a, b) ∈ A × B | a ∈ A ∧ b = f (a)} gesehen werden.
18
Zur Darstellung von Relationen sind verschiedene Methoden gebräuchlich:
• Darstellungen in Tabellenform, bei denen für jedes a ∈ A eine Spalte und für
jedes b ∈ B eine Zeile angelegt wird. Die Zelle in der Spalte von a und der
Zeile von b wird mit einer 1 gefüllt, wenn a R b gilt, und sonst mit einer 0.
(Verwendung in relationalen Datenbanken);
• Anschauliche Darstellungen durch Diagramme in einem Rechteck;
• Bipartite Graphen, bei denen die Elemente aus A und B als Knoten getrennt auf
zwei Seiten gezeichnet werden, wobei zwei Elemente, die zueinander in Relation
stehen, durch eine Kante (Verbindungsstrecke) verbunden werden.
• Für Relationen über einer Menge A kann man gerichtete Graphen verwenden.
Dabei wird jedes Element von A als ein Knoten und jedes Paar (a, b) ∈ R durch
eine von a nach b gerichtete Kante gezeichnet.
Relationsoperationen
1. Sind R und R0 Relationen zwischen A und B, dann sind auch die Vereinigung
R ∪ R0 , der Durchschnitt R ∩ R0 sowie das Komplement R = (A × B) \ R
Relationen zwischen A und B.
2. Die zu einer Relation R ⊆ A × B inverse Relation R−1 ⊆ B × A ist definiert
durch R−1 = {(b, a) ∈ B × A | (a, b) ∈ R}.
3. Die Verkettung oder Komposition R ◦ S von zwei Relationen R ⊆ A × B und
S ⊆ B × C ist definiert durch
{(a, c) ∈ A × C | es gibt ein b ∈ B mit (a, b) ∈ R und (b, c) ∈ S}.
Beispiele:
1) Wir betrachten die Vergleichsrelationen <, ≤, ≥ und = über den natürlichen
Zahlen N. Offensichtlich ist die Vereinigung der Relationen < und = die Relation ≤.
Das Komplement der Relation < ist die Relation ≥. Der Durchschnitt der Relationen
≤ und ≥ ist die identische Relation IdN . Die zu ≤ inverse Relation ist ≥, die identische
Relation ist zu sich selbst invers.
2) Sei M die Menge aller Menschen und R ⊆ M × M “Elternrelation”, also a R b,
falls a Vater oder Mutter von b ist. Dann kann man die inverse Relation R−1 sowie
die Verkettungen R ◦ R, R ◦ R−1 und R−1 ◦ R wie folgt charakterisieren:
• a R−1 b, falls a Kind von b ist,
• a R ◦ R b, falls a Großvater oder Großmutter von b ist,
• a R ◦ R−1 b, falls a und b ein gemeinsames Kind haben oder falls a = b und a
hat ein Kind,
19
• a R−1 ◦ R b, falls a = b oder falls a und b Geschwister oder Halbgeschwister sind.
Eigenschaften von Relationen über Mengen
Definition: Sei R eine Relation über A.
• R ist reflexiv, falls für jedes a ∈ A gilt, dass a R a, d.h. IdA ⊆ R.
• R ist symmetrisch, falls aus a R b folgt, dass b R a , d.h. R−1 ⊆ R.
• R ist transitiv, falls aus a R b und b R c folgt, dass a R c, d.h. R ◦ R ⊆ R.
• R ist antisymmetrisch, falls aus a R b und b R a die Gleichheit von a und b folgt,
d.h. R ∩ R−1 ⊆ IdA .
• R ist asymmetrisch, falls aus a R b folgt, dass (b, a) 6∈ R, d.h. R ∩ R−1 = ∅.
Beispiele:
1) Die Vergleichsrelationen ≤ und ≥ sind über N, Z, Q und R reflexiv, transitiv und
antisymmetrisch. Die Relationen < und > sind nicht reflexiv, aber transitiv, antisymmetrisch und asymmetrisch.
2) Die oben definierte Teilbarkeitsrelation ist reflexiv und transitiv über N und über Z.
Sie ist antisymmetrisch über N, aber als Relation über Z ist sie nicht antisymmetrisch,
denn 1| − 1 und −1|1, aber 1 6= −1.
2.3
Äquivalenzrelationen
Definition: Eine Relation über einer Menge A wird Äquivalenzrelation genannt,
wenn sie reflexiv, symmetrisch und transitiv ist.
Beispiele:
• Sei N die Menge der natürlichen Zahlen und R definiert durch a R b, genau dann
wenn a und b beim Teilen durch 5 den gleichen Rest haben. Dann ist R eine
Äquivalenzrelationüber N.
• Die Relation ≡ der logischen Äquivalenz über der Menge der Booleschen Formeln
ist eine Äquivalenzrelation.
• Sei M die Menge aller Menschen und R die Relation, die zwei Menschen in
Beziehung setzt, wenn sie denselben Vater und dieselbe Mutter haben. Diese
Geschwisterrelation ist offensichtlich eine Äquivalenzrelation. Die HalbgeschwisterRelation ist im Allgemeinen nicht transitiv und somit keine Äquivalenzrelation.
20
Definition: Ist R ⊆ A × A eine Äquivalenzrelation und ist a ∈ A, dann nennt man
die Menge {x ∈ A | xRa} die Äquivalenzklasse von a (bezüglich R). Sie wird mit [a]R
oder auch mit a/R bezeichnet. Ein Element einer Äquivalenzklasse wird Repräsentant
dieser Klasse genannt.
Lemma: Sei R eine Äquivalenzrelation, dann sind zwei Äquivalenzklassen [a]R und
[b]R entweder gleich oder disjunkt. Sie sind genau dann gleich, wenn a R b gilt.
Beweis: Wir verifizieren dazu die folgende Schlusskette:
[a]R ∩ [b]R 6= ∅
(1)
=⇒
aRb
(2)
=⇒
[a]R = [b]R
(1) Sei c ∈ [a]R ∩ [b]R , dann gilt cRa und cRb, wegen der Symmetrie auch aRc und
wegen der Transitivität auch aRb.
(2) Sei d ein beliebiges Element aus [a]R und gelte aRb. Dann gilt dRa und wegen
der Transitivität auch dRb. Damit liegt d in der Äquivalenzklasse[b]R und folglich
ist [a]R ⊆ [b]R . Wegen der Symmetrie kann man aber auch die Rollen von a und b
vertauschen und somit [b]R ⊆ [a]R ableiten, woraus letztlich die Gleichheit der beiden
Äquivalenzklassen folgt.
Die erste Aussage des folgenden Satzes kann als einfache Schlussfolgerung aus dem
Lemma abgeleitet werden.
Satz: Ist R ⊆ A × A eine Äquivalenzrelation, dann bildet die Menge aller Äquivalenzklassen eine Partition von A. Umgekehrt, ist eine Partition {Ai | i ∈ I} von A
gegeben, dann ist die durch
a R b ⇐⇒ ∃i ∈ I
a ∈ Ai ∧ b ∈ Ai
definierte Relation R eine Äquivalenzrelation.
Definition: Sei R ⊆ A × A eine Äquivalenzrelation. Eine Untermenge von A wird
Repräsentantensystem von R genannt, wenn sie aus jeder Äquivalenzklasse genau ein
Element enthält.
Beispiel: Wir verallgemeinern das Beispiel der Relation, die durch gleiche Reste beim
Teilen durch 5 definiert ist, indem wir an Stelle der 5 einen beliebigen ganzzahligen
Teiler d ≥ 2 betrachten. Man nennt zwei Zahlen a, b ∈ N kongruent modulo d, wenn
sie beim Teilen durch d den gleichen Rest haben (Kongruenzrelationen sind spezielle
Äquivalenzrelationen, die verträglich mit bestimmten Operationen sind, in diesem
Fall mit Addition und Multiplikation). Zur Notation verwendet man a mod d für
den Rest beim Teilen von a durch d und den Ausdruck a ≡ b ( mod d) für
die Tatsache, dass a und b beim Teilen durch d den gleichen Rest haben, also dass
a mod d und b mod d gleich sind.
Bei der Kongruenzrelation modulo d werden die einzelnen Äquivalenzklassenjeweils
durch die Zahlen mit gleichem Rest gebildet, was im Beispiel d = 5 zu der folgenden
Partition von N führt:
{{0, 5, 10 . . .}, {1, 6, 11, . . .}, {2, 7, 12, . . .}, {3, 8, 13, . . .}, {4, 9, 14, . . .}}
21
Offensichtlich bilden die Reste {0,1,2,3,4} ein Repräsentantensystem (das sogenannte
Standard–Repräsentantensystem), aber auch die Menge {3, 10, 7, 21, 9} ist ein Repräsentantensystem.
Satz: Die identische Relation IdA und die Allrelation A × A sind Äquivalenzrelationen. Sind R und R0 Äquivalenzrelationen in A, dann ist auch R ∩ R0 eine Äquivalenzrelation in A.
Achtung: Die letzte Aussage gilt im Allgemeinen nicht für Vereinigungen. Als
Gegenbeispiel kann man die Kongruenzrelationen modulo 2 und modulo 3 betrachten.
Offensichtlich ist das Paar (1, 6) nicht in der Vereinigung, denn 1 und 6 haben sowohl
beim Teilen durch 2 als auch beim Teilen durch 3 verschiedene Reste. Andererseits
sind die Paare (1, 4) - gleicher Rest beim Teilen durch 3 - und (4, 6) - gleicher Rest
beim Teilen durch 2 - in der Relationsvereinigung. Folglich ist diese Vereinigung nicht
transitiv.
Allgemein kann jede Relation R ⊆ A × A durch die folgenden 3 Schritte zu einer
Äquivalenzrelation erweitert werden:
1) reflexiver Abschluss:
Rr = R ∪ IdA
2) symmetr. Abschluss: Rrs = Rr ∪ Rr−1 = R ∪ R−1 ∪ IdA
S
i
3) transitiver Abschluss: Rrst = Rrs ∪ Rrs ◦ Rrs ∪ Rrs ◦ Rrs ◦ Rrs ∪ . . . = ∞
i=1 Rrs
i
wobei Rrs
die i-fache Verkettung von Rrs ist.
Beispiel: Der reflexiv–symmetrisch–transitive Abschluss der Nachfolgerrelation auf
den natürlichen Zahlen ist die Allrelation. Setzt die Relation R jede natürliche Zahl
n zum Nachfolger ihres Nachfolgers, also zu n + 2 in Beziehung, dann ist der reflexiv–
symmetrisch–transitive Abschluss dieser Relation die Kongruenz modulo 2.
2.4
Ordnungsrelationen
Definition: Eine Relation R über einer Menge A, die reflexiv, transitiv und antisymmetrisch ist, wird Halbordnungsrelation oder auch partielle Ordnungsrelation
genannt. Das Paar (A, R) nennt man eine halb– (partiell) geordnete Menge oder kurz
poset als Abkürzung für partially ordered set.
Endliche, halbgeordnete Mengen werden oft durch sogenannte Hasse–Diagramme
dargestellt. Dabei werden die Elemente der Menge als Punkte in der Ebene gezeichnet, wobei direkte Nachfolger jeweils höher als ihre Vorgänger liegen und mit ihnen
durch ein Liniensegment verbunden sind. Formal betrachtet beschreibt das Hasse–
Diagramm eines Posets (A, R) die kleinste Unterrelation von R, deren reflexiver und
transitiver Abschluss R ergibt. Die folgende Abbildung zeigt das Hasse–Diagramm
der Potenzmenge einer 3–elementigen Menge M = {a, b, c}:
22
{a,b,c}
{a,b}
{a,c}
{b,c}
{a}
{b}
{c}
Beispiele:
1) Für jede beliebige Menge M ist (P(M ), ⊆) eine halbgeordnete Menge.
2) Die Teilbarkeitsrelation | ist eine Halbordnungsrelation in der Menge der positiven
ganzen Zahlen Z+ .
3) In der Menge der reellen Zahlen R ist die Relation ≤ eine Halbordnungsrelation.
4) Die Menge der Wörter einer Sprache wird durch die “lexikographische Ordnung”
geordnet.
Zwei Begriffe sind eng verwandt mit partiellen Ordnungsrelationen: totale Ordnungsrelationen und strikte (oder strenge) Ordnungsrelationen. Diese Begriffe werden
durch die folgenden Definitionen genauer erläutert.
Definition: Zwei Elemente a und b einer halbgeordneten Menge (A, R) nennt man
vergleichbar, falls a R b oder b R a gilt. Anderenfalls nennt man sie unvergleichbar.
Eine Halbordnungsrelation R in einer Menge A wird totale (oder auch lineare) Ordnungsrelation genannt, wenn jedes Paar von Elementen vergleichbar ist.
Beispiele: In den obigen Beispielen sind die Relationen aus 1) und 2) keine totalen
Ordnungsrelationen. So sind für M = {a, b, c} die Untermengen {a} und {c} unvergleichbar bezüglich der Teilmengenrelation. Die Zahlen 6 und 20 sind unvergleichbar
bezüglich der Teilbarkeitsrelation. Dagegen ist ≤ eine totale Ordnungsrelation für
die reellen Zahlen. Die lexikographische Ordnung ist eine totale Ordnungsrelation.
Bemerkung: Taucht in der Literatur der Begriff “Ordnungsrelation” auf, so ist
darunter in der Regel eine “Halbordnungsrelation” zu verstehen.
Definition: Eine Relation R über einer Menge A wird strikte oder strenge Ordnungsrelation genannt, wenn sie transitiv und asymmetrisch ist.
Typische Beispiele für strikte Ordnungsrelationen sind die “echt–kleiner”–Relation
< oder die Relation, ein echter Teiler zu sein. Generell kann man aus jeder Halbordnungsrelation R über einer Menge A eine strikte Ordnungsrelation R0 = R \ IdA
ableiten und umgekehrt kann aus jeder strikten Ordnungsrelation durch Vereinigung
mit IdA eine Halbordnungsrelation gemacht werden.
Weitere Begriffe, die wie das Maximum und Minimum aus der Schulmathematik
23
bekannt sind, müssen im Kontext mit Halbordnungsrelationen noch einmal neu definiert werden.
Definition: Sei (A, ≺) ein Poset, B 6= ∅ eine Teilmenge von A und a ∈ A.
• a ist eine obere (bzw. untere) Schranke von B, wenn b ≺ a (bzw. a ≺ b) für alle
b ∈ B gilt.
• a ist ein maximales (bzw. minimales) Element von B, wenn a ∈ B und es kein
von a verschiedenes b ∈ B gibt, so dass a ≺ b (bzw. b ≺ a).
• a wird größtes Element von B (bzw. kleinstes Element von B) genannt, wenn
a ∈ B und a eine obere (bzw. untere) Schranke von B ist.
• a wird Supremum oder obere Grenze von B (bzw. Infimum oder untere Grenze
von B) genannt, wenn die Menge O(B) der oberen Schranken von B (bzw. die
Menge U (B) der unteren Schranken von B) nicht leer ist und a das kleinste
Element von O(B) (bzw. das größte Element von U (B)) ist.
Bemerkungen zur Definition:
• Eine Teilmenge B kann mehrere maximale bzw. mehrere minimale Elemente
haben. Ist B endlich, dann gibt es mindestens ein maximales und ein minimales
Element von B.Dagegen gibt es einfache Beispiele von endlichen Mengen, für
die es keine obere und untere Schranken und somit auch weder größte oder
kleinste Elemente noch obere oder untere Grenzen gibt.
• Existiert ein größtes (bzw. kleinstes) Element von B, dann ist es eindeutig.
Somit ist auch die obere bzw. untere Grenze von B eindeutig sofern sie überhaupt
existiert.
• Etwas verwirrend ist die Konvention, das größte (bzw. kleinste) Element von
B, sofern es existiert, als Maximum (bzw. Minimum von B zu bezeichnen. Es
gilt der Merksatz, dass das Maximum (wenn existent) immer ein maximales
Element ist, aber nicht die Umkehrung.
• Da Maximum, Minimum, Supremum oder Infimum einer Teilmenge B bei Existenz immer eindeutig sind, kann man für sie die Bezeichnungen max(B),
min(B), sup(B),inf (B) einführen. Diese stehen dann entweder für ein eindeutig existierendes Element oder für nicht existierend.
Beobachtung: Wenn für eine Teilmenge B einer Halbordnung (A, ≺) das Maximum
(bzw. Minumum) existiert, dann existiert auch das Supremum (bzw. das Infimum)
und es gilt sup(B) = max(B) (bzw. inf (B) = min(B)).
Beweis: Sei a das Maximum von B, dann gilt (i) a ∈ B und (ii) ist a obere
Schranke von B, d.h. b ≺ a für alle b ∈ B. Man muss zeigen, dass a in der Menge
der oberen Schranken O(B), das kleinste Element ist. Nach Definition muss also a
Element und untere Schranke von O(B) sein. Die erste Eigenschaft ist bereits durch
24
die Voraussetzung (ii) gegeben. Für die zweite Eigenschaft müssen wir a ≺ c für
alle c ∈ O(B) nachweisen. Aus c ∈ O(B) folgt aber b ≺ c für alle b ∈ B, also auch
insbesondere für b = a. Somit ist a auch das Supremum von B.
Beispiel: Wir betrachten die durch nachfolgendes Hasse-Diagramm dargestellte Halbordnung (A, ≺) mit den Teilmengen B = {d, e} und C = {f, g, h}:
h
g
f
d
e
a
b
c
• Die Gesamtmenge A hat ein maximales Element, nämlich h und drei minimale
Elemente, nämlich a, b und c. Damit is h auch das Maximum und Supremum
von A, Minimum und Infimum existieren nicht.
• B hat zwei obere Schranken, nämlich f und h und zwei untere Schranken,
nämlich a und b.
• Sowohl d als auch e sind maximale und minimale Elemente von B.
• B hat weder ein Maximum noch ein Minimum noch ein Infimum, aber ein
Supremum sup(B) = f .
• C hat eine obere Schranke, nämlich h und vier untere Schranken, nämlich a, b, c
und e.
• C besitzt ein maximales Element, nämlich h, und die minimalen Elemente f
und g.
• C hat kein Minimum, aber inf (C) = e und sup(C) = max(C) = h.
2.5
Funktionen
Definition: Unter einer Funktion (oder Abbildung) f von einer Menge A in eine
Menge B versteht man eine Zuordnung, bei der jedem Element aus A ein eindeutig
bestimmtes Element aus B entspricht. Formal kann f als eine Relation zwischen A
und B charakterisiert werden, so dass für jedes a ∈ A genau ein b ∈ B existiert
mit a f b. Als übliche Schreibweise verwenden wir f : A −→ B um auszudrücken,
25
dass f eine Funktion von A nach B ist, und f (a) = b, um auszudrücken, dass dem
Element a durch die Funktion f der Wert b zugeordnet wird. Die Menge A wird
Definitionsbereich von f und die Menge B wird Wertebereich oder Wertevorrat von
f genannt.
Anmerkung: Die hier verwendete Definition von Funktionen ist die in der Mathematik übliche Form. In der Informatik spielen oft auch sogenannte partielle Funktionen
eine Rolle. Das sind Relationen zwischen A und B, so dass jedes a ∈ A zu höchstens
einem b ∈ B in Beziehung steht. Im Sinne der oben gegebenen Definition ist also
eine partielle Funktion nicht ein Spezialfall einer Funktion, sondern im Allgemeinen
gar keine Funktion, aber eine Funktion ist auch immer eine partielle Funktion.
Definition: Ist f : A −→ B eine Funktion, M ⊆ A und N ⊆ B, dann nennt man
die Menge
f (M ) = {y ∈ B | es gibt ein x ∈ M mit f (x) = y} das Bild von M unter f
und die Menge
f −1 (N ) = {x ∈ A | f (x) ∈ N } das vollständige Urbild von N unter f .
Definition:
• Eine Funktion f : A −→ B heißt surjektiv, falls jedes Element von B im Bild
von A auftritt, d.h. f (A) = B. Man kann sagt dann auch, dass f die Menge A
auf die Menge B abbildet.
• Eine Funktion f : A −→ B heißt injektiv oder eineindeutig, falls je zwei verschiedene Elemente aus A auch verschiedene Bilder haben, d.h. wenn aus
f (a) = f (a0 ) die Gleichheit von a und a0 folgt.
• Eine Funktion wird bijektiv genannt, wenn sie injektiv und surjektiv ist.
Beispiel: Wir betrachten die bekannte Sinusfunktion. Als Funktion von den reellen
Zahlen in die reellen Zahlen ist sin : R −→ R weder injektiv noch surjektiv.
Durch Einschränkungen von Definitions– und/oder Wertebereich kann man diese
Eigenschaften erzwingen:
• sin : R −→ [−1, 1] ist surjektiv, aber nicht injektiv
• sin : [− π2 , π2 ] −→ R ist injektiv, aber nicht surjektiv
• sin : [− π2 , π2 ] −→ [−1, 1] ist bijektiv.
Betrachtet man eine Funktion f : A −→ B als Relation, dann ist die zu f inverse
Relation f −1 genau dann eine Funktion, wenn f bijektiv ist. In diesem Fall wird f −1
die zu f inverse Funktion genannt.
Definition: Sind f : A −→ B und g : B −→ C Funktionen, dann ist die Relationsverkettung f ◦ g eine Funktion von A in C. Sie wird Verknüpfung oder Komposition von f und g genannt und durch gf : A −→ C bezeichnet, wobei gf (a) = g(f (a))
26
gilt. Man beachte, dass Relationsverkettungen von links nach rechts und Funktionsverknüpfungen von rechts nach links geschrieben werden.
Satz: Die folgenden Fakten ergeben sich als einfache Schlussfolgerungen aus den
Definitionen. Seien f : A −→ B und g : B −→ C zwei Funktionen, dann gilt:
• Ist f bijektiv, dann ist f −1 f = IdA und f f −1 = IdB
• f ist genau dann injektiv, wenn eine Funktion h : B −→ A existiert mit
hf = IdA .
• f ist genau dann surjektiv, wenn eine Funktion h : B −→ A existiert mit
f h = IdB .
• Sind f und g injektiv, dann ist auch gf injektiv.
• Sind f und g surjektiv, dann ist auch gf surjektiv.
• Sind f und g bijektiv, dann ist auch gf bijektiv und es gilt (gf )−1 = f −1 g −1 .
Beispiel 1: Die folgende Abbildung illustriert den zweiten Fakt. Die links dargestellte Funktion f : A −→ B ist injektiv. Zur Konstruktion der Funktion h : B −→
A bilden wir alle Elemente b aus dem Bild f (A) auf das eindeutige Element aus
dem Urbild f −1 ({b}) ab (die Eindeutigkeit folgt aus der Injektivität von f , in der
graphischen Darstellung bedeutet das einfach die Umkehrung der Pfeile). Zusätzlich
fixieren wir ein beliebiges Element a ∈ A und bilden alle Elemente aus B \ f (A) auf
a ab (gestrichelte Pfeile in der Mitte). Die Komposition hf ist dann die Identische
Abbildung auf A (rechts).
a
f
A
h
B
hf
B
A
A
A
Beispiel 2: Bezeichne R die Menge der reellen Zahlen und R≥0 die Menge der nicht
negativen reellen Zahlen. Dann ist die Funktion f (x) = x2 eine surjektive Funktion
von R auf R≥0 . Wir suchen eine passende Funktion h : R≥0 −→ R, so dass f h = idR≥0 ,
d.h. h muss jedes y ∈ R≥0 auf eine Zahl x abbilden, deren Quadrat wieder y ist.
Diese Eigenschaft wird offensichtlich durch die Quadratwurzelfunktion erfüllt, d.h.
√
√
h(y) = y wäre eine geeignete Wahl, aber auch die Funktion h(y) = − y hat die
geforderte Eigenschaft.
Satz: Jede Funktion f : A −→ B induziert eine Äquivalenzrelation ∼f über A durch
a ∼f b genau dann, wenn f (a) = f (b).
Diese Äquivalenzrelation wird auch die Faserung von A durch f genannt.
27
2.6
Natürliche Zahlen, Endlichkeit und Kardinalzahlen
Peano-Axiome Alle aus der Schulmathematik bekannten Aussagen über natürliche
Zahlen können aus einigen wenigen Grundannahmen abgeleitet werden. Diese grundlegenden Voraussetzungen für die Existenz der natürlichen Zahlen (und letzlich Grundlagen der gesamten Zahlentheorie) gehen auf Richard Dedekind und Giuseppe Peano
zurück und sind als die Peano-Axiome bekannt:
1. 0 ist eine natürliche Zahl.
2. Jede natürliche Zahl n hat einen eindeutigen Nachfolger S(n), der auch eine
natürliche Zahl ist.
3. Aus S(n) = S(m) folgt n = m.
4. 0 ist kein Nachfolger einer natürlichen Zahl.
5. Jede Menge X, die 0 enthält und für die gilt, dass aus n ∈ X auch S(n) ∈ X
folgt, enthält alle natürlichen Zahlen.
Achtung: Wir schreiben für den Nachfolger S(n) auch n+1, aber das ist als symbolische Schreibweise und nicht als Anwendung der Operation Addition zu verstehen. Im
Gegenteil - man kann die Addition durch Anwendung der Nachfolgerfunktion rekursiv
definieren.
Konsequenz 1: Man kann Funktionen f : N −→ A definieren, indem man f (0) festlegt und f (S(n)) auf f (n) zurückführt. Dieses Prinzip der Definition von Funktionen
nennt man Rekursion.
Konsequenz 2: Man kann allgemeine Aussagen über natürliche Zahlen nach dem folgenden Schema beweisen. Eine Aussageform P (x) über dem Bereich der natürlichen
Zahlen ist wahr für alle natürlichen Zahlen, wenn sie die folgenden zwei Bedingungen
erfüllt:
1. P (0) ist wahr.
2. Für beliebige n ∈ N gilt: Ist P (n) wahr, dann ist auch P (n + 1) wahr.
Dieses Beweisprinzip nennt man vollständige Induktion.
Die beide Themen in der Vorlesung Informatik A ausführlich behandelt wurden,
verzichten wir hier auf weitere Einzelheiten und auf Beispiele.
Endliche Mengen und Kardinalzahlen
Definition: Zwei Mengen A und B werden gleichmächtig genannt, wenn eine bijektive Funktion f : A −→ B existiert.
In diesem Sinne bedeutet eine Abzählung einer endlichen (n-elementigen) Menge
M , dass eine Bijektion zwischen der Menge {1, 2, . . . , n} und M (oder zwischen
28
{0, 1, . . . , n−1} und M ) konstruiert wird. Problematisch ist dabei, dass die Beschreibung von {1, 2, . . . , n} (oder {0, 1, . . . , n−1}) genau gesehen eine rekursive Definition
ist. John von Neumann löste dieses Problem durch eine spezielle Konstruktion der
natürlichen Zahlen.
Definition: Die natürlichen Zahlen in Sinne von von Neumann bilden die kleinste
Menge mit den folgenden zwei Eigenschaften:
1) 0 = ∅ ∈ N
2) Ist n ∈ N, dann ist auch der Nachfolger S(n) := n ∪ {n} in N.
Damit erhalten wir die folgende Darstellung der natürlichen Zahlen:
0 = ∅,
1 = {∅} = {0},
2 = {∅, {∅}} = {0, 1},
3 = {∅, {∅}, {∅, {∅}}} = {0, 1, 2}
......
Jede natürliche Zahl ist nach dieser Konstruktion durch die Anzahl ihrer Elemente
bestimmt.
Definition: Eine Menge A wird endlich genannt, wenn es eine von Neumannsche
natürliche Zahl n gibt, so dass A und n gleichmächtig sind. In diesem Fall wird n die
Kardinalzahl von A genannt (Schreibweise |A| = n). Zwei endliche Mengen sind also
gleichmächtig, wenn die Anzahlen ihrer Elemente gleich sind.
Satz: Sind A, B und M endliche Mengen, dann gelten die folgenden Aussagen über
ihre Mächtigkeiten:
1. |A \ B| = |A| − |A ∩ B|
2. |A ∪ B| = |A| + |B| − |A ∩ B|
3. |A × B| = |A| · |B|
4. |P(M )| = 2|M |
Anmerkungen zu diesen Punkten 1) Die Summenregel ist eine Grundregel der
Kombinatorik, die besagt, dass die Größe der Vereinigung von zwei disjunkten endlichen
Mengen A und B sich als Summe aus |A| und |B| ergibt. Diese Regel ist als Spezialfall
in der ersten und zweiten Aussage enthalten.
2) Die Verallgemeinerung der zweiten Aussage für drei und mehr Mengen führt zum
sogenannten Prinzip der Inklusion–Exklusion:
|A ∪ B ∪ C| = |A| + |B| + |C| − (|A ∩ B| + |A ∩ C| + |B ∩ C|) + |A ∩ B ∩ C|
|
k
S
i=1
Ai | =
P
|Ai | − (
1≤i≤k
... + ...
P
|Ai1 ∩ Ai2 |) + (
1≤i1 <i2 ≤k
P
1≤i1 <i2 <i3 ≤k
+ (−1)k+1 |
k
T
i=1
29
Ai |
|Ai1 ∩ Ai2 ∩ Ai3 |)−
3) Die dritte Aussage ist auch eine Grundregel der Kombinatorik und wird Produktregel genannt.
4) Wie man leicht sieht, gibt es eine bijektive Abbildung von P(M ) auf die Menge der
Funktionen von M nach {0, 1}. Dabei wird jedem A ∈ P(M ) die charakteristische
Funktion χA : M −→ {0, 1} zugeordnet, welche jedes x ∈ A auf 1 abbildet und für
alle x 6∈ A den Wert 0 hat. Bezeichnet man für zwei Mengen N und M mit N M die
Menge aller Funktionen von M nach N , dann kann die oben beschriebene Bijektion
auch wie folgt gelesen werden:
P(M ) ist gleichmächtig mit {0, 1}M (also mit 2M , da 2 = {0, 1} im Sinne der von
Neumannschen natürlichen Zahlen).
Aus dieser Sicht kann man die vierte Aussage wie folgt verallgemeinern: Sind N und
M zwei beliebige endliche Mengen, dann ist die Anzahl der Funktionen von M in N
gleich |N ||M | , also |N M | = |N ||M | .
Abzählbarkeit
Definition: Eine Menge A, die nicht endlich ist, wird unendlich genannt (Schreibweise |A| = ∞).
Eine Menge A wird abzählbar genannt, wenn sie endlich ist oder wenn sie mit der
Menge der natürlichen Zahlen N gleichmächtig ist.
Satz: Die Menge Z der ganzen Zahlen und die Menge Q der rationalen Zahlen sind
abzählbar.
Beweisidee: Für Z reicht es aus, eine unendliche Folge z0 , z1 , z2 , . . . zu bilden in der
jede ganze Zahl genau einmal auftritt, denn dann wird durch f (n) := zn eine Bijektion
zwischen N und Z definiert. Eine solche Folge ist z.B. 0, 1, −1, 2, −2, 3, −3, . . .. In
diesem Fall ist es auch leicht, eine geschlossene Formel für die Bijektion f : N −→ Z
anzugeben:
lnm −n
falls n gerade
n+1
2
=
f (n) = (−1)
·
n+1
falls n ungerade
2
2
Für Q kombiniert man diesen Trick der alternierenden Aufzählung mit einem Schema
zur Aufzählung aller positiven rationalen Zahlen. Dazu schreibt man alle Brüche mit
positiven Zählern und Nennern in eine Tabelle und läuft die Zellen systematisch nach
folgendem Schema ab. Daraus ergibt sich eine surjektive Abbildung g : N −→ Q+ .
1
4
2
4
3
4
4
4
5
4
1
3
2
3
3
3
4
3
5
3
1
2
2
2
3
2
4
2
5
2
1
1
2
1
3
1
4
1
5
1
30
Um nicht nur eine surjektive Abbildung, sondern eine Bijektion zu erhalten, muss man
letzlich noch dafür sorgen, dass alle Brüche übersprungen werden, deren rationaler
Wert schon vorher erreicht wurde (das sind alle Brüche, die sich kürzen lassen). Im
abgebildeten Schema ist der Bruch 22 der erste, den man überspringen muss, danach
die Brüche 42 , 33 und 24 . Da es in diesem Fall wesentlich schwerer ist, eine geschlossene
Formel für g anzugeben, begnügen wir uns hier mit der verbalen Konstruktionsbeschreibung einer solchen Bijektion.
Satz: Die Menge der reellen Zahlen ist nicht abzählbar.
Beweis: Wir führen einen Widerspruchsbeweis, um zu zeigen, dass schon die reellen
Zahlen aus dem Intervall [0, 1] nicht abzählbar sind. Dazu nehmen wir an, dass es eine
bijektive Abbildung f : N −→ [0, 1] gibt und schreiben die Bilder f (0), f (1), f (2), . . .
als Dezimalbrüche
f (0)
f (1)
f (2)
:
=
=
=
:
0, a0,0 a0,1 a0,2 a0,3 . . .
0, a1,0 a1,1 a1,2 a1,3 . . .
0, a2,0 a2,1 a2,2 a2,3 . . .
:
ai,j ∈ {0, 1, 2, . . . , 9}
Es ist bekannt, dass Dezimalbruch–Darstellungen von reellen Zahlen immer dann
eindeutig sind, wenn sie nicht mit 9 (d.h. 9–Periode) enden und auch nicht abbrechen
(d.h. 0–Periode).
Jetzt ist es leicht, eine Zahl r ∈ [0, 1] mit der Darstellung 0, b0 b1 b2 . . . zu konstruieren,
die nicht im Bild von f liegt, indem man die einzelnen Dezimalstellen wie folgt festlegt
1
falls ai,i 6= 1
bi =
2
falls ai,i = 1
Offensichtlich hat die Zahl r eine eindeutige Darstellung und liegt nicht im Bild von
f , weil sie sich von jedem f (n) aus dem Bild an der n–ten Stelle unterscheidet.
Folglich ist die Abbildung f nicht surjektiv, ein Widerspruch zur Annahme, dass f
eine Bijektion ist.
Die hier verwendete Beweistechnik bezeichnet man als Diagonalisierung. In der theoretischen Informatik wird sie in abgewandelter Form für Unmöglichkeitsbeweise eingesetzt (z.B. um zu zeigen, dass bestimmte Funktionen nicht berechenbar sind). Der
folgende Satz beinhaltet eine weitere Anwendung dieser Technik.
Satz: Es gibt keine surjektive Abbildung von einer Menge M auf ihre Potenzmenge.
Beweis durch Widerspruch: Angenommen M wäre eine Menge mit einer surjektiven Abbildung f : M −→ P(M ). Wir bilden die Menge A = {x ∈ M | x 6∈ f (x)}.
Da A Untermenge von M , also Element von P(M ) ist, muss es ein a ∈ M mit
f (a) = A geben, anderenfalls wäre f nicht surjektiv. Der Widerspruch besteht darin,
dass aus der Definition von A die logische Äquivalenz der Aussagen a ∈ A und a 6∈ A
folgt.
31
3
Kombinatorik
3.1
Elementare Zählprinzipien
Die Abzählung von endlichen Mengen ist das klassische Thema der Kombinatorik.
Dabei wird eine unendliche Familie {An | n ∈ I} von endlichen Mengen An betrachtet,
wobei n eine Indexmenge I durchläuft (in der Regel die natürlichen Zahlen). Zu
bestimmen ist die Zählfunktion f : I −→ N mit f (n) = |An | für alle n ∈ I. Hier und
im Folgenden bezeichnet |M | die Anzahl der Elemente (Mächtigkeit) einer Menge M ,
falls diese endlich ist und ∞ anderenfalls.
Oft werden die Mengen An aus einer gegebenen n–elementigen Menge M (auch kurz
n–Menge genannt) durch einfache strukturelle oder kombinatorische Bedingungen
abgeleitet, z.B. die Menge S(M ) aller Permutationen von M (das sind bijektive Abbildungen
von M nach M ), die Menge P(M ) aller Untermengen oder die Menge
M
aller k–Untermengen von M . Im letzten Fall ist die Zählfunktion von den zwei
k
Größen n und k abhängig. Ziel ist es, eine möglichst kurze, geschlossene Formel für
f (n) bzw. f (n, k) zu finden.
Die meisten Aufgabenstellungen dieser Art lassen sich (auch wenn die Lösung teilweise
enormen technischen Aufwand erfordert) auf vier Grundregeln zurückführen.
• Summenregel: Ist S die Vereinigung
Ptvon paarweise disjunkten, endlichen
Mengen S1 , S2 , . . . , St , dann gilt |S| = i=1 |Si |.
• Produktregel:Q
Ist S das Kartesische Produkt von t endlichen Mengen S1 , S2 , . . . , St ,
dann gilt |S| = ti=1 |Si |.
• Gleichheitsregel: Existiert eine bijektive Abbildung zwischen zwei Mengen S
und T , so gilt |S| = |T |.
• Die Regel vom doppelten Abzählen wird etwas später erklärt.
Die Gleichheitsregel ist letzlich nur eine Umformulierung der Definition für die Gleichmächtigkeit von zwei Mengen. Die Summen- und Produktregel kann man mit vollständiger
Induktion beweisen.
Eine typische Anwendung der Summenregel besteht darin, die Elemente der Menge
S nach gewissen, sich gegenseitig ausschließenden Eigenschaften Ei (i = 1, . . . , t) zu
klassifizieren und die Mengen Si wie folgt zu setzen {x ∈ S | x hat Eigenschaf t Ei }.
Beispiel: Wir haben bereits eine Plausibilitätserklärung gefunden, warum die Potenzmenge einer n–Menge M genau 2n Elemente hat. Hier ist ein kompletter Beweis mit
vollständiger Induktion nach n.
Induktionsanfang: Für n = 0 ist M = ∅, P(M ) = {∅} und folglich |P(M )| = 1 = 20 .
Induktionsschritt von n nach n+1: Sei M eine (n+1)–Menge und a ein fest gewähltes
Element aus M . Wir zerlegen P(M ) in zwei disjunkte Teilmengen S1 = {A ⊆
M | a ∈ A} und S2 = {A ⊆ M | a 6∈ A}. Offensichtlich ist S2 = P(M \ {a})
die Potenzmenge einer n–Menge und nach Induktionsvoraussetzung gilt |S2 | = 2n .
32
Wir konstruieren eine Bijektion zwischen S1 und S2 , indem wir jeder Menge A ∈
S1 die Menge B = A \ {a} ∈ S2 zuordnen. Man erkennt die Bijektivität dieser
Abbildung daran, dass eine Umkehrabbildung existiert, die jedem B ∈ S2 die Menge
A = B ∪ {a} ∈ S1 zuordnet. Aus der Gleichheitsregel folgt |S1 | = |S2 | und aus der
Summenregel |P(M )| = |S1 | + |S2 | = 2|S2 | = 2 · 2n = 2n+1 .
Man kann die gleichen Argumente verwenden, um eine Rekursion
für die Anzahl
der k-Teilmengen einer n-Menge zu entwickeln. Sei S = Mk die Menge aller k–
Untermengen einer n–Menge M und bezeichne nk die Kardinalzahl von S (zunächst
nur als ein formaler Ausdruck). Wir fixieren ein a ∈ M und klassifizieren die k–
Untermengen von M nach der Eigenschaft, ob sie a enthalten (E1 ) oder nicht (E2 ).
Also ist S1 =
{A ∈ S | a ∈ A} und S2 = {A ∈ S | a 6∈ A}. Wie man leicht sieht, ist
S2 = M \{a}
und auf der anderen Seite gibt es eine Bijektion zwischen S1 und der
k
Menge aller (k − 1)–Untermengen von M \ {a}. Durch Anwendung von Gleichheits–
und Summenregel erhalten wir die folgende rekursive Formel
n
n−1
n−1
=
+
k
k−1
k
Definitition: Ein Inzidenzsystem (S, T, I) besteht aus zwei (endlichen) Mengen S
und T und einer Inzidenzrelation I ⊆ S × T .
Regel vom zweifachen Abzählen: Sei (S,T,I) ein Inzidenzsystem und sei r(a) =
|{b ∈ T | (a, b) ∈ I}|, r(b) = |{a ∈ S | (a, b) ∈ I}| für alle a ∈ S, b ∈ T , dann gilt:
X
X
r(b).
r(a) =
a∈S
b∈T
In der Tat sind beide Summen gleich |I|, denn die Paare der Relation I wurden
nur auf zwei verschiedene Weisen aufgezählt. Oft wird diese Regel auch in etwas
modifizierter Form unter Verwendung von Inzidenzmatrizen oder bipartiten Graphen
verwendet:
Sei M = (mij ) eine m×n Matrix, d.h. ein Rechteck–Schema mit m Zeilen und
Pnn Spalten in dem Zahlen mij (i-te Zeile, j-te Spalte)
Pm eingetragen sind. Sind zi = j=1 mij
(1 ≤ i ≤ m)
die
Zeilensummen,
und
s
=
j
i=1 mij (1 ≤ j ≤ m) die Spaltensummen,
Pm
Pn
dann gilt i=1 zi = j=1 sj , denn beide Summen sind gleich der Summe aller Matrixelemente. Die Regel vom zweifachen Abzählen ergibt sich nun als Spezialfall für
die sogenannte Inzidenzmatrix. Dazu werden die
Elemente aus S und T nummeriert,
1 f alls (ai , bj ) ∈ I
S = {a1 , . . . , am }, T = {b1 , . . . , bn } und mij =
gesetzt.
0 sonst
3.2
Die fundamentalen Zählkoeffizienten
k-Kombinationen und k-Variationen
Sei eine n–Menge N gegeben (ohne Einschränkung kann man N = {1, 2, . . . , n} annehmen) und 0 ≤ k ≤ n eine natürliche Zahl. In diesem Abschnitt werden wir
33
die Werte einiger Zählfunktionen bestimmen, die sehr häufig auftreten und deshalb
mit eigenen Symbolen bezeichnet werden. Eine k–elementige Untermenge von N
wird auch k–Kombination
genannt. Die Anzahl der k–Kombinationen einer n–Menge
n
wird mit k bezeichnet, und diese Anzahlen werden Binomialkoeffizienten genannt.
Dabei werden k–Kombinationen (wie für Mengen üblich) als nicht geordnet betrachtet, d.h. {1, 3, 5} und {3, 5, 1} sind ein und dieselbe 3–Kombination. “Geordnete”
k–Untermengen werden auch k–Variationen (ohne Wiederholung) genannt, alternativ kann dafür auch der Begriff k–Permutation einer n–Menge verwendet werden.
Achtung: Geordnet heißt hier gerade nicht nach Größe geordnet, sondern in einer
bestimmten Reihenfolge angeordnet! Man kann sie als Wörter der Länge k aus
voneinander verschiedenen Elementen aus N kodieren (also 135 6= 351).
k-Partitionen
Der Begriff der Partition wurde bereits eingeführt und im Zusammenhang mit Äquivalenzrelationen verwendet. Wir verstehen darunter die Zerlegung einer Menge in
disjunkte, nichtleere Untermengen (Blöcke). Bezeichnet k die Anzahl der Blöcke, so
sprechen wir von k–Partitionen. An dieser Stelle ist es wichtig, auf einen bisher eher
nebensächlichen Aspekt einzugehen: Betrachtet man die Partion als Menge von k
Blöcken, dann spielt die Reihenfolge der Blöcke keine Rolle und wir sprechen einfach
von einer k–Partition, oder (wenn wir diesen Aspekt besonders betonen wollen) von
einer ungeordneten k–Partition. Die Anzahl der k–Partitionen einer n–Menge wird
mit Sn,k bezeichnet. Die Zahlen Sn,k werden Stirling–Zahlen zweiter Art genannt.
Will man dagegen auch die Reihenfolge des Auftretens der Blöcke berücksichtigen,
so spricht man von geordneten k–Partitionen. Zur Unterscheidung umfasst man die
Blöcke einer ungeordneten Partition in Mengenklammern, während geordnete Partitionen als Tupel geschrieben werden (runde Klammern).
Beispiel: Die Mengen {{2}, {1, 3, 5}, {4, 6}} und {{3, 5, 1}, {2}, {4, 6}} sind gleich,
d.h. sie stellen ein und dieselbe (ungeordnete) 3–Partition dar.
Dagegen sind ({2}, {1, 3, 5}, {4, 6}) und ({1, 3, 5}, {4, 6}, {2}) zwei verschiedene geordnete 3–Partitionen.
Binomialkoeffizienten und fallende Faktorielle
Die Anzahl der k–Variationen von N kann mit der Produktregel bestimmt werden (n
Möglichkeiten für die erste Stelle und ist diese festgelegt, dann n − 1 Möglichkeiten
für die zweite Stelle,. . . ):
n(n − 1) . . . (n − k + 1) =
n!
(n − k)!
Diese Anzahlen werden auch kurz mit nk bezeichnet und fallende Faktorielle genannt.
Streng genommen muss ein solcher Beweis auch wieder mit vollständiger Induktion
geführt werden, aber inzwischen sollte jeder genug Übung darin haben, dieses Detail
auszufüllen. Analog definiert man die steigenden Faktoriellen mit
nk = n(n + 1) . . . (n + k − 1) =
34
(n + k)!
,
n!
wobei wir n0 = n0 = 1 setzen.
Da jede k–Untermenge sich
auf k! Arten als k–Permutation darstellen lässt, gilt nach
n
k
Produktregel n = k! k . Daraus kann eine explizite Formel für die Binomialkoeffizienten abgeleitet werden:
n!
n
nk
=
=
k!
(n − k)!k!
k
Analog kann auch die Anzahl der geordneten k–Partitionen durch das Produkt k! Sn,k
beschrieben werden.
Beispiel: Der Ziehungsvorgang beim Lotto “6 aus 49” liefert zunächst eine 6–
Variation der Menge {1, 2, . . . , 49} (wir vernachlässigen hier die Zusatzzahl). Die
Anzahl dieser 6–Variationen ist 496 . Für das Ergebnis der Ziehung ist nur die Menge
der gezogenen Zahlen entscheidend und nicht die Reihenfolge, in der sie gezogen wurden. Da jedes Ziehungsergebnis in 6! verschiedenen Reihenfolgen gezogen werden
kann, ist die Anzahl der möglichen Ziehungsergebnisse
(und damit auch die Anzahl
6
.
der möglichen Tipps) gleich 496! = 49
6
Geordnete und ungeordnete Zahlpartitionen
Eine Abwandlung des Begriffs der Mengenpartition führt zu den sogenannten Zahlpartitionen. Ist n ∈ N dann wird eine Summe n = n1 +. . .+nk mit ni ∈ N, ni > 0 eine k–
Zahlpartition von n genannt. Die Anzahl solcher Partitionen wird mit Pn,k bezeichnet.
Auch hier spielt die Reihenfolge der ni keine Rolle, so dass man ohne Einschränkung
n1 ≥ n2 ≥ . . . ≥ nk annehmen kann. Soll die Reihenfolge Berücksichtigung finden, so
sprechen wir von geordneten Zahlpartitionen.
Achtung: Geordnete Zahlpartitionen sind also gerade solche, in denen die Summanden in der Regel nicht nach ihrer Größe sortiert auftreten. Dagegen kann man
ungeordnete Zahlpartitionen (in denen die Reihenfolge egal ist) immer so darstellen,
dass die Summanden aufsteigend geordnet sind.
Lemma: Die Anzahl der geordneten k–Zahlpartitionen von n ist n−1
.
k−1
Beweis: Die Grundidee ist sehr einfach. Wir schreiben die Zahl n als Summe von n
Einsen, also mit n − 1 Pluszeichen. Für eine Zahlpartition n = n1 + n2 + . . . + nk
fassen wir die ersten n1 Einsen zu einem Block zusammen, markieren das darauf folgende Pluszeichen, fassen die nächsten n2 Einsen wieder zu einem Block zusammen
und markieren das darauf folgende Pluszeichen usw. Bei k Summanden markiert
man k − 1 der n − 1 Pluszeichen und jede solche Markierung beschreibt eindeutig die
entsprechende Zahlpartition.
Für einen formalen Beweis konstruieren wir eine Bijektion von der Menge S der geordneten k–Zahlpartitionen auf die Menge T der (k − 1)–Untermengen von {1, 2, . . . , n −
1} durch:
n = n1 + n2 + . . . + nk ∈ S 7→ {n1 , n1 + n2 , . . . , n1 + n2 + . . . + nk−1 } ∈ T . Die
Bijektivität dieser Abbildung kann durch die Konstruktion der Umkehrabbildung
nachgewiesen werden, und die Behauptung folgt nun aus der Gleichheitsregel.
35
Stirlingzahlen und surjektive Funktionen
Die hier besprochenen Zählkoeffizienten sind auch sehr gut zum Abzählen von Funktionenmengen geeignet. Sei N eine n–Menge und R eine r–Menge. Aus der Mengenlehre wissen wir, dass die Anzahl der Abbildungen von N nach R gleich rn ist.
Ist n ≤ r, dann sind injektive Abbildungen von N in R durch n–Variationen von R
charakterisiert, d.h. |Inj(N, R)| = rn .
Ist n ≥ r, dann sind surjektive Abbildungen von N auf R durch geordnete r–
Partitionen von N charakterisiert, d.h. |Surj(N, R)| = r! Sn,r .
Die Anzahl der bijektiven Abbildungen ist n! (falls n = r) oder 0. Klassifizieren wir
die Menge aller Abbildungen f : N −→ R nach ihren Bildern A = {f (x) | x ∈ N } ⊆
R, so ergibt die Summenregel:
P
rn = |Abb(N, R)| = A⊆R |Surj(N, A)|
3.3
=
Pr
P
=
Pr
r
k
k=0
k=0
|A|=k
|Surj(N, A)|
k! Sn,k
=
Pr
k=0
rk Sn,k
Zwölf Arten des Abzählens
Eine zusammenfassende Interpretation der Zählkoeffizienten erhalten wir durch die
folgende Fragestellung:
Sei eine Menge von n Bällen gegeben, die in r Fächer verteilt werden sollen. Gesucht
ist die Anzahl solcher Verteilungen allgemein und unter der zusätzlichen Bedingung,
dass nur injektive (jedes Fach höchstens ein Ball), surjektive (jedes Fach mindestens
ein Ball) bzw. bijektive (jedes Fach genau ein Ball) Verteilungen zu betrachten sind.
Natürlich hängt die Problemstellung auch davon ab, ob die Bälle bzw. die Fächer unterscheidbar sind oder nicht. Offensichtlich korrespondieren die obigen Abzählungen
von Abbildungen zu dem Fall, dass sowohl die Bälle als auch die Fächer unterscheidbar sind. Da die Frage der bijektiven Verteilungen relativ leicht zu beantworten sind,
reduziert sich die Problemstellung auf zwölf Varianten.
Sind nur die Bälle unterscheidbar, aber nicht die Fächer, dann korrespondieren surjektive Verteilungen zu r–Partitionen einer n–Menge und die Menge aller Verteilungen
kann mit der Summenregel über die Klassifizierung nach Anzahl der belegten Fächer
abgezählt werden.
Sind Bälle und Fächer nicht unterscheidbar, dann korrespondieren surjektive Verteilungen zu r–Zahlpartitionen von n und auch hier kann die Menge aller Verteilungen mit
der Summenregel über die Klassifizierung nach Anzahl der belegten Fächer abgezählt
werden.
Sind nur die Fächer unterscheidbar, aber nicht die Bälle, dann korrespondieren die
surjektiven Verteilungen zu geordneten r–Zahlpartitionen von n. Die injektiven
Verteilungen sind durch die Auswahl der n belegten Fächer aus der r–Menge aller
Fächer vollständig charakterisiert. Eine beliebige Abbildung ist durch eine geordnete
36
Summenzerlegung der Form n = n1 + . . . + nr mit ni ∈ N charakterisiert. Um daraus
eine r–Zahlpartition im Sinne der Definition zu machen (Zusatzbedingung ni ≥ 1),
addiert man zu jedem Summanden eine 1. Damit erhalten wir eine Bijektion auf
die Menge der geordneten r–Zahlpartitionen von (n + r). Diese Menge hat n+r−1
r−1
Elemente.
Die folgende Tabelle gibt einen vollständigen Überblick.
beliebig injektiv surjektiv bijektiv
N unterscheidbar
rn
rn
r!Sn,r
0 oder n!
R unterscheidbar
N nicht untersch.
n+r−1
r
n−1
0 oder 1
r−1
n
r−1
R unterscheidbar
N unterscheidbar Pr
Sn,r
0 oder 1
k=1 Sn,k 0 oder 1
R nicht untersch.
N nicht untersch. Pr
Pn,r
0 oder 1
k=1 Pn,k 0 oder 1
R nicht untersch.
3.4
Rekursionen
Pascalsches Dreieck
Oft ist es schwierig, für die zu untersuchenden kombinatorischen Größen f (n) eine
geschlossene Formel anzugeben, z.B. für die Stirling Zahlen zweiter Art Sn,k . In
solchen Fällen kann eine Rekursion, das ist eine Formel, die f (n) auf f (n−1) und/oder
f (n − 2), . . . zurückführt, ein wirkungsvolles Hilfsmittel sein. Sind dann noch die
benötigten Anfangswerte f (0) und/oder f (1) bekannt, kann man jedes f (n) effektiv
berechnen.
Wir haben
bereits
eine
Rekursion für die Binomialkoeffizienten kennengelernt:
n
n−1
n−1
= k + k−1 für alle n, k > 0.
k
Mit den trivialen Zusatzinformationen nn = n0 = 1 und nk = 0 falls k > n,
können alle Binomalkoeffizienten berechnet werden. Das dafür verwendete Schema
wird Pascalsches Dreieck genannt:
n
0
1
2
3
4
5
6
:
k 0
1
1
1
1
1
1
1
1
2
3
4
5 6...
1
2 1
3 3 1
4 6 4 1
5 10 10 5 1
6 15 20 15 6 1
Es ist klar, dass die Summe aller Einträge in der n–ten Zeile die Anzahl aller Unter-
37
mengen einer n–Menge ergibt:
n X
n
k
k=0
= 2n .
Die folgenden zwei Identitäten machen Aussagen über Spalten- und Diagonalsummen,
die an einer beliebigen Stelle abzubrechen sind:
Pn
m
n+1
=
für alle n, k ≥ 0
m=0 k
k+1
Pn
k=0
m+k
k
=
m+n+1
n
für alle m, n ≥ 0
Beide Formeln kann man mit vollständiger Induktion und auch durch kombinatorische
Argumentationen beweisen.
P
Binomialsatz: (x + y)n = nk=0 nk xk y n−k
Der induktive Beweis nutzt die Rekursion der Binomialkoeffizienten.
Als unmittelbare Folgerung aus dem Binomialsatz erhalten wir die folgenden zwei
Formeln:
k
Pn
n
(x + 1)n =
k=0 k x
2n
=
Pn
k=0
n
k
Monotone Gitterwege
Eine weitere geometrisch-anschauliche Deutung der Binomialkoeffizienten ergibt sich
aus der Abzählung von sogenannten Gitterwegen. Dazu betrachten wir die Punktmenge Gk,m = {0, 1, . . . , k} × {0, 1, . . . , m} in der Ebene und verbinden zwei Punkte
durch eine Kante, wenn sie auf einer Koordinate übereinstimmen und sich auf der
anderen Koordinate um 1 unterscheiden. Dieses Gebilde nennt man ein k × m-Gitter.
Unter einem monotonen Gitterweg im k × m-Gitter verstehen wir eine Punktfolge,
die mit (0, 0) beginnt, mit (k, m) endet und bei der für zwei aufeinanderfolgende
Punkte (a, b), (c, d) gilt, dass entweder c = a und d = b + 1 oder c = a + 1 und
d = b. Anschaulich bedeutet das, dass ein monotoner Gitterweg von der Ecke links
unten in die Ecke recht oben verläuft und jeder Schritt entweder nach rechts oder
nach oben erfolgt (Abbildung links)). Der Zusammenhang zwischen monotonen Gitterwegen und Binomialkoeffizienten beruht auf einer simplen Beobachtung: Da sich
jeder monotone Gitterweg in einem k × m-Gitter aus k + m Kanten zusammensetzt,
von denen genau k horizontal (und die anderen m vertikal) verlaufen, kann man sie
als k-Kombinationen aus einer (k + m)-Menge beschreiben.
Lemma: Die Anzahl der montonen Gitterwege in einem k × m-Gitter ist k+m
.
k
38
m
m
i
3
2
1
0
3
2
1
0
0 1 2 3 4 5
0 1 2 3 4 5
k
k−1 k
Viele Fakten über Binomialkoeffizienten lassen sich mit diesem Modell anschaulich
erklären. Hier sind einige Beispiele dazu:
• Die Menge der monotonen Gitterwege im k × m-Gitter kann man durch die
Auswahl der k horizontalen Schritte aus k + m Gesamtschritten oder alternativ
durch die Auswahl von mvertikalen
Schritten aus k + m Gesamtschritten genek+m
k+m
rieren. Daraus folgt k = m . Wenn
=
wir n
k + m setzen, ist m = n − k
n
und wir erhalten die bekannte Formel nk = n−k
.
• Partitioniert man die Menge der monotonen Gitterwege im k×m-Gitter danach,
ob der letzteSchritt horizontal
oder vertikal gemacht wird, so ergibt sich die
k+m
k+m−1
k−1+m
Formel
=
+
. Mit der oben verwendeten Ersetzung
k
k−1
k
n−1
erhalten wir die bekannte Rekursion nk = n−1
+
.
k−1
k
• Wir partitionieren die Menge der monotonen Gitterwege im k×m-Gitter danach,
in welcher Höhe der letzte horizontale Schritt (von k − 1 nach k) gemacht wird.
Dafür kommen alle y-Werte zwischen 0 und m in Frage. Diese Situation ist in
der Abbildung auf der rechten Seite schematisch dargestellt: Der letzte horizontale Schritt erfolgt von (k − 1, i) nach (k, i) und darauf folgen nur noch vertikale
Schritte bis (k, m). Die Anfangsstücke aller Wege dieser Klasse sind beliebige
monotone Gitterwege im (k − 1) × i-Gitter, die im der Abbildung durch eine
monotone Kurve symbolisiert sind. Daraus folgt die Identität
X
X
m m k+m
k−1+i
k−1+i
=
=
.
k
k−1
i
i=0
i=0
Rekursion für die Stirling Zahlen zweiter Art
Satz: Für alle n, k ∈ N mit n ≥ k > 0 gilt Sn,k = Sn−1,k−1 + k · Sn−1,k .
Man beachte, dass diese Formel eine große Ähnlichkeit mit der Rekursionsformel für
Binomialkoeffizienten aufweist. Auch der Beweis ist sehr ähnlich:
Sei a ein fest gewähltes Element der n–Menge N . Die k–Partitionen von N können
nun danach klassifiziert werden, ob {a} einen Block der Partition bildet oder nicht.
Bei positiver Antwort kann der Partition auf eineindeutige Weise (Streichung von {a})
eine (k − 1)–Partition von N \ {a} zugeordnet werden. Zur Begründung des zweiten
39
Summanden überlegt man sich, das man alle k–Partitionen von N , in denen {a}
keinen Block bildet, auf folgende Art erhält: Man betrachte alle k–Partitionen von
N \ {a} und ergänze eine ihrer Klassen um a (dafür gibt es jeweils k Möglichkeiten).
Aus der Definition ergeben sich die Anfangsbedingungen Sn,0 = 0 für n > 0 und
S0,k = 0 für k > 0. Wie man leicht sieht, muß S0,0 = 1 gesetzt werden, damit die
Formel auch für S1,1 ihre Gültigkeit behält.
3.5
Lösung von Rekursionen
In diesem Abschnitt werden zwei Methoden beschrieben, mit deren Hilfe man (in
einigen Fällen) aus Rekursionen geschlossene Formeln ableiten kann. Wir beginnen
mit Rekursionen der Form
an = can−1 + d, a0 = C,
c, d, C ∈ R
Offensichtlich können wir c = 1 als Trivialfall (dann ist an = nd + C) ausschließen.
Für c 6= 1 erhalten wir durch elementare Umformungen:
an = d + can−1
= d + c(d + can−2 )
2
= d + cd + c an−2 = d + cd + c2 (d + can−3 )
= ...
= d + cd + c2 d + . . . + cn−1 d + cn a0
n −1
d + cn C
= cc−1
Wir betrachten jetzt sogenannte homogene lineare Rekursionen vom Grad k, das sind
Rekursionen der Form
an = c1 an−1 + c2 an−2 + . . . + ck an−k
wobei c1 , . . . , ck ∈ R und ck 6= 0 vorausgesetzt sind. Darüber hinaus sollen die reelle
Zahlen a0 = C0 , . . . , ak−1 = Ck−1 als Anfangsbedingungen bekannt sein.
Der Basisansatz besteht darin, eine Lösung der Form an = rn für eine Konstante r zu
suchen. Gäbe es eine solche Lösung, dann wäre rn = c1 rn−1 + c2 rn−2 + . . . + ck rn−k ,
also wäre r eine Nullstelle des sogenannten charakteristischen Polynoms xk −c1 xk−1 −
c2 xk−2 . . . − ck der Rekursion. Eine solche Lösung könnte aber im Widerspruch zu
den Anfangsbedingungen stehen.
Satz: Angenommen, das charakteristische Polynom der Rekursion
an = c1 an−1 + c2 an−2 + . . . + ck an−k hat k verschiedene Nullstellen r1 , . . . , rk . Dann
gibt es Konstanten α1 , . . . , αk , so dass an = α1 r1n + . . . + αk rkn für alle n ∈ N.
Diese Konstanten sind durch die k Anfangsbedingungen a0 = C0 , . . . , ak−1 = Ck−1
eindeutig bestimmt.
Wir verzichten auf den Beweis. Es sei aber angemerkt, dass zur Bestimmung der Konstanten ein lineares Gleichungssystem von k Gleichungen (jeder Anfangswert liefert
eine Gleichung) mit den gesuchten Konstanten α1 , . . . , αk als Variable gelöst werden
muss. Die Verschiedenheit der Nullstellen sichert, dass dieses LGS eine eindeutige
Lösung besitzt.
40
Beispiel: Die Rekursion fn = fn−1 + fn−2 mit den Anfangsbedingungen f0 = 0, f1 =
1 beschreibt die sogenannten Fibonacci Zahlen.
Das charakteristische Polynom dieser Rekursion hat√die Form √
x2 − x − 1. Die Nullstellen dieses Polynoms sind 1+2 5 und 1−2 5 .
Zur Bestimmung der Konstanten α1 und α2 muss das folgende LGS gelöst werden:
α1 +
√
1+ 5
α1 +
2
α2
√
1− 5
α2
2
=0
=1
Aus der ersten Gleichung folgt α2 = −α
√ 1 . Verwendet man diese√Substitution in der
zweiten Gleichung, dann ergibt sich 5α1 = 1, also α1 = 1/ 5. So erhält man
folgende geschlossene Formel für die Fibonacci Zahlen:
√ !n
√ !n
1
1
1+ 5
1− 5
fn = √
−√
2
2
5
5
3.6
Das Schubfachprinzip
In den bisherigen Themen zur Kombinatorik ging es immer um die genaue Bestimmung von bestimmten Werten. Es kommt aber auch vor, dass die Informationen über
bestimmte Mengen nicht ausreichen, um genaue Angaben über ihre Größe machen zu
können. Oft muss man sich in solchen Fällen damit zufrieden geben, möglichst gute
obere und untere Schranken für die Größe zu kennen. Eine grundlegende und wichtige
Methode zur Herleitung solcher Ungleichungen mit kombinatorischen Mitteln besteht
in der Anwendung des sogenannten Schubfachprinzips.
Das Schubfachprinzip, in der englischsprachigen Literatur auch als Taubenschlagprinzip bezeichnet, geht auf den Mathematiker G. L. Dirichlet zurück:
Verteilt man n Gegenstände in k Schubfächer und ist n > k, dann gibt es mindestens
ein Schubfach, in dem mindestens 2 Gegenstände liegen.
Auf den ersten Blick scheint dieses Prinzip nur triviale Schlussfolgerungen zuzulassen,
wie: “in jeder Gruppe von 367 Menschen gibt es mindestens zwei, die den gleichen
Geburtstag haben”, aber wie die folgenden eleganten Anwendungen zeigen, trügt der
Schein.
Satz: In jeder n+1 elementigen Untermenge M von {1, 2, . . . , 2n} gibt es zwei Zahlen
a und b, so dass a Teiler von b ist.
Beweis: Sei M = {a1 , a2 , . . . , an+1 }. Jedes Element dieser Menge hat eine eindeutige
Produktzerlegung der Form ai = 2ki qi , wobei qi eine ungerade Zahl ist. Da die
Anzahl der ungeraden Zahlen zwischen 1 und 2n gleich n ist, müssen mindestens
zwei Elemente aus M bei der Zerlegung die gleiche ungerade Zahl liefern, und es ist
klar, dass dann die kleinere von beiden ein Teiler der größeren ist.
Satz von Erdös/Szekeres: Jede Folge von n2 + 1 verschiedenen Zahlen enthält
eine monoton wachsende oder monoton fallende Unterfolge der Länge n + 1.
41
Beweis: Ist die Folge a1 , a2 , . . . , an2 +1 gegeben, dann hat eine Unterfolge der Länge
m die Form ai1 , ai2 , . . . , aim wobei 1 ≤ i1 < i2 < . . . < im ≤ n2 + 1 gelten muss. Die
Unterfolge ist monoton wachsend (bzw. fallend), wenn auch ai1 < ai2 < . . . < aim
(bzw. ai1 > ai2 > . . . > aim ) gilt.
Angenommen die gegebene Folge hat keine monoton wachsende oder monoton fallende Unterfolge der Länge n + 1, dann ordnen wir jedem k = 1, 2, . . . , n2 + 1 ein Paar
(wk , fk ) zu, wobei wk (fk ) die maximale Länge einer monoton wachsenden (fallenden)
Unterfolge ist, die mit ak beginnt. Da nur n2 Paare möglich sind, muss mindestens
ein Paar mehrfach auftreten, d.h. es gibt Zahlen 1 ≤ s < t ≤ n2 + 1, so dass ws = wt
und fs = ft . Das ist aber bereits ein Widerspruch, denn ist as < at , dann könnte
jede mit at beginnende monoton wachsende Unterfolge von vorn durch as verlängert
werden, also wäre ws > wt . Analog folgt aus as > at auch fs > ft und as = at ist
nach Voraussetzung nicht möglich.
Verallgemeinerung des Schubfachprinzips:
Verteilt man n Gegenstände
in k Schubfächer, dann gibt es mindestens ein Schubfach,
n
in dem mindestens k Gegenstände liegen.
Beispiele:
• In jeder Gruppe von 100 Menschen gibt es mindestens 9, die das gleiche Sternzeichen haben.
• In jeder Menge A, B, C, D, E, F von 6 Besuchern einer Party gibt es eine Gruppe
von mindestens drei Personen, die sich entweder vorher schon paarweise kannten
oder die sich vorher paarweise noch nicht kannten.
Das ist nicht ganz
so offensichtlich. Für A gibt es nach dem Schubfachprinzip
mindestens 25 = 3 andere Personen, die A entweder alle kennt (Fall 1) oder
alle nicht kennt (Fall 2).
Wenn sich im Fall 1 unter diesen Bekannten von A zwei Personen bereits kennen,
bilden diese zusammen mit A die gesuchte Gruppe, sonst sind die Bekannten
von A eine Gruppe von Personen, die sich nicht kennen. Der zweite Fall ist
analog. Wenn unter den für A fremden Personen sich zwei nicht kennen, bilden
sie zusammen mit A die gesuchte Gruppe, sonst bilden sie selbst eine Gruppe
von Personen, die sich paarweise kennen.
42
4
Diskrete Wahrscheinlichkeitsverteilungen
4.1
Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit
Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω
eine endliche oder abzählbar unendliche Menge von elementaren Ereignissen und
Pr : Ω −→ [0, 1] eine Wahrscheinlichkeitsverteilung ist, die jedem
P a ∈ Ω seine
Wahrscheinlichkeit Pr(a) zuordnet. Außerdem wird gefordert, dass a∈Ω Pr(a) = 1
ist. Wenn |Ω| = n endlich ist und für alle a ∈ Ω auch Pr(a) = n1 gilt, dann wird Pr
eine Gleichverteilung genannt.
Beispiele:
1. Für einen (fairen) Würfel ist Ω = {1, 2, 3, 4, 5, 6} und Pr(1) = Pr(2) = . . . =
Pr(6) = 16 eine Gleichverteilung.
2. Der diskrete Wahrscheinlichkeitsraum für einen Münzwurf besteht aus Ω =
{0, 1} mit Pr(0) = Pr(1) = 1/2 (Gleichverteilung), wobei in der Regel die 0 den
Kopf und 1 die Zahl der Münze bezeichnet.
3. Die Ziehung von Kugeln aus einer Urne bildet die Grundlage für ein anderes
Standardmodell der Wahrscheinlichkeitsrechnung. So kann man eine Urne mit
n nummerierten (also unterscheidbaren) Kugeln als ein physikalisches Modell
für eine Gleichverteilung ansehen. Alternativ kann man eine Urne mit k weißen
und m schwarzen Kugeln betrachten. Auch wenn die weißen Kugeln nicht
unterscheidbar sind, kann man sich eine unsichtbare Nummerierung der Kugeln
vorstellen, bei denen die weißen von 1 bis k und die schwarzen von k + 1 bis
n = k+m nummeriert sind. Die elementaren Ereignisse sind die Ziehungen einer
Kugel i jeweils mit der Wahrscheinlichkeit n1 . Da es aber letztlich egal ist, welche
weiße bzw. welche schwarze Kugel gezogen wurde, betrachtet man hier nur zwei
Ereignisse, nämlich die Ziehung einer weißen Kugel mit der Wahrscheinlichkeit
k
und die Ziehung einer schwarzen mit der Wahrscheinlichkeit m
.
n
n
4. Der diskrete Wahrscheinlichkeitsraum für zwei Münzwürfe besteht aus der Menge
Ω = {(0, 0), (0, 1), (1, 0), (1, 1)} mit der Gleichverteilung Pr((i, j)) = 1/4. Dabei
geht man davon aus, dass die beiden Würfe voneinander unabhängig sind und
entweder hintereinander oder gleichzeitig mit zwei unterscheidbaren Münzen
erfolgen.
5. Beim gleichzeitigen Werfen von zwei ununterscheidbaren Münzen müsste man
Ω = {{0, 0}, {0, 1}, {1, 1}} setzen. In diesem Fall wäre Pr (faire Münzen vorausgesetzt) keine Gleichverteilung, denn Pr({0, 0}) = Pr({1, 1}) = 1/4 und
Pr({0, 1}) = 1/2. Dieses Modell ist eher als Gedankenspiel zu betrachten, denn
in der Realität sind es zwei verschiedene Münzen, auch wenn sie äußerlich nicht
unterscheidbar sind. Wenn wir im Weiteren über die Wahrscheinlichkeitsräume
von k Münzwürfen oder k Würfeln sprechen, wird deshalb immer die k-fache
43
Wiederholung eines Experiments oder eine Ausführung mit k unterscheidbaren
und unabhängigen Objekten gemeint sein.
6. Definiert man eine Folge von Münzwürfen, bis das erste Mal Zahl (also 1)
fällt, als elementares Ereignis, dann gibt es offensichtlich für jedes n ∈ N+ ein
elementares Ereignis, nämlich die Folge an = 0, 0, . . . , 0, 1. Eine faire Münze
| {z }
(n−1) mal
n
vorausgesetzt, gilt Pr(an ) = 12 und damit ist auch für diesen unendlichen
Raum die Summenbedingung erfüllt:
∞
X
Pr(an ) =
n=1
∞ n
X
1
n=1
2
=1
Definition: Eine beliebige
Untermenge A ⊆ Ω wird Ereignis genannt, und man
P
Dadurch wird die Verteilungsfunktion zu einem
definiert Pr(A) =
a∈A Pr(a).
Wahrscheinlichkeitsmaß über der Menge P(Ω) aller Ereignisse erweitert. Die Verwendung der gleichen Bezeichnung Pr für die Verteilung und das Wahrscheinlichkeitsmaß
ist eine kleine technische Unsauberkeit, die aber in der Literatur weit verbreitet ist.
Beispiele:
• Bei der Urne mit k weißen und m schwarzen Steinen wurde dieser Schritt schon
vorweg genommen, indem die Ziehungen der Kugeln 1 bis k (bzw. k + 1 bis
k + m) zum Ereignis der Ziehung einer weißen (bzw. schwarzen) Kugel zusammengefasst wurden.
• Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, ist gleich der Summe der
Wahrscheinlichkeiten, eine 2, 4 oder 6 zu würfeln, also 1/2.
• Das Ereignis A, bei drei Münzwürfen genau zweimal Zahl zu erhalten, setzt sich
aus den drei elementaren Ereignissen (0, 1, 1), (1, 0, 1) und (1, 1, 0) zusammen
und somit ist Pr(A) = 3 · 81 = 83 .
Für jedes Ereignis A ⊆ Ω bezeichnet A = Ω\A das sogenannte Komplementärereignis
von A.
Aus der Definition und dem kombinatorischen Basiswissen kann man die folgenden
Eigenschaften von Wahrscheinlichkeitsmaßen ableiten:
1. Pr(Ω) = 1 und Pr(∅) = 0
2. A ⊆ B =⇒ Pr(A) ≤ Pr(B)
3. Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B)
P
S
4. Pr(A) = ki=1 Pr(Ai ) für jede Partition A = ki=1 Ai
44
5. Pr A = 1 − Pr(A)
S
P
k
6. Pr i=1 Ai ≤ ki=1 Pr(Ai ).
Bedingte Wahrscheinlichkeit und unabhängige Ereignisse
Oft taucht das Problem auf, die Wahrscheinlichkeit eines Ereignisses A unter der
zusätzlichen Voraussetzung zu bestimmen, dass ein anderes Ereignis B eingetreten
ist. So ist offensichlich unter der Voraussetzung, dass eine gerade Zahl gewürfelt
wurde, die Wahrscheinlichkeit der 1 gleich Null und die Wahrscheinlichkeit der 2
gleich 1/3. Dieses Phänomen wird durch den Begriff der bedingten Wahrscheinlichkeit
beschrieben.
Definition: Seien A und B Ereignisse und Pr(B) > 0, dann nennt man den Ausdruck
Pr(A ∩ B)
die bedingte Wahrscheinlichkeit von A unter B.
Pr(A|B) =
Pr(B)
Beispiele:
1. Im Wahrscheinlichkeitsraum eines fairen Würfels sei A das Ereignis, eine gerade
Zahl zu werfen, B das Ereignis, eine Zahl größer als drei zu werfen, und C das
Komplementärereignis zu B. Offensichtlich gilt Pr(A) = Pr(B) = Pr(C) = 12 .
Man bestimmt die Durchschnitte A ∩ B = {4, 6}, A ∩ C = {2}, B ∩ C = ∅ und
ihre Wahrscheinlichkeiten Pr(A ∩ B) = 26 , Pr(A ∩ C) = 61 sowie Pr(B ∩ C) = 0
und berechnet damit die bedingten Wahrscheinlichkeiten:
Pr(B|A) = 23 , Pr(C|A) = 13 und Pr(B|C) = 0.
2. Würfelt man mit zwei (unabhängigen und unterscheidbaren!) Würfeln, dann ist
Ω = {(i, j) | 1 ≤ i, j ≤ 6} und Pr((i, j)) = 1/36 für jedes Paar (i, j) aus Ω. Sei
A = {(4, 6), (5, 5), (6, 4)} das Ereignis, dass die Augensumme gleich 10 ist, und
B = {(1, 1), (2, 2), . . . , (6, 6)} das Ereignis, dass beide Würfel auf die gleiche
1
6
1
3
Zahl fallen. Dann ist Pr(A) = 36
= 12
, Pr(A) = 36
= 61 und Pr(A ∩ B) = 36
.
1
1
Daraus ergibt sich Pr(A|B) = 3 und Pr(B|A) = 6 .
3. Wir bleiben im Wahrscheinlichkeitsraum von zwei Würfeln. Bezeichne A1 =
{(i, j) ∈ Ω | i = 1} das Ereignis, dass der erste Würfel eine 1 zeigt und der
zweite beliebig ist. Analog lassen sich Ereignisse A2 , . . . , A6 beschreiben. Auf
der anderen Seite können durch Festlegung der Augenzahl des zweiten Würfels
Ereignisse B1 = {(i, j) ∈ Ω | j = 1}, B2 , . . . , B6 definiert werden. Offensichtlich
ist die Wahrscheinlichkeit dieser Ereignisse jeweils 1/6 und Durchschnitte wie
A1 ∩ B3 = {(1, 3)} haben die Wahrscheinlichkeit 1/36. Folglich ist
Pr(A1 |B3 ) =
Pr(A1 ∩ B3 )
1/36
1
=
=
Pr(B3 )
1/6
6
und analog ist die bedingte Wahrscheinlichkeit von jedem Ai unter einem beliebigen Bj gleich 1/6, also gleich der Wahrscheinlichkeit von Ai selbst. Diese
Eigenschaft ist durch die Unabhängigkeit der beiden Würfe begründet.
45
4. In einigen Fällen kann es hilfreich sein, die Sachverhalte durch ein Diagramm zu
veranschaulichen. Angenommen wir haben eine rote Urne mit zwei weißen und
vier schwarzen Kugeln und eine blaue Urne mit fünf weißen und drei schwarzen
Kugeln. Zuerst wird gewürfelt und wenn das Ergebnis 1 oder 2 ist, wird eine
Kugel aus der roten Urne, sonst eine Kugel aus der blauen Urne gezogen.
Die elementaren Ereignisse sind Paare aus einer Zahl zwischen 1 und 6 und
einer Farbe Schwarz oder Weiß. Das folgende Diagramm zeigt, wie sich die
Ergebnisse des Experiments aufspalten. Die Werte auf den Kanten geben bedingte Wahrscheinlichkeiten an, die Wahrscheinlichkeiten der Ereignisse auf der
rechten Seite ergeben sich als Produkt der Wahrscheinlichkeiten auf den Kanten des jeweiligen Wegs. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen,
5
= 19
.
ist demnach 19 + 12
36
Wahrscheinlichkeit
{1,2}
1/3
1/3
2/3
5/8
2/3
{3,4,5,6}
3/8
1/9
weiss
schwarz
2/9
5/12
weiss
schwarz
1/4
Definition: Zwei Ereignisse A und B werden unabhängig genannt, falls Pr(A ∩ B) =
Pr(A) · Pr(B).
Lemma: Sind A und B zwei unabhängige Ereignisse mit
Pr(A ∩ B) > 0, dann gilt Pr(A|B) = Pr(A) und Pr(B|A) = Pr(B).
Ereignisse mit positver Wahrscheinlichkeit, die einander ausschließen, wie zum Beispiel
A1 und A2 aus dem letzten Beispiel sind voneinander nicht unabhängig, also abhängig.
Weitere Beispiele für abhängige Ereignisse beim Spiel mit einem Würfel ist der Wurf
einer geraden Zahl und der Wurf einer 2 oder auch der Wurf einer geraden Zahl und
der Wurf einer Zahl ≤ 3. Auch im folgenden Beispiel geht es um die Abhängigkeit
von Ereignissen.
Beispiel: Ein Krebstest fällt mit 96% Wahrscheinlichkeit positiv aus, wenn der Patient Krebs hat und mit 94% Wahrscheinlichkeit negativ, wenn der Patient keinen
Krebs hat. Bei einem Patienten in dessen Altersgruppe 0.5% aller Personen Krebs
haben, fällt der Test positiv aus. Wie wahrscheinlich ist es, dass er tatsächlich Krebs
hat?
Wir betrachten die folgenden Ereignisse
46
K
N
T
zufälliger Patient hat Krebs
Pr(K) = 0.005
zufälliger Patient hat keinen Krebs
Pr(N ) = 0.995
Test positiv bei zufälligem Patienten Pr(T ) =??
Pr(K ∩ T )
.
Gesucht ist die bedingte Wahrscheinlichkeit Pr(K|T ) =
Pr(T )
Pr(K ∩ T )
Aus Pr(T |K) =
= 0.96 kann man Pr(K ∩ T ) = 0.005 · 0.96 ausrechnen.
Pr(K)
Dagegen ist Pr(T |N ) = 1 − Pr T |N = 1 − 0.94 = 0.06. Zur Bestimmung von Pr(T )
überlegt man sich, dass das Ereignis T die disjunkte Vereinigung (T ∩K)∪(T ∩N ) ist
und sich die Wahrscheinlichkeiten der beiden Komponenten wieder durch bedingte
Wahrscheinlichkeiten ausdrücken lassen:
Pr(T ) = Pr(T |K) · Pr(K) + Pr(T |N ) · Pr(N ) = 0.96 · 0.005 + 0.06 · 0.995. Letztlich
erhalten wir
Pr(K|T ) =
0.005 · 0.96
Pr(K ∩ T )
=
= 0.0744 . . .
Pr(T )
0.96 · 0.005 + 0.06 · 0.995
Damit ist die Wahrscheinlichkeit, dass der Patient mit positivem Test wirklich Krebs
hat, kleiner als 7.5%.
Definition: Sind (Ω1 , Pr1 ) und (Ω2 , Pr2 ) zwei Wahrscheinlichkeitsräume, dann ist
der Produktraum (Ω1 × Ω2 , Pr) definiert durch Pr((a1 , a2 )) = Pr1 (a1 ) · Pr2 (a2 ).
Diese Definition impliziert Unabhängigkeiten der folgenden Form: für alle A ⊆ Ω1
und B ⊆ Ω2 sind die Ereignisse A × Ω2 und Ω1 × B voneinander unabhängig. Ein
Beispiel dafür wurde bereits behandelt, denn der Wahrscheinlichkeitsraum für zwei
Würfel ist das Produkt des Raums eines Würfels mit sich selbst. Im folgenden werden
endliche Produkte des Münzwurfraums genauer analysiert:
• Eine faire Münze wird sechsmal geworfen. Der zugehörige Wahrscheinlichkeitsraum besteht aus allen 6-Tupeln (oder 0/1–Folgen der Länge 6) mit Gleichverteilung, d.h. jedes Tupel hat die Wahrscheinlichkeit 216 . Wie groß ist die
Wahrscheinlichkeit des Ereignisses, dass genau zwei Einsen in dem Tupel auftreten?
Die Anzahl dieser Tupel stimmt offensichtlich mit der Anzahl der 2–Kombinationen
einer 6–Menge überein. Folglich hat das Ereignis die Wahrscheinlichkeit 62 /26 .
Allgemein
ist die Wahrscheinlichkeit für k mal Zahl bei n Münzwürfen gleich
n 1
.
k 2n
• Sei eine “unfaire” Münze gegeben, die mit Wahrscheinlichkeit p (0 < p < 1)
Zahl (d.h. 1) und mit Wahrscheinlichkeit q = 1 − p Kopf (d.h. 0) liefert.
Betrachtet man den Wahrscheinlichkeitsraum für n Münzwürfe, dann ist die
Wahrscheinlichkeit einer festen Folge der Länge n mit genau k Einsen gleich
pk (1 − p)n−k . Die Wahrscheinlichkeit
des Ereignisses, dass eine Folge genau k
Einsen enthält, ist nk pk (1 − p)n−k . Deshalb werden Verteilungen dieser Art
auch Binomialverteilungen genannt.
47
4.2
Zufallsvariable und Erwartungswert
Definition: Sei (Ω, Pr) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable oder
Zufallsgröße ist eine Funktion X : Ω −→ R.
Im Fall eines Würfels oder einer zufällig gezogenen Zahl aus einer Urne fällt der Unterschied zwischen einem elementaren Ereignis und einer Zufallsvariable nicht auf,
weil das Ereignis selbst schon eine Zahl ist, d.h. man kann die identische Abbildung als eine Zufallsvariable ansehen. Die folgenden Beispiele zeigen, dass man viele
Zufallsexperimente auf sehr natürliche Weise mit Zufallsvariablen beschreiben kann.
Beispiele:
1) Auf dem diskreten Wahrscheinlichkeitsraum Ω = {1, 2, . . . , 6} × {1, 2, . . . , 6} für
zwei Münzwürfe sind Zufallsvariablen für die Summe und die Differenz der beiden
Werte interessant: X(a, b) = a + b
Y (a, b) = |a − b|.
2) Auf dem Wahrscheinlichkeitsraum für n Münzwürfe Ω = {0, 1}n interessiert man
sich vor allem für die Zufallsvariablen, welche die Anzahl der Zahl- bzw. Kopfergebnisse in einer solchen Serie zählen, d.h.
X(a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 1}|
Y (a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 0}| = n − X(a1 , a2 , . . . , an )
3) Bei der Wiederholung von Münzwürfen bis zur ersten Zahl (oder bis zum ersten
Kopf) ist offensichtlich die Länge des Experiments eine interessante zufällige Größe:
X(0, 0, . . . , 0, 1) = n
| {z }
(n−1) mal
Definition:
Der Erwartungswert der Zufallsvariablen X ist definiert als E(X) =
P
a∈Ω X(a)Pr(a).
Im ersten und dritten Beispiel kann man Erwartungswerte relativ leicht ausrechnen:
1) E(X) = 7 und E(Y ) = 70
;
36
P∞
3) E(X) = n=1 n · 21n = 2 (ist etwas schwerer).
Im zweiten Beispiel ist E(X) = n2 die richtige Antwort. Intuitiv ist das klar, aber eine
direkte Berechnung durch konkrete Auswertung der Definition ist relativ aufwändig.
Der folgende Fakt macht die Bestimmung des Erwartungswerts sehr einfach.
Lemma: Der Erwartungswert ist additiv, d.h. für beliebige Zufallsvariable X, Y :
Ω −→ R gilt E(X + Y ) = E(X) + E(Y ), wobei die neue Variable X + Y in naheliegender Weise durch (X + Y )(a) = X(a) + Y (a) definiert ist.
Anwendungen:
• Wir betrachten die binomialverteilte Zufallsvariable X aus Beispiel 2, die jedem
0/1–Tupel der Länge n die Anzahl seiner Einsen zuordnet. Um das Beispiel
noch etwas allgemeiner zu machen, betrachten wir eine unfaire Münze, die mit
Wahrscheinlichkeit p eine 1 (Zahl) und mit Wahrscheinlichkeit q = 1 − p eine 0
48
(Kopf) liefert. Gruppiert man die Folgen derart, dass alle
P Folgen mit genau k
Einsen einer Gruppe angehören, so erhält man E(X) = nk=0 k nk pk (1 − p)n−k .
Es ist relativ aufwändig, daraus E(X) = np abzuleiten. Durch Nutzung der
Additivität der Erwartungswerte kann man diese Formel einfacher erhalten:
Offensichtlich ist X = X1 + X2 + . . . + Xn , wobei die Variable Xi angewendet
auf eine Folge von Münzwurfergebnissen (a1 , . . . , an ) das Ergebnis des i-ten
Wurfs auswertet, also Xi ((a1 , . . . , an )) = ai . Da die Erwartungswerte dieser
Summanden jeweils p sind, folgt E(X) = E(X1 ) + . . . + E(Xn ) = np.
• An einem Tisch sitzen 12 Personen. Von jeder Person wurde ein Foto gemacht.
Diese 12 Bilder liegen verdeckt auf dem Tisch. Jede Person zieht zufällig ein
Foto (zufällig bedeutet hier, dass alle möglichen Zuordnungen der Bilder gleich
wahrscheinlich sein sollen). Wie hoch ist die erwartete Anzahl der Personen,
die ihr eigenes Foto gezogen haben?
Wieder kann man die Zufallsvariable X, welche die Anzahl dieser Personen
zählt, als Summe von zwölf Variablen X1 , . . . , X12 darstellen, wobei Xi den
Wert 1 hat, wenn Person i ihr eigenes Foto gezogen hat, und 0 sonst. Offen1
1
für alle i und folglich ist E(X) = 12 · 12
= 1.
sichtlich ist E(Xi ) = 12
Aus dieser Betrachtung ergibt sich außerdem die (vielleicht etwas überraschende)
Tatsache, dass der Erwatungswert nicht von der Anzahl der Personen abhängt
- auch bei 100 Personen zieht im Erwartungswert eine Person ihr eigenes Foto.
• Eine Versicherung macht folgende Kalkulation: Jeder Versicherte zahlt 100
Euro ein. Mit Wahrscheinlichkeit von 1/20 (also 5 %) muss eine Leistung
von 1000 Euro und mit Wahrscheinlichkeit 1/10 muss eine Leistung von 400
Euro erbracht werden. Wie hoch ist der Erwartungswert für den Gewinn (pro
Versicherungsnehmer)?
Der zu betrachtende Wahrscheinlichkeitsraum hat drei Elementarereignisse a1 , a2
und a3 mit Pr(a1 ) = 1/20, Pr(a2 ) = 1/10 und Pr(a3 ) = 1−1/20−1/10 = 17/20.
Die Zufallsvariable X, die den Gewinn der Versicherung beschreibt, ist die Differenz aus einer Zufallsvariablen Y für die Einnahmen und einer Zufallsvariablen
Z für die Ausgaben in den einzelnen Ereignissen: Dabei hat Y in jedem Fall
den Wert 100 und Z(a1 ) = 1000, Z(a2 ) = 400 und Z(a3 ) = 0. Nach Definition
erhalten wir für den Erwartungswert
E(X) = E(Y ) − E(Z) = 100 − (1000 ·
1
1
+ 400 ·
+ 0) = 100 − 90 = 10
20
10
In vielen praktischen Anwendungen entstehen Zufallsvariable durch Messung von
zufälligen Größen, die auf sehr schwer zu analysierende Wahrscheinlichkeitsräume
zurückgehen. Beispiele dafür sind die Zeit, die man für seinen täglichen Arbeitsweg
braucht oder die Körpergröße einer Person. Deshalb spricht man häufig auch von der
Verteilung einer Variablen, d.h. man interessiert sich für die Wahrscheinlichkeit,
49
dass die Variable einen bestimmten Wert (oder einen Wert aus einem bestimmten Intervall) annimmt und weniger für die Wahrscheinlichkeiten der einzelnen elementaren Ereignisse. Die Wahrscheinlichkeit, dass eine Zufallsvariable X den Wert x0
bzw. einen Wert kleiner oder gleich x0 annimmt wird mit Pr(X = x0 ) bzw. Pr(X ≤ x0 )
notiert. In den gerade genannten Beispielen sind das sogenannte Normalverteilungen,
die man nicht mit einem diskreten Modell beschreiben kann. Es gibt aber auch eine
Reihe von diskreten Zufallsvariablen, die häufig auftreten und deshalb in bestimmte
Typen eingeteilt werden.
• Eine Gleichverteilung liegt vor, wenn eine Zufallsvariable k verschiedene Werte
annehmen kann und jeder Wert die Wahrscheinlichkeit 1/k hat.
• Eine Bernoulli–Verteilung mit dem Parameter p liegt vor, wenn eine Zufallsvariable X nur die Werte 0 und 1 annimmt und Pr(X = 1) = p, Pr(X = 0) = 1 − p
gilt.
• Eine Zufallsvariable X ist binomialverteilt mit den Parametern
n und p, wenn sie
n k
die Werte 0, 1, 2, . . . , n annimmt und Pr(X = k) = k p (1−p)n−k für alle k aus
dem Wertebereich gilt. Mit anderen Worten entsteht eine Binomialverteilung
immer dann, wenn man ein Bernoulli–Experiment n–mal wiederholt und die
Zufallsvariable die Anzahl der 1–Ergebnisse zählt.
• Eine Zufallsvariable X ist geometrisch verteilt mit dem Parameter p, wenn sie
alle Werte aus N+ annehmen kann und Pr(X = k) = (1−p)k−1 p für alle k ∈ N+
gilt. Mit anderen Worten entsteht eine geometrische Verteilung immer dann,
wenn man ein Bernoulli–Experiment so lange wiederholt, bis zum ersten Mal
eine 1 fällt und die Zufallsvariable die Anzahl der Versuche zählt.
Wichtige Anwendungen von Erwartungswerten in der Informatik sind die Analyse der
durchschnittlichen Laufzeit von Algorithmen (Ω besteht dann aus den Eingaben einer
bestimmten Größe und X(a) ist die Laufzeit für eine konkrete Eingabe a) und die
Analyse randomisierter Algorithmen. Im letzten Fall wird die Arbeit des Algorithmus
durch eingebaute Zufälle gesteuert (z.B. Auswahl eines zufälligen Pivotelements bei
Quicksort) und somit ist die Laufzeit für jede konkrete Eingabe eine Zufallsvariable,
deren Wert von den zufälligen Entscheidungen im Ablauf des Algorithmus abhängt.
50
5
5.1
Lineare Algebra
Einführung: Anschauliche Vektorrechnung
Zur Vorbereitung auf die Beschäftigung mit abstrakten Vektorräumen ist es angebracht, sich noch einmal mit intuitiven, elementargeometrischen Grundgedanken zu
dieser Theorie zu beschäftigen. Dabei geht man von Punkten in der Euklidischen
Ebene bzw. im (dreidimensionalen) Euklidischen Raum aus, die durch Koordinatenpaare bzw. Koordinatentripel beschrieben sind. Zur leichteren Veranschaulichung
werden wir im Folgenden vorwiegend Punkte in der Ebene betrachten, aber alle
Überlegungen lassen sich sinngemäß auf den Raum übertragen.
Freie und gebundene Vektoren
−→
Jedes geordnete Punktepaar beschreibt einen gebundenen Vektor AB, veranschaulicht
durch die gerichtete Strecke von A nach B. Auf der Menge der gebundenen Vektoren
−−→
−→
kann man eine Äquivalenzrelation einführen, unter der zwei Vektoren AB und A0 B 0
äquivalent sind, wenn es eine Parallelverschiebung (Translation) gibt, die A in A0 und
−−→
−→
B in B 0 überführt. Es ist klar, dass die Vektoren AB und A0 B 0 genau dann äquivalent
sind, wenn die Tupel der Koordinatendifferenzen zwischen B und A bzw. zwischen
B 0 und A0 gleich sind.
A’
A
B’
B
Eine Äquivalenzklasse dieser Relation nennt man einen freien Vektor. Anschaulich
kann man also einen freien Vektor als ein Objekt beschreiben, das eine bestimmte
Richtung und eine bestimmte Länge, aber keinen festgelegten Anfangspunkt hat. Da
ein freier Vektor durch das Differenzentupel der zu Grunde liegenden gebundenen
Vektoren eindeutig charakterisiert wird, verwendet man dieses Tupel auch als Bezeichnung für den freien Vektor. Eine besondere Rolle unter den freien Vektoren spielt
der Nullvektor (0, 0), der die Äquivalenzklasse aller gebundenen Vektoren der Form
−→
AA ist. Für den Nullvektor wird auch oft die Kurzbezeichnung ~0 verwendet.
Beispiel: Für die Punkte A = (−1, 2) und B = (1, 3) und den gebundenen Vektor
−→
AB entsteht das Differenzentupel (1−(−1), 3−2) = (2, 1), das den zugehörigen freien
Vektor bezeichnet.
−→
Der Standardrepräsentant eines freien Vektors (a1 , a2 ) ist der gebundene Vektor OA,
der vom Koordinatenursprung O = (0, 0) zum Punkt A = (a1 , a2 ) führt. Man nennt
diesen Vektor deshalb auch Ortsvektor des Punkts A.
51
Addition von Vektoren
−→
Gebundene Vektoren sind ein nützliches Werkzeug in der Physik, z.B. kann man AB
zur Beschreibung einer Kraft verwenden, die auf den Punkt A wirkt, wobei Richtung
und Betrag der Kraft durch den freien Vektor beschrieben sind. Darüber hinaus
sind sie sehr gut dazu geeignet, die Addition von Vektoren zu veranschaulichen: Die
−→
−−→
−→
Summe von zwei Vektoren der Form AB und BC ist der Vektor AC. Uns interessiert vor allem die Übertragung dieser Idee auf die freien Vektoren. Dazu muss
man die Addition durch komponentenweise Addition der Koordinaten realisieren,
d.h. (s1 , s2 ) + (t1 , t2 ) = (s1 + t1 , s2 + t2 ).
Zur Veranschaulichung der Addition von zwei freien Vektoren, die durch entsprechende
Ortsvektoren gegeben sind, konstruiert man ein Parallelogramm, dessen vom Koordinatenursprung abgehende Diagonale die Summe der zwei Vektoren repräsentiert.
v
w
v+w
w
v
Durch die Parallelogrammkonstruktion wird auch die Kommutativität der Vektoraddition sehr gut veranschaulicht. Zu jedem freien Vektor ~v kann man durch Umkehrung
der Vorzeichen bei allen Komponenten den sogenannten inversen Vektor −~v kon−→
struieren, der sich durch die Eigenschaft ~v + (−~v ) = ~0 auszeichnet. Ist AB ein
−→
Repräsentant von ~v , dann ist BA ein Repräsentant von −~v .
Multiplikation mit Skalaren
Freie Vektoren können verlängert oder verkürzt (skaliert) werden, indem die Länge
des Vektors ~v mit einem bestimmten Faktor multipliziert wird, aber die Richtung
gleich bleibt. Diese Faktoren - man nennt sie Skalare - können zunächst beliebige
positiv-reelle Zahlen sein, aber auch negative Zahlen r ∈ R kommen in Frage, wenn
man den inversen Vektor −~v mit dem Absolutbetrag |r| skaliert. Die Skalierung eines
Vektors ~v = (s1 , s2 ) mit einem Faktor r ∈ R wird als Multiplikation r · ~v notiert und
durch die Regel r · (s1 , s2 ) = (rs1 , rs2 ) ausgeführt.
Verbindung zu linearen Gleichungssystemen und geometrischen Fragen
Durch Anwendung von Multiplikation mit Skalaren und Vektoraddition entstehen
sogenannte Linearkombinationen von Vektoren, also Ausdrücke der Form r1 · v~1 +. . .+
rk · v~k . Ein wichtiges Problem, mit dem wir uns genauer beschäftigen werden, ist die
52
Frage, ob ein bestimmter Vektor ~v als Linearkombination aus vorgegebenen Vektoren
v~1 , v~2 , . . . , v~k erzeugt werden kann. Wir demonstrieren den Zusammenhang zwischen
dieser Frage, der Lösung von linearen Gleichungssystemen und einem geometrischen
Problem an einem Beispiel im dreidimensionalen Raum.
Problem 1: Kann man den Vektor ~v = (−1, 2, 5) als Linearkombination aus den
Vektoren v~1 = (5, 4, 3) und v~2 = (3, 1, −1) darstellen?
Problem 2: Hat das folgende lineare Gleichungssystem eine Lösung?
5α + 3β = −1
4α + β = 2
3α − β = 5
Problem 3: Liegt der Punkt (−1, 2, 5) in der Ebene, die von den Punkten (0, 0, 0),
(5, 4, 3) und (3, 1, −1) aufgespannt wird?
Man kann sich leicht von der Gleichwertigkeit der drei Probleme überzeugen: Eine
konkrete Lösung des Gleichungssystems würde die Koeffizienten für die Linearkombination von ~v liefern und zeigen, wie man den Ortsvektor des Punkts (−1, 2, 5) aus
den Ortsvektoren der Punkte (5, 4, 3) und (3, 1, −1) erzeugen könnte. Umgekehrt
wären Koeffizienten einer Linearkombination von ~v aus v~1 und v~2 auch Lösungen des
Gleichungssystems, usw.
Wir werden die lineare Algebra als eine Theorie kennenlernen, die es erlaubt, Probleme wie die oben genannten in ihrer allgemeinsten Form zu lösen und Zusammenhänge
zu weiteren interessanten Fragestellungen herzustellen.
5.2
Gruppen und Körper
In diesem Abschnitt wollen wir uns damit beschäftigen, welche mathematischen
Strukturen geeignet sind, Skalare eines Vektorraums zu beschreiben. Mit diesem
strukturellen Ansatz werden die Gemeinsamkeiten bzw. Analogien zwischen den verschiedenen Zahlenbereichen, aber auch zu anderen mathematischen Objekten herausgearbeitet. Eine mathematische Struktur wird in der Regel durch eine Trägermenge,
Operationen auf dieser Trägermenge und Eigenschaften dieser Operationen beschrieben.
Definition: Eine Gruppe (G, ∗) besteht aus einer Trägermenge G und einer Operation
∗ : G × G −→ G mit den folgenden drei Eigenschaften:
(G1)
∀a, b, c ∈ G (a ∗ b) ∗ c = a ∗ (b ∗ c)
(G2)
∃e ∈ G ∀a ∈ G a ∗ e = a = e ∗ a
(e ist neutrales Element)
(G3)
∀a ∈ G ∃ā ∈ G a ∗ ā = e = ā ∗ a
(ā ist das zu a inverse Element)
(Assoziativität)
(G, ∗) ist kommutative (abelsche) Gruppe, falls zudem ∀a, b ∈ G a ∗ b = b ∗ a gilt.
53
Ist für ein Paar (G, ∗) die Eigenschaft (G1) erfüllt, spricht man von einer Halbgruppe
und sind die Eigenschaften (G1) und (G2) erfüllt, spricht man von einem Monoid.
Beispiele:
• (Z, +) ist eine kommutative Gruppe.
• (N, +) erfüllt mit e = 0 nur die Kriterien (G1) und (G2) und ist deshalb ein
Monoid.
• (N+ , +) erfüllt nur das Kriterium (G1) und ist damit eine Halbgruppe.
• (Q, +) ist eine Gruppe.
• (Q, ·) ist ein Monoid (kein zu 0 inverses Element).
• (Q \ {0}, ·) ist eine Gruppe.
• (S(M ), ◦), wobei S(M ) die Menge der bijektiven Funktionen von M auf M
und ◦ die Funktionskomposition darstellen, ist eine Gruppe. Dabei bildet die
identische Funktion IdM das neutrale Element und die inversen Elemente sind
durch die Umkehrfunktionen f −1 gegeben.
• Bezeichne Bn die Menge aller n-stelligen Booleschen Funktionen und ∨, ∧, ⊕
die Operationen Disjunktion, Konjunktion und Antivalenz.
• (Bn , ∨) ist ein Monoid, wobei das neutrale Element die Überall-Null-Funktion
ist.
• (Bn , ∧) ist ein Monoid, wobei das neutrale Element die Überall-Eins-Funktion
ist.
• (Bn , ⊕) ist eine Gruppe wobei das neutrale Element wieder durch die
Überall-Null-Funktion gestellt wird und jede Funktion zu sich selbst invers ist.
Definition: Ein Körper (K, ⊕, ) besteht aus einer Menge K und zwei Operationen
⊕, : K × K −→ K mit den folgenden Eigenschaften:
(K1)
(K, ⊕) ist eine kommutative Gruppe mit einem neutralen Element 0.
(K2)
(K \ {0}, ) ist eine kommutative Gruppe mit einem neutralen Element 1.
(K3)
∀a, b, c ∈ K
a (b ⊕ c) = a b ⊕ a c.
Das zu einem a ∈ K ⊕-inverse Element wird mit −a bezeichnet. Ist a 6= 0, dann
bezeichent man das -inverse Element mit a−1 oder mit a1 .
Beispiele:
• (Q, +, ·) ist ein Körper.
54
• (R, +, ·) ist ein Körper.
• (C, +, ·) ist ein Körper.
• (Z, +, ·) ist kein Körper.
• Für jede Primzahl p bezeichne Zp die Menge {0, 1, . . . , p − 1} der möglichen
Reste beim Teilen durch p. Definiert man darauf die Operationen Addition
modulo p und Multiplikation modulo p entsteht ein Körper. Der Beweis, dass
immer inverse Elemente bezüglich der Multiplikation existieren und Methoden
zur Berechnung dieser Elemente, werden später besprochen.
Schlussfolgerungen aus den Axiomen:
Ein wesentlicher Vorteil der strukturellen Betrachtungen zeigt sich darin, dass man
Sätze über Strukturen beweisen kann, die dann in jedem konkreten Exemplar der
Struktur gültig sind und somit angewendet werden können. Exemplarisch werden
hier ein paar einfache Schlussfolgerungen aus den Gruppen- und Körperaxiomen
vorgestellt.
1. Das neutrale Element in einer Gruppe ist eindeutig.
Beweis:
Angenommen zwei Elemente e und e0 einer Gruppe erfüllen (G2).
Dann wäre e ∗ e0 = e0 wegen (G2) für e und e ∗ e0 = e wegen (G2) für e0 . Damit
muss e = e0 sein, d.h. das neutrale Element ist eindeutig.
2. In einer Gruppe ist für jedes Element a ∈ G das zu a inverse Element eindeutig.
Beweis:
Angenommen ā und ã erfüllen beide (G3). Wir betrachten das
Gruppenelement b = (ā ∗ a) ∗ ã:
(ā ∗ a) ∗ ã = b = ā ∗ (a ∗ ã)
e ∗ ã = b = ā ∗ e
ã = b = ā
|(G1)
|(G3) für ā und für ã
|((G2))
3. In einer Gruppe hat jede Gleichung der Form (a ∗ x) ∗ b = c eine eindeutige
Lösung für die Variable x.
Beweis:
Die Gleichung wird äquivalent umgeformt, d.h. jeder Schritt der
Umformung ist auch umkehrbar. Werden beide Seiten der Gleichung von rechts
mit dem zu b inversen Element verknüpft, und auf der linken Seite (G3) und
(G2) angewendet, enhält man
(a ∗ x) ∗ b = c ⇐⇒ a ∗ x = c ∗ b̄
Werden analog beide Seiten der neuen Gleichung von links mit ā verknüpft, so
ergibt sich die eindeutige Lösung der Gleichung:
a ∗ x = c ∗ b̄ ⇐⇒ x = ā ∗ (c ∗ b̄)
55
4. In einem Körper hat jede Gleichung der Form a x ⊕ b = c eine eindeutige
Lösung, wenn a 6= 0 ist.
Beweis:
Man verwendet das Symbol −b für das bezüglich ⊕ zu b inverse
Element und a−1 für das bezüglich zu a inverse Element und erreicht mit
ähnlichen Umformungen wie beim dritten Punkt die folgende Äquivalenz:
a x ⊕ b = c ⇐⇒ x = a−1 ∗ (c ⊕ −b)
Die nützliche Eigenschaft der eindeutigen Lösbarkeit beschränkt sich in Körpern
im Allgemeinen auf lineare Gleichungen. Eine einfache quadratische Gleichung,
wie x x = 2 ist im Körper der rationalen Zahlen nicht lösbar.
5.3
Vektorräume
In allen nachfolgenden Betrachtungen wird K einen Körper mit den Operationen +
und · und den neutralen Elementen 0 und 1 bezeichnen.
Definition: Ein Vektorraum (abgekürzt VR) über dem Körper K besteht aus einer
Menge V mit zwei Operationen ⊕ : V ×V → V und : K×V → V mit den folgenden
Eigenschaften:
• (V, ⊕) ist eine kommutative Gruppe mit neutralem Element ~0
(~v bezeichnet das ⊕-inverse Element zu ~v )
• ∀ λ, µ ∈ K ∀ ~v ∈ V λ (µ ~v ) = (λ · µ) ~v
• ∀ ~v ∈ V 1 ~v = ~v
• ∀ λ, µ ∈ K ∀ ~v ∈ V (λ + µ) ~v = (λ ~v ) ⊕ (µ ~v )
• ∀ λ ∈ K ∀ ~v , w
~ ∈ V λ (~v ⊕ w)
~ = (λ ~v ) ⊕ (λ w)
~
Beispiele:
1. Der reelle Vektorraum Rn über dem Körper R:
V = Rn = {(x1 , . . . , xn ) | xi ∈ R}
Die Addition und Multiplikation mit Skalaren erfolgen komponentenweise:
(x1 , . . . , xn ) ⊕ (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
λ (x1 , . . . , xn ) = (λx1 , . . . , λxn )
Es ist offensichtlich, dass (0, . . . , 0) der Nullvektor ist und dass man inverse
Vektoren durch komponentenweise Umkehrung des Vorzeichens erhält:
(x1 , . . . , xn ) = (−x1 , . . . , −xn )
56
2. Die auf dem Intervall [0, 1] definierten reellwertigen Funktionen bilden einen
Vektorraum über dem Körper R:
V = {f | f : [ 0, 1 ] → R}
Die Addition von zwei Funktionen f, g ∈ V und die Multiplikation einer Funktion f mit einem Skalar λ ergeben neue Funktionen f ⊕ g bzw. λ f , die wie
folgt punktweise definiert werden:
(f ⊕ g)(x) = f (x) + g(x)
(λ f )(x) = λ · (f (x))
3. Die reellen Zahlen R sind ein Vektorraum über dem Körper Q.
Bemerkung 1: Die Frage, ob man Vektoren des Rn in Zeilen- oder Spaltenform
schreibt, ist zunächst zweitrangig. Hier haben wir uns aus Platzgründen für die
Zeilenform entschieden, aber insbesondere wenn lineare Abbildungen durch Matrizen
repräsentiert werden, muss man die Spaltenform nutzen.
Bemerkung 2: Die Verwendung von verschiedenen Symbolen für die Addition von
Vektoren und von Skalaren hat rein didaktischen Charakter. Ab jetzt werden wir in
beiden Fällen das übliche + verwenden. Welche Operation anzuwenden ist, ergibt
sich eindeutig aus dem Kontext. Gleiches gilt für die Multiplikationen und für die
Subtraktion, welche eigentlich als Addition des inversen Elements zu verstehen ist,
d.h. ~v − w
~ := ~v ⊕ (w).
~
Unterräume
Definition: Eine nichleere Teilmenge U eines Vektorraums V über K wird Unterraum oder genauer Untervektorraum von V (abgekürzt UR) genannt, falls
• ∀ ~v , w
~ ∈U
~v + w
~ ∈U
• ∀ ~v ∈ U ∀ λ ∈ K
λ~v ∈ U
Diese Eigenschaften bedeuten, dass die Menge U abgeschlossen gegen Vektoraddition
und Multiplikation mit Skalaren sein muss.
Beispiele:
1. Für den Vektorraum V = Rn = {(x1 , . . . , xn ) | xi ∈ R} ist die Teilmenge
U = {(x1 , x2 , 0, . . . , 0) | x1 , x2 ∈ R} ein Unterraum von V .
2. Für den Vektorraum V = {f | f : [0, 1] → R} sind die Teilmengen
• U = {f | f : [0, 1] → R, f ist stetig} und
• U 0 = {f | f : [0, 1] → R, f ist linear, d.h. f (x) = ax + b}
Unterräume von V .
3. Betrachtet man V =√R als Vektorraum über dem Körper Q, dann ist die Teilmenge U = {q1 + q2 2 | q1 , q2 ∈ Q} ein Unterraum von V .
57
Satz: Sei V ein Vektorraum
T über einem Körper K und {Ui | i ∈ I} eine Familie
von Unterräumen, dann ist Ui auch ein Unterraum von V .
i∈I
Beweis: Sei ~u, ~v ∈
T
Ui und λ ∈ K, dann gilt
i∈I
• ~u und ~v sind Elemente von allen Ui
• ~u + ~v und λ~u sind Elemente von allen Ui
T
T
Daraus folgt, dass ~u + ~v ∈ Ui und λ~u ∈ Ui .
i∈I
i∈I
Beispiel: Durchschnitt von xy-Ebene und der yz-Ebene im R3 ist die y-Achse.
1111111111111111111
0000000000000000000
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
0000000000000000000
1111111111111111111
0000000000000000000111111
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
00000000
11111111
0000000000000000000111111
1111111111111111111
000000
111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
111111
x
000000001111111111111111111
11111111
0000000000000000000
000000
00000000
11111111
0000000000000000000111111
1111111111111111111
000000
111111
00000000
11111111
000000
0000000000000000000111111
1111111111111111111
00000000
11111111
0000000000000000000
1111111111111111111
00000000
11111111
0000000000000000000
1111111111111111111
000000001111111111111111111
11111111
0000000000000000000
00000000
11111111
0000000000000000000
1111111111111111111
00000000
11111111
0000000000000000000
000000001111111111111111111
11111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
y
z
Die folgenden zwei Beobachtungen sollten als Übung leicht zu beweisen sein. Ist
U ein Unterraum eines Vektorraums V , dann gilt:
• Der Nullvektor ~0 gehört zu U ;
• Für jeden Vektor ~u ∈ U gehört auch der inverse Vektor −~u zu U .
Linearkombinationen und lineare Hülle
Definition: Sind ~v1 , ~v2 , . . . , ~vk ∈ V paarweise verschiedene Vektoren und λ1 , λ2 , . . . , λk ∈
K beliebige Skalare, so nennt man den Vektor
λ1~v1 + λ2~v2 + . . . + λk~vk
eine Linearkombination (abgekürzt LK) aus den Vektoren ~v1 , ~v2 , . . . , ~vk .
Lemma: Sei M ⊆ V eine Teilmenge eines Vektorraums V , dann bildet die Menge
UM aller Linearkombinationen von Vektoren aus M einen Unterraum von V .
Beweis: Man muss die Abgeschlossenheit von UM bezüglich Vektoraddition und
Multiplikation mit Skalaren nachweisen. Dazu betrachten wir ein Skalar α ∈ K und
zwei Vektoren aus UM :
58
• ~v = λ1~v1 + λ2~v2 + . . . + λk~vk mit v~i ∈ M für 1 ≤ i ≤ k
• w
~ = µ1 w
~ 1 + µ2 w
~ 2 + . . . + µl w
~ l mit w
~ i ∈ M für 1 ≤ i ≤ l
Abgeschlossenheit bezüglich Multiplikation mit Skalaren:
α~v = α(λ1~v1 + λ2~v2 + . . . + λk~vk ) = (αλ1 )~v1 + (αλ2 )~v2 + . . . + (αλk )~vk ∈ UM
Um die Abgeschlossenheit bezüglich Addition zu zeigen, nehmen wir oBdA. an (Kommutativgesetz anwenden), dass alle Vektoren, die in den Linearkombinationen von ~v
und w
~ gemeinsam auftreten (die Anzahl sei j), linksbündig stehen, d.h. v~i = w
~ i für
alle i zwischen 1 und j und {~vj+1 , . . . , v~k } ∩ {w
~ j+1 , . . . , w
~ l } = ∅. Dieser kleine technische Trick ist notwendig, um eine Linearkombination von paarweise verschiedenen
Vektoren zu konstruieren:
~v + w
~ = (λ1~v1 + λ2~v2 + . . . + λk~vk ) + (µ1 w
~ 1 + µ2 w
~ 2 + . . . + µ w)
~
= (λ1 + µ1 )v~1 + . . . + (λj + µj )~
vj + λj+1~vj+1 + . . . + λk v~k + µj+1 w
~ j+1 + . . . + µl w
~l
Damit liegt ~v + w
~ als Linearkombination von Vektoren aus M auch in UM .
Definition: Sei M ⊆ V eine Menge von Vektoren, dann ist die lineare Hülle Lin(M )
von M der kleinste Unterraum von V (bezüglich Inklusion), der M enthält, d.h.
\
Lin(M ) =
U
U ist UR von V
M ⊆U
Satz: Die lineare Hülle einer Menge M ⊆ V ist die Menge aller Linearkombinationen
der Vektoren aus M , d.h.
Lin(M ) = {λ1~v1 + . . . + λk~vk | λi ∈ K, ~vi ∈ M }
Beweis: Einerseits bildet die Menge UM aller Linearkombinationen von Vektoren
aus M einen Unterraum (Lemma). Andererseits enthält jeder Unterraum U , der M
enthält, auch alle Linearkombinationen von Vektoren aus M (Abgeschlossenheit von
Unterräumen bezüglich der Addition und der Multiplikation mit Skalaren). Daraus
folgt, dass UM der kleinste Unterraum ist, der M enthält.
5.4
Lineare Unabhängigkeit, Basis und Dimension
Definition: Eine Menge {~v1 , ~v2 , . . . , ~vk } von k Vektoren heißt linear abhängig (l.a.),
wenn eine Linearkombination existiert, mit
λ1~v1 + λ2~v2 + . . . + λk~vk = ~0
wobei mindestens ein λi 6= 0 ist. Eine solche Linearkombination nennt man nichttriviale Linearkombination des Nullvektors.
59
Definition: Eine Menge M ⊆ V ist linear unabhängig, wenn es keine nichttriviale
Linearkombination des Nullvektors von Vektoren aus M gibt.
Folgerung: Eine Menge M ⊆ V ist linear unabhängig, wenn jede endliche Teilmenge
von M linear unabhängig ist.
Bemerkung 1: Man kann die Definition der linearen Unabhängigkeit auch sinngemäß auf Folgen von Vektoren anwenden. In diesem Fall reicht die Wiederholung
eines Vektors in der Folge aber schon aus, lineare Abhängigkeit zu erzeugen, denn
wenn v~i = v~j ist, dann ist 1 · v~i + (−1) · v~j einen nichttriviale Linearkombination des
Nullvektors.
Bemerkung 2: Aus ~0 ∈ M folgt lineare Abhängigkeit, denn ~0 = 1 · ~0 ist eine
nichttriviale Linearkombination des Nullvektors.
Beispiele:
1. Die Vektoren
 
0

v~1 = 1 ,
1
 
1

v~2 = 1 ∈ R3
1
sind linear unabhängig, denn für jede Linearkombination λ1 v~1 + λ2 v~2 = ~0 gilt
0 = λ2
0 = λ1 + λ2
0 = λ1 + λ2
und daraus folgt, λ1 = λ2 = 0.
2. Im Vektorraum V = {f | f : [ 0, 1 ] → R} sind die Funktionen f und g, die
durch f (x) = x+1 und g(x) = 2 definiert sind, linear unabhängig, denn für jede
Linearkombination λf + µg, die den Nullvektor, also die Funktion h0 (x) = 0
ergibt, wäre
h0 (0) = 0 = λf (0) + µg(0) = λ + 2µ
h0 (1) = 0 = λf (1) + µg(1) = 2λ + 2µ
und daraus folgt, λ = µ = 0.
Satz: Für jede Teilmenge M eines Vektorraums V sind die folgenden Aussagen
äquivalent:
1. Die Menge M ist linear unabhängig.
2. Kein Vektor ~v ∈ M kann als Linearkombination aus den übrigen Vektoren aus
M dargestellt werden.
3. Jeder Vektor ~v ∈ Lin(M ) hat eine eindeutige Darstellung als Linearkombination
aus M .
60
Beweis: Der Satz wird über die negierten Aussagen nach folgendem Schema bewiesen:
¬(1)
⇒
¬(2)
⇒
¬(3)
⇒
¬(1)
1. Schritt
2. Schritt
3. Schritt
Zuerst formulieren wir die Negationen der drei Aussagen:
¬(1): Es gibt eine nichttriviale Linearkombination von ~0.
¬(2): Es gibt einen Vektor ~v ∈ M , der Linearkombination der übrigen Vektoren ist.
¬(3): Es gibt einen Vektor ~v ∈ Lin(M ) mit verschiedenen Linearkombinationen aus
M.
Die drei Implikationen aus dem Schema kann man wie folgt beweisen.
• Schritt 1: Angenommen es gibt eine nichttriviale Linearkombination von ~0:
~0 = λ1~v1 + λ2~v2 + . . . + λk~vk
mit ~v1 , ~v2 , . . . , ~vk ∈ M , λ1 , λ2 , . . . , λk ∈ K und ∃ λi 6= 0.
Ohne Beschränkung der Allgemeinheit können wir λ1 6= 0 annehmen. Diese
Gleichung wird in zwei Schritten nach ~v1 umgestellt:
(−λ1 )~v1 = λ2~v2 + λ3~v3 + . . . + λk~vk
~v1 = (−λ1 )−1 λ2~v2 + (−λ1 )−1 λ3~v3 + . . . + (−λ1 )−1 λk~vk
Damit ist ~v1 eine Linearkombination aus den übrigen Vektoren aus M .
• Schritt 2: Angenommen es gibt einen Vektor ~v , der Linearkombination der
übrigen Vektoren ist:
~v = λ1~v1 + λ2~v2 + . . . + λk~vk
wobei ~v 6∈ {~v1 , . . . , ~vk }. Damit existieren mindestens zwei verschiedene Linearkombinationen von ~v :
~v = 1 · ~v + 0 · ~v1 + 0 · ~v2 + . . . + 0 · ~vk
= 0 · ~v + λ1 · ~v1 + λ2 · ~v2 + . . . + λk · ~vk
• Schritt 3: Angenommen, es existiert ein Vektor ~v ∈ Lin(M ) mit zwei verschiedenen Linearkombinationen aus M :
~v = λ1~u1 + λ2~u2 + . . . + λm~um
= µ1 w
~ 1 + µ2 w
~ 2 + . . . + µn w
~n
Dann betrachten wir die Vereinigung der zwei Vektormengen
{~u1 , ~u2 , . . . , ~um } ∪ {w
~ 1, w
~ 2, . . . , w
~ n } = {~v1 , ~v2 , . . . , ~vk } ⊆ M
61
und erweitern die beiden gegebenen Linearkombinationen zu Linearkombinationen über dieser Vereinigung, indem für die Koeffizienten der jeweils fehlenden
Vektoren Nullen gesetzt werden:
~v = λ01~v1 + λ02~v2 + . . . + λ0k~vk
= µ01~v1 + µ02~v2 + . . . + µ0k~vk
wobei
λ0i
=
λj
0
falls ~vi = ~uj
sonst
und
µ0i
=
µj
0
falls ~vi = w
~j
sonst
Da auch diese Linearkombinationen verschieden sind, gibt es ein i0 , so dass
λ0i0 6= µ0i0 . Durch Subtraktion der beiden Gleichungen ergibt sich
~0 = ~v − ~v = (λ01~v1 + λ02~v2 + . . . + λ0k~vk ) − (µ01~v1 + µ02~v2 + . . . + µ0k~vk )
= (λ01 − µ01 )~v1 + . . . + (λ0i0 − µ0i0 ) ~vi0 + . . . + (λ0k − µ0k )~vk
| {z }
6=0
Damit wurde die Existenz einer nichttrivialen Linearkombination von ~0 abgeleitet.
Erzeugendensystem und Basis
Definition: Eine Teilmenge M ⊆ V heißt Erzeugendensystem von V , wenn die
lineare Hülle von M der Vektorraum V ist, d.h. wenn Lin(M ) = V .
Definition: Eine Teilmenge M ⊆ V heißt Basis von V , wenn sie ein Erzeugendensystem von V und linear unabhängig ist.
Folgerung: Eine Teilmenge M ⊆ V ist genau dann eine Basis von V , wenn jeder
Vektor ~v ∈ V eine eindeutige Darstellung als Linearkombination aus M hat.
Beispiele:
• Die Vektoren
 
1
0
 
~e1 =  ..  ,
.
0
 
0
1
 
~e2 =  ..  ,
.
0
 
0
0
 
. . . , ~en =  .. 
.
1
bilden eine Basis des Vektorraums Rn , welche man kanonische Basis oder
Standardbasis von Rn nennt. Zum Nachweis der Basiseigenschaften reicht die
62
Überlegung, dass jeder Vektor aus Rn eindeutig als Linearkombination darstellbar ist:
 
a1
 a2 
 
 ..  = a1~e1 + a2~e2 + . . . + an~en
.
an
• Die Vektoren
 
1
0
 
~v1 = ~e1 =  ..  ,
.
0
 
1
1
 
~v2 = ~e1 + ~e2 =  ..  ,
.
0
 
1
1
 
. . . , ~vn = ~e1 + . . . + ~en =  .. 
.
1
bilden eine andere Basis des Vektorraums Rn .
Satz: Für jede Teilmenge M ⊆ V sind die folgenden Bedingungen äquivalent:
1. Die Menge M ist Basis von V .
2. Die Menge M ist ein minimales Erzeugendensystem von V .
3. Die Menge M ist eine maximale linear unabhängige Menge.
Die Begriffe ”‘minimal”’ und ”‘maximal”’ beziehen sich dabei auf die Inklusionsrelation von Mengen.
Während man die Äquivalenz der ersten beiden Bedingungen aus dem Satz über
die verschiedenen Charakterisierungen der linearen Unabhängigkeit ableiten kann,
hilft bei der Äquivalenz zwischen der ersten und der dritten Bedingung das folgende
Lemma.
Lemma: Ist eine Teilmenge M ⊆ V linear unabhängig und der Vektor ~v ∈ V nicht in
der linearen Hüllen von M , dann ist die Menge M ∪ {~v } ebenfalls linear unabhängig.
Beweis (indirekt): Angenommen M ∪{~v } wäre linear abhängig, dann existiert eine
nichttriviale Linearkombination
~0 = λ1~v1 + λ2~v2 + . . . + λk~vk + λ~v
in der λ 6= 0 sein muss, denn anderenfalls wäre das eine nichttriviale Linearkombination des Nullvektors über M . Durch Gleichungsumstellung ergibt sich
~v = (−λ)−1 λ1~v1 + (−λ)−1 λ2~v2 + . . . + (−λ)−1 λk~vk
Damit ist ~v ∈ Lin(M ), ein Widerspruch zur Annahme.
Basisergänzungssatz von Steinitz : Sei V ein Vektorraum über dem Körper K,
M = {v~1 , . . . , v~k } eine linear unabhängige Teilmenge von V und N = {w~1 , . . . , w
~l}
63
eine weitere endliche Teilmenge von V , so dass die Vereinigung M ∪ N ein Erzeugendensystem von V ist. Dann kann man die Menge M durch eventuelle Hinzunahme
von Vektoren aus der Menge N zu einer Basis des Vektorraumes V erweitern.
Beweisidee: Man beweist diesen Satz mit vollständiger Induktion nach l = |N |.
• Der Induktionsanfang mit l = 0 ist einfach, denn dann ist M nach den Voraussetzungen bereits eine Basis und muss nicht ergänzt werden.
• Für den Induktionsschritt von l − 1 nach l macht man eine Fallunterscheidung:
1. Ist Lin(M ) = V , dann ist M bereits eine Basis.
2. Ist Lin(M ) 6= V , dann muss es ein w
~ i ∈ N geben, das nicht zu Lin(M )
gehört (anderenfalls wäre Lin(M ∪ N ) = Lin(M ) 6= V ). Nach obigen
Lemma ist dann die Menge M 0 = M ∪ {w
~ i } linear unabhängig und das
0
0
Mengenpaar M und N = N \ {w
~ i } erfüllt die Induktionsvoraussetzung,
0
weil |N | = l − 1. Folglich kann man M 0 durch eventuelle Hinzunahme von
Vektoren aus der Menge N 0 zu einer Basis des Vektorraumes V erweitern.
    
1 
 1



0 , 1 und N die Standardbasis von R3 .
Beispiel: Sei M =


0
0
Der Vektor ~e1 ist bereits in M2 enthalten und damit keine geeignete Ergänzung für
M . Der Vektor ~e2 ist auch keine Basisergänzung, weil M ∪ {~e2 } linear abhängig wäre,
doch der dritte Vektor ~e3 ergänzt die Menge M zu einer Basis.
Die folgenden zwei Aussagen sind unmittelbare Konsequenzen aus dem Basisergänzungssatz.
Austauschlemma: Sind die Mengen {~v1 , ~v2 , . . . , ~vn } und {w
~ 1, w
~ 2, . . . , w
~ m } zwei
Basen eines Vektorraums V , dann gibt es für jeden Vektor ~vi einen Vektor w
~ j , so
dass die Menge ({~v1 , ~v2 , . . . , ~vn } \ {~vi }) ∪ {w
~ j } ebenfalls Basis von V ist, d.h. man
kann in der ersten Basis v~i gegen w~j . austauschen.
Satz: Besitzt ein Vektorraum V eine endliche n-elementige Basis, dann ist jede
andere Basis von V auch endlich und hat n Elemente.
Beweis: Sei eine n-elementige Basis B1 und eine weitere Basis B2 von V gegeben.
Wendet man auf B1 n-mal das Austauschlemma an, so entsteht einen Basis B von
V , die keine Elemente aus B1 , sondern nur Elemente aus B2 enthält. Da man weiß,
dass kein Element aus B2 mehrfach eingetauscht wurde (anderenfalls würde lineare
Abhängigkeit entstehen), müssen es genau n Elemente sein. Damit ist |B1 | = n ≤
|B2 |. Andererseits kann B2 nicht mehr als n Elemente haben, denn B ⊆ B2 ist
bereits ein Erzeugendensystem von V und B2 ist als Basis von V ein minimales
Erzeugendensystem.
64
Dimension
Definition: Besitzt ein Vektorraum V eine endliche Basis {~v1 , ~v2 , . . . , ~vn }, dann
nennt man V einen endlich-dimensionalen und konkreter einen n-dimensionalen Vektorraum. Die Dimension des Raums wird mit dem Symbol dim V = n bezeichnet.
Ein Vektorraum, der keine endliche Basis besitzt, wird unendlich-dimensional genannt
und man verwendet dafür die formale Schreibweise dim V = ∞.
Satz: Ist M = {~v1 , ~v2 , . . . , ~vk } eine Teilmenge eines Vektorraums V mit k > dim V ,
so ist M linear abhängig.
Beweis: Wäre M linear unabhängig, könnte man durch k-fache Anwendung des
Basisergänzungssatzes die Vektoren aus M gegen Vektoren einer Basis von V austauschen. Da dabei zwangsläufig mindestens ein Basisvektor mehrfach in M eingefügt
werden müsste, entstünde lineare Abhängigkeit - ein Wiederspruch.
Satz: Jeder Vektorraum besitzt eine Basis.
Dieser Satz ist von fundamentaler Bedeutung, aber leider übersteigt sein Beweis
unsere bisher zur Verfügung stehenden mathematischen Mittel. Deshalb kann er im
Rahmen dieser Vorlesung nur genannt, aber nicht bewiesen werden.
Im Gegensatz dazu sind die folgenden Aussagen einfache Konsequenzen aus dem
Basisergänzungssatz und dem Austauschlemma.
Satz: Ist die Dimension eines Vektorraumes V endlich und U ein Unterraum von V ,
i)
dim U ≤ dim V
dann gilt:
ii)
dim U < dim V ⇔ U 6= V
Definition: Sind U1 und U2 Unterräume von V , so nennt man die Menge
U1 + U2 = {~x + ~y | ~x ∈ U1 , ~y ∈ U2 }
die Summe von U1 und U2 .
Beispiel: Sei V = R4 mit den Unterräumen U1 = Lin({~e1 , ~e2 , ~e4 }) und U2 =
Lin({~e1 , ~e3 , ~e4 }) sowie U3 = Lin({~e1 + ~e2 , ~e1 + ~e4 }) , dann ist
U1 + U2 = R4
und
U1 + U3 = U1
Satz: Die Summe von zwei Unterräumen ist ein Unterraum. Für zwei endlich-dimensionale Unterräume U1 und U2 gilt:
dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 )
Beweisidee:
• Die Abgeschlossenheit von U = U1 + U2 bezüglich Addition und Multiplikation
mit Skalaren ist trivial.
• Sei B = {~v1 , ~v2 , . . . , ~vr } eine Basis von U1 ∩ U2 .
65
• Wir ergänzen B zu einer Basis B1 von U1 :
B1 = {~v1 , ~v2 , . . . , ~vr , ~u1 , ~u2 , . . . , ~us }
• Wir ergänzen B zu einer Basis B2 von U2 :
B2 = {~v1 , ~v2 , . . . , ~vr , w
~ 1, w
~ 2, . . . , w
~ t}
• Man weist nach, dass B1 ∪ B2 = {~v1 , ~v2 , . . . , ~vr , ~u1 , ~u2 , . . . , ~us , w
~ 1, w
~ 2, . . . , w
~ t}
eine Basis von U = U1 + U2 ist.
• Damit gilt für die Dimensionen:
dim(U1 + U2 ) = r + s + t = r + s + r + t − r = dim U1 + dim U2 − dim(U1 ∩ U2 )
Beispiele:
• Sei V = R3 , der Unterraum U1 eine Ebene durch den Koordinatenursprung und
der Unterraum U2 eine Gerade durch den Koordinatenursprung, die aber nicht
in U1 liegt. Dann ist dim U1 = 2, dim U2 = 1 und dim(U1 ∩ U2 ) = 0 (wegen
U1 ∩ U2 = {~0}). Aus dem Satz folgt dann:
dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 2 + 1 − 0 = 3
Damit ist U1 + U2 = R3 .
• Sind U1 und U2 zwei verschiedene Unterräume des Rn mit dim U1 = dim U2 =
n − 1, dann ist U1 + U2 = Rn und folglich dim (U1 ∩ U2 ) = n − 2.
5.5
Lineare Abbildungen
Definition: Seien V und W zwei Vektorräume über einem Körper K. Eine Abbildung f : V → W heißt linear (oder Vektorraumhomomorphismus), wenn für alle
~v , w
~ ∈ V und für alle λ ∈ K gilt:
f (~v + w)
~ = f (~v ) + f (w)
~
f (λ · ~v ) = λ · f (~v )
Hom(V, W ) bezeichnet die Menge aller linearer Abbildungen f : V → W .
Beobachtungen:
• Sei f ∈ Hom(V, W ), dann gilt:
f (λ1~v1 + λ2~v2 + . . . + λk~vk ) = λ1 · f (~v1 ) + λ2 · f (~v2 ) + . . . + λk · f (~vk )
für alle ~v1 , ~v2 , . . . , ~vk ∈ V und alle λ1 , λ2 , . . . , λk ∈ K.
• Die Verknüpfung von linearen Abbildungen f : V → W und g : W → Y ist
eine lineare Abbildung gf : V → Y , wobei die Verknüpfung wie folgt operiert:
gf (~v ) = g(f (~v ))
66
• Die Menge aller linearen Abbildungen Hom(V, W ) ist selbst ein Vektorraum
mit den Operationen:
• (f + g)(~v ) = f (~v ) + g(~v )
• (λ · f )(~v ) = λ · f (~v )
Dazu muss man nur nachprüfen, dass für alle f, g ∈ Hom(V, W ) und λ ∈ K die
Abbildungen f +g und λ·f auch linear sind. Das kann man aus den Definitionen
der Operationen in Hom(V, W ), den Eigenschaften von linearen Abbildungen
und den Vektorraumeigenschaften ableiten:
(f + g)(~u + ~v ) =
=
=
=
f (~u + ~v ) + g(~u + ~v )
f (~u) + f (~v ) + g(~u) + g(~v )
f (~u) + g(~u) + f (~v ) + g(~v )
(f + g)(~u) + (f + g)(~v )
Analog erfolgt auch die Ableitung der drei anderen Bedingungen:
(λ · f )(~u + ~v ) = (λ · f )(~u) + (λ · f )(~v )
(f + g)(µ~u) = µ(f + g)(~u)
(λ · f )(µ~u) = µ(λ · f )(~u)
Eine Reihe häufig verwendeter geometrischer Transformationen, wie Drehungen um
den Koordinatenursprung, Spiegelungen an Geraden bzw. Ebenen, die durch den
Koordinatenursprung verlaufen, sowie Projektionen auf solche Geraden und Ebenen
sind lineare Abbildungen. Die folgenden Beispiele demonstrieren das in der Ebene:
x
x
a) Die Spiegelung an der x-Achse erfolgt durch die Abbildung f
=
y
−y
x
y
b) Die Spiegelung an der Geraden y = x erfolgt durch g
=
y
x
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
y=x
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
11
00
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
v
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
111
000
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
g(v)
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
11111111111111111111111111
00000000000000000000000000
0
1
x 1111111111111111
0000000000000000
0
1
0000000000000000
1111111111111111
0
1
0000000000000000
1111111111111111
0
1
0000000000000000
1111111111111111
0
1
0000000000000000
1111111111111111
0
1
0 y
1
67
x
0
c) Die Projektion auf die y-Achse erfolgt durch die Abbildung h
=
y
y
d) Die Drehung um 45 in R2 erfolgt durch eine Abbildung j, die man zuerst auf
den Basisvektoren beschreibt:
!
!
1
1
√
√
−
0
1
2
j
=
j
= √12
√1
1
0
2
2
Das erweitert man zu einer linearen Abbildung:
0
x
1
0
1
j
=j x·
+y·
= x·j
+y·j
y
0
1
0
1
!
1
1
√ x− √ y
2
2
=
√1 x + √1 y
2
2
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
u
0
j(u) 1
0
1
0
1
0
1
0
1
j(v)
0
1
0
1
0
1
0
1
0
1
111111111111111111111111
000000000000000000000000
0
1
0
1
v
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
Man beachte, dass Translationen (also Verschiebungen) keine linearen Abbildungen
sind, da eine lineare Abbildung immer den Nullvektor auf den Nullvektor abbilden
muss. Man kann Translationen erst durch einen Trick, nämlich die Einführung homogener Koordinatensysteme, als lineare Abbildung darstellen.
Kern und Bild von linearen Abbildungen
Definition: Der Kern Ker f und das Bild Im f einer linearen Abbildung f ∈
Hom(V, W ) sind wie folgt definiert:
Ker f = {~v ∈ V | f (~v ) = ~0}
Im f = {w
~ ∈ W | ∃ ~v f (~v ) = w}
~
Beispiele: Wir bestimmen die Kerne und Bilder der oben eingeführten geometrischen
Transformationen.
68
a) Ker f = {~0}, denn
0
x
x
f
=
=
⇔ x=0 ∧ y=0
y
−y
0
Im f = R2 , denn
x
x
=f
y
−y
für alle
x
∈ R2
y
Damit ist F eine bijektive Abbildung von R2 nach R2 mit der Umkehrabbildung
f −1 = f .
b) Ker g = {~0} und Im g = R2 . Damit ist auch g eine bijektive Abbildung von R2
nach R2 mit der Umkehrabbildung g −1 = g.
1
c) Ker h = Lin
, denn
0
x
0
0
h
=
=
⇔ y=0
y
y
0
0
Im h = Lin
, denn die x-Komponente aller Elemente aus dem Bild ist
1
0.
d) Ker j = {~0}, denn
x
j
=
y
√1
2
√1
2
x−
x+
√1
2
√1
2
y
y
!
0
=
⇔ x=0 ∧ y=0
0
Die Abbildung j ist eine bijektive Abbildung von R2 nach R2 , weil mit
!
√1 x + √1 y
x
−1
2
2
j
=
y
− √12 x + √12 y
eine Umkehrabbildung existiert. Daraus folgt Im f = R2 .
Lemma: Der Kern einer linearen Abbildung f ∈ Hom(V, W ) ist ein Unterraum von
V und das Bild von f ist ein Unterraum von W .
Beweis (Kern): Seien ~u, ~v ∈ Ker f und λ ∈ K (Körper zu V ).
• Ker f ist nicht leer, denn:
f (~0) = f (~0 − ~0) = f (~0) − f (~0) = ~0
Damit ist ~0 ∈ Ker f .
69
• Abgeschlossenheit bezüglich der Addition:
Für alle ~u, ~v ∈ Ker f :
f (~u + ~v ) =
=
=
f (~u) + f (~v )
~0 + ~0
~0
Damit ist auch ~u + ~v ∈ Ker f .
• Abgeschlossenheit bezüglich der Multiplikation mit Skalaren:
Für alle ~u ∈ Ker f und für alle λ ∈ K:
f (λ~u) =
=
=
λ · f (~u)
λ · ~0 (da ~u ∈ Ker f )
~0
Damit ist auch λ~u ∈ Ker f .
Beweis (Bild): Seien ~u, ~v ∈ Im f und λ ∈ K (Körper zu W ).
• Im f ist nicht leer, denn f (~0) = ~0 ∈ Im f .
• Abgeschlossenheit bezüglich der Addition:
~ 0 = f (v~0 ) ∈ Im f
Für alle w
~ = f (~v ), w
~ 0 = f (~v ) + f (v~0 )
w
~ +w
= f (~v + v~0 ) ∈ Im f
• Abgeschlossenheit bezüglich der Multiplikation mit Skalaren:
Für alle w
~ = f (~v ) ∈ Im f und alle λ ∈ K
λw
~ = λ · f (~v )
= f (λ~v ) ∈ Im f
Lemma: Eine lineare Abbildung f ∈ Hom(V, W ) ist genau dann injektiv, wenn ihr
Kern nur aus dem Nullvektor besteht, d.h.
f ist injektiv
⇐⇒
Ker f = {~0}
Beweis: Die Richtung ⇒ ist offensichtlich, denn da f (~0) = ~0 und f injektiv ist, kann
kein anderer Vektor auf ~0 abgebildet werden.
Für die Richtung ⇐ erfolgt der Beweis durch Widerspruch:
Angenommen Ker f = {~0} und f ist nicht injektiv, dann existieren zwei Vektoren
~u, ~v ∈ V , so dass ~u 6= ~v aber f (~u) = f (~v ). Daraus folgt
f (~u − ~v ) = f (~u) − f (~v ) = ~0
und damit liegt ~u − ~v 6= ~0 in Ker f , ein Widerspruch zur Annahme.
Spezielle Homomorphismen
Definitionen: Einen Homomorphismus f ∈ Hom(V, W ) nennt man einen
70
• Monomorphismus, wenn f injektiv ist,
• Epimorphismus, wenn f surjektiv ist,
• Isomorphismus, wenn f bijektiv ist,
• Endomorphismus, wenn V = W ,
• Automorphismus, wenn V = W und f bijektiv ist.
Der folgende Satz ist eine einfache Konsequenz aus den bekannten Fakten, dass die
Komposition von bijektiven Abbildungen auch bijektiv und die Komposition von
linearen Abbildungen auch linear ist.
Satz: Die Komposition (Verkettung) von zwei Isomorphismen ist auch wieder ein
Isomorphismus.
Satz: Ist f ∈ Hom(V, W ) ein Isomorphismus, dann ist auch f −1 ∈ Hom(W, V ) ein
Isomorphismus.
Beweis: Da ein Isomorphismus bijektiv ist, gibt es eine eindeutige Umkehrfunktion
f −1 : W −→ V , die durch
f (~v ) = w
~ ⇐⇒ f −1 (w)
~ = ~v
charakterisiert ist. Man muss nur noch die Abbildung f −1 auf Linearität überprüfen:
~ 0 = f (v~0 ) gegeben. Da f linear ist, gilt f (~v + v~0 ) = f (~v )+f (v~0 ) =
Seien w
~ = f (~v ) und w
~ 0 und f (λ~v ) = λf (~v ) = λw.
w
~ +w
~ Jetzt ergibt sich die Linearität von f −1 durch
Anwendung der oben beschriebenen Äquivalenz auf die zwei Gleichungen:
~ 0 ) = ~v + v~0 = f −1 (w)
~ 0)
f −1 (w
~ +w
~ + f −1 (w
f −1 (λw)
~ = λ~v = λf −1 (w)
~
Satz: Seien V und W zwei Vektorräume über K, {~v1 , ~v2 , . . . , ~vn } ⊆ V eine Basis
von V und w
~ 1, w
~ 2, . . . , w
~ n ∈ W eine beliebige Folge von Vektoren aus W , dann gibt
es eine eindeutige lineare Abbildung f ∈ Hom(V, W ) definiert durch
f (~vi ) = w
~ i für i = 1, 2, . . . , n
Beweis: Jeder Vektor ~v ∈ V hat eine eindeutige Darstellung als Linearkombination
aus den Basisvektoren ~v1 , ~v2 , . . . , ~vn :
~v = λ1~v1 + λ2~v2 + . . . + λn~vn
Wenn eine lineare Abbildung mit der Eigenschaft f (~vi ) = w
~ i für i = 1, 2, . . . , n
existiert, dann muss
f (~v ) = λ1 w
~ 1 + λ2 w
~ 2 + . . . + λn w
~ n = λ1 · f (~v1 ) + λ2 · f (~v2 ) + . . . + λn · f (~vn )
71
gelten. Es bleibt also nur noch zu zeigen, dass diese eindeutige Zuordnungsregel eine
lineare Abbildung beschreibt. Dazu muss die Verträglichkeit mit der Addition und
mit der Multiplikation mit Skalaren überprüft werden. Dazu seien λ ∈ K sowie
~v = λ1~v1 + λ2~v2 + . . . + λn~vn
~u = µ1~v1 + µ2~v2 + . . . + µn~vn
gegeben, woraus
~v + ~u = (λ1 + µ1 )v~1 + (λ2 + µ2 )v~2 + (λn + µn )v~n
folgt.
Nach der Zuordnungsregel ist
f (~v + ~u) = (λ1 + µ1 )f (v~1 ) + (λ2 + µ2 )f (v~2 ) + (λn + µn )f (v~n )
= λ1 f (v~1 ) + λ2 f (v~2 ) + λn f (v~n ) + µ1 f (v~1 ) + µ2 f (v~2 ) + µn f (v~n )
= f (~v ) + f (~u)
Analog kann man die zweite Eigenschaft f (λ~v ) = λf (~v ) nachrechnen.
Folgerung: Zu zwei n-dimensionalen Vektorräumen existiert mindestens ein Isomorphismus, der den einen Vektorraum in den anderen überführt.
Rang einer linearen Abbildung
Definition: Der Rang einer linearen Abbildung f ∈ Hom(V, W ) ist die Dimension
des Bildes von f :
rg f = dim(Im f )
Satz (Dimensionsformel für lineare Abbildungen): Für jede lineare Abbildung
f ∈ Hom(V, W ) auf einem endlichdimensionalen Vektorraum V gilt:
dim V = dim(Ker f ) + dim(Im f ) = dim(Ker f ) + rg f
Beweis: Zuerst betrachten wir eine Basis B1 = {~v1 , ~v2 , . . . , ~vk } des Kerns Ker f ⊆ V .
Man kann B1 zu einer Basis B von V erweitern. Sei B = {~v1 , ~v2 , . . . , ~vn }, d.h.
vk+1
~ , . . . , v~n sind die Ergänzungsvektoren.
Wir betrachten die Bilder der Ergänzungsvektoren und werden zeigen, dass sie eine
Basis B2 = {f (vk+1
~ ), . . . , f (v~n )} des Unterraums Im f bilden.
• Erzeugendensystem: Da man jeden Vektor w
~ aus Im f als Linearkombination w
~ = λ1 f (v~1 ) + . . . + λn f (v~n ) darstellen kann und außerdem f (v~1 ) = . . . =
f (v~k ) = ~0 gilt, reichen die Vektoren aus B2 aus, um Im f zu erzeugen.
• Lineare Unabhängigkeit: Wir betrachten eine Linearkombination des Nullvektors aus B2
~0 = λk+1 f (vk+1
~ ) + . . . + λn f (v~n )
Damit ist
f (λk+1 vk+1
~ + . . . + λn v~n ) = ~0 = λk+1 f (vk+1
~ ) + . . . + λn f (v~n ) = ~0
72
und folglich ist ~v = λk+1 vk+1
~ + . . . + λn v~n Element des Kerns von f . Als
solches muss ~v aber auch als Linearkombination aus B1 darstellbar sein, d.h.
~v = µ1~v1 + µ2~v2 + . . . + µk~vk . Da jeder Vektor aus V , also insbesondere auch
~v , eine eindeutige Basisdarstellung aus V hat, kann es nur eine Konsequenz
geben: ~v = ~0 und µ1 = . . . = µk = λk+1 = . . . = λn = 0, womit gezeigt ist, dass
die eingangs betrachtete Linearkombination des Nullvektors aus B2 trivial sein
muss.
Da wir nach den oben gewählten Bezeichnungen von dim(Ker f ) = k, dim V = n
und dim(Im f ) = n − k ausgehen können, ergibt sich die Dimensionsformel durch
einfache Zusammenfassung
dim(Ker f ) + dim(Im f ) = k + (n − k) = n = dim V
5.6
Matrizen
Definition: Eine m×n-Matrix über einem Körper K ist eine Anordnung von m×n
Elementen aus K nach dem folgenden Schema:


a1 1 a1 2 · · · a1 n
 a2 1 a2 2 · · · a2 n 


A =  ..
..
.. 
.
.
 .
.
.
. 
am 1 am 2 · · · am n
Alternativ kann man auch die Schreibweise A = (ai j )(i,j)∈m×n verwenden. Die horizontalen n-Tupel werden Zeilen und die vertikalen m-Tupel werden Spalten der Matrix genannt. Die Skalare ai j nennt man die Koeffizienten (oder Einträge) der Matrix.
Die Menge aller m × n-Matrizen über K wird mit M (m × n, K) bezeichnet.
Beobachtung: Die Menge M (m × n, K) ist ein Vektorraum mit den folgenden
Operationen (λ ∈ K):

 



a1 1 . . . a1 n
b1 1 . . . b1 n
a1 1 + b 1 1 . . . a 1 n + b 1 n
 :

: + :
:  = 
:
:
am 1 . . . am n
bm 1 . . . bm n
am 1 + bm 1 . . . am n + bm n




a1 1 . . . a1 n
λa1 1 . . . λa1 n
:  =  :
: 
λ· :
am 1 . . . am n
λam 1 . . . λam n
Multiplikation von Matrizen
Definition: Ist A ∈ M (m×n, K) und B ∈ M (n×r, K) (wichtig ist der gemeinsame
Parameter n), dann kann man das Produkt dieser Matrizen als eine Matrix C = AB ∈
73
M (m × r, K) definieren, deren Koeffizienten ci j die folgende Form haben:
c i j = ai 1 · b 1 j + ai 2 · b 2 j + . . . + ai n · b n j
n
X
=
ai k · b k j
k=1
Man kann sich diese Regel so einprägen, dass man um ci j zu erhalten, die i-te Zeile
von A mit der j-ten Spalte von B ”‘multipliziert”’, wobei multiplizieren hier bedeutet,
die Produkte der sich entsprechenden Koeffizientenpaare aufzuaddieren.
Beispiel:


0
2
1 0 −1
0+0−3 2+0−1
−3 1


1 −1
·
=
=
2 1
0
0+1+0 4−1+0
1 3
3
1
Eine spezielle Ausprägung bekommt diese Regel bei der Multiplikation einer m × nMatrix mit einem Spaltenvektor aus K n , der gleichzeitig eine n × 1-Matrix ist. Das
Ergebnis ist eine m × 1-Matrix, also ein Spaltenvektor aus K m . Auf diese Weise kann
die Matrix A als Abbildung von K n nach K m interpretiert werden.
Satz: Die Multiplikation von Matrizen ist assoziativ, d.h. für alle A ∈ M (m × n, K),
B ∈ M (n × r, K) und C ∈ M (r × s, K) gilt
(A · B) · C = A · (B · C)
Da der Beweis bis auf das Jonglieren mit komplizierten Summenformeln keine herausragenden Überraschungsmomente enthält, werden wir uns Zeit und Aufwand dafür
sparen.
Achtung: Wie das folgende Beispiel zeigt, ist die Multiplikation von Matrizen im
Allgemeinen nicht kommutativ:
1 0
0 0
0 0
0 0
0 0
1 0
·
=
6=
=
·
1 0
1 1
0 0
2 0
1 1
1 0
Matrixdarstellung von lineare Abbildungen
Wir haben bereits gesehen, wie man eine Matrix als lineare Abbildung interpretieren
kann. Jetzt geht es um den umgekehrten Weg, bei dem eine lineare Abbildung f ∈
Hom(V, W ) gegeben ist, die als Matrix dargestellt werden soll. Das ist aber nur
möglich, wenn man vorher eine Basis von V und eine Basis von W festlegt.
Definition: Sei f ∈ Hom(V, W ) eine lineare Abbildung, B1 = {~v1 , ~v2 , . . . , ~vn } Basis
von V und B2 = {w
~ 1, w
~ 2, . . . , w
~ m } Basis von W , dann wird der Abbildung f eine
Matrix A ∈ M (m×n, K) zugeordnet, deren Koeffizienten ai j sich aus der Darstellung
74
der Bilder der Basisvektoren f (~vi ) in der Basis {w
~ 1, w
~ 2, . . . , w
~ m } wie folgt ergeben:
f (~v1 ) = a1 1 w
~ 1 + a2 1 w
~ 2 + . . . + am 1 w
~m
f (~v2 ) = a1 2 w
~ 1 + a2 2 w
~ 2 + . . . + am 2 w
~m
..
.
f (~vn ) = a1 n w
~ 1 + a2 n w
~ 2 + . . . + am n w
~m
Umgekehrt bestimmt jede Matrix A ∈ M (m × n, K) durch die oberen Formeln eine
lineare Abbildung f ∈ Hom(V, W ), denn wir wissen, dass eine lineare Abbildung
bereits durch die Bilder der Basisvektoren eindeutig beschrieben ist.
Häufig trifft man auf die besondere Situation, dass B1 die Standardbasis von V = Rn
und B2 die Standardbasis von W = Rm ist. Für diesen Fall kann man sich die
folgende Regel einprägen:
die j-te Spalte der Matrix A ist das Bild des j-ten Basisvektors von V , also f (~ej )
Folgerung 1: Die Vektorräume der linearen Abbildungen Hom(V, W ) und der Matrizen M (m × n, K) sind isomorph. Der Isomorphismus wird (nach Festlegung von
zwei Basen für V und W ) durch die oben beschriebene Zuordnung zwischen linearen
Abbildungen und Matrizen realisiert.
Folgerung 2: Seien für V = K n und W = K m die jeweiligen Standardbasen festgelegt und sei A ∈ M (m × n, K) die zu einer Abbildung f ∈ Hom(V, W ) gehörige
Matrix, dann erhält man das Bild f (~v ) eines beliebigen Spaltenvektors ~v ∈ V durch
Multiplikation der Matrix A mit ~v , d.h.
A · ~v = f (~v )
Man kann die zweite Folgerung durch einfaches Nachrechnen überprüfen:

  
a1 1 · · · a1 n
x1
 ..


.
..  ·  ... 
A · ~v =  .

am 1 · · ·

am n
xn

a1 1 · x 1 + . . . + a1 n · x n


..
= 

.
am 1 · x 1 + . . . + am n · x n
75


x1
 
(n)
f (~v ) = f  ...  = f x1 · ~e1 + . . . + xn · ~en(n)
xn
(n)
= x1 · f ~e1
+ . . . + xn · f ~en(n)




a1 1
a1 n




= x1 ·  ...  + . . . + xn ·  ... 
am 1
am n


a1 1 · x 1 + . . . + a1 n · x n


..
= 

.
am 1 · x1 + . . . + am n · xn
⇒ A · ~v = f (~v )
Satz: Seien f ∈ Hom(K q , K p ) sowie g ∈ Hom(K r , K q ) lineare Abbildungen und
A ∈ M (p × q, K) bzw. B ∈ M (q × r, K) die zu f bzw. g gehörigen Matrizen
bezüglich der Standardbasen von K p , K q und K r . Dann entspricht das Produkt der
Matrizen A · B der Abbildungskomposition f g, vereinfacht geschrieben:
C = A · B ∈ M (p × r, K) ←→ f g ∈ Hom(K r , K p )
Auf den Beweis dieses Satzes wird verzichtet, weil er auch in die Kategorie der rechnerisch aufwändigen, aber nicht sehr originellen Beweise gehört.
Beispiele:
a) Die Skalierung des Raumes Rn um einen
Matrix realisiert:

c 0
0 c

A =  .. ..
. .
Faktor c ∈ R wird durch die folgende

··· 0
· · · 0

. . .. 
. .
0 0 ··· c
b) Die Projektion des Raums R3 auf die xy-Ebene im gleichen Raum wird durch
die folgende Matrix realisiert:


1 0 0
B = 0 1 0
0 0 0
c) Die Drehung der Ebene R2 mit dem Winkel ϕ um den Koordinatenursprung
wird durch die folgende Matrix realisiert:
cos ϕ − sin ϕ
C=
sin ϕ cos ϕ
76
cos ϕ
sin ϕ
ϕ
ϕ
1
2
Die Drehung des Punkts
mit dem Winkel
4
kann man dann wie folgt berechnen:
5.7
cos
sin
π
3
π
3
π
3
1
√2
3
2
− sin
2
·
=
cos π3
4
√
3
2
−
1
2
π
3
um den Koordinatenursprung
! √ 2
1√− 2 3
·
=
4
3+2
Der Rang einer Matrix
Der Rang einer Matrix kann auf drei verschiedene Arten definiert werden. Um diese
besser unterscheiden zu können, führen wir zuerst drei Begriffe ein, von denen später
gezeigt wird, dass sie immer denselben Wert haben.
Definition: Sei A ∈ M (m×n, K) eine Matrix und f ∈ Hom(K n , K m ) die zugehörige
lineare Abbildung (bezüglich der Standardbasen).
• Der Rang von A ist definiert durch
rg A := rg f = dim (Im f )
• Der Zeilenrang von A ist die maximale Anzahl von linear unabhängigen Zeilenvektoren aus A.
• Der Spaltenrang von A ist die maximale Anzahl von linear unabhängigen Spaltenvektoren aus A.
Satz: Der Rang und der Spaltenrang einer Matrix A sind gleich.
Beweis: Die Spalten von A sind die Bilder der Basisvektoren. Folglich bilden die
Spaltenvektoren der Matrix ein Erzeugendensystem von Im f . Damit ist jede maximale linear unabhängige Teilmenge der Spaltenvektoren eine Basis von Im f , und
daraus folgt, dass der Spaltenrang von A gleich dim (Im f ) = rg f = rg A ist.
Lemma: Ist w~k ein Spaltenvektor von A ∈ M (m × n, K), der sich als Linearkombination der übrigen Spalten darstellen lässt und ist A0 die Matrix A ohne Spalte w~k ,
dann gilt:
Spaltenrang A0 = Spaltenrang A und
77
Zeilenrang A0 = Zeilenrang A
Die gleiche Aussage gilt auch, wenn man aus der Matrix einen Zeilenvektor streicht,
der sich als Linearkombination aus den anderen Zeilen darstellen lässt.
Beweis: Die maximale Anzahl von linear unabhängigen Spaltenvektoren ist gleichzeitig die Dimension der linearen Hülle der Menge aller Spaltenvektoren {w~1 , . . . , w~n }
von A. Ist der Vektor
n
X
w~k =
λj w~j
j=1
j6=k
eine Linearkombination der anderen Spaltenvektoren, dann bleibt die lineare Hülle
nach seiner Streichung unverändert und deshalb bleibt der Spaltenrang gleich.
Für die Betrachtung des Zeilenrangs sei I ⊆ {1, 2, . . . , m} eine maximale Menge, so
dass die Zeilenvektoren {~
ui | i ∈ I} linear unabhängig sind, und sei {~
ui 0 | i ∈ I} die
entsprechende Menge von Zeilenvektoren aus A0 , in denen also jeweils die k-te Stelle
gestrichen ist. Um die Gleichheit des Zeilenrangs von A und A0 zu zeigen, genügt es,
die lineare Unabhängigkeit von {~
ui 0 | i ∈ I} nachzuweisen. Sei
X
µi u~i 0 = ~0
i∈I
eine Linearkombination des P
Nullvektors in K n−1 . Wir werden zeigen, dass dann
auch die Linearkombination i∈I µi u~i den Nullvektor in K n erzeugt. Damit müssen
alle Skalare µi gleich
ui 0 | i ∈ I} linear unabhängig. In der
P0 sein und folglich ist {~
Linearkombination
~i sind bereits alle Stellen bis auf die k-te gleich Null.
i∈I µi u
P
Bleibt also i∈I µi ai k = 0 zu zeigen. Nach Voraussetzung über den Spaltenvektor
w~k wissen wir für alle i ∈ I
ai k =
n
X
λj ai j
und folglich
j=1
j6=k
X
µ i ai k =
i∈I
X
( µi
=
j=1
j6=k
=
n
X
λ j ai j )
j=1
j6=k
i∈I
n
X
n
X
(λj
X
µ i ai j
)
i∈I
| {z }
= 0 da j 6= k
0=0
j=1
j6=k
Satz: Der Spaltenrang und der Zeilenrang einer Matrix A sind gleich und damit gilt:
rg A = Spaltenrang A = Zeilenrang A
78
Beweis: Wir streichen aus A Zeilen bzw. Spalten, die jeweils Linearkombinationen
der übrigen Zeilen bzw. Spalten sind, solange das möglich ist.
A 7→ A0 7→ A00 7→ . . . 7→ A(end)
Dann ist in der Matrix A(end) die Menge der Zeilenvektoren linear unabhängig und
auch die Menge der Spaltenvektoren ist linear unabhängig. Sei A(end) eine m × n–
Matrix, dann gilt nach dem Lemma:
Spaltenrang A = Spaltenrang A(end) = n
Zeilenrang A = Zeilenrang A(end) = m
Es gibt m linear unabhängige Zeilenvektoren in A(end) , aber das sind Vektoren aus
K n und deshalb muss m ≤ n sein. Andererseits gibt es n linear unabhängige Spaltenvektoren in A(end) , aber das sind Vektoren aus K m und deshalb muss n ≤ m sein.
Folglich ist Spaltenrang A = n = m = Zeilenrang A.
Definition: Sei A = (ai j ) ∈ M (m × n, K) eine Matrix, dann ist die transponierte
Matrix von A definiert durch
At = (ati j ) ∈ M (n × m, K) mit ati j = aj i
Beispiel:

t
1 0
2 1 = 1 2 4
0 1 0
4 0
Folgerung: Der Rang einer Matrix A und der transponierten Matrix At ist gleich.
rg A = rg At
Elementare Umformungen
Definition: Die folgenden Operationen auf einer Matrix werden elementaren
Umformungen genannt:
• Typ 1: Vertauschung von zwei Zeilen bzw. von zwei Spalten.
• Typ 2: Multiplikation einer Zeile bzw. Spalte mit einem Skalar λ 6= 0.
• Typ 3: Addition des λ-fachen einer Zeile bzw. Spalte zu einer anderen Zeile
bzw. Spalte.
Satz: Elementare Umformungen ändern den Rang einer Matrix nicht.
Beweis: Man muss sich nur davon überzeugen, dass sich die lineare Hülle der Zeilenbzw. Spaltenvektoren durch die Umformungen nicht ändert. Für Umformungen vom
Typ 1 und Typ 2 ist das offensichtlich.
79
Für eine Umformungen vom Typ 3 seien ~vi , ~vk zwei Zeilenvektoren und λ ∈ K ein
Skalar. Nach der Umformung hat man an Stelle von ~vi den Vektor
~vi∗ = ~vi + λ~vk
Es ist eine leichte Übung, in Linearkombinationen ~vi gegen ~vi∗ auszutauschen:
µ1~v1 + . . . + µi~vi + . . . + µk~vk + . . . + µn~vn = µ1~v1 + . . . + µi~vi∗ + . . . + (µk − λµi )~vk + . . .
. . . + µn~vn
∗
µ1~v1 + . . . + µi~vi + . . . + µk~vk + . . . + µn~vn = µ1~v1 + . . . + µi~vi + . . . + (µk + λµi )~vk + . . .
. . . + µn~vn
Obere Dreiecksform
Definition: Die Matrix A ist in oberer Dreiecksform, wenn die Matrix die folgende
Form hat, wobei das Symbol ∗ für beliebige Inhalte steht:


a1 1 ∗
∗ ··· ∗
∗ ··· ∗

.. . . .. 
 0 a2 2 ∗ · · · ∗
. . 
.

..
.. . . .. 
...

. . 
0 a3 3
.
.
 0

 .

.
.
.
.
.
.
 ..
.. ∗
.. . . .. 
..
..
A=

 0
0 · · · 0 ar r ∗ · · · ∗ 


 0 ··· ··· ··· 0

0
·
·
·
0


 ..

.
.
.
.
.
.
.
.
.
.
.
.
.
.
 .
.
.
.
. . 
.
.
0 ··· 0
0 ··· ··· ··· 0
und die Werte a1 1 , a2 2 , a3 3 , . . . , ar r ungleich Null sind, d.h.
a1 1 · a2 2 · a3 3 · . . . · ar r 6= 0
Beobachtung: Der Rang einer solchen Matrix ist r.
Algorithmus zur Umwandlung in eine obere Dreiecksform:
Mit dem folgenden Verfahren kann man eine beliebige Matrix A ∈ M (m × n, K) mit
elementaren Umformungen in eine obere Dreiecksform überführen und damit auch
ihren Rang bestimmen. Das Verfahren arbeitet in r = rg A Stufen.
Zustandsinvariante: Nach jeder Stufe k ≥ 1 wird eine Matrix Ak der folgenden
80
Form erreicht:

a1 1
∗
∗
···
∗
0
a2 2
∗
0
..
.
0
..
.
a3 3
...
···
...
∗
..
.
0
0
..
.
0
···
...
···
···
...
0
···
···







Ak = 






...
∗
0 ak k
··· 0
..
...
.
··· 0
∗
..
.
..
.
..
.
···
..
.
...
...
∗
···
∗
· · · bk+1 n
..
...
.
· · · bm n
bk+1 k+1
..
.
bm k+1
∗
..
.
..
.
..
.















Dabei können die Koeffzienten bi j im Rechteck rechts unten (also mit i = k + 1, k +
2, . . . , m und j = k + 1, k + 2, . . . , n) beliebig sein, aber gefordert ist a1 1 · a2 2 · a3 3 ·
. . . · ak k 6= 0.


bk+1 k+1 · · · bk+1 n

..  die rechte untere Teilmatrix von A .
..
Sei Bk =  ...
.
k
. 
bm k+1
···
bm n
Initialisierung: Wir setzen A0 = A. Offensichtlich gibt es für A0 keine Einschränkungen, denn B0 = A0 .
Abbruchkriterium: Das Verfahren ist beendet, wenn Bk die Nullmatrix ist, denn
dann ist Ak in oberer Dreiecksform.
Umwandlung von Ak in Ak+1 : Wenn das Abbruchkriterium für Ak noch nicht
erfüllt ist, gibt es in Bk einen Koeffizienten bi j 6= 0.
• Vertausche Zeilen und/oder Spalten, die durch B gehen, um den Koeffizienten
bi,j an die Stelle von bk+1 k+1 zu bringen. Die so entstandene Matrix A0k hat
folgende Gestalt:


∗
∗ ···
∗
a1 1 ∗ · · · ∗

..
..
.. 
..
 0 a2 2 . . . ∗
.
.
.
. 
 .
.
.
.. 
..
..
..

 .
.
.
.
.
.
.
.
.
. 
∗



∗
∗ ···
∗ 
0
0 ak k
 0
0
Ak = 

b0k+1 k+1 · · · · · · b0k+1 n 
 0 ··· ··· 0

 .
..
..
..
 ..
.
.
b0k+2 k+1 · · · · · · b0k+2 n 
.



 ..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
 .
.
.
.
.
.
.
. 
0 ··· ··· 0
b0m k+1 · · · · · · b0m n
wobei nun b0k+1 k+1 = bi,j 6= 0 ist.
• Für die Stellen b0k+2 k+1 , b0k+3 k+1 , . . . , b0m k+1 werden durch Typ-3-Umformungen
Nullen erzeugt. Man verwendet für die Zeilen i = k + 2, k + 3, . . . , m die
81
folgenden Umformungen:
Zeilei := Zeilei − b0i k+1 · (b0i k+1 )−1 · Zeilek+1
Dadurch entsteht die neue Matix A00k = Ak+1 :

a1 1 ∗ · · · ∗
∗
∗

.
..
.
..
 0 a2 2 . . ∗
.
 .
.
..
..
..
 .
..
.
. ∗
.
 .

∗
∗
0
0 ak k
 0
A00k = 
0
bk+1 k+1
···
 0 ··· ··· 0
 .
..
..
..
 ..
00
.
.
.
0
bk+2 k+2

 ..
.
.
..
.
.
.
.
.
.
 .
.
.
.
.
.
00
0 ··· ··· 0
0
bm k+2
···
..
.
..
.
∗
..
.
..
.
∗
···
· · · b0k+1 n
· · · b00k+2 n
..
...
.
00
· · · bm n















wobei für alle i = k + 2, k + 3, . . . , m und j = k + 1, k + 2, . . . , n die Koeffizienten
in Bk+1 die folgenden Werte haben:
b00i j := b0i j − b0i k+1 ·
b0k+1 j
b0k+1 k+1
Beispiel: Die folgende Matrix A soll in eine obere Dreiecksform überführt werden:


0 −2 4
2 1 0 

A=
1 0 2 
2 0 3
• Vertausche die erste und die dritte Zeile, so dass an der Stelle a1 1 ein Koeffizient
6= 0 steht:


1 0 2
2 1 0 


0 −2 4
2 0 3
• Erzeuge an den Stellen a2 1 und a4 1 Nullen durch Typ-3-Umformungen mit der
ersten Zeile:

 

1
0
2
1 0
2
2 − 2 · 1 1 − 2 · 0 0 − 2 · 2 0 1 −4

=

 0
−2
4  0 −2 4 
2−2·1 0−2·0 3−2·2
0 0 −1
82
• An der Stelle a2 2 befindet sich ein Koeffizient 6= 0. Damit
der Stelle a2 3 eine Null erzeugt werden:

 
1
0
2
1 0
0


1
−4

 0 1
0 −2 − (−2) · 1 4 − (−2) · (−4) = 0 0
0
0
−1
0 0
• An der Stelle a4 4 muss

1
0

0
0
eine Null erzeugt werden:
 
0
2
1
 0
1
−4
=
 0
0
−4
1
0 −1 − 4 · (−4)
0
muss nur noch an

2
−4

−4
−1

0 2
1 −4

0 −4
0 0
Elementarmatrizen
Elementare Matrixumformungen kann man auch durch Multiplikation der umzuformenden Matrix mit einer sogenannten Elementarmatrix beschreiben. Für jeden Umformungstyp gibt es eine Elementarmatrix–Standardkonstruktion, so dass
die Multiplikation mit der Elementarmatrix auf der linken Seite die entsprechene
Zeilenumformung und die Multiplikation mit der Elementarmatrix auf der rechten
Seite die entsprechene Spaltenumformung realisiert.
• Typ 1: Für die Vertauschung der i-ten und der j-ten Zeile (Spalte) in einer
Matrix A wird eine Matrix Ti j konstruiert, so dass die Multiplikation A0 =
Ti j · A die Vertauschung der i-ten und der j-ten Zeile von A bewirkt und die
Multiplikation A0 = A · Ti j die Vertauschung der i-ten und der j-ten Spalte von
A bewirkt.
Dazu muss Ti j die folgende Form haben:

1
..

.


1


0 ··· → ···


..

. 1


..
Ti j = 
.
↓

..

.
1


1 ··· ← ···





0

0





 ←− i-te Zeile









 ←− j-te Zeile




1
..
.
↑
..
.
0
1
..
.
1
83
• Typ 2:
Für die Multiplikation einer Zeile (Spalte) mit dem Faktor λ in
einer Matrix A wird eine Matrix Si λ konstruiert, so dass die Multiplikation
A0 = Si λ · A die Multiplikation der i-ten Zeile von A mit λ bewirkt und die
Multiplikation A0 = A · Si λ die Multiplikation der j-ten Spalte von A mit λ
bewirkt.


1
..


.
0




1




λ
Si λ = 
 ←− i-te Zeile


1




...


0
1
• Typ 3:
Man konstruiert eine Matrix Ki j λ , so dass die Multiplikation
A0 = Ki j λ · A die Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von
A bewirkt und die Multiplikation A0 = A · Ki j λ die Addition des λ-fachen der
i-ten Spalte zur j-ten Spalte von A bewirkt.

Ki j λ






=





1

..
.
0






 ←− i-te Zeile





...
...
λ
..
.
..
0
.
1
↑
j-te Spalte
5.8
Lineare Gleichungssysteme
Definition: Ein lineares Gleichungssystem (LGS) mit Koeffizienten in einem Körper
K, mit m Gleichungen und n Unbekannten wird durch eine Matrix A = (ai j )(i,j)∈m×n ∈
M (m × n, K) und einem Spaltenvektor ~b ∈ K m repräsentiert und wie folgt als Gleichungssystem (∗) interpretiert:
a1 1 · x 1
a2 1 · x 1
..
.
+ a1 2 · x 2
+ a2 2 · x 2
..
.
+ . . . + a1 n · xn
+ . . . + a2 n · x n
..
.
= b1
= b2
..
.
(∗)
am 1 · x 1 + am 2 · x 2 + . . . + am n · x n = b m
Die Matrixrepräsentation von linearen Gleichungssystemen hat den Vorteil, dass man
das Gleichungsystem (*) mit Hilfe des Matrixprodukts auch als eine Vektor–Gleichung
84
beschreiben kann:

(∗)

x1
 
A ·  ...  = ~b
⇐⇒
xn
Ein Tupel (x1 , x2 , . . . , xn ) ∈ K n ist also genau dann eine Lösung des linearen Gleichungssystems, wenn A · ~x = ~b gilt, wobei ~x die Spaltenvektor–Darstellung des Tupels bezeichnet.
Man bezeichnet mit (A | ~b) die Erweiterung der Matrix A mit der zusätzlichen (n+1)ten Spalte ~b:


a1 1 · · · a1 n b 1

..
.. 
...
(A | ~b) =  ...
.
. 
am 1 · · · am n b m
Satz: Das lineare Gleichungssystem A · ~x = ~b ist genau dann lösbar, wenn
rg A = rg(A | ~b)
Beweis:
rg A = rg(A | b)
⇔ Spaltenrang(A) = Spaltenrang(A | b)





a1 n 
 a1 1

 ..  
  .. 
~
⇔ b ∈ Lin   .  , . . .  .  


 a
am n 
m1




a1 1
a1 n
 . 
. 
~b = x1 · 
⇔ ∃x1 , . . . , xn ∈ K
 ..  + . . . + xn ·  .. 
am 1
   
x1
b1
 ..   .. 
A· . = . 
xn
bn
⇔ ∃x1 , . . . , xn ∈ K
am n
Definition: Ein lineares Gleichungssystem A · ~x = ~b wird homogenes Gleichungssystem genannt, wenn der Vektor ~b der Nullvektor ist.
Jedes lineare Gleichungssystem hat ein assoziiertes homogenes Gleichungssystem,
welches durch die Ersetzung des Vektors ~b durch den Nullvektor entsteht.
Definition: Die Lösungsmenge eines linearen Gleichungssystems A · ~x = ~b ist die
Vektormenge
Lös(A, ~b) = {~x | A · ~x = ~b}
Satz: Sei A ∈ M (m × n, K) die Matrix einer linearen Abbildung f : K n → K m
bezüglich der Standardbasis und ~b ∈ K m , dann gilt:
85
a) Die Lösungsmenge Lös(A, ~0) ist gleich Ker f . Damit ist Lös(A, ~0) ein Unterraum von K n .
b) Sei ~x, ~y ∈ Lös(A, ~b), dann ist ~x − ~y ∈ Lös(A, ~0).
c) Sei ~x ∈ Lös(A, ~b) und ~z ∈ Lös(A, ~0), dann ist ~x + ~z ∈ Lös(A, ~b).
Beweis:
a) Es genügt, die entsprechenden Definitionen anzuwenden:
Lös(A, ~0) = {~x | A · ~x = ~0}
= {~x | f (~x) = ~0}
= Ker f
b) Seien ~x, ~y ∈ Lös(A, ~b), dann gilt:
f (~x) = ~b und f (~y ) = ~b
Daraus folgt:
f (~x − ~y ) = f (~x) − f (~y ) = ~b − ~b = ~0
Das heißt:
~x − ~y ∈ Lös(A, ~0)
c) Seien ~x ∈ Lös(A, ~b) und ~z ∈ Lös(A, ~0 (m) ), dann gilt:
f (~x) = ~b und f (~z) = ~0
Daraus folgt:
f (~x + ~z) = f (~x) + f (~z) = ~b + ~0 = ~b
Das heißt:
~x + ~z ∈ Lös(A, ~b)
Beobachtung: Sei A ∈ M (m × n, K) die Matrix einer linearen Abbildung f :
K → K m bezüglich der Standardbasis, dann ist die Lösungsmenge Lös(A, ~b) genau
dann nicht leer, wenn ~b ∈ Im f .
n
Gaußscher Algorithmus
Das folgende Lösungsverfahren für lineare Gleichungssysteme geht auf Carl Friedrich
Gauß zurück. Es ist auch unter dem Namen Gauß–Elimination bekannt. Die Lösung
des Gleichungssystems erfolgt dabei in drei Stufen. In der ersten Stufe wird durch
Entwicklung einer oberen Dreiecksform und Rangbetrachtungen festgestellt, ob das
System überhaupt eine Lösung hat. Wenn die Antwort positiv ist, wird in der zweiten
86
Stufe eine spezielle Lösung bestimmt. In der dritten Stufe werden alle Lösungen des
assoziierten homogenen Systems bestimmt und daraus die komplette Lösungsmenge
generiert.
Sei ein Gleichungssystem der Form A · ~x = ~b mit A ∈ M (m × n, K) und ~b ∈ K m
gegeben.
a) Zur Überprüfung, ob das Gleichungssystem eine Lösung hat, wird die Matrix
A in obere Dreiecksform gebracht, aber dabei alle Zeilenumformungen auf die
erweiterte Matrix (A | b) angewendet.
Achtung: Spaltenvertauschungen in A bedeuten Variablenvertauschung im
linearen Gleichungssystem.
Sei das Ergebnis dieses ersten
 0
a1 1 ∗

 0 a02 2


0
 0
 .
..
 .
.
A0 =  .
 0
0

 0 ···

 ..
..
 .
.
0 ···
Schritts das System:
∗
···
∗
∗
···
...
∗
..
.
a03 3
..
..
. ∗
.
· · · 0 a0r r
··· ··· 0
..
..
..
.
.
.
··· ··· 0
∗
..
.
..
.
..
.
∗
0
..
.
··· ∗
. . . ..
.
. . . ..
.
. . ..
. .
··· ∗
··· 0
. . ..
. .
0 ···
0
b01


b02 


0
b3 
.. 
. 

b0r 

b0r+1 

.. 
. 
b0m
• Fall 1: Falls mindestens einer der Werte b0r+1 , b0r+2 , . . . , b0m ungleich Null
ist, dann ist rg (A) < rg(A | b), und das System hat keine Lösung. Das
Verfahren wird abgebrochen.
• Fall 2: Falls b0r+1 = b0r+2 = . . . = b0m = 0, dann ist rg (A) = rg(A | b), und
folglich hat das System eine Lösung.
b) Zur Bestimmung einer speziellen Lösung werden die Zeilen (r+1) bis m gestrichen
und die Koeffizientenmatrix zwischen der r-ten und (r + 1)-ten Spalte in zwei
Teilmatrizen T und S getrennt:
 0

a1 1 ∗
∗ ··· ∗
∗ · · · ∗ b01
.. . . ..


. . b02 
 0 a02 2 ∗ · · · ∗
.


..
.. . . ..
...
0
0 
(T | S | b0 ) = 
.
0
0
a
.
.
.
b

33
3 
 .
.. . . ..
.. 
..
..
..
 ..
.
. ∗
. .
.
. 
.
0
0
0 · · · 0 ar r ∗ · · · ∗ b0r
87
Das Gleichungssystem nimmt dadurch die folgende Gestalt an:


x1
 x2 
 


 . 
xr+1
x1
 . 
 . 
 x2 
xr+2 




 
(T | S) ·  xr  = T ·  ..  + S ·  ..  = ~b0


.
 . 
xr+1 
 . 
xr
xn
 .. 
xn
Man setzt xr+1 = xr+2 = . . . = xn = 0 und reduziert das System dadurch auf:
    
 

x1
b01
x1
a01 1 a01 2 · · · a01 r
0




 x2 
 0 a0
a2 r  x2  b02 
22 · · ·

  ~0

T ·  ..  = b ⇒  ..
..  ·  ..  =  .. 
.
.
.
.
.
 .
.
.
.  . .
0
b0r
xr
0 · · · 0 ar r
xr
Die Werte von x1 , x2 , . . . , xr können nun direkt bestimmt werden:
b0r = a0r r · xr
⇒
xr =
b0r−1 = a0r−1 r−1 · xr−1 + a0r−1 r · xr
⇒
xr−1 =
b01 = a01 1 · x1 + . . . + a01 r · xr
..
.
⇒
x1 =
b0r
a0r r
b0r−1 −a0r−1 r ·xr
a0r−1 r−1
b01 −a01 r ·xr −...−a01 2 ·x2
a01 1
Somit wurde eine spezielle Lösung des linearen Gleichungssystems berechnet,
die im Weiteren mit ~v bezeichnet wird:

  
x1
x1
 x2   x2 
 .  .
 .  .
 .  .

  
~v =  xr  = xr 

  
xr+1   0 
 .  .
 ..   .. 
xn
0
c) Auf Grund der Vorüberlegungen wissen wir, dass die Lösungsmenge des homogenen Gleichungssystems ein Vektorraum der Dimension n − r ist. Man erhält
den j-ten Basisvektor dieses Raums (1 ≤ j ≤ n − r), indem die Variablen
xr+1 , . . . , xn jeweils mit den folgenden Werten belegt werden:
xr+j = 1 und xr+1 = . . . = xr+j−1 = xr+j+1 = . . . = xn = 0
88
Bezeichnet man die Koeffizienten der rechten Teilmatrix S durch
S = (si j )(i,j)∈r×(n−r)
so nimmt das Gleichungssystem die


x1
 x2  
 . 
a01 1 a01 2 · · ·
 . 
.

  0 a0
22 · · ·

 
(T | S)· xr  =  ..
.
.. ...

  .
xr+1 
 . 
0 ··· 0
 .. 
xn
Berücksichtigt man die speziellen
xr+j+1 = . . . = xn = 0, ergibt sich

a01 1 a01 2 · · ·
 0 a0
22 · · ·

 ..
.
.. ...
 .
0 ··· 0
folgende Form an
a01 r
a02 r
..
.
a0r r
 

x1
  x2 
  
· .. +
.
xr
s1 1 . . . s1 n−r
.. . .
..
.
.
.
sr 1 . . . s r r


xr+1


 xr+2  ~
· ..  = 0
 . 

xn
Werte xr+j = 1 und xr+1 = . . . = xr+j−1 =
das folgende lineare Gleichungssystem

   
−s1 j
x1
a01 r

  
a02 r 
 x2  −s2 j 
..  ·  ..  =  .. 
.  .  . 
0
−sr j
xr
ar r
Die Werte von x1 , x2 , . . . , xr können nun wie bei der speziellen Lösung bestimmt
werden.
Das Verfahren muss für alle n − r Spalten von S durchgeführt werden. Sei
~uj der dabei berechnete j-te Basisvektor des Lösungsraums des homogenen
Gleichungssystems.
Bleibt nur noch, die Lösungsmenge des linearen Gleichungssystems aus der
speziellen Lösung und der Lösungsmenge des homogenen Systems zusammenzusetzen:
(
)
n−r
X
Lös(A | b) = Lös(T |S | b0 ) = ~v +
λj · ~uj | λ1 , λ2 , . . . , λn−r ∈ R
j=1
Beispiel: Gegeben sei das folgende Gleichungssystem:
x1 −
2x1
− x1 −
2x2 + x3 − x4
x2 + 2x3
+ 5x3
x2 − 3x3 + 2x4
=
6
= −1
=
3
= −6
a) Die dazugehörige Matrix ist

6
0
2
1 −1
 1 −1
2
0 −1 

(A | ~b) = 
 2
0
5
0
3 
−1 −1 −3
2 −6

89
Diese Matrix muss zuerst in obere Dreiecksform überführt werden.
Erste und zweite Zeile vertauschen:

1 −1
2
0 −1
 0
2
1 −1
6

 2
3
0
5
0
−1 −1 −3
2 −6
In der ersten Spalte unter a1 1 Nullen erzeugen:

1 −1
2
0 −1
 0
2
1
−1
6

 0
5
2
1
0
0 −2 −1
2 −7
In der zweiten Spalte unter a2 2 Nullen erzeugen:

1 −1
2
0 −1
 0
2
1 −1
6

 0
0
0
1 −1
0
0
0
1 −1












Dritte und vierte Spalte tauschen, um an der Stelle a3 3 einen Wert 6= 0 zu
erzeugen (Achtung: x3 ↔ x4 ):


1 −1
0
2 −1
 0
6 
2 −1
1


 0
0
1
0 −1 
0
0
1
0 −1
In der dritten Spalte unter a3 3 Nullen erzeugen:

1 −1
0 2 −1
 0
1
6
2
−1

 0
0
1 0 −1
0
0
0 0
0




Die Matrix hat nun obere Dreiecksform.
Es existiert eine Lösung, da der untere Teil von ~b aus einer Null besteht. Die
Matrix kann nun folgendermaßen reduziert werden:


1 −1
0 2 −1
 0
2 −1 1
6 
0
0
1 0 −1
Das lineare Gleichungssystem wird geteilt:

    


1 −1
0
x1
2
−1
 0
2 −1  · x2  + 1 · (x3 ) =  6 
0
0
1
x4
0
−1
90
b) Bestimmung der speziellen Lösung:

   

1 −1
0
x1
−1
 0
2 −1  · x2  =  6 
0
0
1
x4
−1
Wähle x3 = 0 und bestimme die übrigen Variablen:
1 · x4 = −1
+ (−1) · x4 =
6
+
0 · x4 = −1
2 · x2
+ (−1) · x2
1 · x1
⇒
⇒
⇒
x4 = −1
x2 = 2, 5
x1 = 1, 5
c) Bestimmung des ersten (und einzigen) Basisvektors von (A | ~0 (4) ):

   

1 −1
0
x1
−2
 0
2 −1  · x2  =  −1 
0
0
1
x4
0
Wähle x3 = 1 und bestimme die übrigen Variablen:
1 · x1
2 · x2
+ (−1) · x2
1 · x4 =
0
+ (−1) · x4 = −1
+
0 · x4 = −2
⇒
⇒
⇒
x4 =
0
x2 = −0, 5
x1 = −2, 5
d) Lösungsmenge:
 



1,
5
−2,
5




 



2,
5
−0,
5
+λ·
 λ∈R
Lös(A | b) = 
 0 
 1 






−1
0
Quotientenräume
Wir haben gesehen, dass die Lösungsmenge eines linearen Gleichungssystems in
der Regel keinen Unterraum bildet, sondern eine “Verschiebung” eines Unterraums
ist. Durch die folgende Begriffsbildung kann man eine etwas allgemeinere Sicht auf
diese Konstruktion gewinnen.
Definition: Sei V ein Vektorraum, U ein Unterraum von V und ~v ein Vektor aus V ,
dann nennt man
~v + U = {~v + ~u | ~u ∈ U }
die Nebenklasse von ~v bezüglich U .
91
Satz: Sei V ein Vektorraum, U ein Unterraum von V und ~v , w
~ zwei Vektoren aus
V , dann gilt:
~v + U = w
~ +U
⇔ ~v − w
~ ∈U
⇔ w
~ ∈ ~v + U
Definition: Sei V ein Vektorraum, U ein Unterraum von V und K der Körper von
V , dann bezeichnet man die Menge
V/U = {~v + U | ~v ∈ V }
als Quotientenraum von V nach U .
Beobachtung: Der Quotientenraum V/U ist ein Vektorraum mit den Operationen
(~v + U ) + (w
~ + U ) = (~v + w)
~ +U
λ · (~v + U ) = (λ · ~v ) + U
~0 + U = U.
und dem neutralen Element
λ v +U
(v+w) +U
v +U
w +U
λv
U
v
w
Satz: Sei V ein Vektorraum, U ein Unterraum von V , dann ist
dim V/U = dim V − dim U
Beweis: Man definiert eine Abbildung ϕ : V → V/U durch
~v 7→ ~v + U
Die Abbildung ϕ ist linear und surjektiv (d.h. Im ϕ = V/U ) und Ker ϕ = U , denn
~v + U = U ⇐⇒ ~v ∈ U
Dann folgt aus der Dimensionsformel:
dim V = dim(Ker ϕ) + dim(Im ϕ) = dim U + dim V/U
Ist A ∈ M (m × n, K) eine Matrix und ~b ∈ K n ein Spaltenvektor, dann ist die
Lösungsmenge U = Lös(A, ~0) des homogenen Gleichungssystems ein Unterraum von
V = K n.
Die Lösungsmenge Lös(A, ~b) des linearen Gleichungssystems A · ~x = ~b ist eine Nebenklasse von U . Die Menge der Lösungsmengen bildet den Quotientenraum V/U , in
dem die Operationen die folgenden zusätzlichen Eigenschaften haben:
92
• Addition:
Ist Lös(A, ~b) = ~x+U und Lös(A, ~c) = ~y +U , dann ist (~x+~y )+U = Lös(A, ~b+~c)
• Multiplikation mit Skalaren:
Ist Lös(A | ~b) = ~x + U und λ ∈ K, dann ist λ ~x + U = Lös(A | λ ~b)
5.9
Inverse Matrizen
Der Ring M (n × n, K)
Die (n × n)–Matrizen über einem Körper K bilden einen Vektorraum und damit
eine kommutative Gruppe bezüglich der Addition. Wie wir bereits wissen, ist die
Multiplikation von Matrizen aus M (n × n, K) assoziativ. Darüber hinaus gibt es mit
der Einheitsmatrix En ein neutrales Element:


1 0 ··· 0
.
..

. .. 
0 1

En =  . .
 ∈ M (n × n, K),
. . . . . ... 
 ..
0 ··· ··· 1
denn für jede Matrix A ∈ M (n × n, K)) gilt En · A = A = A · En . Da
außerdem das Assoziativgesetz gilt, bilden die (n × n)–Matrizen einen sogenannten
Ring. Diese Struktur ist ähnlich zu der eines Körpers, aber die Multiplikation ist
nicht notwendigerweise kommutativ und es muss nicht für jedes nicht-Null Element
ein inverses Element bezüglich der Multiplikation geben.
Definition: Sei A ∈ M (n × n, K), dann ist A−1 die zu A inverse Matrix, wenn
A · A−1
= En
= A−1 · A
Man nennt eine Matrix A invertierbar, wenn eine zu A inverse Matrix A−1 existiert.
Satz: Eine Matrix A ∈ M (n × n, K) ist genau dann invertierbar, wenn rg A = n.
Beweis: Man beweist diesen Satz, indem man die Bijektion zwischen Matrizen und
linearen Abbildungen verwendet und dann die Dimensionsformel für lineare Abbildungen anwendet. Ist f ∈ Hom(K n , K n ) die zur Matrix A ∈ M (n × n, K) assoziierte
lineare Abbildung, dann gilt die folgende Kette von Äquivalenzen:
rg A = n ⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
dim(Im f ) = n
dim(Im f ) = n und dim(Ker f ) = 0
f ist surjektiv und injektiv ⇐⇒ f ist bijektiv
Es gibt für f eine Umkehrfunktion g mit f g = IdK n und gf = IdK n
Für die zu g assoziierte Matrix B gilt AB = En und BA = En
A ist invertierbar
93
Da man nun mit der Umwandlung in obere Dreiecksform ein einfaches Mittel zur
Verfügung hat, das Entscheidungsproblem der Invertierbarkeit einer Matrix zu beantworten, bleibt noch die Frage offen, wie man für eine invertierbare Matrix A die inverse Matrix berechnen kann.
Wir werden dazu mehrere Verfahren kennen lernen. Zuerst überlegen wir uns, wie
man dieses Problem als lineares Gleichungssystem formulieren kann, danach werden
wir den Algorithmus zur Entwicklung der oberen Dreiecksform zu einem Verfahren
zur Matrixinvertierung modifizieren.
Bestimmung der inversen Matrix mit linearen Gleichungssystemen
Eine einfache Überlegung zu der mit A assoziierten linearen Abbildung f führt zu
einer ersten, naiven Methode zum Invertieren einer Matrix. Wenn eine inverse Matrix
existiert, korrespondiert sie zur inversen linearen Abbildung f −1 . Damit muss in der
j-ten Spalte von A−1 das Bild des j-ten Basisvektors unter f −1 stehen, also der
Spaltenvektor f −1 (ej ). Dieser Vektor ist aber gerade die (eindeutige!) Lösung des
linearen Gleichungssystems A · ~x = e~j . Man kann also die inverse Matrix durch
Lösung von n Gleichungssystemen bestimmen.
Bestimmung der inversen Matrix mit elementaren Umformungen
Dieses zweite Verfahren basiert auf einer Reihe von einfachen Beobachtungen:
a) Seien A, B, C ∈ M (n × n, K) Matrixen und A · B = C. Überführt man mit
den gleichen elementaren Zeilenumformungen A in A0 und C in C 0 (B bleibt
unverändert), so gilt A0 · B = C 0 .
Begründung: Jede Zeilenumformung kann durch Multiplikation von links mit
einer entsprechenden Elementarmatrix ausgeführt werden:
A0 · B = Dk · . . . · D2 · D1 ·A · B = Dk · . . . · D2 · D1 · C = C 0
{z
}
|
{z
}
|
Elementarmatrizen
Elementarmatrizen
b) Ist eine Matrix A ∈ M (n × n, K) invertierbar, so kann man A mit elementaren
Zeilenumformungen in En überführen.
Begründung: Da A den vollen Rang n hat, sind nach Überführung in eine
obere Dreiecksform alle Diagonalelemente ungleich Null und man kann schrittweise mit Umformungen vom Typ 3 alle Elemente über der Diagonale in Nullen
verwandeln und letztlich mit Umformungen vom Typ 2 alle Diagonalelemente
in Einsen verwandeln.
c) Überführt man die Matrix A durch Zeilenumformungen in En und wendet die
gleichen Umformungen auf En an, so erhält man A−1 .
Zur Begründung wendet man die Beobachtung a) an. Wir betrachten die Folge
von Zeilenumformungen, die A in En überführen. Sei X die Matrix, die man
durch Anwendung der gleichen Folge von Umformungen auf En erhält. Wir
94
wollen zeigen, dass X = A−1 ist. Das folgt aber aus der Anwendung von a) in
der folgenden Situation:
A=A
B = A−1
und
C = En
Offensichtlich ist mit AB = C die Voraussetzung erfüllt und wir haben
A
C = En
A0 = En
C0 = X
Nach a) ist dann A0 B = C 0 , damit En · A−1 = X und letztlich A−1 = X.
Wir demonstrieren das beprochene


1 2 0
A = 1 1 2 
0 −1 4


1 2 0
0 −1 2
0 −1 4


1 2 0
0 −1 2
0 0 2


1 0 4
0 −1 2
0 0 2


1 0 4
0 −1 0
0 0 2


1 0 0
0 −1 0
0 0 2


1 0 0
En = 0 1 0
0 0 1
Probe:
Verfahren an einem Beispiel:


1 0 0
0 1 0 = En
0 0 1


1 0 0
−1 1 0
0 0 1


1
0 0
−1 1 0
1 −1 1


−1 2 0
−1 1 0
1 −1 1


−1 2
0
−2 2 −1
1 −1 1


−3 4 −2
−2 2 −1
1 −1 1


−3
4
−2
 2
−2
1  = A−1
0, 5 −0, 5 0, 5

 
 

1 2 0
−3
4
−2
1 0 0
1 1 2  ·  2
−2
1  = 0 1 0
0 −1 4
0, 5 −0, 5 0, 5
0 0 1
95
5.10
Determinanten
Begriffseinführung für den Anwender
Definition: Die Determinante det A ist eine Kenngröße einer quadratischen Matrix A ∈ M (n × n, K), die man rekursiv bestimmen kann:
• Fall 1: n = 1
det (a1 1 ) = a1 1
• Fall 2: n > 1
Entwicklung nach der ersten Spalte:
n
X
det A =
(−1)i+1 ai 1 · det Ai 1
i=1
Dabei ist Ai 1 die Matrix, die man aus A durch Streichen der i-ten Zeile und
der ersten Spalte enthält.
An Stelle der Schreibweise det A kann man die Matrix auch mit Betragsstrichen
begrenzen:


a1 1 · · · a1 n a1 1 · · · a1 n

..  = ..
.. ..
.
.
det  ...
.
.
.
. 
. an 1 · · · an n
an 1 · · · an n Beispiel:
0
1
0
0
1
2
1
0
2
4
5
2
0 1 2 0
6
2+1
1 5 1
=
(−1)
·
1
·
1 0 2 0
0
5 1 − 1 · 2
= − 1 · 2
2 0
0
0
= − ((5 · 0 − 2 · 1) − (2 · 0 − 2 · 0))
= 2
Beobachtung: Für die Spezialfälle n = 2 und n = 3 ergibt sich aus der angegebenen Formel ein einfaches Schema zur Bestimmung der Determinanten, die sogenannte
Regel von Sarrus:
96
a1 1
a2 1
a3 1
a1 1 a1 2 a2 1 a2 2 = a1 1 · a2 2 − a1 2 · a2 1
a1 2 a1 3 a2 2 a2 3 = (a1 1 · a2 2 · a3 3 + a1 2 · a2 3 · a3 1 + a1 3 · a2 1 · a3 2 )
a3 2 a3 3 − (a1 3 · a2 2 · a3 1 + a1 1 · a2 3 · a3 2 + a1 2 · a2 1 · a3 3 )
Das Schema für (3 × 3)–Matrizen erhält man, indem die erste und die zweite Spalte
noch einmal auf der rechten Seiten der Matrix angehängt werden:
a1 1 a1 2 a1 3 a1 1 a1 2
a2 1 a2 2 a2 3 a2 1 a2 2
a3 1 a3 2 a3 3 a3 1 a3 2
Alle Summanden mit positiven Vorzeichen ergeben sich dann als Produkte der Werte
auf den Diagonalen von links oben nach rechts unten und alle Summanden mit negativen Vorzeichen ergeben sich dann als Produkte der Werte auf den Diagonalen von
rechts oben nach links unten.
Achtung: Ab n = 4 funktioniert dieses Schema nicht mehr!
Begriffseinführung für den Mathematiker
Üblicherweise werden Determinanten durch den folgenden Satz eingeführt, dessen
Beweis aber technisch sehr aufwändig ist.
Satz: Es gibt genau eine Abbildung det : M (n × n, K) → K mit den folgenden
Eigenschaften:
1. Die Abbildung det ist linear in jeder Zeile.
2. Wenn rg A < n, dann gilt det A = 0.
3. Für die Einheitsmatrix En gilt: det En = 1.
Diese Abbildung lässt sich durch die am Anfang angegebene Entwicklungsformel bestimmen.
Dabei bezieht sich der Begriff linear in jeder Zeile zu sein auf zwei Matrizen A und
A0 , die sich nur in einer (der i-ten) Zeile unterscheiden und an allen anderen Stellen
identisch sind:




a1 1 · · · a1 n
a1 1 · · · a1 n
.. 
.. 
 ..
 ..
. 
. 
 .
 .


 0
0
0 
A =  ai 1 · · · ai n 
und
A =  ai 1 · · · ai n 
 .

 .
.
.. 
.. 
 ..
 ..
. 
an 1 · · · an n
an 1 · · · an n
97
Die Determinante muss dann die folgenden Bedingungen erfüllen:



a1 1
···
a1 n
a1 1 · · ·
.
.


 ..
..
..


 .


0
0
0 
det ai 1 + ai 1 · · · ai n + ai n  = det A+det A und det λai 1 · · ·


 .
..
..


 ..
.
.
an 1
···
an n
an 1 · · ·

a1 n
.. 
. 

λai n  = λ·det A
.. 
. 
an n
Wir verzichten auf einen vollständigen Beweis und werden nur einige Ideen ableiten,
die sich unmittelbar aus den drei Eigenschaften ergeben. Zuerst untersuchen wir das
Verhalten bei elementaren Zeilenumformungen.
•
Bei Typ 2 Umformungen, d.h. Multiplikation einer Zeile mit einem Skalar λ,
folgt schon aus der ersten Eigenschaft, dass die Determinante der alten Matrix auch
mit λ multipliziert werden muss.
•
Jede Abbildung det mit den Eigenschaften 1) bis 3) ist invariant bei Zeilenumformungen vom Typ 3, d.h. die Determinante bleibt bei solchen Umformungen gleich:






a1 1 · · · a1 n
a1 1
···
a1 n
a1 1 · · · a1 n
..
..
.. 
.. 

 ..

 ..

 .

 .
.
.
. 
. 






 aj 1 · · · aj n 

 aj 1 · · · aj n 

aj 1
···
aj n



 .
..
..
.. 
.. 
 = det  ...

det 
.
.
. 
. 



 + det  ..

a + λa
a

λa


·
·
·
a
+
λa
·
·
·
a
λa
 i1
 i1
 j1
j1
in
j n
in
j n
 .

 .

..
..
.. 
.. 

 ..

 ..
.
. 
. 
.
an 1
···
an n
an 1 · · · an n
an 1 · · · an n
= det A + 0
Dabei ist die zweite Determinante gleich Null, weil in der Matrix die j-te und die i-te
Zeile linear abhängig sind und folglich der Rang kleiner als n ist.
•
Jede elementare Zeilenumformung vom Typ 1 (Vertauschung von zwei Zeilen)
bewirkt die Änderung des Vorzeichens der Determinate bei gleichbleibendem Betrag.
Man kann eine solche Umformung durch drei Umformungen vom Typ 3 und eine
Umformung vom Typ 1 simulieren:
A(0)
A(1)
A(2)
A(3)
A(4)
Zeile i
Zeile j
Zeile i
Zeile j
Beginn mit Matrix A
:= Zeile i+ Zeile j
:= Zeile j− Zeile i = − Zeile i von A
:= Zeile i+ Zeile j = Zeile j von A
:= (−1) · Zeile j = Zeile i von A
Die Umformungen (1) bis (3) sind vom Typ 3 und ändern die Determinate nicht, die
letzte Umformung ändert das Vorzeichen.
98
Folgerung: Die Determinante kann als Produkt der Diagonalelemente einer Matrix
in oberer Dreiecksform berechnet werden, wobei man die Überführung in diese Form
nur durch Zeilenumformungen realisieren und für jeden Zeilentausch zusätzlich mit
(-1) multiplizieren muss.
Beispiel:






1 1 2
1 1 2
1 1 2
A = 1 1 3 7→ 0 0 1  7→ 0 3 −1
2 5 3
0 3 −1
0 0 1
{z
}
|
Zeilentausch
und folglich ist det A = (−1) · 1 · 3 · 1 = −3.
Man beachte, dass wir bisher die Kernaussage des Satzes, nämlich dass eine solche
Abbildung det überhaupt existiert, noch nicht bewiesen haben, sondern nur unter der
Annahme, dass die Abbildung existiert, einige nützliche Eigenschaften nachgewiesen
haben. Der Kernbeweis erfordert einigen technischen Aufwand, den wir hier vermeiden werden. Als Nebenprodukt ergibt sich dabei auch die Tatsache, dass die Determinante durch Entwicklung nach einer beliebigen Spalte oder nach einer beliebigen
Zeile berechnet werden kann:
det A =
n
X
(−1)i+k ai k det Ai k
Entwicklung nach Spalte k
(−1)l+j al j det Al j
Entwicklung nach Zeile l
i=1
=
n
X
j=1
Die Regel, welches Vorzeichen für welchen Summanden verwendet werden muss, kann
man sich als Schachbrettmuster einprägen:


+ − + ...
− + − . . .



+ − + . . .



 .. .. .. . .

. . .

.
Wie das folgende Beispiel zeigt, kann man diese Eigenschaften sehr gut zur Vereinfachung der Determinantenberechnung nutzen, indem man vorrangig nach Zeilen
bzw. Spalten mit vielen Nullen entwickelt:
7 3 0 −1
7 3 −1
2 4 0 5 = (−1)3+3 · 2 · 2 4 5 8 −5 2 4 2 1 0 2 1 0 0 3 −1
7 −1
−1·
= 2 · 2 · 2 5 = 2 · (2 · 19 − 1 · 37) = 2
4 5
99
Letztlich kann man aus den oben genannten Fakten auch die folgende Beobachtung
ableiten.
Folgerung: Die Determinanten einer Matrix A und der zu A transponierten Matrix
At sind gleich:
det A = det At
Anwendungen von Determinanten
Determinanten haben sich als ein äußerst nützliches Werkzeug für vielfältige Anwendungen (in der Linearen Algebra und darüber hinaus) erwiesen. Wir werden uns hier
mit drei Anwendungsfeldern genauer beschäftigen:
1. Lösung von (speziellen) linearen Gleichungssystemen (Cramersche Regel)
2. Geometrische Anwendungen
3. Invertierung von Matrizen
Cramersche Regel
Sei A ∈ M (n × n, K) eine Matrix mit rg A = n und ~b ∈ K n ein Vektor. Dann hat
das lineare Gleichungssystem A · ~x = ~b eine eindeutige Lösung, die man wie folgt
bestimmen kann:
 
x1
det Ai
 .. 
für alle 1 ≤ i ≤ n
~x =  .  mit xi =
det A
xn
Dabei ist Ai die Matrix, die man erhält, wenn man die i-te Spalte von A durch ~b
ersetzt.
Beispiel: Es ist die Lösung des folgenden linearen Gleichungssystems zu bestimmen:
2x1 + 3x2 = 5
2 3
x1
5
↔
·
=
x1 − 2x2 = 2
1 −2
x2
2
Anwendung der Cramerschen Regel:
5
2
x1 = 2
1
2
1
x2 = 2
1
3 −2
−10 − 6
16
=
=
−4 − 3
7
3 −2
5
2
4−5
1
=
=
−4 − 3
7
3 −2
100
Geometrische Anwendungen I: Baryzentrische Koordinaten
Im Folgenden werden Punkte in der Ebene R2 und im Raum R3 betrachtet. Wir
werden die Punkte mit Großbuchstaben und die zugehörigen Ortsvektoren mit den
entsprechenden Kleinbuchstaben bezeichnen.
Seien P, Q, R ∈ R2 drei Punkte in der Ebene, die nicht auf einer Geraden liegen,
dann kann man den Ortsvektor ~t eines beliebigen Punkts T ∈ R2 eindeutig als Linearkombination
~t = a · p~ + b · ~q + c · ~r mit a + b + c = 1
darstellen. Die Koeffizienten a, b und c nennt man die baryzentrischen Koordinaten
oder auch Schwerpunktskoordinaten von T bezüglich P, Q und R. Man kann diese
Koordinaten als Lösung eines linearen Gleichungssystems berechnen:
px · a+ qx · b+ rx · c = tx
py · a+ qy · b+ ry · c = ty
a+
b+
c =1
Die Voraussetzung, dass P, Q und R nicht auf einer Geraden liegen, sorgt dafür, dass
dieses System eine eindeutige Lösung hat, die man mit der Cramerschen Regel finden
kann. Wir verwenden dazu eine spezielle Funktion, die wir mit pdet (abgekürzt für
Punktdeterminante) bezeichnen:
pdet : R2 × R2 × R2 → R

px qx rx
pdet (~p, ~q, ~r) := det py qy ry 
1 1 1

Aus der Cramerschen Regel ergeben sich die baryzentrischen Koordinaten wie folgt:
a=
pdet(~t, ~q, ~r)
pdet(~p, ~q, ~r)
b=
pdet(~p, ~t, ~r)
pdet(~p, ~q, ~r)
c=
pdet(~p, ~q, ~t)
pdet(~p, ~q, ~r)
Eine wichtige Eigenschaft der baryzentrischen Koordinaten besteht darin, dass der
Punkt T genau dann in dem von P, Q und R aufgespannten Dreieck liegt, wenn
alle baryzentrischen Koordinaten von T im Intervall [ 0 , 1 ] liegen. Der Punkt T liegt
genau dann auf dem Rand des Dreiecks, wenn eine baryzentrischen Koordinate gleich
Null ist und die anderen beiden in [ 0 , 1 ] liegen.
Mit Hilfe der baryzentrischen Koordinaten kann man auch Bildverzerrungen wie das
in der Computergrafik verwendete Warping realisieren. Dabei wird vorausgesetzt,
dass über ein gegebenes Bild ein Dreiecksgitter gelegt ist und die verzerrte Abbildung der Gitterpunkte bekannt ist. Zu bestimmen ist, wohin die inneren Punkte der
Dreiecke abzubilden sind. Dazu berechnet man die baryzentrischen Koordinaten des
abzubildenden Punktes T in einem Dreieck ∆(P, Q, R) und definiert den Bildpunkt
T 0 als Punkt mit den gleichen baryzentrischen Koordinaten im verzerrten Dreieck
∆(P 0 , Q0 , R0 ).
101
R’
R
T’
T
P
P’
Q’
Q
Geometrische Anwendungen II: Dreiecksfläche und Volumen eines Simplexes
Seien p~, ~q, ~r ∈ R2 die Ortsvektoren der Punkte P , Q und R, dann kann man aus
der oben eingeführten Punktdeterminate die folgenden geometrischen Eigenschaften
ablesen:
• Die Punkte P , Q und R liegen genau dann auf einer Linie, wenn
pdet(~p, ~q, ~r) = 0
−→
• Der Punkt R liegt genau dann links von der gerichteten Geraden P Q, wenn
pdet(~p, ~q, ~r) > 0
−→
• Der Punkt R liegt genau dann rechts von der gerichteten Geraden P Q, wenn
pdet(~p, ~q, ~r) < 0
• Die Fläche des von P , Q und R aufgespannten Dreiecks beträgt:
pdet(~p, ~q, ~r) 2
Beispiel: P = (−3, −2), Q = (5, 3) und R = (14, 8) in R2 :
R
Q
P
102
−3 5 14
pdet(~p, ~q, ~r) = −2 3 8 = −9 + 40 − 28 − 42 + 10 + 24 = −5 < 0
1 1 1
−−−−−−−−−→
Daraus folgt, dass (14, 8) rechts von der gerichteten Geraden (−3, −2)(5, 3) liegt und
dass die Fläche des von den drei Punkten aufgespannten Dreiecks 2, 5 beträgt.
Diese Eigenschaften lassen sich auch auf höhere Dimensionen übertragen. Seien P ,
Q, R und S Punkte in R3 , dann ist die Größe


p
q
r
s
x
x
x
x
1


· det py qy ry sy 
6
pz qz rz sz 
1 1 1 1 das Volumen des von den vier Punkten aufgespannten Simplexes. Falls die vier
Punkte auf einer Ebene liegen, ist der Wert 0.
Komplementärmatrix
Definition: Die zu einer Matrix A ∈ M (n × n, K) komplementäre Matrix Ã =
(ãi j )(i,j)∈n×n ist wie folgt definiert:
ãi j = (−1)i+j · det Aj i
Dabei ist Aj i die Matrix, die man aus A durch Streichen der j-ten Zeile und der i-ten
Spalte enthält.
Satz: A · Ã = (det A) · En
Beweis: Auf der Diagonalen von C := A · Ã steht immer det A, denn der Koeffizient
ci i kann leicht in die Entwicklung von det A nach der i–ten Zeile umgewandelt werden:
ci i =
n
X
ai k · ãk i
k=1
=
n
X
ai k · (−1)k+i · det Ai k
k=1
= det(A)
Bei der Berechnung eines Koeffizienten ci j , der nicht auf der Diagonalen liegt, beginnt
man mit dem gleichen Ansatz, stellt dann aber fest, dass die Werte der Terme det Aj k
überhaupt nicht vom Inhalt der j-ten Zeile von A abhängen, d.h. wenn man aus A
eine Matrix A0 bildet, bei der die j–te Zeile durch die i–te Zeile ersetzt ist, erhält
man die gleiche Formel. In A0 gilt wegen der Identität der i–ten und j–ten Zeile
a0j k = a0i k = ai k . Auf diesem Umweg kommt man zur Entwicklung der Determinate
103
von A0 nach der j–ten Zeile. Da aber A0 zwei identische Zeilen hat, ist det A0 = 0.
ci j =
=
n
X
k=1
n
X
ai k · ãk j
ai k · (−1)k+j · det Aj k
k=1
=
n
X
(−1)k+j · a0j k · det A0j k
k=1
= det(A0 ) = 0
Folgerung: Ist det A 6= 0, dann ist A invertierbar und A−1 =
Ã
.
det A
Spezialfall: Für A ∈ M (2 × 2, K) gilt:
−1
1
a b
d −b
=
·
für ad − bc 6= 0
c d
−c a
ad − bc
Die Determinate eines Endomorphismus
Satz: Für alle A, B ∈ M (n × n, K) gilt:
det(A · B) = det A · det B
Wir verzichten auf einen Beweis diese Satzes, wollen aber dafür eine wichtige Schlussfolgerung ziehen.
Satz: Sei f : K n → K n ein Endomorphismus, A die zu f gehörende Matrix
bezüglich der Standardbasis B1 und B eine zu f gehörende Matrix bezüglich einer
anderen Basis B2 , dann ist det A = det B.
Beweis: Sie C die Matrix, deren Spalten die Vektoren aus B2 sind. Damit beschreibt
C die Abbildung des Basiswechsels von B1 nach B2 bezüglich der Standardbasis. Die
Matrix C ist invertierbar und die inverse Matrix C −1 beschreibt den umgekehrten
Basiswechsel. Offensichtlich gilt nun:
C −1 · A · C = B.
Durch Anwendung des Satzes über die Determinante des Matrixprodukts erhalten
wir:
det B = det (C −1 ) · det A · det C = det A · det (C −1 · C) = det A · det En = det A.
104
Folgerung: Man kann jedem Endomorphismus f : K n → K n eindeutig seine Determinante det f = det A zuordnen, wobei A die Abbildung f bezüglich einer beliebigen
Basis repräsentiert.
Beispiel: Wir wollen die im Beweis beschriebene Methode zum Basiswechsel an
einem einfachen Beispiel nachvollziehen. Dazu betrachten wir als Endomorphismus
f die Spiegelung des Raums R2 an der x–Achse. Wir wählen
1
0
1
1
B1 =
,
die Standardbasis und B2 =
,
eine andere Basis.
0
1
1
−1
Das hat den Vorteil, dass wir nicht nur die Matrix A kennen, sondern auch schon
B, denn durch die Spiegelung an der x–Achse wird der erste Vektor von B2 auf den
zweiten und der zweite Vektor von B2 auf den ersten abgebildet, d.h.
1 0
0 1
A=
und
B=
0 −1
1 0
Damit kennen wir schon
das Ergebnis, das eigentlich noch berechnet werden soll.
1 1
Wir wissen, dass C =
ist und können C −1 durch die Komplementärmatrix
1 −1
bestimmen:
1
1 −1 −1
0.5 0.5
−1
C =
· C̃ =
=
0.5 −0.5
det C
−2 −1 1
Durch Ausführung der Matrixmultiplikation C −1 · A · C erhält man tatsächlich die
oben dargestellte Matrix B.
5.11
Eigenwerte und Eigenvektoren
Diagonalisierbarkeit
Wir haben bereits im Zusammenhang mit inversen Matrizen die Auswirkungen eines
Basiswechsels für die Matrixdarstellung eines Endomorphismus kennengelernt, sind
dabei aber noch nicht auf die Frage eingegangen, ob und wann ein solcher Basiswechsel
eigentlich sinnvoll ist. Der Nutzen eines Basiswechsels liegt sicherlich immer dann klar
auf der Hand, wenn durch diesen Wechsel eine sehr einfache Matrix entsteht. Das
trifft insbesondere auf den folgenden Fall zu.
Definition: Ein Endomorphismus f ∈ Hom (V, V ) wird diagonalisierbar genannt,
wenn eine Basis von V existiert, für die die Matrixdarstellung A von f Diagonalgestalt
hat, d.h. wenn A außerhalb der Diagonalen nur Nullen hat. Eine solche Basis nennt
man Diagonalbasis von f .
Zu den wesentlichen Vorteilen einer Diagonalmatrix A ∈ M (n × n, K) gehören die
folgenden Aspekte:
• Das Bild eines beliebigen Vektors ~v ∈ V kann mit n Multiplikationen und n − 1
Additionen bestimmt werden.
105
• Man kann die Determinante von A mit n − 1 Multiplikationen bestimmen und
damit auch entscheiden, ob A invertierbar ist.
• Falls A invertierbar ist, kann man A−1 mit n Divisionen berechnen.
Der Fakt, dass jeder Vektor ~v einer Diagonalbasis die Eigenschaft f (~v ) = λ~v hat,
führt zur folgenden Begriffsbildung.
Definition: Ist f ∈ Hom (V, V ) ein Endomorphismus, ~v 6= ~0 ein Vektor aus V und
λ ∈ K, so dass
f (~v ) = λ~v
gilt, so wird ~v Eigenvektor von f zum Eigenwert λ genannt.
Lemma: Ist M = {~v1 , ~v2 , . . . , ~vr } eine Menge von Eigenvektoren eines Endomorphismus f zu paarweise verschiedenen Eigenwerten λ1 , . . . , λr , so ist M linear unabhängig.
Beweis durch Induktion nach r:
Der Induktionsanfang für r = 1 ist trivial, denn ein Eigenvektor ist nach Definition
nicht der Nullvektor und damit ist {~v1 } linear unabhängig.
Sei die Aussage wahr für alle Mengen mit r Vektoren und sei M 0 = {~v1 , ~v2 , . . . , ~vr+1 }
eine Menge von Eigenvektoren eines Endomorphismus f zu paarweise verschiedenen
Eigenwerten λ1 , . . . , λr+1 . Zu zeigen ist, dass jede Linearkombination
~0 = µ1~v1 + . . . + µr~vr + µr+1~vr+1
trivial ist, d.h. dass µ1 = . . . = µr = µr+1 = 0 ist. Dazu betrachtet man die
Abbildung dieser Linearkombination unter f :
~0 = f (~0) = f (µ1~v1 + . . . + µr~vr + µr+1~vr+1 )
= µ1 f (~v1 ) + . . . + µr f (~vr ) + µr+1 f (~vr+1 )
= µ1 λ1~v1 + . . . + µr λr~vr + µr+1 λr+1~vr+1
Durch subtraktive Verknüpfung dieser Gleichung mit der Gleichung
~0 = λr+1~0 = λr+1 (µ1~v1 + . . . + µr~vr + µr+1~vr+1 )
= µ1 λr+1~v1 + . . . + µr λr+1~vr + µr+1 λr+1~vr+1
erhält man
~0 = µ1 (λ1 − λr+1 )~v1 + . . . + µr (λr − λr+1 )~vr + µr+1 (λr+1 − λr+1 ) ~vr+1 .
{z
}
|
=0
Da ~vr+1 in dieser Linearkombination verschwindet und nach Induktionsvoraussetzung
die Menge {~v1 , ~v2 , . . . , ~vr } linear unabhängig ist, muss die Linearkombination trivial
sein. Unter Berücksichtigung der Verschiedenheit der Eigenwerte ergibt sich
µ1 (λ1 − λr+1 ) = . . . = µr (λr − λr+1 ) = 0
|
{z
}
| {z }
6=0
6=0
106
=⇒
µ1 = . . . = µr = 0
und daraus folgt auch µr+1 = 0, womit die Induktionsbehauptung bewiesen ist.
Folgerung: Ist dim V = n und der Endomorphismus f ∈ Hom (V, V ) hat n Eigenwerte, dann ist f diagonalsierbar.
Auf Grund des Lemmas bildet jede Menge von Eigenvektoren zu den n Eigenwerten
eine Basis von V . Offensichtlich ist das eine Diagonalbasis, denn die zugehörige
Matrixdarstellung von f hat auf der Diagonalen die Eigenwerte und sonst nur Nullen.
Wie wir sehen werden, ist die Existenz von n Eigenwerten aber keine notwendige
Voraussetzung für die Diagonalisierbarkeit.
Eigenräume
Sind ~v und w
~ zwei Eigenvektoren von f ∈ Hom (V, V ) zum selben Eigenwert λ,
dann ist auch jede (von ~0 verschiedene) Linearkombination aus ~v und w
~ ein Eigenvektor zum Eigenwert λ, mit anderen Worten bilden die Eigenvektoren zu λ zusammen mit dem Nullvektor einen Unterraum von V . Da f (~v ) = λ~v äquivalent ist zu
(f − λ IdV ) (~v ) = ~0, kann man diesen Unterraum auch als Kern des Endomorphismus
f − λ IdV charakterisieren.
Definition: Ist λ ein Eigenwert von f ∈ Hom (V, V ), dann nennt man den Unterraum Eλ := Ker (f − λ IdV ) den Eigenraum von λ. Die Dimension von Eλ wird
geometrische Vielfachheit von λ genannt.
Satz: Ein Endomorphismus f ∈ Hom (V, V ) mit den Eigenwerten λ1 , . . . , λr ist
genau dann diagonalisierbar, wenn
r
X
dim Eλk = dim V.
k=1
Beweis: Man verwendet das Lemma über die lineare Unabhängigkeit von Eigenvektoren zu verschiedenen Eigenwerten um zu zeigen, dass die Vereinigung der Basen
der Eigenräume Eλ1 , . . . , Eλr auch eine linear unabhängige Menge ist. Damit ist diese
Vereinigung genau dann eine Basis von V , wenn sie n = dim V Elemente hat.
Wenn man alle Eigenwerte von f kennt, ist es nicht schwer, die Diagonalisierbarkeit
von f zu überprüfen, denn die Eigenräume zu den Eigenwerten λi sind die Kerne
der Endomorphismen f − λi IdV . Es bleibt also zu klären, wie man die Menge der
Eigenwerte von f bestimmen kann.
Charakteristisches Polynom
Definition: Sei V ein n–dimensionaler Vektorraum und f ∈ Hom (V, V ), dann
nennt man die Determinante det (f − λ · IdV ) das charakteristische Polynom von f .
Da wir wissen, dass die Determinante eines Epimorhismus auf V nicht von der Wahl
der Basis von V abhängig ist, kann man das charakteristische Polynom von f auch als
det (A − λ · En ) definieren, wobei A eine Matrixdarstellung von f für eine beliebig
107
gewählte Basis von V ist. Das charakteristische Polynom ist ein Polynom vom Grad
n mit der Unbekannten λ und wird mit Pf (λ) bezeichnet.
Satz: Sei V ein n–dimensionaler Vektorraum und f ∈ Hom (V, V ). Ein Element α
des Körpers ist genau dann Eigenwert von f , wenn es Nullstelle des charakteristischen
Polynoms Pf (λ) ist.
Beweis: Wie wir bereits wissen, ist ein α genau dann ein Eigenwert von f , wenn
es einen (von ~0 verschiedenen!) Eigenvektor zu α gibt, d.h. wenn der Eigenraum
Eα = Ker (f − α · IdV ) mindestens Dimension 1 hat. Nach Dimensionsformel gilt
dann:
dim (Im (f − α · IdV )) = dim V − dim (Ker (f − α · IdV )) ≤ n − 1
Da ein Endomorphismus genau dann vollen Rang hat, wenn seine Determinante ungleich 0 ist, kann man obige Bedingung äquivalent in det (f − α · IdV ) = 0 umwandeln und damit ist α Nullstelle des charakteristischen Polynoms.
Beispiel:

1 0
Für den durch die Matrix A = 0 −1
2 0
alle Eigenwerte und Basen der jeweiligen

2
2 gegebenen Endomorphismus f sollen
1
Eigenräume bestimmt werden.
• Charakteristisches Polynom:


1−λ
0
2
−1 − λ
2  = −λ3 + λ2 + 5λ + 3
Pf (λ) = det (A − λ · En ) = det  0
2
0
1−λ
• Nullstellen des charakteristischen Polynoms:
λ1 = −1 (eine doppelte Nullstelle) und λ2 = 3 (einfache Nullstelle)
• Basis des Eigenraums E−1 :


2 0 2
Dazu betrachtet man den Kern der Matrix (A − (−1)En ) = 0 0 2.
2 0 2
Da der Rang dieser
Matrix
2
ist,
hat
der
Kern
nur
Dimension
1
und
offensichtlich
 
0
ist der Vektor 1 ein Basisvektor des Kerns.
0
• Basis des Eigenraums E3 :


−2 0
2
Dazu betrachtet man den Kern der Matrix (A − 3En ) =  0 −4 2 .
2
0 −2
108
Da der Rang dieser
 Matrix 2 ist, hat der Kern nur Dimension 1 und offensichtlich
2

ist der Vektor 1 ein Basisvektor des Kerns.
2
• Schlussfolgerung: Da die Summe der Eigenraumdimensionen kleiner als 3 ist,
ist die Abbildung f nicht diagonalisierbar.
109