Vorlesung Logik, Diskrete Mathematik und Lineare Algebra

Werbung
Vorlesung
Logik, Diskrete Mathematik und Lineare Algebra
(Mathematik für Bioinformatiker I)
Wintersemester 2012/13
FU Berlin
Institut für Informatik
Klaus Kriegel
1
Literatur zur Vorlesung:
C. Meinel, M. Mundhenk, Mathematische Grundlagen der Informatik,
B.G.Teubner 2000
D. Hachenberger, Mathematik für Informatiker,
Pearson Studium
G. Haggard, J. Schlipf, S. Whitesides, Discrete Mathematics for Computer
Science, Brooks Cole
M. Aigner, Diskrete Mathematik,
Vieweg & Sohn 1999
T. Ihringer, Diskrete Mathematik,
Teubner 1994
K. H. Rosen, Discrete Mathematics and its Applications,
McGraw-Hill 1991
K. Jänich, Lineare Algebra,
Springer 2000
2
Contents
1 Grundbegriffe der Logik
1.1 Aussagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Prädikate und Quantoren . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Beweistechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
8
11
2
.
.
.
.
.
.
14
14
18
20
22
25
28
.
.
.
.
.
.
32
32
33
36
37
40
41
Diskrete Wahrscheinlichkeitsverteilungen
4.1 Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit . . . . . .
4.2 Zufallsvariable und Erwartungswert . . . . . . . . . . . . . . . . . .
43
43
48
Grundbegriffe der Mengenlehre
2.1 Mengen und Operationen auf Mengen . . . . . . .
2.2 Kartesisches Produkt und Relationen . . . . . . . .
2.3 Äquivalenzrelationen . . . . . . . . . . . . . . . . .
2.4 Ordnungsrelationen . . . . . . . . . . . . . . . . .
2.5 Funktionen . . . . . . . . . . . . . . . . . . . . . .
2.6 Natürliche Zahlen, Endlichkeit und Kardinalzahlen
3 Kombinatorik
3.1 Elementare Zählprinzipien . . . . .
3.2 Die fundamentalen Zählkoeffizienten
3.3 Zwölf Arten des Abzählens . . . . .
3.4 Rekursionen . . . . . . . . . . . . .
3.5 Lösung von Rekursionen . . . . . . .
3.6 Das Schubfachprinzip . . . . . . . .
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Lineare Algebra
5.1 Einführung: Anschauliche Vektorrechnung . .
5.2 Gruppen und Körper . . . . . . . . . . . . . .
5.3 Vektorräume . . . . . . . . . . . . . . . . . . .
5.4 Lineare Unabhängigkeit, Basis und Dimension
5.5 Lineare Abbildungen . . . . . . . . . . . . . .
5.6 Matrizen . . . . . . . . . . . . . . . . . . . . .
5.7 Der Rang einer Matrix . . . . . . . . . . . . .
5.8 Lineare Gleichungssysteme . . . . . . . . . . .
5.9 Inverse Matrizen . . . . . . . . . . . . . . . .
5.10 Determinanten . . . . . . . . . . . . . . . . .
5.11 Eigenwerte und Eigenvektoren . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
53
56
59
66
73
77
84
93
96
105
1
Grundbegriffe der Logik
1.1
Aussagen
Die Grundlagen der Aussagenlogik gehen bereits auf die alten Griechen zurück. So
beschrieb Aristoteles eine Aussage als einen Satz, von dem es sinnvoll ist zu sagen,
dass er wahr oder falsch sei. Diesen Gedanken findet man auch in der heute verwendeten Definition wieder.
Definition: Eine Aussage ist ein (formal-)sprachliches Gebilde, das entweder wahr
oder falsch ist.
Der Zusatz formalsprachlich weist darauf hin, dass man auch mathematische Symbole
und andere Zeichen einer formalen Sprache verwenden kann. Die klassische Aussagenlogik beruht auf zwei Grundprinzipien, dem bereits genannten Zweiwertigkeitsprinzip,
welches fordert, dass jede Aussage einen eindeutig bestimmten Wahrheitswert hat,
der nur wahr oder falsch sein kann, und dem Extensionalitätsprinzip, nach dem der
Wahrheitswert einer zusammengesetzten Aussage nur von den Wahrheitswerten ihrer
Bestandteile abhängt.
Wir werden im Folgenden (wie in der Informatik üblich) eine 1 für den Wahrheitswert
wahr und eine 0 für falsch verwenden. Das Zusammensetzen von Aussagen erfolgt
durch die Verwendung von Verknüpfungswörtern wie und, oder, nicht, wenn . . . dann,
welche auf formal-sprachlicher Ebene durch sogenannte logische Junktoren - das sind
spezielle Verknüpfungssymbole - dargestellt werden.
Beispiele:
1. Der Satz “7 ist eine Primzahl.” und der Satz “7 ist eine ungerade Zahl.” sind
wahre Aussagen. Dagegen ist der Satz “7 ist eine gerade Zahl.” eine falsche
Aussage. Genauer gesehen ist der letzte Satz die Negation des zweiten Satzes,
denn nicht ungerade zu sein, ist (zumindest für ganze Zahlen) das gleiche, wie
gerade zu sein.
2. Der Satz “7 ist eine Primzahl und 7 ist ungerade.” sowie der Satz “7 ist eine
Primzahl oder 7 ist gerade.” sind wahre Aussagen. Achtung: Auch der Satz
“7 ist eine Primzahl oder 7 ist ungerade.” ist eine wahre Aussage, denn das
logische oder ist kein ausschließendes entweder oder. Dagegen ist der Satz “7 ist
eine Primzahl und 7 ist gerade.” eine falsche Aussage, denn die zweite Aussage
ist falsch.
√
3. Der Satz “ 2 ist eine rationale Zahl.” ist – wie man aus der Schulmathematik
weiß – eine falsche Aussage, aber es bedarf schon einiger Überlegungen, um das
zu zeigen.
4. Der Satz “Jede gerade Zahl größer als 2 ist die Summe zweier Primzahlen” ist
eine Aussage, denn entweder gibt es eine gerade Zahl, die sich nicht als Summe zweier Primzahlen darstellen lässt - dann ist die Aussage falsch, oder es
gibt keine solche Zahl - dann ist die Aussage wahr. Man nimmt an, dass diese
4
Aussage wahr ist (Goldbachsche Vermutung), konnte das aber bisher noch nicht
beweisen.
5. Der Satz “Dieser Satz ist falsch.” ist als Russels Paradoxon bekannt. Durch
die spezielle Art des Bezugs auf sich selbst kann er weder wahr noch falsch sein
und ist deshalb keine Aussage.
6. Ein typischer Vertreter für eine ganze Klasse von sprachlichen Gebilden, die
keine Aussagen sind, ist der Satz “Die natürliche Zahl n ist eine Primzahl.”.
Setzen wir für n den Wert 7 ein, so entsteht offensichtlich eine wahre Aussage, dagegen für n = 8 eine falsche Aussage. Sprachliche Gebilde dieses Typs
nennt man auch Aussageformen oder Prädikate - wir werden sie später genauer
besprechen.
Nach dem Extensionalitätsprinzip ergibt sich der Wahrheitswert einer zusammengesetzten Aussage ausschließlich aus den Wahrheitswerten der Ausgangskomponenten. Deshalb werden wir uns zuerst damit beschäftigen, welche Operationen zum
Zusammensetzen neuer Aussagen verwendet werden sollen und wie diese Operationen auf Wahrheitswerten wirken. Dazu werden Aussagevariable eingeführt und die
Wahrheitwerte von zusammengesetzten Aussagen durch Wahrheitsswerttabellen (kurz
Wahrheitstafeln) beschrieben.
Die Negation einer Aussage x wird mit ¬x bezeichnet. Diese Operation kehrt den
Wahrheitswert von x um, d.h. man kann sie mit ¬0 = 1 und ¬1 = 0 als Funktion
auf den Wahrheitswerten beschreiben. Zur Verknüpfung von zwei Aussagen x und y
stehen die folgenden Konstrukte zur Verfügung:
• die Konjunktion x ∧ y, gesprochen “x und y”;
• die Disjunktion x ∨ y, gesprochen “x oder y”;
• die Implikation x → y, gesprochen “aus x f olgt y” oder “wenn x, dann y”
• die Äquivalenz x ↔ y, gesprochen “x genau dann, wenn y”,
• die Antivalenz x ⊕ y, gesprochen “entweder x oder y”.
Die dazu korrespondierenden Funktionen auf Wahrheitswerten werden als Operationen (unter Verwendung der gleichen Symbole) in der folgenden Tabelle beschrieben:
x
0
0
1
1
y
0
1
0
1
x∧y
0
0
0
1
x∨y
0
1
1
1
x→y
1
1
0
1
x↔y
1
0
0
1
x⊕y
0
1
1
0
Aus der Tabelle kann man ablesen, dass die Konjunktion x ∧ y dann und nur dann
wahr ist, wenn beide Aussagen x und y wahr sind. Die Disjunktion x ∨ y ist dann und
5
nur dann wahr, wenn mindestens eine der Aussagen x und y wahr ist. Die Implikation
ist dann und nur dann wahr, wenn x falsch oder y wahr ist. Versuchen Sie selbst, die
Äquivalenz und die Antivalenz verbal zu beschreiben!
Ausdrücke, die durch (wiederholtes) Anwenden der Verknüpfungsoperationen aus
Variablen gewonnen werden, nennt man Formeln (oder Terme) der Aussagenlogik.
Um eine Formel eindeutig erkennen zu können, müsste man jeweils nach Anwendung
einer Verknüpfung die neue Formel durch ein Klammerpaar einschließen. Das führt
zur folgenden Definition von Formeln der Aussagenlogik über eine Variablenmenge
V ar:
1. Alle Variablen aus der Menge V ar sowie die Symbole 0 und 1 sind Formeln der
Aussagenlogik.
2. Ist t eine Formel der Aussagenlogik, dann ist auch (¬t) eine Formel der Aussagenlogik.
3. Sind s und t Formeln der Aussagenlogik, dann sind auch die Ausdrücke (s ∧ t),
(s ∨ t), (s → t), (s ↔ t) sowie (s ⊕ t) Formeln der Aussagenlogik.
4. Jede Formel der Aussagenlogik kann aus den Variablen und den Symbolen 0
und 1 durch eine endliche Folge von Anwendungen der Regeln 2) und 3) erzeugt
werden.
Wir werden zur Abkürzung der Notation (insbesondere an der Tafel) auch häufig die
Symbole ⇒ und ⇔ verwenden. Sie drücken auch Implikationen und Äquivalenzen
aus, aber nicht auf der Ebene der Formeln, sondern auf der Ebene der Sprache über
Aussagen, der sogenannten Metasprache. Der Ausdruck A ⇒ B ist also ein Kürzel
für den Satz “Wenn Aussage A wahr ist, dann ist auch Aussage B wahr”.
Weil die Formeln durch die Klammersetzung sehr unübersichtlich werden können,
vereinbart man einige Regeln zur Vereinfachung der Notation (ähnlich wie die bekannte Regel, dass Punktrechnung vor Strichrechnung geht):
• Außenklammern können weggelassen werden.
• In der Reihenfolge ¬, ∧, ∨, →, ↔ trennen die hinteren Junktoren stärker als alle
vorangehenden, d.h. die Bindungsstärke nimmt in dieser Reihenfolge ab. Alle
Klammerungen, die mit dieser Hierarchie der Bindungsstärke in Übereinstimmung stehen, können auch weggelassen werden.
Man kann also für ((¬x1 ) ∨ (x2 ∧ x3 )) auch ¬x1 ∨ x2 ∧ x3 schreiben. Dagegen würde
das Weglassen der Klammern in der Formel ¬(x ∨ y) eine andere Formel erzeugen.
Legt man für alle in einer Formel auftretenden Variablen Wahrheitswerte fest, so
induziert eine solche Belegung auch einen Wahrheitswert für die Formel. Man nennt
diesen induktiven Prozess auch Auswertung der Formel. Die Ergebnisse der Auswertungen einer Formel unter allen möglichen Belegungen werden in einer Wahrheitstafel
zusammengefasst.
6
Definition: Zwei Formeln s und t sind logisch äquivalent, wenn jede beliebige Belegung der Variablen für beide Formeln den gleichen Wahrheitswert induziert. Wir
schreiben dafür s ≡ t.
Wie das folgende Beispiel zeigt, kann die Äquivalenz von zwei Formeln prinzipiell
durch Wahrheitstafeln überprüft werden. Zum Nachweis der Äquivalenz der Formeln
s = ¬(x1 ∨ ((x1 ∨ x2 ) ∧ x2 ) und t = ¬x1 ∧ ¬x2 stellt man folgende Tabelle auf:
x1
0
0
1
1
x1
0
0
1
1
x2
0
1
0
1
x2
0
1
0
1
x1 ∨ x2
0
1
1
1
¬x1
1
1
0
0
(x1 ∨ x2 ) ∧ x2 x1 ∨ ((x1 ∨ x2 ) ∧ x2 )
0
0
1
1
0
1
1
1
¬x2
1
0
1
0
s
1
0
0
0
t
1
0
0
0
Am identischen Wahrheitswerteverlauf für s und t kann man ablesen, dass die Formeln
äquivalent sind.
Satz: Für beliebige Formeln s, t, r gelten die folgenden Äquivalenzen:
Assoziativität:
Kommutativität:
Distributivität:
Idempotenz:
Dominanz:
Neutralität:
Absorbtion:
deMorgansche Regel:
Komplementierung:
(doppelte Negation)
(s ∧ t) ∧ r
(s ∨ t) ∨ r
s∧t
s∨t
s ∧ (t ∨ r)
s ∨ (t ∧ r)
s∧s
s∨s
s∧0
s∨1
s∧1
s∨0
s ∧ (s ∨ t)
s ∨ (s ∧ t)
¬(s ∧ t)
¬(s ∨ t)
s ∧ ¬s
s ∨ ¬s
¬¬s
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
≡
s ∧ (t ∧ r)
s ∨ (t ∨ r)
t∧s
t∨s
(s ∧ t) ∨ (s ∧ r)
(s ∨ t) ∧ (s ∨ r)
s
s
0
1
s
s
s
s
¬s ∨ ¬t
¬s ∧ ¬t
0
1
s
Diese Äquivalenzen können leicht mit Wahrheitstafeln bewiesen werden. Der Wahrheitstafelmethode sind jedoch enge Grenzen gesetzt, wenn die Anzahl n der ver7
wendeten Variablen groß wird, denn die entsprechende Wahrheitstafel hat dann 2n
Zeilen.
Beispiel: Der Beweis der folgenden Äquivalenz mit Wahrheitstafeln würde 16 Zeilen
erfordern. Verwendet man dagegen die Absorbtion und die doppelte Negation zur
Ersetzung von Subformeln, so erhält man einen einfachen und kurzen Beweis.
x1 ∨ ((x2 ∨ x3 ) ∧ ¬(¬x1 ∧ (¬x1 ∨ x4 ))) ≡ x1 ∨ ((x2 ∨ x3 ) ∧ ¬¬x1 )
≡ x1 ∨ ((x2 ∨ x3 ) ∧ x1 )
≡ x1
Die folgende Liste enthält weitere Äquivalenzen, welche zum Beweis der Äquivalenz
von komplexen Formeln häufig angewendet werden:
(1)
(2)
(3)
(4)
(5)
(6)
s→t
s↔t
s→t∧r
s→t∨r
s∧t→r
s∨t→r
≡
≡
≡
≡
≡
≡
¬s ∨ t
s ∧ t ∨ ¬s ∧ ¬t
(s → t) ∧ (s → r)
(s → t) ∨ (s → r)
(s → r) ∨ (t → r)
(s → r) ∧ (t → r)
Definition: Eine Formel s wird erfüllbar genannt, wenn es eine Belegung der Variablen von s gibt, die für s den Wert 1 induziert. Die Formel s wird allgemeingültig,
logisch gültig oder eine Tautologie genannt, wenn sie für jede Belegung den Wert 1
annimmt. Eine Formel, die unerfüllbar ist, wird Kontradiktion genannt.
1.2
Prädikate und Quantoren
Definition: Ein Prädikat ist eine Aussageform, die eine (oder mehrere) Variable
enthält, so dass bei Ersetzung der Variablen durch Elemente aus einem gegebenen
Individuenbereich U eine Aussage mit eindeutig bestimmtem Wahrheitswert entsteht,
z.B. P (x) : “x = 0” oder Q(x) : “x + 0 = x” oder R(x, y) : “x ≤ x + y” für den
Bereich der ganzen Zahlen.
Die Belegung der Variablen durch konkrete Objekte ermöglicht somit (durch Betrachtung eines Spezialfalls), ein Prädikat in eine Aussage umzuwandeln. So sind für die
genannten Beispiele die Aussagen P (0), Q(5) und R(3, 4) wahr, dagegen sind P (3)
und R(3, −2) falsche Aussagen.
Die sogenannten Quantoren erlauben es, aus diesen Spezialfällen allgemeinere Aussagen abzuleiten: Durch das Hinzufügen der Wendungen “für alle ...”, symbolisch
ausgedrückt durch den Allquantor ∀, oder “es gibt ein ...”, symbolisch ausgedrückt
durch den Existenzquantor ∃, werden die Variablen in einem Prädikat gebunden.
Sind alle Variablen eines Prädikats gebunden, entsteht eine Aussage, also ein Satz,
der wahr oder falsch ist.
Die Ausssage “∀x ∈ U P (x)” ist wahr, wenn für jedes Element a ∈ U die Aussage
P (a) wahr ist. Dagegen ist “∃x ∈ U P (x)” eine wahre Aussage, wenn (mindestens)
ein Element a ∈ U existiert, so dass die Aussage P (a) wahr ist.
8
Beispiele:
• Die Aussagen “∀x ∈ N x + 0 = x” und “∃x ∈ N x2 = x” sind wahr, aber die
Aussagen “∃x ∈ N x + 1 = x” und “∀x ∈ N x2 = x” sind falsch.
• Die Aussage “∀x ∈ N ∃y ∈ N y ≤ x” ist wahr, denn für einen beliebigen Wert
x = a erfüllt der Wert y = a die Ungleichung y ≤ x. Dagegen ist die Aussage
“∀x ∈ N ∃y ∈ N y < x” falsch, denn für x = 0 gibt es keine kleinere natürliche
Zahl.
• Die falsche Aussage im letzten Punkt ist ein typisches Beispiel dafür, dass der
Bereich, über dem die Aussage gemacht wird, von entscheidender Bedeutung
sein kann: Wenn man den Bereich N der natürlichen Zahlen gegen die Bereiche Z, Q, R der ganzen, rationalen bzw. reellen Zahlen austauscht, entstehen
offensichtlich wahre Aussagen wie “∀x ∈ Z ∃y ∈ Z y < x”.
Allgemein ist die Frage, ob eine durch Quantoren gebildete Aussage wahr oder falsch
ist, algorithmsch nicht entscheidbar. Die Goldbachsche Vermutung ist ein Beispiel
einer Aussage, deren Wahrheitswert nicht bekannt ist. In vielen anderen Fällen kann
man die Frage aber durch genauere Überlegungen beantworten. Wie kann man
in solchen Fällen sich selbst und andere von der Richtigkeit seiner Überlegungen
überzeugen? Der typische Beweis dafür, dass eine quantisierte Aussage wahr ist,
erfolgt in drei Stufen. Zuerst wird die Aussage durch Anwendung von äquivalenten
Umformungen aus der Aussagenlogik und aus dem nachfolgenden Satz in eine Standardform gebracht, bei der alle auftretenden Quantoren am Anfang stehen (man
nennt dies eine Pränexform). Danach erfolgt die Belegung der Variablen in Form
eines Spiels zwischen zwei Parteien: Einem Beweiser und seinem Gegenspieler, der
nachzuweisen versucht, dass die Ausage falsch ist. Dabei darf der Gegenspieler bei
jedem Allquantor die entsprechende Variable x durch ein beliebiges Objekt a aus
dem Individuenbereich belegen. Sollte die Aussage doch falsch sein (also nicht für
alle Objekte gelten), würde der Gegenspieler gerade ein solche Objekt wählen. Ist
die Aussage wahr, dann ist es (für den Beweiser) egal, welches Objekt a der Gegenspieler gewählt hat. Der Beweiser ist bei allen Existenzquantoren am Zuge und muss
ein passendes Objekt (in Abhängigkeit von den vorher vom Gegenspieler gwählten
Objekten) finden, für welches die nachfolgende Ausssage wahr ist. Nachdem alle
Variablen belegt sind, haben wir eine (variablenfreie) Aussage. Im letzten Schritt
muss diese Aussage verifiziert (als wahr bewiesen) werden.
Beginnen wir mit den Umformungsregeln.
Satz: Für beliebige Prädikate P (x), Q(x) und R(x, y) gelten die folgenden Äquivalenzen:
(1)
¬∀x P (x)
(2)
¬∃x P (x)
(3) ∀x P (x) ∧ ∀x Q(x)
(4) ∃x P (x) ∨ ∃x Q(x)
(5)
∀x ∀y R(x, y)
(6)
∃x ∃y R(x, y)
9
≡
≡
≡
≡
≡
≡
∃x¬P (x)
∀x¬P (x)
∀x (P (x) ∧ Q(x))
∃x (P (x) ∨ Q(x))
∀y ∀x R(x, y)
∃y ∃x R(x, y)
Achtung: Die folgenden Formelpaare sind im allgemeinen nicht äquivalent:
∀x P (x) ∨ ∀x Q(x)
∃x P (x) ∧ ∃x Q(x)
∀x (∃y R(x, y))
und
und
und
∀x (P (x) ∨ Q(x))
∃x (P (x) ∧ Q(x))
∃y (∀x R(x, y))
Konkrete Gegenbeispiele für das erste und zweite Paar erhält man für den Bereich der
ganzen Zahlen, wenn P (x) (bzw. Q(x)) aussagt, dass x eine gerade (bzw. ungerade)
Zahl ist. Für das dritte Paar kann man das Prädikat R(x, y) :“x ≤ y” über den
reellen Zahlen verwenden.
Wir wollen die drei Stufen eines solchen Beweises an einem einfachen Beispiel demonstrieren und die folgende Aussage für den Bereich der rationalen Zahlen beweisen.
Satz: Für beliebige x, y ∈ Q mit x < y gibt es eine von x und y verschiedene Zahl
z ∈ Q, die zwischen x und y liegt.
Die Beweisidee liegt klar auf der Hand: man setzt für z den Mittelwert aus x und
y und kann dann die Behauptung nachrechnen. Wir stellen die Aussage als Formel
mit Quantoren dar. Der Bereich Q ist durch Verabredung festgelegt und wird nicht
explizit genannt:
∀x ∀y [(x < y) → ∃z (x < z ∧ z < y)]
In diesem Fall könnte man die erste Stufe überspringen und gleich mit dem Spiel der
Festlegung der Werte beginnen, bei dem der Gegner x und y vorgibt und wir im Fall
setzen. Um das dreistufige Verfahren formal korrekt
x < y (als Beweiser) z = x+y
2
umzusetzen, würden wir aber zuerst die Implikation hinter den beiden Allquatoren
äquivalent umformen:
(x < y) → ∃z (x < z ∧ z < y) ⇔ ¬(x < y) ∨ ∃z (x < z ∧ z < y)
⇔ ∃z (x ≥ y) ∨ ∃z (x < z ∧ z < y)
⇔ ∃z (x ≥ y ∨ (x < z ∧ z < y))
Im ersten Schritt wurde die Regel p → q ≡ ¬p ∨ q angewendet. Im zweiten Schritt
wurde die Negation von x < y in x ≥ y umgewandelt und der Existenzquantor ∃z
davorgesetzt - das kann man machen, weil x ≥ y in keiner Weise von z abhängt.
Im letzten Schritt wurde die vierte Regel aus obigem Satz verwendet. Jetzt liegt die
Aussage in Pränexform vor:
∀x ∀y ∃z [x ≥ y ∨ (x < z ∧ z < y)].
Das Spiel beginnt mit der Vorgabe von zwei Werten x = a und y = b durch den
Gegenspieler. Der Beweiser setzt z = (a + b)/2.
Nun erfolgt die Verifikation der Aussage a ≥ b ∨ (a < (a + b)/2 ∧ (a + b)/2 < y) durch
Betrachtung von zwei Fällen: Entweder es gilt a ≥ b, dann wird die Aussage durch
den linken Term der Disjunktion wahr oder es gilt a < b. In diesem Fall müssen
beide Ungleichungen auf der rechten Seite der Disjunktion erfüllt sein, aber beides
folgt über den Zwischenschritt a/2 < b/2 jeweils kombiniert mit den Ungleichungen
a/2 ≤ a/2 bzw. b/2 ≤ b/2.
10
Bleibt die Frage, warum man diese Argumentation nicht für den Bereich N der
natürlichen Zahlen wiederholen kann. Die Antwort ist wieder nicht schwer: Der
Ausdruck a+b
führt in vielen Fällen aus dem Bereich N heraus. Das ist aber noch
2
kein Beweis dafür, dass die Aussagge über diesem Bereich falsch ist. Um das zu
zeigen, beweist man, dass die negierte Aussage wahr ist. Wir bilden die Negation mit
Hilfe der Regeln (1) und (2) aus obigem Satz und der deMorganschen Regel:
∃x ∃y ∀z [(x < y) ∧ (x ≥ z ∨ z ≥ y)].
Da die Aussage bereits in Pränexform vorliegt, kann das Spiel der Variablenbelegung
beginnen. Wir setzen als Beweiser x = 0 und y = 1. Der Gegenspieler belegt z mit
einem Wert c. Wir müssen jetzt die Aussage 0 < 1 ∧ (0 ≥ c ∨ c ≥ 1) verifizieren.
Offensichtlich ist 0 < 1 wahr und wir müssen nur noch zeigen, dass mindestens eine
der Ungleichungen aus (0 ≥ c ∨ c ≥ 1) wahr ist. Wenn aber die erste Ungleichung
nicht erfüllt ist, muss c eine natürliche Zahl größer als 0, also mindestens 1 sein und
damit ist die zweite Ungleichung erfüllt.
1.3
Beweistechniken
In diesem Abschnitt geht es darum, einige grundlegende Beweisstrategien kennenzulernen. Da das prinzipielle Verständnis im Mittelpunkt stehen soll, sind die in den
Beispielen bewiesenen Aussagen sehr einfach gewählt. Grundsätzlich muss man sich
bei Beweisen auch immer danach richten, für welchen Leser der Beweis aufgeschrieben wird. Bei einem Beweis für Experten kann man mehr Vorwissen voraussetzen
und deshalb auch mehrere Gedanken zu einem Schritt zusammenfassen. Dagegen
sollte bei Beweisen für Nicht-Experten möglichst jeder Schritt elementar und einfach
nachvollziehbar sein.
Gerade bei den scheinbaren Selbstverständlichkeiten wird ein weiteres Problem deutlich: Bevor man an einen Beweis geht, muss man sich klarmachen, was man schon als
Basiswissen voraussetzen kann, und was man noch beweisen muss. Oft ist als erster
hilfreicher Schritt eine geeignete Formalisierung der Aussage notwendig.
Viele mathematische Sätze haben die Form einer Implikation, sie sagen, dass aus einer
bestimmten Voraussetzung in Form einer Aussage p eine Behauptung in Form einer
Aussage q folgt. Wir wollen uns zuerst mit den verschiedenen Techniken zum Beweis
von solchen Implikationen beschäftigen. Basis für die Gültigkeit solcher Beweise sind
einige einfache Äquivalenzen und Implikationen, die man leicht mit der Wahrheitstafelmethode nachweisen kann.
Direkte Beweise
Der direkte Beweis beruht darauf, die Implikation p → q in mehrere elementare
Teilschritte zu zerlegen, wobei man die folgende Tautologie nutzt:
((p → r) ∧ (r → q)) → (p → q).
Natürlich kann man die zwei Teilschritte auf der linken Seite weiter unterteilen, bis
man bei einer Kette elementarer Implikationen angekommen ist. Wie das folgende
11
Beispiel zeigt, bewegt man sich bei der Begründung der Elementarschritte in einem
System, das sich auf einigen Axiomen (Grundannahmen) aufbaut und in dem man
auf bereits bewiesene Tatsachen zurückgreifen kann.
Satz: Ist eine natürliche Zahl n durch 6 teilbar, so ist ihr Quadrat durch 9 teilbar.
Beweis: Die Idee ist offensichtlich – ist n durch 6 teilbar, so kann man den Faktor
6 und damit auch den Faktor 3 von n abspalten. Folglich kann man den Faktor 3
mindestens zweimal von n2 abspalten. Wenn wir diese Idee etwas formaler umsetzen
wollen, müssen wir mit der Definition von Teilbarkeit beginnen:
n ∈ N ist durch k ∈ N teilbar, falls ein l ∈ N existiert, so dass n = k · l.
Die Tatsache, dass n durch k teilbar ist (also k ein Teiler von n ist) wird symbolisch
durch k | n ausgedrückt. Damit kann man die Voraussetzung des Satzes durch eine
einfache Formel ausdrücken und die folgende Beweiskette bilden:
6|n
Hypothese
∃l ∈ N
n=6·l
Teilbarkeitsdefinition
∃l ∈ N
n = (3 · 2) · l
6=3·2
2
∃l ∈ N
n = ((3 · 2) · l)((3 · 2) · l) Quadrieren
∃l ∈ N
n2 = (3 · 3)((2 · 2) · (l · l)) Muliplikation ist assoziativ und kommutativ
∃l ∈ N
n2 = 9 · (4 · l2 )
3 · 3 = 9 und 2 · 2 = 4
0
2
0
∃l ∈ N
n =9·l
l0 = 4l2
2
9|n
Teilbarkeitsdefinition
Genau betrachtet haben wir beim Schritt von der vierten zur fünften Zeile sogar
mehrere Elementarschritte zu einem Schritt zusammengefasst.
Indirekte Beweise
Manchmal ist es schwierig, den Beweis direkt zu führen. Als Alternativen bieten sich
indirekte Beweise durch Kontraposition oder in der Form von Widerspruchs-Beweisen
an. Beim Beweis durch Kontraposition wird anstelle von p → q die logisch äquivalente
Aussage ¬q → ¬p bewiesen. Beim Widerspruchs-Beweis wird an Stelle von p → q
die logisch äquivalente Aussage (p ∧ ¬q) → 0 bewiesen. Wir demonstrieren beide
Beweisverfahren an einfachen Beispielen.
Satz: Für jede natürliche Zahl n gilt: Ist n2 ungerade, so ist auch n ungerade.
Beweis durch Kontraposition: Da die Negation von “ungerade sein” die Eigenschaft “gerade sein” ist, lautet die Kontraposition “Ist n gerade, so ist auch n2 gerade”. und dafür gibt es einen einfachen direkten Beweis:
Ist n gerade, so gibt es eine ganze Zahl k mit n = 2k. Folglich ist n2 = (2k)2 = 2·(2k 2 )
und somit ist n2 gerade.
√
√
Satz: Für jede natürliche Zahl n gilt: Ist n keine ganze Zahl, dann ist n auch
nicht rational.
√
Beweis durch Widerspruch: Man geht von der Annahme aus, dass n keine
natürliche Zahl, aber eine rationale Zahl ist, und muss daraus einen Widerspruch
12
ableiten. Sei n = pk11 · . . . · pkl l die eindeutige Primzahlzerlegung von n, wobei p1 , . . . , pl
die paarweise verschiedenen Primfaktoren von n sind und k1 , . . . , kl die Vielfachheiten
√
dieser Primfaktoren. Wären alle Werte k1 , . . . , kl gerade Zahlen, dann wäre n eine
k /2
k /2
ganze Zahl, nämlich p11 ·. . .·pl l . Nach unserer Annahme muss also mindestens einer
dieser Werte ungerade sein, o.B.d.A. (d.h. ohne Beschränkung der Allgemeinheit) sei
das k1 .
√
Darüber hinaus soll n rational, also als Quotient aus zwei natürlichen Zahlen m und
m 2
und n · m02 = m2 . Kombiniert man diese
m0 darstellbar sein. Damit ist n = m
0
i0
i
i0 0
Gleichung mit den Primzahlzerlegungen von m = q1i1 · . . . · qjj und m0 = r11 · . . . · rjj0 ,
ergibt sich:
2i0 0
2i0
2i
pk11 · . . . · pkl l · r1 1 · . . . · rj 0 j = q12i1 · . . . · qj j .
Folglich tritt der Primfaktor p1 auf der linken Seite in ungerader Vielfachheit auf und
auf der rechten Seite in gerader Vielfachheit (unabhängig davon, ob p1 überhaupt in m
oder m0 vorkommt). Das ist aber ein Widerspruch zur eindeutigen Primzahlzerlegung
von natürlichen Zahlen.
Beweise durch Fallunterscheidung
Häufig ist es notwendig, verschiedene Fälle zu analysieren. Das dabei verwendete
logische Prinzip ist Äquivalenz der Aussagen p → q und (p ∧ r → q) ∧ (p ∧ ¬r → q),
wir unterscheiden also die Fälle r und ¬r.
Beispiel: Wir beweisen durch Fallunterscheidung, daß für jede Primzahl p ≥ 5 die
Zahl p2 − 1 durch 24 teilbar ist.
Zuerst formen wir p2 − 1 in (p + 1)(p − 1) um und beobachten, dass von drei aufeinanderfolgenden ganzen Zahlen genau eine durch 3 teilbar ist. Da p > 3 und Primzahl
ist, muss p − 1 oder p + 1 und damit auch p2 − 1 durch 3 teilbar sein. Bleibt zu zeigen,
dass p2 − 1 durch 8 teilbar ist. Da p ungerade ist, sind sowohl p − 1 als auch p + 1
gerade und damit ist p2 − 1 durch 4 teilbar. Den noch fehlenden Faktor 2 kann man
durch Fallunterscheidung nachweisen:
1. Fall: Ist p − 1 durch 4 teilbar, so ist p − 1 = 4k und p + 1 = 4k + 2 = 2(2k + 1)
und damit p2 − 1 = 8k(2k + 1) für eine natürliche Zahl k.
2. Fall: Ist p − 1 nicht durch 4 teilbar, so hat es die Form 4m + 2 = 2(2m + 1) für
eine natürliche Zahl m und folglich ist p + 1 = 4m + 4 = 4(m + 1). Damit erhalten
wir p2 − 1 = 8(2m + 1)(m + 1).
13
2
2.1
Grundbegriffe der Mengenlehre
Mengen und Operationen auf Mengen
Moderne Mengentheorie wird in Form eines axiomatischen Kalküls betrieben. Dieser
Ansatz hat aber den Nachteil, daß einfache inhaltliche Fragen oft durch einen technisch komplizierten Apparat verdeckt werden. Wir werden uns deshalb auf die Entwicklung einer “naiven” Mengenlehre beschränken, die als sprachliches Werkzeug für
die nachfolgenden Teile der Vorlesung völlig ausreichend ist.
Nach Georg Cantor ist eine Menge “eine Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche die Elemente der Menge genannt werden) zu einem Ganzen”.
Der Sachverhalt, dass ein Objekt a Element einer Menge A ist, wird durch a ∈ A
dargestellt, anderenfalls schreibt man a 6∈ A. Zwei Mengen A und B sind gleich,
wenn sie die gleichen Elemente besitzen, d.h. wenn für alle a gilt: a ∈ A dann und
nur dann, wenn a ∈ B.
Darstellungen von Mengen
a) Mengen können durch Auflistung ihrer Elemente in geschweiften Klammern dargestellt werden. Das betrifft insbesondere endliche Mengen, wie z.B. A = {2, 3, 5, 7}
oder B = {rot, gelb, blau}. Dabei ist die Reihenfolge der Elemente in der Auflistung
ohne Bedeutung. Auch die Mehrfachnennung von Elementen ist erlaubt (sollte aber
zur Vermeidung von Missverständnissen möglichst vermieden werden), sie hat aber
nur Einfluss auf die Darstellung der Menge und nicht auf die Menge selbst, z.B.
{2, 3, 5, 7} = {5, 7, 3, 2, 2, 5, 2}.
Wir vereinbaren, dass auch unendliche Mengen durch Auflistung dargestellt werden
können, sofern dies unmissverständlich ist, wie z.B. {0, 1, 2, 3, . . .} für die natürlichen
Zahlen oder {2, 4, 6, 8, . . .} für die positiven, geraden Zahlen.
b) Die in der Mathematik gebräuchlichste Darstellungsform von Mengen beruht auf
dem sogenannten Abstraktionsprinzip, nach dem man Mengen – im Sinne der Cantorschen Definition – durch wohlbestimmte Eigenschaften definieren kann. Dazu werden Prädikate P (x) über einem festgelegten Individuenbereich für x benutzt. Dann
wird mit {x | P (x)} oder (wenn der Bereich B explizit genannt werden soll) mit
{x ∈ B | P (x)} die Menge bezeichnet, die sich aus allen Individuen aus dem Bereich
zusammensetzt, für die P (x) wahr ist. Man bezeichnet diese Darstellungsart von
Mengen nach den Mathematikern Ernst Zermelo und Abraham Fraenkel auch als
ZF-Notation.
c) Zur Veranschaulichung können Mengen durch sogenannte Venn–Diagramme als
Kreisscheiben oder andere Flächen in der Ebene dargestellt werden.
Oft ist es sinnvoll, den zu betrachtenden Individuenbereich generell festzulegen, z.B.
wenn man nur Mengen von natürlichen Zahlen betrachten will. Ein solcher Bereich
wird Universum genannt und allgemein mit U bezeichnet. Es ist klar, dass Aussageformen über U immer Teilmengen von U definieren. Im folgenden Venn-Diagramm
sind zwei Mengen A und B als Kreisflächen in dem durch das Rechteck symbolisierten
14
Universum U dargestellt:
111111111111
000000000000
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
Bemerkung: In manchen Anwendungen (z.B. für die Buchstaben in einem Wort)
benötigt man auch ein Konstrukt, in dem Elemente auch mehrfach auftreten können.
In diesem Fall sprechen wir von einer Multimenge. Obwohl sich diese konzeptionell
wesentlich von einer Menge unterscheidet, wird in der Regel die gleiche Notation
verwendet, was natürlich zu Missverständnissen führen kann. Deshalb werden wir
bei Verwendung von Multimengen diesen Begriff explizit nennen, anderenfalls ist
immer eine Menge gemeint. Demnach sind {b, a, b, b} und {a, b} (ohne Zusatz) zwei
identische Mengen, die Multimengen {b, a, b, b} und {a, b} unterscheiden sich, aber
die Multimengen {b, a, b, b} und {a, b, b, b} sind wiederum identisch.
Definition: Eine Menge A ist Teilmenge (oder Untermenge) einer Menge B (Schreibweise A ⊆ B), wenn aus a ∈ A auch a ∈ B folgt.
Die Teilmengenrelation entspricht also einer Implikation der definierenden Prädikate.
Deshalb kann man aus den Eigenschaften der logischen Implikation zwei elementare
Eigenschaften der Teilmengenrelation ableiten:
• Die Mengen A und B sind gleich genau dann, wenn A ⊆ B und B ⊆ A.
• Ist A eine Teilmenge von B und B eine Teilmenge von C, dann ist auch A eine
Teilmenge von C.
Die folgende Definition enthält eine Zusammenfassung der wichtigsten Mengenoperationen. Man beachte insbesondere den Zusammenhang zu den entsprechenden logischen Operationen.
Definition:
• Zwei Mengen A und B sind disjunkt, wenn sie keine gemeinsamen Elemente
besitzen, d.h wenn aus a ∈ A folgt a 6∈ B.
• Die Vereinigung A ∪ B der Mengen A und B besteht aus allen Objekten, die
Elemente von A oder von B sind, dh. A ∪ B = {x | x ∈ A ∨ x ∈ B}.
• Der Durchschnitt A ∩ B der Mengen A und B besteht aus allen Objekten, die
Elemente von A und von B sind, dh. A ∩ B = {x | x ∈ A ∧ x ∈ B}.
15
• Die Differenz A \ B der Mengen A und B besteht aus allen Objekten, die
Elemente von A, aber nicht von B sind, dh. A \ B = {x | x ∈ A ∧ x 6∈ B}.
• Die Vereingung der Mengendifferenzen A \ B und B \ A wird die symmetrische
Differenz aus A und B genannt und mit A ⊕ B oder auch mit A ÷ B bezeichnet.
• Die Menge, die kein Element enthält, wird leere Menge genannt und mit ∅
bezeichnet.
• Ist A Teilmenge eines festgelegten Universums U , dann ist das Komplement von
A definiert als U \ A. Es wird mit A bezeichnet.
Der Zusammenhang zwischen Teilmengenbeziehungen sowie Operationen auf Mengen
und den entsprechenden logischen Operationen wird noch einmal in der folgenden
Tabelle zusammengefasst:
Mengenlehre
Logik
Gleichheit
A=B
x∈A↔x∈B
Inklusion
A⊆B
x∈A→x∈B
Vereinigung
A∪B
x∈A∨x∈B
Durchschnitt
A∩B
x∈A→x∈B
Komplement
A=B
x ∈ A ↔ ¬(x ∈ B)
symmetr. Differenz A ⊕ B = A ÷ B
x∈A⊕x∈B
Äquivalenz
Implikation
Disjunktion
Konjunktion
Negation
Antivalenz
Damit können auch - wie im nachfolgenden Satz formuliert - die bekannten Gesetze
der Aussagenlogik in die Mengenlehre übertragen werden.
Satz: Folgende Identitäten gelten für alle Untermengen A, B, C eines Universums U :
Kommutativität:
Assoziativität:
Distributivität:
Idempotenz:
Dominanz:
Identität:
Absorbtion:
De Morgan’sche Regel:
Komplementierung:
A∪B =B∪A
A ∪ (B ∪ C)
und A ∩ (B ∩ C)
A ∩ (B ∪ C)
und A ∪ (B ∩ C)
A∪A=A
A∪U =U
A∪∅=A
A ∪ (A ∩ B) = A
A∪B =A∩B
A∪A=U
(A) = A
und
=
=
=
=
und
und
und
und
und
und
und
A∩B =B∩A
(A ∪ B) ∪ C
(A ∩ B) ∩ C
(A ∩ B) ∪ (A ∩ C)
(A ∪ B) ∩ (A ∪ C)
A∩A=A
A∩∅=∅
A∩U =A
A ∩ (A ∪ B) = A
A ∩ B = Ā ∪ B̄
A∩A=∅
A\B =A∩B
Auf Grund der Assoziativität kann man bei der Vereinigung (bzw. beim Durchschnitt) von n Mengen A1 , A2 , . . . , An auf Klammerungen verzichten und die folgende
16
Schreibweise nutzen:
S
A1 ∪ A2 ∪ . . . ∪ An = Tni=1 Ai
n
A1 ∩ A2 ∩ . . . ∩ An =
i=1 Ai
Die Bildung einer solchen Vereinigung bzw. eines solchen Duchschnitts erfolgt somit
(in Analogie zu endlichen Summen oder Produkten von n Zahlen) durch die (n −
1)-fache Anwendung der einfachen Vereinigungs- bzw. Durchschnittsoperation. Im
Gegensatz zu den Zahlen kann man aber für Mengen auch uneingeschränkt unendliche
Vereinigungen und Durchschnitte bilden.
Definition: Ist I eine beliebige Menge und ist für jedes i ∈ I eine Menge Ai gegeben,
dann nennen wir die Multimenge dieser Mengen eine Mengenfamilie und bezeichnen
sie durch {Ai | i ∈ I}. Die Vereinigung (bzw. der Durchschnitt) dieser Mengenfamilie
ist definiert durch
S
i∈I Ai = {x | es gibt ein i ∈ I, so dass x ∈ Ai }
T
i∈I
Ai = {x | für alle i ∈ I gilt x ∈ Ai }
Beispiel: Sei I = {2, 3, 4, . . .} die Menge der natürlichen Zahlen, die größer oder
gleich 2 sind und sei Ai = {n ∈ N | i|n} die Menge der durch i teilbaren Zahlen für
jedes i ∈ I. Dann ergibt sich
[
\
Ai = {0, 2, 3, . . .} = N \ {1} und
Ai = {0}.
i∈I
i∈I
Zur Begründung betrachten wir jeweils drei Fälle. Da die 0 durch jede andere Zahl
teilbar ist, liegt sie in jedem Ai und somit auch in der Vereinigung und im Durchschnitt. Die 1 ist durch keine andere Zahl teilbar, gehört also zu keinem Ai und liegt
somit weder im Durchschnitt noch in der Vereingung. Da für jedes i ∈ I gilt i ∈ Ai
und i 6∈ A2i gilt, gehört i zur Vereinigung, aber nicht zum Durchschnitt.
Bemerkung: Für die Vereinigung und den Durchschnitt ist es unerheblich, ob wir die
Mengenfamilie als Multimenge oder als Menge auffassen, für andere Betrachtungen
könnte dieser Unterschied aber durchaus bedeutsam sein.
Definition: Eine Familie {Ai | i ∈ I} von nichtleeren Mengen wird Partition oder
Zerlegung einer Menge A genannt, falls
S
1. A = i∈I Ai
2. Für beliebige, voneinander verschiedene i, j ∈ I gilt Ai ∩ Aj = ∅.
Beispiele: {{a, c}, {b, e, f }, {d}} ist eine Partition der Menge {a, b, c, d, e, f } in drei
Teilmengen. Die Menge der geraden und die Menge der ungeraden Zahlen bilden eine
Partition der Menge N in zwei Teilmengen.
Definition: Ist A eine Menge, dann wird die Menge aller Untermengen von A die
Potenzmenge von A genannt und mit P(A) bezeichnet.
Satz: Ist A eine endliche, n-elementige Menge, dann hat die Potenzmenge P(A)
genau 2n Elemente.
17
2.2
Kartesisches Produkt und Relationen
Definition: Ein geordnetes Paar (a, b) ist eine (den Objekten a und b zugeordnetes)
Konstrukt mit der folgenden Eigenschaft: (a, b) = (a0 , b0 ) genau dann, wenn a = a0
und b = b0 .
Definition: Das kartesische Produkt A × B von zwei Mengen A und B ist definiert
als die Menge aller geordneten Paare (a, b) mit a ∈ A und b ∈ B, als Formel:
A × B = { (a, b) | a ∈ A ∧ b ∈ B }
Beispiel: {a, b, c} × {1, 2} = {(a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2)}.
Definition: Eine Untermenge R eines kartesischen Produkts A×B wird binäre Relation oder kurz Relation zwischen A und B genannt. Im Fall (a, b) ∈ R sagt man, dass
a in Relation zu b steht. Für (a, b) ∈ R kann auch a R b geschrieben werden. Diese
alternative Notation wird vor allem dann verwendet, wenn der Relationsbezeichner
kein Buchstabe sondern ein Relationssymbol wie <, ≤, ≡ oder ∼ ist.
Eine Untermenge R eines kartesischen Produkts der Form A × A wird (binäre) Relation auf A (oder über A) genannt.
Die ersten drei Relationen in den folgenden Beispielen sind generisch, d.h. man kann
sie über beliebigen Grundmengen betrachten:
• ∅ ⊆ A × B wird leere Relation genannt.
• A × B wird Allrelation zwischen A und B genannt.
• Die Menge {(a, a) | a ∈ A} wird die identische Relation über A genannt und
kurz mit IdA bezeichnet.
• Die Teilbarkeitsrelation | kann man als Relation über den natürlichen Zahlen
(aber auch über den ganzen Zahlen) betrachten. Wie bereits besprochen, ist
diese Relation wie folgt definiert:
∀ a, b ∈ N
a|b
⇐⇒
∃c ∈ N b = a · c
• Über den natürlichen Zahlen N, den ganzen Zahlen Z, den rationalen Zahlen
Q und den reellen Zahlen R kennen wir eine Reihe von Vergleichsrelationen,
nämlich <, ≤, ≥, >.
• Ist A die Menge aller Informatikstudenten an der FU Berlin und B die Menge
aller Pflichtmodule im Informatikstudium, dann ist
R = {(a, b) ∈ A × B | Student a hat das Modul b abgeschlossen } eine binäre
Relation.
• Jede Abbildung f : A −→ B kann auch als binäre Relation
f = {(a, b) ∈ A × B | a ∈ A ∧ b = f (a)} gesehen werden.
18
Zur Darstellung von Relationen sind verschiedene Methoden gebräuchlich:
• Darstellungen in Tabellenform, bei denen für jedes a ∈ A eine Spalte und für
jedes b ∈ B eine Zeile angelegt wird. Die Zelle in der Spalte von a und der
Zeile von b wird mit einer 1 gefüllt, wenn a R b gilt, und sonst mit einer 0.
(Verwendung in relationalen Datenbanken);
• Anschauliche Darstellungen durch Diagramme in einem Rechteck;
• Bipartite Graphen, bei denen die Elemente aus A und B als Knoten getrennt auf
zwei Seiten gezeichnet werden, wobei zwei Elemente, die zueinander in Relation
stehen, durch eine Kante (Verbindungsstrecke) verbunden werden.
• Für Relationen über einer Menge A kann man gerichtete Graphen verwenden.
Dabei wird jedes Element von A als ein Knoten und jedes Paar (a, b) ∈ R durch
eine von a nach b gerichtete Kante gezeichnet.
Relationsoperationen
1. Sind R und R0 Relationen zwischen A und B, dann sind auch die Vereinigung
R ∪ R0 , der Durchschnitt R ∩ R0 sowie das Komplement R = (A × B) \ R
Relationen zwischen A und B.
2. Die zu einer Relation R ⊆ A × B inverse Relation R−1 ⊆ B × A ist definiert
durch R−1 = {(b, a) ∈ B × A | (a, b) ∈ R}.
3. Die Verkettung oder Komposition R ◦ S von zwei Relationen R ⊆ A × B und
S ⊆ B × C ist definiert durch
{(a, c) ∈ A × C | es gibt ein b ∈ B mit (a, b) ∈ R und (b, c) ∈ S}.
Beispiele:
1) Wir betrachten die Vergleichsrelationen <, ≤, ≥ und = über den natürlichen
Zahlen N. Offensichtlich ist die Vereinigung der Relationen < und = die Relation ≤.
Das Komplement der Relation < ist die Relation ≥. Der Durchschnitt der Relationen
≤ und ≥ ist die identische Relation IdN . Die zu ≤ inverse Relation ist ≥, die identische
Relation ist zu sich selbst invers.
2) Sei M die Menge aller Menschen und R ⊆ M × M “Elternrelation”, also a R b,
falls a Vater oder Mutter von b ist. Dann kann man die inverse Relation R−1 sowie
die Verkettungen R ◦ R, R ◦ R−1 und R−1 ◦ R wie folgt charakterisieren:
• a R−1 b, falls a Kind von b ist,
• a R ◦ R b, falls a Großvater oder Großmutter von b ist,
• a R ◦ R−1 b, falls a und b ein gemeinsames Kind haben oder falls a = b und a
hat ein Kind,
19
• a R−1 ◦ R b, falls a = b oder falls a und b Geschwister oder Halbgeschwister sind.
Eigenschaften von Relationen über Mengen
Definition: Sei R eine Relation über A.
• R ist reflexiv, falls für jedes a ∈ A gilt, dass a R a, d.h. IdA ⊆ R.
• R ist symmetrisch, falls aus a R b folgt, dass b R a , d.h. R−1 ⊆ R.
• R ist transitiv, falls aus a R b und b R c folgt, dass a R c, d.h. R ◦ R ⊆ R.
• R ist antisymmetrisch, falls aus a R b und b R a die Gleichheit von a und b folgt,
d.h. R ∩ R−1 ⊆ IdA .
• R ist asymmetrisch, falls aus a R b folgt, dass (b, a) 6∈ R, d.h. R ∩ R−1 = ∅.
Beispiele:
1) Die Vergleichsrelationen ≤ und ≥ sind über N, Z, Q und R reflexiv, transitiv und
antisymmetrisch. Die Relationen < und > sind nicht reflexiv, aber transitiv, antisymmetrisch und asymmetrisch.
2) Die oben definierte Teilbarkeitsrelation ist reflexiv und transitiv über N und über Z.
Sie ist antisymmetrisch über N, aber als Relation über Z ist sie nicht antisymmetrisch,
denn 1| − 1 und −1|1, aber 1 6= −1.
2.3
Äquivalenzrelationen
Definition: Eine Relation über einer Menge A wird Äquivalenzrelation genannt,
wenn sie reflexiv, symmetrisch und transitiv ist.
Beispiele:
• Sei N die Menge der natürlichen Zahlen und R definiert durch a R b, genau dann
wenn a und b beim Teilen durch 5 den gleichen Rest haben. Dann ist R eine
Äquivalenzrelationüber N.
• Die Relation ≡ der logischen Äquivalenz über der Menge der Booleschen Formeln
ist eine Äquivalenzrelation.
• Sei M die Menge aller Menschen und R die Relation, die zwei Menschen in
Beziehung setzt, wenn sie denselben Vater und dieselbe Mutter haben. Diese
Geschwisterrelation ist offensichtlich eine Äquivalenzrelation. Die HalbgeschwisterRelation ist im Allgemeinen nicht transitiv und somit keine Äquivalenzrelation.
20
Definition: Ist R ⊆ A × A eine Äquivalenzrelation und ist a ∈ A, dann nennt man
die Menge {x ∈ A | xRa} die Äquivalenzklasse von a (bezüglich R). Sie wird mit [a]R
oder auch mit a/R bezeichnet. Ein Element einer Äquivalenzklasse wird Repräsentant
dieser Klasse genannt.
Lemma: Sei R eine Äquivalenzrelation, dann sind zwei Äquivalenzklassen [a]R und
[b]R entweder gleich oder disjunkt. Sie sind genau dann gleich, wenn a R b gilt.
Beweis: Wir verifizieren dazu die folgende Schlusskette:
[a]R ∩ [b]R 6= ∅
(1)
=⇒
aRb
(2)
=⇒
[a]R = [b]R
(1) Sei c ∈ [a]R ∩ [b]R , dann gilt cRa und cRb, wegen der Symmetrie auch aRc und
wegen der Transitivität auch aRb.
(2) Sei d ein beliebiges Element aus [a]R und gelte aRb. Dann gilt dRa und wegen
der Transitivität auch dRb. Damit liegt d in der Äquivalenzklasse[b]R und folglich
ist [a]R ⊆ [b]R . Wegen der Symmetrie kann man aber auch die Rollen von a und b
vertauschen und somit [b]R ⊆ [a]R ableiten, woraus letztlich die Gleichheit der beiden
Äquivalenzklassen folgt.
Die erste Aussage des folgenden Satzes kann als einfache Schlussfolgerung aus dem
Lemma abgeleitet werden.
Satz: Ist R ⊆ A × A eine Äquivalenzrelation, dann bildet die Menge aller Äquivalenzklassen eine Partition von A. Umgekehrt, ist eine Partition {Ai | i ∈ I} von A
gegeben, dann ist die durch
a R b ⇐⇒ ∃i ∈ I
a ∈ Ai ∧ b ∈ Ai
definierte Relation R eine Äquivalenzrelation.
Definition: Sei R ⊆ A × A eine Äquivalenzrelation. Eine Untermenge von A wird
Repräsentantensystem von R genannt, wenn sie aus jeder Äquivalenzklasse genau ein
Element enthält.
Beispiel: Wir verallgemeinern das Beispiel der Relation, die durch gleiche Reste beim
Teilen durch 5 definiert ist, indem wir an Stelle der 5 einen beliebigen ganzzahligen
Teiler d ≥ 2 betrachten. Man nennt zwei Zahlen a, b ∈ N kongruent modulo d, wenn
sie beim Teilen durch d den gleichen Rest haben (Kongruenzrelationen sind spezielle
Äquivalenzrelationen, die verträglich mit bestimmten Operationen sind, in diesem
Fall mit Addition und Multiplikation). Zur Notation verwendet man a mod d für
den Rest beim Teilen von a durch d und den Ausdruck a ≡ b ( mod d) für
die Tatsache, dass a und b beim Teilen durch d den gleichen Rest haben, also dass
a mod d und b mod d gleich sind.
Bei der Kongruenzrelation modulo d werden die einzelnen Äquivalenzklassenjeweils
durch die Zahlen mit gleichem Rest gebildet, was im Beispiel d = 5 zu der folgenden
Partition von N führt:
{{0, 5, 10 . . .}, {1, 6, 11, . . .}, {2, 7, 12, . . .}, {3, 8, 13, . . .}, {4, 9, 14, . . .}}
21
Offensichtlich bilden die Reste {0,1,2,3,4} ein Repräsentantensystem (das sogenannte
Standard–Repräsentantensystem), aber auch die Menge {3, 10, 7, 21, 9} ist ein Repräsentantensystem.
Satz: Die identische Relation IdA und die Allrelation A × A sind Äquivalenzrelationen. Sind R und R0 Äquivalenzrelationen in A, dann ist auch R ∩ R0 eine Äquivalenzrelation in A.
Achtung: Die letzte Aussage gilt im Allgemeinen nicht für Vereinigungen. Als
Gegenbeispiel kann man die Kongruenzrelationen modulo 2 und modulo 3 betrachten.
Offensichtlich ist das Paar (1, 6) nicht in der Vereinigung, denn 1 und 6 haben sowohl
beim Teilen durch 2 als auch beim Teilen durch 3 verschiedene Reste. Andererseits
sind die Paare (1, 4) - gleicher Rest beim Teilen durch 3 - und (4, 6) - gleicher Rest
beim Teilen durch 2 - in der Relationsvereinigung. Folglich ist diese Vereinigung nicht
transitiv.
Allgemein kann jede Relation R ⊆ A × A durch die folgenden 3 Schritte zu einer
Äquivalenzrelation erweitert werden:
1) reflexiver Abschluss:
Rr = R ∪ IdA
2) symmetr. Abschluss: Rrs = Rr ∪ Rr−1 = R ∪ R−1 ∪ IdA
S
i
3) transitiver Abschluss: Rrst = Rrs ∪ Rrs ◦ Rrs ∪ Rrs ◦ Rrs ◦ Rrs ∪ . . . = ∞
i=1 Rrs
i
wobei Rrs
die i-fache Verkettung von Rrs ist.
Beispiel: Der reflexiv–symmetrisch–transitive Abschluss der Nachfolgerrelation auf
den natürlichen Zahlen ist die Allrelation. Setzt die Relation R jede natürliche Zahl
n zum Nachfolger ihres Nachfolgers, also zu n + 2 in Beziehung, dann ist der reflexiv–
symmetrisch–transitive Abschluss dieser Relation die Kongruenz modulo 2.
2.4
Ordnungsrelationen
Definition: Eine Relation R über einer Menge A, die reflexiv, transitiv und antisymmetrisch ist, wird Halbordnungsrelation oder auch partielle Ordnungsrelation
genannt. Das Paar (A, R) nennt man eine halb– (partiell) geordnete Menge oder kurz
poset als Abkürzung für partially ordered set.
Endliche, halbgeordnete Mengen werden oft durch sogenannte Hasse–Diagramme
dargestellt. Dabei werden die Elemente der Menge als Punkte in der Ebene gezeichnet, wobei direkte Nachfolger jeweils höher als ihre Vorgänger liegen und mit ihnen
durch ein Liniensegment verbunden sind. Formal betrachtet beschreibt das Hasse–
Diagramm eines Posets (A, R) die kleinste Unterrelation von R, deren reflexiver und
transitiver Abschluss R ergibt. Die folgende Abbildung zeigt das Hasse–Diagramm
der Potenzmenge einer 3–elementigen Menge M = {a, b, c}:
22
{a,b,c}
{a,b}
{a,c}
{b,c}
{a}
{b}
{c}
Beispiele:
1) Für jede beliebige Menge M ist (P(M ), ⊆) eine halbgeordnete Menge.
2) Die Teilbarkeitsrelation | ist eine Halbordnungsrelation in der Menge der positiven
ganzen Zahlen Z+ .
3) In der Menge der reellen Zahlen R ist die Relation ≤ eine Halbordnungsrelation.
4) Die Menge der Wörter einer Sprache wird durch die “lexikographische Ordnung”
geordnet.
Zwei Begriffe sind eng verwandt mit partiellen Ordnungsrelationen: totale Ordnungsrelationen und strikte (oder strenge) Ordnungsrelationen. Diese Begriffe werden
durch die folgenden Definitionen genauer erläutert.
Definition: Zwei Elemente a und b einer halbgeordneten Menge (A, R) nennt man
vergleichbar, falls a R b oder b R a gilt. Anderenfalls nennt man sie unvergleichbar.
Eine Halbordnungsrelation R in einer Menge A wird totale (oder auch lineare) Ordnungsrelation genannt, wenn jedes Paar von Elementen vergleichbar ist.
Beispiele: In den obigen Beispielen sind die Relationen aus 1) und 2) keine totalen
Ordnungsrelationen. So sind für M = {a, b, c} die Untermengen {a} und {c} unvergleichbar bezüglich der Teilmengenrelation. Die Zahlen 6 und 20 sind unvergleichbar
bezüglich der Teilbarkeitsrelation. Dagegen ist ≤ eine totale Ordnungsrelation für
die reellen Zahlen. Die lexikographische Ordnung ist eine totale Ordnungsrelation.
Bemerkung: Taucht in der Literatur der Begriff “Ordnungsrelation” auf, so ist
darunter in der Regel eine “Halbordnungsrelation” zu verstehen.
Definition: Eine Relation R über einer Menge A wird strikte oder strenge Ordnungsrelation genannt, wenn sie transitiv und asymmetrisch ist.
Typische Beispiele für strikte Ordnungsrelationen sind die “echt–kleiner”–Relation
< oder die Relation, ein echter Teiler zu sein. Generell kann man aus jeder Halbordnungsrelation R über einer Menge A eine strikte Ordnungsrelation R0 = R \ IdA
ableiten und umgekehrt kann aus jeder strikten Ordnungsrelation durch Vereinigung
mit IdA eine Halbordnungsrelation gemacht werden.
Weitere Begriffe, die wie das Maximum und Minimum aus der Schulmathematik
23
bekannt sind, müssen im Kontext mit Halbordnungsrelationen noch einmal neu definiert werden.
Definition: Sei (A, ≺) ein Poset, B 6= ∅ eine Teilmenge von A und a ∈ A.
• a ist eine obere (bzw. untere) Schranke von B, wenn b ≺ a (bzw. a ≺ b) für alle
b ∈ B gilt.
• a ist ein maximales (bzw. minimales) Element von B, wenn a ∈ B und es kein
von a verschiedenes b ∈ B gibt, so dass a ≺ b (bzw. b ≺ a).
• a wird größtes Element von B (bzw. kleinstes Element von B) genannt, wenn
a ∈ B und a eine obere (bzw. untere) Schranke von B ist.
• a wird Supremum oder obere Grenze von B (bzw. Infimum oder untere Grenze
von B) genannt, wenn die Menge O(B) der oberen Schranken von B (bzw. die
Menge U (B) der unteren Schranken von B) nicht leer ist und a das kleinste
Element von O(B) (bzw. das größte Element von U (B)) ist.
Bemerkungen zur Definition:
• Eine Teilmenge B kann mehrere maximale bzw. mehrere minimale Elemente
haben. Ist B endlich, dann gibt es mindestens ein maximales und ein minimales
Element von B.Dagegen gibt es einfache Beispiele von endlichen Mengen, für
die es keine obere und untere Schranken und somit auch weder größte oder
kleinste Elemente noch obere oder untere Grenzen gibt.
• Existiert ein größtes (bzw. kleinstes) Element von B, dann ist es eindeutig.
Somit ist auch die obere bzw. untere Grenze von B eindeutig sofern sie überhaupt
existiert.
• Etwas verwirrend ist die Konvention, das größte (bzw. kleinste) Element von
B, sofern es existiert, als Maximum (bzw. Minimum von B zu bezeichnen. Es
gilt der Merksatz, dass das Maximum (wenn existent) immer ein maximales
Element ist, aber nicht die Umkehrung.
• Da Maximum, Minimum, Supremum oder Infimum einer Teilmenge B bei Existenz immer eindeutig sind, kann man für sie die Bezeichnungen max(B),
min(B), sup(B),inf (B) einführen. Diese stehen dann entweder für ein eindeutig existierendes Element oder für nicht existierend.
Beobachtung: Wenn für eine Teilmenge B einer Halbordnung (A, ≺) das Maximum
(bzw. Minumum) existiert, dann existiert auch das Supremum (bzw. das Infimum)
und es gilt sup(B) = max(B) (bzw. inf (B) = min(B)).
Beweis: Sei a das Maximum von B, dann gilt (i) a ∈ B und (ii) ist a obere
Schranke von B, d.h. b ≺ a für alle b ∈ B. Man muss zeigen, dass a in der Menge
der oberen Schranken O(B), das kleinste Element ist. Nach Definition muss also a
Element und untere Schranke von O(B) sein. Die erste Eigenschaft ist bereits durch
24
die Voraussetzung (ii) gegeben. Für die zweite Eigenschaft müssen wir a ≺ c für
alle c ∈ O(B) nachweisen. Aus c ∈ O(B) folgt aber b ≺ c für alle b ∈ B, also auch
insbesondere für b = a. Somit ist a auch das Supremum von B.
Beispiel: Wir betrachten die durch nachfolgendes Hasse-Diagramm dargestellte Halbordnung (A, ≺) mit den Teilmengen B = {d, e} und C = {f, g, h}:
h
g
f
d
e
a
b
c
• Die Gesamtmenge A hat ein maximales Element, nämlich h und drei minimale
Elemente, nämlich a, b und c. Damit is h auch das Maximum und Supremum
von A, Minimum und Infimum existieren nicht.
• B hat zwei obere Schranken, nämlich f und h und zwei untere Schranken,
nämlich a und b.
• Sowohl d als auch e sind maximale und minimale Elemente von B.
• B hat weder ein Maximum noch ein Minimum noch ein Infimum, aber ein
Supremum sup(B) = f .
• C hat eine obere Schranke, nämlich h und vier untere Schranken, nämlich a, b, c
und e.
• C besitzt ein maximales Element, nämlich h, und die minimalen Elemente f
und g.
• C hat kein Minimum, aber inf (C) = e und sup(C) = max(C) = h.
2.5
Funktionen
Definition: Unter einer Funktion (oder Abbildung) f von einer Menge A in eine
Menge B versteht man eine Zuordnung, bei der jedem Element aus A ein eindeutig
bestimmtes Element aus B entspricht. Formal kann f als eine Relation zwischen A
und B charakterisiert werden, so dass für jedes a ∈ A genau ein b ∈ B existiert
mit a f b. Als übliche Schreibweise verwenden wir f : A −→ B um auszudrücken,
25
dass f eine Funktion von A nach B ist, und f (a) = b, um auszudrücken, dass dem
Element a durch die Funktion f der Wert b zugeordnet wird. Die Menge A wird
Definitionsbereich von f und die Menge B wird Wertebereich oder Wertevorrat von
f genannt.
Anmerkung: Die hier verwendete Definition von Funktionen ist die in der Mathematik übliche Form. In der Informatik spielen oft auch sogenannte partielle Funktionen
eine Rolle. Das sind Relationen zwischen A und B, so dass jedes a ∈ A zu höchstens
einem b ∈ B in Beziehung steht. Im Sinne der oben gegebenen Definition ist also
eine partielle Funktion nicht ein Spezialfall einer Funktion, sondern im Allgemeinen
gar keine Funktion, aber eine Funktion ist auch immer eine partielle Funktion.
Definition: Ist f : A −→ B eine Funktion, M ⊆ A und N ⊆ B, dann nennt man
die Menge
f (M ) = {y ∈ B | es gibt ein x ∈ M mit f (x) = y} das Bild von M unter f
und die Menge
f −1 (N ) = {x ∈ A | f (x) ∈ N } das vollständige Urbild von N unter f .
Definition:
• Eine Funktion f : A −→ B heißt surjektiv, falls jedes Element von B im Bild
von A auftritt, d.h. f (A) = B. Man kann sagt dann auch, dass f die Menge A
auf die Menge B abbildet.
• Eine Funktion f : A −→ B heißt injektiv oder eineindeutig, falls je zwei verschiedene Elemente aus A auch verschiedene Bilder haben, d.h. wenn aus
f (a) = f (a0 ) die Gleichheit von a und a0 folgt.
• Eine Funktion wird bijektiv genannt, wenn sie injektiv und surjektiv ist.
Beispiel: Wir betrachten die bekannte Sinusfunktion. Als Funktion von den reellen
Zahlen in die reellen Zahlen ist sin : R −→ R weder injektiv noch surjektiv.
Durch Einschränkungen von Definitions– und/oder Wertebereich kann man diese
Eigenschaften erzwingen:
• sin : R −→ [−1, 1] ist surjektiv, aber nicht injektiv
• sin : [− π2 , π2 ] −→ R ist injektiv, aber nicht surjektiv
• sin : [− π2 , π2 ] −→ [−1, 1] ist bijektiv.
Betrachtet man eine Funktion f : A −→ B als Relation, dann ist die zu f inverse
Relation f −1 genau dann eine Funktion, wenn f bijektiv ist. In diesem Fall wird f −1
die zu f inverse Funktion genannt.
Definition: Sind f : A −→ B und g : B −→ C Funktionen, dann ist die Relationsverkettung f ◦ g eine Funktion von A in C. Sie wird Verknüpfung oder Komposition von f und g genannt und durch gf : A −→ C bezeichnet, wobei gf (a) = g(f (a))
26
gilt. Man beachte, dass Relationsverkettungen von links nach rechts und Funktionsverknüpfungen von rechts nach links geschrieben werden.
Satz: Die folgenden Fakten ergeben sich als einfache Schlussfolgerungen aus den
Definitionen. Seien f : A −→ B und g : B −→ C zwei Funktionen, dann gilt:
• Ist f bijektiv, dann ist f −1 f = IdA und f f −1 = IdB
• f ist genau dann injektiv, wenn eine Funktion h : B −→ A existiert mit
hf = IdA .
• f ist genau dann surjektiv, wenn eine Funktion h : B −→ A existiert mit
f h = IdB .
• Sind f und g injektiv, dann ist auch gf injektiv.
• Sind f und g surjektiv, dann ist auch gf surjektiv.
• Sind f und g bijektiv, dann ist auch gf bijektiv und es gilt (gf )−1 = f −1 g −1 .
Beispiel 1: Die folgende Abbildung illustriert den zweiten Fakt. Die links dargestellte Funktion f : A −→ B ist injektiv. Zur Konstruktion der Funktion h : B −→
A bilden wir alle Elemente b aus dem Bild f (A) auf das eindeutige Element aus
dem Urbild f −1 ({b}) ab (die Eindeutigkeit folgt aus der Injektivität von f , in der
graphischen Darstellung bedeutet das einfach die Umkehrung der Pfeile). Zusätzlich
fixieren wir ein beliebiges Element a ∈ A und bilden alle Elemente aus B \ f (A) auf
a ab (gestrichelte Pfeile in der Mitte). Die Komposition hf ist dann die Identische
Abbildung auf A (rechts).
a
f
A
h
B
hf
B
A
A
A
Beispiel 2: Bezeichne R die Menge der reellen Zahlen und R≥0 die Menge der nicht
negativen reellen Zahlen. Dann ist die Funktion f (x) = x2 eine surjektive Funktion
von R auf R≥0 . Wir suchen eine passende Funktion h : R≥0 −→ R, so dass f h = idR≥0 ,
d.h. h muss jedes y ∈ R≥0 auf eine Zahl x abbilden, deren Quadrat wieder y ist.
Diese Eigenschaft wird offensichtlich durch die Quadratwurzelfunktion erfüllt, d.h.
√
√
h(y) = y wäre eine geeignete Wahl, aber auch die Funktion h(y) = − y hat die
geforderte Eigenschaft.
Satz: Jede Funktion f : A −→ B induziert eine Äquivalenzrelation ∼f über A durch
a ∼f b genau dann, wenn f (a) = f (b).
Diese Äquivalenzrelation wird auch die Faserung von A durch f genannt.
27
2.6
Natürliche Zahlen, Endlichkeit und Kardinalzahlen
Peano-Axiome Alle aus der Schulmathematik bekannten Aussagen über natürliche
Zahlen können aus einigen wenigen Grundannahmen abgeleitet werden. Diese grundlegenden Voraussetzungen für die Existenz der natürlichen Zahlen (und letzlich Grundlagen der gesamten Zahlentheorie) gehen auf Richard Dedekind und Giuseppe Peano
zurück und sind als die Peano-Axiome bekannt:
1. 0 ist eine natürliche Zahl.
2. Jede natürliche Zahl n hat einen eindeutigen Nachfolger S(n), der auch eine
natürliche Zahl ist.
3. Aus S(n) = S(m) folgt n = m.
4. 0 ist kein Nachfolger einer natürlichen Zahl.
5. Jede Menge X, die 0 enthält und für die gilt, dass aus n ∈ X auch S(n) ∈ X
folgt, enthält alle natürlichen Zahlen.
Achtung: Wir schreiben für den Nachfolger S(n) auch n+1, aber das ist als symbolische Schreibweise und nicht als Anwendung der Operation Addition zu verstehen. Im
Gegenteil - man kann die Addition durch Anwendung der Nachfolgerfunktion rekursiv
definieren.
Konsequenz 1: Man kann Funktionen f : N −→ A definieren, indem man f (0) festlegt und f (S(n)) auf f (n) zurückführt. Dieses Prinzip der Definition von Funktionen
nennt man Rekursion.
Konsequenz 2: Man kann allgemeine Aussagen über natürliche Zahlen nach dem folgenden Schema beweisen. Eine Aussageform P (x) über dem Bereich der natürlichen
Zahlen ist wahr für alle natürlichen Zahlen, wenn sie die folgenden zwei Bedingungen
erfüllt:
1. P (0) ist wahr.
2. Für beliebige n ∈ N gilt: Ist P (n) wahr, dann ist auch P (n + 1) wahr.
Dieses Beweisprinzip nennt man vollständige Induktion.
Die beide Themen in der Vorlesung Informatik A ausführlich behandelt wurden,
verzichten wir hier auf weitere Einzelheiten und auf Beispiele.
Endliche Mengen und Kardinalzahlen
Definition: Zwei Mengen A und B werden gleichmächtig genannt, wenn eine bijektive Funktion f : A −→ B existiert.
In diesem Sinne bedeutet eine Abzählung einer endlichen (n-elementigen) Menge
M , dass eine Bijektion zwischen der Menge {1, 2, . . . , n} und M (oder zwischen
28
{0, 1, . . . , n−1} und M ) konstruiert wird. Problematisch ist dabei, dass die Beschreibung von {1, 2, . . . , n} (oder {0, 1, . . . , n−1}) genau gesehen eine rekursive Definition
ist. John von Neumann löste dieses Problem durch eine spezielle Konstruktion der
natürlichen Zahlen.
Definition: Die natürlichen Zahlen in Sinne von von Neumann bilden die kleinste
Menge mit den folgenden zwei Eigenschaften:
1) 0 = ∅ ∈ N
2) Ist n ∈ N, dann ist auch der Nachfolger S(n) := n ∪ {n} in N.
Damit erhalten wir die folgende Darstellung der natürlichen Zahlen:
0 = ∅,
1 = {∅} = {0},
2 = {∅, {∅}} = {0, 1},
3 = {∅, {∅}, {∅, {∅}}} = {0, 1, 2}
......
Jede natürliche Zahl ist nach dieser Konstruktion durch die Anzahl ihrer Elemente
bestimmt.
Definition: Eine Menge A wird endlich genannt, wenn es eine von Neumannsche
natürliche Zahl n gibt, so dass A und n gleichmächtig sind. In diesem Fall wird n die
Kardinalzahl von A genannt (Schreibweise |A| = n). Zwei endliche Mengen sind also
gleichmächtig, wenn die Anzahlen ihrer Elemente gleich sind.
Satz: Sind A, B und M endliche Mengen, dann gelten die folgenden Aussagen über
ihre Mächtigkeiten:
1. |A \ B| = |A| − |A ∩ B|
2. |A ∪ B| = |A| + |B| − |A ∩ B|
3. |A × B| = |A| · |B|
4. |P(M )| = 2|M |
Anmerkungen zu diesen Punkten 1) Die Summenregel ist eine Grundregel der
Kombinatorik, die besagt, dass die Größe der Vereinigung von zwei disjunkten endlichen
Mengen A und B sich als Summe aus |A| und |B| ergibt. Diese Regel ist als Spezialfall
in der ersten und zweiten Aussage enthalten.
2) Die Verallgemeinerung der zweiten Aussage für drei und mehr Mengen führt zum
sogenannten Prinzip der Inklusion–Exklusion:
|A ∪ B ∪ C| = |A| + |B| + |C| − (|A ∩ B| + |A ∩ C| + |B ∩ C|) + |A ∩ B ∩ C|
|
k
S
i=1
Ai | =
P
|Ai | − (
1≤i≤k
... + ...
P
|Ai1 ∩ Ai2 |) + (
1≤i1 <i2 ≤k
P
1≤i1 <i2 <i3 ≤k
+ (−1)k+1 |
k
T
i=1
29
Ai |
|Ai1 ∩ Ai2 ∩ Ai3 |)−
3) Die dritte Aussage ist auch eine Grundregel der Kombinatorik und wird Produktregel genannt.
4) Wie man leicht sieht, gibt es eine bijektive Abbildung von P(M ) auf die Menge der
Funktionen von M nach {0, 1}. Dabei wird jedem A ∈ P(M ) die charakteristische
Funktion χA : M −→ {0, 1} zugeordnet, welche jedes x ∈ A auf 1 abbildet und für
alle x 6∈ A den Wert 0 hat. Bezeichnet man für zwei Mengen N und M mit N M die
Menge aller Funktionen von M nach N , dann kann die oben beschriebene Bijektion
auch wie folgt gelesen werden:
P(M ) ist gleichmächtig mit {0, 1}M (also mit 2M , da 2 = {0, 1} im Sinne der von
Neumannschen natürlichen Zahlen).
Aus dieser Sicht kann man die vierte Aussage wie folgt verallgemeinern: Sind N und
M zwei beliebige endliche Mengen, dann ist die Anzahl der Funktionen von M in N
gleich |N ||M | , also |N M | = |N ||M | .
Abzählbarkeit
Definition: Eine Menge A, die nicht endlich ist, wird unendlich genannt (Schreibweise |A| = ∞).
Eine Menge A wird abzählbar genannt, wenn sie endlich ist oder wenn sie mit der
Menge der natürlichen Zahlen N gleichmächtig ist.
Satz: Die Menge Z der ganzen Zahlen und die Menge Q der rationalen Zahlen sind
abzählbar.
Beweisidee: Für Z reicht es aus, eine unendliche Folge z0 , z1 , z2 , . . . zu bilden in der
jede ganze Zahl genau einmal auftritt, denn dann wird durch f (n) := zn eine Bijektion
zwischen N und Z definiert. Eine solche Folge ist z.B. 0, 1, −1, 2, −2, 3, −3, . . .. In
diesem Fall ist es auch leicht, eine geschlossene Formel für die Bijektion f : N −→ Z
anzugeben:
lnm −n
falls n gerade
n+1
2
=
f (n) = (−1)
·
n+1
falls n ungerade
2
2
Für Q kombiniert man diesen Trick der alternierenden Aufzählung mit einem Schema
zur Aufzählung aller positiven rationalen Zahlen. Dazu schreibt man alle Brüche mit
positiven Zählern und Nennern in eine Tabelle und läuft die Zellen systematisch nach
folgendem Schema ab. Daraus ergibt sich eine surjektive Abbildung g : N −→ Q+ .
1
4
2
4
3
4
4
4
5
4
1
3
2
3
3
3
4
3
5
3
1
2
2
2
3
2
4
2
5
2
1
1
2
1
3
1
4
1
5
1
30
Um nicht nur eine surjektive Abbildung, sondern eine Bijektion zu erhalten, muss man
letzlich noch dafür sorgen, dass alle Brüche übersprungen werden, deren rationaler
Wert schon vorher erreicht wurde (das sind alle Brüche, die sich kürzen lassen). Im
abgebildeten Schema ist der Bruch 22 der erste, den man überspringen muss, danach
die Brüche 42 , 33 und 24 . Da es in diesem Fall wesentlich schwerer ist, eine geschlossene
Formel für g anzugeben, begnügen wir uns hier mit der verbalen Konstruktionsbeschreibung einer solchen Bijektion.
Satz: Die Menge der reellen Zahlen ist nicht abzählbar.
Beweis: Wir führen einen Widerspruchsbeweis, um zu zeigen, dass schon die reellen
Zahlen aus dem Intervall [0, 1] nicht abzählbar sind. Dazu nehmen wir an, dass es eine
bijektive Abbildung f : N −→ [0, 1] gibt und schreiben die Bilder f (0), f (1), f (2), . . .
als Dezimalbrüche
f (0)
f (1)
f (2)
:
=
=
=
:
0, a0,0 a0,1 a0,2 a0,3 . . .
0, a1,0 a1,1 a1,2 a1,3 . . .
0, a2,0 a2,1 a2,2 a2,3 . . .
:
ai,j ∈ {0, 1, 2, . . . , 9}
Es ist bekannt, dass Dezimalbruch–Darstellungen von reellen Zahlen immer dann
eindeutig sind, wenn sie nicht mit 9 (d.h. 9–Periode) enden und auch nicht abbrechen
(d.h. 0–Periode).
Jetzt ist es leicht, eine Zahl r ∈ [0, 1] mit der Darstellung 0, b0 b1 b2 . . . zu konstruieren,
die nicht im Bild von f liegt, indem man die einzelnen Dezimalstellen wie folgt festlegt
1
falls ai,i 6= 1
bi =
2
falls ai,i = 1
Offensichtlich hat die Zahl r eine eindeutige Darstellung und liegt nicht im Bild von
f , weil sie sich von jedem f (n) aus dem Bild an der n–ten Stelle unterscheidet.
Folglich ist die Abbildung f nicht surjektiv, ein Widerspruch zur Annahme, dass f
eine Bijektion ist.
Die hier verwendete Beweistechnik bezeichnet man als Diagonalisierung. In der theoretischen Informatik wird sie in abgewandelter Form für Unmöglichkeitsbeweise eingesetzt (z.B. um zu zeigen, dass bestimmte Funktionen nicht berechenbar sind). Der
folgende Satz beinhaltet eine weitere Anwendung dieser Technik.
Satz: Es gibt keine surjektive Abbildung von einer Menge M auf ihre Potenzmenge.
Beweis durch Widerspruch: Angenommen M wäre eine Menge mit einer surjektiven Abbildung f : M −→ P(M ). Wir bilden die Menge A = {x ∈ M | x 6∈ f (x)}.
Da A Untermenge von M , also Element von P(M ) ist, muss es ein a ∈ M mit
f (a) = A geben, anderenfalls wäre f nicht surjektiv. Der Widerspruch besteht darin,
dass aus der Definition von A die logische Äquivalenz der Aussagen a ∈ A und a 6∈ A
folgt.
31
3
Kombinatorik
3.1
Elementare Zählprinzipien
Die Abzählung von endlichen Mengen ist das klassische Thema der Kombinatorik.
Dabei wird eine unendliche Familie {An | n ∈ I} von endlichen Mengen An betrachtet,
wobei n eine Indexmenge I durchläuft (in der Regel die natürlichen Zahlen). Zu
bestimmen ist die Zählfunktion f : I −→ N mit f (n) = |An | für alle n ∈ I. Hier und
im Folgenden bezeichnet |M | die Anzahl der Elemente (Mächtigkeit) einer Menge M ,
falls diese endlich ist und ∞ anderenfalls.
Oft werden die Mengen An aus einer gegebenen n–elementigen Menge M (auch kurz
n–Menge genannt) durch einfache strukturelle oder kombinatorische Bedingungen
abgeleitet, z.B. die Menge S(M ) aller Permutationen von M (das sind bijektive Abbildungen
von M nach M ), die Menge P(M ) aller Untermengen oder die Menge
M
aller k–Untermengen von M . Im letzten Fall ist die Zählfunktion von den zwei
k
Größen n und k abhängig. Ziel ist es, eine möglichst kurze, geschlossene Formel für
f (n) bzw. f (n, k) zu finden.
Die meisten Aufgabenstellungen dieser Art lassen sich (auch wenn die Lösung teilweise
enormen technischen Aufwand erfordert) auf vier Grundregeln zurückführen.
• Summenregel: Ist S die Vereinigung
Ptvon paarweise disjunkten, endlichen
Mengen S1 , S2 , . . . , St , dann gilt |S| = i=1 |Si |.
• Produktregel:Q
Ist S das Kartesische Produkt von t endlichen Mengen S1 , S2 , . . . , St ,
dann gilt |S| = ti=1 |Si |.
• Gleichheitsregel: Existiert eine bijektive Abbildung zwischen zwei Mengen S
und T , so gilt |S| = |T |.
• Die Regel vom doppelten Abzählen wird etwas später erklärt.
Die Gleichheitsregel ist letzlich nur eine Umformulierung der Definition für die Gleichmächtigkeit von zwei Mengen. Die Summen- und Produktregel kann man mit vollständiger
Induktion beweisen.
Eine typische Anwendung der Summenregel besteht darin, die Elemente der Menge
S nach gewissen, sich gegenseitig ausschließenden Eigenschaften Ei (i = 1, . . . , t) zu
klassifizieren und die Mengen Si wie folgt zu setzen {x ∈ S | x hat Eigenschaf t Ei }.
Beispiel: Wir haben bereits eine Plausibilitätserklärung gefunden, warum die Potenzmenge einer n–Menge M genau 2n Elemente hat. Hier ist ein kompletter Beweis mit
vollständiger Induktion nach n.
Induktionsanfang: Für n = 0 ist M = ∅, P(M ) = {∅} und folglich |P(M )| = 1 = 20 .
Induktionsschritt von n nach n+1: Sei M eine (n+1)–Menge und a ein fest gewähltes
Element aus M . Wir zerlegen P(M ) in zwei disjunkte Teilmengen S1 = {A ⊆
M | a ∈ A} und S2 = {A ⊆ M | a 6∈ A}. Offensichtlich ist S2 = P(M \ {a})
die Potenzmenge einer n–Menge und nach Induktionsvoraussetzung gilt |S2 | = 2n .
32
Wir konstruieren eine Bijektion zwischen S1 und S2 , indem wir jeder Menge A ∈
S1 die Menge B = A \ {a} ∈ S2 zuordnen. Man erkennt die Bijektivität dieser
Abbildung daran, dass eine Umkehrabbildung existiert, die jedem B ∈ S2 die Menge
A = B ∪ {a} ∈ S1 zuordnet. Aus der Gleichheitsregel folgt |S1 | = |S2 | und aus der
Summenregel |P(M )| = |S1 | + |S2 | = 2|S2 | = 2 · 2n = 2n+1 .
Man kann die gleichen Argumente verwenden, um eine Rekursion
für die Anzahl
der k-Teilmengen einer n-Menge zu entwickeln. Sei S = Mk die Menge aller k–
Untermengen einer n–Menge M und bezeichne nk die Kardinalzahl von S (zunächst
nur als ein formaler Ausdruck). Wir fixieren ein a ∈ M und klassifizieren die k–
Untermengen von M nach der Eigenschaft, ob sie a enthalten (E1 ) oder nicht (E2 ).
Also ist S1 =
{A ∈ S | a ∈ A} und S2 = {A ∈ S | a 6∈ A}. Wie man leicht sieht, ist
S2 = M \{a}
und auf der anderen Seite gibt es eine Bijektion zwischen S1 und der
k
Menge aller (k − 1)–Untermengen von M \ {a}. Durch Anwendung von Gleichheits–
und Summenregel erhalten wir die folgende rekursive Formel
n
n−1
n−1
=
+
k
k−1
k
Definitition: Ein Inzidenzsystem (S, T, I) besteht aus zwei (endlichen) Mengen S
und T und einer Inzidenzrelation I ⊆ S × T .
Regel vom zweifachen Abzählen: Sei (S,T,I) ein Inzidenzsystem und sei r(a) =
|{b ∈ T | (a, b) ∈ I}|, r(b) = |{a ∈ S | (a, b) ∈ I}| für alle a ∈ S, b ∈ T , dann gilt:
X
X
r(b).
r(a) =
a∈S
b∈T
In der Tat sind beide Summen gleich |I|, denn die Paare der Relation I wurden
nur auf zwei verschiedene Weisen aufgezählt. Oft wird diese Regel auch in etwas
modifizierter Form unter Verwendung von Inzidenzmatrizen oder bipartiten Graphen
verwendet:
Sei M = (mij ) eine m×n Matrix, d.h. ein Rechteck–Schema mit m Zeilen und
Pnn Spalten in dem Zahlen mij (i-te Zeile, j-te Spalte)
Pm eingetragen sind. Sind zi = j=1 mij
(1 ≤ i ≤ m)
die
Zeilensummen,
und
s
=
j
i=1 mij (1 ≤ j ≤ m) die Spaltensummen,
Pm
Pn
dann gilt i=1 zi = j=1 sj , denn beide Summen sind gleich der Summe aller Matrixelemente. Die Regel vom zweifachen Abzählen ergibt sich nun als Spezialfall für
die sogenannte Inzidenzmatrix. Dazu werden die
Elemente aus S und T nummeriert,
1 f alls (ai , bj ) ∈ I
S = {a1 , . . . , am }, T = {b1 , . . . , bn } und mij =
gesetzt.
0 sonst
3.2
Die fundamentalen Zählkoeffizienten
k-Kombinationen und k-Variationen
Sei eine n–Menge N gegeben (ohne Einschränkung kann man N = {1, 2, . . . , n} annehmen) und 0 ≤ k ≤ n eine natürliche Zahl. In diesem Abschnitt werden wir
33
die Werte einiger Zählfunktionen bestimmen, die sehr häufig auftreten und deshalb
mit eigenen Symbolen bezeichnet werden. Eine k–elementige Untermenge von N
wird auch k–Kombination
genannt. Die Anzahl der k–Kombinationen einer n–Menge
n
wird mit k bezeichnet, und diese Anzahlen werden Binomialkoeffizienten genannt.
Dabei werden k–Kombinationen (wie für Mengen üblich) als nicht geordnet betrachtet, d.h. {1, 3, 5} und {3, 5, 1} sind ein und dieselbe 3–Kombination. “Geordnete”
k–Untermengen werden auch k–Variationen (ohne Wiederholung) genannt, alternativ kann dafür auch der Begriff k–Permutation einer n–Menge verwendet werden.
Achtung: Geordnet heißt hier gerade nicht nach Größe geordnet, sondern in einer
bestimmten Reihenfolge angeordnet! Man kann sie als Wörter der Länge k aus
voneinander verschiedenen Elementen aus N kodieren (also 135 6= 351).
k-Partitionen
Der Begriff der Partition wurde bereits eingeführt und im Zusammenhang mit Äquivalenzrelationen verwendet. Wir verstehen darunter die Zerlegung einer Menge in
disjunkte, nichtleere Untermengen (Blöcke). Bezeichnet k die Anzahl der Blöcke, so
sprechen wir von k–Partitionen. An dieser Stelle ist es wichtig, auf einen bisher eher
nebensächlichen Aspekt einzugehen: Betrachtet man die Partion als Menge von k
Blöcken, dann spielt die Reihenfolge der Blöcke keine Rolle und wir sprechen einfach
von einer k–Partition, oder (wenn wir diesen Aspekt besonders betonen wollen) von
einer ungeordneten k–Partition. Die Anzahl der k–Partitionen einer n–Menge wird
mit Sn,k bezeichnet. Die Zahlen Sn,k werden Stirling–Zahlen zweiter Art genannt.
Will man dagegen auch die Reihenfolge des Auftretens der Blöcke berücksichtigen,
so spricht man von geordneten k–Partitionen. Zur Unterscheidung umfasst man die
Blöcke einer ungeordneten Partition in Mengenklammern, während geordnete Partitionen als Tupel geschrieben werden (runde Klammern).
Beispiel: Die Mengen {{2}, {1, 3, 5}, {4, 6}} und {{3, 5, 1}, {2}, {4, 6}} sind gleich,
d.h. sie stellen ein und dieselbe (ungeordnete) 3–Partition dar.
Dagegen sind ({2}, {1, 3, 5}, {4, 6}) und ({1, 3, 5}, {4, 6}, {2}) zwei verschiedene geordnete 3–Partitionen.
Binomialkoeffizienten und fallende Faktorielle
Die Anzahl der k–Variationen von N kann mit der Produktregel bestimmt werden (n
Möglichkeiten für die erste Stelle und ist diese festgelegt, dann n − 1 Möglichkeiten
für die zweite Stelle,. . . ):
n(n − 1) . . . (n − k + 1) =
n!
(n − k)!
Diese Anzahlen werden auch kurz mit nk bezeichnet und fallende Faktorielle genannt.
Streng genommen muss ein solcher Beweis auch wieder mit vollständiger Induktion
geführt werden, aber inzwischen sollte jeder genug Übung darin haben, dieses Detail
auszufüllen. Analog definiert man die steigenden Faktoriellen mit
nk = n(n + 1) . . . (n + k − 1) =
34
(n + k)!
,
n!
wobei wir n0 = n0 = 1 setzen.
Da jede k–Untermenge sich
auf k! Arten als k–Permutation darstellen lässt, gilt nach
n
k
Produktregel n = k! k . Daraus kann eine explizite Formel für die Binomialkoeffizienten abgeleitet werden:
n!
n
nk
=
=
k!
(n − k)!k!
k
Analog kann auch die Anzahl der geordneten k–Partitionen durch das Produkt k! Sn,k
beschrieben werden.
Beispiel: Der Ziehungsvorgang beim Lotto “6 aus 49” liefert zunächst eine 6–
Variation der Menge {1, 2, . . . , 49} (wir vernachlässigen hier die Zusatzzahl). Die
Anzahl dieser 6–Variationen ist 496 . Für das Ergebnis der Ziehung ist nur die Menge
der gezogenen Zahlen entscheidend und nicht die Reihenfolge, in der sie gezogen wurden. Da jedes Ziehungsergebnis in 6! verschiedenen Reihenfolgen gezogen werden
kann, ist die Anzahl der möglichen Ziehungsergebnisse
(und damit auch die Anzahl
6
.
der möglichen Tipps) gleich 496! = 49
6
Geordnete und ungeordnete Zahlpartitionen
Eine Abwandlung des Begriffs der Mengenpartition führt zu den sogenannten Zahlpartitionen. Ist n ∈ N dann wird eine Summe n = n1 +. . .+nk mit ni ∈ N, ni > 0 eine k–
Zahlpartition von n genannt. Die Anzahl solcher Partitionen wird mit Pn,k bezeichnet.
Auch hier spielt die Reihenfolge der ni keine Rolle, so dass man ohne Einschränkung
n1 ≥ n2 ≥ . . . ≥ nk annehmen kann. Soll die Reihenfolge Berücksichtigung finden, so
sprechen wir von geordneten Zahlpartitionen.
Achtung: Geordnete Zahlpartitionen sind also gerade solche, in denen die Summanden in der Regel nicht nach ihrer Größe sortiert auftreten. Dagegen kann man
ungeordnete Zahlpartitionen (in denen die Reihenfolge egal ist) immer so darstellen,
dass die Summanden aufsteigend geordnet sind.
Lemma: Die Anzahl der geordneten k–Zahlpartitionen von n ist n−1
.
k−1
Beweis: Die Grundidee ist sehr einfach. Wir schreiben die Zahl n als Summe von n
Einsen, also mit n − 1 Pluszeichen. Für eine Zahlpartition n = n1 + n2 + . . . + nk
fassen wir die ersten n1 Einsen zu einem Block zusammen, markieren das darauf folgende Pluszeichen, fassen die nächsten n2 Einsen wieder zu einem Block zusammen
und markieren das darauf folgende Pluszeichen usw. Bei k Summanden markiert
man k − 1 der n − 1 Pluszeichen und jede solche Markierung beschreibt eindeutig die
entsprechende Zahlpartition.
Für einen formalen Beweis konstruieren wir eine Bijektion von der Menge S der geordneten k–Zahlpartitionen auf die Menge T der (k − 1)–Untermengen von {1, 2, . . . , n −
1} durch:
n = n1 + n2 + . . . + nk ∈ S 7→ {n1 , n1 + n2 , . . . , n1 + n2 + . . . + nk−1 } ∈ T . Die
Bijektivität dieser Abbildung kann durch die Konstruktion der Umkehrabbildung
nachgewiesen werden, und die Behauptung folgt nun aus der Gleichheitsregel.
35
Stirlingzahlen und surjektive Funktionen
Die hier besprochenen Zählkoeffizienten sind auch sehr gut zum Abzählen von Funktionenmengen geeignet. Sei N eine n–Menge und R eine r–Menge. Aus der Mengenlehre wissen wir, dass die Anzahl der Abbildungen von N nach R gleich rn ist.
Ist n ≤ r, dann sind injektive Abbildungen von N in R durch n–Variationen von R
charakterisiert, d.h. |Inj(N, R)| = rn .
Ist n ≥ r, dann sind surjektive Abbildungen von N auf R durch geordnete r–
Partitionen von N charakterisiert, d.h. |Surj(N, R)| = r! Sn,r .
Die Anzahl der bijektiven Abbildungen ist n! (falls n = r) oder 0. Klassifizieren wir
die Menge aller Abbildungen f : N −→ R nach ihren Bildern A = {f (x) | x ∈ N } ⊆
R, so ergibt die Summenregel:
P
rn = |Abb(N, R)| = A⊆R |Surj(N, A)|
3.3
=
Pr
P
=
Pr
r
k
k=0
k=0
|A|=k
|Surj(N, A)|
k! Sn,k
=
Pr
k=0
rk Sn,k
Zwölf Arten des Abzählens
Eine zusammenfassende Interpretation der Zählkoeffizienten erhalten wir durch die
folgende Fragestellung:
Sei eine Menge von n Bällen gegeben, die in r Fächer verteilt werden sollen. Gesucht
ist die Anzahl solcher Verteilungen allgemein und unter der zusätzlichen Bedingung,
dass nur injektive (jedes Fach höchstens ein Ball), surjektive (jedes Fach mindestens
ein Ball) bzw. bijektive (jedes Fach genau ein Ball) Verteilungen zu betrachten sind.
Natürlich hängt die Problemstellung auch davon ab, ob die Bälle bzw. die Fächer unterscheidbar sind oder nicht. Offensichtlich korrespondieren die obigen Abzählungen
von Abbildungen zu dem Fall, dass sowohl die Bälle als auch die Fächer unterscheidbar sind. Da die Frage der bijektiven Verteilungen relativ leicht zu beantworten sind,
reduziert sich die Problemstellung auf zwölf Varianten.
Sind nur die Bälle unterscheidbar, aber nicht die Fächer, dann korrespondieren surjektive Verteilungen zu r–Partitionen einer n–Menge und die Menge aller Verteilungen
kann mit der Summenregel über die Klassifizierung nach Anzahl der belegten Fächer
abgezählt werden.
Sind Bälle und Fächer nicht unterscheidbar, dann korrespondieren surjektive Verteilungen zu r–Zahlpartitionen von n und auch hier kann die Menge aller Verteilungen mit
der Summenregel über die Klassifizierung nach Anzahl der belegten Fächer abgezählt
werden.
Sind nur die Fächer unterscheidbar, aber nicht die Bälle, dann korrespondieren die
surjektiven Verteilungen zu geordneten r–Zahlpartitionen von n. Die injektiven
Verteilungen sind durch die Auswahl der n belegten Fächer aus der r–Menge aller
Fächer vollständig charakterisiert. Eine beliebige Abbildung ist durch eine geordnete
36
Summenzerlegung der Form n = n1 + . . . + nr mit ni ∈ N charakterisiert. Um daraus
eine r–Zahlpartition im Sinne der Definition zu machen (Zusatzbedingung ni ≥ 1),
addiert man zu jedem Summanden eine 1. Damit erhalten wir eine Bijektion auf
die Menge der geordneten r–Zahlpartitionen von (n + r). Diese Menge hat n+r−1
r−1
Elemente.
Die folgende Tabelle gibt einen vollständigen Überblick.
beliebig injektiv surjektiv bijektiv
N unterscheidbar
rn
rn
r!Sn,r
0 oder n!
R unterscheidbar
N nicht untersch.
n+r−1
r
n−1
0 oder 1
r−1
n
r−1
R unterscheidbar
N unterscheidbar Pr
Sn,r
0 oder 1
k=1 Sn,k 0 oder 1
R nicht untersch.
N nicht untersch. Pr
Pn,r
0 oder 1
k=1 Pn,k 0 oder 1
R nicht untersch.
3.4
Rekursionen
Pascalsches Dreieck
Oft ist es schwierig, für die zu untersuchenden kombinatorischen Größen f (n) eine
geschlossene Formel anzugeben, z.B. für die Stirling Zahlen zweiter Art Sn,k . In
solchen Fällen kann eine Rekursion, das ist eine Formel, die f (n) auf f (n−1) und/oder
f (n − 2), . . . zurückführt, ein wirkungsvolles Hilfsmittel sein. Sind dann noch die
benötigten Anfangswerte f (0) und/oder f (1) bekannt, kann man jedes f (n) effektiv
berechnen.
Wir haben
bereits
eine
Rekursion für die Binomialkoeffizienten kennengelernt:
n
n−1
n−1
= k + k−1 für alle n, k > 0.
k
Mit den trivialen Zusatzinformationen nn = n0 = 1 und nk = 0 falls k > n,
können alle Binomalkoeffizienten berechnet werden. Das dafür verwendete Schema
wird Pascalsches Dreieck genannt:
n
0
1
2
3
4
5
6
:
k 0
1
1
1
1
1
1
1
1
2
3
4
5 6...
1
2 1
3 3 1
4 6 4 1
5 10 10 5 1
6 15 20 15 6 1
Es ist klar, dass die Summe aller Einträge in der n–ten Zeile die Anzahl aller Unter-
37
mengen einer n–Menge ergibt:
n X
n
k
k=0
= 2n .
Die folgenden zwei Identitäten machen Aussagen über Spalten- und Diagonalsummen,
die an einer beliebigen Stelle abzubrechen sind:
Pn
m
n+1
=
für alle n, k ≥ 0
m=0 k
k+1
Pn
k=0
m+k
k
=
m+n+1
n
für alle m, n ≥ 0
Beide Formeln kann man mit vollständiger Induktion und auch durch kombinatorische
Argumentationen beweisen.
P
Binomialsatz: (x + y)n = nk=0 nk xk y n−k
Der induktive Beweis nutzt die Rekursion der Binomialkoeffizienten.
Als unmittelbare Folgerung aus dem Binomialsatz erhalten wir die folgenden zwei
Formeln:
k
Pn
n
(x + 1)n =
k=0 k x
2n
=
Pn
k=0
n
k
Monotone Gitterwege
Eine weitere geometrisch-anschauliche Deutung der Binomialkoeffizienten ergibt sich
aus der Abzählung von sogenannten Gitterwegen. Dazu betrachten wir die Punktmenge Gk,m = {0, 1, . . . , k} × {0, 1, . . . , m} in der Ebene und verbinden zwei Punkte
durch eine Kante, wenn sie auf einer Koordinate übereinstimmen und sich auf der
anderen Koordinate um 1 unterscheiden. Dieses Gebilde nennt man ein k × m-Gitter.
Unter einem monotonen Gitterweg im k × m-Gitter verstehen wir eine Punktfolge,
die mit (0, 0) beginnt, mit (k, m) endet und bei der für zwei aufeinanderfolgende
Punkte (a, b), (c, d) gilt, dass entweder c = a und d = b + 1 oder c = a + 1 und
d = b. Anschaulich bedeutet das, dass ein monotoner Gitterweg von der Ecke links
unten in die Ecke recht oben verläuft und jeder Schritt entweder nach rechts oder
nach oben erfolgt (Abbildung links)). Der Zusammenhang zwischen monotonen Gitterwegen und Binomialkoeffizienten beruht auf einer simplen Beobachtung: Da sich
jeder monotone Gitterweg in einem k × m-Gitter aus k + m Kanten zusammensetzt,
von denen genau k horizontal (und die anderen m vertikal) verlaufen, kann man sie
als k-Kombinationen aus einer (k + m)-Menge beschreiben.
Lemma: Die Anzahl der montonen Gitterwege in einem k × m-Gitter ist k+m
.
k
38
m
m
i
3
2
1
0
3
2
1
0
0 1 2 3 4 5
0 1 2 3 4 5
k
k−1 k
Viele Fakten über Binomialkoeffizienten lassen sich mit diesem Modell anschaulich
erklären. Hier sind einige Beispiele dazu:
• Die Menge der monotonen Gitterwege im k × m-Gitter kann man durch die
Auswahl der k horizontalen Schritte aus k + m Gesamtschritten oder alternativ
durch die Auswahl von mvertikalen
Schritten aus k + m Gesamtschritten genek+m
k+m
rieren. Daraus folgt k = m . Wenn
=
wir n
k + m setzen, ist m = n − k
n
und wir erhalten die bekannte Formel nk = n−k
.
• Partitioniert man die Menge der monotonen Gitterwege im k×m-Gitter danach,
ob der letzteSchritt horizontal
oder vertikal gemacht wird, so ergibt sich die
k+m
k+m−1
k−1+m
Formel
=
+
. Mit der oben verwendeten Ersetzung
k
k−1
k
n−1
erhalten wir die bekannte Rekursion nk = n−1
+
.
k−1
k
• Wir partitionieren die Menge der monotonen Gitterwege im k×m-Gitter danach,
in welcher Höhe der letzte horizontale Schritt (von k − 1 nach k) gemacht wird.
Dafür kommen alle y-Werte zwischen 0 und m in Frage. Diese Situation ist in
der Abbildung auf der rechten Seite schematisch dargestellt: Der letzte horizontale Schritt erfolgt von (k − 1, i) nach (k, i) und darauf folgen nur noch vertikale
Schritte bis (k, m). Die Anfangsstücke aller Wege dieser Klasse sind beliebige
monotone Gitterwege im (k − 1) × i-Gitter, die im der Abbildung durch eine
monotone Kurve symbolisiert sind. Daraus folgt die Identität
X
X
m m k+m
k−1+i
k−1+i
=
=
.
k
k−1
i
i=0
i=0
Rekursion für die Stirling Zahlen zweiter Art
Satz: Für alle n, k ∈ N mit n ≥ k > 0 gilt Sn,k = Sn−1,k−1 + k · Sn−1,k .
Man beachte, dass diese Formel eine große Ähnlichkeit mit der Rekursionsformel für
Binomialkoeffizienten aufweist. Auch der Beweis ist sehr ähnlich:
Sei a ein fest gewähltes Element der n–Menge N . Die k–Partitionen von N können
nun danach klassifiziert werden, ob {a} einen Block der Partition bildet oder nicht.
Bei positiver Antwort kann der Partition auf eineindeutige Weise (Streichung von {a})
eine (k − 1)–Partition von N \ {a} zugeordnet werden. Zur Begründung des zweiten
39
Summanden überlegt man sich, das man alle k–Partitionen von N , in denen {a}
keinen Block bildet, auf folgende Art erhält: Man betrachte alle k–Partitionen von
N \ {a} und ergänze eine ihrer Klassen um a (dafür gibt es jeweils k Möglichkeiten).
Aus der Definition ergeben sich die Anfangsbedingungen Sn,0 = 0 für n > 0 und
S0,k = 0 für k > 0. Wie man leicht sieht, muß S0,0 = 1 gesetzt werden, damit die
Formel auch für S1,1 ihre Gültigkeit behält.
3.5
Lösung von Rekursionen
In diesem Abschnitt werden zwei Methoden beschrieben, mit deren Hilfe man (in
einigen Fällen) aus Rekursionen geschlossene Formeln ableiten kann. Wir beginnen
mit Rekursionen der Form
an = can−1 + d, a0 = C,
c, d, C ∈ R
Offensichtlich können wir c = 1 als Trivialfall (dann ist an = nd + C) ausschließen.
Für c 6= 1 erhalten wir durch elementare Umformungen:
an = d + can−1
= d + c(d + can−2 )
2
= d + cd + c an−2 = d + cd + c2 (d + can−3 )
= ...
= d + cd + c2 d + . . . + cn−1 d + cn a0
n −1
d + cn C
= cc−1
Wir betrachten jetzt sogenannte homogene lineare Rekursionen vom Grad k, das sind
Rekursionen der Form
an = c1 an−1 + c2 an−2 + . . . + ck an−k
wobei c1 , . . . , ck ∈ R und ck 6= 0 vorausgesetzt sind. Darüber hinaus sollen die reelle
Zahlen a0 = C0 , . . . , ak−1 = Ck−1 als Anfangsbedingungen bekannt sein.
Der Basisansatz besteht darin, eine Lösung der Form an = rn für eine Konstante r zu
suchen. Gäbe es eine solche Lösung, dann wäre rn = c1 rn−1 + c2 rn−2 + . . . + ck rn−k ,
also wäre r eine Nullstelle des sogenannten charakteristischen Polynoms xk −c1 xk−1 −
c2 xk−2 . . . − ck der Rekursion. Eine solche Lösung könnte aber im Widerspruch zu
den Anfangsbedingungen stehen.
Satz: Angenommen, das charakteristische Polynom der Rekursion
an = c1 an−1 + c2 an−2 + . . . + ck an−k hat k verschiedene Nullstellen r1 , . . . , rk . Dann
gibt es Konstanten α1 , . . . , αk , so dass an = α1 r1n + . . . + αk rkn für alle n ∈ N.
Diese Konstanten sind durch die k Anfangsbedingungen a0 = C0 , . . . , ak−1 = Ck−1
eindeutig bestimmt.
Wir verzichten auf den Beweis. Es sei aber angemerkt, dass zur Bestimmung der Konstanten ein lineares Gleichungssystem von k Gleichungen (jeder Anfangswert liefert
eine Gleichung) mit den gesuchten Konstanten α1 , . . . , αk als Variable gelöst werden
muss. Die Verschiedenheit der Nullstellen sichert, dass dieses LGS eine eindeutige
Lösung besitzt.
40
Beispiel: Die Rekursion fn = fn−1 + fn−2 mit den Anfangsbedingungen f0 = 0, f1 =
1 beschreibt die sogenannten Fibonacci Zahlen.
Das charakteristische Polynom dieser Rekursion hat√die Form √
x2 − x − 1. Die Nullstellen dieses Polynoms sind 1+2 5 und 1−2 5 .
Zur Bestimmung der Konstanten α1 und α2 muss das folgende LGS gelöst werden:
α1 +
√
1+ 5
α1 +
2
α2
√
1− 5
α2
2
=0
=1
Aus der ersten Gleichung folgt α2 = −α
√ 1 . Verwendet man diese√Substitution in der
zweiten Gleichung, dann ergibt sich 5α1 = 1, also α1 = 1/ 5. So erhält man
folgende geschlossene Formel für die Fibonacci Zahlen:
√ !n
√ !n
1
1
1+ 5
1− 5
fn = √
−√
2
2
5
5
3.6
Das Schubfachprinzip
In den bisherigen Themen zur Kombinatorik ging es immer um die genaue Bestimmung von bestimmten Werten. Es kommt aber auch vor, dass die Informationen über
bestimmte Mengen nicht ausreichen, um genaue Angaben über ihre Größe machen zu
können. Oft muss man sich in solchen Fällen damit zufrieden geben, möglichst gute
obere und untere Schranken für die Größe zu kennen. Eine grundlegende und wichtige
Methode zur Herleitung solcher Ungleichungen mit kombinatorischen Mitteln besteht
in der Anwendung des sogenannten Schubfachprinzips.
Das Schubfachprinzip, in der englischsprachigen Literatur auch als Taubenschlagprinzip bezeichnet, geht auf den Mathematiker G. L. Dirichlet zurück:
Verteilt man n Gegenstände in k Schubfächer und ist n > k, dann gibt es mindestens
ein Schubfach, in dem mindestens 2 Gegenstände liegen.
Auf den ersten Blick scheint dieses Prinzip nur triviale Schlussfolgerungen zuzulassen,
wie: “in jeder Gruppe von 367 Menschen gibt es mindestens zwei, die den gleichen
Geburtstag haben”, aber wie die folgenden eleganten Anwendungen zeigen, trügt der
Schein.
Satz: In jeder n+1 elementigen Untermenge M von {1, 2, . . . , 2n} gibt es zwei Zahlen
a und b, so dass a Teiler von b ist.
Beweis: Sei M = {a1 , a2 , . . . , an+1 }. Jedes Element dieser Menge hat eine eindeutige
Produktzerlegung der Form ai = 2ki qi , wobei qi eine ungerade Zahl ist. Da die
Anzahl der ungeraden Zahlen zwischen 1 und 2n gleich n ist, müssen mindestens
zwei Elemente aus M bei der Zerlegung die gleiche ungerade Zahl liefern, und es ist
klar, dass dann die kleinere von beiden ein Teiler der größeren ist.
Satz von Erdös/Szekeres: Jede Folge von n2 + 1 verschiedenen Zahlen enthält
eine monoton wachsende oder monoton fallende Unterfolge der Länge n + 1.
41
Beweis: Ist die Folge a1 , a2 , . . . , an2 +1 gegeben, dann hat eine Unterfolge der Länge
m die Form ai1 , ai2 , . . . , aim wobei 1 ≤ i1 < i2 < . . . < im ≤ n2 + 1 gelten muss. Die
Unterfolge ist monoton wachsend (bzw. fallend), wenn auch ai1 < ai2 < . . . < aim
(bzw. ai1 > ai2 > . . . > aim ) gilt.
Angenommen die gegebene Folge hat keine monoton wachsende oder monoton fallende Unterfolge der Länge n + 1, dann ordnen wir jedem k = 1, 2, . . . , n2 + 1 ein Paar
(wk , fk ) zu, wobei wk (fk ) die maximale Länge einer monoton wachsenden (fallenden)
Unterfolge ist, die mit ak beginnt. Da nur n2 Paare möglich sind, muss mindestens
ein Paar mehrfach auftreten, d.h. es gibt Zahlen 1 ≤ s < t ≤ n2 + 1, so dass ws = wt
und fs = ft . Das ist aber bereits ein Widerspruch, denn ist as < at , dann könnte
jede mit at beginnende monoton wachsende Unterfolge von vorn durch as verlängert
werden, also wäre ws > wt . Analog folgt aus as > at auch fs > ft und as = at ist
nach Voraussetzung nicht möglich.
Verallgemeinerung des Schubfachprinzips:
Verteilt man n Gegenstände
in k Schubfächer, dann gibt es mindestens ein Schubfach,
n
in dem mindestens k Gegenstände liegen.
Beispiele:
• In jeder Gruppe von 100 Menschen gibt es mindestens 9, die das gleiche Sternzeichen haben.
• In jeder Menge A, B, C, D, E, F von 6 Besuchern einer Party gibt es eine Gruppe
von mindestens drei Personen, die sich entweder vorher schon paarweise kannten
oder die sich vorher paarweise noch nicht kannten.
Das ist nicht ganz
so offensichtlich. Für A gibt es nach dem Schubfachprinzip
mindestens 25 = 3 andere Personen, die A entweder alle kennt (Fall 1) oder
alle nicht kennt (Fall 2).
Wenn sich im Fall 1 unter diesen Bekannten von A zwei Personen bereits kennen,
bilden diese zusammen mit A die gesuchte Gruppe, sonst sind die Bekannten
von A eine Gruppe von Personen, die sich nicht kennen. Der zweite Fall ist
analog. Wenn unter den für A fremden Personen sich zwei nicht kennen, bilden
sie zusammen mit A die gesuchte Gruppe, sonst bilden sie selbst eine Gruppe
von Personen, die sich paarweise kennen.
42
4
Diskrete Wahrscheinlichkeitsverteilungen
4.1
Wahrscheinlichkeitsräume, Ereignisse und Unabhängigkeit
Definition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, Pr), wobei Ω
eine endliche oder abzählbar unendliche Menge von elementaren Ereignissen und
Pr : Ω −→ [0, 1] eine Wahrscheinlichkeitsverteilung ist, die jedem
P a ∈ Ω seine
Wahrscheinlichkeit Pr(a) zuordnet. Außerdem wird gefordert, dass a∈Ω Pr(a) = 1
ist. Wenn |Ω| = n endlich ist und für alle a ∈ Ω auch Pr(a) = n1 gilt, dann wird Pr
eine Gleichverteilung genannt.
Beispiele:
1. Für einen (fairen) Würfel ist Ω = {1, 2, 3, 4, 5, 6} und Pr(1) = Pr(2) = . . . =
Pr(6) = 16 eine Gleichverteilung.
2. Der diskrete Wahrscheinlichkeitsraum für einen Münzwurf besteht aus Ω =
{0, 1} mit Pr(0) = Pr(1) = 1/2 (Gleichverteilung), wobei in der Regel die 0 den
Kopf und 1 die Zahl der Münze bezeichnet.
3. Die Ziehung von Kugeln aus einer Urne bildet die Grundlage für ein anderes
Standardmodell der Wahrscheinlichkeitsrechnung. So kann man eine Urne mit
n nummerierten (also unterscheidbaren) Kugeln als ein physikalisches Modell
für eine Gleichverteilung ansehen. Alternativ kann man eine Urne mit k weißen
und m schwarzen Kugeln betrachten. Auch wenn die weißen Kugeln nicht
unterscheidbar sind, kann man sich eine unsichtbare Nummerierung der Kugeln
vorstellen, bei denen die weißen von 1 bis k und die schwarzen von k + 1 bis
n = k+m nummeriert sind. Die elementaren Ereignisse sind die Ziehungen einer
Kugel i jeweils mit der Wahrscheinlichkeit n1 . Da es aber letztlich egal ist, welche
weiße bzw. welche schwarze Kugel gezogen wurde, betrachtet man hier nur zwei
Ereignisse, nämlich die Ziehung einer weißen Kugel mit der Wahrscheinlichkeit
k
und die Ziehung einer schwarzen mit der Wahrscheinlichkeit m
.
n
n
4. Der diskrete Wahrscheinlichkeitsraum für zwei Münzwürfe besteht aus der Menge
Ω = {(0, 0), (0, 1), (1, 0), (1, 1)} mit der Gleichverteilung Pr((i, j)) = 1/4. Dabei
geht man davon aus, dass die beiden Würfe voneinander unabhängig sind und
entweder hintereinander oder gleichzeitig mit zwei unterscheidbaren Münzen
erfolgen.
5. Beim gleichzeitigen Werfen von zwei ununterscheidbaren Münzen müsste man
Ω = {{0, 0}, {0, 1}, {1, 1}} setzen. In diesem Fall wäre Pr (faire Münzen vorausgesetzt) keine Gleichverteilung, denn Pr({0, 0}) = Pr({1, 1}) = 1/4 und
Pr({0, 1}) = 1/2. Dieses Modell ist eher als Gedankenspiel zu betrachten, denn
in der Realität sind es zwei verschiedene Münzen, auch wenn sie äußerlich nicht
unterscheidbar sind. Wenn wir im Weiteren über die Wahrscheinlichkeitsräume
von k Münzwürfen oder k Würfeln sprechen, wird deshalb immer die k-fache
43
Wiederholung eines Experiments oder eine Ausführung mit k unterscheidbaren
und unabhängigen Objekten gemeint sein.
6. Definiert man eine Folge von Münzwürfen, bis das erste Mal Zahl (also 1)
fällt, als elementares Ereignis, dann gibt es offensichtlich für jedes n ∈ N+ ein
elementares Ereignis, nämlich die Folge an = 0, 0, . . . , 0, 1. Eine faire Münze
| {z }
(n−1) mal
n
vorausgesetzt, gilt Pr(an ) = 12 und damit ist auch für diesen unendlichen
Raum die Summenbedingung erfüllt:
∞
X
Pr(an ) =
n=1
∞ n
X
1
n=1
2
=1
Definition: Eine beliebige
Untermenge A ⊆ Ω wird Ereignis genannt, und man
P
Dadurch wird die Verteilungsfunktion zu einem
definiert Pr(A) =
a∈A Pr(a).
Wahrscheinlichkeitsmaß über der Menge P(Ω) aller Ereignisse erweitert. Die Verwendung der gleichen Bezeichnung Pr für die Verteilung und das Wahrscheinlichkeitsmaß
ist eine kleine technische Unsauberkeit, die aber in der Literatur weit verbreitet ist.
Beispiele:
• Bei der Urne mit k weißen und m schwarzen Steinen wurde dieser Schritt schon
vorweg genommen, indem die Ziehungen der Kugeln 1 bis k (bzw. k + 1 bis
k + m) zum Ereignis der Ziehung einer weißen (bzw. schwarzen) Kugel zusammengefasst wurden.
• Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, ist gleich der Summe der
Wahrscheinlichkeiten, eine 2, 4 oder 6 zu würfeln, also 1/2.
• Das Ereignis A, bei drei Münzwürfen genau zweimal Zahl zu erhalten, setzt sich
aus den drei elementaren Ereignissen (0, 1, 1), (1, 0, 1) und (1, 1, 0) zusammen
und somit ist Pr(A) = 3 · 81 = 83 .
Für jedes Ereignis A ⊆ Ω bezeichnet A = Ω\A das sogenannte Komplementärereignis
von A.
Aus der Definition und dem kombinatorischen Basiswissen kann man die folgenden
Eigenschaften von Wahrscheinlichkeitsmaßen ableiten:
1. Pr(Ω) = 1 und Pr(∅) = 0
2. A ⊆ B =⇒ Pr(A) ≤ Pr(B)
3. Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B)
P
S
4. Pr(A) = ki=1 Pr(Ai ) für jede Partition A = ki=1 Ai
44
5. Pr A = 1 − Pr(A)
S
P
k
6. Pr i=1 Ai ≤ ki=1 Pr(Ai ).
Bedingte Wahrscheinlichkeit und unabhängige Ereignisse
Oft taucht das Problem auf, die Wahrscheinlichkeit eines Ereignisses A unter der
zusätzlichen Voraussetzung zu bestimmen, dass ein anderes Ereignis B eingetreten
ist. So ist offensichlich unter der Voraussetzung, dass eine gerade Zahl gewürfelt
wurde, die Wahrscheinlichkeit der 1 gleich Null und die Wahrscheinlichkeit der 2
gleich 1/3. Dieses Phänomen wird durch den Begriff der bedingten Wahrscheinlichkeit
beschrieben.
Definition: Seien A und B Ereignisse und Pr(B) > 0, dann nennt man den Ausdruck
Pr(A ∩ B)
die bedingte Wahrscheinlichkeit von A unter B.
Pr(A|B) =
Pr(B)
Beispiele:
1. Im Wahrscheinlichkeitsraum eines fairen Würfels sei A das Ereignis, eine gerade
Zahl zu werfen, B das Ereignis, eine Zahl größer als drei zu werfen, und C das
Komplementärereignis zu B. Offensichtlich gilt Pr(A) = Pr(B) = Pr(C) = 12 .
Man bestimmt die Durchschnitte A ∩ B = {4, 6}, A ∩ C = {2}, B ∩ C = ∅ und
ihre Wahrscheinlichkeiten Pr(A ∩ B) = 26 , Pr(A ∩ C) = 61 sowie Pr(B ∩ C) = 0
und berechnet damit die bedingten Wahrscheinlichkeiten:
Pr(B|A) = 23 , Pr(C|A) = 13 und Pr(B|C) = 0.
2. Würfelt man mit zwei (unabhängigen und unterscheidbaren!) Würfeln, dann ist
Ω = {(i, j) | 1 ≤ i, j ≤ 6} und Pr((i, j)) = 1/36 für jedes Paar (i, j) aus Ω. Sei
A = {(4, 6), (5, 5), (6, 4)} das Ereignis, dass die Augensumme gleich 10 ist, und
B = {(1, 1), (2, 2), . . . , (6, 6)} das Ereignis, dass beide Würfel auf die gleiche
1
6
1
3
Zahl fallen. Dann ist Pr(A) = 36
= 12
, Pr(A) = 36
= 61 und Pr(A ∩ B) = 36
.
1
1
Daraus ergibt sich Pr(A|B) = 3 und Pr(B|A) = 6 .
3. Wir bleiben im Wahrscheinlichkeitsraum von zwei Würfeln. Bezeichne A1 =
{(i, j) ∈ Ω | i = 1} das Ereignis, dass der erste Würfel eine 1 zeigt und der
zweite beliebig ist. Analog lassen sich Ereignisse A2 , . . . , A6 beschreiben. Auf
der anderen Seite können durch Festlegung der Augenzahl des zweiten Würfels
Ereignisse B1 = {(i, j) ∈ Ω | j = 1}, B2 , . . . , B6 definiert werden. Offensichtlich
ist die Wahrscheinlichkeit dieser Ereignisse jeweils 1/6 und Durchschnitte wie
A1 ∩ B3 = {(1, 3)} haben die Wahrscheinlichkeit 1/36. Folglich ist
Pr(A1 |B3 ) =
Pr(A1 ∩ B3 )
1/36
1
=
=
Pr(B3 )
1/6
6
und analog ist die bedingte Wahrscheinlichkeit von jedem Ai unter einem beliebigen Bj gleich 1/6, also gleich der Wahrscheinlichkeit von Ai selbst. Diese
Eigenschaft ist durch die Unabhängigkeit der beiden Würfe begründet.
45
4. In einigen Fällen kann es hilfreich sein, die Sachverhalte durch ein Diagramm zu
veranschaulichen. Angenommen wir haben eine rote Urne mit zwei weißen und
vier schwarzen Kugeln und eine blaue Urne mit fünf weißen und drei schwarzen
Kugeln. Zuerst wird gewürfelt und wenn das Ergebnis 1 oder 2 ist, wird eine
Kugel aus der roten Urne, sonst eine Kugel aus der blauen Urne gezogen.
Die elementaren Ereignisse sind Paare aus einer Zahl zwischen 1 und 6 und
einer Farbe Schwarz oder Weiß. Das folgende Diagramm zeigt, wie sich die
Ergebnisse des Experiments aufspalten. Die Werte auf den Kanten geben bedingte Wahrscheinlichkeiten an, die Wahrscheinlichkeiten der Ereignisse auf der
rechten Seite ergeben sich als Produkt der Wahrscheinlichkeiten auf den Kanten des jeweiligen Wegs. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen,
5
= 19
.
ist demnach 19 + 12
36
Wahrscheinlichkeit
{1,2}
1/3
1/3
2/3
5/8
2/3
{3,4,5,6}
3/8
1/9
weiss
schwarz
2/9
5/12
weiss
schwarz
1/4
Definition: Zwei Ereignisse A und B werden unabhängig genannt, falls Pr(A ∩ B) =
Pr(A) · Pr(B).
Lemma: Sind A und B zwei unabhängige Ereignisse mit
Pr(A ∩ B) > 0, dann gilt Pr(A|B) = Pr(A) und Pr(B|A) = Pr(B).
Ereignisse mit positver Wahrscheinlichkeit, die einander ausschließen, wie zum Beispiel
A1 und A2 aus dem letzten Beispiel sind voneinander nicht unabhängig, also abhängig.
Weitere Beispiele für abhängige Ereignisse beim Spiel mit einem Würfel ist der Wurf
einer geraden Zahl und der Wurf einer 2 oder auch der Wurf einer geraden Zahl und
der Wurf einer Zahl ≤ 3. Auch im folgenden Beispiel geht es um die Abhängigkeit
von Ereignissen.
Beispiel: Ein Krebstest fällt mit 96% Wahrscheinlichkeit positiv aus, wenn der Patient Krebs hat und mit 94% Wahrscheinlichkeit negativ, wenn der Patient keinen
Krebs hat. Bei einem Patienten in dessen Altersgruppe 0.5% aller Personen Krebs
haben, fällt der Test positiv aus. Wie wahrscheinlich ist es, dass er tatsächlich Krebs
hat?
Wir betrachten die folgenden Ereignisse
46
K
N
T
zufälliger Patient hat Krebs
Pr(K) = 0.005
zufälliger Patient hat keinen Krebs
Pr(N ) = 0.995
Test positiv bei zufälligem Patienten Pr(T ) =??
Pr(K ∩ T )
.
Gesucht ist die bedingte Wahrscheinlichkeit Pr(K|T ) =
Pr(T )
Pr(K ∩ T )
Aus Pr(T |K) =
= 0.96 kann man Pr(K ∩ T ) = 0.005 · 0.96 ausrechnen.
Pr(K)
Dagegen ist Pr(T |N ) = 1 − Pr T |N = 1 − 0.94 = 0.06. Zur Bestimmung von Pr(T )
überlegt man sich, dass das Ereignis T die disjunkte Vereinigung (T ∩K)∪(T ∩N ) ist
und sich die Wahrscheinlichkeiten der beiden Komponenten wieder durch bedingte
Wahrscheinlichkeiten ausdrücken lassen:
Pr(T ) = Pr(T |K) · Pr(K) + Pr(T |N ) · Pr(N ) = 0.96 · 0.005 + 0.06 · 0.995. Letztlich
erhalten wir
Pr(K|T ) =
0.005 · 0.96
Pr(K ∩ T )
=
= 0.0744 . . .
Pr(T )
0.96 · 0.005 + 0.06 · 0.995
Damit ist die Wahrscheinlichkeit, dass der Patient mit positivem Test wirklich Krebs
hat, kleiner als 7.5%.
Definition: Sind (Ω1 , Pr1 ) und (Ω2 , Pr2 ) zwei Wahrscheinlichkeitsräume, dann ist
der Produktraum (Ω1 × Ω2 , Pr) definiert durch Pr((a1 , a2 )) = Pr1 (a1 ) · Pr2 (a2 ).
Diese Definition impliziert Unabhängigkeiten der folgenden Form: für alle A ⊆ Ω1
und B ⊆ Ω2 sind die Ereignisse A × Ω2 und Ω1 × B voneinander unabhängig. Ein
Beispiel dafür wurde bereits behandelt, denn der Wahrscheinlichkeitsraum für zwei
Würfel ist das Produkt des Raums eines Würfels mit sich selbst. Im folgenden werden
endliche Produkte des Münzwurfraums genauer analysiert:
• Eine faire Münze wird sechsmal geworfen. Der zugehörige Wahrscheinlichkeitsraum besteht aus allen 6-Tupeln (oder 0/1–Folgen der Länge 6) mit Gleichverteilung, d.h. jedes Tupel hat die Wahrscheinlichkeit 216 . Wie groß ist die
Wahrscheinlichkeit des Ereignisses, dass genau zwei Einsen in dem Tupel auftreten?
Die Anzahl dieser Tupel stimmt offensichtlich mit der Anzahl der 2–Kombinationen
einer 6–Menge überein. Folglich hat das Ereignis die Wahrscheinlichkeit 62 /26 .
Allgemein
ist die Wahrscheinlichkeit für k mal Zahl bei n Münzwürfen gleich
n 1
.
k 2n
• Sei eine “unfaire” Münze gegeben, die mit Wahrscheinlichkeit p (0 < p < 1)
Zahl (d.h. 1) und mit Wahrscheinlichkeit q = 1 − p Kopf (d.h. 0) liefert.
Betrachtet man den Wahrscheinlichkeitsraum für n Münzwürfe, dann ist die
Wahrscheinlichkeit einer festen Folge der Länge n mit genau k Einsen gleich
pk (1 − p)n−k . Die Wahrscheinlichkeit
des Ereignisses, dass eine Folge genau k
Einsen enthält, ist nk pk (1 − p)n−k . Deshalb werden Verteilungen dieser Art
auch Binomialverteilungen genannt.
47
4.2
Zufallsvariable und Erwartungswert
Definition: Sei (Ω, Pr) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable oder
Zufallsgröße ist eine Funktion X : Ω −→ R.
Im Fall eines Würfels oder einer zufällig gezogenen Zahl aus einer Urne fällt der Unterschied zwischen einem elementaren Ereignis und einer Zufallsvariable nicht auf,
weil das Ereignis selbst schon eine Zahl ist, d.h. man kann die identische Abbildung als eine Zufallsvariable ansehen. Die folgenden Beispiele zeigen, dass man viele
Zufallsexperimente auf sehr natürliche Weise mit Zufallsvariablen beschreiben kann.
Beispiele:
1) Auf dem diskreten Wahrscheinlichkeitsraum Ω = {1, 2, . . . , 6} × {1, 2, . . . , 6} für
zwei Münzwürfe sind Zufallsvariablen für die Summe und die Differenz der beiden
Werte interessant: X(a, b) = a + b
Y (a, b) = |a − b|.
2) Auf dem Wahrscheinlichkeitsraum für n Münzwürfe Ω = {0, 1}n interessiert man
sich vor allem für die Zufallsvariablen, welche die Anzahl der Zahl- bzw. Kopfergebnisse in einer solchen Serie zählen, d.h.
X(a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 1}|
Y (a1 , a2 , . . . , an ) = |{i | 1 ≤ i ≤ n und ai = 0}| = n − X(a1 , a2 , . . . , an )
3) Bei der Wiederholung von Münzwürfen bis zur ersten Zahl (oder bis zum ersten
Kopf) ist offensichtlich die Länge des Experiments eine interessante zufällige Größe:
X(0, 0, . . . , 0, 1) = n
| {z }
(n−1) mal
Definition:
Der Erwartungswert der Zufallsvariablen X ist definiert als E(X) =
P
a∈Ω X(a)Pr(a).
Im ersten und dritten Beispiel kann man Erwartungswerte relativ leicht ausrechnen:
1) E(X) = 7 und E(Y ) = 70
;
36
P∞
3) E(X) = n=1 n · 21n = 2 (ist etwas schwerer).
Im zweiten Beispiel ist E(X) = n2 die richtige Antwort. Intuitiv ist das klar, aber eine
direkte Berechnung durch konkrete Auswertung der Definition ist relativ aufwändig.
Der folgende Fakt macht die Bestimmung des Erwartungswerts sehr einfach.
Lemma: Der Erwartungswert ist additiv, d.h. für beliebige Zufallsvariable X, Y :
Ω −→ R gilt E(X + Y ) = E(X) + E(Y ), wobei die neue Variable X + Y in naheliegender Weise durch (X + Y )(a) = X(a) + Y (a) definiert ist.
Anwendungen:
• Wir betrachten die binomialverteilte Zufallsvariable X aus Beispiel 2, die jedem
0/1–Tupel der Länge n die Anzahl seiner Einsen zuordnet. Um das Beispiel
noch etwas allgemeiner zu machen, betrachten wir eine unfaire Münze, die mit
Wahrscheinlichkeit p eine 1 (Zahl) und mit Wahrscheinlichkeit q = 1 − p eine 0
48
(Kopf) liefert. Gruppiert man die Folgen derart, dass alle
P Folgen mit genau k
Einsen einer Gruppe angehören, so erhält man E(X) = nk=0 k nk pk (1 − p)n−k .
Es ist relativ aufwändig, daraus E(X) = np abzuleiten. Durch Nutzung der
Additivität der Erwartungswerte kann man diese Formel einfacher erhalten:
Offensichtlich ist X = X1 + X2 + . . . + Xn , wobei die Variable Xi angewendet
auf eine Folge von Münzwurfergebnissen (a1 , . . . , an ) das Ergebnis des i-ten
Wurfs auswertet, also Xi ((a1 , . . . , an )) = ai . Da die Erwartungswerte dieser
Summanden jeweils p sind, folgt E(X) = E(X1 ) + . . . + E(Xn ) = np.
• An einem Tisch sitzen 12 Personen. Von jeder Person wurde ein Foto gemacht.
Diese 12 Bilder liegen verdeckt auf dem Tisch. Jede Person zieht zufällig ein
Foto (zufällig bedeutet hier, dass alle möglichen Zuordnungen der Bilder gleich
wahrscheinlich sein sollen). Wie hoch ist die erwartete Anzahl der Personen,
die ihr eigenes Foto gezogen haben?
Wieder kann man die Zufallsvariable X, welche die Anzahl dieser Personen
zählt, als Summe von zwölf Variablen X1 , . . . , X12 darstellen, wobei Xi den
Wert 1 hat, wenn Person i ihr eigenes Foto gezogen hat, und 0 sonst. Offen1
1
für alle i und folglich ist E(X) = 12 · 12
= 1.
sichtlich ist E(Xi ) = 12
Aus dieser Betrachtung ergibt sich außerdem die (vielleicht etwas überraschende)
Tatsache, dass der Erwatungswert nicht von der Anzahl der Personen abhängt
- auch bei 100 Personen zieht im Erwartungswert eine Person ihr eigenes Foto.
• Eine Versicherung macht folgende Kalkulation: Jeder Versicherte zahlt 100
Euro ein. Mit Wahrscheinlichkeit von 1/20 (also 5 %) muss eine Leistung
von 1000 Euro und mit Wahrscheinlichkeit 1/10 muss eine Leistung von 400
Euro erbracht werden. Wie hoch ist der Erwartungswert für den Gewinn (pro
Versicherungsnehmer)?
Der zu betrachtende Wahrscheinlichkeitsraum hat drei Elementarereignisse a1 , a2
und a3 mit Pr(a1 ) = 1/20, Pr(a2 ) = 1/10 und Pr(a3 ) = 1−1/20−1/10 = 17/20.
Die Zufallsvariable X, die den Gewinn der Versicherung beschreibt, ist die Differenz aus einer Zufallsvariablen Y für die Einnahmen und einer Zufallsvariablen
Z für die Ausgaben in den einzelnen Ereignissen: Dabei hat Y in jedem Fall
den Wert 100 und Z(a1 ) = 1000, Z(a2 ) = 400 und Z(a3 ) = 0. Nach Definition
erhalten wir für den Erwartungswert
E(X) = E(Y ) − E(Z) = 100 − (1000 ·
1
1
+ 400 ·
+ 0) = 100 − 90 = 10
20
10
In vielen praktischen Anwendungen entstehen Zufallsvariable durch Messung von
zufälligen Größen, die auf sehr schwer zu analysierende Wahrscheinlichkeitsräume
zurückgehen. Beispiele dafür sind die Zeit, die man für seinen täglichen Arbeitsweg
braucht oder die Körpergröße einer Person. Deshalb spricht man häufig auch von der
Verteilung einer Variablen, d.h. man interessiert sich für die Wahrscheinlichkeit,
49
dass die Variable einen bestimmten Wert (oder einen Wert aus einem bestimmten Intervall) annimmt und weniger für die Wahrscheinlichkeiten der einzelnen elementaren Ereignisse. Die Wahrscheinlichkeit, dass eine Zufallsvariable X den Wert x0
bzw. einen Wert kleiner oder gleich x0 annimmt wird mit Pr(X = x0 ) bzw. Pr(X ≤ x0 )
notiert. In den gerade genannten Beispielen sind das sogenannte Normalverteilungen,
die man nicht mit einem diskreten Modell beschreiben kann. Es gibt aber auch eine
Reihe von diskreten Zufallsvariablen, die häufig auftreten und deshalb in bestimmte
Typen eingeteilt werden.
• Eine Gleichverteilung liegt vor, wenn eine Zufallsvariable k verschiedene Werte
annehmen kann und jeder Wert die Wahrscheinlichkeit 1/k hat.
• Eine Bernoulli–Verteilung mit dem Parameter p liegt vor, wenn eine Zufallsvariable X nur die Werte 0 und 1 annimmt und Pr(X = 1) = p, Pr(X = 0) = 1 − p
gilt.
• Eine Zufallsvariable X ist binomialverteilt mit den Parametern
n und p, wenn sie
n k
die Werte 0, 1, 2, . . . , n annimmt und Pr(X = k) = k p (1−p)n−k für alle k aus
dem Wertebereich gilt. Mit anderen Worten entsteht eine Binomialverteilung
immer dann, wenn man ein Bernoulli–Experiment n–mal wiederholt und die
Zufallsvariable die Anzahl der 1–Ergebnisse zählt.
• Eine Zufallsvariable X ist geometrisch verteilt mit dem Parameter p, wenn sie
alle Werte aus N+ annehmen kann und Pr(X = k) = (1−p)k−1 p für alle k ∈ N+
gilt. Mit anderen Worten entsteht eine geometrische Verteilung immer dann,
wenn man ein Bernoulli–Experiment so lange wiederholt, bis zum ersten Mal
eine 1 fällt und die Zufallsvariable die Anzahl der Versuche zählt.
Wichtige Anwendungen von Erwartungswerten in der Informatik sind die Analyse der
durchschnittlichen Laufzeit von Algorithmen (Ω besteht dann aus den Eingaben einer
bestimmten Größe und X(a) ist die Laufzeit für eine konkrete Eingabe a) und die
Analyse randomisierter Algorithmen. Im letzten Fall wird die Arbeit des Algorithmus
durch eingebaute Zufälle gesteuert (z.B. Auswahl eines zufälligen Pivotelements bei
Quicksort) und somit ist die Laufzeit für jede konkrete Eingabe eine Zufallsvariable,
deren Wert von den zufälligen Entscheidungen im Ablauf des Algorithmus abhängt.
50
5
5.1
Lineare Algebra
Einführung: Anschauliche Vektorrechnung
Zur Vorbereitung auf die Beschäftigung mit abstrakten Vektorräumen ist es angebracht, sich noch einmal mit intuitiven, elementargeometrischen Grundgedanken zu
dieser Theorie zu beschäftigen. Dabei geht man von Punkten in der Euklidischen
Ebene bzw. im (dreidimensionalen) Euklidischen Raum aus, die durch Koordinatenpaare bzw. Koordinatentripel beschrieben sind. Zur leichteren Veranschaulichung
werden wir im Folgenden vorwiegend Punkte in der Ebene betrachten, aber alle
Überlegungen lassen sich sinngemäß auf den Raum übertragen.
Freie und gebundene Vektoren
−→
Jedes geordnete Punktepaar beschreibt einen gebundenen Vektor AB, veranschaulicht
durch die gerichtete Strecke von A nach B. Auf der Menge der gebundenen Vektoren
−−→
−→
kann man eine Äquivalenzrelation einführen, unter der zwei Vektoren AB und A0 B 0
äquivalent sind, wenn es eine Parallelverschiebung (Translation) gibt, die A in A0 und
−−→
−→
B in B 0 überführt. Es ist klar, dass die Vektoren AB und A0 B 0 genau dann äquivalent
sind, wenn die Tupel der Koordinatendifferenzen zwischen B und A bzw. zwischen
B 0 und A0 gleich sind.
A’
A
B’
B
Eine Äquivalenzklasse dieser Relation nennt man einen freien Vektor. Anschaulich
kann man also einen freien Vektor als ein Objekt beschreiben, das eine bestimmte
Richtung und eine bestimmte Länge, aber keinen festgelegten Anfangspunkt hat. Da
ein freier Vektor durch das Differenzentupel der zu Grunde liegenden gebundenen
Vektoren eindeutig charakterisiert wird, verwendet man dieses Tupel auch als Bezeichnung für den freien Vektor. Eine besondere Rolle unter den freien Vektoren spielt
der Nullvektor (0, 0), der die Äquivalenzklasse aller gebundenen Vektoren der Form
−→
AA ist. Für den Nullvektor wird auch oft die Kurzbezeichnung ~0 verwendet.
Beispiel: Für die Punkte A = (−1, 2) und B = (1, 3) und den gebundenen Vektor
−→
AB entsteht das Differenzentupel (1−(−1), 3−2) = (2, 1), das den zugehörigen freien
Vektor bezeichnet.
−→
Der Standardrepräsentant eines freien Vektors (a1 , a2 ) ist der gebundene Vektor OA,
der vom Koordinatenursprung O = (0, 0) zum Punkt A = (a1 , a2 ) führt. Man nennt
diesen Vektor deshalb auch Ortsvektor des Punkts A.
51
Addition von Vektoren
−→
Gebundene Vektoren sind ein nützliches Werkzeug in der Physik, z.B. kann man AB
zur Beschreibung einer Kraft verwenden, die auf den Punkt A wirkt, wobei Richtung
und Betrag der Kraft durch den freien Vektor beschrieben sind. Darüber hinaus
sind sie sehr gut dazu geeignet, die Addition von Vektoren zu veranschaulichen: Die
−→
−−→
−→
Summe von zwei Vektoren der Form AB und BC ist der Vektor AC. Uns interessiert vor allem die Übertragung dieser Idee auf die freien Vektoren. Dazu muss
man die Addition durch komponentenweise Addition der Koordinaten realisieren,
d.h. (s1 , s2 ) + (t1 , t2 ) = (s1 + t1 , s2 + t2 ).
Zur Veranschaulichung der Addition von zwei freien Vektoren, die durch entsprechende
Ortsvektoren gegeben sind, konstruiert man ein Parallelogramm, dessen vom Koordinatenursprung abgehende Diagonale die Summe der zwei Vektoren repräsentiert.
v
w
v+w
w
v
Durch die Parallelogrammkonstruktion wird auch die Kommutativität der Vektoraddition sehr gut veranschaulicht. Zu jedem freien Vektor ~v kann man durch Umkehrung
der Vorzeichen bei allen Komponenten den sogenannten inversen Vektor −~v kon−→
struieren, der sich durch die Eigenschaft ~v + (−~v ) = ~0 auszeichnet. Ist AB ein
−→
Repräsentant von ~v , dann ist BA ein Repräsentant von −~v .
Multiplikation mit Skalaren
Freie Vektoren können verlängert oder verkürzt (skaliert) werden, indem die Länge
des Vektors ~v mit einem bestimmten Faktor multipliziert wird, aber die Richtung
gleich bleibt. Diese Faktoren - man nennt sie Skalare - können zunächst beliebige
positiv-reelle Zahlen sein, aber auch negative Zahlen r ∈ R kommen in Frage, wenn
man den inversen Vektor −~v mit dem Absolutbetrag |r| skaliert. Die Skalierung eines
Vektors ~v = (s1 , s2 ) mit einem Faktor r ∈ R wird als Multiplikation r · ~v notiert und
durch die Regel r · (s1 , s2 ) = (rs1 , rs2 ) ausgeführt.
Verbindung zu linearen Gleichungssystemen und geometrischen Fragen
Durch Anwendung von Multiplikation mit Skalaren und Vektoraddition entstehen
sogenannte Linearkombinationen von Vektoren, also Ausdrücke der Form r1 · v~1 +. . .+
rk · v~k . Ein wichtiges Problem, mit dem wir uns genauer beschäftigen werden, ist die
52
Frage, ob ein bestimmter Vektor ~v als Linearkombination aus vorgegebenen Vektoren
v~1 , v~2 , . . . , v~k erzeugt werden kann. Wir demonstrieren den Zusammenhang zwischen
dieser Frage, der Lösung von linearen Gleichungssystemen und einem geometrischen
Problem an einem Beispiel im dreidimensionalen Raum.
Problem 1: Kann man den Vektor ~v = (−1, 2, 5) als Linearkombination aus den
Vektoren v~1 = (5, 4, 3) und v~2 = (3, 1, −1) darstellen?
Problem 2: Hat das folgende lineare Gleichungssystem eine Lösung?
5α + 3β = −1
4α + β = 2
3α − β = 5
Problem 3: Liegt der Punkt (−1, 2, 5) in der Ebene, die von den Punkten (0, 0, 0),
(5, 4, 3) und (3, 1, −1) aufgespannt wird?
Man kann sich leicht von der Gleichwertigkeit der drei Probleme überzeugen: Eine
konkrete Lösung des Gleichungssystems würde die Koeffizienten für die Linearkombination von ~v liefern und zeigen, wie man den Ortsvektor des Punkts (−1, 2, 5) aus
den Ortsvektoren der Punkte (5, 4, 3) und (3, 1, −1) erzeugen könnte. Umgekehrt
wären Koeffizienten einer Linearkombination von ~v aus v~1 und v~2 auch Lösungen des
Gleichungssystems, usw.
Wir werden die lineare Algebra als eine Theorie kennenlernen, die es erlaubt, Probleme wie die oben genannten in ihrer allgemeinsten Form zu lösen und Zusammenhänge
zu weiteren interessanten Fragestellungen herzustellen.
5.2
Gruppen und Körper
In diesem Abschnitt wollen wir uns damit beschäftigen, welche mathematischen
Strukturen geeignet sind, Skalare eines Vektorraums zu beschreiben. Mit diesem
strukturellen Ansatz werden die Gemeinsamkeiten bzw. Analogien zwischen den verschiedenen Zahlenbereichen, aber auch zu anderen mathematischen Objekten herausgearbeitet. Eine mathematische Struktur wird in der Regel durch eine Trägermenge,
Operationen auf dieser Trägermenge und Eigenschaften dieser Operationen beschrieben.
Definition: Eine Gruppe (G, ∗) besteht aus einer Trägermenge G und einer Operation
∗ : G × G −→ G mit den folgenden drei Eigenschaften:
(G1)
∀a, b, c ∈ G (a ∗ b) ∗ c = a ∗ (b ∗ c)
(G2)
∃e ∈ G ∀a ∈ G a ∗ e = a = e ∗ a
(e ist neutrales Element)
(G3)
∀a ∈ G ∃ā ∈ G a ∗ ā = e = ā ∗ a
(ā ist das zu a inverse Element)
(Assoziativität)
(G, ∗) ist kommutative (abelsche) Gruppe, falls zudem ∀a, b ∈ G a ∗ b = b ∗ a gilt.
53
Ist für ein Paar (G, ∗) die Eigenschaft (G1) erfüllt, spricht man von einer Halbgruppe
und sind die Eigenschaften (G1) und (G2) erfüllt, spricht man von einem Monoid.
Beispiele:
• (Z, +) ist eine kommutative Gruppe.
• (N, +) erfüllt mit e = 0 nur die Kriterien (G1) und (G2) und ist deshalb ein
Monoid.
• (N+ , +) erfüllt nur das Kriterium (G1) und ist damit eine Halbgruppe.
• (Q, +) ist eine Gruppe.
• (Q, ·) ist ein Monoid (kein zu 0 inverses Element).
• (Q \ {0}, ·) ist eine Gruppe.
• (S(M ), ◦), wobei S(M ) die Menge der bijektiven Funktionen von M auf M
und ◦ die Funktionskomposition darstellen, ist eine Gruppe. Dabei bildet die
identische Funktion IdM das neutrale Element und die inversen Elemente sind
durch die Umkehrfunktionen f −1 gegeben.
• Bezeichne Bn die Menge aller n-stelligen Booleschen Funktionen und ∨, ∧, ⊕
die Operationen Disjunktion, Konjunktion und Antivalenz.
• (Bn , ∨) ist ein Monoid, wobei das neutrale Element die Überall-Null-Funktion
ist.
• (Bn , ∧) ist ein Monoid, wobei das neutrale Element die Überall-Eins-Funktion
ist.
• (Bn , ⊕) ist eine Gruppe wobei das neutrale Element wieder durch die
Überall-Null-Funktion gestellt wird und jede Funktion zu sich selbst invers ist.
Definition: Ein Körper (K, ⊕, ) besteht aus einer Menge K und zwei Operationen
⊕, : K × K −→ K mit den folgenden Eigenschaften:
(K1)
(K, ⊕) ist eine kommutative Gruppe mit einem neutralen Element 0.
(K2)
(K \ {0}, ) ist eine kommutative Gruppe mit einem neutralen Element 1.
(K3)
∀a, b, c ∈ K
a (b ⊕ c) = a b ⊕ a c.
Das zu einem a ∈ K ⊕-inverse Element wird mit −a bezeichnet. Ist a 6= 0, dann
bezeichent man das -inverse Element mit a−1 oder mit a1 .
Beispiele:
• (Q, +, ·) ist ein Körper.
54
• (R, +, ·) ist ein Körper.
• (C, +, ·) ist ein Körper.
• (Z, +, ·) ist kein Körper.
• Für jede Primzahl p bezeichne Zp die Menge {0, 1, . . . , p − 1} der möglichen
Reste beim Teilen durch p. Definiert man darauf die Operationen Addition
modulo p und Multiplikation modulo p entsteht ein Körper. Der Beweis, dass
immer inverse Elemente bezüglich der Multiplikation existieren und Methoden
zur Berechnung dieser Elemente, werden später besprochen.
Schlussfolgerungen aus den Axiomen:
Ein wesentlicher Vorteil der strukturellen Betrachtungen zeigt sich darin, dass man
Sätze über Strukturen beweisen kann, die dann in jedem konkreten Exemplar der
Struktur gültig sind und somit angewendet werden können. Exemplarisch werden
hier ein paar einfache Schlussfolgerungen aus den Gruppen- und Körperaxiomen
vorgestellt.
1. Das neutrale Element in einer Gruppe ist eindeutig.
Beweis:
Angenommen zwei Elemente e und e0 einer Gruppe erfüllen (G2).
Dann wäre e ∗ e0 = e0 wegen (G2) für e und e ∗ e0 = e wegen (G2) für e0 . Damit
muss e = e0 sein, d.h. das neutrale Element ist eindeutig.
2. In einer Gruppe ist für jedes Element a ∈ G das zu a inverse Element eindeutig.
Beweis:
Angenommen ā und ã erfüllen beide (G3). Wir betrachten das
Gruppenelement b = (ā ∗ a) ∗ ã:
(ā ∗ a) ∗ ã = b = ā ∗ (a ∗ ã)
e ∗ ã = b = ā ∗ e
ã = b = ā
|(G1)
|(G3) für ā und für ã
|((G2))
3. In einer Gruppe hat jede Gleichung der Form (a ∗ x) ∗ b = c eine eindeutige
Lösung für die Variable x.
Beweis:
Die Gleichung wird äquivalent umgeformt, d.h. jeder Schritt der
Umformung ist auch umkehrbar. Werden beide Seiten der Gleichung von rechts
mit dem zu b inversen Element verknüpft, und auf der linken Seite (G3) und
(G2) angewendet, enhält man
(a ∗ x) ∗ b = c ⇐⇒ a ∗ x = c ∗ b̄
Werden analog beide Seiten der neuen Gleichung von links mit ā verknüpft, so
ergibt sich die eindeutige Lösung der Gleichung:
a ∗ x = c ∗ b̄ ⇐⇒ x = ā ∗ (c ∗ b̄)
55
4. In einem Körper hat jede Gleichung der Form a x ⊕ b = c eine eindeutige
Lösung, wenn a 6= 0 ist.
Beweis:
Man verwendet das Symbol −b für das bezüglich ⊕ zu b inverse
Element und a−1 für das bezüglich zu a inverse Element und erreicht mit
ähnlichen Umformungen wie beim dritten Punkt die folgende Äquivalenz:
a x ⊕ b = c ⇐⇒ x = a−1 ∗ (c ⊕ −b)
Die nützliche Eigenschaft der eindeutigen Lösbarkeit beschränkt sich in Körpern
im Allgemeinen auf lineare Gleichungen. Eine einfache quadratische Gleichung,
wie x x = 2 ist im Körper der rationalen Zahlen nicht lösbar.
5.3
Vektorräume
In allen nachfolgenden Betrachtungen wird K einen Körper mit den Operationen +
und · und den neutralen Elementen 0 und 1 bezeichnen.
Definition: Ein Vektorraum (abgekürzt VR) über dem Körper K besteht aus einer
Menge V mit zwei Operationen ⊕ : V ×V → V und : K×V → V mit den folgenden
Eigenschaften:
• (V, ⊕) ist eine kommutative Gruppe mit neutralem Element ~0
(~v bezeichnet das ⊕-inverse Element zu ~v )
• ∀ λ, µ ∈ K ∀ ~v ∈ V λ (µ ~v ) = (λ · µ) ~v
• ∀ ~v ∈ V 1 ~v = ~v
• ∀ λ, µ ∈ K ∀ ~v ∈ V (λ + µ) ~v = (λ ~v ) ⊕ (µ ~v )
• ∀ λ ∈ K ∀ ~v , w
~ ∈ V λ (~v ⊕ w)
~ = (λ ~v ) ⊕ (λ w)
~
Beispiele:
1. Der reelle Vektorraum Rn über dem Körper R:
V = Rn = {(x1 , . . . , xn ) | xi ∈ R}
Die Addition und Multiplikation mit Skalaren erfolgen komponentenweise:
(x1 , . . . , xn ) ⊕ (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
λ (x1 , . . . , xn ) = (λx1 , . . . , λxn )
Es ist offensichtlich, dass (0, . . . , 0) der Nullvektor ist und dass man inverse
Vektoren durch komponentenweise Umkehrung des Vorzeichens erhält:
(x1 , . . . , xn ) = (−x1 , . . . , −xn )
56
2. Die auf dem Intervall [0, 1] definierten reellwertigen Funktionen bilden einen
Vektorraum über dem Körper R:
V = {f | f : [ 0, 1 ] → R}
Die Addition von zwei Funktionen f, g ∈ V und die Multiplikation einer Funktion f mit einem Skalar λ ergeben neue Funktionen f ⊕ g bzw. λ f , die wie
folgt punktweise definiert werden:
(f ⊕ g)(x) = f (x) + g(x)
(λ f )(x) = λ · (f (x))
3. Die reellen Zahlen R sind ein Vektorraum über dem Körper Q.
Bemerkung 1: Die Frage, ob man Vektoren des Rn in Zeilen- oder Spaltenform
schreibt, ist zunächst zweitrangig. Hier haben wir uns aus Platzgründen für die
Zeilenform entschieden, aber insbesondere wenn lineare Abbildungen durch Matrizen
repräsentiert werden, muss man die Spaltenform nutzen.
Bemerkung 2: Die Verwendung von verschiedenen Symbolen für die Addition von
Vektoren und von Skalaren hat rein didaktischen Charakter. Ab jetzt werden wir in
beiden Fällen das übliche + verwenden. Welche Operation anzuwenden ist, ergibt
sich eindeutig aus dem Kontext. Gleiches gilt für die Multiplikationen und für die
Subtraktion, welche eigentlich als Addition des inversen Elements zu verstehen ist,
d.h. ~v − w
~ := ~v ⊕ (w).
~
Unterräume
Definition: Eine nichleere Teilmenge U eines Vektorraums V über K wird Unterraum oder genauer Untervektorraum von V (abgekürzt UR) genannt, falls
• ∀ ~v , w
~ ∈U
~v + w
~ ∈U
• ∀ ~v ∈ U ∀ λ ∈ K
λ~v ∈ U
Diese Eigenschaften bedeuten, dass die Menge U abgeschlossen gegen Vektoraddition
und Multiplikation mit Skalaren sein muss.
Beispiele:
1. Für den Vektorraum V = Rn = {(x1 , . . . , xn ) | xi ∈ R} ist die Teilmenge
U = {(x1 , x2 , 0, . . . , 0) | x1 , x2 ∈ R} ein Unterraum von V .
2. Für den Vektorraum V = {f | f : [0, 1] → R} sind die Teilmengen
• U = {f | f : [0, 1] → R, f ist stetig} und
• U 0 = {f | f : [0, 1] → R, f ist linear, d.h. f (x) = ax + b}
Unterräume von V .
3. Betrachtet man V =√R als Vektorraum über dem Körper Q, dann ist die Teilmenge U = {q1 + q2 2 | q1 , q2 ∈ Q} ein Unterraum von V .
57
Satz: Sei V ein Vektorraum
T über einem Körper K und {Ui | i ∈ I} eine Familie
von Unterräumen, dann ist Ui auch ein Unterraum von V .
i∈I
Beweis: Sei ~u, ~v ∈
T
Ui und λ ∈ K, dann gilt
i∈I
• ~u und ~v sind Elemente von allen Ui
• ~u + ~v und λ~u sind Elemente von allen Ui
T
T
Daraus folgt, dass ~u + ~v ∈ Ui und λ~u ∈ Ui .
i∈I
i∈I
Beispiel: Durchschnitt von xy-Ebene und der yz-Ebene im R3 ist die y-Achse.
1111111111111111111
0000000000000000000
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
0000000000000000000
1111111111111111111
0000000000000000000111111
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
000000
111111
0000000000000000000
1111111111111111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
00000000
11111111
0000000000000000000111111
1111111111111111111
000000
111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
111111
00000000
11111111
0000000000000000000
1111111111111111111
000000
111111
x
000000001111111111111111111
11111111
0000000000000000000
000000
00000000
11111111
0000000000000000000111111
1111111111111111111
000000
111111
00000000
11111111
000000
0000000000000000000111111
1111111111111111111
00000000
11111111
0000000000000000000
1111111111111111111
00000000
11111111
0000000000000000000
1111111111111111111
000000001111111111111111111
11111111
0000000000000000000
00000000
11111111
0000000000000000000
1111111111111111111
00000000
11111111
0000000000000000000
000000001111111111111111111
11111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
0000000000000000000
1111111111111111111
y
z
Die folgenden zwei Beobachtungen sollten als Übung leicht zu beweisen sein. Ist
U ein Unterraum eines Vektorraums V , dann gilt:
• Der Nullvektor ~0 gehört zu U ;
• Für jeden Vektor ~u ∈ U gehört auch der inverse Vektor −~u zu U .
Linearkombinationen und lineare Hülle
Definition: Sind ~v1 , ~v2 , . . . , ~vk ∈ V paarweise verschiedene Vektoren und λ1 , λ2 , . . . , λk ∈
K beliebige Skalare, so nennt man den Vektor
λ1~v1 + λ2~v2 + . . . + λk~vk
eine Linearkombination (abgekürzt LK) aus den Vektoren ~v1 , ~v2 , . . . , ~vk .
Lemma: Sei M ⊆ V eine Teilmenge eines Vektorraums V , dann bildet die Menge
UM aller Linearkombinationen von Vektoren aus M einen Unterraum von V .
Beweis: Man muss die Abgeschlossenheit von UM bezüglich Vektoraddition und
Multiplikation mit Skalaren nachweisen. Dazu betrachten wir ein Skalar α ∈ K und
zwei Vektoren aus UM :
58
• ~v = λ1~v1 + λ2~v2 + . . . + λk~vk mit v~i ∈ M für 1 ≤ i ≤ k
• w
~ = µ1 w
~ 1 + µ2 w
~ 2 + . . . + µl w
~ l mit w
~ i ∈ M für 1 ≤ i ≤ l
Abgeschlossenheit bezüglich Multiplikation mit Skalaren:
α~v = α(λ1~v1 + λ2~v2 + . . . + λk~vk ) = (αλ1 )~v1 + (αλ2 )~v2 + . . . + (αλk )~vk ∈ UM
Um die Abgeschlossenheit bezüglich Addition zu zeigen, nehmen wir oBdA. an (Kommutativgesetz anwenden), dass alle Vektoren, die in den Linearkombinationen von ~v
und w
~ gemeinsam auftreten (die Anzahl sei j), linksbündig stehen, d.h. v~i = w
~ i für
alle i zwischen 1 und j und {~vj+1 , . . . , v~k } ∩ {w
~ j+1 , . . . , w
~ l } = ∅. Dieser kleine technische Trick ist notwendig, um eine Linearkombination von paarweise verschiedenen
Vektoren zu konstruieren:
~v + w
~ = (λ1~v1 + λ2~v2 + . . . + λk~vk ) + (µ1 w
~ 1 + µ2 w
~ 2 + . . . + µ w)
~
= (λ1 + µ1 )v~1 + . . . + (λj + µj )~
vj + λj+1~vj+1 + . . . + λk v~k + µj+1 w
~ j+1 + . . . + µl w
~l
Damit liegt ~v + w
~ als Linearkombination von Vektoren aus M auch in UM .
Definition: Sei M ⊆ V eine Menge von Vektoren, dann ist die lineare Hülle Lin(M )
von M der kleinste Unterraum von V (bezüglich Inklusion), der M enthält, d.h.
\
Lin(M ) =
U
U ist UR von V
M ⊆U
Satz: Die lineare Hülle einer Menge M ⊆ V ist die Menge aller Linearkombinationen
der Vektoren aus M , d.h.
Lin(M ) = {λ1~v1 + . . . + λk~vk | λi ∈ K, ~vi ∈ M }
Beweis: Einerseits bildet die Menge UM aller Linearkombinationen von Vektoren
aus M einen Unterraum (Lemma). Andererseits enthält jeder Unterraum U , der M
enthält, auch alle Linearkombinationen von Vektoren aus M (Abgeschlossenheit von
Unterräumen bezüglich der Addition und der Multiplikation mit Skalaren). Daraus
folgt, dass UM der kleinste Unterraum ist, der M enthält.
5.4
Lineare Unabhängigkeit, Basis und Dimension
Definition: Eine Menge {~v1 , ~v2 , . . . , ~vk } von k Vektoren heißt linear abhängig (l.a.),
wenn eine Linearkombination existiert, mit
λ1~v1 + λ2~v2 + . . . + λk~vk = ~0
wobei mindestens ein λi 6= 0 ist. Eine solche Linearkombination nennt man nichttriviale Linearkombination des Nullvektors.
59
Definition: Eine Menge M ⊆ V ist linear unabhängig, wenn es keine nichttriviale
Linearkombination des Nullvektors von Vektoren aus M gibt.
Folgerung: Eine Menge M ⊆ V ist linear unabhängig, wenn jede endliche Teilmenge
von M linear unabhängig ist.
Bemerkung 1: Man kann die Definition der linearen Unabhängigkeit auch sinngemäß auf Folgen von Vektoren anwenden. In diesem Fall reicht die Wiederholung
eines Vektors in der Folge aber schon aus, lineare Abhängigkeit zu erzeugen, denn
wenn v~i = v~j ist, dann ist 1 · v~i + (−1) · v~j einen nichttriviale Linearkombination des
Nullvektors.
Bemerkung 2: Aus ~0 ∈ M folgt lineare Abhängigkeit, denn ~0 = 1 · ~0 ist eine
nichttriviale Linearkombination des Nullvektors.
Beispiele:
1. Die Vektoren
 
0

v~1 = 1 ,
1
 
1

v~2 = 1 ∈ R3
1
sind linear unabhängig, denn für jede Linearkombination λ1 v~1 + λ2 v~2 = ~0 gilt
0 = λ2
0 = λ1 + λ2
0 = λ1 + λ2
und daraus folgt, λ1 = λ2 = 0.
2. Im Vektorraum V = {f | f : [ 0, 1 ] → R} sind die Funktionen f und g, die
durch f (x) = x+1 und g(x) = 2 definiert sind, linear unabhängig, denn für jede
Linearkombination λf + µg, die den Nullvektor, also die Funktion h0 (x) = 0
ergibt, wäre
h0 (0) = 0 = λf (0) + µg(0) = λ + 2µ
h0 (1) = 0 = λf (1) + µg(1) = 2λ + 2µ
und daraus folgt, λ = µ = 0.
Satz: Für jede Teilmenge M eines Vektorraums V sind die folgenden Aussagen
äquivalent:
1. Die Menge M ist linear unabhängig.
2. Kein Vektor ~v ∈ M kann als Linearkombination aus den übrigen Vektoren aus
M dargestellt werden.
3. Jeder Vektor ~v ∈ Lin(M ) hat eine eindeutige Darstellung als Linearkombination
aus M .
60
Beweis: Der Satz wird über die negierten Aussagen nach folgendem Schema bewiesen:
¬(1)
⇒
¬(2)
⇒
¬(3)
⇒
¬(1)
1. Schritt
2. Schritt
3. Schritt
Zuerst formulieren wir die Negationen der drei Aussagen:
¬(1): Es gibt eine nichttriviale Linearkombination von ~0.
¬(2): Es gibt einen Vektor ~v ∈ M , der Linearkombination der übrigen Vektoren ist.
¬(3): Es gibt einen Vektor ~v ∈ Lin(M ) mit verschiedenen Linearkombinationen aus
M.
Die drei Implikationen aus dem Schema kann man wie folgt beweisen.
• Schritt 1: Angenommen es gibt eine nichttriviale Linearkombination von ~0:
~0 = λ1~v1 + λ2~v2 + . . . + λk~vk
mit ~v1 , ~v2 , . . . , ~vk ∈ M , λ1 , λ2 , . . . , λk ∈ K und ∃ λi 6= 0.
Ohne Beschränkung der Allgemeinheit können wir λ1 6= 0 annehmen. Diese
Gleichung wird in zwei Schritten nach ~v1 umgestellt:
(−λ1 )~v1 = λ2~v2 + λ3~v3 + . . . + λk~vk
~v1 = (−λ1 )−1 λ2~v2 + (−λ1 )−1 λ3~v3 + . . . + (−λ1 )−1 λk~vk
Damit ist ~v1 eine Linearkombination aus den übrigen Vektoren aus M .
• Schritt 2: Angenommen es gibt einen Vektor ~v , der Linearkombination der
übrigen Vektoren ist:
~v = λ1~v1 + λ2~v2 + . . . + λk~vk
wobei ~v 6∈ {~v1 , . . . , ~vk }. Damit existieren mindestens zwei verschiedene Linearkombinationen von ~v :
~v = 1 · ~v + 0 · ~v1 + 0 · ~v2 + . . . + 0 · ~vk
= 0 · ~v + λ1 · ~v1 + λ2 · ~v2 + . . . + λk · ~vk
• Schritt 3: Angenommen, es existiert ein Vektor ~v ∈ Lin(M ) mit zwei verschiedenen Linearkombinationen aus M :
~v = λ1~u1 + λ2~u2 + . . . + λm~um
= µ1 w
~ 1 + µ2 w
~ 2 + . . . + µn w
~n
Dann betrachten wir die Vereinigung der zwei Vektormengen
{~u1 , ~u2 , . . . , ~um } ∪ {w
~ 1, w
~ 2, . . . , w
~ n } = {~v1 , ~v2 , . . . , ~vk } ⊆ M
61
und erweitern die beiden gegebenen Linearkombinationen zu Linearkombinationen über dieser Vereinigung, indem für die Koeffizienten der jeweils fehlenden
Vektoren Nullen gesetzt werden:
~v = λ01~v1 + λ02~v2 + . . . + λ0k~vk
= µ01~v1 + µ02~v2 + . . . + µ0k~vk
wobei
λ0i
=
λj
0
falls ~vi = ~uj
sonst
und
µ0i
=
µj
0
falls ~vi = w
~j
sonst
Da auch diese Linearkombinationen verschieden sind, gibt es ein i0 , so dass
λ0i0 6= µ0i0 . Durch Subtraktion der beiden Gleichungen ergibt sich
~0 = ~v − ~v = (λ01~v1 + λ02~v2 + . . . + λ0k~vk ) − (µ01~v1 + µ02~v2 + . . . + µ0k~vk )
= (λ01 − µ01 )~v1 + . . . + (λ0i0 − µ0i0 ) ~vi0 + . . . + (λ0k − µ0k )~vk
| {z }
6=0
Damit wurde die Existenz einer nichttrivialen Linearkombination von ~0 abgeleitet.
Erzeugendensystem und Basis
Definition: Eine Teilmenge M ⊆ V heißt Erzeugendensystem von V , wenn die
lineare Hülle von M der Vektorraum V ist, d.h. wenn Lin(M ) = V .
Definition: Eine Teilmenge M ⊆ V heißt Basis von V , wenn sie ein Erzeugendensystem von V und linear unabhängig ist.
Folgerung: Eine Teilmenge M ⊆ V ist genau dann eine Basis von V , wenn jeder
Vektor ~v ∈ V eine eindeutige Darstellung als Linearkombination aus M hat.
Beispiele:
• Die Vektoren
 
1
0
 
~e1 =  ..  ,
.
0
 
0
1
 
~e2 =  ..  ,
.
0
 
0
0
 
. . . , ~en =  .. 
.
1
bilden eine Basis des Vektorraums Rn , welche man kanonische Basis oder
Standardbasis von Rn nennt. Zum Nachweis der Basiseigenschaften reicht die
62
Überlegung, dass jeder Vektor aus Rn eindeutig als Linearkombination darstellbar ist:
 
a1
 a2 
 
 ..  = a1~e1 + a2~e2 + . . . + an~en
.
an
• Die Vektoren
 
1
0
 
~v1 = ~e1 =  ..  ,
.
0
 
1
1
 
~v2 = ~e1 + ~e2 =  ..  ,
.
0
 
1
1
 
. . . , ~vn = ~e1 + . . . + ~en =  .. 
.
1
bilden eine andere Basis des Vektorraums Rn .
Satz: Für jede Teilmenge M ⊆ V sind die folgenden Bedingungen äquivalent:
1. Die Menge M ist Basis von V .
2. Die Menge M ist ein minimales Erzeugendensystem von V .
3. Die Menge M ist eine maximale linear unabhängige Menge.
Die Begriffe ”‘minimal”’ und ”‘maximal”’ beziehen sich dabei auf die Inklusionsrelation von Mengen.
Während man die Äquivalenz der ersten beiden Bedingungen aus dem Satz über
die verschiedenen Charakterisierungen der linearen Unabhängigkeit ableiten kann,
hilft bei der Äquivalenz zwischen der ersten und der dritten Bedingung das folgende
Lemma.
Lemma: Ist eine Teilmenge M ⊆ V linear unabhängig und der Vektor ~v ∈ V nicht in
der linearen Hüllen von M , dann ist die Menge M ∪ {~v } ebenfalls linear unabhängig.
Beweis (indirekt): Angenommen M ∪{~v } wäre linear abhängig, dann existiert eine
nichttriviale Linearkombination
~0 = λ1~v1 + λ2~v2 + . . . + λk~vk + λ~v
in der λ 6= 0 sein muss, denn anderenfalls wäre das eine nichttriviale Linearkombination des Nullvektors über M . Durch Gleichungsumstellung ergibt sich
~v = (−λ)−1 λ1~v1 + (−λ)−1 λ2~v2 + . . . + (−λ)−1 λk~vk
Damit ist ~v ∈ Lin(M ), ein Widerspruch zur Annahme.
Basisergänzungssatz von Steinitz : Sei V ein Vektorraum über dem Körper K,
M = {v~1 , . . . , v~k } eine linear unabhängige Teilmenge von V und N = {w~1 , . . . , w
~l}
63
eine weitere endliche Teilmenge von V , so dass die Vereinigung M ∪ N ein Erzeugendensystem von V ist. Dann kann man die Menge M durch eventuelle Hinzunahme
von Vektoren aus der Menge N zu einer Basis des Vektorraumes V erweitern.
Beweisidee: Man beweist diesen Satz mit vollständiger Induktion nach l = |N |.
• Der Induktionsanfang mit l = 0 ist einfach, denn dann ist M nach den Voraussetzungen bereits eine Basis und muss nicht ergänzt werden.
• Für den Induktionsschritt von l − 1 nach l macht man eine Fallunterscheidung:
1. Ist Lin(M ) = V , dann ist M bereits eine Basis.
2. Ist Lin(M ) 6= V , dann muss es ein w
~ i ∈ N geben, das nicht zu Lin(M )
gehört (anderenfalls wäre Lin(M ∪ N ) = Lin(M ) 6= V ). Nach obigen
Lemma ist dann die Menge M 0 = M ∪ {w
~ i } linear unabhängig und das
0
0
Mengenpaar M und N = N \ {w
~ i } erfüllt die Induktionsvoraussetzung,
0
weil |N | = l − 1. Folglich kann man M 0 durch eventuelle Hinzunahme von
Vektoren aus der Menge N 0 zu einer Basis des Vektorraumes V erweitern.
    
1 
 1



0 , 1 und N die Standardbasis von R3 .
Beispiel: Sei M =


0
0
Der Vektor ~e1 ist bereits in M2 enthalten und damit keine geeignete Ergänzung für
M . Der Vektor ~e2 ist auch keine Basisergänzung, weil M ∪ {~e2 } linear abhängig wäre,
doch der dritte Vektor ~e3 ergänzt die Menge M zu einer Basis.
Die folgenden zwei Aussagen sind unmittelbare Konsequenzen aus dem Basisergänzungssatz.
Austauschlemma: Sind die Mengen {~v1 , ~v2 , . . . , ~vn } und {w
~ 1, w
~ 2, . . . , w
~ m } zwei
Basen eines Vektorraums V , dann gibt es für jeden Vektor ~vi einen Vektor w
~ j , so
dass die Menge ({~v1 , ~v2 , . . . , ~vn } \ {~vi }) ∪ {w
~ j } ebenfalls Basis von V ist, d.h. man
kann in der ersten Basis v~i gegen w~j . austauschen.
Satz: Besitzt ein Vektorraum V eine endliche n-elementige Basis, dann ist jede
andere Basis von V auch endlich und hat n Elemente.
Beweis: Sei eine n-elementige Basis B1 und eine weitere Basis B2 von V gegeben.
Wendet man auf B1 n-mal das Austauschlemma an, so entsteht einen Basis B von
V , die keine Elemente aus B1 , sondern nur Elemente aus B2 enthält. Da man weiß,
dass kein Element aus B2 mehrfach eingetauscht wurde (anderenfalls würde lineare
Abhängigkeit entstehen), müssen es genau n Elemente sein. Damit ist |B1 | = n ≤
|B2 |. Andererseits kann B2 nicht mehr als n Elemente haben, denn B ⊆ B2 ist
bereits ein Erzeugendensystem von V und B2 ist als Basis von V ein minimales
Erzeugendensystem.
64
Dimension
Definition: Besitzt ein Vektorraum V eine endliche Basis {~v1 , ~v2 , . . . , ~vn }, dann
nennt man V einen endlich-dimensionalen und konkreter einen n-dimensionalen Vektorraum. Die Dimension des Raums wird mit dem Symbol dim V = n bezeichnet.
Ein Vektorraum, der keine endliche Basis besitzt, wird unendlich-dimensional genannt
und man verwendet dafür die formale Schreibweise dim V = ∞.
Satz: Ist M = {~v1 , ~v2 , . . . , ~vk } eine Teilmenge eines Vektorraums V mit k > dim V ,
so ist M linear abhängig.
Beweis: Wäre M linear unabhängig, könnte man durch k-fache Anwendung des
Basisergänzungssatzes die Vektoren aus M gegen Vektoren einer Basis von V austauschen. Da dabei zwangsläufig mindestens ein Basisvektor mehrfach in M eingefügt
werden müsste, entstünde lineare Abhängigkeit - ein Wiederspruch.
Satz: Jeder Vektorraum besitzt eine Basis.
Dieser Satz ist von fundamentaler Bedeutung, aber leider übersteigt sein Beweis
unsere bisher zur Verfügung stehenden mathematischen Mittel. Deshalb kann er im
Rahmen dieser Vorlesung nur genannt, aber nicht bewiesen werden.
Im Gegensatz dazu sind die folgenden Aussagen einfache Konsequenzen aus dem
Basisergänzungssatz und dem Austauschlemma.
Satz: Ist die Dimension eines Vektorraumes V endlich und U ein Unterraum von V ,
i)
dim U ≤ dim V
dann gilt:
ii)
dim U < dim V ⇔ U 6= V
Definition: Sind U1 und U2 Unterräume von V , so nennt man die Menge
U1 + U2 = {~x + ~y | ~x ∈ U1 , ~y ∈ U2 }
die Summe von U1 und U2 .
Beispiel: Sei V = R4 mit den Unterräumen U1 = Lin({~e1 , ~e2 , ~e4 }) und U2 =
Lin({~e1 , ~e3 , ~e4 }) sowie U3 = Lin({~e1 + ~e2 , ~e1 + ~e4 }) , dann ist
U1 + U2 = R4
und
U1 + U3 = U1
Satz: Die Summe von zwei Unterräumen ist ein Unterraum. Für zwei endlich-dimensionale Unterräume U1 und U2 gilt:
dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 )
Beweisidee:
• Die Abgeschlossenheit von U = U1 + U2 bezüglich Addition und Multiplikation
mit Skalaren ist trivial.
• Sei B = {~v1 , ~v2 , . . . , ~vr } eine Basis von U1 ∩ U2 .
65
• Wir ergänzen B zu einer Basis B1 von U1 :
B1 = {~v1 , ~v2 , . . . , ~vr , ~u1 , ~u2 , . . . , ~us }
• Wir ergänzen B zu einer Basis B2 von U2 :
B2 = {~v1 , ~v2 , . . . , ~vr , w
~ 1, w
~ 2, . . . , w
~ t}
• Man weist nach, dass B1 ∪ B2 = {~v1 , ~v2 , . . . , ~vr , ~u1 , ~u2 , . . . , ~us , w
~ 1, w
~ 2, . . . , w
~ t}
eine Basis von U = U1 + U2 ist.
• Damit gilt für die Dimensionen:
dim(U1 + U2 ) = r + s + t = r + s + r + t − r = dim U1 + dim U2 − dim(U1 ∩ U2 )
Beispiele:
• Sei V = R3 , der Unterraum U1 eine Ebene durch den Koordinatenursprung und
der Unterraum U2 eine Gerade durch den Koordinatenursprung, die aber nicht
in U1 liegt. Dann ist dim U1 = 2, dim U2 = 1 und dim(U1 ∩ U2 ) = 0 (wegen
U1 ∩ U2 = {~0}). Aus dem Satz folgt dann:
dim(U1 + U2 ) = dim U1 + dim U2 − dim(U1 ∩ U2 ) = 2 + 1 − 0 = 3
Damit ist U1 + U2 = R3 .
• Sind U1 und U2 zwei verschiedene Unterräume des Rn mit dim U1 = dim U2 =
n − 1, dann ist U1 + U2 = Rn und folglich dim (U1 ∩ U2 ) = n − 2.
5.5
Lineare Abbildungen
Definition: Seien V und W zwei Vektorräume über einem Körper K. Eine Abbildung f : V → W heißt linear (oder Vektorraumhomomorphismus), wenn für alle
~v , w
~ ∈ V und für alle λ ∈ K gilt:
f (~v + w)
~ = f (~v ) + f (w)
~
f (λ · ~v ) = λ · f (~v )
Hom(V, W ) bezeichnet die Menge aller linearer Abbildungen f : V → W .
Beobachtungen:
• Sei f ∈ Hom(V, W ), dann gilt:
f (λ1~v1 + λ2~v2 + . . . + λk~vk ) = λ1 · f (~v1 ) + λ2 · f (~v2 ) + . . . + λk · f (~vk )
für alle ~v1 , ~v2 , . . . , ~vk ∈ V und alle λ1 , λ2 , . . . , λk ∈ K.
• Die Verknüpfung von linearen Abbildungen f : V → W und g : W → Y ist
eine lineare Abbildung gf : V → Y , wobei die Verknüpfung wie folgt operiert:
gf (~v ) = g(f (~v ))
66
• Die Menge aller linearen Abbildungen Hom(V, W ) ist selbst ein Vektorraum
mit den Operationen:
• (f + g)(~v ) = f (~v ) + g(~v )
• (λ · f )(~v ) = λ · f (~v )
Dazu muss man nur nachprüfen, dass für alle f, g ∈ Hom(V, W ) und λ ∈ K die
Abbildungen f +g und λ·f auch linear sind. Das kann man aus den Definitionen
der Operationen in Hom(V, W ), den Eigenschaften von linearen Abbildungen
und den Vektorraumeigenschaften ableiten:
(f + g)(~u + ~v ) =
=
=
=
f (~u + ~v ) + g(~u + ~v )
f (~u) + f (~v ) + g(~u) + g(~v )
f (~u) + g(~u) + f (~v ) + g(~v )
(f + g)(~u) + (f + g)(~v )
Analog erfolgt auch die Ableitung der drei anderen Bedingungen:
(λ · f )(~u + ~v ) = (λ · f )(~u) + (λ · f )(~v )
(f + g)(µ~u) = µ(f + g)(~u)
(λ · f )(µ~u) = µ(λ · f )(~u)
Eine Reihe häufig verwendeter geometrischer Transformationen, wie Drehungen um
den Koordinatenursprung, Spiegelungen an Geraden bzw. Ebenen, die durch den
Koordinatenursprung verlaufen, sowie Projektionen auf solche Geraden und Ebenen
sind lineare Abbildungen. Die folgenden Beispiele demonstrieren das in der Ebene:
x
x
a) Die Spiegelung an der x-Achse erfolgt durch die Abbildung f
=
y
−y
x
y
b) Die Spiegelung an der Geraden y = x erfolgt durch g
=
y
x
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
y=x
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
11
00
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
v
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
111
000
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
g(v)
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
0
1
000000000000000
111111111111111
0000000
1111111
0000000000000000
1111111111111111
11111111111111111111111111
00000000000000000000000000
0
1
x 1111111111111111
0000000000000000
0
1
0000000000000000
1111111111111111
0
1
0000000000000000
1111111111111111
0
1
0000000000000000
1111111111111111
0
1
0000000000000000
1111111111111111
0
1
0 y
1
67
x
0
c) Die Projektion auf die y-Achse erfolgt durch die Abbildung h
=
y
y
d) Die Drehung um 45 in R2 erfolgt durch eine Abbildung j, die man zuerst auf
den Basisvektoren beschreibt:
!
!
1
1
√
√
−
0
1
2
j
=
j
= √12
√1
1
0
2
2
Das erweitert man zu einer linearen Abbildung:
0
x
1
0
1
j
=j x·
+y·
= x·j
+y·j
y
0
1
0
1
!
1
1
√ x− √ y
2
2
=
√1 x + √1 y
2
2
1
0
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
u
0
j(u) 1
0
1
0
1
0
1
0
1
j(v)
0
1
0
1
0
1
0
1
0
1
111111111111111111111111
000000000000000000000000
0
1
0
1
v
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
Man beachte, dass Translationen (also Verschiebungen) keine linearen Abbildungen
sind, da eine lineare Abbildung immer den Nullvektor auf den Nullvektor abbilden
muss. Man kann Translationen erst durch einen Trick, nämlich die Einführung homogener Koordinatensysteme, als lineare Abbildung darstellen.
Kern und Bild von linearen Abbildungen
Definition: Der Kern Ker f und das Bild Im f einer linearen Abbildung f ∈
Hom(V, W ) sind wie folgt definiert:
Ker f = {~v ∈ V | f (~v ) = ~0}
Im f = {w
~ ∈ W | ∃ ~v f (~v ) = w}
~
Beispiele: Wir bestimmen die Kerne und Bilder der oben eingeführten geometrischen
Transformationen.
68
a) Ker f = {~0}, denn
0
x
x
f
=
=
⇔ x=0 ∧ y=0
y
−y
0
Im f = R2 , denn
x
x
=f
y
−y
für alle
x
∈ R2
y
Damit ist F eine bijektive Abbildung von R2 nach R2 mit der Umkehrabbildung
f −1 = f .
b) Ker g = {~0} und Im g = R2 . Damit ist auch g eine bijektive Abbildung von R2
nach R2 mit der Umkehrabbildung g −1 = g.
1
c) Ker h = Lin
, denn
0
x
0
0
h
=
=
⇔ y=0
y
y
0
0
Im h = Lin
, denn die x-Komponente aller Elemente aus dem Bild ist
1
0.
d) Ker j = {~0}, denn
x
j
=
y
√1
2
√1
2
x−
x+
√1
2
√1
2
y
y
!
0
=
⇔ x=0 ∧ y=0
0
Die Abbildung j ist eine bijektive Abbildung von R2 nach R2 , weil mit
!
√1 x + √1 y
x
−1
2
2
j
=
y
− √12 x + √12 y
eine Umkehrabbildung existiert. Daraus folgt Im f = R2 .
Lemma: Der Kern einer linearen Abbildung f ∈ Hom(V, W ) ist ein Unterraum von
V und das Bild von f ist ein Unterraum von W .
Beweis (Kern): Seien ~u, ~v ∈ Ker f und λ ∈ K (Körper zu V ).
• Ker f ist nicht leer, denn:
f (~0) = f (~0 − ~0) = f (~0) − f (~0) = ~0
Damit ist ~0 ∈ Ker f .
69
• Abgeschlossenheit bezüglich der Addition:
Für alle ~u, ~v ∈ Ker f :
f (~u + ~v ) =
=
=
f (~u) + f (~v )
~0 + ~0
~0
Damit ist auch ~u + ~v ∈ Ker f .
• Abgeschlossenheit bezüglich der Multiplikation mit Skalaren:
Für alle ~u ∈ Ker f und für alle λ ∈ K:
f (λ~u) =
=
=
λ · f (~u)
λ · ~0 (da ~u ∈ Ker f )
~0
Damit ist auch λ~u ∈ Ker f .
Beweis (Bild): Seien ~u, ~v ∈ Im f und λ ∈ K (Körper zu W ).
• Im f ist nicht leer, denn f (~0) = ~0 ∈ Im f .
• Abgeschlossenheit bezüglich der Addition:
~ 0 = f (v~0 ) ∈ Im f
Für alle w
~ = f (~v ), w
~ 0 = f (~v ) + f (v~0 )
w
~ +w
= f (~v + v~0 ) ∈ Im f
• Abgeschlossenheit bezüglich der Multiplikation mit Skalaren:
Für alle w
~ = f (~v ) ∈ Im f und alle λ ∈ K
λw
~ = λ · f (~v )
= f (λ~v ) ∈ Im f
Lemma: Eine lineare Abbildung f ∈ Hom(V, W ) ist genau dann injektiv, wenn ihr
Kern nur aus dem Nullvektor besteht, d.h.
f ist injektiv
⇐⇒
Ker f = {~0}
Beweis: Die Richtung ⇒ ist offensichtlich, denn da f (~0) = ~0 und f injektiv ist, kann
kein anderer Vektor auf ~0 abgebildet werden.
Für die Richtung ⇐ erfolgt der Beweis durch Widerspruch:
Angenommen Ker f = {~0} und f ist nicht injektiv, dann existieren zwei Vektoren
~u, ~v ∈ V , so dass ~u 6= ~v aber f (~u) = f (~v ). Daraus folgt
f (~u − ~v ) = f (~u) − f (~v ) = ~0
und damit liegt ~u − ~v 6= ~0 in Ker f , ein Widerspruch zur Annahme.
Spezielle Homomorphismen
Definitionen: Einen Homomorphismus f ∈ Hom(V, W ) nennt man einen
70
• Monomorphismus, wenn f injektiv ist,
• Epimorphismus, wenn f surjektiv ist,
• Isomorphismus, wenn f bijektiv ist,
• Endomorphismus, wenn V = W ,
• Automorphismus, wenn V = W und f bijektiv ist.
Der folgende Satz ist eine einfache Konsequenz aus den bekannten Fakten, dass die
Komposition von bijektiven Abbildungen auch bijektiv und die Komposition von
linearen Abbildungen auch linear ist.
Satz: Die Komposition (Verkettung) von zwei Isomorphismen ist auch wieder ein
Isomorphismus.
Satz: Ist f ∈ Hom(V, W ) ein Isomorphismus, dann ist auch f −1 ∈ Hom(W, V ) ein
Isomorphismus.
Beweis: Da ein Isomorphismus bijektiv ist, gibt es eine eindeutige Umkehrfunktion
f −1 : W −→ V , die durch
f (~v ) = w
~ ⇐⇒ f −1 (w)
~ = ~v
charakterisiert ist. Man muss nur noch die Abbildung f −1 auf Linearität überprüfen:
~ 0 = f (v~0 ) gegeben. Da f linear ist, gilt f (~v + v~0 ) = f (~v )+f (v~0 ) =
Seien w
~ = f (~v ) und w
~ 0 und f (λ~v ) = λf (~v ) = λw.
w
~ +w
~ Jetzt ergibt sich die Linearität von f −1 durch
Anwendung der oben beschriebenen Äquivalenz auf die zwei Gleichungen:
~ 0 ) = ~v + v~0 = f −1 (w)
~ 0)
f −1 (w
~ +w
~ + f −1 (w
f −1 (λw)
~ = λ~v = λf −1 (w)
~
Satz: Seien V und W zwei Vektorräume über K, {~v1 , ~v2 , . . . , ~vn } ⊆ V eine Basis
von V und w
~ 1, w
~ 2, . . . , w
~ n ∈ W eine beliebige Folge von Vektoren aus W , dann gibt
es eine eindeutige lineare Abbildung f ∈ Hom(V, W ) definiert durch
f (~vi ) = w
~ i für i = 1, 2, . . . , n
Beweis: Jeder Vektor ~v ∈ V hat eine eindeutige Darstellung als Linearkombination
aus den Basisvektoren ~v1 , ~v2 , . . . , ~vn :
~v = λ1~v1 + λ2~v2 + . . . + λn~vn
Wenn eine lineare Abbildung mit der Eigenschaft f (~vi ) = w
~ i für i = 1, 2, . . . , n
existiert, dann muss
f (~v ) = λ1 w
~ 1 + λ2 w
~ 2 + . . . + λn w
~ n = λ1 · f (~v1 ) + λ2 · f (~v2 ) + . . . + λn · f (~vn )
71
gelten. Es bleibt also nur noch zu zeigen, dass diese eindeutige Zuordnungsregel eine
lineare Abbildung beschreibt. Dazu muss die Verträglichkeit mit der Addition und
mit der Multiplikation mit Skalaren überprüft werden. Dazu seien λ ∈ K sowie
~v = λ1~v1 + λ2~v2 + . . . + λn~vn
~u = µ1~v1 + µ2~v2 + . . . + µn~vn
gegeben, woraus
~v + ~u = (λ1 + µ1 )v~1 + (λ2 + µ2 )v~2 + (λn + µn )v~n
folgt.
Nach der Zuordnungsregel ist
f (~v + ~u) = (λ1 + µ1 )f (v~1 ) + (λ2 + µ2 )f (v~2 ) + (λn + µn )f (v~n )
= λ1 f (v~1 ) + λ2 f (v~2 ) + λn f (v~n ) + µ1 f (v~1 ) + µ2 f (v~2 ) + µn f (v~n )
= f (~v ) + f (~u)
Analog kann man die zweite Eigenschaft f (λ~v ) = λf (~v ) nachrechnen.
Folgerung: Zu zwei n-dimensionalen Vektorräumen existiert mindestens ein Isomorphismus, der den einen Vektorraum in den anderen überführt.
Rang einer linearen Abbildung
Definition: Der Rang einer linearen Abbildung f ∈ Hom(V, W ) ist die Dimension
des Bildes von f :
rg f = dim(Im f )
Satz (Dimensionsformel für lineare Abbildungen): Für jede lineare Abbildung
f ∈ Hom(V, W ) auf einem endlichdimensionalen Vektorraum V gilt:
dim V = dim(Ker f ) + dim(Im f ) = dim(Ker f ) + rg f
Beweis: Zuerst betrachten wir eine Basis B1 = {~v1 , ~v2 , . . . , ~vk } des Kerns Ker f ⊆ V .
Man kann B1 zu einer Basis B von V erweitern. Sei B = {~v1 , ~v2 , . . . , ~vn }, d.h.
vk+1
~ , . . . , v~n sind die Ergänzungsvektoren.
Wir betrachten die Bilder der Ergänzungsvektoren und werden zeigen, dass sie eine
Basis B2 = {f (vk+1
~ ), . . . , f (v~n )} des Unterraums Im f bilden.
• Erzeugendensystem: Da man jeden Vektor w
~ aus Im f als Linearkombination w
~ = λ1 f (v~1 ) + . . . + λn f (v~n ) darstellen kann und außerdem f (v~1 ) = . . . =
f (v~k ) = ~0 gilt, reichen die Vektoren aus B2 aus, um Im f zu erzeugen.
• Lineare Unabhängigkeit: Wir betrachten eine Linearkombination des Nullvektors aus B2
~0 = λk+1 f (vk+1
~ ) + . . . + λn f (v~n )
Damit ist
f (λk+1 vk+1
~ + . . . + λn v~n ) = ~0 = λk+1 f (vk+1
~ ) + . . . + λn f (v~n ) = ~0
72
und folglich ist ~v = λk+1 vk+1
~ + . . . + λn v~n Element des Kerns von f . Als
solches muss ~v aber auch als Linearkombination aus B1 darstellbar sein, d.h.
~v = µ1~v1 + µ2~v2 + . . . + µk~vk . Da jeder Vektor aus V , also insbesondere auch
~v , eine eindeutige Basisdarstellung aus V hat, kann es nur eine Konsequenz
geben: ~v = ~0 und µ1 = . . . = µk = λk+1 = . . . = λn = 0, womit gezeigt ist, dass
die eingangs betrachtete Linearkombination des Nullvektors aus B2 trivial sein
muss.
Da wir nach den oben gewählten Bezeichnungen von dim(Ker f ) = k, dim V = n
und dim(Im f ) = n − k ausgehen können, ergibt sich die Dimensionsformel durch
einfache Zusammenfassung
dim(Ker f ) + dim(Im f ) = k + (n − k) = n = dim V
5.6
Matrizen
Definition: Eine m×n-Matrix über einem Körper K ist eine Anordnung von m×n
Elementen aus K nach dem folgenden Schema:


a1 1 a1 2 · · · a1 n
 a2 1 a2 2 · · · a2 n 


A =  ..
..
.. 
.
.
 .
.
.
. 
am 1 am 2 · · · am n
Alternativ kann man auch die Schreibweise A = (ai j )(i,j)∈m×n verwenden. Die horizontalen n-Tupel werden Zeilen und die vertikalen m-Tupel werden Spalten der Matrix genannt. Die Skalare ai j nennt man die Koeffizienten (oder Einträge) der Matrix.
Die Menge aller m × n-Matrizen über K wird mit M (m × n, K) bezeichnet.
Beobachtung: Die Menge M (m × n, K) ist ein Vektorraum mit den folgenden
Operationen (λ ∈ K):

 



a1 1 . . . a1 n
b1 1 . . . b1 n
a1 1 + b 1 1 . . . a 1 n + b 1 n
 :

: + :
:  = 
:
:
am 1 . . . am n
bm 1 . . . bm n
am 1 + bm 1 . . . am n + bm n




a1 1 . . . a1 n
λa1 1 . . . λa1 n
:  =  :
: 
λ· :
am 1 . . . am n
λam 1 . . . λam n
Multiplikation von Matrizen
Definition: Ist A ∈ M (m×n, K) und B ∈ M (n×r, K) (wichtig ist der gemeinsame
Parameter n), dann kann man das Produkt dieser Matrizen als eine Matrix C = AB ∈
73
M (m × r, K) definieren, deren Koeffizienten ci j die folgende Form haben:
c i j = ai 1 · b 1 j + ai 2 · b 2 j + . . . + ai n · b n j
n
X
=
ai k · b k j
k=1
Man kann sich diese Regel so einprägen, dass man um ci j zu erhalten, die i-te Zeile
von A mit der j-ten Spalte von B ”‘multipliziert”’, wobei multiplizieren hier bedeutet,
die Produkte der sich entsprechenden Koeffizientenpaare aufzuaddieren.
Beispiel:


0
2
1 0 −1
0+0−3 2+0−1
−3 1


1 −1
·
=
=
2 1
0
0+1+0 4−1+0
1 3
3
1
Eine spezielle Ausprägung bekommt diese Regel bei der Multiplikation einer m × nMatrix mit einem Spaltenvektor aus K n , der gleichzeitig eine n × 1-Matrix ist. Das
Ergebnis ist eine m × 1-Matrix, also ein Spaltenvektor aus K m . Auf diese Weise kann
die Matrix A als Abbildung von K n nach K m interpretiert werden.
Satz: Die Multiplikation von Matrizen ist assoziativ, d.h. für alle A ∈ M (m × n, K),
B ∈ M (n × r, K) und C ∈ M (r × s, K) gilt
(A · B) · C = A · (B · C)
Da der Beweis bis auf das Jonglieren mit komplizierten Summenformeln keine herausragenden Überraschungsmomente enthält, werden wir uns Zeit und Aufwand dafür
sparen.
Achtung: Wie das folgende Beispiel zeigt, ist die Multiplikation von Matrizen im
Allgemeinen nicht kommutativ:
1 0
0 0
0 0
0 0
0 0
1 0
·
=
6=
=
·
1 0
1 1
0 0
2 0
1 1
1 0
Matrixdarstellung von lineare Abbildungen
Wir haben bereits gesehen, wie man eine Matrix als lineare Abbildung interpretieren
kann. Jetzt geht es um den umgekehrten Weg, bei dem eine lineare Abbildung f ∈
Hom(V, W ) gegeben ist, die als Matrix dargestellt werden soll. Das ist aber nur
möglich, wenn man vorher eine Basis von V und eine Basis von W festlegt.
Definition: Sei f ∈ Hom(V, W ) eine lineare Abbildung, B1 = {~v1 , ~v2 , . . . , ~vn } Basis
von V und B2 = {w
~ 1, w
~ 2, . . . , w
~ m } Basis von W , dann wird der Abbildung f eine
Matrix A ∈ M (m×n, K) zugeordnet, deren Koeffizienten ai j sich aus der Darstellung
74
der Bilder der Basisvektoren f (~vi ) in der Basis {w
~ 1, w
~ 2, . . . , w
~ m } wie folgt ergeben:
f (~v1 ) = a1 1 w
~ 1 + a2 1 w
~ 2 + . . . + am 1 w
~m
f (~v2 ) = a1 2 w
~ 1 + a2 2 w
~ 2 + . . . + am 2 w
~m
..
.
f (~vn ) = a1 n w
~ 1 + a2 n w
~ 2 + . . . + am n w
~m
Umgekehrt bestimmt jede Matrix A ∈ M (m × n, K) durch die oberen Formeln eine
lineare Abbildung f ∈ Hom(V, W ), denn wir wissen, dass eine lineare Abbildung
bereits durch die Bilder der Basisvektoren eindeutig beschrieben ist.
Häufig trifft man auf die besondere Situation, dass B1 die Standardbasis von V = Rn
und B2 die Standardbasis von W = Rm ist. Für diesen Fall kann man sich die
folgende Regel einprägen:
die j-te Spalte der Matrix A ist das Bild des j-ten Basisvektors von V , also f (~ej )
Folgerung 1: Die Vektorräume der linearen Abbildungen Hom(V, W ) und der Matrizen M (m × n, K) sind isomorph. Der Isomorphismus wird (nach Festlegung von
zwei Basen für V und W ) durch die oben beschriebene Zuordnung zwischen linearen
Abbildungen und Matrizen realisiert.
Folgerung 2: Seien für V = K n und W = K m die jeweiligen Standardbasen festgelegt und sei A ∈ M (m × n, K) die zu einer Abbildung f ∈ Hom(V, W ) gehörige
Matrix, dann erhält man das Bild f (~v ) eines beliebigen Spaltenvektors ~v ∈ V durch
Multiplikation der Matrix A mit ~v , d.h.
A · ~v = f (~v )
Man kann die zweite Folgerung durch einfaches Nachrechnen überprüfen:

  
a1 1 · · · a1 n
x1
 ..


.
..  ·  ... 
A · ~v =  .

am 1 · · ·

am n
xn

a1 1 · x 1 + . . . + a1 n · x n


..
= 

.
am 1 · x 1 + . . . + am n · x n
75


x1
 
(n)
f (~v ) = f  ...  = f x1 · ~e1 + . . . + xn · ~en(n)
xn
(n)
= x1 · f ~e1
+ . . . + xn · f ~en(n)




a1 1
a1 n




= x1 ·  ...  + . . . + xn ·  ... 
am 1
am n


a1 1 · x 1 + . . . + a1 n · x n


..
= 

.
am 1 · x1 + . . . + am n · xn
⇒ A · ~v = f (~v )
Satz: Seien f ∈ Hom(K q , K p ) sowie g ∈ Hom(K r , K q ) lineare Abbildungen und
A ∈ M (p × q, K) bzw. B ∈ M (q × r, K) die zu f bzw. g gehörigen Matrizen
bezüglich der Standardbasen von K p , K q und K r . Dann entspricht das Produkt der
Matrizen A · B der Abbildungskomposition f g, vereinfacht geschrieben:
C = A · B ∈ M (p × r, K) ←→ f g ∈ Hom(K r , K p )
Auf den Beweis dieses Satzes wird verzichtet, weil er auch in die Kategorie der rechnerisch aufwändigen, aber nicht sehr originellen Beweise gehört.
Beispiele:
a) Die Skalierung des Raumes Rn um einen
Matrix realisiert:

c 0
0 c

A =  .. ..
. .
Faktor c ∈ R wird durch die folgende

··· 0
· · · 0

. . .. 
. .
0 0 ··· c
b) Die Projektion des Raums R3 auf die xy-Ebene im gleichen Raum wird durch
die folgende Matrix realisiert:


1 0 0
B = 0 1 0
0 0 0
c) Die Drehung der Ebene R2 mit dem Winkel ϕ um den Koordinatenursprung
wird durch die folgende Matrix realisiert:
cos ϕ − sin ϕ
C=
sin ϕ cos ϕ
76
cos ϕ
sin ϕ
ϕ
ϕ
1
2
Die Drehung des Punkts
mit dem Winkel
4
kann man dann wie folgt berechnen:
5.7
cos
sin
π
3
π
3
π
3
1
√2
3
2
− sin
2
·
=
cos π3
4
√
3
2
−
1
2
π
3
um den Koordinatenursprung
! √ 2
1√− 2 3
·
=
4
3+2
Der Rang einer Matrix
Der Rang einer Matrix kann auf drei verschiedene Arten definiert werden. Um diese
besser unterscheiden zu können, führen wir zuerst drei Begriffe ein, von denen später
gezeigt wird, dass sie immer denselben Wert haben.
Definition: Sei A ∈ M (m×n, K) eine Matrix und f ∈ Hom(K n , K m ) die zugehörige
lineare Abbildung (bezüglich der Standardbasen).
• Der Rang von A ist definiert durch
rg A := rg f = dim (Im f )
• Der Zeilenrang von A ist die maximale Anzahl von linear unabhängigen Zeilenvektoren aus A.
• Der Spaltenrang von A ist die maximale Anzahl von linear unabhängigen Spaltenvektoren aus A.
Satz: Der Rang und der Spaltenrang einer Matrix A sind gleich.
Beweis: Die Spalten von A sind die Bilder der Basisvektoren. Folglich bilden die
Spaltenvektoren der Matrix ein Erzeugendensystem von Im f . Damit ist jede maximale linear unabhängige Teilmenge der Spaltenvektoren eine Basis von Im f , und
daraus folgt, dass der Spaltenrang von A gleich dim (Im f ) = rg f = rg A ist.
Lemma: Ist w~k ein Spaltenvektor von A ∈ M (m × n, K), der sich als Linearkombination der übrigen Spalten darstellen lässt und ist A0 die Matrix A ohne Spalte w~k ,
dann gilt:
Spaltenrang A0 = Spaltenrang A und
77
Zeilenrang A0 = Zeilenrang A
Die gleiche Aussage gilt auch, wenn man aus der Matrix einen Zeilenvektor streicht,
der sich als Linearkombination aus den anderen Zeilen darstellen lässt.
Beweis: Die maximale Anzahl von linear unabhängigen Spaltenvektoren ist gleichzeitig die Dimension der linearen Hülle der Menge aller Spaltenvektoren {w~1 , . . . , w~n }
von A. Ist der Vektor
n
X
w~k =
λj w~j
j=1
j6=k
eine Linearkombination der anderen Spaltenvektoren, dann bleibt die lineare Hülle
nach seiner Streichung unverändert und deshalb bleibt der Spaltenrang gleich.
Für die Betrachtung des Zeilenrangs sei I ⊆ {1, 2, . . . , m} eine maximale Menge, so
dass die Zeilenvektoren {~
ui | i ∈ I} linear unabhängig sind, und sei {~
ui 0 | i ∈ I} die
entsprechende Menge von Zeilenvektoren aus A0 , in denen also jeweils die k-te Stelle
gestrichen ist. Um die Gleichheit des Zeilenrangs von A und A0 zu zeigen, genügt es,
die lineare Unabhängigkeit von {~
ui 0 | i ∈ I} nachzuweisen. Sei
X
µi u~i 0 = ~0
i∈I
eine Linearkombination des P
Nullvektors in K n−1 . Wir werden zeigen, dass dann
auch die Linearkombination i∈I µi u~i den Nullvektor in K n erzeugt. Damit müssen
alle Skalare µi gleich
ui 0 | i ∈ I} linear unabhängig. In der
P0 sein und folglich ist {~
Linearkombination
~i sind bereits alle Stellen bis auf die k-te gleich Null.
i∈I µi u
P
Bleibt also i∈I µi ai k = 0 zu zeigen. Nach Voraussetzung über den Spaltenvektor
w~k wissen wir für alle i ∈ I
ai k =
n
X
λj ai j
und folglich
j=1
j6=k
X
µ i ai k =
i∈I
X
( µi
=
j=1
j6=k
=
n
X
λ j ai j )
j=1
j6=k
i∈I
n
X
n
X
(λj
X
µ i ai j
)
i∈I
| {z }
= 0 da j 6= k
0=0
j=1
j6=k
Satz: Der Spaltenrang und der Zeilenrang einer Matrix A sind gleich und damit gilt:
rg A = Spaltenrang A = Zeilenrang A
78
Beweis: Wir streichen aus A Zeilen bzw. Spalten, die jeweils Linearkombinationen
der übrigen Zeilen bzw. Spalten sind, solange das möglich ist.
A 7→ A0 7→ A00 7→ . . . 7→ A(end)
Dann ist in der Matrix A(end) die Menge der Zeilenvektoren linear unabhängig und
auch die Menge der Spaltenvektoren ist linear unabhängig. Sei A(end) eine m × n–
Matrix, dann gilt nach dem Lemma:
Spaltenrang A = Spaltenrang A(end) = n
Zeilenrang A = Zeilenrang A(end) = m
Es gibt m linear unabhängige Zeilenvektoren in A(end) , aber das sind Vektoren aus
K n und deshalb muss m ≤ n sein. Andererseits gibt es n linear unabhängige Spaltenvektoren in A(end) , aber das sind Vektoren aus K m und deshalb muss n ≤ m sein.
Folglich ist Spaltenrang A = n = m = Zeilenrang A.
Definition: Sei A = (ai j ) ∈ M (m × n, K) eine Matrix, dann ist die transponierte
Matrix von A definiert durch
At = (ati j ) ∈ M (n × m, K) mit ati j = aj i
Beispiel:

t
1 0
2 1 = 1 2 4
0 1 0
4 0
Folgerung: Der Rang einer Matrix A und der transponierten Matrix At ist gleich.
rg A = rg At
Elementare Umformungen
Definition: Die folgenden Operationen auf einer Matrix werden elementaren
Umformungen genannt:
• Typ 1: Vertauschung von zwei Zeilen bzw. von zwei Spalten.
• Typ 2: Multiplikation einer Zeile bzw. Spalte mit einem Skalar λ 6= 0.
• Typ 3: Addition des λ-fachen einer Zeile bzw. Spalte zu einer anderen Zeile
bzw. Spalte.
Satz: Elementare Umformungen ändern den Rang einer Matrix nicht.
Beweis: Man muss sich nur davon überzeugen, dass sich die lineare Hülle der Zeilenbzw. Spaltenvektoren durch die Umformungen nicht ändert. Für Umformungen vom
Typ 1 und Typ 2 ist das offensichtlich.
79
Für eine Umformungen vom Typ 3 seien ~vi , ~vk zwei Zeilenvektoren und λ ∈ K ein
Skalar. Nach der Umformung hat man an Stelle von ~vi den Vektor
~vi∗ = ~vi + λ~vk
Es ist eine leichte Übung, in Linearkombinationen ~vi gegen ~vi∗ auszutauschen:
µ1~v1 + . . . + µi~vi + . . . + µk~vk + . . . + µn~vn = µ1~v1 + . . . + µi~vi∗ + . . . + (µk − λµi )~vk + . . .
. . . + µn~vn
∗
µ1~v1 + . . . + µi~vi + . . . + µk~vk + . . . + µn~vn = µ1~v1 + . . . + µi~vi + . . . + (µk + λµi )~vk + . . .
. . . + µn~vn
Obere Dreiecksform
Definition: Die Matrix A ist in oberer Dreiecksform, wenn die Matrix die folgende
Form hat, wobei das Symbol ∗ für beliebige Inhalte steht:


a1 1 ∗
∗ ··· ∗
∗ ··· ∗

.. . . .. 
 0 a2 2 ∗ · · · ∗
. . 
.

..
.. . . .. 
...

. . 
0 a3 3
.
.
 0

 .

.
.
.
.
.
.
 ..
.. ∗
.. . . .. 
..
..
A=

 0
0 · · · 0 ar r ∗ · · · ∗ 


 0 ··· ··· ··· 0

0
·
·
·
0


 ..

.
.
.
.
.
.
.
.
.
.
.
.
.
.
 .
.
.
.
. . 
.
.
0 ··· 0
0 ··· ··· ··· 0
und die Werte a1 1 , a2 2 , a3 3 , . . . , ar r ungleich Null sind, d.h.
a1 1 · a2 2 · a3 3 · . . . · ar r 6= 0
Beobachtung: Der Rang einer solchen Matrix ist r.
Algorithmus zur Umwandlung in eine obere Dreiecksform:
Mit dem folgenden Verfahren kann man eine beliebige Matrix A ∈ M (m × n, K) mit
elementaren Umformungen in eine obere Dreiecksform überführen und damit auch
ihren Rang bestimmen. Das Verfahren arbeitet in r = rg A Stufen.
Zustandsinvariante: Nach jeder Stufe k ≥ 1 wird eine Matrix Ak der folgenden
80
Form erreicht:

a1 1
∗
∗
···
∗
0
a2 2
∗
0
..
.
0
..
.
a3 3
...
···
...
∗
..
.
0
0
..
.
0
···
...
···
···
...
0
···
···







Ak = 






...
∗
0 ak k
··· 0
..
...
.
··· 0
∗
..
.
..
.
..
.
···
..
.
...
...
∗
···
∗
· · · bk+1 n
..
...
.
· · · bm n
bk+1 k+1
..
.
bm k+1
∗
..
.
..
.
..
.















Dabei können die Koeffzienten bi j im Rechteck rechts unten (also mit i = k + 1, k +
2, . . . , m und j = k + 1, k + 2, . . . , n) beliebig sein, aber gefordert ist a1 1 · a2 2 · a3 3 ·
. . . · ak k 6= 0.


bk+1 k+1 · · · bk+1 n

..  die rechte untere Teilmatrix von A .
..
Sei Bk =  ...
.
k
. 
bm k+1
···
bm n
Initialisierung: Wir setzen A0 = A. Offensichtlich gibt es für A0 keine Einschränkungen, denn B0 = A0 .
Abbruchkriterium: Das Verfahren ist beendet, wenn Bk die Nullmatrix ist, denn
dann ist Ak in oberer Dreiecksform.
Umwandlung von Ak in Ak+1 : Wenn das Abbruchkriterium für Ak noch nicht
erfüllt ist, gibt es in Bk einen Koeffizienten bi j 6= 0.
• Vertausche Zeilen und/oder Spalten, die durch B gehen, um den Koeffizienten
bi,j an die Stelle von bk+1 k+1 zu bringen. Die so entstandene Matrix A0k hat
folgende Gestalt:


∗
∗ ···
∗
a1 1 ∗ · · · ∗

..
..
.. 
..
 0 a2 2 . . . ∗
.
.
.
. 
 .
.
.
.. 
..
..
..

 .
.
.
.
.
.
.
.
.
. 
∗



∗
∗ ···
∗ 
0
0 ak k
 0
0
Ak = 

b0k+1 k+1 · · · · · · b0k+1 n 
 0 ··· ··· 0

 .
..
..
..
 ..
.
.
b0k+2 k+1 · · · · · · b0k+2 n 
.



 ..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
 .
.
.
.
.
.
.
. 
0 ··· ··· 0
b0m k+1 · · · · · · b0m n
wobei nun b0k+1 k+1 = bi,j 6= 0 ist.
• Für die Stellen b0k+2 k+1 , b0k+3 k+1 , . . . , b0m k+1 werden durch Typ-3-Umformungen
Nullen erzeugt. Man verwendet für die Zeilen i = k + 2, k + 3, . . . , m die
81
folgenden Umformungen:
Zeilei := Zeilei − b0i k+1 · (b0i k+1 )−1 · Zeilek+1
Dadurch entsteht die neue Matix A00k = Ak+1 :

a1 1 ∗ · · · ∗
∗
∗

.
..
.
..
 0 a2 2 . . ∗
.
 .
.
..
..
..
 .
..
.
. ∗
.
 .

∗
∗
0
0 ak k
 0
A00k = 
0
bk+1 k+1
···
 0 ··· ··· 0
 .
..
..
..
 ..
00
.
.
.
0
bk+2 k+2

 ..
.
.
..
.
.
.
.
.
.
 .
.
.
.
.
.
00
0 ··· ··· 0
0
bm k+2
···
..
.
..
.
∗
..
.
..
.
∗
···
· · · b0k+1 n
· · · b00k+2 n
..
...
.
00
· · · bm n















wobei für alle i = k + 2, k + 3, . . . , m und j = k + 1, k + 2, . . . , n die Koeffizienten
in Bk+1 die folgenden Werte haben:
b00i j := b0i j − b0i k+1 ·
b0k+1 j
b0k+1 k+1
Beispiel: Die folgende Matrix A soll in eine obere Dreiecksform überführt werden:


0 −2 4
2 1 0 

A=
1 0 2 
2 0 3
• Vertausche die erste und die dritte Zeile, so dass an der Stelle a1 1 ein Koeffizient
6= 0 steht:


1 0 2
2 1 0 


0 −2 4
2 0 3
• Erzeuge an den Stellen a2 1 und a4 1 Nullen durch Typ-3-Umformungen mit der
ersten Zeile:

 

1
0
2
1 0
2
2 − 2 · 1 1 − 2 · 0 0 − 2 · 2 0 1 −4

=

 0
−2
4  0 −2 4 
2−2·1 0−2·0 3−2·2
0 0 −1
82
• An der Stelle a2 2 befindet sich ein Koeffizient 6= 0. Damit
der Stelle a2 3 eine Null erzeugt werden:

 
1
0
2
1 0
0


1
−4

 0 1
0 −2 − (−2) · 1 4 − (−2) · (−4) = 0 0
0
0
−1
0 0
• An der Stelle a4 4 muss

1
0

0
0
eine Null erzeugt werden:
 
0
2
1
 0
1
−4
=
 0
0
−4
1
0 −1 − 4 · (−4)
0
muss nur noch an

2
−4

−4
−1

0 2
1 −4

0 −4
0 0
Elementarmatrizen
Elementare Matrixumformungen kann man auch durch Multiplikation der umzuformenden Matrix mit einer sogenannten Elementarmatrix beschreiben. Für jeden Umformungstyp gibt es eine Elementarmatrix–Standardkonstruktion, so dass
die Multiplikation mit der Elementarmatrix auf der linken Seite die entsprechene
Zeilenumformung und die Multiplikation mit der Elementarmatrix auf der rechten
Seite die entsprechene Spaltenumformung realisiert.
• Typ 1: Für die Vertauschung der i-ten und der j-ten Zeile (Spalte) in einer
Matrix A wird eine Matrix Ti j konstruiert, so dass die Multiplikation A0 =
Ti j · A die Vertauschung der i-ten und der j-ten Zeile von A bewirkt und die
Multiplikation A0 = A · Ti j die Vertauschung der i-ten und der j-ten Spalte von
A bewirkt.
Dazu muss Ti j die folgende Form haben:

1
..

.


1


0 ··· → ···


..

. 1


..
Ti j = 
.
↓

..

.
1


1 ··· ← ···





0

0





 ←− i-te Zeile









 ←− j-te Zeile




1
..
.
↑
..
.
0
1
..
.
1
83
• Typ 2:
Für die Multiplikation einer Zeile (Spalte) mit dem Faktor λ in
einer Matrix A wird eine Matrix Si λ konstruiert, so dass die Multiplikation
A0 = Si λ · A die Multiplikation der i-ten Zeile von A mit λ bewirkt und die
Multiplikation A0 = A · Si λ die Multiplikation der j-ten Spalte von A mit λ
bewirkt.


1
..


.
0




1




λ
Si λ = 
 ←− i-te Zeile


1




...


0
1
• Typ 3:
Man konstruiert eine Matrix Ki j λ , so dass die Multiplikation
A0 = Ki j λ · A die Addition des λ-fachen der j-ten Zeile zur i-ten Zeile von
A bewirkt und die Multiplikation A0 = A · Ki j λ die Addition des λ-fachen der
i-ten Spalte zur j-ten Spalte von A bewirkt.

Ki j λ






=





1

..
.
0






 ←− i-te Zeile





...
...
λ
..
.
..
0
.
1
↑
j-te Spalte
5.8
Lineare Gleichungssysteme
Definition: Ein lineares Gleichungssystem (LGS) mit Koeffizienten in einem Körper
K, mit m Gleichungen und n Unbekannten wird durch eine Matrix A = (ai j )(i,j)∈m×n ∈
M (m × n, K) und einem Spaltenvektor ~b ∈ K m repräsentiert und wie folgt als Gleichungssystem (∗) interpretiert:
a1 1 · x 1
a2 1 · x 1
..
.
+ a1 2 · x 2
+ a2 2 · x 2
..
.
+ . . . + a1 n · xn
+ . . . + a2 n · x n
..
.
= b1
= b2
..
.
(∗)
am 1 · x 1 + am 2 · x 2 + . . . + am n · x n = b m
Die Matrixrepräsentation von linearen Gleichungssystemen hat den Vorteil, dass man
das Gleichungsystem (*) mit Hilfe des Matrixprodukts auch als eine Vektor–Gleichung
84
beschreiben kann:

(∗)

x1
 
A ·  ...  = ~b
⇐⇒
xn
Ein Tupel (x1 , x2 , . . . , xn ) ∈ K n ist also genau dann eine Lösung des linearen Gleichungssystems, wenn A · ~x = ~b gilt, wobei ~x die Spaltenvektor–Darstellung des Tupels bezeichnet.
Man bezeichnet mit (A | ~b) die Erweiterung der Matrix A mit der zusätzlichen (n+1)ten Spalte ~b:


a1 1 · · · a1 n b 1

..
.. 
...
(A | ~b) =  ...
.
. 
am 1 · · · am n b m
Satz: Das lineare Gleichungssystem A · ~x = ~b ist genau dann lösbar, wenn
rg A = rg(A | ~b)
Beweis:
rg A = rg(A | b)
⇔ Spaltenrang(A) = Spaltenrang(A | b)





a1 n 
 a1 1

 ..  
  .. 
~
⇔ b ∈ Lin   .  , . . .  .  


 a
am n 
m1




a1 1
a1 n
 . 
. 
~b = x1 · 
⇔ ∃x1 , . . . , xn ∈ K
 ..  + . . . + xn ·  .. 
am 1
   
x1
b1
 ..   .. 
A· . = . 
xn
bn
⇔ ∃x1 , . . . , xn ∈ K
am n
Definition: Ein lineares Gleichungssystem A · ~x = ~b wird homogenes Gleichungssystem genannt, wenn der Vektor ~b der Nullvektor ist.
Jedes lineare Gleichungssystem hat ein assoziiertes homogenes Gleichungssystem,
welches durch die Ersetzung des Vektors ~b durch den Nullvektor entsteht.
Definition: Die Lösungsmenge eines linearen Gleichungssystems A · ~x = ~b ist die
Vektormenge
Lös(A, ~b) = {~x | A · ~x = ~b}
Satz: Sei A ∈ M (m × n, K) die Matrix einer linearen Abbildung f : K n → K m
bezüglich der Standardbasis und ~b ∈ K m , dann gilt:
85
a) Die Lösungsmenge Lös(A, ~0) ist gleich Ker f . Damit ist Lös(A, ~0) ein Unterraum von K n .
b) Sei ~x, ~y ∈ Lös(A, ~b), dann ist ~x − ~y ∈ Lös(A, ~0).
c) Sei ~x ∈ Lös(A, ~b) und ~z ∈ Lös(A, ~0), dann ist ~x + ~z ∈ Lös(A, ~b).
Beweis:
a) Es genügt, die entsprechenden Definitionen anzuwenden:
Lös(A, ~0) = {~x | A · ~x = ~0}
= {~x | f (~x) = ~0}
= Ker f
b) Seien ~x, ~y ∈ Lös(A, ~b), dann gilt:
f (~x) = ~b und f (~y ) = ~b
Daraus folgt:
f (~x − ~y ) = f (~x) − f (~y ) = ~b − ~b = ~0
Das heißt:
~x − ~y ∈ Lös(A, ~0)
c) Seien ~x ∈ Lös(A, ~b) und ~z ∈ Lös(A, ~0 (m) ), dann gilt:
f (~x) = ~b und f (~z) = ~0
Daraus folgt:
f (~x + ~z) = f (~x) + f (~z) = ~b + ~0 = ~b
Das heißt:
~x + ~z ∈ Lös(A, ~b)
Beobachtung: Sei A ∈ M (m × n, K) die Matrix einer linearen Abbildung f :
K → K m bezüglich der Standardbasis, dann ist die Lösungsmenge Lös(A, ~b) genau
dann nicht leer, wenn ~b ∈ Im f .
n
Gaußscher Algorithmus
Das folgende Lösungsverfahren für lineare Gleichungssysteme geht auf Carl Friedrich
Gauß zurück. Es ist auch unter dem Namen Gauß–Elimination bekannt. Die Lösung
des Gleichungssystems erfolgt dabei in drei Stufen. In der ersten Stufe wird durch
Entwicklung einer oberen Dreiecksform und Rangbetrachtungen festgestellt, ob das
System überhaupt eine Lösung hat. Wenn die Antwort positiv ist, wird in der zweiten
86
Stufe eine spezielle Lösung bestimmt. In der dritten Stufe werden alle Lösungen des
assoziierten homogenen Systems bestimmt und daraus die komplette Lösungsmenge
generiert.
Sei ein Gleichungssystem der Form A · ~x = ~b mit A ∈ M (m × n, K) und ~b ∈ K m
gegeben.
a) Zur Überprüfung, ob das Gleichungssystem eine Lösung hat, wird die Matrix
A in obere Dreiecksform gebracht, aber dabei alle Zeilenumformungen auf die
erweiterte Matrix (A | b) angewendet.
Achtung: Spaltenvertauschungen in A bedeuten Variablenvertauschung im
linearen Gleichungssystem.
Sei das Ergebnis dieses ersten
 0
a1 1 ∗

 0 a02 2


0
 0
 .
..
 .
.
A0 =  .
 0
0

 0 ···

 ..
..
 .
.
0 ···
Schritts das System:
∗
···
∗
∗
···
...
∗
..
.
a03 3
..
..
. ∗
.
· · · 0 a0r r
··· ··· 0
..
..
..
.
.
.
··· ··· 0
∗
..
.
..
.
..
.
∗
0
..
.
··· ∗
. . . ..
.
. . . ..
.
. . ..
. .
··· ∗
··· 0
. . ..
. .
0 ···
0
b01


b02 


0
b3 
.. 
. 

b0r 

b0r+1 

.. 
. 
b0m
• Fall 1: Falls mindestens einer der Werte b0r+1 , b0r+2 , . . . , b0m ungleich Null
ist, dann ist rg (A) < rg(A | b), und das System hat keine Lösung. Das
Verfahren wird abgebrochen.
• Fall 2: Falls b0r+1 = b0r+2 = . . . = b0m = 0, dann ist rg (A) = rg(A | b), und
folglich hat das System eine Lösung.
b) Zur Bestimmung einer speziellen Lösung werden die Zeilen (r+1) bis m gestrichen
und die Koeffizientenmatrix zwischen der r-ten und (r + 1)-ten Spalte in zwei
Teilmatrizen T und S getrennt:
 0

a1 1 ∗
∗ ··· ∗
∗ · · · ∗ b01
.. . . ..


. . b02 
 0 a02 2 ∗ · · · ∗
.


..
.. . . ..
...
0
0 
(T | S | b0 ) = 
.
0
0
a
.
.
.
b

33
3 
 .
.. . . ..
.. 
..
..
..
 ..
.
. ∗
. .
.
. 
.
0
0
0 · · · 0 ar r ∗ · · · ∗ b0r
87
Das Gleichungssystem nimmt dadurch die folgende Gestalt an:


x1
 x2 
 


 . 
xr+1
x1
 . 
 . 
 x2 
xr+2 




 
(T | S) ·  xr  = T ·  ..  + S ·  ..  = ~b0


.
 . 
xr+1 
 . 
xr
xn
 .. 
xn
Man setzt xr+1 = xr+2 = . . . = xn = 0 und reduziert das System dadurch auf:
    
 

x1
b01
x1
a01 1 a01 2 · · · a01 r
0




 x2 
 0 a0
a2 r  x2  b02 
22 · · ·

  ~0

T ·  ..  = b ⇒  ..
..  ·  ..  =  .. 
.
.
.
.
.
 .
.
.
.  . .
0
b0r
xr
0 · · · 0 ar r
xr
Die Werte von x1 , x2 , . . . , xr können nun direkt bestimmt werden:
b0r = a0r r · xr
⇒
xr =
b0r−1 = a0r−1 r−1 · xr−1 + a0r−1 r · xr
⇒
xr−1 =
b01 = a01 1 · x1 + . . . + a01 r · xr
..
.
⇒
x1 =
b0r
a0r r
b0r−1 −a0r−1 r ·xr
a0r−1 r−1
b01 −a01 r ·xr −...−a01 2 ·x2
a01 1
Somit wurde eine spezielle Lösung des linearen Gleichungssystems berechnet,
die im Weiteren mit ~v bezeichnet wird:

  
x1
x1
 x2   x2 
 .  .
 .  .
 .  .

  
~v =  xr  = xr 

  
xr+1   0 
 .  .
 ..   .. 
xn
0
c) Auf Grund der Vorüberlegungen wissen wir, dass die Lösungsmenge des homogenen Gleichungssystems ein Vektorraum der Dimension n − r ist. Man erhält
den j-ten Basisvektor dieses Raums (1 ≤ j ≤ n − r), indem die Variablen
xr+1 , . . . , xn jeweils mit den folgenden Werten belegt werden:
xr+j = 1 und xr+1 = . . . = xr+j−1 = xr+j+1 = . . . = xn = 0
88
Bezeichnet man die Koeffizienten der rechten Teilmatrix S durch
S = (si j )(i,j)∈r×(n−r)
so nimmt das Gleichungssystem die


x1
 x2  
 . 
a01 1 a01 2 · · ·
 . 
.

  0 a0
22 · · ·

 
(T | S)· xr  =  ..
.
.. ...

  .
xr+1 
 . 
0 ··· 0
 .. 
xn
Berücksichtigt man die speziellen
xr+j+1 = . . . = xn = 0, ergibt sich

a01 1 a01 2 · · ·
 0 a0
22 · · ·

 ..
.
.. ...
 .
0 ··· 0
folgende Form an
a01 r
a02 r
..
.
a0r r
 

x1
  x2 
  
· .. +
.
xr
s1 1 . . . s1 n−r
.. . .
..
.
.
.
sr 1 . . . s r r


xr+1


 xr+2  ~
· ..  = 0
 . 

xn
Werte xr+j = 1 und xr+1 = . . . = xr+j−1 =
das folgende lineare Gleichungssystem

   
−s1 j
x1
a01 r

  
a02 r 
 x2  −s2 j 
..  ·  ..  =  .. 
.  .  . 
0
−sr j
xr
ar r
Die Werte von x1 , x2 , . . . , xr können nun wie bei der speziellen Lösung bestimmt
werden.
Das Verfahren muss für alle n − r Spalten von S durchgeführt werden. Sei
~uj der dabei berechnete j-te Basisvektor des Lösungsraums des homogenen
Gleichungssystems.
Bleibt nur noch, die Lösungsmenge des linearen Gleichungssystems aus der
speziellen Lösung und der Lösungsmenge des homogenen Systems zusammenzusetzen:
(
)
n−r
X
Lös(A | b) = Lös(T |S | b0 ) = ~v +
λj · ~uj | λ1 , λ2 , . . . , λn−r ∈ R
j=1
Beispiel: Gegeben sei das folgende Gleichungssystem:
x1 −
2x1
− x1 −
2x2 + x3 − x4
x2 + 2x3
+ 5x3
x2 − 3x3 + 2x4
=
6
= −1
=
3
= −6
a) Die dazugehörige Matrix ist

6
0
2
1 −1
 1 −1
2
0 −1 

(A | ~b) = 
 2
0
5
0
3 
−1 −1 −3
2 −6

89
Diese Matrix muss zuerst in obere Dreiecksform überführt werden.
Erste und zweite Zeile vertauschen:

1 −1
2
0 −1
 0
2
1 −1
6

 2
3
0
5
0
−1 −1 −3
2 −6
In der ersten Spalte unter a1 1 Nullen erzeugen:

1 −1
2
0 −1
 0
2
1
−1
6

 0
5
2
1
0
0 −2 −1
2 −7
In der zweiten Spalte unter a2 2 Nullen erzeugen:

1 −1
2
0 −1
 0
2
1 −1
6

 0
0
0
1 −1
0
0
0
1 −1












Dritte und vierte Spalte tauschen, um an der Stelle a3 3 einen Wert 6= 0 zu
erzeugen (Achtung: x3 ↔ x4 ):


1 −1
0
2 −1
 0
6 
2 −1
1


 0
0
1
0 −1 
0
0
1
0 −1
In der dritten Spalte unter a3 3 Nullen erzeugen:

1 −1
0 2 −1
 0
1
6
2
−1

 0
0
1 0 −1
0
0
0 0
0




Die Matrix hat nun obere Dreiecksform.
Es existiert eine Lösung, da der untere Teil von ~b aus einer Null besteht. Die
Matrix kann nun folgendermaßen reduziert werden:


1 −1
0 2 −1
 0
2 −1 1
6 
0
0
1 0 −1
Das lineare Gleichungssystem wird geteilt:

    


1 −1
0
x1
2
−1
 0
2 −1  · x2  + 1 · (x3 ) =  6 
0
0
1
x4
0
−1
90
b) Bestimmung der speziellen Lösung:

   

1 −1
0
x1
−1
 0
2 −1  · x2  =  6 
0
0
1
x4
−1
Wähle x3 = 0 und bestimme die übrigen Variablen:
1 · x4 = −1
+ (−1) · x4 =
6
+
0 · x4 = −1
2 · x2
+ (−1) · x2
1 · x1
⇒
⇒
⇒
x4 = −1
x2 = 2, 5
x1 = 1, 5
c) Bestimmung des ersten (und einzigen) Basisvektors von (A | ~0 (4) ):

   

1 −1
0
x1
−2
 0
2 −1  · x2  =  −1 
0
0
1
x4
0
Wähle x3 = 1 und bestimme die übrigen Variablen:
1 · x1
2 · x2
+ (−1) · x2
1 · x4 =
0
+ (−1) · x4 = −1
+
0 · x4 = −2
⇒
⇒
⇒
x4 =
0
x2 = −0, 5
x1 = −2, 5
d) Lösungsmenge:
 



1,
5
−2,
5




 



2,
5
−0,
5
+λ·
 λ∈R
Lös(A | b) = 
 0 
 1 






−1
0
Quotientenräume
Wir haben gesehen, dass die Lösungsmenge eines linearen Gleichungssystems in
der Regel keinen Unterraum bildet, sondern eine “Verschiebung” eines Unterraums
ist. Durch die folgende Begriffsbildung kann man eine etwas allgemeinere Sicht auf
diese Konstruktion gewinnen.
Definition: Sei V ein Vektorraum, U ein Unterraum von V und ~v ein Vektor aus V ,
dann nennt man
~v + U = {~v + ~u | ~u ∈ U }
die Nebenklasse von ~v bezüglich U .
91
Satz: Sei V ein Vektorraum, U ein Unterraum von V und ~v , w
~ zwei Vektoren aus
V , dann gilt:
~v + U = w
~ +U
⇔ ~v − w
~ ∈U
⇔ w
~ ∈ ~v + U
Definition: Sei V ein Vektorraum, U ein Unterraum von V und K der Körper von
V , dann bezeichnet man die Menge
V/U = {~v + U | ~v ∈ V }
als Quotientenraum von V nach U .
Beobachtung: Der Quotientenraum V/U ist ein Vektorraum mit den Operationen
(~v + U ) + (w
~ + U ) = (~v + w)
~ +U
λ · (~v + U ) = (λ · ~v ) + U
~0 + U = U.
und dem neutralen Element
λ v +U
(v+w) +U
v +U
w +U
λv
U
v
w
Satz: Sei V ein Vektorraum, U ein Unterraum von V , dann ist
dim V/U = dim V − dim U
Beweis: Man definiert eine Abbildung ϕ : V → V/U durch
~v 7→ ~v + U
Die Abbildung ϕ ist linear und surjektiv (d.h. Im ϕ = V/U ) und Ker ϕ = U , denn
~v + U = U ⇐⇒ ~v ∈ U
Dann folgt aus der Dimensionsformel:
dim V = dim(Ker ϕ) + dim(Im ϕ) = dim U + dim V/U
Ist A ∈ M (m × n, K) eine Matrix und ~b ∈ K n ein Spaltenvektor, dann ist die
Lösungsmenge U = Lös(A, ~0) des homogenen Gleichungssystems ein Unterraum von
V = K n.
Die Lösungsmenge Lös(A, ~b) des linearen Gleichungssystems A · ~x = ~b ist eine Nebenklasse von U . Die Menge der Lösungsmengen bildet den Quotientenraum V/U , in
dem die Operationen die folgenden zusätzlichen Eigenschaften haben:
92
• Addition:
Ist Lös(A, ~b) = ~x+U und Lös(A, ~c) = ~y +U , dann ist (~x+~y )+U = Lös(A, ~b+~c)
• Multiplikation mit Skalaren:
Ist Lös(A | ~b) = ~x + U und λ ∈ K, dann ist λ ~x + U = Lös(A | λ ~b)
5.9
Inverse Matrizen
Der Ring M (n × n, K)
Die (n × n)–Matrizen über einem Körper K bilden einen Vektorraum und damit
eine kommutative Gruppe bezüglich der Addition. Wie wir bereits wissen, ist die
Multiplikation von Matrizen aus M (n × n, K) assoziativ. Darüber hinaus gibt es mit
der Einheitsmatrix En ein neutrales Element:


1 0 ··· 0
.
..

. .. 
0 1

En =  . .
 ∈ M (n × n, K),
. . . . . ... 
 ..
0 ··· ··· 1
denn für jede Matrix A ∈ M (n × n, K)) gilt En · A = A = A · En . Da
außerdem das Assoziativgesetz gilt, bilden die (n × n)–Matrizen einen sogenannten
Ring. Diese Struktur ist ähnlich zu der eines Körpers, aber die Multiplikation ist
nicht notwendigerweise kommutativ und es muss nicht für jedes nicht-Null Element
ein inverses Element bezüglich der Multiplikation geben.
Definition: Sei A ∈ M (n × n, K), dann ist A−1 die zu A inverse Matrix, wenn
A · A−1
= En
= A−1 · A
Man nennt eine Matrix A invertierbar, wenn eine zu A inverse Matrix A−1 existiert.
Satz: Eine Matrix A ∈ M (n × n, K) ist genau dann invertierbar, wenn rg A = n.
Beweis: Man beweist diesen Satz, indem man die Bijektion zwischen Matrizen und
linearen Abbildungen verwendet und dann die Dimensionsformel für lineare Abbildungen anwendet. Ist f ∈ Hom(K n , K n ) die zur Matrix A ∈ M (n × n, K) assoziierte
lineare Abbildung, dann gilt die folgende Kette von Äquivalenzen:
rg A = n ⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
⇐⇒
dim(Im f ) = n
dim(Im f ) = n und dim(Ker f ) = 0
f ist surjektiv und injektiv ⇐⇒ f ist bijektiv
Es gibt für f eine Umkehrfunktion g mit f g = IdK n und gf = IdK n
Für die zu g assoziierte Matrix B gilt AB = En und BA = En
A ist invertierbar
93
Da man nun mit der Umwandlung in obere Dreiecksform ein einfaches Mittel zur
Verfügung hat, das Entscheidungsproblem der Invertierbarkeit einer Matrix zu beantworten, bleibt noch die Frage offen, wie man für eine invertierbare Matrix A die inverse Matrix berechnen kann.
Wir werden dazu mehrere Verfahren kennen lernen. Zuerst überlegen wir uns, wie
man dieses Problem als lineares Gleichungssystem formulieren kann, danach werden
wir den Algorithmus zur Entwicklung der oberen Dreiecksform zu einem Verfahren
zur Matrixinvertierung modifizieren.
Bestimmung der inversen Matrix mit linearen Gleichungssystemen
Eine einfache Überlegung zu der mit A assoziierten linearen Abbildung f führt zu
einer ersten, naiven Methode zum Invertieren einer Matrix. Wenn eine inverse Matrix
existiert, korrespondiert sie zur inversen linearen Abbildung f −1 . Damit muss in der
j-ten Spalte von A−1 das Bild des j-ten Basisvektors unter f −1 stehen, also der
Spaltenvektor f −1 (ej ). Dieser Vektor ist aber gerade die (eindeutige!) Lösung des
linearen Gleichungssystems A · ~x = e~j . Man kann also die inverse Matrix durch
Lösung von n Gleichungssystemen bestimmen.
Bestimmung der inversen Matrix mit elementaren Umformungen
Dieses zweite Verfahren basiert auf einer Reihe von einfachen Beobachtungen:
a) Seien A, B, C ∈ M (n × n, K) Matrixen und A · B = C. Überführt man mit
den gleichen elementaren Zeilenumformungen A in A0 und C in C 0 (B bleibt
unverändert), so gilt A0 · B = C 0 .
Begründung: Jede Zeilenumformung kann durch Multiplikation von links mit
einer entsprechenden Elementarmatrix ausgeführt werden:
A0 · B = Dk · . . . · D2 · D1 ·A · B = Dk · . . . · D2 · D1 · C = C 0
{z
}
|
{z
}
|
Elementarmatrizen
Elementarmatrizen
b) Ist eine Matrix A ∈ M (n × n, K) invertierbar, so kann man A mit elementaren
Zeilenumformungen in En überführen.
Begründung: Da A den vollen Rang n hat, sind nach Überführung in eine
obere Dreiecksform alle Diagonalelemente ungleich Null und man kann schrittweise mit Umformungen vom Typ 3 alle Elemente über der Diagonale in Nullen
verwandeln und letztlich mit Umformungen vom Typ 2 alle Diagonalelemente
in Einsen verwandeln.
c) Überführt man die Matrix A durch Zeilenumformungen in En und wendet die
gleichen Umformungen auf En an, so erhält man A−1 .
Zur Begründung wendet man die Beobachtung a) an. Wir betrachten die Folge
von Zeilenumformungen, die A in En überführen. Sei X die Matrix, die man
durch Anwendung der gleichen Folge von Umformungen auf En erhält. Wir
94
wollen zeigen, dass X = A−1 ist. Das folgt aber aus der Anwendung von a) in
der folgenden Situation:
A=A
B = A−1
und
C = En
Offensichtlich ist mit AB = C die Voraussetzung erfüllt und wir haben
A
C = En
A0 = En
C0 = X
Nach a) ist dann A0 B = C 0 , damit En · A−1 = X und letztlich A−1 = X.
Wir demonstrieren das beprochene


1 2 0
A = 1 1 2 
0 −1 4


1 2 0
0 −1 2
0 −1 4


1 2 0
0 −1 2
0 0 2


1 0 4
0 −1 2
0 0 2


1 0 4
0 −1 0
0 0 2


1 0 0
0 −1 0
0 0 2


1 0 0
En = 0 1 0
0 0 1
Probe:
Verfahren an einem Beispiel:


1 0 0
0 1 0 = En
0 0 1


1 0 0
−1 1 0
0 0 1


1
0 0
−1 1 0
1 −1 1


−1 2 0
−1 1 0
1 −1 1


−1 2
0
−2 2 −1
1 −1 1


−3 4 −2
−2 2 −1
1 −1 1


−3
4
−2
 2
−2
1  = A−1
0, 5 −0, 5 0, 5

 
 

1 2 0
−3
4
−2
1 0 0
1 1 2  ·  2
−2
1  = 0 1 0
0 −1 4
0, 5 −0, 5 0, 5
0 0 1
95
5.10
Determinanten
Begriffseinführung für den Anwender
Definition: Die Determinante det A ist eine Kenngröße einer quadratischen Matrix A ∈ M (n × n, K), die man rekursiv bestimmen kann:
• Fall 1: n = 1
det (a1 1 ) = a1 1
• Fall 2: n > 1
Entwicklung nach der ersten Spalte:
n
X
det A =
(−1)i+1 ai 1 · det Ai 1
i=1
Dabei ist Ai 1 die Matrix, die man aus A durch Streichen der i-ten Zeile und
der ersten Spalte enthält.
An Stelle der Schreibweise det A kann man die Matrix auch mit Betragsstrichen
begrenzen:


a1 1 · · · a1 n a1 1 · · · a1 n

..  = ..
.. ..
.
.
det  ...
.
.
.
. 
. an 1 · · · an n
an 1 · · · an n Beispiel:
0
1
0
0
1
2
1
0
2
4
5
2
0 1 2 0
6
2+1
1 5 1
=
(−1)
·
1
·
1 0 2 0
0
5 1 − 1 · 2
= − 1 · 2
2 0
0
0
= − ((5 · 0 − 2 · 1) − (2 · 0 − 2 · 0))
= 2
Beobachtung: Für die Spezialfälle n = 2 und n = 3 ergibt sich aus der angegebenen Formel ein einfaches Schema zur Bestimmung der Determinanten, die sogenannte
Regel von Sarrus:
96
a1 1
a2 1
a3 1
a1 1 a1 2 a2 1 a2 2 = a1 1 · a2 2 − a1 2 · a2 1
a1 2 a1 3 a2 2 a2 3 = (a1 1 · a2 2 · a3 3 + a1 2 · a2 3 · a3 1 + a1 3 · a2 1 · a3 2 )
a3 2 a3 3 − (a1 3 · a2 2 · a3 1 + a1 1 · a2 3 · a3 2 + a1 2 · a2 1 · a3 3 )
Das Schema für (3 × 3)–Matrizen erhält man, indem die erste und die zweite Spalte
noch einmal auf der rechten Seiten der Matrix angehängt werden:
a1 1 a1 2 a1 3 a1 1 a1 2
a2 1 a2 2 a2 3 a2 1 a2 2
a3 1 a3 2 a3 3 a3 1 a3 2
Alle Summanden mit positiven Vorzeichen ergeben sich dann als Produkte der Werte
auf den Diagonalen von links oben nach rechts unten und alle Summanden mit negativen Vorzeichen ergeben sich dann als Produkte der Werte auf den Diagonalen von
rechts oben nach links unten.
Achtung: Ab n = 4 funktioniert dieses Schema nicht mehr!
Begriffseinführung für den Mathematiker
Üblicherweise werden Determinanten durch den folgenden Satz eingeführt, dessen
Beweis aber technisch sehr aufwändig ist.
Satz: Es gibt genau eine Abbildung det : M (n × n, K) → K mit den folgenden
Eigenschaften:
1. Die Abbildung det ist linear in jeder Zeile.
2. Wenn rg A < n, dann gilt det A = 0.
3. Für die Einheitsmatrix En gilt: det En = 1.
Diese Abbildung lässt sich durch die am Anfang angegebene Entwicklungsformel bestimmen.
Dabei bezieht sich der Begriff linear in jeder Zeile zu sein auf zwei Matrizen A und
A0 , die sich nur in einer (der i-ten) Zeile unterscheiden und an allen anderen Stellen
identisch sind:




a1 1 · · · a1 n
a1 1 · · · a1 n
.. 
.. 
 ..
 ..
. 
. 
 .
 .


 0
0
0 
A =  ai 1 · · · ai n 
und
A =  ai 1 · · · ai n 
 .

 .
.
.. 
.. 
 ..
 ..
. 
an 1 · · · an n
an 1 · · · an n
97
Die Determinante muss dann die folgenden Bedingungen erfüllen:



a1 1
···
a1 n
a1 1 · · ·
.
.


 ..
..
..


 .


0
0
0 
det ai 1 + ai 1 · · · ai n + ai n  = det A+det A und det λai 1 · · ·


 .
..
..


 ..
.
.
an 1
···
an n
an 1 · · ·

a1 n
.. 
. 

λai n  = λ·det A
.. 
. 
an n
Wir verzichten auf einen vollständigen Beweis und werden nur einige Ideen ableiten,
die sich unmittelbar aus den drei Eigenschaften ergeben. Zuerst untersuchen wir das
Verhalten bei elementaren Zeilenumformungen.
•
Bei Typ 2 Umformungen, d.h. Multiplikation einer Zeile mit einem Skalar λ,
folgt schon aus der ersten Eigenschaft, dass die Determinante der alten Matrix auch
mit λ multipliziert werden muss.
•
Jede Abbildung det mit den Eigenschaften 1) bis 3) ist invariant bei Zeilenumformungen vom Typ 3, d.h. die Determinante bleibt bei solchen Umformungen gleich:






a1 1 · · · a1 n
a1 1
···
a1 n
a1 1 · · · a1 n
..
..
.. 
.. 

 ..

 ..

 .

 .
.
.
. 
. 






 aj 1 · · · aj n 

 aj 1 · · · aj n 

aj 1
···
aj n



 .
..
..
.. 
.. 
 = det  ...

det 
.
.
. 
. 



 + det  ..

a + λa
a

λa


·
·
·
a
+
λa
·
·
·
a
λa
 i1
 i1
 j1
j1
in
j n
in
j n
 .

 .

..
..
.. 
.. 

 ..

 ..
.
. 
. 
.
an 1
···
an n
an 1 · · · an n
an 1 · · · an n
= det A + 0
Dabei ist die zweite Determinante gleich Null, weil in der Matrix die j-te und die i-te
Zeile linear abhängig sind und folglich der Rang kleiner als n ist.
•
Jede elementare Zeilenumformung vom Typ 1 (Vertauschung von zwei Zeilen)
bewirkt die Änderung des Vorzeichens der Determinate bei gleichbleibendem Betrag.
Man kann eine solche Umformung durch drei Umformungen vom Typ 3 und eine
Umformung vom Typ 1 simulieren:
A(0)
A(1)
A(2)
A(3)
A(4)
Zeile i
Zeile j
Zeile i
Zeile j
Beginn mit Matrix A
:= Zeile i+ Zeile j
:= Zeile j− Zeile i = − Zeile i von A
:= Zeile i+ Zeile j = Zeile j von A
:= (−1) · Zeile j = Zeile i von A
Die Umformungen (1) bis (3) sind vom Typ 3 und ändern die Determinate nicht, die
letzte Umformung ändert das Vorzeichen.
98
Folgerung: Die Determinante kann als Produkt der Diagonalelemente einer Matrix
in oberer Dreiecksform berechnet werden, wobei man die Überführung in diese Form
nur durch Zeilenumformungen realisieren und für jeden Zeilentausch zusätzlich mit
(-1) multiplizieren muss.
Beispiel:






1 1 2
1 1 2
1 1 2
A = 1 1 3 7→ 0 0 1  7→ 0 3 −1
2 5 3
0 3 −1
0 0 1
{z
}
|
Zeilentausch
und folglich ist det A = (−1) · 1 · 3 · 1 = −3.
Man beachte, dass wir bisher die Kernaussage des Satzes, nämlich dass eine solche
Abbildung det überhaupt existiert, noch nicht bewiesen haben, sondern nur unter der
Annahme, dass die Abbildung existiert, einige nützliche Eigenschaften nachgewiesen
haben. Der Kernbeweis erfordert einigen technischen Aufwand, den wir hier vermeiden werden. Als Nebenprodukt ergibt sich dabei auch die Tatsache, dass die Determinante durch Entwicklung nach einer beliebigen Spalte oder nach einer beliebigen
Zeile berechnet werden kann:
det A =
n
X
(−1)i+k ai k det Ai k
Entwicklung nach Spalte k
(−1)l+j al j det Al j
Entwicklung nach Zeile l
i=1
=
n
X
j=1
Die Regel, welches Vorzeichen für welchen Summanden verwendet werden muss, kann
man sich als Schachbrettmuster einprägen:


+ − + ...
− + − . . .



+ − + . . .



 .. .. .. . .

. . .

.
Wie das folgende Beispiel zeigt, kann man diese Eigenschaften sehr gut zur Vereinfachung der Determinantenberechnung nutzen, indem man vorrangig nach Zeilen
bzw. Spalten mit vielen Nullen entwickelt:
7 3 0 −1
7 3 −1
2 4 0 5 = (−1)3+3 · 2 · 2 4 5 8 −5 2 4 2 1 0 2 1 0 0 3 −1
7 −1
−1·
= 2 · 2 · 2 5 = 2 · (2 · 19 − 1 · 37) = 2
4 5
99
Letztlich kann man aus den oben genannten Fakten auch die folgende Beobachtung
ableiten.
Folgerung: Die Determinanten einer Matrix A und der zu A transponierten Matrix
At sind gleich:
det A = det At
Anwendungen von Determinanten
Determinanten haben sich als ein äußerst nützliches Werkzeug für vielfältige Anwendungen (in der Linearen Algebra und darüber hinaus) erwiesen. Wir werden uns hier
mit drei Anwendungsfeldern genauer beschäftigen:
1. Lösung von (speziellen) linearen Gleichungssystemen (Cramersche Regel)
2. Geometrische Anwendungen
3. Invertierung von Matrizen
Cramersche Regel
Sei A ∈ M (n × n, K) eine Matrix mit rg A = n und ~b ∈ K n ein Vektor. Dann hat
das lineare Gleichungssystem A · ~x = ~b eine eindeutige Lösung, die man wie folgt
bestimmen kann:
 
x1
det Ai
 .. 
für alle 1 ≤ i ≤ n
~x =  .  mit xi =
det A
xn
Dabei ist Ai die Matrix, die man erhält, wenn man die i-te Spalte von A durch ~b
ersetzt.
Beispiel: Es ist die Lösung des folgenden linearen Gleichungssystems zu bestimmen:
2x1 + 3x2 = 5
2 3
x1
5
↔
·
=
x1 − 2x2 = 2
1 −2
x2
2
Anwendung der Cramerschen Regel:
5
2
x1 = 2
1
2
1
x2 = 2
1
3 −2
−10 − 6
16
=
=
−4 − 3
7
3 −2
5
2
4−5
1
=
=
−4 − 3
7
3 −2
100
Geometrische Anwendungen I: Baryzentrische Koordinaten
Im Folgenden werden Punkte in der Ebene R2 und im Raum R3 betrachtet. Wir
werden die Punkte mit Großbuchstaben und die zugehörigen Ortsvektoren mit den
entsprechenden Kleinbuchstaben bezeichnen.
Seien P, Q, R ∈ R2 drei Punkte in der Ebene, die nicht auf einer Geraden liegen,
dann kann man den Ortsvektor ~t eines beliebigen Punkts T ∈ R2 eindeutig als Linearkombination
~t = a · p~ + b · ~q + c · ~r mit a + b + c = 1
darstellen. Die Koeffizienten a, b und c nennt man die baryzentrischen Koordinaten
oder auch Schwerpunktskoordinaten von T bezüglich P, Q und R. Man kann diese
Koordinaten als Lösung eines linearen Gleichungssystems berechnen:
px · a+ qx · b+ rx · c = tx
py · a+ qy · b+ ry · c = ty
a+
b+
c =1
Die Voraussetzung, dass P, Q und R nicht auf einer Geraden liegen, sorgt dafür, dass
dieses System eine eindeutige Lösung hat, die man mit der Cramerschen Regel finden
kann. Wir verwenden dazu eine spezielle Funktion, die wir mit pdet (abgekürzt für
Punktdeterminante) bezeichnen:
pdet : R2 × R2 × R2 → R

px qx rx
pdet (~p, ~q, ~r) := det py qy ry 
1 1 1

Aus der Cramerschen Regel ergeben sich die baryzentrischen Koordinaten wie folgt:
a=
pdet(~t, ~q, ~r)
pdet(~p, ~q, ~r)
b=
pdet(~p, ~t, ~r)
pdet(~p, ~q, ~r)
c=
pdet(~p, ~q, ~t)
pdet(~p, ~q, ~r)
Eine wichtige Eigenschaft der baryzentrischen Koordinaten besteht darin, dass der
Punkt T genau dann in dem von P, Q und R aufgespannten Dreieck liegt, wenn
alle baryzentrischen Koordinaten von T im Intervall [ 0 , 1 ] liegen. Der Punkt T liegt
genau dann auf dem Rand des Dreiecks, wenn eine baryzentrischen Koordinate gleich
Null ist und die anderen beiden in [ 0 , 1 ] liegen.
Mit Hilfe der baryzentrischen Koordinaten kann man auch Bildverzerrungen wie das
in der Computergrafik verwendete Warping realisieren. Dabei wird vorausgesetzt,
dass über ein gegebenes Bild ein Dreiecksgitter gelegt ist und die verzerrte Abbildung der Gitterpunkte bekannt ist. Zu bestimmen ist, wohin die inneren Punkte der
Dreiecke abzubilden sind. Dazu berechnet man die baryzentrischen Koordinaten des
abzubildenden Punktes T in einem Dreieck ∆(P, Q, R) und definiert den Bildpunkt
T 0 als Punkt mit den gleichen baryzentrischen Koordinaten im verzerrten Dreieck
∆(P 0 , Q0 , R0 ).
101
R’
R
T’
T
P
P’
Q’
Q
Geometrische Anwendungen II: Dreiecksfläche und Volumen eines Simplexes
Seien p~, ~q, ~r ∈ R2 die Ortsvektoren der Punkte P , Q und R, dann kann man aus
der oben eingeführten Punktdeterminate die folgenden geometrischen Eigenschaften
ablesen:
• Die Punkte P , Q und R liegen genau dann auf einer Linie, wenn
pdet(~p, ~q, ~r) = 0
−→
• Der Punkt R liegt genau dann links von der gerichteten Geraden P Q, wenn
pdet(~p, ~q, ~r) > 0
−→
• Der Punkt R liegt genau dann rechts von der gerichteten Geraden P Q, wenn
pdet(~p, ~q, ~r) < 0
• Die Fläche des von P , Q und R aufgespannten Dreiecks beträgt:
pdet(~p, ~q, ~r) 2
Beispiel: P = (−3, −2), Q = (5, 3) und R = (14, 8) in R2 :
R
Q
P
102
−3 5 14
pdet(~p, ~q, ~r) = −2 3 8 = −9 + 40 − 28 − 42 + 10 + 24 = −5 < 0
1 1 1
−−−−−−−−−→
Daraus folgt, dass (14, 8) rechts von der gerichteten Geraden (−3, −2)(5, 3) liegt und
dass die Fläche des von den drei Punkten aufgespannten Dreiecks 2, 5 beträgt.
Diese Eigenschaften lassen sich auch auf höhere Dimensionen übertragen. Seien P ,
Q, R und S Punkte in R3 , dann ist die Größe


p
q
r
s
x
x
x
x
1


· det py qy ry sy 
6
pz qz rz sz 
1 1 1 1 das Volumen des von den vier Punkten aufgespannten Simplexes. Falls die vier
Punkte auf einer Ebene liegen, ist der Wert 0.
Komplementärmatrix
Definition: Die zu einer Matrix A ∈ M (n × n, K) komplementäre Matrix à =
(ãi j )(i,j)∈n×n ist wie folgt definiert:
ãi j = (−1)i+j · det Aj i
Dabei ist Aj i die Matrix, die man aus A durch Streichen der j-ten Zeile und der i-ten
Spalte enthält.
Satz: A · Ã = (det A) · En
Beweis: Auf der Diagonalen von C := A · Ã steht immer det A, denn der Koeffizient
ci i kann leicht in die Entwicklung von det A nach der i–ten Zeile umgewandelt werden:
ci i =
n
X
ai k · ãk i
k=1
=
n
X
ai k · (−1)k+i · det Ai k
k=1
= det(A)
Bei der Berechnung eines Koeffizienten ci j , der nicht auf der Diagonalen liegt, beginnt
man mit dem gleichen Ansatz, stellt dann aber fest, dass die Werte der Terme det Aj k
überhaupt nicht vom Inhalt der j-ten Zeile von A abhängen, d.h. wenn man aus A
eine Matrix A0 bildet, bei der die j–te Zeile durch die i–te Zeile ersetzt ist, erhält
man die gleiche Formel. In A0 gilt wegen der Identität der i–ten und j–ten Zeile
a0j k = a0i k = ai k . Auf diesem Umweg kommt man zur Entwicklung der Determinate
103
von A0 nach der j–ten Zeile. Da aber A0 zwei identische Zeilen hat, ist det A0 = 0.
ci j =
=
n
X
k=1
n
X
ai k · ãk j
ai k · (−1)k+j · det Aj k
k=1
=
n
X
(−1)k+j · a0j k · det A0j k
k=1
= det(A0 ) = 0
Folgerung: Ist det A 6= 0, dann ist A invertierbar und A−1 =
Ã
.
det A
Spezialfall: Für A ∈ M (2 × 2, K) gilt:
−1
1
a b
d −b
=
·
für ad − bc 6= 0
c d
−c a
ad − bc
Die Determinate eines Endomorphismus
Satz: Für alle A, B ∈ M (n × n, K) gilt:
det(A · B) = det A · det B
Wir verzichten auf einen Beweis diese Satzes, wollen aber dafür eine wichtige Schlussfolgerung ziehen.
Satz: Sei f : K n → K n ein Endomorphismus, A die zu f gehörende Matrix
bezüglich der Standardbasis B1 und B eine zu f gehörende Matrix bezüglich einer
anderen Basis B2 , dann ist det A = det B.
Beweis: Sie C die Matrix, deren Spalten die Vektoren aus B2 sind. Damit beschreibt
C die Abbildung des Basiswechsels von B1 nach B2 bezüglich der Standardbasis. Die
Matrix C ist invertierbar und die inverse Matrix C −1 beschreibt den umgekehrten
Basiswechsel. Offensichtlich gilt nun:
C −1 · A · C = B.
Durch Anwendung des Satzes über die Determinante des Matrixprodukts erhalten
wir:
det B = det (C −1 ) · det A · det C = det A · det (C −1 · C) = det A · det En = det A.
104
Folgerung: Man kann jedem Endomorphismus f : K n → K n eindeutig seine Determinante det f = det A zuordnen, wobei A die Abbildung f bezüglich einer beliebigen
Basis repräsentiert.
Beispiel: Wir wollen die im Beweis beschriebene Methode zum Basiswechsel an
einem einfachen Beispiel nachvollziehen. Dazu betrachten wir als Endomorphismus
f die Spiegelung des Raums R2 an der x–Achse. Wir wählen
1
0
1
1
B1 =
,
die Standardbasis und B2 =
,
eine andere Basis.
0
1
1
−1
Das hat den Vorteil, dass wir nicht nur die Matrix A kennen, sondern auch schon
B, denn durch die Spiegelung an der x–Achse wird der erste Vektor von B2 auf den
zweiten und der zweite Vektor von B2 auf den ersten abgebildet, d.h.
1 0
0 1
A=
und
B=
0 −1
1 0
Damit kennen wir schon
das Ergebnis, das eigentlich noch berechnet werden soll.
1 1
Wir wissen, dass C =
ist und können C −1 durch die Komplementärmatrix
1 −1
bestimmen:
1
1 −1 −1
0.5 0.5
−1
C =
· C̃ =
=
0.5 −0.5
det C
−2 −1 1
Durch Ausführung der Matrixmultiplikation C −1 · A · C erhält man tatsächlich die
oben dargestellte Matrix B.
5.11
Eigenwerte und Eigenvektoren
Diagonalisierbarkeit
Wir haben bereits im Zusammenhang mit inversen Matrizen die Auswirkungen eines
Basiswechsels für die Matrixdarstellung eines Endomorphismus kennengelernt, sind
dabei aber noch nicht auf die Frage eingegangen, ob und wann ein solcher Basiswechsel
eigentlich sinnvoll ist. Der Nutzen eines Basiswechsels liegt sicherlich immer dann klar
auf der Hand, wenn durch diesen Wechsel eine sehr einfache Matrix entsteht. Das
trifft insbesondere auf den folgenden Fall zu.
Definition: Ein Endomorphismus f ∈ Hom (V, V ) wird diagonalisierbar genannt,
wenn eine Basis von V existiert, für die die Matrixdarstellung A von f Diagonalgestalt
hat, d.h. wenn A außerhalb der Diagonalen nur Nullen hat. Eine solche Basis nennt
man Diagonalbasis von f .
Zu den wesentlichen Vorteilen einer Diagonalmatrix A ∈ M (n × n, K) gehören die
folgenden Aspekte:
• Das Bild eines beliebigen Vektors ~v ∈ V kann mit n Multiplikationen und n − 1
Additionen bestimmt werden.
105
• Man kann die Determinante von A mit n − 1 Multiplikationen bestimmen und
damit auch entscheiden, ob A invertierbar ist.
• Falls A invertierbar ist, kann man A−1 mit n Divisionen berechnen.
Der Fakt, dass jeder Vektor ~v einer Diagonalbasis die Eigenschaft f (~v ) = λ~v hat,
führt zur folgenden Begriffsbildung.
Definition: Ist f ∈ Hom (V, V ) ein Endomorphismus, ~v 6= ~0 ein Vektor aus V und
λ ∈ K, so dass
f (~v ) = λ~v
gilt, so wird ~v Eigenvektor von f zum Eigenwert λ genannt.
Lemma: Ist M = {~v1 , ~v2 , . . . , ~vr } eine Menge von Eigenvektoren eines Endomorphismus f zu paarweise verschiedenen Eigenwerten λ1 , . . . , λr , so ist M linear unabhängig.
Beweis durch Induktion nach r:
Der Induktionsanfang für r = 1 ist trivial, denn ein Eigenvektor ist nach Definition
nicht der Nullvektor und damit ist {~v1 } linear unabhängig.
Sei die Aussage wahr für alle Mengen mit r Vektoren und sei M 0 = {~v1 , ~v2 , . . . , ~vr+1 }
eine Menge von Eigenvektoren eines Endomorphismus f zu paarweise verschiedenen
Eigenwerten λ1 , . . . , λr+1 . Zu zeigen ist, dass jede Linearkombination
~0 = µ1~v1 + . . . + µr~vr + µr+1~vr+1
trivial ist, d.h. dass µ1 = . . . = µr = µr+1 = 0 ist. Dazu betrachtet man die
Abbildung dieser Linearkombination unter f :
~0 = f (~0) = f (µ1~v1 + . . . + µr~vr + µr+1~vr+1 )
= µ1 f (~v1 ) + . . . + µr f (~vr ) + µr+1 f (~vr+1 )
= µ1 λ1~v1 + . . . + µr λr~vr + µr+1 λr+1~vr+1
Durch subtraktive Verknüpfung dieser Gleichung mit der Gleichung
~0 = λr+1~0 = λr+1 (µ1~v1 + . . . + µr~vr + µr+1~vr+1 )
= µ1 λr+1~v1 + . . . + µr λr+1~vr + µr+1 λr+1~vr+1
erhält man
~0 = µ1 (λ1 − λr+1 )~v1 + . . . + µr (λr − λr+1 )~vr + µr+1 (λr+1 − λr+1 ) ~vr+1 .
{z
}
|
=0
Da ~vr+1 in dieser Linearkombination verschwindet und nach Induktionsvoraussetzung
die Menge {~v1 , ~v2 , . . . , ~vr } linear unabhängig ist, muss die Linearkombination trivial
sein. Unter Berücksichtigung der Verschiedenheit der Eigenwerte ergibt sich
µ1 (λ1 − λr+1 ) = . . . = µr (λr − λr+1 ) = 0
|
{z
}
| {z }
6=0
6=0
106
=⇒
µ1 = . . . = µr = 0
und daraus folgt auch µr+1 = 0, womit die Induktionsbehauptung bewiesen ist.
Folgerung: Ist dim V = n und der Endomorphismus f ∈ Hom (V, V ) hat n Eigenwerte, dann ist f diagonalsierbar.
Auf Grund des Lemmas bildet jede Menge von Eigenvektoren zu den n Eigenwerten
eine Basis von V . Offensichtlich ist das eine Diagonalbasis, denn die zugehörige
Matrixdarstellung von f hat auf der Diagonalen die Eigenwerte und sonst nur Nullen.
Wie wir sehen werden, ist die Existenz von n Eigenwerten aber keine notwendige
Voraussetzung für die Diagonalisierbarkeit.
Eigenräume
Sind ~v und w
~ zwei Eigenvektoren von f ∈ Hom (V, V ) zum selben Eigenwert λ,
dann ist auch jede (von ~0 verschiedene) Linearkombination aus ~v und w
~ ein Eigenvektor zum Eigenwert λ, mit anderen Worten bilden die Eigenvektoren zu λ zusammen mit dem Nullvektor einen Unterraum von V . Da f (~v ) = λ~v äquivalent ist zu
(f − λ IdV ) (~v ) = ~0, kann man diesen Unterraum auch als Kern des Endomorphismus
f − λ IdV charakterisieren.
Definition: Ist λ ein Eigenwert von f ∈ Hom (V, V ), dann nennt man den Unterraum Eλ := Ker (f − λ IdV ) den Eigenraum von λ. Die Dimension von Eλ wird
geometrische Vielfachheit von λ genannt.
Satz: Ein Endomorphismus f ∈ Hom (V, V ) mit den Eigenwerten λ1 , . . . , λr ist
genau dann diagonalisierbar, wenn
r
X
dim Eλk = dim V.
k=1
Beweis: Man verwendet das Lemma über die lineare Unabhängigkeit von Eigenvektoren zu verschiedenen Eigenwerten um zu zeigen, dass die Vereinigung der Basen
der Eigenräume Eλ1 , . . . , Eλr auch eine linear unabhängige Menge ist. Damit ist diese
Vereinigung genau dann eine Basis von V , wenn sie n = dim V Elemente hat.
Wenn man alle Eigenwerte von f kennt, ist es nicht schwer, die Diagonalisierbarkeit
von f zu überprüfen, denn die Eigenräume zu den Eigenwerten λi sind die Kerne
der Endomorphismen f − λi IdV . Es bleibt also zu klären, wie man die Menge der
Eigenwerte von f bestimmen kann.
Charakteristisches Polynom
Definition: Sei V ein n–dimensionaler Vektorraum und f ∈ Hom (V, V ), dann
nennt man die Determinante det (f − λ · IdV ) das charakteristische Polynom von f .
Da wir wissen, dass die Determinante eines Epimorhismus auf V nicht von der Wahl
der Basis von V abhängig ist, kann man das charakteristische Polynom von f auch als
det (A − λ · En ) definieren, wobei A eine Matrixdarstellung von f für eine beliebig
107
gewählte Basis von V ist. Das charakteristische Polynom ist ein Polynom vom Grad
n mit der Unbekannten λ und wird mit Pf (λ) bezeichnet.
Satz: Sei V ein n–dimensionaler Vektorraum und f ∈ Hom (V, V ). Ein Element α
des Körpers ist genau dann Eigenwert von f , wenn es Nullstelle des charakteristischen
Polynoms Pf (λ) ist.
Beweis: Wie wir bereits wissen, ist ein α genau dann ein Eigenwert von f , wenn
es einen (von ~0 verschiedenen!) Eigenvektor zu α gibt, d.h. wenn der Eigenraum
Eα = Ker (f − α · IdV ) mindestens Dimension 1 hat. Nach Dimensionsformel gilt
dann:
dim (Im (f − α · IdV )) = dim V − dim (Ker (f − α · IdV )) ≤ n − 1
Da ein Endomorphismus genau dann vollen Rang hat, wenn seine Determinante ungleich 0 ist, kann man obige Bedingung äquivalent in det (f − α · IdV ) = 0 umwandeln und damit ist α Nullstelle des charakteristischen Polynoms.
Beispiel:

1 0
Für den durch die Matrix A = 0 −1
2 0
alle Eigenwerte und Basen der jeweiligen

2
2 gegebenen Endomorphismus f sollen
1
Eigenräume bestimmt werden.
• Charakteristisches Polynom:


1−λ
0
2
−1 − λ
2  = −λ3 + λ2 + 5λ + 3
Pf (λ) = det (A − λ · En ) = det  0
2
0
1−λ
• Nullstellen des charakteristischen Polynoms:
λ1 = −1 (eine doppelte Nullstelle) und λ2 = 3 (einfache Nullstelle)
• Basis des Eigenraums E−1 :


2 0 2
Dazu betrachtet man den Kern der Matrix (A − (−1)En ) = 0 0 2.
2 0 2
Da der Rang dieser
Matrix
2
ist,
hat
der
Kern
nur
Dimension
1
und
offensichtlich
 
0
ist der Vektor 1 ein Basisvektor des Kerns.
0
• Basis des Eigenraums E3 :


−2 0
2
Dazu betrachtet man den Kern der Matrix (A − 3En ) =  0 −4 2 .
2
0 −2
108
Da der Rang dieser
 Matrix 2 ist, hat der Kern nur Dimension 1 und offensichtlich
2

ist der Vektor 1 ein Basisvektor des Kerns.
2
• Schlussfolgerung: Da die Summe der Eigenraumdimensionen kleiner als 3 ist,
ist die Abbildung f nicht diagonalisierbar.
109
Herunterladen